+7 (495) 229-0436   shopadmin@itshop.ru 119334, г. Москва, ул. Бардина, д. 4, корп. 3
 
 
Вход
 
 
Каталог
 
 
Подписка на новости
Новости ITShop
Windows 7 и Office: Новости и советы
Обучение и сертификация Microsoft
Вопросы и ответы по MSSQLServer
Delphi - проблемы и решения
Adobe Photoshop: алхимия дизайна
 
Ваш отзыв
Оцените качество магазина ITShop.ru на Яндекс.Маркете. Если вам нравится наш магазин - скажите об этом Google!
 
 
Способы оплаты
 
Курс расчета
 
 1 у.е. = 92.51 руб.
 
 Цены показывать:
 
 
 
 
  
Новости, статьи, акции
 

Нахождение кодировки веб-страницы.

08.04.2011 15:29

В принципе, для постоянных посетителей моего блога этот пост не несет какой-либо сверх-новой информации по работе с веб-страницами в Delphi. Тема кодировок поднималась в той или иной мере уже несколько раз на WebDelphi и этот пост скорее является, чем-то средним между постом, объединяющим воедино разбросанную по другим постам информацию и большим-большим ответом на комментарий пользователя.

Задачу будем решать следующую: есть некая веб-страница (адрес заранее не известен), требуется получить какой-либо текст с этой страницы удобоваримом читабельном виде, т.е. без знаков ?????, кракозябров и т.д.

Как известно всем ещё со школьной скамьи - любую задачу можно решить несколькими способами. Посмотрим, что за способы можно использовать для получения кодировки web-страницы в Delphi.

Способ №1 - определение кодировки по заголовкам сервера.

Любой запрос на сервер или ответ сервера содержит заголовки (Headers) - прописная истина, которую должно знать всем. Если сервер возвращает нам заголовок Content-Type, то по нему можно попробовать узнать кодировку текста на странице, например, при использовании Synapse код поиска кодировки по заголовкам может быть таким:

function GetCharset(Headers: TStringList): string;
var i:integer;
begin
  if Headers.Count=0 then Exit;
  for I := 0 to Headers.Count - 1 do
    begin
      //Content-Type: text/html; charset=UTF-8
      if Pos('content-type',LowerCase(Headers[i]))>0 then
        if pos('=',Headers[i])>0 then
          Result:=LowerCase(Copy(Headers[i],pos('=',Headers[i])+1,
                  Length(Headers[i])-pos('=',Headers[i])))
        else
          Result:=DefCharset;
    end;
end

Если заголовок Content-Type содержит, например, вот такой текст:

Content-Type: text/html; charset=UTF-8

То функция вернет нам значение "UTF-8" - то что нам и надо для того, чтобы правильно преобразовать кодировку (для того как преобразовать кодировку, см. "3 варианта работы с кодировками веб-страниц в Delphi.").

Сами заголовки Вы можете получить двумя способами:

  1. Отправив GET-запрос на адрес - в этом случае заголовки придут вместе с содержимым документа
  2. Перед выполнением GET-запроса можно отправить запрос HEAD - в этом случае ответное сообщение сервера будет содержать только заголовки без тела сообщения.

Почему в начале этого раздела я сказал "можно попробовать узнать кодировку"? Потому что сервер в заголовке Content-Type не всегда возвращает значение кодировок. Поэтому всегда предусматривайте какое-либо дефолтное значение кодировки, например, как в приведенном выше листинге - дефолтная кодировка заносится в константу DefCharset .

Способ №2 - определение кодировки страниц по мета-тегам.

Если поиск кодировки по способу №1 не увенчался успехом можно прибегнуть к способу №2 - вытащить кодировку из мета-тегов страницы. Для этого нам надо пропарсить контент странички в поисках вот такого мета-тега:

< meta http-equiv="Content-Type" content="text/html; charset=utf-8" / >
 

Как это сделать? Да как Вам будет угодно, например, если вспомнить. что в Delphi XE появился модуль для работы с регулярными выражениями, то функция парсинга будет иметь следующий довольно компактный вид:

function TForm5.CharsetByMeta(Body: string): string;
const
  Pattern = '';
var
  RegEx: TRegEx;
  M: TMatchCollection;
begin
  //
  RegEx := TRegEx.Create(Pattern, [roIgnoreCase, roMultiLine]);
  if RegEx.IsMatch(Body) then
  begin
    M:= RegEx.Matches(Body);
    Result := Trim(M[0].Groups[1].Value);
  end
  else
    Result := DefCharset;
end;

Функция вытаскивает из мета-тега значение кодировки. Опять же следует помнить, что и этот способ может не сработать, поэтому в функции опять встречается константа DefCharset .

И, наконец, после того как кодировка определена, Вы можете приступать к переводу кракозябров на русский язык. На всякий случай приведу ссылку на документ, который содержит таблицу всех стандартных кодировок, их идентификаторов, синонимов и кодовых страниц - вот она.

  
Помощь
Задать вопрос
 программы
 обучение
 экзамены
 компьютеры
Бесплатный звонок
ICQ-консультанты
Skype-консультанты

Общая справка
Как оформить заказ
Тарифы доставки
Способы оплаты
Прайс-лист
Карта сайта
 
Бестселлеры
Курсы обучения "Atlassian JIRA - система управления проектами и задачами на предприятии"
Microsoft Windows 10 Профессиональная 32-bit/64-bit. Все языки. Электронный ключ
Microsoft Office для Дома и Учебы 2019. Все языки. Электронный ключ
Курс "Oracle. Программирование на SQL и PL/SQL"
Курс "Основы TOGAF® 9"
Microsoft Office 365 Персональный 32-bit/x64. 1 ПК/MAC + 1 Планшет + 1 Телефон. Все языки. Подписка на 1 год. Электронный ключ
Курс "Нотация BPMN 2.0. Ее использование для моделирования бизнес-процессов и их регламентации"
 

О нас
Интернет-магазин ITShop.ru предлагает широкий спектр услуг информационных технологий и ПО.

На протяжении многих лет интернет-магазин предлагает товары и услуги, ориентированные на бизнес-пользователей и специалистов по информационным технологиям.

Хорошие отзывы постоянных клиентов и высокий уровень специалистов позволяет получить наивысший результат при совместной работе.

В нашем магазине вы можете приобрести лицензионное ПО выбрав необходимое из широкого спектра и ассортимента по самым доступным ценам. Наши менеджеры любезно помогут определиться с выбором ПО, которое необходимо именно вам. Также мы проводим учебные курсы. Мы приглашаем к сотрудничеству учебные центры, организаторов семинаров и бизнес-тренингов, преподавателей. Сфера сотрудничества - продвижение бизнес-тренингов и курсов обучения по информационным технологиям.



 

О нас

 
Главная
Каталог
Новинки
Акции
Вакансии
 

Помощь

 
Общая справка
Как оформить заказ
Тарифы доставки
Способы оплаты
Прайс-лист
Карта сайта
 

Способы оплаты

 

Проекты Interface Ltd.

 
Interface.ru   ITShop.ru   Interface.ru/training   Olap.ru   ITnews.ru  
 

119334, г. Москва, ул. Бардина, д. 4, корп. 3
+7 (495) 229-0436   shopadmin@itshop.ru
Проверить аттестат
© ООО "Interface Ltd."
Продаем программное обеспечение с 1990 года