DOMDocument кодировка при сохранении в HTML

PHP поддерживает работу с классом DOMDocument, но есть некоторые особенности, которые требуют внимания. Одна из них — это html кодирование символов, если вы не укажете в заголовке документа мета информацию о кодировке.

Рассмотрим пример:

<?php
$doc = new DomDocument('1.0', 'UTF-8');
$file = @$doc->loadHTML('Это мой <i>документ</i> в HTML');
echo @$doc->saveHTML();
?>

<?php

$doc = new DomDocument('1.0', 'UTF-8');

$file = @$doc->loadHTML('Это мой документ в HTML');

echo @$doc->saveHTML();

В зависимости от того, в какой кодировке был ваш текст, получится разный результат. Вот пример, когда ваш текст был в win-1251:

<span class="html-tag"><p></span>&Yacute;&ograve;&icirc; &igrave;&icirc;&eacute; 
<span class="html-tag"><i></span>&auml;&icirc;&ecirc;&oacute;
&igrave;&aring;&iacute;&ograve;<span class="html-tag"></i></span> &acirc; HTML<span class="html-tag"></p></span>

Ýòî ìîé

äîêó

ìåíò â HTML

А вот пример для исходного текста в UTF-8:

<span class="html-tag"><p></span>&ETH;&shy;&Ntilde;&#130;&ETH;&frac34; &ETH;&frac14;&ETH;&frac34;
&ETH;&sup1; <span class="html-tag"><i></span>&ETH;&acute;&ETH;&frac34;&ETH;&ordm;&Ntilde;&#131;
&ETH;&frac14;&ETH;&micro;&ETH;&frac12;&Ntilde;&#130;<span class="html-tag"></i></span> &ETH;&sup2; HTML<span class="html-tag"></p></span>

ÐÑÐ¾ Ð¼Ð¾

Ð¹ Ð´Ð¾ÐºÑ

Ð¼ÐµÐ½Ñ Ð² HTML

Видно, что кириллические символы представлены в виде 16ти-ричных HTML кодов.

Почему вывелась не исходная кириллица, а была произведена перекодировка? Произошло это от того, что программа не знает, какая кодировка должна быть у документа — она ведь не указана. Для функции saveHTML() её нужно указать в секции документа head, как meta-тэг:

<?php
$doc = new DomDocument('1.0', 'UTF-8');
$file = @$doc->loadHTML('<head>
  <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
</head>' . 'Это мой <i>документ</i> в HTML');
echo @$doc->saveHTML();
?>

<?php

$doc = new DomDocument('1.0', 'UTF-8');

$file = @$doc->loadHTML('<head>

</head>' . 'Это мой документ в HTML');

echo @$doc->saveHTML();

Если указанная кодировка в meta совпадает с кодировкой текста, то вы получите на выходе:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"></head>
<body><p>Это мой <i>документ</i> в HTML</p></body></html>

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">

<body>Это мой документ в HTML</body></html>

Написать комментарий

Данная запись опубликована в 20.12.2016 17:13 и размещена в рубрике PHP. Вы можете перейти в конец страницы и оставить ваш комментарий.

Мало букафф? Читайте есчо !

Можно ли вызвать статический метод trait в php, не подключая его к какому то классу?

Май 27, 2025 г.

Если коротко - нельзя. Вызвать какой метод трейта напрямую без подключения его к классу невозможно, т.к. трейты в PHP не являются самостоятельными сущностями, как классы или объекты. Трейт — это механизм "вклейки" кода в класс. Он не компилируется ...

Читать

Публикация в Twitter средствами API (размещение текста, ссылки, картинки)

Апрель 11, 2013 г.

Да, представьте себе, у этой "пижни" есть свой API! Раньше им пользоваться было намного проще, не было этих наворотов с OAuth. Не смотря на мое личное ...

Читать

Разбить строку на буквы в PHP

Январь 13, 2017 г.

Это задача - классика алгоритмов. В каждом языке программирования есть свои особенности. Для паскаля, к примеру, строка - это массив символов, потому ...

Читать

Проверка кода ИНН на PHP

Сентябрь 23, 2015 г.

В этом году писал реализацию данной функции для проекта C2C-base. Оказывается, бывает ИНН двух видов - для юридических лиц и физ лиц - 10 или 12 знаков соответственно. Проверка большинства подобных кодов осуществляется по контрольным цифрам, содержащимся ...

Читать

Комментарии к «DOMDocument кодировка при сохранении в HTML»

Понравилась статья? Есть вопросы? - пишите в комментариях.

Имя (обязательно)	Е-майл (не будет опубликован на сайте, обязательно для заполнения)
Комментарий: