Утилита для извлечения данных и парсинга HTML кода

Я иногда ссылаюсь на данную утилиту в примерах. Выкладываю её код и примеры использования.

Примеры использования.

Я привожу пример экспорта статей с одного из своих рабочих проектов — delovoymir2003.ru. Я выполнял программирование и переносом публикаций со старого сайта на сайт под drupal. Пример максимально конкретный.

$source = file_get_contents($_POST['url']);
//создаём экземпляр класса parser
$p = new parser($source);

$source = file_get_contents($_POST['url']);

//создаём экземпляр класса parser

$p = new parser($source);

Далее мы производим «первичный парсинг», т.е. извлекаем нужные куски данных из HTML документа. Они могут потребовать дополнительных проверок и преобразований позднее.

Заголовок статьи в данном примере находится в обрамлении — <h2 class=»itemTitle»>…</h2>. Было бы верно его разместить внутри H1, я сделаю на новом сайте после экспорта.

$h1 = $p->getInsideScope('<h2 class="itemTitle">', '</h2>');

1	$h1 = $p->getInsideScope('<h2 class="itemTitle">', '</h2>');

Курсор внутри объекта parse перемещается за найденный заголовок. Далее идет дата, обрамленная <h4 class=»itemTitle»>…</h4>. Пока просто извлечем её, чтобы на 2м этапе парсинга преобразовать её в UNIX_TIMESTAMP.

$date = $p->getInsideScope('<h4 class="itemTitle">', '</h4>');

1	$date = $p->getInsideScope('<h4 class="itemTitle">', '</h4>');

Картинка может быть в шаблоне, а может не быть, об этом нам сигнализирует наличие обрамления <div class=»itemImageBlock»>…</div>.

if ($p->setNext('<div class="itemImageBlock">'))
    $img = $p->getFromScope('<img', '>');
else 
    $img = false;

if ($p->setNext('<div class="itemImageBlock">'))

$img = $p->getFromScope('<img', '>');

else

$img = false;

Вводный текст или тизер (краткое изложение) — тоже не обязательный атрибут статьи в примере.

if ($p->setNext('<div class="itemIntroText">')) {
    $text_intro = $p->getInsideScope('<div class="itemIntroText">', '</div>');
} else {
    $text_intro = '';
}

if ($p->setNext('<div class="itemIntroText">')) {

$text_intro = $p->getInsideScope('<div class="itemIntroText">', '</div>');

} else {

$text_intro = '';

}

Полный текст может подкинуть разные сюрпризы. Я, например, придерживаюсь правила : не использовать при создании статей тэг-а <div>. Но другие веб-мастера, верстальщики и программисты, могут придерживаться своих правил. :) В том числе, могут не соблюдать рекомендации W3C. Т.е. документ по разным причинам может содержать ошибки. Потому в поисках окончания текста я опираюсь на следующий после статьи блок <div class=»itemBody childs»>…</div>.

if ($p->setNext('<div class="itemFullText">')) {
    $text_full = $p->getInsideScope('<div class="itemFullText">',
          '<div class="itemBody childs">');
    //надо отрезать с конца один закрывающий </div>
    $text_full = substr($text_full, 0, strrpos($text_full, '</div>'));
} else {
    $text_full = '';
}

if ($p->setNext('<div class="itemFullText">')) {

$text_full = $p->getInsideScope('<div class="itemFullText">',

'<div class="itemBody childs">');

//надо отрезать с конца один закрывающий </div>

$text_full = substr($text_full, 0, strrpos($text_full, '</div>'));

} else {

$text_full = '';

}

Текст утилиты. Класс parser.

// Автор - SHRA, 2014. 
// описание :
// http://shra.ru/2016/02/utilita-dlya-izvlecheniya-dannykh-i-parsinga-html-koda
// утилитарный парсер, для разбора HTML данных из шаблонов

class parser {
    //позиция курсора в тексте
    var $c = 0; 
    //рабочий текст
    var $s = '';
    
    //конструктор, на вход передаем HTML текст
    function parser(&$s) {
        $this->s = $s;
    }

    //далее идут методы класса

    //переместить указатель на ближайшую позицию указанной подстроки
    function setNext($ss) {
        $new = stripos($this->s, $ss, $this->c);
        if ($new  === false) 
            return false;

        $this->c = $new;
        return true;
    }

    //переместить указатель на ближайшую позицию указанной подстроки, но двигаясь назад
    function setPrev($ss) {
        $part = substr($this->s, 0, $this->c);
        $new = strripos($part, $ss);
        if ($new  === false) 
            return false;

        $this->c = $new;
        return true;
    }    
    
    //ищем ближайшую позицию строки из набора $right
    //курсор передвигается в начало ближайшего из найденных маркеров
    function setClosestPoint($right) {
        $posResult = -1;
        foreach($right as $str) {
            $posRight = stripos($this->s, $str, $this->c);
            if ($posRight !== false && ($posResult == -1 || $posRight < $posResult))
               $posResult = $posRight;
        }
        
        if ($posResult == -1) return false;
        $found = substr($this->s, $this->c, $posResult - $this->c);
        $this->c = $posResult;
        return $found;
    }
    
    //выбрать элемент ограниченный строками
    //курсор передвигается за пределы найденного паттерна
    function getFromScope($left, $right) {
        $posLeft = stripos($this->s, $left, $this->c);
        if ($posLeft === false) return false;

        $posRight = stripos($this->s, $right, $posLeft + strlen($left));
        if ($posRight === false) return false;
        
        $this->c = $posRight + strlen($right);
        return substr($this->s, $posLeft, $this->c - $posLeft);
    }
    
    //выбрать элемент ограниченный строками (возвращаем то, что внутри маркеров)
    //курсор передвигается за пределы найденного паттерна
    function getInsideScope($left, $right) {
        $posLeft = stripos($this->s, $left, $this->c);
        if ($posLeft === false) return false;
        $posLeft += strlen($left);

        $posRight = stripos($this->s, $right, $posLeft);
        if ($posRight === false) return false;
        
        $this->c = $posRight + strlen($right);
        return substr($this->s, $posLeft, $posRight - $posLeft);
    }    
    
    /*
        str - кусочек html откуда извлекаем 
        dictionary - словарь меток и имен полей
        delm - разделитель между меткой и значением
    */
    static function extractValueFromStr($str, &$dictionary, $delm = ':') {
        $str = strip_tags($str);
        $a = explode($delm, $str);
        $label = trim($a[0]);
        $value = trim($a[1]);
        
        if (isset($dictionary[$label])) {
            $n = &$dictionary[$label];
            switch($n[1]) {
            case 'num':
                $value = preg_replace("#[\s]+#sm", '', $value) + 0;
                break;
            case 'email':
                if (!valid_email_address($value)) return false;
            }
            return array($n[0], $value, $label);
        }
        return false;
    }
    
    /* варинат извлечения числового значения из строки */
    static function extractNum($str) {
        $value = (float) str_replace(array('&nbsp;', ' ', ','), array('', '', '.'), 
            strip_tags($str));
        return $value;
    }
    
}

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

// Автор - SHRA, 2014.

// описание :

// http://shra.ru/2016/02/utilita-dlya-izvlecheniya-dannykh-i-parsinga-html-koda

// утилитарный парсер, для разбора HTML данных из шаблонов

class parser {

//позиция курсора в тексте

var $c = 0;

//рабочий текст

var $s = '';

//конструктор, на вход передаем HTML текст

function parser(&$s) {

$this->s = $s;

}

//далее идут методы класса

//переместить указатель на ближайшую позицию указанной подстроки

function setNext($ss) {

$new = stripos($this->s, $ss, $this->c);

if ($new === false)

return false;

$this->c = $new;

return true;

}

//переместить указатель на ближайшую позицию указанной подстроки, но двигаясь назад

function setPrev($ss) {

$part = substr($this->s, 0, $this->c);

$new = strripos($part, $ss);

if ($new === false)

return false;

$this->c = $new;

return true;

}

//ищем ближайшую позицию строки из набора $right

//курсор передвигается в начало ближайшего из найденных маркеров

function setClosestPoint($right) {

$posResult = -1;

foreach($right as $str) {

$posRight = stripos($this->s, $str, $this->c);

if ($posRight !== false && ($posResult == -1 || $posRight < $posResult))

$posResult = $posRight;

}

if ($posResult == -1) return false;

$found = substr($this->s, $this->c, $posResult - $this->c);

$this->c = $posResult;

return $found;

}

//выбрать элемент ограниченный строками

//курсор передвигается за пределы найденного паттерна

function getFromScope($left, $right) {

$posLeft = stripos($this->s, $left, $this->c);

if ($posLeft === false) return false;

$posRight = stripos($this->s, $right, $posLeft + strlen($left));

if ($posRight === false) return false;

$this->c = $posRight + strlen($right);

return substr($this->s, $posLeft, $this->c - $posLeft);

}

//выбрать элемент ограниченный строками (возвращаем то, что внутри маркеров)

//курсор передвигается за пределы найденного паттерна

function getInsideScope($left, $right) {

$posLeft = stripos($this->s, $left, $this->c);

if ($posLeft === false) return false;

$posLeft += strlen($left);

$posRight = stripos($this->s, $right, $posLeft);

if ($posRight === false) return false;

$this->c = $posRight + strlen($right);

return substr($this->s, $posLeft, $posRight - $posLeft);

}

str - кусочек html откуда извлекаем

dictionary - словарь меток и имен полей

delm - разделитель между меткой и значением

static function extractValueFromStr($str, &$dictionary, $delm = ':') {

$str = strip_tags($str);

$a = explode($delm, $str);

$label = trim($a[0]);

$value = trim($a[1]);

if (isset($dictionary[$label])) {

$n = &$dictionary[$label];

switch($n[1]) {

case 'num':

$value = preg_replace("#[\s]+#sm", '', $value) + 0;

break;

case 'email':

if (!valid_email_address($value)) return false;

}

return array($n[0], $value, $label);

}

return false;

}

/* варинат извлечения числового значения из строки */

static function extractNum($str) {

$value = (float) str_replace(array(' ', ' ', ','), array('', '', '.'),

strip_tags($str));

return $value;

}

Написать комментарий

Данная запись опубликована в 29.02.2016 23:10 и размещена в рубрике PHP. Вы можете перейти в конец страницы и оставить ваш комментарий.

Мало букафф? Читайте есчо !

Конструктор класса в PHP и его перегрузка

Январь 26, 2016 г.

В версии PHP 5 мы получили возможность использовать конструктор класса, специальную функцию, объявляемую в классе, которая служит для инициализации экземпляра объекта. К сожалению, конструкторы, как и остальные методы класса в PHP, не могут быть "перегружены". ...

Читать

urlencode vs rawurlencode: разница и примеры в PHP

Июль 3, 2025 г.

Если вам нужно передать данные в URL в PHP, вы наверняка сталкивались с функцией urlencode(). А может быть, слышали и о rawurlencode(). И ещё третья функция — http_build_query() — всплывает в ответах на форумах и в рекомендациях официальной документации. ...

Читать

Что использовать вместо mysql_escape_string() в Drupal 7?

Сентябрь 6, 2016 г.

Начиная с версии PHP 4.3.0, функция mysql_escape_string() считается устаревшей. PHP будет выдавать соответствующее предупреждение. Deprecated function: mysql_escape_string(): This function is deprecated; use mysql_real_escape_string() instead. Т.е. ...

Читать

Функция сложения двух URL

Август 13, 2013 г.

Обычно задача возникает, когда мы исследуем скриптом html страничку, и нам нужно получить, используя её абсолютный адрес, адреса страниц на которые она ссылается. Для этого к текущему абсолютному адресу страницы, надо "добавлять" адреса других страниц. ...

Читать

Комментарии к «Утилита для извлечения данных и парсинга HTML кода»

Понравилась статья? Есть вопросы? - пишите в комментариях.

Имя (обязательно)	Е-майл (не будет опубликован на сайте, обязательно для заполнения)
Комментарий: