парсинг с библиотекой Simple HTML DOM

139
28 июля 2019, 14:40

в парсере есть функция file_get_html, если в нее передать адрес

$html = file_get_html('https://ya.ru/'); 

то все работает, а вот если переменную

 $html = file_get_html($url); 

функция начинает работать странно...

как сделать возможность передавать в функцию переменную а не статичный url.

полный код

require_once 'simple_html_dom.php';
$servername = "localhost";
$database = "";
$username = "";
$password = "";
//phpinfo();
// Create connection
$conn = mysqli_connect($servername, $username, $password, $database);
$conn->set_charset("utf8");  
printf("Изначальная кодировка: %s\n", $conn->character_set_name());
// Check connection
if (!$conn) {
      die("Connection failed: " . mysqli_connect_error());
}
echo "Connected successfully"; 
$handle = fopen("link.txt", "r");
$url = fgets($handle, 4096);
$lines = file('link.txt');
unset($lines[0]);
file_put_contents('link.txt', implode('', $lines)); 

$html = file_get_html($url); 

 //$html = file_get_contents($url); 
 $autor= 'admin';
 $xfields='';
 $keywords='';
 $category='';
 $comm_num='';
 $allow_comm=''; 
 $allow_main='1';
 $approve='0';
 $fixed='';
 $allow_br='';
 $symbol='';
 $tags=''; 
 $metatitle='';   


// Преобразуем строку из однобайтной кодировки обратно в utf-8, выдав её за windows-1251
   foreach ($html->find('div.post') as $articlee) {
                $title = $articlee->find('h1.entry-title', 0)->plaintext; 
                $_full_story = $articlee->find('.entry-content', 0)->innertext;
                $date_ishod = $articlee->find('.entry-meta-header', 0)->plaintext; 
                $tags = $articlee->find('.entry-tags a', 0)->plaintext; 
                $full_story_ekr = mysqli_real_escape_string($conn, $_full_story);

                $images = $articlee->find('.attachment-blog-large', 0)->attr['src'];
                $kratkii_text = $articlee->find('p', 0)->plaintext;
               //ф-я транслита названия для картинки
                $metatitle= $title;
                $descr= $kratkii_text;
                function translit($s) {
                $s = (string) $s; // преобразуем в строковое значение
                $s = strip_tags($s); // убираем HTML-теги
                $s = str_replace(array("\n", "\r"), " ", $s); // убираем перевод каретки
                $s = preg_replace("/\s+/", ' ', $s); // удаляем повторяющие пробелы
                $s = trim($s); // убираем пробелы в начале и конце строки
                $s = function_exists('mb_strtolower') ? mb_strtolower($s) : strtolower($s); // переводим строку в нижний регистр (иногда надо задать локаль)
                $s = strtr($s, array('а'=>'a','б'=>'b','в'=>'v','г'=>'g','д'=>'d','е'=>'e','ё'=>'e','ж'=>'j','з'=>'z','и'=>'i','й'=>'y','к'=>'k','л'=>'l','м'=>'m','н'=>'n','о'=>'o','п'=>'p','р'=>'r','с'=>'s','т'=>'t','у'=>'u','ф'=>'f','х'=>'h','ц'=>'c','ч'=>'ch','ш'=>'sh','щ'=>'shch','ы'=>'y','э'=>'e','ю'=>'yu','я'=>'ya','ъ'=>'','ь'=>''));
                $s = preg_replace("/[^0-9a-z-_ ]/i", "", $s); // очищаем строку от недопустимых символов
                $s = str_replace(" ", "-", $s); // заменяем пробелы знаком минус
                return $s; // возвращаем результат
              }

  $images_name = translit($title);
  //скачиваем картинку
  $file = file_get_contents($images);  
  file_put_contents($images_name.".jpg", $file);
  $alt_name=$images_name.$date;
  $short_story = '<img src="/pars/'.$images_name.'.jpg">' .$kratkii_text; 
  echo $short_story;
  $format = 'd/m/Y';
  $hour =date('H:m:s');
  $date_prom = date_create($date_ishod);
  $date = date_format($date_prom, 'Y-d-m');
  $alt_name=$images_name.$date;
  $date =$date .' ' .$hour ;

$sql = "INSERT INTO `dle_post` (`id`, `autor`, `date`, `short_story`, `full_story`, `xfields`, `title`, `descr`, `keywords`, `category`, `alt_name`, `comm_num`, `allow_comm`, `allow_main`, `approve`, `fixed`, `allow_br`, `symbol`, `tags`, `metatitle`) VALUES ('', '$autor', '$date', '$short_story', '$full_story', '$xfields', '$title', '$descr', '$keywords', '$category', '$alt_name', '$comm_num', '$allow_comm', '$allow_main', '$approve', '$fixed', '$allow_br', '$symbol', '$tags', '$metatitle')";

if (mysqli_query($conn, $sql)) {
      echo "New record created successfully";
} else {
      echo "Error: " . $sql . "<br>" . mysqli_error($conn);
}

}

mysqli_close($conn);
$html->clear(); // подчищаем за собой. clear() ф-ция из библиотеки simple_html_dom.php
unset($html);
READ ALSO
Получение данных из google spreadsheet (php)

Получение данных из google spreadsheet (php)

Нужно получить выборку данных из гугл таблицы по дате, все даты расположены в порядке убывания в одной колонке

119
Ошибка cannot open source file &ldquo;stdafx.h&rdquo;

Ошибка cannot open source file “stdafx.h”

Мне достались исходники небольшого проекта из нескольких файловПри открытии его в visual studio еще до начала компиляции в редакторе кода в каждом...

148
sregex_iterator не находит соответствий на строке

sregex_iterator не находит соответствий на строке

У меня есть строка - html код, который нужно распарсить с помощью регулярных выражений regexМне нужно записать в вектор std::vector все URL'ы на странице,...

158