Есть текст UTF-8 , в нем есть ряд символов вида
$bad_symbols = array('â', 'â','â','â');
"В жизни" на сайте эти символы выглядят как одинарные или двойные кавычки, тире.
Это популярная тема, гуглил и нашел ответ http://stackoverflow.com/questions/2477452/%C3%A2%E2%82%AC-showing-on-page-instead-of , но я не понимаю как участники с помощью таблиц вроде этой определяют исходную кодировку https://www.charset.org/utf-8 (какова механика действий?)
Я попробовал перекодировать эти символы, получил их в виде (что за вид, кстати?)
â
= â
’
= ’
, но что мне делать с этим дальше? Как понять исходную кодировку? И как избавиться от этого, привести к нормальному виду? Если же не получается к нормальному виду привести, то хотя-бы как определить все строки с такими символами, может есть хук какой-то? Я сейчас решаю это вручную, нахожу все такие символы и str_replace - адовый костыль.
Также пробовал все возможные варианты ICONV
$z = 'Itâs a pity to cut beautiful curly hair. If itâs';
iconv('CP-1252','UTF-8',$z);
iconv('windows-1252','UTF-8',$z);
iconv('ISO-8859-1','UTF-8',$z);
iconv('UTF-8','ISO-8859-1',$z);
iconv('UTF-8','CP-1252',$z);
iconv('UTF-8','windows-1252',$z);
Результат всегда False , и ничего не меняется!
Кофе для программистов: как напиток влияет на продуктивность кодеров?
Рекламные вывески: как привлечь внимание и увеличить продажи
Стратегії та тренди в SMM - Технології, що формують майбутнє сьогодні
Выделенный сервер, что это, для чего нужен и какие характеристики важны?
Современные решения для бизнеса: как облачные и виртуальные технологии меняют рынок
Вот кусок моего кода, ответственный за запись в базу:
Парсинг страницы с помощью PHP Simple HTML Dom Parser:
Для Java, HTML, CSS подсказки работают, а для JavaScript нет