Пытаюсь взять мета-теги со страницы, в которых есть html разметка, например:
<meta name="keywords" content="Ecology, allelopaty, Corn Cokle <em>(Agrostemma Githago L.)</em>, germination viability, sprout, ramified root, chlorophyll content, yield, varietal fruit colour, antocyan, digestion, resistance against pests and diseases, resistance against climatic extremes, organic food production.">
таким regexp <meta( .*?>|>). Это приводит к обрезанию части ключей. Я понимаю, что это возможно не валидный код, но мне нужно взять мета, есть ли какая то возможность сделать это regex-пом или нужно предварительно подготовить строку? Помогите составить регулярку, если это возможно.
Вроде бы так должно получиться:
<meta\s("[^"]*"|'[^']*'|[^>])*>
Проверка:
s = '<meta name="keywords" content="Ecology, allelopaty, Corn Cokle <em>(Agrostemma Githago L.)</em>, germination viability, sprout, ramified root, chlorophyll content, yield, varietal fruit colour, antocyan, digestion, resistance against pests and diseases, resistance against climatic extremes, organic food production."><style type="text/css">'
console.log(s.match(/<meta\s("[^"]*"|'[^']*'|[^>])*>/)[0])
Продвижение своими сайтами как стратегия роста и независимости