Имеется срочная необходимость разбить русский текст из файла на предложения. Простое деление (split)
по .
, !
или ?
не подойдет. Нужно учитывать варианты сокращений типа т. о., др., т. д.; сокращения перед именем собственным (г. Москва), сокращения типа Иванов И. И. и другие. Сейчас код регулярного выражения выглядит так:
string[] splitSentences = Regex.Split(sTemp, @"(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)(\s|[A-Z].*)");
Понятно, что этого не достаточно. Помогите, пожалуйста.
Я конечно не могу ручаться за 100% валидные предложения.
[А-ЯЁ][\S\s]+?(?:[\S][^А-ЯЁ\.]){1,}(?:\.+|[?!])(?!(\s*[а-яё)\-"«0-9\.]))
Но такой вариант подошел на частные случаи г. Москва или Иванов И.И.
Жду комментариев если какой-то участок вам мозолит глаза!
Вот здесь тестировал
Айфон мало держит заряд, разбираемся с проблемой вместе с AppLab
Перевод документов на английский язык: Важность и ключевые аспекты
Необходимо выбрать из базы данных строку с именем admin и паролем 1234, в программировании не особо понимаю, рассчитываю на Вашу помощь, заранее...
Помогите с решение нелинейного уравненияПроблема заключается в том, что необходимо выразить функцию как x=fi(x) - как это вообще делается? Функция:...
Проблема следующая, написал код, чтобы вывести графики, данные которых хранятся в БД MySQL (делал БД в Workbench), но при запуске программы выдаёт...
Пробую выполнять действия на сайте с помощью библиотеки AngleSharpОстановился на эмуляции нажатия кнопки