Именованные сущности

188
27 декабря 2017, 20:50

Доброго времени суток! Передо мной была поставлена задача,которая звучит так:

"Разработать прототип системы, определяющий в произвольном тексте на украинском языке именованные сущности: имена людей, фирм, даты и денежные единицы."

С датами и валютами проблем не было,а вот с именами и фирмами появились.Пытался решить задачу подобным образом,но не помогло:

public void checkFirms(){
    String firmp = "\"([А-Я][а-я]+\\s?)+\"|([А-Я][а-я]+\\s){2,5}";
    Pattern pf = Pattern.compile(firmp);
    Matcher mf = pf.matcher(input);
    while(mf.find()){                      //ФИРМЫ
        firm+=mf.group()+"\n"; 
    } 
}
public void CheckNames(){
    String namep = "[А-Я][а-я]+"; 
    Pattern pn = Pattern.compile(namep);
    Matcher mn = pn.matcher(input);
    while(mn.find()){                               //ИМЕНА
        String [] nameChecker= firm.split("/n");
        for( int i=0;i<nameChecker.length;i++){
            if(!nameChecker[i].contains(mn.group())){
               name+=mn.group()+"\n";
            }
            else{
            continue;
           }   
        }
}}

Выводит все ,что с большой большой буквы в имена,а в фирмы выводит только если словосочетание в кавычках.Может кто-то помочь?Пишу на Java

READ ALSO
Java и JSON проблема с парсингом [требует правки]

Java и JSON проблема с парсингом [требует правки]

Есть объект, не получается достать от туда gameId, с помощью JSONObject и JSONArray, заранее спасибо за помощь!

189
Как реализовать сохранение состояния &lt;p:selectOneMenu&gt; в БД?

Как реализовать сохранение состояния <p:selectOneMenu> в БД?

Есть 2 таблицы GPERSONS и R_USERСтолбец G_PERSONS

215
Fannj генерация текста

Fannj генерация текста

Я хочу сделать генератор каких-нибудь осмысленных текстовПредположим, что у меня есть файл, содержащий фразы

155
Сортировка объектов по полю в ArrayList

Сортировка объектов по полю в ArrayList

У меня есть коллекция объектов, которая внутри себя содержит также коллекцию объектов, которые требуется отсортировать в алфавитном порядке...

380