Хранение документов в elasticsearch

546

15 октября 2017, 21:18

Начал смотреть в организацию удобного поиска в каталоге документов, выбор остановил на elasticsearch как поисковый движок и клиент для загрузки/поиска/вывода результатов на Java. Но входе постепенного погружения в выбранный стек технологий запутался кардинально. Вопросов несколько: Могу ли я каким то образом загрузить документы 1.pdf, 2.doc, 3.exl и т.д. По следующему алгоритму. Я передаю путь к файлу на серверElasticsearch:9200, а elastic преобразует его в JSON(т.е. сам анализирует содержимое файла, и извлекает необходимую информацию) и складывает в папку и сохраняет ссылку у себя в данных. Далее я в поимке ввожу слово "тест" и он мне выдает список JSON объектов где это слово встречается, а я потом уже из возвращенных данных извлекаю ссылку и выкачиваю/открываю файл? Или я должен сам сформировать JSON(т.е. руками запрограммировать чтения данных из файла, если да то если ограничения на размер информации, а то у меня файлы бывают по 200 - 300 листов в .pdf/.doc формате) считанные данные установить в "tag" и передать на сервер?