Нужен совет как вытянуть данные из PDF

415

07 марта 2017, 13:24

Есть PDF фаил, в котором есть таблица с данными. Таблица вида "Name - Data" и так в столбик. Фото прилагается Пытаюсь найти способ реализации как по ячейке с именем вытянуть её данные. PDF я весь считал пытался как то через регулярки вытянуть. Но косяк в том что понять где его данные и какие данные вытягивать не понятно т.к pdf считывается и выдает обычный текст (данные могут менятся в Data). Пробовал как то декомпрес pdf сделать но что то не удачно. Софта мало на эту тему. А узнать внутрение теги не могу. Кто что знает подскажите :) Буду очень блогодарен Например есть ячейка Supplier надо вытянуть её данные Aker Solution...

Answer 1

С pdf все плохо. Перепробовал все что можно - конвертацию в Word, в Excel, текстовый файл. Самый многообещающий способ - конвертация в html и парсинг с помощью web-драйвера selenium.

Answer 2

Для работы с PDF я использовал опенсорсную библиотеку iTextSharp. Очень мощная, но чтобы что-то вытащить из PDF приходится глубоко вникать, как устроена его структура. Если у вас разовая задача - возможно, это будет чересчур, но если нужно настроить импорт данных на регулярной основе - самое то, что нужно.