Нужен совет как вытянуть данные из PDF

243
07 марта 2017, 13:24

Есть PDF фаил, в котором есть таблица с данными. Таблица вида "Name - Data" и так в столбик. Фото прилагается Пытаюсь найти способ реализации как по ячейке с именем вытянуть её данные. PDF я весь считал пытался как то через регулярки вытянуть. Но косяк в том что понять где его данные и какие данные вытягивать не понятно т.к pdf считывается и выдает обычный текст (данные могут менятся в Data). Пробовал как то декомпрес pdf сделать но что то не удачно. Софта мало на эту тему. А узнать внутрение теги не могу. Кто что знает подскажите :) Буду очень блогодарен Например есть ячейка Supplier надо вытянуть её данные Aker Solution...

Answer 1

С pdf все плохо. Перепробовал все что можно - конвертацию в Word, в Excel, текстовый файл. Самый многообещающий способ - конвертация в html и парсинг с помощью web-драйвера selenium.

Answer 2

Для работы с PDF я использовал опенсорсную библиотеку iTextSharp. Очень мощная, но чтобы что-то вытащить из PDF приходится глубоко вникать, как устроена его структура. Если у вас разовая задача - возможно, это будет чересчур, но если нужно настроить импорт данных на регулярной основе - самое то, что нужно.

READ ALSO
Несколько вопросов по XAML (C#)

Несколько вопросов по XAML (C#)

Написал интерфейс в XAMLДо этого пользовался только Windows Form

358
Изменение значения внутри строки

Изменение значения внутри строки

Есть ли способ изменить значение внутри строки не переводя её в массив символов? Например "Машинная сила" в "Машинная пила"

248
C# + Access запись и чтение массива байт

C# + Access запись и чтение массива байт

Имеется программа которая шифрует пароли с помощью AESЭтот алгоритм шифрования использует массивы байт

232