Чтение таблиц из pdf java

28
15 января 2021, 20:30

Мне нужно прочитать вот этот документ. Пытался сделать это с помощью pdfbox:

PDDocument document = PDDocument.load(new File(path));
    PDFTextStripper stripper = new PDFTextStripper();
    String text = stripper.getText(document);

Но текст не возвращается. Каким еще способом я могу сделать это?

Answer 1

С точки зрения использования pdfbox вы все делаете правильно. Проблема в том, что в Вашем документе нет текста. Это сканированные картинки , помещенные в pdf. pdfbox не распознает текст из картинки, поэтому в переменную text не попадает ничего, кроме пробелов и переноса строки. аналогичный эффект вы можете получить, если вставите картинку с текстом в документ doc и попытаетесь ее редактировать. в том , что ваш код работает вы также можете легко убедиться, подставив на вход другой pdf- документ

READ ALSO
MultiThreading ManyToOne

MultiThreading ManyToOne

И так у меня есть

30
Обработка пакетов данных из интернета с помощью Java

Обработка пакетов данных из интернета с помощью Java

Хочу разобраться в следующем вопросе

27
Запись данных из файла в коллекцию List,ArrayList

Запись данных из файла в коллекцию List,ArrayList

Как записать данные из файла в коллекцию List или ArrayList?Есть файл(рис1),нужно построчно записать его в коллекцию

15
Не реализуется геттер?

Не реализуется геттер?

есть такой кодНе могу вызвать геттер из класса Flower

27