Я успешно использовал пакет XML для извлечения HTML-таблиц, но хочу распространяться на PDF-файлы. Из предыдущих вопросов не представляется, что существует простое решение R, но задавались вопросом, были ли какие-либо недавние разработки
В противном случае, есть какой-то способ в Python (в котором я полный новичок), чтобы получить и манипулировать PDF-файлами, чтобы я мог закончить работу с R-пакета XML
Извлечение текста из PDF-файлов сложно, и почти всегда требуется большая осторожность.
Я бы начал с инструментов командной строки, таких как pdftotext, и посмотреть, что они выплюнули. Проблема в том, что PDF-файлы могут хранить текст в любом порядке, могут использовать неудобные кодировки шрифтов и могут делать такие вещи, как использовать символы лигатуры (объединенные «ff» и «ij», которые вы видите в правильной верстки), чтобы бросить вас.
pdftotext устанавливается на любой Linux-системе ...
Возможно, вы захотите проверить пакет интеллектуального анализа пакета tm . Я помню, что они реализовали так называемых читателей, а также для PDF-файлов.
AFAIK нет простого способа превратить таблицы PDF во что-то полезное для анализа данных. Вы можете использовать утилиту Data Science Toolkit в текстовую утилиту (интерфейс R через RDSTK ), затем проанализируйте полученный текст. Будьте осторожны: разбор часто нетривиален.
EDIT: Существует полезное обсуждение конвертации PDF-файлов в XML на discerning.com . Короткий ответ заключается в том, что вам, вероятно, придется покупать коммерческий инструмент.
Сердце приложения tabula , которое может извлекать таблицы из документов PDF, доступно в виде простой командной строки Java-приложения, tabula-extractor .
Это Java-приложение было завернуто в R пакетом tabulizer . Передайте ему путь к файлу PDF, и он попытается извлечь таблицы данных для вас и вернуть их в виде данных.
Например, см. Когда документы становятся базами данных - Tabulizer R Wrapper для Tabula PDF Table Extractor .