de-vraag
  • Вопросы
  • Метки
  • Пользователи
Оповещения
Вознаграждения
Регистрация
После регистрации, сможете получать уведомления об ответах и комментариях на Ваши вопросы.
Вход
Если у Вас уже есть аккаунт, войдите чтобы проверить новые уведомления.
Тут будут вознаграждения за добавленные вопросы, ответы и комментарий.
Дополнительно
Источник
Редактировать
 pssguy
pssguy
Вопрос

Скребок PDF с использованием R

Я успешно использовал пакет XML для извлечения HTML-таблиц, но хочу распространяться на PDF-файлы. Из предыдущих вопросов не представляется, что существует простое решение R, но задавались вопросом, были ли какие-либо недавние разработки

В противном случае, есть какой-то способ в Python (в котором я полный новичок), чтобы получить и манипулировать PDF-файлами, чтобы я мог закончить работу с R-пакета XML

10 2011-10-27T15:54:26+00:00 4
Программирование
python
pdf
r
screen-scraping
Spacedman
27-го октября 2011 в 4:05
2011-10-27T16:05:11+00:00
Дополнительно
Источник
Редактировать
#56790360

Извлечение текста из PDF-файлов сложно, и почти всегда требуется большая осторожность.

Я бы начал с инструментов командной строки, таких как pdftotext, и посмотреть, что они выплюнули. Проблема в том, что PDF-файлы могут хранить текст в любом порядке, могут использовать неудобные кодировки шрифтов и могут делать такие вещи, как использовать символы лигатуры (объединенные «ff» и «ij», которые вы видите в правильной верстки), чтобы бросить вас.

pdftotext устанавливается на любой Linux-системе ...

10
0
Rappster
27-го октября 2011 в 6:06
2011-10-27T18:06:13+00:00
Дополнительно
Источник
Редактировать
#56790361

Возможно, вы захотите проверить пакет интеллектуального анализа пакета tm . Я помню, что они реализовали так называемых читателей, а также для PDF-файлов.

5
0
Richie Cotton
27-го октября 2011 в 4:04
2011-10-27T16:04:54+00:00
Дополнительно
Источник
Редактировать
#56790359

AFAIK нет простого способа превратить таблицы PDF во что-то полезное для анализа данных. Вы можете использовать утилиту Data Science Toolkit в текстовую утилиту (интерфейс R через RDSTK ), затем проанализируйте полученный текст. Будьте осторожны: разбор часто нетривиален.


EDIT: Существует полезное обсуждение конвертации PDF-файлов в XML на discerning.com . Короткий ответ заключается в том, что вам, вероятно, придется покупать коммерческий инструмент.

4
0
psychemedia
2-го мая 2016 в 1:27
2016-05-02T13:27:15+00:00
Дополнительно
Источник
Редактировать
#56790362

Сердце приложения tabula , которое может извлекать таблицы из документов PDF, доступно в виде простой командной строки Java-приложения, tabula-extractor .

Это Java-приложение было завернуто в R пакетом tabulizer . Передайте ему путь к файлу PDF, и он попытается извлечь таблицы данных для вас и вернуть их в виде данных.

Например, см. Когда документы становятся базами данных - Tabulizer R Wrapper для Tabula PDF Table Extractor .

1
0
Похожие сообщества 30
Python
Python
15 512 пользователей
Уютный чат для профессионалов, занимающихся поиском питоньих мудростей. Как не получить бан: https://t.me/ru_python/802295
Открыть telegram
Python beginners
Python beginners
14 284 пользователей
Вопросы про Python для чайников. Cпам и троллинг неприемлем. Частозадаваемые вопросы: https://github.com/ru-python-beginners/faq/blob/master/README.md Правила группы: https://t.me/ru_python_beginners/1649981
Открыть telegram
🐍 Python Stepik Chat
🐍 Python Stepik Chat
7 772 пользователей
Этот уютный чат создан для помощи в решение задач на прекрасном курсе "Поколение Python: курс для начинающих" и не только. Правила: t.me/pythonstepikchat/316777 Чат для оффтопа - t.me/+fqNb78zlQY81NGUy Наш канал - @kimport_this
Открыть telegram
aiogram
aiogram
6 355 пользователей
Repo: https://github.com/aiogram/aiogram Site: https://aiogram.dev Полезная информация: https://t.me/aiogram_ru/1000000
Открыть telegram
Python — вакансии и аналитика
Python — вакансии и аналитика
6 048 пользователей
Публикуем вакансии и запросы на поиск работы по направлению Python, Flask и т.д. Здесь всё: full-time, part-time, remote и разовые подработки. См. также: @golang_jobs, @qa_jobs, @devops_jobs, @javascript_jobs, @nodejs_jobs, @uiux_jobs, @products_jobs
Открыть telegram
Сообщество Python Программистов
Сообщество Python Программистов
5 858 пользователей
Канал: @pip_install Наши сайты: https://python-scripts.com https://selenium-python.com https://itfy.org Мы в ВК: https://vk.com/open_sourcecode Вакансии: https://t.me/python_scripts_hr
Открыть telegram
Добавить вопрос
Категории
Все
Технологий
Культура / Отдых
Жизнь / Искусство
Наука
Профессии
Бизнес
Пользователи
Все
Новые
Популярные
1
Roxana Elizabeth CASTILLO Avalos
Зарегистрирован 4 дня назад
2
Hideo Nakagawa
Зарегистрирован 5 дней назад
3
Sergiy Tytarenko
Зарегистрирован 1 неделю назад
4
shoxrux azadov
Зарегистрирован 1 неделю назад
5
Koreets Koreytsev
Зарегистрирован 1 неделю назад
© de-vraag 2022
Источник
stackoverflow.com
под лицензией cc by-sa 3.0 с атрибуцией