@hirthwork

Тег pdf в блоге hirthwork

hirthwork
14 Dec 2013
hirthwork

злостно похачил один опенсорсный pdf-парсер. теперь для парсинга 15 мегового файла достаточно 128 МБ оперативки, а раньше не хватало и двух гигов

hirthwork
25 Jun 2013
hirthwork

Нашёл сейчас один файл. mupdf думал над ним 25 секунд, а затем выдал небольшую кучу знаков вопроса. pdftotext думал почти минуту, зато выплюнул вполне читабельный текст

hirthwork
05 Mar 2013
hirthwork

взял poppler-0.20.5. попытался им сконвертить пдфку отсюда: https://bugs.freedesktop.org/show_bug.cgi?id=59561 получил сегфолт. взял poppler-0.12.4 из репозитория rhel — сконвертилось нормально. воистину: старое говно лучше нового, ибо уже окаменело, не воняет, и может использоваться как строительный материал

hirthwork
05 Mar 2013
hirthwork

натравил pdfbox и pdftotext извлекать текст из книжки Шеня «Программирование: теоремы и задачи». pdfbox извлёк 400КБ, pdftotext — 200КБ. какая программа лучше? та, которой Шень защитил свою книжку от копирования текста. в обоих выхлопах только мусор.

hirthwork
02 Mar 2013
hirthwork

берём pdf'ку «Dr. WEB AV-Desk: Руководство администратора» на 468 страниц (≈3.5 МБ). Скармиливаем pdfbox'овскому ExtractText (на жабе, да): 137 секунд. Скармливает pdftotext (из комплекта poppler): 14 секунд.
З.Ы. в защиту pdfbox всё же скажу, что предметный указатель у него читабельный, в отличие от, т.е. он отрисовывает pdf'ки честнее.

Добавить пост

Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
Для форматирования текста используется Markdown.