Обработка распознает (читает) PDF- файл


Обработка распознает (читает) PDF- файл

Пригодится тем, кто хочет вытащить текстовую информацию из PDF — файла.

72 Comments

  1. Serj1C

    почему бы в описании не рассказать про механизм получения текста?

    Reply
  2. cool.vlad4

    (1) автор использует xpdf — а также наклепал свою программу, которая просто запускает pdftotext без консольного окна. когда мне надо было рендерить в картинки pdf , я использовал подобным образом pdftoimage, потом написал ВК на шарпе + xpdf, потом и этот способ не устроил , сделал клиенту на native api и на mupdf.

    PS нафига я эту муру скачал?

    Reply
  3. John_d

    На практике использую ее так. Эту обработку включил в конфигурацию, процедуру из формы прописал в модуле, как экспортную функцию с параметром полное имя файла. И из любого места конфигурации вызываю ее для поиска серийного номера который спрятан в тексте pdf файла.

    Reply
  4. K_A_O

    А нельзя поставить PDF IFilter и использовать ИзвлечениеТекста?

    Reply
  5. John_d

    + этой обработки, что ничего не надо ставить.

    Reply
  6. IamAlexy

    со сканированными PDF (картинка) облом ?

    Reply
  7. cool.vlad4

    (6) конечно, xpdf парсер pdf, а не распознавалка картинок)))

    Reply
  8. CheBurator

    текст извлечь неинтересно.. вот если бы она таблицы извлекала корректно… причем разного вида… с разлиновкой и без… вот это да.. было бы мощно…

    Reply
  9. IamAlexy

    (7) хых.. большинство ПДФов котрые гуляют по емейлам — это «картинки» которые были нагенерены всякими биопдф или вообеще тупые сканы…

    Reply
  10. eugen91

    То что надо! Долго искал подобную обработку

    Reply
  11. OldthiefXXX

    Сам сижу над такой же разработкой, загрузка прайсов из PDF с картинками, с качаю гляну.

    Reply
  12. cool.vlad4

    (10) ну дык универсальной распознавалки не существует, — если очень хочется можно пробовать всякие бесплатные OCR системы ,но сразу скажу они все как правило отстойные в данной задаче. Можно купить fine reader (у него есть сервер автоматизации FineReader.Application) и прикрутить к 1С-ке. Но и он будет не всегда работать как надо(будут ошибки распознавания). Стоит задуматься, а правильно организована работа, если от распознавания неких документов зависит её процесс? Может лучше перевести все в электронный оборот и не париться?

    Reply
  13. OldthiefXXX

    Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.

    Reply
  14. CaSH_2004

    (9) В любом случае полезная вещь, если у кого-то есть круче — выкладывайте!

    Автор — молодец! вроде такого тут не выкладывали еще

    Reply
  15. cool.vlad4

    (15) в чем он молодец? в том, что нарушает лицензионное соглашение http://www.foolabs.com/xpdf/about.html ?

    Reply
  16. John_d

    (16)

    Reply
  17. John_d

    (14)GNU General Public License

    http://ru.wikipedia.org/wiki/GNU_General_Public_License

    я название программы в макете не скрыл.

    Reply
  18. cool.vlad4

    (18) pdftotext что ли? издеваешься? там черным по белому написано

    If you are redistributing unmodified copies of Xpdf (or any of the Xpdf tools) in binary form, you need to include all of the documentation: README, man pages (or help files), and COPYING. The README file contains a pointer to a web page with the source code, which satisfies the GPL requirement as far as I am concerned. You are, of course, welcome to distribute the source code as well.

    т.е. надо было включить всю документацию, файлы COPYING, README , а главное ссылку на исходники автора. мне-то как-то все равно, но меня бесит одно , в публикации об этом ни слова, ни ссылки, типа ты сам это сделал, хотя вся твоя работа заключается просто в вызове чужой программы.

    Reply
  19. John_d

    (19)эту программу нашел в таком виде как она у меня в макете. Никаких README там не было, где я ее нашел.

    Если разработчик ее http://www.foolabs.com/xpdf, то пожалуйста вот ссылка на разработчика.

    Reply
  20. OldthiefXXX

    Ладно вам не судите строго то человек все таки старался.

    Reply
  21. CaSH_2004

    (19) Ну тут не все твоего уровня, я так вообще не читаю эти Readme ни на английсом ни на русском 🙂

    Зато человек работал и делиться результатом. Объясни ошибку ему, раз он не в курсе. А наезжать то за что? Он же милионов на бесплатной чужой разработке не заработал.

    Хотя я согласен что нужно указывать подробно

    Reply
  22. navi

    А таблицу нормально распознает?

    Reply
  23. John_d

    (23)распознает только текст

    Reply
  24. brunet

    легче будет если конвертировать pdf в excel,word или тексовый файл.

    Reply
  25. _LEV_

    OldthiefXXX (файл скачал) 08.06.12 10:12URL

    Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.

    Давай, будем ждать твоего шедевра;)

    Reply
  26. Jonny_wk

    Надо будет попробовать… потом дам оценку

    Reply
  27. fibrsb

    Хотелось бы более детального описания. А вещь полезная.

    Reply
  28. Spacer

    Заглянул в код этой обработки и обнаружил нечто несуразное:

    Процедура Кнопка1Нажатие(Элемент)
    
    …
    
    МакетУтилиты = ОбработкаОбъект.ПолучитьМакет(«pdftotext»);
    Адрес = ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);
    ФайлУтилиты1 = КаталогВременныхФайлов + «pdftotext.exe»;
    ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);
    УдалитьИзВременногоХранилища(Адрес);
    ДанныеХранилища.Записать(ФайлУтилиты1);
    
    КонецПроцедуры

    Показать

    МакетУтилиты — это ДвоичныеДанные. Зачем их гонять во временное хранилище и обратно, когда их можно сразу записать в файл на диск?

    Reply
  29. Armando

    IFilter PDF не умеет что ли?

    Reply
  30. John_d

    (30)+ этой обработки, что ничего не надо ставить.

    Reply
  31. orehova123

    ну раз ничего не надо ставить дополнительного, то плюсую. скачаю позже, посмотрю, уже есть мысли, куда это можно прикрутить

    Reply
  32. John_d

    (32)я вот так прикрутил)(3)

    Reply
  33. fnv

    Интересно, спасибо.

    Reply
  34. Sasha255n

    Плюс если ничего не надо дополнительного А вообще то я думал что AcrobatReader бесплатное приложение наверное ошибался.

    Reply
  35. maria7777777

    хорошая обработка, как то что доктор прописал. правда тестировала на большом pdf файлике — долго ждать пришлось

    Reply
  36. sumixam

    обработка хорошая пригодилась

    Reply
  37. Jon2011

    Если я встрою эту обработку в свою конфигурацию, куда нужно записывать авторскую информацию? И чью?

    Reply
  38. Anna_G

    Спасибо. Довольно интересное решение.

    Reply
  39. brunet

    а нельзя просто переформировать файл в другой текстовый формат. программ для этого в интернете 1000.

    Reply
  40. eugen91

    О! то что искали, будем пробовать, спасибо. Позже поделюсь опытом использования.

    Reply
  41. Rad90210

    Плюс! Но неплохо было бы развить идею в работу с документами …

    Reply
  42. SergeyGladyshev

    очень полезная обработка, автору респект!

    Reply
  43. eugen91

    Можно извлечь непосредственно сам текст? как дела обстоят с графиками?

    Reply
  44. Sasha255n

    Да как раз примерно это я и искад попрогбую прикрутить к свей базе.

    Reply
  45. eugen91

    Не вижу смысла данной обработки

    Reply
  46. SeverBaP

    Все что доктор прописал хотя пришлось немного под свои нужды переделать

    Reply
  47. pavel_pss

    Спасибо, то что нужно и спасибо за открытй код.

    Reply
  48. ValeriTim

    Красаучик! 🙂

    Reply
  49. LanaSN

    Спасибо, очень нужная обработка, экономит время для открытия таких файлов в других программах!

    Reply
  50. mzelensky

    Замечательнейшая штуковинка!

    Reply
  51. pose

    Спасибо, то что нужно .

    Reply
  52. MakcTLT63

    Не понял что делает обработка? Распознает текст? Реализован FineReader на 1с?

    зы. Обработку не качал..

    Reply
  53. MakcTLT63

    Почитал комментарии, вопрос снимается.

    Reply
  54. ded20ded

    Спасибо, большое, то что как раз сегодня понадобилось

    Reply
  55. Dzenn

    Скорее всего, внутри обработки простое ИзвлечениеТекста(), о котором просто ещё не все знают

    Reply
  56. Lerusena

    От души огромное спасибо! С небольшой дорабткой помогла решить ну оочень давно не решаемую проблему, освободила от рутины и дала кучу свободного времени! Огромный респект!!!!

    Reply
  57. jonybanchicov

    Супер!

    Reply
  58. undo

    Хорошее простое решение достаточно простой задачи, простой на первый взгляд, и достаточно часто нужно извлечь текст из PDF, а до графики это уже второй момент. То что ничего ставить дополнительно не нужно это хорошо.

    Reply
  59. Alfer

    спасибо очень нужно

    Reply
  60. Alfer

    не открывается Неверный формат хранилища данных ‘file://C:/ПрочитатьПДФ.epf

    Reply
  61. Alfer

    скачалось всего 324K — не могли бы вы прислать на почту повторно ( а то я пустой)

    Reply
  62. John_d

    Протестировал файл обработки. он нормально скачивается и работает.

    Reply
  63. DrAku1a

    Почему модераторы пропускают абсолютно ненужные публикации с описанием обработки — в одну строку?

    Reply
  64. NOVOPRO

    Лажа полная, используй стандартные проги и все нормально будет

    Reply
  65. NOVOPRO

    Забавная штука гоняет, данные по сто раз из одного раздела в другой…… Только съедает системные ресурсы:

    МакетУтилиты = ОбработкаОбъект.ПолучитьМакет(«pdftotext»);

    = ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);

    ФайлУтилиты1 = КаталогВременныхФайлов + «pdftotext.exe»;

    ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);

    УдалитьИзВременногоХранилища(Адрес);

    ДанныеХранилища.Записать(ФайлУтилиты1);

    ………………………..

    Reply
  66. Alexey_A

    спасибо! то, что надо!

    Reply
  67. Scottlinch

    Спасибо. Сегодня пригодилась =) Вот бы комбайн кто допилил. Что бы с картинками и с таблицами можно было работать нормально.

    Reply
  68. a3a

    Коллеги, не совсем понятно.

    у меня файл из 3 страниц, а обработка распознала только первую 1 страницу.

    у всех так?

    Reply
  69. John_d

    (72) Добрый день, протестировал. Распознает все страницы.

    Для теста использовал этот файл.

    Reply
  70. AR18

    У меня ругается

    {ВнешняяОбработка.СканПДФ.МодульОбъекта(6)}: Ошибка при вызове метода контекста (ПолучитьМакет)

    МакетУтилиты = ПолучитьМакет(«pdftotext»);

    по причине:

    Недопустимое значение параметра (параметр номер ‘1’)

    Reply
  71. AR18

    У меня ругается

    {ВнешняяОбработка.СканПДФ.МодульОбъекта(6)}: Ошибка при вызове метода контекста (ПолучитьМакет)

    МакетУтилиты = ПолучитьМакет(«pdftotext»);

    по причине:

    Недопустимое значение параметра (параметр номер ‘1’)…

    Reply
  72. a3a

    (73) все. разобрался. у меня была большая таблица переходящая на следующую страницу.

    В обработке был код

    Если КодСимвола(Стр) = 12 Тогда

    Прервать;

    КонецЕсли;

    так вот, на второй странице продолжающаяся таблица как раз возвращала КодСимвола(Стр) = 12.

    Переписал на следующий и стало работать нормально.

    Если КодСимвола(Стр) = 12 Тогда

    // Прервать;

    Стр = Текст.ПрочитатьСтроку();

    КонецЕсли;

    Reply

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *