Обработка распознает (читает) PDF- файл

Serj1C 05.06.2012 at 12:47

почему бы в описании не рассказать про механизм получения текста?

Reply ↓

cool.vlad4 05.06.2012 at 13:01

(1) автор использует xpdf — а также наклепал свою программу, которая просто запускает pdftotext без консольного окна. когда мне надо было рендерить в картинки pdf , я использовал подобным образом pdftoimage, потом написал ВК на шарпе + xpdf, потом и этот способ не устроил , сделал клиенту на native api и на mupdf.

PS нафига я эту ~~муру~~ скачал?

Reply ↓

John_d 05.06.2012 at 13:45

На практике использую ее так. Эту обработку включил в конфигурацию, процедуру из формы прописал в модуле, как экспортную функцию с параметром полное имя файла. И из любого места конфигурации вызываю ее для поиска серийного номера который спрятан в тексте pdf файла.

Reply ↓

K_A_O 05.06.2012 at 15:43

А нельзя поставить PDF IFilter и использовать ИзвлечениеТекста?

Reply ↓

John_d 05.06.2012 at 18:27

+ этой обработки, что ничего не надо ставить.

Reply ↓

IamAlexy 06.06.2012 at 15:21

со сканированными PDF (картинка) облом ?

Reply ↓

cool.vlad4 06.06.2012 at 15:26

(6) конечно, xpdf парсер pdf, а не распознавалка картинок)))

Reply ↓

CheBurator 06.06.2012 at 15:46

текст извлечь неинтересно.. вот если бы она таблицы извлекала корректно… причем разного вида… с разлиновкой и без… вот это да.. было бы мощно…

Reply ↓

IamAlexy 06.06.2012 at 16:33

(7) хых.. большинство ПДФов котрые гуляют по емейлам — это «картинки» которые были нагенерены всякими биопдф или вообеще тупые сканы…

Reply ↓

eugen91 07.06.2012 at 13:42

То что надо! Долго искал подобную обработку

Reply ↓

OldthiefXXX 07.06.2012 at 15:24

Сам сижу над такой же разработкой, загрузка прайсов из PDF с картинками, с качаю гляну.

Reply ↓

cool.vlad4 07.06.2012 at 15:42

(10) ну дык универсальной распознавалки не существует, — если очень хочется можно пробовать всякие бесплатные OCR системы ,но сразу скажу они все как правило отстойные в данной задаче. Можно купить fine reader (у него есть сервер автоматизации FineReader.Application) и прикрутить к 1С-ке. Но и он будет не всегда работать как надо(будут ошибки распознавания). Стоит задуматься, а правильно организована работа, если от распознавания неких документов зависит её процесс? Может лучше перевести все в электронный оборот и не париться?

Reply ↓

OldthiefXXX 08.06.2012 at 10:12

Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.

Reply ↓

CaSH_2004 08.06.2012 at 11:34

(9) В любом случае полезная вещь, если у кого-то есть круче — выкладывайте!

Автор — молодец! вроде такого тут не выкладывали еще

Reply ↓

cool.vlad4 08.06.2012 at 11:52

(15) в чем он молодец? в том, что нарушает лицензионное соглашение http://www.foolabs.com/xpdf/about.html ?

Reply ↓

John_d 08.06.2012 at 12:12

(16)

Reply ↓

John_d 08.06.2012 at 12:12

(14)GNU General Public License

http://ru.wikipedia.org/wiki/GNU_General_Public_License

я название программы в макете не скрыл.

Reply ↓

cool.vlad4 08.06.2012 at 12:16

(18) pdftotext что ли? издеваешься? там черным по белому написано

If you are redistributing unmodified copies of Xpdf (or any of the Xpdf tools) in binary form, you need to include all of the documentation: README, man pages (or help files), and COPYING. The README file contains a pointer to a web page with the source code, which satisfies the GPL requirement as far as I am concerned. You are, of course, welcome to distribute the source code as well.

т.е. надо было включить всю документацию, файлы COPYING, README , а главное ссылку на исходники автора. мне-то как-то все равно, но меня бесит одно , в публикации об этом ни слова, ни ссылки, типа ты сам это сделал, хотя вся твоя работа заключается просто в вызове чужой программы.

Reply ↓

John_d 08.06.2012 at 12:28

(19)эту программу нашел в таком виде как она у меня в макете. Никаких README там не было, где я ее нашел.

Если разработчик ее http://www.foolabs.com/xpdf, то пожалуйста вот ссылка на разработчика.

Reply ↓

OldthiefXXX 08.06.2012 at 18:06

Ладно вам не судите строго то человек все таки старался.

Reply ↓

CaSH_2004 08.06.2012 at 18:30

(19) Ну тут не все твоего уровня, я так вообще не читаю эти Readme ни на английсом ни на русском 🙂

Зато человек работал и делиться результатом. Объясни ошибку ему, раз он не в курсе. А наезжать то за что? Он же милионов на бесплатной чужой разработке не заработал.

Хотя я согласен что нужно указывать подробно

Reply ↓

navi 12.06.2012 at 14:12

А таблицу нормально распознает?

Reply ↓

John_d 14.06.2012 at 17:35

(23)распознает только текст

Reply ↓

brunet 14.06.2012 at 20:10

легче будет если конвертировать pdf в excel,word или тексовый файл.

Reply ↓

_LEV_ 15.06.2012 at 16:33

OldthiefXXX (файл скачал) 08.06.12 10:12URL

Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.

Давай, будем ждать твоего шедевра;)

Reply ↓

Jonny_wk 17.06.2012 at 19:33

Надо будет попробовать… потом дам оценку

Reply ↓

fibrsb 19.06.2012 at 10:39

Хотелось бы более детального описания. А вещь полезная.

Reply ↓

Spacer 19.06.2012 at 11:27

Заглянул в код этой обработки и обнаружил нечто несуразное:

Процедура Кнопка1Нажатие(Элемент)

…

МакетУтилиты = ОбработкаОбъект.ПолучитьМакет(«pdftotext»);
Адрес = ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);
ФайлУтилиты1 = КаталогВременныхФайлов + «pdftotext.exe»;
ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);
УдалитьИзВременногоХранилища(Адрес);
ДанныеХранилища.Записать(ФайлУтилиты1);

КонецПроцедуры

Показать

МакетУтилиты — это ДвоичныеДанные. Зачем их гонять во временное хранилище и обратно, когда их можно сразу записать в файл на диск?

Reply ↓

Armando 23.06.2012 at 15:15

IFilter PDF не умеет что ли?

Reply ↓

John_d 25.06.2012 at 15:10

(30)+ этой обработки, что ничего не надо ставить.

Reply ↓

orehova123 25.06.2012 at 17:21

ну раз ничего не надо ставить дополнительного, то плюсую. скачаю позже, посмотрю, уже есть мысли, куда это можно прикрутить

Reply ↓

John_d 25.06.2012 at 17:41

(32)я вот так прикрутил)(3)

Reply ↓

fnv 28.06.2012 at 16:48

Интересно, спасибо.

Reply ↓

Sasha255n 30.06.2012 at 14:36

Плюс если ничего не надо дополнительного А вообще то я думал что AcrobatReader бесплатное приложение наверное ошибался.

Reply ↓

maria7777777 27.07.2012 at 11:44

хорошая обработка, как то что доктор прописал. правда тестировала на большом pdf файлике — долго ждать пришлось

Reply ↓

sumixam 27.07.2012 at 15:24

обработка хорошая пригодилась

Reply ↓

Jon2011 18.09.2012 at 06:58

Если я встрою эту обработку в свою конфигурацию, куда нужно записывать авторскую информацию? И чью?

Reply ↓

Anna_G 28.09.2012 at 10:16

Спасибо. Довольно интересное решение.

Reply ↓

brunet 06.11.2012 at 18:21

а нельзя просто переформировать файл в другой текстовый формат. программ для этого в интернете 1000.

Reply ↓

eugen91 06.11.2012 at 18:31

О! то что искали, будем пробовать, спасибо. Позже поделюсь опытом использования.

Reply ↓

Rad90210 13.11.2012 at 14:21

Плюс! Но неплохо было бы развить идею в работу с документами …

Reply ↓

SergeyGladyshev 26.11.2012 at 12:12

очень полезная обработка, автору респект!

Reply ↓

eugen91 04.12.2012 at 20:13

Можно извлечь непосредственно сам текст? как дела обстоят с графиками?

Reply ↓

Sasha255n 10.12.2012 at 23:09

Да как раз примерно это я и искад попрогбую прикрутить к свей базе.

Reply ↓

eugen91 04.01.2013 at 13:19

Не вижу смысла данной обработки

Reply ↓

SeverBaP 21.02.2013 at 11:46

Все что доктор прописал хотя пришлось немного под свои нужды переделать

Reply ↓

pavel_pss 08.04.2013 at 15:53

Спасибо, то что нужно и спасибо за открытй код.

Reply ↓

ValeriTim 28.08.2013 at 13:56

Красаучик! 🙂

Reply ↓

LanaSN 12.09.2013 at 11:47

Спасибо, очень нужная обработка, экономит время для открытия таких файлов в других программах!

Reply ↓

mzelensky 23.10.2013 at 09:12

Замечательнейшая штуковинка!

Reply ↓

pose 24.10.2013 at 16:18

Спасибо, то что нужно .

Reply ↓

MakcTLT63 15.11.2013 at 08:38

Не понял что делает обработка? Распознает текст? Реализован FineReader на 1с?

зы. Обработку не качал..

Reply ↓

MakcTLT63 18.11.2013 at 11:30

Почитал комментарии, вопрос снимается.

Reply ↓

ded20ded 18.11.2013 at 14:10

Спасибо, большое, то что как раз сегодня понадобилось

Reply ↓

Dzenn 02.12.2013 at 15:34

Скорее всего, внутри обработки простое ИзвлечениеТекста(), о котором просто ещё не все знают

Reply ↓

Lerusena 08.12.2013 at 15:27

От души огромное спасибо! С небольшой дорабткой помогла решить ну оочень давно не решаемую проблему, освободила от рутины и дала кучу свободного времени! Огромный респект!!!!

Reply ↓

jonybanchicov 09.12.2013 at 18:41

Супер!

Reply ↓

undo 29.12.2013 at 20:35

Хорошее простое решение достаточно простой задачи, простой на первый взгляд, и достаточно часто нужно извлечь текст из PDF, а до графики это уже второй момент. То что ничего ставить дополнительно не нужно это хорошо.

Reply ↓

Alfer 10.01.2014 at 08:47

спасибо очень нужно

Reply ↓

Alfer 17.01.2014 at 08:50

не открывается Неверный формат хранилища данных ‘file://C:/ПрочитатьПДФ.epf

Reply ↓

Alfer 17.01.2014 at 08:52

скачалось всего 324K — не могли бы вы прислать на почту повторно ( а то я пустой)

Reply ↓

John_d 29.01.2014 at 17:44

Протестировал файл обработки. он нормально скачивается и работает.

Reply ↓

DrAku1a 08.12.2014 at 14:44

Почему модераторы пропускают абсолютно ненужные публикации с описанием обработки — в одну строку?

Reply ↓

NOVOPRO 11.12.2014 at 07:04

Лажа полная, используй стандартные проги и все нормально будет

Reply ↓

NOVOPRO 11.12.2014 at 07:28

Забавная штука гоняет, данные по сто раз из одного раздела в другой…… Только съедает системные ресурсы:

МакетУтилиты = ОбработкаОбъект.ПолучитьМакет(«pdftotext»);

= ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);

ФайлУтилиты1 = КаталогВременныхФайлов + «pdftotext.exe»;

ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);

УдалитьИзВременногоХранилища(Адрес);

ДанныеХранилища.Записать(ФайлУтилиты1);

………………………..

Reply ↓

Alexey_A 08.12.2015 at 10:48

спасибо! то, что надо!

Reply ↓

Scottlinch 13.08.2018 at 12:15

Спасибо. Сегодня пригодилась =) Вот бы комбайн кто допилил. Что бы с картинками и с таблицами можно было работать нормально.

Reply ↓

a3a 29.01.2019 at 14:44

Коллеги, не совсем понятно.

у меня файл из 3 страниц, а обработка распознала только первую 1 страницу.

у всех так?

Reply ↓

John_d 29.01.2019 at 15:01

(72) Добрый день, протестировал. Распознает все страницы.

Для теста использовал этот файл.

Reply ↓

AR18 30.01.2019 at 17:19

У меня ругается

{ВнешняяОбработка.СканПДФ.МодульОбъекта(6)}: Ошибка при вызове метода контекста (ПолучитьМакет)

МакетУтилиты = ПолучитьМакет(«pdftotext»);

по причине:

Недопустимое значение параметра (параметр номер ‘1’)

Reply ↓

AR18 30.01.2019 at 17:21

У меня ругается

{ВнешняяОбработка.СканПДФ.МодульОбъекта(6)}: Ошибка при вызове метода контекста (ПолучитьМакет)

МакетУтилиты = ПолучитьМакет(«pdftotext»);

по причине:

Недопустимое значение параметра (параметр номер ‘1’)…

Reply ↓

a3a 31.01.2019 at 05:54

(73) все. разобрался. у меня была большая таблица переходящая на следующую страницу.

В обработке был код

Если КодСимвола(Стр) = 12 Тогда

Прервать;

КонецЕсли;

так вот, на второй странице продолжающаяся таблица как раз возвращала КодСимвола(Стр) = 12.

Переписал на следующий и стало работать нормально.

Если КодСимвола(Стр) = 12 Тогда

// Прервать;

Стр = Текст.ПрочитатьСтроку();

КонецЕсли;

Reply ↓

Обработка распознает (читает) PDF- файл

72 Comments

Leave a Comment Отменить ответ

Обработка распознает (читает) PDF- файл

Related Posts

72 Comments

Leave a Comment Отменить ответ