(1) автор использует xpdf — а также наклепал свою программу, которая просто запускает pdftotext без консольного окна. когда мне надо было рендерить в картинки pdf , я использовал подобным образом pdftoimage, потом написал ВК на шарпе + xpdf, потом и этот способ не устроил , сделал клиенту на native api и на mupdf.
На практике использую ее так. Эту обработку включил в конфигурацию, процедуру из формы прописал в модуле, как экспортную функцию с параметром полное имя файла. И из любого места конфигурации вызываю ее для поиска серийного номера который спрятан в тексте pdf файла.
(10) ну дык универсальной распознавалки не существует, — если очень хочется можно пробовать всякие бесплатные OCR системы ,но сразу скажу они все как правило отстойные в данной задаче. Можно купить fine reader (у него есть сервер автоматизации FineReader.Application) и прикрутить к 1С-ке. Но и он будет не всегда работать как надо(будут ошибки распознавания). Стоит задуматься, а правильно организована работа, если от распознавания неких документов зависит её процесс? Может лучше перевести все в электронный оборот и не париться?
(18) pdftotext что ли? издеваешься? там черным по белому написано
If you are redistributing unmodified copies of Xpdf (or any of the Xpdf tools) in binary form, you need to include all of the documentation: README, man pages (or help files), and COPYING. The README file contains a pointer to a web page with the source code, which satisfies the GPL requirement as far as I am concerned. You are, of course, welcome to distribute the source code as well.
т.е. надо было включить всю документацию, файлы COPYING, README , а главное ссылку на исходники автора. мне-то как-то все равно, но меня бесит одно , в публикации об этом ни слова, ни ссылки, типа ты сам это сделал, хотя вся твоя работа заключается просто в вызове чужой программы.
(19) Ну тут не все твоего уровня, я так вообще не читаю эти Readme ни на английсом ни на русском 🙂
Зато человек работал и делиться результатом. Объясни ошибку ему, раз он не в курсе. А наезжать то за что? Он же милионов на бесплатной чужой разработке не заработал.
От души огромное спасибо! С небольшой дорабткой помогла решить ну оочень давно не решаемую проблему, освободила от рутины и дала кучу свободного времени! Огромный респект!!!!
Хорошее простое решение достаточно простой задачи, простой на первый взгляд, и достаточно часто нужно извлечь текст из PDF, а до графики это уже второй момент. То что ничего ставить дополнительно не нужно это хорошо.
почему бы в описании не рассказать про механизм получения текста?
(1) автор использует xpdf — а также наклепал свою программу, которая просто запускает pdftotext без консольного окна. когда мне надо было рендерить в картинки pdf , я использовал подобным образом pdftoimage, потом написал ВК на шарпе + xpdf, потом и этот способ не устроил , сделал клиенту на native api и на mupdf.
PS нафига я эту
мурускачал?На практике использую ее так. Эту обработку включил в конфигурацию, процедуру из формы прописал в модуле, как экспортную функцию с параметром полное имя файла. И из любого места конфигурации вызываю ее для поиска серийного номера который спрятан в тексте pdf файла.
А нельзя поставить PDF IFilter и использовать ИзвлечениеТекста?
+ этой обработки, что ничего не надо ставить.
со сканированными PDF (картинка) облом ?
(6) конечно, xpdf парсер pdf, а не распознавалка картинок)))
текст извлечь неинтересно.. вот если бы она таблицы извлекала корректно… причем разного вида… с разлиновкой и без… вот это да.. было бы мощно…
(7) хых.. большинство ПДФов котрые гуляют по емейлам — это «картинки» которые были нагенерены всякими биопдф или вообеще тупые сканы…
То что надо! Долго искал подобную обработку
Сам сижу над такой же разработкой, загрузка прайсов из PDF с картинками, с качаю гляну.
(10) ну дык универсальной распознавалки не существует, — если очень хочется можно пробовать всякие бесплатные OCR системы ,но сразу скажу они все как правило отстойные в данной задаче. Можно купить fine reader (у него есть сервер автоматизации FineReader.Application) и прикрутить к 1С-ке. Но и он будет не всегда работать как надо(будут ошибки распознавания). Стоит задуматься, а правильно организована работа, если от распознавания неких документов зависит её процесс? Может лучше перевести все в электронный оборот и не париться?
Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.
(9) В любом случае полезная вещь, если у кого-то есть круче — выкладывайте!
Автор — молодец! вроде такого тут не выкладывали еще
(15) в чем он молодец? в том, что нарушает лицензионное соглашениеhttp://www.foolabs.com/xpdf/about.html ?
(16)
(14)GNU General Public License
http://ru.wikipedia.org/wiki/GNU_General_Public_License
я название программы в макете не скрыл.
(18) pdftotext что ли? издеваешься? там черным по белому написано
т.е. надо было включить всю документацию, файлы COPYING, README , а главное ссылку на исходники автора. мне-то как-то все равно, но меня бесит одно , в публикации об этом ни слова, ни ссылки, типа ты сам это сделал, хотя вся твоя работа заключается просто в вызове чужой программы.
(19)эту программу нашел в таком виде как она у меня в макете. Никаких README там не было, где я ее нашел.
http://www.foolabs.com/xpdf , то пожалуйста вот ссылка на разработчика.
Если разработчик ее
Ладно вам не судите строго то человек все таки старался.
(19) Ну тут не все твоего уровня, я так вообще не читаю эти Readme ни на английсом ни на русском 🙂
Зато человек работал и делиться результатом. Объясни ошибку ему, раз он не в курсе. А наезжать то за что? Он же милионов на бесплатной чужой разработке не заработал.
Хотя я согласен что нужно указывать подробно
А таблицу нормально распознает?
(23)распознает только текст
легче будет если конвертировать pdf в excel,word или тексовый файл.
OldthiefXXX (файл скачал) 08.06.12 10:12URL
Заканчиваю писать свой комбайн обработки PDF файла выложу, будет по интереснее, там с картинками с правильными таблицами.
Давай, будем ждать твоего шедевра;)
Надо будет попробовать… потом дам оценку
Хотелось бы более детального описания. А вещь полезная.
Заглянул в код этой обработки и обнаружил нечто несуразное:
Показать
МакетУтилиты — это ДвоичныеДанные. Зачем их гонять во временное хранилище и обратно, когда их можно сразу записать в файл на диск?
IFilter PDF не умеет что ли?
(30)+ этой обработки, что ничего не надо ставить.
ну раз ничего не надо ставить дополнительного, то плюсую. скачаю позже, посмотрю, уже есть мысли, куда это можно прикрутить
(32)я вот так прикрутил)(3)
Интересно, спасибо.
Плюс если ничего не надо дополнительного А вообще то я думал что AcrobatReader бесплатное приложение наверное ошибался.
хорошая обработка, как то что доктор прописал. правда тестировала на большом pdf файлике — долго ждать пришлось
обработка хорошая пригодилась
Если я встрою эту обработку в свою конфигурацию, куда нужно записывать авторскую информацию? И чью?
Спасибо. Довольно интересное решение.
а нельзя просто переформировать файл в другой текстовый формат. программ для этого в интернете 1000.
О! то что искали, будем пробовать, спасибо. Позже поделюсь опытом использования.
Плюс! Но неплохо было бы развить идею в работу с документами …
очень полезная обработка, автору респект!
Можно извлечь непосредственно сам текст? как дела обстоят с графиками?
Да как раз примерно это я и искад попрогбую прикрутить к свей базе.
Не вижу смысла данной обработки
Все что доктор прописал хотя пришлось немного под свои нужды переделать
Спасибо, то что нужно и спасибо за открытй код.
Красаучик! 🙂
Спасибо, очень нужная обработка, экономит время для открытия таких файлов в других программах!
Замечательнейшая штуковинка!
Спасибо, то что нужно .
Не понял что делает обработка? Распознает текст? Реализован FineReader на 1с?
зы. Обработку не качал..
Почитал комментарии, вопрос снимается.
Спасибо, большое, то что как раз сегодня понадобилось
Скорее всего, внутри обработки простое ИзвлечениеТекста(), о котором просто ещё не все знают
От души огромное спасибо! С небольшой дорабткой помогла решить ну оочень давно не решаемую проблему, освободила от рутины и дала кучу свободного времени! Огромный респект!!!!
Супер!
Хорошее простое решение достаточно простой задачи, простой на первый взгляд, и достаточно часто нужно извлечь текст из PDF, а до графики это уже второй момент. То что ничего ставить дополнительно не нужно это хорошо.
спасибо очень нужно
не открывается Неверный формат хранилища данных ‘file://C:/ПрочитатьПДФ.epf
скачалось всего 324K — не могли бы вы прислать на почту повторно ( а то я пустой)
Протестировал файл обработки. он нормально скачивается и работает.
Почему модераторы пропускают абсолютно ненужные публикации с описанием обработки — в одну строку?
Лажа полная, используй стандартные проги и все нормально будет
Забавная штука гоняет, данные по сто раз из одного раздела в другой…… Только съедает системные ресурсы:
МакетУтилиты = ОбработкаОбъект.ПолучитьМакет(«pdftotext»);
= ПоместитьВоВременноеХранилище(МакетУтилиты, Новый УникальныйИдентификатор);
ФайлУтилиты1 = КаталогВременныхФайлов + «pdftotext.exe»;
ДанныеХранилища = ПолучитьИзВременногоХранилища(Адрес);
УдалитьИзВременногоХранилища(Адрес);
ДанныеХранилища.Записать(ФайлУтилиты1);
………………………..
спасибо! то, что надо!
Спасибо. Сегодня пригодилась =) Вот бы комбайн кто допилил. Что бы с картинками и с таблицами можно было работать нормально.
Коллеги, не совсем понятно.
у меня файл из 3 страниц, а обработка распознала только первую 1 страницу.
у всех так?
(72) Добрый день, протестировал. Распознает все страницы.
Для теста использовал этот файл.
У меня ругается
{ВнешняяОбработка.СканПДФ.МодульОбъекта(6)}: Ошибка при вызове метода контекста (ПолучитьМакет)
МакетУтилиты = ПолучитьМакет(«pdftotext»);
по причине:
Недопустимое значение параметра (параметр номер ‘1’)
У меня ругается
{ВнешняяОбработка.СканПДФ.МодульОбъекта(6)}: Ошибка при вызове метода контекста (ПолучитьМакет)
МакетУтилиты = ПолучитьМакет(«pdftotext»);
по причине:
Недопустимое значение параметра (параметр номер ‘1’)…
(73) все. разобрался. у меня была большая таблица переходящая на следующую страницу.
В обработке был код
Если КодСимвола(Стр) = 12 Тогда
Прервать;
КонецЕсли;
так вот, на второй странице продолжающаяся таблица как раз возвращала КодСимвола(Стр) = 12.
Переписал на следующий и стало работать нормально.
Если КодСимвола(Стр) = 12 Тогда
// Прервать;
Стр = Текст.ПрочитатьСтроку();
КонецЕсли;