Пример парсера сайта auto.ru
Решил попрактиковаться в парсинге сайтов на примере сайта auto.ru.
Необходимо задать сформированную ссылку, например, по нужным моделям автомобилей, за сегодняшний день.
Далее переходим к просмотру сайта.
Сделал парсинг двумя видами:
- первый способ, обход непосредственно поля HTML.
- второй способ, через построитель DOM.
Обработка может обходить многостраничные результаты выдачи сайта.
Также умеет заходить в объявления, и забирать из них крупную картинку.
Обработка, по сути, является наработкой, на примере которой можно создавать свои собственные парсеры сайтов.
Информация! На сайте изменились имена классов, и обработка в готовом виде уже не находит объявления. Необходимо заново анализировать структуру сайта, и прописывать имена в обработке. Так, что интерес она может представлять только методический.
эх, какая интересная обработка, жаль что уже не актуальна…
В свое время на Delphi пробовал сделать то же самое и уже началось, как мне показалось получаться. Но тоже наткнулся на защиту сайта от парсинга. И смена имен классов — это один из видов защиты у них на сайте. А еще были капчи, запрет на многократные запросы с малой задержкой и многое другое. Очень скоро задвинул на эту тему, не мне бодаться с их защитой. Ибо в этом не силен :))
Не понятен смысл в 1с-ке делать парсер… для чего?
(4) sirm, как зачем. 1С — мощный корпоративный инструмент, в котором работают все пользователи конторы. Почему бы, в рамках соответствующих бизнес процессов, им же и не воспользоваться.
(5) 1С достаточно тяжел и для работы с веб приложениями и в принципе не предназначен для этих целей. Существенно проще и главное быстрее делать это на PHP и прочих подобных инструментах. Тем более, что для такой задачи вам как воздух будут необходимы регулярные выражения.
И еще тягаться с их защитой действительно не имеет смысла. Я тоже как-то на PHP делал пробный парсер для Авто.ру. Вроде работал, потом через некоторое время перестал по причине усовершенствования их защиты. В интернете куча ресурсов подобной тематики с более простыми механизмами защиты с которых можно спарсить аналогичную информацию.
Но уж если невтерпеж, то попутный ветер в паруса:)