Парсер сайта Авто.Ру

Пример парсера сайта auto.ru

Решил попрактиковаться в парсинге сайтов на примере сайта auto.ru.

 

Необходимо задать сформированную ссылку, например, по нужным моделям автомобилей, за сегодняшний день.

Далее переходим к просмотру сайта.

 

Сделал парсинг двумя видами:

  • первый способ, обход непосредственно поля HTML.
  • второй способ, через построитель DOM.

 

Обработка может обходить многостраничные результаты выдачи сайта.

Также умеет заходить в объявления, и забирать из них крупную картинку.

 

Обработка, по сути, является наработкой, на примере которой можно создавать свои собственные парсеры сайтов.

6 Comments

  1. Boneman

    Информация! На сайте изменились имена классов, и обработка в готовом виде уже не находит объявления. Необходимо заново анализировать структуру сайта, и прописывать имена в обработке. Так, что интерес она может представлять только методический.

    Reply
  2. olo_lo4

    эх, какая интересная обработка, жаль что уже не актуальна…

    Reply
  3. slawanix

    В свое время на Delphi пробовал сделать то же самое и уже началось, как мне показалось получаться. Но тоже наткнулся на защиту сайта от парсинга. И смена имен классов — это один из видов защиты у них на сайте. А еще были капчи, запрет на многократные запросы с малой задержкой и многое другое. Очень скоро задвинул на эту тему, не мне бодаться с их защитой. Ибо в этом не силен :))

    Reply
  4. sirm

    Не понятен смысл в 1с-ке делать парсер… для чего?

    Reply
  5. Boneman

    (4) sirm, как зачем. 1С — мощный корпоративный инструмент, в котором работают все пользователи конторы. Почему бы, в рамках соответствующих бизнес процессов, им же и не воспользоваться.

    Reply
  6. sirm

    (5) 1С достаточно тяжел и для работы с веб приложениями и в принципе не предназначен для этих целей. Существенно проще и главное быстрее делать это на PHP и прочих подобных инструментах. Тем более, что для такой задачи вам как воздух будут необходимы регулярные выражения.

    И еще тягаться с их защитой действительно не имеет смысла. Я тоже как-то на PHP делал пробный парсер для Авто.ру. Вроде работал, потом через некоторое время перестал по причине усовершенствования их защиты. В интернете куча ресурсов подобной тематики с более простыми механизмами защиты с которых можно спарсить аналогичную информацию.

    Но уж если невтерпеж, то попутный ветер в паруса:)

    Reply

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *