Парсинг товаров сайта средствами 1С 8

В этой статье я постараюсь описать процесс парсинга сайтов средствами 1С с примером. Это статья не является инструкцией к применению, а лишь демонстрирует возможности 1С.

Что мы имеем?

1. Сайт в интернете, на котором располагается список товаров. В моем случае – это интернет магазин салона «Связной»
2. Понимание основ сайтостроения… хотя бы знание HTML тегов
3. Умение кодить в 1С 8

Все вышеперечисленные пункты в арсенале? Тогда читаем далее

Заметка 2025 года: Это очень плохой способ парсинга. Даже не помню были тогда в 1С те средства, которыми можно парсить или нет. Хороший способ есть тут

Для начала парсинга стоит определиться с тем что мы хотим спарсить и какая у нас будет иерархия. В моем случае это — категория сотовых телефонов. Верхний уровень иерархии будет — производители. Почему именно так? Потому что я так захотел. Вы же вправе использовать любую иерархию. Далее нам будут интересны такие поля как: Наименование, Цена, Картинка и Описание… ну и пожалуй захватим операционную систему, чтобы пример получился более наглядным.

Создаем внешнюю обработку. Те, кто не знают как это сделать — дальше могут не читать
Создаем форму обработки с командной панелью снизу и сверху (они могут быть полезными)
Размещаем на ней Панель и обзываем первую страницу "СамСайт"
Кладем на страницу "СамСайт" ПолеHTMLДокумента и обзываем его к примеру "Сайт"
Переименовываем кнопку "Выполнить", которая находится на нижней панели в "Загрузить сайт"
Описываем процедуру нажатия на эту кнопку так:

ЭлементыФормы.Сайт.Перейти("http://www.svyaznoy.ru/catalog/phone/224"); //Категория с мобильными телефонами

Проверяем работу нашей обработки. У меня появился сайт связного. А у Вас?

Дальше сложнее. Все еще хочешь парсить сайты? Тогда читай.

Сам парсинг сайта заключается в обходе всех элементов загруженной страницы, выдергивания необходимой информации и запихивания их в табличную часть. Для этого:

Создадим табличную часть "Производители" с реквизитами "Отметка" (Булево), "Наименование" (Строка 100) и "Ссылка" (Строка 300).
Добавляем еще одну страницу на панели и обзываем ее "Производители"
Размещаем на этой странице одноименную табличную часть
Добавляем на нижней панели кнопку "Заполнить производителей" с кодом:

Для Каждого Стр из ЭлементыФормы.Сайт.Документ.body.all Цикл
Если Стр.tagName = "H1" и Стр.innerText = "Производители" Тогда
Для Каждого опСтр из Стр.nextSibling.children Цикл
новСтр = Производители.Добавить();
новСтр.Наименование = опСтр.innerText;
новСтр.Ссылка = опСтр.firstChild.href;
КонецЦикла;
Возврат;
КонецЕсли;
КонецЦикла;

   Здесь напрашиваются небольшие пояснения:
   tagName — имя HTML тега в HTML документе
   nextSubling — следующий элемент HTML документа от текущего
   children — список дочерних элементов
   firstChild — первый дочерний элемент от текущего

Проверяем. При проверке важно находиться на странице "СамСайт", чтобы заполнять производителей

Производители заполнены. Теперь к самим телефонам

Создаем табличную часть "Товары" с реквизитами "Производитель" (Строка 100), "Наименование" (Строка 100), "Цена" (Число 10,2), "Картинка" (Строка 300), "Описание" (Строка Неограниченная), "ОС" (строка 100), "Ссылка" (Строка,300)
Добавляем еще одну страницу на панели и обзываем ее "Товары"
Размещаем на этой странице одноименную табличную часть
Добавляем на нижней панели кнопку "Заполнить товары" с кодом:

Для Каждого Стр из Производители Цикл
//Если отметку сняли - то не трогаем этого производителя
Если Не Стр.Отметка Тогда
Продолжить;
КонецЕсли;
Форма = ПолучитьФорму("ФормаТоваров");
Форма.ЭлементыФормы.Сайт.Перейти(Стр.Ссылка);
Форма.ТекущийПроизводитель = Стр;
Форма.ОткрытьМодально();
КонецЦикла;

Создаем форму обработки "ФормаТоваров"
Кладем на "ФормаТоваров" ПолеHTMLДокумента и называем его "Сайт"
На событие ДкументСформирован у ПоляHTMLДокумента пишем код:

Если ЭлементыФормы.Сайт.Документ.body.all.length>1 Тогда
ГрузимТовары();
КонецЕсли;

Создаем переменную в модуле формы

Перем ТекущийПроизводитель Экспорт;

Создаем процедуру ГрузимТовары():

Процедура ГрузимТовары()
Для Каждого Стр из ЭлементыФормы.Сайт.Документ.body.all Цикл
Если Стр.className = "ct_desc cleared" Тогда
новСтр = Товары.Добавить();
Для Каждого опСтр из Стр.children Цикл
Если опСтр.className = "pic_and_comp" Тогда
новСтр.Картинка = СтрЗаменить(Сред(опСтр.firstChild.style.backgroundImage,5),")","")
КонецЕсли;
Если опСтр.className = "name" Тогда
новСтр.Наименование = опСтр.innerText;
новСтр.Ссылка = опСтр.firstChild.href;
КонецЕсли;
Если опСтр.className = "price" Тогда
новСтр.Цена = Число(СтрЗаменить(СтрЗаменить(опСтр.innerText,"-","")," ",""));
КонецЕсли;
Если опСтр.className = "desc" Тогда
новСтр.Описание = опСтр.innerText;//опСтр.innerHTML - если нужно вместе с тегами
КонецЕсли;
КонецЦикла;
КонецЕсли;
КонецЦикла;
Закрыть();
КонецПроцедуры

Проверяем. Все работает.

Дело осталось за "операционной системой" и еще надо загрузить картинки. Давайте по порядку. Чтобы получить "ОС" нам надо открыть этот товар и считать "ОС" оттуда. Для этого делаем следующее:

Добавляем на нижней панели кнопку "Доп Инфо" с кодом:

Для Каждого Стр из Товары Цикл
Форма = ПолучитьФорму("ФормаДопИнфо");
Форма.ЭлементыФормы.Сайт.Перейти(Стр.Ссылка);
Форма.ТекущийТовар = Стр;
Форма.ОткрытьМодально();
КонецЦикла;

Создаем форму обработки "ФормаДопИнфо"
Кладем на "ФормаДопИнфо" ПолеHTMLДокумента и называем его "Сайт"
На событие ДкументСформирован у ПоляHTMLДокумента пишем код:

Если ЭлементыФормы.Сайт.Документ.body.all.length>1 Тогда
ГрузимДопИнфо();
КонецЕсли;

Создаем переменную в модуле формы

Перем ТекущийТовар Экспорт;

Создаем процедуру ГрузимДопИнфо():

Процедура ГрузимДопИнфо();
Для Каждого Стр из ЭлементыФормы.Сайт.Документ.body.all Цикл
Если Стр.className = "card_spec" Тогда
Для Каждого опСтр из Стр.children Цикл
Если Найти(опСтр.innerText,"Операционная система:") Тогда
ТекущийТовар.ОС = СокрЛП(СтрЗаменить(опСтр.innerText,"Операционная система:",""));
КонецЕсли;
КонецЦикла;
КонецЕсли;
КонецЦикла;
Закрыть();
КонецПроцедуры

Проверяем и переходим к последнему пункту

Заметили как похожи две последние инструкции? То-то же. Стремился к универсальности. Ну и наконец последний этап — сохраним все изображения к примеру на диск "С" в папку "Svyaznoy". Поехали:

Добавляем на нижней панели кнопку "Сохранить Картинки" с кодом:

Для Каждого Стр из Товары Цикл
путьСамФайл = Лев(Стр.Картинка,Найти(Стр.Картинка,".jpg/") + 3);
самФайл = СтрЗаменить(СтрЗаменить(ПутьСамФайл,"http://static.svyaznoy.ru/upload/iblock/",""),"/","");
Стр.Картинка = СохранитьКартинкуСайта("C:Svyaznoy",ПутьСамФайл,СамФайл);
КонецЦикла;

Добавляем функцию СохранитьКартинкуСайта:

Функция СохранитьКартинкуСайта(КаталогСохранения,КартинкаНаСайте,КартинкаУНас)
ИмяФайлаКартинки = КаталогСохранения + "" + КартинкаУНас;
ГетЗапрос = Новый COMОбъект("WinHttp.WinHttpRequest.5.1");
ГетЗапрос.SetTimeouts(10000, 10000, 10000, 10000);
БазовыйУРЛ = КартинкаНаСайте;
Хидер1 = "Content-Type";
Хидер2 = "image/jpg"; // Тип рисунка.
ГетЗапрос.Open("GET", БазовыйУРЛ, False); // Синхронный режим.
ГетЗапрос.setRequestHeader(Хидер1, Хидер2);
ГетЗапрос.Send();
СтатусОтправки = ГетЗапрос.status;
Если СтатусОтправки <> 200 Тогда
Сообщить("Ошибка отправки запроса на: "
+ КартинкаНаСайте);
Возврат "";
КонецЕсли;

Стрим = Новый COMОбъект("ADODB.Stream");
Стрим.Mode = 3;
Стрим.Type = 1;
Стрим.Open();
Стрим.Write(ГетЗапрос.responseBody);

Стрим.SaveToFile(ИмяФайлаКартинки, 2);
Стрим.Close();
Возврат ИмяФайлаКартинки;
КонецФункции

На этом наша эпопея с парсингом закончена. Это всего лишь пример того, как это можно сделать. Приложив сюда немного своего кода — можно сделать парсер для любого сайта.

Имея парсер 1С — я могу спарсить все, кроме этого парсера. Имея два парсера 1С — я могу спарсить все 🙂

51 Comments

opx 02.08.2011 at 18:17

Комментарии можете и сюда писать, но на своем блоге я их читаю чаще

Reply ↓
cool.vlad4 02.08.2011 at 18:36

Я честно говоря 1С в этом плане невзлюбил…использую C# + htmlagilitypack(для более сложных случаев Watin)+ разбор xml (xpath/xslt или даже xquery- особенно удобно в качестве хранимых процедур в ms sql)…для пользователей делаю как правило консольные утилитки — url строка — и через stdin получение результата/либо через файл/либо через базу.

Reply ↓
cool.vlad4 02.08.2011 at 18:40

Что для этого может понадобится….fiddler(локальный прокси, перехватывающий запросы для дебаггинга ), любой преобразователь html-xml(главное потом не забыть делать тесты именно на конечном xml, а не на html)-tidy,sgmlreader, htmlagilitypack и т.д. Что еще, какая-нибудь xpath тулза, их много…

Reply ↓
BigB 02.08.2011 at 21:30

Вот тут http://infostart.ru/public/61194/ парсер JSONа. Может чем и пригодится.

Reply ↓
alexk-is 02.08.2011 at 22:02

Может это поможет…

http://infostart.ru/public/19856/

Reply ↓
opx 02.08.2011 at 22:41

(5)Это вы про то, что надо было код подкрасить? Просто лень качать и устанавливать что-то. Было бы здорово, если б разработчики добавили такой функционал прямо в редактор на сайте

Reply ↓
opx 02.08.2011 at 22:42

(4) И казалось бы… Причем тут крокодилы 🙂 ) Без обид, но это совсем другая тема

Reply ↓
Yashazz 02.08.2011 at 22:48

Ну и что? Очередной примитивный парсинг, частный случай. Такого тут бывало дофига.

Причём волшебная аббревиатура DOM тут так и не прозвучала. А жаль, я было понадеялся на настоящий обзор.

Reply ↓
opx 03.08.2011 at 01:38

(8) Что по-вашему должно было войти в настоящий обзор?

Reply ↓
opx 03.08.2011 at 10:43

Если у кого-нибудь получилось по этой инструкции спарсить сайт — напишите. Будет интересно

Reply ↓
freest 03.08.2011 at 11:47

Когда-то давно писал парсер, цепляя эксплорер через COM соединение и пользуя его внутренний парсер.. скорость парсинга удручающая. С выходом 8.2 переписал, используя ЧтениеHTML и ПостроительДОМ, скорость возросла в десяток раз.

К чему я все это.. Я правильно понимаю, что ПолеHTMLДокумента — это фактически IE? И парсинг идет встроенным парсером эксплорера?

Reply ↓
opx 03.08.2011 at 12:01

(11) Интересная тема про DOM. Может опишите свои методы парсинга?

Reply ↓
cool.vlad4 03.08.2011 at 12:06

(11) Да ПолеHtmlДокумента это обертка над IE. IE — это не один activex, а целый зоопарк. Часто используют shdocvw.dll и mshtml.dll. Первая это широко любимый, но медленный WebBrowser , а второй синтаксический html анализатор. Фиг знает, чего там в 8.2 быстрее, но терзают смутные сомнения, что 1С до сих пор эксплуатирует IE, возможно добавили свои примочки. Насчет быстродействия — а технология com никогда не отличалась быстротой. Здесь надо понимать задачи — если парсинг простейший как в описанной статье, то использовать браузер нецелесообразно, делайте get запрос, получайте html — трансформируйте в xml — затем получайте свою информацию (для данного случая — связного обход товаров через //div[contains(@class,’ct_el’) ] затем /div[@class=’name’] и т.д.) . Браузер нужен, когда используются более сложные технологии, которые другим путем не получить, например ajax.

Reply ↓
freest 03.08.2011 at 12:20

(12) Я не являюсь экспертом в этой области, по этому не претендую на максимально оптимальный в плане быстродействия алгоритм. Но все же опишу. HTML код страницы получаю через HTTPСоединение

Соединение = Новый HTTPСоединение(Сервер);

Соединение.Получить(Адрес,ИмяФайла);

Далее полученный код загружаем в ЧтениеHTML.

ЧтениеХТМЛ = Новый ЧтениеHTML();

ЧтениеХТМЛ.ОткрытьФайл(ИмяФайла);

Ну и далее загружем в 1с-ный парсер xml и html — ПостроительDOM.

ПостроительДОМ = Новый ПостроительDOM;

ДокументХТМЛ = ПостроительДОМ.Прочитать(ЧтениеХТМЛ);

Работа с построителемДОМ схожа с работой парсера ИЕ, методы читать в хелпе. (Та же работа с коллекциями тегов — перебор, получение именованных тегов и т.д.)

(13) Все-таки построительDOM — встроенный парсер html и xml, имхо, IEшный он не использует.

Reply ↓
opx 03.08.2011 at 12:20

(13) А что, если сайт использует куки? Как например их использует связной для подстановки города. А надо по другим городам парсить. Только браузером.

Reply ↓
freest 03.08.2011 at 12:29

(15) Куки можно передавать 3м параметром «заголовки» у HTTPСоединение:

Соединение.Получить(Адрес,ИмяФайла,Заголовки);

Reply ↓
cool.vlad4 03.08.2011 at 12:30

(15) куки передаются протоколом http, любой клиент http может передать куки, необязательно браузер.

(14) а пруфлинки по поводу Построителя есть или это догадки?

Reply ↓
cool.vlad4 03.08.2011 at 12:33

(14) Он доступен под сервером, так, что по всей видимости они написали наконец-то свой, потому и быстрее. А работа похожа на IE , также как и на Mozzila , также как и т.п. DOM он везде DOM

Reply ↓
freest 03.08.2011 at 12:38

(18) Ну и хорошо, потому что пруфлинков не было у меня, только личные ощущения 😉

Reply ↓
makeya 05.08.2011 at 13:45

отличная обработка! хоть по мнению некоторых это и «примитивный парсинг», но меня натолкнуло на множество идей (хоть раньше и стояла задача по парсингу информации с сайта, парсить это средствами 1С даже в голову не приходило!).

спасибо автору за такое подробное описание и приятный код 🙂

Reply ↓
cool.vlad4 05.08.2011 at 14:13

(20)и что за идеи?

Reply ↓
makeya 05.08.2011 at 14:30

(21) Просто идеи по созданию подобной обработки для решения своих задач (едва ли это касается этой ветки), достаточно удобно делать это средствами 1С, чтоб потом сразу же без лишних обменов данными и т.д. использовать собранную информацию. Хотя то, что вы описали во втором комментарии тоже чудно.

Reply ↓
opx 05.08.2011 at 16:05

(22) Все верно. Эта обработка и была сюда выложена для того, чтоб у людей появились собственные идеи и чтоб не делать всякие обмены и т.д.

Reply ↓
maloi_a 08.08.2011 at 09:34

Замечание.

Процедуру для кнопки «Заполнить производителей»

надо начать с

Производители.Очистить();

Reply ↓
opx 08.08.2011 at 10:49

(24) Верное замечание.

Reply ↓
Medvedik 19.08.2011 at 09:41

Попробую использовать материал для написания парсера сайта конкурентов 🙂

Сдернуть у них описание и пикчи (в свой стартап, да такой я редис), в дальнейшем — мониторить цены (тут еще яндекс.маркет нужно будет анализировать, но это другая тема).

От меня +

Reply ↓
opx 19.08.2011 at 15:28

(26) Я тоже думал о похожем стартапе. По идеи можно выдавать по 2-3 готовых интернет магазина в неделю. Главное наладить процесс. А, скажем, через год иметь более 100 сайтов и что-то да продавать. Вот такой вот я дорвейщик 🙂

Reply ↓
djd.sf 19.08.2011 at 17:47

(26)Это не Вы ли парсите, что яндекс не работает? 😀

Reply ↓
opx 20.08.2011 at 00:14

(28)откуда ты знаешь?

Reply ↓
Aleanza 25.08.2011 at 17:59

А работает ли это чудо с установленным ИЕ9?

Reply ↓
opx 26.08.2011 at 15:01

(30) Я не знаю. По идеи — ничто не должно препятствовать этому. Попробуйте, чтобы знать наверняка

Reply ↓
morfeus 05.10.2011 at 09:19

Этот парсер только для одного сайта, а я делал для любого количества сайтов (Логика была в настройке закономерностей на основе тегов)

Reply ↓
opx 05.10.2011 at 18:19

(33)Я тоже сначала думал сделать универсальным с логикой на тегах, но это бы ограничило количество возможных сайтов для парсинга. Хотя может я и ошибаюсь. Я же не вижу вашей обработки.

Да и в целом — парсингом занимаются в основном программисты, а не конечные пользователи. Все равно код править.

Reply ↓
Anton_prezident 12.02.2012 at 16:00

Спасибо,теперь ясно как работать в 1с с парсингом сайта

Reply ↓
borrman 28.03.2012 at 23:40

А парсинг просто с использованием рег. выражений не будет работать быстрее? Или с ними будет больше мороки, чем реальной пользы?

Reply ↓
opx 29.03.2012 at 11:30

(36)Быстрее может и будет. Я не проверял. Меня вполне устраивает этот способ парсинга. Если наловчиться и использовать такие инструменты как firebug в firefox’е, 1с ну и конечно же мой подход — парсинг одного сайта с заливкой базу данных 1с займет около 3-4 часов. Регулярные выражения — для меня тема далекая (пользовался всего пару раз), да и штатных средств у 1с для работы с ними нет. А костыли я не люблю использовать.

А так конечно каждому самому выбирать. Что удобно — тем и пользоваться.

Reply ↓
tolyan_ekb 02.05.2012 at 13:51

Плюсанул. Понятное введение и пример. Интересно было бы почитать про парсинг многостраничных сайтов с переходами внутри страничек.

Reply ↓
ksnik 15.08.2012 at 20:39

(38) tolyan_ekb, в открытой обработке http://infostart.ru/public/147622/ поддерживается многостраничность!

Только заметил эту статью, благодарю автора!

Reply ↓
alexlights 18.08.2012 at 21:43

Хороший парсер. На основании этой обработки написал бота для браузерной игры 🙂

Reply ↓
Masich 16.09.2012 at 13:29

Спасибо.

Очень полезная статья для «входа в тему».

Reply ↓
porfirius 25.06.2013 at 13:21

Спасибо, попробуем поработать в 1с с парсингом сайта

Reply ↓
RBEvgenyPN 02.09.2013 at 18:32

Добрый день. Скачал, попробовал, не работает. Не грузит нечего. Предположил что сайт немного видоизменили.

Немного подправил, получилось загрузить Производителей. После чего столкнулся с проблемкой.

Кто нибудь может мне растолковать как работает:»ЭлементыФормы.Сайт.Документ.body.all.length>1″ на событие ДкументСформирован у ПоляHTMLДокумента. Почему то у меня пишет : «Поле объекта не обнаружено (length)». Что я делаю не так?

Reply ↓
sunlit 29.10.2013 at 01:21

RBEvgenyPN тоже скачал и тоже не работает — расскажи, что поправил.

Reply ↓
plevakin 12.12.2013 at 10:12

(43) RBEvgenyPN, не то, что ЭлементыФормы.Сайт.Документ.body.all.length не работает, а даже на all ругается. Заменил на Для Каждого Стр из ЭлементыФормы.Сайт.Документ.body.childNodes Цикл вроде пошло дело, но стало ругаться на следующую строчку, пришлось добавить заглушку

Попытка рТипУзла=Стр.nodeType Исключение рТипУзла=0 КонецПопытки;

Если рТипУзла<>1 Тогда Продолжить КонецЕсли;

Но производителей все равно не грузит, видимо действительно на сайте все стало по другому и тегов H1 там больше нет.

Reply ↓
Makushimo 10.01.2014 at 07:58

а как вы выяснили, откуда грузить производителей и откуда сами телефоны?

от темы далек, но интересно

Reply ↓
opx 10.01.2014 at 09:43

(46)Любой сайт — это набор HTML тегов (инструкций для браузера как выводить информацию). По этим тегам и выясняем откуда грузить.

Reply ↓
gosizo 31.01.2014 at 21:05

А как можно пройти авторизацию (логин и пароль есть) и затем пропарсить содержимое нужных страниц ?

Reply ↓
opx 01.02.2014 at 23:08

(48)Удивлен, что Вас заинтересовал этот метод парсинга. Сам я уже давно по-другому делаю. Этот пример скорее всего стоит пометить заголовком «Как не надо парсить сайты» )).

Способы авторизации разные бывают. Дайте сайт посмотреть.

Reply ↓
rustork 23.04.2014 at 14:08

(49) А по-другому это как? Может статейку? 🙂

Reply ↓
angernaughts 20.11.2014 at 16:15

Описал немного иной способ парсить сайт, аналогичный этому, но без использования браузера на форме — http://infostart.ru/public/314045/

Reply ↓
Alexey_A 08.01.2016 at 00:03

(10) спасибо! начал путь парсинга с Вашей статьи!

к сожалению ДкументСформирован срабатывает совсем не как планируется, поэтому я сделал через предупреждение с паузой.

Reply ↓

Парсинг товаров сайта средствами 1С 8

Related Posts

51 Comments

Leave a Comment Отменить ответ