Альтернативные способы работы с XML. Часть 1: Введение в DOM или объектная модель документа XML

варианты выборки данных из XML через модель DOM

Данная публикация предваряет ряд статей об альтернативных способах работы с XML. "Альтернативных", потому что как правило работа с XML в 1С ограничивается разбором XML при помощи последовательного чтения — построчного разбора текстового содержимого. А ведь есть еще и другие способы.

Данная публикация предваряет ряд статей об альтернативных способах работы с XML. «Альтернативных», потому что как правило работа с XML в 1С ограничивается разбором xml при помощи последовательного чтения — построчного разбора текстового содержимого. А ведь есть еще и другие способы.

Например, использование языка запросов к XML xPath или шаблонов трансформации XSL. Об этих вариантах будет рассказано в следующих статьях. Но все они опираются на базовое представление документов XML в виде DOM. О том, что такое DOM (document object model или объектная модель документа) и пойдет речь в публикации.

DOM базируется на представлении документа любой структуры в виде дерева узлов, каждый узел (нода) которого представляет собой элемент, атрибут элемента, текстовое значение элемента и т.п.. Связь между узлами построена по принципу «родитель — подчиненные». У корня документа (дерева DOM) родителя нет. У тупикового элемента нет подчиненного (такие элементы абстрактно называются листьями дерева). Таким образом модель DOM может создаваться не только для XML, но фактически для любого структурированного документа (HTML, XHTML). Так, например, браузер пользователя, получая HTML код веб-страницы из интернета, строит дерево DOM этой страницы в оперативной памяти компьютера пользователя.

Модель DOM открывает широкие возможности по манипуляции данными документа. Можно создавать новые узлы, вставлять их на разных уровнях дерева, копировать узлы, удалять узлы, искать узлы по разным параметрам и многое другое.

Модель DOM документа XML наглядно представлена на рисунке ниже.

модель DOM документа xml

Любой современный язык программирования имеет в своем составе средства (парсеры) для работы с таким деревом. Получая на вход строковое содержимое XML-парсер выстраивает в оперативной памяти дерево узлов и выполняет манипуляции с данными дерева. Преимущество такого подхода перед построчным разбором очевидно: одним запросом к дереву можно выбрать необходимы данные, не перебирая построчно весь документ, ведь в оперативной памяти находится полное представление элементов со всеми взимосвязями.

В платформе 1С модель DOM представлена специальным объектом ДокументDOM, который в свою очередь строится при помощи объекта ПостроительDOM и его метода Прочитать. На вход этому методу, как правило, подается либо объект ЧтениеXML, либо ЧтениеHTML, при помощи которых осуществляется непосредственное считывание из файлов или загрузка из строки текстового содержимого XML или HTML. Ну и далее есть ряд конструкций, позволяющих извлекать данные из объектоной модели прочитанного документа.

варианты выборки данных из XML через модель DOM

Из всех вариантов самым интересным с моей точки зрения является вариант №1 с использованием метода ВычислитьВыражениеXPath. Ему будет посвящена следующая статья.

Плюсы построчного разбора: потребность в ресурсах меньше. Минусы: долго по времени, чтобы получить данные нужно построчно прочитать весь файл, сложность программного кода при разборе XML-документов со сложной структурой.

Преимущество выборки через DOM: скорость выборки данных, простота программного кода. Минусы: требовательность к ресурсам, на построение и запросы к DOM расходуется оперативная память и процессорные мощности.

10 Comments

seermak 08.08.2012 at 05:22

Просьба: доведите до конца только без заумничества

Reply ↓

salexdv 08.08.2012 at 08:58

А где же?

 Для Каждого Узел ИЗ ДокументDOM.ДочерниеУзлы Цикл
// Обработка узла
КонецЦикла;

Reply ↓

awk 13.08.2012 at 12:08

Плюсы построчного разбора: потребность в ресурсах меньше.

Минусы: долго по времени, чтобы получить данные нужно построчно прочитать весь файл, сложность программного кода при разборе xml документов со сложной структурой.

Преимущество выборки через DOM: скорость выборки данных, простота программного кода.

Минусы: требовательность к ресурсам, на построение и запросы к DOM расходуется оперативная память и процессорные мощности.

А можно более подробно меньше чего и быстрее чего. Если долго по времени писать код, то может быть да. Если долго по времени получить данные — то нет.

Про скорость выборки данных — это совсем не так. В ДОМ как минимум два прохода, а в потоковом парсере можно свести все к одному.

Мой вывод (из опыта работы):

Так что ДОМ удобней, а поток быстрей.

Reply ↓
KapasMordorov 13.08.2012 at 13:44

(4)

Ага, «Преимущество DOM: скорость выборки данных» звучит как анекдот. Особенно в момент, когда оперативная память заканчивается.

Reply ↓
AlexO 14.08.2012 at 15:00

Но все они опираются на базовое представление документов xml в виде DOM

Это что за «базовое представление» такое в рамках стандарта XML, и с каких таких перепугов «модель представления документов» вдруг стала базовым по отношению к XML?

Reply ↓
AlexO 14.08.2012 at 15:05

И вообще — с каких это пор обработка XML в рамках DOM стала «альтернативным способом» (альтернативным в том контексте, как заявлен цикл статей у автора — т.е. «никто и не знал — а на те, есть DOM для обработки XML»?

Reply ↓
sashocq 15.08.2012 at 08:54

Согласен с (6). Это всегда был основной способ. А для больших файлов, DOM которых не помещается в памяти, уже ищут всякие альтернативы типа последовательного чтения. Поменяйте, пожалуйста, заголовок.

Reply ↓
AlexO 15.08.2012 at 10:30

(7) sashocq,

необходимо уточнение — Это всегда был основной способ при обмене документами, либо обмене объектами, похожих по структуре на документы.

Reply ↓
Hobbit_Jedi 02.06.2015 at 14:59

Что-то у меня (8.3.5.1443) первый, наиболее предпочтительный, вариант через ВычислитьВыражениеXPath не работает (даже первый корневой элемент не хочет выбирать, не то, что по длинному пути).

Пришлось делать через «Для Каждого Узел ИЗ ДокументDOM.ДочерниеУзлы Цикл»

Reply ↓

88wau24ru 10.03.2016 at 05:53

ИнформацияОЗакупке = HtmlDoc.documentElement.innerText;
Для Счетчик = 1 По СтрЧислоСтрок(ИнформацияОЗакупке) Цикл
ТекСтрока =СтрПолучитьСтроку(ИнформацияОЗакупке, Счетчик);
Сообщить(ТекСтрока);
КонецЦикла;

Такой вариант?

Reply ↓

Альтернативные способы работы с XML. Часть 1: Введение в DOM или объектная модель документа XML

Related Posts

10 Comments

Leave a Comment Отменить ответ