Препарирование xlsx файлов без MS Excel

Зоопарк офисных программ? WPS Office, MS Office, Open Office?
В статье пойдет речь о том, как отредактировать XLSX файлы без создания COM-объектов.

Вступление

Маркетологи любят заморачиваться по-поводу красивых рекламных материалов. А еще они любят заморачитьвася по поводу красивого прайса! Не просто с картиночками, а с ссылочками на сайт. Чтобы сделать *ТЫК* и открылась страничка товара.
Но как мы хорошо знаем такую штуку средствами 1С не сделать. Никак не хочет 1С выгружать рабочие гиперссылки в документы в формате *.xlsx. Для редактирования *.xlsx можно воспользоваться различными офисными пакетами и  API, которые они рпедлагают.

Наверняка все мы писали нечто вроде:

ДокументЭксель = Новый COMОбъект("Excel.Application");

У нас в фирме сложилась ситуация, что у части сотрудников стоит бесплатный офисный пакет Open Office, WPS Office, а у части стоит всем хорошо известный MS Office.
Писать свои процедуры для каждого из этих зверей ой как не хочется, правда ведь? 
Если вы ответили утвердительно, то описания выхода из ситуации чуток ниже =)

Цель

Имеется файл XLSX.
В нем есть столбец(текстовый) с ссылками на сайт.
Нужно заменить текст ссылкой. Ссылки должны отображаться как "Подробнее".

Общее описание формата XLSX

Приведем описание фаилов, которые нужны нам для решения поставленной задачи.

Файлы формата XLSX представляют из себя набор XML, упакованных в ZIP-архив.

Разобрать такой файлик можно нехитрым способом:

ДиалогВыбора = Новый ДиалогВыбораФайла(РежимДиалогаВыбораФайла.Открытие);
ДиалогВыбора.Заголовок = "Открытие";

Если ДиалогВыбора.Выбрать() Тогда
Путь = ДиалогВыбора.ПолноеИмяФайла;
Идентификатор = Строка(Новый УникальныйИдентификатор);
Зип = Новый ЧтениеZipФайла;
Зип.Открыть(ДиалогВыбора.ПолноеИмяФайла);
Зип.ИзвлечьВсе(КаталогВременныхФайлов()+"Price"+Строка(Новый УникальныйИдентификатор), РежимВосстановленияПутейФайловZIP.Восстанавливать);
КонецЕсли;

Общее описание содержиться в файлике workbook.xml.

Файл SharedStrings.xml содержит в себе значение всех текстовых ячеек файла. На него установлены ссылки из файлов sheet.xml (описание листов).

В папке workshhets содеражться описание непосредственно листов нашей эксельки.
В корне папки worksheets лежат файлы, описывающие листы.

В папке _rels, лежит файл, описывающий ссылки, которые нам нужны.

Более полную информацию можно найти по адресу: тыц.

Файл /xl/worksheets/sheet.xml

В файле содержиться как описание форматирования, так и данных.

Данные содержаться в теге <sheetData>. И указываются они построчно.

Например вот так:

<row r="8" ht="29" customHeight="true">
<c r="A8" s="2" t="e"/>
<c r="B8" s="3" t="s">
<v>0</v>
</c>
<c r="C8" s="3" t="s">
<v>1</v>
</c>
<c r="D8" s="3" t="e"/>
</row>

Тег <с> содержит следующие атрибуты:

r — код ячейки
t — тип значения в ячейке

Тег <v> — значение ячейки

Если t="s", тогда <v> — индекс записи в файле SharedString.xml.

Ссылки в файле sheet.xml описывают отдельным тегом <hyperlinks>.

</hyperlinks>
<hyperlink ref="M1" r:id="rId3"/>
<hyperlink ref="M2" r:id="rId4"/>
<hyperlink ref="M3" r:id="rId5"/>
<hyperlink ref="M4" r:id="rId6"/>
</hyperlinks>

ref — это код ячейки
id — идентификтор ссылки, указанной в файле xlworksheets/_rels/sheet1.xml

Обратите особоое внимание на указание пространства имен r (xmlns:r="http://schemas.openxmlformats.org/package/2006/relationships"). Его указывать обязательно.

Также ВАЖНО соблюдать порядок тегов. Тег <hyperlinks> должен стоять выше, чем тег <pageMargins>. 

Файл /xl/worksheets/_rels/sheet1.xml

В нем все предельное все ясно и понятно. Приведм пример:

<?xml version="1.0" encoding="UTF-8" standalone="true"?>
<Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
<Relationship TargetMode="External" Target="//infostart.ru/public/225624/" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/hyperlink" Id="rId1"/>
</Relationships>

Файл /xl/sharedStrings.xml

В нем все предельно ясно и понятно. Приведем пример:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<sst xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="3" uniqueCount="3">
<si>
<t>ааа</t>
</si>
<si>
<t>ввввв</t>
</si>
<si>
<t>//infostart.ru/public/225624/</t>
</si>
</sst>

Каждый тег <si/> — это значение текстовой ячейки. Как писали выше ссылки на файл sharedStrings.xml осуществляются по индексу, начиная с 0.

Решение поставленной задачи

Итак мы немного ознакомились со структурой файла с разрешением xlsx.
Для решения поставленной задачи нам необходимо:

  1. отредактировать файл /xl/worksheets/sheet.xml добавив в него теги <hyperlink>;
  2. отредактировать файл /xl/worksheets/_rels/sheet1.xml добавив в него теги <Relationship>;
  3. отредактировать файл /xl/sharedStrings.xml, где мы поменяем наши ссылки вида //infostart.ru/public/edit/ на текст "Подробнее".

Данные преобразования я выполнял с помощью объекта ДокументDOM. Вы можете вопользоваться другими способами.

Но есть один неприятный нюанс!

1С не умеет корректно прописывать пространство имен в атрибутах тегов! Для обхода этой проблемы пришлось вставить вот такой костыль:

//ФайлXLSX - структура, содержащая информация о распакованном архиве
Чтение = Новый ЧтениеТекста;
Чтение.Открыть(ФайлXLSX["Путь"+ИмяДокументаDOMФайлаXLSX]);
ДанныеФайла = Чтение.Прочитать();
//При добавлении тега <hyperlinks> вместо атрибута r:id был вставлен атрибуат faileID
ДанныеФайла = СтрЗаменить(ДанныеФайла, "faileID", "r:id");
Чтение.Закрыть();

Запись = Новый ЗаписьТекста;
Запись.Открыть(ФайлXLSX["Путь"+ИмяДокументаDOMФайлаXLSX]);
Запись.Записать(ДанныеФайла);
Запись.Закрыть();

Ну и в конце мы долждны запаковать наши файлики обратно:

ЗаписьZIP = Новый ЗаписьZipФайла();
ЗаписьZIP.Открыть(ИмяВременногоФайлаАрхива);
ЗаписьZIP.Добавить(ФайлXLSX.ДиректорияФайла+"*", РежимСохраненияПутейZIP.СохранятьОтносительныеПути, РежимОбработкиПодкаталоговZIP.ОбрабатыватьРекурсивно);
ЗаписьZIP.Записать();

P.S.

На инфостарте был ряд публикаций, в которых данные читались из файлов XLSX, используя данный метод

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *