Чем расщепить или "СтрРазделить() VS РазложитьСтрокуВМассивПодстрок()" ?

Сравнение методов по «расщеплению» строк
Какой и когда использовать? Платформенный или БСП?
Приходим к выводу — и тот и другой.

В случаях, когда нужно разбить строку на части, чаще всего используется один из методов:

  1. СтрРазделить() — платформенный метод
  2. РазложитьСтрокуВМассивПодстрок() — функция общего модуля БСП

 

Всеми рекомендуется использовать СтрРазделить(), так как это платформенный и более оптимизированный метод. Однако, при этом часто забывают, что он не полностью идентичен второму. И в некоторых случаях применить его не получится.

 


Разберём нагляднее параметры по-порядку:

СтрРазделить(<Строка>, <Разделитель>, <ВключатьПустые>)

РазложитьСтрокуВМассивПодстрок(<Строка>, <Разделитель>, <ПропускатьПустыеСтроки>, <СокращатьНепечатаемыеСимволы>)

 

  1. <Строка>
    Тут всё понятно. Строка, которую нужно разделить.
  2. <Разделитель>
    Вроде тоже ясно. Строка, которая является разделителем.
    Однако. Этот параметр оба метода используют по-разному, когда его значение больше, чем один символ.

    У СтрРазделить() каждый символ в параметре является отдельным разделителем. В то время как в РазложитьСтрокуВМассивПодстрок() он цельный.

    Разницу понять легче нагляднее на примере (для удобства исключим пустые элементы в результате)
     

Результат   = РазложитьСтрокуВМассивПодстрок("а1б1в1", "б1");
//Результат = [а1;в1]

"б1" — цельный разделитель

Результат   = СтрРазделить("а1б1в1", "б1", Ложь);
//Результат = [а;в]

"б1" — набор из двух несвязанных разделителей. "б" и "1".

 

Выходит, что когда нам необходимо в качестве разделителя использовать некую строку, то используем метод РазложитьСтрокуВМассивПодстрок(). Ведь платформенный СтрРазделить() сработает иначе.
 

Так же интересная особенность. Если в этот параметр передать пустую строку, то СтрРазделить() вернёт массив с одним элементов (всей строкой). А РазложитьСтрокуВМассивПодстрок() уйдёт в небытие…

3 . <ВключатьПустые> и <ПропускатьПустыеСтроки>

Параметр хоть и схож, но, снова, не полностью идентичен.

Платформенный метод имеет два положения: Ложь или Истина. Либо результат метода будет содержать пустые строки, либо нет.

В то время, как метод БСП имеет чуть более расширенный функционал, а именно:

Если параметр не задан, то функция работает в режиме совместимости со своей предыдущей версией:
- для разделителя-пробела пустые строки не включаются в результат, для остальных разделителей пустые строки включаются в результат.
- если параметр Строка не содержит значащих символов или не содержит ни одного символа (пустая строка), то в случае разделителя-пробела результатом функции будет массив, содержащий одно значение "" (пустая строка), а при других разделителях результатом функции будет пустой массив.

Получается, если не передать параметр, то БСП сама решит догадаться, нужно ли сохранять пустые элементы или нет. По мне так, если нет необходимости, лучше всегда указывать конкретно логику, чтобы и самому не путаться и не путать других.

 

4. <СокращатьНепечатаемыеСимволы>

Данный параметр есть только в РазложитьСтрокуВМассивПодстрок().
Всё просто — нужно ли к каждому элементу массива применять СокрЛП (избавлять слева и справа всякие пробелы и переносы строк).

СтрРазделить() этого делать не умеет. Однако, замеры скорости показывают, что быстрее будет обойти циклом результат СтрРазделить(), чем использовать РазложитьСтрокуВМассивПодстрок().

 

Какие выводы?

В большинстве случаев при помощи СтрРазделить() можно сделать тоже самое, что и РазложитьСтрокуВМассивПодстрок(). В таких случаях нужно применять платформенный метод. Но:

  • Когда необходимо использовать разделитель, состоящий из строки, а не одного символа, берёмся за РазложитьСтрокуВМассивПодстрок()
  • Когда необходимо, чтобы элементы результата были обработаны СокрЛП(), делаем это сами постобработкой. Так будет быстрее.

 

Понять особенности методов будет полезно на практике. Но помнить не обязательно. Можно вместо этого использовать обёртку на подобии:

 

Функция СтрРазделитьРасширенная(Строка, Разделитель = ",", ВключатьПустые = Истина,
СокращатьНепечатаемыеСимволы = Ложь, РазделительЕдинойСтрокой = Истина) Экспорт

Если РазделительЕдинойСтрокой И СтрДлина(Разделитель) > 1 Тогда

Результат = СтроковыеФункцииКлиентСервер.РазложитьСтрокуВМассивПодстрок(
Строка, Разделитель, НЕ ВключатьПустые, СокращатьНепечатаемыеСимволы);

Иначе

Результат = СтрРазделить(Строка, Разделитель, ВключатьПустые);
Если СокращатьНепечатаемыеСимволы Тогда
Для Индекс = 0 По Результат.Количество()-1 Цикл
Результат[Индекс] = СокрЛП(Результат[Индекс]);
КонецЦикла;
КонецЕсли;

КонецЕсли;

Возврат Результат;

КонецФункции

34 Comments

  1. A_Max

    Хороший разбор нюансиков.

    Reply
  2. MikhailDr

    Классная статья, спасибо

    Reply
  3. EliasShy

    Интересно было бы по производительности и потреблению памяти на больших объемах

    Reply
  4. Dmitryiv

    Вместо того, чтобы реализовать в платформе поддержку регулярных выражений занимаются велосипедостроением.

    Reply
  5. Поручик

    Сам обжёгся как-то. Не посмотрел как следует, потом срочно обновлял конфы на пяти серверах. К счастью, без последствий.

    Reply
  6. DitriX

    тут стоит отметить, что СтрРазделить — работает оптимально при количестве строк не более 1000-2000, если больше — то дешевле вначале разделить их на массивы, а потом уже вызвать разделение как надо и объединять,ибо скорость падает экспоненциально.

    Reply
  7. SeiOkami

    (6)

    если больше — то дешевле вначале разделить их на массивы

    интересно, так не пробовали. Надо будет провести эксперимент и, возможно, доработать обёртку с учётом этого

    Reply
  8. vasilev2015

    Есть очень простой прием, чтобы получить подстроки из строки с разделителями.

    Замените разделитель на Символы.ВК (или Символы.ПС — извините, пишу по памяти)

    Результат — многострочная строка, к каждой подстроке можно обращаться по номеру, метод СтрПолучитьСтроку.

    БСП рулит.

    Reply
  9. uno-c
    РазложитьСтрокуВМассивПодстрок() уйдёт в небытие…

    Что будет? зациклится?

    Reply
  10. SeiOkami

    (8) проблема будет, когда в тексте уже есть этот специальный символ.

    Reply
  11. starik-2005
    Массиф = СтрРазделить(СтрЗаменить(ИсходнаяСтрока, Разделитель, «|»), «|»)

    Это на тему как бороться с неодинаковостью. С пустыми строками все вообще плывет, поэтому или они тебе нужны, или нет — ты должен это сразу понимать. Юзать БСПшный механизм бессмысленно совершенно.

    Reply
  12. SeiOkami

    (11) это не выход. Что будет, если в строке изначально был символ «|» ?

    Reply
  13. starik-2005

    (12)

    изначально был симво

    Так тыжпрограммист — должен знать, что у тебя в строчке будет, а что — нет. Так у тебя в строчке может и разделитель вдруг потребоваться, а он заменой символов выпилится )))

    ЗЫ: но это все фигня. Я как-то давненько на С++ написал прогу для чтения паспортов недействительных (120кк штук). При компиляции без оптимизации они читались минуты полторы на FX8320 (3500MHz), а с оптимизацией — за 16 сек вроде бы. И что-то я забыл про эту прогу. А сегодня скачал компилятор оптимизирующий от АМД, в итоге прогнал вообще без оптимизации на Ryzen 1600 (3200MHz) — 29 сек, т.е. раза этак в два с лишним быстрее 8320-го. Ну, думаю, давай-ка заоптимайзю с -march=native и О3 — в итоге 8 сек. Круть, думаю, давай-ка -flto — 7.5 сек. Ну, думаю, совсем круто — буду собирать постгрес, но решил посмотреть что и в обычном g++-7 — оказалось, что ровно то же. Потом поглядел в пакетах, а там g++-8 уже. Поставил его и на нем со всей этой оптимизацией — в итоге 6.9 сек. А странно то, что у коллеги на i9-9900K медленнее работает, хотя операция однопоточная.

    А Вы мне тут про СтрРазделить )))

    Reply
  14. SeiOkami

    (13) ну вот и получается, что это очередной метод с «нюансом», который нужно помнить и обрабатывать. И когда в строке окажется символ «|», нужно будет либо перебирать другие возможные символы для замены и проверять их наличие в строке, либо, в конце концов, просто применить универсальный механизм БСП.

    Reply
  15. starik-2005

    (14) так на то ты и программист. Не нравится палка — замени на решетку, доллар, амперсанд, собаку, какой-нить непечатаемый символ и т.д. Использовать БСП-шный механизм резона нет никакого совершенно.

    ЗЫ: из реального мира пример — замена кучи всяких символов, включая ограничители тегов, в XML на «&хххх;». Ну и всяческие извращения при вставке кавычек в строку. Кто-то » пишет, кто-то «».

    Reply
  16. SeiOkami

    (15) так и как мне поступить, если мне нужно разобрать любой текст разделителем из единой строки?

    Пока нет альтернативы, используем БСП. В этом и резон.

    Reply
  17. starik-2005

    (16)

    так и как мне поступить, если мне нужно разобрать любой текст

    1. Ограничить ввод, т.е. определить правила для входящего потока.

    2. Проверять перед разделением на наличие включений решеток и иных символов.

    3. Не ставить задачи разобрать любой текст — учитесь у создателей XML и всех его подвидов — они просто запилили стандарт.

    Reply
  18. starik-2005

    (16) кстати, вот у Вас там есть какой-то конструктор ВПФ, а в нем я какой-то запросник увидел на картинке. Как Вы анализируете запрос, например, на наличие временных таблиц, подзапросов и прочего? Да, можно юзать схему запроса — там все есть, но с большой конфигурацией она работает долго. Быстрее получается разделить запрос на строки и в цикле проанализировать его, найти в нем все начала строк, комментарии, отсечь их, и уже потом в запросе без строковых констант и комментариев производить анализ. И исходя из задачи при анализе в данном случае совершенно любого текста запроса нам БСП-шная функция понадобится, как Вы думаете?

    Reply
  19. SeiOkami

    (17)разговор ни о чём. У платформы есть универсальный механизм. У БСП есть универсальный механизм. Каждый применяется в своём время/месте. Если Вам в задаче не нужен универсальный механизм, а нужен свой — применяйте. Но глупо говорить, что универсальный механизм не нужен вовсе. Всему своё место и время.

    Reply
  20. starik-2005

    (19)

    Каждый применяется в своём время/месте.

    Если Ваш алгоритм плох — да. Если он хорош — достаточно механизмов платформы. Но Вы всегда можете привести конкретный пример (не в общем и целом, а вот очень конкретно с данными), где нужна именно БСП-шная функция.

    Reply
  21. Бубузяка

    Достойное исследование. Автору респект. У самого в конфигурации есть костылик ….

    Функция РазобратьСтрокуСРазделителями(ИсходнаяСтрока, Разделитель = «,») Экспорт
    
    РезМассив = Новый Массив;
    
    // Разделитель бывает длиной строки > 1, учитывая особенность «СтрЗаменить»,
    // заменим его на редкий односимвольный разделитель (смайлик) Символ(9786).
    Сепаратор = Символ(9786);
    Образец   = СтрЗаменить(ИсходнаяСтрока, Разделитель, Сепаратор);
    РезМассив = СтрРазделить(Образец, Сепаратор, Ложь);
    
    Возврат РезМассив;
    
    КонецФункции

    Показать

    Reply
  22. for_sale

    Да, есть такая гадость.

    1С как всегда в своём репертуаре — вместо того, чтобы реализовать нормальную нужную функцию, под её видом реализуют неведомую фигню. Интересно, кто-то когда-то вообще сталкивался с чем-то, что решается вот этой вот стандартной 1Совской хренью? Я даже навскидку придумать не могу, нахрена она вообще нужна.

    Reply
  23. madonov

    Что мешает использовать не один специальный символ, а их последовательность, которую никогда не встретишь в реальном тексте?

    //Меняем перенос строки на редкую последовательность символов, которая никогда не встретится в реальном тексте
    НачальнаяСтрока = СтрЗаменить(НачальнаяСтрока, Символы.ПС, «~#!#!#~»);
    
    //Меняем строку разделитель на перенос строки
    МногоСтрочнаяСтрока = СтрЗаменить(НачальнаяСтрока, Разделитель, Символы.ПС);
    
    //Обходим многострочную строку
    Для СчетчикСтрок = 1 По СтрЧислоСтрок(МногоСтрочнаяСтрока) Цикл
    
    Стр = СтрПолучитьСтроку(МногоСтрочнаяСтрока, СчетчикСтрок);
    
    //Меняем последовательность символов обратно на пернос строки
    Стр = СтрЗаменить(Стр , «~#!#!#~», Символы.ПС);
    
    Сообщить(Стр);
    
    КонецЦикла;

    Показать

    Reply
  24. borodatii

    Было бы здорово, если бы какой-нибудь из методов ещё научился понимать, что текст внутри кавычек не нужно разделять, несмотря на наличие разделителя внутри.

    Reply
  25. SeiOkami

    Объявляем сбор всех вариантов алгоритма по расщеплению. После этого проведём анализ, соберём «обёртку» со всеми алгоритмами и проведём «нагрузочное» тестирование 🤘

    Reply
  26. SeiOkami

    (24) очень было бы полезно. Каждый раз приходится изобретать свой дикий велосипед для подобных задач

    Reply
  27. vec435

    split

    Reply
  28. Vlan

    Я за РазложитьСтрокуВМассивПодстрок() с ее предсказуемым результатом. Не пользовался встроенной функцией, сам не знаю почему, на интуитивном уровне. Теперь картина прояснилась. Автору спасибо.

    Reply
  29. Yashazz

    Давно собирался раскопать эти нюансы, автору спасибо. Да, платформа «молодец», но и БСП я бы не доверял. Обычно юзаю вариант с Символы.ПС и СтрПолучитьСтроку, а перед этим экранирую исходные ПС, но наиболее люто плюсую мысли о регулярках, которых нет (зато есть видеозвонки, ага ага).

    Reply
  30. for_sale

    (29)

    (зато есть видеозвонки, ага ага)

    Интересно, а видеозвонками и этими чатами их вообще кто-нибудь пользуется? По количеству никому не нужных изобретений 1С скоро сравняется в виндавсом))

    Reply
  31. dmalyshev

    Если вы знаете как работает функция — то и результат можешь предсказать. и не нужно писать аналитическую статью.

    Поэтому замена строки разделителя на символ и использование СтрРазложить — интуитивно понятно и просто даже без статьи.

    Не нужно искать универсальных функций на все случаи жизни. Вы же программисты. Чего нет — всегда можно самому написать. Как пример — функция РазложитьСтрокуВМассивПодстрок() — посадили разработчики БСП студента Васю, и он написал такую функцию. Чем вы хуже?

    .

    Reply
  32. starik-2005

    (31)

    посадили разработчики БСП студента Васю, и он написал такую функцию.

    Ну может и не студент написал эту функцию. А нужна она была т.к. в платформе раньше «СтрРазделить» не было вообще. А добрым 1С-никам давно пора бы сделать разложение с регулярками, вот тогда заживем! ))) Хотя… Есть у меня на эту тему одна мысль относительно 14-й платформы.

    Reply
  33. dmalyshev

    (32) Согласен что не было. Все же меняется. Будьте гибче.

    Reply
  34. Yashazz

    (32)

    Есть у меня на эту тему одна мысль относительно 14-й платформы

    Потоками резать?

    Reply

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *