Какой и когда использовать? Платформенный или БСП?
Приходим к выводу — и тот и другой.
В случаях, когда нужно разбить строку на части, чаще всего используется один из методов:
СтрРазделить()
— платформенный методРазложитьСтрокуВМассивПодстрок()
— функция общего модуля БСП
Всеми рекомендуется использовать СтрРазделить(), так как это платформенный и более оптимизированный метод. Однако, при этом часто забывают, что он не полностью идентичен второму. И в некоторых случаях применить его не получится.
Разберём нагляднее параметры по-порядку:
СтрРазделить(<Строка>, <Разделитель>, <ВключатьПустые>)
РазложитьСтрокуВМассивПодстрок(<Строка>, <Разделитель>, <ПропускатьПустыеСтроки>, <СокращатьНепечатаемыеСимволы>)
- <Строка>
Тут всё понятно. Строка, которую нужно разделить. - <Разделитель>
Вроде тоже ясно. Строка, которая является разделителем.
Однако. Этот параметр оба метода используют по-разному, когда его значение больше, чем один символ.У СтрРазделить() каждый символ в параметре является отдельным разделителем. В то время как в РазложитьСтрокуВМассивПодстрок() он цельный.
Разницу понять легче нагляднее на примере (для удобства исключим пустые элементы в результате)
Результат = РазложитьСтрокуВМассивПодстрок("а1б1в1", "б1"); //Результат = [а1;в1]
"б1" — цельный разделитель
Результат = СтрРазделить("а1б1в1", "б1", Ложь); //Результат = [а;в]
"б1" — набор из двух несвязанных разделителей. "б" и "1".
Выходит, что когда нам необходимо в качестве разделителя использовать некую строку, то используем метод РазложитьСтрокуВМассивПодстрок(). Ведь платформенный СтрРазделить() сработает иначе.
Так же интересная особенность. Если в этот параметр передать пустую строку, то СтрРазделить() вернёт массив с одним элементов (всей строкой). А РазложитьСтрокуВМассивПодстрок() уйдёт в небытие…
3 . <ВключатьПустые> и <ПропускатьПустыеСтроки>
Параметр хоть и схож, но, снова, не полностью идентичен.
Платформенный метод имеет два положения: Ложь или Истина. Либо результат метода будет содержать пустые строки, либо нет.
В то время, как метод БСП имеет чуть более расширенный функционал, а именно:
Если параметр не задан, то функция работает в режиме совместимости со своей предыдущей версией:
- для разделителя-пробела пустые строки не включаются в результат, для остальных разделителей пустые строки включаются в результат.
- если параметр Строка не содержит значащих символов или не содержит ни одного символа (пустая строка), то в случае разделителя-пробела результатом функции будет массив, содержащий одно значение "" (пустая строка), а при других разделителях результатом функции будет пустой массив.
Получается, если не передать параметр, то БСП сама решит догадаться, нужно ли сохранять пустые элементы или нет. По мне так, если нет необходимости, лучше всегда указывать конкретно логику, чтобы и самому не путаться и не путать других.
4. <СокращатьНепечатаемыеСимволы>
Данный параметр есть только в РазложитьСтрокуВМассивПодстрок().
Всё просто — нужно ли к каждому элементу массива применять СокрЛП (избавлять слева и справа всякие пробелы и переносы строк).
СтрРазделить() этого делать не умеет. Однако, замеры скорости показывают, что быстрее будет обойти циклом результат СтрРазделить(), чем использовать РазложитьСтрокуВМассивПодстрок().
Какие выводы?
В большинстве случаев при помощи СтрРазделить() можно сделать тоже самое, что и РазложитьСтрокуВМассивПодстрок(). В таких случаях нужно применять платформенный метод. Но:
- Когда необходимо использовать разделитель, состоящий из строки, а не одного символа, берёмся за РазложитьСтрокуВМассивПодстрок()
- Когда необходимо, чтобы элементы результата были обработаны СокрЛП(), делаем это сами постобработкой. Так будет быстрее.
Понять особенности методов будет полезно на практике. Но помнить не обязательно. Можно вместо этого использовать обёртку на подобии:
Функция СтрРазделитьРасширенная(Строка, Разделитель = ",", ВключатьПустые = Истина, СокращатьНепечатаемыеСимволы = Ложь, РазделительЕдинойСтрокой = Истина) Экспорт Если РазделительЕдинойСтрокой И СтрДлина(Разделитель) > 1 Тогда Результат = СтроковыеФункцииКлиентСервер.РазложитьСтрокуВМассивПодстрок( Строка, Разделитель, НЕ ВключатьПустые, СокращатьНепечатаемыеСимволы); Иначе Результат = СтрРазделить(Строка, Разделитель, ВключатьПустые); Если СокращатьНепечатаемыеСимволы Тогда Для Индекс = 0 По Результат.Количество()-1 Цикл Результат[Индекс] = СокрЛП(Результат[Индекс]); КонецЦикла; КонецЕсли; КонецЕсли; Возврат Результат; КонецФункции
Хороший разбор нюансиков.
Классная статья, спасибо
Интересно было бы по производительности и потреблению памяти на больших объемах
Вместо того, чтобы реализовать в платформе поддержку регулярных выражений занимаются велосипедостроением.
Сам обжёгся как-то. Не посмотрел как следует, потом срочно обновлял конфы на пяти серверах. К счастью, без последствий.
тут стоит отметить, что СтрРазделить — работает оптимально при количестве строк не более 1000-2000, если больше — то дешевле вначале разделить их на массивы, а потом уже вызвать разделение как надо и объединять,ибо скорость падает экспоненциально.
(6)
интересно, так не пробовали. Надо будет провести эксперимент и, возможно, доработать обёртку с учётом этого
Есть очень простой прием, чтобы получить подстроки из строки с разделителями.
Замените разделитель на Символы.ВК (или Символы.ПС — извините, пишу по памяти)
Результат — многострочная строка, к каждой подстроке можно обращаться по номеру, метод СтрПолучитьСтроку.
БСП рулит.
Что будет? зациклится?
(8) проблема будет, когда в тексте уже есть этот специальный символ.
Это на тему как бороться с неодинаковостью. С пустыми строками все вообще плывет, поэтому или они тебе нужны, или нет — ты должен это сразу понимать. Юзать БСПшный механизм бессмысленно совершенно.
(11) это не выход. Что будет, если в строке изначально был символ «|» ?
(12)
Так тыжпрограммист — должен знать, что у тебя в строчке будет, а что — нет. Так у тебя в строчке может и разделитель вдруг потребоваться, а он заменой символов выпилится )))
ЗЫ: но это все фигня. Я как-то давненько на С++ написал прогу для чтения паспортов недействительных (120кк штук). При компиляции без оптимизации они читались минуты полторы на FX8320 (3500MHz), а с оптимизацией — за 16 сек вроде бы. И что-то я забыл про эту прогу. А сегодня скачал компилятор оптимизирующий от АМД, в итоге прогнал вообще без оптимизации на Ryzen 1600 (3200MHz) — 29 сек, т.е. раза этак в два с лишним быстрее 8320-го. Ну, думаю, давай-ка заоптимайзю с -march=native и О3 — в итоге 8 сек. Круть, думаю, давай-ка -flto — 7.5 сек. Ну, думаю, совсем круто — буду собирать постгрес, но решил посмотреть что и в обычном g++-7 — оказалось, что ровно то же. Потом поглядел в пакетах, а там g++-8 уже. Поставил его и на нем со всей этой оптимизацией — в итоге 6.9 сек. А странно то, что у коллеги на i9-9900K медленнее работает, хотя операция однопоточная.
А Вы мне тут про СтрРазделить )))
(13) ну вот и получается, что это очередной метод с «нюансом», который нужно помнить и обрабатывать. И когда в строке окажется символ «|», нужно будет либо перебирать другие возможные символы для замены и проверять их наличие в строке, либо, в конце концов, просто применить универсальный механизм БСП.
(14) так на то ты и программист. Не нравится палка — замени на решетку, доллар, амперсанд, собаку, какой-нить непечатаемый символ и т.д. Использовать БСП-шный механизм резона нет никакого совершенно.
ЗЫ: из реального мира пример — замена кучи всяких символов, включая ограничители тегов, в XML на «&хххх;». Ну и всяческие извращения при вставке кавычек в строку. Кто-то » пишет, кто-то «».
(15) так и как мне поступить, если мне нужно разобрать любой текст разделителем из единой строки?
Пока нет альтернативы, используем БСП. В этом и резон.
(16)
1. Ограничить ввод, т.е. определить правила для входящего потока.
2. Проверять перед разделением на наличие включений решеток и иных символов.
3. Не ставить задачи разобрать любой текст — учитесь у создателей XML и всех его подвидов — они просто запилили стандарт.
(16) кстати, вот у Вас там есть какой-то конструктор ВПФ, а в нем я какой-то запросник увидел на картинке. Как Вы анализируете запрос, например, на наличие временных таблиц, подзапросов и прочего? Да, можно юзать схему запроса — там все есть, но с большой конфигурацией она работает долго. Быстрее получается разделить запрос на строки и в цикле проанализировать его, найти в нем все начала строк, комментарии, отсечь их, и уже потом в запросе без строковых констант и комментариев производить анализ. И исходя из задачи при анализе в данном случае совершенно любого текста запроса нам БСП-шная функция понадобится, как Вы думаете?
(17)разговор ни о чём. У платформы есть универсальный механизм. У БСП есть универсальный механизм. Каждый применяется в своём время/месте. Если Вам в задаче не нужен универсальный механизм, а нужен свой — применяйте. Но глупо говорить, что универсальный механизм не нужен вовсе. Всему своё место и время.
(19)
Если Ваш алгоритм плох — да. Если он хорош — достаточно механизмов платформы. Но Вы всегда можете привести конкретный пример (не в общем и целом, а вот очень конкретно с данными), где нужна именно БСП-шная функция.
Достойное исследование. Автору респект. У самого в конфигурации есть костылик ….
Показать
Да, есть такая гадость.
1С как всегда в своём репертуаре — вместо того, чтобы реализовать нормальную нужную функцию, под её видом реализуют неведомую фигню. Интересно, кто-то когда-то вообще сталкивался с чем-то, что решается вот этой вот стандартной 1Совской хренью? Я даже навскидку придумать не могу, нахрена она вообще нужна.
Что мешает использовать не один специальный символ, а их последовательность, которую никогда не встретишь в реальном тексте?
Показать
Было бы здорово, если бы какой-нибудь из методов ещё научился понимать, что текст внутри кавычек не нужно разделять, несмотря на наличие разделителя внутри.
Объявляем сбор всех вариантов алгоритма по расщеплению. После этого проведём анализ, соберём «обёртку» со всеми алгоритмами и проведём «нагрузочное» тестирование 🤘
(24) очень было бы полезно. Каждый раз приходится изобретать свой дикий велосипед для подобных задач
split
Я за РазложитьСтрокуВМассивПодстрок() с ее предсказуемым результатом. Не пользовался встроенной функцией, сам не знаю почему, на интуитивном уровне. Теперь картина прояснилась. Автору спасибо.
Давно собирался раскопать эти нюансы, автору спасибо. Да, платформа «молодец», но и БСП я бы не доверял. Обычно юзаю вариант с Символы.ПС и СтрПолучитьСтроку, а перед этим экранирую исходные ПС, но наиболее люто плюсую мысли о регулярках, которых нет (зато есть видеозвонки, ага ага).
(29)
Интересно, а видеозвонками и этими чатами их вообще кто-нибудь пользуется? По количеству никому не нужных изобретений 1С скоро сравняется в виндавсом))
Если вы знаете как работает функция — то и результат можешь предсказать. и не нужно писать аналитическую статью.
Поэтому замена строки разделителя на символ и использование СтрРазложить — интуитивно понятно и просто даже без статьи.
Не нужно искать универсальных функций на все случаи жизни. Вы же программисты. Чего нет — всегда можно самому написать. Как пример — функция РазложитьСтрокуВМассивПодстрок() — посадили разработчики БСП студента Васю, и он написал такую функцию. Чем вы хуже?
.
(31)
Ну может и не студент написал эту функцию. А нужна она была т.к. в платформе раньше «СтрРазделить» не было вообще. А добрым 1С-никам давно пора бы сделать разложение с регулярками, вот тогда заживем! ))) Хотя… Есть у меня на эту тему одна мысль относительно 14-й платформы.
(32) Согласен что не было. Все же меняется. Будьте гибче.
(32)
Потоками резать?