Немного о скорости поиска в коллекциях




Принцип обмена данными из 1С с сайтом (на MySQL) и выдачи (публикации) этих данных по запросу.
PHP-Скрипт автоматической загрузки данных из файла данных в формате CSV в базу данных сайта работающего на WordPress.

В продолжение моей темы: 1С:Альфа-Авто Автосалон Автосервис: обмен с сайтом.
С помощью данного скрипта можно загружать в автоматическом режиме, по расписанию, данные сервисных книжек (ремонтов авто) из 1С:Альфа-Авто Автосалон Автосервис.
Также можно загружать данные в ручном режиме: для этого делается скрытая страница, где размещается специальная кнопка.
Комментарии размещенные внутри скрипта разъяснят логику и порядок действия.
Комментарии с "/////    echo" использовались для отладки.
Дополнительно создана таблица для журналирования результатов загрузки данных.
Скрипт включает в себя защиту от SQL инъекций (думаю безопасность соблюдена в полной мере).
В кратце:
1. Пишется скрипт, который запускает этот.
2. Создается регламентное задание в WordPress, по которому запускается скрипт из п.1. 
3. Этот скрипт осуществляет проверку на существование файла обмена в папке.
4. Если данные не новые, загрузка не производится.
5. Если данные новые, очищается таблица сервисных книжек.
6. Загружаются новые данные.

Собственно сам скрипт:

<?php // Полная загрузка сервисных книжек, создан 2024-01-05 12:44:55

global $wpdb2;
global $failure;
global $file_hist;

/////  echo '<H2><b>Старт загрузки</b></H2><br>';

$failure=FALSE;
//подключаемся к базе
$wpdb2 = include_once 'connection.php'; ; // подключаемся к MySQL
// если не удалось подключиться, и нужно оборвать PHP с сообщением об этой ошибке
if (!empty($wpdb2->error))
{
/////   echo '<H2><b>Ошибка подключения к БД, завершение.</b></H2><br>';
$failure=TRUE;
wp_die( $wpdb2->error );
}

$m_size_file=0;
$m_mtime_file=0;
$m_comment='';
/////проверка существования файлов выгрузки из 1С
////файл выгрузки сервисных книжек
$file_hist = ABSPATH.'/_1c_alfa_exchange/AA_hist.csv';
if (!file_exists($file_hist))
{
/////   echo '<H2><b>Файл обмена с сервисными книжками не существует.</b></H2><br>';
$m_comment='Файл обмена с сервисными книжками не существует';
$failure=TRUE;
}

/////инициируем таблицу лога
/////если не существует файла то возврат и ничего не делаем
if ($failure){
///включает защиту от SQL инъекций и данные можно передавать как есть, например: $_GET['foo']
/////   echo '<H2><b>Попытка вставить запись в лог таблицу</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>$m_comment));
wp_die();
/////    echo '<H2><b>Возврат в начало.</b></H2><br>';
return $failure;
}
/////проверка лога загрузки, что бы не загружать тоже самое
$masiv_data_file=stat($file_hist);   ////передаем в массив свойство файла
$m_size_file=$masiv_data_file[7];    ////получаем размер файла
$m_mtime_file=$masiv_data_file[9];   ////получаем дату модификации файла
////создаем запрос на получение последней удачной загрузки
////выбираем по штампу времени создания (редактирования) файла загрузки AA_hist.csv, $m_mtime_file

/////   echo '<H2><b>Размер файла: '.$m_size_file.'</b></H2><br>';
/////   echo '<H2><b>Штамп времени файла: '.$m_mtime_file.'</b></H2><br>';
/////   echo '<H2><b>Формирование запроса на выборку из лога</b></H2><br>';
////препарируем запрос
$text_zaprosa=$wpdb2->prepare("SELECT * FROM `vin_logs` WHERE `last_mtime_upload` = %s", $m_mtime_file);
$results=$wpdb2->get_results($text_zaprosa);

if ($results)
{   foreach ( $results as $r)
{
////если штамп времени и размер файла совпадают, возврат
if (($r->last_mtime_upload==$m_mtime_file) && ($r->last_size_upload==$m_size_file))
{////echo '<H2><b>Возврат в начало, т.к. найдена запись в логе.</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>'Загрузка отменена, новых данных нет, т.к. найдена запись в логе.'));
wp_die();
return $failure;
}
}
}
////если данные новые, пишем в лог запись о начале загрузки
/////echo '<H2><b>Попытка вставить запись о начале загрузки в лог таблицу</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>0, 'last_size_upload'=>$m_size_file, 'comment'=>'Начало загрузки'));

////очищаем таблицу
$clear_tbl_zap=$wpdb2->prepare("TRUNCATE TABLE %s", 'vin_history');
$clear_tbl_zap_repl=str_replace("'","`",$clear_tbl_zap);
$results=$wpdb2->query($clear_tbl_zap_repl);
/////   echo '<H2><b>Очистка таблицы сервисных книжек</b></H2><br>';
if (empty($results))
{
/////   echo '<H2><b>Ошибка очистки таблицы книжек, завершение.</b></H2><br>';
//// если очистка не удалась, возврат
$failure=TRUE;
wp_die();
return $failure;
}

////загружаем данные
$table='vin_history';         // Имя таблицы для импорта
//$file_hist Имя CSV файла, откуда берется информация     // (путь от корня web-сервера)
$delim=';';          // Разделитель полей в CSV файле
$enclosed='"';      // Кавычки для содержимого полей
$escaped='\

33 Comments

  1. ojiojiowka

    Таблица значений не всегда приемлема (допустим код надо на клиенте выполнять). А теперь попробуйте заюзать соответствие и приятно удивитесь. Давно известно, что массив и список значений не индексированы…

    Reply
  2. vasyak319

    (1) ojiojiowka, была мысль и соответствие попробовать, но тут два «но»:

    1. Без долгого и нудного заполнения в цикле не обойтись, ибо нет у результата запроса метода вроде «ВыгрузитьВСоответствие».

    2. Если время и опустится ниже 0.027 сек, то вряд ли значительно — и так шикарно.

    Reply
  3. dj_serega

    (0) Красавчик 🙂 Где-то догадывался, где-то знал. А вот руки не дошли замеров 🙁

    Reply
  4. DrAku1a
  5. cargobird

    Звезда авансом, попробую, спасибо…

    Reply
  6. fishca

    Да, мало в 7.7 автор использовал 1СРР. А так бы знал про ИндексированнуюТаблицуЗначений и про быстрый поиск в ней, да не только про поиск.

    Reply
  7. Evil Beaver
    Нет, я подозревал, что это может быть быстрее, но в 100 раз!

    Вот и выросло поколение программистов, не знающих, что поиск по индексу на порядки быстрее простого перебора 🙁

    Reply
  8. vasyak319

    (7) Evil Beaver, раз не умеете читать, постарайтесь хотя бы не хамить.

    Reply
  9. vasyak319

    (4) DrAku1a, а что, если записать цикл в одну строку, то это уже и не цикл вовсе? Глянул по вашей ссылке — автор делает неправильный вывод, что если цикл на миллион итераций записать в одну строку, то будет не миллион выполнений, а одно, при этом с тем же конечным результатом. Расписать, почему это чушь, или и так ясно? На самом деле итераций и так и так миллион. Очевидно, что замер производительности увеличивает счётчик обращений к строке в момент выполнения ядром опкода 1, что логично, а тут он будет выполнен один раз перед началом цикла. Опкод 1 это очень простая операция, так что заметно ускорить её исключением что-нибудь, превосходящее по сложности сложение двух чисел, не выйдет.

    Из остальных приведённых вами ссылок я делаю тот же вывод — индексированная ТЗ наше всё. Соответствие быстрее на поиске, но на его заполнение надо потратить столько же времени (0.09 секунд на 10000 итераций), сколько уходит на поиск в индексированной ТЗ.

    Reply
  10. molodoi1sneg

    А возможно сделать замер с соответсвием?

    Reply
  11. FlyVodolaz

    (9)

    Выгрузка в таблицу значения и индексирование тоже происходит в нашей вселенной, содержащей время.

    Что-бы закончить споры простой пример.

    ТЗИсходная = Новый ТаблицаЗначений;
    ТЗИсходная.Колонки.Добавить(«Ч», Новый ОписаниеТипов(«Число»));
    Для Ин=1 По 10000 Цикл
    ТЗИсходная.Добавить().Ч = Ин;
    КонецЦикла;
    Запрос = Новый Запрос;
    Запрос.УстановитьПараметр(«ТЗ», ТЗИсходная);
    Запрос.Текст =
    «Выбрать ТЗ.Ч Поместить ВТ_ТЗ Из &ТЗ КАК ТЗ;Выбрать * из ВТ_ТЗ»;
    Результат = Запрос.Выполнить();
    
    НачВремя = ТекущаяУниверсальнаяДатаВМиллисекундах();
    Соотв = Новый Соответствие;
    Выборка = Результат.Выбрать();
    Пока Выборка.Следующий() Цикл Соотв.Вставить(Ин);КонецЦикла;
    
    Для Ин=1 По 10000 Цикл
    А = Соотв[Ин];
    КонецЦикла;
    Сообщить(«Соответствие: » + (ТекущаяУниверсальнаяДатаВМиллисекундах() — НачВремя));
    
    НачВремя = ТекущаяУниверсальнаяДатаВМиллисекундах();
    ТЗ = Результат.Выгрузить();
    ТЗ.Индексы.Добавить(«Ч»);
    
    Для Ин=1 По 10000 Цикл
    А = ТЗ.Найти(Ин, «Ч»);
    КонецЦикла;
    Сообщить(«Тз: » + (ТекущаяУниверсальнаяДатаВМиллисекундах() — НачВремя));
    

    Показать

    Результат:

    Соответствие: 78

    Тз: 141

    Reply
  12. Evil Beaver

    (8) не могли бы вы уточнить два момента:

    1. что именно я не прочитал?

    2. где именно я нахамил?

    Мое возмущение — это не хамство, это именно возмущение. А обоснованно возмущаться в приличном обществе вполне допустимо, разве нет?

    Вы меня, конечно, извините, но для профессионального разработчика (если человек себя таковым считает) высказывание «Я поискал с использованием индекса и удивился, что работает настолько быстрее» на мой взгляд недопустимо. Говорит просто о некомпетентности. Другое дело, если вы не программист по образованию, а просто пришли в мир 1С из другой профессии. Тогда примите мои извинения, вы не обязаны были этого знать.

    Reply
  13. vasyak319

    (11) FlyVodolaz, попробовал это в своём отчёте. Результат и выводы добавил в конец публикации.

    Reply
  14. vasyak319

    (12) Evil Beaver,

    1. «У меня как-то ещё со времён 7.7 привычка использовать для подобных целей объект СписокЗначений и была убеждённость, что разработчики платформы поддерживают некий хэш-индекс для быстрого поиска вхождений в список»

    Вот с этим было связано моё удивление, что «аж в 100 раз». Думаю, это ответ и на ваш п.2.

    Reply
  15. FlyVodolaz

    (13)

    Не совсем понял вашу фразу

    открытие выборки из результата запроса отъедает 0,050 секунд против 0,029 для выгрузки в ТаблицуЗначений и индексации.

    Т.е лВыборка=лЗапрос.Выполнить().Выбрать(); медленнее чем выгрузить и индексировать?лтзИмпортныеТовары=лЗапрос.Выполнить().Выгрузить(); лтзИмпортныеТовары.Индексы.Добавить(«Номенклатура»);

    Reply
  16. Evil Beaver

    (14) 7.7. я в этом плане не изучал. Если вы говорите, что там был поиск по хешу, готов поверить.

    В восьмерке же, насколько мне хватает понимания, весь поиск в коллекциях выполняется, как правило, простым перебором. Исключение — это Соответствие и индексированная ТаблицаЗначений И если я не ошибаюсь, то СтрДлина тоже работает, как сишный strlen, т.е. длина строки не хранится, и платформа каждый раз сканирует строку в поисках нуль-символа.

    В ту же тему методы СтрЧислоСтрок и СтрПолучитьСтроку. Читают каждый раз текст с начала, вычисляя нужный номер строки.

    Reply
  17. Fragster

    (9)

    Соответствие быстрее на поиске, но на его заполнение надо потратить столько же времени (0.09 секунд на 10000 итераций), сколько уходит на поиск в индексированной ТЗ.

    А сколько времени создается индекс?

    Reply
  18. vasyak319

    (15) FlyVodolaz, вы всё поняли верно

    Reply
  19. vasyak319

    (17) Fragster, исчезающе мало по сравнению с длительностью других операций.

    Reply
  20. vasyak319

    (16) Evil Beaver,

    Если вы говорите, что там был поиск по хешу

    нет, не говорю 🙁

    Я говорю: «была убеждённость», потому что сам бы так сделал на месте разработчиков.

    Reply
  21. FlyVodolaz

    (18)

    Если так, то лВыборка=лЗапрос.Выполнить().Выбрать() не может быть медленнее лтзИмпортныеТовары=лЗапрос.Выполнить().Выгрузить(). Что-то у вас не так. Возможно вы выполняете сначало лЗапрос.Выполнить().Выбрать(), а позже лЗапрос.Выполнить().Выгрузить(). Тогда выполнение запроса второй раз действительно может быть быстрее. Поэтому я писал в своем коде Результат = Запрос.Выполнить(); //один раз выполняем

    а потом уже имея результат выполнения запроса делаем Выборка = Результат.Выбрать() и ТЗ = Результат.Выгрузить();

    Попробуйте изменить порядок. Ну или использовать честный способ через Результат = Запрос.Выполнить();

    Reply
  22. vasyak319

    (21) FlyVodolaz, однако ж может. Что до порядка, то у меня это вообще не исполняется одновременно в одном замере. Для каждого замера я оставлял в исполняемом коде только один вариант, комментируя прочие, сохранял отчёт и запускал его заново с теми же параметрами.

    Reply
  23. Yashazz

    Самоочевидный баян, опять получивший не-пойми-почему гору плюсов. Интересно, когда «пионэры» матчасть учить станут, вместо чтобы эксперименты ставить?

    Про соответствия уже всё сказали.

    Кстати, подозреваю, что не просто так таблицы значений не существуют на клиенте. Сдаётся мне, какой-то они к этому движок приделали, а то и просто каждая табзначений существует как таблица в СУБД, и делаемый нами индекс — её кластерный. Мало ли…

    Reply
  24. vasyak319

    (23) Yashazz, интересно, когда же буйная фантазия перестанет заменять пионэрам разум? «каждая табзначений существует как таблица в СУБД» — это в перлы, однозначно.

    Reply
  25. DrAku1a

    (23) Возможно есть какие-то сложности с реализацией таблицы значений в веб-клиенте… Не думаю, что ТЗ существует где-либо, кроме оперативной памяти — реализация подобного, например в Delphi — компонент JvMemoryTable (с индексами и т.п.).

    (0) Автор, советую ещё познакомиться с методом ТЗ.НайтиСтроки() — поиск по нескольким индексированным полям, такого в соответствии нет (без извращений если).

    Reply
  26. vasyak319

    (25) DrAku1a,

    Автор, советую ещё познакомиться с методом

    А почему только с этим? Давайте уж, выкладывайте, что у вас там ещё в Синтакс-помощнике есть.

    Reply
  27. Evil Beaver

    (23) Yashazz, интересно, откуда вообще у вас возникли предпосылки думать, что таблица значений существует в СУБД? Хоть что-нибудь в поведении платформы на это намекает?

    Reply
  28. dolter

    (27) Возможно мысль появилась из-за знания как это работает в семерке. Там создается dbf-файл.

    Я, честно говоря, не очень удивлюсь, если ТЗ в восьмерке создается-храниться так же ))

    К сожалению нет времени на эксперименты…

    Reply
  29. FlyVodolaz

    (25) DrAku1a,

    Я так понимаю, не реализовали таблицу значений на клиенте, по причине отсутствия подходящего типа в JavaScript.

    Массив, соответствие и структуру в JavaScript можно описать через массив и ассоциативный массив.

    Reply
  30. vasyak319

    (29) FlyVodolaz, точно так же, как сейчас выходят из положения программисты 1С, желающие поиметь на клиенте нечто вроде ТЗ, могли бы выйти из положения и программисты платформы.

    Reply
  31. ander_

    (28) dolter,

    Не перевелись еще сказочники 🙂

    Reply
  32. Yashazz

    (27) Evil Beaver, хорошо, откуда предпосылки думать обратное? Я вот нигде не видел сведений, как в нынешних версиях 1С реализована таблица значений, но наличие метода индексации ВНЕ запроса несколько намекает. Ну не стали ж в 1С делать свою механику наряду с движком СУБД… Вот, например, динамику изменений TempDB никто не отслеживал при работе с крупными таблицами? Может, кроме собственно служебных времянок, туда и таблица значений пихается?

    (28) Вряд ли. DBF в понимании 1С это уже не модно.

    Reply
  33. tarassov
    в том случае, когда в алгоритме массово используется поиск в одном и том же множестве и при этом результатом поиска является либо сам факт нахождения, либо какое-то одно значение, связанное с ключом поиска, однозначно надо брать Соответствие — оно быстрее

    — то, что надо!

    Reply

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *