Разбор строки CSV при помощи RegExp




Принцип обмена данными из 1С с сайтом (на MySQL) и выдачи (публикации) этих данных по запросу.
PHP-Скрипт автоматической загрузки данных из файла данных в формате CSV в базу данных сайта работающего на WordPress.

В продолжение моей темы: 1С:Альфа-Авто Автосалон Автосервис: обмен с сайтом.
С помощью данного скрипта можно загружать в автоматическом режиме, по расписанию, данные сервисных книжек (ремонтов авто) из 1С:Альфа-Авто Автосалон Автосервис.
Также можно загружать данные в ручном режиме: для этого делается скрытая страница, где размещается специальная кнопка.
Комментарии размещенные внутри скрипта разъяснят логику и порядок действия.
Комментарии с "/////    echo" использовались для отладки.
Дополнительно создана таблица для журналирования результатов загрузки данных.
Скрипт включает в себя защиту от SQL инъекций (думаю безопасность соблюдена в полной мере).
В кратце:
1. Пишется скрипт, который запускает этот.
2. Создается регламентное задание в WordPress, по которому запускается скрипт из п.1. 
3. Этот скрипт осуществляет проверку на существование файла обмена в папке.
4. Если данные не новые, загрузка не производится.
5. Если данные новые, очищается таблица сервисных книжек.
6. Загружаются новые данные.

Собственно сам скрипт:

<?php // Полная загрузка сервисных книжек, создан 2025-01-05 12:44:55

global $wpdb2;
global $failure;
global $file_hist;

/////  echo '<H2><b>Старт загрузки</b></H2><br>';

$failure=FALSE;
//подключаемся к базе
$wpdb2 = include_once 'connection.php'; ; // подключаемся к MySQL
// если не удалось подключиться, и нужно оборвать PHP с сообщением об этой ошибке
if (!empty($wpdb2->error))
{
/////   echo '<H2><b>Ошибка подключения к БД, завершение.</b></H2><br>';
$failure=TRUE;
wp_die( $wpdb2->error );
}

$m_size_file=0;
$m_mtime_file=0;
$m_comment='';
/////проверка существования файлов выгрузки из 1С
////файл выгрузки сервисных книжек
$file_hist = ABSPATH.'/_1c_alfa_exchange/AA_hist.csv';
if (!file_exists($file_hist))
{
/////   echo '<H2><b>Файл обмена с сервисными книжками не существует.</b></H2><br>';
$m_comment='Файл обмена с сервисными книжками не существует';
$failure=TRUE;
}

/////инициируем таблицу лога
/////если не существует файла то возврат и ничего не делаем
if ($failure){
///включает защиту от SQL инъекций и данные можно передавать как есть, например: $_GET['foo']
/////   echo '<H2><b>Попытка вставить запись в лог таблицу</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>$m_comment));
wp_die();
/////    echo '<H2><b>Возврат в начало.</b></H2><br>';
return $failure;
}
/////проверка лога загрузки, что бы не загружать тоже самое
$masiv_data_file=stat($file_hist);   ////передаем в массив свойство файла
$m_size_file=$masiv_data_file[7];    ////получаем размер файла
$m_mtime_file=$masiv_data_file[9];   ////получаем дату модификации файла
////создаем запрос на получение последней удачной загрузки
////выбираем по штампу времени создания (редактирования) файла загрузки AA_hist.csv, $m_mtime_file

/////   echo '<H2><b>Размер файла: '.$m_size_file.'</b></H2><br>';
/////   echo '<H2><b>Штамп времени файла: '.$m_mtime_file.'</b></H2><br>';
/////   echo '<H2><b>Формирование запроса на выборку из лога</b></H2><br>';
////препарируем запрос
$text_zaprosa=$wpdb2->prepare("SELECT * FROM `vin_logs` WHERE `last_mtime_upload` = %s", $m_mtime_file);
$results=$wpdb2->get_results($text_zaprosa);

if ($results)
{   foreach ( $results as $r)
{
////если штамп времени и размер файла совпадают, возврат
if (($r->last_mtime_upload==$m_mtime_file) && ($r->last_size_upload==$m_size_file))
{////echo '<H2><b>Возврат в начало, т.к. найдена запись в логе.</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>'Загрузка отменена, новых данных нет, т.к. найдена запись в логе.'));
wp_die();
return $failure;
}
}
}
////если данные новые, пишем в лог запись о начале загрузки
/////echo '<H2><b>Попытка вставить запись о начале загрузки в лог таблицу</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>0, 'last_size_upload'=>$m_size_file, 'comment'=>'Начало загрузки'));

////очищаем таблицу
$clear_tbl_zap=$wpdb2->prepare("TRUNCATE TABLE %s", 'vin_history');
$clear_tbl_zap_repl=str_replace("'","`",$clear_tbl_zap);
$results=$wpdb2->query($clear_tbl_zap_repl);
/////   echo '<H2><b>Очистка таблицы сервисных книжек</b></H2><br>';
if (empty($results))
{
/////   echo '<H2><b>Ошибка очистки таблицы книжек, завершение.</b></H2><br>';
//// если очистка не удалась, возврат
$failure=TRUE;
wp_die();
return $failure;
}

////загружаем данные
$table='vin_history';         // Имя таблицы для импорта
//$file_hist Имя CSV файла, откуда берется информация     // (путь от корня web-сервера)
$delim=';';          // Разделитель полей в CSV файле
$enclosed='"';      // Кавычки для содержимого полей
$escaped='\

15 Comments

  1. alexk-is

    Попробуй поискать так http://infostart.ru/search/?q=RegExp

    Reply
  2. Evg-Lylyk

    Гуд работает! я не смог (в свое время) сделать.

    Только для строки:

    «»;;14;121

    2-го элемента нет

    Еще желательно замерять скорость, а то может встроенным языком быстрее (читаемость регуляра на нуле)

    Вот публикации в тему:

    Использование регулярных выражений (RegExp) в 1С8.х

    Экспорт ТЗ в CSV формат

    (1) идея норм. Ссылки по поиску конечно стоило добавить.

    Reply
  3. artbear

    (0) Цикл

    Для СчетчикЦикла = 0 По Matches.Count()-1 Цикл

    Match = Matches.Item(СчетчикЦикла);

    Рез.ДобавитьЗначение(Match.Value);

    КонецЦикла;

    очень медленный 🙁

    посмотри обсуждение в http://infostart.ru/public/64222/

    и мою статью Оптимизация типовых функций из кода 1С

    Reply
  4. Ish_2

    (3) Смотри- ка в январе еще было. А я пропустил.

    Reply
  5. Berrimor

    (3) алгоритм для семерки -> без вариантов

    Reply
  6. artbear

    (5) А ты все-таки посмотри 🙂

    у меня универсальный алгоритм, который подойдет и для 7-ки, и для 8-ки.

    Один минус — нужна предварительная инициализация алгоритма, а она немного тормозная.

    Так что для случая одной строки алгоритм проиграет, а вот если нужно проанализировать кучу строк, тогда выигрыш несомненен.

    Reply
  7. ot.martina

    А чем плох вариант:

    СписокСтроки = СтрЗаменить(СтрокаСписка, «;», Символы.ПС);

    Для Н = 1 По СтрЧислоСтрок(СписокСтроки) Цикл

    ТекЗначение = СтрПолучитьСтроку(СписокСтроки, Н);

    Н = Н + 1;

    КонецЕсли;

    Reply
  8. Berrimor

    (7) тем что он не разберет конструкцию из анонса

    Reply
  9. ot.martina

    Согласен. Правда, предложенный метод тоже не разберет конструкцию из анонса.

    Reply
  10. Berrimor

    (9) анонс мною писан, что я балбес писать то что он не разберет :), будет

    111;111″»

    111

    что и нужно

    Reply
  11. ot.martina

    Странно, почему у меня выдает такой текст?

    «111;111″»»;

    111

    И как определить, что нужно не вот это?

    «111

    111″»»

    111

    Reply
  12. Berrimor

    (11) по моему Вам есть смысл разобраться с тем как устроен CSV

    Reply
  13. ot.martina

    Если Википедия — признаваемый авторитетным ресурс, то и Вам есть смысл с ним ознакомиться, особенно рекомендую завершающую часть:

    CSV (от англ. Comma Separated Values — значения, разделённые запятыми) — это текстовый формат, предназначенный для представления табличных данных. Каждая строка файла — это одна строка таблицы. Значения отдельных колонок разделяются разделительным символом (delimiter) — запятая (,) или точка с запятой (;). Используемый символ разделителя зависит от установленной в системе локали. В США это запятая, а в России — точка с запятой, так как запятая используется для дробных чисел (в отличие от США, где это точка). Значения, содержащие зарезервированные символы, такие как: запятая, точка с запятой или новая строка обрамляются символом двойные кавычки («); если в значении встречаются кавычки — они представляются в файле в виде двух кавычек подряд. Строки разделяются парой символов CR LF (0x0D 0x0A) (в DOS и Windows эта пара генерируется нажатием клавиши Enter).

    То, что Вы пишете в (10) во-первых, не совпадает с результатом вывода 1С (см. (11)), во-вторых, не отвечает условию разбора CSV файла (см. описание использования зарезервированных символов и кавычек).

    Reply
  14. Berrimor

    была ситуевина, было решение — бодаться по поводу что есть csv смысла никакого не вижу, с сим всего доброго и желаю (13)

    Reply
  15. fzt

    (6) artbear,

    По моему RegExp у меня подключен почти во всех конфигурациях, которые я так или иначе дорабатывал.

    COM объект инициализируется один раз. Поскольку конфигурация в подавляющем большинстве случаев (кроме внешних и внутрненних collback вызовов) однопоточная то его хватает.

    Reply

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *