Счетчик слов в тексте




Принцип обмена данными из 1С с сайтом (на MySQL) и выдачи (публикации) этих данных по запросу.
PHP-Скрипт автоматической загрузки данных из файла данных в формате CSV в базу данных сайта работающего на WordPress.

В продолжение моей темы: 1С:Альфа-Авто Автосалон Автосервис: обмен с сайтом.
С помощью данного скрипта можно загружать в автоматическом режиме, по расписанию, данные сервисных книжек (ремонтов авто) из 1С:Альфа-Авто Автосалон Автосервис.
Также можно загружать данные в ручном режиме: для этого делается скрытая страница, где размещается специальная кнопка.
Комментарии размещенные внутри скрипта разъяснят логику и порядок действия.
Комментарии с "/////    echo" использовались для отладки.
Дополнительно создана таблица для журналирования результатов загрузки данных.
Скрипт включает в себя защиту от SQL инъекций (думаю безопасность соблюдена в полной мере).
В кратце:
1. Пишется скрипт, который запускает этот.
2. Создается регламентное задание в WordPress, по которому запускается скрипт из п.1. 
3. Этот скрипт осуществляет проверку на существование файла обмена в папке.
4. Если данные не новые, загрузка не производится.
5. Если данные новые, очищается таблица сервисных книжек.
6. Загружаются новые данные.

Собственно сам скрипт:

<?php // Полная загрузка сервисных книжек, создан 2025-01-05 12:44:55

global $wpdb2;
global $failure;
global $file_hist;

/////  echo '<H2><b>Старт загрузки</b></H2><br>';

$failure=FALSE;
//подключаемся к базе
$wpdb2 = include_once 'connection.php'; ; // подключаемся к MySQL
// если не удалось подключиться, и нужно оборвать PHP с сообщением об этой ошибке
if (!empty($wpdb2->error))
{
/////   echo '<H2><b>Ошибка подключения к БД, завершение.</b></H2><br>';
$failure=TRUE;
wp_die( $wpdb2->error );
}

$m_size_file=0;
$m_mtime_file=0;
$m_comment='';
/////проверка существования файлов выгрузки из 1С
////файл выгрузки сервисных книжек
$file_hist = ABSPATH.'/_1c_alfa_exchange/AA_hist.csv';
if (!file_exists($file_hist))
{
/////   echo '<H2><b>Файл обмена с сервисными книжками не существует.</b></H2><br>';
$m_comment='Файл обмена с сервисными книжками не существует';
$failure=TRUE;
}

/////инициируем таблицу лога
/////если не существует файла то возврат и ничего не делаем
if ($failure){
///включает защиту от SQL инъекций и данные можно передавать как есть, например: $_GET['foo']
/////   echo '<H2><b>Попытка вставить запись в лог таблицу</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>$m_comment));
wp_die();
/////    echo '<H2><b>Возврат в начало.</b></H2><br>';
return $failure;
}
/////проверка лога загрузки, что бы не загружать тоже самое
$masiv_data_file=stat($file_hist);   ////передаем в массив свойство файла
$m_size_file=$masiv_data_file[7];    ////получаем размер файла
$m_mtime_file=$masiv_data_file[9];   ////получаем дату модификации файла
////создаем запрос на получение последней удачной загрузки
////выбираем по штампу времени создания (редактирования) файла загрузки AA_hist.csv, $m_mtime_file

/////   echo '<H2><b>Размер файла: '.$m_size_file.'</b></H2><br>';
/////   echo '<H2><b>Штамп времени файла: '.$m_mtime_file.'</b></H2><br>';
/////   echo '<H2><b>Формирование запроса на выборку из лога</b></H2><br>';
////препарируем запрос
$text_zaprosa=$wpdb2->prepare("SELECT * FROM `vin_logs` WHERE `last_mtime_upload` = %s", $m_mtime_file);
$results=$wpdb2->get_results($text_zaprosa);

if ($results)
{   foreach ( $results as $r)
{
////если штамп времени и размер файла совпадают, возврат
if (($r->last_mtime_upload==$m_mtime_file) && ($r->last_size_upload==$m_size_file))
{////echo '<H2><b>Возврат в начало, т.к. найдена запись в логе.</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>'Загрузка отменена, новых данных нет, т.к. найдена запись в логе.'));
wp_die();
return $failure;
}
}
}
////если данные новые, пишем в лог запись о начале загрузки
/////echo '<H2><b>Попытка вставить запись о начале загрузки в лог таблицу</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>0, 'last_size_upload'=>$m_size_file, 'comment'=>'Начало загрузки'));

////очищаем таблицу
$clear_tbl_zap=$wpdb2->prepare("TRUNCATE TABLE %s", 'vin_history');
$clear_tbl_zap_repl=str_replace("'","`",$clear_tbl_zap);
$results=$wpdb2->query($clear_tbl_zap_repl);
/////   echo '<H2><b>Очистка таблицы сервисных книжек</b></H2><br>';
if (empty($results))
{
/////   echo '<H2><b>Ошибка очистки таблицы книжек, завершение.</b></H2><br>';
//// если очистка не удалась, возврат
$failure=TRUE;
wp_die();
return $failure;
}

////загружаем данные
$table='vin_history';         // Имя таблицы для импорта
//$file_hist Имя CSV файла, откуда берется информация     // (путь от корня web-сервера)
$delim=';';          // Разделитель полей в CSV файле
$enclosed='"';      // Кавычки для содержимого полей
$escaped='\

7 Comments

  1. kosilov

    Могу порекомендовать использовать следующую функцию для разбивки текста на слова.

    По моим тестам этот подход оказался более быстрым, чем использование СтрЗаменить.

    Функция split(СимволыРазделители, строка, лимит = неопределено) экспорт
    
    НоваяСтрока = Строка;
    МассивСлов = новый Массив;
    ИщемНачало = истина;
    ТекСлово = «»;
    
    Для НомерСимволаСтроки=1 по СтрДлина(Строка) цикл
    ТекСимвол =  Сред(Строка,НомерСимволаСтроки,1);
    если Найти(СимволыРазделители, ТекСимвол)=0  тогда
    ТекСлово = ТекСлово + ТекСимвол;
    ИщемНачало = ложь;
    продолжить;
    иначеесли ИщемНачало тогда
    МассивСлов.Добавить(«»);
    если МассивСлов.Количество()=лимит тогда
    возврат МассивСлов;
    конецесли;
    продолжить;
    иначе
    МассивСлов.Добавить(ТекСлово);
    если МассивСлов.Количество()=лимит тогда
    возврат МассивСлов;
    конецесли;
    ТекСлово = «»;
    ИщемНачало = истина;
    конецесли;
    конеццикла;
    если Не ИщемНачало тогда
    МассивСлов.Добавить(ТекСлово);
    конецесли;
    возврат МассивСлов;
    конецфункции

    Показать

    Reply
  2. YVolohov

    (1) Спасибо. Постараюсь сегодня же протестировать.

    Reply
  3. YVolohov

    (1) Протестировал. Функция показала хороший результат, но только для небольших строк. Для больших строк СтрЗаменить() все таки работает значительно быстрее.

    Reply
  4. kosilov

    (3) Странно, у меня как раз наоборот получалось. При больших текстах СтрЗаменить начинала тормозить. Может специфика реализации.

    А если обрабатывать большие тексты блоками?

    Т.е. в функцию разбивки передавать блок плюс остаток от предыдущего блока (если он был), функция разбивки будет возвращать массив (его лучше не возвращать а просто по ссылке с ним работать) + плюс начало слова, если последние символы не разделители.

    Думаю так быстрее получиться.

    Reply
  5. kosilov

    (3) Я емею в виду так попробовать:

    Процедура ПосчитатьСлова2()
    ДлинаБлока = 20; // Здесь надо искать оптимальное значение
    НоваяСтрока = ЭлементыФормы.Текст.ПолучитьТекст();
    СимволыРазделители = «,.?!:;() » + Символ(34);
    // Создаем таблицу значений
    Слова = Новый ТаблицаЗначений;
    Слова.Колонки.Добавить(«Слово»);
    Слова.Колонки.Добавить(«Частота»);
    Слова.Колонки.Добавить(«Доля»);
    
    
    ИщемНачало = истина;
    ТекСлово = «»;
    НачПозиция = 1;
    ДлинаСтроки = СтрДлина(НоваяСтрока);
    
    Пока  НачПозиция<=ДлинаСтроки цикл
    СтрокаОбработки = Сред(НоваяСтрока, НачПозиция, ДлинаБлока);
    СтрДлина = СтрДлина(СтрокаОбработки);
    Для НомерСимволаСтроки=1 по СтрДлина цикл
    ТекСимвол =  Сред(СтрокаОбработки,НомерСимволаСтроки,1);
    если Найти(СимволыРазделители, ТекСимвол)=0  тогда
    ТекСлово = ТекСлово + ТекСимвол;
    ИщемНачало = ложь;
    продолжить;
    иначеесли ИщемНачало тогда
    //МассивСлов.Добавить(«»);
    
    продолжить;
    иначе
    НовСтрока = Слова.Добавить();
    НовСтрока.Слово = НРег(ТекСлово);
    НовСтрока.Частота = 1;
    НовСтрока.Доля = 0;
    ТекСлово = «»;
    ИщемНачало = истина;
    конецесли;
    конеццикла;
    
    НачПозиция = НачПозиция + ДлинаБлока;
    КонецЦикла;
    если Не ИщемНачало тогда
    НовСтрока = Слова.Добавить();
    НовСтрока.Слово = НРег(ТекСлово);
    НовСтрока.Частота = 1;
    НовСтрока.Доля = 0;
    
    конецесли;
    Слова.Свернуть(«Слово»,»Частота,Доля»);
    Слова.Сортировать(«Частота Убыв, Слово Возр»);
    КоличествоСлов           = Слова.Итог(«Частота»);
    КоличествоУникальныхСлов = Слова.Количество();
    
    // Рассчет доли каждого слова в процентах
    Для Каждого СтрокаТаблицы Из Слова Цикл
    СтрокаТаблицы.Доля = Формат(СтрокаТаблицы.Частота/КоличествоСлов * 100, «ЧЦ=10; ЧДЦ=2»);
    КонецЦикла;
    
    // Выводим результат
    ПечатьРезультата(Слова);
    ЭлементыФормы.Панель.ТекущаяСтраница = ЭлементыФормы.Панель.Страницы.Анализ;
    
    КонецПроцедуры

    Показать

    Reply
  6. alexk-is

    Работу блоками при обработке больших текстов можно посмотреть здесь http://www.infostart.ru/public/19856/

    Reply
  7. ildarovich

    В публикации Порождающий запрос в качестве примера решена задача разбивки текста на слова и определения частоты слов непосредственно в запросе.

    Reply

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *