Отчет «Прогноз спроса» на нейросетях. Пример применения и оценка эффективности

Принцип обмена данными из 1С с сайтом (на MySQL) и выдачи (публикации) этих данных по запросу.
PHP-Скрипт автоматической загрузки данных из файла данных в формате CSV в базу данных сайта работающего на WordPress.
В продолжение моей темы: 1С:Альфа-Авто Автосалон Автосервис: обмен с сайтом.
С помощью данного скрипта можно загружать в автоматическом режиме, по расписанию, данные сервисных книжек (ремонтов авто) из 1С:Альфа-Авто Автосалон Автосервис.
Также можно загружать данные в ручном режиме: для этого делается скрытая страница, где размещается специальная кнопка.
Комментарии размещенные внутри скрипта разъяснят логику и порядок действия.
Комментарии с "///// echo" использовались для отладки.
Дополнительно создана таблица для журналирования результатов загрузки данных.
Скрипт включает в себя защиту от SQL инъекций (думаю безопасность соблюдена в полной мере).
В кратце:
1. Пишется скрипт, который запускает этот.
2. Создается регламентное задание в WordPress, по которому запускается скрипт из п.1.
3. Этот скрипт осуществляет проверку на существование файла обмена в папке.
4. Если данные не новые, загрузка не производится.
5. Если данные новые, очищается таблица сервисных книжек.
6. Загружаются новые данные.
Собственно сам скрипт:
<?php // Полная загрузка сервисных книжек, создан 2026-01-05 12:44:55
global $wpdb2;

global $failure;

global $file_hist;




/////  echo '<H2><b>Старт загрузки</b></H2><br>';
$failure=FALSE;

//подключаемся к базе

$wpdb2 = include_once 'connection.php'; ; // подключаемся к MySQL

// если не удалось подключиться, и нужно оборвать PHP с сообщением об этой ошибке

if (!empty($wpdb2->error))

{

/////   echo '<H2><b>Ошибка подключения к БД, завершение.</b></H2><br>';

$failure=TRUE;

wp_die( $wpdb2->error );

}
$m_size_file=0;

$m_mtime_file=0;

$m_comment='';

/////проверка существования файлов выгрузки из 1С

////файл выгрузки сервисных книжек

$file_hist = ABSPATH.'/_1c_alfa_exchange/AA_hist.csv';

if (!file_exists($file_hist))

{

/////   echo '<H2><b>Файл обмена с сервисными книжками не существует.</b></H2><br>';

$m_comment='Файл обмена с сервисными книжками не существует';

$failure=TRUE;

}
/////инициируем таблицу лога

/////если не существует файла то возврат и ничего не делаем

if ($failure){

///включает защиту от SQL инъекций и данные можно передавать как есть, например: $_GET['foo']

/////   echo '<H2><b>Попытка вставить запись в лог таблицу</b></H2><br>';

$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>$m_comment));

wp_die();

/////    echo '<H2><b>Возврат в начало.</b></H2><br>';

return $failure;

}

/////проверка лога загрузки, что бы не загружать тоже самое

$masiv_data_file=stat($file_hist);   ////передаем в массив свойство файла

$m_size_file=$masiv_data_file[7];    ////получаем размер файла

$m_mtime_file=$masiv_data_file[9];   ////получаем дату модификации файла

////создаем запрос на получение последней удачной загрузки

////выбираем по штампу времени создания (редактирования) файла загрузки AA_hist.csv, $m_mtime_file
/////   echo '<H2><b>Размер файла: '.$m_size_file.'</b></H2><br>';

/////   echo '<H2><b>Штамп времени файла: '.$m_mtime_file.'</b></H2><br>';

/////   echo '<H2><b>Формирование запроса на выборку из лога</b></H2><br>';

////препарируем запрос

$text_zaprosa=$wpdb2->prepare("SELECT * FROM `vin_logs` WHERE `last_mtime_upload` = %s", $m_mtime_file);

$results=$wpdb2->get_results($text_zaprosa);
if ($results)

{   foreach ( $results as $r)

{

////если штамп времени и размер файла совпадают, возврат

if (($r->last_mtime_upload==$m_mtime_file) && ($r->last_size_upload==$m_size_file))

{////echo '<H2><b>Возврат в начало, т.к. найдена запись в логе.</b></H2><br>';

$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>'Загрузка отменена, новых данных нет, т.к. найдена запись в логе.'));

wp_die();

return $failure;

}

}

}

////если данные новые, пишем в лог запись о начале загрузки

/////echo '<H2><b>Попытка вставить запись о начале загрузки в лог таблицу</b></H2><br>';

$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>0, 'last_size_upload'=>$m_size_file, 'comment'=>'Начало загрузки'));




////очищаем таблицу

$clear_tbl_zap=$wpdb2->prepare("TRUNCATE TABLE %s", 'vin_history');

$clear_tbl_zap_repl=str_replace("'","`",$clear_tbl_zap);

$results=$wpdb2->query($clear_tbl_zap_repl);

/////   echo '<H2><b>Очистка таблицы сервисных книжек</b></H2><br>';

if (empty($results))

{

/////   echo '<H2><b>Ошибка очистки таблицы книжек, завершение.</b></H2><br>';

//// если очистка не удалась, возврат

$failure=TRUE;

wp_die();

return $failure;

}
////загружаем данные

$table='vin_history';         // Имя таблицы для импорта

//$file_hist Имя CSV файла, откуда берется информация     // (путь от корня web-сервера)

$delim=';';          // Разделитель полей в CSV файле

$enclosed='"';      // Кавычки для содержимого полей

$escaped='\

	
  ← Previous post
	Next post →
   


      Related Posts  
            
        
	       Групповой перерасчет отпуска
	       Конфигурация "1С: Монтаж окон"
	       Контроль документов
	       Процент по виду расчета списком
	       Карточка складского учета для бухгалтерия 3.0
	       Сохранение чеков ККМ в файл xml
        
      







	    22 Comments

		
				
		
			
				nomadon 27.11.2018 at 23:31			


			
			
				Воронцов есть такой ученый, вы как-то связаны?)
			 
			   Reply ↓			

			   			

		

	

	
		
			
				CheBurator 28.11.2018 at 03:03			


			
			
				Хороший материал.


Осталось определиться, что считать «регулярными клиентами».


что значит «берут постоянно»..?


есть клиенты которые берут раз в два-три месяца. есть которые каждый месяц. объемы (в деньгах/тоннах/кубах) — могут и примерно одинаковые. а могут и нет.


.


даст ли что-то если проиграть несколько «сценариев», когда периодж может быт разный — поиграть сетью с «месяцем». поиграть сетью с кварталом..?
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 28.11.2018 at 06:36			


			
			
				(1) Погуглил. Неа, просто однофамилец.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 28.11.2018 at 06:59			


			
			
				(2) В моем случае «постоянные клиенты» — это те, которые что то покупают каждый месяц за интервал статистики и даже присутствуют во внутренних фин. отчетах предприятия как предпределенные строки (типа Дебиторская задолженность «АО Тандер» … и т.д.). Но это ничего не значит. Можно добавлять свои варианты или вообще все засунуть в «Прочие клиенты». Но разбивка по клиентам все же имеет смысл так как для каждого создается сеть в которой рассчитывается модель его потребительского поведения. И общий спрос — как сумма моделей потребления. Такая была идея. С другой стороны всех покупателей подряд рассматривать как постоянных тоже не вариант при таких входных данных, так как могут быть вообще единоразовые покупки. Поэтому критерий, по которому можно отнести покупателей к постоянным — какой то процент периодов когда были покупки к общему числу периодов. Например 80%.
даст ли что-то если проиграть несколько «сценариев», когда периодж может быт разный — поиграть сетью с «месяцем». поиграть сетью с кварталом..?
Тут важно от чего зависят продажи. В моем случае период — это не элемент ряда, а фактор сезонности. Например в декабре перед новым Годом большой спрос (подарки). И если «зарыть» декабрь в 4-й квартал, а планировать все так же на месяц то этот фактор размоется я думаю.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				Hans 28.11.2018 at 07:56			


			
			
				Ну и что? Насколько прогноз сбывается?
			 
			   Reply ↓			

			   			

		

	

	
		
			
				nomadon 28.11.2018 at 08:12			


			
			
				(5) коварно в самом конце материала расположилось заключение с ответом на вопрос 
Для этого я в отчете добавил колонки Факт, Отклонение и Отклонение в %. Получил отклонения как на картинке в пределах 10-15%.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				Stepa86 28.11.2018 at 10:29			


			
			
				1. Пробовали на этих данных более простые модели? Среднее, наивная (брать такой же месяц годом ранее), аппроксимация, Холта-Винтерса? С использованием сезонности от 1С.


2. Пробовали на этих данных что нить из ML? Фейсбучного пророка https://infostart.ru/public/862671/ , линейную регрессию, бустинг, арима?


3. Кросс-валидация хотя бы на полгода?


4. Игрались с группировками и периодами? Группы без учета клиентов, или прогноз до недель/дней, а затем свертка до месяца
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 28.11.2018 at 11:17			


			
			
				(7) 1. Сравнивали с обычным планированием на 1С (типовым) с учетом сезонности c усреднением за аналогичные периоды — результат точнее. По поводу Холта-Винтерса — там же надо каким то образом подбирать параметры. Честно говоря не знаю как это осуществить.


2. У меня задача другая нежели просто прогнозирование временных рядов. Статистические методы типа регрессии(почему обязательно линейной кстати?) тут можно применить только если не применять другие параметры — т.е. не указывать другую скидку например. Тут применение всех этих «статистических» а не «структурных» методов можно использовать как дополнение чтобы учесть влияние тренда, который у меня не учитывается, да.


3. Пока только 2 месяца, 1 и 1 месяц в 3х базах


4.Группы без учета клиентов — можно не указывать клиентов тогда будут все «Прочие клиенты» — разброс больше процентов на 20. До дней не делал.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				Stepa86 28.11.2018 at 11:33			


			
			
				(8) 1. У Холта-Винтерса параметры перебором подбираются. Для каждого набора запускается кросс-валидация и лучший результат — вот она модель. Я уже не помню по времени, но один ряд на 30 точек так минут 10 подбирался у меня, вроде б.
Вот, кстати, парадокс. Делаем очень крутую штуку, с мощным мат. аппаратом, почти ИИ. А средняя все равно дает результат лучше…
2. Линейная, потому что результат это линейная формула от входных коэффициентов. Чем там больше влияющих на результат признаков — тем лучше. Как раз прогнозирование временного ряда от задачи регрессии и отличается тем, что для прогнозирования есть только дата+целевое значение, а для регрессии куча признаков+целевое значение. Задача прогнозирование может быть сведена к задаче регрессии, наоборот — нет. Где то видел, что бустинг рвет все спец. библиотеки по прогнозированию, ариму и простую линейную регрессию.
И вот как раз в задаче регрессии появляется возможность добавлять доп. признаки — цена, скидка, это праздник, была мотивация персонала, желтый/обычный ценник или размер полки в случае пищевки, плановые остатки на складе, курс доллара, санкции итп
Именно в качестве прогнозирования у меня сложилась такая картина:


сперва юзаем простейшие методы, типа средней и наивной.


Если точности мало или хотим доп. признаки, или сезонность хитрая — фейсбучный пророк, если нужны графики и понимание или бустинг, если нужен результат, линейную регрессию только для оценки влияния признака на цель можно погонять.


А уже на это сверху можно навешивать полноценное планирование продаж и операций с прогнозом приростов от акций, расчетом загрузки производства, бюджетами и прочими ништяками.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 28.11.2018 at 11:57			


			
			
				(9) нет средняя как раз хуже. Может я неправильно выразился.


И вот как раз в задаче регрессии появляется возможность добавлять доп. признаки 
 — вы имеете ввиду регрессию с фиктивными переменными? Но там же сдвиг или наклон только. От этого же форма зависимости не поменяется. А есть какой то материал с формулами с примером применения? Ну или вкратце — как добавить параметр?
			 
			   Reply ↓			

			   			

		

	

	
		
			
				Stepa86 28.11.2018 at 12:14			


			
			
				(10) Нашел вот такое. Как в пророке добавлять свои сезонности, праздники и регрессоры (скидка и цена это как раз регрессор) https://facebook.github.io/prophet/docs/seasonality,_holiday_effects,_and_regressors.html
Пример прогнозирования на пайтоне с помощью линейной регрессии http://nbviewer.jupyter.org/github/Yorko/mlcourse_open/blob/master/jupyter_russian/projects_individual/project_sales_prediction_ad_ilyas.ipynb?flush_cache=true
Пример/сравнение прогнозирования по ARIMA, Facebook Prophet, XGBoost  http://nbviewer.jupyter.org/github/Yorko/mlcourse_open/blob/master/jupyter_russian/projects_individual/project_candy_production_prediction_EvgeniyLatyshev.ipynb?flush_cache=true
Пример, где доп. признаков больше и они важнее, чем даты. Там 5 различных моделей    http://nbviewer.jupyter.org/github/Yorko/mlcourse_open/blob/master/jupyter_russian/projects_individual/project_area_bike_share_tbb.ipynb?flush_cache=true
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 28.11.2018 at 12:49			


			
			
				(11) хорошие ссылки. Спасибо!
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 28.11.2018 at 13:44			


			
			
				(11) В статьях правда только куски кода с вызовом функций, это не очень помогает понять механику но видно это работает. Но к вопросу почему «нейросети а не стат. методы ?» Думаю могу ответить так: если сравнивать аппроксимацию разными методами больших различий не будет, но это если определена задача и определены влияющие переменные. Т.е. априори мы знаем о задаче эту информацию. Если же есть только гипотезы о влияющих факторах то применение сетей как раз проще — они сами «загасят» ненужные входы и настроят апроксимацию как надо. Т.е. больше универсальность и простота применения.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				Stepa86 28.11.2018 at 14:11			


			
			
				(13) Если хочется исходников, то https://scikit-learn.org/stable/ и там по ссылкам. Там вроде даже где то научные работы есть, что в основе лежат.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				Азверин 29.11.2018 at 11:47			


			
			
				Вы там потом под 1С запилить не забудьте)
			 
			   Reply ↓			

			   			

		

	

	
		
			
				user1002645 10.12.2018 at 11:23			


			
			
				(4)Дмитрий, наша компания занимается розничными продажами. Имеем 40 розничных точек. Работаем в 1С комплексная автоматизация. Хотим добавить в 1С внешние обработки по прогнозу спроса на основе нейросетей. Можете проконсультировать возможность такого внедрения в нашем случае и примерную стоимость?
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 10.12.2018 at 12:06			


			
			
				(16) Ответил в личку
			 
			   Reply ↓			

			   			

		

	

	
		
			
				утюгчеловек 21.01.2019 at 10:53			


			
			
				учитывая непредсказуемость нашей экономической обстановки
 полезность любой прогнозной модели стремится к нулю.
Голоса в голове подсказываю что можно было обойтись линейной моделью. Почему нет сравнения с более простой моделью?


Это публикуется как продукт или как proof-of-concept? Т.е. есть ли возможность скачать обработку не за стартмани?
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 21.01.2019 at 13:37			


			
			
				(18) Только за стартмани. Это заготовка для доработки напильником. В том смысле что работать в обозначенных конфигурациях она будет, но так как бизнесы разные то входы и параметры модели тоже разные соответственно источники данных возможно потребуется добавить свои.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				venvlad 27.06.2019 at 18:00			


			
			
				Почему количество итераций 10000?
			 
			   Reply ↓			

			   			

		

	

	
		
			
				informa1555 27.06.2019 at 18:19			


			
			
				(20) С запасом. Это подбирается экспериментально.
			 
			   Reply ↓			

			   			

		

	

	
		
			
				venvlad 28.06.2019 at 11:45			


			
			
				(21)


Долго обрабатывает, в фон вытащу.
			 
			   Reply ↓			

			   			

		

	

		


		
		
	
		
		Leave a Comment Отменить ответ
Ваш адрес email не будет опубликован. Обязательные поля помечены *