Еще одна технология распознавания капчи без онлайн сервисов.




Принцип обмена данными из 1С с сайтом (на MySQL) и выдачи (публикации) этих данных по запросу.
PHP-Скрипт автоматической загрузки данных из файла данных в формате CSV в базу данных сайта работающего на WordPress.

В продолжение моей темы: 1С:Альфа-Авто Автосалон Автосервис: обмен с сайтом.
С помощью данного скрипта можно загружать в автоматическом режиме, по расписанию, данные сервисных книжек (ремонтов авто) из 1С:Альфа-Авто Автосалон Автосервис.
Также можно загружать данные в ручном режиме: для этого делается скрытая страница, где размещается специальная кнопка.
Комментарии размещенные внутри скрипта разъяснят логику и порядок действия.
Комментарии с "/////    echo" использовались для отладки.
Дополнительно создана таблица для журналирования результатов загрузки данных.
Скрипт включает в себя защиту от SQL инъекций (думаю безопасность соблюдена в полной мере).
В кратце:
1. Пишется скрипт, который запускает этот.
2. Создается регламентное задание в WordPress, по которому запускается скрипт из п.1. 
3. Этот скрипт осуществляет проверку на существование файла обмена в папке.
4. Если данные не новые, загрузка не производится.
5. Если данные новые, очищается таблица сервисных книжек.
6. Загружаются новые данные.

Собственно сам скрипт:

<?php // Полная загрузка сервисных книжек, создан 2024-01-05 12:44:55

global $wpdb2;
global $failure;
global $file_hist;

/////  echo '<H2><b>Старт загрузки</b></H2><br>';

$failure=FALSE;
//подключаемся к базе
$wpdb2 = include_once 'connection.php'; ; // подключаемся к MySQL
// если не удалось подключиться, и нужно оборвать PHP с сообщением об этой ошибке
if (!empty($wpdb2->error))
{
/////   echo '<H2><b>Ошибка подключения к БД, завершение.</b></H2><br>';
$failure=TRUE;
wp_die( $wpdb2->error );
}

$m_size_file=0;
$m_mtime_file=0;
$m_comment='';
/////проверка существования файлов выгрузки из 1С
////файл выгрузки сервисных книжек
$file_hist = ABSPATH.'/_1c_alfa_exchange/AA_hist.csv';
if (!file_exists($file_hist))
{
/////   echo '<H2><b>Файл обмена с сервисными книжками не существует.</b></H2><br>';
$m_comment='Файл обмена с сервисными книжками не существует';
$failure=TRUE;
}

/////инициируем таблицу лога
/////если не существует файла то возврат и ничего не делаем
if ($failure){
///включает защиту от SQL инъекций и данные можно передавать как есть, например: $_GET['foo']
/////   echo '<H2><b>Попытка вставить запись в лог таблицу</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>$m_comment));
wp_die();
/////    echo '<H2><b>Возврат в начало.</b></H2><br>';
return $failure;
}
/////проверка лога загрузки, что бы не загружать тоже самое
$masiv_data_file=stat($file_hist);   ////передаем в массив свойство файла
$m_size_file=$masiv_data_file[7];    ////получаем размер файла
$m_mtime_file=$masiv_data_file[9];   ////получаем дату модификации файла
////создаем запрос на получение последней удачной загрузки
////выбираем по штампу времени создания (редактирования) файла загрузки AA_hist.csv, $m_mtime_file

/////   echo '<H2><b>Размер файла: '.$m_size_file.'</b></H2><br>';
/////   echo '<H2><b>Штамп времени файла: '.$m_mtime_file.'</b></H2><br>';
/////   echo '<H2><b>Формирование запроса на выборку из лога</b></H2><br>';
////препарируем запрос
$text_zaprosa=$wpdb2->prepare("SELECT * FROM `vin_logs` WHERE `last_mtime_upload` = %s", $m_mtime_file);
$results=$wpdb2->get_results($text_zaprosa);

if ($results)
{   foreach ( $results as $r)
{
////если штамп времени и размер файла совпадают, возврат
if (($r->last_mtime_upload==$m_mtime_file) && ($r->last_size_upload==$m_size_file))
{////echo '<H2><b>Возврат в начало, т.к. найдена запись в логе.</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>$m_mtime_file,'last_size_upload'=>$m_size_file,'comment'=>'Загрузка отменена, новых данных нет, т.к. найдена запись в логе.'));
wp_die();
return $failure;
}
}
}
////если данные новые, пишем в лог запись о начале загрузки
/////echo '<H2><b>Попытка вставить запись о начале загрузки в лог таблицу</b></H2><br>';
$insert_fail_zapros=$wpdb2->insert('vin_logs', array('time_stamp'=>time(),'last_mtime_upload'=>0, 'last_size_upload'=>$m_size_file, 'comment'=>'Начало загрузки'));

////очищаем таблицу
$clear_tbl_zap=$wpdb2->prepare("TRUNCATE TABLE %s", 'vin_history');
$clear_tbl_zap_repl=str_replace("'","`",$clear_tbl_zap);
$results=$wpdb2->query($clear_tbl_zap_repl);
/////   echo '<H2><b>Очистка таблицы сервисных книжек</b></H2><br>';
if (empty($results))
{
/////   echo '<H2><b>Ошибка очистки таблицы книжек, завершение.</b></H2><br>';
//// если очистка не удалась, возврат
$failure=TRUE;
wp_die();
return $failure;
}

////загружаем данные
$table='vin_history';         // Имя таблицы для импорта
//$file_hist Имя CSV файла, откуда берется информация     // (путь от корня web-сервера)
$delim=';';          // Разделитель полей в CSV файле
$enclosed='"';      // Кавычки для содержимого полей
$escaped='\

23 Comments

  1. ivanov660

    И каково качество распознавания изображения?

    Reply
  2. OldthiefXXX

    из 100 95%

    Reply
  3. powerpc

    Всё почти понятно. Только подскажите пожалуйста как ДокХМЛ создать? На примере какого-нибудь сайта. Тессеракт кстати jpeg с каптчей отказался распознавать, сказал: пустая картинка

    Reply
  4. OldthiefXXX

    (3) powerpc,

    ДокХМЛ = ЭлементыФормы.ПолеHTML.Документ;

    Reply
  5. OldthiefXXX

    (3) powerpc,

    Также JPEG нет tiff надо!!!

    Reply
  6. Sykoku

    Сразу огорчу: распознавание на … одном каком-то языке. А если их несколько? (Есть такие капчи: кириллица + латиница). Поддерживаемые форматы — TIFF, PNG + PDF с координатами текста. И куча ограничений: изображение не цветное, не сжатое и т.д.

    Reply
  7. powerpc

    (6) Sykoku, ясно что публикация не панацея. Есть капчи и с математикой, и с логикой, и с рисунками, и с ограничением времени показа. Интересен сам инструмент в рамках 1С и метод реализации. В любом случае познавательно. Автору плюс несомненно!

    Reply
  8. mzelensky

    Круто. Где ж ты раньше был 🙂

    Reply
  9. powerpc

    (5) мозгов не хватает страницу с капчей найти подходящую…. блин. с элементом «id=captcha». Может есть ссылки для проверки кода ?

    Reply
  10. OldthiefXXX

    (9) powerpc, Для примера с капчей возьми любую страницу, открой в хроме затем на капче правой кнопкой мыши нажми и в открывшейся менюшке «Просмотр кода элемента » и посмотри его ID. В 90% случае это будет некий элемент DOM. найти его можно по разному не только методом getElementById есть и другие методы для помощи немного почитать http://javascript.ru/tutorial/dom/search .

    Reply
  11. OldthiefXXX

    (6) Sykoku, Согласен с тобой полностью, каждая капча разбирается отдельно, схемы защиты капч огромное величество, но хочу порадовать раз твой глаз видит капчу а мозг распознает , значит и софт написать можно. Человек создавая капчу или генератор капчи все равно закладывал логику, даже у генератора случайных чисел есть логика. А соответственно можно эту логику понять ну и карты в руки.

    Reply
  12. AlexanderKai

    (11)

    бывает такое, что мозг не может распознать.

    Reply
  13. OldthiefXXX

    (12) AlexanderKai, тогда обновляешь элемент DOM

    Reply
  14. Vladimir_Konyrev

    Совместное использование возможностей внешних компонент и 1С — это очень интересная тема.

    Reply
  15. powerpc

    (10) а вот например здесь https://rzd.ru/selfcare/register/ru. На капче жму ПКМ -> «Проинспектировать элемент». Там img src=»/selfcare/captchaImage2″. Нет ID. По вашей ссылке http://javascript.ru/tutorial/dom/search решил, что подойдет только способ:

    КартинкаКапчи = ДокХМЛ.getElementsByTagName(«src»);

    Но метод возвращает пустой COM-объект. А как ещё можно на странице https://rzd.ru/selfcare/register/ru выцепить капчу ?

    Reply
  16. saga

    Проверил на паре 10 картинок с цифрами, если простой шрифт, однообразный фон, то 100%.

    Если повернуто немного или с помехами то все 0%.

    А такие каптчи которая она распознает нужно сейчас поискать.

    PS С камими каптчами проходил тест?

    Reply
  17. shoy

    Да уж! Где ты был то пораньше, годков на 10? 😉

    Вероятно, на данный момент, ещё есть такие капчи, иначе не было бы этой публикации.

    Но мне попадаются совсем другие …

    Хотя заинтересовал подход. +

    Reply
  18. for_sale

    Не работает!

    Пробовал на ВКонтактовских — не распознаёт даже близко, даже количество символов правильно не определяет. Я уж не говорю о том, что с теми командами, которые привёл автор, оно не работает вообще, выдаёт ошибку.

    Автор забыл указать, что тессеракт, как оказалось, нужно тренировать. Т.е. каким-то там очень хитрым способом, который умещается на нескольких страницах, скармливать ему чуть ли не посимвольные картинки пачками. Тогда, вроде бы как, начинает работать.

    В общем, потерянное впустую время, кг/ам и низачот.

    Reply
  19. for_sale

    Да, и ещё, небольшое лирическое отступление.

    Если кто-то попадает в эту тему, то рано или поздно сталкивается с платными сервисами разгадок капчи. Так вот, отзыв rucaptcha.com. НЕ работайте с рукапчей (rucaptcha)! Это мошенники. В рекламе на главной странице заявлена цена от 18 руб. за 1000 капч (что более чем отличная цена по рынку!), но по факту оказывается, что цена не падает ниже 40-45 рублей. А техподдержка вообще колхозники какие-то — грубят и по существу ничего не отвечают.

    Reply
  20. KroVladS

    Простой текст распознаёт, капчи нет.

    Reply
  21. 🅵🅾️🆇

    Пробывал тессеракт, с питоном дружил, даже картинку подчищал — очень плохое качество распознавания даже просто кириллицы со скриншотов.

    Может я и ошибаюсь, прикрепляю первую выпавшую капчу с сайта егрн:

    Reply
  22. husky

    Привет, а такую капчу может распознать?

    Reply
  23. husky

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *