TextRadar — нечеткий поиск в тексте

В отличие от нечеткого сравнения строк, когда обе сравниваемых строки равнозначны, в задаче нечеткого поиска выделяются строка поиска и строка данных, а вычислить необходимо не степень похожести двух строк, а степень присутствия строки поиска в строке данных. Нормированный коэффициент, находящийся между 0 и 1 позволяет отсечь заведомо низкие результаты, организовать поиск по синонимам и т.д. Наглядное отображение результатов в кратком и детальном виде поможет быстро найти интересующий фрагмент.

Принцип действия алгоритма основан на корреляционном анализе в его интерпретации применительно к текстовым данным, подробнее об алгоритме здесь: Алгоритм нечеткого поиска TextRadar — основные подходы и здесь: Сравнение алгоритма нечеткого поиска TextRadar c аналогами: Lucene, Sphinx, Яндекс, 1С 

На сайте textradar.ru развернут демо стенд, на котором можно протестировать алгоритм в режиме онлайн.

Технология поиска для платформы 1С состоит из:

  • Внешней  компоненты, написанной на языке C++ (Native API, не требует регистрации в реестре)
  • Шаблона обработки поиска, на базе которого можно быстро разработать решение под вашу задачу

 

Native API компонента формирует данные и для краткого и для подробного отображения результатов, но в демо-версии представленной обработки задействована только краткая информация.

Тестирование проводилось на версии 8.3.13.1690 платформы.

11 Comments

  1. nomadon

    Отсутствие чего именно в полнотекстовом поиске побудило на компоненту?

    Reply
  2. Steelvan

    (1) Смотрите как могу ?

    Reply
  3. TSSV

    (1) Добрый день. В публикацию добавлено видео — сравнение с полнотекстовым поиском. Преимущества есть, есть и недостатки. Вопрос в том, как, то есть для решения каких практических задач их правильно применить. Есть идеи?

    Reply
  4. nomadon

    (4) это 1с, в бинарнике алгоритмы совсем минимальны

    Reply
  5. TSSV
    Идеи для практического прменения есть )) Возможно даже применю в готовящемся решении, надо попробовать.

    Отлично!

    Какая ориентировочная стоимость компоненты планируется?

    Ценовая политика и порядок лицензирования пока на этапе проработки. Рассматриваются варианты с привязкой к оборудованию, ограничения по сроку использования и без привязки, с файлом лицензии или без и т.д. В любом случае подход должен быть максимально гибким.

    В чем предполагается различие между платной и бесплатной?

    В бесплатной версии предполагается поддержка только режима «1», это режим быстрого расчета коэффициента, применяемый в демо-версии обработки для первичной сортировки массива данных поиска. В этом режиме в частности не формируются данные для отображения результатов поиска.

    Как так компонента получилась больше весом чем обработка со встроенной компонентой?

    Видимо дело в том, что при загрузке компоненты в макет обработки происходит ее архивирование.

    Reply
  6. CheBurator

    еще можно интересующимся посмотреть strmatch.dll — нечеткий поиск. есть здесь на ИС. мною неоднократно успешно на разных проектах использовалась на 77. работает и под 8-ку.

    Reply
  7. TSSV

    (8) Предложите альтернативу с лучшими, чем продемонстрировано в видеопримерах из публикации результатами.

    Reply
  8. vasvl123

    Да вот хотя бы это: https://infostart.ru/public/440033/

    Reply
  9. vasvl123

    (11) так вы сами спросили. а по существу? обработку то хоть смотрели?

    Reply
  10. TSSV

    (7) «Кому и кобыла невеста…» (с) И. Ильф и Е. Петров.

    Reply
  11. TSSV

    Бета-тестирование завершено.

    Reply

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *