Удаление HTML тегов и спецсимволов с использованием RegExp (регулярных выражений)


Удаляем из файла HTML — теги и спецсимволы, оставляем только текст.

Регулярные выражения (Regular Expressions) являются известным и мощным средством для поиска, тестирования и замены подстрок. Эта технология доступна и в 1С — через объект VBScript.RegExp. Нужный объект уже встроен в современные версии Windows (начиная с Windows 98), и устанавливать дополнительно ничего не нужно.

В данном примере, собственно, и рассматривается пример удаления HTML тегов и спецсимволов с помощью RegExp.

Таблицу спецсимволов HTML можно посмотреть здесь: http://htmlweb.ru/html/symbols.php

11 Comments

  1. Поручик

    (0) Двиг сайта преобразовал HTML-коды

    Reply
  2. Kserken

    (1) Поручик, поясните, что вы имели в виду?

    Reply
  3. Поручик

    (2) В таблице символы и HTML-коды одинаковые

    Reply
  4. Kserken

    (3) Поручик, да действительно. Спасибо, что заметили. Вечером поменяю. Вот спецсимволы, которые я имел ввиду http://htmlweb.ru/html/symbols.php

    Reply
  5. Yashazz

    Баян. Скоро уже «СтрЗаменить» будем как отдельную публикацию оформлять…

    Reply
  6. Kserken

    (5) Yashazz, по-первых — не баян, т.к. на сайте примера удаления тегов и спецсимволов с помощью регулярных выражений нет, а во-вторых для новичков будет полезно разобрать более удобные способы поиска и замены значений в тексте, чем СтрЗаменить().

    Reply
  7. Поручик

    (2) Что-то у вас там больно простая регулярка.

    удалить теги HTML регулярные выражения

    Reply
  8. Alex141516

    искал тоже как получить чистый текст из HTML, не совсем в тему может — нашел на мисте — Текст = ЭлементыФормы.ПолеHTMLдокумента.Документ.documentElement.innerText

    Reply
  9. Varies

    Для извлечения текста из почтовых сообщений подходит такой вариант:

    ЧтениеHTML = Новый ЧтениеHTML;
    ЧтениеHTML.УстановитьСтроку(ТекстHTML);
    ПостроительDOM = Новый ПостроительDOM;
    ДокументHTML = ПостроительDOM.Прочитать(ЧтениеHTML);
    Текст = ДокументHTML.Тело.ТекстовоеСодержимое;
    Reply
  10. fenix76

    Вопрос, данная обработка под УТ 11 будет работать?

    Reply
  11. dour-dead
    Reply

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *