Удаляем из файла HTML — теги и спецсимволы, оставляем только текст.
Регулярные выражения (Regular Expressions) являются известным и мощным средством для поиска, тестирования и замены подстрок. Эта технология доступна и в 1С — через объект VBScript.RegExp. Нужный объект уже встроен в современные версии Windows (начиная с Windows 98), и устанавливать дополнительно ничего не нужно.
В данном примере, собственно, и рассматривается пример удаления HTML тегов и спецсимволов с помощью RegExp.
Таблицу спецсимволов HTML можно посмотреть здесь: http://htmlweb.ru/html/symbols.php
(0) Двиг сайта преобразовал HTML-коды
(1) Поручик, поясните, что вы имели в виду?
(2) В таблице символы и HTML-коды одинаковые
(3) Поручик, да действительно. Спасибо, что заметили. Вечером поменяю. Вот спецсимволы, которые я имел ввидуhttp://htmlweb.ru/html/symbols.php
Баян. Скоро уже «СтрЗаменить» будем как отдельную публикацию оформлять…
(5) Yashazz, по-первых — не баян, т.к. на сайте примера удаления тегов и спецсимволов с помощью регулярных выражений нет, а во-вторых для новичков будет полезно разобрать более удобные способы поиска и замены значений в тексте, чем СтрЗаменить().
(2) Что-то у вас там больно простая регулярка.
удалить теги HTML регулярные выражения
искал тоже как получить чистый текст из HTML, не совсем в тему может — нашел на мисте — Текст = ЭлементыФормы.ПолеHTMLдокумента.Документ.documentElement.innerText
Для извлечения текста из почтовых сообщений подходит такой вариант:
Вопрос, данная обработка под УТ 11 будет работать?