Удаление тегов из текста

Функция на C# для удаления из текста всех HTML-тегов.

public string StripHTML(string str)
{
	// буфер для хранения результата
	string strippedString;
	try
	{
		string pattern = "<.*?>";
		// удаляем HTML-теги
		strippedString = Regex.Replace(str, pattern, string.Empty);
	}
	catch
	{
		strippedString = string.Empty;
	}
	return strippedString;
}

Пример использования функции можно посмотреть в инструменте htmlStripper.

Поблагодарить автора

2 Responses to Удаление тегов из текста

  1. :) Плохая функция. Удалит все что можно в лучшем случае, запорется на тэгах, которые написаны более чем на одной строчке, в худшем.

    По идее, такая задача должна решаться грамотным удалением одних тэгов и заменой других.

    Я такое как-то уже делал ;)

  2. > запорется на тэгах, которые написаны более чем на одной строчке

    Почему? Обрабатываем текст как единую строку и всё будет нормально.

    > Я такое как-то уже делал

    Своим вариантом не поделитесь? ;)

Оставить комментарий

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>