Регулярные выражения и Unicode-символы

Категория: Perl , RegEx Комментариев: 0

(c) XKCD Everybody stand back. I know regular expressions!
Некоторое время назад возникла необходимость сделать скрипт, который будет удалять из текста в utf8 некоторые специальные Unicode-символы:
$_ =~ s/[\«\»]//g;
Вроде все нормально, выражение должно отрабатываться нормально. Однако...
Работать-то оно работает, но после его применения к тексту многие кирилличиские символы заменяются знаками вопроса (ну не могут регуярные выражения хорошо работать с русским юникодом :( ).
И что-же делать?
А удалять символы не по их представлению, а по hex-кодам:
$_ =~ s/[\xC2AB\xC2BB]//g;

Спецально для этого написал небольшой скрипт, выдающий код интересующего символа: скачать.

ЗЫ: Посоветовали сей метод тут — http://forum.codenet.ru/showthread.php?t=46104

Автор: Кто-то   @   14 июля 2009 Комментариев: 0
Метки : ,

Поблагодарить автора

Webmoney Z163628999150, R617151845974

Комментариев: 0

Комментариев к этой записи поке нет. Ваш комментарий будет первым.
оставить комментарий

Предыдущая запись
«
Следующая запись
»