
Некоторое время назад возникла необходимость сделать скрипт, который будет удалять из текста в utf8 некоторые специальные Unicode-символы:
$_ =~ s/[\«\»]//g;
Вроде все нормально, выражение должно отрабатываться нормально. Однако...
Работать-то оно работает, но после его применения к тексту многие кирилличиские символы заменяются знаками вопроса (ну не могут регуярные выражения хорошо работать с русским юникодом
).
И что-же делать?
А удалять символы не по их представлению, а по hex-кодам:
$_ =~ s/[\xC2AB\xC2BB]//g;
Спецально для этого написал небольшой скрипт, выдающий код интересующего символа: скачать.
ЗЫ: Посоветовали сей метод тут — http://forum.codenet.ru/showthread.php?t=46104
|
|
Webmoney Z163628999150, R617151845974
|