+7 (495) 229-0436   shopadmin@itshop.ru 119334, г. Москва, ул. Бардина, д. 4, корп. 3
 
 
Вход
 
 
Каталог
 
 
Подписка на новости
Новости ITShop
Windows 7 и Office: Новости и советы
Обучение и сертификация Microsoft
Вопросы и ответы по MSSQLServer
Delphi - проблемы и решения
Adobe Photoshop: алхимия дизайна
 
Ваш отзыв
Оцените качество магазина ITShop.ru на Яндекс.Маркете. Если вам нравится наш магазин - скажите об этом Google!
 
 
Способы оплаты
 
Курс расчета
 
 1 у.е. = 92.51 руб.
 
 Цены показывать:
 
 
 
 
  
Новости, статьи, акции
 

Фильтруй базар?

14.12.2010 15:53

Разгорелась дискуссия в форуме - "как отслеживать маты". Вопрос этот обсуждался уже не раз, и сейчас снова пошёл по классическому сценарию:

 - Как отслеживать маты?
 - Регулярным выражением можно. А лучше брось эту затею.
 - Дайте регулярное выражение.
 - А если он введёт "с.л.о.в.о", что тогда делать будешь? Ещё сложнее. Плюнь на это дело.
 - Дайте регулярное выражение.
 - А если латиницей? Брось.
 - Дайте регулярное выражение.
 - Брось эту затею.
 - Дайте регулярное выражение.
 - Брось эту затею.
(и так далее)

Вопрос, конечно же, не праздный, и многие умы человечества над ним бьются, но какого-нибудь удачного решения я не видел. Грустно читать форум по Формуле-1 с именами "Михаэль Шума***" или "Джонни ***берт". Интересно, а как этот форум будет реагировать на слово "застрахуйте"?

Появилась как-то в ураинском интернете страница "проверка слова на маты". Предлагалось ввести слово или фразу и посмотреть, что скажет программа, а если программа неправильно определяла результат, написать авторам. И таким образом авторы хотели силами веба протестировать программу, найти-таки универсальный алгоритм распознавания русских матов. Больше об этом тестере никто ничего не слышал... Сам проверял - Шумахера и Херберта считает матерками, почта к авторам не идёт - не может соединиться с их сервером.

Читал документацию по White Tiger WWW Board - там предусматривалась защита от матов включая ввод латинскими буквами и, например, двух слэшей вместо буквы "л": "/\". Не думаю, что это сильно поможет. Через такой фильтр спокойно пройдёт слово через точки.

Стоит ли говорить про то, что замена слов на звёздочки подтолкнёт посетителей на разные изыскания с целью обойти защиту. Поведение целиком зависит от манер участников и атмосферы форума. Стоит сравнить хотя бы форум о Формуле-1 сайта телекомпании ПТП и сайта f1news.ru - форум f1news.ru, по-моему, самый уютный форум данной тематики, а в ПТП - проходной двор и грызня по мелочам. Так что программы-резалки облико морале не поднимут это точно.

И, всё-таки, попробуем написать регулярное выражение и поймать им хоть что-то. Первое, что приходит в голову: "сука/блядь/мудак"

Вспоминаем про латиницу. Та-ак, лучше сразу применить другой подход: писать слова в массив, а из него формировать строку регулярного выражения. Делаем так же массив одинаковых символов кириллицы и латиницы и заменяем через preg_replace:

$letter_cyr[] = "/а/"; $letter_lat[] = "[аa]";
$letter_cyr[] = "/л/"; $letter_lat[] = "[". preg_quote("л/\"). "]";
$letter_cyr[] = "/к/"; $letter_lat[] = "([kк]/\/<)";

Последний вариант - буква к в виде "/<". Кстати, можно вместо такого массива кода держать файл со строками, разделёнными табуляторами. Но вернёмся к выражению:

"[cс][yу]([kк]/\/<)[aа]/[bб][л\/\\][Rя][Dд][ьb]/[mм][yу][Dд][aа]([kк]/\/<)"

Почти все символы имеют латинский аналог. По-моему, этого достаточно, чтобы отказаться от такой затеи. Нет? Пойдём дальше. Перед тем, как заменять русские символы на комбинации, предусмотим возможность ввода слова через точки, тире, подчёркивания или пробелы:

$word = preg_replace("/./", "\\0[^\w]*", $word);

Слова, написанные с ошибками - "блять" - просто внесём в словарь вместе с правильными (кстати, у немецких шифровальщиков во Вторую Мировую Войну проблема была - русские шифровки раскодировались в несколько раз дольше, чем шифровки англичан и французов, потому что наши шифровальщики часто совершали ошибки). Правда, есть ещё возможность написать мат заглавными буквами и разделить его строчными: "БаЛЯТЬ", "МАаНДаАВОШКА" - простор для фантазии богатый, правда? Прикрыть такое уже невозможно - если сделать, скажем

$word = preg_replace("/./", "\\0[^ ]*", $word);

То будет коцать уже приличные слова - как в анекдоте про Вовочку "вообще-то я имел в виду фамилию Хэммингуэй, но ход ваших мыслей мне нравится". Дальше фантазировать можно, но это уже граничит с маразмом. Если дискуссии в вашем форуме говнистые, резалка не поможет. Разве что можно попробовать сделать некоторую разумную проверку сообщения на входе и посылать сообщения модератору с подсветкой подозрительных слов. Однако фильтр может пропустить какое-то слово, а говнюки из форума будут специально маскировать маты в сообщениях, чтобы модератор их не увидел.

Итак, резюмируя всё это и выводя мораль, скажу, что не вижу смысла в такой проверялке матов. Она будет работать ненадёжно. А если матёрые матершинники узнают, что таковая работает, то держитесь крепче - будут маскироваться, искать пробелы в вашем фильтре. Пока никакой алгоритм не может определять лучше человека такие вещи как употребление табуированной лексики или ругань, а в правилах большинства конференций есть так же запрет на личные оскорбления, вызывающее поведение, спам - без модератора всё равно не обойтись

 

Автор: Дмитрий Лебедев

Ссылки по теме

  
Помощь
Задать вопрос
 программы
 обучение
 экзамены
 компьютеры
Бесплатный звонок
ICQ-консультанты
Skype-консультанты

Общая справка
Как оформить заказ
Тарифы доставки
Способы оплаты
Прайс-лист
Карта сайта
 
Бестселлеры
Курсы обучения "Atlassian JIRA - система управления проектами и задачами на предприятии"
Microsoft Windows 10 Профессиональная 32-bit/64-bit. Все языки. Электронный ключ
Microsoft Office для Дома и Учебы 2019. Все языки. Электронный ключ
Курс "Oracle. Программирование на SQL и PL/SQL"
Курс "Основы TOGAF® 9"
Microsoft Office 365 Персональный 32-bit/x64. 1 ПК/MAC + 1 Планшет + 1 Телефон. Все языки. Подписка на 1 год. Электронный ключ
Курс "Нотация BPMN 2.0. Ее использование для моделирования бизнес-процессов и их регламентации"
 

О нас
Интернет-магазин ITShop.ru предлагает широкий спектр услуг информационных технологий и ПО.

На протяжении многих лет интернет-магазин предлагает товары и услуги, ориентированные на бизнес-пользователей и специалистов по информационным технологиям.

Хорошие отзывы постоянных клиентов и высокий уровень специалистов позволяет получить наивысший результат при совместной работе.

В нашем магазине вы можете приобрести лицензионное ПО выбрав необходимое из широкого спектра и ассортимента по самым доступным ценам. Наши менеджеры любезно помогут определиться с выбором ПО, которое необходимо именно вам. Также мы проводим учебные курсы. Мы приглашаем к сотрудничеству учебные центры, организаторов семинаров и бизнес-тренингов, преподавателей. Сфера сотрудничества - продвижение бизнес-тренингов и курсов обучения по информационным технологиям.



 

О нас

 
Главная
Каталог
Новинки
Акции
Вакансии
 

Помощь

 
Общая справка
Как оформить заказ
Тарифы доставки
Способы оплаты
Прайс-лист
Карта сайта
 

Способы оплаты

 

Проекты Interface Ltd.

 
Interface.ru   ITShop.ru   Interface.ru/training   Olap.ru   ITnews.ru  
 

119334, г. Москва, ул. Бардина, д. 4, корп. 3
+7 (495) 229-0436   shopadmin@itshop.ru
Проверить аттестат
© ООО "Interface Ltd."
Продаем программное обеспечение с 1990 года