article preview
Обновления

Уважаемый... кто? Как бизнесу справляться с матерными ФИО

08.10.2025
2 мин

В базах данных иногда встречаются ФИО, от которых краснеет контакт-центр. Часть — редкие настоящие фамилии вроде Тупица или Чмырь. Чаще — результат «творчества» клиентов. Итог один: такие записи портят сервис и создают проблемы бизнесу.

Почему матерные ФИО — проблема для бизнеса

  • Нецензурные ФИО несут репутационные риски. Никто не хочет, чтобы СМС- или емейл-рассылка с обращением «Уважаемый...» оказалась на скриншоте в соцсетях
  • Затрудняют работу фронта. Сотруднику контакт-центра или отделения неловко обращаться к клиенту по оскорбительному ФИО
  • Падает качество данных. Грубые значения портят картину данных и могут затруднить аналитику

Как работает «нецензурный» поиск

Команда «Фактора» добавила в фильтр ФИО специальный маркер SWEAR. Он срабатывает, если в имени, фамилии или отчестве встречается грубое или нецензурное слово или выражение. Это помогает автоматически находить такие случаи и корректно обрабатывать их — либо удалять, либо помечать, либо просто избегать использования в коммуникации.

Маркер ставится сразу в двух местах:

  • на все ФИО целиком
  • на конкретный компонент (фамилию, имя или отчество), где обнаружено значение

Как система понимает, что такое — плохо

Чтобы находить «творческие» варианты написания, мы используем несколько справочников:

  • Справочник грубых выражений. Содержит около 12 тысяч значений. Они выделены из 160 тысяч исходных: мы убрали дубликаты и вложенные формы, оставив только уникальные подстроки. Остальные слова находятся автоматически. Алгоритм понимает разные способы написания: замены букв на цифры («3» вместо «З»), транслитерацию («a» вместо «а»), разделители («Д.е.б.и.л»), дубли букв («Дееебил»)
  • Справочник исключений. Здесь хранятся значения, которые не должны помечаться, даже если в них встречается грубая подстрока. Пример: фамилия Шалавеене — в ней есть подстрока «шалав», но это реальное ФИО
  • Справочник полных ФИО-исключений. Если реальное ФИО совпадает с грубым словом («Гей Елена Григорьевна»), оно попадает сюда и не получает маркер

А если матерное выражение зашифровано? 

Мы учитываем все уловки, на которые хватает фантазии пользователей:

  • замену букв на похожие латиницу или цифры («3,14» вместо «пи»)
  • спецсимволы («@», «*», «!» вместо букв)
  • дублирование и разделители
  • комбинированные искажения («Пs1x» → «Псих»)

Если токен полностью совпадает со значением из справочника — маркер ставится. Если совпадает только часть — проверяем, можно ли привести значение к справочному ФИО (с учетом опечаток). Если можно, то маркер не ставится.

Куда дальше

В планах — делать фильтр еще умнее. Чтобы бизнес был уверен, что в базах нет того, что может навредить клиентскому сервису или репутации.

  • Будем учитывать азиатские фамилии и слоги по системе Палладия (например, части китайских имен, которые выглядят для нас двусмысленно)
  • Пополним справочник редких реальных фамилий
  • Будем анализировать контекст и окружение значения, а не только подстроку

Функция доступна в рамках нового фильтра ФИО, подключается по запросу. Если нужна — пишите на ask@hflabs.ru.

Выбор редакции