
Уважаемый... кто? Как бизнесу справляться с матерными ФИО
В базах данных иногда встречаются ФИО, от которых краснеет контакт-центр. Часть — редкие настоящие фамилии вроде Тупица или Чмырь. Чаще — результат «творчества» клиентов. Итог один: такие записи портят сервис и создают проблемы бизнесу.
Почему матерные ФИО — проблема для бизнеса
- Нецензурные ФИО несут репутационные риски. Никто не хочет, чтобы СМС- или емейл-рассылка с обращением «Уважаемый...» оказалась на скриншоте в соцсетях
- Затрудняют работу фронта. Сотруднику контакт-центра или отделения неловко обращаться к клиенту по оскорбительному ФИО
- Падает качество данных. Грубые значения портят картину данных и могут затруднить аналитику
Как работает «нецензурный» поиск
Команда «Фактора» добавила в фильтр ФИО специальный маркер SWEAR. Он срабатывает, если в имени, фамилии или отчестве встречается грубое или нецензурное слово или выражение. Это помогает автоматически находить такие случаи и корректно обрабатывать их — либо удалять, либо помечать, либо просто избегать использования в коммуникации.
Маркер ставится сразу в двух местах:
- на все ФИО целиком
- на конкретный компонент (фамилию, имя или отчество), где обнаружено значение
Как система понимает, что такое — плохо
Чтобы находить «творческие» варианты написания, мы используем несколько справочников:
- Справочник грубых выражений. Содержит около 12 тысяч значений. Они выделены из 160 тысяч исходных: мы убрали дубликаты и вложенные формы, оставив только уникальные подстроки. Остальные слова находятся автоматически. Алгоритм понимает разные способы написания: замены букв на цифры («3» вместо «З»), транслитерацию («a» вместо «а»), разделители («Д.е.б.и.л»), дубли букв («Дееебил»)
- Справочник исключений. Здесь хранятся значения, которые не должны помечаться, даже если в них встречается грубая подстрока. Пример: фамилия Шалавеене — в ней есть подстрока «шалав», но это реальное ФИО
- Справочник полных ФИО-исключений. Если реальное ФИО совпадает с грубым словом («Гей Елена Григорьевна»), оно попадает сюда и не получает маркер
А если матерное выражение зашифровано?
Мы учитываем все уловки, на которые хватает фантазии пользователей:
- замену букв на похожие латиницу или цифры («3,14» вместо «пи»)
- спецсимволы («@», «*», «!» вместо букв)
- дублирование и разделители
- комбинированные искажения («Пs1x» → «Псих»)
Если токен полностью совпадает со значением из справочника — маркер ставится. Если совпадает только часть — проверяем, можно ли привести значение к справочному ФИО (с учетом опечаток). Если можно, то маркер не ставится.
Куда дальше
В планах — делать фильтр еще умнее. Чтобы бизнес был уверен, что в базах нет того, что может навредить клиентскому сервису или репутации.
- Будем учитывать азиатские фамилии и слоги по системе Палладия (например, части китайских имен, которые выглядят для нас двусмысленно)
- Пополним справочник редких реальных фамилий
- Будем анализировать контекст и окружение значения, а не только подстроку
Функция доступна в рамках нового фильтра ФИО, подключается по запросу. Если нужна — пишите на ask@hflabs.ru.


