article preview
Обновления

Что в имени тебе моем? «Фактор» научился работать с редкими ФИО

10.07.2024
2 мин
2727

Наша основа основ — «‎Фактор»‎ — получил долгожданное обновление алгоритма работы с ФИО. «‎Фактор»‎ прекрасно разбирал подавляющее большинство имен, но спотыкался на редких и нестандартных. Да, в нашем океане данных это одна капля, но мы хотим уметь всё.  

В чем вызов?  

Задача «‎Фактора»‎ — разложить ФИО, пришедшее одной строкой, на фамилию, имя и отчество, а также определить пол. Дальше продукт может делать свою стандартную магию: исправлять опечатки, менять раскладку на правильную, разворачивать уменьшительно-ласкательные имена в полные, удалять дубли и мусор. Но были случаи, которые ставили в тупик не только наш старый фильтр ФИО, но и нас самих.

Иностранные имена и отчества. Фамилии, похожие на отчества. Отчества, похожие на фамилии. Как работать с ними?

Зачем нужен новый алгоритм работы с ФИО?

Если коротко: он просто лучше работает, особенно со сложными и нестандартными именами. Качественнее разбирается с гранулярными (уже разбитыми на части) ФИО, раскладывая их одной строкой. Кроме алгоритмов, мы внедрили обучаемую модель, поэтому новый фильтр — умный и может принимать решения на основе заданных ему кейсов. А еще мы добавили 24 новых маркера для анализа. 

Чему мы научили «‎Фактор»‎:

  • Разбирать ФИО без отчества (например, правильно разложим Айгерим Алмазбек кызы),

  • Не разрывать суффиксы и основное слово (правильно разберем Мехти-заде Назим Ага-оглы),

  • Понимать фамилии, похожие на отчество, когда пол неоднозначен (Екатерина Александрович теперь получит правильный признак),

  • Лучше работать с гранулярными ФИО (особенно со сложными типа Стефан Мак Фарлан — правильно поймем, что тут двойная фамилия и нет отчества),

  • Лучше разбирать повторы и дубли, в том числе в сложных случаях (не будем трогать, например, Ширяева Али Али Абульфазоглы, но поправим Ткачева Владимира Ивановича Владимира Ивановича),

  • Понимать ошибки раскладки (Cthutq Bdfyjd → Сергей Иванов),

  • Качественнее работать с инициалами — убирать их, когда не нужны (удалим инициалы у Маркова Анатолия Павловича А П, а вот у О Сун Тхэ — не будем, поймем, что О — это фамилия),

  • Ну и как раньше: исправлять опечатки, восстанавливать правильный порядок ФИО, удалять мусор. 

«‎Фактор» может самостоятельно исправить ошибки, а может просто подсветить то, в чем сомневается, чтобы дата-стюард помог навести порядок. 

Что новый алгоритм даст нашим клиентам?

Мы бьемся за сокращение серой зоны, которую не всегда получается проанализировать и разложить автоматически. Нестандартных имен не так много, но часто их обладатели представляют особый интерес для работы, поэтому нам важно добиться чистоты разбора. Алгоритм упростит работу дата-стюардов: разбирать спорные случаи помогут новые подробные маркеры, подсказывающие, на что «‎Фактор»‎ просит обратить внимание. 

Какие планы? 

Рыть дальше: в следующих версиях хотим научить алгоритм удалять уникальный мусор вроде даты рождения, номера договора или счета. А еще — добавить отдельный маркер на нецензурную лексику, научиться «‎расклеивать»‎ ФИО, написанные без пробела. И ускорить работу «‎Фактора»: сейчас уже хорошо, но мы знаем, что можем лучше. Всегда. :)

Обсудить статью
Выбор редакции
article placeholderarticle preview
Новости
Сегментация от страны до помещения: новый сервис для работы с геозонами
Найдем подходящую геозону, чтобы бизнес делал точечные предложения новому ЖК и отображал нужные тарифы для разных районов города
Татьяна Бунто
26.02.2025
3 мин.
article placeholderarticle preview
Обновления
Как бизнесу анализировать работу дата-стюардов
В CDI «Единый клиент» теперь есть удобные и наглядные отчеты: сразу видно, кто из сотрудников работает эффективно, а кому нужна помощь
Анастасия Пилипенко
12.02.2025
3 мин.
article placeholderarticle preview
Полезное
9 частых вопросов про курс «Клиентские данные в энтерпрайзе»
3-5 октября снова читаем наш курс. В статье рассказываем, кому он будет полезен и будет ли на занятиях техническое «мясо»
Алина Соломина
02.09.2024
3 мин.
article placeholderarticle preview
Полезное
Пилот «Маркетингового комбайна»: что это и как в него попасть
Объясняем, что такое «Маркетинговый комбайн» и как его протестировать.
Елена Данилова
17.07.2024
2 мин.