image
Обновления

Что в имени тебе моем? «Фактор» научился работать с редкими ФИО

10.07.2024
2 мин

Наша основа основ — «‎Фактор»‎ — получил долгожданное обновление алгоритма работы с ФИО. «‎Фактор»‎ прекрасно разбирал подавляющее большинство имен, но спотыкался на редких и нестандартных. Да, в нашем океане данных это одна капля, но мы хотим уметь всё.

В чем вызов? 

Задача «‎Фактора»‎ — разложить ФИО, пришедшее одной строкой, на фамилию, имя и отчество, а также определить пол. Дальше продукт может делать свою стандартную магию: исправлять опечатки, менять раскладку на правильную, разворачивать уменьшительно-ласкательные имена в полные, удалять дубли и мусор. Но были случаи, которые ставили в тупик не только наш старый фильтр ФИО, но и нас самих.

Иностранные имена и отчества. Фамилии, похожие на отчества. Отчества, похожие на фамилии. Как работать с ними?

Зачем нужен новый алгоритм работы с ФИО?

Если коротко: он просто лучше работает, особенно со сложными и нестандартными именами. Качественнее разбирается с гранулярными (уже разбитыми на части) ФИО, раскладывая их одной строкой. Кроме алгоритмов, мы внедрили обучаемую модель, поэтому новый фильтр — умный и может принимать решения на основе заданных ему кейсов. А еще мы добавили 24 новых маркера для анализа. 

Чему мы научили «‎Фактор»‎:

  • Разбирать ФИО без отчества (например, правильно разложим Айгерим Алмазбек кызы),

  • Не разрывать суффиксы и основное слово (правильно разберем Мехти-заде Назим Ага-оглы),

  • Понимать фамилии, похожие на отчество, когда пол неоднозначен (Екатерина Александрович теперь получит правильный признак),

  • Лучше работать с гранулярными ФИО (особенно со сложными типа Стефан Мак Фарлан — правильно поймем, что тут двойная фамилия и нет отчества),

  • Лучше разбирать повторы и дубли, в том числе в сложных случаях (не будем трогать, например, Ширяева Али Али Абульфазоглы, но поправим Ткачева Владимира Ивановича Владимира Ивановича),

  • Понимать ошибки раскладки (Cthutq Bdfyjd → Сергей Иванов),

  • Качественнее работать с инициалами — убирать их, когда не нужны (удалим инициалы у Маркова Анатолия Павловича А П, а вот у О Сун Тхэ — не будем, поймем, что О — это фамилия),

  • Ну и как раньше: исправлять опечатки, восстанавливать правильный порядок ФИО, удалять мусор. 

«‎Фактор» может самостоятельно исправить ошибки, а может просто подсветить то, в чем сомневается, чтобы дата-стюард помог навести порядок. 

Что новый алгоритм даст нашим клиентам?

Мы бьемся за сокращение серой зоны, которую не всегда получается проанализировать и разложить автоматически. Нестандартных имен не так много, но часто их обладатели представляют особый интерес для работы, поэтому нам важно добиться чистоты разбора. Алгоритм упростит работу дата-стюардов: разбирать спорные случаи помогут новые подробные маркеры, подсказывающие, на что «‎Фактор»‎ просит обратить внимание. 

Какие планы? 

Рыть дальше: в следующих версиях хотим научить алгоритм удалять уникальный мусор вроде даты рождения, номера договора или счета. А еще — добавить отдельный маркер на нецензурную лексику, научиться «‎расклеивать»‎ ФИО, написанные без пробела. И ускорить работу «‎Фактора»: сейчас уже хорошо, но мы знаем, что можем лучше. Всегда. :)

Обсудить статью
Выбор редакции
image
Полезное
Что представляет собой нормативная база по адресам в России: краткий обзор
Разбираемся, какие документы регулируют использование адресов в России и чем они могут быть полезны IT-специалистам
Татьяна Бунто
27.08.2024
4 мин.
image
Новости
АБД представила результаты тестирования риск-модели деобезличивания
Показали результаты тестирования модели оценки рисков повторной идентификации с использованием продукта для обезличивания данных «Маскировщик».
Алина Соломина
19.06.2024
2 мин.
image
Обновления
Масштабно обновили «Центр управления согласиями» (и внедрили AI)
Внедрили нулевое согласие, доработали визуализацию и сделали интеграцию с GPT.
Тимур Сафиуллин
22.04.2024
1 мин.
image
Новости
HFLabs теперь по-новому работает с интеграторами. Что? Да!
Рады объявить: мы готовы передать часть наших новых продуктов — «коробок» системным интеграторам на дистрибуцию.
Екатерина Илюхина
27.02.2024
1 мин.
image
Полезное
10 самых частых вопросов о «Маскировщике»
Подготовили ответы на вопросы, которые нам чаще всего задают на демо-сессиях и пресейлах по «Маскировщику».
Ольга Сердобинцева
11.09.2023
3 мин.