Что в имени тебе моем? «Фактор» научился работать с редкими ФИО
Наша основа основ — «Фактор» — получил долгожданное обновление алгоритма работы с ФИО. «Фактор» прекрасно разбирал подавляющее большинство имен, но спотыкался на редких и нестандартных. Да, в нашем океане данных это одна капля, но мы хотим уметь всё.
В чем вызов?
Задача «Фактора» — разложить ФИО, пришедшее одной строкой, на фамилию, имя и отчество, а также определить пол. Дальше продукт может делать свою стандартную магию: исправлять опечатки, менять раскладку на правильную, разворачивать уменьшительно-ласкательные имена в полные, удалять дубли и мусор. Но были случаи, которые ставили в тупик не только наш старый фильтр ФИО, но и нас самих.
Иностранные имена и отчества. Фамилии, похожие на отчества. Отчества, похожие на фамилии. Как работать с ними?
Зачем нужен новый алгоритм работы с ФИО?
Если коротко: он просто лучше работает, особенно со сложными и нестандартными именами. Качественнее разбирается с гранулярными (уже разбитыми на части) ФИО, раскладывая их одной строкой. Кроме алгоритмов, мы внедрили обучаемую модель, поэтому новый фильтр — умный и может принимать решения на основе заданных ему кейсов. А еще мы добавили 24 новых маркера для анализа.
Чему мы научили «Фактор»:
Разбирать ФИО без отчества (например, правильно разложим Айгерим Алмазбек кызы),
Не разрывать суффиксы и основное слово (правильно разберем Мехти-заде Назим Ага-оглы),
Понимать фамилии, похожие на отчество, когда пол неоднозначен (Екатерина Александрович теперь получит правильный признак),
Лучше работать с гранулярными ФИО (особенно со сложными типа Стефан Мак Фарлан — правильно поймем, что тут двойная фамилия и нет отчества),
Лучше разбирать повторы и дубли, в том числе в сложных случаях (не будем трогать, например, Ширяева Али Али Абульфазоглы, но поправим Ткачева Владимира Ивановича Владимира Ивановича),
Понимать ошибки раскладки (Cthutq Bdfyjd → Сергей Иванов),
Качественнее работать с инициалами — убирать их, когда не нужны (удалим инициалы у Маркова Анатолия Павловича А П, а вот у О Сун Тхэ — не будем, поймем, что О — это фамилия),
Ну и как раньше: исправлять опечатки, восстанавливать правильный порядок ФИО, удалять мусор.
«Фактор» может самостоятельно исправить ошибки, а может просто подсветить то, в чем сомневается, чтобы дата-стюард помог навести порядок.
Что новый алгоритм даст нашим клиентам?
Мы бьемся за сокращение серой зоны, которую не всегда получается проанализировать и разложить автоматически. Нестандартных имен не так много, но часто их обладатели представляют особый интерес для работы, поэтому нам важно добиться чистоты разбора. Алгоритм упростит работу дата-стюардов: разбирать спорные случаи помогут новые подробные маркеры, подсказывающие, на что «Фактор» просит обратить внимание.
Какие планы?
Рыть дальше: в следующих версиях хотим научить алгоритм удалять уникальный мусор вроде даты рождения, номера договора или счета. А еще — добавить отдельный маркер на нецензурную лексику, научиться «расклеивать» ФИО, написанные без пробела. И ускорить работу «Фактора»: сейчас уже хорошо, но мы знаем, что можем лучше. Всегда. :)