Для паспортов из примера «Фактор» скажет:
- у первого в серии — код несуществующего региона;
- у второго — конфликт между серией и кодом выдавшего подразделения.
В четверг, 28 мая, мы проведем в онлайне открытое демо релизов HFLabs. Подобные мероприятия годами практикуем внутри команды, а теперь приглашаем желающих присоединиться.
Начнем в 18:00. На демо выступят три эксперта из HFLabs и каждый расскажет о фиче, внедрение которой курировал:
Все это с деталями и подробностями, которые обычно мы не выносим наружу. Будет интересно прежде всего тем, кто давно знает HFLabs. Поучаствовать — это как заглянуть за кулисы.
Если интересно, запишитесь в гуглоформе. Рассмотрим заявку и на следующей неделе пришлем ссылку на zoom-конференцию.
А ниже — программа.
Время: 18:00 — 18:30.
Кто выступит: Елена Расторгуева, ответственная за продукт «Фактор».
О чем речь. «Фактор» испокон веков находит некорректные документы, ФИО и емейлы. Но раньше при виде ошибки он просто вставал в стойку: мол, проблема. А почему — иногда и не понять.
Вот два, казалось бы, нормальных паспорта: 02 07 107536 и 45 07 107536 (код выдавшего подразделения — 020-512). Но статус обоих — «на ручную проверку». Что же проверять дата-стюарду?
Поэтому для разных типов данных мы добавили подробнейшие коды качества.
Для паспортов из примера «Фактор» скажет:
Почему полезно. Маркеры качества ускоряют работу дата-стюардов. Те быстрее разбирают ошибки и больше успевают в единицу времени.
А еще маркеры помогут людям, которые анализируют качество данных. Подскажут: что-то у нас слишком много опечаток в ФИО. Или подозрительно часто встречаются пустые серии паспортов. Возможно, пора поставить «Подсказки» по ФИО. И проверить, как на фронте вводят паспорта и почему оттуда приходят пустые серии.
Ключевая мысль. Маркеры качества — совершенно новый уровень детализации ошибок. Внедряйте их поскорее.
Время: 18:30 — 19:00.
Кто выступит: Павел Абдюшев, директор по развитию продуктов HFLabs.
О чем речь. «Серая зона» — это масса похожих карточек, «похожести» которых недостаточно для автоматического слияния. У «серой зоны» есть очень неприятное свойство: из-за неё непонятно, как много у компании клиентов. Сколько среди похожих карточек уникальных людей, а сколько дублей.
Обычно «Серую зону» вручную разбирают дата-стюарды, но это дорого. Поэтому мы задумались, как уменьшить количество похожих карточек, исключив участие человека.
В итоге научили «Единый клиент» искать антидубликаты. Эти карточки формально могут принадлежать одному человеку. Но «Единый клиент» по некоторым признакам понимает, что люди — разные. И убирает записи о них из «серой зоны».
Почему полезно. С антидублями компания лучше понимает, сколько у нее клиентов. «Серая зона» сужается автоматически, а дата-стюарды занимаются действительно сложными кейсами.
Ключевая мысль. Антидубли — новый подход к уменьшению «серой зоны» без дата-стюардов.
Время: 19:00 — 19:30.
Кто выступит: Михаил Берёзин, ответственный за продукт «Единый клиент».
О чем речь. Раньше «Единый клиент» несколько часов перестраивал группы дублей в полной выгрузке. Работу запускали каждую ночь, чтобы проанализировать данные за прошедший день и к утру получить свежие группы дублей.
А теперь мы изменили подход, с которым «Единый клиент» перестраивает группы дубликатов. И ускорили процесс на порядок.
Об этом и расскажет Михаил. Но начнет с более глобального: что вообще такое группы дублей, какие бывают дубли, как с ними работать и в чем бизнес-смысл их группировки.
Почему полезно. Расскажем, как в HFLabs решили сложнейшую инженерную задачу.
Ключевая мысль. Со стороны улучшения выглядят как что-то простое: ну, чуть оптимизировали, молодцы. А на самом деле в «Едином клиенте» произошли тектонические сдвиги.
Если интересны темы, зарегистрируйтесь в гуглодокументе. Мы рассмотрим заявку и на следующей неделе пришлем ссылку на конференцию в Zoom.