Поиск дубликатов в мастер-системах клиентских данных
Чтобы построить «золотую» карточку клиента, нужно для начала понять, из каких «кирпичей» эту карточку собрать. То есть найти похожие записи — те, что описывают одного и того же человека.
Это непростая задача, и главное здесь — нащупать равновесие. Если правила поиска дубликатов сделать слишком мягкими, можно объединить разных людей и получить «кентавра». Если же слишком перестраховаться, толку от мастер-системы не получишь — в базе останется полно дублей.
О чем пойдет речь на вебинаре
Мы поговорили о тонкостях выявления записей-дубликатов:
- почему не все дубликаты одинаково полезны и что такое «серая» зона;
- что делать с дубликатами, по которым не удалось принять автоматическое решение;
- как объединять карточки, когда кажется, что в них совсем мало данных;
- как искать похожие карточки среди десятков миллионов записей за часы, а не дни.
Спикер готовил доклад, опираясь на реальные проекты HFLabs, боль и каждодневные задачи. Он расскажет, как все работает в жизни, а не в маркетинговых материалах мастер-систем.
Кому будет полезно
Вебинар пригодится архитекторам, дата-инженерам, аналитикам, специалистам по безопасности информации. И всем, кто хочет разобраться в сложностях работы с клиентскими данными.