article preview
Новости

Научились безопасно пересекать клиентские базы разных компаний

20.07.2022
1 мин
994

Сделали вместе с компанией Platforma крутую штуку: придумали, как пересекать клиентские базы, не передавая персональные данные. Теперь разные компании могут искать общих клиентов, соблюдая законодательство и не боясь утечек.

С новой технологией партнеры по экосистеме могут пробовать много интересного: вводить общие программы лояльности, делать кросс-промо, строить подробные модели потребления. Например, банк будет охотнее выдавать кредит, зная, что клиент исправно оплачивает сотовую связь у оператора-партнера.

Участниками пилотного проекта стали ВТБ и Ростелеком. С помощью новой технологии мы объединили базы компаний, содержащие в сумме около 250 млн записей о клиентах. Алгоритмы сравнения применимы как для физических, так и для юридических лиц.

Используем сравнение обезличенных хэшей

В первом приближении идея проста. Мы сравниваем в разных базах не чистые данные клиентов, а синтетические идентификаторы. Это наборы фиксированной длины из букв и цифр, которые не являются персданными.

Сначала стороны обмена в два этапа хэшируют информацию, применяя сессионный ключ-секрет. Ключ доступен только владельцам данных. Первый этап хэширования длится до двух дней. Второй — до нескольких часов. Доступно несколько алгоритмов хэширования, в том числе закрепленные в ГОСТах.

Затем хэши передают в федеративный хаб, который сравнивает их и находит пересечения в клиентских базах. Федеративный хаб можно развернуть где угодно или же наладить децентрализованный обмен данными.

Победили разный формат данных из разных источников

Даже внутри одной крупной компании работает множество IT-систем: CRM, биллинги, кредитные портфели, АБС и много чего еще. Информацию там хранят в разном формате с разным набором полей. Но даже не это самая большая беда.

Одни и те же данные в разных системах выглядят по-разному. Самый простой пример: «Наталья» и «Наталия». Для человека очевидно, что эти имена как минимум близки. Но их хэширование даст абсолютно разные идентификаторы. Что уж говорить об адресах, которые все пишут как бог на душу положит.

HFLabs традиционно хорош в решении подобных задачах, справились и с этой. Технология сравнения клиентов включает в себя механизм дедупликации, учитывает синонимы, опечатки, взаимозаменяемые слова, устаревшие наименования населенных пунктов и еще много подобных нюансов.

Дальше мы намерены масштабировать решение и оформить его в полноценный продукт для бизнеса. Это важный шаг к созданию федеративных экосистем, объединяющих разные компании с равными правами.

Обсудить статью
Выбор редакции
article placeholderarticle preview
Новости
Сегментация от страны до помещения: новый сервис для работы с геозонами
Найдем подходящую геозону, чтобы бизнес делал точечные предложения новому ЖК и отображал нужные тарифы для разных районов города
Татьяна Бунто
26.02.2025
3 мин.
article placeholderarticle preview
Обновления
Как бизнесу анализировать работу дата-стюардов
В CDI «Единый клиент» теперь есть удобные и наглядные отчеты: сразу видно, кто из сотрудников работает эффективно, а кому нужна помощь
Анастасия Пилипенко
12.02.2025
3 мин.
article placeholderarticle preview
Полезное
9 частых вопросов про курс «Клиентские данные в энтерпрайзе»
3-5 октября снова читаем наш курс. В статье рассказываем, кому он будет полезен и будет ли на занятиях техническое «мясо»
Алина Соломина
02.09.2024
3 мин.
article placeholderarticle preview
Полезное
Пилот «Маркетингового комбайна»: что это и как в него попасть
Объясняем, что такое «Маркетинговый комбайн» и как его протестировать.
Елена Данилова
17.07.2024
2 мин.