Научились безопасно пересекать клиентские базы разных компаний

20.07.2022

1 мин

1279

Сделали вместе с компанией Platforma крутую штуку: придумали, как пересекать клиентские базы, не передавая персональные данные. Теперь разные компании могут искать общих клиентов, соблюдая законодательство и не боясь утечек.

С новой технологией партнеры по экосистеме могут пробовать много интересного: вводить общие программы лояльности, делать кросс-промо, строить подробные модели потребления. Например, банк будет охотнее выдавать кредит, зная, что клиент исправно оплачивает сотовую связь у оператора-партнера.

Участниками пилотного проекта стали ВТБ и Ростелеком. С помощью новой технологии мы объединили базы компаний, содержащие в сумме около 250 млн записей о клиентах. Алгоритмы сравнения применимы как для физических, так и для юридических лиц.

Используем сравнение обезличенных хэшей

В первом приближении идея проста. Мы сравниваем в разных базах не чистые данные клиентов, а синтетические идентификаторы. Это наборы фиксированной длины из букв и цифр, которые не являются персданными.

Сначала стороны обмена в два этапа хэшируют информацию, применяя сессионный ключ-секрет. Ключ доступен только владельцам данных. Первый этап хэширования длится до двух дней. Второй — до нескольких часов. Доступно несколько алгоритмов хэширования, в том числе закрепленные в ГОСТах.

Затем хэши передают в федеративный хаб, который сравнивает их и находит пересечения в клиентских базах. Федеративный хаб можно развернуть где угодно или же наладить децентрализованный обмен данными.

Победили разный формат данных из разных источников

Даже внутри одной крупной компании работает множество IT-систем: CRM, биллинги, кредитные портфели, АБС и много чего еще. Информацию там хранят в разном формате с разным набором полей. Но даже не это самая большая беда.

Одни и те же данные в разных системах выглядят по-разному. Самый простой пример: «Наталья» и «Наталия». Для человека очевидно, что эти имена как минимум близки. Но их хэширование даст абсолютно разные идентификаторы. Что уж говорить об адресах, которые все пишут как бог на душу положит.

HFLabs традиционно хорош в решении подобных задачах, справились и с этой. Технология сравнения клиентов включает в себя механизм дедупликации, учитывает синонимы, опечатки, взаимозаменяемые слова, устаревшие наименования населенных пунктов и еще много подобных нюансов.

Дальше мы намерены масштабировать решение и оформить его в полноценный продукт для бизнеса. Это важный шаг к созданию федеративных экосистем, объединяющих разные компании с равными правами.