image
Новости

Научились безопасно пересекать клиентские базы разных компаний

20.07.2022
1 мин

Сделали вместе с компанией Platforma крутую штуку: придумали, как пересекать клиентские базы, не передавая персональные данные. Теперь разные компании могут искать общих клиентов, соблюдая законодательство и не боясь утечек.

С новой технологией партнеры по экосистеме могут пробовать много интересного: вводить общие программы лояльности, делать кросс-промо, строить подробные модели потребления. Например, банк будет охотнее выдавать кредит, зная, что клиент исправно оплачивает сотовую связь у оператора-партнера.

Участниками пилотного проекта стали ВТБ и Ростелеком. С помощью новой технологии мы объединили базы компаний, содержащие в сумме около 250 млн записей о клиентах. Алгоритмы сравнения применимы как для физических, так и для юридических лиц.

Используем сравнение обезличенных хэшей

В первом приближении идея проста. Мы сравниваем в разных базах не чистые данные клиентов, а синтетические идентификаторы. Это наборы фиксированной длины из букв и цифр, которые не являются персданными.

Сначала стороны обмена в два этапа хэшируют информацию, применяя сессионный ключ-секрет. Ключ доступен только владельцам данных. Первый этап хэширования длится до двух дней. Второй — до нескольких часов. Доступно несколько алгоритмов хэширования, в том числе закрепленные в ГОСТах.

Затем хэши передают в федеративный хаб, который сравнивает их и находит пересечения в клиентских базах. Федеративный хаб можно развернуть где угодно или же наладить децентрализованный обмен данными.

Победили разный формат данных из разных источников

Даже внутри одной крупной компании работает множество IT-систем: CRM, биллинги, кредитные портфели, АБС и много чего еще. Информацию там хранят в разном формате с разным набором полей. Но даже не это самая большая беда.

Одни и те же данные в разных системах выглядят по-разному. Самый простой пример: «Наталья» и «Наталия». Для человека очевидно, что эти имена как минимум близки. Но их хэширование даст абсолютно разные идентификаторы. Что уж говорить об адресах, которые все пишут как бог на душу положит.

HFLabs традиционно хорош в решении подобных задачах, справились и с этой. Технология сравнения клиентов включает в себя механизм дедупликации, учитывает синонимы, опечатки, взаимозаменяемые слова, устаревшие наименования населенных пунктов и еще много подобных нюансов.

Дальше мы намерены масштабировать решение и оформить его в полноценный продукт для бизнеса. Это важный шаг к созданию федеративных экосистем, объединяющих разные компании с равными правами.

Обсудить статью
Выбор редакции
image
Полезное
Реалтайм и мультиканальность: 12 вопросов о «Маркетинговом комбайне», которые важны для CRM-маркетологов
Представляем новый инструмент для крупного розничного бизнеса и рассказываем о его фичах, которые помогут маркетингу влет создавать кампании
Елена Данилова
26.11.2024
3 мин.
image
Новости
АБД представила результаты тестирования риск-модели деобезличивания
Показали результаты тестирования модели оценки рисков повторной идентификации с использованием продукта для обезличивания данных «Маскировщик».
Алина Соломина
19.06.2024
2 мин.
image
Обновления
Масштабно обновили «Центр управления согласиями» (и внедрили AI)
Внедрили нулевое согласие, доработали визуализацию и сделали интеграцию с GPT.
Тимур Сафиуллин
22.04.2024
1 мин.
image
Новости
HFLabs теперь по-новому работает с интеграторами. Что? Да!
Рады объявить: мы готовы передать часть наших новых продуктов — «коробок» системным интеграторам на дистрибуцию.
Екатерина Илюхина
27.02.2024
1 мин.
image
Полезное
10 самых частых вопросов о «Маскировщике»
Подготовили ответы на вопросы, которые нам чаще всего задают на демо-сессиях и пресейлах по «Маскировщику».
Ольга Сердобинцева
11.09.2023
3 мин.