«Маскировщик» — один из новых продуктов HFLabs. Он обезличивает персональные данные, сохраняя их смысл. Это повышает качество тестирования и упрощает работу с внешними вендорами. С «Маскировщиком» вывести новые решения в прод можно быстрее и с меньшими затратами. А еще наше решение позволяет безопасно настраивать модели машинного обучения.
О том, как работает «Маскировщик», мы уже рассказывали в нашем блоге. А сегодня подготовили ответы на вопросы, которые нам чаще всего задают на демо-сессиях и пресейлах.
Работает маскирование из коробки или в облаке?
Возможны оба варианта.
Мы поставляем «Маскировщик» как коробочное решение. В этом случае оно разворачивается в контуре заказчика и чувствительные данные не покидают компанию.
Но «Маскировщик» умеет работать и в облаке. При таком сценарии он получает запрос с персональными данными, а ответ отдает с обезличенными. Попробовать можно здесь.
Сколько времени занимает маскирование?
На скорость маскирования влияет:
- тип и состав данных. На обезличивание адресов потребуется больше времени, чем на ФИО и номера телефонов;
- выбор алгоритма маскирования. Алгоритмами с упрощенной бизнес-логикой можно маскировать быстрее;
- конфигурация сервера;
- количество нод.
По нашим замерам, маскирование 1 млн записей занимает от 45 секунд до 25 минут в зависимости от типа данных. Конфигурация машины, на которой проводились замеры:
- Модуль ETL: CPU — 2 ядра, RAM — 8 GB.
- Маскировщик: CPU — 6 ядер, RAM — 16 GB, SSD диск (пропорциональный размер маскируемым данным).
- Модуль стандартизации: CPU — 8 ядер, RAM — 24 GB, SSD диск от 40 ГБ.
Как маскируются ФИО?
«Маскировщик» использует для замен данные из наших внутренних справочников имен, отчеств и фамилий. Важная деталь: при обезличивании обязательно учитывается пол и популярность имени (редкие имена остаются редкими). Это значит, что Петр не превращается во Владлена, а Анжелика в Василия.
Кроме того, «Маскировщик» сохраняет семейные взаимосвязи: отчества остаются синхронны с именем.
«Маскировщик» умеет работать с именами, записанными транслитерацией. При маскировании он также использует транслитерацию.
Можно ли замаскировать несколько систем консистентно?
Если «Маскировщик» обезличивает данные из нескольких систем в течение одной сессии, он сохраняет их консистентность. Например, Иваны из всех систем-источников превратятся в Степанов, а Наталии — в Екатерин. То же самое и с телефонами, адресами и остальными типами данных.
Если мы хотим сохранить консистентность данных для нескольких сред, то можно сохранить кэш замен и использовать его для нескольких маскировок, в том числе последовательно на разных стендах. Это бывает важно для тестирования интеграций между несколькими БД.
При желании кэш замен можно не сохранять и маскировать каждый раз по-разному.
Можно ли расшифровать замаскированные данные?
Если коротко, то нет. Во время сессии файл замен хранится в зашифрованном виде. Невозможно проследить связь между данными в реальной и замаскированной базе.
Связаны ли «Маскировщик» и «Единый клиент»?
В разработке алгоритмов маскирования мы опирались на полученный опыт в работе с данными и их качеством, в рамках 18-ти летней истории развития нашего флагманского продукта CDI «Единый клиент».
Если компания использует «Единый клиент», это ускоряет процесс обезличивания, так как «Маскировщик» сразу получает стандартизированные данные.
Но «Маскировщик» работает и без «Единого клиента» — с источниками с любым составом и происхождением данных. В этом случае он сам стандартизирует их перед их обезличиванием.
С какими СУБД работает «Маскировщик»?
В коробочное решение входят PostgreSQL, Oracle, MS SQL.
Готовы коннекторы для:
- MySql,
- SQLite,
- Clickhouse,
- GreenPlum.
Если вашей СУБД нет в списке, то напишем коннектор и для нее.
Можно ли использовать «Маскировщик» для формирования тестовых сред?
Да, можно. В этом случае чувствительные данные мы маскируем, а остальные просто переносим. Так заказчик получает полноценную безопасную среду для тестирования.
Где уже работает «Маскировщик»?
На старте «Маскировщик» был опробован в банке «Открытие», где нужно было замаскировать данные клиентов из определенного сегмента. 1 млн записей был обработан за три минуты. База клиентов в результате обезличивания сохранила консистентность и семантические особенности.
Затем «Маскировщик» был использован в одной из страховых организаций. Сейчас идет внедрение «Маскировщика» в компании «Платферрум». Также мы проводим пилотные проекты еще в двух крупных банках.
Как именно проходят пилотные проекты и внедрение?
Для пилотного проекта подбираем наиболее показательные объекты по набору данных. Можем взять несколько систем, чтобы проверить консистентность маскирования между БД.
При внедрении на первом этапе согласуем с заказчиком модель маскирования. Обсуждаем, какие поля и каким способом лучше обезличить (с точки зрения наших рекомендаций и бизнес-сценариев организации). Затем прорабатываем комплексные варианты интеграции в процессы компании.
После внедрения заказчик может самостоятельно добавлять появляющиеся новые объекты и поля, а мы, если нужно, проконсультируем. При необходимости выполним работы под ключ по добавлению систем или внесению изменений.
Оставьте заявку, и мы проведем пилотную обработку ваших данных.