Ассоциация больших данных, HFLabs и Privacy Advocates в январе 2026 года выпустили аналитический доклад «Технологии защищенной обработки данных. Обезличивание». Подготовили краткий пересказ доклада с самыми важными для бизнеса тезисами.
О чем говорится в докладе
Цель исследования — помочь бизнесу сориентироваться в методах обезличивания персональных данных (ПД) и правильно выстроить процессы. В полном тексте доклада вы найдете:
обзор основных подходов,
примеры применения методов обезличивания,
анализ рисков,
юридические рекомендации,
советы для тех, кто только начинает работу с обезличенными данными или пересматривает процессы маскирования.
Как выбрать методику и сценарий обезличивания
Авторы доклада предлагают несколько шагов:
Определите цели обезличивания. Разберитесь, где, как и для чего будут использоваться замаскированные данные.
Сформулируйте ожидания от баланса полезности и приватности данных.
Проанализируйте особенности систем и интеграционных связей между ними.
Скоординируйте требования внешних и внутренних регуляторов применительно к сценариям пользователей данных.
Выберите сценарий создания безопасного стенда или набора данных с учетом того, как он повлияет на общий уровень безопасности
Важный момент — баланс между максимальной безопасностью данных и сохранением пользы от них в конкретном сценарии. Тут многое зависит от контекста. Данные, которые передаются на обработку за пределы компании (например, для внешней аналитики), должны быть в большей степени безопасными, чем полезными. А если речь о датасетах, которые используются внутри защищенного контура компании, то баланс можно сместить в сторону полезности.
В каких сценариях используются обезличенные данные
Вот частые сценарии использования обезличенных датасетов:
маркетинг и аналитика — сохраняют сегменты и распределения;
анализ рисков в банках;
контроль качества — дают возможность работать с данными, сохраняющими исходные форматы и качество;
обучение моделей — позволяют обучать модели на данных, отражающих смысловые характеристики исследуемой области.
На качество обучения моделей и сбора аналитики могут влиять такие параметры данных как пол, соцдем, родственные связи, страна и оператор в номере телефона, валидность паспортов, ИНН, СНИЛС, адресов, а также очевидные ошибки в данных.
Выбор конкретного метода обезличивания
В исследовании упомянуты методики из списка рекомендаций, приведенных в Приказе Роскомнадзора от 19.06.2025 N140 «Об утверждении требований к обезличиванию персональных данных и методов обезличивания персональных данных».
Метод введения идентификаторов
Исходные значения ПД сохраняются в отдельном справочнике, затем генерируются их идентификаторы. В исходной таблице конкретные значения заменяются на соответствующие им идентификаторы. Варианты: замены на UID или хэши, допустимые к использованию на уровне рекомендаций регулятора.
Метод изменения состава и семантики
Метод построен на искажении значений атрибутов ПД, а также, возможно, частичном обобщении или удалении части сведений. Это достаточно гибкий метод, позволяющий в необходимом объеме сохранить качество и смысл данных. Чтобы соблюсти баланс с безопасностью, важно следить за объемами изменений и уровнем размытия данных.
Метод декомпозиции
При использовании декомпозиции персональные данные разбиваются на отдельные элементы так, что некоторая идентифицирующая их часть может быть удалена, а другая часть перенесена в другое место. Оптимально физическое разделение баз данных, сохраняющих элементы разных категорий.
Чтобы сохранить пользу от данных, этот метод нужно сочетать с псевдонимизацией — созданием сопоставления через карты соответствий. Например, для сквозной аналитики может потребоваться обратное воссоединение набора по исходным идентификаторам и связям после внешней обработки.
Метод перемешивания
Метод основан на перестановке отдельных значений между собой. Его можно применять
в случаях, когда нужно сохранить валидность общего набора данных — например, обобщенных сумм за период или внешних ссылок на фиксированные справочники. При выборе этого метода стоит учесть возможное искажение детальной статистики с сохранением групповой.
Метод обобщения или агрегации ПД
Обобщение представляет собой замену точных значений на более общие категории или диапазоны, затрудняющую идентификацию субъекта. Агрегация (частный случай обобщения) — это объединение отдельных записей в групповые показатели (сумма, среднее, количество и т. д.). В обоих случаях нужно, чтобы в созданных группах было достаточное количество элементов, — это позволит исключить возможность однозначного сопоставления элементов групп с исходными значениями.
Логичный вопрос — можно ли применять все указанные методики или достаточно выбрать одну из них? Эксперты рекомендуют выбирать и комбинировать их самостоятельно, ориентируясь на применимость метода для конкретного вида данных, контекст и безопасность использования.
Как и зачем сохранять консистентность при обезличивании
Консистентность при обезличивании — это единообразие замен для одинаковых исходных данных. Она нужна, например, при обезличивании повторяющихся значений, данных, требующих сквозной аналитики и нескольких интеграционно связанных систем. Представим, что в двух системах банка есть сведения об одном и том же клиенте. Чтобы собрать все данные о нем в аналитическую витрину, атрибуты клиента в разных системах нужно обезличить одинаково.
Другой пример: в исходной системе четко прослеживаются родственные связи между родителями и детьми, проживающими по одному адресу. Если при обезличивании фамилий отчества и адреса будут заменены на разные, неконсистентные, значения, эти связи потеряются.
Есть несколько подходов к сохранению консистентности. Какой применять — зависит от контекста и целей конкретной обработки данных. Чаще всего выбор сводится к использованию таблицы замен или единой «формулы» замен:
— при использовании таблицы замен подобранные пары замен сохраняются. Если исходное значение встречается повторно, в качестве результата возвращается ранее подобранная замена;
— в подходе единой «формулы» замен используется детерминированный генератор псевдослучайных чисел (ГПСЧ). Для инициализации генератора вычисляется значение на основе исходных данных, контекстных параметров и секретов. Семейство ГПСЧ-алгоритмов позволяет отказаться от хранения пар замен, сохраняя при этом консистентность маскирования.
Где применяется обезличивание: сценарии по отраслям
Финансовый сектор
Здесь обезличенные данные нужны для аналитики по основным направлениям бизнеса, тестирования и обучения моделей:
кредитный конвейер: расчет потенциальных рисков;
профиль клиента: churn-анализ, прогнозирование оттока, маркетинговые таргетированные рассылки;
противодействие мошенничеству (anti-fraud): тестирование гипотез по выявлению подозрительных операций;
управление инвестиционными портфелями: выявление устойчивых тенденций и прогнозирование.
Вот пара примеров, как сохранение контекста и смысла в обезличенных данных может повлиять на их использование.
Модель машинного обучения вычисляет продукты, которые уместно предложить подписчикам рассылки. Маркетолог передает на вход модели обезличенные сведения о потребителях, модель их анализирует и подбирает варианты. Результат учитывает, в частности, возраст клиента: взять ипотеку 20-летнему юноше модель посоветует, а пенсионеру — вряд ли. Если замаскировать даты рождения клиентов случайным образом, возраст изменится, и модель будет советовать неподходящие варианты — например, пенсионные вклады вместо кредитов на жилье.
Другой пример: потеря консистентности может стать проблемой, если, например, ИИ-модель учитывает домохозяйства. Представим, что в базе хранятся данные Ивана Петровича Худина и его дочери Ольги Ивановны Худиной. Эту родственную связь легко потерять при обезличивании, если заменить имя отца на «Сергей», а дочь сделать «Васильевной», либо присвоить им разные фамилии. И когда маркетолог отправит модели сведения о клиентах — супругах с детьми, она из-за разницы в отчествах и фамилиях не распознает в этих людях родственников. Как результат — бизнес предложит продукты, которые обычно выбирают бездетные холостяки.
Медицинские исследования и здравоохранение
индивидуальные карточки пациентов и истории болезни — валидация их ведения и анализ;
разработка и тестирование лекарственных препаратов;
редкие заболевания и эпидемии — обмен статистикой, верификация диагноза, второе мнение;
агрегированная аналитика заболеваний по регионам с учетом сохранения социальных и возрастных групп;
исследования и клинические испытания;
телемедицина: сбор анамнеза, второе мнение, массовая валидация поставленных диагнозов;
анализ использования ДМС по возрастным диапазонам и гендеру;
обезличивание данных клиентов по истечению срока согласия обработки ПД.
Рекламные технологии и розничная торговля
анализ потребительского спроса и таргетирования: маркетинговая атрибуция (касание), обмен данными с целью выявления паттернов и зависимостей транзакций от таргетированных предложений;
образование экосистем и апсейл-схем, объединяющих дочерние компании;
рекламные хабы и площадки (агентства): изучение и борьба за спрос, таргетирование и изучение социально-демографических привычек.
Государственные учреждения и органы власти
ведение реестров с возможностью агрегации, сбор статистики,
обращения граждан: анализ, выявление паттернов и сегментов.
Остаются ли обезличенные данные персональными?
Бизнес — оператор ПД — вправе обезличивать имеющиеся у него ПД. Но в результате обезличивания эти данные не утратят статус персональных, поэтому компании будут по-прежнему обязаны соблюдать в отношении них все требования, установленные 152-ФЗ.
Можно ли передавать обезличенные данные?
Одна из серых зон в законодательстве — статус обезличенных ПД при их передаче организации, не имеющей возможности восстановить их связь с прямо или косвенно определенным человеком.
Для оператора, применяющего обезличивание, эти данные продолжают оставаться персональными — на этот счет есть разъяснения от регуляторов, а также прямое указание в самом термине «персональные данные, полученные в результате обезличивания» (ст. 13.1 152-ФЗ). Следовательно, их передача любому третьему лицу должна происходить с учетом требований этого закона, включая наличие правового основания на такую передачу: закон, договор, согласие и т. п.
Компания-получатель, в свою очередь, может не иметь ни возможности, ни цели в определении принадлежности таких данных конкретному человеку. Это ставит вопрос о возможном признании для нее таких данных не имеющими статуса персональных. Но пока однозначного ответа от регулятора нет, в том числе из-за возможных злоупотреблений со стороны недобросовестных участников оборота данных.
Полный текст аналитического доклада «Технологии защищенной обработки данных. Обезличивание» можно прочитать на сайте Ассоциации больших данных. А если хотите задать вопросы об обезличивании данных в вашей компании, пишите нам на ask@hflabs.ru.




