Ассоциация больших данных (АБД) предложила методику для оценки безопасности обезличенных наборов данных, которые компании собирают о своих клиентах. Ее применение может стать основой для отраслевого регулирования, так как она обеспечивает баланс между безопасностью и полезностью данных, считают в АБД. Эксперты полагают, что участники рынка могли бы самостоятельно определять, кому и с какой глубиной обезличивания данные продавать.
Ассоциация больших данных (АБД) и компания HFLabs представили результаты тестирования модели оценки рисков повторной идентификации с использованием продукта для обезличивания данных «Маскировщик». Это инновационное решение HFLabs для умного маскирования персональных данных.
В рамках тестирования специалистами-методологами АБД были смоделированы кибератаки с целью получения персональной информации из обезличенных наборов данных, подготовленных с помощью «Маскировщика» для кейсов «Оценка оттока банковских клиентов (Churn Rate)» и «Маркетинговая атрибуция на независимых наборах».
По результатам атак был осуществлен расчет рисков повторной идентификации, а также подготовлены рекомендации по адаптации параметров маскирования.
Модель оценки рисков повторной идентификации позволяет рассчитать вероятность выделения персональной информации в обезличенном датасете.
По результатам тестирования риск-модель доказала свою работоспособность, а также была дополнена подходами по симуляции атак, которые углубляют понимание рисков повторной идентификации за счет учета рисков выделения и связывания, рассказали представители АБД и HFLabs на презентации результатов работы.
«В ходе эксперимента мы снизили комплексные риски маскированных данных на 97,5% при сохранении их высокого показателя полезности, который составил 71%. Эти результаты подчеркивают эффективность наших методов обезличивания и их способность защищать конфиденциальность данных без ущерба для их аналитической ценности», — отметил исполнительный директор АБД Алексей Нейман.
Риск-модель может стать основой для отраслевого регулирования, так как она обеспечивает баланс между безопасностью и полезностью данных, считают в АБД.
Обезличенные данные могут использоваться бизнесом и государством для решения большого количества задач — от таргетинга рекламы и обучения искусственного интеллекта до выявления оптимального размещения торговых точек и планирования схем городского транспорта. Однако в действующем законодательстве нет четких правил оборота такой информации. Разработанный правительством законопроект об обезличенных данных был принят в первом чтении еще в феврале 2021 года. В первых поправках ко второму чтению этого документа говорилось, что при соблюдении нескольких требований можно использовать обезличенные персональные данные россиян, в том числе для предпринимательской деятельности. Но в последствии Минцифры неоднократно видоизменяло законопроект и до ключевого, второго, чтения он пока не дошел.
В версии законопроекта, представленной в конце 2023 года, предполагалось уже создание государственной информационной системы (ГИС), в которую организации будут передавать обезличенные данные. ГИС будет их агрегировать и предоставлять доступ к ним госорганам.
Эксперты из АБД полагают, что участники рынка могли бы самостоятельно определять, кому и с какой глубиной обезличивания данные продавать, т.к. остаются их владельцами. «Мы предлагаем взамен централизованной системы, когда в рамках только одной ГИС такие данные будут обрабатываться, другую — распределенную — систему, когда участники рынка самостоятельно управляют риском и сами принимают решения, как использовать эти данные», — пояснил руководитель GR-проектов Ассоциации больших данных Марат Тахавиев.
При этом целесообразно измерять риски деобезличивания для каждого конкретного бизнес-кейса, указывают в АБД.
Умное маскирование учитывает пол, возрастную группу, привязку адреса и телефона к региону и многое другое, пояснил технический директор HFLabs Никита Назаров. При этом вопрос безопасного использования таких данных остается ключевым для бизнеса.
«Благодаря совместному проекту с АБД мы смогли доработать продукт и свести риски работы с обезличенными данными к минимуму. Разработка риск-модели и ее валидация — большой шаг к выводу обезличенных данных из серой зоны. Уверен, что этот проект АБД позволит продвинуться на пути к легализации их использования в бизнес-среде», — сказал Никита Назаров.
Фото: Adobe Stock