1. Концепция маскирования данных
Маскирование данных также известно как маскировка данных. Это технический метод преобразования, изменения или сокрытия конфиденциальных данных, таких как номера мобильных телефонов, номера банковских карт и другая информация, с применением установленных правил и политик маскирования. Этот метод в первую очередь используется для предотвращения прямого использования конфиденциальных данных в ненадёжных средах.
Принцип маскирования данных: маскирование данных должно сохранять исходные характеристики данных, бизнес-правила и релевантность данных, чтобы гарантировать, что последующая разработка, тестирование и анализ данных не будут затронуты маскированием. Необходимо обеспечить согласованность и достоверность данных до и после маскирования.
2. Классификация маскирования данных
Маскировку данных можно разделить на статическую маскировку данных (SDM) и динамическую маскировку данных (DDM).
Статическое маскирование данных (SDM): Для статического маскирования данных требуется создание новой базы данных в непроизводственной среде для изоляции от производственной среды. Конфиденциальные данные извлекаются из производственной базы данных и затем сохраняются в ней. Таким образом, десенсибилизированные данные изолируются от производственной среды, что соответствует бизнес-требованиям и обеспечивает безопасность производственных данных.
Динамическое маскирование данных (DDM): Обычно используется в производственной среде для десенсибилизации конфиденциальных данных в режиме реального времени. Иногда для чтения одних и тех же конфиденциальных данных в разных ситуациях требуются разные уровни маскировки. Например, разные роли и разрешения могут реализовывать разные схемы маскировки.
Приложение для представления данных и маскирования продуктов данных
К таким сценариям в основном относятся внутренние продукты мониторинга данных или рекламные щиты, внешние сервисные продукты данных и отчеты, основанные на анализе данных, такие как бизнес-отчеты и обзоры проектов.
3. Решение для маскирования данных
К распространенным схемам маскировки данных относятся: аннулирование, случайное значение, замена данных, симметричное шифрование, усреднение значения, смещение и округление и т. д.
АннулированиеНедействительность: Под недействительностью понимается шифрование, усечение или сокрытие конфиденциальных данных. Эта схема обычно заменяет реальные данные специальными символами (например, *). Операция проста, но пользователи не могут знать формат исходных данных, что может повлиять на последующее использование данных.
Случайное значение: Случайное значение подразумевает случайную замену конфиденциальных данных (цифры заменяют цифры, буквы заменяют буквы, а символы заменяют символы). Этот метод маскирования в определённой степени гарантирует сохранение формата конфиденциальных данных и облегчает последующее использование данных. Для некоторых значимых слов, таких как имена людей и названия мест, могут потребоваться словари маскирования.
Замена данных: Замена данных похожа на маскировку нулевых и случайных значений, за исключением того, что вместо использования специальных символов или случайных значений маскирующие данные заменяются определенным значением.
Симметричное шифрованиеСимметричное шифрование — это особый метод обратимой маскировки. Он шифрует конфиденциальные данные с помощью ключей и алгоритмов шифрования. Формат шифротекста соответствует исходным данным в логических правилах.
Средний: Схема усреднения часто используется в статистических сценариях. Для числовых данных мы сначала вычисляем их среднее значение, а затем случайным образом распределяем десенсибилизированные значения вокруг среднего, тем самым сохраняя сумму данных постоянной.
Смещение и округление: Этот метод изменяет цифровые данные путём случайного сдвига. Округление со смещением обеспечивает приблизительную аутентичность диапазона, сохраняя при этом безопасность данных, что ближе к реальным данным, чем предыдущие схемы, и имеет большое значение в сценарии анализа больших данных.
Рекомендуемая модельМЛ-НПБ-5660"для маскировки данных
4. Распространенные методы маскировки данных
(1) Статистические методы
Выборка данных и агрегация данных
- Выборка данных: анализ и оценка исходного набора данных путем выбора репрезентативного подмножества набора данных является важным методом повышения эффективности методов деидентификации.
- Агрегация данных: как набор статистических методов (таких как суммирование, подсчет, усреднение, максимум и минимум), применяемых к атрибутам в микроданных, результат является репрезентативным для всех записей в исходном наборе данных.
(2) Криптография
Криптография — распространённый метод снижения или повышения эффективности десенсибилизации. Различные типы алгоритмов шифрования позволяют добиться разного эффекта десенсибилизации.
– Детерминированное шифрование: неслучайное симметричное шифрование. Обычно оно обрабатывает идентификационные данные и может при необходимости расшифровать и восстановить зашифрованный текст, соответствующий исходному идентификатору, но ключ должен быть надёжно защищён.
- Необратимое шифрование: хэш-функция используется для обработки данных, обычно используемых для идентификации. Её невозможно расшифровать напрямую, и необходимо сохранить соответствие. Кроме того, из-за особенностей хэш-функции возможны коллизии данных.
- Гомоморфное шифрование: используется гомоморфный алгоритм шифротекста. Его особенностью является то, что результат операции с шифротекстом совпадает с результатом операции с открытым текстом после расшифровки. Поэтому он широко применяется для обработки числовых полей, но не получил широкого распространения из-за высокой производительности.
(3) Системные технологии
Технология подавления удаляет или скрывает элементы данных, не соответствующие требованиям защиты конфиденциальности, но не публикует их.
- Маскировка: это наиболее распространенный метод десенсибилизации, позволяющий скрыть значение атрибута, например, номер оппонента, удостоверение личности помечается звездочкой или адрес усекается.
- Локальное подавление: относится к процессу удаления определенных значений атрибутов (столбцов), удаления ненужных полей данных;
- Подавление записей: процесс удаления определенных записей (строк), удаление ненужных записей данных.
(4) Технология псевдонимов
Псевдомэннинг — это метод деидентификации, при котором псевдоним заменяет прямой идентификатор (или другой конфиденциальный идентификатор). Методы псевдонимизации создают уникальные идентификаторы для каждого отдельного субъекта информации вместо прямых или конфиденциальных идентификаторов.
- Он может независимо генерировать случайные значения, соответствующие исходному идентификатору, сохранять таблицу сопоставления и строго контролировать доступ к таблице сопоставления.
- Вы также можете использовать шифрование для создания псевдонимов, но при этом необходимо правильно хранить ключ дешифрования;
Эта технология широко используется в случае большого количества независимых пользователей данных, например, OpenID в сценарии открытой платформы, где разные разработчики получают разные OpenID для одного и того же пользователя.
(5) Методы обобщения
Метод генерализации относится к методу деидентификации, который снижает степень детализации выбранных атрибутов в наборе данных и обеспечивает более общее и абстрактное описание данных. Технология генерализации проста в реализации и позволяет защитить аутентичность данных на уровне записей. Она широко используется в информационных продуктах и отчётах.
- Округление: включает в себя выбор базы округления для выбранного атрибута, например, в большую или меньшую сторону, что дает результаты 100, 500, 1К и 10К.
- Методы кодирования сверху и снизу: замена значений выше (или ниже) порогового значения пороговым значением, представляющим верхний (или нижний) уровень, что даёт результат «выше X» или «ниже X».
(6) Методы рандомизации
Технология рандомизации, являясь разновидностью метода деидентификации, подразумевает изменение значения атрибута посредством рандомизации, в результате чего значение после рандомизации отличается от исходного фактического значения. Этот процесс снижает возможность злоумышленника получить значение атрибута из значений других атрибутов в той же записи данных, но влияет на аутентичность полученных данных, что часто встречается в данных производственного тестирования.
Время публикации: 27 сентября 2022 г.