1. Концепция маскировки данных
Маскирование данных также известно как маскирование данных. Это технический метод преобразования, изменения или сокрытия конфиденциальных данных, таких как номер мобильного телефона, номер банковской карты и другая информация, если мы установили правила и политику маскировки. Этот метод в основном используется для предотвращения непосредственного использования конфиденциальных данных в ненадежных средах.
Принцип маскировки данных. Маскирование данных должно сохранять исходные характеристики данных, бизнес-правила и актуальность данных, чтобы гарантировать, что маскирование не повлияет на последующую разработку, тестирование и анализ данных. Обеспечьте согласованность и достоверность данных до и после маскировки.
2. Классификация маскирования данных
Маскирование данных можно разделить на статическое маскирование данных (SDM) и динамическое маскирование данных (DDM).
Статическое маскирование данных (SDM): Статическое маскирование данных требует создания новой базы данных непроизводственной среды для изоляции от производственной среды. Конфиденциальные данные извлекаются из производственной базы данных, а затем сохраняются в непроизводственной базе данных. Таким образом, десенсибилизированные данные изолируются от производственной среды, что отвечает потребностям бизнеса и обеспечивает безопасность производственных данных.
Динамическое маскирование данных (DDM): обычно используется в производственной среде для снижения чувствительности конфиденциальных данных в режиме реального времени. Иногда для чтения одних и тех же конфиденциальных данных в разных ситуациях требуются разные уровни маскировки. Например, разные роли и разрешения могут реализовывать разные схемы маскировки.
Приложение для создания отчетов и маскировки данных
Такие сценарии в основном включают продукты или рекламные щиты для внутреннего мониторинга данных, продукты внешних сервисных данных и отчеты, основанные на анализе данных, такие как бизнес-отчеты и обзор проекта.
3. Решение для маскировки данных
Общие схемы маскировки данных включают в себя: аннулирование, случайное значение, замену данных, симметричное шифрование, среднее значение, смещение и округление и т. д.
Аннулирование: Аннулирование означает шифрование, усечение или сокрытие конфиденциальных данных. В этой схеме реальные данные обычно заменяются специальными символами (например, *). Операция проста, но пользователи не могут знать формат исходных данных, что может повлиять на последующие приложения данных.
Случайное значение: Случайное значение относится к случайной замене конфиденциальных данных (цифры заменяют цифры, буквы заменяют буквы, а символы заменяют символы). Этот метод маскировки в определенной степени обеспечит формат конфиденциальных данных и облегчит последующее применение данных. Для некоторых значимых слов, таких как имена людей и мест, могут потребоваться маскировочные словари.
Замена данных: Замена данных аналогична маскировке нулевых и случайных значений, за исключением того, что вместо использования специальных символов или случайных значений маскирующие данные заменяются определенным значением.
Симметричное шифрование: Симметричное шифрование — это особый обратимый метод маскировки. Он шифрует конфиденциальные данные с помощью ключей и алгоритмов шифрования. Формат зашифрованного текста согласуется с исходными данными в логических правилах.
Средний: Средняя схема часто используется в статистических сценариях. Для числовых данных мы сначала вычисляем их среднее значение, а затем случайным образом распределяем десенсибилизированные значения вокруг среднего значения, сохраняя таким образом сумму данных постоянной.
Смещение и округление: Этот метод изменяет цифровые данные случайным сдвигом. Округление смещения обеспечивает приблизительную достоверность диапазона при сохранении безопасности данных, что ближе к реальным данным, чем в предыдущих схемах, и имеет большое значение в сценарии анализа больших данных.
Рекомендуемая модель»МЛ-НПБ-5660"для маскировки данных
4. Часто используемые методы маскировки данных
(1). Статистические методы
Выборка данных и агрегирование данных
- Выборка данных: анализ и оценка исходного набора данных путем выбора репрезентативного подмножества набора данных является важным методом повышения эффективности методов деидентификации.
- Агрегация данных: как совокупность статистических методов (таких как суммирование, подсчет, усреднение, максимум и минимум), применяемых к атрибутам в микроданных, результат репрезентативен для всех записей в исходном наборе данных.
(2). Криптография
Криптография является распространенным методом снижения чувствительности или повышения эффективности десенсибилизации. Различные типы алгоритмов шифрования могут достигать разных эффектов десенсибилизации.
- Детерминированное шифрование: неслучайное симметричное шифрование. Обычно он обрабатывает данные идентификатора и при необходимости может расшифровать и восстановить зашифрованный текст до исходного идентификатора, но ключ должен быть должным образом защищен.
- Необратимое шифрование: для обработки данных используется хеш-функция, которая обычно используется для идентификационных данных. Его нельзя расшифровать напрямую, и связь сопоставления необходимо сохранить. Кроме того, из-за особенности хеш-функции может возникнуть коллизия данных.
- Гомоморфное шифрование: используется гомоморфный алгоритм зашифрованного текста. Его особенностью является то, что результат операции с зашифрованным текстом такой же, как и результат операции с открытым текстом после расшифровки. Поэтому он обычно используется для обработки числовых полей, но не получил широкого распространения из соображений производительности.
(3). Системные технологии
Технология подавления удаляет или защищает элементы данных, которые не соответствуют требованиям защиты конфиденциальности, но не публикует их.
- Маскирование: относится к наиболее распространенному методу десенсибилизации для маскировки значения атрибута, такого как номер оппонента, идентификационная карта помечена звездочкой или адрес усечен.
- Локальное подавление: относится к процессу удаления определенных значений атрибутов (столбцов), удалению несущественных полей данных;
- Подавление записей: относится к процессу удаления определенных записей (строк), удалению несущественных записей данных.
(4). Псевдоним Технология
Псевдоманнинг — это метод деидентификации, при котором псевдоним используется для замены прямого идентификатора (или другого конфиденциального идентификатора). Методы псевдонимов создают уникальные идентификаторы для каждого отдельного субъекта информации вместо прямых или конфиденциальных идентификаторов.
- Он может генерировать случайные значения независимо, чтобы соответствовать исходному идентификатору, сохранять таблицу сопоставления и строго контролировать доступ к таблице сопоставления.
- Вы также можете использовать шифрование для создания псевдонимов, но необходимо правильно хранить ключ дешифрования;
Эта технология широко используется в случае большого количества независимых пользователей данных, например OpenID в сценарии открытой платформы, когда разные разработчики получают разные OpenID для одного и того же пользователя.
(5). Методы обобщения
Метод генерализации относится к методу деидентификации, который снижает степень детализации выбранных атрибутов в наборе данных и обеспечивает более общее и абстрактное описание данных. Технология обобщения проста в реализации и может защитить подлинность данных на уровне записей. Он обычно используется в продуктах данных или отчетах о данных.
- Округление: включает выбор базы округления для выбранного атрибута, например, в сторону повышения или понижения, с получением результатов 100, 500, 1 КБ и 10 КБ.
- Методы кодирования верхнего и нижнего уровня: замените значения выше (или ниже) порогового значения пороговым значением, представляющим верхний (или нижний) уровень, что дает результат «выше X» или «ниже X».
(6). Методы рандомизации
Как разновидность метода деидентификации, технология рандомизации относится к изменению значения атрибута посредством рандомизации, так что значение после рандомизации отличается от исходного реального значения. Этот процесс снижает возможность злоумышленника получить значение атрибута из других значений атрибута в той же записи данных, но влияет на подлинность полученных данных, что характерно для данных производственных испытаний.
Время публикации: 27 сентября 2022 г.