Что такое технология и решение маскирования данных в Network Packet Broker?

1. Концепция маскировки данных

Маскировка данных также известна как маскировка данных. Это технический метод преобразования, изменения или сокрытия конфиденциальных данных, таких как номер мобильного телефона, номер банковской карты и другая информация, когда мы задали правила и политики маскировки. Этот метод в основном используется для предотвращения прямого использования конфиденциальных данных в ненадежных средах.

Принцип маскирования данных: маскирование данных должно сохранять исходные характеристики данных, бизнес-правила и релевантность данных, чтобы гарантировать, что последующая разработка, тестирование и анализ данных не будут затронуты маскированием. Обеспечьте согласованность и достоверность данных до и после маскирования.

2. Классификация маскировки данных

Маскировку данных можно разделить на статическую маскировку данных (SDM) и динамическую маскировку данных (DDM).

Статическое маскирование данных (SDM): Статическое маскирование данных требует создания новой базы данных непроизводственной среды для изоляции от производственной среды. Конфиденциальные данные извлекаются из производственной базы данных и затем сохраняются в непроизводственной базе данных. Таким образом, десенсибилизированные данные изолируются от производственной среды, что соответствует потребностям бизнеса и обеспечивает безопасность производственных данных.

СДМ

Динамическое маскирование данных (DDM): Обычно используется в производственной среде для десенсибилизации конфиденциальных данных в реальном времени. Иногда для чтения одних и тех же конфиденциальных данных в разных ситуациях требуются разные уровни маскировки. Например, разные роли и разрешения могут реализовывать разные схемы маскировки.

ДДМ

Приложение для маскировки данных и отчетов по данным

К таким сценариям в основном относятся внутренние продукты мониторинга данных или рекламные щиты, внешние сервисные продукты данных и отчеты, основанные на анализе данных, такие как бизнес-отчеты и обзоры проектов.

маскировка продукта для предоставления данных

3. Решение для маскировки данных

К распространенным схемам маскировки данных относятся: аннулирование, случайное значение, замена данных, симметричное шифрование, усреднение значения, смещение и округление и т. д.

Аннулирование: Недействительность относится к шифрованию, усечению или сокрытию конфиденциальных данных. Эта схема обычно заменяет реальные данные специальными символами (например, *). Операция проста, но пользователи не могут знать формат исходных данных, что может повлиять на последующие приложения данных.

Случайное значение: Случайное значение относится к случайной замене конфиденциальных данных (цифры заменяют цифры, буквы заменяют буквы, а символы заменяют символы). Этот метод маскировки в определенной степени обеспечит формат конфиденциальных данных и облегчит последующее применение данных. Словари маскировки могут потребоваться для некоторых значимых слов, таких как имена людей и названия мест.

Замена данных: Замена данных похожа на маскировку нулевых и случайных значений, за исключением того, что вместо использования специальных символов или случайных значений маскирующие данные заменяются определенным значением.

Симметричное шифрование: Симметричное шифрование — это особый метод обратимой маскировки. Он шифрует конфиденциальные данные с помощью ключей и алгоритмов шифрования. Формат шифротекста соответствует исходным данным в логических правилах.

Средний: Схема усреднения часто используется в статистических сценариях. Для числовых данных мы сначала вычисляем их среднее значение, а затем случайным образом распределяем десенсибилизированные значения вокруг среднего значения, тем самым сохраняя сумму данных постоянной.

Смещение и округление: Этот метод изменяет цифровые данные случайным сдвигом. Округление со смещением обеспечивает приблизительную подлинность диапазона, сохраняя при этом безопасность данных, что ближе к реальным данным, чем предыдущие схемы, и имеет большое значение в сценарии анализа больших данных.

ML-NPB-5660-数据脱敏

Рекомендуемая модель "МЛ-НПБ-5660"для маскировки данных

4. Распространенные методы маскировки данных

(1) Статистические методы

Выборка данных и агрегация данных

- Выборка данных: анализ и оценка исходного набора данных путем выбора репрезентативного подмножества набора данных является важным методом повышения эффективности методов деидентификации.

- Агрегация данных: как набор статистических методов (таких как суммирование, подсчет, усреднение, максимум и минимум), применяемых к атрибутам в микроданных, результат является репрезентативным для всех записей в исходном наборе данных.

(2) Криптография

Криптография является распространенным методом десенсибилизации или повышения эффективности десенсибилизации. Различные типы алгоритмов шифрования могут достигать различных эффектов десенсибилизации.

- Детерминированное шифрование: неслучайное симметричное шифрование. Обычно обрабатывает данные ID и может расшифровывать и восстанавливать шифртекст до исходного ID при необходимости, но ключ должен быть надлежащим образом защищен.

- Необратимое шифрование: хэш-функция используется для обработки данных, которые обычно используются для данных ID. Ее нельзя расшифровать напрямую, и необходимо сохранить соотношение сопоставления. Кроме того, из-за особенности хэш-функции может возникнуть коллизия данных.

- Гомоморфное шифрование: используется гомоморфный алгоритм шифротекста. Его особенностью является то, что результат операции шифротекста совпадает с результатом операции открытого текста после расшифровки. Поэтому он обычно используется для обработки числовых полей, но не получил широкого распространения по причинам производительности.

(3) Системная технология

Технология подавления удаляет или скрывает элементы данных, не соответствующие требованиям защиты конфиденциальности, но не публикует их.

- Маскировка: относится к наиболее распространенному методу десенсибилизации, позволяющему скрыть значение атрибута, например, номер оппонента, удостоверение личности помечается звездочкой или адрес усекается.

- Локальное подавление: относится к процессу удаления определенных значений атрибутов (столбцов), удаления ненужных полей данных;

- Подавление записей: относится к процессу удаления определенных записей (строк), удаления ненужных записей данных.

(4) Технология псевдонимов

Pseudomanning — это метод деидентификации, который использует псевдоним для замены прямого идентификатора (или другого чувствительного идентификатора). Методы псевдонима создают уникальные идентификаторы для каждого отдельного субъекта информации вместо прямых или чувствительных идентификаторов.

- Он может независимо генерировать случайные значения, соответствующие исходному идентификатору, сохранять таблицу сопоставления и строго контролировать доступ к таблице сопоставления.

- Вы также можете использовать шифрование для создания псевдонимов, но при этом необходимо правильно хранить ключ дешифрования;

Эта технология широко используется в случае большого количества независимых пользователей данных, например, OpenID в сценарии открытой платформы, где разные разработчики получают разные OpenID для одного и того же пользователя.

(5) Методы обобщения

Метод генерализации относится к методу деидентификации, который уменьшает гранулярность выбранных атрибутов в наборе данных и обеспечивает более общее и абстрактное описание данных. Технология генерализации проста в реализации и может защитить подлинность данных на уровне записей. Она обычно используется в продуктах данных или отчетах данных.

- Округление: включает выбор основы округления для выбранного атрибута, например, в сторону увеличения или уменьшения, что дает результаты 100, 500, 1K и 10K.

- Методы кодирования сверху и снизу: замена значений выше (или ниже) порогового значения пороговым значением, представляющим верхний (или нижний) уровень, что дает результат «выше X» или «ниже X».

(6) Методы рандомизации

Как своего рода метод деидентификации, технология рандомизации относится к изменению значения атрибута посредством рандомизации, так что значение после рандомизации отличается от исходного реального значения. Этот процесс снижает способность злоумышленника выводить значение атрибута из других значений атрибутов в той же записи данных, но влияет на подлинность полученных данных, что является обычным для данных производственного тестирования.


Время публикации: 27-сен-2022