Что собой представляет технология и решение маскирования данных в сетевом пакетном брокере?

1. Концепция маскирования данных

Маскирование данных также известно как скрытие информации. Это технический метод преобразования, изменения или сокрытия конфиденциальных данных, таких как номер мобильного телефона, номер банковской карты и другая информация, при наличии заданных правил и политик маскирования. Этот метод в основном используется для предотвращения прямого использования конфиденциальных данных в ненадежных средах.

Принцип маскирования данных: при маскировании данных необходимо сохранять исходные характеристики данных, бизнес-правила и релевантность данных, чтобы гарантировать, что последующая разработка, тестирование и анализ данных не будут затронуты маскированием. Необходимо обеспечить согласованность и достоверность данных до и после маскирования.

2. Классификация с использованием маскирования данных

Маскирование данных можно разделить на статическое маскирование данных (SDM) и динамическое маскирование данных (DDM).

Маскирование статических данных (SDM)Для статического маскирования данных требуется создание новой базы данных вне производственной среды для изоляции от производственной среды. Конфиденциальные данные извлекаются из производственной базы данных и затем сохраняются в базе данных вне производственной среды. Таким образом, обезличенные данные изолируются от производственной среды, что отвечает потребностям бизнеса и обеспечивает безопасность производственных данных.

СДМ

Динамическое маскирование данных (DDM)Обычно он используется в производственной среде для десенсибилизации конфиденциальных данных в режиме реального времени. Иногда для чтения одних и тех же конфиденциальных данных в разных ситуациях требуются разные уровни маскирования. Например, разные роли и права доступа могут использовать разные схемы маскирования.

ДДМ

Приложение для маскирования данных и отчетности по данным и продуктам обработки данных.

К таким сценариям относятся, главным образом, внутренние продукты для мониторинга данных или информационные табло, внешние сервисные продукты для работы с данными, а также отчеты, основанные на анализе данных, такие как бизнес-отчеты и обзоры проектов.

маскирование продуктов для отчетности по данным

3. Решение для маскирования данных

К распространенным схемам маскирования данных относятся: аннулирование, случайное значение, замена данных, симметричное шифрование, среднее значение, смещение и округление и т. д.

АннулированиеАннулирование данных подразумевает шифрование, усечение или сокрытие конфиденциальных данных. В этой схеме обычно реальные данные заменяются специальными символами (например, *). Операция проста, но пользователи не могут знать формат исходных данных, что может повлиять на последующее использование данных.

Случайное значениеСлучайное значение подразумевает случайную замену конфиденциальных данных (цифры заменяются числами, буквы — буквами, а символы — символами). Этот метод маскирования в определенной степени гарантирует сохранение формата конфиденциальных данных и упрощает последующее их использование. Для некоторых значимых слов, таких как имена людей и названия мест, могут потребоваться словари маскирования.

Замена данныхЗамена данных аналогична маскированию нулевых и случайных значений, за исключением того, что вместо использования специальных символов или случайных значений маскирующие данные заменяются конкретным значением.

Симметричное шифрованиеСимметричное шифрование — это особый обратимый метод маскирования. Он шифрует конфиденциальные данные с помощью ключей и алгоритмов шифрования. Формат зашифрованного текста соответствует исходным данным по логическим правилам.

СреднийСхема усреднения часто используется в статистических сценариях. Для числовых данных мы сначала вычисляем их среднее значение, а затем случайным образом распределяем скорректированные значения вокруг среднего, сохраняя таким образом сумму данных постоянной.

Смещение и округлениеЭтот метод изменяет цифровые данные путем случайного сдвига. Округление со смещением обеспечивает приблизительную достоверность диапазона, сохраняя при этом безопасность данных, что делает его ближе к реальным данным, чем предыдущие схемы, и имеет большое значение в сценарии анализа больших данных.

ML-NPB-5660-数据脱敏

Рекомендуемая модельML-NPB-5660"для маскирования данных"

4. Наиболее часто используемые методы маскирования данных

(1). Статистические методы

Выборка данных и агрегирование данных

- Выборка данных: анализ и оценка исходного набора данных путем выбора репрезентативного подмножества данных является важным методом повышения эффективности методов обезличивания.

- Агрегация данных: представляет собой совокупность статистических методов (таких как суммирование, подсчет, усреднение, определение максимума и минимума), применяемых к атрибутам в микроданных; результат является репрезентативным для всех записей в исходном наборе данных.

(2). Криптография

Криптография — распространенный метод снижения или повышения эффективности десенсибилизации. Различные типы алгоритмов шифрования могут достигать различных эффектов десенсибилизации.

- Детерминированное шифрование: неслучайное симметричное шифрование. Обычно обрабатывает идентификационные данные и при необходимости может расшифровать и восстановить зашифрованный текст до исходного идентификатора, но ключ должен быть надлежащим образом защищен.

- Необратимое шифрование: для обработки данных используется хеш-функция, обычно применяемая для идентификационных данных. Расшифровка данных невозможна напрямую, необходимо сохранять соответствие между данными и идентификаторами. Кроме того, из-за особенностей хеш-функции может возникать коллизия данных.

- Гомоморфное шифрование: используется гомоморфный алгоритм шифрования текста. Его особенность заключается в том, что результат операции с шифрованным текстом совпадает с результатом операции с открытым текстом после расшифровки. Поэтому он широко используется для обработки числовых полей, но не получил широкого распространения по соображениям производительности.

(3). Системные технологии

Технология подавления удаляет или скрывает элементы данных, не соответствующие требованиям защиты конфиденциальности, но не публикует их.

- Маскирование: это наиболее распространенный метод десенсибилизации, при котором значение атрибута маскируется, например, номер оппонента, идентификационная карта помечается звездочкой, а адрес усекается.

- Локальное подавление: относится к процессу удаления определенных значений атрибутов (столбцов), удаления несущественных полей данных;

- Подавление записей: относится к процессу удаления определенных записей (строк), удаления несущественных записей данных.

(4). Технология псевдонимов

Псевдоманнинг — это метод деидентификации, при котором псевдоним заменяет прямой идентификатор (или другой конфиденциальный идентификатор). Методы псевдонимизации создают уникальные идентификаторы для каждого отдельного субъекта информации вместо прямых или конфиденциальных идентификаторов.

- Он может независимо генерировать случайные значения, соответствующие исходному идентификатору, сохранять таблицу соответствия и строго контролировать доступ к этой таблице.

— Также можно использовать шифрование для создания псевдонимов, но при этом необходимо правильно хранить ключ расшифровки;

Эта технология широко используется в случаях большого количества независимых пользователей данных, например, OpenID в сценарии открытой платформы, когда разные разработчики получают разные OpenID для одного и того же пользователя.

(5). Методы обобщения

Метод обобщения — это метод деидентификации, который уменьшает детализацию выбранных атрибутов в наборе данных и предоставляет более общее и абстрактное описание данных. Технология обобщения проста в реализации и может защитить подлинность данных на уровне отдельных записей. Она широко используется в продуктах обработки данных или отчетах на основе данных.

- Округление: включает выбор основания округления для выбранного атрибута, например, в большую или меньшую сторону, что дает результаты 100, 500, 1K и 10K.

- Методы верхнего и нижнего кодирования: замена значений выше (или ниже) порогового значения пороговым значением, представляющим верхний (или нижний) уровень, в результате чего получается «выше X» или «ниже X».

(6). Методы рандомизации

Технология рандомизации, как один из методов деидентификации, подразумевает изменение значения атрибута путем рандомизации таким образом, чтобы значение после рандомизации отличалось от исходного реального значения. Этот процесс снижает возможность злоумышленника получить значение атрибута из значений других атрибутов в той же записи данных, но влияет на достоверность полученных данных, что часто встречается в тестовых данных для производственной среды.


Дата публикации: 27 сентября 2022 г.