1. Концепция маскировки данных
Маскировка данных также известна как маскировка данных. Это технический метод для преобразования, изменения или охвата конфиденциальных данных, таких как номер мобильного телефона, номер банковской карты и другая информация, когда мы дали правила и политики маскировки. Этот метод в основном используется для предотвращения использования конфиденциальных данных непосредственно в ненадежных средах.
Принцип маскировки данных: Маскировка данных должна поддерживать исходные характеристики данных, бизнес -правила и актуальность данных, чтобы гарантировать, что последующая разработка, тестирование и анализ данных не будут влиять на маскирование. Обеспечить согласованность и достоверность данных до и после маскировки.
2. Классификация маскировки данных
Маскирование данных можно разделить на статическое маскирование данных (SDM) и динамическое маскирование данных (DDM).
Статическое маскирование данных (SDM): Статическое маскирование данных требует создания новой базы данных об среде для производства для изоляции от производственной среды. Конфиденциальные данные извлекаются из производственной базы данных, а затем сохраняются в непроизводственной базе данных. Таким образом, десенсибилизированные данные изолированы из производственной среды, которая отвечает потребностям бизнеса и обеспечивает безопасность производственных данных.
Динамическая маскировка данных (DDM): Обычно в производственной среде он используется для чувствительных данных в режиме реального времени. Иногда требуются разные уровни маскировки для чтения одни и те же конфиденциальные данные в разных ситуациях. Например, различные роли и разрешения могут реализовать различные схемы маскирования.
Приложение для отчетности данных и продуктов для данных и данных
Такие сценарии в основном включают в себя внутренние продукты мониторинга данных или рекламный щит, внешние продукты данных обслуживания и отчеты, основанные на анализе данных, таких как бизнес -отчеты и обзор проекта.
3. Решение маскировки данных
Общие схемы маскировки данных включают в себя: недействительность, случайное значение, замена данных, симметричное шифрование, среднее значение, смещение и округление и т. Д.
Недействительность: Недействительность относится к шифрованию, усечению или сокрытию конфиденциальных данных. Эта схема обычно заменяет реальные данные специальными символами (например, *). Операция проста, но пользователи не могут знать формат исходных данных, которые могут повлиять на последующие приложения данных.
Случайное значение: Случайное значение относится к случайной замене конфиденциальных данных (цифры заменяют цифры, буквы заменяют буквы, а символы заменяют символы). Этот метод маскирования обеспечит формат конфиденциальных данных в определенной степени и облегчает последующее приложение данных. Маскирующие словаря могут потребоваться для некоторых значимых слов, таких как имена людей и мест.
Замена данных: Замена данных аналогична маскированию нулевых и случайных значений, за исключением того, что вместо использования особых символов или случайных значений данные маскируются определенным значением.
Симметричное шифрование: Симметричное шифрование - это специальный обратимый метод маскировки. Он шифрует конфиденциальные данные с помощью ключей шифрования и алгоритмов. Формат CipherText согласуется с исходными данными в логических правилах.
Средний: Средняя схема часто используется в статистических сценариях. Для численных данных мы сначала рассчитываем их среднее значение, а затем случайным образом распределяем десенсибилизированные значения вокруг среднего, тем самым сохраняя сумму постоянной данных.
Смещение и округление: Этот метод изменяет цифровые данные с помощью случайного сдвига. Окружение смещения обеспечивает приблизительную подлинность диапазона при сохранении безопасности данных, что ближе к реальным данным, чем в предыдущих схемах, и имеет большое значение в сценарии анализа больших данных.
Рекомендованная модель "ML-NPB-5660"Для маскировки данных
4. Обычно используемые методы маскировки данных
(1). Статистические методы
Выборка данных и агрегация данных
- Выборка данных: анализ и оценка исходного набора данных путем выбора репрезентативного подмножества набора данных является важным методом для повышения эффективности методов отмены идентификации.
- Агрегация данных: в качестве набора статистических методов (таких как суммирование, подсчет, усреднение, максимум и минимум), применяемые к атрибутам в микродатах, результат является репрезентативным для всех записей в исходном наборе данных.
(2). Криптография
Криптография - это общий метод для чувствительности или повышения эффективности десенсибилизации. Различные типы алгоритмов шифрования могут достигать различных эффектов десенсибилизации.
- Детерминированное шифрование: нелудоловое симметричное шифрование. Обычно он обрабатывает данные идентификации и может расшифровать и восстанавливать зашифрованный текст в исходном идентификаторе при необходимости, но ключ должен быть должным образом защищен.
- Необратимое шифрование: функция хэш используется для обработки данных, которые обычно используются для данных идентификатора. Его нельзя напрямую расшифровать, и отношения отображения должны быть сохранены. Кроме того, из -за функции хеш -функции может произойти столкновение данных.
- Гомоморфное шифрование: используется гомоморфный алгоритм зашифрованного текста. Его характеристика состоит в том, что результат операции зашифрованного текста такой же, как и при работе с открытым текстом после расшифровки. Следовательно, он обычно используется для обработки численных полей, но не широко используется по соображениям производительности.
(3). Системная технология
Технология подавления удаляет или защищает элементы данных, которые не соответствуют защите конфиденциальности, но не публикуют их.
- Маскировка: это относится к наиболее распространенному методу десенсибилизации, чтобы замаскировать значение атрибута, например, номер оппонента, идентификационная карта отмечена звездочкой, или адрес усечен.
- Локальное подавление: относится к процессу удаления конкретных значений атрибутов (столбцы), удаления несущественных полей данных;
- Подавление записи: относится к процессу удаления конкретных записей (строк), удаления несущественных записей данных.
(4). Псевдоним технологии
Pseudomanning-это метод де-идентификации, которая использует псевдоним для замены прямого идентификатора (или другого чувствительного идентификатора). Псевдонимные методы создают уникальные идентификаторы для каждого отдельного информационного субъекта, а не прямых или конфиденциальных идентификаторов.
- Он может генерировать случайные значения независимо, чтобы соответствовать исходному идентификатору, сохранить таблицу отображения и строго управлять доступом к таблице отображения.
- Вы также можете использовать шифрование для производства псевдонимов, но необходимо правильно поддерживать ключ дешифрования;
Эта технология широко используется в случае большого количества независимых пользователей данных, таких как OpenID в сценарии Open Platform, где разные разработчики получают разные OpenIDS для одного и того же пользователя.
(5). Методы обобщения
Метод обобщения относится к методике деонициализации, которая снижает детализацию выбранных атрибутов в наборе данных и предоставляет более общее и абстрактное описание данных. Технология обобщения легко реализовать и может защитить подлинность данных уровня записей. Он обычно используется в продуктах данных или отчетах данных.
- Закругление: включает в себя выбор базы округления для выбранного атрибута, такой как криминалистика вверх или вниз, давая результаты 100, 500, 1K и 10K
- Методы верхнего и нижнего кодирования: замените значения выше (или внизу) порог на порог, представляющий верхний (или нижний) уровень, давая результат «выше x» или «ниже x»
(6). Методы рандомизации
В качестве своего рода методика деонициализации технология рандомизации относится к изменению значения атрибута посредством рандомизации, так что значение после рандомизации отличается от исходного реального значения. Этот процесс снижает способность злоумышленника получать значение атрибута из других значений атрибутов в одной и той же записи данных, но влияет на подлинность полученных данных, что является обычным явлением для данных с производственными тестами.
Время публикации: сентябрь-27-2022