Дедупликация данных — популярная технология хранения, оптимизирующая объем хранилища. Она устраняет избыточные данные, удаляя дубликаты из набора данных и оставляя только одну копию. Как показано на рисунке ниже, эта технология может значительно сократить потребность в физическом пространстве для хранения, удовлетворяя растущий спрос на хранение данных. Технология дедупликации может принести множество практических преимуществ, в основном, в следующих аспектах:
| (1) | Соответствовать требованиям по рентабельности инвестиций (ROI)/совокупной стоимости владения (TCO); |
| (2) | Быстрый рост объёма данных можно эффективно контролировать; |
| (3) | Увеличьте эффективное пространство для хранения и повысьте эффективность хранения; |
| (4) | Сэкономьте на общих затратах на хранение и управление; |
| (5) | Экономьте пропускную способность сети при передаче данных; |
| (6) | Экономьте на эксплуатационных и ремонтных расходах, таких как аренда помещений, электроснабжение и охлаждение. |
Технология дедупликации широко используется в системах резервного копирования и архивирования данных, поскольку после многократного резервного копирования данных образуется большое количество дубликатов, что делает её очень подходящей для этой технологии. Фактически, технология дедупликации может применяться во многих ситуациях, включая онлайн-данные, данные в режиме ближнего доступа и системы автономного хранения данных. Она может быть реализована в файловых системах, менеджерах томов, NAS и SAN. Дедупликация также может использоваться для восстановления данных после сбоев, передачи и синхронизации данных, поскольку в качестве технологии сжатия данных она может применяться для упаковки данных. Технология дедупликации может помочь многим приложениям сократить объем хранимых данных, сэкономить пропускную способность сети, повысить эффективность хранения, сократить время резервного копирования и снизить затраты.
Дедупликация имеет два основных параметра: коэффициенты дедупликации и производительность. Производительность дедупликации зависит от конкретной технологии реализации, в то время как коэффициент дедупликации определяется характеристиками самих данных и шаблонами приложений, как показано в таблице ниже. В настоящее время поставщики систем хранения данных сообщают о коэффициентах дедупликации в диапазоне от 20:1 до 500:1.
| Высокая частота дедупликации | Низкий уровень дедупликации |
| Данные, созданные пользователем | Данные из мира природы |
| Низкая скорость изменения данных | Высокая скорость изменения данных |
| Справочные данные, неактивные данные | Активные данные |
| Приложение с низкой скоростью изменения данных | Приложение с высокой скоростью изменения данных |
| Полное резервное копирование данных | Инкрементальное резервное копирование данных |
| Долгосрочное хранение данных | Кратковременное хранение данных |
| Широкий спектр применений данных | Небольшой диапазон приложений для работы с данными |
| Непрерывная обработка бизнес-данных | Общая обработка данных для бизнеса |
| Сегментация небольших данных | Сегментация больших данных |
| Расширенная сегментация данных | Сегментация данных фиксированной длины |
| Воспринимаемое содержание данных | Содержание данных неизвестно |
| дедупликация данных о времени | Дедупликация пространственных данных |
Точки внедрения дедупликации
При разработке или применении технологии дедупликации следует учитывать различные факторы, поскольку они напрямую влияют на ее производительность и эффективность.
| (1) | Что | Какие данные подвергаются девзвешиванию? |
| (2) | Когда | Когда же исчезнет лишний вес? |
| (3) | Где | Где же процесс снижения веса? |
| (4) | Как | Как похудеть? |
Технология дедупликации ключей
Процесс дедупликации в системе хранения данных в целом выглядит следующим образом: сначала файл данных делится на набор данных, для каждого блока данных вычисляется отпечаток, а затем на основе хэша отпечатка выполняется поиск ключевых слов, которые указывают на наличие дублирующихся блоков данных; сохраняется только индекс блока данных, в противном случае это означает, что блок данных является единственным новым фрагментом, и создается соответствующая метаинформация. Таким образом, физический файл в системе хранения данных соответствует логическому представлению набора метаданных физического файла. При чтении файла сначала считывается логический файл, затем в соответствии с последовательностью физических файлов извлекается соответствующий блок данных из системы хранения, восстанавливается копия физического файла. Из описанного выше процесса видно, что ключевые технологии дедупликации в основном включают сегментацию блоков данных файла, вычисление отпечатка блока данных и извлечение блока данных.
(1) Сегментация блоков данных файла
(2) Расчет отпечатка блока данных
(3) Извлечение блока данных
Чтобы найти рекомендуемые модели для начала дедупликации сетевых пакетов:
Сетевой пакетный брокер Mylinking™ (NPB) ML-NPB-640048 портов 10GE SFP+ плюс 4 порта 40GE/100GE QSFP28, максимальная скорость 880 Гбит/с.
Сетевой пакетный брокер Mylinking™ (NPB) ML-NPB-56606 портов QSFP28 40GE/100GE плюс 48 портов SFP28 10GE/25GE, максимальная скорость 1,8 Тбит/с.
Сетевой пакетный брокер Mylinking™ (NPB) ML-NPB-506048 портов 10GE SFP+ плюс 2 порта 40GE QSFP, максимальная скорость 560 Гбит/с.
Сетевой пакетный брокер Mylinking™ (NPB) ML-NPB-486048 портов 10GE SFP+, максимальная скорость 480 Гбит/с, расширенные функциональные возможности.
Сетевой пакетный брокер Mylinking™ (NPB) ML-NPB-481048 портов 10GE SFP+, максимальная скорость 480 Гбит/с.
Сетевой пакетный брокер Mylinking™ (NPB) ML-NPB-2410P24 порта SFP+ 10GE, максимальная скорость 240 Гбит/с, функция DPI.
Сетевой пакетный брокер Mylinking™ (NPB) ML-NPB-6400
48 портов 10GE SFP+ плюс 4 порта 40GE/100GE QSFP28, максимальная скорость 880 Гбит/с.
Дата публикации: 18 октября 2022 г.

