Windows Server 2012 R2 — Дедупликация данных

Дедупликация данных — это более эффективный способ хранения данных. С постоянно растущей потребностью в хранилище в облачных технологиях вы легко можете себе представить объем хранящихся дублированных файлов. Даже дома зачастую имеется несколько копий файлов ISO или виртуальных жестких дисков для хранилища USB и серверов. Из-за хранения множества копий и отсутствия продуманной библиотечной системы понапрасну расходуется много пространства хранения.

Все файлы имеют похожие части, и все они занимают место. Дедупликация данных предоставляет возможность идентификации таких общих порций, создания единственной главной ссылки на диске и затем указания на нее из всех других файлов, которые имеют эту общую порцию.

Хотя компонент Data Deduplication по умолчанию не устанавливается, он спроектирован так, чтобы легко развертываться. Включить Data Deduplication на любом из основных томов данных можно с минимальным влиянием на производительность. Компонент спроектирован так, чтобы не пересекаться с файлами, которые являются новыми или в которые в текущий момент ведется запись. Компонент проверяет каждый час, не появились ли файлы, пригодные для дедупликации.

Выяснение пригодности к дедупликации начинается с файлов, которые существуют более трех дней (эту настройку можно изменить), при этом из процесса всегда исключаются файлы с размером меньше 32 Кбайт, файлы с расширенными атрибутами или зашифрованные файлы.

Дедупликация происходит также в сетевом трафике. К отправляемому или получаемому трафику производится доступ с целью выяснения, может ли в отношении него быть проведена дедупликация, потенциально сокращая объем этого трафика.

Тем не менее, есть несколько моментов , о которых следует знать перед тем, как продолжить. Дедупликация поддерживается только на томах NTFS, и ее невозможно выполнить на загрузочном или системном диске. В Windows Server 2012 она не может использоваться с томами CSV, живыми виртуальными машинами или базами данных SQL. В Windows Server 2012 R2 вы можете выполнять дедупликацию файлов VHD и VHDX, в сценариях VDI.

Конфигурирование дедупликации данных с помощью PowerShell

Для начала понадобится добавить компонент Data Deduplication:

Add-WindowsFeature FS-Data-Deduplication

Затем его можно конфигурировать через диспетчер серверов или PowerShell. Рассмотрим, как работать с дедупликацией в PowerShell.

1. Чтобы включить дедупликацию для тома E:\, воспользуйтесь следующим синтаксисом:

Enable-DedupVolume E:\

В выводе в первом столбце можно увидеть значение true, это означает, что дедупликация данных работает. Теперь можно выяснить, какую экономию она обеспечивает.

2. Запустите командлет Get-DedupStatus

Вы можете скопировать два одинаковых файла под разными именами в папку E:\Test на дедуплицированном томе. Для того, чтобы не ждать три дня в ожидании дедупликации, воспользуемся командлетом Start-DedupJob. Синтаксис командлета Start-DedupJob выглядит так:

Start-DedupJob -Type Optimization -Volume E:

Дедупликация была запущена по ручному графику и имеет статус Queued (В очереди). При желании ее можно ускорить.

4. В окне планировщика задач выберите папку Task Scheduler Library \ Microsoft \ Windows \ Deduplication (Библиотека планировщика задач \ Microsoft \ Windows \ Дедупликация). В ней располагаются три задания:

  • BackgroundOptimization
  • WeeklyGarbageCollection
  • WeeklyScrubbing

Запустите задание BackgroundOptimization.

5. В окне PowerShell запустите командлет Get-DedupJob. В выводе командлета видно, сколько уже было сэкономлено, а также прогресс выполнения дедупликации.

6. Посмотрите свойства папки E:\Test, обратите внимание на разницу между значениями Size (Размер) и Size on disk (Размер на диске). Итак, вы увидели дедупликацию данных в действии. Но куда делись данные?

7. Запустите командлет Get-DedupMetadata, чтобы просмотреть информацию о хранилище фрагментов.

Задание планировщика GarbageCollection

По умолчанию задание GarbageCollection сконфигурировано на запуск еженедельно, но при необходимости его можно инициировать вручную. Задание GarbageCollection очищает хранилище фрагментов, удаляя неиспользуемые фрагменты, что освобождает дисковое пространство. Чтобы вручную инициировать сборку мусора, запустите командлет Start-DedupJob следующим образом:

Start-Dedupjob -Type GarbageCollection -volume E:

Это поставит задание в очередь на выполнение во время простоя системы; в качестве альтернативы можно принудительно ускорить его выполнение в планировщике задач. Вы можете удалить скопированные файлы из папки E:\Test и запустить это задание, чтобы увидеть, как уменьшится размер хранилища фрагментов.

1 комментарий к записи “Windows Server 2012 R2 — Дедупликация данных

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *