СХД (Система хранения данных)

Системы хранения данных (СХД) представляют собой совокупность аппаратных и программных компонентов, предназначенных для хранения и обработки больших объемов информации. В качестве носителей информации используются жесткие диски, в первую очередь SSD и гибридные решения, объединяющие SSD и HDD накопители в одной СХД.

СХД отличаются от пользовательских жестких дисков своей сложной архитектурой, возможностью сетевого хранения, отдельным программным обеспечением для управления системой хранения, развитыми технологиями резервного копирования, сжатия и виртуализации.

DSS различаются в зависимости от нескольких параметров, выбор которых определяет использование DSS.

Уровни хранения

Блочное хранилище

Блочные запоминающие устройства (BSD) используются как традиционные диски, которые можно форматировать, устанавливать на них ОС и создавать логические диски. Данные хранятся в блоках, что ускоряет операции ввода-вывода. В основном они используются в сетях типа Storage Attached Network (SAN). BSD подходят для высокопроизводительных вычислений, баз данных, хранения больших данных и сред разработки/тестирования. К недостаткам можно отнести сложность настройки и обслуживания, требующих соответствующих знаний, и высокую стоимость.

Файловое хранилище

Данные хранятся в виде файлов, размещенных в каталогах. Этот тип хранилища используется для хранения «холодной» информации, которая не требуется для оперативных вычислений. Системы хранения файлов обычно строят сетевое хранилище (NAS). К недостаткам можно отнести усложнение иерархии папок по мере роста объема данных и постепенное снижение производительности хранилища. Они не подходят для нагрузок, требующих высокой скорости отклика.

Хранилище объектов

Устройства хранения объектов (OSD) предназначены для работы с большими объемами неструктурированных данных размером до петабайт. Информация хранится в виде объектов, каждый из которых имеет метаданные и собственный уникальный идентификатор. OSD обладают высокой масштабируемостью и могут обрабатывать огромные объемы данных, но время извлечения данных может быть меньше, чем в BSD или системах хранения файлов. OSD обычно используются в облачных вычислениях, управлении цифровыми активами и архивировании.

Сетевой доступ

Сетевое хранилище (NAS)

Это файловый сервер, интегрированный в локальную сеть. Доступ к хранилищу осуществляется по таким протоколам, как NFS (в системах UNIX/Linux) или CIFS (в Windows). NAS используется для управления данными файлового типа, требующими одновременного коллективного доступа, например, совместно используемыми документами Word и Excel. NAS работает поверх существующей локальной сети через общие коммутаторы/маршрутизаторы.

Сеть хранения данных (SAN)

Это сеть, предназначенная для использования различных типов хранилищ, таких как дисководы, оптические приводы и ленточные массивы, которые воспринимаются операционной системой как единое логическое хранилище или как сетевой логический диск. Используемые протоколы: iSCSI (IP-SAN) и FibreChannel (FC). Компьютеры подключаются с помощью адаптеров главной шины (HBA). SAN в основном использует хранилище блочного типа.

Различия

Различие между SAN и NAS стало менее жестким по сравнению с началом 2000-х годов, так как с появлением протокола iSCSI производители начали выпускать гибридные решения.

Отказоустойчивость

Для оценки способности системы хранения восстанавливаться после сбоев используются две метрики: RPO и RTO.

RPO (Цель точки восстановления)

Относится к количеству времени между сбоем и созданием последней резервной копии. Это определяет объем данных, которые могут быть потеряны в случае сбоя. Если для RPO установлено значение 12 часов, данные, накопленные за последние 12 часов, могут быть потеряны в случае сбоя хранилища. RPO влияет на выбор технологии аварийного восстановления и зависит от стоимости потери определенного объема данных.

RTO (целевое время восстановления)

Относится к количеству времени, которое требуется для восстановления доступа к системе хранения после сбоя. Значение RTO важно для определения стоимости простоя системы.

Резервное копирование и восстановление

Частота создания резервных копий определяется исходя из конкретных требований и желаемого уровня защиты. То же самое относится и к хранению, при этом рабочие данные и их резервная копия хранятся в территориально распределенных системах хранения, таких как дата-центры, расположенные в разных странах или континентах.

В дополнение к резервным копиям также делаются моментальные снимки, которые представляют собой мгновенные «изображения», используемые для возврата системы к ее последней рабочей версии.

Для минимизации места для хранения резервных копий применяется дедупликация, при которой в резервной копии перезаписываются только измененные данные. Разница между резервными копиями обычно не превышает 2%, поэтому дедупликация помогает экономить место на диске.

Как выбрать сеть хранения данных (SAN)

Первый шаг — понять задачи, которые будет выполнять SAN. Прежде чем обращаться к поставщику или интегратору, вы должны определить несколько основных параметров.

Тип данных

Разные типы данных требуют разной скорости доступа, технологий обработки, сжатия и так далее. Например, SAN для работы с большими медиафайлами отличается от той, которая подходит для работы с транзакционными базами данных или системы, которая будет работать с неструктурированными данными для нейронной сети.

Объем данных

От этого будет зависеть выбор дисков. Иногда может хватить SSD потребительского класса, если известно, что емкость SAN не превысит 300 ГБ в худшем случае и скорость доступа не критична.

Устойчивость

Необходимо учитывать стоимость потери данных за определенный период времени. Это поможет рассчитать RPO и RTO и избежать ненужных затрат на резервное копирование.

Производительность

Если SAN приобретается для нового проекта (сервиса), о загруженности которого трудно судить, лучше всего поговорить с коллегами, которые уже решили эту проблему. Или обратитесь за советом к опытному поставщику или интегратору.