СХД (Система хранения данных)
Системы хранения данных (СХД) представляют собой совокупность аппаратных и программных компонентов, предназначенных для хранения и обработки больших объемов информации. В качестве носителей информации используются жесткие диски, в первую очередь SSD и гибридные решения, объединяющие SSD и HDD накопители в одной СХД.
СХД отличаются от пользовательских жестких дисков своей сложной архитектурой, возможностью сетевого хранения, отдельным программным обеспечением для управления системой хранения, развитыми технологиями резервного копирования, сжатия и виртуализации.
DSS различаются в зависимости от нескольких параметров, выбор которых определяет использование DSS.
Уровни хранения
Блочное хранилище
Блочные запоминающие устройства (BSD) используются как традиционные диски, которые можно форматировать, устанавливать на них ОС и создавать логические диски. Данные хранятся в блоках, что ускоряет операции ввода-вывода. В основном они используются в сетях типа Storage Attached Network (SAN). BSD подходят для высокопроизводительных вычислений, баз данных, хранения больших данных и сред разработки/тестирования. К недостаткам можно отнести сложность настройки и обслуживания, требующих соответствующих знаний, и высокую стоимость.
Файловое хранилище
Данные хранятся в виде файлов, размещенных в каталогах. Этот тип хранилища используется для хранения «холодной» информации, которая не требуется для оперативных вычислений. Системы хранения файлов обычно строят сетевое хранилище (NAS). К недостаткам можно отнести усложнение иерархии папок по мере роста объема данных и постепенное снижение производительности хранилища. Они не подходят для нагрузок, требующих высокой скорости отклика.
Хранилище объектов
Устройства хранения объектов (OSD) предназначены для работы с большими объемами неструктурированных данных размером до петабайт. Информация хранится в виде объектов, каждый из которых имеет метаданные и собственный уникальный идентификатор. OSD обладают высокой масштабируемостью и могут обрабатывать огромные объемы данных, но время извлечения данных может быть меньше, чем в BSD или системах хранения файлов. OSD обычно используются в облачных вычислениях, управлении цифровыми активами и архивировании.
Сетевой доступ
Сетевое хранилище (NAS)
Это файловый сервер, интегрированный в локальную сеть. Доступ к хранилищу осуществляется по таким протоколам, как NFS (в системах UNIX/Linux) или CIFS (в Windows). NAS используется для управления данными файлового типа, требующими одновременного коллективного доступа, например, совместно используемыми документами Word и Excel. NAS работает поверх существующей локальной сети через общие коммутаторы/маршрутизаторы.
Сеть хранения данных (SAN)
Это сеть, предназначенная для использования различных типов хранилищ, таких как дисководы, оптические приводы и ленточные массивы, которые воспринимаются операционной системой как единое логическое хранилище или как сетевой логический диск. Используемые протоколы: iSCSI (IP-SAN) и FibreChannel (FC). Компьютеры подключаются с помощью адаптеров главной шины (HBA). SAN в основном использует хранилище блочного типа.
Различия
Различие между SAN и NAS стало менее жестким по сравнению с началом 2000-х годов, так как с появлением протокола iSCSI производители начали выпускать гибридные решения.
Отказоустойчивость
Для оценки способности системы хранения восстанавливаться после сбоев используются две метрики: RPO и RTO.
RPO (Цель точки восстановления)
Относится к количеству времени между сбоем и созданием последней резервной копии. Это определяет объем данных, которые могут быть потеряны в случае сбоя. Если для RPO установлено значение 12 часов, данные, накопленные за последние 12 часов, могут быть потеряны в случае сбоя хранилища. RPO влияет на выбор технологии аварийного восстановления и зависит от стоимости потери определенного объема данных.
RTO (целевое время восстановления)
Относится к количеству времени, которое требуется для восстановления доступа к системе хранения после сбоя. Значение RTO важно для определения стоимости простоя системы.
Резервное копирование и восстановление
Частота создания резервных копий определяется исходя из конкретных требований и желаемого уровня защиты. То же самое относится и к хранению, при этом рабочие данные и их резервная копия хранятся в территориально распределенных системах хранения, таких как дата-центры, расположенные в разных странах или континентах.
В дополнение к резервным копиям также делаются моментальные снимки, которые представляют собой мгновенные «изображения», используемые для возврата системы к ее последней рабочей версии.
Для минимизации места для хранения резервных копий применяется дедупликация, при которой в резервной копии перезаписываются только измененные данные. Разница между резервными копиями обычно не превышает 2%, поэтому дедупликация помогает экономить место на диске.
Как выбрать сеть хранения данных (SAN)
Первый шаг — понять задачи, которые будет выполнять SAN. Прежде чем обращаться к поставщику или интегратору, вы должны определить несколько основных параметров.
Тип данных
Разные типы данных требуют разной скорости доступа, технологий обработки, сжатия и так далее. Например, SAN для работы с большими медиафайлами отличается от той, которая подходит для работы с транзакционными базами данных или системы, которая будет работать с неструктурированными данными для нейронной сети.
Объем данных
От этого будет зависеть выбор дисков. Иногда может хватить SSD потребительского класса, если известно, что емкость SAN не превысит 300 ГБ в худшем случае и скорость доступа не критична.
Устойчивость
Необходимо учитывать стоимость потери данных за определенный период времени. Это поможет рассчитать RPO и RTO и избежать ненужных затрат на резервное копирование.
Производительность
Если SAN приобретается для нового проекта (сервиса), о загруженности которого трудно судить, лучше всего поговорить с коллегами, которые уже решили эту проблему. Или обратитесь за советом к опытному поставщику или интегратору.