Data Vault

Data Vault — модель хранилища, которая подходит для длительного хранения большого массива разнородных данных.

При размещении данных в Data Vault ставятся временные отметки. С их помощью можно проследить, как со временем менялась хранящаяся информация. Это позволяет использовать такой вид хранилища в системах управления взаимоотношений с клиентами, системах анализа, аудиторских системах и др.

История

Модель хранилища Data Vault была создана Дэном Линстедтом в конце 20 века и стала доступна для разработчиков в 2000 году. Ее создатель описал общую концепцию, правила создания таблиц, способы обработки запросов пользователей и загрузки данных. 13 лет спустя в Data Vault 2.0 появился разбор бесшовной интеграции хранилища, а также его применения в NoSQL, при работе с неструктурированными данными и Big Data.

Основные особенности Data Vault

Модель относится к хранилищам с измерениями, однако отличается от других моделей этого типа. Она была разработана в ответ на потребность отказаться от последовательного изменения связанных таблиц при внесении изменений в одну из них. В Data Vault добавлены таблицы Satellite, которые содержат дополнительные описания к таблицам Hub и Link, структура которых сохраняется на протяжении жизненного цикла. Изменения, которые вносятся в Satellite, не затрагивают связанные таблицы.

Благодаря тому, что версии хранятся в Satellite, а не полноразмерных таблицах, общий объем базы данных сокращается. Структура хранилища становится более простой и понятной, что упрощает доступ к информации.

Составляющие Data Vault

  • Hub — таблица фактов для хранения ключевых данных о сущностях базы данных. Записи в ней не изменяются в процессе работы с хранилищем, что обеспечивает стабильность структуры базы данных.
  • Link — таблица для связи между таблицами фактов. Такие таблицы содержат ссылки на суррогатные ключи связанных таблиц фактов.
  • Satellite — описательные атрибуты сущностей Hub и Link. Здесь хранятся изменяемые атрибуты сущностей. 

Плюсы модели Data Vault

Основное преимущество этой модели хранилища — гибкая архитектура. Благодаря этому клиент может получить первый результат после разворачивания хранилища в виде отчетов верхнего уровня. Возможность создавать таблицы Satellite в удобной последовательности позволяет сразу использовать аналитические отчеты, не дожидаясь загрузки всей информации.