Data Vault
Data Vault — модель хранилища, которая подходит для длительного хранения большого массива разнородных данных.
При размещении данных в Data Vault ставятся временные отметки. С их помощью можно проследить, как со временем менялась хранящаяся информация. Это позволяет использовать такой вид хранилища в системах управления взаимоотношений с клиентами, системах анализа, аудиторских системах и др.
История
Модель хранилища Data Vault была создана Дэном Линстедтом в конце 20 века и стала доступна для разработчиков в 2000 году. Ее создатель описал общую концепцию, правила создания таблиц, способы обработки запросов пользователей и загрузки данных. 13 лет спустя в Data Vault 2.0 появился разбор бесшовной интеграции хранилища, а также его применения в NoSQL, при работе с неструктурированными данными и Big Data.
Основные особенности Data Vault
Модель относится к хранилищам с измерениями, однако отличается от других моделей этого типа. Она была разработана в ответ на потребность отказаться от последовательного изменения связанных таблиц при внесении изменений в одну из них. В Data Vault добавлены таблицы Satellite, которые содержат дополнительные описания к таблицам Hub и Link, структура которых сохраняется на протяжении жизненного цикла. Изменения, которые вносятся в Satellite, не затрагивают связанные таблицы.
Благодаря тому, что версии хранятся в Satellite, а не полноразмерных таблицах, общий объем базы данных сокращается. Структура хранилища становится более простой и понятной, что упрощает доступ к информации.
Составляющие Data Vault
- Hub — таблица фактов для хранения ключевых данных о сущностях базы данных. Записи в ней не изменяются в процессе работы с хранилищем, что обеспечивает стабильность структуры базы данных.
- Link — таблица для связи между таблицами фактов. Такие таблицы содержат ссылки на суррогатные ключи связанных таблиц фактов.
- Satellite — описательные атрибуты сущностей Hub и Link. Здесь хранятся изменяемые атрибуты сущностей.
Плюсы модели Data Vault
Основное преимущество этой модели хранилища — гибкая архитектура. Благодаря этому клиент может получить первый результат после разворачивания хранилища в виде отчетов верхнего уровня. Возможность создавать таблицы Satellite в удобной последовательности позволяет сразу использовать аналитические отчеты, не дожидаясь загрузки всей информации.