Эволюция хранилища данных

Решения Teradata для хранилищ данных

Хранилища данных:
Основа аналитики

Что такое хранилище данных?

Хранилище данных — это шаблон проектирования или архитектура данных, которая отслеживает интегрированные, согласованные и подробные данные с течением времени, устанавливая отношения между ними с помощью метаданных и схемы.

Происхождение хранилища данных

Концепция хранилища данных появилась в 1988 году, когда Барри Девлин и Пол Мерфи опубликовали свою новаторскую статью в IBM Systems Journal. Их видение вызвало потребность в более конкретных определениях реализации баз данных, которые Билл Инмон и Ральф Кимбалл представили в начале 1990-х годов, а в Gartner в 2005 г. дополнительно уточнили определения. Теперь любое обсуждение хранилища данных также включает в себя то, как и где реализовано решение хранилища данных, например, в облаке или же оно охватывает и локальную, и облачную среду гибридным образом.

Хранилище данных не является коллекцией таблиц или измеряется в терабайтах. Это шаблон проектирования, архитектура данных со многими характеристиками:

Предметно-ориентированные

Отражает бизнес-сущности и процессы, с которыми организация работает ежедневно. Важен уровень детализации в предметной области: если есть подробные данные, то это хранилище данных. Если там есть сводные или только ограниченные данные, это витрина данных.

Интегрированность и согласованность

Форматы и значения данных стандартизированы во всех таблицах, чтобы обеспечить полноту и точность данных, которые должны быть понятны пользователям. Они также должны иметь целостность: например, они не могут отражать транзакции покупки без соответствующей записи клиента.

Неизменность история

Хранилище фиксирует изменения данных и отслеживает изменения данных с течением времени. Все данные хранятся и не изменяются при транзакционных обновлениях. Будь оно традиционным, гибридным или облачным, хранилище данных фактически является «корпоративной памятью» наиболее значимых данных.

Как данные попадают в хранилище данных?

Источники данных

Нередко 200 или даже 500 различных приложений отправляют данные в хранилище, которое консолидирует и интегрирует все такие данные в предметные области. Хранилище получает входные данные от таких приложений, как планирование ресурсов предприятия (ERP), управление взаимоотношениями с клиентами (CRM) и управление цепочками поставок (SCM).

Данные о посещениях сайтов по щелчку мыши на веб-страницах являются еще одним источником, как и данные датчиков от машин и транспортных средств и так далее. Существуют также неструктурированные данные, такие как JSON (JavaScript Object Notation), которые не соответствуют строкам и столбцам, но также  захватываются в хранилище данных.

Интеграция данных

Прежде чем данные поступают в базу данных хранилища данных, они проходят этап интеграции данных, это сложный процесс, который рационализирует данные из нескольких источников в один результат. Первоначально это называлось извлечением, преобразованием и загрузкой (ETL), потому что данные должны были быть извлечены из источника, уточнены, а затем загружены в реляционные таблицы хранилища данных.

Очистка данных

Современные интеграционные процессы включают очистку данных, которая включает в себя обнаружение и исправление поврежденных или неточных записей. Ошибки возникают из-за неисправности входных данных, повреждения оборудования или простой человеческой ошибки. Задача интеграции данных -  объединить лучшие, самые точные и наиболее полные данные из нескольких приложений в чистую, надежную «золотую запись» в хранилище.

Загрузка данных

Данные загружаются в хранилище непрерывным процессом — обычно в течение всего дня. Загрузка данных реализует бизнес-цели хранилища: это основа для поиска ответов на вопросы. Специалисты по данным применяют продвинутую математику для поиска закономерностей и аномалий, в то время как бизнес-аналитики используют отчеты и панели мониторинга с визуализацией.

Загрузка данных относится к цели доставки данных бизнес-пользователям: получение информации и поиск ответов на вопросы бизнеса. Специалисты по данным применяют продвинутую математику к большим объемам данных, чтобы найти закономерности и аномалии. Многомерный анализ — это когда все данные обобщаются, что позволяет быстро просматривать выпадающие списки, например, по регионам, городам, продавцам и проданным продуктам. Руководители и бизнес-аналитики (или «специалисты по обработке и анализу данных граждан») используют отчеты и панели мониторинга с визуализацией, и всё это извлекается из источника управляемых данных: хранилища данных.

Облачное хранилище данных и Teradata Vantage

Как компания Teradata, так и отрасль в целом развивались и использовали облачное развертывание и масштабируемость. Teradata Vantage, флагманское предложение компании, опирается на прочную основу базы данных Teradata и включает в себя передовые аналитические возможности, приобретенные с компанией Аster Data в 2011 году.

Vantage доступен для Amazon Web Services (AWS), Microsoft Azure, Google Cloud, инфраструктуры Teradata (Teradata Cloud или Customer Cloud) и стандартного оборудования, работающего под управлением программного обеспечения виртуализации VMware.

Vantage о решениях AWS для хранилища данных
Веб-сервисы Amazon Использование инфраструктуры AWS с Teradata Vantage
Vantage в решениях хранилища данных Azure
Microsoft Azure Объединение ресурсов Azure с Teradata Vantage
Vantage о решениях google для облачного хранилища данных
Облако Google Используйте Google Cloud с Teradata Vantage
Начало работы с облачной аналитикой

Перенесите свою аналитику в облако

Загрузить информационный документ