Насколько важно дать определение большим данныем?

Что такое большие данные в новой эре?

Определение больших данных продолжает меняться по мере развития технологий и бизнес-аналитики. Новое определение при этом зависит от того, каким образом каждое отдельное предприятие решит их использовать. Большие данные должны учитывать конкретные цели бизнеса, поведенческий контекст клиентов и долгосрочные тенденции рынка.

Что такое большие данные? Определение больших данных

Начало «больших данных»

Первое упоминание термина «большие данные» появилось в библиотеке Ассоциации компьютерной техники (ACM) более двух десятилетий назад. Тогда Майкл Кокс и Дэвид Эллсворт написали: «Визуализация представляет собой интересную проблему для компьютерных систем: наборы данных, как правило, довольно велики, что перегружает емкость основной памяти, локального диска и даже удаленного диска. Мы называем это проблемой больших данных. Когда наборы данных не помещаются в основной памяти (в ядре), или когда они не помещаются даже на локальном диске, наиболее распространенным решением является приобретение дополнительных ресурсов». Другими словами, в то время определение больших данных было по существу следующим: «данные, которые больше не помещаются на имеющемся оборудовании».

Что такое большие данные сегодня?

Перенесемся с тех пор чуть более чем на два десятилетия позже — после взрывного развития Интернета, смартфонов, Интернета вещей и облачных вычислений — определение больших данных вышло далеко за пределы «локального диска».

Определение больших данных в Википедии — это «область, которая рассматривает способы анализа, систематического извлечения информации или иной обработки наборов данных, которые слишком велики или сложны для обработки традиционным прикладным программным обеспечением, предназначенным для обработки данных». Некоторые эксперты определяют Big Data «четырьмя V»: Объем (Volume), объем производимой информации; Разнообразие (Variety), разнообразие данных; Скорость (Velocity), скорость, с которой создаются данные; и Достоверность (Veracity), целостность и точность данных, которые вы создаете и собираете.

Но для многих эти определения представляются недостаточно точными. Введите фразу «что такое большие данные» в Quora или Google, и вы увидите разнообразный набор ответов, и тогда любопытные мыслители задаются вопросами: «Насколько большими должны быть данные, чтобы быть «большими»?» «Если «большие данные» — это данные, которые не могут быть обработаны с помощью типовых инструментов, какие инструменты считаются «типовыми»? Конечно, даже если мы правильно определим большие данные, является ли сбор огромных коллекций данных правильной целью для современного предприятия?

Новое определение больших данных

В 2015 году аналитик Gartner Ник Хойдекер написал, что большие данные «больше не являются темой сами по себе». Вместо этого этот термин теперь можно распределить между несколькими другими идеями, включая расширенную аналитику и науку о данных, бизнес-аналитику, управление корпоративной информацией и многое другое. Он писал: «Характеристики, которые определяли большие данные... больше не являются экзотикой. Они получили распространение. Технологический ландшафт продолжает быстро меняться, но новые варианты выбора все больше похожи на старые, а старые варианты быстро развиваются». Лучший подход, по словам Хойдекера, заключался в том, чтобы меньше думать о «выполнении» больших данных и больше о «фактических потребностях бизнеса, влиянии на инфраструктуру и о том, как должна развиваться архитектура вашего предприятия».

В компании Teradata опираются на описанную выше структуру, и поэтому мы помогаем предприятиям достигать ощутимых результатов на основе данных. Мы пришли к выводу, что лучше всего думать о больших данных с точки зрения действий по получению прибавленной стоимости, которые фактически и продвигают бизнес вперед. Зачастую предприятия тратят слишком много времени, усилий и денег на подготовку и загрузку больших данных, но при этом им не хватает ресурсов на применение аналитики для поиска выгодных решений с большим эффектом.

Большие данные не являются одним из подходов или инструментов — например, в некоторых случаях необходима визуализация, в то время как подключенная аналитика является правильным решением в других. Как и многое другое в области Big Data, здесь все сводится к проблемам бизнеса и поставленным целям. Что ищут пользователи:

  • Закономерности распределения по времени или же географическое представление данных по рынку?

  • Процедурная информация из машинных журналов или данных с датчиков?

  • Корреляции поведенческих моделей для одного продукта, нескольких продуктов или еще не запущенного продукта?

Большие данные часто связаны с прогностическими возможностями и механизмами выдачи рекомендаций. Но речь также идет и об оперативных действиях, основанных на чувствительных моментах рынка. Получение более глубокого понимания структуры и природы отношений между людьми и процессами и определение шаблонов приводят к желаемым пользователем результатам.

В конце концов, определение больших данных сводится к тому, как конкретное предприятие будет их использовать. Поскольку эксперты обсуждают, должны ли корпорации сосредоточиться на минимизации данных и интеллектуальных (smart) данных вместо больших данных, предприятия, которые сосредоточены на использовании данных для получения полезных решений для бизнеса, добьются успеха. Для функционирования больших данных требуется стратегический дизайн и продуманная архитектура, которая не только изучает текущие потоки данных и репозитории, но и учитывает конкретные цели бизнеса, поведенческий контекст клиентов и долгосрочные тенденции рынка.

Хотите узнать, как Teradata может помочь вам эффективно использовать данные?