Share

Что такое большие данные?

Определение больших данных

Согласно Википедии, большие данные — это «всеобъемлющий термин для любой коллекции наборов данных, настолько больших или сложных, что их становится трудно обрабатывать с помощью традиционных приложений обработки данных». В компании Teradata большие данные часто описываются терминами нескольких «V»— объем, разнообразие, скорость, изменчивость, правдивость — которые в совокупности говорят о сложности и комплексном характере сбора, хранения, управления, анализа и иного использования больших данных для работы над созданием самой важной из всех «V»  - ценности (Value). В сегодняшней среде бизнеса с высокими ставками ведущие компании — это предприятия, которые дифференцируют потребности клиентов, превосходят их и адаптируются к ним быстрее, чем конкуренты, — и они полагаются на аналитику больших данных. Они видят, как целеустремленное, систематическое использование больших данных в сочетании с аналитикой открывает возможности для улучшения результатов в бизнесе.

В развитых организациях аналитика больших данных в сочетании с искусственным интеллектом (ИИ) и / или машинным обучением помогает решать еще более сложные задачи бизнеса:

Клиентский опыт: Получите конкурентное преимущество, будучи ориентированным на клиента и оптимизируя путь клиента

Финансовая трансформация: Обеспечьте новую ценность для предприятия и стратегический вклад через финансовые и бухгалтерские процессы

Инновации в продуктах: Создавайте и распространяйте продукты, которые являются более безопасными, востребованными и прибыльными

Уменьшение рисков: Минимизируйте восприимчивость к финансовому мошенничеству и рискам кибербезопасности

Оптимизация активов: Оптимизируйте стоимость активов с помощью Интернета вещей и данных с датчиков

Операционное совершенство: Достигайте максимальной производительности за счет оптимального использования персонала, оборудования и других ресурсов

Как заставить большие данные работать

Большие данные часто определяются как наборы данных, слишком большие и сложные для проведения операций с ними или отсыла к ним запросов с помощью стандартных инструментов. Даже компании, полностью приверженные работе с большим данным, компании, которые определили свой бизнес-кейс и готовы перейти к следующему этапу после фазы «научного проекта», должны для себя выяснить, как же заставить большие данные работать.

Массовая шумиха вокруг этого вопроса и озадачивающий разброс вариантов технологий больших данных и их поставщиков делают поиск правильного ответа сложнее, чем это могло бы быть. Цель должна состоять в том, чтобы спроектировать и создать базовую среду больших данных с низкой стоимостью и при этом несложную. Она должно быть устойчива, с высокой степенью интеграции и достаточно масштабируема, чтобы сделать всю организацию действительно ориентированной на данные и аналитику. Такая ориентированность на данные и аналитику — это состояние, при котором возможности больших данных и аналитики больших данных доступны всем подразделениям организации, которые в них нуждаются. Она должна иметь базовую инфраструктуру, потоки данных и наборы пользовательских инструментов, необходимые для получения ценной информации, для принятия лучших решений и решения реальных задач бизнеса.

Большие данные как движок

Начало работы с большими данными требует представленя о них — больших данных — как о движке. Чтобы повысить производительность, необходимо собрать правильные компоненты органичным, стабильным и устойчивым способом. Эти компоненты включают в себя:

Источники данных: операционные и функциональные системы, машинные журналы и датчики, интернет, соцсети и многие другие источники.

Платформы данных, хранилища данных и платформы обнаружения: они позволяют собирать данные и управлять ими, а затем, что крайне важно, преобразовывать их в лучшее понимание клиентов и, в конечном счете, в действия.

Инструменты и приложения для анализа больших данных: «интерфейс», используемый руководителями, аналитиками, менеджерами и другими лицами для доступа к информации о клиентах, моделирования сценариев и иным образом выполнения своей работы и управления бизнесом.

На этом уровне речь идет об полном использовании и эксплуатации всей мощности активов больших данных для создания ценности для бизнеса. Для того, чтобы все это работало вместе, требуется стратегическое проектирование больших данных и их продуманная архитектура, которая не только изучает текущие потоки данных и репозитории, но и учитывает конкретные цели бизнеса и долгосрочные тенденции рынка. Другими словами, для успешной работы с большими данными не существует единого шаблона.

Учитывая, что завтра большие данные станут еще более важными, такую инфраструктуру следует рассматривать как основу будущих операций. Так что, да, капитальные затраты могут быть значительными. Тем не менее, многие дальновидные организации и ранние последователи концепции больших данных пришли к удивительному и несколько нелогичному выводу: правильно спроектированная среда больших данных может привести к экономии средств. Кстати, о сюрпризах: эта экономия средств может быть приятно большой и принести выгоду относительно быстро.

Важно отметить, что наличие гибких структур технологий и программ больших данных может поддерживать несколько подразделений предприятия и улучшать операции по всей организации. В противном случае существует реальный риск того, что даже продвинутые и амбициозные проекты в области больших данных окажутся замороженными инвестициями. По оценкам Gartner, 90% проектов больших данных используются или воспроизводятся в масштабах всего предприятия. Завтрашние победители в области больших данных сегодня находятся в этих оставшихся 10% и уже давно начали мыслить масштабно.

Атрибуты высокоэффективных сред больших данных

Беспрепятственное использование наборов данных: Большая часть экономического эффекта происходит за счет смешивания, объединения и сопоставления наборов данных, поэтому без интеграции нет инноваций , основанных на аналитике.

Гибкость и низкая стоимость: Целью здесь является невысокая сложность и низкая стоимость, с достаточной гибкостью для масштабирования с точки зрения будущих потребностей, которые будут как более масштабными, так и более ориентированными на конкретные группы пользователей.

Стабильность: Стабильность имеет решающее значение, поскольку объемы данных огромны, и пользователям необходимо получать лёгкий доступ к данным и взаимодействовать с ними. В этом смысле производительность инфраструктуры является ключом к повышению эффективности бизнеса на основе больших данных.

Интеграция больших данных: самая важная переменная

Ограниченная возможность повторного использования в значительной степени является производной от плохой интеграции. На самом деле, интеграция может быть самой важной переменной в уравнении успеха больших данных.

В Forrester Research писали, что 80% ценности больших данных приходится на интеграцию. Идея общей картины заключается в том, что самые ценные большие данные легко доступны для нужных пользователей, а также имеются надежные и четко определенные правила бизнеса и структуры управления. Более глубокие наборы данных — устаревшие транзакционные данные и истории клиентов "с длинным хвостом" — могут нуждаться только лишь в надежном хранении и надежном управлении данными, поэтому специалисты по обработке и анализу данных могут просматривать и моделировать их, когда это имеет смысл.

Интеграция больших данных также заключается в том, чтобы мыслить масштабно. В данном случае «большие» означает целостность, инклюзивность и многомерность. Точки должны быть соединены, между островками данных перекинуты "мостики", а функциональные бункеры подключены друг к другу (если только они полностью не сломаны).

Высокая степень интеграции. Хорошо спроектированные экосистемы. Унифицированные архитектуры. Ориентированность на данные и аналитику. По этому короткому списку: чтобы программы больших данных работали, не обязательно наличие каждого компонента или технической детали. Но, безусловно, есть и решающие атрибуты, которые обеспечивают эффективную работу программ больших данных.