Десять важнейших задач инженерии данных

В процессе адаптации к новым требованиям цифрового бизнеса, сохранение культуры управляемых данных для компаний имеет жизненно важное значение. Организации, которые будут полагаться на инженеров данных для подготовки и интеграции данных и инструментов, смогут создать целостные среды по работе с данными - что и является конечной целью цифровой трансформации. 

Top critical roles for data engineering

Руководители предприятий сосредоточены на цифровой трансформации своих бизнес-моделей, процессов и систем, и поэтому ИТ-службам необходимо не только поддерживать их в рабочем состоянии, но и предоставлять услуги, которые приводят к достижению указанных целей. Удовлетворение новых растущих требований бизнеса требует не только оптимизации инфраструктуры, что сэкономит денежные средства, но и приведет к получению прямой выгоды путем создания приложений для расширения возможностей бизнес-команд. По словам вице-президента компании Gartner Денниса Смита,«разработка приложений дает возможность запрыгнуть в скорый поезд перемен».

В последние годы появилась новая область, которая частично отвечает этим новым потребностям бизнеса: инженерия данных. Как и специалист по обработке и анализу данных, инженер по обработке и анализу данных пишет код; он в высшей степени аналитичен и создает визуализацию данных. Но в отличие от специалиста по обработке и анализу данных, этот специалист также создает приложения, а еще инфраструктуру, платформы и службы. Специалисты на этой позиции непосредственно обслуживают потребности бизнес-пользователей, нуждающихся в помощи по сбору и анализу огромных объемов данных самых разных типов. Как говорит генеральный директор и основатель компании Preset Максим Бошемин, «область инженерии данных можно рассматривать как надмножество бизнес-аналитики и хранилищ данных, которое привносит больше элементов из разработки программного обеспечения».

Группа инженеров по обработке данных на предприятии выполняет различные роли. Ниже приведены 10 наиболее распространенных способов, с помощью которых они могут поддерживать бизнес и управлять им:

1. Архитекторы фундамента

Прежде чем можно будет внедрять такие стратегии науки о данных, как ИИ, глубокое обучение и экспериментирование, инженеры по обработке и анализу данных закладывают основу для сбора, перемещения, хранения, исследования и преобразования данных. В своей «Иерархии потребностей ИИ» консультант по науке о данных и ИИ Моника Рогати разместила эти функции на нижних трех уровнях, указав, что они должны быть реализованы в первую очередь.

2. Строители

Бошемен осветил «строительный» аспект инженерии данных в Facebook, где он «развивал новые навыки, новые способы ведения дел, новые инструменты». В небольших организациях, не имеющих формальных подразделений инфраструктуры данных, роль инженера по обработке данных может включать в себя создание и эксплуатацию инфраструктуры данных предприятия. В крупных компаниях инфраструктура данных и группы инженеров разделяют эту ответственность и иногда автоматизируют эти процессы, чтобы в дальнейшем сотрудничать в стратегических проектах более высокого уровня.

3. Разработчики программного обеспечения

Чтобы модель была с пользой применена на крупном предприятии, аналитики должны иметь возможность использовать ее с большими объемами данных или запускать модель почти в режиме реального времени. Выходные данные модели — например, прогноз продаж — должны затем возвращаться в одну из транзакционных систем предприятия. Все это требует модели, «встроенной в лабораторию из коричневой бумаги и строки», как пишет вице-президент компании Teradata по технологиям в регионе EMEA, и в этой модели часто обрабатываются огромные объемы данных.

Достижение таких высоких уровней производительности и масштабируемости требует инженеров данных, которые могут кодировать, чтобы абстрагировать сложность, требующуюся от программного обеспечения ETL. По словам Бошемина, «абстракции, разоблачаемые традиционными инструментами ETL, не являются целевыми... решение состоит в том, чтобы не предоставлять примитивы ETL (такие, как источник/цель, агрегации, фильтрация) в режиме перетаскивания. Необходимые абстракции имеют более высокий уровень».

4. Валидаторы управления

В последние годы хранилища данных стали более публичными, совместными учреждениями, в которые ученые, аналитики и разработчики программного обеспечения вносят свой вклад по части разработки, повседневной работы и эволюции. Хотя открытие доступа к корпоративным данным может ускорить процесс инноваций, это также может привести к еще большему хаосу, если нет четких владельцев наборов данных и критериев для их использования.

И вот в этом инженеры в области данных могут помочь. Они могут «владеть» кластерами в системах хранилищ данных, которые следуют основным схемам с четко определенными соглашениями об уровне безопасности с количественными показателями, строго соблюдаемыми соглашениями об именах, высококачественными метаданными и документацией, а также передовыми методами.

5. Эксперты «Центра передового опыта»

Инженеры по обработке данных могут вести образовательные программы для помощи другим группам в использовании хранилищ данных и владении данными и инструментами компании.

6. Библиотекари

Инженеры по обработке данных могут каталогизировать и упорядочивать метаданные, определяя, как правильно подавать или извлекать данные из хранилища.

7. Бизнес-аналитики

Роль инженерии данных расширяется, однако, она все еще может включать задачи бизнес-аналитики, такие, как создание и запуск  в работу портфелей и панелей мониторинга. Они также могут служить полезным мостом между подразделениями бизнеса и специалистами науки о данных, поскольку они могут говорить на языках обеих этих групп и эффективно общаться с ними.

8. Производительность тюнеров

Предприятия инвестируют в инфраструктуру данных больше, чем когда-либо, предоставляя инженерам данных мотивацию и ресурсы, чтобы они могли сосредоточиться на оптимизации производительности. Их усилия должны быть направлены на то, чтобы делать больше с меньшими затратами и сделать использование ресурсов и денежных средств устойчивыми для бизнеса в долгосрочной перспективе.

9. Интеграторы данных

Предприятия все больше и больше полагаются на платформы SaaS, но при этом их поставщики могут и не предлагать услуги или опыт, которые привели бы к плавной интеграции в хранилище данных предприятия. Инженеры по обработке данных обладают навыками, позволяющими сделать весь этот процесс рабочим и помочь предприятию получить целостную, полную картину всех своих данных.

10. Поставщики услуг

Часто инженеры по обработке данных предоставляют услуги и инструменты, которые автоматизируют обычно "ручные" операции. Например, они могут автоматизировать прием данных, метрические вычисления, управление метаданными, A/B-тестирование и многое другое, что может упростить работу других корпоративных функций.

В процессе адаптации к новым требованиям цифрового бизнеса, сохранение культуры управляемых данных для компаний имеет жизненно важное значение. Организации, которые будут полагаться на инженеров данных для подготовки и интеграции данных и инструментов, смогут создать целостные среды по работе с данными - что и является конечной целью цифровой трансформации. 

Хотите узнать, как Teradata Vantage может помочь вам добиться успеха?