Share

Что такое неструктурированные данные?

Термин "неструктурированные данные" означает нефильтрованную информацию без фиксированного организующего принципа. Их еще часто называют необработанными данными. Распространенными примерами являются веб-журналы, XML, JSON, текстовые документы, изображения, видео и аудиофайлы. В неструктурированных данных проводится синтаксический поиск и анализ для извлечения полезных фактов. До 80% корпоративных данных не структурированы. Это означает, что это наиболее заметная для многих людей форма больших данных. Для получения аналитической информации сам размер неструктурированных данных требует масштабируемой аналитики. Неструктурированные данные встречаются в озерах данных, по крайней мере в большинстве из них, по причине более низкой стоимости хранения.

В неструктурированных данных больше шума, чем пользы. Извлечение же пользы, скрытой в таких файлах, требует серьёзных навыков и инструментов. Существует миф о том, что реляционные базы данных не могут обрабатывать неструктурированные данные. Унифицированная архитектура данных компании Teradata охватывает неструктурированные данные несколькими способами. База данных Teradata Database и аналоги конкурентов могут хранить и обрабатывать XML, JSON, Avro и другие формы неструктурированных данных.