Укрощение больших данных

IBM

Лавина информации кардинально меняет ландшафт мира информационных технологий. Ее порождают 4.3 миллиарда мобильных телефонов и 2 миллиарда интернет-пользователей со всего мира, а также мощный поток 30 миллиардов RFID-тегов и сотни спутников, непрерывно посылающих все больше сигналов каждую секунду. Сейчас никто даже не пытается работать со всеми этими данными одновременно. Но по мере увеличения пирога отдельные куски становятся больше. Когда пирог измеряется в зетабайтах, даже маленький кусочек становится весьма ощутимым. Вот отрезвляющая статистика: один Твиттер добавляет 12 терабайтов данных каждый день, причем эти данные состоят только из текстовых сообщений длиной не более 140 символов.

Работа с данными такого масштаба - это новый уровень, и многие достигают его самыми разными путями. Но все больше ощущается, что мы являемся свидетелями рождения новой проблемы, которая не похожа ни на что, известное до сих пор. Некоторые называют ее "большие данные" (big data).

Большие данные: три V - volume, variety, velocity (объем, многообразие, скорость)

Большинство людей, услышав слова "большие данные" (или данные большого объема), представляют себе большие наборы данных; когда объемы данных достигают многих терабайтов и петабайтов, к их обработке необходим другой подход. Алгоритмы, хорошо работавшие с меньшими наборами данных, часто медленны и недостаточно эффективны при обработке больших наборов данных, а кроме того, не существует бесконечной емкости, несмотря на все достижения в области средств хранения информации и управления ими.

Но большой объем - это только первое измерение проблемы больших данных; двумя другими являются скорость и многообразие. Скорость - это быстрота прироста, обработки и использования данных. Многие аналитические алгоритмы могут обрабатывать большие объемы информации, если позволить им работать всю ночь. Но если это нужно делать в режиме реального времени (например, в области национальной безопасности или детского здравоохранения), ночная обработка сразу становится плохим вариантом.

Многообразие означает возрастающий массив типов данных - аудио, видео, изображения, а также смесь информации, полученной из различных источников, например, данные о розничных сделках, текстовые сообщения, генетические коды. Традиционные аналитические методы и методы работы с базами данных отлично справляются с обработкой данных, представленных в строках и столбцах и управляемых такими командами как select и join. Но многие артефакты, описывающие наш мир, либо нельзя втиснуть в строки и столбцы, либо непросто проанализировать программным обеспечением, зависящим от выполнения последовательности команд select, join и других реляционных команд.

Объединив объем, многообразие и скорость, мы получим данные, работа с которыми требует такого уровня гибкости и изменчивости базы данных, которого трудно или невозможно достичь, используя только современные технологии. "В традиционной базе данных дизайн - это все, - говорит Том Дойч (Tom Deutsch), директор программы IBM Information Management. - Все определяется структурой. Если данные меняются или меняется то, о чем вы хотите знать, либо вы хотите объединить данные с информацией, полученной из другого потока или хранилища данных, необходимо полностью изменить структуру хранилища. При работе с большими данными мы часто сталкиваемся с растущими требованиями (и множеством источников данных, среди которых далеко не все создаются нами) и хотим иметь возможность менять выполняемое задание, а не дизайн базы данных".

Обучение в экстремальных условиях

Поскольку одних хранилищ и менеджеров традиционных баз данных часто недостаточно для работы с большими данными, многие организации адаптируют свои системы, чтобы справиться с "плохим поведением" данных. Эти решения различаются между собой в зависимости от конкретного характера проблем, которые они пытаются решать - некоторые справляются с быстро растущим объемом информации, тогда как другие должны обрабатывать огромные объемы разнообразной информации. Кроме того, имеется возможность выявить некоторые общие стратегии и методики, которые либо уменьшают объем сохраняемой или обрабатываемой информации, либо обрабатывают ее с использованием более новых, высокопроизводительных технологий, предназначенных для работы в новых тяжелых условиях.

Одной из компаний, борющихся со всеми тремя V, является TerraEchos - ведущий поставщик систем скрытной разведки и сенсорных систем наблюдения, который использует потоковые данные для мониторинга секретного оборудования, национальных границ и утечек нефтепроводов. Интеллектуальная сенсорная система TerraEchos Adelos S4 сочетает акустические данные, поступающие от километровых массивов оптических сенсоров, с данными, поступающими от различных датчиков, таких как камеры наблюдения и спутники. Этот огромный объем чрезвычайно разнообразных и быстро растущих данных (иногда терабайты всего за несколько часов) необходимо собрать, объединить с информацией, поступающей из других потоков, и проанализировать с ошеломляющей скоростью, чтобы найти злоумышленников, обнаружить сейсмические толчки или выявить аварии оборудования.

"Мы столкнулись с необходимостью анализа данных по мере их прохождения по высокоскоростному конвейеру. У нас нет возможности структурировать их и поместить в базу данных, поскольку нужно классифицировать их в течение 2-3 секунд, - говорит главный исполнительный директор TerraEchos Алекс Филп (Alex Philp). - Имея цифровые процессоры обработки сигналов, опрашиваемые со скоростью 12000 чтений в секунду (и, потенциально, тысячи различных потоков данных), мы должны использовать абсолютно другой подход, чтобы реагировать быстро".

В TerraEchos первой жертвой этого почти подавляющего натиска данных стала парадигма "извлечение-преобразование-загрузка", которая десятилетиями доминировала в обработке данных: извлечение данных из источника, выполнение многочисленных затратных по времени операций для преобразования данных в строки и столбцы по предопределенной схеме, и, наконец, загрузка данных в хранилище. Все чаще компании преобразуют (и анализируют) входящую информацию по мере ее поступления. Если она удовлетворяет определенным условиям (например, если в аудиопотоке встречается образец, звучащий как приближающийся автомобиль), немедленно активизируется дополнительный анализ, а часто и другие действия по сбору или сохранению данных.

"Мы постоянно анализируем лишь несколько секунд данных в каждый момент времени, - рассказывает Филп. - Если мы что-то находим, то активизируем процессы, которые просматривают соответствующий видеопоток или ищут что-то интересное и, если необходимо, быстро сохраняют всего несколько фреймов данных камеры видеонаблюдения для этой конкретной области. Это по-прежнему огромный объем потоковых данных, но данный алгоритм реально сокращает информацию, которую нужно обработать и сохранить".

Сначала фильтрация - задавайте вопросы немедленно

Для обработки входящего потока данных TerraEchos использует аналитические алгоритмы, специально разработанных для тех типов потоков данных, с которыми работает компания. Компания внедрила IBM® InfoSphere® Streams в свою собственную сенсорную систему знаний Adelos S4. IBM InfoSphere Streams анализирует входящие данные и распределяет вычислительную работу на несметное число процессоров, а его аналитические пакеты предназначены для работы с конкретными типами данных, такими как аудио и видео. Например, один из видов анализа включает в себя строгий статистический анализ форм входящих сигналов для определения вероятной природы возможных угроз.

Тенденция разработки на заказ специализированных аналитических алгоритмов обработки данных конкретных типов уже набирает обороты. Например, аналитические алгоритмы обработки текстовых данных уже используются для изучения огромных потоков твитов и электронных писем, генерируемых ежедневно, для поиска угроз терроризма или изменения восприятия продукта.

Система TerraEchos сочетает специализированную аналитику (в данном случае от IBM InfoSphere Streams) с усовершенствованной аппаратурой параллельной обработки, выполняющей миллионы одновременных быстрых вычислений над двоичными акустическими данными, получаемыми от тысяч датчиков.

Многие эксперты говорят, что эти технологии (фильтрация и анализ данных на лету, использование специализированной аналитики, умеющей обрабатывать разнообразные данные в их "родном" формате, и больших массивов параллельных процессоров для работы с входящими данными) скоро будут доминировать в сфере обработки данных, поскольку ИТ-сектор пытается справиться со специфичными проблемами обработки большого объема разнообразных данных, движущихся с огромными скоростями.

Пять направлений приобретения навыков в области больших данных

Общая картина такова, что компании, возможно, будут тратить меньше времени и денег на определение, очистку и организацию структуры данных и хранилищ данных. И наоборот, они будут тратить больше времени на выяснение того, как собрать, проверить и быстро использовать данные, так что потребуется приобретение этих навыков.

"Сегодня администраторы и другой ИТ-персонал тратят много времени на создание емкостей и заполнение их данными, - говорит Роджер Ри (Roger Rea), менеджер IBM InfoSphere Streams. - Но эта ситуация будет меняться. В будущем вместо чтения данных, их преобразования и загрузки, мы будем просто загружать данные на как можно большей скорости и преобразовывать их при выполнении запросов. Этот новый подход является более гибким, но он означает изменение нашего представления о данных. Он очень отличается от управления на основе традиционной реляционной модели".

Что можно сделать, чтобы подготовиться к новым реалиям? Ниже перечислены навыки, о приобретении которых следует подумать:

Использование новой аналитики больших данных

Некоторые эксперты предсказывают, что ПО глубинного анализа данных, такое как BigSheets (аналогичный электронным таблицам интерфейс, используемый в IBM InfoSphere BigInsights), сделает аналитику больших данных более доступной для ИТ-профессионалов и бизнес-аналитиков. Освоение этих средств и их возможностей, вероятно, даст преимущества работникам разных ИТ-направлений.

Овладение языком программирования Java и соответствующими инструментами разработки сценариев

Многие программы, использующиеся для обработки больших данных (например, Hadoop и MapReduce), написаны на Java, поэтому изучение этого языка программирования является важным навыком. Если вы уже знаете Java, можете начинать работу с интерактивными учебниками или книгами по Hadoop.

Основы маркетинга и бизнеса с ориентацией на использование новых источников данных

Различные партнерские программы уже исследуют сложные факторы, влияющие на лояльность клиентов, анализируя различные источники данных, такие как информация центров обработки звонков и Твиттер-фиды. Понимание использования различных источников данных и применения их в подобных бизнес-задачах станет более важным для специалистов разных областей, от маркетинга до ИТ.

Освоение статистики на базовом уровне

В основе аналитического ПО лежит статистика. Знание основ распределений, выборки и статистической значимости поможет понять, что делать и как интерпретировать результаты. Наилучшее вложение - курс статистики маркетинга или бизнес-операций, который, скорее всего, принесет пользу немедленно.

Комбинирование данных из различных источников, особенно открытых

Сила больших наборов данных во многом определяется сочетанием проприетарной информации (например, данные о продажах, собранные компанией) с открытыми источниками данных (например, картографическая информация или правительственные данные). Простое знание того, какие данные доступны, часто может подсказать новые идеи полезных способов комбинирования этой информации.

Новая технология для анализа больших данных в состоянии покоя

Несмотря на то, что хорошие методы обработки потоковой информации "в движении" являются важной составляющей решения многих проблем больших данных, простая обработка очень больших объемов данных в состоянии покоя может быть трудоемкой, особенно при их большом разнообразии. Одним из подходов к эффективному решению широкого круга проблем являются массовые параллельные вычисления на относительно недорогом оборудовании. Например, аналитическое ПО IBM InfoSphere BigInsights основано на проекте с открытыми исходными кодами Apache Hadoop, но использует свою собственную файловую систему и добавляет другие проприетарные технологии.

Hadoop - это Java-инфраструктура, поддерживающая распределенные приложения, которые используют большие объемы данных, и позволяющая им выполнять работу на тысячах процессорных узлов и обрабатывать петабайты данных. Оптимизированная для последовательного чтения больших файлов она автоматически поддерживает репликацию и восстановление данных. Даже если на каком-то процессоре происходит авария, данные реплицируются и обработка продолжается без прерывания или потери результатов вычисления, что делает всю систему отказоустойчивой и способной очень быстро сортировать терабайты данных.

Для достижения приемлемой скорости и масштабируемости Hadoop использует MapReduce, простую, но мощную инфраструктуру параллельных вычислений. MapReduce разбивает проблему на миллионы параллельных вычислений на фазе отображения (Map), генерируя поток пар ключ-значение. Затем MapReduce смешивает выходные данные отображения по ключу и выполняет еще одно параллельное вычисление с выходными данными распределенного отображения, записывая результаты вычислений в файловую систему на фазе сокращения (Reduce) вычислений. Например, при обработке больших объемов транзакций продаж для определения количества проданных товаров Hadoop выполнит операцию Map для каждого блока или файла, содержащего транзакции, добавит количество всех товаров, проданных в каждой транзакции, и "сократит" информацию при возврате ответа.

Поскольку эта технология проста в освоении и использовании (она основана всего на двух действиях - Map и Reduce), Hadoop-системы используются для решения разнообразных задач, в частности, в социальных сетях.

Получение информации для анализа из хранилищ данных

Некоторые обозреватели предсказывают хранилищам данных судьбу телефонов с дисковым набором номера, но слухи о кончине хранилищ данных сильно преувеличены. По словам Дойча хранилища данных будут продолжать играть важную роль на многих предприятиях. Их все чаще будет использовать другое ПО с целью выявления взаимосвязей данных, которые затем можно будет использовать для обработки входящих потоков данных на лету.

"Трудно определить, что искать в потоке данных, если вы не проанализировали уже полученные данные, чтобы найти образцы, - говорит Дойч. - Но данные хранилищ могут помочь в поиске таких образцов".

Например, Дойч говорит, что когда исследователи университета University of Ontario Institute of Technology впервые использовали программное обеспечение мониторинга потока данных, получаемых из отделений для новорожденных, они искали образцы в неструктурированных данных, которые могли бы предсказать ухудшение или улучшение состояния младенцев. Они начали анализировать информацию о каждом младенце, включая аудиозаписи, частоту сердцебиений и другие показатели, и случайно выделили корреляцию между образцами в аудио записях плача ребенка и началом недомогания новорожденного несколько часов спустя.

Эти открытия были использованы при мониторинге новых потоков данных для обнаружения изменений в плаче ребенка и раннего предупреждения врачей и медперсонала о предстоящих проблемах. Способность анализировать огромные объемы разнообразных данных из хранилищ привела к обнаружению закономерностей, и это изменило способ мониторинга новых входящих потоков данных.

Распространение аналитики на более широкий класс пользователей

По мере роста наборов данных и уменьшения времени, выделяемого на их обработку, необходимо искать все более инновационные технологии, чтобы помочь организациям в том, с чем им придется столкнуться в управляемом данными будущем.

Простое изменение способа представления данных может потребовать много времени. "Многие люди не считают неструктурированные данные (например, видео, аудио и изображения) носителями важной информации, но на самом деле это так, - говорит Дойч. - Очень важно понимать, что эти данные могут быть столь же ценными, что и традиционные данные, собираемые годами, и мы должны искать новые способы заставить эту информацию приносить пользу".

Ясно одно - новые способы обработки больших данных ускоряются почти так же быстро, как и поток информации, направляемый к ним. Как говорит Филп: "Я чувствую, что занял место в первом ряду революции".