+7 (495) 229-0436   shopadmin@itshop.ru 119334, г. Москва, ул. Бардина, д. 4, корп. 3
 
 
Вход
 
 
Каталог
 
 
Подписка на новости:
Новости ITShop
Windows 7 и Office: Новости и советы
Обучение и сертификация Microsoft
Вопросы и ответы по MSSQLServer
Delphi - проблемы и решения
Adobe Photoshop: алхимия дизайна
 
Ваш отзыв
Оцените качество магазина ITShop.ru на Яндекс.Маркете. Если вам нравится наш магазин - скажите об этом Google!
 
 
Способы оплаты
Яндекс.Деньги VISA, EUROCARD/MASTER CARD, DCL, JCB WebMoney RBK Money Деньги@mail.ru Сбербанк РФ ASSIST QIWI кошелек
 
Курс расчета
 
 1 у.е. = 59.01 руб.
 
 Цены показывать:
 
 
 
 
  
Новости, статьи, акции
 

Платформы для Big Data: сравнение вендоров

22.04.2014 13:34
bigdata.cnews.ru

Аналитики давно обещают технологиям Big Data зеленый свет. Все больше компаний осознают необходимость работы с большими данными и оказываются перед выбором подходящего инструмента.

Этой весной индустрия больших данных получила благотворные вливания капитала и положительные оценки аналитиков. Только в марте этого года Cloudera, разработчик платформы для анализа больших данных на базе Hadoop, привлекла $160 млн инвестиций венчурного капитала. Platfora, также специализирующаяся на разработке аналитических решений для работы с большими данными, получила инвестиции в размере $38 млн.

По данным IDC, рынок решений для работы с большими данными в этом году превысит планку в $16 млрд. Эксперты Allied Market Research обещают, что рынок решений для Hadoop в долгосрочной перспективе подрастет в 25 раз: с $2 млрд в 2013 г. до $50 млрд к 2020 г. "Утопая в данных, компании пытаются извлечь нужные, - рассказывает генеральный директор Platfora Бен Вертер (Ben Werther). - Руководители компаний охотно признают, что до сих пор слишком часто принимают решения интуитивно, поскольку не могут адекватно оценить собранные данные по причине отсутствия доступа и возможности интерпретировать большие пласты новых неоднородных данных достаточно быстро".

Платформы для аналитики больших данных

С проблемой организации работы с большими данными на корпоративном уровне неразрывно связан насущный вопрос: SQL или NoSQL? При разработке нереляционных баз данных (NoSQL) ставка делается на высокую масштабируемость и гибкость решений.

Автор оригинальной версии открытой СУБД MySQL Майкл Видениус в интервью отметил, что основная причина отказа от SQL - это неправильная работа с самой базой. Многие компании не могут себе позволить нанять специалистов для постоянной работы и настройки баз данных, в то время как начать использование NoSQL можно без дополнительных разработок. Однако в дальнейшем возможны сценарии, когда данные выходят из-под контроля или перестают помещаться в оперативной памяти. Если не говорить о гибридных решениях (которые во многом еще только разрабатываются), среди преимуществ NoSQL можно выделить быстрый доступ к данным, хранящимся в оперативной памяти, гибкость использования и возможность быстрого распределения данных между узлами.

Александр Будник, старший ИТ-архитектор Epam Systems, говорит, что сложно выбрать одного вендора аналитических платформ для Big Data даже внутри узкоспециализированных областей. Наиболее универсальной платформой эксперт считает Pentaho, а для решения задач машинного самообучения, таких как, например, кластеризация, классификация, регрессия и другие, лучше подходят Mahout и Spark. "В настоящее время все поставщики традиционных BI-систем, такие как MicroStrategy или SAS, обеспечивают интерфейс с Hadoop, наиболее известным аппаратно-программным комплексом для обработки Big Data, - рассказывает эксперт. - Производители MPP-систем (массово-параллельных архитектур) в свою очередь обеспечивают гораздо более тесную интеграцию c Hadoop, когда данные, хранящиеся и в Hadoop, и в реляционной СУБД, могут быть обработаны в одном SQL-запросе".

Среди наиболее технологичных MPP-платформ специалисты выделяют Vertica и Teradata Aster. В последнее время появилось множество платформ, работающих с большими данными и поддерживающих быструю аналитику, например, MemSQL или Splice Machine. Неясно только, кто из них выживет.

Топ-16 аналитических платформ для работы с большими данными

Вендор Аналитические СУБД СУБД в оперативной памяти: Решения на базе Hadoop Технология обработки потоковых данных Возможность покупки в виде ПО или аппаратного оборудования
1010data 1010data аналитическая столбчатая база данных - - - только в облаке
Actian Actian Matrix (в прошлом ParAccel), Actian Vector (в прошлом Vectorwise) Actian Matrix In-Memory Option (данные хранятся в памяти и на диске) - - ПО
Amazon Amazon Redshift Service (на базе ParAccel), Amazon Relational Database Service -
Решения других компаний на базе AWS включают Altibase, SAP Hana, и ScaleOut
Amazon Elastic MapReduce, сторонние предложения включают Cloudera and MapR Amazon Kinesis только в облаке
Cloudera Нереляционная БД, но Cloudera Impala поддерживает SQL-запросы на Hadoop) Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop Опенсорсные программы CDH, Cloudera Standard, Cloudera Enterprise Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm Доступны в разных вариантах от Cisco, Dell, HP, IBM, NetApp, и Oracle
HP HP Vertica Analytics Platform Version 7 (версия Crane) Не является "in-memory" СУБД, но, по заявлению разработчиков, при высоком коэффициенте RAM-to-disk обеспечивает обработку запросов в близком к реальному времени - - HP Converged System 300 для Vertica
Hortonworks Нереляционная БД, но опция Hive поддерживает SQL-запросы Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop Hortonworks Data Platform (HDP) 2.0, HDP для Windows, Hortonworks Sandbox Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm Оборудование партнеров, преднастроенные архитектуры от HP, Teradata и др.
IBM DB2, Netezza DB2 c поддержкой BLU Acceleration, solidDB InfoSphere BigInsights InfoSphere Streams Система оперативной аналитики на базе PureData (DB2), аналитическая система IBM на базе PureData (Netezza), система для Hadoop на базе PureData (BigInsights).
InfiniDB InfiniDB (в прошлом Calpoint) - - - только ПО
Infobright Infobright - - - Infobright Infopliance
Kognitio Аналитическая платформа Kognitio Аналитическая платформа Kognitio - - Kognitio Appliance
MapR Нереляционная БД, но поддерживает такие решения SQL-on-Hadoop, как Drill, Hive, Impala, Shark, и др. Обеспечивается благодаря опенсорсным проектам Drill и Shark MapR M3, MapR M5, MapR M7 Поддержка анализа потоковых данных благодаря Storm и посредством интеграции с Informatica Hparser Аппаратные конфигурации доступны от партнеров: Cisco, HP, IBM, и NetApp
Microsoft SQL Server 2012 Parallel Data Warehouse (PDW) SQL Server 2014 In-Memory OLTP (доступна как опция с SQL Server 2014, релиз ожидается во втором квартале 2014 г.) Microsoft StreamInsight HDInsight, Windows Azure HDInsight Service (создан на базе Hortonworks Data Platform) Dell Parallel Data Warehouse Appliance, HP Enterprise Parallel Data Warehouse Appliance
Oracle Oracle Database, Oracle MySQL, Oracle Essbase Oracle TimesTen, Oracle Database 12c In-Memory Option (анонсировалась в 2013 г., подробностей не сообщалось) Oracle Event Processing Продажей и поддержкой занимается Cloudera Enterprise Exadata, Exalytics, Oracle Big Data Appliance
Pivotal Pivotal Greenplum Database Pivotal GemFire и SQLFire. Pivotal HD используется в комбинации с GemFire XD и HAWQ для in-memory анализа на Hadoop. Готовится интеграция GemFire (NoSQL) и системы управления данными in-memory SQLFire с Pivotal Hadoop и Spring XD, с целью создания масштабируемого решения для анализа потоковых данных Pivotal HD Pivotal Data Computing Appliance
SAP SAP Hana, SAP IQ SAP Hana SAP Event Stream Processing Обеспечивает продажу и поддержку Hortonworks, Intel; интеграции с Hadoop, сертифицированные Cloudera и MapR Среди партнеров по оборудованию - Dell, Cisco, Fujitsu, Hitachi, HP и IBM
Teradata Teradata, Teradata Aster Не является in-memory СУБД, но Teradata Intelligent Memory отслеживает запросы и автоматически перемещает наиболее востребованные данные в самые быстрые из доступных хранилищ, в том числе RAM, flash, SSD7 - Обеспечивает продажу и поддержку Hortonworks Data Platform Является интегрируемой аппаратной и/или программной системой. Hadoop поддерживается двумя аппаратными решениями Teradata, а также конфигурациями от Dell

Источник: Information Week, 2014

Отдельного внимания заслуживает опенсорсная платформа Intel для Hadoop, не попавшая в таблицу. Intel, конкурирующая с Hortonworks, Cloudera и другими разработчиками программного обеспечения для Hadoop, продолжает работу над ПО для работы с Big Data с открытым исходным кодом. Как рассказал изданию PCWorld Джейсон Феддер (Jason Fedder), генеральный директор по маркетингу Intel в Азиатско-Тихоокеанском регионе, решения на основе Hadoop сейчас играют одну из ключевых ролей в индустрии больших данных.

По словам эксперта, привлекательность решения Intel для Hadoop обуславливает и фактор "железа": оптимизация, выполненная с учетом архитектуры процессоров Xeon и специфики работы твердотельных накопителей с контроллерами Intel, позволяет добиться значительного прироста производительности. Процессоры Xeon ускоряют операции шифрования или дешифрования по алгоритму AES, что реализуется при помощи дополнительного набора команд AES-NI. Кроме того, платформа Intel для Hadoop также предлагает расширенные возможности и в сфере обработки потоковых данных.

Трудности выбора

По мнению Александра Будника, для систем, получающих аналитические данные в масштабе, близком к реальному времени, ключевыми являются требования не только к производительности, но и ко времени отклика (к примеру, IBM говорит об отклике меньше миллисекунды). Это весьма ограничивает выбор аналитических платформ: "Вы не сможете использовать колоссальную вычислительную мощность Hadoop, так как только накладные расходы на инициирование и завершение тривиальной MapReduce-программы составляют десятки секунд. Обеспечить приемлемое время отклика могут либо достаточно дорогие MPP-платформы (например, Netezza, Teradata, Greenplum), либо распределенные системы с развитой индексацией или высоким уровнем резидентности данных в оперативной памяти".

Большинство аналитических систем все еще использует реляционную модель данных, в результате чего выбор платформ сужается до таких решений, как GridGain или Gigaspaces XAP. Для работы с потоковыми данными в режиме онлайн были созданы относительно новые на сегодняшний день технологии Storm, Spark Streaming и Akka.

Как рассказали в видоинтервью изданию Information Week Бет Шультц (Beth Schultz) и Майкл Штайнер (Michael Steiner), редакторы вебсайта AllAnalytics, "анализ данных с помощью SQL на Hadoop не позволяет достичь того максимума, который предлагает платформа". По сведениям экспертов, компании выбирают Hadoop, чтобы собирать сложные и разнообразные данные: история посещений вебсайтов, логи, данные об использовании мобильных устройств и информация из соцсетей, и многое другое. Этими данными нелегко оперировать в СУБД.

Можно извлечь структурированные данные из Hadoop для SQL-анализа, но более перспективными представляются другие подходы, такие как машинное самообучение и прочие, позволяющие соотнести новые данные с уже накопленной, проанализированной и структурированной информацией.

В интервью с Information Week Бен Вертер, генеральный директор компании Platfora, отметил: "Практически в каждой из компаний, с которыми мы работаем, системы BI и SQL достаточно хорошо себя показали, но возникают новые потребности и новые вопросы за пределами текущих возможностей. Сейчас уже недостаточно увидеть количество продаж в разных отделениях. Клиент теперь хочет понять, как история посещений веб-сайта зависит от работы физического магазина. Новые интересы строятся вокруг связей между традиционными источниками данных и новым миром цифровых кликов, онлайн-рекламы, а также данных из соцсетей и мобильных устройств".

По словам Александра Горного, директора по информационным технологиям компании Mail.ru, практически все функции системы Mail.ru основаны на технологиях Big Data: "Анализ больших данных позволяет нам отличить спам от не спама, выбрать баннер индивидуально для конкретного пользователя, предложить пользователю подружиться с другим пользователем или подписаться на определенные обновления".

Уже недостаточно просто управлять данными. Кроме того, компании не могут полагаться только на аналитику, им также нужны решения из сферы BI, системы сбора и передачи оперативной информации и т.д. Грань между этими понятиями начала размываться, считает Даг Хеншен (Doug Henschen) из Information Week, в тот момент, когда SAS, Alpine Data Labs и другие стали поддерживать кластеризованные серверные среды, требовательные к памяти и Hadoop.

Ссылки по теме

  
Помощь
Задать вопрос
 программы
 обучение
 экзамены
 компьютеры
Бесплатный звонок
ICQ-консультанты
Skype-консультанты

Общая справка
Как оформить заказ
Тарифы доставки
Способы оплаты
Прайс-лист
Карта сайта
 
Популярные статьи
Разработка ПО СУБД и хранилища данных Системное администрирование Резервное копирование Информационная безопасность Средства тестирования Microsoft Oracle Офисное ПО Графические редакторы Компьютерные игры САПР Управление разработкой ПО Разработка веб-приложений Интеграция приложений и данных Разработка отчетных форм Операционные системы Windows Операционные системы Linux Антивирусное ПО и защита от спама Интернет ИТ-Обучение AutoDesk IBM Свободное ПО ИТ-Сертификация Eset Software Доктор Веб Лаборатория Касперского Developer Express Inc. Clouds Мобильные приложения Micro Focus Robots Blockchain ISpring
 
Бестселлеры
Курсы обучения "Atlassian JIRA - система управления проектами и задачами на предприятии"
Microsoft Office 365 для Дома 32-bit/x64. 5 ПК/Mac + 5 Планшетов + 5 Телефонов. Подписка на 1 год. Электронный ключ
Microsoft Windows 10 Профессиональная 32-bit/64-bit. Все языки. Электронный ключ
Microsoft Office для Дома и Учебы 2016. Все языки. Электронный ключ
Курс "Oracle. Программирование на SQL и PL/SQL"
Курс "Основы TOGAF® 9"
Microsoft Windows Professional 10 Sngl OLP 1 License No Level Legalization GetGenuine wCOA (FQC-09481)
Microsoft Office 365 Персональный 32-bit/x64. 1 ПК/MAC + 1 Планшет + 1 Телефон. Все языки. Подписка на 1 год. Электронный ключ
Windows Server 2016 Standard
Курс "Нотация BPMN 2.0. Ее использование для моделирования бизнес-процессов и их регламентации"
Антивирус ESET NOD32 Antivirus Business Edition
Corel CorelDRAW Home & Student Suite X8
 

О нас
Интернет-магазин ITShop.ru предлагает широкий спектр услуг информационных технологий и ПО.

На протяжении многих лет интернет-магазин предлагает товары и услуги, ориентированные на бизнес-пользователей и специалистов по информационным технологиям.

Хорошие отзывы постоянных клиентов и высокий уровень специалистов позволяет получить наивысший результат при совместной работе.

В нашем магазине вы можете приобрести лицензионное ПО выбрав необходимое из широкого спектра и ассортимента по самым доступным ценам. Наши менеджеры любезно помогут определиться с выбором ПО, которое необходимо именно вам. Также мы проводим учебные курсы. Мы приглашаем к сотрудничеству учебные центры, организаторов семинаров и бизнес-тренингов, преподавателей. Сфера сотрудничества - продвижение бизнес-тренингов и курсов обучения по информационным технологиям.



 

О нас

 
Главная
Каталог
Новинки
Акции
Вакансии
 

Помощь

 
Общая справка
Как оформить заказ
Тарифы доставки
Способы оплаты
Прайс-лист
Карта сайта
 

Способы оплаты

 

Проекты Interface Ltd.

 
Interface.ru   ITShop.ru   ERPforum.ru    Interface.ru/training   Olap.ru   Job.com.ru   ITnews.ru  
 

119334, г. Москва, ул. Бардина, д. 4, корп. 3
+7 (495) 229-0436   shopadmin@itshop.ru
Rambler's Top100 Проверить аттестат Товары@Mail.ru
© ООО "Interface Ltd."
Продаем программное обеспечение с 1990 года