| 
   
Курс «20775 Обработка данных с Microsoft HDInsight» даст слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight. 
Аудитория: Курс ориентирован на инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, желающих использовать HDInsight и язык R в своих проектах. 
Рекомендуемый уровень подготовки: 
Успешное окончание курсов 20774 Облачная аналитика больших данных (Big Data) при помощи машинного обучения в Azure и 20767 Разработка и эксплуатация хранилищ данных на SQL Server 2016 
Прослушав данный  курс, Вы научитесь: 
- описывать Hadoop, MapReduce, HDInsight;
 
- описывать типы кластеров HDInsight;
 
- описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
 
- описывать, как разрешать доступ пользователей к объектам;
 
- описывать конфигурации и архитектуру хранилища HDInsight;
 
- проводить мониторинг ресурсов с Operations management suite;
 
- выполнять запросы с Hive и Pig;
 
- описывать использование ETL и Spark;
 
- внедрять интерактивные запросы;
 
- выполнять интерактивную обработку данных с помощью Apache Phoenix;
 
- управлять задачами потоковой аналитики;
 
- создавать приложения для обработки структурированных потоков в Spark;
 
- использовать потоковые данные в Storm;
 
- объяснять, как работает язык R;
 
- преобразовывать и очищать наборы данных.
  
Программа курса
Модуль 1. Начало работы с HDInsight 
- Большие данные
 
- Hadoop
 
- MapReduce
 
- HDInsight
 
- Лабораторная работа: Запросы к большим данным
  
Модуль 2. Развертывание кластеров HDInsight 
- Типы кластеров HDInsight
 
- Управление кластерами HDInsight
 
- Управление кластерами HDInsight с помощью PowerShell
 
- Лабораторная работа: Управление кластерами HDInsight в Azure
  
Модуль 3. Авторизация пользователей для доступа к ресурсам 
- Недоменные кластеры
 
- Настройка кластера HDInsight, подключенного к домену
 
- Управление подключенным к домену кластером HDInsight
 
- Лабораторная работа: Авторизация пользователей для доступа к ресурсам
  
Модуль 4. Загрузка данных в HDInsight 
- Хранилище HDInsigh
 
- Средства загрузки данных
 
- Производительность и надёжность
 
- Лабораторная работа: Загрузка данных в HDInsight
  
Модуль 5. Поиск и устранение неисправностей в HDInsight 
- Анализ журналов
 
- Журналы YARN
 
- Дампы кучи (Heap)
 
- Operations management suite
 
- Лабораторная работа: Поиск и устранение неисправностей в HDInsight
  
Модуль 6. Внедрение пакетных решений 
- Хранилище Apache Hive
 
- Запросы с Hive и Pig
 
- Подключение HDInsight
 
- Лабораторная работа: Резервное копирование баз данных SQL Server
  
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark 
- Что такое Spark?
 
- ETL и Spark
 
- Производительность Spark
 
- Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
  
Модуль 8. Анализ данных со Spark SQL 
- Внедрение интерактивных запросов
 
- Проведение исследовательского анализа данных
 
- Лабораторная работа: Анализ данных со Spark SQL
  
Модуль 9. Анализ данных с помощью Hive и Phoenix 
- Внедрение интерактивных запросов для больших данных с помощью Hive
 
- Проведение исследовательского анализа данных с помощью Hive
 
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
 
- Лабораторная работа: Анализ данных с помощью Hive и Phoenix
  
Модуль 10. Потоковая аналитика 
- Потоковая аналитика
 
- Обработка потоковых данных из потоковой аналитики
 
- Управление задачами потоковой аналитики
 
- Лабораторная работа: Внедрение потоковой аналитики
  
Модуль 11. Spark Streaming и DStream API 
- Обзор когнитивных служб
 
- DStream
 
- Создание приложений для обработки структурированных потоков в Spark
 
- Стабильность и визуализация
 
- Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
  
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm 
- Долгохранимые данные
 
- Потоковые данные в Storm
 
- Создание топологии Storm
 
- Настройка Apache Storm
 
- Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
  
 Модуль 13. Анализ данных с помощью Spark SQL 
- Внедрение интерактивных запросов
 
- Проведение исследовательского анализа данных
 
- Лабораторная работа: Использование R-сервисов машинного обучения
  
В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения 
 
Microsoft SQL Server 2016 — мощная и безопасная система управления базами данных, готовая к работе в самых важных и бизнес-приложениях, высокого уровня, позволяющая сокращать финансовые затраты на сервис систем и производство новых приложений. 
SQL Server 2016 обеспечивает рекордную производительность благодаря новым технологиям работы с памятью, что поможет заказчикам ускорить свой бизнес и реализовать новые сценарии работы. 
Кроме того, SQL Server 2016 позволяет использовать новые гибридные облачные решения. Это позволит воспользоваться новыми преимуществами облачных вычислений. Например в таких сценариях как резервное копирование в облако и аварийное восстановление локально установленного SQL Server. 
SQL Server 2016 предлагает лучшие возможности в отрасли бизнес-аналитики благодаря интеграции с такими привычными инструментами, как Excel и Power BI для Office 365. 
Основные нововведения включают: 
- Поддержка in-memory OLTP (Hekaton). SQL Server 2016 обладает возможностью размещения таблиц и хранимых процедур в оперативной памяти, что позволит добиться существенного выигрыша в производительности транзакционных приложений.
 
- Обновляемые колоночные индексы. Колоночные индексы используются, в основном, в аналитических приложениях. Они позволяют значительно ускорить выполнение запросов по схемам данных, характерных для OLAP (звезда, снежинка). В версии 2016 это ограничение снято, и колоночные индексы получат возможность обновляться при внесении изменений в данные, как традиционные индексы.
 
- Новый тип управляемого ресурса в Resource Governor. Регулятор ресурсов используется для разделения вычислительных мощностей компьютера между различными приложениями, обращающимися к SQL Server, что дает возможность приоритезировать нагрузку, а также гарантирует, что приложение не выйдет за пределы назначенных ему ресурсов, забирая на себя все, что выделено серверу баз данных. Это позволяет обеспечить предсказуемую работоспособность. В предыдущих версиях к ресурсам относились память и процессорное время, ввод-вывод.
 
- Улучшенная отказоустойчивость. Группа высокой доступности AlwaysOn теперь включает 8 вторичных реплик (против 4-х в предыдущей версии).
 
- Интеграция с Облаком. Возможность размещать в Windows Azure файлы БД большого размера для on-premise SQL Server, а также выполнять в Windows Azure резервное копирование, в том числе с новыми возможностями шифрования.
  
 |