Курс «20775 Обработка данных с Microsoft HDInsight» даст слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Аудитория: Курс ориентирован на инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, желающих использовать HDInsight и язык R в своих проектах.
Рекомендуемый уровень подготовки:
Успешное окончание курсов 20774 Облачная аналитика больших данных (Big Data) при помощи машинного обучения в Azure и 20767 Разработка и эксплуатация хранилищ данных на SQL Server 2016
Прослушав данный курс, Вы научитесь:
- описывать Hadoop, MapReduce, HDInsight;
- описывать типы кластеров HDInsight;
- описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
- описывать, как разрешать доступ пользователей к объектам;
- описывать конфигурации и архитектуру хранилища HDInsight;
- проводить мониторинг ресурсов с Operations management suite;
- выполнять запросы с Hive и Pig;
- описывать использование ETL и Spark;
- внедрять интерактивные запросы;
- выполнять интерактивную обработку данных с помощью Apache Phoenix;
- управлять задачами потоковой аналитики;
- создавать приложения для обработки структурированных потоков в Spark;
- использовать потоковые данные в Storm;
- объяснять, как работает язык R;
- преобразовывать и очищать наборы данных.
Программа курса
Модуль 1. Начало работы с HDInsight
- Большие данные
- Hadoop
- MapReduce
- HDInsight
- Лабораторная работа: Запросы к большим данным
Модуль 2. Развертывание кластеров HDInsight
- Типы кластеров HDInsight
- Управление кластерами HDInsight
- Управление кластерами HDInsight с помощью PowerShell
- Лабораторная работа: Управление кластерами HDInsight в Azure
Модуль 3. Авторизация пользователей для доступа к ресурсам
- Недоменные кластеры
- Настройка кластера HDInsight, подключенного к домену
- Управление подключенным к домену кластером HDInsight
- Лабораторная работа: Авторизация пользователей для доступа к ресурсам
Модуль 4. Загрузка данных в HDInsight
- Хранилище HDInsigh
- Средства загрузки данных
- Производительность и надёжность
- Лабораторная работа: Загрузка данных в HDInsight
Модуль 5. Поиск и устранение неисправностей в HDInsight
- Анализ журналов
- Журналы YARN
- Дампы кучи (Heap)
- Operations management suite
- Лабораторная работа: Поиск и устранение неисправностей в HDInsight
Модуль 6. Внедрение пакетных решений
- Хранилище Apache Hive
- Запросы с Hive и Pig
- Подключение HDInsight
- Лабораторная работа: Резервное копирование баз данных SQL Server
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
- Что такое Spark?
- ETL и Spark
- Производительность Spark
- Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
Модуль 8. Анализ данных со Spark SQL
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Лабораторная работа: Анализ данных со Spark SQL
Модуль 9. Анализ данных с помощью Hive и Phoenix
- Внедрение интерактивных запросов для больших данных с помощью Hive
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
- Лабораторная работа: Анализ данных с помощью Hive и Phoenix
Модуль 10. Потоковая аналитика
- Потоковая аналитика
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
- Лабораторная работа: Внедрение потоковой аналитики
Модуль 11. Spark Streaming и DStream API
- Обзор когнитивных служб
- DStream
- Создание приложений для обработки структурированных потоков в Spark
- Стабильность и визуализация
- Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
- Долгохранимые данные
- Потоковые данные в Storm
- Создание топологии Storm
- Настройка Apache Storm
- Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
Модуль 13. Анализ данных с помощью Spark SQL
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Лабораторная работа: Использование R-сервисов машинного обучения
В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения
Microsoft SQL Server 2016 — мощная и безопасная система управления базами данных, готовая к работе в самых важных и бизнес-приложениях, высокого уровня, позволяющая сокращать финансовые затраты на сервис систем и производство новых приложений.
SQL Server 2016 обеспечивает рекордную производительность благодаря новым технологиям работы с памятью, что поможет заказчикам ускорить свой бизнес и реализовать новые сценарии работы.
Кроме того, SQL Server 2016 позволяет использовать новые гибридные облачные решения. Это позволит воспользоваться новыми преимуществами облачных вычислений. Например в таких сценариях как резервное копирование в облако и аварийное восстановление локально установленного SQL Server.
SQL Server 2016 предлагает лучшие возможности в отрасли бизнес-аналитики благодаря интеграции с такими привычными инструментами, как Excel и Power BI для Office 365.
Основные нововведения включают:
- Поддержка in-memory OLTP (Hekaton). SQL Server 2016 обладает возможностью размещения таблиц и хранимых процедур в оперативной памяти, что позволит добиться существенного выигрыша в производительности транзакционных приложений.
- Обновляемые колоночные индексы. Колоночные индексы используются, в основном, в аналитических приложениях. Они позволяют значительно ускорить выполнение запросов по схемам данных, характерных для OLAP (звезда, снежинка). В версии 2016 это ограничение снято, и колоночные индексы получат возможность обновляться при внесении изменений в данные, как традиционные индексы.
- Новый тип управляемого ресурса в Resource Governor. Регулятор ресурсов используется для разделения вычислительных мощностей компьютера между различными приложениями, обращающимися к SQL Server, что дает возможность приоритезировать нагрузку, а также гарантирует, что приложение не выйдет за пределы назначенных ему ресурсов, забирая на себя все, что выделено серверу баз данных. Это позволяет обеспечить предсказуемую работоспособность. В предыдущих версиях к ресурсам относились память и процессорное время, ввод-вывод.
- Улучшенная отказоустойчивость. Группа высокой доступности AlwaysOn теперь включает 8 вторичных реплик (против 4-х в предыдущей версии).
- Интеграция с Облаком. Возможность размещать в Windows Azure файлы БД большого размера для on-premise SQL Server, а также выполнять в Windows Azure резервное копирование, в том числе с новыми возможностями шифрования.
|