Каталог

	Программы
	Курсы обучения
	Сертификация
	Download (Free, Shareware)
	Распродажа

Категории

	Курсы обучения по продуктам компании Adobe
	Курсы обучения по продуктам компании Atlassian Pty Ltd.
	Курсы обучения по продуктам компании Borland
	Курсы обучения по продуктам компании ERwin
	Курсы обучения по продуктам компании Embarcadero
	Курсы обучения по продуктам компании Hewlett-Packard
	Курсы обучения по продуктам компании IBM
	Курсы обучения по продуктам компании IBM Rational
	Курсы обучения по продуктам компании IDS Scheer AG
	Курсы обучения по продуктам компании Interface
	Курсы обучения по продуктам компании Microsoft
	Курсы обучения по продуктам компании Oracle
	Курсы обучения по продуктам компании Postgres Professional
	Курсы обучения по продуктам компании Sparx Systems
	Курсы обучения по продуктам компании МойОфис
	Курсы обучения по продуктам других компаний

Подписка на новости

Ваш отзыв

Оцените качество магазина ITShop.ru на Яндекс.Маркете.

Если вам нравится наш магазин - скажите об этом Google!

Способы оплаты

Курс расчета

1 у.е. = 78.50 руб.

Цены показывать:

Направления

Artificial Intelligence Big Data Blockchain CASE PostgreSQL Python Бизнес-тренинги Интернет Информационная безопасность ИТ-Обучение Корпоративные информационные системы Мобильные приложения Операционные системы Linux Операционные системы Unix Офисное ПО Разработка веб-приложений Разработка ПО Свободное ПО Семантические технологии Системное администрирование Средства тестирования СУБД и хранилища данных Управление бизнесом Управление бизнес-процессами Управление ИТ-инфраструктурой Управление качеством Управление персоналом Управление проектами Управление разработкой ПО

Курсы обучения

Курс "Hadoop для инженеров данных"

Цена: 120 000 руб.



Звонок с сайта		Купить дешевле

Продолжительность - 5 дней

Специализация:	Авторские курсы: СУБД и хранилища данных
Код:	EDU-BD-HDDE

Курс «Hadoop для инженеров данных» представляет собой пятидневный практический тренинг по batch/streaming обработке потоков данных средствами Apache Airflow, Spark, Flume, Kafka, Sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT.

Data Lake (озеро данных) — это метод хранения данных в натуральном (сыром, «RAW») виде: в разных схемах и форматах, от blob-объектов до различных файлов. Корпоративное озеро данных позволяет предприятию иметь логически определенное, единое хранилище всех данных в организации (enterprise data), чтобы использовать их для построения аналитических отчетов, моделей машинного обучения и других прикладных задач.

Обычно Data Lake включает структурированную информацию из реляционных баз данных (строки и колонки), полуструктурированные файлы (CSV, логи, XML, JSON, AVRO, Parquet, ORC), неструктурированные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические изображения). Помимо необработанных исходных данных (RAW data), озеро данных также может содержать и предварительно обработанную (transformed) информацию.

За эффективную организацию процессов загрузки информации в озеро или корпоративное хранилище данных (КХД) и выгрузки оттуда нужных сведений отвечают инженеры данных (Data Engineer). Сегодня в большинстве случаев Data Lake строится с помощью компонентов экосистемы Apache Hadoop и сопутствующих технологий Big Data: Spark, Pig, Sqoop, Hive, Flume, Flink, Airflow, NiFi, Kafka, Cloudera Impala. Как успешно использовать все эти инструменты для создания уникального конвейера сбора и обработки данных (pipeline), вы узнаете на Курсе «Hadoop для инженеров данных».

Аудитория: Специалисты по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batch, stream и real—time процессинга больших данных с использованием компонентов экосистемы Хадуп.

Необходимый уровень подготовки:

Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
Начальный опыт работы с SQL

Соотношение теории к практике 40/60

Курс «Hadoop для инженеров данных» включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр. для последующего анализа больших данных.

На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.

Программа курса «Hadoop для инженеров данных»

Основные концепции Hadoop и Data Lake
- Основы Hadoop. Основные компоненты, парадигма, история и тенденции развития
- Современные хранилища данных, Data Lake, его архитектура
Map Reduce и Yarn
- Ведение в MapReduce. Этапы выполнения задачи в MapReduce и подход к программированию
- Архитектура и задачи YARN. Управление ресурсами и очередями задач, FIFO/Capacity/Fair scheduler
Хранение данных в HDFS
- Архитектура HDFS. Операции чтения и записи, блоки HDFS
- Основные команды работы с HDFS
- Дополнительные возможности и особенности HDFS
Импорт/экспорт данных в кластер Hadoop — формирование Data Lake
- Импорт и обработка данных в кластере Hadoop
- Интеграция с реляционными базами данных
- Структура хранения данных в таблицах
- Введение в Sqoop: импорт и экспорт данных из реляционных источников
Apache Hive
- Введение в Hive и соответствие DDL операций структуре хранения
- Работа с внешними и внутренними таблицами Hive
- Партиционирование данных
- Hive LLAP, Hive on Spark/Tez
- Хранение данных в HDFS: сжатие и форматы файлов (AVRO, ORC, Parquet)
Основы Apache Spark
- Архитектура и состав Apache Spark
- Основные абстракции (Dataframe, RDD)
- Spark SQL
- Ввод и вывод данных в Apache Spark
Введение в Cloudera Impala
- Введение в Cloudera Impala: особенности архитектура и компоненты
- Взаимодействие Spark, Hive
Введение в Apache HBase
- Архитектура и состав Apache HBase
- Основные абстракции и язык запросов
Введение в Apache Kafka
- Архитектура и состав Apache Kafka
- Партиции, топики, управление смещением
- Основные API
Введение в Apache Airflow
- Архитектура и состав Apache Airflow
- Основные абстракции (DAG, оператор, сенсор)
- Основные операторы (Bash Operator, Python Operator)

Список практических занятий:

Выполнение и анализ работы Map Reduce приложений
Особенности запуска задач и использование командной строки YARN
Работа с HDFS (интерфейс командной строки)
Импорт/экспорт данных с помощью Apache Sqoop
Использование Apache Hive для анализа данных
Обработка данных с использованием Structured API Apache Spark
Сравнение производительности SQL движков (Hive, Spark, Impala)
Работа в командной строке с Apache HBase
Использование Consumer и Producer API в Apache Kafka
Построение Workflow с использованием Apache Airflow

Программа читается совместно с Школа Больших Данных.

В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.

В современном мире сложно обойтись без информационных технологий и их производных - компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. - не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных.

Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence. Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации.

В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных.

Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас!

В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на основании оценок, полученных обучающимся при проверке усвоения изучаемого материала на основании оценок за практические работы, выполненные в процессе обучения.

Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.

Нужна помощь в поиске курса?
Наша цель заключается в обеспечении подготовки специалистов, когда и где им это необходимо. Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса. Если вам нужен курс, который вы не видите на графике или у нас на сайте, или если Вы хотите пройти курс в другое время и в другом месте, пожалуйста, сообщите нам, по адресу mail@interface.ru или shopadmin@itshop.ru
Поговорите со своим личным тренинг-менеджером!
Мы предоставляет Вам индивидуальное обслуживание. Если у вас есть потребность обсудить, все вопросы касательно обучения, свяжитесь, пожалуйста c нами по телефонам: +7 (495) 925-0049, + 7 (495) 229-0436. Или любым другим удобным для Вас средствами связи, которые Вы можете найти на сайтах www.interface.ru или www.itshop.ru

Курсы обучения

Помощь


	Задать вопрос
	программы
	обучение
	экзамены
	компьютеры

	Бесплатный звонок

	ICQ-консультанты

	Skype-консультанты

Общая справка
Как оформить заказ
Тарифы доставки
Способы оплаты
Прайс-лист
Карта сайта

Бестселлеры

	Основы TOGAF 9
	Atlassian JIRA - система управления проектами и задачами
	Oracle. Программирование на SQL и PL/SQL
	Oracle. Настройка языка SQL
	Моделирование предметной области с использованием Sparx Systems Enterprise Architect
	Администрирование баз данных Oracle
	Java Standard Edition 9 (Java SE9). Язык программирования Java, базовый курс или часть 1
	Выявление и формирование пользовательских требований
	Расширенные возможности управления проектами в JIRA: планирование, контроль, бюджет с применением плагинов Tempo

Новинки

Все новинки »

О нас

Интернет-магазин ITShop.ru предлагает широкий спектр услуг информационных технологий и ПО.

На протяжении многих лет интернет-магазин предлагает товары и услуги, ориентированные на бизнес-пользователей и специалистов по информационным технологиям.

Хорошие отзывы постоянных клиентов и высокий уровень специалистов позволяет получить наивысший результат при совместной работе.

В нашем магазине вы можете приобрести лицензионное ПО выбрав необходимое из широкого спектра и ассортимента по самым доступным ценам. Наши менеджеры любезно помогут определиться с выбором ПО, которое необходимо именно вам. Также мы проводим учебные курсы. Мы приглашаем к сотрудничеству учебные центры, организаторов семинаров и бизнес-тренингов, преподавателей. Сфера сотрудничества - продвижение бизнес-тренингов и курсов обучения по информационным технологиям.

О нас

Главная
Каталог
Новинки
Акции
Вакансии

Помощь

Общая справка
Как оформить заказ
Тарифы доставки
Способы оплаты
Прайс-лист
Карта сайта

Способы оплаты

Проекты Interface Ltd.

Interface.ru ITShop.ru Interface.ru/training Olap.ru ITnews.ru

119334, г. Москва, ул. Бардина, д. 4, корп. 3
+7 (495) 229-0436 shopadmin@itshop.ru