Курс: Анализ больших данных с помощью Microsoft R

Продолжительность курса: 24 ак. ч.

Формат обучения:
• Очно - на территории нашего учебного центра или на территории Заказчика (для корпоративных клиентов)
• Онлайн обучение с помощью вебинаров в режиме "здесь и сейчас"
• Дистанционно с помощью системы СДО в любое удобное для вас время

Описание курса:
Цель курса: Предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.

Аудитория:
Цель курса: Предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.

Необходимая подготовка:
• Опыт программирования на R и знакомство с основными пакетами
• Знание общих статистических методов и рекомендованных методов анализа данных
• Базовые знания операционной системы Windows и ее основных возможностей

Результат обучения:
После изучения курса слушатель будет уметь:
• Описать работу Microsoft R
• Использовать клиента R и Server R для обработки больших данных из разных хранилищ
• Визуализировать данные с помощью графиков и схем
• Преобразовывать и зачищать наборы больших данных
• Использовать способы разделения аналитических задач на параллельные задачи
• Построить и оценить регрессионные модели, генерируемые на основе больших данных
• Создать, оценить и разворачивать партиционированных моделей на основе больших данных
• Использовать язык R в средах SQL Server и Hadoop

Программа курса:
Модуль 1. Сервер и клиент Microsoft R
• Обзор сервера Microsoft R
• Использование клиента Microsoft R
• Функции ScaleR
• Лабораторная работа. Обзор сервера и клиента Microsoft R
• Использование клиента R в VSTR и RStudio
• Обзор функций ScaleR
• Подключение к удалённому серверу

Модуль 2. Обзор больших данных
• Источники данных ScaleR
• Чтение данных в XDF-объекте
• Обобщение данных в XDF-объекте
• Лабораторная работа. Обзор больших данных
• Чтение локального CSV-файла и передача данных в XDF-файл
• Преобразование данных на входе
• Чтение данных из SQL Server и передача в XDF-файл
• Подведение итогов в XDF-файле

Модуль 3. Визуализация больших данных
• Визуализация данных в памяти
• Визуализации больших данных
• Лабораторная работа. Визуализация данных
• Использование ggplot для создания многогранной диаграммы с наложением
• Использование rxlinePlot и rxHistogram

Модуль 4. Обработка больших данных
• Преобразование больших данных
• Управление наборами данных
• Лабораторная работа. Обработка больших данных
• Преобразование больших данных
• Сортировка и слияние больших данных
• Подключение к удаленному серверу

Модуль 5. Распараллеливание операций анализа
• Использование вычислительного контекста RxLocalParallel с функцией rxExec
• Использование пакета revoPemaR
• Лабораторная работа. Использование rxExec и revoPemaR для распараллеливания операций
• Использование rxExec для оптимизации использования ресурсов
• Создание и применение класса PEMA

Модуль 6. Создание и оценка регрессионной модели
• Кластеризации больших данных
• Создание регрессионных моделей и подготовка прогнозов
• Лабораторная работа. Создание линейной регрессионной модели
• Создание кластера
• Создание регрессионной модели
• Генерация данных для составления прогнозов
• Использование модели для составления прогнозов и сравнение результатов

Модуль 7. Создание и оценка партиционированных моделей (Partitioning Model)
• Создание партиционированных моделей на основе дерева решений
• Тестирование прогнозов партиционированных моделей
• Лабораторная работа. Создание и оценка партиционированных моделей
• Разбиение набора данных
• Построение моделей
• Подготовка прогноза и тестирование результатов
• Сравнение результатов

Модуль 8. Обработка больших данных в SQL Server и Hadoop
• Использование R в SQL Server
• Использование Map/Reduce в Hadoop
• Использование Hadoop Spark
• Лабораторная работа. Обработка больших данных в SQL Server и Hadoop
• Создание модели и прогнозирования результатов в SQL Server
• Анализ и вывод результата с помощью Map/Reduce в Hadoop
• Интеграция скрипта sparklyr в рабочий процесс ScaleR

Окончательная цена указывается в договоре на обучение.

Характеристики курса

Начало: Ведется набор
Вендор: Microsoft
Код курса: 20773
Город: Екатеринбург, Пермь, Челябинск, Самара, Ижевск, Киров, Москва,
Направление: Курсы для IT-специалистов
Академических часов: 24
Количество мест: 8
Очно: 25900 ₽
Дистанционно: 25900 ₽

Записаться на курс