Формат обучения:
• Очно - на территории нашего учебного центра или на территории Заказчика (для корпоративных клиентов)
• Онлайн обучение с помощью вебинаров в режиме "здесь и сейчас"
• Дистанционно с помощью системы СДО в любое удобное для вас время
Описание курса:
Цель курса: Предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.
Аудитория:
Цель курса: Предоставить слушателям знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.
Необходимая подготовка:
• Опыт программирования на R и знакомство с основными пакетами
• Знание общих статистических методов и рекомендованных методов анализа данных
• Базовые знания операционной системы Windows и ее основных возможностей
Результат обучения: После изучения курса слушатель будет уметь:
• Описать работу Microsoft R
• Использовать клиента R и Server R для обработки больших данных из разных хранилищ
• Визуализировать данные с помощью графиков и схем
• Преобразовывать и зачищать наборы больших данных
• Использовать способы разделения аналитических задач на параллельные задачи
• Построить и оценить регрессионные модели, генерируемые на основе больших данных
• Создать, оценить и разворачивать партиционированных моделей на основе больших данных
• Использовать язык R в средах SQL Server и Hadoop
Программа курса: Модуль 1. Сервер и клиент Microsoft R
• Обзор сервера Microsoft R
• Использование клиента Microsoft R
• Функции ScaleR
• Лабораторная работа. Обзор сервера и клиента Microsoft R
• Использование клиента R в VSTR и RStudio
• Обзор функций ScaleR
• Подключение к удалённому серверу
Модуль 2. Обзор больших данных
• Источники данных ScaleR
• Чтение данных в XDF-объекте
• Обобщение данных в XDF-объекте
• Лабораторная работа. Обзор больших данных
• Чтение локального CSV-файла и передача данных в XDF-файл
• Преобразование данных на входе
• Чтение данных из SQL Server и передача в XDF-файл
• Подведение итогов в XDF-файле
Модуль 3. Визуализация больших данных
• Визуализация данных в памяти
• Визуализации больших данных
• Лабораторная работа. Визуализация данных
• Использование ggplot для создания многогранной диаграммы с наложением
• Использование rxlinePlot и rxHistogram
Модуль 4. Обработка больших данных
• Преобразование больших данных
• Управление наборами данных
• Лабораторная работа. Обработка больших данных
• Преобразование больших данных
• Сортировка и слияние больших данных
• Подключение к удаленному серверу
Модуль 5. Распараллеливание операций анализа
• Использование вычислительного контекста RxLocalParallel с функцией rxExec
• Использование пакета revoPemaR
• Лабораторная работа. Использование rxExec и revoPemaR для распараллеливания операций
• Использование rxExec для оптимизации использования ресурсов
• Создание и применение класса PEMA
Модуль 6. Создание и оценка регрессионной модели
• Кластеризации больших данных
• Создание регрессионных моделей и подготовка прогнозов
• Лабораторная работа. Создание линейной регрессионной модели
• Создание кластера
• Создание регрессионной модели
• Генерация данных для составления прогнозов
• Использование модели для составления прогнозов и сравнение результатов
Модуль 7. Создание и оценка партиционированных моделей (Partitioning Model)
• Создание партиционированных моделей на основе дерева решений
• Тестирование прогнозов партиционированных моделей
• Лабораторная работа. Создание и оценка партиционированных моделей
• Разбиение набора данных
• Построение моделей
• Подготовка прогноза и тестирование результатов
• Сравнение результатов
Модуль 8. Обработка больших данных в SQL Server и Hadoop
• Использование R в SQL Server
• Использование Map/Reduce в Hadoop
• Использование Hadoop Spark
• Лабораторная работа. Обработка больших данных в SQL Server и Hadoop
• Создание модели и прогнозирования результатов в SQL Server
• Анализ и вывод результата с помощью Map/Reduce в Hadoop
• Интеграция скрипта sparklyr в рабочий процесс ScaleR
Окончательная цена указывается в договоре на обучение.
Характеристики курса
Начало: Ведется набор
Вендор: Microsoft
Код курса: 20773
Город: Екатеринбург, Пермь, Челябинск, Самара, Ижевск, Киров, Москва,