👨‍💻DEV [Евгений Ермаков, Валерий Соколов] [Karpov.Courses] Инженер данных. Все части (2023)

Odyvanchik · 28.02.2026

[Евгений Ермаков, Валерий Соколов] [Karpov.Courses_0.png

[Евгений Ермаков, Валерий Соколов] [Karpov.Courses] Инженер данных. Все части (2023)

НАУЧИТЕСЬ ПРАВИЛЬНО ГОТОВИТЬ ДАННЫЕ ЛЮБЫХ РАЗМЕРОВ И СЛОЖНОСТИ

Обучающие выборки для машинного обучения и красивые графики для отчётов не появляются сами собой: данные нужно собирать, хранить, валидировать и комбинировать между собой, быстро реагируя на изменения в их структуре.

ДЛЯ КОГО ЭТОТ КУРС:

ИНЖЕНЕР ДАННЫХ

Уже работаете с хранилищами данных, но хотите систематизировать знания и глубже погрузиться в актуальные технологии.

АНАЛИТИК ДАННЫХ

Постоянно взаимодействуете с базами данных, но хотите лучше разобраться в ETL-процессах и выйти на качественно новый уровень в аналитике.

BI-РАЗРАБОТЧИК

Занимаетесь развитием систем бизнес-аналитики, хотите освоить архитектуру современных хранилищ данных и научиться их проектировать.

BACKEND-РАЗРАБОТЧИК

Имеете опыт бэкенд-разработки и хотите применить его для решения задач, связанных с хранением и обработкой больших данных.

РАБОТАЙТЕ С ДАННЫМИ В ЛЮБЫХ СИСТЕМАХ

— Изучайте архитектуру хранилищ данных и подходы к их проектированию

— Сравнивайте на практике Big Data решения на базе Hadoop и реляционные MPP СУБД

— Учитесь работать с облаками и автоматизировать ETL-процессы с помощью Airflow

ПРОГРАММА КУРСА:

1. РЕЛЯЦИОННЫЕ И MPP СУБД

Начнём погружение в инженерию данных со знакомства с реляционными и MPP базами данных. Рассмотрим их архитектуру, обсудим популярные решения и узнаем, в каких случаях MPP СУБД оказываются лучше традиционных. Научимся готовить PostgreSQL и MPP базы данных на примере Greenplum.

2. АВТОМАТИЗАЦИЯ ETL-ПРОЦЕССОВ

ETL — ключевой процесс в управлении хранилищами данных. Рассмотрим принципы и основные этапы его построения. Познакомимся с популярным инструментом Airflow, подробно разберём его основные компоненты и научимся с его помощью автоматизировать ETL-пайплайны.

3. BIG DATA

Познакомимся с механизмами распределённого хранения больших данных на базе Hadoop, разберём основные паттерны реализации их распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Поговорим о потоковой обработке данных, методах и средствах мониторинга и профилирования заданий Spark.

4. ПРОЕКТИРОВАНИЕ DWH

Data Warehouse — централизованное хранилище данных из разных

—————————————————————————

🔗 Продажник:

Доступно пользователям: Зарегистрированный

📥 СКАЧАТЬ КУРС:

Для просмотра содержимого вам необходимо Войти или Зарегистрироваться.

👨‍💻DEV [Евгений Ермаков, Валерий Соколов] [Karpov.Courses] Инженер данных. Все части (2023)

Odyvanchik

Похожие курсы