Вы находитесь на странице: 1из 5

Практикум ПродолжительностьКарта

курса 6,5 месяцев

курса
10 проекто в портфолио

Карта курса

Инженер данных
Веб-разработчик плюс
0 I II

Вводная часть Data Governance / Data Operations Data at scale


Простая витрина данных — Актуализация модели данных
— Работа с RDBMS, CDC

— Пересмотр модели данных, DWH


— Работа с NoSQL

— Автоматизация подготовки 
 — Организация Data Lake, ELT

данных, ETL
— Промежуточный проект
— Проверка качества данных, DataOps

III Дипломный проект

Performance at scale
— Потоковая обработка данных

— Облачные технологии

Ворк опы ш

Ворк оп — то онлайн-занятие, которое проводит наставник а тих


ш э . Н э

занятиях вы ре ите новые задачи из практики инженера данных,


ш

разбер те и улуч ите собственные учебные проекты, узнаете боль е


ё ш ш

о профессии .

В каждом спринте будет от одного до тр х ворк опов Они будут проходить


ё ш .

в течение всей программы в фиксированное время .

Простая витрина данных 5 часов

Устроитесь на работу в T-компанию как начинаю ий инженер данных


I щ И нстр менты
у

и попробуете выполнить сво первое задание — получите от лида


ё • SQL и t o
Py h n

требования и построите по ним витрину данных . • Meta as


b e

• P ost eSQL
gr
Data Governance / Data Operations
В этом модуле вы изучите DataOps (от англ. Data Operations — «операции
с данными»): начнёте с простых задач по доставке и обработке данных,
а закончите работой с метриками и контролем качества данных.

Спринт 1
Актуализация модели данных
Технологии
• SQL
2 недели
 Компания продолжает погружать вас в свои процессы.
24+ часа
 Данные, с которыми вы работали, обновились, поэтому Проект
1 проект необходимо изменить модель данных.
Построите витрину данных
с инкрементальной загрузкой
В этом курсе вы:

для аналитики аудитории


- разберётесь, как в компании строят БД,
 интернет-магазина
- обновите структуру текущей БД в соответствии 

с новыми требованиями бизнеса,

- подготовите новые витрины и метрики для аналитиков
и менеджеров.

Спринт 2
DWH: пересмотр модели данных
Технологии
• SQL

3 недели
 Компания растёт, архитектура данных усложняется. 



• Python
36+ часов
 Вам дают задание — оптимизировать процессы с данными.

1 проект Проект
В этом курсе вы:

Приведёте в порядок модель
— продумаете процесс перехода со старой схемы БД
данных и осуществите
на новую с минимизацией потерь для бизнеса (zero-
миграцию данных в рамках
downtime deployment),

существующего хранилища
— учтёте возможные проблемы и спроектировать вариант
интернет-магазина
отката изменений,

— реализуете новую структуру БД и адаптируете её под
существующие процессы вокруг данных.

Спринт 3
ETL : автоматизация подготовки данных
Технологии
• Python
3 недели
 О хранилище данных компании вы теперь знаете почти
36+ часов
 всё. Пришло время пересмотреть ETL-процессы.
Инструменты
1 проект • Airflow
В этом курсе вы:

— автоматизируете пайплайн данных,
 Проект
— настроите автоматическую выгрузку данных Построите для e-commerce-
из источников,
 проекта пайплайн
— научитесь регулярно и инкрементально загрузите автоматизированного
данные в БД. получения, обработки
и загрузки данных (ETL)
от источников до витрины

Спринт 4
DataOps: проверка качества данных
Технологии
• Python
1 неделя
 Вы хотите быть уверены, что ваши первые пайплайны
12+ часов работают нормально. Качество данных необходимо Инструменты
проверять, а поломки — вовремя отслеживать.
• Airflow

• Grafana
В этом курсе вы:

— поймёте, как пользоваться метаинформацией
и документацией,

— измерите качество данных,

— построите несколько метрик качества данных,

— настроите по метрикам уведомления о состоянии
инфраструктуры.

Каникулы
Data at scale
Вы научились обрабатывать данные и теперь готовы к более сложной
задаче — проектировке хранилища. Сначала создадите классический 

DWH (от англ. Data Warehouse — «хранилище данных»), а затем построите
Data Lake для больших данных.

Спринт 5
CDC: работа с RDBMS
Технологии
• PostgreSQL
2 недели
 Вы продолжаете исследовать DWH, потому что развитие
24+ часа
 компании и, следовательно, увеличение объёма данных Проект
1 проект не остановить.
Спроектируете и реализуете
DWH для инхаус-стартапа
В этом курсе вы:

— построите DWH с нуля на реляционной СУБД,

— изучите систему CDC (от англ. Change Data Capture —
«отслеживание изменённых данных»).

Спринт 6
Работа с NoSQL
Технологии
• MongoDB

2 недели
 Специфичных неструктурированных данных, которые тоже


• ClickHouse
24+ часа
 надо хранить и обрабатывать, становится больше. Чтобы
1 проект с ними разобраться, вы обращаетесь к NoSQL базам Инструменты
данных.
• ElasticSearch

• LogStash

В этом курсе вы:



• Kibana
— изучите организацию хранилища в NoSQL,

— познакомитесь с объектными и TimeSeries Проект
хранилищами,
 Построите DWH для
— узнаете, как интегрировать разные системы 
 высоконагруженной системы
в единый DWH,
 малоструктурированных
— рассчитаете нагрузку и масштабирование хранилища,
 данных мессенджера
— соберёте логи в ELK-стек. с использованием NoSQL

Спринт 7
ELT: организация Data Lake
Технологии
• HDFS

4 недели
 Классические решения не помогают справиться


• MapReduce
48+ часов
 с объёмом данных. Вам необходимо применить 

1 проект ELT-подход — объединить систему хранения 
 Инструменты
и обработки данных.
• Apache Spark
В этом курсе вы:
 Проект
— разберёте шаги и особенности ELT-подхода,
 Построите Data Lake, а также
— рассмотрите архитектуру Data Lake (пер. «озеро автоматизируете загрузку
данных»),
 и обработку данных в нём
— научитесь обрабатывать данные в MPP-системе,
— примените навыки автоматизации и масштабирования
к новой задаче.

Спринт 8
Промежуточный проект
Проект на выбор
1 неделя
 Примените изученные навыки, чтобы самостоятельно
12+ часов реализовать проект: подберёте архитектуру и технологии,
запустите процессы, протестируете и презентуете
результат.

Каникулы
Performance at scale
В этом модуле вы научитесь обрабатывать потоковые данные 

в реальном времени, а также изучите эластичность систем на примере
облачных технологий.

Спринт 9
Потоковая обработка данных
Технологии
• Celery

3 недели
 Трудности с большим объёмом данных вы победили,


• Kafka

36+ часов
 но появилась новая задача — нужно помочь бизнесу


• Spark Streaming
1 проект быстрее принимать решения. Тут понадобятся знания
потоковой обработки данных (англ. streaming).
Проект
Разработаете систему real-time
В этом курсе вы:

обработки данных
— рассмотрите особенности потоковой обработки данных
в stateful и stateless системах,

— изучите Kappa- и Lambda-архитектуры потоковой
обработки и построите свою стриминговую систему,

— построите витрину с использованием real-time данных,

— узнаете больше про очередь и брокер сообщений,
потоки.

Спринт 10
Облачные технологии
Технологии
• Яндекс.Облако

3 недели
 Теперь вы умеете работать и большими объёмами данных,


• AWS (кратко)

36+ часов
 и с потоками. Осталось только автоматизировать


• GCP (кратко)
1 проект масштабирование систем с помощью облачных сервисов.

Проект
В этом курсе вы познакомитесь с облачными базами
Разработаете инфраструктуры
данных, а также с облачными системами визуализации
хранения и обработки данных
и обработки данных.
в облаке

Выпускной проект
Устроитесь на работу в IT-компанию как начинающий инженер данных
и попробуете выполнить своё первое задание — получите от лида
требования и построите по ним витрину данных.
Практикум Продолжительность курса
2 месяца

Программа трудоустройства
В дополнение к основной образовательной программе вы можете пройти
трек трудоустройства, чтобы быстрее найти новую работу. Программа
включает руководства, вебинары, домашние задания. Каждая секция трека
длится 2 недели и занимает около 10 часов.

Резюме

— Изучите подходы к составлению резюме.



— Разберётесь в стратегиях поиска работы.

— Сформируете резюме совместно со специалистом
по трудоустройству.

Портфолио и сопроводительное письмо

— Научитесь создавать портфолио на сервисе GitHub.



— Изучите подходы к написанию сопроводительного письма.

— Сформируете сопроводительное письмо со специалистом
по трудоустройству.

Интервью

— Научитесь презентовать себя и легче проходить собеседования.

Н етвор ин и поис р от
к г к аб ы

— Начнёте погружаться в профессиональное сооб ество.



щ

— знаете, где искать работу.


У

Вам также может понравиться