Академический Документы
Профессиональный Документы
Культура Документы
курса
10 проекто в портфолио
Карта курса
Инженер данных
Веб-разработчик плюс
0 I II
данных, ETL
— Промежуточный проект
— Проверка качества данных, DataOps
Performance at scale
— Потоковая обработка данных
— Облачные технологии
Ворк опы ш
о профессии .
• P ost eSQL
gr
Data Governance / Data Operations
В этом модуле вы изучите DataOps (от англ. Data Operations — «операции
с данными»): начнёте с простых задач по доставке и обработке данных,
а закончите работой с метриками и контролем качества данных.
Спринт 1
Актуализация модели данных
Технологии
• SQL
2 недели
Компания продолжает погружать вас в свои процессы.
24+ часа
Данные, с которыми вы работали, обновились, поэтому Проект
1 проект необходимо изменить модель данных.
Построите витрину данных
с инкрементальной загрузкой
В этом курсе вы:
Спринт 2
DWH: пересмотр модели данных
Технологии
• SQL
1 проект Проект
В этом курсе вы:
Приведёте в порядок модель
— продумаете процесс перехода со старой схемы БД
данных и осуществите
на новую с минимизацией потерь для бизнеса (zero-
миграцию данных в рамках
downtime deployment),
существующего хранилища
— учтёте возможные проблемы и спроектировать вариант
интернет-магазина
отката изменений,
— реализуете новую структуру БД и адаптируете её под
существующие процессы вокруг данных.
Спринт 3
ETL : автоматизация подготовки данных
Технологии
• Python
3 недели
О хранилище данных компании вы теперь знаете почти
36+ часов
всё. Пришло время пересмотреть ETL-процессы.
Инструменты
1 проект • Airflow
В этом курсе вы:
— автоматизируете пайплайн данных,
Проект
— настроите автоматическую выгрузку данных Построите для e-commerce-
из источников,
проекта пайплайн
— научитесь регулярно и инкрементально загрузите автоматизированного
данные в БД. получения, обработки
и загрузки данных (ETL)
от источников до витрины
Спринт 4
DataOps: проверка качества данных
Технологии
• Python
1 неделя
Вы хотите быть уверены, что ваши первые пайплайны
12+ часов работают нормально. Качество данных необходимо Инструменты
проверять, а поломки — вовремя отслеживать.
• Airflow
• Grafana
В этом курсе вы:
— поймёте, как пользоваться метаинформацией
и документацией,
— измерите качество данных,
— построите несколько метрик качества данных,
— настроите по метрикам уведомления о состоянии
инфраструктуры.
Каникулы
Data at scale
Вы научились обрабатывать данные и теперь готовы к более сложной
задаче — проектировке хранилища. Сначала создадите классический
DWH (от англ. Data Warehouse — «хранилище данных»), а затем построите
Data Lake для больших данных.
Спринт 5
CDC: работа с RDBMS
Технологии
• PostgreSQL
2 недели
Вы продолжаете исследовать DWH, потому что развитие
24+ часа
компании и, следовательно, увеличение объёма данных Проект
1 проект не остановить.
Спроектируете и реализуете
DWH для инхаус-стартапа
В этом курсе вы:
— построите DWH с нуля на реляционной СУБД,
— изучите систему CDC (от англ. Change Data Capture —
«отслеживание изменённых данных»).
Спринт 6
Работа с NoSQL
Технологии
• MongoDB
• LogStash
Спринт 7
ELT: организация Data Lake
Технологии
• HDFS
Спринт 8
Промежуточный проект
Проект на выбор
1 неделя
Примените изученные навыки, чтобы самостоятельно
12+ часов реализовать проект: подберёте архитектуру и технологии,
запустите процессы, протестируете и презентуете
результат.
Каникулы
Performance at scale
В этом модуле вы научитесь обрабатывать потоковые данные
в реальном времени, а также изучите эластичность систем на примере
облачных технологий.
Спринт 9
Потоковая обработка данных
Технологии
• Celery
Спринт 10
Облачные технологии
Технологии
• Яндекс.Облако
Проект
В этом курсе вы познакомитесь с облачными базами
Разработаете инфраструктуры
данных, а также с облачными системами визуализации
хранения и обработки данных
и обработки данных.
в облаке
Выпускной проект
Устроитесь на работу в IT-компанию как начинающий инженер данных
и попробуете выполнить своё первое задание — получите от лида
требования и построите по ним витрину данных.
Практикум Продолжительность курса
2 месяца
Программа трудоустройства
В дополнение к основной образовательной программе вы можете пройти
трек трудоустройства, чтобы быстрее найти новую работу. Программа
включает руководства, вебинары, домашние задания. Каждая секция трека
длится 2 недели и занимает около 10 часов.
Резюме
Интервью
Н етвор ин и поис р от
к г к аб ы