Data Science
Как войти в сферу данных
и найти своё направление:
пошаговый план
Вдохновитесь — это важно
1 Data Science
Наука о данных — о том, как они появляются, обрабатываются и используются в других областях. Она анализирует и придаёт смысл данным,
чтобы на их основе принимать оптимальные решения
2 Big Data
Или большие данные — это структурированные или неструктурированные массивы данных большого объёма. Их обрабатывают при помощи
специальных автоматизированных инструментов, чтобы использовать для статистики, анализа, прогнозов и принятия решений
3 Data-driven
Подход к принятию стратегических решений на основе данных с интеграцией результатов аналитических решений в ключевые бизнес-
процессы компании
Далее поговорим о том, как Data Science изучает данные и какие инструменты использует
Как Data Science изучает данные
● Искусственный интеллект — способность машин
решать творческие задачи. Перед технологиями
искусственного интеллекта стоит задача «научить
машины думать»
● BI-системы — инструмент для построения отчетов для бизнеса, которые помогают перевести данные в
человекочитаемую форму, пригодную для бизнес-анализа
● Jupyter Notebook — удобный инструмент для для изучения данных с использованием языка
программирования Python, так как он позволяет хранить вместе код, изображения, комментарии,
формулы и графики
● Python — язык программирования, который используется для обработки данных и создания моделей
анализа
Востребованность
на рынке труда
Тренд 2021 года — сохранение дефицита IT-
специалистов. В среднем по России на одну IT-
вакансию претендует до двух кандидатов. Ранее более
высокий уровень конкуренции был зафиксирован в
мае 2020 года — самое высокое значение hh-индекса
(соотношения количества активных резюме к
вакансиям) за последние 2 года:
4,1 — в среднем по России
1 Биология
Искусственный интеллект AlphaFold2 в 2020 году смог
предсказать трёхмерную структуру белка
2 Медицина
Создана автоматическая система обработки
изображений в рентгенологии — их анализирует ИИ,
а затем верифицирует врач-рентгенолог
Специалисты востребованы везде
3 Сфера развлечений
Программы для генерации речи могут копировать
голоса людей, создавая аудиодипфейки. Благодаря ИИ
автор мода для игры «Ведьмак 3» смог озвучить
реплики героя голосом актёра дубляжа
4 Дата-журналистика
Необходим ИИ и журналистам — он ищет фейки
и считывает эмоции, помогает в формировании
новостной повестки
ОК, теперь ясно: Data Science — это интересно
и востребовано, но я знаю математику на уровне
средней школы и никогда не работал аналитиком.
Смогу ли я прийти в Data Science?
Математическая база — это здорово, но не критично. Тому, кто знает, будет легче, но знания можно получить
на занятиях и в дополнительных материалах. Важно не только знать, но и уметь применять на практике.
Десятки рабочих алгоритмов и библиотек берут на себя математическую часть без участия человека.
Профессию в сфере Data Science можно освоить с нуля, непрофильный бэкграунд теряет значение для специалистов, проработавших в аналитике
1
более 3–5 лет
Это интересно. Самые неожиданные профессиональные бэкграунды: геммолог, звукорежиссёр, психолог, руководитель складского департамента,
2 госслужащий, музыкальная сфера — бывшие скрипач и пианистка
Какие знания и опыт потребуются
Наш мир подвижен и непредсказуем.
*Прогнозы Агентства стратегических инициатив и Сколково при составлении Атласа новых профессий
Начните со списка возможных задач
Аналитик — одна из важнейших ролей в компании. Глаза, ум и здравый смысл бизнеса. Изучает бизнес,
продукт, рынок, находит точки роста, даёт рекомендации. Повседневная работа аналитика зависит
от отрасли или компании, а также от типа анализа данных, который вы считаете своей специальностью.
Задача: удержать Задача: создать общую Задача: выяснить, с чем Задача: увеличить выручку
пользователя в продукте концепцию процесса связано падение новых торговой точки
аналитики игры скачиваний мобильного
Решение: изучить приложения и удаление Решение: в процессе анализа
взаимодействие клиента Решение: придумать приложений у старых обнаружили неявные
с продуктом, пользу, которую иерархию метрик. Нужно пользователей закономерности
он получает и проблемы, понимать, что отслеживать при покупках. Определили
с которыми сталкивается; в первую очередь, буквально Решение: аналитик выяснил, наиболее загруженные часы
выявить точки роста в режиме онлайн, а на что что в приложение были и рекомендовали привлечь
и представить руководству обращать внимание уже добавлены полезные в это время дополнительных
компании предложения в сессии анализа. Понимать, функции, но оно работников. Это наглядный
по изменениям в продукте, какие метрики в зависимости «потяжелело» на гигабайт, пример интеллектуального
его развитию и повышению от жанра игры и вида что повлекло отказы анализа данных (Data Mining)
ценности монетизации важны, а какие
отнимают время
Начните со списка возможных задач
Data Scientist исследует и анализирует данные, но итоги его работы связаны не только (и не столько)
с анализом и рекомендациями, но и с созданием моделей, обучением машин, работой с big data,
искусственным интеллектом.
Задача: сократить расходы компании на Задача: упростить доступ Задача: оптимизировать диагностику
коммуникацию с клиентами врачей к информации
для более точной Решение: создать программу распознавания
Решение: создать чатбота и автоматизированные
постановки диагноза рака лёгких по КТ-снимкам.
центры обработки вызовов
и поддержки медицинских
решений Использование машинного обучения
при коронарной КТ-ангиографии позволяет
Решение: с помощью лучше прогнозировать риск развития
технологий ИИ неблагоприятных событий со стороны сердца.
оптимизировать поиск
данных Глубокая нейронная сеть позволяет выявлять
в неструктурированной и классифицировать аритмии
Задача: предсказать, вернёт заёмщик кредит или нет медицинской литературе на амбулаторных электрокардиограммах
Решение: создать алгоритм классификации заёмщиков
банка по их кредитоспособности
Начните со списка возможных задач
Дата-инженеры очищают и готовят данные для Data Scientist и аналитиков. Одна из рутинных задач дата-
инженера — перелить данные из исходных (операционных) систем
в хранилище данных.
Задача: перелить данные из исходных (операционных) систем Задача: построить модель — рекомендательную систему
в хранилище данных на сайте онлайн-кинотеатра
Решение: добавить новую ветку в Git с кодом задачи в Jira, создать Решение: создать связанный с сайтом онлайн-кинотеатра
миграцию на добавление данных в якорную модель через скрипт, который на основе базы данных компании будет
интерактивный Python-скрипт, добавить файлы прогрузок, выдавать результат
протестировать на стенде, залить данные в репозиторий, создать pull
request, пройти code review, залить данные в мастер-ветку, после чего
они автоматически раскатываются в продуктив (CI/CD)
Изучите популярные карьерные
направления — Data Analyst
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
Зарплата журналиста в Москве на 40% выше по сравнению с коллегами из регионов. Журналисты, которые
работают в крупных городах, имеют больший потенциал для повышения заработной платы. На зарплату
также влияют специализация и место работы: скажем, в региональных и федеральных СМИ бюджет заметно
отличается.
Трудоустройство Справка: сейчас сглаживаются различия между зарплатой в Москве и в регионах, т. к. многие работают удалённо
1 Hard skills
Работать с SQL, использовать Python и библиотеки — автоматизировать работу с большими массивами,
получать данные из внешних источников, обосновывать выводы, сделанные на основании данных,
строить модели машинного обучения, проверять гипотезы, строить рекомендательные системы
и нейронные сети, выявлять скрытые аномалии в данных
2 Soft skills
Абстрактное мышление на разных уровнях, способность видеть за цифрами и показателями смысл,
находить взаимосвязи и строить гипотезы, способность работать в команде
Пример:
У пиццерии есть исторические данные о заказах в определённом районе. Чтобы подготовить оптимальное количество свежих ингредиентов
на складе в период пиковой нагрузки, нужно спрогнозировать количество заказов на следующий день. Data Scientist должен подобрать
модель для такого предсказания
Аналитик данных (Data Analyst)
1 Hard skills
Работа с данными, сбор и анализ требований заказчиков, знание ключевых математических методов
и основ статистики, умение работать с языками программирования
2 Soft skills
Умение видеть за метриками физический смысл и находить причины и взаимосвязи событий,
способность давать рекомендации бизнесу, умение мыслить абстрактно
Пример:
Руководство интернет-магазина видит, что конверсия в заявку снизилась, при этом никаких существенных изменений в функциональность сайта
не вносили. Аналитик данных собирает данные, на основе этого выдвигает ряд гипотез и начинает их тестировать, чтобы решить текущую проблему
бизнеса
Аналитик-BI
1 Hard skills
Сбор и анализ требований к решению задач, самостоятельное получение, очистка, преобразование данных
и обоснованные выводы на их основе, знание основ статистики и вероятности наступления события,
прототипирование дашбордов без программирования
2 Soft skills
Абстрактное мышление на разных уровнях, способность видеть за цифрами и показателями смысл,
находить взаимосвязи и строить гипотезы, умение работать в команде
Пример:
Руководство интернет-магазина хочет видеть, как у него дела с трафиком и конверсией в заявку. BI-аналитик с помощью готового инструмента
собирает дашборд, на котором собственники могут в легкочитаемой форме видеть эти показатели и быстро замечать, где проблема
Дата-инженер (Data Engineer)
1 Hard skills
Знать архитектуру и структуру базы данных, проектировать схемы хранилищ и выбирать DWH под задачу
и бюджет бизнеса, создавать процессы обработки данных, работать с основными инструментами
обработки больших данных, обрабатывать события в режиме реального времени, понимать, пояснять
и обогащать данные из источников
2 Soft skills
Уметь видеть за метриками физический смысл и находить причины и взаимосвязи событий, понимать
потребности Data Scientist и аналитиков, прогнозировать необходимость масштабирования инфраструктуры,
исходя из задач бизнеса
Пример:
Система для умного дома, которая будет сообщать о неполадках. В этом случае данные нужно собирать и обрабатывать на ходу, такую задачу
под силу решить Data Engineer
Продуктовый аналитик
1 Hard skills
Говорит с программистами и разработчиками на одном языке, работает в Google Analytics, SQL, Google
Sheets, умеет анализировать пользовательские метрики, находить проблемные места в продукте, может
автоматизировать работу с помощью Python и визуализировать данные с Tableau
2 Soft skills
Коммуникация, презентация, лидерство, тайм-менеджмент и самоприоритизация, рroject-management
Пример:
Зная, какие показатели продукта значимы для пользователя, легче соответствовать рынку. Арендодатели долго не могли сдать квартиру,
потому что не знали, как сделать привлекательные фото. Тогда Airbnb взял решение задачи на себя и увеличил выручку компании в разы
Маркетинговый аналитик
1 Hard skills
Подготовка исходных данных для анализа, построение моделей данных из разных источников, настройка
автоматической выгрузки больших объёмов данных через API, прогнозирование в R или Python,
построение сквозной аналитики, анализ динамики изменений, визуализация, написание кастомных формул
на языке запросов DAX, проведение А/В-тестов для повышения конверсии сайта
2 Soft skills
Умение видеть за метриками физический смысл и находить причины и взаимосвязи событий, способность
давать рекомендации бизнесу, умение мыслить абстрактно
Пример:
Руководство интернет-магазина распределило маркетинговый бюджет поровну между каналами и регулярно его увеличивало,
однако не было адекватного роста прибыли. Маркетинговый аналитик, подключив аналитику звонков, выяснил, что значительная часть
бюджета сливалась на неэффективные активности
Игровой аналитик
1 Hard skills
Декомпозирует игровой процесс, проводит A/B-тестирование, находит закономерности в поведении
игроков, чтобы балансировать геймплей и повышать вовлечённость, разрабатывает иерархию метрик
и работает с ними, визуализирует информацию, формирует отчёты для геймдизайнеров, маркетологов
и продюсеров
2 Soft skills
Видеть за метриками физический смысл и находить причины и взаимосвязи событий, быть способным дать
рекомендации бизнесу
Пример:
Почему игроки перестали покупать предметы? Аналитик собрал данные и выяснил, что после последнего обновления слегка поменялся
баланс в нескольких квестах, игроки пробегают все задачи без труда, и потребность в предметах исчезла. В отчёте предложены пути
исправления — например, изменение характеристик мобов в нужных локациях
Дата-журналист
1 Hard skills
Работа с аналитическими библиотеками, визуализация и статистический анализ данных, применение
основных алгоритмов для их обработки, парсинг данных с сайтов и внешних источников
2 Soft skills
Способность увидеть за данными неявные смыслы и связи, стремление докопаться до сути вещей,
аналитическое мышление
Пример:
Подготовка материалов и публикаций, в основе которых лежит большой объём данных. Например, нужна публикация с рейтингом городов
по комфорту и доступности жилья. Для этого дата-журналист должен сравнить статистику по средней зарплате, стоимости квартир, цене
на бензин, количеству экологических катастроф и другим показателям за определённый период
Системный аналитик
1 Hard skills
Владение методами сбора и формализации требований, понимание процессов разработки ПО и этапов
тестирования, написание SQL-запросов для работы с базами данных, базовые навыки прототипирования
интерфейсов, владение инструментами моделирования и ведения документации, владение методами
и приёмами системного анализа
2 Soft skills
Умение находить общий язык с разными участниками процесса, способность понятно формулировать свою
мысль, выявление и решение «закрытых» конфликтов
Пример:
Аналитик, проектируя систему, представляет, как это вообще должно работать. Можно сравнить с домом — как его построить или вставить
кирпичи в готовый, чтобы сделать больше и лучше
Интересная сфера, хочу попробовать
Алгоритм изучения инструментов
Языки программирования:
Python, SQL
Математические и статистические
Интерактивные оболочки, ноутбуки:
инструменты: Zeppelin, Jupiter
Python, numpy, plotly, SciPy, pandas
Не рекомендуем:
Знаю: SQL, Power BI, Python, Excel, Feature Engineering, Jupyter, Tensor Flow, Битрикс
Правильно:
В совершенстве владею: SQL, Power BI, Excel. Немного знаком: Feature Engineering, Jupyter
Раскройте в резюме свои сильные стороны
Описание опыта через достижения, решённые задачи, интересные технические подробности.
2 Укажите, какую часть проекта разработали именно вы
Не рекомендуем:
Работал с данными, осуществлял анализ — и другие общие слова
Правильно:
Разработал алгоритмы предсказания аномалий с использованием ML, что сократило операционные расходы компании в 1,5 раза. Внедрил
алгоритм семантического анализа
Правильно:
Портфолио на LinkedIn, Kaggle или GitHub с наиболее сложными проектами, которые описаны следующим образом: как начался проект, как вы
оценили совокупность задач, какие цели поставили, чем массив данных был интересен. Обязательно остановитесь на результате: чего вы
добились в работе над проектом, достигли ли цели
Раскройте в резюме свои сильные стороны
Также читайте:
Резюме и портфолио для аналитика и Data Scientist: советы HR-специалистов
Кто такой Data Scientist — глазами работодателя
Хорошее резюме не должно
быть больше 1–2 страниц.
Откликаясь на вакансию,
напишите сопроводительное
письмо: почему вам интересна
вакансия, почему ваш опыт
релевантен, какие у вас
любимые профессиональные
книги и ресурсы
Используйте бесплатные источники информации
Для специалиста по работе с данными важно постоянно развиваться, следить за трендами индустрии.
Выше мы уже дали ссылки на статьи и вебинары, с помощью которых можно сориентироваться в сфере
и понять, куда двигаться дальше. Добавим к ним ещё несколько источников информации на русском
и английском языках.
Все о программировании, анализе данных и data science. От Портал с туториалами для начинающих
новостей и кейсов, до полезных материалов и вакансий
● t.me/opendatascience
● Хайтек
Telegram-канал с новостями об AI, больших данных, машинном
Медиа про высокие технологии в России обучении, статистике
Система тематических коллективных блогов Портал о Data Science с форумом, полезными статьями
про информационные технологии, бизнес и интернет и вакансиями