Вы находитесь на странице: 1из 48

Цветные иллюстрации 1

1
Знакомство с Kaggle
и другими соревнованиями
по науке о данных

Рис. 1.1. Диаграмма активности пользователей Kaggle в 2018–2020 гг.


Цветные иллюстрации 2

Рис. 1.2. Страница соревнования на Kaggle

Рис. 1.3. Заготовка для блокнота Kaggle


Цветные иллюстрации 3

Рис. 1.4. Диаграмма, демонстрирующая, как вычисляется результат для публичной


(public leaderboard) и частной (private leaderboard) таблиц результатов
Цветные иллюстрации 4

2
Организация данных

Рис. 2.1. Популярные датасеты на Kaggle


Цветные иллюстрации 5

Рис. 2.2. Страница Datasets

Рис. 2.3. Ввод данных о датасете


Цветные иллюстрации 6

Рис. 2.4. Загрузка датасета с GitHub

Рис. 2.5. Вкладка Data


Цветные иллюстрации 7

Рис. 2.6. Датасеты с твитами — одни из самых популярных

Рис. 2.7. Создание блокнота со страницы датасета


Цветные иллюстрации 8

Рис. 2.8. Начало работы с блокнотом, использующим датасет

Рис. 2.9. Создание нового токена API

Рис. 2.10. Загрузка json-файла на Google Drive


Цветные иллюстрации 9

Рис. 2.11. Копируем команду API


Цветные иллюстрации 10

3
Работаем и учимся
с Kaggle Notebooks

Рис. 3.1. Создание нового блокнота из раздела Code


Цветные иллюстрации 11

Рис. 3.2. Создание нового блокнота со страницы Dataset

Рис. 3.3. Страница блокнота


Цветные иллюстрации 12

Рис. 3.4. Настройки блокнота

Рис. 3.5. Ответвление от существующего блокнота


Цветные иллюстрации 13

Рис. 3.6. Сохраните свой скрипт

Рис. 3.7. Разные опции для сохранения


Цветные иллюстрации 14

Рис. 3.8. Отслеживание активных событий

Рис. 3.9. Отмена выполнения блокнота

Рис. 3.10. Связь с GitHub


Цветные иллюстрации 15

Рис. 3.11. Связь с GitHub

Рис. 3.12. Сохранение кода на GitHub


Цветные иллюстрации 16

Рис. 3.13. Статистика использования вычислительных ресурсов

Рис. 3.14. Переход на платформу Google Cloud AI


Цветные иллюстрации 17

Рис. 3.15. Запрос на обновление до Google Cloud AI Platform Notebook

Рис. 3.16. Блокнот Конрада в результатах поиска Google


Цветные иллюстрации 18

Рис. 3.17. Требования для присвоения званий

Рис. 3.18. Профиль Конрада на Kaggle


Цветные иллюстрации 19

4
Используем форумы

Рис. 4.1. Переходим на страницу Discussions из главного меню


Цветные иллюстрации 20

Рис. 4.2. Обсуждения, относящиеся к различным разделам Kaggle

Рис. 4.3. Фильтры для обсуждений


Цветные иллюстрации 21

Рис. 4.4. Выдача результатов при фильтрации по тегу Beginner

Рис. 4.5. Темы, касающиеся компьютерного зрения, на общем форуме


Цветные иллюстрации 22

Рис. 4.6. Форум одного из конкурсов

Рис. 4.7. Добавление темы в закладки


Цветные иллюстрации 23

Рис. 4.8. Список закладок в пользовательском профиле


Цветные иллюстрации 24

5
Задачи и метрики на соревнованиях

Рис. 5.1. Матрица несоответствий с нормализацией


Цветные иллюстрации 25

Рис. 5.2. Ломаная точности/полноты с характерными ступеньками

Рис. 5.3. ROC-кривые и площади под ними


Цветные иллюстрации 26

Рис. 5.4. Задачи компьютерного зрения


(источник: https://cocodataset.org/#explore?id=68717, https://cocodataset.org/#explore?id=38282)

Рис. 5.5. Семантическая сегментация и сегментация экземпляров на одном изображении


(источник: https://cocodataset.org/#explore?id=338091)

Рис. 5.6. Вычисление IoU


Цветные иллюстрации 27

Рис. 5.7. Вычисление коэффициента Дайса


Цветные иллюстрации 28

6
Построение схемы валидации

Рис. 6.1. Улучшение результатов на обучающем множестве не всегда приводит


к лучшим предсказаниям
Цветные иллюстрации 29

Рис. 6.2. Схема контроля по 5 блокам

Рис. 6.3. Разбиение данных на обучающие и контрольные по времени

Рис. 6.4. Обучающее множество растет с течением времени

Рис. 6.5. Обучающее и тестовое множества постепенно смещаются


Цветные иллюстрации 30

Рис. 6.6. Внутренний и внешний циклы вложенной кросс-валидации


Цветные иллюстрации 31

7
Моделирование
для табличных данных

Рис. 7.1. Кластеры на диаграмме t-SNE

Рис. 7.2. На диаграмме t-SNE


легко выделить области,
где преобладает положительный класс
Цветные иллюстрации 32

Рис. 7.3. График значений лямбд (на оси y)


в зависимости от f и количества примеров (на оси x)

Рис. 7.4. "Бутылочное горлышко".


Признаками становятся только веса среднего слоя
Цветные иллюстрации 33

Рис. 7.5. Глубокий стек. Признаками становятся веса всех скрытых слоев

Рис. 7.6. Как работает слой встраивания


Цветные иллюстрации 34

9
Ансамбли: блендинг и стекинг

Рис. 9.1. Диаграмма двухуровневого стекинга с усреднением итоговых предсказаний


Цветные иллюстрации 35

10
Моделирование
в компьютерном зрении

Рис. 10.1. Изображение


Бетти Уайт

Рис. 10.2. Изображение Бетти Уайт, перевернутое по вертикали (слева) и по горизонтали (справа)
Цветные иллюстрации 36

Рис. 10.4. Изображение Бетти Уайт,


обрезанное

Рис. 10.3. Изображение Бетти Уайт повернуто


по часовой стрелке

Рис. 10.5. Контрольное изображение


Цветные иллюстрации 37

Рис. 10.6. Коллекция аугментированных изображений

Рис. 10.7. Образцы изображений с соревнования Severstal


Цветные иллюстрации 38

Рис. 10.8. Изображение, аугментированное с помощью библиотеки albumentations

Рис. 10.9. Выборочные активации из подогнанной модели

Рис. 10.10. Образцы визуализации изображений обнаруженных головок пшеницы


Цветные иллюстрации 39

Рис. 10.11. Форматы аннотаций для ограничивающих рамок

Рис. 10.12. Позиционирование аннотации Yolo

Рис. 10.13. Обучающие данные с аннотациями


Цветные иллюстрации 40

Рис. 10.14. Валидационные данные с аннотациями


Цветные иллюстрации 41

Рис. 10.15. Визуальное представление RLE

Рис. 10.16. Вывод результата обучения от Detectron2


Цветные иллюстрации 42

Рис. 10.17. Визуализация образца предсказания


от Detectron2 рядом с исходным изображением

Рис. 10.18. Форматированное представление от обученной модели Detectron2


Цветные иллюстрации 43

11
Моделирование для обработки
естественного языка

Рис. 11.1. Выборка строк из обучающих данных

Рис. 11.2. Примеры строк из прогнозируемых результатов


Цветные иллюстрации 44

Рис. 11.3. Выборка строк из обучающих данных


Цветные иллюстрации 45

12
Соревнования по моделированию
и оптимизации

Рис. 12.1. Доска Connect X

Рис. 12.2. Матрица расчетов для игры "Камень, ножницы, бумага"


Цветные иллюстрации 46

Рис. 12.3. Снимок из визуализированной среды,


оценивающий производительность агента

Рис. 12.4. Форма плотности вероятности бета-распределения


для различных комбинаций параметров (a, b)
Цветные иллюстрации 47

Рис. 12.5. Снимок экрана из визуализированной среды, оценивающий работу агента

Рис. 12.6. Игровое поле Halite


Цветные иллюстрации 48

13
Создание портфолио проектов
и идей

Рис. 13.1. Заголовок визуализированного файла на GitHub.


Обратите внимание на кнопку Raw в правой верхней части панели заголовка

Рис. 13.2. Электронное письмо Kaggle,


анонсирующее серию видеороликов от команды Kaggle

Вам также может понравиться