Проектный раунд 1 (CV)

📝
Проектный раунд 1 (CV)
1. Работа с Толокой
Составили подробную инструкцию того, как отличить российские гражданские

номера от всех остальных. Отдельный акцент сделали на отличие российских
военных номеров от гражданских, особенностях номеров гражданской
спецтехники РФ, а также номеров СССР, ДНР и ЛНР.
Дополнили инструкцию наглядными примерами в виде картинок.
Создали пул из 5 бесплатных тренировочных, которые толокоерам нужно было

выполнить без единой ошибки для перехода к остальным. В них постарались
учесть самые каверзные случаи.
Создали 78 контрольных заданий. Около половины контрольных заданий

составляют российские гражданские номера, оставшаяся половина
распределилась поровну между всеми классами неподходящих номеров
(”классические” нероссийские, российская военная техника, номера ДНР,
номера ЛНР, номера СССР).
Ввели дополнительный скилл classification_quality, в который после 3 ответов

исполнителя записывается процент верных. Отсеиваем толокеров с
classification_quality менее 80%.
Минимальное время выполнения задания - 10 сек
На странице 10 заданий: 9 обычных и 1 контрольное
Цена за страницу - $0.01
2. Создание пайплайна обучения и тренировка моделей
Создали класс датасета для хранения информации о картинках и

аугментациях.
Проектный раунд 1 (CV) 1

Подобрали набор преобразований картинок для стандартизации их размеров
и набор аугментаций для увеличения разнообразия тренировочного
множества.
Посчитали по каналам среднее и дисперсию аугментированного датасета и

нормализовали данные.
Тренировочные данные разбили на train/val в соотношении 4:1.
Поресерчили модели, выбрали MobileNetV2 и MicroNet-M3, т.к. для них есть

публичные веса, предобученные на ImageNet, и при замене слоя-
классификатора для 1000 классов на слой для бинарной классификации,
число их параметров удовлетворяет ограничениям в задании.
Обучили и сравнили результаты предобученных на ImageNet моделей

MobileNetV2 и MicroNet-M3 (https://github.com/liyunsheng13/micronet).
Остановили свой выбор на второй из них. Обучили 4 версий MicroNet-M3.
Создали двухуровневый классификатор из четырех обученных сеток и catboost

в качестве классификатора второго уровня
С деталями выбора гиперпараметров обучения можно ознакомиться в нашем

репозитории в wandb: https://wandb.ai/ysda-labelling-course-team/YSDA-
Labelling-Course-Project-Round-1 и на GitHub: https://github.com/uvd174/YSDA-
Labelling-Course-Project-Round-1
Проектный раунд 1 (CV) 2

Проектный раунд 1 (CV)

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Проектный раунд 1 (CV)

Загружено:

Авторское право:

Доступные форматы

📝

Проектный раунд 1 (CV)

Составили подробную инструкцию того, как отличить российские гражданские

Дополнили инструкцию наглядными примерами в виде картинок.

Создали пул из 5 бесплатных тренировочных, которые толокоерам нужно было

Создали 78 контрольных заданий. Около половины контрольных заданий

Ввели дополнительный скилл classification_quality, в который после 3 ответов

Минимальное время выполнения задания - 10 сек

На странице 10 заданий: 9 обычных и 1 контрольное

Цена за страницу - $0.01

2. Создание пайплайна обучения и тренировка моделей

Создали класс датасета для хранения информации о картинках и

Проектный раунд 1 (CV) 1

Посчитали по каналам среднее и дисперсию аугментированного датасета и

Тренировочные данные разбили на train/val в соотношении 4:1.

Поресерчили модели, выбрали MobileNetV2 и MicroNet-M3, т.к. для них есть

Обучили и сравнили результаты предобученных на ImageNet моделей

Создали двухуровневый классификатор из четырех обученных сеток и catboost

С деталями выбора гиперпараметров обучения можно ознакомиться в нашем

Проектный раунд 1 (CV) 2

Вам также может понравиться