Вы находитесь на странице: 1из 2

📝

Проектный раунд 1 (CV)

1. Работа с Толокой

Составили подробную инструкцию того, как отличить российские гражданские


номера от всех остальных. Отдельный акцент сделали на отличие российских
военных номеров от гражданских, особенностях номеров гражданской
спецтехники РФ, а также номеров СССР, ДНР и ЛНР.

Дополнили инструкцию наглядными примерами в виде картинок.

Создали пул из 5 бесплатных тренировочных, которые толокоерам нужно было


выполнить без единой ошибки для перехода к остальным. В них постарались
учесть самые каверзные случаи.

Создали 78 контрольных заданий. Около половины контрольных заданий


составляют российские гражданские номера, оставшаяся половина
распределилась поровну между всеми классами неподходящих номеров
(”классические” нероссийские, российская военная техника, номера ДНР,
номера ЛНР, номера СССР).

Ввели дополнительный скилл classification_quality, в который после 3 ответов


исполнителя записывается процент верных. Отсеиваем толокеров с
classification_quality менее 80%.

Минимальное время выполнения задания - 10 сек

На странице 10 заданий: 9 обычных и 1 контрольное

Цена за страницу - $0.01

2. Создание пайплайна обучения и тренировка моделей

Создали класс датасета для хранения информации о картинках и


аугментациях.

Проектный раунд 1 (CV) 1


Подобрали набор преобразований картинок для стандартизации их размеров
и набор аугментаций для увеличения разнообразия тренировочного
множества.

Посчитали по каналам среднее и дисперсию аугментированного датасета и


нормализовали данные.

Тренировочные данные разбили на train/val в соотношении 4:1.

Поресерчили модели, выбрали MobileNetV2 и MicroNet-M3, т.к. для них есть


публичные веса, предобученные на ImageNet, и при замене слоя-
классификатора для 1000 классов на слой для бинарной классификации,
число их параметров удовлетворяет ограничениям в задании.

Обучили и сравнили результаты предобученных на ImageNet моделей


MobileNetV2 и MicroNet-M3 (https://github.com/liyunsheng13/micronet).
Остановили свой выбор на второй из них. Обучили 4 версий MicroNet-M3.

Создали двухуровневый классификатор из четырех обученных сеток и catboost


в качестве классификатора второго уровня

С деталями выбора гиперпараметров обучения можно ознакомиться в нашем


репозитории в wandb: https://wandb.ai/ysda-labelling-course-team/YSDA-
Labelling-Course-Project-Round-1 и на GitHub: https://github.com/uvd174/YSDA-
Labelling-Course-Project-Round-1

Проектный раунд 1 (CV) 2

Вам также может понравиться