Вы находитесь на странице: 1из 1

В рамках тестового задания необходимо сравнить методы сэмплинга примеров для

обучения при активном обучении для задачи NERC.

В рамках задания необходимо:


1. Реализовать baseline для задачи NERC (например,
https://arxiv.org/pdf/1603.01354.pdf или опционально можно взять другой метод в
качестве baseline)
2. Получить корпус для экспериментов (MIT-Movie
https://groups.csail.mit.edu/sls/downloads/movie/ )
3. Натренировать baseline на всем корпусе, подобрать основные гиперпараметры
(размеры слоев, lr, lr_decay)
4. Реализовать метод активного обучения со стратегией семплинга Margin
5. Сравнить реализованный метод сэмплинга со случайным (построить графики кривых
обучения) при следующем сценарии активного обучения: на каждом шаге активного
обучения модель дообучается несколько эпох на новых данных + некотором (случайном)
подмножестве прошлых обучающих данных
6. сделать выводы

Корпус текстов состоит из тренировочной и тестовой частей (для некоторых корпусов


доступна валидационная часть, если валидационной части нет, можно взять часть train
для валидации). Тестовая часть используется только для получения финальных оценок
качества методов. Для подбора параметров тестовая часть не используется.
Для проведения эксперимента с активным обучением предлагается взять случайную часть
train корпуса (init, например 100, 200 примеров, или 10% от корпуса) в качестве
изначально доступного тренировочного набора. Остальную часть train можно
рассматривать как неразмеченный корпус, который будет размечаться в процессе
активного обучения. На каждом шаге активного обучения из множества неразмеченых
примеров одной из стратегий выбираются примеры для разметки (k штук), метки для
которых восстанавливаются из изначального train. После модель обучается t эпох.
В процессе экспериментов можно пробовать варьировать init, k, t, чтобы посмотреть
зависимость результатов от этих параметров.

Поскольку сложность разметки последовательности зависит от длины


последовательности, дополнительно необходимо оценить "сложность" разметки -
количество меток, которые пришлось разметить в рамках активного обучения.