Вы находитесь на странице: 1из 9

Кросс-валидация, что это, как

работает и зачем оно нужно


План
• Зачем нужна кросс валидация
• Суть метода
Проблема переобучения
70

60
f(x) = 1.9 x + 3.14
50 R² = 0.73
40
y
30

20

10

0
0 5 10 15 20 25 30 35
x
Проблема переобучения
70

60
f(x) = 0 x⁶ − 0 x⁵ + 0.05 x⁴ − 0.58 x³ + 3.23 x² − 4.43 x + 2.81
50 R² = 0.93

40

y
30

20

10

0
0 5 10 15 20 25 30 35
x
Признаки переобучения модели
• Ошибка на обучающей выборке мала, но на
реальных данных (на тестовой части,
например) велика
• Очень большие веса признаков
Причины переобучения
• Коллинеарные признаки – это признаки,
имеющие сильную зависимость друг от друга
(например один признак в разных единицах
измерения)
• Выявляются на основе коэффициентов
корреляции (для вещественных чисел - Пирсона
или Спирмена), которые показывают силу связи
между признаками. Меняются от 0 до 1, где 1 –
признаки полностью взаимозаменяемы
Кросс-валидация
• Выборка разбивается на n равных частей,
каждая из которых по очереди становится
тестовой, а остальное – обучающей частью.
• Получится n оценок качества ( по оценке на
каждую часть). Общая оценка – среднее по
всем оценкам
+ - переберем все объекты
- - нужно много раз обучать
Суть метода
1 2 3 4 5 Шаг 1

1 2 3 4 5 Шаг 2

Шаг 3
1 2 3 4 5

1 2 3 4 5 Шаг 4

1 2 3 4 5 Шаг 5
Пример 1.
• Разобьем на 5 частей (фолдов)
• Ошибка каждого захода обучения:
0.75 0.75 0.77 0.79 0.83
• Ошибка модели – среднее из всех ошибок
0,78

Вам также может понравиться