(x, y)
fy0 · ∆y
z
(x0 , y0 ) fx0 · ∆x
∆y
∆x
x
Таким образом, график функции f (x, y) в окрестности точки можно приблизить касательной плоскостью:
f (x0 + ∆x, y0 + ∆y) ≈ f (x0 , y0 ) + fx0 (x0 , y0 )∆x + fy0 (x0 , y0 )∆y.
Градиент
Если f (x1 , . . . , xn ) — функция n переменных x1 , ..., xn , то n-мерный вектор из частных производных:
∂f ∂f
grad f = , ...,
∂x1 ∂xn
называется градиентом.
Линией уровня функции называется множество точек, в которых функция принимает одно и то же фикси-
рованное значение. Оказывается, что градиент перпендикулярен линии уровня. Более подробное обсуждение
этого факта будет произведено позднее.
1
МФТИ Специализация «Машинное обучение и анализ данных»
x y
Но не всегда задачу можно решать аналитически. В таком случае используется численная оптимизация.
Наиболее простым в реализации из всех методов численной оптимизации является метод градиентного
спуска. Это итерационный метод. Решение задачи начинается с выбора начального приближения ~x[0] . После
вычисляется приблизительное значение ~x1 , а затем ~x2 и так далее, согласно итерационной формуле:
~x[j+1] = ~x[j] − γ [j] ∇F (~x[j] ), где γ [j] — шаг градиентного спуска.
Основная идея метода заключается в том, чтобы идти в направлении наискорейшего спуска, а это направление
задаётся антиградиентом −∇F .
x4
x3
x2
x1
x0
Можно привести следующую аналогию: Представьте, что вы приехали в незнакомое место и посели-
лись где-то в низине. Гуляя по недалеким окрестностям, вы заблудились и теперь хотите попасть домой. Если
2
МФТИ Специализация «Машинное обучение и анализ данных»
вы не ориентируетесь в местности, логичным решением будет идти в каждый момент времени в направлении
наискорейшего спуска, чтобы вернуться в свой дом.
3. Производная по направлению
Пусть f (~x) = f (x1 , x2 , . . . , xn ) — функция n переменных, ~` ∈ Rn , |~`| = 1 , тогда частной производной в точке
x0 по направлению ~` называется
∂f f (~x0 + t · ~`) − f (~x0 )
(~x0 ) = lim .
∂ ~` t→0 t
x
(x0 , y0 )
`
f (x0 + ∆x, y0 + ∆y) ≈ f (x0 , y0 ) + fx0 (x0 , y0 )∆x + fy0 (x0 , y0 )∆y.
z
z = f (x, y)
z = g(x, y)
(x0 , y0 )
x
3
МФТИ Специализация «Машинное обучение и анализ данных»
Это есть не что иное, как уравнение касательной плоскости, записанное через скалярное произведение. Следу-
ет отметить, что линейное приближение тем лучше описывает поведение функции, чем ближе к точке (x0 , y0 )
находится интересующее значение.
Линейное приближение часто используется для анализа сложных функций, в частности, при построении
алгоритмов анализа данных.
∆x = t · `x , ∆y = t · `y .
Таким образом, производная по направлению может быть вычислена как скалярное произведение градиента
на соответствующий единичный вектор:
∂f D E
(x0 , y0 ) = ∇f (x0 , y0 ), ~` .
∂ ~`
Согласно данной формуле, направлениеDмаксимального E роста — это направление задаваемое градиентом.
~
Действительно, скалярное произведение ∇f (x0 , y0 ), ` максимально в том случае, когда векторы ∇f (x0 , y0 )
и ~` сонаправлены.