Академический Документы
Профессиональный Документы
Культура Документы
Ю. Е. Нестеров
Методы
выпуклой оптимизации
Издательство МЦНМО
г. Москва
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Оглавление
Предисловие
Благодарности
Введение
Нелинейная оптимизация
§ .. Задачи нелинейной оптимизации . . . . . . . . . . . . . .
... Общая формулировка задачи . . . . . . . . . . . . . . . .
... Эффективность численных методов . . . . . . . . . . . .
... Оценки вычислительной сложности задач глобаль-
ной оптимизации . . . . . . . . . . . . . . . . . . . . . . . .
... Визитные карточки областей оптимизации . . . . . . .
§ .. Локальные методы безусловной оптимизации . . . . . .
... Релаксация и аппроксимация . . . . . . . . . . . . . . . .
... Классы дифференцируемых функций . . . . . . . . . . .
... Градиентный метод . . . . . . . . . . . . . . . . . . . . . . .
... Метод Ньютона . . . . . . . . . . . . . . . . . . . . . . . . . .
§ .. Методы первого порядка в нелинейной оптимизации .
... Градиентный метод и метод Ньютона: в чем разница?
... Сопряженные градиенты . . . . . . . . . . . . . . . . . . .
... Условная минимизация . . . . . . . . . . . . . . . . . . . .
Оглавление
“Nesterov-final” — // — : — page — #
Оглавление
Литература
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Предисловие редактора
Новая эра в нелинейной оптимизации открылась выдающейся ста-
тьей Н. Кармаркара, появившейся в середине -х гг. Значение
этой работы, в которой предлагался новый полиномиальный ал-
горитм для задач линейной оптимизации, состояло не только в
установлении границ вычислительной сложности. В то время со-
вершенно замечательной особенностью этого алгоритма являлось
то, что теоретические оценки его высокой эффективности блестя-
ще подтверждались результатами численных экспериментов. Этот
необычный по тем временам факт радикально изменил стиль и
направление исследований в области нелинейной оптимизации. С
тех пор появление новых методов все чаще стало сопровождаться
теоретическим анализом их вычислительной сложности, который
теперь обычно рассматривается как более веское доказательство
их качества, чем численные эксперименты. В новой и быстро раз-
вивающейся области оптимизации, получившей название поли-
номиальные методы внутренней точки, такое обоснование стало
обязательной нормой.
Основные результаты первых пятнадцати лет серьезных исследо-
ваний вошли в монографии [, , ––]. Однако эти книги труд-
нодоступны российскому читателю. Более того, они не решают за-
дачи изложения нового взгляда на предмет и цели выпуклой опти-
мизации. Дело в том, что к тому времени лишь теория методов внут-
ренней точки для задач линейной оптимизации была разработана
достаточно подробно, а общая теория самосогласованных функций
существовала в печатном виде лишь в форме монографии []. Кро-
ме того, было понятно, что новая теория методов внутренней точки
представляет собой только часть общей теории выпуклой оптими-
зации –– технически довольно сложной дисциплины, включающей
такие разделы, как границы вычислительной сложности, оптималь-
ные методы и т. д.
“Nesterov-final” — // — : — page — #
Предисловие
“Nesterov-final” — // — : — page — #
Предисловие
Б. Т. Поляк
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Благодарности
Эта книга отражает основные достижения в выпуклой оптимиза-
ции –– научном направлении, в котором мне довелось работать более
лет. В течение этого времени я имел редкую возможность свобод-
ного общения и сотрудничества со многими выдающимися учеными
в этой области; им я выражаю свою глубокую признательность.
Мне посчастливилось начать свою научную карьеру в Москве, в
период максимального размаха научной деятельности в Советском
Союзе. В этот момент в одном городе оказались собранными прак-
тически все выдающиеся умы трехсотмиллионной страны. Встречи
и научные контакты с А. Антипиным, Ю. Евтушенко, Е. Гольштей-
ном, А. Иоффе, В. Кармановым, Л. Хачияном, Р. Поляком, В. Пше-
ничным, Н. Шором, Н. Третьяковым, Ф. Васильевым, Д. Юдиным
и, конечно же, с А. Немировским и Б. Поляком оказали определяю-
щее влияние на формирование моих научных интересов и на выбор
направления исследований.
Как выяснилось потом, момент моего переезда на Запад тоже
был весьма специфическим. В нелинейной оптимизации только что
началась эра методов внутренней точки. Новые статьи со свежими
идеями появлялись почти каждый день, и многочисленные конфе-
ренции открывали редкую возможность для интересных научных
контактов и активной совместной работы. Я очень благодарен
моим коллегам, таким как Курт Анштрейхер, Альфред Ауслендер,
Аарон Бен-Тал, Стивен Бойд, Кловис Гонзага, Дональд Гольдфарб,
Жан-Луи Гоффен, Осман Гуллер, Иньюй Е, Кеннет Кортанек, Клод
Лемарешаль, Оливер Мангасарян, Флориан Потра, Джеймс Ренегар,
Корнелиус Рооз, Тамаш Терлаки, Андреас Титц, Майкл Тодд, Левент
Тунсел, Роберт Фрёйнд, Флориан Ярре, за стимулирующие обсуж-
дения и плодотворное сотрудничество. Особую благодарность мне
хотелось бы выразить Жану-Филиппу Виалу, подтолкнувшему меня
к написанию этой книги.
“Nesterov-final” — // — : — page — #
Благодарности
“Nesterov-final” — // — : — page — #
Введение
Задачи оптимизации совершенно естественно возникают в раз-
личных прикладных областях. Во многих жизненных ситуациях у
нас появляется желание или необходимость организовать свою де-
ятельность наилучшим из возможных способов. Это намерение,
облеченное в математическую форму, приобретает вид той или
иной оптимизационной задачи. В зависимости от конкретной обла-
сти приложения это может быть задача оптимального управления
или задача оптимального размещения, составление оптимальной
диеты или задача оптимального раскроя. Однако уже следующий
шаг –– нахождение решения поставленной модельной задачи –– со-
всем нетривиален. На первый взгляд, все выглядит просто: на рынке
имеется огромное количество легкодоступных коммерческих про-
граммных оптимизационных пакетов, и любой пользователь может
получить «решение» задачи простым нажатием на иконку на экране
своего персонального компьютера. Вопрос заключается в том, что
именно он получит в качестве решения и насколько можно доверять
результату.
Одна из целей данной книги –– показать, что, несмотря на всю
свою привлекательность, «решения» общих оптимизационных за-
дач, получаемые таким образом, очень часто не соответствуют
ожиданиям доверчивого пользователя. На мой взгляд, главное, что
следует знать каждому работающему с оптимизационными моде-
лями, –– это то, что задачи оптимизации, вообще говоря, численно
неразрешимы. Это утверждение, часто не упоминаемое в стандарт-
ных курсах по оптимизации, крайне необходимо для понимания
теории оптимизации и ее развития как в прошлом, так и в будущем.
Во многих практических приложениях процесс формализации и
приведения реальной проблемы к какому-либо стандарному ви-
ду требует большого времени и усилий. Поэтому исследователь
должен иметь ясное представление о свойствах модели, которую
“Nesterov-final” — // — : — page — #
Введение
Точнее, которую можно пытаться решать.
“Nesterov-final” — // — : — page — #
Введение
“Nesterov-final” — // — : — page — #
Введение
“Nesterov-final” — // — : — page — #
Введение
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Глава
Нелинейная оптимизация
§ .. Задачи нелинейной оптимизации
Общая формулировка задачи. Примеры задач оптимизации. Черный ящик и
итеративные методы. Аналитическая и арифметическая сложность. Метод пе-
ребора на равномерной сетке. Нижние оценки вычислительной сложности.
Нижние оценки для глобальной оптимизации. Правила игры.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Bn = x ∈ Rn | 0 ¶ x (i) ¶ 1, i = 1, …, n .
Введем l∞ -норму в Rn :
k x k∞ = max | x (i) |.
1¶i ¶n
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
1
Понятно, что | x̃ (i) − x∗(i) | ¶ , i = 1, …, n. Поэтому
2p
1
k x̃ − x ∗ k∞ = max | x̃ (i) − x∗(i) | ¶ .
1¶i ¶n p
Поскольку точка x̃ принадлежит сформированной сетке, можно
утверждать, что
L
f ( x̄) − f (x∗ ) ¶ f ( x̃) − f (x∗ ) ¶ Lk x̃ − x∗ k∞ ¶ .
2p
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
За время, прошедшее между появлением английского текста этих лекций и их
русского варианта, именно это и случилось: быстродействие современных персо-
нальных компьютеров достигает 108 а. о./сек. Так что сейчас в приведенном при-
мере надо брать n = 11.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
f (xk+1) ¶ f (xk ), k = 0, 1, …
Эта стратегия имеет следующие важные преимущества.
. Если функция f (x) ограничена снизу в Rn , то последовательность
{ f (xk )}∞
k =0 сходится.
. В любом случае мы улучшаем начальное значение целевой функ-
ции.
Однако было бы невозможно применить идею релаксации без ис-
пользования другого фундаментального понятия численного анали-
за, а именно аппроксимации.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
∆(s) = f ′ ( x̄), s .
s̄ = − f ′ ( x̄)/k f ′ ( x̄) k.
Тогда
∆(s̄) = − f ′ ( x̄), f ′ ( x̄) /k f ′ ( x̄) k = −k ( x̄) k.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
для всех x, y ∈ Q.
Очевидно, что всегда p ¶ k. Если q ¾ k, то C Lq,p (Q) ⊆ C Lk,p (Q), напри-
мер, C L2,1 (Q) ⊆ C L1,1 (Q). Отметим также, что эти классы обладают
следующим свойством: если f1 ∈ C Lk,p 1
(Q), f2 ∈ C Lk,p
2
(Q) и α, β ∈ R1 , то
для
L3 = |α| L1 + |β | L2
Лемма ... Функция f (x) принадлежит классу C L2,1 (Rn ) ⊂ C L1,1 (Rn )
тогда и только тогда, когда
k f ′′ (x) k ¶ L ∀ x ∈ Rn . (.)
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
f ′ (x + τ( y − x)), y − x dτ =
f ( y) = f (x) +
0
R1
Поэтому
| f ( y) − f (x) − 〈 f ′ (x), y − x 〉| =
1
R
′ ′
= 〈 f (x + τ( y − x)) − f (x), y − x 〉 dτ ¶
0
R1
¶ |〈 f ′ (x + τ( y − x)) − f ′ (x), y − x 〉| dτ ¶
0
R1
¶ k f ′ (x + τ( y − x)) − f ′ (x) k · k y − x k dτ ¶
0
R1 L
¶ τ Lk y − x k2 dτ = k y − x k2 .
2
0
“Nesterov-final” — // — : — page — #
2,2
CM (Rn ), т. е. класс дважды дифференцируемых функций с липшице-
2,2
вым гессианом. Вспомним, что для f ∈ C M (Rn ) верно неравенство
k f ′′ (x) − f ′′ ( y) k ¶ M k x − y k (.)
для всех x, y ∈ Rn .
2,2
Лемма ... Пусть f ∈ C M (Rn ). Тогда для любых x, y ∈ Rn выпол-
няются неравенства
M
k f ′ ( y) − f ′ (x) − f ′′ (x)( y − x) k ¶ k y − x k2 , (.)
2
1
| f ( y) − f (x) − 〈 f ′ (x), y − x 〉 − 〈 f ′′ (x)( y − x), y − x 〉| ¶
2
M
¶ k y − x k3 . (.)
6
Доказательство. Зафиксируем некоторые x, y ∈ Rn . Тогда
R1
f ′ ( y) = f ′ (x) + f ′′ (x + τ( y − x))( y − x) dτ =
0
R1
= f ′ (x) + f ′′ (x)( y − x) + f ′′ (x + τ( y − x)) − f ′′ (x) ( y − x) dτ.
0
Поэтому
k f ′ ( y) − f ′ (x) − f ′′ (x)( y − x) k =
1
R
′′ ′′
=
f (x + τ( y − x)) − f (x) ( y − x) dτ
¶
0
R1
k f ′′ (x + τ( y − x)) − f ′′ (x) ( y − x) k dτ ¶
¶
0
R1
¶ k f ′′ (x + τ( y − x)) − f ′′ (x) k · k y − x k dτ ¶
0
R1 M
¶ τ M k y − x k2 dτ = k y − x k2 .
2
0
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
′
(.)
β f (xk ), xk − xk+1 ¾ f (xk ) − f (xk+1)
Заметим, что ϕ (0) = ϕ1 (0) = ϕ2 (0) и ϕ ′ (0) < ϕ2′ (0) < ϕ1′ (0) < 0. По-
этому допустимые значения существуют, если функция ϕ (h) ограни-
чена снизу. Имеется несколько очень быстрых одномерных процедур
для поиска точки, удовлетворяющей условиям этой стратегии. Однако
их детальное описание сейчас не представляется необходимым.
Оценим эффективность градиентного метода. Для этого рассмот-
рим задачу
minn f (x)
x ∈R
“Nesterov-final” — // — : — page — #
следует, что
L
f ( y) ¶ f (x) + 〈 f ′ (x), y − x 〉 + k y − x k2 =
2
h2
= f (x) − hk f ′ (x) k2 + Lk f ′ (x) k2 =
2
h
= f (x) − h 1 − L k f ′ (x) k2 . (.)
2
Таким образом, чтобы получить наилучшую гарантированную
оценку для убывания целевой функции, необходимо решить следу-
ющую одномерную задачу:
h
∆(h) = −h 1 − L → min.
2 h
“Nesterov-final” — // — : — page — #
где f ∗ есть оптимальное значение для задачи (.). Как простое след-
ствие из неравенства (.) получаем
k f ′ (xk ) k → 0 при k → ∞.
Однако здесь можно также что-то сказать и о скорости сходимости
метода. В самом деле, обозначим
gN∗ = min gk ,
0¶k ¶ N
“Nesterov-final” — // — : — page — #
Модель: (.)
. безусловная минимизация;
. f ∈ C L1,1 (Rn );
. f (x) ограничена снизу.
Оракул: черный ящик первого порядка.
ǫ -решение: f ( x̄) ¶ f (x0 ), k f ′ ( x̄) k ¶ ǫ .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
1 1+q
Значит, ¾ − 1, или
a k +1 ak
q q(1 + q) q
−1¾ − q − 1 = (1 + q) −1 .
a k +1 ak ak
Отсюда следует, что
q q 2l L+l
− 1 ¾ (1 + q)k − 1 = (1 + q)k · −1 =
ak a0 L+l r0 M
r̄
= (1 + q)k −1 .
r0
Таким образом,
k
qr0 qr0 1
ak ¶ ¶ ,
r0 + (1 + q)k (r̄ − r0 ) r̄ − r0 1+q
откуда вытекает следующая теорема.
Теорема ... Пусть функция f (x) удовлетворяет нашим предпо-
ложениям, а начальная точка x0 расположена достаточно близко к
точке локального минимума:
2l
r0 = k x0 − x ∗ k < r̄ = .
M
Тогда градиентный метод с длиной шага (.) сходится следующим
образом:
k
r̄r0
2l
k xk − x ∗ k ¶ 1− .
r̄ − r0 L + 3l
Такая скорость сходимости называется линейной.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
R 1
где Gk = 0 f ′′ (xk ) − f ′′ (x ∗ + τ(xk − x ∗ )) dτ.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
получаем
xG∗ = x̄ − G −1 f ′ ( x̄). (.)
Методы первого порядка, формирующие последовательность матриц
{Gk }: Gk → f ′′ (x ∗ )
−1
(или {Hk }: Hk ≡ Gk−1 → f ′′ (x ∗ ) ), называются методами перемен-
“Nesterov-final” — // — : — page — #
1
′′
f (x + h) = f (x) + f ′ (x), h +
f (x)h, h + o k h k =
2
1
−1 ′′
= f (x) + A−1 f ′ (x), h A +
A f (x)h, h A + o k h k A .
2
Отсюда следует, что f A′ (x) = A−1 f ′ (x) –– новый градиент, а f A′′ (x) =
= A−1 f ′′ (x) –– новый гессиан.
Таким образом, направление, используемое в методе Ньютона,
можно рассматривать как градиент, вычисленный относительно
метрики, определяемой матрицей A = f ′′ (x). Заметим, что гессиан
функции f (x) в точке x, вычисленный в метрике A = f ′′ (x), равен In .
1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉,
2
f ′ (x ∗ ) = Ax ∗ + a = 0
“Nesterov-final” — // — : — page — #
Квазиньютоновское правило
Выберем Hk+1 так, чтобы выполнялось равенство
Hk+1 ( f ′ (xk+1) − f ′ (xk )) = xk+1 − xk .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
(.)
xk = arg min f (x) | x ∈ x0 + Lk , k ¾ 1.
Это определение выглядит достаточно искусственным. Однако мы
скоро увидим, что такой метод можно записать в чисто «алгоритми-
ческой» форме. Представление (.) нам понадобится только для
теоретического анализа.
Лемма ... Для любого k ¾ 1 имеет место равенство
Lk = Lin f ′ (x0 ), …, f ′ (xk−1) .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
kP
−1
0 = 〈 Aδk , δi 〉 = −hk 〈 Af ′ (xk ), δi 〉 + λ( j) 〈 Aδ j , δi 〉 =
j =0
hk k f ′ (xk ) k2 hk k f ′ (xk ) k2
λ(k−1) = = ′ .
〈 Aδk−1 , δk−1 〉 〈 f (xk ) − f ′ (xk−1 ), δk−1 〉
“Nesterov-final” — // — : — page — #
k f ′ (xk+1 ) k2
. формула Флетчера––Ривса: βk = − ;
k f ′ (xk ) k2
〈 f (xk+1 ), f (xk+1 ) − f ′ (xk )〉
′ ′
. формула Полака––Рибьера: βk = − .
k f ′ (xk ) k2
Напомним, что в квадратичном случае метод сопряженных гра-
диентов завершает работу за n итераций (или быстрее). Алгорит-
мически это означает, что pn+1 = 0. В нелинейном случае это не
так. После n итераций квадратичная интерпретация теряет смысл.
Поэтому на практике часто используется стратегия обновления, ко-
торая в определенный момент устанавливает βk = 0 (обычно после
каждой n-й итерации). Это обеспечивает глобальную сходимость
данной схемы (так как сразу после обновления идет обычная гра-
диентная итерация, а все остальные итерации только уменьшают
значение функции). В окрестности точки строгого минимума схемы
сопряженных градиентов имеют локальную n-шаговую квадратич-
ную сходимость:
k xn+1 − x ∗ k ¶ const · k x0 − x ∗ k2 .
“Nesterov-final” — // — : — page — #
min f0 (x),
(.)
fi (x) ¶ 0, i = 1, …, m,
где fi (x) –– гладкие функции. Например, можно взять fi (x) ∈ C L1,1 (Rn ).
Так как в задаче (.) присутствуют нелинейные функции обще-
го вида, мы не можем ожидать, что она окажется проще, чем задача
безусловной минимизации. В самом деле, даже стандартные трудно-
сти со стационарными точками, имеющиеся в задаче безусловной
минимизации, проявляются в задаче (.) в намного более сильной
форме. Заметим, что стационарная точка этой задачи (как бы мы ее
ни определили) может не удовлетворять системе функциональных
ограничений. Отсюда следует, что любой метод минимизации мо-
жет не сойтись к допустимой точке задачи (.), даже если такая и
существует.
Поэтому следующие соображения выглядят весьма убедитель-
ными.
. У нас есть эффективные методы решения задач безусловной
минимизации.
На самом деле это утверждение не является абсолютно верным. Мы увидим, что
для использования методов безусловной минимизации при решении задач с ограни-
чениями необходимо по крайней мере уметь находить строгий локальный минимум.
А мы уже видели на примере .., что с этим могут возникнуть сложности.
“Nesterov-final” — // — : — page — #
Здесь имеется в виду «строгое неравенство». Мы не будем обсуждать коррект-
ность этого утверждения для нелинейных задач общего вида. Просто здесь хочется
напомнить читателю об опасности «очевидных» истин. В следующей главе у нас бу-
дет возможность убедиться в том, что для подобного оптимизма нет достаточных
оснований.
“Nesterov-final” — // — : — page — #
(Ψ∗k
–– глобальное оптимальное значение функции Ψk (x)). Обозна-
чим через x ∗ глобальное решение задачи (.).
Теорема ... Пусть существует такое число t̄ > 0, что множе-
ство
S = x ∈ Rn | f0 (x) + t̄ Φ(x) ¶ f0 (x ∗ )
ограничено. Тогда
lim f (xk ) = f0 (x ∗ ), lim Φ(xk ) = 0.
k →∞ k →∞
Если предполагать, что это точка строгого локального минимума, то результат
будет заметно слабее.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Глава
Гладкая выпуклая
оптимизация
§ .. Минимизация гладких функций
Гладкие выпуклые функции. Нижние границы аналитической сложности для
класса F L∞,1 (Rn ). Сильно выпуклые функции. Нижние границы аналитической
сложности для класса Sµ∞,1 n
,L (R ). Градиентный метод.
Данное предположение не является описанием всех базисных элементов рас-
сматриваемого класса. Мы просто хотим иметь семейство линейных функций в
классе F .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
= ϕ (x) + ϕ ′ (x), y − x .
Заметим, что неравенство (.) без предположения о дифференцируемости
функции f представляет собой определение общих выпуклых функций. Мы будем
детально изучать эти функции в следующей главе.
“Nesterov-final” — // — : — page — #
f ′ (x + τ( y − x)), y − x dτ =
f ( y) = f (x) +
0
R1
“Nesterov-final” — // — : — page — #
R1 Rτ
+ f (x + λ( y − x))( y − x), y − x d λ dτ ¶
0 0
¾ f (x) + f ′ (x), y − x .
“Nesterov-final” — // — : — page — #
2
1
f (x) + f ′ (x), y − x + k f ′ (x) − f ′ ( y) k2 ¶ f ( y), (.)
2L
1 ′
k f (x) − f ′ ( y) k2 ¶ f ′ (x) − f ′ ( y), x − y , (.)
L
α f (x) + (1 − α) f ( y) ¾ f α x + (1 − α) y +
α(1 − α) ′
+ k f (x) − f ′ ( y) k2 , (.)
2L
0 ¶ α f (x) + (1 − α) f ( y) − f α x + (1 − α) y ¶
L
¶ α(1 − α) k x − y k2 . (.)
2
“Nesterov-final” — // — : — page — #
R1
1
f ′ (x + τ( y − x)) − f ′ (x), y − x dτ ¶ Lk y − x k2 .
=
2
0
2L
1
f ( y) ¾ f (xα ) + f (xα ), α( y − x) + k f ( y) − f ′ (xα ) k2 .
′ ′
2L
Складывая эти неравенства, домноженные на α и 1 − α соответ-
ственно, и используя неравенство
αk g1 − u k2 + (1 − α)k g2 − u k2 ¾ α(1 − α)k g1 − g2 k2 ,
получаем неравенство (.). Легко проверить, что неравенство
(.) следует из (.), если перейти к пределу при α → 1.
Аналогичным образом из неравенства (.) получаем
L
f (x) ¶ f (xα ) + f ′ (xα ), (1 − α)(x − y) + k (1 − α)(x − y) k2 ,
2
L
f ( y) ¶ f (xα ) + f ′ (xα ), α( y − x) + kα( y − x) k2 .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
4 i =1
n
P
¶L (s(i) )2 .
i =1
“Nesterov-final” — // — : — page — #
Поэтому
n k 2
2 i
k x̄k k2 = x̄k(i)
P P
= 1− =
i =1 i =1
k+1
k k
2 P 1 P
=k− i+ 2
i2 ¶
k + 1 i =1 (k + 1) i =1
2 k(k + 1) 1 (k + 1)3 1
¶k− · + 2
· = (k + 1). (.)
k+1 2 (k + 1) 3 3
“Nesterov-final” — // — : — page — #
fp (xk ) ¾ fk∗ .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
2
“Nesterov-final” — // — : — page — #
2
1
= f (x ∗ ) + µk x − x ∗ k2 .
2
2
1
f2 ( y) ¾ f2 (x) + f2 (x), y − x + µ2 k y − x k2 .
′
2
Остается сложить эти равенства, умножив их соответственно на α
и β.
“Nesterov-final” — // — : — page — #
f (x) − f ′ ( y), x − y ¾ µk x − y k2 ,
′
(.)
µ
α f (x) + (1 − α) f ( y) ¾ f (α x + (1 − α) y) + α(1 − α) k x − y k2 . (.)
2
υ υ 2
1
= ϕ ( y) − kϕ ′ ( y) k2 ,
2µ
а это есть в точности неравенство (.). Складывая две записи
неравенства (.) с переставленными x и y, получаем неравен-
ство (.).
“Nesterov-final” — // — : — page — #
x ∈ Rn выполняется условие
f ′′ (x) µIn . (.)
Доказательство. легко провести, применяя неравенство (.).
Рассмотрим два примера сильно выпуклых функций.
Пример ... . f (x) = 1/2k x k2 принадлежит классу S12 (Rn ), так
как f ′′ (x) = In .
. Пусть симметрическая матрица A удовлетворяет условию µIn
A LIn . Тогда
1 1,1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉 ∈ Sµ∞,1 n n
,L (R ) ⊂ Sµ,L (R ),
2
поскольку f ′′ (x) = A. Другие примеры можно получить как сумму
выпуклых и сильно выпуклых функций.
Наиболее интересным функциональным классом для нас служит
1,1
Sµ,L (Rn ). Этот класс описывается следующими неравенствами:
f (x) − f ′ ( y), x − y ¾ µk x − y k2 ,
′
(.)
k f ′ (x) − f ′ ( y) k ¶ Lk x − y k. (.)
Значение Q f = L/µ ¾ 1 называется числом обусловленности функ-
ции f .
Оказывается, неравенство (.) можно усилить, используя до-
полнительную информацию (.).
Теорема ... Если f ∈ Sµ1,1 n n
,L (R ), то для любых x, y ∈ R выполня-
ется неравенство
µL
f ′ (x) − f ′ ( y), x − y ¾ k x − y k2 +
µ+L
1
=+ k f ′ (x) − f ′ ( y) k2 . (.)
µ+ L
“Nesterov-final” — // — : — page — #
∞ 2
k x k2 =
P
x (i) < ∞.
i =1
µ(Q f − 1)
§ ∞ ª
2 µ
(x (1) )2 +
P
fµ,Q f (x) = x (i) − x (i+1) − 2x (1) + k x k2 .
8 i =1
2
“Nesterov-final” — // — : — page — #
Введем матрицу
2 −1 0 0
−1 2 −1 0
A= ..
0 −1 2 .
.. ..
0 0 . .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
rk2+1 = k xk − x ∗ − hf ′ (xk ) k2 =
= rk2 − 2h f ′ (xk ), xk − x ∗ + h2 k f ′ (xk ) k2 ¶
2
¶ rk2 − h − h k f ′ (xk ) k2
L
(здесь мы использовали неравенство (.) и условие f ′ (x ∗ ) = 0). По-
этому rk ¶ r0 . В силу неравенства (.) получаем
L
f (xk+1) ¶ f (xk ) + f ′ (xk ), xk+1 − xk + k xk+1 − xk k2 =
2
= f (xk ) − ωk f ′ (xk ) k2 ,
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
то f (xk ) − f ∗ ¶ λk ϕ0 (x ∗ ) − f ∗ → 0.
Доказательство. Действительно,
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
γk+1 = (1 − αk )γk + αk µ,
1
(1 − αk )γk υk + αk µ yk − αk f ′ ( yk ) ,
υ k +1 =
γk+1
α2k
ϕk∗+1 = (1 − αk )ϕk + αk f ( yk ) − k f ′ ( yk ) k2 +
2γk+1
α (1 − αk )γk µ
+ k k yk − υk k2 + f ′ ( yk ), υk − yk .
γk+1 2
2
Поэтому уравнение ϕk′ +1 (x)
= 0, которое является условием опти-
мальности первого порядка для функции ϕk+1 (x), переписывается
в виде
(1 − αk )γk (x − υk ) + αk f ′ ( yk ) + αk µ(x − yk ) = 0.
Отсюда получаем уравнение для точки минимума υk+1 функции
ϕk+1 (x).
“Nesterov-final” — // — : — page — #
γk+1
ϕk∗+1 + k yk − υk+1 k2 = ϕk+1 ( yk ) =
2
γ
= (1 − αk ) ϕk∗ + k k yk − υk k2 + αk f ( yk ). (.)
2
Поэтому
γk+1 1
h
kυk+1 − yk k2 = (1 − αk )2 γ2k kυk − yk k2 −
2 2γk+1
i
− 2αk (1 − αk )γk f ′ ( yk ), υk − yk + α2k k f ′ ( yk ) k2 .
ϕk∗ ¾ f (xk ).
α2k
ϕk∗+1 ¾ (1 − αk ) f (xk ) + αk f ( yk ) − k f ′ ( yk ) k2 +
2γk+1
α (1 − αk )γk
′
+ k
f ( yk ), υk − yk .
γk+1
“Nesterov-final” — // — : — page — #
α2k
ϕk∗+1 ¾ f ( yk ) − k f ′ ( yk ) k2 +
2γk+1
α γ
+ (1 − αk ) f ′ ( yk ), k k (υk − yk ) + xk − yk .
γk+1
1
f ( yk ) − k f ′ ( yk ) k2 ¾ f (xk+1)
2L
Мы получим
αk γk υk + γk+1 xk
yk = .
γk + αk µ
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
) сумма (m = n): Q1 + Q2 = z = x + y | x ∈ Q1 , y ∈ Q2 ;
) прямая сумма: Q1 × Q2 = (x, y) ∈ Rn+m | x ∈ Q1 , y ∈ Q2 ;
) коническая оболочка: K (Q1 ) = z ∈ Rn | z = β x, x ∈ Q1 , β ¾ 0 ;
) выпуклая оболочка:
Conv(Q1 , Q2 ) = z ∈ Rn |z = α x + (1 − α),
y, x ∈ Q1 , y ∈ Q2 , α ∈ [0, 1] ;
) аффинный образ: A (Q1 ) = y ∈ Rm | y = A (x), x ∈ Q1 ;
“Nesterov-final” — // — : — page — #
где ᾱ = αβ1 + (1 − α)β2 и β̄1 = αβ1 /ᾱ, β̄2 = α(1 − β1 )/(1 − ᾱ).
. Если y1 , y2 ∈ A (Q1 ), то y1 = Ax1 + b и y2 = Ax2 + b для некоторых
x1 , x2 ∈ Q1 . Поэтому для y(α) = α y1 + (1 − α) y2 , 0 ¶ α ¶ 1, выполнено
соотношение
y(α) = α(Ax1 + b) + (1 − α)(Ax2 + b) = A(α x1 + (1 − α)x2 ) + b.
Таким образом, y(α) ∈ A (Q1 ).
. Если x1 , x2 ∈ A −1 (Q2 ), то Ax1 + b = y1 и Ax2 + b = y2 для некоторых
y1 , y2 ∈ Q2 . Поэтому для x(α) = α x1 + (1 − α)x2 , 0 ¶ α ¶ 1, имеем
1
Здесь x ∈ R , Q = {x | x ¾ 0} и f (x) = x. Заметим, что x ∗ = 0, но
f ′ (x ∗ ) = 1 > 0.
“Nesterov-final” — // — : — page — #
для всех x ∈ Q.
при всех x ∈ Q.
Пусть x ∗ является решением задачи (.). Предположим, что су-
ществует такая точка x ∈ Q, что
′ ∗
f (x ), x − x ∗ < 0.
2
′
Отсюда следует, что k x − x0 k ¶ 2/µk f (x0 ) k.
Таким образом, решение x ∗ задачи (.) (≡ (.)) существует.
Докажем, что оно единственно. Действительно, если x1∗ также есть
“Nesterov-final” — // — : — page — #
2
µ
¾ f + k x1∗ − x ∗ k2
∗
2
(здесь мы использовали теорему ..). Отсюда следует, что x1∗ = x ∗ .
x ∈Q 2
gQ ( x̄; γ) = γ( x̄ − xQ ( x̄; γ)).
Тогда gQ (γ, x) называется градиентным отображением функции f ,
определенной на множестве Q.
Для Q ≡ Rn имеем
1 ′
xQ ( x̄; γ) = x̄ − f ( x̄), gQ ( x̄; γ) = f ′ ( x̄).
γ
“Nesterov-final” — // — : — page — #
2
′ ′
Тогда ϕ (x) = f ( x̄) + γ(x − x̄) и для любого x ∈ Q выполняется усло-
вие
′
f ( x̄) − gQ , x − xQ = ϕ ′ (xQ ), x − xQ ¾ 0.
Поэтому
µ
f (x) − k x − x̄ k2 ¾ f ( x̄) + f ′ ( x̄), x − x̄ =
2
= f ( x̄) + f ′ ( x̄), xQ − x̄ + f ′ ( x̄), x − xQ ¾
′
¾ f ( x̄) + f ( x̄), xQ − x̄ + gQ , x − xQ =
γ
= ϕ (xQ ) − k xQ − x̄ k2 + gQ , x − xQ =
2
1
= ϕ (xQ ) − k gQ k2 + gQ , x − xQ =
2γ
1
= ϕ (xQ ) + k gQ k2 + gQ , x − x̄
2γ
и ϕ (xQ ) ¾ f (xQ ), так как γ ¾ L.
1
f (xQ ( x̄; γ)) ¶ f ( x̄) − k g ( x̄; γ) k2 , (.)
2γ Q
“Nesterov-final” — // — : — page — #
1 µ
gQ ( x̄; γ), x̄ − x ∗ ¾ k gQ ( x̄; γ) k2 + k x − x̄ k2 . (.)
2γ 2
Доказательство. В самом деле, используя неравенство (.) с
x = x̄, получаем оценку (.). С другой стороны, используя неравен-
ство (.) с x = x ∗ , получаем оценку (.), поскольку f (xQ ( x̄; γ)) ¾
¾ f (x ∗ ).
µ k
k xk − x ∗ k2 ¶ 1 − k x0 − x ∗ k2 .
L
Доказательство. Обозначим rk = k xk − x ∗ k, gQ = gQ (xk ; L). Тогда,
используя неравенство (.), получим
rk2+1 = k xk − x ∗ − hgQ k2 = rk2 − 2h gQ , xk − x ∗ +h2 k gQ k2 ¶
1 µ 2
¶ (1 − hµ)rk2 + h h − k gG k = 1 − rk .
L L
“Nesterov-final” — // — : — page — #
γ0
ϕ0 (x) = f (x0 ) + k x − x0 k2 ,
2
1
h
ϕk+1 (x) = (1 − αk )ϕk (x) + αk f (xQ ( yk ; L)) + k gQ ( yk ; L) k2 +
2L
µ
i
+ 〈 gQ ( yk ; L), x − yk 〉 + k x − yk k2 .
2
Поскольку вместо неравенства (.) мы используем теперь (.),
рекуррентные формулы для ϕk (x) выглядят по-другому. Однако ана-
литическая структура этих функций остается неизменной. Поэтому
все результаты о сходимости, описанные в п. .., сохраняются.
Легко увидеть, что оценивающую последовательность {ϕk (x)}
можно переписать как
γk
ϕk (x) = ϕk∗ + k x − υk k2
2
со следующими рекуррентными правилами для γk , υk и ϕk∗ :
γk+1 =(1 − αk )γk + αk µ,
1
υ k +1 = (1 − αk )γk υk + αk µ yk − αk gQ ( yk ; L) ,
γk+1
α α2k
ϕk∗+1 = (1 − αk )ϕk + αk f (xQ ( yk ; L)) + k
− k gQ ( yk ; L) k2 +
2L 2γk+1
α (1 − αk )γk µ
+ k k yk − υk k2 + gQ ( yk ; L), υk − yk .
γk+1 2
“Nesterov-final” — // — : — page — #
k
k gQ ( yk ; L) k2 + k
+ − gQ ( yk ; L), υk − yk ¾
2L 2γk+1 γk+1
2
1
αk
¾ f (xQ ( yk ; L)) + − k gQ ( yk ; L) k2 +
2L 2γk+1
α γ
+ (1 − αk ) gQ ( yk ; L), k k (υk − yk ) + xk − yk .
γk+1
Таким образом, снова можно выбрать
xk+1 = xQ ( yk ; L),
Lα2k = (1 − αk )γk + αk µ ≡ γk+1 ,
1
yk = (α γ υ + γk+1 xk ).
γk + αk µ k k k
Выпишем соответствующий вариант схемы (.).
“Nesterov-final” — // — : — page — #
где fi ∈ Sµ1,1 n
,L (R ), i = 1, …, m, и Q –– выпуклое замкнутое множе-
ство. Назовем функцию f (x) функцией типа максимума, если она
сформирована компонентами fi (x) (см. задачу (.)). Включение
f ∈ Sµ1,1 n
,L (R ) означает, что все компоненты функции f принадлежат
этому классу.
Заметим, что в общем случае функция f (x) не является диффе-
ренцируемой. Однако при условии, что все fi –– дифференцируемые
функции, можно ввести в рассмотрение объект, который ведет себя
в точности как линейная аппроксимация гладкой функции.
Определение ... Пусть f является функцией типа максимума:
f (x) = max fi (x).
1¶i ¶m
Кусочнолинейная функция
f ( x̄; x) = max fi ( x̄) + 〈 fi′ ( x̄), x − x̄ 〉
1¶i ¶m
“Nesterov-final” — // — : — page — #
2
(см. неравенство (.)). Взяв максимум по i, получим оценку (.).
Для доказательства неравенства (.) используем оценку
L
fi (x) ¶ fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2
2
(см. неравенство (.)).
Запишем условия оптимальности для задачи (.) (ср. с теоре-
мой ..).
Теорема ... Точка x ∗ ∈ Q является решением задачи (.) тогда
и только тогда, когда для любого x ∈ Q выполняется неравенство
f (x ∗ ; x) ¾ f (x ∗ ; x ∗ ) = f (x ∗ ). (.)
Доказательство. Действительно, если выполнено неравенство (.),
то
f (x) ¾ f (x ∗ ; x) ¾ f (x ∗ ; x ∗ ) = f (x ∗ )
при всех x ∈ Q.
Пусть x ∗ есть решение задачи (.). Предположим, что существу-
ет такая точка x ∈ Q, что f (x ∗ ; x) < f (x ∗ ). Рассмотрим функции
ϕi (α) = fi (x ∗ + α(x − x ∗ )), i = 1, …, m.
Заметим, что для всех i, 1 ¶ i ¶ m, выполнено неравенство
fi (x ∗ ) + fi′ (x ∗ ), x − x ∗ < f (x ∗ ) = max fi (x ∗ ).
1¶i ¶m
“Nesterov-final” — // — : — page — #
задаче
min f (x) | x ∈ ¯Q̄ . (.)
2
следовательно,
µ
k x − x̄ k2 ¶ k f ′ ( x̄) k · k x − x̄ k + f ( x̄) − fi ( x̄).
2
Таким образом, решение x ∗ задачи (.) (и задачи (.)) существу-
ет.
Если x1∗ является другим решением задачи (.), то
µ µ
f (x ∗ ) = f (x1∗ ) ¾ f (x ∗ ; x1∗ ) + k x1∗ − x ∗ k2 ¾ f (x ∗ ) + k x1∗ − x ∗ k2
2 2
(ввиду неравенства (.)). Поэтому x1∗ = x ∗ .
“Nesterov-final” — // — : — page — #
2 ,γ (R ),
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
k xk − x ∗ k2 ¶ (1 − µh)k k x0 − x ∗ k2 .
1
xk+1 = xk − g f (xk ; L) = x f (xk ; L).
L
µ k
k xk − x ∗ k2 ¶ 1 − k x0 − x ∗ k2 .
L
“Nesterov-final” — // — : — page — #
γ0
ϕ0 (x) = f (x0 ) + k x − x0 k2 ,
2
ϕk+1 (x) = (1 − αk )ϕk (x) +
1
+ αk f (x f ( yk ; L)) + k g ( y ; L) k2 +
2L f k
µ
+ 〈 g f ( yk ; L), x − yk 〉 + k x − yk k2 .
2
γk+1 = (1 − αk )γk + αk µ,
1
υ k +1 = (1 − αk )γk υk + αk µ yk − αk g f ( yk ; L) ,
γk+1
1
ϕk∗+1 = (1 − αk )ϕk + αk f (x f ( yk ; L)) + k g f ( yk ; L) k2 +
2L
α2k
+ k g ( y ; L) k2 +
2γk+1 f k
α (1 − αk )γk µ
+ k k yk − υk k2 + g f ( yk ; L), υk − yk .
γk+1 2
“Nesterov-final” — // — : — page — #
запишется как
f (xk ) ¾ f (x f ( yk ; L)) + g f ( yk ; L), xk − yk +
1 µ
+ k g ( y ; L) k2 + k xk − yk k2 .
2L f k 2
Отсюда следует, что
ϕk∗+1 ¾ (1 − αk ) f (xk ) + αk f (x f ( yk ; L)) +
α α2k α (1 − αk )γk
k
k g f ( yk ; L) k2 + k
+ − g f ( yk ; L), υk − yk ¾
2L 2γk+1 γk+1
1 α2k
¾ f (x f ( yk ; L)) + − k g f ( yk ; L) k2 +
2L 2γk+1
α γ
D E
+ (1 − αk ) g f ( yk ; L), k k (υk − yk ) + xk − yk .
γk+1
Таким образом, снова можно выбрать
xk+1 = x f ( yk ; L),
Lα2k = (1 − αk )γk + αk µ ≡ γk+1 ,
1
yk = (α γ υ + γk+1 xk ).
γk + αk µ k k k
Выпишем получившийся метод в форме (.), исключив из него
последовательности {υk } и {γk }.
“Nesterov-final” — // — : — page — #
1¶i ¶m 2 x ∈Q
“Nesterov-final” — // — : — page — #
Введем функцию
f ∗ (t) = min f (t; x). (.)
x ∈Q
“Nesterov-final” — // — : — page — #
f0 ( y) ¶ t < t ∗ , fi ( y) ¶ 0, i = 1, …, m.
f ∗ (t) − ∆ ¶ f ∗ (t + ∆) ¶ f ∗ (t).
“Nesterov-final” — // — : — page — #
(1 − α) fi (x ∗ (t0 )) + α fi (x ∗ (t2 )) ¶
= (1 − α) f ∗ (t0 ) + α f ∗ (t2 ),
и мы получаем оценку (.).
“Nesterov-final” — // — : — page — #
2
Более того, fγ (t; x̄; x) ∈ Sγ1,1 n
Поэтому в силу теоремы .. для
,γ (R ).
любого t ∈ R1 условное градиентное отображение определено кор-
ректно.
Поскольку f (t; x) ∈ Sµ1,1 n
,L (R ), мы имеем
f ∗ (t1 − ∆; x̄; γ) ¾
∆
¾ f ∗ (t1 ; x̄; γ) + ( f ∗ (t1 ; x̄; γ) − f ∗ (t2 ; x̄; γ)). (.)
t2 − t1
Для нас важными являются два значения γ: γ = L и γ = µ. При-
меняя лемму .. к функции типа максимума fγ (t; x̄; x) с γ1 = L и
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
2 x ∈Q
∗
Очевидно, что это значение не больше t .
Далее, предполагалось, что мы умеем вычислять корень t ∗ ( x̄)
функции
f ∗ (t; x̄; µ) = min fµ (t; x̄; x),
x ∈Q
2
µ
fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 , i = 1, …, m.
2
Из леммы .. следует, что этот корень есть оптимальное значение
следующей задачи минимизации:
′ µ 2
f0 ( x̄) + f0 ( x̄), x − x̄ + k x − x̄ k → min
2
µ
при fi ( x̄) + fi ( x̄), x − x̄ + k x − x̄ k2 ¶ 0, i = 1, …, m,
′
2
x ∈ Q.
Эта задача не является квадратичной, так как ограничения нели-
нейны. Однако ее можно решить за конечное время с помощью
алгоритмов типа симплекс-метода, поскольку у целевой функции и
ограничений одинаковый гессиан. Эту задачу можно также решить
методами внутренней точки.
“Nesterov-final” — // — : — page — #
Глава
Негладкая выпуклая
оптимизация
§ .. Выпуклые функции общего вида
Эквивалентные определения. Замкнутые функции. Непрерывность выпуклых
функций. Теоремы отделимости. Субградиенты и правила их вычисления. Ус-
ловия оптимальности.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
где r есть радиус шара, а x0 ∈ Rn –– его центр. Шар вида Bk·k (0, 1) на-
зовем единичным шаром в норме k · k. Очевидно, что эти шаровые
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
f1 (α x1 + (1 − α)x2 ) + f2 (α x1 + (1 − α)x2 ) ¶
¶ α f1 (x1 ) + (1 − α) f1 (x2 ) + α f2 (x1 ) + (1 − α) f2 (x2 ) =
= α( f1 (x1 ) + f2 (x1 )) + (1 − α)( f1 (x2 ) + f2 (x2 )).
Таким образом, функция f (x) выпукла. Докажем ее замкнутость.
Рассмотрим последовательность {(xk , tk )} ⊂ epi( f ):
tk ¾ f1 (xk ) + f2 (xk ), lim xk = x̄ ∈ dom f , lim tk = t̄.
k →∞ k →∞
Поэтому
t̄ = lim tk ¾ inf lim f1 (xk ) + inf lim f2 (xk ) ¾ f ( x̄).
k →∞ k →∞ k →∞
Важно понимать, что в общем случае для неограниченных выпуклых мно-
жеств это свойство не выполняется. Например, для двумерного случая возьмем
Q1 = {(x, y) | y ¾ 1/ x, x > 0}, а Q2 = {(x, y) | y = 0, x ¶ 0}. Оба эти множества замкну-
ты и выпуклы. Однако их сумма Q1 + Q2 = {(x, y) | y > 0} –– выпуклое, но открытое
множество.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
x ∈ dom ϕ ( y, ·), t ¾ ϕ ( y, x)
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
¶ −k x0 − πQ (x0 ) k2 .
“Nesterov-final” — // — : — page — #
при всех x ∈ Q2 . Отсюда следует, что g ∈ dom ψQ2 и ψQ1 (g) > ψQ2 (g).
Получили противоречие.
. Из первого пункта следует, что Q1 ⊆ Q2 и Q2 ⊆ Q1 . Поэтому Q1 ≡ Q2.
“Nesterov-final” — // — : — page — #
... Субградиенты
Теперь у нас есть все возможности для введения понятия обоб-
щенного градиента.
Определение ... Пусть f –– выпуклая функция. Вектор g называ-
ется субградиентом функции f в точке x0 ∈ dom f , если для любого
x ∈ dom f выполняется неравенство
f (x) ¾ f (x0 ) + 〈 g, x − x0 〉. (.)
Множество ∂ f (x0 ) всех субградиентов для f в x0 называется субдиф-
ференциалом функции f в точке x0 .
Необходимость введения понятия субдифференциала вытекает
из следующего примера.
Пример ... Рассмотрим функцию f (x) = | x |, x ∈ R. Для всех y ∈ R
и g ∈ [−1, 1] имеет место неравенство
f ( y) = | y | ¾ g · y = f (0) + g · ( y − 0).
Поэтому субградиент для f в точке x = 0 не является единственным.
В нашем примере он равен всему отрезку [−1, 1].
Все множество неравенств (.), x ∈ dom f , можно рассматри-
вать как семейство линейных ограничений, определяющих множе-
ство ∂ f (x0 ). Поэтому по определению субдифференциал является
выпуклым замкнутым множеством.
Заметим, что субдифференцируемость функции подразумевает
ее выпуклость.
Лемма ... Пусть для любого x ∈ dom f субдифференциал ∂ f (x)
непуст. Тогда f –– выпуклая функция.
Доказательство. В самом деле, пусть x, y ∈ dom f , α ∈ [0, 1]. Рас-
смотрим yα = x + α( y − x). Пусть g ∈ ∂ f ( yα ). Тогда
f ( y) ¾ f ( yα ) + 〈 g, y − yα 〉 = f ( yα ) + (1 − α)〈 g, y − x 〉,
f (x) ¾ f ( yα ) + 〈 g, x − yα 〉 = f ( yα ) − α〈 g, y − x 〉.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
A (x) = Ax + b: Rn → Rm .
= max 〈 ḡ, p 〉 | ḡ ∈ AT ∂ f ( y0 ) .
“Nesterov-final” — // — : — page — #
(.)
∂ f (x) = Conv ∂ fi (x) | i ∈ I(x) ,
“Nesterov-final” — // — : — page — #
Pk
где ∆k = λi ¾ 0, i=1 λi = 1 –– k-мерный симплекс. Поэтому
k
§P ª
f ′ (x; p) = max
λi max 〈 gi , p 〉 | gi ∈ ∂ fi (x) =
{λi }∈∆k i =1
k
§ P · ª
= max λi gi , p | gi ∈ ∂ fi (x), {λi } ∈ ∆k =
i =1
§ k
P ª
= max 〈 g, p 〉 | g = λi gi , gi ∈ ∂ fi (x), {λi } ∈ ∆k =
i =1
= max 〈 g, p 〉 | g ∈ Conv{∂ fi (x), i ∈ I(x)} .
выполнено включение
∂ f (x) ⊇ Conv ∂ϕ x ( y, x) | y ∈ I(x) ,
где I(x) = { y | ϕ ( y, x) = f (x)}.
“Nesterov-final” — // — : — page — #
Pm
. Рассмотрим функцию f (x) = i=1 |〈ai , x 〉 − bi |. Введем обозначе-
ния
I− (x) = {i | 〈ai , x 〉 − bi < 0},
I+ (x) = {i | 〈ai , x 〉 − bi > 0},
I0 (x) = {i | 〈ai , x 〉 − bi = 0}.
P P P
Тогда ∂ f (x) = ai − ai + [−ai , ai ].
i ∈ I+ (x) i ∈ I− (x) i ∈ I0 (x)
∂ f (0) = B2 (0, 1) = x ∈ Rn | k x k ¶ 1 ,
∂ f (x) = x /k x k , x 6= 0.
Pn
. Для l1 -нормы f (x) = k x k1 = i=1 | x (i) | получаем
где I+ (x) = {i | x (i) > 0}, I− (x) = {i | x (i) < 0} и I0 (x) = {i | x (i) = 0}.
Проверку данных представлений мы оставляем читателю в каче-
стве упражнения.
В заключение этого параграфа приведем пример применения из-
ложенной техники для вывода условия оптимальности гладкой за-
дачи минимизации с функциональными ограничениями.
Теорема ... (Теорема Куна––Таккера). Пусть fi (x) –– диффе-
ренцируемые выпуклые функции, i = 0, …, m. Предположим, что
найдется такая точка x̄, что fi ( x̄) < 0 при всех i = 1, …, m (условие
Слэйтера).
Точка x ∗ является решением задачи
(.)
min f0 (x) | fi (x) ¶ 0, i = 1, …, m
“Nesterov-final” — // — : — page — #
Ввиду теоремы .. это имеет место в том и только в том случае, ес-
ли 0 ∈ ∂ϕ (x ∗). Далее, по лемме .. это верно тогда и только тогда,
когда существуют такие неотрицательные числа λ̄i , что
P P
λ̄0 f0′ (x ∗ ) + λ̄i fi′ (x ∗ ) = 0, λ̄0 + λ̄i = 1.
i∈I ∗ i∈I ∗
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
fk ( y) − fk (x) ¶ 〈 gk ( y), y − x 〉 ¶
¶ k gk ( y) k · k y − x k ¶ (µρ + γ)k y − x k.
γ γ2 µ γ2
Rk ≡ k xk∗ k = p , fk∗ = − + R2k = − .
µ k µk 2 2µ k
“Nesterov-final” — // — : — page — #
Вход: x ∈ Rn .
Ядро: f := −∞; i ∗ := 0;
for j := 1 to k do
if x ( j) > f then { f := x ( j) ; i ∗ := j};
µ
f := γ f + k x k2 ; g := γei∗ + µ x;
2
Выход: fk (x) := f , gk (x) := g ∈ Rn .
На первый взгляд в приведенной схеме нет ничего специфическо-
го. Ядро оракула представляет собой стандартную процедуру поиска
максимальной координаты вектора из Rn . Однако очень важно, что
субградиент в этом оракуле всегда формируется как координатный
вектор. Кроме того, его ненулевая координата соответствует i ∗ ––
минимально возможному номеру максимальной компоненты век-
тора x (их может быть несколько). Посмотрим, как может выглядеть
минимизирующая последовательность, построенная с помощью та-
кого оракула.
Выберем начальную точку x0 = 0. Введем обозначение
R p,n = x ∈ Rn | x (i) = 0, p + 1 ¶ i ¶ n .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
и
f (x) − f ( x̄) ¶ f ( y) − f ( x̄) ¶ ω f ( x̄; k y − x̄ k) = ω f ( x̄; υ f ( x̄; x)).
Если функция f липшицева на B2 ( x̄, R) и 0 ¶ υ f ( x̄; x) ¶ R, то y ∈
∈ B2 ( x̄, R). Значит,
f (x) − f ( x̄) ¶ f ( y) − f ( x̄) ¶ M k y − x̄ k = M υ f ( x̄; x).
Зафиксируем некоторую точку x ∗ , являющуюся решением зада-
чи (.). Значения υ f (x ∗ ; x) позволяют оценить качество множеств
локализации.
Определение ... Пусть {xi }∞i =0 –– последовательность точек из Q.
Определим
Sk = x ∈ Q | 〈 g(xi ), xi − x 〉 ¾ 0, i = 0, …, k .
Таким образом,
υ∗k = max r | 〈 g(xi ), xi − x 〉 ¾ 0, i = 0, …, k, ∀ x ∈ B2 (x ∗ , r) .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Из примера .. () можно увидеть, что ∆k –– выпуклая функция от {hi }.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
〈 ḡ, x̄ − x 〉 ¾ 0 ∀ x ∈ Q.
“Nesterov-final” — // — : — page — #
. Найти максимальное
k ∈ {0, …, m} : x ∈ Bk .
. If k < m then [ выдать gk ] else
[{Создать новый параллелепипед}:
If x (i) ¾ c(i)
m then [am+1 := am ,
bm+1 := bm + (c(i) (i)
m − bm )ei , gm := ei .]
else [am+1 := am + (c(i) (i)
m − am )ei ,
bm+1 := bm , gm := −ei .]
m := m + 1; i := i + 1; If i > n then i := 1.
Выдать gm . ]
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
S0 ( X ) = Q,
Sk+1 ( X ) = x ∈ Sk ( X ) | 〈 g(xk ), xk − x 〉 ¾ 0 .
“Nesterov-final” — // — : — page — #
d) Выберем Ek+1 ⊇ x ∈ Ek | 〈 gk , yk − x 〉 ¾ 0 .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Тогда
voln S+ 1
¶1− .
voln S e
(Примем этот результат без доказательства.)
Это утверждение естественным образом приводит нас к следую-
щему методу минимизации.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
n2 Hk gk gkT Hk
2
H k +1 = 2
Hk − · .
n −1 n + 1 〈 Hk gk , gk 〉
Ek = x ∈ Rn | 〈 Hk−1 (x − yk ), x − yk 〉 ¶ 1 ,
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
метод требует
M R2
2(n + 1)2 ln
ρǫ
обращений к оракулу. Эта оценка эффективности не является опти-
мальной (см. теорему ..), но она имеет линейную зависимость от
ln 1/ǫ и полиномиальную зависимость от размерности и логариф-
мов параметров M, R и ρ . Для классов задач, оракул которых имеет
полиномиальную сложность, такие алгоритмы называются (слабо)
полиномиальными.
В заключение этого параграфа укажем, что существует несколь-
ко методов, которые используют множества локализации в форме
многогранников:
Ek = x ∈ Rn | 〈a j , x 〉 ¶ b j , j = 1, …, mk .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
f ( y, x) = max | y |, k x k2 , y ∈ R1 , x ∈ Rn ,
Q = z = ( y, x) : y 2 + k x k2 ¶ 1 .
fˆk∗ ¶ f (z ∗ ) = 0.
S2 (0, 1) ≡ x ∈ Rn | k x k = 1 ∩ Xk∗ 6= ∅.
f (zi ) ≡ f (0, xi ) = 1.
“Nesterov-final” — // — : — page — #
1
Метод эллипсоидов: O n2 ln
ǫ
1
Оптимальные методы: O n ln
ǫ
1
Градиентный метод: O 2
ǫ
“Nesterov-final” — // — : — page — #
x ∈ Q.
“Nesterov-final” — // — : — page — #
x ∈ Q.
Обе эти задачи эффективно решаются либо стандартными алгорит-
мами типа симплекс-метода, либо методами внутренней точки.
Изучим некоторые свойства метода уровней. Заметим, что ре-
кордные значения модели убывают, а ее минимальные значения
возрастают:
fˆk∗ ¶ fˆk∗+1 ¶ f ∗ ¶ fk∗+1 ¶ fk∗ .
“Nesterov-final” — // — : — page — #
Доказательство. Действительно,
f (xk ) − (1 − α)δk ¾ fk∗ − (1 − α)δk = lk (α) ¾
¾ fˆk (xk+1 ) ¾ f (xk ) + 〈 g(xk ), xk+1 − xk 〉 ¾
¾ f (xk ) − M f k xk+1 − xk k.
k xi+1 − x ∗p k2 ¶ k xi − x ∗p k2 − k xi+1 − xi k2 ¶
(1 − α)2 δi2 (1 − α)2 δ2p
¶ k xi − x ∗p k2 − ¶ k xi − x ∗p k2 − .
M 2f M 2f
“Nesterov-final” — // — : — page — #
Поэтому
m
P M 2f D 2 m
P M 2f D 2
N= n( j) ¶ 2 2
(1 − α)2 j ¶ .
j =0 ǫ (1 − α) j =0 ǫ (1 − α)2 (1 − (1 − α)2 )
2
1
Ее решение равно α∗ = p . При таком выборе α оценка эффек-
2+ 2
4
тивности метода уровней выглядит так: N ¶ 2 M 2f D 2 . Сравнивая
ǫ
этот результат с теоремой .., видим, что метод уровней является
оптимальным равномерно по размерности пространства перемен-
ных. Заметим также, что граница аналитической сложности этого
метода в конечномерном случае неизвестна.
“Nesterov-final” — // — : — page — #
min f (x)
при f j (x) ¶ 0, j = 1, …, m, (.)
x ∈ Q,
min f (x),
при f¯(x) ¶ 0, (.)
x ∈ Q.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
(заметим, что fˆk∗ ( X ; t2 ) = 0). Пусть xα = (1 − α)xk∗ (t0 ) + α xk∗ (t2 ). Тогда
= (1 − α) fˆk∗ ( X ; t0 ) + α fˆk∗ ( X ; t2 ),
и мы получаем неравенство (.).
“Nesterov-final” — // — : — page — #
k
t0 − t ∗
∗ 1
f j(k) ( X ; tk ) ¶ .
1−κ 2(1 − κ)
Доказательство. Пусть
∗
f j(k) (X ; tk ) 1
σk = p , β= (< 1).
t k +1 − t k 2(1 − κ)
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
fˆj(k)
∗ ∗
( X ; tk ) ¾ (1 − κ) f j(k) ( X ; tk ).
“Nesterov-final” — // — : — page — #
f¯(x j ) + ḡ(x j ), x − x j ¶ 0, j = 0, …, k,
x ∈ Q.
Если Q –– многогранник, то эта задача решается конечными метода-
ми линейного программирования (например, симплекс-методом).
Если Q –– более сложное множество, то необходимо использовать
уже методы внутренней точки.
В завершение этого параграфа отметим, что можно применять и
более точные модели для функциональных ограничений. Поскольку
f¯(x) = max fi (x),
1¶i ¶m
можно использовать модель
fˇk ( X ; x) = max max fi (x j ) + 〈 gi (x j ), x − x j 〉 ,
0¶ j ¶k 1¶i ¶m
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Глава
Структурная оптимизация
§ .. Самосогласованные функции
Что в черном ящике? Как на самом деле работает метод Ньютона? Определе-
ние самосогласованных функций. Основные свойства. Минимизация самосо-
гласованных функций.
Мы уже обсуждали данную концепцию и соответствующие методы в предыду-
щих главах.
“Nesterov-final” — // — : — page — #
Численная проверка выпуклости –– задача безнадежная.
Тем не менее, выводы теории о методах минимизации, основанных на ответах
оракула, остаются, конечно же, справедливыми.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
ного произведения
n
P
〈 x, y 〉 = x (i) y (i) .
i =1
“Nesterov-final” — // — : — page — #
.
Такой выбор приводит нас к классу самосогласованных функций.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Тогда
1 1 2
f ′ (x) = − , f ′′ (x) = , f ′′′ (x) = − .
x x2 x3
Поэтому f (x) –– самосогласованная функция с константой M f = 2.
. Логарифмический барьер для множества второго порядка. Пусть
A = AT 0. Введем в рассмотрение вогнутую квадратичную функ-
цию
1
ϕ (x) = α + 〈a, x 〉 − 〈 Ax, x 〉.
2
Определим f (x) = − ln ϕ (x), dom f = x ∈ Rn | ϕ (x) > 0 . В этом слу-
чае
1
Df (x)[u] = − 〈a, u〉 − 〈 Ax, u〉 ,
ϕ (x)
2 1 2 1
D f (x)[u, u] = 2 〈a, u〉 − 〈 Ax, u〉 + 〈 Au, u〉,
ϕ (x) ϕ (x)
2 3
D 3 f (x)[u, u, u] = − 3 〈a, u〉 − 〈 Ax, u〉 −
ϕ (x)
3
− 2 〈a, u〉 − 〈 Ax, u〉 〈 Au, u〉.
ϕ (x)
1
Введем обозначение ω1 = Df (x)[u] и ω2 = 〈 Au, u〉. Тогда
ϕ (x)
D 2 f (x)[u, u] = ω21 + ω2 ¾ 0,
D 3 f (x)[u, u, u] = 2ω3 + 3ω ω .
1 1 2
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Заметим, что
ψ′ (α) = D 3 f ( yα )[u, u, u] ¶ 2ψ(α)3/2 , ψ(0) = 0.
Так как ψ(α) ¾ 0, получаем, что ψ′ (0) = 0. Поэтому эта функция
является частью решения следующей системы дифференциальных
уравнений:
¨
ψ′ (α) = 2ψ(α)3/2 − ξ(α),
ψ(0) = ξ(0) = 0,
ξ′ (α) = 0.
Однако эта система имеет единственное тривиальное решение. Зна-
чит, ψ(α) = 0 для всех допустимых значений α.
Таким образом, мы показали, что функция ϕ (α) = f ( yα ) линейна:
Rα Rλ
′′
ϕ (α) = f (x) + f ′ (x), yα − x +
f ( yτ )u, u dτd λ =
0 0
= f (x) + α f ′ (x), u .
“Nesterov-final” — // — : — page — #
,
∗
′′ −1
1/2
kυk x = [ f (x)] υ, υ ,
1/2
λ f (x) = [ f (x)]−1 f ′ (x), f ′ (x)
′′
.
Очевидно, |〈υ, u〉| ¶ kυk∗x · k u k x . Назовем k u k x локальной нормой для
направления u по отношению к x, а λ f (x) = k f ′ (x) k∗x –– локальной
двойственной нормой градиента f ′ (x).
Зафиксируем x ∈ dom f и u ∈ Rn , u 6= 0. Рассмотрим функцию од-
ной переменной
1
ϕ (t) =
〈 f ′′ (x + tu)u, u〉1/2
Иногда λ f (x) называют ньютоновской вариацией функции f в точке x.
“Nesterov-final” — // — : — page — #
Доказательство. Действительно,
f ′′′ (x + tu)[u, u, u]
ϕ ′ (t) = − .
2〈 f ′′ (x + tu)u, u〉3/2
W (x; r) = cl W 0 (x; r) ≡ y ∈ Rn | k y − x k x ¶ r .
“Nesterov-final” — // — : — page — #
(так как ϕ (0) = 1/k u k x ). Это и есть в точности эллипсоид W 0 (x; 1).
. Выберем u = y − x. Тогда
1 1
ϕ (1) = , ϕ (0) =
k y − x ky k y − x kx
и ϕ (1) ¶ ϕ (0) + 1 в силу леммы .., а это и есть неравенство (.).
. Если k y − x k x < 1, то ϕ (0) > 1, и по лемме .. мы получаем
ϕ (1) ¾ ϕ (0) − 1. Это в точности неравенство (.).
“Nesterov-final” — // — : — page — #
следующим образом:
r 2 ′′ 1
(1 − r + ) f (x) G f ′′ (x).
3 1−r
Доказательство. В самом деле, по теореме .. имеем
R1 R1
G= f ′′ (x + τ( y − x)) dτ f ′′ (x) · (1 − τr)2 dτ =
0 0
1
= 1 − r + r 2 f ′′ (x),
3
R1 dτ 1
G f ′′ (x) · = f ′′ (x).
(1 − τr)2 1−r
0
“Nesterov-final” — // — : — page — #
R1
′′
f ′ ( y) − f ′ (x), y − x =
f ( yτ )( y − x), y − x dτ =
0
R1 1
= k yτ − x k2y dτ ¾
τ2 τ
0
R1 r2 R 1
r
r2
¾ dτ = r dτ = .
(1 + τr)2 (1 + t)2 1+r
0 0
R1
′
f ( y) − f (x) − f ′ (x), y − x = f ( yτ ) − f ′ (x), y − x dτ =
0
R1 1
f ′ ( yτ ) − f ′ (x), yτ − x dτ ¾
=
τ
0
R1 k yτ − x k2x R1 τr 2
¾ dτ = dτ =
τ(1 + k yτ − x k x ) 1 + τr
0 0
Rr tdt
= = ω(r).
1+t
0
k y − x k2x
0 ¶ f ′ ( y) − f ′ (x), y − x ¶ (.)
,
1 − k y − x kx
“Nesterov-final” — // — : — page — #
имеем
R1
′′
f ′ ( y) − f ′ (x), y − x =
f ( yτ )( y − x), y − x dτ =
0
R1 1
= k yτ − x k2y dτ ¶
τ2 τ
0
R1 r2 R 1
r
r2
¶ 2
dτ = r dt = .
(1 − τr) (1 − t)2 1−r
0 0
f ′ ( yτ ) − f ′ (x), yτ − x dτ ¶
=
τ
0
R1 k yτ − x k2x R1 τr 2
¶ dτ = dτ =
τ(1 − k yτ − x k x ) 1 − τr
0 0
Rr tdt
= = ω∗ (r).
1−t
0
Теорема ... Неравенства (.), (.), (.), (.), (.) и (.) яв-
ляются необходимыми и достаточными условиями для того, что-
бы функция была стандартной самосогласованной.
Доказательство. Мы доказали две цепочки следствий:
определение .. ⇒ (.) ⇒ (.) ⇒ (.),
определение .. ⇒ (.) ⇒ (.) ⇒ (.).
Покажем, что из неравенства (.) следует определение ... Пусть
x ∈ dom f и x − αu ∈ dom f для α ∈ [0, ǫ ). Рассмотрим функцию
ψ(α) = f (x − αu), α ∈ [0, ǫ ).
Пусть r = k u k x ≡ [ϕ ′′ (0)]1/2 . Считая, что неравенство (.) выполня-
ется при всех x, y ∈ dom f , получаем
1 1
ψ(α) − ψ(0) − ψ′ (0)α − ψ′′ (0)α2 ¾ ω(αr) − α2 r 2 .
2 2
“Nesterov-final” — // — : — page — #
r αr r3
h i
= lim 2 − αr = − .
α↓0 3α 1 + αr 3
Таким образом, D 3 f (x)[u, u, u] = −ψ′′ (0) ¶ ψ′′′ (0) ¶ 2[ψ′′ (0)]3/2 , что
совпадает с определением .. при M f = 2.
Аналогично можно показать, что из неравенства (.) также сле-
дует неравенство из определения ...
“Nesterov-final” — // — : — page — #
¶ min ϕ ( y) + ϕ ′ ( y), z − y + ω∗ k z − y k y =
z ∈dom f
= ϕ ( y) − ω kϕ ′ ( y) k∗y =
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
λ2
= f (xk ) − + ω∗ (ω′ (λ)) =
1+λ
= f (xk ) − λω′ (λ) + ω∗ (ω′ (λ)) = f (xk ) − ω(λ).
Таким образом, для всех x ∈ dom f , λ f (x) ¾ β > 0, один шаг демп-
фированного метода Ньютона уменьшает значение f (x) по мень-
шей мере на константу ω(β ) > 0. Отметим, что результат теоре-
мы .. может использоваться для получения оценок глобальной
эффективности этого метода.
Опишем теперь локальную сходимость стандартного метода
Ньютона.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Таким образом, λ f (x) ¶ ω′∗ (r). Применяя ω′ (·) к обеим частям, по-
лучим оставшуюся часть неравенства (.).
Наконец, неравенства (.) следуют из неравенств (.) и (.).
x+ = x − [ f ′′ (x)]−1 f ′ (x)
принадлежит dom f и верно неравенство
λ (x) 2
f
λ f (x+ ) ¶ .
1 − λ f (x)
¶
1 1
¶ k f ′ (x+ ) k x = k f ′ (x+) k x .
1 − k p kx 1−λ
Далее,
f ′ (x+ ) = f ′ (x+ ) − f ′ (x) − f ′′ (x)(x+ − x) = Gp,
R1
где G = [ f ′′ (x + τ p) − f ′′ (x)] dτ. Значит,
0
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
... Мотивировка
В предыдущем параграфе было показано, что метод Ньютона
очень эффективен при минимизации стандартной самосогласован-
ной функции. Такая функция всегда является барьером для своей
области определения. Проверим, какие утверждения мы теперь
можем доказать для классического подхода последовательной без-
условной минимизации (п. ..), в котором используются самосо-
гласованные функции.
В дальнейшем мы будем рассматривать задачи условной миними-
зации специального вида. Введем обозначение Dom f = cl(dom f ).
Определение ... Будем называть задачу условной минимизации
стандартной, если она имеет форму
(.)
min 〈c, x 〉 | x ∈ Q ,
где Q –– выпуклое замкнутое множество. Мы предполагаем также
известной самосогласованную функцию f , для которой Dom f = Q.
Введем в рассмотрение параметрическую штрафную функцию
f (t; x) = t 〈c, x 〉 + f (x),
t ¾ 0. Заметим, что f (t; x) –– самосогласованная функция по x (см.
следствие ..). Пусть
x ∗ (t) = arg min f (t; x).
x ∈dom f
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
1
ϕ (x) = α + 〈a, x 〉 − 〈 Ax, x 〉.
2
1
F ′ (x), u = −
〈a, u〉 − 〈 Ax, u〉 ,
ϕ (x)
1 1
′′
〈 F (x)u, u〉 = 2 [〈a, u〉 − 〈 Ax, u〉]2 + 〈 Au, u〉.
ϕ (x) ϕ (x)
1
Пусть ω1 = 〈 F ′ (x), u〉 и ω2 = 〈 Au, u〉. Тогда
ϕ (x)
“Nesterov-final” — // — : — page — #
Поэтому
“Nesterov-final” — // — : — page — #
1
′ 2 1
¾ F (x + t( y − x)), y − x = ϕ 2 (t).
ν ν
Поэтому функция ϕ (t) возрастает и положительна при t ∈ [0, 1].
Кроме того, для любого t ∈ [0, 1] выполняется неравенство
1 1 1
− + ¾ t.
ϕ (t) ϕ (0) ν
ν
Это означает, что 〈 F ′ (x), y − x 〉 = ϕ (0) < при всех t ∈ [0, 1]. Таким
t
образом, неравенство (.) доказано. Далее,
νϕ (0) t ϕ (0)2
ϕ (t) − ϕ (0) ¾ − ϕ (0) = , t ∈ [0, 1].
ν − t ϕ (0) ν − t ϕ (0)
Взяв t = 1, получим неравенство (.).
1
. Пусть ψ(x) = e− ν F(x) . Тогда
1 1
ψ′ (x) = − e− ν F(x) · F ′ (x),
ν
1 1 1
h i
ψ (x) = − e− ν F(x) F ′′ (x) − F ′ (x)F ′ (x)T .
′′
ν ν
“Nesterov-final” — // — : — page — #
1
′
F ( yα ) − F ′ (x), yα − x ¾
=
α
p
1 k yα − x k2x αk y − x k2x r ν
¾ · = = p .
α 1 + k yα − x k2x 1 + αk y − x k x 1+ ν
Таким образом,
p p
ν r ν
1− p ¶ ν,
r 1+ ν
откуда в точности следует неравенство (.).
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
λ1 ¶ λ0 + |γ| ¶ β + |γ|,
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
k −1
γ(1 − 2β ) γ
Таким образом, tk ¾ 1+ p при всех k ¾ 1.
(1 − β )k c k∗x∗ β+ ν
F
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
F ′ ( y ∗ (t)) = tF ′ ( y0 ). (.)
y ∗ (1) = y0 , y ∗ (0) = x F∗ .
p
k F ′ ( y ∗ (t)) k∗y ∗(t) ¶ (ν + 2 ν )k F ′ (x0 ) k∗x ∗ · t.
F
“Nesterov-final” — // — : — page — #
. Останавливаемся, если
p
′
β
k F ( yk ) k yk ¶ p .
1+ β
Формируем x̄ = yk − [F ′′ ( yk )]−1 F ′ ( yk ).
k tk F ′ ( y0 ) + F ′ ( yk ) k yk ¶ β .
итераций.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
min f0 (x),
при f j (x) ¶ 0, j = 1, …, m, (.)
x ∈ Q,
где Q –– простое ограниченное выпуклое и замкнутое множество,
имеющее внутреннюю точку, а все функции f j (x), j = 0, …, m, вы-
пуклы. Предполагаем, что данная задача удовлетворяет условию Сл-
эйтера: существует такое x̄ ∈ int Q, что f j ( x̄) < 0 для всех j = 1, …, m.
Предположим, что нам известна такая верхняя граница τ̄, что
f0 (x) < τ̄ для всех x ∈ Q. Тогда, вводя две дополнительные перемен-
ные τ и κ, можно переписать эту задачу в стандартной форме:
τ → min
при f0 (x) ¶ τ,
(.)
f j (x) ¶ κ, j = 1, …, m,
x ∈ Q, τ ¶ τ̄, κ ¶ 0.
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
≡ k pi k x̄
(так как в противном случае функция f (t) = F( x̄ + tp) достигала бы
своего минимума; см. теорему ..).
Заметим, что x̄ − βi pi ∈ / Q. Поэтому в силу теоремы .. норма
вектора pi должна быть достаточно большой: βi k pi k x̄ ¾ 1. Отсюда,
пользуясь теоремой .., получаем
k · Pk k
αi
ν ¾ F ′ ( x̄), ȳ − x̄ = F ′ ( x̄), −
P P
αi pi ¾ αi k pi k x̄ ¾ .
i =1 i =1 i =1
βi
“Nesterov-final” — // — : — page — #
P( x̄) = s ∈ Rn | 〈s, x − x̄ 〉 ¶ 1
∀x ∈ Q .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
при q0 (x) ¶ τ,
(.)
qi (x) ¶ βi , i = 1, …, m,
x ∈ R n , τ ∈ R1 .
Для допустимого множества в этой задаче можно построить сле-
дующий самосогласованный барьер:
m
P
F(x, τ) = − ln(τ − q0 (x)) − ln(βi − qi (x)), ν =m+1
i =1
K2 = (x, t) ∈ Rn+1 | t ¾ k x k .
В разных областях численного анализа это множество может иметь разные на-
звания: конус Лоренца, «конус-рожок», «конус-кулек», конус второго порядка и т. п.
“Nesterov-final” — // — : — page — #
в точке α = 0. Введем обозначения ϕ (·) = ϕ (·) (0), ξ(·) = ξ(·) (0). Тогда
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
L = X | 〈 Ai , X 〉F = bi , i = 1, …, m .
“Nesterov-final” — // — : — page — #
A j = a j aTj , a j ∈ Rn , j = 1, …, m,
то вычисление одного шага метода Ньютона можно осуществить за
“Nesterov-final” — // — : — page — #
при − ln det H ¶ τ,
(.)
k Hai − υk ¶ 1, i = 1, …, m,
H ∈ P n , υ ∈ R n , τ ∈ R1 .
Для того чтобы решить эту задачу методом внутренней точки, нуж-
но найти самосогласованный барьер для допустимого множества. К
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
при − ln det H ¶ τ,
(.)
〈 Hai , ai 〉 ¶ (bi − 〈ai , υ〉)2 , i = 1, …, m,
H ∈ P n , τ ∈ R1 .
В силу леммы .. здесь можно использовать самосогласованный
барьер вида
F(H, τ) = − ln det H − ln(τ + ln det H) −
m
P
− ln[(bi − 〈ai , υ〉)2 − 〈 Hai , ai 〉],
i =1
ν =m + n + 1.
Оценка сложности
p соответствующего метода отслеживания траек-
тории равна O m + n + 1 · ln((m + n)ǫ ) итерациям.
Максимальный вписанный эллипсоид со свободным центром
“Nesterov-final” — // — : — page — #
≡ x ∈ Rn | 〈G −2 (x − υ), x − υ〉 ¶ 1 .
Это нам дает выпуклую область для набора параметров (G, υ):
k Ga k ¶ b − 〈a, υ〉.
Заметим, что voln W = voln B2 (0, 1) det G. Поэтому нашу задачу мож-
но переписать в виде
min τ,
G,υ,τ
при − ln det G ¶ τ,
(.)
k Gai k ¶ bi − 〈ai , υ〉, i = 1, …, m,
G ∈ P n , υ ∈ R n , τ ∈ R1 .
В силу лемм .. и .. здесь можно использовать следующие
самосогласованные барьеры:
F(G, υ, τ) = − ln det G − ln(τ + ln det G)−
m
P
− ln[(bi − 〈ai , υ〉)2 − k Gai k2 ],
i =1
ν =2m + n + 1.
“Nesterov-final” — // — : — page — #
τi ¶ βi , i = 1, …, m,
x ∈ R , τ ∈ R m +1 , t ∈ R M ,
n
Pm
где M = i=0 mi . Таким образом, для того чтобы построить само-
согласованный барьер для допустимого множества данной задачи,
необходимо знать барьеры для надграфиков одномерных выпуклых
функций fi, j . Выпишем такие барьеры для нескольких важных функ-
ций.
Логарифм и экспонента
Функция F1 (x, t) = − ln x − ln(ln x + t) является 2-самосогласо-
ванным барьером для множества
Q1 = (x, t) ∈ R2 | x > 0, t ¾ − ln x ,
Функция энтропии
Функция F3 (x, t) = − ln x − ln(t − x ln x) является 2-самосогласо-
ванным барьером для множества
Q3 = (x, t) ∈ R2 | x ¾ 0, t ¾ x ln x .
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
α1 α γ−1
ν¾ + 2 =2 .
β1 β2 γ
x ( j) > 0, j = 1, …, n,
Pm
Пусть M = i=0 mi . Сложность решения задачи (.) методом от-
слеживания траектории оценивается как
M
O M 1/2 · ln
ǫ
итераций
“Nesterov-final” — // — : — page — #
Аппроксимация в l p -нормах
Рассмотрим простейшую задачу такого типа:
m
P
minn |〈ai , x 〉 − b(i) | p
x ∈R i =1 (.)
при α ¶ x ¶ β ,
“Nesterov-final” — // — : — page — #
где f ( y, t) = −2 ln t − ln(t 2/ p − y 2 ).
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
“Nesterov-final” — // — : — page — #
Библиографический комментарий
Глава . Нелинейная оптимизация
.. Теория сложности для оптимизационных методов, работаю-
щих с «черным ящиком» была разработана в книге []. В этой кни-
ге читатель может найти множество примеров сопротивляющихся
оракулов и нижних границ сложности, аналогичных тем, что при-
ведены в теореме ...
. и .. Существует несколько классических монографий [, ,
], в которых рассматриваются различные аспекты задач нелиней-
ной оптимизации и численных методов их решения. Для изучения
задач последовательной безусловной минимизации наилучшим ис-
точником по-прежнему является книга [].
Глава . Гладкая выпуклая оптимизация
.. Нижние границы сложности для задач с гладкими выпуклы-
ми и сильно выпуклыми функциями можно найти в книге []. Одна-
ко доказательство, приведенное в этом параграфе, является новым.
.. Градиентное отображение было введено в книге []. Опти-
мальный метод для задач с гладкими и сильно гладкими выпуклыми
функциями был предложен в книге []. Вариант при наличии огра-
ничений в этом методе взят из монографии [].
.. Оптимальные методы для минимаксных задач разработаны
в книге []. При этом подход, рассмотренный в п. .., является
новым.
Глава . Негладкая выпуклая оптимизация
.. Полное исследование различных вопросов выпуклого анали-
за можно найти в книге []. Однако классическая книга [] все еще
представляется полезной.
.. Изучение нижних границ вычислительной сложности для
задач негладкой минимизации можно найти в книге []. Общая схе-
ма доказательства скорости сходимости была предложена в рабо-
“Nesterov-final” — // — : — page — #
Библиографический комментарий
Добавлено при переводе.
“Nesterov-final” — // — : — page — #
Литература
[] Ben-Tal A. and Nemirovskii A. Lectures on Modern Convex
Optimizatin Analysis, Alogorithms, and Engineering Applications,
SIAM, Philadelphia, .
[] Boyd S. and Vandenberghe L. Convex Optimization, Cambridge
University Press, .
[] Conn A. B., N.I.M. Gould and Toint Ph. L.Trust Region Methods,
SIAM, Philadelphia, .
[] Dennis J. E. and Schnabel R. B. Numerical Methods for Un-
constrained Optimization and Nonlinear Equations, SIAM,
Philadelphia, .
[] Fiacco A. V. and McCormick G. P. Nonlinear Programming: Se-
quential Unconstrained Minimization Techniques, John Wiley and
Sons, New York, .
[] Hiriart-Urruty J.-B. and Lemaréchal C. Convex Analysis and
Minimization Algorithms, vols. I and II. Springer-Verlag, .
[] Lemarechal C., Nemirovskii A. and Nesterov Yu. New variants
of bundle methods. //Mathematical Programmming, , ––
().
[] Luenberger D. G. Linear and Nonlinear Programming. nd Ed.,
Addison Wesley. .
[] Немировский А. С., Юдин Д. Б. Информационная сложность и
эффективность методов оптимизации. Наука, М.: .
[] Нестеров Ю. Е. Методы минимизации негладких и квази-
выпуклых функций. Экономика и математические методы,
, т. , є , с. ––.
[] Нестеров Ю. Е. Метод решения задач выпуклого программи-
рования с трудоемкостью O(1/k 2 ). Доклады АН СССР, ,
т. , є , с. ––.
[] Нестеров Ю. Е. Эффективные методы в нелинейном програм-
мировании. М.: Радио и Связь, .
“Nesterov-final” — // — : — page — #
Литература
“Nesterov-final” — // — : — page — #
Предметный указатель
“Nesterov-final” — // — : — page — #
Предметный указатель
“Nesterov-final” — // — : — page — #
Предметный указатель