Вы находитесь на странице: 1из 281

“Nesterov-final” — // — : — page  — #

Ю. Е. Нестеров

Методы
выпуклой оптимизации

Издательство МЦНМО
г. Москва
“Nesterov-final” — // — : — page  — #
“Nesterov-final” — // — : — page  — #

Оглавление

Предисловие 

Благодарности 

Введение 

 Нелинейная оптимизация 
§ .. Задачи нелинейной оптимизации . . . . . . . . . . . . . . 
... Общая формулировка задачи . . . . . . . . . . . . . . . . 
... Эффективность численных методов . . . . . . . . . . . . 
... Оценки вычислительной сложности задач глобаль-
ной оптимизации . . . . . . . . . . . . . . . . . . . . . . . . 
... Визитные карточки областей оптимизации . . . . . . . 
§ .. Локальные методы безусловной оптимизации . . . . . . 
... Релаксация и аппроксимация . . . . . . . . . . . . . . . . 
... Классы дифференцируемых функций . . . . . . . . . . . 
... Градиентный метод . . . . . . . . . . . . . . . . . . . . . . . 
... Метод Ньютона . . . . . . . . . . . . . . . . . . . . . . . . . . 
§ .. Методы первого порядка в нелинейной оптимизации . 
... Градиентный метод и метод Ньютона: в чем разница? 
... Сопряженные градиенты . . . . . . . . . . . . . . . . . . . 
... Условная минимизация . . . . . . . . . . . . . . . . . . . . 

 Гладкая выпуклая оптимизация 


§ .. Минимизация гладких функций . . . . . . . . . . . . . . . . 
... Гладкие выпуклые функции . . . . . . . . . . . . . . . . . 
... Нижние границы аналитической сложности
для класса F L∞,1 (Rn ) . . . . . . . . . . . . . . . . . . . . . . . 
“Nesterov-final” — // — : — page  — #

Оглавление

... Сильно выпуклые функции . . . . . . . . . . . . . . . . . . 


... Нижние границы аналитической сложности
для класса Sµ∞,1
,L (R ) . . . . . . . . . . . . . . . . . . . . . . .
n

... Градиентный метод . . . . . . . . . . . . . . . . . . . . . . . 
§ .. Оптимальные методы . . . . . . . . . . . . . . . . . . . . . . . 
... Оптимальные методы . . . . . . . . . . . . . . . . . . . . . 
... Выпуклые множества . . . . . . . . . . . . . . . . . . . . . . 
... Градиентное отображение . . . . . . . . . . . . . . . . . . 
... Методы минимизации на простых множествах . . . . 
§ .. Задача минимизации функций с гладкими компонен-
тами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
... Минимаксная задача . . . . . . . . . . . . . . . . . . . . . . 
... Градиентное отображение . . . . . . . . . . . . . . . . . . 
... Методы минимизации для минимаксной задачи . . . . 
... Оптимизация при функциональных ограничениях . . 
... Метод условной минимизации . . . . . . . . . . . . . . . 

 Негладкая выпуклая оптимизация 


§ .. Выпуклые функции общего вида . . . . . . . . . . . . . . . 
... Мотивировка и определения . . . . . . . . . . . . . . . . . 
... Операции с выпуклыми функциями . . . . . . . . . . . . 
... Непрерывность и дифференцируемость . . . . . . . . . 
... Теоремы отделимости . . . . . . . . . . . . . . . . . . . . . 
... Субградиенты . . . . . . . . . . . . . . . . . . . . . . . . . . . 
... Вычисление субградиентов . . . . . . . . . . . . . . . . . . 
§ .. Методы негладкой минимизации . . . . . . . . . . . . . . . 
... Нижние границы сложности для общего случая . . . . 
... Основная лемма . . . . . . . . . . . . . . . . . . . . . . . . . 
... Субградиентный метод . . . . . . . . . . . . . . . . . . . . 
... Минимизация при функциональных ограничениях . . 
... Границы сложности в конечномерном случае . . . . . 
... Методы отсекающей гиперплоскости . . . . . . . . . . . 
§ .. Методы с полной информацией . . . . . . . . . . . . . . . . 
... Модель негладкой функции . . . . . . . . . . . . . . . . . . 
... Метод Келли . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
... Метод уровней . . . . . . . . . . . . . . . . . . . . . . . . . . 
... Условная минимизация . . . . . . . . . . . . . . . . . . . . 


“Nesterov-final” — // — : — page  — #

Оглавление

 Структурная оптимизация 


§ .. Самосогласованные функции . . . . . . . . . . . . . . . . . 
... Концепция «черного ящика» в выпуклой оптимизации 
... Как работает метод Ньютона? . . . . . . . . . . . . . . . . 
... Определение самосогласованной функции . . . . . . . 
... Основные неравенства . . . . . . . . . . . . . . . . . . . . . 
... Минимизация самосогласованных функций . . . . . . . 
§ .. Самосогласованные барьеры . . . . . . . . . . . . . . . . . . 
... Мотивировка . . . . . . . . . . . . . . . . . . . . . . . . . . . 
... Определение самосогласованных барьеров . . . . . . . 
... Основные неравенства . . . . . . . . . . . . . . . . . . . . . 
... Метод отслеживания траектории . . . . . . . . . . . . . . 
... Нахождение аналитического центра . . . . . . . . . . . . 
... Задачи с функциональными ограничениями . . . . . . 
§ .. Приложения структурной оптимизации . . . . . . . . . . 
... Границы параметров самосогласованных барьеров . . 
... Линейная и квадратичная оптимизация . . . . . . . . . 
... Полуопределенная оптимизация . . . . . . . . . . . . . . 
... Экстремальные эллипсоиды . . . . . . . . . . . . . . . . . 
... Сепарабельная оптимизация . . . . . . . . . . . . . . . . . 
... Выбор схемы минимизации . . . . . . . . . . . . . . . . . 

Библиографический комментарий 

Литература 


“Nesterov-final” — // — : — page  — #
“Nesterov-final” — // — : — page  — #

Предисловие редактора
Новая эра в нелинейной оптимизации открылась выдающейся ста-
тьей Н. Кармаркара, появившейся в середине -х гг. Значение
этой работы, в которой предлагался новый полиномиальный ал-
горитм для задач линейной оптимизации, состояло не только в
установлении границ вычислительной сложности. В то время со-
вершенно замечательной особенностью этого алгоритма являлось
то, что теоретические оценки его высокой эффективности блестя-
ще подтверждались результатами численных экспериментов. Этот
необычный по тем временам факт радикально изменил стиль и
направление исследований в области нелинейной оптимизации. С
тех пор появление новых методов все чаще стало сопровождаться
теоретическим анализом их вычислительной сложности, который
теперь обычно рассматривается как более веское доказательство
их качества, чем численные эксперименты. В новой и быстро раз-
вивающейся области оптимизации, получившей название поли-
номиальные методы внутренней точки, такое обоснование стало
обязательной нормой.
Основные результаты первых пятнадцати лет серьезных исследо-
ваний вошли в монографии [, , ––]. Однако эти книги труд-
нодоступны российскому читателю. Более того, они не решают за-
дачи изложения нового взгляда на предмет и цели выпуклой опти-
мизации. Дело в том, что к тому времени лишь теория методов внут-
ренней точки для задач линейной оптимизации была разработана
достаточно подробно, а общая теория самосогласованных функций
существовала в печатном виде лишь в форме монографии []. Кро-
ме того, было понятно, что новая теория методов внутренней точки
представляет собой только часть общей теории выпуклой оптими-
зации –– технически довольно сложной дисциплины, включающей
такие разделы, как границы вычислительной сложности, оптималь-
ные методы и т. д.
“Nesterov-final” — // — : — page  — #

Предисловие

Автор настоящей книги, предлагаемой вниманию читателя, пред-


принял попытку преодолеть все эти трудности и изложить сложные
вопросы в элементарной форме. На мой взгляд, попытка оказалась
успешной. Ю. Е. Нестеров внес выдающийся вклад в развитие совре-
менной теории и методов выпуклой оптимизации. Еще в -е годы
прошлого века он развил теорию эффективных методов оптимиза-
ции; см. []. Позже он совместно с А. С. Немировским предложил
новый подход, основанный на самосогласованных функциях и ба-
рьерах (см. []), что привело к созданию полиномиальных методов
оптимизации. В последние годы он опубликовал много работ, по-
священных усовершенствованию методов для основных классов
оптимизационных задач. Это помогло ему умело произвести отбор
материала для книги. Ключевыми стали такие понятия, как вычис-
лительная сложность оптимизационных задач и гарантированная
эффективность численных методов, подкрепленная анализом гра-
ниц сложности. При этом жесткие рамки объема книги обусловили
прагматизм изложения –– каждое понятие или факт, приводимые в
монографии, абсолютно необходимы для полноценного анализа по
крайней мере одной оптимизационной схемы. До некоторой сте-
пени удивительным оказалось то, что при изложении совершенно
не потребовалось сведений из теории двойственности, и поэтому
этот раздел полностью опущен. Основная цель книги –– добиться
правильного понимания сложности различных задач оптимиза-
ции, и цель эта выбрана не случайно. Пользователи постоянно
интересуются тем, какой численный метод наиболее разумен для
оптимизационных моделей, которыми они заняты. Оказывается,
если модель построена без учета возможностей численных про-
цедур, то шансы найти приемлемое численное решение близки к
нулю. Что бы ни создавал человек в любой области своей деятель-
ности, он знает заранее, почему действует так, а не иначе, и что
собирается делать с тем, что получится. И лишь в области числен-
ного моделирования картина почему-то совершенно иная: сначала
создается модель, а затем начинаются поиски численного метода.
Если учесть сложность оптимизационных задач, становится ясно,
что шансы на успех при таком подходе крайне невелики.
Книга состоит из четырех глав: которые в большой степени неза-
висимы друг от друга и могут использоваться самостоятельно. Кни-
га рассчитана на широкую аудиторию; от читателя предполагаются


“Nesterov-final” — // — : — page  — #

Предисловие

лишь знания в объеме стандартных университетских курсов мате-


матического анализа и линейной алгебры. Включенный в книгу
краткий библиографический комментарий призван помочь более
близкому ознакомлению с предметом.

Английский вариант книги (Nesterov Yu. «Introductory lectures


on convex optimizatin: a basic course») был выпущен издательством
Kluwer в  г. и встретил заинтересованный отклик. Я надеюсь,
что издание монографии Ю. Е. Нестерова на русском языке будет
заметным событием и даст возможность российским читателям
впервые познакомиться с новым перспективным направлением ис-
следований.

Б. Т. Поляк


“Nesterov-final” — // — : — page  — #
“Nesterov-final” — // — : — page  — #

Моей жене Светлане


“Nesterov-final” — // — : — page  — #
“Nesterov-final” — // — : — page  — #

Благодарности
Эта книга отражает основные достижения в выпуклой оптимиза-
ции –– научном направлении, в котором мне довелось работать более
 лет. В течение этого времени я имел редкую возможность свобод-
ного общения и сотрудничества со многими выдающимися учеными
в этой области; им я выражаю свою глубокую признательность.
Мне посчастливилось начать свою научную карьеру в Москве, в
период максимального размаха научной деятельности в Советском
Союзе. В этот момент в одном городе оказались собранными прак-
тически все выдающиеся умы трехсотмиллионной страны. Встречи
и научные контакты с А. Антипиным, Ю. Евтушенко, Е. Гольштей-
ном, А. Иоффе, В. Кармановым, Л. Хачияном, Р. Поляком, В. Пше-
ничным, Н. Шором, Н. Третьяковым, Ф. Васильевым, Д. Юдиным
и, конечно же, с А. Немировским и Б. Поляком оказали определяю-
щее влияние на формирование моих научных интересов и на выбор
направления исследований.
Как выяснилось потом, момент моего переезда на Запад тоже
был весьма специфическим. В нелинейной оптимизации только что
началась эра методов внутренней точки. Новые статьи со свежими
идеями появлялись почти каждый день, и многочисленные конфе-
ренции открывали редкую возможность для интересных научных
контактов и активной совместной работы. Я очень благодарен
моим коллегам, таким как Курт Анштрейхер, Альфред Ауслендер,
Аарон Бен-Тал, Стивен Бойд, Кловис Гонзага, Дональд Гольдфарб,
Жан-Луи Гоффен, Осман Гуллер, Иньюй Е, Кеннет Кортанек, Клод
Лемарешаль, Оливер Мангасарян, Флориан Потра, Джеймс Ренегар,
Корнелиус Рооз, Тамаш Терлаки, Андреас Титц, Майкл Тодд, Левент
Тунсел, Роберт Фрёйнд, Флориан Ярре, за стимулирующие обсуж-
дения и плодотворное сотрудничество. Особую благодарность мне
хотелось бы выразить Жану-Филиппу Виалу, подтолкнувшему меня
к написанию этой книги.
“Nesterov-final” — // — : — page  — #

Благодарности

В конце концов, мне повезло обосноваться в Центре исследова-


ния операций и эконометрики (CORE) в Лувэн-ла-Нёве, Бельгия, ко-
торый при ближайшем рассмотрении оказался миниатюрной копи-
ей моего родного института ЦЭМИ РАН (Москва). Замечательные
условия работы в этом научном центре и исключительное окруже-
ние помогали мне все эти годы. Трудно переоценить значение той
атмосферы научных исследований, которую продолжают неустан-
но поддерживать мои коллеги из CORE и Центра системных иссле-
дований и прикладной механики (CESAME): Винсент Блондель, Ив
Жене, Мишель Геверс, Этьен Лут, Ив Пошэ, Ив Смеерс, Поль Ван До-
орен, Лоуренс Вулси. Моя работа в течение многих лет финансиро-
вались Бельгийской общенациональной программой по развитию
фундаментальных исследований, созданной по инициативе прави-
тельства Бельгии и Комитета по научной политике.
Я признателен Б. Т. Поляку и Московскому центру непрерывно-
го математического образования за смелую инициативу перевода и
издания этой книги на русском языке.


“Nesterov-final” — // — : — page  — #

Введение
Задачи оптимизации совершенно естественно возникают в раз-
личных прикладных областях. Во многих жизненных ситуациях у
нас появляется желание или необходимость организовать свою де-
ятельность наилучшим из возможных способов. Это намерение,
облеченное в математическую форму, приобретает вид той или
иной оптимизационной задачи. В зависимости от конкретной обла-
сти приложения это может быть задача оптимального управления
или задача оптимального размещения, составление оптимальной
диеты или задача оптимального раскроя. Однако уже следующий
шаг –– нахождение решения поставленной модельной задачи –– со-
всем нетривиален. На первый взгляд, все выглядит просто: на рынке
имеется огромное количество легкодоступных коммерческих про-
граммных оптимизационных пакетов, и любой пользователь может
получить «решение» задачи простым нажатием на иконку на экране
своего персонального компьютера. Вопрос заключается в том, что
именно он получит в качестве решения и насколько можно доверять
результату.
Одна из целей данной книги –– показать, что, несмотря на всю
свою привлекательность, «решения» общих оптимизационных за-
дач, получаемые таким образом, очень часто не соответствуют
ожиданиям доверчивого пользователя. На мой взгляд, главное, что
следует знать каждому работающему с оптимизационными моде-
лями, –– это то, что задачи оптимизации, вообще говоря, численно
неразрешимы. Это утверждение, часто не упоминаемое в стандарт-
ных курсах по оптимизации, крайне необходимо для понимания
теории оптимизации и ее развития как в прошлом, так и в будущем.
Во многих практических приложениях процесс формализации и
приведения реальной проблемы к какому-либо стандарному ви-
ду требует большого времени и усилий. Поэтому исследователь
должен иметь ясное представление о свойствах модели, которую
“Nesterov-final” — // — : — page  — #

Введение

он строит. На этапе моделирования обычно применяются различ-


ные средства для аппроксимации реального явления, и при этом
совершенно необходимо осознавать, к каким вычислительным по-
следствиям приведет каждое из принимаемых решений. Очень
часто приходится выбирать между «хорошей» модельной задачей,
которую не удается решить,  и «плохой» задачей, решение которой
заведомо возможно. Какая из них лучше?
В действительности ответ часто может быть подсказан вычисли-
тельной практикой. Дело в том, что в настоящее время наиболее
распространенные оптимизационные модели по-прежнему пред-
ставлены задачами линейной оптимизации. Крайне маловероятно,
чтобы такие модели могли адекватно описывать явления нашего
нелинейного мира; тем не менее, они весьма популярны, поскольку
практики предпочитают иметь дело с разрешимыми задачами. Разу-
меется, очень часто линейная аппроксимация оказывается грубой,
но зато обычно удается предсказать последствия такого плохого
приближения и внести поправку в интерпретацию полученного
результата. По-видимому, на практике такой подход предпочти-
тельнее попыток решения общей нелинейной задачи без какой-
либо гарантии на успех.
Другая цель настоящего курса –– обсуждение численных методов
для разрешимых нелинейных задач, а именно задач выпуклой оп-
тимизации. Развитие теории выпуклой оптимизации в последние
годы протекало бурно и захватывающе. Сегодня она представле-
на несколькими «соперничающими» направлениями, имеющими
свои сильные и слабые стороны. Мы подробно обсудим их свойства,
принимая во внимание и историческую ретроспективу; точнее го-
воря, мы попытаемся понять внутреннюю логику развития каждого
из этих направлений. До сих пор основные результаты развития
теории выпуклой оптимизации можно найти лишь в специальных
журналах или научных монографиях, однако, по моему мнению,
она уже созрела настолько, что ее можно донести до конечного
пользователя, будь то специалист по организации производства,
экономист или студент той или иной специализации. С другой
стороны, я надеюсь, что книга будет интересна и специалистам
в теории оптимизации, так как в ней содержится большое количе-


Точнее, которую можно пытаться решать.


“Nesterov-final” — // — : — page  — #

Введение

ство материала, никогда не публиковавшегося в виде законченной


монографии.
Я попытаюсь убедить читателя в том, что для успешного приме-
нения оптимизационных формулировок задач необходимо иметь
определенные сведения из теории оптимизации, которая помогает
понять, чего можно и чего нельзя достигнуть при решении задачи
оптимизации. Элементы этой простой философии нетрудно найти
в каждой главе предлагаемой книги. Мы постараемся показать, что
выпуклая оптимизация является отличным примером законченной
прикладной теории, которая проста, легка в изучении и может быть
весьма полезной при решении практических задач.
Эту книгу можно также рассматривать как курс лекций, в кото-
ром мы обсуждаем наиболее эффективные современные схемы оп-
тимизации и устанавливаем границы их эффективности. Курс яв-
ляется автономным, и мы доказываем все необходимые результаты,
рассчитывая на то, что доказательства, рассуждения и соображения
не будут представлять трудности даже для студентов-старшекурсни-
ков.
Книга состоит из четырех относительно независимых глав, каж-
дая из которых включает в себя три параграфа. Материал каждо-
го параграфа примерно соответствует объему двухчасовой лекции,
поэтому книга может почти без изменений использоваться при чте-
нии односеместрового курса.
Первая глава посвящена общим задачам оптимизации. В §. об-
суждается терминология и вводятся понятия оракула, черного ящи-
ка, функциональной модели оптимизационной задачи и сложности
итеративных схем общего вида. Мы покажем, что задачи глобаль-
ной оптимизации «нерешаемы», и обсудим основные характерные
черты различных разделов теории оптимизации. В §. рассматри-
ваются две принципиальные схемы локальной безусловной мини-
мизации: градиентный метод и метод Ньютона. Мы установим их
локальную скорость сходимости и обсудим возможные неприятно-
сти (расходимость, сходимость к седловой точке). В §. мы сравним
структуры градиентного метода и метода Ньютона. Это приведет
нас к идее переменной метрики, и мы опишем далее семейства ква-
зиньютоновских методов и методов сопряженных градиентов. За-
вершается глава анализом схем последовательной безусловной ми-
нимизации.


“Nesterov-final” — // — : — page  — #

Введение

Во второй главе рассматриваются методы гладкой выпуклой оп-


тимизации. В §. анализируются основные причины упомянутых
выше трудностей; в результате этого анализа мы придем к двум
удобным классам функций: гладким выпуклым и гладким сильно
выпуклым. Для соответствующих задач безусловной минимизации
будут установлены нижние границы сложности. В заключение па-
раграфа мы проанализируем градиентный метод и покажем, что он
не является оптимальным. Оптимальные методы для задач гладкой
выпуклой минимизации обсуждаются в §.. Изложение начина-
ется с задач безусловной минимизации. Далее вводятся выпуклые
множества и определяется понятие градиентного отображения для
задач минимизации с простыми ограничениями. Мы покажем, что
градиентное отображение формально заменяет шаг градиентного
метода в оптимизационных схемах. В §. обсуждаются более слож-
ные задачи, включающие несколько гладких выпуклых функций,
а именно минимаксная задача и задача условной минимизации.
Для обеих задач вводится понятие градиентного отображения и
приводятся оптимальные схемы минимизации.
Третья глава посвящена теории негладкой выпуклой оптимиза-
ции. Не предполагая у читателя наличия специальных знаний по
выпуклому анализу, мы начинаем главу §., в котором компактно
излагаются все необходимые для дальнейшего сведения. Конечной
целью этого параграфа является обоснование правил вычисления
субградиентов выпуклой функции. Следующий §. начинается с
установления нижних границ сложности для задач негладкой оп-
тимизации. Далее предлагается общая схема анализа сложности
соответствующих методов, которая потом применяется для нахож-
дения скорости сходимости субградиентного метода, метода центра
тяжести и метода эллипсоидов. Мы также обсудим некоторые ме-
тоды отсекающей гиперплоскости. Параграф . посвящен схемам
минимизации, в которых используется кусочно линейная модель
выпуклой функции. Мы рассмотрим метод Келли и покажем, что
он может быть чрезвычайно медленным. Наконец, мы опишем так
называемый метод уровней и обоснуем оценки его эффективности
на задачах безусловной и условной минимизации.
В четвертой главе рассматриваются задачи выпуклой минимиза-
ции, имеющие явную структуру. Сначала в §. мы обсудим опре-
деленную противоречивость концепции черного ящика примени-


“Nesterov-final” — // — : — page  — #

Введение

тельно к задаче выпуклой минимизации. Мы определим барьер


для оптимизационной задачи исходя из понятия самосогласованной
функции. Для таких функций оракул второго порядка не является
локальным; их можно легко минимизировать с помощью метода
Ньютона. Мы изучим свойства таких функций и оценим скорость
сходимости метода Ньютона. В §. вводятся самосогласованные
барьеры –– подкласс самосогласованных функций, удобных для при-
менения схем последовательной безусловной минимизации. Далее
мы изучаем свойства таких барьеров и находим оценку эффектив-
ности схемы отслеживания траектории. В §. приведено несколько
примеров оптимизационных задач, для которых удается постро-
ить самосогласованный барьер, так что к этим задачам применима
схема отслеживания траектории. Здесь рассматриваются задачи
линейной и квадратичной оптимизации, задачи полуопределенной
оптимизации, сепарабельной и геометрической оптимизации, за-
дачи с экстремальными эллипсоидами и задачи аппроксимации в
l p -нормах. Глава и вся книга завершаются сравнением метода внут-
ренней точки и метода негладкой оптимизации применительно к
решению конкретной оптимизационной задачи.


“Nesterov-final” — // — : — page  — #
“Nesterov-final” — // — : — page  — #

Глава 

Нелинейная оптимизация
§ .. Задачи нелинейной оптимизации
Общая формулировка задачи. Примеры задач оптимизации. Черный ящик и
итеративные методы. Аналитическая и арифметическая сложность. Метод пе-
ребора на равномерной сетке. Нижние оценки вычислительной сложности.
Нижние оценки для глобальной оптимизации. Правила игры.

... Общая формулировка задачи


Обозначим через x вещественный вектор размерности n:
T
x = x (1) , …, x (n) ∈ Rn ,
а через S –– некоторое множество из пространства Rn . Пусть f0 (x), …
… , fm (x) являются вещественнозначными функциями от x. В этой
книге мы будем, как правило, рассматривать один из вариантов сле-
дующей общей задачи минимизации:
min f0 (x)
при f j (x) & 0, j = 1, …, m, (.)
x ∈ S,
где в качестве бинарного отношения & берется ¶, ¾ либо =.
В дальнейшем f0 (x) будем называть целевой функцией нашей за-
дачи, а векторную функцию
T
f (x) = f1 (x), …, fm (x)
–– вектором функциональных ограничений. Множество S называет-
ся базовым допустимым множеством, а множество
Q = x ∈ S | f j (x) ¶ 0, j = 1, …, m


называется просто допустимым множеством задачи (.). Для опре-


деленности мы всегда будем рассматривать задачи минимизации.
“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Любая задача максимизации может быть переписана в этом виде с


помощью изменения знака целевой функции.
Приведем названия некоторых важных типов задач минимизации.
◦ Условные задачи: Q ⊂ Rn .
◦ Безусловные задачи: Q ≡ Rn .
◦ Гладкие задачи: все функции f j (x) дифференцируемы.
◦ Негладкие задачи: существует по крайней мере одна недиффе-
ренцируемая компонента fk (x).
◦ Задачи с линейными ограничениями: все функциональные огра-
ничения являются линейными функциями:
n
a(i)
P (i)
f j (x) = j x + b j ≡ 〈a j , x 〉 + b j , j = 1, …, m
i =1

(здесь 〈·, ·〉 обозначает скалярное произведение), а базовое множе-


ство S является многогранником.
Если f0 (x) также является линейной функцией, то задача (.)
называется задачей линейной оптимизации. Если функция f0 (x)
является квадратичной, то задача (.) называется задачей квад-
ратичной оптимизации. Если все функции f j квадратичные, то
мы получаем задачу квадратичной оптимизации с квадратич-
ными ограничениями.
Существует также классификация задач, основанная на свой-
ствах их допустимых множеств.
◦ Задача (.) называется допустимой, если Q 6= ∅.
◦ Задача (.) называется строго допустимой, если существует та-
кой вектор x ∈ int Q, что f j (x) < 0 (или > 0) для всех ограниче-
ний-неравенств и f j (x) = 0 для всех ограничений-равенств (усло-
вие Слэйтера).
Наконец, можно говорить о различных типах решений зада-
чи (.).
◦ точка x ∗ называется оптимальным глобальным решением задачи
(.), если f0 (x ∗ ) ¶ f0 (x) для всех x ∈ Q (глобальный минимум). В
этом случае f0 (x ∗ ) называется (глобальным) оптимальным зна-
чением задачи.


“Nesterov-final” — // — : — page  — #

§ .. Задачи нелинейной оптимизации

◦ точка x ∗ называется локальным решением задачи (.), если для


всех x ∈ int ¯Q̄ ⊂ Q выполнено неравенство f0 (x ∗ ) ¶ f0 (x) (локаль-
ный минимум).
Покажем на нескольких примерах, как могут возникать задачи
оптимизации.
Пример ... Обозначим через x (1) , …, x (n) параметры проекти-
рования. По ним мы сможем вычислить значения некоторых ха-
рактеристик нашего решения: f0 (x), …, fm (x). В качестве таких
характеристик можно взять, например, стоимость проекта, коли-
чество необходимых ресурсов, надежность системы и т. д. Затем
самую важную характеристику f0 (x) мы выбираем в качестве целе-
вой функции. Остальным характеристикам разрешается меняться в
определенных пределах: a j ¶ f j (x) ¶ b j . Таким образом, возникает
следующая задача:
min f0 (x)
при a j ¶ f j (x) ¶ b j , j = 1, …, m,
x ∈ S,
где множество S определяет структурные ограничения, такие как,
например, естественный интервал изменения, неотрицательность
значений и т. д.
Пример ... Пусть наша исходная задача состоит в следующем:
найти такое x ∈ Rn , что f j (x) = a j , j = 1, …, m. (.)
В этом случае можно перейти к следующей задаче минимизации:
m
P 2
f j (x) − a j → min,
x
j =1

возможно, даже при некоторых дополнительных ограничениях на x.


Если оптимальное значение в этой задаче равно нулю, то и исходная
задача (.) разрешима.
Заметим, что постановка (.) является почти универсальной
задачей численного анализа. К такому виду приводятся системы
обыкновенных дифференциальных уравнений и уравнений в част-
ных производных, задачи поиска равновесных решений и многие
другие.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Пример ... Иногда переменные проектирования x (1) , …, x (n) по


своему смыслу должны быть целыми числами. Это условие может
быть записано с помощью следующего ограничения:
sin(π x (i)) = 0, i = 1, …, n.
Таким образом, общая задача нелинейной оптимизации включает в
себя как частный случай задачи целочисленной оптимизации:
min f0 (x) → min
при a j ¶ f j (x) ¶ b j , j = 1, …, m,
x ∈ S,
sin(π x (i)) = 0, i = 1, …, n.
После рассмотренных примеров становится понятным оптимизм
пионеров нелинейной оптимизации, который легко распознается в
работах -х и -х гг. XX в. Наше первое впечатление, конечно же,
должно было бы быть таким:
Нелинейная оптимизация является очень важной и
многообещающей прикладной наукой. Она покры-
вает почти все нужды теории исследования опера-
ций и различных областей численного анализа.
С другой стороны, после просмотра тех же самых примеров, осо-
бенно примеров .. и .., у более опытного читателя могли бы
зародиться некоторые сомнения. Действительно, окружающая нас
действительность слишком сложна для того, чтобы надеяться на су-
ществование универсального средства от всех болезней. Здоровый
скептицизм должен привести нас к следующей догадке:

Задачи нелинейной оптимизации, в их самой общей


форме, являются численно неразрешимыми.
Однако неподтвержденные догадки никогда особенно не цени-
лись в математических науках. Поэтому трудно переоценить зна-
чение теории, созданной в середине -х годов, которая позволила
доказать вышеупомянутое предположение. Это доказательство на-
столько просто и поучительно, что мы никак не можем опустить его
в нашем курсе. Но прежде всего мы должны ввести специальную
терминологию, необходимую для обсуждения подобных вопросов.


“Nesterov-final” — // — : — page  — #

§ .. Задачи нелинейной оптимизации

... Эффективность численных методов


Представим себе следующую ситуацию: мы собираемся решить
некоторую задачу P . Нам известно, что для решения задач такого
типа разработано много различных численных методов. И, конечно
же, нам бы хотелось применить метод, который является наилуч-
шим для нашей задачи P . Как нам его найти? Оказывается, такая
постановка вопроса просто неправомерна, т. е. победителя в подоб-
ном соревновании обнаружить нетрудно, но мы вряд ли захотим (и
сможем) воспользоваться его услугами.
Действительно, представим себе «метод» решения задачи (.),
который только и умеет, что сообщать пользователю, что глобаль-
ный оптимум достигается в точке x ∗ = 0. Конечно же, такой ответ
неверен для всех задач, кроме тех, у которых оптимальное реше-
ние на самом деле есть нуль. И для таких задач эффективность
подобного метода превзойти просто невозможно.
Таким образом, невозможно разумно определить наилучший ме-
тод решения отдельной задачи P . Однако это можно сделать для
некоторого класса задач F ⊃ P . Действительно, обычно численные
методы разрабатываются для решения многих однотипных задач с
близкими характеристиками. Поэтому эффективность метода M
на всем классе задач F можно считать естественной характеристи-
кой его качества.
Так как мы собираемся говорить об эффективности метода M на
классе F , приходится предполагать, что наш метод с самого начала
не имеет полной информации о решаемой задаче.

Заранее известная численному методу «часть» зада-


чи P называется моделью решаемой задачи.

Для обозначения модели мы будем использовать символ Σ. Обыч-


но в модель включаются формулировка задачи, описание свойств
функциональных компонент и т. д.
Для того чтобы распознать задачу P среди всех прочих задач из
данного класса (и тем самым решить ее), численный метод должен
уметь накапливать специфическую информацию о решаемой задаче.
Этот процесс удобно описывать с помощью понятия оракула. Ора-
кул O проще всего представить в виде некоторого устройства, которое


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

отвечает на последовательные вопросы численного метода. Метод M


пытается решить задачу P , собирая и анализируя ответы оракула.
В общем случае каждая задача может быть описана с помощью
различных моделей. Более того, для одной и той же задачи мож-
но разработать различные оракулы, от самых простых до самых
сложных  . Однако мы зафиксируем Σ и O . В этом случае естествен-
но определить эффективность метода M на паре (Σ, O ) как его
эффективность на наихудшем представителе Pw из (Σ, O ). Заметим,
что задача Pw может быть трудной только для этого конкретного
метода M .
Далее, что такое эффективность метода M на задаче P ? Начнем
с интуитивного определения.

Эффективность метода M на задаче P определяет-


ся через общие вычислительные затраты метода M ,
необходимые для того, чтобы решить задачу P .
В этом определении появляются два новых понятия. Прежде все-
го, что значит «решить задачу»? В некоторых ситуациях это может
означать нахождение точного решения. Однако для большинства
численных задач (в том числе и для многих задач оптимизации) это
просто невозможно. Поэтому нам придется довольствоваться следу-
ющей формулировкой.

Решить задачу P означает найти ее приближенное


решение с заранее заданной точностью ǫ > 0.
Реальное значение слов решение с точностью ǫ > 0 очень важно
для дальнейшего. Но мы пока отложим подробное обсуждение этого
вопроса и только введем обозначение Tǫ для некоторого критерия
остановки, способного оценить качество предлагаемого кандидата.
Теперь мы сможем формально определить класс решаемых задач

F ≡ Σ, O , Tǫ .
Для решения конкретной задачи P ∈ F естественно применить
некую итеративную процедуру. Именно в таком виде удобно запи-
сывать любой метод M , работающий с оракулом.

В принципе, можно включить в рассмотрение и оракул, выдающий по запросу
точный ответ решаемой задачи.


“Nesterov-final” — // — : — page  — #

§ .. Задачи нелинейной оптимизации

Общая итеративная схема (.)


Вводные данные: начальная точка x0 и требуемая
точность ǫ > 0.
Настройка. Полагаем k = 0 и I−1 = ∅. Здесь k ––
это счетчик итераций, а Ik –– это накапливаемая ин-
формационная модель решаемой задачи.
Основной цикл
. Задаем вопрос оракулу O в точке xk .
. Пересчитываем информационную модель:

Ik = Ik−1 ∪ xk , O (xk ) .
. Применяем правила метода M для анализа моде-
ли Ik и формируем точку xk+1.
. Проверяем критерий остановки Tǫ . Если ответ
положительный, то генерируем ответ x̄. В против-
ном случае полагаем k := k + 1 и переходим на
шаг .
Теперь мы можем определить слова вычислительные затраты
в нашем определении эффективности. В схеме (.) нетрудно об-
наружить два потенциально дорогих шага. Первый из них –– это
шаг , на котором происходит обращение к оракулу. Второй же ––
это шаг , на котором анализируется накопленная модель и фор-
мируется следующая тестовая точка. Таким образом, можно ввести
две меры сложности задачи P для метода M .

Аналитическая сложность. Это число обращений к


оракулу, необходимое для решения задачи P с точ-
ностью ǫ .
Арифметическая сложность. Это общее число всех
вычислений (включая как работу оракула, так и ра-
боту метода), необходимых для решения задачи P с
точностью ǫ .
Сравним эти два понятия. Конечно же, арифметическая слож-
ность оценивает вычислительные затраты более реалистично. Од-
нако, как правило, эту оценку нетрудно получить из первой харак-


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

теристики. Поэтому в большинстве рассматриваемых ситуаций мы


будем следовать традиции и обсуждать в основном аналитическую
сложность различных классов задач минимизации.
Нам осталось ввести одно стандартное предположение, которое
совершенно необходимо для получения большинства результатов тео-
рии сложности задач оптимизации. Это предположение называется
концепцией черного ящика, и выглядит оно следующим образом.

Концепция черного ящика


. Единственной информацией, получаемой в ходе
работы итеративного метода, являются ответы
оракула.
. Ответы оракула являются локальными: неболь-
шое изменение задачи, произведенное достаточ-
но далеко от тестовой точки x и согласованное с
описанием данного класса задач, не обязано при-
вести к изменению исходного ответа в точке x.

Эта концепция является одной из самых полезных изобретений в


численном анализе. Конечно же, ее первый постулат выглядит как
некоторая стена, искусственно возведенная между оракулом и ме-
тодом. Казалось бы, почему не дать методу возможность анализи-
ровать, например, всю промежуточную информацию, полученную
при вычислениях оракула? Однако в этом случае, если вдруг появ-
ляется такая необходимость, ответ оракула можно и расширить. К
тому же, как мы увидим в дальнейшем, концепция черного ящика
особенно полезна в задачах с очень сложной структурой и сложным
оракулом, когда промежуточных вычислений просто слишком мно-
го, чтобы в них разобраться. В более простых ситуациях, как будет
показано в последней главе этой книги, ее можно заменить на кон-
цепцию структурной оптимизации.
Заканчивая этот пункт, стоит упомянуть, что стандартная форму-
лировка (.) называется функциональной моделью для задач мини-
мизации. Обычно для такой модели стандартные предположения свя-
заны с гладкостью функциональных компонент. В соответствии со
степенью гладкости можно пользоваться разными типами оракулов.
◦ Оракул нулевого порядка: возвращает значение функции f (x).


“Nesterov-final” — // — : — page  — #

§ .. Задачи нелинейной оптимизации

◦ Оракул первого порядка: возвращает значение функции f (x) и ее


градиент f ′ (x).

◦ Оракул второго порядка: возвращает f (x), f ′ (x) и матрицу гес-


сиана f ′′ (x).

... Оценки вычислительной сложности задач глобальной


оптимизации
Теперь мы попытаемся применить формальные понятия, введен-
ные в предыдущем пункте, к конкретному классу задач оптимиза-
ции. Рассмотрим следующую задачу:

min f (x). (.)


x ∈ Bn

В соответствии с нашей терминологией это есть задача условной


минимизации, но без функциональных ограничений. Допустимым
множеством задачи является n-мерный куб Bn в пространстве Rn :

Bn = x ∈ Rn | 0 ¶ x (i) ¶ 1, i = 1, …, n .


Введем l∞ -норму в Rn :

k x k∞ = max | x (i) |.
1¶i ¶n

Предположим, что относительно этой нормы

целевая функция f (x) будет липшицевой на Bn : (.)


| f (x) − f ( y) | ¶ Lk x − y k∞ ∀ x, y ∈ Bn
с некоторой константой L (константа Липшица).

Рассмотрим простейший метод решения задачи (.), называ-


емый методом равномерного перебора. У этого метода G (p) есть
только один входной целочисленный параметр p ¾ 1. Его схема
выглядит следующим образом.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Метод G (p) (.)


. Формируем (p + 1)n точек
i T
 ‹
i i
cx(i1 ,…,in ) = 1 , 2 , …, n ,
p p p

где (i1 , …, in ) ∈ {0, …, p}n .


. Среди всех точек x(i1 ,…,in ) находим точку x̄ с наи-
меньшим значением целевой функции.
. Представляем пару ( x̄, f ( x̄)) как результат работы
метода.

Таким образом, наш метод просто перебирает точки равномер-


ной сетки, сформированной внутри куба Bn , выбирает среди них
точку с минимальным значением целевой функции и выдает ее в
качестве приближенного решения задачи (.). В соответствии с на-
шей терминологией это метод нулевого порядка с отсутствием како-
го бы то ни было влияния накопленной информации на формирова-
ние последовательности пробных точек. Выведем оценку эффектив-
ности этого алгоритма.
Теорема ... Обозначим через f ∗ оптимальное значение целевой
функции в задаче (.). Тогда
L
f ( x̄) − f ∗ ¶ .
2p

Доказательство. Пусть точка x∗ будет глобальным решением на-


шей задачи. Тогда найдется такой мультииндекс (i1 , i2 , …, in ), что
x ≡ x(i1 ,i2 ,…,in ) ¶ x ∗ ¶ x(i1+1,i2 +1,…,in +1) ≡ y
(здесь и в дальнейшем соотношение x ¶ y для векторов x, y ∈ Rn
означает, что x (i) ¶ y (i) для всех индексов i = 1, …, n). Заметим, что
y (i) − x (i) = 1/ p при всех i = 1, …, n и
x∗(i) ∈ [x (i) , y (i) ], i = 1, …, n.
Пусть x̂ = (x + y)/2. Зададим координаты точки x̃ следующим обра-
зом: ¨
(i) y (i) , если x∗(i) ¾ x̂ (i),
x̃ = (i)
x в противном случае.


“Nesterov-final” — // — : — page  — #

§ .. Задачи нелинейной оптимизации

1
Понятно, что | x̃ (i) − x∗(i) | ¶ , i = 1, …, n. Поэтому
2p
1
k x̃ − x ∗ k∞ = max | x̃ (i) − x∗(i) | ¶ .
1¶i ¶n p
Поскольку точка x̃ принадлежит сформированной сетке, можно
утверждать, что
L
f ( x̄) − f (x∗ ) ¶ f ( x̃) − f (x∗ ) ¶ Lk x̃ − x∗ k∞ ¶ .
2p

Теперь мы завершим описание рассматриваемого класса задач.


Для этого нужно задать конечную цель наших действий:
найти такую точку x̄ ∈ Bn , что f ( x̄) − f ∗ ¶ ǫ . (.)
Теперь мы можем утверждать следующее.
Следствие ... Аналитическая сложность класса задач миними-
зации (.), (.), (.) для метода G не превосходит
n
L
j k
A (G) = +2

вызовов оракула (здесь, как и в дальнейшем, ⌊a⌋ обозначает целую
часть числа a).
L L
j k
Доказательство. Выберем p = + 1. Тогда p ¾ , и в силу тео-
2ǫ 2ǫ
ремы .. получаем
L
f ( x̄) − f ∗ ¶ ¶ ǫ.
2p
Осталось заметить, что было просмотрено (p + 1)n пробных точек.

Таким образом, величина A (G) устанавливает верхнюю границу


сложности для рассматриваемого класса задач.
Полученный результат достаточно информативен. Однако у нас
все еще остаются вопросы. Может, например, оказаться, что для
оценки эффективности метода G (p) мы применили слишком грубое
доказательство и его реальная производительность гораздо вы-
ше. Может также оказаться, что существуют другие, гораздо более
эффективные методы решения задачи (.).
Для устранения подобных сомнений необходимо получить ниж-
ние оценки сложности для класса задач (.), (.), (.). Отметим
главные особенности таких оценок.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

◦ Они основаны на применении концепции черного ящика.


◦ Полученные оценки верны для всех мыслимых итеративных ме-
тодов. Таким образом, устанавливается нижняя оценка для ана-
литической сложности рассматриваемого класса задач.
◦ Очень часто эти оценки выводятся с помощью сопротивляюще-
гося оракула.
В приведенном списке только понятие сопротивляющегося ора-
кула является новым для нас. Поэтому сейчас мы обсудим его более
подробно.
Сопротивляющийся оракул создает наихудшую задачу для каждо-
го конкретного метода. Каждый раз он начинает работу с «пустой»
задачи и старается отвечать на вопросы метода наихудшим обра-
зом. Однако эти ответы должны быть согласованы как с предыду-
щими ответами, так и с характеристиками данного класса задач.
В этом случае после завершения работы возможна реконструкция
задачи, которая полностью соответствует информации, собранной
тестируемым методом оптимизации. Если теперь запустить этот ме-
тод на созданной таким образом задаче, то он, шаг за шагом по-
лучая те же самые ответы, воспроизведет прежнюю последователь-
ность пробных точек.
Покажем, как все это работает, на задаче (.). Рассмотрим класс
задач минимимизации C , определенный следующим образом.

Модель: min f (x),


x ∈ Bn
f (x) является l∞ -липшицевой функцией на Bn .
Оракул: черный ящик нулевого порядка.
Приближенное решение:
найти x̄ ∈ Bn : f ( x̄) − f ∗ ¶ ǫ .

Теорема ... Пусть ǫ < (1/2)L. Тогда аналитическая сложность


класса C составляет по крайней мере (⌊ L/2ǫ⌋)n вызовов оракула.

Доказательство. Положим p = ⌊ L/2ǫ⌋ (¾ 1). Пусть существует неко-


торый метод, которому требуется N < p n вызовов оракула для того,
чтобы решить любую задачу из класса C . Применим для этого ме-
тода следующий сопротивляющийся оракул:


“Nesterov-final” — // — : — page  — #

§ .. Задачи нелинейной оптимизации

сообщается, что f (x) = 0 в любой тестовой точке x.

В этом случае метод может обнаружить только x̄ ∈ Bn со значени-


ем f ( x̄) = 0. Однако нетрудно заметить, что существует такая точка
x̂ ∈ Bn , что
1
x̂ + e ∈ Bn , e = (1, …, 1)T ∈ Rn ,
p
и при этом не существует ни одной тестовой точки внутри куба
1
n o
B = x | x̂ ¶ x ¶ x̂ + e .
p
1
Обозначим x∗ = x̂ + e и рассмотрим функцию
2p
f¯(x) = min{0, L k x − x∗ k∞ − ǫ }.
Ясно, что эта функция будет l∞ -липшицевой с константой L и что
значение ее глобального минимума равно −ǫ . Более того, функция
f¯(x) отлична от нуля только внутри куба B′ = {x : k x − x∗ k∞ ¶ ǫ/ L}.
Поскольку 2p ¶ L/ǫ , нетрудно видеть, что
1
n o
B′ ⊆ B ≡ x : k x − x̃ k∞ ¶ .
2p
Таким образом, функция f¯(x) равна нулю во всех тестовых точках
нашего метода. Так как точность полученного ответа никак не луч-
ше, чем ǫ , мы приходим к следующему заключению:
за число обращений к оракулу, меньшее, чем p n , нель-
зя гарантировать, что достигнутая абсолютная точ-
ность будет лучше, чем заранее заданное ǫ > 0.

Теперь мы можем сказать гораздо больше об эффективности


метода перебора по равномерной сетке. Сравним его оценку эффек-
тивности с нижней оценкой сложности рассматриваемого класса
задач минимизации:
n j kn
L L
j k
метод G : + 2 , нижняя оценка сложности: .
2ǫ 2ǫ
Таким образом, если ǫ ¶ O(L/n), то нижние и верхние оценки эф-
фективности совпадают с точностью до мультипликативной абсо-
лютной константы. Это означает, что метод перебора G (p) является
асимптотически оптимальным методом на классе C .


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

В то же время, теорема .. подтверждает нашу исходную догадку


о неразрешимости общей задачи глобальной нелинейной оптимиза-
ции. Рассмотрим следующий пример.
Пример ... Пусть класс задач минимизации F имеет следующие
параметры:
L = 2, n = 10, ǫ = 0,01.
Отметим здесь, что размерность рассматриваемых задач крайне ма-
ла. Да и требуемую точность в 1% никак нельзя признать слишком
высокой.
Однако, как мы видели, нижняя оценка сложности для данно-
го класса составляет (L/2ǫ )n вызовов оракула. Посмотрим, что это
означает для нашего примера.

Нижняя оценка: 1020 обращений к оракулу.


Сложность оракула:
не меньше n арифметических операций (а. о.).
Общий объем вычислений: 1021 а. о.
Производительность компьютера:
106 а. о. в секунду.
Общее время: 1015 секунд.
Один год: меньше чем 3, 2 · 107 секунд.
Нам нужно:    лет!

Приведенная оценка является настолько обескураживающей и


настолько важной для правильного понимания сложности задач
оптимизации, что мы будем неоднократно к ней возвращаться. К
тому же понятно, что нельзя всерьез рассчитывать на улучшение
ситуации в будущем за счет увеличения мощности компьютеров.
Действительно, если мы прибавим к n единицу, то оценку необхо-
димого времени придется увеличить в сто раз  . С другой стороны,
если требуемая точность ǫ умножается на два, то оценка количества


За время, прошедшее между появлением английского текста этих лекций и их
русского варианта, именно это и случилось: быстродействие современных персо-
нальных компьютеров достигает 108 а. о./сек. Так что сейчас в приведенном при-
мере надо брать n = 11.


“Nesterov-final” — // — : — page  — #

§ .. Задачи нелинейной оптимизации

вычислений уменьшается в тысячу раз. Таким образом, для ǫ = 8%


потребуется всего две недели вычислений.
Следует отметить, что нижние оценки сложности для задач с
гладкими функциональными компонентами, так же как и гаранти-
рованная эффективность методов более высокого порядка для задач
глобальной минимизации, не намного лучше оценки из теоре-
мы ... Соответствующий анализ может быть проведен с помощью
практически тех же рассуждений, и мы оставляем его читателю в
качестве упражнения.
Интересно сравнить полученные оценки с верхними оценками
трудоемкости для NP-сложных задач, которые часто используют-
ся в качестве примера громоздких вычислений. Оказывается, для
решения труднейших комбинаторных задач достаточно выполнить
всего 2n арифметических операций!
Заканчивая этот параграф, сравним возникшую ситуацию с поло-
жением в других областях численного анализа. Ведь хорошо извест-
но, что вычисления на равномерной сетке широко используются для
решения многих важных задач. Рассмотрим, например, задачу при-
ближенного вычисления значения интеграла от функции одной пе-
ременной:
R1
I = f (x) dx.
0
Стандартная рекомендация в этом случае как раз и состоит в ис-
пользовании равномерной сетки:
n
1 P i
f xi , xi = , i = 1, …, N.

Sn =
N i =1
N

Если функция f (x) является липшицевой с константой L, то можно


оценить погрешность найденного приближения для I :
L
N= ⇒ |I − S N | ¶ ǫ .
ǫ
Приведенный способ действия широко используется на практике.
Почему же он работает здесь и не работает в оптимизации? При-
чина этого расхождения состоит в размерности задач. Если для ин-
тегрирования типичная размерность крайне невелика (не больше
трех), то в оптимизации часто возникают задачи с миллионами пе-
ременных.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

... Визитные карточки областей оптимизации


После пессимистических результатов предыдущего пункта нам
нужно, так или иначе, вновь обрести точку опоры и найти новые
ориентиры для теоретического анализа задач оптимизации. По-ви-
димому, с общей задачей глобальной минимизации уже все ясно.
Но, может быть, мы ставим перед собой слишком амбициозные
цели? Может быть, в некоторых практических задачах нам вполне
хватило бы и гораздо менее «оптимального» решения? Или, может
быть, существуют гораздо более узкие классы оптимизационных
задач, у которых легко находить глобальное решение?
На самом деле каждый из этих вопросов допускает разные от-
веты. И каждый из ответов определяет свой стиль исследований
(или правил игры) в соответствующей области нелинейной опти-
мизации. Философия этих направлений различается в следующих
аспектах.
◦ Конечная цель численного анализа.
◦ Классы функциональных компонент.
◦ Тип оракула.
Эти характеристики естественным образом определяют набор воз-
можных теоретических результатов и желаемых свойств численных
методов. В заключение приведем визитные карточки четырех ос-
новных областей нелинейной оптимизации, рассматриваемых в
этой книге.
Название. Общая глобальная оптимизация (§ .).
Цель. Найти глобальное решение.
Функциональный класс. Непрерывные функции.
Оракул. Черный ящик порядка –.
Желаемые свойства. Сходимость к глобальному ре-
шению.
Особенности. Теоретический анализ в большинстве
случаев приводит к крайне пессимистическим
выводам.


“Nesterov-final” — // — : — page  — #

§ .. Задачи нелинейной оптимизации

Размеры задач. Иногда появляются сообщения о


решенных задачах очень большого размера. Од-
нако невозможно заранее гарантировать успех
даже для маломерных задач.
История. Начинается с  г. Наблюдаются регу-
лярные всплески интереса, связанные с появле-
нием очередной увлекательной эмпирической
идеи (алгоритмы типа simulated annealing, ней-
ронные сети, генетические алгоритмы).

Название. Общая нелинейная оптимизация


(§ ., .).
Цель. Найти локальный минимум.
Функциональный класс.
Дифференцируемые функции.
Оракул. Черный ящик порядка –.
Желаемые свойства. Быстрая сходимость к локаль-
ному минимуму.
Особенности. Многообразие подходов. Широко до-
ступное программное обеспечение. Цель не все-
гда достижима.
Размеры задач. До  переменных.
История. Начинается с  г. Пиковый период:
––. Теоретическая активность сейчас до-
статочно

Название. Выпуклая оптимизация (гл.  и ).


Цель. Найти глобальный минимум.
Функциональный класс. Выпуклые функции.
Оракул. Черный ящик -го порядка.
Желаемые свойства. Сходимость к глобальному
минимуму. Скорость сходимости может зави-
сеть от размерности.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Особенности. Очень богатая и интересная теория,


включающая теорию сложности. Эффективные
алгоритмы. Класс задач не очень широк.
Размеры задач. До  переменных.
История. Начинается с  г. Пик интереса: ––
 (прервался с появлением методов внутрен-
ней точки). Возрастающая теоретическая актив-
ность.

Название. Полиномиальные методы внутренней


точки (гл. ).
Цель. Найти глобальный минимум.
Функциональный класс: Выпуклые множества и
функции с явно заданной структурой.
Оракул. Черный ящик -го порядка (не локаль-
ный!).
Желаемые свойства. Быстрая сходимость к гло-
бальному минимуму. Скорость сходимости за-
висит от структуры задачи.
Особенности. Новая и перспективная теория. Уда-
лось избавиться от черного ящика. Класс задач
фактически такой же, как и у выпуклой оптими-
зации.
Размеры задач. До    переменных.
История. Начинается с  г. Пик интереса: ––
. Высокая теоретическая активность.

§ .. Локальные методы безусловной оптимизации


Релаксация и аппроксимация. Необходимые условия оптимальности. Доста-
точные условия оптимальности. Класс дифференцируемых функций. Класс
дважды дифференцируемых функций. Градиентный метод. Скорость сходимо-
сти. Метод Ньютона.


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

... Релаксация и аппроксимация


Простейшей общей задачей нелинейной оптимизации является
поиск локального минимума дифференцируемой функции. Вообще
говоря, глобальная структура такой функции не проще, чем структу-
ра липшицевых функций. Поэтому для решения даже такой частной
задачи необходимо следовать некоторым специальным принципам,
гарантирующим сходимость алгоритма минимизации.
Большинство методов нелинейной оптимизации базируются на
идее релаксации.

Назовем последовательность {ak }∞k =0


релаксацион-
ной, если
ak+1 ¶ ak ∀k ¾ 0.

В этом параграфе мы рассмотрим несколько методов решения


следующей задачи безусловной минимизации:
minn f (x), (.)
x ∈R

где f (x) –– гладкая функция. Для этого будем формировать релакса-


ционную последовательность { f (xk )}∞k =0 :

f (xk+1) ¶ f (xk ), k = 0, 1, …
Эта стратегия имеет следующие важные преимущества.
. Если функция f (x) ограничена снизу в Rn , то последовательность
{ f (xk )}∞
k =0 сходится.
. В любом случае мы улучшаем начальное значение целевой функ-
ции.
Однако было бы невозможно применить идею релаксации без ис-
пользования другого фундаментального понятия численного анали-
за, а именно аппроксимации.

Построить аппроксимацию означает заменить на-


чальный сложный объект на более простой, но близ-
кий по своим свойствам к начальному.

В нелинейной оптимизации мы обычно применяем локальные


аппроксимации с использованием некоторого набора производных


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

аппроксимируемых функций. Например, аппроксимации первого и


второго порядка (или линейные и квадратичные аппроксимации).
Пусть функция f (x) дифференцируема в точке x̄. Тогда для y ∈ Rn
имеем
f ( y) = f ( x̄) + 〈 f ′ ( x̄), y − x̄ 〉 + o(k y − x̄ k),
где o(r) –– некоторая функция от r ¾ 0, удовлетворяющая условиям
1
lim o(r) = 0, o(0) = 0.
r ↓0 r
В дальнейшем будем обозначать через k · k стандартную евклидову
векторную норму в пространстве Rn :
n
•P
2 1/2
˜
k x k = 〈 x, x 〉1/2 = x (i) .
i =1

Линейная функция f ( x̄) + 〈 f ( x̄), y − x̄ 〉 называется линейной ап-
проксимацией функции f в точке x̄. Напомним, что вектор f ′ (x) на-
зывается градиентом функции f (x). Рассматривая точки yi = x̄ + ǫ ei ,
где ei –– i-й ортонормированный вектор в Rn , и переходя к преде-
лу при ǫ → 0, мы получим следующее координатное представление
градиента: 
∂ f (x) ∂ f (x) ‹T
f ′ (x) = , …, .
∂x (1) ∂x (n)
Приведем здесь два важных свойства градиента. Обозначим че-
рез L f (α) множество уровней функции f (x):
L f (α) = x ∈ Rn | f (x) ¶ α .


Рассмотрим множество направлений, касательных к L f ( f ( x̄)) в


точке x̄: § ª
yk − x̄
S f ( x̄) = s ∈ Rn | s = lim .
yk → x̄, k yk − x̄ k
f ( yk )= f (x̄)

Лемма ... Если s ∈ S f ( x̄), то 〈 f ′ ( x̄), s〉 = 0.


Доказательство. Поскольку f ( yk ) = f ( x̄), мы получаем
f ( yk ) = f ( x̄) + 〈 f ′ ( x̄), yk − x̄ 〉 + o k yk − x̄ k = f ( x̄).


Поэтому 〈 f ′ ( x̄), yk − x̄ 〉 + o(k yk − x̄ k) = 0. Разделив левую часть это-


го уравнения на k yk − x̄ k и переходя к пределу при yk → x̄, получим
искомый результат.


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

Пусть s задает некое направление в пространстве Rn , k s k = 1. Рас-


смотрим локальное поведение функции f (x) вдоль s:
1 
∆(s) = lim f ( x̄ + αs) − f ( x̄) .
α↓0 α

Заметим, что f ( x̄ + αs) − f ( x̄) = α f ′ ( x̄), s + o(α). Поэтому



∆(s) = f ′ ( x̄), s .

Используя неравенство Коши––Буняковского


−k x k · k y k ¶ 〈 x, y 〉 ¶ k x k · k y k,
получим ∆(s) = f ( x̄), s ¾ −k f ′ ( x̄) k. Возьмем теперь


s̄ = − f ′ ( x̄)/k f ′ ( x̄) k.
Тогда
∆(s̄) = − f ′ ( x̄), f ′ ( x̄) /k f ′ ( x̄) k = −k ( x̄) k.

Таким образом, направление − f ′ ( x̄) (антиградиент) является на-


правлением наискорейшего локального убывания функции f (x) в
точке x̄.
Следующее утверждение, возможно, является самым важным
фактом в теории оптимизации.
Теорема .. (условие оптимальности первого порядка). Пусть
x ∗ –– точка локального минимума дифференцируемой функции f (x).
Тогда
f ′ (x ∗ ) = 0.
Доказательство. Так как x ∗ –– точка локального минимума функ-
ции f (x), существует такое r > 0, что для всех y, k y − x ∗ k ¶ r, имеет
место неравенство f ( y) ¾ f (x ∗ ). Поскольку функция f дифференци-
руема, мы получаем
f ( y) = f (x ∗ ) + f ′ (x ∗ ), y − x ∗ + o k y − x ∗ k ¾ f (x ∗ ).



Таким образом, для всех таких s, что k s k = 1, выполнено неравен-


ство 〈 f ′ (x ∗ ), s〉 ¾ 0. Рассмотрим направления s и − s; тогда

′ ∗
f (x ), s = 0 ∀s: k s k = 1.
Наконец, выбрав s = ei , i = 1, …, n, где ei –– i-й координатный вектор
в Rn , получаем f ′ (x ∗ ) = 0.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Следствие ... Пусть x ∗ –– точка локального минимума диффе-


ренцируемой функции f (x) при ограничениях в виде линейных ра-
венств
x ∈ L ≡ x ∈ Rn | Ax = b 6= ∅,


где A –– (m × n)-матрица, а b ∈ Rm , m < n. Тогда существует такой


вектор множителей λ∗ , что
f ′ (x ∗ ) = AT λ∗ . (.)
Доказательство. Рассмотрим некоторые векторы ui , i = 1, …, k, ко-
торые формируют базис нуль-пространства матрицы A. Тогда лю-
бой вектор x ∈ L может быть представлен в виде
k
x = x( y) ≡ x ∗ +
P
y (i) ui , y ∈ Rk .
i =1

Более того, точка y = 0 представляет собой локальный минимум


функции ϕ ( y) = f (x( y)). Из теоремы .. следует, что ϕ ′ (0) = 0.
Отсюда получаем
∂ϕ (0)
′ ∗
= f (x ), ui = 0, i = 1, …, k,

(i)
∂y
и равенство (.) доказано.
Заметим, что мы доказали только необходимое условие суще-
ствования локального минимума функции. Все точки, удовлетворя-
ющие этому условию, называются стационарными точками функ-
ции f . Для того чтобы показать, что такие точки не всегда являются
точками локального минимума, достаточно рассмотреть функцию
f (x) = x 3 , x ∈ R1 , в окрестности x = 0.
Теперь введем в рассмотрение аппроксимации второго порядка.
Предположим, что функция f (x) является дважды дифференцируе-
мой в точке x̄. Тогда
1
′′
f ( y) = f ( x̄) + f ′ ( x̄), y − x̄ + f ( x̄)( y − x̄), y − x̄ + o k y − x̄ k2 .


2
Квадратичная функция
1
′′
f ( x̄) + f ′ ( x̄), y − x̄ +


f ( x̄)( y − x̄), y − x̄
2
называется квадратичной аппроксимацией (или аппроксимацией
второго порядка) функции f в точке x̄. Напомним, что (n × n)-


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

матрица f ′′ (x) имеет следующие компоненты:


(i, j) ∂2 f (x)
f ′′ (x) = .
∂x (i) ∂x ( j)
Она называется гессианом функции f в точке x. Отметим, что гесси-
ан есть симметрическая матрица:
T
f ′′ (x) = f ′′ (x) ,


которую можно рассматривать как производную вектор-функции


f ′ (x):
f ′ ( y) = f ′ ( x̄) + f ′′ ( x̄)( y − x̄) + o k y − x̄ k ,


где o(r) –– такая вектор-функция, что limr ↓0 1/r k o(r) k = 0 и o(0) = 0.


Используя квадратичную аппроксимацию, мы можем выписать
условия оптимальности второго порядка. Оговорим предваритель-
но, что запись A  0 будет означать, что матрица A является сим-
метрической неотрицательно определенной:
〈 Ax, x 〉 ¾ 0, ∀ x ∈ Rn . (.)
Аналогично запись A ≻ 0 означает, что матрица A положительно
определенная (неравенство (.) при этом должно быть строгим для
x 6= 0).
Теорема .. (Условие оптимальности второго порядка). Пусть
x ∗ –– точка локального минимума дважды дифференцируемой функ-
ции f (x). Тогда
f ′ (x ∗ ) = 0, f ′′ (x ∗ )  0.

Доказательство. Поскольку x ∗ –– точка локального минимума функ-


ции f (x), существует такое r > 0, что при всех y, удовлетворяющих
условию k y − x ∗ k ¶ r, выполнено неравенство
f ( y) ¾ f (x ∗ ).
Из теоремы .. следует, что f ′ (x ∗ ) = 0. Поэтому для любых таких y
верно соотношение
f ( y) = f (x ∗ ) + f ′′ (x ∗ )( y − x ∗ ), y − x ∗ + o k y − x ∗ k2 ¾ f (x ∗ ).



Таким образом, 〈 f ′′ (x ∗ )s, s〉 ¾ 0 для всех векторов s, удовлетворяю-


щих условию k s k = 1.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Снова заметим, что приведенная теорема дает только необходи-


мое условие (второго порядка) для локального минимума. Теперь
докажем достаточное условие.
Теорема ... Пусть функция f (x) дважды дифференцируема в Rn ,
и пусть точка x ∗ удовлетворяет условию
f ′ (x ∗ ) = 0, f ′′ (x ∗ ) ≻ 0.
Тогда x ∗ является точкой строгого (изолированного) локального
минимума функции f (x).
Доказательство. Заметим, что в малой окрестности точки x ∗ функ-
цию f (x) можно представить как
1
′′ ∗
f ( y) = f (x ∗ ) + f (x )( y − x ∗ ), y − x ∗ + o k y − x ∗ k2 .

2
Так как (o(r))/r → 0, существует такая величина r̄, что для всех
r ∈ [0, r̄] имеет место неравенство
r
| o(r) | ¶ λ1 f ′′ (x ∗ ) ,

4
где λ1 f ′′ (x ∗ ) –– наименьшее собственное значение матрицы f ′′ (x ∗ ).


Напомним, что из предположений теоремы следует положитель-


ность этого собственного значения. Отсюда следует, что для всех y,
удовлетворяющих условию k y − x ∗ k ¶ r̄, выполняется неравенство
1
f ( y) ¾ f (x ∗ ) + λ1 f ′′ (x ∗ ) k y − x ∗ k2 + o k y − x ∗ k2 ¾
 
2
1
¾ f (x ∗ ) + λ1 f ′′ (x ∗ ) k y − x ∗ k2 > f (x ∗ ).

4
... Классы дифференцируемых функций
Хорошо известно, что любую непрерывную функцию можно при-
близить гладкой функцией со сколь угодно высокой точностью. Поэто-
му, предполагая только дифференцируемость целевой функции, мы
не сможем сильно улучшить сходимость соответствующих методов.
Следовательно, нам необходимо накладывать некоторые дополни-
тельные предположения на величину ее производных. Традиционно
в теории оптимизации такие предположения представляются в форме
условия Липшица для производной определенного порядка.
Пусть Q есть подмножество пространства Rn . Обозначим через
k,p
C L (Q) класс функций со следующими свойствами:


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

◦ любая функция f ∈ C Lk,p (Q) k раз непрерывно дифференцируема


на Q;
◦ ее p-я производная удовлетворяет условию Липшица на Q с кон-
стантой L:
k f (p) (x) − f (p) ( y) k ¶ Lk x − y k

для всех x, y ∈ Q.
Очевидно, что всегда p ¶ k. Если q ¾ k, то C Lq,p (Q) ⊆ C Lk,p (Q), напри-
мер, C L2,1 (Q) ⊆ C L1,1 (Q). Отметим также, что эти классы обладают
следующим свойством: если f1 ∈ C Lk,p 1
(Q), f2 ∈ C Lk,p
2
(Q) и α, β ∈ R1 , то
для
L3 = |α| L1 + |β | L2

выполняется включение α f1 + β f2 ∈ C Lk,p 3


(Q).
Будем использовать обозначение f ∈ C k (Q) для функции f , кото-
рая k раз непрерывно дифференцируема на Q.
Наиболее важным классом функций из перечисленных для нас
будет C L1,1 (Rn ), т. е. класс функций, градиент которых удовлетворяет
условию Липшица. По определению включение f ∈ C L1,1 (Rn ) означа-
ет, что
k f ′ (x) − f ′ ( y) k ¶ Lk x − y k (.)

для всех x, y ∈ Rn . Приведем достаточное условие для такого вклю-


чения.

Лемма ... Функция f (x) принадлежит классу C L2,1 (Rn ) ⊂ C L1,1 (Rn )
тогда и только тогда, когда

k f ′′ (x) k ¶ L ∀ x ∈ Rn . (.)

Доказательство. В самом деле, для любых x, y ∈ Rn имеет место


равенство
R1
f ′ ( y) = f ′ (x) + f ′′ (x + τ( y − x))( y − x) dτ =
0 ‚1 Œ
R
′ ′′
= f (x) + f (x + τ( y − x)) dτ · ( y − x).
0


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Поэтому если условие (.) выполнено, то


‚ 1 Œ
R
′ ′ ′′
k f ( y) − f (x) k =
f (x + τ( y − x)) dτ · ( y − x)

0
1
R
′′
¶ f (x + τ( y − x)) dτ

· k y − xk ¶
0
R1
¶ k f ′′ (x + τ( y − x)) k dτ · k y − x k ¶ Lk y − x k.
0

С другой стороны, если f ∈ C L2,1 (Rn ), то для любого s ∈ Rn и α > 0


имеем
‚ α Œ
R
′′ ′ ′

f (x + τs) dτ · s
= k f (x + αs) − f (x) k ¶ α Lk s k
0

Разделив это неравенство на α и перейдя к пределу при α ↓ 0, полу-


чим неравенство (.).
Этот простой результат порождает много примеров функций с
липшицевым градиентом.
Пример ... . Линейная функция f (x) = α + 〈a, x 〉 принадлежит
классу C01,1 (Rn ), поскольку
f ′ (x) = a, f ′′ (x) = 0.
1
. Для квадратичной функции f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, A = AT ,
2
имеют место равенства
f ′ (x) = a + Ax, f ′′ (x) = A.
Поэтому f (x) ∈ C L1,1 (Rn ) с L = k A k.
p
. Рассмотрим функцию одной переменной f (x) = 1 + x 2 , x ∈ R1 .
Тогда
x 1
f ′ (x) = p , f ′′ (x) = 2 3/2
¶ 1.
1 + x2 (1 + x )

Значит, f (x) ∈ C11,1 (R).


Следующее утверждение важно с точки зрения геометрической
интерпретации функций из класса C L1,1 (Rn ).


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

Лемма ... Пусть f ∈ C L1,1 (Rn ). Тогда для любых x, y из Rn имеет


место неравенство
L
| f ( y) − f (x) − 〈 f ′ (x), y − x 〉| ¶ k y − x k2 . (.)
2
Доказательство. Для любых x, y ∈ Rn имеем
R1

f ′ (x + τ( y − x)), y − x dτ =

f ( y) = f (x) +
0
R1

= f (x) + 〈 f ′ (x), y − x 〉 + f ′ (x + τ( y − x)) − f ′ (x), y − x dτ.



0

Поэтому

| f ( y) − f (x) − 〈 f ′ (x), y − x 〉| =
1
R
′ ′
= 〈 f (x + τ( y − x)) − f (x), y − x 〉 dτ ¶

0
R1
¶ |〈 f ′ (x + τ( y − x)) − f ′ (x), y − x 〉| dτ ¶
0
R1
¶ k f ′ (x + τ( y − x)) − f ′ (x) k · k y − x k dτ ¶
0
R1 L
¶ τ Lk y − x k2 dτ = k y − x k2 .
2
0

Геометрически мы можем представить себе следующую картину.


Рассмотрим функцию f из C L1,1 (Rn ). Зафиксируем некоторую точку
x0 ∈ Rn и определим две квадратичные функции
L
ϕ1 (x) = f (x0 ) + 〈 f ′ (x0 ), x − x0 〉 + k x − x0 k2 ,
2
L
ϕ2 (x) = f (x0 ) + 〈 f ′ (x0 ), x − x0 〉 − k x − x0 k2 .
2
Тогда график функции f расположен между графиками функций ϕ1
и ϕ2 :
ϕ1 (x) ¾ f (x) ¾ ϕ2 (x) ∀ x ∈ Rn .
Докажем похожий результат для класса дважды дифференцируе-
мых функций. Основным для нас в этом случае будет класс функций


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

2,2
CM (Rn ), т. е. класс дважды дифференцируемых функций с липшице-
2,2
вым гессианом. Вспомним, что для f ∈ C M (Rn ) верно неравенство
k f ′′ (x) − f ′′ ( y) k ¶ M k x − y k (.)
для всех x, y ∈ Rn .
2,2
Лемма ... Пусть f ∈ C M (Rn ). Тогда для любых x, y ∈ Rn выпол-
няются неравенства
M
k f ′ ( y) − f ′ (x) − f ′′ (x)( y − x) k ¶ k y − x k2 , (.)
2

1
| f ( y) − f (x) − 〈 f ′ (x), y − x 〉 − 〈 f ′′ (x)( y − x), y − x 〉| ¶
2
M
¶ k y − x k3 . (.)
6
Доказательство. Зафиксируем некоторые x, y ∈ Rn . Тогда
R1
f ′ ( y) = f ′ (x) + f ′′ (x + τ( y − x))( y − x) dτ =
0
R1
= f ′ (x) + f ′′ (x)( y − x) + f ′′ (x + τ( y − x)) − f ′′ (x) ( y − x) dτ.

0
Поэтому
k f ′ ( y) − f ′ (x) − f ′′ (x)( y − x) k =
1
R
′′ ′′

= f (x + τ( y − x)) − f (x) ( y − x) dτ


0
R1
k f ′′ (x + τ( y − x)) − f ′′ (x) ( y − x) k dτ ¶


0
R1
¶ k f ′′ (x + τ( y − x)) − f ′′ (x) k · k y − x k dτ ¶
0
R1 M
¶ τ M k y − x k2 dτ = k y − x k2 .
2
0

Неравенство (.) доказывается аналогично.


2,2
Следствие ... Пусть f ∈ C M (Rn ) и k y − x k = r. Тогда
f ′′ (x) − MrIn  f ′′ ( y)  f ′′ (x) + MrIn ,


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

где In –– единичная матрица в Rn . (Напомним, что для матриц A и B


мы пишем A  B, если A − B  0.)

Доказательство. Введем обозначение G = f ′′ ( y) − f ′′ (x). Так как


2,2
f ∈ CM (Rn ), мы имеем k G k ¶ Mr. Следовательно, собственные зна-
чения λi (G) симметрической матрицы G удовлетворяют неравен-
ству
|λi (G) | ¶ Mr, i = 1, …, n.
Отсюда следует, что − MrIn  G ≡ f ′′ ( y) − f ′′ (x)  MrIn .

... Градиентный метод


Теперь мы можем попробовать оценить скорость сходимости
некоторых методов безусловной минимизации. Начнем с наиболее
простой схемы. Мы уже знаем, что антиградиент является направ-
лением наискорейшего локального убывания дифференцируемой
функции. Поскольку мы собираемся искать локальный минимум
такой функции, в первую очередь имеет смысл рассмотреть следу-
ющую итеративную схему.

Градиентный метод (.)


Выберем x0 ∈ Rn .
Вычислим xk+1 = xk − hk f ′ (xk ), k = 0, 1, …

Будем называть эту схему градиентным методом. Скалярный


множитель hk перед градиентом будем называть длиной шага. Оче-
видно, он должен быть положительным.
Существует много разновидностей этого метода, которые разли-
чаются друг от друга стратегией выбора длины шага.
Рассмотрим наиболее важные из них.
 ∞
. Последовательность hk k=0 выбирается заранее. Например,
hk = h > 0 (постоянный шаг),
h
hk = p .
k+1
. Полная релаксация:
hk = arg min f xk − hf ′ (xk ) .

h ¾0


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

. Правило Голдштейна––Армийо: найти такое xk+1 = xk − hf ′ (xk ),


что
α f ′ (xk ), xk − xk+1 ¶ f (xk ) − f (xk+1 ), (.)



(.)

β f (xk ), xk − xk+1 ¾ f (xk ) − f (xk+1)

где α, β , 0 < α < β < 1, –– некоторые фиксированные параметры.


Сравнивая эти стратегии, видим, что первая из них является са-
мой простой. Действительно, она часто используется, но главным
образом в контексте задач выпуклой оптимизации. В таких задачах
поведение функций наиболее благоприятно по сравнению с общим
нелинейным случаем.
Вторая стратегия интересна только с теоретической точки зре-
ния. Она никогда не используется на практике, так как даже в одно-
мерном случае мы не можем найти точного минимума за конечное
время.
Третья стратегия используется в большинстве практических ал-
горитмов. Она имеет следующую геометрическую интерпретацию.
Зафиксируем x ∈ Rn . Рассмотрим функцию одной переменной
ϕ (h) = f (x − hf ′ (x)), h ¾ 0.
Тогда длина шага, допустимая в этой стратегии, принадлежит той
части графика функции ϕ , которая расположена между графиками
двух линейных функций:
ϕ1 (h) = f (x) − αhk f ′ (x) k2 , ϕ2 (h) = f (x) − β hk f ′ (x) k2 .

Заметим, что ϕ (0) = ϕ1 (0) = ϕ2 (0) и ϕ ′ (0) < ϕ2′ (0) < ϕ1′ (0) < 0. По-
этому допустимые значения существуют, если функция ϕ (h) ограни-
чена снизу. Имеется несколько очень быстрых одномерных процедур
для поиска точки, удовлетворяющей условиям этой стратегии. Однако
их детальное описание сейчас не представляется необходимым.
Оценим эффективность градиентного метода. Для этого рассмот-
рим задачу
minn f (x)
x ∈R

с функцией f ∈ C L1,1 (Rn ) и предположим, что функция f (x) ограни-


чена снизу в Rn . Оценим результат одной итерации градиентного
метода. Рассмотрим точку y = x − hf ′ (x). Тогда из неравенства (.)


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

следует, что
L
f ( y) ¶ f (x) + 〈 f ′ (x), y − x 〉 + k y − x k2 =
2
h2
= f (x) − hk f ′ (x) k2 + Lk f ′ (x) k2 =
2
 ‹
h
= f (x) − h 1 − L k f ′ (x) k2 . (.)
2
Таким образом, чтобы получить наилучшую гарантированную
оценку для убывания целевой функции, необходимо решить следу-
ющую одномерную задачу:
 ‹
h
∆(h) = −h 1 − L → min.
2 h

Вычислив производную этой функции, получаем, что оптимальная


длина шага должна удовлетворять равенству ∆′ (h) = hL − 1 = 0. Сле-
довательно, поскольку ∆′′ (h) = L > 0, точка h∗ = 1/ L, является точ-
кой глобального минимума для ∆(h).
Таким образом, наше рассуждение доказывает, что один шаг гра-
диентного метода уменьшает величину целевой функции по крайней
мере следующим образом:
1
f ( y) ¶ f (x) − k f ′ (x) k2.
2L
Проверим, как обстоят дела с приведенными выше стратегиями
длины шага.
Пусть xk+1 = xk − hk f ′ (xk ). Тогда при постоянном шаге hk = h имеем
 ‹
1
f (xk ) − f (xk+1 ) ¾ h 1 − Lh k f ′ (xk ) k2 .
2

Поэтому если выбрать hk = , α ∈ (0, 1), то
L
2
f (xk ) − f (xk+1 ) ¾ α(1 − α)k f ′ (xk ) k2 .
L
Очевидно, что оптимальным шагом будет hk = 1/ L.
Для стратегии с полной релаксацией имеем
1
f (xk ) − f (xk+1) ¾ k f ′ (xk ) k2 ,
2L
так как максимальное убывание не хуже, чем при hk = 1/ L.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Наконец, в силу неравенства (.) для правила Голдштейна––Ар-


михо имеем
f (xk ) − f (xk+1) ¶ β 〈 f ′ (xk ), xk − xk+1 〉 = β hk k f ′ (xk ) k2 .
Из соотношения (.) получаем
h
 ‹
f (xk ) − f (xk+1) ¾ hk 1 − k L k f ′ (xk ) k2 .
2
2
Поэтому hk ¾ (1 − β ). Далее, используя неравенство (.), имеем
L
f (xk ) − f (xk+1) ¾ α〈 f ′ (xk ), xk − xk+1 〉 = αhk k f ′ (xk ) k2 .
Объединяя это неравенство с предыдущим, заключаем, что
2
f (xk ) − f (xk+1 ) ¾ α(1 − β )k f ′ (xk ) k2 .
L
Таким образом, мы доказали, что во всех случаях имеет место
неравенство
ω
f (xk ) − f (xk+1 ) ¾ k f ′ (xk ) k2 , (.)
L
где ω –– некоторое положительное число.
Приступим теперь к оценке эффективности градиентной схемы.
Просуммировав неравенства (.) при k = 0, …, N, получим
N
ω P
k f ′ (xk ) k2 ¶ f (x0 ) − f (x N +1 ) ¶ f (x0 ) − f ∗ , (.)
L k =0

где f ∗ есть оптимальное значение для задачи (.). Как простое след-
ствие из неравенства (.) получаем
k f ′ (xk ) k → 0 при k → ∞.
Однако здесь можно также что-то сказать и о скорости сходимости
метода. В самом деле, обозначим
gN∗ = min gk ,
0¶k ¶ N

где gk = k f ′ (xk ) k. Тогда в силу неравенства (.) мы приходим к


следующему неравенству:
i1/2
1 1
h
gN∗ ¶ p L( f (x0 ) − f ∗ ) . (.)
N +1 ω

“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

Правая часть этого неравенства описывает скорость сходимости


последовательности {gN∗ } к нулю. Заметим, что о скорости сходимо-
сти последовательностей { f (xk )} и {xk } ничего сказать нельзя.
Напомним, что в общей задаче нелинейной оптимизации нашей
целью является поиск только локального, а не глобального минимума.
Тем не менее, даже при такой постановке задачи для градиентного
метода эта цель недостижима. Рассмотрим следующий пример.
Пример ... Возьмем функцию двух переменных
 1 2 1 4 1 2
f (x) ≡ f x (1) , x (2) = x (1) + x (2) − x (2) .
2 4 2
T
Градиент этой функции равен f ′ (x) = x (1) , (x (2) )3 − x (2) , откуда
следует, что существуют только три точки, которые могут претен-
довать на локальный минимум:
x1∗ = (0, 0), x2∗ = (0, −1), x3∗ = (0, 1).
Вычисляя гессиан  
1 0
f ′′ (x) = ,
0 3(x (2) )2 − 1
заключаем, что x2∗ и x3∗ являются точками изолированного локаль-
ного минимума  , в то время как x1∗ есть только стационарная точка
нашей функции. Действительно, f (x1∗ ) = 0 и f (x1∗ + ǫ e2 ) = (ǫ 4 /4) −
− (ǫ 2 /2) < 0 при достаточно малых ǫ .
Теперь рассмотрим траекторию градиентного метода, начинаю-
щуюся в точке x0 = (1, 0). Обратим внимание на то, что вторая ко-
ордината этой точки равна нулю, поэтому вторая координата для
f ′ (x0 ) также есть нуль. Следовательно, вторая координата точки x1
равна нулю и т. д. Таким образом, вся последовательность точек,
образованная градиентным методом, будет иметь нулевую вторую
координату, что означает сходимость этой последовательности к x1∗ .
В заключение нашего примера отметим, что эта ситуация типич-
на для всех методов первого порядка безусловной оптимизации. Без
дополнительных более строгих предположений невозможно гаран-
тировать их глобальную сходимость к точке локального минимума.
В общем случае гарантируется только сходимость к стационарной
точке.

В действительности в нашем примере они являются глобальными решениями.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Заметим, что неравенство (.) иллюстрирует нам понятие ско-


рости сходимости алгоритма минимизации. Как мы можем его
использовать при анализе вычислительной сложности различных
задач? Дело в том, что скорость сходимости дает верхние границы
сложности для некого класса задач. Эти границы всегда устанав-
ливаются с помощью численных методов. Если существует метод,
для которого верхние границы вычислительной сложности пропор-
циональны соответствующим нижним границам, то мы называем
этот метод оптимальным. Вспомним, что в § . мы уже приводили
пример оптимального метода.
Рассмотрим пример вычисления верхних границ сложности.
Пример ... Введем следующий класс задач.

Модель: (.)
. безусловная минимизация;
. f ∈ C L1,1 (Rn );
. f (x) ограничена снизу.
Оракул: черный ящик первого порядка.
ǫ -решение: f ( x̄) ¶ f (x0 ), k f ′ ( x̄) k ¶ ǫ .

Заметим, что неравенство (.) можно использовать для получе-


ния верхней границы числа для шагов (равных числу вызовов ора-
кула), которые необходимы для нахождения точки с малой нормой
градиента. Для этого запишем следующее неравенство:
 1/2
• ˜
1 1
gN∗ ¶ p L f (x0 ) − f ∗ ¶ ǫ.
N +1 ω
Отсюда следует, что если N + 1 ¾ L/ωǫ 2 f (x0 ) − f ∗ , то мы с необхо-


димостью имеем gN∗ ¶ ǫ .


Таким образом, мы можем использовать значение L/(ωǫ 2 )( f (x0 ) −
− f ∗ ) как верхнюю границу сложности для рассматриваемого класса
задач. Сравнивая эту оценку с результатом из теоремы .., можно
увидеть, что она намного лучше; по крайней мере она не зависит
от n. Нижняя граница сложности для класса (.) неизвестна.
Выясним, что можно сказать о локальной сходимости градиент-
ного метода. Рассмотрим задачу безусловной минимизации:
minn f (x)
x ∈R


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

при следующих предположениях:


2,2
. f ∈ C M (Rn );
. существует точка локального минимума функции f , в которой
гессиан является положительно определенным;
. известны некоторые границы 0 < l ¶ L < ∞ для гессиана в точ-
ке x ∗ :
l In  f ′′ (x ∗ )  LIn ; (.)

. начальная точка x0 расположена достаточно близко к x ∗ .


Рассмотрим следующую процедуру: xk+1 = xk − hk f ′ (xk ). Заме-
тим, что f ′ (x ∗ ) = 0. Отсюда следует, что
R1
f ′ (xk ) = f ′ (xk ) − f ′ (x ∗ ) = f ′′ (x ∗ + τ(xk − x ∗ ))(xk − x ∗ ) dτ =
0
= Gk (xk − x ∗ ),
R1
где Gk = 0
f ′′ (x ∗ + τ(xk − x ∗ )) dτ. Поэтому
xk+1 − x ∗ = xk − x ∗ − hk Gk (xk − x ∗ ) = (I − hk Gk )(xk − x ∗ ).
Существует стандартная техника для анализа такого типа алго-
ритмов, основанная на сжимающих отображениях.
Пусть последовательность {ak } определена следующим образом:
a0 ∈ R n , a k +1 = A k a k ,
где Ak такие (n × n)-матрицы, что k Ak k ¶ 1 − q, q ∈ (0, 1). Тогда мы
можем оценить скорость сходимости последовательности {ak } к ну-
лю:
k ak+1 k ¶ (1 − q)k ak k ¶ (1 − q)k+1 k a0 k → 0.
В нашем случае нам нужно оценить k In − hk Gk k. Обозначим
rk = k xk − x ∗ k. Из следствия .. имеем
f ′′ (x ∗ ) − τ Mrk In  f ′′ (x ∗ + τ(xk − x ∗ ))  f ′′ (x ∗ ) + τ Mrk In .
Поэтому, используя предположение (.), получаем
r r
 ‹  ‹
l − k M In  Gk  L + k M In .
2 2


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Отсюда следует, что


  ‹‹   ‹‹
r r
1 − hk L + k M In ¶ In − hk Gk ¶ 1 − hk l − k M In ,
2 2
и мы заключаем, что
k In − hk Gk k ¶ max{ak (hk ), bk (hk )}, (.)
где ak (h) = 1 − h(l − (rk /2)Mr) и bk (h) = h(L + (rk /2)M) − 1.
2l
Заметим, что ak (0) = 1 и bk (0) = −1. Поэтому если rk < r̄ ≡ , то
M
ak (h) –– строго убывающая функция от h, и мы убеждаемся, что
k In − hk Gk k < 1
при достаточно малых hk . В этом случае мы получим rk+1 < rk .
Существует много разных стратегий выбора длины шага. Напри-
мер, можно взять hk = 1/ L. Рассмотрим «оптимальную» стратегию,
заключающуюся в минимизации правой части неравенства (.):
max{ak (h), bk (h)} → min.
h

Предположим, что r0 < r̄. Тогда если мы формируем последователь-


ность {xk }, используя оптимальную стратегию, то можно быть уве-
ренным, что rk+1 < rk < r̄. Далее, оптимальная длина шага h∗k может
быть найдена из уравнения
r r
 ‹  ‹
ak (h) = bk (h) ⇐⇒ 1 − h l − k M = h L + k M − 1.
2 2
Отсюда следует, что
2
h∗k = (.)
L+l
(достаточно неожиданно, что оптимальный шаг не зависит от M).
При таком выборе h∗k получим
(L − l)rk Mrk2
rk+1 ¶ + .
L+l L+l
2l
Оценим скорость сходимости процесса. Обозначим q = и ak =
L+l
M
= r (< q). Тогда
L+l k
ak (1 − (ak − q)2 ) ak
ak+1 ¶ (1 − q)ak + a2k = ak (1 + (ak − q)) = ¶ .
1 − (ak − q) 1 + q − ak


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

1 1+q
Значит, ¾ − 1, или
a k +1 ak
 ‹
q q(1 + q) q
−1¾ − q − 1 = (1 + q) −1 .
a k +1 ak ak
Отсюда следует, что
 ‹  ‹
q q 2l L+l
− 1 ¾ (1 + q)k − 1 = (1 + q)k · −1 =
ak a0 L+l r0 M
 ‹

= (1 + q)k −1 .
r0
Таким образом,
 ‹k
qr0 qr0 1
ak ¶ ¶ ,
r0 + (1 + q)k (r̄ − r0 ) r̄ − r0 1+q
откуда вытекает следующая теорема.
Теорема ... Пусть функция f (x) удовлетворяет нашим предпо-
ложениям, а начальная точка x0 расположена достаточно близко к
точке локального минимума:
2l
r0 = k x0 − x ∗ k < r̄ = .
M
Тогда градиентный метод с длиной шага (.) сходится следующим
образом:
k
r̄r0
 ‹
2l
k xk − x ∗ k ¶ 1− .
r̄ − r0 L + 3l
Такая скорость сходимости называется линейной.

... Метод Ньютона


Метод Ньютона широко известен как способ нахождения корня
функции одной переменной. Пусть ϕ (t): R → R. Рассмотрим урав-
нение
ϕ (t ∗ ) = 0.
Метод Ньютона основан на его линейной аппроксимации. Выберем
некоторое t, достаточно близкое к t ∗ . Тогда
ϕ (t + ∆t) = ϕ (t) + ϕ ′ (t)∆t + o(|∆t |).
Поэтому уравнение ϕ (t + ∆t) = 0 можно приблизить следующим ли-
нейным уравнением:
ϕ (t) + ϕ ′ (t)∆t = 0.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Можно ожидать, что решение этого уравнения, т. е. отклонение ∆t,


будет хорошей аппроксимацией оптимального отклонения ∆t ∗ =
= t ∗ − t. Представив наши рассуждения в алгоритмической форме,
получаем процедуру
ϕ (tk )
t k +1 = t k − .
ϕ ′ (tk )
Эту схему можно естественным образом обобщить на задачу ре-
шения системы нелинейных уравнений
F(x) = 0,
n n n
где x ∈ R и F(x): R → R . В этом случае требуется определить сме-
щение ∆ x как решение следующей системы линейных уравнений:
F(x) + F ′ (x) ∆ x = 0
(она называется системой Ньютона). Если якобиан F ′ (x) невырож-
ден, то можно вычислить смещение по формуле ∆ x = −[F ′ (x)]−1 F(x).
Соответствующая итеративная схема выглядит следующим образом:
−1
xk+1 = xk − F ′ (xk )

F(xk ).
Наконец, из теоремы .. следует, что можно заменить зада-
чу безусловной минимизации задачей отыскания корней системы
нелинейных уравнений
f ′ (x) = 0 (.)
(эта замена не является полностью эквивалентной, но она работает
в невырожденных случаях). Далее, для решения системы (.) мож-
но применить стандартный метод Ньютона для систем нелинейных
уравнений. В этом случае система линейных уравнений для смеще-
ния принимает вид
f ′ (x) + f ′′ (x)∆ x = 0
Таким образом, метод Ньютона для задач оптимизации записыва-
ется как
−1 ′
xk+1 = xk − f ′′ (xk ) (.)

f (xk ).

Заметим, что мы можем получить процесс (.), используя идею


квадратичной аппроксимации. Рассмотрим эту аппроксимацию от-
носительно точки xk :
1

ϕ (x) = f (xk ) + f ′ (xk ), x − xk + f ′′ (xk )(x − xk ), x − xk .




2

“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

Предположим, что f ′′ (xk ) ≻ 0. Тогда можно выбрать xk+1 как точку


минимума квадратичной функции ϕ (x). Это означает, что
ϕ ′ (xk+1 ) = f ′ (xk ) + f ′′ (xk )(xk+1 − xk ) = 0,
и мы снова приходим к схеме Ньютона (.).
Мы увидим, что скорость сходимости метода Ньютона в окрест-
ности точки строго локального минимума очень велика. Однако
этот метод имеет два серьезных недостатка. Во-первых, он не ра-
ботает, если гессиан f ′′ (xk ) вырожден. Во-вторых, метод Ньютона
может расходиться. Рассмотрим следующий пример.
Пример ... Применим метод Ньютона для отыскания корня сле-
дующей функции одной переменной:
t
ϕ (t) = p .
1 + t2
Очевидно, t ∗ = 0. Заметим, что
1
ϕ ′ (t) = .
[1 + t 2 ]3/2
Поэтому схема Ньютона запишется в виде
ϕ (t ) t 3/2
t k +1 = t k − ′ k = t k − p k · 1 + tk2 = −tk3 .

ϕ (tk ) 1 + tk2
Таким образом, если | t0 | < 1, то метод сходится очень быстро, точ-
ки ±1 –– это точки осцилляции, а при | t0 | > 1 метод расходится.
Для того чтобы избежать возможной расходимости, на практике
применяют демпфированный метод Ньютона:
−1 ′
xk+1 = xk − hk f ′′ (xk )

f (xk ),

где hk > 0 –– параметр длины шага. На начальном этапе метода мож-


но использовать ту же стратегию выбора длины шага, что и у гради-
ентного метода. На заключительном этапе разумно выбирать hk = 1.
Изучим локальную сходимость метода Ньютона. Рассмотрим за-
дачу
minn f (x)
x ∈R
при следующих предположениях:
2,2
. f ∈ C M (Rn );


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

. существует точка локального минимума функции f с положи-


тельно определенным гессианом:
f ′′ (x ∗ )  lIn , l > 0; (.)

. начальная точка x0 расположена достаточно близко к x .
−1 ′
Рассмотрим следующий алгоритм: xk+1 = xk − f ′′ (xk )

f (xk ).
Используя те же рассуждения, что и для градиентного метода, по-
лучим представление
−1 ′
xk+1 − x ∗ = xk − x ∗ − f ′′ (xk )

f (xk ) =
−1 R1 ′′ ∗
= xk − x ∗ − f ′′ (xk ) f (x + τ(xk − x ∗ ))(xk − x ∗ ) dτ =

0
−1
= f ′′ (xk ) Gk (xk − x ∗ ),


R 1
где Gk = 0 f ′′ (xk ) − f ′′ (x ∗ + τ(xk − x ∗ )) dτ.


Введем обозначение rk = k xk − x ∗ k. Тогда


1
R  
′′ ′′ ∗ ∗
k Gk k =
f (x k ) − f (x + τ (x k − x )) d τ ¶

0
R1
¶ k f ′′ (xk ) − f ′′ (x ∗ + τ(xk − x ∗ )) k dτ ¶
0
R1 rk
¶ M(1 − τ)rk dτ = M.
2
0

На основании следствия (..) и условия (.) имеем


f ′′ (xk ) ¾ f ′′ (x ∗ ) − Mrk In ¾ (l − Mrk )In .
Поэтому если rk < l / M, то матрица f ′′ (xk ) положительно определена
и
k [ f ′′ (xk )]−1 k ¶ (l − Mrk )−1 .
Отсюда при достаточно малом rk (rk < 2l /3M) получим
Mrk2
rk+1 ¶ (< rk ).
2(l − Mrk )
Скорость сходимости такого типа называется квадратичной.
Таким образом, доказана следующая теорема.


“Nesterov-final” — // — : — page  — #

§ .. Локальные методы безусловной оптимизации

Теорема ... Пусть функция f (x) удовлетворяет нашим предпо-


ложениям. Если начальная точка x0 достаточно близка к x ∗ :
2l
k x0 − x ∗ k < r̄ = ,
3M
то k xk − x ∗ k < r̄ для всех k ¾ 0 и метод Ньютона сходится квадра-
тично:
M k xk − x ∗ k2
k x k +1 − x ∗ k ¶ ∗ .
2(l − M k xk − x k)
Сравнивая этот результат со скоростью сходимости градиентно-
го метода, мы видим, что метод Ньютона намного быстрее. При
этом оказывается, что область квадратичной сходимости метода
Ньютона почти такая же, как и область линейной сходимости гра-
диентного метода. Это обстоятельство объясняет стандартную ре-
комендацию использовать градиентный метод только на начальном
этапе процесса минимизации, стараясь приблизиться на достаточно
малое расстояние к точке локального минимума. Заключительный
этап лучше проводить с помощью метода Ньютона.
В этом параграфе мы привели несколько примеров скорости схо-
димости. Установим соответствие между этими скоростями и гра-
ницами аналитической сложности. Как мы видели в примере ..,
верхняя граница сложности для некоторого класса задач есть обрат-
ная функция скорости сходимости.
. Сублинейная скорость. Эта скорость задается
p степенной функци-
ей от числа итераций. Например, если rk ¶ c/ k, то верхняя граница
сложности соответствующего класса задач равна (c/ǫ )2 .
Сублинейная скорость является достаточно низкой. С точки зре-
ния вычислительной трудоемкости можно сказать, что для улучше-
ния точности ответа еще на один знак требуется количество опера-
ций, сравнимое с общим объемом всех предшествующих вычисле-
ний. Отметим также, что константа c играет существенную роль в
соответствующей оценке.
. Линейная скорость. Эта скорость определяется с помощью пока-
зательной функции от числа итераций. Например,
rk ¶ c(1 − q)k .
Отметим, что соответствующая граница сложности равна
1/q(ln c + ln 1/ǫ ).


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Линейная скорость является достаточно быстрой: увеличение


точности ответа на один знак требует постоянного количества
вычислительных операций. Зависимость оценки сложности от кон-
станты c очень слабая.
. Квадратичная скорость. Эта скорость имеет форму двойной пока-
зательной функции от числа итераций и выводится из неравенства
rk+1 ¶ crk2 .
Соответствующая оценка сложности зависит от двойного логариф-
ма желаемой точности: ln ln 1/ǫ .
Эта скорость сходимости чрезвычайно велика: каждая итера-
ция удваивает число правильных цифр в ответе. Константа c важна
только для определения начального момента квадратичной сходи-
мости (crk < 1).

§ .. Методы первого порядка в нелинейной


оптимизации
Градиентный метод и метод Ньютона: в чем разница? Идея переменной мет-
рики. Методы переменной метрики. Методы сопряженных градиентов. Услов-
ная минимизация. Штрафные функции и методы штрафных функций. Барьер-
ные функции и методы барьерных функций.

... Градиентный метод и метод Ньютона: в чем разница?


В предыдущем параграфе были представлены локальных метода
поиска локального минимума в простейшей задаче минимизации
minn f (x),
x ∈R

где f ∈ C L2,2 (Rn ). Это градиентный метод:


xk+1 = xk − hk f ′ (xk ), hk > 0,
и метод Ньютона:
xk+1 = xk − [ f ′′ (xk )]−1 f ′ (xk ).
Вспомним, что локальная скорость сходимости этих методов суще-
ственно различается. Градиентный метод имеет линейную скорость
сходимости, а метод Ньютона сходится квадратично. Какова причи-
на этого различия?


“Nesterov-final” — // — : — page  — #

§ .. Методы первого порядка в нелинейной оптимизации

Если посмотреть на аналитическую форму двух методов, то можно


увидеть по крайней мере следующие формальные отличия: в гради-
ентном методе направление одномерного поиска совпадает с антигра-
диентом, тогда как в методе Ньютона мы умножаем антиградиент на
некоторую матрицу, равную обратной к гессиану. Попытаемся опре-
делить эти направления, используя некие «общие» соображения.
Зафиксируем точку x̄ ∈ Rn . Рассмотрим следующую аппроксима-
цию функции f (x):
1
ϕ1 (x) = f ( x̄) + 〈 f ′ ( x̄), x − x̄ 〉 + k x − x̄ k2 ,
2h
где параметр h положителен. Условие оптимальности первого по-
рядка дает следующее уравнение для точки x1∗ , являющейся точкой
безусловного минимума функции ϕ1 (x):
1
ϕ1′ (x1∗ ) = f ′ ( x̄) + (x1∗ − x̄) = 0.
h
Таким образом, x1∗ = x̄ − hf ′ ( x̄), что в точности совпадает с итера-
цией градиентного метода. Отметим, что если h ∈ (0, 1/ L], то функ-
ция ϕ1 (x) представляет собой глобальную верхнюю аппроксимацию
функции f (x):
f (x) ¶ ϕ1 (x) ∀ x ∈ Rn
(см. лемму ..). Это обстоятельство предопределяет глобальную
сходимость градиентного метода.
Далее, рассмотрим квадратичное приближение функции f (x):
1
′′
ϕ2 (x) = f ( x̄) + f ′ ( x̄), x − x̄ +


f ( x̄)(x − x̄), x − x̄ .
2
Минимум этой функции достигается в точке
−1 ′
x2∗ = x̄ − f ′′ ( x̄)

f ( x̄),
что в точности совпадает с итерацией в методе Ньютона.
Исходя из этого можно попытаться использовать другие аппрок-
симации функции f (x), более точные, чем ϕ1 (x), но менее сложные,
чем ϕ2 (x).
Пусть G –– положительно определенная (n × n)-матрица. Введем
обозначение
1

ϕG (x) = f ( x̄) + f ′ ( x̄), x − x̄ + G(x − x̄), x − x̄ .




2

“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Вычисляя минимум этой функции с помощью уравнения


ϕG′ xG∗ = f ′ ( x̄) + G xG∗ − x̄ = 0,
 

получаем
xG∗ = x̄ − G −1 f ′ ( x̄). (.)
Методы первого порядка, формирующие последовательность матриц
{Gk }: Gk → f ′′ (x ∗ )
−1
(или {Hk }: Hk ≡ Gk−1 → f ′′ (x ∗ ) ), называются методами перемен-


ной метрики; их иногда называют также квазиньютоновскими мето-


дами. Для генерации последовательностей {Gk } и {Hk } в этих методах
используются только градиенты целевой функции.
Правило движения (.) является весьма распространенным в
теории оптимизации. Приведем для него еще одну интерпретацию.
Заметим, что вектор градиента и матрица гессиана нелинейной
функции f (x) обычно определяются относительно стандартного
евклидова скалярного произведения на Rn :
n
P
〈 x, y 〉 = x (i) y (i) , x, y ∈ Rn , k x k = 〈 x, x 〉1/2 .
i =1

В самом деле, определение градиента дается выражением


f (x + h) = f (x) + 〈 f ′ (x), h〉 + o k h k ,


и из этого уравнения выводится его покоординатное представление:


∂ f (x) T
 ‹
∂ f (x)
f ′ (x) = (1)
, …, (n)
.
∂x ∂x
Введем теперь новое скалярное произведение. Рассмотрим сим-
метрическую положительно определенную (n × n)-матрицу A. Для
x, y ∈ Rn введем обозначения
〈 x, y 〉 A = 〈 Ax, y 〉, k x k A = 〈 Ax, x 〉1/2 .

Функция k x k A задает новую норму на Rn (метрику). Заметим, что


топологически эта новая метрика эквивалентна старой:
λn (A)1/2 k x k ¶ k x k A ¶ λ1 (A)1/2 k x k,


“Nesterov-final” — // — : — page  — #

§ .. Методы первого порядка в нелинейной оптимизации

где λn (A) и λ1 (A) –– соответственно наименьшее и наибольшее соб-


ственные значения матрицы A. Однако градиент и гессиан, вычис-
ленные относительно нового скалярного произведения, изменяются:

1
′′
f (x + h) = f (x) + f ′ (x), h +


f (x)h, h + o k h k =
2
1
−1 ′′
= f (x) + A−1 f ′ (x), h A +


A f (x)h, h A + o k h k A .
2

Отсюда следует, что f A′ (x) = A−1 f ′ (x) –– новый градиент, а f A′′ (x) =
= A−1 f ′′ (x) –– новый гессиан.
Таким образом, направление, используемое в методе Ньютона,
можно рассматривать как градиент, вычисленный относительно
метрики, определяемой матрицей A = f ′′ (x). Заметим, что гессиан
функции f (x) в точке x, вычисленный в метрике A = f ′′ (x), равен In .

Пример ... Рассмотрим квадратичную функцию

1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉,
2

где A = AT ≻ 0. Заметим, что f ′ (x) = Ax + a, f ′′ (x) = A и

f ′ (x ∗ ) = Ax ∗ + a = 0

для x ∗ = − A−1 a. Вычислим ньютоновское направление в некоторой


точке x ∈ Rn :
−1 ′
d N (x) = f ′′ (x) f (x) = A−1 (Ax + a) = x + A−1 a.


Поэтому для любого x ∈ Rn верно равенство x − d N (x) = − A−1 a = x ∗ .


Таким образом, для квадратичной функции метод Ньютона сходит-
ся за одну итерацию. Отметим также, что
1
f (x) = α + 〈 A−1 a, x 〉 A + k x k2A ,
2
f A′ (x) = A−1 f ′ (x) = d N (x),
f A′′ (x) = A−1 f ′′ (x) = In .

Выпишем общую схему методов переменной метрики.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Метод переменной метрики


. Выберем x0 ∈ Rn . Положим H0 = In .
Вычислим f (x0 ) и f ′ (x0 ).
. k-я итерация (k ¾ 0).
a) Положим pk = Hk f ′ (xk ).
б) Найдем xk+1 = xk − hk pk (выбор правила дли-
ны шага см. в п. ..).
c) Вычислим f (xk+1) и f ′ (xk+1).
d) Обновим матрицу Hk : Hk → Hk+1 .

Схемы переменной метрики различаются друг от друга только


реализацией шага d, на котором обновляется матрица Hk . Для
этого используется новая информация в виде значения градиента
f ′ (xk+1), вычисленного на шаге c. Возможность «улучшения» мат-
рицы Hk вытекает из следующего свойства квадратичной функции.
Пусть
1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, f ′ (x) = Ax + a.
2
Тогда для любых x, y ∈ Rn имеем f ′ (x) − f ′ ( y) = A(x − y). Это тож-
дество объясняет происхождение так называемого квазиньютонов-
ского правила.

Квазиньютоновское правило
Выберем Hk+1 так, чтобы выполнялось равенство
Hk+1 ( f ′ (xk+1) − f ′ (xk )) = xk+1 − xk .

Нетрудно видеть, что существует много способов удовлетворить


это соотношение. Ниже приводится несколько наиболее популярных
версий.
Пример ... Обозначим
∆ H k = H k +1 − H k , γk = f ′ (xk+1) − f ′ (xk ), δ k = x k +1 − x k .
Тогда квазиньютоновское соотношение обеспечивается следующи-
ми правилами пересчета.
. Правило одноранговой коррекции:
(δk − Hk γk )(δk − Hk γk )T
∆ Hk = .
〈δk − Hk γk , γk 〉


“Nesterov-final” — // — : — page  — #

§ .. Методы первого порядка в нелинейной оптимизации

. Правило Давидона––Флетчера––Пауэла (ДФП):


δk δkT Hk γk γTk Hk
∆ Hk = − .
〈γk , δk 〉 〈 Hk γk , γk 〉
. Правило Бройдена––Флетчера––Гольдфарба––Шенно (БФГШ):
Hk γk δkT + δk γTk Hk Hk γk γTk Hk
∆ Hk = − βk ,
〈 Hk γk , γk 〉 〈 Hk γk , γk 〉
где βk = 1 + 〈γk , δk 〉/〈 Hk γk , γk 〉.
Очевидно, что существует и много других возможностей. Третье
правило (БФГШ) обычно упоминается как наиболее устойчивое к
вычислительным погрешностям.
Отметим, что для квадратичных функций методы переменной
метрики завершают работу не позже чем за n итераций. В окрест-
ности точки строгого минимума эти методы имеют сверхлинейную
скорость сходимости: для любого x0 ∈ Rn существует такое число N,
что при всех k ¾ N выполняется неравенство
k xk+1 − x ∗ k ¶ const · k xk − x ∗ k · k xk−n − x ∗ k
(строгое доказательство этого факта довольно громоздко). Глобаль-
ная же сходимость этих методов не лучше, чем у градиентного метода
(по крайней мере, с теоретической точки зрения).
Заметим, что в схемах переменной метрики необходимо посто-
янно держать в памяти и обновлять симметрическую (n × n)-матри-
цу. Поэтому каждая итерация требует O(n2 ) вспомогательных ариф-
метических операций, что рассматривалось в течение многих лет
как один из основных недостатков квазиньютоновских методов. Это
стимулировало интерес к так называемым схемам сопряженных гра-
диентов, которые имеют заметно меньшую трудоемкость каждой
итерации (см. п. ..). Однако ввиду резкого роста вычислитель-
ных мощностей в последние десятилетия приведенные возражения
больше не представляются существенными.

... Сопряженные градиенты


Методы сопряженных градиентов были изначально предложены
для минимизации квадратичных функций. Рассмотрим задачу
minn f (x), (.)
x ∈R


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

где f (x) = α + 〈a, x 〉 + 1/2〈 Ax, x 〉 и A = AT ≻ 0. Как известно, реше-


ние этой задачи есть x ∗ = − A−1 a. Поэтому нашу целевую функцию
можно переписать в следующем виде:
1 1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉 = α − 〈 Ax ∗ , x 〉 + 〈 Ax, x 〉 =
2 2
1 1
= α − 〈 Ax ∗ , x ∗ 〉 + 〈 A(x − x ∗ ), x − x ∗ 〉.
2 2
Таким образом, f ∗ = α − 1/2〈 Ax ∗ , x ∗ 〉 и f ′ (x) = A(x − x ∗ ).
Предположим, что нам задана начальная точка x0 . Рассмотрим
линейные подпространства Крылова
Lk = Lin{A(x0 − x ∗ ), …, Ak (x0 − x ∗ )}, k ¾ 1,
где Ak –– k-я степень матрицы A. Последовательность точек {xk }, об-
разованная методом сопряженных градиентов, определяется следу-
ющим образом:

(.)

xk = arg min f (x) | x ∈ x0 + Lk , k ¾ 1.
Это определение выглядит достаточно искусственным. Однако мы
скоро увидим, что такой метод можно записать в чисто «алгоритми-
ческой» форме. Представление (.) нам понадобится только для
теоретического анализа.
Лемма ... Для любого k ¾ 1 имеет место равенство
Lk = Lin f ′ (x0 ), …, f ′ (xk−1) .


Доказательство. Для k = 1 утверждение верно: f ′ (x0 ) = A(x0 − x ∗ ).


Предположим, что оно также выполняется для некоторого k ¾ 1. Тогда
k
P
x k = x0 + λ(i) Ai (x0 − x ∗ )
i =1

с некоторыми множителями λ ∈ Rk . Поэтому


k
P
f ′ (xk ) = A(x0 − x ∗ ) + λ(i) Ai+1 (x0 − x ∗ ) = y + λ(k) Ak+1 (x0 − x ∗ ),
i =1

для некоторой точки y из Lk . Таким образом,


Lk+1 ≡ Lin Lk , Ak+1 (x0 − x ∗ ) = Lin Lk , f ′ (xk ) =
 

= Lin f ′ (x0 ), …, f ′ (xk ) .





“Nesterov-final” — // — : — page  — #

§ .. Методы первого порядка в нелинейной оптимизации

Следующая лемма помогает понять поведение последовательно-


сти {xk }.
Лемма ... Для любых k, i ¾ 0, k 6= i имеет место равенство
〈 f ′ (xk ), f ′ (xi )〉 = 0.

Доказательство. Пусть k > i. Рассмотрим функцию


 k
P ‹
ϕ (λ) = f x 0 + λ( j) f ′ (x j −1) , λ ∈ Rk .
j =1
Pk ( j)
В силу леммы .. для некоторого λ∗ имеем xk = x0 + j =1 λ∗ f ′ (x j −1 ).
Однако по определению xk есть точка минимума функции f (x)
на Lk . Поэтому ϕ ′ (λ∗ ) = 0. Остается вычислить компоненты этого
вектора:
∂ϕ (λ∗ )

= f (xk ), f ′ (xi ) .

0= (i)
∂λ
Следствие ... Последовательность, образованная методом со-
пряженных градиентов для задачи (.), конечна.
Доказательство. Количество ортогональных направлений в Rn не
превышает n.
Следствие ... Для любого p ∈ Lk верно равенство f ′ (xk ), p = 0.

Последний вспомогательный результат объясняет название мето-


да. Обозначим δi = xi+1 − xi . Очевидно, что Lk = Lin{δ0 , …, δk−1 }.
Лемма ... Для любого k 6= i верно равенство 〈 Aδk , δi 〉 = 0. (Такие
направления называются сопряженными относительно матрицы A.)
Доказательство. Без потери общности можно предположить, что
k > i. Тогда
〈 Aδk , δi 〉 = 〈 A(xk+1 − xk ), δi 〉 = 〈 f ′ (xk+1) − f ′ (xk ), δi 〉 = 0,
поскольку δi = xi+1 − xi ∈ Li+1 ⊆ Lk .
Попытаемся переписать метод сопряженных градиентов в алго-
ритмической форме. Так как Lk = Lin{δ0 , …, δk−1 }, можно предста-
вить xk+1 в виде
kP
−1
xk+1 = xk − hk f ′ (xk ) + λ( j) δ j .
j =0


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

В наших обозначениях это есть


kP
−1
δk = −hk f ′ (xk ) + λ( j) δ j . (.)
j =0

Вычислим коэффициенты этого представления. Умножая соотноше-


ние (.) на A и δi , 0 ¶ i ¶ k − 1, и используя лемму .., получим

kP
−1
0 = 〈 Aδk , δi 〉 = −hk 〈 Af ′ (xk ), δi 〉 + λ( j) 〈 Aδ j , δi 〉 =
j =0

= −hk 〈 Af (xk ), δi 〉 + λ(i) 〈 Aδi , δi 〉 =


= −hk 〈 f ′ (xk ), f ′ (xi+1) − f ′ (xi )〉 + λ(i) 〈 Aδi , δi 〉.

Отсюда, следуя лемме .., получаем что λi = 0 при i < k − 1. Для


i = k − 1 имеем

hk k f ′ (xk ) k2 hk k f ′ (xk ) k2
λ(k−1) = = ′ .
〈 Aδk−1 , δk−1 〉 〈 f (xk ) − f ′ (xk−1 ), δk−1 〉

Таким образом, xk+1 = xk − hk pk , где

k f ′ (xk ) k2 δk−1 k f ′ (xk ) k2 pk−1


pk = f ′ (xk ) − ′ ′ = f ′ (xk ) − ′ ,
〈 f (xk ) − f (xk−1 ), δk−1 〉 〈 f (xk ) − f ′ (xk−1 ), pk−1 〉

так как δk−1 = −hk−1 pk−1 в силу определения последовательности {pk }.


Заметим, что нам удалось записать метод сопряженных гра-
диентов в терминах градиентов целевой функции f (x). Это дает
возможность формально применить метод к общей задаче миними-
зации нелинейной функции. Конечно, это обобщение ликвидирует
все специфические свойства процесса, характерные для квадратич-
ных функций. Однако можно ожидать, что в окрестности точки
строгого локального минимума целевая функция будет близка к
квадратичной. Поэтому асимптотически этот метод должен схо-
диться быстро.
Приведем общую схему метода сопряженных градиентов для за-
дачи минимизации нелинейной функции.


“Nesterov-final” — // — : — page  — #

§ .. Методы первого порядка в нелинейной оптимизации

Метод сопряженных градиентов


. Пусть x0 ∈ Rn . Вычислим f (x0 ), f ′ (x0 ). Положим
p0 = f ′ (x0 ).
. k-я итерация (k ¾ 0).
a) Найдем xk+1 = xk + hk pk
(с помощью «точного» одномерного поиска).
б) Вычислим f (xk+1) и f ′ (xk+1).
в) Вычислим коэффициент βk .
г) Положим pk+1 = f ′ (xk+1) − βk pk .

В этой схеме мы пока не определили, как вычислять коэффици-


ент βk . В действительности существует множество формул для этого
параметра. Все они дают одинаковый результат на квадратичных
функциях, но в общем нелинейном случае образуют разные после-
довательности. Представим здесь три наиболее распространенные
версии:
k f ′ (xk+1 ) k2
. βk = ;
〈 f (xk+1 ) − f ′ (xk ), pk 〉

k f ′ (xk+1 ) k2
. формула Флетчера––Ривса: βk = − ;
k f ′ (xk ) k2
〈 f (xk+1 ), f (xk+1 ) − f ′ (xk )〉
′ ′
. формула Полака––Рибьера: βk = − .
k f ′ (xk ) k2
Напомним, что в квадратичном случае метод сопряженных гра-
диентов завершает работу за n итераций (или быстрее). Алгорит-
мически это означает, что pn+1 = 0. В нелинейном случае это не
так. После n итераций квадратичная интерпретация теряет смысл.
Поэтому на практике часто используется стратегия обновления, ко-
торая в определенный момент устанавливает βk = 0 (обычно после
каждой n-й итерации). Это обеспечивает глобальную сходимость
данной схемы (так как сразу после обновления идет обычная гра-
диентная итерация, а все остальные итерации только уменьшают
значение функции). В окрестности точки строгого минимума схемы
сопряженных градиентов имеют локальную n-шаговую квадратич-
ную сходимость:
k xn+1 − x ∗ k ¶ const · k x0 − x ∗ k2 .


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Отметим, что асимптотическая скорость этой локальной сходимо-


сти меньше, чем скорость сходимости методов переменной метри-
ки. Однако схемы сопряженных градиентов имеют преимущество
малой вычислительной сложности каждой итерации. Глобальная же
сходимость метода сопряженных градиентов в общем случае не луч-
ше, чем у градиентного метода.

... Условная минимизация


Кратко обсудим основные идеи, лежащие в основе методов задач
условной минимизации общего вида. Рассмотрим следующую задачу:

min f0 (x),
(.)
fi (x) ¶ 0, i = 1, …, m,

где fi (x) –– гладкие функции. Например, можно взять fi (x) ∈ C L1,1 (Rn ).
Так как в задаче (.) присутствуют нелинейные функции обще-
го вида, мы не можем ожидать, что она окажется проще, чем задача
безусловной минимизации. В самом деле, даже стандартные трудно-
сти со стационарными точками, имеющиеся в задаче безусловной
минимизации, проявляются в задаче (.) в намного более сильной
форме. Заметим, что стационарная точка этой задачи (как бы мы ее
ни определили) может не удовлетворять системе функциональных
ограничений. Отсюда следует, что любой метод минимизации мо-
жет не сойтись к допустимой точке задачи (.), даже если такая и
существует.
Поэтому следующие соображения выглядят весьма убедитель-
ными.
. У нас есть эффективные методы решения задач безусловной
минимизации. 


На самом деле это утверждение не является абсолютно верным. Мы увидим, что
для использования методов безусловной минимизации при решении задач с ограни-
чениями необходимо по крайней мере уметь находить строгий локальный минимум.
А мы уже видели на примере .., что с этим могут возникнуть сложности.


“Nesterov-final” — // — : — page  — #

§ .. Методы первого порядка в нелинейной оптимизации

. Задача без ограничений проще, чем задача с ограничениями. 


. Поэтому попытаемся приблизить решение задачи (.) после-
довательностью решений некоторых вспомогательных задач без-
условной минимизации.
Эта философия осуществляется в схемах последовательной безуслов-
ной минимизации. Существуют две основные группы таких методов:
методы штрафных функций и барьерные методы. Опишем основные
идеи, используемые в этих подходах.
Начнем с методов штрафных функций.
Определение ... Непрерывная функция Φ(x) называется штраф-
ной функцией для замкнутого множества Q, если
◦ Φ(x) = 0 для любого x ∈ Q,
◦ Φ(x) > 0 для любого x ∈
/ Q.
Штрафную функцию иногда называют просто штрафом. Наибо-
лее полезным свойством штрафной функции является следующее
утверждение.

Если Φ1 (x) –– штраф для Q1 , а Φ2 (x) –– штраф для


Q2 , то Φ1 (x) + Φ2 (x) будет штрафом для пересечения
Q1 ∩ Q2 .

Приведем несколько примеров таких функций.


Пример ... Введем обозначение (a)+ = max{a, 0}. Пусть
Q = x ∈ Rn | fi (x) ¶ 0, i = 1, …, m .


Тогда следующие функции являются штрафными для Q:


Pm
) квадратичный штраф: Φ(x) = i=1 ( fi (x))2+;
Pm
) негладкий штраф: Φ(x) = i=1 ( fi (x))+.
Читатель с легкостью может продолжить этот список.


Здесь имеется в виду «строгое неравенство». Мы не будем обсуждать коррект-
ность этого утверждения для нелинейных задач общего вида. Просто здесь хочется
напомнить читателю об опасности «очевидных» истин. В следующей главе у нас бу-
дет возможность убедиться в том, что для подобного оптимизма нет достаточных
оснований.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Общая схема метода штрафных функций выглядит следующим


образом.

Метод штрафных функций


. Выберем x0 ∈ Rn . Выберем последовательность
штрафных коэффициентов: 0 < tk < tk+1 и tk → ∞.
. k-я итерация (k ¾ 0).
Найдем точку xk+1 = arg min x ∈Rn f0 (x) + tk Φ(x) ,


используя в качестве начальной точку xk .

Легко доказать сходимость этой схемы, полагая, что xk+1 –– точ-


ка глобального минимума вспомогательной функции  . Введем обо-
значения
Ψk (x) = f0 (x) + tk Φ(x), Ψ∗k = minn Ψk (x)
x ∈R

(Ψ∗k
–– глобальное оптимальное значение функции Ψk (x)). Обозна-
чим через x ∗ глобальное решение задачи (.).
Теорема ... Пусть существует такое число t̄ > 0, что множе-
ство
S = x ∈ Rn | f0 (x) + t̄ Φ(x) ¶ f0 (x ∗ )


ограничено. Тогда
lim f (xk ) = f0 (x ∗ ), lim Φ(xk ) = 0.
k →∞ k →∞

Доказательство. Заметим, что Ψ∗k ¶ Ψk (x ∗ ) = f0 (x ∗ ). В то же время,


для любого x ∈ Rn имеет место неравенство Ψk+1 (x) ¾ Ψk (x). Поэто-
му Ψ∗k+1 ¾ Ψ∗k . Таким образом, предел limk→∞ Ψ∗k ≡ Ψ∗ ¶ f ∗ существу-
ет. Если tk > t̄, то
f0 (xk ) + t̄ Φ(xk ) ¶ f0 (xk ) + tk Φ(xk ) = Ψ∗k ¶ f0 (x ∗ ).
Поэтому последовательность {xk } имеет предельные точки. По-
скольку limk→∞ tk = +∞, для любой такой точки x∗ выполняются
условия Φ(x∗ ) = 0 и f0 (x∗ ) ¶ f0 (x ∗ ). Таким образом, x∗ ∈ Q, и
Ψ∗ = f0 (x∗ ) + Φ(x∗ ) = f0 (x∗ ) ¾ f0 (x ∗ ).


Если предполагать, что это точка строгого локального минимума, то результат
будет заметно слабее.


“Nesterov-final” — // — : — page  — #

§ .. Методы первого порядка в нелинейной оптимизации

Хотя этот результат и является очень общим, но он малоинформа-


тивен. Остается еще много вопросов, требующих ответа. Например,
нам неизвестно, функцию какого типа лучше всего использовать в
качестве штрафной. Каковы должны быть правила выбора штрафных
коэффициентов? Какова должна быть точность решения вспомога-
тельных задач? Основной особенностью всех этих вопросов является
то, что на них трудно ответить в рамках общей теории нелинейной
оптимизации. Традиционно считается, что этим должна заниматься
вычислительная практика.
Рассмотрим теперь барьерные методы.
Определение ... Пусть Q –– замкнутое множество, имеющее
внутреннюю точку. Непрерывная функция F(x) называется барьер-
ной функцией для Q, если множества F(·) → ∞ для точек, приближа-
ющихся к границе множества Q.
Барьерную функцию иногда для краткости называют барьером.
Аналогично штрафным функциям барьеры обладают следующим
свойством.

Если F1 (x) –– барьер для Q1 , а F2 (x) –– барьер для Q2 ,


то F1 (x) + F2 (x) является барьером для пересечения
Q1 ∩ Q2 .

Для того чтобы мы могли применять барьерные функции, зада-


ча (.) должна удовлетворять условию Слейтера:
∃ x̄ : fi ( x̄) < 0, i = 1, …, m.
Приведем несколько примеров барьерных функций.
Пример ... Пусть Q = x ∈ Rn | fi (x) ¶ 0, i = 1, …, m . Тогда все


перечисленные ниже функции являются барьерами для Q:


Pm 1
) степенной барьер: F(x) = i=1 , p ¾ 1;
(− fi (x)) p
Pm
) логарифмический барьер: F(x) = − i=1 ln(− fi (x));
 ‹
Pm 1
) экспоненциальный барьер: F(x) = i=1 exp .
− fi (x)

Список можно продолжать до бесконечности.


“Nesterov-final” — // — : — page  — #

Глава . Нелинейная оптимизация

Схема барьерного метода выглядит следующим образом.

Метод барьерных функций


. Выберем x0 ∈ int Q. Выберем последовательность
штрафных коэффициентов: 0 < tk < tk+1 и tk → ∞.
. k-я итерация (k ¾ 0).
Найдем точку § ª
1
xk+1 = arg min f0 (x) + F(x) ,
x ∈Q tk
используя в качестве начальной точку xk .

Докажем сходимость этого метода, полагая, что xk+1 есть точка


глобального минимума вспомогательной функции. Обозначим
1
Ψk (x) = f0 (x) + F(x), Ψ∗k = min Ψk (x)
tk x ∈Q

(Ψ∗k –– глобальное оптимальное значение функции Ψk (x)). Пусть f ∗


является оптимальным значением для задачи (.).
Теорема ... Пусть барьер F(x) ограничен снизу на множестве Q.
Тогда
lim Ψ∗k = f ∗ .
k →∞

Доказательство. Пусть F(x) ¾ F ∗ для всех x ∈ Q. Для произвольного


x̄ ∈ int Q имеет место неравенство
• ˜
1
sup lim Ψ∗k ¶ lim f0 ( x̄) + F( x̄) = f0 ( x̄).
k →∞ k →∞ tk
Поэтому sup lim Ψ∗k ¶ f ∗ . С другой стороны,
k →∞
§ ª § ª
1 1 1
Ψ∗k = min f0 (x) + F(x) ¾ min f0 (x) + F ∗ = f ∗ + F ∗ .
x ∈Q tk x ∈Q tk tk

Таким образом, limk→∞ Ψ∗k = f ∗ .

Аналогично методу штрафных функций здесь также имеется мно-


го открытых вопросов. Например, мы не знаем, как искать началь-
ную точку x0 и как выбирать наилучшую барьерную функцию. Нам
также неизвестны теоретически обоснованные правила пересчета


“Nesterov-final” — // — : — page  — #

§ .. Методы первого порядка в нелинейной оптимизации

штрафных коэффициентов и необходимая точность решения вспо-


могательных задач. Наконец, у нас нет никакого представления об
оценках эффективности этого процесса. Причина всех этих пробе-
лов заключается не в отсутствии желания разработать соответству-
ющую теорию. Наша задача (.) просто слишком сложна. В даль-
нейшем мы увидим, что все приведенные здесь вопросы получают
точные ответы в рамках теории выпуклой оптимизации.
На этом мы завершаем краткое изучение общей теории нелиней-
ной оптимизации. Наше изложение было действительно очень крат-
ким, и оно не затронуло много интересных теоретических тем. Од-
нако основной целью данной книги является описание тех областей
теории оптимизации, в которых мы можем получить ясные и завер-
шенные результаты о поведении численных методов. К сожалению,
общая задача нелинейной оптимизации оказывается для этого слиш-
ком сложной. Тем не менее, было бы неправильно совсем опустить эту
область, поскольку много фундаментальных идей, лежащих в основе
методов выпуклой оптимизации, имеют свои истоки в общей теории
нелинейной оптимизации. Градиентный метод и метод Ньютона, ал-
горитмы последовательной безусловной минимизации и барьерные
функции были изначально разработаны и использованы для решения
общих задач. Но только рамки теории выпуклой оптимизации поз-
воляют по-настоящему раскрыть потенциал и силу этих подходов.
В последующих главах мы не раз встретимся с примерами второго
рождения старых идей и концепций.


“Nesterov-final” — // — : — page  — #
“Nesterov-final” — // — : — page  — #

Глава 

Гладкая выпуклая
оптимизация
§ .. Минимизация гладких функций
Гладкие выпуклые функции. Нижние границы аналитической сложности для
класса F L∞,1 (Rn ). Сильно выпуклые функции. Нижние границы аналитической
сложности для класса Sµ∞,1 n
,L (R ). Градиентный метод.

... Гладкие выпуклые функции


В этом пункте мы будем рассматривать задачу безусловной ми-
нимизации
minn f (x) (.)
x ∈R

с достаточно гладкой функцией f (x). Вспомним, что в предыду-


щей главе такая задача уже ставилась при слабых предположени-
ях о свойствах функции f . При этом было показано, что в такой
общей постановке нельзя достичь многого. Например, невозмож-
но гарантировать сходимость методов даже к точке локального
минимума, невозможно получить приемлемые границы вычисли-
тельной эффективности алгоритмов минимизации и т. д. В связи с
этим мы попытаемся ввести некоторые разумные предположения о
функции f , упрощающие нашу задачу. Иначе говоря, попытаемся
определить, какими минимальными свойствами должен обладать
интересующий нас класс дифференцируемых функций F .
Результаты предыдущей главы могут создать впечатление, что
основной причиной всех неприятностей является слабость условий
оптимальности первого порядка (теорема ..). В самом деле, гра-
диентный метод в общем случае сходится только к стационарной
точке функции f (см. неравенство . и пример ..). Поэтому в
первую очередь потребуем выполнения следующего дополнитель-
ного свойства.
“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Предположение ... Для любой функции f ∈ F условие опти-


мальности первого порядка является достаточной характеристикой
глобального решения задачи (.).
Далее, важной особенностью искомого класса функций F долж-
на быть возможность простой проверки включения f ∈ F . Это
может быть обеспечено заданием множества базисных элементов
данного класса и набором всевозможных операций с элементами
класса F , которые не выводят результат за рамки этого класса
(такие операции называются инвариантными). Прекрасным при-
мером здесь может служить класс дифференцируемых функций: для
того чтобы проверить, дифференцируема ли функция, достаточно
просто взглянуть на ее аналитическое выражение.
С другой стороны, нам не хотелось бы слишком сужать класс
функций F . Поэтому введем в рассмотрение только одну инвари-
антную операцию на этом классе.
Предположение ... Если f1 , f2 ∈ F и α, β ¾ 0, то α f1 + β f2 ∈ F .

Ограничение на знак коэффициентов α и β в данном предполо-


жении является очевидным, поскольку, например, функция x 2 при-
надлежит классу F , тогда как − x 2 –– нет.
Наконец, добавим в F некоторые базисные элементы.
Предположение ... Любая линейная функция f (x) = α + 〈a, x 〉
принадлежит классу F  .
Заметим, что линейная функция f (x) удовлетворяет предположе-
нию ... Действительно, из равенства f ′ (x) = 0 следует, что функ-
ция f –– константа и любая точка в Rn есть точка ее глобального
минимума.
Сделанных предположений оказывается достаточно для выведе-
ния требуемого класса функций. Рассмотрим f ∈ F . Зафиксируем
некоторое x0 ∈ Rn и сформируем функцию
ϕ ( y) = f ( y) − f ′ (x0 ), y .


Данное предположение не является описанием всех базисных элементов рас-
сматриваемого класса. Мы просто хотим иметь семейство линейных функций в
классе F .


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

Тогда в силу предположений .. и .. справедливо предположить


ϕ ∈ F . Заметим, что
ϕ ′ ( y) | y = x0 = f ′ (x0 ) − f ′ (x0 ) = 0.

Поэтому, принимая во внимание предположение .., заключаем


что точка x0 оказывается точкой глобального минимума функции ϕ
и для любого y ∈ Rn имеет место соотношение
ϕ ( y) ¾ ϕ (x0 ) = f (x0 ) − f ′ (x0 ), x0 .

Отсюда следует неравенство f ( y) ¾ f (x0 ) + f ′ (x0 ), y − x0 .



Это неравенство хорошо известно в теории оптимизации. Оно


определяет класс дифференцируемых выпуклых функций.
Определение ... Непрерывно дифференцируемая функция f (x)
называется выпуклой в Rn (обозначение: f ∈ F 1 (Rn )), если для лю-
бых x, y ∈ Rn выполнено неравенство
f ( y) ¾ f (x) + f ′ (x), y − x . (.)

Если функция − f (x) выпукла, то функция f (x) называется вогну-


той.
В дальнейшем мы будем рассматривать также и классы выпук-
лых функций F Lk,l (Q); здесь индексы имеют тот же смысл, что и для
C Lk,l (Q).
Подтвердим справедливость наших предположений, которые ста-
новятся теперь свойствами рассматриваемого функционального
класса.
Теорема ... Если f ∈ F 1 (Rn ) и f ′ (x ∗ ) = 0, то x ∗ есть точка гло-
бального минимума функции f (x) на Rn .

Доказательство. В силу неравенства (.) для любого x ∈ Rn имеем


f (x) ¾ f (x ∗ ) + f ′ (x ∗ ), x − x ∗ = f (x ∗ ).

Таким образом, предположение .. выполнено. Проверим пред-


положение ...
Лемма ... Для f1 и f2 из класса F 1 (Rn ) функция f = α f1 + β f2 ,
α, β ¾ 0 также принадлежит классу F 1 (Rn ).


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Доказательство. Для любых x, y ∈ Rn имеют место неравенства

f1 ( y) ¾ f1 (x) + f1′ (x), y − x ,



f2 ( y) ¾ f2 (x) + f2′ (x), y − x .



Остается домножить первое неравенство на α, второе на β и сло-


жить результаты.

Таким образом, для дифференцируемых функций наш гипотети-


ческий класс совпадает с классом выпуклых функций. Представим
их основные свойства.
Следующее утверждение существенно увеличивает наши воз-
можности в построении выпуклых функций.

Лемма ... Если f ∈ F 1 (Rm ), b ∈ Rm и A : Rn → Rm , то

ϕ (x) = f (Ax + b) ∈ F 1 (Rn ).

Доказательство. В самом деле, пусть x, y ∈ Rn . Введем обозначе-


ния x̄ = Ax + b, ȳ = Ay + b. Так как ϕ ′ (x) = AT f ′ (Ax + b), мы полу-
чаем
ϕ ( y) = f ( ȳ) ¾ f ( x̄) + f ′ ( x̄), ȳ − x̄ =

= ϕ (x) + f ′ ( x̄), A( y − x) = ϕ (x) + AT f ′ ( x̄), y − x =




= ϕ (x) + ϕ ′ (x), y − x .

Для того чтобы упростить проверку включения f ∈ F 1 (Rn ), да-


дим этому классу несколько эквивалентных определений.

Теорема ... Непрерывно дифференцируемая функция f принадле-


жит классу F 1 (Rn ) тогда и только тогда, когда для любых x, y ∈ Rn
и α ∈ [0, 1] выполняется неравенство 

f (α x + (1 − α) y) ¶ α f (x) + (1 − α) f ( y). (.)


Заметим, что неравенство (.) без предположения о дифференцируемости
функции f представляет собой определение общих выпуклых функций. Мы будем
детально изучать эти функции в следующей главе.


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

Доказательство. Введем обозначение xα = α x + (1 − α) y. Пусть


f ∈ F 1 (Rn ). Тогда
f (xα ) ¶ f ( y) − f ′ (xα ), y − xα = f ( y) − α f ′ (xα ), y − x ,


f (xα ) ¶ f (x) − f ′ (xα ), x − xα = f (x) + (1 − α) f ′ (xα ), y − x .




Домножив первое неравенство на 1 − α, а второе –– на α и сложив


результаты, получим неравенство (.).
Пусть неравенство (.) верно для всех x, y ∈ Rn и α ∈ [0, 1]. Вы-
берем некоторое α ∈ [0, 1). Тогда
1   1
f ( y) ¾ f (xα ) − α f (x) = f (x) + [ f (xα ) − f (x)] =
1−α 1−α
1  
= f (x) + f (x + (1 − α)( y − x)) − f (x) .
1−α
Переходя к пределу α → 1, получаем неравенство (.).

Теорема ... Непрерывно дифференцируемая функция f принадле-


жит классу F 1 (Rn ) тогда и только тогда, когда для любых x, y ∈ Rn
выполнено неравенство


f (x) − f ′ ( y), x − y ¾ 0. (.)

Доказательство. Пусть f есть выпуклая непрерывно дифференци-


руемая функция. Тогда
f (x) ¾ f ( y) + f ′ ( y), x − y , f ( y) ¾ f (x) + f ′ (x), y − x .


Складывая эти неравенства, получаем неравенство (.).


Пусть (.) верно для всех x, y ∈ Rn . Введем обозначение xτ = x +
+ τ( y − x). Тогда
R1

f ′ (x + τ( y − x)), y − x dτ =

f ( y) = f (x) +
0
R1

= f (x) + 〈 f ′ (x), y − x 〉 + f ′ (xτ ) − f ′ (x), y − x dτ =



0
R1 1

= f (x) + f ′ (x), y − x + f ′ (xτ ) − f ′ (x), xτ − x dτ ¶




τ
0
¾ f (x) + f ′ (x), y − x .


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Иногда удобнее работать с функциями из класса F 2 (Rn ) ⊂ F 1 (Rn ).


Теорема ... Дважды непрерывно дифференцируемая функция f
принадлежит классу F 2 (Rn ) тогда и только тогда, когда для лю-
бого x ∈ Rn выполнено условие
f (x)  0. (.)
Доказательство. Пусть функция f ∈ C 2 (Rn ) выпукла. Обозначим
xτ = x + τs, τ > 0. Тогда, исходя из неравенства (.) имеем
1
′ 1

f (xτ ) − f ′ (x), xτ − x = f (xτ ) − f ′ (x), s =


τ τ
τ
1 R

= f (x + λs)s, s d λ,
τ
0
откуда, перейдя к пределу τ → 0, получаем условие (.).
Пусть условие (.) выполнено для всех x ∈ Rn . Тогда
f ( y) = f (x) + f ′ (x), y − x +

R1 Rτ

+ f (x + λ( y − x))( y − x), y − x d λ dτ ¶
0 0
¾ f (x) + f ′ (x), y − x .

Приведем несколько примеров дифференцируемых выпуклых


функций.
Пример ... . Линейная функция f (x) = α + 〈a, x 〉 выпукла.
. Если матрица A симметрическая и неотрицательно определен-
ная, то квадратичная функция
1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉
2
выпукла (поскольку f ′′ (x) = A  0).
. Следующие функции одной переменной лежат в классе F 1 (R):
f (x) = e x ,
f (x) = | x | p , p > 1,
2
x
f (x) = ,
1 − |x|

f (x) = | x | − ln 1 + | x | .


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

Это можно легко проверить, используя теорему ... Поэтому, на-


пример, функция m
P
f (x) = eαi +〈ai ,x 〉 ,
i =1

возникающая в геометрическом программировании, выпукла (см.


лемму ..). Аналогично функция
m
P
f (x) = |〈ai , x 〉 − bi | p ,
i =1

возникающая в задачах аппроксимации в l p -нормах, также выпукла.


Как и в случае с нелинейными функциями общего вида, диффе-
ренцируемость сама по себе не способна обеспечить хороших то-
пологических свойств выпуклых функций. Потому необходимо рас-
сматривать класс задач с липшицевыми производными определен-
ного порядка. Наиболее важным из них является класс F L1,1 (Rn ) ––
класс выпуклых функций с липшицевым градиентом. Дадим несколь-
ко необходимых и достаточных условий для этого класса.
Теорема ... Все приведенные ниже условия, выполняющиеся для
всех x, y ∈ Rn и α ∈ [0, 1], эквивалентны включению f ∈ F L1,1 (Rn ):
L
0 ¶ f ( y) − f (x) − f ′ (x), y − x ¶ k x − y k2 , (.)

2
1
f (x) + f ′ (x), y − x + k f ′ (x) − f ′ ( y) k2 ¶ f ( y), (.)


2L
1 ′
k f (x) − f ′ ( y) k2 ¶ f ′ (x) − f ′ ( y), x − y , (.)


L

0 ¶ f ′ (x) − f ′ ( y), x − y ¶ Lk x − y k2 , (.)




α f (x) + (1 − α) f ( y) ¾ f α x + (1 − α) y +
α(1 − α) ′
+ k f (x) − f ′ ( y) k2 , (.)
2L

0 ¶ α f (x) + (1 − α) f ( y) − f α x + (1 − α) y ¶
L
¶ α(1 − α) k x − y k2 . (.)
2


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Доказательство. В самом деле, условие (.) следует из определе-


ния выпуклых функций и леммы ... Далее, зафиксируем x0 ∈ Rn .
Рассмотрим функцию
ϕ ( y) = f ( y) − f ′ (x0 ), y .

Заметим, что ϕ принадлежит классу F L1,1 (Rn ), а ее точка оптимума


есть y ∗ = x0 . Поэтому из условия (.) следует, что
1 1
ϕ ( y ∗ ) ¶ ϕ y − ϕ ′ ( y) ¶ ϕ ( y) − kϕ ′ ( y) k2 .

L 2L
Так как ϕ ′ ( y) = f ′ ( y) − f ′ (x0 ), неравенство (.) доказано.
Условие (.) получается напрямую из неравенства (.) путем
сложения двух записей (.) с переставленными x и y. Применяя
теперь неравенство Коши––Буняковского к неравенству (.), полу-
чим k f ′ (x) − f ′ ( y) k ¶ Lk x − y k.
Таким же способом можно получить неравенство (.) из (.).
Для того чтобы получить неравенство (.) из (.), применим ин-
тегрирование:
f ( y) − f (x) − f ′ (x), y − x =

R1
1
f ′ (x + τ( y − x)) − f ′ (x), y − x dτ ¶ Lk y − x k2 .

=
2
0

Докажем два последних неравенства. Введем обозначение xα = α x +


+ (1 − α) y. Тогда, используя неравенство (.), получаем
1
f (x) ¾ f (xα ) + f ′ (xα ), (1 − α)(x − y) + k f ′ (x) − f ′ (xα ) k2 ,

2L
1
f ( y) ¾ f (xα ) + f (xα ), α( y − x) + k f ( y) − f ′ (xα ) k2 .

′ ′
2L
Складывая эти неравенства, домноженные на α и 1 − α соответ-
ственно, и используя неравенство
αk g1 − u k2 + (1 − α)k g2 − u k2 ¾ α(1 − α)k g1 − g2 k2 ,
получаем неравенство (.). Легко проверить, что неравенство
(.) следует из (.), если перейти к пределу при α → 1.
Аналогичным образом из неравенства (.) получаем
L
f (x) ¶ f (xα ) + f ′ (xα ), (1 − α)(x − y) + k (1 − α)(x − y) k2 ,

2
L
f ( y) ¶ f (xα ) + f ′ (xα ), α( y − x) + kα( y − x) k2 .


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

Складывая эти неравенства, домноженные на α и 1 − α соответ-


ственно, получаем неравенство (.). Утверждение в обратную
сторону доказывается переходом к пределу при α → 1.
В заключение опишем класс функций F L2,1 (Rn ).
Теорема ... Дважды непрерывно дифференцируемая функция
f (x) лежит в классе F L2,1 (Rn ) тогда и только тогда, когда для
любого x ∈ Rn выполнено условие
0  f ′′ (x)  LIn . (.)
Доказательство. Утверждение следует из теоремы .. и неравен-
ства (.).

... Нижние границы аналитической сложности


для класса F L∞,1 (Rn )
Прежде чем перейти к методам оптимизации, определим потен-
циальные возможности задач минимизации гладких выпуклых функ-
ций. В этом пункте мы получим нижние границы аналитической
сложности для задач оптимизации, в которых целевые функции при-
надлежат классу F L∞,1 (Rn ) (и, соответственно, классу F L1,1 (Rn )).
Напомним, что мы рассматриваем следующий класс задач.

Модель: minn f (x), f ∈ F L1,1 (Rn ).


x ∈R
Оракул: локальный черный ящик первого порядка.
Приближенное решение: x̄ ∈ Rn , f ( x̄) − f ∗ ¶ ǫ .
Для того чтобы упростить наши рассуждения, введем следующее
предположение об итеративном процессе.
Предположение ... Итеративный метод M образует последова-
тельность тестовых таких точек {xk }, что
xk ∈ x0 + Lin f ′ (x0 ), …, f ′ (xk−1 ) , k ¾ 1.


Это предположение не носит обязательного характера и в опреде-


ленных случаях может быть опущено. Однако оно выполняется для
большинства практических методов.
Можно указать нижнюю границу сложности для нашего класса
задач, не прибегая к построению сопротивляющегося оракула. Вме-
сто этого мы построим «наихудшую функцию» из класса F L∞,1 (Rn ).


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Эта функция оказывается сложной для всех методов, удовлетворяю-


щих предположению ...
Зафиксируем константу L > 0. Рассмотрим следующее семейство
квадратичных функций:
§ • kP−1 ˜ ª
L 1
fk (x) = (x (1) )2 + (x (i) − x (i+1) )2 + (x (k) )2 − x (1)
4 2 i =1

при k = 1, …, n. Заметим, что для всех s ∈ Rn имеют место неравен-


ства
L
• kP
−1 2
˜
(s(1) )2 +

′′
fk (x)s, s = s(i) − s(i+1) + (s(k) )2 ¾ 0
4 i =1
и
L
• kP
−1 ˜
fk′′ (x)s, s ¶ (s(1) )2 + 2 (s(i) )2 + (s(i+1) )2 + (s(k) )2 ¶


4 i =1
n
P
¶L (s(i) )2 .
i =1

Таким образом, 0  fk′′ (x)  LIn . Поэтому fk (x) ∈ F L∞,1 (Rn ),


1 ¶ k ¶ n.
Вычислим минимум функции fk . Легко увидеть, что fk′′ (x) =
= (L/4)Ak с матрицей
 
 2 − 1 
−1 2 −1 0
 
 
 

 −1 2 −1 

.. .. ..
 
 k строк 0n−k,k 
. . .
Ak = 
 


 −1 2 −1 

 

 0 −1 2 −1 

−1 2
 
 
 
0n−k,k 0n−k,n−k

где 0k,p –– нулевая матрица размера k × p. Поэтому уравнение


fk′ (x) = Ak x − e1 = 0


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

имеет единственное решение


i
(
(i) 1− , i = 1, …, k,
x̄k = k+1
0, k + 1 ¶ i ¶ n.
Следовательно, оптимальное значение функции fk равно
• ˜  ‹
L 1 L L 1
fk∗ = 〈 Ak x̄k , x̄k 〉 − 〈e1 , x̄k 〉 = − 〈e1 , x̄k 〉 = −1 + . (.)
4 2 8 8 k+1
Заметим также, что
k
P k(k + 1)(2k + 1) (k + 1)3
i2 = ¶ . (.)
i =1
6 3

Поэтому
n k  ‹2
2 i
k x̄k k2 = x̄k(i)
P P
= 1− =
i =1 i =1
k+1
k k
2 P 1 P
=k− i+ 2
i2 ¶
k + 1 i =1 (k + 1) i =1
2 k(k + 1) 1 (k + 1)3 1
¶k− · + 2
· = (k + 1). (.)
k+1 2 (k + 1) 3 3

Обозначим Rk,n = {x ∈ Rn | x (i) = 0, k + 1 ¶ i ¶ n}. Таким образом,


R есть подпространство в Rn , в точках которого только первые k
k,n

компонент не равны нулю. Из аналитической записи функций { fk }


легко увидеть, что для всех x ∈ Rk,n верно равенство
fp (x) = fk (x), p = k, …, n.
Зафиксируем такое p, что 1 ¶ p ¶ n.
Лемма ... Пусть x0 = 0. Тогда для любой последовательности
p
{xk }k=0 , удовлетворяющей условию
def
xk ∈ Lk = Lin fp′ (x0 ), …, fp′ ,


имеет место включение Lk ⊆ Rk,n .

Доказательство. Так как x0 = 0, мы имеем fp′ (x0 ) = − L/4e1 ∈ R1,n .


Отсюда следует, что L1 ≡ R1,n .


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Пусть Lk ⊆ Rk,n для некоторого k < p. Поскольку матрица A p трех-


диагональна, для любого x ∈ Rk,n выполняется включение fp′ (x) ∈
∈ Rk+1,n . Таким образом, Lk+1 ⊆ Rk+1,n , и лемма доказана по индук-
ции.

Следствие ... Для любой такой последовательности точек


p
{xk }k=0 , что x0 = 0 и xk ∈ Lk , имеет место неравенство

fp (xk ) ¾ fk∗ .

Доказательство. Действительно, xk ∈ Lk ⊆ Rk,n . Поэтому fp (xk ) =


= fk (xk ) ¾ fk∗ .

Теперь мы можем доказать основное утверждение этого пункта.

Теорема ... Для любого k, 1 ¶ k ¶ 1/2(n − 1), и любого x0 ∈ Rn


найдется такая функция f ∈ F L∞,1 (Rn ), что для любого метода пер-
вого порядка M , удовлетворяющего предположению .., выполня-
ются неравенства
3Lk x0 − x ∗ k2
f (xk ) − f ∗ ¾ ,
32(k + 1)2
1
k xk − x ∗ k2 ¾ k x0 − x ∗ k2 ,
8

где x ∗ –– точка минимума функции f (x), а f ∗ = f (x ∗ ).

Доказательство. Очевидно, что методы этого типа инвариант-


ны по отношению к преобразованию сдвига в пространстве пере-
менных. Поэтому последовательность точек, которая формируется
таким методом для функции f (x) начиная с произвольного x0 ,
представляет собой не что иное, как сдвиг последовательности,
получаемой для f¯(x) = f (x + x0 ) при старте из начала координат.
Таким образом, можно предположить, что x0 = 0.
Докажем первое неравенство. Для этого зафиксируем k и при-
меним метод M для минимизации функции f (x) = f2k+1 (x). Тогда
x ∗ = x̄2k+1 и f ∗ = f2k

+1
. Используя следствие .., заключаем, что

f (xk ) ≡ f2k+1 (xk ) = fk (xk ) ¾ fk∗ .


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

Так как x0 = 0, в силу соотношений (.) и (.) получаем оценку


L 1 1
 
f (xk ) − f ∗ −1 + + 1 −
8 k+1 2k + 2 3 1
¾ = L· .
k x0 − x ∗ k2 1 8 4(k + 1)2
(2k + 2)
3
Докажем второе неравенство. Поскольку xk ∈ Rk,n и x0 = 0, мы по-
лучаем
2k +1 2k +1  ‹2
(i) 2 i
k xk − x ∗ k2 ¾
P P
x̄2k +1
= 1 − =
i = k +1 i = k +1
2k + 2
2k +1 2k +1
1 P 1 P
=k+1− i+ i2.
k + 1 i = k +1 4(k + 1)2 i = k +1

Из неравенства (.) следует, что


2k +1
P 1
i2 =

(2k + 1)(2k + 2)(4k + 3) − k(k + 1)(2k + 1) =
i = k +1
6
1
= (k + 1)(2k + 1)(7k + 6).
6
Поэтому, используя соотношение (.), мы получаем

1 (3k + 2)(k + 1) (2k + 1)(7k + 6)


k xk − x ∗ k2 ¾ k + 1 − · + =
k+1 2 24(k + 1)
2
(2k + 1)(7k + 6) k 2k + 7k + 6
= − = ¾
24(k + 1) 2 24(k + 1)
2
2k + 7k + 6 1
¾ k x0 − x̄2k+1 k2 ¾ k x0 − x ∗ k2 .
16(k + 1)2 8

Приведенная теорема верна только в предположении, что число


шагов метода не слишком велико по сравнению с размерностью
пространства (k ¶ (1/2)(n − 1)). Границы сложности такого типа
называются равномерными по размерности пространства перемен-
ных. Очевидно, что они информативны для очень больших задач, в
которых нет возможности ждать даже до завершения n-й итерации
метода. Однако для задач с небольшой размерностью эти границы
также дают некоторую дополнительную информацию. Во-первых,
они описывают потенциальную эффективность численных мето-
дов на начальном этапе процесса минимизации. И во-вторых, они


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

предупреждают нас о том, что без прямого использования конеч-


номерных свойств выпуклых множеств мы не сможем улучшить
границы сложности для любой мыслимой численной схемы.
Заканчивая пункт, отметим, что полученная нижняя граница для
значения целевой функции представляется довольно оптимистичной.
В самом деле, после выполнения ста итераций мы можем уменьшить
ошибку начального приближения по функции в 104 раз. Однако воз-
можное поведение точек минимизирующей последовательности разо-
чаровывает: сходимость к оптимальному решению может оказать-
ся сколь угодно медленной. Так как это нижняя граница сложности,
данная неприятность неустранима для рассматриваемого класса за-
дач. Единственное, что можно попытаться сделать, это найти другие
классы, в которых ситуация окажется лучше. Следующий пункт и
посвящен этой цели.

... Сильно выпуклые функции


Итак, мы ищем некое сужение функционального класса F L1,1 (Rn ),
при котором можно гарантировать приемлемую скорость сходимо-
сти к единственному решению задачи минимизации
minn f (x), f ∈ F 1 (Rn ).
x ∈R

Вспомним, что в п. .. была доказана линейная скорость сходимо-


сти градиентного метода для некой малой окрестности точки невы-
рожденного локального минимума. Попытаемся придать предполо-
жению о невырожденности глобальный характер. А именно, пред-
положим, что существует такая константа µ > 0, что для любого x̄,
f ′ ( x̄) = 0, и любого x ∈ Rn выполнено неравенство
1
f (x) ¾ f ( x̄) + µk x − x̄ k2 .
2
Пользуясь теми же рассуждениями, что и в п. .., мы получаем
класс сильно выпуклых функций.
Определение ... Непрерывно дифференцируемая функция f (x)
называется сильно выпуклой в Rn (обозначение: f ∈ Sµ1 (Rn )), если
найдется такая константа µ > 0, что для любых x, y ∈ Rn выполнено
неравенство
1
f ( y) ¾ f (x) + f ′ (x), y − x + µk y − x k2 . (.)

2

“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

Константа µ называется параметром сильной выпуклости функ-


ции f .
Мы будем также рассматривать классы функций Sµk,l ,L (Q); здесь
индексы k, l и L имеют тот же смысл, что и для класса C Lk,l (Q).
Выпишем некоторые свойства сильно выпуклых функций.
Теорема ... Если f ∈ Sµ1 (Rn ), и f ′ (x ∗ ) = 0, то
1
f (x) ¾ f (x ∗ ) + µk x − x ∗ k2
2
для всех x ∈ Rn .

Доказательство. Так как f ′ (x ∗ ) = 0, в силу неравенства (.) для


любого x ∈ Rn имеет место соотношение
1
f (x) ¾ f (x ∗ ) + f ′ (x ∗ ), x − x ∗ + µk x − x ∗ k2 =

2
1
= f (x ∗ ) + µk x − x ∗ k2 .
2

Посмотрим, что происходит с суммой сильно выпуклых функций.


Лемма ... Если f1 ∈ Sµ11 (Rn ), f2 ∈ Sµ12 (Rn ) и α, β ¾ 0, то
1
f = α f1 + β f2 ∈ Sαµ 1 +βµ2
(Rn ).

Доказательство. Для любого x, y ∈ Rn имеем


1
f1 ( y) ¾ f1 (x) + f1′ (x), y − x + µ1 k y − x k2 ,

2
1
f2 ( y) ¾ f2 (x) + f2 (x), y − x + µ2 k y − x k2 .


2
Остается сложить эти равенства, умножив их соответственно на α
и β.

Заметим, что класс S01 (Rn ) совпадает с F 1 (Rn ). Поэтому сумма


выпуклой функции с сильно выпуклой есть сильно выпуклая функ-
ция с тем же параметром выпуклости.
Приведем несколько эквивалентных определений сильно выпук-
лых функций.


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Пусть функция f непрерывно дифференцируема. То-


гда оба приведенных ниже условия, выполненные при всех x, y ∈ Rn и
α ∈ [0, 1], эквивалентны включению f ∈ Sµ1 (Rn ):

f (x) − f ′ ( y), x − y ¾ µk x − y k2 ,


(.)

µ
α f (x) + (1 − α) f ( y) ¾ f (α x + (1 − α) y) + α(1 − α) k x − y k2 . (.)
2

Доказательство этого утверждения проводится аналогично дока-


зательству теоремы .., и мы оставляем его читателю в качестве
упражнения.
Весьма полезным представляется следующее утверждение.
Теорема ... Если f ∈ Sµ1 (Rn ), то для любых x и y из Rn выпол-
няются неравенства
1
f ( y) ¶ f (x) + f ′ (x), y − x + k f ′ (x) − f ′ ( y) k2 , (.)



1
f (x) − f ′ ( y), x − y ¶ k f ′ (x) − f ′ ( y) k2 .


(.)

µ

Доказательство. Зафиксируем некоторую точку x ∈ Rn . Рассмот-


рим функцию
ϕ ( y) = f ( y) − f ′ (x), y ∈ Sµ1 (Rn ).

Поскольку ϕ ′ (x) = 0, в силу неравенства (.) для любого y ∈ Rn


получаем
h 1 i
ϕ (x) = min ϕ (υ) ¾ min ϕ ( y) + ϕ ′ ( y), υ − y + µkυ − y k2 =

υ υ 2
1
= ϕ ( y) − kϕ ′ ( y) k2 ,

а это есть в точности неравенство (.). Складывая две записи
неравенства (.) с переставленными x и y, получаем неравен-
ство (.).

В заключение приведем условие второго порядка для класса


Sµ1 (Rn ).

Теорема ... Дважды непрерывно дифференцируемая функция f


лежит в классе Sµ2 (Rn ) тогда и только тогда, когда для любого


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

x ∈ Rn выполняется условие
f ′′ (x)  µIn . (.)
Доказательство. легко провести, применяя неравенство (.).
Рассмотрим два примера сильно выпуклых функций.
Пример ... . f (x) = 1/2k x k2 принадлежит классу S12 (Rn ), так
как f ′′ (x) = In .
. Пусть симметрическая матрица A удовлетворяет условию µIn 
 A  LIn . Тогда
1 1,1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉 ∈ Sµ∞,1 n n
,L (R ) ⊂ Sµ,L (R ),
2
поскольку f ′′ (x) = A. Другие примеры можно получить как сумму
выпуклых и сильно выпуклых функций.
Наиболее интересным функциональным классом для нас служит
1,1
Sµ,L (Rn ). Этот класс описывается следующими неравенствами:

f (x) − f ′ ( y), x − y ¾ µk x − y k2 ,


(.)

k f ′ (x) − f ′ ( y) k ¶ Lk x − y k. (.)
Значение Q f = L/µ ¾ 1 называется числом обусловленности функ-
ции f .
Оказывается, неравенство (.) можно усилить, используя до-
полнительную информацию (.).
Теорема ... Если f ∈ Sµ1,1 n n
,L (R ), то для любых x, y ∈ R выполня-
ется неравенство
µL
f ′ (x) − f ′ ( y), x − y ¾ k x − y k2 +


µ+L
1
=+ k f ′ (x) − f ′ ( y) k2 . (.)
µ+ L

Доказательство. Обозначим ϕ (x) = f (x) − 1/2µk x k2 . Тогда ϕ ′ (x) =


= f ′ (x) − µ x; отсюда в силу неравенств (.) и (.) получаем вклю-
чение ϕ ∈ F L1,1 n
−µ (R ). Если µ = L, то неравенство (.) доказано. Ес-
ли µ < L, то из неравенства (.) получаем
1
kϕ ′ (x) − ϕ ′ ( y) k2 ,


ϕ (x) − ϕ ′ ( y), y − x ¾

L−µ


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

что в точности эквивалентно неравенству (.).

... Нижние границы аналитической сложности


для класса Sµ∞,1 n
,L (R )
Получим нижние границы аналитической сложности для задач
1,1
безусловной минимизации функций из класса Sµ∞,1 n n
,L (R ) ⊂ Sµ,L (R ).
Рассмотрим следующий класс задач.

Модель: f (x) → min x ∈Rn , f ∈ Sµ∞,1 n


,L (R ), µ > 0.
Оракул: локальный черный ящик первого порядка.
Приближенное решение:
x̄ : f ( x̄) − f ∗ ¶ ǫ , k x̄ − x ∗ k2 ¶ ǫ .

Как и в предыдущем пункте, мы рассматриваем методы, удовле-


творяющие предположению ... Будем искать нижние границы
сложности через число обусловленности Q f = L/µ нашей задачи.
Заметим, что в описании нашего класса задач ничего не сказано
о размерности пространства переменных. Поэтому формально мы
считаем, что этот класс также включает в себя бесконечномерные
задачи.
Мы собираемся привести пример некоторой плохой функции,
определенной в бесконечномерном пространстве. Можно было
бы провести доказательство и в конечномерном пространстве, но
соответствующие рассуждения оказались бы более сложными.
Рассмотрим пространство R∞ ≡ l2 –– пространство всех последо-
вательностей x = {x (i) }∞
i =1 с конечной нормой

∞ 2
k x k2 =
P
x (i) < ∞.
i =1

Выберем некоторые параметры µ > 0 и Q f > 1, определяющие сле-


дующую функцию:

µ(Q f − 1)
§ ∞ ª
2 µ
(x (1) )2 +
P
fµ,Q f (x) = x (i) − x (i+1) − 2x (1) + k x k2 .
8 i =1
2


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

Введем матрицу
 
2 −1 0 0
−1 2 −1 0
 
A= .. 
 0 −1 2 .
.. .. 
0 0 . .

Тогда f ′′ (x) = ((µ(Q f − 1))/4)A + µI, где I –– единичный оператор в


R∞ . В предыдущем пункте было установлено, что 0  A  4I. Поэтому
µ I  f ′′ (x)  (µ(Q f − 1) + µ)I = µQ f I.

Это означает, что fµ,Q f ∈ Sµ∞,1 ∞


,µQ f (R ). Заметим, что число обусловлен-
ности функции fµ,Q f равно
µQ f
Q fµ,Q = = Qf.
f µ
Найдем минимум функции fµ,µQ f . Условия оптимальности перво-
го порядка
 µ(Q − 1) ‹ µ(Q f − 1)
f
fµ′,µQ f (x) ≡ A + µI x − e1 = 0
4 4
можно записать как
 ‹
4
A+ x = e1 .
Qf − 1

Координатная форма этого уравнения выглядит так:


Q f + 1 (1)
2 x − x (2) = 1,
Qf − 1
(.)
Q f + 1 (k)
x (k+1) − 2 x + x (k−1) = 0, k = 2, …
Qf − 1

Пусть q есть наименьший корень уравнения


Qf + 1
q2 − 2 q + 1 = 0,
Qf − 1
p
Qf − 1
который равен q = p . Тогда последовательность (x ∗ )(k) = q k ,
Qf + 1
k = 1, 2, … , удовлетворяет системе (.). Таким образом, мы при-
ходим к следующему результату.


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Для любого x0 ∈ R∞ и произвольных констант


∞,1
µ > 0 и Q f > 1 найдется такая функция f ∈ Sµ,µQ (R∞ ), что для
f
любого метода первого порядка M , удовлетворяющего предположе-
нию .., верны оценки
‚p Œ2k
Qf − 1
k xk − x ∗ k2 ¾ p k x0 − x ∗ k2 ,
Qf + 1
‚p Œ2k
µ Qf − 1

f (xk ) − f ¾ k x0 − x ∗ k2 ,
2
p
Qf + 1
где x ∗ –– точка минимума функции f и f ∗ = f (x ∗ ).
Доказательство. В самом деле, предположим, что x0 = 0. Выберем
f (x) = fµ,µQ f (x). Тогда
∞ ∞
q2
k x0 − x ∗ k2 = [(x ∗ )(i) ]2 =
P P
q 2i = 2
.
i =1 i =1 1−q
Поскольку fµ′′,µQ f (x) –– трехдиагональный оператор, а fµ′,µQ f (0) = e1 ,
мы заключаем, что xk ∈ Rk,∞ . Поэтому
∞ ∞
q2(k+1)
k xk − x ∗ k2 ¾
P P
[(x ∗ )(i) ]2 = q 2i = 2
= q 2k k x0 − x ∗ k2 .
i = k +1 i = k +1 1−q
Вторая оценка в утверждении теоремы следует из первой и из
теоремы ...

... Градиентный метод


Проверим, как работает градиентный метод, на задаче
minn f (x)
x ∈R
1,1
с функцией f ∈ F L (Rn ).
Вспомним, что схема градиентного метода
выглядит следующим образом.
Градиентный метод
. Выберем x0 ∈ Rn .
. k-я итерация (k ¾ 0).
a) Вычислим f (xk ) и f ′ (xk ).
б) Найдем xk+1 = xk − hk f ′ (xk ) (см. в § . выбор
правила длины шага).


“Nesterov-final” — // — : — page  — #

§ .. Минимизация гладких функций

В этом пункте мы изучим простейший вариант градиентной схе-


мы с hk = h > 0. Можно показать, что для всех других приемлемых
правил длины шага скорость сходимости метода такая же. Обозна-
чим через x ∗ точку оптимума нашей задачи, и пусть f ∗ = f (x ∗ ).
Теорема ... Пусть f ∈ F L1,1 (Rn ) и 0 < h < 2/ L. Тогда градиент-
ный метод образует последовательность {xk }, которая сходится
как
2 f (x0 ) − f ∗ k x0 − x ∗ k2

f (xk ) − f ∗ ¶ .
2k x0 − x ∗ k2 + k · h(2 − Lh) · f (x0 ) − f ∗

Доказательство. Введем обозначение rk = k xk − x ∗ k. Тогда

rk2+1 = k xk − x ∗ − hf ′ (xk ) k2 =
= rk2 − 2h f ′ (xk ), xk − x ∗ + h2 k f ′ (xk ) k2 ¶

2
 
¶ rk2 − h − h k f ′ (xk ) k2
L
(здесь мы использовали неравенство (.) и условие f ′ (x ∗ ) = 0). По-
этому rk ¶ r0 . В силу неравенства (.) получаем
L
f (xk+1) ¶ f (xk ) + f ′ (xk ), xk+1 − xk + k xk+1 − xk k2 =

2
= f (xk ) − ωk f ′ (xk ) k2 ,

где ω = h(1 − (L/2)hr). Обозначим ∆k = f (xk ) − f ∗ . Тогда


∆k ¶ f ′ (xk ), xk − x ∗ ¶ r0 k f ′ (xk ) k.

Отсюда следует, что ∆k+1 ¶ ∆k − (ω/r02 )∆2k . Таким образом,


1 1 ω ∆ 1 ω
¾ + 2· k ¾ + 2.
∆k+1 ∆k r0 ∆k+1 ∆k r0

Складывая эти неравенства, получаем


1 1 ω
¾ + 2 (k + 1).
∆k+1 ∆0 r0

Для того чтобы выбрать оптимальную длину шага, нужно мак-


симизировать ϕ (h) = h(2 − Lh) как функцию от h. Из условия оп-
тимальности первого порядка ϕ ′ (h) = 2 − 2Lh = 0 находим значение


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

h∗ = 1/ L. В этом случае мы получаем следующую оценку эффектив-


ности градиентного метода:
2L( f (x0 ) − f ∗ )k x0 − x ∗ k2
f (xk ) − f ∗ ¶ . (.)
2Lk x0 − x ∗ k2 + k · ( f (x0 ) − f ∗ )
Далее, в силу неравенства (.) имеет место соотношение
L L
f (x0 ) ¶ f ∗ + f ′ (x ∗ ), x0 − x ∗ + k x0 − x ∗ k2 = f ∗ + k x0 − x ∗ k2 .


2 2
Поскольку правая часть неравенства (.) возрастает с ростом
f (x0 ) − f ∗ , мы получаем следующий результат.
Следствие ... Если h = 1/ L и f ∈ F L1,1 (Rn ), то
2Lk x0 − x ∗ k2
f (xk ) − f ∗ ¶ . (.)
k+4
Оценим эффективность градиентного метода на классе сильно
выпуклых функций.
Теорема ... Если f ∈ Sµ1,1 n
,L (R ) и 0 < h ¶ 2/(µ + L), то градиент-
ный метод образует такую последовательность {xk }, что
2hµ L k
 
k xk − x ∗ k2 ¶ 1 − k x0 − x ∗ k2 .
µ+L
Если h = 2/(µ + L), то
 Q − 1 ‹k
∗ f
k xk − x k ¶ k x0 − x ∗ k,
Qf + 1
 Q − 1 ‹2k
L f
f (xk ) − f ∗ ¶ k x0 − x ∗ k2 ,
2 Qf + 1
где Q f = L/µ.
Доказательство. Введем обозначение rk = k xk − x ∗ k. Тогда
rk2+1 = k xk − x ∗ − hf ′ (xk ) k2 =
= rk2 − 2h f ′ (xk ), xk − x ∗ + h2 k f ′ (xk ) k2 ¶


 ‹  ‹
2hµ L 2 2
¶ 1− rk + h h − k f ′ (xk ) k2
µ+L µ+ L
(здесь мы использовали неравенство (.) и условие f ′ (x ∗ ) = 0).
Последнее неравенство в утверждении теоремы следует из преды-
дущего и из неравенства (.).


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

Вспомним, что в п. .. (теорема ..) мы уже рассматривали


длину шага h = 2/(µ + L) и установили линейную скорость сходимо-
сти градиентного метода. Но это был только локальный результат.
Сравнивая скорость сходимости градиентного метода с нижни-
ми границами сложности (теоремы .. и ..), можно увидеть,
что они далеки от наших нижних оценок сложности для классов
1,1 1,1
F L (Rn ) и Sµ,L (Rn ). Также следует отметить, что на этих классах
задач стандартные методы безусловной минимизации (методы со-
пряженных градиентов, методы переменной метрики) также имеют
плохую оценку глобальной эффективности. Оптимальные методы
минимизации гладких выпуклых и сильно выпуклых функций будут
рассмотрены в следующем параграфе.

§ .. Оптимальные методы


Оптимальные методы. Выпуклые множества. Задача условной минимизации.
Градиентное отображение. Методы минимизации на простых множествах.

... Оптимальные методы


Рассмотрим задачу безусловной оптимизации
minn f (x),
x ∈R

где f –– сильно выпуклая функция: f ∈ Sµ1,1 n


,L (R ), µ ¾ 0. Формально
это семейство классов содержит также класс выпуклых функций с
1,1
липшицевым градиентом (S0,L (Rn ) ≡ F L1,1 (Rn )).
В предыдущем параграфе были доказаны следующие оценки эф-
фективности градиентного метода:
1,1 2Lk x0 − x ∗ k2
F L (R n ) : f (xk ) − f ∗ ¶ ;
k+4
 ‹2k
1,1 L L−µ
Sµ,L (Rn ) : f (xk ) − f ∗ ¶ k x0 − x ∗ k2 .
2 L+µ
Эти оценки на порядок хуже нижних границ сложности (см. тео-
ремы .. и ..). Разумеется, это не означает, что градиентный
метод в общей ситуации не является оптимальным, поскольку ниж-
ние границы могут быть слишком оптимистичными. Однако мы
увидим, что в нашем случае нижние границы являются точны-
ми (с точностью до постоянного множителя). Мы докажем это


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

построением метода, который имеет соответствующие границы


эффективности.
Вспомним, что градиентный метод формирует релаксационную
последовательность:
f (xk+1) ¶ f (xk ).
Это обстоятельство является ключевым для обоснования его ско-
рости сходимости (теорема ..). Однако в теории выпуклой оп-
тимизации оптимальные методы никогда не основываются на ре-
лаксации. Во-первых, для некоторых классов задач это свойство
оказывается слишком дорогим. Во-вторых, схемы оптимальных
методов и их оценки эффективности выводятся из некоторых гло-
бальных топологических свойств выпуклых функций. С этой точки
зрения, принцип релаксации оказывается малоинтересным по при-
чине своей локальности.
Схемы оптимальных методов и их оценки эффективности осно-
вываются на понятии оценивающих последовательностей.
Определение ... Последовательности {ϕk (x)}∞ ∞
k =0 и {λk }k =0 , λk ¾
¾ 0, называются оценивающими последовательностями функции
f (x), если
λk → 0

и для любого x ∈ Rn и всех k ¾ 0 верно неравенство


ϕk (x) ¶ (1 − λk ) f (x) + λk ϕ0 (x). (.)
Следующее утверждение объясняет, зачем это нужно.
Лемма ... Если для некоторой последовательности {xk } выпол-
няется неравенство
f (xk ) ¶ ϕk∗ ≡ minn ϕk (x), (.)
x ∈R

то f (xk ) − f ∗ ¶ λk ϕ0 (x ∗ ) − f ∗ → 0.
 

Доказательство. Действительно,

f (xk ) ¶ ϕk∗ = minn ϕk (x) ¶ minn (1 − λk ) f (x) + λk ϕ0 (x) ¶


 
x ∈R x ∈R
¶ (1 − λk ) f (x ∗ ) + λk ϕ0 (x ∗ ).


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

Таким образом, для любой последовательности {xk }, удовлетво-


ряющей условию (.), можно получить ее скорость сходимости
непосредственно из скорости сходимости последовательности {λk }.
Однако на данном этапе у нас имеется два серьезных вопроса. Пер-
вый заключается в том, как строить оценивающие последователь-
ности. А второй –– как обеспечить выполнение условия (.). От-
ветим на первый, более простой вопрос.
Лемма ... Предположим, что
) f ∈ Sµ1,1 n
,L (R ),
) ϕ0 (x) произвольная функция на Rn ,
) { yk }∞
k =0
произвольная последовательность в Rn ,

P∞
) {αk }k=0 : αk ∈ (0, 1), k =0 αk = ∞,
) λ0 = 1.
Тогда последовательности {ϕk (x)}∞ ∞
k =0 и {λk }k =0 , рекуррентно опре-
деляемые соотношениями
λk+1 = (1 − αk )λk ,
ϕk+1 (x) = (1 − αk )ϕk (x) +
µ
+ αk [ f ( yk ) + 〈 f ′ ( yk ), x − yk 〉 + k x − yk k2 ], (.)
2
являются оценивающими последовательностями.

Доказательство. В самом деле, ϕ0 (x) ¶ (1 − λ0 ) f (x) + λ0 ϕ0 (x) ≡


≡ ϕ0 (x). Далее, пусть неравенство (.) верно для некоторого
k ¾ 0. Тогда
ϕk+1 (x) ¶ (1 − αk )ϕk (x) + αk f (x) =
= (1 − (1 − αk )λk ) f (x) + (1 − αk )(ϕk (x) − (1 − λk ) f (x)) ¶
¶ (1 − (1 − αk )λk ) f (x) + (1 − αk )λk ϕ0 (x) =
= (1 − λk+1 ) f (x) + λk+1 ϕ0 (x).
Остается отметить, что условие  обеспечивает выполнение условия
λk → 0.

Таким образом, данное утверждение предоставляет некие прави-


ла для построения оценивающих последовательностей. Теперь у нас
имеются две управляющие последовательности, которые помогают


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

добиться выполнения неравенства (.). Заметим, что начальную


функцию ϕ0 (x) можно также выбирать произвольно. Возьмем в ка-
честве ϕ0 (x) простую квадратичную функцию. Тогда можно полу-
чить точное описание динамики изменения ϕk∗ .
γ
Лемма ... Пусть ϕ0 (x) = ϕ0∗ + 0 k x − υ0 k2 . Тогда процесс (.)
2
сохраняет каноническую форму функций {ϕk (x)}:
γk
ϕk (x) ≡ ϕk∗ + k x − υk k2 , (.)
2
где последовательности {γk }, {υk } и {ϕk∗ } определяются следующим
образом:

γk+1 = (1 − αk )γk + αk µ,
1 
(1 − αk )γk υk + αk µ yk − αk f ′ ( yk ) ,

υ k +1 =
γk+1
α2k
ϕk∗+1 = (1 − αk )ϕk + αk f ( yk ) − k f ′ ( yk ) k2 +
2γk+1
α (1 − αk )γk µ
 
+ k k yk − υk k2 + f ′ ( yk ), υk − yk .

γk+1 2

Доказательство. Заметим, что ϕ0′′ (x) = γ0 In . Докажем, что ϕk′′ (x) =


= γk In для всех k ¾ 0. Действительно, если это условие выполнено
при некотором k, то
ϕk′′+1 (x) = (1 − αk )ϕk′′ (x) + αk µ In = (1 − αk )γk + αk µ In ≡ γk+1 In ,


откуда и следует каноническая форма (.) функций ϕk (x).


Далее,
γk
ϕk+1 (x) = (1 − αk ) ϕk∗ + k x − υk k2 +

2
µ
+ αk [ f ( yk ) + f ′ ( yk ), x − yk + k x − yk k2 ].

2
Поэтому уравнение ϕk′ +1 (x)
= 0, которое является условием опти-
мальности первого порядка для функции ϕk+1 (x), переписывается
в виде
(1 − αk )γk (x − υk ) + αk f ′ ( yk ) + αk µ(x − yk ) = 0.
Отсюда получаем уравнение для точки минимума υk+1 функции
ϕk+1 (x).


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

Наконец, вычислим ϕk∗+1 . Принимая во внимание правило рекур-


сии для последовательности {ϕk (x)}, имеем

γk+1
ϕk∗+1 + k yk − υk+1 k2 = ϕk+1 ( yk ) =
2
γ
 
= (1 − αk ) ϕk∗ + k k yk − υk k2 + αk f ( yk ). (.)
2

Заметим, что в силу соотношения для υk+1 справедливо равенство


1 
(1 − αk )γk (υk − yk ) − αk f ′ ( yk ) .

υk+1 − yk =
γk+1

Поэтому

γk+1 1
h
kυk+1 − yk k2 = (1 − αk )2 γ2k kυk − yk k2 −
2 2γk+1
i
− 2αk (1 − αk )γk f ′ ( yk ), υk − yk + α2k k f ′ ( yk ) k2 .

Остается подставить это соотношение в формулу (.), обратив


внимание на то, что множитель при k yk − υk k2 в этом выражении
равен
(1 − αk )γk
 ‹
γ 1 γ
(1 − αk ) k − (1 − αk )2 γ2k = (1 − αk ) k 1 − =
2 2γk+1 2 γk+1
γk αk µ
= (1 − αk ) · .
2 γk+1

Теперь ситуация прояснилась, и мы близки к тому, чтобы выпи-


сать алгоритмическую схему. В самом деле, предположим, что у нас
уже имеется такое xk , что

ϕk∗ ¾ f (xk ).

Тогда из предыдущей леммы следует, что

α2k
ϕk∗+1 ¾ (1 − αk ) f (xk ) + αk f ( yk ) − k f ′ ( yk ) k2 +
2γk+1
α (1 − αk )γk

+ k

f ( yk ), υk − yk .
γk+1


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Поскольку f (xk ) ¾ f ( yk ) + 〈 f ′ ( yk ), xk − yk 〉, получаем следующую


оценку:

α2k
ϕk∗+1 ¾ f ( yk ) − k f ′ ( yk ) k2 +
2γk+1
α γ
+ (1 − αk ) f ′ ( yk ), k k (υk − yk ) + xk − yk .


γk+1

Посмотрим на это неравенство. Мы хотим, чтобы выполнялось усло-


вие ϕk∗+1 ¾ f (xk+1). Напомним, что мы можем обеспечить выполне-
ние неравенства

1
f ( yk ) − k f ′ ( yk ) k2 ¾ f (xk+1)
2L

разными способами. Самым простым будет сделать один градиент-


ный шаг:
xk+1 = yk − hk f ′ (xk ),

hk = 1/ L (см. неравенство (.)). Определим αk ∈ (0, 1) из уравнения

Lα2k = (1 − αk )γk + αk µ (= γk+1 ).

Тогда α2k /2γk+1 = 1/2L и можно заменить предыдущее неравенство


следующим:
α γ
ϕk∗+1 ¾ f (xk+1) + (1 − αk ) f ′ ( yk ), k k (υk − yk ) + xk − yk .


γk+1

Теперь можно использовать свободу выбора yk . Найдем его из урав-


нения
αk γk
(υk − yk ) + xk − yk = 0.
γk+1

Мы получим
αk γk υk + γk+1 xk
yk = .
γk + αk µ

Таким образом, мы приходим к следующему методу.


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

Общая схема оптимального метода (.)


. Выберем x0 ∈ Rn и γ0 > 0. Положим υ0 = x0 .
. k-я итерация (k ¾ 0).
а) Вычислим αk ∈ (0, 1) из уравнения
Lα2k = (1 − αk )γk + αk µ.
Положим γk+1 = (1 − αk )γk + αk µ.
б) Выберем
αk γk υk + γk+1 xk
yk =
γk + αk µ
и вычислим f ( yk ) и f ′ ( yk ).
в) Найдем такое xk+1 , что
1
f (xk+1 ) ¶ f ( yk ) − k f ′ ( yk ) k2
2L
(выбор правила длины шага см. в п. ..).
(1 − αk )γk υk + αk µ yk − αk f ′ ( yk )
г) Положим υk+1 = .
γk+1

Отметим, что на шаге в) этой схемы можно выбирать любую


точку xk+1 , удовлетворяющую неравенству
ω ′
f (xk+1) ¶ f ( yk ) − k f ( yk ) k2
2
с некоторым ω > 0. Тогда константа 1/ω заменяет L в уравнении из
шага а).
Теорема ... Схема (.) формирует такую последовательность
{xk }∞
k =0
, что • ˜
γ0
f (xk ) − f ∗ ¶ λk f (x0 ) − f ∗ + k x0 − x ∗ k2 ,
2
Q k −1
где λ0 = 1 и λk = i =0 (1 − αi ).

Доказательство. Действительно, выберем


ϕ0 (x) = f (x0 ) + γ0 /2k x − υ0 k2 .
Тогда f (x0 ) = ϕ0∗ , и получаем f (xk ) ¶ ϕk∗ по построению данной схе-
мы. Остается использовать лемму ...
Таким образом, для того чтобы оценить скорость сходимости схе-
мы (.), нужно понять, насколько быстро λk стремится к нулю.


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Лемма ... Если в схеме (.) γ0 ¾ µ, то


¨ q ‹k «
µ 4L
λk ¶ min 1 − , p p . (.)
L (2 L + k γ0 )2

Доказательство. В самом деле, если γk ¾ µ, то


γk+1 = Lα2k = (1 − αk )γk + αk µ ¾ µ.
Так как γ0 ¾ µ, мы заключаем, чтоpэто неравенство выполняется для
всех γk . Отсюда следует, что αk ¾ µ/ L, и первое неравенство в фор-
муле (.) доказано.
Далее, докажем, что γk ¾ γ0 λk . Поскольку γ0 = γ0 λ0 , по индукции
получаем, что
γk+1 ¾ (1 − αk )γk ¾ (1 − αk )γ0 λk = γ0 λk+1 .
Поэтому Lα2k = γk+1 ¾ γ0 λk+1 .
p
Введем обозначение ak = 1/ λk . Так как последовательность
{λk } убывающая, мы имеем
p p
λk − λk +1 λk − λk +1
a k +1 − a k = p =p p p ¾
λk λk +1 λk λk +1 ( λk + λk +1 )
q
λk − λk +1 λ − (1 − αk )λk α 1 γ0
¾ = k = pk ¾ .
2 L
p p
2λk λk +1 2λk λk +1 2 λk +1
p
Таким образом, ak ¾ 1 + k /2 γ0 / L, и лемма доказана.
Приведем точное утверждение об оптимальности схемы (.).
Теорема ... Пусть в схеме (.) выполняется условие γ0 = L. То-
гда эта схема генерирует такую последовательность {xk }∞ k =0 , что
¨ «
µ k
q ‹
4
f (xk ) − f ∗ ¶ L min 1− , k x0 − x ∗ k2 .
L (k + 2)2

Это означает, что схема (.) оптимальна для задачи безусловной


минимизации функций из класса Sµ1,1 n
,L (R ), µ ¾ 0.

Доказательство. Приведенное неравенство выводится из соотно-


шения f (x0 ) − f ∗ ¶ L/2k x0 − x ∗ k2 , а также из теоремы .. и лем-
мы ...


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

Пусть µ > 0. Из нижних границ сложности для рассматриваемого


класса функций (см. теорему ..) получаем
‚p Œ2k ‚ Œ
µ Qf − 1 µ 4k
f (xk ) − f ∗ ¾ R2 ¾ exp − p R2 ,
2 2
p
Qf + 1 Qf − 1

где Q f = L/µ и R = k x0 − x ∗ k. Поэтому нижняя граница числа ите-


раций для построения точки xk , удовлетворяющей неравенству
f (xk ) − f ∗ ¶ ǫ , не может быть больше чем
p
Qf − 1h 1 µ
i
k¾ ln + ln + 2 ln R .
4 ǫ 2
Для нашей схемы имеет место оценка
 q ‹k  ‹
∗ 2 µ 2 k
f (xk ) − f ¶ LR 1 − ¶ LR exp − p .
L Qf
p
Поэтому мы гарантируем, что k ¶ Q f ln(1/ǫ ) + ln L + 2 ln R . Та-
 
p
ким образом, основной член в этой оценке Q f ln(1/ǫ ) пропорци-
онален нижней границе. Аналогичное рассуждение можно исполь-
1,1
зовать для класса S0,L (Rn ).

Рассмотрим один их вариантов схемы (.), в котором использу-


ется градиентный шаг для нахождения точки xk+1 .

Схема с постоянным шагом, I (.)


. Выберем x0 ∈ Rn и γ0 > 0. Положим υ0 = x0 .
. k-я итерация (k ¾ 0).
а) Вычислим αk ∈ (0, 1) из уравнения
Lα2k = (1 − αk )γk + αk µ.
Установим γk+1 = (1 − αk )γk + αk µ.
αk γk υk + γk+1 xk
б) Выберем yk = .
γk + αk µ
Вычислим f ( yk ) и f ′ ( yk ).
в) Положим xk+1 = yk − 1/ Lf ′ ( yk ) и
1 
(1 − αk )γk υk + αk µ yk − αk f ′ ( yk ) .

υ k +1 =
γk+1


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Покажем, что эту схему можно переписать в более простой фор-


ме. Для этого заметим, что
1
yk = (α γ υ + γk+1 xk ),
γk + αk µ k k k
1
xk+1 = yk − f ′ ( yk ),
L
1 
(1 − αk )γk υk + αk µ yk − αk f ′ ( yk ) .

υ k +1 =
γk+1
Поэтому
§ ª
1 (1 − αk ) 
(γk + αk µ) yk − γk+1 xk + αk µ yk − αk f ′ ( yk ) =

υ k +1 =
γk+1 αk
§ ª
1 (1 − αk )γk 1 − αk α
= yk + µ yk − xk − k f ′ ( yk ) =
γk+1 αk αk γk+1
1 1 ′
= xk + ( yk − xk ) − f ( yk ) =
αk αk L
1
= xk + (xk+1 − xk ).
αk
Отсюда получаем
1
yk+1 = (α γ υ + γ k +2 x k +1 ) =
γk+1 + αk+1 µ k +1 k +1 k +1
α γ (υ − x k +1 )
= x k +1 + k + 1 k + 1 k + 1 = xk+1 + βk (xk+1 − xk ),
γk+1 + αk+1 µ
где
αk+1 γk+1 (1 − αk )
βk = .
αk (γk+1 + αk+1 µ)
Таким образом, нам удалось избавиться от {υk }. Можно также ис-
ключить и γk . Итак,
α2k L = (1 − αk )γk + µαk ≡ γk+1 .
Поэтому
αk+1 γk+1 (1 − αk ) αk+1 γk+1 (1 − αk )
βk = = =
αk (γk+1 + αk+1 µ) αk (γk+1 + α2k+1 L − (1 − αk+1 )γk+1 )
γk+1 (1 − αk ) α (1 − αk )
= = k2 .
αk (γk+1 + αk+1 L) αk + αk + 1

Заметим также, что α2k+1 = (1 − αk+1 )α2k + q αk+1 , где q = µ/ L, и


α20 L = (1 − α0 )γ0 + µα0 .


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

Последнее соотношение означает, что γ0 можно рассматривать как


функцию от α0 . Таким образом, можно полностью исключить после-
довательность {γk }. Выпишем соответствующую схему.

Схема с постоянным шагом, II (.)


. Выберем x0 ∈ Rn и α0 ∈ (0, 1).
Положим y0 = x0 и q = µ/ L.
. k-я итерация (k ¾ 0).
a) Вычислим f ( yk ) и f ′ ( yk ). Положим
1 ′
xk+1 = yk − f ( yk ).
L
б) Вычислим αk+1 ∈ (0, 1) из уравнения
α2k+1 = (1 − αk+1 )α2k + q αk+1
αk (1 − αk )
и положим βk = ,
α2k + αk+1
yk+1 = xk+1 + βk (xk+1 − xk ).

Скорость сходимости данной схемы можно вывести из теоре-


мы .. и леммы ... Выпишем соответствующее утверждение,
используя α0 в качестве основного параметра.
Теорема ... Если в схеме (.) выполняется условие
q
µ
α0 ¾ , (.)
L
то
¨‚ q Œk «
∗ µ 4L
f (xk ) − f ¶ min 1− , p p ×
L (2 L + k γ0 )2
γ
× f (x0 ) − f ∗ + 0 k x0 − x ∗ k2 ,
 
2
α0 (α0 L − µ)
где γ0 = .
1 − α0
Нет необходимости доказывать эту теорему, поскольку первона-
чальная схема не изменилась. Поменялись только обозначения. В
теореме .. условие (.) эквивалентно неравенству γ0 ¾ µ.


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация


p
Схема (.) становится еще проще, если выбрать α0 = µ/ L (это
соответствует γ0 = µ). Тогда
q p p
µ L− µ
αk = , βk = p p
L L+ µ

для всех k ¾ 0. Таким образом, мы приходим к следующему алгоритму.

Схема с постоянным шагом, III (.)


. Выберем y0 = x0 ∈ Rn .
. k-я итерация (k ¾ 0):
1 ′
xk+1 = yk − f ( yk ),
L
p p
L− µ
yk+1 = xk+1 + p p (x k +1 − x k ).
L+ µ

Однако отметим, что эта схема не работает при µ = 0. С этой точ-


ки зрения, выбор γ0 = L (который изменяет соответствующее значе-
ние α0 ) является более надежным.

... Выпуклые множества


Попытаемся понять, какие задачи условной минимизации мы мо-
жем эффективно решать. Начнем с простейшей задачи, в которой
нет функциональных ограничений:
min f (x),
x ∈Q

где Q –– некоторое множество в пространстве Rn . Возможность ре-


шения этой задачи зависит как от свойств целевой функции, так и
от свойств множества Q. Прежде всего ответим на такой вопрос:
какие множества наиболее естественно соответствуют классу вы-
пуклых функций? Из определения выпуклой функции
f (α x + (1 − α) y) ¶ α f (x) + (1 − α) f ( y) ∀ x, y ∈ Rn , α ∈ [0, 1]
неявным образом следует, что можно проверять это неравенство в
любой точке сегмента [x, y]:

[x, y] = z = α x + (1 − α) y, α ∈ [0, 1] .


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

Таким образом, было бы естественным рассмотреть множество, ко-


торое полностью содержит сегмент [x, y] при условии, что конеч-
ные точки x и y тоже принадлежат этому множеству. Такие множе-
ства называются выпуклыми.
Определение ... Множество Q называется выпуклым, если для
любых x, y ∈ Q и α из [0, 1] выполнено включение
α x + (1 − α) y ∈ Q.

Точка α x + (1 − α) y, где α ∈ [0, 1], называется выпуклой комбина-


цией двух рассматриваемых точек.
По сути мы уже встречались с некоторыми выпуклыми множе-
ствами.
Лемма ... Если f (x) –– выпуклая функция, то для любого β ∈ R1
соответствующие множества уровней
L f (β ) = x ∈ Rn | f (x) ¶ β


являются либо выпуклыми, либо пустыми.

Доказательство. Действительно, пусть x и y лежат в L f (β ). Тогда


f (x) ¶ β и f ( y) ¶ β . Поэтому
f (α x + (1 − α) y) ¶ α f (x) + (1 − α) f ( y) ¶ β .

Лемма ... Пусть функция f (x) выпукла. Тогда ее надграфик


E f = (x, τ) ∈ Rn+1 | f (x) ¶ τ


есть выпуклое множество.

Доказательство. Пусть z1 = (x1 , τ1 ) ∈ E f и z2 = (x2 , τ2 ) ∈ E f . Тогда


для любого α ∈ [0, 1] имеем
zα ≡ αz1 + (1 − α)z2 = (α x1 + (1 − α)x2 , ατ1 + (1 − α)τ2 ),
f (α x1 + (1 − α)x2 ) ¶ α f (x1 ) + (1 − α) f (x2 ) ¶ ατ1 + (1 − α)τ2 .
Таким образом, zα ∈ E f .

Рассмотрим некоторые свойства выпуклых множеств.


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Пусть Q1 ⊆ Rn и Q2 ⊆ Rm –– выпуклые множества и


A (x) –– линейный оператор,
A (x) = Ax + b : Rn → Rm .
Тогда все множества, приведенные ниже, являются выпуклыми:
) пересечение (m = n): Q1 ∩ Q2 = x ∈ Rn | x ∈ Q1 , x ∈ Q 2 ;


) сумма (m = n): Q1 + Q2 = z = x + y | x ∈ Q1 , y ∈ Q2 ;
) прямая сумма: Q1 × Q2 = (x, y) ∈ Rn+m | x ∈ Q1 , y ∈ Q2 ;
) коническая оболочка: K (Q1 ) = z ∈ Rn | z = β x, x ∈ Q1 , β ¾ 0 ;

) выпуклая оболочка:
Conv(Q1 , Q2 ) = z ∈ Rn |z = α x + (1 − α),


y, x ∈ Q1 , y ∈ Q2 , α ∈ [0, 1] ;
) аффинный образ: A (Q1 ) = y ∈ Rm | y = A (x), x ∈ Q1 ;


) аффинный прообраз: A −1 (Q2 ) = {x ∈ Rn | A (x) ∈ Q2 }.


Доказательство. . Если x1 ∈ Q1 ∩ Q2 , x2 ∈ Q1 ∩ Q2 , то [x1 , x2 ] ⊂ Q1 и
[x1 , x2 ] ⊂ Q2 . Поэтому [x1 , x2 ] ⊂ Q1 ∩ Q2 .
. Если z1 = x1 + x2 , x1 ∈ Q1 , x2 ∈ Q2 , и z2 = y1 + y2 , y1 ∈ Q1 , y2 ∈ Q2 , то
αz1 + (1 − α)z2 = (α x1 + (1 − α) y1 )1 + (α x2 + (1 − α) y2 )2 ,
где (·)1 ∈ Q1 и (·)2 ∈ Q2 .
. Если z1 = (x1 , x2 ), x1 ∈ Q1 , x2 ∈ Q2 , и z2 = ( y1 , y2 ), y1 ∈ Q1 , y2 ∈ Q2 ,
то
αz1 + (1 − α)z2 = ((α x1 + (1 − α) y1 )1 , (α x2 + (1 − α) y2 )2 ),
где (·)1 ∈ Q1 и (·)2 ∈ Q2 .
. Если z1 = β1 x1 , x1 ∈ Q1 , β1 ¾ 0, и z2 = β2 x2 , x2 ∈ Q1 , β2 ¾ 0, то для
любого α ∈ [0, 1] имеем
αz1 + (1 − α)z2 = αβ1 x1 + (1 − α)β2 x2 = γ(ᾱ x1 + (1 − ᾱ)x2 ),
где γ = αβ1 + (1 − α)β2 и ᾱ = αβ1 /γ ∈ [0, 1].
. Если z1 = β1 x1 + (1 − β1 )x2 , x1 ∈ Q1 , x2 ∈ Q2 , β1 ∈ [0, 1], и z2 =
= β2 y1 + (1 − β2 ) y2 , y1 ∈ Q1 , y2 ∈ Q2 , β2 ∈ [0, 1], то для любого α ∈
∈ [0, 1] имеем
αz1 + (1 − α)z2 = α(β1 x1 + (1 − β1 )x2 ) +
+ (1 − α)(β2 y1 + (1 − β2 ) y2 ) = ᾱ(β̄1 x1 + (1 − β̄1 ) y1 ) +
+ (1 − ᾱ)(β̄2 x2 + (1 − β̄2 ) y2 ),


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

где ᾱ = αβ1 + (1 − α)β2 и β̄1 = αβ1 /ᾱ, β̄2 = α(1 − β1 )/(1 − ᾱ).
. Если y1 , y2 ∈ A (Q1 ), то y1 = Ax1 + b и y2 = Ax2 + b для некоторых
x1 , x2 ∈ Q1 . Поэтому для y(α) = α y1 + (1 − α) y2 , 0 ¶ α ¶ 1, выполнено
соотношение
y(α) = α(Ax1 + b) + (1 − α)(Ax2 + b) = A(α x1 + (1 − α)x2 ) + b.
Таким образом, y(α) ∈ A (Q1 ).
. Если x1 , x2 ∈ A −1 (Q2 ), то Ax1 + b = y1 и Ax2 + b = y2 для некоторых
y1 , y2 ∈ Q2 . Поэтому для x(α) = α x1 + (1 − α)x2 , 0 ¶ α ¶ 1, имеем

A (x(α)) = A(α x1 + (1 − α)x2 ) + b =


= α(Ax1 + b) + (1 − α)(Ax2 + b) = α y1 + (1 − α) y2 ∈ Q2 .

Приведем несколько примеров выпуклых множеств.


Пример ... . Полупространство x ∈ Rn | 〈a, x 〉 ¶ β –– выпуклое


множество, поскольку линейная функция выпукла.


. Многогранник x ∈ Rn | 〈ai , x 〉 ¶ bi , i = 1, …, m является выпуклым


как пересечение выпуклых множеств.


. Эллипсоид. Пусть A = AT  0. Тогда множество x ∈ Rn | 〈 Ax, x 〉 ¶


¶ r 2 является выпуклым, поскольку функция 〈 Ax, x 〉 выпукла.


Выпишем условия оптимальности для задачи


min f (x), f ∈ F 1 (Rn ), (.)
x ∈Q

где Q –– выпуклое замкнутое множество. Очевидно, что прежнее


условие
f ′ (x) = 0
здесь не работает.
Пример ... Рассмотрим одномерную задачу:
x → min.
x ¾0

1
Здесь x ∈ R , Q = {x | x ¾ 0} и f (x) = x. Заметим, что x ∗ = 0, но
f ′ (x ∗ ) = 1 > 0.


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Пусть f ∈ F 1 (Rn ) и Q есть выпуклое замкнутое мно-


жество. Точка x ∗ является решением задачи (.) тогда и только
тогда, когда

′ ∗
f (x ), x − x ∗ ¾ 0 (.)

для всех x ∈ Q.

Доказательство. В самом деле, если верно неравенство (.), то


f (x) ¾ f (x ∗ ) + f ′ (x ∗ ), x − x ∗ ¾ f (x ∗ )

при всех x ∈ Q.
Пусть x ∗ является решением задачи (.). Предположим, что су-
ществует такая точка x ∈ Q, что

′ ∗
f (x ), x − x ∗ < 0.

Рассмотрим функцию ϕ (α) = f (x ∗ + α(x − x ∗ )), α ∈ [0, 1]. Заметим,


что
ϕ (0) = f (x ∗ ), ϕ ′ (0) = f ′ (x ∗ ), x − x ∗ < 0.

Поэтому при достаточно малых α имеем


f (x ∗ + α(x − x ∗ )) = ϕ (α) < ϕ (0) = f (x ∗ ).
Получили противоречие. Теорема доказана.

Теорема ... Пусть f ∈ Sµ1 (Rn ) и Q есть выпуклое замкнутое


множество. Тогда решение x ∗ задачи (.) существует и единствен-
но.

Доказательство. Пусть x0 ∈ Q. Рассмотрим множество ¯Q̄ = x ∈ Q |




| f (x) ¶ f (x0 ) . Заметим, что задача (.) эквивалентна следующей


min f (x). (.)


x ∈¯Q̄

Однако множество ¯Q̄ ограничено: для всех x ∈ ¯Q̄ имеем


µ
f (x0 ) ¾ f (x) ¾ f (x0 ) + f ′ (x0 ), x − x0 + k x − x0 k2 .

2

Отсюда следует, что k x − x0 k ¶ 2/µk f (x0 ) k.
Таким образом, решение x ∗ задачи (.) (≡ (.)) существует.
Докажем, что оно единственно. Действительно, если x1∗ также есть


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

оптимальное решение задачи (.), то


µ
f ∗ = f (x1∗ ) ¾ f (x ∗ ) + f ′ (x ∗ ), x1∗ − x ∗ + k x1∗ − x ∗ k2 ¾

2
µ
¾ f + k x1∗ − x ∗ k2

2
(здесь мы использовали теорему ..). Отсюда следует, что x1∗ = x ∗ .

... Градиентное отображение


В задачах условной минимизации градиент целевой функции ин-
терпретируется не так, как в задачах без ограничений. В предыду-
щем параграфе уже упоминалось об изменении роли градиента в
условиях оптимальности. Кроме того, из-за возможности получения
недопустимой точки здесь больше нельзя использовать градиент-
ный шаг.
Среди свойств градиента функции f ∈ F L1,1 (Rn ) можно выделить
два основных. Первое заключается в том, что градиентный шаг
уменьшает значение функции на величину, сравнимую с квадратом
нормы градиента:
1 1
 
f x − f ′ (x) ¶ f (x) − k f ′ (x) k2 .
L 2L
Второе свойство выражается неравенством
1
f (x), x − x ∗ ¾ k f ′ (x) k2 .


L
Оказывается, для задач условной минимизации можно ввести но-
вое понятие, которое унаследует наиболее важные свойства гради-
ента.
Определение ... Зафиксируем некоторое γ > 0. Обозначим
h γ i
xQ ( x̄; γ) = arg min f ( x̄) + f ′ ( x̄), x − x̄ + k x − x̄ k2 ,

x ∈Q 2
gQ ( x̄; γ) = γ( x̄ − xQ ( x̄; γ)).
Тогда gQ (γ, x) называется градиентным отображением функции f ,
определенной на множестве Q.
Для Q ≡ Rn имеем
1 ′
xQ ( x̄; γ) = x̄ − f ( x̄), gQ ( x̄; γ) = f ′ ( x̄).
γ


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Таким образом, значение 1/γ можно рассматривать как длину «гра-


диентного» шага
x̄ → xQ ( x̄; γ).
Заметим, что определение градиентного отображения коррект-
но (это следует из теоремы ..). Более того, направление gQ ( x̄; γ)
определено при всех x̄ ∈ Rn , не обязательно принадлежащих Q.
Представим основное свойство градиентного отображения.
Теорема ... Пусть f ∈ Sµ1,1 n n
,L (R ), γ ¾ L и x̄ ∈ R . Тогда для любого
x ∈ Q верно неравенство


f (x) ¾ f (xQ ( x̄; γ)) + gQ ( x̄; γ), x − x̄ +
1 µ
+ k g ( x̄; γ) k2 + k x − x̄ k2 . (.)
2γ Q 2

Доказательство. Введем обознвчения xQ = xQ (γ, x̄), gQ = gQ (γ, x̄), и


пусть
γ
ϕ (x) = f ( x̄) + f ′ ( x̄), x − x̄ + k x − x̄ k2 .

2
′ ′
Тогда ϕ (x) = f ( x̄) + γ(x − x̄) и для любого x ∈ Q выполняется усло-
вие

f ( x̄) − gQ , x − xQ = ϕ ′ (xQ ), x − xQ ¾ 0.

Поэтому
µ
f (x) − k x − x̄ k2 ¾ f ( x̄) + f ′ ( x̄), x − x̄ =


2
= f ( x̄) + f ′ ( x̄), xQ − x̄ + f ′ ( x̄), x − xQ ¾






¾ f ( x̄) + f ( x̄), xQ − x̄ + gQ , x − xQ =
γ
= ϕ (xQ ) − k xQ − x̄ k2 + gQ , x − xQ =


2
1
= ϕ (xQ ) − k gQ k2 + gQ , x − xQ =



1
= ϕ (xQ ) + k gQ k2 + gQ , x − x̄



и ϕ (xQ ) ¾ f (xQ ), так как γ ¾ L.

Следствие ... Пусть f ∈ Sµ1,1 n n


,L (R ), γ ¾ L и x̄ ∈ R . Тогда

1
f (xQ ( x̄; γ)) ¶ f ( x̄) − k g ( x̄; γ) k2 , (.)
2γ Q


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

1 µ
gQ ( x̄; γ), x̄ − x ∗ ¾ k gQ ( x̄; γ) k2 + k x − x̄ k2 . (.)


2γ 2
Доказательство. В самом деле, используя неравенство (.) с
x = x̄, получаем оценку (.). С другой стороны, используя неравен-
ство (.) с x = x ∗ , получаем оценку (.), поскольку f (xQ ( x̄; γ)) ¾
¾ f (x ∗ ).

... Методы минимизации на простых множествах


Покажем, как можно использовать градиентное отображение для
решения следующей задачи:
min f (x),
x ∈Q
1,1
где f ∈ Sµ,L (Rn )
и Q –– выпуклое замкнутое множество. Предполо-
жим, что множество Q устроено достаточно просто, так что для
него явным образом можно вычислить градиентное отображение.
Это предположение верно, например, для положительного ортанта,
для n-мерного прямоугольного параллелепипеда, для симплекса,
для евклидова шара и некоторых других множеств.
Начнем с градиентного метода.

Градиентный метод для простых множеств (.)


. Выберем x0 ∈ Q.
. k-я итерация (k ¾ 0):
xk+1 = xk − hgQ (xk ; L).

Анализ эффективности этой схемы схож с анализом ее варианта


для задачи без ограничений. Приведем пример этих рассуждений.
Теорема ... Пусть f ∈ Sµ1,1 n
,L (R ). Если в схеме (.) h = 1/ L, то

µ k
 
k xk − x ∗ k2 ¶ 1 − k x0 − x ∗ k2 .
L
Доказательство. Обозначим rk = k xk − x ∗ k, gQ = gQ (xk ; L). Тогда,
используя неравенство (.), получим
rk2+1 = k xk − x ∗ − hgQ k2 = rk2 − 2h gQ , xk − x ∗ +h2 k gQ k2 ¶

1 µ 2
   
¶ (1 − hµ)rk2 + h h − k gG k = 1 − rk .
L L


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Заметим, что для шага h = 1/ L выполняется равенство


1
xk+1 = xk − gQ (xk ; L) = xQ (xk ; L).
L
Рассмотрим теперь оптимальные методы. Опишем рассужде-
ния в общих чертах, поскольку они очень схожи с изложенными
в п. ...
Прежде всего определим оценивающую последовательность.
Предположим, что x0 ∈ Q. Определим

γ0
ϕ0 (x) = f (x0 ) + k x − x0 k2 ,
2
1
h
ϕk+1 (x) = (1 − αk )ϕk (x) + αk f (xQ ( yk ; L)) + k gQ ( yk ; L) k2 +
2L
µ
i
+ 〈 gQ ( yk ; L), x − yk 〉 + k x − yk k2 .
2
Поскольку вместо неравенства (.) мы используем теперь (.),
рекуррентные формулы для ϕk (x) выглядят по-другому. Однако ана-
литическая структура этих функций остается неизменной. Поэтому
все результаты о сходимости, описанные в п. .., сохраняются.
Легко увидеть, что оценивающую последовательность {ϕk (x)}
можно переписать как
γk
ϕk (x) = ϕk∗ + k x − υk k2
2
со следующими рекуррентными правилами для γk , υk и ϕk∗ :
γk+1 =(1 − αk )γk + αk µ,
1  
υ k +1 = (1 − αk )γk υk + αk µ yk − αk gQ ( yk ; L) ,
γk+1
α α2k 
ϕk∗+1 = (1 − αk )ϕk + αk f (xQ ( yk ; L)) + k
− k gQ ( yk ; L) k2 +
2L 2γk+1
α (1 − αk )γk µ
 
+ k k yk − υk k2 + gQ ( yk ; L), υk − yk .

γk+1 2

Далее, предполагая, что ϕk∗ ¾ f (xk ), и используя неравенство




f (xk ) ¾ f (xQ ( yk ; L)) + gQ ( yk ; L), xk − yk +
1 µ
+ k g ( y ; L) k2 + k xk − yk k2 ,
2L Q k 2


“Nesterov-final” — // — : — page  — #

§ .. Оптимальные методы

приходим к следующей нижней границе:


ϕk∗+1 ¾ (1 − αk ) f (xk ) + αk f (xQ ( yk ; L)) +
α α2k  α (1 − αk )γk

k
k gQ ( yk ; L) k2 + k

+ − gQ ( yk ; L), υk − yk ¾
2L 2γk+1 γk+1
2
1
 αk 
¾ f (xQ ( yk ; L)) + − k gQ ( yk ; L) k2 +
2L 2γk+1
α γ
+ (1 − αk ) gQ ( yk ; L), k k (υk − yk ) + xk − yk .


γk+1
Таким образом, снова можно выбрать
xk+1 = xQ ( yk ; L),
Lα2k = (1 − αk )γk + αk µ ≡ γk+1 ,
1
yk = (α γ υ + γk+1 xk ).
γk + αk µ k k k
Выпишем соответствующий вариант схемы (.).

Схема с постоянным шагом, II. (.)


Простые множества
. Выберем x0 ∈ Rn и α0 ∈ (0, 1).
Положим y0 = x0 и q = µ/ L.
. k-я итерация (k ¾ 0).
a) Вычислим f ( yk ) и f ′ ( yk ). Положим
xk+1 = xQ ( yk ; L).
б) Вычислим αk+1 ∈ (0, 1) из уравнения
α2k+1 = (1 − αk+1 )α2k + q αk+1
αk (1 − αk )
и положим βk = ,
α2k + αk+1
yk+1 = xk+1 + βk (xk+1 − xk ).

Очевидно, что скорость сходимости этого метода определяется


теоремой ... В данной схеме только точки {xk } являются допусти-
мыми для Q, в то время как точки последовательности { yk }, которые
используются для вычисления градиентного отображения, могут и
не быть допустимыми.


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

§ .. Задача минимизации функций с гладкими


компонентами
Минимаксная задача: градиентное отображение, градиентный метод, опти-
мальные методы. Задачи при функциональных ограничениях. Методы услов-
ной минимизации.

... Минимаксная задача


Зачастую целевая функция в задачах оптимизации состоит из
нескольких компонент. Например, надежность сложных системы
обычно определяется как минимальная надежность ее составных
частей. Задача минимизации при функциональных ограничениях
представляет собой другой пример взаимосвязи нескольких нели-
нейных функций и т. д.
Простейшей задачей такого типа является минимаксная задача.
В этом пункте мы будем рассматривать гладкую минимаксную за-
дачу:
min f (x) = max fi (x), (.)
x ∈Q 1¶i ¶m

где fi ∈ Sµ1,1 n
,L (R ), i = 1, …, m, и Q –– выпуклое замкнутое множе-
ство. Назовем функцию f (x) функцией типа максимума, если она
сформирована компонентами fi (x) (см. задачу (.)). Включение
f ∈ Sµ1,1 n
,L (R ) означает, что все компоненты функции f принадлежат
этому классу.
Заметим, что в общем случае функция f (x) не является диффе-
ренцируемой. Однако при условии, что все fi –– дифференцируемые
функции, можно ввести в рассмотрение объект, который ведет себя
в точности как линейная аппроксимация гладкой функции.
Определение ... Пусть f является функцией типа максимума:
f (x) = max fi (x).
1¶i ¶m

Кусочнолинейная функция
f ( x̄; x) = max fi ( x̄) + 〈 fi′ ( x̄), x − x̄ 〉
 
1¶i ¶m

называется линеаризацией функции f (x) в точке x̄.


Сравним следующий результат с неравенствами (.) и (.).


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

Лемма ... Для любого x ∈ Rn имеют место неравенства


µ
f (x) ¾ f ( x̄; x) + k x − x̄ k2 , (.)
2
L
f (x) ¶ f ( x̄; x) + k x − x̄ k2 . (.)
2
Доказательство. В самом деле,
µ
fi (x) ¾ fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2

2
(см. неравенство (.)). Взяв максимум по i, получим оценку (.).
Для доказательства неравенства (.) используем оценку
L
fi (x) ¶ fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2

2
(см. неравенство (.)).
Запишем условия оптимальности для задачи (.) (ср. с теоре-
мой ..).
Теорема ... Точка x ∗ ∈ Q является решением задачи (.) тогда
и только тогда, когда для любого x ∈ Q выполняется неравенство
f (x ∗ ; x) ¾ f (x ∗ ; x ∗ ) = f (x ∗ ). (.)
Доказательство. Действительно, если выполнено неравенство (.),
то
f (x) ¾ f (x ∗ ; x) ¾ f (x ∗ ; x ∗ ) = f (x ∗ )
при всех x ∈ Q.
Пусть x ∗ есть решение задачи (.). Предположим, что существу-
ет такая точка x ∈ Q, что f (x ∗ ; x) < f (x ∗ ). Рассмотрим функции
ϕi (α) = fi (x ∗ + α(x − x ∗ )), i = 1, …, m.
Заметим, что для всех i, 1 ¶ i ¶ m, выполнено неравенство
fi (x ∗ ) + fi′ (x ∗ ), x − x ∗ < f (x ∗ ) = max fi (x ∗ ).


1¶i ¶m

Поэтому либо ϕi (0) ≡ fi (x ∗ ) < f (x ∗ ), либо


ϕi (0) = f (x ∗ ), ϕi′ (0) = fi′ (x ∗ ), x − x ∗ < 0.

Значит, при достаточно малом α получаем


fi (x ∗ + α(x − x ∗ )) = ϕi (α) < f (x ∗ )
для всех i, 1 ¶ i ¶ m. Приходим к противоречию.


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Следствие ... Пусть x ∗ есть минимум функции типа максимума


f (x) на множестве Q. Если f принадлежит Sµ1 (Rn ), то
µ
f (x) ¾ f (x ∗ ) + k x − x ∗ k2
2
при всех x ∈ Q.

Доказательство. В силу неравенства (.) и теоремы .. для лю-


бого x ∈ Q получаем
µ
f (x) ¾ f (x ∗ ; x) + k x − x ∗ k2 ¾
2
µ µ
¾ f (x ∗ ; x ∗ ) + k x − x ∗ k2 = f (x ∗ ) + k x − x ∗ k2 .
2 2
Наконец, докажем теорему существования.
Теорема ... Пусть функция типа максимума f (x) принадлежит
классу Sµ1 (Rn ), µ > 0, и пусть Q есть выпуклое замкнутое множе-
ство. Тогда оптимальное решение x ∗ задачи (.) существует и
единственно.

Доказательство. Пусть x̄ ∈ Q. Рассмотрим множество ¯Q̄ = x ∈ Q |




| f (x) ¶ f ( x̄) . Заметим, что задача (.) эквивалентна следующей


задаче
min f (x) | x ∈ ¯Q̄ . (.)


Но ¯Q̄ ограничено: для любого x ∈ ¯Q̄ выполняется неравенство


µ
f ( x̄) ¾ fi (x) ¾ fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 ,

2
следовательно,
µ
k x − x̄ k2 ¶ k f ′ ( x̄) k · k x − x̄ k + f ( x̄) − fi ( x̄).
2
Таким образом, решение x ∗ задачи (.) (и задачи (.)) существу-
ет.
Если x1∗ является другим решением задачи (.), то
µ µ
f (x ∗ ) = f (x1∗ ) ¾ f (x ∗ ; x1∗ ) + k x1∗ − x ∗ k2 ¾ f (x ∗ ) + k x1∗ − x ∗ k2
2 2
(ввиду неравенства (.)). Поэтому x1∗ = x ∗ .


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

... Градиентное отображение


В п. .. было введено градиентное отображение, которое иг-
рает роль градиента в задачах условной минимизации на простых
множествах. Так как линеаризация функции типа максимума ведет
себя так же, как и линеаризация гладкой функции, можно попы-
таться адаптировать понятие градиентного отображения к нашей
ситуации.
Зафиксируем некоторые γ > 0 и x̄ ∈ Rn . Рассмотрим функцию ти-
па максимума f (x). Введем обозначение
γ
fγ ( x̄; x) = f ( x̄; x) + k x − x̄ k2 .
2
Следующее определение является обобщением определения ...
Определение ... Пусть
f ∗ ( x̄; γ) = min fγ ( x̄; x),
x ∈Q

x f ( x̄; γ) = arg min fγ ( x̄; x),


x ∈Q

g f ( x̄; γ) = γ( x̄ − x f ( x̄; γ)).


Функция g f (x; γ) называется градиентным отображением функции
типа максимума f на Q.
Для m = 1 это определение эквивалентно определению ... Ана-
логично точка x̄, в которой проводится линеаризация, не обязатель-
но должна принадлежать множеству Q.
Очевидно, что fγ ( x̄; x) есть функция типа максимума, составлен-
ная из компонент
γ
fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 ∈ Sγ1,1 n
i = 0, …, m.

2 ,γ (R ),

Поэтому градиентное отображение определено корректно (теоре-


ма ..).
Докажем основной результат этого пункта, который подчеркива-
ет сходство между свойствами градиентного отображения и свой-
ствами градиента (ср. с теоремой ..).
Теорема ... Пусть f ∈ Sµ1,1 n
,L (R ). Тогда для всех x ∈ Q имеет ме-
сто неравенство
1
f ( x̄; x) ¾ f ∗ ( x̄; γ) + g f ( x̄; γ), x − x̄ + k g f ( x̄; γ) k2 . (.)



“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Доказательство. Введем обозначения x f = x f ( x̄; γ), g f = g f ( x̄; γ).


Очевидно, что fγ ( x̄; x) ∈ Sγ1,1 n
,γ (R ) и что fγ ( x̄; x) –– функция типа
максимума. Поэтому все результаты предыдущего пункта можно
также применить и к fγ .
Поскольку x f = arg min fγ ( x̄; x), в силу следствия .. и теоре-
x ∈Q
мы .. получаем
γ
f ( x̄; x) = fγ ( x̄; x) − k x − x̄ k2 ¾
2
γ
fγ ( x̄; x f ) + k x − x f k2 − k x − x̄ k2 ¾

¾
2
γ
¾ f ∗ ( x̄; γ) + 〈 x̄ − x f , 2x − x f − x̄ 〉 =
2
∗ γ

= f ( x̄; γ) + x̄ − x f , 2(x − x̄) + x̄ − x f =
2
1
= f ∗ ( x̄; γ) + 〈 g f , x − x̄ 〉 + k g f k2 .

В дальнейшем нам понадобится такое следствие из теоремы ...


Следствие ... Пусть f ∈ Sµ1,1 n
,L (R ) и γ ¾ L. Тогда
n
. для любого x ∈ Q и x̄ ∈ R имеет место неравенство

f (x) ¾ f (x f ( x̄; γ)) + 〈 g f ( x̄; γ), x − x̄ 〉 +


1 µ
+ k g ( x̄; γ) k2 + k x − x̄ k2 ; (.)
2γ f 2
. если x̄ ∈ Q, то
1
f (x f ( x̄; γ)) ¶ f ( x̄) − k g ( x̄; γ) k2 ; (.)
2γ f
. для любого x̄ ∈ Rn верно неравенство
1 µ
〈 g f ( x̄; γ), x̄ − x ∗ 〉 ¾ k g ( x̄; γ) k2 + k x ∗ − x̄ k2 . (.)
2γ f 2

Доказательство. Предположение γ ¾ L обеспечивает неравенство


f ∗ ( x̄; γ) ¾ f (x f ( x̄; γ)). Поэтому оценка (.) следует из неравен-
ства (.), поскольку
µ
f (x) ¾ f ( x̄; x) + k x − x̄ k2
2
при всех x ∈ Rn (см. лемму ..).


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

Используя неравенство (.) с x = x̄, получим оценку (.). Ис-


пользуя неравенство (.) с x = x ∗ , получим оценку (.) ввиду
неравенства f (x f ( x̄; γ)) − f (x ∗ ) ¾ 0.

Наконец, оценим изменение величины f ∗ ( x̄; γ) в зависимости от


параметра γ.
Лемма ... Для любых γ1 , γ2 > 0 и x̄ ∈ Rn выполняется неравен-
ство
γ − γ1
f ∗ ( x̄; γ2 ) ¾ f ∗ ( x̄; γ1 ) + 2 k g f ( x̄; γ1 ) k2 .
2γ1 γ2

Доказательство. Введем обозначения xi = x f ( x̄; γi ), gi = g f ( x̄; γi ),


i = 1, 2. Из неравенства (.) следует, что
γ2
f ( x̄; x) + k x − x̄ k2 ¾ f ∗ ( x̄; γ1 ) + 〈 g1 , x − x̄ 〉 +
2
1 γ
+ k g k2 + 2 k x − x̄ k2 (.)
2γ1 1 2
для всех x ∈ Q. В частности, для x = x2 получаем
γ2
f ∗ ( x̄; γ2 ) = f ( x̄; x2 ) + k x2 − x̄ k2 ¾
2
1 γ
¾ f ∗ ( x̄; γ1 ) + 〈 g1 , x2 − x̄ 〉 + k g k2 + 2 k x2 − x̄ k2 =
2γ1 1 2
1 1 1
= f ∗ ( x̄; γ1 ) + k g k2 − 〈 g1 , g2 〉 + k g k2 ¾
2γ1 1 γ2 2γ2 2
1 1
¾ f ∗ ( x̄; γ1 ) + k g k2 − k g k2 .
2γ1 1 2γ2 1

... Методы минимизации для минимаксной задачи


Начнем изучение численных методов решения задачи (.) с
«градиентного» метода с постоянным шагом.

Градиентный метод для минимаксной задачи (.)


. Выберем x0 ∈ Q и h > 0:
. k-я итерация (k ¾ 0).
xk+1 = xk − h g f (xk ; L).


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Пусть f ∈ Sµ1,1 n


,L (R ). Если в схеме (.) выбрать
h ¶ 1/ L, то

k xk − x ∗ k2 ¶ (1 − µh)k k x0 − x ∗ k2 .

Доказательство. Введем обозначения rk = k xk − x ∗ k, g = g f (xk ; L).


Тогда в силу неравенства (.) получим

rk2+1 = k xk − x ∗ − hgQ k2 = rk2 − 2h〈 g, xk − x ∗ 〉 + h2 k g k2 ¶


1
 
¶ (1 − hµ)rk2 + h h − k g k2 ¶ (1 − µh)rk2 .
L

Заметим, что при h = 1/ L выполняется равенство

1
xk+1 = xk − g f (xk ; L) = x f (xk ; L).
L

Скорость сходимости схемы (.) с такой длиной шага дается нера-


венством

µ k
 
k xk − x ∗ k2 ¶ 1 − k x0 − x ∗ k2 .
L

Сравнивая этот результат с теоремой .., можно увидеть, что в


минимаксной задаче градиентный метод имеет ту же скорость схо-
димости, что и в случае минимизации гладкой функции.
Проверим, как ведут себя здесь оптимальные методы. Вспомним,
что для построения оптимального метода необходимо ввести оце-
нивающие последовательности с некими правилами рекуррентного
обновления. Формально говоря, минимаксная задача отличается от
задачи безусловной минимизации только видом нижней аппроксима-
ции целевой функции. Для задачи без ограничений для пересчета оце-
нивающей последовательности использовалось неравенство (.).
Теперь же его необходимо заменить на неравенство (.).
Введем оценивающую последовательность для задачи (.). За-
фиксируем некоторые x0 ∈ Q и γ0 > 0. Рассмотрим последовательно-


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

сти { yk } ⊂ Rn и {αk } ⊂ (0, 1). Определим

γ0
ϕ0 (x) = f (x0 ) + k x − x0 k2 ,
2
ϕk+1 (x) = (1 − αk )ϕk (x) +
–
1
+ αk f (x f ( yk ; L)) + k g ( y ; L) k2 +
2L f k
™
µ
+ 〈 g f ( yk ; L), x − yk 〉 + k x − yk k2 .
2

При сравнении этих соотношений с формулой (.) разница обна-


руживается только в постоянной компоненте, обведенной рамкой.
В формуле (.) на этом месте стоит f ( yk ). Это отличие приводит
к тривиальной модификации утверждений леммы ..: все компо-
ненты f ( yk ) надо формально заменить на выражение, расположен-
ное в рамке, а f ′ ( yk ) надо заменить на g f ( yk ; L). Таким образом,
приходим к следующей лемме.

Лемма ... При всех k ¾ 0 имеет место соотношение


γk
ϕk (x) ≡ ϕk∗ + k x − υk k2 ,
2

где последовательности {γk }, {υk } и {ϕk∗ } определены следующим


образом: υ0 = x0 , ϕ0∗ = f (x0 ) и

γk+1 = (1 − αk )γk + αk µ,
1  
υ k +1 = (1 − αk )γk υk + αk µ yk − αk g f ( yk ; L) ,
γk+1
1
 
ϕk∗+1 = (1 − αk )ϕk + αk f (x f ( yk ; L)) + k g f ( yk ; L) k2 +
2L
α2k
+ k g ( y ; L) k2 +
2γk+1 f k
α (1 − αk )γk µ
 
+ k k yk − υk k2 + g f ( yk ; L), υk − yk .

γk+1 2

Продолжим рассуждения, аналогичные приведенным в § ..


Предположим, что ϕk∗ ¾ f (xk ). Неравенство (.) с x = xk и x̄ = yk


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

запишется как


f (xk ) ¾ f (x f ( yk ; L)) + g f ( yk ; L), xk − yk +
1 µ
+ k g ( y ; L) k2 + k xk − yk k2 .
2L f k 2
Отсюда следует, что
ϕk∗+1 ¾ (1 − αk ) f (xk ) + αk f (x f ( yk ; L)) +
α α2k  α (1 − αk )γk

k
k g f ( yk ; L) k2 + k

+ − g f ( yk ; L), υk − yk ¾
2L 2γk+1 γk+1

1 α2k 
¾ f (x f ( yk ; L)) + − k g f ( yk ; L) k2 +
2L 2γk+1
α γ
D E
+ (1 − αk ) g f ( yk ; L), k k (υk − yk ) + xk − yk .
γk+1
Таким образом, снова можно выбрать
xk+1 = x f ( yk ; L),
Lα2k = (1 − αk )γk + αk µ ≡ γk+1 ,
1
yk = (α γ υ + γk+1 xk ).
γk + αk µ k k k
Выпишем получившийся метод в форме (.), исключив из него
последовательности {υk } и {γk }.

Метод с постоянным шагом, II. (.)


Минимаксная задача
. Выберем x0 ∈ Rn и α0 ∈ (0, 1).
Положим y0 = x0 и q = µ/ L.
. k-я итерация (k ¾ 0).
a) Вычислим { fi ( yk )} и { fi′ ( yk )}. Положим
xk+1 = x f ( yk ; L).
б) Вычислим αk+1 ∈ (0, 1) из уравнения
α2k+1 = (1 − αk+1 )α2k + q αk+1
αk (1 − αk )
и положим βk = ,
α2k + αk+1
yk+1 = xk+1 + βk (xk+1 − xk ).


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

Так как анализ сходимости этого метода ничем не отличается от


обоснования метода (.), мы приводим лишь конечный результат.
Теорема ... Пусть функция типа максимума
p f лежит в классе
1,1
Sµ,L (Rn ). Если в схеме (.) взять α0 ¾ µ/ L, то
¨ q «
∗ µ k 4L
f (xk ) − f ¶ min 1 − , p p 2 ×
L (2 L + k γ0 )
γ
h i
× f (x0 ) − f ∗ + 0 k x0 − x ∗ k2 ,
2
где γ0 = (α0 (α0 L − µ))/(1 − α0 ).
Заметим, что метод (.) работает при всех µ ¾ 0. Приведем ме-
тод решения задачи (.) со строго выпуклыми компонентами.

Метод для f ∈ Sµ1,1 n


,L (R ) (.)
. Выберем x0 ∈ Q. Положим y0 = x0 ,
p p
L− µ
β=p p .
L+ µ
. k-я итерация
 (k ¾ 0): 
Вычислим fi ( yk ) и fi′ ( yk ) . Положим

xk+1 = x f ( yk ; L), yk+1 = xk+1 + β (xk+1 − xk ).

Теорема ... Для метода (.) справедлива оценка


 q ‹k
∗ µ
f (x0 ) − f ∗ . (.)

f (xk ) − f ¶ 2 1 −
L
Доказательство. p Метод (.) является одним из вариантов мето-
да (.) с α0 = µ/ L. При таком выборе имеем γ0 = µ и получаем
оценку (.) из теоремы .., поскольку в силу следствия .. име-
ет место неравенство µ/2k x0 − x ∗ k2 ¶ f (x0 ) − f ∗ .
В завершении этого пункта рассмотрим вспомогательную задачу,
которую приходится решать при вычислении градиентного отобра-
жения минимаксной задачи:
 γ
max fi (x0 ) + fi′ (x0 ), x − x0 + k x − x0 k2 → min .


1¶i ¶m 2 x ∈Q


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Вводя дополнительную переменную t ∈ R, эту задачу можно перепи-


сать следующим образом:
γ
t + k x − x0 k2 → min

2
при fi (x0 ) + fi′ (x0 ), x − x0 ¶ t, (.)

i = 1…m,
x ∈ Q, t ∈ R,
Заметим, что если Q является многогранником, то задача (.)
есть задача квадратичной оптимизации. Она может быть решена с
помощью некоторых специальных конечных методов (алгоритмов
типа симплекс-метода). Эта задача также может быть решена и ме-
тодами внутренней точки; при этом мы можем работать с множе-
ством Q, имеющим более сложную нелинейную структуру.

... Оптимизация при функциональных ограничениях


Покажем, что методы, описанные в предыдущем пункте, могут
быть использованы для решения задачи минимизации с ограниче-
ниями в виде гладких функций. Напомним, что аналитическая фор-
ма такой задачи выглядит так:
f0 (x) → min
при fi (x) ¶ 0, i = 1, …, m, (.)
x ∈ Q,
где функции fi выпуклые и гладкие, а Q есть выпуклое замкну-
тое множество. В этом пункте мы предполагаем, что fi ∈ Sµ1,1 n
,L (R ),
i = 0, …, m, с некоторым µ > 0.
Взаимосвязь между задачей (.) и минимаксными задачами
устанавливается специальной функцией от одной переменной. Рас-
смотрим параметрическую функцию типа максимума
f (t; x) = max f0 (x) − t, fi (x), i = 1, …, m , t ∈ R1 , x ∈ Q.


Введем функцию
f ∗ (t) = min f (t; x). (.)
x ∈Q

Заметим, что компоненты функции типа максимума f (t; ·) сильно


выпуклы по x. Поэтому для любого t ∈ R решение задачи (.),
которое мы обозначим x ∗ (t), существует и единственно (см. теоре-
му ..).


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

Попытаемся приблизиться к решению задачи (.), используя


процедуру, основанную на приближенных значениях функции f ∗ (t).
Этот подход является одним из вариантов последовательной квадра-
тичной оптимизации. Его можно также применять к невыпуклым
задачам.
Установим некоторые свойства функции f ∗ (t).

Лемма ... Пусть t ∗ есть оптимальное значение задачи (.).


Тогда

f ∗ (t) ¶ 0 для всех t ¾ t ∗ ,


f ∗ (t) > 0 для всех t < t ∗ .

Доказательство. Пусть x ∗ является решением задачи (.). Если


t ¾ t ∗ , то

f ∗ (t) ¶ f (t; x ∗ ) = max f0 (x ∗ ) − t; fi (x ∗ ) ¶ max t ∗ − t; fi (x ∗ ) ¶ 0.


 

Предположим, что t < t ∗ и f ∗ (t) ¶ 0. Тогда существует такая точка


y ∈ Q, что

f0 ( y) ¶ t < t ∗ , fi ( y) ¶ 0, i = 1, …, m.

Значит, t ∗ не может быть оптимальным значением для задачи (.).

Таким образом, наименьший корень функции f ∗ (t) соответствует


оптимальному значению задачи (.). Отметим также, что, исполь-
зуя методы из предыдущего параграфа, можно вычислить прибли-
женное значение функции f ∗ (t). Основываясь на этом, мы постро-
им процедуру нахождения этого корня. Нам потребуются некото-
рые свойства функции f ∗ (t).

Лемма ... Для любого ∆ ¾ 0 выполняется неравенство

f ∗ (t) − ∆ ¶ f ∗ (t + ∆) ¶ f ∗ (t).


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Доказательство. В самом деле,


f ∗ (t + ∆) = min max f0 (x) − t − ∆; fi (x) ¶

x ∈Q 1¶i ¶m

¶ min max f0 (x) − t; fi (x) = f ∗ (t),



x ∈Q 1¶i ¶m

f ∗ (t + ∆) = min max f0 (x) − t; fi (x) + ∆ − ∆ ¾



x ∈Q 1¶i ¶m

¾ min max f0 (x) − t; fi (x) − ∆ = f ∗ (t) − ∆.



x ∈Q 1¶i ¶m

Другими словами, функция f ∗ (t) убывает по t и удовлетворяет


условию Липшица с константой, равной .
Лемма ... Для любых t1 < t2 и ∆ ¾ 0 выполняется неравенство
f ∗ (t1 ) − f ∗ (t2 )
f ∗ (t1 − ∆) ¾ f ∗ (t1 ) + ∆ . (.)
t2 − t1

Доказательство. Введем обозначения


t 0 = t 1 − ∆, α = ∆/(t2 − t0 ) ≡ ∆/(t2 − t1 + ∆) ∈ [0, 1].
Тогда t1 = (1 − α)t0 + αt2 и неравенство (.) можно записать в ви-
де
f ∗ (t1 ) ¶ (1 − α) f ∗ (t0 ) + α f ∗ (t2 ). (.)
Положим xα = (1 − α)x ∗ (t0 ) + α x ∗ (t2 ). Тогда
f ∗ (t1 ) ¶ max f0 (xα ) − t1 ; fi (xα ) ¶

1¶i ¶m
¶ max (1 − α)( f0 (x ∗ (t0 )) − t0 ) + α( f0 (x ∗ (t2 )) − t2 );

1¶i ¶m

(1 − α) fi (x ∗ (t0 )) + α fi (x ∗ (t2 )) ¶

¶ (1 − α) max f0 (x ∗ (t0 )) − t0 ; fi (x ∗ (t0 )) +



1¶i ¶m

+ α max f0 (x ∗ (t2 )) − t2 ; fi (x ∗ (t2 )) =



1¶i ¶m

= (1 − α) f ∗ (t0 ) + α f ∗ (t2 ),
и мы получаем оценку (.).

Заметим, что леммы .. и .. выполняются для любых пара-


метрических функций типа максимума, а не только для тех, которые
образованы функциональными компонентами задачи (.).


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

Перейдем теперь к изучению свойств градиентного отображения


для параметрических функций типа максимума f (t; x). Для этого
сначала введем линеаризацию для f (t; x):
f (t; x̄; x) = max f0 ( x̄) + 〈 f0′ ( x̄), x − x̄ 〉 − t; fi ( x̄) + 〈 fi′ ( x̄), x − x̄ 〉 .

1¶i ¶m

Теперь можно записать градиентное отображение стандартным об-


разом. Зафиксируем некоторое γ > 0. Введем обозначения
γ
fγ (t; x̄; x) = f (t; x̄; x) + k x − x̄ k2 ,
2
f ∗ (t; x̄; γ) = min fγ (t; x̄; x),
x ∈Q
x f (t; x̄; γ) = arg min fγ (t; x̄; x),
x ∈Q
g f (t; x̄; γ) = γ( x̄ − x f (t; x̄; γ)).
Назовем функцию g f (t; x̄; γ) условным градиентным отображени-
ем задачи (.). При этом точка линеаризации x̄ не обязательно
должна является допустимой для множества Q.
Отметим, что сама функция fγ (t; x̄; x) есть функция типа макси-
мума, образованная компонентами
γ
f0 ( x̄) + f0′ ( x̄), x − x̄ − t + k x − x̄ k2 ,


2
γ
fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 , i = 1, …, m.

2
Более того, fγ (t; x̄; x) ∈ Sγ1,1 n
Поэтому в силу теоремы .. для
,γ (R ).
любого t ∈ R1 условное градиентное отображение определено кор-
ректно.
Поскольку f (t; x) ∈ Sµ1,1 n
,L (R ), мы имеем

fµ (t; x̄; x) ¶ f (t; x) ¶ fL (t; x̄; x)


n
при всех x ∈ R . Тогда f ∗ (t; x̄; µ) ¶ f ∗ (t) ¶ f ∗ (t; x̄; L). Кроме того, ис-
пользуя лемму .., получаем следующий результат.
Для любых x̄ ∈ Rn , γ > 0, ∆ ¾ 0 и t1 < t2 выполняется неравенство

f ∗ (t1 − ∆; x̄; γ) ¾

¾ f ∗ (t1 ; x̄; γ) + ( f ∗ (t1 ; x̄; γ) − f ∗ (t2 ; x̄; γ)). (.)
t2 − t1
Для нас важными являются два значения γ: γ = L и γ = µ. При-
меняя лемму .. к функции типа максимума fγ (t; x̄; x) с γ1 = L и


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

γ2 = µ, получаем следующее неравенство:


L−µ
f ∗ (t; x̄; µ) ¾ f ∗ (t; x̄; L) − k g f (t; x̄; L) k2 . (.)
2µ L
Так как нас интересует поиск корня функции f ∗ (t), опишем по-
ведение корней функции f ∗ (t; x̄; γ), которую можно рассматривать
как аппроксимацию для f ∗ (t).
Введем обозначение
t ∗ ( x̄) = root t ( f ∗ (t; x̄; µ))
(root t (·) есть корень по t соответствующей функции (·)).
Лемма ... Пусть x̄ ∈ Rn и t̄ < t ∗ таковы, что
f ∗ (t̄; x̄; µ) ¾ (1 − κ) f ∗ (t̄; x̄; L)
для некоторого κ ∈ (0, 1). Тогда t̄ < t ∗ ( x̄) ¶ t ∗ . Кроме того, для любых
t < t̄ и x ∈ Rn выполнено неравенство
Ç
∗ ∗ t̄ − t
f (t; x; L) ¾ 2(1 − κ) f (t̄; x̄; L) ∗ .
t ( x̄) − t̄

Доказательство. Так как t̄ < t ∗ , мы имеем


1
0 < f ∗ (t̄) ¶ f ∗ (t̄; x̄; L) ¶ f ∗ (t̄; x̄; µ).
1−κ
Отсюда следует, что f ∗ (t̄; x̄; µ) > 0, и, поскольку f ∗ (t; x̄; µ) убывает
по t, мы получаем
t ∗ ( x̄) > t̄.
Обозначим ∆ = t̄ − t. Тогда в силу неравенства (.) имеет место
оценка

f ∗ (t; x; L) ¾ f ∗ (t) ¾ f ∗ (t; x̄; µ) ¾ f ∗ (t̄; x̄; µ) + ∗ f ∗ (t̄; x̄; µ) ¾
t ( x̄) − t̄
∆  ∗
¾ (1 − κ) 1 + ∗ f (t̄; x̄; L) ¾
t ( x̄) − t̄
Ç

¾ 2(1 − κ) f ∗ (t̄; x̄; L) ∗ .
t ( x̄) − t̄

... Метод условной минимизации


Рассмотрим следующий процесс.


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

Метод условной минимизации (.)



. Выберем x0 ∈ Q, κ ∈ (0, 1/2), t0 < t и параметр
точности ǫ > 0.
. k-я итерация (k ¾ 0).
a) Генерируем последовательность {xk, j } с
помощью метода (.), применяемого
к функции f (tk ; x) с начальной точкой
xk,0 = xk . Если
f ∗ (tk ; xk, j ; µ) ¾ (1 − κ) f ∗ (tk ; xk, j ; L),
то внутреннюю процедуру надо остано-
вить, положив j(k) = j,
j ∗ (k) = arg min f ∗ (tk ; xk, j ; L),
0¶ j ¶ j(k)
xk+1 = x f (tk ; xk, j ∗(k) ; L).
Глобальная остановка: если во
время итерации внутренней процеду-
ры оказывается выполнено условие
f ∗ (tk ; xk, j ; L) ¶ ǫ .
б) Положим tk+1 = t ∗ (xk, j(k)).
Здесь мы впервые встретились с двухуровневым методом ми-
нимизации, анализ которого, разумеется, потребует некоторых
усилий. Сначала нам необходимо оценить скорость сходимости
процесса верхнего уровня в схеме (.) (назовем его главным
процессом). Затем надо будет оценивать общую вычислительную
сложность процессов нижнего уровня на шаге a). Поскольку нам
интересна аналитическая сложность этого метода, арифметические
затраты на вычисление t ∗ (x) и f ∗ (t; x, γ) мы в расчет не берем.
Охарактеризуем сходимость главного процесса.
Лемма ... Справедливо неравенство
t ∗ − t0 h 1
ik
f ∗ (tk ; xk+1 ; L) ¶ .
1−κ 2(1 − κ)
Доказательство. Введем обозначение β = 1/(2(1 − κ)) (< 1) и
f ∗ (tk ; xk, j(k) ; L)
δk = p .
t k +1 − t k


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Поскольку tk+1 = t ∗ (xk, j(k)), в силу леммы .. при k ¾ 1 получим


f ∗ (tk ; xk, j(k) ; L) f ∗ (tk−1 ; xk−1, j(k−1); L))
2(1 − κ) p ¶ p .
t k +1 − t k t k − t k −1
Значит, δk ¶ β δk−1 , и
p p
f ∗ (tk ; xk, j(k); L) = δk t k +1 − t k ¶ β k δ 0 t k +1 − t k =
Ç
k ∗ t k +1 − t k
= β f (t0 ; x0, j(0) ; L) .
t1 − t0
Далее, в силу леммы .. мы имеем: t1 − t0 ¾ f ∗ (t0 ; x0, j(0) ; µ). Отсю-
да следует, что
Ç
t k +1 − t k
f ∗ (tk ; xk, j(k); L) ¶ β k f ∗ (t0 ; x0, j(0) ; L) ∗ ¶
f (t0 ; x0, j(0); µ)
βk p ∗
¶ f (t0 ; x0, j(0) ; µ)(tk+1 − tk ) ¶
1−κ
βk p
¶ f ∗ (t0 )(t ∗ − t0 ).
1−κ
Остается отметить, что f ∗ (t0 ) ¶ t ∗ − t0 ∗ (лемма ..) и
f ∗ (tk ; xk+1 ; L) ≡ f ∗ (tk ; xk, j ∗(k) ; L) ¶ f ∗ (tk ; xk, j(k); L).
Приведенный результат дает оценку числа итераций главного
процесса, которые необходимы для нахождения ǫ -решения задачи
(.). Действительно, пусть f ∗ (tk ; xk, j ; L) ¶ ǫ . Тогда для x∗ = x f (tk ;
xk, j ; L) имеет место соотношение
f (tk ; x∗ ) = max f0 (x∗ ) − tk ; fi (x∗ ) ¶ f ∗ (tk ; xk, j ; L) ¶ ǫ .

1¶i ¶m

Поскольку tk ¶ t , мы делаем вывод, что
f0 (x∗ ) ¶ t ∗ + ǫ ,
(.)
fi (x∗ ) ¶ ǫ , i = 1, …, m.
В силу леммы .. мы можем получить условия (.) не более чем
за t ∗ − t0
1
N(ǫ ) = ln (.)
ln[2(1 − κ)] (1 − κ)ǫ
полных итераций главного процесса (последняя итерация процесса
в общем случае не осуществляется полностью, так как процесс за-


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

канчивается правилом глобальной остановки). Заметим, что в этой


оценке κ –– положительная постоянная (например, κ = 1/4).
Проанализируем сложность процесса нижнего уровня. Пусть по-
следовательность {xk, j } образована схемой (.) с начальной точ-
кой xk,0 = xk . Из теоремы .. получаем
 q ‹j
µ
f (tk ; xk, j ) − f ∗ (tk ) ¶ 2 1 − ( f (tk ; xk ) − f ∗ (tk )) ¶
L
¶ 2e−σ· j ( f (tk ; xk ) − f ∗ (tk )) ¶ 2e−σ· j f (tk ; xk ),
p
где σ = µ/ L.
Обозначим через N число полных итераций процесса (.) (N ¶
¶ N(ǫ )). Тогда j(k) определено при всех таких k, что 0 ¶ k ¶ N. От-
метим, что tk = t ∗ (xk−1, j(k−1)) > tk−1. Поэтому
f (tk ; xk ) ¶ f (tk−1; xk ) ¶ f ∗ (tk−1 ; xk−1, j ∗(k−1) , L).
Введем обозначения
∆k = f ∗ (tk−1; xk−1, j ∗(k−1) , L), k ¾ 1, ∆0 = f (t0 ; x0 ).
Тогда при всех k ¾ 0 имеет место неравенство
f (tk ; xk ) − f ∗ (tk ) ¶ ∆k .
Лемма ... Для всех таких k, что 0 ¶ k ¶ N, процесс нижнего уров-
ня будет продолжаться до тех пор, пока не выполнится условие
µκ
f (tk ; xk, j ) − f ∗ (tk ) ¶ · f ∗ (tk ; xk, j ; L). (.)
L−µ
Доказательство. Предположим, что выполнено условие (.). То-
гда из неравенства (.) следует, что
1
k g (t ; x ; L k2 ¶ f (tk ; xk, j ) − f (tk ; x f (tk ; xk, j ; L)) ¶
2L f k k, j
¶ f (tk ; xk, j ) − f ∗ (tk ).
Поэтому, используя оценку (.), получаем
L−µ
f ∗ (tk ; xk, j ; µ) ¾ f ∗ (tk ; xk, j ; L) − k g f (tk ; xk, j ; L k2 ¾
2µ L
L−µ
¾ f ∗ (tk ; xk, j ; L) − f (tk ; xk, j ) − f ∗ (tk ) ¾

µ
¾ (1 − κ) f ∗ (tk ; xk, j ; L),


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

что и является критерием остановки процесса нижнего уровня на


шаге a) в схеме (.).

Следующий результат позволяет получить общую оценку сложно-


сти всех завершенных процессов нижнего уровня в рассматривае-
мой схеме условной минимизации.
Лемма ... Для всех таких k, что 0 ¶ k ¶ N, выполняется нера-
венство Ç
L 2(L − µ)∆k
j(k) ¶ 1 + · ln .
µ κµ∆k+1

Доказательство. Предположим, что


1 2(L − µ)∆k
j(k) − 1 > ln ,
σ κµ∆k+1
p
где σ = µ/ L. Напомним, что ∆k+1 = min0¶ j ¶ j(k) f ∗ (tk ; xk, j ; L). По-
скольку критерий остановки процесса нижнего уровня не выполня-
ется при j = j(k) − 1, в силу леммы .. имеет место оценка
L−µ L − µ −σ· j
f ∗ (tk ; xk, j ; L) ¶ f (tk ; xk, j ) − f ∗ (tk ) ¶ 2

e ∆ k < ∆ k +1 .
µκ µκ
Получили противоречие с определением ∆k+1 .

Следствие ... Справедливо неравенство


N • q ˜ q
P L 2(L − µ) L ∆0
j(k) ¶ (N + 1) 1 + · ln + · ln .
k =0
µ κµ µ ∆ N +1

Остается оценить число итераций нижнего уровня для последне-


го шага главного процесса. Обозначим это число через j ∗ .
Лемма ... Справедливо неравенство
Ç
∗ L 2(L − µ)∆N +1
j ¶1+ · ln .
µ κµǫ

Доказательство. Обоснование утверждения этой леммы похоже на


доказательство леммы ... Предположим, что
Ç
∗ L 2(L − µ)∆N +1
j −1> · ln .
µ κµǫ


“Nesterov-final” — // — : — page  — #

§ .. Задача минимизации функций с гладкими компонентами

Заметим, что при j = j ∗ − 1 выполняются неравенства


L−µ
ǫ ¶ f ∗ (t N +1 ; x N +1, j ; L) ¶ f (t N +1 ; x N +1, j ) − f ∗ (t N +1 ) ¶

µκ
L − µ −σ· j
¶2 e ∆ N +1 < ǫ .
µκ
Получили противоречие.
Следствие ... Справедливо неравенство
N • q ˜ q
L 2(L − µ) L ∆
j∗ +
P
j(k) ¶ (N + 2) 1 + · ln + · ln 0 .
k =0
µ κµ µ ǫ

Подытожим полученные результаты. Подставляя оценку (.)


числа полных итераций N в оценку из следствия .., приходим к
следующей границе для общего числа внутренних итераций про-
цесса (.):
Ç
t ∗ − t0
• ˜ • ˜
1 L 2(L − µ)
ln +2 · 1+ · ln +
ln[2(1 − κ)] (1 − κ)ǫ µ κµ
Ç  ‹
L 1
· max f0 (x0 ) − t0 ; fi (x0 ) . (.)

+ · ln
µ ǫ 1¶i ¶m
Заметим, что метод (.), реализующий процесс нижнего уровня в
методе (.), обращается к оракулу задачи (.) на каждой итера-
ции только один раз. Поэтому оценка (.) является верхней грани-
цей аналитической сложности получения ǫ -решения задачи (.),
определяемого условием (.). Проверим, насколько эта оценка да-
лека от нижних границ.
Основная составляющая в оценке (.) имеет порядок
Ç
t ∗ − t0 L L
ln · · ln .
ǫ µ µ
Данное значение отличается от нижней границы для задачи без-
условной минимизации на множитель ln L/µ. Это означает, что
для задачи условной минимизации метод (.) является по край-
ней мере субоптимальным. Большего здесь сказать нельзя из-за
отсутствия точных результатов о нижней границе аналитической
сложности рассматриваемого класса задач.
В заключение ответим на два технических вопроса. Во-первых,
в методе (.) предполагается известной некоторая оценка t0 < t ∗ .


“Nesterov-final” — // — : — page  — #

Глава . Гладкая выпуклая оптимизация

Это предположение не является обременительным, так как можно


выбрать t0 равным оптимальному значению задачи
h µ i
f (x0 ) + f ′ (x0 ), x − x0 + k x − x0 k2 → min .

2 x ∈Q

Очевидно, что это значение не больше t .
Далее, предполагалось, что мы умеем вычислять корень t ∗ ( x̄)
функции
f ∗ (t; x̄; µ) = min fµ (t; x̄; x),
x ∈Q

где fµ (t; x̄; x) –– функция типа максимума, составленная из компо-


нент
µ
f0 ( x̄) + f0′ ( x̄), x − x̄ + k x − x̄ k2 − t,

2
µ
fi ( x̄) + fi′ ( x̄), x − x̄ + k x − x̄ k2 , i = 1, …, m.

2
Из леммы .. следует, что этот корень есть оптимальное значение
следующей задачи минимизации:
• ˜

′ µ 2
f0 ( x̄) + f0 ( x̄), x − x̄ + k x − x̄ k → min
2
µ
при fi ( x̄) + fi ( x̄), x − x̄ + k x − x̄ k2 ¶ 0, i = 1, …, m,


2
x ∈ Q.
Эта задача не является квадратичной, так как ограничения нели-
нейны. Однако ее можно решить за конечное время с помощью
алгоритмов типа симплекс-метода, поскольку у целевой функции и
ограничений одинаковый гессиан. Эту задачу можно также решить
методами внутренней точки.


“Nesterov-final” — // — : — page  — #

Глава 

Негладкая выпуклая
оптимизация
§ .. Выпуклые функции общего вида
Эквивалентные определения. Замкнутые функции. Непрерывность выпуклых
функций. Теоремы отделимости. Субградиенты и правила их вычисления. Ус-
ловия оптимальности.

... Мотивировка и определения


Настоящая глава посвящена методам решения задачи выпуклой
минимизации общего вида
min f0 (x)
при fi (x) ¶ 0, i = 1, …, m, (.)
x ∈ Q ⊆ Rn ,
где Q –– замкнутое выпуклое множество, а fi (x), i = 0, …, m, –– вы-
пуклые функции общего вида. Общий вид функций подразумевает,
что они могут быть недифференцируемыми. Несомненно, такая за-
дача представляется более сложной, чем гладкая.
Заметим, что задачи негладкой минимизации часто возникают в
различных приложениях. Зачастую некоторые компоненты модели
могут быть составлены из функций типа максимума:
f (x) = max ϕ j (x),
1¶ j ¶ p

где функции ϕ j (x) выпуклы и дифференцируемы. В предыдущем


параграфе было показано, что работать с такими функцией можно
с помощью градиентного отображения. Однако если число гладких
компонент p в этой функции оказывается очень большим, то вычис-
ление градиентного отображения становится слишком трудоемким.
В этом случае разумным является представление функции типа
“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

максимума как выпуклой функции общего вида. Другим мощным


источником возникновения недифференцируемых функций явля-
ется ситуация, когда некоторые компоненты задачи (.) задаются
в неявном виде через решение вспомогательных задач. Такие функ-
ции называются функциями с неявной структурой. Как правило,
эти функции оказываются негладкими.
Начнем с определения понятия выпуклой функции общего вида
(в дальнейшем термин «общего вида» будем часто опускать).
Обозначим через
dom f = x ∈ Rn : | f (x) | < ∞


область определения функции f . Всегда полагаем, что dom f 6= ∅.


Определение ... Функция f (x) называется выпуклой, если ее
область определения является выпуклым множеством и при всех x,
y ∈ dom f и α ∈ [0, 1] выполняется неравенство
f (α x + (1 − α) y) ¶ α f (x) + (1 − α) f ( y).
Функция f называется вогнутой, если функция − f выпукла.
Прежде чем перейти к построению методов решения задачи (.),
отметим следующее. В предыдущей главе мы рассматривали мето-
ды оптимизации, использующие градиенты гладких функций. Для
негладких функций градиент не существует. По этой причине для
негладкого случая необходимо разработать альтернативную техни-
ку поиска оптимального решения. Однако прежде всего нам нужно
изучить свойства обобщенных выпуклых функций и наметить воз-
можности для введения понятия обобщенного градиента. Достиже-
ние поставленной цели сопряжено со многими трудностями, однако
нам необходимо их преодолеть.
Из определения .. напрямую следует такой результат.
Лемма ... (Неравенство Йенсена.) Для любых x1 , …, xm ∈ dom f
и таких коэффициентов α1 , …, αm , что
m
P
αi = 1, αi ¾ 0, i = 1, …, m, (.)
i =1
выполнено неравенство
m
P ‹ Pm
f αi x i ¶ αi f (xi ).
i =1 i =1


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Доказательство. Покажем верность этого утверждения индукцией


по m. Определение .. обеспечивает выполнение данного неравен-
ства для m = 2. Предположим, что оно верно при некотором m ¾ 2.
Для набора m + 1 точек имеет место представление
mP+1 m
P
αi xi = α1 x1 + (1 − α1 ) βi x i ,
i =1 i =1
α
где βi = i+1 . Очевидно, что
1 − α1
m
P
βi = 1, βi ¾ 0, i = 1, …, m.
i =1
Поэтому, используя определение .. и индуктивное предположе-
ние, получаем
mP
+1 ‹  m
P ‹
f αi xi = f α1 x1 + (1 − α1 ) βi x i ¶
i =1 i =1
m
P ‹ mP
+1
¶ α1 f (x1 ) + (1 − α1 ) f βi x i ¶ αi f (xi ).
i =1 i =1
Pm
Точка x = i=1 αi xi с коэффициентами αi , удовлетворяющими
условию (.), называется выпуклой комбинацией точек xi .
Обратим внимание на два важных следствия из неравенства Йен-
сена.
Следствие ... Пусть x есть выпуклая комбинация точек x1 , …
… , xm . Тогда
f (x) ¶ max f (xi ).
1¶i ¶m

Доказательство. В самом деле, в силу неравенства Йенсена и соот-


m
P
ношений αi ¾ 0, αi = 1 получаем
i =1
m
P ‹ Pm
f (x) = f αi x i ¶ αi f (xi ) ¶ max f (xi ).
i =1 i =1 1¶i ¶m

Следствие ... Пусть


§ m
P m
P ª
∆ = Conv{x1 , …, xm } ≡ x = αi xi | αi ¾ 0, αi = 1 .
i =1 i =1

Тогда max x ∈∆ f (x) = max f (xi ).


1¶i ¶n


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Приведем два эквивалентных определения выпуклых функций.


Теорема ... Функция f является выпуклой тогда и только то-
гда, когда для всех таких x, y ∈ dom f и β ¾ 0, что y + β ( y − x) ∈
∈ dom f , выполнено неравенство
f ( y + β ( y − x)) ¾ f ( y) + β ( f ( y) − f (x)). (.)
Доказательство. Пусть функция f выпукла. Введем обозначение
β
α= и u = y + β ( y − x). Тогда
1+β
1
y= (u + β x) = (1 − α)u + α x.
1+β
Поэтому
1 β
f ( y) ¶ (1 − α) f (u) + α f (x) = f (u) + f (x).
1+β 1+β
Пусть верно неравенство (.). Зафиксируем α ∈ (0, 1] и x, y ∈
1−α
∈ dom f . Введем обозначение β = и u = α x + (1 − α) y. Тогда
α
1
x = (u − (1 − α) y) = u + β (u − y).
α
Поэтому
1 1−α
f (x) ¾ f (u) + β ( f (u) − f ( y)) = f (u) − f ( y).
α α
Теорема ... Функция f является выпуклой тогда и только то-
гда, когда ее надграфик

epi( f ) = (x, t) ∈ dom f × R | t ¾ f (x)
есть выпуклое множество.
Доказательство. Действительно, если (x1 , t1 ) и (x2 , t2 ) принадле-
жат надграфику функции f , то для любого α ∈ [0, 1] выполнено
неравенство
αt1 + (1 − α)t2 ¾ α f (x1 ) + (1 − α) f (x2 ) ¾ f (α x1 + (1 − α)x2 ).
Таким образом, (α x1 + (1 − α)x2 , αt1 + (1 − α)t2 ) ∈ epi( f ).
С другой стороны, пусть надграфик epi( f ) является выпуклым.
Заметим, что для x1 , x2 ∈ dom f выполняются включения
(x1 , f (x1 )) ∈ epi( f ), (x1 , f (x2 )) ∈ epi( f ).


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Поэтому (α x1 + (1 − α)x2 , α f (x1 ) + (1 − α) f (x2 )) ∈ epi( f ). Значит,


f (α x1 + (1 − α)x2 ) ¶ α f (x1 ) + (1 − α) f (x2 ).

Нам также понадобится следующее свойство множеств уровней


выпуклых функций.
Теорема ... Если функция f выпукла, то все ее множества уров-
ней 
L f (β ) = x ∈ dom f | f (x) ¶ β
являются либо выпуклыми, либо пустыми.

Доказательство. В самом деле, если x1 ∈ L f (β ) и x2 ∈ L f (β ), то для


любого α ∈ [0, 1] имеем
f (α x1 + (1 − α)x2 ) ¶ α f (x1 ) + (1 − α) f (x2 ) ¶ αβ + (1 − α)β = β .

В дальнейшем мы увидим, что поведение обобщенных выпуклых


функций на границе областей определения иногда бывает непред-
сказуемым. По этой причине введем в рассмотрение следующее по-
лезное понятие.
Определение ... Выпуклая функция f называется замкнутой,
если ее надграфик является замкнутым множеством.
Непосредственно из этого определения вытекает следующая тео-
рема.
Теорема ... Если выпуклая функция f замкнута, то все ее мно-
жества уровней являются либо пустыми, либо замкнутыми.

Доказательство. По определению (L f (β ), β ) = epi( f ) ∩ {(x, t) | t =


= β }. Поэтому надграфик L f (β ) является выпуклым и замкнутым
множеством, как пересечение двух выпуклых замкнутых множеств.

Заметим, что если f –– выпуклая и непрерывная функция и ее


область определения dom f –– замкнутое множество, то f является
замкнутой функцией. Однако в общем случае выпуклая замкнутая
функция не обязательно может быть непрерывной.
Рассмотрим несколько примеров выпуклых функций.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Пример ... . Линейная функция является замкнутой и выпуклой.


. Функция f (x) = | x |, x ∈ R, замкнутая и выпуклая, поскольку ее
надграфик 
(x, t) | t ¾ x, t ¾ − x ,
является пересечением двух замкнутых выпуклых множеств (см.
теорему ..).
. Все дифференцируемые и выпуклые на Rn функции принадлежат
классу обобщенных замкнутых выпуклых функций.
. Функция f (x) = 1/ x, x > 0, выпукла и замкнута. Однако ее область
определения dom f = int R+ есть открытое множество.
. Функция f (x) = k x k, где k · k –– любая норма в Rn , является за-
мкнутой и выпуклой:
f (α x1 + (1 − α)x2 ) = kα x1 + (1 − α)x2 k ¶
¶ kα x1 k + k (1 − α)x2 k =
= αk x1 k + (1 − α)k x2 k
n
для любых x1 , x2 ∈ R и α ∈ [0, 1]. Наиболее важными типами норм
в численном анализе являются так называемые l p -нормы:
n
•P ˜1/ p
k x kp = | x (i) | p , p ¾ 1.
i =1

Среди них обычно используются три следующие:


hP i1/2
n (i) 2
◦ евклидова норма: k x k = i =1 (x ) , p = 2;
Pn
◦ l1 -норма: k x k1 = i=1 | x (i) |, p = 1;
◦ l∞ -норма (норма Чебышёва, равномерная норма, бесконечность-
норма):
k x k∞ = max | x (i) |.
1¶i ¶n

Любая норма определяет систему так называемых шаровых мно-


жеств
Bk·k (x0 , r) = x ∈ Rn | k x − x0 k ¶ r , r ¾ 0,


где r есть радиус шара, а x0 ∈ Rn –– его центр. Шар вида Bk·k (0, 1) на-
зовем единичным шаром в норме k · k. Очевидно, что эти шаровые


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

множества являются выпуклыми (см. теорему ..). Для l p -шара ра-


диуса r будем использовать обозначение
B p (x0 , r) = x ∈ Rn | k x − x0 k p ¶ r .


Отметим следующие соотношения между евклидовым и l1 -шаром:


p
B1 (x0 , r) ⊂ B2 (x0 , r) ⊂ B1 (x0 , r n).
Эти соотношения следуют из стандартных неравенств
Pn n
P ‹2
(x (i))2 ¶ | x (i) | ,
i =1 i =1
 n ‹2 n
1 P 1 P (i) 2
| x (i) | ¶ |x | .
n i =1
n i =1

. В предыдущих примерах нам не попадались выпуклые функции


с необычными или нежелательными характеристиками. Однако по-
смотрим на следующую функцию двух переменных:
¨
0, если x 2 + y 2 < 1,
f (x, y) =
ϕ (x, y), если x 2 + y 2 = 1,

где ϕ (x, y) есть произвольная неотрицательная функция, опреде-


ленная на единичной окружности. Областью определения этой
функции является единичный евклидов круг (замкнутое и выпуклое
множество). Кроме того, легко увидеть, что функция f выпукла. Од-
нако она обладает плохими свойствами на границе своей области
определения. Естественным образом возникает желание исключить
такие функции из рассмотрения. Проще всего это сделать с помо-
щью понятия замкнутой функции. Очевидно, что функция f (x, y)
не является замкнутой, кроме случая ϕ (x, y) ≡ 0.

... Операции с выпуклыми функциями


В предыдущем параграфе мы рассмотрели несколько примеров
выпуклых функций общего вида. Определим теперь для этого клас-
са функций некоторый набор инвариантных операций, который
позволит перейти к рассмотрению более сложных объектов.
Теорема ... Пусть функции f1 и f2 замкнуты и выпуклы, и пусть
β ¾ 0. Тогда все нижеследующие функции также замкнуты и выпуклы:


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

) f (x) = β f1 (x), dom f = dom f1 ;


) f (x) = f1 (x) + f2 (x), dom f = (dom f1 ) ∩ (dom f2 );
) f (x) = max{ f1 (x), f2 (x)}, dom f = (dom f1 ) ∩ (dom f2 ).

Доказательство. . Для первой функции утверждение очевидно:


f (α x1 + (1 − α)x2 ) ¶ β (α f1 (x1 ) + (1 − α) f1 (x2 )).

. Для всех x1 , x2 ∈ (dom f1 ) ∩ (dom f2 ) и α ∈ [0, 1] имеем

f1 (α x1 + (1 − α)x2 ) + f2 (α x1 + (1 − α)x2 ) ¶
¶ α f1 (x1 ) + (1 − α) f1 (x2 ) + α f2 (x1 ) + (1 − α) f2 (x2 ) =
= α( f1 (x1 ) + f2 (x1 )) + (1 − α)( f1 (x2 ) + f2 (x2 )).
Таким образом, функция f (x) выпукла. Докажем ее замкнутость.
Рассмотрим последовательность {(xk , tk )} ⊂ epi( f ):
tk ¾ f1 (xk ) + f2 (xk ), lim xk = x̄ ∈ dom f , lim tk = t̄.
k →∞ k →∞

Поскольку f1 и f2 –– замкнутые функции, справедливо неравенство


inf lim f1 (xk ) ¾ f1 ( x̄), inf lim f2 (xk ) ¾ f2 ( x̄).
k →∞ k →∞

Поэтому
t̄ = lim tk ¾ inf lim f1 (xk ) + inf lim f2 (xk ) ¾ f ( x̄).
k →∞ k →∞ k →∞

Значит  , ( x̄, t̄) ∈ epi f .


. Надграфик функции f (x) запишется в виде

epi f = (x, t) | t ¾ f1 (x)t ¾ f2 (x)x ∈ (dom f1 ) ∩ (dom f2 ) ≡
≡ epi f1 ∩ epi f2 .
Значит, epi f –– замкнутое и выпуклое множество как пересечение
двух замкнутых и выпуклых множеств. Остается применить теоре-
му ...


Важно понимать, что в общем случае для неограниченных выпуклых мно-
жеств это свойство не выполняется. Например, для двумерного случая возьмем
Q1 = {(x, y) | y ¾ 1/ x, x > 0}, а Q2 = {(x, y) | y = 0, x ¶ 0}. Оба эти множества замкну-
ты и выпуклы. Однако их сумма Q1 + Q2 = {(x, y) | y > 0} –– выпуклое, но открытое
множество.


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Следующая теорема показывает, что выпуклость является аффин-


но-инвариантным свойством.
Теорема ... Пусть функция ϕ ( y), y ∈ Rm , является выпуклой и
замкнутой. Рассмотрим линейный оператор
A (x) = Ax + b: Rn → Rm .
Тогда f (x) = ϕ (A (x)) есть выпуклая и замкнутая функция с обла-
стью определения
dom f = x ∈ Rn | A (x) ∈ dom ϕ .


Доказательство. Для x1 и x2 из dom f определим y1 = A (x1 ), y2 =


= A ( y2 ). Тогда для α ∈ [0, 1] имеем
f (α x1 + (1 − α)x2 ) = ϕ (A (α x1 + (1 − α)x2 )) =
= ϕ (α y1 + (1 − α) y2 ) ¶
¶ αϕ ( y1 ) + (1 − α)ϕ ( y2 ) =
= α f (x1 ) + (1 − α) f (x2 ).
Таким образом, функция f (x) выпукла. Замкнутость ее надграфика
следует из непрерывности линейного оператора A (x).
Одним из основных поставщиков выпуклых функций с неявной
структурой является следующее утверждение.
Теорема ... Пусть ∆ есть некоторое множество и

f (x) = sup ϕ ( y, x) | y ∈ ∆ .
y

Предположим, что для любого фиксированного y ∈ ∆ функция ϕ ( y, x)


замкнута и выпукла по x. Тогда f (x) является замкнутой и выпук-
лой функцией с областью определения
§ \ ª
dom f = x ∈ dom ϕ ( y, ·) | ∃γ : ϕ ( y, x) ¶ γ∀ y ∈ ∆ . (.)
y ∈∆

Доказательство. Действительно, если x принадлежит множеству


из правой части уравнения (.), то f (x) < ∞ и, следовательно,
x ∈ dom f . Если x не лежит в этом множестве, то тогда найдет-
ся такая последовательность { yk }, что ϕ ( yk , x) → ∞. Поэтому x не
принадлежит dom f .


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Наконец, очевидно, что (x, t) ∈ epi f тогда и только тогда, когда


выполнены условия

x ∈ dom ϕ ( y, ·), t ¾ ϕ ( y, x)

при всех y ∈ ∆. Это означает, что


\
epi f = epi ϕ ( y, ·).
y ∈∆

Поэтому f является выпуклой и замкнутой функцией, так как каж-


дый надграфик epi ϕ ( y, ·) является выпуклым и замкнутым.

Перейдем теперь к рассмотрению более сложных примеров вы-


пуклых функций.

Пример ... . Функция f (x) = max {x (i) } выпукла и замкнута.


1¶i ¶n
(1) (m) m
. Пусть λ = (λ , …, λ ), а ∆ –– множество в R+ . Рассмотрим
функцию
m
P
f (x) = sup λ(i) fi (x),
λ∈∆ i =1

где функции fi выпуклые и замкнутые. Из теоремы .. следует, что


надграфики функций
m
P
ϕλ (x) = λ(i) fi (x)
i =1

есть выпуклые и замкнутые множества. Значит, функция f (x) вы-


пукла и замкнута в силу теоремы ... Заметим, что мы не делали
никаких предположений относительно структуры множества ∆.
. Пусть Q –– выпуклое множество. Рассмотрим функцию

ψQ (x) = sup 〈 g, x 〉 | g ∈ Q .

Функция ψQ (x) называется опорной функцией множества Q. Из тео-


ремы .. видно, что функция ψQ (x) замкнута и выпукла. Эта функ-
ция является однородной:

ψQ (tx) = t ψQ (x), x ∈ dom Q, t ¾ 0.


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Если множество Q ограничено, то dom ψQ = Rn .


. Пусть Q –– множество в Rn . Рассмотрим функцию ψ(g, γ) =
= sup y ∈Q ϕ ( y, g, γ), где
γ
ϕ ( y, g, γ) = 〈 g, y 〉 − k y k2 .
2
Из теоремы .. следует, что функция ψ(g, γ) замкнутая и выпуклая
по (g, γ). Изучим ее свойства.
Если Q ограничено, то dom ψ = Rn+1 . Рассмотрим случай Q = Rn .
Опишем область определения функции ψ. Если γ < 0, то для любого
g 6= 0 можно взять yα = α g. Ясно, что для таких точек ϕ ( yα , g, γ) → ∞
при α → ∞. Таким образом, dom ψ содержит только такие точки, для
которых γ ¾ 0.
Если γ = 0, то единственное возможное значение g равно нулю,
так как иначе функция ϕ ( y, g, 0) была бы неограничена.
Наконец, если γ > 0, то точка, дающая минимум функции ϕ ( y, g, γ)
по переменной y, равна y ∗ (g, γ) = 1/γ g. В этом случае получаем сле-
дующее выражение для ψ:
k g k2
ψ(g, γ) = .

Таким образом,
если g = 0, γ = 0,
(
0,
ψ(g, γ) = k g k2
, если γ > 0,

с областью определения dom ψ = Rn × {γ > 0} ∪ (0, 0). Заметим,


что эта область является выпуклой, но не замкнутой или открытой.


Тем не менее, ψ есть замкнутая и выпуклая функция. В то же время
эта функция разрывна в начале координат:
p 1
ψ( γ g, γ) ≡ k g k2 , γ 6= 0.
2
... Непрерывность и дифференцируемость
В предыдущем пункте мы показали, что поведение выпуклых
функций в граничных точках их областей определения может быть
неудовлетворительным (см. примеры .. (), .. ()). Это, одна-
ко, единственный недостаток выпуклых функций. Продемонстри-
руем здесь, что структура выпуклых функций во внутренних точках
их областей определения оказывается предельно простой.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Лемма ... Пусть функция f выпукла и x0 ∈ int(dom f ). Тогда f


ограничена сверху в окрестности точки x0 .

Доказательство. Выберем такое ǫ > 0, что x0 ± ǫ ei ∈ int(dom f ),


i = 1, …, n, где ei –– координатный вектор в Rn . Введем обозначение
∆ = Conv{x0 ± ǫ ei , i = 1, …, n}.
p
Покажем, что ∆ ⊃ B2 (x0 , ǭ ), где ǭ = ǫ/ n. Действительно, рассмот-
рим
Pn n
P
x = x0 + h i ei , (hi )2 ¶ ǭ .
i =1 i =1

Можно предположить, что hi ¾ 0 (иначе в этом представлении мож-


но выбрать −ei вместо ei ). Тогда
n
P n
p P
β≡ hi ¶ n (hi )2 ¶ ǫ .
i =1 i =1

Поэтому для h̄i = (1/β )hi имеют место следующие соотношения:


n n
P β P
x = x0 + β h̄i ei = x0 + h̄ ǫ e =
i =1
ǫ i =1 i i
 ‹ n
β β P
= 1− x0 + h̄ (x + ǫ ei ) ∈ ∆.
ǫ ǫ i =1 i 0

Таким образом, используя следствие .., получаем


M ≡ max f (x) ¶ max f (x) ¶ max f (x0 ± ǫ ei ).
x ∈ B2 (x0 ,ǭ ) x ∈∆ 1¶i ¶n

Удивительно, что результат этой леммы обеспечивает непрерыв-


ность выпуклой функции внутри области определения.
Теорема ... Пусть функция f выпукла и x0 ∈ int(dom f ). Тогда f
локально липшицева в точке x0 .

Доказательство. Пусть B2 (x0 , ǫ ) ⊆ dom f и sup{ f (x) | x ∈ B2 (x0 , ǫ )}


не превосходит M (число M конечно в силу леммы ..). Рассмот-
рим y ∈ B2 (x0 , ǫ ), y 6= x0 . Введем обозначение
1 1
α = k y − x0 k, z = x0 + ( y − x0 ).
ǫ α

“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Очевидно, что k z − x0 k = (1/α)k y − x0 k = ǫ . Поэтому α ¶ 1 и y = αz +


+ (1 − α)x0 . Отсюда следует, что
f ( y) ¶ α f (z) + (1 − α) f (x0 ) ¶ f (x0 ) + α(M − f (x0 )) =
M − f (x0 )
= f (x0 ) + k y − x0 k.
ǫ
Далее, пусть u = x0 + 1/α(x0 − y). Тогда k u − x0 k = ǫ и y = x0 +
+ α(x0 − u). Поэтому, принимая во внимание теорему .., получаем
f ( y) ¾ f (x0 ) + α( f (x0 ) − f (u)) ¾ f (x0 ) − α(M − f (x0 )) =
M − f (x0 )
= f (x0 ) − k y − x0 k.
ǫ
M − f (x0 )
Таким образом, | f ( y) − f (x0 ) | ¶ k y − x0 k.
ǫ
Покажем, что выпуклые функции обладают свойством, близким
к дифференцируемости.
Определение ... Пусть x ∈ dom f . Назовем функцию f диффе-
ренцируемой по направлению p в точке x, если существует следую-
щий предел:
1
f ′ (x; p) = lim (.)

f (x + α p) − f (x) .
α↓0 α

Значение f (x; p) называется производной по направлению функции
f в точке x.
Теорема ... Выпуклая функция f дифференцируема по любому
направлению внутри своей области определения.

Доказательство. Пусть x ∈ int(dom f ). Рассмотрим функцию


1 
ϕ (α) = f (x + α p) − f (x) , α > 0.
α
Выберем γ ∈ (0, 1] и α ∈ (0, ǫ ] достаточно малыми, чтобы выполня-
лось условие x + ǫ p ∈ dom f . Тогда
f (x + αβ p) = f ((1 − β )x + β (x + α p)) ¶ (1 − β ) f (x) + β f (x + α p).
Поэтому
1   1 
ϕ (αβ ) = f (x + αβ p) − f (x0 ) ¶ f (x + α p) − f (x) = ϕ (α).
αβ α


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Таким образом, ϕ (α) убывает при α ↓ 0. Выберем γ > 0 достаточно


малым, чтобы выполнялось условие x − γ p ∈ dom f . Тогда из нера-
венства (.) следует, что
1 
ϕ (α) ¾ f (x) − f (x − γ p) .
γ

Таким образом, предел в формуле (.) существует.

Докажем, что для выпуклых функций производная по направле-


нию является глобальной нижней аппроксмацией.
Лемма ... Пусть функция f выпуклая и x ∈ int(dom f ). Тогда
f ′ (x; p) –– выпуклая функция по p, которая является однородной
степени 1. Для любого y ∈ dom f имеет место неравенство
f ( y) ¾ f (x) + f ′ (x; y − x). (.)

Доказательство. Покажем, что производная по направлению поло-


жительно однородна. Действительно, для p ∈ Rn и τ > 0 имеем
1
f ′ (x; τ p) = lim

f (x + τα p) − f (x) =
α↓0 α
1
f (x + β p) − f (x) = τ f ′ (x0 ; p).

= τ lim
β↓0 β

Далее, для любых p1 , p2 ∈ Rn и β ∈ [0, 1] получаем


1
f ′ (x; β p1 + (1 − β )p2 ) = lim

f (x + α(β p1 + (1 − β )p2 )) − f (x) ¶
α↓0 α
1
¶ lim β [ f (x + α p1 ) − f (x)]+
α↓0 α

+ (1 − β )[ f (x + α p2 ) − f (x)] =
=β f ′ (x; p1 ) + (1 − β ) f ′ (x; p2 ).

Таким образом, функция f ′ (x; p) выпукла по p. Наконец, пусть


α ∈ (0, 1], y ∈ dom f и yα = x + α( y − x). Тогда в силу теоремы ..
выполняется неравенство
1 1  
f ( y) = f ( yα + (1 − α)( yα − x)) ¾ f ( yα ) + (1 − α) f ( yα ) − f (x) ,
α α
и мы получаем соотношение (.), перейдя к пределу при α ↓ 0.


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

... Теоремы отделимости


До сих пор мы изучали свойства выпуклых функций, основыва-
ясь только на их значениях и при этом ничего не говоря о возмож-
ных направлениях убывания функции. Но такие направления могут
оказаться полезными для построения алгоритмов минимизации. В
выпуклом анализе они определяются посредством теорем отдели-
мости, являющихся предметом изучения данного пункта.
Определение ... Пусть Q –– выпуклое множество. Будем гово-
рить, что гиперплоскость
H (g, γ) = x ∈ Rn | 〈 g, x 〉 = γ , g 6= 0,


является опорной для Q, если любая точка x ∈ Q удовлетворяет нера-


венству 〈 g, x 〉 ¶ γ.
Будем также говорить, что гиперплоскость H (g, γ) отделяет
точку x0 от множества Q, если
〈 g, x 〉 ¶ γ ¶ 〈 g, x0 〉 (.)
при всех x ∈ Q. Если правое неравенство в формуле (.) строгое, то
будем говорить о строгой отделимости.
Теоремы отделимости можно вывести из свойств проекций.
Определение ... Пусть Q –– замкнутое множество и x0 ∈ Rn . Вве-
дем обозначение

πQ (x0 ) = arg min k x − x0 k : x ∈ Q .

Назовем πQ (x0 ) проекцией точки x0 на множество Q.


Теорема ... Если Q –– выпуклое множество, то существует про-
екция πQ (x0 ), причем единственная.

Доказательство. В самом деле, πQ (x0 ) = arg min{ϕ (x) | x ∈ Q}, где


1,1
функция ϕ (x) = 1/2k x − x0 k2 принадлежит классу S1,1 (Rn ). Поэто-
му проекция πQ (x0 ) единственна и корректно определена в силу
теоремы ...

Очевидно, что πQ (x0 ) = x0 тогда и только тогда, когда x0 ∈ Q.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Лемма ... Пусть Q –– замкнутое выпуклое замкнутое множе-


ство и x0 ∈
/ Q. Тогда для любого x ∈ Q выполняется неравенство
(.)


πQ (x0 ) − x0 , x − πQ (x0 ) ¾ 0.

Доказательство. Заметим, что πQ (x0 ) есть решение задачи мини-


мизации min ϕ (x) с функцией ϕ (x) = (1/2)k x − x0 k2 . Поэтому в силу
x ∈Q
теоремы .. имеет место неравенство


ϕ (πQ (x0 )), x − πQ (x0 ) ¾ 0
для всех x ∈ Q. Остается отметить, что ϕ ′ (x) = x − x0 .

В заключение нам понадобится также обобщенное неравенства


треугольника для проекций.
Лемма ... Для любого x ∈ Q выполняется неравенство
k x − πQ (x0 ) k2 + kπQ (x0 ) − x0 k2 ¶ k x − x0 k2 .

Доказательство. Действительно, из неравенства (.) следует, что


k x − πQ (x0 ) k2 − k x − x0 k2 = x0 − πQ (x0 ), 2x − πQ (x0 ) − x0 ¶

¶ −k x0 − πQ (x0 ) k2 .

Теперь можно перейти к доказательству теорем отделимости.


Сформулируем две из них. Первая обеспечивает возможность стро-
гой отделимости.
Теорема ... Пусть Q является выпуклым замкнутым множе-
ством и x0 ∈
/ Q. Тогда найдется такая гиперплоскость H (g, γ), ко-
торая строго отделяет точку x0 от Q. А именно, можно взять


g = x0 − πQ (x0 ) 6= 0, γ = x0 − πQ (x0 ), πQ (x0 ) .

Доказательство. Действительно, из неравенства (.) вытекает,


что для любого x ∈ Q выполняется неравенство



x0 − πQ (x0 ), x ¶ x0 − πQ (x0 ), πQ (x0 ) =
= x0 − πQ (x0 ), x0 − k x0 − πQ (x0 ) k2 .

Приведем пример применения данной теоремы.


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Следствие ... Пусть Q1 и Q2 –– два выпуклых и замкнутых мно-


жества.
. Если для любого g ∈ dom ψQ2 выполнено неравенство ψQ1 (g) ¶
¶ ψQ2 (g), то Q1 ⊆ Q2 .
. Пусть dom ψQ1 = dom ψQ2 и для любого g ∈ dom ψQ1 выполняется
равенство ψQ1 (g) = ψQ2 (p). Тогда Q1 ≡ Q2 .

Доказательство. . Предположим, что существует точка x0 ∈ Q1 , не


принадлежащая множеству Q2 . Тогда в силу теоремы .. существу-
ет такое направление g, что
〈 g, x0 〉 > γ ¾ 〈 g, x 〉

при всех x ∈ Q2 . Отсюда следует, что g ∈ dom ψQ2 и ψQ1 (g) > ψQ2 (g).
Получили противоречие.
. Из первого пункта следует, что Q1 ⊆ Q2 и Q2 ⊆ Q1 . Поэтому Q1 ≡ Q2.

Вторая теорема отделимости рассматривает граничные точки


выпуклых множеств.
Теорема ... Пусть Q –– выпуклое замкнутое множество, а точ-
ка x0 лежит на его границе. Тогда найдется гиперплоскость H (g, γ),
опорная к Q и проходящая через x0 .
(Вектор g при этом называется опорным к Q в точке x0 .)

Доказательство. Рассмотрим такую последовательность { yk }, что


/ Q и yk → x0 . Обозначим
yk ∈
yk − πQ ( yk )

gk = , γk = gk , πQ ( yk ) .
k yk − πQ ( yk ) k

В силу теоремы .. при всех x ∈ Q имеет место неравенство


〈 gk , x 〉 ¶ γk ¶ 〈 gk , yk 〉. (.)
Однако k gk k = 1, и последовательность {γk } ограничена:
|γk | = |〈 gk , πQ ( yk ) − x0 〉 + 〈 gk , x0 〉| ¶
¶ kπQ ( yk ) − x0 k + k x0 k ¶ k yk − x0 k + k x0 k


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Первое неравенство следует из леммы ... Поэтому без поте-


ри общности можно предположить, что найдутся g∗ = limk→∞ gk и
γ∗ = limk→∞ γk . Остается перейти к пределу в неравенстве (.).

... Субградиенты
Теперь у нас есть все возможности для введения понятия обоб-
щенного градиента.
Определение ... Пусть f –– выпуклая функция. Вектор g называ-
ется субградиентом функции f в точке x0 ∈ dom f , если для любого
x ∈ dom f выполняется неравенство
f (x) ¾ f (x0 ) + 〈 g, x − x0 〉. (.)
Множество ∂ f (x0 ) всех субградиентов для f в x0 называется субдиф-
ференциалом функции f в точке x0 .
Необходимость введения понятия субдифференциала вытекает
из следующего примера.
Пример ... Рассмотрим функцию f (x) = | x |, x ∈ R. Для всех y ∈ R
и g ∈ [−1, 1] имеет место неравенство
f ( y) = | y | ¾ g · y = f (0) + g · ( y − 0).
Поэтому субградиент для f в точке x = 0 не является единственным.
В нашем примере он равен всему отрезку [−1, 1].
Все множество неравенств (.), x ∈ dom f , можно рассматри-
вать как семейство линейных ограничений, определяющих множе-
ство ∂ f (x0 ). Поэтому по определению субдифференциал является
выпуклым замкнутым множеством.
Заметим, что субдифференцируемость функции подразумевает
ее выпуклость.
Лемма ... Пусть для любого x ∈ dom f субдифференциал ∂ f (x)
непуст. Тогда f –– выпуклая функция.
Доказательство. В самом деле, пусть x, y ∈ dom f , α ∈ [0, 1]. Рас-
смотрим yα = x + α( y − x). Пусть g ∈ ∂ f ( yα ). Тогда
f ( y) ¾ f ( yα ) + 〈 g, y − yα 〉 = f ( yα ) + (1 − α)〈 g, y − x 〉,
f (x) ¾ f ( yα ) + 〈 g, x − yα 〉 = f ( yα ) − α〈 g, y − x 〉.


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Складывая эти неравенства, умноженные на α и 1 − α соответствен-


но, получим
α f ( y) + (1 − α) f (x) ¾ f ( yα ).

С другой стороны, можно доказать и обратное утверждение.


Теорема ... Пусть функция f (x) выпукла и замкнута и x0 ∈
∈ int(dom f ). Тогда ∂ f (x0 ) –– непустое ограниченное множество.

Доказательство. Заметим, что точка ( f (x0 ), x0 ) принадлежит гра-


нице надграфика epi( f ). Значит, по теореме .. найдется гипер-
плоскость, опорная к epi( f ) в ( f (x0 ), x0 ):
−ατ + 〈d, x 〉 ¶ −α f (x0 ) + 〈d, x0 〉 (.)
при всех (τ, x) ∈ epi( f ). Отметим, что можно взять
k d k2 + α2 = 1. (.)
Так как при всех τ ¾ f (x0 ) точка (τ, x0 ) принадлежит epi( f ), мы
заключаем, что α ¾ 0.
Вспомним, что выпуклая функция является локально ограничен-
ной сверху внутри своей области определения (лемма ..). Это
означает, что найдутся такие ǫ > 0 и M > 0, что B2 (x0 , ǫ ) ⊆ dom f и
f (x) − f (x0 ) ¶ M k x − x0 k
при всех x ∈ B2 (x0 , ǫ ). Поэтому из неравенства (.) следует, что для
любого x ∈ B2 (x0 , ǫ ) выполняются неравенства
〈d, x − x0 〉 ¶ α( f (x) − f (x0 )) ¶ α M k x − x0 k.
Выбирая x = x0 + ǫ d, получаем k d k2 ¶ M αk d k. Таким образом, из
условия нормировки (.) следует, что
1
α¾ p .
1 + M2
Отсюда, выбирая g = d /α, получаем
f (x) ¾ f (x0 ) + 〈 g, x − x0 〉
при всех x ∈ dom f .
В заключение, если g ∈ ∂ f (x0 ), g 6= 0, то, выбирая x = x0 + ǫ g/k g k,
получим
ǫk g k = 〈 g, x − x0 〉 ¶ f (x) − f (x0 ) ¶ M k x − x0 k = M ǫ .


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Значит, ∂ f (x0 ) –– ограниченное множество.


Покажем, что условие этой теоремы нельзя ослабить.
p
Пример ... Рассмотрим функцию f (x) = − x на множестве
{x ∈ R | x ¾ 0}. Эта функция выпукла и замкнута, но ее субдиффе-
ренциал в точке x = 0 не существует.
Установим важную взаимосвязь между субдифференциалом вы-
пуклой функции и производной по направлению.
Теорема ... Пусть f –– выпуклая замкнутая функция. Тогда для
любых x0 ∈ int(dom f ) и p ∈ Rn имеет место равенство
f ′ (x0 ; p) = max 〈 g, p 〉 | g ∈ ∂ f (x0 ) .


Доказательство. Заметим, что


1
f ′ (x0 ; p) = lim (.)

f (x0 + α p) − f (x0 ) ¾ 〈 g, p 〉,
α↓0 α
где g –– произвольный вектор из ∂ f (x0 ). Поэтому субдифференци-
ал функции f ′ (x0 ; p) в точке p = 0 является непустым и ∂ f (x0 ) ⊆
⊆ ∂ p f ′ (x0 ; 0). С другой стороны, поскольку производная f ′ (x0 ; p)
выпукла по p, из леммы .. следует, что для любого y ∈ dom f
выполняются неравенства
f ( y) ¾ f (x0 ) + f ′ (x0 ; y − x0 ) ¾ f (x0 ) + 〈 g, y − x0 〉,
где g ∈ ∂ p f ′ (x0 ; 0). Таким образом, ∂ p f ′ (x0 ; 0) ⊆ ∂ f (x0 ), и, значит,
∂ f (x0 ) ≡ ∂ p f ′ (x0 ; 0).
Рассмотрим g p ∈ ∂ p f ′ (x0 ; p). В силу неравенства (.) для любых
υ ∈ Rn и τ > 0 имеем
τ f ′ (x0 ; υ) = f ′ (x0 ; τυ) ¾ f ′ (x0 ; p) + 〈 g p , τυ − p 〉.
Переходя к пределу при τ → ∞, заключаем, что
f ′ (x0 ; υ) ¾ 〈 g p , υ〉, (.)
а переходя к пределу при τ → 0, получаем
f ′ (x0 ; p) − 〈 g p , p 〉 ¶ 0. (.)

Однако неравенство (.) подразумевает, что g p ∈ ∂ p f (x0 ; 0). По-
этому, сравнивая неравенства (.) и (.), делаем вывод, что
〈 g p , p 〉 = f ′ (x0 ; p).


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

В заключение этого пункта отметим несколько свойств субгради-


ентов, чрезвычайно важных в теории оптимизации. Начнем с усло-
вия оптимальности.
Теорема ... Равенство f (x ∗ ) = min x ∈dom f f (x) имеет место то-
гда и только тогда, когда
0 ∈ ∂ f (x ∗ ).
Доказательство. Действительно, если 0 ∈ ∂ f (x ∗ ), то f (x) ¾ f (x ∗ ) +
+ 〈0, x − x ∗ 〉 = f (x ∗ ) для всех x ∈ dom f . С другой стороны, если
f (x) ¾ f (x ∗ ) при всех x ∈ dom f , то 0 ∈ ∂ f (x ∗ ), как следует из опре-
деления ...

Следующий результат закладывает основу для построения мето-


дов отсекающей гиперплоскости.
Теорема ... Для любого x0 ∈ dom f все векторы g ∈ ∂ f (x0 ) явля-
ются опорными к множеству уровней L f ( f (x0 )):

〈 g, x0 − x 〉 ¾ 0 ∀ x ∈ L f ( f (x0 )) ≡ x ∈ dom f | f (x) ¶ f (x0 ) .

Доказательство. В самом деле, если f (x) ¶ f (x0 ) и g ∈ ∂ f (x0 ), то


f (x0 ) + 〈 g, x − x0 〉 ¶ f (x) ¶ f (x0 ).

Следствие ... Пусть Q ⊆ dom f –– выпуклое и замкнутое множе-


ство, x0 ∈ Q и
x ∗ = arg min f (x) | x ∈ Q .


Тогда для любого g ∈ ∂ f (x0 ) имеет место неравенство 〈 g, x0 − x ∗ 〉 ¾ 0.

... Вычисление субградиентов


Введенные в предыдущем пункте субградиенты будут в даль-
нейшем использоваться при построении схем минимизации. Од-
нако для применения этих схем на практике необходимо быть
уверенным, что субградиенты могут быть эффективно вычислены.
Приведем здесь некоторые правила таких вычислений.
Лемма ... Пусть функция f выпукла и замкнута. Предположим,
что она дифференцируема на всей своей области определения. Тогда
∂ f (x) = { f ′ (x)} для всех x ∈ int(dom f ).


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Доказательство. Зафиксируем некоторую точку x ∈ int(dom f ). По


теореме .. для любого направления p ∈ Rn и любого g ∈ ∂ f (x)
имеем


f (x), p = f ′ (x; p) ¾ 〈 g, p 〉.

Меняя знак p, получаем, что 〈 f ′ (x), p 〉 = 〈 g, p 〉 при всех g ∈ ∂ f (x).


Наконец, рассматривая p = ek , k = 1, …, n, получаем g = f ′ (x).

Рассмотрим операции с выпуклыми функциями, описанные в


п. ... Покажем, как при этом меняется субградиент.
Лемма ... Пусть функция f ( y) выпукла и замкнута на dom f ⊆
⊆ Rm . Рассмотрим линейный оператор

A (x) = Ax + b: Rn → Rm .

Функция ϕ (x) = f (A (x)) также будет выпуклой и замкнутой с об-


ластью определения dom ϕ = {x | A (x) ∈ dom f }. При этом для лю-
бого x ∈ int(dom ϕ ) выполняется неравенство
∂ϕ (x) = AT ∂ f (A (x)).

Доказательство. Мы уже доказали первую часть этой леммы в тео-


реме ... Обоснуем теперь формулу для субдифференциала.
Действительно, пусть y0 = A (x0 ). Тогда для всех p ∈ Rn имеет ме-
сто равенство
ϕ ′ (x0 , p) = f ′ ( y0 ; Ap) = max 〈 g, Ap 〉 | g ∈ ∂ f ( y0 ) =


= max 〈 ḡ, p 〉 | ḡ ∈ AT ∂ f ( y0 ) .


Используя теорему .. и следствие .., получаем


∂ϕ (x0) = AT ∂ f (A (x0 )).

Лемма ... Пусть f1 (x) и f2 (x) –– выпуклые замкнутые функции и


α1 , α2 ¾ 0. Тогда функция f (x) = α1 f1 (x) + α2 f2 (x) является выпук-
лой и замкнутой и
∂ f (x) = α1 ∂ f1 (x) + α2 ∂ f2 (x) (.)
для любого x ∈ int(dom f ) = int(dom f1 ) ∩ int(dom f2 ).


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Доказательство. В силу теоремы .. нам нужно доказать только


соотношение для субдифференциалов. Рассмотрим x0 ∈ int(dom f1 ) ∩
∩ int(dom f2 ). Тогда для любого p ∈ Rn имеем

f ′ (x0 ; p) =α1 f1′ (x0 ; p) + α2 f2′ (x0 ; p) =



= max 〈 g1 , α1 p 〉 | g1 ∈ ∂ f1 (x0 ) +

+ max 〈 g2 , α2 p 〉 | g2 ∈ ∂ f2 (x0 ) =

= max 〈α1 g1 + α2 g2 , p 〉 | g1 ∈ ∂ f1 (x0 ), g2 ∈ ∂ f2 (x0 ) =

= max 〈 g, p 〉 | g ∈ α1 ∂ f1 (x0 ) + α2 ∂ f2 (x0 ) .

Заметим, что оба множества ∂ f1 (x0 ) и ∂ f1 (x0 ) ограничены. Отсю-


да, используя теорему .. и следствие .., получаем соотноше-
ние (.).

Лемма ... Пусть функции fi (x), i = 1, …, m, выпуклые и замкну-


тые. Тогда функция f (x) = max1¶i¶m fi (x) также
Tm является выпук-
лой и замкнутой. Для любого x ∈ int(dom f ) = i=1 int(dom fi ) име-
ет место равенство

(.)

∂ f (x) = Conv ∂ fi (x) | i ∈ I(x) ,

где I(x) = {i | fi (x) = f (x)}.

Доказательство. Как и раньше, в силу теоремы .. нам остается


только
Tm получить выражение для субдифференциалов. Рассмотрим
x ∈ i=1 int(dom fi ). Пусть I(x) = {1, …, k}. Тогда для любого p ∈ Rn
имеет место соотношение

f ′ (x; p) = max fi′ (x; p) = max max 〈 gi , p 〉 | gi ∈ ∂ fi (x) .



1¶i ¶k 1¶i ¶k

Заметим, что для любого множества значений a1 , …, ak выполнено


равенство
k
§P ª
max ai = max λi ai | {λi } ∈ ∆k ,
1¶i ¶k i =1


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Pk
где ∆k = λi ¾ 0, i=1 λi = 1 –– k-мерный симплекс. Поэтому


k
§P ª
f ′ (x; p) = max

λi max 〈 gi , p 〉 | gi ∈ ∂ fi (x) =
{λi }∈∆k i =1
k
§­ P · ª
= max λi gi , p | gi ∈ ∂ fi (x), {λi } ∈ ∆k =
i =1
§ k
P ª
= max 〈 g, p 〉 | g = λi gi , gi ∈ ∂ fi (x), {λi } ∈ ∆k =
i =1

= max 〈 g, p 〉 | g ∈ Conv{∂ fi (x), i ∈ I(x)} .

Последнее утверждение полезно в тех случаях, когда нам доста-


точно вычислить лишь один элемент субдифференциала выпуклой
функции.
Лемма ... f (x) = sup{ϕ ( y, x) | y ∈ ∆}, где ∆ –– некоторое множе-
ство. Предположим, что для любого фиксированного y ∈ ∆ функция
ϕ ( y, x) выпукла и замкнута по x. Тогда функция f (x) является за-
мкнутой и выпуклой.
Кроме того, для любого x из множества
dom f = x ∈ Rn | ∃γ : ϕ ( y, x) ¶ γ∀ y ∈ ∆


выполнено включение

∂ f (x) ⊇ Conv ∂ϕ x ( y, x) | y ∈ I(x) ,
где I(x) = { y | ϕ ( y, x) = f (x)}.

Доказательство. Из теоремы .. следует, что необходимо уста-


новить только последнее включение. Итак, для любых x ∈ dom f ,
y ∈ I(x) и g ∈ ∂ϕ x ( y, x) имеет место цепочка неравенств
f (x) ¾ ϕ ( y, x) ¾ ϕ ( y, x0 ) + 〈 g, x − x0 〉 = f (x0 ) + 〈 g, x − x0 〉.

Приведем несколько примеров субдифференциалов.


Пример ... . Пусть f (x) = | x | , x ∈ R. Тогда ∂ f (0) = [−1, 1], по-
скольку
f (x) = max g · x.
−1¶ g¶1


“Nesterov-final” — // — : — page  — #

§ .. Выпуклые функции общего вида

Pm
. Рассмотрим функцию f (x) = i=1 |〈ai , x 〉 − bi |. Введем обозначе-
ния
I− (x) = {i | 〈ai , x 〉 − bi < 0},
I+ (x) = {i | 〈ai , x 〉 − bi > 0},
I0 (x) = {i | 〈ai , x 〉 − bi = 0}.
P P P
Тогда ∂ f (x) = ai − ai + [−ai , ai ].
i ∈ I+ (x) i ∈ I− (x) i ∈ I0 (x)

. Рассмотрим функцию f (x) = max1¶i¶n x (i) . Пусть I(x) = {i : x (i) =


= f (x)}. Тогда ∂ f (x) = Conv{ei | i ∈ I(x)}. Для x = 0 получаем

∂ f (0) = Conv ei | 1 ¶ i ¶ n ≡ ∆n .
. Для евклидовой нормы f (x) = k x k имеют место равенства

∂ f (0) = B2 (0, 1) = x ∈ Rn | k x k ¶ 1 ,


∂ f (x) = x /k x k , x 6= 0.
Pn
. Для l1 -нормы f (x) = k x k1 = i=1 | x (i) | получаем

∂ f (0) = B∞ (0, 1) = x ∈ Rn | max | x (i) | ¶ 1 ,



1¶i ¶n
P P P
∂ f (x) = ei − ei + [−ei , ei ], x 6= 0,
i ∈ I+ (x) i ∈ I− (x) i ∈ I0 (x)

где I+ (x) = {i | x (i) > 0}, I− (x) = {i | x (i) < 0} и I0 (x) = {i | x (i) = 0}.
Проверку данных представлений мы оставляем читателю в каче-
стве упражнения.
В заключение этого параграфа приведем пример применения из-
ложенной техники для вывода условия оптимальности гладкой за-
дачи минимизации с функциональными ограничениями.
Теорема ... (Теорема Куна––Таккера). Пусть fi (x) –– диффе-
ренцируемые выпуклые функции, i = 0, …, m. Предположим, что
найдется такая точка x̄, что fi ( x̄) < 0 при всех i = 1, …, m (условие
Слэйтера).
Точка x ∗ является решением задачи
(.)

min f0 (x) | fi (x) ¶ 0, i = 1, …, m


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

тогда и только тогда, когда она удовлетворяет приведенным вы-


ше ограничениям и найдутся такие неотрицательные числа λi ,
i = 1, …, m, что P
f0′ (x ∗ ) + λi fi′ (x ∗ ) = 0,
i∈I ∗
∗ ∗
где I = {i ∈ [1, m] : fi (x ) = 0}.

Доказательство. В силу леммы .. точка x ∗ доставляет решение


задачи (.) тогда и только тогда, когда она является точкой гло-
бального минимума функции
ϕ (x) = max f0 (x) − f ∗ ; fi (x), i = 1, …, m .


Ввиду теоремы .. это имеет место в том и только в том случае, ес-
ли 0 ∈ ∂ϕ (x ∗). Далее, по лемме .. это верно тогда и только тогда,
когда существуют такие неотрицательные числа λ̄i , что
P P
λ̄0 f0′ (x ∗ ) + λ̄i fi′ (x ∗ ) = 0, λ̄0 + λ̄i = 1.
i∈I ∗ i∈I ∗

Таким образом, осталось доказать, что λ̄0 > 0. Действительно, если


λ̄0 = 0, то
P P 
λ̄i fi (x ∗ ) + 〈 fi′ (x ∗ ), x̄ − x ∗ 〉 = 0,

λ̄i fi ( x̄) ¾
i∈I ∗ i∈I ∗

что противоречит условию Слэйтера. Поэтому λ̄0 > 0, и можно взять


λi = λ̄i /λ̄0 , i ∈ I ∗ .

Теорема .. часто применяется при решении простых задач оп-


тимизации.
Лемма ... Пусть A ≻ 0. Тогда
max 〈c, x 〉 : 〈 Ax, x 〉 ¶ 1 = 〈 A−1 c, c〉1/2 .

x

Доказательство. Заметим, что все условия теоремы .. выполне-


ны и решение x ∗ рассматриваемой задачи достигается на границе
допустимого множества. Поэтому в соответствии с теоремой ..
нужно решить следующие уравнения:
c = λ Ax ∗ , 〈 Ax ∗ , x ∗ 〉 = 1.
Таким образом, λ = 〈 A−1 c, c〉1/2 , и x ∗ = (1/λ)A−1 c.


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

§ .. Методы негладкой минимизации


Нижние границы сложности для общего случая. Основная лемма. Локализую-
щие множества. Субградиентный метод. Схема условной минимизации. Опти-
мизация в конечномерном случае и нижние границы аналитической сложно-
сти. Схема отсекающей гиперплоскости. Метод центра тяжести. Метод эллип-
соидов. Другие методы.

... Нижние границы сложности для общего случая


В предыдущем параграфе мы ввели в рассмотрение класс выпук-
лых функций общего вида. Эти функции могут быть негладкими, из-
за чего решение соответствующих задач минимизации существен-
но усложняется. Попытаемся, как и для гладких задач, получить
нижние границы аналитической сложности для этого более общего
случая, что даст нам возможность правильно оценивать эффектив-
ность различных методов негладкой минимизации.
Получим нижние границы сложности для следующей задачи без-
условной минимизации:
minn f (x), (.)
x ∈R

где f –– выпуклая функция. Итак, рассматриваемый нами класс за-


дач выглядит следующим образом.

Модель: . Безусловная минимизация. (.)


. Функция f выпукла на Rn и липшицева на
неком ограниченном множестве.
Оракул: Черный ящик первого порядка:
в каждой точке x̂ можно вычислить f ( x̂),
g( x̂) ∈ ∂ f ( x̂), g( x̂) есть произвольный субгра-
диент.
Приближенное решение:
Найти x̄ ∈ Rn | f ( x̄) − f ∗ ¶ ǫ .
Методы: Формируют последовательность
{xk }: xk ∈ x0 + Lin{g(x0 ), …, g(xk−1)}.

По аналогии с п. .., для вывода нижней границы сложности


рассматриваемого класса задач изучим поведение численных мето-
дов на примере некоторых плохих функций.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Зафиксируем две константы µ > 0 и γ > 0. Рассмотрим семейство


функций
µ
fk (x) = γ max x (i) + k x k2 , k = 1, …, n.
1¶i ¶k 2

Используя правила вычисления субградиентов, описанные в п. ..,


можно получить выражение для субдифференциала функции fk в
точке x:

∂ fk (x) = µ x + γ Conv ei | i ∈ I(x) ,
n o
I(x) = j | 1 ¶ j ¶ k, x ( j) = max x (i) .
1¶i ¶k

Таким образом, для любых x, y ∈ B2 (0, ρ ), ρ > 0 и gk ( y) ∈ ∂ fk ( y) име-


ем

fk ( y) − fk (x) ¶ 〈 gk ( y), y − x 〉 ¶
¶ k gk ( y) k · k y − x k ¶ (µρ + γ)k y − x k.

Поэтому fk липшицева на B2 (0, ρ ) с константой Липшица M = µρ + γ.


Далее, рассмотрим точку xk∗ с координатами
¨ γ
− , 1 ¶ i ¶ k,
(xk∗ )(i) = µk
0, k + 1 ¶ i ¶ n.

Легко проверить, что 0 ∈ ∂ fk (xk∗ ). Поэтому xk∗ есть минимум функ-


ции fk (x) (см. теорему ..). Заметим, что

γ γ2 µ γ2
Rk ≡ k xk∗ k = p , fk∗ = − + R2k = − .
µ k µk 2 2µ k

Опишем теперь сопротивляющийся оракул для функции fk (x). По-


скольку аналитическая форма этой функции зафиксирована, сопро-
тивление оракула может состоять только в предоставлении наихуд-
шего из возможных субградиентов в каждой пробной точке. Алго-
ритмическая схема такого оракула выглядит следующим образом.


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

Вход: x ∈ Rn .
Ядро: f := −∞; i ∗ := 0;
for j := 1 to k do
if x ( j) > f then { f := x ( j) ; i ∗ := j};
µ
f := γ f + k x k2 ; g := γei∗ + µ x;
2
Выход: fk (x) := f , gk (x) := g ∈ Rn .
На первый взгляд в приведенной схеме нет ничего специфическо-
го. Ядро оракула представляет собой стандартную процедуру поиска
максимальной координаты вектора из Rn . Однако очень важно, что
субградиент в этом оракуле всегда формируется как координатный
вектор. Кроме того, его ненулевая координата соответствует i ∗ ––
минимально возможному номеру максимальной компоненты век-
тора x (их может быть несколько). Посмотрим, как может выглядеть
минимизирующая последовательность, построенная с помощью та-
кого оракула.
Выберем начальную точку x0 = 0. Введем обозначение
R p,n = x ∈ Rn | x (i) = 0, p + 1 ¶ i ¶ n .


Так как x0 = 0, ответ оракула будет fk (x0 ) = 0 и gk (x0 ) = γe1 . Поэтому


следующая точка последовательности –– точка x1 –– с необходимо-
стью принадлежит R1,n . Предположим теперь, что текущая точка по-
следовательности xi принадлежит R p,n , 1 ¶ p ¶ k. Тогда оракул даст
субградиент
g = µ x i + γei ∗ ,
где i ∗ ¶ p + 1. Поэтому следующая точка последовательности xi+1
лежит в R p+1,n .
Это простое рассуждение показывает, что при всех i, 1 ¶ i ¶ k, мы
получаем xi ∈ Ri,n . Следовательно, для i, 1 ¶ i ¶ k − 1, мы не сможем
улучшить начальное значение целевой функции:
( j)
fk (xi ) ¾ γ max xi = 0.
1¶ j ¶k

Переведем все вышесказанное в термины нижней границы анали-


тической сложности. Зафиксируем параметры R > 0 и M > 0 нашего
класса задач P (x0 , R, M). В дополнение к (.) предположим, что


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

◦ решение x ∗ задачи (.) существует, и x ∗ ∈ B2 (x0 , R).


◦ f –– липшицева функция на B2 (x0 , R) с константой M > 0.
Теорема ... В любом классе P (x0 , R, M) и для любого k, 0 ¶ k ¶
¶ n − 1, найдется такая функция f ∈ P (x0 , R, M), что
MR
f (xk ) − f ∗ ¾ p
2(1 + k + 1)
для любой схемы оптимизации, которая генерирует последователь-
ность {xk }, удовлетворяющую условию

xk ∈ x0 + Lin g(x0 ), …, g(xk−1 ) .

Доказательство. Без потери общности можно предположить что


x0 = 0. Выберем f (x) = fk+1 (x),
p
k + 1M M
γ= p , µ= p .
1+ k+1 (1 + k + 1)R
Тогда
γ2 MR
f ∗ = fk∗+1 = − =− p ,
2µ(k + 1) 2(1 + k + 1)
γ
k x 0 − x ∗ k = R k +1 = p =R
µ k+1
и f (x) –– липшицева функция на B2 (x0 , R) с постоянной µR + γ = M.
Заметим, что xk ∈ Rk,n . Отсюда следует, что f (xk ) − f ∗ ¾ − f ∗ .

Нижняя граница сложности, представленная в теореме .., яв-


ляется равномерной по размерности пространства переменных.
Как и нижняя граница в теореме .., она дает нам полезную
информацию о задачах очень высокой размерности и о возмож-
ной эффективности начальных итераций методов минимизации
(k ¶ n − 1).
Позже мы увидим, что полученная нижняя граница является точ-
ной, т. е. существуют методы минимизации, скорость сходимости
которых пропорциональна этой границе. Сравнивая ее с нижней
границей сложности для гладких задач, можно заметить, что теперь
неулучшаемая скорость сходимости стала гораздо медленнее. Одна-
ко надо помнить, что мы рассматриваем теперь наиболее общий и
сложный класс задач выпуклой оптимизации.


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

... Основная лемма


Рассмотрим следующую задачу минимизации:
(.)

min f (x) | x ∈ Q ,
где Q –– выпуклое замкнутое множество, а f –– выпуклая на Rn функ-
ция. Изучим поведение некоторых методов решения задачи (.),
использующих субградиенты g(x) исходной целевой функции. По
сравнению с гладким случаем, решение задачи (.) представляет-
ся гораздо более трудным. Действительно, даже в простейшей ситу-
ации, когда Q ≡ Rn , субградиент является плохой заменой градиен-
та гладкой функции. Например, нельзя быть уверенным, что значе-
ние целевой функции будет убывать в направлении − g(x). Нельзя
также ожидать, что g(x) → 0 при x, стремящемся к решению исход-
ной задачи, и т. д.
С другой стороны, субградиенты обладают одним очень полез-
ным свойством, которое позволяет спасти ситуацию. Мы доказали
это свойство в следствии ..:
в любой точке x ∈ Q выполнено неравенство
〈 g(x), x − x ∗ 〉 ¾ 0. (.)
Это простое неравенство приводит к двум следствиям, которые ле-
жат в основе любого метода негладкой минимизации. А именно,
◦ расстояние между x и x ∗ убывает в направлении − g(x);
◦ неравенство (.) разделяет Rn на два полупространства, при-
чем известно, какое из них содержит x ∗ .
В методах негладкой минимизации не удается использовать прин-
ципы релаксации и аппроксимации. Здесь применяется другая тех-
ника, основанная на локализации решения. Однако для ее исполь-
зования нам необходимо разработать специальный аппарат, позво-
ляющий оценивать качество приближенного решения задачи (.).
Этому и будет посвящен настоящий пункт.
Зафиксируем некоторую точку x̄ ∈ Rn . Для x ∈ Rn , g(x) 6= 0, опре-
делим
1
υ f ( x̄, x) = 〈 g(x), x − x̄ 〉.
k g(x) k

При g(x) = 0 положим υ f ( x̄; x) = 0. Очевидно, что υ f ( x̄, x) ¶ k x − x̄ k.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Значения υ f ( x̄, x) имеют естественную геометрическую интерпре-


тацию. Рассмотрим такую точку x, что g(x) 6= 0 и 〈 g(x), x − x̄ 〉 ¾ 0.
Пусть y = x̄ + υ f (x)g(x)/k g(x) k. Тогда
〈 g(x), x − y 〉 = 〈 g(x), x − x̄ 〉 − υ f ( x̄, x)k g(x) k = 0
и k y − x̄ k = υ f ( x̄, x). Таким образом, υ f ( x̄, x) есть расстояние от
точки x̄ до гиперплоскости { y : 〈 g(x), x − y 〉 = 0}.
Введем в рассмотрение функцию, измеряющую отклонение зна-
чений функции f от ее значения в точке x̄. Для t ¾ 0 определим

ω f ( x̄; t) = max f (x) − f ( x̄) | k x − x̄ k ¶ t .
Если t < 0, то будем считать что ω f ( x̄; t) = 0.
Очевидно, что функция ω f обладает следующими свойствами:
◦ ω f ( x̄; 0) = 0 при всех t ¶ 0;
◦ ω f ( x̄; t) –– неубывающая функция от t ∈ R;
◦ f (x) − f ( x̄) ¶ ω f ( x̄; k x − x̄ k).
Важно, что в выпуклом случае последнее неравенство можно уси-
лить.
Лемма ... Для любого x ∈ Rn имеет место неравенство
f (x) − f ( x̄) ¶ ω f ( x̄; υ f ( x̄; x)). (.)
Если функция f (x) липшицева на B2 ( x̄, R) с некоторой константой
M, то
f (x) − f ( x̄) ¶ M(υ f ( x̄; x))+ (.)
при всех x ∈ Rn , υ f ( x̄; x) ¶ R.
Доказательство. Если 〈 g(x), x − x̄ 〉 ¶ 0, то
f ( x̄) ¾ f (x) + 〈 g(x), x̄ − x 〉 ¾ f (x).
Это означает, что υ f ( x̄; x) ¶ 0. Отсюда следует, что ω f ( x̄; υ f ( x̄; x)) = 0,
и неравенство (.) верно.
Пусть 〈 g(x), x − x̄ 〉 > 0. Для
υ f ( x̄; x)g(x)
y = x̄ +
k g(x) k
имеем 〈 g(x), y − x̄ 〉 = 0 и k y − x̄ k = υ f ( x̄; x). Поэтому
f ( y) ¾ f (x) + 〈 g(x), y − x 〉 = f (x)


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

и
f (x) − f ( x̄) ¶ f ( y) − f ( x̄) ¶ ω f ( x̄; k y − x̄ k) = ω f ( x̄; υ f ( x̄; x)).
Если функция f липшицева на B2 ( x̄, R) и 0 ¶ υ f ( x̄; x) ¶ R, то y ∈
∈ B2 ( x̄, R). Значит,
f (x) − f ( x̄) ¶ f ( y) − f ( x̄) ¶ M k y − x̄ k = M υ f ( x̄; x).
Зафиксируем некоторую точку x ∗ , являющуюся решением зада-
чи (.). Значения υ f (x ∗ ; x) позволяют оценить качество множеств
локализации.
Определение ... Пусть {xi }∞i =0 –– последовательность точек из Q.
Определим
Sk = x ∈ Q | 〈 g(xi ), xi − x 〉 ¾ 0, i = 0, …, k .


Будем называть эту область множеством локализации задачи (.),


порожденной последовательностью {xi }∞
i =0 .

Заметим, что из неравенства (.) следует, что x ∗ ∈ Sk при всех


k ¾ 0.
Введем обозначение
υi = υ f (x ∗ ; xi ) (¾ 0), υ∗k = min υi .
0¶i ¶k

Таким образом,
υ∗k = max r | 〈 g(xi ), xi − x 〉 ¾ 0, i = 0, …, k, ∀ x ∈ B2 (x ∗ , r) .


Лемма ... Пусть fk∗ = min f (xi ). Тогда fk∗ − f ∗ ¶ ω f (x ∗ ; υ∗k ).


0¶i ¶k

Доказательство. Используя лемму .., получаем


ω f (x ∗ ; υ∗k ) = min ω f (x ∗ ; υi ) ¾ min f (xi ) − f ∗ = fk∗ − f ∗ .
 
0¶i ¶k 0¶i ¶k

... Субградиентный метод


Теперь мы можем оценить эффективность некоторых схем мини-
мизации. Рассмотрим задачу
(.)

min f (x) | x ∈ Q ,
где функция f выпукла на Rn , а Q –– простое выпуклое и замкнутое
множество. Под «простым» мы подразумеваем множество, на кото-
ром мы можем в явном виде решить некоторые вспомогательные


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

задачи минимизации. В соответствии с целями данного пункта, нам


нужно уметь находить евклидову проекцию любой точки на множе-
ство Q.
Предположим, что задача (.) снабжена оракулом первого по-
рядка, который в каждой точке x̄ дает значение целевой функции
f ( x̄) и один из возможных ее субградиентов g( x̄).
Как обычно, для решения задачи (.) в первую очередь надо
попробовать одну из версий градиентного метода. Отметим только,
что для негладких задач норма субградиента k g(x) k представляет-
ся не очень информативной. Поэтому в субградиентном методе мы
используем нормированное направление g(x)/k g(x) k.

Субградиентный метод (.)


на простых множествах
. Выберем x0 ∈ Q и последовательность шагов
{hk }∞
k =0
:

P
hk > 0, hk → 0, hk = ∞.
k =0
. k-я итерация (k ¾ 0). Вычислим f (xk ), g(xk ) и по-
ложим  ‹
g(xk )
x k +1 = π Q x k − h k .
k g(xk ) k

Оценим скорость сходимости этой схемы.


Теорема ... Пусть функция f липшицева на B2 (x ∗ , R) с констан-
той M и x0 ∈ B(x ∗ , R). Тогда
k
P
R2 + h2i
i =0
fk∗ ∗
− f ¶M k
. (.)
P
2 hi
i =0

Доказательство. Введем обозначение ri = k xi − x ∗ k. Тогда в силу


леммы .. имеем
g(xi )  2
ri2+1 = πQ xi − hi − x∗ ¶
k g(xi ) k
g(xi ) 2
¶ xi − hi − x ∗ = ri2 − 2hi υi + h2i .
k g(xi ) k


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

Суммируя эти неравенства по i = 0, …, k, получим


k k k
r02 +
P P P
h2i = 2 hi υi + rk2+1 ¾ 2υ∗k hi .
i =0 i =0 i =0

Отсюда следует, что


k
P
R2 + h2i
i =0
υ∗k ¶ k
.
P
2 hi
i =0

Остается применить лемму ...

Таким образом, теорема .. показывает, что скорость сходимо-


сти субградиентного метода(.) зависит от значений
k
P
R2 + h2i
i =0
∆k = k
.
P
2 hi
i =0
P∞
Можно легко увидеть, что ∆k → 0, если hk → 0 и ряд i=0 hi расхо-
дится. Однако давайте попытаемся выбрать hk оптимальным спосо-
бом.
Предположим, что нам необходимо выполнить фиксированное
количество шагов субградиентного метода, скажем N. Тогда, ми-
нимизируя ∆k как функцию от {hk }kN=0 , получаем следующую опти-
мальную стратегию  :
R
hi = p , i = 0, …, N. (.)
N +1
R
В этом случае ∆N = p , и мы получаем следующую скорость схо-
N +1
димости:
MR
fk∗ − f ∗ ¶ p .
N +1
Сравнивая этот результат с нижней границей из теоремы .., при-
ходим к следующему выводу:


Из примера .. () можно увидеть, что ∆k –– выпуклая функция от {hi }.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Субградиентный метод (.), (.) является опти-


мальным методом решения задачи (.) равномер-
но по размерности n.

Если у нас нет желания априори фиксировать число итераций, то


можно выбрать
r
hi = p , i = 0, …
i+1
Тогда легко увидеть, что функция ∆k пропорциональна
R2 + r ln(k + 1)
p ,
2r k + 1
и можно классифицировать скорость сходимости рассматриваемой
схемы как субоптимальную.
Итак, простейший метод решения нашей задачи оказывается оп-
тимальным. Как правило, это указывает то, что задачи рассматрива-
емого класса слишком сложны, чтобы их эффективно решать. Одна-
ко надо помнить, что наше утверждение о скорости сходимости вер-
но равномерно по размерности пространства переменных. В даль-
нейшем мы увидим, что для задач умеренной размерности можно
разработать и более эффективные схемы.

... Минимизация при функциональных ограничениях


Покажем, как можно применить субградиентный метод к за-
даче условной минимизации при функциональных ограничениях.
Рассмотрим задачу
min{ f (x) | x ∈ Q, f j (x) ¶ 0, i = 1, …, m}, (.)
где f и f j выпуклые функции, а Q –– простое ограниченное выпуклое
и замкнутое допустимое множество:
kx − yk ¶ R ∀ x, y ∈ Q.
Сформируем агрегированное ограничение
f¯(x) = max1¶ j ¶m f j (x)

+.

Тогда исходная задача перепишется в виде


min f (x) | x ∈ Q, f¯(x) ¶ 0 . (.)



“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

Если мы умеем вычислять субградиенты функций f j , то нетрудно


вычислить и субградиент ḡ(x) функции f¯ (см. лемму ..).
Зафиксируем некоторое решение x ∗ задачи (.). Тогда f¯(x ∗ ) = 0
и υ f¯(x ∗ ; x) ¾ 0 при всех x ∈ Rn . Поэтому в силу леммы .. получаем
f¯(x) ¶ ω ¯(x ∗ ; υ ¯(x ∗ ; x)).
f f
Если все функции f j липшицевы на Q с константой M, то для любого
x ∈ Rn имеем
f¯(x) ¶ M · υ f¯(x ∗ ; x).
Запишем субградиентную схему минимизации для задачи (.).
Полагаем при этом параметр R известным.

Субградиентный метод: (.)


функциональные ограничения
. Выберем x0 ∈ Q и последовательность {hk }∞
k =0 :
R
hk = p .
k + 0,5
. k-я итерация (k ¾ 0).
a) Вычислим f (xk ), g(xk ), f¯(xk ), ḡ(xk ) и по-
ложим
g(xk ), если f¯(xk ) < k ḡ(xk ) khk , (A),
¨
pk =
ḡ(xk ), если f¯(xk ) ¾ k ḡ(xk ) khk . (B).
p
 
б) Положим xk+1 = πQ xk − hk k .
k pk k

Теорема ... Пусть функция f липшицева на B2 (x ∗ , R) с констан-


той M1 и
M2 = max k g k : g ∈ ∂ f j (x), x ∈ B2 (x ∗ , R) .

1¶ j ¶m

Тогда для любого k ¾ 3 найдется такой номер i ′ , 0 ¶ i ′ ¶ k, что


p p
3M1 R 3M2 R

f (xi′ ) − f ¶ p , f¯(xi′ ) ¶ p .
k − 1, 5 k − 1, 5
Доказательство. Заметим, что если направление pk выбрано в со-
ответствии с правилом (. B), то
k ḡ(xk ) khk ¶ f¯(xk ) ¶ 〈 ḡ(xk ), xk − x ∗ 〉.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Значит, в этом случае υ f¯(x ∗ ; xk ) ¾ hk .


Пусть k ′ = ⌊k /3⌋ и Ik = {i ∈ [k ′ , …, k] | pi = g(xi )}. Введем обозначе-
ние
ri = k xi − x ∗ k, υi = υ f (x ∗ ; xi ), ῡi = υ f¯(x ∗ ; xi ).
Тогда для всех i, k ′ ¶ i ¶ k, выполняются следующие утверждения:
если i ∈ Ik , то ri2+1 ¶ ri2 − 2hi υi + h2i ,
если i ∈
/ Ik , то ri2+1 ¶ ri2 − 2hi ῡi + h2i .
Суммируя эти неравенства по i ∈ [k ′ , …, k], получаем
k
rk2′ +
P P P
h2i ¾ rk2+1 + 2 h i υi + 2 hi ῡi .
i =k ′ i ∈ Ik i∈
/ Ik

Напомним, что при i ∈


/ Ik имеет место неравенство ῡi ¾ hi (слу-
чай (B)).
Предположим, что υi ¾ hi при всех i ∈ Ik . Тогда
k k kR
+1
1 P 2 P 1 dτ 2k + 3
1¾ 2
hi = ¾ = ln ′ ¾ ln 3.
R i =k ′ ′ i + 0,5 τ + 0,5 2k +1
i =k ′ k

Получили противоречие. Таким образом, Ik 6= ∅, и найдется та-


кое i ′ ∈ Ik , что υi′ < hi′ . Очевидно, что υi′ ¶ hk′ , и, следовательно,
(υ i ′ )+ ¶ h k ′ .
Отсюда следует, что f (xi′ ) − f ∗ ¶ M1 hk′ (см. лемму ..), и, по-
скольку i ′ ∈ Ik , получаем следующую оценку:
f¯(xi′ ) ¶ k ḡ(xi′ ) khk′ ¶ M2 hk′ .
p
k 3R
Остается заметить, что k ′ ¾ − 1, и поэтому hk′ ¶ p .
3 k − 1,5

Сравнивая результат теоремы .. с нижней границей аналити-


ческой сложности из теоремы .., видим, что схема (.) облада-
ет оптимальной скоростью сходимости. Напомним, что эта нижняя
граница была получена для задачи минимизации без ограничений.
Таким образом, полученный результат демонстрирует, что с точки
зрения аналитической сложности задачи выпуклой безусловной ми-
нимизации общего вида оказываются не проще задач с функцио-
нальными ограничениями.


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

... Границы сложности в конечномерном случае


Рассмотрим снова задачу безусловной минимизации, предпола-
гая ее размерность относительно небольшой. Это подразумевает,
что вычислительных ресурсов должно быть вполне достаточно для
выполнения числа итераций метода минимизации, пропорциональ-
ного размерности пространства переменных. Как будет выглядеть
нижняя граница сложности в этом случае?
В данном пункте мы получим конечномерную нижнюю грани-
цу аналитической сложности для задачи, которая тесно связана с
задачей минимизации, –– задачи разрешимости:
найти x ∗ ∈ Q, где Q –– выпуклое множество. (.)
Предположим, что эта задача снабжена оракулом, отвечающим на
вопрос в точке x̄ ∈ Rn следующим образом:
◦ либо сообщается, что x̄ ∈ Q,
◦ либо выдается вектор ḡ, отделяющий x̄ от Q:

〈 ḡ, x̄ − x 〉 ¾ 0 ∀ x ∈ Q.

Для оценки сложности этой задачи сделаем следующее предположе-


ние.
Предположение ... Существует такая точка x ∗ ∈ Q, что для неко-
торого ǫ > 0 шар B2 (x ∗ , ǫ ) принадлежит множеству Q.
Например, если для задачи (.) нам известно оптимальное зна-
чение f ∗ , то ее можно переформулировать как задачу разрешимости
с множеством
¯Q̄ = (t, x) ∈ Rn+1 | t ¾ f (x), t ¶ f ∗ + ǭ , x ∈ Q .


Соотношение между параметрами точности ǭ и ǫ в (..) можно


легко получить, полагая функцию f липшицевой. Оставляем это чи-
тателю в качестве упражнения.
Опишем теперь сопротивляющийся оракул для задачи (.). Он
формирует в Rn последовательность прямоугольных параллелепи-
педов {Bk }∞
k =0 , B k +1 ⊂ B k , задаваемых своими нижними и верхними
границами:
Bk = x ∈ Rn | ak ¶ x ¶ bk .



“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Для каждого параллелепипеда Bk , обозначим через ck = 1/2(ak + bk )


его центр. Для каждого Bk , k ¾ 1, оракул создает свой отделяющий
вектор gk . С точностью до знака он всегда является координатным
вектором.
В схеме, описанной ниже, используются два динамических счет-
чика:
◦ m есть число сформированных параллелепипедов,
◦ i есть активная координата.
Обозначим через e ∈ Rn вектор из всех единиц. Оракул начинает ра-
боту со следующих начальных параметров:
a0 := −Re, b0 := Re, m := 0, i := 1.
n
На его вход подается произвольная точка x ∈ R .
Сопротивляющийся оракул.
Задача разрешимости
If x ∈
/ B0 then [ выдать вектор, отделяющий x от B0 ]
else

. Найти максимальное
k ∈ {0, …, m} : x ∈ Bk .
. If k < m then [ выдать gk ] else
[{Создать новый параллелепипед}:
If x (i) ¾ c(i)
m then [am+1 := am ,
bm+1 := bm + (c(i) (i)
m − bm )ei , gm := ei .]
else [am+1 := am + (c(i) (i)
m − am )ei ,
bm+1 := bm , gm := −ei .]
m := m + 1; i := i + 1; If i > n then i := 1.
Выдать gm . ]

Данный оракул реализует очень простую стратегию. Отметим,


что следующий параллелепипед Bm+1 всегда равен половине преды-
дущего Bm . При этом гиперплоскость, разделяющая его на две ча-
сти, проходит через центр Bm и соответствует активной координате
i. В зависимости от того, в какой части последнего параллелепипе-
да Bm лежит точка x, выбирается тот или иной знак разделяющего


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

вектора gm+1 = ±ei . После формирования нового параллелепипеда


Bm+1 индекс i возрастает на . Если его значение превосходит n,
мы возвращаемся назад к i = 1. Таким образом, последовательность
параллелепипедов {Bk } обладает двумя важными свойствами:
◦ voln Bk+1 = (1/2) voln Bk ,
◦ для любого k ¾ 0 имеет место равенство bk+n −ak+n = (1/2)(bk −ak ).
Заметим также, что число сформированных параллелепипедов не
превосходит числа обращений к оракулу.
Лемма ... При всех k ¾ 0 верно включение
 k
R 1 n
B2 (ck , rk ) ⊂ Bk , где rk = . (.)
2 2
Доказательство. Действительно, при всех k ∈ {0, …, n − 1} имеет
место включение
1 1 1
n o  
B k ⊃ B n = x | c n − Re ¶ x ¶ c n + Re ⊃ B2 c n , R .
2 2 2
Поэтому для таких k получаем Bk ⊃ B2 (ck , (1/2)R), и включение (.)
верно. Далее, пусть k = nl + p с некоторым p ∈ {0, …, n − 1}. По-
скольку
 l
1
bk − ak = (bp − a p ),
2
мы заключаем, что
 l 
1 1

B k ⊃ B2 c k , R .
2 2
 l
1 1
Остается отметить, что rk ¶ R .
2 2
Лемма .. непосредственно приводит к следующему результату.
Теорема ... Рассмотрим класс задач разрешимости типа (.),
которые удовлетворяют предположению .. и для которых допу-
стимые множества Q лежат в B∞ (0, R). Тогда нижняя граница ана-
литической сложности для этого класса задач равна n ln(R/(2ǫ ))
обращениям к оракулу.

Доказательство. В самом деле, мы видели, что число генериру-


емых параллелепипедов не превосходит количества обращений к


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

оракулу. Кроме того, из леммы .. вытекает, что после k итераций


последний параллелепипед будет содержать шар B2 (cmk , rk ).

Нижняя граница сложности для задачи минимизации (.) мо-


жет быть получена аналогичным образом. Однако соответствующее
доказательство довольно громоздко. По этой причине приводим
здесь только результат.
Теорема ... Для задач минимизации вида (.) с Q ⊆ B∞ (0, R) и
f ∈ F M0,0 (B∞ (0, R)) нижняя граница аналитической сложности рав-
MR
на n ln обращениям к оракулу.

... Методы отсекающей гиперплоскости


Рассмотрим задачу минимизации с ограничениями
(.)

min f (x) | x ∈ Q ,
где f –– выпуклая функция в Rn , а Q –– такое ограниченное выпуклое
и замкнутое множество, что
def
int Q 6= ∅, D = diam Q < ∞.
Предположим, что множество Q не является простым и что наша
задача снабжена разделяющим оракулом. В любой точке x̄ ∈ Rn этот
оракул вычисляет вектор g, который равен
◦ субградиенту функции f в точке x̄, если x ∈ Q,
◦ вектору, отделяющему x̄ от Q, если x ∈
/ Q.
Важным примером такой задачи является условная минимизация
с функциональными ограничениями (.). Ранее было показано,
что эту задачу можно переписать как задачу с одним функциональ-
ным ограничением (см. задачу (.)), которое образует допусти-
мое множество
Q = x ∈ Rn | f¯(x) ¶ 0 .


В этом случае для x ∈ / Q оракул должен выдать любой субградиент


ḡ ∈ ∂ f¯(x). Очевидно, ḡ отделяет x от Q (см. теорему ..).
Приведем основное свойство конечномерных множеств локали-
зации.


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

Рассмотрим последовательность X ≡ {xi }∞


i =0 , лежащую в множе-
стве Q. Напомним, что множества локализации, образованные этой
последовательностью, определяются следующим образом:

S0 ( X ) = Q,

Sk+1 ( X ) = x ∈ Sk ( X ) | 〈 g(xk ), xk − x 〉 ¾ 0 .

Очевидно, что x ∗ ∈ Sk для любого k ¾ 0. Введем обозначения

υi = υ f (x ∗ ; xi )(¾ 0), υ∗k = min υi .


0¶i ¶k

Пусть voln S обозначает n-мерный объем множества S ⊂ Rn .

Теорема ... Для любого k ¾ 0 имеет место неравенство


• ˜1/n
voln Sk (X )
υ∗k ¶ D .
voln Q

Доказательство. Введем обозначение α = υ∗k / D(¶ 1). Так как Q ⊆


⊆ B2 (x ∗ , D), верно следующее включение:

(1 − α)x ∗ + αQ ⊆ (1 − α)x ∗ + α B2 (x ∗ , D) = B2 (x ∗ , υ∗k ).

Множество Q выпукло. Поэтому

(1 − α)x ∗ + αQ ≡ (1 − α)x ∗ + αQ ∩ Q ⊆ B2 (x ∗ , υ∗k ) ∩ Q ⊆ Sk ( X ).


 

Значит, voln Sk ( X ) ¾ voln [(1 − α)x ∗ + αQ] = αn voln Q.

Зачастую множество Q оказывается достаточно сложным. Тогда


работать напрямую с множествами Sk ( X ) не удается. Вместо этого
можно иметь дело с некоторыми простыми внешними аппроксима-
циями этих множеств. Процедура формирования таких аппроксима-
ций описывается следующим методом отсекающей гиперплоскости.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Обобщенный метод (.)


отсекающей гиперплоскости
. Выберем некоторое ограниченное множество
E0 ⊇ Q.
. k-я итерация (k ¾ 0).
a) Выберем yk ∈ Ek .
б) Если yk ∈ Q, то вычислим f ( yk ), g( yk ). Если
/ Q, то вычислим ḡ( yk ), который отделяет
yk ∈
yk от Q.
c) Положим ¨
g( yk ), если yk ∈ Q,
gk =
ḡ( yk ), если yk ∈
/ Q.

d) Выберем Ek+1 ⊇ x ∈ Ek | 〈 gk , yk − x 〉 ¾ 0 .


Оценим эффективность приведенного метода. Рассмотрим по-


следовательность Y = { yk }∞
k =0 , участвующую в этой схеме. Обозна-
чим через X подпоследовательность допустимых точек последова-
тельности Y : X = Y ∩ Q. Определим счетчик

i(k) = число таких точек y j , 0 ¶ j < k, что y j ∈ Q.

Таким образом, если i(k) > 0, то X 6= ∅.

Лемма ... Для любого k ¾ 0 верно включение Si(k) ⊆ Ek .

Доказательство. Действительно, если i(0) = 0, то S0 = Q ⊆ E0 . Пред-


положим, что Si(k) ⊆ Ek при некотором k ¾ 0. Тогда на следующей
итерации имеем два возможных варианта.
. Выполняется равенство i(k + 1) = i(k). Это равенство имеет место
если и только если yk ∈
/ Q. Тогда

Ek+1 ⊇ x ∈ Ek | 〈 ḡ( yk ), yk − x 〉 ¾ 0 ⊇

⊇ x ∈ Si(k+1) | 〈 ḡ( yk ), yk − x 〉 ¾ 0 = Si(k+1),


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

поскольку Si(k+1) ⊆ Q и ḡ( yk ) отделяет yk от Q.


. Выполняется равенство i(k + 1) = i(k) + 1. В этом случае yk ∈ Q.
Тогда

Ek+1 ⊇ x ∈ Ek | 〈 g( yk ), yk − x 〉 ¾ 0 ⊇

⊇ x ∈ Si(k) | 〈 g( yk ), yk − x 〉 ¾ 0 = Si(k)+1,
поскольку yk = xi(k).
Приведенные результаты имеют важные следствия.
Следствие ... . Для любых таких k, что i(k) > 0, выполнены
неравенства
voln Si(k) (X ) 1/n voln Ek 1/n
• ˜ • ˜
υ∗i(k) ( X ) ¶ D ¶D .
voln Q voln Q
. Если voln Ek < voln Q, то i(k) > 0.
Доказательство. Первое утверждение уже доказано. Второе следу-
ет из включения Q = S0 = Si(k) ⊆ Ek , которое верно для всех таких k,
что i(k) = 0.
Таким образом, если нам удастся обеспечить условие voln Ek → 0,
то полученный метод будет сходящимся. Кроме того, скорость убы-
вания объемов этих тел автоматически определит скорость схо-
димости соответствующего метода. Естественно, нам бы хотелось,
чтобы voln Ek убывал как можно быстрее.
Исторически первым методом минимизации, в котором приме-
нялась идея отсекающих гиперплоскостей, был метод центров тя-
жести. Он основан на следующем геометрическом факте.
Рассмотрим некоторое выпуклое ограниченное множество S ⊂ Rn ,
int S 6= ∅. Определим центр тяжести этого множества:
1 R
cg(S) = x dx.
voln S
S

Следующий результат показывает, что любая отсекающая плос-


кость, проходящая через центр тяжести, разделяет множество на
две пропорциональные части.
Лемма ... Пусть g задает некое направление в Rn . Определим

S+ = x ∈ S | 〈 g, cg(S) − x 〉 ¾ 0 .


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Тогда
voln S+ 1
¶1− .
voln S e
(Примем этот результат без доказательства.)
Это утверждение естественным образом приводит нас к следую-
щему методу минимизации.

Метод центров тяжести


. Положим S0 = Q.
. k-я итерация (k ¾ 0).
a) Выберем xk = cg(S  k ) и вычислим f (xk ), g(x k ).
б) Положим Sk+1 = x ∈ Sk | 〈 g(xk ), xk − x 〉 ¾ 0 .

Оценим скорость сходимости этого метода. Введем обозначение


fk∗ = min f (x j ).
0¶ j ¶k

Теорема ... Если функция f липшицева на B2 (x ∗ , D) с констан-


той M, то для любых k ¾ 0 имеет место неравенство
1 k /n
 
fk∗ − f ∗ ¶ MD 1 − .
e
Доказательство. Это неравенство следует из леммы .., теоре-
мы .. и леммы ...
Сравнивая этот результат с нижней границей сложности задачи
(теорема ..), видим, что метод центров тяжести является опти-
мальным при конечной размерности. Его скорость сходимости не
зависит от каких-либо отдельных характеристик нашей задачи, на-
пример от ее обусловленности и т. п. Однако нужно признать, что
этот метод абсолютно не применим на практике, поскольку вычис-
ление центра тяжести в многомерном пространстве является более
сложным, чем решение исходной задачи минимизации.
Рассмотрим другой метод, который использует аппроксимацию
множеств локализации. Этот метод основан на следующем геомет-
рическом наблюдении.
Пусть H –– положительно определенная симметрическая (n × n)-
матрица. Рассмотрим эллипсоид
E(H, x̄) = x ∈ Rn | 〈 H −1 (x − x̄), x − x̄ 〉 ¶ 1 .



“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

Выберем направление g ∈ Rn и рассмотрим половину эллипсоида,


задаваемую соответствующей гиперплоскостью:

E+ = x ∈ E(H, x̄) | 〈 g, x̄ − x 〉 ¾ 0 .
Нетрудно увидеть, что это множество принадлежит другому эл-
липсоиду, объем которого строго меньше, чем объем эллипсоида
E(H, x̄).
Лемма ... Введем обозначения
1 Hg
x̄+ = x̄ − · ,
n + 1 〈 Hg, g〉1/2
n2 HggT H
 ‹
2
H+ = 2 H− · .
n −1 n + 1 〈 Hg, g〉
Тогда E+ ⊂ E(H+ , x̄+ ) и
 ‹n/2
1
voln E(H+ , x̄+ ) ¶ 1 − voln E(H, x̄).
(n + 1)2

Доказательство. Введем обозначения G = H −1 и G+ = H+−1 . Очевид-


но, что
n2 − 1 ggT
 ‹
2
G+ = G + · .
2
n n − 1 〈 Hg, g〉
Без потери общности можно предположить, что x̄ = 0 и 〈 Hg, g〉 = 1.
1
Выберем любую точку x ∈ E+ . Заметим, что x̄+ = − Hg. Поэтому
n+1
2
n −1 2
 
k x − x̄+ k2G = k x − x̄+ k2G + 〈 g, x − x̄+ 〉2 ,
+ n2 n−1
2 1
k x − x̄+ k2G = k x k2G + 〈 g, x 〉 + ,
n+1 (n + 1)2
2 1
〈 g, x − x̄+ 〉2 = 〈 g, x 〉2 + 〈 g, x 〉 + .
n+1 (n + 1)2
Подставляя все элементы в исходное выражение, получим
n2 − 1 2 2 1
 
k x − x̄+ k2G = k x k2G + 〈 g, x 〉2 + 〈 g, x 〉 + 2 .
+ 2
n n−1 n−1 n −1
Отметим, что 〈 g, x 〉 ¶ 0 и k x kG ¶ 1. Поэтому
〈 g, x 〉2 + 〈 g, x 〉 = 〈 g, x 〉 1 + 〈 g, x 〉 ¶ 0.



“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Отсюда следует, что


n2 − 1 1
 
k x − x̄+ k2G ¶ k x k2G + 2 ¶ 1.
+ n2 n −1
Таким образом, мы доказали, что E+ ⊂ E(H+ , x̄+ ).
Вычислим объем эллипсоида E(H+ , x̄+ ):
˜1/2 n ˜1/2
voln E(H+ , x̄+ ) det H+ n2
• •
n−1
= = =
voln E(H, x̄) det H 2
n −1 n+1
1
 ˜n/2 ˜n/2
n2 n2
• •
2 2
 
n
= 1− ¶ 1− =
2
n −1 n+1 2
n −1 n(n + 1)
˜n/2 ˜n/2
n2 (n2 + n − 2)
• •
1
= = 1− .
n(n − 1)(n + 1)2 (n + 1)2

Оказывается, E(H+ , x̄+ ) является эллипсоидом минимального


объема, содержащим половину начального эллипсоида E+ .
Наши наблюдения можно оформить в алгоритмическую схему
метода эллипсоидов.

Метод эллипсоидов (.)


n
. Выберем такие y0 ∈ R и R > 0, что B2 ( y0 , R) ⊇ Q.
Положим H0 = R2 · In .
. k-я итерация (k ¾ 0):
¨
g( yk ), если yk ∈ Q,
gk =
ḡ( yk ), если yk ∈
/ Q,
1 Hk gk
yk+1 = yk − · ,
n + 1 〈 Hk gk , gk 〉1/2

n2 Hk gk gkT Hk
 ‹
2
H k +1 = 2
Hk − · .
n −1 n + 1 〈 Hk gk , gk 〉

Этот метод можно рассматривать как частный случай обобщен-


ной схемы (.), выбрав

Ek = x ∈ Rn | 〈 Hk−1 (x − yk ), x − yk 〉 ¶ 1 ,


где yk –– центр этого эллипсоида.


“Nesterov-final” — // — : — page  — #

§ .. Методы негладкой минимизации

Оценим эффективность метода эллипсоидов. Пусть Y = { yk }∞


k =0 , и
пусть X –– допустимая часть подпоследовательности Y :
X = Y ∩ Q.
Введем обозначение fk∗ = min0¶ j ¶k f (x j ).
Теорема ... Пусть функция f липшицева на B2 (x ∗ , R) с некото-
рой константой M. Тогда для i(k) > 0 имеет место неравенство
 ‹k/2
∗ 1 1/n
− f ∗ ¶ MR 1 −

fi(k) 2
· voln B0 (x0 , R)voln Q .
(n + 1)
Доказательство. Данное утверждение следует из леммы .., след-
ствия .. и леммы ...
Чтобы гарантировать выполнение условия X 6= ∅, необходимы
дополнительные предположения. Если найдутся такие ρ > 0 и x̄ ∈ Q,
что
B2 ( x̄, ρ ) ⊆ Q, (.)
то
˜1/n ‹k/2 • ˜1/n
voln B2 (x0 , R)
• 
voln Ek 1 1 − 2(n+k 1)2
¶ 1− ¶ e R.
voln Q (n + 1)2 voln Q ρ
Принимая во внимание следствие .., мы получаем, что i(k) > 0
при всех
R
k > 2(n + 1)2 ln .
ρ
Если i(k) > 0, то
1 − k

fi(k) − f∗ ¶ M R2 · e 2(n+1)2 .
ρ
Для выполнения условия (.) в задаче минимизации с функцио-
нальными ограничениями достаточно предположить, что все огра-
ничения являются липшицевыми и существует допустимая точка,
в которой они все строго отрицательны (условие Слэйтера). Мы
предлагаем читателю убедиться в этом самостоятельно.
Перейдем к обсуждению вычислительной сложности метода эл-
липсоидов (.). Каждая итерация этого алгоритма не представля-
ется слишком трудоемкой; она требует только O(n2 ) арифметиче-
ских операций. С другой стороны, для того чтобы получить ǫ -реше-
ние задачи (.), удовлетворяющей предположению (.), данный


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

метод требует
M R2
2(n + 1)2 ln
ρǫ
обращений к оракулу. Эта оценка эффективности не является опти-
мальной (см. теорему ..), но она имеет линейную зависимость от
ln 1/ǫ и полиномиальную зависимость от размерности и логариф-
мов параметров M, R и ρ . Для классов задач, оракул которых имеет
полиномиальную сложность, такие алгоритмы называются (слабо)
полиномиальными.
В заключение этого параграфа укажем, что существует несколь-
ко методов, которые используют множества локализации в форме
многогранников:
Ek = x ∈ Rn | 〈a j , x 〉 ¶ b j , j = 1, …, mk .


Перечислим наиболее важные методы этого типа.


◦ Метод вписанных эллипсоидов. Точка yk в этом методе выбирает-
ся следующим образом:
yk есть центр эллипсоида максимального объема Wk ⊂ Ek .
◦ Метод аналитического центра. В этой схеме точка yk выбирает-
ся как минимум аналитического барьера
mk
P 
Fk (x) = − ln b j − 〈a j , x 〉 .
j =1

◦ Метод объемного центра. Этот метод является также методом


барьерного типа. Точка yk выбирается здесь как минимум объем-
ного барьера
Vk (x) = ln det Fk′′ (x),
где Fk (x) –– аналитический барьер для множества Ek .
Все эти методы являются полиномиальными с границей сложно-
сти, равной  
1 p
n ln ,
ǫ
где p равно либо , либо . Однако сложность каждой отдельной
итерации этих методов намного больше (n3 ÷ n4 арифметических
операций). В следующей главе мы увидим, что точка yk для этих
схем может быть вычислена методами внутренней точки.


“Nesterov-final” — // — : — page  — #

§ .. Методы с полной информацией

§ .. Методы с полной информацией


Модель негладкой функции. Метод Келли. Идея метода уровней. Безусловная
минимизация. Оценки эффективности. Задачи с функциональными ограниче-
ниями.

... Модель негладкой функции


В предыдущем параграфе мы привели несколько методов реше-
ния задачи
min f (x), (.)
x ∈Q

где f –– липшицева выпуклая функция, а Q –– выпуклое замкнутое


множество. Было показано, что оптимальным методом для задачи
(.) является субградиентный метод (.), (.). Этот результат
верен для всего класса липшицевых функций. Однако при миними-
зации конкретной функции из этого класса можно ожидать лучшего
поведения методов. Мы часто можем надеяться на гораздо большую
скорость сходимости метода минимизации по сравнению с теорети-
ческими нижними границами, полученнымм при анализе наихуд-
шей ситуации. К сожалению, для субградиентного метода наши на-
дежды не оправдываются. Схема субградиентного метода являет-
ся чрезвычайно жесткой, и в общем случае он не может сходить-
ся быстрее теоретических оценок. Можно также показать, что ме-
тод эллипсоидов (.) разделяет этот недостаток субградиентной
схемы. На практике он работает более или менее в соответствии с
теоретическими границами даже тогда, когда он применяется для
минимизации очень простых функций таких как, например, k x k2 .
В этом параграфе мы обсудим алгоритмические схемы, которые
являются более гибкими, чем субградиентный метод и метод эллип-
соидов. Эти схемы основаны на понятии модели негладкой функ-
ции.
Определение ... Пусть X = {xk }∞ k =0
–– некоторая последователь-
ность точек из множества Q. Введем обозначения
fˆk ( X ; x) = max f (xi ) + 〈 g(xi ), x − xi 〉 ,
 
0¶i ¶k

где g(xi ) –– некоторые субградиенты функции f в точках xi . Функ-


ция fˆk ( X ; x) называется моделью выпуклой функции f (x).


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Заметим, что fk ( X ; x) –– кусочно линейная функция от x. Из нера-


венства (.) следует, что
f (x) ¾ fˆk ( X ; x)
при всех x ∈ Rn . Однако во всех точках xi , 0 ¶ i ¶ k, модель точна:
f (xi ) = fˆk ( X ; xi ), g(xi ) ∈ ∂ fˆk ( X ; xi ).
Последующая модель всегда лучше, чем предыдущая:
fˆk+1 ( X ; x) ¾ fˆk ( X ; x)
для всех x ∈ Rn .

... Метод Келли


Модель fˆk ( X ; x) содержит в себе полную информацию о функ-
ции f , накопленную после k обращений к оракулу. Поэтому есте-
ственным было бы разработать метод минимизации, основанный
на ее использовании. Возможно, простейший из методов такого
типа выглядит следующим образом.

Метод Келли (.)


. Выберем x0 ∈ Q.
. k-я итерация (k ¾ 0).
Найти xk+1 ∈ Arg min fˆk ( X ; x).
x ∈Q

На первый взгляд этот метод является весьма привлекательным.


Даже наличие сложной вспомогательной задачи не сильно портит
картину, так как она может быть решена методами линейного про-
граммирования за конечное время. Однако, оказывается, данный
метод вряд ли стоит применять на практике. И основной причиной
этого является его неустойчивость. Заметим, что решение вспомо-
гательной задачи в методе (.) может не быть единственным.
Кроме того, все множество Arg min x ∈Q fˆk ( X ; x) может оказаться
неустойчивым по отношению к произвольно малому изменению
данных { f (xi ), g(xi )}. Именно это свойство и приводит к неустой-
чивому поведению метода. Более того, используя этот недостаток,
можно построить задачу, в которой метод Келли обладает безна-
дежно плохой нижней границей сложности.


“Nesterov-final” — // — : — page  — #

§ .. Методы с полной информацией

Пример ... Рассмотрим задачу (.) с

f ( y, x) = max | y |, k x k2 , y ∈ R1 , x ∈ Rn ,


Q = z = ( y, x) : y 2 + k x k2 ¶ 1 .


Ее решение есть z ∗ = ( y ∗ , x ∗ ) = (0, 0), и оптимальное значение f ∗ = 0.


Обозначим через Zk∗ = Arg minz∈Q fˆk (Z; z) оптимальное множество
модели fˆk (Z; z) и через fˆk∗ = fˆk (Zk∗ ) оптимальное значение модели.
Выберем z0 = (1, 0). Тогда начальная модель функции f есть
ˆ
f0 (Z; z) = y. Поэтому первая точка, полученная по методу Келли,
равна z1 = (−1, 0). Значит, следующая модель функции f выглядит
так:
fˆ1 (Z; z) = max{ y, − y} = | y |.

Очевидно, fˆ1∗ = 0. Заметим, что fˆk∗+1 ¾ fˆk∗ . С другой стороны,

fˆk∗ ¶ f (z ∗ ) = 0.

Таким образом, для всех следующих моделей с k ¾ 1 мы имеем fˆk∗ = 0


и Zk∗ = (0, Xk∗ ), где

Xk∗ = x ∈ B2 (0, 1) : k xi k2 + 〈2xi , x − xi 〉 ¶ 0, i = 0, …, k .




Оценим эффективность усечений множества Xk∗ . Поскольку xk+1


может оказаться произвольной точкой из Xk∗ , на первом этапе метода
можно выбирать все точки xi с единичной нормой: k xi k = 1. Тогда
множество Xk∗ определяется следующим образом:
1
Xk∗ = x ∈ B2 (0, 1) | 〈 xi , x 〉 ¶ , i = 0, …, k .

2
Так можно поступать, если

S2 (0, 1) ≡ x ∈ Rn | k x k = 1 ∩ Xk∗ 6= ∅.


Заметим, что на первом этапе

f (zi ) ≡ f (0, xi ) = 1.

Оценим сверху длительность этого этапа, используя следующий


факт.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Пусть d задает некоторое направление в Rn , k d k = 1.


Рассмотрим поверхность
1
h i
S(α) = x ∈ Rn | k x k = 1, 〈d, x 〉 ¾ α , α ∈

,1 .
2
 n−1
Тогда υ(α) ≡ voln−1 (S(α)) ¶ υ(0) 1 − α2 2 .


На первом этапе от сферы S2 (0, 1) на каждом шаге отрезается


не более, чем сферический сегмент S(1/2). Поэтому p этот этап мо-
жет продолжаться по крайней мере для всех k ¶ [2/ 3]n−1 . Во время
этих итераций f (zi ) = 1.
Так как на первом этапе процесса отсекающие гиперплоско-
сти задаются p неравенствами 〈 xi , x 〉 ¶ 1/2, для всех таких k, что
0 ¶ k ¶ N ≡ [2/ 3]n−1 , верно включение
1
 
B2 0, ⊂ Xk∗ .
2
Это означает, что после N итераций можно повторить процесс уже
с шаром B2 (0, 1/2) и т. д. Заметим, что f (0, x) = 1/4 при всех x, рас-
положенных на границе шара B2 (0, 1/2).
Таким образом, доказано, что нижняя оценка скорости сходимо-
сти метода Келли (.) дается неравенством
 k p3/2 n−1
 
∗ 1
f (xk ) − f ¾ .
4
Отсюда следует, что мы не сможем найти ǫ -решение нашей задачи
менее чем за
ln 1 h i n −1
ǫ 2
p
2 ln 2 3
обращений к оракулу. Остается сравнить эту нижнюю границу с
верхними границами сложности других методов:

1
 
Метод эллипсоидов: O n2 ln
ǫ
1
 
Оптимальные методы: O n ln
ǫ
1
 
Градиентный метод: O 2
ǫ


“Nesterov-final” — // — : — page  — #

§ .. Методы с полной информацией

... Метод уровней


Покажем, что с помощью моделей выпуклых функций можно
строить и устойчивые методы минимизации. Введем обозначение
fˆk∗ = min fˆk ( X ; x), fk∗ = min f (xi ).
x ∈Q 0¶i ¶k

Первое значение мы будем называть минимальным значением моде-


ли, а второе –– ее рекордным значением. Очевидно, что fˆk∗ ¶ f ∗ ¶ fk∗ .
Выберем некоторое α ∈ (0, 1). Пусть
lk (α) = (1 − α) fˆk∗ + α fk∗ .
Рассмотрим множество уровней

Lk (α) = x ∈ Q | fk (x) ¶ lk (α) .
Ясно, что Lk (α) –– выпуклое и замкнутое множество.
Заметим, что для методов оптимизации множество Lk (α) пред-
ставляет определенный интерес. Во-первых, ясно, что внутри этого
множества еще нет ни одной точки текущей модели. Во-вторых, оно
устойчиво по отношению к малым изменениям данных. Рассмот-
рим один метод минимизации, основанный на непосредственном
использовании этого множества.

Метод уровней (.)


. Выберем точку x0 ∈ Q, точность ǫ > 0 и коэф-
фициент уровня α ∈ (0, 1).
. k-я итерация (k ¾ 0).
a) Вычислим fˆk∗ и fk∗ .
б) Если fk∗ − fˆk∗ ¶ ǫ , то STOP.
c) Положим xk+1 = πLk (α) (xk ).

В приведенной схеме имеются две достаточно трудоемкие опе-


рации. Во-первых, нам нужно вычислить оптимальное значение fˆk∗
текущей модели. Если Q –– многогранник, то это значение можно
получить из следующей задачи линейного программирования:
t → min
при f (xi ) + g(xi ), x − xi ¶ t, i = 0, …, k,

x ∈ Q.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Во-вторых, нужно вычислить проекцию πLk (α) (xk ). Если Q –– много-


гранник, то эта проекция является решением задачи квадратичного
программирования:
min k x − xk k2 ,
при f (xi ) + g(xi ), x − xi ¶ lk (α), i = 0, …, k,

x ∈ Q.
Обе эти задачи эффективно решаются либо стандартными алгорит-
мами типа симплекс-метода, либо методами внутренней точки.
Изучим некоторые свойства метода уровней. Заметим, что ре-
кордные значения модели убывают, а ее минимальные значения
возрастают:
fˆk∗ ¶ fˆk∗+1 ¶ f ∗ ¶ fk∗+1 ¶ fk∗ .

Введем обозначение ∆k = [ fˆk∗ , fk∗ ] и δk = fk∗ − fˆk∗ . Назовем δk ошиб-


кой модели fˆk ( X ; x). Тогда
∆ k +1 ⊆ ∆ k , δ k +1 ¶ δ k .
Следующий результат имеет ключевое значение для анализа метода
уровней.
Лемма ... Предположим, что для некоторого p ¾ k выполнено
неравенство δ p ¾ (1 − α)δk . Тогда при всех i, k ¶ i ¶ p, справедлива
оценка
li (α) ¾ fˆp∗

Доказательство. Заметим, что при таких i имеет место неравен-


ство δ p ¾ (1 − α)δk ¾ (1 − α)δi . Поэтому

li (α) = fi∗ − (1 − α)δi ¾ fp∗ − (1 − α)δi = fˆp∗ + δ p − (1 − α)δi ¾ fˆp∗ .

Покажем, что шаги метода уровня достаточно большие. Введем


обозначение 
M f = max k g k | g ∈ ∂ f (x), x ∈ Q .
Лемма ... Для последовательности {xk }, образованной методом
уровней, имеет место неравенство
(1 − α)δk
k x k +1 − x k k ¾ .
Mf


“Nesterov-final” — // — : — page  — #

§ .. Методы с полной информацией

Доказательство. Действительно,
f (xk ) − (1 − α)δk ¾ fk∗ − (1 − α)δk = lk (α) ¾
¾ fˆk (xk+1 ) ¾ f (xk ) + 〈 g(xk ), xk+1 − xk 〉 ¾
¾ f (xk ) − M f k xk+1 − xk k.

Наконец, покажем, что ошибка модели не может убывать слиш-


ком медленно.
Лемма ... Пусть множество Q в задаче (.) ограничено, то
есть: diam Q ¶ D. Если при некотором p ¾ k имеет место неравен-
ство δ p ¾ (1 − α)δk , то
M 2f D 2
p+1−k¶ .
(1 − α)2 δ2p

Доказательство. Введем обозначение xk∗ ∈ Arg min x ∈Q fˆk ( X ; x). Из


леммы .. следует, что
fˆi ( X ; x ∗p ) ¶ fˆp ( X ; x ∗p ) = fˆp∗ ¶ li (α)
при всех i, k ¶ i ¶ p. Поэтому, применяя леммы .. и .., получа-
ем

k xi+1 − x ∗p k2 ¶ k xi − x ∗p k2 − k xi+1 − xi k2 ¶
(1 − α)2 δi2 (1 − α)2 δ2p
¶ k xi − x ∗p k2 − ¶ k xi − x ∗p k2 − .
M 2f M 2f

Суммируя эти неравенства по i = k, …, p, приходим к неравенству


(1 − α)2 δ2p
(p + 1 − k) ¶ k xk − x ∗p k2 ¶ D 2 .
M 2f

Заметим, что значение p + 1 − k равно числу индексов в отрезке


[k, p]. Докажем теперь оценку эффективности метода уровней.
Теорема ... Пусть diam Q = D. Тогда схема метода уровней оста-
навливается не позднее чем через
› M 2f D 2 ž
N= 2 2
+1
ǫ α(1 − α) (2 − α)


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

итераций. Критерий остановки метода гарантирует выполнение


неравенства fk∗ − f ∗ ¶ ǫ .

Доказательство. Предположим, что δk ¾ ǫ , 0 ¶ k ¶ N. Разделим ин-


дексы на группы по порядку убывания
{N, …, 0} = I(0) ∪ I(2) ∪ · · · ∪ I(m),
так что
I( j) = [p( j), k( j)], p( j) ¾ k( j), j = 0, …, m,
p(0) = N, p( j + 1) = k( j) + 1, k(m) = 0,
1
δk( j) ¶ δ < δk( j)+1 ≡ δ p( j +1) .
1 − α p( j)
Очевидно, что для j ¾ 0 имеет место цепочка неравенств
δ p( j) δ p(0) ǫ
δ p( j +1) ¾ ¾ ¾ .
1−α (1 − α) j +1 (1 − α) j +1
По лемме .. значение n( j) = p( j) + 1 − k( j) ограничено:
M 2f D 2 M 2f D 2
n( j) ¶ ¶ (1 − α)2 j .
(1 − α)2 δ2p( j) ǫ 2 (1 − α)2

Поэтому
m
P M 2f D 2 m
P M 2f D 2
N= n( j) ¶ 2 2
(1 − α)2 j ¶ .
j =0 ǫ (1 − α) j =0 ǫ (1 − α)2 (1 − (1 − α)2 )
2

Обсудим полученную оценку эффективности. Отметим сразу, что


оптимальное значение параметра уровня α можно получить из сле-
дующей задачи максимизации:
(1 − α)2 (1 − (1 − α)2 ) → max .
α∈[0,1]

1
Ее решение равно α∗ = p . При таком выборе α оценка эффек-
2+ 2
4
тивности метода уровней выглядит так: N ¶ 2 M 2f D 2 . Сравнивая
ǫ
этот результат с теоремой .., видим, что метод уровней является
оптимальным равномерно по размерности пространства перемен-
ных. Заметим также, что граница аналитической сложности этого
метода в конечномерном случае неизвестна.


“Nesterov-final” — // — : — page  — #

§ .. Методы с полной информацией

Одно из преимуществ метода уровней заключается в том, что


ошибка δk = fk∗ − fˆk∗ дает точную оценку достигнутой точности.
Обычно эта ошибка сходится к нулю намного быстрее, чем в наи-
худшем случае. Для большинства реальных задач оптимизации
точность ǫ = 10−4 − 10−5 достигается после 3n − 4n итераций дан-
ного метода.

... Условная минимизация


Покажем, как можно использовать функциональные модели для
решения задач минимизации с ограничениями. Рассмотрим задачу

min f (x)
при f j (x) ¶ 0, j = 1, …, m, (.)
x ∈ Q,

где Q –– ограниченное замкнутое выпуклое множество, а функции


f (x), f j (x) липшицевы на Q.
Перепишем эту задачу в виде задачи минимизации с одним функ-
циональным ограничением. Введем обозначение f¯(x) = max f j (x).
1¶ j ¶m
Тогда мы получим эквивалентную задачу

min f (x),
при f¯(x) ¶ 0, (.)
x ∈ Q.

Заметим, что функции f (x) и f¯(x) выпуклы и липшицевы. В этом


пункте мы попытаемся решить задачу (.), используя модели обе-
их функций. Определим эти модели.
Рассмотрим последовательность X = {xk }∞
k =0
. Пусть

fˆk ( X ; x) = max f (x j ) + 〈 g(x j ), x − x j 〉 ¶ f (x),


 
0¶ j ¶k

fˇk ( X ; x) = max f¯(x j ) + 〈 ḡ(x j ), x − x j 〉 ¶ f¯(x),


 
0¶ j ¶k

где g(x j ) ∈ ∂ f (x j ) и ḡ(x j ) ∈ ∂ f¯(x j ).


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Как и в п. .., наш метод основывается на параметрической


функции
f (t; x) = max f (x) − t, f¯(x) ,


f ∗ (t) = min f (t; x).


x ∈Q

Напомним, что f (t) –– невозрастающая функция от t. Пусть x ∗ ––


решение задачи (.), а t ∗ = f (x ∗ ). Тогда t ∗ представляет собой наи-


меньший корень функции f ∗ (t).
Используя модели целевой функции и ограничений, можно вве-
сти в рассмотрение модель параметрической функции. Пусть
fk ( X ; t, x) = max fˆk ( X ; x) − t, fˇk ( X ; x) ¶ f (t; x),


fˆk∗ ( X ; t) = min fk ( X ; t, x) ¶ f ∗ (t).


x ∈Q

Тогда, fˆk∗ ( X ; t) вновь является невозрастающей функцией от t. Оче-


видно, что ее наименьший корень tk∗ ( X ) не превосходит t ∗ .
Нам понадобится следующее описание корня tk∗ ( X ).
Лемма ...
tk∗ ( X ) = min fˆk ( X ; x) | fˇk ( X ; x) ¶ 0, x ∈ Q .


Доказательство. Обозначим через x̂k∗ решение задачи минимизации,


стоящей в правой части данного равенства, и пусть t̂ ∗k = fˆk ( X ; x̂k∗ ).
Тогда
fˆk∗ ( X ; t̂k∗ ) ¶ max fˆk ( X ; x̂k∗ ) − t̂k∗ , fˇk ( X ; x̂k∗ ) ¶ 0.


Таким образом, всегда выполняется неравенство t̂k∗ ¾ tk∗ ( X ).


Предположим, что t̂k∗ > tk∗ ( X ). Тогда найдется такая точка y, что
fˆk ( X ; y) − tk∗ ( X ) ¶ 0, fˇk ( X ; y) ¶ 0.
Однако в этом случае t̂k∗ = fˆk ( X ; x̂k∗ ) ¶ fˆk ( X ; y) ¶ tk∗ ( X ) < t̂k∗ . Мы при-
шли к противоречию.
Далее нам также понадобится функция
fk∗ ( X ; t) = min fk ( X ; t, x j ),
0¶ j ¶k

которая является рекордным значением рассматриваемой парамет-


рической модели.


“Nesterov-final” — // — : — page  — #

§ .. Методы с полной информацией

Лемма ... Пусть t0 < t1 ¶ t ∗ . Предположим, что fˆk∗ ( X ; t1 ) > 0. То-


гда tk∗ ( X ) > t1 и
t1 − t0 ˆ∗
fˆk∗ ( X ; t0 ) ¾ fˆk∗ ( X ; t1 ) + f ( X ; t1 ). (.)
tk∗ (X ) − t1 k

Доказательство. Пусть xk∗ (t) ∈ Arg min fk ( X ; t, x), t2 = tk∗ ( X ), α =


t1 − t0
= ∈ [0, 1]. Тогда
t2 − t0
t1 = (1 − α)t0 + αt2 ,
и неравенство (.) эквивалентно следующему:

fˆk∗ ( X ; t1 ) ¶ (1 − α) fˆk∗ ( X ; t0 ) + α fˆk∗ ( X ; t2 ) (.)

(заметим, что fˆk∗ ( X ; t2 ) = 0). Пусть xα = (1 − α)xk∗ (t0 ) + α xk∗ (t2 ). Тогда

fˆk∗ ( X ; t1 ) ¶ max fˆk ( X ; xα ) − t1 ; fˇk ( X ; xα ) ¶




¶ max (1 − α)( fˆk ( X ; xk∗ (t0 )) − t0 ) + α( fˆk ( X ; xk∗ (t2 )) − t2 );



(1 − α) fˇk ( X ; xk (t0 )) + α fˇk ( X ; xk∗ (t2 )) ¶

¶ (1 − α) max fˆk ( X ; xk∗ (t0 )) − t0 ; fˇk ( X ; xk∗ (t0 )) +




+ α max fˆk ( X ; xk∗ (t2 )) − t2 ; fˇk ( X ; xk∗ (t2 )) =




= (1 − α) fˆk∗ ( X ; t0 ) + α fˆk∗ ( X ; t2 ),
и мы получаем неравенство (.).

Приведем также следующее утверждение (ср. с леммой ..).


Лемма ... Для любого ∆ ¾ 0 выполняются неравенства
f ∗ (t) − ∆ ¶ f ∗ (t + ∆),
fˆ∗ ( X ; t) − ∆ ¶ fˆ∗ ( X ; t + ∆)
k k

Доказательство. Действительно, для f ∗ (t) имеем


f ∗ (t + ∆) = min max{ f (x) − t; f¯(x) + ∆} − ∆ ¾
 
x ∈Q

¾ min max{ f (x) − t; f¯(x)} − ∆ = f ∗ (t) − ∆.


 
x ∈Q

Доказательство второго неравенства проводится аналогично.


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

Теперь мы можем выписать схему метода минимизации при огра-


ничениях (ср. со схемами условной минимизации из п. ..).

Условный метод уровней (.)


1
 

. Выберем x0 ∈ Q, t0 < t , κ ∈ и точность
0,
2
ǫ > 0.
. k-я итерация (k ¾ 0).
a) Построим последовательность X = {x j }∞j =0 с
помощью метода уровней, примененного к
функции f (tk ; x). При выполнении неравен-
ства
fˆj∗ ( X ; tk ) ¾ (1 − κ) f j∗ ( X ; tk )
остановим процесс нижнего уровня и поло-
жим j(k) = j.
Полная остановка процесса:
f j∗ ( X ; tk ) ¶ ǫ .
б) Положим tk+1 = t ∗j(k)( X ).

Проанализируем аналитическую сложность этого метода. Трудо-


емкость вычислений корня t ∗j ( X ) и значения fˆj∗ ( X ; t) пока нас не ин-
тересуют. Оценим скорость сходимости основного процесса и слож-
ность шага a)
Начнем с основного процесса.

Лемма ... При всех k ¾ 0 выполнено неравенство

˜k
t0 − t ∗
•
∗ 1
f j(k) ( X ; tk ) ¶ .
1−κ 2(1 − κ)

Доказательство. Пусть


f j(k) (X ; tk ) 1
σk = p , β= (< 1).
t k +1 − t k 2(1 − κ)


“Nesterov-final” — // — : — page  — #

§ .. Методы с полной информацией

Так как tk+1 = t ∗j(k) ( X ), принимая во внимание лемму .., получаем


1 1
σ k −1 = p ∗
f j(k −1) ( X ; t k −1 ) ¾ p fˆj(k)

( X ; t k −1 ) ¾
t k − t k −1 t k − t k −1
2 2(1 − κ) ∗ σ
¾p fˆj(k)

( X ; tk ) ¾ p f j(k) ( X ; tk ) = k
t k +1 − t k t k +1 − t k β

при всех k ¾ 1. Таким образом, σk ¶ β σk−1 , и


p p

f j(k) ( X ; tk ) = σk tk+1 − tk ¶ β k σ0 tk+1 − tk =
Ç
k ∗ t k +1 − t k
= β f j(0) ( X ; t0 ) .
t1 − t0

Далее, в силу леммы .. получаем t1 − t0 ¾ fˆj(0)



( X ; t0 ). Поэтому
È
t k +1 − t k

f j(k) ( X ; tk ) ¶ β k f j(0)

( X ; t0 ) ¶
ˆ ∗
f j(0) (X ; t0 )
βk βk p ∗
q
¶ fˆj(0)

( X ; t0 )(tk+1 − tk ) ¶ f (t0 )(t0 − t ∗ ).
1−κ 1−κ
∗ ∗
Остается заметить, что f (t0 ) ¶ t0 − t (см. лемму ..).

Пусть условие полной остановки в схеме (.) выполняется:


f j∗ ( X ; tk ) ¶ ǫ . Тогда найдется такое j ∗ , что
f (tk ; x j ∗ ) = f j∗ ( X ; tk ) ¶ ǫ .
Поэтому
f (tk ; x j ∗ ) = max{ f (x j ∗ ) − tk ; f¯(x j ∗ )} ¶ ǫ .
Поскольку tk ¶ t ∗ , мы заключаем, что
f (x j ∗ ) ¶ t ∗ + ǫ ,
(.)
f¯(x j ∗ ) ¶ ǫ .
По лемме .. на выполнение условия (.) нужно не более
1 t − t∗
N(ǫ ) = ln 0
ln[2(1 − κ)] (1 − κ)ǫ
полных итераций основного процесса (последняя итерация процес-
са заканчивается проверкой критерия полной остановки). Заметим,


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

что в приведенном выше выражении κ –– положительная константа


(например, можно взять κ = 1/4). Введем обозначение

M f = max k g k | g ∈ ∂ f (x) ∪ ∂ f¯(x), x ∈ Q .




Нам нужно проанализировать два случая.


. Полный шаг. Во время этого шага процесс нижнего уровня завер-
шается по критерию

fˆj(k)
∗ ∗
( X ; tk ) ¾ (1 − κ) f j(k) ( X ; tk ).

Соответствующее неравенство для ошибки выглядит так:



f j(k) ( X ; tk ) − fˆj(k)
∗ ∗
( X ; tk ) ¶ κ f j(k) ( X ; tk ).

По теореме .. это неравенство оказывается заведомо выполнен-


ным после
M 2f D 2

κ2 ( f j(k) (X ; tk ))2 α(1 − α)2 (2 − α)

итераций процесса нижнего уровня. Так как при полном шаге



f j(k) ( X ; tk ) ¾ ǫ , мы заключаем, что
M 2f D 2
j(k) − j(k − 1) ¶
κ2 ǫ 2 α(1 − α)2 (2 − α)

для любой полной итерации основного процесса.


. Последний шаг. Процесс нижнего уровня на этом шаге заканчи-
ваеся по критерию полной остановки:
f j∗ ( X ; tk ) ¶ ǫ .

Поскольку обычный критерий остановки не сработал, мы заключа-


ем, что
f ∗ ( X ; tk ) − fˆ∗ ( X ; tk ) ¾ κ f ∗ ( X ; tk ) ¾ κǫ .
j −1 j −1 j −1

Поэтому из теоремы .. следует, что число итераций на последнем


шаге не превосходит
M 2f D 2
.
κ2 ǫ 2 α(1 − α)2 (2 − α)


“Nesterov-final” — // — : — page  — #

§ .. Методы с полной информацией

Таким образом, мы приходим к следующей оценке полной слож-


ности условного метода уровней:
M 2f D 2
(N(ǫ ) + 1) =
κ2 ǫ 2 α(1 − α)2 (2 − α)
M 2f D 2 •
1 t − t∗
˜
= 1+ ln 0 =
κ2 ǫ 2 α(1 − α)2 (2 − α) ln[2(1 − κ)] (1 − κ)ǫ

2(t0 −t )
M 2f D 2 ln ǫ
= .
ǫ 2 α(1 − α)2 (2 − α)κ2 ln[2(1 − κ)]
Можно показать, что приемлемыми значениями параметров этого
1
метода являются α = κ = p .
2+ 2
Основная составляющая в полученной оценке сложности имеет

1 0 2(t − t )
порядок 2 ln . Таким образом, условный метод уровней яв-
ǫ ǫ
ляется субоптимальным (см. теорему ..).
В этом методе на каждой итерации основного процесса нам необ-
ходимо найти корень t ∗j(k)( X ). По лемме .. это эквивалентно сле-
дующей задаче:
min fˆk ( X ; x) | fˇk ( X ; x) ¶ 0, x ∈ Q .


Другими словами, нам нужно решить задачу


min t,
при f (x j ) + g(x j ), x − x j ¶ t, j = 0, …, k,

f¯(x j ) + ḡ(x j ), x − x j ¶ 0, j = 0, …, k,

x ∈ Q.
Если Q –– многогранник, то эта задача решается конечными метода-
ми линейного программирования (например, симплекс-методом).
Если Q –– более сложное множество, то необходимо использовать
уже методы внутренней точки.
В завершение этого параграфа отметим, что можно применять и
более точные модели для функциональных ограничений. Поскольку
f¯(x) = max fi (x),
1¶i ¶m
можно использовать модель
fˇk ( X ; x) = max max fi (x j ) + 〈 gi (x j ), x − x j 〉 ,
 
0¶ j ¶k 1¶i ¶m


“Nesterov-final” — // — : — page  — #

Глава . Негладкая выпуклая оптимизация

где gi (x j ) ∈ ∂ fi (x j ). Такая полная модель может существенно уско-


рить скорость сходимости всего процесса. Однако при этом каждая
итерация становится более трудоемкой.
Отметим, что на практике этот метод, как правило, сходится
очень быстро. Есть, однако, несколько технических проблем, свя-
занных с накоплением большого числа линейных функций в мо-
дели. Поэтому во всех практических схемах обычно присутствуют
определенные стратегии избавления от старых или ненужных эле-
ментов.


“Nesterov-final” — // — : — page  — #

Глава 

Структурная оптимизация
§ .. Самосогласованные функции
Что в черном ящике? Как на самом деле работает метод Ньютона? Определе-
ние самосогласованных функций. Основные свойства. Минимизация самосо-
гласованных функций.

... Концепция «черного ящика» в выпуклой оптимизации


В этой главе мы представим основные идеи, лежащие в основе
современных полиномиальных методов внутренней точки для за-
дач нелинейной оптимизации. Для начала посмотрим на традици-
онную формулировку этих задач.
Предположим, что мы хотим решить задачу минимизации, запи-
санную в следующем виде:
minn f0 (x) | f j (x) ¶ 0, j = 1, …, m .

x ∈R

Заметим, что функциональные компоненты этой задачи должны


быть выпуклыми. В то же время, все стандартные методы выпуклой
оптимизации для решения задач такого рода основываются на кон-
цепции черного ящика. Под этим подразумевается, что наша задача
снабжена оракулом, дающим некоторую информацию о функцио-
нальных компонентах задачи в любой тестовой точке x. Этот оракул
является локальным, т. е. если мы меняем форму компоненты в
точке, далекой от выбранной точки x, то ответ оракула не меня-
ется. Эти ответы содержат единственно доступную информацию,
используемую в численных методах  .
Однако если внимательнее рассмотреть данную ситуацию, то
можно увидеть определенное противоречие. Действительно, для


Мы уже обсуждали данную концепцию и соответствующие методы в предыду-
щих главах.
“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

того чтобы применять методы выпуклой оптимизации, нам необ-


ходимо быть уверенными в том, что наши функциональные ком-
поненты выпуклы. В то же время, проверить выпуклость можно
только анализируя структуру этих функций  : если, например, на-
ши функции получены из базовых выпуклых функций посредством
выпуклых операций (суммирование, взятие максимума и т. д.), то
можно заключить, что они выпуклы.
Таким образом, функциональные компоненты исходной задачи
явно не находятся в черном ящике в момент проверки их выпук-
лости и выбора метода минимизации. Но мы помещаем их в чер-
ный ящик по отношению к численным методам. Это является ос-
новным концептуальным противоречием стандартной теории вы-
пуклой оптимизации  .
Данное обстоятельство дает некоторую надежду на ускорение
методов выпуклой оптимизации за счет использования знаний об
их структуре. К сожалению, понятие структуры является очень
размытым и трудно формализуемым. Одним из способов описания
структуры является фиксация аналитического типа функциональ-
ных компонент. Например, можно рассмотреть задачи только с
линейными функциями f j (x). Однако такой подход является слиш-
ком ограничительным. Стоит добавить в условия задачи хотя бы
одну функциональную компоненту другого типа, и всю теорию их
решения надо будет разрабатывать заново.
С другой стороны, очевидно, что, имея доступ к структуре функ-
ций, можно попробовать изменить аналитическую форму задачи.
Можно, например, пытаться переписать задачу в другой эквива-
лентной форме, используя нетривиальные преобразования коор-
динат или ограничений, вводя дополнительные переменные и т. д.
Однако это обычно не приносит явной пользы, до тех пор пока
не сформулирована конечная цель таких преобразований. Давайте
попытаемся это сделать.
Для начала заметим, что иногда переформулировка исходной за-
дачи может рассматриваться как часть численного метода ее реше-
ния. Мы начинаем со сложной задачи P и шаг за шагом упрощаем


Численная проверка выпуклости –– задача безнадежная.

Тем не менее, выводы теории о методах минимизации, основанных на ответах
оракула, остаются, конечно же, справедливыми.


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

ее структуру до некоторой тривиальной формы (или до задачи, ко-


торую мы умеем решать):
P −→ … −→ ( f ∗ , x ∗ ).
В качестве примера рассмотрим классический подход к решению
системы линейных уравнений
Ax = b.
Можно поступить следующим образом.
. Проверим, что A –– симметрическая и положительно определен-
ная матрица. Иногда это можно сделать, приняв во внимание ее
происхождение.
. Применим разложение Холесского для A:
A = LLT ,
где L –– нижнетреугольная матрица. Образуем две вспомогательные
системы
Ly = b, LT x = y.

. Найдем решение этих систем. Эта процедура выглядит как после-


довательное преобразование исходной задачи к удобному для реше-
ния виду.
На секунду представим, что мы не знаем, как решать системы ли-
нейных уравнений. Для того чтобы обнаружить данную процедуру
их решения, следовало бы проделать следующие шаги.
. Найти класс задач, который мы умеем эффективно решать (в на-
шем примере это линейные системы с треугольной матрицей).
. Описать правила преобразования исходной задачи в нужную фор-
му.
. Описать класс задач, для которых эти преобразования являются
инвариантными.
Оказывается, данный подход применим и к задачам оптимиза-
ции. Прежде всего, нам надо найти некий базовый численный метод
и специальную формулировку задачи, для которой этот метод яв-
ляется эффективным. Мы увидим, что для наших целей наиболее
подходящим кандидатом будет метод Ньютона (см. п. ..), приме-


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

няемый в рамках методов последовательной безусловной минимиза-


ции (см. п. ..).
В следующем пункте мы укажем на некоторые недостатки стан-
дартного анализа метода Ньютона. В качестве альтернативы будет
выведено семейство особых выпуклых функций –– самосогласован-
ных функций и самосогласованных барьеров, которые можно эффек-
тивно минимизировать с помощью метода Ньютона. Мы использу-
ем эти объекты при описании преобразованной версии исходной
задачи, которая в дальнейшем будет называться барьерной моделью.
Эта модель заменит нам стандартную функциональную модель за-
дачи оптимизации, которая использовалась во всех предыдущих
главах.

... Как работает метод Ньютона?


Посмотрим на стандартные результаты о локальной сходимости
метода Ньютона (они были приведены в теореме ..). Мы пытаем-
ся найти точку безусловного локального минимума x ∗ дважды диф-
ференцируемой функции f (x). Предположим, что
◦ f ′′ (x ∗ )  lIn с некоторой константой l > 0,
◦ k f ′′ (x) − f ′′ ( y) k ¶ M k x − y k для всех x, y ∈ Rn .
Предположим также, что начальная точка метода Ньютона x0 рас-
положена достаточно близко к x ∗ :
2l
k x0 − x ∗ k < r̄ = . (.)
3M
Тогда можно доказать корректность правил построения последова-
тельности
xk+1 = xk − f ′′ (xk ]−1 f ′ (xk ) , k ¾ 0. (.)
 

Более того, k xk − x ∗ k < r̄ при всех k ¾ 0, и метод Ньютона (.) схо-


дится квадратично:
M k xk − x ∗ k2
k x k +1 − x ∗ k ¶ .
2(l − M k xk − x ∗ k)

Что может насторожить в этом классическом результате? Обра-


тим внимание на то, что описание области квадратичной сходимо-
сти (.) для этого метода дается в терминах стандартного скаляр-


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

ного произведения
n
P
〈 x, y 〉 = x (i) y (i) .
i =1

Если выбрать некий новый базис в Rn , то все параметры этого опи-


сания меняются: изменятся метрика, гессиан, границы l и M. Но
посмотрим на сам алгоритм метода Ньютона. А именно, пусть A ––
невырожденная (n × n)-матрица. Рассмотрим функцию
ϕ ( y) = f (Ay).
Для понимания природы метода Ньютона очень важным является
следующий результат.
Лемма ... Пусть {xk } –– последовательность, образованная ме-
тодом Ньютона для функции f :
−1 ′
xk+1 = xk − f ′′ (xk )

f (xk ), k ¾ 0.
Рассмотрим последовательность { yk }, образованную методом Нью-
тона для функции ϕ :
−1 ′
yk+1 = yk − ϕ ′′ ( yk )

ϕ ( yk ), k ¾ 0,
y0 = A−1 x0 . Тогда yk = A−1 xk при всех k ¾ 0.

Доказательство. Пусть yk = A−1 xk при некотором k ¾ 0. В этом слу-


чае
−1 ′ −1 T ′
yk+1 = yk − ϕ ′′ ( yk ) ϕ ( yk ) = yk − AT f ′′ (Ayk )A
 
A f (Ayk ) =
−1 −1
 ′′ −1 ′ −1
= A xk − A f (xk ) f (xk ) = A xk+1 .

Таким образом, метод Ньютона инвариантен по отношению к


аффинному преобразованию координат. Поэтому его настоящая об-
ласть квадратичной сходимости не зависит от конкретного выбора
скалярного произведения. Она будет зависеть только от локаль-
ной топологической структуры функции f (x) в окрестности точки
минимума.
Попытаемся понять, что было не так в наших предположениях.
Наиболее важное из них –– это липшицевость гессиана:
k f ′′ (x) − f ′′ ( y) k ¶ M k x − y k ∀ x, y ∈ Rn .


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Предположим, что f ∈ C 3 (Rn ). Пусть


1  ′′
f ′′′ (x)[u] = lim f (x + αu) − f ′′ (x) .

α→0 α
Отметим, что объект в правой части представляет собой (n × n)-
матрицу. Тогда наше предположение эквивалентно неравенству
k f ′′′ (x)[u] k ¶ M k u k,
откуда следует, что в любой точке x ∈ Rn выполняется неравенство
f (x)[u]υ, υ ¶ M k u k · kυk2 ∀u, υ ∈ Rn .

′′′

Левая часть этого неравенства инвариантна по отношению к аф-


финным преобразованиям координат. Однако правая часть таким
свойством не обладает. Поэтому было бы естественно найти аффин-
но-инвариантную замену для стандартной нормы k · k. Основной
кандидат для такой замены достаточно очевиден: это норма, опре-
деляемая самим гессианом f ′′ (x), а именно
1/2
k u k f ′′ (x) = f ′′ (x)u, u

.
Такой выбор приводит нас к классу самосогласованных функций.

... Определение самосогласованной функции


Рассмотрим выпуклую и замкнутую функцию f (x) ∈ C 3 (dom f )
с открытой областью определения. Зафиксируем некоторую точку
x ∈ dom f и направление u ∈ Rn . Рассмотрим функцию
ϕ (x; t) = f (x + tu)
как функцию переменной t ∈ dom ϕ (x; ·) ⊆ R. Введем обозначения
Df (x)[u] = ϕ ′ (x; t) = f ′ (x), u ,

D 2 f (x)[u, u] = ϕ ′′ (x; t) = f ′′ (x)u, u = k u k2f ′′ (x) ,



D 3 f (x)[u, u, u] = ϕ ′′′ (x; t) = f ′′′ (x)[u]u, u .



Определение ... Назовем функцию f самосогласованной, если


найдется такая константа M f ¾ 0, что имеет место неравенство
D 3 f (x)[u, u, u] ¶ M f k u k3f ′′ (x)
для любых x ∈ dom f , u ∈ Rn .


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

Заметим, что такие функции нечасто встречаются в практиче-


ских приложениях. Они нам необходимы только для построения
барьерной модели исходной задачи. Скоро мы увидим, что их мож-
но легко минимизировать с помощью метода Ньютона.
Обратим внимание на эквивалентное определение самосогласо-
ванных функций.
Лемма ... Функция f является самосогласованной тогда и толь-
ко тогда, когда для любого x ∈ dom f и любых u1 , u2 , u3 ∈ Rn выпол-
нено неравенство
3
D 3 f (x)[u , u , u ] ¶ M
Q
1 2 3 f k ui k f ′′ (x)
. (.)
i =1

Примем это утверждение без доказательства, поскольку оно по-


требовало бы привлечения некоторых результатов из теории трили-
нейных симметрических форм.
В дальнейшем мы часто будем использовать определение ..,
для того чтобы доказать самосогласованность некоторых функций,
в то время как лемма .. будет полезна при исследовании их спе-
цифических свойств.
Рассмотрим несколько примеров.
Пример ... . Линейная функция. Пусть
f (x) = α + 〈a, x 〉, dom f = Rn .
Тогда
f ′ (x) = a, f ′′ (x) = 0, f ′′′ (x) = 0,
и мы получаем, что M f = 0.
. Выпуклая квадратичная функция. Рассмотрим функцию
1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, dom f = Rn ,
2
где A = AT  0. Тогда
f ′ (x) = a + Ax, f ′′ (x) = A, f ′′′ (x) = 0,
и мы заключаем, что M f = 0.
. Логарифмический барьер для луча. Рассмотрим функцию одной
переменной
f (x) = − ln x, dom f = x ∈ R1 | x > 0 .



“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Тогда
1 1 2
f ′ (x) = − , f ′′ (x) = , f ′′′ (x) = − .
x x2 x3
Поэтому f (x) –– самосогласованная функция с константой M f = 2.
. Логарифмический барьер для множества второго порядка. Пусть
A = AT  0. Введем в рассмотрение вогнутую квадратичную функ-
цию
1
ϕ (x) = α + 〈a, x 〉 − 〈 Ax, x 〉.
2
Определим f (x) = − ln ϕ (x), dom f = x ∈ Rn | ϕ (x) > 0 . В этом слу-


чае
1  
Df (x)[u] = − 〈a, u〉 − 〈 Ax, u〉 ,
ϕ (x)
2 1  2 1
D f (x)[u, u] = 2 〈a, u〉 − 〈 Ax, u〉 + 〈 Au, u〉,
ϕ (x) ϕ (x)
2  3
D 3 f (x)[u, u, u] = − 3 〈a, u〉 − 〈 Ax, u〉 −
ϕ (x)
3  
− 2 〈a, u〉 − 〈 Ax, u〉 〈 Au, u〉.
ϕ (x)
1
Введем обозначение ω1 = Df (x)[u] и ω2 = 〈 Au, u〉. Тогда
ϕ (x)
D 2 f (x)[u, u] = ω21 + ω2 ¾ 0,

D 3 f (x)[u, u, u] = 2ω3 + 3ω ω .
1 1 2

Нетривиальным является только случай при ω1 6= 0. Пусть α = ω2 /ω21 .


Тогда
2(1 + 32 α)

D 3 f (x)[u, u, u] 2|ω1 |3 + 3|ω1 |ω2
2 3/2
¶ 2
= ¶ 2.
(D f (x)[u, u]) (ω1 + ω2 ) 3/2 (1 + α)3/2
Таким образом, эта функция является самосогласованной с констан-
той M f = 2.
. Легко проверить, что ни одна из следующих функций одной пере-
менной не является самосогласованной:
1
f (x) = e x ; f (x) = , x > 0, p > 0; f (x) = | x | p , p > 2.
xp
Однако не надо думать, что самосогласованность каким-либо обра-
зом связана с логарифмической функцией. Можно показать, напри-
мер, что функция f (x) = x 2 + 1/ x самосогласованна при x > 0.


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

Приведем теперь основные свойства самосогласованных функ-


ций.
Теорема ... Пусть функции fi являются самосогласованными с
константами Mi , i = 1, 2, и пусть α, β > 0. Тогда функция f (x) =
= α f1 (x) + β f2 (x) является самосогласованной с константой
§ ª
1 1
M f = max p M1 , p M2
α β
и dom f = dom f1 ∩ dom f2 .
Доказательство. Из теоремы .. следует, что f есть выпуклая и
замкнутая функция. Зафиксируем некоторые x ∈ dom f и u ∈ Rn . За-
метим,что
D 3 f (x)[u, u, u] ¶ M D 2 f (x)[u, u] 3/2 , i = 1, 2.
 
i i i

Пусть ωi = D 2 fi (x)[u, u] ¾ 0. Тогда



D 3 f (x)[u, u, u] α D 3 f1 (x)[u, u, u] + β D 3 f2 (x)[u, u, u]
 2 3/2 ¶  1 3/2 ¶
D f (x)[u, u] α D f1 (x)[u, u] + β D 2 f2 (x)[u, u]
3/2 3/2
α M 1 ω1 + β M 2 ω2
¶ 3/2
.
[αω1 + βω2 ]
Правая часть этого неравенства не меняется при замене (ω1 , ω2 ) на
(t ω1 , t ω2 ) с t > 0. Поэтому можно считать, что
αω1 + β ω2 = 1.
Пусть ξ = αω1 . Тогда правая часть последнего неравенства стано-
вится равной
M1 M2
p ξ3/2 + p (1 − ξ)3/2 , ξ ∈ [0, 1].
α β
Эта функция выпукла по ξ. Поэтому она достигает своего мак-
симального значения в конечной точке отрезка [0, 1] (см. след-
ствие ..).
Следствие ... Пусть функция f является самосогласованной с
некоторой константой M f . Если A = AT  0, то функция
1
ϕ (x) = α + 〈a, x 〉 + 〈 Ax, x 〉 + f (x)
2

“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

также является самосогласованной с константой Mϕ = M f .


Доказательство. Мы уже видели, что любая выпуклая квадратич-
ная функция самосогласованна с нулевой константой.
Следствие ... Пусть функция f является самосогласованной с
некоторой константой M f и α > 0. Тогда функция ϕ (x) =pα f (x) так-
же является самосогласованной с константой Mϕ = (1/ α)M f .
Покажем, что самосогласованность является аффинно-инвариант-
ным свойством.
Теорема ... Пусть A (x) = Ax + b: Rn → Rm есть линейный опера-
тор. Предположим, что функция f ( y) самосогласованна с констан-
той M f . Тогда функция ϕ (x) = f (A (x)) также самосогласованна и
Mϕ = M f .
Доказательство. Функция ϕ (x) выпуклая и замкнутая, что следует
из теоремы ... Зафиксируем некоторые x ∈ dom ϕ = {x : A (x) ∈
∈ dom f } и u ∈ Rn . Пусть y = A (x), υ = Au. Тогда
D ϕ (x)[u] = f ′ (A (x)), Au = f ′ ( y), υ ,


D 2 ϕ (x)[u, u] = f ′′ (A (x))Au, Au = 〈 f ′′ ( y)υ, υ〉,



D 3 ϕ (x)[u, u, u] = D 3 f (A (x))[Au, Au, Au] = D 3 f ( y)[υ, υ, υ].


Поэтому
D 3 ϕ (x)[u, u, u] = D 3 f ( y)[υ, υ, υ] ¶ M
f ′′ ( y)υ, υ 3/2 =

f
2 3/2
= M f D ϕ (x)[u, u] .
Следующее утверждение показывает, что локальные свойства са-
мосогласованной функции могут быть связаны с некоторыми гло-
бальными свойствами ее области определения.
Теорема ... Пусть функция f самосогласованна. Если dom f не
содержит прямых линий в Rn , то гессиан f ′′ (x) невырожден в любой
точке x ∈ dom f .
Доказательство. Предположим, что 〈 f ′′ (x)u, u〉 = 0 для некоторых
x ∈ dom f и u ∈ Rn , u 6= 0. Рассмотрим точки yα = x + αu ∈ dom f и
функцию
ψ(α) = f ′′ ( yα )u, u .


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

Заметим, что
ψ′ (α) = D 3 f ( yα )[u, u, u] ¶ 2ψ(α)3/2 , ψ(0) = 0.
Так как ψ(α) ¾ 0, получаем, что ψ′ (0) = 0. Поэтому эта функция
является частью решения следующей системы дифференциальных
уравнений:
¨
ψ′ (α) = 2ψ(α)3/2 − ξ(α),
ψ(0) = ξ(0) = 0,
ξ′ (α) = 0.
Однако эта система имеет единственное тривиальное решение. Зна-
чит, ψ(α) = 0 для всех допустимых значений α.
Таким образом, мы показали, что функция ϕ (α) = f ( yα ) линейна:
Rα Rλ
′′
ϕ (α) = f (x) + f ′ (x), yα − x +


f ( yτ )u, u dτd λ =
0 0
= f (x) + α f ′ (x), u .

Предположим, что существует такое ᾱ, что yᾱ ∈ ∂(dom f ). Рассмот-


рим такую последовательность {αk }, что αk ↑ ᾱ. Тогда
zk = ( yαk , ϕ (αk )) → z̄ = ( yᾱ , ϕ (ᾱ)).
Заметим, что zk ∈ epi f , а z̄ ∈
/ epi f , так как yᾱ ∈
/ dom f . Получили про-
тиворечие, поскольку функция f замкнута. Рассматривая направ-
ление −u и предполагая, что этот луч пересекает границу области
определения функции f , снова приходим к противоречию. Поэто-
му заключаем, что yα ∈ dom f при всех α. Однако это приводит к
противоречию с предположениями теоремы.
Наконец, опишем поведение самосогласованной функции при
подходе к границе ее области определения.
Теорема ... Пусть f –– самосогласованная функция. Тогда для
любой точки x̄ ∈ ∂(dom f ) и любой последовательности
{xk } ⊂ dom f : xk → x̄
выполняется условие f (xk ) → +∞.
Доказательство. Заметим, что последовательность { f (xk )} огра-
ничена снизу:
f (xk ) ¾ f (x0 ) + f ′ (x0 ), xk − x0 .


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Предположим, что она ограничена и сверху. Тогда у нее есть хотя бы


одна предельная точка f¯. Можно считать, что для рассматриваемой
последовательности эта предельная точка единственна. Поэтому
zk = (xk , f (xk )) → z̄ = ( x̄, f¯).
Заметим, что zk ∈ epi f , а z̄ ∈
/ epi f , поскольку x̄ ∈
/ dom f . Получили
противоречие, так как функция f замкнута.

Таким образом, мы доказали, что f (x) –– барьерная функция для


cl(dom f ) (см. п. ..).

... Основные неравенства


Зафиксируем некоторую самосогласованную функцию f (x) и
предположим, что константа M f равна 2 (в противном случае ее все-
гда можно промасштабировать, см. следствие ..). Будем называть
такие функции стандартными самосогласованными. Предположим
также, что dom f не содержит прямых (что означает невырожден-
ность всех гессианов f ′′ (x), см. теорему ..).
Введем обозначения
1/2
k u k x = f ′′ (x)u, u

,


′′ −1
1/2
kυk x = [ f (x)] υ, υ ,
1/2
λ f (x) = [ f (x)]−1 f ′ (x), f ′ (x)

′′
.
Очевидно, |〈υ, u〉| ¶ kυk∗x · k u k x . Назовем k u k x локальной нормой для
направления u по отношению к x, а λ f (x) = k f ′ (x) k∗x –– локальной
двойственной нормой градиента  f ′ (x).
Зафиксируем x ∈ dom f и u ∈ Rn , u 6= 0. Рассмотрим функцию од-
ной переменной
1
ϕ (t) =
〈 f ′′ (x + tu)u, u〉1/2

с областью определения dom ϕ = t ∈ R1 | x + tu ∈ dom f .




Лемма ... Для всех допустимых значений t выполнено неравен-


ство |ϕ ′ (t) | ¶ 1.


Иногда λ f (x) называют ньютоновской вариацией функции f в точке x.


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

Доказательство. Действительно,
f ′′′ (x + tu)[u, u, u]
ϕ ′ (t) = − .
2〈 f ′′ (x + tu)u, u〉3/2

Поэтому |ϕ ′ (t) | ¶ 1 в силу определения ...

Следствие ... Область определения функции ϕ (t) содержит ин-


тервал
(−ϕ (0), ϕ (0)).

Доказательство. Так как f (x + tu) → ∞ при стремлении x + tu к гра-


нице множества dom f (см. теорему ..), функция 〈 f ′′ (x + tu)u, u〉
не может быть ограниченной. Поэтому dom ϕ ≡ {t | ϕ (t) > 0}. Оста-
ется заметить, что
ϕ (t) ¾ ϕ (0) − | t |
в силу леммы ...

Рассмотрим эллипсоид следующего вида:


W 0 (x; r) = y ∈ Rn | k y − x k x < r ,


W (x; r) = cl W 0 (x; r) ≡ y ∈ Rn | k y − x k x ¶ r .
 

Этот эллипсоид называется эллипсоидом Дикина функции f в точ-


ке x.
Теорема ... . Для любого x ∈ dom f имеет место включение
W 0 (x; 1) ⊆ dom f .
. Для всех x, y ∈ dom f выполнено следующее неравенство:
k y − x kx
k y − x ky ¾ . (.)
1 + k y − x kx
. Если k y − x k x < 1, то
k y − x kx
k y − x ky ¶ . (.)
1 − k y − x kx

Доказательство. . Из следствия .. вытекает, что dom f содер-


жит множество
y = x + tu | t 2 k u k2x < 1



“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

(так как ϕ (0) = 1/k u k x ). Это и есть в точности эллипсоид W 0 (x; 1).
. Выберем u = y − x. Тогда
1 1
ϕ (1) = , ϕ (0) =
k y − x ky k y − x kx
и ϕ (1) ¶ ϕ (0) + 1 в силу леммы .., а это и есть неравенство (.).
. Если k y − x k x < 1, то ϕ (0) > 1, и по лемме .. мы получаем
ϕ (1) ¾ ϕ (0) − 1. Это в точности неравенство (.).

Теорема ... Пусть x ∈ dom f . Тогда для любого y ∈ W 0 (x; 1) име-


ет место неравенство
2 1
1 − k y − x k x f ′′ (x)  f ′′ ( y)  2
f ′′ (x). (.)
(1 − k y − x k x )

Доказательство. Зафиксируем некоторое u ∈ Rn , u 6= 0. Рассмотрим


функцию
ψ(t) = f ′′ (x + t( y − x))u, u , t ∈ [0, 1].

Пусть yt = x + t( y − x). Тогда в силу леммы .. и неравенства (.)


получаем

|ψ′ (t) | = D 3 f ( yt )[ y − x, u, u] ¶ 2k y − x k y k u k2 =
t yt
2 2 k yt − x k x
= k yt − x k yt ψ(t) ¶ · · ψ(t) =
t t 1 − k yt − x k x
2k y − x k x
= · ψ(t).
1 − tk y − x kx
Отсюда следует, что
2(ln(1 − t k y − x k x ))′ ¶ (ln ψ(t))′ ¶ −2(ln(1 − t k y − x k x ))′ .
Проинтегрируем это неравенство по t ∈ [0, 1]. Получим
ψ(1) 1
(1 − k y − x k x )2 ¶ ¶ ,
ψ(0) (1 − k y − x k x )2
а это есть в точности неравенство (.).
Следствие ... Пусть x ∈ dom f и r = k y − x k x < 1. Тогда можно
оценить матрицу
R1
G= f ′′ (x + τ( y − x)) dτ
0


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

следующим образом:
r 2 ′′ 1
(1 − r + ) f (x)  G  f ′′ (x).
3 1−r
Доказательство. В самом деле, по теореме .. имеем
R1 R1
G= f ′′ (x + τ( y − x)) dτ  f ′′ (x) · (1 − τr)2 dτ =
0 0
1
 
= 1 − r + r 2 f ′′ (x),
3
R1 dτ 1
G  f ′′ (x) · = f ′′ (x).
(1 − τr)2 1−r
0

Еще раз обратим внимание на наиболее важные утверждения, до-


казанные нами.
◦ В любой точке x ∈ dom f можно указать эллипсоид
W 0 (x; 1) = {x ∈ Rn | f ′′ (x)( y − x), y − x) < 1},

принадлежащий выпуклой области dom f .


◦ Внутри эллипсоида W (x; r), r ∈ [0, 1), функция f почти квадра-
тична:
1
(1 − r)2 f ′′ (x)  f ′′ ( y)  2
f ′′ (x)
(1 − r)
при всех y ∈ W (x; r). Качество этой квадратичной аппроксима-
ции можно регулировать в соответствии с нашими целями, вы-
бирая r достаточно маленьким.
Эти два факта создают основу для практически всех последующих
результатов.
Завершим этот пункт формулировкой утверждений, оцениваю-
щих рост самосогласованных функций относительно их линейных
аппроксимаций.
Теорема ... Для любых x, y ∈ dom f имеют место неравенства
k y − x k2x
f ′ ( y) − f ′ (x), y − x ¾ (.)


,
1 + k y − x kx
f ( y) ¾ f (x) + f ′ (x), y − x + ω k y − x k x , (.)



где ω(t) = t − ln(1 + t).


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Доказательство. Пусть yτ = x + τ( y − x), τ ∈ [0, 1], и r = k y − x k x .


Тогда исходя из неравенства (.) получаем

R1
′′
f ′ ( y) − f ′ (x), y − x =


f ( yτ )( y − x), y − x dτ =
0
R1 1
= k yτ − x k2y dτ ¾
τ2 τ
0
R1 r2 R 1
r
r2
¾ dτ = r dτ = .
(1 + τr)2 (1 + t)2 1+r
0 0

Далее, используя неравенство (.), получим

R1

f ( y) − f (x) − f ′ (x), y − x = f ( yτ ) − f ′ (x), y − x dτ =


0
R1 1

f ′ ( yτ ) − f ′ (x), yτ − x dτ ¾

=
τ
0
R1 k yτ − x k2x R1 τr 2
¾ dτ = dτ =
τ(1 + k yτ − x k x ) 1 + τr
0 0
Rr tdt
= = ω(r).
1+t
0

Теорема ... Пусть x ∈ dom f и k y − x k x < 1. Тогда

k y − x k2x
0 ¶ f ′ ( y) − f ′ (x), y − x ¶ (.)


,
1 − k y − x kx

0 ¶ f ( y) − f (x) − f ′ (x), y − x ¶ ω∗ k y − x k x , (.)





где ω∗ (t) = −t − ln(1 − t).

Доказательство. Пусть yτ = x + τ( y − x), τ ∈ [0, 1], и r = k y − x k x .


Поскольку k yτ − x k < 1, принимая во внимание неравенство (.),


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

имеем
R1
′′
f ′ ( y) − f ′ (x), y − x =


f ( yτ )( y − x), y − x dτ =
0
R1 1
= k yτ − x k2y dτ ¶
τ2 τ
0
R1 r2 R 1
r
r2
¶ 2
dτ = r dt = .
(1 − τr) (1 − t)2 1−r
0 0

Далее, используя неравенство (.), получаем


R1

f ( y) − f (x) − f ′ (x), y − x = f ( yτ ) − f ′ (x), y − x dτ =


0
R1 1

f ′ ( yτ ) − f ′ (x), yτ − x dτ ¶

=
τ
0
R1 k yτ − x k2x R1 τr 2
¶ dτ = dτ =
τ(1 − k yτ − x k x ) 1 − τr
0 0
Rr tdt
= = ω∗ (r).
1−t
0

Теорема ... Неравенства (.), (.), (.), (.), (.) и (.) яв-
ляются необходимыми и достаточными условиями для того, что-
бы функция была стандартной самосогласованной.
Доказательство. Мы доказали две цепочки следствий:
определение .. ⇒ (.) ⇒ (.) ⇒ (.),
определение .. ⇒ (.) ⇒ (.) ⇒ (.).
Покажем, что из неравенства (.) следует определение ... Пусть
x ∈ dom f и x − αu ∈ dom f для α ∈ [0, ǫ ). Рассмотрим функцию
ψ(α) = f (x − αu), α ∈ [0, ǫ ).
Пусть r = k u k x ≡ [ϕ ′′ (0)]1/2 . Считая, что неравенство (.) выполня-
ется при всех x, y ∈ dom f , получаем
1 1
ψ(α) − ψ(0) − ψ′ (0)α − ψ′′ (0)α2 ¾ ω(αr) − α2 r 2 .
2 2

“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Отсюда следует, что


1 ′′′ 1
h i
ψ (0) = lim ψ(α) − ψ(0) − ψ′ (0)α − ψ′′ (0)α2 ¾
6 α↓0 2
1 1 2 2 r 
h i
¾ lim 3 ω(αr) − α r = lim 2 ω′ (αr) − αr =

α↓0 α 2 α↓0 3α

r αr r3
h i
= lim 2 − αr = − .
α↓0 3α 1 + αr 3

Таким образом, D 3 f (x)[u, u, u] = −ψ′′ (0) ¶ ψ′′′ (0) ¶ 2[ψ′′ (0)]3/2 , что
совпадает с определением .. при M f = 2.
Аналогично можно показать, что из неравенства (.) также сле-
дует неравенство из определения ...

Приведенные теоремы записаны с помощью двух вспомогатель-


ных функций ω(t) = t − ln(1 + t) и ω∗ (τ) = −τ − ln(1 − τ). Отметим,
что
t 1
ω′ (t) = ¾ 0, ω′′ (t) = 2
> 0,
1+t (1 + t)
τ 1
ω′∗ (τ) = ¾ 0, ω′′∗ (τ) = > 0.
1−τ (1 − τ)2
Поэтому ω(t) и ω∗ (τ) –– выпуклые функции. В дальнейшем мы ча-
сто будем использовать разные соотношения между этими функци-
ями. Для удобства ссылок мы приводим их в одном утверждении.
Лемма ... При любых t ¾ 0 и τ ∈ [0, 1) имеют место следующие
соотношения:
ω′ (ω′∗ (τ)) = τ, ω′∗ (ω′ (t)) = t,
ω(t) = max [ξt − ω∗ (ξ)], ω∗ (τ) = max[ξτ − ω(ξ)],
0¶ξ<1 ξ¾0

ω(t) + ω∗ (τ) ¾ τt,


ω∗ (τ) = τω∗ (τ) − ω(ω′∗ (τ)), ω(t) = t ω′ (t) − ω∗ (ω′ (t)).

Оставим доказательство этой леммы читателю в качестве упраж-


нения. Для опытного читателя заметим, что все эти тождества
следуют из соотношений двойственности между функциями ω(t) и
ω∗ (t).
Докажем два последних неравенства.


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

Теорема ... Для любых x, y ∈ dom f выполняется неравенство

f ( y) ¾ f (x) + f ′ (x), y − x +ω k f ′ ( y) − f ′ (x) k∗y . (.)





Если вдобавок k f ′ ( y) − f ′ (x) k∗y < 1, то

f ( y) ¶ f (x) + f ′ (x), y − x + ω∗ k f ′ ( y) − f ′ (x) k∗y . (.)





Доказательство. Зафиксируем произвольные x, y ∈ dom f . Рас-


смотрим функцию

ϕ (z) = f (z) − f ′ (x), z , z ∈ dom f .



Заметим, что эта функция является самосогласованной и ϕ ′ (x) = 0.


Поэтому, используя неравенство (.), получим

f (x) − f ′ (x), x = ϕ (x) = min ϕ (z) ¶




z ∈dom f

¶ min ϕ ( y) + ϕ ′ ( y), z − y + ω∗ k z − y k y =


z ∈dom f

= ϕ ( y) − ω kϕ ′ ( y) k∗y =


= f ( y) − 〈 f ′ (x), y 〉 − ω k f ′ ( y) − f ′ (x) k∗y ,




откуда следует неравенство (.). Для проверки неравенства (.)


используем те же рассуждения, что и при доказательстве неравен-
ства (.).

... Минимизация самосогласованных функций


Рассмотрим задачу минимизации:

min f (x). (.)


x ∈dom f

Следующая теорема представляет достаточное условие существова-


ния ее решения. Напомним, что f предполагается стандартной са-
мосогласованной функцией, а dom f не содержит прямых.

Теорема ... Если для некоторого x ∈ dom f справедливо нера-


венство λ f (x) < 1, то решение x ∗f задачи (.) существует и един-
ственно.


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Доказательство. Действительно, из неравенства (.) следует, что


для любого y ∈ dom f выполняется соотношения
f ( y) ¾ f (x) + f ′ (x), y − x + ω k y − x k x ¾



¾ f (x) − k f ′ (x) k∗x · k y − x k x + ω k y − x k x =




= f (x) − λ f (x) · k y − x k x + ω k y − x k x .
Поэтому для любого y ∈ L f ( f (x)) = { y ∈ Rn | f ( y) ¶ f (x)} получаем
1 
ω k y − x k x ¶ λ f (x) < 1.
k y − x kx
1 1
Заметим, что функция ω(t) = 1 − ln(1 + t) строго возрастает по t.
t t
Отсюда следует, что k y − x k x ¶ t̄, где t̄ –– единственный положитель-
ный корень уравнения
(1 − λ f (x))t = ln(1 + t).
Значит, множество L f ( f (x)) ограничено, и поэтому x ∗f существует.
Единственность вытекает из неравенства (.), поскольку при всех
y ∈ dom f имеем
f ( y) ¾ f (x ∗f ) + ω k y − x ∗f k x ∗f .


Таким образом, мы доказали, что локальное условие λ f (x) < 1


несет в себе информацию о глобальном поведении функции f ,
т. е. о существовании точки минимума x ∗f . Заметим, что результат
теоремы .. нельзя усилить.
Пример ... Зафиксируем ǫ > 0. Рассмотрим скалярную функцию
fǫ (x) = ǫ x − ln x, x > 0.
Как видно из примера .. и следствия .., эта функция является
самосогласованной. Заметим, что
1 1
fǫ′ (x) = ǫ − , fǫ′′ = .
x x2
Поэтому λ fǫ (x) = | 1 − ǫ x |. Значит, при ǫ = 0 имеет место равенство
λ f0 (x) = 1 для любого x > 0. Таким образом, функция f0 не является
ограниченной снизу. Если ǫ > 0, то x ∗f = 1/ǫ . Мы можем гаранти-
ǫ
ровать существование точки минимума, находясь при этом в точке
x = 1, даже если ǫ сколь угодно мало.


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

Рассмотрим теперь демпфированный метод Ньютона.

Демпфированный метод Ньютона (.)


. Выберем x0 ∈ dom f .
. Вычисляем
1  ′′ −1 ′
x k +1 = x k − f (xk ) f (xk ), k ¾ 0.
1 + λ f (xk )

Теорема ... Для любого k ¾ 0 выполняется неравенство


f (xk+1) ¶ f (xk ) − ω(λ f (xk )). (.)
λ
Доказательство. Пусть λ = λ f (xk ). Тогда k xk+1 − xk k xk = =
1+λ
= ω′ (λ) < 1. Поэтому, пользуясь неравенством (.) и леммой ..,
получаем
f (xk+1 ) ¶ f (xk ) + f ′ (xk ), xk+1 − xk + ω∗ k xk+1 − xk k x =



λ2
= f (xk ) − + ω∗ (ω′ (λ)) =
1+λ
= f (xk ) − λω′ (λ) + ω∗ (ω′ (λ)) = f (xk ) − ω(λ).

Таким образом, для всех x ∈ dom f , λ f (x) ¾ β > 0, один шаг демп-
фированного метода Ньютона уменьшает значение f (x) по мень-
шей мере на константу ω(β ) > 0. Отметим, что результат теоре-
мы .. может использоваться для получения оценок глобальной
эффективности этого метода.
Опишем теперь локальную сходимость стандартного метода
Ньютона.

Стандартный метод Ньютона (.)


. Выберем x0 ∈ dom f .
. Вычисляем −1 ′
xk+1 = xk − f ′′ (xk ) f (xk ), k ¾ 0.

Сходимость этого метода можно охарактеризовать разными спосо-


бами. Можно оценить скорость сходимости для невязки по функции
f (xk ) − f (x ∗f ), для локальной нормы градиента λ f (xk ) = k f ′ (xk ) k∗xk


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

или для локального расстояния до точки минимума k xk − x ∗f k xk .


Наконец, можно оценивать расстояние до точки минимума в фик-
сированной метрике
r∗ (xk ) ≡ k xk − x ∗f k x ∗f ,

определяемой самой точкой минимума. Докажем, что локально все


эти меры эквивалентны.
Теорема ... Пусть λ f (x) < 1. Тогда
ω(λ f (x)) ¶ f (x) − f (x ∗f ) ¶ ω∗ (λ f (x)), (.)

ω′ (λ f (x)) ¶ k x − x ∗f k x ¶ ω′∗ (λ f (x)), (.)

ω(r∗ (x)) ¶ f (x) − f (x ∗f ) ¶ ω∗ (r∗ (x)), (.)


где последнее неравенство верно при r∗ (x) < 1.

Доказательство. Пусть r = k x − x ∗f k x и λ = λ f (x). Выполнение нера-


венств (.) следует из теоремы ... Далее, с помощью неравен-
ства (.) получаем
r2
¶ f ′ (x), x − x ∗f ¶ λr,


1+r
а это правая часть неравенства (.). Если r ¾ 1, то левая часть
оказывается тривиальной. Предположим, что r < 1. Тогда f ′ (x) =
= G(x − x ∗f ), где
R1
G = f ′′ (x ∗f + τ(x − x ∗f )) dτ,
0
и
λ2f (x) = [ f ′′ (x)]−1 G(x − x ∗f ), G(x − x ∗f ) ¶ k H k2 r 2 ,

где H = [ f ′′ (x)]−1/2 G[ f ′′ (x)]−1/2 . В силу следствия .. имеем


1
G f ′′ (x).
1−r
1
Поэтому k H k ¶ , и можно заключить, что
1−r
r2
λ2f (x) ¶ = (ω′∗ (r))2 .
(1 − r)2


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные функции

Таким образом, λ f (x) ¶ ω′∗ (r). Применяя ω′ (·) к обеим частям, по-
лучим оставшуюся часть неравенства (.).
Наконец, неравенства (.) следуют из неравенств (.) и (.).

Оценим локальную скорость сходимости стандартного метода


Ньютона (.). Это удобно сделать через λ f (x) –– локальную норму
градиента.
Теорема ... Пусть x ∈ dom f и λ f (x) < 1. Тогда точка

x+ = x − [ f ′′ (x)]−1 f ′ (x)
принадлежит dom f и верно неравенство
 λ (x) ‹2
f
λ f (x+ ) ¶ .
1 − λ f (x)

Доказательство. Пусть p = x+ − x, λ = λ f (x). Тогда k p k x = λ < 1.


Поэтому x+ ∈ dom f (см. теорему ..). Заметим, что по теоре-
ме .. выполняется неравенство
1/2
λ f (x+ ) = [ f ′′ (x+ )]−1 f ′ (x+ ), f ′ (x+ )


1 1
¶ k f ′ (x+ ) k x = k f ′ (x+) k x .
1 − k p kx 1−λ
Далее,
f ′ (x+ ) = f ′ (x+ ) − f ′ (x) − f ′′ (x)(x+ − x) = Gp,
R1
где G = [ f ′′ (x + τ p) − f ′′ (x)] dτ. Значит,
0

k f ′ (x+ ) k2x = [ f ′′ (x)]−1 Gp, Gp ¶ k H k2 · k p k2x ,



где H = [ f ′′ (x)]−1/2 G[ f ′′ (x)]−1/2 . Из следствия .. получаем


1 λ
 
−λ + λ2 f ′′ (x)  G  f ′′ (x).
3 1−λ
λ 1 λ
n o
Поэтому k H k ¶ max , λ − λ2 = , и, следовательно,
1−λ 3 1−λ
1 λ4
λ2f (x+ ) ¶ 2
k f ′ (x+ ) k2x ¶ .
(1 − λ) (1 − λ)4


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Теорема .. дает нам следующее описание множества квадра-


тичной сходимости метода (.):
p
3− 5
λ f (x) < λ̄ = = 0,3819…,
2
где λ̄ –– корень уравнения λ/(1 − λ)2 = 1. В этом случае можно га-
рантировать выполнение неравенства λ f (x+ ) < λ f (x).
Таким образом, полученные результаты приводят нас к следую-
щей стратегии решения исходной задачи (.).
◦ Первый этап: λ f (xk ) ¾ β , где β ∈ (0, λ̄). На этом этапе применя-
ется демпфированный метод Ньютона. На каждой итерации ме-
тода выполнено неравенство
f (xk+1 ) ¶ f (xk ) − ω(β ).
Следовательно, число итераций этого этапа ограничено:
1 
f (x0 ) − f (x ∗f ) .


ω(β )
◦ Второй этап: λ f (xk ) ¶ β . Применяется стандартный метод Нью-
тона. Этот алгоритм сходится квадратично:
 λ (x ) ‹2 βλ (x )
f k f k
λ f (xk+1 ) ¶ ¶ 2
< λ f (xk ).
1 − λ f (xk ) (1 − β )
Можно показать, что локальная сходимость демпфированного
метода Ньютона (.) также квадратична:
[ f ′′ (x)]−1 f ′ (x)
x+ = x − ⇒ λ f (x+ ) ¶ 2λ2f (x). (.)
1 + λ f (x)
Однако предпочтительнее использовать вышеприведенную страте-
гию с переключением, поскольку она дает лучшую оценку вычисли-
тельной сложности всего метода. Соотношение (.) может быть
доказано так же, как и утверждение теоремы ... Мы оставляем
эти рассуждения читателю в качестве упражнения.

§ .. Самосогласованные барьеры


Мотивировка. Определение самосогласованных барьеров. Основные свойства.
Стандартная задача минимизации. Центральная траектория. Схема отслежи-
вания. Как решать задачу? Задачи с функциональными ограничениями.


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные барьеры

... Мотивировка
В предыдущем параграфе было показано, что метод Ньютона
очень эффективен при минимизации стандартной самосогласован-
ной функции. Такая функция всегда является барьером для своей
области определения. Проверим, какие утверждения мы теперь
можем доказать для классического подхода последовательной без-
условной минимизации (п. ..), в котором используются самосо-
гласованные функции.
В дальнейшем мы будем рассматривать задачи условной миними-
зации специального вида. Введем обозначение Dom f = cl(dom f ).
Определение ... Будем называть задачу условной минимизации
стандартной, если она имеет форму
(.)

min 〈c, x 〉 | x ∈ Q ,
где Q –– выпуклое замкнутое множество. Мы предполагаем также
известной самосогласованную функцию f , для которой Dom f = Q.
Введем в рассмотрение параметрическую штрафную функцию
f (t; x) = t 〈c, x 〉 + f (x),
t ¾ 0. Заметим, что f (t; x) –– самосогласованная функция по x (см.
следствие ..). Пусть
x ∗ (t) = arg min f (t; x).
x ∈dom f

Эта траектория называется центральной траекторией задачи (.).


Нас будут интересовать такие траектории, поскольку можно ожи-
дать, что x ∗ (t) → x ∗ при t → ∞ (см. п. ..).
Напомним, что стандартный метод Ньютона, примененный к ми-
нимизации функции f (t; x), имеет локальную квадратичную сходи-
мость (теорема ..). Кроме того, у нас есть явное описание обла-
сти квадратичной сходимости:
p
3− 5
λ f (t;·) (x) ¶ β < λ̄ = .
2
Посмотрим, каковы наши возможности по отслеживанию централь-
ной траектории, в предположении, что мы стоим в точке x = x ∗ (t)
при некотором t > 0.


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Попробуем увеличить параметр t:


t + = t + ∆, ∆ > 0.
При этом для быстрого нахождения приемлемой аппроксимации к
точке x(t+) нам нужно сохранить x в области квадратичной сходи-
мости метода Ньютона, применяемого к функции f (t + ∆; ·):
λ f (t +∆;·) (x) ¶ β < λ̄.
Заметим, что замена t → t+ не меняет гессиан барьерной функции:
f ′′ (t + ∆; x) = f ′′ (t; x).
Поэтому можно легко оценить, насколько велик возможный шаг ∆.
В самом деле, условие оптимальности первого порядка дает следу-
ющее уравнение центральной траектории:
tc + f ′ (x ∗ (t)) = 0. (.)

Поскольку tc + f (x) = 0, мы получаем
∆ ′
λ f (t +∆;·) (x) = k t+ c + f ′ (x) k∗x = ∆k c k∗x = k f (x) k∗x ¶ β .
t
Таким образом, для увеличения t с линейной скоростью нам нужно
предположить, что значение
λ2f (x) = k f ′ (x) k2x ≡ [ f ′′ (x)]−1 f ′ (x), f ′ (x)

равномерно ограничено на dom f .


Таким образом, мы приходим к определению самосогласованного
барьера.

... Определение самосогласованных барьеров


Определение ... Пусть F(x) –– стандартная самосогласованная
функция. Будем называть такую функцию ν -самосогласованным ба-
рьером для области Dom F, если
sup 2〈 F ′ (x), u〉 − 〈 F ′′ (x)u, u〉 ¶ ν (.)
 
u∈Rn
при всех x ∈ dom F. Величину ν будем называть параметром барьера.
Заметим, что мы не требуем невырожденности матрицы F ′′ (x).
Однако если она невырожденна, то неравенство (.) эквивалент-
но следующему:
[F (x)]−1 F ′ (x), F ′ (x) ¶ ν .

′′
(.)


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные барьеры

Мы будем пользоваться и другой эквивалентной формой неравен-


ства (.):
〈 F ′ (x), u〉2 ¶ ν〈 F ′′ (x)u, u〉 ∀u ∈ Rn . (.)
(При 〈 F ′′ (x)u, u〉 > 0 его можно получить, заменяя u в формуле
(.) на λu и максимизируя левую часть по λ.) Заметим, что усло-
вие (.) можно переписать в матричных обозначениях:
1
F ′′ (x)  F ′ (x)F ′ (x)T . (.)
ν
Проверим, какие из самосогласованных функций, рассмотрен-
ных в примере .., являются также и самосогласованными барье-
рами.
Пример ... . Линейная функция: f (x) = α + 〈a, x 〉, dom f = Rn .
Очевидно, что для a 6= 0 эта функция не является самосогласован-
ным барьером, так как f ′′ (x) = 0.
. Выпуклая квадратичная функция. Пусть A = AT ≻ 0. Рассмотрим
функцию
1
f (x) = α + 〈a, x 〉 + 〈 Ax, x 〉, dom f = Rn .
2
Тогда f ′ (x) = a + Ax и f ′′ (x) = A. Поэтому

[ f (x)]−1 f ′ (x), f ′ (x) = 〈 A−1 (Ax − a), Ax − a〉 =

= 〈 Ax, x 〉 − 2〈a, x 〉 + 〈 A−1 a, a〉.


Очевидно, что эта величина неограничена сверху на Rn . Таким об-
разом, квадратичная функция не является самосогласованным ба-
рьером.
. Логарифмический барьер для луча. Рассмотрим следующую функ-
цию одной переменной:
F(x) = − ln x, dom F = x ∈ R1 | x > 0 .


Тогда F ′ (x) = −1/ x и F ′′ (x) = 1/ x 2 > 0. Поэтому


(F ′ (x))2 1
= 2 · x 2 = 1.
F ′′ (x) x
Следовательно, F(x) является ν -самосогласованным барьером для
луча {x > 0} с параметром ν = 1.


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

. Логарифмический барьер для области второго порядка. Пусть


A = AT  0. Рассмотрим вогнутую квадратичную функцию

1
ϕ (x) = α + 〈a, x 〉 − 〈 Ax, x 〉.
2

Определим F(x) = − ln ϕ (x), dom F = x ∈ Rn | ϕ (x) > 0 . Тогда




1 
F ′ (x), u = −


〈a, u〉 − 〈 Ax, u〉 ,
ϕ (x)
1 1
′′
〈 F (x)u, u〉 = 2 [〈a, u〉 − 〈 Ax, u〉]2 + 〈 Au, u〉.
ϕ (x) ϕ (x)

1
Пусть ω1 = 〈 F ′ (x), u〉 и ω2 = 〈 Au, u〉. Тогда
ϕ (x)

〈 F ′′ (x)u, u〉 = ω21 + ω2 ¾ ω21 .

Поэтому 2〈 F ′ (x), u〉 − 〈 F ′′ (x)u, u〉 ¶ 2ω1 − ω21 ¶ 1. Таким образом,


F(x) является ν -самосогласованным барьером с параметром ν = 1.

Приведем некоторые простые свойства самосогласованных ба-


рьеров.

Теорема ... Пусть F(x) –– самосогласованный барьер. Тогда функ-


ция 〈c, x 〉 + F(x) является самосогласованной на dom F.

Доказательство. Поскольку функция F(x) самосогласованная, на-


до просто применить следствие ...

Для рассматриваемых ниже методов отслеживания траектории


доказанное свойство является очень важным.

Теорема ... Пусть Fi –– νi -самосогласованные барьеры, i = 1, 2.


Тогда функция
F(x) = F1 (x) + F2 (x)

является самосогласованным барьером для выпуклого множества


dom F = dom F1 ∩ dom F2 с параметром ν = ν1 + ν2 .


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные барьеры

Доказательство. Из теоремы .. следует, что F есть стандартная


самосогласованная функция. Зафиксируем x ∈ dom F. Тогда

maxn 2〈 F ′ (x)u, u〉 − 〈 F ′′ (x)u, u〉 =


 
u∈R
= maxn 2〈 F1′ (x)u, u〉 − 〈 F1′′ (x)u, u〉 + 2〈 F2′ (x)u, u〉 − 〈 F2′′ (x)u, u〉 ¶
 
u∈R
¶ maxn 2〈 F1′ (x)u, u〉 − 〈 F1′′ (x)u, u〉 +
 
u∈R
+ maxn 2〈 F2′ (x)u, u〉 − 〈 F2′′ (x)u, u〉 ¶ ν1 + ν2 .
 
u∈R

Наконец, покажем, что значение параметра самосогласованного


барьера инвариантно по отношению к аффинным преобразовани-
ям координат.
Теорема ... Пусть A (x) = Ax + b –– линейный оператор, A (x):
Rn → Rm . Предположим, что функция F( y) является ν -самосогласо-
ванным барьером. Тогда функция Φ(x) = F(A (x)) есть ν -самосогла-
сованный барьер для множества
Dom Φ = x ∈ Rn | A (x) ∈ Dom F .


Доказательство. Функция Φ(x) –– стандартная самосогласованная


функция, что следует из теоремы ... Зафиксируем x ∈ dom Φ. То-
гда y = A (x) ∈ dom F. Заметим, что для любого u ∈ Rn выполнены
〈Φ′ (x), u〉 = 〈 F ′ ( y), Au〉, 〈Φ′′ (x)u, u〉 = 〈 F ′′ ( y)Au, Au〉.

Поэтому

maxn 2〈Φ′ (x), u〉 − 〈Φ′′ (x)u, u〉 =


 
u∈R
= maxn 2〈 F ′ ( y), Au〉 − 〈 F ′′ ( y)Au, Au〉 ¶
 
u∈R
¶ maxm 2〈 F ′ ( y), υ〉 − 〈 F ′′ ( y)υ, υ〉 ¶ ν .
 
υ∈R

... Основные неравенства


Покажем, что локальные характеристики самосогласованного
барьера (градиент и гессиан) дают нам глобальную информацию о
структуре его области определения.


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Теорема ... . Пусть F(x) –– ν -самосогласованный барьер. Тогда


для любых x, y ∈ dom F выполняется неравенство
〈 F ′ (x), y − x 〉 < ν . (.)

Кроме того, если 〈 F (x), y − x 〉 ¾ 0, то
〈 F ′ (x), y − x 〉2
F ′ ( y) − F ′ (x), y − x ¾ (.)


′ .
ν − 〈 F (x), y − x 〉
. Стандартная самосогласованная функция F(x) является ν -само-
согласованным барьером тогда и только тогда, когда
1
 
F( y) ¾ F(x) − ν ln 1 − 〈 F ′ (x), y − x 〉 ∀ x, y ∈ dom F. (.)
ν
Доказательство. . Пусть x, y ∈ dom F. Рассмотрим функцию
ϕ (t) = F ′ (x + t( y − x)), y − x , t ∈ [0, 1].

Если ϕ (0) ¶ 0, то неравенство (.) тривиально. Если ϕ (0) = 0, то


неравенство (.) тоже выполнено. Пусть ϕ (0) > 0. Заметим, что в
силу неравенства (.) мы имеем
ϕ ′ (t) = F ′′ (x + t( y − x))( y − x), y − x ¾

1
′ 2 1
¾ F (x + t( y − x)), y − x = ϕ 2 (t).
ν ν
Поэтому функция ϕ (t) возрастает и положительна при t ∈ [0, 1].
Кроме того, для любого t ∈ [0, 1] выполняется неравенство
1 1 1
− + ¾ t.
ϕ (t) ϕ (0) ν
ν
Это означает, что 〈 F ′ (x), y − x 〉 = ϕ (0) < при всех t ∈ [0, 1]. Таким
t
образом, неравенство (.) доказано. Далее,
νϕ (0) t ϕ (0)2
ϕ (t) − ϕ (0) ¾ − ϕ (0) = , t ∈ [0, 1].
ν − t ϕ (0) ν − t ϕ (0)
Взяв t = 1, получим неравенство (.).
1
. Пусть ψ(x) = e− ν F(x) . Тогда
1 1
ψ′ (x) = − e− ν F(x) · F ′ (x),
ν
1 1 1
h i
ψ (x) = − e− ν F(x) F ′′ (x) − F ′ (x)F ′ (x)T .
′′
ν ν


“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные барьеры

Таким образом, по теореме .. и определению (.) вогнутость


функции ψ(x) равносильна утверждению, что функция F(x) есть
ν -самосогласованный барьер. Остается отметить, что неравенство
(.) совпадает с неравенством
ψ( y) ¶ ψ(x) + ψ′ (x), y − x

с точностью до логарифмического преобразования обеих частей.

Теорема ... Пусть F(x) –– ν -самосогласованный барьер. Тогда


для любых таких x ∈ dom F и y ∈ Dom F, что


(.)

F (x), y − x ¾ 0,
выполняется неравенство
p
k y − x kx ¶ ν + 2 ν . (.)
p
Доказательство. Введем обозначение r =pk y − x k x . Пусть r > ν .
ν
Рассмотрим точку yα = x + α( y − x), α = < 1. В силу предполо-
r
жения (.) и неравенства (.) мы получаем
ω ≡ F ′ ( yα ), y − x ¾ F ′ ( yα ) − F ′ (x), y − x =


1

F ( yα ) − F ′ (x), yα − x ¾

=
α
p
1 k yα − x k2x αk y − x k2x r ν
¾ · = = p .
α 1 + k yα − x k2x 1 + αk y − x k x 1+ ν

С другой стороны, принимая во внимание неравенство (.), полу-


чаем
(1 − α)ω = F ′ ( yα ), y − yα ¶ ν .

Таким образом,
p  p
ν r ν

1− p ¶ ν,
r 1+ ν
откуда в точности следует неравенство (.).

Завершим этот пункт изучением свойств аналитического центра


выпуклого множества.


“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

Определение ... Пусть F(x) –– ν -самосогласованный барьер для


области Dom F. Тогда точка
x F∗ = arg min F(x),
x ∈dom F
называется аналитическим центром, порожденным барьером F(x)
для выпуклого множества Dom F.
Теорема ... Предположим, что аналитический центр ν -самосог-
ласованного барьера F(x) существует. Тогда для любого x ∈ Dom F
имеет место неравенство
p
k x − x F∗ k xF∗ ¶ ν + 2 ν .
С другой стороны, для любого такого x ∈ Rn , что k x − x F∗ k xF∗ ¶ 1, вы-
полняется включение x ∈ Dom F.
Доказательство. Первое утверждение следует из теоремы ..,
так как F ′ (x F∗ ) = 0. Второе утверждение следует из теоремы ...
Таким образом, асферичность множества Dom F относительно
p
точки x F∗ , вычисленная в метрике k · k xF∗ , не превосходит ν + 2 ν .
Хорошо известен тот факт, что для любого выпуклого множества в
Rn существует евклидова метрика, в которой асферичность этого
множества не превосходит n (теорема Джона). Однако нам уда-
лось оценить асферичность с помощью параметра барьера. Эта
величина напрямую не связана с размерностью пространства.
Заметим также, что если Dom F не содержит прямых, то суще-
ствование точки x F∗ обеспечивает ограниченность множества Dom F
(так как тогда гессиан F ′′ (x F∗ ) невырожден, см. теорему ..).
Следствие ... Пусть множество Dom F ограничено. Тогда для
любых x ∈ dom F, υ ∈ Rn имеет место неравенство
p
kυk∗x ¶ (ν + 2 ν )kυk∗x ∗ .
F

Доказательство. По лемме .. имеем следующее представление:


1/2
kυk∗x ≡ [F ′′ (x)]−1 υ, υ = max 〈υ, u〉 | 〈 F ′′ (x)u, u〉 ¶ 1 .



С другой стороны, из теорем .. и .. следует, что


B ≡ y ∈ Rn | k y − x k x ¶ 1 ⊆ Dom F ⊆

p
⊆ y ∈ Rn | k y − x F∗ k x ¶ ν + 2 ν ≡ B∗ .



“Nesterov-final” — // — : — page  — #

§ .. Самосогласованные барьеры

Поэтому, снова используя теорему .., получим следующее нера-


венство:
kυk∗x = max 〈υ, y − x 〉 | y ∈ B ¶ max 〈υ, y − x 〉 | y ∈ B∗ =
 
p
= 〈υ, x F∗ − x 〉 + (ν + 2 ν )kυk∗x ∗ .
F

Заметим, что kυk∗x = k−υk∗x . Поэтому можно считать что 〈υ, x F∗ − x 〉 ¶


¶ 0.

... Метод отслеживания траектории


Мы подошли к описанию барьерной модели задач минимизации.
Рассмотрим стандартную задачу минимизации
(.)

min 〈c, x 〉 | x ∈ Q
с ограниченным выпуклым и замкнутым множеством Q ≡ Dom F, ко-
торое имеет внутреннюю точку и для которого известен ν -самосо-
гласованный барьер F(x).
Напомним, что мы решаем задачу (.), двигаясь по так назы-
ваемой центральной траектории:
x ∗ (t) = arg min f (t; x), (.)
x ∈dom F

где f (t; x) = t 〈c, x 〉 + F(x) и t ¾ 0. В силу условия оптимальности пер-


вого порядка любая точка этой траектории удовлетворяет уравне-
нию
tc + F ′ (x ∗ (t)) = 0. (.)
Поскольку множество Q ограничено, его аналитический центр x F∗
существует и
x ∗ (0) = x F∗ . (.)
При отслеживании центральной траектории нам приходится пере-
считывать точки, удовлетворяющие условию приближенного цен-
трирования:
λ f (t;·) (x) ≡ k f ′ (t; x) k∗x = k tc + F ′ (x) k∗x ¶ β , (.)
где параметр центрирования β достаточно мал.
Покажем, что такая стратегия вполне оправдана.
Теорема ... Для любого t > 0 имеет место неравенство
ν
〈c, x ∗ (t)〉 − c∗ ¶ , (.)
t

“Nesterov-final” — // — : — page  — #

Глава . Структурная оптимизация

где c∗ –– оптимальное значение для задачи (.). Если точка x удо-


влетворяет условию центрирования (.), то
p
1 (β + ν )β
 
〈c, x 〉 − c∗ ¶ ν+ . (.)
t 1−β

Доказательство. Пусть x является решением задачи (.). Тогда
из соотношений (.) и (.) получаем
1
′ ∗ ν
〈c, x ∗ (t) − x ∗ 〉 = F (x (t)), x ∗ − x ∗ (t) ¶ .
t t
Далее, пусть x удовлетворяет условию (.). Введем о