Вы находитесь на странице: 1из 10

Mini-cours doptimisation

G. Vial
2 d ecembre 2008
R esum e
Le but de ces quelques pages est de rassembler, de mani` ere synth etique, les princi-
paux r esultats g en eraux doptimisation en dimension nie (avec ou sans contrainte).
Il ne sagit pas de donner des preuves compl` etes des r esultats dans le cadre le plus
g en eral, mais plut ot des id ees de d emonstration dans des cas particuliers, ainsi que
des interpr etations g eom etriques des r esultats. Ce texte sadresse ` a un large public,
de formation en math ematiques ou dans dautres sciences. Pour une pr esentation
plus d etaill ee et des preuves compl` etes, on renvoie ` a la bibliographie [1, 2, 3, 4].
1 Quelques rappels de calcul diff erentiel
On rappelle ici les formules de Taylor ` a lordre 1 et 2 pour une fonction f : R
d
R.
Ordre 1 : si f est de classe C
1
, alors
f (x + h) = f (x) +f (x), h) + O(|h|).
Ordre 2 : si f est de classe C
2
, alors
f (x + h) = f (x) +f (x), h) +
1
2

2
f (x)h, h) + O(|h|
2
).
Remarque 1 Ces formules sont valides d` es que le segment reliant x ` a x + h est contenu
dans lensemble de d enition de la fonction f . Il est dailleurs int eressant de remarquer
que la fonction dune variable r eelle t f (x + th) a pour d eriv ee en t = 0 la quantit e
f (x), h) et sa d eriv ee seconde en t = 0 s ecrit
2
f (x)h, h). Ce constat permet de rame-
ner l etude des probl` emes multi-dimensionnels ` a des probl` emes mono-dimensionnels via
les d eriv ees directionnelles. Il faut cependant garder ` a lesprit que la connaissance de f
dans chaque direction nest parfois pas sufsante pour comprendre pleinement son com-
portement (on se convaincra par exemple que la fonction (x, y) [xy[ est convexe dans
chaque direction autour du point (0, 0) mais quelle nest convexe dans aucun voisinage
de ce point).
Remarque 2 Le vecteur gradient f (x) R
d
est d eni comme le vecteur des d eriv ees
partielles. La matrice hessienne est la matrice sym etrique de taille d d des d eriv ees se-
condes :
(1) f (x) =
_
f
x
i
(x)
_
1id
et
2
f (x) =
_

2
f
x
i
x
j
(x)
_
1i,jd
.
En fait, la notion de gradient nest pas intrins` eque, elle d epend du produit scalaire choisi :
la d enition g en erale de f (x) r esulte du th eor` eme de repr esentation de Riesz appliqu e ` a
2 Mini-cours doptimisation
la diff erentielle de f en x. Toutefois, en dimension nie, on xe le plus souvent le produit
scalaire canonique et les formules (1) d enissent le gradient et la hessienne tout aussi
bien. Il en va de m eme pour la hessienne.
2 Remarques sur lexistence et lunicit e
On consid` ere le probl` eme de minimisation suivant :
() Trouver x

dans A tel que f (x

) = min
xA
f (x),
o` u A R
d
est un sous-ensemble de R
d
et f : A R une fonction continue. La question
de lexistence et de lunicit e dun minimiseur x

pour le probl` eme () est d elicate. On


peut retenir comme principe g en eral que la compacit e fournit des r esultats dexistence,
et la convexit e un cadre favorable pour lunicit e.
Th eor` eme 1 Si f est continue et A est compact, alors le probl` eme () admet au moins une solu-
tion.
Preuve. On consid` ere (x
n
) une suite minimisante, i.e. x
n
A et f (x
n
) converge vers la
borne inf erieure inf
A
f de f sur A ( eventuellement egale ` a ). Par compacit e, on peut
supposer que (x
n
) est convergente, quitte ` a extraire ; notons x

la limite. Par continuit e


de f , il vient que inf
A
f = f (x

) = min
A
f .
Th eor` eme 2 Si f est continue et coercive, i.e. innie ` a linni :
lim
|x|
f (x) = +,
alors le probl` eme () admet au moins une solution.
Preuve. Soit x
0
A et m = f (x
0
). Par coercivit e de f , il existe une boule B centr ee en
x
0
en dehors de laquelle f est strictement sup erieure ` a m. Ainsi les bornes inf erieures de
f sur A et sur A B sont les m emes. Le r esultat pr ec edent appliqu e ` a A B, compact,
permet de conclure.
Th eor` eme 3 Si A est convexe et f strictement convexe, alors le probl` eme () admet au plus une
solution.
Preuve. Supposons que x

1
et x

2
soient deux solutions distinctes, alors x

= (x

1
+ x

2
)/2
A et, par stricte convexit e de f ,
f (x

) <
f (x

1
) + f (x

2
)
2
= min
A
f ,
qui fournit une contradiction.
3 Optimisation sans contrainte
Dans ce paragraphe, on suppose que lensemble des contraintes A est R
d
tout entier.
On dispose alors de conditions n ecessaires doptimalit e locale :
Mini-cours doptimisation 3
Th eor` eme 4 (

Equation dEuler) Soit f C


1
(R
d
, R) et x

R
d
. Si f admet en x

un mini-
mum local sur R
d
, alors
(2) f (x

) = 0.
L equation pr ec edente est appel ee equation dEuler et toute solution de (2) est appel ee point
critique de f .
Preuve. Fixons u R
d
et posons h = tu pour t > 0. La formule de Taylor s ecrit ` a lordre 1
autour de x

:
f (x

+ h) = f (x

) +f (x

), h) + O(|h|),
soit encore
f (x

+ tu) f (x

)
t
= f (x

), u) + O(1).
Comme x

est un minimiseur local de f , la quantit e pr ec edente est positive pour t petit.


En faisant tendre t vers 0, il vient
(3) u R
d
, f (x

), u) 0.
Le vecteur u etant quelconque, on en d eduit f (x

) = 0.
Remarque 3 Lin egalit e (3) est valable pour tout u car il est permis deffectuer des varia-
tions autour de x

dans toutes les directions. On verra que cette in egalit e est encore valable
en pr esence de contraintes, mais seulement pour les directions admissibles.
Notons que l equation dEuler est un r esultat local, qui ne distingue pas les minima
locaux du minimum global. Par ailleurs, minima et maxima ne sont pas discrimin es (ni
des points cols/selles ou des points dinexion). Toutefois, on a la condition dordre 2
suivante :
Th eor` eme 5 (Condition n ecessaire dordre 2) Soit f C
2
(R
d
, R) et x

R
d
. Si f admet
en x

un minimum local sur R


d
, alors
(4)
2
f (x

) est semi-d enie positive.


Preuve. On reprend la preuve du th eor` eme pr ec edent. On a d ej ` a f (x

) = 0 et la formule
de Taylor ` a lordre 2 permet d ecrire pour toute direction u R
d
,
0
2
f (x

)u, u) + O(1),
do` u le r esultat par passage ` a la limite t 0.
Les conditions n ecessaires pr ec edentes ne fournissent malheureusement pas de con-
dition sufsante, le cas o` u la hessienne est semi-d enie positive sans etre d enie positive
restant ind etermin e :
Th eor` eme 6 (Condition sufsante doptimalit e) Soit f C
2
(R
d
, R) et x

R
d
. On sup-
pose
f (x

) = 0 et
2
f (x

) est d enie positive,


alors f admet en x

un minimum local.
4 Mini-cours doptimisation
Preuve. La formule de Taylor ` a lordre 2 permet d ecrire
f (x

+ h) f (x

) =
2
f (x

)h, h) + O(|h|
2
).
Or
2
f (x

)h, h)
min
|h|
2
o` u
min
> 0 d esigne la plus petite valeur propre de la
matrice hessienne. On en d eduit que pour |h| assez petit, f (x

+ h) f (x

) 0.
Exemple 1 On consid` ere le probl` eme de la r egression polynomiale au sens des moindres
carr es.

Etant donn e un nuage de points (x
i
, y
i
)
1iN
et un entier n, on cherche un po-
lyn ome p
n
de degr e inf erieur ou egal ` a n qui lapproche au mieux au sens suivant :
N

i=1
[y
i
p
n
(x
i
)[
2
est minimale.
Si lon recherche le polyn ome p
n
sous la forme p
n
= a
0
+ a
1
X + + a
n
X
n
, alors le
probl` eme de minimisation se r ecrit
(5) min
aR
n+1
(a) avec (a) = |Va y|
2
2
,
o` u la matrice de Vandermonde V et les vecteurs a, y sont d enis par
V =
_
_
_
_
_
_
_
_
1 x
1
x
2
1
x
n
1
1 x
2
x
2
2
x
n
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 x
N
x
2
N
x
n
N
_
_
_
_
_
_
_
_
a =
_
_
_
_
_
_
_
_
a
0
a
1
.
.
.
.
.
.
a
n
_
_
_
_
_
_
_
_
y =
_
_
_
_
_
_
_
_
y
1
y
2
.
.
.
.
.
.
y
N
_
_
_
_
_
_
_
_
.
Le probl` eme (5) est un probl` eme doptimisation sans contrainte, et rel` eve des r esultats
des paragraphes pr ec edents.
La fonction est continue et coercive :
(a) = |Va|
2
2Va, y) +|y|
2
|a|
2
2|a| + ,
o` u est la plus petite valeur propre de la matrice d enie positive
1
V
T
V , = |V| |y|
et = |y|
2
. On est donc assur e de lexistence pour le probl` eme (5).
La fonction est de classe C
2
et
(a) = 2(V
T
Va V
T
y),
2
(a) = 2V
T
V.
La hessienne de est d enie positive pour tout a R
n+1
, donc est strictement
convexe sur R
n+1
, ce qui assure lunicit e pour (5).
L equation dEuler s ecrit
V
T
Va = V
T
y,
quon appelle syst` eme des equations normales. Signalons quon peut aussi r esoudre le
probl` eme (5) ` a laide de la d ecomposition QR.
1
La matrice V
T
V est d enie positive d` es que V est injective, i.e. d` es quau moins n +1 valeurs des x
i
sont
distinctes. Ce nest pas une forte restriction quand N est tr` es grand devant n, qui est la situation courante.
Mini-cours doptimisation 5
4 Optimisation sous contraintes
An de pouvoir ecrire des conditions doptimalit e, on ecrit lensemble des contraintes
A sous la forme g en erale d egalit es-in egalit es :
A = x R
d
; g
1
(x) = 0, . . . , g
p
(x) = 0 et h
1
(x) 0, . . . , h
q
(x) 0,
o` u les fonctions g
i
et h
j
sont d enie de R
d
dans R.
4.1 Contraintes de type egalit e
On se place dans ce paragraphe dans le cas q = 0 et donc
A = x R
d
; g
1
(x) = 0, . . . , g
p
(x) = 0.
Th eor` eme 7 (extr ema li es) Soit f , g
i
: R
d
R des fonctions de classe C
1
. On suppose que f
admet en x

A un minimum local sur A et que


(6) la famille g
1
(x

), . . . , g
p
(x

) est libre.
Alors il existe des multiplicateurs de Lagrange
1
, . . . ,
p
R tels que
(7) f (x

) +
p

i=1

i
g
i
(x

) = 0.
L equation (7) est appel ee equation dEuler-Lagrange, la condition (6) condition de qualica-
tion des contraintes.
Preuve. On pr esente ici une preuve dans le cas p = 1 et d = 2, pour en limiter la technicit e,
mais aucune difcult e conceptuelle suppl ementaire napparat pour le cas g en eral. On
note donc
A = x R
d
; g(x) = 0.
Lid ee de la preuve est de param etrer lensemble A au voisinage de x

et d ecrire l equa-
tion dEuler en le param` etre (non contraint !). La condition (6) indique ici que le vecteur
g(x

) est non-nul. Sans perte de g en eralit e, on supposera que sa seconde composante


est non-nulle :
g
x
2
(x

) ,= 0.
Le th eor` eme des fonctions implicites permet d ecrire A comme un graphe dans une petite
boule centr ee en x

:
A B(x

, ) = x = (x
1
, x
2
) B(x

, ), x
2
= (x
1
).
La fonction (x
1
) = f (x
1
, (x
1
)) admet ainsi un minimum relatif autour de x

1
. Nayant
plus de contraintes sur x
1
, on peut ecrire l equation dEuler (2) :
f
x
1
(x

1
, (x

1
)) +
f
x
2
(x

1
, (x

1
))
/
(x

1
) = 0
Par ailleurs, on a g(x
1
, (x
1
)) 0 do` u, par d erivation,
g
x
1
(x

1
, (x

1
)) +
g
x
2
(x

1
, (x

1
))
/
(x

1
) = 0
6 Mini-cours doptimisation
En remarquant que (x

1
) = x

2
et en posant
=
_
g
x
2
(x

)
_
1
f
x
2
(x

) ,
on obtient imm ediatement f (x

) + g(x

) = 0.
Remarque 4 On peut interpr eter g eom etriquement le r esultat pr ec edent :
g(x

)
x

Le vecteur g(x

) quand il est non-nul fournit la


direction normale ` a la courbe A (sous-vari et e de dimen-
sion d p dans le cas g en eral) en x

.
Par ailleurs, la d eriv ee par rapport ` a x
1
de la fonc-
tion introduite dans la d emonstration pr ec edente sin-
terpr` ete comme la d eriv ee tangentielle de f en x

. Ainsi, le
fait que la d eriv ee tangentielle soit nulle implique que le
gradient est parall` ele ` a la normale, ce quexprime exac-
tement l equation dEuler-Lagrange.
Exemple 2 Soit A R
dd
une matrice sym etrique. On consid` ere le probl` eme de minimi-
sation sous contrainte :
(8) min
|x|
2
=1
Ax, x).
Il entre dans le cadre pr ec edent avec
f (x) = Ax, x) et g(x) = |x|
2
1.
Bien s ur, les fonctions f et g sont de classe C
1
et
f (x) = (A + A
T
)x = 2Ax et g(x) = 2x.
Le probl` eme (8) admet au moins une solution par compacit e, not ee x

. Par ailleurs, la
condition de qualication des contraintes (6) est trivialement v eri ee. On peut donc ecrire
l equation dEuler-Lagrange en x

: il existe R tel que


2Ax

+ 2x

= 0,
soit encore Ax

= x

. On a ainsi montr e lexistence dun couple propre pour toute


matrice sym etrique
2
.
4.2 Contraintes de type in egalit e
On ne consid` ere ici que des contraintes de type in egalit e : p = 0 et
A = x R
d
; h
1
(x) 0, . . . , h
q
(x) 0.
2
Cela constitue le point de d epart de la preuve du th eor` eme spectral : il suft de proc eder par r ecurrence
sur la dimension d en travaillant dans lorthogonal de x

, stable par A car A est sym etrique !


Mini-cours doptimisation 7
Th eor` eme 8 (Karush-Kuhn-Tucker) Soit f , h
j
: R
d
R des fonctions de classe C
1
. On
suppose que f admet en x

A un minimum local sur A et quil existe un vecteur z R


d
tel
que
(9) j
_
h
j
(x

) = 0 = h
j
(x

), z) < 0
_
.
Alors il existe des multiplicateurs de Kuhn et Tucker
1
, . . . ,
q
R tels que
(10) f (x

) +
q

j=1

j
h
j
(x

) = 0,
avec
j
0 (positivit e) et
j
h
j
(x

) = 0 (relations dexclusion).
L equation (10) est appel ee condition KKT, la condition (9) condition de qualication des
contraintes.
Preuve. Ici encore, on se place dans le cas particulier dune seule contrainte en dimen-
sion 2 :
A = x R
d
; h(x) 0.
Si h(x

) < 0, alors le point minimiseur x

est situ e ` a lint erieur de lensemble A, si


bien quon peut effectuer des petites variations autour de x

dans toutes les directions,


et l equation dEuler (2) est encore valable. On vient dexprimer la relation dexclusion
h(x

) = 0.
On est donc ramen e au cas h(x

) = 0. Signalons que lutilisation du th eor` eme des


extr ema li es est possible car x

minimise a fortiori f sur lensemble fronti` ere A d eni par


h(x) = 0. On obtient bien la condition (10), mais pas la positivit e des multiplicateurs.
h(x

)
h 0
x

En pointill es sont repr esent ees les directions admis-


sibles, i.e. les vecteurs u pour lesquels x

+tu est dans


lensemble A quand t > 0 est proche de 0. Dans le
cas o` u h(x

) ,= 0, ce dernier fournit la direction


normale ext erieure en x

et on peut caract eriser les


directions admissibles comme les vecteurs u R
d
tels que
h(x

), u) 0.
La m eme m ethode que dans le cas non contraint per-
met d ecrire que pour de tels u, on a lin egalit e (3) :
f (x

), u) 0.
On obtient donc le r esultat suivant :
(11) u R
d
h(x

), u) 0 = f (x

), u) 0,
do` u on d eduit facilement quil existe 0 tel que f (x

) = h(x

).
Remarque 5 Contrairement au cas des contraintes de type egalit e, la g en eralisation de
cette d emonstration dans le cas p > 1 et d > 2 est plus d elicate. Le demi-plan tangent est
remplac e par un c one tangent et, de la m eme mani` ere, la condition de qualication des
contraintes traduit le fait quil soit non vide. Par ailleurs, la relation (11) devient :
u R
d
_
j h
j
(x

), u) 0
_
=
_
f (x

), u) 0
_
.
8 Mini-cours doptimisation
On peut encore en d eduire quil existe des r eels positifs
j
tels que
f (x

) =
q

j=1

j
h
j
(x

).
Cest le lemme de Farkas-Minkowski et la preuve en est non-triviale, voir [3, 1].
Remarque 6 On introduit souvent le Lagrangien du probl` eme ; il sagit ici de la fonction
L(x,
1
, . . . ,
q
) = f (x) +
q

j=1

j
h
j
(x).
La condition (10) traduit le fait quil existe des multiplicateurs
j
tels que x

soit un point
critique du Lagrangien :

x
L(x,
1
, . . . ,
q
) = 0.
Exemple 3 Soit ` a maximiser x sur le sous-ensemble A de R
2
:
A =
_
(x, y) R
2
; y x
2
et x + y 1
_
.
x
y
A
1
1
0
M
1

M
2
Le Lagrangien du probl` eme s ecrit
L(x,
1
,
2
) = f (x, y) +
1
h
1
(x, y) +
2
h
2
(x, y),
avec
f (x, y) = x, h
1
(x, y) = x
2
y et h
2
(x, y) = x + y 1.
(Noter la d enition f (x, y) = x car il sagit dun probl` eme de maximisation).

Etude de la condition de qualication des contraintes : les gradients des fonctions de


contraintes s ecrivent
h
1
(x, y) = (2x, 1)
T
et h
2
(x, y) = (1, 1)
T
.
Ces vecteurs ne sannulent jamais, il reste donc seulement ` a v erier quils ne sont pas
oppos es en les sommets M
1
et M
2
, ce qui est effectivement le cas. En cons equence, la
condition de qualication des contraintes est partout v eri ee
3
.
3
Ici, lensemble A est convexe et la condition de qualication est equivalente ` a la non vacuit e de A, cf. [4].
Mini-cours doptimisation 9
Conditions de Kuhn et Tucker : les contraintes etant quali ees, tout point de minimum
est point critique du Lagrangien et les conditions KKT s ecrivent
_
1 + 2x
1
+
2
= 0

1
+
2
= 0
avec
_

1
(x
2
y) = 0,

2
(x + y 1) = 0.
Sensuit une etude de cas selon que
1
= 0 ou
1
,= 0. On en d eduit que la seule solution
est (x

, y

) = M
1
avec
1
=
2
= 1/(1 + 2x

).
Lexistence dune solution au probl` eme de maximisation, par compacit e, permet dassu-
rer que le point critique M
1
en est bien lunique solution (ce qui est evident ` a la main).
5 Contraintes et m ethodes num eriques
Si la pr esence de contraintes complique l etude th eorique des probl` emes doptimisa-
tion, elle pose aussi des difcult es au niveau num erique. Par exemple, les m ethodes de
gradient ne peuvent etre utilis ees telles quelles car une it eration
x
n+1
= x
n
f (x
n
)
nest pas assur ee de rester dans lensemble des contraintes. Une solution consiste ` a proje-
ter x
n+1
sur lensemble des contraintes ; on parle de m ethode de gradient projet e. Toutefois,
cet algorithme est difcilement utilisable en pratique car en g en eral on ne sait pas cal-
culer la projection.
Dans le cas de contraintes egalit es, il est possible de d eterminer les points critiques
` a laide des equations dEuler-Lagrange. En effet, si lensemble des contraintes est
A = x R
d
; g(x) = 0,
alors les conditions doptimalit e s ecrivent
_
f (x) + g(x) = 0,
g(x) = 0.
Il sagit dun syst` eme de d + 1 equations (en g en eral non-lin eaires) dont linconnue est
le couple (x, ) R
d+1
. On peut, par exemple, utiliser une m ethode de Newton pour
d eterminer (x

) num eriquement.
Citons enn une m ethode tr` es utilis ee dans les applications, qui ram` ene un probl` eme
sous contraintes ` a un probl` eme sans contrainte. Il sagit de la m ethode de p enalisation.
Toujours dans lexemple dune contrainte de type egalit e, on pose pour > 0,
f

(x) = f (x) +
1
[g(x)]
2
.
La m ethode sappuie sur le constat suivant : si x

minimise f

sur R
d
tout-entier, alors
g(x

) doit etre proche de 0. En effet, un point x R


d
tel que g(x) est grand na que peu
de chance de fournir un minimiseur de f

car le terme
1
[g(x)]
2
tr` es grand le p enalise.
Plus pr ecis ement, sous certaines hypoth` eses sur f et g, on peut montrer que x

tend vers
x

lorsque tend vers 0.


10 Mini-cours doptimisation
Quelques math ematiciens de loptimisation
Leonhard Euler [1707-1783] math ematicien et physicien suisse.
Joseph-Louis Lagrange [1736-1813] math ematicien francais.
William Karush [1917-1997] math ematicien am ericain.
Harold W. Kuhn [1925-] math ematicien et economiste am ericain.
Albert W. Tucker [1905-1995] math ematicien am ericano-canadien.
Gyula Farkas [1847-1930] math ematicien et physicien hongrois.
Hermann Minkowski [1864-1909] math ematicien et physicien allemand.
R ef erences
[1] G. ALLAIRE. Analyse num erique et optimisation.

Editions de l

Ecole Polytechnique.
Ellipses, Paris 2005.
[2] V. BECK, J. MALICK, G. PEYR E. Objectif Agr egation. H&K 2004.
[3] P. G. CIARLET. Introduction ` a lanalyse num erique matricielle et ` a loptimisation. Collec-
tion Math ematiques Appliqu ees pour la Matrise. [Collection of Applied Mathematics
for the Masters Degree]. Masson, Paris 1982.
[4] J.-B. HIRIART-URRUTY. Loptimisation. Que sais-je ? PUF, Paris 1996.

Вам также может понравиться