Академический Документы
Профессиональный Документы
Культура Документы
G. Vial
2 d ecembre 2008
R esum e
Le but de ces quelques pages est de rassembler, de mani` ere synth etique, les princi-
paux r esultats g en eraux doptimisation en dimension nie (avec ou sans contrainte).
Il ne sagit pas de donner des preuves compl` etes des r esultats dans le cadre le plus
g en eral, mais plut ot des id ees de d emonstration dans des cas particuliers, ainsi que
des interpr etations g eom etriques des r esultats. Ce texte sadresse ` a un large public,
de formation en math ematiques ou dans dautres sciences. Pour une pr esentation
plus d etaill ee et des preuves compl` etes, on renvoie ` a la bibliographie [1, 2, 3, 4].
1 Quelques rappels de calcul diff erentiel
On rappelle ici les formules de Taylor ` a lordre 1 et 2 pour une fonction f : R
d
R.
Ordre 1 : si f est de classe C
1
, alors
f (x + h) = f (x) +f (x), h) + O(|h|).
Ordre 2 : si f est de classe C
2
, alors
f (x + h) = f (x) +f (x), h) +
1
2
2
f (x)h, h) + O(|h|
2
).
Remarque 1 Ces formules sont valides d` es que le segment reliant x ` a x + h est contenu
dans lensemble de d enition de la fonction f . Il est dailleurs int eressant de remarquer
que la fonction dune variable r eelle t f (x + th) a pour d eriv ee en t = 0 la quantit e
f (x), h) et sa d eriv ee seconde en t = 0 s ecrit
2
f (x)h, h). Ce constat permet de rame-
ner l etude des probl` emes multi-dimensionnels ` a des probl` emes mono-dimensionnels via
les d eriv ees directionnelles. Il faut cependant garder ` a lesprit que la connaissance de f
dans chaque direction nest parfois pas sufsante pour comprendre pleinement son com-
portement (on se convaincra par exemple que la fonction (x, y) [xy[ est convexe dans
chaque direction autour du point (0, 0) mais quelle nest convexe dans aucun voisinage
de ce point).
Remarque 2 Le vecteur gradient f (x) R
d
est d eni comme le vecteur des d eriv ees
partielles. La matrice hessienne est la matrice sym etrique de taille d d des d eriv ees se-
condes :
(1) f (x) =
_
f
x
i
(x)
_
1id
et
2
f (x) =
_
2
f
x
i
x
j
(x)
_
1i,jd
.
En fait, la notion de gradient nest pas intrins` eque, elle d epend du produit scalaire choisi :
la d enition g en erale de f (x) r esulte du th eor` eme de repr esentation de Riesz appliqu e ` a
2 Mini-cours doptimisation
la diff erentielle de f en x. Toutefois, en dimension nie, on xe le plus souvent le produit
scalaire canonique et les formules (1) d enissent le gradient et la hessienne tout aussi
bien. Il en va de m eme pour la hessienne.
2 Remarques sur lexistence et lunicit e
On consid` ere le probl` eme de minimisation suivant :
() Trouver x
) = min
xA
f (x),
o` u A R
d
est un sous-ensemble de R
d
et f : A R une fonction continue. La question
de lexistence et de lunicit e dun minimiseur x
) = min
A
f .
Th eor` eme 2 Si f est continue et coercive, i.e. innie ` a linni :
lim
|x|
f (x) = +,
alors le probl` eme () admet au moins une solution.
Preuve. Soit x
0
A et m = f (x
0
). Par coercivit e de f , il existe une boule B centr ee en
x
0
en dehors de laquelle f est strictement sup erieure ` a m. Ainsi les bornes inf erieures de
f sur A et sur A B sont les m emes. Le r esultat pr ec edent appliqu e ` a A B, compact,
permet de conclure.
Th eor` eme 3 Si A est convexe et f strictement convexe, alors le probl` eme () admet au plus une
solution.
Preuve. Supposons que x
1
et x
2
soient deux solutions distinctes, alors x
= (x
1
+ x
2
)/2
A et, par stricte convexit e de f ,
f (x
) <
f (x
1
) + f (x
2
)
2
= min
A
f ,
qui fournit une contradiction.
3 Optimisation sans contrainte
Dans ce paragraphe, on suppose que lensemble des contraintes A est R
d
tout entier.
On dispose alors de conditions n ecessaires doptimalit e locale :
Mini-cours doptimisation 3
Th eor` eme 4 (
R
d
. Si f admet en x
un mini-
mum local sur R
d
, alors
(2) f (x
) = 0.
L equation pr ec edente est appel ee equation dEuler et toute solution de (2) est appel ee point
critique de f .
Preuve. Fixons u R
d
et posons h = tu pour t > 0. La formule de Taylor s ecrit ` a lordre 1
autour de x
:
f (x
+ h) = f (x
) +f (x
), h) + O(|h|),
soit encore
f (x
+ tu) f (x
)
t
= f (x
), u) + O(1).
Comme x
), u) 0.
Le vecteur u etant quelconque, on en d eduit f (x
) = 0.
Remarque 3 Lin egalit e (3) est valable pour tout u car il est permis deffectuer des varia-
tions autour de x
dans toutes les directions. On verra que cette in egalit e est encore valable
en pr esence de contraintes, mais seulement pour les directions admissibles.
Notons que l equation dEuler est un r esultat local, qui ne distingue pas les minima
locaux du minimum global. Par ailleurs, minima et maxima ne sont pas discrimin es (ni
des points cols/selles ou des points dinexion). Toutefois, on a la condition dordre 2
suivante :
Th eor` eme 5 (Condition n ecessaire dordre 2) Soit f C
2
(R
d
, R) et x
R
d
. Si f admet
en x
) = 0 et la formule
de Taylor ` a lordre 2 permet d ecrire pour toute direction u R
d
,
0
2
f (x
)u, u) + O(1),
do` u le r esultat par passage ` a la limite t 0.
Les conditions n ecessaires pr ec edentes ne fournissent malheureusement pas de con-
dition sufsante, le cas o` u la hessienne est semi-d enie positive sans etre d enie positive
restant ind etermin e :
Th eor` eme 6 (Condition sufsante doptimalit e) Soit f C
2
(R
d
, R) et x
R
d
. On sup-
pose
f (x
) = 0 et
2
f (x
un minimum local.
4 Mini-cours doptimisation
Preuve. La formule de Taylor ` a lordre 2 permet d ecrire
f (x
+ h) f (x
) =
2
f (x
)h, h) + O(|h|
2
).
Or
2
f (x
)h, h)
min
|h|
2
o` u
min
> 0 d esigne la plus petite valeur propre de la
matrice hessienne. On en d eduit que pour |h| assez petit, f (x
+ h) f (x
) 0.
Exemple 1 On consid` ere le probl` eme de la r egression polynomiale au sens des moindres
carr es.
Etant donn e un nuage de points (x
i
, y
i
)
1iN
et un entier n, on cherche un po-
lyn ome p
n
de degr e inf erieur ou egal ` a n qui lapproche au mieux au sens suivant :
N
i=1
[y
i
p
n
(x
i
)[
2
est minimale.
Si lon recherche le polyn ome p
n
sous la forme p
n
= a
0
+ a
1
X + + a
n
X
n
, alors le
probl` eme de minimisation se r ecrit
(5) min
aR
n+1
(a) avec (a) = |Va y|
2
2
,
o` u la matrice de Vandermonde V et les vecteurs a, y sont d enis par
V =
_
_
_
_
_
_
_
_
1 x
1
x
2
1
x
n
1
1 x
2
x
2
2
x
n
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 x
N
x
2
N
x
n
N
_
_
_
_
_
_
_
_
a =
_
_
_
_
_
_
_
_
a
0
a
1
.
.
.
.
.
.
a
n
_
_
_
_
_
_
_
_
y =
_
_
_
_
_
_
_
_
y
1
y
2
.
.
.
.
.
.
y
N
_
_
_
_
_
_
_
_
.
Le probl` eme (5) est un probl` eme doptimisation sans contrainte, et rel` eve des r esultats
des paragraphes pr ec edents.
La fonction est continue et coercive :
(a) = |Va|
2
2Va, y) +|y|
2
|a|
2
2|a| + ,
o` u est la plus petite valeur propre de la matrice d enie positive
1
V
T
V , = |V| |y|
et = |y|
2
. On est donc assur e de lexistence pour le probl` eme (5).
La fonction est de classe C
2
et
(a) = 2(V
T
Va V
T
y),
2
(a) = 2V
T
V.
La hessienne de est d enie positive pour tout a R
n+1
, donc est strictement
convexe sur R
n+1
, ce qui assure lunicit e pour (5).
L equation dEuler s ecrit
V
T
Va = V
T
y,
quon appelle syst` eme des equations normales. Signalons quon peut aussi r esoudre le
probl` eme (5) ` a laide de la d ecomposition QR.
1
La matrice V
T
V est d enie positive d` es que V est injective, i.e. d` es quau moins n +1 valeurs des x
i
sont
distinctes. Ce nest pas une forte restriction quand N est tr` es grand devant n, qui est la situation courante.
Mini-cours doptimisation 5
4 Optimisation sous contraintes
An de pouvoir ecrire des conditions doptimalit e, on ecrit lensemble des contraintes
A sous la forme g en erale d egalit es-in egalit es :
A = x R
d
; g
1
(x) = 0, . . . , g
p
(x) = 0 et h
1
(x) 0, . . . , h
q
(x) 0,
o` u les fonctions g
i
et h
j
sont d enie de R
d
dans R.
4.1 Contraintes de type egalit e
On se place dans ce paragraphe dans le cas q = 0 et donc
A = x R
d
; g
1
(x) = 0, . . . , g
p
(x) = 0.
Th eor` eme 7 (extr ema li es) Soit f , g
i
: R
d
R des fonctions de classe C
1
. On suppose que f
admet en x
), . . . , g
p
(x
) est libre.
Alors il existe des multiplicateurs de Lagrange
1
, . . . ,
p
R tels que
(7) f (x
) +
p
i=1
i
g
i
(x
) = 0.
L equation (7) est appel ee equation dEuler-Lagrange, la condition (6) condition de qualica-
tion des contraintes.
Preuve. On pr esente ici une preuve dans le cas p = 1 et d = 2, pour en limiter la technicit e,
mais aucune difcult e conceptuelle suppl ementaire napparat pour le cas g en eral. On
note donc
A = x R
d
; g(x) = 0.
Lid ee de la preuve est de param etrer lensemble A au voisinage de x
et d ecrire l equa-
tion dEuler en le param` etre (non contraint !). La condition (6) indique ici que le vecteur
g(x
) ,= 0.
Le th eor` eme des fonctions implicites permet d ecrire A comme un graphe dans une petite
boule centr ee en x
:
A B(x
, ) = x = (x
1
, x
2
) B(x
, ), x
2
= (x
1
).
La fonction (x
1
) = f (x
1
, (x
1
)) admet ainsi un minimum relatif autour de x
1
. Nayant
plus de contraintes sur x
1
, on peut ecrire l equation dEuler (2) :
f
x
1
(x
1
, (x
1
)) +
f
x
2
(x
1
, (x
1
))
/
(x
1
) = 0
Par ailleurs, on a g(x
1
, (x
1
)) 0 do` u, par d erivation,
g
x
1
(x
1
, (x
1
)) +
g
x
2
(x
1
, (x
1
))
/
(x
1
) = 0
6 Mini-cours doptimisation
En remarquant que (x
1
) = x
2
et en posant
=
_
g
x
2
(x
)
_
1
f
x
2
(x
) ,
on obtient imm ediatement f (x
) + g(x
) = 0.
Remarque 4 On peut interpr eter g eom etriquement le r esultat pr ec edent :
g(x
)
x
Le vecteur g(x
.
Par ailleurs, la d eriv ee par rapport ` a x
1
de la fonc-
tion introduite dans la d emonstration pr ec edente sin-
terpr` ete comme la d eriv ee tangentielle de f en x
. Ainsi, le
fait que la d eriv ee tangentielle soit nulle implique que le
gradient est parall` ele ` a la normale, ce quexprime exac-
tement l equation dEuler-Lagrange.
Exemple 2 Soit A R
dd
une matrice sym etrique. On consid` ere le probl` eme de minimi-
sation sous contrainte :
(8) min
|x|
2
=1
Ax, x).
Il entre dans le cadre pr ec edent avec
f (x) = Ax, x) et g(x) = |x|
2
1.
Bien s ur, les fonctions f et g sont de classe C
1
et
f (x) = (A + A
T
)x = 2Ax et g(x) = 2x.
Le probl` eme (8) admet au moins une solution par compacit e, not ee x
. Par ailleurs, la
condition de qualication des contraintes (6) est trivialement v eri ee. On peut donc ecrire
l equation dEuler-Lagrange en x
+ 2x
= 0,
soit encore Ax
= x
) = 0 = h
j
(x
), z) < 0
_
.
Alors il existe des multiplicateurs de Kuhn et Tucker
1
, . . . ,
q
R tels que
(10) f (x
) +
q
j=1
j
h
j
(x
) = 0,
avec
j
0 (positivit e) et
j
h
j
(x
) = 0 (relations dexclusion).
L equation (10) est appel ee condition KKT, la condition (9) condition de qualication des
contraintes.
Preuve. Ici encore, on se place dans le cas particulier dune seule contrainte en dimen-
sion 2 :
A = x R
d
; h(x) 0.
Si h(x
) = 0.
On est donc ramen e au cas h(x
)
h 0
x
), u) 0.
La m eme m ethode que dans le cas non contraint per-
met d ecrire que pour de tels u, on a lin egalit e (3) :
f (x
), u) 0.
On obtient donc le r esultat suivant :
(11) u R
d
h(x
), u) 0 = f (x
), u) 0,
do` u on d eduit facilement quil existe 0 tel que f (x
) = h(x
).
Remarque 5 Contrairement au cas des contraintes de type egalit e, la g en eralisation de
cette d emonstration dans le cas p > 1 et d > 2 est plus d elicate. Le demi-plan tangent est
remplac e par un c one tangent et, de la m eme mani` ere, la condition de qualication des
contraintes traduit le fait quil soit non vide. Par ailleurs, la relation (11) devient :
u R
d
_
j h
j
(x
), u) 0
_
=
_
f (x
), u) 0
_
.
8 Mini-cours doptimisation
On peut encore en d eduire quil existe des r eels positifs
j
tels que
f (x
) =
q
j=1
j
h
j
(x
).
Cest le lemme de Farkas-Minkowski et la preuve en est non-triviale, voir [3, 1].
Remarque 6 On introduit souvent le Lagrangien du probl` eme ; il sagit ici de la fonction
L(x,
1
, . . . ,
q
) = f (x) +
q
j=1
j
h
j
(x).
La condition (10) traduit le fait quil existe des multiplicateurs
j
tels que x
soit un point
critique du Lagrangien :
x
L(x,
1
, . . . ,
q
) = 0.
Exemple 3 Soit ` a maximiser x sur le sous-ensemble A de R
2
:
A =
_
(x, y) R
2
; y x
2
et x + y 1
_
.
x
y
A
1
1
0
M
1
M
2
Le Lagrangien du probl` eme s ecrit
L(x,
1
,
2
) = f (x, y) +
1
h
1
(x, y) +
2
h
2
(x, y),
avec
f (x, y) = x, h
1
(x, y) = x
2
y et h
2
(x, y) = x + y 1.
(Noter la d enition f (x, y) = x car il sagit dun probl` eme de maximisation).
1
+
2
= 0
avec
_
1
(x
2
y) = 0,
2
(x + y 1) = 0.
Sensuit une etude de cas selon que
1
= 0 ou
1
,= 0. On en d eduit que la seule solution
est (x
, y
) = M
1
avec
1
=
2
= 1/(1 + 2x
).
Lexistence dune solution au probl` eme de maximisation, par compacit e, permet dassu-
rer que le point critique M
1
en est bien lunique solution (ce qui est evident ` a la main).
5 Contraintes et m ethodes num eriques
Si la pr esence de contraintes complique l etude th eorique des probl` emes doptimisa-
tion, elle pose aussi des difcult es au niveau num erique. Par exemple, les m ethodes de
gradient ne peuvent etre utilis ees telles quelles car une it eration
x
n+1
= x
n
f (x
n
)
nest pas assur ee de rester dans lensemble des contraintes. Une solution consiste ` a proje-
ter x
n+1
sur lensemble des contraintes ; on parle de m ethode de gradient projet e. Toutefois,
cet algorithme est difcilement utilisable en pratique car en g en eral on ne sait pas cal-
culer la projection.
Dans le cas de contraintes egalit es, il est possible de d eterminer les points critiques
` a laide des equations dEuler-Lagrange. En effet, si lensemble des contraintes est
A = x R
d
; g(x) = 0,
alors les conditions doptimalit e s ecrivent
_
f (x) + g(x) = 0,
g(x) = 0.
Il sagit dun syst` eme de d + 1 equations (en g en eral non-lin eaires) dont linconnue est
le couple (x, ) R
d+1
. On peut, par exemple, utiliser une m ethode de Newton pour
d eterminer (x
) num eriquement.
Citons enn une m ethode tr` es utilis ee dans les applications, qui ram` ene un probl` eme
sous contraintes ` a un probl` eme sans contrainte. Il sagit de la m ethode de p enalisation.
Toujours dans lexemple dune contrainte de type egalit e, on pose pour > 0,
f
(x) = f (x) +
1
[g(x)]
2
.
La m ethode sappuie sur le constat suivant : si x
minimise f
sur R
d
tout-entier, alors
g(x
car le terme
1
[g(x)]
2
tr` es grand le p enalise.
Plus pr ecis ement, sous certaines hypoth` eses sur f et g, on peut montrer que x
tend vers
x
Ecole Polytechnique.
Ellipses, Paris 2005.
[2] V. BECK, J. MALICK, G. PEYR E. Objectif Agr egation. H&K 2004.
[3] P. G. CIARLET. Introduction ` a lanalyse num erique matricielle et ` a loptimisation. Collec-
tion Math ematiques Appliqu ees pour la Matrise. [Collection of Applied Mathematics
for the Masters Degree]. Masson, Paris 1982.
[4] J.-B. HIRIART-URRUTY. Loptimisation. Que sais-je ? PUF, Paris 1996.