Академический Документы
Профессиональный Документы
Культура Документы
INSTITUTO DE INVESTIGACIÓN
Resumen iv
Introducción 1
Marco Teórico 6
1 Preliminares 7
1.1 Sı́mbolos y Notaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Definiciones Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
ii
3.3 Elementos del análisis convexo . . . . . . . . . . . . . . . . . . . . . . 54
3.3.1 Convexidad en una variedad riemanniana . . . . . . . . . . . . 55
3.3.2 Funciones cuasi-convexas y pseudoconvexas . . . . . . . . . . 59
Materiales y Métodos 71
Resultados 72
Discusión 73
Bibliografı́a 74
Apéndice 77
iii
Resumen
Palabras Claves:
Método del gradiente, problemas convexos, métricas riemannianas, implementación
computacional.
iv
Introducción
donde f : IRn → IR en una función de valores reales y f : IRn → IRm es una función
de valores en IRm y x es la variable a determinar.
Una clase de métodos muy conocidos y utilizados para resolver el problema planteado
son los métodos proyectivos, los cuales generan una sucesión de puntos {xk }, dados
por x0 ∈ IRn tal que h(x0 ) = 0 (un punto inicial dado) y
xk = PM (xk + tk dk ),
1
algunas condiciones de convexidad sobre la función objetivo f y el conjunto de las
restricciones M.
Una desventaja de los métodos proyectivos es el alto costo computacional en re-
alizar en cada iteración una proyección sobre M. Otra desventaja es cuando la función
objetivo f pierde la propiedad de la convexidad, llevando ası́ a la indeterminación si
la sucesión {xk } converge y si el punto de convergencia es un punto óptimo del prob-
lema. Observemos que en general propiedades de convexidad de la función objetivo
y de las restricciones garantizan la convergencia global de los métodos a un punto
óptimo.
Una alternativa para superar estas desventajas es considerar al conjunto M como
una variedad diferenciable dotada con propiedades geométricas no euclidianas y trans-
formar el problema original en el siguiente problema irrestricto:
min{f (x) : x ∈ M }.
2
los proyectivos, de infinitas dimensiones, los riemannianos, topológicos entre otros.
El uso de la geometrı́a riemanniana, por Einstein en 1915, en la teorı́a de la
gravitación universal fue uno de los grandes impulsores para que en otras lı́neas de
investigación se utilizen las ideas de la geometria no euclidiana. En los tiempos
actuales en que vivimos, tenemos ya diversas aplicaciones de la geometria riemanniana
en varios campos de la ciencia e ingenierı́a, por ejemplo en estadı́stica, economı́a,
computación, biologı́a y optimización, entre otros.
La relación entre los métodos de Optimización Matemática y la geometria rie-
manniana data por lo menos del año 1972, con el trabajo desarrollado por LUEN-
BERGER (1972), [17], donde usando el método de descenso geodésico obtiene la tasa
de convergencia del método del gradiente proyectado para el problema de min f (x),
sujeto a h(x) = 0, donde f : IRn → IR, h : IRn → IRm , n > m. Esta lı́nea de
investigación tuvo continuidad con GABAY (1982), [11], donde del punto de vista
de esta teorı́a, estudia el método de gradiente reducido, generaliza los métodos de
Cuasi-Newton obteniendo convergencia superlineal. También hace un análisis com-
putacional mostrando que la teorı́a y la práctica interrelacionadas pueden dar buenos
resultados.
El método de máximo descenso, estudiado por Cauchy en l847, es uno de los
métodos más antiguos y conocidos en la literatura para resolver problemas de op-
timización con funciones objetivo continuamente diferenciables. Sin embargo, para
una función arbitraria los resultados de convergencia no son muy fuertes ya que la
convergencia global, como también la existencia de puntos de acumulación no son
garantizados. Solamente podemos asegurar que cualquier punto de acumulación, si
existe, es un punto crı́tico del problema.
La situación es muy diferente cuando la función objetivo es convexa, porque asum-
iendo solamente que el conjunto de soluciones óptimas es no vacı́o, el método de
máximo descenso con búsqueda de ARMIJO (1966), [2], y con una regularización
proximal converge a un punto óptimo. Este método en variedades riemannianas, con-
siderando un problema de optimización con función objetivo arbitraria, fue estudiado
por UDRISTE (1997), [24], SMITH (1994), [23] y RAPCSÁK (1997), [21], obteniendo
los mismos resultados clásicos de convergencia. Para el caso convexo en estas varie-
3
dades con curvatura seccional no negativa, la convergencia global usando la regla de
búsqueda de Armijo, pasos fijos y una regularización proximal, fue generalizada por
da CRUZ NETO, LIMA y OLIVEIRA (1999), [6] y para funciones cuasi-convexas
solamente en espacios euclidianos, por KIWIEL y MURTY (1997), [14]. Esta inves-
tigación, está orientada a extender los resultados de Kiwiel y Murty en variedades
riemannianas completas y con curvatura seccional no negativa.
El objetivo principal de este trabajo consiste en construir un método de opti-
mización usando elementos de geometrı́a riemanniana que supere algunas desventajas
de los métodos proyectivos.
La importancia de esta investigación es que nuestros resultados permitirán resolver
problemas de optimización sin necesidad de realizar proyecciones en cada iteración
reduciendo ası́ el costo computacional de los métodos proyectivos. Otra importan-
cia es que podremos resolver problemas de optimización con funciones objetivos no
convexas que se transformen en convexas mediante la introducción de una métrica
riemanniana apropiada sobre el conjunto de las restricciones, ampliando ası́ el campo
de aplicación de los métodos proyectivos.
Al no existir una metodologı́a efectiva para solucionar el problema planteado se
justifica el desarrollo de este proyecto para una posible incorporación en los planes
curriculares de estudio de las diversas especialidades de la matemática aplicada que
desarrollen métodos de optimización como también de la construcción de nuevos al-
goritmos para resolver problemas más difı́ciles.
El trabajo está organizada por los siguientes capı́tulos:
En el Capı́tulo 1, presentamos los preliminares del trabajo de investigación. Damos
algunos sı́mbolos y notaciones como también las herramientas matemáticas necesarias
para el buen entendimiento del trabajo.
En el Capı́tulo 2, presentamos elementos básicos de la geometrı́a riemanniana
basados en BOOTHBY (1986), [3], do CARMO (2005) (1988), [8], [9], LAGES (1960)
(1973), [15],[16] y su relación con la Optimización OLIVEIRA (1995), [19], damos
ejemplos de las métricas más conocidas y estudiamos una clase particular de métricas
riemannianas diagonales, definidas en el ortante positivo IRn++ y el hipercubo abierto
(0, 1)n , espacios naturales donde se definen los problemas de optimización, obteniendo
4
propiedades geométricas importantes como curvatura cero, ecuaciones secillas para
hallar geodésicas y condiciones suficientes para garantizar que la variedad riemanniana
sea completa.
En el Capı́tulo 3 presentamos el problema de optimización sobre una variedad rie-
manniana y desarrollamos sus condiciones de optimalidad, caracterizamos los puntos
de mı́nimo, luego estudiamos la clase de funciones convexas y cuasi-convexas.
En el Capı́tulo 4, desarrollamos el método de máximo descenso, y analizamos la
convergencia del método para resolver el problema de minimización usando funciones
objetivo cuasi-convexas. Probamos que la sucesión generada por el método, usando
la regla de búsqueda generalizada de Armijo y una regularización proximal, converge
a un punto crı́tico de la función. Presentamos también un Apéndice con algunos
experimentos computacionales. Debemos resaltar que el resultado de esta investi-
gación ha generado el artı́culo de autoria de PAPA QUIROZ, QUISPE CARDENAS
y OLIVEIRA (2008), [20], publicado por la revista Journal of Mathematical Analysis
and Applications (USA).
5
Marco Teórico
6
Capı́tulo 1
Preliminares
7
1.2 Definiciones Básicas
Definición 1.2.1 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un
abierto U . Definimos la diferencial de F en el punto q ∈ U como una aplicación
definida de la siguiente manera, dFq (v) = β ′ (0) con v ∈ IRn , donde β = F o α para
algún α : (−ε, ε) → U tal que α(0) = q y α′ (0) = v. Ası́:
d
dFq (v) = β ′ (0) = (F oα)(t)|t=0 .
dt
Se puede probar facilmente (ver do CARMO (2005),[8], pp. 127-128) que la diferencial
es una aplicación lineal que no depende de la curva α tal que α(0) = q, además, si:
8
Definición 1.2.3 Dado un conjunto M, un subconjunto Γ de partes de M, se dice
una topologı́a en M si:
1. ∅ ∈ Γ y Γ ∈ M ;
2. Si A, B ∈ Γ entonces A ∩ B ∈ Γ;
S
3. Si (Ai )i∈l es una famı́lia de elementos de Γ, entonces i∈l Ai ∈ Γ.
El par (M, Γ) se dice espacio topológico y los elementos de Γ son llamados abiertos
del espacio topológico (Γ, M ).
d2 (y k+1 , u) ≤ d2 (y k , u) + ǫk .
9
Teorema 1.2.1 En un espacio métrico completo (X, d), si {y k } es cuasi-Fejér con-
vergente para un conjunto U ⊆ X, entonces {y k } es limitada. Si además, un punto
de acumulación ȳ de {y k } pertence a U. Entonces {y k } converge y lim y k = ȳ.
k→∞
10
Capı́tulo 2
Elementos de Geometrı́a
Riemanniana
2.1 Introducción
Las nociones de geometrı́a riemanniana fueron introducidas por G. Riemann un
10 de Junio de 1854 a travéz de una disertación titulada: Sobre las hipótesis que
están en los fundamentos de la geometrı́a. En él afirma que toda colección continua
de fenómenos homogéneos puede considerarse como un espacio. Estas ideas dieron
origen a lo que hoy conocemos como geometrı́a riemanniana.
En este capı́tulo presentamos los conceptos principales de estas ideas que usaremos
a lo largo de este trabajo, como son: variedades diferenciables, aplicaciones diferen-
ciables entre variedades diferenciables y los espacios tangentes a estas variedades,
también definiremos métrica riemanniana, geodésica, curvatura, gradiente y Hessiano
de funciones o matriz Hessiana de una función, en una variedad riemanniana. En
lo que concierne a métricas, presentamos una clase de métricas riemannianas diago-
nales, herramientas que nos permiten obtener propiedades interesantes para desarrol-
lar nuevos algoritmos en Optimización, esto es, que sobre una variedad riemanniana
se puede derivar un campo vectorial tangente a lo largo de una curva, a través de
la llamada derivada covariante a lo largo de curvas que depende de la métrica. For-
malizaremos estos resultados en las siguientes secciones.
11
2.2 Variedades diferenciables
Una variedad diferenciable, a groso modo, es un espacio topológico (no necesari-
amente vectorial) semejante localmente al espacio euclidiano IRn cuja relación tiene
el soporte de la diferenciabilidad. En esta sección presentamos estas ideas y daremos
algunos ejemplos de variedades diferenciables relacionadas con problemas de Opti-
mización. Para una demostración rigurosa de los resultados aquı́ presentados, refer-
enciamos a Manfredo do CARMO (1988), [9]; SAKAI (1996), [22]; ELON LAGES
(1960 y 1973), [15] y [16]; BOOTHBY (1986), [3], y HICKS (1966), [12].
En todo este capı́tulo, el término diferenciable de una función o aplicación sig-
nificará que es infinitamente diferenciable.
1. X es diferenciable en U.
2. X es homeomorfismo.
X V ∩S
p*
x
V
S
U
z
y
12
Proposición 2.2.1 Sea U un subconjunto abierto de IRn y F : U −→ IRm una
función diferenciable en U con valor regular a ∈ IRm , entonces F −1 (a) es una super-
ficie regular de dimensión n − m.
Se tiene dF(λ,s) = [AT I] con rango n, para todo (λ, s) ∈ IRm × IRn++ . Aplicando
la Proposición 2.2.1, F −1 (0) = S es una superfı́cie regular de dimensión m.
13
Ejemplo 2.2.2 Consideremos el problema en Optimización no Lineal:
min f (x)
s.a h(x) = 0
x∈U
Una propiedad importante de las superficies regulares, es que ella no depende del
cambio de parámetros, es decir, cualquier otra parametrización de la superficie en un
punto p ∈ S sigue manteniendo las propiedades diferenciables. Este resultado nos
servirá para generalizar la definición de superficie regular a variedad diferenciable.
W = X (U ) ∩ Y(V ) 6= ∅.
14
[
1. M = Xα (Uα ).
α∈I
15
2.3 Aplicaciones diferenciables entre variedades
Definición 2.3.1 Sea f : U ⊂ M −→ IR, donde U es un subconjunto abierto de la
variedad diferenciable M . Diremos que f es diferenciable en p ∈ U , si para alguna
parametrización Xα : Uα ⊂ IRn −→ M , con p ∈ Xα (Uα ) ⊂ U , la función compuesta
f ◦ Xα : Uα ⊂ IRn −→ IR es diferenciable en Xα−1 (p). Se dice que f es diferenciable
en U si es diferenciable en todo punto de U .
f
U IR
p
M f (p)
Xα
−1
Xα
Uα
f ◦ Xα
Figura 2. f es diferenciable en U.
f ◦ Xβ = f ◦ Xα ◦ Xα−1 ◦ Xβ : Uβ ⊂ IRn → M.
Definición 2.3.2 Una curva sobre una variedad difereciable M es una función γ :
I → M donde I = (−ε, ε). Diremos que γ es diferenciable en t0 ∈ I si para alguna
parametrización Xα : Uα ⊂ IRn → M con γ(t0 ) ∈ Xα (Uα ), la función compuesta
β = Xα−1 ◦γ :I → Uα es diferenciable en t0 , donde γ(I) ⊂ Xα (Uα ). Si γ es diferenciable
en todo t ∈ I, diremos que γ es diferenciable en I.
16
Xα (Uα )
γ(t) γ(t0 ) = pα
Xα
M
−1
Xα γ
I
t0 ǫ
Uα ⊂ IRn −ǫ
−1
β= Xα ◦ γ
Figura 3. γ es diferenciable en t ∈ I.
X1 : U1 ⊂ IRn → M1
parametrización de M1 en p y:
X2 : U2 ⊂ IRm → M2
17
es difeomorfismo si ϕ es bijetiva y ϕ−1 es diferenciable. ϕ es difeomorfismo local en
p ∈ M1 , si existen vecindades U de p y V de ϕ(p) tal que ϕ : U → V es difeomorfismo.
con γ(0) = p y γ (0) = (γ1 (0), ..., γn (0)) = v ∈ IRn . Sea además una función f :
′ ′ ′
!
d(f ◦ γ) Xn
∂f dγi
X n
′ ∂ f.
(t) = (γ(0)) (0) = γi (0)
dt t=0 i=1 ∂γi dt i=1 ∂γi p
γ : (−ε, ε) → M,
18
donde γ(0) = p y sea Dp = {f : M −→ IR : f es diferenciable en p}. Definimos el
vector tangente a la curva γ en t = 0 como la función γ ′ (0) : Dp → IR dada por:
′ ′ d(f ◦ γ)
γ (0)f ≡ γ (0)(f ) = (t) , f ∈ Dp .
dt t=0
(identificación: f oX ≡ f ).
Podemos escribir también,
d
= (f (q1 (t), q2 (t), ..., qn (t))
dt
t=0
entonces: ! ! !
n n
′
X ′∂f X ′ ∂
γ (0)f = qi (0). (p) = qi (0). f.
i=1 ∂qi i=1 ∂qi 0
19
Ası́, !
n
′
X ′ ∂
γ (0) = qi (0). (2.1)
i=1 ∂qi 0
es la expresión del vector tangente a γ en p con relación a la parametrización X .
Observación 2.4.2 Para una curva coordenada en U , βi (xi ) = (0, ..., xi , ..., 0), se
tiene que la composición X ◦ βi = γi es una curva coordenada sobre M y de la
′
ecuación anterior, γi (0) = ( ∂x∂ i )0 . Se sigue que ( ∂x∂ i )0 es el vector tangente a la curva
coordenada γi (t).
20
En efecto, la función que define M es F : IRn++ → IRm tal que F (x) = Ax − b, la
diferencial de F en el punto p ∈ M es dFp = A, luego aplicando la Proposición 2.4.2
obtenemos el resultado.
Ejemplo 2.4.2 Sea h : U ⊂ IRn → IRm una función diferenciable con Jacobiano
Jh (x) = dhx con rango m. Consideremos la variedad M = h−1 (x) = {x ∈ U, h(x) =
0}, entonces:
Tp h−1 (0) = Ker(Jh (x)).
dϕp : Tp M1 → Tϕ(p) M2 ,
dada por dϕp (v) = β ′ (0) es una aplicación lineal que no depende de la elección de α.
Esta aplicación es llamada la diferencial de ϕ en p.
21
parametrizada en IRn , γ(t) = (γ1 (t), γ2 (t), ..., γn (t)) donde t pertenece a algun inter-
valo I de IR, la longitud de arco de la curva generada por γ(t) es medida por:
Z
ℓ(γ) = kv(t)kdt
I
′ ′ ′
donde v(t) = (γ1 (t), γ2 (t), ..., γn (t)) y k, k representa la norma euclideana. Ası́, la
longitud de la curva depende de la norma del vector velocidad definido por la métrica
usual en IRn . Ahora, si nuestro espacio es una variedad diferenciable M y tenemos
definida una curva en ella, entonces la longitud de arco de la curva será obtenida por
la medida realizada en el vector perteneciente al espacio tangente en cada punto.
Necesitamos entonces definir una métrica en el espacio tangente Tp M para cada p ∈
M. Recordemos que además del producto interno clásico:
X
(v, w)p = v i wi ,
i
donde G = (gij ) es una matriz simétrica definida positiva. Esta definición aparece de
modo natural al realizar un cambio de coordenadas. En efecto, sean x = (x1 , x2 , ..., xn )
y z = (z1 , z2 , ..., zn ) tal que x(t) = x(z(t)), esto es,
x(t) = (x1 (z1 (t), z2 (t), ..., zn (t)), x2 (z1 (t), z2 (t), ..., zn (t)), ..., xn (z1 (t), z2 (t), ..., zn (t)),
entonces:
n
!
dxi X ∂xi ∂zj
= , para todo i = 1, 2, ..., n.
dt j=1 ∂zj ∂t
dxi dzi
Denotando v x = (v1x , v2x , ..., vnx ) y v z = (v1z , v2z , ..., vnz ), donde vix = dt
y viz = dt
,
tememos: !2
n
x 2 x x
X dxi
k v k = (v , v ) = .
i=1 dt
Como:
!2 2 ! !
n n n n n
dxi X ∂xi X ∂xi z X ∂xi z X X ∂xi ∂xi
= vjz = vj v = vkz vjz ,
dt j=1 ∂zj j=1 ∂zj k=1 ∂zk k j=1 k=1 ∂zk ∂zj
22
entonces: !
n
n X n
x 2
X X ∂xi ∂xi
kv k = vkz vjz ,
i=1 j=1 k=1 ∂zj ∂zk
conmutando sumandos:
n
n X n
!
X X ∂xi ∂xi
k v x k2 = vkz vjz .
j=1 k=1 i=1 ∂zj ∂zk
n
X
x x x 2
(v , v ) =k v k = gij viz vjz = (Gv z , v z ).
i,j=1
Métrica riemanniana.
h , ip : Tp M × Tp M −→ IR,
es diferenciable.
23
Las funciones gij son llamadas expresiones de la métrica riemanniana en el sistema
coordenado X y la matriz G = (gij ) es la representación de la métrica riemanniana.
Como X es un difeomorfismo (Observación 2.3.2) se tiene que dXq : IRn −→ Tq M es
un isomorfismo (Proposición 2.4.4) y ası́ la matriz G = (gij ) es invertible. Por tanto,
toda métrica riemanniana tiene su matriz de representación invertible.
Ejemplo 2.5.1 Sea M = IRn , defina la parametrización X : IRn −→ IRn tal que
X (x1 , x2 , ..., xn ) = (x1 , x2 , ..., xn ).
Definamos la métrica:
tal que:
1
h(x1 , x2 ), (y1 , y2 )ip = (x1 y1 + x2 y2 ).
p2
24
Sea q = (q1 , q2 ) ∈ M, entonces
∂
(q) = dXq ei = ei , para todo i = 1, 2.
∂xi
1 1
gij (x1 , x2 ) = h ei , ej i = δij ,
x2 x2
Los siguientes dos ejemplos son también variedades riemannianas para las métricas G
según se definen, los cuales se demuestran bajo el mismo procedimiento que los dos
ultimos ejemplos anteriores.
donde:
G(p) = diag(1/(hi (pi ))2 ),
entonces:
δij
gij (x) = .
(h2 (xi ))2
Ejemplo 2.5.4 Sea la variedad riemanniana (IR2 , G(x)), con hu, vip = uT G(p)v,
donde:
4p21 + 1 −2p1
G(p) =
−2p1 1
es la métrica riemanniana dada por Udriste.
25
2.6 Campos de vectores, conexiones afines y deriva
da covariante
Introducimos los campos de vectores en los espacios tangentes a las variedades rie-
mannianas. En Optimización Matemática ellos representan las direcciones, a partir de
un punto dado, para algún algoritmo iterativo propuesto. Observando la trayectoria
continua del algoritmo, esta tendrá sus caracterı́sticas, como curvatura, que depen-
den obviamente de las caracterı́sticas del campo. Surge ası́ la necesidad de definir
conceptos correspondientes al de derivada de funciones.
26
X(α(t)) y diremos que V es inducido por X.
d(X oX −1 ◦α)(t) dα
El campo vectorial dX(X −1 ◦α)(t) [(X −1 ◦ α)′ (t)] = dt
denotado por dt
, es
llamado campo velocidad o tangente de α.
Conexiones Afines.
Denotemos T M como el conjunto de espacios tangentes definidos en M.
Sea H = H(M ) = {X : M −→ T M : para cada p ∈ M, X(p) ∈ Tp M, y X ∈ C ∞ } el
conjunto de campo de vectores y D = D(M ) = {f : M −→ IR : f ∈ C ∞ } el conjunto
de funciones reales de clase C ∞ .
2. ∇X (Y + Z) = ∇X Y + ∇X Z;
n
P (.)
3. ∇X f Y = f ∇X Y + X(f )Y , donde X(f ) = ai (.) ∂f
∂xi
.
i=1
Proposición 2.6.1 Sea M una variedad diferenciable con una conexión afin ∇. En-
D
tonces existe una única aplicación dt
, donde a cada V ∈ Hα se asocia otro campo
DV
en Hα , denotado por dt
, tal que para todo V, W ∈ Hα y f : I −→ IR una función
diferenciable en I se cunplen:
D DV DW
a. dt
(V + W) = dt
+ dt
.
D df
b. dt
(f V )= dt
V + f DV
dt
.
DV
c. Si V (t) = Y (α(t)), donde Y ∈ H, entonces dt
= ∇ dα Y.
dt
D
dt
es llamada Derivada Covariante.
27
Observación 2.6.2 Al realizar la demostración de esta Proposición, encontramos
una caracterización de la derivada covariante para una cierta parametrización X , de
acuerdo con:
n n
DV X dv j X dxi
= Xj + vj ∇Xi Xj .
dt j=1 dt i,j=1 dt
Observación 2.6.3 La noción de conexión afin, ofrece una manera de derivar campo
dα
de vectores a lo largo de curvas. Ası́, en particular para el campo vectorial V = dt
tenemos: !
D dα
,
dt dt
que llamaremos aceleración de una curva α en M .
n n
X ∂ X ∂
X= xi , Y = yi ,
i=1 ∂xi i=1 ∂xi
donde (∂/∂xi ) representan los vectores de la base del sistema de coordenadas locales.
Por simplicidad de notación expresaremos:
∂
= Xi .
∂xi
Entonces tenemos
n
X n
X
X= xi Xi , Y = yi Xi .
i=1 i=1
Según las propiedades de la definición de la conexión afin:
X X X
∇X Y = ∇P xi Xi yj Xj = xi ∇Xi yj Xj
j i j
!
X X X X ∂yj
= xi (yj ∇Xi Xj ) + xi Xj .
i j i j ∂xi
Observe que ∇Xi Xj ∈ H, pudiendo por tanto ser también representado atravéz de
una base local, esto es:
n
X
∇Xi Xj = Γkij Xk (2.2)
k=1
que, substituyendo en la ecuación anterior, se obtiene:
28
n n n
X X X ∂yk
∇X Y = xi yj Γkij + xi Xk .
k=1 i,j=1 i=1 ∂xi
Γkij : U ⊂ M → R
y usando
n
X
∇Xi Xj = Γkij Xk ,
k=1
tenemos !
n n n
DV X dv j X dxi X
= Xj + vj Γkij Xk ,
dt j=1 dt i,j=1 dt k=1
n n
n X
X dv j X dxi k
= Xj + vj Γ Xk .
j=1 dt k=1 i,j=1 dt ij
Ası́:
n n
DV X dv k X dxi k
= + vj Γ Xk (2.3)
dt k=1 dt i,j=1 dt ij
es la expresión de la derivada covariante en términos de coordenadas locales y de los
sı́mbolos de Christoffel.
29
cuyo vector tangente es paralelo o derivada covariante nula. Si α : [a, b] → M es una
curva, tal que α(a) = y α(b) = q, el transporte paralelo es Pα(t) : Tp M → Tq M un
isomorfismo lineal tal que Pα(t) (v) = V (b) que es el único transporte paralelo a lo
largo de α.
Con la métrica euclidiana la geodésica es el segmento de recta entre dos puntos p y q
cualquiera que caracteriza la trayectoria de menor longitud que los une.
Si α : [a, b] → IRn es una curva diferenciable pasando por: p = α(a) yq = α(b),
dα d dα
siendo el campo dt
asociado fisicamente a la velocidad, tenemos la aceleración ( )
dt dt
Geodésicas.
Ecuaciones geodésicas.
De la expresión (2.3), un campo paralelo V es determinado por las ecuaciones
n n
X dv k X dαi k
+ vj Γ Xk = 0
k=1 dt i,j=1 dt ij
o, equivalentemente,
n
dv k X dαi k
+ vj Γ = 0, k = 1, ..., n.
dt i,j=1 dt ij
30
dαi
Cuando se trata de una geodésica α(t) = (α1 (t), ..., αn (t)), se tiene v i = dt
, entonces
esta última ecuación se transforma en
n
d dαk X dαj dαi k
( )+ Γij = 0, k = 1, ..., n
dt dt i,j=1 dt dt
o
n
d2 αk X dαi dαj
2
+ Γkij = 0, k = 1, ..., n (2.4)
dt i,j=1 dt dt
el cual es un sistema de n ecuaciones diferenciales de 2do. orden, que posee solución
dx
única en algun intervalo I = [a, b], verificando x(0) = α(0) = p y dt
(0) = α′ (0) = v .
Definición 2.6.6 Sea M una variedad diferenciable con una conexión afin ∇ y una
métrica riemanniana h , i. Se dice que ∇ es compatible con la métrica h , i si para
todo par de campos de vectores V y W a lo largo de la curva diferenciable α : I −→ M
se tiene:
d DV DW
hV, W i = h , W i + hV, i. (2.5)
dt dt dt
donde [X, Y ] = XY − Y X.
Observaciones:
31
1. En un sistema de coordenadas (U, X ) la simetrı́a de la conexión afin implica
∂ ∂
que ∇ ∂
∂xj
=∇ ∂
∂xi
.
∂xi ∂xj
∂2f ∂2f
Xi Xj (f ) − Xj Xi (f ) = − = 0.
∂xi ∂xj ∂xj ∂xi
Γkij = Γkji .
La reciproca es inmediata.
Teorema 2.6.1 (Levi-Civita). Dada una variedad riemanniana M , existe una única
conexión afin ∇ en M satisfaciendo las condiciones:
a) ∇ es simétrica.
32
donde gij = h ∂x∂ i , ∂x∂ j i son elementos de la matriz G(x) y g ij los elementos de su
inversa G−1 (x) respectivamente.
∂ ∂ ∂
En efecto, tomemos ∂xi
= Xi , ∂xj
= Xj y ∂xk
= Xk . Usando el resultado siguiente:
1
hZ, ∇Y Xi = {XhY, Zi+Y hZ, Xi−ZhX, Y i−h[X, Z], Y i−h[Y, Z], Xi−h[X, Y ], Zi}
2
(2.6)
tenemos:
1
hXk , ∇Xj Xi i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i}.
2
n
P
Como ∇Xj Xi = ∇Xi Xj = ∇Xi Xj = Γlij Xl y usando a linealidad del producto
l=1
interno, se tiene:
n
X 1
Γlij hXk , Xl i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i},
l=1 2
y ası́:
n
X 1 ∂ ∂ ∂
Γlij gkl = { gjk + gki − gij }.
l=1 2 ∂xi ∂xj ∂xk
Denotando bk = 12 { ∂x∂ i gjk + ∂x∂ j gki − ∂x∂ k gij }, k = 1, 2, ..., n obtenemos un sistema lineal
Gy = b con y = (Γ1ij , Γ2ij , ..., Γnij ) y b = (b1 , b2 , ..., bn ). Como G(x) es invertible (ver
definición de métrica riemanniana) entonces y = G−1 b. Ası́ tenemos:
n
1X
Γm
ij = g mk bk .
2 k=1
Ejemplo 2.6.1 Sea la variedad riemanniana M = IRn++ , con la métrica dada por
!
1 1 1
G(x) = diag 2
, 2
, ..., ,
(h1 (x1 )) (h2 (x2 )) (hn (xn )2
33
1. Obtención de los sı́mbolos de Christoffel.
Recordemos que la relación de la métrica con los sı́mbolos de Christoffel está
dado por la ecuación (2.7).
Cuando k 6= m tenemos que g mk = 0, ası́ la expresión es reducida a:
( )
1 ∂ ∂ ∂
Γm
ij = gim + gmi − gij g mm .
2 ∂xi ∂xj ∂xm
a) Si i = j ( )
1 ∂ ∂ ∂
Γm
ii = gim + gmi − gii g mm .
2 ∂xi ∂xi ∂xm
Para m = i
1 ∂
Γiii = − (hi (xi )) .
hi (xi ) ∂xi
Para m 6= i
Γm
ii = 0.
b) Si i 6= j ( )
1 ∂ ∂
Γm
ij = gim + gmi g mm .
2 ∂xi ∂xj
Para m = i entonces, m 6= j y:
Γiij = 0.
Para m = j entonces, m 6= i y:
Γjij = 0.
Para m 6= i y m 6= j entonces,
Γm
ij = 0.
1 ∂(hi (xi ))
Γm
ij = − δim δij (2.8)
hi (xi ) ∂xi
34
• Si hi (xi ) = 1, entonces, G(x) = I. Luego: Γm
ij = 0, ∀ i, j, m = 1, ..., n.
1
• Si hi (xi ) = xi entonces, G(x) = X −2 . Luego: Γm
ij = − xi δim δij .
r
r 1
• Si hi (xi ) = xi2 entonces, G(x) = X −r . Luego: Γm
ij = − 2 xi δim δij .
−r r
• Se hi (xi ) = si 2 xi2 , si ∈ IR++ entonces, G(x) = S r X −r . Luego Γm
ij =
n
!
DV X dv i 1 dxi
= − vi Xi .
dt i=1 dt xi dt
r
r 1
• Si hi (xi ) = xi2 , Γm
ij = − 2 xi δim δij
n
!
DV X dv i r 1 i dxi
= − v Xi .
dt i=1 dt 2 xi dt
dα(0)
donde α(0) = p y dt
= v, I alguún intervalo abierto de IR. Substituyendo los
sı́mbolos de Christoffel (2.8) en la ecuación (2.4) obtenemos:
d2 αi 1 ∂(hi (αi )) dαi 2
− ( ) = 0, ∀i = 1, ..., n (2.9)
dt2 hi (αi ) ∂αi dt
35
αi (0) = pi , i = 1, ..., n
αi′ (0) = vi , i = 1, ..., n.
La ecuación diferencial (2.9) es equivalente a resolver:
dαi
= hi (αi )ai ,
dt
para alguna constante ai , que también es equivalente a resolver la integral:
Z
1
dαi = ai t + bi , i = 1, 2, ..., n
hi (αi )
para algunas constantes ai y bi en IR.
Entonces, la única geodésica α(t) de IRn++ , con métrica G(p), pasando por el
punto α(0) = p, en la dirección α′ (0) = v, es obtenida resolviendo el siguiente
problema:
Z
1
( )dαi = ai t + bi i = 1, ..., n (2.10)
hi (αi )
donde ai y bi son constantes reales tales que:
αi (0) = pi , i = 1, ..., n.
αi′ (0) = vi , i = 1, ..., n.
En particular:
αi (t) = vi t + pi i = 1, ..., n.
Observemos que la geodésica α(t) está definida para valores de t tal que
vi t + pi > 0.
36
Ejemplo 2.6.2 Consideremos la variedad riemanniana C0n = (0, 1)n con la métrica
dada por: !
1 1 1
G(p) = diag 2
, 2
, ..., ,
(h1 (α1 )) (h2 (α2 )) (hn (αn ))2
para funciones hi : (0, 1) −→ (0, 1) diferenciables. Ası́, la única geodésica α(t) de C0n ,
con métrica G(p), pasando por el punto α(0) = p, en la direción α′ (0) = v ∈ Tp C0n =
IRn , es obtenida resolviendo la siguiente ecuación:
Z
1
( )dαi = ai t + bi i = 1, ..., n,
hi (αi )
• Si hi (αi ) = sen2 (παi ) entonces G(p) = csc4 (πp), con las geodésicas en C0n ,
1
αi (t) = arccot −πcsc2 (πpi )vi t + cot(πpi ) para todo, i = 1, 2..., n.
π
37
2.7 Curvatura de una variedad riemanniana
En esta sección, presentamos la definición de curvatura de una variedad riema-
nniana que, intuitivamente, mide cuanto ella se aleja de ser euclidiana. Del punto de
vista de las aplicaciones esta sección muestra esencialmente que las variedades IRn++ y
1 1
C0n con la métrica dada por G(x) = diag ,
(h1 (x1 ))2 (h2 (x2 ))2
, ..., (hn (x1 n ))2 para cuaquier
función diferenciable hi : IR++ −→ IR++ y hi : (0, 1)n −→ IR++ respectivamnte, tiene
curvatura cero.
K : H × H −→ A(H, H)
definida por:
K(X, Y )Z = ∇Y ∇X Z − ∇X ∇Y Z + ∇[X,Y ] Z.
y ası́,
K(X, Y ) = −K(Y, X).
38
Proposición 2.7.1 La curvatura K de una variedad riemanniana es trilineal, en el
siguiente sentido:
donde f ∈ D(M ) y Z, W ∈ H.
l
donde las componentes Kijk son dadas por:
n
X n
X
l
Kijk = Xj Γlik − Xi Γljk + Γsik Γljs − Γsjk Γlis .
s=1 s=1
n
P
Observación 2.7.4 Si en las coordenadas (U, X ) escribimos: X = ui Xi , Y =
i=1
n
P n
P
v j Xj , Z = wk Xk , por la linealidad de K tenemos:
j=1 k=1
n
X
l
K(X, Y )Z = Kijk ui v j wk Xl .
i,j,k,l=1
−1 ∂(hi (xi ))
Γm
ij = δim δij .
hi (xi ) ∂xi
39
n
P n
P n
P
Si en las coordenadas (U, X ) escribimos: X = ui Xi , Y = v j Xj , Z = wk Xk ,
i=1 j=1 k=1
de la tri-linealidad de K tenemos:
n
X
K(X, Y )Z = ui v j wk K(Xi , Xj )Xk .
i,j,k=1
Análogamente,
∇Xi (∇Xj Xk ) = 0.
40
De ambos resultados se tiene:
Ası́ K(X, Y )Z = 0. Luego las variedades riemannianas IRn++ y C0n con métrica G(x)
tienen curvatura cero. En particular, con las métricas I, X −r , para IRn++ y cosec4 (πx),
X −r (I − X)−r para C0n , son variedades de curvatura cero.
Curvatura Seccional.
Intimamente relacionado con el operador curvatura K está la curvatura seccional (o
riemanniana) que definiremos a seguir.
Sea M una variedad riemanniana y σ un subespacio bidimensional de Tp M . Definimos
la forma cuadrática como Q : σ → IR tal que:
hK(x, y)x, yi
K(x, y) = ,
Q(x, y)
41
2.8 Gradiente y Hessiana en una variedad riema-
nniana
Sea M una variedad riemanniana y f : M −→ IR una función diferenciable. Dado
p ∈ M sabemos que la diferencial de f en el punto p es un funcional lineal definido
en Tp M, entonces por el teorema de representación de Riesz existe un único elemento
denotado por ∇M f (p) ∈ Tp M tal que para todo v ∈ Tp M se tiene
y
k∇M f (p)k = kdfp k,
d
Además, dfp (X(p)) = dt
(f ◦ γ)|t=0 para alguna curva γ : I −→ M con γ(0) = p y
n
P ∂f
γ ′ (0) = X(p), luego tenemos que dfp (X(p)) = γi′ (0) ∂x i
(p) = X(f )(p), por tanto
i=1
42
Observación 2.8.1 Sea M ⊂ IRn una variedad riemanniana con la métrica definida
por hv, wix = v T G(x)w donde G(x) es una matriz simétrica definida positiva. Se
puede caracterizar el campo gradiente como:
∂f ∂f
donde G−1 (q) = (g ij (q)) es la matriz inversa de G(q) y f ′ = ( ∂x 1
, ..., ∂x n
) es el vector
de derivadas parciales de la función f ◦ X . En efecto,
D E
dfq (v) = f ′ (q)T v = f ′ (q)T (G(q)−1 )T G(q)v = (G(q)−1 f ′ (q))T G(q)v = G(q)−1 f ′ (q), v .
q
grad f (x) = diag(h1 (x1 ))2 , ..., (hn (xn ))2 )f ′ (x).
En particular:
1. Si hi (xi ) = xi entonces:
Ejemplo 2.8.3 Sea la variedad riemanniana C0n = (0, 1)n con la expresión de la
métrica dada por G(x) = csc 4 (πx) = diag(csc 4 (x1 ), ..., csc 4 (xn )), entonces
43
Definición 2.8.2 Sea M una variedad riemanniana y p ∈ M . Decimos que p es
punto crı́tico si grad f (p) = 0.
D
Hf = (grad f ) .
dt
D
Hpf (v) = (grad f ) (p) = ∇v grad f (p).
dt
44
Observación 2.8.2 En un sistema de coordenadas (X , U ) en terminos de la base
{Xk } tenemos: !
n
X
f
q (Xi , Xj ) = Xi Xj − Γm
ij Xm f,
m=1
esto es: !
n
f ∂2f X ∂f
q (Xi , Xj ) = hHpf Xi , Xj i = − Γm
ij . (2.14)
∂xi ∂xj m=1 ∂xm
Ejemplo 2.8.4 Sea la variedad riemanniana IRn con métrica G(x) = I; como vimos
anteriormente, los sı́mbolos de Christoffel son Γm
ij = 0, para todo i, j, m = 1..., n,
δij
Ejemplo 2.8.5 Sea la variedad riemanniana IRn++ con la métrica gij = hi (xi )hj (xj )
.
Sabemos que los sı́mbolos de Christoffel son:
−1 ∂hi (xi )
Γm
ij = δim δij ,
hi (xi ) ∂xi
entonces:
n
f
X 1 ∂hi (xi )
q (Xi Xj ) = Xi Xj + δim δij Xm .
m=1 hi (xi ) ∂xi
Si m 6= j entonces δim δij = 0, luego se tiene:
!
f ∂2 1 ∂hi (xi ) ∂
q (Xi , Xj ) = + δij f.
∂xi ∂xj hi (xi ) ∂xi ∂xi
Ası́, Hxf = q f (Xi )(Xj ) es la matriz que representa la Hessiana de la función f .
Aún podemos dar una representación matricial
1 −1
Hxf = f ′′ (x) + G(x) 2 (G(x) 2 )′ F ′ (x),
donde:
∂f (x) ∂f (x)
F ′ (x) = diag ∂x1
, ∂x2 , ..., ∂f∂x(x)
n
.
1 1
G(x) = diag ,
(h1 (x1 ))2 (h2 (x2 ))2
, ..., (hn (x1 n ))2 .
2 2 2
f ′′ (x) = diag( ∂∂xf2 , ∂∂xf2 , ..., ∂x
∂ f
2 ).
1 2 n
En particular:
45
1. Si hi (xi ) = 1 entonces Hxf = f ′′ (x) la matriz Hessiana usual.
Demostración. Hpf (X(p), Y (p)) = X(p)(Y (p)f ) − h∇X(p) Y (p), grad f (p)i, y como
grad f (p) = 0, se sigue el Corolario.
De este corolario, se deduce que si p ∈ M es un punto crı́tico de f entonces la matriz
Hessiana de f , calculada en este punto, coincide con la matriz Hessiana usual.
46
Ejemplo 2.9.1 IRn con la métrica euclidiana G(x) = I, es (geodesicamente) com-
pleta, pues dado un punto cualquiera x ∈ M y una dirección arbitraria v ∈ Tx M ,
vimos que la i-ésima componente de la geodésica que cumple las condiciones iniciales
αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n, es dado por: αi (t) = xi + tvi , para todo
i = 1, 2, ..., n, lo que está definida para todo t ∈ IR.
1
αi (t) = arccot −πcsc2 (πxi )vi t + cot(πxi ) ,
π
47
Teorema 2.9.1 (Hopf-Rinow) Sea M una variedad riemanniana y sea p ∈ M . Las
siguientes afirmaciones son equivalentes:
c) M es geodesicamente completa.
Ejemplo 2.9.4 Sea la variedad riemanniana IRn++ con expresión de la métrica G(x) =
X −2 . Dados p y q en IRn++ , existe una única geodésica uniendo p a q. En efecto, sea
γi (t) = pi exp( vpiit ) y αi (t) = pi exp( wpiit ) las i-ésimas componentes que satisfazen las
condiciones iniciales:
γi (0) = αi (0) = pi ,
γi (t0 ) = αi (t0 ) = qi .
48
1
a). qi = γi (t0 ) = π
arccot (−πcsc2 (πpi )vi t0 + ctg(πpi )) , para todo i = 1, ..., n, en-
tonces
cot(πqi ) − cot(πpi )
vi = − .
πt0 csc2 (πpi )
γi′ (t)
b). sen2 (πγi (t))
= ai = csc2 (πpi )vi . Substituyendo el valor de vi y elevando al
cuadrado tenemos:
!2
γi′ (t) 1
= a2i = {cot(πqi ) − cot(πpi )}2
sen2 (πγi (t)) π 2 t20
Teorema 2.9.2 Ley de cosenos. Sea M una variedad riemanniana completa con
curvatura seccional no negativa, en un triángulo geodésico normalizado tal que γ1 , γ2 ,
γ3 segmento de geodésicas minimizantes. Vale la desigualdad
c2 ≤ a2 + b2 − 2a b cosα (2.16)
donde α = arg(γ1′ (0). − γ3′ (l3 )), a = L(γ1 ), b = L(γ3 ), c = L(γ2 ), L, longitud de
geodésica
49
Capı́tulo 3
Definición 3.0.3 (Mı́nimo: global, local, estricto). Sea M una variedad riema-
nniana completa y f : M −→ IR una función.
50
3. x̄ ∈ M es mı́nimo local estricto si, existe δ > 0 tal que f (x̄) < f (x), para todo
x 6= x̄, x ∈ B(x̄, δ).
min f (x)
(3.1)
x∈M
que significa encontrar los mı́nimos globale de una función f sobre M, y es denominado
“Problema de Minimización”, sujeta generalmente a algunas restricciones sobre su
dominio.
El modelo (3.1) resuelve también el “Problema de Maximización”.
max f (x)
x∈M
51
Por contradicción, supongamos que f no es limitada inferiormente, entonces existe
una sucesión {xk } ⊂ M tal que:
Dado que M es compacto, entonces existe una subsucesión {xkj } ⊂ {xk } tal que:
f ∗ ≥ f (x̄),
52
Demostración. Tomemos v ∈ Tx∗ M y una curva geodésica γ : IR → M con
condiciones γ(0) = x∗ y γ ′ (0) = v. Definamos la aplicación h : IR → IR tal que
h(t) = f (γ(t)). Como x∗ es punto de mı́nimo local para f, entonces existe δ > 0 tal
que
h(0) = f (x∗ ) ≤ f (γ(0)) = h(t),
para todo t ∈ (−δ, δ) lo que implica que en t = 0 tenemos un punto de mı́nimo local
de h. Por la condición necesaria de primer orden en IR se tiene
a) grad f (x∗ ) = 0.
53
Demostración. Por contradicción. Supongamos que x∗ no es punto de mı́nimo local
estricto, entonces existe una subsucesión {xk } ∈ B(x∗ , k1 )/{x∗ } tal que:
Sea la geodésica minimal γk : [0, 1] → IR tal que γk (0) = x∗ , γk (1) = xk , γk′ (0) = vk
y d(x∗ .xk ) =
expx∗ xk
. Definimos h : IR → IR tal que h(t) = (f ◦ γk )(t) y por el
desarrollo de Taylor de segundo orden de h en 0 :
′ 1 2 ′′ 2 θ(|t|2 )
h(t) = h(0) + th (0) + t h (0) + θ(|t| ), donde, lim = 0,
2 t→0 |t|2
esto es,
t2 D
∗
f (γk (t)) = f (x ) + grad f (x∗ )vk , vk + θ(|t|2 ).
2 dt
Evaluando en t = 1
1D E
f (xk ) = f (x∗ ) + vk , Hxf∗ vk + θ(d2 (x∗ , xk )) (3.4)
2
θ(d2 (x∗ , xk )
donde: lim = 0.
d→0 d2 (x∗ , xk )
Definamos z k = kvvkk k , la sucesión {z n } es limitada, entonces existe una subsucesión
{z kj } ⊂ {z k } tal que {z kj } → z̄. Substituyendo en (3.4) k por kj , tenemos:
1D E
f (xkj ) = f (x∗ ) + vkj , Hxf∗ vkj + θ(d2 (x∗ , xkj )) (3.5)
2
θ(d2 (x∗ , xkj )
donde: lim = 0.
d→0 d2 (x∗ , xkj )
De la relación (3.3) y tomando lı́mite en (3.5) cuando j → ∞, obtenemos:
D E
0 ≥ z̄, Hxf∗ z̄ ,
54
diferenciable con métrica induzida de IRn , obteniendo caracterizaciones de primer
y segundo orden. UDRISTE consideró el estudio sobre una variedad riemanniana
abstracta generalizando (independientemente) la teorı́a de convexidad.
A partir de estos trabajos el estudio del análisis convexo con aplicación a la teorı́a de
Optimización se ha profundizado, vease por ejemplo da CRUZ NETO y OLIVEIRA
(1995),[5], FERREIRA y OLIVEIRA (1998), [10] quienes consideran en sus estudios,
una variedad riemanniana completa con curvatura seccional no negativa, bajo esta
misma perspectiva, desarrollamos básicamente el análisis convexo sobre una variedad
riemanniana.
En esta Sección damos algunas nociones de los elementos del análisis convexo y con
esta misma perspectiva definimos funciones convexas y cuasi-convexas en una variedad
riemanniana.
55
Ejemplo 3.3.3 El propio M y los conjuntos unitarios son conjuntos convexos.
es convexa.
56
f ((1 − λ)p + λq) = f (γ(λ)) = f ((1 − λ)(0) + λ(1)) ≤ (1 − λ)f (γ(0)) + λf (γ(1))
≤ (1 − λ)α + λα = α.
luego,
f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i .
57
Teorema 3.3.4 Si f : M −→ IR es convexa, entonces todo punto crı́tico de f es un
punto de mı́nimo global de f.
esto es,
f (γ(b)) − f (x) ≥ b hgrad f (x), γ ′ (0)i .
Como grad f (x) = 0 entonces f (y) ≥ f (x), para todo y ∈ M. Por tanto x es punto
de mı́nimo global de f.
Hpf : Tp M −→ Tp M,
es semidefnida positiva.
y
D E
h′′ (0) = v, Hpf v ≥ 0.
Reciprocamente, si
D E
v, Hpf v ≥ 0,
58
3.3.2 Funciones cuasi-convexas y pseudoconvexas
θ(t)
donde: lim . Entonces tenemos:
t→0 t
59
Teorema 3.3.7 Sea f : M −→ IR una función diferenciable y pseudoconvexa. En-
tonces, x∗ es un mı́nimo global de f si, solamente si, grad f (x∗ ) = 0.
θ(|t|)
donde lim = 0, entonces tenemos:
t→∞ |t|
Como x∗ es mı́nimo global entonces f (x∗ ) ≤ f (y), en particular para y = γ(t) en-
tonces,
f (y) − f (x∗ ) = t hgrad f (x∗ ), γ ′ (0)i + θ(| t|),
luego,
t hgrad f (x∗ ), γ ′ (0)i + θ(| t|) ≥ 0,
60
Capı́tulo 4
x0 ∈ M, (4.2)
xk+1 = xk − tk ∇f (xk ).
61
Txk M
expxk
−grad f (xk )
α(0) = xk
xk+1
M
α(t)
Figura 4. Esquema del proceso iterativo del método de máximo descenso sobre una
variedad M .
Existen diferentes maneras de escoger el parámetro tk generando consecuentemente
diversos submétodos los cuales para su aplicación, dependerá exclusivamente de su
complejidad computacional, reglas que mostramos a seguir.
xk+1 = γ(tk ).
3. Hacer:
tk := 2−ik ,
y α ∈ (0, 21 ).
62
Definición 4.0.6 Una función f : M −→ IR es llamada gradiente Lipschitziana con
constante Γ si para todo p, q ∈ M y γ : [0, a] −→ M la geodésica con γ(0) = p y
γ(a) = q se verifica:
grad f (γ(t)) − Pγ(t) grad f (p)
≤ ΓL(t),
para todo t ∈ [0, a], donde Pγ(t) es el transporte paralelo de γ(0) = p a γ(t).
δ1 Γ + δ2 > 1,
Hipótesis A1.
El conjunto de puntos óptimos globales del problema (p), denotado por X ∗ , es no
vacio.
Denotamos el valor óptimo de (p) por f ∗ . Ahora, definamos el siguiente conjunto
El siguiente Lema es un resultado de gran interés el cual será usado para probar que
la sucesión, generada el método de máximo descenso es cuasi-Fejér convergente a U.
63
Lema 4.0.8 Sea f : M → IR una función continuamente diferenciable y cuasi-
convexa en una variedad riemanniana conexa, completa y de dimensión finita con
curvatura seccional no negativa, entonces
kγ2′ (0)k = 1.
64
En esta Sección probamos la convergencia global de este método para el caso cuasi-
convexo. Estos resultados son una generalización de KIWIEL y MURTY (1996), [14],
para variedades riemannianas y extiende resultados previos de convergencia obtenidos
hasta este momento, para el caso convexo por BURACHIK et al. (1995), [4] y CRUZ
NETO et al. (1999), [6].
El método del máximo descenso con regla de Armijo genera una sucesión de puntos
{xk } dados por (4.2)-(4.3) donde se satisfacen las siguientes hipótesis:
Hipótesis A2.
Sea φ : IR+ −→ IR+ una función tal que:
A2.1 Existe α ∈ (0, 1), τα > 0, tal que ∀t ∈ (0, τα ] : φ(t) ≤ αt,
A2.2 Existe β > 0, τβ ∈ (0, +∞], tal que ∀t ∈ (0, τβ ) ∩ IR: φ(t) ≥ βt2 ,
A2.3 Para todo k, f (xk+1 ) ≤ f (xk ) − φ(tk )||grad f (xk )||2 y 0 < tk ≤ τβ en (4.3),
65
sucesión {xk } generada por el método del gradiente con regla de Armijo generalizada
es cuasi-Fejér convergente a U.
Debido a que {f (xk )} es una sucesión no creciente, ver (4.4), con una subsucesión
que converge para f (x̄), toda la sucesión converge para f (x̄) y ası́
Esto implica que x̄ ∈ U. Ahora, del Teorema 1.2.1, concluimos que {xk } converge
para x̄. Finalmente, probaremos que grad f (x̄) = 0. Por contradicción, supongamos
que grad f (x̄) 6= 0.
Claramente, tenemos que grad f (xk ) → grad f (x̄) 6= 0 y f (xk ) → f (x̄). Ahora, de
(4.4), se cumple que
lim tk = 0. (4.5)
k→+∞
Por otro lado, usando A2.4 y A2.1, tenemos, para k suficientemente grande,
f (expxk (−t̄k grad f (xk ))) − f (xk ) ≥ −αt̄k ||grad f (xk )||2 . (4.6)
66
Además, del teorema del valor medio, para cada k, existe t∗k ∈ [0, t̄k ] tal que
−h grad f (expxk (−t∗k grad f (xk ))), Pγk ,0,t∗k grad f (xk )i ≥ −α||grad f (xk )||2 ,
donde Pγk ,0,t∗k es el transporte paralelo a lo largo de la geodésica γk tal que γk (0) = xk
y γk′ (0) = −grad f (xk ). Ahora, (4.5) y A2.4 implican que limk→+∞ t∗k = 0. Haciendo
k → +∞ en la desigualdad anterior y tomando en cuenta la continuidad de grad f ,
exp y el transporte paralelo, tenemos que 1 ≤ α, lo que contradice A2.1. Por tanto,
grad f (x̄) = 0.
Como consecuencia inmediata del teorema anterior y del Teorema 3.3.7 tenemos el
siguiente resultado.
λ′ ≤ λk ≤ λ′′ ,
donde 0 < λ′ ≤ λ′′ . El método de máximo descenso con una regularización proximal
genera una sucesión {xk } definida por (4.2) y (4.3) donde
tk = arg min{f (expxk (−tgradf (xk ))) + t2 λk ||gradf (xk )||2 : t ≥ 0}. (4.7)
Este método fue introducido por IUSEM y SVAITER (1995), [13], para resolver
problemas de optimización convexa em espacios euclidianos y luego generalizado para
variedades riemannianas en Cruz Neto et al. (1999), [7]. En esta Sección extendemos
los resultados de convergencia global de estos trabajos para el caso cuasi-convexo.
67
Demonstración. De (4.3) y (4.7) :
−1000
−1500
−2000
−2500
−3000
0
−3500
0 50
50 100
100
150 150
68
Figura 5. Gráfico de la función f .
1500
1000
500
−500
0
50 150
100 100
150 50
0
69
Esta función f es claramente no convexa en IR2 con la métrica usual, sin embargo al
hacer uso de la métrica G(p) = diag (1/(pi )2 ) con i = 1, 2., la función en cuestión se
transforma en convexa sobre la variedad IR2++ , dado que su Hessiano es semidefinida
positiva, a saber,
2
0
Hxf =
x1
.
2
0 x2
Su ecuación geodésica es
vi
t
γ(t) = pi exp pi , i = 1, 2
70
Materiales y Métodos
71
Resultados
72
Discusión
El presente trabajo recubre los resultados de convergencia del método del máximo
descenso en variedades riemannianas que fueron obtenidos para el caso convexo por
da CRUZ NETO, LIMA y OLIVEIRA (1999), [6].
Debemos observar que la hipótesis de curvatura no negativa es esencial para
obtener la convergencia global del método a un punto crı́tico para funciones cuasi-
convexas continuamente diferenciables. Ası́, para espacios donde la curvatura es
negativa, como por ejemplo los espacios de Lobachevsky, no sabemos si nuestro algo-
ritmo converge o no (globalmente). Esto nos lleva a formular la siguiente interrogante:
¿Podrá obtenerse la convergencia global del método sin usar hipótesis sobre la cur-
vatura de la variedad riemanniana?
73
Bibliografı́a
[4] BURACHIK, R.S, GRAÑA DRUMOND, L M., IUSEM, A.N., and SVAITER,
B. Full convergence of the steepest descent method with inexact line searches.
Optimization, 1995, Vol. 32, pp. 137-145.
[5] da CRUZ NETO, J.X and OLIVEIRA, P.R. Geodesic methods in riemannian
manifolds. Systems Engineering and Computer Sciences PESC/COPPE, 1995,
Technical Report ES-352/95, pp. 1-20.
[6] da CRUZ NETO, J.X., de LIMA, L.L., OLIVEIRA, P.R. Geodesic algorithms in
riemannian geometry. Balkan Journal of Geometry and its Aplications BJGA,
1998, Vol. 32 n. 2, pp. 89-100.
74
[8] do CARMO, MANFREDO PERDIGAO. Geometria Diferencial de Curvas e Su-
perficies, Rio de Janeiro: Sociedad Brasilera de Matemática, terceira edição,
2005.
[12] HICKS, NOEL. Notes on differential geometry, Michigan: Van Nostrand Rein-
hold Company The University of Michigan-USA, first edition, 1966.
[13] IUSEM, A.N. and SVAITER, B.F. A proximal regularization of the steepest de-
scent method. RAIRO Operations Reseach , 1995, Vol 29 n. 2, pp. 123-130.
[15] LAGES, LIMA ELON. Introducao às variedades diferenciáveis, Rio de Janeiro:
EMMA Porto Alegre, primeira edição, 1960.
75
[19] OLIVEIRA, P.R. and da CRUZ NETO, J. X. Elementos de geometria rie-
manniana. Systems Engineering and Computer Sciences PESC/COPPE, 1995,
Technical Report ES-351/95, pp. 1-20.
[21] RAPCSÁK, TÁMAS. Smooth nonlinear optimization in IRn , New York: Aca-
demic Publishers Kluwer USA, first edition, 1997.
76
Apéndice
1. Dado el punto xk = (xk1 , xk2 , ..., xkn ) ∈ (0, 1)n , k ≥ 0, calcular xk+1 dado por
( !)
1 1 ∂f (xk ) 1 xki
xk+1
i = 1 + tanh − xki (1 − xki ) tk + ln , i = 1, 2, ..., n,
2 2 ∂xi 2 1 − xki
donde tk = 2−ik and ik es el menor número natural tal que:
3. Critério de parada: si ||d(xk , xk+1 )|| < ǫ, parar. Caso contrario, hacer xk ← xk+1
y volver al paso 1.
77
En todo el experimento numérico generamos la función cuasi-convexa f usando la
regla de composición f (x) = h(g(x)) donde g(x) = − log (x1 (1 − x1 )x2 (1 − x2 )) es
una función convexa sobre la variedad ((0, 1)n , X −2 (I − X)−2 ) y h : IR → IR es
elegido como una función no decresciente no convexa. Implementamos nuestro código
en C ++ y todos los tests fueron realizados en una computadora Pentium 866MHz con
Windows XP. Para la implementación usamos el error ǫ = 0.000001 y α = 0.9.
En la tablas presentadas, X0 denota el punto inicial del algoritmo, Iter. denota el
número de iteraciones, Call. Armijo denota el número de tests de Armijo, Opt. Point
denota la aproximación del punto óptimo, Opt. Value denota la aproximación del
valor óptimo y finalmente, Riem. Distance denota la distancia riemanniana entre dos
iteracioness consecutivas. Como veremos en los experimentos numéricos el método se
ve promisorio en las aplicaciones.
Experimento 1.
√
Sea h(t) = t entonces
q
f (x) = − log (x1 (1 − x1 )x2 (1 − x2 )).
Table 4.1:
X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance
78
Experimento 2.
Sea h(t) = log(1 + t), entonces
Table 4.2:
X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance
Experimento 3.
Sea h(t) = arc tg(t), entonces
79
Table 4.3:
X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance
80