Вы находитесь на странице: 1из 84

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA

INSTITUTO DE INVESTIGACIÓN

Un Método no Euclidiano para Problemas de Optimización


en Espacios Euclidianos.

Erik Alex Papa Quiroz


Resolución Rectorial N◦ 1352-2007-R
(01 de noviembre de 2007 al 31 de octubre de 2008)
Índice

Resumen iv

Introducción 1

Marco Teórico 6

1 Preliminares 7
1.1 Sı́mbolos y Notaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Definiciones Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Elementos de Geometrı́a Riemanniana 11


2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Variedades diferenciables . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Aplicaciones diferenciables entre variedades . . . . . . . . . . . . . . . 16
2.4 Espacio tangente a una variedad diferenciable . . . . . . . . . . . . . 18
2.5 Métricas riemannianas en variedades diferenciables . . . . . . . . . . 21
2.6 Campos de vectores, conexiones afines y deriva
da covariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Curvatura de una variedad riemanniana . . . . . . . . . . . . . . . . 38
2.8 Gradiente y Hessiana en una variedad riemanniana . . . . . . . . . . 42
2.9 Variedades completas . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 El Problema de Optimización y sus Condiciones de Optimalidad 50


3.1 Existencia de puntos de mı́nimo global . . . . . . . . . . . . . . . . . 51
3.2 Caracterización de puntos de mı́nimo local . . . . . . . . . . . . . . . 52

ii
3.3 Elementos del análisis convexo . . . . . . . . . . . . . . . . . . . . . . 54
3.3.1 Convexidad en una variedad riemanniana . . . . . . . . . . . . 55
3.3.2 Funciones cuasi-convexas y pseudoconvexas . . . . . . . . . . 59

4 Método del Máximo Descenso 61


4.1 Método con búsqueda de Armijo generalizado . . . . . . . . . . . . . 64
4.2 Método com uma regularización proximal . . . . . . . . . . . . . . . . 67

Materiales y Métodos 71

Resultados 72

Discusión 73

Bibliografı́a 74

Apéndice 77

iii
Resumen

Un Método no Euclidiano para Problemas de Optimización en Espacios


Euclidianos

Erik Alex Papa Quiroz

El Objetivo de la investigación es presentar un método de optimización usando


elementos de geometrı́a riemanniana para resolver problemas de optimización que
mejoren algunas desventajas de los métodos proyectivos.
Esta investigación fue motivada por el alto costo computacional de los métodos
proyectivos para mantener viabilidad en cada iteración en la búsqueda de la solución
de problemas de optimización con restricciones, como también, de la incertidumbre
de la convergencia de los iterados cuando el problema tiene una función que no es
convexa.
La técnica empleada para la recopilación de datos fue la búsqueda de trabajos
relacionados en revistas publicadas, uso de bibliotecas y hemerotecas especializadas
como también viajes a centros de investigación en el extranjero (Brasil, Colombia y
Argentina).
El resultado de la investigación es la introducción de un método no euclidiano
que bajo algunas hipótesis naturales sobre el problema se obtiene la convergencia
de los iterados a un punto crı́tico del problema de optimización y cuando la función
objetivo es convexa se demuestra la convergencia a la solución. Presentamos también
una implementación del método para algunos problemas particulares.
En este sentido, este trabajo puede ser considerado como un aporte significa-
tivo para la matemática computacional en la búsqueda de algoritmos eficientes en
la solución de problemas prácticos que surgen en diversas áreas de las ciencias y la
ingenierı́a.

Palabras Claves:
Método del gradiente, problemas convexos, métricas riemannianas, implementación
computacional.

iv
Introducción

La Optimización es una rama de la Matemática Aplicada que estudia el problema


de maximizar o minimizar una función, llamada función objetivo, sujeta a algunas
restricciones sobre su dominio. La Optimización, como lı́nea de investigación, surgió
a mediados del siglo anterior y en este intervalo de tiempo a demostrado diversas
aplicaciones en diferentes áreas de las Ciencias e Ingenierı́as, donde una elección
óptima de los parámetros y variables conlleva al mejoramiento de las técnicas para
resolver el problema planteado.
El problema de Optimización puede ser expresado, sin perdida de generalidad,
como:
min{f (x) : h(x) = 0},

donde f : IRn → IR en una función de valores reales y f : IRn → IRm es una función
de valores en IRm y x es la variable a determinar.
Una clase de métodos muy conocidos y utilizados para resolver el problema planteado
son los métodos proyectivos, los cuales generan una sucesión de puntos {xk }, dados
por x0 ∈ IRn tal que h(x0 ) = 0 (un punto inicial dado) y

xk = PM (xk + tk dk ),

donde PM es la proyección ortogonal del punto xk + tk dk al conjunto M = {x ∈


IRn : h(x) = 0}, dk es la dirección de desplazamiento y tk es la longitud de paso de
dk . Diferentes elecciones de dk dan origen a diferentes métodos proyectivos de opti-
mización. Por ejemplo, si dk = −∇f (xk ), entonces tendremos el método de gradiente
proyectado, si dk = −(∇2 f (xk ))−1 (∇f (xk )), tendremos el método de Newton proyec-
tado, etc. Propiedades de convergencia global de estos métodos son garantizados bajo

1
algunas condiciones de convexidad sobre la función objetivo f y el conjunto de las
restricciones M.
Una desventaja de los métodos proyectivos es el alto costo computacional en re-
alizar en cada iteración una proyección sobre M. Otra desventaja es cuando la función
objetivo f pierde la propiedad de la convexidad, llevando ası́ a la indeterminación si
la sucesión {xk } converge y si el punto de convergencia es un punto óptimo del prob-
lema. Observemos que en general propiedades de convexidad de la función objetivo
y de las restricciones garantizan la convergencia global de los métodos a un punto
óptimo.
Una alternativa para superar estas desventajas es considerar al conjunto M como
una variedad diferenciable dotada con propiedades geométricas no euclidianas y trans-
formar el problema original en el siguiente problema irrestricto:

min{f (x) : x ∈ M }.

Una de tales geometrı́as es la geometrı́a riemanniana, teorı́a matemática que ha lla-


mado mucho la atención de los investigadores después de su aplicación en la teorı́a
de la relatividad por Albert Einstein.
La alternativa planteada no es nueva, como se puede pensar, esta pertenece al
área de la Optimización Matemática sobre variedades riemannianas el cual surgió
como una extensión natural de la teorı́a y los métodos de optimización en el espacio
euclidiano para espacios más generales. Una de las ventajas de usar herramientas
de geometria riemanniana en optimización es que problemas restrictos pueden ser
vistos como irrestrictos considerando las propiedades intrı́nsecas de la variedad. Otra
ventaja, es que problemas no convexos se pueden transformar en convexos escogiendo
una métrica riemanniana apropiada.
Uno de los precursores de la geometrı́a riemanniana fué Lobachevski quien se
atrevió a darnos la posibilidad de la existencia de una geometrı́a no euclidiana,
ver ALEKSANDROV, KOLMOGOROV y LAURENTIEV (1981),[1], proponiendo
nuevas ideas, relacionando la geometrı́a con la realidad material, el método, el alcance
y sus aplicaciones. A raı́z de estas nuevas ideas, los matemáticos actualmente estu-
dian diversos espacios, además del euclidiano, entre ellos los espacios de Lobachevski,

2
los proyectivos, de infinitas dimensiones, los riemannianos, topológicos entre otros.
El uso de la geometrı́a riemanniana, por Einstein en 1915, en la teorı́a de la
gravitación universal fue uno de los grandes impulsores para que en otras lı́neas de
investigación se utilizen las ideas de la geometria no euclidiana. En los tiempos
actuales en que vivimos, tenemos ya diversas aplicaciones de la geometria riemanniana
en varios campos de la ciencia e ingenierı́a, por ejemplo en estadı́stica, economı́a,
computación, biologı́a y optimización, entre otros.
La relación entre los métodos de Optimización Matemática y la geometria rie-
manniana data por lo menos del año 1972, con el trabajo desarrollado por LUEN-
BERGER (1972), [17], donde usando el método de descenso geodésico obtiene la tasa
de convergencia del método del gradiente proyectado para el problema de min f (x),
sujeto a h(x) = 0, donde f : IRn → IR, h : IRn → IRm , n > m. Esta lı́nea de
investigación tuvo continuidad con GABAY (1982), [11], donde del punto de vista
de esta teorı́a, estudia el método de gradiente reducido, generaliza los métodos de
Cuasi-Newton obteniendo convergencia superlineal. También hace un análisis com-
putacional mostrando que la teorı́a y la práctica interrelacionadas pueden dar buenos
resultados.
El método de máximo descenso, estudiado por Cauchy en l847, es uno de los
métodos más antiguos y conocidos en la literatura para resolver problemas de op-
timización con funciones objetivo continuamente diferenciables. Sin embargo, para
una función arbitraria los resultados de convergencia no son muy fuertes ya que la
convergencia global, como también la existencia de puntos de acumulación no son
garantizados. Solamente podemos asegurar que cualquier punto de acumulación, si
existe, es un punto crı́tico del problema.
La situación es muy diferente cuando la función objetivo es convexa, porque asum-
iendo solamente que el conjunto de soluciones óptimas es no vacı́o, el método de
máximo descenso con búsqueda de ARMIJO (1966), [2], y con una regularización
proximal converge a un punto óptimo. Este método en variedades riemannianas, con-
siderando un problema de optimización con función objetivo arbitraria, fue estudiado
por UDRISTE (1997), [24], SMITH (1994), [23] y RAPCSÁK (1997), [21], obteniendo
los mismos resultados clásicos de convergencia. Para el caso convexo en estas varie-

3
dades con curvatura seccional no negativa, la convergencia global usando la regla de
búsqueda de Armijo, pasos fijos y una regularización proximal, fue generalizada por
da CRUZ NETO, LIMA y OLIVEIRA (1999), [6] y para funciones cuasi-convexas
solamente en espacios euclidianos, por KIWIEL y MURTY (1997), [14]. Esta inves-
tigación, está orientada a extender los resultados de Kiwiel y Murty en variedades
riemannianas completas y con curvatura seccional no negativa.
El objetivo principal de este trabajo consiste en construir un método de opti-
mización usando elementos de geometrı́a riemanniana que supere algunas desventajas
de los métodos proyectivos.
La importancia de esta investigación es que nuestros resultados permitirán resolver
problemas de optimización sin necesidad de realizar proyecciones en cada iteración
reduciendo ası́ el costo computacional de los métodos proyectivos. Otra importan-
cia es que podremos resolver problemas de optimización con funciones objetivos no
convexas que se transformen en convexas mediante la introducción de una métrica
riemanniana apropiada sobre el conjunto de las restricciones, ampliando ası́ el campo
de aplicación de los métodos proyectivos.
Al no existir una metodologı́a efectiva para solucionar el problema planteado se
justifica el desarrollo de este proyecto para una posible incorporación en los planes
curriculares de estudio de las diversas especialidades de la matemática aplicada que
desarrollen métodos de optimización como también de la construcción de nuevos al-
goritmos para resolver problemas más difı́ciles.
El trabajo está organizada por los siguientes capı́tulos:
En el Capı́tulo 1, presentamos los preliminares del trabajo de investigación. Damos
algunos sı́mbolos y notaciones como también las herramientas matemáticas necesarias
para el buen entendimiento del trabajo.
En el Capı́tulo 2, presentamos elementos básicos de la geometrı́a riemanniana
basados en BOOTHBY (1986), [3], do CARMO (2005) (1988), [8], [9], LAGES (1960)
(1973), [15],[16] y su relación con la Optimización OLIVEIRA (1995), [19], damos
ejemplos de las métricas más conocidas y estudiamos una clase particular de métricas
riemannianas diagonales, definidas en el ortante positivo IRn++ y el hipercubo abierto
(0, 1)n , espacios naturales donde se definen los problemas de optimización, obteniendo

4
propiedades geométricas importantes como curvatura cero, ecuaciones secillas para
hallar geodésicas y condiciones suficientes para garantizar que la variedad riemanniana
sea completa.
En el Capı́tulo 3 presentamos el problema de optimización sobre una variedad rie-
manniana y desarrollamos sus condiciones de optimalidad, caracterizamos los puntos
de mı́nimo, luego estudiamos la clase de funciones convexas y cuasi-convexas.
En el Capı́tulo 4, desarrollamos el método de máximo descenso, y analizamos la
convergencia del método para resolver el problema de minimización usando funciones
objetivo cuasi-convexas. Probamos que la sucesión generada por el método, usando
la regla de búsqueda generalizada de Armijo y una regularización proximal, converge
a un punto crı́tico de la función. Presentamos también un Apéndice con algunos
experimentos computacionales. Debemos resaltar que el resultado de esta investi-
gación ha generado el artı́culo de autoria de PAPA QUIROZ, QUISPE CARDENAS
y OLIVEIRA (2008), [20], publicado por la revista Journal of Mathematical Analysis
and Applications (USA).

5
Marco Teórico

6
Capı́tulo 1

Preliminares

En este capı́tulo haremos un resumen de los resultados básicos necesários al desarrollo


de los subsiguientes capı́tulos. Las demostraciones serán, en princı́pio, todas ellas
referenciadas.

1.1 Sı́mbolos y Notaciones


A lo largo de este trabajo, usaremos la siguiente simbologı́a:
(0, 1)n = (0, 1) × (0, 1) × ... × (0, 1).
IRn+ = {x = (x1 , x2 , ..., xn ) ∈ IRn : xi > 0, i = 1, 2, .., n} .
IRn++ = {x = (x1 , x2 , ..., xn ) ∈ IRn : xi ≥ 0, i = 1, 2, .., n} .
Pn
Dados x, y ∈ IRn , (x, y) = i=1 xi yi : producto interno euclideano en IRn .
C p (Ω) = {f : Ω → IR : f es diferenciable de orden p } es el conjunto de funciones
p veces diferenciables en un domı́nio abierto Ω. Si p = ∞, entonces C ∞ (Ω) es el
conjunto de funciones infinitamente diferenciables.
M : variedad diferenciable.
Tp M : es el espacio tangente a M en el punto p.
H : es el conjunto de campos de vectores X ∈ Tp M.
∇ : es la conexión afin del conjunto de campo de vectores H.
X(p) : es un campo vectorial aplicado en el punto p.
grad f (x) : es el gradiente de f en el sentido de la derivada covariante.
H f : es la matriz Hessiana de f .

7
1.2 Definiciones Básicas
Definición 1.2.1 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un
abierto U . Definimos la diferencial de F en el punto q ∈ U como una aplicación

dFq : IRn → IRm ,

definida de la siguiente manera, dFq (v) = β ′ (0) con v ∈ IRn , donde β = F o α para
algún α : (−ε, ε) → U tal que α(0) = q y α′ (0) = v. Ası́:

d
dFq (v) = β ′ (0) = (F oα)(t)|t=0 .
dt

Se puede probar facilmente (ver do CARMO (2005),[8], pp. 127-128) que la diferencial
es una aplicación lineal que no depende de la curva α tal que α(0) = q, además, si:

F (x) = F (x1 , x2 , ..., xn ) = (F1 (x), F2 (x), ..., Fn (x)),

la diferencial en el punto q, en las bases canónicas es:


 
∂F1 ∂F1 ∂F1
 ∂x1
(q) ∂x2
(q) ... ∂xn
(q) 
 
.. .. .. ..
dFq = 

 . . . .

.

 
∂Fm ∂Fm ∂Fm
∂x1
(q) ∂x2
(q) ... ∂xn
(q)

Definición 1.2.2 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un


abierto U . Diremos que p ∈ U es punto crı́tico, si la diferencial de F en el punto p,
dFp : IRn → IRm no es sobreyectiva. La imágem F (p), donde p es punto crı́tico es
llamado valor crı́tico. Un punto de IRm que no es valor crı́tico se llama valor regular
de F , esto es, a ∈ F (U ) es valor regular si dFx es sobreyectiva para todo x ∈ F −1 (a).

Por un resultado de álgebra lineal obtenemos una equivalencia para la sobreyectividad


de la diferencial dFx :
Para todo x ∈ F −1 (a), dFx es sobreyectiva si y solamente si, el rango (dFx ) = m ≤ n.
Ası́: a ∈ F (U ) es valor regular si, y solamente si, el rango (dFx ) = m, para todo
x ∈ F −1 (a).
En particular si m = 1 tal que a ∈ F (U ) es valor regular si, y solamente si, ∇F (x) 6= 0
para todo x ∈ F −1 (a).

8
Definición 1.2.3 Dado un conjunto M, un subconjunto Γ de partes de M, se dice
una topologı́a en M si:

1. ∅ ∈ Γ y Γ ∈ M ;

2. Si A, B ∈ Γ entonces A ∩ B ∈ Γ;
S
3. Si (Ai )i∈l es una famı́lia de elementos de Γ, entonces i∈l Ai ∈ Γ.

El par (M, Γ) se dice espacio topológico y los elementos de Γ son llamados abiertos
del espacio topológico (Γ, M ).

Definición 1.2.4 (Espacios de Hausdorff ). Sea M un espacio topológico, diremos


que M es un espacio de Hausdorff, si para cualquier par de elementos distintos en
M, existen abiertos disjuntos de dichos elementos.

Definición 1.2.5 Sea M un conjunto arbitrário, una métrica es una aplicación d :


M × M → IR tal que para todo x, y, z ∈ M se satisfacen las siguientes condiciones:

d1 : d(x, y) ≥ 0, d(x, y) = 0 si y sólo si x = y;

d2 : d(x, y) = d(y, x);

d3 : d(x, z) ≤ d(x, y) + d(y, z).

El par (M, d) se llama espacio métrico.

Definición 1.2.6 Una sucesión {xm } en un espacio métrico M se llama de Cauchy


cuando para todo ǫ > 0 dado, existe n0 ∈ IN tal que para todo m, n > n0 , se tiene
d(xm , xn ) < ǫ.

Definición 1.2.7 El espacio métrico (M, d) es completo cuando toda sucesión de


Cauchy en M es convergente.

Definición 1.2.8 Sea (X, d) un espacio métrico completo. Una sucesión {y k }, k ≥ 0,


de X es cuasi-Fejér convergente al conjunto U ⊂ X, si para cada u ∈ U existe una
+∞
X
sucesión {ǫk } ⊆ IR tal que ǫk ≥ 0, ǫk < +∞ y
k=0

d2 (y k+1 , u) ≤ d2 (y k , u) + ǫk .

9
Teorema 1.2.1 En un espacio métrico completo (X, d), si {y k } es cuasi-Fejér con-
vergente para un conjunto U ⊆ X, entonces {y k } es limitada. Si además, un punto
de acumulación ȳ de {y k } pertence a U. Entonces {y k } converge y lim y k = ȳ.
k→∞

Demostración. Análogo a BURACHIK (1995), [4].

10
Capı́tulo 2

Elementos de Geometrı́a
Riemanniana

2.1 Introducción
Las nociones de geometrı́a riemanniana fueron introducidas por G. Riemann un
10 de Junio de 1854 a travéz de una disertación titulada: Sobre las hipótesis que
están en los fundamentos de la geometrı́a. En él afirma que toda colección continua
de fenómenos homogéneos puede considerarse como un espacio. Estas ideas dieron
origen a lo que hoy conocemos como geometrı́a riemanniana.
En este capı́tulo presentamos los conceptos principales de estas ideas que usaremos
a lo largo de este trabajo, como son: variedades diferenciables, aplicaciones diferen-
ciables entre variedades diferenciables y los espacios tangentes a estas variedades,
también definiremos métrica riemanniana, geodésica, curvatura, gradiente y Hessiano
de funciones o matriz Hessiana de una función, en una variedad riemanniana. En
lo que concierne a métricas, presentamos una clase de métricas riemannianas diago-
nales, herramientas que nos permiten obtener propiedades interesantes para desarrol-
lar nuevos algoritmos en Optimización, esto es, que sobre una variedad riemanniana
se puede derivar un campo vectorial tangente a lo largo de una curva, a través de
la llamada derivada covariante a lo largo de curvas que depende de la métrica. For-
malizaremos estos resultados en las siguientes secciones.

11
2.2 Variedades diferenciables
Una variedad diferenciable, a groso modo, es un espacio topológico (no necesari-
amente vectorial) semejante localmente al espacio euclidiano IRn cuja relación tiene
el soporte de la diferenciabilidad. En esta sección presentamos estas ideas y daremos
algunos ejemplos de variedades diferenciables relacionadas con problemas de Opti-
mización. Para una demostración rigurosa de los resultados aquı́ presentados, refer-
enciamos a Manfredo do CARMO (1988), [9]; SAKAI (1996), [22]; ELON LAGES
(1960 y 1973), [15] y [16]; BOOTHBY (1986), [3], y HICKS (1966), [12].
En todo este capı́tulo, el término diferenciable de una función o aplicación sig-
nificará que es infinitamente diferenciable.

Definición 2.2.1 (Superficie regular de IRn ). Un subconjunto S ⊂ IRn , es una su-


perficie regular de IRn de dimensión k ≤ n si para cada p ∈ S existe una vecindad V
de p en IRn , un subconjunto abierto U ⊂ IRk y una aplicación biyectiva X : U → S ∩V
tal que:

1. X es diferenciable en U.

2. X es homeomorfismo.

3. Para todo q ∈ U , dXq : IRk → IRn es inyectiva, donde dXq es la diferencial de


X en el punto q.

Vease un gráfico de la definición de superficie regular en IR3 .

X V ∩S
p*
x
V
S
U
z
y

Figura 1. Superficie regular

Para cada p ∈ S, la aplicación X : U → V ∩ S es llamada parametrización de S en


p, o sistema de coordenadas locales en p. V ∩ S es llamada vecindad coordenada
de p.

12
Proposición 2.2.1 Sea U un subconjunto abierto de IRn y F : U −→ IRm una
función diferenciable en U con valor regular a ∈ IRm , entonces F −1 (a) es una super-
ficie regular de dimensión n − m.

Corolario 2.2.1 Sea U un subconjunto abierto de IRn y f : U −→ IR una función


diferenciable tal que (∇f )(x) 6= 0, para todo x ∈ f −1 (a). Entonces S = f −1 (a) es una
superficie regular.

La Proposición 2.2.1 permite mostrar una famı́lia de superfı́cies regulares útiles en el


contexto de la Optimización Matemática.

Ejemplo 2.2.1 Consideremos los problemas de Optimización Lineal:


(P ) min cT x (D) max bT λ
s.a Ax = b s.a AT λ + s = c
x ≥ 0. s ≥ 0.
donde: x,s, c ∈ IRn ; λ, b ∈ IRm y A ∈ IRm×n es de rango m < n. El problema (P )
es llamado primal y (D) el dual de (P ).

a). Restricciones estrictas primales. Si S = {x ∈ IRn++ : Ax = b} es el


conjunto de las restricciones estrictas del problema (P ), definiendo la función
F : IRn++ → IRm , por F (x) = Ax − b se tiene que dFx = A, para todo x ∈ IRn++ .
Por tener la matriz A rango m y aplicando la Proposición 2.2.1 tenemos que
F −1 (0) = S es una superfı́cie regular de dimensión n − m.

b). Restricciones estrictas duales. Si S = {(λ, s) ∈ IRm ×IRn++ : AT λ+s = c} es


el conjunto de las restricciones estrictas del problema (D), definiendo la función
F : IRm × IRn++ −→ IRn , por:
 
λ 
F (λ, s) = AT λ + s − c = [AT I] 
 −c
s

Se tiene dF(λ,s) = [AT I] con rango n, para todo (λ, s) ∈ IRm × IRn++ . Aplicando
la Proposición 2.2.1, F −1 (0) = S es una superfı́cie regular de dimensión m.

13
Ejemplo 2.2.2 Consideremos el problema en Optimización no Lineal:

min f (x)
s.a h(x) = 0
x∈U

donde U es un abierto de IRn , f : IRn → IR y h : IRn −→ IRm son funciones dadas.


Si h es diferenciable y su matriz Jacobiana en el punto x, Jh (x) tiene rango m en-
tonces, el conjunto {x ∈ U : h(x) = 0} es una superficie regular. Como casos
particulares tenemos que los conjuntos {x ∈ IRn : h(x) = 0} y {x ∈ IRn : h(x) =
0 y x > 0} son superficies regulares.

Una propiedad importante de las superficies regulares, es que ella no depende del
cambio de parámetros, es decir, cualquier otra parametrización de la superficie en un
punto p ∈ S sigue manteniendo las propiedades diferenciables. Este resultado nos
servirá para generalizar la definición de superficie regular a variedad diferenciable.

Definición 2.2.2 (Cambio de parámetros). Sean X −→ S y Y −→ S dos parametriza-


ciones de S en el punto p tales que

W = X (U ) ∩ Y(V ) 6= ∅.

La aplicación Y −1 oX : X −1 (W ) −→ Y −1 (W ) es llamada cambio de parámetros.

Proposición 2.2.2 Sea S una superficie regular de IRn de dimensión k. El cambio


de parámetros Y −1 oX : X −1 (W ) −→ Y −1 (W ) es un difeomorfismo.

La noción de variedad diferenciable que definimos a seguir es necesaria para poder


extender los métodos del cálculo diferencial a espacios más generales. Como veremos
posteriormente, una superficie regular será un claro ejemplo de variedad diferenciable.

Definición 2.2.3 (Variedad diferenciable). Una variedad diferenciable de dimensión


n es un conjunto M y una famı́lia de aplicaciones inyectivas Xα : Uα −→ M , α ∈ I
(conjunto de parámetros), definidos en abiertos Uα de IRn en M tales que se cumplen
las siguientes condiciones:

14
[
1. M = Xα (Uα ).
α∈I

2. Para todo par Xα , Xβ con Xα (Uα ) ∩ Xβ (Uβ ) = W 6= ∅, los conjuntos Xα −1 (W )


y Xβ −1 (W ) son abiertos en IRn y las aplicaciones Xβ −1 ◦ Xα : Xα −1 (W ) −→
Xβ −1 (W ) son diferenciables.

El par (Uα , Xα ) con p ∈ Xα (Uα ) es llamado una parametrización. Una famı́lia


{(Uα , Xα )} satisfaciendo los items 1 y 2 es llamada estructura diferenciable de M .
Ası́, la variedad es un conjunto M con una estructura diferenciable.
Una estructura diferenciable en una variedad diferenciable M induce de forma natural
una topologı́a en M definido por:
A ⊂ M es abierto en M si para todo α ∈ I, Xα −1 (A ∩ Xα (Uα )) es abierto en
IRn .
Observemos que la topologı́a es definida de tal modo que los conjuntos Xα (Uα ) son
abiertos y las aplicaciones Xα son continuas.
Debido a la Proposición 2.2.2 podemos enunciar, el siguiente resultado.

Proposición 2.2.3 Toda superficie regular de IRn de dimensión k es una variedad


diferenciable de la misma dimensión.

Proposición 2.2.4 Si M1 y M2 son dos variedades diferenciables de dimension m1


y m2 respectivamente, entonces el producto cartesiano M1 × M2 es una variedad de
dimensión m1 + m2 .

Definición 2.2.4 (Variedad de Hausdorff de base numerable). Una variedad diferen-


ciable M, es llamada variedad de Hausdorff si M, con la topologı́a dada, es un espacio
de Hausdorff.
La variedad diferenciable M tiene base numerable si ella puede ser cubierta por
una cantidad numerable de vecindades coordenadas, esto es, si existe una suceción
[
{Xn (Un )} , n ∈ IN , de vecindades coordenadas tal que: M = Xn (Un ).
n∈N

En todo este capı́tulo asumiremos que la variedad diferenciable M es de Hausdorff y


de base numerable.

15
2.3 Aplicaciones diferenciables entre variedades
Definición 2.3.1 Sea f : U ⊂ M −→ IR, donde U es un subconjunto abierto de la
variedad diferenciable M . Diremos que f es diferenciable en p ∈ U , si para alguna
parametrización Xα : Uα ⊂ IRn −→ M , con p ∈ Xα (Uα ) ⊂ U , la función compuesta
f ◦ Xα : Uα ⊂ IRn −→ IR es diferenciable en Xα−1 (p). Se dice que f es diferenciable
en U si es diferenciable en todo punto de U .
f

U IR
p

M f (p)

−1


f ◦ Xα

Figura 2. f es diferenciable en U.

Una consecuencia inmediata del item 2 de la Definición 2.2.3 es que, la diferenciabili-


dad de una función de valores reales definida sobre una variedad diferenciable M no
depende de la elección de la parametrización. En efecto, sea Xβ : Uβ ⊂ IRn → M ,
otra parametrización tal que, p ∈ Xβ (Uβ ) ⊂ U . Podemos expresar:

f ◦ Xβ = f ◦ Xα ◦ Xα−1 ◦ Xβ : Uβ ⊂ IRn → M.

Como f ◦ Xα es diferenciable por definición y Xα−1 ◦ Xβ es diferenciable por ser cambio


de parámetros, entonces f ◦ Xβ es también diferenciable.

Definición 2.3.2 Una curva sobre una variedad difereciable M es una función γ :
I → M donde I = (−ε, ε). Diremos que γ es diferenciable en t0 ∈ I si para alguna
parametrización Xα : Uα ⊂ IRn → M con γ(t0 ) ∈ Xα (Uα ), la función compuesta
β = Xα−1 ◦γ :I → Uα es diferenciable en t0 , donde γ(I) ⊂ Xα (Uα ). Si γ es diferenciable
en todo t ∈ I, diremos que γ es diferenciable en I.

16
Xα (Uα )

γ(t) γ(t0 ) = pα

M
−1
Xα γ

I
t0 ǫ
Uα ⊂ IRn −ǫ
−1
β= Xα ◦ γ

Figura 3. γ es diferenciable en t ∈ I.

La definición de diferenciabilidad puede ser extendida para aplicaciones entre varie-


dades.

Definición 2.3.3 Sean M1 y M2 variedades diferenciables de dimensión m y n res-


pectivamente. Una aplicación ϕ : M1 → M2 es diferenciable en p ∈ V , si dados:

X1 : U1 ⊂ IRn → M1

parametrización de M1 en p y:

X2 : U2 ⊂ IRm → M2

parametrización de M2 en ϕ(p) con ϕ(X1 (U1 )) ⊂ X2 (U2 ), la aplicación X2−1 ◦ ϕ ◦


X1 : U1 ⊂ IRn → IRm es diferenciable en X1−1 (p). Esta última aplicación es llamada
expresión de ϕ en las parametrizaciones X1 y X2 . ϕ es diferenciable en un abierto de
M1 si es diferencible en todos los puntos del abierto.

Análogamente al caso de funciones de valores reales, se muestra que la definición no


depende de las parametrizaciones elejidas.

Observación 2.3.1 Una consecuencia de la Definición 2.3.3 es que, si X : U → M


es una parametrización de M en el punto p entonces X −1 : X (U ) ⊂ M → IRn es
diferenciable.

Definición 2.3.4 (Difeomorfismo entre variedades diferenciables). Sea ϕ : M1 →


M2 una aplicación diferenciable entre dos variedades diferenciables. Decimos que ϕ

17
es difeomorfismo si ϕ es bijetiva y ϕ−1 es diferenciable. ϕ es difeomorfismo local en
p ∈ M1 , si existen vecindades U de p y V de ϕ(p) tal que ϕ : U → V es difeomorfismo.

Observación 2.3.2 De la observación 2.3.1, concluimos que cualquier parametriza


ción X : U ⊂ IRn → X (U ) ⊂ M, es un difeomorfismo. Por esta razón, muchas veces
para facilitar la notación se identifica X (U ) ≡ U.

2.4 Espacio tangente a una variedad diferenciable


Las consideraciones a seguir motivan la definición que extiende a variedades difer-
enciables la noción de vector tangente. Para superficies de IR3 , un vector tangente en
un punto p de la superficie es definida como el “vector velocidad” en IR3 de una curva
de la superficie pasando por p. Como en variedades diferenciables no disponemos
del soporte de un espacio ambiente, precisamos de una propriedad caracterı́stica del
vector tangente que substituya la noción de velocidad.
Recordemos algunas formalidades en superficies regulares.
Sea ε > 0 suficientemente pequeño y una curva γ : (−ε, ε) → IRn tal que:

γ(t) = (γ1 (t), ..., γn (t)),

con γ(0) = p y γ (0) = (γ1 (0), ..., γn (0)) = v ∈ IRn . Sea además una función f :
′ ′ ′

IRn → IR diferenciable definida en una vecindad de p. Podemos restringir f a la


curva γ y calcular la derivada direccional de f en la dirección de v ∈ IRn :

 ! 
d(f ◦ γ) Xn
∂f dγi 
X n
′ ∂  f.
(t) = (γ(0)) (0) = γi (0)
dt t=0 i=1 ∂γi dt i=1 ∂γi p

Por tanto la derivada direccional en la dirección de v es un operador sobre funciones


diferenciables que depende unicamente de v y esta es la propiedad caracterı́stica que
usaremos para definir un vector tangente en variedades.

Definición 2.4.1 (Vector tangente en un punto de una variedad diferenciable). Sea


M una variedad diferenciable. Consideremos una curva diferenciable

γ : (−ε, ε) → M,

18
donde γ(0) = p y sea Dp = {f : M −→ IR : f es diferenciable en p}. Definimos el
vector tangente a la curva γ en t = 0 como la función γ ′ (0) : Dp → IR dada por:

′ ′ d(f ◦ γ)
γ (0)f ≡ γ (0)(f ) = (t) , f ∈ Dp .
dt t=0

Un vector tangente en p es el vector tangente en t = 0 de alguna curva γ : (−ε, ε) →


M con γ(0) = p.

Si M es una superficie regular de dimensión k ≤ n, esto es M ⊂ IRn , definimos el


vector tangente en el punto p como el vector velocidad en IRn , esto es,

γ ′ (0) = (γ1′ (0), γ2′ (0), ..., γn′ (0)).

Definición 2.4.2 (Espacio tangente a una variedad diferenciable). El espacio tan-


gente a una variedad M en un punto p representado por Tp M , es el conjunto de todos
los vectores tangentes a M en p. Ası́, Tp M = {v ∈ IRm : v es un vector tangente en
p }.

Observación 2.4.1 Si para una parametrización X : U ⊂ IRn → M con p = X (0)


y q ∈ U , podemos restringir la función f ∈ Dp y la curva γ : (−ε, ε) → M en esta
parametrización:
f oX (q) = f (X (q)) = f (q) = f (q1 , ..., qn )

(identificación: f oX ≡ f ).
Podemos escribir también,

X −1 ◦ γ(t) = (q1 (t), ..., qn (t)).

Por definición tenemos:



d(f ◦ γ) d(f ◦ X ◦ X −1 ◦ γ)
γ ′ (0)f = (t) = (t)
dt t=0
dt t=0


d
= (f (q1 (t), q2 (t), ..., qn (t))
dt
t=0
entonces: ! ! !
n n

X ′∂f X ′ ∂
γ (0)f = qi (0). (p) = qi (0). f.
i=1 ∂qi i=1 ∂qi 0

19
Ası́, !
n

X ′ ∂
γ (0) = qi (0). (2.1)
i=1 ∂qi 0
es la expresión del vector tangente a γ en p con relación a la parametrización X .

Observación 2.4.2 Para una curva coordenada en U , βi (xi ) = (0, ..., xi , ..., 0), se
tiene que la composición X ◦ βi = γi es una curva coordenada sobre M y de la

ecuación anterior, γi (0) = ( ∂x∂ i )0 . Se sigue que ( ∂x∂ i )0 es el vector tangente a la curva
coordenada γi (t).

Observación 2.4.3 De la elección de una parametrización obtenemos n “vectores”


( ( ∂x∂ i )p , i = 1, ..., n ) en Tp M que generan, por (2.1), los vectores en Tp M .

Observación 2.4.4 Sea M una variedad diferenciable, el fibrado tangente de M es


definido por:
T M = {(p, v); p ∈ M/ v ∈ Tp M }.

T M puede ser unido de uma estructura diferenciable transformandose ası́ en una


variedad diferenciable (ver do CARMO (1988), [8], pag. 15 para su demostración).

En los siguientes resultados presentamos ejemplos de espacios tangentes.

Proposición 2.4.1 El espacio tangente de una variedad diferenciable que es un sub-


conjunto abierto de IRn es el propio IRn .

Como consecuencia de esta proposición se tiene:

a). Tp IRn = IRn , Tp IRn++ = IRn .

b). Si M = {(λ, s) ∈ IRm × IRn : s > 0}, entonces Tp M = IRm+n .

Proposición 2.4.2 Sea M = F −1 (a) una variedad de dimensión n − m, donde la


aplicación F : U ⊂ IRn → IRm es una función diferenciable, U es abierto y a es un
valor regular de F , entonces: Tp M = Tp (F −1 (a)) = Ker(dFp ).

Ejemplo 2.4.1 Si M = {x ∈ IRn++ : Ax = b}, donde A ∈ IRm×n tiene rango m < n,


entonces:
Tp M = KerA = {∆x ∈ IRn : A∆x = 0}.

20
En efecto, la función que define M es F : IRn++ → IRm tal que F (x) = Ax − b, la
diferencial de F en el punto p ∈ M es dFp = A, luego aplicando la Proposición 2.4.2
obtenemos el resultado.

Ejemplo 2.4.2 Sea h : U ⊂ IRn → IRm una función diferenciable con Jacobiano
Jh (x) = dhx con rango m. Consideremos la variedad M = h−1 (x) = {x ∈ U, h(x) =
0}, entonces:
 
Tp h−1 (0) = Ker(Jh (x)).

Corolario 2.4.1 Sea D ⊂ IRn un conjunto abierto y f : D −→ IR una función


diferenciable tal que ∇f (x) 6= 0, para todo x ∈ f −1 (a) vimos que, M = f −1 (a) es una
variedad diferenciable. Entonces para cada p ∈ M,
 
Tp f −1 (a) = ∇f (p)⊥ .

Proposición 2.4.3 Sean M1 y M2 dos variedades diferenciables de dimensión n y m


respectivamente y sea ϕ : M1 → M2 una aplicación diferenciable. Para cada p ∈ M1
y cada v ∈ Tp M1 , escojamos una curva diferenciable α : (−ǫ, ǫ) → M con α(0) = p,
α′ (0) = v. Definiendo β = ϕ ◦ α, la aplicación:

dϕp : Tp M1 → Tϕ(p) M2 ,

dada por dϕp (v) = β ′ (0) es una aplicación lineal que no depende de la elección de α.
Esta aplicación es llamada la diferencial de ϕ en p.

Proposición 2.4.4 Sea M1 y M2 dos variedades diferenciables. Si ϕ : M1 → M2 es


un difeomorfismo, entonces dϕp : Tp M1 → Tϕ(p) M2 es un isomorfismo.

2.5 Métricas riemannianas en variedades diferen-


ciables
Las métricas en un espacio son muy importantes porque nos permiten medir
distancias, calcular errores, longitudes de curvas, etc. Cuando tenemos una curva

21
parametrizada en IRn , γ(t) = (γ1 (t), γ2 (t), ..., γn (t)) donde t pertenece a algun inter-
valo I de IR, la longitud de arco de la curva generada por γ(t) es medida por:
Z
ℓ(γ) = kv(t)kdt
I

′ ′ ′
donde v(t) = (γ1 (t), γ2 (t), ..., γn (t)) y k, k representa la norma euclideana. Ası́, la
longitud de la curva depende de la norma del vector velocidad definido por la métrica
usual en IRn . Ahora, si nuestro espacio es una variedad diferenciable M y tenemos
definida una curva en ella, entonces la longitud de arco de la curva será obtenida por
la medida realizada en el vector perteneciente al espacio tangente en cada punto.
Necesitamos entonces definir una métrica en el espacio tangente Tp M para cada p ∈
M. Recordemos que además del producto interno clásico:
X
(v, w)p = v i wi ,
i

podemos definir otro producto interno:


X
< v, w >p = gij vi wi = (Gv, w),
i,j

donde G = (gij ) es una matriz simétrica definida positiva. Esta definición aparece de
modo natural al realizar un cambio de coordenadas. En efecto, sean x = (x1 , x2 , ..., xn )
y z = (z1 , z2 , ..., zn ) tal que x(t) = x(z(t)), esto es,

x(t) = (x1 (z1 (t), z2 (t), ..., zn (t)), x2 (z1 (t), z2 (t), ..., zn (t)), ..., xn (z1 (t), z2 (t), ..., zn (t)),

entonces:

n
!
dxi X ∂xi ∂zj
= , para todo i = 1, 2, ..., n.
dt j=1 ∂zj ∂t
dxi dzi
Denotando v x = (v1x , v2x , ..., vnx ) y v z = (v1z , v2z , ..., vnz ), donde vix = dt
y viz = dt
,
tememos: !2
n
x 2 x x
X dxi
k v k = (v , v ) = .
i=1 dt
Como:
!2  2 ! !
n n n n n
dxi X ∂xi X ∂xi z X ∂xi z X X ∂xi ∂xi
= vjz  = vj v = vkz vjz ,
dt j=1 ∂zj j=1 ∂zj k=1 ∂zk k j=1 k=1 ∂zk ∂zj

22
entonces: !
n
n X n
x 2
X X ∂xi ∂xi
kv k = vkz vjz ,
i=1 j=1 k=1 ∂zj ∂zk
conmutando sumandos:
n
n X n
!
X X ∂xi ∂xi
k v x k2 = vkz vjz .
j=1 k=1 i=1 ∂zj ∂zk

Haciendo un cambio k por i e i por k obtenemos:


n n
!
x 2
X X ∂xk ∂xk
kv k = viz vjz .
i,j=1 k=1 ∂zj ∂zi
 n

P ∂xk ∂xk
Definiendo gij = ∂zj ∂zi
se tiene finalmente que:
k=1

n
X
x x x 2
(v , v ) =k v k = gij viz vjz = (Gv z , v z ).
i,j=1

Queda claro que un cambio en el sistema de coordenadas no altera las métricas. En


efecto, si v = G1\2 w tenemos que:

(v, v)p = (G1\2 w, G1\2 w)p = (Gw, w)p = h w, wip .

Métrica riemanniana.

Definición 2.5.1 Sea S una variedad diferenciable. Una métrica riemanniana es


una aplicación que asocia a cada p ∈ M un funcional h , ip

h , ip : Tp M × Tp M −→ IR,

de modo que se cumplen las siguientes condiciones:

1. h , ip es un producto interno (bilineal, simétrica y definida positiva) para cada


p ∈ M.

2. h , ip varia diferenciablemente en el siguiente sentido: Si X : U ⊂ IRn −→ M


es um sistema de coordenadas en torno de p, con X (x1 , x2 , x3 , ...., xn ) = q ∈

X (U ) y ∂xi
(q) = dXq (0, 0, ..., 0, 1, 0, ..., 0, 0), entonces la función: gij : U −→ IR
definida por * +
∂ ∂
gij (x1 , x2 , ..., xn ) = (q), (q) ,
∂xi ∂xj q

es diferenciable.

23
Las funciones gij son llamadas expresiones de la métrica riemanniana en el sistema
coordenado X y la matriz G = (gij ) es la representación de la métrica riemanniana.
Como X es un difeomorfismo (Observación 2.3.2) se tiene que dXq : IRn −→ Tq M es
un isomorfismo (Proposición 2.4.4) y ası́ la matriz G = (gij ) es invertible. Por tanto,
toda métrica riemanniana tiene su matriz de representación invertible.

Definición 2.5.2 (Variedad riemanniana). Una variedad diferenciable para la cual


se define una métrica riemanniana se denomina una variedad riemanniana.

Ejemplo 2.5.1 Sea M = IRn , defina la parametrización X : IRn −→ IRn tal que
X (x1 , x2 , ..., xn ) = (x1 , x2 , ..., xn ).
Definamos la métrica:

h , ip : IRn × IRn −→ IR, definido por h x, yip = xT y.

Sea q ∈ IRn entonces:



(q) = dXq ei = ei ,
∂xi
y ası́, gij : U → IR definidas por:
* +
∂ ∂
gij (x) = (x), (x) = h ei , ej ix = eTi ej = δij ,
∂xi ∂xj x

son diferenciables en IRn .


Luego M = IRn , con la expresión de la métrica G = Id, es una variedad riemanniana,
esto es, el espacio euclidiano es un ejemplo particular de variedad riemanniana.

Ejemplo 2.5.2 Sea M la variedad definida por el siguiente conjunto:

M = {(x1 , x2 ) ∈ IR2 : x2 > 0}.

Usamos la parametrización identidad, además Tp M = IR2 , con p = (p1 , p2 ) ∈ M .


Definimos la aplicación:
h , ip : IR2 × IR2 −→ IR

tal que:
1
h(x1 , x2 ), (y1 , y2 )ip = (x1 y1 + x2 y2 ).
p2

24
Sea q = (q1 , q2 ) ∈ M, entonces


(q) = dXq ei = ei , para todo i = 1, 2.
∂xi

Luego: gij : M −→ IR definidas por:

1 1
gij (x1 , x2 ) = h ei , ej i = δij ,
x2 x2

son diferenciables en M . Por lo tanto, M es una variedad riemanniana con la ex-


presión de la métrica:
1
G(p) = (Id)2×2 .
p2
Esta métrica es conocida como métrica de Lobatchevsky o Poincairé.

Los siguientes dos ejemplos son también variedades riemannianas para las métricas G
según se definen, los cuales se demuestran bajo el mismo procedimiento que los dos
ultimos ejemplos anteriores.

Ejemplo 2.5.3 Si M = IRn++ y el funcional h , ip : Tp IRn++ × Tp IRn++ −→ IR tal que:

hu, vip = uT G(p)v,

donde:
G(p) = diag(1/(hi (pi ))2 ),

entonces:
δij
gij (x) = .
(h2 (xi ))2

Ejemplo 2.5.4 Sea la variedad riemanniana (IR2 , G(x)), con hu, vip = uT G(p)v,
donde:  
4p21 + 1 −2p1 
G(p) = 
 
−2p1 1
es la métrica riemanniana dada por Udriste.

25
2.6 Campos de vectores, conexiones afines y deriva
da covariante
Introducimos los campos de vectores en los espacios tangentes a las variedades rie-
mannianas. En Optimización Matemática ellos representan las direcciones, a partir de
un punto dado, para algún algoritmo iterativo propuesto. Observando la trayectoria
continua del algoritmo, esta tendrá sus caracterı́sticas, como curvatura, que depen-
den obviamente de las caracterı́sticas del campo. Surge ası́ la necesidad de definir
conceptos correspondientes al de derivada de funciones.

Definición 2.6.1 (Campo de vectores en una variedad diferenciable). Un campo de


vectores X en una variedad diferenciable M es una correspondencia que a cada punto
p ∈ M asocia un vector X(p) ∈ Tp M .

Considerando una parametrización X : U ⊂ IRn → M es posible escribir:


n
X ∂
X(p) = ai (p).( )p ,
i=1 ∂xi

donde cada ai : M → IR es una función en M y {( ∂x∂ i )p } es una base asociada a X ,


1 ≤ i ≤ n. Diremos que X es diferenciable si, y solamente si, las funciones ai son
diferenciables para alguna parametrización.
Es útil pensar en campos vectoriales como aplicaciones X : D −→ F definidas por
X ∂f
(Xf )(p) = ai (p). (p),
i ∂xi

donde D es el conjunto de las funciones diferenciables sobre M y F es el conjunto


de las funciones sobre M.
Como estamos interesados en trayectorias en M , consideraremos los campos restritos
a una curva.

Definición 2.6.2 (Campo de vectores a lo largo de curvas). Un campo vectorial V a


lo largo de una curva α : I −→ M es una aplicación que a cada α(t) ∈ M asocia un
vector tangente V (t) ∈ Tα(t) M . Se dise que V es diferenciable si para cada función
diferenciable f en D, la función V (t)f es una función diferenciable en I.
Sea X un campo definido en M , el campo X a lo largo de α será denotado V (t) =

26
X(α(t)) y diremos que V es inducido por X.
d(X oX −1 ◦α)(t) dα
El campo vectorial dX(X −1 ◦α)(t) [(X −1 ◦ α)′ (t)] = dt
denotado por dt
, es
llamado campo velocidad o tangente de α.

Conexiones Afines.
Denotemos T M como el conjunto de espacios tangentes definidos en M.
Sea H = H(M ) = {X : M −→ T M : para cada p ∈ M, X(p) ∈ Tp M, y X ∈ C ∞ } el
conjunto de campo de vectores y D = D(M ) = {f : M −→ IR : f ∈ C ∞ } el conjunto
de funciones reales de clase C ∞ .

Definición 2.6.3 Una conexión afin es una aplicación ∇ : H × H −→ H donde a


cada par de campos (X, Y ) se asocia otro campo ∇X Y tal que para todo X, Y, Z ∈ H,
y f, g ∈ D verifique:

1. ∇(f X+gY ) Z = f ∇X Z + g∇Y Z;

2. ∇X (Y + Z) = ∇X Y + ∇X Z;
n
P (.)
3. ∇X f Y = f ∇X Y + X(f )Y , donde X(f ) = ai (.) ∂f
∂xi
.
i=1

Considerando una curva diferenciable en M α : I −→ M, denotaremos el conjunto de


campo de vectores a lo largo de esta curva como Hα .

Proposición 2.6.1 Sea M una variedad diferenciable con una conexión afin ∇. En-
D
tonces existe una única aplicación dt
, donde a cada V ∈ Hα se asocia otro campo
DV
en Hα , denotado por dt
, tal que para todo V, W ∈ Hα y f : I −→ IR una función
diferenciable en I se cunplen:
D DV DW
a. dt
(V + W) = dt
+ dt
.

D df
b. dt
(f V )= dt
V + f DV
dt
.

DV
c. Si V (t) = Y (α(t)), donde Y ∈ H, entonces dt
= ∇ dα Y.
dt

D
dt
es llamada Derivada Covariante.

Observación 2.6.1 La Proposición 2.6.1 muestra que la elección de una conexión


afin de M da origen a una única derivada covariante para cada campo vectorial a lo
largo de una curva.

27
Observación 2.6.2 Al realizar la demostración de esta Proposición, encontramos
una caracterización de la derivada covariante para una cierta parametrización X , de
acuerdo con:
n n
DV X dv j X dxi
= Xj + vj ∇Xi Xj .
dt j=1 dt i,j=1 dt

Observación 2.6.3 La noción de conexión afin, ofrece una manera de derivar campo

de vectores a lo largo de curvas. Ası́, en particular para el campo vectorial V = dt

tenemos: !
D dα
,
dt dt
que llamaremos aceleración de una curva α en M .

Expresión de la conexión afin relativa a coordenadas locales.


Suponga que los campos de vectores X, Y ∈ H sean representados en una cierta
vecindad local X : U ⊂ Rn −→ M , de algún punto p, por:

n n
X ∂ X ∂
X= xi , Y = yi ,
i=1 ∂xi i=1 ∂xi
donde (∂/∂xi ) representan los vectores de la base del sistema de coordenadas locales.
Por simplicidad de notación expresaremos:


= Xi .
∂xi

Entonces tenemos
n
X n
X
X= xi Xi , Y = yi Xi .
i=1 i=1
Según las propiedades de la definición de la conexión afin:
    
X X X
∇X Y = ∇P xi Xi  yj Xj  = xi ∇Xi  yj Xj 
j i j
   !
X X X X ∂yj
= xi  (yj ∇Xi Xj ) + xi  Xj  .
i j i j ∂xi

Observe que ∇Xi Xj ∈ H, pudiendo por tanto ser también representado atravéz de
una base local, esto es:
n
X
∇Xi Xj = Γkij Xk (2.2)
k=1
que, substituyendo en la ecuación anterior, se obtiene:

28
 
n n n
X X X ∂yk 
∇X Y =  xi yj Γkij + xi Xk .
k=1 i,j=1 i=1 ∂xi

Definición 2.6.4 (Sı́mbolos de Christoffel). Los sı́mbolos de Christoffel, o coefi-


cientes de la conexión afin ∇ en U , son las funciones (diferenciables):

Γkij : U ⊂ M → R

definidas por (2.2).

Expresión de la derivada covariante en términos de coordenadas locales y


de los sı́mbolos de Christoffel.
Sea X : U → M un sistema de coordenadas locales en torno de p ∈ M . Un resultado
obtenido al demostrar la Proposición 2.6.1 es:
n n
DV X dv j X dxi
= Xj + vj ∇Xi Xj ,
dt j=1 dt i,j=1 dt

y usando
n
X
∇Xi Xj = Γkij Xk ,
k=1

tenemos !
n n n
DV X dv j X dxi X
= Xj + vj Γkij Xk ,
dt j=1 dt i,j=1 dt k=1

n n
n X
X dv j X dxi k
= Xj + vj Γ Xk .
j=1 dt k=1 i,j=1 dt ij
Ası́:  
n n
DV X dv k X dxi k 
=  + vj Γ Xk (2.3)
dt k=1 dt i,j=1 dt ij
es la expresión de la derivada covariante en términos de coordenadas locales y de los
sı́mbolos de Christoffel.

Geodésicas y Campos paralelos.


La derivada covariante permite definir el transporte paralelo a lo largo de curvas que
dependen de la métrica, osea, que cambiando la métrica, cambia en general la manera
de derivar campos vectoriales, en particular nos permite conocer geodésicas, curvas

29
cuyo vector tangente es paralelo o derivada covariante nula. Si α : [a, b] → M es una
curva, tal que α(a) = y α(b) = q, el transporte paralelo es Pα(t) : Tp M → Tq M un
isomorfismo lineal tal que Pα(t) (v) = V (b) que es el único transporte paralelo a lo
largo de α.
Con la métrica euclidiana la geodésica es el segmento de recta entre dos puntos p y q
cualquiera que caracteriza la trayectoria de menor longitud que los une.
Si α : [a, b] → IRn es una curva diferenciable pasando por: p = α(a) yq = α(b),
dα d dα
siendo el campo dt
asociado fisicamente a la velocidad, tenemos la aceleración ( )
dt dt

en cada punto α(t) con la propiedad de α ser geodésica dada por


d dα
( ) = 0.
dt dt
La extensión de esta noción a variedades exigirá apenas que la componente tangencial
de la derivada sea nula.

Geodésicas.

Definición 2.6.5 Una curva parametrizada α : I −→ M es una geodésica si el campo



tangente dt
verifica:
D dα
( ) = 0.
dt dt
Campos paralelos.
Dado M una variedad diferenciable, una conexión afin ∇ y un campo V a lo largo
DV
de una curva diferenciable α : I → M , V es denominado campo paralelo si dt
= 0,
para todo t ∈ I.

Ası́, si α es una geodésica, entonces dt
es paralelo.

Ecuaciones geodésicas.
De la expresión (2.3), un campo paralelo V es determinado por las ecuaciones
 
n n
X dv k X dαi k 
 + vj Γ Xk = 0
k=1 dt i,j=1 dt ij

o, equivalentemente,
n
dv k X dαi k
+ vj Γ = 0, k = 1, ..., n.
dt i,j=1 dt ij

30
dαi
Cuando se trata de una geodésica α(t) = (α1 (t), ..., αn (t)), se tiene v i = dt
, entonces
esta última ecuación se transforma en

n
d dαk X dαj dαi k
( )+ Γij = 0, k = 1, ..., n
dt dt i,j=1 dt dt

o
n
d2 αk X dαi dαj
2
+ Γkij = 0, k = 1, ..., n (2.4)
dt i,j=1 dt dt
el cual es un sistema de n ecuaciones diferenciales de 2do. orden, que posee solución
dx
única en algun intervalo I = [a, b], verificando x(0) = α(0) = p y dt
(0) = α′ (0) = v .

Conexión afin en variedades riemannianas.

Definición 2.6.6 Sea M una variedad diferenciable con una conexión afin ∇ y una
métrica riemanniana h , i. Se dice que ∇ es compatible con la métrica h , i si para
todo par de campos de vectores V y W a lo largo de la curva diferenciable α : I −→ M
se tiene:
d DV DW
hV, W i = h , W i + hV, i. (2.5)
dt dt dt

Proposición 2.6.2 Si la conexión afin ∇ es compatible con h , i y V, W son campos


paralelos a lo largo de una curva diferenciable α : I −→ M entonces, hV, W i es
constante.
En particular si α(t) = (α1 (t), ..., αn (t)) es una geodésica, h dα , dα i es constante.
dt dt

Proposición 2.6.3 Sea M una variedad riemanniana. Una conexión afin ∇ es


compatible con el h, i si, y solamente si:

XhY, Zi = h∇X Y, Zi + hY, ∇X Zi, para todo X, Y, Z ∈ H.

Definición 2.6.7 Una conexión afin ∇ en una variedad diferenciable M es llamada


simétrica si:
∇X Y − ∇Y X = [X, Y ],

donde [X, Y ] = XY − Y X.

Observaciones:

31
1. En un sistema de coordenadas (U, X ) la simetrı́a de la conexión afin implica
∂ ∂
que ∇ ∂
∂xj
=∇ ∂
∂xi
.
∂xi ∂xj

En efecto, para todo f ∈ D,

∂2f ∂2f
Xi Xj (f ) − Xj Xi (f ) = − = 0.
∂xi ∂xj ∂xj ∂xi

2. En consecuencia se tiene que:


n
X
∇Xi Xj − ∇Xj Xi = (Γkij − Γkji )Xk = 0.
k=1

Debido a la independencia lineal de {Xk } obtenemos:

Γkij = Γkji .

La reciproca es inmediata.

El teorema a seguir garantiza la existencia y unicidad de una conexión simétrica y


compatible con la métrica en una variedad riemanniana.

Teorema 2.6.1 (Levi-Civita). Dada una variedad riemanniana M , existe una única
conexión afin ∇ en M satisfaciendo las condiciones:

a) ∇ es simétrica.

b) ∇ es compatible con la métrica riemanniana.

(Esta conexión es denominada conexión riemanniana).

Relación entre la métrica riemanniana y los sı́mbolos de Christoffel.


Dado un sistema de coordenadas (U, X ), las funciones conocidas como sı́mbolos de
n
P
Christoffel Γki,j : U → IR definen los coeficientes de conexión ∇Xi Xj = Γkij Xk . Se
k
muestra que
n
1X ∂ ∂ ∂
Γm
ij ={ gjk + gki − gij }g km ,
2 k ∂xi ∂xj ∂xk

32
donde gij = h ∂x∂ i , ∂x∂ j i son elementos de la matriz G(x) y g ij los elementos de su
inversa G−1 (x) respectivamente.
∂ ∂ ∂
En efecto, tomemos ∂xi
= Xi , ∂xj
= Xj y ∂xk
= Xk . Usando el resultado siguiente:

1
hZ, ∇Y Xi = {XhY, Zi+Y hZ, Xi−ZhX, Y i−h[X, Z], Y i−h[Y, Z], Xi−h[X, Y ], Zi}
2
(2.6)
tenemos:

1
hXk , ∇Xj Xi i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i}.
2
n
P
Como ∇Xj Xi = ∇Xi Xj = ∇Xi Xj = Γlij Xl y usando a linealidad del producto
l=1
interno, se tiene:
n
X 1
Γlij hXk , Xl i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i},
l=1 2

y ası́:
n
X 1 ∂ ∂ ∂
Γlij gkl = { gjk + gki − gij }.
l=1 2 ∂xi ∂xj ∂xk
Denotando bk = 12 { ∂x∂ i gjk + ∂x∂ j gki − ∂x∂ k gij }, k = 1, 2, ..., n obtenemos un sistema lineal
Gy = b con y = (Γ1ij , Γ2ij , ..., Γnij ) y b = (b1 , b2 , ..., bn ). Como G(x) es invertible (ver
definición de métrica riemanniana) entonces y = G−1 b. Ası́ tenemos:
n
1X
Γm
ij = g mk bk .
2 k=1

Finalmente sustituyendo el valor de bk en la expresión anterior se tiene:


n
1X ∂ ∂ ∂
Γm
ij = { gjk + gki − gij }g km . (2.7)
2 k=1 ∂xi ∂xj ∂xk

Ejemplo 2.6.1 Sea la variedad riemanniana M = IRn++ , con la métrica dada por
!
1 1 1
G(x) = diag 2
, 2
, ..., ,
(h1 (x1 )) (h2 (x2 )) (hn (xn )2

para funciones hi : IR++ −→ IR++ diferenciables. La inversa de la matriz G(x) es:


 
G−1 (x) = diag (h1 (x1 ))2 , (h2 (x2 ))2 , ..., (hn (xn ))2 .

33
1. Obtención de los sı́mbolos de Christoffel.
Recordemos que la relación de la métrica con los sı́mbolos de Christoffel está
dado por la ecuación (2.7).
Cuando k 6= m tenemos que g mk = 0, ası́ la expresión es reducida a:
( )
1 ∂ ∂ ∂
Γm
ij = gim + gmi − gij g mm .
2 ∂xi ∂xj ∂xm

Consideramos dos casos:

a) Si i = j ( )
1 ∂ ∂ ∂
Γm
ii = gim + gmi − gii g mm .
2 ∂xi ∂xi ∂xm
Para m = i
1 ∂
Γiii = − (hi (xi )) .
hi (xi ) ∂xi
Para m 6= i
Γm
ii = 0.

b) Si i 6= j ( )
1 ∂ ∂
Γm
ij = gim + gmi g mm .
2 ∂xi ∂xj
Para m = i entonces, m 6= j y:

Γiij = 0.

Para m = j entonces, m 6= i y:

Γjij = 0.

Para m 6= i y m 6= j entonces,

Γm
ij = 0.

De ambos casos tenemos:

1 ∂(hi (xi ))
Γm
ij = − δim δij (2.8)
hi (xi ) ∂xi

que es la expresión de los Sı́mbolos de Christoffel en relación a la métrica G(x).


Como aplicaciones tenemos:

34
• Si hi (xi ) = 1, entonces, G(x) = I. Luego: Γm
ij = 0, ∀ i, j, m = 1, ..., n.

1
• Si hi (xi ) = xi entonces, G(x) = X −2 . Luego: Γm
ij = − xi δim δij .
r
r 1
• Si hi (xi ) = xi2 entonces, G(x) = X −r . Luego: Γm
ij = − 2 xi δim δij .
−r r
• Se hi (xi ) = si 2 xi2 , si ∈ IR++ entonces, G(x) = S r X −r . Luego Γm
ij =

− 2r x1i δim δij .

2. Obtención de la derivada covariante.


Vimos que la relación de la derivada covariante con respecto a los sı́mbolos de
Christoffel es dada por la ecuación (2.3). Sustituyendo la expresión (2.8) en
(2.3) obtenemos:
n
!
DV X dv i 1 ∂(hi (xi )) i dxi
= − v Xi .
dt i=1 dt hi (xi ) ∂xi dt
En particular:

• Si hi (xi ) = 1, Γkij = 0, y ası́:


n
DV X dv i
= Xi ,
dt i=1 dt

que es la propia derivada usual.


1
• Si hi (xi ) = xi , Γm
ij = − xi δim δij y

n
!
DV X dv i 1 dxi
= − vi Xi .
dt i=1 dt xi dt
r
r 1
• Si hi (xi ) = xi2 , Γm
ij = − 2 xi δim δij

n
!
DV X dv i r 1 i dxi
= − v Xi .
dt i=1 dt 2 xi dt

3. Determinación de la ecuación geodésica: Sea p = (p1 , p2 , ..., pn ) ∈ IRn++ y v =


(v1 , v2 , ..., vn ) ∈ Tp IRn++ = IRn con

α : I → IRn++ : α(t) = (α1 (t), α2 (t), ..., αn (t)),

dα(0)
donde α(0) = p y dt
= v, I alguún intervalo abierto de IR. Substituyendo los
sı́mbolos de Christoffel (2.8) en la ecuación (2.4) obtenemos:
d2 αi 1 ∂(hi (αi )) dαi 2
− ( ) = 0, ∀i = 1, ..., n (2.9)
dt2 hi (αi ) ∂αi dt

35
αi (0) = pi , i = 1, ..., n
αi′ (0) = vi , i = 1, ..., n.
La ecuación diferencial (2.9) es equivalente a resolver:
dαi
= hi (αi )ai ,
dt
para alguna constante ai , que también es equivalente a resolver la integral:
Z
1
dαi = ai t + bi , i = 1, 2, ..., n
hi (αi )
para algunas constantes ai y bi en IR.
Entonces, la única geodésica α(t) de IRn++ , con métrica G(p), pasando por el
punto α(0) = p, en la dirección α′ (0) = v, es obtenida resolviendo el siguiente
problema:
Z
1
( )dαi = ai t + bi i = 1, ..., n (2.10)
hi (αi )
donde ai y bi son constantes reales tales que:
αi (0) = pi , i = 1, ..., n.
αi′ (0) = vi , i = 1, ..., n.
En particular:

• Si hi (αi ) = 1 tenemos que G(p) = I y considerando las condiciones ini-


ciales de (2.10) encontramos la expresión de la curva geodésica:

αi (t) = vi t + pi i = 1, ..., n.

Esto es, las geodésicas son curvas α : IR −→ IRn++ definidas por:

α(t) = (v1 t + p1 , ..., vn t + pn ).

Observemos que la geodésica α(t) está definida para valores de t tal que
vi t + pi > 0.

• Si h(αi ) = αi entonces, G(x) = X −2 considerando las condiciones iniciales


de (2.10), las curvas geodésicas son funciones exponenciales:
! ! !!
v1 v2 vn
α(t) = p1 exp t , p2 exp t , ..., pn exp t .
p1 p2 pn
Vemos que dados cualquier p ∈ IRn++ y v ∈ IRn , la geodésica α(t) está
definida para todo t ∈ IR.

36
Ejemplo 2.6.2 Consideremos la variedad riemanniana C0n = (0, 1)n con la métrica
dada por: !
1 1 1
G(p) = diag 2
, 2
, ..., ,
(h1 (α1 )) (h2 (α2 )) (hn (αn ))2
para funciones hi : (0, 1) −→ (0, 1) diferenciables. Ası́, la única geodésica α(t) de C0n ,
con métrica G(p), pasando por el punto α(0) = p, en la direción α′ (0) = v ∈ Tp C0n =
IRn , es obtenida resolviendo la siguiente ecuación:
Z
1
( )dαi = ai t + bi i = 1, ..., n,
hi (αi )

donde ai y bi son constantes reales tales que:


αi (0) = pi , i = 1, ..., n.
αi′ (0) = vi , i = 1, ..., n.

• Si hi (αi ) = sen2 (παi ) entonces G(p) = csc4 (πp), con las geodésicas en C0n ,

α(t) = (α1 (t), α2 (t), ..., αn (t)),

considerando las condiciones iniciales de (2.10), son:

1  
αi (t) = arccot −πcsc2 (πpi )vi t + cot(πpi ) para todo, i = 1, 2..., n.
π

Observamos que dados cualquier p ∈ C0n y v ∈ IRn , la geodésica α(t) está


definida para todo t ∈ IR.

• Si hi (αi ) = αi (1 − αi ) se tiene que G(p) = P −2 (I − P )−2 , las geodésicas en C0n ,

α(t) = (α1 (t), α2 (t), ..., αn (t)),

considerando las condiciones iniciales de (2.10), son:


( !)
1 1 vi
αi (t) = 1 + tgh t + arccoth(2pi − 1) para todo, i = 1, 2..., n.
2 2 pi (1 − pi )
ez −e−z
donde tanh(z) = ez +e−z
es la función tangente hiperbólica.
Observamos que dados cualesquiera p ∈ C0n y v ∈ IRn , la geodésica α(t) está
definida para todo t ∈ IR.

37
2.7 Curvatura de una variedad riemanniana
En esta sección, presentamos la definición de curvatura de una variedad riema-
nniana que, intuitivamente, mide cuanto ella se aleja de ser euclidiana. Del punto de
vista de las aplicaciones esta sección muestra esencialmente que las variedades IRn++ y
 
1 1
C0n con la métrica dada por G(x) = diag ,
(h1 (x1 ))2 (h2 (x2 ))2
, ..., (hn (x1 n ))2 para cuaquier
función diferenciable hi : IR++ −→ IR++ y hi : (0, 1)n −→ IR++ respectivamnte, tiene
curvatura cero.

Definición 2.7.1 (Aplicación curvatura). Sea A(H, H) el conjunto de aplicaciones


de H en H y ∇ la conexión afin en una variedad riemanniana M , dada por el teorema
de Levi-Civita.
Una curvatura K de una variedad riemanniana M es una correspondencia

K : H × H −→ A(H, H)

definida por:
K(X, Y )Z = ∇Y ∇X Z − ∇X ∇Y Z + ∇[X,Y ] Z.

Observación 2.7.1 Si la variedad M = IRn , entonces K(X, Y )Z = 0, para todo


X, Y, Z ∈ H. En efecto, basta indicar Z = (z1 , z2 , ..., zn ) las componentes del campo
Z en las coordenadas naturales de IRn y la conexión definida por:

∇X Z = (Xz1 , Xz2 , ..., Xzn ).

Observación 2.7.2 Si consideramos un sistema de coordenadas (U, X ) en torno del


punto p y {Xi } , i = 1, 2, ..., n es una base de Tp M obtenemos:
 
K(Xi , Xj )Xk = ∇Xi ∇Xj − ∇Xj ∇Xi Xk .

Observación 2.7.3 La curvatura K es antisimétrica. En efecto,

K(X, Y )Z + K(Y, X)Z = ∇[X,Y ] Z + ∇[Y,X] Z, para todo Z ∈ H.

Como [X, Y ] = −[Y, X], entonces:

K(X, Y )Z + K(Y, X)Z = 0, para todo Z ∈ H,

y ası́,
K(X, Y ) = −K(Y, X).

38
Proposición 2.7.1 La curvatura K de una variedad riemanniana es trilineal, en el
siguiente sentido:

a. K es bilineal en H × H, esto es,

K(f X1 + gX2 , Y1 ) = f K(X1 , Y1 ) + gK(X2 , Y1 ),

K(X1 , f Y1 + gY2 ) = f K(X1 , Y1 ) + gK(X1 , Y2 ),

donde f, g ∈ D(M ) y X1 ,X2 , Y1 , Y2 ∈ H.

b. Para todo par X, Y ∈ H, el operador curvatura K(X, Y ) : H −→ H es lineal,


esto es,
K(X, Y )(Z + W ) = K(X, Y )Z + K(X, Y )W,

K(X, Y )(f Z) = f K(X, Y )Z,

donde f ∈ D(M ) y Z, W ∈ H.

Proposición 2.7.2 Sea (U, X ) un sistema de coordenadas en torno de p ∈ M y {Xi }


una base de Tp M en este sistema de coordenadas. Entonces:
n
X
l
K(Xi , Xj )Xk = Kijk Xl ,
l=1

l
donde las componentes Kijk son dadas por:
n
X n
X
l
Kijk = Xj Γlik − Xi Γljk + Γsik Γljs − Γsjk Γlis .
s=1 s=1

n
P
Observación 2.7.4 Si en las coordenadas (U, X ) escribimos: X = ui Xi , Y =
i=1
n
P n
P
v j Xj , Z = wk Xk , por la linealidad de K tenemos:
j=1 k=1

n
X
l
K(X, Y )Z = Kijk ui v j wk Xl .
i,j,k,l=1

Ejemplo 2.7.1 Sea M = IRn++ ó M = C0n con estructura de variedad riemanniana


representada por la matriz G(x) = diag( (h1 (x1 1 ))2 , (h2 (x1 2 ))2 , ..., (hn (x1 n ))2 ). Ya vimos que
sus sı́mbolos de Christoffel son:

−1 ∂(hi (xi ))
Γm
ij = δim δij .
hi (xi ) ∂xi

39
n
P n
P n
P
Si en las coordenadas (U, X ) escribimos: X = ui Xi , Y = v j Xj , Z = wk Xk ,
i=1 j=1 k=1
de la tri-linealidad de K tenemos:
n
X
K(X, Y )Z = ui v j wk K(Xi , Xj )Xk .
i,j,k=1

Por definición de curvatura:

K(Xi , Xj )Xk = ∇Xj (∇Xi Xk ) − ∇Xi (∇Xj Xk ) + ∇[Xi ,Xj ] Xk ,

como la conexión es de Levi Civita se tiene [Xi , Xj ] = 0. Ası́,

K(Xi , Xj )Xk = ∇Xj (∇Xi Xk ) − ∇Xi (∇Xj Xk ).

Si i = j, entonces K(Xi , Xj )Xk = 0.


Supongamos que i 6= j, entonces
n
X
∇Xi Xk = Γjik Xj .
j=1

Sustituyendo los sı́mbolos de Christoffel tenemos:


n
!
X 1 ∂(hi (xi )) 1 ∂(hi (xi ))
∇Xi Xk = − δij δik Xj = − δik Xi (2.11)
j=1 hi (xi ) ∂xi hi (xi ) ∂xi

luego tomando ∇Xj se tiene:


!
1 ∂(hi (xi ))
∇Xj (∇Xi Xk ) = ∇Xj − δik Xi ,
hi (xi ) ∂xi
n
P ∂f
por definición de conexión afin ∇X (f Y ) = f ∇X Y +X(f )Y donde X(f ) = ai (.) ∂x i
,
i=1
entonces tenemos:
!
1 ∂(hi (xi )) 1 ∂(hi (xi ))
∇Xj (∇Xi Xk ) = − δik ∇Xj Xi + Xj − δik Xi .
hi (xi ) ∂xi hi (xi ) ∂xi

Usando (2.11) y dado que i 6= j, el primero y segundo término de la suma anterior,


es igual a cero. Por tanto:
∇Xj (∇Xi Xk ) = 0.

Análogamente,
∇Xi (∇Xj Xk ) = 0.

40
De ambos resultados se tiene:

K(Xi , Xj )Xk = 0, ∀ i, j, k = 1, 2, ...n.

Ası́ K(X, Y )Z = 0. Luego las variedades riemannianas IRn++ y C0n con métrica G(x)
tienen curvatura cero. En particular, con las métricas I, X −r , para IRn++ y cosec4 (πx),
X −r (I − X)−r para C0n , son variedades de curvatura cero.

Curvatura Seccional.
Intimamente relacionado con el operador curvatura K está la curvatura seccional (o
riemanniana) que definiremos a seguir.
Sea M una variedad riemanniana y σ un subespacio bidimensional de Tp M . Definimos
la forma cuadrática como Q : σ → IR tal que:

Q(x, y) = hx, xihy, yi − hx, yi2 .


q
Geométricamente Q(x, y) representa el área del paralelogramo definido por x e y.

Proposición 2.7.3 Sea σ ⊂ Tp M un subespacio bidimensional y x, y ∈ σ, dos vec-


tores linealmente independientes. Entonces,

hK(x, y)x, yi
K(x, y) = ,
Q(x, y)

no depende de la elección de los vectores x y y.

Definición 2.7.2 (Curvatura Seccional). Dado un punto p ∈ M y σ ⊂ Tp M. El


número K(x, y) = K(σ), donde {x, y} es una base de σ, es llamado “Curvatura
Seccional de M ”.

Si K(x, y) ≤ 0 para todo x, y ∈ σ entonces, la curvatura seccional de la variedad


riemanniana es no positiva.
Si K(x, y) ≥ 0 para todo x, y ∈ σ entonces, la curvatura seccional de la variedad
riemanniana es no negativa.

41
2.8 Gradiente y Hessiana en una variedad riema-
nniana
Sea M una variedad riemanniana y f : M −→ IR una función diferenciable. Dado
p ∈ M sabemos que la diferencial de f en el punto p es un funcional lineal definido
en Tp M, entonces por el teorema de representación de Riesz existe un único elemento
denotado por ∇M f (p) ∈ Tp M tal que para todo v ∈ Tp M se tiene

dfp (v) = h∇M f (p), vi (2.12)

y
k∇M f (p)k = kdfp k,

esto es, la aplicación diferencial se puede caracterizar por la aplicación de producto


interno. Ası́ podemos definir un campo vectorial grad f : M −→ T M, como

grad f (p) = ∇M f (p).

La expresión (2.12) puede ser escrita como:

dfp (X(p)) = hgrad f (p), X(p)i, para todo X ∈ H,

y ası́ también podemos definir una aplicación df : H −→ M ∗ = L(M, IR), donde


L(M, IR) es el conjunto de funciones en M en IR, tal que:

df (X) = hgrad f, Xi.

d
Además, dfp (X(p)) = dt
(f ◦ γ)|t=0 para alguna curva γ : I −→ M con γ(0) = p y
n
P ∂f
γ ′ (0) = X(p), luego tenemos que dfp (X(p)) = γi′ (0) ∂x i
(p) = X(f )(p), por tanto
i=1

df (X) = hgrad f, Xi = X(f ).

Ası́ llegamos a la siguiente definición.

Definición 2.8.1 El gradiente de una función diferenciable f : M −→ IR es un


campo vectorial grad f : M −→ T M metricamente equivalente a la diferencial, esto
es,
dfp (X(p)) = hgrad f (p), X(p)i = X(p)f, para todo X ∈ H.

42
Observación 2.8.1 Sea M ⊂ IRn una variedad riemanniana con la métrica definida
por hv, wix = v T G(x)w donde G(x) es una matriz simétrica definida positiva. Se
puede caracterizar el campo gradiente como:

grad f (q) = G−1 (q)f ′ (q),

∂f ∂f
donde G−1 (q) = (g ij (q)) es la matriz inversa de G(q) y f ′ = ( ∂x 1
, ..., ∂x n
) es el vector
de derivadas parciales de la función f ◦ X . En efecto,
D E
dfq (v) = f ′ (q)T v = f ′ (q)T (G(q)−1 )T G(q)v = (G(q)−1 f ′ (q))T G(q)v = G(q)−1 f ′ (q), v .
q

Ejemplo 2.8.1 Sea la variedad riemanniana IRn con la métrica euclidiana G = I,


entonces grad f (x) = f ′ (x) (el gradiente usual).

Ejemplo 2.8.2 Sea la variedad riemanniana IRn++ con la expresión de la métrica


!
1 1
G(x) = diag 2
, ..., ,
(h1 (x1 )) (hn (xn ))2
para funciones hi : IR++ −→ IR++

grad f (x) = diag(h1 (x1 ))2 , ..., (hn (xn ))2 )f ′ (x).

En particular:

1. Si hi (xi ) = xi entonces:

grad f (x)f (x) = X 2 f ′ (x),

donde denotamos X = diag(x1 , ..., xn ).


r
2. Si hi (xi ) = xi2 , r 6= 2 entonces:

grad f (x)f (x) = X r f ′ (x).

Ejemplo 2.8.3 Sea la variedad riemanniana C0n = (0, 1)n con la expresión de la
métrica dada por G(x) = csc 4 (πx) = diag(csc 4 (x1 ), ..., csc 4 (xn )), entonces

grad f (x)f (x) = sen 4 (πx)f ′ (x),

donde sen(X) = diag(sen(x1 ), ..., sen(xn )).

43
Definición 2.8.2 Sea M una variedad riemanniana y p ∈ M . Decimos que p es
punto crı́tico si grad f (p) = 0.

Definición 2.8.3 (Hessiana de una función). Sea f : M −→ IR una función de


clase C k , k ≥ 2. La Hessiana de f , denotada por H f , es definida como la derivada
covariante del campo gradiente, esto es,

D
Hf = (grad f ) .
dt

Ası́, la Hessiana en el punto p, en la dirección de v ∈ Tp M es:

D
Hpf (v) = (grad f ) (p) = ∇v grad f (p).
dt

A partir del concepto de Hessiana podemos definir las aplicaciones Hpf : Tp M −→


Tp M y H f : M −→ L(T M, T M ) donde L(T M, T M ) es el conjunto de aplicaciones
lineales de T M en T M y H f (p) = Hpf ∈ L(Tp M, Tp M ).

Proposición 2.8.1 Para cada p ∈ M , el operador Hpf : Tp M −→ Tp M es lineal y


autoadjunto, esto es, hHpf (v), wip = hv, Hpf (w)ip .

De la Proposición anterior, para cada p ∈ M podemos introducir una forma cuadrática


qpf : Tp M × Tp M −→ IR definida por:

qpf (v, w) = hHpf v, wip .

Más generalmente, podemos definir la aplicación q f : H × H −→ L(M, IR) dada por:

q f (X, Y ) = h∇X grad f, Y i. (2.13)

La función definida en (2.13) tiene la desventaja de depender del conocimiento de la


métrica y de la conexión, cuando sabemos que la métrica determina una conexión
afin (Teorema de Levi Civita), por tanto la proposición siguiente es importante para
poder obtener una caracterización adecuada.

Proposición 2.8.2 Para todo X, Y ∈ H

q f (X, Y ) = (XY − ∇X Y )f = (Y X − ∇Y X)f.

44
Observación 2.8.2 En un sistema de coordenadas (X , U ) en terminos de la base
{Xk } tenemos: !
n
X
f
q (Xi , Xj ) = Xi Xj − Γm
ij Xm f,
m=1

esto es: !
n
f ∂2f X ∂f
q (Xi , Xj ) = hHpf Xi , Xj i = − Γm
ij . (2.14)
∂xi ∂xj m=1 ∂xm

Ejemplo 2.8.4 Sea la variedad riemanniana IRn con métrica G(x) = I; como vimos
anteriormente, los sı́mbolos de Christoffel son Γm
ij = 0, para todo i, j, m = 1..., n,

entonces la matriz Hessiana es la Hessiana usual Hpf (p) = f ′′ (p).

δij
Ejemplo 2.8.5 Sea la variedad riemanniana IRn++ con la métrica gij = hi (xi )hj (xj )
.
Sabemos que los sı́mbolos de Christoffel son:

−1 ∂hi (xi )
Γm
ij = δim δij ,
hi (xi ) ∂xi

entonces:
n
f
X 1 ∂hi (xi )
q (Xi Xj ) = Xi Xj + δim δij Xm .
m=1 hi (xi ) ∂xi
Si m 6= j entonces δim δij = 0, luego se tiene:
!
f ∂2 1 ∂hi (xi ) ∂
q (Xi , Xj ) = + δij f.
∂xi ∂xj hi (xi ) ∂xi ∂xi
 
Ası́, Hxf = q f (Xi )(Xj ) es la matriz que representa la Hessiana de la función f .
Aún podemos dar una representación matricial

1 −1
Hxf = f ′′ (x) + G(x) 2 (G(x) 2 )′ F ′ (x),

donde:
 
∂f (x) ∂f (x)
F ′ (x) = diag ∂x1
, ∂x2 , ..., ∂f∂x(x)
n
.

 
1 1
G(x) = diag ,
(h1 (x1 ))2 (h2 (x2 ))2
, ..., (hn (x1 n ))2 .

2 2 2
f ′′ (x) = diag( ∂∂xf2 , ∂∂xf2 , ..., ∂x
∂ f
2 ).
1 2 n

En particular:

45
1. Si hi (xi ) = 1 entonces Hxf = f ′′ (x) la matriz Hessiana usual.

2. Si hi (xi ) = xi entonces Hxf = f ′′ (x) + X −1 F ′ (x).


r
3. Si hi (xi ) = xi2 , r 6= 2, entonces: Hxf = f ′′ (x) + 2r X −1 F ′ (x).

Corolario 2.8.1 Si p ∈ M es un punto crı́tico de f y X, Y ∈ H, entonces:

Hpf (X(p), Y (p)) = X(p)Y (p)f.

Demostración. Hpf (X(p), Y (p)) = X(p)(Y (p)f ) − h∇X(p) Y (p), grad f (p)i, y como
grad f (p) = 0, se sigue el Corolario.
De este corolario, se deduce que si p ∈ M es un punto crı́tico de f entonces la matriz
Hessiana de f , calculada en este punto, coincide con la matriz Hessiana usual.

2.9 Variedades completas


Todos los algoritmos desarrollados en Optimización, en la perspectiva de la ge-
ometrı́a riemanniana, necesitan de la hipótesis de variedad completa, que en términos
simples significa que la geodésica, contenida en ella, está definida para todos los val-
ores de t ∈ IR. El Teorema de Hopf y Rinow de gran importancia y utilidad en las
aplicaciones el cual enunciaremos porteriormente, dice: Dados dos puntos cualquiera
de la variedad completa existe siempre una geodésica que minimiza la longitud de
arco entre todas las curvas regulares por partes que unen tales puntos.
Una pregunta natural serı́a, si se podrı́a desarrollar métodos geodésicos donde la
hipótesis de variedad completa sea más suave, por ejemplo, introduzir una medida
en la variedad a partir del producto interno del espacio tangente donde la geodésica
esté definida en casi todos los puntos y los puntos donde la geodésica no sea definida,
pertenezca a un conjunto de medida nula.
Restringiendonos a las variedades completas, desarrollamos esta teorı́a de manera
resumida.

Definición 2.9.1 Una variedad riemanniana M es llamada (geodésicamente) com-


pleta si para todo p ∈ M , las geodésicas que parten de p estan definidas para todos
los valores del parámetro t ∈ R.

46
Ejemplo 2.9.1 IRn con la métrica euclidiana G(x) = I, es (geodesicamente) com-
pleta, pues dado un punto cualquiera x ∈ M y una dirección arbitraria v ∈ Tx M ,
vimos que la i-ésima componente de la geodésica que cumple las condiciones iniciales
αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n, es dado por: αi (t) = xi + tvi , para todo
i = 1, 2, ..., n, lo que está definida para todo t ∈ IR.

Ejemplo 2.9.2 IRn++ con la métrica G(x) = X −2 es (geodésicamente) completa, pues


dado un punto cualquiera x ∈ M y una dirección cualquiera v ∈ Tx M , vimos que la
i-ésima componente de la geodésica cumpliendo las condiciones iniciales αi (0) = xi
y αi′ (0) = vi , para todo i = 1, ..., n es : αi (t) = xi exp( xvii t) la cual está definido para
todo t ∈ IR.

Ejemplo 2.9.3 C0n = (0, 1)n con la métrica dada por:

G(x) = csc 4 (πx) = diag(csc 4 (πx1 ), ..., csc 4 (πxn ))

es (geodesicamente) completa pues dado un punto arbitrário x ∈ M y una dirección


cualquiera v ∈ Tx M, vimos que la i-ésima componente de la geodésica cumpliendo las
condiciones iniciales αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n es:

1  
αi (t) = arccot −πcsc2 (πxi )vi t + cot(πxi ) ,
π

para todo i = 1, 2..., n.

En adelante consideramos que la variedad riemanniana estudiada tiene la propriedad


de conexidad, esto es, para cualquier par de puntos p, q de M existe una curva difer-
enciable contenida en M , γ : [a, b] :→ M , tal que γ(a) = p y γ(b) = q.

Definición 2.9.2 Dados dos puntos p y q en M , la distancia riemanniana de p a q


en la variedad, denotada por d(x, y), es definida por
Z b
d(p, q) = Inf
γ
kγ ′ (t)kdt (2.15)
a

donde γ : [a, b] → M es una curva diferenciable tal que γ(a) = p y γ(b) = q.

Proposición 2.9.1 Con la distancia geodésica (2.15) M es un espacio métrico.

47
Teorema 2.9.1 (Hopf-Rinow) Sea M una variedad riemanniana y sea p ∈ M . Las
siguientes afirmaciones son equivalentes:

a) Limitados y cerrados son compactos.

b) M es completo como espacios métrico.

c) M es geodesicamente completa.

d) Para todo q ∈ M existe una geodésica uniendo p y q con:


Z b
d(p, q) = Inf γ
kγ ′ (t)kdt,
a

esto es, el mı́nimo de (2.15) es obtenida por una geodésica.

Ejemplo 2.9.4 Sea la variedad riemanniana IRn++ con expresión de la métrica G(x) =
X −2 . Dados p y q en IRn++ , existe una única geodésica uniendo p a q. En efecto, sea
γi (t) = pi exp( vpiit ) y αi (t) = pi exp( wpiit ) las i-ésimas componentes que satisfazen las
condiciones iniciales:
γi (0) = αi (0) = pi ,

γi (t0 ) = αi (t0 ) = qi .

Se puede verificar que vi = wi para todo i = 1, ..., n. En efecto, tomando el valor


t = t0 tenemos que para todo i = 1, ..., n: qi = pi exp( vpi ti0 ) = pi exp( wpiit0 ) dividiendo por
pi , tomando logaritmo y multiplicando por pi /t0 tenemos vi = wi y ası́ γi (t) = αi (t)
para todo t ∈ IR. Además:

a). Debido a que qi = pi exp( pvii ) entonces vi = pi ln( pqii ).


 
γi′ (t) γi′ (t)
b). γi (t)
= vi
pi
entonces γi (t)
= 1
t0
ln2 ( pqii ) ası́:
 " !#2  12
Z Xn 
t0 qi
d(p, q) = kγ ′ (t)kdt = ln .
0  pi 
i=1

Ejemplo 2.9.5 Sea la variedad riemanniana C0n = (0, 1) con la expresión de la


métrica riemanniana G(x) = csc4 (πx). Dados p y q en C0n , existe una única geodésica
que une p y q. Además tenemos:

48
1
a). qi = γi (t0 ) = π
arccot (−πcsc2 (πpi )vi t0 + ctg(πpi )) , para todo i = 1, ..., n, en-
tonces
cot(πqi ) − cot(πpi )
vi = − .
πt0 csc2 (πpi )
γi′ (t)
b). sen2 (πγi (t))
= ai = csc2 (πpi )vi . Substituyendo el valor de vi y elevando al
cuadrado tenemos:
!2
γi′ (t) 1
= a2i = {cot(πqi ) − cot(πpi )}2
sen2 (πγi (t)) π 2 t20

usando estos hechos tenemos:


Z n
( )1
t0
′ 1 X 2
d(p, q) = kγ (t)kdt = [cot(πqi ) − cot(πpi )]2 .
0 π i=1

Teorema 2.9.2 Ley de cosenos. Sea M una variedad riemanniana completa con
curvatura seccional no negativa, en un triángulo geodésico normalizado tal que γ1 , γ2 ,
γ3 segmento de geodésicas minimizantes. Vale la desigualdad

c2 ≤ a2 + b2 − 2a b cosα (2.16)

donde α = arg(γ1′ (0). − γ3′ (l3 )), a = L(γ1 ), b = L(γ3 ), c = L(γ2 ), L, longitud de
geodésica

49
Capı́tulo 3

El Problema de Optimización y sus


Condiciones de Optimalidad

Diversos fenómemos naturales son estudiados a través de modelos matemáticos, en


especial por modelos presentados por un problema de optimización el cual mostraremos
más adelante. En estos modelos, es necesario garantizar inicialmente las condiciones
para la existencia y caracterización de puntos óptimos, para luego desarrollar un al-
goritmo adecuado que resuelva algunos modelos matemáticos de optimización, en tal
sentido, definimos el conjunto sobre el cual estamos trabajando, es decir conoceremos
lo que és una variedad convexa y en ella estudiamos una clase particular de funciones
llamadas convexas y cuasi-convexas.
Para el desarrollo de este Capı́tulo, iniciamos con algunas definiciones elementales,
que serán de gran utilidad al resolver un problema de optimización.

Definición 3.0.3 (Mı́nimo: global, local, estricto). Sea M una variedad riema-
nniana completa y f : M −→ IR una función.

1. x̄ ∈ M es un mı́nimo global de f si, f (x̄) ≤ f (x), para todo x ∈ M.

2. x̄ ∈ M es un mı́nimo local de f si, existe δ > 0 tal que:

f (x̄) ≤ f (x), para todo x ∈ B(x̄, δ),

donde B(x̄, δ) = {x ∈ M, d(x̄, x) < δ} .

50
3. x̄ ∈ M es mı́nimo local estricto si, existe δ > 0 tal que f (x̄) < f (x), para todo
x 6= x̄, x ∈ B(x̄, δ).

El problema de interés será resolver el siguiente modelo:

min f (x)
(3.1)
x∈M
que significa encontrar los mı́nimos globale de una función f sobre M, y es denominado
“Problema de Minimización”, sujeta generalmente a algunas restricciones sobre su
dominio.
El modelo (3.1) resuelve también el “Problema de Maximización”.

max f (x)
x∈M

para ello basta definir f (x) = −g(x).

3.1 Existencia de puntos de mı́nimo global


Definición 3.1.1 Una función f : M −→ IR es denominada semicontinua inferior
en x̄ ∈ M, si para toda sucesión {xk } de M convergente a x̄ se tiene que:

lim inf f (xk ) ≥ f (x̄).


k→∞

Si f es semicontinua inferior para todo x ∈ M, entonces decimos que f es semicon-


tinua inferior en M.

El siguiente Teorema garantiza la existencia de un punto de mı́nimo global para el


problema (3.1).

Teorema 3.1.1 (Weierstrass) Considere el problema (3.1), si f : M −→ IR es semi-


continua inferior y M es compacto, entonces existe un punto de mı́nimo global de
f.

Demostración. Mostraremos inicialmente que f es limitada inferiormente, esto es,


existe α ∈ IR tal que:
α ≤ f (x), para todo x ∈ M.

51
Por contradicción, supongamos que f no es limitada inferiormente, entonces existe
una sucesión {xk } ⊂ M tal que:

lim f (xk ) = −∞. (3.2)


k→+∞

Dado que M es compacto, entonces existe una subsucesión {xkj } ⊂ {xk } tal que:

lim xkj = xb,


j→+∞

por la semicontinuidad inferior de f tenemos:

lim inf f (xkj ) ≥ f (xb),


j→+∞

lo que contradice a (3.2), por lo tanto f es limitada inferiormente en M. De aquı́


existe f ∗ ∈ IR tal que f ∗ = inf {f (x) : x ∈ M }. Por propiedad de ı́nfimo, existe una
sucesión {xk } ⊂ M tal que:
lim f (xk ) = f ∗ .
k→∞

Por la compacidad de M, existe x̄ y {xkj } ⊂ {xk } tal que limj→∞ xkj = x̄ ∈ M.


Nuevamente, por la semicontinuidad inferior de f

lim inf f (xkj ) ≥ f (x̄).


j→∞

Como {f (xk )} converge a f ∗ , la subsucesión {f (xkj )} converge a f ∗ obteniendo que

f ∗ ≥ f (x̄),

ası́, x̄ es un punto de mı́nimo global de f en M .

3.2 Caracterización de puntos de mı́nimo local


Presentamos en esta Sección las condiciones necesarias y suficientes de optimalidad
local para el problema (3.1).

Teorema 3.2.1 (Condición necesaria de primer orden). Sea f : M → IR de clase


C 1 . Si x∗ es un punto de mı́nimo local, entonces grad f (x∗ ) = 0.

52
Demostración. Tomemos v ∈ Tx∗ M y una curva geodésica γ : IR → M con
condiciones γ(0) = x∗ y γ ′ (0) = v. Definamos la aplicación h : IR → IR tal que
h(t) = f (γ(t)). Como x∗ es punto de mı́nimo local para f, entonces existe δ > 0 tal
que
h(0) = f (x∗ ) ≤ f (γ(0)) = h(t),

para todo t ∈ (−δ, δ) lo que implica que en t = 0 tenemos un punto de mı́nimo local
de h. Por la condición necesaria de primer orden en IR se tiene

h′ (0) = hgrad f (x∗ ), vi = 0.

Tomando en particular v = grad f (x∗ ) tenemos que grad f (x∗ ) = 0.

Teorema 3.2.2 (Condición necesaria de segundo orden). Sea f : M → IR de clase


C 2 . Si x∗ es punto de mı́nimo local, entonces hv, Hxf∗ vi ≥ 0, ∀ v ∈ Tx∗ M.

Demostración. Sea v ∈ Tx∗ M, y γ : IR → M una geodésica con γ(0) = x∗ , γ ′ (0) = v.


Definimos h : IR → IR tal que h(t) = f (γ(t)). Del Teorema 3.2.1, en t = 0 tenemos un
punto de mı́nimo local de h, entonces por la condición necesaria de segundo orden:
h′ (0) = 0, luego h′′ (0) ≥ 0.
Veamos:
h′ (t) = hgrad f (γ(t)), γ ′ (t)i
d
h′′ (t) = dt
hgrad f (γ(t)), γ ′ (t)i
D E D E
D D
= dt
(grad f (γ(t))), γ ′ (t) + grad f (γ(t)), dt (γ ′ (t))
D E
f
= Hγ(t) γ ′ (t), γ ′ (t)
D E D E
= v, Hxf∗ v) = Hxf∗ v, v) ≥ 0.

Teorema 3.2.3 (Condición suficiente de segundo orden). Sea f : M −→ IR de clase


C 2 . Si x∗ ∈ M que satisface:

a) grad f (x∗ ) = 0.

b) Hxf∗ definida positiva.

Entonces, x∗ es un punto de mı́nimo local estricto de f.

53
Demostración. Por contradicción. Supongamos que x∗ no es punto de mı́nimo local
estricto, entonces existe una subsucesión {xk } ∈ B(x∗ , k1 )/{x∗ } tal que:

f (x∗ ) ≥ f (xk ). (3.3)

Sea la geodésica minimal γk : [0, 1] → IR tal que γk (0) = x∗ , γk (1) = xk , γk′ (0) = vk

y d(x∗ .xk ) = expx∗ xk . Definimos h : IR → IR tal que h(t) = (f ◦ γk )(t) y por el
desarrollo de Taylor de segundo orden de h en 0 :

′ 1 2 ′′ 2 θ(|t|2 )
h(t) = h(0) + th (0) + t h (0) + θ(|t| ), donde, lim = 0,
2 t→0 |t|2

esto es,
 
t2 D

f (γk (t)) = f (x ) + grad f (x∗ )vk , vk + θ(|t|2 ).
2 dt
Evaluando en t = 1

1D E
f (xk ) = f (x∗ ) + vk , Hxf∗ vk + θ(d2 (x∗ , xk )) (3.4)
2
θ(d2 (x∗ , xk )
donde: lim = 0.
d→0 d2 (x∗ , xk )
Definamos z k = kvvkk k , la sucesión {z n } es limitada, entonces existe una subsucesión
{z kj } ⊂ {z k } tal que {z kj } → z̄. Substituyendo en (3.4) k por kj , tenemos:

1D E
f (xkj ) = f (x∗ ) + vkj , Hxf∗ vkj + θ(d2 (x∗ , xkj )) (3.5)
2
θ(d2 (x∗ , xkj )
donde: lim = 0.
d→0 d2 (x∗ , xkj )
De la relación (3.3) y tomando lı́mite en (3.5) cuando j → ∞, obtenemos:
D E
0 ≥ z̄, Hxf∗ z̄ ,

lo que contradice la hipótesis b) del Teorema 3.2.3. Por tanto, x∗ es un punto de


mı́nimo local estricto.

3.3 Elementos del análisis convexo


La teorı́a del análisis convexo en variedades riemannianas fueron estudiadas por
RAPCSÁK (1997), [21] y UDRISTE (1997), [24]. Rapsáck considera una variedad

54
diferenciable con métrica induzida de IRn , obteniendo caracterizaciones de primer
y segundo orden. UDRISTE consideró el estudio sobre una variedad riemanniana
abstracta generalizando (independientemente) la teorı́a de convexidad.
A partir de estos trabajos el estudio del análisis convexo con aplicación a la teorı́a de
Optimización se ha profundizado, vease por ejemplo da CRUZ NETO y OLIVEIRA
(1995),[5], FERREIRA y OLIVEIRA (1998), [10] quienes consideran en sus estudios,
una variedad riemanniana completa con curvatura seccional no negativa, bajo esta
misma perspectiva, desarrollamos básicamente el análisis convexo sobre una variedad
riemanniana.
En esta Sección damos algunas nociones de los elementos del análisis convexo y con
esta misma perspectiva definimos funciones convexas y cuasi-convexas en una variedad
riemanniana.

3.3.1 Convexidad en una variedad riemanniana

Existen diversos puntos de vista en la geometrı́a riemannianna para generalizar el


concepto de convexidad de IRn , los más importantes son los que presentamos en las
siguientes definiciones.

Definición 3.3.1 Sea M una variedad riemanniana completa, se dice que A ⊂ M


es totalmente convexo, si para cualquier par de puntos p y q de A (no necesariamente
distintos), las geodésicas que unen dichos puntos, estan integramente contenidos en
A.

Ejemplo 3.3.1 Si M = IRn con la métrica identidad G(x) = I, cualquier conjunto


convexo en el sentido clásico es totalmente convexo.

Ejemplo 3.3.2 Si p ∈ M y existe una relación geodésica no trivial en p, es decir una


geodésica: γ : [a, b] −→ M tal que γ(a) = p = γ(b) con γ(t) 6= p para algun t ∈ [0, 1],
entonces el conjunto A = {p} no es totalmente convexo. Se deduce de esto que en
general conjuntos unitarios no son totalmente convexos.

Definición 3.3.2 Decimos que A ⊂ M es convexo si para todo par de puntos p y q


de A existe una geodésica minimal que une p y q contenido en A.

55
Ejemplo 3.3.3 El propio M y los conjuntos unitarios son conjuntos convexos.

Definición 3.3.3 f : M −→ IR es llamada función convexa si su restricción a


cualquier geodésica de M es una función convexa en IR, es decir, si γ : IR −→ M es
una geodésica entonces:
f ◦ γ : IR −→ IR

es convexa.

Teorema 3.3.1 f : M −→ R es convexa si, y solamente si, para todo segmento de


geodésica γ : [a, b] −→ M y para cualquier λ ∈ [0, 1] se verifica

f (γ((1 − λ)a + λb)) ≤ (1 − λ)f (γ(a)) + λf (γ(b)).

Demostración. Siendo f convexa, demostraremos que:

f (γ((1 − λ)a + λb)) ≤ (1 − λ)f (γ(a)) + λf (γ(b)) (3.6)

Sea h : IR −→ IR tal que h(t) = f (γ(t)). Para a, b ∈ [a, b] y λ ∈ [0, 1] se tiene

h((1 − λ)a + λb) ≤ (1 − λ)h(a) + λh(b).

De aquı́ se tiene (3.6).


Reciprocamente, sea t = (1 − λ)a + λb con λ ∈ [0, 1] entonces:

f ◦ γ(t) = f (γ((1 − λ)a + λb))

≤ f (γ((1 − λ)a) + f (γ(λb)


= (1 − λ)f (γ(a)) + λf (γ(b))
≤ (1 − λ)f ◦ γ(a) + λf ◦ γ(b).

Observación 3.3.1 La Definición 3.3.3 es la generalización natural de la definición


clásica de función convexa em M = IRn con la métrica usual. En efecto, dados p y q
la geodésica γ : [0, 1] −→ M, que los une es:

γ(λ) = p + λ(q − p) = (1 − λ)p + λq.

Luego, del Teorema 3.3.1 tenemos:

f (γ(λ)) = f ((1 − λ)p + λq) ≤ (1 − λ)f (p) + λf (q)

56
f ((1 − λ)p + λq) = f (γ(λ)) = f ((1 − λ)(0) + λ(1)) ≤ (1 − λ)f (γ(0)) + λf (γ(1))

= (1 − λ)f (p) + λf (p).

Para α ∈ IR, definimos el conjunto de nivel M α = {x ∈ M ; f (x) ≤ α}.

Teorema 3.3.2 Si f : M −→ IR es convexa, entonces M α es totalmente convexo.

Demostración. Sea p, q ∈ M α y la geodésica γ : [a, b] −→ M tal que γ(a) = p y


γ(b) = q.
Probaremos que γ(t) ∈ M α , para todo t ∈ [a, b].
En efecto, sea t = (1 − λ)a + λb para algun λ ∈ [0, 1], como f es convexa y por el
Teorema 3.3.1 se tiene

f (γ(t)) = f (γ(1 − λ)a + λb) ≤ (1 − λ)f (γ(a)) + λf (γ(b))

= (1 − λ)f (p) + λf (q)

≤ (1 − λ)α + λα = α.

Ası́ f (γ(t)) ≤ α, por tanto γ(t) ∈ M α .

Teorema 3.3.3 f : M −→ IR, es convexa en p si y solo si, para cualquier geodésica


γ : IR −→ M con γ(0) = p vale la desigualdad

f (γ(t)) − f (p) ≥ t hgrad f (p), γ ′ (0)i . (3.7)

Demostración. Definimos una aplicación h : IR −→ IR tal que h(t) = f (γ(t)), h es


convexa en 0 desde que f es convexa en p y ası́ se tiene:

h(t) − h(0) ≥ th′ (0),

luego,
f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i .

Reciprocamente, si f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i , esto es,

h(t) − h(0) ≥ th′ (0),

entonces h es convexa en 0 y por tanto f es convexa en p.

57
Teorema 3.3.4 Si f : M −→ IR es convexa, entonces todo punto crı́tico de f es un
punto de mı́nimo global de f.

Demostración. Sea x ∈ M, debido al Teorema de Hopf-Rinow consideramos una


geodésica γ : IR −→ M tal que γ(0) = x y γ(b) = y, como f es convexa y del Teorema
3.3.3:
f (γ(b)) − f (γ(0)) ≥ b hgrad f (γ(0)), γ ′ (0)i ,

esto es,
f (γ(b)) − f (x) ≥ b hgrad f (x), γ ′ (0)i .

Como grad f (x) = 0 entonces f (y) ≥ f (x), para todo y ∈ M. Por tanto x es punto
de mı́nimo global de f.

Teorema 3.3.5 Sea f : M −→ IR de clase C 2 , f es convexa si, y solamente si, para


todo p ∈ M la Hesiana de f en p

Hpf : Tp M −→ Tp M,

es semidefnida positiva.

Demostración. Sea v ∈ Tp M y p ∈ M y la geodésica γ : IR −→ M tal que γ(0) = p


y γ ′ (0) = v.
Definiendo h : IR −→ IR tal que h(t) = f (γ(t)) sabemos que h es convexa y de clase
C 2 . Del análisis convexo clásico, tenemos que esto es equivalente a h′′ (t) ≥ 0, se tiene

h′ (t) = hgrad f (γ(t)), γ ′ (t)i

y
D E
h′′ (0) = v, Hpf v ≥ 0.

Reciprocamente, si
D E
v, Hpf v ≥ 0,

entonces f es convexo. En efecto, definiendo h : IR −→ IR convexa, entonces se tiene


h = f ◦ γ es convexa.

58
3.3.2 Funciones cuasi-convexas y pseudoconvexas

Definición 3.3.4 Sea M una variedad riemanniana completa y f : M −→ IR una


función real. f es llamada cuasi-convexa en M si para todo x, y ∈ M , t ∈ [0, 1], se
cumple:
f (γ(t)) ≤ max{f (x), f (y)},

para toda curva geodésica γ : [0, 1] −→ M , tal que γ(0) = x y γ(1) = y.

Teorema 3.3.6 Sea f : M → IR una función diferenciable y cuasi-convexa en una


variedad riemanniana completa M y sea x, y ∈ M . Si f (x) ≤ f (y) entonces:

hgrad f (y), γ ′ (0)i ≤ 0,

donde grad f es el gradiente de f y γ es la curva geodésica tal que γ(0) = y y γ(1) = x.

Demostración. Sea la geodésica γ : [0, 1] −→ M tal que γ(0) = y y γ(1) = x.


Definimos h : IR −→ IR tal que h(t) = f ◦ γ(t), usando la aproximación de Taylor de
primer orden de h en t = 0 tenemos:

h(t) = h(0) + th′ (0) + θ(t),

θ(t)
donde: lim . Entonces tenemos:
t→0 t

f (γ(t)) = f (γ(0)) + t hgrad f (γ(0)), γ ′ (0)i + θ(| t|),

como f es cuasi-convexa y f (x) ≤ f (y) tenemos:

t hgrad f (y), γ ′ (0)i ,

dividiendo por t y tomando lı́mite cuando t → 0 se tiene hgrad f (y), γ ′ (0)i ≤ 0.

Definición 3.3.5 Una función diferenciable f : M → IR es pseudoconvexa si, para


todo par de puntos distintos x, y ∈ M y toda curva geodésica que une x a y (γ(0) = x
y γ(1) = y) tenemos:

hgrad f (x), γ ′ (0)i ≥ 0, entonces f (y) ≥ f (x).

59
Teorema 3.3.7 Sea f : M −→ IR una función diferenciable y pseudoconvexa. En-
tonces, x∗ es un mı́nimo global de f si, solamente si, grad f (x∗ ) = 0.

Demostración. Sea la geodésica γ : IR+ → M tal que γ(0) = x∗ y definimos


h : IR → IR con h = f ◦ γ. Por el desarrollo de Taylor de primer orden de h en 0,

h(t) = h(0) + th′ (0) + θ(| t|),

θ(|t|)
donde lim = 0, entonces tenemos:
t→∞ |t|

f (γ(t)) = f (x∗ ) + t hgrad f (x∗ ), γ ′ (0)i + θ(| t|).

Como x∗ es mı́nimo global entonces f (x∗ ) ≤ f (y), en particular para y = γ(t) en-
tonces,
f (y) − f (x∗ ) = t hgrad f (x∗ ), γ ′ (0)i + θ(| t|),

luego,
t hgrad f (x∗ ), γ ′ (0)i + θ(| t|) ≥ 0,

que en el lı́mite cuando t → 0, hgrad f (x∗ ), γ ′ (0)i ≥ 0, finalmente tomando

γ ′ (0) = −grad f (x∗ ),

se tiene grad f (x∗ ) = 0. El recı́proco es inmediato basta usar la definición de f ser


pseudoconvexa.

60
Capı́tulo 4

Método del Máximo Descenso

En este último capı́tulo estudiaremos el método de máximo descenso llamado


también método del gradiente, buscaremos extender la convergencia global del método
utilizando la regla de Armijo generalizado. Para este fin vamos a considerar el prob-
lema de Optimización no lineal
min f (x) (4.1)
x∈M

donde, f : IRn → IR es una función de clase C 1 y M una variedad riemanniana


completa.
El método del máximo descenso genera una sucesión de puntos {xk } dados por:

x0 ∈ M, (4.2)

xk+1 = expxk (−tk grad f (xk )) (4.3)

donde expxk es una aplicación exponencial en el punto xk , tk es un parámetro positivo,


−grad f (x) es el gradiente de f . En el caso de tener M = IRn (el espacio euclidiano)
tenemos que (4.3) es equivalente a:

xk+1 = xk − tk ∇f (xk ).

Ası́, el método de máximo descenso en variedades riemannianas generaliza el método


clásico de máximo descenso en IRn , véase idealmente sobre una superficie de IR3 un
esquema del funcionamiento iterativo del método del gradiente generalizado:

61
Txk M

expxk

−grad f (xk )
α(0) = xk

xk+1
M
α(t)

Figura 4. Esquema del proceso iterativo del método de máximo descenso sobre una
variedad M .
Existen diferentes maneras de escoger el parámetro tk generando consecuentemente
diversos submétodos los cuales para su aplicación, dependerá exclusivamente de su
complejidad computacional, reglas que mostramos a seguir.

Método A: Gradiente con búsqueda exacta

1. Dado xk , calcule el grad f (xk ) sobre el plano tangente Txk M.

2. Determine la geodésica γ(t), t ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) =


−grad f (xk ).

3. Minimize f (γ(t)), t ≥ 0, obteniendo tk y defina:

xk+1 = γ(tk ).

Método B: Gradiente con Regla de Armijo

1. Dado xk , calcule el grad f (xk ) en Txk M.

2. Determine la geodésica γ(t), t ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) =


−grad f (xk ).

3. Hacer:
tk := 2−ik ,

donde ik es el menor entero positivo tal que:


2

f (γ(tk )) ≤ f (xk ) − αtk grad f (xk )

y α ∈ (0, 21 ).

62
Definición 4.0.6 Una función f : M −→ IR es llamada gradiente Lipschitziana con
constante Γ si para todo p, q ∈ M y γ : [0, a] −→ M la geodésica con γ(0) = p y
γ(a) = q se verifica:


grad f (γ(t)) − Pγ(t) grad f (p) ≤ ΓL(t),

para todo t ∈ [0, a], donde Pγ(t) es el transporte paralelo de γ(0) = p a γ(t).

Método C: Gradiente con Pasos fijos

1. Dado xk calcule el grad f (xk ) en Txk M.

2. Determine la geodésica γ(tk ), tk ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) =


−grad f (xk )

3. Dados δ1 > 0 y δ2 > 0 tales que,

δ1 Γ + δ2 > 1,

donde Γ es la constante de Lipschitz asociada al campo gradiente de f, escoger


2
tk ∈ (δ1 , (1 − δ2 )).
Γ

Estamos interesados en resolver el siguiente problema de optimización:

(p) min f (x)


x∈M

donde M es una variedad riemanniana conexa, completa de dimensión finita y f :


M → IR es una función continuamente diferenciable y cuasi-convexa.

Hipótesis A1.
El conjunto de puntos óptimos globales del problema (p), denotado por X ∗ , es no
vacio.
Denotamos el valor óptimo de (p) por f ∗ . Ahora, definamos el siguiente conjunto

U := {x ∈ M : f (x) ≤ inf f (xk )}.


k

El siguiente Lema es un resultado de gran interés el cual será usado para probar que
la sucesión, generada el método de máximo descenso es cuasi-Fejér convergente a U.

63
Lema 4.0.8 Sea f : M → IR una función continuamente diferenciable y cuasi-
convexa en una variedad riemanniana conexa, completa y de dimensión finita con
curvatura seccional no negativa, entonces

d2 (xk+1 , x) ≤ d2 (xk , x) + t2k ||grad f (xk )||2 ,

para todo x ∈ U y todo tk > 0.

Demostración. Sea x ∈ U arbitrário. Sea también γ1 : [0, l1 ] → M la geodésica


minimal que une xk y x con γ(0) = xk , kγ ′ (0)k = 1 y γ2 : [0, 1] → M una geodésica
que une xk y xk+1 , esto es γ2 (0) = xk , γ2 (1) = xk+1 con γ2′ (0) = −tk grad f (xk ). Por
propiedad de homogeneidad de las geodésicas, γ2 es reparametrizada tal que:

γ2 : [0, tk ||grad f (xk )||] → M,

tal que γ2 (tk ||grad f (xk )||) = xk+1 y ahora tenemos

kγ2′ (0)k = 1.

Del Teorema 2.9.2 tenemos:


D E
d2 (xk+1 , x) ≤ d2 (xk , x) + t2k ||grad f (xk )||2 + 2tk d(xk , x) grad f (xk ), γ1′ (0) .

Como f es cuasi-convexa y f (x) ≤ f (xk ), del Teorema 3.3.6 obtenemos que:


D E
grad f (xk ), γ1′ (0) ≤ 0.

Usando este resultado en la desigualdad anterior obtenemos el resultado deseado.

4.1 Método con búsqueda de Armijo generalizado


LARRY ARMIJO (1966),[2], publicó su trabajo: “Minimization of functions hav-
ing lipschitz continuous firts partial derivatives”, en el que demuestra la convergencia
del método del gradiente, a partir de entonces sus resultados son utilizados conve-
nientemente en la búsqueda de mejoras o extensiones teóricas computacionales. Para
nuestro objetivo, desarrollamos el método del gradiente sobre variedades riemannia-
nas utilizando la regla de Armijo generalizado.

64
En esta Sección probamos la convergencia global de este método para el caso cuasi-
convexo. Estos resultados son una generalización de KIWIEL y MURTY (1996), [14],
para variedades riemannianas y extiende resultados previos de convergencia obtenidos
hasta este momento, para el caso convexo por BURACHIK et al. (1995), [4] y CRUZ
NETO et al. (1999), [6].
El método del máximo descenso con regla de Armijo genera una sucesión de puntos
{xk } dados por (4.2)-(4.3) donde se satisfacen las siguientes hipótesis:

Hipótesis A2.
Sea φ : IR+ −→ IR+ una función tal que:

A2.1 Existe α ∈ (0, 1), τα > 0, tal que ∀t ∈ (0, τα ] : φ(t) ≤ αt,

A2.2 Existe β > 0, τβ ∈ (0, +∞], tal que ∀t ∈ (0, τβ ) ∩ IR: φ(t) ≥ βt2 ,

A2.3 Para todo k, f (xk+1 ) ≤ f (xk ) − φ(tk )||grad f (xk )||2 y 0 < tk ≤ τβ en (4.3),

A2.4 Existe γ > 1, τγ > 0, tal que ∀k : tk ≥ τγ o


h i
existe t̄k ∈ [tk , γtk ] : f (expxk (−t̄k grad f (xk ))) ≥ f (xk ) − φ(t̄k )||grad f (xk )||2 .

Observación 4.1.1 Observemos que la hipótesis A2 es satisfecha por la regla de


Armijo para estos valores: φ(t) = αt, β = α, γ = 2 y τα = τβ = τγ = 1.

Observación 4.1.2 La hipótesis A2 tambiém es satisfecha por el método del gradi-


ente con pasos fijos introduzida en BURACHIK et al. (1995), [4], y generalizada
para variedades riemannianas por CRUZ NETO,LIMA y OLIVEIRA, [6]. En efecto,
en las referencias mencionadas la regla para obtener tk es la siguiente:
Dados δ1 y δ2 tal que δ1 Γ + δ2 < 1, donde Γ es la constante de Lipschitz asociada al
grad f, escoger
 
2
tk ∈ δ1 , (1 − δ2 ) .
Γ
Γδ2
Definiendo φ(t) = βt2 , con β = 2(1−δ2 )
, τγ = δ1 , τβ = (2/Γ)(1 − δ2 ), α ∈ (0, 1)
arbitrario y τα = α/β, garantizamos la hipótesis A2.

Proposición 4.1.1 Sea f : M → IR una función continuamente diferenciable y


cuasi-convexa. Suponga que las hipótesis A1 y A2 son satisfechas. Entonces la

65
sucesión {xk } generada por el método del gradiente con regla de Armijo generalizada
es cuasi-Fejér convergente a U.

Demostración. De las hipótesis A2.2 y A2.3 tenemos

βt2k ||grad f (xk )||2 ≤ f (xk ) − f (xk+1 ). (4.4)

Esto implica que


+∞
X f (x0 ) − f ∗
t2k ||grad f (xk )||2 ≤ < +∞.
k=0 β
Del Lema 4.0.8 y la Definición 1.2.8 tenemos el resultado.

Teorema 4.1.1 Sea f : M → IR una función continuamente diferenciable y cuasi-


convexa. Suponga que las hipótesis A1 y A2 son satisfechas. Entonces la sucesión
{xk } generada por el método del gradiente con regla de Armijo generalizado converge.
Además, converge para un punto estacionário (un punto x̄ tal que grad f (x̄) = 0).

Demostración. De la Proposición 4.1.1, {xk } es cuasi-Fejér convergente en U, por


tanto {xk } es limitado por el Teorema 1.2.1. Entonces existen x̄ y una subsucesión
{xkj } de {xk } que converge para x̄. De la continuidad de f obtenemos:

lim f (xkj ) = f (x̄).


j→+∞

Debido a que {f (xk )} es una sucesión no creciente, ver (4.4), con una subsucesión
que converge para f (x̄), toda la sucesión converge para f (x̄) y ası́

f (x̄) ≤ f (xk ), para todo k ∈ IN .

Esto implica que x̄ ∈ U. Ahora, del Teorema 1.2.1, concluimos que {xk } converge
para x̄. Finalmente, probaremos que grad f (x̄) = 0. Por contradicción, supongamos
que grad f (x̄) 6= 0.
Claramente, tenemos que grad f (xk ) → grad f (x̄) 6= 0 y f (xk ) → f (x̄). Ahora, de
(4.4), se cumple que
lim tk = 0. (4.5)
k→+∞

Por otro lado, usando A2.4 y A2.1, tenemos, para k suficientemente grande,

f (expxk (−t̄k grad f (xk ))) − f (xk ) ≥ −αt̄k ||grad f (xk )||2 . (4.6)

66
Además, del teorema del valor medio, para cada k, existe t∗k ∈ [0, t̄k ] tal que

−h grad f (expxk (−t∗k grad f (xk ))), Pγk ,0,t∗k grad f (xk )i ≥ −α||grad f (xk )||2 ,

donde Pγk ,0,t∗k es el transporte paralelo a lo largo de la geodésica γk tal que γk (0) = xk
y γk′ (0) = −grad f (xk ). Ahora, (4.5) y A2.4 implican que limk→+∞ t∗k = 0. Haciendo
k → +∞ en la desigualdad anterior y tomando en cuenta la continuidad de grad f ,
exp y el transporte paralelo, tenemos que 1 ≤ α, lo que contradice A2.1. Por tanto,
grad f (x̄) = 0.

Como consecuencia inmediata del teorema anterior y del Teorema 3.3.7 tenemos el
siguiente resultado.

Corolario 4.1.1 Sea f : M → IR una función continuamente diferenciable y pseu-


doconvexa. Entonces, con las hipótesis A1 y A2, la sucesión {xk } converge para un
punto de mı́nimo global del problema (p).

4.2 Método com uma regularización proximal


Sea {λk } una sucesión de números reales tal que

λ′ ≤ λk ≤ λ′′ ,

donde 0 < λ′ ≤ λ′′ . El método de máximo descenso con una regularización proximal
genera una sucesión {xk } definida por (4.2) y (4.3) donde

tk = arg min{f (expxk (−tgradf (xk ))) + t2 λk ||gradf (xk )||2 : t ≥ 0}. (4.7)

Este método fue introducido por IUSEM y SVAITER (1995), [13], para resolver
problemas de optimización convexa em espacios euclidianos y luego generalizado para
variedades riemannianas en Cruz Neto et al. (1999), [7]. En esta Sección extendemos
los resultados de convergencia global de estos trabajos para el caso cuasi-convexo.

Proposición 4.2.1 Sea f : M → IR una función continuamente diferenciable y


cuasi-convexa. Supongamos que la hipótesis A1 es satisfecha. Entonces, la sucesión
{xk }, generada por (4.2),(4.3) y (4.7), es Cuasi-Fejér convergente al conjunto U.

67
Demonstración. De (4.3) y (4.7) :

f (xk+1 ) + t2k λk ||gradf (xk )||2 ≤ f (xk ). (4.8)

De aqui, es fácil verificar que


+∞
X
t2k ||gradf (xk )||2 ≤ (1/λ′ )(f (x0 ) − f ∗ ) < +∞.
k=0
Del Lema 4.0.8 y la Definición 1.2.8, obtenemos el resultado deseado.

Teorema 4.2.1 Seja f : M → IR uma función continuamente diferenciable y cuasi-


convexa. Supongase que la hipótesis A1 es satisfecha. Entonces, la sucesión {xk },
generada por (4.2),(4.3) e (4.7), converge a un punto estacionario.

Demonstración. De (4.8) tenemos que {f (xk )} es una sucesión no cresciente. Us-


ando los mesmos argumentos da demonstración del Teorema 4.1.1, podemos mostar
que {xk } converge a un punto x∗ ∈ U. Finalmente, tenemos gradf (x∗ ) = 0, como
una aplicación del Teorema 4.1, iiii, en [7], donde esto fue probado para una función
arbitrária.

Similar al Corolário 4.1.1 tenemos el siguiente resultado

Corolario 4.2.1 Sea f : M → IR una función continuamente diferenciable y pseu-


doconvexa. Entonces, con la hipótesis A1, la sucesión {xk } converge a un punto de
mı́nimo global de (p).

Ejemplo 4.2.1 Sea la función f (x1 , x2 ) = (lnx1 )2 + (lnx2 )2 . cuya simulación se ve


en las figuras 5, 6 y 7 a escala multiplicada por 10.

−1000

−1500

−2000

−2500

−3000
0
−3500
0 50
50 100
100
150 150

68
Figura 5. Gráfico de la función f .

Figura 6. Gráfico de la función f después de una rotación.

1500

1000

500

−500
0
50 150
100 100
150 50
0

Figura 7. Vista frontal del gráfico de f

69
Esta función f es claramente no convexa en IR2 con la métrica usual, sin embargo al
hacer uso de la métrica G(p) = diag (1/(pi )2 ) con i = 1, 2., la función en cuestión se
transforma en convexa sobre la variedad IR2++ , dado que su Hessiano es semidefinida
positiva, a saber,  
2
0 
Hxf = 

x1
.
2
0 x2

Su ecuación geodésica es
vi
t
γ(t) = pi exp pi , i = 1, 2

y las iteraciones del método de máximo descenso son:


!
∂f (xk )
xk+1
i = xki exp tk xki , i = 1, 2.
∂xi

70
Materiales y Métodos

1. El Universo: optimización sobre variedades riemannianas.

2. Técnicas de recopilación de datos: búsqueda de trabajos relacionados en revistas


publicadas, uso de bibliotecas y hemerotecas especializadas como también viajes
a centros de investigación en el extranjero (Brasil, Colombia y Argentina).

3. Técnicas estadı́sticas: no se usaron.

4. Técnicas descriptivas para la contrastación o demostración de las hipótesis:


La metodologı́a usada en el desarrollo de este trabajo fue un enfoque de tipo
inductivo-deductivo de las definiciones, teoremas y corolarios, como también de
los resultados de recientes investigaciones. Luego se realizó un estudio minu-
cioso y exhaustivo de cada material obtenido, con la finalidad de adaptarlo a
nuestro enfoque y que nos llevó a la obtención de los resultados planteados en
los objetivos de la investigación.

Para realizar las pruebas computacionales hemos utilizado el lenguaje de pro-


gramación C++ y un computador con sistema operativo Windows XP. Además,
hemos usado el software Latex para la digitación del informe final.

71
Resultados

Presentamos un método de optimización usando elementos de geometria riema-


nniana que supera algunas desventajas de los métodos proyectivos de optimización.
Esta ventaja consiste en considerar el conjunto de restricciones del problema de opti-
mización como una variedad riemanniana y ası́ transformar el problema restricto como
un problema sin restricciones del punto de vista de la geometria de Riemann. Luego
utilizar el método de máximo descenso en variedades riemannianas para obtener el
óptimo del problema.
Este método permite resolver el problema original sin realizar proyecciones en
cada iteración reduciendo ası́ el costo computacional de los métodos proyectivos de
optimización.
Los resultados de convergencia del método propuesto son obtenidos para la clase
de funciones cuasi-convexas diferenciables en la variedad riemanniana, de esta man-
era nuestro método resuelve problemas de optimización con funciones objetivo no
convexas que se pueden transformar en cuasi-convexas en la variedad riemanniana.
Presentamos también los elementos básicos de geometrı́a riemanniana de manera
sencilla y natural con ejemplos orientados a la Optimización, de tal manera que sean
entendidos por lectores con conocimiento elemental de análisis y geometrı́a diferencial.
Introducimos nuevas métricas riemannianas para algunas variedades diferenciables
útiles en problema de optimización. En particular, mediante la introduccón de una
métrica diagonal riemanniana sobre el ortante positivo IRn++ damos caracterizaciones
para el gradiente y Hessiana de una función en esta variedad. Luego, obtenemos
condiciones para que funciones no convexas en el sentido usual se transformen en
convexas en la variedad riemanniana IRn++ con dicha métrica.
Debemos resaltar que la hipótesis del proyecto de investigación se han cumplido.

72
Discusión

El presente trabajo recubre los resultados de convergencia del método del máximo
descenso en variedades riemannianas que fueron obtenidos para el caso convexo por
da CRUZ NETO, LIMA y OLIVEIRA (1999), [6].
Debemos observar que la hipótesis de curvatura no negativa es esencial para
obtener la convergencia global del método a un punto crı́tico para funciones cuasi-
convexas continuamente diferenciables. Ası́, para espacios donde la curvatura es
negativa, como por ejemplo los espacios de Lobachevsky, no sabemos si nuestro algo-
ritmo converge o no (globalmente). Esto nos lleva a formular la siguiente interrogante:
¿Podrá obtenerse la convergencia global del método sin usar hipótesis sobre la cur-
vatura de la variedad riemanniana?

73
Bibliografı́a

[1] ALEKSANDROV, ALEKSANDR DANILOVICH., KOLMOGOROV, ANDRÉI.


and LAURENTIEV M. A. La Matemática: su contenido, métodos y significado,
Madrid: Edit. Alianza Universidad, First Edition, 1981.

[2] ARMIJO, L. Minimization of functions having lipschitz continuous firts partial


derivates. Pacific Journal of Mathematics, 1966, Vol. 16 No. 1, pp. 1-3.

[3] BOOTHBY, WILLIAM. An Introduction to differentiable manifold and rieman-


nian geometry, Orlando, Florida USA: Edit. Adacemic Press, First Edition, 1986.

[4] BURACHIK, R.S, GRAÑA DRUMOND, L M., IUSEM, A.N., and SVAITER,
B. Full convergence of the steepest descent method with inexact line searches.
Optimization, 1995, Vol. 32, pp. 137-145.

[5] da CRUZ NETO, J.X and OLIVEIRA, P.R. Geodesic methods in riemannian
manifolds. Systems Engineering and Computer Sciences PESC/COPPE, 1995,
Technical Report ES-352/95, pp. 1-20.

[6] da CRUZ NETO, J.X., de LIMA, L.L., OLIVEIRA, P.R. Geodesic algorithms in
riemannian geometry. Balkan Journal of Geometry and its Aplications BJGA,
1998, Vol. 32 n. 2, pp. 89-100.

[7] da CRUZ NETO, J.X., FERREIRA, O.P., LUCAMBIO PEREZ, L. A prox-


imal regularization of the steepest descent method in Riemannian manifolds.
Balkan Journal of Geometry and its Aplications BJGA, 1999, Vol. 4 n. 2, pp.1-
18.

74
[8] do CARMO, MANFREDO PERDIGAO. Geometria Diferencial de Curvas e Su-
perficies, Rio de Janeiro: Sociedad Brasilera de Matemática, terceira edição,
2005.

[9] do CARMO, MANFREDO PERDIGAO., Geometria Riemanniana, Rio de


Janeiro: IMPA-Projeto Euclides, segunda edição, 1988.

[10] FERREIRA, O.P. and OLIVEIRA, P.R. Subgradient algorithm on riemannian


manifold. Journal of Optimization Theory and Applications, 1998, Vol 97 n.1,
pp. 93-104.

[11] GABAY, D., Minimizing a differentiable function over a differentiable manifold.


Journal of Optimization Theory and Aplication, 1982, Vol 37, pp. 177-219.

[12] HICKS, NOEL. Notes on differential geometry, Michigan: Van Nostrand Rein-
hold Company The University of Michigan-USA, first edition, 1966.

[13] IUSEM, A.N. and SVAITER, B.F. A proximal regularization of the steepest de-
scent method. RAIRO Operations Reseach , 1995, Vol 29 n. 2, pp. 123-130.

[14] KIWIEL, K.C. and MURTY, K. Convergence of the steep-


est descent method for minimization quasiconvex functions.
JOTA Journal of Optimization Theory and Applications, 1996, Vol 89 n.1,
pp. 221-223.

[15] LAGES, LIMA ELON. Introducao às variedades diferenciáveis, Rio de Janeiro:
EMMA Porto Alegre, primeira edição, 1960.

[16] LAGES, LIMA ELON. Variedades diferenciáveis, Rio de Janeiro: IMPA,


primeira edição, 1973.

[17] LUENBERGER, DAVID. The gradient projection method along geodesics,


Management Science, 1972, Vol 18 n. 1, pp. 620-631.

[18] LUENBERGER, D.G. Introduction to linear and nonlinear programming,


Massachusetts:Addison-Wesley, second edition, 1973.

75
[19] OLIVEIRA, P.R. and da CRUZ NETO, J. X. Elementos de geometria rie-
manniana. Systems Engineering and Computer Sciences PESC/COPPE, 1995,
Technical Report ES-351/95, pp. 1-20.

[20] PAPA QUIROZ E. A., QUISPE E. M. and OLIVEIRA P. R. Steepest de-


scent method with a generalized Armijo search for quasiconvex functions on rie-
mannian manifolds. Journal of Mathematics Analysis and Applications, 2008,
Vol 341, pp. 467-477.

[21] RAPCSÁK, TÁMAS. Smooth nonlinear optimization in IRn , New York: Aca-
demic Publishers Kluwer USA, first edition, 1997.

[22] SAKAI, TAKASHI. Riemannian Geometry, New York: American Mathematical


Society, Providence, RI, 1996.

[23] SMITH, S.T. Optimization techniques on riemannian manifolds.


Fields Institute Communications, AMS, Providence, RI, 1994, Vol 3, pp.
113-146.

[24] UDRISTE, CONSTANTIN. Convex functions and optimization methods on rie-


mannian manifolds, New York: Academic Publishers, Kluwer USA., 1997.

76
Apéndice

En esta sección damos algunos experimentos numéricos para resolver problemas


con funciones cuasi-convexas sobre el hipercubo unitário, esto es,

min{f (x) : 0 ≤ x ≤ e} (4.9)

donde f es una función cuasi-convexa, x = (x1 , x2 , ..., xn ) es la variable del problema


y e = (1, ...1) ∈ IRn .
Tomando la variedad riemanniana completa y conexa ((0, 1)n , X −2 (I − X)−2 ), el
algoritmo de máximo descenso con búsqueda de Armijo se expresa como:

1. Dado el punto xk = (xk1 , xk2 , ..., xkn ) ∈ (0, 1)n , k ≥ 0, calcular xk+1 dado por
( !)
1 1 ∂f (xk ) 1 xki
xk+1
i = 1 + tanh − xki (1 − xki ) tk + ln , i = 1, 2, ..., n,
2 2 ∂xi 2 1 − xki
donde tk = 2−ik and ik es el menor número natural tal que:

f (xk+1 ) ≤ f (xk ) − αtk kdk k2 ,

donde dk = −Xk2 (I − Xk )2 ∇f (xk ) es el gradiente de f con respecto a la métrica


Xk−2 (I − Xk )−2 , Xk = diag(xk1 , xk2 , ..., xkn ), ∇f (xk ) es el gradiente clásico de f y
α ∈ (0, 1) es dado.

2. Como critério de parada calculamos la distancia geodésica entre los puntos xk


y xk+1 , como:
 " ! !#2  12
Xn
xk+1 xki 
i
d(xk , xk+1 ) =  ln − ln
i=1 1 − xk+1
i 1 − xki 

3. Critério de parada: si ||d(xk , xk+1 )|| < ǫ, parar. Caso contrario, hacer xk ← xk+1
y volver al paso 1.

77
En todo el experimento numérico generamos la función cuasi-convexa f usando la
regla de composición f (x) = h(g(x)) donde g(x) = − log (x1 (1 − x1 )x2 (1 − x2 )) es
una función convexa sobre la variedad ((0, 1)n , X −2 (I − X)−2 ) y h : IR → IR es
elegido como una función no decresciente no convexa. Implementamos nuestro código
en C ++ y todos los tests fueron realizados en una computadora Pentium 866MHz con
Windows XP. Para la implementación usamos el error ǫ = 0.000001 y α = 0.9.
En la tablas presentadas, X0 denota el punto inicial del algoritmo, Iter. denota el
número de iteraciones, Call. Armijo denota el número de tests de Armijo, Opt. Point
denota la aproximación del punto óptimo, Opt. Value denota la aproximación del
valor óptimo y finalmente, Riem. Distance denota la distancia riemanniana entre dos
iteracioness consecutivas. Como veremos en los experimentos numéricos el método se
ve promisorio en las aplicaciones.

Experimento 1.

Sea h(t) = t entonces
q
f (x) = − log (x1 (1 − x1 )x2 (1 − x2 )).

Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto



mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = 2 log 2 = 1.665109222.

Table 4.1:
X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance

(0.45, 0.51) 65 65 (0.499999,0.5) 1.66511 9.27003e-007


(0.4,0.6) 71 71 (0.499999,0.500001) 1.66511 9.93398e-007
(0.1,0.9) 85 85 (0.499999,0.500001) 1.66511 8.92053e-007
(0.2,0.3) 79 79 (0.499999, 0.499999) 1.66511 8.79813e-007
(0.7,0.6) 75 75 ( 0.500001,0.500001) 1.66511 8.82938e-007

78
Experimento 2.
Sea h(t) = log(1 + t), entonces

f (x) = log (1 − log (x1 (1 − x1 )x2 (1 − x2 )))

Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto


mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = log(1 + 4 log 2) = 1.32776143.

Table 4.2:
X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance

(0.45, 0.51) 73 73 (0.499998,0.5) 1.32776 9.75055e-007


(0.4,0.6) 81 81 (0.499999,0.500001) 1.32776 8.92195e-007
(0.1,0.9) 97 97 (0.499999,0.500001) 1.32776 9.20241e-007
(0.2,0.3) 89 89 (0.499999, 0.499999) 1.32776 9.58094e-007
(0.7,0.6) 84 84 ( 0.500001,0.500001) 1.32776 9.98606e-007

Experimento 3.
Sea h(t) = arc tg(t), entonces

f (x) = arc tg (− log (x1 (1 − x1 )x2 (1 − x2 )))

Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto


mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = arc tg(4 log 2) = 1.224644415.

79
Table 4.3:
X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance

(0.45, 0.51) 160 160 (0.499996,0.500001) 1.22464 9.55101e-007


(0.4,0.6) 178 178 (0.499997,0.500003) 1.22464 9.4978e-007
(0.1,0.9) 227 227 (0.499997,0.500003) 1.22464 9.71428e-007
(0.2,0.3) 200 200 (0.499997, 0.499997) 1.22464 9.69434e-007
(0.7,0.6) 187 187 ( 0.500004,0.500002) 1.22464 9.79192e-007

80

Вам также может понравиться