IF - PAPA - QUIROZ - FCNM Algo de Geometria Diferencial PDF

UNIVERSIDAD NACIONAL DEL CALLAO
FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA
INSTITUTO DE INVESTIGACIÓN
Un Método no Euclidiano para Problemas de Optimización

en Espacios Euclidianos.
Erik Alex Papa Quiroz

Resolución Rectorial N◦ 1352-2007-R
(01 de noviembre de 2007 al 31 de octubre de 2008)
Índice
Resumen iv
Introducción 1
Marco Teórico 6
1 Preliminares 7
1.1 Sı́mbolos y Notaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Definiciones Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Elementos de Geometrı́a Riemanniana 11

2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Variedades diferenciables . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Aplicaciones diferenciables entre variedades . . . . . . . . . . . . . . . 16
2.4 Espacio tangente a una variedad diferenciable . . . . . . . . . . . . . 18
2.5 Métricas riemannianas en variedades diferenciables . . . . . . . . . . 21
2.6 Campos de vectores, conexiones afines y deriva
da covariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Curvatura de una variedad riemanniana . . . . . . . . . . . . . . . . 38
2.8 Gradiente y Hessiana en una variedad riemanniana . . . . . . . . . . 42
2.9 Variedades completas . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3 El Problema de Optimización y sus Condiciones de Optimalidad 50

3.1 Existencia de puntos de mı́nimo global . . . . . . . . . . . . . . . . . 51
3.2 Caracterización de puntos de mı́nimo local . . . . . . . . . . . . . . . 52
ii
3.3 Elementos del análisis convexo . . . . . . . . . . . . . . . . . . . . . . 54
3.3.1 Convexidad en una variedad riemanniana . . . . . . . . . . . . 55
3.3.2 Funciones cuasi-convexas y pseudoconvexas . . . . . . . . . . 59
4 Método del Máximo Descenso 61

4.1 Método con búsqueda de Armijo generalizado . . . . . . . . . . . . . 64
4.2 Método com uma regularización proximal . . . . . . . . . . . . . . . . 67
Materiales y Métodos 71
Resultados 72
Discusión 73
Bibliografı́a 74
Apéndice 77
iii
Resumen
Un Método no Euclidiano para Problemas de Optimización en Espacios

Euclidianos
Erik Alex Papa Quiroz
El Objetivo de la investigación es presentar un método de optimización usando

elementos de geometrı́a riemanniana para resolver problemas de optimización que
mejoren algunas desventajas de los métodos proyectivos.
Esta investigación fue motivada por el alto costo computacional de los métodos
proyectivos para mantener viabilidad en cada iteración en la búsqueda de la solución
de problemas de optimización con restricciones, como también, de la incertidumbre
de la convergencia de los iterados cuando el problema tiene una función que no es
convexa.
La técnica empleada para la recopilación de datos fue la búsqueda de trabajos
relacionados en revistas publicadas, uso de bibliotecas y hemerotecas especializadas
como también viajes a centros de investigación en el extranjero (Brasil, Colombia y
Argentina).
El resultado de la investigación es la introducción de un método no euclidiano
que bajo algunas hipótesis naturales sobre el problema se obtiene la convergencia
de los iterados a un punto crı́tico del problema de optimización y cuando la función
objetivo es convexa se demuestra la convergencia a la solución. Presentamos también
una implementación del método para algunos problemas particulares.
En este sentido, este trabajo puede ser considerado como un aporte significa-
tivo para la matemática computacional en la búsqueda de algoritmos eficientes en
la solución de problemas prácticos que surgen en diversas áreas de las ciencias y la
ingenierı́a.
Palabras Claves:
Método del gradiente, problemas convexos, métricas riemannianas, implementación
computacional.
iv
Introducción
La Optimización es una rama de la Matemática Aplicada que estudia el problema

de maximizar o minimizar una función, llamada función objetivo, sujeta a algunas
restricciones sobre su dominio. La Optimización, como lı́nea de investigación, surgió
a mediados del siglo anterior y en este intervalo de tiempo a demostrado diversas
aplicaciones en diferentes áreas de las Ciencias e Ingenierı́as, donde una elección
óptima de los parámetros y variables conlleva al mejoramiento de las técnicas para
resolver el problema planteado.
El problema de Optimización puede ser expresado, sin perdida de generalidad,
como:
min{f (x) : h(x) = 0},
donde f : IRn → IR en una función de valores reales y f : IRn → IRm es una función
de valores en IRm y x es la variable a determinar.
Una clase de métodos muy conocidos y utilizados para resolver el problema planteado
son los métodos proyectivos, los cuales generan una sucesión de puntos {xk }, dados
por x0 ∈ IRn tal que h(x0 ) = 0 (un punto inicial dado) y
xk = PM (xk + tk dk ),
donde PM es la proyección ortogonal del punto xk + tk dk al conjunto M = {x ∈

IRn : h(x) = 0}, dk es la dirección de desplazamiento y tk es la longitud de paso de
dk . Diferentes elecciones de dk dan origen a diferentes métodos proyectivos de opti-
mización. Por ejemplo, si dk = −∇f (xk ), entonces tendremos el método de gradiente
proyectado, si dk = −(∇2 f (xk ))−1 (∇f (xk )), tendremos el método de Newton proyec-
tado, etc. Propiedades de convergencia global de estos métodos son garantizados bajo
1
algunas condiciones de convexidad sobre la función objetivo f y el conjunto de las
restricciones M.
Una desventaja de los métodos proyectivos es el alto costo computacional en re-
alizar en cada iteración una proyección sobre M. Otra desventaja es cuando la función
objetivo f pierde la propiedad de la convexidad, llevando ası́ a la indeterminación si
la sucesión {xk } converge y si el punto de convergencia es un punto óptimo del prob-
lema. Observemos que en general propiedades de convexidad de la función objetivo
y de las restricciones garantizan la convergencia global de los métodos a un punto
óptimo.
Una alternativa para superar estas desventajas es considerar al conjunto M como
una variedad diferenciable dotada con propiedades geométricas no euclidianas y trans-
formar el problema original en el siguiente problema irrestricto:
min{f (x) : x ∈ M }.
Una de tales geometrı́as es la geometrı́a riemanniana, teorı́a matemática que ha lla-

mado mucho la atención de los investigadores después de su aplicación en la teorı́a
de la relatividad por Albert Einstein.
La alternativa planteada no es nueva, como se puede pensar, esta pertenece al
área de la Optimización Matemática sobre variedades riemannianas el cual surgió
como una extensión natural de la teorı́a y los métodos de optimización en el espacio
euclidiano para espacios más generales. Una de las ventajas de usar herramientas
de geometria riemanniana en optimización es que problemas restrictos pueden ser
vistos como irrestrictos considerando las propiedades intrı́nsecas de la variedad. Otra
ventaja, es que problemas no convexos se pueden transformar en convexos escogiendo
una métrica riemanniana apropiada.
Uno de los precursores de la geometrı́a riemanniana fué Lobachevski quien se
atrevió a darnos la posibilidad de la existencia de una geometrı́a no euclidiana,
ver ALEKSANDROV, KOLMOGOROV y LAURENTIEV (1981),[1], proponiendo
nuevas ideas, relacionando la geometrı́a con la realidad material, el método, el alcance
y sus aplicaciones. A raı́z de estas nuevas ideas, los matemáticos actualmente estu-
dian diversos espacios, además del euclidiano, entre ellos los espacios de Lobachevski,
2
los proyectivos, de infinitas dimensiones, los riemannianos, topológicos entre otros.
El uso de la geometrı́a riemanniana, por Einstein en 1915, en la teorı́a de la
gravitación universal fue uno de los grandes impulsores para que en otras lı́neas de
investigación se utilizen las ideas de la geometria no euclidiana. En los tiempos
actuales en que vivimos, tenemos ya diversas aplicaciones de la geometria riemanniana
en varios campos de la ciencia e ingenierı́a, por ejemplo en estadı́stica, economı́a,
computación, biologı́a y optimización, entre otros.
La relación entre los métodos de Optimización Matemática y la geometria rie-
manniana data por lo menos del año 1972, con el trabajo desarrollado por LUEN-
BERGER (1972), [17], donde usando el método de descenso geodésico obtiene la tasa
de convergencia del método del gradiente proyectado para el problema de min f (x),
sujeto a h(x) = 0, donde f : IRn → IR, h : IRn → IRm , n > m. Esta lı́nea de
investigación tuvo continuidad con GABAY (1982), [11], donde del punto de vista
de esta teorı́a, estudia el método de gradiente reducido, generaliza los métodos de
Cuasi-Newton obteniendo convergencia superlineal. También hace un análisis com-
putacional mostrando que la teorı́a y la práctica interrelacionadas pueden dar buenos
resultados.
El método de máximo descenso, estudiado por Cauchy en l847, es uno de los
métodos más antiguos y conocidos en la literatura para resolver problemas de op-
timización con funciones objetivo continuamente diferenciables. Sin embargo, para
una función arbitraria los resultados de convergencia no son muy fuertes ya que la
convergencia global, como también la existencia de puntos de acumulación no son
garantizados. Solamente podemos asegurar que cualquier punto de acumulación, si
existe, es un punto crı́tico del problema.
La situación es muy diferente cuando la función objetivo es convexa, porque asum-
iendo solamente que el conjunto de soluciones óptimas es no vacı́o, el método de
máximo descenso con búsqueda de ARMIJO (1966), [2], y con una regularización
proximal converge a un punto óptimo. Este método en variedades riemannianas, con-
siderando un problema de optimización con función objetivo arbitraria, fue estudiado
por UDRISTE (1997), [24], SMITH (1994), [23] y RAPCSÁK (1997), [21], obteniendo
los mismos resultados clásicos de convergencia. Para el caso convexo en estas varie-
3
dades con curvatura seccional no negativa, la convergencia global usando la regla de
búsqueda de Armijo, pasos fijos y una regularización proximal, fue generalizada por
da CRUZ NETO, LIMA y OLIVEIRA (1999), [6] y para funciones cuasi-convexas
solamente en espacios euclidianos, por KIWIEL y MURTY (1997), [14]. Esta inves-
tigación, está orientada a extender los resultados de Kiwiel y Murty en variedades
riemannianas completas y con curvatura seccional no negativa.
El objetivo principal de este trabajo consiste en construir un método de opti-
mización usando elementos de geometrı́a riemanniana que supere algunas desventajas
de los métodos proyectivos.
La importancia de esta investigación es que nuestros resultados permitirán resolver
problemas de optimización sin necesidad de realizar proyecciones en cada iteración
reduciendo ası́ el costo computacional de los métodos proyectivos. Otra importan-
cia es que podremos resolver problemas de optimización con funciones objetivos no
convexas que se transformen en convexas mediante la introducción de una métrica
riemanniana apropiada sobre el conjunto de las restricciones, ampliando ası́ el campo
de aplicación de los métodos proyectivos.
Al no existir una metodologı́a efectiva para solucionar el problema planteado se
justifica el desarrollo de este proyecto para una posible incorporación en los planes
curriculares de estudio de las diversas especialidades de la matemática aplicada que
desarrollen métodos de optimización como también de la construcción de nuevos al-
goritmos para resolver problemas más difı́ciles.
El trabajo está organizada por los siguientes capı́tulos:
En el Capı́tulo 1, presentamos los preliminares del trabajo de investigación. Damos
algunos sı́mbolos y notaciones como también las herramientas matemáticas necesarias
para el buen entendimiento del trabajo.
En el Capı́tulo 2, presentamos elementos básicos de la geometrı́a riemanniana
basados en BOOTHBY (1986), [3], do CARMO (2005) (1988), [8], [9], LAGES (1960)
(1973), [15],[16] y su relación con la Optimización OLIVEIRA (1995), [19], damos
ejemplos de las métricas más conocidas y estudiamos una clase particular de métricas
riemannianas diagonales, definidas en el ortante positivo IRn++ y el hipercubo abierto
(0, 1)n , espacios naturales donde se definen los problemas de optimización, obteniendo
4
propiedades geométricas importantes como curvatura cero, ecuaciones secillas para
hallar geodésicas y condiciones suficientes para garantizar que la variedad riemanniana
sea completa.
En el Capı́tulo 3 presentamos el problema de optimización sobre una variedad rie-
manniana y desarrollamos sus condiciones de optimalidad, caracterizamos los puntos
de mı́nimo, luego estudiamos la clase de funciones convexas y cuasi-convexas.
En el Capı́tulo 4, desarrollamos el método de máximo descenso, y analizamos la
convergencia del método para resolver el problema de minimización usando funciones
objetivo cuasi-convexas. Probamos que la sucesión generada por el método, usando
la regla de búsqueda generalizada de Armijo y una regularización proximal, converge
a un punto crı́tico de la función. Presentamos también un Apéndice con algunos
experimentos computacionales. Debemos resaltar que el resultado de esta investi-
gación ha generado el artı́culo de autoria de PAPA QUIROZ, QUISPE CARDENAS
y OLIVEIRA (2008), [20], publicado por la revista Journal of Mathematical Analysis
and Applications (USA).
5
Marco Teórico
6
Capı́tulo 1
Preliminares
En este capı́tulo haremos un resumen de los resultados básicos necesários al desarrollo

de los subsiguientes capı́tulos. Las demostraciones serán, en princı́pio, todas ellas
referenciadas.
1.1 Sı́mbolos y Notaciones

A lo largo de este trabajo, usaremos la siguiente simbologı́a:
(0, 1)n = (0, 1) × (0, 1) × ... × (0, 1).
IRn+ = {x = (x1 , x2 , ..., xn ) ∈ IRn : xi > 0, i = 1, 2, .., n} .
IRn++ = {x = (x1 , x2 , ..., xn ) ∈ IRn : xi ≥ 0, i = 1, 2, .., n} .
Pn
Dados x, y ∈ IRn , (x, y) = i=1 xi yi : producto interno euclideano en IRn .
C p (Ω) = {f : Ω → IR : f es diferenciable de orden p } es el conjunto de funciones
p veces diferenciables en un domı́nio abierto Ω. Si p = ∞, entonces C ∞ (Ω) es el
conjunto de funciones infinitamente diferenciables.
M : variedad diferenciable.
Tp M : es el espacio tangente a M en el punto p.
H : es el conjunto de campos de vectores X ∈ Tp M.
∇ : es la conexión afin del conjunto de campo de vectores H.
X(p) : es un campo vectorial aplicado en el punto p.
grad f (x) : es el gradiente de f en el sentido de la derivada covariante.
H f : es la matriz Hessiana de f .
7
1.2 Definiciones Básicas
Definición 1.2.1 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un
abierto U . Definimos la diferencial de F en el punto q ∈ U como una aplicación
dFq : IRn → IRm ,
definida de la siguiente manera, dFq (v) = β ′ (0) con v ∈ IRn , donde β = F o α para
algún α : (−ε, ε) → U tal que α(0) = q y α′ (0) = v. Ası́:
d
dFq (v) = β ′ (0) = (F oα)(t)|t=0 .
dt
Se puede probar facilmente (ver do CARMO (2005),[8], pp. 127-128) que la diferencial
es una aplicación lineal que no depende de la curva α tal que α(0) = q, además, si:
F (x) = F (x1 , x2 , ..., xn ) = (F1 (x), F2 (x), ..., Fn (x)),
la diferencial en el punto q, en las bases canónicas es:

 
∂F1 ∂F1 ∂F1
 ∂x1
(q) ∂x2
(q) ... ∂xn
(q) 
 
.. .. .. ..
dFq = 

 . . . .

.

 
∂Fm ∂Fm ∂Fm
∂x1
(q) ∂x2
(q) ... ∂xn
(q)
Definición 1.2.2 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un

abierto U . Diremos que p ∈ U es punto crı́tico, si la diferencial de F en el punto p,
dFp : IRn → IRm no es sobreyectiva. La imágem F (p), donde p es punto crı́tico es
llamado valor crı́tico. Un punto de IRm que no es valor crı́tico se llama valor regular
de F , esto es, a ∈ F (U ) es valor regular si dFx es sobreyectiva para todo x ∈ F −1 (a).
Por un resultado de álgebra lineal obtenemos una equivalencia para la sobreyectividad

de la diferencial dFx :
Para todo x ∈ F −1 (a), dFx es sobreyectiva si y solamente si, el rango (dFx ) = m ≤ n.
Ası́: a ∈ F (U ) es valor regular si, y solamente si, el rango (dFx ) = m, para todo
x ∈ F −1 (a).
En particular si m = 1 tal que a ∈ F (U ) es valor regular si, y solamente si, ∇F (x) 6= 0
para todo x ∈ F −1 (a).
8
Definición 1.2.3 Dado un conjunto M, un subconjunto Γ de partes de M, se dice
una topologı́a en M si:
1. ∅ ∈ Γ y Γ ∈ M ;
2. Si A, B ∈ Γ entonces A ∩ B ∈ Γ;
S
3. Si (Ai )i∈l es una famı́lia de elementos de Γ, entonces i∈l Ai ∈ Γ.
El par (M, Γ) se dice espacio topológico y los elementos de Γ son llamados abiertos
del espacio topológico (Γ, M ).
Definición 1.2.4 (Espacios de Hausdorff ). Sea M un espacio topológico, diremos

que M es un espacio de Hausdorff, si para cualquier par de elementos distintos en
M, existen abiertos disjuntos de dichos elementos.
Definición 1.2.5 Sea M un conjunto arbitrário, una métrica es una aplicación d :

M × M → IR tal que para todo x, y, z ∈ M se satisfacen las siguientes condiciones:
d1 : d(x, y) ≥ 0, d(x, y) = 0 si y sólo si x = y;
d2 : d(x, y) = d(y, x);
d3 : d(x, z) ≤ d(x, y) + d(y, z).
El par (M, d) se llama espacio métrico.
Definición 1.2.6 Una sucesión {xm } en un espacio métrico M se llama de Cauchy

cuando para todo ǫ > 0 dado, existe n0 ∈ IN tal que para todo m, n > n0 , se tiene
d(xm , xn ) < ǫ.
Definición 1.2.7 El espacio métrico (M, d) es completo cuando toda sucesión de

Cauchy en M es convergente.
Definición 1.2.8 Sea (X, d) un espacio métrico completo. Una sucesión {y k }, k ≥ 0,

de X es cuasi-Fejér convergente al conjunto U ⊂ X, si para cada u ∈ U existe una
+∞
X
sucesión {ǫk } ⊆ IR tal que ǫk ≥ 0, ǫk < +∞ y
k=0
d2 (y k+1 , u) ≤ d2 (y k , u) + ǫk .
9
Teorema 1.2.1 En un espacio métrico completo (X, d), si {y k } es cuasi-Fejér con-
vergente para un conjunto U ⊆ X, entonces {y k } es limitada. Si además, un punto
de acumulación ȳ de {y k } pertence a U. Entonces {y k } converge y lim y k = ȳ.
k→∞
Demostración. Análogo a BURACHIK (1995), [4].
10
Capı́tulo 2
Elementos de Geometrı́a
Riemanniana
2.1 Introducción
Las nociones de geometrı́a riemanniana fueron introducidas por G. Riemann un
10 de Junio de 1854 a travéz de una disertación titulada: Sobre las hipótesis que
están en los fundamentos de la geometrı́a. En él afirma que toda colección continua
de fenómenos homogéneos puede considerarse como un espacio. Estas ideas dieron
origen a lo que hoy conocemos como geometrı́a riemanniana.
En este capı́tulo presentamos los conceptos principales de estas ideas que usaremos
a lo largo de este trabajo, como son: variedades diferenciables, aplicaciones diferen-
ciables entre variedades diferenciables y los espacios tangentes a estas variedades,
también definiremos métrica riemanniana, geodésica, curvatura, gradiente y Hessiano
de funciones o matriz Hessiana de una función, en una variedad riemanniana. En
lo que concierne a métricas, presentamos una clase de métricas riemannianas diago-
nales, herramientas que nos permiten obtener propiedades interesantes para desarrol-
lar nuevos algoritmos en Optimización, esto es, que sobre una variedad riemanniana
se puede derivar un campo vectorial tangente a lo largo de una curva, a través de
la llamada derivada covariante a lo largo de curvas que depende de la métrica. For-
malizaremos estos resultados en las siguientes secciones.
11
2.2 Variedades diferenciables
Una variedad diferenciable, a groso modo, es un espacio topológico (no necesari-
amente vectorial) semejante localmente al espacio euclidiano IRn cuja relación tiene
el soporte de la diferenciabilidad. En esta sección presentamos estas ideas y daremos
algunos ejemplos de variedades diferenciables relacionadas con problemas de Opti-
mización. Para una demostración rigurosa de los resultados aquı́ presentados, refer-
enciamos a Manfredo do CARMO (1988), [9]; SAKAI (1996), [22]; ELON LAGES
(1960 y 1973), [15] y [16]; BOOTHBY (1986), [3], y HICKS (1966), [12].
En todo este capı́tulo, el término diferenciable de una función o aplicación sig-
nificará que es infinitamente diferenciable.
Definición 2.2.1 (Superficie regular de IRn ). Un subconjunto S ⊂ IRn , es una su-

perficie regular de IRn de dimensión k ≤ n si para cada p ∈ S existe una vecindad V
de p en IRn , un subconjunto abierto U ⊂ IRk y una aplicación biyectiva X : U → S ∩V
tal que:
1. X es diferenciable en U.
2. X es homeomorfismo.
3. Para todo q ∈ U , dXq : IRk → IRn es inyectiva, donde dXq es la diferencial de

X en el punto q.
Vease un gráfico de la definición de superficie regular en IR3 .
X V ∩S
p*
x
V
S
U
z
y
Figura 1. Superficie regular
Para cada p ∈ S, la aplicación X : U → V ∩ S es llamada parametrización de S en

p, o sistema de coordenadas locales en p. V ∩ S es llamada vecindad coordenada
de p.
12
Proposición 2.2.1 Sea U un subconjunto abierto de IRn y F : U −→ IRm una
función diferenciable en U con valor regular a ∈ IRm , entonces F −1 (a) es una super-
ficie regular de dimensión n − m.
Corolario 2.2.1 Sea U un subconjunto abierto de IRn y f : U −→ IR una función

diferenciable tal que (∇f )(x) 6= 0, para todo x ∈ f −1 (a). Entonces S = f −1 (a) es una
superficie regular.
La Proposición 2.2.1 permite mostrar una famı́lia de superfı́cies regulares útiles en el

contexto de la Optimización Matemática.
Ejemplo 2.2.1 Consideremos los problemas de Optimización Lineal:

(P ) min cT x (D) max bT λ
s.a Ax = b s.a AT λ + s = c
x ≥ 0. s ≥ 0.
donde: x,s, c ∈ IRn ; λ, b ∈ IRm y A ∈ IRm×n es de rango m < n. El problema (P )
es llamado primal y (D) el dual de (P ).
a). Restricciones estrictas primales. Si S = {x ∈ IRn++ : Ax = b} es el

conjunto de las restricciones estrictas del problema (P ), definiendo la función
F : IRn++ → IRm , por F (x) = Ax − b se tiene que dFx = A, para todo x ∈ IRn++ .
Por tener la matriz A rango m y aplicando la Proposición 2.2.1 tenemos que
F −1 (0) = S es una superfı́cie regular de dimensión n − m.
b). Restricciones estrictas duales. Si S = {(λ, s) ∈ IRm ×IRn++ : AT λ+s = c} es

el conjunto de las restricciones estrictas del problema (D), definiendo la función
F : IRm × IRn++ −→ IRn , por:
 
λ 
F (λ, s) = AT λ + s − c = [AT I] 
 −c
s
Se tiene dF(λ,s) = [AT I] con rango n, para todo (λ, s) ∈ IRm × IRn++ . Aplicando
la Proposición 2.2.1, F −1 (0) = S es una superfı́cie regular de dimensión m.
13
Ejemplo 2.2.2 Consideremos el problema en Optimización no Lineal:
min f (x)
s.a h(x) = 0
x∈U
donde U es un abierto de IRn , f : IRn → IR y h : IRn −→ IRm son funciones dadas.

Si h es diferenciable y su matriz Jacobiana en el punto x, Jh (x) tiene rango m en-
tonces, el conjunto {x ∈ U : h(x) = 0} es una superficie regular. Como casos
particulares tenemos que los conjuntos {x ∈ IRn : h(x) = 0} y {x ∈ IRn : h(x) =
0 y x > 0} son superficies regulares.
Una propiedad importante de las superficies regulares, es que ella no depende del
cambio de parámetros, es decir, cualquier otra parametrización de la superficie en un
punto p ∈ S sigue manteniendo las propiedades diferenciables. Este resultado nos
servirá para generalizar la definición de superficie regular a variedad diferenciable.
Definición 2.2.2 (Cambio de parámetros). Sean X −→ S y Y −→ S dos parametriza-

ciones de S en el punto p tales que
W = X (U ) ∩ Y(V ) 6= ∅.
La aplicación Y −1 oX : X −1 (W ) −→ Y −1 (W ) es llamada cambio de parámetros.
Proposición 2.2.2 Sea S una superficie regular de IRn de dimensión k. El cambio

de parámetros Y −1 oX : X −1 (W ) −→ Y −1 (W ) es un difeomorfismo.
La noción de variedad diferenciable que definimos a seguir es necesaria para poder

extender los métodos del cálculo diferencial a espacios más generales. Como veremos
posteriormente, una superficie regular será un claro ejemplo de variedad diferenciable.
Definición 2.2.3 (Variedad diferenciable). Una variedad diferenciable de dimensión

n es un conjunto M y una famı́lia de aplicaciones inyectivas Xα : Uα −→ M , α ∈ I
(conjunto de parámetros), definidos en abiertos Uα de IRn en M tales que se cumplen
las siguientes condiciones:
14
[
1. M = Xα (Uα ).
α∈I
2. Para todo par Xα , Xβ con Xα (Uα ) ∩ Xβ (Uβ ) = W 6= ∅, los conjuntos Xα −1 (W )

y Xβ −1 (W ) son abiertos en IRn y las aplicaciones Xβ −1 ◦ Xα : Xα −1 (W ) −→
Xβ −1 (W ) son diferenciables.
El par (Uα , Xα ) con p ∈ Xα (Uα ) es llamado una parametrización. Una famı́lia

{(Uα , Xα )} satisfaciendo los items 1 y 2 es llamada estructura diferenciable de M .
Ası́, la variedad es un conjunto M con una estructura diferenciable.
Una estructura diferenciable en una variedad diferenciable M induce de forma natural
una topologı́a en M definido por:
A ⊂ M es abierto en M si para todo α ∈ I, Xα −1 (A ∩ Xα (Uα )) es abierto en
IRn .
Observemos que la topologı́a es definida de tal modo que los conjuntos Xα (Uα ) son
abiertos y las aplicaciones Xα son continuas.
Debido a la Proposición 2.2.2 podemos enunciar, el siguiente resultado.
Proposición 2.2.3 Toda superficie regular de IRn de dimensión k es una variedad

diferenciable de la misma dimensión.
Proposición 2.2.4 Si M1 y M2 son dos variedades diferenciables de dimension m1

y m2 respectivamente, entonces el producto cartesiano M1 × M2 es una variedad de
dimensión m1 + m2 .
Definición 2.2.4 (Variedad de Hausdorff de base numerable). Una variedad diferen-

ciable M, es llamada variedad de Hausdorff si M, con la topologı́a dada, es un espacio
de Hausdorff.
La variedad diferenciable M tiene base numerable si ella puede ser cubierta por
una cantidad numerable de vecindades coordenadas, esto es, si existe una suceción
[
{Xn (Un )} , n ∈ IN , de vecindades coordenadas tal que: M = Xn (Un ).
n∈N
En todo este capı́tulo asumiremos que la variedad diferenciable M es de Hausdorff y

de base numerable.
15
2.3 Aplicaciones diferenciables entre variedades
Definición 2.3.1 Sea f : U ⊂ M −→ IR, donde U es un subconjunto abierto de la
variedad diferenciable M . Diremos que f es diferenciable en p ∈ U , si para alguna
parametrización Xα : Uα ⊂ IRn −→ M , con p ∈ Xα (Uα ) ⊂ U , la función compuesta
f ◦ Xα : Uα ⊂ IRn −→ IR es diferenciable en Xα−1 (p). Se dice que f es diferenciable
en U si es diferenciable en todo punto de U .
f
U IR
p
M f (p)
Xα
−1
Xα
Uα
f ◦ Xα
Figura 2. f es diferenciable en U.
Una consecuencia inmediata del item 2 de la Definición 2.2.3 es que, la diferenciabili-

dad de una función de valores reales definida sobre una variedad diferenciable M no
depende de la elección de la parametrización. En efecto, sea Xβ : Uβ ⊂ IRn → M ,
otra parametrización tal que, p ∈ Xβ (Uβ ) ⊂ U . Podemos expresar:
f ◦ Xβ = f ◦ Xα ◦ Xα−1 ◦ Xβ : Uβ ⊂ IRn → M.
Como f ◦ Xα es diferenciable por definición y Xα−1 ◦ Xβ es diferenciable por ser cambio

de parámetros, entonces f ◦ Xβ es también diferenciable.
Definición 2.3.2 Una curva sobre una variedad difereciable M es una función γ :
I → M donde I = (−ε, ε). Diremos que γ es diferenciable en t0 ∈ I si para alguna
parametrización Xα : Uα ⊂ IRn → M con γ(t0 ) ∈ Xα (Uα ), la función compuesta
β = Xα−1 ◦γ :I → Uα es diferenciable en t0 , donde γ(I) ⊂ Xα (Uα ). Si γ es diferenciable
en todo t ∈ I, diremos que γ es diferenciable en I.
16
Xα (Uα )
γ(t) γ(t0 ) = pα
Xα
M
−1
Xα γ
I
t0 ǫ
Uα ⊂ IRn −ǫ
−1
β= Xα ◦ γ
Figura 3. γ es diferenciable en t ∈ I.
La definición de diferenciabilidad puede ser extendida para aplicaciones entre varie-

dades.
Definición 2.3.3 Sean M1 y M2 variedades diferenciables de dimensión m y n res-

pectivamente. Una aplicación ϕ : M1 → M2 es diferenciable en p ∈ V , si dados:
X1 : U1 ⊂ IRn → M1
parametrización de M1 en p y:
X2 : U2 ⊂ IRm → M2
parametrización de M2 en ϕ(p) con ϕ(X1 (U1 )) ⊂ X2 (U2 ), la aplicación X2−1 ◦ ϕ ◦

X1 : U1 ⊂ IRn → IRm es diferenciable en X1−1 (p). Esta última aplicación es llamada
expresión de ϕ en las parametrizaciones X1 y X2 . ϕ es diferenciable en un abierto de
M1 si es diferencible en todos los puntos del abierto.
Análogamente al caso de funciones de valores reales, se muestra que la definición no

depende de las parametrizaciones elejidas.
Observación 2.3.1 Una consecuencia de la Definición 2.3.3 es que, si X : U → M

es una parametrización de M en el punto p entonces X −1 : X (U ) ⊂ M → IRn es
diferenciable.
Definición 2.3.4 (Difeomorfismo entre variedades diferenciables). Sea ϕ : M1 →

M2 una aplicación diferenciable entre dos variedades diferenciables. Decimos que ϕ
17
es difeomorfismo si ϕ es bijetiva y ϕ−1 es diferenciable. ϕ es difeomorfismo local en
p ∈ M1 , si existen vecindades U de p y V de ϕ(p) tal que ϕ : U → V es difeomorfismo.
Observación 2.3.2 De la observación 2.3.1, concluimos que cualquier parametriza

ción X : U ⊂ IRn → X (U ) ⊂ M, es un difeomorfismo. Por esta razón, muchas veces
para facilitar la notación se identifica X (U ) ≡ U.
2.4 Espacio tangente a una variedad diferenciable

Las consideraciones a seguir motivan la definición que extiende a variedades difer-
enciables la noción de vector tangente. Para superficies de IR3 , un vector tangente en
un punto p de la superficie es definida como el “vector velocidad” en IR3 de una curva
de la superficie pasando por p. Como en variedades diferenciables no disponemos
del soporte de un espacio ambiente, precisamos de una propriedad caracterı́stica del
vector tangente que substituya la noción de velocidad.
Recordemos algunas formalidades en superficies regulares.
Sea ε > 0 suficientemente pequeño y una curva γ : (−ε, ε) → IRn tal que:
γ(t) = (γ1 (t), ..., γn (t)),
con γ(0) = p y γ (0) = (γ1 (0), ..., γn (0)) = v ∈ IRn . Sea además una función f :
′ ′ ′
IRn → IR diferenciable definida en una vecindad de p. Podemos restringir f a la

curva γ y calcular la derivada direccional de f en la dirección de v ∈ IRn :
 ! 
d(f ◦ γ) Xn
∂f dγi 
X n
′ ∂  f.
(t) = (γ(0)) (0) = γi (0)
dt t=0 i=1 ∂γi dt i=1 ∂γi p
Por tanto la derivada direccional en la dirección de v es un operador sobre funciones

diferenciables que depende unicamente de v y esta es la propiedad caracterı́stica que
usaremos para definir un vector tangente en variedades.
Definición 2.4.1 (Vector tangente en un punto de una variedad diferenciable). Sea

M una variedad diferenciable. Consideremos una curva diferenciable
γ : (−ε, ε) → M,
18
donde γ(0) = p y sea Dp = {f : M −→ IR : f es diferenciable en p}. Definimos el
vector tangente a la curva γ en t = 0 como la función γ ′ (0) : Dp → IR dada por:

′ ′ d(f ◦ γ)
γ (0)f ≡ γ (0)(f ) = (t) , f ∈ Dp .
dt t=0
Un vector tangente en p es el vector tangente en t = 0 de alguna curva γ : (−ε, ε) →

M con γ(0) = p.
Si M es una superficie regular de dimensión k ≤ n, esto es M ⊂ IRn , definimos el

vector tangente en el punto p como el vector velocidad en IRn , esto es,
γ ′ (0) = (γ1′ (0), γ2′ (0), ..., γn′ (0)).
Definición 2.4.2 (Espacio tangente a una variedad diferenciable). El espacio tan-

gente a una variedad M en un punto p representado por Tp M , es el conjunto de todos
los vectores tangentes a M en p. Ası́, Tp M = {v ∈ IRm : v es un vector tangente en
p }.
Observación 2.4.1 Si para una parametrización X : U ⊂ IRn → M con p = X (0)

y q ∈ U , podemos restringir la función f ∈ Dp y la curva γ : (−ε, ε) → M en esta
parametrización:
f oX (q) = f (X (q)) = f (q) = f (q1 , ..., qn )
(identificación: f oX ≡ f ).
Podemos escribir también,
X −1 ◦ γ(t) = (q1 (t), ..., qn (t)).
Por definición tenemos:

d(f ◦ γ) d(f ◦ X ◦ X −1 ◦ γ)
γ ′ (0)f = (t) = (t)
dt t=0
dt t=0

d
= (f (q1 (t), q2 (t), ..., qn (t))
dt
t=0
entonces: ! ! !
n n
′
X ′∂f X ′ ∂
γ (0)f = qi (0). (p) = qi (0). f.
i=1 ∂qi i=1 ∂qi 0
19
Ası́, !
n
′
X ′ ∂
γ (0) = qi (0). (2.1)
i=1 ∂qi 0
es la expresión del vector tangente a γ en p con relación a la parametrización X .
Observación 2.4.2 Para una curva coordenada en U , βi (xi ) = (0, ..., xi , ..., 0), se
tiene que la composición X ◦ βi = γi es una curva coordenada sobre M y de la
′
ecuación anterior, γi (0) = ( ∂x∂ i )0 . Se sigue que ( ∂x∂ i )0 es el vector tangente a la curva
coordenada γi (t).
Observación 2.4.3 De la elección de una parametrización obtenemos n “vectores”

( ( ∂x∂ i )p , i = 1, ..., n ) en Tp M que generan, por (2.1), los vectores en Tp M .
Observación 2.4.4 Sea M una variedad diferenciable, el fibrado tangente de M es

definido por:
T M = {(p, v); p ∈ M/ v ∈ Tp M }.
T M puede ser unido de uma estructura diferenciable transformandose ası́ en una

variedad diferenciable (ver do CARMO (1988), [8], pag. 15 para su demostración).
En los siguientes resultados presentamos ejemplos de espacios tangentes.
Proposición 2.4.1 El espacio tangente de una variedad diferenciable que es un sub-

conjunto abierto de IRn es el propio IRn .
Como consecuencia de esta proposición se tiene:
a). Tp IRn = IRn , Tp IRn++ = IRn .
b). Si M = {(λ, s) ∈ IRm × IRn : s > 0}, entonces Tp M = IRm+n .
Proposición 2.4.2 Sea M = F −1 (a) una variedad de dimensión n − m, donde la

aplicación F : U ⊂ IRn → IRm es una función diferenciable, U es abierto y a es un
valor regular de F , entonces: Tp M = Tp (F −1 (a)) = Ker(dFp ).
Ejemplo 2.4.1 Si M = {x ∈ IRn++ : Ax = b}, donde A ∈ IRm×n tiene rango m < n,

entonces:
Tp M = KerA = {∆x ∈ IRn : A∆x = 0}.
20
En efecto, la función que define M es F : IRn++ → IRm tal que F (x) = Ax − b, la
diferencial de F en el punto p ∈ M es dFp = A, luego aplicando la Proposición 2.4.2
obtenemos el resultado.
Ejemplo 2.4.2 Sea h : U ⊂ IRn → IRm una función diferenciable con Jacobiano
Jh (x) = dhx con rango m. Consideremos la variedad M = h−1 (x) = {x ∈ U, h(x) =
0}, entonces:

Tp h−1 (0) = Ker(Jh (x)).
Corolario 2.4.1 Sea D ⊂ IRn un conjunto abierto y f : D −→ IR una función

diferenciable tal que ∇f (x) 6= 0, para todo x ∈ f −1 (a) vimos que, M = f −1 (a) es una
variedad diferenciable. Entonces para cada p ∈ M,

Tp f −1 (a) = ∇f (p)⊥ .
Proposición 2.4.3 Sean M1 y M2 dos variedades diferenciables de dimensión n y m

respectivamente y sea ϕ : M1 → M2 una aplicación diferenciable. Para cada p ∈ M1
y cada v ∈ Tp M1 , escojamos una curva diferenciable α : (−ǫ, ǫ) → M con α(0) = p,
α′ (0) = v. Definiendo β = ϕ ◦ α, la aplicación:
dϕp : Tp M1 → Tϕ(p) M2 ,
dada por dϕp (v) = β ′ (0) es una aplicación lineal que no depende de la elección de α.
Esta aplicación es llamada la diferencial de ϕ en p.
Proposición 2.4.4 Sea M1 y M2 dos variedades diferenciables. Si ϕ : M1 → M2 es

un difeomorfismo, entonces dϕp : Tp M1 → Tϕ(p) M2 es un isomorfismo.
2.5 Métricas riemannianas en variedades diferen-

ciables
Las métricas en un espacio son muy importantes porque nos permiten medir
distancias, calcular errores, longitudes de curvas, etc. Cuando tenemos una curva
21
parametrizada en IRn , γ(t) = (γ1 (t), γ2 (t), ..., γn (t)) donde t pertenece a algun inter-
valo I de IR, la longitud de arco de la curva generada por γ(t) es medida por:
Z
ℓ(γ) = kv(t)kdt
I
′ ′ ′
donde v(t) = (γ1 (t), γ2 (t), ..., γn (t)) y k, k representa la norma euclideana. Ası́, la
longitud de la curva depende de la norma del vector velocidad definido por la métrica
usual en IRn . Ahora, si nuestro espacio es una variedad diferenciable M y tenemos
definida una curva en ella, entonces la longitud de arco de la curva será obtenida por
la medida realizada en el vector perteneciente al espacio tangente en cada punto.
Necesitamos entonces definir una métrica en el espacio tangente Tp M para cada p ∈
M. Recordemos que además del producto interno clásico:
X
(v, w)p = v i wi ,
i
podemos definir otro producto interno:

X
< v, w >p = gij vi wi = (Gv, w),
i,j
donde G = (gij ) es una matriz simétrica definida positiva. Esta definición aparece de
modo natural al realizar un cambio de coordenadas. En efecto, sean x = (x1 , x2 , ..., xn )
y z = (z1 , z2 , ..., zn ) tal que x(t) = x(z(t)), esto es,
x(t) = (x1 (z1 (t), z2 (t), ..., zn (t)), x2 (z1 (t), z2 (t), ..., zn (t)), ..., xn (z1 (t), z2 (t), ..., zn (t)),
entonces:
n
!
dxi X ∂xi ∂zj
= , para todo i = 1, 2, ..., n.
dt j=1 ∂zj ∂t
dxi dzi
Denotando v x = (v1x , v2x , ..., vnx ) y v z = (v1z , v2z , ..., vnz ), donde vix = dt
y viz = dt
,
tememos: !2
n
x 2 x x
X dxi
k v k = (v , v ) = .
i=1 dt
Como:
!2  2 ! !
n n n n n
dxi X ∂xi X ∂xi z X ∂xi z X X ∂xi ∂xi
= vjz  = vj v = vkz vjz ,
dt j=1 ∂zj j=1 ∂zj k=1 ∂zk k j=1 k=1 ∂zk ∂zj
22
entonces: !
n
n X n
x 2
X X ∂xi ∂xi
kv k = vkz vjz ,
i=1 j=1 k=1 ∂zj ∂zk
conmutando sumandos:
n
n X n
!
X X ∂xi ∂xi
k v x k2 = vkz vjz .
j=1 k=1 i=1 ∂zj ∂zk
Haciendo un cambio k por i e i por k obtenemos:

n n
!
x 2
X X ∂xk ∂xk
kv k = viz vjz .
i,j=1 k=1 ∂zj ∂zi
n

P ∂xk ∂xk
Definiendo gij = ∂zj ∂zi
se tiene finalmente que:
k=1
n
X
x x x 2
(v , v ) =k v k = gij viz vjz = (Gv z , v z ).
i,j=1
Queda claro que un cambio en el sistema de coordenadas no altera las métricas. En

efecto, si v = G1\2 w tenemos que:
(v, v)p = (G1\2 w, G1\2 w)p = (Gw, w)p = h w, wip .
Métrica riemanniana.
Definición 2.5.1 Sea S una variedad diferenciable. Una métrica riemanniana es

una aplicación que asocia a cada p ∈ M un funcional h , ip
h , ip : Tp M × Tp M −→ IR,
de modo que se cumplen las siguientes condiciones:
1. h , ip es un producto interno (bilineal, simétrica y definida positiva) para cada

p ∈ M.
2. h , ip varia diferenciablemente en el siguiente sentido: Si X : U ⊂ IRn −→ M

es um sistema de coordenadas en torno de p, con X (x1 , x2 , x3 , ...., xn ) = q ∈
∂
X (U ) y ∂xi
(q) = dXq (0, 0, ..., 0, 1, 0, ..., 0, 0), entonces la función: gij : U −→ IR
definida por * +
∂ ∂
gij (x1 , x2 , ..., xn ) = (q), (q) ,
∂xi ∂xj q
es diferenciable.
23
Las funciones gij son llamadas expresiones de la métrica riemanniana en el sistema
coordenado X y la matriz G = (gij ) es la representación de la métrica riemanniana.
Como X es un difeomorfismo (Observación 2.3.2) se tiene que dXq : IRn −→ Tq M es
un isomorfismo (Proposición 2.4.4) y ası́ la matriz G = (gij ) es invertible. Por tanto,
toda métrica riemanniana tiene su matriz de representación invertible.
Definición 2.5.2 (Variedad riemanniana). Una variedad diferenciable para la cual

se define una métrica riemanniana se denomina una variedad riemanniana.
Ejemplo 2.5.1 Sea M = IRn , defina la parametrización X : IRn −→ IRn tal que
X (x1 , x2 , ..., xn ) = (x1 , x2 , ..., xn ).
Definamos la métrica:
h , ip : IRn × IRn −→ IR, definido por h x, yip = xT y.
Sea q ∈ IRn entonces:

∂
(q) = dXq ei = ei ,
∂xi
y ası́, gij : U → IR definidas por:
* +
∂ ∂
gij (x) = (x), (x) = h ei , ej ix = eTi ej = δij ,
∂xi ∂xj x
son diferenciables en IRn .

Luego M = IRn , con la expresión de la métrica G = Id, es una variedad riemanniana,
esto es, el espacio euclidiano es un ejemplo particular de variedad riemanniana.
Ejemplo 2.5.2 Sea M la variedad definida por el siguiente conjunto:
M = {(x1 , x2 ) ∈ IR2 : x2 > 0}.
Usamos la parametrización identidad, además Tp M = IR2 , con p = (p1 , p2 ) ∈ M .

Definimos la aplicación:
h , ip : IR2 × IR2 −→ IR
tal que:
1
h(x1 , x2 ), (y1 , y2 )ip = (x1 y1 + x2 y2 ).
p2
24
Sea q = (q1 , q2 ) ∈ M, entonces
∂
(q) = dXq ei = ei , para todo i = 1, 2.
∂xi
Luego: gij : M −→ IR definidas por:
1 1
gij (x1 , x2 ) = h ei , ej i = δij ,
x2 x2
son diferenciables en M . Por lo tanto, M es una variedad riemanniana con la ex-

presión de la métrica:
1
G(p) = (Id)2×2 .
p2
Esta métrica es conocida como métrica de Lobatchevsky o Poincairé.
Los siguientes dos ejemplos son también variedades riemannianas para las métricas G
según se definen, los cuales se demuestran bajo el mismo procedimiento que los dos
ultimos ejemplos anteriores.
Ejemplo 2.5.3 Si M = IRn++ y el funcional h , ip : Tp IRn++ × Tp IRn++ −→ IR tal que:
hu, vip = uT G(p)v,
donde:
G(p) = diag(1/(hi (pi ))2 ),
entonces:
δij
gij (x) = .
(h2 (xi ))2
Ejemplo 2.5.4 Sea la variedad riemanniana (IR2 , G(x)), con hu, vip = uT G(p)v,
donde:  
4p21 + 1 −2p1 
G(p) = 
 
−2p1 1
es la métrica riemanniana dada por Udriste.
25
2.6 Campos de vectores, conexiones afines y deriva
da covariante
Introducimos los campos de vectores en los espacios tangentes a las variedades rie-
mannianas. En Optimización Matemática ellos representan las direcciones, a partir de
un punto dado, para algún algoritmo iterativo propuesto. Observando la trayectoria
continua del algoritmo, esta tendrá sus caracterı́sticas, como curvatura, que depen-
den obviamente de las caracterı́sticas del campo. Surge ası́ la necesidad de definir
conceptos correspondientes al de derivada de funciones.
Definición 2.6.1 (Campo de vectores en una variedad diferenciable). Un campo de

vectores X en una variedad diferenciable M es una correspondencia que a cada punto
p ∈ M asocia un vector X(p) ∈ Tp M .
Considerando una parametrización X : U ⊂ IRn → M es posible escribir:

n
X ∂
X(p) = ai (p).( )p ,
i=1 ∂xi
donde cada ai : M → IR es una función en M y {( ∂x∂ i )p } es una base asociada a X ,

1 ≤ i ≤ n. Diremos que X es diferenciable si, y solamente si, las funciones ai son
diferenciables para alguna parametrización.
Es útil pensar en campos vectoriales como aplicaciones X : D −→ F definidas por
X ∂f
(Xf )(p) = ai (p). (p),
i ∂xi
donde D es el conjunto de las funciones diferenciables sobre M y F es el conjunto

de las funciones sobre M.
Como estamos interesados en trayectorias en M , consideraremos los campos restritos
a una curva.
Definición 2.6.2 (Campo de vectores a lo largo de curvas). Un campo vectorial V a

lo largo de una curva α : I −→ M es una aplicación que a cada α(t) ∈ M asocia un
vector tangente V (t) ∈ Tα(t) M . Se dise que V es diferenciable si para cada función
diferenciable f en D, la función V (t)f es una función diferenciable en I.
Sea X un campo definido en M , el campo X a lo largo de α será denotado V (t) =
26
X(α(t)) y diremos que V es inducido por X.
d(X oX −1 ◦α)(t) dα
El campo vectorial dX(X −1 ◦α)(t) [(X −1 ◦ α)′ (t)] = dt
denotado por dt
, es
llamado campo velocidad o tangente de α.
Conexiones Afines.
Denotemos T M como el conjunto de espacios tangentes definidos en M.
Sea H = H(M ) = {X : M −→ T M : para cada p ∈ M, X(p) ∈ Tp M, y X ∈ C ∞ } el
conjunto de campo de vectores y D = D(M ) = {f : M −→ IR : f ∈ C ∞ } el conjunto
de funciones reales de clase C ∞ .
Definición 2.6.3 Una conexión afin es una aplicación ∇ : H × H −→ H donde a

cada par de campos (X, Y ) se asocia otro campo ∇X Y tal que para todo X, Y, Z ∈ H,
y f, g ∈ D verifique:
1. ∇(f X+gY ) Z = f ∇X Z + g∇Y Z;
2. ∇X (Y + Z) = ∇X Y + ∇X Z;
n
P (.)
3. ∇X f Y = f ∇X Y + X(f )Y , donde X(f ) = ai (.) ∂f
∂xi
.
i=1
Considerando una curva diferenciable en M α : I −→ M, denotaremos el conjunto de

campo de vectores a lo largo de esta curva como Hα .
Proposición 2.6.1 Sea M una variedad diferenciable con una conexión afin ∇. En-
D
tonces existe una única aplicación dt
, donde a cada V ∈ Hα se asocia otro campo
DV
en Hα , denotado por dt
, tal que para todo V, W ∈ Hα y f : I −→ IR una función
diferenciable en I se cunplen:
D DV DW
a. dt
(V + W) = dt
+ dt
.
D df
b. dt
(f V )= dt
V + f DV
dt
.
DV
c. Si V (t) = Y (α(t)), donde Y ∈ H, entonces dt
= ∇ dα Y.
dt
D
dt
es llamada Derivada Covariante.
Observación 2.6.1 La Proposición 2.6.1 muestra que la elección de una conexión

afin de M da origen a una única derivada covariante para cada campo vectorial a lo
largo de una curva.
27
Observación 2.6.2 Al realizar la demostración de esta Proposición, encontramos
una caracterización de la derivada covariante para una cierta parametrización X , de
acuerdo con:
n n
DV X dv j X dxi
= Xj + vj ∇Xi Xj .
dt j=1 dt i,j=1 dt
Observación 2.6.3 La noción de conexión afin, ofrece una manera de derivar campo
dα
de vectores a lo largo de curvas. Ası́, en particular para el campo vectorial V = dt
tenemos: !
D dα
,
dt dt
que llamaremos aceleración de una curva α en M .
Expresión de la conexión afin relativa a coordenadas locales.

Suponga que los campos de vectores X, Y ∈ H sean representados en una cierta
vecindad local X : U ⊂ Rn −→ M , de algún punto p, por:
n n
X ∂ X ∂
X= xi , Y = yi ,
i=1 ∂xi i=1 ∂xi
donde (∂/∂xi ) representan los vectores de la base del sistema de coordenadas locales.
Por simplicidad de notación expresaremos:
∂
= Xi .
∂xi
Entonces tenemos
n
X n
X
X= xi Xi , Y = yi Xi .
i=1 i=1
Según las propiedades de la definición de la conexión afin:
    
X X X
∇X Y = ∇P xi Xi  yj Xj  = xi ∇Xi  yj Xj 
j i j
   !
X X X X ∂yj
= xi  (yj ∇Xi Xj ) + xi  Xj  .
i j i j ∂xi
Observe que ∇Xi Xj ∈ H, pudiendo por tanto ser también representado atravéz de
una base local, esto es:
n
X
∇Xi Xj = Γkij Xk (2.2)
k=1
que, substituyendo en la ecuación anterior, se obtiene:
28
 
n n n
X X X ∂yk 
∇X Y =  xi yj Γkij + xi Xk .
k=1 i,j=1 i=1 ∂xi
Definición 2.6.4 (Sı́mbolos de Christoffel). Los sı́mbolos de Christoffel, o coefi-

cientes de la conexión afin ∇ en U , son las funciones (diferenciables):
Γkij : U ⊂ M → R
definidas por (2.2).
Expresión de la derivada covariante en términos de coordenadas locales y

de los sı́mbolos de Christoffel.
Sea X : U → M un sistema de coordenadas locales en torno de p ∈ M . Un resultado
obtenido al demostrar la Proposición 2.6.1 es:
n n
DV X dv j X dxi
= Xj + vj ∇Xi Xj ,
dt j=1 dt i,j=1 dt
y usando
n
X
∇Xi Xj = Γkij Xk ,
k=1
tenemos !
n n n
DV X dv j X dxi X
= Xj + vj Γkij Xk ,
dt j=1 dt i,j=1 dt k=1
n n
n X
X dv j X dxi k
= Xj + vj Γ Xk .
j=1 dt k=1 i,j=1 dt ij
Ası́:  
n n
DV X dv k X dxi k 
=  + vj Γ Xk (2.3)
dt k=1 dt i,j=1 dt ij
es la expresión de la derivada covariante en términos de coordenadas locales y de los
sı́mbolos de Christoffel.
Geodésicas y Campos paralelos.

La derivada covariante permite definir el transporte paralelo a lo largo de curvas que
dependen de la métrica, osea, que cambiando la métrica, cambia en general la manera
de derivar campos vectoriales, en particular nos permite conocer geodésicas, curvas
29
cuyo vector tangente es paralelo o derivada covariante nula. Si α : [a, b] → M es una
curva, tal que α(a) = y α(b) = q, el transporte paralelo es Pα(t) : Tp M → Tq M un
isomorfismo lineal tal que Pα(t) (v) = V (b) que es el único transporte paralelo a lo
largo de α.
Con la métrica euclidiana la geodésica es el segmento de recta entre dos puntos p y q
cualquiera que caracteriza la trayectoria de menor longitud que los une.
Si α : [a, b] → IRn es una curva diferenciable pasando por: p = α(a) yq = α(b),
dα d dα
siendo el campo dt
asociado fisicamente a la velocidad, tenemos la aceleración ( )
dt dt
en cada punto α(t) con la propiedad de α ser geodésica dada por

d dα
( ) = 0.
dt dt
La extensión de esta noción a variedades exigirá apenas que la componente tangencial
de la derivada sea nula.
Geodésicas.
Definición 2.6.5 Una curva parametrizada α : I −→ M es una geodésica si el campo

dα
tangente dt
verifica:
D dα
( ) = 0.
dt dt
Campos paralelos.
Dado M una variedad diferenciable, una conexión afin ∇ y un campo V a lo largo
DV
de una curva diferenciable α : I → M , V es denominado campo paralelo si dt
= 0,
para todo t ∈ I.
dα
Ası́, si α es una geodésica, entonces dt
es paralelo.
Ecuaciones geodésicas.
De la expresión (2.3), un campo paralelo V es determinado por las ecuaciones
 
n n
X dv k X dαi k 
 + vj Γ Xk = 0
k=1 dt i,j=1 dt ij
o, equivalentemente,
n
dv k X dαi k
+ vj Γ = 0, k = 1, ..., n.
dt i,j=1 dt ij
30
dαi
Cuando se trata de una geodésica α(t) = (α1 (t), ..., αn (t)), se tiene v i = dt
, entonces
esta última ecuación se transforma en
n
d dαk X dαj dαi k
( )+ Γij = 0, k = 1, ..., n
dt dt i,j=1 dt dt
o
n
d2 αk X dαi dαj
2
+ Γkij = 0, k = 1, ..., n (2.4)
dt i,j=1 dt dt
el cual es un sistema de n ecuaciones diferenciales de 2do. orden, que posee solución
dx
única en algun intervalo I = [a, b], verificando x(0) = α(0) = p y dt
(0) = α′ (0) = v .
Conexión afin en variedades riemannianas.
Definición 2.6.6 Sea M una variedad diferenciable con una conexión afin ∇ y una
métrica riemanniana h , i. Se dice que ∇ es compatible con la métrica h , i si para
todo par de campos de vectores V y W a lo largo de la curva diferenciable α : I −→ M
se tiene:
d DV DW
hV, W i = h , W i + hV, i. (2.5)
dt dt dt
Proposición 2.6.2 Si la conexión afin ∇ es compatible con h , i y V, W son campos

paralelos a lo largo de una curva diferenciable α : I −→ M entonces, hV, W i es
constante.
En particular si α(t) = (α1 (t), ..., αn (t)) es una geodésica, h dα , dα i es constante.
dt dt
Proposición 2.6.3 Sea M una variedad riemanniana. Una conexión afin ∇ es

compatible con el h, i si, y solamente si:
XhY, Zi = h∇X Y, Zi + hY, ∇X Zi, para todo X, Y, Z ∈ H.
Definición 2.6.7 Una conexión afin ∇ en una variedad diferenciable M es llamada

simétrica si:
∇X Y − ∇Y X = [X, Y ],
donde [X, Y ] = XY − Y X.
Observaciones:
31
1. En un sistema de coordenadas (U, X ) la simetrı́a de la conexión afin implica
∂ ∂
que ∇ ∂
∂xj
=∇ ∂
∂xi
.
∂xi ∂xj
En efecto, para todo f ∈ D,
∂2f ∂2f
Xi Xj (f ) − Xj Xi (f ) = − = 0.
∂xi ∂xj ∂xj ∂xi
2. En consecuencia se tiene que:

n
X
∇Xi Xj − ∇Xj Xi = (Γkij − Γkji )Xk = 0.
k=1
Debido a la independencia lineal de {Xk } obtenemos:
Γkij = Γkji .
La reciproca es inmediata.
El teorema a seguir garantiza la existencia y unicidad de una conexión simétrica y

compatible con la métrica en una variedad riemanniana.
Teorema 2.6.1 (Levi-Civita). Dada una variedad riemanniana M , existe una única
conexión afin ∇ en M satisfaciendo las condiciones:
a) ∇ es simétrica.
b) ∇ es compatible con la métrica riemanniana.
(Esta conexión es denominada conexión riemanniana).
Relación entre la métrica riemanniana y los sı́mbolos de Christoffel.

Dado un sistema de coordenadas (U, X ), las funciones conocidas como sı́mbolos de
n
P
Christoffel Γki,j : U → IR definen los coeficientes de conexión ∇Xi Xj = Γkij Xk . Se
k
muestra que
n
1X ∂ ∂ ∂
Γm
ij ={ gjk + gki − gij }g km ,
2 k ∂xi ∂xj ∂xk
32
donde gij = h ∂x∂ i , ∂x∂ j i son elementos de la matriz G(x) y g ij los elementos de su
inversa G−1 (x) respectivamente.
∂ ∂ ∂
En efecto, tomemos ∂xi
= Xi , ∂xj
= Xj y ∂xk
= Xk . Usando el resultado siguiente:
1
hZ, ∇Y Xi = {XhY, Zi+Y hZ, Xi−ZhX, Y i−h[X, Z], Y i−h[Y, Z], Xi−h[X, Y ], Zi}
2
(2.6)
tenemos:
1
hXk , ∇Xj Xi i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i}.
2
n
P
Como ∇Xj Xi = ∇Xi Xj = ∇Xi Xj = Γlij Xl y usando a linealidad del producto
l=1
interno, se tiene:
n
X 1
Γlij hXk , Xl i = {Xi hXj , Xk i + Xj hXk , Xi i − Xk hXi , Xj i},
l=1 2
y ası́:
n
X 1 ∂ ∂ ∂
Γlij gkl = { gjk + gki − gij }.
l=1 2 ∂xi ∂xj ∂xk
Denotando bk = 12 { ∂x∂ i gjk + ∂x∂ j gki − ∂x∂ k gij }, k = 1, 2, ..., n obtenemos un sistema lineal
Gy = b con y = (Γ1ij , Γ2ij , ..., Γnij ) y b = (b1 , b2 , ..., bn ). Como G(x) es invertible (ver
definición de métrica riemanniana) entonces y = G−1 b. Ası́ tenemos:
n
1X
Γm
ij = g mk bk .
2 k=1
Finalmente sustituyendo el valor de bk en la expresión anterior se tiene:

n
1X ∂ ∂ ∂
Γm
ij = { gjk + gki − gij }g km . (2.7)
2 k=1 ∂xi ∂xj ∂xk
Ejemplo 2.6.1 Sea la variedad riemanniana M = IRn++ , con la métrica dada por
!
1 1 1
G(x) = diag 2
, 2
, ..., ,
(h1 (x1 )) (h2 (x2 )) (hn (xn )2
para funciones hi : IR++ −→ IR++ diferenciables. La inversa de la matriz G(x) es:

G−1 (x) = diag (h1 (x1 ))2 , (h2 (x2 ))2 , ..., (hn (xn ))2 .
33
1. Obtención de los sı́mbolos de Christoffel.
Recordemos que la relación de la métrica con los sı́mbolos de Christoffel está
dado por la ecuación (2.7).
Cuando k 6= m tenemos que g mk = 0, ası́ la expresión es reducida a:
( )
1 ∂ ∂ ∂
Γm
ij = gim + gmi − gij g mm .
2 ∂xi ∂xj ∂xm
Consideramos dos casos:
a) Si i = j ( )
1 ∂ ∂ ∂
Γm
ii = gim + gmi − gii g mm .
2 ∂xi ∂xi ∂xm
Para m = i
1 ∂
Γiii = − (hi (xi )) .
hi (xi ) ∂xi
Para m 6= i
Γm
ii = 0.
b) Si i 6= j ( )
1 ∂ ∂
Γm
ij = gim + gmi g mm .
2 ∂xi ∂xj
Para m = i entonces, m 6= j y:
Γiij = 0.
Para m = j entonces, m 6= i y:
Γjij = 0.
Para m 6= i y m 6= j entonces,
Γm
ij = 0.
De ambos casos tenemos:
1 ∂(hi (xi ))
Γm
ij = − δim δij (2.8)
hi (xi ) ∂xi
que es la expresión de los Sı́mbolos de Christoffel en relación a la métrica G(x).

Como aplicaciones tenemos:
34
• Si hi (xi ) = 1, entonces, G(x) = I. Luego: Γm
ij = 0, ∀ i, j, m = 1, ..., n.
1
• Si hi (xi ) = xi entonces, G(x) = X −2 . Luego: Γm
ij = − xi δim δij .
r
r 1
• Si hi (xi ) = xi2 entonces, G(x) = X −r . Luego: Γm
ij = − 2 xi δim δij .
−r r
• Se hi (xi ) = si 2 xi2 , si ∈ IR++ entonces, G(x) = S r X −r . Luego Γm
ij =
− 2r x1i δim δij .
2. Obtención de la derivada covariante.

Vimos que la relación de la derivada covariante con respecto a los sı́mbolos de
Christoffel es dada por la ecuación (2.3). Sustituyendo la expresión (2.8) en
(2.3) obtenemos:
n
!
DV X dv i 1 ∂(hi (xi )) i dxi
= − v Xi .
dt i=1 dt hi (xi ) ∂xi dt
En particular:
• Si hi (xi ) = 1, Γkij = 0, y ası́:

n
DV X dv i
= Xi ,
dt i=1 dt
que es la propia derivada usual.

1
• Si hi (xi ) = xi , Γm
ij = − xi δim δij y
n
!
DV X dv i 1 dxi
= − vi Xi .
dt i=1 dt xi dt
r
r 1
• Si hi (xi ) = xi2 , Γm
ij = − 2 xi δim δij
n
!
DV X dv i r 1 i dxi
= − v Xi .
dt i=1 dt 2 xi dt
3. Determinación de la ecuación geodésica: Sea p = (p1 , p2 , ..., pn ) ∈ IRn++ y v =

(v1 , v2 , ..., vn ) ∈ Tp IRn++ = IRn con
α : I → IRn++ : α(t) = (α1 (t), α2 (t), ..., αn (t)),
dα(0)
donde α(0) = p y dt
= v, I alguún intervalo abierto de IR. Substituyendo los
sı́mbolos de Christoffel (2.8) en la ecuación (2.4) obtenemos:
d2 αi 1 ∂(hi (αi )) dαi 2
− ( ) = 0, ∀i = 1, ..., n (2.9)
dt2 hi (αi ) ∂αi dt
35
αi (0) = pi , i = 1, ..., n
αi′ (0) = vi , i = 1, ..., n.
La ecuación diferencial (2.9) es equivalente a resolver:
dαi
= hi (αi )ai ,
dt
para alguna constante ai , que también es equivalente a resolver la integral:
Z
1
dαi = ai t + bi , i = 1, 2, ..., n
hi (αi )
para algunas constantes ai y bi en IR.
Entonces, la única geodésica α(t) de IRn++ , con métrica G(p), pasando por el
punto α(0) = p, en la dirección α′ (0) = v, es obtenida resolviendo el siguiente
problema:
Z
1
( )dαi = ai t + bi i = 1, ..., n (2.10)
hi (αi )
donde ai y bi son constantes reales tales que:
αi (0) = pi , i = 1, ..., n.
αi′ (0) = vi , i = 1, ..., n.
En particular:
• Si hi (αi ) = 1 tenemos que G(p) = I y considerando las condiciones ini-

ciales de (2.10) encontramos la expresión de la curva geodésica:
αi (t) = vi t + pi i = 1, ..., n.
Esto es, las geodésicas son curvas α : IR −→ IRn++ definidas por:
α(t) = (v1 t + p1 , ..., vn t + pn ).
Observemos que la geodésica α(t) está definida para valores de t tal que
vi t + pi > 0.
• Si h(αi ) = αi entonces, G(x) = X −2 considerando las condiciones iniciales

de (2.10), las curvas geodésicas son funciones exponenciales:
! ! !!
v1 v2 vn
α(t) = p1 exp t , p2 exp t , ..., pn exp t .
p1 p2 pn
Vemos que dados cualquier p ∈ IRn++ y v ∈ IRn , la geodésica α(t) está
definida para todo t ∈ IR.
36
Ejemplo 2.6.2 Consideremos la variedad riemanniana C0n = (0, 1)n con la métrica
dada por: !
1 1 1
G(p) = diag 2
, 2
, ..., ,
(h1 (α1 )) (h2 (α2 )) (hn (αn ))2
para funciones hi : (0, 1) −→ (0, 1) diferenciables. Ası́, la única geodésica α(t) de C0n ,
con métrica G(p), pasando por el punto α(0) = p, en la direción α′ (0) = v ∈ Tp C0n =
IRn , es obtenida resolviendo la siguiente ecuación:
Z
1
( )dαi = ai t + bi i = 1, ..., n,
hi (αi )
donde ai y bi son constantes reales tales que:

αi (0) = pi , i = 1, ..., n.
αi′ (0) = vi , i = 1, ..., n.
• Si hi (αi ) = sen2 (παi ) entonces G(p) = csc4 (πp), con las geodésicas en C0n ,
α(t) = (α1 (t), α2 (t), ..., αn (t)),
considerando las condiciones iniciales de (2.10), son:
1
αi (t) = arccot −πcsc2 (πpi )vi t + cot(πpi ) para todo, i = 1, 2..., n.
π
Observamos que dados cualquier p ∈ C0n y v ∈ IRn , la geodésica α(t) está

• Si hi (αi ) = αi (1 − αi ) se tiene que G(p) = P −2 (I − P )−2 , las geodésicas en C0n ,
α(t) = (α1 (t), α2 (t), ..., αn (t)),
considerando las condiciones iniciales de (2.10), son:

( !)
1 1 vi
αi (t) = 1 + tgh t + arccoth(2pi − 1) para todo, i = 1, 2..., n.
2 2 pi (1 − pi )
ez −e−z
donde tanh(z) = ez +e−z
es la función tangente hiperbólica.
Observamos que dados cualesquiera p ∈ C0n y v ∈ IRn , la geodésica α(t) está
37
2.7 Curvatura de una variedad riemanniana
En esta sección, presentamos la definición de curvatura de una variedad riema-
nniana que, intuitivamente, mide cuanto ella se aleja de ser euclidiana. Del punto de
vista de las aplicaciones esta sección muestra esencialmente que las variedades IRn++ y

1 1
C0n con la métrica dada por G(x) = diag ,
(h1 (x1 ))2 (h2 (x2 ))2
, ..., (hn (x1 n ))2 para cuaquier
función diferenciable hi : IR++ −→ IR++ y hi : (0, 1)n −→ IR++ respectivamnte, tiene
curvatura cero.
Definición 2.7.1 (Aplicación curvatura). Sea A(H, H) el conjunto de aplicaciones

de H en H y ∇ la conexión afin en una variedad riemanniana M , dada por el teorema
de Levi-Civita.
Una curvatura K de una variedad riemanniana M es una correspondencia
K : H × H −→ A(H, H)
definida por:
K(X, Y )Z = ∇Y ∇X Z − ∇X ∇Y Z + ∇[X,Y ] Z.
Observación 2.7.1 Si la variedad M = IRn , entonces K(X, Y )Z = 0, para todo

X, Y, Z ∈ H. En efecto, basta indicar Z = (z1 , z2 , ..., zn ) las componentes del campo
Z en las coordenadas naturales de IRn y la conexión definida por:
∇X Z = (Xz1 , Xz2 , ..., Xzn ).
Observación 2.7.2 Si consideramos un sistema de coordenadas (U, X ) en torno del

punto p y {Xi } , i = 1, 2, ..., n es una base de Tp M obtenemos:

K(Xi , Xj )Xk = ∇Xi ∇Xj − ∇Xj ∇Xi Xk .
Observación 2.7.3 La curvatura K es antisimétrica. En efecto,
K(X, Y )Z + K(Y, X)Z = ∇[X,Y ] Z + ∇[Y,X] Z, para todo Z ∈ H.
Como [X, Y ] = −[Y, X], entonces:
K(X, Y )Z + K(Y, X)Z = 0, para todo Z ∈ H,
y ası́,
K(X, Y ) = −K(Y, X).
38
Proposición 2.7.1 La curvatura K de una variedad riemanniana es trilineal, en el
siguiente sentido:
a. K es bilineal en H × H, esto es,
K(f X1 + gX2 , Y1 ) = f K(X1 , Y1 ) + gK(X2 , Y1 ),
K(X1 , f Y1 + gY2 ) = f K(X1 , Y1 ) + gK(X1 , Y2 ),
donde f, g ∈ D(M ) y X1 ,X2 , Y1 , Y2 ∈ H.
b. Para todo par X, Y ∈ H, el operador curvatura K(X, Y ) : H −→ H es lineal,

esto es,
K(X, Y )(Z + W ) = K(X, Y )Z + K(X, Y )W,
K(X, Y )(f Z) = f K(X, Y )Z,
donde f ∈ D(M ) y Z, W ∈ H.
Proposición 2.7.2 Sea (U, X ) un sistema de coordenadas en torno de p ∈ M y {Xi }

una base de Tp M en este sistema de coordenadas. Entonces:
n
X
l
K(Xi , Xj )Xk = Kijk Xl ,
l=1
l
donde las componentes Kijk son dadas por:
n
X n
X
l
Kijk = Xj Γlik − Xi Γljk + Γsik Γljs − Γsjk Γlis .
s=1 s=1
n
P
Observación 2.7.4 Si en las coordenadas (U, X ) escribimos: X = ui Xi , Y =
i=1
n
P n
P
v j Xj , Z = wk Xk , por la linealidad de K tenemos:
j=1 k=1
n
X
l
K(X, Y )Z = Kijk ui v j wk Xl .
i,j,k,l=1
Ejemplo 2.7.1 Sea M = IRn++ ó M = C0n con estructura de variedad riemanniana

representada por la matriz G(x) = diag( (h1 (x1 1 ))2 , (h2 (x1 2 ))2 , ..., (hn (x1 n ))2 ). Ya vimos que
sus sı́mbolos de Christoffel son:
−1 ∂(hi (xi ))
Γm
ij = δim δij .
hi (xi ) ∂xi
39
n
P n
P n
P
Si en las coordenadas (U, X ) escribimos: X = ui Xi , Y = v j Xj , Z = wk Xk ,
i=1 j=1 k=1
de la tri-linealidad de K tenemos:
n
X
K(X, Y )Z = ui v j wk K(Xi , Xj )Xk .
i,j,k=1
Por definición de curvatura:
K(Xi , Xj )Xk = ∇Xj (∇Xi Xk ) − ∇Xi (∇Xj Xk ) + ∇[Xi ,Xj ] Xk ,
como la conexión es de Levi Civita se tiene [Xi , Xj ] = 0. Ası́,
K(Xi , Xj )Xk = ∇Xj (∇Xi Xk ) − ∇Xi (∇Xj Xk ).
Si i = j, entonces K(Xi , Xj )Xk = 0.

Supongamos que i 6= j, entonces
n
X
∇Xi Xk = Γjik Xj .
j=1
Sustituyendo los sı́mbolos de Christoffel tenemos:

n
!
X 1 ∂(hi (xi )) 1 ∂(hi (xi ))
∇Xi Xk = − δij δik Xj = − δik Xi (2.11)
j=1 hi (xi ) ∂xi hi (xi ) ∂xi
luego tomando ∇Xj se tiene:

!
1 ∂(hi (xi ))
∇Xj (∇Xi Xk ) = ∇Xj − δik Xi ,
hi (xi ) ∂xi
n
P ∂f
por definición de conexión afin ∇X (f Y ) = f ∇X Y +X(f )Y donde X(f ) = ai (.) ∂x i
,
i=1
entonces tenemos:
!
1 ∂(hi (xi )) 1 ∂(hi (xi ))
∇Xj (∇Xi Xk ) = − δik ∇Xj Xi + Xj − δik Xi .
hi (xi ) ∂xi hi (xi ) ∂xi
Usando (2.11) y dado que i 6= j, el primero y segundo término de la suma anterior,

es igual a cero. Por tanto:
∇Xj (∇Xi Xk ) = 0.
Análogamente,
∇Xi (∇Xj Xk ) = 0.
40
De ambos resultados se tiene:
K(Xi , Xj )Xk = 0, ∀ i, j, k = 1, 2, ...n.
Ası́ K(X, Y )Z = 0. Luego las variedades riemannianas IRn++ y C0n con métrica G(x)
tienen curvatura cero. En particular, con las métricas I, X −r , para IRn++ y cosec4 (πx),
X −r (I − X)−r para C0n , son variedades de curvatura cero.
Curvatura Seccional.
Intimamente relacionado con el operador curvatura K está la curvatura seccional (o
riemanniana) que definiremos a seguir.
Sea M una variedad riemanniana y σ un subespacio bidimensional de Tp M . Definimos
la forma cuadrática como Q : σ → IR tal que:
Q(x, y) = hx, xihy, yi − hx, yi2 .

q
Geométricamente Q(x, y) representa el área del paralelogramo definido por x e y.
Proposición 2.7.3 Sea σ ⊂ Tp M un subespacio bidimensional y x, y ∈ σ, dos vec-

tores linealmente independientes. Entonces,
hK(x, y)x, yi
K(x, y) = ,
Q(x, y)
no depende de la elección de los vectores x y y.
Definición 2.7.2 (Curvatura Seccional). Dado un punto p ∈ M y σ ⊂ Tp M. El

número K(x, y) = K(σ), donde {x, y} es una base de σ, es llamado “Curvatura
Seccional de M ”.
Si K(x, y) ≤ 0 para todo x, y ∈ σ entonces, la curvatura seccional de la variedad

riemanniana es no positiva.
Si K(x, y) ≥ 0 para todo x, y ∈ σ entonces, la curvatura seccional de la variedad
riemanniana es no negativa.
41
2.8 Gradiente y Hessiana en una variedad riema-
nniana
Sea M una variedad riemanniana y f : M −→ IR una función diferenciable. Dado
p ∈ M sabemos que la diferencial de f en el punto p es un funcional lineal definido
en Tp M, entonces por el teorema de representación de Riesz existe un único elemento
denotado por ∇M f (p) ∈ Tp M tal que para todo v ∈ Tp M se tiene
dfp (v) = h∇M f (p), vi (2.12)
y
k∇M f (p)k = kdfp k,
esto es, la aplicación diferencial se puede caracterizar por la aplicación de producto

interno. Ası́ podemos definir un campo vectorial grad f : M −→ T M, como
grad f (p) = ∇M f (p).
La expresión (2.12) puede ser escrita como:
dfp (X(p)) = hgrad f (p), X(p)i, para todo X ∈ H,
y ası́ también podemos definir una aplicación df : H −→ M ∗ = L(M, IR), donde

L(M, IR) es el conjunto de funciones en M en IR, tal que:
df (X) = hgrad f, Xi.
d
Además, dfp (X(p)) = dt
(f ◦ γ)|t=0 para alguna curva γ : I −→ M con γ(0) = p y
n
P ∂f
γ ′ (0) = X(p), luego tenemos que dfp (X(p)) = γi′ (0) ∂x i
(p) = X(f )(p), por tanto
i=1
df (X) = hgrad f, Xi = X(f ).
Ası́ llegamos a la siguiente definición.
Definición 2.8.1 El gradiente de una función diferenciable f : M −→ IR es un

campo vectorial grad f : M −→ T M metricamente equivalente a la diferencial, esto
es,
dfp (X(p)) = hgrad f (p), X(p)i = X(p)f, para todo X ∈ H.
42
Observación 2.8.1 Sea M ⊂ IRn una variedad riemanniana con la métrica definida
por hv, wix = v T G(x)w donde G(x) es una matriz simétrica definida positiva. Se
puede caracterizar el campo gradiente como:
grad f (q) = G−1 (q)f ′ (q),
∂f ∂f
donde G−1 (q) = (g ij (q)) es la matriz inversa de G(q) y f ′ = ( ∂x 1
, ..., ∂x n
) es el vector
de derivadas parciales de la función f ◦ X . En efecto,
D E
dfq (v) = f ′ (q)T v = f ′ (q)T (G(q)−1 )T G(q)v = (G(q)−1 f ′ (q))T G(q)v = G(q)−1 f ′ (q), v .
q
Ejemplo 2.8.1 Sea la variedad riemanniana IRn con la métrica euclidiana G = I,

entonces grad f (x) = f ′ (x) (el gradiente usual).
Ejemplo 2.8.2 Sea la variedad riemanniana IRn++ con la expresión de la métrica

!
1 1
G(x) = diag 2
, ..., ,
(h1 (x1 )) (hn (xn ))2
para funciones hi : IR++ −→ IR++
grad f (x) = diag(h1 (x1 ))2 , ..., (hn (xn ))2 )f ′ (x).
En particular:
1. Si hi (xi ) = xi entonces:
grad f (x)f (x) = X 2 f ′ (x),
donde denotamos X = diag(x1 , ..., xn ).

r
2. Si hi (xi ) = xi2 , r 6= 2 entonces:
grad f (x)f (x) = X r f ′ (x).
Ejemplo 2.8.3 Sea la variedad riemanniana C0n = (0, 1)n con la expresión de la
métrica dada por G(x) = csc 4 (πx) = diag(csc 4 (x1 ), ..., csc 4 (xn )), entonces
grad f (x)f (x) = sen 4 (πx)f ′ (x),
donde sen(X) = diag(sen(x1 ), ..., sen(xn )).
43
Definición 2.8.2 Sea M una variedad riemanniana y p ∈ M . Decimos que p es
punto crı́tico si grad f (p) = 0.
Definición 2.8.3 (Hessiana de una función). Sea f : M −→ IR una función de

clase C k , k ≥ 2. La Hessiana de f , denotada por H f , es definida como la derivada
covariante del campo gradiente, esto es,
D
Hf = (grad f ) .
dt
Ası́, la Hessiana en el punto p, en la dirección de v ∈ Tp M es:
D
Hpf (v) = (grad f ) (p) = ∇v grad f (p).
dt
A partir del concepto de Hessiana podemos definir las aplicaciones Hpf : Tp M −→

Tp M y H f : M −→ L(T M, T M ) donde L(T M, T M ) es el conjunto de aplicaciones
lineales de T M en T M y H f (p) = Hpf ∈ L(Tp M, Tp M ).
Proposición 2.8.1 Para cada p ∈ M , el operador Hpf : Tp M −→ Tp M es lineal y

autoadjunto, esto es, hHpf (v), wip = hv, Hpf (w)ip .
De la Proposición anterior, para cada p ∈ M podemos introducir una forma cuadrática

qpf : Tp M × Tp M −→ IR definida por:
qpf (v, w) = hHpf v, wip .
Más generalmente, podemos definir la aplicación q f : H × H −→ L(M, IR) dada por:
q f (X, Y ) = h∇X grad f, Y i. (2.13)
La función definida en (2.13) tiene la desventaja de depender del conocimiento de la

métrica y de la conexión, cuando sabemos que la métrica determina una conexión
afin (Teorema de Levi Civita), por tanto la proposición siguiente es importante para
poder obtener una caracterización adecuada.
Proposición 2.8.2 Para todo X, Y ∈ H
q f (X, Y ) = (XY − ∇X Y )f = (Y X − ∇Y X)f.
44
Observación 2.8.2 En un sistema de coordenadas (X , U ) en terminos de la base
{Xk } tenemos: !
n
X
f
q (Xi , Xj ) = Xi Xj − Γm
ij Xm f,
m=1
esto es: !
n
f ∂2f X ∂f
q (Xi , Xj ) = hHpf Xi , Xj i = − Γm
ij . (2.14)
∂xi ∂xj m=1 ∂xm
Ejemplo 2.8.4 Sea la variedad riemanniana IRn con métrica G(x) = I; como vimos
anteriormente, los sı́mbolos de Christoffel son Γm
ij = 0, para todo i, j, m = 1..., n,
entonces la matriz Hessiana es la Hessiana usual Hpf (p) = f ′′ (p).
δij
Ejemplo 2.8.5 Sea la variedad riemanniana IRn++ con la métrica gij = hi (xi )hj (xj )
.
Sabemos que los sı́mbolos de Christoffel son:
−1 ∂hi (xi )
Γm
ij = δim δij ,
hi (xi ) ∂xi
entonces:
n
f
X 1 ∂hi (xi )
q (Xi Xj ) = Xi Xj + δim δij Xm .
m=1 hi (xi ) ∂xi
Si m 6= j entonces δim δij = 0, luego se tiene:
!
f ∂2 1 ∂hi (xi ) ∂
q (Xi , Xj ) = + δij f.
∂xi ∂xj hi (xi ) ∂xi ∂xi

Ası́, Hxf = q f (Xi )(Xj ) es la matriz que representa la Hessiana de la función f .
Aún podemos dar una representación matricial
1 −1
Hxf = f ′′ (x) + G(x) 2 (G(x) 2 )′ F ′ (x),
donde:

∂f (x) ∂f (x)
F ′ (x) = diag ∂x1
, ∂x2 , ..., ∂f∂x(x)
n
.

1 1
G(x) = diag ,
(h1 (x1 ))2 (h2 (x2 ))2
, ..., (hn (x1 n ))2 .
2 2 2
f ′′ (x) = diag( ∂∂xf2 , ∂∂xf2 , ..., ∂x
∂ f
2 ).
1 2 n
En particular:
45
1. Si hi (xi ) = 1 entonces Hxf = f ′′ (x) la matriz Hessiana usual.
2. Si hi (xi ) = xi entonces Hxf = f ′′ (x) + X −1 F ′ (x).

r
3. Si hi (xi ) = xi2 , r 6= 2, entonces: Hxf = f ′′ (x) + 2r X −1 F ′ (x).
Corolario 2.8.1 Si p ∈ M es un punto crı́tico de f y X, Y ∈ H, entonces:
Hpf (X(p), Y (p)) = X(p)Y (p)f.
Demostración. Hpf (X(p), Y (p)) = X(p)(Y (p)f ) − h∇X(p) Y (p), grad f (p)i, y como
grad f (p) = 0, se sigue el Corolario.
De este corolario, se deduce que si p ∈ M es un punto crı́tico de f entonces la matriz
Hessiana de f , calculada en este punto, coincide con la matriz Hessiana usual.
2.9 Variedades completas

Todos los algoritmos desarrollados en Optimización, en la perspectiva de la ge-
ometrı́a riemanniana, necesitan de la hipótesis de variedad completa, que en términos
simples significa que la geodésica, contenida en ella, está definida para todos los val-
ores de t ∈ IR. El Teorema de Hopf y Rinow de gran importancia y utilidad en las
aplicaciones el cual enunciaremos porteriormente, dice: Dados dos puntos cualquiera
de la variedad completa existe siempre una geodésica que minimiza la longitud de
arco entre todas las curvas regulares por partes que unen tales puntos.
Una pregunta natural serı́a, si se podrı́a desarrollar métodos geodésicos donde la
hipótesis de variedad completa sea más suave, por ejemplo, introduzir una medida
en la variedad a partir del producto interno del espacio tangente donde la geodésica
esté definida en casi todos los puntos y los puntos donde la geodésica no sea definida,
pertenezca a un conjunto de medida nula.
Restringiendonos a las variedades completas, desarrollamos esta teorı́a de manera
resumida.
Definición 2.9.1 Una variedad riemanniana M es llamada (geodésicamente) com-

pleta si para todo p ∈ M , las geodésicas que parten de p estan definidas para todos
los valores del parámetro t ∈ R.
46
Ejemplo 2.9.1 IRn con la métrica euclidiana G(x) = I, es (geodesicamente) com-
pleta, pues dado un punto cualquiera x ∈ M y una dirección arbitraria v ∈ Tx M ,
vimos que la i-ésima componente de la geodésica que cumple las condiciones iniciales
αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n, es dado por: αi (t) = xi + tvi , para todo
i = 1, 2, ..., n, lo que está definida para todo t ∈ IR.
Ejemplo 2.9.2 IRn++ con la métrica G(x) = X −2 es (geodésicamente) completa, pues

dado un punto cualquiera x ∈ M y una dirección cualquiera v ∈ Tx M , vimos que la
i-ésima componente de la geodésica cumpliendo las condiciones iniciales αi (0) = xi
y αi′ (0) = vi , para todo i = 1, ..., n es : αi (t) = xi exp( xvii t) la cual está definido para
todo t ∈ IR.
Ejemplo 2.9.3 C0n = (0, 1)n con la métrica dada por:
G(x) = csc 4 (πx) = diag(csc 4 (πx1 ), ..., csc 4 (πxn ))
es (geodesicamente) completa pues dado un punto arbitrário x ∈ M y una dirección

cualquiera v ∈ Tx M, vimos que la i-ésima componente de la geodésica cumpliendo las
condiciones iniciales αi (0) = xi y αi′ (0) = vi , para todo i = 1, ..., n es:
1
αi (t) = arccot −πcsc2 (πxi )vi t + cot(πxi ) ,
π
para todo i = 1, 2..., n.
En adelante consideramos que la variedad riemanniana estudiada tiene la propriedad

de conexidad, esto es, para cualquier par de puntos p, q de M existe una curva difer-
enciable contenida en M , γ : [a, b] :→ M , tal que γ(a) = p y γ(b) = q.
Definición 2.9.2 Dados dos puntos p y q en M , la distancia riemanniana de p a q

en la variedad, denotada por d(x, y), es definida por
Z b
d(p, q) = Inf
γ
kγ ′ (t)kdt (2.15)
a
donde γ : [a, b] → M es una curva diferenciable tal que γ(a) = p y γ(b) = q.
Proposición 2.9.1 Con la distancia geodésica (2.15) M es un espacio métrico.
47
Teorema 2.9.1 (Hopf-Rinow) Sea M una variedad riemanniana y sea p ∈ M . Las
siguientes afirmaciones son equivalentes:
a) Limitados y cerrados son compactos.
b) M es completo como espacios métrico.
c) M es geodesicamente completa.
d) Para todo q ∈ M existe una geodésica uniendo p y q con:

Z b
d(p, q) = Inf γ
kγ ′ (t)kdt,
a
esto es, el mı́nimo de (2.15) es obtenida por una geodésica.
Ejemplo 2.9.4 Sea la variedad riemanniana IRn++ con expresión de la métrica G(x) =
X −2 . Dados p y q en IRn++ , existe una única geodésica uniendo p a q. En efecto, sea
γi (t) = pi exp( vpiit ) y αi (t) = pi exp( wpiit ) las i-ésimas componentes que satisfazen las
condiciones iniciales:
γi (0) = αi (0) = pi ,
γi (t0 ) = αi (t0 ) = qi .
Se puede verificar que vi = wi para todo i = 1, ..., n. En efecto, tomando el valor

t = t0 tenemos que para todo i = 1, ..., n: qi = pi exp( vpi ti0 ) = pi exp( wpiit0 ) dividiendo por
pi , tomando logaritmo y multiplicando por pi /t0 tenemos vi = wi y ası́ γi (t) = αi (t)
para todo t ∈ IR. Además:
a). Debido a que qi = pi exp( pvii ) entonces vi = pi ln( pqii ).

γi′ (t) γi′ (t)
b). γi (t)
= vi
pi
entonces γi (t)
= 1
t0
ln2 ( pqii ) ası́:
 " !#2  12
Z Xn 
t0 qi
d(p, q) = kγ ′ (t)kdt = ln .
0  pi 
i=1
Ejemplo 2.9.5 Sea la variedad riemanniana C0n = (0, 1) con la expresión de la

métrica riemanniana G(x) = csc4 (πx). Dados p y q en C0n , existe una única geodésica
que une p y q. Además tenemos:
48
1
a). qi = γi (t0 ) = π
arccot (−πcsc2 (πpi )vi t0 + ctg(πpi )) , para todo i = 1, ..., n, en-
tonces
cot(πqi ) − cot(πpi )
vi = − .
πt0 csc2 (πpi )
γi′ (t)
b). sen2 (πγi (t))
= ai = csc2 (πpi )vi . Substituyendo el valor de vi y elevando al
cuadrado tenemos:
!2
γi′ (t) 1
= a2i = {cot(πqi ) − cot(πpi )}2
sen2 (πγi (t)) π 2 t20
usando estos hechos tenemos:

Z n
( )1
t0
′ 1 X 2
d(p, q) = kγ (t)kdt = [cot(πqi ) − cot(πpi )]2 .
0 π i=1
Teorema 2.9.2 Ley de cosenos. Sea M una variedad riemanniana completa con
curvatura seccional no negativa, en un triángulo geodésico normalizado tal que γ1 , γ2 ,
γ3 segmento de geodésicas minimizantes. Vale la desigualdad
c2 ≤ a2 + b2 − 2a b cosα (2.16)
donde α = arg(γ1′ (0). − γ3′ (l3 )), a = L(γ1 ), b = L(γ3 ), c = L(γ2 ), L, longitud de
geodésica
49
Capı́tulo 3
El Problema de Optimización y sus

Condiciones de Optimalidad
Diversos fenómemos naturales son estudiados a través de modelos matemáticos, en

especial por modelos presentados por un problema de optimización el cual mostraremos
más adelante. En estos modelos, es necesario garantizar inicialmente las condiciones
para la existencia y caracterización de puntos óptimos, para luego desarrollar un al-
goritmo adecuado que resuelva algunos modelos matemáticos de optimización, en tal
sentido, definimos el conjunto sobre el cual estamos trabajando, es decir conoceremos
lo que és una variedad convexa y en ella estudiamos una clase particular de funciones
llamadas convexas y cuasi-convexas.
Para el desarrollo de este Capı́tulo, iniciamos con algunas definiciones elementales,
que serán de gran utilidad al resolver un problema de optimización.
Definición 3.0.3 (Mı́nimo: global, local, estricto). Sea M una variedad riema-
nniana completa y f : M −→ IR una función.
1. x̄ ∈ M es un mı́nimo global de f si, f (x̄) ≤ f (x), para todo x ∈ M.
2. x̄ ∈ M es un mı́nimo local de f si, existe δ > 0 tal que:
f (x̄) ≤ f (x), para todo x ∈ B(x̄, δ),
donde B(x̄, δ) = {x ∈ M, d(x̄, x) < δ} .
50
3. x̄ ∈ M es mı́nimo local estricto si, existe δ > 0 tal que f (x̄) < f (x), para todo
x 6= x̄, x ∈ B(x̄, δ).
El problema de interés será resolver el siguiente modelo:
min f (x)
(3.1)
x∈M
que significa encontrar los mı́nimos globale de una función f sobre M, y es denominado
“Problema de Minimización”, sujeta generalmente a algunas restricciones sobre su
dominio.
El modelo (3.1) resuelve también el “Problema de Maximización”.
max f (x)
x∈M
para ello basta definir f (x) = −g(x).
3.1 Existencia de puntos de mı́nimo global

Definición 3.1.1 Una función f : M −→ IR es denominada semicontinua inferior
en x̄ ∈ M, si para toda sucesión {xk } de M convergente a x̄ se tiene que:
lim inf f (xk ) ≥ f (x̄).

k→∞
Si f es semicontinua inferior para todo x ∈ M, entonces decimos que f es semicon-

tinua inferior en M.
El siguiente Teorema garantiza la existencia de un punto de mı́nimo global para el

problema (3.1).
Teorema 3.1.1 (Weierstrass) Considere el problema (3.1), si f : M −→ IR es semi-

continua inferior y M es compacto, entonces existe un punto de mı́nimo global de
f.
Demostración. Mostraremos inicialmente que f es limitada inferiormente, esto es,

existe α ∈ IR tal que:
α ≤ f (x), para todo x ∈ M.
51
Por contradicción, supongamos que f no es limitada inferiormente, entonces existe
una sucesión {xk } ⊂ M tal que:
lim f (xk ) = −∞. (3.2)

k→+∞
Dado que M es compacto, entonces existe una subsucesión {xkj } ⊂ {xk } tal que:
lim xkj = xb,

j→+∞
por la semicontinuidad inferior de f tenemos:
lim inf f (xkj ) ≥ f (xb),

j→+∞
lo que contradice a (3.2), por lo tanto f es limitada inferiormente en M. De aquı́

existe f ∗ ∈ IR tal que f ∗ = inf {f (x) : x ∈ M }. Por propiedad de ı́nfimo, existe una
sucesión {xk } ⊂ M tal que:
lim f (xk ) = f ∗ .
k→∞
Por la compacidad de M, existe x̄ y {xkj } ⊂ {xk } tal que limj→∞ xkj = x̄ ∈ M.

Nuevamente, por la semicontinuidad inferior de f
lim inf f (xkj ) ≥ f (x̄).

j→∞
Como {f (xk )} converge a f ∗ , la subsucesión {f (xkj )} converge a f ∗ obteniendo que
f ∗ ≥ f (x̄),
ası́, x̄ es un punto de mı́nimo global de f en M .
3.2 Caracterización de puntos de mı́nimo local

Presentamos en esta Sección las condiciones necesarias y suficientes de optimalidad
local para el problema (3.1).
Teorema 3.2.1 (Condición necesaria de primer orden). Sea f : M → IR de clase

C 1 . Si x∗ es un punto de mı́nimo local, entonces grad f (x∗ ) = 0.
52
Demostración. Tomemos v ∈ Tx∗ M y una curva geodésica γ : IR → M con
condiciones γ(0) = x∗ y γ ′ (0) = v. Definamos la aplicación h : IR → IR tal que
h(t) = f (γ(t)). Como x∗ es punto de mı́nimo local para f, entonces existe δ > 0 tal
que
h(0) = f (x∗ ) ≤ f (γ(0)) = h(t),
para todo t ∈ (−δ, δ) lo que implica que en t = 0 tenemos un punto de mı́nimo local
de h. Por la condición necesaria de primer orden en IR se tiene
h′ (0) = hgrad f (x∗ ), vi = 0.
Tomando en particular v = grad f (x∗ ) tenemos que grad f (x∗ ) = 0.
Teorema 3.2.2 (Condición necesaria de segundo orden). Sea f : M → IR de clase

C 2 . Si x∗ es punto de mı́nimo local, entonces hv, Hxf∗ vi ≥ 0, ∀ v ∈ Tx∗ M.
Demostración. Sea v ∈ Tx∗ M, y γ : IR → M una geodésica con γ(0) = x∗ , γ ′ (0) = v.

Definimos h : IR → IR tal que h(t) = f (γ(t)). Del Teorema 3.2.1, en t = 0 tenemos un
punto de mı́nimo local de h, entonces por la condición necesaria de segundo orden:
h′ (0) = 0, luego h′′ (0) ≥ 0.
Veamos:
h′ (t) = hgrad f (γ(t)), γ ′ (t)i
d
h′′ (t) = dt
hgrad f (γ(t)), γ ′ (t)i
D E D E
D D
= dt
(grad f (γ(t))), γ ′ (t) + grad f (γ(t)), dt (γ ′ (t))
D E
f
= Hγ(t) γ ′ (t), γ ′ (t)
D E D E
= v, Hxf∗ v) = Hxf∗ v, v) ≥ 0.
Teorema 3.2.3 (Condición suficiente de segundo orden). Sea f : M −→ IR de clase

C 2 . Si x∗ ∈ M que satisface:
a) grad f (x∗ ) = 0.
b) Hxf∗ definida positiva.
Entonces, x∗ es un punto de mı́nimo local estricto de f.
53
Demostración. Por contradicción. Supongamos que x∗ no es punto de mı́nimo local
estricto, entonces existe una subsucesión {xk } ∈ B(x∗ , k1 )/{x∗ } tal que:
f (x∗ ) ≥ f (xk ). (3.3)
Sea la geodésica minimal γk : [0, 1] → IR tal que γk (0) = x∗ , γk (1) = xk , γk′ (0) = vk

y d(x∗ .xk ) = expx∗ xk . Definimos h : IR → IR tal que h(t) = (f ◦ γk )(t) y por el
desarrollo de Taylor de segundo orden de h en 0 :
′ 1 2 ′′ 2 θ(|t|2 )
h(t) = h(0) + th (0) + t h (0) + θ(|t| ), donde, lim = 0,
2 t→0 |t|2
esto es,

t2 D
∗
f (γk (t)) = f (x ) + grad f (x∗ )vk , vk + θ(|t|2 ).
2 dt
Evaluando en t = 1
1D E
f (xk ) = f (x∗ ) + vk , Hxf∗ vk + θ(d2 (x∗ , xk )) (3.4)
2
θ(d2 (x∗ , xk )
donde: lim = 0.
d→0 d2 (x∗ , xk )
Definamos z k = kvvkk k , la sucesión {z n } es limitada, entonces existe una subsucesión
{z kj } ⊂ {z k } tal que {z kj } → z̄. Substituyendo en (3.4) k por kj , tenemos:
1D E
f (xkj ) = f (x∗ ) + vkj , Hxf∗ vkj + θ(d2 (x∗ , xkj )) (3.5)
2
θ(d2 (x∗ , xkj )
donde: lim = 0.
d→0 d2 (x∗ , xkj )
De la relación (3.3) y tomando lı́mite en (3.5) cuando j → ∞, obtenemos:
D E
0 ≥ z̄, Hxf∗ z̄ ,
lo que contradice la hipótesis b) del Teorema 3.2.3. Por tanto, x∗ es un punto de

mı́nimo local estricto.
3.3 Elementos del análisis convexo

La teorı́a del análisis convexo en variedades riemannianas fueron estudiadas por
RAPCSÁK (1997), [21] y UDRISTE (1997), [24]. Rapsáck considera una variedad
54
diferenciable con métrica induzida de IRn , obteniendo caracterizaciones de primer
y segundo orden. UDRISTE consideró el estudio sobre una variedad riemanniana
abstracta generalizando (independientemente) la teorı́a de convexidad.
A partir de estos trabajos el estudio del análisis convexo con aplicación a la teorı́a de
Optimización se ha profundizado, vease por ejemplo da CRUZ NETO y OLIVEIRA
(1995),[5], FERREIRA y OLIVEIRA (1998), [10] quienes consideran en sus estudios,
una variedad riemanniana completa con curvatura seccional no negativa, bajo esta
misma perspectiva, desarrollamos básicamente el análisis convexo sobre una variedad
riemanniana.
En esta Sección damos algunas nociones de los elementos del análisis convexo y con
esta misma perspectiva definimos funciones convexas y cuasi-convexas en una variedad
riemanniana.
3.3.1 Convexidad en una variedad riemanniana
Existen diversos puntos de vista en la geometrı́a riemannianna para generalizar el

concepto de convexidad de IRn , los más importantes son los que presentamos en las
siguientes definiciones.
Definición 3.3.1 Sea M una variedad riemanniana completa, se dice que A ⊂ M

es totalmente convexo, si para cualquier par de puntos p y q de A (no necesariamente
distintos), las geodésicas que unen dichos puntos, estan integramente contenidos en
A.
Ejemplo 3.3.1 Si M = IRn con la métrica identidad G(x) = I, cualquier conjunto

convexo en el sentido clásico es totalmente convexo.
Ejemplo 3.3.2 Si p ∈ M y existe una relación geodésica no trivial en p, es decir una

geodésica: γ : [a, b] −→ M tal que γ(a) = p = γ(b) con γ(t) 6= p para algun t ∈ [0, 1],
entonces el conjunto A = {p} no es totalmente convexo. Se deduce de esto que en
general conjuntos unitarios no son totalmente convexos.
Definición 3.3.2 Decimos que A ⊂ M es convexo si para todo par de puntos p y q

de A existe una geodésica minimal que une p y q contenido en A.
55
Ejemplo 3.3.3 El propio M y los conjuntos unitarios son conjuntos convexos.
Definición 3.3.3 f : M −→ IR es llamada función convexa si su restricción a

cualquier geodésica de M es una función convexa en IR, es decir, si γ : IR −→ M es
una geodésica entonces:
f ◦ γ : IR −→ IR
es convexa.
Teorema 3.3.1 f : M −→ R es convexa si, y solamente si, para todo segmento de

geodésica γ : [a, b] −→ M y para cualquier λ ∈ [0, 1] se verifica
f (γ((1 − λ)a + λb)) ≤ (1 − λ)f (γ(a)) + λf (γ(b)).
Demostración. Siendo f convexa, demostraremos que:
f (γ((1 − λ)a + λb)) ≤ (1 − λ)f (γ(a)) + λf (γ(b)) (3.6)
Sea h : IR −→ IR tal que h(t) = f (γ(t)). Para a, b ∈ [a, b] y λ ∈ [0, 1] se tiene
h((1 − λ)a + λb) ≤ (1 − λ)h(a) + λh(b).
De aquı́ se tiene (3.6).

Reciprocamente, sea t = (1 − λ)a + λb con λ ∈ [0, 1] entonces:
f ◦ γ(t) = f (γ((1 − λ)a + λb))
≤ f (γ((1 − λ)a) + f (γ(λb)

= (1 − λ)f (γ(a)) + λf (γ(b))
≤ (1 − λ)f ◦ γ(a) + λf ◦ γ(b).
Observación 3.3.1 La Definición 3.3.3 es la generalización natural de la definición

clásica de función convexa em M = IRn con la métrica usual. En efecto, dados p y q
la geodésica γ : [0, 1] −→ M, que los une es:
γ(λ) = p + λ(q − p) = (1 − λ)p + λq.
Luego, del Teorema 3.3.1 tenemos:
f (γ(λ)) = f ((1 − λ)p + λq) ≤ (1 − λ)f (p) + λf (q)
56
f ((1 − λ)p + λq) = f (γ(λ)) = f ((1 − λ)(0) + λ(1)) ≤ (1 − λ)f (γ(0)) + λf (γ(1))
= (1 − λ)f (p) + λf (p).
Para α ∈ IR, definimos el conjunto de nivel M α = {x ∈ M ; f (x) ≤ α}.
Teorema 3.3.2 Si f : M −→ IR es convexa, entonces M α es totalmente convexo.
Demostración. Sea p, q ∈ M α y la geodésica γ : [a, b] −→ M tal que γ(a) = p y

γ(b) = q.
Probaremos que γ(t) ∈ M α , para todo t ∈ [a, b].
En efecto, sea t = (1 − λ)a + λb para algun λ ∈ [0, 1], como f es convexa y por el
Teorema 3.3.1 se tiene
f (γ(t)) = f (γ(1 − λ)a + λb) ≤ (1 − λ)f (γ(a)) + λf (γ(b))
= (1 − λ)f (p) + λf (q)
≤ (1 − λ)α + λα = α.
Ası́ f (γ(t)) ≤ α, por tanto γ(t) ∈ M α .
Teorema 3.3.3 f : M −→ IR, es convexa en p si y solo si, para cualquier geodésica

γ : IR −→ M con γ(0) = p vale la desigualdad
f (γ(t)) − f (p) ≥ t hgrad f (p), γ ′ (0)i . (3.7)
Demostración. Definimos una aplicación h : IR −→ IR tal que h(t) = f (γ(t)), h es

convexa en 0 desde que f es convexa en p y ası́ se tiene:
h(t) − h(0) ≥ th′ (0),
luego,
f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i .
Reciprocamente, si f (γ(t)) − f (p) ≥ hgrad f (p), γ ′ (0)i , esto es,
h(t) − h(0) ≥ th′ (0),
entonces h es convexa en 0 y por tanto f es convexa en p.
57
Teorema 3.3.4 Si f : M −→ IR es convexa, entonces todo punto crı́tico de f es un
punto de mı́nimo global de f.
Demostración. Sea x ∈ M, debido al Teorema de Hopf-Rinow consideramos una

geodésica γ : IR −→ M tal que γ(0) = x y γ(b) = y, como f es convexa y del Teorema
3.3.3:
f (γ(b)) − f (γ(0)) ≥ b hgrad f (γ(0)), γ ′ (0)i ,
esto es,
f (γ(b)) − f (x) ≥ b hgrad f (x), γ ′ (0)i .
Como grad f (x) = 0 entonces f (y) ≥ f (x), para todo y ∈ M. Por tanto x es punto
de mı́nimo global de f.
Teorema 3.3.5 Sea f : M −→ IR de clase C 2 , f es convexa si, y solamente si, para

todo p ∈ M la Hesiana de f en p
Hpf : Tp M −→ Tp M,
es semidefnida positiva.
Demostración. Sea v ∈ Tp M y p ∈ M y la geodésica γ : IR −→ M tal que γ(0) = p

y γ ′ (0) = v.
Definiendo h : IR −→ IR tal que h(t) = f (γ(t)) sabemos que h es convexa y de clase
C 2 . Del análisis convexo clásico, tenemos que esto es equivalente a h′′ (t) ≥ 0, se tiene
h′ (t) = hgrad f (γ(t)), γ ′ (t)i
y
D E
h′′ (0) = v, Hpf v ≥ 0.
Reciprocamente, si
D E
v, Hpf v ≥ 0,
entonces f es convexo. En efecto, definiendo h : IR −→ IR convexa, entonces se tiene

h = f ◦ γ es convexa.
58
3.3.2 Funciones cuasi-convexas y pseudoconvexas
Definición 3.3.4 Sea M una variedad riemanniana completa y f : M −→ IR una

función real. f es llamada cuasi-convexa en M si para todo x, y ∈ M , t ∈ [0, 1], se
cumple:
f (γ(t)) ≤ max{f (x), f (y)},
para toda curva geodésica γ : [0, 1] −→ M , tal que γ(0) = x y γ(1) = y.
Teorema 3.3.6 Sea f : M → IR una función diferenciable y cuasi-convexa en una

variedad riemanniana completa M y sea x, y ∈ M . Si f (x) ≤ f (y) entonces:
hgrad f (y), γ ′ (0)i ≤ 0,
donde grad f es el gradiente de f y γ es la curva geodésica tal que γ(0) = y y γ(1) = x.
Demostración. Sea la geodésica γ : [0, 1] −→ M tal que γ(0) = y y γ(1) = x.

Definimos h : IR −→ IR tal que h(t) = f ◦ γ(t), usando la aproximación de Taylor de
primer orden de h en t = 0 tenemos:
h(t) = h(0) + th′ (0) + θ(t),
θ(t)
donde: lim . Entonces tenemos:
t→0 t
f (γ(t)) = f (γ(0)) + t hgrad f (γ(0)), γ ′ (0)i + θ(| t|),
como f es cuasi-convexa y f (x) ≤ f (y) tenemos:
t hgrad f (y), γ ′ (0)i ,
dividiendo por t y tomando lı́mite cuando t → 0 se tiene hgrad f (y), γ ′ (0)i ≤ 0.
Definición 3.3.5 Una función diferenciable f : M → IR es pseudoconvexa si, para

todo par de puntos distintos x, y ∈ M y toda curva geodésica que une x a y (γ(0) = x
y γ(1) = y) tenemos:
hgrad f (x), γ ′ (0)i ≥ 0, entonces f (y) ≥ f (x).
59
Teorema 3.3.7 Sea f : M −→ IR una función diferenciable y pseudoconvexa. En-
tonces, x∗ es un mı́nimo global de f si, solamente si, grad f (x∗ ) = 0.
Demostración. Sea la geodésica γ : IR+ → M tal que γ(0) = x∗ y definimos

h : IR → IR con h = f ◦ γ. Por el desarrollo de Taylor de primer orden de h en 0,
h(t) = h(0) + th′ (0) + θ(| t|),
θ(|t|)
donde lim = 0, entonces tenemos:
t→∞ |t|
f (γ(t)) = f (x∗ ) + t hgrad f (x∗ ), γ ′ (0)i + θ(| t|).
Como x∗ es mı́nimo global entonces f (x∗ ) ≤ f (y), en particular para y = γ(t) en-
tonces,
f (y) − f (x∗ ) = t hgrad f (x∗ ), γ ′ (0)i + θ(| t|),
luego,
t hgrad f (x∗ ), γ ′ (0)i + θ(| t|) ≥ 0,
que en el lı́mite cuando t → 0, hgrad f (x∗ ), γ ′ (0)i ≥ 0, finalmente tomando
γ ′ (0) = −grad f (x∗ ),
se tiene grad f (x∗ ) = 0. El recı́proco es inmediato basta usar la definición de f ser

pseudoconvexa.
60
Capı́tulo 4
Método del Máximo Descenso
En este último capı́tulo estudiaremos el método de máximo descenso llamado

también método del gradiente, buscaremos extender la convergencia global del método
utilizando la regla de Armijo generalizado. Para este fin vamos a considerar el prob-
lema de Optimización no lineal
min f (x) (4.1)
x∈M
donde, f : IRn → IR es una función de clase C 1 y M una variedad riemanniana

completa.
El método del máximo descenso genera una sucesión de puntos {xk } dados por:
x0 ∈ M, (4.2)
xk+1 = expxk (−tk grad f (xk )) (4.3)
donde expxk es una aplicación exponencial en el punto xk , tk es un parámetro positivo,

−grad f (x) es el gradiente de f . En el caso de tener M = IRn (el espacio euclidiano)
tenemos que (4.3) es equivalente a:
xk+1 = xk − tk ∇f (xk ).
Ası́, el método de máximo descenso en variedades riemannianas generaliza el método

clásico de máximo descenso en IRn , véase idealmente sobre una superficie de IR3 un
esquema del funcionamiento iterativo del método del gradiente generalizado:
61
Txk M
expxk
−grad f (xk )
α(0) = xk
xk+1
M
α(t)
Figura 4. Esquema del proceso iterativo del método de máximo descenso sobre una
variedad M .
Existen diferentes maneras de escoger el parámetro tk generando consecuentemente
diversos submétodos los cuales para su aplicación, dependerá exclusivamente de su
complejidad computacional, reglas que mostramos a seguir.
Método A: Gradiente con búsqueda exacta
1. Dado xk , calcule el grad f (xk ) sobre el plano tangente Txk M.
2. Determine la geodésica γ(t), t ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) =

−grad f (xk ).
3. Minimize f (γ(t)), t ≥ 0, obteniendo tk y defina:
xk+1 = γ(tk ).
Método B: Gradiente con Regla de Armijo
1. Dado xk , calcule el grad f (xk ) en Txk M.
2. Determine la geodésica γ(t), t ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) =

−grad f (xk ).
3. Hacer:
tk := 2−ik ,
donde ik es el menor entero positivo tal que:

2

f (γ(tk )) ≤ f (xk ) − αtk grad f (xk )
y α ∈ (0, 21 ).
62
Definición 4.0.6 Una función f : M −→ IR es llamada gradiente Lipschitziana con
constante Γ si para todo p, q ∈ M y γ : [0, a] −→ M la geodésica con γ(0) = p y
γ(a) = q se verifica:

grad f (γ(t)) − Pγ(t) grad f (p) ≤ ΓL(t),
para todo t ∈ [0, a], donde Pγ(t) es el transporte paralelo de γ(0) = p a γ(t).
Método C: Gradiente con Pasos fijos
1. Dado xk calcule el grad f (xk ) en Txk M.
2. Determine la geodésica γ(tk ), tk ≥ 0, de M que verifique γ(0) = xk y γ ′ (0) =

−grad f (xk )
3. Dados δ1 > 0 y δ2 > 0 tales que,
δ1 Γ + δ2 > 1,
donde Γ es la constante de Lipschitz asociada al campo gradiente de f, escoger

2
tk ∈ (δ1 , (1 − δ2 )).
Γ
Estamos interesados en resolver el siguiente problema de optimización:
(p) min f (x)

x∈M
donde M es una variedad riemanniana conexa, completa de dimensión finita y f :

M → IR es una función continuamente diferenciable y cuasi-convexa.
Hipótesis A1.
El conjunto de puntos óptimos globales del problema (p), denotado por X ∗ , es no
vacio.
Denotamos el valor óptimo de (p) por f ∗ . Ahora, definamos el siguiente conjunto
U := {x ∈ M : f (x) ≤ inf f (xk )}.

k
El siguiente Lema es un resultado de gran interés el cual será usado para probar que
la sucesión, generada el método de máximo descenso es cuasi-Fejér convergente a U.
63
Lema 4.0.8 Sea f : M → IR una función continuamente diferenciable y cuasi-
convexa en una variedad riemanniana conexa, completa y de dimensión finita con
curvatura seccional no negativa, entonces
d2 (xk+1 , x) ≤ d2 (xk , x) + t2k ||grad f (xk )||2 ,
para todo x ∈ U y todo tk > 0.
Demostración. Sea x ∈ U arbitrário. Sea también γ1 : [0, l1 ] → M la geodésica

minimal que une xk y x con γ(0) = xk , kγ ′ (0)k = 1 y γ2 : [0, 1] → M una geodésica
que une xk y xk+1 , esto es γ2 (0) = xk , γ2 (1) = xk+1 con γ2′ (0) = −tk grad f (xk ). Por
propiedad de homogeneidad de las geodésicas, γ2 es reparametrizada tal que:
γ2 : [0, tk ||grad f (xk )||] → M,
tal que γ2 (tk ||grad f (xk )||) = xk+1 y ahora tenemos
kγ2′ (0)k = 1.
Del Teorema 2.9.2 tenemos:

D E
d2 (xk+1 , x) ≤ d2 (xk , x) + t2k ||grad f (xk )||2 + 2tk d(xk , x) grad f (xk ), γ1′ (0) .
Como f es cuasi-convexa y f (x) ≤ f (xk ), del Teorema 3.3.6 obtenemos que:

D E
grad f (xk ), γ1′ (0) ≤ 0.
Usando este resultado en la desigualdad anterior obtenemos el resultado deseado.
4.1 Método con búsqueda de Armijo generalizado

LARRY ARMIJO (1966),[2], publicó su trabajo: “Minimization of functions hav-
ing lipschitz continuous firts partial derivatives”, en el que demuestra la convergencia
del método del gradiente, a partir de entonces sus resultados son utilizados conve-
nientemente en la búsqueda de mejoras o extensiones teóricas computacionales. Para
nuestro objetivo, desarrollamos el método del gradiente sobre variedades riemannia-
nas utilizando la regla de Armijo generalizado.
64
En esta Sección probamos la convergencia global de este método para el caso cuasi-
convexo. Estos resultados son una generalización de KIWIEL y MURTY (1996), [14],
para variedades riemannianas y extiende resultados previos de convergencia obtenidos
hasta este momento, para el caso convexo por BURACHIK et al. (1995), [4] y CRUZ
NETO et al. (1999), [6].
El método del máximo descenso con regla de Armijo genera una sucesión de puntos
{xk } dados por (4.2)-(4.3) donde se satisfacen las siguientes hipótesis:
Hipótesis A2.
Sea φ : IR+ −→ IR+ una función tal que:
A2.1 Existe α ∈ (0, 1), τα > 0, tal que ∀t ∈ (0, τα ] : φ(t) ≤ αt,
A2.2 Existe β > 0, τβ ∈ (0, +∞], tal que ∀t ∈ (0, τβ ) ∩ IR: φ(t) ≥ βt2 ,
A2.3 Para todo k, f (xk+1 ) ≤ f (xk ) − φ(tk )||grad f (xk )||2 y 0 < tk ≤ τβ en (4.3),
A2.4 Existe γ > 1, τγ > 0, tal que ∀k : tk ≥ τγ o

h i
existe t̄k ∈ [tk , γtk ] : f (expxk (−t̄k grad f (xk ))) ≥ f (xk ) − φ(t̄k )||grad f (xk )||2 .
Observación 4.1.1 Observemos que la hipótesis A2 es satisfecha por la regla de

Armijo para estos valores: φ(t) = αt, β = α, γ = 2 y τα = τβ = τγ = 1.
Observación 4.1.2 La hipótesis A2 tambiém es satisfecha por el método del gradi-

ente con pasos fijos introduzida en BURACHIK et al. (1995), [4], y generalizada
para variedades riemannianas por CRUZ NETO,LIMA y OLIVEIRA, [6]. En efecto,
en las referencias mencionadas la regla para obtener tk es la siguiente:
Dados δ1 y δ2 tal que δ1 Γ + δ2 < 1, donde Γ es la constante de Lipschitz asociada al
grad f, escoger

2
tk ∈ δ1 , (1 − δ2 ) .
Γ
Γδ2
Definiendo φ(t) = βt2 , con β = 2(1−δ2 )
, τγ = δ1 , τβ = (2/Γ)(1 − δ2 ), α ∈ (0, 1)
arbitrario y τα = α/β, garantizamos la hipótesis A2.
Proposición 4.1.1 Sea f : M → IR una función continuamente diferenciable y

cuasi-convexa. Suponga que las hipótesis A1 y A2 son satisfechas. Entonces la
65
sucesión {xk } generada por el método del gradiente con regla de Armijo generalizada
es cuasi-Fejér convergente a U.
Demostración. De las hipótesis A2.2 y A2.3 tenemos
βt2k ||grad f (xk )||2 ≤ f (xk ) − f (xk+1 ). (4.4)
Esto implica que

+∞
X f (x0 ) − f ∗
t2k ||grad f (xk )||2 ≤ < +∞.
k=0 β
Del Lema 4.0.8 y la Definición 1.2.8 tenemos el resultado.
Teorema 4.1.1 Sea f : M → IR una función continuamente diferenciable y cuasi-

convexa. Suponga que las hipótesis A1 y A2 son satisfechas. Entonces la sucesión
{xk } generada por el método del gradiente con regla de Armijo generalizado converge.
Además, converge para un punto estacionário (un punto x̄ tal que grad f (x̄) = 0).
Demostración. De la Proposición 4.1.1, {xk } es cuasi-Fejér convergente en U, por

tanto {xk } es limitado por el Teorema 1.2.1. Entonces existen x̄ y una subsucesión
{xkj } de {xk } que converge para x̄. De la continuidad de f obtenemos:
lim f (xkj ) = f (x̄).

j→+∞
Debido a que {f (xk )} es una sucesión no creciente, ver (4.4), con una subsucesión
que converge para f (x̄), toda la sucesión converge para f (x̄) y ası́
f (x̄) ≤ f (xk ), para todo k ∈ IN .
Esto implica que x̄ ∈ U. Ahora, del Teorema 1.2.1, concluimos que {xk } converge
para x̄. Finalmente, probaremos que grad f (x̄) = 0. Por contradicción, supongamos
que grad f (x̄) 6= 0.
Claramente, tenemos que grad f (xk ) → grad f (x̄) 6= 0 y f (xk ) → f (x̄). Ahora, de
(4.4), se cumple que
lim tk = 0. (4.5)
k→+∞
Por otro lado, usando A2.4 y A2.1, tenemos, para k suficientemente grande,
f (expxk (−t̄k grad f (xk ))) − f (xk ) ≥ −αt̄k ||grad f (xk )||2 . (4.6)
66
Además, del teorema del valor medio, para cada k, existe t∗k ∈ [0, t̄k ] tal que
−h grad f (expxk (−t∗k grad f (xk ))), Pγk ,0,t∗k grad f (xk )i ≥ −α||grad f (xk )||2 ,
donde Pγk ,0,t∗k es el transporte paralelo a lo largo de la geodésica γk tal que γk (0) = xk
y γk′ (0) = −grad f (xk ). Ahora, (4.5) y A2.4 implican que limk→+∞ t∗k = 0. Haciendo
k → +∞ en la desigualdad anterior y tomando en cuenta la continuidad de grad f ,
exp y el transporte paralelo, tenemos que 1 ≤ α, lo que contradice A2.1. Por tanto,
grad f (x̄) = 0.
Como consecuencia inmediata del teorema anterior y del Teorema 3.3.7 tenemos el
siguiente resultado.
Corolario 4.1.1 Sea f : M → IR una función continuamente diferenciable y pseu-

doconvexa. Entonces, con las hipótesis A1 y A2, la sucesión {xk } converge para un
punto de mı́nimo global del problema (p).
4.2 Método com uma regularización proximal

Sea {λk } una sucesión de números reales tal que
λ′ ≤ λk ≤ λ′′ ,
donde 0 < λ′ ≤ λ′′ . El método de máximo descenso con una regularización proximal
genera una sucesión {xk } definida por (4.2) y (4.3) donde
tk = arg min{f (expxk (−tgradf (xk ))) + t2 λk ||gradf (xk )||2 : t ≥ 0}. (4.7)
Este método fue introducido por IUSEM y SVAITER (1995), [13], para resolver
problemas de optimización convexa em espacios euclidianos y luego generalizado para
variedades riemannianas en Cruz Neto et al. (1999), [7]. En esta Sección extendemos
los resultados de convergencia global de estos trabajos para el caso cuasi-convexo.
Proposición 4.2.1 Sea f : M → IR una función continuamente diferenciable y

cuasi-convexa. Supongamos que la hipótesis A1 es satisfecha. Entonces, la sucesión
{xk }, generada por (4.2),(4.3) y (4.7), es Cuasi-Fejér convergente al conjunto U.
67
Demonstración. De (4.3) y (4.7) :
f (xk+1 ) + t2k λk ||gradf (xk )||2 ≤ f (xk ). (4.8)
De aqui, es fácil verificar que

+∞
X
t2k ||gradf (xk )||2 ≤ (1/λ′ )(f (x0 ) − f ∗ ) < +∞.
k=0
Del Lema 4.0.8 y la Definición 1.2.8, obtenemos el resultado deseado.
Teorema 4.2.1 Seja f : M → IR uma función continuamente diferenciable y cuasi-

convexa. Supongase que la hipótesis A1 es satisfecha. Entonces, la sucesión {xk },
generada por (4.2),(4.3) e (4.7), converge a un punto estacionario.
Demonstración. De (4.8) tenemos que {f (xk )} es una sucesión no cresciente. Us-

ando los mesmos argumentos da demonstración del Teorema 4.1.1, podemos mostar
que {xk } converge a un punto x∗ ∈ U. Finalmente, tenemos gradf (x∗ ) = 0, como
una aplicación del Teorema 4.1, iiii, en [7], donde esto fue probado para una función
arbitrária.
Similar al Corolário 4.1.1 tenemos el siguiente resultado
Corolario 4.2.1 Sea f : M → IR una función continuamente diferenciable y pseu-

doconvexa. Entonces, con la hipótesis A1, la sucesión {xk } converge a un punto de
mı́nimo global de (p).
Ejemplo 4.2.1 Sea la función f (x1 , x2 ) = (lnx1 )2 + (lnx2 )2 . cuya simulación se ve

en las figuras 5, 6 y 7 a escala multiplicada por 10.
−1000
−1500
−2000
−2500
−3000
0
−3500
0 50
50 100
100
150 150
68
Figura 5. Gráfico de la función f .
Figura 6. Gráfico de la función f después de una rotación.
1500
1000
500
−500
0
50 150
100 100
150 50
0
Figura 7. Vista frontal del gráfico de f
69
Esta función f es claramente no convexa en IR2 con la métrica usual, sin embargo al
hacer uso de la métrica G(p) = diag (1/(pi )2 ) con i = 1, 2., la función en cuestión se
transforma en convexa sobre la variedad IR2++ , dado que su Hessiano es semidefinida
positiva, a saber,  
2
0 
Hxf = 

x1
.
2
0 x2
Su ecuación geodésica es
vi
t
γ(t) = pi exp pi , i = 1, 2
y las iteraciones del método de máximo descenso son:

!
∂f (xk )
xk+1
i = xki exp tk xki , i = 1, 2.
∂xi
70
Materiales y Métodos
1. El Universo: optimización sobre variedades riemannianas.
2. Técnicas de recopilación de datos: búsqueda de trabajos relacionados en revistas

publicadas, uso de bibliotecas y hemerotecas especializadas como también viajes
a centros de investigación en el extranjero (Brasil, Colombia y Argentina).
3. Técnicas estadı́sticas: no se usaron.
4. Técnicas descriptivas para la contrastación o demostración de las hipótesis:

La metodologı́a usada en el desarrollo de este trabajo fue un enfoque de tipo
inductivo-deductivo de las definiciones, teoremas y corolarios, como también de
los resultados de recientes investigaciones. Luego se realizó un estudio minu-
cioso y exhaustivo de cada material obtenido, con la finalidad de adaptarlo a
nuestro enfoque y que nos llevó a la obtención de los resultados planteados en
los objetivos de la investigación.
Para realizar las pruebas computacionales hemos utilizado el lenguaje de pro-

gramación C++ y un computador con sistema operativo Windows XP. Además,
hemos usado el software Latex para la digitación del informe final.
71
Resultados
Presentamos un método de optimización usando elementos de geometria riema-

nniana que supera algunas desventajas de los métodos proyectivos de optimización.
Esta ventaja consiste en considerar el conjunto de restricciones del problema de opti-
mización como una variedad riemanniana y ası́ transformar el problema restricto como
un problema sin restricciones del punto de vista de la geometria de Riemann. Luego
utilizar el método de máximo descenso en variedades riemannianas para obtener el
óptimo del problema.
Este método permite resolver el problema original sin realizar proyecciones en
cada iteración reduciendo ası́ el costo computacional de los métodos proyectivos de
optimización.
Los resultados de convergencia del método propuesto son obtenidos para la clase
de funciones cuasi-convexas diferenciables en la variedad riemanniana, de esta man-
era nuestro método resuelve problemas de optimización con funciones objetivo no
convexas que se pueden transformar en cuasi-convexas en la variedad riemanniana.
Presentamos también los elementos básicos de geometrı́a riemanniana de manera
sencilla y natural con ejemplos orientados a la Optimización, de tal manera que sean
entendidos por lectores con conocimiento elemental de análisis y geometrı́a diferencial.
Introducimos nuevas métricas riemannianas para algunas variedades diferenciables
útiles en problema de optimización. En particular, mediante la introduccón de una
métrica diagonal riemanniana sobre el ortante positivo IRn++ damos caracterizaciones
para el gradiente y Hessiana de una función en esta variedad. Luego, obtenemos
condiciones para que funciones no convexas en el sentido usual se transformen en
convexas en la variedad riemanniana IRn++ con dicha métrica.
Debemos resaltar que la hipótesis del proyecto de investigación se han cumplido.
72
Discusión
El presente trabajo recubre los resultados de convergencia del método del máximo
descenso en variedades riemannianas que fueron obtenidos para el caso convexo por
da CRUZ NETO, LIMA y OLIVEIRA (1999), [6].
Debemos observar que la hipótesis de curvatura no negativa es esencial para
obtener la convergencia global del método a un punto crı́tico para funciones cuasi-
convexas continuamente diferenciables. Ası́, para espacios donde la curvatura es
negativa, como por ejemplo los espacios de Lobachevsky, no sabemos si nuestro algo-
ritmo converge o no (globalmente). Esto nos lleva a formular la siguiente interrogante:
¿Podrá obtenerse la convergencia global del método sin usar hipótesis sobre la cur-
vatura de la variedad riemanniana?
73
Bibliografı́a
[1] ALEKSANDROV, ALEKSANDR DANILOVICH., KOLMOGOROV, ANDRÉI.

and LAURENTIEV M. A. La Matemática: su contenido, métodos y significado,
Madrid: Edit. Alianza Universidad, First Edition, 1981.
[2] ARMIJO, L. Minimization of functions having lipschitz continuous firts partial

derivates. Pacific Journal of Mathematics, 1966, Vol. 16 No. 1, pp. 1-3.
[3] BOOTHBY, WILLIAM. An Introduction to differentiable manifold and rieman-

nian geometry, Orlando, Florida USA: Edit. Adacemic Press, First Edition, 1986.
[4] BURACHIK, R.S, GRAÑA DRUMOND, L M., IUSEM, A.N., and SVAITER,
B. Full convergence of the steepest descent method with inexact line searches.
Optimization, 1995, Vol. 32, pp. 137-145.
[5] da CRUZ NETO, J.X and OLIVEIRA, P.R. Geodesic methods in riemannian
manifolds. Systems Engineering and Computer Sciences PESC/COPPE, 1995,
Technical Report ES-352/95, pp. 1-20.
[6] da CRUZ NETO, J.X., de LIMA, L.L., OLIVEIRA, P.R. Geodesic algorithms in
riemannian geometry. Balkan Journal of Geometry and its Aplications BJGA,
1998, Vol. 32 n. 2, pp. 89-100.
[7] da CRUZ NETO, J.X., FERREIRA, O.P., LUCAMBIO PEREZ, L. A prox-

imal regularization of the steepest descent method in Riemannian manifolds.
Balkan Journal of Geometry and its Aplications BJGA, 1999, Vol. 4 n. 2, pp.1-
18.
74
[8] do CARMO, MANFREDO PERDIGAO. Geometria Diferencial de Curvas e Su-
perficies, Rio de Janeiro: Sociedad Brasilera de Matemática, terceira edição,
2005.
[9] do CARMO, MANFREDO PERDIGAO., Geometria Riemanniana, Rio de

Janeiro: IMPA-Projeto Euclides, segunda edição, 1988.
[10] FERREIRA, O.P. and OLIVEIRA, P.R. Subgradient algorithm on riemannian

manifold. Journal of Optimization Theory and Applications, 1998, Vol 97 n.1,
pp. 93-104.
[11] GABAY, D., Minimizing a differentiable function over a differentiable manifold.

Journal of Optimization Theory and Aplication, 1982, Vol 37, pp. 177-219.
[12] HICKS, NOEL. Notes on differential geometry, Michigan: Van Nostrand Rein-
hold Company The University of Michigan-USA, first edition, 1966.
[13] IUSEM, A.N. and SVAITER, B.F. A proximal regularization of the steepest de-
scent method. RAIRO Operations Reseach , 1995, Vol 29 n. 2, pp. 123-130.
[14] KIWIEL, K.C. and MURTY, K. Convergence of the steep-

est descent method for minimization quasiconvex functions.
JOTA Journal of Optimization Theory and Applications, 1996, Vol 89 n.1,
pp. 221-223.
[15] LAGES, LIMA ELON. Introducao às variedades diferenciáveis, Rio de Janeiro:
EMMA Porto Alegre, primeira edição, 1960.
[16] LAGES, LIMA ELON. Variedades diferenciáveis, Rio de Janeiro: IMPA,

primeira edição, 1973.
[17] LUENBERGER, DAVID. The gradient projection method along geodesics,

Management Science, 1972, Vol 18 n. 1, pp. 620-631.
[18] LUENBERGER, D.G. Introduction to linear and nonlinear programming,

Massachusetts:Addison-Wesley, second edition, 1973.
75
[19] OLIVEIRA, P.R. and da CRUZ NETO, J. X. Elementos de geometria rie-
manniana. Systems Engineering and Computer Sciences PESC/COPPE, 1995,
Technical Report ES-351/95, pp. 1-20.
[20] PAPA QUIROZ E. A., QUISPE E. M. and OLIVEIRA P. R. Steepest de-

scent method with a generalized Armijo search for quasiconvex functions on rie-
mannian manifolds. Journal of Mathematics Analysis and Applications, 2008,
Vol 341, pp. 467-477.
[21] RAPCSÁK, TÁMAS. Smooth nonlinear optimization in IRn , New York: Aca-
demic Publishers Kluwer USA, first edition, 1997.
[22] SAKAI, TAKASHI. Riemannian Geometry, New York: American Mathematical

Society, Providence, RI, 1996.
[23] SMITH, S.T. Optimization techniques on riemannian manifolds.

Fields Institute Communications, AMS, Providence, RI, 1994, Vol 3, pp.
113-146.
[24] UDRISTE, CONSTANTIN. Convex functions and optimization methods on rie-

mannian manifolds, New York: Academic Publishers, Kluwer USA., 1997.
76
Apéndice
En esta sección damos algunos experimentos numéricos para resolver problemas

con funciones cuasi-convexas sobre el hipercubo unitário, esto es,
min{f (x) : 0 ≤ x ≤ e} (4.9)
donde f es una función cuasi-convexa, x = (x1 , x2 , ..., xn ) es la variable del problema

y e = (1, ...1) ∈ IRn .
Tomando la variedad riemanniana completa y conexa ((0, 1)n , X −2 (I − X)−2 ), el
algoritmo de máximo descenso con búsqueda de Armijo se expresa como:
1. Dado el punto xk = (xk1 , xk2 , ..., xkn ) ∈ (0, 1)n , k ≥ 0, calcular xk+1 dado por
( !)
1 1 ∂f (xk ) 1 xki
xk+1
i = 1 + tanh − xki (1 − xki ) tk + ln , i = 1, 2, ..., n,
2 2 ∂xi 2 1 − xki
donde tk = 2−ik and ik es el menor número natural tal que:
f (xk+1 ) ≤ f (xk ) − αtk kdk k2 ,
donde dk = −Xk2 (I − Xk )2 ∇f (xk ) es el gradiente de f con respecto a la métrica

Xk−2 (I − Xk )−2 , Xk = diag(xk1 , xk2 , ..., xkn ), ∇f (xk ) es el gradiente clásico de f y
α ∈ (0, 1) es dado.
2. Como critério de parada calculamos la distancia geodésica entre los puntos xk

y xk+1 , como:
 " ! !#2  12
Xn
xk+1 xki 
i
d(xk , xk+1 ) =  ln − ln
i=1 1 − xk+1
i 1 − xki 
3. Critério de parada: si ||d(xk , xk+1 )|| < ǫ, parar. Caso contrario, hacer xk ← xk+1
y volver al paso 1.
77
En todo el experimento numérico generamos la función cuasi-convexa f usando la
regla de composición f (x) = h(g(x)) donde g(x) = − log (x1 (1 − x1 )x2 (1 − x2 )) es
una función convexa sobre la variedad ((0, 1)n , X −2 (I − X)−2 ) y h : IR → IR es
elegido como una función no decresciente no convexa. Implementamos nuestro código
en C ++ y todos los tests fueron realizados en una computadora Pentium 866MHz con
Windows XP. Para la implementación usamos el error ǫ = 0.000001 y α = 0.9.
En la tablas presentadas, X0 denota el punto inicial del algoritmo, Iter. denota el
número de iteraciones, Call. Armijo denota el número de tests de Armijo, Opt. Point
denota la aproximación del punto óptimo, Opt. Value denota la aproximación del
valor óptimo y finalmente, Riem. Distance denota la distancia riemanniana entre dos
iteracioness consecutivas. Como veremos en los experimentos numéricos el método se
ve promisorio en las aplicaciones.
Experimento 1.
√
Sea h(t) = t entonces
q
f (x) = − log (x1 (1 − x1 )x2 (1 − x2 )).
Esta función es cuasi-convexa en ((0, 1)n , X −2 (I − X)−2 ) y tiene un único punto

√
mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = 2 log 2 = 1.665109222.
Table 4.1:
X0 Iter. Call. Armijo Opt. Point Opt. Value Riem. Distance
(0.45, 0.51) 65 65 (0.499999,0.5) 1.66511 9.27003e-007

(0.4,0.6) 71 71 (0.499999,0.500001) 1.66511 9.93398e-007
(0.1,0.9) 85 85 (0.499999,0.500001) 1.66511 8.92053e-007
(0.2,0.3) 79 79 (0.499999, 0.499999) 1.66511 8.79813e-007
(0.7,0.6) 75 75 ( 0.500001,0.500001) 1.66511 8.82938e-007
78
Experimento 2.
Sea h(t) = log(1 + t), entonces
f (x) = log (1 − log (x1 (1 − x1 )x2 (1 − x2 )))

mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = log(1 + 4 log 2) = 1.32776143.
Table 4.2:
(0.45, 0.51) 73 73 (0.499998,0.5) 1.32776 9.75055e-007

(0.4,0.6) 81 81 (0.499999,0.500001) 1.32776 8.92195e-007
(0.1,0.9) 97 97 (0.499999,0.500001) 1.32776 9.20241e-007
(0.2,0.3) 89 89 (0.499999, 0.499999) 1.32776 9.58094e-007
(0.7,0.6) 84 84 ( 0.500001,0.500001) 1.32776 9.98606e-007
Experimento 3.
Sea h(t) = arc tg(t), entonces
f (x) = arc tg (− log (x1 (1 − x1 )x2 (1 − x2 )))

mı́nimo en x∗ = (0.5, 0.5) con valor óptimo f ∗ = arc tg(4 log 2) = 1.224644415.
79
Table 4.3:
(0.45, 0.51) 160 160 (0.499996,0.500001) 1.22464 9.55101e-007

(0.4,0.6) 178 178 (0.499997,0.500003) 1.22464 9.4978e-007
(0.1,0.9) 227 227 (0.499997,0.500003) 1.22464 9.71428e-007
(0.2,0.3) 200 200 (0.499997, 0.499997) 1.22464 9.69434e-007
(0.7,0.6) 187 187 ( 0.500004,0.500002) 1.22464 9.79192e-007
80

IF - PAPA - QUIROZ - FCNM Algo de Geometria Diferencial PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

IF - PAPA - QUIROZ - FCNM Algo de Geometria Diferencial PDF

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA

Un Método no Euclidiano para Problemas de Optimización

Erik Alex Papa Quiroz

2 Elementos de Geometrı́a Riemanniana 11

3 El Problema de Optimización y sus Condiciones de Optimalidad 50

4 Método del Máximo Descenso 61

Un Método no Euclidiano para Problemas de Optimización en Espacios

Erik Alex Papa Quiroz

El Objetivo de la investigación es presentar un método de optimización usando

La Optimización es una rama de la Matemática Aplicada que estudia el problema

donde PM es la proyección ortogonal del punto xk + tk dk al conjunto M = {x ∈

Una de tales geometrı́as es la geometrı́a riemanniana, teorı́a matemática que ha lla-

En este capı́tulo haremos un resumen de los resultados básicos necesários al desarrollo

1.1 Sı́mbolos y Notaciones

dFq : IRn → IRm ,

F (x) = F (x1 , x2 , ..., xn ) = (F1 (x), F2 (x), ..., Fn (x)),

la diferencial en el punto q, en las bases canónicas es:

Definición 1.2.2 Sea F : U ⊂ IRn → IRm una función diferenciable definida en un

Por un resultado de álgebra lineal obtenemos una equivalencia para la sobreyectividad

Definición 1.2.4 (Espacios de Hausdorff ). Sea M un espacio topológico, diremos

Definición 1.2.5 Sea M un conjunto arbitrário, una métrica es una aplicación d :

d1 : d(x, y) ≥ 0, d(x, y) = 0 si y sólo si x = y;

d2 : d(x, y) = d(y, x);

d3 : d(x, z) ≤ d(x, y) + d(y, z).

El par (M, d) se llama espacio métrico.

Definición 1.2.6 Una sucesión {xm } en un espacio métrico M se llama de Cauchy

Definición 1.2.7 El espacio métrico (M, d) es completo cuando toda sucesión de

Definición 1.2.8 Sea (X, d) un espacio métrico completo. Una sucesión {y k }, k ≥ 0,

Demostración. Análogo a BURACHIK (1995), [4].

Definición 2.2.1 (Superficie regular de IRn ). Un subconjunto S ⊂ IRn , es una su-

3. Para todo q ∈ U , dXq : IRk → IRn es inyectiva, donde dXq es la diferencial de

Vease un gráfico de la definición de superficie regular en IR3 .

Figura 1. Superficie regular

Para cada p ∈ S, la aplicación X : U → V ∩ S es llamada parametrización de S en

Corolario 2.2.1 Sea U un subconjunto abierto de IRn y f : U −→ IR una función

La Proposición 2.2.1 permite mostrar una famı́lia de superfı́cies regulares útiles en el

Ejemplo 2.2.1 Consideremos los problemas de Optimización Lineal:

a). Restricciones estrictas primales. Si S = {x ∈ IRn++ : Ax = b} es el

b). Restricciones estrictas duales. Si S = {(λ, s) ∈ IRm ×IRn++ : AT λ+s = c} es

donde U es un abierto de IRn , f : IRn → IR y h : IRn −→ IRm son funciones dadas.

Definición 2.2.2 (Cambio de parámetros). Sean X −→ S y Y −→ S dos parametriza-

La aplicación Y −1 oX : X −1 (W ) −→ Y −1 (W ) es llamada cambio de parámetros.

Proposición 2.2.2 Sea S una superficie regular de IRn de dimensión k. El cambio

La noción de variedad diferenciable que definimos a seguir es necesaria para poder

Definición 2.2.3 (Variedad diferenciable). Una variedad diferenciable de dimensión

2. Para todo par Xα , Xβ con Xα (Uα ) ∩ Xβ (Uβ ) = W 6= ∅, los conjuntos Xα −1 (W )

El par (Uα , Xα ) con p ∈ Xα (Uα ) es llamado una parametrización. Una famı́lia

Proposición 2.2.3 Toda superficie regular de IRn de dimensión k es una variedad

Proposición 2.2.4 Si M1 y M2 son dos variedades diferenciables de dimension m1

Definición 2.2.4 (Variedad de Hausdorff de base numerable). Una variedad diferen-

En todo este capı́tulo asumiremos que la variedad diferenciable M es de Hausdorff y

Una consecuencia inmediata del item 2 de la Definición 2.2.3 es que, la diferenciabili-

Como f ◦ Xα es diferenciable por definición y Xα−1 ◦ Xβ es diferenciable por ser cambio

La definición de diferenciabilidad puede ser extendida para aplicaciones entre varie-

Definición 2.3.3 Sean M1 y M2 variedades diferenciables de dimensión m y n res-

parametrización de M2 en ϕ(p) con ϕ(X1 (U1 )) ⊂ X2 (U2 ), la aplicación X2−1 ◦ ϕ ◦

Análogamente al caso de funciones de valores reales, se muestra que la definición no

Observación 2.3.1 Una consecuencia de la Definición 2.3.3 es que, si X : U → M

Definición 2.3.4 (Difeomorfismo entre variedades diferenciables). Sea ϕ : M1 →

Observación 2.3.2 De la observación 2.3.1, concluimos que cualquier parametriza

2.4 Espacio tangente a una variedad diferenciable

γ(t) = (γ1 (t), ..., γn (t)),