Академический Документы
Профессиональный Документы
Культура Документы
1
Juan Carlos Chavarrı́a
Universidad Técnica Federico Santa Marı́a
Resumen
Estas notas son un resumen de los apuntes de clase que el autor ha desarrollado a lo largo de diversos
semestres de dictar la asignatura de MAT–023. Se nutren de diversas referencias bibliográficasası́ como de
ejercicios de guı́as, pruebas y controles de semestres anteriores. No es la intención de estas notas reemplazar
a un texto guı́a, si no más bien complementar y procurar simplificar desarrollos y notaciones para facilitar
el estudio del alumno dedicado.
En la primera sección de estas notas presentamos la definición de lı́mite y continuidad para una función de
varias (2 o 3) variables. Examinamos sus similitudes y diferencias con el concepto de una función univariada
ası́ como sus propiedades y álgebra.
En la segunda sección estudiamos la interpretación geométrica del concepto de diferenciabilidad para fun-
ciones de varias (2 o más) variables. Posteriormente entregamos la definición y una recopilación de resultados
y contraejemplos para este concepto.
En las secciones siguientes realizamos un estudio del operador gradiente y extensiones de hechos del cálculo
en una variable tales como regla de la cadena, derivación implı́cita y máximos y mı́nimos.
Quisiera agradecer a las personas que a futuro perfeccionen y complementen este material.
1.1. Definiciones
Sea R ⊂ R2 una región del plano y P0 = (a, b) un punto de ella. Definimos lo siguiente
Definición 1.1 Disco. Al conjunto de puntos que están a distancia menor que r de P0 lo denominamos Disco
con centro P0 y radio r y lo denotamos por Br (P0 ). Es decir
Definición 1.2 Diremos que P0 es un punto frontera de R si todo disco, sin importar su radio, centrado en
P0 contiene puntos en la región R y fuera de ella.
Definición 1.3 Si existe un disco con centro en P0 dentro de R, decimos que P0 es un punto interior de R. Si
todo punto de R es interior, decimos que es un abierto.
Observación 1.1 Coloquialmente, dada una curva cerrada, el conjunto de puntos dentro de ella, pero no sobre
ella, es un abierto.
1 Al lector dedicado se ruega hacer llegar sus observaciones al correo electrónico juan.chavarria@usm.cl
1.2. Lı́mite de una función de dos variables
Dado R un conjunto abierto de R2 daremos una primera definición del lı́mite de una función de dos variables.
Definición 1.4 Sea f : R ⊂ R2 → R definida en todo R, salvo quizás en P0 : (a, b) ∈ R. si existe L ∈ R tal
que f (P ) tiende a L si P tiende a P0 entonces L se denomina lı́mite de la función f (P ) a medida que P tiende
a P0 .
lı́m f (P ) = L, ó
P →P0
f (P ) −→ L, si P → P0 , ó
lı́m f (x, y) = L.
(x,y)→(a,b)
Observación 1.3 Esto significa que si el lı́mite existe, el valor de f en P0 puede ser aproximado por las
evaluaciones de f en puntos cercanos a P0 . Esta es la noción de punto de acumulación.
Observación 1.4 En varias variables, sigue siendo válido el Teorema de Unicidad del Lı́mite: Si el lı́mite existe,
este debe ser único. Sin embargo, y como es evidente, en R2 existen infinitas direcciones de acercamiento a un
punto y se debe ser especialmente cuidadoso. Lo graficamos con los siguientes ejemplos
x2 − y 2
Ejemplo 1.1 Dada f (x, y) = , examinamos su comportamiento si (x, y) → (0, 0). Si nos acercamos por
x2 + y 2
la recta x = 0:
−y 2
lı́m = −1,
y→0 y 2
como se aprecia, los lı́mites son distintos y luego lı́m(x,y)→(0,0) f (x, y) no existe.
2
1.2. Lı́mite de una función de dos variables
x2 y
Ejemplo 1.2 Consideremos la función f (x, y) = y examinemos su comportamiento si (x, y) → (0, 0).
x4 + y 2
Si nos acercamos por la rectas y = mx entonces
mx3 mx
lı́m 4 2 2
= lı́m 2 = 0,
x→0 x + m x x→0 x + m2
que llamamos lı́mites iterados para f (x, y). Conviene no engañarse. Esto corresponde a la elección de las
trayectorias privilegiadas. Por ejemplo, el lı́mite
x2 y 2
lı́m ,
(x,y)→(0,0) x2 y 2 + (x − y)2
no existe, ya que a lo largo de la recta y = x se tiene que f (x, y) = 1 ⇒ lı́mx→0 f (x, x) = 1. Sin embargo, los
lı́mites iterados
x2 y 2 x2 y 2
lı́m lı́m = lı́m lı́m = 0.
y→0 x→0 x2 y 2 + (x − y)2 y→0 x→0 x2 y 2 + (x − y)2
Usar direcciones de acercamiento es una buena técnica para probar que un lı́mite no existe.
Si el lı́mite encontrado por varias direcciones de acercamiento coincide, esto no implica que el lı́mite exista,
pero nos sirve para encontrar un candidato al valor del lı́mite, de existir.
La única técnica válida para probar la existencia del lı́mite es usar la definición formal de lı́mite que
damos a continuación.
Definición 1.5 Definición precisa de lı́mite. Sea f una función definida al menos en todos los puntos sobre
un disco cuyo centro está en P0 , excepto quizás en P0 , Sea L un número. Si para cada ǫ > 0 existe un número
positivo δ tal que
|f (P ) − L| < ǫ,
siempre que P se encuentre en el disco de radio δ y centro P0 . De ser ası́, L se llama el lı́mite de f (P ) cuando
P tiende a P0 .
2 2
Ejemplo 1.4 La función f (x, y) = xy xx2 −y
+y 2 posee lı́mite cuando (x, y) → (0, 0). Un candidato se encuentra
usando rectas y = mx, de donde el posible lı́mite es L = 0. Para verificarlo usamos acotamiento. En efecto,
|x2 − y 2 |
|f (x, y) − 0| = |xy| < |x||y| < ǫ,
x2 + y 2
√
cuando x2 + y 2 < ǫ; ası́ podemos elegir δ = ǫ.
3
1.3. Continuidad
Los teoremas de álgebra de lı́mites son similares a los de cálculo en una variable y se entregan a continuación:
Teorema 1.1 (Álgebra de Lı́mites). Si f (x, y) → L, g(x, y) → M cuando (x, y) → (a, b) entonces
Observación 1.5 El recı́proco de estas afirmaciones es falso. A modo de contraejemplo, considere la función
del ejemplo 1.4. Ella posee lı́mite cuando (x, y) → (0, 0), pero si examinamos los factores
2
x − y2
f (x, y) = (xy) ,
x2 + y 2
notamos que el primero posee lı́mite cuando (x, y) → (0, 0), mientras que el segundo caso ya fue tratado y se
probó que su lı́mite no existe si (x, y) → (0, 0).
1.3. Continuidad
El concepto de continuidad en un punto de una función de dos variables es casi idéntico al caso unidimen-
sional. Deberemos ser algo más cuidadosos en el caso de continuidad en una región que veremos más adelante.
i) f (P0 ) existe.
i) f (P ) + g(P ),
ii) f (P ) − g(P ),
iii) f (P ) · g(P ) y
iv) f (P )/g(P )
4
1.3. Continuidad
Teorema 1.3. Sean f, g dos funciones tales que su composición está definida en P0 . Si g es continua en P0 y
f es continua en g(P0 ), entonces la composición f ◦ g es continua en P0 .
Esta función es continua en todo R2 \ {(0, 0)} pues es composición y cuociente de funciones continuas.
Nos queda por verificar que lı́m(x,y)→(0,0) f (x, y) = 0. Haciendo u = x2 + y 2 y v = x2 − y 2 , notamos que
(u, v) → (0, 0) si (x, y) → (0, 0) y ahora calculamos
1 − cos(uv) 1 − cos(uv)
lı́m = lı́m v,
(u,v)→(0,0) u (u,v)→(0,0) uv
que tiende a cero si (u, v) → (0, 0). Luego lı́m(x,y)→(0,0) f (x, y) = 0 y la función es continua en el origen.
Definición 1.7 Si una función f está definida como sigue f : R ⊂ Rn → Rm , donde f (x) = (f1 (x), f2 (x), . . . , fm (x))
y x = (x1 , x2 , . . . , xn ). Esta función será continua en x0 ∈ R si cada una de sus componentes es continua en x0 .
Definición 1.8 Continuidad en una región. Una función definida sobre una región R es continua sobre
ella si es continua sobre todos los puntos de R. Es decir, cumple con la definición 1.6 ∀P ∈ R.
5
2. Derivadas Parciales
2. Derivadas Parciales
Como antes, consideramos una función f : R ⊂ R2 → R y sea P0 = (a, b) ∈ R. Definimos las derivadas
parciales de f como sigue
f (a + h, b) − f (a, b)
lı́m , (2.1)
h→0 h
f (a, b + k) − f (a, b)
lı́m , (2.2)
k→0 k
existen, estos se llaman derivadas parciales de la función f con respecto a x e y respectivamente en el punto
(a, b).
Observación 2.1 Tal como en el caso univariado una función continua puede tener derivadas parciales en un
punto o no. Veamos dos casos particulares.
Ejemplo 2.1 La función f (x, y) = sen(x2 y) es continua en (1, π/4) por ser producto y composición de funciones
continuas. Además
√
∂f π f (1 + h, π/4) − f (1, π/4) sen((1 + h)2 π/4) − 2/2
1, = lı́m = lı́m
∂x 4 h→0 h h→0 h
√ " #
2 π sen π2 h π 2 π 2 cos π2 h cos π4 h2 + sen π4 h2 − 1
= lı́m cos h − sen h +
2 h→0 2 π2 h 4 4 h
√
2π
= ,
4
6
2. Derivadas Parciales
sen θ
donde hemos usado el resultado lı́mθ→0 θ = 1 y la regla de l’Hôpital. En tanto
√
∂f π f (1, π/4 + k) − f (1, π/4) sen π4 + k − 2/2
1, = lı́m = lı́m
∂y 4 k→0 k k→0 k
√ √
2 sen k cos k − 1 2
= lı́m + = .
2 k→0 k k 2
En este caso, tenemos una función continua cuyas derivadas parciales existen en un punto. Examinemos el
recı́proco
Ejemplo 2.2 Consideremos la función f (x, y) = |xy|, continua por ser producto y composición de funciones
continuas. Sin embargo, al calcular sus derivadas parciales en el punto (0, 1) se obtiene
∂f
que no existe. De forma análoga se muestra que ∂y (0, 1) no existe.
Observación 2.2 A diferencia del caso univariado, esta vez si tenemos una función discontinua en un punto
sus derivadas parciales pueden existir, sin importar la discontinuidad. Veamos un caso
m
que es discontinua en (0, 0). En efecto, si consideramos las rectas y = mx, entonces lı́mx→0 f (x, mx) = 1+m2 ,
que depende de m. Luego el lı́mite no existe y entonces f no es continua en el origen. Sin embargo
∂f f (h, 0) − f (0, 0)
(0, 0) = lı́m = 0.
∂x h→0 h
∂f
De forma análoga se calcula ∂y (0, 0) = 0. Como vemos ambas derivadas parciales existen en el origen, pero la
función es discontinua
Estas observaciones son importantes: Para asegurar el buen comportamiento de una función se debe ir un
paso más allá. Ese es el concepto de Diferenciabilidad, que examinaremos en la siguiente sección.
Cálculo de Derivadas Parciales. Para fines de cálculo de derivadas parciales en un punto (a, b) sin pasar
por la definición seguimos la siguiente guı́a:
7
2.1. Derivadas Direccionales
2
Ejemplo 2.4 Calculemos fx , fy para f (x, y) = (x + y)ex en (1, 1). Veamos
∂f 2 2
2 2
ex + 2xyex = e1 + 2 · 1 · 1e1 = 3e.
=
∂x (1,1)
∂f
2
= ex = e.
∂y (1,1)
A continuación definimos el operador gradiente cuyas propiedades serán estudiadas en profundidad en la sección
subsiguiente.
Definición 2.2 Operador Gradiente. Sea f : R ⊂ R2 → R tal que ambas derivadas parciales existen en
(a, b) ∈ R, definimos el Gradiente de f en (a, b) como el vector
∂f ∂f
∇f (a, b) = (a, b)ı̂ + (a, b)̂. (2.3)
∂x ∂y
∂(sen x2 y) √
2π
Ejemplo 2.5 Calculamos ∇(sen x2 y) en (1, π/4). Sabemos del ejemplo 2.1 que (1, π/4) = 4 y
∂x
2 √ √ √
∂(sen x y) 2 2π 2
(1, π/4) = 2 . Luego ∇(sen x2 y)(1, π/4) = 4 ı̂ + 2 ̂.
∂y
Definición 2.3 Derivadas Direccionales Sea û = u1 ı̂ + u2 ̂ una dirección unitaria. Definimos la derivada
direccional de f en (a, b) en la dirección de û como
f (a + u1 t, b + u2 t) − f (a, b)
Dû f (a, b) = lı́m , (2.4)
t→0 t
si este lı́mite existe.
√t , 0 √t ) 1 3
f (0 + 2
+ 2
− f (0, 0) √
2 2
t 1
Dû f (a, b) = lı́m = lı́m 3
= √ .
t→0 t t→0 t 2 2
Observación 2.3 Note que si en 2.4 elegimos û = ı̂, entonces ella queda como
f (a + t, b) − f (a, b) ∂f
Dû f (a, b) = lı́m = (a, b).
t→0 t ∂x
∂f
De la misma manera, si se elige û = ̂, entonces Dû f (a, b) = (a, b).
∂y
8
2.2. Funciones Vectoriales
Consideramos ahora : R ⊂ R2 → R2 dada por f = f1 (x, y)ı̂ + f2 (x, y)̂. Definimos ahora la matriz de
derivadas parciales como
Definición 2.4 Matriz Jacobiana. Si existen todas las derivadas parciales de f1 , f2 con respecto a x, y en
(a, b), entonces el jacobiano de la función f en el punto (a, b) es la matriz
∂f1 ∂f1
∂(f1 , f2 ) (a, b) (a, b)
∂x ∂y
Jf (a, b) = (a, b) = ∂f ∂f2 . (2.5)
∂(x, y) 2
(a, b) (a, b)
∂x ∂y
2 2
Ejemplo 2.7 Calculamos el jacobiano de f (x, y) = (cos xy, yex ) en (1, π/2). En este caso f1 = cos xy, f2 = yex
∂f1 ∂f1 ∂f2 2 ∂f2 2
y luego = −y sen xy, = −x sen xy, = 2xyex , = ex . Al evaluar tenemos que el jacobiano es
∂x ∂y ∂x ∂y
" #
∂(f1 , f2 ) − π2 −1
Jf (1, π/2) = (1, π/2) = .
∂(x, y) πe e
3. Diferenciabilidad
3.1. Definición
Para comenzar, recordemos que en una variable el concepto de diferenciabilidad de una función f en un
punto a se reduce simplemente a que el lı́mite
f (a + h) − f (a)
f ′ (a) = lı́m ,
h→0 h
exista. Una consecuencia de esto es la existencia de una función ϕ, con las propiedades:
lı́mh→0 ϕ = 0.
f (a + h) = f (a) + mh + hϕ(h), para todos los valores de h no nulos en una vecindad del cero.
f (a + h) − f (a) mh + hϕ(h)
= (3.1)
h h
= m + ϕ(h), (3.2)
de donde es claro que lı́mh→0 [m + ϕ(h)] = 0. Ası́, la existencia de un número m y la función ϕ(h) teniendo
las propiedades anteriormente descritas garantizan la existencia de f ′ (a) y que su valor sea m. La clave para
conectar la idea de diferenciabilidad en una variable con varias variables se basa entonces en la aproximación
lineal, concepto que detallamos a continuación.
9
3.1. Definición
Definición 3.1 Una función F : Rn → Rm es llamada lineal si y sólo si para todo par de números reales α, β
y todo par de vectores u, v ∈ Rn tenemos
Definición 3.2 Una función f : D ⊆ R2 → R se dice Diferenciable en un punto (a, b) si existe una función
lineal M : R2 → R y una función Φ : R2 → R2 tal que
f (a + h, b + k) = f (a, b) + M (a, b) + Φ(a, b) · (h, k), para todos los vectores no nulos (h, k) en una vecindad
del origen.
Cuando esta definición se cumpla, diremos que la función lineal M es la derivada de f en (a, b). La
definición anterior asegura escencialmente que una función es diferenciable en un punto precisamente cuando
sus incrementos son bien aproximados por una función lineal actuado sobre los correspondientes incrementos
de cada variable.
Las componentes de nuestra función lineal tienen la forma (h, k) 7→ ph + qk, donde p, q son constantes. De esta
forma, el requerimiento impuesto por la definición anterior se traduce a la existencia de dos números p, q y
dos funciones ϕ, ψ : R2 → R tal que
1. lı́m(h,k)→(0,0) φ(h, k) = 0.
2. lı́m(h,k)→(0,0) ψ(h, k) = 0.
3. f (a + h, b + k) = f (a, b) + ph + qk + φ(h, k)h + ψ(h, k)k, para todos los vectores no nulos (h, k) en una
vecindad del origen.
El gráfico de la aplicación (h, k) 7→ f (a, b) + ph + qk es un plano que pasa por el punto (a, b, f (a, b)). Para
tales funciones el requerimiento de diferenciabilidad es que la superficie z = f (x, y) sea bien aproximada cerca
del punto (a, b) por este plano, que llamaremos plano tangente. Siguiendo una lı́nea de desarrollo análoga al
caso de una variable no es difı́cil notar que si los números p, q y las funciones ϕ, ψ del párrafo anterior existen,
entonces las derivadas parciales fx (a, b), fy (a, b) existen y son, respectivamente, p, q. Luego, se tiene que: Si
una función es diferenciable en un punto entonces existen ambas derivadas parciales y además posee derivada
direccional en dicho punto. Sin embargo, el recı́proco es falso, como veremos en el siguiente caso.
10
3.2. Principales Resultados
Luego las derivadas parciales existen en (0, 0). De acuerdo a nuestra definición, debe cumplirse entonces que si
f es diferenciable en (0, 0)
f (h, k) − (f (0, 0) + fx (0, 0)h + fy (0, 0)k) = φ(h, k)h + ψ(h, k)k
3
h
−h = φ(h, k)h + ψ(h, k)k
h2 + k 2
k2
− 2 h = φ(h, k)h + ψ(h, k)k,
h + k2
k2
de lo último se desprende que ψ(h, k) = 0 y φ(h, k) = − .
h2 + k 2
Sin embargo, lı́m(h,k)→(0,0) φ(h, k) 6= 0. En efecto, eligiendo la trayectoria h = mk se llega sin mucha dificultad
a
k2 1
lı́m − =− 6= 0, ∀m,
k→0 (m2
+ 1)k 2 1 + m2
y por lo tanto la función no es diferenciable. En la siguiente sección entregamos un criterio de suficiencia que
aclarará esta situación.
Teorema 3.1. Si las derivadas parciales de una función f (x, y) existen en un punto (a, b) y el siguiente lı́mite
|f (a + h, b + k) − (f (a, b) + fx (a, b)h + fy (a, b)k)|
lı́m √ = 0, (3.4)
(h,k)→(0,0) h2 + k 2
entonces la función es diferenciable en el punto (a, b).
Una consecuencia directa de este resultado es que si la función es diferenciable en (a, b), entonces debe ser
continua en (a, b). Para probar esta afirmación, notamos que para que satisfaga 3.4 el numerador debe tender
a cero si (h, k) → (0, 0). Como los términos asociados a las derivadas parciales están fijos ellos desaparecen y
sólo resta imponer
lı́m (f (a + h, b + k) − f (a, b)) = 0,
(h,k)→(0,0)
lo que implica la continuidad. El recı́proco de esta afirmación es falso, una función continua puede no ser dife-
renciable. Tome por ejemplo a la función |xy|, continua mas sin derivadas parciales.
11
3.2. Principales Resultados
Resolvamos (a) en primer lugar. Notamos que si α < 0 entonces la función f no está definida para puntos de la
forma (x0 , 0) con x0 6= 0. Seguimos trabajando con α ≥ 0.
Para todo (x0 , y0 ) 6= (0, 0) utilizando álgebra de funciones continuas se tiene f es continua. Estudiemos la
continuidad en (0, 0). Sea x = y. De este modo
|x|α−1
lı́m |f (x, x)| = lı́m .
x→0 x→0 2
Por lo tanto si 0 ≤ α ≤ 1 se tiene lı́m |f (x, x)| 6= 0. Luego no es continua en (0, 0) para 0 ≤ α ≤ 1.
x→0
Sea α > 1. Como x2 + y 2 ≥ 2|xy| entonces
1 α−1
0≤ lı́m |f (x, y)| ≤ lı́m |y| =0
(x,y)→(0,0) (x,y)→(0,0) 2
Ahora podemos abordar el punto (b). Por álgebra de funciones diferenciables, f es diferenciable para todo (x, y)
tal que y 6= 0. Consideremos (x0 , 0) con x0 6= 0.
Dado que
∂f f (x0 + h, 0) − f (x0 , 0)
(x0 , 0) = lı́m =0
∂x h→0 h
∂f f (x0 , h) − f (x0 , 0)
(x0 , 0) = lı́m
∂y h→0 h
x0 |h|α
= lı́m =0
h→0 x2 0 +h
2
para estudiar la diferenciabilidad de esta clase de puntos seguimos trabajando con el siguiente lı́mite
|f (x, y)|
lı́m p .
(x,y)→(x0 ,0) (x − x0 )2 + y 2
12
3.2. Principales Resultados
Resta estudiar el caso (x, y) = (0, 0). Como f no es continua en (0, 0) en los casos 0 ≤ α ≤ 1 entonces no es
diferenciable. Tomemos α > 1:
|f (x, y)|
lı́m p ≤ lı́m (x2 + y 2 )α−1 = 0.
(x,y)→(0,0) x2 + y 2 (x,y)→(0,0)
De este modo
Finalmente entregamos una condición suficiente, para que la función f (x, y) sea diferenciable en un punto.
Teorema 3.2. Si las derivadas parciales de una función f (x, y) existen en un punto (a, b) y al menos una de
ellas es continua en ese punto, entonces f (x, y) es diferenciable en (a, b).
∆f = f (a + h, b + k) − f (a, b) (3.5)
= [f (a + h, b + k) − f (a, b + k)] + [f (a, b + k) − f (a, b)]. (3.6)
Supongamos sin pérdida de generalidad que fx (x, y) es continua en (a, b). Si es ası́, fx (x, y) existe en una
vecindad de (a, b) y luego en esta vecindad la función f (x, y) es continua en la componente x cuando y permanece
constante. Entonces es posible aplicar el Teorema del Valor Medio a la primera llave en 3.6:
fx (a + hc, b + k) = fx (a, b) + ǫ1 ,
donde ǫ1 → 0 si h, k → 0.
Por otro lado, puesto que existe fy (a, b), entonces
f (a, b + k) − f (a, b)
= fy (a, b) + ǫ2 ,
k
donde ǫ2 → 0 si k → 0, luego
f (a, b + k) − f (a, b) = kfy (a, b) + kǫ2 ,
obteniéndose
∆f = hfx (a, b) + kfy (a, b) + hǫ1 + kǫ2 , (3.7)
13
3.2. Principales Resultados
El teorema 3.2 permite abordar las cuestiones asociadas a la diferenciabilidad sin pasar por el cálculo del
lı́mite 3.4 que a veces puede ser sumamente engorroso. Veamos un ejemplo.
que tiende a cero si (x, y) → (0, 0). Por lo tanto f es continua en (0, 0).
b) Si (x, y) 6= (0, 0) la función es diferenciable por álgebra de funciones diferenciables. Se tiene que
∂f
que tiende a cero cuando (x, y) → (0, 0). Por lo tanto, ∂x es continua en (0, 0). Por el teorema 3.2, la
función es diferenciable en el origen.
Tal como en el caso de funciones continuas, el álgebra de funciones diferenciables es muy similar y presentamos
el siguiente resultado
14
3.3. Extensiones
3.3. Extensiones
En este apartado consideraremos funciones con salida en Rm , m ≥ 1. Como veremos, la noción de jacobiano
definida previamente es muy importante.
∂fj
1. Para todo i = 1 . . . n y para todo j = 1, . . . m se tiene que (x0 ) existen y
∂xi
kf (x) − f (x0 ) − Jf (x0 ) · (x − x0 )k
2. lı́m = 0.
x→x0 kx − x0 k
Observación 3.1 En el lı́mite anterior, la expresión del numerador f (x0 ) + Jf (x0 ) · (x − x0 ) se denomina
plano tangente de la función f en el punto x0 . Si la función es diferenciable en x0 entonces decimos que el
plano tangente es la mejor aproximación lineal de f en x0 . Para m = 1 tendremos propiedades geométricas que
explotaremos en la sección subsiguiente.
Ejemplo 3.4 Consideremos la función f = (4y 2 x + 1, sen(3x + y − 2)). Mostremos que f es diferenciable en
(0, 2) y encontremos la mejor aproximaxión lineal T (x, y) de f cerca de este punto.
Las derivadas parciales de f están dadas por:
∂f1 ∂f1
= 4y 2 , = 8xy,
∂x ∂y
∂f2 ∂f2
= 3 cos(3x + y − 2), = cos(3x + y − 2).
∂x ∂y
Estas cuatro funciones de (x, y) son continuas en todo punto al ser conformadas por productos, sumas y composi-
ción de funciones de una variable continuas, y polinomios en dos variables. Por ende, la función f es diferenciable
en todo punto, en particular en (0, 2). Ahora, en este punto tenemos que
" #
16 0
Jf (0, 2) = ,
3 1
15
4. Regla de la Cadena
4. Regla de la Cadena
En esta sección generalizamos la regla de la cadena a funciones de varias variables. Recordemos que en una
variable la regla de la cadena asegura que si y = f (u) y u = g(x), entonces
dy dy du
= .
dx du dx
Comenzaremos con la deducción del resultado para dos variables y posteriormente lo generalizamos a más
variables. Nuestro punto de partida será la ecuación 3.7, donde identificaremos a ∆x y ∆y con h y k, los
desplazamientos en la variable x e y, respectivamente.
Teorema 4.1 (Regla de la Cadena). Sea z = f (x, y) una función con derivadas parciales continuas
∂f /∂x, ∂f /∂y y sean x = x(t) e y = y(t) funciones diferenciables en la variable t. Entonces z es una fun-
ción diferenciable de la variable t y además
dz ∂z dx ∂z dy
= + . (4.1)
dt ∂x dt ∂y dt
∂z ∂z
= 4x3 y 3 = 3x4 y 2
∂x ∂y
dx dy
= 6t = 13 .
dt dt
Ası́,
dz
= 24x3 y 3 · t + x4 y 2 .
dt
Al evaluar en t = 1 se tiene que x(1) = 3, y(1) = 1/3. Luego, al reemplazar
dz 1 34 2
(t = 1) = 24 · 3 · 3 + = 11 .
dt 3 9 3
16
4.1. Aplicaciones de la Regla de la Cadena
Teorema 4.2 (Regla de la cadena). Sea z = f (x, y) una función con ambas derivadas parciales continuas y
x = x(t, u), y = y(t, u) con ambas derivadas parciales continuas. Entonces
∂z ∂z ∂x ∂z ∂y
= + , (4.2)
∂t ∂x ∂t ∂y ∂t
∂z ∂z ∂x ∂z ∂y
= + . (4.3)
∂u ∂x ∂u ∂y ∂u
Ejemplo 4.2 Dada z = x2 − xy − y 2 ; x = u − 2t, y = 2u + t, hallamos ∂z/∂t, ∂z/∂u. Rápidamente tenemos que
∂x ∂x
= −2, = 1,
∂t ∂u
∂y ∂y
= 1, = 2.
∂t ∂u
Además,
∂z ∂z
= 2x − y = −x − 2y.
∂x ∂y
De acuerdo al teorema 4.2, se tiene entonces que
∂z
= −2(2x − y) − (x + 2y) = −5x − 4y = −5(u − 2t) − 4(2u + t) = −13u + 6t,
∂t
∂z
= (2x − y) − 2(x + 2y) = −5y = −5(2u + t).
∂u
Podemos generalizar nuestros resultados al siguiente hecho que se deja sin demostración.
Teorema 4.3. Si z = f (x1 , . . . , xm ) posee todas sus derivadas parciales continuas en sus m variables y además
x1 = x1 (t1 , . . . , tn ), . . . , xn = xn (t1 , . . . , tn ) todas con derivadas parciales continuas en sus n variables, entonces
m
∂z X ∂z ∂xi
= , j = 1 . . . n. (4.4)
∂tj i=1
∂xi ∂tj
La regla de la cadena puede ser aplicada en una gran variedad de situaciones. Ellas son mejor ilustradas en
los ejemplos, damos primero una aplicación geométrica y conluimos con un caso donde posiblemente el resultado
es más útil, el estudio de Ecuaciones Diferenciales Parciales.
Ejemplo 4.3 La base B menor de un trapezoide aumenta su longitud a razón de 2cm/seg y su base mayor b
disminuye su tamaño a razón de 1cm/seg. Si la altura h aumenta a razón de 3cm/seg, ¿qué tan rápido cambia
1
el área cuando B = 30cm, b = 50cm y h = 10cm? El área está dada por A = 2 (B + b)h, donde B, b, h son
funciones del tiempo. Entonces, por la regla de la cadena se tiene que:
dA ∂A dB ∂A db ∂A dh
= + +
dt ∂B dt ∂b dt ∂h dt
h h (B + b)
= ·2− ·1+ ·3
2 2 2
= 10 − 5 + 120 = 125cm/seg.
17
4.2. Interpretación Geométrica
Ejemplo 4.4 Demostraremos que una función de la forma u = g(x + kt) + h(x − kt) es solución de la ecuación
de onda unidimensional
∂z 2 ∂z 2
2
= k2 2 .
∂t ∂x
Para proceder, primero definimos las variables auxiliares v = x + kt y w = x − kt. Usando la regla de la cadena
se tiene entonces que
ut = gv · vt + hw · wt = kgv − khw .
Luego
utt = k(gvv · vt − hww · wt ) = k 2 (gvv + hww ).
Por otro lado, tenemos que
ux = gv · vx + hw · wx = gv + hw .
Luego
uxx = gvv · vx + hww · wx = gvv + hww .
De donde es evidente que k 2 uxx = utt y luego u es solución de la ecuación.
18
5. Propiedades del Gradiente
∂z ∂z ∂z ∂z
donde ∇t,u z = ı̂ + ̂, ∇x,y z = ı̂ + ̂ y
∂t ∂u ∂x ∂y
∂x ∂y
∂(x, y) ∂t ∂t
= ∂x ∂y ,
∂(t, u)
∂u ∂u
el jacobiano de la transformación (x, y) = (x(t, u), y(t, u)).
Como veremos, estas relaciones serán profuzamente utilizadas en lo que sigue para obtener las propiedades
del operador gradiente, en el desarrollo del teorema de la función implı́cita y en optimización.
Una de las propiedades que es posible deducir de la diferenciabilidad de una función en un punto es la
existencia de sus derivadas parciales en él y luego la existencia de su gradiente. En esta sección nos proponemos
entregar útiles cualidades de este operador diferencial.
Considere una curva de nivel de una función diferenciable en el punto (a, b), f (x, y) = k. Esta curva en el
plano puede ser parametrizada por su vector posición ~r(t) = x(t)ı̂ + y(t)̂, es decir una función vectorial que
a cada valor del escalar t asocia un vector ~r(t). El vector tangente a ~r(t) es su derivada si sus componentes
x(t), y(t) son funciones derivables con respecto a t:
d~r dx dy
= ı̂ + ̂. (5.1)
dt dt dt
Por otro lado, al imponer la parametrización para la curva de nivel se tiene que
f (x(t), y(t)) = k.
19
5.2. Planos tangentes
Teorema 5.1. El gradiente es un vector normal a la curva de nivel f (x, y) = k tal que (a, b) satisface f (a, b) =
k.
Ejemplo 5.1 Encontrar una recta tangente a la elipse x2 + 2y 2 = 6 en el punto (2, 1).
Se necesita un punto y un vector normal. Lo primero es trivial y lo segundo se obtiene tomando el gradiente de
la función f (x, y) = x2 + 2y 2 y evaluando en (2, 1). Se tiene que ∇f (2, 1) = 4ı̂ + 4̂ y luego la recta tangente a
la elipse f (x, y) = 6 en (2, 1) es:
Podemos extender sin mayores dificultades el hecho anterior a superficies de nivel f (x, y, z) = k tales que
(a, b, c) cumpla f (a, b, c) = k, probándose sin mayor dificultad que el gradiente es normal a la superficie de nivel
por (a, b, c).
Para superficies obtenidas como niveles de f (x, y, z) = k, el plano tangente por (a, b, c) tal que f (a, b, c) = k
es
∇f (a, b, c) · (x − a, y − b, z − c) = 0. (5.3)
Ejemplo 5.3 Para obetener el plano tangente a la esfera x2 + y 2 + z 2 = 3 en (1, 1, 1) primero definimos a
f (x, y, z) = x2 + y 2 + z 2 . Interesa el nivel f = 3. Un vector normal a esta superficie de nivel es ∇f (1, 1, 1) =
(2, 2, 2). El plano tangente por (1, 1, 1) es (2, 2, 2) · (x − 1, y − 1, z − 1) = 0 lo que entrega x + y + z = 3.
En tanto, para superficies z = f (x, y) también es posible encontrar su plano tangente en (a, b) definiendo a
u(x, y, z) = f (x, y)−z y procediendo como antes encontrando el plano tangente a u = 0 en el punto (a, b, f (a, b)).
20
5.3. Derivadas Direccionales
Como hemos visto en la sección 2.1, la expresión general para la derivada direccional de una función f : R ⊂
2
R → R en la dirección û = u1 ı̂ + u2 ̂ en el punto (a, b) ∈ R está dada por
Teorema 5.2. Si f es diferenciable en (a, b), entonces f tiene derivada direccional en la dirección de û =
(u1 , u2 ) en (a, b) dada por
∂f ∂f
Dû f (a, b) = u1 + u2 = ∇f (a, b) · û. (5.4)
∂x ∂y
Ejemplo 5.5 Encontremos la derivada direccional de la función f (x, y) = x2 y 3 − 4y en el punto (2, −1) en
la dirección del vector v = 2ı̂ + 5̂. Se tiene que la dirección unitaria de v se obtiene simplemente haciendo
v̂ = v
= √1 (2ı̂ + 5̂). Por otro lado, dado que f es diferenciable, se tiene que ∇f = 2xy 3 ı̂ + (3x2 y 2 − 4)̂.
||v|| 29
Luego ∇f (2, −1) = −4ı̂ + 8̂. Entonces
1 32
Dv̂ f (2, −1) = √ (−4ı̂ + 8̂) · (2ı̂ + 5̂) = √ .
29 29
Observación 5.1 Para más variables, el resultado no cambia su forma. Por ejemplo, en tres variables si
f (x, y, z) es diferenciable en (a, b, c) se tiene que Dû f (a, b, c) = ∇f (a, b, c) · û, donde û = u1 ı̂ + u2 ̂ + u3 k̂ es una
dirección unitaria de R3 .
Recordemos que la definición de producto punto entre dos vectores está dada por ~v · w
~ = k~v kkwk
~ cos θ, donde
θ = ∡(~v , w).
~ Si aplicamos esta noción a 5.4 tenemos entonces que
21
6. Teorema de la Función Implı́cita
donde θ = ∡(∇f (P0 ), û). Esto nos dice un hecho importante: la derivada direccional en un punto es maximizada
en la dirección del gradiente de la función, se minimiza si se elige la dirección opuesta al gradiente y es nula si
∇f (P0 )⊥û.
Ejemplo 5.6 Hallar los valores de las constantes a, b y c tales que la derivada direccional de f (x, y, z) =
axy 2 + byz + cz 2 x3 en el punto (1, 2, −1) tenga el valor máximo 64 en la dirección paralela al eje z. Para
cumplir la condición del problema las primeras dos derivadas parciales de f con respecto a x, y deben ser cero
en (1, 2, −1) y su tercera derivada con respecto a z debe tener módulo igual a 64. Es decir
∂f
(1, 2, −1) = (ay 2 + 3cx2 z 2 )(1,2,−1) = 4a + 3c = 0,
∂x
∂f
(1, 2, −1) = (2axy + bz)|(1,2,−1) = 4a − b = 0,
∂y
∂f
(by + 2czx3 )(1,2,−1)
(1, 2, −1) =
∂z = |2b − 2c| = 64.
Si la ecuación F (x, y) = 0, define a y como una función de x, por ejemplo y = f (x), de manera que
F (x, f (x)) = 0,
decimos que y = f (x) es implı́citamente definida por F (x, y) = 0. No toda ecuación F (x, y) = 0 puede resolverse
para y como función de x. Por ejemplo, los únicos valores reales que satisfacen x2 + y 2 = 0 son x = y = 0. Por
lo tanto, la primera consideración es dar condiciones bajo las cuales la ecuación F (x, y) = 0 defina una función
implı́cita única.
Teorema 6.1 (Existencia). Sea la región R que contiene al punto (a, b) en su interior. Entonces si
i) F (a, b) = 0,
iii) Fy (a, b) 6= 0;
existe algún intervalo I0 con respecto a x = a en donde existe una función única, diferenciable y = f (x) tal que
b = f (a), (6.1a)
22
6.2. Tres Variables
y cumple con
1. F √1 , √1 = 0.
2 2
Observación 6.1 El Teorema de la función implı́cita es un resultado local. Considere el mismo ejemplo anterior
pero ahora en los puntos (±1, 0). Esta restricción es importante pues nos dice dónde es posible despejar a una
variable en términos de otras de forma única y diferenciable.
En el caso que nos encontremos con la ecuación F (x, y, z) = 0 y deseemos despejar a una variable con respecto
a las otras dos, digamos z = f (x, y). Asumiremos que contamos con una solución en el punto P0 : (a, b, c) y
que F es diferenciable. Si suponemos que z = f (x, y) de forma única y diferenciable, entonces al derivar con
respecto a x la ecuación F (x, y, z) = 0 se tiene que
Fx
Fx + Fz · zx = 0 ⇒ zx = − .
Fz
Luego, la condición natural para despejar a z = z(x, y) es que la derivada de F con respecto a la variable que
se quiere despejar (en este caso z) no sea cero en P0 . De forma análoga se llega que
Fy
zy = − ,
Fz
con lo que se ha obtenido la siguiente fórmula para el gradiente de z en P0
1
∇z(P0 ) = − (Fx (P0 ), Fy (P0 )) .
Fz (P0 )
Resumimos nuestros cálculos con
Teorema 6.2 (Teorema de la Función Implı́cita). Sea R la región que contiene al punto P0 : (a, b, c) en su
interior. Entonces, si
i) F (a, b, c) = 0,
iii) Fz (a, b, c) 6= 0,
23
6.3. Dos Ecuaciones, Cuatro Variables
existe una vecindad I0 del punto (a, b) donde hay una función diferenciable única, z = f (x, y) que cumple
F (x, y, u, v) = 0
(6.3)
G(x, y, u, v) = 0.
Como antes, asumimos que contamos con una solución P0 : (a, b, c, d) y que F, G son funciones diferenciables.
Nuestro objetivo es despejar de forma única y diferenciable a u = u(x, y), v = v(x, y). Vamos a dar esto por
sentado para derivar una fórmula para los gradientes de u, v con respecto a x, y. Si derivamos ambas ecuaciones
en 6.3 con respecto a x obtenemos que
Fx + Fu · ux + Fv · vx = 0
Gx + Gu · ux + Gv · vx = 0.
De acá, es evidente que para tener solución única el jacobiano de F, G con respecto a las variables que se desan
despejar u, v debe ser invertible en la solución P0 : (a, b, c, d). De forma análoga, para y:
" # " #
∂(F, G) uy Fy
. =− .
∂(u, v) vy Gy
Podemos condensar toda esta información en una sola ecuación usando el formalismo desarrollado para jaco-
bianos
∂(F, G) ∂(u, v) ∂(F, G)
. =− .
∂(u, v) ∂(x, y) ∂(x, y)
Teorema 6.3. Sea R la región que contiene al punto P0 : (a, b, c, d) en su interior. Entonces, si
i) F (a, b, c, d) = G(a, b, c, d) = 0,
24
6.4. Caso General
existe una vecindad I0 de (a, b) en donde es posible definir a dos funciones únicas y diferenciables u = u(x, y), v =
v(x, y) tales que
c = u(a, b), d = v(a, b); (6.4a)
F (x, y, u(x, y), v(x, y)) = G(x, y, u(x, y), v(x, y)) = 0; (6.4b)
−1
∂(u, v) ∂(F, G) ∂(F, G)
=− . (6.4c)
∂(x, y) ∂(u, v) ∂(x, y)
Ejemplo 6.3 Las ecuaciones F = u2 + v 2 − x2 − y = 0, G = u + v − x2 + y = 0, se satisfacen en x = 2, y =
1, u = 1, v = 2. Puesto que " #
∂(F, G) 2u 2v
= ,
∂(u, v) 1 1
con determinante 2(u − v) 6= 0 en (2, 1, 1, 2). Además, las funciones que determinan el sistema son derivables con
derivada continua en todas sus variables. Entonces es posible despejar u = u(x, y), v = v(x, y) en una vecindad
de (2, 1) y además " #" #
∂(u, v) 1 1 −2v −2x −1
=− .
∂(x, y) 2(u − v) −1 2u −2x 1
En el punto (2, 1, 1, 2) se tiene que " #
∂(u, v) 1 12 −5
(2, 1) = .
∂(x, y) 2 −12 3
F1 (x1 , . . . , xn ; z1 , . . . , zm ) = 0
.. ..
. .
Fm (x1 , . . . , xn ; z1 , . . . , zm ) = 0.
Como antes, debemos levantar como hipótesis que se cuenta con una solución (x0 ; z 0 ). Nuestro interés es despejar
a (z1 , . . . , zm ) como funciones de (x1 , . . . , xn ) en una vecindad de x0 de forma única y diferenciable. Esto no
es más que una generalización del teorema anterior: deberemos exigir que todas las funciones F1 , . . . , Fm sean
diferenciables y que el jacobiano
∂(F1 , . . . , Fm )
,
∂(z1 , . . . , zm )
sea invertible en (x0 , z 0 ). De cumplirse estas tres condiciones es posible definir a zi = zi (x1 , . . . , xn ), i = 1, . . . , m
cerca del punto (x0 , z 0 ) de forma única y diferenciable. Sus derivadas se calculan por derivación implı́cita.
25
6.5. Teorema de la Función Inversa
Este resultado es un caso particular del teorema de la función implı́cita. La única diferencia es que trataremos
de despejar a n variables x1 , · · · , xn en términos de y1 , · · · , yn desde las ecuaciones
f1 (x1 , . . . , xn ) = y1
.. ..
. . (6.5)
fn (x1 , . . . , xn ) = yn .
Es decir, estamos tratando de invertir las ecuaciones del sistema anterior. Ante esta pregunta, simplemente
aplicamos el teorema de la función implı́cita a las funciones yi − fi (x1 , . . . , xn ) con respecto a las nuevas
incógnitas (x1 , . . . , xn ). La condiciones naturales es que f1 , . . . , fn sean todas diferenciables en torno a un punto
x0 y que el jacobiano
∂(f1 , . . . , fn )
,
∂(x1 , . . . , xn )
sea invertible. Podemos enunciar
u = g(x)
v = −y + xg(x).
Si g ′ (a) 6= 0, probar que esta transformación es invertible cerca de (a, b) con inversa dada por
x = g −1 (u),
y = −v + ug −1 (u).
Basta que apliquemos el teorema de la función inversa a las funciones f1 = g(x), f2 = −y + xg(x). Su jacobiano
es " #
∂(f1 , f2 ) g ′ (x) 0
= ,
∂(x, y) xg ′ (x) + g(x) −1
cuyo determinante en el punto dado P0 : (a, b; g(a), −b + ag(a)) está dado por −g(a) 6= 0. Luego, es posible
encontrar a x = x(u, v), y = y(u, v) de forma única y diferenciable en torno a (a, b). Más aún, es claro que
x = g −1 (u), lo que implica que v = −y + g −1 (u)u y luego y = −v + ug −1 (u), cumpliendo con lo deseado.
Si f es una función de dos variables que admite derivadas parciales con respecto a x, y, entonces estas también
son funciones de x, y y es posible obtener (si existen) sus derivadas parciales con respecto a x, y. Definimos ası́ las
26
7. Derivadas de Orden Superior
∂2f fx (a + h, b) − fx (a, b)
fxx = = lı́m , (7.1)
∂x2 h→0 h
∂2f fy (a, b + k) − fy (a, b)
fyy = = lı́m , (7.2)
∂y 2 k→0 k
∂2f fx (a, b + k) − fx (a, b)
fxy = = lı́m , (7.3)
∂y∂x k→0 k
∂2f fy (a + h, b) − fy (a, b)
fyx = = lı́m , (7.4)
∂x∂y h→0 h
si los lı́mites anteriores existen. Veamos un ejemplo del cálculo de segundas derivadas parciales.
Ejemplo 7.1 Calculemos las derivadas parciales de segundo orden de la funci”on f (x, y) = exy + x sen y. En
primer lugar se tiene que fx (x, y) = yexy + sen y, fy (x, y) = xexy + x cos y. Luego, dado que ambas derivadas
parciales son funciones diferenciables en todo R2 podemos calcular sus derivadas parciales directamente como
sigue
fxx = y 2 exy ,
fyy = x2 exy − x sen y,
∂
fxy = (yexy + sen y) = xyexy + cos y,
∂y
∂
fyx = (xexy + x cos y) = xyexy + cos y.
∂x
Como vemos, las derivadas mixtas fxy , fyx son iguales. No siempre será ası́.
27
7.1. La Serie de Taylor de Orden 2 de f (x, y)
Definición 7.1 Funciones de clase C k . Sea f : R ⊂ R2 → R, diremos que f es una función de clase C k si
f admite hasta k derivadas parciales continuas, k ∈ N.
Teorema 7.1. Si f es una función de clase C 2 , entonces sus derivadas mixtas son iguales.
Usaremos este resultado para formular la serie de Taylor en varias variables, focalizando nuestro interés en
el segundo orden que aplicaremos a la obtención de máximos y mı́nimos.
Enunciamos el resultado general para series de Taylor y luego lo contextualizaremos al segundo orden que
nos interesará en la sección siguiente.
Teorema 7.2 (Teorema de Taylor). Suponga que f es una función de dos variables que admite p + 1
derivadas parciales continuas en una vecindad de un punto (a, b). Entonces tenemos la siguiente expansión
X ∂ r+s f (a, b) (x − a)r (y − b)s
f (x, y) = f (a, b) + + Rp , (7.5)
∂xr ∂y s r! s!
1≤r+s≤p
donde (ξ, η) es un punto situado en el segmento de recta que conecta (a, b) con (x, y).
Para el caso p = 2 tenemos la expansión de segundo orden, donde 7.5 toma la forma
Sin embargo, puesto que la función es al menos de clase C 3 se tiene que las derivadas mixtas coinciden y podemos
simplificar lo anterior para obtener
28
8. Puntos Crı́ticos y Extremos
En primer lugar, abordaremos el caso de una función definida en un dominio abierto. El caso de dominio
acotado se examinará de dos maneras, la primera tratada en este apartado y la segunda en la siguiente sección.
Definición 8.1 Sean f : R ⊂ R2 → R y (a, b) ∈ R. Diremos que (a, b) es un punto mı́nimo local de f si existe
una vecindad V de (a, b) tal que para todos los puntos (x, y) se cumple que f (a, b) ≤ f (x, y). De forma análoga,
(a, b) ∈ R es un punto máximo local si existe una vecindad V de (a, b) tal que f (x, y) ≤ f (a, b), ∀(x, y) ∈ V .
Si (a, b) es un punto mı́nimo o máximo local diremos que que es un extremo local o relativo de f .
Definición 8.2 El punto (a, b) es un punto crı́tico de f (x, y) en (a, b) si o bien f no es diferenciable en (a, b),
o ∇f (a, b) = 0. Si un punto crı́tico no es un extremo local, se dice que es un punto silla.
A continuación entregamos una condición para las primeras para la existencia de extremos locales.
Demostración. Suponga que f alcanza un máximo en (a, b). Entonces, para todo h = (h1 , h2 ) la función
g(t) = f (a + th1 , b + th2 ) tiene un máximo local en t = 0. Luego g ′ (0) = 0. Por otro lado, la regla de la cadena
implica que
0 = g ′ (0) = ∇f (a, b) · h ∀h,
Ejemplo 8.1 Estudiemos en primer lugar a la función f (x, y) = x2 + y 2 . Esta función es diferenciable en todo
el plano, por lo que solo nos resta buscar los posibles extremos y clasificarlos. En primer lugar, su gradiente es
∇f = 2xı̂ + 2ŷ. Al imponer que sea el vector nulo tenemos como única solución x = y = 0. Para clasificar,
simplemente notamos que x2 + y 2 ≥ 0 ∀(x, y) y que es cero solo si x = y = 0. Luego, el origen es un mı́nimo
para f , más aún es un mı́nimo local.
29
8.1. Dominios no Acotados
Ejemplo 8.2 Consideremos esta vez a la función f (x, y) = x2 y + y 2 x. Esta función es diferenciable en todo
el plano, por lo que solo nos resta buscar los posibles extremos y clasificarlos. En primer lugar, su gradiente es
∇f = (2xy + y 2 )ı̂ + (x2 + 2xy)̂. Al imponer que sea el vector nulo tenemos x2 = y 2 y luego x = ±y. Si x = y
y se reemplaza en la primera ecuación se llega a 3y 2 = 0, de donde y = x = 0. De forma similar si x = −y se
obtiene como única solución x = y = 0. Para clasificar, basta considerar x = y con lo cual la función toma la
forma f (x) = 2x3 , de donde se concluye que el origen no es ni máximo ni mı́nimo, es decir, es un punto silla.
Nuestro punto de partida será la serie de Taylor de orden dos para una función f de clase C 3 (R) en torno
al punto (a, b)
1
f (x, y) = f (a, b) + ∇f (a, b)∆x + ∆xT .Hf (a, b).∆x + R2 .
2
Si (a, b) es un punto crı́tico, entonces el gradiente se anula y lo anterior toma la expresión más compacta
1
f (x, y) − f (a, b) = ∆xT .Hf (a, b).∆x + R2 . (8.1)
2
Queremos clasificar al extremo (a, b) a partir del lado derecho de 8.1, es decir, usando la información que entrega
la matriz hessiana de f en el punto (a, b) y buscando limitar el efecto que pueda tener el resto R2 es nuestros
cálculos. Primero definimos
Definición 8.3 La función cuadrática g : R2 → R se dice definida positiva si g(x, y) ≥ 0 y g(x, y) = 0 solo si
x = y = 0. De forma análoga, diremos que g es definida negativa si g(x, y) ≤ 0 y g(x, y) = 0 solo si x = y = 0.
Observación 8.1 La función g(∆x) = ∆xT .Hf .∆x es una forma cuadrática para los incrementos ∆x =
(x − a, y − b).
Proposición 8.1. Si ∆xT .Hf .∆x es definida positiva, entonces existe una constante positiva M > 0 tal que
para todo ∆x:
∆xT .Hf .∆x ≥ M k∆xk.
Demostración. Para k∆xk = 1 definimos la función g(∆x) = ∆xT .Hf .∆x. entonces g es una función continua
de ∆x para k∆xk = 1 que alcanza su mı́nimo, digamos M . Por otro lado
∆xT ∆x ∆xT ∆x 2 ∆x
T
∆x .Hf .∆x = k∆xk .Hf . k∆xk = .Hf . k∆xk = g k∆xk2 ≥ M k∆xk2 ,
k∆xk k∆xk k∆xk k∆xk k∆xk
para cualquier ∆x 6= 0.
Supongamos ahora que en el punto crı́tico (a, b) se tiene que la matriz Hf (a, b) es definida positiva, es decir,
existe M > 0 tal que ∆xT .Hf .∆x ≥ M k∆xk. Por otro lado, el resto R2 /k∆xk2 → 0 si ∆x → 0. Luego, existe
una constante positiva δ tal que para 0 < k∆xk < δ
Ası́ 0 < ∆xT .Hf .∆x + R2 = f (x, y) − f (a, b) para 0 < k∆xk < δ y (a, b) es un mı́nimo. En resumen, hemos
llegado al siguiente resultado
30
8.1. Dominios no Acotados
Teorema 8.2 (Condición Suficiente). Si f es de clase C 3 (R) y (a, b) es un punto crı́tico de ella donde su
matriz hessiana Hf (a, b) sea definida positiva, entonces (a, b) es un mı́nimo relativo para f . De forma análoga,
si Hf (a, b) es definida negativa entonces (a, b) es un máximo relativo para f .
Nos queda por relacionar estos resultados con la matriz hessiana que se consigue mediante la siguiente
" #
a b
Proposición 8.2. Sean A = y H(x) = xT .A.x, donde x = (x, y). Entonces H(x) es definida positiva
b c
si y solo si a > 0 y det(A) > 0.
Por un lado, si H es definida positiva hacemos y = 0, luego a > 0. Después podemos hacer x = − ab y, de donde
sigue que ac − b2 > 0.
Por el otro lado, si a > 0 y ac − b2 > 0 entonces H es suma de cuadrados, luego H(x) ≥ 0. Si H(x) = 0,
entonces cada cuadrado debe ser cero y luego x = y = 0.
Teorema 8.3 (Criterio de la Segunda Derivada para Mı́nimos de Funciones de Dos Variables). Sea
f ∈ C 3 (R), R ⊂ R2 . El punto (a, b) ∈ R es un mı́nimo local para f si se cumplen las siguientes:
i) ∇f (a, b) = 0.
Observación 8.2 1. Si en (ii) hacemos fxx (a, b) < 0 entonces (a, b) es un máximo local para f . La tercera
condición no cambia.
2. Si det(Hf (a, b)) < 0, entonces (a, b) es un punto silla, sin importar lo que se obtenga en (ii).
31
8.2. Máximos y mı́nimos globales
Nos concentramos en el estudio de máximos y mı́nimos globales sobre una región R ⊂ Rn . Necesitamos
precisar algunos conceptos previamente.
Definición 8.4 Sea f : R ⊂ Rn → R. Diremos que x0 ∈ R es un mı́nimo (máximo) absoluto de f si
f (x0 ) ≤ f (x), ∀x ∈ R (la desigualdad se invierte para el caso de máximo absoluto).
Definición 8.5 R ⊂ Rn es acotado si existe M > 0 tal que kxk < M, ∀x ∈ R. Diremos que R es cerrado si
contiene a los puntos de su frontera.
Teorema 8.4. Si R es cerrado y acotado y f : R → R es continua, entonces existen x0 , x1 ∈ R donde f
alcanza su máximo y su mı́nimo.
Observación 8.3 El borde de R, denotado por ∂R puede ser parametrizado usando n − 1 parámetros, lo
que permite simplificar los cálculos. Por ejemplo, en R2 , ∂R es una curva, que puede ser parametrizada como
x = x(t), y = y(t).
32
9. Extremos con Restricciones y Multiplicadores de Lagrange
∇f k ∇g ⇔ ∇f = λ∇g,
Teorema 9.1. Sean f, g : R ⊂ R2 → R funciones de clase C 1 (R). Dada C la curva de nivel g(x, y) = 0. Si f
restringida a C alcanza un máximo o un mı́nimo local, en (a, b) ∈ R, entonces existe un número real λ ∈ R tal
que
∇f (a, b) = λ∇g(a, b), ∇g(a, b) 6= 0. (9.3)
Observación 9.2 La condición 9.3 puede ser utilizada de forma apropiada para encontrar los extremos. Puesto
que ∇f k ∇g sigue que el determinante cuyas columnas son ∇f y ∇g de be ser cero. Es decir, det([∇f |∇g]) = 0.
Esto aporta una ecuación, más la restricción se tiene un sistema cuadrado.
33
9.1. Una restricción
Ejemplo 9.2 Encuentre la mı́nima distancia en R2 entre las dos superficies de ecuación:
S1 : x2 + 2y 2 − 1
S2 : x+y−4
4
Queremos minimizar la distancia de los puntos
(x, y) que pertenecen a la elipse y no están sobre la
3
recta x + y − 4 = 0. Como la función que mide la
|Ax+By+C|
distancia de un punto a una recta: √
A2 +B 2
es no
2
diferenciable, minimizamos su cuadrado, es decir
(x + y − 4)2
mı́n f (x, y) =
2 -1 1 2 3 4
sujeto a g(x, y) = x2 + 2y 2 − 1 = 0.
pero puesto que (x, y) no pertenecen a la recta x + y − 4 6= 0, por lo que podemos simplificar y obtener x = 2y.
Reemplazando esto en la restricción sigue que y = ± √16 ⇒ x = ± √26 . Evidentemente, los puntos en el primer
√ √
cudrante minimizan la distancia y luego ( √26 , √16 ) es el óptimo, con distancia mı́nima 3− 2
2 . Para comprobar,
tomar cualquier otro punto de la elipse y calcular su distancia a la recta.
Observación 9.3 En el caso en que estemos en presencia de una función a optimizar de tres variables f (x, y, z)
sujeta a una única restricción g(x, y, z) = 0 no podemos formar el determinante det([∇g|∇g]) (la matriz no es
cuadrada), pero sı́ podemos utils.aizar un criterio de proporcionalidad como sigue
Ejemplo 9.3 Minimice la distancia de (x, y, z) a (1, 3, 2) para puntos sobre el plano 2x + y + z = 5.
En este caso el problema de optimización asociado es
34
9.2. Dos Restricciones
Los gradientes de las respectivas funciones son ∇f = (2(x − 1), 2(y − 3), 2(z − 2)) y ∇g = (2, 1, 1). Luego, por
9.4 tenemos
x−1
= y − 3 = z − 1 ⇒ x = 2y − 5, z = y − 2.
2
√
17 2 5 6
Reemplazando en la restricción obtenemos y = 6 . De acá x = 3, z = 6, que evaluando su distancia da 2 .
Para chequear que es un mı́nimo, tomar cualquier otro punto del plano y calcular su distancia al plano.
Ejemplo 9.4 Una empresa estima que su utilidad mensual está dada por
18x 48y
U (x, y, z) = + + 3x + 3y + 5z − 45,
x+4 y+6
donde x, y, z representan el gasto por radio, televisión y prensa escrita, respectivamente.
Determine la cantidad a asignar a cada medio de manera que se maximice la utilidad, si el presupuesto mensual
no puede superar los 10 millones de pesos. Si la empresa no invierte, ¿se obtienen utilidades?
Sea g(x, y, z) = x + y + z. Se tiene Uz = 5 6= 0, de manera que ∇U 6= 0 y entonces no hay puntos crı́ticos en
el interior, y los extremos se alcanzan en la frontera. En la restricción g(x, y, z) = 10 se tiene: ∇U = λ∇g, de
donde se tienen las ecuaciones
18 · 4 48 · 6
+ 3 = λ, + 3 = λ, 5 = λ,
(x + 4)2 (y + 6)2
Es decir, buscamos los puntos (x, y, z) que maximizan o minimizan a f sobre la curva intersección de las
superficies de nivel g = h = 0. Esto se ilustra en la Figura 9.2. Puesto que tanto g y h son de clase C 1 (R),
entonces la intersección de las superficies g = h = 0 es una curva suave C que puede ser parametrizada por un
vector posición ~r(t) = (x(t), y(t), z(t)). Entonces, por la regla de la cadena, para todo punto sobre C se cumple
que
35
9.2. Dos Restricciones
∂g dx ∂g dy ∂g dz d~r
+ + = ∇g · = 0, (9.6)
∂x dt ∂y dt ∂z dt dt
∂h dx ∂h dy ∂h dz d~r
+ + = ∇h · = 0. (9.7)
∂x dt ∂y dt ∂z dt dt
Por otro lado, en los puntos donde f alcance sus óptimos, digamos t = t0 que implica que (x(t0 ), y(t0 ), z(t0 )) =
(a, b, c) se tiene:
∂f dx ∂f dy ∂f dz d~r
+ + = ∇f (a, b, c) · = 0. (9.8)
∂x dt ∂y dt ∂z dt dt t0
Si interpretamos la información que nos entregan las últimas tres ecuaciones, se deduce que en los puntos donde
f se optimiza su gradiente es perpendicular tanto al gradiente de g como al de h, por lo tanto debe pertenecer
al plano que generan estos vectores (ver figura 9.2) y entonces es combinación lineal de ellos dos, es decir, en
los puntos (a, b, c) donde f alcanza sus máximos o mı́nimos se cumple que
Los números λ, µ se denominan multiplicadores de Lagrange. Podemos ası́ formular un resultado análogo al
teorema 9.1
Teorema 9.2. Sean f, g, h : R ⊂ R3 → R funciones de clase C 1 (R). Dada C la curva intersecci’on de las
superficies de nivel g(x, y, z) = h(x, y, z) = 0. Si f restringida a C alcanza un máximo o un mı́nimo local, en
(a, b, c) ∈ R, entonces existen un números reales λ, µ ∈ R tales que
Observación 9.4 Note que si alguno de los multiplicadores es cero, entonces la restricción asociada queda
inactiva y el problema se reduce al caso anterior (una restricción, tres variables). Si ambos multiplicadores son
cero, entonces simplemente se buscan los extremos de f sin restricciones, caso tratado en la sección anterior.
36
9.3. Caso General, Función de Lagrange
Observación 9.5 La condición 9.9 puede ser utilizada de forma apropiada para encontrar los extremos. Puesto
que ∇f = λ∇g + µ∇h sigue que el determinante cuyas columnas son ∇f , ∇g y ∇h debe ser cero. Es decir,
det([∇f |∇g|∇h]) = 0. Esto aporta una ecuación, más las dos restricciones se tiene un sistema cuadrado.
Usando la segunda restricción sigue que y = 0 y que z = −x. Al reemplazar esto en la primera restricción sigue
que las soluciones son (±1, 0, ∓1). Al evaluar f en dichos puntos, sigue que el máximo es (−1, 0, 1).
Deseamos encontrar los valores óptimos de una función f : R ⊂ Rn → R de clase C 1 (R) sujeta a m
restricciones g1 , . . . , gm : R → R todas de clase C 1 (R). Es decir
opt(f (x1 , . . . , xn ))
sujeta a g1 (x1 , . . . , xn ) = 0,
.. (9.10)
.
gm (x1 , . . . , xn ) = 0.
Es posible extender nuestros desarrollos anteriores y probar que en los puntos x0 = (x∗1 , . . . , x∗n ) que optimizan
a f existen m números reales λi , i = 1, . . . , m tales que
m
X
∇f = λi ∇gi . (9.11)
i=1
Sin embargo, este esquema es difı́cil de implementar para problemas con un número de restricciones elevado,
por lo que se define la siguiente función de n + m variables, llamada función de Lagrange
m
X
L(x1 , . . . , xn ; λ1 , . . . , λm ) = f (x1 , . . . , xn ) − λi · gi (x1 , . . . , xn ). (9.12)
i=1
Note que si consideramos las derivadas parciales con respecto a las variables xj , j = 1, . . . , n se tiene que
m
∂L ∂f X ∂gi
= − λi ; j = 1, . . . , n. (9.13)
∂xj ∂xj i=1
∂xj
37
REFERENCIAS REFERENCIAS
∇L = (0, . . . , 0; 0, . . . , 0).
| {z } | {z }
n veces m veces
y la condición 9.11 se recupera. Mientras que para las m variables restantes (los multiplicadores) se verifica
gi = 0, i = 1, . . . , m
con lo que hemos recuperado las restricciones del problema original 9.10. En conclusión, con la función de
Lagrange hemos sido capaces de recuperar el problema 9.10 con toda la información derivada previamente.
Observación 9.6 Note que implementar esta función computacionalmente es factible, mas al trabajar analı́tica-
mente se debe tener en cuenta que se deberá resolver un sistema de gran número de ecuaciones (n+m ecuaciones
para el mismo número de incógnitas) donde muchas de las relaciones involucradas son no lineales, luego no se
sugiere para efectos prácticos relacionados con este curso la implementación de este esquema. Además, la impor-
tancia de los multiplicadores de Lagrange aun no es considerada, que es la verdadera razón por la cual definir
la función de Lagrange y que es estudiada en cursos superiores de Optimización, por lo que determinar los m
multiplicadores es irrelevante desde el punto de vista de nuestro curso y solo induce a confusiones innecesarias.
Observación 9.7 Puesto que al trabajar con la función de Lagrange operamos sin restricciones es factible
implementar el criterio de la segunda derivada para categorizar los óptimos encontrados. Sin embargo, esto
conduce a problemas de gran tamaño en general y este tema se escapa al nivel de nuestra asignatura.
Referencias
[1] Jerrold E. Mardsen, Anthony Tromba. Cálculo Vectorial. Editorial Pearson Addison Wesley. Quinta edición,
2004.
[2] Sherman K. Stein, Anthony Barcellos. Cálculo y Geometrı́a Analı́tica, volumen 2. Editorial McGraw–Hill.
Quinta edición, 1996.
[3] Louis Brand. Cálculo Avanzado. Editorial Continente S.A. Segunda edición, 1964.
[4] Murray H. Protter, Charles B. Morrey Jr. Modern Mathematical Analysis. Editorial Addison-Wesley, 1964.
[5] Walter Rudin. Real and Complex Analysis. Editorial McGraw–Hill. Tercera edición, 1987.
38