Вы находитесь на странице: 1из 38

MAT-023: Cálculo Diferencial en Varias Variables

1
Juan Carlos Chavarrı́a
Universidad Técnica Federico Santa Marı́a

Resumen

Estas notas son un resumen de los apuntes de clase que el autor ha desarrollado a lo largo de diversos
semestres de dictar la asignatura de MAT–023. Se nutren de diversas referencias bibliográficasası́ como de
ejercicios de guı́as, pruebas y controles de semestres anteriores. No es la intención de estas notas reemplazar
a un texto guı́a, si no más bien complementar y procurar simplificar desarrollos y notaciones para facilitar
el estudio del alumno dedicado.
En la primera sección de estas notas presentamos la definición de lı́mite y continuidad para una función de
varias (2 o 3) variables. Examinamos sus similitudes y diferencias con el concepto de una función univariada
ası́ como sus propiedades y álgebra.
En la segunda sección estudiamos la interpretación geométrica del concepto de diferenciabilidad para fun-
ciones de varias (2 o más) variables. Posteriormente entregamos la definición y una recopilación de resultados
y contraejemplos para este concepto.
En las secciones siguientes realizamos un estudio del operador gradiente y extensiones de hechos del cálculo
en una variable tales como regla de la cadena, derivación implı́cita y máximos y mı́nimos.
Quisiera agradecer a las personas que a futuro perfeccionen y complementen este material.

1. Funciones de Varias Variables

1.1. Definiciones

Sea R ⊂ R2 una región del plano y P0 = (a, b) un punto de ella. Definimos lo siguiente

Definición 1.1 Disco. Al conjunto de puntos que están a distancia menor que r de P0 lo denominamos Disco
con centro P0 y radio r y lo denotamos por Br (P0 ). Es decir

Br (P0 ) = {(x, y)|(x − a)2 + (y − b)2 < r}.

Definición 1.2 Diremos que P0 es un punto frontera de R si todo disco, sin importar su radio, centrado en
P0 contiene puntos en la región R y fuera de ella.

Definición 1.3 Si existe un disco con centro en P0 dentro de R, decimos que P0 es un punto interior de R. Si
todo punto de R es interior, decimos que es un abierto.

Observación 1.1 Coloquialmente, dada una curva cerrada, el conjunto de puntos dentro de ella, pero no sobre
ella, es un abierto.

1 Al lector dedicado se ruega hacer llegar sus observaciones al correo electrónico juan.chavarria@usm.cl
1.2. Lı́mite de una función de dos variables

Figura 1: Región del plano R mostrando un punto interior y punto frontera.

1.2. Lı́mite de una función de dos variables

Dado R un conjunto abierto de R2 daremos una primera definición del lı́mite de una función de dos variables.

Definición 1.4 Sea f : R ⊂ R2 → R definida en todo R, salvo quizás en P0 : (a, b) ∈ R. si existe L ∈ R tal
que f (P ) tiende a L si P tiende a P0 entonces L se denomina lı́mite de la función f (P ) a medida que P tiende
a P0 .

Observación 1.2 La notaciones más usadas son:

lı́m f (P ) = L, ó
P →P0
f (P ) −→ L, si P → P0 , ó
lı́m f (x, y) = L.
(x,y)→(a,b)

Observación 1.3 Esto significa que si el lı́mite existe, el valor de f en P0 puede ser aproximado por las
evaluaciones de f en puntos cercanos a P0 . Esta es la noción de punto de acumulación.

Observación 1.4 En varias variables, sigue siendo válido el Teorema de Unicidad del Lı́mite: Si el lı́mite existe,
este debe ser único. Sin embargo, y como es evidente, en R2 existen infinitas direcciones de acercamiento a un
punto y se debe ser especialmente cuidadoso. Lo graficamos con los siguientes ejemplos
x2 − y 2
Ejemplo 1.1 Dada f (x, y) = , examinamos su comportamiento si (x, y) → (0, 0). Si nos acercamos por
x2 + y 2
la recta x = 0:
−y 2
lı́m = −1,
y→0 y 2

pero si nos acercamos por la recta y = 0:


x2
lı́m= 1,
x→0 x2

como se aprecia, los lı́mites son distintos y luego lı́m(x,y)→(0,0) f (x, y) no existe.

2
1.2. Lı́mite de una función de dos variables

x2 y
Ejemplo 1.2 Consideremos la función f (x, y) = y examinemos su comportamiento si (x, y) → (0, 0).
x4 + y 2
Si nos acercamos por la rectas y = mx entonces
mx3 mx
lı́m 4 2 2
= lı́m 2 = 0,
x→0 x + m x x→0 x + m2

pero si nos acercamos por la parábola y = x2 :


x4 1
lı́m = ,
x→0 x4 +x 4 2
como los lı́mites no coinciden, el lı́mite no existe.

Ejemplo 1.3 Normalmente, es usual encontrar expresiones del tipo

lı́m lı́m f (x, y) lı́m lı́m f (x, y),


y→b x→a x→a y→b

que llamamos lı́mites iterados para f (x, y). Conviene no engañarse. Esto corresponde a la elección de las
trayectorias privilegiadas. Por ejemplo, el lı́mite
x2 y 2
lı́m ,
(x,y)→(0,0) x2 y 2 + (x − y)2

no existe, ya que a lo largo de la recta y = x se tiene que f (x, y) = 1 ⇒ lı́mx→0 f (x, x) = 1. Sin embargo, los
lı́mites iterados
x2 y 2 x2 y 2
lı́m lı́m = lı́m lı́m = 0.
y→0 x→0 x2 y 2 + (x − y)2 y→0 x→0 x2 y 2 + (x − y)2

Podemos obtener varias conclusiones:

Usar direcciones de acercamiento es una buena técnica para probar que un lı́mite no existe.

Si el lı́mite encontrado por varias direcciones de acercamiento coincide, esto no implica que el lı́mite exista,
pero nos sirve para encontrar un candidato al valor del lı́mite, de existir.

La única técnica válida para probar la existencia del lı́mite es usar la definición formal de lı́mite que
damos a continuación.

Definición 1.5 Definición precisa de lı́mite. Sea f una función definida al menos en todos los puntos sobre
un disco cuyo centro está en P0 , excepto quizás en P0 , Sea L un número. Si para cada ǫ > 0 existe un número
positivo δ tal que
|f (P ) − L| < ǫ,
siempre que P se encuentre en el disco de radio δ y centro P0 . De ser ası́, L se llama el lı́mite de f (P ) cuando
P tiende a P0 .
2 2
Ejemplo 1.4 La función f (x, y) = xy xx2 −y
+y 2 posee lı́mite cuando (x, y) → (0, 0). Un candidato se encuentra
usando rectas y = mx, de donde el posible lı́mite es L = 0. Para verificarlo usamos acotamiento. En efecto,
|x2 − y 2 |
|f (x, y) − 0| = |xy| < |x||y| < ǫ,
x2 + y 2

cuando x2 + y 2 < ǫ; ası́ podemos elegir δ = ǫ.

3
1.3. Continuidad

Los teoremas de álgebra de lı́mites son similares a los de cálculo en una variable y se entregan a continuación:

Teorema 1.1 (Álgebra de Lı́mites). Si f (x, y) → L, g(x, y) → M cuando (x, y) → (a, b) entonces

i) f (x, y) + g(x, y) → L + M , si (x, y) → (a, b).

ii) f (x, y) · g(x, y) → L · M , si (x, y) → (a, b).

iii) f (x, y)/g(x, y) → L/M, M 6= 0, si (x, y) → (a, b).

Observación 1.5 El recı́proco de estas afirmaciones es falso. A modo de contraejemplo, considere la función
del ejemplo 1.4. Ella posee lı́mite cuando (x, y) → (0, 0), pero si examinamos los factores
 2 
x − y2
f (x, y) = (xy) ,
x2 + y 2

notamos que el primero posee lı́mite cuando (x, y) → (0, 0), mientras que el segundo caso ya fue tratado y se
probó que su lı́mite no existe si (x, y) → (0, 0).

1.3. Continuidad

El concepto de continuidad en un punto de una función de dos variables es casi idéntico al caso unidimen-
sional. Deberemos ser algo más cuidadosos en el caso de continuidad en una región que veremos más adelante.

Definición 1.6 Continuidad en un punto. Sea f : R ⊂ R2 → R. Diremos que f es continua en P0 ∈ R si


cumple con las siguientes propiedades

i) f (P0 ) existe.

ii) lı́mP →P0 f (P ) existe.

iii) lı́mP →P0 f (P ) = f (P0 ).

De manera similar, enunciamos el álgebra de funciones continuas en un punto P0 .

Teorema 1.2 (Álgebra de Funciones continuas.). Sean f, g : R ⊂ R2 → R continuas en un punto P0 ∈ R,


entonces

i) f (P ) + g(P ),

ii) f (P ) − g(P ),

iii) f (P ) · g(P ) y

iv) f (P )/g(P )

son todas continuas en P0 . En (iv) debemos agregar que g(P0 ) 6= 0.

4
1.3. Continuidad

Para la composición de funciones el resultado para garantizar la continuidad es

Teorema 1.3. Sean f, g dos funciones tales que su composición está definida en P0 . Si g es continua en P0 y
f es continua en g(P0 ), entonces la composición f ◦ g es continua en P0 .

Ejemplo 1.5 Examinamos la continuidad de la función:


 4 4
 1 − cos(x − y ) si (x, y) 6= (0, 0)
f (x, y) = x2 + y 2

0 si (x, y) = (0, 0).

Esta función es continua en todo R2 \ {(0, 0)} pues es composición y cuociente de funciones continuas.
Nos queda por verificar que lı́m(x,y)→(0,0) f (x, y) = 0. Haciendo u = x2 + y 2 y v = x2 − y 2 , notamos que
(u, v) → (0, 0) si (x, y) → (0, 0) y ahora calculamos

1 − cos(uv) 1 − cos(uv)
lı́m = lı́m v,
(u,v)→(0,0) u (u,v)→(0,0) uv

que tiende a cero si (u, v) → (0, 0). Luego lı́m(x,y)→(0,0) f (x, y) = 0 y la función es continua en el origen.

Para funciones de más variables la definición es una generalización de lo anterior.

Definición 1.7 Si una función f está definida como sigue f : R ⊂ Rn → Rm , donde f (x) = (f1 (x), f2 (x), . . . , fm (x))
y x = (x1 , x2 , . . . , xn ). Esta función será continua en x0 ∈ R si cada una de sus componentes es continua en x0 .

Por último entregamos la definición de continuidad sobre una región.

Definición 1.8 Continuidad en una región. Una función definida sobre una región R es continua sobre
ella si es continua sobre todos los puntos de R. Es decir, cumple con la definición 1.6 ∀P ∈ R.

Ejemplo 1.6 Examinamos todos los puntos donde la función


p
 (1 + 4x)(1 + 6y) − 1

si 2x + 3y 6= 0,
f (x, y) = 2x + 3y

 0 si 2x + 3y = 0.

Sean las regiones A = {(x, y) ∈ R2 : (1 + 4x)(1 + 6y) ≥ 0} = [− 14 , ∞) × [− 61 , ∞) ∪ (−∞, − 14 ] × (−∞, − 61 ] y


B = {(x, y) ∈ R2 : 2x + 3y = 0}, entonces f es continua sobre la región A \ B por álgebra de funciones continuas.
Para los puntos (x0 , y0 ) sobre B \ {(0, 0)} nos acercamos a ellos por las rectas x = x0 + t, y = y0 + t. Calculamos:
p
1 + 2t + 24t2 − 36y02 − 1
lı́m f (x0 + t, y0 + t) = lı́m ,
t→0 t→0 5t
que no existe. Luego f no es continua sobre ningún punto de B \ {(0, 0)}. Por último, en (0, 0) basta con
acercarse por la trayectoria y = 23 x para tener que f (x, 23 x) = 1 6= f (0, 0) = 0 y luego f no es continua en (0, 0).
En resumen, f es continua solo en A \ B.

5
2. Derivadas Parciales

2. Derivadas Parciales

Como antes, consideramos una función f : R ⊂ R2 → R y sea P0 = (a, b) ∈ R. Definimos las derivadas
parciales de f como sigue

Definición 2.1 Si los siguientes lı́mites existen

f (a + h, b) − f (a, b)
lı́m , (2.1)
h→0 h
f (a, b + k) − f (a, b)
lı́m , (2.2)
k→0 k
existen, estos se llaman derivadas parciales de la función f con respecto a x e y respectivamente en el punto
(a, b).

Las notaciones más usadas son ∂f ∂f


∂x , ∂y , fx , fy , zx , zy .
Interpretación Geométrica. Dada la traza y =
b, ∂f /∂x(a, b) es la pendiente de la recta tan-
gente a la curva f (x, b) en el punto x = a. Si-
milar para ∂f /∂y(a, b). Véase figura. Tenemos al-
gunos casos patológicos que detallamos a continuación.

Traza y = b para la superficie z = f (x, y). La derivada par-


cial fx (a, b) es la pendiente de la recta tangente a la curva
en R3 , Cx : f (x, b).

Observación 2.1 Tal como en el caso univariado una función continua puede tener derivadas parciales en un
punto o no. Veamos dos casos particulares.

Ejemplo 2.1 La función f (x, y) = sen(x2 y) es continua en (1, π/4) por ser producto y composición de funciones
continuas. Además

∂f  π  f (1 + h, π/4) − f (1, π/4) sen((1 + h)2 π/4) − 2/2
1, = lı́m = lı́m
∂x 4 h→0 h h→0 h
√ "  #
2 π sen π2 h  π 2 π 2  cos π2 h cos π4 h2 + sen π4 h2 − 1
= lı́m cos h − sen h +
2 h→0 2 π2 h 4 4 h


= ,
4

6
2. Derivadas Parciales

sen θ
donde hemos usado el resultado lı́mθ→0 θ = 1 y la regla de l’Hôpital. En tanto

∂f  π  f (1, π/4 + k) − f (1, π/4) sen π4 + k − 2/2
1, = lı́m = lı́m
∂y 4 k→0 k k→0 k
√   √
2 sen k cos k − 1 2
= lı́m + = .
2 k→0 k k 2

En este caso, tenemos una función continua cuyas derivadas parciales existen en un punto. Examinemos el
recı́proco

Ejemplo 2.2 Consideremos la función f (x, y) = |xy|, continua por ser producto y composición de funciones
continuas. Sin embargo, al calcular sus derivadas parciales en el punto (0, 1) se obtiene

∂f f (h, 1) − f (0, 1) |h|


(0, 1) = lı́m = lı́m ,
∂x h→0 h h→0 h

∂f
que no existe. De forma análoga se muestra que ∂y (0, 1) no existe.

Observación 2.2 A diferencia del caso univariado, esta vez si tenemos una función discontinua en un punto
sus derivadas parciales pueden existir, sin importar la discontinuidad. Veamos un caso

Ejemplo 2.3 Consideramos la función


 xy
 si (x, y) 6= (0, 0)
f (x, y) = x2 + y2
 0, si (x, y) = (0, 0)

m
que es discontinua en (0, 0). En efecto, si consideramos las rectas y = mx, entonces lı́mx→0 f (x, mx) = 1+m2 ,
que depende de m. Luego el lı́mite no existe y entonces f no es continua en el origen. Sin embargo

∂f f (h, 0) − f (0, 0)
(0, 0) = lı́m = 0.
∂x h→0 h
∂f
De forma análoga se calcula ∂y (0, 0) = 0. Como vemos ambas derivadas parciales existen en el origen, pero la
función es discontinua

Estas observaciones son importantes: Para asegurar el buen comportamiento de una función se debe ir un
paso más allá. Ese es el concepto de Diferenciabilidad, que examinaremos en la siguiente sección.

Cálculo de Derivadas Parciales. Para fines de cálculo de derivadas parciales en un punto (a, b) sin pasar
por la definición seguimos la siguiente guı́a:

1. La variable que no participa de la derivación se trata como constante.


2. Se deriva con respecto a la variable de derivación siguiendo las reglas del cálculo en una variable.
3. Se evalua en el punto (a, b).

7
2.1. Derivadas Direccionales

2
Ejemplo 2.4 Calculemos fx , fy para f (x, y) = (x + y)ex en (1, 1). Veamos
∂f  2 2
 2 2
ex + 2xyex = e1 + 2 · 1 · 1e1 = 3e.

=
∂x (1,1)
∂f
2
= ex = e.
∂y (1,1)

A continuación definimos el operador gradiente cuyas propiedades serán estudiadas en profundidad en la sección
subsiguiente.

Definición 2.2 Operador Gradiente. Sea f : R ⊂ R2 → R tal que ambas derivadas parciales existen en
(a, b) ∈ R, definimos el Gradiente de f en (a, b) como el vector
∂f ∂f
∇f (a, b) = (a, b)ı̂ + (a, b)̂. (2.3)
∂x ∂y

∂(sen x2 y) √

Ejemplo 2.5 Calculamos ∇(sen x2 y) en (1, π/4). Sabemos del ejemplo 2.1 que (1, π/4) = 4 y
∂x
2 √ √ √
∂(sen x y) 2 2π 2
(1, π/4) = 2 . Luego ∇(sen x2 y)(1, π/4) = 4 ı̂ + 2 ̂.
∂y

A continuación generalizamos el concepto de derivadas parciales.

2.1. Derivadas Direccionales

Definición 2.3 Derivadas Direccionales Sea û = u1 ı̂ + u2 ̂ una dirección unitaria. Definimos la derivada
direccional de f en (a, b) en la dirección de û como

f (a + u1 t, b + u2 t) − f (a, b)
Dû f (a, b) = lı́m , (2.4)
t→0 t
si este lı́mite existe.

Ejemplo 2.6 Calculamos la derivada direccional de


( 2
x y
x2 +y 2 si (x, y) 6= (0, 0)
f (x, y) =
0, si (x, y) = (0, 0)

en el punto (0, 0) en la dirección de la recta y = x.


La dirección de la recta y = x está dada por el vector û = √1 (ı̂ + ̂). Ası́
2

√t , 0 √t ) 1 3
f (0 + 2
+ 2
− f (0, 0) √
2 2
t 1
Dû f (a, b) = lı́m = lı́m 3
= √ .
t→0 t t→0 t 2 2
Observación 2.3 Note que si en 2.4 elegimos û = ı̂, entonces ella queda como
f (a + t, b) − f (a, b) ∂f
Dû f (a, b) = lı́m = (a, b).
t→0 t ∂x
∂f
De la misma manera, si se elige û = ̂, entonces Dû f (a, b) = (a, b).
∂y

8
2.2. Funciones Vectoriales

2.2. Funciones Vectoriales

Consideramos ahora : R ⊂ R2 → R2 dada por f = f1 (x, y)ı̂ + f2 (x, y)̂. Definimos ahora la matriz de
derivadas parciales como

Definición 2.4 Matriz Jacobiana. Si existen todas las derivadas parciales de f1 , f2 con respecto a x, y en
(a, b), entonces el jacobiano de la función f en el punto (a, b) es la matriz
 
∂f1 ∂f1
∂(f1 , f2 ) (a, b) (a, b)
 ∂x ∂y 
Jf (a, b) = (a, b) =  ∂f ∂f2 . (2.5)
∂(x, y) 2
(a, b) (a, b)
∂x ∂y
2 2
Ejemplo 2.7 Calculamos el jacobiano de f (x, y) = (cos xy, yex ) en (1, π/2). En este caso f1 = cos xy, f2 = yex
∂f1 ∂f1 ∂f2 2 ∂f2 2
y luego = −y sen xy, = −x sen xy, = 2xyex , = ex . Al evaluar tenemos que el jacobiano es
∂x ∂y ∂x ∂y
" #
∂(f1 , f2 ) − π2 −1
Jf (1, π/2) = (1, π/2) = .
∂(x, y) πe e

3. Diferenciabilidad

3.1. Definición

Para comenzar, recordemos que en una variable el concepto de diferenciabilidad de una función f en un
punto a se reduce simplemente a que el lı́mite

f (a + h) − f (a)
f ′ (a) = lı́m ,
h→0 h
exista. Una consecuencia de esto es la existencia de una función ϕ, con las propiedades:

lı́mh→0 ϕ = 0.

f (a + h) = f (a) + mh + hϕ(h), para todos los valores de h no nulos en una vecindad del cero.

Entonces, cuando h 6= 0 se tiene

f (a + h) − f (a) mh + hϕ(h)
= (3.1)
h h
= m + ϕ(h), (3.2)

de donde es claro que lı́mh→0 [m + ϕ(h)] = 0. Ası́, la existencia de un número m y la función ϕ(h) teniendo
las propiedades anteriormente descritas garantizan la existencia de f ′ (a) y que su valor sea m. La clave para
conectar la idea de diferenciabilidad en una variable con varias variables se basa entonces en la aproximación
lineal, concepto que detallamos a continuación.

9
3.1. Definición

Definición 3.1 Una función F : Rn → Rm es llamada lineal si y sólo si para todo par de números reales α, β
y todo par de vectores u, v ∈ Rn tenemos

F (αu + βv) = αF (u) + βF (v).

Definición 3.2 Una función f : D ⊆ R2 → R se dice Diferenciable en un punto (a, b) si existe una función
lineal M : R2 → R y una función Φ : R2 → R2 tal que

lı́m(h,k)→(0,0) Φ(h, k) = (0, 0).

f (a + h, b + k) = f (a, b) + M (a, b) + Φ(a, b) · (h, k), para todos los vectores no nulos (h, k) en una vecindad
del origen.

Cuando esta definición se cumpla, diremos que la función lineal M es la derivada de f en (a, b). La
definición anterior asegura escencialmente que una función es diferenciable en un punto precisamente cuando
sus incrementos son bien aproximados por una función lineal actuado sobre los correspondientes incrementos
de cada variable.
Las componentes de nuestra función lineal tienen la forma (h, k) 7→ ph + qk, donde p, q son constantes. De esta
forma, el requerimiento impuesto por la definición anterior se traduce a la existencia de dos números p, q y
dos funciones ϕ, ψ : R2 → R tal que

1. lı́m(h,k)→(0,0) φ(h, k) = 0.

2. lı́m(h,k)→(0,0) ψ(h, k) = 0.

3. f (a + h, b + k) = f (a, b) + ph + qk + φ(h, k)h + ψ(h, k)k, para todos los vectores no nulos (h, k) en una
vecindad del origen.

El gráfico de la aplicación (h, k) 7→ f (a, b) + ph + qk es un plano que pasa por el punto (a, b, f (a, b)). Para
tales funciones el requerimiento de diferenciabilidad es que la superficie z = f (x, y) sea bien aproximada cerca
del punto (a, b) por este plano, que llamaremos plano tangente. Siguiendo una lı́nea de desarrollo análoga al
caso de una variable no es difı́cil notar que si los números p, q y las funciones ϕ, ψ del párrafo anterior existen,
entonces las derivadas parciales fx (a, b), fy (a, b) existen y son, respectivamente, p, q. Luego, se tiene que: Si
una función es diferenciable en un punto entonces existen ambas derivadas parciales y además posee derivada
direccional en dicho punto. Sin embargo, el recı́proco es falso, como veremos en el siguiente caso.

Ejemplo 3.1 Consideremos la función



x3
 , si x2 + y 2 =
6 0,
f (x, y) = x2 + y2

0, si x2 + y 2 = 0.
Y estudiamos su diferenciabilidad en el origen. Recurrimos a la definición para obtener las derivadas parciales:
∂f f (h, 0) − f (0, 0)
(0, 0) = lı́m =1
∂x h→0 h
∂f f (0, k) − f (0, 0)
(0, 0) = lı́m = 0.
∂x k→0 k

10
3.2. Principales Resultados

Luego las derivadas parciales existen en (0, 0). De acuerdo a nuestra definición, debe cumplirse entonces que si
f es diferenciable en (0, 0)

f (h, k) − (f (0, 0) + fx (0, 0)h + fy (0, 0)k) = φ(h, k)h + ψ(h, k)k
3
h
−h = φ(h, k)h + ψ(h, k)k
h2 + k 2
k2
− 2 h = φ(h, k)h + ψ(h, k)k,
h + k2
k2
de lo último se desprende que ψ(h, k) = 0 y φ(h, k) = − .
h2 + k 2
Sin embargo, lı́m(h,k)→(0,0) φ(h, k) 6= 0. En efecto, eligiendo la trayectoria h = mk se llega sin mucha dificultad
a
k2 1
lı́m − =− 6= 0, ∀m,
k→0 (m2
+ 1)k 2 1 + m2
y por lo tanto la función no es diferenciable. En la siguiente sección entregamos un criterio de suficiencia que
aclarará esta situación.

3.2. Principales Resultados

Volviendo a nuestra definición, podemos escribir lo siguiente

|f (a + h, b + k) − (f (a, b) + ph + qk)| = φ(h, k)h + ψ(h, k)k


 
p
2 2
h k
|f (a + h, b + k) − (f (a, b) + ph + qk)| = h +k φ(h, k) + 2 ψ(h, k)
h2 + k 2 h + k2
|f (a + h, b + k) − (f (a, b) + ph + qk)| h k
√ = φ(h, k) + 2 ψ(h, k) (3.3)
h2 + k 2 h2 + k 2 h + k2
h k
Los términos h2 +k2 , h2 +k2 permanecen acotados y luego en el lı́mite, si la función es diferenciable, se tiene que el
lado derecho de 3.3 tiende a cero si (h, k) → (0, 0). Si esto ocurre, sabemos además que p = fx (a, b), q = fy (a, b)
y luego se tiene el siguiente resultado.

Teorema 3.1. Si las derivadas parciales de una función f (x, y) existen en un punto (a, b) y el siguiente lı́mite
|f (a + h, b + k) − (f (a, b) + fx (a, b)h + fy (a, b)k)|
lı́m √ = 0, (3.4)
(h,k)→(0,0) h2 + k 2
entonces la función es diferenciable en el punto (a, b).

Una consecuencia directa de este resultado es que si la función es diferenciable en (a, b), entonces debe ser
continua en (a, b). Para probar esta afirmación, notamos que para que satisfaga 3.4 el numerador debe tender
a cero si (h, k) → (0, 0). Como los términos asociados a las derivadas parciales están fijos ellos desaparecen y
sólo resta imponer
lı́m (f (a + h, b + k) − f (a, b)) = 0,
(h,k)→(0,0)

lo que implica la continuidad. El recı́proco de esta afirmación es falso, una función continua puede no ser dife-
renciable. Tome por ejemplo a la función |xy|, continua mas sin derivadas parciales.

11
3.2. Principales Resultados

Ejemplo 3.2 Dado α ∈ R considere la función


 α
 x|y| si (x, y) 6= (0, 0)
f (x, y) = x2 + y 2

0 si (x, y) = (0, 0)

(a) Determine todos los puntos en R2 donde f (x, y) es continua.

(b) Determine todos los puntos en R2 donde f (x, y) es diferenciable.

Resolvamos (a) en primer lugar. Notamos que si α < 0 entonces la función f no está definida para puntos de la
forma (x0 , 0) con x0 6= 0. Seguimos trabajando con α ≥ 0.
Para todo (x0 , y0 ) 6= (0, 0) utilizando álgebra de funciones continuas se tiene f es continua. Estudiemos la
continuidad en (0, 0). Sea x = y. De este modo

|x|α−1
lı́m |f (x, x)| = lı́m .
x→0 x→0 2
Por lo tanto si 0 ≤ α ≤ 1 se tiene lı́m |f (x, x)| 6= 0. Luego no es continua en (0, 0) para 0 ≤ α ≤ 1.
x→0
Sea α > 1. Como x2 + y 2 ≥ 2|xy| entonces
1 α−1
0≤ lı́m |f (x, y)| ≤ lı́m |y| =0
(x,y)→(0,0) (x,y)→(0,0) 2

De este modo se tiene.

f continua en todo R2 para α > 1.

f continua en todo R2 \ {(0, 0)} para 0 ≤ α ≤ 1.

Ahora podemos abordar el punto (b). Por álgebra de funciones diferenciables, f es diferenciable para todo (x, y)
tal que y 6= 0. Consideremos (x0 , 0) con x0 6= 0.
Dado que
∂f f (x0 + h, 0) − f (x0 , 0)
(x0 , 0) = lı́m =0
∂x h→0 h
∂f f (x0 , h) − f (x0 , 0)
(x0 , 0) = lı́m
∂y h→0 h
x0 |h|α
= lı́m =0
h→0 x2 0 +h
2

para estudiar la diferenciabilidad de esta clase de puntos seguimos trabajando con el siguiente lı́mite

|f (x, y)|
lı́m p .
(x,y)→(x0 ,0) (x − x0 )2 + y 2

Comenzamos con los casos 0 ≤ α ≤ 1.


Tomemos y = x − x0 . De este modo se obtiene

|f (x, y)| |x| |x − x0 |α−1


lı́m p = lı́m √ 6= 0
(x,y)→(x0 ,0) (x − x0 )2 + y 2 x→x0 2x2 2

12
3.2. Principales Resultados

Tomemos ahora α > 1


|f (x, y)| |x|
0≤ lı́m p ≤ lı́m 2 + y2
|y|α−1 = 0.
(x,y)→(x0 ,0) 2
(x − x0 ) + y 2 (x,y)→(x 0 ,0) x

Resta estudiar el caso (x, y) = (0, 0). Como f no es continua en (0, 0) en los casos 0 ≤ α ≤ 1 entonces no es
diferenciable. Tomemos α > 1:
|f (x, y)|
lı́m p ≤ lı́m (x2 + y 2 )α−1 = 0.
(x,y)→(0,0) x2 + y 2 (x,y)→(0,0)

De este modo

f es diferenciable en todo R2 para α > 1.

f es diferenciable en todo R2 \ {(x, 0), con x ∈ R} para 0 ≤ α ≤ 1.

Finalmente entregamos una condición suficiente, para que la función f (x, y) sea diferenciable en un punto.

Teorema 3.2. Si las derivadas parciales de una función f (x, y) existen en un punto (a, b) y al menos una de
ellas es continua en ese punto, entonces f (x, y) es diferenciable en (a, b).

Demostración. El cambio o variación al pasar de (a, b) a (a + h, b + k) de la función f es

∆f = f (a + h, b + k) − f (a, b) (3.5)
= [f (a + h, b + k) − f (a, b + k)] + [f (a, b + k) − f (a, b)]. (3.6)

Supongamos sin pérdida de generalidad que fx (x, y) es continua en (a, b). Si es ası́, fx (x, y) existe en una
vecindad de (a, b) y luego en esta vecindad la función f (x, y) es continua en la componente x cuando y permanece
constante. Entonces es posible aplicar el Teorema del Valor Medio a la primera llave en 3.6:

f (a + h, b + k) − f (a, b + k) = hfx (a + hc, b + k), 0 < c < 1.

De nuevo, la continuidad de fx en (a, b) permite escribir

fx (a + hc, b + k) = fx (a, b) + ǫ1 ,

donde ǫ1 → 0 si h, k → 0.
Por otro lado, puesto que existe fy (a, b), entonces

f (a, b + k) − f (a, b)
= fy (a, b) + ǫ2 ,
k
donde ǫ2 → 0 si k → 0, luego
f (a, b + k) − f (a, b) = kfy (a, b) + kǫ2 ,

obteniéndose
∆f = hfx (a, b) + kfy (a, b) + hǫ1 + kǫ2 , (3.7)

lo que implica que f (x, y) es diferenciable en (a, b).

13
3.2. Principales Resultados

El teorema 3.2 permite abordar las cuestiones asociadas a la diferenciabilidad sin pasar por el cálculo del
lı́mite 3.4 que a veces puede ser sumamente engorroso. Veamos un ejemplo.

Ejemplo 3.3 Sea z = f (x, y) la función dada por


 2 2
 sen(x y ) + 6, si (x, y) 6= (0, 0).
f (x, y) = 4x + 9y 2
2

6, si (x, y) = (0, 0).

a) Pruebe que f es continua en el origen.


∂f
b) ¿Es ∂x continua en el origen? Utilice esta información para decidir si la función es diferenciable en el
origen.

a) Utilizamos acotamiento, pues



sen(x2 y 2 ) 2 2 2 2
≤ |xy| ≤ (x + y ) = x2 + y 2 ,

0≤ 2 + 6 − 6
4x + 9y 2 x2 + y 2 x2 + y 2

que tiende a cero si (x, y) → (0, 0). Por lo tanto f es continua en (0, 0).

b) Si (x, y) 6= (0, 0) la función es diferenciable por álgebra de funciones diferenciables. Se tiene que

∂f 2xy 2 cos(x2 y 2 ) 8x sen(x2 y 2 )


= − .
∂x 4x2 + 9y 2 (4x2 + 9y 2 )2

En el origen, por definición se tiene que



∂f f (h, 0) − f (0, 0)
= lı́m = 0.
∂x (0,0) h→0 h

Para chequear la continuidad de esta función usamos acotamiento nuevamente, pues



2xy 2 cos(x2 y 2 ) 8x sen(x2 y 2 )

0 ≤ 2 2
− 2 − 0
4x + 9y 2
(4x + 9y ) 2
2
2|xy||y| 8|x||xy|2 x2 + y 2 x2 + y 2
≤ + 2 ≤ |y| x2 + y 2 + 4|x| 2
x2 + y 2 (x2 + y 2 ) (x2 + y 2 )
= |y| + 4|x|,

∂f
que tiende a cero cuando (x, y) → (0, 0). Por lo tanto, ∂x es continua en (0, 0). Por el teorema 3.2, la
función es diferenciable en el origen.

3.2.1. Álgebra de funciones Diferenciables

Tal como en el caso de funciones continuas, el álgebra de funciones diferenciables es muy similar y presentamos
el siguiente resultado

Teorema 3.3. Sean f, g : R ⊂ R2 → R ambas diferenciables en (a, b) ∈ R y α, β ∈ R, entonces

14
3.3. Extensiones

1. αf + βg es diferenciable en (a, b).

2. f · g es diferenciable en (a, b).

3. f /g diferenciable en (a, b) si g(a, b) 6= 0.

3.3. Extensiones

En este apartado consideraremos funciones con salida en Rm , m ≥ 1. Como veremos, la noción de jacobiano
definida previamente es muy importante.

Definición 3.3 Diferenciabilidad de una Función Vectorial. Sean f : R ⊂ Rn → Rm y x0 ∈ R. Decimos


que f es diferenciable en x0 si

∂fj
1. Para todo i = 1 . . . n y para todo j = 1, . . . m se tiene que (x0 ) existen y
∂xi
kf (x) − f (x0 ) − Jf (x0 ) · (x − x0 )k
2. lı́m = 0.
x→x0 kx − x0 k
Observación 3.1 En el lı́mite anterior, la expresión del numerador f (x0 ) + Jf (x0 ) · (x − x0 ) se denomina
plano tangente de la función f en el punto x0 . Si la función es diferenciable en x0 entonces decimos que el
plano tangente es la mejor aproximación lineal de f en x0 . Para m = 1 tendremos propiedades geométricas que
explotaremos en la sección subsiguiente.

Ejemplo 3.4 Consideremos la función f = (4y 2 x + 1, sen(3x + y − 2)). Mostremos que f es diferenciable en
(0, 2) y encontremos la mejor aproximaxión lineal T (x, y) de f cerca de este punto.
Las derivadas parciales de f están dadas por:
∂f1 ∂f1
= 4y 2 , = 8xy,
∂x ∂y
∂f2 ∂f2
= 3 cos(3x + y − 2), = cos(3x + y − 2).
∂x ∂y

Estas cuatro funciones de (x, y) son continuas en todo punto al ser conformadas por productos, sumas y composi-
ción de funciones de una variable continuas, y polinomios en dos variables. Por ende, la función f es diferenciable
en todo punto, en particular en (0, 2). Ahora, en este punto tenemos que
" #
16 0
Jf (0, 2) = ,
3 1

de donde la mejor aproximación lineal, el plano tangente de f , en (0, 2) es


" # " #" # " #
1 16 0 x − 0 1 + 16x
T (x, y) = f (x0 ) + Jf (x0 ) · (x − x0 ) = + = .
0 3 1 y−2 3x + y

15
4. Regla de la Cadena

4. Regla de la Cadena

En esta sección generalizamos la regla de la cadena a funciones de varias variables. Recordemos que en una
variable la regla de la cadena asegura que si y = f (u) y u = g(x), entonces

dy dy du
= .
dx du dx
Comenzaremos con la deducción del resultado para dos variables y posteriormente lo generalizamos a más
variables. Nuestro punto de partida será la ecuación 3.7, donde identificaremos a ∆x y ∆y con h y k, los
desplazamientos en la variable x e y, respectivamente.

Teorema 4.1 (Regla de la Cadena). Sea z = f (x, y) una función con derivadas parciales continuas
∂f /∂x, ∂f /∂y y sean x = x(t) e y = y(t) funciones diferenciables en la variable t. Entonces z es una fun-
ción diferenciable de la variable t y además
dz ∂z dx ∂z dy
= + . (4.1)
dt ∂x dt ∂y dt

Demostración. Por definición se tiene que


dz ∆z
= lı́m .
dt ∆t→0 ∆t

Entonces, ∆t induce cambios ∆x y ∆y en x, y respectivamente. De acuerdo a 3.7 con h = ∆x y k = ∆y se tiene


que
∆z ∂f ∆x ∂f ∆x ∆x ∆x
= (x, y) + (x, y) + ǫ1 + ǫ2 ,
∆t ∂x ∆t ∂y ∆t ∆t ∆t
donde ǫ1 , ǫ2 → 0 si ∆x, ∆y → 0. Entonces en el lı́mite
dz ∆z ∂f dx ∂f dy dx dy
= lı́m = (x, y) + (x, y) +0 +0 . 
dt ∆t→0 ∆t ∂x dt ∂y dt dt dt

Ejemplo 4.1 Sea z = x4 y 3 y x = 3t2 , y = t/3. Calcular dz/dt si t = 1.


Para aplicar la regla de la cadena necesitamos ∂z/∂x, ∂z/∂y, dx/dt, dy/dt:

∂z ∂z
= 4x3 y 3 = 3x4 y 2
∂x ∂y
dx dy
= 6t = 13 .
dt dt
Ası́,
dz
= 24x3 y 3 · t + x4 y 2 .
dt
Al evaluar en t = 1 se tiene que x(1) = 3, y(1) = 1/3. Luego, al reemplazar

dz 1 34 2
(t = 1) = 24 · 3 · 3 + = 11 .
dt 3 9 3

A continuación, generalizamos a más variables.

16
4.1. Aplicaciones de la Regla de la Cadena

Teorema 4.2 (Regla de la cadena). Sea z = f (x, y) una función con ambas derivadas parciales continuas y
x = x(t, u), y = y(t, u) con ambas derivadas parciales continuas. Entonces

∂z ∂z ∂x ∂z ∂y
= + , (4.2)
∂t ∂x ∂t ∂y ∂t
∂z ∂z ∂x ∂z ∂y
= + . (4.3)
∂u ∂x ∂u ∂y ∂u

Ejemplo 4.2 Dada z = x2 − xy − y 2 ; x = u − 2t, y = 2u + t, hallamos ∂z/∂t, ∂z/∂u. Rápidamente tenemos que

∂x ∂x
= −2, = 1,
∂t ∂u
∂y ∂y
= 1, = 2.
∂t ∂u
Además,
∂z ∂z
= 2x − y = −x − 2y.
∂x ∂y
De acuerdo al teorema 4.2, se tiene entonces que
∂z
= −2(2x − y) − (x + 2y) = −5x − 4y = −5(u − 2t) − 4(2u + t) = −13u + 6t,
∂t
∂z
= (2x − y) − 2(x + 2y) = −5y = −5(2u + t).
∂u

Podemos generalizar nuestros resultados al siguiente hecho que se deja sin demostración.

Teorema 4.3. Si z = f (x1 , . . . , xm ) posee todas sus derivadas parciales continuas en sus m variables y además
x1 = x1 (t1 , . . . , tn ), . . . , xn = xn (t1 , . . . , tn ) todas con derivadas parciales continuas en sus n variables, entonces
m
∂z X ∂z ∂xi
= , j = 1 . . . n. (4.4)
∂tj i=1
∂xi ∂tj

4.1. Aplicaciones de la Regla de la Cadena

La regla de la cadena puede ser aplicada en una gran variedad de situaciones. Ellas son mejor ilustradas en
los ejemplos, damos primero una aplicación geométrica y conluimos con un caso donde posiblemente el resultado
es más útil, el estudio de Ecuaciones Diferenciales Parciales.

Ejemplo 4.3 La base B menor de un trapezoide aumenta su longitud a razón de 2cm/seg y su base mayor b
disminuye su tamaño a razón de 1cm/seg. Si la altura h aumenta a razón de 3cm/seg, ¿qué tan rápido cambia
1
el área cuando B = 30cm, b = 50cm y h = 10cm? El área está dada por A = 2 (B + b)h, donde B, b, h son
funciones del tiempo. Entonces, por la regla de la cadena se tiene que:
dA ∂A dB ∂A db ∂A dh
= + +
dt ∂B dt ∂b dt ∂h dt
h h (B + b)
= ·2− ·1+ ·3
2 2 2
= 10 − 5 + 120 = 125cm/seg.

17
4.2. Interpretación Geométrica

Ejemplo 4.4 Demostraremos que una función de la forma u = g(x + kt) + h(x − kt) es solución de la ecuación
de onda unidimensional
∂z 2 ∂z 2
2
= k2 2 .
∂t ∂x
Para proceder, primero definimos las variables auxiliares v = x + kt y w = x − kt. Usando la regla de la cadena
se tiene entonces que
ut = gv · vt + hw · wt = kgv − khw .
Luego
utt = k(gvv · vt − hww · wt ) = k 2 (gvv + hww ).
Por otro lado, tenemos que
ux = gv · vx + hw · wx = gv + hw .
Luego
uxx = gvv · vx + hww · wx = gvv + hww .
De donde es evidente que k 2 uxx = utt y luego u es solución de la ecuación.

4.2. Interpretación Geométrica

Consideremos una partı́cula que se mueve en el


plano con vector posición dado por ~r = x(t)ı̂ + y(t)̂
como se ilustra en la figura. Sea C la curva que describe
el movimiento de esta partı́cula en el plano dada por la
fórmula f (x, y) = f (x(t), y(t)) que asumiremos como
diferenciable.
Movimiento descrito por una partı́cula sobre una curva C.

Entonces, de acuerdo a la regla de la cadena 4.1


dz ∂z dx ∂z dy
= + .
dt ∂x dt ∂y dt
Si usamos el formalismo de producto punto entonces
   
dz dx dy ∂z ∂z
= ı̂ + ̂ · ı̂ + ̂
dt dt dt ∂x ∂y
d~r
= · ∇f (x, y). (4.5)
dt
Otro caso de interés ocurre cuando consideramos el cambio de coordenadas x = x(t, u) e y = y(t, u). Si x e y
describen a la curva C : f (x, y) entonces interesa la descripción de C bajo la transformación, es decir C ∗ : f (t, u).
Si el cambio de coordenadas y f son diferenciables entonces, de acuerdo a la regla de la cadena 4.2, 4.3 tenemos
que
∂z ∂z ∂x ∂z ∂y
= + ,
∂t ∂x ∂t ∂y ∂t
∂z ∂z ∂x ∂z ∂y
= + .
∂u ∂x ∂u ∂y ∂u

18
5. Propiedades del Gradiente

Si usamos nuevamente el formalismo de producto interior notamos ahora que


   
∂z dx dy ∂z ∂z
= ı̂ + ̂ · ı̂ + ̂
∂t dt dt ∂x ∂y
   
∂z dx dy ∂z ∂z
= ı̂ + ̂ · ı̂ + ̂ .
∂u du du ∂x ∂y
Matricialmente
     
∂z ∂x ∂y ∂z
 ∂t   ∂t ∂t   ∂x 
 ∂z  =  ∂x ∂y  ·  ∂z 
∂u ∂u ∂u ∂y
∂(x, y)
∇t,u z = · ∇x,y z, (4.6)
∂(t, u)

∂z ∂z ∂z ∂z
donde ∇t,u z = ı̂ + ̂, ∇x,y z = ı̂ + ̂ y
∂t ∂u ∂x ∂y
 
∂x ∂y
∂(x, y)  ∂t ∂t 
=  ∂x ∂y  ,
∂(t, u)
∂u ∂u
el jacobiano de la transformación (x, y) = (x(t, u), y(t, u)).

Como veremos, estas relaciones serán profuzamente utilizadas en lo que sigue para obtener las propiedades
del operador gradiente, en el desarrollo del teorema de la función implı́cita y en optimización.

5. Propiedades del Gradiente

Una de las propiedades que es posible deducir de la diferenciabilidad de una función en un punto es la
existencia de sus derivadas parciales en él y luego la existencia de su gradiente. En esta sección nos proponemos
entregar útiles cualidades de este operador diferencial.

5.1. El gradiente y las curvas de nivel

Considere una curva de nivel de una función diferenciable en el punto (a, b), f (x, y) = k. Esta curva en el
plano puede ser parametrizada por su vector posición ~r(t) = x(t)ı̂ + y(t)̂, es decir una función vectorial que
a cada valor del escalar t asocia un vector ~r(t). El vector tangente a ~r(t) es su derivada si sus componentes
x(t), y(t) son funciones derivables con respecto a t:
d~r dx dy
= ı̂ + ̂. (5.1)
dt dt dt
Por otro lado, al imponer la parametrización para la curva de nivel se tiene que

f (x(t), y(t)) = k.

19
5.2. Planos tangentes

Al derivar con respecto a t y usando la regla de la cadena:


∂f dx ∂f dy
+ = 0.
∂x dt ∂y dt
Entonces, por 4.5
d~r
∇f ·
= 0, (5.2)
dt
de lo que se desprende que el gradiente de f es ortogonal al vector tangente de la curva de nivel. En otras
palabras

Teorema 5.1. El gradiente es un vector normal a la curva de nivel f (x, y) = k tal que (a, b) satisface f (a, b) =
k.

Ejemplo 5.1 Encontrar una recta tangente a la elipse x2 + 2y 2 = 6 en el punto (2, 1).
Se necesita un punto y un vector normal. Lo primero es trivial y lo segundo se obtiene tomando el gradiente de
la función f (x, y) = x2 + 2y 2 y evaluando en (2, 1). Se tiene que ∇f (2, 1) = 4ı̂ + 4̂ y luego la recta tangente a
la elipse f (x, y) = 6 en (2, 1) es:

[4ı̂ + 4̂] · [(x − 2)ı̂ + (y − 1)̂] = 0 ⇔ x + y = 3.

Podemos extender sin mayores dificultades el hecho anterior a superficies de nivel f (x, y, z) = k tales que
(a, b, c) cumpla f (a, b, c) = k, probándose sin mayor dificultad que el gradiente es normal a la superficie de nivel
por (a, b, c).

Ejemplo 5.2 Encontrar un vector normal a xy + xz + yz = 11 en (1, 2, 3).


Sea u(x, y, z) = xy+xz +yz. Nos interesa el nivel u = 11. Un vector normal entonces es ∇u(1, 2, 3) = 5ı̂+4̂+3k̂.

5.2. Planos tangentes

Para superficies obtenidas como niveles de f (x, y, z) = k, el plano tangente por (a, b, c) tal que f (a, b, c) = k
es
∇f (a, b, c) · (x − a, y − b, z − c) = 0. (5.3)

Ejemplo 5.3 Para obetener el plano tangente a la esfera x2 + y 2 + z 2 = 3 en (1, 1, 1) primero definimos a
f (x, y, z) = x2 + y 2 + z 2 . Interesa el nivel f = 3. Un vector normal a esta superficie de nivel es ∇f (1, 1, 1) =
(2, 2, 2). El plano tangente por (1, 1, 1) es (2, 2, 2) · (x − 1, y − 1, z − 1) = 0 lo que entrega x + y + z = 3.

En tanto, para superficies z = f (x, y) también es posible encontrar su plano tangente en (a, b) definiendo a
u(x, y, z) = f (x, y)−z y procediendo como antes encontrando el plano tangente a u = 0 en el punto (a, b, f (a, b)).

Ejemplo 5.4 Encontrar el plano tangente a xy = 6 en el punto (2, 3).


Sea z(x, y) = xy. Interesa la curva de nivel z = 6. Definimos u(x, y, z) = xy − z y luego interesa la superficie
de nivel u = 0. Un vector normal a esta superfice es ∇u(2, 3, 6) = (3, 2, −1). El plano tangente es entonces
(3, 2, −1) · (x − 2, y − 3, z − 6) = 0, o sea 3x + 2y − z = 6.

20
5.3. Derivadas Direccionales

5.3. Derivadas Direccionales

Como hemos visto en la sección 2.1, la expresión general para la derivada direccional de una función f : R ⊂
2
R → R en la dirección û = u1 ı̂ + u2 ̂ en el punto (a, b) ∈ R está dada por

f (a + tu1 , b + tu2 ) − f (a, b)


Dû f (a, b) = lı́m .
t→0 t
Sin embargo, esta expresión es incómoda para otros propósitos y procuramos simplificar su cálculo con el
siguiente resultado

Teorema 5.2. Si f es diferenciable en (a, b), entonces f tiene derivada direccional en la dirección de û =
(u1 , u2 ) en (a, b) dada por
∂f ∂f
Dû f (a, b) = u1 + u2 = ∇f (a, b) · û. (5.4)
∂x ∂y

Demostración. Definimos la función auxiliar

g(t) = f (a + tu1 , b + tu2 ).

Por un lado, se tiene por definición que


f (a + tu1 , b + tu2 ) − f (a, b)
g ′ (0) = lı́m = Dû f (a, b).
t→0 t
Por otro lado, si definimos x = a + tu1 e y = b + tu2 y usamos la regla de la cadena
dg ∂f dx ∂f dy ∂f ∂f
= (x, y) + (x, y) = (x, y)u1 + (x, y)u2 .
dt ∂x dt ∂y dt ∂x ∂y
Al evaluar esta última expresión en t = 0 y usar la diferenciabilidad se obtiene lo deseado.

Ejemplo 5.5 Encontremos la derivada direccional de la función f (x, y) = x2 y 3 − 4y en el punto (2, −1) en
la dirección del vector v = 2ı̂ + 5̂. Se tiene que la dirección unitaria de v se obtiene simplemente haciendo
v̂ = v
= √1 (2ı̂ + 5̂). Por otro lado, dado que f es diferenciable, se tiene que ∇f = 2xy 3 ı̂ + (3x2 y 2 − 4)̂.
||v|| 29
Luego ∇f (2, −1) = −4ı̂ + 8̂. Entonces
1 32
Dv̂ f (2, −1) = √ (−4ı̂ + 8̂) · (2ı̂ + 5̂) = √ .
29 29
Observación 5.1 Para más variables, el resultado no cambia su forma. Por ejemplo, en tres variables si
f (x, y, z) es diferenciable en (a, b, c) se tiene que Dû f (a, b, c) = ∇f (a, b, c) · û, donde û = u1 ı̂ + u2 ̂ + u3 k̂ es una
dirección unitaria de R3 .

5.3.1. Interpretación Geométrica

Recordemos que la definición de producto punto entre dos vectores está dada por ~v · w
~ = k~v kkwk
~ cos θ, donde
θ = ∡(~v , w).
~ Si aplicamos esta noción a 5.4 tenemos entonces que

Dû f (a, b) = k∇f (P0 )k cos θ, (5.5)

21
6. Teorema de la Función Implı́cita

donde θ = ∡(∇f (P0 ), û). Esto nos dice un hecho importante: la derivada direccional en un punto es maximizada
en la dirección del gradiente de la función, se minimiza si se elige la dirección opuesta al gradiente y es nula si
∇f (P0 )⊥û.

Ejemplo 5.6 Hallar los valores de las constantes a, b y c tales que la derivada direccional de f (x, y, z) =
axy 2 + byz + cz 2 x3 en el punto (1, 2, −1) tenga el valor máximo 64 en la dirección paralela al eje z. Para
cumplir la condición del problema las primeras dos derivadas parciales de f con respecto a x, y deben ser cero
en (1, 2, −1) y su tercera derivada con respecto a z debe tener módulo igual a 64. Es decir

∂f
(1, 2, −1) = (ay 2 + 3cx2 z 2 ) (1,2,−1) = 4a + 3c = 0,
∂x
∂f
(1, 2, −1) = (2axy + bz)|(1,2,−1) = 4a − b = 0,
∂y
∂f
(by + 2czx3 ) (1,2,−1)
(1, 2, −1) =
∂z = |2b − 2c| = 64.

Resolviendo, encontramos que a = ±12, b = ±48, c = ±16.

6. Teorema de la Función Implı́cita

6.1. Una Ecuación, Dos Variables

Si la ecuación F (x, y) = 0, define a y como una función de x, por ejemplo y = f (x), de manera que

F (x, f (x)) = 0,

decimos que y = f (x) es implı́citamente definida por F (x, y) = 0. No toda ecuación F (x, y) = 0 puede resolverse
para y como función de x. Por ejemplo, los únicos valores reales que satisfacen x2 + y 2 = 0 son x = y = 0. Por
lo tanto, la primera consideración es dar condiciones bajo las cuales la ecuación F (x, y) = 0 defina una función
implı́cita única.

Teorema 6.1 (Existencia). Sea la región R que contiene al punto (a, b) en su interior. Entonces si

i) F (a, b) = 0,

ii) Fx , Fy son continuas en R y

iii) Fy (a, b) 6= 0;

existe algún intervalo I0 con respecto a x = a en donde existe una función única, diferenciable y = f (x) tal que

b = f (a), (6.1a)

F (x, f (x)) = 0, (6.1b)


Fx
f ′ (x) = − . (6.1c)
Fy

22
6.2. Tres Variables

Ejemplo 6.1 La ecuación


 x2+ y 2 − 1 = 0 define implı́citamente a y como una función diferenciable de x en
una vecindad de P0 : √2 , √12 puesto que la función F (x, y) = x2 + y 2 − 1 es continua en una vecindad de P0
1

y cumple con
 
1. F √1 , √1 = 0.
2 2

2. Sus derivadas parciales Fx = 2x, Fy = 2y son continuas en una vecindad de P0 .



3. Fy ( √12 , √12 ) = 2 6= 0.
 
  Fx √1
2
Además: f ′ √1 =−   = −1.
2
Fy √1
2

Observación 6.1 El Teorema de la función implı́cita es un resultado local. Considere el mismo ejemplo anterior
pero ahora en los puntos (±1, 0). Esta restricción es importante pues nos dice dónde es posible despejar a una
variable en términos de otras de forma única y diferenciable.

6.2. Tres Variables

En el caso que nos encontremos con la ecuación F (x, y, z) = 0 y deseemos despejar a una variable con respecto
a las otras dos, digamos z = f (x, y). Asumiremos que contamos con una solución en el punto P0 : (a, b, c) y
que F es diferenciable. Si suponemos que z = f (x, y) de forma única y diferenciable, entonces al derivar con
respecto a x la ecuación F (x, y, z) = 0 se tiene que
Fx
Fx + Fz · zx = 0 ⇒ zx = − .
Fz
Luego, la condición natural para despejar a z = z(x, y) es que la derivada de F con respecto a la variable que
se quiere despejar (en este caso z) no sea cero en P0 . De forma análoga se llega que
Fy
zy = − ,
Fz
con lo que se ha obtenido la siguiente fórmula para el gradiente de z en P0
1
∇z(P0 ) = − (Fx (P0 ), Fy (P0 )) .
Fz (P0 )
Resumimos nuestros cálculos con

Teorema 6.2 (Teorema de la Función Implı́cita). Sea R la región que contiene al punto P0 : (a, b, c) en su
interior. Entonces, si

i) F (a, b, c) = 0,

ii) Fx , Fy , Fz son continuas en R.

iii) Fz (a, b, c) 6= 0,

23
6.3. Dos Ecuaciones, Cuatro Variables

existe una vecindad I0 del punto (a, b) donde hay una función diferenciable única, z = f (x, y) que cumple

c = f (a, b), (6.2a)

F (x, y, f (x, y)) = 0, (6.2b)


1
∇z = − (Fx , Fy ) . (6.2c)
Fz
Ejemplo 6.2 Consideremos la superficie de nivel x3 + 3y 2 + 8xz 2 − 3z 3 y = 1 y busquemos los puntos donde es
posible despejar a z = z(x, y). Para hacer esto, notamos primero que la función F (x, y, z) = x3 + 3y 2 + 8xz 2 −
3z 3 y − 1 es diferenciable. Necesitamos puntos (x, y, z) donde F (x, y, z) = 0 y además

Fz = z(16x + 9yz) 6= 0 ⇒ z 6= 0 ∨ 16x + 9yz 6= 0.

6.3. Dos Ecuaciones, Cuatro Variables

Consideramos el sistema de ecuaciones

F (x, y, u, v) = 0
(6.3)
G(x, y, u, v) = 0.

Como antes, asumimos que contamos con una solución P0 : (a, b, c, d) y que F, G son funciones diferenciables.
Nuestro objetivo es despejar de forma única y diferenciable a u = u(x, y), v = v(x, y). Vamos a dar esto por
sentado para derivar una fórmula para los gradientes de u, v con respecto a x, y. Si derivamos ambas ecuaciones
en 6.3 con respecto a x obtenemos que

Fx + Fu · ux + Fv · vx = 0
Gx + Gu · ux + Gv · vx = 0.

Usando el formalismo de sistemas lineales, tenemos


" #" # " # " # " #
Fu Fv ux Fx ∂(F, G) ux Fx
=− ⇔ . =− .
Gu Gv vx Gx ∂(u, v) vx Gx

De acá, es evidente que para tener solución única el jacobiano de F, G con respecto a las variables que se desan
despejar u, v debe ser invertible en la solución P0 : (a, b, c, d). De forma análoga, para y:
" # " #
∂(F, G) uy Fy
. =− .
∂(u, v) vy Gy

Podemos condensar toda esta información en una sola ecuación usando el formalismo desarrollado para jaco-
bianos
∂(F, G) ∂(u, v) ∂(F, G)
. =− .
∂(u, v) ∂(x, y) ∂(x, y)
Teorema 6.3. Sea R la región que contiene al punto P0 : (a, b, c, d) en su interior. Entonces, si

i) F (a, b, c, d) = G(a, b, c, d) = 0,

24
6.4. Caso General

ii) Todas las derivadas de F, G son continuas en R,


 
∂(F, G)
iii) det 6= 0 en P0 ;
∂(u, v)

existe una vecindad I0 de (a, b) en donde es posible definir a dos funciones únicas y diferenciables u = u(x, y), v =
v(x, y) tales que
c = u(a, b), d = v(a, b); (6.4a)

F (x, y, u(x, y), v(x, y)) = G(x, y, u(x, y), v(x, y)) = 0; (6.4b)
 −1
∂(u, v) ∂(F, G) ∂(F, G)
=− . (6.4c)
∂(x, y) ∂(u, v) ∂(x, y)
Ejemplo 6.3 Las ecuaciones F = u2 + v 2 − x2 − y = 0, G = u + v − x2 + y = 0, se satisfacen en x = 2, y =
1, u = 1, v = 2. Puesto que " #
∂(F, G) 2u 2v
= ,
∂(u, v) 1 1
con determinante 2(u − v) 6= 0 en (2, 1, 1, 2). Además, las funciones que determinan el sistema son derivables con
derivada continua en todas sus variables. Entonces es posible despejar u = u(x, y), v = v(x, y) en una vecindad
de (2, 1) y además " #" #
∂(u, v) 1 1 −2v −2x −1
=− .
∂(x, y) 2(u − v) −1 2u −2x 1
En el punto (2, 1, 1, 2) se tiene que " #
∂(u, v) 1 12 −5
(2, 1) = .
∂(x, y) 2 −12 3

6.4. Caso General

Supongamos que contamos con un sistema de m ecuaciones para n + m variables, es decir

F1 (x1 , . . . , xn ; z1 , . . . , zm ) = 0
.. ..
. .
Fm (x1 , . . . , xn ; z1 , . . . , zm ) = 0.

Como antes, debemos levantar como hipótesis que se cuenta con una solución (x0 ; z 0 ). Nuestro interés es despejar
a (z1 , . . . , zm ) como funciones de (x1 , . . . , xn ) en una vecindad de x0 de forma única y diferenciable. Esto no
es más que una generalización del teorema anterior: deberemos exigir que todas las funciones F1 , . . . , Fm sean
diferenciables y que el jacobiano
∂(F1 , . . . , Fm )
,
∂(z1 , . . . , zm )
sea invertible en (x0 , z 0 ). De cumplirse estas tres condiciones es posible definir a zi = zi (x1 , . . . , xn ), i = 1, . . . , m
cerca del punto (x0 , z 0 ) de forma única y diferenciable. Sus derivadas se calculan por derivación implı́cita.

25
6.5. Teorema de la Función Inversa

6.5. Teorema de la Función Inversa

Este resultado es un caso particular del teorema de la función implı́cita. La única diferencia es que trataremos
de despejar a n variables x1 , · · · , xn en términos de y1 , · · · , yn desde las ecuaciones

f1 (x1 , . . . , xn ) = y1
.. ..
. . (6.5)
fn (x1 , . . . , xn ) = yn .

Es decir, estamos tratando de invertir las ecuaciones del sistema anterior. Ante esta pregunta, simplemente
aplicamos el teorema de la función implı́cita a las funciones yi − fi (x1 , . . . , xn ) con respecto a las nuevas
incógnitas (x1 , . . . , xn ). La condiciones naturales es que f1 , . . . , fn sean todas diferenciables en torno a un punto
x0 y que el jacobiano
∂(f1 , . . . , fn )
,
∂(x1 , . . . , xn )
sea invertible. Podemos enunciar

Teorema 6.4 (Teorema de la Función Inversa). Sea R ⊂ Rn y sean f1 , f2 . . . , fn : R → R todas con


derivadas
 parciales continuas. Consideramos las ecuaciones 6.5 cerca de una solución x0 , y 0 . Si
∂(f1 , . . . , fn )
det (x0 , y 0 ) 6= 0, entonces es posible despejar de manera única y diferenciable a x = g(y), en
∂(x1 , . . . , xn )
una vecindad de x0 .

Ejemplo 6.4 Sea g : R → R con derivada continua y sea el sistema

u = g(x)
v = −y + xg(x).

Si g ′ (a) 6= 0, probar que esta transformación es invertible cerca de (a, b) con inversa dada por

x = g −1 (u),
y = −v + ug −1 (u).

Basta que apliquemos el teorema de la función inversa a las funciones f1 = g(x), f2 = −y + xg(x). Su jacobiano
es " #
∂(f1 , f2 ) g ′ (x) 0
= ,
∂(x, y) xg ′ (x) + g(x) −1
cuyo determinante en el punto dado P0 : (a, b; g(a), −b + ag(a)) está dado por −g(a) 6= 0. Luego, es posible
encontrar a x = x(u, v), y = y(u, v) de forma única y diferenciable en torno a (a, b). Más aún, es claro que
x = g −1 (u), lo que implica que v = −y + g −1 (u)u y luego y = −v + ug −1 (u), cumpliendo con lo deseado.

7. Derivadas de Orden Superior

Si f es una función de dos variables que admite derivadas parciales con respecto a x, y, entonces estas también
son funciones de x, y y es posible obtener (si existen) sus derivadas parciales con respecto a x, y. Definimos ası́ las

26
7. Derivadas de Orden Superior

derivadas de segundo orden de la función f (x, y) en el punto (a, b) a

∂2f fx (a + h, b) − fx (a, b)
fxx = = lı́m , (7.1)
∂x2 h→0 h
∂2f fy (a, b + k) − fy (a, b)
fyy = = lı́m , (7.2)
∂y 2 k→0 k
∂2f fx (a, b + k) − fx (a, b)
fxy = = lı́m , (7.3)
∂y∂x k→0 k
∂2f fy (a + h, b) − fy (a, b)
fyx = = lı́m , (7.4)
∂x∂y h→0 h
si los lı́mites anteriores existen. Veamos un ejemplo del cálculo de segundas derivadas parciales.

Ejemplo 7.1 Calculemos las derivadas parciales de segundo orden de la funci”on f (x, y) = exy + x sen y. En
primer lugar se tiene que fx (x, y) = yexy + sen y, fy (x, y) = xexy + x cos y. Luego, dado que ambas derivadas
parciales son funciones diferenciables en todo R2 podemos calcular sus derivadas parciales directamente como
sigue

fxx = y 2 exy ,
fyy = x2 exy − x sen y,

fxy = (yexy + sen y) = xyexy + cos y,
∂y

fyx = (xexy + x cos y) = xyexy + cos y.
∂x
Como vemos, las derivadas mixtas fxy , fyx son iguales. No siempre será ası́.

Ejemplo 7.2 Consideremos esta vez a la función


 2 2
xy x − y si (x, y) 6= (0, 0)
f (x, y) = 2
x +y 2 .

0 si (x, y) = (0, 0)

En el origen, sus derivadas parciales existen y se calculan por definición


f (h, 0) − f (0, 0) f (0, k) − f (0, 0)
fx (0, 0) = lı́m = = 0, fy (0, 0) = lı́m = = 0.
h→0 h k→0 k
En los puntos fuera del origen calculamos directamente las derivadas parciales obteniendo

y x4 + 4x2 y 2 − y 4 x5 − 4x3 y 2 − xy 4
fx (x, y) = 2 , f y (x, y) = 2 .
(x2 + y 2 ) (x2 + y 2 )
Entonces por definición
fx (0, k) − fx (0, 0)
fxy (0, 0) = lı́m = −1
k→0 k
fy (h, 0) − fy (0, 0)
fyx (0, 0) = lı́m = 1.
h→0 k
Ahora los resultados no coinciden, entonces la pregunta natural es ¿bajo qué condiciones las derivadas mixtas
serán iguales?

27
7.1. La Serie de Taylor de Orden 2 de f (x, y)

Definición 7.1 Funciones de clase C k . Sea f : R ⊂ R2 → R, diremos que f es una función de clase C k si
f admite hasta k derivadas parciales continuas, k ∈ N.

Teorema 7.1. Si f es una función de clase C 2 , entonces sus derivadas mixtas son iguales.

Usaremos este resultado para formular la serie de Taylor en varias variables, focalizando nuestro interés en
el segundo orden que aplicaremos a la obtención de máximos y mı́nimos.

7.1. La Serie de Taylor de Orden 2 de f (x, y)

Enunciamos el resultado general para series de Taylor y luego lo contextualizaremos al segundo orden que
nos interesará en la sección siguiente.

Teorema 7.2 (Teorema de Taylor). Suponga que f es una función de dos variables que admite p + 1
derivadas parciales continuas en una vecindad de un punto (a, b). Entonces tenemos la siguiente expansión
X ∂ r+s f (a, b) (x − a)r (y − b)s
f (x, y) = f (a, b) + + Rp , (7.5)
∂xr ∂y s r! s!
1≤r+s≤p

donde el resto Rp está dado por la fórmula


X ∂ r+s f (ξ, η) (x − a)r (y − b)s
Rp = ,
r+s=p+1
∂xr ∂y s r! s!

donde (ξ, η) es un punto situado en el segmento de recta que conecta (a, b) con (x, y).

Para el caso p = 2 tenemos la expansión de segundo orden, donde 7.5 toma la forma

f (x, y) = f (a, b) + fx (a, b)(x − a) + fy (a, b)(x − b) +


1 1 1 1
fxx (a, b)(x − a)2 + fxy (a, b)(x − a)(y − b) + fyx (a, b)(x − a)(y − b) + fyy (a, b)(y − b)2
2! 2! 2! 2!
+R2 .

Sin embargo, puesto que la función es al menos de clase C 3 se tiene que las derivadas mixtas coinciden y podemos
simplificar lo anterior para obtener

f (x, y) = f (a, b) + fx (a, b)(x − a) + fy (a, b)(x − b)


1 
+ fxx (a, b)(x − a)2 + 2fxy (a, b)(x − a)(y − b) + fyy (a, b)(y − b)2 + R2 .
2!
Esto todavı́a es incómodo, pero si usamos la notación vectorial podemos simplificar notablemente esta expresión.
Si definimos al vector ∆x = (x − a)ı̂ + (y − b)̂ notamos que

fx (a, b)(x − a) + fy (a, b)(y − b) = ∇f (a, b) · ∆x.

Por otro lado


" #" #
h i f (a, b) f (a, b) x − a
2 2 xx xy
fxx (a, b)(x − a) + 2fxy (a, b)(x − a)(y − b) + fyy (a, b)(y − b) = x−a y−b
fxy (a, b) fyy (a, b) y−b
T
= ∆x .Hf (a, b).∆x,

28
8. Puntos Crı́ticos y Extremos

donde Hf (a, b) es la matriz Hessiana de f o Hessiano de f :


" #
fxx (a, b) fxy (a, b)
Hf (a, b) = . (7.6)
fxy (a, b) fyy (a, b)

De esta forma, la serie de Taylor de orden dos toma la forma compacta


1
f (x, y) = f (a, b) + ∇f (a, b)∆x + ∆xT .Hf (a, b).∆x + R2 . (7.7)
2
Esta fórmula será de mucha utilidad para derivar condiciones suficientes para la existencia de un extremos de
una función.

8. Puntos Crı́ticos y Extremos

8.1. Dominios no Acotados

En primer lugar, abordaremos el caso de una función definida en un dominio abierto. El caso de dominio
acotado se examinará de dos maneras, la primera tratada en este apartado y la segunda en la siguiente sección.

Definición 8.1 Sean f : R ⊂ R2 → R y (a, b) ∈ R. Diremos que (a, b) es un punto mı́nimo local de f si existe
una vecindad V de (a, b) tal que para todos los puntos (x, y) se cumple que f (a, b) ≤ f (x, y). De forma análoga,
(a, b) ∈ R es un punto máximo local si existe una vecindad V de (a, b) tal que f (x, y) ≤ f (a, b), ∀(x, y) ∈ V .
Si (a, b) es un punto mı́nimo o máximo local diremos que que es un extremo local o relativo de f .

Definición 8.2 El punto (a, b) es un punto crı́tico de f (x, y) en (a, b) si o bien f no es diferenciable en (a, b),
o ∇f (a, b) = 0. Si un punto crı́tico no es un extremo local, se dice que es un punto silla.

A continuación entregamos una condición para las primeras para la existencia de extremos locales.

Teorema 8.1 (Condición Necesaria). Si f : R ⊂ R2 → R es diferenciable y (a, b) es un extremo local,


entonces ∇f (a, b) = 0, es decir, (a, b) es un punto crı́tico de f .

Demostración. Suponga que f alcanza un máximo en (a, b). Entonces, para todo h = (h1 , h2 ) la función
g(t) = f (a + th1 , b + th2 ) tiene un máximo local en t = 0. Luego g ′ (0) = 0. Por otro lado, la regla de la cadena
implica que
0 = g ′ (0) = ∇f (a, b) · h ∀h,

de donde sigue que ∇f (a, b) = 0. El caso de mı́nimo local es totalmente análogo.

Ejemplo 8.1 Estudiemos en primer lugar a la función f (x, y) = x2 + y 2 . Esta función es diferenciable en todo
el plano, por lo que solo nos resta buscar los posibles extremos y clasificarlos. En primer lugar, su gradiente es
∇f = 2xı̂ + 2y̂. Al imponer que sea el vector nulo tenemos como única solución x = y = 0. Para clasificar,
simplemente notamos que x2 + y 2 ≥ 0 ∀(x, y) y que es cero solo si x = y = 0. Luego, el origen es un mı́nimo
para f , más aún es un mı́nimo local.

29
8.1. Dominios no Acotados

Ejemplo 8.2 Consideremos esta vez a la función f (x, y) = x2 y + y 2 x. Esta función es diferenciable en todo
el plano, por lo que solo nos resta buscar los posibles extremos y clasificarlos. En primer lugar, su gradiente es
∇f = (2xy + y 2 )ı̂ + (x2 + 2xy)̂. Al imponer que sea el vector nulo tenemos x2 = y 2 y luego x = ±y. Si x = y
y se reemplaza en la primera ecuación se llega a 3y 2 = 0, de donde y = x = 0. De forma similar si x = −y se
obtiene como única solución x = y = 0. Para clasificar, basta considerar x = y con lo cual la función toma la
forma f (x) = 2x3 , de donde se concluye que el origen no es ni máximo ni mı́nimo, es decir, es un punto silla.

8.1.1. Criterio de la Segunda Derivada para Extremos Locales

Nuestro punto de partida será la serie de Taylor de orden dos para una función f de clase C 3 (R) en torno
al punto (a, b)
1
f (x, y) = f (a, b) + ∇f (a, b)∆x + ∆xT .Hf (a, b).∆x + R2 .
2
Si (a, b) es un punto crı́tico, entonces el gradiente se anula y lo anterior toma la expresión más compacta
1
f (x, y) − f (a, b) = ∆xT .Hf (a, b).∆x + R2 . (8.1)
2
Queremos clasificar al extremo (a, b) a partir del lado derecho de 8.1, es decir, usando la información que entrega
la matriz hessiana de f en el punto (a, b) y buscando limitar el efecto que pueda tener el resto R2 es nuestros
cálculos. Primero definimos

Definición 8.3 La función cuadrática g : R2 → R se dice definida positiva si g(x, y) ≥ 0 y g(x, y) = 0 solo si
x = y = 0. De forma análoga, diremos que g es definida negativa si g(x, y) ≤ 0 y g(x, y) = 0 solo si x = y = 0.

Observación 8.1 La función g(∆x) = ∆xT .Hf .∆x es una forma cuadrática para los incrementos ∆x =
(x − a, y − b).

Proposición 8.1. Si ∆xT .Hf .∆x es definida positiva, entonces existe una constante positiva M > 0 tal que
para todo ∆x:
∆xT .Hf .∆x ≥ M k∆xk.

Demostración. Para k∆xk = 1 definimos la función g(∆x) = ∆xT .Hf .∆x. entonces g es una función continua
de ∆x para k∆xk = 1 que alcanza su mı́nimo, digamos M . Por otro lado
     
∆xT ∆x ∆xT ∆x 2 ∆x
T
∆x .Hf .∆x = k∆xk .Hf . k∆xk = .Hf . k∆xk = g k∆xk2 ≥ M k∆xk2 ,
k∆xk k∆xk k∆xk k∆xk k∆xk
para cualquier ∆x 6= 0.

Supongamos ahora que en el punto crı́tico (a, b) se tiene que la matriz Hf (a, b) es definida positiva, es decir,
existe M > 0 tal que ∆xT .Hf .∆x ≥ M k∆xk. Por otro lado, el resto R2 /k∆xk2 → 0 si ∆x → 0. Luego, existe
una constante positiva δ tal que para 0 < k∆xk < δ

|R2 | < M k∆xk2 .

Ası́ 0 < ∆xT .Hf .∆x + R2 = f (x, y) − f (a, b) para 0 < k∆xk < δ y (a, b) es un mı́nimo. En resumen, hemos
llegado al siguiente resultado

30
8.1. Dominios no Acotados

Teorema 8.2 (Condición Suficiente). Si f es de clase C 3 (R) y (a, b) es un punto crı́tico de ella donde su
matriz hessiana Hf (a, b) sea definida positiva, entonces (a, b) es un mı́nimo relativo para f . De forma análoga,
si Hf (a, b) es definida negativa entonces (a, b) es un máximo relativo para f .

Nos queda por relacionar estos resultados con la matriz hessiana que se consigue mediante la siguiente
" #
a b
Proposición 8.2. Sean A = y H(x) = xT .A.x, donde x = (x, y). Entonces H(x) es definida positiva
b c
si y solo si a > 0 y det(A) > 0.

Demostración. Primero, rescribimos a H(x) como

H(x) = ax2 + 2bxy + dy 2


 2  
b b2
= a x+ y + c− y2.
a a

Por un lado, si H es definida positiva hacemos y = 0, luego a > 0. Después podemos hacer x = − ab y, de donde
sigue que ac − b2 > 0.
Por el otro lado, si a > 0 y ac − b2 > 0 entonces H es suma de cuadrados, luego H(x) ≥ 0. Si H(x) = 0,
entonces cada cuadrado debe ser cero y luego x = y = 0.

Con este resultado, podemos contextualizar y formular el siguiente criterio:

Teorema 8.3 (Criterio de la Segunda Derivada para Mı́nimos de Funciones de Dos Variables). Sea
f ∈ C 3 (R), R ⊂ R2 . El punto (a, b) ∈ R es un mı́nimo local para f si se cumplen las siguientes:

i) ∇f (a, b) = 0.

ii) fxx (a, b) > 0.

iii) det(Hf (a, b)) > 0.

Observación 8.2 1. Si en (ii) hacemos fxx (a, b) < 0 entonces (a, b) es un máximo local para f . La tercera
condición no cambia.

2. Si det(Hf (a, b)) < 0, entonces (a, b) es un punto silla, sin importar lo que se obtenga en (ii).

3. Si det(Hf (a, b)) = 0 el criterio no entrega información.

Ejemplo 8.3 Estudiemos los extremos de la función f (x, y) = ln(x2 + y 2 + 1).


Antes de proceder, notamos que ln(·) es una función monótona creciente, por lo que estudiar los extremos de f
equivale a estudiar los extremos de la función de su argumento, digamos g(x, y) = x2 + y 2 + 1 lo que simplifica
nuestras cuentas. Luego, ∇g = 2xı̂ +"2y̂. Al # igualar ambas derivadas parciales a cero, sigue que x = y = 0.
2 0
El hessiano es la matriz Hg (x, y) = que no cambia al evaluar en (0, 0). Luego gxx (0, 0) = 2 > 0 y
0 2
det(Hg (0, 0)) = 4 > 0. Por lo que (0, 0) es un mı́nimo local para g (y entonces para f ). Más aun, como se trata
del único extremo, se trata de un mı́nimo global.

31
8.2. Máximos y mı́nimos globales

Ejemplo 8.4 Estudiemos ahora a la función f (x, y) = x5 y + xy 5 + xy.


Su gradiente es ∇f = y(5x4 + y 4 + 1)ı̂ + x(5y 4 + x4 + 1)̂. Al igualar ambas derivadas a cero notamos por
ejemplo, que 5x4 + y 4 + 1 ≥ 1 y luego y = 0. Por el mismo argumento, sigue que x = 0. De donde sigue que el
único punto crı́tico es (0, 0). El hessiano de f está dado por la matriz
" # " #
20x3 y 5x4 + 5y 4 + 1 0 1
Hf (x, y) = 4 4 3
⇒ Hf (0, 0) = ,
5x + 5y + 1 20y x 1 0
de donde fxx (0, 0) = 0 y det(Hf (0, 0)) = −1 < 0 y luego (0, 0) es un punto silla para f .

8.2. Máximos y mı́nimos globales

Nos concentramos en el estudio de máximos y mı́nimos globales sobre una región R ⊂ Rn . Necesitamos
precisar algunos conceptos previamente.
Definición 8.4 Sea f : R ⊂ Rn → R. Diremos que x0 ∈ R es un mı́nimo (máximo) absoluto de f si
f (x0 ) ≤ f (x), ∀x ∈ R (la desigualdad se invierte para el caso de máximo absoluto).
Definición 8.5 R ⊂ Rn es acotado si existe M > 0 tal que kxk < M, ∀x ∈ R. Diremos que R es cerrado si
contiene a los puntos de su frontera.
Teorema 8.4. Si R es cerrado y acotado y f : R → R es continua, entonces existen x0 , x1 ∈ R donde f
alcanza su máximo y su mı́nimo.
Observación 8.3 El borde de R, denotado por ∂R puede ser parametrizado usando n − 1 parámetros, lo
que permite simplificar los cálculos. Por ejemplo, en R2 , ∂R es una curva, que puede ser parametrizada como
x = x(t), y = y(t).

La última observación nos entrega un procedimiento para determinar extremos globales:

1. Localizar y clasificar los puntos crı́ticos de f en el interior de R.

2. Localizar y clasificar los puntos crı́ticos de f en el borde ∂R.

3. Evaluar f , comparar y decidir.


Ejemplo 8.5 Estudiemos a f (x, y) = x2 + y 2 − x − y + 1 en el disco unitario x2 + y 2 ≤ 1.
Primero localizamos y clasificamos extremos en el interior x2 + y 2 < 1. Tomamos el gradiente de f ∇f =
(2x − 1)ı̂ + (2y − 1)̂. Al igualar a cero ambas derivadas parciales se obtiene x = y = 21 . Note que estos puntos
" #
2 0
satisfacen x2 + y 2 = 21 < 1. El hessiano es la matriz Hf (x, y) = , que no cambia al evaluar en ( 12 , 21 ).
0 2
Luego fxx ( 12 , 12 ) = 2 > 0 y det(Hf ( 21 , 21 )) = 4 > 0 y el punto ( 12 , 21 ) es un mı́nimo para f .
En el borde x2 + y 2 = 1 que podemos parametrizar mediante x = cos t, y = sen t y luego f toma la forma
f (t) = 2 − sen t − cos t. Luego f ′ (t) = sen t − cos t = 0 para t = π4 , t = 5π ′′
4 . Clasificamos: f (t) = cos t + sen t.
√ √
Evaluando f ′′ ( π4 ) = 2 y f ′′ ( π4 ) = − 2, de donde π4 es un punto de mı́nimo para f y 5π4 es un punto de máximo
(global) para f .
1
Comparando entre ambos valores candidatos a mı́nimo, sigue que x = y = 2 es el mı́nimo global para f .

32
9. Extremos con Restricciones y Multiplicadores de Lagrange

9. Extremos con Restricciones y Multiplicadores de Lagrange

9.1. Una restricción

Consideramos el siguiente problema de optimización:


Dadas dos funciones de clase C 1 (R), f, g : R ⊂ R2 → R, encontrar los puntos (x, y) que maximicen o minimicen
a f sujeta a la restricción g(x, y, z) = 0. En otras palabras

opt(z = f (x, y))


(9.1)
g(x, y) = 0.
La restricción g(x, y) = 0 define una curva suave C (por su diferenciabilidad) en el plano que puede ser
parametrizada mediante x = x(t), y = y(t) que es diferenciable. Luego, por la regla de la cadena
dg d~r
= ∇g(x, y) · = 0. (9.2)
dt dt
Podemos aplicar lo anterior a f restringida a C, que es donde buscamos los extremos. Nuevamente por la regla
de la cadena
df d~r
= ∇f (x, y) · .
dt dt
En el(los) instante(s) t0 , donde se alcanza el máximo o mı́nimo valor de f , digamos x(t0 ) = a, y(t0 ) = b se tiene
que f ′ (t0 ) = 0 y luego
df d~r
= ∇f (a, b) · =0
dt t0 dt t0
Uniendo esta información y evaluando 9.2 en t = t0 se llega a que en los puntos (a, b) que optimizan a f :

∇f k ∇g ⇔ ∇f = λ∇g,

para algún λ ∈ R. Con esto podemos formular el siguiente resultado

Teorema 9.1. Sean f, g : R ⊂ R2 → R funciones de clase C 1 (R). Dada C la curva de nivel g(x, y) = 0. Si f
restringida a C alcanza un máximo o un mı́nimo local, en (a, b) ∈ R, entonces existe un número real λ ∈ R tal
que
∇f (a, b) = λ∇g(a, b), ∇g(a, b) 6= 0. (9.3)

Observación 9.1 Si el multiplicador λ es cero, entonces la restricción g = 0 queda inactiva y el problema se


reduce al caso anterior, es decir a buscar extremos sin restricciones de f . Note que si λ = 0, en los extremos
∇f (a, b) = 0.

Observación 9.2 La condición 9.3 puede ser utilizada de forma apropiada para encontrar los extremos. Puesto
que ∇f k ∇g sigue que el determinante cuyas columnas son ∇f y ∇g de be ser cero. Es decir, det([∇f |∇g]) = 0.
Esto aporta una ecuación, más la restricción se tiene un sistema cuadrado.

Ejemplo 9.1 Optimicemos la función f (x, y) = x2 − y 2 sujeta a la restricción g(x, y) = x2 + y 2 − 1 = 0.


Primero calculamos los gradientes respectivos: ∇f = (2x, −2y), ∇g = (2x, 2y). Luego

2x 2x

= 8xy = 0 ⇔ x = 0 ∨ y = 0.
−2y 2y

33
9.1. Una restricción

Si x = 0, usamos esto en la restricción y ontenemos y = ±1. Análogo si y = 0, x = ±1. Al evaluar f , es claro


que los puntos de la forma (±1, 0) maximizan f al valor 1 y los puntos (0, ±1) minimizan f al valor −1.

Ejemplo 9.2 Encuentre la mı́nima distancia en R2 entre las dos superficies de ecuación:

S1 : x2 + 2y 2 − 1
S2 : x+y−4

4
Queremos minimizar la distancia de los puntos
(x, y) que pertenecen a la elipse y no están sobre la
3
recta x + y − 4 = 0. Como la función que mide la
|Ax+By+C|
distancia de un punto a una recta: √
A2 +B 2
es no
2
diferenciable, minimizamos su cuadrado, es decir

 
(x + y − 4)2
mı́n f (x, y) =
2 -1 1 2 3 4

sujeto a g(x, y) = x2 + 2y 2 − 1 = 0.

Calculamos los gradientes ∇f = (x + y − 4, x + y − 4), ∇g = (2x, 4y). Luego



x + y − 4 2x

= 2(x + y − 4)(2y − x) = 0,
x + y − 4 4y

pero puesto que (x, y) no pertenecen a la recta x + y − 4 6= 0, por lo que podemos simplificar y obtener x = 2y.
Reemplazando esto en la restricción sigue que y = ± √16 ⇒ x = ± √26 . Evidentemente, los puntos en el primer
√ √
cudrante minimizan la distancia y luego ( √26 , √16 ) es el óptimo, con distancia mı́nima 3− 2
2 . Para comprobar,
tomar cualquier otro punto de la elipse y calcular su distancia a la recta.

Observación 9.3 En el caso en que estemos en presencia de una función a optimizar de tres variables f (x, y, z)
sujeta a una única restricción g(x, y, z) = 0 no podemos formar el determinante det([∇g|∇g]) (la matriz no es
cuadrada), pero sı́ podemos utils.aizar un criterio de proporcionalidad como sigue

∇f = λ∇g ⇔ fx = λgx fy = λgy fz = λgz .

Eliminando a λ, que asumimos no nulo, se llega a


fx fy fz
= = , (9.4)
gx gy gz
que entrega dos ecuaciones, agregando la restricción tenemos un sistema cuadrado y podemos resolver.

Ejemplo 9.3 Minimice la distancia de (x, y, z) a (1, 3, 2) para puntos sobre el plano 2x + y + z = 5.
En este caso el problema de optimización asociado es

mı́n(f (x, y) = (x − 1)2 + (y − 3)2 + (z − 2)2 )


sujeta a g(x, y) = 2x + y + z − 5 = 0.

34
9.2. Dos Restricciones

Los gradientes de las respectivas funciones son ∇f = (2(x − 1), 2(y − 3), 2(z − 2)) y ∇g = (2, 1, 1). Luego, por
9.4 tenemos
x−1
= y − 3 = z − 1 ⇒ x = 2y − 5, z = y − 2.
2

17 2 5 6
Reemplazando en la restricción obtenemos y = 6 . De acá x = 3, z = 6, que evaluando su distancia da 2 .
Para chequear que es un mı́nimo, tomar cualquier otro punto del plano y calcular su distancia al plano.

Ejemplo 9.4 Una empresa estima que su utilidad mensual está dada por
18x 48y
U (x, y, z) = + + 3x + 3y + 5z − 45,
x+4 y+6
donde x, y, z representan el gasto por radio, televisión y prensa escrita, respectivamente.
Determine la cantidad a asignar a cada medio de manera que se maximice la utilidad, si el presupuesto mensual
no puede superar los 10 millones de pesos. Si la empresa no invierte, ¿se obtienen utilidades?
Sea g(x, y, z) = x + y + z. Se tiene Uz = 5 6= 0, de manera que ∇U 6= 0 y entonces no hay puntos crı́ticos en
el interior, y los extremos se alcanzan en la frontera. En la restricción g(x, y, z) = 10 se tiene: ∇U = λ∇g, de
donde se tienen las ecuaciones
18 · 4 48 · 6
+ 3 = λ, + 3 = λ, 5 = λ,
(x + 4)2 (y + 6)2

de donde (x + 4)2 = 36 y entonces x = 2, −10. Análogamente, (y + 6)2 = 144 y entonces y = 6, −12.


De la restricción se tiene z = 10 − 2 − 6 = 2, por lo que (2, 6, 2) es el único punto crı́tico en g(x, y, z) = 10.
Se tiene que U (2, 6, 2) = 19 y evaluando en otro punto de la restricción: U (0, 0, 10) = 50 − 45 = 5, de donde
(2, 6, 2) es un máximo.
Las demás partes de la frontera son las intersecciones de g(x, y, z) ≤ 10 con cada uno de los planos xy, xz y zy.
Dado que ninguna coordenada de ∇U es cero, este vector nunca es ortogonal a ninguno de tales planos. Por lo
tanto el punto encontrado es máximo de toda la región.
Por último, si la empresa no invierte, se tiene U (0, 0, 0) = −45, y por tanto se tienen pérdidas.

9.2. Dos Restricciones

Consideramos el problema de optimizar f : R ⊂ R3 → R de clase C 1 (R) sujeta a las restricciones g, h : R ⊂


R3 → R también de clase C 1 (R) dado por

opt(u = f (x, y, z))


sujeta a g(x, y, z) = 0, (9.5)
h(x, y, z) = 0.

Es decir, buscamos los puntos (x, y, z) que maximizan o minimizan a f sobre la curva intersección de las
superficies de nivel g = h = 0. Esto se ilustra en la Figura 9.2. Puesto que tanto g y h son de clase C 1 (R),
entonces la intersección de las superficies g = h = 0 es una curva suave C que puede ser parametrizada por un
vector posición ~r(t) = (x(t), y(t), z(t)). Entonces, por la regla de la cadena, para todo punto sobre C se cumple
que

35
9.2. Dos Restricciones

Figura 2: Se buscan los extremos de f sobre C, la curva de intersección de g = h = 0. ∇f en el óptimo yace en


el plano que generan ∇g y ∇h.

∂g dx ∂g dy ∂g dz d~r
+ + = ∇g · = 0, (9.6)
∂x dt ∂y dt ∂z dt dt
∂h dx ∂h dy ∂h dz d~r
+ + = ∇h · = 0. (9.7)
∂x dt ∂y dt ∂z dt dt
Por otro lado, en los puntos donde f alcance sus óptimos, digamos t = t0 que implica que (x(t0 ), y(t0 ), z(t0 )) =
(a, b, c) se tiene:
∂f dx ∂f dy ∂f dz d~r
+ + = ∇f (a, b, c) · = 0. (9.8)
∂x dt ∂y dt ∂z dt dt t0
Si interpretamos la información que nos entregan las últimas tres ecuaciones, se deduce que en los puntos donde
f se optimiza su gradiente es perpendicular tanto al gradiente de g como al de h, por lo tanto debe pertenecer
al plano que generan estos vectores (ver figura 9.2) y entonces es combinación lineal de ellos dos, es decir, en
los puntos (a, b, c) donde f alcanza sus máximos o mı́nimos se cumple que

∇f (a, b, c) = λ∇g(a, b, c) + µ∇h(a, b, c), λ, µ ∈ R.

Los números λ, µ se denominan multiplicadores de Lagrange. Podemos ası́ formular un resultado análogo al
teorema 9.1

Teorema 9.2. Sean f, g, h : R ⊂ R3 → R funciones de clase C 1 (R). Dada C la curva intersecci’on de las
superficies de nivel g(x, y, z) = h(x, y, z) = 0. Si f restringida a C alcanza un máximo o un mı́nimo local, en
(a, b, c) ∈ R, entonces existen un números reales λ, µ ∈ R tales que

∇f (a, b, c) = λ∇g(a, b, c) + µ∇h(a, b, c). (9.9)

Observación 9.4 Note que si alguno de los multiplicadores es cero, entonces la restricción asociada queda
inactiva y el problema se reduce al caso anterior (una restricción, tres variables). Si ambos multiplicadores son
cero, entonces simplemente se buscan los extremos de f sin restricciones, caso tratado en la sección anterior.

36
9.3. Caso General, Función de Lagrange

Observación 9.5 La condición 9.9 puede ser utilizada de forma apropiada para encontrar los extremos. Puesto
que ∇f = λ∇g + µ∇h sigue que el determinante cuyas columnas son ∇f , ∇g y ∇h debe ser cero. Es decir,
det([∇f |∇g|∇h]) = 0. Esto aporta una ecuación, más las dos restricciones se tiene un sistema cuadrado.

Ejemplo 9.5 Maximice f (x, y, z) = x + 2y + 3z sujeta a las restricciones g(x, y, z) = x2 + y 2 + z 2 − 1 = 0 y


h(x, y, z) = x + y + z = 0.
Usando la observación 9.5, formamos la matriz [∇f |∇g|∇h] cuyo determinante debe ser nulo y que entrega


1 2x 1

det([∇f |∇g|∇h]) = 2 2y 1 = x − 2y + z = 0.

3 2z 1

Usando la segunda restricción sigue que y = 0 y que z = −x. Al reemplazar esto en la primera restricción sigue
que las soluciones son (±1, 0, ∓1). Al evaluar f en dichos puntos, sigue que el máximo es (−1, 0, 1).

9.3. Caso General, Función de Lagrange

Deseamos encontrar los valores óptimos de una función f : R ⊂ Rn → R de clase C 1 (R) sujeta a m
restricciones g1 , . . . , gm : R → R todas de clase C 1 (R). Es decir

opt(f (x1 , . . . , xn ))
sujeta a g1 (x1 , . . . , xn ) = 0,
.. (9.10)
.
gm (x1 , . . . , xn ) = 0.

Es posible extender nuestros desarrollos anteriores y probar que en los puntos x0 = (x∗1 , . . . , x∗n ) que optimizan
a f existen m números reales λi , i = 1, . . . , m tales que
m
X
∇f = λi ∇gi . (9.11)
i=1

Sin embargo, este esquema es difı́cil de implementar para problemas con un número de restricciones elevado,
por lo que se define la siguiente función de n + m variables, llamada función de Lagrange
m
X
L(x1 , . . . , xn ; λ1 , . . . , λm ) = f (x1 , . . . , xn ) − λi · gi (x1 , . . . , xn ). (9.12)
i=1

Note que si consideramos las derivadas parciales con respecto a las variables xj , j = 1, . . . , n se tiene que
m
∂L ∂f X ∂gi
= − λi ; j = 1, . . . , n. (9.13)
∂xj ∂xj i=1
∂xj

Luego, si consideramos las n derivadas con respecto a xj , j = 1, . . . , n y abusamos ligeramente de la notación


de gradiente obtenemos
m
X
∇x L = ∇f − λi ∇gi . (9.14)
i=1

37
REFERENCIAS REFERENCIAS

Por otro lado, si consideramos la derivada oarcial de L con respecto a λi , i = 1, . . . , n:


∂L
= gi , i = 1, . . . , n. (9.15)
∂λi
Puesto que L es una función de n + m variables que no está sujeta a restricciones, diferenciable por ser suma
de funciones diferenciables, en sus puntos crı́ticos se cumple que

∇L = (0, . . . , 0; 0, . . . , 0).
| {z } | {z }
n veces m veces

Para las primeras n variables se tiene por 9.14 que


m
X
∇f = λi ∇gi ,
i=1

y la condición 9.11 se recupera. Mientras que para las m variables restantes (los multiplicadores) se verifica

gi = 0, i = 1, . . . , m

con lo que hemos recuperado las restricciones del problema original 9.10. En conclusión, con la función de
Lagrange hemos sido capaces de recuperar el problema 9.10 con toda la información derivada previamente.

Observación 9.6 Note que implementar esta función computacionalmente es factible, mas al trabajar analı́tica-
mente se debe tener en cuenta que se deberá resolver un sistema de gran número de ecuaciones (n+m ecuaciones
para el mismo número de incógnitas) donde muchas de las relaciones involucradas son no lineales, luego no se
sugiere para efectos prácticos relacionados con este curso la implementación de este esquema. Además, la impor-
tancia de los multiplicadores de Lagrange aun no es considerada, que es la verdadera razón por la cual definir
la función de Lagrange y que es estudiada en cursos superiores de Optimización, por lo que determinar los m
multiplicadores es irrelevante desde el punto de vista de nuestro curso y solo induce a confusiones innecesarias.

Observación 9.7 Puesto que al trabajar con la función de Lagrange operamos sin restricciones es factible
implementar el criterio de la segunda derivada para categorizar los óptimos encontrados. Sin embargo, esto
conduce a problemas de gran tamaño en general y este tema se escapa al nivel de nuestra asignatura.

Referencias

[1] Jerrold E. Mardsen, Anthony Tromba. Cálculo Vectorial. Editorial Pearson Addison Wesley. Quinta edición,
2004.

[2] Sherman K. Stein, Anthony Barcellos. Cálculo y Geometrı́a Analı́tica, volumen 2. Editorial McGraw–Hill.
Quinta edición, 1996.

[3] Louis Brand. Cálculo Avanzado. Editorial Continente S.A. Segunda edición, 1964.

[4] Murray H. Protter, Charles B. Morrey Jr. Modern Mathematical Analysis. Editorial Addison-Wesley, 1964.

[5] Walter Rudin. Real and Complex Analysis. Editorial McGraw–Hill. Tercera edición, 1987.

38

Вам также может понравиться