Вы находитесь на странице: 1из 12

Varianza y covarianza

Matías Carrasco

10 de abril de 2018

1. Introducción 1 kg

El valor esperado es una medida de centro de una dis-


tribución. Muchas veces, aunque no siempre, juega el
papel de valor representativo de una variable. En este 0,5 kg 0,5 kg
capítulo vamos a introducir la varianza de una varia-
ble, que es una forma burda de medir la dispersión de
la distribución entorno al valor esperado.
Luego, veremos como podemos extender este concep- Figura 1 Dos bloques de 0,5 kg se mantienen en equi-
to para definir la covarianza, que es una medida de la librio colocando el pie en el punto medio entre ellos.
dispersión de una variable respecto de otra. Es así que
entraremos más a fondo en el estudio de la dependen-
cia entre variables. Si ahora partimos el bloque en dos mitades iguales, y
las desplazamos igual distancia hacia la derecha y la
iquierda, podemos dejar el pie siempre en el mismo
2. Arquímides y el valor esperado lugar y el conjunto quedará en equilibrio todo el tiem-
po. Ver la Figura 1. Esto es pues no hemos cambiado
el centro de masa del conjunto de bloques.
Antes de introducir la varianza, e interpretarla como
medida de dispersión, veamos primero cómo interpre- Usaremos este principio, el de que dos configuracio-
tar el valor esperado utilizando la noción de centro de nes de bloques con el mismo centro de masa producen
masa. el mismo efecto sobre el tablón, para calcular el centro
de masa de una configuración cualquiera.
Todos saben que el estudio del centro de masa de un
objeto fue la devoción de Arquímedes, el matemático ¿Qué pasa si en lugar de dividir el bloque original de
de la Grecia antigua. Seguramente conozcan su famo- 1 kg en dos mitades iguales, lo dividimos en un bloque
sa frase “Dadme un punto de apoyo, y moveré al mu- de p kg y otro de q kg, con p + q = 1?
do”. En su descubrimiento de la “ley de la palanca”,
Arquímedes demuestra cómo encontrar el punto de Supongamos, por ejemplo, que p = 1/3 y q = 2/3.
equilibrio para configuraciones de objetos similares a Intuitivamente, el pie lo debemos colocar dos veces
los subibaja que tanto disfrutamos en nuestra niñez. más cerca del bloque más pesado que del bloque más
liviano. Demostremos que ésto es así.
Comencemos por el caso más simple de todos: supon-
gamos que tenemos dos bloques de 0,5 kg cada uno Supongamos que los bloques están a distancia 1. Divi-
apoyados sobre un tablón, que se balancea sobre un dimos la distancia entre los dos bloques en tres partes
pie de apoyo como un subibaja. ¿En dónde debería- iguales, de forma que el pie está situado a distancia
mos colocar el pie para que el tabón quede en equili- 1/3 del bloque pesado, como se muestra en la Figura
brio? Obviamente, debido a la simetría del problema, 2.
lo debemos colocar en el punto medio entre los dos
Marquemos dos segmentos de longitud 1/3 hacia la
bloques.
izquierda del bloque pesado y una hacia la derecha del
Otra forma de llegar a esta conclusión es la siguien- bloque liviano. Si cambiamos los dos bloques por seis
te: si tenemos un solo bloque de 1 kg, es obvio que el bloques que pesan 1/6 kg, colocados sobre los puntos
punto de apoyo debe situarse justo debajo del bloque. medios de los segmentos marcados, obtenemos una

1
2/3 kg 1/3 kg Fácil de girar

1/6 kg 1/6 kg 1/6 kg 1/6 kg 1/6 kg 1/6 kg

Difícil de girar
Figura 2 Dos bloques, uno de 1/3 kg y el otro de 2/3
kg, se mantienen en equilibrio colocando el pie a una
distancia 1/3 del bloque más pesado.

q kg p kg

p
0 1 Figura 4 Cuanto más dispersión, más difícil es girar en
torno al eje que pasa por el centro de masa el conjunto
Figura 3 Dos bloques, uno de p kg y el otro de q kg,
de bloques.
se mantienen en equilibrio colocando el pie a una dis-
tancia p del origen.
que pesa pi kg en la posición x i . Notar que el peso
total de los bloques es 1 kg pues las probabilidades
configuración equivalente, pues no hemos cambiado
suman 1. Entonces:
los centros de masa.
Como la nueva configuración de bloques es simétrica, El valor esperado E (X) indica en dónde debe
es claro que el pie de apoyo debe ir en el centro, lo colocarse el pie de apoyo para que el conjunto
cual implica que la configuración original estaba en de bloques se mantenga en equilibrio.
equilibrio.
El mismo argumento se puede hacer para cualquier Dicho de otro modo, el valor esperado es el centro de
par de bloques cuyos pesos seas racionales. Luego, masa de la distribución.
usando un pasaje al límite se puede extender el resul-
tado al caso de pesos irracionales.
La conclusión es que si colocamos dos bloques que
3. Inercia y dispersión
pesan p y q kilogramos, con el bloque que pesa p en
la posición 1 y el bloque que pesa q en la posición 0, Imaginemos una distribución de bloques cualquiera,
entonces el pie de apoyo debe colocarse en la posición en la cual hemos ubicado el centro de masa, y supon-
p. Ver la Figura 3. gamos que deseamos girar el tablón respecto del eje
vertical que pasa por el centro masa. ¿Cuándo es más
Notar que los bloques de la Figura 3 representan la
difícil girarlo?
distribución de una variable Bernoulli de parámetro
p. Como la esperanza de una tal variable es igual a Intuitivamente es claro que si los bloques están muy
p, hemos probado que la posición del pie de apoyo concentrados sobre su centro de masa, entonces el gi-
coincide con el valor esperado. Esto es completamen- rarlos resulta sencillo, y éste se hace cada vez más
te general. difícil a medida que dispersamos los bloques, ver la
Figura 4. Esto es muy interesante, podemos medir la
Podemos representar la distribución de cualquier va-
dispersión de un conjunto de bloques alrededor de su
riable discreta X usando bloques y un tablón. Primero,
centro de masa por la dificultad de girarlos.
marcamos un origen cualquiera en el tablón desde el
cual medir distancias. Si X toma los valores x 1, x 2, . . . En física existe una cantidad que mide justamente la
con probabilidades p1, p2, . . ., colocamos un bloque dificultad que un objeto tiene a ser girado en torno a

2
un eje. Se llama el momento de inercia, y es como la ma-
1/4
sa para movimientos rotatorios. Sin entrar en detalles
sobre la definición, recordar que el momento de una

var (X)
partícula de masa m y velocidad v es p = mv. El mo-
mento angular es la fórmula análoga para movimien-
tos alrededor de un eje: si la partícula gira entorno a
un eje a distancia r, entonces
p
0 1/2 1
L = p · r = (mv) · r = (mr ) · ω = Iω,
2

Figura 5 Varianza de una variable Bernoulli en fun-


en donde ω es la velocidad angular e I es el momento
ción del parámetro p.
de inercia.
Si hay muchas partículas de diferentes masas, el mo-
de X respecto de su valor esperado. Dicho de forma
mento de inercia es
sencilla, la varianza mide el “ancho” de la gráfica de
X
I= mi r i2 . la función de probabilidad puntual.
i
Muchas veces la varianza de una variable X se denota
Apliquemos esta fórmula a los nuestros bloques en el por σ 2X . La raíz cuadrada de la varianza
tablón. Supongamos que X es una variable discreta,
σX =
p
con recorrido {x 1, x 2, . . .} y función de probabilidad var (X)
puntual pi = p X (x i ). Disponemos como antes, para
se conoce como desvío estándar de X.
cada i ≥ 1 un bloque de peso pi en la posición x i .
El centro de masa está en la posición E (X), por lo
que la distancia de cada bloque al centro de masa es 4. Ejemplos
r i = x i − E (X) .
Veamos primero algunos ejemplos de cálculo de va-
Como la masa es mi = pi , tenemos que el momento rianzas en casos concretos.
de inercia de X es
Varianza de una Bernoulli
X
I= (x i − E (X))2 pi .
i ≥1
Sea X una variable con distribución Bernoulli de pa-
En probabilidad I se llama la varianza de X y se es- rámetro p. El valor esperado es E (X) = p. Entonces,
cribe var (X). de la definición tenemos

Sea X una variable discreta con recorrido var (X) = (0 − p)2 · (1 − p) + (1 − p)2 · p
f g
= (1 − p) p2 + (1 − p)p = p(1 − p).
{x 1, x 2, . . .},

y función de probabilidad puntual pi = p X (x i ).


La varianza de X es por definición Si X ∼ Ber(p), entonces var (X) = p(1 − p).
X
var (X) = (x i − E (X))2 pi . En la Figura 5 se muestra la varianza de X en función
i ≥1
de p. Notar que el máximo se da cuando p = 1/2 y
Esta mide la dispersión de X alrededor de su vale var (X) = 1/4.
valor esperado.
Varianza de una binomial
Más allá del significado físico de la varianza como
momento de inercia, es importante recordar siempre Consideremos ahora el caso en que X tiene distribu-
que la varianza mide cuán dispersos son los valores ción binomial de parámetros n y p. Es decir, la función

3
de probabilidad puntual de X está dada por variable, por lo tanto igual a 1. En síntesis, la suma
! anterior es igual a (n − 1)p + 1.
n k
P (X = k) = p (1 − p)n−k , Juntando todo, obtenemos
k
var (X) = np · [(n − 1)p + 1] − (np)2
para k = 0, 1, . . . , n.
= (np)2 − np2 + np − (np)2
Ya sabemos que la esperanza de X es E (X) = np.
= np(1 − p).
Luego, por definición tenemos
Finalmente, hemos probado que la varianza de X es
n !
X n k igual a np(1 − p).
var (X) = (k − np)2 p (1 − p)n−k
k=0
k
n ! Si X ∼ Bin(n, p), entonces var (X) = np(1 − p).
X n k
= (k + (np) − 2knp)
2 2
p (1 − p)n−k
k=0
k

El segundo término es igual a (np)2 pues las probabi- Varianza de una geométrica
lidades de la binomial suman 1. Analicemos entonces
el tercer término: Sea X con distribución geométrica de parámetro p.
n ! n ! Calculemos la varianza de X. Recordar que la espe-
X n k X n k ranza de X es igual a 1/p. Entonces, de la definición
2knp p (1 − p) n−k
= 2np k p (1 − p)n−k
k=0
k k=0
k tenemos
∞ !2
= 2npE (X) = 2(np)2 . X 1
var (X) = k− p(1 − p)k−1
k=1
p
Nos falta solo el primer término. Usando la definidi-
∞ !
cón de combinaciones, tenemos X 1 2k
= k + 2−
2
p(1 − p)k−1
k=1
p p
n ! n
X n k X n!
k 2
p (1 − p)n−k = k2 pk (1 − p)n−k ∞
X
k=0
k k=0
k!(n − k)! =p k 2 (1 − p)k−1
n k=1
X (n − 1)!
= np k pk−1 (1 − p)n−k 1 X∞ ∞
X
k=1
(k − 1)!(n − k)! + (1 − p) k−1
−2 k(1 − p)k−1
p k=1 k=1
n !
X n − 1 k−1
= np k p (1 − p)n−k ∞
X 1 2
k=1
k − 1 =p k 2 (1 − p)k−1 + 2
− 2
k=1
p p
Esta suma se puede separar en dos de la siguiente ∞
X 1
manera: =p k 2 (1 − p)k−1 − .
k=1
p2
n !
X n − 1 k−1 Falta evaluar la primer suma. Notar que esta se puede
(k − 1) p (1 − p)n−k
k=1
k − 1 descomponer en dos sumas de la siguiente manera
n !
X n − 1 k−1 ∞ ∞ ∞
+ p (1 − p)n−k
X X X
k − 1
2
k (1− p) k−1
= 2
(k − k)(1− p) k−1
+ k(1− p)k−1 .
k=1
k=1 k=1 k=1

Cambiando el indice k − 1 por j y sumando de 0 a El segundo término lo conocemos, y es igual a 1/p2 .


n − 1, esta suma es igual a El primero es igual a

d2 1
" #
n−1 ! n−1 ! X
X n−1 j X n−1 j (1 − p) k(k − 1)(1 − p) k−2
= (1 − p) 2 .
j p (1 − p) n−1− j
+ p (1 − p)n−1− j dp p
j=0
j j=0
j k=2

Es decir, tenemos que


El primero de estos dos términos es igual a la espe- ∞
ranza de una binomial de parámetros n − 1 y p. El
X 2 1
k 2 (1 − p)k−1 = (1 − p) 3
+ 2.
segundo es la suma de las probabilidades de una tal k=1
p p

4
Juntando todo, nos queda Distribución de X
p2
2 1 1 1 1 1−p p5
var (X) = (1 − p) + − = − = .
p2 p p2 p2 p p2 p1 p3 p4 p7
p6
Hemos probado entonces que la varianza de una va-
riable geométrica es (1 − p)/p2 . x1 x2 x3 x4 x5 x6 x7

Si X ∼ Geom(p), entonces var (X) = (1 − p)/p2 .

p3 + p4 + p6
p2
5. Valor esperado de una función de p5
p1 p7
una variable aleatoria

De los ejemplos anteriores vemos que es generalmen- g(x 1 ) g(x 2 ) g(x 3 ) = g(x 4 ) = g(x 6 ) g(x 7 ) g(x 5 )
te difícil calcular la varianza de una variable. En esta
Distribución de g(X)
sección vamos a ver una fórmula para el valor espera-
do de una función de una variable aleatoria. Esta nos
Figura 6 La distribución de g(X) corresponde a cam-
servirá para probar algunas propiedades de la varian-
biar de lugar los bloques, a veces poniendo varios blo-
za que simplifican su cálculo.
ques en el mismo lugar. La función g nos indica en
El problema general que abordaremos ahora es el dónde colocarlos.
siguiente: sean X una variable aleatoria discreta y
g : R → R una función, ¿cuál es el valor esperado
Notar que la esperanza de X es igual a 0. Sin embargo,
de la variable aleatoria g(X)?
la esperanza de X 2 es
Si pensamos en el tablón con bloques, ¿cómo se inter-
n n
preta la variable g(X)? Es bien fácil, es como cambiar   X 2 X 2
E X2 = k 2 p X 2 (k 2 ) = k
de lugar los bloques, a veces incluso poniendo un blo-
k=0
2n + 1 k=0
que arriba de otro, ver la Figura 6. 2 n(n + 1)(2n + 1) n(n + 1)
= · = .
Por ejemplo, sea g la función g(x) = x 2 .Consideremos 2n + 1 6 3
una variable X con distribución uniforme en los ente-
Notar que, en particular, E X 2 , E (X)2 .

ros {−n, . . . , n}. ¿Cuál es la distribución de g(X)?

Los valores posibles que puede tomar g(X), su reco- Si miramos con detalle la cuenta anterior, vemos que
rrido, son los cuadrados hemos probado que

n
R X 2 = {0, 1, 4, . . . , n2 }.
  X
E X2 = k 2 p X (k).
k=−n
¿Y con qué probabilidad los toma? esto es ¿cuál es la
función de probabilidad puntual de X 2 ? La variable Esta forma de calcular la esperanza de X 2 es muy útil
toma el valor k 2 cuando X toma uno de los valores pues no precisamos calcular la distribución de X 2 . Es-
−k y k. Como X toma cada uno de sus valores con ta es la fórmula general que probaremos en seguida.
probabilidad 1/(2n + 1), vemos que
  Proposición. Sea X una variable aleatoria dis-
p X 2 (k 2 ) = P X 2 = k 2 creta y g : R → R una función. Entonces
= P (X = −k) + P (X = k) X
2 E (g(X)) = g(x)p X (x).
= p X (−k) + p X (k) = . x ∈R X
2n + 1

5
Demostración. Los valores posibles que puede tomar 6. Propiedades de la varianza
g(X) son
Rg(X ) = {g(x) : x ∈ R X }. Usando la fórmula del valor esperado de una función
de una variable aleatoria podemos escribir de forma
La sutileza es que éstos valores se pueden repetir,
más compacta la definición de varianza. De hecho,
cosa que sucede cuando existen x , x 0 en R X con
notar que si tomamos la función g(x) = (x − E (X))2 ,
g(x) = g(x 0). Si denotamos por y = g(x), entonces la
entonces
probabilidad de que g(X) sea igual a y es
X
X E (g(X)) = (x − E (X))2 P (X = x) = var (X) .
P (g(X) = y) = P (X = x) . x ∈R X
x:g(x)=y
Es decir, var (X) = E (X − E (X))2 . Por ejemplo, si

De la definición de valor esperado, tenemos X es una variable centrada, lo cual quiere decir que
X E (X) = 0, entonces var (X) = E X 2 .
E (g(X)) = yP (g(X) = y)
y ∈R g(X ) Veamos entonces, algunas propiedades de la varianza
X X que nos permitan simplificar su cálculo.
= y P (X = x)
y ∈R g(X ) x:g(x)=y La varianza no cambia si sumamos una cons-
X X
= yP (X = x) tante: sean X una variable discreta y c una cons-
y ∈R g(X ) x:g(x)=y tante cualquiera. Entonces var (X + c) = var (X).
X X
= g(x)P (X = x) La prueba es muy simple: notar que E (X + c) =
y ∈R g(X ) x:g(x)=y E (X) + c por la linealidad de la esperanza. En-
X tonces
= g(x)P (X = x) ,
x ∈R X  
var (X + c) = E (X + c − E (X + c))2
que es lo que queríamos demostrar.
 
 = E (X + c − E (X) − c)2
 
= E (X − E (X))2 = var (X) .
Esta fórmula se puede generalizar a funciones de dos
variables aleatorias X e Y . La prueba es muy similar
a la anterior, trabajando con la distribución conjunta La varianza es cuadrática: sean X una variable
del par (X, Y ) del mismo modo que cuando probamos discreta y c una constante cualquiera. Entonces
la linealidad del valor esperado. var (cX) = c2 var (X).
La prueba también es muy fácil: notar primero
Sean X e Y dos variables discretas, y que E (cX) = cE (X), de donde

g : R2 → R
 
var (cX) = E (cX − E (cX))2
 
una función de dos variables. Entonces = E (cX − cE (X))2
 
= E c2 (X − E (X))2
X X
E (g(X, Y )) = g(x, y)p XY (x, y).  
x ∈R X y ∈RY = c2 E (X − E (X))2 = c2 var (X) .

Por ejemplo, si g(x, y) = x + y se obtiene una fórmula Una fórmula útil para la varianza: La varianza
para la esperanza de la suma, la cual ya habíamos de una variable X se puede calcular mediante la
deducido antes. Del mismo modo, si g(x, y) = xy se siguiente igualdad
obtiene  
X X var (X) = E X 2 − E (X)2 .
E (XY ) = x yP (X = x, Y = y)
x ∈R X y ∈RY Para probarla, basta desarrollar el cuadrado

que también ya conocíamos. (X − E (X))2 = X 2 + E (X)2 − 2E (X) X,

6
de donde al tomar esperanza 7. Covarianza y correlación
 
var (X) = E X 2 + E (X)2 − 2E (X)2
  ¿Cómo hacemos para medir la dependencia entre dos
= E X 2 − E (X)2 , variables? En esta sección veremos una primera apro-
que es lo que queríamos probar. ximación a este problema.

La varianza de la suma de variables indepen- Sean X e Y dos variables discretas. Comencemos por
dientes es igual a la suma de las varianzas: notar lo siguiente: si la varianza var (X − Y ) es peque-
sean X e Y dos variables discretas independien- ña, entonces intuitivamente Y es muy parecida a X.
tes. Entonces var (X + Y ) = var (X) + var (Y ). En general, Y puede depender fuertemente de X sin
ser igual a ella.
Para probar esta propiedad, recordar prime-
ro que si X e Y son independientes, entonces Por ejemplo, la forma más fuerte de dependencia es
E (XY ) = E (X) E (Y ). Entonces, usando que cuando Y es una función de X, es decir, cuando existe
E (X + Y ) = E (X) + E (Y ) siempre, tenemos una función g : R → R tal que Y = g(X).
  Una forma de medir cuán cerca está Y de ser una
var (X + Y ) = E (X + Y − E (X + Y ))2
  función de X es entonces minimizar la varianza
= E (X − E (X) + Y − E (Y ))2 . var (Y − g(X)) entre todas las funciones posibles g.
Desarrollando el cuadrado, tenemos que el lado Naturalmente, si Y = g(X) para alguna g, entonces el
derecho de la última ecuación es igual a mínimo es cero. Por otro lado, si Y es independiente
    de X, entonces
E (X − E (X))2 + E (Y − E (Y ))2
var (Y − g(X)) = var (Y ) + var (g(X)) ≥ var (Y ) ,
+ 2E ((X − E (X))(Y − E (Y ))) .
por lo que el mínimo es la var (Y ).
Pero este es a su vez igual a
Consideremos entonces el problema de encontrar
var (X) + var (Y ) + 2E ((X − E (X))(Y − E (Y ))) .
mın {var (Y − g(X))}
Luego, basta probar que g
ρ= .
var (Y )
E ((X − E (X))(Y − E (Y ))) = 0.
Hemos dividido entre la varianza de Y para que
Esto se deduce de
ρ ∈ [0, 1].
E ((X − E (X))(Y − E (Y )))
Esto lo probaremos en breve. Notar que cuanto más
= E (XY ) − E (X) E (Y ) = 0,
cerca esté ρ de cero, más cerca está Y de ser una fun-
pues X e Y son independientes. ción de X; y recíprocamente, cuanto más cerca esté ρ
de 1, más lejos está Y de ser una función de X.
Veamos como ejemplo de aplicación de esta última
propiedad el cálculo de la varianza de una variable El problema de calcular ρ lo veremos más adelante
binomial. Si X tiene distribución binomial de paráme- en toda su generalidad. Por ahora, empecemos por
tros n y p, sabemos que X tiene la misma distribución calcular el mínimo entre aquellas funciones que son
que X1 + · · · + X n , en donde cada X i es una variable lineales.
Bernoulli de parámetro p, y además las X i0 s son mu- Nos restringiremos entonces a funciones g(x) = ax, y
tuamente independientes. buscamos1
Entonces mın {var (Y − aX)}
a ∈R
ρL = .
var (X) = var (X1 + · · · + X n ) var (Y )
= var (X1 ) + · · · + var (X n ) De la definición de varianza, tenemos que
= p(1 − p) + · · · + p(1 − p) = np(1 − p)  
var (Y − aX) = E (Y − aX − E (Y − aX))2
como habíamos obtenido anteriormente a partir de  
= E (Y − E (Y ) − a(X − E (X)))2 .
la definición. Notar que este cálculo es mucho más
simple que usar la definición. 1 La L indica que nos restringimos al caso lineal.

7
Desarrollando el cuadrado obtenemos que la varianza Covarianza e independencia
de Y − aX es igual a
Si X e Y son independientes, entonces cov (X, Y ) = 0.
a2 var (X) − 2aE ((Y − E (Y ))(X − E (X))) + var (Y ) . Eso es debido a que en este caso E (XY ) = E (X) E (Y ).
El recíproco no es cierto en general, como lo muestra
Este es un polinomio cuadrático en a, por lo que de- el siguiente ejemplo.
rivando e igualando a cero, vemos que el mínimo se
da en Sea X una variable que vale 1 y −1 con probabilidad
E ((Y − E (Y ))(X − E (X))) 1/2. Sea Y una variable que vale 0 si X = −1, y que
a0 = .
var (X) vale 1 y −1 con probabilidad 1/2 si X = 1.
El numerador de esta última expresión es tan impor- Notar que la distribución conjunta de X e Y está dada
tante que tiene nombre propio, se llama la covarianza por la tabla de contingencia siguiente:
de X e Y y se escribe cov (X, Y ). Un cálculo sencillo,
X
y similar a los que ya hemos hecho, muestra que po-
−1 1 pY
demos escribir la covarianza como
−1 0 1/4 1/4
cov (X, Y ) = E (XY ) − E (X) E (Y ) . Y 0 1/2 0 1/2
1 0 1/4 1/4
Para aliviar un poco la notación, denotemos por pX 1/2 1/2 1
De aquí se muestra fácilmente que E (X) = E (Y ) = 0.
σ 2X = var (X) , σY2 = var (Y ) , σ XY = cov (X, Y ) . Más aún
Reemplazando el valor de a0 en la ecuación para ρ L E (XY ) = 0 · 1/2 + 1 · 1/4 − 1 · 1/4 = 0.
vemos entonces que Así que cov (X, Y ) = 0. Pero X e Y no son indepen-
!2 dientes: esto se ve facilmente de la tabla, ya que la
σ XY conjunta no es el producto de las marginales.
ρL = 1 −
σ X σY

El número que aparece elevado al cuadrado se conoce Covarianza entre variables Bernoulli
con el nombre de coeficiente de correlación lineal entre
X e Y , y se denota por r XY . Así que Sean X e Y dos variables Bernoulli. Calculemos la co-
varianza entre ellas. Notar que el producto XY tam-
σ XY bién es una variable Bernoulli, con probabilidad de
ρ L = 1 − r 2XY con r XY = .
σ X σY éxito igual a P (X = 1, Y = 1). Entonces

Resumimos en el siguiente cuadro las ecuaciones más cov (X, Y ) = P (X = 1, Y = 1) − P (X = 1) P (Y = 1) .


importantes hasta ahora. Notar que en este caso sí es cierto que covarianza cero
implica independencia.
Sean X e Y dos variables discretas. La cova-
rianza entre X e Y es por definición Sean X e Y dos variables Bernoulli. Entonces
σ XY = cov (X, Y ) = E (XY ) − E (X) E (Y ) . X e Y son independientes ⇔ cov (X, Y ) = 0.
El coeficiente ρ L está dado por
Más aún, la covarianza es positiva si
ρL = 1 − r 2XY
P (Y = 1|X = 1) > P (Y = 1)
en donde y negativa si
σ XY
r XY =
σ X σY P (Y = 1|X = 1) < P (Y = 1) .
es el coeficiente de correlación lineal. Esto es, si la covarianza es positiva, entonces X = 1
aumenta las chances de que Y = 1, y recíprocamente
Veamos algunos ejemplos concretos. si es negativa.

8
Cumpleaños Esto sugiere que la covarianza tiene las propiedades
de un producto interno. Claramente la covarianza es
Consideremos un grupo de n personas. Para cada par simétrica
{i, j}, sea cov (X, Y ) = cov (Y, X) .
Además, si cov (X, X) = 0 entonces var (X) = 0, y esto
1
 si i y j cumplen el mismo día; implica que X es una constante. Como las variables
Xi j = 
0
 si no. aleatorias que son constantes no son muy interesantes,
la trataremos como variables triviales. Así
Estas son variables Bernoulli con p = 1/365.
cov (X, X) = 0 ⇔ X es trivial.
Calculemos la covarianza entre X i j y X k l . Notar que el
Y por último, la covarianza es bi-lineal. Es decir, si X,
producto X i j X k l es una variable Bernoulli, en donde
Y y Z son tres variables discretas y a es una constante,
la probabilidad de éxito es
entonces
q = P X i j = 1, X k l = 1 = 1/3652 = p2 .

cov (aX + Y, Z) = acov (X, Z) + cov (Y, Z) .

Entonces cov X i j , X k l = q − p2 = 0. La prueba es directa: notar primero que




En particular, las variables X i j son independientes dos a E (aX + Y ) = aE (X) + E (Y ) .


dos. Pero no son globalmente independientes, ya que Luego, desarrollando el producto
X i j = 1 y X j k = 1 implica que X ik = 1.
aX + Y − (aE (X) + E (Y )) Z − E (Z)
 

= a(X − E (X))(Z − E (Z) + (Y − E (Y ))(Z − E (Z)


 
Correlación 1 o −1
Tomando esperanza se prueba la propiedad.
Mencionamos una importante propiedad del coefi-
ciente de correlación lineal. Si el coeficiente de corre-
lación es igual a 1, o igual a −1, entonces el coeficiente
9. Varianza de la suma
ρ L = 0. Esto quiere decir que existe a que minimiza
la varianza var (Y − aX), y que este mínimo es igual a Una consecuencia de la propiedad de bilinealidad de
cero. la covarianza es una fórmula para calcular la varianza
de una suma en general.
Pero var (Y − aX) = 0 implica que Y −aX es constante.
Es decir, existe una constante b tal que Y = aX + b. El Observar que la varianza se relaciona con la covarian-
signo de a depende del signo de r XY . za mediante var (X) = cov (X, X).
Sean X e Y dos variables discretas. Entonces
Si r XY = 1 ⇒ Y = aX + b con a > 0.
Si r XY = −1 ⇒ Y = aX + b con a < 0. var (X + Y ) = var (X) + var (Y ) + 2cov (X, Y ) .
De hecho, de la observación anterior tenemos que
var (X + Y ) = cov (X + Y, X + Y )
8. Propiedades de la covarianza = cov (X, X) + cov (Y, Y ) + 2cov (X, Y )
= var (X) + var (Y ) + 2cov (X, Y ) .
Observemos primero una desigualdad notable que se La misma cuenta vale en general.
deduce de lo que hemos hecho hasta ahora. Clara-
mente, el coeficiente ρ L es mayor o igual a cero por Sean X1, . . . , X n variables discretas. Entonces
definición. Esto implica que |r XY | ≤ 1, que en térmi-
n n
nos de covarianza, se puede reescribir como X X X
Xi = var (X i ) + 2 cov X i , X j .

var * +
p p , i=1 - i=1 i< j
|cov (X, Y )| ≤ var (X) var (Y ) ≤ 1.

Esta es la famosa Desigualdad de Cauchy-Schwarz. Veamos algunas aplicaciones de esta fórmula.

9
El problema de los sobres Varianza de una hipergeométrica

Supongamos que tenemos n sobres numerados y n pa- Sea X una variable hipergeométrica de parámetros
peles también numerados. Ponemos cada papel aden- N, K y n. ¿Cuál es la varianza de X?
tro de un sobre aleatoriamente.
Recordar que podemos escribir X como una suma de
Sea X el número de papeles que se guardan en el sobre variables Bernoulli
correcto (con el mismo número). ¿Cuál es la varianza n
X
de X? X= Xi
i=1
Podemos recurrir al método de descomponer X como
suma de Bernoulli. Para cada i, sea en donde
 1 si i es rosada

 1 si la carta i está en el sobre i;
 Xi = 
Xi = 
 0 si no.
 0 si no.

 El parámetro p de X i es igual a K/N. Entonces
Entonces X = X1 + · · · + X n .
K(N − K)
Calculemos las covarianzas de las X i . Para empezar, var (X i ) = .
N2
X i es una variable Bernoulli con probabilidad de éxito
El producto X i X j para i < j es una variable Bernoulli
1
p = P (iestá en el sobre correcto) = . de parámetro igual a
n
En particular la esperanza E (X i ) = 1/n, de donde  K(K − 1)
P i y j son rosadas = .
n N(N − 1)
X 1
E (X) = E (X i ) = n · = 1. Entonces
i=1
n
 K(K − 1) K 2
Además la varianza cov X i , X j = −
! N(N − 1) N 2
1 1 n−1
var (X i ) = 1− = 2 . K K−N
n n n =
N N(N − 1)
Para i < j, tenemos que X i X j es una variable Bernoulli K(N − K)
con probabilidad de éxito igual a =− 2 .
N (N − 1)
1
q = P (i, j están en el sobre correcto) = . Luego
n(n − 1)
nK(N − K) K(N − K)
Luego var (X) = 2
− n(n − 1) 2
N N (N − 1)
1 1 1
cov X i , X j = − 2 = 2 .
 !
nK(N − K) n−1
n(n − 1) n n (n − 1) = 1−
N2 N −1
Entonces, aplicando la fórmula de la varianza de la
suma El cálculo directo es mucho más engorroso, por no
X n decir casi imposible. Notar que cuando N es grande,
var (X) = var * Xi + la varianza de X se aproxima a la varianza de una
, i=1 - binomial de parámetros n y p = K/N.
Xn X
= var (X i ) + 2 cov X i , X j

i< j
i=1
n
10. Interpretación de la covarianza
X n−1 X 1
= + 2
i=1
n2 i< j
n 2 (n − 1)
Veremos un caso muy sencillo en el cual podremos
n−1 n(n − 1) 1 dar una interpretación visual de la covarianza entre
= +2 2 dos variables.
n 2 n (n − 1)
n−1 1 Sean X e Y dos variables discretas con distribución
= + =1
n n uniforme en {x 1, . . . , x n } e {y1, . . . , yn } respectiva-
Notar que en este caso E (X) = var (X) = 1. mente. Claramente esta información no es suficiente

10
para determinar su covarianza, pues no sabemos cuál del rectángulo según sea grande o chico el producto
es la distribución conjunta. Veremos tres casos distin- pi j pk l .
tos, pero antes haremos unos cálculos generales.
Cuando sumamos en todos los rectángulos, obtene-
Los valores posibles del par (X, Y ) son obviamente los mos la cantidad total de rojo menos la de azul, te-
pares (x i , y j ). Para cada par de pares (x i , y j ) y (x k , yl ) niendo en cuenta que cuando un rectángulo rojo se
podemos construir un rectángulo que los tenga co- solapa con uno azul, la intersección queda con el co-
mo vértices. Dos situaciones se pueden dar, como se lor correspondiente a la resta de las intensidades. Por
muestra en la Figura 7. ejemplo, si un rectángulo es azul y el otro rojo, am-
bos con la misma intensidad, la intersección se anula
(x k , yl ) y queda en blanco.
Pero observar que
+
X
(x i − x k )(y j − yl )pi j pk l
rectángulos
(x i , y j ) 1 XX
(x i , y j ) = (x i − x k )(y j − yl )pi j pk l
2 i, j k,l
1 XX
− = (x i y j − x i yl − x k y j + x k yl )pi j pk l
2 i, j k,l

(x k , yl )
El primer y último término suman lo mismo, y lo mis-
mo vale para el segundo y el tercero. Entonces, la su-
ma es igual a
XX XX
x i y j pi j pk l − x i yl pi j pk l .
i, j k,l i, j k,l

Notar que la primer suma es igual a


X
Figura 7 Las dos posibilidades para los rectángulos. x i y j pi j = E (XY ) ,
En el primer caso lo pintamos de rojo para indicar la i, j
asociación positiva, y en el segundo de azul para in-
ya que k,l pk l = 1. Del mismo modo se puede ver
P
dicar la asociación negativa. Cuando dos rectángulos
opuestos y de la misma intensidad se solapan, la in- que la segunda suma es igual a E (X) E (Y ). Es decir,
tersección se representa en blanco como color neutro. hemos probado que

Lo que haremos es construir un rectángulo para cada cov (X, Y ) = (cantidad de rojo) − (cantidad de azul).
par de pares posible. ¿Qué representa cada rectángu-
Veamos unos ejemplos sencillos. En la Figura 8 se
lo?
muestra la distribución conjunta de X e Y en tres casos
La cantidad de color de un rectángulo es el área del distintos. En cada caso son n = 10 puntos en total, to-
mismo. De modo que (x i − x k ) × (y j − yl ) representa dos igualmente probables para que la elección de los
la cantidad de color, siendo rojo cuando es positivo y colores sea simple. Es decir, todos los rectángulos tie-
azul cuando es negativo. Sin embargo, debemos tener nen la misma intensidad de color. La única diferencia
en cuenta la probabilidad con que (X, Y ) es igual a es la disposición de los puntos.
cada uno de éstos. Así que multiplicamos
En la gráfica de arriba se muestra una distribución
(x i − x k )(y j − yl )pi j pk l conjunta con covarianza positiva. Esto se ve fácilmen-
te por la cantidad de rojo sobre el azul. En la del cen-
en donde hemos denotado pi j = P X = x i , Y = y j .

tro, se muestra una distribución con covarianza casi
Esto equivale a hacer más clarito o más fuerte el color nula. Aquí también se puede apreciar casi la misma

11
11. Pitágoras y la varianza

El hecho de que var (X) = cov (X, X), y que la cova-


rianza sea un producto interno, implican que la raíz
de la varianza
σ X = var (X)
p

es una norma que en cierto modo mide la longitud de


X. Si pensamos a las variables como vectores en un
espacio vectorial (de dimensión infinita), entonces su
norma está dada por σ X .
Notar que como toda norma, σ X verifica la desigual-
dad triangular:

σ X +Y ≤ σ X + σY ,

que se puede probar facilmente a partir de la desigual-


dad de Cauchy-Schwarz.
El coeficiente de correlación r XY se puede identificar
entonces con el coseno del ángulo entre dos variables:

r XY = cos(α)

en donde α es el ángulo entre X e Y .


De esta forma, la covarianza nula no es otra cosa que
decir que las variables X e Y son ortogonales. Esta ter-
minología es muy usada. En particular, si X e Y son
independientes, entonces son ortogonales.
Podemos interpretar la varianza de la suma de varia-
bles ortogonales como un caso particular del Teorema
de Pitágoras.

Sean X e Y dos variables ortogonales, esto es


con cov (X, Y ) = 0. Entonces

σ 2X +Y = σ 2X + σY2 .

Es decir, la hipotenusa al cuadrado es igual a


Figura 8 Arriba: covarianza positiva. Centro: cova- la suma de los cuadrados de los catetos.
rianza nula. Abajo: covarianza negativa.
Recordando la analogía entre la raíz de la varianza y
la longitud de vectores esta fórmula es muy fácil de
retener en la memoria.
cantidad de rojo que de azul. Y por último, en la de
abajo, se muestra una con covarianza negativa.

Es decir, el signo de la covarianza nos indica la


tendencia de X a crecer o a decrecer cuando Y
crece.

12

Вам также может понравиться