Академический Документы
Профессиональный Документы
Культура Документы
Matías Carrasco
10 de abril de 2018
1. Introducción 1 kg
1
2/3 kg 1/3 kg Fácil de girar
Difícil de girar
Figura 2 Dos bloques, uno de 1/3 kg y el otro de 2/3
kg, se mantienen en equilibrio colocando el pie a una
distancia 1/3 del bloque más pesado.
q kg p kg
p
0 1 Figura 4 Cuanto más dispersión, más difícil es girar en
torno al eje que pasa por el centro de masa el conjunto
Figura 3 Dos bloques, uno de p kg y el otro de q kg,
de bloques.
se mantienen en equilibrio colocando el pie a una dis-
tancia p del origen.
que pesa pi kg en la posición x i . Notar que el peso
total de los bloques es 1 kg pues las probabilidades
configuración equivalente, pues no hemos cambiado
suman 1. Entonces:
los centros de masa.
Como la nueva configuración de bloques es simétrica, El valor esperado E (X) indica en dónde debe
es claro que el pie de apoyo debe ir en el centro, lo colocarse el pie de apoyo para que el conjunto
cual implica que la configuración original estaba en de bloques se mantenga en equilibrio.
equilibrio.
El mismo argumento se puede hacer para cualquier Dicho de otro modo, el valor esperado es el centro de
par de bloques cuyos pesos seas racionales. Luego, masa de la distribución.
usando un pasaje al límite se puede extender el resul-
tado al caso de pesos irracionales.
La conclusión es que si colocamos dos bloques que
3. Inercia y dispersión
pesan p y q kilogramos, con el bloque que pesa p en
la posición 1 y el bloque que pesa q en la posición 0, Imaginemos una distribución de bloques cualquiera,
entonces el pie de apoyo debe colocarse en la posición en la cual hemos ubicado el centro de masa, y supon-
p. Ver la Figura 3. gamos que deseamos girar el tablón respecto del eje
vertical que pasa por el centro masa. ¿Cuándo es más
Notar que los bloques de la Figura 3 representan la
difícil girarlo?
distribución de una variable Bernoulli de parámetro
p. Como la esperanza de una tal variable es igual a Intuitivamente es claro que si los bloques están muy
p, hemos probado que la posición del pie de apoyo concentrados sobre su centro de masa, entonces el gi-
coincide con el valor esperado. Esto es completamen- rarlos resulta sencillo, y éste se hace cada vez más
te general. difícil a medida que dispersamos los bloques, ver la
Figura 4. Esto es muy interesante, podemos medir la
Podemos representar la distribución de cualquier va-
dispersión de un conjunto de bloques alrededor de su
riable discreta X usando bloques y un tablón. Primero,
centro de masa por la dificultad de girarlos.
marcamos un origen cualquiera en el tablón desde el
cual medir distancias. Si X toma los valores x 1, x 2, . . . En física existe una cantidad que mide justamente la
con probabilidades p1, p2, . . ., colocamos un bloque dificultad que un objeto tiene a ser girado en torno a
2
un eje. Se llama el momento de inercia, y es como la ma-
1/4
sa para movimientos rotatorios. Sin entrar en detalles
sobre la definición, recordar que el momento de una
var (X)
partícula de masa m y velocidad v es p = mv. El mo-
mento angular es la fórmula análoga para movimien-
tos alrededor de un eje: si la partícula gira entorno a
un eje a distancia r, entonces
p
0 1/2 1
L = p · r = (mv) · r = (mr ) · ω = Iω,
2
Sea X una variable discreta con recorrido var (X) = (0 − p)2 · (1 − p) + (1 − p)2 · p
f g
= (1 − p) p2 + (1 − p)p = p(1 − p).
{x 1, x 2, . . .},
3
de probabilidad puntual de X está dada por variable, por lo tanto igual a 1. En síntesis, la suma
! anterior es igual a (n − 1)p + 1.
n k
P (X = k) = p (1 − p)n−k , Juntando todo, obtenemos
k
var (X) = np · [(n − 1)p + 1] − (np)2
para k = 0, 1, . . . , n.
= (np)2 − np2 + np − (np)2
Ya sabemos que la esperanza de X es E (X) = np.
= np(1 − p).
Luego, por definición tenemos
Finalmente, hemos probado que la varianza de X es
n !
X n k igual a np(1 − p).
var (X) = (k − np)2 p (1 − p)n−k
k=0
k
n ! Si X ∼ Bin(n, p), entonces var (X) = np(1 − p).
X n k
= (k + (np) − 2knp)
2 2
p (1 − p)n−k
k=0
k
El segundo término es igual a (np)2 pues las probabi- Varianza de una geométrica
lidades de la binomial suman 1. Analicemos entonces
el tercer término: Sea X con distribución geométrica de parámetro p.
n ! n ! Calculemos la varianza de X. Recordar que la espe-
X n k X n k ranza de X es igual a 1/p. Entonces, de la definición
2knp p (1 − p) n−k
= 2np k p (1 − p)n−k
k=0
k k=0
k tenemos
∞ !2
= 2npE (X) = 2(np)2 . X 1
var (X) = k− p(1 − p)k−1
k=1
p
Nos falta solo el primer término. Usando la definidi-
∞ !
cón de combinaciones, tenemos X 1 2k
= k + 2−
2
p(1 − p)k−1
k=1
p p
n ! n
X n k X n!
k 2
p (1 − p)n−k = k2 pk (1 − p)n−k ∞
X
k=0
k k=0
k!(n − k)! =p k 2 (1 − p)k−1
n k=1
X (n − 1)!
= np k pk−1 (1 − p)n−k 1 X∞ ∞
X
k=1
(k − 1)!(n − k)! + (1 − p) k−1
−2 k(1 − p)k−1
p k=1 k=1
n !
X n − 1 k−1
= np k p (1 − p)n−k ∞
X 1 2
k=1
k − 1 =p k 2 (1 − p)k−1 + 2
− 2
k=1
p p
Esta suma se puede separar en dos de la siguiente ∞
X 1
manera: =p k 2 (1 − p)k−1 − .
k=1
p2
n !
X n − 1 k−1 Falta evaluar la primer suma. Notar que esta se puede
(k − 1) p (1 − p)n−k
k=1
k − 1 descomponer en dos sumas de la siguiente manera
n !
X n − 1 k−1 ∞ ∞ ∞
+ p (1 − p)n−k
X X X
k − 1
2
k (1− p) k−1
= 2
(k − k)(1− p) k−1
+ k(1− p)k−1 .
k=1
k=1 k=1 k=1
4
Juntando todo, nos queda Distribución de X
p2
2 1 1 1 1 1−p p5
var (X) = (1 − p) + − = − = .
p2 p p2 p2 p p2 p1 p3 p4 p7
p6
Hemos probado entonces que la varianza de una va-
riable geométrica es (1 − p)/p2 . x1 x2 x3 x4 x5 x6 x7
p3 + p4 + p6
p2
5. Valor esperado de una función de p5
p1 p7
una variable aleatoria
De los ejemplos anteriores vemos que es generalmen- g(x 1 ) g(x 2 ) g(x 3 ) = g(x 4 ) = g(x 6 ) g(x 7 ) g(x 5 )
te difícil calcular la varianza de una variable. En esta
Distribución de g(X)
sección vamos a ver una fórmula para el valor espera-
do de una función de una variable aleatoria. Esta nos
Figura 6 La distribución de g(X) corresponde a cam-
servirá para probar algunas propiedades de la varian-
biar de lugar los bloques, a veces poniendo varios blo-
za que simplifican su cálculo.
ques en el mismo lugar. La función g nos indica en
El problema general que abordaremos ahora es el dónde colocarlos.
siguiente: sean X una variable aleatoria discreta y
g : R → R una función, ¿cuál es el valor esperado
Notar que la esperanza de X es igual a 0. Sin embargo,
de la variable aleatoria g(X)?
la esperanza de X 2 es
Si pensamos en el tablón con bloques, ¿cómo se inter-
n n
preta la variable g(X)? Es bien fácil, es como cambiar X 2 X 2
E X2 = k 2 p X 2 (k 2 ) = k
de lugar los bloques, a veces incluso poniendo un blo-
k=0
2n + 1 k=0
que arriba de otro, ver la Figura 6. 2 n(n + 1)(2n + 1) n(n + 1)
= · = .
Por ejemplo, sea g la función g(x) = x 2 .Consideremos 2n + 1 6 3
una variable X con distribución uniforme en los ente-
Notar que, en particular, E X 2 , E (X)2 .
ros {−n, . . . , n}. ¿Cuál es la distribución de g(X)?
Los valores posibles que puede tomar g(X), su reco- Si miramos con detalle la cuenta anterior, vemos que
rrido, son los cuadrados hemos probado que
n
R X 2 = {0, 1, 4, . . . , n2 }.
X
E X2 = k 2 p X (k).
k=−n
¿Y con qué probabilidad los toma? esto es ¿cuál es la
función de probabilidad puntual de X 2 ? La variable Esta forma de calcular la esperanza de X 2 es muy útil
toma el valor k 2 cuando X toma uno de los valores pues no precisamos calcular la distribución de X 2 . Es-
−k y k. Como X toma cada uno de sus valores con ta es la fórmula general que probaremos en seguida.
probabilidad 1/(2n + 1), vemos que
Proposición. Sea X una variable aleatoria dis-
p X 2 (k 2 ) = P X 2 = k 2 creta y g : R → R una función. Entonces
= P (X = −k) + P (X = k) X
2 E (g(X)) = g(x)p X (x).
= p X (−k) + p X (k) = . x ∈R X
2n + 1
5
Demostración. Los valores posibles que puede tomar 6. Propiedades de la varianza
g(X) son
Rg(X ) = {g(x) : x ∈ R X }. Usando la fórmula del valor esperado de una función
de una variable aleatoria podemos escribir de forma
La sutileza es que éstos valores se pueden repetir,
más compacta la definición de varianza. De hecho,
cosa que sucede cuando existen x , x 0 en R X con
notar que si tomamos la función g(x) = (x − E (X))2 ,
g(x) = g(x 0). Si denotamos por y = g(x), entonces la
entonces
probabilidad de que g(X) sea igual a y es
X
X E (g(X)) = (x − E (X))2 P (X = x) = var (X) .
P (g(X) = y) = P (X = x) . x ∈R X
x:g(x)=y
Es decir, var (X) = E (X − E (X))2 . Por ejemplo, si
De la definición de valor esperado, tenemos X es una variable centrada, lo cual quiere decir que
X E (X) = 0, entonces var (X) = E X 2 .
E (g(X)) = yP (g(X) = y)
y ∈R g(X ) Veamos entonces, algunas propiedades de la varianza
X X que nos permitan simplificar su cálculo.
= y P (X = x)
y ∈R g(X ) x:g(x)=y La varianza no cambia si sumamos una cons-
X X
= yP (X = x) tante: sean X una variable discreta y c una cons-
y ∈R g(X ) x:g(x)=y tante cualquiera. Entonces var (X + c) = var (X).
X X
= g(x)P (X = x) La prueba es muy simple: notar que E (X + c) =
y ∈R g(X ) x:g(x)=y E (X) + c por la linealidad de la esperanza. En-
X tonces
= g(x)P (X = x) ,
x ∈R X
var (X + c) = E (X + c − E (X + c))2
que es lo que queríamos demostrar.
= E (X + c − E (X) − c)2
= E (X − E (X))2 = var (X) .
Esta fórmula se puede generalizar a funciones de dos
variables aleatorias X e Y . La prueba es muy similar
a la anterior, trabajando con la distribución conjunta La varianza es cuadrática: sean X una variable
del par (X, Y ) del mismo modo que cuando probamos discreta y c una constante cualquiera. Entonces
la linealidad del valor esperado. var (cX) = c2 var (X).
La prueba también es muy fácil: notar primero
Sean X e Y dos variables discretas, y que E (cX) = cE (X), de donde
g : R2 → R
var (cX) = E (cX − E (cX))2
una función de dos variables. Entonces = E (cX − cE (X))2
= E c2 (X − E (X))2
X X
E (g(X, Y )) = g(x, y)p XY (x, y).
x ∈R X y ∈RY = c2 E (X − E (X))2 = c2 var (X) .
Por ejemplo, si g(x, y) = x + y se obtiene una fórmula Una fórmula útil para la varianza: La varianza
para la esperanza de la suma, la cual ya habíamos de una variable X se puede calcular mediante la
deducido antes. Del mismo modo, si g(x, y) = xy se siguiente igualdad
obtiene
X X var (X) = E X 2 − E (X)2 .
E (XY ) = x yP (X = x, Y = y)
x ∈R X y ∈RY Para probarla, basta desarrollar el cuadrado
6
de donde al tomar esperanza 7. Covarianza y correlación
var (X) = E X 2 + E (X)2 − 2E (X)2
¿Cómo hacemos para medir la dependencia entre dos
= E X 2 − E (X)2 , variables? En esta sección veremos una primera apro-
que es lo que queríamos probar. ximación a este problema.
La varianza de la suma de variables indepen- Sean X e Y dos variables discretas. Comencemos por
dientes es igual a la suma de las varianzas: notar lo siguiente: si la varianza var (X − Y ) es peque-
sean X e Y dos variables discretas independien- ña, entonces intuitivamente Y es muy parecida a X.
tes. Entonces var (X + Y ) = var (X) + var (Y ). En general, Y puede depender fuertemente de X sin
ser igual a ella.
Para probar esta propiedad, recordar prime-
ro que si X e Y son independientes, entonces Por ejemplo, la forma más fuerte de dependencia es
E (XY ) = E (X) E (Y ). Entonces, usando que cuando Y es una función de X, es decir, cuando existe
E (X + Y ) = E (X) + E (Y ) siempre, tenemos una función g : R → R tal que Y = g(X).
Una forma de medir cuán cerca está Y de ser una
var (X + Y ) = E (X + Y − E (X + Y ))2
función de X es entonces minimizar la varianza
= E (X − E (X) + Y − E (Y ))2 . var (Y − g(X)) entre todas las funciones posibles g.
Desarrollando el cuadrado, tenemos que el lado Naturalmente, si Y = g(X) para alguna g, entonces el
derecho de la última ecuación es igual a mínimo es cero. Por otro lado, si Y es independiente
de X, entonces
E (X − E (X))2 + E (Y − E (Y ))2
var (Y − g(X)) = var (Y ) + var (g(X)) ≥ var (Y ) ,
+ 2E ((X − E (X))(Y − E (Y ))) .
por lo que el mínimo es la var (Y ).
Pero este es a su vez igual a
Consideremos entonces el problema de encontrar
var (X) + var (Y ) + 2E ((X − E (X))(Y − E (Y ))) .
mın {var (Y − g(X))}
Luego, basta probar que g
ρ= .
var (Y )
E ((X − E (X))(Y − E (Y ))) = 0.
Hemos dividido entre la varianza de Y para que
Esto se deduce de
ρ ∈ [0, 1].
E ((X − E (X))(Y − E (Y )))
Esto lo probaremos en breve. Notar que cuanto más
= E (XY ) − E (X) E (Y ) = 0,
cerca esté ρ de cero, más cerca está Y de ser una fun-
pues X e Y son independientes. ción de X; y recíprocamente, cuanto más cerca esté ρ
de 1, más lejos está Y de ser una función de X.
Veamos como ejemplo de aplicación de esta última
propiedad el cálculo de la varianza de una variable El problema de calcular ρ lo veremos más adelante
binomial. Si X tiene distribución binomial de paráme- en toda su generalidad. Por ahora, empecemos por
tros n y p, sabemos que X tiene la misma distribución calcular el mínimo entre aquellas funciones que son
que X1 + · · · + X n , en donde cada X i es una variable lineales.
Bernoulli de parámetro p, y además las X i0 s son mu- Nos restringiremos entonces a funciones g(x) = ax, y
tuamente independientes. buscamos1
Entonces mın {var (Y − aX)}
a ∈R
ρL = .
var (X) = var (X1 + · · · + X n ) var (Y )
= var (X1 ) + · · · + var (X n ) De la definición de varianza, tenemos que
= p(1 − p) + · · · + p(1 − p) = np(1 − p)
var (Y − aX) = E (Y − aX − E (Y − aX))2
como habíamos obtenido anteriormente a partir de
= E (Y − E (Y ) − a(X − E (X)))2 .
la definición. Notar que este cálculo es mucho más
simple que usar la definición. 1 La L indica que nos restringimos al caso lineal.
7
Desarrollando el cuadrado obtenemos que la varianza Covarianza e independencia
de Y − aX es igual a
Si X e Y son independientes, entonces cov (X, Y ) = 0.
a2 var (X) − 2aE ((Y − E (Y ))(X − E (X))) + var (Y ) . Eso es debido a que en este caso E (XY ) = E (X) E (Y ).
El recíproco no es cierto en general, como lo muestra
Este es un polinomio cuadrático en a, por lo que de- el siguiente ejemplo.
rivando e igualando a cero, vemos que el mínimo se
da en Sea X una variable que vale 1 y −1 con probabilidad
E ((Y − E (Y ))(X − E (X))) 1/2. Sea Y una variable que vale 0 si X = −1, y que
a0 = .
var (X) vale 1 y −1 con probabilidad 1/2 si X = 1.
El numerador de esta última expresión es tan impor- Notar que la distribución conjunta de X e Y está dada
tante que tiene nombre propio, se llama la covarianza por la tabla de contingencia siguiente:
de X e Y y se escribe cov (X, Y ). Un cálculo sencillo,
X
y similar a los que ya hemos hecho, muestra que po-
−1 1 pY
demos escribir la covarianza como
−1 0 1/4 1/4
cov (X, Y ) = E (XY ) − E (X) E (Y ) . Y 0 1/2 0 1/2
1 0 1/4 1/4
Para aliviar un poco la notación, denotemos por pX 1/2 1/2 1
De aquí se muestra fácilmente que E (X) = E (Y ) = 0.
σ 2X = var (X) , σY2 = var (Y ) , σ XY = cov (X, Y ) . Más aún
Reemplazando el valor de a0 en la ecuación para ρ L E (XY ) = 0 · 1/2 + 1 · 1/4 − 1 · 1/4 = 0.
vemos entonces que Así que cov (X, Y ) = 0. Pero X e Y no son indepen-
!2 dientes: esto se ve facilmente de la tabla, ya que la
σ XY conjunta no es el producto de las marginales.
ρL = 1 −
σ X σY
El número que aparece elevado al cuadrado se conoce Covarianza entre variables Bernoulli
con el nombre de coeficiente de correlación lineal entre
X e Y , y se denota por r XY . Así que Sean X e Y dos variables Bernoulli. Calculemos la co-
varianza entre ellas. Notar que el producto XY tam-
σ XY bién es una variable Bernoulli, con probabilidad de
ρ L = 1 − r 2XY con r XY = .
σ X σY éxito igual a P (X = 1, Y = 1). Entonces
8
Cumpleaños Esto sugiere que la covarianza tiene las propiedades
de un producto interno. Claramente la covarianza es
Consideremos un grupo de n personas. Para cada par simétrica
{i, j}, sea cov (X, Y ) = cov (Y, X) .
Además, si cov (X, X) = 0 entonces var (X) = 0, y esto
1
si i y j cumplen el mismo día; implica que X es una constante. Como las variables
Xi j =
0
si no. aleatorias que son constantes no son muy interesantes,
la trataremos como variables triviales. Así
Estas son variables Bernoulli con p = 1/365.
cov (X, X) = 0 ⇔ X es trivial.
Calculemos la covarianza entre X i j y X k l . Notar que el
Y por último, la covarianza es bi-lineal. Es decir, si X,
producto X i j X k l es una variable Bernoulli, en donde
Y y Z son tres variables discretas y a es una constante,
la probabilidad de éxito es
entonces
q = P X i j = 1, X k l = 1 = 1/3652 = p2 .
cov (aX + Y, Z) = acov (X, Z) + cov (Y, Z) .
9
El problema de los sobres Varianza de una hipergeométrica
Supongamos que tenemos n sobres numerados y n pa- Sea X una variable hipergeométrica de parámetros
peles también numerados. Ponemos cada papel aden- N, K y n. ¿Cuál es la varianza de X?
tro de un sobre aleatoriamente.
Recordar que podemos escribir X como una suma de
Sea X el número de papeles que se guardan en el sobre variables Bernoulli
correcto (con el mismo número). ¿Cuál es la varianza n
X
de X? X= Xi
i=1
Podemos recurrir al método de descomponer X como
suma de Bernoulli. Para cada i, sea en donde
1 si i es rosada
1 si la carta i está en el sobre i;
Xi =
Xi =
0 si no.
0 si no.
El parámetro p de X i es igual a K/N. Entonces
Entonces X = X1 + · · · + X n .
K(N − K)
Calculemos las covarianzas de las X i . Para empezar, var (X i ) = .
N2
X i es una variable Bernoulli con probabilidad de éxito
El producto X i X j para i < j es una variable Bernoulli
1
p = P (iestá en el sobre correcto) = . de parámetro igual a
n
En particular la esperanza E (X i ) = 1/n, de donde K(K − 1)
P i y j son rosadas = .
n N(N − 1)
X 1
E (X) = E (X i ) = n · = 1. Entonces
i=1
n
K(K − 1) K 2
Además la varianza cov X i , X j = −
! N(N − 1) N 2
1 1 n−1
var (X i ) = 1− = 2 . K K−N
n n n =
N N(N − 1)
Para i < j, tenemos que X i X j es una variable Bernoulli K(N − K)
con probabilidad de éxito igual a =− 2 .
N (N − 1)
1
q = P (i, j están en el sobre correcto) = . Luego
n(n − 1)
nK(N − K) K(N − K)
Luego var (X) = 2
− n(n − 1) 2
N N (N − 1)
1 1 1
cov X i , X j = − 2 = 2 .
!
nK(N − K) n−1
n(n − 1) n n (n − 1) = 1−
N2 N −1
Entonces, aplicando la fórmula de la varianza de la
suma El cálculo directo es mucho más engorroso, por no
X n decir casi imposible. Notar que cuando N es grande,
var (X) = var * Xi + la varianza de X se aproxima a la varianza de una
, i=1 - binomial de parámetros n y p = K/N.
Xn X
= var (X i ) + 2 cov X i , X j
i< j
i=1
n
10. Interpretación de la covarianza
X n−1 X 1
= + 2
i=1
n2 i< j
n 2 (n − 1)
Veremos un caso muy sencillo en el cual podremos
n−1 n(n − 1) 1 dar una interpretación visual de la covarianza entre
= +2 2 dos variables.
n 2 n (n − 1)
n−1 1 Sean X e Y dos variables discretas con distribución
= + =1
n n uniforme en {x 1, . . . , x n } e {y1, . . . , yn } respectiva-
Notar que en este caso E (X) = var (X) = 1. mente. Claramente esta información no es suficiente
10
para determinar su covarianza, pues no sabemos cuál del rectángulo según sea grande o chico el producto
es la distribución conjunta. Veremos tres casos distin- pi j pk l .
tos, pero antes haremos unos cálculos generales.
Cuando sumamos en todos los rectángulos, obtene-
Los valores posibles del par (X, Y ) son obviamente los mos la cantidad total de rojo menos la de azul, te-
pares (x i , y j ). Para cada par de pares (x i , y j ) y (x k , yl ) niendo en cuenta que cuando un rectángulo rojo se
podemos construir un rectángulo que los tenga co- solapa con uno azul, la intersección queda con el co-
mo vértices. Dos situaciones se pueden dar, como se lor correspondiente a la resta de las intensidades. Por
muestra en la Figura 7. ejemplo, si un rectángulo es azul y el otro rojo, am-
bos con la misma intensidad, la intersección se anula
(x k , yl ) y queda en blanco.
Pero observar que
+
X
(x i − x k )(y j − yl )pi j pk l
rectángulos
(x i , y j ) 1 XX
(x i , y j ) = (x i − x k )(y j − yl )pi j pk l
2 i, j k,l
1 XX
− = (x i y j − x i yl − x k y j + x k yl )pi j pk l
2 i, j k,l
(x k , yl )
El primer y último término suman lo mismo, y lo mis-
mo vale para el segundo y el tercero. Entonces, la su-
ma es igual a
XX XX
x i y j pi j pk l − x i yl pi j pk l .
i, j k,l i, j k,l
Lo que haremos es construir un rectángulo para cada cov (X, Y ) = (cantidad de rojo) − (cantidad de azul).
par de pares posible. ¿Qué representa cada rectángu-
Veamos unos ejemplos sencillos. En la Figura 8 se
lo?
muestra la distribución conjunta de X e Y en tres casos
La cantidad de color de un rectángulo es el área del distintos. En cada caso son n = 10 puntos en total, to-
mismo. De modo que (x i − x k ) × (y j − yl ) representa dos igualmente probables para que la elección de los
la cantidad de color, siendo rojo cuando es positivo y colores sea simple. Es decir, todos los rectángulos tie-
azul cuando es negativo. Sin embargo, debemos tener nen la misma intensidad de color. La única diferencia
en cuenta la probabilidad con que (X, Y ) es igual a es la disposición de los puntos.
cada uno de éstos. Así que multiplicamos
En la gráfica de arriba se muestra una distribución
(x i − x k )(y j − yl )pi j pk l conjunta con covarianza positiva. Esto se ve fácilmen-
te por la cantidad de rojo sobre el azul. En la del cen-
en donde hemos denotado pi j = P X = x i , Y = y j .
tro, se muestra una distribución con covarianza casi
Esto equivale a hacer más clarito o más fuerte el color nula. Aquí también se puede apreciar casi la misma
11
11. Pitágoras y la varianza
σ X +Y ≤ σ X + σY ,
r XY = cos(α)
σ 2X +Y = σ 2X + σY2 .
12