Вы находитесь на странице: 1из 7

LA COVARIANZA

Eusebio Gómez Sánchez-Manzano

consultaparaiso@eListas.net eusebio gomez@mat.ucm.es

Índice
1. La covarianza 2

2. Datos para dos ejemplos 2


2.1. Ejemplo 1: la covarianza entre C y G . . . . . . . . . . . . . . . . 3
2.2. Ejemplo 2: la covarianza entre C y T . . . . . . . . . . . . . . . . 4

3. Un concepto más: la recta de regresión 5


3.1. Ejemplo 1: la recta de regresión de G sobre C . . . . . . . . . . . 5
3.2. Ejemplo 2: la recta de regresión de T sobre C . . . . . . . . . . . 6
LA COVARIANZA

Eusebio Gómez Sánchez-Manzano


consultaparaiso@eListas.net
eusebio gomez@mat.ucm.es

Nos ha llegado una consulta, como miembro del grupo El Paraı́so de las
Matemáticas 1 , que pregunta “a qué se refiere el tema de la covarianza en la
Estadı́stica”. Ello nos ha dado pie para redactar este sencillo apunte-respuesta.

1. La covarianza
La covarianza entre dos variables es un número que tiene que ver con el
modo como varı́an conjuntamente las dos variables.
Una de las caracterı́sticas más claras de la covarianza es el significado que
tiene su signo: si la covarianza entre dos variables es positiva, esto indica que
cuando una de ellas aumenta la otra tiende también a aumentar; si la covarianza
entre dos variables es negativa, esto indica que cuando una de ellas aumenta la
otra tiende a disminuir.

2. Datos para dos ejemplos


Veamos dos ejemplos.
Supongamos que tenemos diez coches escogidos por ahı́ de nuestras calles.
A cada coche le hemos medido tres cosas, tres variables: su cilindrada C (el
volumen total de los cilindros de su motor) en centı́metros cúbicos, el gasto G
de gasolina, en litros por centena de kilómetros recorridos, y el tiempo T que
tarda en recorrer 100 kilómetros.
El primer coche nos ha dado una terna de números, que denotamos por
(c1 , g1 , t1 ) ; el segundo nos ha dado la terna (c2 , g2 , t2 ) ; y ası́ sucesivamente
hasta el décimo, que nos ha dado la terna (c10 , g10 , t10 ) .
1 http://www.matematicas.net

2
Los números obtenidos fueron éstos (no son números reales, sino inventados
adecuadamente para este ejemplo):

Coche C G T

1 1200 5 120
2 1500 6 100
3 1300 5 110
4 1700 6 60
5 1700 7 60
6 2000 9 40
7 1100 4 130
8 1400 6 90
9 1300 5 110
10 1800 8 50

2.1. Ejemplo 1: la covarianza entre C y G


Nos fijamos primero en el par de C y G.
Limitándonos a estas dos variables, cada coche nos da un par de números,
que se representa mediante un punto del plano; ası́, el primer coche nos da el
punto de coordenadas (1200, 5) ; el segundo coche nos da el punto de coordenadas
(1500, 6) ; y ası́ sucesivamente hasta el décimo, que nos da el punto (1800, 8) .
La representación de estos diez puntos es la siguiente.

10

g6

0
500 1000 c 1500 2000

Observando la nube de puntos se ve claramente que al aumentar la cilindra-


da tiende a aumentar el gasto de gasolina. Veamos cómo esto se refleja en la
covarianza; vamos decir cómo se calcula la covarianza entre C y G, a calcularla
y observaremos que sale positiva.
Las medias de las variables C y G son
P10
ci 1200 + 1500 + ... + 1800 15000
c̄ = i=1 = = = 1500;
10 10 10
P10
gi 5 + 6 + ... + 8 61
ḡ = i=1 = = = 6,1.
10 10 10

3
La covarianza entre las variables C y G es
P10
(ci − c̄) (gi − ḡ)
COV [C, G] = i=1 =
10
(1200 − 1500) (5 − 6,1) + ... + (1800 − 1500) (8 − 6,1)
= =
10
3600
= = 360.
10
Como habı́amos anticipado, la covarianza nos ha salido positiva.

2.2. Ejemplo 2: la covarianza entre C y T


Nos fijamos ahora en el par de variables C y T.
Pensando en estas dos variables, cada coche nos da un par de números, que,
al igual que sucedı́a en el caso anterior, se representa también mediante un
punto del plano: el primer coche nos da el punto de coordenadas (1200, 120) ; el
segundo coche nos da el punto de coordenadas (1500, 100) ; y ası́ sucesivamente
hasta el décimo, que nos da el punto (1800, 50) .
Representamos estos diez puntos:

140

120

100

80
t

60

40

20

0
500 1000 c 1500 2000

Observando la nube de puntos se ve claramente que al aumentar la cilin-


drada tiende a disminuir el tiempo que se tarda en recorrer 100 kilómetros.
Veamos cómo esto se refleja en la covarianza entre C y T ; vamos a calcularla y
observaremos que sale negativa.
La media de la variable T es
P10
ti 120 + 100 + ... + 50 870
t̄ = i=1 = = = 87.
10 10 10
La covarianza entre las variables C y T es
P10
(ci − c̄) (ti − t̄)
COV [C, T ] = i=1 =
10
(1200 − 1500) (120 − 87) + ... + (1800 − 1500) (50 − 87)
= =
10
−80 000
= = −8000.
10
Como habı́amos anticipado, la covarianza nos ha salido negativa.

4
3. Un concepto más: la recta de regresión
Añadamos un concepto más: el concepto de recta de regresión.

3.1. Ejemplo 1: la recta de regresión de G sobre C


Volvamos al par de variables C y G.
Existe una recta, llamada recta de regresión de G sobre C, que nos puede
servir, entre otras cosas, para conjeturar cuál puede el valor de la variable G
(gasto de gasolina) de un coche cuando sabemos de él cuál es el valor de su
variable C (su cilindrada).
Vamos a calcular la ecuación de la recta de regresión de G sobre C.
La varianza de las variables C es
P10
(ci − c̄)2
V [C] = i=1 =
10
(1200 − 1500)2 + ... + (1800 − 1500)2
= =
10
760000
= = 76000.
10
La ecuación de la recta de regresión de G sobre C es
µ ¶
COV [C, G] COV [C, G]
g= c− c̄ − ḡ ;
V [C] V [C]

sustituyendo los valores, obtenemos que la ecuación de la recta es

g = 0,004736 × c − 1,005.

Se entenderá mejor el significado de esta recta si vemos cómo se puede em-


plear para hacer una conjetura sobre la variable G conociendo C. Si, por ejemplo,
de un coche sabemos que su cilindadra es de 1700 centı́metros cúbicos, podemos
conjeturarle un gasto de

g = 0,004736 × 1700 − 1,005


= 7,05

litros por centena de kilómetros.


Observamos que la pendiente de la recta es positiva: 0,004736. Ello es ası́ por-
que la covarianza es positiva. Ello indica que al aumentar el dato de cilindrada
de un coche aumentará el gasto de gasolina que le pronostiquemos.
He aquı́ la gráfica de la recta de regresión, dibujada sobre la correspondiente
nube de puntos:

5
10

g6

0
500 1000 c 1500 2000

Vemos que tiene la misma inclinación “positiva”que la nube de puntos.


Hagamos notar otra cosa: la recta de regresión pasa por el punto (1500, 6,1) ,
señalado en la figura, cuyas coordenadas son las medias respectivas de las va-
riables C y G. Este punto también representa, desde el punto de vista fı́sico, el
centro de gravedad de la nube de puntos.

3.2. Ejemplo 2: la recta de regresión de T sobre C


Volvamos al par de variables C y T.
La recta de regresión de T sobre C nos puede servir, entre otras cosas, para
conjeturar cuál puede el valor de la variable T (tiempo que emplea en recorrer
100 kilómetros) de un coche cuando sabemos de él cuál es el valor de su variable
C (su cilindrada).
Vamos a calcular la ecuación de la recta de regresión de T sobre C.
La ecuación de la recta de regresión de T sobre C es
µ ¶
COV [C, T ] COV [C, G]
t= c− c̄ − t̄ ;
V [C] V [C]
sustituyendo los valores, obtenemos que la ecuación de la recta es

t = − 0,105 263 × c + 244. 89.

Apliquemos la recta obtenida para hacer una conjetura sobre la variable T


sabiendo C. Si, por ejemplo, de un coche sabemos que su cilindadra es de 1700
centı́metros cúbicos, podemos conjeturarle un tiempo de

t = −0,105 263 × 1700 + 244. 89


= 65,9

minutos para recorrer 100 kilómetros.


Observamos que la pendiente de la recta es negativa: −0,105 263. Ello es
porque la covarianza es negativa. Ello indica que al aumentar el dato de cilin-
drada de un coche disminuirá el tiempo que le pronostiquemos para recorrer 100
kilómetros.
He aquı́ la gráfica de la recta de regresión, dibujada sobre la correspondiente
nube de puntos:

6
140

120

100

80
t

60

40

20

0
500 1000 c 1500 2000

Vemos que tiene la misma inclinación “negativa”que la nube de puntos.


Hagamos notar también que la recta de regresión pasa por el punto (1500, 87) ,
señalado en la figura, cuyas coordenadas son las medias respectivas de las va-
riables C y T. Este punto también representa el centro de gravedad de la nube
de puntos.

Вам также может понравиться