Вы находитесь на странице: 1из 9

2 Estadística de dos variables

Versión: 19 de septiembre de 2013

2.1 Introducción
En el Tema 1 se consideran las variables estadísticas unidimensionales, es decir, cada individuo de la muestra
se describe de acuerdo a una única característica.
Sin embargo, en muchos procesos de la vida se hace necesario estudiar simultáneamente varias características.
Cuando para cada individuo se analizan dos características al mismo tiempo, se habla de estadística bidi-
mensional, o estadística de dos variables. Por ejemplo, pulso y temperatura de los enfermos en un hospital,
el peso y la altura de un mismo individuo, producción y venta de una fábrica, etc.

El objetivo de este tema es mostrar algunos resultados sobre el estudio de la relación entre dos características
dadas en el mismo problema y cómo diagnosticar posibles valores esperados.

Vamos a denotar por (X, Y ) la variable bidimensional a analizar, donde las variables X e Y son las variables
unidimensionales correspondientes a la primera y segunda característica, respectivamente, medidas para cada
individuo.

Consideramos una muestra de N individuos, que clasificamos atendiendo a dos caracteres X e Y, que presentan,
respectivamente, las modalidades x1 , x2 , . . . , xp e y1 , y2 , . . . , yq .

Frecuencia absoluta, nij , es el número de individuos que presenta la modalidad xi de X y la modalidad yj


de Y , es decir la frecuencia absoluta del par (xi , yj ).

Frecuencia relativa, fij , del par (xi , yj ) viene definida por


nij
fij =
N

Ejemplo 2.1

Distribución de frecuencias absolutas del color de ojos (X) de 100 personas y de sus madres (Y)

X\Y Claros Oscuros


Claros 28 15
Oscuros 20 37

Es claro que la suma de las frecuencias absolutas de las dos modalidades es: 28 + 15 + 20 + 37 = 100, que es
el número total de personas.

1
2. Estadística de dos variables 2

Ejemplo 2.2

Distribución de frecuencias relativas de asistencia mensual al cine (X) y al teatro (Y) de una muestra de 200
estudiantes universitarios:

X\Y 0 1 2
1 0.41 0.05 0
2 0.19 0.06 0.02
3 0.10 0.05 0.02
4 0.02 0.07 0.01

No es difícil comprobar que la suma de las frecuencias relativas de todas las modalidades es igual a 1.

Ejemplo 2.3

Distribución de frecuencias relativas del volumen de ventas (X) y el número de trabajadores para un grupo de
100 empresas pequeñas y medianas.

X\Y 1-24 25–59 50–74 75–99


1–100 28/100 7/100 1/100 0
101–200 10/100 15/100 6/100 2/100
201–300 4/100 10/100 8/100 9/100

PROPIEDADES DE LAS FRECUENCIAS


p X
X q
nij = N La suma de las frecuencias absolutas extendida a todos los pares de
i=1 j=1 modalidades es igual al número de individuos de la población.
p X
X q
fij = 1 La suma de las frecuencias relativas extendida a todos los pares de mo-
i=1 j=1 dalidades es igual a uno.

2.2 Tablas estadísticas de doble entrada


La tabla que describe los individuos, atendiendo a sus dos caracteres, es una tabla de doble entrada. En la
primera columna se colocan las modalidades x1 , x2 , . . . , xp de X y en la primera fila las modalidades y1 , y2 , . . . , yq
de Y . La intersección de la fila donde se encuentra xi con la columna donde se encuentra yj corresponde a la
frecuencia absoluta nij (ver la Tabla 2.1).
El número de veces que aparece la modalidad xi de la variable X, con independencia de la variable Y , es la
frecuencia absoluta marginal de X, ni· , que es igual al la suma de las frecuencias que aparecen en la i-ésima
fila de la Tabla 2.1:
q
X
ni· = nij = ni1 + ni2 + · · · + nij + · · · + niq
j=1

Análogamente se define frecuencia absoluta marginal de Y, nj· . Para cada j, los valores de nj· se obtienen
de sumar las frecuencias absolutas de cada una de las columnas de la tabla y se sitúan en una fila marginal en
la parte inferior de la tabla (véase la Tabla 2.1).
p
X
nj· = nij = n1j + n2j + · · · + nij + · · · + npj
i=1

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


2. Estadística de dos variables 3

Tabla 2.1
Tabla de doble entrada de frecuencias absolutas

X\Y y1 ... yj ... yq Total (X)


q
X
x1 n11 ... n1j ... n1q n1· = n1j
j=1
.. .. .. ..
. . . .
X q
xi ni1 ... nij ... niq ni· = nij
j=1
.. .. .. ..
. . . .
q
X
xp np1 ... npj ... npq np· = npj
j=1
p
X p
X p
X
Total (Y) n·1 = ni1 ... n·j = nij ... n·q = niq N
i=1 i=1 i=1

Ejemplo 2.4

Completamos la tabla del Ejemplo 2.1 que describe el color de ojos (X) de 100 personas y de sus madres (Y),
con las frecuencias marginales:

X\Y Claros Oscuros Total (X)


Claros 28 15 28+15=43
Oscuros 20 37 20+37=57
Total (Y) 28+20=48 15+37=52 100

Se observa que las distribuciones marginales son distribuciones estadísticas unidimensionales. Para estas distri-
buciones marginales pueden obtenerse las medias, varianzas y desviaciones típicas marginales de X e Y .

Ejemplo 2.5
Estudiamos el número de toneladas de sandías y de melones producidos en 50 granjas. Sean X el número de
toneladas de sandias e Y el número de toneladas de melones. La tabla de doble entrada es la que sigue:

X\Y 0 1 2 3 4 5 6 Total
0 2 0 4 3 1 0 0 10
1 3 0 9 0 0 3 0 15
2 0 6 0 6 0 0 1 13
(2.1)
3 1 4 0 0 2 1 0 8
4 0 0 2 0 1 0 0 3
5 0 0 0 1 0 0 0 1
Total 6 10 15 10 4 4 1 50
En la tabla de doble entrada se puede calcular, por ejemplo, la media y la varianza marginales:

p
1 X 0 · 10 + 1 · 15 + 2 · 13 + 3 · 8 + 4 · 3 + 5 · 1
x = xi ni· = = 1.64
N i=1 50
p
1 X 2 02 · 10 + 12 · 15 + 22 · 13 + 32 · 8 + 42 · 3 + 52 · 1
s2X = xi ni· − x2 = − 1.642 ≈ 1.55.
N i=1 50

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


2. Estadística de dos variables 4

La mayoría de las medidas características estudiadas en el caso unidimensional pueden extenderse al caso
bidimensional. Se pueden definir las medias, varianzas y desviaciones típicas de X e Y, pero en la práctica
vamos a simplificar los cálculos pues toda tabla de doble entrada se puede escribir como una tabla simple.
Veámoslo con la tabla del Ejemplo 2.5.

Ejemplo 2.6

Consideramos la tabla del Ejemplo 2.5. Se observa que los elementos de la tabla y sus frecuencias absolutas
son: (x1 , y1 ) = (0, 0) con n11 = 2, (x1 , y2 ) = (0, 1) con n12 = 0, (x1 , y3 ) = (0, 2) con n13 = 4, (x1 , y4 ) = (0, 3)
con n14 = 3, etc. Podemos reorganizar la tabla de doble entrada en una tabla simple (donde ignoramos los
pares (xi , yj ) con las frecuencias absolutas nij = 0):

xi 0 0 0 0 1 1 1 2 2 2 3 3 3 3 4 4 5
yi 0 2 3 4 0 2 5 1 3 6 0 1 4 5 2 4 3
ni 2 4 3 1 3 9 3 6 6 1 1 4 2 1 2 1 1

En lo que sigue del tema, vamos a considerar muestras de N observaciones del tipo (x1 , y1 ), (x2 , y2 ), . . . , (xK , yK )
con frecuencias absolutas n1 , n2 , . . . , nK de una variable bidimensional (X, Y ).

2.3 Representación gráfica


La forma más usual de representar gráficamente distribuciones bidimensionales es el diagrama de dispersión o
nube de puntos. Consiste en representar en un eje de coordenadas los pares de observaciones (xi , yi ), situando
en el eje de abscisas los valores de la variable X y en el eje de ordenadas los valores de la variable Y . La nube
de puntos así dibujada refleja la posible relación entre las variables. A mayor relación entre las variables más
estrecha y alargada será la nube.

Ejemplo 2.7

Con frecuencia se obtienen datos bidimensionales cuando se usan dos técnicas distintas para medir la misma
cantidad. Por ejemplo, la concentración de hidrógeno determinada con un método de cromatografía de gases
(X), y la concentración determinada con un nuevo método de sensor (Y) viene dada en la tabla siguiente:

X 47 62 65 70 70 78 95 100 114 118 124 127 140 140 140 150 152 164
Y 38 62 53 67 84 79 93 106 117 116 127 114 134 139 142 170 149 154

Diagrama de dispersión
Y=Concentración de hidrógeno (método de sensor)

180
El diagrama de dispersión correspondiente a los da-
tos de esta tabla se presenta en la figura de la dere- 160
cha.
140

120

100

80

60

40
40 60 80 100 120 140 160 180
X=Concentración de hidrógeno (método de cromatografiía de gases)

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


2. Estadística de dos variables 5

2.4 Covarianza
Se trata de un indicador del grado de relación entre las variables X e Y .

Covarianza
Sea (X, Y ) una variable bidimesional que toma valores (x1 , y1 ), (x2 , y2 ), . . . , (xK , yK ) con frecuencias absolutas
n1 , n2 . . . , nK . Se llama covarianza a la media aritmética de los productos de las desviaciones de cada variable
respecto a su media aritmética, se denota por sXY :
K K
1 X 1 X
sXY = (xi − x)(yi − y)ni = xi yi ni − x y. (2.2)
N i=1 N i=1

2.5 Curvas de regresión


En el estudio de variables bidimensionales tiene mucho interés buscar posibles relaciones entre las variables. Por
ejemplo, si X representa las mediciones del peso e Y la altura de un número determinado de personas, interesa
saber la dependencia que existe entre ambas mediciones.
En el lenguaje matemático, se trata de encontrar una función que se «ajuste» lo más posible a una nube de
puntos con el objetivo de describir y explicar el fenómeno que representa. En otras palabras, dada una nube de
puntos (x1 , y1 ), (x2 , y2 ), . . . , (xN , yN ), buscamos una función y = f (x) cuya gráfica se adapta lo más posible a
dichos puntos, de manera que conocido el valor de una de las variables podamos obtener un valor (en general)
aproximado de la otra mediante esta curva. Este procedimiento se conoce como ajuste de datos o regresión.1

Dependiendo del tipo de la función que se busca, existen distintos tipos de ajuste: ajuste por polinomios (véase
el Ejemplo 2.8), exponencial, logarítmico, etc.

Ejemplo 2.8

Se considera la siguiente tabla de datos:


7 7

6 6
X 0.9 1.5 3 4 6 8 9.5 5 5

Y 0.9 1.5 2.5 5.1 4.5 4.9 6.3 4 4

3 3

2 2

1 n=1 1 n=2
En la figura se muestran distintos tipos de ajustes por 0
0 2 4 6 8 10
0
0 2 4 6 8 10
funciones polinómicas: por una recta (n = 1), una
parábola (n = 3), un polinomio de grado 3 (n = 3) 7 10

y un polinómio de grado 6 (n = 6), este último es 6


8
5
el polinomio de interpolación que pasa exactamente 4 6

por los datos de la tabla. 3 4


2
2
1 n=3 n=6
0 0
0 2 4 6 8 10 0 2 4 6 8 10

1 El término «regresión», que hoy usamos con un sentido de «relación» entre variables, tiene su origen en un estudio que publicó

Francis Galton en 1886, en que, analizando la estatura media de los padres y la estatura media de los hijos, llegó a la conclusión
de que hay una tendencia a aproximarse (regresar) a la estatura media de la población.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


2. Estadística de dos variables 6

2.5.1 Recta de regresión


La más sencilla de las relaciones entre las variable X e Y es la dependencia lineal donde se supone que la
relación entre dos variables X e Y viene dada por la ecuación y = mx + b. El caso particular de ajuste por
polinomios cuando el grado del polinomio es 1 se conoce como la recta de regresión. En otras palabras, la
recta de regresión es la recta que más se aproxima a los puntos representativos de las observaciones (X, Y ).
Los coeficientes m y b de la recta se calculan de modo
que sean mínimas las distancias, en cierto sentido, de
la recta a la nube de puntos.
Según se consideren las distancias en vertical (como
en la figura de la derecha) o en horizontal, se obtie-
nen, respectivamente, las rectas de regresión de Y
sobre X y de X sobre Y .

Recta de regresión de Y sobre X


sXY
y=y+ (x − x) (2.3)
s2X

Recta de regresión de X sobre Y


sXY
x=x+ (y − y) (2.4)
s2Y

Ejemplo 2.9
Las calificaciones en Matemáticas (X) y Química (Y ) de 15 alumnos de Farmacia son:

X 8 8 6 6 7 8 5 6 7 7 8 7 8 6 8
Y 4 6 3 5 4 6 4 4 6 4 5 7 6 5 6

Mediante la recta de regresión de Y sobre X, queremos determinar la nota que tendrá un alumno en Química
que tiene un 8 en Matemáticas.
Usando la ecuación (2.3), sabemos que la recta de regresión de Y sobre X viene dada por:
sXY
y=y+ (x − x).
s2X
Como las frecuencias absolutas de todas las variables son iguales a 1, calculamos las medias, varianzas y
covarianza:
15 15 15 15
1 X 1 X 1 X 1 X
x= xi = 7, y = yi = 5 s2X = (xi − x)2 = 0.93, sXY = xi yi − x y = 0.53.
15 i=1 15 i=1 15 i=1 15 i=1
Sustituyendo los coeficientes encontrados obtenemos 8

la siguiente ecuación de la recta de regresión:


7
0.53
y =5+ (x − 7) ⇒ y = 0.57x + 1.01
Calificaciones de Química

0.93 6

Dicha recta representa una relación lineal entre los 5

datos X e Y . Usando la ecuación de la recta, pode-


mos determinar la nota «más esperada» en Química 4

para un alumno con un 8 en Matemáticas:


3

y = 0.57 × 8 + 1.01 = 5.57.


2
4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9
Calificaciones de Matemáticas

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


2. Estadística de dos variables 7

2.5.2 Correlación lineal


La correlación es la teoría que analiza el grado de intensidad de la relación entre las dos variables. Por ejemplo,
la recta de regresión ajustada a una nube de puntos trata de promediar o representar matemáticamente los
valores observados empíricamente. Es claro que este procedimiento debe ir acompañado de un coeficiente que
mida su grado de representatividad, es decir valore hasta qué punto es bueno dicho ajuste.

Coeficiente de correlación lineal de Pearson es el cociente entre la covarianza y el producto de desvia-


ciones típicas
sXY
r= (2.5)
sX sY

Coeficiente de correlación lineal de Pearson proporciona una medida del grado de aproximación de la recta de
regresión a la nube de puntos.

PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN

−1 ≤ r ≤ 1 r toma valores entre −1 y 1

−1 < r < 0 Se dice que la correlación es negativa, es decir la curva de regresión es decreciente. Cuanto
más se acerca r a −1 mejor se ajusta la recta de regresión a los datos (se dice que hay mayor
intensidad de correlación).

0<r<1 Se dice que la correlación es positiva, es decir la curva de regresión es creciente. Cuanto
más se acerca r a 1 mejor se ajusta la recta de regresión a los datos (se dice que hay mayor
intensidad de correlación).

r = ±1 Se dice que la correlación es perfecta o del tipo funcional, es decir la nube de puntos está
situada, toda ella, sobre la recta de regresión, con pendiente positiva para r = 1 (curva recta)
y pendiente negativa r = −1 (recta decreciente)

r=0 No existe dependencia lineal entre las variable, pudiendo darse una dependencia no lineal, o
bien puede ocurrir que las variables sena independientes.

Ejemplo 2.10
Consideramos la recta de regresión que ajusta los datos del Ejemplo 2.9. Vamos a calcular el coeficiente de
correlación lineal:
sXY
r=
sX sY
15
1 X √
Sabemos que sXY = 0.53, s2X = (xi − x)2 = 0.93, sX = 0.93 = 0.9644 y calculamos
15 i=1
15
1 X √
s2Y = (yi − y)2 = 1.2 ⇒ sY = 1.2 = 1.0954
15 i=1
Luego,
0.53
r= = 0.5017
0.9644 × 1.0954
Se trata de una correlación positiva y r está alejado de 1, por tanto la perdición realizada no es muy fiable.

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


2. Estadística de dos variables 8

2.5.3 Otras curvas de regresión


En muchas ocasiones hace falta usar funciones distintas a las polinómicas para ajustar datos. Desde el punto de
vista teórico se puede utilizar cualquier función para modelar datos dentro de un rango establecido. Las que se
utilizan habitualmente son: potencia (y = bxm ), exponencial (y = bemx ), logarítmica (y = m ln(x) + b) e inversa
(y = 1/(mx + b)).
Para calcular dichas curvas, la idea es transformarlas en una recta, respetando la forma

y = mx + b.

Ejemplo 2.11

El ingreso de ventas, en billones de dólares, de una determinada marca de ordenadores viene dada por la
siguiente tabla, donde x representa años medidos desde el año 2000:

x 0 2 4 7
y 3 4 11 25

Obtener la curva exponencial de regresión que mejor se ajuste a los datos anteriores.
Solución: Buscamos la función exponencial de la forma y = bemx . Tomando logaritmos, obtenemos:

ln(y) = m x + ln(b),
es decir en la función exponencial hay una relación lineal entre ln(y) y x. Ajustamos por una recta los datos
x y z = ln(y):

x 0 2 4 7
z = ln(y) 1.0986 1.3863 2.3979 3.2189

Calculamos la recta de regresión:


4 4
1X 1X
x= xi = 3.25, z= zi = 2.0254
4 i=1 4 i=1
4 4
1X 1X
s2X = (xi − x)2 = 6.6875, sXZ = xi zi − x z = 2.1415.
4 i=1 4 i=1
Sustituyendo los coeficientes encontrados en la ecua-
30
datos a ajustar
ajuste por funcion exponencial
ción (2.3) de la recta de regresión:
25

2.1415 20
z = 2.0254+ (x−3.25) = 2.0254+0.3202(x−3.25)
6.6875
⇒ z = 0.3202x + 0.9847. 15

Es decir, hemos encontrado m = 0.3202 y 10

log(b) = 0.9847, de donde b = e0.9847 = 2.6770. Por


tanto, la función de ajuste exponencial es de la for- 5
ma:
0
y = b emx = 2.6770 e0.3202 x 0 1 2 3 4 5 6 7

Matemática Aplicada y Estadística Dpto. EDAN - Univ. de Sevilla


Índice de Tema 2

2. Estadística de dos variables 1


2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2. Tablas estadísticas de doble entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.5. Curvas de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.5.1. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5.2. Correlación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5.3. Otras curvas de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Вам также может понравиться