Академический Документы
Профессиональный Документы
Культура Документы
2.1 Introducción
En el Tema 1 se consideran las variables estadísticas unidimensionales, es decir, cada individuo de la muestra
se describe de acuerdo a una única característica.
Sin embargo, en muchos procesos de la vida se hace necesario estudiar simultáneamente varias características.
Cuando para cada individuo se analizan dos características al mismo tiempo, se habla de estadística bidi-
mensional, o estadística de dos variables. Por ejemplo, pulso y temperatura de los enfermos en un hospital,
el peso y la altura de un mismo individuo, producción y venta de una fábrica, etc.
El objetivo de este tema es mostrar algunos resultados sobre el estudio de la relación entre dos características
dadas en el mismo problema y cómo diagnosticar posibles valores esperados.
Vamos a denotar por (X, Y ) la variable bidimensional a analizar, donde las variables X e Y son las variables
unidimensionales correspondientes a la primera y segunda característica, respectivamente, medidas para cada
individuo.
Consideramos una muestra de N individuos, que clasificamos atendiendo a dos caracteres X e Y, que presentan,
respectivamente, las modalidades x1 , x2 , . . . , xp e y1 , y2 , . . . , yq .
Ejemplo 2.1
Distribución de frecuencias absolutas del color de ojos (X) de 100 personas y de sus madres (Y)
Es claro que la suma de las frecuencias absolutas de las dos modalidades es: 28 + 15 + 20 + 37 = 100, que es
el número total de personas.
1
2. Estadística de dos variables 2
Ejemplo 2.2
Distribución de frecuencias relativas de asistencia mensual al cine (X) y al teatro (Y) de una muestra de 200
estudiantes universitarios:
X\Y 0 1 2
1 0.41 0.05 0
2 0.19 0.06 0.02
3 0.10 0.05 0.02
4 0.02 0.07 0.01
No es difícil comprobar que la suma de las frecuencias relativas de todas las modalidades es igual a 1.
Ejemplo 2.3
Distribución de frecuencias relativas del volumen de ventas (X) y el número de trabajadores para un grupo de
100 empresas pequeñas y medianas.
Análogamente se define frecuencia absoluta marginal de Y, nj· . Para cada j, los valores de nj· se obtienen
de sumar las frecuencias absolutas de cada una de las columnas de la tabla y se sitúan en una fila marginal en
la parte inferior de la tabla (véase la Tabla 2.1).
p
X
nj· = nij = n1j + n2j + · · · + nij + · · · + npj
i=1
Tabla 2.1
Tabla de doble entrada de frecuencias absolutas
Ejemplo 2.4
Completamos la tabla del Ejemplo 2.1 que describe el color de ojos (X) de 100 personas y de sus madres (Y),
con las frecuencias marginales:
Se observa que las distribuciones marginales son distribuciones estadísticas unidimensionales. Para estas distri-
buciones marginales pueden obtenerse las medias, varianzas y desviaciones típicas marginales de X e Y .
Ejemplo 2.5
Estudiamos el número de toneladas de sandías y de melones producidos en 50 granjas. Sean X el número de
toneladas de sandias e Y el número de toneladas de melones. La tabla de doble entrada es la que sigue:
X\Y 0 1 2 3 4 5 6 Total
0 2 0 4 3 1 0 0 10
1 3 0 9 0 0 3 0 15
2 0 6 0 6 0 0 1 13
(2.1)
3 1 4 0 0 2 1 0 8
4 0 0 2 0 1 0 0 3
5 0 0 0 1 0 0 0 1
Total 6 10 15 10 4 4 1 50
En la tabla de doble entrada se puede calcular, por ejemplo, la media y la varianza marginales:
p
1 X 0 · 10 + 1 · 15 + 2 · 13 + 3 · 8 + 4 · 3 + 5 · 1
x = xi ni· = = 1.64
N i=1 50
p
1 X 2 02 · 10 + 12 · 15 + 22 · 13 + 32 · 8 + 42 · 3 + 52 · 1
s2X = xi ni· − x2 = − 1.642 ≈ 1.55.
N i=1 50
La mayoría de las medidas características estudiadas en el caso unidimensional pueden extenderse al caso
bidimensional. Se pueden definir las medias, varianzas y desviaciones típicas de X e Y, pero en la práctica
vamos a simplificar los cálculos pues toda tabla de doble entrada se puede escribir como una tabla simple.
Veámoslo con la tabla del Ejemplo 2.5.
Ejemplo 2.6
Consideramos la tabla del Ejemplo 2.5. Se observa que los elementos de la tabla y sus frecuencias absolutas
son: (x1 , y1 ) = (0, 0) con n11 = 2, (x1 , y2 ) = (0, 1) con n12 = 0, (x1 , y3 ) = (0, 2) con n13 = 4, (x1 , y4 ) = (0, 3)
con n14 = 3, etc. Podemos reorganizar la tabla de doble entrada en una tabla simple (donde ignoramos los
pares (xi , yj ) con las frecuencias absolutas nij = 0):
xi 0 0 0 0 1 1 1 2 2 2 3 3 3 3 4 4 5
yi 0 2 3 4 0 2 5 1 3 6 0 1 4 5 2 4 3
ni 2 4 3 1 3 9 3 6 6 1 1 4 2 1 2 1 1
En lo que sigue del tema, vamos a considerar muestras de N observaciones del tipo (x1 , y1 ), (x2 , y2 ), . . . , (xK , yK )
con frecuencias absolutas n1 , n2 , . . . , nK de una variable bidimensional (X, Y ).
Ejemplo 2.7
Con frecuencia se obtienen datos bidimensionales cuando se usan dos técnicas distintas para medir la misma
cantidad. Por ejemplo, la concentración de hidrógeno determinada con un método de cromatografía de gases
(X), y la concentración determinada con un nuevo método de sensor (Y) viene dada en la tabla siguiente:
X 47 62 65 70 70 78 95 100 114 118 124 127 140 140 140 150 152 164
Y 38 62 53 67 84 79 93 106 117 116 127 114 134 139 142 170 149 154
Diagrama de dispersión
Y=Concentración de hidrógeno (método de sensor)
180
El diagrama de dispersión correspondiente a los da-
tos de esta tabla se presenta en la figura de la dere- 160
cha.
140
120
100
80
60
40
40 60 80 100 120 140 160 180
X=Concentración de hidrógeno (método de cromatografiía de gases)
2.4 Covarianza
Se trata de un indicador del grado de relación entre las variables X e Y .
Covarianza
Sea (X, Y ) una variable bidimesional que toma valores (x1 , y1 ), (x2 , y2 ), . . . , (xK , yK ) con frecuencias absolutas
n1 , n2 . . . , nK . Se llama covarianza a la media aritmética de los productos de las desviaciones de cada variable
respecto a su media aritmética, se denota por sXY :
K K
1 X 1 X
sXY = (xi − x)(yi − y)ni = xi yi ni − x y. (2.2)
N i=1 N i=1
Dependiendo del tipo de la función que se busca, existen distintos tipos de ajuste: ajuste por polinomios (véase
el Ejemplo 2.8), exponencial, logarítmico, etc.
Ejemplo 2.8
6 6
X 0.9 1.5 3 4 6 8 9.5 5 5
3 3
2 2
1 n=1 1 n=2
En la figura se muestran distintos tipos de ajustes por 0
0 2 4 6 8 10
0
0 2 4 6 8 10
funciones polinómicas: por una recta (n = 1), una
parábola (n = 3), un polinomio de grado 3 (n = 3) 7 10
1 El término «regresión», que hoy usamos con un sentido de «relación» entre variables, tiene su origen en un estudio que publicó
Francis Galton en 1886, en que, analizando la estatura media de los padres y la estatura media de los hijos, llegó a la conclusión
de que hay una tendencia a aproximarse (regresar) a la estatura media de la población.
Ejemplo 2.9
Las calificaciones en Matemáticas (X) y Química (Y ) de 15 alumnos de Farmacia son:
X 8 8 6 6 7 8 5 6 7 7 8 7 8 6 8
Y 4 6 3 5 4 6 4 4 6 4 5 7 6 5 6
Mediante la recta de regresión de Y sobre X, queremos determinar la nota que tendrá un alumno en Química
que tiene un 8 en Matemáticas.
Usando la ecuación (2.3), sabemos que la recta de regresión de Y sobre X viene dada por:
sXY
y=y+ (x − x).
s2X
Como las frecuencias absolutas de todas las variables son iguales a 1, calculamos las medias, varianzas y
covarianza:
15 15 15 15
1 X 1 X 1 X 1 X
x= xi = 7, y = yi = 5 s2X = (xi − x)2 = 0.93, sXY = xi yi − x y = 0.53.
15 i=1 15 i=1 15 i=1 15 i=1
Sustituyendo los coeficientes encontrados obtenemos 8
0.93 6
Coeficiente de correlación lineal de Pearson proporciona una medida del grado de aproximación de la recta de
regresión a la nube de puntos.
−1 < r < 0 Se dice que la correlación es negativa, es decir la curva de regresión es decreciente. Cuanto
más se acerca r a −1 mejor se ajusta la recta de regresión a los datos (se dice que hay mayor
intensidad de correlación).
0<r<1 Se dice que la correlación es positiva, es decir la curva de regresión es creciente. Cuanto
más se acerca r a 1 mejor se ajusta la recta de regresión a los datos (se dice que hay mayor
intensidad de correlación).
r = ±1 Se dice que la correlación es perfecta o del tipo funcional, es decir la nube de puntos está
situada, toda ella, sobre la recta de regresión, con pendiente positiva para r = 1 (curva recta)
y pendiente negativa r = −1 (recta decreciente)
r=0 No existe dependencia lineal entre las variable, pudiendo darse una dependencia no lineal, o
bien puede ocurrir que las variables sena independientes.
Ejemplo 2.10
Consideramos la recta de regresión que ajusta los datos del Ejemplo 2.9. Vamos a calcular el coeficiente de
correlación lineal:
sXY
r=
sX sY
15
1 X √
Sabemos que sXY = 0.53, s2X = (xi − x)2 = 0.93, sX = 0.93 = 0.9644 y calculamos
15 i=1
15
1 X √
s2Y = (yi − y)2 = 1.2 ⇒ sY = 1.2 = 1.0954
15 i=1
Luego,
0.53
r= = 0.5017
0.9644 × 1.0954
Se trata de una correlación positiva y r está alejado de 1, por tanto la perdición realizada no es muy fiable.
y = mx + b.
Ejemplo 2.11
El ingreso de ventas, en billones de dólares, de una determinada marca de ordenadores viene dada por la
siguiente tabla, donde x representa años medidos desde el año 2000:
x 0 2 4 7
y 3 4 11 25
Obtener la curva exponencial de regresión que mejor se ajuste a los datos anteriores.
Solución: Buscamos la función exponencial de la forma y = bemx . Tomando logaritmos, obtenemos:
ln(y) = m x + ln(b),
es decir en la función exponencial hay una relación lineal entre ln(y) y x. Ajustamos por una recta los datos
x y z = ln(y):
x 0 2 4 7
z = ln(y) 1.0986 1.3863 2.3979 3.2189
2.1415 20
z = 2.0254+ (x−3.25) = 2.0254+0.3202(x−3.25)
6.6875
⇒ z = 0.3202x + 0.9847. 15