Вы находитесь на странице: 1из 14

Unidad 11

Estadística Bidimensional

1. Distribuciones bidimensionales
2. Diagramas de dispersión
3. Parámetros marginales de una distribución bidimensional
4. Parámetros que miden las dos variables conjuntamente
5. Rectas de regresión

1. Distribuciones bidimensionales

En numerosas ocasiones interesa estudiar simultáneamente dos caracteres de una


población; por ejemplo, si se pretende analizar el rendimiento de ciertos alumnos sería
interesante estudiar el número de horas que estudia cada alumno y la nota que obtiene
en cada examen. En el caso de dos variables estudiadas conjuntamente se habla de
distribución bidimensional o variable bidimensional.

Si de un cierta población se estudian dos caracteres simultáneamente se obtienen dos


series de datos. La lista de pares de datos correspondientes a cada individuo de la
población (repetidos o no), es lo que llamamos variable estadística bidimensional.

Ejemplo conductor del tema

Supongamos que elegimos aleatoriamente a seis alumnas de 1º bachillerato y medimos


su altura (en cm.) y su número de zapato. Los datos podríamos recogerlos en una tabla
como la siguiente:

Altura(X) 164 158 162 166 168 172


Zapato(Y) 37 37 36 38 39 40

A partir de esta muestra, pretendemos extraer conclusiones que sirvan para todo el
colectivo de alumnas de 1º bachillerato. En concreto, pretendemos dar respuesta a dos
cuestiones:

1) Saber si existe correlación lineal entre ambas variables; es decir, si los valores que
toma una variable dependen (linealmente) de los que toma la otra, y precisar qué grado
tiene esa dependencia lineal.

Unidad 11. Página 1


2) En el caso de que quede probada una correlación lineal alta, calcular la recta (función
lineal) que mejor se ajusta (el modelo de función que permita estimar los valores de una
variable conociendo los de la otra, con el riesgo más pequeño de equivocarse)

2. Diagramas de dispersión

Una forma inicial de resolver la primera cuestión planteada en el apartado anterior


es representar los pares de valores de la distribución bidimensional en un sistema de
ejes de coordenadas y observar la forma que tiene la nube de puntos resultante.

40,5
40
39,5
39
38,5
Zapato 38
37,5
37
36,5
36
35,5
156 158 160 162 164 166 168 170 172 174
Altura

La nube de puntos es creciente y alargada. Esto nos permite conjeturar una


correlación directa (a más altura mayor número de zapato) y fuerte.

Otros ejemplos de diagramas de dispersión podrían ser:

Unidad 11. Página 2


Correlación directa moderada
16
14
12
10
8
6
4
2
0
0 2 4 6 8 10 12

Correlación inversa muy fuerte


12
10
8
6
4
2
0
0 2 4 6 8 10 12

Correlación muy débil o inexistente


10

0
0 2 4 6 8 10 12

Correlación no lineal
40
35
30
25
20
15
10
5
0
0 2 4 6 8 10 12

Unidad 11. Página 3


3. Parámetros marginales de una distribución bidimensional

Considerando las distribuciones de cada una de las variables por separado


(distribuciones marginales), como son unidimensionales es posible calcular los
siguiente parámetros:

Media aritmética. Nos indica en torno a qué valor central se distribuyen los
valores de cada variable.

donde n es el número de datos y la letra griega "sigma mayúscula"


representa la suma de los valores, por ese motivo también se le llama también
sumatorio. El punto  x , y  representa el "centro de gravedad" de la nube de puntos.

Ejemplo conductor:

Varianza. Nos indica el grado de dispersión que tienen los valores de cada
variable respecto de su media. Su símbolo es la letra sigma minúscula al cuadrado

Ejemplo conductor: Para estos cálculos conviene hacer una tabla de este tipo:

Unidad 11. Página 4


xi yi xi2 yi2
164 37 26 896 1369

158 37 24 964 1369

162 36 26 244 1296

166 38 27 556 1444

168 39 28 224 1521

172 40 29 584 1600

990 227 163 468 8599

La última fila recoge las sumas de los elementos de cada columna. de esa manera:

Desviación típica. La varianza presenta un problema. Si los datos vienen dados por
ejemplo en cm., la varianza vendría en cm2. Para evitar esto se define este nuevo
parámetro como la raíz cuadrada del anterior.

Ejemplo conductor:

Unidad 11. Página 5


Coeficiente de variación. Si la altura del ejemplo conductor viniera en metros, en lugar
de centímetros; la desviación típica sería 0, 044347. Para evitar que la medida de
dispersión dependa de las unidades de medida y/o para comparar datos de distinta
naturaleza (por ejemplo la altura y el número de zapato) se define este nuevo parámetro
como:

Ejemplo conductor:

Aunque esté en metros da el mismo resultado

Observando los resultados del coeficiente de variación, nos damos cuenta que el
conjunto más disperso es el que mayor CV, o sea, ¡el de números de zapatos!

4. Parámetros que miden las dos variables conjuntamente

Covarianza. Es una medida que nos hablará de la variabilidad conjunta de las dos
variables numéricas Se define como:

Ejemplo conductor: Para el cálculo de la covarianza, se añadiría a la tabla del


apartado anterior una nueva columna con los productos xi yi

Unidad 11. Página 6


xi yi xi2 yi2 xi .yi
164 37 26 896 1369 6068

158 37 24 964 1369 5846

162 36 26 244 1296 5832

166 38 27 556 1444 6308

168 39 28 224 1521 6552

172 40 29 584 1600 6880

990 227 163 468 8599 37 486

Significado de la covarianza:
Si sxy  0 hay dependencia directa
(positiva), es decir a grandes valores de x
corresponden grandes valores de y.
La gráfica de la derecha representa una
situación de este tipo. En ella se ha centrado
le gráfica en el centro de gravedad.
Si sxy  0 las variables están incorreladas,
es decir no hay relación lineal.

Si sxy  0 hay dependencia inversa o negativa,


es decir a grandes valores de x corresponden
valores pequeños de y.

Unidad 11. Página 7


La covarianza tiene el mismo inconveniente que la varianza, que depende de las
unidades de medida. Por otra parte, la distinta naturaleza de los fenómenos estudiados
hace que la comparación entre covarianzas carezca de sentido. Para evitar esto se define
el siguiente coeficiente
Coeficiente de correlación lineal. Es el criterio que se utiliza para medir la fuerza de la
relación entre las dos variables

Ejemplo conductor:

Propiedades del coeficiente de correlación lineal

1. El valor de r no cambia al hacerlo la escala de medida.

2. El valor de r mide, exclusivamente, la correlación lineal entre variables. Por tanto,


puede haber otro tipo de correlación no detectada por r.

3. El signo del coeficiente “r” es el mismo que el de la covarianza, ya que las


desviaciones típicas son siempre positivas. Así pues:

 Si r > 0 la correlación es directa.


 Si r < 0 la correlación es inversa.

El signo de r no determina la fuerza de la correlación, sólo su sentido

4. El coeficiente de correlación lineal es un número real comprendido entre -1 y 1

5. Si 0  r  1 la correlación es directa y será tanto más fuerte a medida que r se


aproxima a 1 y tanto más débil a medida que se aproxima a 0.

6. Si 1  r  0 la correlación es inversa y será tanto más fuerte a medida que r se


aproxima más a -1 y tanto más débil a medida que se aproxima a 0.

7. Si r  1 ó r  1 todos los valores de la variable bidimensional  X , Y  se


encuentran situados sobre una recta, la correlación; en consecuencia satisfacen la
ecuación de una recta, la correlación es perfecta. No se dice entonces que haya
dependencia estadística sino que existe una dependencia funcional.

8. Si r toma valores cercanos a 0, la correlación es muy débil o incluso inexistente.

Unidad 11. Página 8


Ejemplo

Ofrecemos a continuación varios diagramas de dispersión:

A la vista de estos diagramas, cabe hacerse las siguientes preguntas:

1. ¿ Existe alguna relación entre las variables X e Y?.


2. Si existe, ¿es lineal o curvilínea?.
Será lineal si los puntos se condensan en torno a una recta.
Será curvilínea si los puntos se condensan en torno a una curva.
3. ¿Al crecer una variable crece la otra? (relación directa o positiva), o ¿al
crecer una variable la otra disminuye? (relación inversa o negativa).
4. ¿Es la relación funcional?.
Será funcional cuando ambas variables estén relacionadas por una
función. En caso contrario, será tanto más fuerte o más débil
dependiendo de la mayor o menor tendencia de los puntos del diagrama a
acercarse a la representación de una función.

Respondiendo a estas preguntas para los diagramas anteriores, se obtiene:

a. Es una relación lineal directa funcional r = 1


b. Es una relación lineal directa fuerte. Podría ser por ejemplo r =0,8
c. Es una relación lineal directa más débil. Podría ser por ejemplo r =0,5
d. Es una relación lineal inversa funcional r = - 1
e. Es una relación lineal inversa fuerte. Por ejemplo r = - 0,8
f. Es una relación lineal inversa más débil. Por ejemplo r = - 0,5
g. No existe relación. Podríamos obtener por ejemplo r = 0,1

Coeficiente de determinación.

Cuando r está próximo a 1 o a - 1, la correlación lineal es fuerte. esto significa que los
cambios de la variable Y se explican, en gran medida, por los cambios de la variable X.
En consecuencia, se pueden hacer estimaciones fiables de Y a partir de X.

Unidad 11. Página 9


Una medida de esta fiabilidad es r2. su valor indica la proporción de la variación en la
variable Y que puede ser explicada por los cambios en la variable X. A r2 se le llama
coeficiente de determinación.

Si multiplicamos r2 por 100 se obtiene el porcentaje de cambio de Y explicado por X

Ejemplo conductor:

El 75, 22% de los cambios que se producen en el número de zapato, se explican por los
cambios que se producen en la altura.

5. Rectas de regresión

Consideramos una variable estadística bidimensional  X , Y  para la que se ha


comprobado que existe una correlación fuerte entre las variables X e Y. En ese caso se
puede obtener la ecuación de una recta que sea la que mejor se ajusta al diagrama de
dispersión y utilizarla para hacer predicciones (estimaciones).

Al ser una recta ideal, no tiene por qué pasar por ninguno de los puntos dados pero sí lo
más cerca posible de todos ellos. Se trata de aquella recta que haga que la suma de las
desviaciones de los puntos de la nube respecto de los correspondientes de la recta sea lo
menor posible.

A través de la resolución de un problema de optimización con dos variables, se llega a


las siguientes conclusiones:

Recta de regresión de Y sobre X

Se utiliza para predecir valores de Y conociendo los de X.

1) Debe pasar por el punto (centro de gravedad de la nube de puntos)

2) Su pendiente ha de ser

Por lo tanto, la ecuación de la recta en la forma punto-pendiente será:

Unidad 11. Página 10


Recta de regresión de X sobre Y

Se utiliza para predecir valores de X conociendo los de Y.

1) Debe pasar por el punto (centro de gravedad de la nube de puntos)

2) Su pendiente ha de ser

Por lo tanto, la ecuación de la recta en la forma punto-pendiente será:

Las rectas de regresión de Y sobre X y de X sobre Y son distintas, por eso hay que
saber qué valor es la dependiente, pues X e Y no son intercambiables.

Ejemplo conductor:

Cuestión 1. ¿Qué número de zapato usará una alumna de 1ºbachillerato que mida 181
cm?

Nos han dado el valor de x y queremos saber el de y, luego primero hay que calcular la
recta de regresión de Y sobre X

Luego, aproximadamente, la alumna calzará un 42

Cuestión 2.¿Qué altura tendrá una alumna que use un 35 de zapato?

Ahora nos dan la y para calcular la x, luego hay que calcular la recta de regresión de X
sobre Y

Unidad 11. Página 11


Operando como en la cuestión anterior se llega a la ecuación:

Fiabilidad de la recta de regresión.

la fiabilidad de las estimaciones hechas a partir de la recta de regresión depende


fundamentalmente de tres factores:

1) El valor del coeficiente de correlación r. Una correlación alta (r próximo a 1 o -1)


asegura estimaciones fiables.

2) El número de datos considerados. la fiabilidad aumenta al aumentar los datos. Una


recta obtenida a partir de pocos datos genera grandes riesgos, aunque r sea muy alto.

3) La proximidad del valor x0, para el que quiere hacerse la estimación, a la media .A
medida que nos alejamos de la media, la estimación se hace más arriesgada.

A continuación tienes otro ejemplo. Intenta hacerlo antes sin mirar la resolución,
apoyándote en el ejemplo conductor de todo el tema.

Unidad 11. Página 12


Ejemplo: Considera la siguiente tabla relativa a varias concesionarios de coches

Nº de comerciales 1 2 3 4 5 6

Unidades vendidas este mes 10 17 30 28 39 47

a) Calcula los coeficientes de correlación y determinación entre las variables X (nº de


comerciales) e Y (unidades vendidas este mes) e interprétalos.

b) Estima, usando la recta de regresión adecuada, cuántos comerciales tenía un


concesionario que ha vendido 90 coches este mes.

Solución:

a) Haremos primero la tabla previa al cálculo de parámetros:

xi yi xi2 yi2 xi .yi


1 10 1 100 10

2 17 4 289 34

3 30 9 900 90

4 28 16 784 112

5 39 25 1521 195

6 47 36 2209 282

21 171 91 5803 723

Comenzamos el cálculo de los parámetros

Medias:

Unidad 11. Página 13


Varianzas:

Desviaciones típicas:

Covarianza:

Coeficiente de correlación:

La correlación es fuerte y directa

Coeficiente de determinación:

El 94% de los cambios producidos en las ventas del mes viene determinado por el
número de comerciales.

b) Hay que obtener la recta de regresión de X sobre Y (ya que nos na dado un valor de
Y y nos piden la estimación de la X)

Operando como en la cuestión anterior se llega a la ecuación:

El concesionario tendrá 11 ó 12 empleados

Unidad 11. Página 14

Вам также может понравиться