Вы находитесь на странице: 1из 46

Medidas de Asociación y Regresión

Lorena Kikut
Asociación entre variables

 - Explorar la relación o asociación que existe entre

variables

 - Confirmar relaciones establecidas por determinadas

teorías.
Ejemplos
 ¿Está el abstencionismo electoral relacionado con el nivel
de escolaridad?

 ¿Existe alguna relación entre la tasa de suicidio y el


deterioro de la situación económica?

 ¿Es la situación económica la variable que más pesa en la


evaluación de la labor del presidente en ejercicio?
Medidas de Asociación

Miden Si existe relación entre


variables

Magnitud: La fuerza de esa


relación

Tipo de relación: La
dirección de esa relación
(en nominales no)
Medidas de Asociación
Existen muchos coeficientes y maneras de medir asociación, pero en el curso solamente
veremos tres coeficientes:

Dos variables
Coeficiente
nominales Q
dicotómicas

Coeficiente
Dos variables
r de
ordinales Spearman

Dos Variables Coeficiente


métricas r de Pearson

Las variables dicotómicas son las que tienen únicamente dos alternativas de respuesta.
Valor del coeficiente de asociación y su
interpretación
El valor absoluto de los coeficientes varía entre 0 y 1.
Una guía para interpretar la fuerza de la asociación es la
siguiente:

Valor Asociación
0 No hay
Más de 0 a 0,20 Muy baja
Más de 0,20 a 0,40 Baja
Más de 0,40 a 0,70 Moderada
Más de 0,70 a 0,90 Alta
Más de 0,90 a menos de 1 Muy alta
1 Perfecta
Valor absoluto del coeficiente

Muy
Muy baja Baja Moderada Alta
alta

No hay Perfecta
Coeficiente Q: para dos variables
dicotómicas
Variable X

X1 X2
Para una
información Y1 a b
organizada de Variable Y
esta manera:
Y2 c d

Entonces: Coeficiente Q = bc – ad
bc + ad
Coeficiente Q
• Su valor puede variar entre 0 y 1
• En ocasiones puede dar negativo, pero el
signo para este coeficiente NO interesa, o sea:
se utiliza su valor absoluto.
• Mide solo magnitud, no mide dirección
Menor asociación Mayor asociación

0 1

Asociación Asociación
nula perfecta
Ejemplos
1. Una casa farmacéutica desarrolló una nueva vacuna contra la
gripe. Para probar su efectividad eligió una muestra de 80
personas y a 50 de ellas les aplicó la vacuna y a las restantes no
se la aplicó. De las personas a las que se no se les puso la vacuna
a 13 de ellas les dio gripe en el siguiente año, mientras que de
las que sí recibieron la vacuna 18 tuvieron gripe.
¿Qué se puede concluir con respecto a la asociación entre la
vacuna y contraer gripe?

2. En el segundo parcial del curso XS0341, grupo 05, de los 21


hombres de la lista del curso 10 llegaron a hacer el examen,
mientras que de las 17 mujeres de la lista 12 llegaron a hacer el
examen. ¿Se podrá decir que hay asociación entre sexo y llegar a
hacer el segundo parcial?
Ejemplos
1.
Gripe No gripe Total
Vacuna 18 32 50
No vacuna 13 17 30
Total 31 49 80

Q = 0,152

2. Hombres Mujeres Total


Asistieron 10 12 22
No asistieron 11 5 16
Total 21 17 38

Q = 0,451
Coeficiente r de Spearman: para dos
variables ordinales
• Las observaciones de cada variable se ordenan
y se les asignan rangos (números de 1 a n)
• Se obtiene la diferencia de los rangos
asignados a X y a Y (Di)
• El coeficiente r de Spearman se calcula así:

rs = 1 – 6 (D12 + D22 + D32 + …. + Dn2)


n (n2 – 1)
Coeficiente r de Spearman
• Su valor puede variar entre -1 y 1
• Mide magnitud y dirección

Mayor asociación Mayor asociación

-1 Inversa 0 Directa
1

Asociación Asociación Asociación


perfecta nula perfecta
Ejemplo
En un examen oral dos profesores evaluaron a 7 estudiantes y les
dieron una valoración entre Excelente y Pésimo. También se
tiene el Coeficiente de Inteligencia del Estudiante (IQ). Los
resultados son los siguientes:
Estudiante Nota Profesor 1 Nota Profesor 2 IQ Concursante
1 Bueno Pésimo Más o menos alto
2 Malo Regular Muy alto
3 Excelente Muy Malo Central
4 Regular Muy Bueno Alto
5 Pésimo Bueno Muy Bajo
6 Muy Bueno Malo Bajo
7 Muy Malo Excelente Más o menos bajo

¿Cuál es la asociación entre los puntajes dados por los jueces?


Las calificaciones de cuál de los jueces tiene mayor asociación
con el IQ del estudiante
Ejemplo
Diferencias al cuadrado
Estudiante Nota Profesor 1 Rango Nota Profesor 2 Rango IQ Rango
Prof1 y Prof2 Prof1 y IQ Prof2 y IQ

Más o menos
1 Bueno 3 Pésimo 7 3 16 0 16
alto

2 Malo 5 Regular 4 Bajo 1 1 16 9

3 Excelente 1 Muy Malo 6 Alto 4 25 9 4

4 Regular 4 Muy Bueno 2 Central 2 4 4 0

5 Pésimo 7 Bueno 3 Muy Bajo 7 16 0 16

6 Muy Bueno 2 Malo 5 Muy alto 6 9 16 1

Más o menos
7 Muy Malo 6 Excelente 1 5 25 1 16
bajo

Total 96 46 62

rs -0,714 0,179 -0,107


Coeficiente r de Spearman
• Prueba de hipótesis

Aunque el valor de rs sea diferente de cero, puede


deberse al hecho de estar usando una muestra.
Tal vez en la población en realidad no exista
asociación entre las variables.

Para probar esto se realiza una prueba llamada


“Prueba de Hipótesis” en la que se valora si en la
población la asociación es igual a cero o diferente
de cero.
Prueba de Hipótesis Coeficiente r de Spearman
Para realizar la prueba de hipótesis de
compara el valor absoluto de rs obtenido
con el valor crítico (r*) de rs que se
obtiene de la tabla.
Entonces:
Si | rs | ≥ r*  rs difiere de cero en una
cantidad significativa y se dice que
poblacionalmente sí existe relación entre
las variables.
| rs | < r*  No se puede decir que a
nivel poblacional haya relación entre las
variables

La prueba de hipótesis se realiza al 5% de significancia. Ese 5% es la


probabilidad de tomar una decisión incorrecta, o sea, de decir que sí hay
asociación a nivel poblacional cuando en realidad no la hay.
Ejemplo
Para el ejemplo de los dos profesores y el IQ:

• r* = 0,786 para n=7

• |rs| de profesor1 vrs profesor2 = 0,714 < 0,786

 Al 5% de significacia NO se puede decir que a nivel


poblacional haya asociación entre las notas puestas por el
profesor 1 y el profesor 2.
Coeficiente r de Pearson: para dos
variables de intervalo o razón

• El coeficiente r de Pearson se calcula así:

rxy =(X1-X)(Y1-Y) + (X2-X)(Y2-Y) +…+ (Xn-X)(Yn-Y)

(n – 1) SxSy
Donde: X = Promedio de la variable X
Y = Promedio de la variable Y
Sx = Desviación Estándar de la variable X
Sy = Desviación Estándar de la variable Y
Coeficiente r de Pearson
• Al igual que el r de Spearman, su valor puede
variar entre -1 y 1
• Mide relaciones lineales entre X y Y
• Mide magnitud y dirección

Mayor asociación Mayor asociación

-1 Inversa 0 Directa
1

Asociación Asociación Asociación


perfecta nula perfecta
Coeficiente r de Pearson
• Diagrama de dispersión: muestra los valores
de dos variables para un conjunto de datos.
14

Y
12 8; 12
X Y
2 6 10 6; 10
7 7
1 4 8
8 12 4; 7 7; 7
5 5 6 2; 6

4 7 5; 5

6 10 4 1; 4

1 2
2 1; 2

0
0 1 2 3 4 5 6 7 8 9

X
Diagrama de Dispersión
• Nos indica el tipo de relación entre las variables
Tipo de Relación: Dirección
• Positiva: Ascendente
• Negativa: Descendente
• Nula

Magnitud: Fuerza
• Alta: Puntos cercanos
• Baja: Puntos separados
• Nula

Linealidad
• Lineal
• No lineal
Perfecta Alta Débil

r=1
Positiva

r = 0,8
Nula

r = -1
Negativa

r=0
r = -0,9
No lineal

No usar r
de Pearson
Ejemplo
Se tiene información de años de experiencia
laboral de trabajadores de una empresa y su
salario diario en dólares
Años Salario
2 15 Dibuje el diagrama de
3 60
4 77
dispersión correspondiente
4 40 a esas variables y calcule el
5 54
6 98
coeficiente de correlación
7 66 de Pearson.
Promedio 4,43 58,57
Desv. Est. 1,72 26,51
120

100

Salario en dólares por día


80

60

40

20

0
0 2 4 6 8
Años de experiencia laboral

X Y
(X-promX)(Y-
Años Salario X-promX Y-promY promY)
2 15 -2,43 -43,57 105,8751
3 60 -1,43 1,43 -2,0449
4 77 -0,43 18,43 -7,9249
4 40 -0,43 -18,57 7,9851
5 54 0,57 -4,57 -2,6049
6 98 1,57 39,43 61,9051
7 66 2,57 7,43 19,0951
Promedio 4,43 58,57
Desv. Est. 1,72 26,51 Total= 182,2857

182,2857
𝑟= = 0,666
6∗1,72∗26,51
Para este curso, en este semestre,

¿Habrá asociación entre las notas


obtenidas en el primer parcial y las
obtenidas en el segundo parcial?
Notas I Parcial vrs Notsas II Parcial
100
74; 95
90
80 84; 77

70 53; 68
85; 70
69; 66

60
II Parcial

50
40
30
20 57; 18 82; 19
80; 13
10
0
50 60 70 80 90 100
I Parcial

r = 0,100  Muy baja asociación


Coeficiente r de Pearson
• Prueba de hipótesis

Similar a la prueba explicada


para r de Spearman, pero
para r de Pearson se utiliza la
siguiente tabla:
Correlación y Causalidad

Una correlación significativa entre dos


variables X y Y no implica la presencia de una
relación causal entre ellas.

Con frecuencia existen otras variables furtivas u


ocultas Z que afectan simultáneamente a X y Y, y
producen una correlación espuria entre X y Y.
Criterios para establecer causalidad entre
dos variables
• La asociación entre X y Y debe ser fuerte
• La asociación entre X yY debe ser consistente y
replicable. Es decir, ocurrir en diferentes países y
grupos de personas.
• Dosis mayores de X (mayor exposición) debe
producir mayor respuesta en Y
• Relación temporal: la causa X, debe preceder en el
tiempo al efecto Y.
• Coherencia: la causa X debe ser plausible
biológicamente o por alguna otra razón.
• Especificidad: la exposición a la causa X debe
producir un efecto definido.
Regresión Lineal Simple
• ¿Cuál será la nota esperada en el examen de
Cálculo para un estudiante que tuvo una nota de
80 en el examen de matemática de bachillerato?

• ¿Cuál será el ingreso monetario mensual


esperado de una persona que tiene una
maestría?

• ¿Cuál es la nota en el examen de Ciencias que


espera tener un niño que estudió 10 horas para
ese examen?
Regresión Lineal Simple
La regresión lineal es una técnica que permite
expresar la relación entre dos variables X y Y,
mediante la ecuación de una línea recta:

Y= a + bX
Interesa:
• Conocer la naturaleza de la relación de Y en función de X
• Predecir Y utilizando valores de X.
Regresión Lineal Simple
Y = Variable X = Variable
dependiente o independiente
explicada o explicativa

Y= a + bX
a = Intersección. Es el b = Pendiente. Se conoce
valor de Y cuando X=0. como coeficiente de
No siempre su regresión. Indica el cambio
interpretación es útil. promedio en Y por cada
unidad de cambio en X.

 Al hacer un modelo de regresión debe analizarse cuál variable


en la dependiente y cuál la independiente
Regresión Lineal Simple
Y= a + bX
Interesa entonces determinar los valores de a y b
que permitan hacer las mejores estimaciones de Y
en función de los valores de X.
Los valores a y b se estiman mediante una técnica
estadística llamada mínimos cuadrados, que
consiste en encontrar la línea recta que mejor se
ajuste a los datos observados.
Las fórmulas son:

𝑏 = 𝑟𝑆𝑦 /𝑆𝑥 𝑎 = 𝑌 − 𝑏𝑋
Ejemplo
Se tiene información de años de experiencia
laboral de trabajadores de una empresa y su
salario diario en dólares
120

100
Años Salario Salario en dólares por día
80
2 15
60
3 60
40
4 77
20
4 40 0
5 54 0 2 4 6 8
Años de experiencia laboral
6 98
7 66 ¿Por dónde debe pasar la línea que permita predecir de la
mejor manera posible valores de Y con base en valores de X?
Teníamos que:
X=Experiencia • Promedio X = 4,43
Y=Salario • Promedio Y = 58,57
• Desv. Estándar X = 1,72
• Desv. Estándar Y= 26,51
• r = 0,666

𝑏 = 𝑟𝑆𝑦 /𝑆𝑥 = 0,666*26,51/1,72 = 10,26

𝑎 = 𝑌 − 𝑏𝑋 = 58,57-10,26*4,43 = 13,12
Entonces, la recta de regresión es:

Y= 13,12 + 10,26X
Y= 13,12 + 10,26X

b = 10,26  Por cada


a = 13,12  Una año de experiencia
persona con cero años adicional que tenga
de experiencia tendrá una persona en el
en promedio un salario puesto, su salario
diario de $13,12 diario aumentará en
promedio $10,26
Se busca minimizar las distancias entre
los puntos y la recta
120

100

80
Salario en dólares por día

60

40

20

0
0 1 2 3 4 5 6 7 8 9
Años de experiencia laboral
• ¿Cuál será en promedio el salario diario de
una persona que tenga 5 años de experiencia?
• ¿Y de alguien que tanga 9 años de
experiencia?

Si X = 5  Y = 13,12 + 10,26*5 = 64,42 dólares

Si X = 9  Y = 13,12 + 10,26*9 = 105,46 dólares


¿Qué tan buena es la estimación de
un valor de Y a partir de la ecuación
de regresión?

 Interpolación o Extrapolación

 Bondad de ajuste
Interpolación y Extrapolación
Interpolación: Se predice Y utilizando un valor
de X que se encuentra dentro del rango de las X
observadas.

Extrapolación: Se predice Y utilizando un valor


de X que se encuentra fuera del rango de las X
observadas.
En el ejemplo, la estimación del salario cuando X=3
es una interpolación y cuando X=9 es una
extrapolación.
Bondad de Ajuste
• Mide qué tan cerca están los puntos del diagrama
de dispersión de la recta de regresión

• Se emplea el coeficiente de determinación (R2).

R 2 = r2

El coeficiente de determinación mide la proporción


de la variabilidad de Y que está explicado por su
relación lineal con X. Se suele multiplicar por 100
para expresarla en términos de porcentaje.
Bondad de Ajuste según
valor de R2

Muy
Muy Mala Mala Moderada Buena buena
En el ejemplo:

R2 = (0,666)2 = 0,444  44,4%

El 44,4% de la variabilidad del salario diario


recibido por una persona de la empresa está
explicada por su relación lineal con los años de
experiencia laboral. Un 55,6% de la variabilidad
está explicado por otros factores.

La bondad de ajuste es moderada


Ejemplo: A continuación se muestran las notas obtenidas por 8 niños en un
examen de ciencias. Se incluye las horas que los niños dijeron haber estudiado
para ese examen y las horas que jugaron con su celular, ambos en la semana
previa al examen.
Estudiante Nota Estudio Celular
1 87 8 15
2 66 3 24 Además se sabe que el coeficiente
3 73 4 18 de correlación de Pearson entre
4 90 7 18
5 95 10 9
6 53 3 21 Nota-Estudio= 0,848
7 73 6 12 Nota-Celuar= -0,616
8 78 9 10
Promedio 76,88 6,25 15,88
Desv. Estándar 13,75 2,71 5,33

1. Dibuje los diagramas de dispersión y dibuje en cada uno la respectiva recta de regresión.
2. Interprete los coeficientes de correlación. ¿Son significativamente diferentes de cero?
3. Interprete el coeficiente de regresión obtenido.
4. Interprete el coeficiente de determinación de ambas rectas.
5. Si un estudiante estudió 5 horas, ¿qué nota espera obtener? Si un estudiante jugó 26
horas en su celular, ¿qué nota espera obtener?
6. ¿Cuál de las dos estimaciones anteriores es mejor?
Nota obtenida en examen de matemática según horas
de estudio, 2016
120

100

80

Y=50,02 + 4,30X
Nota

60
R2 = 71,85%
40

20

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Horas estudio
Nota obtenida en examen de matemática según horas
que jugó en el celular, 2016
100

90

80

70

60
Y=102,11 – 1,59X
Nota

50
R2 = 37,99% 40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Horas celular

Вам также может понравиться