Вы находитесь на странице: 1из 26

METODOLOGA CUANTITATIVA: CLASE 12

ANLISIS ESTADSTICO BIVARIADO/MULTIVARIADO:

Magster en Sociologa Universidad Alberto Hurtado


Gabriela Azcar de la Cruz Juan Ignacio Venegas Ayudante: Martn Icaza

El Anlisis Estadstico
Tcnica utilizada para analizar informacin cuantitativa, la cul se puede dividir en tres grandes reas:

Estadstica Univariada Estadstica Bivariada

Estadstica Multivariada

El Anlisis Estadstico
Estadstica Bivariada:
Tcnica utilizada para analizar fenmenos en relacin a las
relaciones entre dos variables. Ej: Entender la relacin entre los aos de estudio y el ingreso del padre. Se pueden distinguir 3 formas centrales de analilis bivariado:
o Medidas de asociacin (Chi cuadrado) o Medidas de correlacin (R de Pearsons)

o Pruebas de diferencia (pruebas t, ANOVA).

Clase de Hoy:
Pruebas de diferencias en la estadstica bivariada
R de Pearson

Regresin Lineal

R de Pearson
Verifica asociacin entre dos variables numricas. La idea central en la correlacin es la covarianza, la variacin conjunta entre dos variables. Lo que se observa es si existe relacin lineal entre ambas variables La correlacin es simtrica y no establece causalidad. El coeficiente indica intensidad y direccin de la relacin. Su fuerza va de 1 a 1. Intensidad: el 0 significa ausencia de relacin. el 1 es la relacin perfecta. Rangos:
o 1.00 = relacin perfecta o 0.90 = relacin muy fuerte o 0.75 = relacin fuerte o 0,50 = relacin media

o 0,1 0= relacin dbil

R de Pearson
Direccin. Tiene sentido positivo y negativo. Correlacin positiva: la relacin es directa (aumenta A, aumenta B; disminuye A, disminuye B). Correlacin negativa: la relacin es inversa (aumenta A, disminuye B; disminuye A, aumenta B). Al elevar el R de Pearson al cuadrado se obtiene el coeficiente de determinacin que indica la proporcin de varianza comn entre las dos variables R = 0,7 R2 = 0,49 = 49% de varianza comn

R de Pearson
Prueba Estadstica: H0 : No existe una correlacin entre ambas variables (x e y) en la poblacin. H1 : Existe una correlacin entre ambas variables (x e y) en la poblacin. Lo anterior se decide a travs del anlisis del valor p asociado al valor del R de Pearson obtenido.

A menor valor p, mayor evidencia en contra de la hiptesis nula.


p<0.05: rechazamos la hiptesis nula y concluimos que ambas variables estn correlacionadas en la poblacin al 95% de confianza. P>0.05: fallamos en rechazar la hiptesis nula y concluimos que ambas variables no estn correlacionadas en la poblacin al 95% de confianza.

R de Pearson
Ejemplo: Existen una asociacin entre edad y posicin poltica en una escala poltica donde 1 es muy de izquierda y 10 muy de derecha? H0 : No hay asociacin entre edad y posicin poltica. H1 : Hay asociacin entre edad y posicin poltica.

R de Pearson: 0.54
Valor p : 0.03 Decisin: Rechazar la hiptesis nula de no correlacin entre edad y posicin poltica (p<0.05) Podemos decir entonces que en la poblacin hay una asociacin entre edad y posicin poltica en el sentido de que mientras ms viejo uno sea es ms esperable que uno tenga posiciones ms de derecha.

La Regresin Lineal
Es el mtodo de anlisis estadstico multivariado usado cuando el problema del investigador tiene una variable numrica dependiente que intenta ser explicada por una o ms variables independientes. Si tenemos una sola variable independiente para explicar la variable dependiente hablamos de regresin lineal simple. Cuando tenemos dos o ms variables independientes hablamos de regresin lineal mltiple. Un objetivo central de la regresin lineal es predecir los cambios en la variable dependiente en respuesta a cambios en las variables independientes. Las variables independientes a estudiar en relacin a la variable dependiente de tipo continua pueden ser tanto continuas, ordinales como nominales (Ej: Edad, GSE, Sexo).

La regresin lineal es siempre til si uno esta interesado en predecir la magnitud de la variable dependiente. Ej: Prediccin de puntaje PSU a partir de saber NSE y educacin de la madre.
9

Condiciones de Aplicacin
Variables:
La variable dependiente debe ser numrica. 2 o ms variables independientes y una variable dependiente. Cada variable independiente debe aportar con informacin original, a la explicacin de la variable dependiente (Evitar a multicolinealidad). Variables independientes correlacionadas con variable dependiente.

Supuestos:
Parmetros constantes, es decir no hay variaciones relevantes en el comportamiento de los sujetos en el tiempo. Homocedasticidad: la dispersin del error de la variable dependiente .

Tamao Muestral:
A mayor cantidad de variables independientes incluidas en el modelo, mayor debe ser el tamao muestral. La potencia de la prediccin aumenta en funcin del tamao muestral.
10

La Regresin Lineal Simple

Se usa cuando queremos analizar una variable dependiente continua en base a slo una variable independiente.

El modelo de regresin lineal simple especifica que:

Yi = + Xi + i
Variable Constante
Pendiente

dependiente

Variable Independiente

Error

11

Ejemplo Regresin Lineal Simple: : la educacin depende del ingreso del padre
Ingreso (X) 2 5 4 2 5 Educacin (Y) 3 1 1 1 4

Educacin (Y)

Ingreso del padre (X)

La variable independiente Ingreso del padre (X) explica la variable dependiente aos de escolaridad (Y). El modelo de regresin lineal identifica una recta de regresin que se ajuste mejor a los puntos observados para luego predecir valores de Y en funcin de valores de X.
12

Ejemplo Regresin Lineal Simple: la educacin depende del ingreso del padre
Yi = + Xi Escolaridad = 5 + 0.1 x Ingreso del padre

De acuerdo a este modelo, los aos de escolaridad de una persona pueden ser predichos mediante la formula: Escolaridad = 5 + 0.1 Ingreso del padre. Por ejemplo, el modelo predice que una persona cuyo padre tiene un ingreso de 100 pesos debera tener 15 aos de escolaridad (5 + 0.1 x 100 = 15). El coeficiente de 0.1 puede ser interpretado en el sentido de que un aumento de 1 peso de ingreso predice el aumento de 0.1 aos de escolaridad. El coeficiente puede interpretarse sealando que la escolaridad esperada para alguien con un ingreso de 0 pesos es de 5 aos.

13

La Regresin Lineal Mltiple

Se utiliza cuando queremos analizar una variable dependiente continua en base a dos o ms variables independientes.

El modelo de regresin lineal mltiple especifica que:

Yi = + 1X1 + nXn + i

Variable dependiente

Constante

Pendiente V1.

V ar. Independiente 1

Pendiente V n.

Var. Independiente n.

Error

14

La Regresin Lineal Mltiple

El modelo de regresin mltiple analiza las relaciones entre una variable dependiente y una variable independiente controlando o manteniendo constantes las otras variables independientes.

La relacin entre una variable dependiente y una variable independiente se predice de una manera ms clara cuando se controla por una tercera variable que podra estar afectando la asociacin entre estas dos variables.
Una tercera variable intercede la asociacin de las otras dos variables cuando est asociada con ambas variables.

15

Ejemplo sobre control de variables


En una regresin lineal simple podramos encontrar una asociacin entre el consumo de coca-cola y tener accidentes de trnsito. Sin embargo, si realizamos una regresin mltiple donde las variables independientes son tanto el consumo de coca-cola como el consumo de alcohol, podremos ver que la asociacin inicial entre el consumo de coca-cola y tener accidentes de trnsito desaparece al controlar por la variable consumo de alcohol.

La relacin entre el consumo de coca-cola y tener accidentes de trnsito es espuria debido a que esta asociacin slo se explicaba porque el consumo de coca cola se encuentra asociado al consumo de alcohol.

16

La Regresin Lineal Mltiple


Al igual que en el caso de la regresin lineal simple, para el caso de la regresin lineal mltiple se genera un modelo donde se identifica una recta de regresin que se ajuste mejor a los puntos observados para predecir valores de Y en funcin de valores de todas las variables independientes.

17

Ejemplo Regresin Lineal Mltiple


Y= + 1*X1 + 2*X2 Puntaje PSU = + 1*horas de estudio + 2*horas de trabajo remunerado Si , por ejemplo , obtenemos un modelo donde los parmetros son = 300, 1 = 9 y 2 = -2, tenemos que Y= 300 + 9*X1 - 2*X2 , es decir, Puntaje PSU: 300 + 9 * horas de estudio 2 * horas de trabajo remunerado
Por ejemplo, el modelo predice que una persona que estudi 25 horas y que trabaj 30 horas, debera obtener un puntaje PSU de 505 (300 + (25*9 ) - (10*2)). El coeficiente 1 de 9 puede ser interpretado como que, controlado por el nmero horas de trabajo, por cada hora extra que una persona estudie, se predice que se aumenta en 9 puntos el puntaje PSU.
18

Ejemplo Regresin Lineal Mltiple


Y= + 1*X1 + 2*X2 Puntaje PSU = + 1*horas de estudio + 2*horas de trabajo remunerado Si por ejemplo , obtenemos un modelo donde los parmetros son = 300, 1 = 9 y 2 = -2 tenemos que Y= 300 + 9*X1 - 2*X2 , es decir, Puntaje PSU: 300 + 9 * horas de estudio 2 * horas de trabajo remunerado
El coeficiente 2 de -2 puede ser interpretado como que, controlado por el nmero horas de estudio, por cada hora extra que una persona trabaje, se predice que su puntaje PSU disminuye en 2 puntos. El coeficiente de 300, puede interpretarse como el puntaje PSU esperado para alguien que no estudi ni trabaj ninguna hora.
19

Ejemplo de Estadstica Inferencial con regresin lineal


Puntaje PSU = + 1*horas de estudio + 2*horas de trabajo remunerado

Parmetros: = 300, 1 = 9 y 2 = -2

Cada variable independiente tiene un valor de su pendiente (), el cul tiene asociado un valor p que permite evaluar la presencian de la asociacin de cada variable con la variable dependiente en la poblacin.

Variable

Pendiente () 9

Valor p

Hrs de estudio Hrs de trabajo

0.03

-2

0.7

20

Ejemplo de Estadstica Inferencial con regresin lineal


Puntaje PSU = + 1*horas de estudio + 2*horas de trabajo remunerado

Parmetros: = 300, 1 = 9 y 2 = -2
El valor p del coeficiente de la variable Hrs de estudio es menor a 0.05, lo cual significa que, controlado por las hrs de trabajo, la asociacin entre las horas de estudio y el puntaje PSU es significativa al 95% de confianza. El valor p del coeficiente de la variable Hrs de trabajo es mayor a 0.05, lo cual significa que, controlado por las hrs de trabajo, la asociacin entre las horas de estudio y el puntaje PSU no es estadsticamente significativa.

Variable

Pendiente () 9

Valor p

Hrs de estudio

0.03

Hrs de trabajo

-2

0.7

21

Evaluacin de los modelos

Coeficiente de determinacin r2: proporcin de la varianza de la variable dependiente explicada por el conjunto de variables independientes. Anova entre varianza explicada por el modelo y la varianza residual (no explicada por el modelo): se espera que la primera sea mayor que la segunda y que esto se de a un nivel de significacin inferior a 0.05.

22

Evaluacin de las condiciones de aplicacin del modelo mediante al anlisis de los residuos
El anlisis grfico de los residuos permite determinar si se estn cumpliendo con las condiciones de aplicacin del modelo. La normalidad se verifica a partir de un histograma de los residuos y el trazado de la curva normal. Tambin se puede analizar el grfico de probabilidad normal, donde se compara la diagonal terica con la trazada por los valores residuales.
Histograma
1000

Grfico P-P normal de regresin Residuo tipificado


1,0

Variable dependiente: Evaluacin: Comunicacin Variable contigo: Padre dependiente: Evaluacin: Comunicacin contigo:
800
,8

600

Prob acum esperada

,5

400

Frecuencia

200

Desv. tp. = 1,00 Media = 0,00 N = 3216,00


50 6, 0 5 5, 0 5 4, 0 5 3, 0 5 2, 0 5 1, 0 ,5 0 0 -,5 ,5 -1 50 , -2 50 , -3 50 , -4 50 , -5 50 , -6

,3

0,0 0,0 ,3 ,5 ,8 1,0

Regresin Residuo tipificado

Prob acum observada

23

Evaluacin de las condiciones de aplicacin del modelo mediante al anlisis de los residuos
La homocedasticidad se verifica en un grafico de distribucin de los residuos segn la variable pronosticada. Se debe observar una distribucin aleatoria cercana a 0 y una concentracin homognea de los datos.

Valores residuales estandarizados

0 Valores pronosticados estandarizados 0

24

Ejercicios:
Ejercicio Existe una asociacin entre opinin sobre la situacin econmica del pas, edad, sexo y aos de escolaridad?

Variable Dependiente: De 1 a 5, donde 1 es Muy Mala y 5 es Muy Buena, Cmo calificara Ud. la actual situacin econmica del pas?

Variables Independientes: Sexo (Hombre, Mujer), Edad en aos, aos de escolaridad.

Ejercicios:
Ejercicio Existe una asociacin entre opinin sobre la situacin econmica del pas, edad, sexo y aos de escolaridad?

Вам также может понравиться