Академический Документы
Профессиональный Документы
Культура Документы
El Anlisis Estadstico
Tcnica utilizada para analizar informacin cuantitativa, la cul se puede dividir en tres grandes reas:
Estadstica Multivariada
El Anlisis Estadstico
Estadstica Bivariada:
Tcnica utilizada para analizar fenmenos en relacin a las
relaciones entre dos variables. Ej: Entender la relacin entre los aos de estudio y el ingreso del padre. Se pueden distinguir 3 formas centrales de analilis bivariado:
o Medidas de asociacin (Chi cuadrado) o Medidas de correlacin (R de Pearsons)
Clase de Hoy:
Pruebas de diferencias en la estadstica bivariada
R de Pearson
Regresin Lineal
R de Pearson
Verifica asociacin entre dos variables numricas. La idea central en la correlacin es la covarianza, la variacin conjunta entre dos variables. Lo que se observa es si existe relacin lineal entre ambas variables La correlacin es simtrica y no establece causalidad. El coeficiente indica intensidad y direccin de la relacin. Su fuerza va de 1 a 1. Intensidad: el 0 significa ausencia de relacin. el 1 es la relacin perfecta. Rangos:
o 1.00 = relacin perfecta o 0.90 = relacin muy fuerte o 0.75 = relacin fuerte o 0,50 = relacin media
R de Pearson
Direccin. Tiene sentido positivo y negativo. Correlacin positiva: la relacin es directa (aumenta A, aumenta B; disminuye A, disminuye B). Correlacin negativa: la relacin es inversa (aumenta A, disminuye B; disminuye A, aumenta B). Al elevar el R de Pearson al cuadrado se obtiene el coeficiente de determinacin que indica la proporcin de varianza comn entre las dos variables R = 0,7 R2 = 0,49 = 49% de varianza comn
R de Pearson
Prueba Estadstica: H0 : No existe una correlacin entre ambas variables (x e y) en la poblacin. H1 : Existe una correlacin entre ambas variables (x e y) en la poblacin. Lo anterior se decide a travs del anlisis del valor p asociado al valor del R de Pearson obtenido.
R de Pearson
Ejemplo: Existen una asociacin entre edad y posicin poltica en una escala poltica donde 1 es muy de izquierda y 10 muy de derecha? H0 : No hay asociacin entre edad y posicin poltica. H1 : Hay asociacin entre edad y posicin poltica.
R de Pearson: 0.54
Valor p : 0.03 Decisin: Rechazar la hiptesis nula de no correlacin entre edad y posicin poltica (p<0.05) Podemos decir entonces que en la poblacin hay una asociacin entre edad y posicin poltica en el sentido de que mientras ms viejo uno sea es ms esperable que uno tenga posiciones ms de derecha.
La Regresin Lineal
Es el mtodo de anlisis estadstico multivariado usado cuando el problema del investigador tiene una variable numrica dependiente que intenta ser explicada por una o ms variables independientes. Si tenemos una sola variable independiente para explicar la variable dependiente hablamos de regresin lineal simple. Cuando tenemos dos o ms variables independientes hablamos de regresin lineal mltiple. Un objetivo central de la regresin lineal es predecir los cambios en la variable dependiente en respuesta a cambios en las variables independientes. Las variables independientes a estudiar en relacin a la variable dependiente de tipo continua pueden ser tanto continuas, ordinales como nominales (Ej: Edad, GSE, Sexo).
La regresin lineal es siempre til si uno esta interesado en predecir la magnitud de la variable dependiente. Ej: Prediccin de puntaje PSU a partir de saber NSE y educacin de la madre.
9
Condiciones de Aplicacin
Variables:
La variable dependiente debe ser numrica. 2 o ms variables independientes y una variable dependiente. Cada variable independiente debe aportar con informacin original, a la explicacin de la variable dependiente (Evitar a multicolinealidad). Variables independientes correlacionadas con variable dependiente.
Supuestos:
Parmetros constantes, es decir no hay variaciones relevantes en el comportamiento de los sujetos en el tiempo. Homocedasticidad: la dispersin del error de la variable dependiente .
Tamao Muestral:
A mayor cantidad de variables independientes incluidas en el modelo, mayor debe ser el tamao muestral. La potencia de la prediccin aumenta en funcin del tamao muestral.
10
Se usa cuando queremos analizar una variable dependiente continua en base a slo una variable independiente.
Yi = + Xi + i
Variable Constante
Pendiente
dependiente
Variable Independiente
Error
11
Ejemplo Regresin Lineal Simple: : la educacin depende del ingreso del padre
Ingreso (X) 2 5 4 2 5 Educacin (Y) 3 1 1 1 4
Educacin (Y)
La variable independiente Ingreso del padre (X) explica la variable dependiente aos de escolaridad (Y). El modelo de regresin lineal identifica una recta de regresin que se ajuste mejor a los puntos observados para luego predecir valores de Y en funcin de valores de X.
12
Ejemplo Regresin Lineal Simple: la educacin depende del ingreso del padre
Yi = + Xi Escolaridad = 5 + 0.1 x Ingreso del padre
De acuerdo a este modelo, los aos de escolaridad de una persona pueden ser predichos mediante la formula: Escolaridad = 5 + 0.1 Ingreso del padre. Por ejemplo, el modelo predice que una persona cuyo padre tiene un ingreso de 100 pesos debera tener 15 aos de escolaridad (5 + 0.1 x 100 = 15). El coeficiente de 0.1 puede ser interpretado en el sentido de que un aumento de 1 peso de ingreso predice el aumento de 0.1 aos de escolaridad. El coeficiente puede interpretarse sealando que la escolaridad esperada para alguien con un ingreso de 0 pesos es de 5 aos.
13
Se utiliza cuando queremos analizar una variable dependiente continua en base a dos o ms variables independientes.
Yi = + 1X1 + nXn + i
Variable dependiente
Constante
Pendiente V1.
V ar. Independiente 1
Pendiente V n.
Var. Independiente n.
Error
14
El modelo de regresin mltiple analiza las relaciones entre una variable dependiente y una variable independiente controlando o manteniendo constantes las otras variables independientes.
La relacin entre una variable dependiente y una variable independiente se predice de una manera ms clara cuando se controla por una tercera variable que podra estar afectando la asociacin entre estas dos variables.
Una tercera variable intercede la asociacin de las otras dos variables cuando est asociada con ambas variables.
15
La relacin entre el consumo de coca-cola y tener accidentes de trnsito es espuria debido a que esta asociacin slo se explicaba porque el consumo de coca cola se encuentra asociado al consumo de alcohol.
16
17
Parmetros: = 300, 1 = 9 y 2 = -2
Cada variable independiente tiene un valor de su pendiente (), el cul tiene asociado un valor p que permite evaluar la presencian de la asociacin de cada variable con la variable dependiente en la poblacin.
Variable
Pendiente () 9
Valor p
0.03
-2
0.7
20
Parmetros: = 300, 1 = 9 y 2 = -2
El valor p del coeficiente de la variable Hrs de estudio es menor a 0.05, lo cual significa que, controlado por las hrs de trabajo, la asociacin entre las horas de estudio y el puntaje PSU es significativa al 95% de confianza. El valor p del coeficiente de la variable Hrs de trabajo es mayor a 0.05, lo cual significa que, controlado por las hrs de trabajo, la asociacin entre las horas de estudio y el puntaje PSU no es estadsticamente significativa.
Variable
Pendiente () 9
Valor p
Hrs de estudio
0.03
Hrs de trabajo
-2
0.7
21
Coeficiente de determinacin r2: proporcin de la varianza de la variable dependiente explicada por el conjunto de variables independientes. Anova entre varianza explicada por el modelo y la varianza residual (no explicada por el modelo): se espera que la primera sea mayor que la segunda y que esto se de a un nivel de significacin inferior a 0.05.
22
Evaluacin de las condiciones de aplicacin del modelo mediante al anlisis de los residuos
El anlisis grfico de los residuos permite determinar si se estn cumpliendo con las condiciones de aplicacin del modelo. La normalidad se verifica a partir de un histograma de los residuos y el trazado de la curva normal. Tambin se puede analizar el grfico de probabilidad normal, donde se compara la diagonal terica con la trazada por los valores residuales.
Histograma
1000
Variable dependiente: Evaluacin: Comunicacin Variable contigo: Padre dependiente: Evaluacin: Comunicacin contigo:
800
,8
600
,5
400
Frecuencia
200
,3
23
Evaluacin de las condiciones de aplicacin del modelo mediante al anlisis de los residuos
La homocedasticidad se verifica en un grafico de distribucin de los residuos segn la variable pronosticada. Se debe observar una distribucin aleatoria cercana a 0 y una concentracin homognea de los datos.
24
Ejercicios:
Ejercicio Existe una asociacin entre opinin sobre la situacin econmica del pas, edad, sexo y aos de escolaridad?
Variable Dependiente: De 1 a 5, donde 1 es Muy Mala y 5 es Muy Buena, Cmo calificara Ud. la actual situacin econmica del pas?
Ejercicios:
Ejercicio Existe una asociacin entre opinin sobre la situacin econmica del pas, edad, sexo y aos de escolaridad?