Вы находитесь на странице: 1из 29

EST-203 ESTADISTICA II Arturo Calderón G.

2014 1

2. Modelo de Regresión Lineal Múltiple

2.1 Uso

Es una extensión del modelo lineal simple, que se aplica cuando tenemos una
variable "dependiente" cuantitativa Y que responde linealmente (o “en relación de
proporcionalidad”) a p variables "independientes" cuantitativas X1, X2, … , Xp

2.2 El Modelo

La linealidad que se postula, implica proporcionalidad de la variación en Y cuando


alguna de las variables independientes aumenta su valor y las demás se mantienen
constantes. Por eso el modelo de datos es:

Y = β0 + β1X1 + β 2 X2 + β3X3 + ... + β p Xp + ε , donde ε es residuo aleatorio tal que


ε ~ N ( 0, σ 2 ) .
Las constantes β 0 , β1 , β 2 , ..., β p y σ son "parámetros" por estimar.
2

Gráficamente (Diagrama de Caminos):

X1
ß1

X2 ß2
Y
ε
X3 ß3

ßp

Xp

Nota: Proporcionalidad de Y con cada v.independiente, por ejemplo, con X2, significa
que:
Si X2 aumenta a (X2+1) entonces Y cambia en β 2 unidades. En efecto:

Y = β0 + β1X1 + β2X2 + β3X3 + ... + βp Xp + ε


EST-203 ESTADISTICA II Arturo Calderón G. 2014 2

Y ' = β0 + β1X1 + β2 (X2 + 1) + β3X3 + ... + βpXp + ε ⇔


Y ' = β 0 + β1X1 + β 2 X 2 + β 2 + β3X3 + ... + β p X p + ε ⇒ Cambio = Y ' − Y = β 2
Si β 2 > 0 se trata de un aumento en Y y hay relación directa
Si β 2 < 0 se trata de una disminución en Y y hay relación inversa.

El tratamiento estadístico con SPSS o Excel es totalmente análogo al del caso simple:

Plan de análisis estadístico


1º Debemos estimar los coeficientes β 0 , β1 , β 2 , ..., β p y σ así como los errores
2

estándar de estimación.
2º Hay que medir el efecto conjunto de las p variables independientes X1 , X2 , ..., X p
en la variable respuesta Y , y ver si este efecto es real o no. Esto se hace con el R2
y su significancia mediante el estadístico F.
3º Debemos determinar cuáles de las p variables independientes tienen efecto real, o
sea si el correspondiente coeficiente es distinto de cero o si tiene un signo de-
terminado (positivo o negativo), de acuerdo a hipótesis de trabajo previas a la
toma de datos. Esto se hace realizando para cada v.i. un contraste t-Student con (n-
p-1) grados de libertad; son p contrastes, uno por cada variable independiente del
modelo.
4º Adicionalmente, tendremos que hacer una jerarquización para ver cuáles
variables independientes son más importantes y cuáles menos importantes. Esto
último sólo tiene sentido en el modelo múltiple y entre variables cuyos
coeficientes resulten significativos. Esto se hace con los “coeficientes beta
estandarizados” de las variables “significativas” según previas pruebas t de
Student.
5º Verificación de los supuestos del modelo.

2.3 Los supuestos del modelo

Dada la ecuación general y medidas las variables en los n casos se tiene, para el caso
# j:
Y j = β 0 + β1X1j + β 2 X 2j + β 3X 3j + ... + β p X pj + ε j

Los supuestos estadísticos que asumiremos son los mismos del modelo lineal simple
y un supuesto adicional:

• ε j tiene media cero. O sea hay equidad del azar con todos: en algún momento
puede originar una sobrevaluación de Y j (cuando ε j > 0 ) pero en otro momento
puede subvaluar Y j (cuando ε j < 0 ), de modo que en promedio, el efecto del azar
es cero.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 3

• ε j tiene varianza constante σ 2 , o sea hay homogeneidad del azar: la amplitud con
que puede afectar a cada Y j es constante.
• Hay independencia entre casos, la actuación del azar se supone pareja, sin tener a
unos casos afectando a otros.
• Las variables independientes X 1 , X 2 , X 3 , ..., X p son no aleatorias (de valores fijos)
o siendo aleatorias, son de valores dados, anteriores a Y
• Las variables X 1 , X 2 , X 3 , ..., X p son independientes, no están relacionadas o
excesivamente correlacionadas. Si este supuesto no se cumple las estimaciones de
los parámetros son muy inestables y con errores estándar de estimación muy altos,
lo que se conoce como "Problema de Multicolinealidad".

Formalmente, los supuestos se escriben:


(a) E (ε j ) = 0 para todo caso j
(b) V (ε j ) = σ para todo caso j
2

(c) ρε jε j ' = 0 para todo par de casos j y j '


(d) X 1 , X 2 , X 3 , ..., X p son de valores dados, no aleatorios
(e) ρ X i X k = 0 para todo par de variables independientes X j y X k

Como Y j = β 0 + β1X1j + β 2 X 2j + β 3X 3j + ... + β p X pj + ε j , los supuestos implican que


E (Y ) = β0 + β1X1 + β2 X2 + β3X3 + ... + β pX p y V (Y ) = σ 2 .

Se deduce que podemos "pronosticar" el valor aproximado de Y si estimamos los


coeficientes β y reemplazamos en el modelo. El "error" promedio en el pronóstico
estaría dado por la estimación de σ .

2.4 Interpretación de los parámetros

β 0 es el valor esperado deY cuando todas las X j son cero


β k es el cambio esperado en Y cuando Xk crece en una unidad y las otras variables
X j se mantienen constantes.
Si β k >0, la relación de Y con Xk es directa; si β k <0, la relación de Y con Xk es
inversa.

2.5 Estimación de los Parámetros

Dado el modelo
Y = β0 + β1X1 + β2X2 + β3X3 + ... + βp Xp + ε
1444444 424444444 3
Yˆj
EST-203 ESTADISTICA II Arturo Calderón G. 2014 4

El método para hallar las mejores estimaciones de los parámetros es el de Mínimos


Cuadrados. Se eligen como estimaciones de β0 , β1, β2 , β3 , ..., βp a aquellos valores que
minimizan la “Suma de cuadrados residual o del error” SCE:
SCE = ∑ εˆ ≡ ∑ (Y j − Yˆj ) 2 ≡∑ (Y j − βˆ0 + βˆ1X1j + βˆ2 X 2j + βˆ3 X 3j + ... + βˆp X pj ) 2
n n n
2
j
j =1 j =1 j =1

• Las estimaciones serán denotadas βˆ0 , βˆ1 , βˆ2 , βˆ3 , ..., βˆp
• La estimación de Y j , denotada Ŷj es
Yˆj = βˆ0 + βˆ1X1 + βˆ2 X 2 + βˆ3 X 3 + ... + βˆp X p
• La estimación del error o residuo ε j es εˆ j = Yj − Yˆj
La estimación de σ es
2

n n

∑ εˆ
j =1
2
j ∑ (Y
j =1
j − Yˆj ) 2
σˆ 2 = Sε2 = = = Varianza residual o del azar
(n − p − 1) (n − p − 1)
El Error Estándar o típico de estimación de Y es σˆ = σˆ y mide el “margen de
2

error” asociado al uso del modelo como base para el pronóstico de valores de Y .
En este contexto se escribe el intervalo de estimación de Y como
Y = Yˆ ± σˆ = βˆ0 + βˆ1X1 + βˆ2X 2 + βˆ3X3 + ... + βˆp X p ± σˆ

Antes de seguir con la teoría, veamos un ejemplo de cómo se realiza el análisis con
SPSS.

Ejemplo 2
Para evaluar un programa de capacitación para empleo como vendedoras comisio-
nistas de productos textiles, se identificó cuatro factores que podrían estar asociados
al ingreso diario Y logrado por la participante del programa. Estos factores eran:
Puntuación en una prueba que mide el grado de capacitación lograda con el progra-
ma(X1), Número mensual de horas trabajadas(X2), Edad en años(X3) y Meses de
experiencia en algún trabajo similar(X4).
Se seleccionó aleatoriamente n=42 vendedoras, se registró cada variable de interés y
los datos se pasaron a un archivo SPSS.

Se tenía como hipótesis que el ingreso responde proporcionalmente de modo directo


al grado de capacitación, a la cantidad de horas de trabajo y a la mayor experiencia
pero que la edad es un factor en contra del ingreso de la persona.

Las hipótesis plantean una relación lineal múltiple del ingreso diario Y con las p=4
variables independientes X1, X2, X3 y X4.
Es aplicable el modelo Y=β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + ε, en donde debe cum-
plirse que β1 > 0, β2 > 0, β3 < 0 y β4 > 0
EST-203 ESTADISTICA II Arturo Calderón G. 2014 5

O equivalentemente
Ingreso = β0 + β1 Capacitación+ β2 Horas + β3 Edad + β4 Experiencia + ε donde
tenemos las hipótesis de trabajo y sus equivalentes hipótesis estadísticas H1:
HT1: Ingreso responde proporcionalmente de modo directo al grado de
capacitación⇒ H1:β1 > 0

HT2: Ingreso responde proporcionalmente de modo directo a la cantidad de horas


de trabajo⇒ H1:β2 > 0

HT3: La edad es un factor en contra del ingreso de la persona⇒ H1:β3 < 0

HT4: Ingreso responde proporcionalmente de modo directo a la mayor experiencia


⇒ H1:β4 > 0

Tenemos que aplicar análisis de regresión lineal múltiple para ajustar un modelo
lineal y contrastar hipótesis.

Análogamente al caso lineal simple, aplicamos el procedimiento Regresión de SPSS:

Analizar⇒Regresión⇒Lineales→Dependientes:Y→Independientes: X1, X2, X3 y X4


→Aceptar (o en inglés:Analyze⇒Regression⇒Linear→Dependent:Y→Independent-
(s): X1, X2,X3 y X4 → OK)

Obtenemos tablas similares al caso lineal simple:


Tabla 1 Resumen del modelo
R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación
1 ,917a ,841 ,824 ,3064
a. Variables predictoras: (Constante), X4 Experiencia, X3
Edad, X2 Horas de trabajo/mes, X1 Capacitación

SPSS estima parámetros y muestra en la Tabla 1 los indicadores de ajuste:

El Coeficiente de correlación múltiple: R = rYYˆ = 0,917 , que es la correlación de


Pearson entre el valor real del ingreso Y y su estimación Yˆ según el modelo. Según
Cohen es una correlación grande e indica un buen ajuste.

El Coeficiente de Determinación: R2=0,9172=0,841 que algebraicamente se define


mediante

∑ (Yˆ −Y )
n
2
j
j =1 Variabilidad originada por X 1 , X 2 ,..., X 4
R2 = n
=
Variabilidad total en Y
∑ (Y j − Y )2
j =1
EST-203 ESTADISTICA II Arturo Calderón G. 2014 6

y que es la proporción de diferencias en Y originadas o explicadas por diferencias en


las variables independientes del modelo. Pasado a porcentaje podemos decir que un
84,1% de diferencias en los ingresos se explican por diferencias en algunas de las
variables: Capacitación, Horas de trabajo, Edad o Experiencia.

Además SPSS muestra el R2 corregido (o ajustado) que examinaremos después y el


Error típico o estándar de estimación σˆ = 0,3064 , que es el margen de error que se
comete cuando se estima el valor esperado de Y usando el modelo lineal.

Tabla 2 ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 18,386 4 4,596 48,968 ,000a
Residual 3,473 37 ,094
Total 21,859 41
a. Variables predictoras: (Constante), X4 Experiencia, X3 Edad, X2 Horas de
trabajo/mes, X1 Capacitación
b. Variable dependiente: Y Ingreso/día

En la tabla 2 de arriba figura el Análisis de Varianza de la Regresión (ANOVA), que


en la regresión simple no se usa pero en la múltiple sí. Se muestra la “significancia
del R2” esto es, se contrasta la hipótesis nula H0:R2=0 vs H1:R2>0, pues en la muestra
podría haber ocurrido un R2>0 sólo por azar. La probabilidad de esto último, según
los datos es Sig.=0.000 < 0.05 que es demasiado pequeña, así que concluimos que el
R2=0.841>0 no ha ocurrido por azar si no porque realmente hay efecto de alguna de
las variables propuestas en las hipótesis.
H0:R2=0 equivale a H0: β1 = β2 = β3 = β4 = 0, pues si todos los coeficientes son cero,
entonces no habrá ninguna relación entre Y y las v.i. X1, X2, X3 y X4

La última tabla, Tabla 3, muestra estimaciones y errores de estimación de los coefi-


cientes de regresión de cada v.i. del modelo, las estadísticas t-Student y las significa-
ciones de los contrastes a dos colas (o bilaterales) usando la prueba t con k=n-p-1=37
grados de libertad.

Tabla 3 Coeficientesa
Coeficientes no Coeficientes
estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) 33,222 2,886 11,513 ,000
X1 Capacitación ,104 ,040 ,207 2,569 ,014
X2 Horas de trabajo/mes ,008 ,009 ,064 ,878 ,385
X3 Edad -,017 ,019 -,065 -,894 ,377
X4 Experiencia ,062 ,006 ,762 9,527 ,000
a. Variable dependiente: Y Ingreso/día
EST-203 ESTADISTICA II Arturo Calderón G. 2014 7

Veamos el caso de HT1: Ingreso responde proporcionalmente de modo directo al


grado de capacitación⇒ H1:β1 > 0 y el contraste estadístico es de H0:β1 = 0 vs
H1:β1 > 0

La estimación de β1 es 0,104 > 0 (con un E.E. ,que SPSS llama Error típico de 0,04)
y, como se esperaba, H1 se cumple en nuestra muestra. Pero falta verificar que H1 se
cumple en grado suficiente, más allá de lo que podría darse por azar.

A nivel de estimación la estadística t calculada es tc=B1/E.E.= 0,104/0,04=2,569


positiva e indica que la estimación de β1 cae a la derecha de cero 2,569 veces más allá
de lo esperado por azar, bastante lejos de cero como para que H0:β1 = 0 sea cierta.

A nivel de contraste (unilateral derecho o de un cola derecha), debemos calcular la


significancia unilateral, que es Sig.=0,014/2=0,007 < 0,05: La probabilidad de haber
obtenido un resultado como el de la muestra sólo por azar es prácticamente cero, es
decir, tenemos evidencia para rechazar H0:β1 = 0 y podemos aceptar H1:β1 > 0 .
La conclusión acerca de HT1 es que hay evidencia empírica que apoya la hipótesis
que la capacitación sí tiene efecto positivo en el ingreso.

En el caso de HT2: Ingreso responde proporcionalmente de modo directo a la can-


tidad de horas de trabajo, el contraste estadístico es de H0:β2 = 0 vs H1:β2 > 0, pero
en este caso aunque la estimación de β2 resulta positiva, no supera el margen de azar
pues tc=B2/E.E.= 0,08/0,009=0,878 y las significación unilateral es Sig.=0,385/2=
0,1925> 0,05 que es demasiado grande como para rechazar H0:β2 = 0.
La conclusión acerca de HT2 es que no hay evidencia empírica que la apoye.

Análogamente, ocurre con HT3: La edad es un factor en contra del ingreso de la


persona. La significación unilateral es 0,1885>0.05; No podemos rechazar H0:β3 = 0
y por tanto no hay evidencia como para afirmar que la mayor edad es un factor en
contra del ingreso

Finalmente HT4: Ingreso responde proporcionalmente de modo directo a la mayor


experiencia sí tiene evidencia a su favor en la muestra (B4=0,062, tc=9,53, Sig. <0.05)

En resumen, sólo dos v.i.: Capacitación y Experiencia muestran tener relación


directa con el Ingreso de las vendedoras. Falta ver cuál de estas dos variables tiene
“más efecto”. Esto no se puede hacer comparando los correspondientes coeficientes
de regresión B1=0.104 con B4=0.062 porque van en unidades no comparables
(soles/puntos en el caso de Capacitación y soles/meses en el caso de Experiencia).
Para esta comparación se usan los Coeficientes tipificados Beta o coeficientes
estandarizados Beta: Cuanto más grande en valor absoluto el Coef. Tipificado Beta,
más importante la v.i. correspondiente. En este ejemplo la Experiencia tiene mayor
Coef. Tipificado Beta (0,762) que Capacitación (0,207) y por tanto su efecto en el
ingreso es mayor.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 8

Ejemplo 3
Una investigación con pacientes VIH positivos pretende explicar el grado de de-
presión Y de la persona en términos de ciertas variables independientes que se
consideran asociadas a la depresión en estos casos. Las variables son:
X1=Satisfacción con el entorno personal o “Red soportiva”; X2=Instrucción;
X3=Participación en un Grupo de Apoyo Mutuo o GAM ( “Terapia grupal”, dicotó-
mica con 0=No y 1=Sí); X4=Sexo (dicotómica con 0=Femenino y 1=Masculino) y
X5=Edad.

La depresión Y se midió con el Inventario de Depresión de Beck y los investigadores


plantean un modelo de regresión

Y=β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + ε, junto con las hipótesis:

HT1 La mayor satisfacción con la red soportiva protege contra la depresión


HT2 la mayor instrucción protege contra la depresión
HT3 la participación de terapias grupales protege contra la depresión
(HT1, HT2 y HT3 implican β 1 < 0 , β 2 < 0 y β3 < 0 respectivamente)
HT4 Las mujeres se deprimen más ( β 4 < 0 ).
HT5 La edad no guarda relación con la depresión en estos pacientes ( β 5 = 0 )

Los datos de n=55 pacientes voluntarios se pasaron a un archivo SPSS y se


procesaron con el procedimiento Regresión:

Los resultados son:

Tabla1 Resumen del modelo


Modelo R R R cuadrado Error típ. de
cuadrado corregida la estimación
1 ,610a ,372 ,308 7,524
a. Variables predictoras: (Constante), X5 Edad, X2
Instrucción, X1 Satisfacción con Soporte, X3 Participa de un
Grupo de Apoyo Mutuo, X4 Sexo
Tabla 2 ANOVAa
Modelo Suma de gl Media F Sig.
cuadrados cuadrática
Regresión 1643,668 5 328,734 5,807 ,000b
1 Residual 2774,078 49 56,614
Total 4417,745 54
a. Variable dependiente: Y Indice de Depresión Beck
b. Variables predictoras: (Constante), X5 Edad, X2 Instrucción, X1
Satisfacción con Soporte, X3 Participa de un Grupo de Apoyo Mutuo, X4 Sexo
EST-203 ESTADISTICA II Arturo Calderón G. 2014 9

Tabla 3 Coeficientesa
Modelo Coeficientes no Coeficientes t Sig.
estandarizados tipificados
B Error típ. Beta
(Constante) 34,099 6,403 5,325 ,000
X1 Satisfacción con
-,349 ,188 -,220 -1,857 ,069
Soporte
1 X2 Instrucción -1,449 ,662 -,297 -2,189 ,033
X3 Participa de un GAM -4,606 2,229 -,253 -2,066 ,044
X4 Sexo -4,525 2,638 -,220 -1,715 ,093
X5 Edad ,048 ,126 ,044 ,384 ,703
a. Variable dependiente: Y Indice de Depresión Beck

La tabla 1 muestra la correlación múltiple R de Y con el conjunto de v. indepen-


dientes {X1,X2,X3,X4 y X5}: R=0,610 que es “grande” según el Criterio de Cohen.

Al costado figura el Coeficiente de Determinación R2=0,372 que indica la proporción


de variabilidad en Y asociada a {X1, X2,X3,X4 y X5}: Un 37.2% de las diferencias
en Depresión entre los pacientes de la muestra está asociada a diferencias en
algunas de las variables como Satisfacción con soporte, Instrucción, etc.

En la tabla 2 está la significancia del R2: Se contrasta la hipótesis nula H0:R2=0 vs


H1:R2>0 mediante la probabilidad que pueda ocurrir un R 2 > 0 sólo por azar. La
probabilidad de esto último, según los datos es Sig.=0.000 < 0.05 que es demasiado
pequeña. Concluimos que el R2=0,372 > 0 no ha ocurrido por azar sino porque
realmente hay efecto de alguna de las variables propuestas en las hipótesis.

Falta evaluar las hipótesis de trabajo usando la tabla 3:

HT1: La mayor satisfacción con la red soportiva protege contra la depresión. Se


plantea que a mayor satisfacción menor depresión, esto es H1:β1 < 0. Debemos
contrastar H0:β1 = 0 vs H1:β1 < 0. Como el contraste es unilateral izquierdo o de un
cola izquierda, debemos calcular la significancia verdadera, que es
Sig.=0,069/2=0,0345 <0.05 así que se rechaza H0:β1 = 0.
Falta ver si se cumple H1:β1 < 0 en la muestra. Como B1=-0.349 es, en efecto, nega-
tivo, el resultado estadístico es que podemos aceptar esta hipótesis.

Con las demás hipótesis de trabajo se procede análogamente, tomando en cuenta los
signos que éstas predicen, cuando es el caso.

Con HT3, dada la codificación se espera que cuando el paciente no participa de un


Grupo de apoyo mutuo, su depresión sea mayor, o sea cuando se pasa del X3=0 a
X3=1 debiera disminuir la depresión, por eso el coeficiente β3 debe ser negativo.
Algo similar se aplica a H4.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 10

El resultado es que se cumplen todas las hipótesis de trabajo del enunciado (ver tabla
4 abajo)

Tabla 4 Significaciones de las hipótesis


Coeficientes no Coeficientes
estandarizados tipificados
Error Sig.
H1
B típ. Beta t Sig. Verdadera
X1 Satisfacción con Soporte -0.349 0.188 -0.220 -1.857 0.069 β1 < 0 0.0345
X2 Instrucción -1.449 0.662 -0.297 -2.189 0.033 β2 < 0 0.0167
X3 Participa de un GAM -4.606 2.229 -0.253 -2.066 0.044 β3 < 0 0.0221
X4 Sexo -4.525 2.638 -0.220 -1.715 0.093 β4 < 0 0.0463
X5 Edad 0.048 0.126 0.044 0.384 0.703 β5 = 0 0.7030

Finalmente, aunque no se pide, se puede examinar cuál variable influye más en la


depresión. Para ello hay que ver los valores absolutos de los coeficientes tipificados
o “Beta” como los llama SPSS (Beta estandarizados en la jerga estadística). La regla
es que “a mayor valor, mayor importancia de la variables”. En este contexto, la
Instrucción (|Beta2|=0,297) es la que más influye y le sigue Participación de un grupo
de apoyo mutuo.

Tabla 5 Importancia relativa de las variables independientes


Coeficientes no Coeficientes
estandarizados tipificados
Error Sig.
H1
B típ. Beta t Sig. Verdadera
X1 Satisfacción con Soporte -0.349 0.188 -0.220 -1.857 0.069 β1 < 0 0.0345
X2 Instrucción -1.449 0.662 -0.297 -2.189 0.033 β2 < 0 0.0167
X3 Participa de un GAM -4.606 2.229 -0.253 -2.066 0.044 β3 < 0 0.0221
X4 Sexo -4.525 2.638 -0.220 -1.715 0.093 β4 < 0 0.0463
X5 Edad 0.048 0.126 0.044 0.384 0.703 β5 = 0 0.7030
EST-203 ESTADISTICA II Arturo Calderón G. 2014 11

2.6 Ajuste del Modelo

Identidad de Análisis de Varianza de la Regresión(ANOVA)

Al igual que en el caso de la regresión simple, un primer


índice de ajuste es la concordancia entre los valores
reales de Y y los que predice el modelo: y de
hecho este es el primer estadístico que muestra SPSS y se
llama “Correlación Múltiple”, siempre es positivo y se
interpreta como el grado de concordancia entre datos y
modelo. Para ver si es grande, mediano o pequeño se usa
el Criterio de Cohen para correlaciones.

Otra medida de ajuste, más importante aunque inicialmente


más compleja, es el R2:

A partir de (Y j − Y ) = (Yˆj − Y ) + (Y j − Yˆj ) , que en verdad es una


tautología, se puede demostrar que también se cumple:

(Y j − Y ) 2 = ∑ (Yˆj − Y ) + ∑ (Y j − Yˆj )
n n n
2 2

j =1 j =1 j =1
(Análisis de varianza de la Regresión o
1 4243 1 4243 1 4243
SCT SCR SCE
ANOVA de la Regresión como la llama SPSS)
n

∑ (Y − Y ) 2 ≡ SCT = Suma de cuadrados total = Variabilidad total en Y


j
j =1
1 4243
Variabilidad total en Y

∑ (Yˆ− Y ) ≡ SCR = Suma de cuadrados de la regresión = Variabilid ad debida a las v.i.


n
2
j
j =1
144424443
Variabilidad debida a las X j

∑ (Y − Yˆj ) ≡ SCE = Suma de cuadrados residual = Variabilidad debida al azar


n
2
j
j =1
1 4243
Variabilidad residual

Simbólicamente:

( ) ( )
n n n
− = − + ∑ j j ⇔ SCT = SCR + SCE

2 2
∑ j
(Y
j =1
Y ) ∑ j
Yˆ Y Y 2

j =1 j =1
¿Cuáles son las componentes del ANOVA?
n
SCT = ∑ (Y j − Y ) 2 = ( n − 1) SY2 : SCT mide qué tanto se diferencian todos los sujetos
j =1

de la muestra en el atributo representado por la variable dependiente Y . SCT es


la “variabilidad total en Y” presente en la muestra.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 12

n
SCR = ∑ (Yˆ j − Y ) 2 : SCR mide qué tan diferentes son los casos, debido a los dis-
j =1

tintos valores que tienen en las variables independientes { X j } . SCR es la varia-


bilidad en Y originada en las variables independientes X 1, X 2 , X 3 , ..., X p .

n n
SCE = ∑ (Y j − Yˆ j ) 2 = ∑ εˆ 2j . SCE mide las diferencias entre los n casos, que se
j =1 j =1

deberían al azar, o sea a razones fortuitas y no originadas por las variables indepen-
dientes { X j } . SCE es un índice que mide qué tanto discrepa la muestra, en
conjunto, de lo previsto o "explicado" por la relación de dependencia vía el
modelo. Es la variabilidad residual debida a causas no sistemáticas o azar ε.

En el ejemplo 3 anterior, la tabla 2 ANOVA es

En este caso, ya vimos que n = 55 y son p = 5 v.i. en el


modelo.

La variabilidad total en Y es
n =55
SCT = ∑ (Y j − Y ) 2 = (55 − 1) SY2 = 4,417.745
j =1

La variabilidad debida a las p=5 variables independientes es


n = 55
SCR = ∑ (Yˆ j − Y ) 2 = 1,643.668
j =1

La variabilidad residual es
n = 55 n = 55
SCE = ∑ (Y
j =1
j − Yˆ j ) =
2
∑ εˆ
j =1
2
j = 2,774.078
EST-203 ESTADISTICA II Arturo Calderón G. 2014 13

A partir de todo lo anterior:

(i) Para medir el ajuste global de los datos al modelo

Usamos el Coeficiente de Determinación:

∑ (Yˆ −Y)
n
2
j
SCR j =1 Variabilidad originada por X 1 , X 2 ,..., X p
R2 = = n
=
SCT Variabilidad total en Y ,
∑ (Y j − Y ) 2
j =1
que siempre está entre 0 y 1

R2 mide la proporción de la variabilidad total en Y que es "explicada" o atribuible


a las diferencias en las variables independientes X 1 , X 2 ,..., X p a través de la regre-
sión. Es la proporción de diferencias en Y que se deben a las diferencias en
X 1 , X 2 ,..., X p . También se dice que es el “poder explicativo del modelo”

El número 100R2% es el porcentaje de variabilidad (por extensión, también se dice


"porcentaje de la varianza") de Y explicada por el modelo.

En el ejemplo 3, tenemos

∑ (Yˆ −Y )
n
2
j
SCR j =1 1,643.668
R2 = = n
= = 0.372
SCT 4,417.745
∑ (Y j − Y )2
j =1

que, ya vimos, se interpreta diciendo “Un 37.2% de las diferen-


cias en Depresión entre los pacientes de la muestra está asociada a diferencias en
algunas de las variables como Satisfacción con soporte, Instrucción, etc.”

(ii) Para medir la correlación global de Y con { X 1 , X 2 ,..., X p }


Usamos el Coeficiente de Correlación Múltiple R = R 2 que
por construcción es positivo, con valores entre 0 y 1
( 0 ≤ R ≤ 1 ) pues
R = 1 implica relación lineal exacta de Y con X 1 , X 2 ,..., X p ,
es decir el residuo ε j es cero en todos los casos y el
modelo predice exactamente.
R = 0 corresponde al otro extremo, donde no hay ninguna
relación lineal de Y con las variables independientes y
el modelo lineal sería completamente fallido.
Para saber cuán grande es R usaremos el Criterio de Cohen
para correlaciones y de paso, eso nos dice cuándo un R2
es grande, mediano o pequeño.
En el ejemplo 3 tenemos R = R 2 = 0.372 = 0.610 que es grande.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 14

El error promedio del modelo en el pronóstico de Y


(iii)
En este caso usamos el Error Estándar de Estimación, de-
notado σˆ ≡ S ε y dado por σˆ = Sε = σˆ 2 = SCE /(n − p − 1) , donde σ̂ es
2

la estimación de la varianza σ 2 descrita antes

Este error mide el margen de error en pronóstico de va-


lores de Y usando el modelo, en el sentido: Y = Yˆ ± σˆ ≡ Yˆ ± S ε

De nuevo, en el ejemplo 3 se tiene


n n

∑εˆ 2j
j =1
∑ (Y
j =1
j − Yˆj )2
SCE 2,744.078 2,744.078
σˆ 2 = Sε2 = = = = = = 56.614 Y
(n − p − 1) (n − p − 1) (n − p − 1) (55 − 5 − 1) 49

σˆ = Sε = σˆ 2 = 56.614 = 7.524
Estos resultados están en la Tabla 1 Resumen

Pero nótese que todos se pueden obtener a partir de los


resultados que figuran en la tabla 2 ANOVA.
El error de estimación de βˆk
(iv)
Como βˆk es una estimación del verdadero βk , tiene una
varianza debida al muestreo, dada por V ( βˆk ) = σ 2 ck , donde ck
es una constante que depende de los datos X 1 , X 2 ,..., X p en los
n casos de la muestra y que no es sencilla de calcular a
mano. Se deduce que el "error de estimación" de βˆk es me-
dido por V ( βˆk ) = σ 2 ck y que podemos aproximarlo con
E.E. βˆk ≡ S βˆk = σˆ c k . Esta cantidad es reportada siempre por
los programas de estimación de la regresión, como Excel o
SPSS. Así, en la tabla 3 del ejemplo 3 se tienen las
respectivas estimaciones y sus E.E., indicados por el
círculo rojo, como mostramos más abajo
EST-203 ESTADISTICA II Arturo Calderón G. 2014 15

2.7 Contrastes en el Análisis de Regresión Múltiple

Se requiere el supuesto de normalidad ε j ~ N (0, σ ) ∀j y hay


2

tres contrastes de interés:

(1) Contraste Global de significación conjunta de las p


variables independientes, o sea del modelo como un todo.

La hipótesis nula o de ningún efecto es H 0 : β 1 = β 2 = β 3 = ... = β p = 0 y


equivale a H 0 : R 2 = 0 donde R 2 es poblacional.

El contraste se hace con el estadístico F que compara la


varianza originada por v. i. del modelo con la varianza
residual o del azar representado por ε j .

• Ya que la variabilidad generada por las p v.i. es medida


n
con la Suma de Cuadrados de la Regresión SCR = ∑ (Yˆj − Y )
2

j =1

Entonces la varianza promedio generada por cada variable independiente,


n

∑ (Yˆ j − Y )2
j =1
es , se denota CMR y se llama “Varianza de la regresión”
p
o “Cuadrado medio de la regresión” o “Media cuadrática de la regresión”
n

∑ (Yˆ j − Y )2
j =1
CMR = .
p

Si β1 = β 2 = β 3 = ... = β p = 0 ⇒CMR sería mayor que cero sólo


por azar. Se puede probar que, en este contexto, CMR / σ ~ χ ( p )
2 2
EST-203 ESTADISTICA II Arturo Calderón G. 2014 16

• La variabilidad residual se mide con la Suma de Cuadrados del


n n
Error o suma de cuadrados residual SCE = ∑ (Y j − Yˆj ) 2 = ∑ εˆ 2j
j =1 j =1

Dado que se ha estimado p+1 parámetros (las p constantes


β 1 , β 2 , ... , β p más la constante β 0 ), sólo hay (n-p-1) residuos
εˆ j independientes.
La varianza del azar o “varianza del error o residual” o “Cuadrado
n

∑ εˆ
j =1
2
j

medio de error o residual” ( CME ) es CME = ( = σˆ 2 = S ε2 ) y siem-


( n − p − 1)
pre estima a σ , ya sea H 0 : β 1 = β 2 = β 3 = ... = β p = 0 cierta o no.
2

Se puede probar que CME / σ ~ χ (n − p − 1)


2 2

• La estadística F se define como


n

∑ (Yˆ j − Y )2
j =1

CMR p Varianza de la regresión


F= = n
=
CME Varianza del azar
∑ εˆ
j =1
2
j

(n − p − 1)
F mide cuántas veces más varianza originan la p v.i. X1 , X 2 , ..., X p comparadas
con el azar ε.
Si H 0 : β1 = β 2 = ... = β p = 0 fuera cierta, F debiera ser ≤ 1 y sólo sería mayor que 1
por casualidad.

Entonces, si tomados los datos, F es mucho mayor que 1, ten-


dríamos evidencia que no es cierta H 0 : β1 = β 2 = ... = β p = 0 y podríamos rechazarla
.
¿Cuándo F es “mucho mayor que 1”? Cuando su valor cae
alejado a la derecha de 1 con probabilidad cero o cercana
a cero, esto es cuando la significancia de F es menor
que 0.05

• Se prueba que si fuera cierta H0 entonces F tiene una distribución de pro-


babilidades, llamada “Distribución F de Fisher” que depende de los
grados de libertad de la variable χ 2 ( p) que va en el
numerador y de la variable χ 2 ( n − p − 1) que va el en
denominador.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 17

χ 2 ( p)
La distribución de F ( F = ) se denota F ( p, n − p − 1)
χ 2 ( n − p − 1)
y se escribe F ~ F ( p, n − p − 1) , donde p se denomina “grados de
libertad del numerador” y (n-p-1) se denomina “grados de libertad del
denominador”.

• La distribución de F es asimétrica a la derecha:

Distribución F(5,15) Distribución F(15,30)

Algunos percentiles han sido tabulados para algunos


grados de libertad de numerador y denominador.

Tabla de la distribución F de Fisher con k1 y k2 grados de libertad


La tabla da c tal que P(F < c)=p
Numerador k1
p Denominador k2 1 2 3 4 5 6 7 8 9 10 12 15 20 30 120
0.050 0.01 0.05 0.10 0.13 0.15 0.17 0.18 0.19 0.20 0.20 0.21 0.22 0.23 0.24 0.26
0.025 0.00 0.03 0.06 0.08 0.10 0.11 0.12 0.13 0.14 0.14 0.15 0.16 0.17 0.18 0.19
1
0.950 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 243.9 245.9 248.0 250.1 253.3
0.975 647.8 799.5 864.2 899.6 921.8 937.1 948.2 956.6 963.3 968.6 976.7 984.9 993.1 1001.4 1014.0

0.050 0.01 0.05 0.10 0.14 0.17 0.19 0.21 0.22 0.23 0.24 0.26 0.27 0.29 0.30 0.33
0.025 0.00 0.03 0.06 0.09 0.12 0.14 0.15 0.17 0.17 0.18 0.20 0.21 0.22 0.24 0.26
0.010 0.00 0.01 0.03 0.06 0.08 0.09 0.10 0.12 0.12 0.13 0.14 0.16 0.17 0.19 0.21
0.005 0.00 0.01 0.02 0.04 0.05 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.16 0.18
2
0.950 18.51 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5
0.975 38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.5 39.5
0.990 98.5 99.0 99.2 99.3 99.3 99.3 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.5 99.5
0.995 198.5 199.0 199.2 199.2 199.3 199.3 199.4 199.4 199.4 199.4 199.4 199.4 199.4 199.5 199.5

0.050 0.00 0.05 0.11 0.15 0.18 0.21 0.23 0.25 0.26 0.27 0.29 0.30 0.32 0.34 0.37
0.025 0.00 0.03 0.06 0.10 0.13 0.15 0.17 0.18 0.20 0.21 0.22 0.24 0.26 0.28 0.31
0.010 0.00 0.01 0.03 0.06 0.08 0.10 0.12 0.13 0.14 0.15 0.17 0.18 0.20 0.22 0.25
0.005 0.00 0.01 0.02 0.04 0.06 0.08 0.09 0.10 0.11 0.12 0.14 0.15 0.17 0.19 0.22
3
0.950 10.1 9.6 9.3 9.1 9.0 8.9 8.9 8.8 8.8 8.8 8.7 8.7 8.7 8.6 8.5
0.975 17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5 14.4 14.3 14.3 14.2 14.1 13.9
0.990 34.1 30.8 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2 27.1 26.9 26.7 26.5 26.2
0.995 55.6 49.8 47.5 46.2 45.4 44.8 44.4 44.1 43.9 43.7 43.4 43.1 42.8 42.5 42.0

0.050 0.00 0.05 0.11 0.16 0.19 0.22 0.24 0.26 0.28 0.29 0.31 0.33 0.35 0.37 0.41
0.025 0.00 0.03 0.07 0.10 0.14 0.16 0.18 0.20 0.21 0.22 0.24 0.26 0.28 0.31 0.35
0.010 0.00 0.01 0.03 0.06 0.09 0.11 0.13 0.14 0.16 0.17 0.18 0.20 0.23 0.25 0.29
0.005 0.00 0.01 0.02 0.04 0.06 0.08 0.10 0.11 0.13 0.14 0.15 0.17 0.19 0.22 0.26
4
0.950 7.7 6.9 6.6 6.4 6.3 6.2 6.1 6.0 6.0 6.0 5.9 5.9 5.8 5.7 5.7
0.975 12.2 10.6 10.0 9.6 9.4 9.2 9.1 9.0 8.9 8.8 8.8 8.7 8.6 8.5 8.3
0.990 21.2 18.0 16.7 16.0 15.5 15.2 15.0 14.8 14.7 14.5 14.4 14.2 14.0 13.8 13.6
0.995 31.3 26.3 24.3 23.2 22.5 22.0 21.6 21.4 21.1 21.0 20.7 20.4 20.2 19.9 19.5

En la Tabla F de Fisher se ve cuándo tenemos un F con probabilidad cercana a


cero: Cuando cae a la derecha del percentil F0.95 ( p , n − p − 1) .
EST-203 ESTADISTICA II Arturo Calderón G. 2014 18

SPSS proporciona directamente la probabilidad y si


no la tuviéramos usaríamos la Tabla F

Si regresamos al ejemplo 3, según la tabla 2 ANOVA

Indentificando con las notaciones anteriores:


a
Tabla 2 ANOVA

Modelo Suma de gl Media cuadrática F Sig.


cuadrados
.
b
Regresión SCR=1643,66 p=5 CMR=328,734 5,807 ,000
.
1 Residual SCE=2774,07 n-p-1=49 CME=56,614

Total 4417,745 n-1=54

a. Variable dependiente: Indice de Depresión Beck


b. Variables predictoras: (Constante), Edad, Instrucción, Satisfacción con Soporte, Participa de un Grupo de Apoyo
Mutuo, Sexo

La varianza promedio por v.i. o CMR sería:

n = 55

∑ (Yˆ j − Y )2
SCR 1,643 .668
j =1
CMR = = = 328 .734 =
p p 5
La varianza residual o del azar, es como acabamos de ver:
n

∑ (Y j − Yˆj )2
SCE 2,744.078 2,744.078
CME = σˆ 2 = j =1
= = = = 56.614 y la
(n − p − 1) (n − p − 1) (55 − 5 − 1) 49
estadística F vale
CMR 328.734
F= = = 5.807 esto es, una v.i. del modelo,
CME 56.614
genera 5.807 veces más diferencias en depresión que el
azar.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 19

Para ver si este valor F=5.807 pudo ocurrir sólo de ca-


sualidad, buscamos en la Tabla F el percentil F0.95 (5,49 ) o
el más cercano, en este caso F0.95 (5,60) = 2.4

Es obvio que F = 5.807 > F0.95 (5,60) ≅ F0.95 (5,60) = 2.4 y tenemos eviden-
cia que un F de este tamaño no puede haber ocurrido por azar, sino
porque al menos una de las cinco v.i. generan diferencias
reales en la depresión, esto es, podemos rechazar
H 0 : β 1 = β 2 = β 3 = ... = β p = 0 .

Ya sabemos que SPSS, en lugar de dar el percentil 95(pues


no sabe que solemos usar ese nivel de significación), nos
presenta directamente la probabilidad de un F 5.807 o
mayor, que llama Sig. y que en este ejemplo es Sig.=0.000

(2) Contraste de significación individual, para cada


variable independiente X k .

Se contrasta la hipótesis nula H 0 : β k = 0 , siendo la alterna


H 1 : β k > 0 o H 1 : β k > 0 o H 1 : β k ≠ 0 de acuerdo a las hipótesis de
trabajo previas a la toma de datos.
Se usa la estadística t-Student con (n-p-1) grados
de libertad. El contraste se basa en la propiedad:

Propiedad
En el modelo Y j = β 0 + β1X1j + β 2 X 2j + β 3 X 3j + ... + β p X pj + ε j , si
βˆk es la estimación de βk , se cumple que
t = ( βˆk − β k ) / S βˆ ~ t ( n − p − 1) y si H 0 : β k = 0 es cierta, en-
k

tonces t = βˆk / S βˆ ~ t (n − p − 1) .
k
EST-203 ESTADISTICA II Arturo Calderón G. 2014 20

Se espera un t = βˆk / S βˆk cero o cercano a cero ⇒ Si t


cae alejado de cero podemos rechazar H 0 : β k = 0 .

Consideramos “muy alejados” de cero a los valores de t que tienen probabilidad


cero o cercana cero (O sea menor que un nivel α = 0.05 predeterminado).

Dada la muestra y calculadas estimaciones y estadísticas,


para contrastar H 0 : β k = 0

Hipótesis Rechazar H 0 si
Hipótesis Alterna Tipo de contraste
Nula
H1 : β k > 0 t > t0.95 Unilateral derecho
H0 : βk = 0
t = βˆk / S βˆk
H1 : β k < 0 t < −t0.95 Unilateral izquierdo
H1 : β k ≠ 0 | t |> t 0.975 Bilateral (SPSS)
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t(n-p-1)

Nota:
Programas estadísticos, como SPSS o Excel, realizan auto-
máticamente el contraste bilateral H 0 : β k = 0 vs H1 : β k ≠ 0 ,
pero no muestran el percentil t1−α / 2 de la distribución t-
Student, sino la “significación” (o “valor p” según el
programa estadístico) que es la probabilidad de obtener
un valor |t| mayor o igual que el valor absoluto del
calculado en la muestra.

Cuando se trata de un contraste unilateral, esta signifi-


cación bilateral se debe dividir entre 2 para tener la
“verdadera” significación. Y por lo mismo, para aceptar
nuestra H 1 , además debemos verificar que ésta se cumple
en la muestra, ya no basta con rechazar H 0 : β k = 0 .
EST-203 ESTADISTICA II Arturo Calderón G. 2014 21

En el ejemplo 3, la tabla 3 Coeficientes muestra las es-


tadísticas t de las diversas estimaciones βˆk

Así en el caso de X1 Satisfacción con soporte, para


H 0 : β 1 = 0 vs H 1 : β 1 < 0 : βˆ1 = −0.349 , E.Eβˆk = S βˆk = 0.188 y
βˆ1 − 0.349
t= = = −1.857 .
Sβˆ1 0.188
Yendo a la tabla t-Student t (n − p − 1) = t (49) buscamos el per-
centil t0.95 con 49 grados de libertad o el más cercano:

Tabla de la distribución t de Student con k grados de libertad


T tiene distribución t-Student con k grados del libertad y la tabla da c tal que P(T < c ) = p
p = Probabilidad acumulada
k 0.75 0.8 0.85 0.90 0.95 0.975 0.99 0.995
1 1.0000 1.3764 1.9626 3.0777 6.3137 12.7062 31.8210 63.6559
2 0.8165 1.0607 1.3862 1.8856 2.9200 4.3027 6.9645 9.9250
3 0.7649 0.9785 1.2498 1.6377 2.3534 3.1824 4.5407 5.8408
40 0.6807 0.8507 1.0500 1.3031 1.6839 2.0211 2.4233 2.7045
50 0.6794 0.8489 1.0473 1.2987 1.6759 2.0086 2.4033 2.6778
60 0.6786 0.8477 1.0455 1.2958 1.6706 2.0003 2.3901 2.6603
80 0.6776 0.8461 1.0432 1.2922 1.6641 1.9901 2.3739 2.6387
100 0.6770 0.8452 1.0418 1.2901 1.6602 1.9840 2.3642 2.6259
120 0.6765 0.8446 1.0409 1.2886 1.6576 1.9799 2.3578 2.6174
>120 0.6747 0.8419 1.0369 1.2823 1.6461 1.9619 2.3295 2.5799

t0.95 (49) ≅ t0.95 (50) = 1.6759 y dada H1 : β1 < 0 , se rechazará H0 y se


aceptará H1 si t < −t0.95 = −1.6759 , que es lo que, en efecto, ocurre:
t = −1.857 < −1.6759 = −t0.95 . Por eso se cumple la correspondien-
te hipótesis de trabajo: “La satisfacción con la red soportiva protege
contra la depresión”.

Ya vimos que SPSS no muestra el percentil, sino que mues-


tra la significación a dos colas, que es la probabilidad
de un t mayor que 1.857 o menor que -1.857, en este caso
sig.(bilateral)=0.069; como sólo necesitamos la probabi-
lidad de un t menor que -1.857, dividimos esta significa-
ción entre dos para tener la significación unilateral, y
EST-203 ESTADISTICA II Arturo Calderón G. 2014 22

resulta Sig.(unilateral)=0.0345 < 0.05; podemos rechazar


H 0 : β1 = 0 . El siguiente paso es verificar que H1 : β1 < 0 se cumple, viendo
para ello si βˆ1 resultó negativo: Como βˆ1 = −0.349 < 0 , sí
podemos aceptar H1 : β1 < 0 .

Contraste acerca de un valor específico, no nulo para


algún coeficiente β k , ie. H 0 : β k = b donde b es un valor pre-
determinado o hipotético. La estadística de contraste es
t = ( βˆk − b) / Sβˆk ~ t (n − p − 1) y la metodología es similar a la ya
mostrada en el cuadro inmediato anterior, cambiando el 0
por b.
El contraste de nulidad de β k puede ser visto como un
caso particular de este contraste general.

Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste


H1 : β k > b t > t0.95 Unilateral derecho
H 0 : βk = b
t = ( βˆk − b) / S βˆk
H1 : β k < b t < −t 0.95 Unilateral izquierdo
H1 : β k ≠ b | t |> t0.975 Bilateral
t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t(n-p-1)

SPSS no realiza este contraste pero sí da las estadísti-


cas básicas para hacerlo manualmente.

2.8 Importancia relativa de las variables independientes

La importancia relativa de la v.i. X k comparada con las


otras v.i. se mide con su “coeficiente de regresión es-
SX
tandarizado” βˆ = βˆk k (SPSS lo lama Beta estandarizado)
SY
YX k

que indica en cuántas desviaciones estándar de Y cambia Y cuando Xk crece en


una desviación estándar de Xk . Como los diferentes βˆ , βˆ , etc., YX 1 YX 2

no tienen unidades, resultan comparables entre sí. Cuanto


más grande (en valor absoluto) sea el coeficiente βˆYX k , mayor es la importancia de
Xk .
En el ejemplo 3, la participación en un GAM es la segunda
variable explicativa más importante.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 23

2.9 Comparación de Modelos: Coeficiente R2 Ajustado

Cuando se tiene que comparar modelos con diferente número


de variables explicativas no se usa el R 2 sino el Coefi-
ciente R2 Ajustado (o Corregido) que denotaremos R 2 A y es
SCE /(n − r )
R2 A = 1 − βj
SCT /(n − 1) donde r es el número de parámetros
del respectivo modelo, incluyendo el intercepto β 0

Por lo general, el modelo con el mayor R 2 A es preferible.


Esta regla sólo se usa para seleccionar las variables
independientes que se quedan en el modelo final.
Para medir el poder explicativo del conjunto final de
variables independientes se sigue usando el R 2 .

El R 2 A puede salir negativo, en cuyo caso se lo toma como


igual a cero. SPSS llama R2 corregido

Ejemplo 4
Un psicólogo explora la posible relación entre la
calidad de los Métodos de Estudio de los universitarios,
la Estabilidad Emocional y el Autocontrol. Para examinar
la relación, aplica a una muestra de 15 estudiantes el
Test de Brown sobre Hábitos de Estudio, donde se mide la
Calidad de los Métodos de Estudio, y el Inventario de
Personalidad de Guilford, donde registra la Estabilidad
Emocional y el Autocontrol del individuo. Los datos son:

Habitos (Y) 73 65 54 33 64 49 51 38 35 44 45 39 33 49 40
Control (X1) 17 20 22 13 20 16 14 11 21 13 21 14 11 12 12
Estab. (X2) 25 25 18 15 15 12 17 13 12 12 12 12 15 17 21

El psicólogo postula que


la mayor intensidad en los rasgos de personalidad favorece la Calidad de los
Hábitos de estudio, pero que la Estabilidad Emocional influye más que el
Autocontrol y que un modelo con ésta última variable como única variable
explicativa sería incompleto. ¿Tiene razón el Psicólogo?

Solución (comandos y resultados SPSS en inglés):


Ajustemos el Modelo Y = β 0 + β 1 X 1 + β 2 X 2 + ε con SPSS:
Analize⇒Regression⇒Linear→Dependent:Y→Ιndependent(s):
X1 X2→OK

El output básico es:


EST-203 ESTADISTICA II Arturo Calderón G. 2014 24

Cuadro 1 Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .776a .602 .535 8.354
a. Predictors: (Constant), x2, x1

En el cuadro 1, se observa que en la muestra, el 60.2% de


las diferencias en Calidad de Hábitos de estudio se debe
a los rasgos Autocontrol y Estabilidad emocional.
Cuadro 2 ANOVA b

Sum of
Model Squares df Mean Square F Sig.
1 Regression 1264.229 2 632.114 9.057 .004a
Residual 837.504 12 69.792
Total 2101.733 14
a. Predictors: (Constant), x2, x1
b. Dependent Variable: y

En el Cuadro 2, SPSS nos muestra ahora la Tabla de


Análisis de Varianza de la Regresión. El estadístico F
resulta F=9.057 y tiene una significación Sig.=0.004 <
0.05 lo que quiere decir que podemos rechazar la hipó-
tesis H0: No hay efecto de Autocontrol y Estabilidad que
equivale a H 0 : β1 = β2 = 0 . Podemos concluir que al menos
uno de los rasgos tiene efecto significativo en la
Calidad de Hábitos de estudio.

Cuadro 3 Coefficients a

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 1.039 11.403 .091 .929
x1 1.251 .559 .411 2.238 .045
x2 1.659 .498 .611 3.329 .006
a. Dependent Variable: y

Finalmente, el Cuadro 3 muestra los contrastes indivi-


duales de significación de las variables independientes
pero los hace a dos colas. Habrá que hacer algunos ajus-
tes a las significaciones:

Para Control: Como en verdad estamos haciendo el contras-


β1=0 vs H1:β
te unilateral H0:β β1>0, la significación a una
cola es Sig.=0.045/2=0.0225<0.05, así que rechazamos H0 y
EST-203 ESTADISTICA II Arturo Calderón G. 2014 25

como el valor estimado de β1 resultó positivo, se cumple


β1>0 y así se puede aceptar esta parte de la
nuestra H1:β
hipótesis de trabajo.

β2=0 vs H1:β
En el caso de la Estabilidad, tenemos H0:β β2>0,
el estadístico t-Student es significativo (Sig.= 0.006/2=
0.003<0.05) y βˆ2 = 1.659 > 0 , por tanto se rechaza H0 y se
β2>0.
acepta H1:β

De todo lo anterior vemos que se cumple la parte de la


hipótesis de trabajo que dice “la mayor intensidad en los rasgos de
personalidad favorece la Calidad de los Hábitos de estudio”

Para evaluar la hipótesis de trabajo que dice “pero la Esta-


bilidad Emocional influye más que el Autocontrol” recurrimos a los coe-
ficientes Betas estandarizados: El mayor coeficiente (en
valor absoluto) es el de X2 (0.611) así que en efecto, la
Estabilidad es más importante que el Control en el condi-
cionamiento de los Hábitos de estudio
Cuadro 3 Coefficients a

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 1.039 11.403 .091 .929
x1 1.251 .559 .411 2.238 .045
x2 1.659 .498 .611 3.329 .006
a. Dependent Variable: y

Finalmente, en un modelo donde sólo figura Control como


variable independiente:
Modelo con dos v.i.
Cuadro 1 Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .776a .602 .535 8.354
a. Predictors: (Constant), x2, x1

Modelo con solo una v.i.


Cuadro 4 Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .483a .234 .175 11.131
a. Predictors: (Constant), x1
EST-203 ESTADISTICA II Arturo Calderón G. 2014 26

Vemos que el R2A=0.175 que es bastante menor que el del


modelo con X1 y X2 como v.i. (donde R2A=0.535), así que se
confirma que es mejor el modelo con las dos variables, a
uno con sólo Control (X1) como v. independiente.
Se cumple totalmente la hipótesis de trabajo del analista

2.10 Verificación de supuestos


Los supuestos más delicados son

La normalidad de los residuos y su varianza constante,


pues justifican los contrastes de significación. Este
supuesto se puede verificar con diagnósticos gráficos o
también se puede grabar las residuos y aplicar luego la
prueba de normalidad de Kolmogorov Smirnov.

La independencia o no multicolinealidad) entre las


variables independientes { X 1 , X 2 ,..., X p } . Si algunas v.i. están
muy correlacionadas, esto origina que sus efectos no se
pueden separar y puede ocurrir que unas se anulen con las
otras de modo que en las pruebas t-Student no salen
significativas, aún cuando sí tengan efecto. En este caso
hay algunas v.i. que son redundantes (miden los mismo) o
sin serlo están conceptualmente relacionadas y el modelo
de regresión estándar no es efectivo en distinguir sus
efectos. Para evaluar este supuesto se usa el factor de
inflación de varianza o VIF por sus siglas en inglés: No
debe ser mayor que 10, en caso contrario hay problema de
multicolinealidad por resolver con la respectiva v.i.

Nota acerca del tamaño de muestra recomendado


No hay un tamaño óptimo pero se recomienda tener entre 15
y 20 casos por cada variable independiente y nunca menos
de 5 casos, pues se pierde capacidad de detectar efectos
significativos.

Ejemplo 5
En el ejemplo anterior, agregamos opciones a la secuencia
estándar de comandos SPSS:
Analize⇒Regression⇒Linear→Dependent:Y→Ιndependent(s):
X1 X2→
Plots: Normal probability plot→ Continue→
Statistics: Collinearity diagnostics→ Continue→ OK
(o en castellano:
EST-203 ESTADISTICA II Arturo Calderón G. 2014 27

Analizar⇒Regresión⇒Lineales→Dependendiente:Y→Ιndependen
dientes: X1 X2→ Gráficos:Gráfico de prob. Normal
→ Continuar→Estadísticos:Diagnósticos de colinealidad→
Continuar→Aceptar.)

Los cuadros son similares a los obtenidos antes, salvo el


cuadro de coeficientes y un gráfico de normalidad:

Figura 1 Diagnóstico gráfico de


normalidad

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Calidad de Hábitos de estudio

1,0

0,8
Expected Cum Prob

0,6

0,4

0,2

0,0
0,0 0,2 0,4 0,6 0,8 1,0
Observed Cum Prob

Los puntos “o” corresponden a los residuos ε j estandari-


zados: Si hay normalidad en los residuos ε j éstos al ser
estandarizados deben tener una distribución normal N(0,1)
y su distribución acumulativa debe coincidir con ella. En
consecuencia los puntos “o” debe caer sobre o cerca de la
línea recta, como es en esta muestra, así que concluimos
que sí hay indicios de normalidad

En cuanto a la multicolinealidad, tenemos


Coefficients a

Standardized
Unstandardized Coefficients Coefficients Collinearity Statistics

Model B Std. Error Beta t Sig. Tolerance VIF


1 (Constant) 1.039 11.403 .091 .929
x1 1.251 .559 .411 2.238 .045 .986 1.014

x2 1.659 .498 .611 3.329 .006 .986 1.014


a. Dependent Variable: y
EST-203 ESTADISTICA II Arturo Calderón G. 2014 28

El VIF tanto de X1 como de X2 es menor que 10, así que


ninguna variable ocasiona problema de multicolinealidad.

Ejemplo 6
En el ejemplo 3 relativo a la Depresión en pacientes
seropositivos, en relación a la verificación de supuestos
tenemos:

Para la normalidad de residuos

Figura 1 Diagnóstico gráfico Figura 2 Histograma de


de normalidad frecuencias de residuos

La figura 1 muestra que habría normalidad de residuos, la


mayoría de puntos caen cerca de la recta de normalidad.
El histograma de la figura 2 también muestra cierta
semejanza de la distribución de residuos estandarizados
con una distribución normal estándar, aunque en general
el histograma no es tan confiable porque suele cambiar
mucho según variamos el número de intervalos.

Para la no multicolinealidad, la tabla 1 abajo, que es


una ampliación de la tabla 3 del ejemplo 8, muestra
EST-203 ESTADISTICA II Arturo Calderón G. 2014 29

además las tolerancias y FIV correspondientes

Tabla 1 Estadísticas de colinealidad

Todos los FIV son menores que 10 y se concluye que no


habría mayor problema de multicolinealidad, las v.i. del
modelo no tienen correlación excesiva ente ellas y sí es
posible separar sus efectos.

Вам также может понравиться