You are on page 1of 16

EST-203 ESTADISTICA II Arturo Calderón G.

2014 1

2.8 Importancia relativa de las variables independientes

La importancia relativa de la v.i. X k comparada con las


otras v.i. se mide con su “coeficiente de regresión es-
SX k
tandarizado” βˆ = βˆk (SPSS lo lama Beta estandarizado)
YX k
SY
que indica en cuántas desviaciones estándar de Y cambia Y cuando Xk crece en
una desviación estándar de Xk . Como los diferentes βˆ , βˆ , etc., YX 1 YX 2

no tienen unidades, resultan comparables entre sí. Cuanto


más grande (en valor absoluto) sea el coeficiente βˆYX k , mayor es la importancia de
Xk .
En el ejemplo 3, la participación en un GAM es la segunda
variable explicativa más importante.

2.9 Comparación de Modelos: Coeficiente R2 Ajustado

Cuando se tiene que comparar modelos con diferente número


de variables explicativas no se usa el R 2 sino el Coefi-
ciente R2 Ajustado (o Corregido) que denotaremos R 2 A y es
 SCE /(n − r )  ( n − 1)
R A2 = 1 −   = 1 − (1 − R 2 ) donde r es el número de pará-
 SCT /(n − 1)  (n − r)
metros β j del respectivo modelo, incluyendo el intercepto
β0

Por lo general, el modelo con el mayor R 2 A es preferible.


Esta regla sólo se usa para seleccionar las variables
independientes que se quedan en el modelo final.
Para medir el poder explicativo del conjunto final de
variables independientes se sigue usando el R 2 .

El R 2 A puede salir negativo, en cuyo caso se lo toma como


igual a cero. SPSS lo llama R2 corregido

No se usa R2 para comparar modelos porque R2 puede crecer


por una razón adicional al ajuste de los datos al mode-
lo, y es por el mayor número de variables de un modelo
con respecto a otro, sólo porque se ha incrementado el
número de variables. En la fórmula de R2A, esta última
posibilidad se atenúa, y se puede demostrar que R2A puede
decrecer si se incrementa el número de variables y éstas
no tienen mayor poder explicativo.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 2

Ejemplo 4
Un psicólogo explora la posible relación entre la
calidad de los Métodos de Estudio de los universitarios,
la Estabilidad Emocional y el Autocontrol. Para examinar
la relación, aplica a una muestra de 15 estudiantes el
Test de Brown sobre Hábitos de Estudio, donde se mide la
Calidad de los Métodos de Estudio, y el Inventario de
Personalidad de Guilford, donde registra la Estabilidad
Emocional y el Autocontrol del individuo. Los datos son:

Habitos (Y) 73 65 54 33 64 49 51 38 35 44 45 39 33 49 40
Control (X1) 17 20 22 13 20 16 14 11 21 13 21 14 11 12 12
Estab. (X2) 25 25 18 15 15 12 17 13 12 12 12 12 15 17 21

El psicólogo postula que


la mayor intensidad en los rasgos de personalidad favorece la Calidad de los
Hábitos de estudio, pero que la Estabilidad Emocional influye más que el
Autocontrol y que un modelo con ésta última variable como única variable
explicativa sería incompleto. ¿Tiene razón el Psicólogo?

Solución (comandos y resultados SPSS en inglés):


Ajustemos el Modelo Y = β 0 + β 1 X 1 + β 2 X 2 + ε con SPSS:
Analize⇒Regression⇒Linear→Dependent:Y→Ιndependent(s):
X1 X2→OK

El output básico es:


Cuadro 1 Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
a
1 ,776 ,602 ,535 8,354
a. Predictors: (Constant), Estabilidad emocional, Control

En el cuadro 1, se observa que en la muestra, el 60.2% de


las diferencias en Calidad de Hábitos de estudio se debe
a los rasgos Autocontrol y Estabilidad emocional.
b
Cuadro 2 ANOVA
Sum of
Model Squares df Mean Square F Sig.
a
Regression 1264,229 2 632,114 9,057 ,004
Residual 837,504 12 69,792
Total 2101,733 14
a. Predictors: (Constant), Estabilidad emocional, Control
b. Dependent Variable: Calidad de Hábitos de estudio
EST-203 ESTADISTICA II Arturo Calderón G. 2014 3

En el Cuadro 2, SPSS nos muestra ahora la Tabla de


Análisis de Varianza de la Regresión. El estadístico F
resulta F=9.057 y tiene una significación Sig.=0.004 <
0.05 lo que quiere decir que podemos rechazar la hipó-
tesis H0: No hay efecto de Autocontrol y Estabilidad que
equivale a H 0 : β1 = β2 = 0 . Podemos concluir que al menos
uno de los rasgos tiene efecto significativo en la
Calidad de Hábitos de estudio.
a
Cuadro 3 Coefficients
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
(Constant) 1,039 11,403 ,091 ,929
Control 1,251 ,559 ,411 2,238 ,045
Estabilidad emocional 1,659 ,498 ,611 3,329 ,006
a. Dependent Variable: Calidad de Hábitos de estudio

Finalmente, el Cuadro 3 muestra los contrastes indivi-


duales de significación de las variables independientes
pero los hace a dos colas. Habrá que hacer algunos ajus-
tes a las significaciones:

Para Control: Como en verdad estamos haciendo el contras-


β1=0 vs H1:β
te unilateral H0:β β1>0, la significación a una
cola es Sig.=0.045/2=0.0225<0.05, así que rechazamos H0 y
como el valor estimado de β1 resultó positivo, se cumple
β1>0 y así se puede aceptar esta parte de la
nuestra H1:β
hipótesis de trabajo.

β2=0 vs H1:β
En el caso de la Estabilidad, tenemos H0:β β2>0,
el estadístico t-Student es significativo (Sig.= 0.006/2=
0.003<0.05) y βˆ2 = 1.659 > 0 , por tanto se rechaza H0 y se
β2>0.
acepta H1:β

De todo lo anterior vemos que se cumple la parte de la


hipótesis de trabajo que dice “la mayor intensidad en los rasgos de
personalidad favorece la Calidad de los Hábitos de estudio”

Para evaluar la hipótesis de trabajo que dice “pero la Esta-


bilidad Emocional influye más que el Autocontrol” recurrimos a los coe-
ficientes Betas estandarizados: El mayor coeficiente (en
valor absoluto) es el de X2 (0.611) así que en efecto, la
EST-203 ESTADISTICA II Arturo Calderón G. 2014 4

Estabilidad es más importante que el Control en el condi-


cionamiento de los Hábitos de estudio.
a
Cuadro 3 Coefficients
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
(Constant) 1,039 11,403 ,091 ,929
Control 1,251 ,559 ,411 2,238 ,045
Estabilidad emocional 1,659 ,498 ,611 3,329 ,006
a. Dependent Variable: Calidad de Hábitos de estudio

Finalmente, en un modelo donde sólo figura Control como


variable independiente:
Modelo con dos v.i.
Cuadro 1 Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
a
1 ,776 ,602 ,535 8,354
a. Predictors: (Constant), Estabilidad emocional, Control

Modelo con solo una v.i.


Cuadro 4 Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
a
1 ,483 ,234 ,175 11,131
a. Predictors: (Constant), Control

Vemos que el R2A=0.175 que es bastante menor que el del


modelo con X1 y X2 como v.i. (donde R2A=0.535), así que se
confirma que es mejor el modelo con las dos variables, a
uno con sólo Control (X1) como v. independiente.
Se cumple totalmente la hipótesis de trabajo del analista

2.10 Verificación de supuestos


El modelo de regresión lineal tiene varios supuestos que
se deben cumplir para que los análisis estadísticos sean
válidos. Los tres más importantes son:
(1) La normalidad de residuo: ε~N(0,σσ 2ε)
(2) La homocedasticidad o varianzas homogéneas σ2ε=σ
σ2
(3) La independencia entre las variables explicativas
X1,X2,...y Xp o supuesto de no colinealidad o no
multicolinealidad que es lo mismo

En nuestro curso verificamos sólo (1) y (2).


EST-203 ESTADISTICA II Arturo Calderón G. 2014 5

(1) La normalidad del residuo o error aleatorio ε. Este supuesto se pue-


de estudiar calculando el residuo para cada caso de la
muestra, esto es ε j = (Y j − Yˆj ) . Hay dos pruebas básicas:

Aplicando un Contraste de normalidad, como las pruebas de norma-


lidad de Kolmogorov-Smirnov (que se usa cuando n>50) y
la de Shapiro (que se usa cuando n ≤ 50) con sus signi-
ficancias. En ambos casos la hipótesis nula es H0: La
distribución sí es normal y para rechazarla se ve si la
significancia es pequeña (menor que 0.05). Estas pruebas
tienen el defecto de que para muestras grandes (más de 100 casos aproxima-
damente) detectan falta de normalidad de todos modos, pues una distribución
normal exacta no existe en la práctica.

Pruebas gráficas de normalidad, y también ocasionalmente,


examinando el histograma de los residuos: Si hay norma-
lidad, el histograma debe ser más o menos en forma de
“cerrito”. El Test gráfico de normalidad muestra en el
eje X la distribución acumulada de los residuos en la
muestra y en el eje Y la distribución acumulada de
residuos si tuvieran distribución normal exacta: Si hay
normalidad, los puntos XY deben ser más o menos iguales y la mayoría debe
caer siguiendo una recta.

Si se detecta falta de normalidad de residuos, esto puede deberse a


que alguna variable explicativa importante se ha omi-
tido o a que la relación es no lineal. Si fuera el úl-
timo caso, se puede ensayar con modelos no lineales o
con transformación de variables, como cambiar Y por su
logaritmo Ln(Y) o por su raíz cuadrada √ Y. Esto es más
especializado y de presentarse el caso, es mejor con-
sultar a un especialista. Pero antes de ello, es mejor ver
si la falta de normalidad es la severa, pues de no serlo, todavía el
modelo de regresión puede seguir siendo útil sin mayor
cambio.

La severidad de la falta de normalidad se evalúa con:

El coeficiente de asimetría (la distribución normal es


simétrica, si hay asimetría severa estamos en problema
serio). Una regla práctica es: Si en valor absoluto el coeficiente de
asimetría pasa de 3 hay asimetría severa y falta de normalidad severa.

El coeficiente de curtosis, que compara la proporción


de casos en los extremos o en “colas” derecha o iz-
EST-203 ESTADISTICA II Arturo Calderón G. 2014 6

quierda de la distribución en la muestra con la equi-


valente en una distribución normal. En la distribución
normal esa proporción es de 2.3% aproximadamente y si
en la muestra es mucho mayor (distribución con “colas
pesadas” se dice), hay más probabilidad de lo usual de
tener valores extremos, valores que a pesar de ser
pocos pueden causar una falsa significación en los
contrastes. En cambio, si es mucho menor (distribución
con “colas ligeras”), entonces se reduce la probabili-
dad de detectar coeficientes significativos aunque lo
sean, es decir, se reduce la probabilidad de detectar
una hipótesis de trabajo verdadera. Una regla empírica es que
la curtosis es grave si en valor absoluto el coeficiente de curtosis es mayor que 8

(2) La no colinealidad es el supuesto de variables explicativas


independientes o al menos no excesivamente correlacio-
nadas (que es el caso en Psicología, donde es difícil
encontrar rasgos totalmente independientes). Una manera
sencilla de verificar la no correlación excesiva de una
v.i.,digamos Xj, es hacer un análisis de regresión de
Xj como dependiente de las otras (p-1) v.i. del modelo:
• El R2Xj debiera salir muy pequeño y por oposición
(1-R2Xj), que es la proporción de varianza de Xj
explicada “por ella misma”, debiera ser cercano a
uno. Esta última cantidad se llama la “Tolerancia”:
Tol(Xj )=1-R2Xj.
Cuando una v.i. correlaciona excesivamente con algu-
nas de las demás v.i. de un modelo, una consecuencia
es que su Tolerancia es muy baja y eso aumenta arti-
ficialmente la varianza del error o residuo, lo que
no es bueno, pues puede malograr las pruebas de sig-
nificancia de los coeficientes de regresión. La
Tolerancia no debe ser baja. Una regla práctica es:
Si Tol(Xj )=1-R2Xj es menor que 0.1 se considera que Xj correlaciona
excesivamente con algunas otras v.i.
• La inversa de la Tolerancia se llama Factor de Infla-
ción de Varianza, y se denota FIV: FIV= 1/Tol(Xj).
El FIV mide cuánto aumenta la varianza del residuo
debido a una excesiva correlación de Xj con algunas
otras v.i. El FIV no debe ser alto y, en general, la
regla práctica es:
Si FIV < 10, la correspondiente variable independien-
te no está demasiado correlacionada con las otras
v.i. del modelo y por tanto no hay mayor problema de multi-
colinealidad o colinealidad, que es lo mismo.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 7

Cuando hay problema de multicolinealidad, hay varias posibilidades:

Puede ser que haya una variable “redundante”, que mide lo mismo
que otra u otras del modelo y que inadvertidamente se
ha incluido en el grupo. En este caso, se puede iden-
tificar y omitir la variable redundante del modelo y se
resuelve el conflicto.
Una situación más complicada ocurre cuando varias v.i. corre-
lacionan mucho entre sí, sin que haya redundancia. Una
alternativa es formar un índice compuesto de todas
ellas, calculado como promedio simple o ponderado. Para
que eso tenga sentido, las variables deben medir rasgos
o características compatibles y sumables, de modo que
tenga sentido un índice compuesto.

Si no es posible formar una “variable resumen” porque carece de sen-


tido psicológico, entonces una alternativa es hacer una
“Regresión con entrada Jerárquica” donde las variables indepen-
dientes van entrando al modelo en sucesivas etapas y se
mide el aumento y significancia en los correspondientes R2.La
secuencia de entrada debe ser definida cuidadosamente
por el investigador, pues las significaciones dependen del orden de
ingreso al modelo. Por eso debe definirse de antemano y con justificación
teórica fuera de la estadística.

Si una regresión jerárquica no tuviera sentido teórico y hay alta coli-


nealidad, ésta puede deberse a que en verdad no basta
con una ecuación de regresión, sino que hay más de una
variable dependiente. En ese caso, hay que pasar a un modelo
de ecuaciones múltiples vía Análisis Multivariado de Regresión
Múltiple o en casos más complejos, vía Modelos de
Ecuaciones Estructurales.

Notas:
1. El supuesto de relación lineal se hace con diagramas de disper-
sión, por pares Y vs Xj o mútiples.

2. Acerca del tamaño de muestra recomendable.


No hay un tamaño n óptimo pero se recomienda tener en-
tre 15 y 20 casos por cada variable independiente y
nunca menos de 5 casos por v.i., pues se pierde capacidad de
detectar efectos significativos.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 8

Ejemplo 5
En el ejemplo anterior, agregamos opciones a la secuencia
estándar de comandos SPSS:
Analize⇒Regression⇒Linear→Dependent:Y→Ιndependent(s):
X1 X2→
Plots: Normal probability plot→ Continue→
Statistics: Collinearity diagnostics→ Continue→ OK
(o en castellano:
Analizar⇒Regresión⇒Lineales→Dependendiente:Y→Ιndependen
dientes: X1 X2→ Gráficos:Gráfico de prob. Normal
→ Continuar→Estadísticos:Diagnósticos de colinealidad→
Continuar→Aceptar.)

Los cuadros son similares a los obtenidos antes, salvo el


cuadro de coeficientes y un gráfico de normalidad:

Figura 1 Diagnóstico gráfico de


normalidad

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Calidad de Hábitos de estudio

1,0

0,8
Expected Cum Prob

0,6

0,4

0,2

0,0
0,0 0,2 0,4 0,6 0,8 1,0
Observed Cum Prob

Los puntos “o” corresponden a los residuos ε j estandari-


zados: Si hay normalidad en los residuos ε j éstos al ser
estandarizados deben tener una distribución normal N(0,1)
y su distribución acumulativa debe coincidir con ella. En
consecuencia los puntos “o” debe caer sobre o cerca de la
línea recta, como es en esta muestra, así que concluimos
que sí hay indicios de normalidad

En cuanto a la multicolinealidad, tenemos


EST-203 ESTADISTICA II Arturo Calderón G. 2014 9

a
Coefficients
Unstandardized Standardized Collinearity
Coefficients Coefficients Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
(Constant) 1,039 11,403 ,091 ,929
Control 1,251 ,559 ,411 2,238 ,045 ,986 1,014
Estabilidad 1,659 ,498 ,611 3,329 ,006 ,986 1,014
emocional
a. Dependent Variable: Calidad de Hábitos de estudio

O en castellano
a
Coeficientes
Coeficientes no Coeficientes Estadísticos de
estandarizados tipificados colinealidad
Modelo B Error típ. Beta t Sig. Tolerancia FIV
(Constante) 1,039 11,403 ,091 ,929
Control 1,251 ,559 ,411 2,238 ,045 ,986 1,014
Estabilidad 1,659 ,498 ,611 3,329 ,006 ,986 1,014
emocional
a. Variable dependiente: Calidad de Hábitos de estudio

El VIF tanto de X1 como de X2 es menor que 10, así que


ninguna variable ocasiona problema de multicolinealidad.

Ejemplo 6
En el ejemplo 3 relativo a la Depresión en pacientes
seropositivos, en relación a la verificación de supuestos
tenemos:

Para la normalidad de residuos

Figura 1 Diagnóstico Figura 2 Histograma de


gráfico de normalidad frecuencias de residuos
EST-203 ESTADISTICA II Arturo Calderón G. 2014 10

La figura 1 muestra que habría normalidad de residuos, la


mayoría de puntos caen cerca de la recta de normalidad.
El histograma de la figura 2 también muestra cierta
semejanza de la distribución de residuos estandarizados
con una distribución normal estándar, aunque en general
el histograma no es tan confiable porque suele cambiar
mucho según variamos el número de intervalos.

Para la no multicolinealidad, la tabla 1 abajo, que es


una ampliación de la tabla 3 del ejemplo 8, muestra
además las tolerancias y FIV correspondientes

Tabla 1 Estadísticas de colinealidad


a
Coeficientes
Coeficientes no Coeficientes Estadísticos de
estandarizados tipificados colinealidad
Modelo B Error típ. Beta t Sig. Tolerancia FIV
(Constante) 34,099 6,403 5,325 ,000
Satisfacción con Soporte -,349 ,188 -,220 -1,857 ,069 ,915 1,092
Instrucción -1,449 ,662 -,297 -2,189 ,033 ,697 1,434
Participa de un GAM -4,606 2,229 -,253 -2,066 ,044 ,852 1,174
Sexo -4,525 2,638 -,220 -1,715 ,093 ,780 1,283
Edad ,048 ,126 ,044 ,384 ,703 ,973 1,027
a. Variable dependiente: Indice de Depresión Beck

Todos los FIV son menores que 10 y se concluye que no


habría mayor problema de multicolinealidad, las v.i. del
modelo no tienen correlación excesiva ente ellas y sí es
posible separar sus efectos.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 11

Capítulo II Regresión no lineal y Regresión Logística

1. Ampliaciones del modelo de regresión múltiple

1.1 Regresión no lineal

Un supuesto básico en los modelos lineales es que los cambios en las variables
independientes ocasionan variaciones proporcionales en la variable dependiente, sea
cual fuere el nivel de las primeras. Lo anterior no siempre es razonable, por ejemplo,
en Psicofisiología es usual el caso de una Respuesta Y que se va saturando al
aumentar la Intensidad X del estímulo, de modo que el crecimiento en Y se va
atenuando hasta anularse. Otro caso es el del Rendimiento Y que responde primero de
modo creciente a la cantidad X de Entrenamiento, pero pasado un cierto umbral, la
respuesta decrece luego de alcanzar Y un punto extremo. Gráficamente:

Figura 1

Saturación en la respuesta Rendimientos crecientes y decrecientes

Con frecuencia estos casos se tratan adaptándolos al modelo lineal, y se conocen


como “Modelos linealizables”: situaciones en donde una transformación de variables
asimila el modelo a un caso lineal simple o múltiple. A veces, la transformación es
algebraica, pero otras la linealización del modelo requiere transformaciones no
algebraicas, por ejemplo, con ayuda de logaritmos.

Los Modelos linealizables más frecuentes son

Cuadrático: , que se asimila al caso lineal múltiple ha-


ciendo , lo que convierte el modelo en . Luego
aplica el procedimiento usual de ajuste de un modelo lineal mútiple, obteniendo
estimaciones y pruebas de hipótesis.
La gráfica del modelo es la de una “función cuadrática” que se “abre hacia arriba” si
0 o “hacia abajo” si 0. Las curvas correspondientes son las de la figura 1
siguiente:
EST-203 ESTADISTICA II Arturo Calderón G. 2014 12

Figura 2

Modelo Cuadrático ß2 > 0 Modelo Cuadrático ß2 < 0

Polinomial: ⋯ , que se asimila al modelo


lineal múltiple haciendo , que convierte el modelo en

La gráfica depende fundamentalmente del signo de la mayor potencia de (o sea de
) y por supuesto, también del "grado" (potencia) del polinomio. Por ejemplo, dos
gráficas típicas son:

Figura 3

Modelo Polinomial 0 Modelo Polinómial 0

Existen otros modelos, pero todos tienen la característica de ser asimilables al caso
lineal mediante alguna transformación adecuada. Un modelo no lineal se usa cuando
hay razones teóricas que lo justifican y/o la nube de puntos o diagrama de dispersión
hace evidente la no linealidad. Para saber cuál modelo usar, es necesario conocer la
forma de las gráficas de los distintos modelos. En cualquier caso, debe recordarse que
las estimaciones, el R2 y el Análisis de Varianza se aplican al Modelo Linealizado.

Hay modelos que no admiten asimilación al caso lineal. Se llaman modelos


"intrinsecamente no lineales" y se tratan con métodos especiales. Dos modelos que
aparecen en la Psicometría son el Modelo Probit y Modelo de Rasch.
EST-203 ESTADISTICA II Arturo Calderón G. 2014 13

Ejemplo de modelo de regresión no lineal


Un psicólogo social estudia la relación entre Ingreso y Experiencia (medida en años
de trabajo) en empleados de corporaciones grandes. En una muestra tomada de di-
ferentes corporaciones registró estas variables Y = Ingreso en cientos de dólares y X =
Experiencia. La hipótesis es que el Ingreso responde de manera directa y lineal a la
Experiencia.

En este caso la ecuación correspondiente a la hipótesis del psicólogo es:


Y = β 0 + β1 X + ε con β1 > 0 .

El diagrama de dispersión resultó:

Figura 4 Ingreso y Experiencia laboral

El diagrama muestra que la relación propuesta no es lineal sino más bien cuadrática
Y = β 0 + β1 X + β 2 X 2 + ε .
Si definimos X 2 = X 2 tenemos Y = β 0 + β1 X + β 2 X 2 + ε que es un modelo lineal
en X y X 2 . Aplicando regresión lineal simple en X y luego regresión lineal múltiple
en X y X 2 obtenemos

Tabla 1 Ajuste de modelo simple vs cuadrático


Resumen del modelo
R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación
1 ,822a ,675 ,673 5,82794
a. Variables predictoras: (Constante), X1_Años experiencia
Modelo simple Y = β 0 + β1 X + ε
EST-203 ESTADISTICA II Arturo Calderón G. 2014 14

Resumen del modelo


R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación
1 ,962a ,925 ,924 2,81727
a. Variables predictoras: (Constante), X2_ExpCuadrado,
X1_Años experiencia
Modelo múltiple Y = β 0 + β1 X + β 2 X + ε )
2

El modelo cuadrático se ajusta mejor (R2A=0.924) que el modelo simple (R2A=0.673)

Tabla 2 Significación de coeficientes de modelo simple vs cuadrático


Coeficientesa
Coeficientes no Coeficientes
estandarizados tipificados
Modelo B Error típ. Beta t Sig.
(Constante) 48,506 1,088 44,579 ,000
X1_Años experiencia ,883 ,052 ,822 17,127 ,000
a. Variable dependiente: Y_Ingreso (Cientos de US$)
Modelo simple Y = β 0 + β1 X + ε
Coeficientesa
Coeficientes no Coeficientes
estandarizados tipificados
Modelo B Error típ. Beta t Sig.
(Constante) 34,720 ,829 41,896 ,000
X1_Años experiencia 2,872 ,096 2,672 30,014 ,000
X2_ExpCuadrado -,053 ,002 -1,916 -21,526 ,000
a. Variable dependiente: Y_Ingreso (Cientos de US$)
Modelo múltiple Y = β 0 + β1 X + β 2 X + ε
2

El coeficiente de X2 resulta significativo y negativo, como se espera

Figura 5 Pruebas gráficas de normalidad de residuos de modelo simple vs cuadrático

Normal P-P Plot of Regression Standardized Residual Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Ingreso (Cientos de US$) Dependent Variable: Ingreso (Cientos de US$)

1,0 1,0

0,8 0,8
Expected Cum Prob
Expected Cum Prob

0,6 0,6

0,4
0,4

0,2
0,2

0,0
0,0
0,0 0,2 0,4 0,6 0,8 1,0
0,0 0,2 0,4 0,6 0,8 1,0
Observed Cum Prob
Observed Cum Prob

Y = β 0 + β1 X + ε
Normalidad de residuos en Normalidad de residuos en Y = β 0 + β1 X + β 2 X + ε
2

El comportamiento de los residuos es mejor en el modelo cuadrático


EST-203 ESTADISTICA II Arturo Calderón G. 2014 15

Nota:
Si usáramos un modelo cúbico con X 3 = X tenemos Y = β 0 + β1 X + β 2 X 2 + ε
3

Resumen del modelo


R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación
1 ,962a ,926 ,924 2,80850
a. Variables predictoras: (Constante), X3_ExpCubo,
X1_Años experiencia, X2_ExpCuadrado
Coeficientesa
Coeficientes no Coeficientes
estandarizados tipificados
Modelo B Error típ. Beta t Sig.
(Constante) 35,832 1,158 30,944 ,000
X1_Años experiencia 2,541 ,260 2,363 9,762 ,000
X2_ExpCuadrado -,031 ,016 -1,126 -1,930 ,056
X3_ExpCubo ,000 ,000 -,500 -1,370 ,173
a. Variable dependiente: Y_Ingreso (Cientos de US$)
El término cúbico X3 no es significativo, el modelo cúbico no funciona mejor que el cuadrático.

1.2 Regresión con variables independientes dicotómicas

Aunque el modelo de regresión se formuló para v.i. cuantitativas, también es posible


aplicarlo cuando hay alguna(s) v.i. dicotómica. Por ejemplo si Y es la puntuación en
depresión de un paciente y tenemos un modelo del tipo
Y = β0 + β1X1 + β 2 X 2 + ε , β1 > 0, β 2 < 0 , donde X1 = Estrés y X 2 es variable
dicotómica que vale 1 cuando el paciente toma terapia y 0 cuando no es así, entonces
β 2 mide en cuánto disminuye la depresión cuando la persona pasa de X 2 = 0 a
X 2 = 1 , esto es, pasa de no a tomar terapia a sí hacerlo.

El análisis estadístico no cambia. Ya hemos visto ejemplos de este tipo de casos.

Si la variable independiente es nominal pero con k > 2 categorías, se toma una de és-
tas (digamos la categoría 1) como base de comparación y cada una de las (k-1) cate-
gorías restantes se representa con una correspondiente variable dicotómica Dj que
toma valor 1 si el caso está en la categoría j y 0 si no es así. En este contexto, si el
caso está en la categoría base, todas las Dj toman valor 0, y cuando se pasa a un caso
que está exactamente en la categoría j, sólo Dj es 1 y las demás son 0, por eso el
coeficiente β j correspondiente mide el cambio en Y cuando se pasa de la categoría
base a la representada por Dj .
EST-203 ESTADISTICA II Arturo Calderón G. 2014 16

Ejemplo de modelo v.o. categórica con tres categorías

Se plantea que el ingreso por hora (ingreso horario) de los egresados de una muestra
de egresados de Institutos tecnológicos de las especialidades Informática, Conta-
bilidad y Educación depende de la especialidad, de modo que los egresados de
Educación ganan menos por hora de trabajo. En un modelo de regresión múltiple se
introdujeron variables dictómicas para cada especialidad (1=Es de la especialidad,
0=No es de la especialidad). Los resultados del análisis de regresión son:

Tablas del análisis de regresión de Ingreso horario dependiente de especialidad


Tabla 1 Resumen del modelo
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
a
1 ,195 ,038 ,029 2,69608
a. Variables predictoras: (Constante), Cont/Administ,
Comp/Informática
b
Tabla 2 ANOVA
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
a
1 Regresión 58,844 2 29,422 4,048 ,019
Residual 1482,845 204 7,269
Total 1541,690 206
a. Variables predictoras: (Constante), Cont/Administ, Comp/Informática
b. Variable dependiente: Ingreso por hora de trabajo
Tabla 3 Coeficientesa
Coeficientes no Coeficientes
estandarizados tipificados
Modelo B Error típ. Beta t Sig.
(Constante) 1,023 ,721 1,420 ,157
Comp/Informática 1,276 ,761 ,230 1,677 ,095
Cont/Administ ,239 ,788 ,042 ,304 ,762
a. Variable dependiente: Ingreso por hora de trabajo
La categoría de referencia es Especialidad de Educación

Tabla 4 Estadísticas de ingreso horario por especialidad


Ingreso por hora de trabajo
Especialidad Media N Desv. típ.
Computación/Informática 2,2993 121 3,27949
Contabilidad/Administración 1,2625 72 1,63531
Educación 1,0232 14 ,42690
Total 1,8523 207 2,73568