Академический Документы
Профессиональный Документы
Культура Документы
presente = a + b1pasado + e
en donde:
Y es la variable a predecir;
a y b1X1 son parmetros desconocidos a estimar;
y e es el error que cometemos en la prediccin de los par-
metros.
No obstante, antes de proceder a la estimacin de los par-
metros, y con ellos a la concrecin de una ecuacin predictiva,
debemos corroborar que, efectivamente, los datos sometidos a
Cap t ul o 6
Anl i s i s de Regres i n Si mpl e
Estadstica Informtica: casos y ejemplos con el SPSS 91 91
1. Introduccin
Captulo 6
Anlisis de Regresin Simple
Cap t ul o 6
Anl i s i s de Regres i n Si mpl e
Estadstica Informtica: casos y ejemplos con el SPSS 92
anlisis se adaptan a un modelo de regresin lineal. La leccin la
hemos estructurado en los siguientes puntos:
1. Exposicin de los estadsticos que nos permiten valora-
cin de la bondad de ajuste de los datos al modelo de
regresin lineal simple.
2. Si los estadsticos certifican que entre los datos se produ-
ce una asociacin lineal, podremos pasar a estimar los
parmetros de la ecuacin lineal (B0 y B1), a partir de los
cuales podremos efectuar predicciones de la variable
dependiente. Cabe advertir que en el supuesto caso en el
que los estadsticos rechazaran la asociacin lineal entre
los datos, no significa que entre ellos se produzca otro
tipo de relacin (como la curvilnea).
3. Por ltimo, exponemos la secuencia de pasos que nos
permiten determinar lo arriba apuntado. En el anlisis de
regresin simple, y con la finalidad de obtener la mayor
informacin posible respecto a la relacin y asociacin
entre las dos variables, vamos a trabajar con tres Cuadros
de Dilogos, a saber: Cuadro de Dilogo de
Correlaciones Bivariadas. Cuadro de Dilogo de
Grficos; y Cuadro de Dilogo del Anlisis de Regresin
Lineal Mltiple.
Antes de poder aplicar el modelo de regresin lineal simple
para predecir los valores que alcanzar una determinada variable
criterio, debemos certificar que los datos a los que sometemos a
dicho anlisis se ajustan al modelo de regresin lineal simple; o
lo que es lo mismo, debemos analizar el grado de asociacin
lineal entre la variable dependiente y la independiente as como
determinar la proporcin de variabilidad de la variable depen-
diente explicada por la independiente.
Los principales estadsticos y pruebas que nos permiten valo-
ra la bondad de ajuste de los datos al modelo de regresin lineal
simple son.
1.- Coeficiente de Correlacin Lineal Simple (r).
Mide el grado de asociacin lineal entre dos variables. Este
estadstico oscila entre 1 (fuerte asociacin lineal positiva: a medi-
2. Bondad de ajuste de los datos al modelo de regresin line-
al simple
da que aumenten los valores de una variable aumentarn los de
la otra) y 1 (fuerte asociacin lineal negativa: a medida que
aumenten los valores de una variable disminuyen los de la otra).
Cuando los valores de este estadstico se aproximen a 0 nos esta-
r indicando que entre las dos variables no existe asociacin line-
al y, en consecuencia, carece de sentido determinar el modelo
y/o ecuacin de regresin lineal. Resulta muy interesante com-
parar este coeficiente junto con el Scatter Plot de la nube de pun-
tos (grfico 1 del anexo de resultados), ya que el grfico nos ofre-
ce una representacin elocuente de la distribucin y relacin de
las dos variables relacionadas. Si la nube de puntos forma una
forma indefinida y muy dispersa, nos indica la inexistencia de
relacin entre las variables. Si por el contrario, se observa una
forma definida y proximidad entre los puntos, habr relacin
entre las variables caracterizada por la forma y distribucin que
adopte.
Para determinar si la asociacin es estadsticamente significa-
tiva podemos contrastar la H0 de que el coeficiente de correlacin
lineal es igual a 0; o lo que es lo mismo, que las dos variables
estn incorrelacionadas. Si el p-valor asociado al estadstico de
contraste (r) es menor que el nivel de significacin elegido (nor-
malmente 0.05) rechazaremos H0. En la matriz de correlaciones
se recogen estos dos valores: en primer lugar aparece el grado
de relacin (r) que se produce entre las dos variables que cruza-
mos; y en segundo lugar, la significacin estadstica de esa rela-
cin.
Debemos hacer notar que pese a que estemos efectuando un
anlisis de regresin lineal bivariado, el proceso que seguimos es
el del anlisis de regresin multivariable. El cuadro de dilogo del
anlisis multivariado ofrece una informacin ms rica de ah la
tendencia generalizada a utilizar ste en detrimento del cuadro de
dilogo de regresin simple. Por esta razn, vamos a ver como
en las salidas del ordenador, y pese a estar realizando un anlisis
con dos variables, a este coeficiente se le denomina coeficiente
de Correlacin Mltiple (Multiple R), residiendo la explicacin
en el hecho de que va a ser siempre el anlisis multivariable el
que apliquemos indistintamente si nos encontramos trabajando
con dos variables, como es ahora el caso, o con ms variables,
como se ver en el prximo captulo. No debemos confundir el
coeficiente de correlacin mltiple (mide el grado de asociacin
entre la variable dependiente y un conjunto de variables inde-
Cap t ul o 6
Anl i s i s de Regres i n Si mpl e
Estadstica Informtica: casos y ejemplos con el SPSS 93 93
Cap t ul o 6
Anl i s i s de Regres i n Si mpl e
Estadstica Informtica: casos y ejemplos con el SPSS 94
pendientes), de los coeficientes de correlacin lineal simple (apa-
recen en la matriz de correlaciones).
2.- Coeficiente de Correlacin Mltiple al Cuadrado o
Coeficiente de Determinacin (R Square R
2
).
El coeficiente de determinacin se define a partir del coefi-
ciente de correlacin mltiple (R) y mide la proporcin de varia-
bilidad de la variable dependiente explicada por la variable inde-
pendiente introducida o por la recta de regresin. Si el valor que
resulta lo multiplicamos por 100, obtendremos el porcentaje de
variabilidad explicada.
3.- Coeficiente de Determinacin Ajustado (Adjusted R
Square).
Pese a que R
2
se viene utilizando como medida de ajuste al
modelo, presenta el inconveniente de que a medida que vamos
incrementando el nmero de variables que participan en el
modelo (ser el caso propio del anlisis multivariable) mayor es
su valor de ah que la R
2
sobrestime el verdadero R de la pobla-
cin. Por esta razn, algunos autores recomiendan utilizar el
Coeficiente de Determinacin Ajustado pues ste no aumenta,
necesariamente, a medida que aadimos variables a la ecuacin.
Este estadstico queda ajustado por el nmero de observaciones
y el nmero de variables independientes incluidas en la ecuacin.
4.- Error Tpico de Prediccin (ETB).
El error tpico de la prediccin es la parte de la variable
dependiente que dejamos de explicar ya sea porque nos falte
alguna variable por introducir, o bien, porque las variables que
hemos elegido no son las ms adecuadas. Su clculo se estable-
ce a partir de la desviacin tpica de la variable dependiente y el
coeficiente de determinacin ajustado.
5.- Anlisis de Varianza.
La tabla de anlisis de varianza que incluye en su salida el
SPSS nos permite valorar hasta qu punto es adecuado el mode-
lo de regresin lineal para estimar los valores de la variable
dependiente. La tabla de anlisis de varianza se basa en que la
variabilidad total de la muestra puede descomponerse entre la
variabilidad explicada por la regresin y la variabilidad residual.
La tabla de ANOVA proporciona el estadstico F a partir del cual
podemos contrastar la H0 de que R
2
es igual a 0, la pendiente de
la recta de regresin es igual a 0, o lo que es lo mismo, la hip-
tesis de que las dos variables estn incorrelacionadas. Si el p-
valor asociado al estadstico F es menor que el nivel de signifi-
cacin (normalmente 0.05), rechazaremos la hiptesis nula plan-
teada.
6.- Anlisis de Residuales.
Como ya hemos comentado los residuos, e, son la esti-
macin de los verdaderos errores. En regresin lineal la distribu-
cin de la variable formada por los residuos debe ser Normal,
esto es, los residuos observados y los esperados bajo hiptesis de
distribucin normal deben ser parecidos. Adems, los residuos
deben ser independientes. En consecuencia, el anlisis de los
residuales nos va a permitir no solo profundizar en la relacin
que se produce entre las dos variables, sino tambin, ponderar la
bondad de ajuste de la regresin obtenida.
Para contrastar la supuesta normalidad de los residuales
podemos recurrir, fundamentalmente, a la representacin de dos
grficos: (1) el grfico de residuales tipificados (grfico 2 del
anexo de resultados) nos da idea de cmo se distribuyen los resi-
duos en relacin a la distribucin normal (que sera la que cabra
esperar de los mismos). Si ambas distribuciones son iguales (la
distribucin de los residuos es normal) los puntos se sitan sobre
la diagonal del grfico. Por lo contrario, en la medida que apare-
cen dispersos y formando lneas horizontales respecto a la dia-
gonal, habr ms residuos y el ajuste ser peor; (2) el grfico de
probabilidad normal (grfico 3 del anexo de resultados) compa-
ra grficamente, al superponer la curva de distribucin normal, la
funcin de distribuciones acumulada observadas en la muestra
con la funcin de distribucin acumulada esperada bajo supues-
tos de normalidad.
Por su parte el estadstico de Durbin-Watson mide el grado
de autocorrelacin entre el residuo correspondiente a cada obser-
vacin y el anterior (si los residuos son independientes, el valor
observado en una variable para un individuo no debe estar
influenciado en ningn sentido por los valores de esta variable
observados en otro individuo). Si el valor del estadstico es pr-
ximo a 2 los residuos estn incorrelacionados; si se aproxima a
4, estarn negativamente incorrelacionados; y si se aproximan a
0 estarn positivamente incorrelacionados.
Cap t ul o 6
Anl i s i s de Regres i n Si mpl e
Estadstica Informtica: casos y ejemplos con el SPSS 95 95
Cap t ul o 6
Anl i s i s de Regres i n Si mpl e
Estadstica Informtica: casos y ejemplos con el SPSS 96
Una vez que ya hemos analizado el carcter e intensidad de
la relacin entre las variables, podemos proceder a estimar los
parmetros de la ecuacin de prediccin o de regresin lineal. El
criterio para obtener los coeficientes de regresin B0 y B1 es el de
mnimos cuadrados. Este consiste en minimizar la suma de los
cuadrados de los residuos de tal manera que la recta de regresin
que definamos es la que ms se acerca a la nube de puntos
observados y, en consecuencia, la que mejor los representa.
Los estadsticos asociados a la variable independiente que ha
pasado a formar parte del modelo de regresin simple son:
1.- Coeficiente de regresin B.
Este coeficiente nos indica el nmero de unidades que
aumentar la variable dependiente o criterio por cada unidad que
aumente la variable independiente.
2.- SEB.
Error tpico de B.
3.- Coeficiente Beta.
El coeficiente Beta es el coeficiente de regresin estandariza-
do. Expresa la pendiente de la recta de regresin en el caso de
que todas las variables estn transformadas en puntuaciones Z.
4.- Constante.
El valor de la constante coincide con el punto en el que la
recta de regresin corta el eje de ordenadas. En la ecuacin de
prediccin se mantiene constante para todos los individuos.
Cuando las variables han sido estandarizadas (puntuaciones Z) o
si se utilizan los coeficientes Beta, la constante es igual a 0 por
lo que no se incluye en la ecuacin de prediccin.
5.- Tolerancia.
Tolerancia es la proporcin de variabilidad no explicada por
el resto de variables (1-R
2
). Cuanto mayor sea la T ms indepen-
diente es la variable en cuestin.
3. Estimacin de los parmetros o coeficientes de regresin:
la ecuacin de prediccin o ecuacin de regresin simple
6.- Valor T.
El estadstico T nos permite comprobar si la regresin entre
una variable independiente y la dependiente es significativa. Si el
p-valor asociado al estadstico T (Sig T) es mayor al nivel de sig-
nificacin (normalmente 0.05) rechazaremos que la regresin
sea significativa para las dos variables relacionadas.
En nuestro caso la significacin del estadstico T asociado al
modelo generado con la nica variable independiente que dis-
ponemos es inferior a 0.05 de ah que podamos ratificar el carc-
ter predictivo de dicha variable y podamos, en consecuencia,
exponer la ecuacin del modelo. En el ejemplo que recogemos
en la seccin de Resultados, la transcripcin de los resultados a
la ecuacin quedara como sigue:
Y = a + b1x1 + e