Академический Документы
Профессиональный Документы
Культура Документы
1 Introducción
A grandes rasgos, el objetivo de la regresión logı́stica se puede describir de la sigu-
iente forma:
Supongamos que los individuos de una población pueden clasificarse en dos
grandes grupos (grupo A y grupo B), pero su clasificación no es sencilla, bien porque
implique un estudio costoso, bien porque se refiera al futuro, o por cualquier otro
motivo. Sin embargo, el conocimiento de los valores de algunas variables de esos
individuos puede resultar de mucha ayuda para su clasificación.
Ejemplos
Los individuos de cierta especie de aves pueden pertenecer a dos subespecies. A
simple vista, no es fácil determinar a cuál de ellas pertenece un ejemplar determi-
nado, pero el conocimiento de su peso y de su envergadura pueden ayudar a una
correcta clasificación. En este caso, podemos llamar A y B a las dos subespecies.
La supervivencia de los árboles tras el paso de una tormenta de gran intensidad
se piensa que depende, sobre todo, de su diámetro y de una medida de la severidad
local de la tormenta. En este caso, podemos decir que un árbol estarı́a en el grupo
A si no sobrevive, y en el grupo B cuando sobrevive.
Pero este modelo tiene el inconveniente obvio de que el segundo miembro rara-
mente tendrá un valor entre 0 y 1. Por este y otros motivos, se va a recurrir a una
1
versión sencilla de la función logı́stica (que se estudió en el curso de Matemáticas):
1
f (x) =
1 + e−x
Esta función tiene la ventaja de que siempre toma valores entre 0 y 1, siendo por
tanto una función muy adecuada para modelizar probabilidades.
En resumen, el modelo de regresión logı́stica es de la siguiente forma:
1
P r(A) = P r(Yi = 1) = para i = 1, ..., n
1+ e−β0 −β1 x1i −...−βj xji −...−βk xki
Es decir, el modelo de regresión logı́stica estipula que la probabilidad de que un
individuo pertenezca al grupo A (o en términos técnicos, la probabilidad de que la
variable Y tome el valor 1) depende de los valores concretos que tengan las variables
X1 , ..., Xk en ese individuo, a través de la función anterior.
En resumen, las hipótesis iniciales del modelo de regresión logı́stica son las sigu-
ientes:
(1) Las observaciones Y1 , ..., Yn son independientes.
(2) Cada Yi sigue una distribución de Bernoulli.
(3) La probabilidad de que Yi sea igual a 1 (probabilidad de que el individuo
pertenezca al grupo A) depende de los valores de las variables X1 , ..., Xk a traves
del siguiente modelo:
1
P r(A) = P r(Yi = 1) = para i = 1, ..., n
1+ e−β0 −β1 x1i −...−βj xji −...−βk xki
2
(1) En primer lugar, calculamos el siguiente cociente o razón de probabilidades,
que se representará con la letra O (del inglés odds):
1
P r(A) P r(Y = 1) −β0 −β1 x1 −...−βj xj −...−βk xk
O(x1 , ..., xj , ..., xk ) = = = 1+e 1
P r(B) P r(Y = 0) 1 − 1+e−β0 −β1 x1 −...−β j xj −...−βk xk
En consecuencia:
El cociente de probabilidades se multiplicará por eβj cuando aumentamos una
unidad el valor de Xj (manteniendo constantes todas las demás).
Por ejemplo, si eβj = 2, el cociente de probabilidades se multiplicarı́a por 2.
4 Estimadores puntuales
Mediante la aplicación del método de máxima verosimilitud, se obtendrı́an los esti-
madores puntuales de los parámetros:
En esa misma tabla, aparecen también las estimaciones de eβj , cuyo significado
se ha explicado en la sección anterior.
5 Intervalos de confianza
Mediante la aplicación del método de la cantidad pivotal, se obtendrı́an los intervalos
de confianza, al nivel 1 − α, para estimar β0 , β1 , ..., βk :
IC1−α (βj ) = β̂j ± zα/2 (error tı́pico de β̂j ) para j = 0, 1, ..., n
3
Los errores tı́picos de β̂j aparecerán en la tabla de “Variables en la ecuación” de
SPSS.
También es posible obtener intervalos de confianza para eβj mediante el SPSS, ac-
tivando la opción correspondiente dentro del botón “Opciones...”. Dichos intervalos
aparecerán en la tabla de “Variables en la ecuación”.
6 Contrastes de hipótesis
En esta sección, vamos a considerar los contrastes de hipótesis necesarios para es-
tudiar si las variables regresoras que se introdujeron en el modelo son realmente
necesarias o explicativas. El tipo de pregunta que nos planteamos es de la siguiente
forma:
¿Disponemos de suficiente evidencia muestral para afirmar que Xj tiene un papel
relevante en el modelo o, dicho de otra forma, una influencia significativa sobre la
probabilidad de clasificación en el grupo A? Dado que la posible influencia de
Xj desaparecerı́a si su coeficiente βj se anulase, esto nos lleva a elegir entre las
posibilidades βj = 0 y βj 6= 0 y, por tanto, al siguiente contraste de hipótesis:
H0 : βj = 0 (Xj no influye)
H1 : βj 6= 0 (Xj sı́ influye)
Elegiremos un nivel de significación α para tomar una decisión al final del estudio.
Esta decisión la podemos tomar utilizando el intervalo de confianza IC1−α (βj ):
Si el valor cero está contenido en IC1−α (βj ), aceptamos H0 , y la conclusión es que
no hay evidencia estadı́stica para afirmar que Xj tiene una influencia significactiva
sobre la probabilidad de clasificación.
Por el contrario, si el valor cero no está contenido en IC1−α (βj ), rechazamos H0 ,
y la conclusión en este caso es que disponemos de suficiente evidencia estadı́stica
para afirmar que Xj tiene una influencia significactiva sobre la probabilidad de
clasificación.
4
8 Estimación de las probabilidades
Una vez que hemos obtenido las estimaciones puntuales de los parámetros, β̂0 ,
β̂1 ,...,β̂k , es muy sencillo estimar la probabilidad de que un individuo pertenezca
al grupo A, cuando los valores de las variables regresoras para ese individuo son
X1 = x1 , ..., Xk = xk . Para hacer esto, es suficiente con sustituir las estimaciones de
los parámetros en el modelo de regresión logı́stica:
1
P r(A) = P r(Y = 1) =
1+ e−β̂0 −β̂1 x1 −...−β̂k xk
En particular, si al utilizar el SPSS, activamos la opción “Probabilidades” dentro
del botón “Guardar...”, el programa calcula las probabilidades estimadas para cada
uno de los individuos que intervienen en la muestra, y las guarda en una nueva
columna del Editor de Datos.