Вы находитесь на странице: 1из 16

Eddy Herrera Daza eherrera@javeriana.edu.

co

MODELO DE REGRESION LOGISTICA

Problema 1:
Supngase que se quiere determinar cmo influyen los valores o niveles de los siguientes
factores en la probabilidad de caer en mora, por parte de una persona que solicita un
crdito de vehculo. Los factores son:
Respaldo financiero
Actividad Econmica
Genero
Edad
Situacin civil
Nmero de personas a cargo
As mismo, determinar que variables pesan ms que otras a la hora de caer en la condicin
de mora.
Finalmente, se quiere clasificar a una persona nueva que va solicitar crdito para vehculo
en un individuo que va caer potencialmente en mora o no, de acuerdo a sus valores o
niveles de los anteriores factores considerados.
Problema 2
En 1986, el transbordador espacial Challenger tuvo un accidente catastrfico debido a un
incendio en una de las piezas de sus propulsores. En todas las ocasiones anteriores se
haban inspeccionado los propulsores de las naves, y en algunas de ellas se haban
encontrado defectos. Teniendo en cuenta esto y estudios anteriores se encontr que el factor
principal relacionado con la presencia de defectos en los propulsores era la temperatura, en
ste sentido se realizaron diferentes pruebas de laboratorio para revisar la presencia o no de
defectos en los propulsores y la temperatura registrada (en grados Fahrenheit) en el
momento del lanzamiento.
Problema 3
Los objetivos en ste caso son: 1. Comprender porque algunos han renovado y otros no la
suscripcin al servicio en lnea. 2. Determinar la probabilidad para que un cliente renueve
su suscripcin a un servicio de informacin en lnea. 3. identificar las personas que no
renovarn su suscripcin. Con esta informacin, podremos proponerles una promocin o

servicios suplementarios con el fin de estimular su inters por la oferta. Se consideran


factores relacionados con la edad y a sus hbitos de lectura en lnea.

Edad
Promedio de pginas vistas por semana en las 10 ltimas semanas
Nmero de pginas vistas durante la ltima semana.

El experimento consisti en que se les propuso a estos lectores (muestra de 60), renovar su
suscripcin que debe expirar dentro de dos semanas.
Problema 4
Los datos se extrajeron a partir de 1974 la tendencia del motor revista estadounidense
(Henderson y Velleman (1981)) y comprende el consumo de combustible y 10 aspectos de
diseo de automviles y el rendimiento para 32 automviles (1973-74 modelos).
Una trama de datos con 32 observaciones sobre 11 variables.
mpg
cyl
disp
hp
drat
Wt
qseC
vs
am
gear
carbohidratos

Millas / galn (US)


Nmero de cilindros
Desplazamiento (pulgadas cbicas)
caballos de fuerza bruta
relacin del eje trasero
Peso (1000 libras)
tiempo de 1/4 de milla
V/S
Transmisin (0 = automtico, 1 = manual)
Engranaje
Nmero de carburadores

El objetivo es predecir la transmisin manual en funcin del peso y la potencia.


Problema 5
Se quiere determinar las probabilidades de que un nio con sndrome de DOWN desarrolle
infecciones. Para esto se toman muestras de dos poblaciones nios con sndrome de Down
y nios sanos, a los cuales se les tomaron unas medidas entre clnicas y otras
(inmunolgicas, 200 variables)

Objetivo del modelo Regresin Logistica:


El objetivo primordial es modelar cmo influye en la probabilidad de aparicin de un
suceso (habitualmente dicotmico) con dos ms categoras (politmico). La presencia o no
de diversos factores y el valor o nivel de los mismos.
-Representar la dependencia lineal de una variable respuesta con dos categoras
(dicotomica) respecto a otras variables explicativas (categricas o cuantitativas).
- Cuantificar la importancia de la relacin existente entre las variables independientes o sus
niveles y la variable dependiente Y
- Analizar, predecir si la probabilidad de pertenecer a una categora de Y en funcin de los
valores o niveles de las variables independientes X
- Analizar como varia la probabilidad de caer en el estado de Y=1, dado cambios en los
estados de las variables categricas
- Analizar y clarificar la existencia de interaccin y confusin entre covariables respecto a
la variable dependiente (es decir, conocer la odds ratio para cada co-variable).
- Clasificar individuos dentro de las categoras (presente/ausente) de la variable
dependiente, segn la probabilidad que tenga de pertenecer a una de ellas dada la presencia
de determinadas covariables.
Consideraciones del Modelo
Variables:
Cuantas, que sean significativas (analizar de manera individual la fuerza de relacin con
Y) y adems se debe considerar que el modelo cumpla el principio de parsimonia, porque a
mayor nmero de variables mayor el error estndar. Cules son las variables (congruentes e
interpretables)
Tamaos muestrales
La cantidad de individuos en cada grupo en relacin con la variable Y es decir si hay en la
muestra n1 individuos en la condicin de mora, entonces el estimativo de variables

independientes (mximo) es de ~ 10 si la distribucin de las variables estn bien


equilibradas.
Si lo anterior no se cumple, entonces hay que contar con un mnimo de individuos (regla
experimental: mnimo 10) por cada evento de Y
Ejemplo:
Sea = {

1 si el individuo esta en mora


0 si el individuo no esta en mora

Consideremos la variable gnero con sus dos niveles


1 si es mujer
={
0 si es hombre
Con datos muestrales dados en la siguiente tabla
Condicin X=0 X=1
a
c
Y=1
b
d
Y=0
Entonces, se espera que a, b, c y d sea todos mnimo de 10.
Cuando se tienen ms de dos categoras o niveles de la variable, en el caso de tratarse de
una variable cualitativa con ms de dos categoras, una solucin es colapsar dos de esas
categoras, es decir recodificar las variables independientes categricas u ordinales en
variables ficticias( dummy) teniendo en cuenta una variable de referencia.
Por ejemplo, la categora ocupacional (empleador, trabajador por cuenta propia,
asalariado trabajador sin remuneracin). En este caso, esta variable podra ser
incorporada a la ecuacin si se la transforma en una variable simulada. Ello consiste en
generar n 1 variables dicotmicas con valores cero y uno, siendo n el nmero de
categoras de la variable original. Para el caso de la variable categora ocupacional, la
transformacin sera la siguiente:

Se crearan tres variables dicotmicas: la primera de ellas sera empleador. Quien lo sea
tendr valor 1 en esa variable y valor cero en las variables cuenta propia y asalariado.
Los por cuenta propia tendrn valor 1 en la segunda variable y cero en las otras, etc. No
se necesita crear, en cambio, una variable llamada trabajador sin remuneracin: lo ser
quien tenga valores cero en las tres anteriores. Esta ltima es la categora base de las
variables simuladas. Una vez realizada esta transformacin, estas variables pueden ser
incorporadas en una ecuacin de regresin:
Relacin lineal entre las co-variables
Si las variables estn sobre un mismo plano estamos frente a un problema de
Multicolinealidad. Si bien existen pruebas que permiten comprobar la existencia de
colinealidad entre co-variables, cabe sealar que los modelos con multicolinealidad entre
las covariables introducidas tendrn
grandes errores estndar y frecuentemente,
estimaciones de coeficientes anormalmente elevadas. Sin embargo, la multicolinealidad no
afecta al sentido de las estimaciones (la multicolinealidad no har que aparezca
significacin donde no la hay, y viceversa).
La solucin a la multicolinealidad no es fcil: a) Puede intentarse eliminar la variable
menos necesaria implicada en la colinealidad, a riesgo de obtener un modelo menos vlido;
b) Puede intentar cambiarse la escala de medida de la variable en conflicto: c) Tambin se
puede recurrir a aumentar la muestra para as aumentar la informacin en el modelo
Lo anterior esta ms explicado a continuacin:

(i) Presencia de una frecuencia cero en una tabla de contingencia. Cuando esto ocurre
provoca en el clculo de la correspondiente odds la presencia de un 0 en el denominador. Si
esta co-variable se intenta introducir en el modelo de regresin que se est diseando, el
software puede comportarse de forma incorrecta. Esta circunstancia puede y debe ser
detectada durante el anlisis univariado.
(ii) Tambin puede ocurrir que se incluyan interacciones que impliquen una excesiva
estratificacin para la muestra disponible. El resultado puede producir un sobre-estimacin
del correspondiente coeficiente y de su error estndar.
iv) las variables dummy, a veces se necesita incorporar al modelo de regresin logstica
variables independientes que no son numricas sino categricas. En este caso, esta variable
podra ser incorporada a la ecuacin si se la transforma en una variable simulada. Ello
consiste en generar n 1 variables dicotmicas con valores cero y uno, siendo n el nmero
de categoras de la variable original.
Una vez realizada esta transformacin, estas variables pueden ser incorporadas en una
ecuacin de regresin: sus valores slo pueden variar entre cero y uno y sus coeficientes b
indicarn, en cada caso, cuanto aumentan o disminuyen los odds de probabilidad del
evento que se procura predecir cundo una de estas variables pasa de cero a uno.
Multicolinealidad
Se dice que existe multicolinealidad cuando dos o ms de las co-variables del modelo
mantienen una relacin lineal. Cuando la colinealidad es perfecta, es decir, cuando una covariable puede determinarse segn una ecuacin lineal de una o ms de las restantes
covariables, es posible estimar un nico coeficiente de todas las covariables implicadas. En
estos casos debe eliminarse la co-variable que acta como dependiente (sea la que queda
en funcin de las otras).
Normalmente lo que se hallar ser una multicolinealidad moderada, es decir, una mnima
correlacin entre covariables. Si esta correlacin fuera de mayor importancia, su efecto
sera, el incremento exagerado de los errores estndar.
Un primer paso para analizar este aspecto puede ser examinar la matriz de coeficientes de
correlacin entre las covariables. Coeficientes de correlacin muy elevados llevarn a
investigar con mayor profundidad. Sin embargo, este mtodo, bueno para detectar
colinealidad entre dos covariables, puede conducir a no poder detectar multicolinealidad
entre ms de dos de ellas.
Existen otros procedimientos analticos para detectar multicolinealidad. Uno de ellos es
estos modelos se le puede calcular la 2 , donde se denomina tolerancia al complementario
1- 2 y factor de inflacin de la varianza FIV= 1/(1- 2 ).
Cuando existe estrecha relacin entre covariables la tolerancia tiende a ser 0 y por tanto
FIV tiende al infinito.
Modelo Matemtico
Representaremos (sin prdida de generalidad) las dos posibles respuestas de la variable
respuesta Y como 0 y 1. Se dice que un proceso es binomial cuando el proceso proviene de
una Bernoulli y la variable aleatoria Y: mide el nmero de xitos en la n ensayos de
Bernoulli
En los modelos de Regresin Logstica se.

Una de las medidas ms importantes del modelo es

=
1
Denominado "odds", y que indica cuanto ms probable es el xito que el fracaso.
Tal y como hemos comentado nuestro objetivo es estudiar la relacin de la probabilidad de
xito en nuestro proceso con una serie de variables explicativas. Como primera
modelizacin del problema con un modelo de regresin lineal nos podramos plantear el
modelo:
= 0 + 1
Siendo la probabilidad de xito y X la variable explicativa (que supondremos
cuantitativa).
El hecho de que el valor de deba estar necesariamente entre 0 y 1 (puesto que es una
probabilidad)
Los parmetros del modelo son (0 ; 1) de forma que no salga del rango (0,1).
As, el modelo de regresin seria de la forma:

(
) = 0 + 1
1
Donde:
0 +1

(; ) = 1+ 0+1 ; Funcin de probabilidad


As, 0 representara el valor del ODDS cuando la variable explicativa toma el valor 0, es
decir, cuanto ms probable es el xito que el fracaso cuando la variable explicativa vale 0.
Por lo que 1 representa el OR (Odds Ratio) por unidad de incremento de la variable
explicativa X.
Odds ratio: Es un cociente de proporciones de enfermos por cada sano entre el grupo con
un factor de riesgo y el grupo sin dicho factor de riesgo.
Por su parte, los parmetros del modelo son: 0, la ordenada en el origen y el vector i. A
veces, se utilizan tambin como parmetros exp(0 ) y exp(i ), que se denominan odds
ratios o razn de probabilidades. Estos valores indican cunto se modifican las
probabilidades por unidad de cambio en las variables x.

=
= 0 ()
1

=1

Entonces, el odds ratio para estas dos observaciones es: indica cunto se modifica el ratio
de probabilidades cuando la variable aumenta en una unidad.
La estimacin de los coeficientes, aunque existen otros mtodos, se suele realizar por el
ms extendido que es el de mxima verosimilitud, que consiste en maximizar la funcin de
verosimilitud de la muestra.
Interpretacin de Resultados
Los coeficientes de la variables indicarn, en cada caso, cuanto aumentan o disminuyen los
odds o sea la probabilidad del evento que se procura predecir, cuando una de estas

variables pasa de cero a uno (por ejemplo, cuando alguien pasa de ser empleado a
empleador, puede ocurrir que la probabilidad de que pueda adquirir un carro nuevo
disminuir, lo que se expresar en un coeficiente negativo en la ecuacin logstica.
Por ejemplo, si el coeficiente es positiva para la variable Independiente=1, estar indicando
que la probabilidad de que quede en mora Y=1 aumentara si pasa de independiente a no
independiente
Falso Positivo: Cuando la prueba indica que el estado es positivo, cuando en realidad es
negativo
Falso Negativo: Resulta cuando una prueba indica que es negativo, cuando en realidad es
positivo
Sensibilidad: ( = 1| = 1)
Especificidad ( = 0| = 0)
Positividad ( = 1| = 1)
Negatividad ( = 0| = 0)

Otros Modelos

Procedimiento del Modelo


Evaluar efectos de confusin y de interaccin del modelo explicativo;
Evaluar la bondad de ajuste de los modelos;
Analizar la fuerza, sentido y significacin de los coeficientes, sus exponenciales
Validar el modelo con los estadsticos como la Wald

Para la estimacin de los coeficientes del modelo y de sus errores estndar se recurre al
clculo de estimaciones a travs del mtodo de mxima verosimilitud, es decir,
estimaciones que produzcan la mxima la probabilidad de obtener los valores de la
variable dependiente Y, proporcionados por los datos de nuestra muestra. Estas
estimaciones no son de clculo directo, como ocurre en el caso de las estimaciones de los
coeficientes de regresin de la regresin lineal mltiple por el mtodo de los mnimos
cuadrados. Para el clculo de estimaciones mximoverosmiles se recurre a mtodos
iterativos, como el mtodo numrico de NewtonRaphson. As mismo, de estos mtodos
surgen no slo las estimaciones de los coeficientes de regresin, sino tambin de sus errores
estndar y de las covarianzas entre las co-variables del modelo.
El siguiente paso ser comprobar la significacin estadstica de cada uno de los
coeficientes de regresin. Para ello se pueden emplear bsicamente tres mtodos:
-El estadstico de Wald,
-El estadstico de razn de verosimilitud
-El estadstico de Score.
El estadstico de Wald
Este estadstico contrasta la hiptesis de que un coeficiente aislado es distinto de 0 y sigue
una distribucin normal de media 0 y varianza 1. Su valor para un coeficiente concreto
viene dado por el cociente entre el valor del coeficiente y su correspondiente error estndar,
si es significativo indica que el coeficiente debe estar en el modelo.
En modelos con errores estndar grandes, el estadstico de Wald puede proporcionar falsas
ausencias de significacin (es decir, se incrementa el error tipo II).
El estadstico razn de verosimilitud
Se trata de ir contrastando cada modelo que surge de eliminar de forma aislada cada una de
las co-variables frente al modelo completo. En este caso cada estadstico sigue una Chicuadrado con un grado de libertad (no se asume normalidad).
Luego si no es significativo implica, da igual su presencia o su ausencia, por lo que dicha
co-variable debe ser eliminada del modelo ya que no aporta nada al mismo. Esta prueba no
asume ninguna distribucin concreta, por lo que es la ms recomendada para estudiar la
significacin de los coeficientes.
La prueba Score
En el caso de mltiples co-variables, su rapidez de clculo sera su aspecto ms favorable.
En contra, este estadstico se incrementa conforme aumenta el nmero de co-variables (es
decir tiende a dar significacin con mayor frecuencia). Este estadstico tambin asume una
distribucin normal con media 0 y varianza 1. Si es significativo el coeficiente, indica que
la co-variable debera permanecer en el modelo. Cuando la co-variable es cualitativa con n
categoras (siendo n > 2), en el modelo se analizar la significacin de cada una de su n 1
variables ficticias, as como la significacin global de la co-variable comparando la
presencia en bloque frente a la ausencia, en bloque de su n 1 co-variables ficticias
Medidas de confiabilidad del modelo

Devianza: Es similar a la suma de cuadrados del error de la regresin lineal.


Criterio: Si D es mayor que una 2 con n p grados de libertad para un nivel de
significacin dado entonces el modelo logstico es confiable. Ahora, si los residuales de
Devianza son mayores que 4 entonces la observacin correspondiente es anormal. Otras
medidas son:
-Criterio AIC de Akaike
-Prueba de bondad de ajuste de Hosmer-Lemeshov
Existen varios tipos de residuales que permiten cotejar si una observacin es influencial o
no, entre ellos se encuentran:
Residuales de Pearson: El residual de Pearson es similar al residual usado en regresin
lineal. As, un residual de Pearson mayor que 2 indica un dato anormal. Por el contrario, si
el modelo es correcto, los residuales de Pearson sern variables de media cero y varianza
unidad que
Pueden servir para hacer el diagnstico de dicho modelo.
Por otro lado, las curvas ROC (receiver operating characteristic), representa grficamente
la sensibilidad frente a (1-especifidad)100 %, y se escoge como el p ideal aquel que est
ms cerca de la esquina superior izquierda, o sea al punto (100 , 0).

Valoracin de la capacidad predictiva para Clasificar


El modelo permite calcular una prediccin del resultado en escala de probabilidad; puede
decidirse clasificar un individuo en el grupo de sucesos si su probabilidad supera un valor

Para el modelo se busca, la eleccin del punto ptimo es decir, debe optimizarse la
sensibilidad y la especificidad, y elegir un punto segn la naturaleza del modelo predictivo.

El cambio en el punto de corte corresponde a emplear diferentes constantes en el modelo


logstico.
Validacin del modelo
El clculo de la capacidad predictiva del modelo sobre la misma muestra que lo gener
siempre debe validarse con diferentes estrategias:
Probar el modelo en otra muestra diferente; y esperar el buen ajuste como se ve en el
grafico

Elaborar el modelo con un 75 % de la muestra y calcular la CP en el 25 % restante;


Usar la misma muestra, pero calcular los indicadores de CP mediante tcnicas de
bootstrap Otra manera es: Usar validacin cruzada, que corrigen el optimismo. Clculo
del rea AUC bajo la curva ROC, si AUC =0,5 corresponde a una capacidad predictiva
nula.
Procedimiento utilizando Rmdr

El primer paso: es realizar una descripcin de la informacin, es conveniente modelar a


renovacin en funcin de cada uno de las otras variables y ver si cada una por si sola puede
ajustarse a un modelo logstico.

Figura Boxplot de los grupos a) No renov b)Si renov


Para los que si renuevan sus estadsticas de las variables Edad; Prome; Paginas son:
Media

39.778

47.884

43.972

Varianza (n-1)
Desviacin tpica (n-1)
Coeficiente de variacin
Asimetra (Fisher)

224.578
14.986
0.371
0.199

1112.086
33.348
0.687
0.539

1187.571
34.461
0.773
1.091

Para el grupo que no renueva las estadsticas de las variables X1: Edad; X2:Prome;
X3:Pginas son:
Media
Varianza (n-1)
Desviacin tpica (n-1)
Coeficiente de variacin
Asimetra (Fisher)

41.167
185.449
13.618
0.324
-0.179

20.983
174.720
13.218
0.617
1.511

22.958
669.259
25.870
1.103
3.747

Cmo podemos ver en los dos grupos parece ser que hay diferencias significativas en los
dos grupos en las variables X2 y X3.
Vamos a verificar si hay diferencias significativas en los grupos por las variables
consideradas.
Vamos a realizar una prueba de medias, para ello necsitamos verificar si las muestras se
distribuyen normal, como los tamaos de los grupos son pequeos se corre una prueba de
shapiro

Otra manera de verificar los resultados es a travs


En cunto la distribucin de las variables tenemos para el grupo 1

Para el grupo 2

Prueba de diferencia de medias con datos que no son normales y adems muestras pequeas
y dispares

Como podemos ver en los resultados de la prueba, hay diferencias significativas entre las
muestras NO con el Si con la variable prom, lo mismo ocurre con la variable pginas

Tambin es conveniente realizar el modelo con parejas de variables y analizar su


correlacin e interaccin entre ellas.

Parece razonable, a la vista de los datos, pensar que el promedio puede influir en la
probabilidad de que los clientes renueven. En esta prctica, vamos a ajustar un modelo de
regresin logstica para estudiar la posible relacin. Para ajustar el modelo se usa el
comando glm (para modelos lineales generalizados) indicando que la respuesta es binomial
mediante el argumento family

Como se puede ver la variable ms significativa sobre la variable renovacin es promedio


de pginas vistas en la semana anterior.
Adems si medimos los efectos en Y dados los factores tenemos que la varaible que
presenta variaciones crecientes y positivas es prom

Todos los modelos utilizando como criterio de seleccin el de Maximizacin de la funcin


de verosimilitud con el algoritmo de Newton-Raphson

Los coeficientes para el modelo que contempla las tres variables es:

Para representar grficamente la funcin logstica estimada, calculamos las probabilidades


de fallo estimadas (usando el comando predict) para un vector adecuado de nuevo y
observar el ajuste del modelo

Intervalos de confianza para los coeficientes

Validacin
Factor de inflacin de la varianza; para el modelo con las tres variables
Paginas

Prome

Edad

1.193693 1.194022 1.008978


Criterio Aikiake AIC(GLM.2)= 73.78023
Teniendo estos estadsticos el mejor modelo esta dado slo por una variable que es prom
MODELO
Renovo = 1 / (1 + exp(-(-1,09136770801625+4,79726079195425E-02*Prome)))
Odds ratio 1.04914191675107

Especificidad:62.5%
Sensibilidad:75%
%Aciertos=70%
Realizar con los datos de: http://www.uam.es/joser.berrendero/datos/challenger.txt

Вам также может понравиться