Академический Документы
Профессиональный Документы
Культура Документы
DE REGRESION
Profesor: Jose Alberto Vargas.
Estudiantes:
Ana Mara Mondragon Moreno
Cod: 163056
Andres Felipe Calderon Castro
Cod: 25141155
Juan Sebastian Marn Rodrguez
Cod: 163047
5 de junio de 2015
Problema 12.3
Los estimadores M funcionan mal cuando hay valores atpicos en X, ya que en su proceso iterativo de selecci
on
toma como punto de partida los estimadores por mnimos cuadrados ordinarios que tambien son afectados por
los valores atpicos en X. Esto se debe a que los valores atpicos en X pueden incluso cambiar el signo de los
betas al intentar minimizar los errores al cuadrado. Diferente de los valores atpicos en Y que nos generan es
un desplazamiento de la recta de regresi
on.
Ejemplo :
X
1
2
3
3
4
5
5
6
7
15
Y
2
5
3
6
7
6
10
9
11
5
Estimado
5.4233
0.1915
Error estandar
1.6001
0.2533
Valor t
3.389
0.756
Call:
rlm(f ormula = Y -X , data = Datos, psi= psi . huber)
coverged in 1 iterations
Interceptos
5.4233261
X
0.1615047
X
0.1890752
Problema 12.4
Consideremos el siguiente conjunto de datos:
X
1
2
3
3
4
5
5
6
7
15
W
10
12
15
57
16
20
21
19
16
14
Y
2
5
3
6
7
6
10
9
11
5
Estimado
4.60431
0.03659
0.20863
Error estandar
2.43682
0.07864
0.26924
Valor t
1.889
0.465
0.775
Interceptos
4.60430853
X
0.20862516
W
0.03658516
X
0.20862516
W
0.03658516
Problema 12.7
La Winsorizaci
on se podra aplicar a un problema de regresion considerando su aplicacion en los residuales del
modelo:
1.
La winsorizaci
on se podra aplicar a un problema de regresion considerando su aplicacion en los residuales del
modelo:
2.
Se redefine el residual menor e1 y el residual mayor en de tal organizacion dandoles, respectivamente, el valor
m
as peque
no y m
as grande del listado de residuales sin tenerlos (a e1 y en ) en cuenta. Con esto, e2 =e1 y en1
= en
3.
La minimizaci
on del nuevo conjunto de residuales dara probablemente un mejor ajuste que el ofrecido por la
regresi
on usual por MCO.
Problema 12.11
Trabajando con un a=5 para trazar la funci
on psi de de bipeso de Tukey y con un a=1.339 para la funci
on de
onda de Andrews, se nota que ambas funciones mantienen comportamientos oscilantes, sin embargo, es facil ver
importantes diferencias como que solo la funcion psi de bipeso de Tukey puede generar valores superiores a 1 o
inferiores a -1, mientras, por la funci
on seno que involucra la de Andrews, los resultados de esta u
ltima no pasa
de -1 y 1. As mismo, la velocidad de oscilaci
on u onda- es superior en la psi de Tukey.
3
Figura 1: Funci
on bipeso de Tukey y Funcion onda de Andrews
Problema 12.12
a)
Valores atpicos en el espacio X: Para los datos en X, podemos observar dos datos que son demasiado altos
comparados con los dem
as. El dato 1 y el 2 con valores de 90, 6 y 87, 8 respectivamente.
Valores atpicos en los espacios X y Y : No hay datos atpicos que sean outliers al simultaneamente en X
como en Y .
Valor atpico residual: Los datos que presentan altos valores en sus residuales estudentizados, como podemos
ver en la tabla son el 19, 18 y 15. Por otro lado, los que presentan un gran valor en su residual son estos mismos
datos.
Figura 5: Residuales
Si observamos mediante el criterio de los valores Hat, podemos apreciar que los datos con mayores Hatvalues
son 1, 2, 13 y 17. Adem
as coinciden con los valores atpicos en la regresion.
Tabla de atpicos:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Costo.y
2449
2248
3545
794
1619
2079
918
1231
3641
4314
2628
3989
2308
376
5428
2786
2497
5551
5208
Peso.x
90.6
87.8
38.6
28.6
28.9
23.3
21.1
17.5
27.6
39.2
34.9
46.6
80.9
14.6
48.1
38.1
73.2
40.8
44.6
Distancia de Cook
1.160155e-01
1.312146e-01
7.795240e-03
5.906877e-02
1.758440e-02
4.988106e-03
6.642082e-02
4.831427e-02
2.015087e-02
2.968205e-02
7.807716e-05
1.531828e-02
6.591938e-02
1.570857e-01
8.037951e-02
1.850534e-05
2.157110e-02
9.222055e-02
6.692648e-02
hatvalues
0.28079522
0.25451653
0.05501408
0.07514845
0.07424613
0.09413189
0.10370316
0.12150557
0.07828945
0.05445796
0.06007438
0.05366748
0.19661906
0.13777863
0.05487570
0.05553390
0.14353257
0.05333579
0.05277405
rstudent
-0.76131958
-0.87046231
0.50604478
-1.22326201
-0.65087850
-0.30144788
-1.07650709
-0.82807964
0.67778177
1.01622314
-0.04795632
0.72466006
-0.72359792
-1.44652461
1.76433317
0.02434004
-0.49599842
1.95344078
1.62274814
b)
Coeficientes
Interceptos
x
Estimado
2219.03
13.88
Error estandar
779.09
15.91
Valor t
2.848
0.872
c)
X
12.710181
d)
X
146.8
e)
Para este conjunto de datos se deben elegir estimadores con un punto de quiebre alto, ya que no se dejan afectar
tanto por los cl
uster de datos atpicos.
Problema 12.13
Con mnimos cuadrados ordinarios se tiene:
Coeficientes
Interceptos
X1
X2
Estimado
2.341231
1.615907
0.014385
Error estandar
1.096730
0.170735
0.003613
Valor t
2.135
9.464
3.981
10
X1
1.4658185
X2
0.01460906
X1
1.27693
X2
0.01953
Problema 12.16
Un estimador de punto de quiebre alto puede ser de mucha utilidad en la primera etapa de un proceso de
regresi
on robusta compuesta, ya que no se deja influenciar tan facil por los datos atpicos e incluso por cl
uster
de datos atpicos, cosa que sucede en el momento de usar MCO o estimadores M, por lo que nos dara un buen
punto de partida. En la segunda etapa, se usan estimadores de influencia limitada, con el fin de mantener la
propiedad de punto de quiebre alto de los estimadores iniciales.
11
Problema 14.1
a)
Figura 9: Gr
afica de lnea ajustada Regresion Logstica.
Coeficientes
Termino constante
X
coef
6.07
-0.01770
EE del coef
2.11
0.00608
VIF
1.00
Ecuaci
on de regresi
on :
exp(6, 07 0, 01770x)
(1 + exp(6, 07 0, 01770x))
(1)
b)
Tabla de desviaciones:
Fuente
Regresi
on
x
Error
Total
GL
1
1
23
24
Desv. ajust.
14.25
14.25
20,36
34,62
Media ajust.
14.2537
14.2537
0,8854
Chi-cuadrada
14.25
14.25
Valor p
0.000
0.000
Deviance : 20,36
D
20, 36
=
= 0,8852
(2)
(n p)
(25 2)
2
Conclusi
on: Teniendo en cuenta que la desviacion distribuye X,(np)
con una confianza del 95 %, entonces
2
como D=20,36 X0,05,23 = 35,172 se peude concluir que se tiene un buen modelo. Por otra parte, Como el
D
valor de (np)
es cercano a uno, se puede decir que el modelo es bueno.
12
c)
Interpretaci
on de beta:
OR = 0, 9825
Interpretaci
on: Por cada unidad de aumento en la velocidad del blanco, el decrecimiento estimado de la probabilidad de exito es de 0, 0175.
d)
Incluyendo el termino cuadr
atico
Ecuaci
on de regresi
on
(3)
Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total
GL
2
1
1
22
24
Desv. ajust.
14.2539
0,1132
0,0002
20,3635
34,6173
Media ajust.
7.12694
0,11315
0,00019
0.92561
Chi-cuadrada
14.25
0,11
0,00
Valor p
0.001
0,737
0,989
Conclusi
on: Al comparar las desviaci
on del modelo inicial (tem a) y el que incluye la variable cuadr
atica,
podemos observar que la diferencia es muy peque
na, por lo que podemos concluir que no es necesario incluir el
termino cuadr
atico de la velocidad del blanco.
13
Problema 14.2
a)
Figura 10: Gr
afica de lnea ajustada Regresion Logstica.
Coeficientes
Termino constante
X
coef
-8.74
0.000201
EE del coef
4.44
0.000101
VIF
1.00
Ecuaci
on de regresi
on:
exp(8, 74 + 0, 000201x)
(1 + exp(8, 74 + 0, 000201x))
(4)
b)
Tabla de desviaciones :
Fuente
Regresi
on
x
Error
Total
GL
1
1
18
19
Desv. ajust.
5,091
5,091
22,435
27,526
Media ajust.
5,091
5,091
1,246
Chi-cuadrada
5,09
5,09
Valor p
0,024
0,024
14
(5)
2
Teniendo en cuenta que la desviaci
on distribuye X,(np)
con una confianza del 95 %, entonces como D=22,435
D
2
es
X0,05,18 = 28,869 se puede concluir que se tiene un buen modelo. Por otra parte, Como el valor de (np)
cercano a uno, se puede decir que el modelo es adecuado.
c)
x
Relaci
on de probabilidades
1,0002
IC de 0.95
(1,0000. 1,0004)
Raz
on Odds:
OR = 1, 0002
El incremento estimado de la probabilidad de exito es de 0, 0002, cuando incrementa una unidad el ingreso de
una familia.
d)
Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total
GL
2
1
1
17
19
Desv. ajust.
6,199
1,284
1,109
21,326
27,526
Coeficientes
Termino constante
X
x2
Media ajust.
3,100
1,284
1,109
1,254
coef
-69,7
0,00290
-0,000000
Chi-cuadrada
6,20
1,28
1,11
EE del coef
61,1
0,00268
0,000000
Valor p
0,045
0,257
0,292
VIF
759,05
759,05
Ecuaci
on de regresi
on:
(6)
El valor de la desviaci
on en este modelo es de 27, 526 que comparado con el modelo inicial (tem a ) no difiere, por
lo que podemos decir que no es necesario introducir el valor de los ingresos de una familia de forma cuadr
atica.
Problema 14.4
a)
Coeficientes
Termino constante
X
coef
-2,0848
0,13573
EE del coef
0,0804
0,00496
VIF
1,00
Ecuaci
on de regresi
on:
P (1) =
15
(7)
b)
Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total
GL
1
1
1
9
10
Desv. ajust.
870,925
870,925
1,109
0,294
871,220
Media ajust.
870,925
870,925
1,109
0,033
Chi-cuadrada
870,93
870,93
1,11
Valor p
0,000
0,000
0,292
Deviance: 0, 294
0, 294
D
=
= 0, 0326
(n p)
(11 2)
(8)
2
Teniendo en cuenta que la desviaci
on distribuye X,(np)
con una confianza del 95 %, entonces como D=0,294
D
2
es
X0,05,9 = 16, 91 se peude concluir que se tiene un buen modelo.Por otra parte, Como el valor de (np)
cercano a uno, se puede decir que el modelo es bueno.
c)
Figura 11: Gr
afica de lnea ajustada Regresion Logstica
d)
Coeficientes
Termino constante
X
X2
coef
-2,074
0,1341
0,000055
16
EE del coef
0,185
0,0267
0,000871
VIF
28,93
28,93
Ecuaci
on de regresi
on:
P (1) =
(9)
Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total
GL
2
1
1
8
10
Desv. ajust.
870,929
25,682
0,004
0,290
871,220
Media ajust.
435,465
25,682
0,004
0,036
Chi-cuadrada
870,93
25,68
0,00
Valor p
0,000
0,000
0,950
La desviaci
on en este modelo que incluye la variable descuento de forma cuadratica es igual a la del modelo
inicial (tem a), por lo que se puede concluir que no es necesario introducir dicha variable.
e)
f)
Zwald =
j
ES(j )
17
(10)
Termino constante
X
X2
coef
-2,074
0,1341
0,000055
EE del coef
0,185
0,0267
0,000871
Wald
-11.2108
5,022471
0,0631458
Como la estadstica de Wald distribuye normal, podemos observar que la constante es termino de la regresi
on
menos significante. Por otro lado el termino x es muy significante, mientras que el termino cuadratico no tiene
tanta significancia como el descuento del bono (x).
g)
j Z/2 Sj betaj j + Z/2 Sj
X
X2
(11)
IC de 95 %
(0,081956. 0,1863)
(-0,00170. 0,001878)
El coeficiente de la variable x (Descuento del bono) esta entre 0, 081956,0, 1863 con una confianza del 95 %. Por
otro lado la variable de forma cuadr
atica est
a entre los valores -0,00170. 0,001878 con una confianza del 95 %.
18