Cuarta Tarea Analisis PDF

CUARTA TAREA ANALISIS
DE REGRESION
Profesor: Jose Alberto Vargas.
Estudiantes:
Ana Mara Mondragon Moreno
Cod: 163056
Andres Felipe Calderon Castro
Cod: 25141155
Juan Sebastian Marn Rodrguez
Cod: 163047
5 de junio de 2015
Problema 12.3
Los estimadores M funcionan mal cuando hay valores atpicos en X, ya que en su proceso iterativo de selecci
on
toma como punto de partida los estimadores por mnimos cuadrados ordinarios que tambien son afectados por
los valores atpicos en X. Esto se debe a que los valores atpicos en X pueden incluso cambiar el signo de los
betas al intentar minimizar los errores al cuadrado. Diferente de los valores atpicos en Y que nos generan es
un desplazamiento de la recta de regresi
on.
Ejemplo :
X
1
2
3
3
4
5
5
6
7
15
Y
2
5
3
6
7
6
10
9
11
5
Con mnimos cuadrados ordinarios se obtienen los siguientes resultados:

Coeficientes
Interceptos
x
Estimado
5.4233
0.1915
Error estandar
1.6001
0.2533
Valor t
3.389
0.756
Pr( > |t|)

0.00951***
0.471333 ***
Residual standard error: 2,986 on 8 degrees of freedom

Multiple R-squared: 0,06668, Adjusted R-squared: 0,04999
F-statistic: 0,5715 on 1 and 8 DF, p-value: 0,4713
Mientras que con estimadores M se obtiene:
C
odigo en R:
Call:
rlm(f ormula = Y -X , data = Datos, psi= psi . huber)
coverged in 1 iterations
Interceptos
5.4233261
X
0.1615047
degrees of freedom: 10 total;8 residual; Scale estimate: 4.02

C
odigo en R:
Call:
rlm(f ormula = Y -X , data = Datos, psi= psi . bisquare)
Interceptos
5.4185336
X
0.1890752

Con esto se puede observar que los estimadores M no genera resultados satisfactorios cuando hay presencia de
valores atpicos en el eje X.
Problema 12.4
Consideremos el siguiente conjunto de datos:
X
1
2
3
3
4
5
5
6
7
15
W
10
12
15
57
16
20
21
19
16
14
Y
2
5
3
6
7
6
10
9
11
5
Con mnimos cuadrados ordinarios se obtendra:

Coeficientes
Interceptos
W
X
Estimado
4.60431
0.03659
0.20863
Error estandar
2.43682
0.07864
0.26924
Valor t
1.889
0.465
0.775
Pr( > |t|)

0.01
0.656
0.464

Mientras que con estimadores M se obtiene:
C
odigo en R:
Call:
rlm(f ormula = Y -X + W , data = Datos, psi= psi . huber)
2
Interceptos
4.60430853
X
0.20862516
W
0.03658516

C
odigo en R:
Call:
rlm(f ormula = Y -X+ W , data = Datos, psi= psi . bisquare)
Interceptos
4.60430853
X
0.20862516
W
0.03658516

Al hacer la comparaci
on entre los mnimos cuadrados ordinarios y los estimadores M se puede apreciar la poca
2
diferencia entre las estimaciones. Ahora, partiendo del mal ajuste de los MCO cuyo R2 es de 0,095, su Radj
que
incluso da negativo y la significancia global del modelo a traves de la prueba de hipotesis:
H0 :1 =2 =0 vs H1 :i 6=0 Para al menos un i.
Se aprecia que no es posible rechazar H0 , por lo que el modelo no es significativo. Luego, los estimadores M
tampoco producen resultados satisfactorios.
Problema 12.7
La Winsorizaci
on se podra aplicar a un problema de regresion considerando su aplicacion en los residuales del
modelo:
1.
La winsorizaci
on se podra aplicar a un problema de regresion considerando su aplicacion en los residuales del
modelo:
2.
Se redefine el residual menor e1 y el residual mayor en de tal organizacion dandoles, respectivamente, el valor
m
as peque
no y m
as grande del listado de residuales sin tenerlos (a e1 y en ) en cuenta. Con esto, e2 =e1 y en1
= en
3.
La minimizaci
on del nuevo conjunto de residuales dara probablemente un mejor ajuste que el ofrecido por la
regresi
on usual por MCO.
Problema 12.11
Trabajando con un a=5 para trazar la funci
on psi de de bipeso de Tukey y con un a=1.339 para la funci
on de
onda de Andrews, se nota que ambas funciones mantienen comportamientos oscilantes, sin embargo, es facil ver
importantes diferencias como que solo la funcion psi de bipeso de Tukey puede generar valores superiores a 1 o
inferiores a -1, mientras, por la funci
on seno que involucra la de Andrews, los resultados de esta u
ltima no pasa
de -1 y 1. As mismo, la velocidad de oscilaci
on u onda- es superior en la psi de Tukey.
3
Figura 1: Funci
on bipeso de Tukey y Funcion onda de Andrews
Problema 12.12
a)
Valores atpicos en el espacio X: Para los datos en X, podemos observar dos datos que son demasiado altos
comparados con los dem
as. El dato 1 y el 2 con valores de 90, 6 y 87, 8 respectivamente.
Figura 2: Grafica Q-Q para x

Valores atpicos en el espacio Y : Para los datos en de la variable Costo(Y ), podemos observar dos datos
atpicos, estos son el 15 y el 18 con valores de 5428 y 5551 respectivamente.
Figura 3: Grafica Q-Q para y

Valores atpicos de la regresi
on: Los valores atpicos de la regresion son el 19, 13, 2 y 1, ya que cambian
por completo el modelo de ajuste de mnimos cuadrados, haciendo que esta sea erronea para los demas datos.
Figura 4: Nube de puntos x-y
Valores atpicos en los espacios X y Y : No hay datos atpicos que sean outliers al simultaneamente en X
como en Y .
Valor atpico residual: Los datos que presentan altos valores en sus residuales estudentizados, como podemos
ver en la tabla son el 19, 18 y 15. Por otro lado, los que presentan un gran valor en su residual son estos mismos
datos.
Figura 5: Residuales
Si observamos mediante el criterio de los valores Hat, podemos apreciar que los datos con mayores Hatvalues
son 1, 2, 13 y 17. Adem
as coinciden con los valores atpicos en la regresion.
Tabla de atpicos:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Costo.y
2449
2248
3545
794
1619
2079
918
1231
3641
4314
2628
3989
2308
376
5428
2786
2497
5551
5208
Peso.x
90.6
87.8
38.6
28.6
28.9
23.3
21.1
17.5
27.6
39.2
34.9
46.6
80.9
14.6
48.1
38.1
73.2
40.8
44.6
Distancia de Cook
1.160155e-01
1.312146e-01
7.795240e-03
5.906877e-02
1.758440e-02
4.988106e-03
6.642082e-02
4.831427e-02
2.015087e-02
2.968205e-02
7.807716e-05
1.531828e-02
6.591938e-02
1.570857e-01
8.037951e-02
1.850534e-05
2.157110e-02
9.222055e-02
6.692648e-02
hatvalues
0.28079522
0.25451653
0.05501408
0.07514845
0.07424613
0.09413189
0.10370316
0.12150557
0.07828945
0.05445796
0.06007438
0.05366748
0.19661906
0.13777863
0.05487570
0.05553390
0.14353257
0.05333579
0.05277405
rstudent
-0.76131958
-0.87046231
0.50604478
-1.22326201
-0.65087850
-0.30144788
-1.07650709
-0.82807964
0.67778177
1.01622314
-0.04795632
0.72466006
-0.72359792
-1.44652461
1.76433317
0.02434004
-0.49599842
1.95344078
1.62274814
b)
Figura 6: Ajuste con mnimos cuadrados ordinarios
Coeficientes
Interceptos
x
Estimado
2219.03
13.88
Error estandar
779.09
15.91
Valor t
2.848
0.872
Pr( > |t|)

0.0111*
0.3952
Residual standard error: 1571 on 17 degrees of freedom

2
El modelo no es satisfactorio ya que al observar el R2 es extremadamente bajo, e incluso el Radj
es negativo,
adem
as, como se puede apreciar en la gr
afica, la recta de regresion de MCO se deja influenciar demasiado por
el cl
uster de datos atpicos.
c)
Figura 7: Ajuste con estimadores M

C
odigo en R:
Call:
rlm(f ormula = Y -X , data = Airf orce, psi= psi . bisquare)
Interceptos
2201.73074
X
12.710181
degrees of freedom: 19 total;17 residual; Scale estimate: 1610

El ajuste sigue siendo malo, debido a los datos atpicos que se presentan en el eje X. Y como los estimadores
M toman como punto de partida los MCO, se dejan influenciar por el cluster de datos atpicos en X.
d)
Figura 8: Ajuste con mnima mediana de cuadrados

C
odigo en R:
Call:
lqs.f ormula(f ormula = Y -X , data = Airf orce, method=lms)
Interceptos
-1979.7
X
146.8
Scale estimates 896,7 909,0

El ajuste es satisfactorio, aunque para valores peque
nos de X no tenga sentido la regresion (Costos negativos).
La diferencia es que la mnima mediana de cuadrados no se deja afectar tanto por los valores atpicos.
e)
Para este conjunto de datos se deben elegir estimadores con un punto de quiebre alto, ya que no se dejan afectar
tanto por los cl
uster de datos atpicos.
Problema 12.13
Con mnimos cuadrados ordinarios se tiene:
Coeficientes
Interceptos
X1
X2
Estimado
2.341231
1.615907
0.014385
Error estandar
1.096730
0.170735
0.003613
Valor t
2.135
9.464
3.981
Pr( > |t|)

0.044170*
3.25e-09
0.000631

F-statistic: 261,2 on 2 and 22 DF, p-value: 4,687e 19
10
Mientras por otro lado, con estimadores M se obtiene:

C
odigo en R:
Call:
rlm(f ormula = Y -X1 +X2 , data = Datos, psi= psi.huber)
Interceptos
3.46962725
X1
1.4658185
X2
0.01460906
degrees of freedom: 25 total;22 residual; Scale estimate: 1,54

Con mnimos cuadrados recortados obtiene:
C
odigo en R:
Call:
lqs.f ormula(f ormula = Y -X1 +X2 , data = Datos, method=lts)
Interceptos
3.36352
X1
1.27693
X2
0.01953
Scale estimates 1,356 1,301

Comparando los mnimos cuadrados recortados tanto con los mnimos cuadrados ordinarios y los estimadores
M , la diferencia no es tan importante, especialmente frente a los estimadores M . Podemos observar que la
estimaci
on de X2 es similar con los tres metodos, y la diferencia mas significativa se encuentra con respecto a
X1 .
Problema 12.16
Un estimador de punto de quiebre alto puede ser de mucha utilidad en la primera etapa de un proceso de
regresi
on robusta compuesta, ya que no se deja influenciar tan facil por los datos atpicos e incluso por cl
uster
de datos atpicos, cosa que sucede en el momento de usar MCO o estimadores M, por lo que nos dara un buen
punto de partida. En la segunda etapa, se usan estimadores de influencia limitada, con el fin de mantener la
propiedad de punto de quiebre alto de los estimadores iniciales.
11
Problema 14.1
a)
Figura 9: Gr
afica de lnea ajustada Regresion Logstica.
Coeficientes
Termino constante
X
coef
6.07
-0.01770
EE del coef
2.11
0.00608
VIF
1.00
Ecuaci
on de regresi
on :
exp(6, 07 0, 01770x)
(1 + exp(6, 07 0, 01770x))
(1)
b)
Tabla de desviaciones:
Fuente
Regresi
on
x
Error
Total
GL
1
1
23
24
Desv. ajust.
14.25
14.25
20,36
34,62
Media ajust.
14.2537
14.2537
0,8854
Chi-cuadrada
14.25
14.25
Valor p
0.000
0.000
Deviance : 20,36
D
20, 36
=
= 0,8852
(2)
(n p)
(25 2)
2
Conclusi
on: Teniendo en cuenta que la desviacion distribuye X,(np)
con una confianza del 95 %, entonces
2
como D=20,36 X0,05,23 = 35,172 se peude concluir que se tiene un buen modelo. Por otra parte, Como el
D
valor de (np)
es cercano a uno, se puede decir que el modelo es bueno.
12
c)
Interpretaci
on de beta:
OR = 0, 9825
Interpretaci
on: Por cada unidad de aumento en la velocidad del blanco, el decrecimiento estimado de la probabilidad de exito es de 0, 0175.
d)
Incluyendo el termino cuadr
atico
Ecuaci
on de regresi
on
exp(6, 19 0, 0185x + 0, 000001x2 )

(1 + exp(6, 19 0, 0185x + 0, 000001x2))
(3)
Tabla de desviaciones :
Fuente
Regresi
on
x
x2
Error
Total
GL
2
1
1
22
24
Desv. ajust.
14.2539
0,1132
0,0002
20,3635
34,6173
Media ajust.
7.12694
0,11315
0,00019
0.92561
Chi-cuadrada
14.25
0,11
0,00
Valor p
0.001
0,737
0,989
Conclusi
on: Al comparar las desviaci
on del modelo inicial (tem a) y el que incluye la variable cuadr
atica,
podemos observar que la diferencia es muy peque
na, por lo que podemos concluir que no es necesario incluir el
termino cuadr
atico de la velocidad del blanco.
13
Problema 14.2
a)
Figura 10: Gr
afica de lnea ajustada Regresion Logstica.
Coeficientes
Termino constante
X
coef
-8.74
0.000201
EE del coef
4.44
0.000101
VIF
1.00
Ecuaci
on de regresi
on:
exp(8, 74 + 0, 000201x)
(1 + exp(8, 74 + 0, 000201x))
(4)
b)
Fuente
Regresi
on
x
Error
Total
GL
1
1
18
19
Desv. ajust.
5,091
5,091
22,435
27,526
Media ajust.
5,091
5,091
1,246
Chi-cuadrada
5,09
5,09
Valor p
0,024
0,024
Deviance: 22, 435

D
22,435
=
= 1,2458
(n p)
(20 2)
Conclusi
on:
14
(5)
2
Teniendo en cuenta que la desviaci
on distribuye X,(np)
con una confianza del 95 %, entonces como D=22,435
D
2
es
X0,05,18 = 28,869 se puede concluir que se tiene un buen modelo. Por otra parte, Como el valor de (np)
cercano a uno, se puede decir que el modelo es adecuado.
c)
x
Relaci
on de probabilidades
1,0002
IC de 0.95
(1,0000. 1,0004)
Raz
on Odds:
OR = 1, 0002
El incremento estimado de la probabilidad de exito es de 0, 0002, cuando incrementa una unidad el ingreso de
una familia.
d)
Fuente
Regresi
on
x
x2
Error
Total
GL
2
1
1
17
19
Desv. ajust.
6,199
1,284
1,109
21,326
27,526
Coeficientes
Termino constante
X
x2
Media ajust.
3,100
1,284
1,109
1,254
coef
-69,7
0,00290
-0,000000
Chi-cuadrada
6,20
1,28
1,11
EE del coef
61,1
0,00268
0,000000
Valor p
0,045
0,257
0,292
VIF
759,05
759,05
Ecuaci
on de regresi
on:
exp(6, 97 + 0, 00290x 0, 00000002X 2 )

(1 + exp(6, 97 + 0, 00290x 0, 00000002X 2 ))
(6)
El valor de la desviaci
on en este modelo es de 27, 526 que comparado con el modelo inicial (tem a ) no difiere, por
lo que podemos decir que no es necesario introducir el valor de los ingresos de una familia de forma cuadr
atica.
Problema 14.4
a)
Coeficientes
Termino constante
X
coef
-2,0848
0,13573
EE del coef
0,0804
0,00496
VIF
1,00
Ecuaci
on de regresi
on:
P (1) =
exp(2, 0848 + 0, 13573x)

(1 + exp(2, 0848 + 0, 13573x))
15
(7)
b)
Fuente
Regresi
on
x
x2
Error
Total
GL
1
1
1
9
10
Desv. ajust.
870,925
870,925
1,109
0,294
871,220
Media ajust.
870,925
870,925
1,109
0,033
Chi-cuadrada
870,93
870,93
1,11
Valor p
0,000
0,000
0,292
Deviance: 0, 294
0, 294
D
=
= 0, 0326
(n p)
(11 2)
(8)
2
Teniendo en cuenta que la desviaci
on distribuye X,(np)
con una confianza del 95 %, entonces como D=0,294
D
2
es
X0,05,9 = 16, 91 se peude concluir que se tiene un buen modelo.Por otra parte, Como el valor de (np)
cercano a uno, se puede decir que el modelo es bueno.
c)
Figura 11: Gr
afica de lnea ajustada Regresion Logstica
d)
Coeficientes
Termino constante
X
X2
coef
-2,074
0,1341
0,000055
16
EE del coef
0,185
0,0267
0,000871
VIF
28,93
28,93
Ecuaci
on de regresi
on:
P (1) =
exp(2, 074 + 0, 1341x + 0, 000055x2 )

(1 + exp(2, 074 + 0, 1341x + 0, 000055x2 ))
(9)
Fuente
Regresi
on
x
x2
Error
Total
GL
2
1
1
8
10
Desv. ajust.
870,929
25,682
0,004
0,290
871,220
Media ajust.
435,465
25,682
0,004
0,036
Chi-cuadrada
870,93
25,68
0,00
Valor p
0,000
0,000
0,950
La desviaci
on en este modelo que incluye la variable descuento de forma cuadratica es igual a la del modelo
inicial (tem a), por lo que se puede concluir que no es necesario introducir dicha variable.
e)
Figura 12: Estimacion con la variable cuadratica
Se puede apreciar entonces, que la gr

afica con los datos cuadraticos, no ajusta mejor a los datos. Esto
lo podemos
conclur adem
as, porque en el modelo que incluye dicha variable, su coeficiente es muy peque
no, muy cercano
a cero.
f)
Zwald =
j
ES(j )
17
(10)
Termino constante
X
X2
coef
-2,074
0,1341
0,000055
EE del coef
0,185
0,0267
0,000871
Wald
-11.2108
5,022471
0,0631458
Como la estadstica de Wald distribuye normal, podemos observar que la constante es termino de la regresi
on
menos significante. Por otro lado el termino x es muy significante, mientras que el termino cuadratico no tiene
tanta significancia como el descuento del bono (x).
g)
j Z/2 Sj betaj j + Z/2 Sj
X
X2
(11)
IC de 95 %
(0,081956. 0,1863)
(-0,00170. 0,001878)
El coeficiente de la variable x (Descuento del bono) esta entre 0, 081956,0, 1863 con una confianza del 95 %. Por
otro lado la variable de forma cuadr
atica est
a entre los valores -0,00170. 0,001878 con una confianza del 95 %.
18

Cuarta Tarea Analisis PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Cuarta Tarea Analisis PDF

Загружено:

Авторское право:

Доступные форматы

CUARTA TAREA ANALISIS

Con mnimos cuadrados ordinarios se obtienen los siguientes resultados:

Pr( > |t|)

Residual standard error: 2,986 on 8 degrees of freedom

degrees of freedom: 10 total;8 residual; Scale estimate: 4.02

degrees of freedom: 10 total;8 residual; Scale estimate: 4.03

Con mnimos cuadrados ordinarios se obtendra:

Pr( > |t|)

Residual standard error: 3,143 on 7 degrees of freedom

degrees of freedom: 10 total;7 residual; Scale estimate: 3.88

degrees of freedom: 10 total;7 residual; Scale estimate: 4.03

Figura 2: Grafica Q-Q para x

Figura 3: Grafica Q-Q para y

Figura 4: Nube de puntos x-y

Figura 6: Ajuste con mnimos cuadrados ordinarios

Pr( > |t|)

Residual standard error: 1571 on 17 degrees of freedom

Figura 7: Ajuste con estimadores M

degrees of freedom: 19 total;17 residual; Scale estimate: 1610

Figura 8: Ajuste con mnima mediana de cuadrados

Scale estimates 896,7 909,0

Pr( > |t|)

Residual standard error: 3,259 on 22 degrees of freedom

Mientras por otro lado, con estimadores M se obtiene:

degrees of freedom: 25 total;22 residual; Scale estimate: 1,54

Scale estimates 1,356 1,301

exp(6, 19 0, 0185x + 0, 000001x2 )

Deviance: 22, 435

exp(6, 97 + 0, 00290x 0, 00000002X 2 )

exp(2, 0848 + 0, 13573x)

exp(2, 074 + 0, 1341x + 0, 000055x2 )

Figura 12: Estimacion con la variable cuadratica

Se puede apreciar entonces, que la gr

Вам также может понравиться