Академический Документы
Профессиональный Документы
Культура Документы
CORRELACIÓN
COVARIANZA
Sea (X1, Y1); (X2, Y2); .....; (Xn, Yn) una muestra aleatoria de tamaño n a la
cual se le mide las características X, Y. La covarianza de dicha muestra se
calcula de la siguiente manera:
⎛ __
⎞⎛ __
⎞
∑ ⎝ 1 ⎠⎝ 1 ⎟⎠
⎜ X − X ⎟⎜ Y − Y
∑X Y __
∑X __
∑Y n __ __
COV ( X , Y ) = = −Y −X +
i i i i
XY
n n n n n
COV ( X , Y ) =
∑ X i Yi __ __ __ __
−Y X− X Y+ X Y =
__ __
∑ X i Yi __ __
−Y X
n n
1 ⎛ __
⎞⎛ __
⎞
COV ( X , Y ) = ∑
n −1 ⎝
⎜ X i − X ⎟⎜ Y i − Y ⎟
⎠⎝ ⎠
⎛ __
⎞⎛ __
⎞
S XY = ∑ ⎜ X i − X ⎟⎜ Yi − Y ⎟ = ∑ X i Yi −
∑ X ∑Y i i
⎝ ⎠⎝ ⎠ n
INTERPRETACIÓN GRÁFICA DEL PLANO CARTESIANO
⎛ __
⎞⎛ __
⎞
X 〉 X
__
∑ ⎜⎝ X i m X ⎟⎜ Y i m Y ⎟
⎠⎝ ⎠
__
n
Y 〉 Y
__
Y Relación positiva
__
X 〈 X
__
Y 〈Y
__
X
⎛ __
⎞⎛ __
⎞
__
X 〈 X ∑ ⎜⎝ X i ± X ⎟⎜ Y i m Y ⎟
⎠⎝ ⎠
__
n
Y 〉Y
__
Y Relación negativa
__
X 〉 X
__
Y 〈Y
__
X
COV ( X , Y ) =
∑ XY − X Y = 3605 − (18) * (32.5) = 15.83
__ __
n 6
2 2
⎛ __
⎞⎛ __
⎞ ⎛ __
⎞ ⎛ __
⎞
∑ ⎜ X i − X ⎟⎜ Y i − Y ⎟
⎝ ⎠⎝ ⎠
∑ ⎜ X i − X ⎟ ∑ ⎜ Yi − Y ⎟
⎝ ⎠ ⎝ ⎠
≤
n n2
COV ( X , Y ) ≤ S X S Y
COV ( X , Y ) COV ( X , Y )
−1≤ ≤1 Sea r =
S X SY S X SY
−1≤ r ≤1
2
⎛ __
⎞
∑ ⎜⎝ i ⎟⎠
X − X
∑X 2
⎛ __ ⎞
2
2
= = −⎜X ⎟
i
S X
n n ⎝ ⎠
SX = S X2
Para nuestro problema de la productividad, la desviación estándar de X, Y
son respectivamente:
2
⎛ __
⎞
∑ ⎜⎝ i ⎟⎠
X − X
∑X 2
⎛ __ ⎞
2
2060
2
= = −⎜X ⎟ = − 18 2 = 19 . 33
i
S X
n n ⎝ ⎠ 6
S X = 19 .33 = 4 .4
2
⎛ __
⎞
∑ ⎜ i
⎝
Y − Y ⎟
⎠ = ∑Y 2
⎛ __ ⎞
2
6557
SY =
2
− ⎜Y ⎟ = − 32 . 5 2 = 36 . 58
i
n n ⎝ ⎠ 6
SY = 36 .58 = 6 .05
COV ( X , Y ) 15.83
r= = = 0.6
S X SY 6.05 * 4.4
COEFICIENTE DE DETERMINACIÓN
2. Para los problemas del libro guía 11.6 – 11.11, hallar el coeficiente de
determinación e interpretar.
ANÁLISIS DE REGRESIÓN
Una vez que se sospeche que una variable aleatoria Y esta relacionada con
una o más variables X1, X2, ..., Xn se debe o se desea predecir o pronosticar
el comportamiento de Y para unos valores determinados de X1, X2, ..., Xn.
Los modelos que se emplean para relacionar una variable dependiente (Y)
con las variables independientes X1, X2, ..., Xn se denominan modelos de
regresión o modelos estadísticos lineales.
CAPITULO 2
REGRESIÓN LINEAL SIMPLE
3
2,5
2 3 2
4 2
1,5
1
5 4
0,5
0
0 1 2 3 4 5
PRESION
El estado ideal será el de trazar una línea y que todos los puntos quedaran
sobre dicha línea, pero esto en la realidad no ocurre, ya que algunos puntos
se desviarán de esta línea.
∧
Toda observación y i se obtiene al reemplazar x en la anterior ecuación,
toda observación Y se obtiene al sumar el error εi al modelo estimado
∧ ∧
y i = β 0 + β 1 (x i ) + ε i
2 2
⎡ ⎤
ε 1 = y1 − y i ⇒ ∑ ε = ∑ ⎛⎜ y1 − y ⎞⎟ = ∑ ⎢ y1 − ⎛⎜ β 0 + β 1 x ⎞⎟⎥
∧ ∧ ∧ ∧
2
i
⎝ ⎠ ⎣ ⎝ ⎠⎦
Se aplicara el método de los mínimos cuadrados para estimar β0 y β1 tal que
haga mínima la sumatoria al cuadrado de los errores.
2 2
⎛ ∧
⎞ ⎡ ⎛ ∧ ∧
⎞⎤ ∧
SSE = ∑ ε = ∑ ⎜ y i − y ⎟ = ∑ ⎢ y i − ⎜ β 0 + β 1 x ⎟⎥
i
2
derivando con respecto a β 0
⎝ ⎠ ⎣ ⎝ ⎠⎦
∧
y β 1 e igualando a cero se tiene:
∂SSE ⎛ ∧ ∧
⎞
= ∑ − 2⎜ y i − β 0 − β 1 x i ⎟
∂β 0 ⎝ ⎠
∂SSE ⎛ ∧ ∧
⎞
= ∑ − 2 xi ⎜ y i − β 0 − β 1 x ⎟ las dos ecuaciones igualadas a cero se tiene
∂β 1 ⎝ ⎠
− 2⎛⎜ ∑ y i − n β 0 − β 1 ∑ x i ⎞⎟ = 0
∧ ∧
⎝ ⎠
− 2⎛⎜ ∑ x i y i − β 0 ∑ x i − β 1 ∑ x i2 ⎞⎟ = 0
∧ ∧
⎝ ⎠
∧ ∧ ∧ ∧
∑ y i − n β 0 − β 1 ∑ xi = 0 − n β 0 − β 1 ∑ x i = −∑ y i
⎛ ∧ ∧
2 ⎞
∧ ∧
⎜ ∑ xi y i − β 0 ∑ xi − β 1 ∑ xi ⎟ = 0 − β 0 ∑ x i − β 1 ∑ x i2 = −∑ x i y i
⎝ ⎠
∧ ∧
n β 0 + β 1 ∑ xi = ∑ y i
∧ ∧
despejamos β0 ecuaciones normales
β 0 ∑ xi + β 1 ∑ x = ∑ xi y i 2
i
∧
∧
β0 =
∑ yi −
β 1 ∑ xi
∧
n n 1⎛ ∧
⎞
⇒ ⎜ ∑ y i − β 1 ∑ xi ⎟ =
∑x y i i − β 1 ∑ x i2
∑x
∧
n⎝ ⎠
∧
β0 =
∑x y i i − β 1 ∑ x i2 i
∑x i
(
β 1 n ∑ x i2 − (∑ x i ) = n ∑ y i x i − ∑ x i ∑ y i
∧ 2
)
∧
β1 = n
∑y x −∑x ∑y
i i i i
Dividimos entre n2
n ∑ x − (∑ x ) 2 2
i i
n ∑ yi xi ∑x∑ yi
∧ − i
β1 = n2 n2
n ∑ x i2
−
(∑ x i )2
n2 n2
∑y x i i
−xy
__ __
∧
n COV ( x , y )
βi = =
∑x ⎛ ∑ xi
2
2
⎞ S x2
− ⎜⎜ ⎟
i
n ⎟
⎝ n ⎠
n∑ yi xi ∑x ∑ y ∑ y x − ∑x ∑ y
∧ − i i
i i
i i
βi = n n = n
O n∑ x (∑ x ) (∑ x )
2 2 2
−
n
∑ x − i
n
i 2
i
n
i
⎛ __
⎞⎛ __
⎞
S xy ∑ ⎜ xi − x
⎝
⎟⎜ yi − y ⎟
⎠⎝ ⎠
= 2
S xx ⎛ __
⎞
∑ ⎜⎝ x i − x⎟
⎠
∧
Despejando β 0 en la primera ecuación se tiene que
∧
∧ ∧
n β0 + β1 ∑ xi = ∑ yi ⇒ β0 =
∧
∑ yi −
β1 ∑ xi
n n
∧ __ ∧ __
β 0 = y − β1 x
∧ ∧
Calcular o estimar por mínimos cuadrados para β 0 y β1 con los datos de
nuestro ejemplo
Sxy 7
COV (x,y) = = = 1.4
n 5
Sxx 10
S 2x = = = 2; Sx = 1.41
5 5
(∑ yi )
2
Syy ∑ 1
2
y −
5 26 − 20
S2y = = = = 1 .2
5 5 5
Sy = 1.2 = 1.1
COV ( x, y ) 1.4
r= = = 0.90
SxSy 1.1 * 1.41
R 2 = 0.81
S xy = ∑ x i y i −
∑ x *∑ y i i
= 37 −
15 *10
=7
n 5
(∑ x ) 2
15 2
S xx = ∑ x 2
− = 55 − = 10
i
i
n 5
∧ 7 ∧
β1 = = 0.7 β1 es la dependiente de la recta estimada
10
β 0 = y − β1 x = ∑ i − β1 ∑ i = − 0.7 = −0.1
∧ __ ∧ __ y ∧ x 10 15
n n 5 5
∧
Interpretación de β1
x y ∧
y = −0.1 + 0.7 x
∧
( yi − y )
∧
( yi − y ) 2
1 1 0.6 0.4 0.16
2 1 1.3 -0.3 0.09
3 2 2.0 0 0.00
4 2 2.7 -0.7 0.49
5 4 3.4 0.6 0.36
0 1.10
INTERPRETACIÓN GRÁFICA
yi
⎛ ∧
⎞ ∧ ∧ ∧
⎜ y − yi ⎟ y = β0 + β 1 x
⎝ ⎠
⎛ _
⎞
⎜ y − y⎟
⎝ ⎠
−
y ⎛∧ _⎞
⎜ y− y ⎟
⎝ ⎠
β0
xi
∑(y − yi ) 2
i − y) 2
-0.1+0.7x i
∑(y − y )
i i
2
⎛ __
⎞⎛ __
⎞ ⎡⎛ __
⎞ ⎛ ⎞ ⎤
__ __
SS xy = ∑ ⎝ i ⎠⎝ i y ⎟⎠ =
⎜ x − x ⎟ ⎜ y − ∑ ⎜
⎢ ix − x ⎟ y i − ⎜ x i − x ⎟ y⎥
⎣⎝ ⎠ ⎝ ⎠ ⎦
⎛ __
⎞ __
⎛ __
⎞ ⎛ __
⎞
= ∑ ⎝ i ⎠ i ∑ ⎝ i ⎠ ∑ ⎝ i x ⎟⎠ yi
⎜ x − x ⎟ y − y ⎜ x − x ⎟ = ⎜ x −
__ __ __ __
ya que ∑( xi − x )= 0 ∑ xi − n x = n x − n x = 0
SSxx = ∑ ⎛⎜ xi − x ⎞⎟ = ∑ ⎛⎜ xi − x ⎞⎟⎛⎜ xi − x ⎞⎟ = ∑ ⎛⎜ xi − x ⎞⎟ xi − ⎛⎜ xi − x ⎞⎟ x =
__ __ __ __ __ __
⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠ ⎝ ⎠
⎛ __
⎞ __
⎛ __
⎞ ⎛ __
⎞
= ∑ ⎜ xi − x ⎟ xi − x ∑ ⎜ xi − x ⎟ = ∑ ⎜ xi − x ⎟ xi
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
⎝ ⎠
Demostración:
⎛ __
⎞ ⎛ __
⎞ ⎛ __
⎞
⎜ i
x − x ⎟ ⎜ 2
x − x ⎟ −
⎜ n x⎟
x
∧ SS xy 1 ⎛ __
⎞ ⎝ ⎠y +⎝ ⎠ y + ..... + ⎝ ⎠ y = β∧
β1 =
SS xx
= ∑
SS xx ⎝
⎜ xi − x ⎟ yi =
⎠ SS xx
1
SS xx
2
SS xx
n 1
⎛ __ __ __
⎞
⎛ ⎞ ∧
⎜ ( x1 − x ) ( x2 − x ) ( xn − x ) ⎟
Ε⎜ β1 ⎟ = Ε⎜ y1 + y2 + .... + yn ⎟
⎝ ⎠ ⎜ SSxx SSxx SSxx ⎟
⎝ ⎠
Ε( y1 ) = β 0 + β1 x1 ; Ε( y2 ) = β 0 + β1 x2 ; .....; Ε( yn ) = β 0 + β1 xn
⎛ __ __ __
⎞
⎛ ⎞
∧
⎜ 1
( x − x ) ( x − x ) ( x − x) ⎟
Ε⎜ β1 ⎟ = ⎜ Ε( y1 ) + 2
Ε( y 2 ) + .... + n
Ε( y n ) ⎟
⎝ ⎠ ⎜ SS xx SS xx SS xx ⎟
⎝ ⎠
⎛ __ __ __
⎞
⎛ ⎞ ∧ ⎜ ( x − x ) ( x − x ) ( x − x) ⎟
Ε⎜ β1 ⎟ = Ε⎜ 1
(β 0 + β1 x1 ) + 2
(β 0 + β1 x2 ) + ....+ n
( β 0 + β1 x n ) ⎟
⎝ ⎠ ⎜ SSxx SSxx SSxx ⎟
⎝ ⎠
⎛ __
⎞
β ⎛ __
⎞ β ⎛ __
⎞
∑ ⎜ xi − x ⎟xi
= 0 ∑ ⎜ xi − x ⎟ + 1 ∑ ⎜ xi − x ⎟ xi = β1 ⎝ ⎠
SS xx ⎝ ⎠ SS xx ⎝ ⎠ SS xx
SS xx ⎛∧⎞
β1 = β1 ⇒ Ε⎜ β1 ⎟ = β1
SS xx ⎝ ⎠
2 2 2
⎛ __
⎞ ⎛ __
⎞ ⎛ __
⎞
⎜ x 1 − x ⎟ ⎜ x2 − x ⎟ ⎜ xn − x⎟
⎛ ⎞
∧
V ⎜ β1 ⎟ = ⎝ ⎠ V (y ) + ⎝ ⎠ V ( y ) + .... + ⎝ ⎠ V (y )
⎝ ⎠ ( SS xx ) 2 1
(SS xx )2 2
(SS xx )2 n
σε2 = σ y2 = V ( y)
2 2 2 2
⎛ __
⎞ ⎛ __
⎞ ⎛ __
⎞ ⎛ __
⎞
⎛ ⎞
∧
⎜ x 1 − x ⎟ ⎜ x 2 − x ⎟ ⎜ x n − x ⎟ ∑ ⎜ xi − x⎟
V ⎜ β1 ⎟ = ⎝ ⎠ σ2 + ⎝
2
⎠ σ 2 + .... + ⎝
2
⎠ σ2 =σ2 ⎝
2 2
⎠
⎝ ⎠ ( SS xx ) ( SS xx ) ( SS xx ) ( SS xx )
SS xx σ2
= σ2 =
( SS xx ) 2 SS xx
σ2
V ⎛⎜ β 1 ⎞⎟ =
∧
=σ β ˆ
2
⎝ ⎠ SS xx 1
σ 2
σ
V ⎛⎜ β 1 ⎞⎟ =
∧
=
⎝ ⎠ SS xx SS xx
2) β 0 es un estimador insesgado, de β 0 se tiene que:
⎛ __
⎞
∧ __ ∧ __ ∧ SS xy ∑ ⎝ i x ⎟⎠ yi
⎜ x −
β 0 = y − β1 x pero β1 = =
SS xx SS xx
⎛ ⎞ __
⎛ __
⎞ ⎛ __
⎛ __
⎞ ⎞
__ __ ∑ ∑
⎜ xi − x ⎟ yi ⎜ x − x ⎟ y ⎜ x ⎜ xi − x ⎟ yi ⎟
β0 = y− x ⎝
∧
⎠ = ∑ y i − __x ⎝ i i
⎠ = ⎜ yi − ⎝ ⎠ ⎟
SS xx n SS xx
∑⎜ n SS xx ⎟
⎜ ⎟
⎝ ⎠
⎛ __
⎛ __
⎞⎞
⎜ x ⎜ x i − x⎟⎟
1
β0 = ∑⎜ − ⎝ ⎠ ⎟y
∧
⎜n SS xx ⎟ i
⎜ ⎟
⎝ ⎠
⎛ ⎛ __
⎛ __
⎞ ⎞ ⎞⎟ ⎛ __
⎛ __
⎞⎞
⎜ ⎜ x ⎜ x − x ⎟ ⎟ ⎜ x ⎜ x − x⎟⎟
⎜ 1 ⎠ ⎟y ⎟ = ⎜ 1 − ⎝
i i
⎛ ⎞
∧
Ε⎜ β 0 ⎟ = Ε⎜ ∑ ⎜ − ⎝ i⎟ ∑ ⎠ ⎟Ε ( y )
⎝ ⎠ ⎜ n SS xx ⎟ ⎜ n SS xx ⎟
i
⎜⎜ ⎜ ⎟ ⎟⎟ ⎜ ⎟
⎝ ⎝ ⎠ ⎠ ⎝ ⎠
⎛ __
⎞
⎛ __
⎛ __
⎞ ⎞ ⎛ __
⎛ __
⎞ ⎞ ⎜ ⎛ __ ⎟
⎞
⎜ x ⎜ xi − x ⎟ ⎟ ⎜ x ⎜ xi − x ⎟ ⎟ ⎜ 1 x⎜ xi − x ⎟ ⎟
⎛∧⎞ ⎜ 1 ⎝ ⎠ ⎟ ⎜ 1 ⎝ ⎠ ⎟
Ε⎜ β0 ⎟ = ∑⎜ − ⎟ (β0 + β1xi ) = ∑⎜ − ⎟ β0 + ∑⎜ − ⎝ ⎠ ⎟β x
1 i
⎝ ⎠ n SSxx n SSxx ⎜n SSxx ⎟
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠ ⎜ ⎟
⎝ ⎠
__ __
⎛ ⎞ n
∧ β x ⎛ __
⎞
Ε⎜ β 0 ⎟ = β 0 − 0 ∑ ⎜ xi − x ⎟ + β1
∑ xi − x β1 ∑ ⎛⎜ x − _x_ ⎞⎟ x
i ii
⎝ ⎠ n SS xx ⎝ ⎠ n SS xx ⎝ ⎠
__ __
⎛ ∧
⎞ β0 x ⎛ __
⎞ ∑x β1 x ⎛ __
⎞
Ε⎜ β 0 ⎟ = β 0 − ∑ − x ⎟ + β1 − ∑ ⎜ xi − x ⎟xi
i
⎜ x i
⎝ ⎠ SS xx ⎝ ⎠ n SS xx ⎝ ⎠
⎛ ∧
⎞ __ SS xx
Ε⎜ β 0 ⎟ = β 0 − 0 + β 1 x − β 1 x
⎝ ⎠ SS xx
⎛ ∧ ⎞ __
⎛ ∧ ⎞
Ε⎜ β 0 ⎟ = β 0 + β 1 x − β 1 x = β 0 = Ε⎜ β 0 ⎟
⎝ ⎠ ⎝ ⎠
∧
β 0 es un estimador insesgado
⎡⎛ ⎞ ⎤ ⎛ __
⎞
⎛ ⎛ __
⎛ __
⎞ ⎞ ⎞ ⎢ ⎜ ⎛ __ ⎟
⎞ ⎥ ⎜ ⎛ __
⎞ ⎟
⎜ ⎜ x ⎜ xi − x ⎟ ⎟ ⎟ ⎜ x⎜ xi − x ⎟ ⎟ ⎜ x⎜ xi − x ⎟ ⎟
⎛ ⎞
∧
⎜ 1
V ⎜ β0 ⎟ = V ⎜ ∑ ⎜ − ⎝ ⎠ ⎟ y ⎟ = V ⎢⎜ 1 − ⎝ ⎠ ⎟y ⎥ = ⎜ 1 − ⎝ ⎠ ⎟σ 2
⎜ ⎟ ⎟ ∑ ⎢ i⎥ ∑
⎢⎜ n SS xx ⎟ ⎥ ⎜n SS xx ⎟
i
⎝ ⎠ n SS xx
⎜⎜ ⎜ ⎟ ⎟⎟ ⎜ ⎟ ⎥ ⎜ ⎟
⎝ ⎝ ⎠ ⎠ ⎢ ⎜ ⎟ ⎜ ⎟
⎢⎣⎝ ⎠ ⎥⎦ ⎝ ⎠
⎡ __
⎛ __
⎞ __ ⎛
2 __ 2 ⎤
⎞
⎢ 2 2 x ⎜ i
x − x ⎟ x x −
⎜ i x⎟ ⎥
= ∑ ⎢⎛⎜ ⎞⎟ − ⎝
1 ⎠+ ⎝ ⎠ ⎥σ 2
⎢⎝ n ⎠ nSS xx (SS xx ) ⎥
2
⎢ ⎥
⎣⎢ ⎦⎥
⎡ ⎛ __ __ 2 ⎞⎤
⎢ ⎜ 1 2 x ⎛ __
⎞ x ⎛ __ 2 ⎟
⎞ ⎥
= σ 2 ⎢∑ ⎜ 2 − ∑ ⎜ xi − x ⎟ + 2 ∑⎜ i
x − x ⎟ ⎟⎥
⎢⎣ ⎜⎝
n nSS xx ⎝ ⎠ (SS xx ) ⎝ ⎠ ⎟⎥
⎠⎦
⎡ __ 2 ⎤ ⎡ 2 __ 2 ⎤ ⎡ __ 2 ⎤ ⎡ __ 2 ⎤
1 σ σ 2
1 +
= σ 2 * ⎢⎢ − 0 + xx ⎥
= σ 2 ⎢⎢ + ⎥ = σ 2⎢ + ⎥ = σ 2 ⎢ xx
x SS x x SS n x ⎥
2 ⎥
n (SS xx ) ⎥ n SS xx ⎥ ⎢ n SS ⎥ ⎢ nSS ⎥
⎣⎢ ⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦ ⎢⎣ ⎦⎥
xx xx
⎦
⎡ ⎛ __ 2
⎞ __ 2 ⎤ ⎡ ⎛ 2 __ __ 2 ⎞ __ 2 ⎤
⎢ ∑ ⎜ xi − x ⎟ + n x ⎥ ⎢∑⎜ i
⎜ x − 2 xi x + x ⎟
⎟ + n x ⎥
= σ 2⎢ ⎝ ⎠ ⎥ = σ 2⎢ ⎝ ⎠ ⎥
⎢ nSS xx ⎥ ⎢ nSS xx ⎥
⎢ ⎥ ⎢ ⎥
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
⎡ __ __ 2 __ 2 ⎤ ⎡ __ 2 __ 2 ⎤
= σ 2 ⎢⎢ ∑ i i∑ 2 ⎢∑ i 2 ∑ i
x 2
− 2 x x + n x + n x ⎥ x 2
− 2 x n + 2 n x ⎥ ⎡ x2 ⎤
⎥ = σ ⎢ ⎥ = σ ⎢ ⎥
⎢
nSS xx
⎥ ⎢
nSS xx
⎥ ⎢
⎣ nSS xx ⎥⎦
⎣ ⎦ ⎣ ⎦
ESTIMADOR INSESGADO σ2
SSE
El estadístico se distribuye χ2
σ 2
SSE 2 (n − 2) s 2
χ2 = ⇒ como SSE = (n – 2)s se tiene que χ2 =
σ2 σ2
Demostración de E(s2) = σ2
SS yy
⎝ ⎠
∑y i
2
−
n
i
⎛ __
⎞⎛ __
⎞ ∑x∑y
SS xy = ∑ ⎝ i ⎠⎝ i y ⎟⎠ =
⎜ x − x ⎟ ⎜ y − ∑xy
i i − i
n
i
∧ SS xy
β1 =
SS xx
Ho β1 = 0
Ha β1 ≠ 0
SSE
Como σ 2 es desconocido y se estima con el estadístico s 2 = el
n−2
∧
β 1 − β1
estadìstico tiene una distribución t estuden y la hipótesis nula
S
SSxx
Ho β1 = 0
Ha β1 ≠ 0
∧
β 1 − 01
Puede rechazarse si T ≥ tn − 2 ,α o ≥ tn − 2,α
S
SSXX
Ho β1 = 0
Ha β < 0
∧
β1
Estadística de prueba
s
SSxx
Región de rechazo t < tα
Ho β1 = 0
Ha β1 > 0
∧
β1
Estadística de prueba
s
SSxx
Región de rechazo t > tα
Ejemplo
Para nuestro ejemplo de compresión del aislante probamos la siguiente
hipótesis en los siguientes pasos:
a. Ho β1 = 0
Ha β1 ≠ 0
c. Estadístico de prueba
∧ ∧
β β 0.7 −7
T = 1
= 1
= = = 3.7
Sβ̂1 S .61 0.19
SSxx 10
d. Decisión estadística
⎝ ⎠ ⎜ x SSxx ⎟⎟
⎝ ⎠
∧ S ⎛ 0.61 ⎞
β1 ± t0.025,3 = 0.7 ± 3.185⎜ ⎟ = 0.7 ± 0.61
SSxx ⎝ 10 ⎠
⎛ ∧
⎞
p⎜ 0.09 ≤ β1 ≤ 1.31⎟ = 0.45
⎝ ⎠
Taller: Paginas 557, 558, 559, 560, 561 menos los opcionales
Como puede observarse tanto para estimar el valor medio como para
predecir un valor en particular para y para un valor dado de x se aplica el
mismo modelo, la diferencia radica en su interpretación y en la exactitud de
la estimación y predicción.
AJUSTE DE CURVAS
Algunas veces la dispersión de los puntos no indica una relación lineal
entre las variables x,y pero se puede visualizar alguna otra curva estándar
conocida y = f(x); la cual se puede aproximar a los datos. Algunas de estas
curvas estandar, donde y es la variable dependiente y x la variable
independiente son:
1) Curva parabólica: y = β 0 + β1 x1 + β 2 x2 2
1
3) Curva hiperbólica: y = ò 1/y = β 0 + β1 x1
β 0 + β1 x1
6) Curva exponencial: y = β 0e β x 1
X 1 2 3 4 5 6
Y 6 18 55 160 485 1460
1600
1400
1200
1000
800
600
400
200
0
β 0 = 2.0
β1′ = log β1 ⇒ log β1 = 0.4767
β1 = anti log β1′ ⇒ β1 = 3.0
⎡ ⎛ − ⎞2
⎜⎜ x p − x ⎟⎟
⎤
⎛ ∧ ⎞ ⎢ 1 ⎝ ⎠ ⎥
La varianza de V ⎜ y x ⎟ = δ 2 ⎢ + ⎥
⎜ p⎟ ⎢ n SSxx ⎥
⎝ ⎠
⎢⎣ ⎥⎦
Demostración:
∧ ∧ ∧ − ∧ _
Y = β 0 + β1 Xp haciendo x = xp y β 0 = y − β1 x
∧ _ ∧ _ ∧ ∧ _ ∧
⎛ _
⎞
Y = y − β1 x + β1 Xp = 0 Y = y + β1 ⎜ Xp − x ⎟
⎝ ⎠
∧ SSxy
reemplazando β1 =
Sxx
⎛ _
⎞
⎜ Xp − x ⎟
∧
⎠ ⎛ x − x⎞y
_ _
⎝
Y = y+ 1
Sxx
∑ ⎝ ⎟⎠ i
⎜
⎛ _
⎞⎛ _
⎞
∧
⎜ Xp − x ⎟⎜ xi − x ⎟
yi
Y = ∑ + ∑1 ⎝ ⎠⎝ ⎠y
i
n Sxx
⎡ ⎛ _
⎞⎛ _
⎞⎤
⎢ ⎜ x − x ⎟⎜ x − x ⎟⎥
∧ 1 ⎝ p
⎠⎝
i
⎠ ⎥y
Y =∑ +
⎢
⎢n ⎥
i
SSxx
⎢ ⎥
⎣ ⎦
2
⎡ ⎛ _
⎞⎛ _
⎞⎤
⎢1 ⎜ x p − x ⎟⎜ xi − x ⎟⎥
⎛ ⎞
∧
⎝ ⎠⎝ ⎠ ⎥ V (y)
V ⎜Y ⎟ = ∑ ⎢ +
⎝ ⎠ ⎢ ⎥
i
n SSxx
⎢ ⎥
⎣ ⎦
⎡ ⎛ _
⎞⎛ _
⎞ ⎛ ∧ 2
⎞ ⎛ _+ 2 ⎤
⎞
⎢ ⎜ x p − x ⎟⎜ xi − x ⎟ ⎜ x p − x ⎟ ⎜ xi − x ⎟ ⎥
⎛ ⎞
∧ 1 2 ⎠+⎝ ⎠ ⎝
V ⎜Y ⎟ = ∑ ⎢ 2 + ⎝ ⎠⎝ ⎠ ⎥ δ2
⎝ ⎠ ⎢n n SSxx (SSxx ) 2
⎥
⎢ ⎥
⎣⎢ ⎦⎥
⎡ ⎛ _
⎞ ⎛ _ 2
⎞ ⎛ _ 2⎤
⎞
⎛ ⎞
∧
⎢
n 2 ⎝
∑ ⎜ x p − x ⎟ ⎜ x p − x ⎟ ∑ ⎜ xi − x ⎟ ⎥
⎠+⎝ ⎠ ⎝ ⎠ ⎥δ 2
V⎜ y⎟ = ⎢ 2 +
⎝ ⎠ ⎢n n SSxx (SSxx )2
⎥
⎢ ⎥
⎣⎢ ⎦⎥
⎡ ⎛ _ 2
⎞ ⎛ _ 2⎤
⎞
⎢ ⎜ x p − x ⎟ ∑ ⎜ xi − x ⎟ ⎥ ⎡ 1 (x p − x )2 SSxx ⎤ 2
⎛ ⎞ ⎢1 ⎝
∧
⎠ ⎝ ⎠ ⎥
V⎜ y⎟ = + δ = ⎢ +
2
⎥σ
⎝ ⎠ ⎢n (SSxx )2 ⎥ ⎢n
⎣ SSxx 2 ⎦⎥
⎢ ⎥
⎢⎣ ⎥⎦
⎡ ⎛ _ 2⎤
⎞
⎢ ⎜ xp − x ⎟ ⎥
⎛ ⎞
∧ 1
V⎜ y⎟ = ⎢ + ⎝ ⎠ ⎥δ 2
⎝ ⎠ ⎢n (SSxx ) ⎥
⎢ ⎥
⎣⎢ ⎦⎥
⎡ ⎛ _ 2⎤
⎞ ⎡ ⎛ _ 2⎤
⎞
∧
2⎢ 1 ⎜ xo − x ⎟ ⎥ ∧
2⎢ 1 ⎜ xo − x ⎟ ⎥
y− tn δ ⎢1 + + ⎜ ≤ y p ≤ y+ tn δ ⎢1 + + ⎜
,n −2 n ⎜ SSxx ⎟⎟ ⎥ ,n−2 n ⎜ SSxx ⎟⎟ ⎥
2 ⎢⎣ ⎝ ⎠ ⎥⎦ 2 ⎢⎣ ⎝ ⎠ ⎥⎦
Donde β0, β1,... βr son coeficientes de la regresión que tienen que estimarse
de los n datos (Xi, Yi) i = 1,2,3...n; los estimadores de βj los llamaremos
βj donde j = 1, 2, ...r, y son aquellos valores que minimizan
∑ ˆ
β ∑ 1 ∑i =1 ∑i =1
ˆ n Xi 3 + ........... + βˆr n Xi r + 2
β
n n
i =1
YiXi 2
= 0 i =1
Xi 2
+
. . .
. . .
. . .
. . .
. . .
x 1 2 3 4 5 6 7 8 9 10
y 20.6 30.8 55 71.4 97.3 131.8 156.3 197.3 238.7 291.7
MODELO R2 bo b1 b2 b3
LINEAL 0.967 -34.107 29.672
CUADRATICO 0.999 12.6433 6.2971 2.1250
CUBICO 0.999 5.1567 12.9374 0.6853 0.0873
GRAFICO DE DISPERSION
400
300
200
Y
100
0
0 5 10 15
X
∑X ∑X ∑X ∑X
2 3 4
1 = 55 1 = 385 1 = 3025 1 = 25333
∑Y ∑Y X ∑X
2
1 = 1291.1 1 1 = 9549.3 1 Y1 = 77758.9
1291.1 = 10 βˆ 0 + 55βˆ1 + 385 βˆ 2
1291.1 10 55 385 β̂ 0
CAPITULO 3
REGRESIÓN LINEAL MÚLTIPLE
Y = β 0 + β 1 X 1 + β 2 X 2 + ...... + βkXk + e
Donde Xj, j = 1, 2, 3, .... k es el número de variables j
independientes y e es el error aleatorio distribuido normal con
media cero y varianza constante ( σ 2 ).
Y2 = β 0 + β 1 X 21 + β 2 X 22 + ........β j X 2 j ............ + β k X 2 k + e2
Yi = β 0 + β 1 X i1 + β 2 X i 2 + ........β j X i j ............ + β k X ik + ei
Yn = β 0 + β 1 X n1 + β 2 X n 2 + ........β j X n j ............ + β k X nk + en
Y2 1 X21 X22...........X2j..........X2k β̂ 1 e2
En resumen se tiene Y = Xβ + ε .
Y
E (Y ) = β 0 + β 1 X 1 + β 2 X 2
X2
X1
E (Y ) = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 1 X 2 + β 4 X 1 + β 5 X 2
2 2
X2
X1
Después de seleccionar la parte determinística de un modelo E(Y), todo Y
puede representarse de la siguiente manera:
Y = Xβ + E ⇒ E(Y)= Xβ
1. E(E) = 0
E (Y ) = β 0 + β 1 X 1 + β 2 X 2 + ............β K X K
E1 E(E1 ) 0
E(E) = E E2 = E(E2) = 0
E3 E(E3) 0
en
2
V(ei) = E (ei2) - [E (ei )]2 = E(ei2) – 0 = E(ei) = σi
σ 12 σ12...........σ1n
COV(E) = σ21 σ22...........σ2n
σn1 σn2...........σn2
σij = 0 para i ≠ j
σ2 0 0....... 0
0 0 0....... σ2
2
COV(E) = σ I
∑
n 1/ 2
2Π
donde:
n = es el número de componentes en el vector
∑ = COV(X)
X = Vector aleatorio
µ = valor esperado
1
ε ´( I ) − ε
f(E) = f (e1, e2, ....... en) = ) 1 e σ2
∑
n 1/2
2Π
1
Observe que ∑= σ 2
I
X = N (µ, Σ)
µ = vector
Σ = COV(X)
Para el caso del vector de los errores y bajo los supuestos se tiene que:
ε = N (0, σ1 I )
2
AJUSTE DEL MODELO POR EL MÉTODO
DE LOS MINIMOS CUADRADOS
Yi = β 0 + β 1 X i1 + ............β k X ik + ei
e1
e2
EE’ = (e1, e2, ....... en) . = ∑e i
2
= ∑ ( y i − yˆ ) 2 = SSE
.
en
n
SSE = ∑ ( yi − yˆ ) 2 = ∑ ( yi − ( β 0 + β1 X i1 + ........β k X ik )) 2
i =1
∑ − 2( y i − βˆ 0 − βˆ1 X i1 − βˆ 2 X i 2 − ...............βˆ k X ik ) = 0
∑ − 2X i1 ( y i − βˆ 0 − βˆ1 X i1 − βˆ 2 X i 2 − ...............βˆ k X ik ) = 0
∑ − 2X i2 ( y i − βˆ 0 − βˆ1 X i1 − βˆ 2 X i 2 − ...............βˆ k X ik ) = 0
.
.
.
∑ − 2X ik ( y i − βˆ 0 − βˆ1 X i1 − βˆ 2 X i 2 − ...............βˆ k X ik ) = 0
∑X y i = β̂ 0 ∑ X i 1 + βˆ1 ∑ X i1 + βˆ 2 ∑ X i 2 X i 1 + ............. + βˆ k ∑ X ik X ik
2
i1
∑X y i = βˆ 0 ∑ X ik + βˆ1 ∑ X i1 X ik + βˆ 2 ∑ X i 2 X ik + ............. + βˆ k ∑ X ik
2
ik
Demostración:
1 1........ 1 Y1 ΣY1
X´X β̂ = XÝ
∑X
2
b. Sobre la diagonal principal la suma de cuadrados ik .
i =1
Υ = Χβ + ε ⇒ ε = Υ − Χ β̂
( β̂ ′Χ′Υ) = Υ′Χβ
Se tiene Υ′Υ − β̂ ′Χ′Υ − Υ′Χ β̂ + β̂ ′Χ′Χ β̂ = Υ′Υ − 2 β̂ ′Χ′Υ + β̂ ′Χ′ X β̂ = ε′ε
−2Χ′Υ + 2Χ′Χ β̂ = 0
2Χ′Χ β̂ = 2Χ′
Χ′Χ β̂ = Χ′Υ
Estas son las ecuaciones normales representadas matricialmente y
calculadas con anterioridad al despejar β̂ de dichas ecuaciones se tiene
que β̂ =(Χ′Χ)-Χ′Υ
PRESION x COMPRESIÓN y
1 1
2 1
3 2
4 2
5 4
Χο Χ1
1 1 1
1 1 2 ε1
2 1 3 βΟ ε2
Υ= 2 Χ= 1 4 β= ε= ε3
4 1 5 β1 ε4
1 1
1 1 1 1 1 1 2 5 15
X′ Χ = 1 3 =
1 2 3 4 5 1 4 15 55
1 5
1 1 1 1 1 1
1 10
Τ
Χ Υ = 1 2 3 4 5 2 =
2 37
4
−1
5 15
(Χ′Χ)−1 =
15 55
a11 a12
Α=
a21 a22
A+ = cofactor de a21=-a12
cofactor de a22 = a11
cofactor de a12 =-a21
55 −15
( X ′X )
−1
=
-15 5
55 * 5 − 152 = 50
1.1 -0.3
( X ′X )−1 =
− 0.3 0.1
OBSERVACION X1 X2 Y
1 2 50 9.95
2 8 110 24.45
3 11 120 31.75
4 10 550 35
5 8 295 25.02
6 4 200 16.86
7 2 375 14.38
8 2 52 9.6
9 9 100 24.35
10 8 300 27.5
11 4 412 17.08
12 11 400 37
13 12 500 41.95
14 2 360 11.66
15 4 205 21.65
16 4 400 17.89
17 20 600 69
18 1 585 10.30
19 10 540 34.93
20 15 250 46.59
21 15 290 44.88
22 16 510 54.12
23 17 590 56.23
24 6 100 22.13
25 5 400 21.15
X0 X1 X2
1 2 50 9.95
1 8 110 24.45
1 11 120 31.75
1 10 550 35
1 8 295 25.02
1 4 200 16.86
1 2 375 14.38
1 2 52 9.60
1 9 100 24.35
1 8 300 27.50
1 4 412 17.08
1 11 400 37
1 12 500 41.95
Χ= 1 2 360 Υ= 11.66
1 4 205 21.65
1 4 400 17.89
1 20 600 69
1 1 585 10.30
1 10 540 34.93
1 15 250 46.59
1 15 290 44.88
1 16 510 54.12
1 17 590 56.63
1 6 100 22.13
1 5 400 21.15
1 2 50
1 1............1 1 8 110
Χ′Χ = 2 8.............5 . . .
50 110..........400 1 5 1100
25 206 8294
Χ′Χ = 206 2396 77177
8294 77177 3531848
9.45
1 1...........1 24.45
Χ′Υ = 2 8 5 .
50 110 400 21.15
725.82
Χ′Υ = 8008.37
274811.31
β̂ = (Χ′Χ)-1 Χ′Υ
βο 25 206 8294 -1
725.82
β1 = 206 2396 77177 8008.37
β2 8294 77177 3531848 274811.31
βο 2.26379143
β1 = 2.74426964
β2 0.01252781
a. ESPERANZA DE β̂
-1
β̂ =(Χ′Χ) ΧΥ
-1
β̂ =(Χ′Χ) Χ′(Χβ+ε)
-1 -1
β̂ =(Χ′Χ) (Χ′Χ)β+(Χ′Χ) Χ′ε
β̂ =β+(Χ′Χ)Χ′ε
Ε( β̂ )=β+(Χ′Χ) Χ′Ε(ε)=β Puesto que Ε(ε)=0
Ε( β̂ )=β
Concluimos que β̂ es un estimador insesgado
COV( β̂ )=Ε[(Χ′Χ)-1Χ′εε′Χ(Χ′Χ)-1]
COV( β̂ )=[(Χ′Χ)-1Χ′Ε(εε′)Χ(Χ′Χ)-1]
COV( β̂ )=[(Χ′Χ)-1Χ′σ2 ΙΧ(Χ′Χ)-1] = σ2[(Χ′Χ)-1(Χ′Χ)(Χ′Χ)-1]
COV( β̂ )=σ2 (Χ′Χ)-1
Llamaremos (Χ′Χ)−1= C
Donde C es simétrica
COV( β̂ )=σ2(Χ′Χ)-1=σ2C
ESTIMACION DE σ , LA VARIANZA DE ε
−0.1 10
β̂ = Χ′Υ=
0.7 37
Υ′Υ=[1 1 2 2 4 ] 1
1
2 = 26
2
4
10
β′Χ′Υ=[−0.1 0.7] = 24.9
37
SSE=Υ′Υ−β′Χ′Υ=26−24.9=1.1
SSE 1.1
S2 = = = 0.367 ; S = 0.367 = 0.605 ≈ 0.61
n− p 5−2
σ 2 β 1 = σ C11 = 0.367 * 0.1 = 0.0367;σ β 1 = 0.0367 = 0.19
σ 2 β 0 = σ C00 = 0.367 *1.1 = 0.04037;σ β 0 = 0.4037 = 0.6355
Ejemplo: para el problema del vendedor se tiene
25
Υ′Υ= ∑ yi 2 =27177.4510
i =1
725.8
β′Χ′Υ=[2.26379110 2.74426964 0.01252781] 8 008.37
274811.3
β′Χ′Υ=27062.7775
SSE=Υ′Υ−β′Χ′Υ
=27177.4510−27062.7775
=115.1735
SSE 115.1735 115.1735
σ 2= = =115.1735 = = 5.2352 115.1735
n− p 25 − 3 22
σ = σ 2 = 5.2352 = 2.28805
Ejercicio: hallar σ 2 β 0 ; σ 2 β1 ; σ 2 β 2 ; σ β 0 ; σ β1
Ho β1 = β2 = ....... = βp = 0
Ha βJ ≠ 0 almenos para una J
Donde:
⎛ __
⎞
2
(∑ y ) 2
∑ ∑
2
= ⎜ yi − y ⎟ = −
i
SS yy yi
⎝ ⎠ n
2
⎛ ⎞ ∧
SSE = ∑ ⎜ y i − yˆ i ⎟ = y ` y − β `x ` y =
⎝ ⎠
∑ y i2 − β `x ` y
⎛ __
⎞
2
(∑ y ) 2
SSR = ∑ ⎜ yˆ i − y ⎟ = β `x ` y −
i
⎝ ⎠ n
Demostración:
Sumando y restando
(∑ y ) i
2
se tiene
n
SSE = y`y -
(∑ y ) i
2
- [β`x`y -
(∑ y ) i
2
]
n n
SSE = SSyy –SSR despejando SSyy
Ho: βJ = 0 J = 1, 2, ...., p
Ha: βJ ≠ 0 para almenos un J
y`y = 271779510
(∑ y ) 2
=
(725.82)2
n 25
β`x`y = 27062.7775
SS yy = y`y −
(∑ y ) 2
= 27177.4510 −
(725.82)2 = 6105.9447
n 25
SSR = β `x`y −
(∑ y ) 2
= 27061.7775 −
(725.82 )
= 5990.7712
2
n 25
SSE = SS yy − SSR = 6105.944 − 5990.7712 = 115.1735
f0.05, 2, 22 = 3.44
Ho: β0 = β1 = 0
Ha: β0 ≠ 0 o β1 ≠ 0
Por otra parte, la adición de una variable sin importancia puede aumentar el
error cuadrático medio, esto disminuye la calidad del modelo debido a que
SSR
= P −1
CMR
el estadístico f disminuye f =
CME SSE
n−P
∧ ∧
β J − tα , n − P s 2C JJ ≤ β J ≤ β J + tα n − P s 2C JJ
2 2
S ∧ = s 2 C 11 = 0 . 367 * 0 . 1 = 0 . 192
β1
t α , n − P = t 0 .025 ,3 = 3 . 182
2
∧
0 . 7 − 3 . 182 * 0 . 192 ≤ β 1 ≤ 3 . 182 * 0 . 192 + 0 . 7
⎛ ∧
⎞
P ⎜ 0 . 09 ≤ β 1 ≤ 1 . 31 ⎟ = 0 . 95
⎝ ⎠
b) Pruebas de hipótesis
∧
β1 2.74427
t= = = 29.349
s 2C11 5.2352 * 0.001671
tα , n − P = t0.025 ,22 = 2.074
2
Taller: En el SPSS realizar los ejercicios desde la página 619 hasta la 625.
( ( )) ( ( ))
∧ ∧
yi − tα , n − P s2 1 + xi `(x`x) xi ≤ yi ≤ yi + tα , n − P s2 1 + x`ì (x`x) xi
−1 −1
2 2
⎡ 2 .26379 ⎤
∧ ∧
yi = X i `β = [1 8 275 ]⎢⎢ 2 .74427 ⎥⎥ = 27 .66 además
⎢⎣ 0 .01253 ⎥⎦
(
P 27.66 − 2.074 5.2352 * (1 + 0.0444 ) ≤ yi ≤ 27.66 + 2.074 5.2352 * (1 + 0.0444 ) = 0.95 )
P(22.81 ≤ yi ≤ 32.51) = 0.95
µy
La respuesta promedio en este punto es Ε⎛⎜ y x ⎞⎟ = = x`ì β la cual es
⎝ i ⎠ xi
∧
estimado por µy ∧
.
= x `ì β
xi
⎛ y⎞ µ
El estimador anterior es insesgado ya que Ε⎛⎜ x`ì β ⎞⎟ = x`ì β = Ε⎜⎜ ⎟⎟ = y la
∧
⎝ ⎠ ⎝ xi ⎠ xi
⎛ ∧ ⎞
⎜µ ⎟
varianza es: V ⎜ y ⎟ = σ 2 x`ì (x`x )−1 xi
⎜ xi ⎟
⎝ ⎠
Un intervalo de confianza del 100(1-α) para µ y xi puede construirse a
∧
µ y xo − µ y xo
partir del estadístico:
s 2 x`ì ( x`x ) xi
−1
⎡ 1 ⎤ ⎡ 2.26374⎤
xi = ⎢⎢ 8 ⎥⎥ µy xo = x`ì β = [1 8 275]⎢⎢2.74427 ⎥⎥ = 27.86
⎢⎣275⎥⎦ ⎢⎣ 0.01253⎥⎦
La varianza es:
⎡ 0.214653 − 0.007491 − 0.000540⎤ ⎡ 1 ⎤
⎛ ∧ ⎞ 2
V ⎜ µ y xi ⎟ = s x`ì ( x`x ) xi = 5.2352[1 8 275]⎢⎢− 0.007491 0.001671 − 0.000019⎥⎥ ⎢⎢ 8 ⎥⎥
−1
⎝ ⎠
⎢⎣ − 0.0034 − 0.000019 0.0000015⎥⎦ ⎢⎣275⎥⎦
⎛ ∧ ⎞
V ⎜ µ y xi ⎟ = 0.23266 por tanto, un intervalo de confianza del 95% para el
⎝ ⎠
suministro promedio es:
SSR 5990.7712
R2 = = = 0.981137
SS yy 6105.9447
3 2
⎛
n __
⎞ ⎛ __
⎞
∑ ⎜ xi − x⎟ ∑ ⎝ i x ⎟⎠
⎜ x −
Asimetría = as i =1 ⎝ 3 ⎠ donde s =
s n
Si as = 0; la distribución es simétrica
Si as > 0; asimétrica a la derecha
Si as < 0; asimétrica a la izquierda
4
⎛ __
⎞
∑ ⎜⎝ xi − x ⎟⎠
Curtosis k = −3
s4
PRUEBAS DE NORMALIDAD
Esta prueba es mucho más robusta que la prueba de chi cuadrado. Esta
prueba se basa en comparar la distribución acumulada de los datos con la
distribución acumulada de la distribución teórica.
2 2
1 ⎡ h ⎤ A2 ⎛ ⎞
w = 2 ⎢ ∑ a J , n ( X ( n − J +1 ) ) − X ( J ) ⎥
__
ns ⎣ J =1 ⎦ ns
2
donde ns2 = ∑ ⎝ i x ⎟⎠
⎜ x −
n n −1
h= si n es par o h = si n es impar
2 2
Autocorrelación
Una de las propiedades básicas del modelo OLS es que los errores no
guardan correlación. El error de predicción que se experimenta en un
momento temporal no tiene relación lineal con el error que se puede
experimentar en otro momento. En el caso ideal, si hubiera que representar
los errores a lo largo del tiempo en una gráfica, ésta se parecería a la de la
siguiente figura:
Figura 1.
No hay pauta detectable en los errores. Los términos de error parecen se
independientes y no dan ninguna indicación de que haya relación entre
ellos.
Figura 2.
Hay puta clara en los términos de error. Inician la pauta varios errores
sucesivos negativos seguidos de varios errores positivos tras los cuales
aparecen varios errores negativos más (no es de esperar que la pauta sea tan
evidente en la práctica).
Figura 3.
ε= ρet-1 + µt
Figura 4.
∑ (e − e )
2
d= t t −1
∑ (e )
2
t
Ejemplo:
( − )
d=∑ e e
2
t t −1
∑ (e )
2
t
59.40475
=
2912203
= 2.03
Estadístico de
Durban-Watson
La prueba no La prueba no
+AC es concluyente No AC es concluyente -AC
dL dU 2 4 – dU 4 –dl
0.95 1.54 2.46 3.05
d = 2(1 – r)
Hetorocedasticidad
Figura 5
Figura 6
Heterocedasticidad en SPSS
SSE /(n − k − 1)
R 2 = 1− [14.21]
SST /(n − 1)
Existencia de multicolinealidad
Problemas de la multicolinealidad
Y = 40 + 10X1 + 8X2
Detección de la multicolinealidad
H0: ρ12 = 0
H a : ρ12 ≠ 0
1 − 0.86982
Sr =
15 − 2
= 0.1367
0.8698
t=
01367
= 6.36
1
VIF =
1 − R 2i
1
VIF = = 4.1
1 − (0.8698) 2
Para X2 se hallaría el mismo VIF, puesto que sólo hay dos variables
independientes.
Si una variable independiente no tiene ninguna relación en absoluto con
otra variable independiente, su VIF es igual a 1. La varianza en b1 y b2 es
por consiguiente mayor que cuatro veces la que habría sin
multicolinealidad en el modelo. Pero, en general, la multicolinealidad no se
considera un problema significativo a menos que el VIF de una Xi valga 10
como mínimo, o que la suma de ellos VIF de todas la Xi sumen 10 como
mínimo.
Otras indicaciones de multicolinealidad pueden ser las variaciones grandes
de los coeficientes o de sus signos cuando hay un cambio pequeño del
número de observaciones. Además, si la relación F es significativa y los
valores de t no lo son, puede haber multicolinealidad. Si la inclusión o
supresión de una variable produce cambios grandes de los coeficientes o de
sus signos, puede haber multicolinealidad.
En resumen, si existe multicolinealidad encontraremos:
Tratamiento de la multicolinealidad
Si eliminar una variable se excluye por el sesgo que ello pueda producir, si
que podemos disminuir la multicolinealidad cambiando la forma de la
variable. Quizá fuera beneficioso dividir los valores originales de la
variable causante por la población para obtener una cifra por persona. Es lo
que sugería con el NI al comienzo de este capítulo. Además, dividir
determinadas medidas monetarias por un precio índice (como el índice de
precios al consumo) a fin de obtener una medida en términos “reales”,
puede ser otro método eficaz de eliminar la multicolinealidad. También
esto se podría aplicar al NI.
Otra medida posible es combinar dos o más variables. Es lo que podría
hacerse con el modelo de la demanda de los consumidores, que empleaba
X1= hombres, X2= mujeres y X3= población total. Las variables X1 y X2 se
podrían sumar para formar X3. El modelo constaría entonces de una sola
variable explicativa.
En cualquier caso, es preciso reconocer que en la mayoría de los modelos
de regresión que contienen dos o más variables independientes existe algún
grado de multicolinealidad. Cuanto mayor sea el número de variables
independientes mayor será también la probabilidad de multicolinealidad.
Pero ello no restará nada a la utilidad del modelo, porque el problema de la
multicolinealidad puede no ser grave. La multicolinealidad causará grandes
errores en coeficientes individuales, pero el efecto combinado de esos
coeficientes no se altera de manera drástica. De todos modos, un modelo
predictivo ideado para predecir el valor de Y a partir de toda las Xi
tomadas en combinación poseerá una exactitud considerable. Solamente los
modelos explicativos.
INTRODUCCION
Una de las mayores ventajas de los modelos de series de tiempo es que las
reglas básicas de la contabilidad también están orientadas a periodos
secuénciales de tiempo, lo que significa que en gran parte de las empresas
siempre existe disponibilidad de información que puede aplicarse en esos
modelos de predicción.
Sistema
Proceso Resultad
Captura de datos
generador
Existen tres razones por las que el modelo maneja los datos como una
como una caja negra: la primera es que puede no entenderse, y aunque lo
fuese, puede ser extremadamente difícil medir la relación que rige su
comportamiento. La segunda razón es que el objetivo principal de un
ejercicio de predicción es justamente hacer una predicción y no existe
razón especial para saber el porqué. La tercera razón es cuando lo único
que desea saberse es qué va a suceder, realmente es de poca la utilidad
saber el porque. El costo de saber el porqué puede ser muy alto.
VALORES DE PREDICCION
Valores observados X1 X2 X3 ... Xt-2 Xt-1 Xt Ft+1 Ft+2 Ft+3 … Ft+m
Periodo i 1 2 3 … t-2 t-1 t t+1 t+2 t+3 … t+m
Valores estimados X1 X2 X3 ... Xt-2 Xt-1 Xt Xt+1 Xt+2 Xt+3 … Xt+m
F1 F2 F3 … Ft-2 Ft-1 Ft
Valores de error e1 e2 e3 … et-2 et-1 et
Presente
et = Xt - Ft
Donde el subíndice t indica que en el periodo i hay un error que está
examinándose. Como se muestra en el cuadro 4.1, cada valor individual
tiene asociado un error e para el cual siempre existe un valor observado X y
un valor de predicción F.
e1 + e2 + e3 + …+ en = ∑e
t =1
t
Antes de avanzar más en este tópico es necesario explorar los tantas veces
mencionados patrones. En forma simple puede decirse que en cualquier
serie de datos hay cuatro patrones: cíclico, tendencia, estacionalidad y
aleatoriedad.
• Medición de la precisión
Sin importar cuál método se aplique para generar una proyección el mejor
indicador para medir una predicción es la exactitud (o precisión). Todos los
comparativos de desempeño, simplicidad, costo, etcétera., deben someterse
al hecho de que el mejor método es aquel que muestre la mayor precisión
en el pronostico. Una compañía puede evaluarse según sus utilidades, y los
analistas de métodos de predicción pueden medirse con base en su
exactitud.
1. Error promedio.
2. Error medio absoluto(MAD: Mean absolute deviation).
3. Promedio del error al cuadrado(MSD: Mean square deviation).
4. Error absoluto medio porcentual(MAPE: Mean absolute percent
error).
• Error promedio
Esta columna también indica cuántos valores son negativos y cuántos son
positivos; esto es, cuántos valores quedan por encima y cuántos por debajo
de los datos históricos. En la tabla se ve que dos están por encima y uno por
debajo, lo cual proporciona al analista confianza de que no hay sesgo en
los datos.
Este impacto puede verse en el cuadro 4.2, donde el promedio del error
absoluto es 4.7, en tanto el promedio MSD es 8.7. Debido a esta
característica se prefiere el MSD al MAD, ya que el MSD muestra mejor
las variaciones mayores(amplificándolas); sin embargo, en la practica
puede verse que la predicción con el MAD más pequeño también tiene el
menor MSD.
X t− Ft
PE t = 100 (4.1)
Xt
n
∑ PE t
MAPE = t =1
(4.2)
n
• Nivel de precisión
Una vez que se han analizado las medidas de exactitud para un modelo de
serie de tiempo, es necesario preguntarse ”¿Cuál es el nivel de exactitud
que debe perseguirse al procesar un modelo de predicción?”.
Ft +1 = X t (4.3)
donde
Ft +1 = Periodo a predecir para t+i
t= Periodo actual
i = Numero de periodos futuros a predecir
X t = Ultimo valor real(para el periodo t)
1 20 _ _
2 60 _ _
3 40 40 _
4 50 50 40
5 _ _ 50
En este caso, la formula general para los promedios movibles simples es:
X t −1 + X t − 2 + K + X t − n 1 n
Ft = = ∑ X t (2.4)
n n t =1
n +1
1
Ft + 1 =
n
∑
t+2
X t (2.5)
Como ultimo punto de este capitulo cabe hacer notar que existe una gran
variedad de combinaciones de promedios movibles dobles hasta los
promedios lineales de orden más alto. Por ejemplo, este método lineal
utiliza promedios simples y dobles para resolver tendencias no
estacionarias. En suma, puede decirse(Makridakis y Wheelwrigth) que
cualquier tipo de promedio movible implica una ponderación de los datos
históricos más útiles suavizando y atenuando (más que pronosticando)
series de datos, ya que a su vez se muestra mejor como predictor (Método
de promedios movibles) para datos que son más homogéneos hacia la
media (tendencia central, datos estacionarios).
INTRODUCCION
X t −1 + X t − 2 + K + X t − N
Ft = (5.1)
N
Xt X
Ft +1 = − t − N + Ft (5.2)
N N
X t Ft
Ft +1 = − + Ft (5.3)
N N
1 ⎛ 1 ⎞
Ft + 1 = X t + ⎜ 1 − ⎟ Ft (5.4)
N ⎝ N⎠
Ft +1 = α X t + (1 − α )[α X t −1 + (1 − α ) Ft −1 ]
(5.6)
Ft +1 = α X t + α (1 − α ) X t −1 + α (1 − α ) Ft −1
2
Sin embargo,
Ft +1 = α X t − 2 + (1 − α ) Ft − 2 (5.7)
Ft +1 = α X t + α (1 − α ) X t −1 + α (1 − α ) 2 X t − 2 + (1 − α ) Ft − 2 (5.8)
y así sucesivamente.
Sin importar el valor que se elija para la constante , la suma de los pesos
alcanzará finalmente el valor de 1. el valor escogido de la constante hace
que la suma de los pesos converja rápidamente o lentamente.
Total 1
Si se escoge =0.9, la suma de los pesos converge mucho mas rápido que
con =0.1, como se muestra en el cuadro5.2.
Cuadro 5.2 Peso decreciente para los valores más antiguos
= 0.9
Tiempo Cálculo Peso
t 0.9
t-1 0.1 x 0.9 0.09
t-2 0.1 x 0.1 x 0.9 0.009
t-3 0.1 x 0.1 x 0.1 x 0.9 0.0009
Total 1
Para efectos del proceso pueden utilizarse las siguientes ecuaciones alternas
a la ecuación 5.5:
Varios aspectos de este modelo se ilustran con el ejercicio 5.3 del capitulo
anterior. En el cuadro 5.3 (ejercicio5.1) se muestran los valores
pronosticados utilizando la ecuación (5.5) o la ecuación (5.9). El único
punto importante a recordar es que para el primer periodo no existe
pronostico disponible(este hecho se enfrentará recurrentemente para cada
modelo de series de tiempo). En este caso, el valor de la primera
observación(la demanda de enero) puede utilizarse también para el primer
pronostico. Así, F2= X1=2000. A continuación, tomamos este valor de
2000(el pronostico previo) y le sumamos el resultado de 0.1(1350-2000)
para obtener 1935, que puede utilizarse como predicción para el periodo
número 3.
En la grafica puede observarse que el valor 0.1 de muestra una línea que
casi no fluctúa. Al calcular el error MSD se observa que =0.1 genera un
error menor que aquellos errores MSD correspondientes a valores mayores
de . Como en el capitulo anterior ya se calcularon los errores de dos bases
de promedios movibles (3 y 5), entonces es posible evaluar la exactitud de
ambos métodos.
3500
3000
2500
Demanda
Demanda observada
2000 ?=0,1
?=0,5
1500 ?=0,9
1000
500
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Periodo de tiempo
Ft +1 = αX t + (1 − α )( Ft + Tt ) (5.10)
H t + m = Ft +1 + mTt +1 (5.12)
donde:
Ft +1 = valor atenuado para el periodo t + 1
α = constante de atenuación
X t = valor de los datos reales
Ft = predicción para el periodo t (valor atenuado t − 1 )
Tt +1 = factor de tendencia
β =constante de atenuación de la tendencia
m = periodos futuros a predecir
H t + m = predicción de Holt para el periodo t + m
Este método aplica con bastante exactitud el ajuste necesario para predecir
un factor de tendencia. El cuadro5.4 (ejercicio 5.2) ilustra la aplicación del
modelo Holt a una serie de datos de demanda de inventarios. Los cálculos
ejecutados pueden verse para el periodo 8, utilizando α = 0.2,
β =0.3 y m =1, así,
así:
H 8 = 168 .8 + 3.37 (1) = 172.25
α2 Este método
ct = ( St' − 2St'' + St''' )
(1 − α ) 2
de predicción
se utiliza
cuando Los Sistema de monitoreo Trigg
datos
muestran una
Ft + m
1
= at + btm + ct m 2
tendencia no
2 lineal
(cuadrática,
cúbica o de
orden mayor)
Figura 5.3 Otros métodos de atenuación exponencial
EJERCICIOS
• Atenuación exponencial simple:
Con las ventas de detalle de farmacias a partir de enero de 1980 realice
la atenuación exponencial simple. Se escogió arbitrariamente un valor de
=0.168
Una técnica que se usa con frecuencia para manejar una tendencia lineal se
denomina Método de dos parámetros de Holt. La Técnica de Holt atenúa
en forma directa la tendencia y la pendiente empleando diferentes
constantes de atenuación para cada una de ellas.
La estimación de la tendencia
Tt = β ( At − At −1 ) + (1 − β )Tt −1
∧
Y t + p = ( A t + pT t )S t − L + p
El pronóstico de “p” periodos en el futuro
Donde :
At = Nuevo valor atenuado
α = Constante de atenuación de los datos (0< α<1)
Yt = Nueva observación o valor real de la serie en el periodo t
ß = Constante de atenuación de la estimación de la tendencia (0< ß<1)
Tt = Estimación de la tendencia
p = Número de periodos a estimar
Yt+p = Pronóstico de p periodos a futuro
Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales
en el período 1988-93. Pronosticar las ventas de 1994, usando la técnica de
Holt con
α = 0.3 y ß = 0.2. Considerar además como valor inicial atenuado 500 y el
valor de 0 como estimación inicial de la tendencia.
At Tt
Año Trim. Yt+
Yt valor estimac. et
T p
atenuado Tendencia
88 1 500 500.0 0 500.0 0
1 350 455.0 -4.5 500.0 -150
2 250 390.4 -10.5 450.5 -200.5
2 400 385.9 -9.9 379.8 20.2
3 450 398.2 -7.7 376.0 74.0
3 350 378.3 -8.9 390.5 -40.5
4 200 311.9 -14.2 338.8 -169.4
4 300 295.6 -14.4 305.5 -5.5
89 1 350 303.0 -12.2 293.2 56.8
5 200 260.3 -15.3 271.2 -71.2
2 150 219.5 -17.8 202.9 -52.9
6 400 277.5 -10.2 206.2 194
3 550 364.7 -0.5 287.6 262
7 350 377.0 0.8 321.7 28.3
4 250 354.1 -1.6 296.5 -46.5
8 550 403.1 3.5 404.9 145
90 1 550 426.4 5.5 490.3 59.7
9 400 437.5 6 387.3 12.7
2 350 450.1 6.7 337.6 12.4
10 600 471.9 8.2 554.1 45.9
3 750 531.8 13.4 591.0 159
11 500 548.8 13.7 491.7 8.3
4 400 546.4 12.1 430.9 -30.9
12 650 546.4 10.9 687.3 -37.3
91 1 751.9
13
2
14
3
15
4
16
92 1
17
2
18
3
19
4
20
93 1
21
2
22
3
23
4
24
94 1
25
EMC = 21 488.5
ATENUACIÓN EXPONENCIAL AJUSTADA A LA TENDENCIA Y
A LA VARIACIÓN ESTACIONAL: MODELO DE WINTER
Estimación de la Tendencia :
Tt = β ( At − At −1 ) + (1− β )Tt −1
Estimación de la Estacionalidad :
Yt
S∧ t = γ + (1 − γ )S t − L
Y t+ p = ( tA + pT )S
A
t t t− L+ p
El pronóstico de “p” períodos en el futuro :
Este índice ajusta el pronóstico a la estacionalidad.
Donde :
At = Valor atenuado
α = Constante de atenuación (0< α<1)
Yt = Nueva observación o valor real de la serie en el periodo t
ß = Constante de atenuación de la estimación de la tendencia (0< ß<1)
Tt = Estimación de la tendencia
γ = Constante de atenuación de la estimación de la estacionalidad (0<
γ<1)
St = Estimación de la estacionalidad
p = Número de periodos a estimar
L = Longitud de la estacionalidad
Yt+p = Pronóstico de p periodos a futuro
Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales
en el período 1988-93. Pronosticar las ventas de 1994, usando la técnica de
Winter con
α = 0.4, ß = 0.1, y γ = 0.3. Considerar además como valor inicial
atenuado 500, el valor de 0 como estimación inicial de la tendencia y el
valor de 1 como la estimación inicial de estacionalidad.
At Tt St
Año Trim. Yt+
Yt valor estimac. estimac. et
T p
atenuado Tendencia estacional.
88 1 500 500 0 1.00 500.0 0
1 350 440 -6 0.94 500.0 -150
2 250 360.4 -13.4 0.91 500.0 -250
2 400 368.2 -11.2 1.03 500.0 -100
3 450 394.2 -7.5 1.04 357.0 93
3 350 381.2 -8.1 0.93 362.9 -12.9
4 200 311.9 -14.2 0.83 338.8 -139
4 300 295.6 -14.4 1.02 305.5 -5.5
89 1 350 303.0 -12.2 1.08 293.2 56.8
5 200 260.3 -15.3 0.88 271.2 -71.2
2 150 219.5 -17.8 0.78 202.9 -52.9
6 400 277.5 -10.2 1.15 206.2 194
3 550 364.7 -0.5 1.21 287.6 262
7 350 377.0 0.8 0.90 321.7 28.3
4 250 354.1 -1.6 0.76 296.5 -46.5
8 550 403.1 3.5 1.21 404.9 145
90 1 550 426.4 5.5 1.23 490.3 59.7
9 400 437.5 6 0.90 387.3 12.7
2 350 450.1 6.7 0.77 337.6 12.4
10 600 471.9 8.2 1.23 554.1 45.9
3 750 531.8 13.4 1.28 591.0 159
11 500 548.8 13.7 0.90 491.7 8.3
4 400 546.4 12.1 0.76 430.9 -30.9
12 650 546.4 10.9 1.22 687.3 -37.3
91 1 751.9
13 546.2
2 449.6
14 718.8
3
15
4
16
92 1
17
2
18
3
19
4
20
93 1
21
2
22
3
23
4
24
94 1
25
2
26
3
27
4
28
ECM = 12431.5
Una técnica que se usa con frecuencia para manejar una tendencia lineal se
denomina Método de dos parámetros de Holt. La Técnica de Holt atenúa
en forma directa la tendencia y la pendiente empleando diferentes
constantes de atenuación para cada una de ellas.
La estimación de la tendencia
Tt = β ( At − At −1 ) + (1 − β )Tt −1
∧
Y t + p = ( A t + pT t )S t − L + p
El pronóstico de “p” periodos en el futuro
Donde :
At = Nuevo valor atenuado
α = Constante de atenuación de los datos (0< α<1)
Yt = Nueva observación o valor real de la serie en el periodo t
ß = Constante de atenuación de la estimación de la tendencia (0< ß<1)
Tt = Estimación de la tendencia
p = Número de periodos a estimar
Yt+p = Pronóstico de p periodos a futuro
Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales
en el período 1988-93. Pronosticar las ventas de 1994, usando la técnica de
Holt con
α = 0.3 y ß = 0.2. Considerar además como valor inicial atenuado 500 y el
valor de 0 como estimación inicial de la tendencia.
At Tt
Año Trim. Yt+
Yt valor estimac. et
T p
atenuado Tendencia
88 1 500 500.0 0 500.0 0
1 350 455.0 -4.5 500.0 -150
2 250 390.4 -10.5 450.5 -200.5
2 400 385.9 -9.9 379.8 20.2
3 450 398.2 -7.7 376.0 74.0
3 350 378.3 -8.9 390.5 -40.5
4 200 311.9 -14.2 338.8 -169.4
4 300 295.6 -14.4 305.5 -5.5
89 1 350 303.0 -12.2 293.2 56.8
5 200 260.3 -15.3 271.2 -71.2
2 150 219.5 -17.8 202.9 -52.9
6 400 277.5 -10.2 206.2 194
3 550 364.7 -0.5 287.6 262
7 350 377.0 0.8 321.7 28.3
4 250 354.1 -1.6 296.5 -46.5
8 550 403.1 3.5 404.9 145
90 1 550 426.4 5.5 490.3 59.7
9 400 437.5 6 387.3 12.7
2 350 450.1 6.7 337.6 12.4
10 600 471.9 8.2 554.1 45.9
3 750 531.8 13.4 591.0 159
11 500 548.8 13.7 491.7 8.3
4 400 546.4 12.1 430.9 -30.9
12 650 546.4 10.9 687.3 -37.3
91 1 751.9
13
2
14
3
15
4
16
92 1
17
2
18
3
19
4
20
93 1
21
2
22
3
23
4
24
94 1
25
EMC = 21 488.5
CAPITULO 6
METODOS DE DESCOMPOSICIÓN
Introducción
Métodos de descomposición
Donde:
Método clásico de
St = Componente estacional de la
descomposición variable Xt.
Tt = Componente de la tendencia.
El método de descomposición supone Ct = Componente cíclico.
que los datos están constituidos de la Et = Componente aleatorio ( error
siguiente manera: ).
DATOS = patrón + error
El modelo puede ser aditivo, pero
Es decir, se ha impuesto el multiplicativo
basado en promedios movibles:
DATOS = f ( tendencia-ciclo,
estacionalidad, error ) Xt = St x Tt x Ct x Et
En otras palabras, agregado al patrón
existe un elemento de aleatoriedad que, asimismo, está presente en
cualquier dato de serie de tiempo.
Este componente aleatorio también se denomina error o residuo. Resulta
evidente que no es posible predecir la aleatoriedad, pero al menos sí puede
identificarse y cuantificarse para determinar la confiabilidad o margen de
error de la predicción generada por los datos ( véase cuadro 6.1 ).
Donde
Xt = Valores de la serie de tiempo (datos originales) en el período t.
St = Componentes estacionales (o índices) en el período t.
Tt = Componente de la tendencia en el período t.
Ct = Componente cíclico en el período t.
Rt = Componente aleatorio (random) o error en el período t.
Xt = ( St x Tt x Ct x Rt ) (6.2)
2. Dividir los datos reales entre el valor promedio y multiplicar por 100,
con lo que se obtienen las variaciones porcentuales por cada estación
contra el promedio.
X / MA = ( S x T x C x R ) / (T x C) = S x R
(6.5)
En forma práctica pueden agregarse dos pasos: uno que permita mejorar
el proceso de atenuación para eliminar la estacionalidad y otro que
permita “ajustar” los índices estacionales.
5000
4000
3000
Serie1
2000
1000
0
11
13
15
17
19
1
3
5
7
9
Donde:
MA = T x C, ya que
Los dos últimos pasos son: el cuarto para aislar y calcular la tendencia, y
el quinto para aislar y calcular el ciclo.
PNB
0 1 6 12 x
Años
$
0 1968 1980 x
EJERCICIO 6.1
Al considerar los datos del cuadro 6.3 y de la figura 6.1b sobre la venta
de papel periódico en Francia de 1968 a 1980, puede verse que aunque
hay tres recesiones, una leve en 1969, una serie en 1974 - 1975 y una
que comenzó en 1980, la tendencia en general muestra una pendiente
lineal de crecimiento sostenido. Si se hicieran estudios parciales con
intervalos cortos de tiempo, podría caerse en la parte ascendente de cada
ciclo, donde el crecimiento precedente a una depresión es rápido
(exponencial) tanto para los años previos a 1974 como para los
anteriores a 1980. Resulta evidente que para cubrir el ciclo y la
tendencia se requiere un número considerable de años que muestren el
esquema general en toda su amplitud, ya que de otra manera los
resultados de tendencia y ciclo podrían ser engañosos.
Métodos de descomposición
(Cálculo de Tendencia)
Se utiliza el método de regresión lineal, tomando como la variable
Independiente el periodo (trimestre) y como variable
Dependiente las ventas (observaciones)
Donde
Tt = Valor de la tendencia a predecir en el período t.
xt = Dato observado (real) del período t a predecir.
b = Coeficiente de regresión de la pendiente de la tendencia.
a = Constante de intersección de la pendiente con el eje de las
ordenadas.
Métodos de descomposición
(Cálculo de tendencia)
Resultado Regresión
Constante 2498.9 Coeficiente a
Coeficiente b
Error de estim. Y 534.6414 donde
Coef. determinac. (r2) 0.171589
Tamaño de la muestra 14 Y = a + bt
Grados de libertad 12
y
4000
3000
2000 Serie2
1000
0
11
13
15
17
19
1
3
5
Y = a + Xb
T = a + Periodo * b
Donde:
T = Tendencia
a = Constante
b = Coeficiente de regresión
Los factores cíclicos han recibido bastante atención desde los primeros
estudios de los trabajos econométricos en el mundo occidental. Este
fenómeno siempre ha sido de gran interés debido a las razones de
extrema miseria y sufrimiento que causan dichas variaciones cuando
alcanzan niveles extremos.
Este método fue desarrollado en 1955 por la Oficina del Censo del
Departamento de Comercio estadounidense. Como es de suponer, el
censo no requiere la estacionalidad y el personal de la oficina del censo
descubrió la forma de separar los cuatro componentes de las series de
tiempo, uno por uno.
Otra mejora aportada por la oficina del censo fue ajustar la
estacionalidad, ya que las variaciones en el tamaño de los meses hacen
que algunos sean de cuatro semanas y otros de cinco, de modo que sólo
por este hecho se genera hasta 10% de error adicional. Ajustar los
coeficientes según la duración del mes ha permitido mejorar la
predicción.
1. Prueba del mes adyacente: Prueba la razón entre los valores ya sin
estacionalidad y el promedio del mes adyacente. Esta razón nunca
debe exceder de 95 a 105% para que el proceso de eliminación de la
estacionalidad sea adecuado.
2. Prueba del mes de enero: Trata de evitar cambios importantes al
pasar de un año al siguiente y consiste en comparar los resultados de
enero con los de los demás meses. Esta prueba fue capaz de detectar
los cambios en la estacionalidad causados por el embargo
estadounidense en Medio Oriente, que provocaron aumentos de
precio, lo cual llevó a la crisis del petróleo.
3. Prueba de la igualdad: Algunas veces se hacen ajustes exagerados a
los datos ya sin estacionalidad, por lo que esta prueba es de gran
valor para detectar estos tipos de ajuste, que no deben exceder de 90
a 110% de los valores regulares en el resto de los datos del año.
Pronósticos comerciales
Pronósticos de presupuestos
Aunque todo mundo sabe que los presupuestos se generan con base en
pronósticos, curiosamente en el área financiera el presupuesto no tiende a
ser de lo más exacto ni homogéneo, sino a expresar las aspiraciones, el
optimismo y/o las necesidades políticas a resolver. El analista estadístico
pocas veces puede aportar nada mejor que la precisión matemática, los
márgenes de error y el procesamiento rápido y oportuno.
• La economía nacional.
• El ámbito internacional, especialmente en las compañías
multinacionales.
• La demanda de los productos de la compañía.
• El volumen de ventas.
• La participación en el mercado.
• El precio de los productos de la empresa.
Tendencia de la serie
800
600
Serie2
400
Serie3
200
0
1 2 3 4 5 6 7 8 9 10 11 12
Ajuste del Modelo
600
500
400
Serie2
300
Serie3
200
100
0
1 2 3 4 5 6 7 8
97.
7 101.2 114.5 86,6 400
Resumen matemático
MA = ( X1 + X2 + X3 + X4 ) / 4 = T x C ; (6.9)
X / MA = ( S x T x C x R ) / (T x C) = S ;
(6.10)
( S x T x C x R ) / S = X / S = T x C x R, de donde
( T x C x R ) / MA = ( T x C x R ) / ( T x C ) = R ; (6.13)
CAPITULO 7
AUTOCORRELACION
INDEPENDENCIA DE VARIABLES ALEATORIAS
Por tanto, cualquier predicción es una función de los datos mismos, según el
modelo que mejor se ajuste a ellos. En principio, existirían tantos modelos
como series de datos individuales (una infinidad); sin embargo, hay por lo
menos dos restricciones importantes que limitan en forma considerable esta
cantidad:
∑ (Y t − Y )(Yt − k − Y )
rk = t = k +1
n
(1)
∑ (Y
t =1
t −Y) 2
Producto
Cuadrados diferencia
diferencial s
Observacion es vs. 1er 2do.
es media desplaz. Desplaz. 3ro 4to 5to
13 9 -6 15 -18 -18 6
8 4 -10 12 12 -4 -2
15 25 -30 -30 10 5 -15
4 36 36 -12 -6 18 -24
4 36 -12 -6 18 -24 -12
12 4 2 -6 8 8 4
11 1 -3 4 2
7 9 -12 -6
14 16 8
12 4
100 144 -27 -29 26 -19 -47
10 14.4 -3 -3.625 3.7142857 -- -9.4
- - -
Coeficiente de 0.2013888 0.1319444 0.3263888
Autocorrelación -0.1875 9 0.1805555 4 9
(13 − 10)(8 − 10) + (8 − 10)(15 − 10) + (15 − 10)(4 − 10) + .... + (14 − 10)(12 − 10)
rk =
(13 − 10) 2 + (8 − 10) 2 + (15 − 10) 2 + ..... + (12 − 10)
3(−2) + (−2)(5) + 5(−6) + (−6)2 + .... + (4)(2)
= = −0.188
3 2 + (−2) 2 + 5 2 + .... + 4 2 + 2 2
1
serk = 1.96 A 95% de probabilidad (2)
n
Lo que se interpreta teóricamente como sigue: los coeficientes de auto-
correlación para una serie de tiempo generada por números aleatorios deben
tener un valor próximo a cero. Si se toma una infinidad de muestras de
números aleatorios, de la misma forma y en promedio los coeficientes de
autocorrelación tendrían un valor cercano a cero. Si para denotar la
Autocorrelación de toda la población se utiliza la p k , entonces los valores
de r debe formar una distribución probabilística alrededor de p k
FIGURA 2. Utilización del error estándar de la distribución de
autocorrelación
para validar los coeficientes de autocorrelación.
− 1.96(0.3162) ≤ rk ≤ +1.96(0.3162),
− 0.62 ≤ rk ≤ +0.62
En las figuras 8.2 y 8.3 puede verse que ninguno de los cinco valores rk
excede los límites establecidos por el error estándar, lo cual confirma lo que
ya se sabía: que la serie de datos estudiada está compuesta por números
aleatorios. Esto se conoce como ruido blanco y se verá en mayor detalle en
el capítulo siguiente.
Ahora bien, puede observarse que r5 = 0.33, y aunque con una muestra de
sólo 10 observaciones este valor de r es estadísticamente igual a cero, si tal
valor de r se hubiese obtenido con una muestra de 360 observaciones en
lugar de 10, donde los límites de confianza hubieran sido ±0.105 en lugar
de ±0.3162, estaría hablándose de la presencia de algún tipo de patrón (no
aleatorio), ya que el valor de r habría excedido ampliamente el límite
establecido por el error estándar. Es claro que con un número tan elevado de
observaciones sería bastante difícil que un coeficiente de autocorrelación
llegara a alcanzar el valor de 0.33, aunque en casos como el que se ha
descrito es importante utilizar en forma teórica algún otro modo de asegurar
la significancia de los valores rk.
[ ]
= 10 (−0.19) 2 + (−0.20) 2 + (0.18) 2 + (−0.13) 2 + (−0.33) 2 = 2.343
tiene una distribución más cercana a la de x2• Para los efectos prácticos del
curso Pronósticos para la toma de decisiones para el que está destinado este
texto, la prueba Q debe ser suficiente para validar modelos que no requieren
un grado tan alto de precisión, sea en los campos técnico o científico.
Cabe hacer notar que estas pruebas normalmente aceptan las series de datos
como significativamente autocorrelacionados si el valor de Q cae en el
extremo 5% de la cola del lado derecho de la distribución de x2• Es decir
que el valor de Q es mayor que el valor crítico de tablas a 95% (0.05) de
probabilidad. Desafortunadamente, a menudo estas pruebas fallan al no
rechazar modelos que no dan un buen ajuste, por lo que es conveniente
advertir que un modelo no debe aceptarse únicamente con base en la prueba
estadística Box-Pierce o en la de Ljung-Box.
y t = b0 + b1 y t −1 + b2 y t − 2 + .... + bk y t − k (5)
Debe advertirse que esta técnica no es central para los modelos ARIMA,
aunque es de alguna utilidad en la siempre difícil tarea de identificar el
modelo apropiado para una sede de tiempo.
IDENTIFICACIÓN DE LA ESTACIONALIDAD
EJERCICIO 2
Considere los datos del siguiente cuadro, donde por medio de los índices de
estacionalidad del método de descomposición se identificó un patrón
estacional. En este ejercicio no sólo se establece que los datos no son
estacionarios, sino que también se identifica claramente el patrón de
estacionalidad.
Ejercicio 2. Desplazamientos, ACF, PACK, periodograma y
gráfica de los datos originales
Fourier componentes del archivo Papel
Y t'= Yt − Yt −1
En las tres series de tiempo puede observarse que el primer valor de Q está
bastante próximo al valor de tablas (11.79 > 11.07 a 95% de probabilidad)
aunque es significativo; el segundo valor, también próximo al valor de
tablas (11.02 < 11.07), ya no es significativo y el tercero, después de
diferenciar por segunda vez, ha perdido toda significancia.
Puede notarse que el quinto desplazamiento tiene un valor alto (-0.32), pero
es necesario recordar que pueden aceptarse hasta 5% de valores cuyos picos
excedan el margen de error.
Primeras diferencias
1 2,86 -5,29 28,02 23,73 17,17 12,99 3,94 -4,27 -9,3
2 3,67 -4,48 20,1 14,54 11 3,33 -3,62 -7,87 -7,56
3 4,91 -3,24 10,52 7,96 2,41 -2,62 -5,7 -5,47 -11,37
4 5,7 -2,45 6,02 1,82 -1,98 -4,31 -4,14 -8,6 210,1
5 7,41 -0,74 0,55 -0,6 -1,31 -1,25 -2,61 -3,06 -3,23
6 8,96 0,81 0,65 1,42 1,36 2,83 3,32 3,5
7 9,91 1,76 3,08 2,96 6,16 7,23 7,63
8 9,84 1,69 2,84 5,91 6,94 7,33
9 11,66 3,51 12,29 14,43 15,24
10 12,27 4,12 16,94 17,89
11 12,5 4,35 18,89
MODELO NAIVE
YT = YT −1 + et
CAPITULO 8
Método Box-Jenkins (ARIMA)
Objetivos
• 8.1 Introducción
• 8.2 Modelo autorregresivo de orden 1 (cuando p = 1)
• 8.3 Modelo de promedios movibles de primer orden Ma (1)
• 8.4 Modelos autorregresívos de alto orden ARIMA (2,0,0) o ARIMÁ
(p, o, o)
• 8.5 Modelos de promedios movibles (MA) de alto orden...
8.1 Introducción
Antes se discutieron los modelos de regresión simple y múltiple cuya forma
general es
La primera pregunta que se plantea es: ¿cuál es la razón para tratar en forma
diferente la auto regresión de la regresión? La respuesta es doble:
Otro concepto interesante es que así como se auto correlacionan los valores
pasados de las observaciones de las series de tiempo, también es posible
utilizar los errores (residuos) como variables explicatorias:
Yt = c + et (8.4)
Yt =Yt-1 + et (8.5)
Los modelos de auto regresión (AR) pueden acoplarse con los de promedios
movibles (MA) para generar modelos muy útiles de series de tiempo
llamados (ARMA) autoregressive/moving averages.
Métodos AR y MA. Comparación con la regresión:
Fórmulas:
Por ejemplo, un modelo AR (2) quiere decir que dos de los coeficientes r de
auto correlación quedan fuera de los limites de confianza al 95% de
probabilidad. La flotación es que ahora en lugar del coeficiente b tenemos
un coeficiente rp, denotado ahora con la letra griega ∅p
Yt = µ + et
Ecuación (11)
Donde la observación Yt está formada de dos partes. Una media general µ,
y un componente de error aleatorio et, el cual es independiente de periodo a
periodo.
ARIMA (0,0,0
(a) ARIMA (0,0,0)
• No tiene aspecto AR
• No hay diferenciación
• No tiene aspecto MA
(b)ARIMA(0,l,0)
• Tiene aspecto AR
• Necesita cálculo de primeras diferencias para remover lo no estacionario
de la media
• No tiene aspecto MA
La grafica (d) muestra una serie de tiempo ARIMA (1,0,0) para un modelo
donde et, es un error distribuido normalmente e independiente.
donde
AR: p = orden del proceso de auto regresión
I: d = grado de diferenciación involucrado
MA: q = orden del proceso de promedios movibles
La ecuación
Yt = c + Ø1Yt-1 + et (8.6)
Normalmente, dado que Ø1= r1 , los modelos AR (1) oscilan entre estos dos
extremos, en cuyo caso la serie de tiempo sólo tiene un coeficiente de auto
correlación de un desplazamiento significativo (el primero, ver auto
correlación parcial, donde los coeficientes restantes disminuyen
exponencialmente ). En el ejercicio 8.1 se estudia un caso AR (1)
-
Ejercicio 8.1
Serie de tiempo AR (1).
Yt = µ` + Ø1Yt-1 + et
La ecuación
Yt = c+ et - Ø1et-1 (8.8)
donde c = constante
Øj = parámetro autorregresivo j (avo)
et = el error del miembro t de la ecuación
Existen restricciones aplicables a los valores de los parámetros auto
regresivos. Para p = 1, -1 < Ø1< 1. Para p = 2 se aplican las siguientes
restricciones:
Para p = 3 las restricciones son aún más complicadas; sin embargo, como
ya se mencionó, aunque teóricamente existe una gran variedad de
combinaciones de alto orden, puede observarse que en el ACF difícilmente
se encuentran más de dos coeficientes de auto correlación que sean
significativos, por lo que en la práctica es bastante excepcional utilizar un
modelo con p > 2.
En el ejercicio 8.2 de la página siguiente se han utilizado los datos no
estacionarios con pendiente ascendente del ejercicio 7.3. De inmediato
puede apreciarse que el MSD = 148 disminuye en AR (1) a 39.7 con AR
(2). Es claro que el coeficiente de auto correlación del desplazamiento 1 es
significativo y que el correspondiente al desplazamiento 2 se encuentra en
el límite (ver la gráfica del ejercicio 8.2), ya que al parecer la tendencia no
es lineal y presenta concavidad izquierda (signo positivo del coeficiente de
autocorrelaçión Ø2). Sin embargo, en este ejercicio es posible observar
cómo puede generarse un mejor resultado simplemente explorando
empíricamente el mejor ajuste (de manera muy similar a como se trabaja
con el método Stepwise para el análisis de regresión múltiple). En este caso
particular se exploró la combinación ARIMA (1,0,1) [también denominada
ARMA (1,1)] y en forma sorprendente se obtuvo un ajuste casi perfecto,
con un valor virtualmente igual a cero.
Ejercicio 8.2
Auto correlación de una serie de tiempo no estacionaria con tendencia
ascendente.
8.5 Modelos de promedios movibles (MA) de alto orden
ARIMA (0,0,2) o ARIMA (0,0,q)
donde c = constante
Øj = parámetro de promedios movibles j (avo)
e1 = el error del miembro t de la ecuación
Yt = C + Ø1Yt-1 + et - Ø1et-1(8.11)
Igual que para los modelos ARMA y ARIMA, también debe mencionarse la
complejidad añadida al utilizar dichos modelos para predecir esta-
cionalidad. Exactamente de la misma manera en que puntos consecutivos de
una serie de tiempo exhiben una auto correlación AR, MA, y/o mezclas
ARMA o ARIMA, los datos separados por una estación completa
(normalmente un año) pueden exhibir las mismas propiedades.
El álgebra es simple pero puede ser laboriosa y por tanto rebasa los
alcances de este libro. Igual que para el manejo empírico de todos los
modelos de ARIMA, basta con examinar como funciona cualquier paquete
estadístico que contenga estos modelos.