Вы находитесь на странице: 1из 187

CAPITULO 1

CORRELACIÓN

Antes de plantear cualquier modelo de regresión, pronosticar o predecir el


valor de y conociendo los valores de la variable X1, X2, ..., Xn, se debe
realizar un análisis de la relación existente entre la variable dependiente y y
las variables independientes Xi.

COVARIANZA

Se define la covarianza, entre dos variables X, Y como la asociación que


existe entre las variables.

Sea (X1, Y1); (X2, Y2); .....; (Xn, Yn) una muestra aleatoria de tamaño n a la
cual se le mide las características X, Y. La covarianza de dicha muestra se
calcula de la siguiente manera:

⎛ __
⎞⎛ __

∑ ⎝ 1 ⎠⎝ 1 ⎟⎠
⎜ X − X ⎟⎜ Y − Y
∑X Y __
∑X __
∑Y n __ __
COV ( X , Y ) = = −Y −X +
i i i i
XY
n n n n n

COV ( X , Y ) =
∑ X i Yi __ __ __ __
−Y X− X Y+ X Y =
__ __
∑ X i Yi __ __
−Y X
n n

También se interpreta la covarianza como un estadístico que resume la


variabilidad simultanea de las variables, un estimador insesgado de la
covarianza poblacional es la covarianza muestral.

1 ⎛ __
⎞⎛ __

COV ( X , Y ) = ∑
n −1 ⎝
⎜ X i − X ⎟⎜ Y i − Y ⎟
⎠⎝ ⎠

Algunos textos de estadística aplicada a los ingenieros como Sheldon, M.


Ross, Douglas C. Mongomomery y George, Paul Newbol (Estadística
aplicada a los negocios), definen la expresión:

⎛ __
⎞⎛ __

S XY = ∑ ⎜ X i − X ⎟⎜ Yi − Y ⎟ = ∑ X i Yi −
∑ X ∑Y i i

⎝ ⎠⎝ ⎠ n
INTERPRETACIÓN GRÁFICA DEL PLANO CARTESIANO

⎛ __
⎞⎛ __

X 〉 X
__
∑ ⎜⎝ X i m X ⎟⎜ Y i m Y ⎟
⎠⎝ ⎠
__
n
Y 〉 Y
__
Y Relación positiva
__
X 〈 X
__
Y 〈Y

__
X

⎛ __
⎞⎛ __

__
X 〈 X ∑ ⎜⎝ X i ± X ⎟⎜ Y i m Y ⎟
⎠⎝ ⎠
__
n
Y 〉Y
__
Y Relación negativa
__
X 〉 X
__
Y 〈Y

__
X

Ejem: Se efectuó un estudio que relaciona los puntajes de aptitud de un


examen (X), con la productividad (Y), a una empresa se tomaron al azar
seis personas y estos son los resultados:

Aptitud (X) Productividad (Y) XY X2 Y2


9 23 207 81 529
17 35 595 289 1225
20 29 580 400 841
19 33 627 361 1089
20 43 860 400 1849
23 32 736 529 1024
Σ 108 195 3605 2060 6557

COV ( X , Y ) =
∑ XY − X Y = 3605 − (18) * (32.5) = 15.83
__ __

n 6

Solo diremos que la covarianza es positiva pero no sabemos si esta es


grande o pequeña, para tomar esta decisión debe estandarizarse la
covarianza con el fin de que no dependa de las unidades de medidas de las
características X, Y.

2 2
⎛ __
⎞⎛ __
⎞ ⎛ __
⎞ ⎛ __

∑ ⎜ X i − X ⎟⎜ Y i − Y ⎟
⎝ ⎠⎝ ⎠
∑ ⎜ X i − X ⎟ ∑ ⎜ Yi − Y ⎟
⎝ ⎠ ⎝ ⎠

n n2

COV ( X , Y ) ≤ S X S Y

− S X S Y ≤ COV ( X , Y ) ≤ S X S Y Dividimos entre SXSY

COV ( X , Y ) COV ( X , Y )
−1≤ ≤1 Sea r =
S X SY S X SY

−1≤ r ≤1

Donde el estadístico r se llama Coeficiente de Correlación lineal y este


mide la asociación lineal entre las variables X, Y.

Una vez calculada la covarianza, para poder hallar el coeficiente de


correlación lineal se hace necesario calcular la desviación estándar de (X) y
(Y), para ello aplicamos un conjunto de formulas reducidas.

2
⎛ __

∑ ⎜⎝ i ⎟⎠
X − X
∑X 2
⎛ __ ⎞
2
2
= = −⎜X ⎟
i
S X
n n ⎝ ⎠
SX = S X2
Para nuestro problema de la productividad, la desviación estándar de X, Y
son respectivamente:

2
⎛ __

∑ ⎜⎝ i ⎟⎠
X − X
∑X 2
⎛ __ ⎞
2
2060
2
= = −⎜X ⎟ = − 18 2 = 19 . 33
i
S X
n n ⎝ ⎠ 6
S X = 19 .33 = 4 .4

2
⎛ __

∑ ⎜ i

Y − Y ⎟
⎠ = ∑Y 2
⎛ __ ⎞
2
6557
SY =
2
− ⎜Y ⎟ = − 32 . 5 2 = 36 . 58
i

n n ⎝ ⎠ 6
SY = 36 .58 = 6 .05

COV ( X , Y ) 15.83
r= = = 0.6
S X SY 6.05 * 4.4

Normalmente se considera que un coeficiente de correlación es alto cuando


este es mayor a 0.8.

COEFICIENTE DE DETERMINACIÓN

Este coeficiente mide la cantidad de variabilidad de la característica Y que


es explicada por la variable X (o el modelo). El coeficiente de
determinación se calcula de la siguiente manera:
2
⎛ COV ( X , Y ) ⎞
R = r = ⎜⎜
2
⎟⎟
⎝ S X SY ⎠
R = 0.6 = 0.36
2

Esto significa que el 36% de la variabilidad de la productividad es explicada


por el puntaje de aptitud.
TALLER No 1

1. Un individuo asegura que el consumo de combustible de su automóvil


no depende de la velocidad, con el fin de probar la anterior afirmación se
probo el automóvil a diferentes millas y se midió el consumo de
gasolina. Los datos aparecen a continuación:

Velocidad (X) Consumo (Y)


45 24.2
50 25.0
55 23.3
60 22.0
65 21.5
70 20.6
75 19.8

Hallar el coeficiente de determinación e interpretar.

2. Para los problemas del libro guía 11.6 – 11.11, hallar el coeficiente de
determinación e interpretar.

ANÁLISIS DE REGRESIÓN
Una vez que se sospeche que una variable aleatoria Y esta relacionada con
una o más variables X1, X2, ..., Xn se debe o se desea predecir o pronosticar
el comportamiento de Y para unos valores determinados de X1, X2, ..., Xn.

Como por ejemplo un economista quiere relacionar los gastos de una


comunidad (Y) con los ingresos (X1) y la capacidad de ahorro (X2). El
objetivo seria crear una ecuación de predicción o un modelo que exprese los
gastos (Y) variable dependiente como una función de las variables
independientes (X1) ingresos, (X2) ahorro.

Los modelos que se emplean para relacionar una variable dependiente (Y)
con las variables independientes X1, X2, ..., Xn se denominan modelos de
regresión o modelos estadísticos lineales.
CAPITULO 2
REGRESIÓN LINEAL SIMPLE

La finalidad del modelo de regresión simple es la de poder predecir el valor


de (Y) variable dependiente en términos de una variable independiente (X).

Ejem: Supongamos que el inventor de un nuevo material aislante quiere


determinar la magnitud de la compresión que se producirá en un espécimen
de dos pulgadas de espesor cuando se somete a diferentes cantidades de
presión.

Los valores de X (en unidades de libras por pulgadas cuadradas) y las


magnitudes de compresión resultantes Y (en unidades 0.1 de pulgada). Se
presentan a continuación:

GRAFICA PRESION Vs COMPRESION


Presión (X) Compresión (Y)
4,5
4 1 1
3,5
2 1
COMPRESION

3
2,5
2 3 2
4 2
1,5
1

5 4
0,5
0
0 1 2 3 4 5
PRESION

El estado ideal será el de trazar una línea y que todos los puntos quedaran
sobre dicha línea, pero esto en la realidad no ocurre, ya que algunos puntos
se desviarán de esta línea.

La solución a este problemas es el de construir un modelo probabilístico


(modelo de regresión lineal simple), supone que el valor medio de Y para
un valor dado de X se grafica como una línea recta y que los puntos se
desvían de esta recta a una cantidad aleatoria (positiva o negativa) igual a ε
es decir:
Y = β 0 + β1 X 1 + ε
β 0 + β 1 X 1 → Valor medio de Y para un valor de X
ε → Error aleatorio
Es lógico pensar que el E(ε) = 0 ya que las desviaciones ocurren por debajo
o por encima y por tanto E (Y ) = E (β 0 + β 1 X + E (ε ) ) = β 0 + β 1 X donde β 0 y β 1
son parámetros de la parte deterministica que se estimaron y su distribución
de probabilidad con la finalidad de hacer inferencias sobre dicho parámetro
depende de la distribución de probabilidad de la variable aleatoria ε.

Un modelo de regresión lineal simple


Y = β 0 + β1 X 1 + ε
Y = variable dependiente
X = variable independiente
E (Y ) = β 0 + β 1 X es el componente determinístico
ε (epsilon) = componente aleatorio
β 1 = Pendiente
β 0 = Corte con la ordenada Y

Si queremos ajustar un modelo de regresión lineal simple se debe estimar


β 0 , β 1 de la línea de regresión Y. Con el fin de hacer algunas inferencias
sobre estos parámetros, daremos algunos supuestos:
1. E(ε) = 0
2. V(ε) = σ ε2 = σ y2 = constante para todo valor de X
3. ε ≈ N(µ1, σε) = N(0, σε)
4. Los errores son independientes, esto quiere decir que los errores asociados a un valor
en particular Y no tiene efecto alguno sobre los errores asociados a otros valores de
Y.

INTERPRETACIÓN GRÁFICA DE LOS TRES PRIMEROS


SUPUESTOS

ESTIMACIÓN DE LOS PARÁMETROS PARA β0, β1

Si queremos tomar la mejor recta será aquella que minimice la distancia de


los puntos (errores) a la recta. Como aparece en la siguiente gráfica:
Si queremos encontrar la línea de mínimos cuadrados para un conjunto de
datos suponemos que tenemos una muestra n, (X1, Y1); (X2, Y2),...,(Xn, Yn),
por ejemplo, los n = 5 puntos de datos del ejercicio anterior son (1,1), (2,1),
(3, 2), (4, 2), (5, 4) para estimar β0, β1 tomamos la recta que minimice los
errores al cuadrado Σεi2 es la más pequeña, los estimadores de β0 y β1 se
∧ ∧
llaman β 0 y β 1 respectivamente y representamos el modelo estimado como
∧ ∧ ∧
y i = β 0 + β 1 (x i ) .


Toda observación y i se obtiene al reemplazar x en la anterior ecuación,
toda observación Y se obtiene al sumar el error εi al modelo estimado
∧ ∧
y i = β 0 + β 1 (x i ) + ε i
2 2
⎡ ⎤
ε 1 = y1 − y i ⇒ ∑ ε = ∑ ⎛⎜ y1 − y ⎞⎟ = ∑ ⎢ y1 − ⎛⎜ β 0 + β 1 x ⎞⎟⎥
∧ ∧ ∧ ∧
2
i
⎝ ⎠ ⎣ ⎝ ⎠⎦
Se aplicara el método de los mínimos cuadrados para estimar β0 y β1 tal que
haga mínima la sumatoria al cuadrado de los errores.

2 2
⎛ ∧
⎞ ⎡ ⎛ ∧ ∧
⎞⎤ ∧
SSE = ∑ ε = ∑ ⎜ y i − y ⎟ = ∑ ⎢ y i − ⎜ β 0 + β 1 x ⎟⎥
i
2
derivando con respecto a β 0
⎝ ⎠ ⎣ ⎝ ⎠⎦

y β 1 e igualando a cero se tiene:

∂SSE ⎛ ∧ ∧

= ∑ − 2⎜ y i − β 0 − β 1 x i ⎟
∂β 0 ⎝ ⎠

∂SSE ⎛ ∧ ∧

= ∑ − 2 xi ⎜ y i − β 0 − β 1 x ⎟ las dos ecuaciones igualadas a cero se tiene
∂β 1 ⎝ ⎠

− 2⎛⎜ ∑ y i − n β 0 − β 1 ∑ x i ⎞⎟ = 0
∧ ∧

⎝ ⎠

− 2⎛⎜ ∑ x i y i − β 0 ∑ x i − β 1 ∑ x i2 ⎞⎟ = 0
∧ ∧

⎝ ⎠
∧ ∧ ∧ ∧
∑ y i − n β 0 − β 1 ∑ xi = 0 − n β 0 − β 1 ∑ x i = −∑ y i
⎛ ∧ ∧
2 ⎞
∧ ∧
⎜ ∑ xi y i − β 0 ∑ xi − β 1 ∑ xi ⎟ = 0 − β 0 ∑ x i − β 1 ∑ x i2 = −∑ x i y i
⎝ ⎠
∧ ∧
n β 0 + β 1 ∑ xi = ∑ y i
∧ ∧
despejamos β0 ecuaciones normales
β 0 ∑ xi + β 1 ∑ x = ∑ xi y i 2
i


β0 =
∑ yi −
β 1 ∑ xi

n n 1⎛ ∧

⇒ ⎜ ∑ y i − β 1 ∑ xi ⎟ =
∑x y i i − β 1 ∑ x i2
∑x

n⎝ ⎠

β0 =
∑x y i i − β 1 ∑ x i2 i

∑x i

Igualando términos se tiene:


∧ ∧
∑ xi ∑ y i − β 1 (∑ xi ) 2 = n ∑ xi y i − n β1 ∑ xi2
∧ ∧
n β 1 ∑ x i2 − β 1 ( ∑ x i ) 2 = n ∑ y i x i − ∑ x i ∑ y i

(
β 1 n ∑ x i2 − (∑ x i ) = n ∑ y i x i − ∑ x i ∑ y i
∧ 2
)

β1 = n
∑y x −∑x ∑y
i i i i
Dividimos entre n2
n ∑ x − (∑ x ) 2 2
i i

n ∑ yi xi ∑x∑ yi
∧ − i

β1 = n2 n2
n ∑ x i2

(∑ x i )2
n2 n2

∑y x i i
−xy
__ __


n COV ( x , y )
βi = =
∑x ⎛ ∑ xi
2
2
⎞ S x2
− ⎜⎜ ⎟
i

n ⎟
⎝ n ⎠

n∑ yi xi ∑x ∑ y ∑ y x − ∑x ∑ y
∧ − i i
i i
i i

βi = n n = n
O n∑ x (∑ x ) (∑ x )
2 2 2


n
∑ x − i

n
i 2
i
n
i
⎛ __
⎞⎛ __

S xy ∑ ⎜ xi − x

⎟⎜ yi − y ⎟
⎠⎝ ⎠
= 2
S xx ⎛ __

∑ ⎜⎝ x i − x⎟


Despejando β 0 en la primera ecuación se tiene que

∧ ∧
n β0 + β1 ∑ xi = ∑ yi ⇒ β0 =

∑ yi −
β1 ∑ xi
n n
∧ __ ∧ __
β 0 = y − β1 x
∧ ∧
Calcular o estimar por mínimos cuadrados para β 0 y β1 con los datos de
nuestro ejemplo

Presión (Xi) Compresión (Yi) XiYi Xi2 Yi2


1 1 1 1 1
2 1 2 4 1
3 2 6 9 4
4 2 8 16 4
5 4 20 25 16
Σ 15 10 37 55 26

Sxy 7
COV (x,y) = = = 1.4
n 5
Sxx 10
S 2x = = = 2; Sx = 1.41
5 5
(∑ yi )
2

Syy ∑ 1
2
y −
5 26 − 20
S2y = = = = 1 .2
5 5 5
Sy = 1.2 = 1.1
COV ( x, y ) 1.4
r= = = 0.90
SxSy 1.1 * 1.41
R 2 = 0.81
S xy = ∑ x i y i −
∑ x *∑ y i i
= 37 −
15 *10
=7
n 5
(∑ x ) 2
15 2
S xx = ∑ x 2
− = 55 − = 10
i
i
n 5
∧ 7 ∧
β1 = = 0.7 β1 es la dependiente de la recta estimada
10
β 0 = y − β1 x = ∑ i − β1 ∑ i = − 0.7 = −0.1
∧ __ ∧ __ y ∧ x 10 15
n n 5 5

Interpretación de β1

Lo anterior significa que la compresión aumenta 0.7 por cada valor de


aumento de la presión.

Interpretación de β 0

Cuando x = 0 la compresión es de –0.1 este resultado es absurdo puesto


que no hay compresión negativa, la razón es que x no puede tomar valores
iguales a cero o negativos. La compresión puede expresarse en términos de
la presión si esta toma valores positivos.

En la siguiente tabla se presenta los valores observados y estimados con el



modelo y = −0.1 + 0.7 x lo mismo que todas las desviaciones al cuadrado de

los valores observados y estimados ( yi − y ) 2 la suma de estas observaciones
al cuadrado se llama suma de cuadrados de las desviaciones SSE y este
valor es el menor que se obtiene ajustando cualquier otra recta.

x y ∧
y = −0.1 + 0.7 x

( yi − y )

( yi − y ) 2
1 1 0.6 0.4 0.16
2 1 1.3 -0.3 0.09
3 2 2.0 0 0.00
4 2 2.7 -0.7 0.49
5 4 3.4 0.6 0.36
0 1.10

ANÁLISIS DE VARIANZA PARA EL MODELO LINEAL SIMPLE

ƒ Se llamara suma de cuadrados total a la desviación de y con respecto a


__ 2
su media SS yy = ∑ ⎛⎜ yi − y ⎞⎟ .
⎝ ⎠
ƒ Llamaremos suma de cuadrados de la regresión a la desviación de
2
∧ ∧ ∧
⎛ ∧ __ ⎞
y = β 0 + βx1 a la media de las y observadas SS R = ∑ ⎜ yi − y ⎟ .
⎝ ⎠
ƒ Llamamos suma de cuadrados del error a las desviaciones del modelo a
2 2
∧ 2
⎡ ⎤ ⎛ ⎞
las observaciones ( y − y ) = ⎢ y − ⎛⎜ β 0 + β1 ⎞⎟⎥
∧ ∧ ∧
SSE = ∑ ⎜ yi − y ⎟
⎝ ⎣ ⎠ ⎦ ⎝ ⎠

INTERPRETACIÓN GRÁFICA

yi

⎛ ∧
⎞ ∧ ∧ ∧
⎜ y − yi ⎟ y = β0 + β 1 x
⎝ ⎠
⎛ _

⎜ y − y⎟
⎝ ⎠

y ⎛∧ _⎞
⎜ y− y ⎟
⎝ ⎠

β0

xi

En la gráfica anterior se puede observar que


⎛ __
⎞ ⎛ ∧ __ ⎞ ⎛ ∧

⎜ i
y − y ⎟ = ⎜ yi − y ⎟ + ⎜ yi − yi ⎟ = 0
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
⎛ ∧
⎞ ⎛ __
⎞ ⎛ ∧ __

⎜ yi − yi ⎟ = ⎜ yi − y ⎟ − ⎜ yi − y ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠

En el siguiente cuadro se presentan los resultados de la SSyy, SSR, SSE para


los datos de la compresión (y) y la presión (x).

Presión Compresión SSyy ∧ SSE SSR


x y __ y estimado ∧
∑(y
∧ __

∑(y − yi ) 2
i − y) 2
-0.1+0.7x i
∑(y − y )
i i
2

1 1 1 0.6 0.16 1.96


2 1 1 1.3 0.09 0.49
3 2 0 2 0.00 0.00
4 2 0 2.7 0.49 0.49
5 4 4 3.4 0.36 1.96
∑ 15 10 6 1.1 4.9

En la estadística aplicada, cobra mucha importancia la tabla de análisis de


varianza la cual presenta las siguientes columnas.

Fuente de Suma de Grados de Media F Significa


variación cuadrados libertad cuadrática ncia
Regresión SSR P–1 SSR/(P – 1) SSR/(P–1)/ SSE/(N–P)
Residual SSE N–P SSE/(N – P)
Total SSyy N–1 SSyy/(N – 1)

En la tabla anterior P es el número de parámetros en el modelo y la razón


SS R
( P − 1)
se distribuye F con P – 1 y N – P grados de libertad
SSE
( N − P)
respectivamente y la última columna corresponde a la probabilidad o
porcentaje de la cola superior de encontrar un valor mayor que el F
calculado para el modelo lineal simple de nuestro ejemplo.

La tabla de análisis de varianza será la siguiente:

Fuente de Suma de Grados de Media F Significa


variación cuadrados libertad cuadrática ncia
Regresión 4.9 (2-1) = 1 4.9 13.364 0.035
Residual 1.1 (5-2) = 3 0.367
Total 6.0 (5-1) = 4

CALCULO DEL COEFICIENTE DE DETERMINACIÓN CON LA


SUMA DE CUADRADOS

El coeficiente de determinación se define como el porcentaje de la


variación total que es explicada por el modelo, esto puede representarse de
la siguiente manera:

SSyy − SSE 6 −1.1


R= = = 0.82
SSyy 6
TAREA: Calcular R para el ejemplo de la compresión (y) y la presión (x)
2
⎛ COV ( x, y ) ⎞
mediante la siguiente fórmula R = r = ⎜⎜ 2 ⎟ y observar su similitud

⎝ S S
x y ⎠
o igualdad con el resultado anterior si existe una pequeña diferencia esta es
por el redondeo.
∧ ∧
Otra manera de calcular la SSR = β1 SS xy en nuestro ejemplo β1 = 0.7 y
SSxy = 7, entonces SSR = 0.7*7 = 4.9

Taller: Páginas 570 – 571

PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS


CUADRADOS

En la teoría de estimación se espera que este cumpla algunas propiedades


como insesgado, de varianza mínima (eficiente), etc. Demostramos que el
estimador β1 es insesgado y calculemos la varianza, la cual será útil en las
pruebas de hipótesis y estimación por intervalos de dichos estimadores.

Antes de realizar dichas demostraciones recordaremos algunas expresiones


que son importantes para dichas demostraciones.

⎛ __
⎞⎛ __
⎞ ⎡⎛ __
⎞ ⎛ ⎞ ⎤
__ __
ƒ SS xy = ∑ ⎝ i ⎠⎝ i y ⎟⎠ =
⎜ x − x ⎟ ⎜ y − ∑ ⎜
⎢ ix − x ⎟ y i − ⎜ x i − x ⎟ y⎥
⎣⎝ ⎠ ⎝ ⎠ ⎦
⎛ __
⎞ __
⎛ __
⎞ ⎛ __

= ∑ ⎝ i ⎠ i ∑ ⎝ i ⎠ ∑ ⎝ i x ⎟⎠ yi
⎜ x − x ⎟ y − y ⎜ x − x ⎟ = ⎜ x −
__ __ __ __
ya que ∑( xi − x )= 0 ∑ xi − n x = n x − n x = 0

ƒ SSxx = ∑ ⎛⎜ xi − x ⎞⎟ = ∑ ⎛⎜ xi − x ⎞⎟⎛⎜ xi − x ⎞⎟ = ∑ ⎛⎜ xi − x ⎞⎟ xi − ⎛⎜ xi − x ⎞⎟ x =
__ __ __ __ __ __

⎝ ⎠ ⎝ ⎠⎝ ⎠ ⎝ ⎠ ⎝ ⎠
⎛ __
⎞ __
⎛ __
⎞ ⎛ __

= ∑ ⎜ xi − x ⎟ xi − x ∑ ⎜ xi − x ⎟ = ∑ ⎜ xi − x ⎟ xi
⎝ ⎠ ⎝ ⎠ ⎝ ⎠

1) β1 es un estimados insesgado Ε⎛⎜ β1 ⎞⎟ = β1


∧ ∧

⎝ ⎠

Demostración:
⎛ __
⎞ ⎛ __
⎞ ⎛ __

⎜ i
x − x ⎟ ⎜ 2
x − x ⎟ −
⎜ n x⎟
x
∧ SS xy 1 ⎛ __
⎞ ⎝ ⎠y +⎝ ⎠ y + ..... + ⎝ ⎠ y = β∧
β1 =
SS xx
= ∑
SS xx ⎝
⎜ xi − x ⎟ yi =
⎠ SS xx
1
SS xx
2
SS xx
n 1

En la expresión anterior puede observarse como β1 se representa como una


combinación lineal de los yi.

⎛ __ __ __

⎛ ⎞ ∧
⎜ ( x1 − x ) ( x2 − x ) ( xn − x ) ⎟
Ε⎜ β1 ⎟ = Ε⎜ y1 + y2 + .... + yn ⎟
⎝ ⎠ ⎜ SSxx SSxx SSxx ⎟
⎝ ⎠

Ε( y1 ) = β 0 + β1 x1 ; Ε( y2 ) = β 0 + β1 x2 ; .....; Ε( yn ) = β 0 + β1 xn

⎛ __ __ __

⎛ ⎞

⎜ 1
( x − x ) ( x − x ) ( x − x) ⎟
Ε⎜ β1 ⎟ = ⎜ Ε( y1 ) + 2
Ε( y 2 ) + .... + n
Ε( y n ) ⎟
⎝ ⎠ ⎜ SS xx SS xx SS xx ⎟
⎝ ⎠

⎛ __ __ __

⎛ ⎞ ∧ ⎜ ( x − x ) ( x − x ) ( x − x) ⎟
Ε⎜ β1 ⎟ = Ε⎜ 1
(β 0 + β1 x1 ) + 2
(β 0 + β1 x2 ) + ....+ n
( β 0 + β1 x n ) ⎟
⎝ ⎠ ⎜ SSxx SSxx SSxx ⎟
⎝ ⎠

⎛ __

β ⎛ __
⎞ β ⎛ __

∑ ⎜ xi − x ⎟xi
= 0 ∑ ⎜ xi − x ⎟ + 1 ∑ ⎜ xi − x ⎟ xi = β1 ⎝ ⎠
SS xx ⎝ ⎠ SS xx ⎝ ⎠ SS xx

SS xx ⎛∧⎞
β1 = β1 ⇒ Ε⎜ β1 ⎟ = β1
SS xx ⎝ ⎠

2 2 2
⎛ __
⎞ ⎛ __
⎞ ⎛ __

⎜ x 1 − x ⎟ ⎜ x2 − x ⎟ ⎜ xn − x⎟
⎛ ⎞

V ⎜ β1 ⎟ = ⎝ ⎠ V (y ) + ⎝ ⎠ V ( y ) + .... + ⎝ ⎠ V (y )
⎝ ⎠ ( SS xx ) 2 1
(SS xx )2 2
(SS xx )2 n

σε2 = σ y2 = V ( y)
2 2 2 2
⎛ __
⎞ ⎛ __
⎞ ⎛ __
⎞ ⎛ __

⎛ ⎞

⎜ x 1 − x ⎟ ⎜ x 2 − x ⎟ ⎜ x n − x ⎟ ∑ ⎜ xi − x⎟
V ⎜ β1 ⎟ = ⎝ ⎠ σ2 + ⎝
2
⎠ σ 2 + .... + ⎝
2
⎠ σ2 =σ2 ⎝
2 2

⎝ ⎠ ( SS xx ) ( SS xx ) ( SS xx ) ( SS xx )
SS xx σ2
= σ2 =
( SS xx ) 2 SS xx

σ2
V ⎛⎜ β 1 ⎞⎟ =

=σ β ˆ
2

⎝ ⎠ SS xx 1

σ 2
σ
V ⎛⎜ β 1 ⎞⎟ =

=
⎝ ⎠ SS xx SS xx
2) β 0 es un estimador insesgado, de β 0 se tiene que:
⎛ __

∧ __ ∧ __ ∧ SS xy ∑ ⎝ i x ⎟⎠ yi
⎜ x −
β 0 = y − β1 x pero β1 = =
SS xx SS xx
⎛ ⎞ __
⎛ __
⎞ ⎛ __
⎛ __
⎞ ⎞
__ __ ∑ ∑
⎜ xi − x ⎟ yi ⎜ x − x ⎟ y ⎜ x ⎜ xi − x ⎟ yi ⎟
β0 = y− x ⎝

⎠ = ∑ y i − __x ⎝ i i
⎠ = ⎜ yi − ⎝ ⎠ ⎟
SS xx n SS xx
∑⎜ n SS xx ⎟
⎜ ⎟
⎝ ⎠
⎛ __
⎛ __
⎞⎞
⎜ x ⎜ x i − x⎟⎟
1
β0 = ∑⎜ − ⎝ ⎠ ⎟y

⎜n SS xx ⎟ i
⎜ ⎟
⎝ ⎠
⎛ ⎛ __
⎛ __
⎞ ⎞ ⎞⎟ ⎛ __
⎛ __
⎞⎞
⎜ ⎜ x ⎜ x − x ⎟ ⎟ ⎜ x ⎜ x − x⎟⎟
⎜ 1 ⎠ ⎟y ⎟ = ⎜ 1 − ⎝
i i
⎛ ⎞

Ε⎜ β 0 ⎟ = Ε⎜ ∑ ⎜ − ⎝ i⎟ ∑ ⎠ ⎟Ε ( y )
⎝ ⎠ ⎜ n SS xx ⎟ ⎜ n SS xx ⎟
i
⎜⎜ ⎜ ⎟ ⎟⎟ ⎜ ⎟
⎝ ⎝ ⎠ ⎠ ⎝ ⎠

⎛ __

⎛ __
⎛ __
⎞ ⎞ ⎛ __
⎛ __
⎞ ⎞ ⎜ ⎛ __ ⎟

⎜ x ⎜ xi − x ⎟ ⎟ ⎜ x ⎜ xi − x ⎟ ⎟ ⎜ 1 x⎜ xi − x ⎟ ⎟
⎛∧⎞ ⎜ 1 ⎝ ⎠ ⎟ ⎜ 1 ⎝ ⎠ ⎟
Ε⎜ β0 ⎟ = ∑⎜ − ⎟ (β0 + β1xi ) = ∑⎜ − ⎟ β0 + ∑⎜ − ⎝ ⎠ ⎟β x
1 i
⎝ ⎠ n SSxx n SSxx ⎜n SSxx ⎟
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠ ⎜ ⎟
⎝ ⎠
__ __
⎛ ⎞ n
∧ β x ⎛ __

Ε⎜ β 0 ⎟ = β 0 − 0 ∑ ⎜ xi − x ⎟ + β1
∑ xi − x β1 ∑ ⎛⎜ x − _x_ ⎞⎟ x
i ii
⎝ ⎠ n SS xx ⎝ ⎠ n SS xx ⎝ ⎠

__ __
⎛ ∧
⎞ β0 x ⎛ __
⎞ ∑x β1 x ⎛ __

Ε⎜ β 0 ⎟ = β 0 − ∑ − x ⎟ + β1 − ∑ ⎜ xi − x ⎟xi
i
⎜ x i
⎝ ⎠ SS xx ⎝ ⎠ n SS xx ⎝ ⎠
⎛ ∧
⎞ __ SS xx
Ε⎜ β 0 ⎟ = β 0 − 0 + β 1 x − β 1 x
⎝ ⎠ SS xx
⎛ ∧ ⎞ __
⎛ ∧ ⎞
Ε⎜ β 0 ⎟ = β 0 + β 1 x − β 1 x = β 0 = Ε⎜ β 0 ⎟
⎝ ⎠ ⎝ ⎠

β 0 es un estimador insesgado
⎡⎛ ⎞ ⎤ ⎛ __

⎛ ⎛ __
⎛ __
⎞ ⎞ ⎞ ⎢ ⎜ ⎛ __ ⎟
⎞ ⎥ ⎜ ⎛ __
⎞ ⎟
⎜ ⎜ x ⎜ xi − x ⎟ ⎟ ⎟ ⎜ x⎜ xi − x ⎟ ⎟ ⎜ x⎜ xi − x ⎟ ⎟
⎛ ⎞

⎜ 1
V ⎜ β0 ⎟ = V ⎜ ∑ ⎜ − ⎝ ⎠ ⎟ y ⎟ = V ⎢⎜ 1 − ⎝ ⎠ ⎟y ⎥ = ⎜ 1 − ⎝ ⎠ ⎟σ 2
⎜ ⎟ ⎟ ∑ ⎢ i⎥ ∑
⎢⎜ n SS xx ⎟ ⎥ ⎜n SS xx ⎟
i
⎝ ⎠ n SS xx
⎜⎜ ⎜ ⎟ ⎟⎟ ⎜ ⎟ ⎥ ⎜ ⎟
⎝ ⎝ ⎠ ⎠ ⎢ ⎜ ⎟ ⎜ ⎟
⎢⎣⎝ ⎠ ⎥⎦ ⎝ ⎠
⎡ __
⎛ __
⎞ __ ⎛
2 __ 2 ⎤

⎢ 2 2 x ⎜ i
x − x ⎟ x x −
⎜ i x⎟ ⎥
= ∑ ⎢⎛⎜ ⎞⎟ − ⎝
1 ⎠+ ⎝ ⎠ ⎥σ 2
⎢⎝ n ⎠ nSS xx (SS xx ) ⎥
2

⎢ ⎥
⎣⎢ ⎦⎥
⎡ ⎛ __ __ 2 ⎞⎤
⎢ ⎜ 1 2 x ⎛ __
⎞ x ⎛ __ 2 ⎟
⎞ ⎥
= σ 2 ⎢∑ ⎜ 2 − ∑ ⎜ xi − x ⎟ + 2 ∑⎜ i
x − x ⎟ ⎟⎥
⎢⎣ ⎜⎝
n nSS xx ⎝ ⎠ (SS xx ) ⎝ ⎠ ⎟⎥
⎠⎦
⎡ __ 2 ⎤ ⎡ 2 __ 2 ⎤ ⎡ __ 2 ⎤ ⎡ __ 2 ⎤
1 σ σ 2
1 +
= σ 2 * ⎢⎢ − 0 + xx ⎥
= σ 2 ⎢⎢ + ⎥ = σ 2⎢ + ⎥ = σ 2 ⎢ xx
x SS x x SS n x ⎥
2 ⎥
n (SS xx ) ⎥ n SS xx ⎥ ⎢ n SS ⎥ ⎢ nSS ⎥
⎣⎢ ⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦ ⎢⎣ ⎦⎥
xx xx

⎡ ⎛ __ 2
⎞ __ 2 ⎤ ⎡ ⎛ 2 __ __ 2 ⎞ __ 2 ⎤

⎢ ∑ ⎜ xi − x ⎟ + n x ⎥ ⎢∑⎜ i
⎜ x − 2 xi x + x ⎟
⎟ + n x ⎥
= σ 2⎢ ⎝ ⎠ ⎥ = σ 2⎢ ⎝ ⎠ ⎥
⎢ nSS xx ⎥ ⎢ nSS xx ⎥
⎢ ⎥ ⎢ ⎥
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦

⎡ __ __ 2 __ 2 ⎤ ⎡ __ 2 __ 2 ⎤

= σ 2 ⎢⎢ ∑ i i∑ 2 ⎢∑ i 2 ∑ i
x 2
− 2 x x + n x + n x ⎥ x 2
− 2 x n + 2 n x ⎥ ⎡ x2 ⎤
⎥ = σ ⎢ ⎥ = σ ⎢ ⎥

nSS xx
⎥ ⎢
nSS xx
⎥ ⎢
⎣ nSS xx ⎥⎦
⎣ ⎦ ⎣ ⎦

ESTIMADOR INSESGADO σ2

La varianza de los errores o lo que es lo mismo el promedio de la suma de


las desviaciones al cuadrado entre los y observados y la línea de regresión
⎛∧⎞
Ε⎜ y ⎟ = β 0 + β1 x debe calcularse de la siguiente manera:
⎝ ⎠
2
⎛ ∧

∑(ε − Ε(ε ))
2
∑ εi
2 ∑⎜

yi − y ⎟

σε 2
= 1 1
= =
n n n
= σ 2 = V ( y ) = V (β 0 + β 1 x + ε ) = V (ε ) = σ y2
SSE
n
SSE
Un estimador insesgado de σ 2 = σ y2 = σ ε2 = s 2 =
n−2

La explicación anterior se deriva del echo que se debe estimar los


parámetros β0 y β1. para demostrar lo anterior enunciaremos el siguiente
teorema:

SSE
El estadístico se distribuye χ2
σ 2

SSE 2 (n − 2) s 2
χ2 = ⇒ como SSE = (n – 2)s se tiene que χ2 =
σ2 σ2

Demostración de E(s2) = σ2

Del teorema anterior se tiene que


σ 2χ 2 ⎛ σ2 ⎞ σ2
s2 =
n−2
⇒ Ε s 2 = Ε⎜⎜( )
( − 2 )
χ 2 ⎟⎟ =
( − 2 )
Ε χ2 ( )
⎝ n ⎠ n
σ 2
σ (n − 2)
2
( )
Ε s2 =
n−2
Ε χ2 = ( )
(n − 2)
=σ2

Recordamos que el valor esperado de una χ2 son sus grados de libertad


E(χ2) = n – 2
2
⎛ ∧
⎞ ∧
Donde SSE = ∑ ⎜ y i − y ⎟ = SS yy − β 1 SS xy
⎝ ⎠
⎛ __

= ∑ ⎜ yi − y ⎟ =
2
(∑ y ) 2

SS yy
⎝ ⎠
∑y i
2

n
i

⎛ __
⎞⎛ __
⎞ ∑x∑y
SS xy = ∑ ⎝ i ⎠⎝ i y ⎟⎠ =
⎜ x − x ⎟ ⎜ y − ∑xy
i i − i

n
i

∧ SS xy
β1 =
SS xx

Ejemplo: Estime la varianza del ejercicio de la presión y compresión.



SSE = SS yy − β1 SS xx = 6.0 − 0.7 * 7 = 1.1
SSE 1.1
s2 = = = 0.367 y la desviación estándar s 2 = s = 0.61
n−2 3

INFERENCIA RESPECTO A LOS β

Para nuestro ejemplo supóngase que la presión no tiene relación con la


compresión, que podría decirse de los valores β0, β1 del modelo
probabilístico y = β0 + β1x +ε.

Si los cambios de x no afecta el valor medio de y, y = β0 + β1x ; es decir y


tomara cualquier valor independiente del valor de x, entonces se podría
afirmar que β1 = 0. Cobra importancia probar la siguiente hipótesis nula y
alterna.

Ho β1 = 0
Ha β1 ≠ 0

Para probar esta hipótesis se hace necesario conocer la distribución del


∧ SS xy
estadístico β1 = Bajo el supuesto de que los errores se distribuye
SS xx
N(0, σ), entonces y = β0 + β1x +ε. Se distribuye N(β0 + β1x; σ), como β1
puede expresarse como una combinación lineal de los yi ya que
∑ x y − ∑ n∑
x yi i
∧ i i ∧ σ
β1 = el estimador β1 tiene una distribución N(β1, )
( x)
∑x − ∑
2
2 i
SS xx
i
n

β −β
por lo tanto el estadístico 1 tiene una distribución normal estándar.
σ
SS xx
∧ 2σ
El 95% de las muestras ⎯ β̂1 se hallan entre β ± 2σ = βˆ1 ±∧
β1 SSxx

SSE
Como σ 2 es desconocido y se estima con el estadístico s 2 = el
n−2

β 1 − β1
estadìstico tiene una distribución t estuden y la hipótesis nula
S
SSxx

Ho β1 = 0

Ha β1 ≠ 0

β 1 − 01
Puede rechazarse si T ≥ tn − 2 ,α o ≥ tn − 2,α
S
SSXX

Prueba de una cola inferior

Ho β1 = 0
Ha β < 0

β1
Estadística de prueba
s
SSxx
Región de rechazo t < tα

Prueba de una cola superior

Ho β1 = 0
Ha β1 > 0

β1
Estadística de prueba
s
SSxx
Región de rechazo t > tα
Ejemplo
Para nuestro ejemplo de compresión del aislante probamos la siguiente
hipótesis en los siguientes pasos:

a. Ho β1 = 0

Ha β1 ≠ 0

b. Nivel de significancia α=0.05 n=5 n-2=3


t0.025, 3 = 3.182
-t0.025, 3 = -3.182

c. Estadístico de prueba
∧ ∧
β β 0.7 −7
T = 1
= 1
= = = 3.7
Sβ̂1 S .61 0.19
SSxx 10

d. Decisión estadística

Como T=3.7 es mayor que el t de la tabla t0.023, 3 = 3.182 se rechazara la


hipótesis nula. Esto significa que β1 es diferente se cero, la inferencia
sobre le parámetro β 0 no tiene mucho significado en el análisis de la
regresión.

Si se tomo la decisión de hacer pruebas de hipótesis sobre este intercepto se


debe utilizar el siguiente estadístico.
∧ ∧ ∧
β 0 − β0 β 0 − β0 β 0 − β0
T= = =
δ 2⎜ ∑ i ⎟
S∧ ⎛ x2 ⎞ ⎛ −

β0 ⎜1 x ⎟
⎜ nSSxx ⎟ δ ⎜ −
2

⎝ ⎠ ⎜ x SSxx ⎟⎟
⎝ ⎠

INTERVALO DE CONFIANZA PARA β1

Otra manera de hacer inferencia acerca de la pendiente del modelo es a


través de la estimación por intervalo. Un intervalo de confianza esta dado
por la siguiente expresión
∧ S
β1 ± tα S donde S =
∧ ∧
β1 β1 SSxx
2

Ejemplo: Determine un intervalo de confianza para nuestro ejemplo con un 95% de


confianza

∧ S ⎛ 0.61 ⎞
β1 ± t0.025,3 = 0.7 ± 3.185⎜ ⎟ = 0.7 ± 0.61
SSxx ⎝ 10 ⎠
⎛ ∧

p⎜ 0.09 ≤ β1 ≤ 1.31⎟ = 0.45
⎝ ⎠

Un intervalo de confianza para β 0 será el siguiente



β 0 ± tα , S β̂

β 0 ± tα σ ∑x 2
i
,n −2 0 , n −2 nSSxx
2 2

Taller: Paginas 557, 558, 559, 560, 561 menos los opcionales

EMPLEO DEL MODELO PARA ESTIMAR Y PREDECIR

Una vez que se determina si el modelo es el mas adecuado a través del


coeficiente de determinación o pruebas de hipótesis a los parámetros. Este
deberá utilizarse para la finalidad por la cual fue creado, que es la de
estimar o predecir el valor de y para unos valores particulares de x, los usos
más comunes de los modelos probabilísticas son:

1. Estimar el valor medio de y, E(y/xp) para un valor especifico de x. Para


nuestro ejemplo queremos estimar el valor medio de la compresión para
∧ ∧
una presión de 40 lb. (x = 4) por lo tanto, E(y / x = 4)= β 0 + β1 (4) =
-0.1+0.7(4)=2.7
E(y / x = 4)=2.7 se espera una compresión de 2.7 cm / lb.

2. El otro uso del modelo probabilístico es el r de predecir el valor de y en
particular para un x dado.
∧ ∧ ∧ ∧
y = β 0 + β1 x0 = -0.1+0.7(4)=2.7= y
esto quiere decir que para una presión de 40 lbs se pronostica una
compresión de 2.7 cm / lbs.

Como puede observarse tanto para estimar el valor medio como para
predecir un valor en particular para y para un valor dado de x se aplica el
mismo modelo, la diferencia radica en su interpretación y en la exactitud de
la estimación y predicción.

En el caso de la estimación debe verse como varios experimentos en los


cuales se toma un solo valor de x0 en todos los experimentos y se registra

los valores observados en y.

En el segundo caso en un solo experimento y se pronostica el valor de y .

AJUSTE DE CURVAS
Algunas veces la dispersión de los puntos no indica una relación lineal
entre las variables x,y pero se puede visualizar alguna otra curva estándar
conocida y = f(x); la cual se puede aproximar a los datos. Algunas de estas
curvas estandar, donde y es la variable dependiente y x la variable
independiente son:

1) Curva parabólica: y = β 0 + β1 x1 + β 2 x2 2

2) Curva cúbica: y = β 0 + β1 x1 + β 2 x2 2 + β 3 x33

1
3) Curva hiperbólica: y = ò 1/y = β 0 + β1 x1
β 0 + β1 x1

4) Curva compuesto: y = β 0 β1x ; log y = log β 0 + x log β1

6) Curva exponencial: y = β 0e β x 1

7) Curva geométrica: y = ax b ò log y = log a + b log x


La representación gràfica de alguna de estas curvas es la siguiente:

Parabólica Exponencial Hiperbòlica

Ejemplo: considere los siguientes datos que indican un


crecimiento exponencial.

X 1 2 3 4 5 6
Y 6 18 55 160 485 1460

La gráfica en el plano cartesiano para estos puntos se representa a


continuación:

1600
1400
1200
1000
800
600
400
200
0

La curva compuesto tiene la forma y = β 0 β1x ; log y =


log β 0 + x log β1 = β 0′ + β1′x ; donde β ′ 0 = log β 0 y β ′ 1 = log β1 , por lo tanto
buscamos la línea de mínimos cuadrados que ajuste los siguientes datos:
X 1 2 3 4 5 6
Log y 0.7782 1.2553 1.7404 2.2041 2.6857 3.1644

Utilizando loas ecuaciones normales se tiene que :

β 0′ = 0.3028 β1′ = 0.4767

log β 0 = 0.30228; se tiene que, β 0 = anti log 0.30228

β 0 = 2.0
β1′ = log β1 ⇒ log β1 = 0.4767
β1 = anti log β1′ ⇒ β1 = 3.0

Por lo tanto y = β 0 β1x el modelo que se utilizara.

El paquete estadístico SPSS dispone de 11 modelos o curvas de ajustes que


se pueden probar a un conjunto de datos. Dichas curvas se presentan a
continuación:
INTERVALO DE CONFIANZA PARA LA RESPUESTA
MEDIA

Un intervalo de confianza para la respuesta media para un valor especifico


de x, por ejemplo xp se conoce como intervalo para E(y / xp)= β 0 + β1 x p es
posible obtener una estimación puntual para E(y / xp) a partir de los
∧ ∧
estimadores de β 0 y β1 E(y / xp)= β 0 + β1 x p .

⎡ ⎛ − ⎞2
⎜⎜ x p − x ⎟⎟

⎛ ∧ ⎞ ⎢ 1 ⎝ ⎠ ⎥
La varianza de V ⎜ y x ⎟ = δ 2 ⎢ + ⎥
⎜ p⎟ ⎢ n SSxx ⎥
⎝ ⎠
⎢⎣ ⎥⎦

Demostración:

∧ ∧ ∧ − ∧ _
Y = β 0 + β1 Xp haciendo x = xp y β 0 = y − β1 x

∧ _ ∧ _ ∧ ∧ _ ∧
⎛ _

Y = y − β1 x + β1 Xp = 0 Y = y + β1 ⎜ Xp − x ⎟
⎝ ⎠
∧ SSxy
reemplazando β1 =
Sxx

⎛ _

⎜ Xp − x ⎟

⎠ ⎛ x − x⎞y
_ _

Y = y+ 1
Sxx
∑ ⎝ ⎟⎠ i

⎛ _
⎞⎛ _


⎜ Xp − x ⎟⎜ xi − x ⎟
yi
Y = ∑ + ∑1 ⎝ ⎠⎝ ⎠y
i
n Sxx
⎡ ⎛ _
⎞⎛ _
⎞⎤
⎢ ⎜ x − x ⎟⎜ x − x ⎟⎥
∧ 1 ⎝ p
⎠⎝
i
⎠ ⎥y
Y =∑ +

⎢n ⎥
i
SSxx
⎢ ⎥
⎣ ⎦
2
⎡ ⎛ _
⎞⎛ _
⎞⎤
⎢1 ⎜ x p − x ⎟⎜ xi − x ⎟⎥
⎛ ⎞

⎝ ⎠⎝ ⎠ ⎥ V (y)
V ⎜Y ⎟ = ∑ ⎢ +
⎝ ⎠ ⎢ ⎥
i
n SSxx
⎢ ⎥
⎣ ⎦
⎡ ⎛ _
⎞⎛ _
⎞ ⎛ ∧ 2
⎞ ⎛ _+ 2 ⎤

⎢ ⎜ x p − x ⎟⎜ xi − x ⎟ ⎜ x p − x ⎟ ⎜ xi − x ⎟ ⎥
⎛ ⎞
∧ 1 2 ⎠+⎝ ⎠ ⎝
V ⎜Y ⎟ = ∑ ⎢ 2 + ⎝ ⎠⎝ ⎠ ⎥ δ2
⎝ ⎠ ⎢n n SSxx (SSxx ) 2

⎢ ⎥
⎣⎢ ⎦⎥
⎡ ⎛ _
⎞ ⎛ _ 2
⎞ ⎛ _ 2⎤

⎛ ⎞


n 2 ⎝
∑ ⎜ x p − x ⎟ ⎜ x p − x ⎟ ∑ ⎜ xi − x ⎟ ⎥
⎠+⎝ ⎠ ⎝ ⎠ ⎥δ 2
V⎜ y⎟ = ⎢ 2 +
⎝ ⎠ ⎢n n SSxx (SSxx )2

⎢ ⎥
⎣⎢ ⎦⎥
⎡ ⎛ _ 2
⎞ ⎛ _ 2⎤

⎢ ⎜ x p − x ⎟ ∑ ⎜ xi − x ⎟ ⎥ ⎡ 1 (x p − x )2 SSxx ⎤ 2
⎛ ⎞ ⎢1 ⎝

⎠ ⎝ ⎠ ⎥
V⎜ y⎟ = + δ = ⎢ +
2
⎥σ
⎝ ⎠ ⎢n (SSxx )2 ⎥ ⎢n
⎣ SSxx 2 ⎦⎥
⎢ ⎥
⎢⎣ ⎥⎦
⎡ ⎛ _ 2⎤

⎢ ⎜ xp − x ⎟ ⎥
⎛ ⎞
∧ 1
V⎜ y⎟ = ⎢ + ⎝ ⎠ ⎥δ 2
⎝ ⎠ ⎢n (SSxx ) ⎥
⎢ ⎥
⎣⎢ ⎦⎥

Con lo cual queda demostrado

Un intervalo de confianza alrededor de la respuesta media estará dada por:


⎛1 ⎛ _ 2⎞
⎜ + ⎜ x p − x ⎞⎟ ⎟
⎛ ∧ ⎞ ⎜n ⎝ ⎠ ⎟⎠
E ⎜⎜ Y ⎟−t
X P ⎟ α ,n−2
δ2⎝ ≤ E ⎛⎜ y ⎞⎟
⎝ ⎠ 2 SSxx ⎝ x⎠
⎛1 ⎛ _ 2⎞
⎜ + ⎜ x p − x ⎞⎟ ⎟
⎛ ∧ ⎞ ⎜n ⎝ ⎠ ⎟⎠
≤ E ⎜⎜ Y ⎟+t
X P ⎟ α ,n−2
δ2⎝
⎝ ⎠ 2 SSxx

Para una presión de 40 libras por pulgada cuadrada xp = 4, dado n = 5,


y = n-2=3 el intervalo para un 95% de confianza sería
⎛1 ⎛ _ 2⎞
⎜ + ⎜ x p − x ⎞⎟ ⎟
∧ ⎜n ⎝ ⎠ ⎟⎠
y ± tα S ⎝ o sea
2
SSxx
⎛1 ⎛ _ 2⎞
⎜ + ⎜ 4 − x ⎞⎟ ⎟
∧ ⎜5 ⎝ ⎠ ⎟⎠ ∧ _
y ± t0.025 S ⎝ Y = 2.7 ; S=0.61, X =3 SSxx=10 y
SSxx
t0.025 = 3.181
1 (4 − 3)
2
2.7 ± 3.182(0.61) + =2.7 ± 3.182*0.61*0.55 = 2.7 ± 1.1= (3.8,1.6)
5 10

Se estima que el intervalo 1.6 a 3.8 contiene la compresión media cundo


1.1es sometida 40 libras de presión en el 95% de las veces.

PREDICCION DE NUEVAS OBSERVACIONES

Un intervalo de confianza para un valor nuevo de y cuando X = Xp esta


dado por la siguiente expresión

⎡ ⎛ _ 2⎤
⎞ ⎡ ⎛ _ 2⎤


2⎢ 1 ⎜ xo − x ⎟ ⎥ ∧
2⎢ 1 ⎜ xo − x ⎟ ⎥
y− tn δ ⎢1 + + ⎜ ≤ y p ≤ y+ tn δ ⎢1 + + ⎜
,n −2 n ⎜ SSxx ⎟⎟ ⎥ ,n−2 n ⎜ SSxx ⎟⎟ ⎥
2 ⎢⎣ ⎝ ⎠ ⎥⎦ 2 ⎢⎣ ⎝ ⎠ ⎥⎦

Ejemplo: Con el fin de predecir la compresión de un trozo de material


aislante en particular Xp = 4 calculamos el intervalo de predicción del 95%
como
⎡ ⎛ _ 2⎤


2⎢ 1 ⎜ xo − x ⎟ ⎥
y± tn δ ⎢1 + + ⎜ 1 (4 − 3)
2

,n − 2 n ⎜ SSxx ⎟ ⎟ ⎥ = 2.7 ± (3.182)( 0.61) 1 + +


⎢⎣ 5 10
2
⎝ ⎠ ⎥⎦
2.7 ± (3.182)(0.61)(1.14) = 2.7 ± 2.2 = [0.05 – 1.9)

Por lo tanto predecimos que la compresión del trozo de material aislante


estará dentro (0.5 a 4.9) pulgadas.

A continuación se presenta el grafico de intervalos y se puede observar


como la amplitud del intervalo para una predicción de un valor particular es
mayor
REGRESIÓN LINEAL SIMPLE CON SPSS

Escribir una introducción como se maneja el SPSS y resolver todos los


ejercicios del texto guía del SPSS.

REGRESIÓN LINEAL POLINOMIAL


En situaciones donde la relación funcional entre la respuesta Y y la variable
independiente X no se puede aproximar adecuadamente con una relación
lineal, en algunas ocasiones es posible obtener un ajuste polinomial, es
decir, podemos ajustar el conjunto de datos a una relación funcional de la
forma:
Y = β0 + β1X1 + ...+ βrXrr + e

Donde β0, β1,... βr son coeficientes de la regresión que tienen que estimarse
de los n datos (Xi, Yi) i = 1,2,3...n; los estimadores de βj los llamaremos
βj donde j = 1, 2, ...r, y son aquellos valores que minimizan

∑ (Yi − βˆ0 − βˆ1 X 1 − ..... − βˆrX r r ) 2


n
i =1

Para obtener estos valores, obtenemos las derivadas de la suma de


cuadrados anteriores respecto a βˆ 0 , βˆ1 ,.....βˆr y luego igualamos a cero para
obtener los valores que minimizan la suma de cuadrados, al realizar estos
pasos y al organizar algunos términos se obtienen las siguientes ecuaciones
normales.
)
∑ ∑i =1 ∑i=1 ∑i=1
ˆ 1 n Xi + βˆ 2 n Xi 2 ...... + βˆr n Xi r
0 = nβ 0 + β
n
i =1
Y

∑ YiXi = β 0 ∑i =1 Xi + βˆ1 ∑i =1 Xi 2 + β 2 ∑i =1 Xi 3 + .......... + βr ∑i =1 Xi r +1


n n n n n
i =1

∑ ˆ
β ∑ 1 ∑i =1 ∑i =1
ˆ n Xi 3 + ........... + βˆr n Xi r + 2
β
n n
i =1
YiXi 2
= 0 i =1
Xi 2
+
. . .
. . .
. . .
. . .
. . .

∑ YiXi r = βˆ 0 ∑i =1 Xi r + βˆ1 ∑i =1 Xi r +1 + βˆ 2 ∑i =1 Xi r + 2 + ......... + βˆr ∑i =1 Xi 2 r


n n n n n
i =1

Antes de ajustar un polinomio de grado r a un conjunto de datos debe


realizarse un diagrama de dispersión para determinar el valor más probable
de r, o a través del paquete SPSS este podrá determinar el valor más
probable de r encontrando el coeficiente de determinación de cada modelo.
Siempre debe usar el menor grado del polinomio posible que parezca
describir los datos adecuadamente.
Ejemplo: Ajuste una función polinomial a los siguientes datos:

x 1 2 3 4 5 6 7 8 9 10
y 20.6 30.8 55 71.4 97.3 131.8 156.3 197.3 238.7 291.7

Realizando una grafica de dispersión y observando los modelos lineal,


cuadrático y cúbico se obtuvo los siguientes resultados.

MODELO R2 bo b1 b2 b3
LINEAL 0.967 -34.107 29.672
CUADRATICO 0.999 12.6433 6.2971 2.1250
CUBICO 0.999 5.1567 12.9374 0.6853 0.0873

GRAFICO DE DISPERSION

400
300
200
Y

100
0
0 5 10 15
X

Observando los resultados anteriores tanto el gráfico como la dispersión de


los datos estos sugieren que se debe ajustar un modelo cuadrático y estas
son sus ecuaciones:
)
∑ β 0+ β ∑i =1 ∑i =1 ∑i =1
ˆ 1 n Xi + βˆ 2 n Xi 2 ...... + βˆr n Xi r
n
i =1
Y = n

∑ YiXi = β 0 ∑i =1 Xi + βˆ1 ∑i =1 Xi 2 + β 2 ∑i =1 Xi 3 + .......... + βr ∑i =1 Xi r +1


n n n n n
i =1

∑ YiXi 2 = βˆ 0 ∑i =1 Xi 2 + βˆ1 ∑i =1 Xi 3 + ........... + βˆr ∑i =1 Xi r + 2


n n n n
i =1

∑X ∑X ∑X ∑X
2 3 4
1 = 55 1 = 385 1 = 3025 1 = 25333

∑Y ∑Y X ∑X
2
1 = 1291.1 1 1 = 9549.3 1 Y1 = 77758.9
1291.1 = 10 βˆ 0 + 55βˆ1 + 385 βˆ 2

9549.3 = 55βˆ 0 + 385 βˆ1 + 3025 βˆ 2

77758.9 = 385 βˆ 0 + 3025 βˆ1 + 25333βˆ 2

Estas ecuaciones normales se pueden escribir en notación matricial como


sigue:

1291.1 10 55 385 β̂ 0

9549.3 55 385 3025 β̂ 1

77758.9 385 3025 25333 β̂ 2

Resolviendo este sistema para β̂i se tiene:


-1
β̂ 0 10 55 385 1291.1

β̂ 1 55 385 3025 9549.3

β̂ 2 385 3025 2533 77758.9

β̂ 0 = 12.6433 β̂ 1 =6.2971 β̂ 2 =2.1250

CAPITULO 3
REGRESIÓN LINEAL MÚLTIPLE

En la mayoría de las aplicaciones, la respuesta de un experimento puede


predecirse de manera mas adecuada no con base en una sola variable de
entrada independiente sino con una colección de k variables
independientes, donde Y se puede expresar mediante la siguiente relación:

Y = β 0 + β 1 X 1 + β 2 X 2 + ...... + βkXk + e
Donde Xj, j = 1, 2, 3, .... k es el número de variables j
independientes y e es el error aleatorio distribuido normal con
media cero y varianza constante ( σ 2 ).

Se supone que los parámetros β 0 , β 1 , β 2 ,......βk y σ 2 no se conocen y


deben estimarse a partir de los datos, los cuales se pueden
representar como:
Y1 = β 0 + β 1 X 11 + β 2 X 12 + ........β j X 1 j ............ + β k X 1k + e1

Y2 = β 0 + β 1 X 21 + β 2 X 22 + ........β j X 2 j ............ + β k X 2 k + e2

Yi = β 0 + β 1 X i1 + β 2 X i 2 + ........β j X i j ............ + β k X ik + ei

Yn = β 0 + β 1 X n1 + β 2 X n 2 + ........β j X n j ............ + β k X nk + en

Estas ecuaciones pueden representarse matricialmente de la siguiente


manera:

Y1 1 X11 X12 ...........X1j........X1k β̂ 0 e1

Y2 1 X21 X22...........X2j..........X2k β̂ 1 e2

Yi 1 Xi1 Xi2............Xij...........Xik β̂i ei

Yn 1 Xn1 Xn2...........Xnj……...Xnk β̂k en

En resumen se tiene Y = Xβ + ε .

El valor esperado de Yi es como sigue:

E(Yi) = β 0 + β 1 X i1 + β 2 X i 2 + ........β j X i j ............ + β k X ik

Una gráfica de E(y) como función de X1 y X2 describe una superficie,


llamada superficie de respuesta.

Y
E (Y ) = β 0 + β 1 X 1 + β 2 X 2

X2

X1

En gran parte de las aplicaciones reales aplicaremos un modelo de la


forma:

E (Y ) = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 1 X 2 + β 4 X 1 + β 5 X 2
2 2

Que corresponde a una curvatura en la superficie de respuesta:

X2

X1
Después de seleccionar la parte determinística de un modelo E(Y), todo Y
puede representarse de la siguiente manera:

Y = Xβ + E ⇒ E(Y)= Xβ

SUPUESTOS DEL ANÁLISIS DE REGRESIÓN


MULTIPLE

1. E(E) = 0

Esto implica que la media de Y es equivalente a la parte deterministica:

E (Y ) = β 0 + β 1 X 1 + β 2 X 2 + ............β K X K

2. Para todos los valores de la variable independiente X1, X2, .......XK la


varianza de E es constante σ 2 .
3. La distribución de probabilidad de E es normal.
4. Los errores aleatorios son independientes en un sentido
probabilístico.

INTERPRETACIÓN DE LOS SUPUESTOS

1. El valor esperado de los errores es cero.

E1 E(E1 ) 0

E(E) = E E2 = E(E2) = 0

E3 E(E3) 0

2. Para interpretar los supuestos 2 y 4 recordaremos algunos conceptos


de los vectores aleatorios.

E = (e1, e2, .............en)

COV(E) = E (E - E(E) (E - E(E) = E (E - 0) (E - 0)


e1
e2
(E´ E) = E . (e1, e2, .......en) =
.

en

e12 e1e2 ............ e1en


E e2e1 e22 ............. e2en =
.
.
ene1 ene2 ............. en2

E(e12) E(e1e2).......... E(e1en)

= E(e2e1) E(e22)........... E(e2en)


.
.
.
E(ene1) E(ene2)......... E(en2)

2
V(ei) = E (ei2) - [E (ei )]2 = E(ei2) – 0 = E(ei) = σi

COV (ei eJ) = E (ei - E (ei)) (eJ - E (eJ)) = E (eiej) = σij


E (ei e j ) − E (ei )E (e j ) = E (ei e j )
Reemplazando estas expresiones en la matriz anterior se tiene que:

σ 12 σ12...........σ1n
COV(E) = σ21 σ22...........σ2n

σn1 σn2...........σn2

La matriz anterior es simétrica esto debido a que σij = σji.

Si los supuestos 2 y 4 son verdaderos se tiene que:

σ12 = σ22 = ...... σn2 = σ2 y

σij = 0 para i ≠ j

Por lo tanto la matriz de covarianza presenta la siguiente estructura:

σ2 0 0....... 0

COV(E) = 0 σ2 0....... 0 = σ2I

0 0 0....... σ2

2
COV(E) = σ I

DISTRIBUCIÓN NORMAL MULTIVARIADA

El supuesto número tres afirma que el vector E tiene una distribución


normal multivariada:

f(E) = f (e1, e2, ....... en)


La distribución normal multivariada se define como una función de
densidad conjunta:

f(x) = f(x1, x2, ….. x3) 1 e ( −1 / 2 ( x − µ )'∑ −1 ( x − µ ))


n 1/ 2

donde:
n = es el número de componentes en el vector
∑ = COV(X)
X = Vector aleatorio
µ = valor esperado

Si los supuestos 1, 3 y 4 son verdaderos la distribución normal multivariada


para el vector de errores queda expresado de la siguiente manera:

1
ε ´( I ) − ε
f(E) = f (e1, e2, ....... en) = ) 1 e σ2


n 1/2

1
Observe que ∑= σ 2
I

Una manera simplificada para expresar que un vector aleatorio es normal


multivariada se representa de la siguiente manera:

X = N (µ, Σ)

µ = vector

Σ = COV(X)

Para el caso del vector de los errores y bajo los supuestos se tiene que:

ε = N (0, σ1 I )
2
AJUSTE DEL MODELO POR EL MÉTODO
DE LOS MINIMOS CUADRADOS

El modelo general múltiple se representa de la siguiente manera:

Yi = β 0 + β 1 X i1 + ............β k X ik + ei

Llamaremos βˆ 0 , βˆ1 ...........βˆ k los estimadores de βi donde i = 1, 2, ....k.

Al igual que en la regresión lineal simple la estimación de los parámetros


se hará por el método de los mínimos cuadrados (se tomará aquellos β̂i que
minimicen la sumatoria de los errores al cuadrado.

e1
e2
EE’ = (e1, e2, ....... en) . = ∑e i
2
= ∑ ( y i − yˆ ) 2 = SSE
.
en

n
SSE = ∑ ( yi − yˆ ) 2 = ∑ ( yi − ( β 0 + β1 X i1 + ........β k X ik )) 2
i =1

Para determinar los estimadores de mínimos cuadrados, tomamos las


derivadas parciales de la suma de cuadrados anteriores, primero con
respecto a β̂ 0 , luego a β̂ 1 y después β̂ k , e igualamos a cero las k+1
ecuaciones.

∂SSE ∂SSE ∂SSE


=0 =0 =0
∂βˆ0 ∂βˆ 1 ∂βˆ K

Y se obtienen los siguientes resultados:

∑ − 2( y i − βˆ 0 − βˆ1 X i1 − βˆ 2 X i 2 − ...............βˆ k X ik ) = 0
∑ − 2X i1 ( y i − βˆ 0 − βˆ1 X i1 − βˆ 2 X i 2 − ...............βˆ k X ik ) = 0

∑ − 2X i2 ( y i − βˆ 0 − βˆ1 X i1 − βˆ 2 X i 2 − ...............βˆ k X ik ) = 0
.
.
.
∑ − 2X ik ( y i − βˆ 0 − βˆ1 X i1 − βˆ 2 X i 2 − ...............βˆ k X ik ) = 0

Rescribiendo estas ecuaciones obtenemos que los estimadores de


mínimos cuadrados βˆ 0 ...........βˆ k satisfacen el siguiente conjunto de
ecuaciones lineales, llamadas ecuaciones normales:

∑y i = nβˆ 0 + βˆ1 ∑ X i1 + βˆ 2 ∑ X i 2 + ............. + βˆ k ∑ X ik

∑X y i = β̂ 0 ∑ X i 1 + βˆ1 ∑ X i1 + βˆ 2 ∑ X i 2 X i 1 + ............. + βˆ k ∑ X ik X ik
2
i1

∑X y i = βˆ 0 ∑ X ik + βˆ1 ∑ X i1 X ik + βˆ 2 ∑ X i 2 X ik + ............. + βˆ k ∑ X ik
2
ik

Estas ecuaciones normales pueden representarse matricialmente de la


siguiente manera:
X´X β̂ = XÝ

Demostración:

1 1........ 1 1 X11 X12 ........X1K

X11 X21...... Xn1 1 X21 X22....... X2K


X´X =
X12 X22....... Xn2 1 ......
. .
.
. .
X1k X2k....... Xnk 1 Xn1 Xn2 Xnk

n ΣXi1 ΣXi2................ ΣXik β̂ 0

X´X = ΣX11 ΣXi12 ΣXi2Xi1 ΣXikXi1 β̂ 1


ΣXik ΣXi1Xik ΣXi2Xik ΣXik2 βˆ k

1 1........ 1 Y1 ΣY1

X11 X21...... Xn1 Y2 ΣY1Xi1


XÝ = =
X12 X22....... Xn2 ΣY1Xi2
.
.
X1k X2k....... Xnk Yn ΣY1Xik
Con lo cual queda demostrado que una manera de representar las
ecuaciones normales mediante notación matricial está dada por la
siguiente expresión:

X´X β̂ = XÝ

La matriz X´X proporciona la siguiente información:


n
a. Las sumas simples de cada variable ∑X
i =1
ik .
n

∑X
2
b. Sobre la diagonal principal la suma de cuadrados ik .
i =1

c. Fuera de los elementos de la diagonal se presenta la suma


n
simple de los productos cruzados ∑X
i =1
iL X jk donde L ≠ K

Una característica importante de X´X es que una matriz simétrica


(X´X)´ = X´X.

Otra manera de llegar a las ecuaciones normales expresadas en forma


matricial es la siguiente

Υ = Χβ + ε ⇒ ε = Υ − Χ β̂

ε′ε = (Υ − Χ β̂ )′(Υ − Χ β̂ ) = Υ′Υ − β̂ ′Χ′Υ − Υ′Χ β̂ + β̂ ′Χ′Χ β̂


Recordar que Χ β̂ ′= β̂ ′Χ′ además β̂ ′Χ′Υ es un escalar y es igual a su
transpuesto.

( β̂ ′Χ′Υ) = Υ′Χβ
Se tiene Υ′Υ − β̂ ′Χ′Υ − Υ′Χ β̂ + β̂ ′Χ′Χ β̂ = Υ′Υ − 2 β̂ ′Χ′Υ + β̂ ′Χ′ X β̂ = ε′ε

∂ε′ε / ∂ βˆ = −2Χ′Υ + 2Χ′Χ βˆ igualamos a cero

−2Χ′Υ + 2Χ′Χ β̂ = 0
2Χ′Χ β̂ = 2Χ′
Χ′Χ β̂ = Χ′Υ
Estas son las ecuaciones normales representadas matricialmente y
calculadas con anterioridad al despejar β̂ de dichas ecuaciones se tiene
que β̂ =(Χ′Χ)-Χ′Υ

Ejemplo : Para nuestro problema tradicional calcular la estimación de los


β̂ i mediante notación matricial :

PRESION x COMPRESIÓN y
1 1
2 1
3 2
4 2
5 4

Χο Χ1
1 1 1
1 1 2 ε1
2 1 3 βΟ ε2
Υ= 2 Χ= 1 4 β= ε= ε3
4 1 5 β1 ε4

1 1
1 1 1 1 1 1 2 5 15
X′ Χ = 1 3 =
1 2 3 4 5 1 4 15 55
1 5

1 1 1 1 1 1
1 10
Τ
Χ Υ = 1 2 3 4 5 2 =
2 37
4
−1
5 15
(Χ′Χ)−1 =
15 55

Recordemos como se halla la inversa de una matriz de 2x2

a11 a12
Α=
a21 a22

Α= Matriz adjunta Α/ determinante Α+

determinante A = a11 * a22 - a12* a21


cofactor de a11= a22

A+ = cofactor de a21=-a12
cofactor de a22 = a11
cofactor de a12 =-a21

55 −15
( X ′X )
−1
=
-15 5

55 * 5 − 152 = 50

1.1 -0.3

( X ′X )−1 =
− 0.3 0.1

1.1 −0.3 10 −0.1


−1
β̂ = (Χ′Χ) ΧΥ = =
-0.3 0.1 37 0.7

βˆ 0= -0.1 βˆ 1 = 0.7 y por lo tanto la ecuación de predicción es


Υ= 0 .1+0.7x

Resultados que concuerdan con la soluciones anteriores.

Ejemplo : Montgomery y Peck (1992) utilizaron un modelo de regresión


para relacionar la cantidad de tiempo que requiere un vendedor para dar
servicio a una maquina expendedora de refrescos, (Y) con el número de
envases contenidos en la máquina (X) y la distancia del vehículo de
servicio al sitio donde se encuentra la máquina (X2).

OBSERVACION X1 X2 Y
1 2 50 9.95
2 8 110 24.45
3 11 120 31.75
4 10 550 35
5 8 295 25.02
6 4 200 16.86
7 2 375 14.38
8 2 52 9.6
9 9 100 24.35
10 8 300 27.5
11 4 412 17.08
12 11 400 37
13 12 500 41.95
14 2 360 11.66
15 4 205 21.65
16 4 400 17.89
17 20 600 69
18 1 585 10.30
19 10 540 34.93
20 15 250 46.59
21 15 290 44.88
22 16 510 54.12
23 17 590 56.23
24 6 100 22.13
25 5 400 21.15
X0 X1 X2

1 2 50 9.95
1 8 110 24.45
1 11 120 31.75
1 10 550 35
1 8 295 25.02
1 4 200 16.86
1 2 375 14.38
1 2 52 9.60
1 9 100 24.35
1 8 300 27.50
1 4 412 17.08
1 11 400 37
1 12 500 41.95
Χ= 1 2 360 Υ= 11.66
1 4 205 21.65
1 4 400 17.89
1 20 600 69
1 1 585 10.30
1 10 540 34.93
1 15 250 46.59
1 15 290 44.88
1 16 510 54.12
1 17 590 56.63
1 6 100 22.13
1 5 400 21.15

1 2 50
1 1............1 1 8 110
Χ′Χ = 2 8.............5 . . .
50 110..........400 1 5 1100

25 206 8294
Χ′Χ = 206 2396 77177
8294 77177 3531848

9.45
1 1...........1 24.45
Χ′Υ = 2 8 5 .
50 110 400 21.15

725.82
Χ′Υ = 8008.37
274811.31

β̂ = (Χ′Χ)-1 Χ′Υ

βο 25 206 8294 -1
725.82
β1 = 206 2396 77177 8008.37
β2 8294 77177 3531848 274811.31

βο 2.26379143
β1 = 2.74426964
β2 0.01252781

0.21653 − 0.007491 0.000340


(Χ′Χ)
-1
= − 0.007491 0.001671 -0.000019
− 0.000340 −0.0000019 -0.000015

El modelo de predicción será el siguiente:


Ŷ = 2.26379 + 2.74427X1 + 0.01253X2

PROPIEDADES DE LOS ESTIMADORES DE MINIMOS


CUADRADOS

Los estimadores de β en la regresión múltiple a través del método de los


mínimos cuadrados… producen estimadores insesgados y de mínima
varianza.
A continuación solo se demostrará que son insesgados y se hallará la matriz
de covarianza para dichos estimadores.

a. ESPERANZA DE β̂

-1
β̂ =(Χ′Χ) ΧΥ
-1
β̂ =(Χ′Χ) Χ′(Χβ+ε)
-1 -1
β̂ =(Χ′Χ) (Χ′Χ)β+(Χ′Χ) Χ′ε
β̂ =β+(Χ′Χ)Χ′ε
Ε( β̂ )=β+(Χ′Χ) Χ′Ε(ε)=β Puesto que Ε(ε)=0
Ε( β̂ )=β
Concluimos que β̂ es un estimador insesgado

b. MATRIZ DE COVARIANZAS PARA β̂

de (Ι) se tiene que β̂ =β+(Χ′Χ)-1 Χ′ε


por lo tanto βˆ −β=(Χ′Χ)Χ′ε
COV( β̂ )=Ε[( β̂ −Ε( β̂ ))( βˆ −Ε( β̂ )′]
COV( β̂ )=Ε[( β̂ −β)( β̂ −β)′]
COV( β̂ )=Ε[(Χ′Χ)-1Χ′ε(Χ′Χ)-1Χ′ε)′]

COV( β̂ )=Ε[(Χ′Χ)-1Χ′εε′Χ(Χ′Χ)-1]
COV( β̂ )=[(Χ′Χ)-1Χ′Ε(εε′)Χ(Χ′Χ)-1]
COV( β̂ )=[(Χ′Χ)-1Χ′σ2 ΙΧ(Χ′Χ)-1] = σ2[(Χ′Χ)-1(Χ′Χ)(Χ′Χ)-1]
COV( β̂ )=σ2 (Χ′Χ)-1

Llamaremos (Χ′Χ)−1= C

Donde C es simétrica

COV( β̂ )=σ2(Χ′Χ)-1=σ2C

C00 C01 C02


C= C01 C11 C12 C01=C10 ; C02=C20 ; C12=C21
C20 C21 C22

σ2 β̂ 0=σ2C00 ; σ2 β̂ 1=σ2C11 ; σ β̂ 2=σ2C22


COV( β̂ 0, β̂ 1)=σ2C01 ; COV( β̂ 0 β̂ 2)=σ2C02
COV( βˆ i βˆ i)=σ2Cij
V( β̂ j)=σ2Cjj
COV( β̂ i β̂ j)=σ2Cij=σ2Cji i≠j

ESTIMACION DE σ , LA VARIANZA DE ε

ε′ε=SSE=(Υ−Χ β̂ )′(Υ−Χ β̂ )=Υ′Υ−2 β̂ ′Χ′Υ+ β̂ ′Χ′Χ β̂


Puesto que Χ′Χ β̂ =Χ′Υ se tiene que
SSE=Υ′Υ−2 β̂ ′Χ′Υ+ β̂ ′Χ′Υ=Υ′Υ− β̂ ′Χ′Υ
Un estimador insesgado de σ esta dado por el error o error cuadrático
medio.

SSE y `y − β `x`y
σ 2 = S2 = =
n− p n− p

Ejemplo: Estimar el error cuadrático medio para los dos anteriores


ejemplos σ2

−0.1 10
β̂ = Χ′Υ=
0.7 37

Υ′Υ=[1 1 2 2 4 ] 1
1
2 = 26
2
4

10
β′Χ′Υ=[−0.1 0.7] = 24.9
37
SSE=Υ′Υ−β′Χ′Υ=26−24.9=1.1
SSE 1.1
S2 = = = 0.367 ; S = 0.367 = 0.605 ≈ 0.61
n− p 5−2
σ 2 β 1 = σ C11 = 0.367 * 0.1 = 0.0367;σ β 1 = 0.0367 = 0.19
σ 2 β 0 = σ C00 = 0.367 *1.1 = 0.04037;σ β 0 = 0.4037 = 0.6355
Ejemplo: para el problema del vendedor se tiene
25
Υ′Υ= ∑ yi 2 =27177.4510
i =1
725.8
β′Χ′Υ=[2.26379110 2.74426964 0.01252781] 8 008.37
274811.3

β′Χ′Υ=27062.7775
SSE=Υ′Υ−β′Χ′Υ
=27177.4510−27062.7775
=115.1735
SSE 115.1735 115.1735
σ 2= = =115.1735 = = 5.2352 115.1735
n− p 25 − 3 22
σ = σ 2 = 5.2352 = 2.28805

Ejercicio: hallar σ 2 β 0 ; σ 2 β1 ; σ 2 β 2 ; σ β 0 ; σ β1

PRUEBAS DE HIPÓTESIS EN LA REGRESIÓN LINEAL


MÚLTIPLE

En la regresión lineal múltiple existen pruebas de hipótesis sobre todos los


parámetros del modelo para probar la significancia del mismo, y sobre cada
parámetro del modelo para determinar que una variable en particular tiene
alguna contribución al modelo (esto es posible si se cumplen los supuestos
del modelo).

Significancia del modelo

La prueba para la significancia del modelo determina si existe una relación


lineal entre la variable de respuesta y y un subconjunto de las variables de
regresión x1, x2, ..., xk. La hipótesis apropiada es:

Ho β1 = β2 = ....... = βp = 0
Ha βJ ≠ 0 almenos para una J

El rechazo de la hipótesis nula indica que almenos una de las βJ es diferente


de cero. Para probar la hipótesis de la significancia del modelo cobra
importancia la tabla de análisis de varianza.

Fuente de Suma de Grados de Cuadrado F Signifi-


variación cuadrados libertad medio cancia
Variación SSR P–1 CMR= SSR/P – 1 CMR/CME p
Residuo SSE N–P CME=SSE/N – P
Total SSyy N–1

Donde:

⎛ __

2
(∑ y ) 2

∑ ∑
2
= ⎜ yi − y ⎟ = −
i
SS yy yi
⎝ ⎠ n
2
⎛ ⎞ ∧
SSE = ∑ ⎜ y i − yˆ i ⎟ = y ` y − β `x ` y =
⎝ ⎠
∑ y i2 − β `x ` y

⎛ __

2
(∑ y ) 2

SSR = ∑ ⎜ yˆ i − y ⎟ = β `x ` y −
i

⎝ ⎠ n

La tabla de análisis de varianza plantea que la suma de cuadrados total se


puede descomponer en dos partes
SSyy = SSR + SSE

Demostración:

De las fórmulas anteriores se tiene que

SSE = y`y - β`x`y

Sumando y restando
(∑ y ) i
2

se tiene
n

SSE = y`y -
(∑ y ) i
2

- [β`x`y -
(∑ y ) i
2

]
n n
SSE = SSyy –SSR despejando SSyy

SSyy = SSE – SSR

Si la hipótesis nula es verdadera Ho βJ = 0 para toda J se tiene que


SSR
tiene una distribución Chi cuadrado también puede demostrarse que
σ2
SSE
también se distribuye Chi cuadrado
σ2
s2 =
SSE
SSE = (n − P )s 2
(n − P )s 2 =
SSE
n−P σ 2
σ2
SSR SSR

De la definición de f se tiene que f 0 =


(P − 1)σ = (P − 1) = CMR
2

SSE SSE CME


(n − P )σ 2
(n − P )
Debemos rechazar la hipótesis nula si f0 es mayor a fα, P-1,n-P o si el valor
de p en el análisis de varianza es menor a α.

Ejemplo: Para el problema de regresión del vendedor rechazar la prueba


de hipótesis.

Ho: βJ = 0 J = 1, 2, ...., p
Ha: βJ ≠ 0 para almenos un J

y`y = 271779510
(∑ y ) 2

=
(725.82)2
n 25
β`x`y = 27062.7775

De la anterior información se tiene que:

SS yy = y`y −
(∑ y ) 2

= 27177.4510 −
(725.82)2 = 6105.9447
n 25

Y la suma de cuadrados de la regresión se calcula de la siguiente manera:

SSR = β `x`y −
(∑ y ) 2

= 27061.7775 −
(725.82 )
= 5990.7712
2

n 25
SSE = SS yy − SSR = 6105.944 − 5990.7712 = 115.1735

5990 .7712 5990 .7712


CMR = = = 2995 .38
P −1 2
SSE 115 .1735
CME = = = 5 .2352
n−P 22
CMR 2995 .3856
f0 = = = 572 .17
CME 5 .2352

f0.05, 2, 22 = 3.44

Como f0 > f0.05, 2, 22 572.17 > 3.44 se rechaza la hipótesis nula


Fuente de Suma de Grados de Cuadrado F Significancia
variación cuadrados libertad medio
Variación 5990.7712 2 2995.3856 572.17 0.0000001
Residuo 115.1735 22 5.2352
Total 6105.9447 24

O en la anova anterior el valor de p es mucho menor que α.

Tarea: Para el problema de la presión y compresión probar:

Ho: β0 = β1 = 0
Ha: β0 ≠ 0 o β1 ≠ 0

Pruebas sobre los coeficientes individuales de la regresión y sobre un subconjunto

En ocasiones se tiene interés en hacer pruebas de hipótesis e intervalos de


confianza sobre cada coeficiente de la regresión. Dichas pruebas son
importantes para determinar el valor potencial de cada una de las variables
del modelo de regresión. El modelo puede ser más eficaz con la inclusión
de una variable o con la eliminación de una o más variables.

La adición de una variable al modelo de regresión siempre hace que la


suma de los cuadrados de la regresión aumente y la suma de los cuadrados
del error disminuyan.

Por lo tanto, debe si el aumento a la suma de cuadrados de la regresión es


suficientemente grande como para justificar el uso de una variable mas en
el modelo.

Por otra parte, la adición de una variable sin importancia puede aumentar el
error cuadrático medio, esto disminuye la calidad del modelo debido a que
SSR
= P −1
CMR
el estadístico f disminuye f =
CME SSE
n−P

Para realizar las diferentes pruebas de hipótesis y construir los intervalos de


confianza, se hace la suposición que los supuestos del modelo se cumplen.
a) Intervalos de confianza

βJ − βJ
Están basados en el estadístico t= donde CJJ es el J esimo
s 2C JJ
elemento de la matriz (x`x)-1 y s2 es la estimación de la varianza del error
SSE
s2 =
n−P
Un intervalo de confianza para βJ esta dado por la siguiente expresión:

∧ ∧
β J − tα , n − P s 2C JJ ≤ β J ≤ β J + tα n − P s 2C JJ
2 2

Ejemplo: Construir un intervalo de confianza del 95% para el parámetro


β1 del problema de tiempo de suministro de refresco, nótese que la

estimación puntual de β1 es β1 = 2.74427 el elemento de la diagonal de
(x`x)-1 que corresponde a β1 es C11 = 0.001671; s2 = 5.2352 y en la tabla t
estudent
tα , n − P = t0.025 ,22 = 2.074
2
Un intervalo estará dado por la siguiente expresión:

2.74427 − (2.074) 5.2352 * 0.001671 ≤ β1 ≤ 2.7442 + (2.074) 5.2352 * 0.001671


P(2.55029 ≤ β1 ≤ 2.93825) = 0.95

Ejemplo: Calcule un intervalo de confianza para β1 en el problema de la


presión y compresión del 95% de confianza:

1.1 − 0.3⎤ C00 = 1.1


(x`x )−1 = ⎡⎢ ⎥
⎣ − 0 .3 0 .1 ⎦ C11 = 0.1

S ∧ = s 2 C 11 = 0 . 367 * 0 . 1 = 0 . 192
β1

t α , n − P = t 0 .025 ,3 = 3 . 182
2

0 . 7 − 3 . 182 * 0 . 192 ≤ β 1 ≤ 3 . 182 * 0 . 192 + 0 . 7
⎛ ∧

P ⎜ 0 . 09 ≤ β 1 ≤ 1 . 31 ⎟ = 0 . 95
⎝ ⎠
b) Pruebas de hipótesis

Considere los datos sobre tiempo de suministro de refresco y supóngase


que se busca probar la hipótesis que el coeficiente de regresión de x1 es
diferente de cero.
Ho: β1 = 0 α = 0.05
Ha: β1 ≠ 0


β1 2.74427
t= = = 29.349
s 2C11 5.2352 * 0.001671
tα , n − P = t0.025 ,22 = 2.074
2

Como t 0 .025 , 22 = 2 . 074 se rechaza la Ho: β1 = 0 y se concluye que la


variable x1 (número de envases tiene contribución importante en el modelo.

Taller: En el SPSS realizar los ejercicios desde la página 619 hasta la 625.

PREDICCIÓN DE NUEVAS OBSERVACIONES

Un modelo de regresión puede emplearse para predecir observaciones


futuras de la variable de respuesta y, correspondientes a valores particulares
de las variables independientes, por ejemplo:
Xi1, Xi2, ..., Xip si Xi`= (1, Xi1, Xi2, ..., Xip) entonces una estimación puntual
∧ ∧
de la observación futura Yi en el punto Xi1, Xi2, ..., Xip es y i = x i `β .

Un intervalo de predicción del 100(1 - α) para esta observación futura es:

( ( )) ( ( ))
∧ ∧
yi − tα , n − P s2 1 + xi `(x`x) xi ≤ yi ≤ yi + tα , n − P s2 1 + x`ì (x`x) xi
−1 −1

2 2

Ejemplo: Supóngase que el embotellador de refrescos desea construir un


intervalo de predicción del 95% para el tiempo de suministro a un
distribuidor donde x1 = 8 envases y la distancia que camina el empleado es
x2 = 275 pies. Por tanto

Xi` = [1 8 275] y la estima con puntual para

⎡ 2 .26379 ⎤
∧ ∧
yi = X i `β = [1 8 275 ]⎢⎢ 2 .74427 ⎥⎥ = 27 .66 además
⎢⎣ 0 .01253 ⎥⎦

⎡ 0.21653 − 0.007491 − 0.00034 ⎤ ⎡ 1 ⎤


xo `( x`x) xo = [1 8 275] ⎢⎢ − 0.00749 0.001671 − 0.000019⎥⎥ ⎢⎢ 8 ⎥⎥ = 0.0444
−1

⎢⎣− 0.000340 − 0.000019 − 0.0000015⎥⎦ ⎢⎣275⎥⎦

(
P 27.66 − 2.074 5.2352 * (1 + 0.0444 ) ≤ yi ≤ 27.66 + 2.074 5.2352 * (1 + 0.0444 ) = 0.95 )
P(22.81 ≤ yi ≤ 32.51) = 0.95

INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA

También puede obtenerse un intervalo de confianza para la respuesta


promedio en un punto en particular por ejemplo Xi1, Xi2, ..., Xip. El vector
xi se representa como:
⎡ 1 ⎤
⎢X ⎥
⎢ i1 ⎥
xi = ⎢ X i 2 ⎥
⎢ ⎥
⎢ M ⎥
⎢ X ip ⎥
⎣ ⎦

µy
La respuesta promedio en este punto es Ε⎛⎜ y x ⎞⎟ = = x`ì β la cual es
⎝ i ⎠ xi

estimado por µy ∧
.
= x `ì β
xi
⎛ y⎞ µ
El estimador anterior es insesgado ya que Ε⎛⎜ x`ì β ⎞⎟ = x`ì β = Ε⎜⎜ ⎟⎟ = y la

⎝ ⎠ ⎝ xi ⎠ xi
⎛ ∧ ⎞
⎜µ ⎟
varianza es: V ⎜ y ⎟ = σ 2 x`ì (x`x )−1 xi
⎜ xi ⎟
⎝ ⎠
Un intervalo de confianza del 100(1-α) para µ y xi puede construirse a

µ y xo − µ y xo
partir del estadístico:
s 2 x`ì ( x`x ) xi
−1

El intervalo de confianza esta dado por la siguiente expresión:


(( )) (( ))
∧ ∧
µy xi − tα , n − P s2 xi `(x`x)−1 xi ≤ µy xi ≤ µy xi + tα , n − P s2 x`ì (x`x)−1 xi
2 2

Ejemplo: El embotellador de refrescos le gustaría construir un intervalo de


confianza del 95% para el tiempo promedio de suministro a un distribuidor
que requiere x1 = 8 envases y la distancia x2 = 275 pies.

⎡ 1 ⎤ ⎡ 2.26374⎤
xi = ⎢⎢ 8 ⎥⎥ µy xo = x`ì β = [1 8 275]⎢⎢2.74427 ⎥⎥ = 27.86
⎢⎣275⎥⎦ ⎢⎣ 0.01253⎥⎦

La varianza es:
⎡ 0.214653 − 0.007491 − 0.000540⎤ ⎡ 1 ⎤
⎛ ∧ ⎞ 2
V ⎜ µ y xi ⎟ = s x`ì ( x`x ) xi = 5.2352[1 8 275]⎢⎢− 0.007491 0.001671 − 0.000019⎥⎥ ⎢⎢ 8 ⎥⎥
−1

⎝ ⎠
⎢⎣ − 0.0034 − 0.000019 0.0000015⎥⎦ ⎢⎣275⎥⎦

⎛ ∧ ⎞
V ⎜ µ y xi ⎟ = 0.23266 por tanto, un intervalo de confianza del 95% para el
⎝ ⎠
suministro promedio es:

27.66 − 2.074 0.23266 ≤ µ y xi ≤ 27.66 + 2.074 0.23266


26.70 ≤ µ y xi ≤ 28.66

MEDIDAS DE ADECUACIÓN DE UN MODELO

a) Coeficiente de determinación múltiple

El coeficiente de determinación múltiple R2 esta definido como:


SSR SSE
R2 = = 1− .
SS yy SS yy

R2 es una medida de la reducción en la variabilidad de y obtenida mediante


el empleo de las variables de regresión x1, x2, ..., xp al igual que en el caso
de la regresión lineal simple -1 ≤ R2 ≤ 1.

Un valor de R2 grande no necesariamente implica que el modelo de


regresión es bueno, la adición de una nueva variable al modelo siempre
aumenta R2, sin importar si la variable es una estadísticamente
significativa. Es así como los modelos que tienen valores de R2 grandes
pueden proporcionar predicciones pobres.

La raíz cuadrada de R2 se llama coeficiente de correlación múltiple entre y


y el conjunto de variables x1, x2, ..., xk, R es una medida de la asociación
lineal entre y x1, x2, ..., xp.

Ejemplo: El coeficiente de determinación múltiple para nuestro modelo


es:

SSR 5990.7712
R2 = = = 0.981137
SS yy 6105.9447

El 98.11% de la variabilidad en el tiempo suministrado y queda explicado


cuando se utiliza dos variables de regresión, volumen suministrado (x1) y
distancia (x2).

b) Análisis de los residuos

ƒ Aleatoriedad (ver SPSS).


ƒ Normalidad (ver SPSS).

ƒ Intervalos de confianza para y, y (ver SPSS)
ƒ Pruebas de normalidad
Para probar la normalidad de los datos se elige el menú analizar del
SPSS → estadísticos descriptivos → explorar y se coloca en la pantalla
resultante en dependiente la variable sobre la cual se mide la
normalidad, en ambos se analiza los gráficos y estadísticos en explorar
estadísticos se le coloca el chulito y si se desea se plantea un intervalo
de confianza para µ. En explorar gráfico se teclea niveles de los
factores juntos y gráficos en prueba de normalidad. A continuación se
presentan los resultados que arroja esta corrida de SPSS.
• Gráfico Q – Q normal: entre más próximo estén los puntos sobre
la recta mejor es el ajuste de normalidad.
• En estadísticos descriptivos debe observarse los estadísticos de
asimetría y curtosis.

3 2

n __
⎞ ⎛ __

∑ ⎜ xi − x⎟ ∑ ⎝ i x ⎟⎠
⎜ x −
Asimetría = as i =1 ⎝ 3 ⎠ donde s =
s n

Si as = 0; la distribución es simétrica
Si as > 0; asimétrica a la derecha
Si as < 0; asimétrica a la izquierda
4
⎛ __

∑ ⎜⎝ xi − x ⎟⎠
Curtosis k = −3
s4

La distribución normal se caracteriza por tener una curtosis k = 0. El


SPSS considera que si la asimetría las y la curtosis (k) se halla en el
intervalo (-2,2) debe ser considerado un buen indicador de
normalidad.

PRUEBAS DE NORMALIDAD

Esta prueba de normalidad garantiza que todo tipo de inferencias


estadísticas que se hace sobre los parámetros y pronósticos tengan alguna
validez.

Dichas pruebas son las siguientes:

- Comprobar la bondad del modelo en la tabla de análisis de varianza


(Distribución F).
- Pruebas de hipótesis e intervalos de confianza para los βi.
- Intervalos de confianza para los pronósticos.

Si al hacer la prueba de normalidad ésta es rechazada, las inferencias


estadísticas planteadas anteriormente carecen de sentido.
PRUEBAS DE NORMALIDAD

a) Contraste de Kolmogorov Snirnov

Esta prueba es mucho más robusta que la prueba de chi cuadrado. Esta
prueba se basa en comparar la distribución acumulada de los datos con la
distribución acumulada de la distribución teórica.

Dn = MAX ⎢Fn (x) – F(x) ⎢


Fn (x) = distribución de los datos
F(x) = distribución teórica

Dn tiene una distribución de probabilidad cerrada si Dn es mayor que la


encontrada en tablas para un nivel α, rechazamos la distribución F(x) para
la muestra para n y α dados hallamos D(α,n) la región crítica será Dn >
D(α,n), si el Dn calculados en los datos es mayor que D(α,n) se rechaza la
hipótesis que la distribución es normal, por lo tanto si el SPSS arroja un
valor menor a 0.1, 0.05 y 0.01 se rechaza la hipótesis α de normalidad de lo
contrario aceptamos que existe esa normalidad.

b) Contraste de normalidad de Shapiro y Wilks

El contraste de Shapiro y Wilks mide el ajuste de la muestra a una recta al


dibujarla en un papel probabilístico normal, se rechaza la normalidad
cuando el ajuste es bajo, que corresponde a valores pequeños del
estadístico de este dicho estadístico toma la expresión.

2 2
1 ⎡ h ⎤ A2 ⎛ ⎞
w = 2 ⎢ ∑ a J , n ( X ( n − J +1 ) ) − X ( J ) ⎥
__

ns ⎣ J =1 ⎦ ns
2
donde ns2 = ∑ ⎝ i x ⎟⎠
⎜ x −

n n −1
h= si n es par o h = si n es impar
2 2

Los coeficientes aJn están tabulados y xJ es el valor ordenado de la muestra


que ocupa el lugar J. La distribución de muestra tabulada y se rechaza la
normalidad cuando su valor calculado a partir de la muestra es menor que
el correspondiente valor crítico dado en las tablas.

Si el valor dado por el SPSS es menor a 0.1, 0.05 y 0.01 se rechaza la


hipótesis de normalidad de lo contrario debe aceptarse que los datos siguen
una distribución normal.
ANÁLISIS DE LOS RESIDUOS

Con la regresión y correlación, al igual que con otras experiencias de la


vida, podemos aprender de nuestros errores. Por consiguiente, conviene
estudiar los residuos o términos de error en nuestro modelo de regresión.
Como se ha subrayado antes, una regresión buena presenta errores debidos
al puro azar que siguen una distribución normal con una media de 0 y una
varianza de σ2. Si el estudio de estos residuos revela condiciones que
demuestran lo contrario, sería un indicio de que hay problemas inherentes
al modelo. La detección de cualquier pauta de correlación en los términos
de error podría significar que se han transgredido algunas de las hipótesis
básicas relativas al modelo OLS. El resto de este capítulo se dedica a
estudiar los términos de error ya analizar los problemas que se pueden
detectar en dicho análisis. Nos centraremos ante todo en los principios de
la autocorrelación y de la heterocedasticidad.

Autocorrelación

Una de las propiedades básicas del modelo OLS es que los errores no
guardan correlación. El error de predicción que se experimenta en un
momento temporal no tiene relación lineal con el error que se puede
experimentar en otro momento. En el caso ideal, si hubiera que representar
los errores a lo largo del tiempo en una gráfica, ésta se parecería a la de la
siguiente figura:

Figura 1.
No hay pauta detectable en los errores. Los términos de error parecen se
independientes y no dan ninguna indicación de que haya relación entre
ellos.

Pero cuando se trata de datos pertenecientes a series temporales, muchas


veces esta condición deja de cumplirse. Encontramos que los errores
pueden estar correlacionados, de donde resulta una autocorrelación (AC).
Muchas series económicas, como el desempleo, el PNB o los tipos e
interés, varían de manera cíclica en el tiempo. Si una serie tiene un valor
demasiado bajo (alto) durante un mes en relación con su media a largo
plazo, es probable que siga siendo bajo (alto) el mes siguiente. Las
correcciones no se hacen de la noche a la mañana. Un modelo de regresión
se basa en una media a largo plazo de la serie. Si una serie tiene un valor
demasiado bajo, es probable que el modelo de regresión haga una
estimación excesiva de su valor. Esta sobreestimación dará lugar a un error
negativo, puesto que e = Yi – Ý. Como es probable que la serie siga siendo
muy baja el período temporal siguiente, es de esperar que ocurra otro error
negativo. Lo contrario sucede cuando la serie pasa a un ciclo de nivel
demasiado alto. Los errores positivos serán generados para varios períodos
sucesivos. Esta pauta de errores sucesivos negativos, seguidos de varios
errores positivos, es prueba de que existe autocorrelación.

La siguiente figura ilustra la autocorrelación:

Figura 2.

Hay puta clara en los términos de error. Inician la pauta varios errores
sucesivos negativos seguidos de varios errores positivos tras los cuales
aparecen varios errores negativos más (no es de esperar que la pauta sea tan
evidente en la práctica).

La correlación entre términos de error se puede medir igual que la


correlación entre dos variables cualesquiera del modelo. La correlación
entre un error en un período temporal t y el períodod temporal anterior t-1
se por ρet, et-1, donde el parámetro ρes el coeficiente de correlación
poblacional para los términos de error. Como todos los parámetros, se
estima con el estadístico correspondiente cuando se toman datos
maestrales. Esta correlación entre errores a nivel muestral se mide por r, el
mismo coeficiente de correlación muestral que hemos utilizado para medir
la correlación entre dos variables de nuestro modelo. En la figura 1, en que
no existe AC, estimaríamos la correlación entre términos de error con ret,,et-
1 igual a cero. En cambio, la figura 2 sugiere la probabilidad de que un
error vaya seguido de otro error del mismo signo. Es decir ret,,et-1. Se dice
que hay una AC positiva. Si los errores tendieran a alternar su signo,
habría también correlación negativa y ret,, et-1<0.

La siguiente figura nos muestra la grafica en donde los errores tienden a


alternar su signo:

Figura 3.

En presencia de AC todos los contrastes de hipótesis e intervalos de


confianza se tornan menos fiables, los que convierte a la autocorrelación en
algo muy perjudicial.

Se puede construir un modelos para estudiar el error del modelo original.


Si el error es ε, el modelo que relaciona el error de un período temporal con
el del siguiente es:

ε= ρet-1 + µt

Donde ρ es la correlación entre errores del modelo original y µ el término


de error aleatorio en la predicción de los errores; es decir, µ mide el error
que experimentamos cuando tratamos de estimar el error de nuestro modelo
original. El término µt, que a menudo se denomina ruido blanco, se
produce porque los errores del modelo original no responden a una
correlación perfecta. Por tanto, habrá algo de error en nuestro intento de
predecir el error del modelo original.

Figura 4.

La Figura 4 también refleja pautas de error que pueden revelar información


obre el modelo cuando se representa et frente a et-1.

En la figura 4 a) existe autocorrelación positiva porque cuando et es


positivo, et-1 también lo es, y cuando et es negativo, et-1 también es negativo.
Los errores consecutivos tienen el mismo signo. La relación de errores está
contenida en los dos cuadrantes positivos de los ejes. De ello resultaría que
ρet, et-1 >0.

En la figura 4 b) los términos de error están limitados a los dos cuadrantes


negativos, lo que indica una correlación negativa, es decir, et y et-1 toman
signos opuestos, luego ρet, et-1 <0.

Aunque el análisis de errores puede ser un medio de detectar la


autocorrelación , ne es muy fiable. Rara vez se observan pautas tan claras
como las aquí sugeridas. Necesitamos un procedimiento menos falible, y
por suerte tenemos uno basado en el estadístico d de Durbin-Watson. El
estadístico de Durbin-Watson se utiliza para comprobar la hipótesis de no
autocorrelación:

H0: ρet, et-1 = 0, No hay correlación


Ha: ρet, et-1 ≠ 0, Hay correlación
Se calcula por la fórmula:

∑ (e − e )
2

d= t t −1

∑ (e )
2
t

Con nuestros datos del estudio de gastos de los consumidores, la fórmula


anterior facilita los cálculos necesarios. Obsérvese que 0 ≤ d ≤ 4. Por regla
general, si d es próximo a 2, supondremos que no hay problema de
autocorrelación. Pero es recomendable determinar si el valor hallado
mediante la esta fórmula es significativo, y para ello hay que contrastar la
hipótesis de ρ = 0.

Ejemplo:

Observ Yi Ypron et (et) et -et-1 (et -et-


ación 1)
1 51 49,335 1,6641 2,7692288
9 1
2 30 30,378 -0,3784 0,1431865 -2,0425 4,1718
4 6 06
3 32 32,113 -0,1138 0,0129504 0,2646 0,0700
8 4 13
4 45 42,394 2,6057 6,7896724 2,7195 7,3956
3 9 80
5 51 53,674 -2,6745 7,1529502 -5,2802 27,880
5 5 51
6 31 32,981 -1,9815 3,9263422 0,693 0,4802
5 5 49
7 50 51,071 -1,0714 1,1478979 0,9101 0,8282
4 6 82
8 47 46,732 0,2672 0,0713958 1,3386 1,7918
8 4 49
9 45 42,526 2,4737 6,1191916 2,2065 4,8686
3 9 42
10 39 39,791 -0,7912 0,6259974 -3,2649 10,659
2 4 57
11 50 50,218 -0,218 0,047524 0,5732 0,3285
58
12 35 34,594 0,406 0,164836 0,624 0,3893
76
13 40 39,938 0,062 0,003844 -0,344 0,1183
36
14 45 45,146 -0,146 0,021316 -0,208 0,0432
64
15 50 50,354 -0,354 0,125316 -0,208 0,0432
64
Σ 29,121649 59,069
73 40

( − )
d=∑ e e
2
t t −1

∑ (e )
2
t

59.40475
=
2912203

= 2.03

Los valores críticos con los cuales compararemos d = 2.03 se hallan


mediante dos valores: el número de variables independientes, k, y el
número de observaciones, n. En nuestro ejemplo, k = 2 n = 15. Si α = 0.05,
la tabla K da dL = 0.95 y dU = 1.54. Ahora se puede construir una escala
sencilla para determinar si se rechaza o no la hipótesis nula de no
autocorrelación. La escala es como se describe en la siguiente figura:

Estadístico de
Durban-Watson
La prueba no La prueba no
+AC es concluyente No AC es concluyente -AC

dL dU 2 4 – dU 4 –dl
0.95 1.54 2.46 3.05

Si dU < d < 4 – dU, no hay pruebas de que exista autocorrelación y la


hipótesis nula no se rechaza; d < dL demustra que existe AC positiva; d > 4
– dL indica AC negativa. Las dos regiones no concluyentes que existen
indican que la distribución de d depende de las características de las
relaciones entre las variables independientes. Ninguna generalización de
estas características puede ser lo bastante amplia para restringir sin
ambigüedad el valor de d.

Ya calculamos que d era 2.03, de manera que no se rechaza la hipótesis


nula. Parecería que la correlación entre términos de error no constituye un
problema.

El cálculo es bastante aburrido. Se puede simplificar si el valor de d se


estima por:

d = 2(1 – r)

donde r es el coeficiente de correlación entre et y et-1. Una vez más, si los


cálculos se han de hacer a mano, será preciso efectuar gran cantidad de
operaciones aritméticas. Por fortuna, casi todos los programas de
ordenador dan el valor de Durban-Watson.

Autocorrelaciones de los errores en el SPSS

En la barra de menú dar clic en Gráficos/ Series temporales y abrir la


ventana Autocorrelaciones, desactivar las autocorrelaciones parciales,
ingresar todas las variables de residuos de los modelos en estudio, aceptar.
En la hoja de resultados se analiza que estos residuos se encuentren dentro
de los intervalos establecidos.

Hetorocedasticidad

Además de la ausencia de correlación entre errores, otra propiedad básica


del modelo OLS es la homocedasticidad. La homocedasticidad es una
variación constante de los términos de error. La variación de los errores
que se experimenta cuando X es igual a un valor, por ejemplo 10, es igual
que la variación de los errores cuando X es igual a cualquier otro valor. En
la figura 5 a) las dos curvas normales indican que la distribución de los
valores de Yi por encima y por debajo de la recta de regresión es la misma
en X = 10 y en X = 11. Por tanto, los errores, representados por la
diferencia entre los valores de Yi y las ordenadas de la recta de regresión,
siguen una distribución normal. Ello indica la existencia la existencia de
homocedasticidad.

Si la varianza de los errores no es la misma para todos los valores de X,


existe heterocedasticidad. La figura 5 b) indica que a medida que X
aumenta, la varianza de los términos de error se hace más pronunciada. La
curva normal en X = 11 está más extendida que la curva en X = 10, lo que
indica una mayor dispersión de los errores.

Figura 5

Heteroceasticidad. Los términos del error no tienen la misma varianza

La heterocedasticidad es corriente cuando se manejan datos transversales.


Suelen utilizarse estos datos, por ejemplo, en investigaciones sobre los
hábitos de gasto de los consumidores. En estos estudios se suelen recoger
el consumo y la renta de muchos individuos, que abarcan pobres, ricos y
personas de clase media. Este conjunto de daos se llama transversal porque
atraviesa diferentes grupos de reta. Como se podría esperar, los ricos
presenta un modelo de comportamiento respecto de su esquema de
consumo muy diferente del resto de nosotros. Esta diferencia provoca una
variación de los términos de error que pone de manifiesto la
heterocedasticidad.
Cuando existe heterocedasticidad, los coeficientes de regresión pierden
eficiencia. Es decir, la varianza de los valores de b sufre un incremento. El
valor de b obtenido con una muestra difiere del obtenido con otra distinta.
En estos casos es difícil depositar mucha fe en los coeficientes de
regresión.

Se puede detectar la heterocedasticidad si se representan en un gráfico los


valores de Y frente a los términos de error. Si aparece una estructura, es
probable que haya heterocedasticidad. Las figuras 6 a) y 6 b) indican
posibles estructuras que a menudo se encuentran cuando existe
heterocedasteicidad. La figura 6 c), por el contrario, no sugiere un
esquema detectable: parece no existir heterocedasteicidad.

Figura 6

Si se sospecha que hay heterocedasticidad, se recomienda utilizar el


método de mínimos cuadrados generalizado (GLS). En textos superiores se
puede encontrar una explicación del GLS.
Aunque las pautas que siguen los residuos son una buena indicación de la
heterocedasticidad, su lectura requiere más de una facultad artística que un
procedimiento científico. Las pautas rara vez cooperan y son tan claras
como las que acabamos de ver. Necesitamos métodos más concretos de
detectar la heterocedasticidad. El resto de esta sección se dedica a presentar
métodos frecuentes de descubrir la existencia de heterocedasticidad.

Prueba de heterocedasticidad de White. En 1980 Halbert White ofreció


uno de estos métodos, basado en la distribución χ2. Su método comprende
varias fases bien definidas:

1. Ejecutar la regresión original y obtener el término de error que


presenta cada observación.
2. Elevar al cuadrado los términos de error para obtener e2 y hallar su
regresión con todas las variables independientes, los cuadrados de
todas esas variables y los productos cruzados de todas ellas. Si
hubiera tres variables independientes X1, X2, X2, habra que hallara la
regresión de e2 respecto de X1, X2, X3, X12 , X22, X32, X1X2, X1X3,
X2X3. Este modelo de regresión se llama modelo auxiliar.
3. Calcular nR2, donde n es el número de obsrvaciones y R2 el
coeficiente de determinación no ajustado de la ecuación auxiliar.
4. Si nR2 >χα,k, rechazar la hipótesis nula de que las varianzas de error
son iguales y suponer que existe heterocedasticidad.

Hay que tomar determinadas precauciones al ejecutar la fase 2. La más


importante para nuestros fines es el peligro derivado de utilizar variables
ficticias en el modelo. Si Xi es una variable ficticia, entonces no se debe
incluir Xi2 en la ecuación auxiliar porque Xi es igual a Xi2 y existe
multicolinealidad perfecta. Además, el producto cruzado de dos variables
ficticias también se debe excluir puesto que es igual a cero.

Heterocedasticidad en SPSS

En la barra de menú dar clic en Gráficos/ dispersión. Se ingresar en el eje Y


el error y en el eje X la variable que se desea evaluar. En la hoja de
resultados se analiza la gráfica.

Coeficiente de determinación ajustado

A causa de su importancia, R2 se calcula en la mayoría de los paquetes


informáticos.
Es una forma fácil y rápida de evaluar el modelo de regresión y determinar
el grado en que se ajusta a los datos. Salvo los propios coeficientes de
regresión, quizá sea R2 el estadístico que más se observa y vigila en análisis
de regresión.
Pero los estadísticos poco cuidados o faltos de escrúpulos pueden inflar
artificialmente R2. Se puede lograr un aumento de R2 con la mera inclusión
de otra variable independiente en el modelo. Aunque se incorpore una
variable sin sentido que no aporte ningún poder explicativo, R2 aumentará.
Es práctica común en el análisis de regresión y correlación múltiple indicar
el coeficiente de determinación ajustado. Con el símbolo de R2, que se
lee “R con barra al cuadrado”, este estadístico ajusta la medida del poder
explicativo con el número de grados de libertad. Los grados de libertad de
SSE son n – k – 1. El investigador pierde un grado de libertad por cada
variable independiente adicional que añada al modelo, porque cada variable
exige el calculo de otro bi. R2 penalizará al investigador por incorporar una
variable que no añada suficiente poder explicativo al modelo para justificar
la pérdida de un grado de libertad. El valor de R2 disminuirá. Si baja
demasiad, habrá que considerar la conveniencia de excluir esa variable del
modelo. En casos extremos, el coeficiente de determinación ajustado puede
llegar a valer menos de cero.
Para obtener este coeficiente ajustado se dividen SSE y SST por sus grados
de libertad respectivos:

SSE /(n − k − 1)
R 2 = 1− [14.21]
SST /(n − 1)

Una fórmula más conveniente para calcular R 2 es:


n −1
R 2 = 1 − (1 − R 2 ) [14.22]
n − k −1

Como el numerador de la formula (14.21) es el MSE, puede decirse que R2,


es una combinación de dos medidas del cumplimiento de un modelo de
regresión: el error cuadrático medio y el coeficiente de determinación.

Existencia de multicolinealidad

Ya hemos anunciado antes el peligro de la multicolinealidad. Surge este


problema cuando una de las variables independientes mantiene una relación
lineal con una o más de las demás variables. Esta situación transgrede una
de las condiciones de la regresión múltiple. En concreto, existen
multicolinealidad cuando hay una alta correlación entre dos variables
independientes Xi y Xj. En el capitulo 13 explicamos explicamos el
coeficiente de correlación r de la variable dependiente y la única variable
independiente. Si en regresión múltiple aplicamos este mismo concepto a
dos variables independientes Xi y Xj, podremos calcular el coeficiente de
correlación rij. Si rij es alto, existe multicolinealidad.
¿ Qué se entiende por alto? Lamentablemente no hay respuesta a esta
pregunta crítica. No hay ningún punto mágico de separación en el cual la
correlación se pueda decir que es demasiado alta y que existe
multicolinealidad. Es un problema de grado. En cualquier medida en que
dos o más variables independientes tengan una relación lineal, existe un
grado de multicolinealidad. Si ésta es demasiado pronunciada, el modelo
quedará perjudicado. Ahora bien, lo que se considere demasiado alto es
algo que queda al buen criterio del investigador. En esta sección daremos
algunos consejos necesarios par alcanzar este criterio.
Supongamos que está utilizando técnicas de regresión para estimar una
curva de demanda (o función de demanda) de su producto. Para reconocer
que el número de consumidores está relacionado con la demanda elegiría
como variables explicativas:

X1 = Todos los hombres del Mercado.


X2 =Todas las mujeres del mercado.
X3 = Población total del mercado.

Es evidente que X3 es una combinación lineal de X1 y X2 (X3 = X1 +X2). La


correlación r13 entre X1 y X3 y la correlación r23 entre X2 y X3 son bastante
altas. Estas relaciones dejan clara la presencia de multicolinealidad, de la
que surgen numerosos problemas en el uso de las técnicas de regresión. A
continuación se exponen algunos de los problemas más corrientes.

Problemas de la multicolinealidad

Uno de los problemas más fastidiosos de la multicolinealidad proviene de


nuestra incapacidad para separar los efectos individuales de cada variable
independiente sobre Y. Cuando existe multicolinealidad, es imposible
desenmarañar los efectos de cada Xi. Supongamos que en el modelo:

Y = 40 + 10X1 + 8X2

X1 y X2 mostrasen un grado de correlación alta. En este caso, el coeficiente


10 de X1 puede no representar el efecto verdadero de X1 sobre Y. Los
coeficientes de regresión se convierten en poco fiables y no se pueden
tomar como estimaciones de la variación de Y cuando la variable
independiente varía en una unidad.
Además, los errores los errores típicos de los coeficientes, Sbi, se
desbordan. Si se tomasen dos o más muestras del mismo tamaño, se haría
una variación grandes de los coeficientes . En el modelo que acabamos de
especificar, en lugar de 10 como coeficiente de X1, una segunda muestra
podría dar un coeficiente de 15 o 20. Si b1 varía tanto de una muestra a la
siguiente, deberemos poner en duda su exactitud.
La multicolinealidad puede causar incluso que el signo del coeficiente sea
el opuesto al que la lógica dictaría. Por ejemplo, si se incluye el precio
como variable en la estimación de la curva de demanda, se podría encontrar
que tomase un signo positivo. Esto significa que a medida que el precio de
una mercancía aumenta los consumidores compran más, lo que constituye
una trasgresión evidente de la lógica que informa la teoría de la demanda.

Detección de la multicolinealidad

El camino más directo para comprobar la multicolinealidad es elaborar una


matriz de correlación de todas las variables del modelo, como se muestra
en la 14-4. El valor de r12 = 0.8698 que indica la correlación entre las dos
variables independientes muestra que existe una íntima relación entre NI y
ADV. Aunque no hay un valor predeterminado de rij que señale la
aparición de la multicolinealidad, el valor de 0.8698 es lo bastante elevado
para indicar que existe un problema significativo.
Algunas de las dudas se pueden eliminar utilizando una prueba t para
determinar si el nivel de correlación entre X1 y X2 difiere
significativamente de cero. Dada la relación distinta de cero entre X1 y X2
(r12 = 0.8698) de nuestra muestra, queremos contrastar la hipótesis de que
la correlación entre X1 y X2 es cero a nivel poblacional. Contrastaremos la
hipótesis de que:

H0: ρ12 = 0
H a : ρ12 ≠ 0

donde ρ12 es el coeficiente de correlación poblacional entre X1 y X2. Esto


podemos hacerlo con las técnicas aprendidas anteriormente. Donde
demostramos que:
r12
t=
Sr
donde:
1− r2
Sr =
n−2

Como ilustración, la hipótesis de , donde es el coeficiente de


correlación poblacional de las dos variables independientes, es:

1 − 0.86982
Sr =
15 − 2
= 0.1367
0.8698
t=
01367
= 6.36

Si se pone α al 5%, el t crítico es t0.05,13 = 2.16 . Hay n – 2 grados de libertad.


Como t= 6.36>2.16, Ace puede rechazar la hipótesis nula de que no existe
correlación entre X1 y X2 ( ρ12 = 0 ). Existe algo de multicolinealidad. Ello
no significa que el modelo tenga un defecto irreparable. De hecho, muy
pocos modelos estarían libres por completo de la multicolinealidad. Pronto
Explicaremos la manera de hacer frente a este problema.
Otra forma de detectar la multicolinealidad es comparar los coeficientes de
determinación entre la variable dependiente y cada una de las variables
independientes. Ya vimos que la correlación entre pasajeros y publicidad
era r2 = 0.815. Pero las dos variables independientes juntas revelaban un R2
de solo 0.957. Si se toma por separado, las variables independientes
explican el 93.7% y el 81.5% de la variación de Y, pero combinadas
únicamente explican el 95.7%. En apariencia, existe un solapamiento de su
poder explicativo. La inclusión de la segunda variable NI hizo poco por
mejorar la capacidad del modelo para explicar el número de pasajeros.
Vemos que la variable NI se limita a duplicar mucha de la información
sobre los pasajeros ya suministrada por la publicidad. Ello indica que
podría existir multicolinealidad.
Una tercera forma de detectar la multicolinealidad es estudiar el factor de
inflación de la varianza (VFI). El VFI asociado a cualquier variable X se
halla mediante el estudio de la regresión de dicha variable en función de
todas las demás variables X. El R2 resultante se utiliza después para
calcular el VIF de la variable. El VIF de cualquier Xi representa la
influencia de la variable sobre la multicolinealidad.

Factor de inflación de la varianza. El factor de inflación de la varianza


de una variable idependiente es una medida del grado de multicolinealidad
con que contribuye dicha variable.
Puesto que en el modelo Hop Scotch sólo hay dos variables independientes,
la regresión de X1 sobre todas las demás variables independientes (X2) o la
regresión de X2 sobre todas las demás variables independientes (X1) nos da
el mismo coeficiente de correlación (r12 = 0.8698). El VIF de cualquier
variable independiente Xi es:

1
VIF =
1 − R 2i

Donde R i2es el coeficiente de determinación obtenido en la regresión de Xi


sobre todas las demás variables independientes. Como ya se ha dicho, la
multicolinealidad produce un incremento de la variación o error típico del
coeficiente de regresión. El VIF mide el incremenbto d ela varianza del
coeficiente de regresión por encima de la que existiría si no hubiera
multicolinealidad.
El VIF de la publicidad en el modelo de Ace es:

1
VIF = = 4.1
1 − (0.8698) 2

Para X2 se hallaría el mismo VIF, puesto que sólo hay dos variables
independientes.
Si una variable independiente no tiene ninguna relación en absoluto con
otra variable independiente, su VIF es igual a 1. La varianza en b1 y b2 es
por consiguiente mayor que cuatro veces la que habría sin
multicolinealidad en el modelo. Pero, en general, la multicolinealidad no se
considera un problema significativo a menos que el VIF de una Xi valga 10
como mínimo, o que la suma de ellos VIF de todas la Xi sumen 10 como
mínimo.
Otras indicaciones de multicolinealidad pueden ser las variaciones grandes
de los coeficientes o de sus signos cuando hay un cambio pequeño del
número de observaciones. Además, si la relación F es significativa y los
valores de t no lo son, puede haber multicolinealidad. Si la inclusión o
supresión de una variable produce cambios grandes de los coeficientes o de
sus signos, puede haber multicolinealidad.
En resumen, si existe multicolinealidad encontraremos:

1. Una incapacidad para separar el efecto neto de las variables


independientes individuales sobre Y.
2. Un error típico exagerado de los coeficientes b.
3. Signos algebraicos o coeficientes contrarios a la lógica.
4. Una elevada correlación entre variables independientes y un VIF
elevado.
5. Variaciones grandes de coeficientes o de sus signos si el número de
observaciones varía en una solo observación.
6. Una relación F significativa combinada con relaciones t no
significativas.
7. Variaciones grandes de los coeficientes o de sus signos cuando se
incluye o suprime una variable.

Tratamiento de la multicolinealidad

¿Qué se puede hacer para eliminar o mitigar la influencia de la


multicolinealidad? Acaso la solución más lógica sea suprimir la variable
causante. Si Xi y Xj están en íntima relación, una de ellas se puede excluir
del modelo sin más. Después de todo, y a causa del solapamiento, la
inclusión de la segunda variable añade poco a la explicación de Y.
En relación con el modelo de Hop Scotch, sería aconsejable eliminar NI,
dado que su correlación con Y es menor que la de la publicidad. Las
pruebas t realizadas antes también sugieren que NI no era significativa al
nivel del 5%.
Pero la simple eliminación de una de las variables puede conducir al sesgo
de especificación, en el cual la forma del modelo está en desacuerdo con su
fundamento teórico. Por ejemplo, se podría evitar la multicolinealidad si se
eliminara la renta de una expresión de una expresión funcional de la
demanda de los consumidores. Pero la teoría económica y también el puro
sentido común, nos dice que la renta se debe incluir en cualquier intento de
explicar el consumo.

Sesgo de especificación: La especificación incorrecta de un modelo, por


haber incluido o excluido determinadas variables, que de lugar a una
trasgresión de los principios teóricos se denomina sesgo de especificación.

Si eliminar una variable se excluye por el sesgo que ello pueda producir, si
que podemos disminuir la multicolinealidad cambiando la forma de la
variable. Quizá fuera beneficioso dividir los valores originales de la
variable causante por la población para obtener una cifra por persona. Es lo
que sugería con el NI al comienzo de este capítulo. Además, dividir
determinadas medidas monetarias por un precio índice (como el índice de
precios al consumo) a fin de obtener una medida en términos “reales”,
puede ser otro método eficaz de eliminar la multicolinealidad. También
esto se podría aplicar al NI.
Otra medida posible es combinar dos o más variables. Es lo que podría
hacerse con el modelo de la demanda de los consumidores, que empleaba
X1= hombres, X2= mujeres y X3= población total. Las variables X1 y X2 se
podrían sumar para formar X3. El modelo constaría entonces de una sola
variable explicativa.
En cualquier caso, es preciso reconocer que en la mayoría de los modelos
de regresión que contienen dos o más variables independientes existe algún
grado de multicolinealidad. Cuanto mayor sea el número de variables
independientes mayor será también la probabilidad de multicolinealidad.
Pero ello no restará nada a la utilidad del modelo, porque el problema de la
multicolinealidad puede no ser grave. La multicolinealidad causará grandes
errores en coeficientes individuales, pero el efecto combinado de esos
coeficientes no se altera de manera drástica. De todos modos, un modelo
predictivo ideado para predecir el valor de Y a partir de toda las Xi
tomadas en combinación poseerá una exactitud considerable. Solamente los
modelos explicativos.

Introducción a las series de


Tiempo.
Métodos de atenuación.
Promedios movibles.

INTRODUCCION

La noción de modelo ha sido bastante utilizada por ingenieros y científicos


para examinar diferentes procesos y sistemas físicos y matemáticos. Un
modelo se convierte en una manera de experimentar con la realidad sin
tener que invertir en una unidad operativa a escala natural. Este tipo de
modelo también se conoce como modelo de simulación.

Un modelo de predicción (Makridakis y wheelwrigtht, 1989)


Consiste en los procedimientos utilizados para desarrollar un pronóstico.
Por supuesto, existe una gran variedad de modelos, pero en cuanto a los
modelos cuantitativos solamente existen dos tipos bien definidos: las serie
de tiempo y los métodos causales. Si el analista comprende las propiedades
de ambos, puede tener una mejor visión de las premisas que constituyen la
base de las técnicas de predicción y de las ventajas y desventajas de su
utilización en situaciones especificas.

En este capitulo se abordará el primer tipo: el modelo de series de tiempo.


Para aplicar esta tecnología es necesario definir dos factores importantes:

a) Las series de datos a utilizar en el proceso de predicción.


b) El periodo de tiempo a usar.

Un modelo de series de tiempo supone que a lo largo del tiempo existe un


cierto patrón o una combinación de

patrones recurrentes. Así, al identificar y extrapolar dicho patrón pueden


predecirse y desarrollarse los periodos de tiempo subsecuentes. Una
premisa importante es que el patrón base se identifica sólo en relación con
datos históricos de dicha serie de tiempo. Por ello, este modelo no es
particularmente útil para la gerencia en caso de que de que se desee
predecir el impacto causado por las decisiones tomadas antes y durante el
proceso estadístico.

Cualquier metodología de serie de tiempo que se utilice debe producir


prácticamente la misma predicción para el siguiente periodo, sin importar
cuáles sean las acciones tomadas por la gerencia. Así, un modelo de serie
de tiempo sería apropiado para predecir factores ambientales, nivel de la
economía nacional, tasa de desempleo o patrones de costo, donde las
decisiones individuales tienen poco impacto. Sin embargo, este modelo de
serie de tiempo es totalmente inapropiado para predecir ventas mensuales
resultantes de cambios en los precios, o en la publicidad.

Una de las mayores ventajas de los modelos de series de tiempo es que las
reglas básicas de la contabilidad también están orientadas a periodos
secuénciales de tiempo, lo que significa que en gran parte de las empresas
siempre existe disponibilidad de información que puede aplicarse en esos
modelos de predicción.

En ocasiones puede parecer decepcionate la manera de operar de este tipo


de modelos, ya que la tecnología de series de tiempo trata la información
como una caja negra, sin intentar descubrir los factores que afectan el
comportamiento del sistema o la información que se analiza (Véase figura
2.1). El sistema se contempla de manera simple como un proceso no
identificado (Puede ser cualquier tema: ventas, economía, meteorología,
etcétera).

Sistema
Proceso Resultad
Captura de datos
generador

Figura 2.1 Relación de un modelo de series de tiempo

Existen tres razones por las que el modelo maneja los datos como una
como una caja negra: la primera es que puede no entenderse, y aunque lo
fuese, puede ser extremadamente difícil medir la relación que rige su
comportamiento. La segunda razón es que el objetivo principal de un
ejercicio de predicción es justamente hacer una predicción y no existe
razón especial para saber el porqué. La tercera razón es cuando lo único
que desea saberse es qué va a suceder, realmente es de poca la utilidad
saber el porque. El costo de saber el porqué puede ser muy alto.

NOTACION PARA LOS METODOS DE PREDICCION


CUANTITATIVA

Cuando se prepara la información a utilizar con cualquier método de


predicción, inicialmente se compilan valores observados, datos históricos u
observaciones. Estas observaciones pueden representar muchas cosas,
desde unidades de algún producto vendido hasta el costo de producción de
dichas unidades, o inclusive el numero de empleados que hay en cada
sección de producción. Debido a que estos valores varían aleatoriamente,
en general se representan por una variable X, donde ésta es el símbolo del
valor de algún artículo, por ejemplo las lavadoras vendidas en un periodo
dado.

Debido a que X es el número de artículos vendidos en un periodo dado, es


necesario identificar dicho periodo. Esto se logra al asignar números
consecutivos a cada uno de los periodos que se suceden secuencialmente.
Así, en un periodo de dos años, el mes se identifica como 1, 2, 3, 4,..., 24.
Resulta evidente que es necesario predefinir la longitud del periodo: puede
ser un día, una semana, un bimestre, un trimestre, un semestre, un año o
cualquier intervalo temporal posible. Una vez establecido el periodo, éste
se identifica como subíndice de la variable aleatoria; así, X10 corresponde
al periodo 10 y X13 es el valor 13 de la serie numérica. Necesariamente, la
decisión del cuál es el primer valor (X1) es arbitraria, y a partir de ahí los
números subsecuentes aumentan de forma consecutiva en la serie.

VALORES DE PREDICCION
Valores observados X1 X2 X3 ... Xt-2 Xt-1 Xt Ft+1 Ft+2 Ft+3 … Ft+m
Periodo i 1 2 3 … t-2 t-1 t t+1 t+2 t+3 … t+m
Valores estimados X1 X2 X3 ... Xt-2 Xt-1 Xt Xt+1 Xt+2 Xt+3 … Xt+m
F1 F2 F3 … Ft-2 Ft-1 Ft
Valores de error e1 e2 e3 … et-2 et-1 et
Presente

Valor real =patrón + aleatoriedad


Cuadro 4.1 Notación utilizada en los modelos de predicción de series de tiempo

En general, puede decirse que el símbolo X identifica los valores históricos


observados, y para indicar los valores de predicción se utiliza otro símbolo
que suele ser la letra Ft-1 (del inglés Forecast)o bien Xˆ t +1 (notación
matemática de valor estimado) donde el subíndice (t+1) indica el valor
pronosticado del periodo t+1.

La premisa básica de su utilización en cualquier técnica de predicción es el


valor real observado se determina por algún tipo de patrón e influencias
aleatorias. Esta notación puede observarse con todo detalle en el cuadro
4.1.

Debido a que el mundo de los negocios no es determinístico, la


aleatoriedad siempre está presente, lo cual significa que siempre existe una
diferencia o desviación entre los valores reales observados y los valores de
predicción, denotada como sigue:

et = Xt - Ft
Donde el subíndice t indica que en el periodo i hay un error que está
examinándose. Como se muestra en el cuadro 4.1, cada valor individual
tiene asociado un error e para el cual siempre existe un valor observado X y
un valor de predicción F.

Para simplificar la manipulación de las expresiones presentes en la adición


de muchos números, conviene utilizar el signo de la sumatoria. El uso de
este signo y de los elementos de notación matemática puede ejemplificarse
del cuadro 4.1: Xt es el valor real y Ft es el valor de predicción; por lo tanto,
et es el error o diferencia entre los valores observados Xt y los valores
pronosticados Ft de un periodo de tiempo t.

Si se desea conocer la suma de los errores y se tienen n observaciones,


dicha suma puede obtenerse de

e1 + e2 + e3 + …+ en = ∑e
t =1
t

La expresión de la derecha puede leerse como “la suma de los valores de


error, et, tomados desde t=1 hasta t=n (Inclusive)”.

4.2 ENFOQUE DE LA ATENUACIÓN PARA LAS SERIES DE


TIEMPO

Se ha observado que los técnicos que utilizan el método de las series de


tiempos para proyectar un grupo de datos lo hacen examinando los
movimientos pasados (históricos). Este proceso se denomina
extrapolación de patrones de los datos hacia el futuro. Existe una gran
variedad de métodos desarrollados para procesar las series de tiempo, desde
el método de atenuación de promedios movibles hasta el mas sofisticado de
Box-Jenkins (ARIMA) pasando por los métodos de descomposición.

Atenuación por promedios Atenuación exponencial


Método Naive(directo) Atenuación exponencial simple

Atenuación exponencial doble


Promedios movibles simples Brown: lineal de un parámetro
Holt: dos parámetros comprende
TENDENCIA
Promedios movibles dobles
Atenuación exponencial triple
Brown: Cuadrática, un parámetro
Otras técnicas de promedios Winters: Tres parámetros
movibles(combinación) ESTACIONALIDAD Y TENDENCIA
Figura 4.2 Clasificación de los métodos de atenuación (Makridakis y Wheelwright)

• Patrones de datos (Holton y Keating, 1994)

Antes de avanzar más en este tópico es necesario explorar los tantas veces
mencionados patrones. En forma simple puede decirse que en cualquier
serie de datos hay cuatro patrones: cíclico, tendencia, estacionalidad y
aleatoriedad.

Un patrón cíclico representa los altibajos de la actividad económica


(aunque también se presenta en meteorología, por ejemplo: “ El niño”).
Este patrón es fácil de identificar y de anticipar. Así, se calcula que el ciclo
macroeconómico en los países industrializados es de cuatro años; sin
embargo, el ciclo de1979 a 1981 solamente duró 20 meses(de noviembre
de 1979 a julio de 1981), en tanto que el ciclo anterior duro 6 años. En
cuanto a México, podría decirse que los ciclos macroeconómicos han
seguido hasta la fecha los cambios presidenciales que ocurren cada seis
años.

El patrón mas familiar es el de tendencia, que representa el decremento o


incremento horizontal de una serie de datos en cierto periodo de tiempo.
Este periodo suele cubrir por lo menos un ciclo comercial. De aquí que los
patrones de tendencia y ciclo están interrelacionados; es decir, la dirección
general que sigue un ciclo o un periodo de tiempo es la tendencia. Por lo
mismo, muchos analistas no intentan separar ambos patrones (aunque el
método de descomposición si trata de hacerlo).

El tercer patrón es la estacionalidad, que son los movimientos recurrentes


en el lapso de un año como resultado de costumbres sociales, fiestas y
climas. Es evidente que las ventas de helados aumentan durante los meses
de verano debido a las altas temperaturas de esta estación. Este es el patrón
de estacionalidad; sin embargo, debe notarse que la estacionalidad se anula
a si misma dentro del mismo año, razón por la que los incrementos en el
mismo año no contienen patrones estacionarios.

El último patrón, la aleatoriedad, refleja las variaciones inexplicadas de los


datos. Estos movimientos al azar pueden ser resultados de colección de
errores o de circunstancias inesperadas como huelgas, guerras, etcétera.
En resumen, una serie de datos consta de patrones cíclicos, de tendencia,
estacionales y aleatorios. El propósito de los métodos de las series de
tiempo es eliminar estas irregularidades e influencias estacionales y
proyectar una serie de datos más bien con base en sus patrones de
tendencia/ciclo.

• Medición de la precisión

Sin importar cuál método se aplique para generar una proyección el mejor
indicador para medir una predicción es la exactitud (o precisión). Todos los
comparativos de desempeño, simplicidad, costo, etcétera., deben someterse
al hecho de que el mejor método es aquel que muestre la mayor precisión
en el pronostico. Una compañía puede evaluarse según sus utilidades, y los
analistas de métodos de predicción pueden medirse con base en su
exactitud.

No obstante, también debe notarse que la precisión tiene otra connotación


en el proceso de predicción, ya que la construcción del modelo depende de
este concepto; en efecto, el analista escoge el modelo y los datos que mejor
reproducen los datos históricos. Esto es, las medidas de exactitud muestran
cual modelo tiene menor error de predicción.

Debido a que la exactitud pasada y futura son tan importantes es necesario


conocer las medidas mas usuales del error de predicción:

1. Error promedio.
2. Error medio absoluto(MAD: Mean absolute deviation).
3. Promedio del error al cuadrado(MSD: Mean square deviation).
4. Error absoluto medio porcentual(MAPE: Mean absolute percent
error).

• Error promedio

En el cuadro 4.2 se ilustran las cuatro medidas de error y sus capacidades y


limitaciones correspondientes. El error promedio se calcula como la
diferencia entre los datos observados(columna 2) y el valor de
predicción(columna 3). Como puede verse, los errores individuales de
predicción(columna 4) se compensan, de manera que la suma de los errores
es cero porque las variaciones negativas son iguales a las positivas . Así,
este error es inapropiado para medir la exactitud de la predicción.
• Promedio de la desviación absoluta (MAD)

Una mejor medida de la variación en la predicción es la desviación


absoluta o MAD, que considera los valores absolutos (Sin tomar en cuenta
el signo) de los errores calculados en la columna 4, de manera que los
valores positivos no se compensan con los valores negativos. En la
columna 5 se ha eliminado el signo de los errores de la columna 4. La
suma de MAD es 8 y su promedio es 4.7. La evaluación del error de la
predicción se ve mas justa.

(1) (2) (3) (4) (5) (6) (7)


Error
Error Error Absoluto
Tiempo Real Predicción Error Absoluto cuadrado Porcentual
1 10.0 11.0 -1.0 1.0 1.0 10.0%
2 20.0 16.0 4.0 4.0 16.0 20.0%
3 15.0 18.0 -3.0 3.0 9.0 20.0%
Suma 0.0 8.0 26.0 50.0%
Media o promedio 0.0 2.7 8.7 16.7%
Cuadro4.2 Medición de la precisión

Esta columna también indica cuántos valores son negativos y cuántos son
positivos; esto es, cuántos valores quedan por encima y cuántos por debajo
de los datos históricos. En la tabla se ve que dos están por encima y uno por
debajo, lo cual proporciona al analista confianza de que no hay sesgo en
los datos.

• Promedio de la desviación al cuadrado (MSD)

Al elevar al cuadrado los errores, la suma también elimina el signo. El


MSE tiene además otra función ya que al elevar al cuadrado se penaliza
mucho mas a las variaciones grandes que a las pequeñas.

Este impacto puede verse en el cuadro 4.2, donde el promedio del error
absoluto es 4.7, en tanto el promedio MSD es 8.7. Debido a esta
característica se prefiere el MSD al MAD, ya que el MSD muestra mejor
las variaciones mayores(amplificándolas); sin embargo, en la practica
puede verse que la predicción con el MAD más pequeño también tiene el
menor MSD.

• Error absoluto medio porcentual(MAPE)


Esta medida también es muy popular. Igual que el MAD y el MSD, usa
los valores absolutos(sin signos); no obstante, consume un paso más en el
proceso, ya que mide el error en porcentaje.

X t− Ft
PE t = 100 (4.1)
Xt
n

∑ PE t
MAPE = t =1
(4.2)
n

Al sustituir en las formulas anteriores se obtiene que el resultado es de


16.7. La ventaja del MAPE es que se expresa en forma porcentual, lo que
permite comparar series de datos divergentes porque los porcentajes se
constituyen en común denominador. Así por ejemplo, las predicciones de
ventas de computadoras de IBM pueden compararse con la predicción de
ventas de automóviles Chrysler o con las ventas de cualquier otra empresa,
sin importar cuán diferente es el producto manufacturado.

• Nivel de precisión

Una vez que se han analizado las medidas de exactitud para un modelo de
serie de tiempo, es necesario preguntarse ”¿Cuál es el nivel de exactitud
que debe perseguirse al procesar un modelo de predicción?”.

Aunque no existe una respuesta precisa, intuitivamente se sabe que las


variaciones aleatorias pueden ser bastante volátiles, en cuyo caso las
proyecciones elaboradas con los modelos no son lo suficientemente
confiables. En cambio, datos homogéneos de curso constante permite hacer
pronósticos con un alto nivel de confianza.

Cuando al inicio de los trabajos de predicción los primeros intentos generan


errores considerables, si estos modelos se enfocan desde una perspectiva
optimista siempre existe una amplia posibilidad de mejoría.

• Métodos de atenuación. Métodos directos (Naive).


Estos métodos pueden considerarse como puntos de referencia para decidir
si el esfuerzo vale la pena y contra qué pueden compararse los resultados
del modelo que está trabajándose(Benchmark)(Thomopoulus,1980).

El primer método, NF1(Naive Forecast 1), usa la información mas reciente


disponible referente al valor real, de modo de que si está preparándose una
predicción para un horizonte de un solo periodo, el valor más reciente
puede utilizarse para predecir el valor del siguiente periodo. La formula es
muy simple:

Ft +1 = X t (4.3)

donde
Ft +1 = Periodo a predecir para t+i
t= Periodo actual
i = Numero de periodos futuros a predecir
X t = Ultimo valor real(para el periodo t)

En estadística este modelo se conoce como modelo aleatorio


caminante(Random Walk Model ) y en ciertas ocasiones, debido ala inercia
de los datos observados, puede ser el mejor predictor. Por ejemplo, en los
mercados de valores de futuros, frecuentemente los datos se manejan con
estos modelos caminantes, que hacen de la ecuación (4.3) la mas apropiada
para efectuar pronósticos. Lo anterior quiere decir que existe fluctuación en
los datos, pero es difícil predecir los giros bruscos.

Si el método de evaluación MAPE se utiliza con n-1 términos incluidos en


este método de predicción (NF1), predicción empieza realmente con el
periodo 2. La aplicación de este método facilita obtener medidas
comparativas de mejoría obtenible a través de métodos formales de
predicción. El MAPE se presta mejor para benchmark que otros métodos
de evaluación como el MSD, ya que permite observar la exactitud relativa
de los resultados .

• Métodos de atenuación. Promedios móviles simples.(SMA):

El método de promedios móviles simples es un método de primer orden; es


decir, se considera simple en el sentido de que el promedio de un número
dado de observaciones(periodos) se utiliza para predecir el valor del
periodo siguiente. Cada autor maneja este método de diferente manera, y en
este caso se utiliza la interpretación Moore, (1989). En el cuadro 4.3 se
utiliza un promedio movible (SMA) de tres años (base tres), donde se
promedian los valores 20, 60 y 40 de la columna 2. el promedio es 40
(columna 3), que se convierte en la predicción para el cuarto
periodo(columna 4).

Se avanza a cada nuevo punto de datos, se agrega la nueva observación y


se elimina la mas antigua. Por lo tanto, ahora en el año 4 se obtiene

ENFOQUE DE LA ATENUACIÓN PARA LAS SERIES DE


TIEMPO
Cuadro 2.3 Promedios movibles simples. Ejercicio 2.1: Ventas
(1) (2) (3) (4)
Año Ventas Promedios movibles Predicción
Reales de tres años

1 20 _ _
2 60 _ _
3 40 40 _
4 50 50 40
5 _ _ 50

Un valor de 50 que , agregado a los valores de 40 y 60, genera el promedio


de 50[(60+40+50)/3 observaciones]. Este nuevo promedio se convierte en
el pronostico para el siguiente periodo (Año 5).

En este caso, la formula general para los promedios movibles simples es:

X t −1 + X t − 2 + K + X t − n 1 n
Ft = = ∑ X t (2.4)
n n t =1

En esta formula Ft es la predicción de los SMA para el presente periodo,


donde los valores de x, t-1,t-2,...,t-n , representan los valores observados de
los periodos pasados hasta n . Al sustituir en la ecuación (4.4) , se tienen
entonces que 40+60+20 corresponde a x t-1 + x t-2 + x t-3´ y al sustituir 3
por n se calcula lo siguiente :

(40 + 60 + 20) (40 + 60 + 50)


40 = y para 50 = ,
3 3
por lo que ahora la formula es

n +1
1
Ft + 1 =
n

t+2
X t (2.5)

• Característica de los SMA:

La primera característica importante de este método es que los promedios


movibles(y para todos los métodos de series de tiempo) se utilizan
primariamente para predicciones a corto plazo. Otra característica
importante es que cada observación se pondera con el mismo peso; así, en
el ejemplo se promediaron los valores 20, 40, y 60 para obtener el valor de
40. Cada una de las tres observaciones tiene un tercio de representación
para llegar a la predicción. Cuando se incorpora un nuevo valor (50) y del
calculo se elimina el más antiguo(20, ecuación 4.5), se procede
exactamente igual. Con lo anterior se concluye que las observaciones fuera
del marco de la base del tiempo(n=3)no tiene ningún peso en la obtención
del promedio movible que está calculándose.

• Desarrollo de un modelo de promedio móviles SMA:

Debido a que en gran medida este método es puramente mecánico; el


proceso a seguir está bastante estandarizado. El único hecho que puede
alterar el modelo es el numero (base) de observaciones a promediar. En
este caso, de manera arbitraria se escogió una base de 3 años, pero en la
practica pueden escogerse trimestre, cuatrimestre, semestres o cualquier
otra combinación. En el cuadro 4.4 se efectúa el ejercicio 4.2, donde se
comparan dos bases, de 3 y de 5 meses. En este libro, y para efectos
didácticos la comparación se simplificará utilizando solamente el MAD y
el MSD para determinar cuál base genera la mejor exactitud histórica para
proyectar los valores de predicción.

En efecto, debido a que se conoce bastante bien la inexactitud de los


pronósticos climáticos , en el ejercicio 4.2 se estudia una predicción de
temperaturas por los últimos 14 años y se genera una proyección para la
temperatura más fría (promedio de 24 horas) que podrá experimentarse
para el próximo año. Si esta predicción es correcta será de gran utilidad de
granjeros, la compañía de electricidad, etc., para enfrentar los efectos del
clima.
El cuadro 4.4 examina promedios movibles base 3 y base 5 para ver qué
modelo, MSD o MAD, produce el menor error. Es claro que la base 5,
genera el menor error indica una mejor reproducción de los datos
históricos.

Otra cuestión importante es que la base 5 asigna menor peso a cada


observación (1/5 contra 1/3). Por lo tanto, el efecto atenuador de la base 5
es mayor, ya que reacciona menos a cada punto individual. De este hecho
puede deducirse una regla general: En las regiones en que una serie de
tiempo exhibe variaciones amplias alrededor de una línea estacionaria, una
base más grande genera un mejor ajuste de la predicción a los datos
históricos (menor error).

Promedio de tres años SMA Promedio 5 años SMA


1 2 3 4 5 6 7 8
Temperatu Error Error
Año ra Predicci cuadrad cuadrad Predicci Absolut Cuadra
s actual ón o o ón o do
1 31
2 44
3 31
4 49 35 14 187
5 28 41 13 178
6 25 36 11 121 37 14 135
7 21 34 13 169 35 4 207
8 35 25 10 107 31 12 18
9 44 27 17 289 32 6 154
10 37 33 4 13 31 4 41
11 28 39 11 114 32 1 19
12 32 36 4 19 33 13 1
13 22 32 10 107 35 8 174
14 41 27 14 187 33 0 71
15 32
MAD
= 11 7
MSD
= 135 91
Cuadro 4.4 Temperatura diaria mas fría (grados Fahrenheit).Ejercicio 2.2

Es importante hacer notar que como base puede fijarse cualquier n. En el


cuadro 4.5 puede verse que la base 7 es la que genera mejor ajuste (6
grados); es decir que ninguna réplica de los datos históricos genera un
resultado que mejora en promedio tales 6 grados. Esta experiencias permite
apreciar las dificultades presentes al tratar de predecir las variaciones
climáticas.

Pueden agregarse algunas nuevas conclusiones a las ya mencionadas:

Debido a que las variaciones de los datos afectan menos la

Periodo SMA MAD


3 11
5 8
7 6
9 7
Cuadro4.5 Medidas de exactitud en grados Fahrenheit
predicción, si se utiliza una base más grande (periodo de tiempo más
largo), se tiene que el factor de atenuación es mayor. El tamaño de la base
puede determinarse empíricamente haciendo varios ensayos, y la mejor
base es aquella que genera el menor error; es decir el que se acerca más a
los valores históricos observados.

Como ultimo punto de este capitulo cabe hacer notar que existe una gran
variedad de combinaciones de promedios movibles dobles hasta los
promedios lineales de orden más alto. Por ejemplo, este método lineal
utiliza promedios simples y dobles para resolver tendencias no
estacionarias. En suma, puede decirse(Makridakis y Wheelwrigth) que
cualquier tipo de promedio movible implica una ponderación de los datos
históricos más útiles suavizando y atenuando (más que pronosticando)
series de datos, ya que a su vez se muestra mejor como predictor (Método
de promedios movibles) para datos que son más homogéneos hacia la
media (tendencia central, datos estacionarios).

Mes Period Promedio Promedio Promedio Promedio


o de s s s s
tiempo movibles movibles movibles movibles
Base 3 Base 5 Base 3 Base 5
Enero 1 200
0
Febrero 2 135 MAD 71.46 51.00
0
Marzo 3 195 MAP 34.89 27.88
0 E
Abril 4 197 1767 MSD 6395.66 3013.25
5
Mayo 5 310 1758
0
Junio 6 175 2342 2075
0
Julio 7 155 2275 2025
0
Agosto 8 130 2133 2065
0
Septiembr 9 220 1533 1935
e 0
Octubre 10 277 1683 1980
0
Noviembr 11 235 2090 1914
e 0
Diciembr 12 2440 2034
e
Ejercicio 4.3 Se tienen 11 embarques de abridores de latas y se plantea un
modulo de predicción de atenuación de promedios movibles simples para el
periodo 12 tanto de base 3 como de base 5. Compagine los resultados del
modelo con lo que aprendió en este capitulo
Mes Periodo Promedios MSD Promedios MSD Promedios MSD Promedios MSD Promedios MSD
de movibles Base Movibles Base Movibles Base Movibles Base Movibles Base
tiempo Base 3 3 Base 5 5 Base 7 7 Base 9 9 Base 11 11
Enero 1 19.0
Febrero 2 15.0
Marzo 3 39.0
Abril 4 102.0 24 6032
Mayo 5 90.0 52 1444
Junio 6 29.0 77 2304 53.0 576
Julio 7 90.0 74 267 55.0 1225
Agosto 8 46.0 70 560 70.0 576 54.9 78
Septiembre 9 30.0 55 625 71.4 1714 58.7 825
Octubre 10 66.0 55 114 57.0 81 60.9 26 51.1 222
Noviembre 11 80.0 47 1067 52.2 773 64.7 234 56.3 560
Diciembre 12 89.0 59 920 62.4 708 61.6 752 63.6 647 59.8 854
Enero 13 82.0 78 13 62.2 392 61.4 423 69.1 166 59.6 501
Febrero 14 17.0 84 4444 69.4 2746 69.0 2704 66.9 2489 60.5 1889
Marzo 15 26.0 63 1344 66.8 1665 58.6 1061 58.8 1074 59.7 1135
Abril 16 29.0 42 160 58.8 888 55.7 714 58.4 867 56.2 738
Mayo 24 48.6 55.6 51.7 53.1

Error 1484 1031 757 861 1024


MSD
Ejercicio4.4 El cuadro siguiente muestra la venta de cuchillos eléctricos en el periodo de enero de 1981 a abril1982.
La gerencia desea conocer la predicción para el mes de mayo de 1982 utilizando promedios movibles base 3, 5, 7, 9 y
11. Compagine los resultados del modelo con lo que aprendió en este capitulo.
Métodos de atenuación
exponencial simple,
lineal y no lineal.

INTRODUCCION

Una manera de representar el método de promedios movibles simples,


según se estudió en el capitulo anterior (véase ecuación 4.4), es con la
formula (5.1)

X t −1 + X t − 2 + K + X t − N
Ft = (5.1)
N

Lo anterior significa que una vez obtenida la predicción para el periodo t


(de F), la predicción para el periodo t +1 puede obtenerse, a su vez,
sumando Xt/N y luego restando Xt-N/N.
El valor de Ft+1 en la ecuación (5.1) también puede representarse con la
ecuación

Xt X
Ft +1 = − t − N + Ft (5.2)
N N

Escrita de manera, cada nueva predicción basada en promedios movibles


es un ajuste a la predicción anterior, de manera que se comprueba que el
efecto de atenuación se incrementa al hacer cada vez mayor a N; esta es,
entre cada predicción se hace menor.

TEORIA DE LA ATENUACIÓN EXPONENCIAL.

Según puede observarse, en el método de promedios móviles hay dos


limitaciones(Makridakis y Wheelwright). Primero, se requiere siempre un
número N de valores observados, lo que toma un espacio considerable en
fórmulas y cálculo para lograr una predicción. Segundo, el método de
promedios móviles pondera con un mismo peso todas las N observaciones
y no considera las observaciones del periodo anterior a (t-N).

Al recordar el método directo (Naive) puede argumentarse que las


observaciones más recientes contienen información actualizada de lo que
puede suceder en le futuro, por lo que deberían ponderarse con mayor peso
que las observaciones anteriores. El método exponencial satisface este
requerimiento y elimina la necesidad de almacenar gran número de valores
históricos. El principio operativo de atenuaciones similar al de los
promedios móviles para eliminar la aleatoriedad. El procedimiento
matemático es algo diferente; así, si se modifica la ecuación (5.2)
incorporando un estimado más reciente, en lugar del valor t-N y si este
valor estimado fuese la predicción del periodo precedente, entonces la
ecuación (5.2) quedaría

X t Ft
Ft +1 = − + Ft (5.3)
N N

Dicha ecuación también puede escribirse de la siguiente manera

1 ⎛ 1 ⎞
Ft + 1 = X t + ⎜ 1 − ⎟ Ft (5.4)
N ⎝ N⎠

Ahora se tiene una predicción que ha dado un peso de 1/N a la observación


más reciente y un peso de 1-1/N a la predicción que se obtuvo de dicha
observación, y si luego la notación 1/N se sustituye con la letra alfa( ),
entonces se obtiene
Ft +1 = α X t + (1 − α ) Ft (5.5)

Esta es la ecuación general utilizada por el método de atenuación


exponencial simple. Puede comprobarse que se ha eliminado la necesidad
de manejar varias observaciones para obtener promedios con bases
grandes. Si la ecuación (5.5) se desarrolla sustituyendo el valor de Ft dado
por Ft +1 = α X t + (1 − α ) Ft , entonces se tiene

Ft +1 = α X t + (1 − α )[α X t −1 + (1 − α ) Ft −1 ]
(5.6)
Ft +1 = α X t + α (1 − α ) X t −1 + α (1 − α ) Ft −1
2
Sin embargo,

Ft +1 = α X t − 2 + (1 − α ) Ft − 2 (5.7)

Al continuar sustituyendo se obtiene la siguiente ecuación:

Ft +1 = α X t + α (1 − α ) X t −1 + α (1 − α ) 2 X t − 2 + (1 − α ) Ft − 2 (5.8)

y así sucesivamente.

De esta ecuación puede verse la atenuación exponencial elimina la segunda


limitación de los promedios movibles, ya que adjudica pesos decrecientes a
las observaciones anteriores; es decir, debido a que el valor es un
número entre 0 y 1, entonces (1- ) también es un número entre 0 y 1, y por
tanto los pesos (1- ), (1- )2, etc., tienen valores que decrecen
exponencialmente. De aquí el nombre de atenuación exponencial. Holton
muestra claramente lo anterior en el cuadro 5.1.

Sin importar el valor que se elija para la constante , la suma de los pesos
alcanzará finalmente el valor de 1. el valor escogido de la constante hace
que la suma de los pesos converja rápidamente o lentamente.

Cuadro 5.1 Peso decreciente para los valores más antiguos


= 0.1
Tiempo Cálculo Peso
t 0.1
t-1 0.9 x 0.1 0.090
t-2 0.9 x 0.9 x 0.1 0.081
t-3 0.9 x 0.9 x 0.9 x 0.1 0.073

Total 1

Si se escoge =0.9, la suma de los pesos converge mucho mas rápido que
con =0.1, como se muestra en el cuadro5.2.
Cuadro 5.2 Peso decreciente para los valores más antiguos
= 0.9
Tiempo Cálculo Peso
t 0.9
t-1 0.1 x 0.9 0.09
t-2 0.1 x 0.1 x 0.9 0.009
t-3 0.1 x 0.1 x 0.1 x 0.9 0.0009

Total 1

Como simple guía para escoger , si la serie numérica tienen amplias


variaciones aleatorias deben seleccionarse valores cercanos a 0. Si se desea
que la predicción dependa de los cambios más recientes de los valores
reales, debe elegirse un valor cercano a 1. El valor de también puede
seleccionarse haciendo variar empíricamente dicho valor y procesando el
modelo varias veces con diferentes valores de , para seleccionar
posteriormente el ensayo que obtenga el menor MSD(Mean Square
Deviation).

Para efectos del proceso pueden utilizarse las siguientes ecuaciones alternas
a la ecuación 5.5:

Ft+1 = F1 +α( Xt − Ft ) o bien F t + 1 = F t + α e t (5.9)

Como =1/N, en un modelo de promedios movibles también podría


interpretarse que una cercana a 0 corresponde a un valor mayor de N
(mayor número de observaciones), en tanto que un valor de grande
corresponde a un menor valor de N (correspondiente a un menor número de
observaciones).

3.3 ATENUACIÓN EXPONENCIAL SIMPLE

Varios aspectos de este modelo se ilustran con el ejercicio 5.3 del capitulo
anterior. En el cuadro 5.3 (ejercicio5.1) se muestran los valores
pronosticados utilizando la ecuación (5.5) o la ecuación (5.9). El único
punto importante a recordar es que para el primer periodo no existe
pronostico disponible(este hecho se enfrentará recurrentemente para cada
modelo de series de tiempo). En este caso, el valor de la primera
observación(la demanda de enero) puede utilizarse también para el primer
pronostico. Así, F2= X1=2000. A continuación, tomamos este valor de
2000(el pronostico previo) y le sumamos el resultado de 0.1(1350-2000)
para obtener 1935, que puede utilizarse como predicción para el periodo
número 3.

En la figura 5.1 se observa el efecto que tiene el valor de la constante en


la cantidad de atenuación lograda en los valores observados. Un valor
grande(0.9) logra muy poca atenuación, mientras un valor pequeño de
(0.1) genera una atenuación considerable.

En la grafica puede observarse que el valor 0.1 de muestra una línea que
casi no fluctúa. Al calcular el error MSD se observa que =0.1 genera un
error menor que aquellos errores MSD correspondientes a valores mayores
de . Como en el capitulo anterior ya se calcularon los errores de dos bases
de promedios movibles (3 y 5), entonces es posible evaluar la exactitud de
ambos métodos.

3500

3000

2500
Demanda

Demanda observada
2000 ?=0,1
?=0,5
1500 ?=0,9

1000

500

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13

Periodo de tiempo

Figura 5.1 Comparación de la atenuación exponencial simple para


predicción con valores 0.1, 0.5 y 0.9 (ejercicio5.1)

Cuadro 5.3 Predicción de la demanda para cuchillos eléctricos para el


mes de Diciembre utilizando la atenuación exponencial simple
(Ejercicio5.1)
Atenuación exponencial
Demanda simple
Periodo Mes observada =0.1 =0.5 =0.9
1 Enero 2000
2 Febrero 1350 2000 2000 2000 MSD0.1=3431
3 Marzo 1950 1935 1675 1415 MSD0.5=4338
4 Abril 1975 1937 1813 1897 MSD0.9=5034
5 Mayo 3100 1940 1894 1967
6 Junio 1750 2056 2497 2987
7 Julio 1550 2026 2123 1874
8 Agosto 1300 1978 1837 1582
9 Septiembre 2200 1910 1568 1328
10 Octubre 2775 1939 1884 2123
11 Noviembre 2350 2023 2330 2709
12 Diciembre 2056 2340 2386

Puede observarse que el mejor de los dos métodos computados es el


promedio movible de 5 meses y es muy semejante al de =0.1. También es
fácil observar que los requerimientos de cómputo con el método
exponencial simple son más sencillos, y el hecho de apreciar
intuitivamente que la ponderación para el exponencial se basa en los datos
más recientes, hace que el analista normalmente prefiera el método
exponencial, en lugar del de promedios movibles con base mayor. Esta
evaluación ha sido comprobada por la experiencia, que ha mostrado
repetidamente que el método exponencial produce resultados sencillos y
confiables en una amplia gama de aplicaciones de predicción (forecasting).

DOBLE ATENUACIÓN EXPONENCIAL LINEAL DE HOLT DE


DOS PARÁMETROS, PARA TENDENCIA

Ya se ha mostrado ampliamente que cuando los datos son homogéneos y


muestran poca variación con respecto a la media(el patrón histórico de los
datos es estacionario),estas técnicas de atenuación pueden utilizarse
efectivamente y a muy bajo costo. No obstante, si los datos muestran
patrones de tendencia(sea ascendente o descendente), entonces el método
exponencial simple ya no es tan efectivo.

Para enfrentar este problema Holt (1957) y Brown (1956) desarrollaron de


manera independiente, y casi simultánea, métodos de atenuación lineal que
pueden resolver procesos de predicción con datos que exhiben algún patrón
de tendencia y que, como en el caso anterior, son efectivos y de bajo costo.

Si el método exponencial simple se utiliza para datos con tendencia, la


predicción resultante tendría un error sistemático amplio negativo o
positivo, dependiendo de la tendencia descendente o ascendente de los
datos originales. La predicción mejora notablemente si esta tendencia se
ajusta utilizando algunos métodos lineales de atenuación: el doble de
promedios movibles, el exponencial lineal de un parámetro de Brown o el
exponencial lineal de Holt de dos parámetros.
Para efectos prácticos, el método de Holt se tiene ventaja sobre los otros
dos por tres razones principales: ante todo, su simplicidad, ya que sólo
requiere de dos constantes: y β y de tres ecuaciones; en segundo lugar,
este método no es más que una extensión del modelo de atenuación
exponencial simple y, en tercer lugar, agrega un factor de incremento (o de
factor de tendencia) a la ecuación de la atenuación exponencial para así
poder ajustar dicha tendencia

Ft +1 = αX t + (1 − α )( Ft + Tt ) (5.10)

Tt +1 = β (Ft +1 − Ft ) + (1− β )Tt (5.11)

H t + m = Ft +1 + mTt +1 (5.12)

donde:
Ft +1 = valor atenuado para el periodo t + 1
α = constante de atenuación
X t = valor de los datos reales
Ft = predicción para el periodo t (valor atenuado t − 1 )
Tt +1 = factor de tendencia
β =constante de atenuación de la tendencia
m = periodos futuros a predecir
H t + m = predicción de Holt para el periodo t + m

La ecuación (5.10) ajusta Ft +1 para el crecimiento Tt del periodo


anterior sumando Tt al valor atenuado Ft del periodo anterior. El estimado
de la tendencia Tt +1 se calcula en la ecuación (5.11), donde se computa la
diferencia de los dos últimos valores F atenuados. Debido a que estos dos
valores ya han sido atenuados, e asume que la diferencia entre ambos es un
estimado de la tendencia de los datos. La segunda constante de atenuación
( β )de la ecuación(5.11) se obtiene utilizando el mismo principio empleado
para determinar la constante ( α ) de la atenuación exponencial simple. El
valor más reciente de la tendencia (Ft +1 − Ft ) se pondera por la constante
( β ) y, entonces, el ultimo valor Tt atenuado de la tendencia es a su vez
ponderado por (1 − β ) . La suma de los valores ponderados es el nuevo
valor de la tendencia Tt +1 .

La ecuación (5.10) se utiliza para llegar a la predicción de m periodos de


tiempo en el futuro sumando el producto del componente de tendencia Tt +1
y el número de periodos m al valor atenuado actual Ft +1 .

Este método aplica con bastante exactitud el ajuste necesario para predecir
un factor de tendencia. El cuadro5.4 (ejercicio 5.2) ilustra la aplicación del
modelo Holt a una serie de datos de demanda de inventarios. Los cálculos
ejecutados pueden verse para el periodo 8, utilizando α = 0.2,
β =0.3 y m =1, así,

H 8 = F7 + mT7 m con (5.12)


donde:

F7 = 0.2 X 6 + 0.8( F6 + T6 ) con (5.10)


= 0.2(174) + 0.8(170.2 + 5.39) = 168.87
T7 = 0.3(F7 − F6 ) + 0.7T6 con (5.11)
= 0.3(142−174) + 0.7(5.39) = 3.37

así:
H 8 = 168 .8 + 3.37 (1) = 172.25

Cuadro 5.4 Método de exponenciación lineal de dos parámetros de Holt.


Demanda de inventarios (ejercicio5.2)
α = 0.2 β =0.3 m =1
X S b
1 143 143.00 9.00
2 152 152.00 9.00
3 161 161.00 9.00 161.00 0
4 139 168.80 7.14 170.00 961
5 137 164.15 5.10 170.94 1152
6 174 170.2 5.39 169.26 23
7 142 168.87 3.37 175.59 1128
8 141 166.00 1.50 172.25 976
9 162 166.4 1.17 167.50 30
4270
610.07
El proceso de inicialización del modelo de atenuación lineal de Holt de dos
parámetros requiere dos estimados: uno para obtener el primer valor
atenuado Ft y otro para obtener el valor Tt de la tendencia. El primer
valor Ft es fácil de obtener: se escoge Ft = X t .
El estimado de la tendencia es bastante problemático algunas veces. En
principio, se requiere un estimado de la tendencia de un periodo al
siguiente, de manera que existen varias posibilidades:
T1 = X 2 − X 1
(X 2 − X1) + (X 3 − X 2 ) + (X 4 − X 3 )
T1 =
3

T1 =un estimado “a ojo” de la pendiente, después de graficar los datos

Cuando los datos “ se comportan bien”, la alternativa escogida no es


crítica, pero los datos del ejercicio 5.2 presentan una “caída dramática” en
los periodos 3 y 4, de manera que si se utiliza la segunda alternativa, que
incluye la diferencia X4 - X3, entonces el método requiere gran cantidad de
periodos para dirigir la tendencia otra vez hacia arriba, sobreponiéndola a
la influencia de tan notable “caída”.

TRIPLE ATENUACIÓN EXPONENCIAL: MÉTODO DE WINTERS


DE TRES PARÁMETROS, PARA TENDENCIA Y
ESTACIONALIDAD

Todos los modelos utilizados hasta ahora pueden resolver predicciones de


datos estacionarios, no estacionarios y con tendencia; sin embargo, estos
modelos no son efectivos para hacer pronósticos de datos que muestren
variaciones estaciónales.
Ft = α
Xt
+ (1 − α )(Ft −1 + Tt −1 ) Tt = γ (Ft − Ft −1) + (1− γ )Tt −1
St − p
Wt + m = ( Ft + mTt ) S t
Este método de predicción está
basado en tres ecuaciones y es
similar al método de Holt, una Donde P indica la longitud de
ecuación adicional para la tiempo estacional en número de
estacionalidad. periodos y S significa el estimado
Xt de estacionalidad
St = β + (1 − β ) S t − p
Ft
Figura 5.2 Triple
iple exponenciación
exponenciación de Winters para tendencia y
estacionalidad de tres parámetros

Sin profundizar mucho en este modelo (véase figura 5.2), el método de


Winters se basa en tres ecuaciones de atenuación (de hecho, sigue la misma
lógica que el modelo Holt):una para las variaciones estacionarias, la
segunda para la tendencia y la tercera para la estacionalidad.

OTROS MÉTODOS DE ATENUACIÓN

Al igual que el método de Winters, existen otros métodos de atenuación.


Del análisis de éstos surge tres conceptos de mejora y utilización
(Makridakis y Wheelwright):

a) Incorporar la transformación de datos en los modelos, de tal manera que


se resuelvan situaciones especiales de predicción. Al respecto, pueden
mencionarse el modelo de triple atenuación exponencial cuadrática de
Brown de un parámetro par resolver tendencias no lineales o el método
de atenuación armónica de Harrison, que mantiene la simplicidad de los
métodos de atenuación, pero trata de introducir transformaciones de
Fourier a fin de agregar sofisticación matemática a dicho modelo
modelo(Pegels,
Gardner).

Triple exponenciación cuadrática Métodos de atenuación


exponencial
St' = αX t + (1 − α ) St' −1 Primera atenuación
St'' = αSt' + (1 − α ) St''−1 Segunda atenuación Adaptativos:
Simple, de Brown, de Chow
St''' = αSt'' + (1 − α ) St''−' 1 Tercera atenuación
Box Jenkins de tres parámetros
utiliza residuales y
autocorrelación.
at = 3St' − 3St'' + St'''
Método armónico de Harrison
at = 3S − 3S + S
t
'
t
''
t
'''
utiliza transformaciones de
Fourier

α2 Este método
ct = ( St' − 2St'' + St''' )
(1 − α ) 2
de predicción
se utiliza
cuando Los Sistema de monitoreo Trigg
datos
muestran una
Ft + m
1
= at + btm + ct m 2
tendencia no
2 lineal
(cuadrática,
cúbica o de
orden mayor)
Figura 5.3 Otros métodos de atenuación exponencial

b) Incorporar el enfoque adaptativo a los modelos de atenuación, lo cual


implica que, en lugar de tener un valor único de cualquiera de los
parámetros utilizados ( , β o γ), este valor puede variar, de manera
controlada, según los cambios que vayan ocurriendo en los patrones,
sean aleatorios, de tendencia o de estacionalidad. Esta característica es
atractiva cuando se tienen cientos o miles de observaciones para lograr
una predicción, y en done este enfoque permite cambios automáticos en
los valores delos parámetros, según vayan cambiando los patrones de
variación de la información.

c) Todos los de computación, como SAS, SYSTAT, SPSS o MINITAB,


contemplan la utilización de los métodos de atenuación tanto por
promedios movibles como por exponenciales, transformaciones y
enfoque adaptativo en forma transparente para el usuario; es decir el
paquete presenta una pantalla de dialogo donde solicita, en forma
practica, qué patrones se requieren calcular: aleatorio, de tendencia y/o
de estacionalidad.
En el mismo dialogo, el paquete solicita el valor que el usuario desea
adjuntar al parámetro o parámetros que se aplican a los patrones
mencionados y, entonces, además de algunas otras indicaciones de orden
computacional (impresora, almacenamiento, etc.), procede a calcular el
pronostico solicitado, generando la predicción con tantos valores como
el usuario solicite, gratificando dichos valores y presentando el error de
la serie de datos procesados. Cada paquete presenta los errores
computados estándar de cada modelo y ensayo, que son los ya
mencionados en el capitulo 2 y 3: MSD, MAD y MAPE.

Debe mencionarse que, en general, los paquetes no indican cuál método


ha sido programado. Es factible suponer, entre otras razones, que en la
mayor parte de los casos el modelo es elegido en función de
consideraciones pragmáticas. Como ejemplo, y dada simplicidad, para el
calculo de la tendencia suele preferirse el modelo Holt de dos
parámetros al de Brown, de un parámetro .

EJERCICIOS
• Atenuación exponencial simple:
Con las ventas de detalle de farmacias a partir de enero de 1980 realice
la atenuación exponencial simple. Se escogió arbitrariamente un valor de
=0.168

Fecha Datos Error Error cuadrado


1980-Ene 2410.73
1980-Feb 2295.97 -114.76 13170
1980-Mar 2405.33 13.88 193
1980-Abr 2458.69 64.91 4213
1980-May 2512.29 107.60 11579
1980-Jun 2468.3 45.54 2074
1980-Jul 2451.35 20.94 438
1980-Ago 2515.78 81.85 6699
1980-Sep 2455.28 7.60 58
1980-Oct 2628.81 179.85 32347
1980-Nov 2582.01 102.84 10575
1980-Dic 2731.78 235.33 55380
1981-Ene 136725
MSD= 12430
• Doble atenuación exponencial lineal de Holt :
Con los mismos datos del ejercicio anterior, desarrolle la atenuación
exponencial lineal de Holt, con =0.052 y β=0.294. Valor inicial T=40

Fecha Datos Atenuación Tendencia Predicción Error Error


cuadrado
1980- 2410.73 2410.73 40.00
Ene
1980- 2295.97 2448.65 39.93
Feb
1980- 2405.33 2478.05 36.45 2488.04 -82.71 6840.69
Mar
1980- 2458.69 2508.83 34.78 2514.50 -55.81 3115.10
Abr
1980- 2512.29 2539.19 33.48 2543.61 -31.32 980.89
May
1980- 2468.3 2569.54 32.56 2572.68 - 10894.81
Jun 104.38
1980- 2451.35 2595.14 30.52 2602.10 - 22725.46
Jul 150.75
1980- 2515.78 2616.59 27.85 2625.66 - 12073.22
Ago 109.88
1980- 2455.28 2637.75 25.88 2644.45 - 35783.57
Sep 189.17
1980- 2628.81 2652.80 22.70 2663.64 -34.83 1213.07
Oct
1980- 2582.01 2673.08 21.99 2675.50 -93.49 8740.99
Nov
1980- 2731.78 2689.18 20.26 2695.06 36.72 1348.34
Dic
1981- 2710.60 20.60 2709.44 103716.14
Ene
MSD= 10372

• Otros métodos atenuación :


Utilizando la serie no aleatoria 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, calcule
la predicción del periodo 11 utilizando el método exponencial simple y
el método exponencial lineal de Holt. ¿Qué valor de debe usarse en
el exponencial simple?¿A la luz de la ecuación 4.9, por que?¿Cuál
debería ser el valor inicial de T en el exponencial lineal?¿por qué?

=0.1 =0.001 β=0.1


Datos Exp. Simp. Error Atenuación T Holt Error
2 2 2 2
4 2 2 4 2 4 0
6 4 2 6 2 6 0
8 6 2 8 2 8 0
10 8 2 10 2 10 0
12 10 2 12 2 12 0
14 12 2 14 2 14 0
16 14 2 16 2 16 0
18 16 2 18 2 18 0
20 18 2 20 2 20 0
20 22

ATENUACIÓN EXPONENCIAL AJUSTADA A LA TENDENCIA:


MÉTODO DE HOLT

Una técnica que se usa con frecuencia para manejar una tendencia lineal se
denomina Método de dos parámetros de Holt. La Técnica de Holt atenúa
en forma directa la tendencia y la pendiente empleando diferentes
constantes de atenuación para cada una de ellas.

Con esta ecuación se atenúa la serie en forma exponencial de manera


similar a como se hacia en el caso de la suavización exponencial simple, la
diferencia radica en que se agrega un término para tomar en cuenta la
tendencia.

Las tres ecuaciones que se utilizan en esta técnica son:

La serie exponencialmente atenuada


A t = α Y t + (1 − α )( A t −1 + T t −1 )

La estimación de la tendencia

Tt = β ( At − At −1 ) + (1 − β )Tt −1

Y t + p = ( A t + pT t )S t − L + p
El pronóstico de “p” periodos en el futuro

Donde :
At = Nuevo valor atenuado
α = Constante de atenuación de los datos (0< α<1)
Yt = Nueva observación o valor real de la serie en el periodo t
ß = Constante de atenuación de la estimación de la tendencia (0< ß<1)
Tt = Estimación de la tendencia
p = Número de periodos a estimar
Yt+p = Pronóstico de p periodos a futuro
Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales
en el período 1988-93. Pronosticar las ventas de 1994, usando la técnica de
Holt con
α = 0.3 y ß = 0.2. Considerar además como valor inicial atenuado 500 y el
valor de 0 como estimación inicial de la tendencia.

Solución : Respecto a los valores iniciales : El valor inicial atenuado puede


estimarse promediando unos cuantos valores de la serie, además, el valor
inicial de la tendencia se puede estimar utilizando la pendiente de la
ecuación de tendencia obtenida de datos anteriores.

Pronóstico usando Atenuación Exponencial ajustada a la Tendencia

Variable : Ventas de piezas metálicas, según años

At Tt
Año Trim. Yt+
Yt valor estimac. et
T p
atenuado Tendencia
88 1 500 500.0 0 500.0 0
1 350 455.0 -4.5 500.0 -150
2 250 390.4 -10.5 450.5 -200.5
2 400 385.9 -9.9 379.8 20.2
3 450 398.2 -7.7 376.0 74.0
3 350 378.3 -8.9 390.5 -40.5
4 200 311.9 -14.2 338.8 -169.4
4 300 295.6 -14.4 305.5 -5.5
89 1 350 303.0 -12.2 293.2 56.8
5 200 260.3 -15.3 271.2 -71.2
2 150 219.5 -17.8 202.9 -52.9
6 400 277.5 -10.2 206.2 194
3 550 364.7 -0.5 287.6 262
7 350 377.0 0.8 321.7 28.3
4 250 354.1 -1.6 296.5 -46.5
8 550 403.1 3.5 404.9 145
90 1 550 426.4 5.5 490.3 59.7
9 400 437.5 6 387.3 12.7
2 350 450.1 6.7 337.6 12.4
10 600 471.9 8.2 554.1 45.9
3 750 531.8 13.4 591.0 159
11 500 548.8 13.7 491.7 8.3
4 400 546.4 12.1 430.9 -30.9
12 650 546.4 10.9 687.3 -37.3
91 1 751.9
13
2
14
3
15
4
16
92 1
17
2
18
3
19
4
20
93 1
21
2
22
3
23
4
24
94 1
25
EMC = 21 488.5
ATENUACIÓN EXPONENCIAL AJUSTADA A LA TENDENCIA Y
A LA VARIACIÓN ESTACIONAL: MODELO DE WINTER

El modelo de atenuación exponencial lineal y estacional de tres parámetros


de Winter, que es una extensión del modelo de Holt, y puede reducir el
error de pronóstico. Se utiliza una ecuación adicional para determinar la
estacionalidad. Esta estimación está dada por un índice estacional y se
calcula con la ecuación 3, la cual muestra que la ecuación del índice
estacional (Yt/At) se multiplica por γ, se suma después a la estimación
estacional anterior (St-L), multiplicada por (1 - γ). La razón Yt se divide
entre At, para expresar el valor en forma de índice en vez de hacerlo en
términos absolutos, de modo que pueda promediarse con el índice
estacional atenuado al periodo t – L.

Esta técnica se basa en atenuar en forma directa la tendencia y la


estacionalidad empleando diferentes constantes de atenuación para cada uno
de ellos.

Las cuatro ecuaciones que emplea el modelo de Winter son:

Serie exponencial atenuada :


Yt
At = α + (1 − α )( At −1 + Tt −1 )
St −L

Ajusta la estacionalidad, elimina efectos estaciónales que pudieran existir


en el valor original Yt

Estimación de la Tendencia :

Tt = β ( At − At −1 ) + (1− β )Tt −1

Estimación de la Estacionalidad :
Yt
S∧ t = γ + (1 − γ )S t − L
Y t+ p = ( tA + pT )S
A
t t t− L+ p
El pronóstico de “p” períodos en el futuro :
Este índice ajusta el pronóstico a la estacionalidad.

Donde :
At = Valor atenuado
α = Constante de atenuación (0< α<1)
Yt = Nueva observación o valor real de la serie en el periodo t
ß = Constante de atenuación de la estimación de la tendencia (0< ß<1)
Tt = Estimación de la tendencia
γ = Constante de atenuación de la estimación de la estacionalidad (0<
γ<1)
St = Estimación de la estacionalidad
p = Número de periodos a estimar
L = Longitud de la estacionalidad
Yt+p = Pronóstico de p periodos a futuro

Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales
en el período 1988-93. Pronosticar las ventas de 1994, usando la técnica de
Winter con
α = 0.4, ß = 0.1, y γ = 0.3. Considerar además como valor inicial
atenuado 500, el valor de 0 como estimación inicial de la tendencia y el
valor de 1 como la estimación inicial de estacionalidad.

Solución : Respecto a los valores iniciales : El valor inicial atenuado puede


estimarse promediando unos cuantos valores de la serie. El valor inicial de
la tendencia se puede estimar utilizando la pendiente de la ecuación de
tendencia obtenida de datos anteriores. Las estimaciones de estacionalidad
se pueden calcular para datos anteriores mediante la descomposición de la
serie de tiempo.
Pronóstico usando: Atenuación Exponencial ajustada a la Tendencia y
a la Variación Estacional

Variable : Ventas de piezas metálicas, según años

At Tt St
Año Trim. Yt+
Yt valor estimac. estimac. et
T p
atenuado Tendencia estacional.
88 1 500 500 0 1.00 500.0 0
1 350 440 -6 0.94 500.0 -150
2 250 360.4 -13.4 0.91 500.0 -250
2 400 368.2 -11.2 1.03 500.0 -100
3 450 394.2 -7.5 1.04 357.0 93
3 350 381.2 -8.1 0.93 362.9 -12.9
4 200 311.9 -14.2 0.83 338.8 -139
4 300 295.6 -14.4 1.02 305.5 -5.5
89 1 350 303.0 -12.2 1.08 293.2 56.8
5 200 260.3 -15.3 0.88 271.2 -71.2
2 150 219.5 -17.8 0.78 202.9 -52.9
6 400 277.5 -10.2 1.15 206.2 194
3 550 364.7 -0.5 1.21 287.6 262
7 350 377.0 0.8 0.90 321.7 28.3
4 250 354.1 -1.6 0.76 296.5 -46.5
8 550 403.1 3.5 1.21 404.9 145
90 1 550 426.4 5.5 1.23 490.3 59.7
9 400 437.5 6 0.90 387.3 12.7
2 350 450.1 6.7 0.77 337.6 12.4
10 600 471.9 8.2 1.23 554.1 45.9
3 750 531.8 13.4 1.28 591.0 159
11 500 548.8 13.7 0.90 491.7 8.3
4 400 546.4 12.1 0.76 430.9 -30.9
12 650 546.4 10.9 1.22 687.3 -37.3
91 1 751.9
13 546.2
2 449.6
14 718.8
3
15
4
16
92 1
17
2
18
3
19
4
20
93 1
21
2
22
3
23
4
24
94 1
25
2
26
3
27
4
28
ECM = 12431.5

El modelo de Winter resulta mejor en minimizar el EMC y proporciona una


forma fácil de explicar la estacionalidad en un modelo, cuando los datos
tienen un patrón estacional. Un método alternativo consiste en
desestacionalizar primero o ajustar estacionalmente los datos. Después se
aplica el modelo de pronóstico a los datos sin estacionalidad y
posteriormente los resultados se estacionalizan de nuevo para proporcionar
pronósticos precisos.

ATENUACIÓN EXPONENCIAL AJUSTADA A LA TENDENCIA:


MÉTODO DE HOLT

Una técnica que se usa con frecuencia para manejar una tendencia lineal se
denomina Método de dos parámetros de Holt. La Técnica de Holt atenúa
en forma directa la tendencia y la pendiente empleando diferentes
constantes de atenuación para cada una de ellas.

Con esta ecuación se atenúa la serie en forma exponencial de manera


similar a como se hacia en el caso de la suavización exponencial simple, la
diferencia radica en que se agrega un término para tomar en cuenta la
tendencia.

Las tres ecuaciones que se utilizan en esta técnica son:

La serie exponencialmente atenuada


A t = α Y t + (1 − α )( A t −1 + T t −1 )

La estimación de la tendencia

Tt = β ( At − At −1 ) + (1 − β )Tt −1

Y t + p = ( A t + pT t )S t − L + p
El pronóstico de “p” periodos en el futuro

Donde :
At = Nuevo valor atenuado
α = Constante de atenuación de los datos (0< α<1)
Yt = Nueva observación o valor real de la serie en el periodo t
ß = Constante de atenuación de la estimación de la tendencia (0< ß<1)
Tt = Estimación de la tendencia
p = Número de periodos a estimar
Yt+p = Pronóstico de p periodos a futuro
Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales
en el período 1988-93. Pronosticar las ventas de 1994, usando la técnica de
Holt con
α = 0.3 y ß = 0.2. Considerar además como valor inicial atenuado 500 y el
valor de 0 como estimación inicial de la tendencia.

Solución : Respecto a los valores iniciales : El valor inicial atenuado puede


estimarse promediando unos cuantos valores de la serie, además, el valor
inicial de la tendencia se puede estimar utilizando la pendiente de la
ecuación de tendencia obtenida de datos anteriores.
Pronóstico usando Atenuación Exponencial ajustada a la Tendencia

Variable : Ventas de piezas metálicas, según años

At Tt
Año Trim. Yt+
Yt valor estimac. et
T p
atenuado Tendencia
88 1 500 500.0 0 500.0 0
1 350 455.0 -4.5 500.0 -150
2 250 390.4 -10.5 450.5 -200.5
2 400 385.9 -9.9 379.8 20.2
3 450 398.2 -7.7 376.0 74.0
3 350 378.3 -8.9 390.5 -40.5
4 200 311.9 -14.2 338.8 -169.4
4 300 295.6 -14.4 305.5 -5.5
89 1 350 303.0 -12.2 293.2 56.8
5 200 260.3 -15.3 271.2 -71.2
2 150 219.5 -17.8 202.9 -52.9
6 400 277.5 -10.2 206.2 194
3 550 364.7 -0.5 287.6 262
7 350 377.0 0.8 321.7 28.3
4 250 354.1 -1.6 296.5 -46.5
8 550 403.1 3.5 404.9 145
90 1 550 426.4 5.5 490.3 59.7
9 400 437.5 6 387.3 12.7
2 350 450.1 6.7 337.6 12.4
10 600 471.9 8.2 554.1 45.9
3 750 531.8 13.4 591.0 159
11 500 548.8 13.7 491.7 8.3
4 400 546.4 12.1 430.9 -30.9
12 650 546.4 10.9 687.3 -37.3
91 1 751.9
13
2
14
3
15
4
16
92 1
17
2
18
3
19
4
20
93 1
21
2
22
3
23
4
24
94 1
25
EMC = 21 488.5

CAPITULO 6
METODOS DE DESCOMPOSICIÓN

Introducción

Los métodos de predicción más antiguos son los de descomposición. En


estos se emplean fórmulas matemáticas sencillas que permiten separar los
cuatro patrones componentes de una serie de tiempo: estacionalidad,
tendencia, ciclo y aleatoriedad. Al eliminar la estacionalidad (por métodos
de atenuación) y la aleatoriedad se obtiene la curva de ciclo / tendencia, que
es el elemento más importante de los pronósticos comerciales. Es
importante hacer notar que la sencillez del método no le resta exactitud;
tanto así que se utiliza ampliamente no sólo en todos los medios de
negocios, sino también en las áreas técnica y científica (de hecho, una de las
aplicaciones de mayor importancia es su uso en actividades censales).

Los métodos de descomposición producen tres ventajas prácticas muy


importantes:
1.Una vez computada la predicción, su presentación es simple y fácil de
utilizar.
2.Los resultados, totales y parciales, brindan una perspectiva histórica que
también se entiende fácilmente, con base en los conocimientos del analista
y en su apreciación intuitiva.
3.Finalmente, aunque otros métodos pueden ser más exactos (Box-Jenkins),
no se emplean tanto en el ámbito de los negocios debido a su dificultad de
interpretación e integración en el proceso de toma de decisiones.

El método clásico es tan sencillo que puede resolverse con simples


calculadoras. Esto no ocurre con el método censal, que por ser algo más
complicado requiere computadoras para su utilización por las grandes
organizaciones y las dependencias gubernamentales de geografía y
estadística.

Métodos de descomposición

Los métodos de descomposición surgieron a


principios de siglo, por una parte tratando de
eliminar tendencia y variaciones estacionales.

En Francia, en 1911 debido a las crisis


económicas, se decidió separar las actividades
económicas para poder predecir los efectos de
las depresiones.

En 1915, en Estados Unidos, donde la


microeconomía requería mejores maneras de
separar los componentes estacionales para
predecir las ventas.

En la actualidad, la mayor aplicación es en los


sistemas de censos según el Depto. de
Comercio de Estados Unidos y se encuentra en
funciones desde 1955 con pocas modificaciones.
Métodos de descomposición

La ecuación general para los


Cuadro 6.1 Sumarización de los métodos de descomposición es:
principios del método de
descomposición. Xt = f ( St, Tt, Ct, Et )

Donde:
Método clásico de
St = Componente estacional de la
descomposición variable Xt.
Tt = Componente de la tendencia.
El método de descomposición supone Ct = Componente cíclico.
que los datos están constituidos de la Et = Componente aleatorio ( error
siguiente manera: ).
DATOS = patrón + error
El modelo puede ser aditivo, pero
Es decir, se ha impuesto el multiplicativo
basado en promedios movibles:
DATOS = f ( tendencia-ciclo,
estacionalidad, error ) Xt = St x Tt x Ct x Et
En otras palabras, agregado al patrón
existe un elemento de aleatoriedad que, asimismo, está presente en
cualquier dato de serie de tiempo.
Este componente aleatorio también se denomina error o residuo. Resulta
evidente que no es posible predecir la aleatoriedad, pero al menos sí puede
identificarse y cuantificarse para determinar la confiabilidad o margen de
error de la predicción generada por los datos ( véase cuadro 6.1 ).

Teóricamente el punto de vista es estadístico, el método de descomposición


tiene varios inconvenientes. Sin embargo, como ya se mencionó, en la
práctica se ignoran muchas desventajas y el método se utiliza con bastante
éxito.

Este método se originó desde principios de siglo, aunque desde 1884


Poynting3 trató de eliminar la tendencia y las variaciones estacionales para
los precios del trigo sobre una serie de tiempo de varios años. Hooker4
(1901) logró resultados más precisos y posteriormente Spencer5 (1904) y
Anderson6 (1914) generalizaron el procedimiento para eliminar la
tendencia.

Los economistas también participaron en este método con el objetivo de


predecir las depresiones, tratando así de aislar los ciclos de la actividad
económica de otros patrones. En 1915, Coperland7 intentó aislar los ciclos
estacionales y, finalmente, el método tal y como se conoce ahora fue
introducido en 1930 por Macauley8 , quien presentó los promedios
movibles como la base de los índices estacionales.

El uso de computadoras en las últimas décadas ha originado un amplio


desarrollo y utilización de estos modelos, tanto por economistas como por
analistas de administración y mercadotecnia. La sencillez de estos métodos
ha llamado la atención de los analistas, quienes los han hecho más
sofisticados sin perder su enfoque y atractivo intuitivo. En la Oficina del
Censo de Estados Unidos se han incorporado variantes no sólo de regresión,
sino inclusive del método ARIMA.

La representación matemática básica del método es la siguiente:

Xt = f ( St, Tt, Ct, Rt ) (6.1)

Donde
Xt = Valores de la serie de tiempo (datos originales) en el período t.
St = Componentes estacionales (o índices) en el período t.
Tt = Componente de la tendencia en el período t.
Ct = Componente cíclico en el período t.
Rt = Componente aleatorio (random) o error en el período t.

La función de relación de estos componentes puede asumir varias formas,


desde la aditiva (simplemente al sumar los cuatro elementos), la
multiplicativa (multiplicándolos), la logarítmica, etc. La más usual es la
multiplicativa. Lo anterior se debe a que la estacionalidad y el ciclo son
proporcionales a la tendencia, por lo que la representación específica es:

Xt = ( St x Tt x Ct x Rt ) (6.2)

Según Majani, para descomponer una serie de tiempo en sus cuatro


componentes se requieren cinco pasos, donde los tres primeros separan la
estacionalidad y eliminan la aleatoriedad:

1. Calcular un promedio móvil con base en la estacionalidad: 12 meses


para la anual y 4 trimestres para las cuatro estaciones tradicionales.
MAt = ( Xt – 6 + Xt – 5 + Xt + Xt + 1 + … + Xt + 5 ) / 12 ; Datos mensuales
(6.3)

MAt = ( Xt – 2 + Xt – 1 + Xt + Xt + 1 ) / 4 ; Para datos trimestrales


(6.4)

2. Dividir los datos reales entre el valor promedio y multiplicar por 100,
con lo que se obtienen las variaciones porcentuales por cada estación
contra el promedio.

X / MA = ( S x T x C x R ) / (T x C) = S x R
(6.5)

Donde MA = T x C , ya que al promediar se eliminan la


estacionalidad y
La aleatoriedad.

3. Promediar sistemáticamente las estaciones homólogas para eliminar


la
aleatoriedad de las variaciones porcentuales. Este proceso genera los
índices estacionales (véanse cuadros 6.2 y 6.3).

En forma práctica pueden agregarse dos pasos: uno que permita mejorar
el proceso de atenuación para eliminar la estacionalidad y otro que
permita “ajustar” los índices estacionales.

Cuadro 6.2 Proceso de eliminación de aleatoriedad y cálculo de


estacionalidad

La tabla se ha construido con los siguientes pasos:

1. Se promedian los valores trimestrales de un año y se centran en el tercer


renglón.
2. Por definición, los promedios eliminan las variaciones estacionales.
3. Al dividir las observaciones X / MA entre los promedios movibles se
obtiene la variación de la observación contra la media, que al
multiplicarse por cien da un valor porcentual.
4. Los valores superiores a 100 indican ventas mayores que la media y
viceversa.
5. Estos valores se organizan horizontalmente, con lo que puede
observarse claramente la estacionalidad.

Y por definición, como el error es aleatorio, es igual a cero con respecto a la


media
X / MA = ( S x T x C x E ) / (T x C) = S x E

5000

4000

3000
Serie1
2000

1000

0
11
13
15
17
19
1
3
5
7
9

Gráfica de los datos originales, donde se observan la tendencia ascendente y


la estacionalidad.

Donde:
MA = T x C, ya que

La estacionalidad desaparece al promediar, y el error, según se vio, es igual


a cero.

La estacionalidad es cíclica, pero lo es dentro de cada año y en general es


según efectos climáticos, sociales o religiosos.

Cuadro6.3 Promedios movibles dobles y ajuste de los índices de


estacionalidad.
Métodos de descomposición.
Cálculo de la estacionalidad (%);veamos la tabla:
(Venta de papel francés por promedios movibles centrados)

Añ Trimestr Period Observacione Promedi Movibl Estacio


o e o s o e doble -
Movible nalidad
1997 1 1 3017.60
2 2 3043.54
3 3 2094.35 2741.33 2773.48 75.51
4 4 2809.84 2805.63 2820.60 99.62
1978 1 5 3274.80 2835.57 2838.06 115.39
2 6 3163.28 2840.56 2867.40 110.32
3 7 2114.31 2894.24 2900.83 72.89
4 8 3024.57 2907.41 2948.69 102.57
1979 1 9 3327.48 2989.96 3030.66 109.79
2 10 3493.48 3071.37 3129.64 111.63
3 11 2439.93 3187.92 3232.62 75.48
4 12 3490.79 3277.32 3298.29 105.84
1980 1 13 3685.08 3319.26 3311.57 111.28
2 14 3661.32 3303.88 3299.98 110.95
3 15 2378.43 3296.07 3316.64 71.71
4 16 3459.55 3337.21 3342.20 103.51
1981 1 17 3849.63 3347.20 3380.19 113.89
2 18 3701.18 3413.19 3428.93 107.94
3 19 2642.38 344.68
4 20 3585.52
Índices estacionales crudos

Trimestre 1ro 2do 3ro 4to Sumas


Año
1977 75.51 99.62 175.13
1978 115.39 110.32 72.89 102.57 401.17
1979 109.79 111.63 75.48 105.84 402.74
1980 111.28 110.95 71.71 103.51 397.45
1981 113.89 107.94 221.83
1598.32
Suma 450.35 440.84 295.59 411.54 1598.32
Promedio 112.5875 110.21 73.8975 102.885 399.58
Factor de Ajuste 1.00105

Índices Estacionales Ajustados

Trimestr 1ro 2do 3ro 4to Sumas


e
Año
1977 75.5893688 99.724710 175.31408
9
1978 115.51128 110.43595 72.1966614 102.67781 401.59167
7 8 9 2 1
1979 109.90540 111.74733 75.559373 105.95124 403.16332
1 5 9 1
1980 111.39696 111.06662 71.7853746 103.6188 397.86776
7 1
1981 114.00971 108.05345 222.06316
6 6
1600
Suma 450.82336 441.30336 295.900696 411.97257 1600
5 9 1
Promedio 112.70584 110.32584 73.9751739 102.99314 400
1 2 3

1. Algunos autores incluyen la mediana ( Newbold9 ) o eliminan los


valores extremos; aquí aplicamos a Makridakis10 para el primer
paso, que consiste en centrar los valores de atenuación (promedio
movible) y en seguida hacer un promedio movible doble (véanse
cuadros 6.2 y 6.3):

MAdt = ( MAt + MAt + 1 ) / 2


(6.6)

2. El ajuste de los índices estacionales se lleva a cabo al elaborar un


cuadro horizontal de las razones porcentuales X / MA por cada
período y año (cuadro 6.3). En seguida se promedian verticalmente
dichos promedios y luego todos ellos se suman horizontalmente. Por
supuesto, la suma debe ser igual a 400. Si ésta es inferior a 400,
entonces se divide 400 entre el valor resultante (el cociente es
superior a 1) y este número se utiliza como valor de ajuste. A
continuación todos los índices parciales se multiplican por este
factor, de manera que en la nueva tabla ahora los valores
promediados son iguales a 400. Si la suma inicial es superior a 400,
entonces se invierte la división, con el 400 como divisor, de manera
que el factor de ajuste ahora es inferior a uno.

Los dos últimos pasos son: el cuarto para aislar y calcular la tendencia, y
el quinto para aislar y calcular el ciclo.

Aislamiento y cálculo de la tendencia

Es importante hacer notar que la tendencia puede ser un componente


temporal del ciclo, el cual muestra primero una tendencia ascendente y
luego descendente, dependiendo si la serie de tiempo plantea la fase de
crecimiento o la de depresión económica de dicho ciclo (figura 6.1a).
Pero también puede plantearse una tendencia que trascienda al ciclo, en
cuyo caso los movimientos de crecimiento y depresión forman parte de
un crecimiento sostenido (por ejemplo el crecimiento de la población)
como se muestra en la figura 6.1b del ejemplo del cuadro 6.3 (y que
continúa en el cuadro 6.4), en el que se estudia parcialmente la venta de
papel en Francia de 1968 a 1980 y pueden apreciarse varios altibajos de
tipo cíclico, pero donde el esquema integral es de crecimiento sostenido.

Probablemente una de las características más afortunadas del modelo de


descomposición es que al calcular la tendencia se plantea en forma
simplificada una ecuación, lineal o exponencial, que al tener agregados
los índices estacionales y cíclicos correspondientes se genera este
sencillo modelo, denominado de descomposición.

Ciclo sexenal en México

PNB

0 1 6 12 x
Años

Figura 6.1 (a) Ciclo sin Tendencia

Venta de papel en Francia


y

$
0 1968 1980 x

(b) Ciclo con Tendencia de Crecimiento

EJERCICIO 6.1

Al considerar los datos del cuadro 6.3 y de la figura 6.1b sobre la venta
de papel periódico en Francia de 1968 a 1980, puede verse que aunque
hay tres recesiones, una leve en 1969, una serie en 1974 - 1975 y una
que comenzó en 1980, la tendencia en general muestra una pendiente
lineal de crecimiento sostenido. Si se hicieran estudios parciales con
intervalos cortos de tiempo, podría caerse en la parte ascendente de cada
ciclo, donde el crecimiento precedente a una depresión es rápido
(exponencial) tanto para los años previos a 1974 como para los
anteriores a 1980. Resulta evidente que para cubrir el ciclo y la
tendencia se requiere un número considerable de años que muestren el
esquema general en toda su amplitud, ya que de otra manera los
resultados de tendencia y ciclo podrían ser engañosos.

No existe ninguna seguridad de que cualquier análisis matemático sea


capaz de prever con exactitud los cambios de tendencia o ciclo, aunque
la descomposición en sus integrantes permite que el analista tenga una
visión bastante razonable de todo el proceso de predicción (véase cuadro
6.4).

La solución matemática es muy simple, ya que al utilizar un modelo de


mínimos cuadrados y graficar los períodos de tiempo en el eje de las
abscisas y las ventas trimestrales en el de las ordenadas, la ecuación
queda como
Tt = a + bxt (6.7)
Cuadro 6.4 Cálculo de la tendencia en el método de descomposición.

Métodos de descomposición
(Cálculo de Tendencia)
Se utiliza el método de regresión lineal, tomando como la variable
Independiente el periodo (trimestre) y como variable
Dependiente las ventas (observaciones)

Añ Tri- Pe- Datos Prome Prome Índ. Tenden Ind. Predi-


os mest riod dio dio esta- cia Est. cción
re o movibl Doble cional ajusta
e do
1 2 3 4 5 6 7 8 9 10
4/5*1 3xb+a 8x9/10
00 0
199 1 1 3017. 2554.7 112.7 2879.4
7 6 8 1 97
2 2 3043. 2610.6 110.3 2880.3
54 7 3 49
3 3 2094. 2741.3 2773.4 75.5 2666.5 73.98 1972.7
35 83 5 14
4 4 2809. 2805.6 2820.6 99.6 2722.4 102.9 2803.8
84 3 9 35
197 1 5 3274. 2835.6 2838.0 115.4 2778.3 112.7 3131.4
8 8 63 2 1 42
2 6 3163. 2840.6 2867.3 110.3 2834.2 110.3 3126.9
28 99 0 3 75
3 7 2114. 2894.2 2900.8 72.9 2890.0 73.98 2138.0
31 25 9 85
4 8 3024. 2907.4 2948.6 102.6 2945.9 102.9 3034.0
57 85 7 9 53
197 1 9 3327. 2990.0 3030.6 109.8 3001.8 112.7 3383.3
9 48 63 5 1 88
2 10 3493. 3071.4 3129.6 111.6 3057.7 110.3 3373.6
48 43 4 3
3 11 2439. 3187.9 3232.6 75.5 3113.6 73.98 2303.4
93 2 2 56
4 12 3490. 3277.3 3298.2 105.8 3169.5 102.9 3264.2
79 89 0 9 71
198 1 13 3685. 3319.3 3311.5 111.3 3225.3 112.7 3635.3
0 08 7 9 1 33
2 14 3661. 3303.9 3299.9 110.9 3281.2 110.3 3620.2
23 78 7 3 26
3 15 2378. 3296.1 3337.1 73.98 2468.8
43 5 27
4 16 3459. 3393.0 102.9 3494.4
55 4 9 89

Donde
Tt = Valor de la tendencia a predecir en el período t.
xt = Dato observado (real) del período t a predecir.
b = Coeficiente de regresión de la pendiente de la tendencia.
a = Constante de intersección de la pendiente con el eje de las
ordenadas.

En el cuadro6.5 se muestra el resultado de la regresión para 16 valores


de las ventas de papel; con los coeficientes obtenidos se procedió a
elaborar los resultados que aparecen en el cuadro6.4 .

Cuadro 6.5 Cálculo de la tendencia por el método de descomposición.

Métodos de descomposición
(Cálculo de tendencia)
Resultado Regresión
Constante 2498.9 Coeficiente a
Coeficiente b
Error de estim. Y 534.6414 donde
Coef. determinac. (r2) 0.171589
Tamaño de la muestra 14 Y = a + bt
Grados de libertad 12
y

Coeficiente(s) X 55.8836 t = Periodo


Error coef. X 35.44638

Tendencia aislada, elimina la


estacionalidad

4000
3000
2000 Serie2
1000
0
11

13
15

17

19
1

3
5

La fórmula de predicción es muy simple:

Se cálcula, como base y representación de los datos, una


línea recta donde:

Y = a + Xb

T = a + Periodo * b

Donde:
T = Tendencia
a = Constante
b = Coeficiente de regresión

Y el valor t obtenido, se multiplica por el índice estacional


ajustado, restituyéndole así sus variaciones estacionales:

Ft = (Periodo x b + a) x Índice estacional


Análisis del ciclo

Los factores cíclicos han recibido bastante atención desde los primeros
estudios de los trabajos econométricos en el mundo occidental. Este
fenómeno siempre ha sido de gran interés debido a las razones de
extrema miseria y sufrimiento que causan dichas variaciones cuando
alcanzan niveles extremos.

En Estados Unidos se ha mostrado que los ciclos están constituidos por


variaciones de expansión que van desde 25 hasta 105 meses y por
variaciones de contracción que han durado de 6 a 65 meses, de manera
que un ciclo completo puede variar de 17 a 117 meses. Entre 1854 y
1945 se registraron 30 ciclos, y desde 1945 hasta 1994 otros ocho, con
un patrón recurrente que desafortunadamente es bastante irregular. Las
causas pueden variar: desde eventos aleatorios como malas cosechas,
sequías, etc., hasta reajustes en los sistemas económicos y bancarios de
los países industrializados.

En términos algebraicos, la separación del ciclo es muy sencilla, ya que


si los promedios movibles se dividen entre la tendencia se obtiene

C = ( T x C) / T = MA / T , lo que multiplicado por 100 (6.8)


es el índice de ciclo.

Ft = (Periodo Xb + a)*índice estacional*índice de ciclo

El ciclo, igual que la estacionalidad, se multiplica por 100 para obtener


un valor porcentual. Debido a que las actividades cíclicas son fenómenos
a largo plazo, resulta evidente que se requiere, por lo menos, tener
observaciones de un número múltiplo de años correspondientes al de los
ciclos que se estudian, sean macroeconómicos, meteorológicos, etc.

Como ya se mencionó, es posible que este método no sea tan preciso,


por ejemplo, como el Box-Jenkins (ARIMA). Sin embargo, tiene la
característica de detectar los cambios cíclicos con bastante exactitud y
oportunidad, especialmente en los casos en los que existen cambios
bruscos donde la detección temprana de un cambio de tendencia
ascendente hacia uno descendente puede ser muy importante en la toma
de decisiones. Aparentemente, el método Box-Jenkins con toda su
exactitud no es capaz de determinar este tipo de cambios en el momento
requerido.

Otras aplicaciones de los métodos de descomposición

Método II del censo

Este método fue desarrollado en 1955 por la Oficina del Censo del
Departamento de Comercio estadounidense. Como es de suponer, el
censo no requiere la estacionalidad y el personal de la oficina del censo
descubrió la forma de separar los cuatro componentes de las series de
tiempo, uno por uno.
Otra mejora aportada por la oficina del censo fue ajustar la
estacionalidad, ya que las variaciones en el tamaño de los meses hacen
que algunos sean de cuatro semanas y otros de cinco, de modo que sólo
por este hecho se genera hasta 10% de error adicional. Ajustar los
coeficientes según la duración del mes ha permitido mejorar la
predicción.

Además de las mejoras operativas del método aportadas por la oficina


del censo, ahí también se diseñaron tres pruebas para determinar la
precisión del método de descomposición:

1. Prueba del mes adyacente: Prueba la razón entre los valores ya sin
estacionalidad y el promedio del mes adyacente. Esta razón nunca
debe exceder de 95 a 105% para que el proceso de eliminación de la
estacionalidad sea adecuado.
2. Prueba del mes de enero: Trata de evitar cambios importantes al
pasar de un año al siguiente y consiste en comparar los resultados de
enero con los de los demás meses. Esta prueba fue capaz de detectar
los cambios en la estacionalidad causados por el embargo
estadounidense en Medio Oriente, que provocaron aumentos de
precio, lo cual llevó a la crisis del petróleo.
3. Prueba de la igualdad: Algunas veces se hacen ajustes exagerados a
los datos ya sin estacionalidad, por lo que esta prueba es de gran
valor para detectar estos tipos de ajuste, que no deben exceder de 90
a 110% de los valores regulares en el resto de los datos del año.
Pronósticos comerciales

No hay duda de que los pronósticos no constituyen una ciencia exacta, ya


que la mayor parte de los datos proporcionados por los administradores
carece de un análisis profundo que les quite su carácter especulativo. El
objetivo principal de los métodos de predicción es obtener información
suficiente para ayudar al ejecutivo en la toma de decisiones. Bastantes
hombres de negocios se niegan a usar un enfoque altamente matemático,
principalmente porque no entienden el alcance, las ventajas y/o las
limitaciones que implica el enfoque matemático.

Resulta evidente que para solventar este problema, el analista de métodos


de predicción debe buscar la manera en que los usuarios entiendan
fácilmente los resultados del proceso de pronóstico. Los métodos de
pronósticos deben ser no solamente exactos, sino también convincentes,
y es en este renglón donde los métodos de descomposición resultan
sumamente atractivos porque son muy intuitivos y fáciles de interpretar.
El ejecutivo puede acudir a su experiencia y sentido común para entender
los conceptos de ciclo-tendencia, por lo cual puede decirse que este
método permite un buen grado de sinergia entre el analista estadístico y
el ejecutivo que asume la responsabilidad de las decisiones.

Pronósticos de presupuestos

Aunque todo mundo sabe que los presupuestos se generan con base en
pronósticos, curiosamente en el área financiera el presupuesto no tiende a
ser de lo más exacto ni homogéneo, sino a expresar las aspiraciones, el
optimismo y/o las necesidades políticas a resolver. El analista estadístico
pocas veces puede aportar nada mejor que la precisión matemática, los
márgenes de error y el procesamiento rápido y oportuno.

Por supuesto, cuando el financiero a cargo de presupuestar incluye un


factor de exceso en la predicción real para forzar cuotas de venta, motivar
al personal administrativo o generar una nota de optimismo en la
empresa, el analista estadístico que hace el pronóstico no debe caer en la
tentación de alterar sus resultados matemáticos a fin de generar un
optimismo injustificado: su función es pronosticar el futuro, no
mejorarlo. El analista debe considerar, sin entrar en más detalle, los
siguientes puntos:

• La economía nacional.
• El ámbito internacional, especialmente en las compañías
multinacionales.
• La demanda de los productos de la compañía.
• El volumen de ventas.
• La participación en el mercado.
• El precio de los productos de la empresa.

La labor de predicción (forecasting) en las compañías modernas se cubre


parcialmente por el departamento de estadística de la empresa y/o por
empresas externas que realizan estas labores para los departamentos de
Mercadotecnia, Recursos Humanos, etc. Este punto puede resumirse al
notar que el método de descomposición es una herramienta bastante útil
que permite que la empresa moderna haga predicciones mejores y más
sencillas, de fácil empleo y muy atractivas desde el punto de vista de la
interpretación de los resultados.
EJERCICIO 6.2

Venta de ropa de playa en el Pacífico mexicano, en millones de dólares


estadounidenses.

Periodo Trimestre X T MA C I.E. F SSE Resultado Regresión


1 1 362 353,12 Constante 337.954545
2 2 385 368,28
Error de est.Y 49.1877024
3 3 432 383,44 391,02 1,02 1,15 447,8 249,9
4 4 341 398,6 406,18 1,019 0,87 351,9 119,5 Coef. determ (r) 0.57600721
5 1 382 413,76 421,34 1,018 0,98 411,5 869,7 Tamaño de Muestra 12
6 2 409 428,92 436,5 1,018 1,01 441,6 1062,8
7 3 498 444,08 451,66 1,017 1,15 517,3 371 Grados de Libertad 10

8 4 387 459,24 466,82 1,017 0,87 404,5 305,4


9 1 473 474,4 481,98 1,016 0,98 470,7 5,2
Coeficiente(s) X 15.1608392
10 2 513 489,56 497,14 1,015 1,01 503 100,9
11 3 582 504,72 Error coef. X 4.11328231
12 4 474 519,88
MSE = 385,6

Tendencia de la serie

800
600
Serie2
400
Serie3
200
0
1 2 3 4 5 6 7 8 9 10 11 12
Ajuste del Modelo

600
500
400
Serie2
300
Serie3
200
100
0
1 2 3 4 5 6 7 8

Indices estacionales sin ajustar


1 2 3 4
113 88
96 99 116 85
99 103 114

98 101 114 86,5


399
Factor de ajuste= 1,001669
Indices estacionales ajustados
1 2 3 4
113.2 88.1
96.
2 99.2 116.2 85.1
99.
2 103.2 114.2

97.
7 101.2 114.5 86,6 400
Resumen matemático

El método de descomposición trata de aislar y predecir los patrones que


integran la información histórica de la empresa como base para
extrapolar los resultados hacia pronósticos útiles en planeación y toma de
decisiones. Estos patrones son:

1. Tendencia: Es el comportamiento de los datos a largo plazo y puede


ser creciente o decreciente. Cuando no cambia puede utilizarse para
abreviar el proceso de predicción.
2. Ciclo: Este factor representa las bajas y altas causadas por
condiciones macroeconómicas o industriales. El ciclo sigue a menudo
el patrón de fluctuaciones en forma de ondas, con altas y depresiones.
3. Estacionalidad: Los factores estacionales se refieren a las
variaciones, también en forma de onda, que se relacionan con la
temperatura, la lluvia, el frío, los meses del año, festividades o bien
con políticas gubernamentales o corporativas.

El elemento error se refiere a la aleatoriedad de los daros y es la


diferencia entre el efecto combinado de los tres subpatrones de una serie
real de tiempo.

El desarrollo matemático es como sigue:

MA = ( X1 + X2 + X3 + X4 ) / 4 = T x C ; (6.9)

Donde MA = promedios movibles. Dado que al atenuar los valores


(promediando) éstos pierden estacionalidad y variaciones aleatorias
(recuérdese que Σ Xi – X = 0 ), entonces

X / MA = ( S x T x C x R ) / (T x C) = S ;
(6.10)

T se calcula por medio del método de regresión (mínimos cuadrados),


tomando como variable dependiente a los valores reales (o los atenuados)
y como variable independiente a los períodos propiamente dichos para
obtener
Tt = a + b( Pt ) ; (6.11)

A su vez, para calcular el ciclo se tiene


MA / T = ( T x C ) / T = C ; (6.12)

Ya que T en el numerador y en el denominador se anulan.

Por último, el error también puede determinarse algebraicamente con la


única finalidad de conocer el margen de confianza de la predicción.

MA = T x C por lo que S = X / ( MA ) ; entonces

( S x T x C x R ) / S = X / S = T x C x R, de donde
( T x C x R ) / MA = ( T x C x R ) / ( T x C ) = R ; (6.13)

ya que el producto T x C se elimina en el numerador y en el


denominador.

CAPITULO 7

AUTOCORRELACION
INDEPENDENCIA DE VARIABLES ALEATORIAS

Construcción de modelos de predicción basados en técnicas de


Autocorrelación.

El problema practico que se abordara en este capitulo, es si es posible, con


base solo en la información del pasado de las variables de una serie de
tiempos dada, pronosticar los valores futuros de las mismas. En la
atenuación exponencial se aplica un algoritmo a una serie de tiempo sin
investigar las propiedades de esta. En este capitulo se asume que el
investigador cuenta con los recursos necesarios para llevar a cabo su
análisis y desarrollar una función de predicción idónea para una serie de
tiempo que tiene ciertas propiedades observadas. Entonces, el algoritmo
escogido para pronosticar esta determinado por dicha investigación sobre el
comportamiento de los valores de una serie de tiempo.
El primer paso en este intento analítico debe ser ajustar un modelo a los
datos, de forma que éste genere una serie de datos de predicción que se
aproximen al proceso inicial que les dio origen. Si se logra lo anterior, se
tendrá una buena herramienta que permitirá plantear la pregunta:
¿ cuál es la mejor manera de predecir el futuro de una serie dada?
Esta cuestión puede desglosarse en las tres preguntas siguientes:

1. ¿Que clase de modelo debe considerarse como el posible generador de


una serie de tiempo observada?

2. ¿Cómo debe proceder el analista para ajustar un modelo específico de una


clase general de modelos a un grupo panicular de datos?

3. ¿Cómo se desarrollarán los valores futuros de predicción de un modelo


que se ajuste a los datos originales?

Por tanto, cualquier predicción es una función de los datos mismos, según el
modelo que mejor se ajuste a ellos. En principio, existirían tantos modelos
como series de datos individuales (una infinidad); sin embargo, hay por lo
menos dos restricciones importantes que limitan en forma considerable esta
cantidad:

1. Las predicciones son funciones lineales de los datos observados.


2. La meta es encontrar parámetros eficientes que permitan una descripción
adecuada de las características de dicha serie de datos, siempre y cuando
logre minimizarse el MSD con el número óptimo de parámetros.

La limitación lineal es simplemente una manera práctica de restringir el


número posible de funciones disponibles y, aun así, las posibilidades son
amplias y suficientes para las necesidades prácticas del analista (debe
recordarse la posibilidad de transformar los datos no lineales:
Una buena estrategia en la construcción de modelos de predicción es buscar
siempre el modelo más sencillo que describa mejor las características de los
datos. Esta estrategia también se conoce como principio de la parsimonia.
En este capítulo se sentarán las bases del proceso de autocorrelación por
supuesto, el primer paso será siempre graficar los datos originales y
enseguida desarrollar el paso de autocorrelación, que describe la relación
entre los diversos valores de la serie de tiempo según k desplazamientos de
dichos valores entre sí. Box y Jenkins resumieron los pasos de análisis para
analizar series de tiempo invariadas. Una vez que se encuentra el mejor
modelo, el paso final es utilizarlo para la predicción requerida véase la
siguiente figura.
FIGURA 1. Esquema de la metodología Box-Jenkins
para modelación de series de tiempo.
Análisis autocorrelacionales en una serie de datos

La clave de estos modelos se encuentra en el coeficiente de autocorrelación


(para las series de tiempo que se correlacionan consigo mismas con
desplazamientos de 1, 2 o más periodos). La ecuación para determinar el
coeficiente de Autocorrelación es
n

∑ (Y t − Y )(Yt − k − Y )
rk = t = k +1
n
(1)
∑ (Y
t =1
t −Y) 2

donde r1 indica cómo los valores sucesivos de Y se relacionan consigo


mismos, r2
indica cómo los valores de Y separados por dos periodos se relacionan
entre sí, y así sucesivamente. Al agrupar dichos coeficientes r como
desplazamientos 1, 2, 3,…., se obtiene la denominada función de
Autocorrelación. A su vez, esta función puede graficO.

Ejemplo 1: considere una tabla de 10 números aleatorios, como se


muestra en el siguiente cuadro.
Autocorrelación
Calculo de coeficientes de autocorrelacion

Producto
Cuadrados diferencia
diferencial s
Observacion es vs. 1er 2do.
es media desplaz. Desplaz. 3ro 4to 5to
13 9 -6 15 -18 -18 6
8 4 -10 12 12 -4 -2
15 25 -30 -30 10 5 -15
4 36 36 -12 -6 18 -24
4 36 -12 -6 18 -24 -12
12 4 2 -6 8 8 4
11 1 -3 4 2
7 9 -12 -6
14 16 8
12 4
100 144 -27 -29 26 -19 -47
10 14.4 -3 -3.625 3.7142857 -- -9.4
- - -
Coeficiente de 0.2013888 0.1319444 0.3263888
Autocorrelación -0.1875 9 0.1805555 4 9

Cuadro 1. Diez números aleatorios


autocorrelacionados con cinco
desplazamientos de si mismos.

ANALISIS AUTOCORRELACIONALES EN UNA SERIE DE


DATOS

Veamos el siguiente ejemplo: autocorrelación


Cuadro 2.Resumen del calculo de los coeficientes de
autocorrelación Para 10 números aleatorios.

Esta serie se obtuvo utilizando 10 números no relacionados (aleatorios) en


el rango de 0 a 20; sin embargo, si este hecho no fuera conocido, sería fácil
determinar que los números son independientes y no se encuentran
relacionados entre sí al someterlos a la técnica de autocorrelación. Para cada
desplazamiento calculado, si no hay Autocorrelación, el coeficiente debe
estar muy próximo a cero. Al sustituir en (1) se obtiene lo siguiente:

(13 − 10)(8 − 10) + (8 − 10)(15 − 10) + (15 − 10)(4 − 10) + .... + (14 − 10)(12 − 10)
rk =
(13 − 10) 2 + (8 − 10) 2 + (15 − 10) 2 + ..... + (12 − 10)
3(−2) + (−2)(5) + 5(−6) + (−6)2 + .... + (4)(2)
= = −0.188
3 2 + (−2) 2 + 5 2 + .... + 4 2 + 2 2

Validación de los coeficientes de correlación

El coeficiente de Autocorrelación es una herramienta muy valiosa para


investigar las propiedades empíricas de una serie de tiempo, y aunque para
efectos de este texto la teoría subyacente es bastante complicada, si se
utiliza la distribución probabilística de Autocorrelación es posible validar
los coeficientes obtenidos.

Existen dos métodos estadísticos para validar los coeficientes de auto-


correlación: el primero utiliza el error estándar que prueba si cada uno de
los coeficientes es estadísticamente diferente de cero (ver figura 8.2) y el
segundo considera un grupo completo de valores de coeficientes de
Autocorrelación dado un número k de desplazamientos como en este caso,
donde k = 5 (r1, r2, r3, r4 y r5). A continuación se desarrolla una prueba
global de significancia, donde se desea saberse si desde el punto de vista
estadístico todas las variables del grupo son diferentes de cero. Esta prueba
es la estadística Q Box-Pierce y se resuelve con la distribución
probabilística x2.

En cuanto al error estándar de un coeficiente de Autocorrelación rk ais-


lado, con los diez valores observados en el ejemplo 1 se obtuvieron cinco
autocorrelaciones que se muestran en la figura 2 (el cálculo y la
elaboración de la gráfica se hicieron con Excel) y en la figura 3 (la
elaboración de la gráfica se hizo con SYSTAT).

Se observa el margen de confianza calculado según la fórmula

1
serk = 1.96 A 95% de probabilidad (2)
n
Lo que se interpreta teóricamente como sigue: los coeficientes de auto-
correlación para una serie de tiempo generada por números aleatorios deben
tener un valor próximo a cero. Si se toma una infinidad de muestras de
números aleatorios, de la misma forma y en promedio los coeficientes de
autocorrelación tendrían un valor cercano a cero. Si para denotar la
Autocorrelación de toda la población se utiliza la p k , entonces los valores
de r debe formar una distribución probabilística alrededor de p k
FIGURA 2. Utilización del error estándar de la distribución de
autocorrelación
para validar los coeficientes de autocorrelación.

Varios autores (entre otros Anderson, Bartlett y Quenouille) demostraron


que dicha distribución tiende a la normal con media cero y desviación
estándar 1 / n . Esta información puede utilizarse (ecuación 2) para
desarrollar una prueba de significancia de los coeficientes de
Autocorrelación

FIGURA 3. Gráficas de los datos observados y de cinco coeficientes de


autocorrelación y los márgenes de error (no excedidos pro los valores de rk )

como las pruebas t de Student o F de Fisher, que permiten determinar si


alguna de las rk proviene de una población cuyos valores son cero para k
desplazamientos. Debido a que n = 10 y como a 95% de probabilidad todos
los coeficientes de autocorrelación deben quedar dentro de un rango
especificado por la media más o menos 1.96 desviaciones estándar, puede
concluirse que la serie de tiempo está formada por valores aleatorios si los
coeficientes de autocorrelación quedan dentro de los límites

− 1.96(0.3162) ≤ rk ≤ +1.96(0.3162),
− 0.62 ≤ rk ≤ +0.62

En las figuras 8.2 y 8.3 puede verse que ninguno de los cinco valores rk
excede los límites establecidos por el error estándar, lo cual confirma lo que
ya se sabía: que la serie de datos estudiada está compuesta por números
aleatorios. Esto se conoce como ruido blanco y se verá en mayor detalle en
el capítulo siguiente.

Ahora bien, puede observarse que r5 = 0.33, y aunque con una muestra de
sólo 10 observaciones este valor de r es estadísticamente igual a cero, si tal
valor de r se hubiese obtenido con una muestra de 360 observaciones en
lugar de 10, donde los límites de confianza hubieran sido ±0.105 en lugar
de ±0.3162, estaría hablándose de la presencia de algún tipo de patrón (no
aleatorio), ya que el valor de r habría excedido ampliamente el límite
establecido por el error estándar. Es claro que con un número tan elevado de
observaciones sería bastante difícil que un coeficiente de autocorrelación
llegara a alcanzar el valor de 0.33, aunque en casos como el que se ha
descrito es importante utilizar en forma teórica algún otro modo de asegurar
la significancia de los valores rk.

Para este efecto se utiliza el estadístico Q desarrollado por Box-Pierce


(1970) que computa rk como sigue:
5
Q= n ∑r
k =1
2
(3)

[ ]
= 10 (−0.19) 2 + (−0.20) 2 + (0.18) 2 + (−0.13) 2 + (−0.33) 2 = 2.343

Este estadístico se considera de la distribución de x2 con (m - p - q) grados


de libertad. En el próximo capítulo se estudiará el número de parámetros
AR (p) que se utilizan para hacer una predicción, así como el número de
parámetros (q) MA para establecer un modelo de promedios movibles,
donde (m) es el número total de parámetros a utilizar en cualquier modelo
ARIMA: en el caso del ruido blanco (autocorrelación de números
aleatorios), todos ellos son iguales a cero. Al consultar la tabla de x2 con 5
grados de libertad se encuentra que el valor es 11.07 al 95% de probabilidad
y que entonces el valor calculado de Q = 2.343 está muy lejos de exceder el
punto crítico de tablas. El estadístico Q confirma una vez más que este
grupo de datos no puede considerarse diferente de cero (en términos
estadísticos).

Ljung y Box8 afirman que la ecuación


h
Q= n(n + 2)∑ (n − k ) −1 rk2
k =1

tiene una distribución más cercana a la de x2• Para los efectos prácticos del
curso Pronósticos para la toma de decisiones para el que está destinado este
texto, la prueba Q debe ser suficiente para validar modelos que no requieren
un grado tan alto de precisión, sea en los campos técnico o científico.

Cabe hacer notar que estas pruebas normalmente aceptan las series de datos
como significativamente autocorrelacionados si el valor de Q cae en el
extremo 5% de la cola del lado derecho de la distribución de x2• Es decir
que el valor de Q es mayor que el valor crítico de tablas a 95% (0.05) de
probabilidad. Desafortunadamente, a menudo estas pruebas fallan al no
rechazar modelos que no dan un buen ajuste, por lo que es conveniente
advertir que un modelo no debe aceptarse únicamente con base en la prueba
estadística Box-Pierce o en la de Ljung-Box.

Coeficiente de autocorrelación parcial

En un análisis de regresión conviene determinar cuanta capacidad tiene


cada variable independiente x1 , x 2 ,....., x n para explicar su relación con la
variable independiente y. las regresiones de cada variable independiente se
parcializan individualmente para obtener los residuales de este análisis
individual y encontrar la correlación de dichos residuales con la variable
independiente Xi. En autocorrelación existe una técnica similar.

La autocorrelación parcial se utiliza como una medida del grado de


asociación entre Yt y Yt-1 cuando se han eliminado los efectos de otros
desplazamientos como 1,2,3,..., k-1.
Al observar la autocorrelación entre Yt y Yt-1 del ejercicio 1, también se ve
que entre Yt-1 y Yt-2 existe autocorrelación porque la distancia entre ambos
es de una unidad, por lo que entre Yt y Yt-2 debe haber una relación debido
a que ambas están relacionadas con Yt-1. Para medir la correlación real entre
Yt y Yt-2 es necesario eliminar el efecto intermedio de Yt-1, que es
precisamente lo que hace la autocorrelación parcial.

El coeficiente de autocorrelación parcial de orden k se denota como α k y


puede calcularse haciendo la regresión de Yt contra Yt-1, Yt-2, ..., Yt-k.

y t = b0 + b1 y t −1 + b2 y t − 2 + .... + bk y t − k (5)

Esta es una regresión múltiple que viola la premisa de independencia entre


variables independientes ya que, como bien se sabe. los valores Y son
desplazamientos de la variable misma, por lo que este proceso se denomina
autorregresión (AR) y se utiliza para describir la ecuación

Figura 4. coeficiente de autocorrelación parcial (PACF)

Entonces la autocorreción parcial ∝k es la estimación del coeficiente bk de la


regresión múltiple. Es de notar que la primera autocorrelación parcial es
exactamente igual a la primera autocorrelación, y si se hace variar el
número de términos del lado derecho de la ecuación se obtienen las
autocorrelaciones parciales para los diferentes valores de K.

Así como sucede con los coeficientes de autocorelación, los coeficientes


parciales deben estar muy próximos a cero en el caso de las series de ruido
blanco, donde dichas autocorrelaciones parciales son independientes y están
normalmente distribuidas con un error estándar = 1 / n . De aquí que los
mismos valores críticos de ± 1.96 (1 / n ) pueden utilizarse con PACF para
evaluar el ruido blanco.

Periodograma o análisis espectral

Otra manera de analizar una serie de tiempo es descomponerla en ondas o


ciclos de diferentes frecuencias. Este método era muy popular antes del
advenimiento de las computadoras personales y aún conserva cierto mérito,
aunque cada vez se menciona menos en las ediciones modernas de los
tratados sobre métodos de predicción para negocios.

Aunque este método parece complejo, al menos tiene la virtud de ayudar a


identificar la aleatoriedad y la estacionalidad en las series de tiempo. En
este sentido es necesario hacer una descripción de las tres características
básicas de las ondas sinoidales:
1. Ancho de onda, medida de una cresta a la siguiente, e inversamente
relacionada con la frecuencia.

2. Amplitud de onda, que se mide en altura o “fortaleza” de la onda.

3. Fase, que se refiere al desplazamiento (o posición) horizontal de la


onda.

En las series de tiempo, el ancho de onda se traduce como unidades de


tiempo (o número de observaciones que forman una onda) y la fase se trata
en forma similar. Cualquier serie de tiempo está compuesta por n
observaciones equidistantes, ajustadas por mínimos cuadrados a un número
de ondas sinoidales con frecuencia, amplitud y fase dadas. Los resultados se
conocen como periodograma (Schuster9, 1898) y también como análisis
armónico o análisis de Fourier. Para efectos de las series de tiempo,
examinar las amplitudes de onda tiene cualquiera de los tres objetivos
siguientes:

1. Ayuda a identificar la aleatoriedad (de las sedes de tiempo o de los


residuales). El cuadro 8.3 y la figura 8.5 muestran claramente que no
existe ningún patrón identificable, lo cual confirma la total alea-
toriedad de la sede de tiempo, hecho que ya se demostró ampliamente.
2. Ayuda a identificar estacionalidad en la sede de tiempo.

3. Ayuda a determinar la predominancia de autocorrelación negativa o


positiva, ya que para ésta predominan las bajas frecuencias, mientras
para autocorrelación negativa lo hacen las altas.

Debe advertirse que esta técnica no es central para los modelos ARIMA,
aunque es de alguna utilidad en la siempre difícil tarea de identificar el
modelo apropiado para una sede de tiempo.

Frecuencias de Imaginari Magnitu Periodogram


índice Real a d Fase a
1 0.0 9.250 0.0 9.250 0.0 217.883
2 0.12500 1.037 0.119 1.043 0.114 2.772
3 0.25000 -1.125 -1.125 1.591 -2.356 6.446
4 0.37500 1.213 1.119 1.650 0.754 6.936
5 0.50000 1.500 0.0 1.500 0.0 5.730

Cuadro 3. Componentes Fourier de ruido blanco (archivo aleatorio)

Figura 5 . Periodograma de una serie de ruido blanco (números aleatorios)

IDENTIFICACIÓN DE LA ESTACIONALIDAD

La estacionalidad puede definirse como un patrón que se repite a intervalos


fijos de tiempo (un año). Si el patrón es consistente, los coeficientes en el
desplazamiento 12 (para series mensuales) o en el desplazamiento 4 (para
series trimestrales) son altos y positivos, lo que indica la presencia de
estacionalidad. Si no hubiera ningún coeficiente diferente de cero, indicaría
que los meses o trimestres a un año de distancia no están correlacionados, o
que no existe un patrón que pueda identificarse de un año al siguiente.
Datos de esta clase no tendrían estacionalidad.

Por lo general, en un desplazamiento estacional o en alguno de sus múl-


tiplos puede identificarse un coeficiente de autocorrelación significativo
(ver ejercicio 8.2, desplazamientos 4 y 8). Como era de esperarse, en la
autocorrelación parcial se observa una autocorrelación altamente sig-
nificativa y en los índices 1,5 y 9 (cada 4) del periodograma se aprecia
claramente un aumento considerable en magnitud, así como en el
periodograma propiamente dicho. El valor de Q que se obtiene en la prueba
Box-Pierce es 11.61 y al considerar que los valores de p, q y m son iguales
a cero, en la tabla de x2 puede verse, para 95% de probabilidad y 12 grados
de libertad, que el valor es 21.02. Este hecho indica que todo el grupo de
autocorrelaciones no es significativo, aunque el valor 0.7 del
desplazamiento 8 es mayor que el margen de error, que es igual a 0.42
también a 95% de probabilidad.

EJERCICIO 2

Considere los datos del siguiente cuadro, donde por medio de los índices de
estacionalidad del método de descomposición se identificó un patrón
estacional. En este ejercicio no sólo se establece que los datos no son
estacionarios, sino que también se identifica claramente el patrón de
estacionalidad.
Ejercicio 2. Desplazamientos, ACF, PACK, periodograma y
gráfica de los datos originales
Fourier componentes del archivo Papel

Frecuencia Real Imaginaria Magnitud Fase periodograma


índice
1 0.0 3029.891 0.0 3029.891 0.0 4.67545E+0.7
2 0.06250 -28.208 141.826 144.604 1.767 106494.711
3 0.12500 -43.021 18.218 46.720 2.741 11116.538
4 0.18750 -5.558 24.204 24.834 1.797 3140.862
5 0.25000 267.371 36.049 269.790 0.134 370700.469
6 0.31250 -25.977 21.598 33.783 2.448 5812.393
7 0.37500 -33.829 23.411 41.139 2.536 8619.604
8 0.43750 -17.727 36.650 40.712 2.021 8441.446
9 0.50000 -238.394 0.0 238.394 3.142 289440.656

ANÁLISIS DE DATOS ESTACIONARIOS EN UNA SERIE DE


TIEMPO

El término estacionado se refiere a que en los datos de una serie de tiempo


no existe patrón de crecimiento ni decrecimiento. Los datos deben estar
horizontales a lo largo del eje de tiempo y fluctúan alrededor de una media
constante independiente del tiempo. La varianza de dichas fluctuaciones
también permanece constante a lo largo del tiempo.
La visualización de las sedes de tiempo basta muchas veces para convencer
al analista si los datos son estacionarios o no. La gráfica de autocorrelación
(ACF) se abate a cero rápidamente. En una serie de tiempo no estacionaria
en varios de los desplazamientos aparecen uno o varios coeficientes
diferentes de cero. En estos casos (véase la gráfica de autocorrelación en el
ejercicio 2 ) la autocorrelación de los datos no estacionarios decrece len-
tamente al aumentar el número de desplazamientos. En el siguiente

FIGURA 6. esta gráfica es de datos que no cambian la media a lo largo


del tiempo. Se dice que esta serie de tiempo estacionaria en la media.

FIGURA 7. esta gráfica tiene variación en la media, pero evidentemente no


se observa cambio en la varianza. Se dice que ésta es una serie de tiempo
estacionaria en la varianza.
FIGURA 8. Ésta es una gráfica de serie de tiempo que no es
estacionaria ni en la media ni en la varianza. La media vaga (cambios
en el tiempo) y la varianza no es razonablemente constante sobre el
tiempo.

capítulo podrán observarse varios modelos donde se describirán en detalle


las características de éstos usando las herramientas presentadas en este
capítulo.

ELIMINACIÓN DE LA NO ESTACIONARIEDAD DE LAS SERIES


DE TIEMPO

Muchas veces los diagramas de autocorrelación son dominados por la


tendencia, la estacionariedad y otros patrones no estacionarios. Antes de
proceder a construir un modelo de predicción, en muchas ocasiones es
necesario eliminar la no estacionariedad para permitir la aparición de otras
estructuras de autocorrelación. Una manera de lograr lo anterior

es aplicando la técnica de diferenciación. Esta técnica se define como el


cambio que hay entre cada observación de la serie original:

Y t'= Yt − Yt −1

Debido a que no es posible calcular la diferencia para la primera ob-


servación, es claro que en una serie de tiempo el número de valores di-
ferenciados será n -1.
EJERCICIO 3

Se obtiene una serie de tiempo con una tendencia ascendente y se procede a


efectuar las primeras diferencias, encontrándose que aun no desaparece la
tendencia (la ACF muestra pendiente). Se procede a aplicar segundas
diferencias y ahora la serie de tiempo se convierte en “ruido blanco”.

En las tres series de tiempo puede observarse que el primer valor de Q está
bastante próximo al valor de tablas (11.79 > 11.07 a 95% de probabilidad)
aunque es significativo; el segundo valor, también próximo al valor de
tablas (11.02 < 11.07), ya no es significativo y el tercero, después de
diferenciar por segunda vez, ha perdido toda significancia.
Puede notarse que el quinto desplazamiento tiene un valor alto (-0.32), pero
es necesario recordar que pueden aceptarse hasta 5% de valores cuyos picos
excedan el margen de error.

Como se ha observado en este ejercicio, al hacer las primeras diferencias no


siempre se logra eliminar la no estacionariedad de la serie de tiempo, por lo
que es necesario recurrir a las segundas diferencias, que se expresan como

Y t''Y t'−Y t −1'= (Yt − Yt −1 ) − (Yt −1 − Yt − 2 ) = Yt − 2Yt −1 + Yt − 2

FIGURA 9. Gráficas de autocorrelación de la serie de la página


siguiente. La primera gráfica muestra la tendencia con el primer
desplazamiento significativo, la segunda todavía conserva tendencia y
la tercera ya es ruido blanco.
REDUCCIÓN DE LA ESTCIONARIEDAD POR MEDIO DE PRIMERAS
Y SEGUNDAS DIFERENCIAS

t Y Dif Cuad. Desplazamiento


1 2 3 4 5 6
1 2,44 -35,38 1251,45 1150,27 1020,45 846,75 645,11 382,97 66,01
2 5,3 -32,52 1057,28 937,95 778,29 592,95 352,01 60,67 -261,56
3 8,97 -28,85 832,08 690,45 526,03 312,28 53,82 -232,04 -515,88
4 13,88 -23,94 572,92 436,49 259,13 44,66 -192,54 -428,07 -707,16
5 19,58 -18,24 332,55 197,42 34,03 -146,69 -326,13 -538,76 -762,52
6 26,99 -10,83 117,2 20,2 -87,08 -193,61 -319,84 -452,67 -588
7 35,95 -1,87 3,48 -15,01 -33,37 -55,12 -78,02 -101,34
8 45,86 8,04 64,71 143,86 237,66 336,36 436,91
9 55,7 17,88 319,84 528,37 747,81 971,36
10 67,36 29,54 872,86 1235,36 1604,67
11 79,63 41,81 1748,42 2271,1
12 92,13 54,31 2950,03

37,82 10122,82 7596,47 5087,6 2708,94 571,32 -1309,25 -2769,12


0,75043 0,502587 0,267607 0,056439 -0,12934 -0,27355
Suma de cuadrados: 0,98 0,563145 0,252594 0,071614 0,003185 0,016728 0,0074831
2
Q= 11,785155 X tablas = 12,592

Primeras diferencias
1 2,86 -5,29 28,02 23,73 17,17 12,99 3,94 -4,27 -9,3
2 3,67 -4,48 20,1 14,54 11 3,33 -3,62 -7,87 -7,56
3 4,91 -3,24 10,52 7,96 2,41 -2,62 -5,7 -5,47 -11,37
4 5,7 -2,45 6,02 1,82 -1,98 -4,31 -4,14 -8,6 210,1
5 7,41 -0,74 0,55 -0,6 -1,31 -1,25 -2,61 -3,06 -3,23
6 8,96 0,81 0,65 1,42 1,36 2,83 3,32 3,5
7 9,91 1,76 3,08 2,96 6,16 7,23 7,63
8 9,84 1,69 2,84 5,91 6,94 7,33
9 11,66 3,51 12,29 14,43 15,24
10 12,27 4,12 16,94 17,89
11 12,5 4,35 18,89

8,15 119,93 90,08 57 25,53 -1,17 -25,77 -41,56


0,751091 0,475275 0,212881 -0,00974 -0,2149 -0,34657
Suma de cuadrados 1,0017343 0,564138 0,225886 0,045318 9,49E - 05 0,046183 0,120113
Q= 11,019077 < 12,592 No significativa

1 0,81 -0,15 0,023716 -0,04 0,03 -0,11 -0,09 0 0,16


2 1,24 0,28 0,076176 -0,05 0,21 0,16 0 -0,29 0,24
3 0,79 -0,17 0,030276 -0,13 -0,1 0 0,18 -0,15 0,06
4 1,71 0,75 0,556516 0,44 -0,01 -0,77 0,64 -0,26 -0,55
5 1,55 0,59 0,343396 -0,01 -0,61 0,5 -0,21 -0,43
6 0,95 -0,01 0,000196 0,01 -0,01 0 0,01
7 -0,07 -1,03 1,069156 -0,89 0,37 0,76
8 1,82 0,86 0,732736 -0,3 -0,63
9 0,61 -0,35 0,125316 0,26
10 0,23 -0,73 0,538756

0,96 3,49624 -0,7052 -0,75989 0,543452 0,527216 -1,12638 -0,09048


-0,2017 -0,21735 0,155439 0,150795 -0,32217 -0,02588
Suma de cuadrados 0,2392854 0,040683 0,047239 0,024161 0,022739 0,103793 0,00067
Q= 2,3928543 < 12,592

Y’ se denomina diferencias de segundo orden. Esta serie tiene n-2 valores.


En la práctica casi nunca es necesario ir más allá de las segundas
diferencias porque las series de datos solamente tienen no estacionariedad
de primer o segundo nivel.

MODELO NAIVE

En las ecuaciones 3.3, 8.8 y 9.5 se describe el modelo Naive o random


walk, de gran utilidad práctica para las sedes de datos que han sido
transformadas en ruido blanco por medio de la técnica de diferenciación.

YT = YT −1 + et

Típicamente estos modelos tienen largos periodos con patrones de ten-


dencia ascendente o descendente que pueden cambiar de dirección en forma
impredecible (véase figura 8.8). Este modelo se utiliza frecuentemente en
econometría y en el análisis de las fluctuaciones financieras de las acciones
en las bolsas de valores.

PRUEBAS PARA LA ESTACIONARIEDAD

De las diversas pruebas que se han desarrollado para verificar la esta-


cionariedad de las series de tiempo, la más conocida es la Dickey-Fuller.
Yt ' = ΦYt −1b1Yt '−1 + b2Yt '− 2 + ... + b p Yt '− p

donde Yt ' denota la serie diferenciada Yt − Yt −1 . En general se ejecutan


alrededor de tres desplazamientos (p = 3) y si la sede original Yt requiere
diferenciación, entonces el valor estimado de ∅ se aproxima a cero. Si Y, ya
es estacionaria, entonces el valor de ∅ es negativo.

El valor de ∅ se estima a partir de la regresión (8.9) utilizando la técnica


ordinaria de mínimos cuadrados. Si se requiere diferenciación, entonces ya
no es válido el supuesto de la prueba t para ∅. En vez de lo anterior, el
valor de ∅ debe compararse con los valores de tablas creadas por Fuller
(1976). Si el parámetro es significativo, entonces puede considerarse que la
serie a prueba es estacionaria.

CAPITULO 8
Método Box-Jenkins (ARIMA)

Objetivos
• 8.1 Introducción
• 8.2 Modelo autorregresivo de orden 1 (cuando p = 1)
• 8.3 Modelo de promedios movibles de primer orden Ma (1)
• 8.4 Modelos autorregresívos de alto orden ARIMA (2,0,0) o ARIMÁ
(p, o, o)
• 8.5 Modelos de promedios movibles (MA) de alto orden...

8.1 Introducción
Antes se discutieron los modelos de regresión simple y múltiple cuya forma
general es

Y = b0 + b1X + b2X2 + ………… +bpXp + e (8.1)

Donde Y es la variable a predecir, X1 hasta Xp son las variables


explicatorias, b0 hasta bp son los coeficientes de regresión y e es el término
que denota el error aleatorio de la serie de tiempo. En la ecuación (8.1) los
valores X1, X2 ……. Xp pueden representar cualquier factor como
precio, ingreso per cápita, existencias de inventario, etcétera.

Si ahora estas variables se definen como X1 = Yt-1, X2 = Yt-2, ……., Xp


=Yt-p , la ecuación (8.1) se convierte en

Yt = b0 + b1Yt-1+ b2Yt-2 + ······ +bpYt-p + et (8.2)

que todavía es una ecuación de regresión pero difiere de la (8.1) porque en


ésta las variables del miembro derecho son diferentes variables ex-
plicatorias, en tanto que en la ecuación (8.2) son los valores previos de la
misma variable Yt a pronosticar. Estos valores han sido simplemente
desplazados en tiempo; de ahí el término auto regresión (AR) que se utiliza
para describir ecuaciones de la forma (8.2). Este tipo de ecuaciones ya se
usó en el capítulo anterior sobre auto correlación.

La primera pregunta que se plantea es: ¿cuál es la razón para tratar en forma
diferente la auto regresión de la regresión? La respuesta es doble:

1. En la auto regresión es muy fácil violar el supuesto de la indepen-


dencia del error entre variables independientes porque las variables del lado
derecho de la igualdad usualmente se relacionan entre sí (de hecho, cada
variable independiente es un desplazamiento de la misma variable de serie
de tiempo).
2. No siempre es tan sencillo determinar el número de valores previos
de Yt a utilizar en la ecuación (8.2).

Otro concepto interesante es que así como se auto correlacionan los valores
pasados de las observaciones de las series de tiempo, también es posible
utilizar los errores (residuos) como variables explicatorias:

Yt = bO + b1ey-1+ b2et-2+... +bpet-p+et (8.3)

Aquí, explícitamente la relación de dependencia se hace a lo largo de los


errores (o residuales) y la ecuación se denomina de promedios movibles o
modelo MA (Moving Aver ges).

La frase promedios movibles no debe confundirse con la que se estudió en


los métodos de atenuación y en los de descomposición. Aquí se denomina
de promedios movibles porque se refiere a una serie de promedios movibles
de las series de errores et. En los capítulos anteriores se trataba de los
promedios movibles de las observaciones propiamente dichas, Yt. En
este capítulo el término MA se refiere a los errores.

Como se verá más adelante, los modelos AR pueden acoplarse fácilmente a


los modelos MA para formar una clase general y más útil de modelos de
auto regresión: los ARMA. La limitación más importante de estos modelos
es que deben usarse sólo con datos estacionarios aunque pueden extenderse
a series de tiempo no estacionarias utilizando la diferenciación de las series
de tiempo. Este procedimiento de diferenciación se denomina promedios
movibles auto regresivos integrados (ARIMA), y fue popularizado por Box
y Jenkins en 1970. Existe gran variedad de modelos ARIMA. El modelo no
estacional general se denomina ARIMA (p, d, q ), donde:

AR: p = orden (o nivel) de la porción auto regresiva.


I: d = nivel de diferenciación implicado.
MA: q = orden (o nivel).de la porción de promedios movibles.

Los modelos de las ecuaciones (8.2) y (8.3) se escriben en esta notación. Un


modelo de ruido blanco como el descrito por la ecuación (8.4) se clasifica
como ARIMA (0,0,0) debido a que no hay aspectos AR (Yt no depende de
Yt-1). No hay diferenciación implicada y tampoco hay porción MA (Yt no
depende del error et-1). La variable Yt está formada por dos componentes:
el error mencionado y la constante c.

Yt = c + et (8.4)

De manera semejante, un modelo aleatorio Naive se clasifica como ARIMA


(0,1,0) debido a que no contiene componentes significativos AR ni MA e
incorpora una diferenciación. El valor más reciente puede utilizarse para
predecir el valor del siguiente periodo, y en los modelos Box- Jenkins la
ecuación representativa sería

Yt =Yt-1 + et (8.5)

Obsérvese que los términos no utilizados pueden descartarse en la


descripción del modelo; por ejemplo, un modelo AR (2,0,0) también puede
escribirse como AR (2), porque no implica diferenciación (I) ni promedios
movibles (MA). Un modelo ARIMA (1,0,1) también se escribe como
ARMA (1,1) y un modelo ARIMA (0,1,1) se denominará IMA (1,1),
etcétera.

Métodos ARIMA de auto correlación

Este tipo de modelos es muy laborioso y se utilizó hasta el advenimiento de


las computadoras.

Para desarrollar un modelo debemos seguir los siguientes pasos:

1. Conceptualización de series de tiempo, visto en los modelos de


atenuación(Smoothing).
2. Definición de las notaciones generales de ARIMA.
3. Describir las herramientas estadísticas que han probado su utilidad
(auto correlación, error estándar y prueba Q).
4. Ilustrar cómo los conceptos, notaciones y herramientas estadísticas
pueden combinarse para ayudar al análisis de una amplia variedad de
variables ordenadas en series de tiempo.

Los modelos de atenuación y descomposición se presentaron en la forma


siguiente:
Ft-1 = Ft + α (Xt – Ft )
= Ft + α(et) Ecuación
(1)

Si sustituimos, la atenuación es ahora

Ft = Ft+1 + α (Xt+1 - Ft+1)


Ft-1 = Ft+1 + α (Xt+1 - Ft+1) + α (Xt – Ft )
= Ft+1 + α (et+1 ) + α(et) Ecuación
(2)

Y sustituyendo para Ft-1 = en él primer término de (2)

Ft-1 = Ft-2 + α (et-2 ) + a (et-1 ) + α(et) Ecuación (3)


Los resultados de seguir expandiendo la ecuación por sustitución son claros.
Dada alguna predicción inicial, llámese Ft-2 se pueden obtener nuevas
predicciones agregando un porcentaje de los errores entre el valor real y el
valor pronosticado (por ejemplo: Xt-2 - Ft-2 )asi para cada valor real y su
valor pronosticado inicial Ft+1 y que se acercara en promedio al patrón real
de lo datos de la serie de tiempo.

En el caso de la descomposición el principio es el de partir o descomponer


una serie de tiempo entre los elementos que la componen (estacionalidad,
tendencia, ciclo y aleatoriedad) calculando y pronosticando cada uno por
separado (excepto la aleatoriedad, que puede calcularse pero no predecirse)
y a continuación recombinando estas predicciones.
La regresión, como ya sabemos, es una predicción causal, trata de predecir
variaciones en alguna variable de interés (dependiente) con base en
variaciones en varios otros factores (variables independientes). Por ejemplo
en la regresión múltiple el modelo es:

Y = b0 + b1X1 + b2X2 + ……………. + bkXk +e


Ecuación(4)

Donde Y es la variable dependiente, X1 hasta Xk son las variables


independientes y bo hasta bk son los coeficientes de regresión lineal y e
es el error aleatorio.
Combinaremos los principios de atenuación y los de regresión aplicados a
las series de tiempo como se indica a continuación:
En la ecuación (4) X1, X2,..., Xk pueden representar cualquier factor, como
ventas mensuales, el producto nacional bruto, precios, etc. Si a estas
variables ahora las definimos como:
Xt = Yt-1 , X2 = Yt-2 , Xk = Yt-k entonces la ecuación (4) se convierte en:

Y = a + b1Yt-1 + b2Yt-2 + …….. + bkYt-k +e


Ecuación(5)

La ecuación (5) sigue siendo una ecuación de regresión, pero difiere de la


ecuación (4) en que las variables de la derecha (independientes) ahora son
valores previos de la misma variable Yt Estos valores son simplemente
valores con espacio en tiempo de la misma variable dependiente y por lo
tanto se genera una auto regresión (AR) presentada en la notación de la
ecuación (5).
Se plantean entonces algunas preguntas acerca de la ecuación (5): ¿por que
la regresión que se aplica a una auto correlación debe tratarse en forma
diferente de un cálculo de mínimos cuadrados? Tenemos una doble
respuesta:

1. En la auto regresión. el supuesto básico de independencia del error


(residuos) de los resultados se puede violar fácilmente dado que todas las
variables independientes de la ecuación (5) tienen una relación de
dependencia (son la misma variable).

2. La determinación del numero de valores anteriores de Yt, para


incluirse en la ecuación (5) no es un mecanismo sencillo.

De igual manera, la ecuación (5) puede escribirse en términos de errores


anteriores, tal como se ve.
Yt = a + b1et-1 + b2et-2 +......+ bket-k + et Ecuación (6)

Aquí, explícitamente se establece una relación de dependencia entre


términos sucesivos de error, y la ecuación del modelo se denomina (MA) de
promedios movibles. Nótese la relación con la ecuación (3).

Los modelos de auto regresión (AR) pueden acoplarse con los de promedios
movibles (MA) para generar modelos muy útiles de series de tiempo
llamados (ARMA) autoregressive/moving averages.
Métodos AR y MA. Comparación con la regresión:

Fórmulas:

Regresión simple: Yt = a +bXt-1 = 1.043 + .83Xt-1


(7)

Regresión múltiple: Yt = a + b1Xt-1 + b2Xt-2 + … +


bpXt-p (8)

Autorregresivo (AR): Yt = Ø1Yt-1 + Ø2Yt-2 + ········ +


ØpYt-p (9)

Autorregresivo residuos (MA): Yt = et - Ø1et-1 – Ø2et-2 - ······ - Øqet-q


(10)

Por ejemplo, un modelo AR (2) quiere decir que dos de los coeficientes r de
auto correlación quedan fuera de los limites de confianza al 95% de
probabilidad. La flotación es que ahora en lugar del coeficiente b tenemos
un coeficiente rp, denotado ahora con la letra griega ∅p

Método ARMA de auto correlación

Para un modelo MA (2), seguimos la misma lógica, excepto que el


coeficiente r ahora se convierte en un coeficiente con notación griega ∅, en
donde tendríamos dos coeficientes r significativos.

Debe observarse que ahora no existe la constante a, se genera ahora una


constante que es función de la media para el caso de los procesos AR en
donde se calcula la constante µ’ = µ - µ∅. En él caso de los procesos MA,
dado que son obtenidos de auto correlación de residuales se utiliza la media
µ completa en lugar de la constante a.

Como indicamos, los modelos AR y MA pueden acoplarse para generar


modelos combinados. incluyendo un ajuste denominado de diferenciación
(1) para lograr los modelos ARIMA. A continuación se presentan los
modelos de predicción ARIMA tal y como lo desarrollaron Box y Jenkins.
Los modelos ARIMA para sedes de tiempo son:
Modelo aleatorio: ARIMA (0,0,0)

Loa tres números se refieren al proceso AR, al grado de diferenciación (1) y


al proceso MA.
en donde:

Yt = µ + et
Ecuación (11)
Donde la observación Yt está formada de dos partes. Una media general µ,
y un componente de error aleatorio et, el cual es independiente de periodo a
periodo.

Se clasifica como ARIMA (0,0,0) porque no hay proceso AR (no hay


ninguna r significativa por ser datos estacionarios), esto es, ninguna Yt,
depende de Yt-1. No hay diferenciación implicada (los datos ya son
estacionarios) y no hay proceso MA (Yt no depende de et-1). La gráfica de
los datos para este modelo es:

ARIMA (0,0,0
(a) ARIMA (0,0,0)
• No tiene aspecto AR
• No hay diferenciación
• No tiene aspecto MA

Modelo aleatorio no estacionario: ARIMA (0,1,0)

La ecuación (12), muestra los datos como si fueran AR (con tendencia) en


donde Yt, depende de Yt-1, pero en el caso de que el coeficiente Yt-1 es
unitario, la ecuación (13) muestra que las primeras diferencias de la serie de
tiempo Yt forman un modelo aleatorio. Veamos las dos siguientes gráficas
y sus implicaciones:

(b)ARIMA(0,l,0)
• Tiene aspecto AR
• Necesita cálculo de primeras diferencias para remover lo no estacionario
de la media
• No tiene aspecto MA

Yt = Yt-1 + et Ecuación (12)


Yy – Yt-1 = et Ecuación (13)

Matemáticamente, es conveniente redefinir (Yt – Yt-1) como Wt, la serie de


primeras diferencias, de manera que podemos entonces hablar de W como
una serie estacionaria. Este concepto de ser estacionaria se puede describir
en términos no estadísticos en la forma siguiente:

1. Si una serie de tiempo se grafica y no hay evidencia de cambio en la


media sobre cierto
periodo de tiempo gráfica (a), entonces decimos que la serie es estacionaria
en la media.

2. Si la serie de tiempo graficada muestra que no hay cambio obvio en la


varianza a lo largo del tiempo, entonces se dice que se trata de una serie
estacionaria en la varianza.

3. La segunda gráfica (b) muestra una serie de tiempo ARIMA (0,1.0)


típica, donde la media varia sobre el tiempo (con una aparente tendencia).
Ésta es una serie de tiempo con una media no estacionaria.

4. La tercera gráfica (c) muestra que la serie de tiempo no es estacionaria en


la media ni en la varianza. No es razonablemente constante sobre el tiempo.

(c) ARIMA (0.1,0)


• No tiene aspecto AR
• La media varía “henaiite” y la varianza cambiante, nos da una serie de
tiempo difícil de manejar
• No tiene aspecto MA

Modelo de auto regresión ARIMA, estacionario de primer orden tipo


(1,0,0):
ARIMA (1,0,0)

La ecuación (14) muestra la forma básica de un modelo AR (1) o ARIMA


(1,0,0), hablando en forma más general. La observación Y, depende de la
Yt-1 y el valor del coeficiente autorregresivo ∅ está restringido a caer en el
rango -1 a + 1.

Yt = ∅1Yt-1 + µ’ + et Ecuación (14)

(d) ARIMA(1,0,0) o AR(1)


donde Ø1 = r1 y et = NID(O , l0) (NID significa que el error está
distribuido normalmente, es independiente y con media = O y varianza =
10).

La grafica (d) muestra una serie de tiempo ARIMA (1,0,0) para un modelo
donde et, es un error distribuido normalmente e independiente.

(e) ARIMA (1,0,0)0 AR (1)

Cuya grafica muestra datos con una tendencia muy leve.

Modelo estacionario de promedios movibles MA de primer orden:


ARIMA (0,0,1)

La ecuación (15) muestra la forma básica de un modelo MA (1) 0 ARIMA


(0,0,1), hablando en forma más general. La observación Yt, depende del
error et, y también del et-1 con el coeficiente -∅1 restringido a caer en el
rango -1 a + 1.

Yt =µ + et - ∅1e t-1 Ecuación (15)

(f) ARIMA (0,0,1) 0 MA(1)


Yt =100 + et - ∅te t-1
Donde ∅t = 0.7 y et es NID (0,10)
La gráfica (f) muestra un ejemplo de modelo ARIMA (0,0,1) o MA (1), con
el valor del coeficiente q de la ecuación (15) restringido a quedar en el
rango entre -1 y + 1.

Modelo ARIMA simple combinado: ARIMA (1,0,1)

Los elementos básicos de los procesos AR y MA pueden combinarse para


producir una gran variedad de modelos. Por ejemplo, la ecuación (16)
combina un proceso AR de primer orden y un proceso MA de primer orden.

ARIMA (1,0,1) o ARMA (1,1)

Yt = µ’ + ∅1 Yt-1 + et - ∅1 et-1 Ecuación (16)

Aquí Yt depende de un valor Yt-1 anterior y un error previo et-1. La serie


de tiempo se pone estacionaria en la media y en la varianza. La grafica (g)
da un ejemplo de una serie que podría ser ARIMA (1,0,1) y que fue
generada artificialmente (Makridakis).

En el ejercicio se observará que una tendencia que se resuelve con un


modelo AR (2) con un MSD muy pequeño, también se resuelve con un
modelo ARIMA (1,0,1) disminuyendo aún más el MSD.
(g) ARIMA (l,0,l)

Yt = 0.31 Yt-1 + 70 + et + 0.7 et-1.


donde et es NID (0,10)

Combinaciones ARIMA de afro orden (p, d, q):

Claramente no hay límite a la variedad de modelos ARIMA. El modelo


general, que cubre todos los casos mencionados antes y muchos más, se
conoce como ARIMA (p, d, q ).

donde
AR: p = orden del proceso de auto regresión
I: d = grado de diferenciación involucrado
MA: q = orden del proceso de promedios movibles

En la práctica, raramente se hace necesario trabajar con valores de p, d o q


que sean diferentes de 0, 1 o 2. Es importante observar qué tan pequeño
rango de valores de p, d o q pueda ser capaz de generar a su vez tan amplia
variedad de modelos ARIMA para las diversas situaciones de predicción
encontradas en el medio comercial, industrial o científico.

8.2 Modelo autorregresivo de orden 1 (cuando p = 1)

La ecuación

Yt = c + Ø1Yt-1 + et (8.6)

Representa la forma básica de un modelo ARIMA (1,0,0) o AR (1). La


observación Yt depende de Yt-1 y el valor del coeficiente de auto regresión
Ø1 está restringido entre los valores -1 y +1. En este caso, el error et está
distribuido normalmente con media O y varianza 1.

Obviamente, si el valor de Ø1 es igual a cero, entonces el modelo Yt es


equivalente al modelo ruido blanco de la ecuación (8.4). Cuando Ø1 = 1, Yt
es equivalente al modelo naive de la ecuación (8.5).

Normalmente, dado que Ø1= r1 , los modelos AR (1) oscilan entre estos dos
extremos, en cuyo caso la serie de tiempo sólo tiene un coeficiente de auto
correlación de un desplazamiento significativo (el primero, ver auto
correlación parcial, donde los coeficientes restantes disminuyen
exponencialmente ). En el ejercicio 8.1 se estudia un caso AR (1)
-

Gráfica de autocorre1aciòn Gráfica de


autocorre1aciòn parcial
Figura 8.2 Diagramas de auto correlación y auto correlación
parcial

Ejercicio 8.1
Serie de tiempo AR (1).

En el cuadro de la página siguiente se observan los datos del ejercicio 8.1


con una tendencia descendente y la ecuación del modelo es

Yt = µ` + Ø1Yt-1 + et

en donde la constante c = ư, está dada como función de la media de


la serie de tiempo, el desarrollo es como sigue

( Yt - µ ) = Ø1 (Yt-1 - µ ) + et donde µ = media de la


serie
Yt = Ø1Yt-1 + ( µ - Ø1µ ) + et
Yt = Ø1Yt-1 + µ`+ et (8.7)

al sustituir en la fórmula se encuentran los valores siguientes:

Yt = O.73 ·Yt-1 + 40.71

188.1 = 0.73 x 203 + 40.71

Que es el resultado anotado en el primer renglón del cuadro de la página


anterior. Si la iteración continúa se obtienen todos los valores subsiguientes,
y para continuar la predicción cada valor de pronóstico será utilizado para
predecir el que le sigue. Como se muestra en la figura 8.3 donde los valores
de predicción que siguen se muestran con la línea punteada.
Figura 8.3 SERIES

8.3 Modelo de promedios movibles de primer orden MA (1)

La ecuación
Yt = c+ et - Ø1et-1 (8.8)

Representa un modelo MA (1), o sea un modelo ARIMA (0,0,1) en la


notación más general. La observación. Yt depende del error, denotado por et
y también del error previo et-1 multiplicado por el coeficiente -Ө1. Dado
que en este caso se trabaja con los residuos, es evidente que para obtener
valores de predicción de la magnitud original la constante es la media µ no
modificada (ư).
Como ya se había dicho, el valor del coeficiente Ө1 está restringido entre -1
y +1. En la ecuación (8.8), nótese el signo negativo del coeficiente Ө1. Esta
es una convención para los modelos ARIMA.

En la figura 8.1, que contiene el resumen de los modelos ARIMA Box--


Jenkins, se ha graficado la serie de tiempo MA (1), y en la figura 8.4
pueden apreciarse las gráficas del ACF y el PACF. Nótese que en el primer
desplazamiento sólo existe una auto correlación significativa (diferente de
cero) y que las auto correlaciones parciales decaen exponencialmente.

Figura 8.4 Gráficas de serie de tiempo, ACF y PACF de un MA (1)


desarrolladas en el paquete SYSTAT
8.4 Modelos auto regresivos de alto orden ARIMA (2,0,0) o ARIMA (p,0,0)

La ecuación (8.9) representa un modelo AR de orden p (avo):


Y1 = e + Ø1Yt-1 + Ø2Yt-2 + .....+ ØpYt-p + et (8.9)

donde c = constante
Øj = parámetro autorregresivo j (avo)
et = el error del miembro t de la ecuación
Existen restricciones aplicables a los valores de los parámetros auto
regresivos. Para p = 1, -1 < Ø1< 1. Para p = 2 se aplican las siguientes
restricciones:

-1 < Ø2< 1 Ø2 + Ø1 < 1 Ø2 - Ø1 < 1

Para p = 3 las restricciones son aún más complicadas; sin embargo, como
ya se mencionó, aunque teóricamente existe una gran variedad de
combinaciones de alto orden, puede observarse que en el ACF difícilmente
se encuentran más de dos coeficientes de auto correlación que sean
significativos, por lo que en la práctica es bastante excepcional utilizar un
modelo con p > 2.
En el ejercicio 8.2 de la página siguiente se han utilizado los datos no
estacionarios con pendiente ascendente del ejercicio 7.3. De inmediato
puede apreciarse que el MSD = 148 disminuye en AR (1) a 39.7 con AR
(2). Es claro que el coeficiente de auto correlación del desplazamiento 1 es
significativo y que el correspondiente al desplazamiento 2 se encuentra en
el límite (ver la gráfica del ejercicio 8.2), ya que al parecer la tendencia no
es lineal y presenta concavidad izquierda (signo positivo del coeficiente de
autocorrelaçión Ø2). Sin embargo, en este ejercicio es posible observar
cómo puede generarse un mejor resultado simplemente explorando
empíricamente el mejor ajuste (de manera muy similar a como se trabaja
con el método Stepwise para el análisis de regresión múltiple). En este caso
particular se exploró la combinación ARIMA (1,0,1) [también denominada
ARMA (1,1)] y en forma sorprendente se obtuvo un ajuste casi perfecto,
con un valor virtualmente igual a cero.

Ejercicio 8.2
Auto correlación de una serie de tiempo no estacionaria con tendencia
ascendente.
8.5 Modelos de promedios movibles (MA) de alto orden
ARIMA (0,0,2) o ARIMA (0,0,q)

La ecuación (8.10) representa un modelo MA de orden q (avo):

Yt = c - Ø1et-1 – Ø2et-2 - …..- Øpet-q

donde c = constante
Øj = parámetro de promedios movibles j (avo)
e1 = el error del miembro t de la ecuación

Las mismas restricciones mencionadas en los modelos AR también se


aplican a los modelos MA.

Puede verse que es posible producir una gran variedad de modelos de


promedios movibles, pero igual que con los modelos auto regresivos, en
general puede afirmarse que difícilmente se requerirá un modelo de orden
mayor que el modelo MA (2).

MODELOS DE COMBINACIONES ARMA Y ARIMA

Los elementos básicos AR y MA pueden combinarse para producir diversos


modelos, como se observa en cl ejercicio 8.2 donde la ecuación (8.11)
muestra que el valor de Yt depende del valor previo Y (Yt-1) y del error
previo según el término et-1. Se asume que estas series son estacionarias en
la media y en la varianza.

Yt = C + Ø1Yt-1 + et - Ø1et-1(8.11)

Los modelos ARMA de orden mayor pueden desarrollarse de la misma


manera
Yt =c + Ø1Yt-1 + Øp Yt-p + et - Ø1et-1 - ..... - Øqet-q
(8.12)

Si a un modelo ARMA se agrega la no estacionariedad, entonces sé obtiene


un modelo ARIMA (p,d,q) donde la ecuación para un caso simple como
ARIMA (1,1,1) se conserva igual a la notación ARMA (ecuación 8.11) y
los casos de orden mayor quedan como en la ecuación (8.12). La variedad
de modelos generados al introducir la eliminación de la no estacionariedad
por medio de primeras y segundas diferencias es enorme, de manera que es
casi imposible definir reglas que permitan identificar los modelos. En el
apéndice 1 de este capítulo se incluye una manera simple de manejar
empíricamente tal tipo de variaciones utilizando la versión pública y
gratuita para estudiantes del paquete de estadística SYSTAT (que en
realidad no es diferente de cualquier otro paquete como SAS, SPSS,
etcétera).

Igual que para los modelos ARMA y ARIMA, también debe mencionarse la
complejidad añadida al utilizar dichos modelos para predecir esta-
cionalidad. Exactamente de la misma manera en que puntos consecutivos de
una serie de tiempo exhiben una auto correlación AR, MA, y/o mezclas
ARMA o ARIMA, los datos separados por una estación completa
(normalmente un año) pueden exhibir las mismas propiedades.

La notación ARIMA puede extenderse fácilmente para manejar los aspectos


de estacionalidad de una serie de tiempo y la notacòn que suele usarse es

ARIMA (p, d,q ) (P,D,Q )


Parte no Parte
estacional estacional
del modelo del modelo

El álgebra es simple pero puede ser laboriosa y por tanto rebasa los
alcances de este libro. Igual que para el manejo empírico de todos los
modelos de ARIMA, basta con examinar como funciona cualquier paquete
estadístico que contenga estos modelos.

Вам также может понравиться