Академический Документы
Профессиональный Документы
Культура Документы
REGRESIÓN
PROGRAMA DE INGENIERÍA INDUSTRIAL
2014-2
ESTADÍSTICA II
Análisis de regresión
Y= 𝛽𝑜 ′ + 𝛽1 (𝑋 − 𝑋)
ത +𝜖
Empleando el modelo transformado la función de mínimos
cuadrados es:
2
𝐿 = σ𝑛𝑗=1 𝑦𝑗 − 𝛽 ′ 𝑜 − 𝛽1 𝑥𝑗 − 𝑥ҧ
ESTIMADORES DE MÍNIMOS CUADRADOS
σ𝑛 ҧ
𝑗=1 𝑦𝑗 (𝑥𝑗 −𝑥)
𝛽መ ′ 𝑜
= 𝑦ത 𝛽መ1 = 2
σ𝑛
𝑗=1 𝑥𝑗 −𝑥ҧ
20
18
16
Impurezas
14
12
10
8
20 24 28 32 36 40 44
Rapidez
Simple Regression - Impurezas vs. Rapidez
Dependent variable: Impurezas
Independent variable: Rapidez
Linear model: Y = a + b*X
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 119,275 1 119,275 141,13 0
Residual 8,45142 10 0,845142
Total (Corr.) 127,727 11
Ejemplo: Se realizó un estudio para determinar el efecto que tiene la
rapidez de mezclado sobre la cantidad de impureza en una pintura
producida mediante un proceso químico.
Rapidez 20 22 24 26 28 30 32 34 36 38 40 42
Impurezas 8,4 9,5 11,8 10,4 13,3 14,8 13,2 14,7 16,4 16,5 18,9 18,5
Aplicando las ecuaciones anteriores obtienes en Excel los mismos
resultados que en Statgraphics.
Rapidez Impurezas Imp estim Residuo Cuad del res
Xi Yi xiyi xi¨2 yi¨2 Yiest Yi-Yiest (Yi-Yiest)¨2
20 8,4 168 400 70,56 8,84 -0,44 0,196765878
22 9,5 209 484 90,25 9,76 -0,26 0,065981683
24 11,8 283,2 576 139,24 10,67 1,13 1,276549724
26 10,4 270,4 676 108,16 11,58 -1,18 1,4005326
28 13,3 372,4 784 176,89 12,50 0,80 0,645247513
30 14,8 444 900 219,04 13,41 1,39 1,93206386
32 13,2 422,4 1024 174,24 14,32 -1,12 1,261800643
34 14,7 499,8 1156 216,09 15,24 -0,54 0,287923462
36 16,4 590,4 1296 268,96 16,15 0,25 0,062564517
38 16,5 627 1444 272,25 17,06 -0,56 0,317145807
40 18,9 756 1600 357,21 17,98 0,92 0,852957532
42 18,5 777 1764 342,25 18,89 -0,39 0,151888693
372 166,4 5419,6 12104 8,451421913
Propiedades
𝟏 = 𝜷𝟏 𝒐 = 𝜷𝒐 𝟏 = 𝝈𝟐
1. 𝑬 𝜷 𝟐. 𝑬 𝜷 𝟑. 𝑽 𝜷 𝑺𝒙𝒙
𝟏 ഥ𝟐
𝒙
𝒐 = 𝝈𝟐
4. 𝑽 𝜷 +
𝒏 𝑺𝒙𝒙
En general la variable respuesta puede estar relacionada con k variables regresoras, obteniendo el
modelo:
𝒚𝒋 = 𝜷𝒐 + 𝜷𝟏 . 𝒙𝟏 + 𝜷𝟐 . 𝒙𝟐 + ⋯ + 𝜷𝒌 . 𝒙𝒌 +𝜺𝒋.
A este modelo se le llama modelo de regresión lineal múltiple.
El método de mínimos cuadrados se igualmente para estimar los coeficientes de regresión.
Considérese a 𝒙𝒊𝒋 , 𝒍𝒂 𝒋 − é𝒔𝒊𝒎𝒂 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒄𝒊ó𝒏 𝒐 𝒏𝒊𝒗𝒆𝒍 𝒅𝒆 𝒍𝒂 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒙𝒊 , 𝒗é𝒂𝒔𝒆 𝒍𝒂 𝒔𝒊𝒈𝒖𝒊𝒆𝒏𝒕𝒆
tabla.
Datos para regresión múltiple
y x1 x2 ... xk
y1 x11 x21 ... xk1
y2 x12 x22 ... xk2
. . . .
. . . .
. . . .
yn x1n x2n ... xnk
𝒚𝒋 = 𝜷𝒐 + σ𝒌𝒊=𝟏 𝜷𝒊 𝒙𝒊𝒋 + 𝜺𝒋 ; 𝒋 = 𝟏, 𝟐, … , 𝒏
Al igual que en el caso de la regresión lineal simple, la ordenada en el origen se redefine como:
𝟏
𝜷′ 𝒐 = 𝜷𝒐 + 𝜷𝟏 𝒙
ഥ𝟏 + 𝜷𝟐 𝒙
ഥ𝟐 + . . . + 𝜷𝒌 ഥ ഥ𝒊 = σ𝒏𝒋=𝟏 𝒙𝒊𝒋 , 𝒄𝒐𝒓𝒓𝒆𝒔𝒑𝒐𝒏𝒅𝒆 𝒂𝒍 𝒏𝒊𝒗𝒆𝒍 𝒑𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒑𝒂𝒓𝒂 𝒍𝒂 𝒊 −
𝒙𝒌 , 𝒅𝒐𝒏𝒅𝒆 𝒙 𝒏
é𝒔𝒊𝒎𝒂 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 de regresión.
Función de mínimos cuadrados
𝑛 𝑛 2
2 σ𝑛𝑗=1 𝑥𝑖𝑗
𝑆𝑖𝑖 = 𝑥𝑖𝑗 − 𝑥ҧ𝑖 = 𝑥𝑖𝑗 2 −
𝑛
𝑗=1 𝑗=1
𝑛 𝑛
σ𝑛𝑗=1 𝑥𝑟𝑗 σ𝑛𝑗=1 𝑥𝑠𝑗
𝑆𝑟𝑠 = 𝑆𝑠𝑟 = 𝑥𝑟𝑗 − 𝑥ҧ𝑟 𝑥𝑠𝑗 − 𝑥ҧ𝑠 = 𝑥𝑟𝑗 𝑥𝑠𝑗 −
𝑛
𝑗=1 𝑗=1
𝑛 𝑛
σ𝑛𝑗=1 𝑦𝑗 σ𝑛𝑗=1 𝑥𝑖𝑗
𝑆𝑖𝑦 = 𝑦𝑗 𝑥𝑖𝑗 − 𝑥ҧ𝑖 = 𝑦𝑗 𝑥𝑖𝑗 − ; 𝑖 = 1,2, … , 𝑘
𝑛
𝑗=1 𝑗=1
Estimadores de mínimos cuadrados
𝑛𝛽 ′ 𝑜 = 𝑦𝑗
𝑗=1
𝛽1 𝑆𝑖1 + 𝛽2 𝑆𝑖2 + ⋯ + 𝛽𝑘 𝑆𝑖𝑘 = 𝑆𝑖𝑦 ; 𝑖 = 1,2, … . , 𝑘
Nótese que hay k+1 ecuaciones normales y la solución de estas ecuaciones
serán los estimadores de mínimos cuadrados para los parámetros.
Es más sencillo resolverlas si se utiliza notación matricial.
El modelo expresado matricialmente es: y = 𝑋. 𝛽 + 𝜖, 𝑑𝑜𝑛𝑑𝑒:
y1 1 𝑥11 𝑥21 ... 𝑥 𝑘1
y2 1 𝑥12 𝑥22 ... 𝑥 𝑘2
y = . X= . . .
. . . .
. . . .
yn 1 𝑥1𝑛 𝑥2𝑛 ... 𝑥𝑘𝑛
𝛽′𝑜 𝜖1
𝛽1 𝜖2
.
𝛽 = . 𝜖 =
.
𝛽𝑘 𝜖𝑛
El método de mínimos cuadrados consiste en elegir los 𝛽 de modo que la su ma de cuadrados de los errores 𝜀𝑖 𝑠𝑒 𝑚𝑖𝑛𝑖𝑚𝑖𝑐𝑒𝑛.
2
Derivando parcialmente la sumatoria: L=σ𝑛𝑖=1 𝑦𝑖 − 𝛽𝑜 − σ𝑘𝑗=1 𝛽𝑗 𝑥𝑖𝑗 = σ𝑛𝑖=1 𝜀 2 𝑖 , 𝑐𝑜𝑛 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑜 𝑎 𝑙𝑜𝑠 𝛽: 𝑜𝑏𝑡𝑒𝑛𝑒𝑚𝑜𝑠 𝑙𝑎𝑠 𝑒𝑐𝑢𝑎𝑐𝑖𝑜𝑛𝑒𝑠 normales:
𝑛𝛽𝑜 + 𝛽1 σ𝑛𝑖=1 𝑥𝑖1 + 𝛽2 σ𝑛𝑖=1 𝑥𝑖2 + ⋯ + 𝛽𝑘 σ𝑛𝑖=1 𝑥𝑖𝑘 = σ𝑛𝑖=1 𝑦𝑖
𝛽𝑜 σ𝑛𝑖=1 𝑥𝑖1 + 𝛽1 σ𝑛𝑖=1 𝑥 2 𝑖1 + 𝛽2 σ𝑛𝑖=1 𝑥𝑖1𝑥𝑖2 + ⋯ + 𝛽𝑘 σ𝑛𝑖=1 𝑥𝑖1 𝑥𝑖𝑘 = σ𝑛𝑖=1 𝑥𝑖1 𝑦𝑖
. . . . .
. . . . .
. . . . .
𝛽𝑜 σ𝑛𝑖=1 𝑥𝑖𝑘 + 𝛽1 σ𝑛𝑖=1 𝑥𝑖𝑘 𝑥𝑖1 + 𝛽2 σ𝑛𝑖=1 𝑥𝑖𝑘 𝑥𝑖2 + ⋯ + 𝛽𝑘 σ𝑛𝑖=1. 𝑥𝑖𝑘 2 = σ𝑛𝑖=1 𝑥𝑖𝑘 𝑦𝑖
Donde 𝜷
= 𝑿′ 𝑿 −𝟏 𝑿′ 𝒚
AJUSTE DE MODELO DE REGRESIÓN
𝑆𝑆𝐸
𝜎ො 2 = ; p es el número de parámetros a estimar p= k+1.
𝑛−𝑝
1 80 8 2256
1 93 9 2340
1 100 10 2426
1 82 12 2293
1 90 11 2330 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
X= 1 99 8 y= 2368 X' = 80 93 100 82 90 99 81 96 94 93 97 95 100 85 86 87
1 81 8 2250 8 9 10 12 11 8 8 10 12 11 13 11 8 12 9 12
1 96 10 2409
1 94 12 2364
1 93 11 2379 14,18 -0,13 -0,2235
1 97 13 2440 inv(X'X)= -0,13 0 -5E-05
1 95 11 2364 -0,22 -0 0,02222
1 100 8 2404
1 85 12 2317
1 86 9 2309 16 1458 164 37577 1566
1 87 12 2328 X'X = 1458 133560 14946 X'y = 3429550 β= 7,621
164 14946 1726 385562 8,585
Resultados en Statgraphics
Análisis de varianza
F Variac SS g.l CME F P-Valor
Model 44157,1 2 22078,5 82,5 0
Residual 3478,85 13 267,604
Total (Corr.) 47635,9 15
𝑌 ′ 𝑌−𝛽′ 𝑋 ′ 𝑌
𝑌= , el numerador es la suma de cuadrados de los residuos y el
𝑛−𝑚
denominador es el número de observaciones menos el número de parámetros.
TABLA ANOVA
La tabla anova para el modelo lineal general es:
σ 𝑌𝑖 2
Total n-1 𝑌′ 𝑌 −
𝑛
Analysis of Variance
Source SS gl CM F-Ratio P-Value
Model 3429,27 4 857,318 171,71 0
Residual 134,804 27 4,99274
Total (Corr.) 3564,08 31
ANOVA
F variac SS gl Mean Square F-Ratio P-Value
Model 525,738(x2) 1 525,738 5,19 0,03
Residual 3038,34 30 101,278 𝑦ො = 13.0 + 1. 𝑥2
Total (Corr.) 3564,08 31
De la misma manera se puede generalizar el resultado anterior cuando se tienen 3 variables regresoras,
escribiendo:
EL PROBLEMA DE LA MULTICOLINEALIDAD
Es bastante frecuente obtener conclusiones erradas con un punto de vista casual para la aplicación de
análisis de regresión, cuando no se tiene una completa apreciación de los problemas en estudio.
El enfoque en el análisis de regresión no debe ser simplemente maximizar el coeficiente de correlación
múltiple, sin tomar en cuenta los coeficientes de regresión estimados y sus desviaciones estándar o la de
comprobar las suposiciones fundamentales del análisis de regresión.
Un problema frecuente en regresión lineal múltiple es el que algunas de las variables de predicción están
correlacionadas.
Si existe una correlación muy fuerte entre dos o más variables, los resultados serán muy ambiguos
respecto a los coeficientes de regresión estimados.
Las correlaciones altas son indicios de lo que se denomina multicolinealidad.
Esto surge con frecuencia cuando hay datos deficientes o cuando no es posible diseñar experimentos
en forma estadística recabando los datos en arreglos balanceados.
La presencia de multicolinealidad no impide tener un buen ajuste, ni evita que la respuesta sea en forma
adecuada predicha dentro del intervalo de observaciones; mas sin embargo si afecta en forma severa
las estimaciones de mínimos cuadrados.
Si el coeficiente de correlación simple entre dos variables es cero, entonces se dice que las variables son
ortogonales, que es una de las principales razones en el diseño de experimentos la de adquirir factores o
variables de este tipo.
Multicolinealidad
Para ilustrar los efectos de ortogonalidad se examinarán los datos que aparecen en la
siguiente tabla, que consiste en la temperatura aparente Y, como una función de la
temperatura del aire (x1) y de la humedad relativa (x2).
Estos resultados indican que por cada grado que aumenta la temperatura del aire, la
tempa aparente aumenta 1.1 grados y por cada incremento en porcentaje de la
humedad relativa, la tempa aumenta 0.1 grados. Es evidente también que el coeficiente
de correlación entre las variables x1 y x2 es cero, por lo que se concluye que son
variables ortogonales.
Mejor conjunto de variables de predicción