Академический Документы
Профессиональный Документы
Культура Документы
3. Para cada valor de x, la varianza de es la constante 2 (llamada varianza del error). 4. Los valores del trmino de error son independientes. 5. Para un valor fijo de x, la distribucin muestral de y es normal, porque sus valores dependen de los de .
6. Para un valor fijo x, es posible predecir el valor de y. 7. Para un valor fijo x, es posible estimar el valor promedio de y
Pgina 1
ANLISIS DE REGRESIN
1
Ejemplo 1: La revista Motor Trend presenta con frecuencia datos de rendimiento para automviles, que compara el tamao del motor en pulgadas cbicas de desplazamiento (pcd) y las millas por galn (mpg) estimadas para ocho modelos representativos de automviles subcompactos modelo 1984.
tamao del motor (pcd) x coches compactos Chevrolet Cavalier 121 Datsun Nissan Stanza 120 Dodge Omni 97 Ford Escort 98 Mazda 626 122 Plymouth Horizon 97 Renault Alliance/Encore 85 Toyota Corolla 122
millas/galn (mpg), y 30 31 34 27 29 34 38 32
Graficando los datos de la tabla en el diagrama de dispersin podemos observar la coleccin de los ocho pares de datos (x,y) como muestra de una poblacin de pares, donde las medidas pulgadas cbicas de desplazamiento (pcd) x pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122. Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamao del motor de 97 hay un gran nmero de millajes asociados, uno por cada coche cuyo tamao sea 97 pcd. Asumamos que existe una relacin lineal para la poblacin de pares de datos de pcd y mpg. (Se entiende por relacin lineal cuando la variable y tiene una tendencia a crecer o decrecer, cuando la variable x aumenta).
Diagrama de dispersin 39 37 35 m 33 p 31 g 29 27 25 80
90
110
120
130
ANLISIS DE REGRESIN
Usamos el modelo probabilstico siguiente para explicar el comportamiento de los millajes para las ocho medidas de tamao de motor, este se llama modelo de regresin lineal, y expresa la relacin lineal entre tamao de motor (x) y millas por galn (y). Modelo de regresin lineal
y = 0 + 1 x +
1 = pendiente
x = variable independiente = Error aleatorio La expresin 0 + 1 x se denomina componente determinstica del modelo de regresin
lineal. La muestra de pares de datos se usar para estimar los parmetros 0 y1 de la componente determinstica. La diferencia principal entre un modelo pobabilstico y uno determinstico es la inclusin de un trmino de error aleatorio en el modelo probabilstico. En el ejemplo los diferentes rendimientos para un mismo tamao de motor se atribuyen al trmino de error en el modelo de regresin.
y =
b0 = b1=
1. (pendiente)
SS x = x
2
( x)
n
SS y = y
2
( y)
n
SS xy = xy
( x )( y )
n
Pgina 3
ANLISIS DE REGRESIN
b1 =
SS xy SS x
b0 = y b1 x
Donde: SS = suma de cuadrados b1 = pendiente b0 = ordenada al origen n = nmero de pares de datos En la tabla incluimos las sumatorias que utilizaremos para el clculo de las frmulas.
coches compactos tamao del motor (pcd) x Chevrolet Cavalier 121 Datsun Nissan Stanza 120 Dodge Omni 97 Ford Escort 98 Mazda 626 122 Plymouth Horizon 97 Renault Alliance/Encore 85 Toyota Corolla 122 SUMAS 862 Media 107.75 millas/galn (mpg), y 30 31 34 27 29 34 38 32 255 31.875 x^2 14641 14400 9409 9604 14884 9409 7225 14884 94456 y^2 900 961 1156 729 841 1156 1444 1024 8211 xy 3630 3720 3298 2646 3538 3298 3230 3904 27264
Calculando b0 y b1 tenemos: SSx = 1575.50 SSy = 82.88 SSxy = -212.25 b1 = -0.13472 b0 = 46.39099 La ecuacin de prediccin de mnimos cuadrados es: y = 46.39099 0.37472 x = b0 + b1 x. => y
Error
Pgina 4
ANLISIS DE REGRESIN Los errores se denominan frecuentemente residuales. Podemos observar en la grfica de regresin los errores indicados por segmentos verticales.
X=0.000
-10 -20 -2 -1 0 1 2
Marcador Normal
-3.0SL=-43.26
10
Frecuencia
Residual
Nmero de Observacin
Histograma de Residuales
3 2 1 0 -25 -20 -15 -10 -5 0 5 10 15 20 10 0 -10 -20
450
Ajuste
500
550
Pgina 5
ANLISIS DE REGRESIN Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos, podemos obtener el valor mnimo para la suma de cuadrados del error (SSE)
SSE = SS y b1 SS xy
2 A la varianza de los errores e se le llama varianza residual siendo denotada por s e , se encuentra dividiendo SSE entre n-2
S e2 =
SSE n2
La raz cuadrada positiva de la varianza residual se llama error estndar de estimacin y se denota por Se. Aplicando las frmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error estndar de la estimacin: SSE = 82.88-(-0.13472)(-212.25) =54.2849
S e2 =
Se
=
54.2849 = 9.0475 6
3.007
Ejemplo 2: Una firma de renta de coches recab los datos adjuntos sobre los costos de mantenimiento y, y las millas recorridas x para siete de sus automviles. Automvil A B C D E F G Millas recorridas x en miles 55 27 36 42 65 48 29 Costos de mantenimiento y (dlares) 299 160 215 255 350 275 207
Encuentre:
1.
c) Una estimacin puntual para la varianza del error 2 . d) Una estimacin puntual para el costo promedio del mantenimiento de un coche con 36,000 millas recorridas. e) Prediga el costo para un coche con 29,000 millas recorridas.
Automvil A B C D E F G Suma Media x 55 27 36 42 65 48 29 302 43.14 y 299 160 215 255 350 275 207 1761 251.57 x^2 3025 729 1296 1764 4225 2304 841 14184 y^2 89401 25600 46225 65025 122500 75625 42849 467225 xy 16445 4320 7740 10710 22750 13200 6003 81168
Pgina 7
ANLISIS DE REGRESIN SSx = 1154.86 SSy = 24207.71 SSxy = 5193.43 b1 = 4.4970 b0 =57.5567 SSE = 852.70 2 Se = 170.54 y = 57.5567 + 4.497x a) b) c) d) e) b0 =57.5567 b1 = 4.4970 2 Se = 170.54 57.5567 + 4.497(36) = 219.44 usd 57.5567 + 4.497(29) = 187.96 usd
sera idntica a 0 , como se muestra en la figura. Siendo este el caso el modelo no sera apropiado.
seguros
de
que
la
pendiente
de
la
ecuacin
de
regresin
Con el propsito de determinar si la pendiente de la regresin poblacional es diferente de cero, separemos SSy en dos componentes, SSE y SSR. Tenemos la siguiente relacin: SSy = SSE + SSR Donde: SSE = Suma de cuadrados del error SSR = Suma de cuadrados de la regresin SSE = SSy-b1SSxy SSR = b1SSy
Pgina 8
ANLISIS DE REGRESIN
Prueba de hiptesis utilizando la distribucin F Si fuera cierta H 0 : 1 = 0 , el estadstico F servira como estadstico de prueba: F est definido como:
F=
SSR S e2
Con gl = (1,n-2), se puede usar el estadstico F para determinar si 1 es diferente de cero. Si la pendiente de la ecuacin de regresin poblacional es diferente de cero, entonces la ecuacin se puede usar con propsitos de prediccin. Ejemplo 3: Para los datos del ejemplo 1 haga una prueba para determinar si 1 0 , usando
= 0.05
H 0 : 1 = 0 H 1 : 1 0
S e2 = 9.0475
La suma de cuadrados para la regresin SSR se calcula mediante: SSR = b1SSxy = (-212.25)(-0.1347) =28.5901 Hallamos el estadstico de prueba F:
F=
Se encuentra el valor crtico F (1, n 2) = F0.05(1,6) = 5.99. Como F = 3.16<5.99, no = 46.3889 0.1347 x no debe usarse rechazamos H 0 : 1 = 0 . Concluimos que la ecuacin y con propsitos de prediccin, y no tenemos evidencia que apoye que el modelo lineal es correcto para nuestros datos. Prueba de hiptesis utilizando la distribucin t Otra manera de realizar la prueba de hiptesis H 0 : 1 = 0 es usando la distribucin t. El estadstico de prueba es:
t=
Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si 1 0 usando la prueba de t y = 0.05 .
H 0 : 1 = 0 H 1 : 1 0
Pgina 9
ANLISIS DE REGRESIN
t=
b1 = Se SSx
Los valores crticos t .025 para gl = 6 son 2.447 . Como t.025 < t no rechazamos H 0 : 1 . Por tanto no tenemos evidencia que sugiera que el modelo lineal es apropiado para nuestros datos. Anlisis de correlacin
=0
Establece si existe una relacin entre las variables y responde a la pregunta,Qu tan evidente es esta relacin?". La correlacin es una prueba fcil y rpida para eliminar factores que no influyen en la prediccin, para una respuesta dada. Coeficiente de Correlacin de Pearson Es una medida de la fuerza de la relacin lineal entre dos variables x y y. Es un nmero entre -1 y 1 Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta Un valor negativo indica que cuando una variable aumenta, la otra disminuye Si las dos variables no estn relacionadas, el coeficiente de correlacin se aproxima a 0.
Pgina 10
ANLISIS DE REGRESIN
Sin Correlacin
25 20 15 Y
Correlacin Positiva
10 5 0 0 5 10 X 15 20 25 25 20 15 Y 10 5
Correlacin Negativa
10 5 0 0 5 10 X 15 20 25
0 0 5 10 X 15 20 25
Ejemplo 5: En un esfuerzo por determinar la relacin entre el pago anual de los empleados y el nmero de faltas al trabajo por causa de enfermedad, una corporacin grande estudi los registros personales de una muestra de doce empleados. Los datos pareados aparecen en la siguiente tabla.
Empleado 1 2 3 4 5 6 7 8 9 10 11 12 Pago anual (miles de dlares) 15.7 17.2 13.8 24.2 15 12.7 13.8 18.7 10.8 11.8 25.4 17.2 Inasistencias 4 3 6 5 3 12 5 1 12 11 2 4
Pgina 11
Empleado 1 2 3 4 5 6 7 8 9 10 11 12 SUMATORIA
x 15.7 17.2 13.8 24.2 15 12.7 13.8 18.7 10.8 11.8 25.4 17.2 196.3
y 4 3 6 5 3 12 5 1 12 11 2 4 68
x^2 246.49 295.84 190.44 585.64 225.00 161.29 190.44 349.69 116.64 139.24 645.16 295.84 3441.71
xy 62.8 51.6 82.8 121.0 45.0 152.4 69.0 18.7 129.6 129.8 50.8 68.8 982.3
Diagrama de dispersin
14 12 10 8 6 4 2 0 0 5 10 15 20 25 Pago anual (miles usd)
En el diagrama de dispersin observamos que al aumentar x, y disminuye, por lo cual la correlacin es negativa. Comparando el coeficiente de correlacin calculado, con la tabla de correlaciones observamos que .66 > .58, por lo cual la correlacin entre las variables es fuerte.
Inasistencias
30
Pgina 12
ANLISIS DE REGRESIN
Pgina 13
ANLISIS DE REGRESIN
Pgina 15
ANLISIS DE REGRESIN Anlisis de resultados de la tabla de Excel: Analizando los resultados de Excel, tenemos los siguiente: En la seccin Estadsticas de la regresin vemos que el coeficiente de correlacin = .5873 comparando este valor con la tabla de correlaciones observamos que el valor .5873 < .71 lo cual indica una relacin dbil entre las variables. En la grfica de regresin ajustada observamos que la correlacin es negativa ya que al aumentar X, Y disminuye; Cabe mencionar que el coeficiente de correlacin calculado por el sistema siempre es positivo, por lo cual debemos basarnos la grfica de regresin para determinar el signo. Ecuacin de la regresin: Para obtener la ecuacin de regresin usamos los coeficientes de los renglones Intercepcin y variable X1, estos son 46.3909 y 0.1347 respectivamente, siendo la ecuacin de regresin: y = 46.3909- 0.1347X 1. la suma de cuadrados de la regresin SSR = 28.5901, la suma de cuadrados de los residuos o error SSE = 54.2806, El promedio de los cuadrados de la regresin que es la varianza residual el valor de F dividiendo SSR/ S e
2
menor que el valor F (0.125< 3.16), por lo que no tenemos evidencia para rechazar la H 0: 1 = 0 , en consecuencia el modelo de regresin no es apropiado. Anlisis de residuos: muestra los pronsticos y residuos para cada observacin, as como el grfico de residuales, en el cual observamos inconsistencias ya que la mayora de los puntos se encuentran en la regin positiva.
Pgina 17
ANLISIS DE REGRESIN ANLISIS DE REGRESIN MULTIPLE En ocasiones la informacin de una variable independiente no es suficiente, por ejemplo en el caso de los autos compactos adems de tener la variable del tamao del motor, podramos tener otras variables, que nos permitan tener mayor informacin como por ejemplo el peso del coche, el tipo de recorrido, el tamao de las llantas, estos factores tambin influyen sobre la razn del consumo de gasolina. Cuando se usa ms de una variable independiente para predecir los valores de una variable dependiente, el proceso se llama anlisis de regresin mltiple, incluye el uso de ecuaciones lineales y no lineales, en este estudio nos ocuparemos de las ecuaciones de regresin lineales. Ejemplo 6 Muchos programas de estudios premdicos usan los promedios de las calificaciones del MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las variables que se sabe influencian esos promedios del MCAT( y) son: la combinacin de las calificaciones del SAT en matemticas y en oratoria ( x1) y el GPA (x2) de los prospectos a mdicos. La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de premedicina y que han presentado el MCAT Calificacin SAT (X1) 1200 1350 1000 1250 1425 1340 Calificacin promedio del MCAT (Y) 12.4 13.3 9.2 10.6 13.2 11.2
Estudiante 1 2 3 4 5 6
Con esta informacin podemos encontrar una ecuacin lineal que nos permita predecir el promedio de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificacin combinada del SAT. = b0 + b1 x1 + b2 x 2 . Es posible La ecuacin lineal para los datos del ejemplo tiene la forma y encontrar los valores de b0, b1, y b2 usando el mtodo de mnimos cuadrados, al igual que en el mtodo de regresin lineal simple. El mtodo en este caso requiere resolver tres ecuaciones lineales con tres incgnitas, estas ecuaciones, conocidas como ecuaciones normales, son:
y = nb
1
+ b1 ( x1 ) + b2 ( x 2 )
0 1 1 2 1 2 2 2
x y = b ( x ) + b ( x ) + b ( x )
y = b0 ( x 2 ) + b1 ( x1 x 2 ) + b2
( x )
2 2
Pgina 18
ANLISIS DE REGRESIN La siguiente tabla organiza los clculos para obtener las ecuaciones:
X1 1200 1350 1000 1250 1425 1340 7565 X2 3.8 3.4 2.9 3.3 3.9 3.1 20.4 Y 12.4 13.3 9.2 10.6 13.2 11.2 69.9 X1^2 1440000 1822500 1000000 1562500 2030625 1795600 9651225 X2^2 14.44 11.56 8.41 10.89 15.21 9.61 70.12 X1X2 4560 4590 2900 4125 5557.5 4154 25886.5 X1Y 14880 17955 9200 13250 18810 15008 89103 X2Y 47.12 45.22 26.68 34.98 51.48 34.72 240.2
69.9 = 6b0 + 7,565b1 + 20.4b2 89,103 = 7565b0 + 9,651,225b1 + 25,886.5b2 240.2 = 20.4b0 + 25,886.5b1 + 70.12b2
Resolviendo el sistema de ecuaciones lineales obtenemos: b0 = -2.537, b1=0.005425, b2 = 2.161. La ecuacin de regresin es:
(y y SSE = ) = 2.2403
2
glT = gl R + gl E glT = n 1 gl R = k gl E = n (k + 1)
donde: k = nmero de variables independientes Clculo de cuadrados medios: Pgina 19
ANLISIS DE REGRESIN
H 0 : 1 = 2 = 0
H1 : 1 0 o 2 0
El valor del estadstico F se encuentra dividiendo MSR entre MSE.
F =
Buscando el valor crtico para F (1, n 2) = F0.05 (1,4 ) =7.71. Como 7.71 > 7.20 no podemos rechazar H0, lo cual nos indica que podra ser arriesgado utilizar la ecuacin de regresin con propsitos predictivos.
R2 =
SSR SST
R2 =
Esto significa que aproximadamente el 83% de la variacin en el promedio de las calificaciones se atribuye a la variacin de las variables independientes y solamente el 17% de la variacin de la variable dependiente no se atribuye a eso.
Pgina 20
ANLISIS DE REGRESIN Ejemplo 7 La tabla enlista el consumo de combustible en millas por galn bajo condiciones normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc para seis coches deportivos modelo 1990.
Coche deportivo Capacidad Pes o Chevrolet 5735 Kagiar XJ-S 5344 Mercedes -Benz 500 SL 2174 Pors che 911 3600 Mas errati 228 2790 BMW 325i 2494
Cons umo 3330 4015 2865 3320 3020 3100 17,9 18,7 16,5 17 15,5 22
a) Determine una ecuacin de regresin para predecir el promedio de consumo de combustible usando la capacidad del motor y el peso, y calcule el coeficiente de determinacin R2. Una vez capturados los datos de las variables en Minitab seleccionamos STAT>REGRESIN>REGRESIN y se presenta la siguiente pantalla
Seleccionamos la variable de respuesta (response) que corresponde a la Columna 3 C3, y las variables de prediccin (predictors): C1 y C2. Pgina 21
ANLISIS DE REGRESIN
Damos Clic en el Icono Graphs, y en la opcin grficos de residuos residual plots dejamos la opcin que el sistema da por de fault: Regular. y seleccionamos la opcin residual vs. fits y normal plot of residuals. Tambin existen otras opciones de grficos que podemos usar en caso de ser necesario.
Pgina 22
Regression Analysis
The regression equation is C3 = 10,9 - 0,00050 C1 + 0,00270 C2 Predictor Coef StDev Constant 10,91 12,90 C1 -0,000496 0,001329 C2 0,002702 0,004982 S = 2,805 R-Sq = 9,1% T P 0,85 0,460 -0,37 0,734 0,54 0,625
R-Sq(adj) = 0,0%
Analysis of Variance Source DF SS Regression 2 2,368 Residual Error 3 23,605 Total 5 25,973 MS 1,184 7,868 F P 0,15 0,866
Analizando los resultados tenemos: De la tabla resultante podemos determinar que la ecuacin de Regresin es Y = 10.9 0.00050X1+.00270X2 Donde X1 representa el tamao del motor (capacidad) y X2 el peso del coche, Y representa el rendimiento predicho para el consumo del combustible. El coeficiente de determinacin R-Sq o R2 es 9.1% y esto indica que el 9.1% de la variacin en el consumo de combustible se atribuye a la capacidad y al peso. El 90.9% no se atribuye a estas variables.
Pgina 23
ANLISIS DE REGRESIN Examinando el valor del estadstico F(F=0.15), que es significativo al nivel P = 0.866 concluimos que el modelo no es adecuado para fines de prediccin en un nivel = 0.05
Normal Score
-1
-2
-1
Residual
Residual
1 0 -1 -2 17 18 19
Fitted Value
Analizando los grficos anteriores, podemos observar en el grafico de probabilidad que las observaciones aparentan ser normales. Sin embargo en el grfico de residuales observamos una tendencia ya que la mayora de los puntos se encuentran a bajo del cero.
Pgina 24