Вы находитесь на странице: 1из 12

Instituto Tecnolgico Superior Purhpecha

5. Ingeniera Industrial Estadstica Inferencial I ANLISIS DE REGRESIN Y CORRELACIN REGRESIN LINEAL

En el campo de la estadstica, administracin, educacin, ingeniera, entre otras frecuentemente se trata de saber si existe relacin entre dos variables, en caso de existir cual es esa relacin. El objetivo del capitulo es contestar estas inquietudes y analizar si existe relacin lineal entre dos variables, cuantificar la intensidad de la relacin, realizar un ajuste por medio de las estimaciones matemticas y posteriormente utilizar el modelo para predecir una variable (dependiente).

Al relacionar dos variables se tiene que definir una variable independiente y una dependiente. La variable independiente se representa con la letra x, que expresa la causa de un fenmeno en una relacin entre las variables, esta se mide o se controla para predecir la variable dependiente representada por la letra y que expresa la consecuencia del fenmeno. Por ejemplo en la los gastos de publicidad (variable independiente) se puede medir o controlar con la finalidad de observar el incremento en ventas (variable dependiente). Por lo tanto los gastos por publicidad se denominan variable x y a la venta como variable y, en muchas ocasiones la definicin de las variables puede ser x o y, depender de la formulacin de la pregunta. Por ejemplo en el caso de la estatura y peso, si nosotros indicamos que la estatura esta en funcin del peso, en este caso la estatura es la variable dependiente y el peso es variable independiente, pero si nosotros formulamos que el peso esta en funcin de la estatura, en este caso las dos variables se cambian, es decir el peso ser la variable dependiente y la estatura como la variable independiente. Sin embargo se obtendrn resultados distintos de los anlisis de regresin de acuerdo a la decisin que se halla tomado.

A continuacin se presentan algunos diagramas de dispersin que indican las relaciones entre las variables independientes (x) y las variables dependientes (y), si no existe un cambio definido en los valores de y, conforme aumentan los valores de x se dice que no existe relacin entre las variables x y y. En cambio, si al aumentar x existe una modificacin definida en los valores de y, entonces se dice que si existe relacin entre las variables. En esta situacin cuando y incrementa existe una relacin positiva y cuando decrece existe una relacin negativa.

41

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
Diagramas de dispersin y correlacin

Sin correlacin

Correlacin positiva

Correlacin negativa

Correlacin positiva perfecta

AJUSTE E INTERPRETACIN La ecuacin que describe la forma en que el valor medio de y se relaciona con x se llama ecuacin de regresin y es posible estimar con la siguiente formula: b0 b1 x En donde b0 es la ordenada al origen b1 es la pendiente y y es el valor estimado de y para determinado valor de x. Estos valores se pueden estimar con la siguiente formula:

b1

xi yi ( xi yi) / n 2 xi2 ( xi) / n

b0 y b1 x
Donde:

xi = valor de la variable independiente para la i-sima posicin


yi = valor de la variable dependiente para la i-sima posicin
x = valor medio de la variable independiente

y = valor medio de la variable dependiente


n = cantidad total de observaciones Por ejemplo a continuacin se presenta un cuadro que muestra las ventas en millones de cajas y los gastos de publicidad en millones de dlares para siete marcas principales de refresco: Marca Coca-Cola Classic Pepsi-Cola Diet Coke Sprite Gastos de publicidad Millones de dlares 131.3 92.4 60.4 55.7 Ventas de cajas en millones 1929.2 1384.6 811.4 541.5
42

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
Mirinda 40.2 Manzanita-Sol 29.0 7-Up 11.6 Primero determinaremos algunos clculos para poder estimar la ecuacin mtodo de mnimos cuadrados: Marca Coca-Cola Classic Pepsi-Cola Diet Coke Sprite Mirinda Manzanita-Sol 7-Up 536.9 535.6 219.5 de regresin por el

xi
131.3 92.4 60.4 55.7 40.2 29 11.6 420.6

yi

x i yi

xi

1929.2 253303.96 17239.69 1384.6 127937.04 8537.76 811.4 49008.56 3648.16 541.5 30161.55 3102.49 536.9 21583.38 1616.04 535.6 15532.4 841 219.5 2546.2 134.56 5958.7 500073.09 35119.7

Sustituimos los valores en la formula

b1

xi yi ( xi yi) / n 500073.09 (420.6)(5958.7) / 7 = =142040.344/9847.649 = 14.424 2 2 35119.7 (420 .6) / 7 xi2 ( xi) / n

b0 y b1 x = 851.243 14.424(60.086) = -15.433


sustituimos los valores en el modelo de la ecuacin de regresin lineal = -15.433 + 14.424x Ahora si queremos predecir las ventas para la marca de Manzanita-Sol si requiere invertir la cantidad de 70 millones de dlares en publicidad, nicamente sustituimos los 70 millones de dlares en la ecuacin de la siguiente forma: = -15.433 + 14.424(70) = 994.275 de millones de cajas de refresco

5.1 COEFICIENTE DE DETERMINACIN.

El coeficiente de determinacin nos sirve para contestar la pregunta Qu tan bien se ajustan dos variables?, Es decir en el caso de la inversin de los costos de publicidad y las ventas generadas por la publicidad, se genero la ecuacin de regresin = -15.433+14.424x, entonces lo que hacemos es calcular la suma de cuadrados del error, esta se obtiene al sustituir los valores de los costos de

43

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
inversin en la ecuacin de regresin y el resultado se eleva al cuadrado, posteriormente se suman todos los valores y a esto se le llama suma de cuadrados del error (SCE) SCE = (yi i)2 El valor de la suma del error es una medida del error que se comete al usar la ecuacin de regresin lineal para calcular los valores de la variable dependiente de la muestra, en este caso las ventas de las cajas de refresco. A continuacin se presenta el valor de la suma de cuadrados del error para el caso de los costos de publicidad y las ventas:

Clculos de la suma de cuadrados del error para el caso de los costos de publicidad y las ventas de refrescos.
Marcas de refresco Coca-Cola Classic Pepsi-Cola Diet Coke Sprite Mirinda Manzanita-Sol 7-Up Publicidad (miles Venta de cajas de dlares) (en millones) 131.3 1929.2 92.4 1384.6 60.4 811.4 55.7 541.5 40.2 536.9 29.0 535.6 11.6 219.5 = -15.433+14.424x 1878.42225 1317.3371 855.776046 787.984267 564.415633 402.869265 151.895444

yi i
50.7777521 67.2629038 -44.376046 -246.484267 -27.515633 132.730735 67.6045556

(yi i)2
2578.3801 4524.29822 1969.23346 60754.4938 757.110062 17617.4479 4570.37594 92771.3394

Ahora calculamos la suma total de cuadrados y esto con la finalidad de conocer el valor del error que s incurrido al usar y para estimar las ventas. A la suma de cuadrados se representa por SCT y su formula es la siguiente: SCT = (yi y )2 Esta formula es de gran utilidad ya que nos sirve para observar o conocer la forma en que se agrupan los valores en torno a la recta y . A continuacin se presentan los clculos de la suma de cuadrados totales para el ejemplo de costos de publicidad y las ventas de refresco: Calculo de la Suma de Cuadrados Totales (SCT), para el caso de los costos de inversin y la venta de refrescos.
Marcas de refresco Publicidad (miles de dlares) Venta de cajas (en millones) Coca-Cola Classic Pepsi-Cola Diet Coke 131.3 92.4 60.4 1929.2 1384.6 811.4

yi y

(yi y )2
1161991.29 284469.689 1587.46465

1077.957 533.357 -39.843

44

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
Sprite Mirinda Manzanita-Sol 7-Up 55.7 40.2 29 11.6 541.5 536.9 535.6 219.5 -309.743 -314.343 -315.643 -631.743 95940.726 98811.5216 99630.5034 399099.218 2141530.42

Ahora que ya tenemos calculado los valores de la suma de cuadrados totales (SCT) y la suma de cuadrados del error (SCE), se puede calcular la suma de cuadrados de la regresin (SCR), que cuantifica la desviacin de los valores calculados por la ecuacin () de los valores de y , su formula es la siguiente: SCR = ( i y )2 En nuestro caso la suma de cuadrados de la regresin es la siguiente: SCR = SCT SCE = 2141530.42 92771.3394 = 2048759.0806 Por lo tanto la relacin de estos valores es la siguiente SCT = SCR + SCE. Por lo tanto una vez que se calculan los valores de SCT, SCR y SCE, podemos calcular la bondad de ajuste para la ecuacin de regresin. Esta ecuacin tendra un ajuste perfecto si cada valor de la variable dependiente yi se encontrar sobre la lnea estimada de la regresin. Para esta situacin yi - i seran igual a cero para cada observacin y esto provocara una SCE = 0, y como consecuencia la suma de cuadrados totales (SCT) sera igual a la suma de cuadrados de la regresin, esto quiere decir que la relacin entre las variables es perfecta, ya que cualquier valor dividido por el mismo valor es igual uno. Esto indica que si la suma de cuadrados del error aumenta disminuye la bondad de ajuste entre las variables.

La relacin entre la Suma de Cuadrados de la Regresin y la Suma de Cuadrados Totales (SCT) se le llama coeficiente de determinacin y se representa con la letra r2, su formula es la siguiente: r2 =SCR / SCT El valor del coeficiente de determinacin asume los valores entre cero y uno, cuando se encuentra cercano al valor de uno se dice que el ajuste es bueno.

Para nuestro caso el valor del coeficiente de determinacin es el siguiente:


45

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
r2 =SCR / SCT = 2048759.0806 / 2141530.42 = 0.9567

S el valor de coeficiente de determinacin lo expresamos en porcentaje, nos indica el porcentaje de la suma total de cuadrados que se pueden explicar aplicando la ecuacin de regresin. Para nuestro ejemplo podemos concluir que se puede aplicar el 95.67% de la suma total de cuadrados con al ecuacin de regresin = -15.433 + 14.424x para predecir las ventas. Es decir la inversin de la publicidad afecta un 95.67% en la venta de refrescos.

Grafico de dispersin de datos, recta de la regresin lineal y desviaciones respecto a la lnea de regresin y a la lnea promedio de la variable dependiente, para el caso de gastos de publicidad y ventas de refresco.

2500
Venta de refrescos en millones de cajas

2000 1500

y1 - 1 y1 - y 1 - y

1000 500 0 0 -500


Gastos de publicidad en millones de dlares

20

40

60

80

100

120

140

5.2 COEFICIENTE DE CORRELACIN

El coeficiente de correlacin se representa con la letra r y es una medida descriptiva de la intensidad de relacin de la asociacin lineal entre dos variables, x y y. El valor del coeficiente
46

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
de correlacin siempre est entre los valores de 1 y +1, el valor de +1 indica una relacin positiva perfecta entre las variables x y y. Esto es, todos los puntos de datos estn en una lnea recta con pendiente positiva. El valor de 1 indica que las variables x y y, tienen una relacin lineal perfecta, y que todos los puntos de datos estn en una recta con pendiente negativa. Mientras que los valores del coeficiente de correlacin cercanos al valor del cero indican que no existe relacin lineal entre las variables.

Las formulas para su clculo son las siguientes: Formula del producto de Pearson r xy

sxy sx s y

Donde: rxy = Coeficiente de correlacin de la muestra sxy = Covarianza de la muestra = (xi x)( yi y) / n 1 sx = Desviacin estndar muestral de la variable x sy = Desviacin estndar muestral de la variable y

Formula alterna rxy =

xi yi ( xi yi) / n
2 2 2 xi2 ( xi ) / n yi ( yi ) / n

Pero si ya se ha hecho el anlisis de regresin y se ha calculado el coeficiente de determinacin r2, el coeficiente de correlacin se puede calcular como a continuacin se muestra: rxy = coeficiente de determinacin =

Para el caso de las variables de los costos de publicidad y la venta de refrescos, el valor de coeficiente de correlacin es el siguiente = 0.9567 =0.9781. Concluimos que el valor del coeficiente de correlacin de la muestra rxy = + 0.9781, donde nos indica que existe una fuerte asociacin lineal positiva entre los costos de inversin de publicidad y las ventas de refrescos.

47

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I 5.3 REGRESIN MLTIPLE
En este capitulo analizaremos el estudio del anlisis de regresin en una situacin en el que intervienen dos o ms variables independientes conocido como anlisis de regresin mltiple, en donde nos permite considerar ms factores en comparacin con el anlisis de regresin simple.

LA ECUACIN DE REGRESIN MLTIPLE El anlisis de regresin mltiple es el estudio en donde una variable dependiente ( y), se relaciona con dos o ms variable independientes. En donde la ecuacin de regresin describe la forma en que el valor medio se relaciona con x1, x2, x3,..., xp. Ecuacin estimada de regresin mltiple: = b0 + b1x1+ b2x2+ ... + bpxp Donde: b0 = Es el valor del origen de la recta (ordenada del origen) bi = Pendientes xi = Variable independientes
p

= Nmero de variables independientes

Para estimar los valores de la ecuacin se requiere del empleo del lgebra de matrices. Por lo que generalmente se utilizan programas de computo para hacer este tipo de clculos, sin embargo, es posible su estimacin, por medio de ecuaciones normales cuando se trata de pocas variables independientes en esta ocasin tomaremos un ejemplo cuando se trate de dos variables independientes: yi = nb0 + (x1i)b1 + (x2)b2------------------------------(a)
2 x1i yi = (x1i)b0 + ( x1 i ) b1 + (x1i x2i)b2-------------------(b)

x2i yi= (x2i)b0 + (x1i X2i) b1 + ( x 2 2 i )b2-------------------(c)

48

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
Estos valores se pueden determinar a partir de datos de una muestra y calcular los estadsticos, posibilitando el uso de ecuacin: = b0 + b1x1+ b2x2 Ahora veremos un ejercicio de aplicacin. Por ejemplo se sabe que los despidos y el desempleo han afectado a muchos trabajadores actualmente, un estudio realizado en Estados Unidos de Amrica en abril de 1988, se encontraron datos de variables que pueden afectar la cantidad de semanas que un obrero de manufactura est desempleado. La variable dependiente es la cantidad de semanas que un obrero a estado desempleado. En el estudio se emplearon las variables independientes: la edad del trabajador (x1) y su antigedad en el empleo (x2). A continuacin se presentan los datos:
Semanas que duro sin empleo(yi) Edad del empleado despedido(x1i)
94 73 57 56 50 44 27 25 14 8 62 44 42 36 35 28 27 27 24 21

Estudios realizados en aos(x2i)


13 13 14 15 18 18 15 19 17 19

Posteriormente hacemos el caculo de los coeficientes para las ecuaciones normales:


yi
94 73 57 56 50 44 27 25 14 8

x1i
62 44 42 36 35 28 27 27 24 21

x2i
13 13 14 15 18 18 15 19 17 19

x1i
3844 1936 1764 1296 1225 784 729 729 576 441

x 2i
169 169 196 225 324 324 225 361 289 361

x1i x2i
806 572 588 540 630 504 405 513 408 399

x1i yi
5828 3212 2394 2016 1750 1232 729 675 336 168

x2i yi
1222 949 798 840 900 792 405 475 238 152

448

346

161

13324

2643

5365

18340

6771

49

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
Sustituyendo los valores de las sumatorias de las tablas en las ecuaciones normales se obtienen las siguientes ecuaciones:
448 = 18340 = 6771 = 10 b0 346 b0 161 b0 + 346 b1 + 13324 b1 + 5365 b1 + 161 b2 + 5365 b2 + 2643 b2 ..................................... (a) ..................................... (b) ..................................... (c)

Si multiplicamos la ecuacin (a) por 34.6 y le restamos a la ecuacin (b), podemos eliminar b0 y obtener una ecuacin que contenga nicamente los coeficientes b1 y b2:
18340.0 = -15500.8 = 2839.2 = +346 b0 - 346 b0 0 + 13324.0 b1 - 11971.6 b1 1352.4 b1 + 5365.0 b2 - 5570.6 b2 -205.6 b2 ..................................... (b) ..................................... (a*34.6) ..................................... (d)

Si multiplicamos la ecuacin (a) por 16.1 y el resultado le restamos a la ecuacin (c). Esta operacin origina una segunda ecuacin donde slo intervienen los coeficientes b1 y b2:
6771.0 = -7212. 8 = - 441.8 = +161 b0 - 161 b0 0 + 5365 b1 - 5570.6 b1 - 205.6 b1 + 2643 b2 - 2592.1 b2 + 50.9 b2 ..................................... (c) ..................................... (a*16.1) ..................................... (e)

Con las ecuaciones (d) y (e) podemos despejar b1 y b2 simultneamente. Multiplicando la ecuacin (e) por -205.6/50.9 y el resultado obtenido se le resta a la ecuacin (d), y obtenemos una ecuacin que solo contiene el coeficiente b1.
2839.1 = -1784. 56 = 1054.54 = 0 0 0 1352.4 b1 - 830.48 b1 521.92 b1 -205.6 b2 + 205.6 b2 0 ................................... (d) ................................... (e*-205.6/50.9) .................................... (f)

Despejamos a b1 de la ecuacin (f) y obtenemos el valor del coeficiente b1. b1 = 1054.54 / 521.92 = 2.0205 Sustituimos a b1 en la ecuacin (e) y despejamos b2:
- 441.8 - 441.8 - 26.385 -0.518369 = = = = - 205.6 (2.0205) - 415.415 50.9 b2 b2 + 50.9 b2 + 50.9 b2 .................................................. (e)

Ahora podemos sustituir los valores de b1 y b2 en la ecuacin (a) para determinar b0 .


448 = 448 = 448 = -167.62559 = -16.762559 = 10 b0 10 b0 10 b0 10 b0 b0 + 346 b1 + 346(2.0205) + 699.093 + 615.63559 + 161 b2 + 161(-0.518369) - 83.45741 .............................. (a)

Finalmente obtenemos la ecuacin de regresin mltiple para el caso del tiempo que tardan los obreros en manufactura para emplearse de nuevo, segn su edad y los aos de estudio: = -16. 7625 + 2.0205x1 - 0.5184x2

50

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
Interpretacin: b1 = 2.0205 semanas estimadas que dura el desempleo en manufactura por cada ao que aumenta la edad del desempleado, cuando los estudios realizados de los desempleados sean iguales. De manera similar, con b2= -0.518369 indica la cantidad de semanas sin empleo que se reduce al aumentar un ao de estudio, cuando la edad de los desempleados es igual.

5.5 Tendencias no lineales

En las exposiciones anteriores se presentaron una serie de de tiempos cuyo crecimiento o decremento se aproximaba en una lnea recta, sin embrago cuando se presente un decremento o incremento e forma curvilnea tal como se muestra a continuacin:

Cuando se presente un diagrama de esta naturaleza se recomienda que la serie de datos se transformen en logaritmos base 10 y se utilice la regresin lineal simple, quedando la siguiente ecuacin de regresin logartmica: Log =log b0 + logb1(X). Una vez que se estima la variable dependiente se obtiene antilogaritmo del producto.

Por ejemplo a continuacin se presentan datos de importacin en miles de pesos de 1996 a 1998
Ao (x) 1986 Importacin 3.0 (y) 1987 4.2 1988 5.7 1989 8.3 1990 11.5 1991 16.0 1992 22.4 1993 31.0 1994 44.6 1995 60.1 1996 84.3 1997 118.6 1998 163.9

Primero se establece el cdigo para cada ao, posteriormente se transforma la variable dependiente en logaritmos en este caso la importacin, tal como se muestra a continuacin:
Cdigo(x) Log I (y) 1
0.47 712

2
0.62 325

3
0.75 587

4
0.91 908

5
1.06 07

6
1.20 412

7
1.35 025

8
1.49 136

9
1.64 933

10
1.77 887

11
1.92 583

12
2.07 408

13
2.21 458

51

Instituto Tecnolgico Superior Purhpecha


Ingeniera Industrial Estadstica Inferencial I
Posteriormente se hacen los clculos normales para estimar la ecuacin de regresin lineal con las variables transformadas. Para nuestro caso se tendran los siguientes:
X Y X2 1 2 3 4 5 6 7 8 9 10 11 12 13 91 0.47712 0.62325 0.75587 0.91908 1.0607 1.20412 1.35025 1.49136 1.64933 1.77887 1.92583 2.07408 2.21458 17.5245 1 4 9 16 25 36 49 64 81 100 121 144 169 819

X Y 0.47712 1.2465 2.26762 3.67631 5.30349 7.22472 9.45174 11.9309 14.844 17.7887 21.1841 24.889 28.7895 149.074

B1 = XY-(Y(X)/n)/ X2-((X)2/n) y B0= (Y/n) - B1 (X/n) B1= 149.074 -(17.5245(91)/13)/ 819 -((91)2/13)=0.145069 y B0= (17.5245/13) - B1 (X/n)= 0.332549 El modelo de la ecuacin de regresin es =0.222549 + 0.145069(X). Para calcular las importaciones de 2003 se sustituye X en cdigo para este caso es 18 en la ecuacin y quedara de la siguiente forma: =0.222549 + 0.145069 (18)= 2.94379 y finalmente para estimar las importaciones se determina el antilogaritmo de 2.94379, esto es 102.94379 el cual es de 878.6 miles de pesos, es decir, $ 878 600.

52