Вы находитесь на странице: 1из 34

Anlisis Cuantitativo I

SEMANA 12

M.Sc.Lilian Roxana Paredes Lpez.

TERCERA UNIDAD
SEMANA12:
Regresin y Correlacin lineal simple

INTRODUCCIN
Todos los das, los administradores toman decisiones
personales y profesionales basadas en predicciones de
sucesos futuros. Para hacer estos pronsticos, se basan en la
relacin (intuitiva y calculada) entre lo que ya se sabe y lo que
se debe estimar. Si los responsables de la toma de decisiones
pueden determinar cmo lo conocido se relaciona con el
evento futuro, pueden ayudar considerablemente al proceso
de toma de decisiones.
El propsito del tema es proporcionar los procedimientos y las
tcnicas para expresar y medir la relacin o afinidad entre dos
variables X e Y para n observaciones.
Dadas n observaciones bidimensionales, cada par de
valores(X,Y) en el plano cartesiano esta representado por un
punto , y habr tantos puntos como parejas de observaciones
se tenga. Esta representacin da origen a una nube de puntos
que se denomina DIAGRAMA DE DISPERSION; este diagrama
puede tomar diferentes formas:

Estimacin mediante la recta de regresin


Calculamos la lnea de regresin de manera precisa,
usando una ecuacin que relaciona las dos variables
matemticamente.
Aqu,
examinamos
solo
relaciones lineales entre dos variables. La ecuacin
para una lnea recta donde la variable dependiente
Y est determinada por la variable independiente X
es:
= +

Mtodo de Mnimos Cuadrados


Tcnica para ajustar una lnea recta a travs de un
conjunto de puntos de tal manera que la suma de
los cuadrados de las distancias verticales de los n
puntos de la recta se minimiza.

Supuestos del Modelo


La variable "explicativa"
investigador.

toma valores predeterminados por el

Para cada valor fijo de X , la variable Y se distribuye Normal .


La relacin entre las variables X e Y es lineal , es decir, la regresin del
promedio es lineal Simblicamente : E(Y/X) = + .X , ya que E() = 0
Los valores de la variable Y son independientes entre si ya que existe
Homocedasticidad ,significa que la variancia de los errores es
constante , no depende del valor de X. La variancia de Y no depende
del valor que tome la variable X

correlaciones positivas
330
280
230
180
130
80

r=0,1

30
140

150

160

170

180

190

200

130
120
110
100
90
80
70
60
50
40
30
140

150

160

170

180

190

200

100

110
100

90

90

80

80

70

70

60

60

50

50

150

160

170

180

190

r=0,8

40

r=0,6

40
30
140

r=0,4

200

30
140

150

160

170

180

190

200

Casi perfectas y positivas


100

100

90

90

80

80

70

70

60

60

50

50

30
140

150

160

170

180

190

r=0,99

40

r=0,9

40

30
140

200

150

160

100
90
80
70
60
50

r=1

40
30
140

150

160

170

180

190

200

170

180

190

200

Correlaciones Negativas
80
90

70

80
70

60
50

60
50
40
30

40
30
20

20
10
0

r=-0,5
140

150

160

170

180

190

200

150

160

170

180

190

200

70

70

60

60

50

50

40

40

30

30

20

20
0
140

0
140

80

80

10

r=-0,7

10

10

r=-0,95
150

160

170

180

190

200

r=-0,999

0
140

150

160

170

180

190

200

10 = 0.134
20 X + 2.122
30
Y

40

50

60
70
80
90negativa
Correlacin
0
2
Y =4 X

8X

10

12

10

12

14

16

0
2

2
4

4
6

10

10
12

-1 r 0

14

r=-1

12
14

16

16

Correlacin positiva
16

16

Y = 0.134 X + 2.122

14

0 r +1

12

Y=X

r=+1

14
12
10
Y

10
Y

8
6

0
0

10

20

30

40

50
X

60

70

80

90

14

16

Y = 0.093 X + 4.335

16
14

7
6

10

5
Y

12

20

25

30

35

40

45

50

55

60

20

25

#DIV/0!

16

30

35

40

45

r=0

14
12
10

Y=4

Ausencia de correlacin

8
6
4
2
0
0

3
X

50

55

60

REGRESION LINEAL SIMPLE


Finalidad

Modelo

Estimar los valores de y (variable


dependiente) a partir de los valores
de x (variable independiente)

y x
y

e
Ordenada en
el origen
(intercepto)

=tg q coeficiente de regresin

(pendiente)

Mtodo de Mnimos cuadrados


Estimacin de los parmetros: Mtodo de los mnimos
cuadrados.
La recta de regresin hace mnimos los cuadrados de las
distancias verticales desde cada punto de una observacin a la
recta.

2
(Yi Yi ) min
min es el nmero ms pequeo que se
puede obtener si se suman estas
desviaciones verticales elevadas al
cuadrado entre los puntos y la recta.

CLCULO DE LA RECTA DE REGRESIN

( x1 , y1 ) , ( x2 , y2 ) , ... , ( xn , yn )

Modelo de Regresin

Yi x i i
yi ~ N ( E (Y / x i ), 2 )

Recta de Estimacin

y a b. x

Coeficientes de Regresin
Coeficiente a

Es el valor que toma Y cuando la variable independiente


X es igual a cero, y es el punto donde la recta cruza al eje
vertical.
y a

Coeficiente b

a y bx

Determina la pendiente de la recta de estimacin, su grado


de inclinacin se conoce tambin como coeficiente de
regresin e indica la variacin de la variable dependiente
por cada unidad en que varia la variable independiente
b

n xy x y
n x 2 ( x ) 2

Error estndar de estimacin


Llamado tambin desviacin estndar de regresin,
es una medida de esparcimiento alrededor de una
lnea de regresin. Es la desviacin estndar de los
valores observados Y con respecto a los valores
estimados por la lnea de regresin.
Para la recta de regresin : el error estndar de Y
sobre X ser:

Syx

2
Y
aY bXY

n2

S yx2 : se denomina Varianza residual de Y sobre x

Coeficiente de Correlacin:
Es la segunda medida que podemos usar para describir que tan bien
explica una variable a la otra. Cuando tratamos con muestras, el
coeficiente de correlacin de la muestra se denota por r y es la
raz cuadrada del coeficiente de determinacin de muestra.
r

n xy x y
n x 2 x 2 n y 2 y 2


Como r es siempre positivo, resulta que la propiedad


fundamental del coeficiente de correlacin es:

Coeficiente de Correlacin:
La correlacin expresa el grado de asociacin o afinidad entre las
variables consideradas; la correlacin tambin explica el grado de
bondad del ajuste de las lneas de regresin.
Con frecuencia, el anlisis de correlacin se utiliza junto con el de
regresin para medir que tan bien la lnea de regresin explica los
cambios de la variable dependiente, Y. Sin embargo, la correlacin
tambin se puede usar solo para medir el grado de asociacin entre
dos variables.

Coeficiente de determinacin
Es la principal forma en que podemos medir el grado, o fuerza, de la
asociacin que existe entre dos variables, X e Y. Debido a que usamos
una muestra de puntos para desarrollar rectas de regresin, nos
referimos a esta medida como el coeficiente de determinacin
muestral.

Ejemplo:
Consideramos los siguientes datos acerca del nmero
de horas a la semana dedicados a una investigacin y
su calificativo a sustentar dicha investigacin

Nmero de horas a la semana


dedicados a la investigacin
X

Calificativo de sustentacin
Y

10

14

12

22

17

31

58

65

73

37

60

91

84

Con estos valores reemplazamos las frmulas


X

XY

X2

Y2

31

124

16

961

58

522

81

3364

10

65

650

100

4225

14

73

1022

196

5329

37

148

16

1369

12

60

720

144

3600

22

91

2002

484

8281

17

84

1428

1428

7056

93

501

6618

1327

34189

XY

DIAGRAMA DE DISPERSIN
80
70
60
50
40
30
20
10
0
0

10

12

14

16

Coeficiente a

Coeficiente b

a y bx
a

n
n
501
a
3, 9 3 7 1 5 8 4 7
9
a 14,98269581
a 14,98

93
9

n xy
n x2

x
( x )

y
2

9 6618 93 501
9 1 3 2 7 9 3

b 3, 9 3 7 1 5 8 4 7
b 3, 9 4

Coeficiente de correlacin r
r
r

nxy x y

nx2 (x)2 n y2 ( y)2


96618 93501

91327 932 934189 5012

r 0,948971486
r 0.95

Coeficiente de determinacin r 2
r 0, 948971486
r 2 0, 900546882
r 2 0, 90

Solucin
a) Encuentre la recta de regresin para pronosticar los
calificativos de sustentacin a partir del nmero de horas a
la semana dedicados a la investigacin.
= +
= 14,98 + 3,94

b=3,94: La calificacin de sustentacin de una persona se


incrementa en 3,94 por cada hora semanal dedicada a la
investigacin

Solucin

b)Para x=10, Cul es valor estimado. Interprete


Si una persona dedica 10 horas semanales a una
investigacin su calificativo de sustentacin seria
aproximadamente 54,35
= 14,98 + 3,94
= 14,98 + 3,94(10)
= 54,35

El puntaje medio estimado que se espera es 54,35


puntos para una persona que dedica 10 horas
semanales a una investigacin.

Solucin
c) Interprete el error de estimacin
S yx

a Y b XY
n2

34189 14, 98269581 501 3, 93715847 6618


n2
9, 46

S yx
S yx

La desviacin promedio de la nube de `puntos


con respecto a la recta de regresin es de: 9,47
puntos

Solucin
d) Interprete el coeficiente de correlacin
r

n xy x y

n x 2 ( x ) 2 n y 2 ( y ) 2
r 0, 95

Existe alto grado de asociacin


El 95% de los datos se relacionan entre si
0,00 r < 0,20 : existe correlacin no significativa
0,20 r < 0,40 : existe una correlacin baja
0,40 r < 0,70 : existe una significativa correlacin
0,70 r 1,00 : existe alto grado de asociacin

Solucin
e) Interprete el coeficiente de determinacin
r

n xy x y

n x2 ( x)2 n y2 ( y)2

r 2 0,90

Podemos concluir que la variacin del nmero de


horas a la semana dedicados a la investigacin
explica el 90% de la variacin en el calificativo de
la sustentacin

EJEMPLO: El supervisor Juan Perez de mantenimiento de la empresa Fenix,


desea determinar si existe una relacin positiva entre el costo anual de
mantenimiento de un autobs y su edad. Si existe tal relacin, Juan cree que
puede predecir mejor el presupuesto anual de mantenimiento de los
autobuses. El supervisor recolecta los datos que se muestran en la Tabla.
Autobs

Edad en aos

Costo de mantenimiento (um)

859

682

471

708

11

1094

224

320

651

12

1049

con estos valores reemplazamos


las frmulas
Edad en aos
X

Costo de
mantenimiento (um)
Y

XY

X2

Y2

859

6872

64

737 881

682

3410

25

465 124

471

1413

221 841

708

6372

81

501 264

11

1094

12034

121

1 196 836

224

448

50 176

320

320

102 400

651

5208

64

423 801

12

1049

12588

144

1 100 401

59

6 058

48 665

513

4 799 724

XY

diagrama de dispersin

Costo de mantenimiento (um)

1200
1000
800
600
400
200
0
0

6
8
Edad en aos

10

12

14

Coeficiente a

Coeficiente b

a y bx
a

n
n
6058
59
a
70,9181338
9
9
a 208, 203345
a 208, 20

b
b

n xy
n x2

x
( x )

r
r

nxy x y

nx2 (x)2 n y2 ( y)2


9 48665 596058

9513 592 9 4799724 60582

r 0,93767326
r 0.94

9 48665 59 6058
9 513 59

b 70, 91813380
b 70, 92

Coeficiente de Correlacin r

Coeficiente de
Determinacin r2
r 0, 93767326
r 2 0, 87923114
r 2 0, 88

Solucin
a)

Encuentre la recta de regresin para pronosticar el costo


de mantenimiento a partir de la edad en aos.
= +
= 208,20 + 70,92
Interpretacin
El costo de mantenimiento se incrementa en 70,92 um. por
cada ao transcurrido para el autobs.

b) Para x=15, Cul es valor estimado. Interprete


= 208,20 + 70,92
= 208,20 + 70,92 15
= 1271,98

Interpretacin
Si una mquina tiene 15 aos su costo de mantenimiento sera
aproximadamente 1271,98 um.

Solucin

c) Error de estimacin
S yx

2
Y
aY b XY

n2

4799724 208, 203345 6058 70,9181338 48665


S yx
n2
S yx 111,61

La desviacin promedio de la nube de `puntos


con respecto a la recta de regresin es de:
111,61 um.

Solucin

d) Interprete el coeficiente de correlacin


=

= 0,95

Interpretacin
Existe alto grado de asociacin
El 95% de los datos se relacionan entre s
Si: 0,00 r < 0,20
0,20 r < 0,40
0,40 r < 0,70
0,70 r 1,00

: existe correlacin no significativa


: existe una correlacin baja
: existe una significativa correlacin
: existe alto grado de asociacin

Solucin

e) Interprete el coeficiente de determinacin


r
r

n xy x y

n x 2 ( x) 2 n y 2 ( y ) 2
9(48665) (59)(6058)

9(513) (592 ) 9(4799724) (60582 )


r 0,93767326
r 2 0,88

Podemos concluir que la variacin de la cantidad de


aos del bus (edad) explica el 88% de la variacin en
el costo de mantenimiento anual