Вы находитесь на странице: 1из 59

REGRESION LINEAL SIMPLE

Se dispone de una muestra de observaciones formadas por pares de


variables:

(x1, y1)
(x2, y2)
..
(xn, yn)

A travs de esta muestra, se desea estudiar la relacin existente


entre las dos variables X e Y.
Es posible representar estas observaciones mediante un grfico de
dispersin, como el anterior.
Tambin se puede expresar el grado de asociacin mediante
algunos indicadores, que se vern a continuacin.

MEDIDAS DE ASOCIACION DE VARIABLES


Covarianza entre las variables X e Y. Es una medida de la variacin
conjunta. Se define como

1
1
cov( X , Y ) ( xi x)( yi y ) S xy
n
n
Puede tomar valores positivos o negativos.

Covarianza positiva, significa que ambas variables tienden a variar de


la misma forma, hay una asociacin positiva.
Negativa, significa que si una aumenta, la otra tiende a disminuir, y
vice versa.
Covarianza cercana a cero indica que no hay asociacin entre las
variables.

Ejemplo 1

Calcularemos de la covarianza entre estas dos variables.

Coeficiente de correlacin lineal.


La covariaza tiene el inconveniente de que su valor no es acotado,
por lo que, a partir de l es dificil juzgar si es grande o pequea.

Se define la correlacin, que es una medida de asociacin lineal


independiente de las unidades de medida.
Es igual a la covarianza dividida por las desviaciones standard:

Coeficiente de correlacin lineal.


La covariaza tiene el inconveniente de que su valor no es acotado,
por lo que, a partir de l es dificil juzgar si es grande o pequea.
Se define la correlacin, que es una medida de asociacin lineal
independiente de las unidades de medida:
Es igual a la covarianza dividida por las desviaciones estandar:

cov( X , Y )
corr ( X , Y )

dsX * dsY

( x x)( y y )
( x x) ( y y )
i

S xy
S xx S yy

El valor de la correlacin entre cualquier par de variables es un


nmero entre -1 y 1. n valor alto de correlacin no indica que existe
alguna relacin de causa-efecto entre las variables.

Ejemplo (continuacin)

El siguiente es un grfico de dispersin que muestra estos datos.

Tiempo en recorrer 1
milla

Club de Salud
600
500
400
300
200
100
0
0

20

40

60

Pulsaciones por m inuto

80

100

La interpretacin del coeficiente de correlacin puede ilustrarse


mediante los siguientes grficos.

REGRESION LINEAL SIMPLE


Ahora asumiremos que si hay una relacin de causalidad de la
variable X (causa) hacia la variable Y (efecto).
Adems, se sabe que esa relacin es de tipo lineal, dentro del rango
de los datos.
Estableceremos un modelo para explicar la causa (Y) en trminos del
efecto (X), del tipo siguiente:

Yi a bX i ei

para i = 1,2,..., n

en que a y b son dos cantidades fijas (parmetros del modelo) y


los ei son cantidades aleatorias que representan las diferencias
entre lo que postula el modelo y lo que realmente se observa, y.
Por esa razn a los e los llamaremos "errores" o "errores
aleatorios". Se asume que tienen valor esperado 0 y desviacin
estndar comn .

Ejemplo 2

Venta de automviles
Se piensa que si aumentan el porcentaje de comisin pagada
al vendedor de automviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X
Comisiones pagadas a vendedores de autos en un mes (%)
Y
Ganancias netas por ventas, en el mismo mes (Millones de $)
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

X
3.6
5.2
5.3
7.3
5.0
5.2
3.0
3.1
3.2
7.5
8.3
6.1
4.9
5.8
7.1

Y
11.28
14.74
18.46
20.01
12.43
15.37
9.59
11.26
8.05
27.91
24.62
18.80
13.87
12.11
23.68

Representacin de los datos en un grfico de dispersin:


Ganancias netas versus com isiones

Ganancias (MM$)

30.00
25.00
20.00
15.00
10.00
5.00
0.00
0.0

2.0

4.0

6.0

com isin (%)

8.0

10.0

Se puede apreciar la relacin lineal existente entre ambas variables


observadas.
Nuestro problema es estimar los parmetros a, b y para poder
identificar el modelo.
Para estimar a y b se utiliza el mtodo de Mnimos cuadrados, que
consiste en encontrar aquellos valores de a y de b que hagan
mnima la suma de los cuadrados de las desviaciones de las
observaciones respecto de la recta que representa el modelo, en el
sentido vertical.

En la figura, son los cuadrados de los segmentos verticales cuya suma


de cuadrados se debe minimizar, para determinar a y b.

Estos segmentos representan los errores e del modelo. b se llama


pendiente de la recta que representa los datos y a se llama intercepto
sobre el eje vertical.

La solucin est dada por las siguientes frmulas:

( x x)( y y ) S

S
( x x)
i

xy

a y bx

xx

Ejemplo 2 (continuacin)
Calculamos los promedios de ambas variables y se las restamos a
los valores.

Promedio de la X :
Promedio de la Y :

5.4
16.1

Desviaciones respecto de las medias, sus cuadrados y productos:


obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
sumas

X-5.4
-1.8
-0.2
-0.1
1.9
-0.4
-0.2
-2.4
-2.3
-2.2
2.1
2.9
0.7
-0.5
0.4
1.7
0.0

Y-16.1
-4.9
-1.4
2.3
3.9
-3.7
-0.8
-6.6
-4.9
-8.1
11.8
8.5
2.7
-2.3
-4.0
7.5
0.0

cuadrados
3.1
23.7
0.0
2.0
0.0
5.3
3.7
14.9
0.1
13.8
0.0
0.6
5.6
42.9
5.2
23.8
4.7
65.6
4.5
138.5
8.6
71.8
0.5
7.0
0.2
5.2
0.2
16.3
3.0
56.8
39.6
488.3
Sxx
Syy
Entonces utilizando las frmulas de arriba,
b=

3.18

a=

-0.96

prod.
8.6
0.2
-0.2
7.4
1.4
0.1
15.6
11.1
17.6
25.0
24.8
1.9
1.1
-1.7
13.0
126.1
Sxy

El modelo, para estos datos, es

Yi 0.96 3,18 X i ei

para i=1,2,.. 15

Representa una recta, cuyo intercepto con el eje vertical es


-0.96, y su pendiente es 3.18, o sea, si el porcentaje de
comisin X aumenta en 1%, la ganancia neta Y aumenta
en 3.18 Millones de pesos.

Grfico de los datos:


Ganancias netas versus com isiones
30.00

Ganancias (MM$)

25.00
20.00
15.00
10.00
5.00
0.00
-5.00

0.0

2.0

4.0

6.0

com isin (%)

8.0

10.0

VALORES AJUSTADOS AL MODELO.


El modelo de regresin lineal se puede utilizar para obtener
valores de Y ajustados al modelo.
Los valores puntuales se obtienen mediante la frmula

Yi a bX i
en que a y b son los valores estimados por el procedimiento
indicado anteriormente, y Xi toma los valores de la muestra.
Los puntos que representan estos valores en el grfico de
dispersin, yacen sobre la recta.

Ejemplo 2 (continuacin)
La tabla siguiente contiene los valores de Y ajustados , para cada
valor de X, adems de los valores de Y observados, a modo de
comparacin. Los ajustados se obtienen por la frmula.

Yi 0.96 3.18 X i
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
promedio

X
3.6
5.2
5.3
7.3
5.0
5.2
3.0
3.1
3.2
7.5
8.3
6.1
4.9
5.8
7.1
5.4

Y
11.28
14.74
18.46
20.01
12.43
15.37
9.59
11.26
8.05
27.91
24.62
18.80
13.87
12.11
23.68
16.1

Yajust.
10.50
15.59
15.91
22.28
14.96
15.59
8.59
8.91
9.23
22.92
25.46
18.46
14.64
17.50
21.64
16.1

dif
0.78
-0.85
2.54
-2.27
-2.52
-0.23
1.00
2.36
-1.18
5.00
-0.84
0.34
-0.77
-5.40
2.04
0.00

Se puede observar que el promedio de los valores ajustados es igual


al promedio de los valores observados, y que el promedio de las
diferencias es cero.
La raz cuadrada del promedio de los cuadrados de las diferencias
entre los valores observados y ajustados, es una estimacin de la
varianza del error, .
En el ejemplo, la suma de las diferencias al cuadrado es 19.8, luego
la estimacin de la desviacin estndar del error es igual a

1
86.933 5.796 2.41
15

Millones de pesos

Coeficiente de determinacin.
Es una medida de bondad de ajuste del modelos de regresin lineal
a los datos.
Es deseable que los valores de Y ajustados al modelo, sean lo ms
parecidos posible a los valores observados.
Una medida de lo parecido que son, es el coeficiente de correlacin.
Se define el coeficiente de determinacin, R2, como el cuadrado del
coeficiente de correlacin entre los valores de Y observados y los
valores de Y ajustados.

Sin embargo se puede demostrar que es igual a la siguiente


expresin:

R2

S xy2
S xx S yy

( x x)( y y )

( x x) ( y y)
2

El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto


(cuando los puntos aparecen en un lnea recta).

Ejemplo 2 (continuacin)
Ms arriba se calcularos las sumas de cuadrados y de productos, y
dieron los siguientes valores:
Sxx = 39.6 ,

Syy = 488.3 , Sxy = 126.1

Entonces el coeficiente de determinacin es


2
(
126
.
1
)
R2
0.82
39.6 * 488.3

que seala que el ajuste del modelo a los datos es bueno.

Ejemplo 3
Los datos siguientes corresponde al Indice de Produccin Fsica de la
Industria Manufacturera, por agrupacin, de los meses de mayo de 2002 y
mayo de 2003, entregado por el Instituto Nacional de Estadsticas.
Agrupaciones
Fabricac. de productos alimenticios
Industrias de bebidas
Industria del tabaco
Fabricac. de textiles
Fabricac. prendas de vestir, excepto calzado
Industria del cuero; produc. de cuero y sucedneos
Fabricac. de calzado, exc. de caucho o plstico
Industria de madera y sus productos exc. muebles
Fabricac. de muebles y accesorios, exc. metlicos
Fabricac. de papel y productos de papel
Imprentas, editoriales e industrias conexas
Fabricac. de sustancias qumicas industriales
Fabricac. de otros productos qumicos
Refineras de petrleo
Fabricac. prod. derivados de petrleo y carbn
Fabricac. de productos de caucho
Fabricac. de productos plsticos
Fabricac. de objetos de loza y porcelana
Fabricac. de vidrio y productos de vidrio
Fabricac. otros productos minerales no metlicos
Industrias bsicas de hierro y acero
Industrias bsicas de metales no ferrosos
Fabricac. prod. metlicos exc. maquinaria y equipo
Construccin de maquinaria, exc. la elctrica
Construccin mq., aparatos y acces. elctricos
Construccin de material de transporte
Fabricac. equipo profesional y artculos oftlmicos
Otras industrias manufactureras

Mayo 02
140.2
134.6
151.1
70.9
34.7
59.3
52.6
132.3
114.0
189.5
107.5
229.4
212.4
136.0
143.2
141.4
305.8
68.2
268.6
185.6
123.1
119.8
153.6
282.5
87.0
103.4
67.7
66.0

Mayo 03
133.5
133.7
140.5
70.3
30.5
56.7
45.3
141.6
132.4
205.3
108.0
231.4
209.6
165.2
156.2
177.4
399.7
61.1
266.4
186.5
167.1
108.7
153.5
289.7
83.0
73.4
64.1
67.5

Es un ndice cuya base 100 es el promedio de produccin de cada


agrupacin, en el ao 1989.
El grfico de dispersin es el siguiente:

Prod. Fsica Industria Manufacturera

Indice mayo 2003

600
400
200
0
0

100

200
Indice mayo 2002

300

400

Clculos parciales, en que X es el ndice mayo 2002, Y el ndice


mayo 2003:

n 28

x 136.6

S xx ( xi x) 2 134,913.6
S yy ( y i y ) 2 187,813.7

S xy ( xi x)( yi y ) 154,350.8
Estimacin de los parmetros del modelo:

S xy
S xx

154,350.8
1.14
134,913.6

a y b x 13.61

y 144.9

Bondad de ajuste:

S xy2

S xx S yy

(154,350.8) 2

0.940
(134,913.6) * (187,350.8)

que indica un muy buen ajuste.


El siguiente grfico muestra de recta de regresin estimada:
Prod. Fsica Industria Manufacturera

Indice mayo 2003

600
400
200
0
0

100

200

-200
Indice mayo 2002

300

400

Prediccin por bandas de confianza.


Se pueden hacer predicciones de valores Y para valores X que no
estn en el conjunto de observaciones, dentro o fuera de su rango,
utilizando la frmula de la regresin lineal, con los parmetros a y b
estimados.
Tambin se pueden hacer predicciones por intervalos de confianza
verticales, que tienen la ventaja de proporcionar una cuantificacin
del error de prediccin.
Los intervalos tienen la propiedad de ser de diferente ancho, segn
el valor de X, siendo ms angostos cuando X es igual al promedio,
ensanchndose a medida que nos alejamos del promedio.

Cuando se sale del rango de los datos, se ensanchan ms


fuertemente.
Esto significa que mientras ms nos alejamos del centro de los
valores de la variable X, ms imprecisas sern nuestras
estimaciones del valor de la variable Y, lo que parece razonable.

Si unimos los extremos superiores (o los inferiores) de todos los


intervalos de confianza, se obtienen dos curvas con forma de
hiprbola, como se muestra en la figura:

El grfico siguiente muestra las bandas de confianza de coeficiente


95%, para el ejemplo de la produccin fsica manufacturera.
Mientras mayor es el coeficiente de determinacin R2, ms angostas
son las bandas de confianza; lo mismo mientras mayor es la
desviacin estndar de las X, y lo mismo si el tamao muestral
aumenta. Y a medida que nos alejamos del promedio de las X, se
ensanchan las bandas.

ESTUDIO DE CASO
Relacin entre poblacin y nmero de
nacimientos.

El objetivo del estudio es explorar el valor predictivo de la poblacin


de cada uno de los tramos etarios sobre el nmero de nacimientos,
de las comunas.

En particular, determinar cul tramo etario (su poblacin) tiene mayor


poder predictivo sobre el nmero de nacimientos.

Se tiene una muestra de 40 comunas comunas elegidas al azar, en que


se midieron las siguientes variables :
Poblacin por tramo etario (del censo de 2002):
1

menos de 1 ao

entre 1 y 4 aos

entre 5 y 9 aos

entre 19 y 19 aos

entre 20 y 44 aos

entre 45 y 64 aos

entre 65 y 79 aos

80 aos o ms

9 Nacimientos en el ao (correspondientes a 2006)

Comuna

menos 1

e1-4

e 5-9

e 10-19

e 20-44

e 45-64

e 65-79

mas 80

Nacimien
tos

Huasco

116

486

677

1,501

2735

1802

624

124

101

Las Cabras

305

1,299

1,794

3,872

7995

4661

1639

378

1066

El Monte

508

2,079

2,634

5,634

11082

5467

1700

464

392

Alto Biobo

140

544

617

1,108

4146

2038

387

74

176

San Nicols

132

538

761

1,736

3684

2216

779

165

118

San Fernando

960

4,090

5,756

12,911

25627

14007

4446

1098

965

Aisn

427

1,682

2,121

4,790

9951

4535

1234

271

409

Llanquihue

280

1,155

1,581

3,327

6619

3446

1078

234

218

Victoria

471

1,760

2,547

6,500

11768

6995

2751

707

462

10

Arauco

613

2,678

3,573

7,521

15147

7119

2140

517

528

11

El Bosque

2,655

10,647

13,257

31,249

66602

35983

11795

2547

2573

12

San Vicente

568

1,392

3,462

7,955

15458

9518

3202

785

561

13

Yerbas Buenas

244

978

1,362

3,189

6265

3512

1050

240

216

14

Pemuco

101

507

794

1,692

3295

1844

691

153

90

15

Chiguayante

1,537

6,152

8,612

20,445

39650

20500

5239

1552

1145

16

Porvenir

67

271

366

994

2275

1157

382

77

80

17

Combarbal

161

661

934

2,010

4225

2962

1521

395

168

18

Conchal

1,686

6,676

8,286

18,977

44767

25540

11377

2842

1958

19

Tucapel

190

745

1,058

2,391

4609

2787

1205

305

175

20

Camarones

18

74

100

255

546

346

106

26

Comuna
21

Quinta de Tilcoco

22

Ovalle

23

menos
1

e1-4

e 5-9

e 10-19

e 20-44

e 45-64

e 65-79

mas 80

Nacimien
tos

160

635

894

2,179

4279

2556

813

203

162

1,661

6,712

9,140

20,281

38840

20843

7750

1833

1653

Pica

75

304

354

746

7218

2487

338

100

59

24

Ninhue

60

310

455

939

1738

1272

550

134

49

25

Taltal

177

735

950

1,939

4075

2336

655

143

199

26

Molina

538

2,297

3,224

7,218

15539

8832

2803

666

521

27

Arica

2,842

11,630

15,545

33,775

67981

38405

12487

2767

3079

28

Navidad

54

263

369

752

1658

1396

709

184

45

29

Graneros

429

1,757

2,406

5,480

10809

5659

1634

217

86

30

Coronel

1,471

6,248

8,681

20,287

39860

20784

5792

1130

1509

31

Caldera

249

966

1,266

2,941

5512

2810

837

138

264

32

Mejillones

177

682

830

1,836

3954

1943

408

81

139

33

Colchane

26

101

120

249

620

347

140

47

14

34

Chilln

2,283

9,549

13,437

30,848

66475

35890

11216

2527

2479

35

Lago Verde

13

53

68

139

390

258

69

13

12

36

Futrono

278

1,150

1,541

3,211

5420

2886

976

208

214

37

Mfil

111

368

521

1,516

2472

1436

569

160

86

38

Canela

121

515

716

1,437

2818

1986

1101

261

103

39

Freire

402

1,667

2,337

5,134

9525

5416

2093

542

311

40

Valdivia

2,173

8,470

11,336

28,184

59713

30986

10176

2539

2192

Se presentan los grficos de los nacimientos versus poblacin,


de cada tramo.

Nacimientos versus enores de 1 ao


3500
3000

Nacimientos

2500
2000
1500
1000
500
0
0

500

1000
1500
menos de 1 ao

2000

2500

3000

Scatterplot of Nac vs e 1 - 4
3500
3000
2500

Nac

2000
1500
1000
500
0
0

2000

4000

6000
e1- 4

8000

10000

12000

Scatterplot of Nac vs e 5-9


3500
3000
2500

Nac

2000
1500
1000
500
0
0

2000

4000

6000

8000
e 5-9

10000

12000

14000

16000

Scatterplot of Nac vs e 10-19


3500
3000
2500

Nac

2000
1500
1000
500
0
0

5000

10000

15000
20000
e 10-19

25000

30000

35000

Scatterplot of Nac vs e 20-44


3500
3000
2500

Nac

2000
1500
1000
500
0
0

10000

20000

30000
40000
e 20-44

50000

60000

70000

Scatterplot of Nac vs e 45-64


3500
3000
2500

Nac

2000
1500
1000
500
0
0

10000

20000
e 45-64

30000

40000

Scatterplot of Nac vs e 65-79


3500
3000
2500

Nac

2000
1500
1000
500
0
0

2000

4000

6000
8000
e 65-79

10000

12000

14000

Scatterplot of Nac vs mas 80


3500
3000
2500

Nac

2000
1500
1000
500
0
0

500

1000

1500
mas 80

2000

2500

3000

Se observa que persistentemente una comuna tiene un nmero de


nacimientos mayor que el resto, segn su poblacin, en todos los
tramos.
Es la Comuna de Las Cabras.

Las comunas con ambos nmeros ms grandes son Arica, El Bosque


y Chilln.

Para los grficos y los clculos siguientes se us el software MINITAB.,

Hay una correlacin muy fuerte entre las poblaciones de los distintos
tramos de edad, siendo un poco menos entre el tramo ms de 80 y
las dems.

Esto se puede apreciar en la siguiente figura, en que grafican las


variables de a pares.

Matrix Plot of menos 1, e 1 - 4, e 5-9, e 10-19, e 20-44, e 45-64, ...


0

5000

10000

15000

30000

20000

40000

1500

3000

3000
1500

menos 1

10000
5000

e1- 4

16000
8000

e 5-9

30000
15000

e 10-19

0
50000
e 20-44

25000
0

40000
20000

e 45-64

0
10000
e 65-79

5000
0

3000
1500

mas 80

0
0

1500

3000

8000

16000

25000 50000

5000

10000

Se ajustaron modelos de regresin lineal simple a los


nacimientos, con la poblacin de cada uno de los tramos
etarios, como regresor.

La respuesta (y) siempre fue el nmero de nacimientos.

La salida de MINITAB es la siguiente (en el primer caso):

Regression Analysis: Nac versus menos 1


The regression equation is
Nac = - 14.2 + 1.03 (menos 1)

Predictor

Coef SE Coef

Constant

-14.17

menos 1

33.63 -0.42 0.676

1.02732 0.03418 30.06 0.000

(cont.)
S = 166.564 R-Sq = 96.0% R-Sq(adj) = 95.9%

Analysis of Variance
Source
Regression

DF

SS

1 25065853 25065853 903.49 0.000

Residual Error 38 1054251


Total

MS

39 26120104

27743

De las pruebas t de hiptesis, se concluye que el intercepto


a = - 14.2 no es significativo, mientras que la pendiente
b = 1.03 si lo es.

Por lo tanto la relacin entre nacimientos y el tamao de la


poblacin de menores de 1 ao es
Nac = 1.03 (menos 1)

Relaciones similares se puede obtener para las otras


variables poblacionales y su efecto sobre el nmero de
nacimientos.
Eso queda para el lector.

FIN

Вам также может понравиться