Regresion Lineal

REGRESION LINEAL SIMPLE
Se dispone de una muestra de observaciones formadas por pares de

variables:
(x1, y1)
(x2, y2)
..
(xn, yn)
A travs de esta muestra, se desea estudiar la relacin existente

entre las dos variables X e Y.
Es posible representar estas observaciones mediante un grfico de
dispersin, como el anterior.
Tambin se puede expresar el grado de asociacin mediante
algunos indicadores, que se vern a continuacin.
MEDIDAS DE ASOCIACION DE VARIABLES

Covarianza entre las variables X e Y. Es una medida de la variacin
conjunta. Se define como
1
1
cov( X , Y ) ( xi x)( yi y ) S xy
n
n
Puede tomar valores positivos o negativos.
Covarianza positiva, significa que ambas variables tienden a variar de

la misma forma, hay una asociacin positiva.
Negativa, significa que si una aumenta, la otra tiende a disminuir, y
vice versa.
Covarianza cercana a cero indica que no hay asociacin entre las
variables.
Ejemplo 1
Calcularemos de la covarianza entre estas dos variables.
Coeficiente de correlacin lineal.

La covariaza tiene el inconveniente de que su valor no es acotado,
por lo que, a partir de l es dificil juzgar si es grande o pequea.
Se define la correlacin, que es una medida de asociacin lineal

independiente de las unidades de medida.
Es igual a la covarianza dividida por las desviaciones standard:
Coeficiente de correlacin lineal.

La covariaza tiene el inconveniente de que su valor no es acotado,
por lo que, a partir de l es dificil juzgar si es grande o pequea.
Se define la correlacin, que es una medida de asociacin lineal
independiente de las unidades de medida:
Es igual a la covarianza dividida por las desviaciones estandar:
cov( X , Y )
corr ( X , Y )
dsX * dsY
( x x)( y y )
( x x) ( y y )
i
S xy
S xx S yy
El valor de la correlacin entre cualquier par de variables es un

nmero entre -1 y 1. n valor alto de correlacin no indica que existe
alguna relacin de causa-efecto entre las variables.
Ejemplo (continuacin)
El siguiente es un grfico de dispersin que muestra estos datos.
Tiempo en recorrer 1
milla
Club de Salud
600
500
400
300
200
100
0
0
20
40
60
Pulsaciones por m inuto
80
100
La interpretacin del coeficiente de correlacin puede ilustrarse

mediante los siguientes grficos.
REGRESION LINEAL SIMPLE

Ahora asumiremos que si hay una relacin de causalidad de la
variable X (causa) hacia la variable Y (efecto).
Adems, se sabe que esa relacin es de tipo lineal, dentro del rango
de los datos.
Estableceremos un modelo para explicar la causa (Y) en trminos del
efecto (X), del tipo siguiente:
Yi a bX i ei
para i = 1,2,..., n
en que a y b son dos cantidades fijas (parmetros del modelo) y

los ei son cantidades aleatorias que representan las diferencias
entre lo que postula el modelo y lo que realmente se observa, y.
Por esa razn a los e los llamaremos "errores" o "errores
aleatorios". Se asume que tienen valor esperado 0 y desviacin
estndar comn .
Ejemplo 2
Venta de automviles
Se piensa que si aumentan el porcentaje de comisin pagada
al vendedor de automviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X
Comisiones pagadas a vendedores de autos en un mes (%)
Y
Ganancias netas por ventas, en el mismo mes (Millones de $)
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X
3.6
5.2
5.3
7.3
5.0
5.2
3.0
3.1
3.2
7.5
8.3
6.1
4.9
5.8
7.1
Y
11.28
14.74
18.46
20.01
12.43
15.37
9.59
11.26
8.05
27.91
24.62
18.80
13.87
12.11
23.68
Representacin de los datos en un grfico de dispersin:

Ganancias netas versus com isiones
Ganancias (MM$)
30.00
25.00
20.00
15.00
10.00
5.00
0.00
0.0
2.0
4.0
6.0
com isin (%)
8.0
10.0
Se puede apreciar la relacin lineal existente entre ambas variables

observadas.
Nuestro problema es estimar los parmetros a, b y para poder
identificar el modelo.
Para estimar a y b se utiliza el mtodo de Mnimos cuadrados, que
consiste en encontrar aquellos valores de a y de b que hagan
mnima la suma de los cuadrados de las desviaciones de las
observaciones respecto de la recta que representa el modelo, en el
sentido vertical.
En la figura, son los cuadrados de los segmentos verticales cuya suma

de cuadrados se debe minimizar, para determinar a y b.
Estos segmentos representan los errores e del modelo. b se llama

pendiente de la recta que representa los datos y a se llama intercepto
sobre el eje vertical.
La solucin est dada por las siguientes frmulas:
( x x)( y y ) S
S
( x x)
i
xy
a y bx
xx
Ejemplo 2 (continuacin)
Calculamos los promedios de ambas variables y se las restamos a
los valores.
Promedio de la X :
Promedio de la Y :
5.4
16.1
Desviaciones respecto de las medias, sus cuadrados y productos:

obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
sumas
X-5.4
-1.8
-0.2
-0.1
1.9
-0.4
-0.2
-2.4
-2.3
-2.2
2.1
2.9
0.7
-0.5
0.4
1.7
0.0
Y-16.1
-4.9
-1.4
2.3
3.9
-3.7
-0.8
-6.6
-4.9
-8.1
11.8
8.5
2.7
-2.3
-4.0
7.5
0.0
cuadrados
3.1
23.7
0.0
2.0
0.0
5.3
3.7
14.9
0.1
13.8
0.0
0.6
5.6
42.9
5.2
23.8
4.7
65.6
4.5
138.5
8.6
71.8
0.5
7.0
0.2
5.2
0.2
16.3
3.0
56.8
39.6
488.3
Sxx
Syy
Entonces utilizando las frmulas de arriba,
b=
3.18
a=
-0.96
prod.
8.6
0.2
-0.2
7.4
1.4
0.1
15.6
11.1
17.6
25.0
24.8
1.9
1.1
-1.7
13.0
126.1
Sxy
El modelo, para estos datos, es
Yi 0.96 3,18 X i ei
para i=1,2,.. 15
Representa una recta, cuyo intercepto con el eje vertical es

-0.96, y su pendiente es 3.18, o sea, si el porcentaje de
comisin X aumenta en 1%, la ganancia neta Y aumenta
en 3.18 Millones de pesos.
Grfico de los datos:

Ganancias netas versus com isiones
30.00
Ganancias (MM$)
25.00
20.00
15.00
10.00
5.00
0.00
-5.00
0.0
2.0
4.0
6.0
com isin (%)
8.0
10.0
VALORES AJUSTADOS AL MODELO.

El modelo de regresin lineal se puede utilizar para obtener
valores de Y ajustados al modelo.
Los valores puntuales se obtienen mediante la frmula
Yi a bX i
en que a y b son los valores estimados por el procedimiento
indicado anteriormente, y Xi toma los valores de la muestra.
Los puntos que representan estos valores en el grfico de
dispersin, yacen sobre la recta.
La tabla siguiente contiene los valores de Y ajustados , para cada
valor de X, adems de los valores de Y observados, a modo de
comparacin. Los ajustados se obtienen por la frmula.
Yi 0.96 3.18 X i
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
promedio
X
3.6
5.2
5.3
7.3
5.0
5.2
3.0
3.1
3.2
7.5
8.3
6.1
4.9
5.8
7.1
5.4
Y
11.28
14.74
18.46
20.01
12.43
15.37
9.59
11.26
8.05
27.91
24.62
18.80
13.87
12.11
23.68
16.1
Yajust.
10.50
15.59
15.91
22.28
14.96
15.59
8.59
8.91
9.23
22.92
25.46
18.46
14.64
17.50
21.64
16.1
dif
0.78
-0.85
2.54
-2.27
-2.52
-0.23
1.00
2.36
-1.18
5.00
-0.84
0.34
-0.77
-5.40
2.04
0.00
Se puede observar que el promedio de los valores ajustados es igual

al promedio de los valores observados, y que el promedio de las
diferencias es cero.
La raz cuadrada del promedio de los cuadrados de las diferencias
entre los valores observados y ajustados, es una estimacin de la
varianza del error, .
En el ejemplo, la suma de las diferencias al cuadrado es 19.8, luego
la estimacin de la desviacin estndar del error es igual a
1
86.933 5.796 2.41
15
Millones de pesos
Coeficiente de determinacin.
Es una medida de bondad de ajuste del modelos de regresin lineal
a los datos.
Es deseable que los valores de Y ajustados al modelo, sean lo ms
parecidos posible a los valores observados.
Una medida de lo parecido que son, es el coeficiente de correlacin.
Se define el coeficiente de determinacin, R2, como el cuadrado del
coeficiente de correlacin entre los valores de Y observados y los
valores de Y ajustados.
Sin embargo se puede demostrar que es igual a la siguiente

expresin:
R2
S xy2
S xx S yy
( x x)( y y )
( x x) ( y y)
2
El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto

(cuando los puntos aparecen en un lnea recta).
Ms arriba se calcularos las sumas de cuadrados y de productos, y
dieron los siguientes valores:
Sxx = 39.6 ,
Syy = 488.3 , Sxy = 126.1
Entonces el coeficiente de determinacin es

2
(
126
.
1
)
R2
0.82
39.6 * 488.3
que seala que el ajuste del modelo a los datos es bueno.
Ejemplo 3
Los datos siguientes corresponde al Indice de Produccin Fsica de la
Industria Manufacturera, por agrupacin, de los meses de mayo de 2002 y
mayo de 2003, entregado por el Instituto Nacional de Estadsticas.
Agrupaciones
Fabricac. de productos alimenticios
Industrias de bebidas
Industria del tabaco
Fabricac. de textiles
Fabricac. prendas de vestir, excepto calzado
Industria del cuero; produc. de cuero y sucedneos
Fabricac. de calzado, exc. de caucho o plstico
Industria de madera y sus productos exc. muebles
Fabricac. de muebles y accesorios, exc. metlicos
Fabricac. de papel y productos de papel
Imprentas, editoriales e industrias conexas
Fabricac. de sustancias qumicas industriales
Fabricac. de otros productos qumicos
Refineras de petrleo
Fabricac. prod. derivados de petrleo y carbn
Fabricac. de productos de caucho
Fabricac. de productos plsticos
Fabricac. de objetos de loza y porcelana
Fabricac. de vidrio y productos de vidrio
Fabricac. otros productos minerales no metlicos
Industrias bsicas de hierro y acero
Industrias bsicas de metales no ferrosos
Fabricac. prod. metlicos exc. maquinaria y equipo
Construccin de maquinaria, exc. la elctrica
Construccin mq., aparatos y acces. elctricos
Construccin de material de transporte
Fabricac. equipo profesional y artculos oftlmicos
Otras industrias manufactureras
Mayo 02
140.2
134.6
151.1
70.9
34.7
59.3
52.6
132.3
114.0
189.5
107.5
229.4
212.4
136.0
143.2
141.4
305.8
68.2
268.6
185.6
123.1
119.8
153.6
282.5
87.0
103.4
67.7
66.0
Mayo 03
133.5
133.7
140.5
70.3
30.5
56.7
45.3
141.6
132.4
205.3
108.0
231.4
209.6
165.2
156.2
177.4
399.7
61.1
266.4
186.5
167.1
108.7
153.5
289.7
83.0
73.4
64.1
67.5
Es un ndice cuya base 100 es el promedio de produccin de cada

agrupacin, en el ao 1989.
El grfico de dispersin es el siguiente:
Prod. Fsica Industria Manufacturera
Indice mayo 2003
600
400
200
0
0
100
200
Indice mayo 2002
300
400
Clculos parciales, en que X es el ndice mayo 2002, Y el ndice

mayo 2003:
n 28
x 136.6
S xx ( xi x) 2 134,913.6
S yy ( y i y ) 2 187,813.7
S xy ( xi x)( yi y ) 154,350.8
Estimacin de los parmetros del modelo:
S xy
S xx
154,350.8
1.14
134,913.6
a y b x 13.61
y 144.9
Bondad de ajuste:
S xy2
S xx S yy
(154,350.8) 2
0.940
(134,913.6) * (187,350.8)
que indica un muy buen ajuste.

El siguiente grfico muestra de recta de regresin estimada:
Prod. Fsica Industria Manufacturera
Indice mayo 2003
600
400
200
0
0
100
200
-200
Indice mayo 2002
300
400
Prediccin por bandas de confianza.

Se pueden hacer predicciones de valores Y para valores X que no
estn en el conjunto de observaciones, dentro o fuera de su rango,
utilizando la frmula de la regresin lineal, con los parmetros a y b
estimados.
Tambin se pueden hacer predicciones por intervalos de confianza
verticales, que tienen la ventaja de proporcionar una cuantificacin
del error de prediccin.
Los intervalos tienen la propiedad de ser de diferente ancho, segn
el valor de X, siendo ms angostos cuando X es igual al promedio,
ensanchndose a medida que nos alejamos del promedio.
Cuando se sale del rango de los datos, se ensanchan ms

fuertemente.
Esto significa que mientras ms nos alejamos del centro de los
valores de la variable X, ms imprecisas sern nuestras
estimaciones del valor de la variable Y, lo que parece razonable.
Si unimos los extremos superiores (o los inferiores) de todos los

intervalos de confianza, se obtienen dos curvas con forma de
hiprbola, como se muestra en la figura:
El grfico siguiente muestra las bandas de confianza de coeficiente

95%, para el ejemplo de la produccin fsica manufacturera.
Mientras mayor es el coeficiente de determinacin R2, ms angostas
son las bandas de confianza; lo mismo mientras mayor es la
desviacin estndar de las X, y lo mismo si el tamao muestral
aumenta. Y a medida que nos alejamos del promedio de las X, se
ensanchan las bandas.
ESTUDIO DE CASO
Relacin entre poblacin y nmero de
nacimientos.
El objetivo del estudio es explorar el valor predictivo de la poblacin

de cada uno de los tramos etarios sobre el nmero de nacimientos,
de las comunas.
En particular, determinar cul tramo etario (su poblacin) tiene mayor

poder predictivo sobre el nmero de nacimientos.
Se tiene una muestra de 40 comunas comunas elegidas al azar, en que

se midieron las siguientes variables :
Poblacin por tramo etario (del censo de 2002):
1
menos de 1 ao
entre 1 y 4 aos
entre 5 y 9 aos
entre 19 y 19 aos
entre 20 y 44 aos
entre 45 y 64 aos
entre 65 y 79 aos
80 aos o ms
9 Nacimientos en el ao (correspondientes a 2006)
Comuna
menos 1
e1-4
e 5-9
e 10-19
e 20-44
e 45-64
e 65-79
mas 80
Nacimien
tos
Huasco
116
486
677
1,501
2735
1802
624
124
101
Las Cabras
305
1,299
1,794
3,872
7995
4661
1639
378
1066
El Monte
508
2,079
2,634
5,634
11082
5467
1700
464
392
Alto Biobo
140
544
617
1,108
4146
2038
387
74
176
San Nicols
132
538
761
1,736
3684
2216
779
165
118
San Fernando
960
4,090
5,756
12,911
25627
14007
4446
1098
965
Aisn
427
1,682
2,121
4,790
9951
4535
1234
271
409
Llanquihue
280
1,155
1,581
3,327
6619
3446
1078
234
218
Victoria
471
1,760
2,547
6,500
11768
6995
2751
707
462
10
Arauco
613
2,678
3,573
7,521
15147
7119
2140
517
528
11
El Bosque
2,655
10,647
13,257
31,249
66602
35983
11795
2547
2573
12
San Vicente
568
1,392
3,462
7,955
15458
9518
3202
785
561
13
Yerbas Buenas
244
978
1,362
3,189
6265
3512
1050
240
216
14
Pemuco
101
507
794
1,692
3295
1844
691
153
90
15
Chiguayante
1,537
6,152
8,612
20,445
39650
20500
5239
1552
1145
16
Porvenir
67
271
366
994
2275
1157
382
77
80
17
Combarbal
161
661
934
2,010
4225
2962
1521
395
168
18
Conchal
1,686
6,676
8,286
18,977
44767
25540
11377
2842
1958
19
Tucapel
190
745
1,058
2,391
4609
2787
1205
305
175
20
Camarones
18
74
100
255
546
346
106
26
Comuna
21
Quinta de Tilcoco
22
Ovalle
23
menos
1
e1-4
e 5-9
e 10-19
e 20-44
e 45-64
e 65-79
mas 80
Nacimien
tos
160
635
894
2,179
4279
2556
813
203
162
1,661
6,712
9,140
20,281
38840
20843
7750
1833
1653
Pica
75
304
354
746
7218
2487
338
100
59
24
Ninhue
60
310
455
939
1738
1272
550
134
49
25
Taltal
177
735
950
1,939
4075
2336
655
143
199
26
Molina
538
2,297
3,224
7,218
15539
8832
2803
666
521
27
Arica
2,842
11,630
15,545
33,775
67981
38405
12487
2767
3079
28
Navidad
54
263
369
752
1658
1396
709
184
45
29
Graneros
429
1,757
2,406
5,480
10809
5659
1634
217
86
30
Coronel
1,471
6,248
8,681
20,287
39860
20784
5792
1130
1509
31
Caldera
249
966
1,266
2,941
5512
2810
837
138
264
32
Mejillones
177
682
830
1,836
3954
1943
408
81
139
33
Colchane
26
101
120
249
620
347
140
47
14
34
Chilln
2,283
9,549
13,437
30,848
66475
35890
11216
2527
2479
35
Lago Verde
13
53
68
139
390
258
69
13
12
36
Futrono
278
1,150
1,541
3,211
5420
2886
976
208
214
37
Mfil
111
368
521
1,516
2472
1436
569
160
86
38
Canela
121
515
716
1,437
2818
1986
1101
261
103
39
Freire
402
1,667
2,337
5,134
9525
5416
2093
542
311
40
Valdivia
2,173
8,470
11,336
28,184
59713
30986
10176
2539
2192
Se presentan los grficos de los nacimientos versus poblacin,

de cada tramo.
Nacimientos versus enores de 1 ao

3500
3000
Nacimientos
2500
2000
1500
1000
500
0
0
500
1000
1500
menos de 1 ao
2000
2500
3000
Scatterplot of Nac vs e 1 - 4
3500
3000
2500
Nac
2000
1500
1000
500
0
0
2000
4000
6000
e1- 4
8000
10000
12000
Scatterplot of Nac vs e 5-9

3500
3000
2500
Nac
2000
1500
1000
500
0
0
2000
4000
6000
8000
e 5-9
10000
12000
14000
16000

3500
3000
2500
Nac
2000
1500
1000
500
0
0
5000
10000
15000
20000
e 10-19
25000
30000
35000

3500
3000
2500
Nac
2000
1500
1000
500
0
0
10000
20000
30000
40000
e 20-44
50000
60000
70000

3500
3000
2500
Nac
2000
1500
1000
500
0
0
10000
20000
e 45-64
30000
40000

3500
3000
2500
Nac
2000
1500
1000
500
0
0
2000
4000
6000
8000
e 65-79
10000
12000
14000
Scatterplot of Nac vs mas 80

3500
3000
2500
Nac
2000
1500
1000
500
0
0
500
1000
1500
mas 80
2000
2500
3000
Se observa que persistentemente una comuna tiene un nmero de

nacimientos mayor que el resto, segn su poblacin, en todos los
tramos.
Es la Comuna de Las Cabras.
Las comunas con ambos nmeros ms grandes son Arica, El Bosque

y Chilln.
Para los grficos y los clculos siguientes se us el software MINITAB.,
Hay una correlacin muy fuerte entre las poblaciones de los distintos
tramos de edad, siendo un poco menos entre el tramo ms de 80 y
las dems.
Esto se puede apreciar en la siguiente figura, en que grafican las

variables de a pares.
Matrix Plot of menos 1, e 1 - 4, e 5-9, e 10-19, e 20-44, e 45-64, ...

0
5000
10000
15000
30000
20000
40000
1500
3000
3000
1500
menos 1
10000
5000
e1- 4
16000
8000
e 5-9
30000
15000
e 10-19
0
50000
e 20-44
25000
0
40000
20000
e 45-64
0
10000
e 65-79
5000
0
3000
1500
mas 80
0
0
1500
3000
8000
16000
25000 50000
5000
10000
Se ajustaron modelos de regresin lineal simple a los

nacimientos, con la poblacin de cada uno de los tramos
etarios, como regresor.
La respuesta (y) siempre fue el nmero de nacimientos.
La salida de MINITAB es la siguiente (en el primer caso):
Regression Analysis: Nac versus menos 1

The regression equation is
Nac = - 14.2 + 1.03 (menos 1)
Predictor
Coef SE Coef
Constant
-14.17
menos 1
33.63 -0.42 0.676
1.02732 0.03418 30.06 0.000
(cont.)
S = 166.564 R-Sq = 96.0% R-Sq(adj) = 95.9%
Analysis of Variance
Source
Regression
DF
SS
1 25065853 25065853 903.49 0.000
Residual Error 38 1054251

Total
MS
39 26120104
27743
De las pruebas t de hiptesis, se concluye que el intercepto

a = - 14.2 no es significativo, mientras que la pendiente
b = 1.03 si lo es.
Por lo tanto la relacin entre nacimientos y el tamao de la

poblacin de menores de 1 ao es
Nac = 1.03 (menos 1)
Relaciones similares se puede obtener para las otras

variables poblacionales y su efecto sobre el nmero de
nacimientos.
Eso queda para el lector.
FIN

Regresion Lineal

Загружено:

Сведения о документе

Исходное описание:

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Regresion Lineal

Загружено:

Авторское право:

Доступные форматы

REGRESION LINEAL SIMPLE

Se dispone de una muestra de observaciones formadas por pares de

A travs de esta muestra, se desea estudiar la relacin existente

MEDIDAS DE ASOCIACION DE VARIABLES

Covarianza positiva, significa que ambas variables tienden a variar de

Calcularemos de la covarianza entre estas dos variables.

Coeficiente de correlacin lineal.

Se define la correlacin, que es una medida de asociacin lineal

Coeficiente de correlacin lineal.

El valor de la correlacin entre cualquier par de variables es un

El siguiente es un grfico de dispersin que muestra estos datos.

Pulsaciones por m inuto

La interpretacin del coeficiente de correlacin puede ilustrarse

REGRESION LINEAL SIMPLE

en que a y b son dos cantidades fijas (parmetros del modelo) y

Representacin de los datos en un grfico de dispersin:

com isin (%)

Se puede apreciar la relacin lineal existente entre ambas variables

En la figura, son los cuadrados de los segmentos verticales cuya suma

Estos segmentos representan los errores e del modelo. b se llama

La solucin est dada por las siguientes frmulas:

Desviaciones respecto de las medias, sus cuadrados y productos:

El modelo, para estos datos, es

Representa una recta, cuyo intercepto con el eje vertical es

Grfico de los datos:

com isin (%)

VALORES AJUSTADOS AL MODELO.

Se puede observar que el promedio de los valores ajustados es igual

Sin embargo se puede demostrar que es igual a la siguiente

El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto

Syy = 488.3 , Sxy = 126.1

Entonces el coeficiente de determinacin es

que seala que el ajuste del modelo a los datos es bueno.

Es un ndice cuya base 100 es el promedio de produccin de cada

Prod. Fsica Industria Manufacturera

Indice mayo 2003

Clculos parciales, en que X es el ndice mayo 2002, Y el ndice

que indica un muy buen ajuste.

Indice mayo 2003

Prediccin por bandas de confianza.

Cuando se sale del rango de los datos, se ensanchan ms

Si unimos los extremos superiores (o los inferiores) de todos los

El grfico siguiente muestra las bandas de confianza de coeficiente

El objetivo del estudio es explorar el valor predictivo de la poblacin

En particular, determinar cul tramo etario (su poblacin) tiene mayor

Se tiene una muestra de 40 comunas comunas elegidas al azar, en que

9 Nacimientos en el ao (correspondientes a 2006)

Se presentan los grficos de los nacimientos versus poblacin,

Nacimientos versus enores de 1 ao

Scatterplot of Nac vs e 5-9

Scatterplot of Nac vs e 10-19

Scatterplot of Nac vs e 20-44

Scatterplot of Nac vs e 45-64

Scatterplot of Nac vs e 65-79

Scatterplot of Nac vs mas 80

Se observa que persistentemente una comuna tiene un nmero de

Las comunas con ambos nmeros ms grandes son Arica, El Bosque

Para los grficos y los clculos siguientes se us el software MINITAB.,

Esto se puede apreciar en la siguiente figura, en que grafican las

Matrix Plot of menos 1, e 1 - 4, e 5-9, e 10-19, e 20-44, e 45-64, ...

Se ajustaron modelos de regresin lineal simple a los

La respuesta (y) siempre fue el nmero de nacimientos.

La salida de MINITAB es la siguiente (en el primer caso):