Estadistica - Regresion Lineal

Estadstica II
Tema 4. Regresion lineal simple
Curso 2009/10
Contenidos
I
El objeto del analisis de regresi

on
La especificaci
on de un modelo de regresi
on lineal simple
Estimadores de mnimos cuadrados: construcci

on y propiedades
Inferencias sobre el modelo de regresi
on:
I
I
I
I
Inferencia sobre la pendiente

Inferencia sobre la varianza
Estimaci
on de una respuesta promedio
Predicci
on de una nueva respuesta
Objetivos de aprendizaje
I
Saber construir un modelo de regresi

on lineal simple que describa
c
omo influye una variable X sobre otra variable Y
Saber obtener estimaciones puntuales de los parametros de dicho

modelo
Saber contruir intervalos de confianza y resolver contrastes sobre

dichos parametros
Saber estimar el valor promedio de Y para un valor de X
Saber predecir futuros de la variable respuesta, Y
Referencias en la bibliografa
I
Meyer, P. Probabilidad y aplicaciones estadsticas(1992)

I
Captulo
Newbold, P. Estadstica para los negocios y la economa(1997)

Captulo 10
Pe
na, D. Regresi
on y analisis de experimentos(2005)
I
Captulo 5
Introduccion
Un modelo de regresi
on es un modelo que permite describir como influye
una variable X sobre otra variable Y .
X: Variable independiente o explicativa o ex

ogena
Y: Variable dependiente o respuesta o end

ogena
El objetivo es obtener estimaciones razonables de Y para distintos valores

de X a partir de una muestra de n pares de valores (x1 , y1 ), . . . , (xn , yn ).
Introduccion
Ejemplos
I
Estudiar c
omo influye la estatura del padre sobre la estatura del hijo.
Estimar el precio de una vivienda en funci

on de su superficie.
Predecir la tasa de paro para cada edad.
Aproximar la calificaci
on obtenida en una materia seg
un el n
umero
de horas de estudio semanal.
Prever el tiempo de computaci

on de un programa en funcion de la
velocidad del procesador.
Introduccion
Tipos de relacion
Determinista: Conocido el valor de X , el valor de Y queda
perfectamente establecido. Son del tipo:
y = f (x)
Ejemplo: La relaci
on existente entre la temperatura en grados
centgrados (X ) y grados Fahrenheit (Y ) es:
y = 1,8x + 32
Plot of Grados Fahrenheit vs Grados centgrados
112
Grados Fahrenheit
92
72
52
32
0
10
20
Grados centgrados
30
40
Introduccion
Tipos de relacion
No determinista: Conocido el valor de X , el valor de Y no queda
perfectamente establecido. Son del tipo:
y = f (x) + u
donde u es una perturbaci
on desconocida (variable aleatoria).
Ejemplo: Se tiene una muestra del volumen de produccion (X ) y el
costo total (Y ) asociado a un producto en un grupo de empresas.
Plot of Costos vs Volumen
80
60
Costos
40
20
0
26
31
36
41
Volumen
Existe relaci
on pero no es exacta.
46
51
56
Introduccion
Tipos de relacion
Lineal: Cuando la funci
on f (x) es lineal,
f (x) = 0 + 1 x
I
I
Si 1 > 0 hay relaci

on lineal positiva.
Si 1 < 0 hay relaci
on lineal negativa.
Relacin lineal positiva
Relacin lineal negativa
10
10
-2
-2
-6
-6
-2
-1
Los datos tienen un aspecto recto.
-2
-1
Introduccion
Tipos de relacion
No lineal: Cuando la funci
on f (x) no es lineal. Por ejemplo,
f (x) = log (x), f (x) = x 2 + 3, . . .
Relacin no lineal
2
1
0
-1
-2
-3
-4
-2
-1
Los datos no tienen un aspecto recto.
Introduccion
Tipos de relacion
Ausencia de relaci
on: Cuando f (x) = 0.
Ausencia de relacin
2,5
1,5
0,5
-0,5
-1,5
-2,5
-2
-1
Medidas de dependencia lineal

La covarianza
Una medida de la dependencia lineal es la covarianza:
n
X
cov (x, y ) =
(xi x) (yi y )
i=1
n1
Si hay relaci
on lineal positiva, la covarianza sera positiva y grande.
Si hay relaci
on lineal negativa, la covarianza sera negativa y grande
en valor absoluto.
Si hay no hay relaci

on entre las variables o la relacion es
marcadamente no lineal, la covarianza sera pr
oxima a cero.
PERO la covarianza depende de las unidades de medida de las variables.
Medidas de dependencia lineal

El coeficiente de correlacion lineal
Una medida de la dependencia lineal que no depende de las unidades de
medida es el coeficiente de correlaci
on lineal:
r(x,y ) = cor (x, y ) =
donde:
n
X
sx2 =
(xi x)
i=1
n1
cov (x, y )
sx sy
n
X
sy2 =
(yi y )
i=1
n1
-1 cor (x, y ) 1
cor (x, y ) = cor (y , x)
cor (ax + b, cy + d) = cor (x, y ) para cualesquiera valores a, b, c, d.
El modelo de regresion lineal simple

El modelo de regresi
on lineal simple supone que,
y i = 0 + 1 x i + u i
donde:
I
yi representa el valor de la variable respuesta para la observacion

i-esima.
xi representa el valor de la variable explicativa para la observacion

i-esima.
ui representa el error para la observaci

on i-esima que se asume
normal,
ui N(0, )
0 y 1 son los coeficientes de regresi

on:
I
I
0 : intercepto
1 : pendiente
Los parametros que hay que estimar son: 0 , 1 y .

El objetivo es obtener estimaciones 0 y 1 de 0 y 1 para calcular la
recta de regresi
on:
y = 0 + 1 x
que se ajuste lo mejor posible a los datos.
Ejemplo: Supongamos que la recta de regresi
on del ejemplo anterior es:
Costo = 15,65 + 1,29 Volumen
Plot of Fitted Model
80
Costos
60
40
20
0
26
31
36
41
46
51
56
Volumen
Se estima que una empresa que produce 25 mil unidades tendra un costo:
costo = 15,65 + 1,29 25 = 16,6 mil euros

La diferencia entre cada valor yi de la variable respuesta y su estimacion
yi se llama residuo:
ei = yi yi
Valor observado
Dato (y)
Recta de
regresin
estimada
Ejemplo (cont.): Indudablemente, una empresa determinada que haya

producido exactamente 25 mil unidades no va a tener un gasto de
exactamente 16,6 mil euros. La diferencia entre el costo estimado y el
real es el residuo. Si por ejemplo el costo real de la empresa es de 18 mil
euros, el residuo es:
ei = 18 16,6 = 1,4mil euros
Hipotesis del modelo de regresion lineal simple

I
Linealidad: La relaci
on existente entre X e Y es lineal,
f (x) = 0 + 1 x
Homogeneidad: El valor promedio del error es cero,

E [ui ] = 0
Homocedasticidad: La varianza de los errores es constante,

Var (ui ) = 2
Independencia: Las observaciones son independientes,

E [ui uj ] = 0
Normalidad: Los errores siguen una distribuci

on normal,
ui N(0, )

Linealidad
Los datos deben ser razonablemante rectos.
80
Costos
60
40
20
0
26
31
36
41
46
51
56
Volumen
Si no, la recta de regresi

on no representa la estructura de los datos.
34
24
14
-6
-5
-3
-1

Homocedasticidad
La dispersi
on de los datos debe ser constante para que los datos sean
homocedasticos.
Plot of Costos vs Volumen
80
Costos
60
40
20
0
26
31
36
41
46
51
56
Volumen
Si no se cumple, los datos son heterocedasticos.
Nm. Obs
(i)
1
2
Objetivo: Analizar la relacin entre una o varias

variables dependientes y un conjunto de factores
independientes.

Independencia
I
3
4
5
6
7
8
9
10
f (Y1 , Y2 ,..., Yk | X 1 , X 2 ,..., X l )
11
12
13
14
Los datos deben

independientes.
Tipos deser
relaciones:
15
16
17
18
no lineal
observaci
on- Relacin
no debe
dar
Una
informaci
on sobre las demas.
Relacin
Habitualmente, - se
sabelineal
por el tipo de datos si son adecuados o no
para el analisis. Regresin lineal simple
19
20
21
22
En general,
las series temporales no cumplen la hip
otesis de
2
Regresin Lineal
independencia.
23
24
25
26
27
28
29
30
Regresin
Normalidad
I
Se asume que
los datos son normales a priori.
Modelo
yi
E 0 E 1 xi u i ,
u i o N (0, V 2 )
yi
In
E 0 E1 x
xi
Estimadores de mnimos cuadrados

xi
Gauss propuso en 1809 el metodo de xmnimos
cuadrados para obtener los
valores 0 y 1 que mejor se ajustan a los datos:
7
Regresin Lineal
yi = 0 + 1 xi
El metodo consiste en minimizar la suma de los cuadrados de las
distancias verticales entre los datos y las estimaciones, es decir, minimizar
la suma deResiduos
los residuos al cuadrado,
n
X
ei2 =
yi
n
X
n

2
X
2
(yi yi ) E=
x
0 E1 xyi i 0 +
ei 1 i
N i=1
N

i=1
i=1
Valor Observado Valor Previsto Residuo
ei
yi
yi
xi
E0 E1xi
E 0 E 1 xi u i ,
u i o N (0, V
i nimos
Estimadores de ym
cuadrados
yi : Variable dependiente
El resultado que se obtiene
es:
xi : Variable independiente
n
ui : Parte aleatoria X
(xi V x) (yi y )
cov (x, y )
i=1
=
1 =
n 0
X
sx2
2
Regresin Lineal
(xi x) 6
yi
Regresin Lineal
i=1
0 = y 1 x
Recta de regresin
y
Residuos
y
Ni
Valor Observ
E 0 E1 x
yi
Pendiente
E1
E 0
y E1 x
x
Regresin Lineal
Regresin Lineal

Ejercicio 4.1
Los datos de la producci
on de trigo en toneladas (X ) y el precio del kilo de
harina en pesetas (Y ) en la decada de los 80 en Espa
na fueron:
Producci
on de trigo
Precio de la harina
30
25
28
30
32
27
25
40
25
42
25
40
22
50
24
45
35
30
Ajusta la recta de regresi

on por el metodo de mnimos cuadrados
Resultados
10
X
xi yi n
x y
1 =
i=1
10
X
9734 10 28,6 35,4

= 1,3537
8468 10 28,62
xi2 n
x2
i=1
0 = y 1 x = 35,4 + 1,3537 28,6 = 74,116

La recta de regresi
on es:
y = 74,116 1,3537x
40
25

Ejercicio 4.1
Los datos de la producci
on de trigo en toneladas (X ) y el precio del kilo de
harina en pesetas (Y ) en la decada de los 80 en Espa
na fueron:
Producci
on de trigo
Precio de la harina
30
25
28
30
32
27
25
40
25
42
25
40
22
50
24
45
35
30
Ajusta la recta de regresi

on por el metodo de mnimos cuadrados
Resultados
10
X
xi yi n
x y
1 =
i=1
10
X
9734 10 28,6 35,4

= 1,3537
8468 10 28,62
xi2 n
x2
i=1
0 = y 1 x = 35,4 + 1,3537 28,6 = 74,116

La recta de regresi
on es:
y = 74,116 1,3537x
40
25

Precio en ptas.
50
45
40
35
30
25
22
25
28
31
34
37
40
Produccion en kg.
Regression Analysis - Linear model: Y = a + b*X

----------------------------------------------------------------------------Dependent variable: Precio en ptas.
Independent variable: Produccion en kg.
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
74,1151
8,73577
8,4841
0,0000
Slope
-1,35368
0,3002
-4,50924
0,0020
-----------------------------------------------------------------------------
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
528,475
1
528,475
20,33
0,0020
Residual
207,925
8
25,9906
----------------------------------------------------------------------------Total (Corr.)
736,4
9
Correlation Coefficient = -0,84714
R-squared = 71,7647 percent
Standard Error of Est. = 5,0981
Estimacion de la varianza
Para estimar la varianza de los errores, 2 , podemos utilizar,
n
X
2 =
ei2
i=1
que es el estimador maximo verosmil de 2 , pero es un estimador

sesgado.
Un estimador insesgado de 2 es la varianza residual,
n
X
ei2
sR2 =
i=1
n2
Ejercicio 4.2
Calcula la varianza residual en el ejercicio 4.1.
Resultados
Calculamos primero los residuos, ei , usando la recta de regresi
on,
yi = 74,116 1,3537xi
xi
yi
yi
ei
30
25
33.5
-8.50
28
30
36.21
-6.21
32
27
30.79
-3.79
25
40
40.27
-0.27
25
42
40.27
1.72
25
40
40.27
-0.27
22
50
44.33
5.66
La varianza residual es:

n
X
ei2
sR2 =
i=1
n2
207,92
= 25,99
8
24
45
41.62
3.37
35
30
26.73
3.26
40
25
19.96
5.03
Ejercicio 4.2
Calcula la varianza residual en el ejercicio 4.1.
Resultados
Calculamos primero los residuos, ei , usando la recta de regresi
on,
yi = 74,116 1,3537xi
xi
yi
yi
ei
30
25
33.5
-8.50
28
30
36.21
-6.21
32
27
30.79
-3.79
25
40
40.27
-0.27
25
42
40.27
1.72
25
40
40.27
-0.27
22
50
44.33
5.66
La varianza residual es:

n
X
ei2
sR2 =
i=1
n2
207,92
= 25,99
8
24
45
41.62
3.37
35
30
26.73
3.26
40
25
19.96
5.03

----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
74,1151
8,73577
8,4841
0,0000
Slope
-1,35368
0,3002
-4,50924
0,0020
-----------------------------------------------------------------------------
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
528,475
1
528,475
20,33
0,0020
Residual
207,925
8
25,9906
----------------------------------------------------------------------------Total (Corr.)
736,4
9
s R2
Inferencias sobre el modelo de regresion
Hasta ahora s
olo hemos obtenido estimaciones puntuales de los
coeficientes de regresi
on.
Usando intervalos de confianza podemos obtener una medida de la

precisi
on de dichas estimaciones.
Usando contrastes de hip

otesis podemos comprobar si un
determinado valor puede ser el autentico valor del parametro.
Inferencia para la pendiente

on normal porque es una combinacion
El estimador 1 sigue una distribuci
lineal de normales,
1 =
n
n
X
X
(xi x)
w i yi
yi =
(n 1)sX2
i=1
i=1

donde yi = 0 + 1 xi + ui , que cumple que yi N 0 + 1 xi , 2 .
Ademas, 1 es un estimador insesgado de 1 ,
n
h i X
(xi x)
E 1 =
E [yi ] = 1
(n 1)sX2
i=1
y su varianza es,
2
n
h i X
(xi x)
2
Var [yi ] =
Var 1 =
2
(n 1)sX
(n 1)sX2
i=1
Por tanto,

1 N 1 ,
2
(n 1)sX2
Intervalo de confianza para la pendiente

Queremos ahora obtener el intervalo de confianza para 1 de nivel 1 .
Como 2 es desconocida, la estimamos con sR2 . El resultado basico
cuando la varianza es desconocida es:
1 1
s
sR2
(n 1)sX2
tn2
que nos permite obtener el intervalo de confianza para 1 :

s
sR2
1 tn2,/2
(n 1)sX2
La longitud del intervalo disminuira si:
I
Aumenta el tama
no de la muestra.
Aumenta la varianza de las xi .
Disminuye la varianza residual.
Contrastes sobre la pendiente

Usando el resultado anterior podemos resolver contrastes sobre 1 . En
particular, si el verdadero valor de 1 es cero entonces Y no depende
linealmente de X . Por tanto, es de especial interes el contraste:
H 0 : 1 = 0
H1 : 1 6= 0
La regi
on de rechazo de la hip
otesis nula es:

1

> tn2,/2
p 2
sR /(n 1)sX2
Equivalentemente, si el cero esta fuera del intervalo de confianza para 1
de nivel 1 , rechazamos la hip
otesis nula a ese nivel. El p-valor del
contraste es:

!

1

p-valor = 2 Pr tn2 > p 2

sR /(n 1)sX2

Ejercicio 4.3
1. Calcula un intervalo de confianza al 95 % para la pendiente de la recta de
regresi
on obtenida en el ejercicio 4.1.
2. Contrasta la hip
otesis de que el precio de la harina depende linealmente de
la producci
on de trigo, usando un nivel de significaci
on de 0.05.
Resultados
1. tn2,/2 = t8,0,025 = 2,306
2,306
1,3537 1
q
2,306
25,99
932,04
2,046 1 0,661
2. Como el intervalo no contiene al cero, rechazamos que 1 = 0 al nivel 0.05.
De hecho:

1

1,3537
p
q
=
= 4,509 > 2,306

sR2 / (n 1) sX2
25,99

932,04
p-valor= 2 Pr(t8 > 4,509) = 0,002

Ejercicio 4.3
1. Calcula un intervalo de confianza al 95 % para la pendiente de la recta de
regresi
2. Contrasta la hip
otesis de que el precio de la harina depende linealmente de
la producci
on de trigo, usando un nivel de significaci
on de 0.05.
Resultados
1. tn2,/2 = t8,0,025 = 2,306
2,306
1,3537 1
q
2,306
25,99
932,04
2,046 1 0,661
De hecho:

1

1,3537
p
q
=
= 4,509 > 2,306

sR2 / (n 1) sX2
25,99

932,04
p-valor= 2 Pr(t8 > 4,509) = 0,002

s R2
(n 1) s X2
1
s /( n 1) s X2
2
R

----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
74,1151
8,73577
8,4841
0,0000
Slope
-1,35368
0,3002
-4,50924
0,0020
-----------------------------------------------------------------------------
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
528,475
1
528,475
20,33
0,0020
Residual
207,925
8
25,9906
----------------------------------------------------------------------------Total (Corr.)
736,4
9
Inferencia para el intercepto

El estimador 0 sigue una distribuci
on normal porque es una combinacion
lineal de normales,

n
X
1
xwi yi
0 =
n
i=1
x) /nsX2

2
donde wi = (xi
y i N 0 + 1 x i ,
y donde yi = 0 + 1 xi + ui , que cumple que

. Ademas, 0 es un estimador insesgado de 0 ,

n
h i X
1
E 0 =
xwi E [yi ] = 0
n
i=1
y su varianza es,
2

n
h i X
x2
1
1
2
xwi Var [yi ] =

+
Var 0 =
n
n (n 1)sX2
i=1
y por tanto,

1
x2
2
0 N 0 ,
+
n (n 1)sX2
Intervalo de confianza para el intercepto

Queremos ahora obtener el intervalo de confianza para 0 de nivel 1 .
Como 2 es desconocida, la estimamos con sR . El resultado basico
cuando la varianza es desconocida es:
0 0
s
sR2
x2
1
+
n (n 1)sX2
tn2
que nos permite obtener el intervalo de confianza para 0 :

r

2
0 tn2,/2 s 2 1 + x 2
R
La longitud del intervalo disminuira si:

I
Aumenta el tama
no de la muestra.
Aumenta la varianza de las xi .
Disminuye la varianza residual.
Disminuye la media de las xi .
(n1)sX
Contrastes sobre el intercepto

Usando el resultado anterior podemos resolver contrastes sobre 0 . En
particular, si el verdadero valor de 0 es cero entonces la recta de
regresi
on pasa por el origen. Por tanto, es de especial interes el contraste:
H 0 : 0 = 0
H1 : 0 6= 0
La regi
on de rechazo de la hip
otesis nula es:

0

r
> tn2,/2

s 2 1 + x2

R n
(n1)s 2
X
Equivalentemente, si el cero esta fuera del intervalo de confianza para 0

de nivel 1 , rechazamos la hip
otesis nula a ese nivel. El p-valor es:

r
p-valor = 2 Pr
t
>
n2

s 2 1 + x2

2
R n
(n1)s
X

Ejercicio 4.4
1. Calcula un intervalo de confianza al 95 % para el intercepto de la recta de
regresi
2. Contrasta la hip
otesis de que la recta de regresi
on pasa por el origen,
usando un nivel de significaci
on de 0.05.
Resultados
1. tn2,/2 = t8,0,025 = 2,306
74,1151 0
2,306 r

2,306 53,969 0 94,261
28,62
1
25,99 10
+ 932,04
De hecho:

0

74,1151
r
= r
= 8,484 > 2,306

25,99 1 + 28,62
s 2 1 + x2

R
n
10
932,04
(n1)s 2
X
p-valor= 2 Pr(t8 > 8,483) = 0,000

Ejercicio 4.4
1. Calcula un intervalo de confianza al 95 % para el intercepto de la recta de
regresi
2. Contrasta la hip
otesis de que la recta de regresi
on pasa por el origen,
usando un nivel de significaci
on de 0.05.
Resultados
1. tn2,/2 = t8,0,025 = 2,306
74,1151 0
2,306 r

2,306 53,969 0 94,261
28,62
1
25,99 10
+ 932,04
De hecho:

0

74,1151
r
= r
= 8,484 > 2,306

25,99 1 + 28,62
s 2 1 + x2

R
n
10
932,04
(n1)s 2
X
p-valor= 2 Pr(t8 > 8,483) = 0,000

2
1
x
s +
n (n 1) s X2
2
R
0
2
1
x
s R2 +
n (n 1) s X2

----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
74,1151
8,73577
8,4841
0,0000
Slope
-1,35368
0,3002
-4,50924
0,0020
-----------------------------------------------------------------------------
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
528,475
1
528,475
20,33
0,0020
Residual
207,925
8
25,9906
----------------------------------------------------------------------------Total (Corr.)
736,4
9
Inferencia para la varianza

El resultado basico es que:
(n 2) sR2
2n2
2
Utilizando este resultado podemos:
I
Construir el intervalo de confianza para la varianza:

(n 2) sR2
(n 2) sR2
2 2
2
n2,/2
n2,1/2
Resolver contrastes del tipo:

H0 : 2 = 02
H1 : 2 6= 02
Estimacion de una respuesta promedio y prediccion de una

nueva respuesta
Se distiguen dos tipos de problemas:
1. Estimar el valor medio de la variable Y para cierto valor X = x0 .
2. Predecir el valor que tomara la variable Y para cierto valor X = x0 .
Por ejemplo, en el ejercicio 4.1:
1. Cual sera el precio medio del kg. de harina para los a
nos en que se
producen 30 ton. de trigo?
2. Si un determinado a
no se producen 30 ton. de trigo, cual sera el
precio del kg. de harina?
En ambos casos el valor estimado es:
y0 = 0 + 1 x0
= y + 1 (x0 x)
Pero la precisi
on de las estimaciones es diferente.
Estimacion de una respuesta promedio
Teniendo en cuenta que:

2
Var (
y0 ) = Var (
y ) + (x0 x) Var 1
!
2
(x0 x)
1
2
+
=
n (n 1) sX2
El intervalo de confianza para la respuesta promedio es:
v
!
u
2
u
1
(x
)
0
y0 tn2,/2 tsR2
+
n (n 1) sX2
Prediccion de una nueva respuesta

La varianza de la predicci
on de una nueva respuesta es el error cuadratico
medio de la predicci
on:
i
h
2
y0 )
E (y0 y0 ) = Var (y0 ) + Var (
!
2
1
(x0 x)
2
= 1+ +
n (n 1) sX2
El intervalo de confianza para la predicci
on de una nueva respuesta es:
v
!
u
2
u
1
(x0 x)
2
t
y0 tn2,/2 sR 1 + +
n (n 1) sX2
La longitud de este intervalo es mayor que la del anterior (menos
precisi
on) porque no corresponde a un valor medio sino a uno especfico.
Estimacion de una respuesta promedio y prediccion de una

nueva respuesta
En rojo se muestran los intervalos para las medias estimadas y en rosa los
intervalos de predicci
on. Se observa que la amplitud de estos u
ltimos es
considerablemente mayor.
Precio en ptas.
50
45
40
35
30
25
22
25
28
31
Produccion en kg.
34
37
40

Estadistica - Regresion Lineal

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estadistica - Regresion Lineal

Загружено:

Авторское право:

Доступные форматы

Estadstica II

Tema 4. Regresion lineal simple

Tema 4. Regresion lineal simple

El objeto del analisis de regresi

Estimadores de mnimos cuadrados: construcci

Inferencia sobre la pendiente

Tema 4. Regresion lineal simple

Saber construir un modelo de regresi

Saber obtener estimaciones puntuales de los parametros de dicho

Saber contruir intervalos de confianza y resolver contrastes sobre

Saber estimar el valor promedio de Y para un valor de X

Saber predecir futuros de la variable respuesta, Y

Tema 4. Regresion lineal simple

Meyer, P. Probabilidad y aplicaciones estadsticas(1992)

Newbold, P. Estadstica para los negocios y la economa(1997)

X: Variable independiente o explicativa o ex

Y: Variable dependiente o respuesta o end

El objetivo es obtener estimaciones razonables de Y para distintos valores

Estimar el precio de una vivienda en funci

Predecir la tasa de paro para cada edad.

Prever el tiempo de computaci

Si 1 > 0 hay relaci

Relacin lineal negativa

Los datos tienen un aspecto recto.

Los datos no tienen un aspecto recto.

Medidas de dependencia lineal

Si hay no hay relaci

PERO la covarianza depende de las unidades de medida de las variables.

Medidas de dependencia lineal

cor (x, y ) = cor (y , x)

cor (ax + b, cy + d) = cor (x, y ) para cualesquiera valores a, b, c, d.

El modelo de regresion lineal simple

yi representa el valor de la variable respuesta para la observacion

xi representa el valor de la variable explicativa para la observacion

ui representa el error para la observaci

0 y 1 son los coeficientes de regresi

Los parametros que hay que estimar son: 0 , 1 y .

El modelo de regresion lineal simple

El modelo de regresion lineal simple

Ejemplo (cont.): Indudablemente, una empresa determinada que haya

Hipotesis del modelo de regresion lineal simple

Homogeneidad: El valor promedio del error es cero,

Homocedasticidad: La varianza de los errores es constante,

Independencia: Las observaciones son independientes,

Normalidad: Los errores siguen una distribuci

Hipotesis del modelo de regresion lineal simple

Si no, la recta de regresi

Hipotesis del modelo de regresion lineal simple

Si no se cumple, los datos son heterocedasticos.

Objetivo: Analizar la relacin entre una o varias

Hipotesis del modelo de regresion lineal simple

f (Y1 , Y2 ,..., Yk | X 1 , X 2 ,..., X l )

Los datos deben

Estimadores de mnimos cuadrados

Estimadores de mnimos cuadrados

Ajusta la recta de regresi

9734 10 28,6 35,4

0 = y 1 x = 35,4 + 1,3537 28,6 = 74,116

Estimadores de mnimos cuadrados

Ajusta la recta de regresi

9734 10 28,6 35,4

0 = y 1 x = 35,4 + 1,3537 28,6 = 74,116