Академический Документы
Профессиональный Документы
Культура Документы
Asignatura: Estadística.
Tema: Regresión.
Y = f(x)
e = residuo
X Y
Independiente Dependiente
Explicativa Respuesta
A explicar
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
Y = coste de producción,
X = piezas producidas.
Calcularemos la recta con Statgraphics
log(TOT_COST)
4,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
coste prod = 0,783429 + 0,669509*piezas producidas
Por tanto, una empresa que produzca un millón de unidades tendrá unos
costes de:
¿Todas las empresas con ese volumen de producción tienen el mismo coste?
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
Hay un rango de variación del coste, de 2,8 a 4,8 milllones de €.
Por tanto, el error que cometemos será 1,66 – 1,46 = 0,2 millones.
No, para que las conclusiones de nuestro modelos sean las correctas,
los datos que manejamos deben cumplir:
1. Linealidad.
2. Homocedasticidad.
3. Independencia.
4. Normalidad.
0,8
Gastos
0,6
0,4
0,2
0
0 2 4 6 8
(X 100000)
Ingresos
Los errores en la previsión serían más grandes a medida que
aumenta el valor de las variables!
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
b1 El signo “+” nos indica que las dos variables crecen a la vez
El signo “-” nos indica que, si una variable crece, la otra decrece.
Además, nos dice cómo crece la Y cuando lo hace la X.
DY = b1 DX.
Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las
piezas producidas aumentan en un millón?
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
1.5
0.5
-0.5
-1
-1.5
-2
-2.5
-3 -2 -1 0 1 2 3
1.5
0.5
-0.5
-1
-1.5
-2
-2.5
-3 -2 -1 0 1 2 3
Contrastes de Hipótesis:
Estadístico t.
p-valor.
b1 -2xSE(b1) b1 b1 +2xSE(b1)
p<0.05
Rechazamos Ho
La regresión es significativa.
p<0.05
Rechazamos Ho
La regresion es significativa
|t|>2
Rechazamos Ho
La regresión es significativa.
Número de transparencia: 33 Grado en Ingeniería. Estadística. Tema 4
¿Es bueno mi modelo? ¿Cuánto? -> R2
El coeficiente R2 indica cuánto de Y es explicado por X
Ejemplo:
R2=71.76%
R2 = coeficiente de correlación muestral al cuadrado.
Número de transparencia: 34 Grado en Ingeniería. Estadística. Tema 4
Resumen
3000 1000
2500
500
2000
0
1500
-500
1000
-1000
500
0 -1500
0 20 40 60 80 100 500 1000 1500 2000 2500 3000
(X 1000)
3
Número de accidentes en
2,5 provincias españolas
nacciden
2
1,5 en función del número de
1
0,5
vehículos matriculados.
0
0 4 8 12 16 20 24
(X 1000)
matricul
-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 278,24 102,518 2,71406 0,0265
matricul 0,0993373 0,00850344 11,682 0,0000
-----------------------------------------------------------------------------
R-squared (adjusted for d.f.) = 93,7703 percent
Número de accidentes en
(X 1000)
provincias españolas 3
nacciden
2
permisos de conducir 1,5
1
0,5
0
0 4 8 12 16 20 24
(X 1000)
permisos
-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 216,481 127,099 1,70325 0,1269
permisos 0,107617 0,0109657 9,81395 0,0000
-----------------------------------------------------------------------------
R-squared (adjusted for d.f.) = 91,3722 percent
-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 250,63 113,216 2,21373 0,0625
matricul 0,0725492 0,0395634 1,83374 0,1093
permisos 0,0301069 0,043353 0,694461 0,5098
-----------------------------------------------------------------------------
(X 1000)
24
20
matricul
16
12
Correlación=.975
8
4
0
0 4 8 12 16 20 24
(X 1000)
permisos
Variables
Independientes Variable
Dependiente
Variables
Independientes Variable
Dependiente
Matrículas
Permisos Num Accid
Matrículas
Permisos Num Accid
Matrículas
Num Accid
Peso
Altura
Peso Peso
Altura Altura
Peso Peso
Altura Altura
Para ello:
• definiremos una variable Z que tome los siguientes valores:
yˆ = bˆ0 bˆ1 X
•Hombres: Les asignamos Z=1. Por tanto:
bˆ2
yˆ = bˆ0 bˆ1 X
Altura
¿O no?
Número de transparencia: 63 Grado en Ingeniería. Estadística. Tema 4
Hagámoslo:
Dependent variable: peso
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -77,7888 16,0908 -4,83438 0,0000
altura 0,842013 0,0905752 9,29628 0,0000
sexo -5,17748 2,20877 -2,34405 0,0208
-----------------------------------------------------------------------------
R-squared = 60,8791 percent
R-squared (adjusted for d.f.) = 60,1927 percent
Sexo=0 Hombres
Sexo=1 Mujeres
Por tanto: un hombre que mida 180 pesará= -78+0.84x180=73 kilos
5 Kilos
Peso Hombres
Mujeres
Altura
Y B
· la variable Y,
· la variable X,
· la variable Z,
· la interacción de X y Z que se modeliza por el
producto (XZ).
yˆ = b 0 b 1 X b 2 Z b 3 XZ
ˆ ˆ ˆ ˆ
Plot of ventas vs id
240
200
160
ventas
120
80
40
0
0 0.5 1 1.5 2 2.5 3
(X 1000)
id
5.2
log(ventas)
4.7
4.2
3.7
3.2
2.7
3.1 4.1 5.1 6.1 7.1 8.1
log(id)
Estimamos la interacción:
Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)
(t) (8.84) (8.40) (3.40) (-2.43) R2= 62.8%
•Si no está en el sector teleco
Log(VENTAS) = 1.99 + 0.334 log(ID)
•Si está en el sector teleco
Log(VENTAS) = 3.8 + 0.13 log(ID)