Regresion

Grado en Ingeniería
Asignatura: Estadística.
Tema: Regresión.
Grado en Ingeniería. Estadística. Tema 4

Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
Número de transparencia: 2 Grado en Ingeniería. Estadística. Tema 4

Objetivos
 Saber analizar las relaciones entre variables a través de un modelo

de regresión lineal que describa cómo influye una variable X sobre otra
variable Y.
 Saber obtener estimaciones puntuales de los parámetros de dicho
modelo.
 Saber construir intervalos de confianza y resolver contrastes sobre
dichos parámetros.
 Saber estimar el valor promedio de Y para un valor de X.
 Saber predecir futuros valores de la variable respuesta Y.

Relaciones entre variables
La regresión estudia relaciones entre variables.
Qué tipo de relaciones entre variables pueden existir:
-Relaciones deterministas (exactas).
- Relaciones no deterministas (no exactas).

Relaciones deterministas
Diremos que una relación entre dos variables es determinista cuando

al conocer el valor de una de las variables podemos conocer
exactamente el valor de la otra.
Corresponden a una relación matemática exacta, una función.
Y = f(x)

Relaciones no deterministas
La relación entre las dos variables no es exacta. Conocido el valor de

una de las variables, no podemos conocer el valor exacto de la otra.
Sabemos que existe relación entre las variables pero no es exacta.

Regresión
¿Qué hace la regresión?

Crea un modelo lineal para simular la relación entre variables.
La relación no es exacta y el modelo no es exacto, pero es muy útil.

Regresión: residuos
Si la relación no es exacta, siempre cometeremos un cierto error.
e = residuo
La distancia de cada punto (real) a la recta es la parte que el modelo

no puede predecir.
Estimaremos la recta de regresión para que los errores que cometemos
sean mínimos (Estimación por Mínimos Cuadrados), exigiendo que el
error medio sea cero.

¿Cómo se calcula la recta de regresión?

¿Cómo denominamos a las variables?
X Y
Independiente Dependiente
Explicativa Respuesta
A explicar
Es el valor que conocemos Es lo que queremos predecir

Regresión: un ejemplo
Analicemos la relación entre los costes de producción en un proceso
y la cantidad de piezas Plot
producidas .
of log(TOT_COST) vs log(UDS)
5,7
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
Y = coste de producción,
X = piezas producidas.
Calcularemos la recta con Statgraphics

Plot of log(TOT_COST) vs log(UDS)

5,7
log(TOT_COST)
4,7
coste prod = 0,783429 + 0,669509*piezas producidas 3,7

2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)


5,7
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
coste prod = 0,783429 + 0,669509*piezas producidas
Por tanto, una empresa que produzca un millón de unidades tendrá unos
costes de:
coste prod = 0,783429 + 0,669509* 1 = 1,45 millones €.
¿Todas las empresas con ese volumen de producción tienen el mismo coste?

¿Todas las empresas conPlot
ese volumen devsproducción
of log(TOT_COST) log(UDS) tienen el mismo coste??
5,7
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
Hay un rango de variación del coste, de 2,8 a 4,8 milllones de €.
En concreto, para la empresa donde trabajo: coste prod = 1,66 millones.
Pero el modelo dice:
coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones €.
Por tanto, el error que cometemos será 1,66 – 1,46 = 0,2 millones.

Hipótesis del modelo
¿Podemos aplicar el modelo de regresión a todos los tipos de datos?
No, para que las conclusiones de nuestro modelos sean las correctas,
los datos que manejamos deben cumplir:
1. Linealidad.
2. Homocedasticidad.
3. Independencia.
4. Normalidad.

Linealidad
Esta es una hipótesis fundamental. Los datos deben

seguir una tendencia lineal, estar altamente
correlacionados.

Linealidad: ¿qué pasa si los datos no son lineales?
La regresión no representará correctamente la

relación entre los datos.
Si nuestros datos no son lineales, podemos buscar una

transformación matemática (log, sqrt…) que mejore su
linealidad.
Homocedasticidad
Esta hipótesis consiste en asegurar que nuestros datos

tienen varianza constante, es decir la gráfica debe ser
• Cuando la varianza de los datos es constante se dice que

son HOMOCEDÁSTICOS.
• ¿Qué sucede si los datos son no son homocedásticos?

Homocedasticidad: datos heterocedásticos
Cuando la varianza no es constante, se dice que los

datos son HETEROCEDÁSTICOS.
¿ Cóm o afecta esto a la regresión?
Gastos - Ingresos
(X 1,E6)
1
0,8
Gastos
0,6
0,4
0,2
0
0 2 4 6 8
(X 100000)
Ingresos
Los errores en la previsión serían más grandes a medida que
aumenta el valor de las variables!
No se debe aplicar regresión a datos heterocedásticos. Hay

que transformarlos (por ejemplo, LOG).
Comprobación de la linealidad y homocedasticidad
La comprobación de las hipótesis de linealidad y

homocedasticidad podemos realizarla mediante un
análisis grafico (gráficos de dispersión) de nuestros
datos.
5,7
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)
Si los datos cumplen estas hipótesis podemos continuar

nuestro análisis.

Independencia
Exigimos que los datos que estamos analizando sean

independientes unos de otros:
- Si analizamos los costes en función del volumen
de producción para distintas fábricas, asumimos que los
datos de una fabrica no afectan a los de otra.
- NO pueden analizarse con regresión valores de
una secuencia temporal, ya que cada dato depende del
anterior.

Normalidad
La última de las hipótesis del modelo exige que los datos

que analizamos sean Plot ofnormales. ¿Qué
log(TOT_COST) vs log(UDS)significa esto?
5,7
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
Hemos dicho que para cada log(UDS)

valor de X, la Y toma valores
en un cierto rango.
Asumimos que los valores que Y toma para cada valor de X

siguen una distribución normal.
El modelo
Si los datos cumplen las hipótesis que hemos formulado, ya

podemos estimarlo:

El modelo
b0 Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real).
b1 El signo “+” nos indica que las dos variables crecen a la vez
El signo “-” nos indica que, si una variable crece, la otra decrece.
Además, nos dice cómo crece la Y cuando lo hace la X.
DY = b1 DX.
Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las
piezas producidas aumentan en un millón?
D(coste prod) = 0,669509*D (piezas producidas) = 0,67 millones.

Regresión: un problema….
En regresión partimos de una muestra de datos y a partir de ella
estimamos el modelo.Plot of log(TOT_COST) vs log(UDS)
5,7
log(TOT_COST)
4,7
3,7
2,7
1,7
2,1 2,4 2,7 3 3,3 3,6 3,9
log(UDS)

Si variamos la muestra, cambiarán los parámetros del modelo (los
números que hemos calculado).
¿Es posible elegir una muestra que nos de esta gráfica?
2
1.5
0.5
-0.5
-1
-1.5
-2
-2.5
-3 -2 -1 0 1 2 3
Si esto sucede, la pendiente de la recta b1sera cero y se dice que LA

REGRESIÓN NO ES SIGNIFICATIVA.

2
1.5
0.5
-0.5
-1
-1.5
-2
-2.5
-3 -2 -1 0 1 2 3
Queremos estar seguros de que nuestra regresión es válida

independientemente de la muestra considerada.
Queremos estar seguros de que la regresión vale para toda la población
estudiada y no solo para una muestra concreta.
QUEREMOS ASEGURARNOS DE QUE b1 NUNCA VALE CERO.
Análisis de significación
Para analizar si b1 es cero, tenemos tres herramientas:

Intervalos de confianza.
Contrastes de Hipótesis:
Estadístico t.
p-valor.

Intervalos de confianza
Calcularemos un rango donde estará la estimación del verdadero valor

de b1, cualquiera que sea la muestra que tomemos.
Esto lo aseguramos con una cierta probabilidad (generalmente el 95%).
b1 -2xSE(b1) b1 b1 +2xSE(b1)
Si el valor 0 no pertence al intervalo, el parámetro es significativo.

Intervalos de confianza
(b1 -2xSE(b1) ; b1 +2xSE(b1) )

( 0,67-2*0,7; 0,67+2*0,7) = (0,53; 0,81)
El 0 no pertenece al intervalo, el parámetro es significativo.

Contrastes de hipótesis
Una alternativa para asegurar que b1 no es cero es

plantear un contraste según la forma estándar:
H0: b1 =0,
H1: b1 ≠0.
Statgraphics nos da el p-valor de este contraste.
p<0.05
Rechazamos Ho
La regresión es significativa.

Contrastes de hipótesis: Prueba de la t
Aun tenemos una alternativa al p valor para resolver el

contraste:
H0: b1 =0
H1: b1 ≠0
p<0.05
Rechazamos Ho
La regresion es significativa

Contrastes de hipótesis: Prueba de la t
Aún tenemos una alternativa al p-valor para resolver el

contraste:
H0: b1 =0,
H1: b1 ≠0.
|t|>2 rechazamos Ho,

|t|<2 aceptamos Ho.
|t|>2
Rechazamos Ho
La regresión es significativa.
¿Es bueno mi modelo? ¿Cuánto? -> R2
El coeficiente R2 indica cuánto de Y es explicado por X
Ejemplo:
R2=71.76%
R2 = coeficiente de correlación muestral al cuadrado.
Resumen
Estudiamos los datos y vemos si cumplen las hipótesis.

Si no las cumplen, transformamos.
Ajustamos el modelo.
Intervalos y contrastes para ver si X es significativa (INFLUYE) sobre Y.

Diagnosis
Las decisiones que podemos tomar gracias a la información aportada

por un modelo de regresión son importantes.
Necesitamos estar seguros de que nuestras conclusiones son correctas.
Para ello:
Contrastes, intervalos de confianza….
Diagnosis: comprobar una vez más que se cumplen las hipótesis del modelo.
En la diagnosis del modelo, comprobamos que la parte aleatoria del

modelo (sus residuos) no contiene información adicional ni refleja
lagunas en el cumplimiento de las hipótesis del modelo (linealidad,
homocedasticidad, independencia y normalidad)

Diagnosis
La diagnosis se realiza observando los gráficos de los residuos: debemos

ver gráficos como este:

Diagnosis
No podemos aceptar residuos con otros comportamientos:
3000 1000
2500
500
2000
0
1500
-500
1000
-1000
500
0 -1500
0 20 40 60 80 100 500 1000 1500 2000 2500 3000

Regresión
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.

Regresión múltiple
En un modelo de regresión múltiple, queremos conocer el valor de una

variable respuesta a partir de más de una variable explicativa:
En esta expresión, cada uno de los coeficientes beta representa la

influencia individual que cada una de las X tiene sobre Y.
Ventajas:
Las hipótesis del modelo son las mismas que en regresión simple.
Los contrastes, intervalos, diagnosis… también.
Pequeños inconvenientes:
La visualización de los gráficos es un poco más complicada.
Necesitamos redefinir el coeficiente R2.

Regresion multiple: Graficos
Cada celda del gráfico matricial representa la relación bilateral entre dos
variables:
TOT_COST
UDS
MANPOWER
ENERGY
INVEST
MAINT
MAT
ENV
Regresión múltiple: R2 corregido
El coeficiente R2 tiene el inconveniente de que se incrementa al
aumentar el número de variables en el modelo (ya sean significativas o
no). Para paliar este efecto, corregimos el coeficiente para que tenga en
cuenta este efecto, por lo que en regresión múltiple se utiliza el
coeficiente R2 corregido ( o ajustado).
Dependent variable: log(TOT_COST)
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -1,82352 0,313487 -5,81689 0,0000
log(UDS) 0,666417 0,116524 5,71913 0,0000
log(MANPOWER) 0,157212 0,0551564 2,85029 0,0052
log(ENERGY) 0,174001 0,0489637 3,55367 0,0005
log(INVEST) 0,216335 0,0365883 5,91267 0,0000
log(MAINT) -0,0199751 0,0594171 -0,336185 0,7373
log(MAT) 0,139431 0,0221418 6,2972 0,0000
log(ENV) 0,0027926 0,0178724 0,156252 0,8761
-----------------------------------------------------------------------------
Adjusted R2 = 81.73%
Regresión
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.

Ejemplo
(X 1000)
3
Número de accidentes en
2,5 provincias españolas
nacciden
2
1,5 en función del número de
1
0,5
vehículos matriculados.
0
0 4 8 12 16 20 24
(X 1000)
matricul
-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
-----------------------------------------------------------------------------
CONSTANT 278,24 102,518 2,71406 0,0265
matricul 0,0993373 0,00850344 11,682 0,0000
-----------------------------------------------------------------------------
R-squared (adjusted for d.f.) = 93,7703 percent

Ejemplo
Número de accidentes en
(X 1000)
provincias españolas 3
en función del número de 2,5
nacciden
2
permisos de conducir 1,5
1
0,5
0
0 4 8 12 16 20 24
(X 1000)
permisos
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Standard T
-----------------------------------------------------------------------------
CONSTANT 216,481 127,099 1,70325 0,1269
permisos 0,107617 0,0109657 9,81395 0,0000
-----------------------------------------------------------------------------

Regresiones
Accid=278.2 +0.1 Matriculas

(11.68)
Accid=216.4 +0.1 Permisos

(9.81)

Regresión con las dos variables
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Standard T
-----------------------------------------------------------------------------
CONSTANT 250,63 113,216 2,21373 0,0625
matricul 0,0725492 0,0395634 1,83374 0,1093
permisos 0,0301069 0,043353 0,694461 0,5098
-----------------------------------------------------------------------------

Regresiones
Accid=278.2 +0.1 Matriculas

(11.68)
Accid=216.4 +0.1 Permisos

(9.81)
Accid=250+0.07 Matriculas +0.03 Permisos

(1.8) (0.69)

¿Qué está pasando?
(X 1000)
24
20
matricul
16
12
Correlación=.975
8
4
0
0 4 8 12 16 20 24
(X 1000)
permisos

Regresión: un problema
A veces las variables independientes son muy parecidas:

contienen la misma información.
Variables
Independientes Variable
Dependiente

Regresión: un problema
El modelo no puede diferenciar entre las variables.
Variables
Independientes Variable
Dependiente

En nuestro ejemplo
Matrículas
Permisos Num Accid
Ambas son muy parecidas para

distinguir entre ellas.
En nuestro ejemplo
Solución: eliminar una variable.

Perdemos muy poca información.
Matrículas
Permisos Num Accid

En nuestro ejemplo
Solución: eliminar una variable.

Perdemos muy poca información.
Matrículas
Num Accid

El problema de multicolinealidad aparece en casi todos
los trabajos estadísticos.
Tendemos a medir una cosa de muchas formas.
Se detecta:
En regresión simple, las variables son significativas.
Al introducir nuevas variables, dejan de ser
significativas.

Regresión
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.

Estudiamos Pesos - Alturas
¿Es igual la relación para hombres que para mujeres?
Peso
Altura

¿Es igual la relación para hombres que para mujeres?
Peso Peso
Altura Altura

Si la relación no es igual, podemos cometer errores graves:
Peso Peso
Altura Altura

Ejemplos
Variable Y Variable X Grupo que puede influir
Peso Altura Sexo: Hombre o Mujer
Consumo de un Ingresos del Status laboral: Paro o

trabajador trabajador Empleado
Consumo de un Potencia Motor: Diésel o
automóvil Gasolina
Margen Ordinario Comisiones Sucursal: Urbana o
de una sucursal Rural
bancaria

Es necesario introducir el grupo:
Para ello:
• definiremos una variable Z que tome los siguientes valores:
Zi =0 si una observación pertenece al grupo A
Zi=1 si una observación pertenece al grupo B
• y estimaremos el siguiente modelo de regresión:
yˆ = bˆ0  bˆ1 X  bˆ2 Z

El modelo que se estima:
yˆ = bˆ0  bˆ1 X  bˆ2 Z
•Mujeres: Les asignamos Z=0. Por tanto:
yˆ = bˆ0  bˆ1 X
•Hombres: Les asignamos Z=1. Por tanto:
yˆ = ( bˆ0  bˆ2 )  bˆ1 X

Por tanto:
Peso yˆ = ( bˆ0  bˆ2 )  bˆ1 X
bˆ2
yˆ = bˆ0  bˆ1 X
Altura
El efecto es que un hombre de la misma altura pesa b2 kilos

más que una mujer de su misma altura.
¿O no?
Hagámoslo:
Dependent variable: peso
-----------------------------------------------------------------------------
Standard T
-----------------------------------------------------------------------------
CONSTANT -77,7888 16,0908 -4,83438 0,0000
altura 0,842013 0,0905752 9,29628 0,0000
sexo -5,17748 2,20877 -2,34405 0,0208
-----------------------------------------------------------------------------
R-squared = 60,8791 percent
Sexo=0 Hombres
Sexo=1 Mujeres
Por tanto: un hombre que mida 180 pesará= -78+0.84x180=73 kilos
..... y una mujer de la misma altura pesará=-78+0.84x180-5.17=68 kilos
La diferencia existe porque t=-2.34 que es mayor que 2 en valor absoluto

Resultado
5 Kilos
Peso Hombres
Mujeres
Altura

Interacciones
Hemos supuesto que las rectas son paralelas.

¿Y si no lo son?
Y B

Modelización de las interacciones
La modelización de la interacción es sencilla. Hay que

estimar un modelo de regresión entre:
· la variable Y,
· la variable X,
· la variable Z,
· la interacción de X y Z que se modeliza por el
producto (XZ).
yˆ = b 0  b 1 X  b 2 Z  b 3 XZ
ˆ ˆ ˆ ˆ
Para el grupo con Z=0 yˆ = bˆ 0  bˆ1 X

Para el grupo con Z=1 yˆ = bˆ 0  bˆ1 X  bˆ 2  bˆ3 X = ( bˆ 0  bˆ 2 )  ( bˆ1  bˆ3 ) X
Por tanto, analizar si existe interacción se reduce a estimar un modelo de regresión y
analizar si el parámetro es significativo (estadístico t mayor de 2) en la estimación realizada.
Ejemplo:Ventas de empresas del sector servicios en Madrid
en función de su inversión en I+D
Plot of ventas vs id
240
200
160
ventas
120
80
40
0
0 0.5 1 1.5 2 2.5 3
(X 1000)
id
Plot of log(ventas) vs log(id)

5.7
5.2
log(ventas)
4.7
4.2
3.7
3.2
2.7
3.1 4.1 5.1 6.1 7.1 8.1
log(id)
LOG(VENTAS) = 1.762  0.393 Log(ID)

(t) (7.88) (10.34) R2 = 45.7 %

Ejemplo:Ventas de empresas del sector servicios en Madrid
en función de su inversión en I+D
Queremos estudiar si hay diferencias por estar en el sector telecomunicaciones
TELECO=1 Si está en el sector teleco

TELECO=0 si no está en ese sector
LOG(VENTAS) =2.25+ 0.288 Log(ID)+0.527 TELECO

(t) (11.12) (8.08) (7.03) R 2 = 61.05%
•Si la empresa funciona en el sector teleco:

Log(VENTAS)= 2.78 + 0.288 log(ID)
•Si funciona en otro sector:
Log(VENTAS) = 2.25 + 0.288 log(ID)
Estimamos la interacción:
Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)
(t) (8.84) (8.40) (3.40) (-2.43) R2= 62.8%
•Si no está en el sector teleco
•Si está en el sector teleco

Regresion

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Regresion

Загружено:

Авторское право:

Доступные форматы

Grado en Ingeniería

Grado en Ingeniería. Estadística. Tema 4

Número de transparencia: 2 Grado en Ingeniería. Estadística. Tema 4

 Saber analizar las relaciones entre variables a través de un modelo

Número de transparencia: 3 Grado en Ingeniería. Estadística. Tema 4

La regresión estudia relaciones entre variables.

Qué tipo de relaciones entre variables pueden existir:

-Relaciones deterministas (exactas).

- Relaciones no deterministas (no exactas).

Número de transparencia: 4 Grado en Ingeniería. Estadística. Tema 4

Diremos que una relación entre dos variables es determinista cuando

Corresponden a una relación matemática exacta, una función.

Número de transparencia: 5 Grado en Ingeniería. Estadística. Tema 4

La relación entre las dos variables no es exacta. Conocido el valor de

Sabemos que existe relación entre las variables pero no es exacta.

Número de transparencia: 6 Grado en Ingeniería. Estadística. Tema 4

¿Qué hace la regresión?

La relación no es exacta y el modelo no es exacto, pero es muy útil.

Número de transparencia: 7 Grado en Ingeniería. Estadística. Tema 4

Si la relación no es exacta, siempre cometeremos un cierto error.

La distancia de cada punto (real) a la recta es la parte que el modelo

Número de transparencia: 8 Grado en Ingeniería. Estadística. Tema 4

Número de transparencia: 9 Grado en Ingeniería. Estadística. Tema 4

Es el valor que conocemos Es lo que queremos predecir

Número de transparencia: 10 Grado en Ingeniería. Estadística. Tema 4

Número de transparencia: 11 Grado en Ingeniería. Estadística. Tema 4

Plot of log(TOT_COST) vs log(UDS)

coste prod = 0,783429 + 0,669509*piezas producidas 3,7

Número de transparencia: 12 Grado en Ingeniería. Estadística. Tema 4

Plot of log(TOT_COST) vs log(UDS)

coste prod = 0,783429 + 0,669509* 1 = 1,45 millones €.

Número de transparencia: 13 Grado en Ingeniería. Estadística. Tema 4

En concreto, para la empresa donde trabajo: coste prod = 1,66 millones.

Pero el modelo dice:

coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones €.

Número de transparencia: 14 Grado en Ingeniería. Estadística. Tema 4

¿Podemos aplicar el modelo de regresión a todos los tipos de datos?

Número de transparencia: 15 Grado en Ingeniería. Estadística. Tema 4

Esta es una hipótesis fundamental. Los datos deben

Número de transparencia: 16 Grado en Ingeniería. Estadística. Tema 4

La regresión no representará correctamente la

Si nuestros datos no son lineales, podemos buscar una

Esta hipótesis consiste en asegurar que nuestros datos

• Cuando la varianza de los datos es constante se dice que

• ¿Qué sucede si los datos son no son homocedásticos?

Número de transparencia: 18 Grado en Ingeniería. Estadística. Tema 4

Cuando la varianza no es constante, se dice que los

No se debe aplicar regresión a datos heterocedásticos. Hay

La comprobación de las hipótesis de linealidad y

Si los datos cumplen estas hipótesis podemos continuar

Número de transparencia: 20 Grado en Ingeniería. Estadística. Tema 4

Exigimos que los datos que estamos analizando sean

Número de transparencia: 21 Grado en Ingeniería. Estadística. Tema 4

La última de las hipótesis del modelo exige que los datos

Hemos dicho que para cada log(UDS)

Asumimos que los valores que Y toma para cada valor de X

Si los datos cumplen las hipótesis que hemos formulado, ya

coste prod = 0,783429 + 0,669509*piezas producidas

Número de transparencia: 23 Grado en Ingeniería. Estadística. Tema 4

b0 Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real).

D(coste prod) = 0,669509*D (piezas producidas) = 0,67 millones.

coste prod = 0,783429 + 0,669509*piezas producidas

Si esto sucede, la pendiente de la recta b1sera cero y se dice que LA