Вы находитесь на странице: 1из 69

Grado en Ingeniería

Asignatura: Estadística.

Tema: Regresión.

Grado en Ingeniería. Estadística. Tema 4


Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).

Número de transparencia: 2 Grado en Ingeniería. Estadística. Tema 4


Objetivos

 Saber analizar las relaciones entre variables a través de un modelo


de regresión lineal que describa cómo influye una variable X sobre otra
variable Y.
 Saber obtener estimaciones puntuales de los parámetros de dicho
modelo.
 Saber construir intervalos de confianza y resolver contrastes sobre
dichos parámetros.
 Saber estimar el valor promedio de Y para un valor de X.
 Saber predecir futuros valores de la variable respuesta Y.

Número de transparencia: 3 Grado en Ingeniería. Estadística. Tema 4


Relaciones entre variables

La regresión estudia relaciones entre variables.

Qué tipo de relaciones entre variables pueden existir:

-Relaciones deterministas (exactas).

- Relaciones no deterministas (no exactas).

Número de transparencia: 4 Grado en Ingeniería. Estadística. Tema 4


Relaciones deterministas

Diremos que una relación entre dos variables es determinista cuando


al conocer el valor de una de las variables podemos conocer
exactamente el valor de la otra.

Corresponden a una relación matemática exacta, una función.

Y = f(x)

Número de transparencia: 5 Grado en Ingeniería. Estadística. Tema 4


Relaciones no deterministas

La relación entre las dos variables no es exacta. Conocido el valor de


una de las variables, no podemos conocer el valor exacto de la otra.

Sabemos que existe relación entre las variables pero no es exacta.

Número de transparencia: 6 Grado en Ingeniería. Estadística. Tema 4


Regresión

¿Qué hace la regresión?


Crea un modelo lineal para simular la relación entre variables.

La relación no es exacta y el modelo no es exacto, pero es muy útil.

Número de transparencia: 7 Grado en Ingeniería. Estadística. Tema 4


Regresión: residuos

Si la relación no es exacta, siempre cometeremos un cierto error.

e = residuo

La distancia de cada punto (real) a la recta es la parte que el modelo


no puede predecir.
Estimaremos la recta de regresión para que los errores que cometemos
sean mínimos (Estimación por Mínimos Cuadrados), exigiendo que el
error medio sea cero.

Número de transparencia: 8 Grado en Ingeniería. Estadística. Tema 4


¿Cómo se calcula la recta de regresión?

Número de transparencia: 9 Grado en Ingeniería. Estadística. Tema 4


¿Cómo denominamos a las variables?

X Y
Independiente Dependiente
Explicativa Respuesta
A explicar

Es el valor que conocemos Es lo que queremos predecir

Número de transparencia: 10 Grado en Ingeniería. Estadística. Tema 4


Regresión: un ejemplo
Analicemos la relación entre los costes de producción en un proceso
y la cantidad de piezas Plot
producidas .
of log(TOT_COST) vs log(UDS)
5,7

log(TOT_COST)
4,7

3,7

2,7

1,7
2,1 2,4 2,7 3 3,3 3,6 3,9

log(UDS)

Y = coste de producción,
X = piezas producidas.
Calcularemos la recta con Statgraphics

Número de transparencia: 11 Grado en Ingeniería. Estadística. Tema 4


Regresión: un ejemplo

Plot of log(TOT_COST) vs log(UDS)


5,7

log(TOT_COST)
4,7

coste prod = 0,783429 + 0,669509*piezas producidas 3,7


2,7

1,7
2,1 2,4 2,7 3 3,3 3,6 3,9

log(UDS)

Número de transparencia: 12 Grado en Ingeniería. Estadística. Tema 4


Regresión: un ejemplo

Plot of log(TOT_COST) vs log(UDS)


5,7

log(TOT_COST)
4,7

3,7

2,7

1,7
2,1 2,4 2,7 3 3,3 3,6 3,9

log(UDS)
coste prod = 0,783429 + 0,669509*piezas producidas

Por tanto, una empresa que produzca un millón de unidades tendrá unos
costes de:

coste prod = 0,783429 + 0,669509* 1 = 1,45 millones €.

¿Todas las empresas con ese volumen de producción tienen el mismo coste?

Número de transparencia: 13 Grado en Ingeniería. Estadística. Tema 4


Regresión: un ejemplo
¿Todas las empresas conPlot
ese volumen devsproducción
of log(TOT_COST) log(UDS) tienen el mismo coste??
5,7

log(TOT_COST)
4,7

3,7

2,7

1,7
2,1 2,4 2,7 3 3,3 3,6 3,9

log(UDS)
Hay un rango de variación del coste, de 2,8 a 4,8 milllones de €.

En concreto, para la empresa donde trabajo: coste prod = 1,66 millones.

Pero el modelo dice:

coste prod = 0,783429 + 0,669509* 1 = 1, 46 millones €.

Por tanto, el error que cometemos será 1,66 – 1,46 = 0,2 millones.

Número de transparencia: 14 Grado en Ingeniería. Estadística. Tema 4


Hipótesis del modelo

¿Podemos aplicar el modelo de regresión a todos los tipos de datos?

No, para que las conclusiones de nuestro modelos sean las correctas,
los datos que manejamos deben cumplir:

1. Linealidad.
2. Homocedasticidad.
3. Independencia.
4. Normalidad.

Número de transparencia: 15 Grado en Ingeniería. Estadística. Tema 4


Linealidad

Esta es una hipótesis fundamental. Los datos deben


seguir una tendencia lineal, estar altamente
correlacionados.

Número de transparencia: 16 Grado en Ingeniería. Estadística. Tema 4


Linealidad: ¿qué pasa si los datos no son lineales?

La regresión no representará correctamente la


relación entre los datos.

Si nuestros datos no son lineales, podemos buscar una


transformación matemática (log, sqrt…) que mejore su
linealidad.
Número de transparencia: 17 Grado en Ingeniería. Estadística. Tema 4
Homocedasticidad

Esta hipótesis consiste en asegurar que nuestros datos


tienen varianza constante, es decir la gráfica debe ser

• Cuando la varianza de los datos es constante se dice que


son HOMOCEDÁSTICOS.

• ¿Qué sucede si los datos son no son homocedásticos?

Número de transparencia: 18 Grado en Ingeniería. Estadística. Tema 4


Homocedasticidad: datos heterocedásticos

Cuando la varianza no es constante, se dice que los


datos son HETEROCEDÁSTICOS.
¿ Cóm o afecta esto a la regresión?
Gastos - Ingresos
(X 1,E6)
1

0,8
Gastos

0,6

0,4

0,2

0
0 2 4 6 8
(X 100000)
Ingresos
Los errores en la previsión serían más grandes a medida que
aumenta el valor de las variables!

No se debe aplicar regresión a datos heterocedásticos. Hay


que transformarlos (por ejemplo, LOG).
Número de transparencia: 19 Grado en Ingeniería. Estadística. Tema 4
Comprobación de la linealidad y homocedasticidad

La comprobación de las hipótesis de linealidad y


homocedasticidad podemos realizarla mediante un
análisis grafico (gráficos de dispersión) de nuestros
datos.
Plot of log(TOT_COST) vs log(UDS)
5,7

log(TOT_COST)
4,7

3,7

2,7

1,7
2,1 2,4 2,7 3 3,3 3,6 3,9

log(UDS)

Si los datos cumplen estas hipótesis podemos continuar


nuestro análisis.

Número de transparencia: 20 Grado en Ingeniería. Estadística. Tema 4


Independencia

Exigimos que los datos que estamos analizando sean


independientes unos de otros:
- Si analizamos los costes en función del volumen
de producción para distintas fábricas, asumimos que los
datos de una fabrica no afectan a los de otra.
- NO pueden analizarse con regresión valores de
una secuencia temporal, ya que cada dato depende del
anterior.

Número de transparencia: 21 Grado en Ingeniería. Estadística. Tema 4


Normalidad

La última de las hipótesis del modelo exige que los datos


que analizamos sean Plot ofnormales. ¿Qué
log(TOT_COST) vs log(UDS)significa esto?
5,7

log(TOT_COST)
4,7

3,7

2,7

1,7
2,1 2,4 2,7 3 3,3 3,6 3,9

Hemos dicho que para cada log(UDS)


valor de X, la Y toma valores
en un cierto rango.

Asumimos que los valores que Y toma para cada valor de X


siguen una distribución normal.
Número de transparencia: 22 Grado en Ingeniería. Estadística. Tema 4
El modelo

Si los datos cumplen las hipótesis que hemos formulado, ya


podemos estimarlo:

coste prod = 0,783429 + 0,669509*piezas producidas

Número de transparencia: 23 Grado en Ingeniería. Estadística. Tema 4


El modelo
coste prod = 0,783429 + 0,669509*piezas producidas

b0 Es el valor de Y cuando la X vale 0 (no siempre tiene sentido real).

b1 El signo “+” nos indica que las dos variables crecen a la vez
El signo “-” nos indica que, si una variable crece, la otra decrece.
Además, nos dice cómo crece la Y cuando lo hace la X.

DY = b1 DX.
Por tanto, en nuestro ejemplo, ¿cuanto aumentará el coste si las
piezas producidas aumentan en un millón?

D(coste prod) = 0,669509*D (piezas producidas) = 0,67 millones.


Número de transparencia: 24 Grado en Ingeniería. Estadística. Tema 4
Regresión: un problema….
En regresión partimos de una muestra de datos y a partir de ella
estimamos el modelo.Plot of log(TOT_COST) vs log(UDS)
5,7

log(TOT_COST)
4,7

3,7

2,7

1,7
2,1 2,4 2,7 3 3,3 3,6 3,9

log(UDS)

coste prod = 0,783429 + 0,669509*piezas producidas


Número de transparencia: 25 Grado en Ingeniería. Estadística. Tema 4
Regresión: un problema….
Si variamos la muestra, cambiarán los parámetros del modelo (los
números que hemos calculado).
¿Es posible elegir una muestra que nos de esta gráfica?
2

1.5

0.5

-0.5

-1

-1.5

-2

-2.5
-3 -2 -1 0 1 2 3

Si esto sucede, la pendiente de la recta b1sera cero y se dice que LA


REGRESIÓN NO ES SIGNIFICATIVA.

Número de transparencia: 26 Grado en Ingeniería. Estadística. Tema 4


Regresión: un problema….
2

1.5

0.5

-0.5

-1

-1.5

-2

-2.5
-3 -2 -1 0 1 2 3

Queremos estar seguros de que nuestra regresión es válida


independientemente de la muestra considerada.
Queremos estar seguros de que la regresión vale para toda la población
estudiada y no solo para una muestra concreta.
QUEREMOS ASEGURARNOS DE QUE b1 NUNCA VALE CERO.
Número de transparencia: 27 Grado en Ingeniería. Estadística. Tema 4
Análisis de significación

Para analizar si b1 es cero, tenemos tres herramientas:


Intervalos de confianza.

Contrastes de Hipótesis:

Estadístico t.

p-valor.

Número de transparencia: 28 Grado en Ingeniería. Estadística. Tema 4


Intervalos de confianza

Calcularemos un rango donde estará la estimación del verdadero valor


de b1, cualquiera que sea la muestra que tomemos.
Esto lo aseguramos con una cierta probabilidad (generalmente el 95%).

b1 -2xSE(b1) b1 b1 +2xSE(b1)

Si el valor 0 no pertence al intervalo, el parámetro es significativo.

Número de transparencia: 29 Grado en Ingeniería. Estadística. Tema 4


Intervalos de confianza

coste prod = 0,783429 + 0,669509*piezas producidas

(b1 -2xSE(b1) ; b1 +2xSE(b1) )


( 0,67-2*0,7; 0,67+2*0,7) = (0,53; 0,81)

El 0 no pertenece al intervalo, el parámetro es significativo.

Número de transparencia: 30 Grado en Ingeniería. Estadística. Tema 4


Contrastes de hipótesis

Una alternativa para asegurar que b1 no es cero es


plantear un contraste según la forma estándar:
H0: b1 =0,
H1: b1 ≠0.
Statgraphics nos da el p-valor de este contraste.

p<0.05
Rechazamos Ho
La regresión es significativa.

Número de transparencia: 31 Grado en Ingeniería. Estadística. Tema 4


Contrastes de hipótesis: Prueba de la t

Aun tenemos una alternativa al p valor para resolver el


contraste:
H0: b1 =0
H1: b1 ≠0

p<0.05
Rechazamos Ho
La regresion es significativa

Número de transparencia: 32 Grado en Ingeniería. Estadística. Tema 4


Contrastes de hipótesis: Prueba de la t

Aún tenemos una alternativa al p-valor para resolver el


contraste:
H0: b1 =0,
H1: b1 ≠0.

|t|>2 rechazamos Ho,


|t|<2 aceptamos Ho.

|t|>2
Rechazamos Ho
La regresión es significativa.
Número de transparencia: 33 Grado en Ingeniería. Estadística. Tema 4
¿Es bueno mi modelo? ¿Cuánto? -> R2
El coeficiente R2 indica cuánto de Y es explicado por X

Ejemplo:
R2=71.76%
R2 = coeficiente de correlación muestral al cuadrado.
Número de transparencia: 34 Grado en Ingeniería. Estadística. Tema 4
Resumen

Estudiamos los datos y vemos si cumplen las hipótesis.


Si no las cumplen, transformamos.
Ajustamos el modelo.
Intervalos y contrastes para ver si X es significativa (INFLUYE) sobre Y.

Número de transparencia: 35 Grado en Ingeniería. Estadística. Tema 4


Diagnosis

Las decisiones que podemos tomar gracias a la información aportada


por un modelo de regresión son importantes.
Necesitamos estar seguros de que nuestras conclusiones son correctas.
Para ello:
Contrastes, intervalos de confianza….
Diagnosis: comprobar una vez más que se cumplen las hipótesis del modelo.

En la diagnosis del modelo, comprobamos que la parte aleatoria del


modelo (sus residuos) no contiene información adicional ni refleja
lagunas en el cumplimiento de las hipótesis del modelo (linealidad,
homocedasticidad, independencia y normalidad)

Número de transparencia: 36 Grado en Ingeniería. Estadística. Tema 4


Diagnosis

La diagnosis se realiza observando los gráficos de los residuos: debemos


ver gráficos como este:

Número de transparencia: 37 Grado en Ingeniería. Estadística. Tema 4


Diagnosis

No podemos aceptar residuos con otros comportamientos:

3000 1000

2500
500

2000
0
1500
-500
1000

-1000
500

0 -1500
0 20 40 60 80 100 500 1000 1500 2000 2500 3000

Número de transparencia: 38 Grado en Ingeniería. Estadística. Tema 4


Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).

Número de transparencia: 39 Grado en Ingeniería. Estadística. Tema 4


Regresión múltiple

En un modelo de regresión múltiple, queremos conocer el valor de una


variable respuesta a partir de más de una variable explicativa:

En esta expresión, cada uno de los coeficientes beta representa la


influencia individual que cada una de las X tiene sobre Y.
Ventajas:
Las hipótesis del modelo son las mismas que en regresión simple.
Los contrastes, intervalos, diagnosis… también.
Pequeños inconvenientes:
La visualización de los gráficos es un poco más complicada.
Necesitamos redefinir el coeficiente R2.

Número de transparencia: 40 Grado en Ingeniería. Estadística. Tema 4


Regresion multiple: Graficos
Cada celda del gráfico matricial representa la relación bilateral entre dos
variables:
TOT_COST
UDS
MANPOWER
ENERGY
INVEST
MAINT
MAT
ENV
Número de transparencia: 41 Grado en Ingeniería. Estadística. Tema 4
Regresión múltiple: R2 corregido
El coeficiente R2 tiene el inconveniente de que se incrementa al
aumentar el número de variables en el modelo (ya sean significativas o
no). Para paliar este efecto, corregimos el coeficiente para que tenga en
cuenta este efecto, por lo que en regresión múltiple se utiliza el
coeficiente R2 corregido ( o ajustado).
Dependent variable: log(TOT_COST)
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -1,82352 0,313487 -5,81689 0,0000
log(UDS) 0,666417 0,116524 5,71913 0,0000
log(MANPOWER) 0,157212 0,0551564 2,85029 0,0052
log(ENERGY) 0,174001 0,0489637 3,55367 0,0005
log(INVEST) 0,216335 0,0365883 5,91267 0,0000
log(MAINT) -0,0199751 0,0594171 -0,336185 0,7373
log(MAT) 0,139431 0,0221418 6,2972 0,0000
log(ENV) 0,0027926 0,0178724 0,156252 0,8761
-----------------------------------------------------------------------------
Adjusted R2 = 81.73%
Número de transparencia: 42 Grado en Ingeniería. Estadística. Tema 4
Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).

Número de transparencia: 43 Grado en Ingeniería. Estadística. Tema 4


Ejemplo

(X 1000)
3
Número de accidentes en
2,5 provincias españolas
nacciden

2
1,5 en función del número de
1
0,5
vehículos matriculados.
0
0 4 8 12 16 20 24
(X 1000)
matricul

-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 278,24 102,518 2,71406 0,0265
matricul 0,0993373 0,00850344 11,682 0,0000
-----------------------------------------------------------------------------
R-squared (adjusted for d.f.) = 93,7703 percent

Número de transparencia: 44 Grado en Ingeniería. Estadística. Tema 4


Ejemplo

Número de accidentes en
(X 1000)
provincias españolas 3

en función del número de 2,5

nacciden
2
permisos de conducir 1,5
1
0,5
0
0 4 8 12 16 20 24
(X 1000)
permisos

-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 216,481 127,099 1,70325 0,1269
permisos 0,107617 0,0109657 9,81395 0,0000
-----------------------------------------------------------------------------
R-squared (adjusted for d.f.) = 91,3722 percent

Número de transparencia: 45 Grado en Ingeniería. Estadística. Tema 4


Regresiones

Accid=278.2 +0.1 Matriculas


(11.68)

Accid=216.4 +0.1 Permisos


(9.81)

Número de transparencia: 46 Grado en Ingeniería. Estadística. Tema 4


Regresión con las dos variables

-----------------------------------------------------------------------------
Dependent variable: nacciden
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 250,63 113,216 2,21373 0,0625
matricul 0,0725492 0,0395634 1,83374 0,1093
permisos 0,0301069 0,043353 0,694461 0,5098
-----------------------------------------------------------------------------

Número de transparencia: 47 Grado en Ingeniería. Estadística. Tema 4


Regresiones

Accid=278.2 +0.1 Matriculas


(11.68)

Accid=216.4 +0.1 Permisos


(9.81)

Accid=250+0.07 Matriculas +0.03 Permisos


(1.8) (0.69)

Número de transparencia: 48 Grado en Ingeniería. Estadística. Tema 4


¿Qué está pasando?

(X 1000)
24
20
matricul

16
12
Correlación=.975
8
4
0
0 4 8 12 16 20 24
(X 1000)
permisos

Número de transparencia: 49 Grado en Ingeniería. Estadística. Tema 4


Regresión: un problema

A veces las variables independientes son muy parecidas:


contienen la misma información.

Variables
Independientes Variable
Dependiente

Número de transparencia: 50 Grado en Ingeniería. Estadística. Tema 4


Regresión: un problema

El modelo no puede diferenciar entre las variables.

Variables
Independientes Variable
Dependiente

Número de transparencia: 51 Grado en Ingeniería. Estadística. Tema 4


En nuestro ejemplo

Matrículas
Permisos Num Accid

Ambas son muy parecidas para


distinguir entre ellas.
Número de transparencia: 52 Grado en Ingeniería. Estadística. Tema 4
En nuestro ejemplo

Solución: eliminar una variable.


Perdemos muy poca información.

Matrículas
Permisos Num Accid

Ambas son muy parecidas para


distinguir entre ellas.
Número de transparencia: 53 Grado en Ingeniería. Estadística. Tema 4
En nuestro ejemplo

Solución: eliminar una variable.


Perdemos muy poca información.

Matrículas
Num Accid

Ambas son muy parecidas para


distinguir entre ellas.
Número de transparencia: 54 Grado en Ingeniería. Estadística. Tema 4
El problema de multicolinealidad aparece en casi todos
los trabajos estadísticos.
Tendemos a medir una cosa de muchas formas.
Se detecta:
En regresión simple, las variables son significativas.
Al introducir nuevas variables, dejan de ser
significativas.

Número de transparencia: 55 Grado en Ingeniería. Estadística. Tema 4


Regresión
Introducción. Relaciones no deterministas.
Regresion simple.
Modelo .
Estimación.
Diagnosis.
Regresion múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnosis.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).

Número de transparencia: 56 Grado en Ingeniería. Estadística. Tema 4


Estudiamos Pesos - Alturas

¿Es igual la relación para hombres que para mujeres?

Peso

Altura

Número de transparencia: 57 Grado en Ingeniería. Estadística. Tema 4


Estudiamos Pesos - Alturas

¿Es igual la relación para hombres que para mujeres?

Peso Peso

Altura Altura

Número de transparencia: 58 Grado en Ingeniería. Estadística. Tema 4


Estudiamos Pesos - Alturas

Si la relación no es igual, podemos cometer errores graves:

Peso Peso

Altura Altura

Número de transparencia: 59 Grado en Ingeniería. Estadística. Tema 4


Ejemplos

Variable Y Variable X Grupo que puede influir

Peso Altura Sexo: Hombre o Mujer

Consumo de un Ingresos del Status laboral: Paro o


trabajador trabajador Empleado
Consumo de un Potencia Motor: Diésel o
automóvil Gasolina
Margen Ordinario Comisiones Sucursal: Urbana o
de una sucursal Rural
bancaria

Número de transparencia: 60 Grado en Ingeniería. Estadística. Tema 4


Es necesario introducir el grupo:

Para ello:
• definiremos una variable Z que tome los siguientes valores:

Zi =0 si una observación pertenece al grupo A

Zi=1 si una observación pertenece al grupo B

• y estimaremos el siguiente modelo de regresión:

yˆ = bˆ0  bˆ1 X  bˆ2 Z

Número de transparencia: 61 Grado en Ingeniería. Estadística. Tema 4


El modelo que se estima:

yˆ = bˆ0  bˆ1 X  bˆ2 Z

•Mujeres: Les asignamos Z=0. Por tanto:

yˆ = bˆ0  bˆ1 X
•Hombres: Les asignamos Z=1. Por tanto:

yˆ = ( bˆ0  bˆ2 )  bˆ1 X

Número de transparencia: 62 Grado en Ingeniería. Estadística. Tema 4


Por tanto:

Peso yˆ = ( bˆ0  bˆ2 )  bˆ1 X

bˆ2
yˆ = bˆ0  bˆ1 X

Altura

El efecto es que un hombre de la misma altura pesa b2 kilos


más que una mujer de su misma altura.

¿O no?
Número de transparencia: 63 Grado en Ingeniería. Estadística. Tema 4
Hagámoslo:
Dependent variable: peso
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -77,7888 16,0908 -4,83438 0,0000
altura 0,842013 0,0905752 9,29628 0,0000
sexo -5,17748 2,20877 -2,34405 0,0208
-----------------------------------------------------------------------------
R-squared = 60,8791 percent
R-squared (adjusted for d.f.) = 60,1927 percent

Sexo=0 Hombres
Sexo=1 Mujeres
Por tanto: un hombre que mida 180 pesará= -78+0.84x180=73 kilos

..... y una mujer de la misma altura pesará=-78+0.84x180-5.17=68 kilos

La diferencia existe porque t=-2.34 que es mayor que 2 en valor absoluto

Número de transparencia: 64 Grado en Ingeniería. Estadística. Tema 4


Resultado

5 Kilos
Peso Hombres

Mujeres

Altura

Número de transparencia: 65 Grado en Ingeniería. Estadística. Tema 4


Interacciones

Hemos supuesto que las rectas son paralelas.


¿Y si no lo son?

Y B

Número de transparencia: 66 Grado en Ingeniería. Estadística. Tema 4


Modelización de las interacciones

La modelización de la interacción es sencilla. Hay que


estimar un modelo de regresión entre:

· la variable Y,
· la variable X,
· la variable Z,
· la interacción de X y Z que se modeliza por el
producto (XZ).
yˆ = b 0  b 1 X  b 2 Z  b 3 XZ
ˆ ˆ ˆ ˆ

Para el grupo con Z=0 yˆ = bˆ 0  bˆ1 X


Para el grupo con Z=1 yˆ = bˆ 0  bˆ1 X  bˆ 2  bˆ3 X = ( bˆ 0  bˆ 2 )  ( bˆ1  bˆ3 ) X
Por tanto, analizar si existe interacción se reduce a estimar un modelo de regresión y
analizar si el parámetro es significativo (estadístico t mayor de 2) en la estimación realizada.
Número de transparencia: 67 Grado en Ingeniería. Estadística. Tema 4
Ejemplo:Ventas de empresas del sector servicios en Madrid
en función de su inversión en I+D

Plot of ventas vs id
240

200

160
ventas

120

80

40

0
0 0.5 1 1.5 2 2.5 3
(X 1000)
id

Plot of log(ventas) vs log(id)


5.7

5.2
log(ventas)

4.7

4.2

3.7

3.2

2.7
3.1 4.1 5.1 6.1 7.1 8.1

log(id)

LOG(VENTAS) = 1.762  0.393 Log(ID)


(t) (7.88) (10.34) R2 = 45.7 %

Número de transparencia: 68 Grado en Ingeniería. Estadística. Tema 4


Ejemplo:Ventas de empresas del sector servicios en Madrid
en función de su inversión en I+D

Queremos estudiar si hay diferencias por estar en el sector telecomunicaciones

TELECO=1 Si está en el sector teleco


TELECO=0 si no está en ese sector

LOG(VENTAS) =2.25+ 0.288 Log(ID)+0.527 TELECO


(t) (11.12) (8.08) (7.03) R 2 = 61.05%

•Si la empresa funciona en el sector teleco:


Log(VENTAS)= 2.78 + 0.288 log(ID)
•Si funciona en otro sector:
Log(VENTAS) = 2.25 + 0.288 log(ID)

Estimamos la interacción:
Log(VENTAS)=1.99+0.334Log(ID)+1.80 TELECO-0.202 TELECOxLog(ID)
(t) (8.84) (8.40) (3.40) (-2.43) R2= 62.8%
•Si no está en el sector teleco
Log(VENTAS) = 1.99 + 0.334 log(ID)
•Si está en el sector teleco
Log(VENTAS) = 3.8 + 0.13 log(ID)

Número de transparencia: 69 Grado en Ingeniería. Estadística. Tema 4

Вам также может понравиться