Академический Документы
Профессиональный Документы
Культура Документы
TEMA 1
1
1. INTRODUCCIÓN
• Determinar la ecuación de regresión sirve para:
– Describir de manera concisa la relación entre
variables.
– Predecir los valores de una variable en función de la
otra.
• Veremos EXCLUSIVAMENTE relaciones lineales.
• La regresión lineal simple estudia la relación
entre sólo dos variables (el caso de relación más
sencillo posible).
2
1. INTRODUCCIÓN
3
2. INTERPRETACIÓN DEL DIAGRAMA
DE DISPERSIÓN
A grandes rasgos, como paso previo, el diagrama
de dispersión permite vislumbrar si:
–Existe relación entre variables.
–La relación es lineal o de otro tipo.
– Intensidad de la relación (por la estrechez de la
nube de puntos).
– Valores anómalos (outliers) distorsionan la
relación.
–La dispersión de los datos es o no uniforme
(homocedasticidad vs. heterocedasticidad).
4
3. ESPECIFICACIÓN DEL MODELO DE
REGRESIÓN LINEAL SIMPLE
Y X
x Y
5
3. ESPECIFICACIÓN DEL MODELO DE
REGRESIÓN LINEAL SIMPLE
• :
–Puede denominarse:
• Error
• Perturbación
• Residual
–Se debe fundamentalmente a:
•Medición incorrecta de la variable.
•Influencia de otras variables no incluidas en el modelo.
•Variabilidad inherente a la conducta humana.
6
3.ESPECIFICACIÓN DEL MODELO DE
REGRESIÓN LINEAL SIMPLE
Y X
^
Y Y
^
Y X
^
Y Y
7
3.1. Supuestos del modelo
• Características estadísticas:
– Linealidad.
– Homocedasticidad: las varianzas de Y para cada
valor de X son todas iguales.
– Ausencia de autocorrelación: las variables Y son
independientes entre sí (problema en estudios
longitudinales).
– Normalidad.
8
3.1. Supuestos del modelo
• Características como modelo descriptivo:
9
4. ESTIMACIÓN DE PARÁMETROS
• α y β.
• Mediante mínimos cuadrados.
• En puntuaciones directas:
^
Y a bX
SY
b rXY a Y bX
SX
10
4. ESTIMACIÓN DE PARÁMETROS
• En puntuaciones diferenciales o centradas:
^
y bx
El valor de la b coincide con su valor en la ecuación de
regresión en puntuaciones directas.
• En puntuaciones estandarizadas:
^
Z y rxy Z x
11
4. ESTIMACIÓN DE PARÁMETROS:
EJEMPLO
Con los datos del ejemplo anterior, calcular la
ecuación de regresión en puntuaciones
directas, centradas y estandarizadas.
12
4. ESTIMACIÓN DE PARÁMETROS:
EJEMPLO
Ecuación de regresión en puntuaciones directas:
SY 5,103
b rXY 0,839 * 0,745
SX 5,745
^ ^
Y a bX Y 2,205 0,745 X
13
4. ESTIMACIÓN DE PARÁMETROS:
EJEMPLO
Ecuación de regresión en puntuaciones centradas:
^ ^
y bx y 0,745 x
^ ^
Z y rxy Z x Z y 0,839Z x
14
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN
En el modelo de regresión lineal
^
Y a bX Y a bX e
15
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN
^
• Y puntuación estimada: valor promedio
previsto para todos los sujetos que han
obtenido en la variable X un valor de Xi.
• b pendiente de la recta: cambio en Y por
cada unidad de cambio en X.
• a ordenada en el origen: valor medio de Y
cuando X=0.
16
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN: EJEMPLO
Supongamos que tenemos la ecuación de regresión:
^
Y 600 300 X
Donde X es el número de años de experiencia profesional, e Y es el
sueldo mensual.
1. Interpreta a y b.
17
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN: EJEMPLO
1. Interpreta a y b.
• b=300 cambio en Y por cada unidad de
cambio en X. Por cada año de experiencia
laboral, el sueldo mensual aumenta 300 €.
18
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN: EJEMPLO
2. Una persona con 3 años de experiencia laboral,
¿qué sueldo mensual tendrá? Interpreta el
resultado.
^
X 3 Y 600 300 * 3 1500
^
Y 1500 valor promedio previsto para todos
los sujetos que han obtenido en la variable X un
valor de Xi. Las personas con 3 años de
experiencia tienen un sueldo promedio de 1500 €
19
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN: EJEMPLO
3. Si una persona con 3 años de experiencia laboral
tiene un sueldo mensual de 1700 €, ¿cuál será su
error asociado? Interpreta el resultado.
^
e Y Y 1700 1500 200
El modelo estimó un sueldo de 1500 € para una
persona con 3 años de experiencia laboral. Si esta
persona concreta tiene un sueldo de 1700 €, esta
diferencia de 200 € es el error; aquello que el
modelo no explica.
20
6. COMPONENTES DE VARIACIÓN
21
6. COMPONENTES DE VARIACIÓN
Y Y (Y Y ) (Y Y )
N N ^ N ^
2 2 2
i 1 i 1 i 1
Y Y (Y Y ) (Y Y )
N N ^ N ^
2 2 2
i 1 i 1 i 1
23
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
• Cálculo de la suma de cuadrados total:
Y Y
N
2
(1 10,4) 2 (6 10,4) 2 (8 10,4) 2
i 1
24
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
•Cálculo de la suma de cuadrados explicada:
^ ^
Y 1 2,205 0,745 * 2 3,695 Y 6 2,205 0,745 *12 11,145
^ ^
Y 2 2,205 0,745 * 4 5,185 Y 7 2,205 0,745 *14 12,635
^ ^
Y 3 2,205 0,745 * 6 6,675 Y 8 2,205 0,745 *16 14,125
^ ^
Y 4 2,205 0,745 * 8 8,165 Y 9 2,205 0,745 *18 15,615
^ ^
Y 5 2,205 0,745 *10 9,655 Y 10 2,205 0,745 * 20 17,105
N ^
(Y
i 1
Y ) 2
(3,695 10, 4) 2
(5,185 10, 4) 2
( 6,675 10, 4) 2
(8,165 10, 4) 2
(9,655 10,4) 2 (11,145 10,4) 2 (12,635 10,4) 2 (14,125 10,4) 2 (15,615 10,4) 2
(17,105 10,4) 2 183,158 25
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
• Cálculo de la suma de cuadrados no explicada:
N ^
(Y
i 1
Y ) 2
(1 3,695) 2
( 6 5,185) 2
(8 6,675) 2
26
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
Comprobación:
SCtotal = SCexplicada+SCresidual
Y Y (Y Y ) (Y Y )
N N ^ N ^
2 2 2
i 1 i 1 i 1
27
7. BONDAD DE AJUSTE
2
^
SCexp
X X
2
Y Y b 2
R
2
Y Y
R r
2 2
2
Y Y
XY 2
SCt
b 2 S X2
R 2
2
SY
29
7. BONDAD DE AJUSTE: EJEMPLO
Calcular la bondad de ajuste (con las tres
fórmulas propuestas) y la proporción de
variabilidad no explicada.
30
7. BONDAD DE AJUSTE: EJEMPLO
2
^
SCexp Y Y
183,158
R r
2 2
0,704
XY
SCt Y Y 2
260,4
X X
2 2
b 0,556 * 330
R
2
0,704
Y Y
2
260,4
2 2 2 2
b S 0,745 * 5, 745 0,556 * 33,005
R 2
2 X
2
0,704
SY 5,103 26,041
1 R 2 1 0,8392 0,296
31
8. VALIDACIÓN DEL MODELO
Fuentes de Sumas de
gl Varianza F
variación cuadrados
2
Regresión o ^ SCexp
2
Y Y k S 2
R XY
explicada exp
k
2
S exp
k
2
S res 1 R XY
2
Residual o SCres
N k 1
2
N-k-1 S
^ 2
no explicada
Y Y
N k 1
res
Y Y
2 SCt
Total N-1 S 2
N 1
t
32
8. VALIDACIÓN DEL MODELO
– F F( ,k , N k 1) Se rechaza la Hipótesis nula.
Las variables están relacionadas. El modelo es
válido.
33
8. VALIDACIÓN DEL MODELO
• Otras posibles fórmulas de F:
– Con puntuaciones directas:
2
b X 2 X
2
N
F k
Y
2
2 X
2
Y N b X N
2 2
N k 1
34
8. VALIDACIÓN DEL MODELO
En términos de varianza: En términos de R2:
2 2 2
b NS X R
F k F k
NSY2 b 2 NS X2 1 R2
N k 1 N k 1
35
8. VALIDACIÓN DEL MODELO:
EJEMPLO
Con los datos anteriores, calcula la F (usando las
4 fórmulas propuestas) y concluye sobre la
validez del modelo.
36
8. VALIDACIÓN DEL MODELO
Fuentes de Sumas de
gl Varianza F
variación cuadrados
Regresión o
explicada
183,158 1 183,158
19,025 19
Residual o
no explicada
77,018 8 9,627
Total
(aprox.)
260,176 9 28,908
37
8. VALIDACIÓN DEL MODELO:
EJEMPLO
2
b X 2
X
2
110 2
N 0,745 2
1540
10
F k 1
Y 2
2 X 2
104 2
110 2
Y N b X N
2
2 2 1342 0 ,745 1540
10 10
10 1 1
N k 1
18,967 19
39
8. VALIDACIÓN DEL MODELO:
EJEMPLO
b 2 NS X2 0,7452 *10 * 5,7452
F k 1 18,974 19
NSY b NS X 10 * 5,103 0,745 *10 * 5,745
2 2 2 2 2 2
N k 1 10 1 1
R2 0,839 2
F k 1 19,027 19
1 R 2
1 0,839 2
N k 1 10 1 1
40
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN
• Estudio de b (en relación con la variable
independiente).
• En regresión lineal simple, prueba de
significación equivalente a F y a la significación
de rXY
• Más interesante en regresión lineal múltiple,
donde la F global podría ser significativa y
algún parámetro de la ecuación no.
41
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN
Hipótesis:
H0: β = 0 H1: β = 0
42
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN
b
t
2
S res
X X
2
43
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN
– t t( , N 2 ) Se rechaza la Hipótesis nula. El
modelo es válido. La pendiente es
estadísticamente distinta de 0. Existe, por tanto,
relación entre las variables.
44
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN:
EJEMPLO
45
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN:
EJEMPLO
b 0,745
t 4,382
2
S res 9,627
X X
2
330
^
Y 0 2,205 0,745 * 4 2,205 2,98 5,185
47
10. PREDICCIÓN
• Dando un intervalo:
^
Y 0 t , N k 1 2
1
S res 1
2
X0 X
N
X X
2
48
10. PREDICCIÓN: EJEMPLO
¿En qué intervalo se encontrará la puntuación
en Y de la persona que obtuvo X = 4?
49
10. PREDICCIÓN: EJEMPLO
^
Y0 t , N k 1 2
1
S res 1
X0 X
2
N
X
X
2
1 4 11
2
5,185 2,306 9,6271
10 330
5,185 7,993
^
2,808 Y0 13,178
50
10. PREDICCIÓN: EJEMPLO
51
10. PREDICCIÓN: LIMITACIÓN
• No extrapolar los valores más allá de los datos
de observación. ¿Y si fuera una relación
cuadrática?
52