Вы находитесь на странице: 1из 6

Análisis de Datos I Esquema del Tema 7

Tema 7. Regresión Lineal

1. INTRODUCCIÓN

2. IDENTIFICACIÓN DEL MODELO

3. VALORACIÓN DEL MODELO

Coeficiente de determinación
Descomposición de la varianza del criterio

4. APLICACIÓN DEL MODELO (ejemplo resuelto)

5. EJERCICIOS

__________________

Bibliografía : Tema 7 (pág. 175-210)


Ejercicios recomendados : 1, 2, 3, 4, 7, 8, 9, 12, 13, 14,
15, 16, 17, 19, 22, 23, 24, 26,
28, 30, 32 y 33.

Carmen Ximénez 1
Análisis de Datos I Esquema del Tema 7

1. INTRODUCCIÓN
OBJETIVO: Hacer predicciones o pronósticos en una variable (Y) a partir de otra (X):
Regresión de Y sobre X
Variable predictora: X (o variable independiente, VI) … La que se utiliza para hacer pronósticos
Variable criterio: Y (o variable dependiente, VD) … Sobre la que se pronostica
Para ello, se crea un modelo (la recta de regresión Y’ = A + B · X, donde A es el origen y B la
pendiente) que se aproxime o ajuste lo más posible a los datos observados en X y en Y.

Ejemplo A: X: Minutos en llamada / Y: Gasto en el móvil (en €/mes)


X: 0 2 4 6 8
Y: 4 4,4 4,8 5,2 5,6
Y’ = 4 + 0,20 · X
Y’: 4 4,4 4,8 5,2 5,6
Y – Y’: 0 0 0 0 0

Ejemplo B: X: Ansiedad / Y: Nº de aciertos en un test de 10 ítems


X: 2 4 5 1 3
Y: 5 3 2 10 4
Y’ = 10 – 2 · X
Y’: 6 2 0 8 4
Y – Y’: -1 1 2 2 0

2. IDENTIFICACIÓN DEL MODELO


Criterio de Mínimos cuadrados
Y’ = A + B·X
Se trata de encontrar aquella recta de regresión Y’ en que la
distancia al cuadrado entre ella y las puntuaciones
Y observadas sea mínima. Es decir:
(Yi - Yi’)2
∑ (Y − Y ')
i i
2

→ 0 … Error cuadrático medio, S y⋅ x


2

N
X

Modelo en Directas: Yi’ = Ayx + Byx · Xi

N ⋅ ∑ X i ⋅ Yi - ∑ X ⋅ ∑Y B yx = rxy
Sy
- Pendiente: B = i i O También:
N ⋅ ∑ X i2 - (∑ X ) Sx
yx 2
i

- Origen: =
A yx Y - B yx ⋅ X

Modelo en Diferenciales: yi’ = a + byx · xi Modelo en Típicas: zy’ = a*yx + b*yx · zx


- Origen: no hay (ayx = 0) - Origen: no hay (a*yx = 0 )
- Pendiente: byx = Byx - Pendiente: b*yx = rxy
Por tanto: y’ = Byx · x Por tanto: zy’ = rxy · zx

Carmen Ximénez 2
Análisis de Datos I Esquema del Tema 7

3. VALORACIÓN DEL MODELO


Coeficiente de determinación:
rxy2 : Proporción de varianza de Y que queda explicada por X

Descomposición de la varianza del criterio (Y):

Modelo:
Yi = Y i’ + (Yi – Yi’)
Puntuación Puntuación Error en el
empírica pronosticada pronóstico

La varianza para Y = Y’ + (Y – Y’) es:

S y2 = S y2 ' + S y2−−
y ' + 2 ⋅ S y '( y y ')

Donde: S2y' =
∑ (Y '− Y ')
i
2

= 2
S y- y'
∑ (Yi - Yi' ) 2
= S2y⋅x
N
S y’(y-y’) = 0
Sustituyendo:

1) S=
2
y S y2 ' + S y2⋅ x
Donde: S2y (Varianza del criterio) se descompone en:
S2y' : Varianza de los pronósticos (varianza explicada por el modelo)
S2y⋅x : Error cuadrático medio (varianza no explicada por el modelo)

La descomposición de la varianza del criterio en términos relativos es:

2) 1 = rxy2 + (1 − rxy2 )

S2y'
Donde: r 2
= ............. Proporción de varianza explicada por el modelo
S2y

S2y⋅ x
1 − r =2 ...... Proporción de varianza no explicada por el modelo
2

Sy

Las expresiones 1) y 2) permiten relacionar S2y con el coeficiente de determinación, rxy2 .


Por tanto, otras fórmulas útiles derivadas de las anteriores son:

S2=
y' S2y ⋅ rxy2

S2y⋅x = S2y ⋅ (1 − rxy2 )

Carmen Ximénez 3
Análisis de Datos I Esquema del Tema 7

Ejemplo 1
Un psicólogo escolar toma una muestra aleatoria de 7 alumnos de un colegio y les pasa una prueba de
Extroversión (X). A continuación, observa cuántos Mensajes SMS (Y) envía cada alumno durante el recreo:
7
6
Xi 4 5 4 3 1 6 1 5 Y’
Yi 5 6 3 3 2 5 1 4

( N ⋅= ∑ X i ⋅ Yi ) − ( ∑ X i ⋅ ∑ Yi )

Y
3
7(104) − (24)(25)
rxy = 0,88 2



2 
 N ⋅ ∑ X i − ( ∑ X i )   N ⋅ ∑ Yi − ( ∑ Yi ) 
2


2 2 

( 7(104) −−
(24)2 )(
7(109) (25)2 ) 1
0
0 1 2 3 4 5 6 7

Modelo de regresión de Y sobre X:


Xi Yi Xi2 Yi2 Xi·Yi
N ⋅ ∑ X i ⋅ Yi - ∑ X i ⋅ ∑ Yi (7)(104) - (24)(25)
4 5 16 25 =20 B yx = = 0,84
N ⋅ ∑ X i2 - ( ∑ X i ) (7)(104) - 242
2
5 6 25 36 30
4 3 16 9 12
3 3 9 9 9 A yx= Y -B yx ⋅ X= 3,57 - (0,84)(3, 43)= 0, 68
1 2 1 4 2
6 5 36 25 30 Directas: Yi’ = 0,68 + 0,84·Xi
1 1 1 1 1 Diferenciales: y’ = 0,84·xi
24 25 104 109 104 Típicas: zyi’ = 0,88 · zxi

Xi Yi Yi’ Yi - Yi’ (Yi - Yi’)2


4 5 4,05 0,95 0,90
5 6 4,89 1,11 1,22
Error cuadrático medio:
4 3 4,05 -1,05 1,11
3 3 3,21 -0,21 0,04
1 2 1,53 0,47 0,22 =
S y2⋅ x
∑ (Y − Y=
')
i i
2
4,32
= 0, 62
6 5 5,74 -0,74 0,54 N 7
1 1 1,53 -0,53 0,28
24 25 25 0 4,32
Valoración del modelo:
2
Coeficiente de determinación: rxy = (0,88)2 = 0,7744 (Proporción de varianza de Y que queda explicada por X)
Descomposición de la varianza del criterio (Y):
S=
2
y S y2' + S y2⋅ x S y2 = 2,82 .... S y2⋅x = S y2 ⋅ (1 − rxy2 ) = 2,82(1 − 0,882 ) = 0, 62
S y2' =S y2 − S y2⋅ x =2,82 − 0, 62 =2, 20
= 2, 20 + 0, 62
2,82

Modelo de regresión de X sobre Y:


N ⋅ ∑ Yi ⋅ X i - ∑ Yi ⋅ ∑ X i (7)(104) - (25)(24) Valoración del modelo:
=Bxy = = 0,93 2
N ⋅ ∑ Yi - ( ∑ Yi ) (7)(109) - 25
2 2
2
rxy = (0,88)2 = 0,7744 (Proporción de varianza de X
que queda explicada por Y )
A xy= X -B xy ⋅ Y= 3, 43 - (0,93)(3,57)= 0,11
S = 1,53 .... S x2⋅ y = S x2 ⋅ (1 − rxy2 ) = 1,53(1 − 0,882 ) = 0,35
2
x
Directas: Xi’ = 0,11 + 0,93·Yi S x2' =S x2 − S x2⋅ y =1, 53 − 0, 35 =1,18
Diferenciales: x’ = 0,93·y
Típicas: zxi’ = 0,88 · zxi 1,=
53 1,18 + 0, 35

Carmen Ximénez 4
Análisis de Datos I Esquema del Tema 7

4. APLICACIÓN DEL MODELO


EJEMPLO 2 (resuelto)
X 5 7 9 13 6 X: Auto-registro del nº cigarrillos fumados al día
Y 8 6 7 5 9 Y: Deseos de comenzar una terapia contra el tabaco
N ⋅ ∑ X i ⋅ Yi − ∑ X i ⋅ ∑ Yi 5 ⋅ 264 − 40 ⋅ 35
rxy = = −0,80
   
 N ⋅ ∑ X i − ( ∑ X i )  ⋅  N ⋅ ∑ Yi − ( ∑ Yi ) 
2 2 2 2
5 ⋅ 360 − 40 2
5 ⋅ 255 − 352

   
X e Y están linealmente relacionadas (de forma inversa)
X Y X2 Y2 X·Y 10
5 8 25 64 40 8
7 6 49 36 42
9 7 81 49 63 6

Y
13 5 169 25 65 4
6 9 36 81 54
2
Σ: 40 35 360 255 264
0
Media 8 7 0 2 4 6 8 10 12 14
Varianza 8 2
Desv. típ. 2,83 1,41 X

1. Identificación del modelo


N ⋅ ∑ X i ⋅ Yi - ∑ X ⋅ ∑Y 5 ⋅ 264 - 40 ⋅ 35 -80
B yx = i i
= = = -0, 40
N ⋅ ∑ X i2 - (∑ X ) 5 ⋅ 360 - 402
2
200
i

A=
yx Y - B yx ⋅= = 10, 2
X 7 - (-0, 40)(8)
Y’ Y - Y’ (Y - Y’)2 10
Directas: Yi’ = 10,2 – 0,40 · Xi 8,20 -0,20 0,04 8
Diferenciales yi’ = -0,40 · xi 7,40 -1,40 1,96
6
Típicas zyi’ = -0,80 · zxi 6,60 0,40 0,16
Y

5 0 0 4 Y’
7,80 1,20 1,44 2
Σ: 35 0 3,6
0
Media 7 0 0,72 0 2 4 6 8 10 12 14
Varianza 1,28 0,72
X
2. Valoración del modelo
2
Coeficiente de determinación: rxy = (-0,80)2 = 0,64 Proporción de varianza de Y que queda explicada por X
Descomposición de la varianza del criterio (Y): S= S y2 ' + S y2⋅ x
2
y

S y2 = 2 .... S y2⋅x = S2y ⋅ (1 − rxy2 ) = 2(1 − 0, 64) = 0, 72


S y2 ' =S y2 − S y2⋅ x =−
2 0, 72 =
1, 28 =2 1, 28 + 0, 72
3. Aplicación del modelo
Si un sujeto fuma 15 cigarrillos al día ¿Cuánto puntúa en deseos de dejar de fumar?
Pronóstico en Directas: Yi’ = 10,2 – 0,40 · Xi = 10,2 – (0,40) (15) = 4,2
Pronóstico en Diferenciales: yi’ = – 0,40 · xi = (-0,40) (15 - 8) = -2,80
Pronóstico en Típicas: zyi’ = -0,80 · zxi = (-0,80) ((15 – 8)/2,83) = -1,98

Carmen Ximénez 5
Análisis de Datos I Esquema del Tema 7

5. EJERCICIOS
EJERCICIO 1
Xi Yi
4 8 X: Horas de estudio
5 7 Y: Calificación obtenida
2 4
1. Obtenga la ecuación de regresión de Y sobre X (en directas, diferenciales y típicas)
2. ¿Le merece confianza el modelo? (represente gráficamente el ajuste de los puntos a la recta)
3. Descomponga la varianza del criterio
4. Si un sujeto estudia 3 horas, ¿Qué calificación le pronosticaríamos según el modelo?
5. Si un sujeto estudia 2 horas, ¿En cuánto nos equivocaríamos al predecir su calificación
con la ecuación del modelo?

EJERCICIO 2
X Y V
Tras medir en una muestra las variables X 0,85 0,62
X: Extroversión R= Y -0,93
Y: Impulsividad V
V: Control Medias: 15 21 12
Se obtuvieron los estadísticos: Varianzas: 9 14 4
Se desea predecir la impulsividad (Y) a partir de alguna de las restantes variables
1. Obtenga la ecuación de regresión
2. Descomponga la varianza del criterio y valore el modelo anterior
3. Si un sujeto obtuviera una diferencial de 3 en la predictora, ¿Qué puntuación directa le
pronosticaría en impulsividad?
4. ¿Qué valor tiene en la predictora un sujeto al que le pronosticamos 18 puntos con el
modelo?

EJERCICIO 3
Se ha trazado la siguiente recta de regresión de Y sobre X en una muestra de varones
(representados por el signo •) y mujeres (representadas por el signo +):
Según esta gráfica responda a lo siguiente:
1. ¿De cuántos varones se compone la
muestra? ¿y mujeres?
2. ¿Qué grupo es más homogéneo: varones
o mujeres?
3. ¿Cuántos varones reciben en este modelo
pronósticos inferiores a sus puntuaciones
empíricas en Y?
4. ¿Cuántas mujeres reciben pronósticos
superiores a sus puntaciones empíricas?
5. ¿Qué pronóstico en Y tendría un sujeto
con X = 0?

Carmen Ximénez 6

Вам также может понравиться