Вы находитесь на странице: 1из 48

UNIVERSIDAD AUTNOMA DE

GUADALAJARA

REGRESIN LINEAL SIMPLE

MSC.GUADALUPE SALAS CEBALLOS


guadalupe.salas.c@gmail.com
VILLAHERMOSA,TABASCO

MAYO DEL 2014

Introduccin

El estudio de distribuciones univariadas (una sola variable)


generalmente se debe complementar con el estudio de
asociaciones cuando en el problema en cuestin se presentan
varias variables.
La naturaleza multivariada de muchos fenmenos nos obliga a
referir herramientas grficas y descriptivas para este propsito.
En esta unidad se presentan algunas tcnicas tiles para
estudiar datos bivariados.

Regresin
El conjunto de tcnicas que utilizamos para construir y
evaluar modelos que describen la relacin entre variables y
para formular inferencias basadas en los modelos obtenidos
se conocen colectivamente como Tcnicas de Regresin, y al
anlisis estadstico que resulta de aplicarlas se le denomina
Anlisis de Regresin.
En general, el anlisis de regresin permite estudiar la
influencia de una o ms variables que llamamos independientes
sobre otra que llamamos dependiente.
Si se incluyen dos o ms variables independientes se tiene
un modelo de regresin mltiple, situacin que no ser cubierta
en esta breve introduccin, sino que nicamente se hace
mencin del modelo de regresin simple, concretamente al
modelo de Regresin Lineal Simple.

Tipos de Regresin
En primer lugar, en funcin del nmero de variables independientes:
Regresin simple: Cuando la variable Y depende de una nica
variable X.
Regresin mltiple: Cuando la variable Y depende de varias
variables (X1, X2, ..., Xr).
En segundo lugar, con respecto al tipo de funcin f(X):
Regresin lineal: Cuando f(X) es una funcin lineal.
Regresin no lineal: Cuando f(X) no es una funcin lineal.
Dentro de sta clasificacin podemos encontrar: regresin
cuadrtica, cbica, logartmica, entre otras.

Correlograma
El primer paso en un anlisis de regresin es elaborar el
diagrama de dispersin (correlograma) de los datos, ya que ste
puede ayudar en la bsqueda de un modelo que describa la
relacin entre la variable independiente (x) y la dependiente (y).
Con frecuencia en la prctica se presentan problemas que
consideran el estudio de dos variables. Tal cuestin obliga a
explorar grficas que permiten explorar asociacin entre
variables. El grfico ms antiguo conocido para representar
datos bivariados es el correlograma.
Un correlograma es una grfica de puntos que nos representa
un conjunto de datos bivariados en un plano cartesiano. El
correlograma es una de las herramientas ms potentes para
investigar la dependencia de una variable Y sobre una variable
X.

Tipos de asociacin entre dos variables

Figura 1. Diferentes tipos de asociacin entre dos variables X y Y.

Tipos de asociacin entre dos variables


Se denomina variable independiente o variable de
entrada a X y variable dependiente o variable de salida a Y.
Analicemos estos conceptos, en la Figura 2.

Figura 2. Diferentes tipos de asociacin entre dos variables X y Y.

Ejemplo:
Tabla 1. Nmero de horas dedicadas a preparar un examen (x) y
calificacin obtenida en dicha prueba (y).

2 3 3 4 4 5 5 6 6 6 7 7

8 8

5 5 7 5 7 7 8 4 9 8 7 9 10 8 9

Grfico de Dispersin (Correlograma)

Figura 3. Asociacin del nmero de horas dedicadas para


preparar un examen (X) y calificacin obtenida de dicha prueba
(Y).

Correlacin Lineal
El objetivo central del anlisis de correlacin lineal es medir la
intensidad de una relacin lineal entre dos variables
La intensidad mencionada es medida por medio del coeficiente
de correlacin lineal r.
El coeficiente refleja el grado de relacin o efecto que tiene el
cambio de una variable sobre otra.
El valor del coeficiente de correlacin lineal ayuda a contestar la
pregunta: Existe correlacin lineal entre las dos variables
consideradas? El coeficiente de correlacin lineal r siempre
tiene un valor entre -1 y +1.
Un valor igual a +1 indica una correlacin perfecta positiva.
Mientras que un valor igual a -1 indica una correlacin perfecta
negativa.

Valores de la correlacin lineal

Coeficiente de Correlacin Lineal


El valor de r para una muestra se obtiene mediante la expresin
(conocida como la r de Pearson).
n

xi yi

i =1

r=

xy

n 2
n 2

xi
yi

i =1 x 2 i =1 y 2
n
n

Ejemplo: Tabla

2. Clculos para determinar el coeficiente de


correlacin.
Horas (x)

Calificacin
(y)

xy

10

25

15

25

21

49

20

16

25

28

16

49

35

25

49

40

25

64

24

36

16

54

36

81

10

48

36

64

11

49

49

49

12

63

49

81

13

10

70

49

100

14

64

64

64

15

72

64

81

Total

81

108

613

487

822

Promedio

5.4

7.2

40.9

32.47

54.8

No.

Solucin:

r=

40.9 38.88
=
(32.47 29.16)(54.8 51.84)

2.02
2.02
=
= 0.65
(3.31)(2.96) 3.13

Lo que indica que existe una correlacin r = 0.65, lo que


significa que se tiene una correlacin Alta entre las horas de
estudio y la calificacin obtenida en el examen.

El Modelo de Regresin Lineal Simple


Este modelo es el ms sencillo que se ve dentro del anlisis de
regresin, ya que solo considera a la variable dependiente Y, y una
sola variable explicatoria X.
Concretamente la pregunta es: Cul es la ecuacin
matemtica apropiada para describir la relacin entre X y Y?
Debemos usar una funcin logartmica? Una lnea recta? Una
parbola?
Una vez decidida esta cuestin permanece el problema de
encontrar las constantes que identifican a la ecuacin en un caso
especfico y posteriormente el de interpretar la ecuacin resultante.

Consideremos por ahora que la relacin entre X y Y puede


modelarse con una lnea recta, que es de la forma:

y = + x
0

donde los coeficientes de regresin 0 y 1 son parmetros que


deben ser estimados a partir de datos muestrales. Si b0 y b1
representan estos estimadores, representativamente, se puede
estimar y por y
de la regresin muestral dada por:

y = b0 + b1 x
donde las estimaciones b0 y b1 representan la intercepcin y
pendiente de x , representativamente.

Ejemplos de regresin lineal simple

Estudiar cmo influye la estatura del padre sobre la estatura del


hijo.
Estimar el precio de una vivienda en funcin de su superficie.
Aproximar la calificacin obtenida de una materia segn el
nmero de horas de estudio semanal.
Prever el tiempo de computacin de un programa en funcin de
la velocidad del procesador.

Ejemplo de Regresin Lineal Simple


Se extrae una muestra de 10 familias de una determinada poblacin y se
quiere analizar si existe relacin entre los ingresos por familia (X) y los gastos
que sta genera (Y), referentes a un aos, expresado en miles de pesos. Los
datos se presentan enseguida:
INGRESOS (X)

GASTOS (Y)

80

70

100

65

120

90

140

95

160

110

180

115

200

120

220

140

240

155

10

260

150

Tabla de clculos para efectuar la Regresin Lineal Simple

X^2

Y^2

XY

1
2
3
4
5
6
7
8
9
10

80
100
120
140
160
180
200
220
240
260
1700

70
65
90
95
110
115
120
140
155
150
1110

6400
10000
14400
19600
25600
32400
40000
48400
57600
67000
322000

4900
4225
8100
9025
12100
13225
14400
19600
24025
22500
132100

5600
6500
10800
13300
17600
20700
24000
30800
37200
39000
205500

xi=Xi-X barra yi=Yi- xi*yi


-90
-70
-50
-30
-10
10
30
50
70
90
0

-41
-46
-21
-16
-1
4
9
29
44
39
0

3690
3220
1050
480
10
40
270
1450
3080
3510
16800

Y est

yi-Y est

65.18
75.36
85.54
95.72
105.91
116.09
126.27
136.45
146.63
156.82
1110.01

4.81
-10.36
4.45
-0.72
4.08
-1.09
-6.27
3.54
8.36
-6.82
-0.015

Estimacin de los Coeficientes de


Regresin

{(

Dada la muestra xi , yi , i = 1,2,..., n , las estimaciones de mnimos


cuadrados ordinarios b0 y b1 de los coeficientes de regresin 0 y
se calculan por medio de las frmulas:
n

n
n

n X i Y i X i Y i
i =1
i =1
b1 = i =1
2
n
n

2
n X X i
i =1
i =1

y
b0 =

Y
i =1

b1 X i
i =1

Estimacin de los coeficientes de regresin

El modelo resultante es:

Supuestos sobre los errores del modelo


de regresin lineal simple

Normalidad
Independencia No autocorrelacin de los errores
Homogeneidad de varianzas

Supuestos sobre los errores del modelo


de regresin lineal simple

Intervalo de confianza para


donde

donde

donde

y
0

Intervalo de confianza para

Intervalos de confianza

y
0

Interpretacin de los intervalos de confianza para

y
0

Para los intervalos de confianza que se construyan diremos que del


100% de ellos, el 95% cubrir el verdadero valor del parmetro, esto
es tanto para 0 como 1

Prueba de hiptesis
En la regresin lineal simple es de gran inters e importancia probar
la hiptesis sobre si el valor verdadero de 1 es cero, ya que si 1
fuese cero el modelo se reducira, lo que indicara que la variable X
no incrementa la explicacin del comportamiento de la variable Y,
haciendo intil el anlisis de regresin entre estas dos variables.

Prueba de hiptesis para

Estadstico de prueba:

Decisin:

Prueba de hiptesis para 1

Estadstico de prueba:

Decisin:

Conclusin de la prueba de hiptesis

Como se Rechaz la hiptesis nula, esto quiere decir que el 1


verdadero es diferente de cero y por consiguiente se puede
concluir que la variable X (ingreso) explica (influye) en forma
significativa en el comportamiento de la variable Y (gastos), esto
con un 95% de confianza.

Prueba de hiptesis para 0

Estadstico de prueba:

Decisin:

Prueba de hiptesis para 0

Estadstico de prueba:

Decisin:

Conclusin de la prueba de hiptesis


Como se Rechaz la hiptesis nula, esto quiere decir que el 0
verdadero es diferente de cero y por consiguiente se puede
concluir que el intercepto no pasa por el origen, esto con un 95%
de confianza.

Coeficiente de Determinacin

Prediccin de los valores medios poblacionales


mediante el modelo de regresin estimado.
Banda de confianza.

Prediccin de los valores medios poblacionales


mediante el modelo de regresin estimado.
Banda de confianza.

donde

Prediccin de los valores medios poblacionales


mediante el modelo de regresin estimado.
Banda de confianza.

Ejemplo: Para el modelo de regresin estimado se quiere


predecir el valor esperado de Y(gastos) dado un valor de X=160
(ingresos), adems de construir el intervalo de confianza
apropiado, utilizando un nivel de significancia del 0.05.
Modelo estimado:

Ejemplo: Continuacin Banda de confianza


Primero calculamos la estimacin puntual:

Ahora se procede a estimar el intervalo de confianza:

(101.106,110.712)

Intervalos de confianza de acuerdo al modelo


Xi
80
100
120
140
160
180
200
220
240
260

LI
56.38
67.9
79.27
90.39
101.1
111.29
120.93
130.18
139.17
148.02

LS Amplitud del intervalo


73.98
17.6
82.83
14.93
91.82
12.55
101.07
10.68
110.72
9.62
120.9
9.61
131.62
10.69
142.73
12.55
154.1
14.93
165.62
17.6

65.18
75.36
85.55
95.73
105.91
116.09
126.27
136.46
146.64
156.82

La amplitud de los intervalos se hace ms chica a medida que los


valores de X se acercan al valor del promedio, que ste caso es
de 170.

Aspecto Importante

El modelo de regresin que se estima slo se utilizar para la


prediccin de los valores esperados de Y, dado un valor de X,
estando el valor de X siempre dentro del rango de valores
observados.

Transformaciones lineales

Regresin Cuadrtica
Un modelo cuadrtico es de la forma:

donde a,by c son constantes a estimar.

Ejemplo 3: Se desea analizar el precio (Y) de una casa en base al


rea de la misma (X).

Grficas de Regresin

Modelos no lineales que pueden ser


transformados en lineales

Grfica del ejemplo 3

Transformaciones de Box y Cox


Box y Cox (1964) propusieron una familia de funciones de
potencia para la variable respuesta con el objetivo de
garantizar el cumplimiento de todos los supuestos de un
modelo lineal. Estas transformaciones combinan el objetivo
de encontrar una relacin simple, con homogeneidad de
varianzas, mejorando la normalidad.
Las transformaciones originales de Box y Cox estn dadas
por:

Transformaciones de Box y Cox


Valores ms utilizados para lambda:

Вам также может понравиться