Вы находитесь на странице: 1из 9

1.8.

Estadstica descriptiva bidimensional: Regresin lineal simple


Correlacin
La correlacin mide la asociacin lineal entre las variables X e Y.

Regresin
La regresin encuentra una relacin funcional entre las variables X e Y.

Diagrama de dispersin
Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),, (xn, yn),
El primer paso en el anlisis conjunto de las variables, es construir una grfica de los datos
muestrales en un plano bidimensional. Esta grfica se denomina diagrama de dispersin o scatter
plot.

Fuente: Notas de clase de Estadstica Prof. A. Caldern - PUCP

Covarianza
Dados n datos (x1 , y1), (x2 , y2),, (xn , yn), la covarianza se define como:
n

sd xy
n

i 1

i 1

i 1

x y i y
n

x y x y x y
i i

sd xy

i 1

i i

i 1

xy

Coeficiente de correlacin lineal de Pearson


Dados n datos (x1 , y1), (x2 , y2),, (xn , yn), el coeficiente de correlacin de Pearson se define como:

sd xy
sd x sd y

El coeficiente de correlacin cuantifica el grado de asociacin lineal que existe entre dos variables
XeY
Vara dentro del intervalo de -1 y 1.
Si r = 0 entonces indica que no existe una asociacin lineal entre las variables (pero puede
existir otro tipo de asociacin entre ellas).
Si r se acerca a 1 o a -1 indica que existe una asociacin lineal fuerte entre las variables, directa
si r = 1 e inversa si r = -1.

Observaciones
Una correlacin alta no indica que una variable dependa de la otra o que sea causa de las
variaciones en la otra. La asociacin entre ellas no necesariamente es causal.
Una correlacin alta indica que el modelo lineal podra ser adecuado para hacer predicciones
en el intervalo de variacin de los datos; fuera de l, el tipo de relacin entre las variables
puede cambiar o no existir.
Podemos obtener valores de correlacin muy altos si usamos una muestra de dos o tres pares
de datos pero en ese caso es claro que la conclusin acerca de la asociacin entre las variables
puede no ser vlida.
Diversos grupos de datos pueden tener el mismo coeficiente de correlacin (como se observa
en el grfico siguiente), sin embargo, el tipo de relacin entre las variables es distinta, lo que
muestra la importancia de realizar el diagrama de dispersin.

En la figura de la izquierda se
muestran cuatro conjuntos de
datos bivariados, en todos los
casos se cumple que:
n = 11
Media de los xi = 9,0
Media de los yi =7,5
Corr(x, y) = rxy =0,82

Fuente: http://www.itl.nist.gov/div898/handbook/eda/section1/eda16.htm

1.9. Regresin lineal simple


El anlisis de regresin lineal estudia la relacin lineal entre dos variables numricas y da como
resultado una ecuacin matemtica y a bx que describe dicha relacin.
La regresin lineal simple encuentra una recta L: y = a + bx que modela los datos, para estimar un
valor de la variable Y dado un valor de la variable X.

Mtodo de mnimos cuadrados


Dados n datos (x1 , y1), (x2 , y2),, (xn , yn), donde: xi (i = 1, 2,, n) son los valores observados de la
variable independiente X e yi (i = 1, 2,, n) son los valores observados de la variable dependiente
Y.
Si la recta L: y = a + bx es la recta de regresin, y i a bxi (i = 1, 2,, n) es el valor esperado de Y
dado que X = xi. Luego, el error es ei yi y i (i = 1, 2,, n).

La suma de cuadrados de los errores (SCE) es:


n

SCE ei yi y i yi a bxi
i 1

i 1

i 1

La recta de regresin de mnimos cuadrados de Y sobre X, es la recta L: y = a + bx que minimiza la


suma de cuadrados de los errores.
Los valores de b y a que minimizan SCE son:

br
Tambin se tiene que b

sd y
sd x

, a y bx

sd xy
sd x2

Interpretacin de los coeficientes de regresin


a es igual al valor estimado de la variable dependiente Y cuando la variable independiente X
vale cero.
b es igual al incremento estimado de la variable dependiente Y a incrementos unitarios de la
variable independiente X.

Propiedad de la recta de regresin


Si la recta L: y = a + bx es la recta de regresin de mnimos cuadrados de Y sobre X.
El punto x, y pertenece a la recta de regresin.

La media de los errores es igual a cero, es decir, e 0

y y , la media de los valores estimados con la recta de regresin es igual a la media de los
valores observados.

Prediccin
Para predecir el valor de la variable dependiente para un valor dado de la variable independiente,
basta con reemplazar el valor dado en la frmula de la recta de mnimos cuadrados.

Coeficiente de determinacin
Se puede demostrar que:
( )

()

( )

Donde:
Var (Y) es la varianza de los valores observados de la variable dependiente.
Var ( ) es la varianza de los valores estimados con la recta de regresin.
Var (e) es la varianza de los errores ( ei yi y i ).

El coeficiente de determinacin es:


n

( y y)

( y y)

i 1
n

Var (Y )

Var (Y )

i 1

Mide qu proporcin de la varianza de los valores observados de Y es explicada por la recta de


regresin de mnimos cuadrados.
Se cumple que R r 2 ,es decir, el coeficiente de determinacin es el cuadrado del coeficiente
de correlacin lineal de Pearson.
Se cumple que 0 R 1
Mientras ms prximo a 1 sea el coeficiente de determinacin, mejor ser el ajuste de los
datos al modelo lineal.
Ejemplo 1
Durante ocho semanas se observ la relacin, entre el nmero de comerciales contratados y el
valor de las ventas (en miles de soles) de un artculo.

a.
b.
c.
d.
e.

Semana

Comerciales (X)

Ventas (Y)

58

208

51

171

85

253

35

126

62

206

70

220

98

275

104

281

Realice el diagrama de dispersin.


Calcule la recta de regresin de las ventas sobre el nmero de comerciales.
Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana.
Calcule e interprete el coeficiente de correlacin.
Calcule e interprete el coeficiente de determinacin.

Solucin
a. El diagrama de dispersin es el siguiente:

[Escriba una cita


del documento
o el de la recta de regresin.
b. Calculemos
los coeficientes
resumen
de
x 70,375, y 217,5un
, sd 22,242, sd y 49,196, sd xy 1074,187
punto interesante. x
b 2situar
,1712, el
a 64,699
De donde
Puede
cuadro de texto en
Por lo tanto, la recta de regresin es L : y 64,699 2,17121x
cualquier lugar del
documento. Use la
ficha Herramientas
de dibujo para
cambiar el formato
del cuadro de texto
de la cita.]

[Escriba una cita


del documento o el
resumen de un
punto interesante.
Puede situar el
cuadro de texto en
cualquier lugar del
documento. Use la
ficha Herramientas
de dibujo para
cambiar el formato
del cuadro de texto

c. Si x es igual a 75, entonces, y a b (75) 227,5


d. El coeficiente de correlacin es r

sd xy
sd x sd y

1074.187
0,981, luego hay una
22.242 49.196

asociacin lineal fuerte y directa entra las variables.


e. El coeficiente de correlacin R r 2 0.96 96 % . Con la recta de regresin se ha logrado
explicar el 96% de la varianza de la variable valor de las ventas. El ajuste de los datos al modelo
lineal es muy bueno.
Ejemplo 2
A continuacin se muestran las notas obtenidas en un examen de Estadstica y la cantidad de
horas dedicadas a estudiar para dicha evaluacin por cada uno de 17 alumnos seleccionados al
azar.
X:
Horas
Y:
Nota

5,0

6,0

12,0

10,0

8,0

8,5

4,5

5,0

2,0

2,5

4,0

5,0

6,0

3,0

4,0

6,0

12,5

15

12

17

14

15

15

13

13

10

10

10

14

12

12

13

11

17

a. Grafique el diagrama de dispersin y evale si parece existir relacin lineal entre el tiempo de
estudio y la nota obtenida en el examen de Estadstica.
b.
c.
d.
e.

Determine la recta de regresin de mnimos cuadrados e interprete sus coeficientes.


Estime la nota de un alumno que estudi nueve horas.
Calcule e interprete el coeficiente de correlacin.
Calcule e interprete el coeficiente de determinacin.

Ejemplo 3
Se llev a cabo un estudio para investigar la relacin entre Y: el precio de reventa (en cientos de
dlares) y X: la antigedad (en aos) de automviles compactos de lujo. Se determin que la
ecuacin de la recta de regresin de mnimos cuadrados fue y = 192,7 + bx. Tambin se determin
que por cada mes adicional de antigedad del automvil, la estimacin del precio de reventa baja
en 153,50 dlares. Con esta informacin estime el precio de reventa de un automvil compacto de
lujo con cuatro aos de antigedad.

Ejercicios
1.

A continuacin, se muestran los datos recogidos del valor en dlares de dos acciones, una de
un mercado externo cuya cotizacin termina a las 9 am. hora peruana, y otra de la Bolsa de
Valores de Lima cuya cotizacin concluye a las 3 pm.

Da

Accin del mercado


externo

Accin de la BVL

2-Feb-2009

14,29

16,24

3-Feb-2009

14,32

16,28

4-Feb-2009

14,33

16,33

5-Feb-2009

14,28

16,32

6-Feb-2009

14,36

16,47

9-Feb-2009

14,43

16,52

10-Feb-2009

14,35

16,38

11-Feb-2009

14,41

16,45

12-Feb-2009

14,43

16,47

13-Feb-2009

14,36

16,33

a. Encuentre la recta de regresin que mejor se ajuste a los datos y que permita predecir el
precio de la accin que cotiza en la BVL cuando se conoce el precio de la accin del
mercado externo.
b. Estime el precio de la accin que cotiza en la BVL cuando el precio de la accin del
mercado externo es de 14,25 soles.
c. Calcule el coeficiente de determinacin y comente sus resultados.
2.

Los datos de la siguiente tabla muestran el rea construida (en metros cuadrados) y el precio
de venta (en miles de dlares) de 10 departamentos nuevos ubicados en el mismo distrito.
Departamento

rea (metros cuadrados)

Precio (miles de US$)

126

78,5

180

175,7

162

139,5

144

129,8

166

95,6

163

110,3

207

260,5

149

105,2

134

88,6

10

174

165,7

a. Calcule e interprete el coeficiente de correlacin entre el rea del departamento y el


precio de venta.
b. Determine la ecuacin de la recta de regresin de mnimos cuadrados e interpretar sus
coeficientes.
c. Use la recta de regresin hallada en (b) para estimar el precio de un departamento de
150 metros cuadrados.
d. Calcule e interprete el coeficiente de determinacin.

Вам также может понравиться