Вы находитесь на странице: 1из 52

ANLISIS DE

REGRESIN
LINEAL
Docente:
Ing. Estadstica Jorsi Balczar Gallo

Dos
variables
pueden
estar
relacionadas de muchas maneras
distintas, y para conseguir algn
proceso o estudio, es de gran ayuda
identificar la relacin que hay entre
ellas.

COVARIANZA
Para las variables estadsticas bidimensionales se define la
covarianza como la media de los productos de las
desviaciones respecto de la media de cada una de las
variables componentes.
Esta medida es muy interesante. Mide la dependencia
existente entre ambas variables (en funcin slo de los
datos presentes de la muestra).

Si la covarianza es grande, manifestar la existencia de una cierta


dependencia (en sentido estadstico) entre X e Y. Si es pequea, indicar
que ambas variables se comportan de manera ms independiente.

La covarianza se representa por Sxy o xy.

Si xy >0 la relacin es directa.


Si xy <0 la relacin es inversa.
Si xy =0 son independientes.

Interpretacin:
Segn sea el signo de la covarianza:

a) Covarianza directa o positiva positiva: al


aumentar los valores de la variable X,
aumentan los valores de la variable Y. La nube
de puntos se orienta a la derecha y hacia
arriba. Ejemplo: ganancias-utilidades.
b) Covarianza inversa o negativa: al aumentar los
valores de la variable X, disminuyen los valores
de la variable Y. La nube de puntos se orienta a
la derecha y hacia abajo. Ejemplo: n de
maquinarias en una empresa- mano de obra.

Ejemplo:
Los valores de dos variables X: n de horas de
estudio e Y: cursos desaprobados se distribuyen
segn la tabla siguiente:

Hallar la covarianza de la distribucin.

En primer lugar convertimos la tabla de doble entrada


en tabla simple y calculamos los promedios.

Recordando

Despus de tabular los datos hallamos:

La distribucin tiene una covarianza negativa, por lo


tanto, tiene una relacin inversa. A medida de que el n
de horas de estudio aumentan, el n1 de cursos
desaprobados disminuye.

Po ejemplo, consideraremos dos variables X e Y, que miden,


respectivamente, la satisfaccin de un consumidor con los
supermercados de cierta ciudad y el nmero de aos de
residencia en esa ciudad. Supongamos que x puede tomar
valores 1,2,3 4, que representan del menor al mayor nivel de
satisfaccin, y que y toma el valor 1 si el consumidor lleva
menos de 6 aos viviendo en la ciudad y 2 en otro caso. La
tabla muestra los datos:
y

X
1

14

23

17

23

Hallar la covarianza. Interpretar.


Rpta.- -0.0468

CORRELACIN
LINEAL

La medida de correlacin es una


medida libre de escala y nos es til
para evaluar la fuerza de asociacin
lineal entre dos variables aleatorias. Es
fcil de obtener, dividiendo la
covarianza por el producto de las
desviaciones estndar individuales. El
valor
resultante
se
denomina
coeficiente de correlacin.

COEFICIENTE DE CORRELACION DE
PEARSON
Se llama correlacin a la teora que trata de estudiar la relacin o
asociacin lineal que existe entre las dos variables que intervienen
en una distribucin bidimensional.
El coeficiente de correlacin lineal es el cociente entre la
covarianza y el producto de las desviaciones tpicas de ambas
variables.
El coeficiente de correlacin lineal se expresa mediante la letra r.

Cov( x, y) sxy
r

sx s y
sx s y
S XY

n n
xi yi
i
xi yi i 1 i 1
n
i 1

n 2
xi
i
S X xi2 i 1
n
i 1

n 2
yi
i
SY yi2 i 1
n
i 1

Forma abreviada de calcular el r:


_ _

xy n x y

_
2

( x n x )( y n y )
2

Si la covarianza es positiva, la correlacin


es directa.
Si la covarianza es negativa, la correlacin
es inversa.
Si la covarianza es nula, no existe
correlacin.

Gua para la interpretacin de r:


Valor de r

Interpretacin

0,00

Ausencia de correlacin lineal

0,10 a 0,19

Correlacin lineal insignificante

0,20 a 0,39

Correlacin lineal baja-leve

0,40 a 0,69

Correlacin lineal moderada

0,70 a 0,99

Correlacin lineal alta a muy alta

1,00

Funcin lineal perfecta

Diagrama de dispersin
Representacin grfica de la relacin entre
variables cuantitativas. Primer indicio de la forma o
naturaleza de la relacin entre variables. Para el
caso de dos variables tenemos:

Lineal positiva

Lineal negativa

No lineal

Ninguna relacin

Muestras de observaciones de distribuciones conjuntas con


diferentes correlaciones:

r=0.9

r=0.8

r=1

r=0.4

Podemos concluir que.


El anlisis de correlacin es una tcnica
estadstica que nos permite medir la
fuerza o intensidad de la relacin entre
dos variables, su grado de relacin y su
sentido.
Si se trata de medir la intensidad de la
asociacin
entre
dos
variables
linealmente relacionadas, se utiliza el
coeficiente de correlacin de Pearson.

Ejemplo, Se tienen los datos del costo (x) y la rentabilidad


(y) de la publicidad:
x

4.07

17.41

2.51

22.25

1.25

106.84

14.67

14.41

16.02

24.18

3.81

29.73

9.87

35.95

1.27

61.81

1.8

48.36

1.5

78.74

1.68

66.42

2.72

121.95

Calcular el coeficiente de correlacin lineal e interpretar.

Los clculos para hallar el coeficiente de correlacin lineal se


muestran en la siguiente tabla:

x2

y2

xy

4.07

17.41

16.56

303.11

70.86

2.51

22.25

6.30

495.06

55.85

1.25

106.84

1.56

11414.79

133.55

14.67

14.41

215.21

207.65

211.39

16.02

24.18

256.64

584.67

387.36

3.81

29.73

14.52

883.87

113.27

9.87

35.95

97.42

1292.40

354.83

1.27

61.81

1.61

3820.48

78.50

1.8

48.36

3.24

2338.69

87.05

1.5

78.74

2.25

6199.99

118.11

1.68

66.42

2.82

4411.62

111.59

2.72

121.95

7.40

14871.80

331.70

61.17

628.05

625.53

46824.12

2054.06

x 5.0975

y 52.3375

Reemplazando,

2054 . 06 12 5.09 52.34


2
2
(625.53 12 5.09 )(46824 .12 12 52.34 )

0.23

La correlacin indica que existe una


correlacin lineal baja o leve entre el costo y
la rentabilidad de la publicidad en las
revistas. El hecho de que el coeficiente de
correlacin estimado sea negativo, indica que
los valores altos del costo tienden a estar
asociados con valores bajos de rentabilidad.

Ejemplo Propuesto

Un centro comercial sabe en funcin de la


distancia, en kilmetros, a la que se site
de un ncleo de poblacin, acuden los
clientes, en cientos, que figuran en la
tabla:

Calcular el coeficiente de correlacin


lineal.

Si sabemos que existe una relacin entre una variable


denominada dependiente y otras denominadas
independientes (como por ejemplo las existentes
entre: la experiencia profesional de los trabajadores
y sus respectivos sueldos, las estaturas y pesos de
personas, la produccin agraria y la cantidad de
fertilizantes utilizados, etc.), se suele recurrir a los

estudios de regresin.

Objetivo
Estudio de la relacin funcional entre dos
variables.
Establecer una relacin cuantitativa entre dos o
ms variables relacionadas.

Se trata de PREDECIR y/o EXPLICAR el valor


de una variable (v. Dependiente), dado el valor
de otra(s) variable(s) relacionada(s) (v.
Independiente(s)).
Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.

REGRESIN
LINEAL SIMPLE

Representamos en un grfico los pares de valores de una


distribucin bidimensional: la variable "x" en el eje
horizontal o eje de abcisa, y la variable "y" en el eje
vertical, o eje de ordenada. Vemos que la nube de puntos
sigue una tendencia lineal:

El coeficiente de correlacin lineal nos permite determinar


si, efectivamente, existe relacin entre las dos variables.
Una vez que se concluye que s existe relacin, la regresin
nos permite definir la recta que mejor se ajusta a esta
nube de puntos.

Una recta viene definida por la siguiente


frmula:

Para resolver el problema tenemos que AJUSTAR una


recta a los puntos observados, a fin de usarla para
predecir el valor de Y (variable dependiente) para un
valor dado de X (variable independiente).
No todos los puntos se encontrarn sobre la recta, pero
la recta ajustada se supone que pasa lo ms cerca posible
de todos los puntos.
La recta obtenida se denomina recta de regresin cuya
ecuacin es la de regresin lineal simple.
Para cada valor de X prefijado, hay una subpoblacin de
valores Y.

Ecuacin de la recta

a: Ordenada en el origen o intercepto,


distancia entre el origen y el punto en que la
recta corta al eje Y, puede ser +, - 0.
b: Coeficiente de regresin, expresa la
cantidad en la que vara Y cuando X aumenta
en una unidad, puede ser +, - 0

Utilidad que tiene la recta de


regresin
Mediante la recta de regresin podramos
obtener de manera aproximada el valor de la
variable dependiente (y) de la que conociramos
la variable independiente (x), en una poblacin
semejante a aquella de la que se ha obtenido la
muestra.
De manera ms precisa, si conocemos la
expresin de la recta de regresin, se pueden
calcular valores para la variable y, conocidos los
de x, como si se tratara de una funcin.

ESTIMACIN DEL MODELO DE REGRESIN LINEAL


SIMPLE
Consiste en determinar los valores de "a" y "b " a partir de la
muestra, es decir, encontrar los valores de a y b con los datos
observados de la muestra. El mtodo de estimacin es el de
Mnimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin


muestral estimada es

CMO SE INTERPRETAN LOS


PARMETROS
Se interpretan como:

a es el valor estimado de la variable Y cuando la


variable X = 0

b es el coeficiente de regresin que est expresado


en las mismas unidades de Y por cada unidad de X.

Indica el nmero de unidades en que vara Y cuando


se produce un cambio en una unidad en X.

EJEMPLO 1:
El dueo de una licorera est interesado en medir el efecto del
precio de las cajas de whisky escocs sobre la cantidad vendida.
Los resultados de la tabla adjunta se obtuvieron de una muestra
aleatoria de las ventas de ocho semanas. El precio est medido en
dlares y las ventas en cajas:

PRECIO

192

205

197

213

208

199

178

172

VENTAS

25

14

18

12

11

15

29

35

A. Estimar la recta de regresin


para las ventas.
B. Estimar cunto ser la cantidad
vendida si el precio de la caja es
de 200 dlares.

Resolviendo:

Totales

Precio

Ventas

X*Y

X2

192

25

4800

36864

205

14

2870

42025

197

18

3546

38809

213

12

2556

45369

208

11

2288

43264

199

15

2985

39601

178

29

5162

31684

172

35

6020

29584

1564

159

30227

307200

Reemplazando los valores tenemos:


n8
_

X 1564 / 8 195.5
_

Y 159 / 8 19.875
XY n X Y 30227 8 195.5 19.875

0.5963
307200 8 195.5
X n X
_ _

a Y b X 19.875 (0.5963) 195.5 136.4545

Y 136.4545 0.5963x

Por cada dlar que incrementa el precio de la caja de


whisky las ventas disminuye en 0.5963 cajas.

Coeficiente de Determinacin (R2) (%)

Indica el porcentaje de variabilidad en los datos de Y


que estn explicados por la regresin lineal sobre X. Si
tenemos el valor del coeficiente de correlacin ( r ),
entonces R2 es el valor de r elevado al cuadrado.
Tambin se calcula en base a la siguiente formula:

Este valor multiplicar por 100 para


expresar en porcentaje

Ejemplo 2
Una compaa farmacutica conduce un estudio
piloto para evaluar la relacin entre tres dosis
de un nuevo agente hipntico y tiempo de
sueo. Los resultados son presentados en la
siguiente tabla.

Y
X

Diagrama de dispersin o de puntos


En el diagrama de
puntos se aprecia
una relacin lineal
positiva o directa
entre
ambas
variables.
Modelo
de
regresin lineal:
y =a+bx

Clculos previos

Por consiguiente, el modelo de


regresin estimado es:

Interpretacin:
Por cada
1 nM/kg en la dosis del agente
hipntico, el tiempo de sueo aumenta en 0.5
horas.

Y el coeficiente de determinacin es:

R 2 81.07%
Interpretacin:
1. El tiempo de sueo est explicado en un
81.07% por la dosis del agente hipntico
ingerida.
2. El modelo explica en 81.07% el tiempo de
sueo.

EJEMPLO PROPUESTO:
Los datos de la siguiente tabla representan las estaturas (X,
cm) y los pesos (Y, kg) de una muestra de 12 hombres
adultos. Para cada estatura fijada previamente se observ el
peso de una persona seleccionada de entre el grupo con dicha
estatura, resultando:

La ecuacin de regresin estimada es:

Coeficiente de correlacin: R= 0.9379


Coeficiente de determinacin: R=0.8796

El valor de b = 0.8676 indica el incremento del peso en


kilogramos, en promedio, por cada centmetro de aumento
en la estatura de los hombres adultos.
El valor de a, no tiene interpretacin prctica en el ejemplo,
se interpretara como el valor obtenido, en promedio, para
el peso Y, cuando la estatura es 0.

Utilizando la ecuacin de regresin para estimar o predecir valores de


la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.
Cunto se espera que pese (en promedio) una persona que mide 1.60
m?. Sustituyendo el valor de inters en la ecuacin:

Se obtiene:
Esta relacin se ha estimado en un R = 93.7, que indica una fuerte
relacin positiva.
Adems si consideramos el coeficiente de determinacin R = 87.9
podemos indicar que el 87.9% de las variaciones que ocurren en el
peso se explicaran por las variaciones en la variable estatura.

REGRESIN
LINEAL
MLTIPLE

Es evidente que lo ms econmico y rpido para modelar el


comportamiento de una variable Y es usar una sola variable
preeditora y usar un modelo lineal. Pero algunas veces es
bastante obvio de que el comportamiento de Y es imposible que
sea explicada en gran medida por solo una variable.
Por ejemplo, es imposible tratar de explicar el rendimiento de un
estudiante en un examen, teniendo en cuenta solamente el
nmero de horas que se prepar para ella. Claramente, el
promedio acadmico del estudiante, la carga acadmica que lleva,
el ao de estudios, son tres de las muchas otras variables que
pueden explicar su rendimiento. Tratar de explicar el
comportamiento de Y con ms de una variable preeditora usando
una funcional lineal es el objetivo de regresin lineal mltiple

Maneja varias variables independientes. Cuenta


con varios parmetros. Se expresan de la forma:

para i = 1,2,.n

Bo: media de Y cuando todas las Xi son cero.


B1: cambio en la media de Y cuando Xi aumenta una
unidad permaneciendo constantes las dems.

La estimacin de los coeficientes se hace usando


notacin matricial

siendo
la matriz columna de coeficientes
estimados, Y la matriz columna de observaciones de
la variable dependiente y X la denominada matriz de

diseo.

es decir la matriz de datos con una primera


columna de 1's

Ejercicio Propuesto
Una cadena de restaurantes de comida rpida decide llevar a
cabo un experimento para medir la influencia sobre las ventas
del gasto en publicidad. En ocho regiones del pas se realizaron
diferentes variaciones relativas en el gasto de publicidad,
comparado con el ao anterior, y se observaron las variaciones
en los niveles de ventas resultantes. La tabla adjunta muestra
los resultados:

INCREMENTO DEL
GASTO
EN PUBLICIDAD %
INCREMENTO EN LAS
VENTAS %

14

10

2.4

7.2

10.3

9.1

10.2

4.1

7.6

3.5

A. Estimar la regresin lineal del incremento en las ventas


sobre el incremento del gasto en publicidad.

B. Estimar cunto ser el incremento de las ventas en % si se


incrementa el gasto en publicidad en un 15%.
C. Estimar cunto fue el incremento del gasto de publicidad si
las ventas aumentaron en un 10%

Fin

Вам также может понравиться