Вы находитесь на странице: 1из 44

1

Regresin lineal y correlacin


Objetivos: Al terminar este captulo podr:

1. Trazar un diagrama de dispersin.

2. Entender e interpretar los trminos variable dependiente y variable
independiente.

3. Calcular y explicar el coeficiente de correlacin, y el coeficiente de
determinacin, as como el error estndar de estimacin.

4. Realizar una prueba de hiptesis para establecer si el coeficiente de
correlacin de la poblacin es cero.

2
5. Determinar la lnea (o recta) de regresin de mnimos cuadrados.

6. Elaborar e interpretar intervalos de confianza e intervalos de prediccin
para la variable dependiente.

7. Establecer e interpretar una tabla de ANOVA.
Captulo 13 (Continuacin)

Introduccin
El vicepresidente de una gran
compaa opina que las ganancias
anuales de la empresa dependen de
la cantidad gastada en investigacin
y desarrollo. El presidente de la
compaa no est de acuerdo y ha
solicitado pruebas.
Introduccin
Qu herramienta puede presentar el
vicepresidente que sustenten su teora?
Qu variables tendr que medir?
Qu ecuacin ayudar a predecir las
ganancias anuales en funcin de la
cantidad presupuestada en I y D ?
Ser esta ecuacin lineal o no lineal?
Qu precisin se puede esperar al usar
esta herramienta de toma de decisiones?


Ao
Gasto en I y D
(ciento de
miles )
Ganancia
anual
(millones)
1999 2 20
2000 4 25
2001 5 34
2002 4 30
2003 6 33
2004 5 34
2005 5 36
2006 7 35
2007 8 40
2008 7 37
2009 8 41
A continuacin se presentan datos de 11 aos
Una lnea recta podra ser lo
ms adecuado para relacionar
estas variables?
0
10
20
30
40
50
0 2 4 6 8 10
6
Anlisis de correlacin
El anlisis de correlacin es un grupo de tcnicas
estadsticas usadas para medir la fuerza de la
asociacin entre dos variables.
Un diagrama de dispersin es una grfica que
representa la relacin entre dos variables.
La variable dependiente es la variable que se predice o
calcula.
La variable independiente proporciona las bases para el
clculo. Es la variable de prediccin.
Diagrama de dispersin

Grfica que presenta la relacin entre dos variables de inters

28.5 27.0 25.5 24.0
350
325
300
275
250
12.0 10.5 9.0 7.5 6.0
150
140
130
120
110
100
90
80
Y1*X1 Y*X
Scatterplot of Y1 vs X1, Y vs X
8
El coeficiente de correlacin, r
El coeficiente de correlacin (r) es una medida de la
intensidad de la relacin lineal entre dos variables.
Requiere datos de nivel de razn.
Puede tomar cualquier valor de -1.00 a 1.00.
Los valores de -1.00 o 1.00 indican la correlacin
perfecta y fuerte.
Los valores cerca de 0.0 indican la correlacin dbil.
Los valores negativos indican una relacin inversa y los
valores positivos indican una relacin directa.
9
Correlacin negativa perfecta
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Y
10
Correlacin positiva perfecta
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Y
11
Correlacin cero
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
Y
X
12
Correlacin positiva fuerte
Y
X
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
14
Frmula para r
Calculamos el coeficiente de correlacin de las
frmulas siguientes.
y x
s s n
Y Y X X
r
) 1 (
) )( (

E
=
| | ( ) ( ) | |
2
2 2 2
) ( ) (
) )( ( ) (
Y Y n X X n
Y X XY n
r
E E E E
E E E
=

15
Ao Gasto en I y D Ganancia anual
x y
1999 2 20
2000 4 25
2001 5 34
2002 4 30
2003 6 33
2004 5 34
2005 5 36
2006 7 35
2007 8 40
2008 7 37
2009 8 41
61 365
x*y
40
100
170
120
198
170
180
245
320
259
328
2130
x^2
4
16
25
16
36
25
25
49
64
49
64
373
y^2
400
625
1156
900
1089
1156
1296
1225
1600
1369
1681
12497
| | ( ) ( ) | |
2
2 2 2
) ( ) (
) )( ( ) (
Y Y n X X n
Y X XY n
r
E E E E
E E E
= r= 0.915185039
16
Coeficiente de determinacin
El coeficiente de determinacin (r
2
) es la proporcin de
la variacin total en la variable dependiente (y) que se
explica por la variacin en la variable independiente (x).
Es el cuadrado del coeficiente de correlacin.
Su rango es de 0 a 1.
No da ninguna informacin sobre la direccin de la
relacin entre las variables.

Qu es el anlisis
de correlacin
lineal ?
Es una herramienta estadstica que podemos
usar para describir el grado de relacin
lineal entre las variables.
ANLISIS DE CORRELACIN
acin er de Coef r min det . =
915 . 0 838 . 0 = = r
Tiene el mismo signo que b1
Existe un una fuerte
correlacin lineal directa
entre gasto y ganancia.
Interpretacin:
1. El valor absoluto de r indica la fuerza de la relacin
entre Y y X.
2. El signo da la direccin de la relacin (directa o
inversamente proporcional)
r = 1 correlacin positiva perfecta.
r = -1 correlacin negativa perfecta.
r = 0 no hay relacin lineal entre Y y X.
20
21
Ejemplo 2
Juan Escobedo, presidente de la sociedad de alumnos
de una Universidad, se ocupa de estudiar el costo de los
libros de texto. l cree que hay una relacin entre el
nmero de pginas en el texto y el precio de venta del
libro. Para proporcionar una prueba, selecciona una
muestra de ocho libros de texto actualmente en venta en
la librera. Dibuje un diagrama de dispersin.
Compruebe el coeficiente de correlacin.
22
Libro Pginas Precio ($)
Intr. a la Historia 500 84
lgebra 700 75
Intr.a la Psicologa 800 99
Intr. a la Sociologa 600 72
Mercadotecnia 400 69
Intr. a la Biologa 500 81
Fund. de Jazz 600 63
Intr.a la Enfermera 800 93

Ejemplo 1 (Continuacin)
23
400 500 600 700 800
60
70
80
90
100
Page
Scatter Diagram of Number of Pages and Selling Price of Text
Price ($)
Ejemplo 1 (Continuacin)

24
Libro Pginas Precio ($)
X Y XY X
2
Y
2

Intr. a la Historia 500 84 42,000
lgebra 700 75 52,500
Intr. a la Psicologa 800 99 79,200
Intr. a la Sociologa 600 72 43,200
Mercadotecnia 400 69 27,600
Intr. a la Biologa 500 81 40,500
Fund. de Jazz 600 63 37,800
Intr. a la Enfermera 800 93 74,400
Total 4,900 636 397,200

25
Libro Pginas Precio ($)
X Y XY X
2
Y
2

Intr. a la Historia 500 84 42,000 250,000 7,056
lgebra 700 75 52,500 490,000 5,625
Intr. a la Psicologa 800 99 79,200 640,000 9,801
Intr. a la Sociologa 600 72 43,200 360,000 5,184
Mercadotecnia 400 69 27,600 160,000 4,761
Intr. a la Biologa 500 81 40,500 250,000 6,561
Fund. de Jazz 600 63 37,800 360,000 3,969
Intr. a la Enfermera 800 93 74,400 640,000 8,649
Total 4,900 636 397,200 3,150,000 51,606

Ejemplo 1 (Continuacin)
26
| | ( ) ( ) | |
2
2 2 2
) ( ) (
) )( ( ) (
Y Y n X X n
Y X XY n
r
E E E E
E E E
=
Ejemplo 1 (Continuacin)
| || |
2 2
) 636 ( ) 606 , 51 ( 8 ) 900 , 4 ( 000 , 150 , 3 ( 8
) 636 )( 900 , 4 ( ) 200 , 397 ( 8


=
614 . 0 =
27
La correlacin entre el nmero de pginas y el precio
de venta del libro es 0.614. Esto indica una asociacin
moderada entre las variables. Pruebe la hiptesis de
que no hay correlacin en la poblacin. Utilice un nivel
de la significancia del .02.
Paso 1: H
0
: La correlacin en la poblacin es cero.
H
1
: La correlacin en la poblacin no es cero.
Paso 2: H
0
es rechazada si t>3.143 o si t<-3.143.
Hay 6 grados de libertad, encontrados cerca.
n 2 = 8 2 = 6.
Ejemplo 1 (Continuacin)
28
Paso 3: Para encontrar el valor del estadstico
de prueba, utilizamos:



Paso 4: H
0
no se rechaza. No podemos rechazar
la hiptesis de que no hay correlacin en la
poblacin. La cantidad de asociacin puede
ser debido al azar.

905 . 1
) 614 (. 1
2 8 614 .
1
2
2 2
=

=
r
n r
t
Ejemplo 1 (Continuacin)
82 . 6
838 . 0 1
2 11 915 . 0
=


=
cal
t
Con un nivel de significancia
del 5% se puede afirmar que
el gasto en I y D est
correlacionado con la
ganancia.
Se Rechaza Ho
EJERCICIOS
Utilice un diagrama de dispersin y el
coeficiente de correlacin lineal r para
determinar si existe una correlacin (de que
tipo) entre las dos variables:

30
X 1 0 5 2 3
Y 3 1 15 6 8
X 0 3 3 1 4
y 1 7 2 5 5
31
Anlisis de regresin
En anlisis de regresin utilizamos la variable
independiente (X) para estimar la variable dependiente
(Y).
La relacin entre las variables es lineal.
Ambas variables deben ser por lo menos escala del
intervalo.
El criterio de mnimos cuadrados se utiliza para
determinar la ecuacin. Este es el trmino (Y Y')
2
32
Anlisis de regresin
La ecuacin de regresin es: Y' = a + bX, donde:
Y' es el valor pronosticado de la variable Y para un
valor seleccionado de X.
a es la ordenada de la interseccin con el eje Y cuando
X = 0. Es el valor estimado de Y cuando X=0
b es la pendiente de la recta, o el cambio promedio en Y'
para cada cambio de una unidad en X.
el principio de mnimos cuadrados se utiliza para
obtener a y b.
33
Anlisis de regresin
El principio de mnimos cuadrados se utiliza para
obtener a y b. Las ecuaciones para determinar a y b
son:

b
n XY X Y
n X X
a
Y
n
b
X
n
=

=
( ) ( )( )
( ) ( )
E E E
E E
E E
2 2
34
Desarrolle una ecuacin de regresin para la
informacin dada en el Ejemplo 2 que se puede utilizar
para estimar el precio de venta basado en el nmero de
pginas.

05143 .
) 900 , 4 ( ) 000 , 150 , 3 ( 8
) 636 )( 900 , 4 ( ) 200 , 397 ( 8
2
=

= b
0 . 48
8
900 , 4
05143 . 0
8
636
= = a
Ejemplo 2 (Continuacin)
35
La ecuacin de regresin es:
Y' = 48.0 + .05143X
La ecuacin cruza al eje Y en $48. Un libro sin las
pginas costara $48.
La pendiente de la lnea es .05143. El costo de cada
pgina adicional es de cinco cntimos.
El signo del valor de b y el signo del valor de r sern
siempre iguales.


Ejemplo 2 (Continuacin)
36
Podemos utilizar la ecuacin de regresin para
estimar valores de Y.
El precio de venta estimado de un libro de 800 pginas
es $89.14, encontrado por

14 . 89 ) 800 ( 05143 . 0 0 . 48
05143 . 0 0 . 48
= + =
+ =
'
X Y
Ejemplo 2 (Continuacin)
37
El error estndar de estimacin
El error estndar de estimacin mide la dispersin de
los valores observados alrededor de la lnea de
regresin.
Las frmulas que se utilizan para comprobar el error
estndar son:

2
2
) (
2
2
.

E E E
=

'
E
=
n
XY b Y a Y
n
Y Y
s
x y
38
Encuentre el error estndar de estimacin para el
problema que implica el nmero de pginas en un libro
y el precio de venta.


408 . 10
2 8
) 200 , 397 ( 05143 . 0 ) 636 ( 48 606 , 51
2
2
.
=


=

E E E
=
n
XY b Y a Y
s
x y
Ejemplo 3
39
Suposiciones subyacentes en el
anlisis de regresin lineal
Para cada valor de X, hay un grupo de valores de Y, y
estos valores de Y se distribuyen normalmente.
Las medias de estas distribuciones normales de valores
Y, caen todas en la recta de regresin.
Las desviaciones estndar de estas distribuciones
normales son iguales.
Los valores de Y son estadsticamente
independendientes. Esto significa que en la seleccin de
una muestra, los valores de Y elegidos para un valor
particular de X no dependen de los valores de Y de
ningn otro valor de X.
40
Intervalo de confianza
El intervalo de confianza para el valor medio de Y para
un valor dado de X est dado por:

31 . 15 14 . 89
8
) 4900 (
000 , 150 , 3
) 5 . 612 800 (
8
1
) 408 . 10 ( 447 . 2 14 . 89
) (
) ( 1
2
2
2
2
2
.

+
E
E

+
'
n
X
X
X X
n
ts Y
x y
41
Intervalo de prediccin
El intervalo de prediccin para un valor individual de Y
para un valor dado de X se da por:

72 . 29 14 . 89
8
) 4900 (
000 , 150 , 3
) 5 . 612 800 (
8
1
1 ) 408 . 10 ( 447 . 2 14 . 89
) (
) ( 1
1
2
2
2
2
2
.

+ +
E
E

+ +
'
n
X
X
X X
n
ts Y
x y
42
Resumir los resultados:
El precio de venta estimado para un libro con 800
pginas es $89.14.
El error estndar de estimacin es $10.41.
El intervalo de confianza de 95% para todos los libros con
800 pginas es $89.14+-$15.31. Esto significa que los
lmites estn entre $73.83 y $104.45.
El intervalo de prediccin de 95% para un libro particular
con 800 pginas es $89.14+-$29.72. Esto significa que
los lmites estn entre $59.42 y $118.86.
Ejemplo 3 (Continuacin)
EJERCICIOS:
A continuacin se presentan los pesos en
libras y las cantidades de combustible
consumidas en carretera (mi/gal) de
automviles elegidos al azar. Calcule el
coeficiente de determinacin, la ecuacin
de la recta y el error.
43
PESO 3175 3450 3225 3985 2440 2500 2290
CONSUMO 27 29 277 24 37 34 37
En la siguiente tabla se muestran los
presupuestos (millones de dlares) y los
ingresos brutos (millones de dlares) de
pelculas seleccionadas al azar:



Calcule el coeficiente de determinacin, la
ecuacin de la recta predictora y el error.

44
PRESUPUES
TO
62 90 50 35 200 100 90
INGRESO
BRUTO
65 64 48 57 60 146 47

Вам также может понравиться