Вы находитесь на странице: 1из 36

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERU

UNIDAD DE POST GRADO - FACULTAD DE INGENIERIA DE MINAS

CURSO: ESTADISTICA APLICADA A LA


INVESTIGACION INGENIERIL

CORRELACION Y REGRESION
ING. SAUL MAYOR PARIONA

CIUDAD UNIVERSITARIA - 2015

CORRELACION Y REGRESION SIMPLE

Correlacin
Se llama correlacin a la relacin entre dos o mas variables
estadsticas referidas a una misma muestra.
El grado de correlacin entre dos variables se mide mediante los
coeficientes de correlacin

Clases de correlacin
Existen varias clases, veamos solo algunos:

a) Correlacin simple: Cuando se realiza entre dos variables


b) Correlacin mltiple: Cuando intervienen tres o ms
variables
c) Correlacin lineal: Cuando el diagrama de dispersin tiende
a formar una linea
d) Correlacin no lineal: Cuando el diagrama de dispersin
tiende a formar una curva

Diagramas de Dispersin
Si las variables (X e Y) que se relacionan, se llevan a graficarlas en un
plano cartesiano, obtendremos una nube de puntos de diversas
representaciones y correspondindoles a cada diagrama de dispersin
su respectivo coeficiente de correlacin el mismo que slo variar entre
-1.00 <= r <= +1.00

Grados de Correlacin
Cuando la correlacin es directa, el coeficiente de correlacin es
positiva, es decir el diagrama de dispersin tiene una orientacin de
abajo hacia arriba y de izquierda a derecha.
Cuando la correlacin es inversa, el coeficiente de correlacin es
negativo, es decir el diagrama de dispersin tiene una orientacin de
abajo hacia arriba pero de derecha a izquierda.

Tabla de Elorza, H (1987)

De 0,96 a 1,00 : Correlacin perfecta


De 0,85 a 0,95 : Correlacin fuerte
De 0,70 a 0,84 : Correlacin significativa
De 0,50 a 0,69 : Correlacin moderada
De 0,20 a 0,49 : Correlacin dbil
De 0,10 a 0,19 : Correlacin muy dbil
De 0,00 a 0,09 : Correlacin nula

Correlacin y Regresin

Cuando basndose en datos muestrales, se desea estimar el valor, de una


variable Y correspondiente a un valor dado de una variable X, se puede
corregir estimando al valor de Y de la curva de mnimos cuadrados, que ajusta
con datos muestrales. La curva resultante se llama CURVA DE REGRESION
de Y sobre X, ya que Y se estima a partir de los valores de X.

Se puede resumir, que se puede estimar (regresin) el valor de una


variable a partir de una o mas variables relacionadas (correlacin)
es decir en que medida una ecuacin lineal (o no lineal), explica o
describe adecuadamente al relacin entre variables.

La Lnea Recta
La curva de aproximacin ms sencilla, es la lnea recta, cuya ecuacin es:
Y = a 0 + a1X
Donde a0 y a1 son constantes y pueden ser hallados
Dados los puntos cualesquiera (x1,y1) y (x2,y2) de la recta, la ecuacin
puede expresarse tambin
Y2-Y1
Y Y1 = ----------- (X-X1)

Y-Y1 = m(X-X1)

X2-X1
Y2-Y1
Donde m es la pendiente de la lnea recta = m = ----------X2-X1

Recta de Mnimos Cuadrados


Sean los puntos: (x1,y1);(x2,y2)..;(xn,yn), y la recta de aproximacin por
mnimos cuadrados, tiene la ecuacin:
Y = a0 + a1X
Donde para hallar las constantes: a0, a1 a partir del sistema de ecuaciones:

Ecuaciones normales para la


recta de mnimos cuadrados

Y = a0N+a1X
XY = a0X + a1X2

Las constantes a0 y a1 se obtienen:


(Y)(X2)-(X)(XY)
a0 = --------------------------------NX2 (X)2

NXY-(X)(Y)
a1 = --------------------------NX2-(X)2

Ejemplo: Ajustar una recta de mnimos cuadrados a los datos de la


tabla adjunta, tomando (a) X como variable independiente y (b) Y como
variable dependiente
X

9 11

5 8

Solucin:
X

X2

XY

Y2

25

15

36

24

16

64

48

36

81

45

25

11

121

88

64

= 42

28

336

226

154

Las ecuaciones de la recta y las


ecuaciones normales son:
Y = a0 + a1X
Y = a0N+a1X
XY = a0X + a1X2

6a0 + 42a1 = 28 .(1)


42a0 + 336a1 = 226 ..(2)
Resolviendo el sistema de ecuaciones se tiene:
-252a0 1764a1 = -1176
252a0 + 2016a1 = 1356
----------------------------------0

+ 256a1 = 180

a1 = 180/252 = 0,71
a0 = -1/3 = -0,3
Y = -0,3 + 0,71X

Para la ecuacin de la recta usar X = b0 + b1Y


con las siguientes ecuaciones normales
X = b0N + b1Y
XY = b0Y + b1Y2

Se debe llegar a la Ec.

X = 1,00 + 1,29Y

Coeficiente de Correlacin r de Pearson


Es el coeficiente ideado por Karl Pearson, estadstico ingls, y es el
ndice de correlacin ms usado. La escala que utiliza es de intervalo o
de razn y se define como la media de los productos de las puntuaciones
z de ambas variables (X;Y)
Simblicamente:
r = Coeficiente de correlacin de Pearson
ZxZy
r = ----------------N

Zx = Puntuacin Z de la variacin X
Zy = Puntuacin Z de la variacin Y
ZxZy = Sumatoria de los productos de las
puntuaciones
N = Nmero de las puntuaciones

Frmula directa para el clculo del coeficiente r de Pearson a partir de


las calificaciones brutas
NXY (X)(Y)
r = -------------------------------------------------[NX2 (X)2] [NY2 (Y)2]
Donde:
X : Sumatoria de las calificaciones brutas de la variable X
Y : Sumatoria de las calificaciones brutas de la variable Y
XY: Sumatoria del producto de las calificaciones: X e Y
X2 : Sumatoria de los cuadrados de las calificaciones X
Y2 : Sumatoria de los cuadrados de las calificaciones Y
(X)2 : Cuadrado de la sumatoria de las calificaciones X
(Y )2 : Cuadrado de la sumatoria de las calificaciones Y
N : Nmero de calificaciones pareadas
r : Coeficiente de correlacin de Pearson

Ejemplo: Hallar el coeficiente de correlacin r de Pearson de las


puntuaciones originales de 14 trabajadores que obtuvieron en dos pruebas de
rendimiento laboral
Trabaj.

x2

y2

Zx

Zy

ZxZy

18

28

16

1,5

1,0

1,50

18

30

36

1,5

1,5

2,25

17

30

36

1,0

1,5

1,50

17

26

1,0

0,5

0,50

16

28

16

0,5

1,0

0,50

16

24

0,5

0,0

0,00

15

22

-2

0,0

-0,5

0,00

15

20

-4

16

0,0

-1,0

0,00

14

-1

26

-0,5

0,5

-0,25

10

14

-1

22

-2

-0,5

-0,5

0,25

11

13

-2

24

-1,0

0,0

0,00

12

13

-2

28

-6

36

-1,0

-1,5

1,50

13

12

-3

20

-4

16

-1,5

-1,0

1,50

14

12

-3

18

-6

36

-1,5

-1,5

2,25

N=14

=210

56

336

224

11,50

ZxZy
r = ----------------N

x` = x/N = 210/14 = 15;

Zx = (x x)/Sx; Sx = (x2/N) = (56/14) = 4 = 2

y` = y/N = 336/14 = 24;

Zy = (y y)/Sy; Sy = (y2/N) = (224/14) = 16 = 4

Zx5 = (16-15)/2 = = 0,50 ; Zx13 =(12-15)/2 = -3/2 = -1,50

ZxZy
r = ----------------- = 11,50/14 = 0,82
N

Utilizaremos ahora la frmula directa para


el clculo de la r de Pearson:
NXY (X)(Y)
r = -------------------------------------------------[NX2 (X)2] [NY2 (Y)2]

14(5132) (210)(336)
r = -------------------------------------------------[14(3206) (210)2] [14(8288) (336)2]
71848 70560
r = -------------------------------------------------[44884 44100] [116032 112896 ]

1288

1288

= ------------------ = -------- = 0,82


(784)(3136)

1568

Error Estndar de Estimacin (Syx)


Si el coeficiente de correlacin lineal es 1,00, o sea la relacin entre las
dos variables es perfecta, entonces, los valores de Y observados,
correspondern exactamente igual a la prevista. Pero en investigaciones
sociales, este tipo de correlaciones perfectas no se dan.

Las que si se dan usualmente, son cuando la correlacin es nula (r=0)


existir un error muy grande en toda la prediccin, en cambio si el
coeficiente de correlacin es alto (r=0,90) por ejemplo, el error de
prediccin de las Y observadas con las puntuaciones y previstas ser
mnimo. Para hallar o medir este error, se utiliza el Error Estndar de
Estimacin.

El Error Estndar de Estimacin y la desviacin estndar de la


variable dependiere (Y) y es igual a:

[XY (X) (Y)/N ]


[Y2 - (Y)2/N] - ------------------------------ X2 (X)2/N
Sxy =

---------------------------------------------------------N-2

X2

XY

Y2

Ejemplo: Segn el caso anterior:

[XY (X) (Y)/N ]

25

15

36

24

16

64

48

36

81

45

25

11

121 88

64

[Y2 - (Y)2/N] - ------------------------------ X2 (X)2/N


Sxy =

---------------------------------------------------------N-2

= 42 28
[226 (42) (28)/6 ]
[154 - (28)2/6] - ------------------------------336 (42)2/6
Sxy =

---------------------------------------------------------6-2
[23,3 21,43]

Sxy = -------------------- = 0,689


4

336

226 154

REGRESIN MLTIPLE
Este tipo se presenta cuando dos o ms variables independientes
influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).

Objetivo: Se presentara primero el anlisis de regresin mltiple al


desarrollar y explicar el uso de la ecuacin de regresin mltiple, as
como el error estndar mltiple de estimacin. Despus se medir la
fuerza de la relacin entre las variables independientes, utilizando los
coeficientes mltiples de determinacin

Anlisis de Regresin Mltiple

Se puede presentar para cualquier nmero "m" de variables


independientes:

Para poder resolver y obtener a, b1, b2, b3, ,bm, en una ecuacin de
regresin mltiple el clculo se presenta muy tediosa porque se tiene
atender 3 ecuaciones que se generan por el mtodo de mnimo de
cuadrados:

El error estndar de la regresin mltiple


:

Es una medida de dispersin la estimacin se hace ms precisa


conforme el grado de dispersin alrededor del plano de regresin se
hace mas pequeo.
Para medirla se utiliza la formula:

Y : Valores observados en la muestra


Valores estimados a partir a partir de la ecuacin de regresin
n : Nmero de datos
m : Nmero de variables independientes

El coeficiente de determinacin mltiple


Mide la tasa porcentual de los cambios de Y que pueden ser
explicados por X1, X2, X3,..., Xm, simultneamente

Ejemplo: En una empresa minera se quiere entender los factores de


aprendizaje de los trabajadores en los cursos de seguridad y salud
ocupacional, para lo cual se escoge al azar una muestra de 15
trabajadores y ellos registran notas promedios en las capacitaciones de
Legislacin, Seguridad y Salud Ocupacional como se muestran en el
siguiente cuadro.
Trabajado
r
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

SSO
13
13
13
15
16
15
12
13
13
13
11
14
15
15
15

Legislacin
15
14
16
20
18
16
13
16
15
14
12
16
17
19
13

Seguridad
15
13
13
14
18
17
15
14
14
13
12
11
16
14
15

Salud Ocup.
13
12
14
16
17
15
11
15
13
10
10
14
15
16
10

Lo que buscamos es construir un modelo para determinar la


dependencia que exista de aprendizaje reflejada en las notas del
curso SSO, conociendo las notas promedios en las capacitaciones de
Legislacin, Seguridad y Salud Ocupacional.
Se presentara la siguiente ecuacin a resolver:

Utilizando las formulas de las ecuaciones normales a los datos


obtendremos los coeficientes de regresin o utilizando Regresin de
Anlisis de datos, podemos calcular tambin los coeficientes de
regresin:

Por lo tanto podemos construir la ecuacin de regresin que


buscamos:

El error estndar de la regresin mltiple

Tambin se llama error tpico y para explicar la relacin del


aprendizaje de SSO que se viene desarrollando es de 0.861

El coeficiente de determinacin mltiple


Utilizaremos para determinar la tasa porcentual de Y para ser explicados
las variables mltiples, utilizando la si siguiente formula:

CONCLUSIONES
El 69.70% del aprendizaje del Curso
de SSO puede ser explicado mediante
las notas obtenidas por las
capacitaciones de Legislacin,
Seguridad y Salud Ocupacional

REGRESIN CUADRATICA
En algunas aplicaciones, la magnitud del cambio en el valor de la media
de la variable respuesta (dependiente) se modifica al cambiar el valor de
la variable explicativa (independiente); por ejemplo, el aumento de
produccin por meses de un de una mina en el primer ao es mayor que
el aumento de produccin cuando la mina tiene varios aos.
Para reflejar que el cambio en la media de la respuesta se modifica al
cambiar el valor inicial de la variable explicativa se puede usar la
regresin cuadradita.

El modelo de regresin cuadrtica es:


~N(y/x1,,xk.xk2 = 0 + 1X1 + + kxk + 11x12+ + kkxk2, Y/x1,,xk, x12,xk2)

Ejemplo: Un investigador piensa implementar incentivos a los


trabajadores para incrementar la satisfaccin laboral. Selecciona 20
trabajadores y les da el incentivo usual mas un incremento que va desde
cero hasta por 2 da. Espera que cuando mayor sea el incentivo mayor sea
la satisfaccin de los trabajadores en un mes.
Incentivo
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2

Satisfaccin
Laboral
25
23
25
30
34
26
30
32
36
40
37
36
37
37
43
40
36
39
44
41
38

REGRESIN SINPLE NO LINAEAL


La relacin entre dos variables tambin puede asumir la forma de una
curva como como por ejemplo la curva de las acciones y obligaciones de
una empresa por que se realiza a travs del tiempo.
Ejemplo:
Pronosticar las acciones y obligaciones de una empresa minera despus
de 7 aos, aplicar el modelo de regresin simple no lineal.
x = AOS

2009

13

2010

24

2011

39

2012

65

2013

106

METODO PRACTICO PARA LA ECUACION DE


SSEGUNDO GRADO PARABOLICA

y = an + c x2
x2y = a x2 + c x4
b = xy / x2
La curva que tenemos que hallar es:
= a + bx + cx2
r =x y / (x)2 (y)2

x = AOS

x = x - X

(x)2

(x)4

xy

(x)2y

2009

13

-2

16

-26

52

2010

24

-24

24

2011

39

2012

65

65

65

2013

106

16

212

424

247

10

34

227

565

X = 2011

Resolviendo:
247 = 5a + 10c
565 = 10a + 34c
---------------------------

Por lo tanto los valores son:


a = 39,3 ; c = 5,07 ; b = 22,7

La ecuacin de la curva es: = 39,3 + 22,7x + 5,07x2

Grficamente:

Pronosticamos para 7 aos, entonces reemplazamos en


la ecuacin de la curva y obtenemos: = 446 630,00

Вам также может понравиться