Вы находитесь на странице: 1из 41

CORRELACION Y REGRESION

• COVARIANZA.
Es una medida que permite determinar
que tan independiente es una variable
aleatoria de otra, es decir el grado de
independencia de dos variables aleatorias.
Si X e Y son dos v.a. con medias µx, µy, la
covarianza se define como:

1
continuacion
COV ( X , Y )  S XY   XY  E( X   X )(Y  Y )

COV(X,Y)=E(XY)-µxµy
COV(X,Y)= E(X,Y)-E(X).E(Y)
Casos:
1. Si X e Y son independientes, se cumple que:
E(X,Y) = E(X).E(Y)
COV(X,Y)=0

2
continuacion

2. Si X = Y se tiene:
COV(X,Y) =E(X,Y) -E(X).E(X)
COV(X,Y) =E(X,X) –(E(X)E(X) = VAR(X)
COV(X,Y) = VAR(X)

3
continuacion

• CORRELACION.
Se define como la asociación entre dos o más
variables aleatorias, que explica solo
parcialmente la variación total de una variable
aleatoria, por la variación de otras variables
aleatorias involucradas en la ecuación de de
asociación.
La parte de la variación total que queda sin
explicar, es decir la variación no explicada, se
debe a errores o a otras variables aleatorias,
que no han sido tomadas en cuenta en la
correlación.
4
continuacion
• Análisis de Correlación
Se necesita un estadístico para medir el grado de
asociación correlativa entre las variables bajo
consideración. Los estadísticos más utilizados son los
coeficientes de correlación y determinación y la
desviación estandar de los residuos.
El análisis de correlación consiste en el cálculo de una
medida del grado de correlación y la realización de
pruebas, para determinar si es aceptable el grado de
asociación correlativa. El análisis de correlación está
estrechamente relacionado con el análisis de
regresión.
5
continuacion
• Coeficiente de correlación
Es el estadístico que permite medir el
grado de asociación de dos variables
linealmente relacionadas.
Para el caso de una población se define
como: COV ( X , Y )  xy
 ( x, y )  
VAR( X ).VAR(Y )  x y

Estimador
r
S xy

 ( x  x )( y  y )  xy  nx y

SxS y SxS y SxS y
6
continuacion
• Coeficiente de determinación
Es la proporción o porcentaje de la variación
total de la variable dependiente y, que es
explicada por la variable independiente x , por lo
cual, es un criterio para explicar la importancia
de la variable independiente dentro del modelo.
Por ejemplo, si para la ecuación: y = a+bx, se
tiene r  0.85
2

Esto quiere decir que el 85% de la variación de


y es explicada por x y el 15% es debido a los
errores y a otras variables no consideradas.
7
Análisis de Regresión
• Análisis de Regresión
Es una técnica determinística, que permite
determinar la naturaleza de la relación
funcional entre dos o más variables,
permite predecir los valores de y = f(x) con
un cierto grado de aproximación.

8
continuacion
• Pasos para el análisis de Regresión.
1. Selección de una función de relación
correlativa, simple o múltiple, lineal o no
lineal.
y = f(x)
y = a + bx
1
y 
y  ab x a  bx

y  ax b
y 
1
( a  bx ) 2

9
Función lineal

• Se llama función
lineal de una variable,
a una función de la
forma
y   0  1 x
• α0 : ordenada en el origen (valor de Y cuando X=0)

α1 : pendiente (cambio de Y al aumentar X en 1)

10
continuacion
2. Estimación de los parámetros que miden el
grado de asociación correlativa. r 2 r
3. Prueba de significación de los estadísticos
que miden la asociación correlativa, para lo
cual se aplica la prueba t
PROCESO
3.1. Planteamiento de la Hipótesis
Ho : ρ = 0 (ρ es el coeficiente de correlación
poblacional varía entre -1 y 1)
Ha : ρ ≠ 0
11
continuacion

3.2. Estadística de prueba


r n2
tc 
1 r2
Donde:
r = coeficiente de correlación
n = número de pares de valores
r2 = coeficiente de determinación

12
continuacion
3.3. Determinación del t tabular (tt)
El t tabular se obtiene de las tablas de la
distribución t de Student, con un nivel de
significación α o con una confianza de
γ=1-α y con (v = n-2) grados de libertad.
Por ejemplo: si γ = 95%, entonces
α = 5% y α/2 =0.025;
para n=15 entonces v = 15-2=13
tt = 2.16
13
continuacion
DSITRIBUCION t de Student

DSITRIBUCION Normal

14
continuacion
3.4. Regla de Decisión
Si t c  tt ; se acepta la Hipotesis nula, por lo que   0,
Si t c  tt ; se rechaza la Hipotesis nula, por lo que   0,
4. La estimación de los parámetros de la ecuación o
función de regresión: y = a + bx.
Se hace utilizando el método de mínimos
cuadrados, dados por:  y x   x yx 2
n xy   x y
a b
n x   x  n x   x 
2 2
2 2

5. Para determinar la significación de los


parámetros de la ecuación de regresión,
encontrando los límites de confianza de su
variación, se usa el ANALISIS DE VARIANZA.
15
continuacion
• Regresión Lineal Simple
En el modelo de regresión lineal se
considera un solo regresor (variable de
regresión) o predictor x, y una variable
dependiente o variable respuesta Y.
Suponga que la verdadera relación entre
Y y x es una recta y que la observación Y
en cada nivel de x es una variable
aleatoria. El modelo observado y el
modelo estimado está dado por:
16
continuacion
Y   0  1 x   i E (Y / x)   0  1 x

• En el área de Hidrología se utiliza el modelo lineal


simple, para relacionar variables como por:
1. Caudales y precipitación en una misma cuenca.
2. Precipitación de una estación, con precipitación de
otra estación.
3. Caudal de una estación con caudal de otra
estación.
4. Precipitación con la altitud de una cuenca.

17
continuacion
• Estimación de parámetros:
Sea el modelo estimado y=a+bx
Donde E(a) = β0, y E(b) = β1
Procedimiento: Método de mínimos Cuadrados
1. El cálculo del error εi entre el valor observado
yi y el teórico ŷi :
ei  yi  yˆ i ei  y
i
 (a  bxi )  yi  a  bxi
 
observado teórico

2. Cálculo de la suma de cuadrados de los


errores:
S   ei   ( yi  a  bxi )
2 2

18
continuacion
3. Hacer que la suma de cuadros de los errores
sea mínimo:
S  ei
2

  2 ( yi  a  bxi )  0
a a

S  ei
2

  2 ( yi  a  bxi )( xi )  0
b b

 y  na  b x
i i 

2
llamadas ecuaciones normales
 x y  a  x  b x
i i i i 

 y  x   x yx
2
n xy   x y
a b
n x   x  n x 2   x 
2 2
2

19
continuacion
• Ejemplo 1. En una cuenca, se tiene dos estaciones de
aforo A y B, en las que se midieron los caudales medios
mensuales, en metros cúbicos /seg. Para el año 1995,
los que se muestran en la tabla adjunta. Considerandos
que los caudales de la estación A, es la variable
indepemdiente (x) y que los caudales de la estación B,
es la variable dependiente (y):
1. Probar si los datos de ambas estaciones se
correlacionan linealmente.
2. Calcular el caudal de la estación B, para un
caudal de 800m3/s en la estación A.

20
continuacion

ESTAC. ESTAC.
A A*B
B A*2 B*2
321 175 56175 103041 30625
222 75 16650 49284 5625 REGRESION
155 45 6975 24025 2025
274 77 21098 75076 5929
1000
431 131 56461 185761 17161
900
446 136 60656 198916 18496
800
456 171 77976 207936 29241

ESTACION B
700
1270 475 603250 1612900 225625 600
2089 897 1873833 4363921 804609 Serie1
500
1618 710 1148780 2617924 504100 400
431 268 115508 185761 71824 300
509 224 114016 259081 50176 200
8222 3384 4151378 9883626 1765436 100
0
0 500 1000 1500 2000 2500
ESTACION A

21
continuacion
n xy   x y
r
n x 2

  x  n y 2   y 
2 2

12(4151378)  8222(3384)
r 2 2
 0.9871
((12)9883626) ((12)17654369

4. Prueba de significación
4.1. Hipotesis
H0: ρ=0
Ha: ρ≠0
4.2 Calculo de tc:
r n2 0.9871 12  2
tc    19.4713
1 r2 1  0.9743
22
continuacion
4.3. Lectura del tt:
De la tabla de la distribución t de Student,
v=n-2 =12-2=10 g.l
α/2=0.025
se tiene: tt=2.228
4.4. Regla de Decisión
como |tc|=19.4713>tt=2.228, se rechaza la
hipótesis nula. Entonces existe correlación
entren las variables x e y.
23
continuacion
5. Cálculo de los parámetros a y b
a
 y  x   x  yx 3384(9883626)  4151378(8222)
2

  13.4590
n x   x  12(9883626)  (8222)
2 2 2

n xy   x  y 12(4151378)  8222(3384)
b   0.4312
n x   x  12(9883626)  (8222)
2 2 2

a) Ecuación e Regresión:
y=-13.459+0.4312x
b) y=-13.459+0.4312(800)= 332.501 m3/s
VER DATA EN SPSS: REGRES_1 y
REGRES_4 24
Regresión no Lineal
• Existen varias relaciones no lineales, que con
técnicas adecuadas pueden reducirse a
relaciones lineales, dentro de las cuales se
pueden mencionar los siguientes modelos:
1 1
y ; mod elo hiperbola y  a  b ; mod elo inversa
a  bx x
1
y ; mod elo hiperbola 2do grado
(a  bx) 2

y  ab x ; mod elo exp onencial


y  axb ; mod elo potencial
y  a  bx  cx 2 ; mod elo parabólico
y  a  bx  cx 2  dx3 ; mod elo cúbico
25
Regresión no Lineal

• Para el análisis de regresión no lineal se sigue


el proceso:
1. Transformar el modelo no lineal a un modelo
lineal.
2. Aplicar el método de mínimos cuadrados, para
estimar los parámetros de regresión.
3. Restituir los cambios de las variables, a fin de
obtener la ecuación original.
4. Utilizar la ecuación solo cuando exista
correlación.

26
Ecuación de Regresión Lineal múltiple
• Esta técnica de análisis, se utiliza cuando
la variable dependiente y, es función de
dos o mas variables independientes x1, x2,
…, xm, siendo el modelo lineal.
y= a0 + a1x1 + a2x2 + … + amxm
donde:
n = número de variables independientes
ai = parámetros a estimar.
p= m+1 = número de parámetros.
27
Estimación de parámetros
• Mediante el método de mínimos cuadrados se
forman las ecuaciones normales siguientes:

 y  a n a x  a x
0 1 1 2 2  a3  x3...  am  xm

x y  a x  a x
1 0 1 1
2
1  a2  x1 x2  a3  x1 x3...  am  x1 xm

 2 0  2 1  1 2 2  2  a3  x2 x3...  am  x2 xm
x y  a x  a x x  a x 2

.
.
.
 m 0  m 1 1 m 2  2 m 3  3 m m  m
x y  a x  a x x  a x x  a x x ...  a x 2

28
Estimación de parámetros
• La solución del sistemas de ecuaciones
normales proporciona los valores de los ai
• Existe m+1 de ecuaciones normales.

• Error estándar de estimación para


regresión múltiple.

29
Estimación de estadísticas
• Error estándar de estimación para regresión
múltiple Se.

 i ˆ
y  y  2
e 2
yˆ  a0  a1 x1  a2 x2  ...  am xm
Se  
n p n p

Donde
Se = error estándar de estimación
y = valores muestrales
n = tamaño de la muestra
p = m+1 número de parámetros
n-p= grados de libertad
30
Estimación de estadísticas
e  y  yˆ  error entre el valor observado y estimado de la var iable dependient e

Se 
y 2
 a 0  y  a1  x1 y  a 2  x y  ....a m  x m y
n p

• Coeficiente de determinación múltiple.


2
S
R 2  1  e2
Sy

a
R2  0
 1 1 2  2
y  a x y  a x y  ... am m
x y  ny 2

 y 2  ny 2
• Coeficiente de correlación múltiple.
1
 S 2  2
R  1  e2 
 Sy 
 

31
Ejemplo 3
Del estudio de 14 subcuencas, se ha obtenido el caudal
promedio anual (de los caudales máximos anuales) Q, en
m3/s, el área de la cuenca A, en km2, y la intensidad
máxima de precipitación I, en cm/24 horas, siendo los
resultados los que muestran en la tabla adjunta.
Se desea saber si éstas variables se correlacionan
linealmente, es decir, si se puede establecer el siguiente
modelo: Q=a0 + a1A+a2I
Se pide:
1. Calcular los eficientes ai ; i = 0,1,2
2. Determinar el caudal estimado con la ecuación propuesta
para cada conjunto de valores de A e I
3. Calcular los errores ei y el error estándar de estimación Se
4. Calcular la varianza de la variable dependiente
5. Calcular los coeficientes de determinación y correlación
múltiple
6. Estimar el valor de Q, si A = 4km2 e I = 1.5 cm/24 h
32
Continuación
ESTACIÓN Km2 (A) cm/24 h (I) m3/s (Q)
1 1.250 1.70 15.50
2 0.871 2.10 8.50
3 5.690 1.90 85.00
4 8.270 1.90 105.00
5 1.620 2.10 24.80
6 0.175 2.40 3.80
7 0.148 3.20 1.76
8 1.400 2.70 18.00
9 0.297 2.90 8.75
10 0.322 2.90 8.25
11 0.178 2.80 3.56
12 0.148 2.70 1.90
13 0.872 2.10 16.50
14 0.091 2.90 2.80
TOTAL 21.332 34.30 304.12

33
Continuación
A (1) I (2) Q (3) AxI (4) AxQ (5) IxQ (6) A2 (7) I2 (8) Q2 (9)
1.250 1.70 15.50 2.125 19.375 26.350 1.5625 2.890 240.250
0.871 2.10 8.50 1.8291 7.4035 17.850 0.7586 4.410 72.250
5.690 1.90 85.00 10.811 483.65 161.500 32.3761 3.610 7225.000
8.270 1.90 105.00 15.713 868.35 199.500 68.3929 3.610 11025.000
1.620 2.10 24.80 3.402 40.176 52.080 2.6244 4.410 615.040
0.175 2.40 3.80 0.42 0.665 9.120 0.0306 5.760 14.440
0.148 3.20 1.76 0.4736 0.26048 5.632 0.0219 10.240 3.098
1.400 2.70 18.00 3.78 25.2 48.600 1.9600 7.290 324.000
0.297 2.90 8.75 0.8613 2.59875 25.375 0.0882 8.410 76.563
0.322 2.90 8.25 0.9338 2.6565 23.925 0.1037 8.410 68.063
0.178 2.80 3.56 0.4984 0.63368 9.968 0.0317 7.840 12.674
0.148 2.70 1.90 0.3996 0.2812 5.130 0.0219 7.290 3.610
0.872 2.10 16.50 1.8312 14.388 34.650 0.7604 4.410 272.250
0.091 2.90 2.80 0.2639 0.2548 8.120 0.0083 8.410 7.840
TOTAL 21.332 34.30 304.12 43.3419 1465.8929 627.800 108.7412 86.990 19960.076

34
Continuación

VER DATA EN SPSS:


REGRES_2
Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Cons tant) 1.657 7.603 .218 .831
A(1) 13.151 .562 .994 23.414 .000
I(2) .011 2.853 .000 .004 .997
a. Dependent Variable: Q(3)

Q  1,657  13,151A  0,011I

35
Ejemplo 3
• En el ejemplo 3 (en SPSS) son datos sobre tres variables referidos
a semiconductores. Las variables reportadas son la resistencia
al desprendimiento (en una medida de la cantidad de
fuerza requerida para romper la unión), la longitud del
alambre y la altura de la matriz. Nos gustaría encontrar
un modelo que relacionara la resistencia al
desprendimiento con la longitud el alambre y la altura de
la matriz. Por desgracia no hay ningún mecanismo físico
que pueda aplicarse fácilmente en este caso, por lo que
no parece probable que el enfoque mecanicista sea de
éxito. Parece razonable que el modelo:
Resistencia al desprendimiento= β0+β1longitud del
alambre)+ β2(altura de la matriz)+ε, sería el apropiado
como modelo empírico para esta relación (MODELO DE
REGRESIÓN)

36
Formulas para la prueba de hipótesis
• Los estimadores de los parámetros de la regresión son insesgados;
y las varianzas se dan por la fórmula:
2 1 x2 
E ( ˆ1 )  1 ; E ( ˆ0 )   0 ; V ( ˆ1 )  ; V ( ˆ0 )    
2

S xx  n S xx 
se usan los residuales ei  yi  yˆ i para estimar  2

• La suma de los cuadrados de los residuales, o suma de los


cuadrados de los errores es:
SS E
n n ˆ 2

SS E   e   ( yi  yˆ i ) 2
2
1 n2
i 1 i 1
n n
SST   y  ny   ( yi  y ) 2
n
SS E   yi2  ny  ̂1S xy
2
i
i 1 i 1 i

SSE  SST  ̂1S xy


n n
S xx   xi2  nx 2   (xi  x ) 2
i i 1

37
Prueba de hipótesis
El interés es saber si la pendiente es igual a
una constante.
H 0 : 1  1,0
H1 : 1  1,0

ˆ1  1,0
• Estadística de prueba. Tc 
ˆ 2 / S xx

• Región de rechazo tc  t / 2,n2

38
Prueba de hipótesis
El interés es saber si la ordenada a que
distancia pasa del origen
H 0 :  0   0, 0
H1 :  0   0 , 0
ˆ0   0,0
Tc 
• Estadística de prueba. 2 1 x2 
ˆ   
n S xx 

• Región de rechazo tc  t / 2,n2

• Ver ejemplo SPSS


REGR_3
39
Prueba de hipótesis
Model Summaryb

Adjus ted Std. Error of


Model R R Square R Square the Es tim ate
1 .991 a .981 .979 2.28679
a. Predictors : (Constant), ALTU_MATR, LONG_DESP
b. Dependent Variabl e: RESIS_DESP

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regress ion 5968.974 2 2984.487 570.714 .000 a
Res idual 115.047 22 5.229
Total 6084.021 24
a. Predictors : (Constant), ALTU_MATR, LONG_DESP
b. Dependent Variable: RESIS_DESP

Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Cons tant) 2.309 1.059 2.180 .040
LONG_DESP 2.740 .093 .929 29.317 .000
ALTU_MATR .012 .003 .141 4.448 .000
a. Dependent Variable: RESIS_DESP
40
Ejercicios
Ejercicio 1. En sucesivos zondajes en las paredes de un horno de una ladrillera de
8 dm. De espesor y con auxilio d un pirómetro eléctrico, se han medido las
siguientes temperaturas:
Espesor de la pared: 0 1 2 3 4 5 6
Temp. en grados: 1.0 1.3 2.0 3.1 4.6 6.5 9.7
Encontrar la ecuación que exprese la relación entre las temperaturas y el espesor
de la pared del horno.
Ejercicio 2. Una importante compañía, constructora de secadores de madera a
vapor recalentado, nos ofrece la siguiente tabla de datos experimentales del
progreso del secado de tablones de madera Pino Oregón de 50 mm de espesor,
con un contenido inicial de humedad del 50%, la cual se ha secado hasta el 4%
en siete horas, estabilizándose el contenido de humedad a estas alturas.
Encontrar la ecuación correspondiente.
Tiempo 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
C hum. .50 .34 .24 .18 .14 .11 .08 .06 .05 .045 .0.44 .043 .042 .041 .04

Ejercicio 3. Cierto experimento ha proporcionado la siguiente tabla de valores


X 1 2 3 4 5 6 0 -1 -2
y .1 .8 2.7 6.4 12.5 21.6 0 -0.1 -0.8

Encontrar la ecuación correspondiente. 41