Вы находитесь на странице: 1из 19

M etodos Estad sticos de la Ingenier a Tema 4: Correlaci on y Regresi on Grupo B

Area de Estad stica e Investigaci on Operativa Licesio J. Rodr guez-Arag on Febrero 2010

Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Variables Bidimensionales Introducci on . . . . . . . . . . . . . . . . . . Variables Bidimensionales . . . . . . . . . Frecuencias y Frecuencias Marginales. Distribuci on Condicionada . . . . . . . . Ejemplo . . . . . . . . . . . . . . . . . . . . . Variables Bidimensionales con R . . . . Variables Bidimensionales con R . . . . Representaciones Gr acas . . . . . . . . . Representaciones Gr acas con R . . . . Representaciones Gr acas con R . . . . Momentos . . . . . . . . . . . . . . . . . . . . An alisis de la Covarianza . . . . . . . . . Coeciente de Correlaci on de Pearson Correlaci on con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Regresi on Regresi on y Correlaci on . . . . . . . . . . . . . . . . . Modelo de Regresi on . . . . . . . . . . . . . . . . . . . Suma de Cuadrados . . . . . . . . . . . . . . . . . . . . Regresi on Lineal Simple . . . . . . . . . . . . . . . . . Coeciente de Determinaci on . . . . . . . . . . . . . Regresi on con R. . . . . . . . . . . . . . . . . . . . . . . Regresi on con R. . . . . . . . . . . . . . . . . . . . . . . summary(Regresion) . . . . . . . . . . . . . . . . . . . Regresi on Lineal X sobre Y. . . . . . . . . . . . . . . Regresi on Exponencial, Potencial e Hiperb olica Regresi on Polin omica y M ultiple . . . . . . . . . . .

Contenidos
Variables Bidimensionales
Frecuencias, Frecuencias Marginales, Distribuci on Condicionada, Representaciones

Gr acas.
Frequencies, Marginal Frequencies, Conditional Distributions, Graphs.

Correlaci on, Correlation.


Covarianza y Coeciente de Correlaci on de Pearson. Covariance and Correlation Coecient.

Regresi on, Regression.


Modelo de Regresi on, Regresi on Lineal Simple, Coeciente de Determinaci on. Linear Regression, Determination Coecient.

La Regresi on tiene como objetivo buscar una funci on que permita explicar una Variable en funci on de otra. A method for tting a curve (not necessarily a straight line) through a set of points using some goodness-of-t criterion. The most common type of regression is linear regression. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 2 / 29

Variables Bidimensionales
Introducci on

3 / 29

Hasta ahora, para cada Unidad Estad stica de nuestra muestra, s olo hemos observado un determinado Car acter. En la realidad, la mayor a de las ocasiones que tomamos una muestra observaremos m as de un Car acter por Unidad Estad stica. Como ya vimos los Caracteres pod an ser: Cuantitativos o Cualitativos. El valor que adoptaba un Car acter entre sus distintas Modalidades posibles era una Variable Estad stica. Cuantitativas Discretas o Continuas. Cualitativas Nominales u Ordinales. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 4 / 29

Variables Bidimensionales
El caso m as sencillo es cuando para cada Unidad Estad stica se observan dos Caracteres distintos. Siendo X e Y dos Variables Estad sticas. La ordenaci on de datos bidimensionales se puede efectuar mediante tablas de doble entrada, seg un sean: Variables cualitativas o no agrupadas. Variables cuantitativas agrupadas. Se tendr a: Para Variables cualitativas o no agrupadas, X \Y x1 . . . xi . . . xm Totales y1 n11 . . . ni1 . . . nm1 n1 ... ... ... ... ... yj n1j . . . nij . . . nmj nj ... ... ... ... ... yl n1l . . . nil . . . nml nl Totales n1 . . . ni . . . nm n

Para Variables cuantitativas agrupadas, X \Y [a1 , a2 ) . . . [ai , ai+1 ) . . . [am , am+1 ) Totales Licesio J. Rodr guez-Arag on c1 . . . ci . . . cm [b1 , b2 ) d1 n11 . . . ni1 . . . nm1 n1 ... ... ... ... ... ... [bj , bj +1 ) dj n1j . . . nij . . . nmj nj ... ... ... ... ... ... [bl , bl+1 ] dl n1l . . . nil . . . nml nl Totales n1 . . . ni . . . nm n Tema 4, M.E.I. 5 / 29

Frecuencias y Frecuencias Marginales


Se denen entonces las Frecuencias Absolutas y las Frecuencias Relativas: Frecuencia Absoluta de (xi , yj ) es nij . Frecuencia Relativa de (xi , yj ) es fij =
nij n .

Adem as podemos denir Frecuencias Marginales: Frecuencia Marginal Absoluta ni o ni , suma por columnas o por las respectivamente. Frecuencia Marginal Relativa fi o fi , suma de las fij por columnas o las respectivamente. The total row and total column report the marginal frequencies or marginal distribution, while the body of the table reports the joint frequencies. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 6 / 29

Distribuci on Condicionada
Se dene la Distribuci on Condicionada como la distribuci on de una de las variables respecto de un valor concreto de la otra variable. f (yi |xj ) = f (xi |yj ) = nij fij = nj fj nij fij = nj fj

Given two jointly distributed random variables X and Y , the conditional probability distribution of Y given X (written Y |X ) is the probability distribution of Y when X is known to be a particular value. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 7 / 29

Ejemplo
Pedidos recibidos hoy en nuestra empresa de transporte log stico. En primer lugar observaremos el car acter Cualitativo de la Delegaci on Comercial que ha recibido el pedido y en segundo lugar el Producto Solicitado. Resinas 5 12 Aceites 21 35 Aditivos 28 19

Ciudad Real Puertollano

Completamos la tabla de frecuencias con las Frecuencias Marginales: Ciudad Real Puertollano Totales Resinas 5 12 Aceites 21 35 Aditivos 28 19 Totales

Frecuencias condicionadas por Delegaci on Comercial: Resinas Ciudad Real Puertollano Frecuencias Condicionadas por Producto Solicitado: Resinas Ciudad Real Puertollano Totales Licesio J. Rodr guez-Arag on Aceites Aditivos Aceites Aditivos Totales 1 1

1 Tema 4, M.E.I. 8 / 29

Variables Bidimensionales con R


> Producto<-c("a","r","o","a","o","a","r","a","o","a") > Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P") > addmargins(table(Producto,Delegacion)) Delegacion Producto CR P Sum a 4 1 5 o 2 1 3 r 0 2 2 Sum 6 4 10 > margin.table(table(Producto,Delegacion),1) Producto a o r 5 3 2 Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 9 / 29

Variables Bidimensionales con R


> Producto<-c("a","r","o","a","o","a","r","a","o","a") > Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P") > prop.table(table(Producto,Delegacion),1) Delegacion Producto CR P a 0.8000000 0.2000000 o 0.6666667 0.3333333 r 0.0000000 1.0000000 > prop.table(table(Producto,Delegacion),2) Delegacion Producto CR P a 0.6666667 0.2500000 o 0.3333333 0.2500000 r 0.0000000 0.5000000 Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 10 / 29

Representaciones Gr acas
Las representaciones gr acas m as usadas son los Diagramas de Rect angulos para Caracteres Cualitativos y diagramas de Barras e Histogramas, para datos Caracteres Cuantitativos.
Pedidos
35

Pedidos

50

Puertollano Ciudad Real 30

Ciudad Real Puertollano

40

30

20

10

Resinas

Aceites Zona Comercial

Aditivos

10

15

20

25

Resinas

Aceites Zona Comercial

Aditivos

Ahora bien, en el caso de parejas de Variables Estad sticas las representaciones m as sencillas son los diagramas de dispersi on.

1.5

1.0

0.5

0.0

0.5

1.0

1.5

0 X

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 11 / 29

Representaciones Gr acas con R


> > > > + Producto<-c("a","r","o","a","o","a","r","a","o","a") Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P") barplot(table(Producto,Delegacion),legend.text=TRUE) barplot(table(Producto,Delegacion),legend.text=TRUE, beside=TRUE)

CR

r o a

a o r

CR

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 12 / 29

Representaciones Gr acas con R


> > > > library(UsingR) Ingresos<-cfb$INCOME[1:15] Ahorros<-cfb$SAVING[1:15] plot(Ingresos,Ahorros)

Ahorros

0 10000

5000

10000

15000

30000

50000 Ingresos

70000

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 13 / 29

Momentos
Se denen los Momentos de orden (r, s) respecto de (v, w): M(r,s) (v, w) =
i,j

nij (xi v )r (yj w)s n

teniendo especial inter es para (v, w) = (0, 0) y (v, w) = (x, y ) Raw Moments, (v, w) = (0, 0). Central Moments, (v, w) = (x, y ). Momentos respecto al origen, (v, w) = (0, 0): a0,0 = a1,0 = a0,1 = a1,1 = a2,0 = a0,2 = Momentos centrales, (v, w) = (x, y ): m0,0 = 1, 1 m1,1 = n m0,1 = m1,0 = 0 nij (xi x)(yj y ) = a1,1 a1,0 a0,1 =
i,j

1 n 1 n 1 n 1 n 1 n 1 n

nij = 1
ij

nij xi =
ij

1 n 1 n

ni xi = x
i

nij yj =
ij

nj yj = y
j

nij xi yj = xy
ij

nij x2 i =
ij

1 n

2 ni x2 i =x i 2 nj yj = y2 j

ij

1 2 nij yj = n

m2,0

= xy x y = sxy = syx = Covarianza 1 1 = nij (xi x)2 = ni (xi x)2 = s2 x n n


i,j i

m0,2 =

1 n

nij (yj y )2 =
i,j

1 n

nj (yi y )2 = s2 y
j

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 14 / 29

An alisis de la Covarianza
sxy = 1 n nij (xi x)(yj y)
i,j

a1,1 a1,0 a0,1

xy x y.

Var2

9.8 1.0

10.0

10.2

10.4

10.6

10.8

11.0

1.2

1.4 Var1

1.6

1.8

2.0

sxy = 0
2.2 Var3 1.0 1.0 1.2 1.4 1.6 1.8 2.0

1.2

1.4 Var1

1.6

1.8

2.0

sxy > 0

Var4

7.0 1.0

7.5

8.0

1.2

1.4 Var1

1.6

1.8

2.0

sxy < 0

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 15 / 29

10

Coeciente de Correlaci on de Pearson


La Covarianza posee unidades, las unidades de la Unidad Estad stica al cuadrado. Para conseguir un dato adimensional que nos permita comparar la correlaci on entre parejas de variables, se dene el Coeciente de Correlaci on de Pearson: r= sxy sx sy

1 < r < 1 Este coeciente determina el grado de correlaci on lineal, pudiendo existir otro tipo de relaciones. Correlation is the degree to which two or more quantities are linearly associated. In a two-dimensional plot, the degree of correlation between the values on the two axes is quantied by the so-called correlation coecient. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 16 / 29

11

Correlaci on con R
> > + > Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12) Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73, 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5) cor(Diesel,Viscosidad)

[1] -0.9950753 > plot(Diesel,Viscosidad)

Viscosidad

45 0

50

55

60

65

70

6 Diesel

10

12

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 17 / 29

Regresi on
Regresi on y Correlaci on

18 / 29

La Regresi on trata de buscar una funci on que permita explicar los valores de una variable en funci on de otra. La Correlaci on cuantica el grado de dependencia o asociaci on que liga ambas variables. La regresi on persigue: Determinar el tipo de relaci on que une a las variables. Ecuaci on funcional matem atica que representa al modelo. Estimar los par ametros del modelo y determinar la bondad del ajuste. Realizar predicciones de la variable respuesta, dentro del rango de valores. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 19 / 29

12

Modelo de Regresi on
Siendo X la variable explicativa o independiente e Y la variable respuesta o dependiente, tendremos la Regresi on Simple: Y = f (X ) Si la variable respuesta, Y , depende de varias variables explicativas, X1 , X2 , . . . , Xn , tendremos la Regresi on M ultiple: Y = f (X1 , X2 , . . . , Xn ) In statistics, regression analysis includes any techniques for modeling and analyzing several variables, when the focus is on the relationship between a dependent variable, Y , and one or more independent variables, X . Seg un la naturaleza de la funci on f podemos tener distintos tipos de Modelos de Regresi on: Regresi on Lineal Simple: Y = a+bX Regresi on Polin omica Simple: Y = a + b X + c X2 + d X3 + . . . Regresi on Lineal M ultiple: Y = a + b1 X1 + b2 X2 + + bn Xn Tambi en hay Regresi on: Logar tmica, Exponencial, Potencial, Hiperb olica, Trigonom etrica, etc. Los valores desconocidos que caracterizan la funci on f se denominan Par ametros de Regresi on, Regression Parameters. Qu e criterio utilizar para escoger unos valores adecuados para los par ametros.
Regresin Y=f(X)

1.5

1.0

0.5

0.0

0.5

1.0

1 X

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 20 / 29

13

Suma de Cuadrados
Para una observaci on dada (xi , yj ) con una frecuencia nij , denimos el error cometido por el modelo de regresi on: ij = (yj f (xi )), yj = f (xi ) + ij . El objetivo es minimizar el error cometido por el modelo al explicar la variable respuesta Y en funci on de la variable independiente X : SCE =
i,j

nij 2 ij =
i,j

nij (yj f (xi ))2 .

Los par ametros del Modelo que minimizan la Suma del Cuadrado de los Errores, denen al Modelo de Regresi on. En el caso del Modelo Lineal Simple tendremos: ij = (yj f (xi )), yj = a + b xi + ij . El objetivo es entonces minimizar la Suma del Cuadrado de los Errores: SCE =
i,j

nij 2 ij =
i,j

nij [yj (a + b xi )]2 = G(a, b).

The linear least squares tting technique is the simplest and most commonly applied form of linear regression and provides a solution to the problem of nding the best tting straight line through a set of points. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 21 / 29

14

Regresi on Lineal Simple


La recta que explique la dependencia de Y respecto a X , tendr a par ametros a y b que minimizen la SCE: G(a, b) = nij [yj (a + b xi )]2 .
i,j

Para obtener a y b: nij yj


ij G(a,b) a G(a,b) b

=0 =0
ij

ij

nij a
ij

nij b xi
ij

=0

ij

nij yj xi

nij a xi

nij b x2 i =0

Las ecuaciones normales que resultan de minimizar G(a, b), son: =a+bx y yx = a x + b x2 Resolviendo el sistema, tenemos los valores a y b: a =ybx b =
yxxy x2 x2

sxy s2 x

Con lo que la recta de regresi on de Y sobre X es: y = f (x) = y + sxy (x x) s2 x

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 22 / 29

Coeciente de Determinaci on
El Coeciente de Correlaci on de Pearson determina el grado de correlaci on lineal entre las variables. 1 < r < 1 Se demuestra que para r 2 = 1, la Suma de los Cuadrados de los Errores, SCE= 0.
2 SCE = Gmin = n s2 y (1 r )

El Coeciente de Determinaci on, R2 , en este caso de Regresi on Lineal Simple coincide con 2 r , expresa el porcentaje de Variabilidad Explicada por el modelo. The overall quality of the t is then parameterized in terms of a quantity known as the Coecient of Determination, dened by r 2 , which gives the proportion of (yi y )2 which is accounted for by the regression. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 23 / 29

15

Regresi on con R
> > + > > Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12) Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73, 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5) Regresion<-lm(Viscosidad ~ Diesel) Regresion

Call: lm(formula = Viscosidad ~ Diesel) Coefficients: (Intercept) 70.425

Diesel -2.246

> plot(Diesel,Viscosidad) > abline(Regresion) Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 24 / 29

Regresi on con R

Viscosidad

45 0

50

55

60

65

70

6 Diesel

10

12

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 25 / 29

16

summary(Regresion)

Call: lm(formula = Viscosidad ~ Diesel) Residuals: Min 1Q Median -0.9598 -0.7098 -0.3724

3Q 0.9007

Max 1.5250

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 70.42500 0.37018 190.25 <2e-16 *** Diesel -2.24631 0.05133 -43.76 <2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1

Residual standard error: 0.941 on 19 degrees of freedom Multiple R-squared: 0.9902, Adjusted R-squared: 0.9897 F-statistic: 1915 on 1 and 19 DF, p-value: < 2.2e-16 Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 26 / 29

17

Regresi on Lineal X sobre Y


En el caso en que busquemos explicar la dependencia de X respecto de Y , mediante regresi on lineal simple: X =a+bY ij = (xi f (yj )), xi = f (yj ) + ij .

Regresin X=f(Y)

1.0

0.5

0.0

0.5

1.0

1 X

La SCE a minimizar ser a, G(a, b) =

i,j

nij [xi (a + b yj )]2 .


G(a,b) a G(a,b) b

=0 =0

Resolviendo el sistema, tenemos los valores a y b: a =xby b =


yxxy y 2 y 2

sxy s2 y

Con lo que la recta de regresi on de Y sobre X es: x = f (y ) = x + sxy (y y ) s2 y

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 27 / 29

18

Regresi on Exponencial, Potencial e Hiperb olica


Para los casos de modelos Exponenciales, Potenciales e Hiperb olicos, una transformaci on de las variables permite adaptar lo visto para la Regresi on Lineal Simple: Exponencial: Y = a bX Potencial: Y = a Xb Hiperb olica: Y = Licesio J. Rodr guez-Arag on log(Y ) = log(a) + b log(X ) 1 =a+bX Y Tema 4, M.E.I. 28 / 29 log(Y ) = log(a) + log(b) X

1 a+bX

Regresi on Polin omica y M ultiple


De forma gen erica se obtienen los par ametros de regresi on para ecuaciones Polin omicas o para el caso de Regresi on M ultiple: Y = f (X ; ), = (a, b, c, . . . ). ij = (xi f (yj )), xi = f (yj ) + ij . La Suma de Cuadrados a minimizar ser a, G( ) =
i,j

nij [xi f (xi )]2 . G(a, b) =0

Licesio J. Rodr guez-Arag on

Tema 4, M.E.I. 29 / 29

19

Вам также может понравиться