Академический Документы
Профессиональный Документы
Культура Документы
Area de Estad stica e Investigaci on Operativa Licesio J. Rodr guez-Arag on Febrero 2010
Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Variables Bidimensionales Introducci on . . . . . . . . . . . . . . . . . . Variables Bidimensionales . . . . . . . . . Frecuencias y Frecuencias Marginales. Distribuci on Condicionada . . . . . . . . Ejemplo . . . . . . . . . . . . . . . . . . . . . Variables Bidimensionales con R . . . . Variables Bidimensionales con R . . . . Representaciones Gr acas . . . . . . . . . Representaciones Gr acas con R . . . . Representaciones Gr acas con R . . . . Momentos . . . . . . . . . . . . . . . . . . . . An alisis de la Covarianza . . . . . . . . . Coeciente de Correlaci on de Pearson Correlaci on con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Regresi on Regresi on y Correlaci on . . . . . . . . . . . . . . . . . Modelo de Regresi on . . . . . . . . . . . . . . . . . . . Suma de Cuadrados . . . . . . . . . . . . . . . . . . . . Regresi on Lineal Simple . . . . . . . . . . . . . . . . . Coeciente de Determinaci on . . . . . . . . . . . . . Regresi on con R. . . . . . . . . . . . . . . . . . . . . . . Regresi on con R. . . . . . . . . . . . . . . . . . . . . . . summary(Regresion) . . . . . . . . . . . . . . . . . . . Regresi on Lineal X sobre Y. . . . . . . . . . . . . . . Regresi on Exponencial, Potencial e Hiperb olica Regresi on Polin omica y M ultiple . . . . . . . . . . .
Contenidos
Variables Bidimensionales
Frecuencias, Frecuencias Marginales, Distribuci on Condicionada, Representaciones
Gr acas.
Frequencies, Marginal Frequencies, Conditional Distributions, Graphs.
La Regresi on tiene como objetivo buscar una funci on que permita explicar una Variable en funci on de otra. A method for tting a curve (not necessarily a straight line) through a set of points using some goodness-of-t criterion. The most common type of regression is linear regression. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 2 / 29
Variables Bidimensionales
Introducci on
3 / 29
Hasta ahora, para cada Unidad Estad stica de nuestra muestra, s olo hemos observado un determinado Car acter. En la realidad, la mayor a de las ocasiones que tomamos una muestra observaremos m as de un Car acter por Unidad Estad stica. Como ya vimos los Caracteres pod an ser: Cuantitativos o Cualitativos. El valor que adoptaba un Car acter entre sus distintas Modalidades posibles era una Variable Estad stica. Cuantitativas Discretas o Continuas. Cualitativas Nominales u Ordinales. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 4 / 29
Variables Bidimensionales
El caso m as sencillo es cuando para cada Unidad Estad stica se observan dos Caracteres distintos. Siendo X e Y dos Variables Estad sticas. La ordenaci on de datos bidimensionales se puede efectuar mediante tablas de doble entrada, seg un sean: Variables cualitativas o no agrupadas. Variables cuantitativas agrupadas. Se tendr a: Para Variables cualitativas o no agrupadas, X \Y x1 . . . xi . . . xm Totales y1 n11 . . . ni1 . . . nm1 n1 ... ... ... ... ... yj n1j . . . nij . . . nmj nj ... ... ... ... ... yl n1l . . . nil . . . nml nl Totales n1 . . . ni . . . nm n
Para Variables cuantitativas agrupadas, X \Y [a1 , a2 ) . . . [ai , ai+1 ) . . . [am , am+1 ) Totales Licesio J. Rodr guez-Arag on c1 . . . ci . . . cm [b1 , b2 ) d1 n11 . . . ni1 . . . nm1 n1 ... ... ... ... ... ... [bj , bj +1 ) dj n1j . . . nij . . . nmj nj ... ... ... ... ... ... [bl , bl+1 ] dl n1l . . . nil . . . nml nl Totales n1 . . . ni . . . nm n Tema 4, M.E.I. 5 / 29
Adem as podemos denir Frecuencias Marginales: Frecuencia Marginal Absoluta ni o ni , suma por columnas o por las respectivamente. Frecuencia Marginal Relativa fi o fi , suma de las fij por columnas o las respectivamente. The total row and total column report the marginal frequencies or marginal distribution, while the body of the table reports the joint frequencies. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 6 / 29
Distribuci on Condicionada
Se dene la Distribuci on Condicionada como la distribuci on de una de las variables respecto de un valor concreto de la otra variable. f (yi |xj ) = f (xi |yj ) = nij fij = nj fj nij fij = nj fj
Given two jointly distributed random variables X and Y , the conditional probability distribution of Y given X (written Y |X ) is the probability distribution of Y when X is known to be a particular value. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 7 / 29
Ejemplo
Pedidos recibidos hoy en nuestra empresa de transporte log stico. En primer lugar observaremos el car acter Cualitativo de la Delegaci on Comercial que ha recibido el pedido y en segundo lugar el Producto Solicitado. Resinas 5 12 Aceites 21 35 Aditivos 28 19
Completamos la tabla de frecuencias con las Frecuencias Marginales: Ciudad Real Puertollano Totales Resinas 5 12 Aceites 21 35 Aditivos 28 19 Totales
Frecuencias condicionadas por Delegaci on Comercial: Resinas Ciudad Real Puertollano Frecuencias Condicionadas por Producto Solicitado: Resinas Ciudad Real Puertollano Totales Licesio J. Rodr guez-Arag on Aceites Aditivos Aceites Aditivos Totales 1 1
1 Tema 4, M.E.I. 8 / 29
Representaciones Gr acas
Las representaciones gr acas m as usadas son los Diagramas de Rect angulos para Caracteres Cualitativos y diagramas de Barras e Histogramas, para datos Caracteres Cuantitativos.
Pedidos
35
Pedidos
50
40
30
20
10
Resinas
Aditivos
10
15
20
25
Resinas
Aditivos
Ahora bien, en el caso de parejas de Variables Estad sticas las representaciones m as sencillas son los diagramas de dispersi on.
1.5
1.0
0.5
0.0
0.5
1.0
1.5
0 X
Tema 4, M.E.I. 11 / 29
CR
r o a
a o r
CR
Tema 4, M.E.I. 12 / 29
Ahorros
0 10000
5000
10000
15000
30000
50000 Ingresos
70000
Tema 4, M.E.I. 13 / 29
Momentos
Se denen los Momentos de orden (r, s) respecto de (v, w): M(r,s) (v, w) =
i,j
teniendo especial inter es para (v, w) = (0, 0) y (v, w) = (x, y ) Raw Moments, (v, w) = (0, 0). Central Moments, (v, w) = (x, y ). Momentos respecto al origen, (v, w) = (0, 0): a0,0 = a1,0 = a0,1 = a1,1 = a2,0 = a0,2 = Momentos centrales, (v, w) = (x, y ): m0,0 = 1, 1 m1,1 = n m0,1 = m1,0 = 0 nij (xi x)(yj y ) = a1,1 a1,0 a0,1 =
i,j
1 n 1 n 1 n 1 n 1 n 1 n
nij = 1
ij
nij xi =
ij
1 n 1 n
ni xi = x
i
nij yj =
ij
nj yj = y
j
nij xi yj = xy
ij
nij x2 i =
ij
1 n
2 ni x2 i =x i 2 nj yj = y2 j
ij
1 2 nij yj = n
m2,0
m0,2 =
1 n
nij (yj y )2 =
i,j
1 n
nj (yi y )2 = s2 y
j
Tema 4, M.E.I. 14 / 29
An alisis de la Covarianza
sxy = 1 n nij (xi x)(yj y)
i,j
xy x y.
Var2
9.8 1.0
10.0
10.2
10.4
10.6
10.8
11.0
1.2
1.4 Var1
1.6
1.8
2.0
sxy = 0
2.2 Var3 1.0 1.0 1.2 1.4 1.6 1.8 2.0
1.2
1.4 Var1
1.6
1.8
2.0
sxy > 0
Var4
7.0 1.0
7.5
8.0
1.2
1.4 Var1
1.6
1.8
2.0
sxy < 0
Tema 4, M.E.I. 15 / 29
10
1 < r < 1 Este coeciente determina el grado de correlaci on lineal, pudiendo existir otro tipo de relaciones. Correlation is the degree to which two or more quantities are linearly associated. In a two-dimensional plot, the degree of correlation between the values on the two axes is quantied by the so-called correlation coecient. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 16 / 29
11
Correlaci on con R
> > + > Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12) Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73, 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5) cor(Diesel,Viscosidad)
Viscosidad
45 0
50
55
60
65
70
6 Diesel
10
12
Tema 4, M.E.I. 17 / 29
Regresi on
Regresi on y Correlaci on
18 / 29
La Regresi on trata de buscar una funci on que permita explicar los valores de una variable en funci on de otra. La Correlaci on cuantica el grado de dependencia o asociaci on que liga ambas variables. La regresi on persigue: Determinar el tipo de relaci on que une a las variables. Ecuaci on funcional matem atica que representa al modelo. Estimar los par ametros del modelo y determinar la bondad del ajuste. Realizar predicciones de la variable respuesta, dentro del rango de valores. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 19 / 29
12
Modelo de Regresi on
Siendo X la variable explicativa o independiente e Y la variable respuesta o dependiente, tendremos la Regresi on Simple: Y = f (X ) Si la variable respuesta, Y , depende de varias variables explicativas, X1 , X2 , . . . , Xn , tendremos la Regresi on M ultiple: Y = f (X1 , X2 , . . . , Xn ) In statistics, regression analysis includes any techniques for modeling and analyzing several variables, when the focus is on the relationship between a dependent variable, Y , and one or more independent variables, X . Seg un la naturaleza de la funci on f podemos tener distintos tipos de Modelos de Regresi on: Regresi on Lineal Simple: Y = a+bX Regresi on Polin omica Simple: Y = a + b X + c X2 + d X3 + . . . Regresi on Lineal M ultiple: Y = a + b1 X1 + b2 X2 + + bn Xn Tambi en hay Regresi on: Logar tmica, Exponencial, Potencial, Hiperb olica, Trigonom etrica, etc. Los valores desconocidos que caracterizan la funci on f se denominan Par ametros de Regresi on, Regression Parameters. Qu e criterio utilizar para escoger unos valores adecuados para los par ametros.
Regresin Y=f(X)
1.5
1.0
0.5
0.0
0.5
1.0
1 X
Tema 4, M.E.I. 20 / 29
13
Suma de Cuadrados
Para una observaci on dada (xi , yj ) con una frecuencia nij , denimos el error cometido por el modelo de regresi on: ij = (yj f (xi )), yj = f (xi ) + ij . El objetivo es minimizar el error cometido por el modelo al explicar la variable respuesta Y en funci on de la variable independiente X : SCE =
i,j
nij 2 ij =
i,j
Los par ametros del Modelo que minimizan la Suma del Cuadrado de los Errores, denen al Modelo de Regresi on. En el caso del Modelo Lineal Simple tendremos: ij = (yj f (xi )), yj = a + b xi + ij . El objetivo es entonces minimizar la Suma del Cuadrado de los Errores: SCE =
i,j
nij 2 ij =
i,j
The linear least squares tting technique is the simplest and most commonly applied form of linear regression and provides a solution to the problem of nding the best tting straight line through a set of points. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 21 / 29
14
=0 =0
ij
ij
nij a
ij
nij b xi
ij
=0
ij
nij yj xi
nij a xi
nij b x2 i =0
Las ecuaciones normales que resultan de minimizar G(a, b), son: =a+bx y yx = a x + b x2 Resolviendo el sistema, tenemos los valores a y b: a =ybx b =
yxxy x2 x2
sxy s2 x
Tema 4, M.E.I. 22 / 29
Coeciente de Determinaci on
El Coeciente de Correlaci on de Pearson determina el grado de correlaci on lineal entre las variables. 1 < r < 1 Se demuestra que para r 2 = 1, la Suma de los Cuadrados de los Errores, SCE= 0.
2 SCE = Gmin = n s2 y (1 r )
El Coeciente de Determinaci on, R2 , en este caso de Regresi on Lineal Simple coincide con 2 r , expresa el porcentaje de Variabilidad Explicada por el modelo. The overall quality of the t is then parameterized in terms of a quantity known as the Coecient of Determination, dened by r 2 , which gives the proportion of (yi y )2 which is accounted for by the regression. Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 23 / 29
15
Regresi on con R
> > + > > Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12) Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73, 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5) Regresion<-lm(Viscosidad ~ Diesel) Regresion
Diesel -2.246
Regresi on con R
Viscosidad
45 0
50
55
60
65
70
6 Diesel
10
12
Tema 4, M.E.I. 25 / 29
16
summary(Regresion)
Call: lm(formula = Viscosidad ~ Diesel) Residuals: Min 1Q Median -0.9598 -0.7098 -0.3724
3Q 0.9007
Max 1.5250
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 70.42500 0.37018 190.25 <2e-16 *** Diesel -2.24631 0.05133 -43.76 <2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
Residual standard error: 0.941 on 19 degrees of freedom Multiple R-squared: 0.9902, Adjusted R-squared: 0.9897 F-statistic: 1915 on 1 and 19 DF, p-value: < 2.2e-16 Licesio J. Rodr guez-Arag on Tema 4, M.E.I. 26 / 29
17
Regresin X=f(Y)
1.0
0.5
0.0
0.5
1.0
1 X
i,j
=0 =0
sxy s2 y
Tema 4, M.E.I. 27 / 29
18
1 a+bX
Tema 4, M.E.I. 29 / 29
19