Вы находитесь на странице: 1из 19

M´etodos Estad´ısticos de la Ingenier´ıa Tema 4: Correlaci´on y Regresi´on Grupo B

Area ´ de Estad´ıstica e Investigaci´on Operativa

Licesio J. Rodr´ıguez-Arag´on

Febrero 2010

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2

Variables Bidimensionales

 

3

Introducci´on

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

4

Variables

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

Frecuencias

y Frecuencias

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

6

Distribuci´on Condicionada

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

Ejemplo Variables Bidimensionales con

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

R .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

8

9

Variables Bidimensionales con

R .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

Representaciones

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

Representaciones Gr´aficas con

 

R .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

12

Representaciones Gr´aficas con

.

.

.

.

.

.

.

.

.

.

.

.

.

.

R .

. .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

14

Momentos An´alisis de la Covarianza

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

15

Coeficiente de Correlaci´on de Pearson

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

16

Correlaci´on con R

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

17

Regresi´on

18

Regresi´on y Correlaci´on

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

19

Modelo de Regresi´on Suma de Cuadrados

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

20

21

Regresi´on

Lineal Simple

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

22

Coeficiente de Determinaci´on

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

23

Regresi´on

con

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

24

Regresi´on

con

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

25

summary(Regresion)

. Lineal X sobre

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Regresi´on

. Regresi´on Exponencial, Potencial e Hiperb´olica

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

26

27

28

Regresi´on

Polin´omica y M´ultiple

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29

 

1

Contenidos

Variables Bidimensionales

Frecuencias, Frecuencias Marginales, Distribuci´on Condicionada, Representaciones Gr´aficas.

Frequencies, Marginal Frequencies, Conditional Distributions, Graphs. Correlaci´on, Correlation.

Covarianza y Coeficiente de Correlaci´on de Pearson. Covariance and Correlation Coefficient.

Regresi´on, Regression.

Modelo de Regresi´on, Regresi´on Lineal Simple, Coeficiente de Determinaci´on. Linear Regression, Determination Coefficient.

La Regresi´on tiene como objetivo buscar una funci´on que permita explicar una Variable en funci´on de otra.

A method for fitting a curve (not necessarily a straight line) through a set of points using some goodness-of-fit criterion. The most common type of regression is linear regression.

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 2 / 29

Variables Bidimensionales

3 / 29

Introducci´on

Hasta ahora, para cada Unidad Estad´ıstica de nuestra muestra, s´olo hemos observado un determinado Car´acter.

En la realidad, la mayor´ıa de las ocasiones que tomamos una muestra observaremos m´as de un Car´acter por Unidad Estad´ıstica.

Como ya vimos los Caracteres pod´ıan ser: Cuantitativos o Cualitativos.

El valor que adoptaba un Car´acter entre sus distintas Modalidades posibles era una Variable Estad´ıstica.

Cuantitativas Discretas o Continuas. Cualitativas Nominales u Ordinales.

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 4 / 29

2

Variables Bidimensionales

El caso m´as sencillo es cuando para cada Unidad Estad´ıstica se observan dos Caracteres distintos.

Siendo X e Y dos Variables Estad´ısticas.

La ordenaci´on de datos bidimensionales se puede efectuar mediante tablas de doble entrada,

seg´un sean:

Variables cualitativas o no agrupadas.

Variables cuantitativas agrupadas.

Se tendr´a: Para Variables cualitativas o no agrupadas,

x m . . . . . . . n ·l n ·j . n 1·
x m
.
.
.
.
.
.
.
n ·l
n ·j
.
n 1·
n i·
n m·
.
. .
.
. .
n
. .
.
. .
y l
y j
x
1
.
. .
x
i
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
[b j , b j+1 )
n 1j
n ij
.
. .
.
n 1l
n il
n ml
n i1
n m1
y 1
n 11
n mj
. .
. . .
X \ Y
[b 1 , b 2 )
Totales
Totales n ·1
.
. .

Para Variables cuantitativas agrupadas,

. n n n c n il [a i , a i+1 ) [b l ,
.
n
n
n
c
n il
[a i , a i+1 )
[b l , b l+1 ] Totales
[a m , a m+1 ) c m
c
.
n
.
.
.
.
.
.
.
.
.
.
n 1l
[a 1 , a 2 )
X \ Y
Totales
n mj
n m1
n ml
n ij
n m·
n ·j
d j
.
n ·1
n 1·
n ·l
n i·
1j
d
d
11
i1
. .
. . .
. . .
. . .
. . .
l
. .
. .
. .
. .
. .
. . .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
. . .
. . .
i

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 5 / 29

Frecuencias y Frecuencias Marginales

Se definen entonces las Frecuencias Absolutas y las Frecuencias Relativas:

Frecuencia

Absoluta de (x i , y j ) es n ij .

Frecuencia

Relativa de (x i , y j ) es f ij = n ij .

n

Adem´as podemos definir Frecuencias Marginales:

Frecuencia Marginal Absoluta n ·i o n i· , suma por columnas o por filas respectivamente.

Frecuencia Marginal Relativa f ·i o f i· , suma de las f ij por columnas o filas respectivamente.

The total row and total column report the marginal frequencies or marginal distribution, while

the body of the table reports the joint frequencies.

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 6 / 29

3

Distribuci´on Condicionada Se define la Distribuci´on Condicionada como la distribuci´on de una de las variables respecto
Distribuci´on Condicionada
Se define la Distribuci´on Condicionada como la distribuci´on de una de las variables respecto
de un valor concreto de la otra variable.
n
ij
f ij
f(y i |x j ) =
=
n
f j·
n
ij
f ij
f(x i |y j ) =
=
n
·j
f ·j
Given two jointly distributed random variables X and Y , the conditional probability distribution
of Y given X (written Y |X) is the probability distribution of Y when X is known to be a
particular value.
Licesio J. Rodr´ıguez-Arag´on
Tema 4, M.E.I. – 7 / 29

Ejemplo

Pedidos recibidos hoy en nuestra empresa de transporte log´ıstico.

En primer lugar observaremos el car´acter Cualitativo de la Delegaci´on Comercial que ha recibido

el pedido y en segundo lugar el Producto Solicitado.

Ciudad Real 5 21 28 Puertollano 12 35 19 Resinas Aceites Aditivos
Ciudad Real
5
21
28
Puertollano
12
35
19
Resinas Aceites Aditivos

Completamos la tabla de frecuencias con las Frecuencias Marginales:

Resinas Aceites Aditivos Totales Totales Ciudad Real 5 21 28 Puertollano 12 35 19
Resinas Aceites Aditivos Totales
Totales
Ciudad Real
5
21
28
Puertollano
12
35
19

Frecuencias condicionadas por Delegaci´on Comercial:

Ciudad Real 1 Puertollano 1 Resinas Aceites Aditivos Totales
Ciudad Real
1
Puertollano
1
Resinas Aceites Aditivos Totales

Frecuencias Condicionadas por Producto Solicitado:

1 1 1 Totales Resinas Aceites Aditivos Ciudad Real Puertollano
1
1
1
Totales
Resinas Aceites Aditivos
Ciudad Real
Puertollano

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 8 / 29

4

Variables Bidimensionales con R

> Producto<-c("a","r","o","a","o","a","r","a","o","a")

> Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P")

> addmargins(table(Producto,Delegacion))

Delegacion

Producto CR

P Sum

a

4

1

5

o

2

1

3

r

0

2

2

Sum

6

4

10

> margin.table(table(Producto,Delegacion),1)

Producto

a o r

5 3 2

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 9 / 29

Variables Bidimensionales con R

> Producto<-c("a","r","o","a","o","a","r","a","o","a")

> Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P")

> prop.table(table(Producto,Delegacion),1)

 

Delegacion

Producto

CR

P

a 0.8000000 0.2000000

o 0.6666667 0.3333333

r 0.0000000 1.0000000

> prop.table(table(Producto,Delegacion),2)

 

Delegacion

Producto

CR

P

a 0.6666667 0.2500000

o 0.3333333 0.2500000

r 0.0000000 0.5000000

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 10 / 29

5

Representaciones Gr´aficas

Las representaciones gr´aficas m´as usadas son los Diagramas de Rect´angulos para Caracteres

Cualitativos y diagramas de Barras e Histogramas, para datos Caracteres Cuantitativos.

Pedidos

   

50

 

40

30

20

10

20 10
 

0

Resinas

Aceites

Zona Comercial

Pedidos

Ciudad Real Puertollano 35 30 25 20 15 10 0 5 Puertollano Ciudad Real Resinas Aditivos
Ciudad Real
Puertollano
35
30
25
20
15
10
0
5
Puertollano
Ciudad Real
Resinas
Aditivos
Aditivos
Aceites

Zona Comercial

Representaciones Gr´aficas Las representaciones gr´aficas m´as usadas son los Diagramas de Rect´angulos para Caracteres Cualitativos y
Representaciones Gr´aficas Las representaciones gr´aficas m´as usadas son los Diagramas de Rect´angulos para Caracteres Cualitativos y

Ahora bien, en el caso de parejas de Variables Estad´ısticas las representaciones m´as sencillas son

los diagramas de dispersi´on.

1.5

1.0

0.5

Y

0.0

−0.5

−1.0

−1.5

Licesio J. Rodr´ıguez-Arag´on

−2 −1 0 1 2 X
−2
−1
0
1
2
X

Tema 4, M.E.I. – 11 / 29

6

Representaciones Gr´aficas con R

> Producto<-c("a","r","o","a","o","a","r","a","o","a")

> Delegacion<-c("CR","P","CR","CR","P","CR","P","CR","CR","P")

> barplot(table(Producto,Delegacion),legend.text=TRUE)

> barplot(table(Producto,Delegacion),legend.text=TRUE,

+ beside=TRUE)

6

   

5

4

 

3

2

0

1

CR

4 3 2 0 1 r o a a o r
4
3
2
0
1
r
o
a
a
o
r

P

CR

P

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 12 / 29

7

Representaciones Gr´aficas con R

> library(UsingR)

> Ingresos<-cfb$INCOME[1:15]

> Ahorros<-cfb$SAVING[1:15]

> plot(Ingresos,Ahorros)

0 5000 10000 15000 Ahorros 50000 30000 70000 10000
0
5000
10000
15000
Ahorros
50000
30000
70000
10000

Licesio J. Rodr´ıguez-Arag´on

Ingresos

Tema 4, M.E.I. – 13 / 29

8

Momentos Se definen los Momentos de orden (r, s) respecto de (v, w): i,j n ij
Momentos
Se definen los Momentos de orden (r, s) respecto de (v, w):
i,j n ij (x i − v) r (y j − w) s
M (r,s) (v, w) =
,
n
teniendo especial inter´es para (v, w) = (0, 0) y (v, w) = (x, y)
Raw Moments, (v, w) = (0, 0).
Central Moments, (v, w) = (x, y).
Momentos respecto al origen, (v, w) = (0, 0):
1
a
=
n ij = 1
0,0
n
ij
1
1
a
=
1,0
n ij x i =
n i· x i = x
n
n
ij
i
1
1
a
=
0,1
n ij y j =
n ·j y j = y
n
n
ij
j
1
a
=
n ij x i y j = xy
1,1
n
ij
1
1
2
2
a
=
n ij x i =
x
= x 2
2,0
n i·
i
n
n
ij
i
1
1
2
2
a
=
n ij y j =
n
= y 2
0,2
·j y j
n
n
ij
j
Momentos centrales, (v, w) = (x, y):
m
= 1, m 0,1 = m 1,0 = 0
0,0
1
m
=
n ij (x i − x)(y j − y) = a 1,1 − a 1,0 · a 0,1 =
1,1
n
i,j
= xy − x · y = s xy = s yx = Covarianza
1
1
2
m
=
n ij (x i − x) 2
=
n i· (x i − x) 2
= s
2,0
x
n
n
i,j
i
1
1
2
m
=
n ij (y j − y) 2 =
n ·j (y i − y) 2 = s
0,2
y
n
n
i,j
j
Licesio J. Rodr´ıguez-Arag´on
Tema 4, M.E.I. – 14 / 29
9
An´alisis de la Covarianza 1 = n ij (x i − x)(y j − y) =
An´alisis de la Covarianza
1
=
n ij (x i − x)(y j − y)
=
·
=
xy
x
·
y.
s xy
a 1,1
a 1,0
a 0,1
n
i,j
1.0
1.2
1.4
1.6
1.8
2.0
Var1
s xy = 0
1.0
1.2
1.4
1.6
1.8
2.0
Var1
s xy > 0
1.0
1.2
1.4
1.6
1.8
2.0
Var1
s xy < 0
Licesio J. Rodr´ıguez-Arag´on
Tema 4, M.E.I. – 15 / 29
Var4
Var3
Var2
7.0
7.5
8.0
1.0
1.2
1.4
1.6
1.8
2.0
2.2
9.8
10.0
10.2
10.4
10.6
10.8
11.0

10

Coeficiente de Correlaci´on de Pearson

La Covarianza posee unidades, las unidades de la Unidad Estad´ıstica al cuadrado.

Para conseguir un dato adimensional que nos permita comparar la correlaci´on entre parejas de

variables, se define el Coeficiente de Correlaci´on de Pearson:

r =

s xy

s x · s y

1 < r < 1

Este coeficiente determina el grado de correlaci´on lineal, pudiendo existir otro tipo de

relaciones.

Correlation is the degree to which two or more quantities are linearly associated. In a

two-dimensional plot, the degree of correlation between the values on the two axes is quantified

by the so-called correlation coefficient.

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 16 / 29

11

Correlaci´on con R

> Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12)

> Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73,

+ 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5)

> cor(Diesel,Viscosidad)

[1] -0.9950753

> plot(Diesel,Viscosidad)

65 60 70 55 50 45 Viscosidad 10 12 4 6 0 8 2
65
60
70
55
50
45
Viscosidad
10
12
4
6
0
8
2

Licesio J. Rodr´ıguez-Arag´on

Diesel

Tema 4, M.E.I. – 17 / 29

Regresi´on

18 / 29

Regresi´on y Correlaci´on

La Regresi´on trata de buscar una funci´on que permita explicar los valores de una variable en

funci´on de otra.

La Correlaci´on cuantifica el grado de dependencia o asociaci´on que liga ambas variables.

La regresi´on persigue:

Determinar el tipo de relaci´on que une a las variables.

Ecuaci´on funcional matem´atica que representa al modelo.

Estimar los par´ametros del modelo y determinar la bondad del ajuste.

Realizar predicciones de la variable respuesta, dentro del rango de valores.

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 19 / 29

12

Modelo de Regresi´on

Siendo X la variable explicativa o independiente e Y la variable respuesta o dependiente,

tendremos la Regresi´on Simple:

Y = f(X)

Si la variable respuesta, Y , depende de varias variables explicativas, X 1 , X 2 ,

. . .

, X n , tendremos la

Regresi´on M´ultiple:

Y = f(X 1 , X 2 ,

. . .

, X n )

In statistics, regression analysis includes any techniques for modeling and analyzing several

variables, when the focus is on the relationship between a dependent variable, Y , and one or more

independent variables, X. Seg´un la naturaleza de la funci´on f podemos tener distintos tipos de

Modelos de Regresi´on:

Regresi´on Lineal Simple:

Y =

a + b · X

Regresi´on Polin´omica Simple:

Y = a + b · X + c · X 2 + d · X 3

+

.

.

.

Regresi´on Lineal M´ultiple:

Y = a + b 1 · X 1 + b 2 · X 2 + · · · + b n · X n

Tambi´en hay Regresi´on: Logar´ıtmica, Exponencial, Potencial, Hiperb´olica, Trigonom´etrica, etc.

Los valores desconocidos que caracterizan la funci´on f se denominan Par´ametros de

Regresi´on, Regression Parameters.

Qu´e criterio utilizar para escoger unos valores adecuados para los par´ametros.

Regresión Y=f(X)

Y

1.0

0.5

0.0

−0.5

−1.0

−1.5

−3 −2 −1 0 2 1
−3
−2
−1
0
2
1

X

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 20 / 29

13

Suma de Cuadrados

Para una observaci´on dada (x i , y j ) con una frecuencia n ij , definimos el error cometido por el

modelo de regresi´on:

ε ij = (y j f(x i )),

y j = f(x i ) + ε ij .

El objetivo es minimizar el error cometido por el modelo al explicar la variable respuesta Y en

funci´on de la variable independiente X:

SCE = n ij ·

i,j

ε

ij 2 =

n ij · (y j f(x i )) 2 .

i,j

Los par´ametros del Modelo que minimizan la Suma del Cuadrado de los Errores, definen al

Modelo de Regresi´on. En el caso del Modelo Lineal Simple tendremos:

ε ij = (y j f(x i )),

y j = a + b · x i + ε ij .

El objetivo es entonces minimizar la Suma del Cuadrado de los Errores:

SCE = n ij · ε

ij 2 =

n ij · [y j (a + b · x i )] 2 = G(a, b).

i,j

i,j

The linear least squares fitting technique is the simplest and most commonly applied form of

linear regression and provides a solution to the problem of finding the best fitting straight line

through a set of points.

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 21 / 29

14

Regresi´on Lineal Simple La recta que explique la dependencia de Y respecto a X, tendr´a par´ametros
Regresi´on Lineal Simple
La recta que explique la dependencia de Y respecto a X, tendr´a par´ametros a y b que minimizen
la SCE:
G(a, b) = n ij · [y j − (a + b · x i )] 2 .
i,j
Para obtener a y b:
∂G(a,b)
 
= 0
∂a
 
∂G(a,b)
= 0
∂b
ij n ij · y j − ij n ij · a − ij n ij · b · x i
= 0
2
· y j · x i − ij n ij · a · x i − ij n ij · b · x
= 0
ij n ij
i
Las ecuaciones normales que resultan de minimizar G(a, b), son:
y
=
a + b · x
yx = a · x + b · x 2
Resolviendo el sistema, tenemos los valores a y b:
a = y − b · x
 
 
= yx−x·y
s xy
b
=
s
2
x
2 −x 2
x
Con lo que la recta de regresi´on de Y sobre X es:
y = f(x) = y + s xy (x − x)
s
2
x
Licesio J. Rodr´ıguez-Arag´on
Tema 4, M.E.I. – 22 / 29

Coeficiente de Determinaci´on

El Coeficiente de Correlaci´on de Pearson determina el grado de correlaci´on lineal entre las

variables.

1 < r < 1

Se demuestra que para r 2 = 1, la Suma de los Cuadrados de los Errores, SCE= 0.

SCE = G min = n · s y (1 r 2 )

2

El Coeficiente de Determinaci´on, R 2 , en este caso de Regresi´on Lineal Simple coincide con

r 2 , expresa el porcentaje de Variabilidad Explicada por el modelo.

The overall quality of the fit is then parameterized in terms of a quantity known as the

Coefficient of Determination, defined by r 2 , which gives the proportion of (y i y) 2 which

is accounted for by the regression.

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 23 / 29

15

Regresi´on con R

> Diesel<-c(0,0,0,2,2,2,4,4,4,6,6,6,8,8,8,10,10,10,12,12,12)

> Viscosidad<-c(71.95,71.89,71.92,65.56,65.54,65.66,60.53,60.73,

+ 60.48,56.05,56.09,56.02,51.93,51.75,51.88,47.91,48.1,48.12,44.91,44.37,44.5)

> Regresion<-lm(Viscosidad ~ Diesel)

> Regresion

Call:

lm(formula = Viscosidad ~ Diesel)

Coefficients:

(Intercept)

Diesel

70.425

-2.246

> plot(Diesel,Viscosidad)

> abline(Regresion)

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 24 / 29

Regresi´on con R

65 60 70 55 50 45 Viscosidad 10 12 4 0 6 8 2
65
60
70
55
50
45
Viscosidad
10
12
4
0
6
8
2

Licesio J. Rodr´ıguez-Arag´on

Diesel

Tema 4, M.E.I. – 25 / 29

16

summary(Regresion)

Call:

lm(formula = Viscosidad ~ Diesel)

Residuals:

Min

1Q

Median

3Q

Max

-0.9598 -0.7098 -0.3724 0.9007 1.5250

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 70.42500

0.37018

190.25

<2e-16 ***

-2.24631

Diesel

0.05133

-43.76

<2e-16 ***

---

0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Signif. codes:

Residual standard error: 0.941 on 19 degrees of freedom

Multiple R-squared: 0.9902,

F-statistic:

1915 on 1 and 19 DF,

Adjusted R-squared: 0.9897

p-value: < 2.2e-16

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 26 / 29

17

Regresi´on Lineal X sobre Y En el caso en que busquemos explicar la dependencia de X
Regresi´on Lineal X sobre Y
En el caso en que busquemos explicar la dependencia de X respecto de Y , mediante regresi´on
lineal simple:
X = a + b · Y
ε ij = (x i − f(y j )),
x i = f(y j ) + ε ij .
Regresión X=f(Y)
−2
−1
0
1
2
X
La SCE a minimizar ser´a, G(a, b) = i,j n ij · [x i − (a + b · y j )] 2 .
∂G(a,b)
 
= 0
∂a
 
∂G(a,b)
= 0
∂b
Resolviendo el sistema, tenemos los valores a y b:
a = x − b · y
 
 
= yx−x·y
s xy
b
=
s
2
y 2 −y 2
y
Con lo que la recta de regresi´on de Y sobre X es:
x = f(y) = x + s xy (y − y)
s
2
y
Licesio J. Rodr´ıguez-Arag´on
Tema 4, M.E.I. – 27 / 29
Y
−1.0
−0.5
0.0
0.5
1.0

18

Regresi´on Exponencial, Potencial e Hiperb´olica

Para los casos de modelos Exponenciales, Potenciales e Hiperb´olicos, una transformaci´on de las

variables permite adaptar lo visto para la Regresi´on Lineal Simple:

Exponencial:

 

Y =

a · b X

log(Y ) = log(a) + log(b) · X

Potencial:

 

Y = a · X b log(Y ) = log(a) + b · log(X)

Hiperb´olica:

Y =

  • 1 Y = a + b · X

1

a + b · X

Licesio J. Rodr´ıguez-Arag´on

Tema 4, M.E.I. – 28 / 29

Regresi´on Polin´omica y M´ultiple

De forma gen´erica se obtienen los par´ametros de regresi´on para ecuaciones Polin´omicas o para el

caso de Regresi´on M´ultiple:

Y = f(X; θ), θ = (a, b, c,

. . .

).

ε ij = (x i f(y j )),

x i = f(y j ) + ε ij .

La Suma de Cuadrados a minimizar ser´a,

G(θ) = n ij · [x i f(x i )] 2 .

Licesio J. Rodr´ıguez-Arag´on

i,j

∂G(a, b)

∂θ

= 0

Tema 4, M.E.I. – 29 / 29

19