Bidimensional (Apuntes) PDF

Variables bidimensionales: regresión y correlación
VARIABLES ESTADÍSTICAS BIDIMENSIONALES
1. Introducción.............................................................. 2
2. Distribuciones marginales........................................ 4
3. Momentos.................................................................. 7
3.1 Momentos respecto al origen................... 7
3.2 Momentos respecto a la media................. 8
4. Matriz de covarianzas.............................................. 9
5. Conceptos de ajuste y regresión.............................12
6. El método de los mínimos cuadrados....................13
6.1 Regresión lineal........................................13
6.2 Regresión parabólica...............................19
6.3 Regresión polinomica...............................20
7. Análisis de la correlación........................................20
7.1 La varianza residual................................21
7.2 Coeficiente de determinación..................22

7.3 Coeficiente de correlación lineal.............22
ANEXO:
El método de los mínimos cuadrados en forma matricial….26
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 1

VARIABLES ESTADÍSTICAS BIDIMENSIONALES
1. INTRODUCCIÓN
Hasta ahora hemos estudiado una sola característica de cada población. Si esa
característica era cuantitativa a cada individuo le hacíamos corresponder un número y
obteníamos las variables estadísticas unidimensionales.
Ahora vamos a estudiar conjuntamente dos características de una población.
Los dos caracteres observados no tienen porqué ser de la misma clase. Así, se nos
puede presentar:
- Dos caracteres cualitativos.

Ej.: El sexo y el color del pelo de una persona.
- Uno cualitativo y otro cuantitativo.
Ej.: La profesión y los años de servicio.
- Dos caracteres cuantitativos.
Ej.: El peso y la edad de una persona.
A cada individuo le vamos a hacer corresponder dos números y así obtenemos las
variables estadísticas bidimensionales.
Si llamamos E a la población, una variable estadística bidimensional es una

aplicación de E → R 2 .
A los caracteres les vamos a llamar x e y, cada uno de ellos presentará varias
modalidades x1 ,....., x r e y1 ,....., y s respectivamente.
Las parejas de valores, así obtenidas por observación conjunta, pueden representar
valores discretos, continuos de distinto tipo y podrán también repetirse un número
determinado de veces, dando lugar de esta forma a los conceptos de frecuencia absoluta
conjunta, paralelos a los ya estudiados para variables estadísticas unidimensionales.

Se acostumbra a disponer los resultados en una tabla de doble entrada, donde en la
primera columna se colocan los valores x1 ,..., x r de la variable "x" y en la primera fila los
valores y1 ,..., y s de la variable "y". En la confluencia de la fila de xi con la columna yj se
coloca la frecuencia conjunta nij referida al resultado (xi,yj) correspondiente, es decir, nij es el
número de individuos que poseen conjuntamente las modalidades xi e yj , y que llamaremos
frecuencia absoluta conjunta del par (xi,yj).
Notaremos por fij la frecuencia relativa correspondiente al par ( x i , y j ) , que vendrá
n ij
dada por la expresión f ij = , siendo n el número total de pares observados.
n
Por consiguiente, definimos distribución de frecuencias como el conjunto de valores

que toma la variable bidimensional con sus respectivas frecuencias absolutas o relativas. Esta
distribución se representa mediante la siguiente tabla:
y1 y2 .......... yj .......... ys
x1 n11 n12 .......... n1j .......... n1s n1.

x2 n21 n22 .......... n2j .......... n2s n2.
... ... ... ... ... ... ... ...
xi ni1 ni2 .......... nij .......... nis ni.
... ... ... ... ... ... ... ...
xr nr1 nr2 .......... nrj .......... nrs nr.
n.1 n.2 .......... n.j .......... n.s n

donde xi e yj son los valores de las variables x e y, o las marcas de clase si están agrupadas, y,
s r
n i. = ∑ n ij ; n. j = ∑ n ij
j =1 i =1
r s r s
verificándose, ∑=
n i.
=i 1
∑=
n. j
=j 1
∑∑
= n ij n
=i 1 =j 1
Análogamente, las frecuencias relativas:

r s
n
ij
i.
=j 1 =i 1
=
f i. ∑=
f
n
; ∑=
f i. 1
r n. j s
=i 1 =j 1
=
f. j ∑=
f ij
n
; ∑=
f. j 1

n ij r s
=f ij =
n
; ∑
i=1
∑
j=1
f. j 1
Las estadísticas de dos variables suelen representarse en un sistema de ejes

cartesianos, tomándose los valores de la variable "x" en el eje de abscisas y los de la variable
"y" en el de ordenadas y señalándose la confluencia en el plano con un punto. El conjunto de
puntos así obtenidos, en un número igual al de observaciones conjuntas efectuadas, recibe el
nombre de diagrama de dispersión o nube de puntos.
Diagrama de dispersi¢n
55
y
j
x x
i
Como en un diagrama de dispersión no puede quedar reflejado las veces que se repite
un par o un intervalo, podemos establecer puntos de tamaño proporcional a la frecuencia, o
bien, escribir al lado del punto la correspondiente frecuencia.También se puede recurrir a una
representación en tres dimensiones de (x,y): os son para la variable bidimensional y una para
expresar las frecuencias.
2. DISTRIBUCIONES MARGINALES
EJEMPLO 1:
Consideremos 150 alumnos a los que se les ha preguntado las calificaciones
obtenidas en Física y Matemáticas. Así se han obtenido pares de resultados (x=nota en
Física, y=nota en Matemáticas), cuya información recogemos en la siguiente tabla de
doble entrada:
Física\Matemáticas Suspenso Aprobado
Suspenso 65 15
Aprobado 10 60

Podemos responder a las siguientes preguntas: 1) ¿Cuántos alumnos han
aprobado Física? ¿Cuántos han suspendido? 2) ¿Cuántos alumnos han suspendido
Matemáticas? ¿Cuántos han aprobado?
Solucion:
Física\Matemáticas Suspenso Aprobado

Suspenso 65 15 80
Aprobado 10 60 70
75 75 150
Para la primera pregunta hemos de tener en cuenta solamente la variable x (Física).
x n x i = n i.
Suspensos 80
Aprobados 70
s
n i. = ∑ n ij = frecuencia marginal del valor xi
j=1
Distribución marginal de la variable "x" son los valores que toma dicha variable con
sus respectivas frecuencias.
x ni..
x1 n1.
x2 n2.
.... ....
xi ni.
.... ....
xr nr.
Para la segunda pregunta hemos de proceder de manera análoga para la variable "y".
y n y j = n. j
Suspensos 75
Aprobados 75
r
n . j = ∑ n ij = .frecuencia marginal del valor yj.
i =1

La tabla representada con la variable "y" con sus frecuencias marginales, recibe el
nombre de distribución marginal de la variable "y".
y n.j
y1 n.1
y2 n.2
.... ....
yj n.j
.... ....
ys n.s
A partir de las frecuencias absolutas marginales se obtienen las frecuencias relativas

marginales.
n i. n. j
=f i. = f. j
n n
Naturalmente, para cada una de las distribuciones marginales pueden hallarse las
medias, las varianzas, las desviaciones típicas y cualquier otra medida de las ya consideradas
para las estadísticas de una sola variable.
Medias marginales:
1 r r
1 s s
=X
=
= ∑ x i n i. ∑ x i f i. =
n i 1 =i 1
; Y =
=
∑ y j n . j ∑ y jf . j
n j 1 =j 1
El punto (X, Y) se llama centro de gravedad de la distribución bidimensional o

vector de medias.
Varianzas marginales:
r r
1
2
x i
2
=
σ
=i 1 =i 1
i.
n
∑ (x − X) =
n ∑ (x i − X) 2 f i.

1 s s
=
∑ =
σ2y
(y j
n j 1 =j 1
− Y) =
2
n .j ∑ (y j − Y) 2 f. j
por tanto, las desviaciones típicas marginales, serán:
1 r r
n
∑ (x=
σx
i
=i 1 =i 1
− =
X) 2
n i. ∑ (x i − X) 2 f i.
1 s s
=
σy
=
∑ (y j − Y)
n j 1 =j 1
= 2
n. j ∑ (y j − Y) 2 f. j
Si en vez de dividir por n se divide por n-1 obtenemos las cuasivarianzas marginales
S2x y S2y .
3. MOMENTOS
3.1. Momentos respecto al origen

1 r s h k
m h,k = ∑∑ x i y j n ij
n=i 1 =j 1
Algunos momentos particulares:

m00 = 1
1 r s 1
=
m1,0 ∑∑ =
n=i 1 =j 1
x i n ij ∑=
n i
x i n i. ∑=
xf
i
i i. X
1 r s 1
=
m 0,1 ∑∑ =
n=i 1 =j 1
y j n ij ∑=
n j
y jn . j ∑=
yf
j
j .j Y
1 r s
=m1,1 = ∑∑ x i y j n ij
n=i 1 =j 1
∑∑ x y f
i j
i j ij
1 r s 2 1
=m 2,0 ∑∑
=
n=i 1 =j 1
x i n ij = ∑
N i
x i2 n i. ∑x f i
2
i i.
1 r s 2 1
=
m 0,2 ∑∑=
n=i 1 =j 1
y j n ij = ∑
n j
y 2j n . j ∑y f j
2
j .j

3.2. Momentos respecto a la media
1 r s
=
µ h,k ∑∑
n=i 1 =j 1
(x i − X) h (y j − Y) k n ij
Casos particulares interesantes:
µ 0,0 = 1
1 r s
µ1,0 = ∑∑ (x i − X) n ij = X − X = 0
n=i 1 =j 1
µ 0,1 = Y − Y = 0
1 r s 1
µ 2,0 = ∑∑ (x i − X) 2 n ij = ∑ (x i −X) 2 n i. =σ2x =m 2,0 − X
2
n=i 1 =j 1 n i
1 r s 1
µ 0,2 = ∑∑ (y j − Y) 2 n ij = ∑ (y j −Y) 2 n . j =σ2y =m 0,2 − Y
2
n=i 1 =j 1 n j
1 r s 1 1 1
=µ1,1 ∑∑
n=i 1 =j 1
(x i − X) (y j −=
Y) n ij ∑∑
n i j
x i y jn ij − X ∑∑ y jn ij − Y ∑∑ x i n ij +
n i j n i j
1 1
+ XY ∑∑ n ij = ∑∑ x i y jn ij − XY =
m1,1 − XY =
σ xy
n i j n i j
σ xy recibe el nombre de covarianza, de gran importancia práctica, se define como la
media aritmética de los productos de las desviaciones de la variable x con respecto a su media
aritmética, X , por las desviaciones de la variable y con respecto a la media aritmética, Y .
De la misma forma que en el caso de la varianza, se define la covarianza muestral por
r s (x i − X)(y j − Y)n ij n
=
Sxy ∑∑
=i 1 =j 1 n −1
siendo =
Sxy
n −1
σ xy .
Cuando las variables x e y son independientes se cumple que la covarianza es nula, en cuyo
caso se dice que son incorreladas. El reciproco no es cierto.
Si la covarianza es distinta de cero, entonces las variables son dependientes.

4. MATRIZ DE COVARIANZAS
Llamamos matriz de covarianzas, a la matriz cuadrada simétrica que tiene en la
diagonal principal las varianzas marginales (o cuasivarianzas), y fuera de la diagonal principal
 S2x Sxy 
las covarianzas (o covarianzas muestrales), es decir Σ =  ; que es simétrica, pues
 Syx S2y 
 σ2 σ xy 
Sxy = Syx . O bien  x 
 σ xy σ 2y 
Se llama varianza generalizada al valor =

Σ S2x S2y − S2xy ≥ 0 (semidefinida positiva)
y mide aproximadamente el área ocupado por el conjunto de datos.

EJEMPLO 2:
Las calificaciones obtenidas por 30 alumnos en los exámenes cuatrimestral (x) y
final (y) de Matemáticas fueron las siguientes:
x 0 0 1 2 1 3 4 9 2 5
y 2 0 0 5 3 6 8 10 3 7
x 6 1 3 5 0 6 4 4 6 4
y 9 1 6 9 1 9 8 6 10 7
x 3 2 7 2 8 4 6 6 6 7
y 5 4 10 4 9 4 8 10 5 8
Se pide: a) Diagrama de dispersión. b) Formar una tabla de doble entrada sin agrupar
los datos en intervalos. c) Hallar las distribuciones marginales: media y varianza de las
mismas. d) Determinar la covarianza .
Solución: a)
Calificaciones
12
10
0
0 2 4 6 8 10

b) Realizando el recuento de pares ordenados se obtiene:
x\y 0 1 2 3 4 5 6 7 8 9 10 ni.
0 1 1 1 0 0 0 0 0 0 0 0 3
1 1 1 0 1 0 0 0 0 0 0 0 3
2 0 0 0 1 2 1 0 0 0 0 0 4
3 0 0 0 0 0 1 2 0 0 0 0 3
4 0 0 0 0 1 0 1 1 2 0 0 5
5 0 0 0 0 0 0 0 1 0 1 0 2
6 0 0 0 0 0 1 0 0 1 2 2 6
7 0 0 0 0 0 0 0 0 1 0 1 2
8 0 0 0 0 0 0 0 0 0 1 0 1
9 0 0 0 0 0 0 0 0 0 0 1 1
n.j 2 2 1 2 3 3 3 2 4 4 4 30
c) Distribuciones marginales
xi ni. xini. xi2 ni. yj n.j yjn.j yj2n.j
0 3 0 0 0 2 0 0
1 3 3 3 1 2 2 2
2 4 8 16 2 1 2 4
3 3 9 27 3 2 6 18
4 5 20 80 4 3 12 48
5 2 10 50 5 3 15 75
6 6 36 216 6 3 18 108
7 2 14 98 7 2 14 98
8 1 8 64 8 4 32 256
9 1 9 81 9 4 36 324
30 117 635 10 4 40 400
30 177 1333
Medias Marginales:
1 177
∑
1 117
=
X ∑
n i
x=
i n i. = 3.9 ;
30
=
Y
n j
y=
jn . j = 5.9
30
Varianzas marginales:
1 635 1 1333
∑ ∑
2 2
σ=
2
x x i2 n i. − X= − 3.9=
2
5.96 ; σ=
2
y y 2j n . j − Y
= − 5.9
= 2
9.62
n i 30 n j 30

d) Los calculos correspondientes se detallan en la tabla de doble entrada, añadiendo las dos
filas siguientes
x\y 0 1 2 3 4 5 6 7 8 9 10 ni.
0 1 1 1 0 0 0 0 0 0 0 0 3
1 1 1 0 1 0 0 0 0 0 0 0 3
2 0 0 0 1 2 1 0 0 0 0 0 4
3 0 0 0 0 0 1 2 0 0 0 0 3
4 0 0 0 0 1 0 1 1 2 0 0 5
5 0 0 0 0 0 0 0 1 0 1 0 2
6 0 0 0 0 0 1 0 0 1 2 2 6
7 0 0 0 0 0 0 0 0 1 0 1 2
8 0 0 0 0 0 0 0 0 0 1 0 1
9 0 0 0 0 0 0 0 0 0 0 1 1
n.j 2 2 1 2 3 3 3 2 4 4 4 30
∑x n
i
i ij 1 1 0 3 8 11 10 9 21 25 28
y j ∑ x i n ij
i
0 1 0 9 32 55 60 63 168 225 280 ∑j = 893
Otra forma de calculo sería :
∑∑ x y n i j ij = 0 ⋅ 0 ⋅1 + 1 ⋅ 0 ⋅1 + 0 ⋅1 ⋅1 + 1 ⋅1 ⋅1 + 0 ⋅ 2 ⋅1 + 1 ⋅ 3 ⋅1 + 2 ⋅ 3 ⋅1 + 2 ⋅ 4 ⋅ 2 + 4 ⋅ 4 ⋅1 +
+2 ⋅ 5 ⋅1 + 3 ⋅ 5 ⋅1 + 6 ⋅ 5 ⋅1 + 3 ⋅ 6 ⋅ 2 + 4 ⋅ 6 ⋅1 + 4 ⋅ 7 ⋅1 + 5 ⋅ 7 ⋅1 + 4 ⋅ 8 ⋅ 2 +6 ⋅ 8 ⋅1 + 7 ⋅ 8 ⋅1 +
+5 ⋅ 9 ⋅1 + 6 ⋅ 9 ⋅ 2 + 8 ⋅ 9 ⋅1 + 6 ⋅10 ⋅ 2 + 7 ⋅10 ⋅1 + 9 ⋅10 ⋅1 =893
1 1 893
=
con lo cual , m1,1 ∑∑
n i j
x i y=
j n ij ∑
n j
y j ∑ x=
i
i n ij = 29.767
30
La covarianza µ1,1 =σ xy =m1,1 − XY =29.767 − 3.9 ⋅ 5.9 =6.76
 σ2 σ xy   5.96 6.76
La matriz de covarianzas :  x  =  
 σ xy σ 2y   6.76 9.62 
En las distribuciones bidimensionales se presentan dos problemas que dan origen a dos
teorías:
1.- Teoría de la regresión: que trata de predecir los valores de una variable para valores
prefijados de la otra.
2.- Teoría de la correlación: que trata de medir la interdependencia estadística entre dos
variables.

5. CONCEPTOS DE AJUSTE Y REGRESIÓN
Entre las variables marginales de una distribución estadística bidimensional, puede

haber diversos tipos de dependencia. Puede haber una dependencia funcional, como por
ejemplo entre tiempo y espacio recorrido por un móvil, ya que existe una expresión
matemática que los relaciona. Pero puede haber, también, otra dependencia aleatoria en la
que conocida una variable no es posible saber exactamente el valor de la otra, pero sí tener
una idea aproximada de la misma, como por ejemplo la relación entre talla y peso de un
individuo.
El procedimiento a seguir es la observación de una variable estadística bidimensional

(x,y) y su representación en una nube de puntos o diagrama de dispersión y observar si se
distribuyen alrededor de una linea o tendencia.
Desde un punto de vista gráfico, diremos que un ajuste es la sustitución de un

diagrama de dispersión por una línea, que, sin que deba pasar por todos los puntos, (*), se
adapte lo mejor posible a todos ellos; y, desde un punto de vista analítico, un ajuste es la
sustitución los datos por una dependencia de tipo funcional o exacto, que implica la
determinación de los parámetros que caracterizan a tal función analítica.
(*) Obsérvese que la interpolación consiste en obtener una curva que pase por los puntos.
La función que pretendemos obtener será una línea que llamaremos línea de
regresión, cuya ecuación puede ser de las formas siguientes:
y = a + bx , recta.
y = a + bx + cx 2 , parábola.
y = a 0 + a 1x +..... + a n x n , polinómica.
y = c ⋅ a kx , exponencial.
1
y= , hipérbola.
a + bx
Dependiendo de la función elegida para el ajuste, la regresión será lineal, parabólica,
etc.

El interés de la línea de regresión radica en poder predecir los valores de una variable
para los valores prefijados de la otra, lo que constituye el problema general de la teoría de la
regresión o del ajuste.
Si tratamos de predecir y conocida x, habremos de calcular la línea de regresión de y

sobre x, que será y=f(x). Recíprocamente x=g(y) será la línea de regresión de x sobre y.
6. EL MÉTODO DE LOS MÍNIMOS CUADRADOS
Dependiendo de la forma que adopte la nube de puntos sabremos en principio si

hemos de emplear una recta, una parábola, etc.
Una vez elegida la línea hemos de estimar los parámetros correspondientes a la misma
a partir de los datos observados. La estimación o cuantificación de los parámetros viene
determinada por las distintas condiciones que se establezcan previamente. La condición más
usual y de mayor utilidad práctica es la denominada de mínimos cuadrados.
Este método de ajuste se fundamenta en considerar como la mejor adaptación, la de

una línea tal que sea mínima la suma de los cuadrados de las diferencias entre los valores
observados o empíricos y los ajustados o teóricos, correspondientes a los distintos valores de
la función analítica elegida para los mismos valores de la variable explicativa.
6.1. Regresión lineal (Ajuste por mínimos cuadrados, a una recta).
Recta de regresión de y sobre x.
Consideremos los datos conseguidos experimentalmente:

( x1 , y1 ) , ( x 2 , y 2 ) ,....,( x n , y n )
Se quiere adaptarlos a una recta y=a+bx
Por consiguiente;
y1= a + bx1
y 2= a + bx 2
−−−−−−−
y n = a + bx n

Si los puntos no están sobre una recta y=a+bx. Escogeremos a y b de tal forma que
n n
i i
=i 1 =i 1
∑y −y =
* ∑y i − (a + bx i ) sea mínimo.
De todas las rectas y=a+bx buscaremos la recta que hace mínima la suma de los cuadrados de
las desviaciones que representan la distancia vertical de los datos (xi,yi) a los puntos (xi,yi*)
n n
m í n ∑ ( yi −=
yi *) mín ∑ ( yi − a − bx i )
2 2
=i 1 =i 1
Al depender de dos parámetros sus derivadas parciales deben ser nulas:

∂ n n n

∑ i ( ) ∑ i=( ) ∑ ( yi − a − bx i ) = 0
2
y − a − bx = 0 ⇒ 2 y − a − bx ( −1) = 0 ⇒ 
∂a i 1 =i 1
i i
= i 1 

∂ n n n
∑ ( yi − a − bx i ) = 0 ⇒ ∑ 2 ( yi − a − bx i ) (− x i ) = 0 ⇒ ∑ ( yi − a − bx i ) x i = 0
2
=∂b i 1 =i 1 =i 1

n n
 n n n

∑ yi − ∑ a − b∑ x i = 0
=


∑ =
y i
i 1 =i 1
an + b ∑ xi 

=i 1 =i 1 =i 1
n n n ⇒ n n n 
 2
∑ x i yi − a ∑ x i − b∑ x i =
2
0
= ∑ = x i yi a ∑ x i + b∑ x i
=i 1 =i 1

=i 1 =i 1 =i 1 i 1
Que reciben el nombre de Ecuaciones normales de la recta de regresión de y sobre x
n n

∑ yi ∑x i 
=i 1 =i 1
=a + b ⇒ Y =a + bX 
n n 
Al dividir por n: n n n n n 
2
∑ x i=yi ∑ xi ∑ x i ∑ x i yi =∑
2
xi

=i 1
=a +b
i 1 =i 1 =i 1
⇒ =+
aX b i 1

n n n n n 
Al despejar a en la primera ecuación y sustituir en la segunda

n
n n n ∑x y
∑x y ∑x ∑x
i i
2 2 i =1
− X⋅Y σ xy
( Y − bX ) X + b
i i i i
=i 1 =i 1
= aX + b = =i 1
⇒b= n =
n
σ2x
∑x
n n n 2
i
2
i =1
−X
n

Nos indica que el parámetro b de una recta de regresión puede calcularse mediante el cociente
entre la covarianza y la varianza de la variable que actúa como independiente.
σ xy
Este parámetro b yx = recibe el nombre de coeficiente de regresión de la variable
σ 2x
y con respecto a la variable x, y es la pendiente de la recta de y sobre x, por consiguiente, el

sentido de crecimiento o decrecimiento, así como el grado de variación, viene determinado
por el signo y el valor del coeficiente de regresión b.
La expresión del parámetro "a" una vez conocido el valor b, será:

σxy
a = Y − bX = Y − X
σ2x
Sustituyendo los valores obtenidos en y = a + bx , se tiene:

σxy σxy σ xy
y=Y−
σ2
x
X+
σ2
x
x de donde y −=
Y
σ2x
(x − X) que es la ecuación de la recta de
regresión de y sobre x. Esta recta permite calcular, aproximadamente, los valores de y dados
los de x.
Nota: anulando las derivadas se obtiene el mínimo (y no el máximo) como se puede
comprobar con el Hessiano.
Interpretación geométrica.
n n
m í n ∑ ( yi=
− yi *) m í n ∑ ( yi − a − bx i )
2 2
=i 1 =i 1
= m í n (y1 − a − bx1 ) 2 + ...... + (y n − a − bx= 2

n) 
 m í n ( e12 + ...... + e n2 )
como e i = y i − a − bx i = y i − y∗i ≡ error vertical o distancia vertical ( y∗i ≡ teórico)
y=a+bx
y*
i ei
y
i
xi

EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los
puntos (0,1), (1,3), (2,4) y (3,4).
Solución:
x y xy x2 y2
0 1 0 0 1
1 3 3 1 9
2 4 8 4 16
3 4 12 9 16
6 12 23 14 42
1 n 1 n 2
∑ ∑
2
=X = x i 1,5 =
; σ 2
x xi =
− X 1, 25
n i =1 n i =1
1 n 1 n 2
∑ ∑
2
=Y = y i 3 =
; σ 2
y yi =
− Y 1,5
n i =1 n i =1
La recta de regresión de y sobre x:

σ xy
y −=
Y
σ 2 ( x − X ) ⇒ y=
−3
1, 25
1, 25
( x − 1.5) ⇒ ⇒ y= 1.5 + x
x
Existe otra recta de regresión que podemos obtener con los mismo datos.
Recta de regresión de x sobre y:

La recta de regresión de x sobre y no se obtiene despejando la x de la ecuación
anterior, sino repitiendo un proceso análogo. En lugar de tomar las distancias ei sobre las
verticales, se toman sobre las horizontales, (ei=xi*-xi).

σ xy
Se demuestra que x −=
X
σ 2y
( y − Y) es la recta de regresión de x sobre y, que
1 σ 2y
permite calcular aproximadamente los valores de x dados los de y. Donde = es la
b xy σ xy
pendiente de la recta de regresión de x sobre y, cuyo coeficiente de regresión es bxy.
puntos (0,1), (1,3), (2,4) y (3,4).
Solución:
La recta de regresión de x sobre y:
σ xy
x −=
X
σ 2
y
( y − Y ) ⇒ x − 1.5
=
1, 25
1,5
( y − 3) ⇒ ⇒ x= 5/6 y - 1
Propiedades de las rectas de regresión:

Las dos rectas de regresión y − Y = b yx ( x − X) , x − X = b xy ( y − Y ) se cortan en
un punto, que es precisamente el ( X, Y) , llamado, por su naturaleza de promedio, centro de

gravedad de la distribución.
Por otra parte, es claro que σ2x y σ2y son siempre positivos y, en consecuencia, las
pendientes de ambas rectas tienen el mismo signo que la covarianza σxy y aparecen
íntimamente ligadas, lo que justifica la denominación de covarianza (varianza conjunta).

Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor

que la correspondiente a la recta de regresión de y sobre x.
1 a' 1
x= a '+ b xy y ⇒
= y x− ⇒ tg
= α
b xy b xy b xy
y = a + b yx x ⇒ tg β =b yx
1
− b yx
tgα − tgβ b xy 1 − b xy b yx
ω tg ( α − β=
tenemos que: tg = ) = = (1)
1 + tgαtgβ 1 + 1 b b xy + b yx
yx
b xy
En el caso de que la dependencia lineal en estudio sea de tipo exacto o funcional, las
dos rectas son recíprocas. Esto es:
1
= b yx
b xy
de aquí, en consecuencia, si ambas rectas son identicas:

1
ω= 0º ⇔ tgω= tg0º= 0 ⇔ 1 − b xy b yx = 0 ⇔ = b yx
b xy
Cuanto más pequeña sea la tangente del ángulo ω formado por la intersección de las
dos rectas, tanto más representativo será el ajuste lineal efectuado.

EJEMPLO 4.
Con los datos del ejemplo 2, se pide:
a) Calcular ambas rectas de regresión.
b) Estimar la nota final de un alumno que obtuvo un 6 en el parcial.
Solución:
a) Teníamos calculado:
=
X 3.9, = σ2x 5.96, =
Y 5.9, = σ2y 9.62, σ=
xy 6.76
Así pues, las rectas de regresión son:
6.76
y sobre x: y − 5.9 = ( x − 3.9) ⇒ y = 113
. x + 148
.
5.96
6.76
x sobre y: x − 3.9 = ( y − 5.9) ⇒ x = 0.7 y − 0.25
9.62
b) Esta estimación se hace a partir de la recta de regresión de y sobre x, y = 113

. x + 148
. .
Como x = 6 , se tiene que y = 113
. ⋅ 6 + 148
. = 8.26 nota del examen final.
6.2. Regresión parabólica.
Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente
ajustar por un polinomio de grado dos (parábola), como caso más sencillo aunque el método
empleadoes válido en general para un polinomio de grado n.
∗ 2
y = a + bx + cx
Nuestro objetivo es estimar los parámetros a, b, y c a partir de los datos observados,
empleando también el método de los mínimos cuadrados.
La función a minimizar es: f ( a , b , c) = ∑ ( a + bx i + cx i2 − y j ) 2

i, j
y derivando con respecto a los tres parámetros se obtiene:

∂f (a, b, c)
2 ∑ (a + bx i + cx i2 − y j ) =
=⋅ 0
∂a i, j
∂f (a, b, c)
=2 ⋅ ∑ (a + bx i + cx i2 − y j ) ⋅ x i =0
∂b i, j
∂f (a, b, c)
=2 ⋅ ∑ (a + bx i + cx i2 − y j ) ⋅ x i2 =0
∂c i, j
que aplicando las propiedades del sumatorio y simplificando se obtienen las ecuaciones
llamadas normales de la parábola de regresión.
aN + b ∑ x i + c ∑ x 2i = ∑ y j
i i i, j
a ∑ xi + b∑ x + c∑ x = ∑ xi y j
2
i
3
i
i i i i, j
a ∑ x 2i + b ∑ x 3i + c ∑ x 4i = ∑ x 2i y j
i i i i, j
Por último, dividiendo por N queda:

a + b ⋅ m10 + c ⋅ m20 = m01
a ⋅ m10 + b ⋅ m20 + c ⋅ m30 = m11
am20 + b ⋅ m30 + c ⋅ m40 = m21
Resolviendo este sistema por la regla de Cramer, se obtienen los parámetros a,b,c de
la parábola de regresión.
6.3. Regresión polinómica.
Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente
ajustar por un polinomio de grado n. Por ejemplo, si es una parábola escogeremos el grado
dos.
Para un polinomio de grado n: y* = a0 + a1 x + ... +an xn
Nuestro objetivo es estimar los parámetros ai, i=0, 1,...., n, a partir de los datos
observados, empleando también el método de los mínimos cuadrados.
El procedimiento es similar al anterior planteando las ecuaciones normales y resolviendo el

sistema.

7. ANÁLISIS DE LA CORRELACIÓN.
Se hace necesario, ahora, completar el análisis de la regresión con la obtención de

unas medidas o coeficientes que permitan calibrar el grado de dependencia estadística
existente entre las dos variables, o dicho de otro modo, el grado de representatividad o bondad
del ajuste realizado.
Llamaremos correlación a la teoria que trata de estudiar la dependencia que existe
entre las dos variables que intervienen en una distribución bidimensional.
7.1. La varianza residual
Una vez ajustada la línea de regresión y* a una nube de puntos, observamos que se
obtienen unas diferencias entre los distintos valores ajustados o teóricos yi*, y los
correspondientes valores observados o empíricos yi.
ei=yi*-yi
La varianza residual se define como la varianza de los errores o residuos
1 n
=σ2r ∑ (yi * − yi )2
n i =1
En el caso lineal:
2 2
1  σ xy  1 n  σ xy 
( ) ( ) ( )
n n
1
2
r i=
σi
2
∑ (y * − y=
) ∑
n 
 Y + 2 x i − X − y=
σx
i  ∑  2 x i − X − yi − Y=
n i 1  σx

n
=i 1 =i 1 =  
2
1 n  σ xy  1 n σ xy
2
=
1 n
∑ iy − Y + (
∑ x
n i 1  σ2x =
i)− X  − 2
n i 1 σ 2x
(
∑ x i − X yi −=
Y ) ( )( )
= n i 1= 
2
σ2xy 1 n 2
σ xy 1 n
=
=
1 n
∑ iy
n i 1=
− Y + ( ∑ i x
σ4x n i 1 =
− X) − 2
σ2x n i 1
(
∑ x i − X yi − Y= ) ( )( )
σ2xy σ xy σ 2xy
=σ +2
σ −2
2
σ xy =σ −2
σ4x σ 2x σ 2x
y x y
σ2xy
Como ≥ 0 ⇒ σ2r ≤ σ2y y es una medida de dispersión de los datos respecto a la media. Se
σ 2
x
puede interpretar como la suma de los errores que cometariamos si estimaramos cada valor yi
por y .
También se dice varianza no explicada representa, la parte de la variación de Y que no es
capaz de explicar el modelo elegido, puede interpretarse como una medida de la bondad del

ajuste, valores grandes de la varianza no explicada indican que el modelo no es adecuado. Sin
embargo, σ2r no es válida para juzgar la bondad del ajuste, ya que, depende de las unidades de
medida. Una forma de evitar este problema es dividir la varianza no explicada por la varianza
total de Y ( σ 2y ), así pues, utilizaremos el cociente σr

2
que representa la proporción de
σ 2y
varianza de Y no explicada por el modelo de regresión.

Así, la medida que usaremos para juzgar la bondad del ajuste es la razón de correlación,
σ2r
también llamada coeficiente de determinación R 2 = 1 − que representa la proporción de la
σ2y
variación de Y explicada por el modelo de regresión.
σ2y − σ2r varianza explicada varianza residual

R =
2
= = 1−
σ 2
y varianza de Y varianza de Y
EJEMPLO 5 Con los datos = σ 2x 5,96, =

σ 2y 9, 62, σ=
xy 6, 76 , se pide:
a) Coeficiente de determinación. Interpretarlo.
b) Varianza residual y varianza explicada para la recta de regresión de y sobre x.
Solución:
σ2xy 6, 762
a) R 2= ⇒ R 2= ≈ 0, 797
σ2y σ2x 5,96 ⋅ 9, 62
El modelo de regresión explica el 79,7·%
b) Así, la varianza explicada de la variable Y es:

σ2xy 6, 762
R σ= 2 2
⇒ R 2 σ=
2
≈ 7, 667
σ2x
y y
5,96
Y la varianza no explicada o varianza residual
σ2r =σ2y − R 2 σ 2y =9, 62 − 7, 667 =1,95
7.2. Coeficiente de determinación.
Una medida de proporción de la variación total nos la da el coeficiente de

determinación.

σ 2y − σ r2 σ 2r σ2xy
R = 2 =−
2
1 = =b xy b yx
σy σ2y σ2x σ 2y
Como σ2r ≤ σ2y ⇒ 0 ≤ R 2 ≤ 1
R nos mide (en tanto por uno) lo que hemos mejorado nuestra predicción al estimar y.
por medio de la línea de regresión en vez de por la media marginal y .
7.3. Coeficiente de correlación lineal.
La raíz cuadrada del coeficiente de determinación se denomina coeficiente de

correlación lineal y es igual a la media geométrica de los coeficientes de regresión byx y
bxy.
r = ± b yx b xy
lo que da lugar a:
σ xy σ xy σ 2xy σ xy
r = b yx b xy =
2
= ⇒ r= , siendo el signo(r)=signo( σ xy ).
σ 2
x σ 2
y σ σ
2
x
2
y
σx σy
El coeficiente de correlación lineal es un número abstracto y es independiente de las

unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las varianzas
son positivas, y comprendido entre -1 y +1.
En efecto:
tgβ
Como tgα ≥ tgβ ⇒ r 2 = b yx b xy = ≤ 1, r ≤ 1 ⇔ −1 ≤ r ≤ 1
tgα
Interpretación del coeficiente de correlación lineal.
Recordemos que se vio en el epígrafe 6.1. al hablar del ángulo que formaban las rectas
de regresión, la expresión (1) :
1 − b xy b yx
tgω =
b xy + b yx

PRIMER CASO:
Si r=1 la covarianza σxy será positiva, las pendientes de las rectas de regresión son
positivas; a valores crecientes de x corresponde valores crecientes de y. Es la correlación

perfecta y directa.
Si r=-1 la covarianza σxy será negativa, las pendientes de las rectas de regresión son
negativas; a valores crecientes de x corresponde valores decrecientes de y. La correlación es

perfecta e inversa.
El ángulo que forman ambas rectas será de 0 y en ambos casos las rectas son
coincidentes. Hay dependencia funcional recíproca.
SEGUNDO CASO:
Supongamos que r = 0 ⇔ σxy = 0, no hay correlación, es decir, a cualquier valor de x

corresponde el mismo y, lo que indica la falta absoluta de dependencia entre las variables, se
dice que son incorreladas.
Las rectas de regresión serán:
y=Y
x=X
obviamente perpendiculares.
TERCER CASO:
Si 0 < r < 1, hay correlación positiva. El signo viene caracterizado por la covarianza
σxy que consideraremos positiva y por tanto las pendientes de las rectas de regresión son
positivas.

Si -1 < r < 0, hay correlación negativa σxy <0. Las pendientes son negativas y, al
aumentar los valores de una variable, disminuyen los de la otra. La correlación será “buena“
para valores de r próximos a -1 y “mala” si son próximos a 0.
Señalemos, por último, que el coeficiente de correlación lineal no es propiamente una

medida de tipo cuantitativo, sino una medida de tipo cualitativo que indica únicamente el
grado de la intensidad de la relación lineal existente entre las variables.
EJEMPLO 5:
Calculemos el coeficiente de correlación para el ejemplo 5.
Solución:
σxy 6.76
r= = = 0.89
σx σy 5.96 9.62
Existe una fuerte dependencia aleatoria directa entre las dos variables. Las
estimaciones hechas a partir de las rectas de regresión serán fiables.
Por último, ilustramos los datos con la recta de regresión y sobre x del ejemplo
14
12 y = 1,1343x + 1,4762
R² = 0,7964
10
0
0 2 4 6 8 10
Observaciones: El que dos variables tengan una correlación lineal alta (sea positiva o
negativa) puede no significar una relación de causa-efecto entre ellas.

 σ2x σ xy   σ2x rσ x σ y 
= Σ =
 σ xy σ 2y    y por tanto
Observando la matriz de covarianza
   rσ x σ y σ2y 
Σ =σ2x σ2y (1 − r 2 ) ≥ 0 . Si las variables no están correlacionadas entre sí, el determinante toma
su valor máximo.
http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.mp4
http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.wmv

ANEXO
EL MÉTODO DE LOS MÍNIMOS CUADRADOS EN FORMA MATRICIAL
Consideremos los datos conseguidos experimentalmente:

( x1 , y1 ) , ( x 2 , y 2 ) ,....,( x n , y n ) ( x1 , y1 ) , ( x 2 , y 2 ) ,....,( x n , y n )
Se quiere adaptarlos a una recta y=a+bx

Por consiguiente;
y1= a + bx1
y 2= a + bx 2
−−−−−−−
y n = a + bx n
en forma matricial:
 y1   1 x1 
   
 .  1 .   a 
 . 
= 1 .  ⋅  
    b
 .  1 . 
y  1 x 
 n  n 
 y1   1 x1 
   
 .  1 .  a
v donde y =
o bien y = M= . , M 1 = . , v  
    b
 .  1 . 
y  1 x 
 n  n 
Si los puntos no están sobre una recta y − M ⋅ v ≠ 0 . Escogeremos a y b de tal forma que
y − M ⋅ v sea mínimo.
∗ a∗ 
Sea v =  ∗  el vector que minimiza la diferencia a la línea y = a ∗ + b∗ x "RECTA DE
b 
REGRESIÓN" y y M son fijos, al variar v los vectores Mv forman un subespacio de Rn, espacio de
la columna de M. Gráficamente,

y y-Mv
y-Mv *
Mv
Mv *
La solución mínima y − M ⋅ v∗ debe ser ortogonal al subespacio
y − Mv∗ ⊥ Mv ∀v
( Mv ) ( y − Mv ) =
t
0 ∗
v ⋅ M ( y − Mv ) =
t t
0 ∗
v ⋅ ( M y − M Mv ) =0 ∀v
t t t ∗
⇒ M t y − M t Mv∗ =
0
v∗ = ( M t M ) M t y
−1
( ) r ( MtM ) =
−1
donde ∃ M t M ⇔ 2 ⇔ x1 ,..., x n no están sobre la vertical.
 1 x1 
 
 . . 
 1 . . . 1   n ∑x 
=Mt ⋅ M  =  . . 
i
 
n    ∑ xi ∑x 2
 1
x . . . x i 
. . 
1 x 
 n 
−1
 n
( M M ) =
=
∑ x i 
−1 1  ∑ x i2 −∑ x i 
2  
t
 ∑ xi ∑ xi  n ∑ x i2 − ( ∑ x i )  −∑ x i
2  n 
t
1 x1   y1 
   
. .   .   ∑ yi 
=
M t
⋅ y  . .  ⋅=
 .    Por último,
     ∑ x i yi 
. .   . 
1 x   y 
 n   n 

 ∑ x i2 −∑ x i   ∑ yi 
(M M) M y
−1 1
= t t
2 
= ⋅ 
n ∑ x i2 − ( ∑ x i )  −∑ x i
 n   ∑ x i yi 
1  ∑ x i ∑ yi − ∑ x i ∑ x i yi 
2
=  
n ∑ x 2 − ( ∑ x )  −∑ x i ∑ yi + n ∑ x i yi 
2
i i
 ∑ x i2 ∑ yi ∑ x i ∑ x i yi 
 − 
 n n n n 
 ∑ x i2 ∑ yi − ∑ x i ∑ x i yi   ∑ x i2  ∑ x i  
2
   m 20 Y − Xm11 
 −  
n ∑ x i2 − ( ∑ x i )  
2
   n  n   = σ2x 
=  =   = 
 n ∑ x i yi − ∑ x i ∑ yi   m − XY 
 ∑ i i − ∑ x i ∑ yi 
x y
 11 
   
 ∑ ( ∑ )    σ2x
2
 n x 2
− x 
n n n  
 
∑ x i −  ∑ x i 
i i 2
2
 
 n n 
   
 m Y − YX 2 + X 2 Y − Xm   Yσ2x − Xσxy 
 20 11
   a 
 σx
2
= σ2x = 
 σxy   σxy   b
   
 σx
2
  σx
2

puntos (0,1), (1,3), (2,4) y (3,4).
Solución:
1 0  1
1  3
1 4 6  1  7 −3
M = 1 
2 , Y =  , Mt.M =  , (Mt.M)-1 =  ,
  4  6 14 10  −3 2 
  
1 3  4
1
 
a 1  7 −3   1 1 1 1   3  = 1.5 
(=
M M) M y
−1
= 
t t
    ⇒ y= 1.5 + x
b 10  −3 2   0 1 2 3   4   1 
 
 4

Bidimensional (Apuntes) PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Bidimensional (Apuntes) PDF

Загружено:

Авторское право:

Доступные форматы

Variables bidimensionales: regresión y correlación

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

3.1 Momentos respecto al origen................... 7

3.2 Momentos respecto a la media................. 8

5. Conceptos de ajuste y regresión.............................12

6. El método de los mínimos cuadrados....................13

6.1 Regresión lineal........................................13

6.2 Regresión parabólica...............................19

6.3 Regresión polinomica...............................20

7.1 La varianza residual................................21

7.2 Coeficiente de determinación..................22

El método de los mínimos cuadrados en forma matricial….26

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 1

Ahora vamos a estudiar conjuntamente dos características de una población.

- Dos caracteres cualitativos.

Si llamamos E a la población, una variable estadística bidimensional es una

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 2

Notaremos por fij la frecuencia relativa correspondiente al par ( x i , y j ) , que vendrá

Por consiguiente, definimos distribución de frecuencias como el conjunto de valores

x1 n11 n12 .......... n1j .......... n1s n1.

n.1 n.2 .......... n.j .......... n.s n

Análogamente, las frecuencias relativas:

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 3

Las estadísticas de dos variables suelen representarse en un sistema de ejes

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 4

Física\Matemáticas Suspenso Aprobado

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 5

A partir de las frecuencias absolutas marginales se obtienen las frecuencias relativas

El punto (X, Y) se llama centro de gravedad de la distribución bidimensional o

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 6

por tanto, las desviaciones típicas marginales, serán:

3.1. Momentos respecto al origen

Algunos momentos particulares:

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 7

Casos particulares interesantes:

σ xy recibe el nombre de covarianza, de gran importancia práctica, se define como la

Si la covarianza es distinta de cero, entonces las variables son dependientes.

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 8

Se llama varianza generalizada al valor =

y mide aproximadamente el área ocupado por el conjunto de datos.

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 9

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 10

La covarianza µ1,1 =σ xy =m1,1 − XY =29.767 − 3.9 ⋅ 5.9 =6.76

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 11

Entre las variables marginales de una distribución estadística bidimensional, puede

El procedimiento a seguir es la observación de una variable estadística bidimensional

Desde un punto de vista gráfico, diremos que un ajuste es la sustitución de un

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 12

Si tratamos de predecir y conocida x, habremos de calcular la línea de regresión de y

6. EL MÉTODO DE LOS MÍNIMOS CUADRADOS

Dependiendo de la forma que adopte la nube de puntos sabremos en principio si

Este método de ajuste se fundamenta en considerar como la mejor adaptación, la de

6.1. Regresión lineal (Ajuste por mínimos cuadrados, a una recta).

Recta de regresión de y sobre x.

Consideremos los datos conseguidos experimentalmente:

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 13

Al depender de dos parámetros sus derivadas parciales deben ser nulas:

Que reciben el nombre de Ecuaciones normales de la recta de regresión de y sobre x

Al despejar a en la primera ecuación y sustituir en la segunda

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 14

y con respecto a la variable x, y es la pendiente de la recta de y sobre x, por consiguiente, el

La expresión del parámetro "a" una vez conocido el valor b, será:

Sustituyendo los valores obtenidos en y = a + bx , se tiene: