Академический Документы
Профессиональный Документы
Культура Документы
1. Introducción.............................................................. 2
2. Distribuciones marginales........................................ 4
3. Momentos.................................................................. 7
4. Matriz de covarianzas.............................................. 9
7. Análisis de la correlación........................................20
ANEXO:
1. INTRODUCCIÓN
Hasta ahora hemos estudiado una sola característica de cada población. Si esa
característica era cuantitativa a cada individuo le hacíamos corresponder un número y
obteníamos las variables estadísticas unidimensionales.
Los dos caracteres observados no tienen porqué ser de la misma clase. Así, se nos
puede presentar:
A cada individuo le vamos a hacer corresponder dos números y así obtenemos las
variables estadísticas bidimensionales.
A los caracteres les vamos a llamar x e y, cada uno de ellos presentará varias
modalidades x1 ,....., x r e y1 ,....., y s respectivamente.
Las parejas de valores, así obtenidas por observación conjunta, pueden representar
valores discretos, continuos de distinto tipo y podrán también repetirse un número
determinado de veces, dando lugar de esta forma a los conceptos de frecuencia absoluta
conjunta, paralelos a los ya estudiados para variables estadísticas unidimensionales.
n ij
dada por la expresión f ij = , siendo n el número total de pares observados.
n
r s r s
verificándose, ∑=
n i.
=i 1
∑=
n. j
=j 1
∑∑
= n ij n
=i 1 =j 1
=j 1 =i 1
=
f i. ∑=
f
n
; ∑=
f i. 1
r n. j s
=i 1 =j 1
=
f. j ∑=
f ij
n
; ∑=
f. j 1
55
y
j
x x
i
Como en un diagrama de dispersión no puede quedar reflejado las veces que se repite
un par o un intervalo, podemos establecer puntos de tamaño proporcional a la frecuencia, o
bien, escribir al lado del punto la correspondiente frecuencia.También se puede recurrir a una
representación en tres dimensiones de (x,y): os son para la variable bidimensional y una para
expresar las frecuencias.
2. DISTRIBUCIONES MARGINALES
EJEMPLO 1:
Consideremos 150 alumnos a los que se les ha preguntado las calificaciones
obtenidas en Física y Matemáticas. Así se han obtenido pares de resultados (x=nota en
Física, y=nota en Matemáticas), cuya información recogemos en la siguiente tabla de
doble entrada:
Física\Matemáticas Suspenso Aprobado
Suspenso 65 15
Aprobado 10 60
Suspensos 80
Aprobados 70
s
n i. = ∑ n ij = frecuencia marginal del valor xi
j=1
Distribución marginal de la variable "x" son los valores que toma dicha variable con
sus respectivas frecuencias.
x ni..
x1 n1.
x2 n2.
.... ....
xi ni.
.... ....
xr nr.
Para la segunda pregunta hemos de proceder de manera análoga para la variable "y".
y n y j = n. j
Suspensos 75
Aprobados 75
r
n . j = ∑ n ij = .frecuencia marginal del valor yj.
i =1
La tabla representada con la variable "y" con sus frecuencias marginales, recibe el
nombre de distribución marginal de la variable "y".
y n.j
y1 n.1
y2 n.2
.... ....
yj n.j
.... ....
ys n.s
Medias marginales:
1 r r
1 s s
=X
=
= ∑ x i n i. ∑ x i f i. =
n i 1 =i 1
; Y =
=
∑ y j n . j ∑ y jf . j
n j 1 =j 1
Varianzas marginales:
r r
1
2
x i
2
=
σ
=i 1 =i 1
i.
n
∑ (x − X) =
n ∑ (x i − X) 2 f i.
=
∑ =
σ2y
(y j
n j 1 =j 1
− Y) =
2
n .j ∑ (y j − Y) 2 f. j
1 r r
n
∑ (x=
σx
i
=i 1 =i 1
− =
X) 2
n i. ∑ (x i − X) 2 f i.
1 s s
=
σy
=
∑ (y j − Y)
n j 1 =j 1
= 2
n. j ∑ (y j − Y) 2 f. j
Si en vez de dividir por n se divide por n-1 obtenemos las cuasivarianzas marginales
S2x y S2y .
3. MOMENTOS
1 r s 1
=
m 0,1 ∑∑ =
n=i 1 =j 1
y j n ij ∑=
n j
y jn . j ∑=
yf
j
j .j Y
1 r s
=m1,1 = ∑∑ x i y j n ij
n=i 1 =j 1
∑∑ x y f
i j
i j ij
1 r s 2 1
=m 2,0 ∑∑
=
n=i 1 =j 1
x i n ij = ∑
N i
x i2 n i. ∑x f i
2
i i.
1 r s 2 1
=
m 0,2 ∑∑=
n=i 1 =j 1
y j n ij = ∑
n j
y 2j n . j ∑y f j
2
j .j
µ 0,0 = 1
1 r s
µ1,0 = ∑∑ (x i − X) n ij = X − X = 0
n=i 1 =j 1
µ 0,1 = Y − Y = 0
1 r s 1
µ 2,0 = ∑∑ (x i − X) 2 n ij = ∑ (x i −X) 2 n i. =σ2x =m 2,0 − X
2
n=i 1 =j 1 n i
1 r s 1
µ 0,2 = ∑∑ (y j − Y) 2 n ij = ∑ (y j −Y) 2 n . j =σ2y =m 0,2 − Y
2
n=i 1 =j 1 n j
1 r s 1 1 1
=µ1,1 ∑∑
n=i 1 =j 1
(x i − X) (y j −=
Y) n ij ∑∑
n i j
x i y jn ij − X ∑∑ y jn ij − Y ∑∑ x i n ij +
n i j n i j
1 1
+ XY ∑∑ n ij = ∑∑ x i y jn ij − XY =
m1,1 − XY =
σ xy
n i j n i j
media aritmética de los productos de las desviaciones de la variable x con respecto a su media
aritmética, X , por las desviaciones de la variable y con respecto a la media aritmética, Y .
De la misma forma que en el caso de la varianza, se define la covarianza muestral por
r s (x i − X)(y j − Y)n ij n
=
Sxy ∑∑
=i 1 =j 1 n −1
siendo =
Sxy
n −1
σ xy .
Cuando las variables x e y son independientes se cumple que la covarianza es nula, en cuyo
caso se dice que son incorreladas. El reciproco no es cierto.
σ2 σ xy
Sxy = Syx . O bien x
σ xy σ 2y
Calificaciones
12
10
0
0 2 4 6 8 10
0 3 0 0 0 2 0 0
1 3 3 3 1 2 2 2
2 4 8 16 2 1 2 4
3 3 9 27 3 2 6 18
4 5 20 80 4 3 12 48
5 2 10 50 5 3 15 75
6 6 36 216 6 3 18 108
7 2 14 98 7 2 14 98
8 1 8 64 8 4 32 256
9 1 9 81 9 4 36 324
30 117 635 10 4 40 400
30 177 1333
Medias Marginales:
1 177
∑
1 117
=
X ∑
n i
x=
i n i. = 3.9 ;
30
=
Y
n j
y=
jn . j = 5.9
30
Varianzas marginales:
1 635 1 1333
∑ ∑
2 2
σ=
2
x x i2 n i. − X= − 3.9=
2
5.96 ; σ=
2
y y 2j n . j − Y
= − 5.9
= 2
9.62
n i 30 n j 30
0 1 1 1 0 0 0 0 0 0 0 0 3
1 1 1 0 1 0 0 0 0 0 0 0 3
2 0 0 0 1 2 1 0 0 0 0 0 4
3 0 0 0 0 0 1 2 0 0 0 0 3
4 0 0 0 0 1 0 1 1 2 0 0 5
5 0 0 0 0 0 0 0 1 0 1 0 2
6 0 0 0 0 0 1 0 0 1 2 2 6
7 0 0 0 0 0 0 0 0 1 0 1 2
8 0 0 0 0 0 0 0 0 0 1 0 1
9 0 0 0 0 0 0 0 0 0 0 1 1
n.j 2 2 1 2 3 3 3 2 4 4 4 30
∑x n
i
i ij 1 1 0 3 8 11 10 9 21 25 28
y j ∑ x i n ij
i
0 1 0 9 32 55 60 63 168 225 280 ∑j = 893
Otra forma de calculo sería :
∑∑ x y n i j ij = 0 ⋅ 0 ⋅1 + 1 ⋅ 0 ⋅1 + 0 ⋅1 ⋅1 + 1 ⋅1 ⋅1 + 0 ⋅ 2 ⋅1 + 1 ⋅ 3 ⋅1 + 2 ⋅ 3 ⋅1 + 2 ⋅ 4 ⋅ 2 + 4 ⋅ 4 ⋅1 +
+2 ⋅ 5 ⋅1 + 3 ⋅ 5 ⋅1 + 6 ⋅ 5 ⋅1 + 3 ⋅ 6 ⋅ 2 + 4 ⋅ 6 ⋅1 + 4 ⋅ 7 ⋅1 + 5 ⋅ 7 ⋅1 + 4 ⋅ 8 ⋅ 2 +6 ⋅ 8 ⋅1 + 7 ⋅ 8 ⋅1 +
+5 ⋅ 9 ⋅1 + 6 ⋅ 9 ⋅ 2 + 8 ⋅ 9 ⋅1 + 6 ⋅10 ⋅ 2 + 7 ⋅10 ⋅1 + 9 ⋅10 ⋅1 =893
1 1 893
=
con lo cual , m1,1 ∑∑
n i j
x i y=
j n ij ∑
n j
y j ∑ x=
i
i n ij = 29.767
30
σ2 σ xy 5.96 6.76
La matriz de covarianzas : x =
σ xy σ 2y 6.76 9.62
En las distribuciones bidimensionales se presentan dos problemas que dan origen a dos
teorías:
1.- Teoría de la regresión: que trata de predecir los valores de una variable para valores
prefijados de la otra.
2.- Teoría de la correlación: que trata de medir la interdependencia estadística entre dos
variables.
(*) Obsérvese que la interpolación consiste en obtener una curva que pase por los puntos.
La función que pretendemos obtener será una línea que llamaremos línea de
regresión, cuya ecuación puede ser de las formas siguientes:
y = a + bx , recta.
y = a + bx + cx 2 , parábola.
y = a 0 + a 1x +..... + a n x n , polinómica.
y = c ⋅ a kx , exponencial.
1
y= , hipérbola.
a + bx
Dependiendo de la función elegida para el ajuste, la regresión será lineal, parabólica,
etc.
Una vez elegida la línea hemos de estimar los parámetros correspondientes a la misma
a partir de los datos observados. La estimación o cuantificación de los parámetros viene
determinada por las distintas condiciones que se establezcan previamente. La condición más
usual y de mayor utilidad práctica es la denominada de mínimos cuadrados.
Si los puntos no están sobre una recta y=a+bx. Escogeremos a y b de tal forma que
n n
i i
=i 1 =i 1
∑y −y =
* ∑y i − (a + bx i ) sea mínimo.
De todas las rectas y=a+bx buscaremos la recta que hace mínima la suma de los cuadrados de
las desviaciones que representan la distancia vertical de los datos (xi,yi) a los puntos (xi,yi*)
n n
m í n ∑ ( yi −=
yi *) mín ∑ ( yi − a − bx i )
2 2
=i 1 =i 1
∑ ( yi − a − bx i ) = 0 ⇒ ∑ 2 ( yi − a − bx i ) (− x i ) = 0 ⇒ ∑ ( yi − a − bx i ) x i = 0
2
=∂b i 1 =i 1 =i 1
n n
n n n
∑ yi − ∑ a − b∑ x i = 0
=
∑ =
y i
i 1 =i 1
an + b ∑ xi
=i 1 =i 1 =i 1
n n n ⇒ n n n
2
∑ x i yi − a ∑ x i − b∑ x i =
2
0
= ∑ = x i yi a ∑ x i + b∑ x i
=i 1 =i 1
=i 1 =i 1 =i 1 i 1
n n
∑ yi ∑x i
=i 1 =i 1
=a + b ⇒ Y =a + bX
n n
Al dividir por n: n n n n n
2
∑ x i=yi ∑ xi ∑ x i ∑ x i yi =∑
2
xi
=i 1
=a +b
i 1 =i 1 =i 1
⇒ =+
aX b i 1
n n n n n
σ xy
Este parámetro b yx = recibe el nombre de coeficiente de regresión de la variable
σ 2x
regresión de y sobre x. Esta recta permite calcular, aproximadamente, los valores de y dados
los de x.
Nota: anulando las derivadas se obtiene el mínimo (y no el máximo) como se puede
comprobar con el Hessiano.
Interpretación geométrica.
n n
m í n ∑ ( yi=
− yi *) m í n ∑ ( yi − a − bx i )
2 2
=i 1 =i 1
y=a+bx
y*
i ei
y
i
xi
1 n 1 n 2
∑ ∑
2
=X = x i 1,5 =
; σ 2
x xi =
− X 1, 25
n i =1 n i =1
1 n 1 n 2
∑ ∑
2
=Y = y i 3 =
; σ 2
y yi =
− Y 1,5
n i =1 n i =1
Existe otra recta de regresión que podemos obtener con los mismo datos.
1 σ 2y
permite calcular aproximadamente los valores de x dados los de y. Donde = es la
b xy σ xy
EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los
puntos (0,1), (1,3), (2,4) y (3,4).
Solución:
La recta de regresión de x sobre y:
σ xy
x −=
X
σ 2
y
( y − Y ) ⇒ x − 1.5
=
1, 25
1,5
( y − 3) ⇒ ⇒ x= 5/6 y - 1
Por otra parte, es claro que σ2x y σ2y son siempre positivos y, en consecuencia, las
pendientes de ambas rectas tienen el mismo signo que la covarianza σxy y aparecen
íntimamente ligadas, lo que justifica la denominación de covarianza (varianza conjunta).
1 a' 1
x= a '+ b xy y ⇒
= y x− ⇒ tg
= α
b xy b xy b xy
y = a + b yx x ⇒ tg β =b yx
1
− b yx
tgα − tgβ b xy 1 − b xy b yx
ω tg ( α − β=
tenemos que: tg = ) = = (1)
1 + tgαtgβ 1 + 1 b b xy + b yx
yx
b xy
En el caso de que la dependencia lineal en estudio sea de tipo exacto o funcional, las
dos rectas son recíprocas. Esto es:
1
= b yx
b xy
Cuanto más pequeña sea la tangente del ángulo ω formado por la intersección de las
dos rectas, tanto más representativo será el ajuste lineal efectuado.
Solución:
a) Teníamos calculado:
=
X 3.9, = σ2x 5.96, =
Y 5.9, = σ2y 9.62, σ=
xy 6.76
Así pues, las rectas de regresión son:
6.76
y sobre x: y − 5.9 = ( x − 3.9) ⇒ y = 113
. x + 148
.
5.96
6.76
x sobre y: x − 3.9 = ( y − 5.9) ⇒ x = 0.7 y − 0.25
9.62
Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente
ajustar por un polinomio de grado dos (parábola), como caso más sencillo aunque el método
empleadoes válido en general para un polinomio de grado n.
∗ 2
y = a + bx + cx
Nuestro objetivo es estimar los parámetros a, b, y c a partir de los datos observados,
empleando también el método de los mínimos cuadrados.
∂f (a, b, c)
=2 ⋅ ∑ (a + bx i + cx i2 − y j ) ⋅ x i =0
∂b i, j
∂f (a, b, c)
=2 ⋅ ∑ (a + bx i + cx i2 − y j ) ⋅ x i2 =0
∂c i, j
que aplicando las propiedades del sumatorio y simplificando se obtienen las ecuaciones
llamadas normales de la parábola de regresión.
aN + b ∑ x i + c ∑ x 2i = ∑ y j
i i i, j
a ∑ xi + b∑ x + c∑ x = ∑ xi y j
2
i
3
i
i i i i, j
a ∑ x 2i + b ∑ x 3i + c ∑ x 4i = ∑ x 2i y j
i i i i, j
Resolviendo este sistema por la regla de Cramer, se obtienen los parámetros a,b,c de
la parábola de regresión.
Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente
ajustar por un polinomio de grado n. Por ejemplo, si es una parábola escogeremos el grado
dos.
Nuestro objetivo es estimar los parámetros ai, i=0, 1,...., n, a partir de los datos
observados, empleando también el método de los mínimos cuadrados.
Una vez ajustada la línea de regresión y* a una nube de puntos, observamos que se
obtienen unas diferencias entre los distintos valores ajustados o teóricos yi*, y los
correspondientes valores observados o empíricos yi.
ei=yi*-yi
La varianza residual se define como la varianza de los errores o residuos
1 n
=σ2r ∑ (yi * − yi )2
n i =1
En el caso lineal:
2 2
1 σ xy 1 n σ xy
( ) ( ) ( )
n n
1
2
r i=
σi
2
∑ (y * − y=
) ∑
n
Y + 2 x i − X − y=
σx
i ∑ 2 x i − X − yi − Y=
n i 1 σx
n
=i 1 =i 1 =
2
1 n σ xy 1 n σ xy
2
=
1 n
∑ iy − Y + (
∑ x
n i 1 σ2x =
i)− X − 2
n i 1 σ 2x
(
∑ x i − X yi −=
Y ) ( )( )
= n i 1=
2
σ2xy 1 n 2
σ xy 1 n
=
=
1 n
∑ iy
n i 1=
− Y + ( ∑ i x
σ4x n i 1 =
− X) − 2
σ2x n i 1
(
∑ x i − X yi − Y= ) ( )( )
σ2xy σ xy σ 2xy
=σ +2
σ −2
2
σ xy =σ −2
σ4x σ 2x σ 2x
y x y
σ2xy
Como ≥ 0 ⇒ σ2r ≤ σ2y y es una medida de dispersión de los datos respecto a la media. Se
σ 2
x
puede interpretar como la suma de los errores que cometariamos si estimaramos cada valor yi
por y .
También se dice varianza no explicada representa, la parte de la variación de Y que no es
capaz de explicar el modelo elegido, puede interpretarse como una medida de la bondad del
σ2r
también llamada coeficiente de determinación R 2 = 1 − que representa la proporción de la
σ2y
variación de Y explicada por el modelo de regresión.
R nos mide (en tanto por uno) lo que hemos mejorado nuestra predicción al estimar y.
por medio de la línea de regresión en vez de por la media marginal y .
r = ± b yx b xy
lo que da lugar a:
σ xy σ xy σ 2xy σ xy
r = b yx b xy =
2
= ⇒ r= , siendo el signo(r)=signo( σ xy ).
σ 2
x σ 2
y σ σ
2
x
2
y
σx σy
En efecto:
tgβ
Como tgα ≥ tgβ ⇒ r 2 = b yx b xy = ≤ 1, r ≤ 1 ⇔ −1 ≤ r ≤ 1
tgα
Recordemos que se vio en el epígrafe 6.1. al hablar del ángulo que formaban las rectas
de regresión, la expresión (1) :
1 − b xy b yx
tgω =
b xy + b yx
Si r=1 la covarianza σxy será positiva, las pendientes de las rectas de regresión son
Si r=-1 la covarianza σxy será negativa, las pendientes de las rectas de regresión son
El ángulo que forman ambas rectas será de 0 y en ambos casos las rectas son
coincidentes. Hay dependencia funcional recíproca.
SEGUNDO CASO:
y=Y
x=X
obviamente perpendiculares.
TERCER CASO:
Si 0 < r < 1, hay correlación positiva. El signo viene caracterizado por la covarianza
σxy que consideraremos positiva y por tanto las pendientes de las rectas de regresión son
positivas.
EJEMPLO 5:
Calculemos el coeficiente de correlación para el ejemplo 5.
Solución:
σxy 6.76
r= = = 0.89
σx σy 5.96 9.62
Existe una fuerte dependencia aleatoria directa entre las dos variables. Las
estimaciones hechas a partir de las rectas de regresión serán fiables.
Por último, ilustramos los datos con la recta de regresión y sobre x del ejemplo
14
12 y = 1,1343x + 1,4762
R² = 0,7964
10
0
0 2 4 6 8 10
Observaciones: El que dos variables tengan una correlación lineal alta (sea positiva o
negativa) puede no significar una relación de causa-efecto entre ellas.
Σ =σ2x σ2y (1 − r 2 ) ≥ 0 . Si las variables no están correlacionadas entre sí, el determinante toma
su valor máximo.
http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.mp4
http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.wmv
ANEXO
y1 1 x1
. 1 . a
.
= 1 . ⋅
b
. 1 .
y 1 x
n n
y1 1 x1
. 1 . a
v donde y =
o bien y = M= . , M 1 = . , v
b
. 1 .
y 1 x
n n
Si los puntos no están sobre una recta y − M ⋅ v ≠ 0 . Escogeremos a y b de tal forma que
y − M ⋅ v sea mínimo.
∗ a∗
Sea v = ∗ el vector que minimiza la diferencia a la línea y = a ∗ + b∗ x "RECTA DE
b
REGRESIÓN" y y M son fijos, al variar v los vectores Mv forman un subespacio de Rn, espacio de
la columna de M. Gráficamente,
y y-Mv
y-Mv *
Mv
Mv *
y − Mv∗ ⊥ Mv ∀v
( Mv ) ( y − Mv ) =
t
0 ∗
v ⋅ M ( y − Mv ) =
t t
0 ∗
v ⋅ ( M y − M Mv ) =0 ∀v
t t t ∗
⇒ M t y − M t Mv∗ =
0
v∗ = ( M t M ) M t y
−1
( ) r ( MtM ) =
−1
donde ∃ M t M ⇔ 2 ⇔ x1 ,..., x n no están sobre la vertical.
1 x1
. .
1 . . . 1 n ∑x
=Mt ⋅ M = . .
i
n ∑ xi ∑x 2
1
x . . . x i
. .
1 x
n
−1
n
( M M ) =
=
∑ x i
−1 1 ∑ x i2 −∑ x i
2
t
∑ xi ∑ xi n ∑ x i2 − ( ∑ x i ) −∑ x i
2 n
t
1 x1 y1
. . . ∑ yi
=
M t
⋅ y . . ⋅=
. Por último,
∑ x i yi
. . .
1 x y
n n
1 ∑ x i ∑ yi − ∑ x i ∑ x i yi
2
=
n ∑ x 2 − ( ∑ x ) −∑ x i ∑ yi + n ∑ x i yi
2
i i
∑ x i2 ∑ yi ∑ x i ∑ x i yi
−
n n n n
∑ x i2 ∑ yi − ∑ x i ∑ x i yi ∑ x i2 ∑ x i
2
m 20 Y − Xm11
−
n ∑ x i2 − ( ∑ x i )
2
n n = σ2x
= = =
n ∑ x i yi − ∑ x i ∑ yi m − XY
∑ i i − ∑ x i ∑ yi
x y
11
∑ ( ∑ ) σ2x
2
n x 2
− x
n n n
∑ x i − ∑ x i
i i 2
2
n n
m Y − YX 2 + X 2 Y − Xm Yσ2x − Xσxy
20 11
a
σx
2
= σ2x =
σxy σxy b
σx
2
σx
2
EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los
puntos (0,1), (1,3), (2,4) y (3,4).
Solución:
1 0 1
1 3
1 4 6 1 7 −3
M = 1
2 , Y = , Mt.M = , (Mt.M)-1 = ,
4 6 14 10 −3 2
1 3 4
1
a 1 7 −3 1 1 1 1 3 = 1.5
(=
M M) M y
−1
=
t t
⇒ y= 1.5 + x
b 10 −3 2 0 1 2 3 4 1
4