Вы находитесь на странице: 1из 12

Docencia de Matemticas en la Economa y la Empresa

ESTADSTICOS EN TRMINOS DE VECTORES Y MATRICES

Jos Carlos de Miguel Domnguez


Agustn Ramos Calvo
Julio Pallas Gonzlez

Dpto. de Mtodos Cuantitativos para la Economa y la Empresa


Facultad de Ciencias Econmicas y Empresariales
Universidad de Santiago de Compostela.

Resumen: Es corriente definir algunos conceptos estadsticos directamente, sin usar


aquellas ideas iniciales que los motivaron. A causa de ello puede parecer (sobre todo a
nuestros estudiantes) que no existe relacin ni continuidad con otros conceptos bsicos
ya introducidos en Matemticas. Esta es la razn que nos ha llevado a presentar la
materia elemental (y sobradamente conocida) que sigue.
Concretamente, utilizando el concepto de producto escalar ordinario (y la norma
inducida por l), se introducen los conceptos de varianza y de coeficiente de
correlacin, as como su interpretacin geomtrica. Posteriormente, utilizando el
concepto de proyeccin, se presentan e interpretan los conceptos de ajuste de mnimos
cuadrados, coeficiente de determinacin y los de correlacin parcial.

153
De Miguel J.C., Ramos A., Pallas J.

1.- Conceptos de Media, Varianza y Correlacin Simple entre dos variables


estadsticas.
Dadas N observaciones {(x1, x2, x3, . . . , xN ), ( y1, y2 , y3 , . . . , yN )} de dos
variables cualesquiera x e y relativas a dos magnitudes arbitrarias (fsicas,
econmicas, etc.) cuyo comportamiento se desea conocer, dichas observaciones
determinan dos vectores columna de RN de la forma:
x0 = (x1, x2, x3, . . . , xN )t ; y0 = ( y1, y2 , y3 , . . . , yN )t
Las medias muestrales de dichas observaciones (coordenadas del centro de gravedad)
son:

N N

xi y
_ 1 _ 1
x = ; y = i
N i=1 N i=1

y las llamados observaciones centradas miden los desvos de dichas observaciones con
respecto a las medias correspondientes, a saber:
x
1 y
1
x
y
2 2
x =
:
; y
O = :
x y
N N

x = (x1- x , x2 - x , x3 - x . . . , xN- x )t ; y = ( y1- y , y2- y , y3- y , . . . , yN- y )t

(En adelante, se observar que todos los clculos son relativos a estas variables
centradas y no para los vectores que recogen las observaciones iniciales). Para dichos
vectores N x 1 la norma usual es:

(x x) ; (y y)
_ 2 _
= < x, x > = = < y, y > =
2 2 2
x i y i
i i
y dividiendo entre N estas expresiones se obtienen las varianzas muestrales de las
variables. A la vez, su raz cuadrada conduce a las expresiones de las desviaciones
tpicas:

1 1

1 1
sx = x = (x x)2 ; sy = y = (y y)2 ;
N N i N N i

As, las desviaciones tpicas muestrales no son ms que las normas de los vectores de
desviaciones de dichas observaciones (con una longitud N veces ms pequea que las
longitudes de aquellos).

154
Docencia de Matemticas en la Economa y la Empresa

Siguiendo en la misma lnea, es posible pensar en los vectores unitarios en la


misma direccin de los vectores que expresan los desvos de las variables con respecto a
su media. Dichos vectores expresan, en definitiva, el resultado de lo que es denominado
en Estadstica como tipificar (o estandarizar) la variable y, tambin, como valores
centrado-reducidos. Su expresin es:

x1 x

1 x2 x 1 1 x
z = = x = x = N
x
sx : sx 1 x
x
x N x N

Cabe observar que la varianza de dichas variables tipificadas es la unidad,


independientemente de las unidades de medida usadas para determinar las
observaciones.
La covarianza entre las variables x e y iniciales, denotada como sxy se define
como:

1 1 N
sxy = < x, y > = (x x)( y y)
N Ni =1 i i

(es decir, el producto escalar entre las variables centradas). En esta lnea, se obtiene la
expresin sencilla siguiente para el coeficiente de correlacin simple ( rxy ) entre las
variables iniciales:
1
s xy < x, y >
N < x, y >
r xy = = =
sx sy 1 1 x y
x y
N N

Expresin que, literalmente, pone de manifiesto que el coeficiente de correlacin entre


las variables centradas x e y no es ms que el coseno del ngulo que forman los dos
vectores.

Es inmediato, entonces, interpretar todas las propiedades del coeficiente de


correlacin sin ms que acudir a las propiedades del coseno de dicho ngulo. Por
ejemplo, en el caso en que 0 < rxy < 1 (respectivamente 1 < rxy < 0) existe

155
De Miguel J.C., Ramos A., Pallas J.

correlacin positiva entre ambas variables (respectivamente, negativa) y un aumento en


una de ellas produce un aumento (respectivamente, disminucin) en la otra. La
magnitud de dichas variaciones es fcilmente interpretada utilizando la proyeccin de
un vector sobre otro, que se tratar ms adelante.

2.- Expresiones y significado de las matrices de varianzas-covarianzas y de


correlacin.

Supuesto se dispone de p vectores N-dimensionales x1, x2, x3, . . . , xp de


datos centrados y la matriz cuyas columnas son dichos vectores X = ( x1 , x2 , . . . , xp ),
para dicha variable p-dimensional, la matriz de varianzas-covarianzas de las variables
toma la forma:
< x1, x1 > < x1, x 2 > .... < x , x >
1 p
< x , x > < x , x > .... < x , x >
1 1 2 1 2 2 2 p
Cxx = X'X = : : : :
N N
: : : :

< x p , x1 > < x p , x 2 > .... < x , x >
p p

Considerada, entonces, la matriz diagonal cuyos elementos son las varianzas muestrales
de las variables xi (positivas), es posible hablar de la raz cuadrada de dicha matriz
en la forma:

s 1 / 2 0 .... 0
11
s 1/ 2 .... 0
D -1/ 2 = 22
c : :
s 1 / 2
pp

En esas condiciones, la matriz de puntuaciones tipificadas toma la forma:


Z = X DC -1/2

Tomando los productos escalares de los vectores columna de la matriz Z como


elementos, se puede formar la matriz de correlacin de las p variables:

RXX = 1/N ( Z Z ) = CZZ = 1/N ( DC -1/2 XX DC -1/2)

156
Docencia de Matemticas en la Economa y la Empresa

Por otro lado, si es Aij el rea del tringulo determinado por los puntos pi = (xi ,
yi ) , pj = (xj , yj ), pg = (xg , yg ) siendo pg el centro de gravedad1 (es decir, aquel
cuyas coordenadas son las medias respectivas) de la nube de puntos, es conocido el
hecho de que ese rea queda determinada por el siguiente determinante (en valor
absoluto):

x y 1
1 i i 1 xi x yi y
A ij = x y 1 =
2 j j 2 xj x yj y
xg yg 1

Elevando al cuadrado y sumando la anterior expresin para todos los valores de i y j:

(xi x)2 (xi x)(yi y) (xi x)2 (xi x)(yi y)


S=2Aij 2 = =
i<j i, j (yi y)2 (yi y)2

Ahora bien, llamando:

1 < x,x > < x,y > 1 2 1


( x y sen xy ) 2
C2 = = 2 ( x . y < x,y >2 ) =
2

N < y,x > < y,y >


2 2
N N

y teniendo en cuenta que x y sen xy es el rea del paralelogramo determinado


por ambos vectores, resulta que el determinante de la matriz de varianzas-covarianzas
de dos variables x e y corresponde ( en otras palabras, es proporcional) al cuadrado
del rea del paralelogramo que determinan dichas variables. Por ello, dicho
determinante se suele denominar la varianza generalizada.

3.- Proyeccin ortogonal sobre un subespacio y ajuste de mnimos cuadrados.

Como se indic al final del apartado 1, una cuestin que aparece repetidamente
en la prctica, es determinar qu porcin de un vector b acta en la direccin
determinada por otro vector a. En definitiva, se est hablando de la nocin de
proyeccin del vector b sobre a. Para el caso ms sencillo, considerados dos vectores a
y b de Rn y denotando Ea la recta generada por a, la componente de b a lo largo de

1
Se introduce (por una vez) dichanotacin, para hacer constar que tambien se podra usar esa terminologa.

157
De Miguel J.C., Ramos A., Pallas J.

Ea es la longitud del vector proyeccin de b sobre a; (cuyo valor es ||b|| cos ; ( =

ngulo que forman)) y, al ser <a,b> = ||a|| ||b|| cos , para determinar el vector
proyeccin basta multiplicar la longitud anterior por el unitario en la direccin de a :

< a, b > < a, b >


p = 2 a = a
a < a,a >

Proyeccin de un vector sobre un subespacio.- Supuesto se desea conocer la proyeccin


p de un vector b de Rn sobre un subespacio S de Rn de dimensin mayor que 1 y
generado por k vectores linealmente independientes: S = gen{a1, a2 ,, ak} basta tener
en cuenta que:
1. El vector p debe pertenecer al subespacio S.
2. El vector b-p debe ser ortogonal a todo vector de S.

Todo vector del subespacio S tiene la forma x1 a1 + x2 a2 + + xk ak , es de la


forma A x (siendo A la matriz cuyas columnas son los ai de la base y x un vector
columna arbitrario de Rk). As, por la primera condicin, el vector p = A xk siendo rk
= (r1 , r2 ,. . . , rk ) para algunos ri que se desean determinar. Adems, por la segunda
condicin b- A rk debe ser ortogonal a cualquier vector A x de S, lo que conduce a la
igualdad matricial siguiente:
(A x) (b A rk) = (xA) (b A rk) = x (Ab AA rk ) = 0
que ha de cumplirse cualquiera que sea el vector x de Rk. Como eso ocurre si y
solamente si Ab-AAxk es el vector nulo, se obtiene:
A b - AA rk =
Como la matriz AA es invertible, se obtienen las coordenadas de la proyeccin
buscada:
rk = ( AA )-1 A b
y como p pertenece al subespacio S su expresin definitiva est dada por la expresin:
p = A rk = A ( AA )-1 A b

La expresin obtenida es, precisamente, la misma que permite conocer los estimadores
de los parmetros de un modelo lineal cuando se trata de explicar el regresando y en

158
Docencia de Matemticas en la Economa y la Empresa

funcin de k regresores x1 , x2 , x3 , . . . , xk . Ms concretamente, planteado el modelo


lineal:
Yt = 0 + 1 x1t + 2 x2t + 3 x3t + . . . + k xkt + t
(en el que la perturbacin aleatoria t se adapta a las hiptesis clsicas), los estimadores
de mnimos cuadrados ordinarios de los parmetros i se obtienen proyectando
ortogonalmente el regresando y sobre el subespacio S generado por los regresores x1 ,
x2 , x3 , . . . , xk , por lo que toma la forma:
b = ( XX )-1 X y
siendo X la matriz cuyas columnas son los regresores. Adems, los valores estimados
del regresando son, por consiguiente, yest = X b = X (XX)-1 X y. La matriz
utilizada: [X(XX)-1 X] es, precisamente, la matriz de proyeccin sobre el
subespacio de los regresores, como se detalla a continuacin:

Observacin 1.- Cabe pensar que si la base de S est formada por otros vectores y es Z
la matriz determinada por ellos, la matriz de proyeccin es Q = Z(ZZ)-1 Z. Ahora
bien, como ocurre que P x = Q x para todo vector x de Rn basta pre y post-multiplicar
en esa igualdad por los vectores de la base cannica para demostrar que P = Q.

Observacin 2.- Para la matriz de proyeccin sobre el subespacio S [ P = X(XX)-1


X ] es inmediato comprobar que se trata de una matriz simtrica e idempotente as
como que dicha matriz PS es la nica para la cual b - Pb es perpendicular a todo vector
de S.
Adems, esas dos propiedades son suficientes para poder hablar de una matriz de
proyeccin. En efecto: Dada P una matriz cuadrada de orden n simtrica e idempotente,
para cualquier vector b de Rn est claro que Pb est en el espacio S generado por las
columnas de la matriz P, ya que S consta de todos los vectores de la forma Px para
cualquier vector x de Rn. El segundo requisito es que b Pb debe ser ortogonal a
cualquier vector Px de S; escribiendo el producto escalar en forma matricial y usando
las hiptesis P2 = P = P se obtiene inmediatamente:

(b-Pb) Px = [ (I - P) b]] Px = b (I P) Px = b (I P) P x =

159
De Miguel J.C., Ramos A., Pallas J.

= b (P P2 ) x = b (P P) x = 0

Observacin 3.- Finalmente, que el vector p sea la proyeccin ortogonal de b sobre el


subespacio S significa, por otro lado, que b-p es el vector ms corto entre todos los
posibles vectores de la forma b-s siendo s un vector cualquiera del subespacio. En
efecto, en el mtodo de mnimos cuadrados lo que se hace es minimizar la siguiente
forma cuadrtica (o su cuadrado) siendo x un vector cualquiera de Rk:
Q = || y A x ||2 = (y Ax) (y Ax) = (y xA) (y Ax) =
= y y yAx xAy x AA x = yy - 2 yAx + x AA x

4.- Interpretacin del coeficiente de determinacin en el ajuste de mnimos


cuadrados

Ya se ha comentado que la proyeccin del vector y sobre el subespacio S = X


generado por los vectores xi es la combinacin lineal de dichos vectores ms prxima
al vector y. Denotando por X la matriz no singular cuyas columnas son los vectores de
la base de X se pueden considerar los dos proyectores:
PX = X (XX)-1 X y P X = IN - PX
y ya que dichos proyectores son ortogonales ( < PX , PX > = PX (IN - PX ) = 0 )
cualquier vector y se puede descomponer (de forma nica) en la forma:
y = yX + y X = PX y + P X y = X (XX)-1 X y + ( IN - X (XX)-1 X) y

El espacio EM determinado por y y por los xj, se puede escribir en la forma EM


= EX E X y, como consecuencia obtener las siguientes descomposiciones de las
varianzas y covarianzas:
Sy2 = (1/N) || y ||2 = (1/N) <y,y> = (1/N) <yx+ yx , yx+ yx > = (1/N) <yx,yx > +
(1/N) < yx, yx > = (1/N) || yx ||2 + (1/N) || yx ||2 = Syx2 + Syx2 .

Syx2 = (1/N) || yx ||2 = (1/N) <yx, yx > = (1/N) <Px y, Px y > = (1/N) y Px y =
CyX C-1 XX CXy

160
Docencia de Matemticas en la Economa y la Empresa

Syx2 = (1/N) || yx||2 = (1/N) <yx, yx> = (1/N) <Px y, Px y> = (1/N) yPxy =
Syx2 - CyX C-1 XX CXy

Sustituyendo Syx2 , Syx2 en la anterior y dividiendo a continuacin a ambos lados por


Sy2 se obtiene:
1 = (Syx2 / Sy2 ) CyX C-1 XX CXy + ( 1 - CyX C-1 XX CXy )
lo que permite definir:
R 2X.y = (Syx2 / Sy2 ) = (1/ Sy2 ) CyX C-1 XX CXy = RyX R-1 XX RXy
cantidad que representa la magnitud relativa de la varianza de la variable (regresando)
y explicada por los regresores y que recibe el nombre de Coeficiente de determinacin
mltiple. Obviamente, dicho coeficiente toma valores comprendidos entre 0 y 1. Por
otro lado, teniendo en cuenta que:
Sy2 = (1/N) || y ||2 ; || Px y ||2 = y Px Px y = y Px y = y X (XX)-1 X y =
= (1/N) CyX C-1 XX CXy
se obtiene expresin:
2 2
C yX C 1 yX C Xy Px y yx yx
R 2
X.y = 2 = 2 = 2 ; R X.y =
s y y y y

que pone de manifiesto que R Xy es el coseno del ngulo formado por y e yX . Es


decir, mide el coseno del ngulo formado por el regresando con su proyeccin ortogonal
sobre el subespacio generado por los regresores (o sea, con el vector de valores
estimados en la regresin).

A modo de ejemplo de cmo los conceptos de lgebra siguen siendo vlidos en


la exposicin, se citan los dos resultados siguientes:

1 Propiedad .- El coeficiente de determinacin R Xy es invariante bajo cualquier


transformacin lineal no singular de los regresores X.
Es decir, cualquier transformacin no singular definida en el subespacio
generado por los regresores deja invariante dicho subespacio, de ah que se mantenga
igual el coseno del regresando con su proyeccin sobre l. En efecto, denotando Z =XT
(det (T) 0) el proyector determinado por los nuevos regresores Z est dado como:

161
De Miguel J.C., Ramos A., Pallas J.

PZ = Z (ZZ)-1 Z = (XT) [ (XT) (XT)]-1 (XT) = XT [ T X XT]-1 XT =


= XT T-1 [X X]-1 (T)-1 T X = X (XX)-1 X = PX

y, por tanto, queda establecido el resultado enunciado ya que:

PZ y yZ PX y
R Z.y = = = = R X.y
y y y

2 Propiedad .- El coeficiente de determinacin R2X.y nunca decrece al aadir alguna


nueva variable z a la matriz de regresores X.

Considerado un proyector ortogonal P arbitrario, y Q = I-P se obtiene:

x ' Qx = xQ 2 x = x ' Q' Qx = Qx 0


2

y, por consiguiente, para un vector x arbitrario:

x = x' x = x' Ix = x' (P + Q )x = x' Px + x' Qx x' Px = x' P' Px = Px


2 2

es decir, la proyeccin de cualquier vector tiene una norma menor o igual que la de
aquel. As, considerados dos proyectores P1 y P2 sobre los subespacios E1 y E2 se
obtiene P2 P1 x P1 x . En particular, si E1 E2 resulta P1 x P2 x y para
establecer la propiedad citada, basta considerar E1 = gen ( X ) y E2 = gen (X,z ), lo

que implica la desigualdad PE y PE y .


1 2

5.- Sobre los coeficientes de correlacin parcial.


Se ha mostrado ya que cuando se consideran dos variables x e y es posible
descomponer como: y = yX + y X = PX y + P X y. Si se introduce una nueva
variable z a las citadas, tambin se puede escribir: z = zX + z X = PX z + P X z.
En esas condiciones, se va a estudiar el coeficiente de correlacin entre las variables
y X y z X. Ntese que su significado es que recogen las puntuaciones (residuales)
que dichas variables alcanzan en direccin ortogonal al vector x y as el coeficiente de
correlacin buscado mide su correlacin cuando se han eliminado los efectos en la
direccin de x. Teniendo en cuenta que:

162
Docencia de Matemticas en la Economa y la Empresa

(1/N) < y X, z X > = (1/N) (PX y) (PX z) = (1/N) y PX z = (1/N) y ( I - PX ) z =


(1/N) (y y y PX z) = syz - (1/N) y PX z = syz - (1/N) yx (xx)-1 xz =
= syz - (1/N) Cyx C-1 xx Cxy = syz - (syx sxz )/ s2 yz

(1/N) || y X ||2 = (1/N) <yX , yX > = (1/N) <PX y , PX y > = (1/N) y PX y =


= (1/N) y (I - PX ) y = (1/N) (yy y PX y) =
= s2 y - (1/N) yx (xx)-1 xy = s2 y - s2xy / s2x
(1/N) || z X ||2 = s2 z - s2xz / s2x

Utilizando la definicin de coeficiente de correlacin ya establecida, dicho


coeficiente entre las variables y X y z X es el coseno del ngulo que forman y est
dado por:

s yx s zx
s yx r yz r yx r zx
s2 x
r y / x. z / x = =
s 2 yx s 2 zx 1 r 2 yx 1 r 2 zx
s2 y s2 z
s2 x s2 x

que es el coeficiente de correlacin parcial entre y y z condicionado a un valor de la


variable x.

La definicin y el significado anteriores se pueden generalizar fcilmente al caso


de p variables de la forma X = (x1 , x2 , , xp ) para conocer la correlacin entre y y
z cuando han sido eliminados los efectos de X. Teniendo en cuenta que ahora:
(1/N) < y X, z X > = (1/N) y PX z = syz - CyX C-1 XX CXz
(1/N) || y X ||2 = (1/N) <PX y , PX y > = s2 y - CyX C-1 XX CXy
(1/N) || z X ||2 = s2 z - CzX C-1 XX CXz
se obtiene la siguiente expresin para el coeficiente de correlacin parcial:

s yz C yX C 1 XX C Xz
ry/ X,z/X =
s2 y C yX C 1 XX C Xy s2 z C zX C 1XX C Xz

163
De Miguel J.C., Ramos A., Pallas J.

y, dividiendo numerador y denominador por sy sx , se obtiene:

ryz R yX R 1XX R Xz ryz R yX R 1XX R Xz


ryX,z/ X = =
1 R yX R 1 XX R Xy 1 R zX R 1XX R Xz 1 R
2
Xy 1 R
2
Xz

siendo RXy y RXz los coeficientes de regresin mltiple de y y z respectivamente


con variables explicativas las de la matriz X.
Todo lo anterior es, a su vez, extensible en la forma siguiente:
Dadas q variables dependientes Y = (y1 , y2 , , yq) y p variables
independientes variables X = (x1 , x2 , , xp ) es posible definir la matriz de
coeficientes de correlacin parcial entre cualquier par de variables yi e yj despus de
eliminar X. Para ello, teniendo en cuenta que: yj = yjX + y jX = PX yj + P X yj
(j=1,2,,q) en forma matricial:
Y = YX + Y X = PX Y + P X Y
se obtiene:
CYY.X = (1/N)< YX , YX > = (YX ) (YX ) = (1/N) (Y PX ) =
= (1/N)YY - (1/N)Y PX Y = CYY - CyX C-1 XX CXY
que es la matriz de covarianzas. Como en la diagonal de dicha matriz aparecen las
varianzas de las variables yj , si se denota por DCYY.X la matriz diagonal cuyos
elementos diagonales son los de CYY.X se obtiene la correspondiente matriz de
correlacin en la forma:
RYY.X = D-1/2 YY.X CYY.X D-1/2 YY.X

Bibliografa:
Fraileigh & Beauregard.- Algebra Lineal. Addison-Wesley Iberoamericana.
K. Takeuchi, H. Yanai & N. Mukherjee.- The Foundations of Multivariate Analysis.
Wiley E. L.
T.W. Anderson.- An Introduction to Multivariate Statistical Analysis. John Wiley &
Sons.

164

Вам также может понравиться