Вы находитесь на странице: 1из 309

Modelos

Lineales

Coleccin manuales uex - 56


(E.E.E.S.)

Jess Montanero Fernndez

56

modelos lineales

manuales uex

56
(E.E.E.S.) Espacio Europeo Educacin Superior

JESS MONTANERO FERNNDEZ

modelos lineales

2008

La publicacin del presente manual forma parte de las Acciones para el Desarrollo del Espacio Europeo de Educacin Superior en la Universidad de Extremadura Curso 2007/08 en el marco de la VI Convocatoria de Acciones para la Adaptacin de la UEX al Espacio Europeo de Educacin Superior (Proyectos Pilotos: modalidad A1) del Vicerrectorado de Calidad y Formacin Continua y financiada por la Junta de Extremadura, el Ministerio de Educacin y Ciencia y la Universidad de Extremadura.

FSE

Fo n d o S o c i a l E u ro p e o

Edita Universidad de Extremadura. Servicio de Publicaciones C./ Caldereros, 2 - Planta 2 - 10071 Cceres (Espaa) Telf. 927 257 041 - Fax 927 257 046 publicac@unex.es www.unex.es/publicaciones

ISSN 1135-870-X ISBN 978-84-691-6344-3 Depsito Legal M-45.207-2008 Edicin electrnica: Pedro Cid, S.A. Telf.: 914 786 125

A ngela, Juan, lvaro y Martn

Pr ologo

El presente manual esta concebido como una apoyo a la docencia en una asignatura de segundo ciclo que puede cursarse tanto en la Licenciatura de Matem aticas como en la de Ciencias y T ecnicas Estad sticas. El objetivo es que pueda ser entendido por alumnos con conocimientos b asicos de Matem aticas en general y Estad stica en particular. Los aspectos formales de la materia han sido desarrollados con cierto detalle. En lo que respecta a las competencias cuya adquisici on debe posibilitar esta asignatura, no es estrictamente necesaria la compresi on exhaustiva de los mismos, aunque se antoje conveniente que el lector interesado tenga al menos un lugar donde acuEl presente manual concebido apoyo am la docencia ende una dir siesta quiere llevar acomo cabo una un estudio as profundo la asignamateria, al margen de la tura de segundo ciclo que puede cursarse tanto en la Licenciatura de Matem ticas bibliograf a especializada. Por contra, el alumno debe tener a en cuenta que el conocicomo en la de Ciencias y T ecnicas Estad sticas. El objetivo es que pueda ser con entendimiento te orico de estos contenidos debe complementarse su aplicaci on mediante do por alumnos con b a sicos de aticas enhttp://kolmogorov.unex.es/jmf general y Estad stica unconocimientos programa estad stico. EnMatem la p agina web / se en particular. encuentra material al respecto. Los aspectos formales deela materia han sido con cierto detalle. En Tambi n cabe resaltar que desarrollados este manual se complementa con otro dedicado a los lo que respecta a las competencias cuya adquisici o n debe posibilitar esta asignatuModelos Lineales. De hecho podr a considerarse como una segunda parte o segundo ra, no es estrictamente necesaria compresi on exhaustiva de los mismos, aunque volumen de una la serie de dos. se antoje conveniente que el lector interesado tenga al menos un lugar donde acudir si quiere llevar a cabo un estudio m as profundo de la materia, al margen de la bibliograf a especializada. Por contra, el alumno debe tener en cuenta que el conocimiento te orico de estos contenidos debe complementarse con su aplicaci on mediante un programa estad stico. En la p agina web http://kolmogorov.unex.es/jmf/ se encuentra material al respecto. Tambi en cabe resaltar que este manual se complementa con otro dedicado al An alisis Multivariante. De hecho podr a considerarse como una primera parte o primer volumen de una serie de dos.

Pr ologo

Manuales Uex 9

Introducci on
El planteamiento y resoluci on de ecuaciones matem aticas tienen como objeto relacionar el comportamiento de una variable respuesta con el de una o varias variables explicativas. Podemos distinguir entre diversos tipos de ecuaciones: lineales, no lineales, diferenciales, etc. Nosotros estudiaremos fundamentalmente las primeras, es decir, consideraremos b asicamente relaciones de tipo lineal entre la variable respuesta y las variables explicativas. Por qu e? Si bien es cierto que este tipo de relaci on se observa con relativa frecuencia en la naturaleza, hemos de reconocer, para ser honestos, que su principal virtud es su f acil manejo, su excelente y natural comportamiento desde el punto de vista formal, lo cual invita en no pocas ocasiones a considerar como lineales relaciones que s olo lo son aproximadamente, asumiendo en consecuencia cierto error como tributo a la sencillez del modelo. Cuando este error resulta excesivo es costumbre bastante habitual buscar cambios apropiados en las variables que permitan establecer relaciones aproximadamente lineales entre las variables transformadas. Podemos tambi en a nadir a las variables explicativas distintas potencias de grado superior de las mismas. De esta forma, las ecuaciones polin omicas quedan reducidas a un caso particular de ecuaciones lineales, lo cual permite cubrir aproximadamente un enorme campo de posibilidades. En denitiva, la soluci on a un problema de ecuaciones lineales y, en denitiva, la teor a del Algebra Lineal, puede servirnos como referencia o punto de apoyo para la resoluci on de ecuaciones que, en principio, no los son. Lo dicho hasta ahora puede encuadrarse en un marco determinista, donde las relaciones entre las variables sean siempre id enticas, independientemente del resultado concreto del experimento. Sin embargo, nosotros estamos dispuestos a admitir una variaci on o error de car acter aleatorio, lo cual conduce a considerar un modelo de tipo probabil stico. Dado que las distribuciones de probabilidad en juego no est an especicadas por completo de lo contrario, podr amos considerar el problema resuelto, habr a que hablar, para ser exactos, de un modelo estad stico, que denominaremos en lo sucesivo Modelo Lineal. Con frecuencia, se supone que el error del modelo, es decir, las diferencias entre el valor de la variable respuesta y el que predice la ecua-

Manuales Uex 11

jess montanero fernndez

ci on lineal, sigue una distribuci on normal, lo cual convierte este modelo, denominado en ese caso Modelo Lineal Normal, en el mismo n ucleo de la Estad stica Param etrica . El supuesto de normalidad es de gran utilidad a la hora de contrastar diversas hip otesis relativas a los par ametros o construir regiones de conanza para los mismos. Adem as, supone un argumento fundamental en la justicaci on de los tests de hip otesis y estimadores que se elaboran en la teor a. Nuevamente nos encontramos ante la misma problem atica. Aunque, efectivamente, se puedan observar en la pr actica relaciones de tipo lineal salvo errores aleatorios normalmente distribuidos, la asunci on del supuesto de normalidad no dejar a de resultar al lector m as suspicaz una artima na para resolver problemas de car acter meramente t ecnico, y quiz a no le falte buena parte de raz on. Es mucho lo estudiado acerca de este delicado problema que, en buena l ogica, podr a disuadirnos del uso de los m etodos Param etricos en general y, esa es, hoy en d a, la opini on de buena parte de los estad sticos. No obstante, nos atrevemos aqu a romper una lanza en favor del supuesto de normalidad. Efectivamente, los m etodos de Inferencia Estad stica propios del modelo tienen un buen comportamiento asint otico a un obviando el supuesto de normalidad, es decir, que funcionan de manera similar al caso normal para muestras sucientemente grandes. No cabe duda de que detr as de esta armaci on debe estar y as lo veremos alguna versi on del Teorema Central del L mite. El propio Teorema Central del L mite podr a explicar la normalidad observada de hecho en muchos casos, en los cuales la variable respuesta podr a ser la suma o conjunci on de muchas variables independientes. No obstante y yendo un poco m as lejos, no parece del todo coherente extra narse del uso del supuesto de normalidad cuando se ha asumido sin problemas el de linealidad, o cuando se afronta con absoluta naturalidad la inferencia acerca de la media y la varianzas (o matriz de varianzas-covarianzas). Por qu e? La pregunta deber a ser m as bien: por qu e estudiamos la media, la varianza o la covarianza? No son estos los par ametros que caracterizan la distribuci on normal (posiblemente multivariante)? Desde luego, si de una distribuci on desconocida suponemos su normalidad, conocer su media y varianza (o matriz e covarianzas en el caso multivariante) equivale a especicarla por completo, es decir, a convertir el problema estad stico en un problema meramente probabil stico, cosa que no ocurre en general. Si hablamos en t erminos muestrales, es desde luego continuo el uso que hacemos de la media y la varianza , lo cual podr a justicarse mediante el hecho de que, conjuntamente, constituyen un estad stico suciente y, adem as, completo. Pero esa armaci on es correcta precisamente bajo el supuesto de normalidad por ejemplo para una muestra aleatoria simple de una distribuci on normal. M as a un, es bien conocido que, dado un vector aleatorio

Manuales Uex 12

MODELOS LINEALES

normal multivariante, las relaciones entre sus distintas componentes han de ser de tipo lineal. Con ello estamos llamando la atenci on sobre una vinculaci on natural entre los supuestos de normalidad y linealidad. Por todo ello, el objeto principal de nuestro estudio no ser a el Modelo Lineal sino, m as concretamente, el Modelo Lineal Normal. Lo primero que necesitamos aclarar en nuestra teor a es en qu e sentido el Modelo Lineal formaliza los problemas cuya resoluci on nos ata ne, que son, principalmente, el problema de regresi on lineal, el de correlaci on lineal, el de an alisis de la varianza y el de an alisis de la covarianza. Podemos a nadir a estos problemas otros similares que se encuadran en los denominados modelos lineales generalizados. En el primer cap tulo se enuncian cuatro ejemplos que pretenden ilustrar los problemas mencionados anteriormente, a los que sigue una discusi on acerca de su formalizaci on mediante el modelo lineal, cuyo principal objetivo es la justicaci on de la bibliograf a de referencia y el enfoque que hemos dado a esta materia. Tras la reexi on inicial del cap tulo 1, procederemos a desarrollar el programa en s . Empezaremos con un cap tulo dedicado a la distribuci on normal multivariante, haciendo especial hincapi e en el caso esf erico y en distribuciones derivadas de la en se analiza con cierto misma, como son la 2 , t de Student y F de Snedecor. Tambi detenimiento la conexi on existente entre los supuestos de normalidad y linealidad. Es nuestra intenci on que este manual sea, en la mayor medida posible, autocontenido. Por ello hemos procurado demostrar los resultados que se exponen, si bien en algunos casos hemos considerado m as conveniente remitir al lector a la oportuna referencia bibliogr aca. Tal es el caso, por ejemplo, de todos los resultados cl asicos en Probabilidad y Estad stica que se precisan en esta teor a pero no son espec cos de la misma. En general, las nociones y resultados previos que se requieren para afrontar nuestro estudio se exponen en el Ap endice. Se trata de una miscel anea de materias, la mayor a de las cuales pueden ser obviadas por el lector con conocimientos b asicos en Probabilidad y Estad stica. En la primera secci on del mismo se recoge una selecci on de resultados del Algebra matricial que ser an de utilidad. La piedra angular de nuestra teor a es el cap tulo 3, donde se establecen una serie de resultados te oricos que ser an de utilidad a la hora de estudiar los an alisis de regresi on y de la varianza en los cap tulos 4 y 6, respectivamente. El cap tulo 5, dedicado al modelo Correlaci on, es de es car acter netamente te orico y viene a complementar al tercero o al cuarto, seg un se entienda. Aunque hubiera sido m as c omodo, desde el punto de vista t ecnico, incluirlo en la segunda parte, dedicada al An alisis Multivariante, hemos preferido presentarla en la primera para dar mayor coherencia al conjunto. El cap tulo 7 se dedica al modelo lineal de rango no completo y el 8 a los modelos lineales generalizados.

Manuales Uex 13

jess montanero fernndez

Por otra parte, seg un se ha mencionado de pasada, este manual pretende ser un volumen previo a otro de dedicado al An alisis Multivariante. Obviamente, ambas materias comparten muchos contenidos pudiendo considerarse el estudio del Modelo Lineal un requisito previo al del An alisis Multivariante, aunque en ocasiones puede suceder lo contrario. Ambos vol umenes se conciben como complementarios y comparten la misma notaci on y losof a, si bien el An alisis Multivariante presenta especial dicultad debido a la carencia de una verdadera cohesi on l ogica, al menos en la medida en que la posee el Modelo Lineal. La referencia bibliogr aca fundamental de ambos vol umenes es Arnold (1981). El t tulo lo dice todo: The Theory of Linear Models and Multivariate Annalysis. En esta obra se basan sobre todo los cap tulos 3 y 5 del presente volumen, as como el cap tulo 2 del volumen dedicado al An alisis Multivariante. Recordamos que uno de los objetivos principales del cap tulo 1 es justicar la elecci on de esta referencia bibliogr aca como pilar para exponer la teor a que nos incumbe, en contraposici on con otras formas de explicarla, m as frecuentes, que podemos encontrar en multitud de libros de texto actuales y de referencias cl asicas.

Manuales Uex 14

Indice general
1. Ejemplos y discusi on 1.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Formalizaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Conclusi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Distribuci on Normal Multivariante 2.1. Denici on y principales propiedades . . . . . . . . . . . . . . . . . . . 2.2. Normalidad y Linealidad . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Normal esf erica y distribuciones relacionadas . . . . . . . . . . . . . . 3. Modelo lineal de rango completo 3.1. Estimaci on . . . . . . . . . . . . . . . . . 3.2. Test F para la media. . . . . . . . . . . . 3.3. Contrastes de Hip otesis para la varianza. 3.4. Estudio asint otico del Modelo . . . . . . 3.5. Intervalos de conanza simult aneos . . . 17 17 18 28 29 29 33 37 45 47 56 65 67 79 85 87 96 100 105 118 126 132

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

4. Regresi on Lineal M ultiple 4.1. Estimaciones e intervalos de conanza. . . . . 4.2. Principales constrastes. Selecci on de variables. 4.3. An alisis de los supuestos del Modelo . . . . . 4.4. An alisis de los residuos . . . . . . . . . . . . . 4.5. Transformaciones de variables y MCP. . . . . 4.6. An alisis de valores inuyentes . . . . . . . . . 4.7. Multicolinealidad . . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

5. El Modelo de Correlaci on 143 5.1. El Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 5.2. Estimaci on y Contraste de Hip otesis . . . . . . . . . . . . . . . . . . 147 15

Manuales Uex 15

jess montanero fernndez


16 5.3. Supuestos del modelo. Estudio asint otico . . . . . . . . . . . . . . . . 154 5.4. Inferencias sobre los coecientes de correlaci on . . . . . . . . . . . . . 156 6. An alisis de la Varianza 6.1. Dise no Completamente Aleatorizado . . . . 6.2. An alisis de la Covarianza . . . . . . . . . . . 6.3. El test de Student como caso particular . . . 6.4. Dise no bifactorial equilibrado . . . . . . . . 6.5. Dise nos equilibrados con tres o m as factores 6.6. Dise nos anidados o jer arquicos equilibrados . 6.7. Bloques aleatorizados y cuadrados latinos . . 6.8. Dise nos no equilibrados . . . . . . . . . . . . 6.9. Dise nos con efectos aleatorios . . . . . . . . 7. Modelo lineal de rango no completo 7.1. El modelo . . . . . . . . . . . . . . . . . . 7.2. Inversa Generalizada de una Matriz . . . . 7.3. Estimaci on y Contraste de Hip otesis. . . . 7.4. Ejemplo: dise no bifactorial no equilibrado. 8. Modelos Lineales Generalizados 8.1. El modelo . . . . . . . . . . . . . . . . 8.2. Ejemplos . . . . . . . . . . . . . . . . . 8.3. Estudio asint otico . . . . . . . . . . . . 8.4. Estimaci on y contraste de de hip otesis 161 162 171 174 177 184 189 191 196 198 209 209 211 218 223 229 229 232 239 242 247 247 262 276 294

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

9. Ap endice 9.1. Resultados de Algebra Matricial . . . . . 9.2. Generalidades sobre Probabilidad . . . . 9.3. Generalidades sobre Estad stica . . . . . 9.4. Algunos elementos de Teor a Asint otica.

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

Manuales Uex 16

Cap tulo 1 Ejemplos y discusi on


En esta primer cap tulo vamos a exponer cuatro ejemplos, los cuales representan diferentes problemas que pueden formalizarse mediante el modelo lineal. Nos referimos a los problemas de Regresi on Lineal, Correlaci on Lineal, An alisis de la Varianza y de la Covarianza y, por ultimo un problema de rango no completo. Nos hemos permitido la licencia de utilizar en las discusiones conceptos y notaciones propios de la Teor a de la Probabilidad y de la Estad stica Matem atica con los que el lector puede no estar familiarizado. No obstante, es nuestro prop osito que cualquier duda al respecto quede aclarada en el cap tulo 2 o en el Ap endice. Los datos correspondientes a los ejemplos podemos encontrarlos en formato SPSS en http:/kolmogorov.unex.es/jmf/ .

1.1.

Ejemplos

1. [Linthurst Data]: Se pretende relacionar de manera precisa la producci on de Biomasa de Espartina con la salinad, acidez y concentraciones de potasio, sodio y zinc del terreno donde esta crece. Se tomaron un total de 45 mediciones de estas seis variables. 2. [Peso]: Se pretende establecer la relaci on existente entre la edad en semanas de un feto de entre 28 y 33 semanas y su peso. Para ello se midieron los pesos en gramos de 30 fetos, 5 de ellos de 28 semanas, 5 de 29, 5 de 30, 5 de 31, 5 de 32 y otros 5 de 33.

17

Manuales Uex 17

3. [Hipertensi on]: Se desean comparar la efectividad de dos medicamentos A y B, junto con un placebo C, para combatir la hipertensi on. Para ello se consideraron 30 pacientes hipertensos, 10 de los cuales fueron tratados con A, otros 10 con B y el resto con C. Pasado cierto tiempo se midi o en cada caso el porcentaje

jess montanero fernndez


18 CAP ITULO 1. EJEMPLOS Y DISCUSION de descenso de la presi on arterial media aqu el t ermino media hace referencia a la semisuma entre la sist olica y diast olica. 4. [Complexi on]: Se pretende establecer una relaci on clara entre la altura y el peso corporal en personas sanas dependiendo del tipo de complexi on natural. Para ello se distingen tres complexiones, A, B y C y, para cada una de ellas, se toma una muestra de 10 individuos a los que se les miden ambas variables.

1.2.

Formalizaci on

Procedamos a analizar los problemas de uno en uno para determinar qu e modelo estad stico es el m as apropiado para formalizarlos.

Problema de regresi on lineal


En el problema uno, nuestros datos conguran seis vectores en R45 , Z[j ], con 1 j 5, e Y , donde los cinco primeros hacen referencia a las variable explicativas (condiciones del terreno) y la u ltima a la variable respuesta (biomasa). La componente i- esima de cada vector corresponde al caso (individuo) i- esimo del estudio. Supondremos que los valores correspondientes a las variables explicativas han sido determinados de antemano, siendo aleatorios los correspondientes a la variable respuesta, y que la relaci on entre la variable respuesta y las explicativas es lineal1 , es decir, que existen, j R, j = 0, 1, . . . , 5, tales que Yi = 0 + 1 Zi [1] + 2 Zi [2] + 3 Zi [3] + 4 Zi [4] + 5 Zi [5] + i , donde i denota el error cometido, es decir, la diferencia entre el valor exacto de y y el que se obtiene a partir de las variables explicativas mediante la ecuaci on lineal. Consideraremos dichos errores como variables aleatorias incorreladas con media 0 y stico formulado en lenguaje varianza nita com un 2 . Expresemos el modelo estad a compuesta exclusivamatricial. Sean X la matriz 45 6 cuya primera columna est mente de unos (se denota por 145 ), siendo Z[j ], donde j = 1, . . . , 5, las restantes; el vector (columna) compuesto por los j , desde j = 0 hasta 5, y E el vector aleatorio compuesto por las variables i , desde i = 1 hasta 45. Entonces, se verica que Y = X + E ,
1

Manuales Uex

Deber amos decir realmente af n, pues introducimos una constante en la ecuaci on.

18

MODELOS LINEALES
1.2. FORMALIZACION 19

siendo las componentes de E incorreladas con media 0 y varianza nita com un 2 . Si, adem as, consideramos que los errores est an normalmente distribuidos, el modelo vendr a dado por un vector aleatorio Y que verica que Y = X + E , donde E sigue un ametros del modelo, pueden ser modelo de distribuci on N45 (0, 2 Id) y y 2 , los par on cualquier elemento de R6 y R+ , respectivamente. Se trata de un Modelo de Regresi Lineal Normal con t ermino independiente2 , que puede expresarse, equivalentemente, de la siguiente forma: Y N45 (X, 2 Id) Las componentes de se denominan coecientes de regresi on, y 2 puede interpretarse como una medida del error impl cito a la ecuaci on lineal. Se supone tambi en que la matriz X es de rango completo, es decir, que todas sus columna son linealmente independientes. En caso contrario, el valor del par ametro no quedar a un vocamente determinado por la distribuci on de probabilidades dada.

Regresi on o Correlaci on?


N otese que, en el primer estudio, estamos considerando Y como un vector aleatorio mientras que X es una matriz constante, es decir, que suponemos que los datos de las variables explicativas son jados de antemano, dependiendo del azar u nicamente el resultado de la variable respuesta. No parece que este sea el dise no correspondiente al estudio 1, pero s es exactamente lo que ocurre en el estudio n umero 2, donde se mide el peso del f emur en fetos con edades prestablecidas con el objetivo de establecer la relaci on entre ambas variables. Este, y no aqu el, s que es un Modelo de Regresi on, rigurosamente hablando. Discutiremos este asunto a continuaci on. Efectivamente, parece claro que en el primer estudio, tanto las variables explicativas como la respuesta deben ser consideradas aleatorias. Cada unidad experimental de la muestra aporta realmente siete datos (uno m as cinco), es decir, un vector aleatorio con valores en R6 . Por lo tanto, las observaciones aleatorias no pertenecen a R45 sino que son matrices de orden 45 6. La primera columna de la matriz aleatoria es a una matriz ja de dimenY y la submatriz restante, Z . En lo que sigue, Z denotar an las matrices jas y aleatorias que se obtienen siones 45 5, mientras que X y X ser mediante X = (145 |Z), X = (145 |Z )

2 El t ermino independiente puede eliminarse si se supone que la relaci on entre las variables es lineal en sentido estricto y no af n, como estamos considerando en principio.

Manuales Uex 19

Un Modelo de Correlaci on Lineal se corresponde con una muestra aleatoria simple de tama no 45 en este caso (Y |Z ) de una distribuci on normal no degenerada en dimensi on

jess montanero fernndez


20 CAP ITULO 1. EJEMPLOS Y DISCUSION

6. En ese caso, veremos que las columnas de X son linealmente independientes con probabilidad 1, que las las de Z constituyen una muestra aleatoria simple de una distribuci on normal en dimensi on 5 y que Y y X se relacionan mediante Y = X + E , siendo E un vector aleatorio de dimensi on 45 de componentes normales, independientes , de media 0 y varianza com un, y siendo E y Z independientes. En ese caso, los par ametros del modelo son la media y matriz de varianzas-covarianzas de las zetas, on junto con y la varianza com un 2 . Equivalentemente, se verica que la distribuci del vector aleatorio Y condicionada a que la submatriz aleatoria Z tome el valor Z, sigue un modelo N45 (X, 2 Id). Es decir, el modelo de Correlaci on Lineal puede expresarse mediante Y |Z = Z N45 (X, 2 Id), Z N45 (, )

Manuales Uex 20

Por lo tanto, el Modelo de Regresi on Lineal Normal puede obtenerse condicionando en el Modelo de Correlaci on. Ocurre adem as que, si los problemas principales de on se abordan desde inferencia relativos a los par ametro y 2 del modelo de Regresi el Modelo de Correlaci on, se obtienen los mismos estad sticos que se derivan del de Regresi on, y con las mismas distribuciones (pues estas resultan no depender del valor etodos de concreto Z sobre el que se condiciona). Por lo tanto, los mencionado m Inferencia conducen a las mismas conclusiones, bien se afronten desde el modelo de on, o sea, con X Regresi on, es decir, con X ja, bien desde el modelo de Correlaci actica, no supone problema alguno considerar, como en aleatoria3 . Por ello, en la pr el estudio 1, un modelo de Regresi on cuando no parece veros mil que las valores de las variables explicativas hayan sido jado de antemano. La principal ventaja del Modelo de Correlaci on estriba en que permite intercambiar las variables respuestas con las explicativas y realizar inferencias estad sticas acerca de los diversos coecientes de correlaci on (simples, m ultiples, can onicos y parciales). Adem as, un Modelo de Regresi on Lineal en sentido estricto es poco factible con un numero elevado de variables explicativas, pues se trata de tomar, para cada valor concreto de las mismas, una muestra de la variable respuesta. Sin embargo, el hecho de controlar las variables explicativas, como en el Modelo de Regresi on puro, evita la presencia de valores extremos potencialmente inuyentes y permite contrastar por separado los supuestos del modelo.
3 No obstante, veremos que existen ciertos matices que los diferencian, referentes u nicamente a la justicaci on te orica de los mismos.

MODELOS LINEALES
1.2. FORMALIZACION 21

An alisis de la varianza
El tercer problema corresponde a lo que se denomina un Dise no Completamente Aleatorizado del An alisis de la Varianza. En esta ocasi on, se toman 30 mediciones, que se supondr an independientes, de una variable respuesta y , 10 de ellas en cada uno de los tres grupos considerados (A, B y Placebo). El objeto del estudio es decidir si el uso de los medicamentos afectan a la distribuci on de la variable y (porcentaje de descenso de la presi on arterial) y en qu e sentido. En principio tendremos tres muestras, que supondremos aleatorias simples, todas ellas de tama no 10, correspondientes a sendas distribuciones reales, de medias i , i = 1, 2, 3, respectivamente. Se denondice i, con valores entre 1, 2 y 3, hace referencia al tar an mediante Yij , donde el sub medicamento (A, B y Placebo, respectivamente), mientras que j, entre 1 y 10, hace referencia al individuo en s . Denimos entonces los errores ij = Yij i . Veamos entonces c omo expresamos el modelo. an los vectores de Rm cuyas En primer lugar, para cada m N, 1m y 0m denotar componentes son todas iguales a 1 y 0, respectivamente. En ese caso, se denen 110 v1 = 010 , 010 010 v2 = 110 , 010 010 v3 = 010 110

De esta forma, si Y y E denotan los vectores de dimensi on 30 que se obtiene componiendo ordenadamente las variables de la forma Yij y ij , se tiene entonces que Y =
3 i=1

i vi + E .

Si asumimos que los errores se distribuyen seg un un modelo normal con varianza com un 2 , se verica que E N30 (0, 2 Id). As pues, el modelo puede expresarse mediante Y N30 (, 2 Id),

Manuales Uex 21

donde puede ser cualquier vector del subespacio V de R30 generado por v1 , v2 y v3 , umero positivo. El hecho de suponer normalidad e igualdad de las y 2 cualquier n varianzas (homocedasticidad) simplica sensiblemente el modelo. Pero adem as, bajo estos supuestos, la igualdad de las seis distribuciones consideradas se corresponde con la igualdad de las medias, es decir, que el contraste de hip otesis principal es un contraste de medias. Concretamente, queremos saber si el par ametro pertenece al subespacio de W generado por el vector 130 . La igualdad entre, por ejemplo, las dos primeras distribuciones (es decir, entre los medicamentos A y B), se corresponde con

jess montanero fernndez


22 CAP ITULO 1. EJEMPLOS Y DISCUSION

la hip otesis v1 + v2 . En general, estudiaremos contrastes del tipo W, siendo W un subespacio de V . A continuaci on, esclareceremos la relaci on existente entre los modelos de Regresi on y de An alisis de la Varianza. Consideramos en el problema 1 el subespacio de R45 generado por las columnas de la matriz X, de dimensi on 6, y reparametricemos el otese que existe una correspondencia experimento estad stico mediante = X . N biun voca entre y dado que X es de rango completo. Podemos decir que el vector R6 se compone de las coordenadas de la media de Y respecto de la base X. De esta forma, el modelo de Regresi on puede expresarse mediante Y N45 (, 2 Id), donde puede ser cualquier valor del subespacio V = X, y 2 cualquier n umero positivo. Es decir, que no existe diferencia formal entre ambos estudios. Rec procamente, la familia de distribuciones considerarada en el modelo de An alisis de la Varianza (problema 3) puede expresarse mediante coecientes de regresi on. Efectivamente, si en el tercer estudio denimos la matriz

X = (130 |v1 |v2 )

(1.1)

esta posee termino independiente y es tal que V = X. Deniendo como las coordenadas de respecto de la base X tendremos Y N30 (X, 2 Id). (1.2)

Adem as, la hip otesis de igualdad de medias se traduce en la nulidad de los coecienermino tes de regresi on correspondientes a los vectores v1 y v2 (todos salvo el del t nan el mismo independiente). Los vectores v1 y v2 que hemos construido desempe papel que las observaciones de las variables explicativas en Regresi on, e indican u nicamente a qu e grupo pertenece cada individuo: un valor (1,0) indica que el paciente se ha tratado con el medicamento A, (0,1) corresponde a B y (0,0) al placebo. Estas columnas se denominar an observaciones de las variables cticias. As pues, un problema de an alisis de la varianza (comparaci on de grupos) puede entenderse como un caso de regresi on respecto a variables cticias4

An alisis de la covarianza

Manuales Uex 22

El cuarto estudio es una mezcla entre los problemas de relaci on entre variables (peso y altura) y de diferenciaci on de grupos (contexturas). El objetivo en nuestro
4 El hecho de que la variable respuesta no sea explicada por las variables cticias (de asignaci on a grupo) equivale a que los grupos no se diferencias en la variable respuesta.

MODELOS LINEALES
1.2. FORMALIZACION 23

caso es establecer una relaci on diferente para cada contextura. En otras ocasiones se trata de un problema de comparaci on de grupos en el que se introduce una variable adicional que funciona como explicativa para controlar una posible fuente de variabilidad de la variable respuesta, de manera que queden m as patentes las diferencias de los grupos respecto de la misma. En todo caso, la variable que act ua como explicativa se denomina covariable, mientras que la distingue entre grupos se denomina factor. Cuando el modelo cuenta exclusivamente con covariables se denomina modelo de regresi on; cuando cuenta exclusivamente con factores se denomina de an alisis de la varianza; cuando se mezclan factores y covariables, como es este caso, se denomina an alisis de la covarianza. Consideraremos el peso como variable respuesta y y la estatura como covariable z . Podemos descomponer el vector Y de manera an aloga al estudio anterior. Lo mismo podemos hacer con la covariable Z (en este caso se trata de un vector, aunque pudiera ser perfectamente una matriz). Tambi en podemos construir de igual forma los vectores v1 , v2 y v3 . Supondremos que, para cada contextura, tenemos un modelo de Regresi on lineal entre, todos independientes y con la misma varianza, es decir, que cada Yij se expresa de la forma Yij = 0i + 1i Zij + ij , ij N (0, 2 )

otese que, si el signo * denota el producto siendo todos los errores ij independientes. N de dos vectores componente a componente y consideramos el subespacio lineal V de R30 generado de la forma V = v1 , v2 , v3 , v1 Z, v2 Z, v3 Z entonces, el modelo puede expresarse mediante Y N30 (, 2 Id), umero positivo. Consideremos donde es cualquier vector de V y 2 cualquier n entonces la base de V

X = (130 | Z | v1 | v2 | v1 Z | v2 Z )
y sea el vector de coordenadas de respecto de X. De esta manera, el modelo puede expresarse tambi en mediante

umero positivo. Como vemos, posiendo cualquier vector de R6 y 2 cualquier n demos considerar nuevamente un modelo de Regresi on Lineal con un t ermino independiente, una variable explicativa denominada covariable, dos variables cticias de

Manuales Uex 23

Y N30 (X, 2 Id),

jess montanero fernndez


24 CAP ITULO 1. EJEMPLOS Y DISCUSION

asignaci on a grupo y los productos de estas con la covariable. Los coecientes de estos ultimos se denominan interacciones. Veamos el porqu e: si se denota = (, , 1 , 2 , 1 , 2 ) tenemos las siguientes correspondencias 1 2 1 2 = = = = = = 03 13 01 03 02 03 11 13 21 23

Por lo tanto, que las interacciones 1 y 2 sean nulas equivale a que las pendientes de las tres rectas sean id enticas, es decir, que la relaci on entre el incremento de la estatura y el del peso es la misma para las tres contexturas. En t erminos estad sticos diremos que peso y contextura no interaccionan mutuamente. La aceptaci on de dicha hip otesis (perfectamente contrastable en nuestro modelo) conducir a a un nuevo modelo m as simple en el que se considerar an s olo las cuatro primeras columnas de X. En dicho modelo sin interacci on, cada observaci on Yij se expresa mediante Yij = 0i + Zij + ij, ij N (0, 2 ),

siendo los errores ij independientes, y en el mismo puede contrastarse la hip otesis inical H0 : 1 = 2 = 0 5 Su veracidad equivale a la igualdad de las tres rectas. Por contra, su falsedad quiere decir que, dado un valor concreto de la covariable estatura, tenemos, por t ermino medio, distintos pesos en funci on de la contextura.

Rango completo o rango no completo?


Vamos a formalizar el tercer problema de una forma diferente. Supongamos que cada observaci on Yij descompone de la forma

Manuales Uex

Yij = + i + ij

(1.3)

5 Esta hip otesis puede contrastarse tambi en en el modelo general, pero es aqu , en el modelo reducido, donde goza de mayor inter es, seg un se ve a continuaci on.

24

MODELOS LINEALES
1.2. FORMALIZACION 25

ametros tienen donde ij N (0, 2 ) y son independientes. Se supone que estos par una signicado muy claro para nosotros: el par ametro representa aquello que tienen en com un los tres medicamentos; el par ametro 1 expresa la inuencia particular que ejerce el medicamento A sobre la variable respuesta; lo mismo puede decirse de 2 y on con los medicamentos B y C , respectivamente; lo dicho hasta ahora 3 en relaci afecta exclusivamente a las medias, pues se supone que para cada medicamento existe una variabilidad de la respuesta explicada por el azar y cuanticada por 2 , que es id entica en los tres casos. Desde el punto de vista formal, si se denota = (, 1 , 2 , 3 ) , el modelo considerado es Y Nn (X, 2 Id) donde 110 110 010 010 X = 110 010 110 010 110 010 010 110

Manuales Uex 25

Respecto al modelo considerado en (4.13), la u nica diferencia estriba en un cambio en el par ametro. Efectivamente, mientras que en el caso anterior el vector estaba compuesto por las coordenadas de la media respecto a la base (1.1) de V , en esta ocasi on se trata de las coordenadas respecto a un nuevo sistema generador de V . Por lo tanto, si entendemos modelo estad stico seg un la denici on (9.31), se trata del mismo modelo que se consider o en (1.2). S olo si nos acogemos a la denici on de modelo estad stico que se expone en el cap tulo 7 podemos reconocer una diferencia formal entre ambos modelos. La particularidad de este radica en que la matriz X no es de rango completo, es decir, sus columnas no constituyen un sistema linealmente on v = Xb presenindependiente. En consecuencia, dado un vector v X, la ecuaci tar a innitas soluciones. En otras palabras, el par ametro no est a bien determinado y s olo podemos especicar una soluci on concreta si imponemos una restricci on adi o 3 = 0. Por cierto, que esta u ltima conducir a al cional, como puede ser i i = 0 mismo modelo considerado en (1.1). La distinci on entre modelo de rango completo y modelo de rango no completo es muy sutil, por no decir inexistente. En todo caso, cualquier modelo de rango no completo se convierte en autom aticamente en otro de rango completo cuando se imponen las oportunas restricciones. Podr a decirse que dicha imposici on conlleva una p erdida de generalidad. No obstante en el modelo de rango no completo se parte, como hemos dicho, de una matriz X cuyas columnas pueden ser en principio, linealmente dependientes, de ah que se requiera del uso de inversas generalizadas para resolver un sistema de ecuaciones denominadas normales, lo cual introduce una sensible

jess montanero fernndez


26 CAP ITULO 1. EJEMPLOS Y DISCUSION

Manuales Uex

complicaci on en la teor a. Ello no deber a ser obice para nosotros, dado los instrumentos de los que disponemos. No obstante, las soluciones a las ecuaciones normales constituyen una subvariedad af n, por lo cual, aunque se prescinde de restricciones previas sobre los par ametros del modelo, es necesaria la imposici on de restricciones posteriores arbitrarias para encontrar una soluci on particular a dichas ecuaciones. La diferencia no es pues de tipo formal sino de enfoque: cuando se plantea un modelo del tipo (1.3) sin ninguna restricci on de los par ametros centramos nuestro inter es en el signicado intuitivo de los mismos y nos abandonamos, por as decirlo, a un algoritmo preestablecido para la obtenci on de soluciones concretas. El otro punto de vista se basa en tener claro a qu e subespacio V pertenece la media pues es s olo un par ametro contingente que expresa las coordenadas de respecto a cierta base X y que, en consecuencia, debe vericar de antemano una serie de restricciones de tipo lineal. Searle (1971) y Seber (1977), por citar referencias cl asicas de sobras conocidas, entienden el Modelo Lineal desde el primer punto de vista, mientras que un claro exponente de la segunda visi on es, sin duda, Arnold (1981). Estas dos tendencias no son contradictorias pero utilizan, como vemos, t ecnicas aparentemente distintas. A nuestro entender, el uso de coordenadas tiene a su favor que proporciona algoritmos precisos a la hora de implementar los distintos m etodos. Efectivamente, nosotros podemos entender perfectamente el concepto de subespacio lineal y sabemos que este puede caracterizarse mediante una base o sistema generador, una matriz en denitiva. Pero s olo esto u ltimo es lo que, hablando coloquialmente, puede entender un ordenador. Se trata de un distinci on que, lejos de ser ser de ndole te orica, tiene un car acter eminentemente pr actico. Otro punto a su favor podr a ser una m as que discutible ganancia en generalidad, dado que al no suponer que X sea de rango completo aspira a resolver cualquier ecuaci on lineal planteada en un contexto estad stico, lo cual permite afrontar como casos particulares los an alisis de regresi on, de la varianza y de la covarianza. El planteamiento basado en V o en una base de V (con rango completo), asume cierta p erdida de generalidad para afrontar u nicamente los an alisis estad sticos anteriormente mencionados. Aqu , el uso de una herramienta fundamental del Algebra Lineal, como es la proyecci on ortogonal sobre V , permite establecer una teor a muy elegante y facilita una justicaci on profunda de los estimadores y tests de hip otesis obtenidos. Sin embargo, desde este punto de vista no pueden afrontarse modelos como (1.3) sin preocuparse de imponer previamente, ni problemas de regresi on lineal donde el n umero de variables explicativas sea mayor que el n umero de individuos analizados, aunque conviene recalcar que esta situaciones no resulta en absoluto desable6 .
6

Un problema de regresi on con un demasiadas variables explicativas convendr a afrontarlo me-

26

MODELOS LINEALES
1.2. FORMALIZACION 27

No obstante, un clara deciencia del punto de vista de en Arnold(1981) podr a quedar patente en algunos casos complejos del an alisis de la varianza. Efectivamente, en estos estudios, es el par ametro en s y no la media de la distribuci on lo que realmente interesa, pues el primero permite aislar las inuencias que los distintos factores tienen en la segunda. El par ametro se dene como la soluci on a un sistema de ecuaciones lineales no determinado, por lo que se precisa de la imposici on de una serie de restricciones, como ya hemos dicho. No obstante, en el caso equilibrado vienen dadas de manera natural, lo cual conduce a un modelo de rango completo. Sin embargo, en los dise nos no equilibrados con varios factores, no existen a priori argumentos para imponer una familia concreta de restricciones, de ah que pueda resultar m as coherente enfocar estos dise nos desde un punto de vista m as general: el Modelo Lineal Normal de Rango no Completo. As pues, hemos de decantarnos por la generalidad de planteamiento con coordenadas o por la elegancia del planteamiento sin coordenadas. Desde nuestro punto de vista, entendemos que la ganancia en generalidad del primer planteamiento es exigua en relaci on con la complicaci on que conlleva. El Modelo Lineal, seg un se entiende en Arnold (1981), es, en nuestra opini on, una de las teor as m as redondas que a de los pueden encontrarse en la Estad stica cl asica7 y permite resolver la mayor problemas lineales que se plantean en la pr actica (regresi on-correlaci on, an alisis de la varianza y covarianza). Decimos esto teniendo en cuenta lo siguiente: primeramente, se puede considerar natural el imponer que un dise no de an alisis de la varianza sea equilibrado, en cuyo caso disponemos de una soluci on directa del problema a partir de una serie de restricciones naturales; segundo, aunque en dise nos no equilibrados se exige la imposici on previa de restricciones articiales sobre los par ametros, parametrizar el modelo mediante una matriz de rango no completo exigir a igualmente la imposici on de restricciones articiales, aunque en una fase posterior; tercero, resulta tambi en razonable que el n umero de variables explicativas en un modelo de regresi on-correlaci on sea menor que el n umero de unidades experimentales utilizadas en el estudio. Por ello, consideramos Arnold (1981) como referencia principal. No obstante, aunque haya quedado relegado a un segundo plano por las razones expuestas, dedicaremos un cap tulo al denominado Modelo Lineal de Rango no Completo, para que el lector pueda valorar por s mismo los argumentos expuestos anteriormente y optar por el procedimiento que considere oportuno.

diante t ecnicas de an alisis de datos funcionales (Ferraty, Vieu (2006)). 7 Enti endase la distinci on entre Probabilidad y Estad stica.

Manuales Uex 27

jess montanero fernndez


28 CAP ITULO 1. EJEMPLOS Y DISCUSION

1.3.

Conclusi on

A partir de todo lo dicho anteriormente, concluimos que los problemas de regresi on y an alisis de la varianza y covarianza, ya sea con rango completo o no completo, se formalizan mediante un mismo modelo que coincide, a su vez, con el modelo que se obtiene al condicionar sobre las variables explicativas en el modelo de Correlaci on. Ese modelo al que nos estamos reriendo se denomina Modelo Lineal Normal, y viene dado por un vector aleatorio n-dimensional, Y que sigue una distribuci on Nn (, 2 Id). Cuando no se suponga la normalidad, hablaremos de Modelo Lineal (a secas). No se se impone una condici on de establece ninguna restricci on para la varianza 2 , pero s tipo lineal a la media: que pertenezca a un subespacio lineal V de Rn . Si X denota una matriz cuyas columnas constituyen un sistema generador de V , para cada V existir a alg un vector tal que = X. En el caso de que X sea de rango completo, ametro ser au nico. Por ello, dada X, el modelo puede expresarse con la ayuda del par en lugar de . El estudio de este modelo desde el punto de vista te orico es el objeto del cap tulo 3. Posteriormente se aplicar an los resultados obtenidos a los diferentes problemas que formaliza.

Manuales Uex 28

Cap tulo 2 Distribuci on Normal Multivariante


En este cap tulo abordamos el estudio de una distribuci on que que viene a generalizar la conocida distribuci on normal unidimensional y que, por ende, desempe na un papel central en estad stica multivariante . Se har a especial hincapi e en la estrecha relaci on existente entre la normalidad y la linealidad, hip otesis fundamentales en nuestra teor a. Precisamente por ser el punto de partida del Modelo Lineal Normal, se estudiar a con especial atenci on la distribuci on normal multivariante esf erica, as co2 mo otras distribuciones obtenidas a partir de la misma, como son la , F -Senedecor, t-Student o Beta. Recordamos que la correcta compresi on de este cap tulo exige el conocimiento de diversas deniciones y resultados que se hayan en el Ap endice. Al nal del cap tulo se incluyen una serie de problemas referentes tanto a los contenidos del mismo como del mencionado Ap endice.

2.1.

Denici on y principales propiedades

Dados un vector Rn y una matriz Mnn sim etrica y semidenida positiva, on se dice que un vector aleatorio Y : (, A, P ) Rn sigue un modelo de distribuci normal n-variante con media y matriz de covarianzas (se denota Y Nn (, )) cuando su correspondiente funci on caracter stica es la siguiente 1 Y (t) = exp it t t , 2 t Rn .

Un vector de este tipo puede construirse expl citamente como sigue: si diagonaliza seg un el teorema 9.4 mediante = , 29

Manuales Uex 29

jess montanero fernndez


30 NORMAL MULTIVARIANTE CAP ITULO 2. DISTRIBUCION

consideramos Zi , i = 1, . . . , n, independientes y con distribuciones normales de media 2 , respectivamente. Si Z denota 0 y varianza el elemento i- esimo de la diagonal de , i el vector aleatorio (Z1 , . . . , Zn ) , se tiene entonces que Y = + Z sigue la distribuci on deseada. Efectivamente, se verica n n 1 2 N (0,i2 ) (ti ) = exp t2 Z (t) = 2 i i i=1 i=1 1 = exp t t . 2 Luego, 1 Y (t) = exp{it }Z ( t) = exp it t t 2 1 = exp it t t . 2 Dado que E[Z ] = 0 y Cov[Z ] = , se sigue de (9.11) que una distribuci on Nn (, ) tiene por media y por matriz de varianzas-covarianzas . Tambi en es inmediato comprobar que presenta la siguiente funci on generatriz, bien denida en todo Rn : 1 gY (t) = exp t t t , t Rn . 2 En consecuencia, existen los momentos de cualquier orden de la distribuci on, que pueden calcularse mediante las sucesivas derivadas parciales de g en 0. Es bien conocido que la normalidad en dimensi on 1 se conserva ante transformaciones anes, es decir, que si a una distribuci on normal se le aplica una homotecia y una traslaci on, la distribuci on resultante sigue siendo normal. Operando con las funciones caracter sticas podemos obtener de manera trivial el siguiente resultado que generaliza al anterior en el caso multivariante. (2.1)

Proposici on 2.1.
Dados Y : (, A, P ) Rn , tal que Y Nn (, ), A Mnm y b Rm , se verica AY + b Nm (A + b, AA ). De la proposici on 2.1 se deduce que las n componentes de una normal n-variante son todas normales. Sin embargo, no podemos garantizar, en general, que n componentes normales conguren conjuntamente un vector n-normal, cosa que si sucede si

Manuales Uex 30

MODELOS LINEALES
Y PRINCIPALES PROPIEDADES 2.1. DEFINICION 31

las componentes son independientes. M as adelante veremos un curioso contraejemplo. El siguiente resultado supone una interesante caracterizaci on de la distribuci on normal multivariante.

Proposici on 2.2.
Un vector aleatorio n-dimensional Y de media y matriz de varianzas-covarianzas sigue on una distribuci on n-normal si y s olo si la variable aleatoria real u X sigue una distribuci N (u , u u), para cada u Rn \{0}. Demostraci on. on normal unidimensional, para cada u Supongamos que u Y sigue una distribuci Rn \{0}, y sea t Rn . Entonces 1 Y (t) = t Y (1) = N (t ,t t) (1) = exp it t t , 2 con lo cual acaba la prueba. Queremos decir, por lo tanto, que la distribuci on es n-normal cuando al proyectar on 1. Por otra parte, sobre cualquier direcci on de Rn obtenemos una normal en dimensi el siguiente resultado garantiza la equivalencia entre incorrelaci on e independencia bajo la hip otesis de normalidad multivariante.

Proposici on 2.3.
Si Y = (Y1 Y2 ) sigue un modelo de distribuci on normal en dimensi on n1 + n2 y 12 = 0, entonces Y1 e Y2 son independientes. Demostraci on. on caracEfectivamente, supongamos que Y1 e Y2 son incorreladas. Entonces, la funci ter stica de Y es la siguiente 1 11 0 t1 t1 Y = exp i(t1 E[Y1 ] + t2 E[Y2 ]) (t1 , t2 ) t2 t2 0 22 2 = Y1 (t1 ) Y2 (t2 ). Teniendo en cuenta las propiedades fundamentales de la funci on caracter stica, se acaba la prueba. N otese que esta propiedad puede extenderse trivialmente a cualquier colecci on (no necesariamente dos) de subvectores de un vector aleatorio normal multivariante,

Manuales Uex 31

jess montanero fernndez


32 NORMAL MULTIVARIANTE CAP ITULO 2. DISTRIBUCION

en particular, a cualquier subconjunto de componentes del mismo. Queremos decir lo siguiente: si Yn(1) , . . . , Yn(k) son componentes incorreladas de un vector n-normal, entonces son tambi en independientes. Con frecuencia suele suponerse que la matriz de covarianzas de la normal es estrictamente denida positiva, es decir, no singular. En caso contrario se dice que la a connormal es degenerada, es decir, que est a sobredimensionada1 . En ese caso, estar tenida en una subvariedad af n de dimensi on n 1, por lo que no estar a dominada a sentido hablar por la medida de Lebesgue en Rn . En el caso no degenerado, tendr de su densidad respecto a dicha medida.

Proposici on 2.4.
Si Y Nn (, ) con > 0, entonces admite la siguiente densidad respecto a la medida de Lebesgue: 1 1 (2.2) exp (y ) 1 (y ) , y Rn . f (y) = 2 (2 )n || Demostraci on. Consideremos una construcci on del tipo (2.1). En ese caso, el vector aleatorio Z admite una funci on de densidad fZ respecto a la medida de Lebesgue al ser sus componentes independientes. Concretamente2 , fZ (z) =
n i=1

fZi (zi ) =

Por otra parte, si consideramos la transformaci on

1 1 zi = exp 2 (2 )n/2 n 2 i i=1 i 1 1 exp z 1 z . = 2 (2)n ||

n i=1

fN (0,i2 ) (zi )

: y Rn (y ) Rn , on cuyo jacobiano es , se sigue del Teorema del Cambio de Variables3 que la funci de densidad de Y es fY (y) = | |fZ ((y)), y Rn .
1 El objetivo del an alisis de componentes principales es, precisamente, encontrar la manera de dar a la distribuci on su verdadera dimensi on. 2 N otese que, al ser rg() = rg(), i > 0 para todo i = 1, . . . , n. 3 Podemos encontrar una versi on en Billingsley (1986), Th. 17.2.

Manuales Uex 32

MODELOS LINEALES
2.2. NORMALIDAD Y LINEALIDAD 33

Teniendo en cuenta que | | = 1 y || = ||, se tiene entonces 1 1 1 exp (y ) (y ) f( y) = 2 (2)n || 1 1 1 exp (y ) (y ) . = 2 (2)n || El siguiente gr aco presenta una muestra aleatoria simple de tama no 398 de un un un modelo 2-normal. vector aleatorio (N 1, N 2) distribuido seg

2.2.

Normalidad y Linealidad

Manuales Uex 33

La siguiente propiedad establece una clara conexi on entre los supuestos de normalidad y linealidad, arrojando luz sobre los modelos de Regresi on y Correlaci on. Consideremos dos vectores aleatorios Y1 e Y2 , de dimensiones n1 y n2 , respectivamente. Construiremos una versi on de la probabilidad condicional regular de Y1 dado Y2 . bajo la hip otesis de (n1 + n2 )-normalidad no degenerada de Y = (Y1 , Y2 ) . Supongamos que media y matriz de varianzas-covarianzas de Y descompone seg un (9.12) y otese consideremos loa par ametros , y 112 denidos en (9.25), (9.26) y (9.14). N que, en virtud del lema 9.7 y al ser > 0, tiene sentido hablar de e 112 y es denida positiva.

jess montanero fernndez


34 NORMAL MULTIVARIANTE CAP ITULO 2. DISTRIBUCION

Proposici on 2.5.
En las condiciones anteriores, se verica P Y1 |Y2 =y2 = Nn1 ( + y2 , 112 ), y2 Rn2 .

Demostraci on. Consideremos la trasformaci on y1 Id y1 : Rn1 +n2 Rn1 +n2 , y2 y2 0 Id cuyo jacobiano tiene por determinate 1. El Teorema del Cambio de Variables permite expresar la funci on de densidad de Y a partir de la de Y mediante fY (y) = fY ((y)). Si descomponemos en dos en de acuerdo con las dimensiones de Y1 e Y2 , se obtiene 1 2 Nn1 +n2 2 112 0 , . 0 Id

un (9.28) Dado que la densidad de la distribuci on condicional P Y1 |Y2 =y2 se obtiene, seg mediante fY (y1 , y2 ) , fY1 |Y2 =y2 (y1 ) = fY2 (y2 ) se sigue de lo anterior que fY1 |Y2 =y2 (y1 ) = f1 (1 (y1 )) 1 1 1 = exp (y1 y2 ) 112 (y1 y2 ) , 2 (2 )n |112 |

Luego, se sigue de las proposiciones 2.1 y 2.3 que 2 sigue el mismo modelo de distribuci on que Y2 y es independiente de 1 . Por lo tanto, la densidad de descompone en f (1 , 2 ) = f1 (1 ) f2 (2 ) (1 , 2 ) Rn1 Rn2 .

Manuales Uex 34

con lo cual acaba la demostraci on.

El siguiente gr aco ilustra el resultado anterior. La l nea recta se aproximar a, dado que estamos trabajando con una muestra, a las esperanza condicional.

MODELOS LINEALES
2.2. NORMALIDAD Y LINEALIDAD 35

Podemos ir incluso algo m as lejos. Para poder seguir la siguiente demostraci on se necesita tener presentes las propiedades fundamentales de la Esperanza Condicional.

Proposici on 2.6.
En las condiciones anteriores, se verica Y1 = + Y2 + E , donde E Nn1 (0, 112 ) y es independiente de Y2 . Demostraci on. Denamos E = Y1 ( + Y2 ). En ese caso, se verica, en virtud de (9.30), que g(,y2 ) P E|Y2 =y2 = P Y1 |Y2 =y2 , donde Luego, de la proposici on anterior se sigue que P E|Y2 =y2 = Nn1 (0, 112 ), g (, y2 ) : y1 Rn1 y1 ( + y2 ) Rn1 . y2 Rn2 .

Al no depender del valor de y2 se concluye que E es independiente de Y2 siendo su distribuci on marginal Nn1 (0, 112 ).

Manuales Uex 35

jess montanero fernndez


36 NORMAL MULTIVARIANTE CAP ITULO 2. DISTRIBUCION

As pues, entre dos vectores aleatorios que componen una distribuci on normal multivariante s olo es posible una relaci on lineal (o, mejor dicho, af n), salvo un error aleatorio independiente de media 0. Realmente, a esta conclusi on podr amos haber llegado s olo con tener en cuenta que, si Y sigue una distribuci on norma multivariante, olo si, son independientes, como se demuetra Y1 ( + Y2 ) es incorrelada con Y2 si, y s en el apartado del Ap endice dedicado al concepto de Esperanza Condicional. Todo esto puede ilustrarse mediante un interesante ejemplo: Ejemplo 2.1. Consideremos tres variables aleatorias reales Y1 , Y2 y X denidas sobre cierto espacio de probabilidad (, A, P ) y vericando las siguientes condiciones: (i) Y1 N (0, 1) (ii) X B (1, 0.5) (iii) Y1 y X son independientes. (iv) Y2 = (1)X Y1 Puede demostrarse sin dicultad que, en estas condiciones, Y2 N (0, 1) mientras que P (Y1 + Y2 = 0) = 0.5 luego, el vector aletorio (Y1 , Y2 ) no puede ser 2-normal. Por lo tanto, se sigue de la proposici on 2.1 que el vector aleatorio (Y1 , Y2 ) no es 2normal. Tenemos pues un ejemplo de vector aleatorio de componentes normales que, sin embargo, no es normal multivariante. Estas componentes no pueden ser por lo tanto independientes, cosa evidente en nuestro caso. De hecho, puede demostrarse sin on degenerada en un valor real z , entonces la dicultad que, si z denota la distribuci distribuci on condicional de Y1 dada Y2 puede expresarse mediante 1 P Y1 |Y2 =y2 (A) = (y2 + y2 ) 2 Basta pues aplicar (9.29) para demostrar que Y1 e Y2 son incorreladas. Tenemos pues un ejemplo de dos variables dependientes pero sin relaci on lineal. Por supuesto, ello s olo es posible si el vector que componen no es normal. En general, 112 , que es la matriz de varianzas-covarianzas de Y1 ( + Y2 ) o, lo que es lo mismo, de la distribuci on condicional de Y1 dado Y2 (no depende del valor endice matriz de varianzas-covarianzas concreto que tome Y2 ), se denomina en el Ap parciales de las componentes de Y1 dado Y2 , y se interpreta en este caso como la parte de la matriz de varianzas-covarianzas de Y1 no explicada por Y2 . Si se denota por Y1i ,

Manuales Uex 36

MODELOS LINEALES
2.3. NORMAL ESFERICA Y DISTRIBUCIONES RELACIONADAS 37

on 2.3, que i = 1, . . . , n1 , a las componentes de Y1 , se verica, en virtud de la proposici un valor nulo de la covarianza parcial de Y1i con Y1j dado Y2 equivale la independencia condicional ente Y1i e Y1j dado Y2 , y un valor nulo de la varianza parcial de Y1i dado Y2 supone una dependencia funcional de Y1i respecto a Y2 . Ello signica, hablando en t erminos intuitivos, que conociendo el resultado de Y2 , el de Y1i queda determinado sin margen alguno para el azar. En el caso n1 = 1, obtenemos Y1 = + Y2 + , donde
2 Seg un hemos dicho anteriormente, una varianza parcial 11 2 nula, equivale a una de2 on pendencia funcional de Y1 respecto a Y2 , y 12 puede interpretarse como la proporci de varianza de Y1 explicada por Y2 . 2 2 1 2 2 11 2 = 1 12 22 21 = 1 (1 12 ). 2 N (0, 11 2 ),

2.3.

Normal esf erica y distribuciones relacionadas

Volviendo a la expresi on (2.2), correspondiente a la densidad de una distribuci on normal multivariante no degenerada podemos apreciar que la densidad en el punto y depende exclusivamente de la distancia de Mahalanobis a la media de la distribuci on, es decir, 2 (y, ) = (y ) 1 (y ). En esas condiciones, el lugar geom etrico de los puntos con una misma densidad es un elipsoide, cuya centro coincide con la media y cuya forma viene determinada por la matriz de varianzas-covarianzas . Concretamente, los ejes del elipsoide quedan determinados por una base de autovectores de y su excentricidad por la relaci on existente entre los autovalores. De hecho, puede demostrarse que los elipsoides son esferas si y s olo si los autovalores de son id enticos, es decir, si es de la forma un 2 > 0, en cuyo caso, la densidad en y depender au nicamente del 2 Id, para alg 2 on, la distribuci on cuadrado de su distancia eucl dea a la media y . Por esa raz erica. Nn (, 2 Id) se denomina normal multivariante esf Esta ser a la distribuci on de partida en el Modelo Lineal Normal. De hecho, salvo a el u nico tipo de distribuci on normal multivariante a contad simas excepciones4 , ser estudiar en nuestra teor a. Su funci on de densidad es pues la siguiente 1 1 2 . (2.3) exp y fY (y) = (2 )n/2 2 2
4

. Concretamente, cuando se haga referencia a las distribuciones de los estimadores y

Manuales Uex 37

jess montanero fernndez


38 NORMAL MULTIVARIANTE CAP ITULO 2. DISTRIBUCION

De las proposiciones 2.1 y 2.3 se sigue sin dicultad que, dados un vector aleatorio Y n-normal esf erico y dos matrices A Mmn y B Mkn , los vectores AY y BY son independientes si y s olo si A B = 0. Como consecuencia inmediata se obtiene la siguiente proposici on.

Proposici on 2.7.
Si Y Nn (, 2 Id) y V1 , V2 son subespacios lineales de Rn ortogonales entre s , entonces PV1 Y y PV2 Y son independientes. La familia de distribuciones normales esf ericas (con restricciones de car acter lineal para la media) poseen excelentes propiedades estad sticas. En primer lugar, son familias exponenciales, por lo que la funci on de verosimilitud cumple con todas las condiciones de regularidad5 que puedan exigirse en diversos teoremas que mencionaremos en nuestra teor a; podremos obtener de manera muy sencilla un estad stico suciente y completo, lo cual har a posible una m axima reducci on por suciencia; son invariantes ante diversos grupos de transformaciones bimedibles, cosa que permitir a obtener profundas reducciones por invarianza6 , de una de las cuales resulta, por ejemplo, el test F; el Principio de M axima Verosimilitud ser a aqu de f acil aplicaci on, conduciendo a la obtenci on del Estimador de M axima Verosimilitud y el Test de la Raz on de Verosimilitudes, etc. Es especialmente llamativa la invarianza ante rotaciones que presenta cualquier distribuci on normal esf erica de media 0, hasta el punto de que esta propiedad est a cerca de caracterizar dicha distribuci on. Efectivamente, si On y Y Nn (0, 2 ), con on. En Bilodeau (1999) 2 > 0, entonces Y sigue exactamente la misma distribuci podemos encontrar la demostraci on de una especie de rec proco, debida a MaxwellHershell.

Proposici on 2.8.
Todo vector aleatorio n-dimensional con componentes independientes e invariante por rotaciones es n-normal esf erico de media 0. Concretamente, si Y1 denota la primera componente del mismo, el par ametro que caracteriza la distribuci on se obtiene mediante = ln Y1 (1). Por u ltimo, una propiedad de demostraci on trivial que ser a de utilidad en el 2 on es cierta para estudio de la distribuci on . Realmente, la tesis de la proposici cualquier distribuci on de media y matriz de varianzas-covarianzas 2 Id.
5 6

Manuales Uex

Continuidad, derivabilidad... Ver Ap endice.

38

MODELOS LINEALES
2.3. NORMAL ESFERICA Y DISTRIBUCIONES RELACIONADAS 39

Proposici on 2.9.

A continuaci on abordaremos un breve estudio de cuatro distribuciones directamente derivadas de la normal esf erica: 2 , F -Snedecor, Beta y t-Student. Un estudio m as detallado de las mismas con todas las demostraciones que quedar an pendientes puede encontrarse, por ejemplo, en Nogales (1998). En primer lugar, la distribuci on a denida sobre R+ mediante 2 central con n grados de libertad (se denota 2 n ) est la siguiente funci on de densidad7 gn (y) = [(n/2)2n/2 ]1 ey/2 y 2 1 I(0,+) (y).
n

Si Y Nn (, 2 Id), entonces E Y 2 = n 2 + 2 .

(2.4)

Puede probarse que tiene por media n y por varianza 2n. La distribuci on 2 no central con m grados de libertad y par ametro de no centralidad > 0 (se denota 2 m ()) se dene mediante la funci on de densidad
n=0

Pn ()g2n+1 (y),

e , n N. n! Se obtiene, por lo tanto, a partir de una composici on (producto generalizado) entre una distribuci on de Poisson en N y la familia de las distribuciones 2 n , cuando n recorre N. La distribuci on 2 central se corresponde con el caso = 0. En general, 1 Y 2 dado > 0, la expresi on Y 2 m () debe entenderse como n (). Puede demostrarse que, si Y1 , . . . , Yn son variables aleatorias reales independientes tales que Yi N (i , 2 ), i = 1, . . . , n, 2 > 0, Pn () = n entonces
2 n i=1

donde

Yi2

2 n

Recordemos previamente que la funci on () se dene mediante () = > 0.


7

x1 ex dx, donde

Manuales Uex 39

En otras palabras, considerar una colecci on de variables en esas condiciones equivale un Rn y 2 > 0, y a considerar un vector aleatorio Y Nn (, 2 Id), para alg estamos armando que 2 Y 2 2 2 . n 2

n i=1

2 i

jess montanero fernndez


40 NORMAL MULTIVARIANTE CAP ITULO 2. DISTRIBUCION

on del En consecuencia, debemos entender el modelo 2 no central como la distribuci cuadrado de la distancia eucl dea al origen de un vector aleatorio normal esf erico. La norma eucl dea al cuadrado es una funci on positiva de gran importancia en nuestra teor a, debida fundamentalmente a su presencia en la funci on de densidad (2.3). De hecho, ya comentamos que la densidad depende de y a trav es del cuadrado de su distancia eucl dea a la media. Ello se traducir a en el uso de esta funci on y, en ametro 2 , de reducir por consecuencia, del modelo 2 , a la hora de estimar el par suciencia y, tambi en, cuando se efect ue una reducci on por invarianza respecto al grupo de las rotaciones, seg un se sigue del teorema 9.12. Hemos armado que el modelo 2 no central surge de la necesidad de considerar la norma eucl dea de un vector normal esf erico. No obstante, podemos generalizar un poco m as. Si E es un subespacio vectorial de Rn y es una base ortonormal del mismo, se verica trivialmente que PE Y 2 = Y 2 y que PE 2 = 2 . Por lo tanto, se tiene PE 2 PE Y 2 2 2 . (2.5) dimE 2 As pues, el grado de libertad de la distribuci on coincide con la dimensi on del subespacio. Obtendremos una 2 central cuando E[Y ] sea ortogonal al subespacio sobre el cual se proyecta Y . Por lo tanto y en general, se sigue de lo anterior junto con la proposici on 2.9, que la media de una distribuci on 2 no central se obtiene mediante 2 = m 2 + . (2.6) E 2 2 m / Dadas dos variables aleatorias reales X1 y X2 , positivas e independientes, con 2 on distribuciones 2 n (), siendo 0, y m , respectivamente, se dene la distribuci F -Snedecor no central con (n, m) grados de libertad y par ametro de no centralidad (de denota por Fn,m ()), como la que corresponde a la variable (n1 X1 )/(m1 X2 ). Puede demostrarse que su funci on de densidad es la siguiente: n n 1+k y 2 n k ck m n+m +k I(0,+) (y), (2.7) fn,m, (y) = e m k! 1 + n y 2 k=0
m

donde 00 se entiende como 1 y

La distribuci on Fn,m (0) se denomina F -Snedecor central con (n, m) grados de libertad, on de densidad es pues la siguiente: y se denota por Fn,m . Su funci m n m n n 2 m 2 n+ y 2 1 2 fn,m (y) = n+m I(0,+) (y). n n (ny + m) 2 2 2

Manuales Uex

1 (n + m) + k 2 , ck = 1 2n + k 1 m 2

k N.

40

MODELOS LINEALES
2.3. NORMAL ESFERICA Y DISTRIBUCIONES RELACIONADAS 41

En nuestro caso, si Y Nn (, 2 Id) y dados dos subespacios ortogonales V1 , V2 Rn tales que V2 , se verica que dimV 2 PV1 Y 2 PV1 2 FdimV 1 ,dimV 2 . (2.8) dimV 1 PV2 Y 2 2 As pues, la distribuci on F de Snedecor resulta de relacionar las distancias al origen de dos proyecciones sobre sendos subespacio ortogonales. Si V1 V2 tendremos una distribuci on F central. Una operaci on de este tipo surgir a al reducir por invarianza en el proceso de obtenci on del test F. Otras distribuciones ntimamente relacionadas con la F -Snedecor central son la Beta y la t-Student. La distribuci on Beta de par ametros , > 0, que se denotar a por B (, ), se dene mediante la funci on de densidad8 f, (y) = B(, )1 y1 (1 y) 1 I(0,1) (y). Se trata pues de una distribuci on sobre el intervalo (0, 1). Presenta un estrecha relaci on con la distribuci on F -Snedecor central. Concretamente, se verica m n n 1 . (2.9) X F (n, m) 1 + X B , m 2 2 La distribuci on t de student central con n grados de libertad (se denota por tn ) es la que corresponde al cociente X1 / X2 /n, donde X1 N (0, 1) y X2 2 n , siendo ambas independientes. Su densidad es la siguiente: n+1 2 fn (y) = n+1 . n y2 2 n 2 1 + n

2 (R+ , R+ { 2 2 n : > 0}),


8

(R+ , R+ {Fn,m () : 0})


1
0

Recordar que la funci on B se dene mediante B(, ) =

x1 (1 x) 1 dx, donde , > 0.

Manuales Uex 41

on F -Snedecor La distribuci on tn puede considerarse un caso particular de la distribuci nica distribuci on sim etrica cuyo cuadrado central, concretamente F1,n dado que es la u es una F1,n . En ese sentido decimos que t2 n = F1,n . Por u ltimo, comentaremos dos resultados de car acter estad stico acerca de la las 2 an de utilidad familias de distribuciones central y F -Snedecor no central, que ser en las secciones 2.2 y 2.3. En el apartado del ap endice dedicado a los contrastes de hip otesis se dene el concepto experimento estad stico con raz on de verosimilitudes mon otona. Puede demostrarse f acilmente, teniendo en cuenta (2.4) y (2.7), que los experimentos estad sticos

jess montanero fernndez


42 NORMAL MULTIVARIANTE CAP ITULO 2. DISTRIBUCION

presentan raz on de verosimilitudes mon otona. Ello se traduce en que, en todos los casos, las colas de las distribuciones no centrales pesan m as que las de las centrales. Dado que las centrales se corresponder an con la hip otesis nula y las no centrales con la alternativa, los tests que plantearemos para resolver nuestros contrastes consistir an en rechazar la hip otesis nula cuando la observaci on se halle en una cola.

Cuestiones propuestas.
1. Demostrar que rg(AB ) m n{rg(A), rg(B )}, y que si A es invertible, entonces rg(AB ) = rg(B ). 2. Demostrar el corolario 9.5 del Ap endice 3. Demostrar la proposici on 9.16 del Ap endice. 4. Probar que, si la mediana de una variable aleatoria integrable X est a bien denida, se trata de la constante k que minimiza la distancia |X k | dP .

on normal con vector de medias = 5. Sea X = (X1 , X2 , X3 ) tiene distribuci (1, 0, 1) y matriz de varianzas-covarianzas 1 0 1 = 0 4 0 . 1 0 3 Hallar: a ) La distribuci on marginal de X1 y la del vector (X1 , X2 )t . b ) La distribuci on condicional de X1 dado X2 = x2 , X3 = x3 . c ) Los coecientes de correlaci on 12 , 13 , 23

d ) La distribuci on de Z = 4X1 6X2 + X3 y la del vector (Z1 , Z2 ) siendo Z1 = 2X2 + X3 y Z2 = X1 3X2 + X3 . 6. Sea X = (X1 , X2 , X3 , X4 ) tiene distribuci on normal con vector de medias 2 1 0 1 1 1 1 0 2 1 = , = . 0 1 1 1 3 3 1 1 0 2 Hallar:

Manuales Uex 42

MODELOS LINEALES
2.3. NORMAL ESFERICA Y DISTRIBUCIONES RELACIONADAS a ) La distribuci on marginal de los vectores (X2 , X1 , X3 ) y (X1 , X4 ) . b ) La distribuci on condicional de (X1 , X4 ) dado X2 = x2 , X3 = x3 . c ) La distribuci on de Z = 2X1 6X3 + 4X4 y la del vector (Z1 , Z2 ) siendo Z1 = X1 3X4 + 4X2 y Z2 = X3 + 2X2 X1 + 2X4 . 7. Hallar la media de la distribuci on 2 on 2 n () y la varianza de la distribuci n.
2 8. Sean Q1 y Q2 independientes tales que Q1 2 n1 y Q2 n2 . Probar que Q1 + Q 2 2 n1 +n2 .

43

9. Demostrar que la matriz de covarianzas parciales muestral puede expresarse seg un (9.62). Comp arese dicha expresi on con la que aparece en (9.14). 10. Se ha denido la matriz de correlaciones parciales como la matriz de correlaciones correspondiente a la matriz de varianzas-covarianzas (9.14). Probar que, en el caso tridimensional, 123 = 1 2 13 12 13 23 . 1 2 23

Obtener una expresi on an aloga para el coeciente de correlaci on parcial muestral. 11. Demostrar (9.25). 12. Probar que, dados una variable aleatoria real Y1 y un vector aleatorio Y2 , el axima correlaci on lineal simple al coeciente de correlaci on m ultiple 2 12 es la m cuadrado entre Y1 y una variable aleatoria de la forma a + bY2 , que se alcanza en cualquier a R, y b = denido en (9.25). 13. Probar que los coecientes de correlaci on m ultiple probabil stico y muestral son invariantes ante traslaciones y cambios de escala (homotecias) 14. Probar que la matriz de covarianzas de las variables tipicadas coincide con la matriz de correlaciones. 15. Es bien conocido que dos vectores aleatorios X e Y son independientes si, y s olo si, para cada suceso A en la imagen de Y existe una versi on constante de P (Y A|X ), en cuyo caso coincidir a con P (Y A). Ello implica que la funci on constante E[Y ] es versi on de E[Y |X ], es decir, que la funci on de X que m as se aproxima a Y en el sentido L2 es la propia esperanza de Y . Probar mediante un

Manuales Uex 43

jess montanero fernndez


44 NORMAL MULTIVARIANTE CAP ITULO 2. DISTRIBUCION contraejemplo que el rec proco no es cierto, es decir, que podemos encontrar un par de variables aleatorias (reales, por ejemplo), tales que E[Y |X ] sea constante pero no sean independientes. 16. Indicar un ejemplo de dos variables aleatorias reales que presenten dependencia funcional pero cuyo coeciente de correlaci on sea tan peque no como se desee. 17. C omo interpretar el hecho de que dos variables aleatorias sean incorreladas? Y si se trata de dos vectores de Rn ? 18. Consid erese un vector aleatorio (X, Y, Z ) siguiendo un modelo de distribuci on 0 2 2 2 N3 0 , 2 4 0 0 2 0 4

Obtener la matriz de varianzas-covarianzas parciales de (Y, Z ) dada X . Demostrar entonces que, en general, la independencia entre dos variables Y y Z no implica la independencia condicional entre las mismas dada una tercera variable X . Cu al es en este ejemplo el coeciente de correlaci on lineal parcial entre Y y Z dada X ? C omo interpretamos ese hecho?

Manuales Uex 44

MODELOS LINEALES

Cap tulo 3 Modelo lineal de rango completo


En este cap tulo abordaremos el estudio del Modelo Lineal desde un punto de vista completamente te orico, atendiendo principalmente a los problemas de Estimaci on y Test de Hip otesis. Dado que algunas de las propiedades de los estimadores y tests de hip otesis son ciertas sin necesidad de asumir la normalidad de la familia de distribuciones, distinguiremos entre Modelo Lineal y Modelo Lineal Normal, seg un se incluya o no, respectivamente, dicho supuesto. Como indicamos en el cap tulo 1, abordaremos nuestra teor a considerando en principio el par ametro media. No obstante, el cap tulo 7 se dedicar a a un enfoque distinto del problema y del propio concepto de modelo estad stico, consistente en considerar como parte esencial del mismo un par ametro que es soluci on a un sistema de ecuaciones lineales que debe satisfacer la media, que viene pues dado por una matriz X, posiblemente de rango no completo. Es lo que se denomina, por lo tanto, modelo lineal de rango no completo. El t tulo de el cap tulo que abordamos aqu se ha escogido por su contraposici on a dicho planteamiento. El modelo a considerar fue comentado en el cap tulo 1, aunque lo especicaremos con m as detalle. Por u ltimo, recordamos que para entender lo que se expone en este cap tulo se precisa el conocer previamente buena parte del contenido del cap tulo a anterior y del ap endice. Un Modelo Lineal consiste en considerar, dados n N, y V un subespacio vectorial on menor que n, un vector aleatorio n-dimensional Y de manera de Rn de dimensi que E[Y ] pertenezca a V y que las componentes de Y E[Y ] sean independientes e id enticamente distribuidas seg un un modelo de probabilidad real PE con varianza nita. Podemos expresarlo as Y = + E, V,
2 2 E Pn E , E[PE ] = 0, var[PE ] = , > 0.

(3.1)

En esas condiciones, es la esperanza del vector aleatorio Y y 2 es la varianza de cada una des sus componentes. 45

Manuales Uex 45

jess montanero fernndez


46 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

a bien denida en Si suponemos que la funci on generatriz de momentos de PE est un entorno de 0, entonces existir an los momentos k de cualquier orden k N y, en ese caso, dichos momentos caracterizar an, junto con , la distribuci on. Entonces el modelo estad stico puede expresarse con la ayuda del siguiente par ametro en R RN = , (2 , 3 , 4 , ...) ,

El Modelo Lineal se dice Normal cuando se supone en (3.1) que PE es normal, es decir, (3.3) Y = + E , E Nn (0, 2 Id), V, 2 > 0. En ese caso, se da la particularidad de que los par ametros y 2 bastan para caracterizar las distribuciones consideradas. El Modelo (3.3) puede expresarse tambi en mediante V, 2 > 0. (3.4) Y Nn (, 2 Id), La distribuci on normal multivariante esf erica de media 0 goza de diversas propiedades que facilitar an enormemente nuestro estudio. Entre otras cosas, es, como ya comentamos en el cap tulo anterior, invariante ante cualquier rotaci on. Es m as: cualquier vector aleatorio n-dimensional de componentes independientes y media 0 es invariante por rotaciones si y s olo si es normal esf erico. Decimos esto teniendo en cuenta el papel que desempe na el Principio de Invarianza en nuestra teor a. Efectivamente, un argumento de invarianza ante rotaciones conduce a calcular el m odulo al cuadrado de un vector normal esf erico, es decir, a la distribuci on 2 . Igualmente, la invarianza ante homotecias nos impulsa considerar un cociente entre on F -Snedecor. De esta forma, mediante sudistribuciones 2 , es decir, una distribuci cesivas reducciones por invarianza, obtendremos el denominado test F, que ser a UMPinvariante. Si bien es lo m as com un justicar el test F mediante el Principio de M axima Verosimilitud, el hecho de ser uniformemente el m as potente entre los tests invariantes puede suponer, en este caso, un argumento m as poderoso, dado que, bajo ciertas conon de Verosimilitudes diciones de regularidad que aqu se cumplen1 , el Test de la Raz es siempre invariante. Respecto a los supuestos asumidos en el modelo, ya hemos discutido en la Introducci on sobre lo delicado del problema. De todas formas, la incorrelaci on de lo
1

con las restricciones V y k 0 para todo k par. Dado que 2 = 2 , el modelo puede expresarse tambi en mediante el par ametro = (, 2 ), 3 , 4 , . . . (3.2)

Manuales Uex

Lehmann (1986), pag. 341.

46

MODELOS LINEALES
3.1. ESTIMACION 47

errores puede ser analizada mediante el test de Rachas; el supuesto de homocedasticidad (igualdad de varianzas)puede ser contrastado mediante el test de Barlett (que estudiaremos en este cap tulo), que requiere del supuesto de normalidad junto con un dise no determinado del experimento estad stico; el de normalidad puede ser contrastado por diversos tests (Kolmogorov-Smirnov, Shappiro-Wilks, DAgostino) de que no siempre pueden aplicarse con la potencia deseada; existe tambi en un test de linealidad que requiere del cumplimiento de los dem as supuestos. As pues, no ser a f acil en la pr actica contar con una s olida justicaci on de todos los supuestos considerados, por lo que convendr a analizar los residuos, as como el comportamiento asint otico del modelo. Tambi en debemos estar capacitados para efectuar transformaciones de variables que nos aproximen a las condiciones te oricas del modelo o incluso, a aplicar m etodos alternativos m as robustos. Todo ello se ver a en cap tulos posteriores.

3.1.

Estimaci on

El Modelo Lineal se dene, fundamentalmente, imponiendo una serie de condiciones sobre la esperanza de Y y su matriz de varianzas-covarianzas, que resulta depender u nicamente de un escalar positivo 2 . Por lo tanto, dedicaremos esta secci on al estudio de las dos primeras componentes del par ametro (3.2), es decir, de los estimandos y 2 . Si analizamos detenidamente los problemas planteados en la Introducci on, muy especialmente el tercero, llegaremos seguramente a la conclusi on de que es el par ame2 ametro secundario que cuantica el error o tro principal, mientras que es un par desviaci on en sentido cuadr atico respecto a una situaci on determinista. Si fuera conocido, cosa poco factible en la pr actica, todo resultar a mucho m as f acil. Par ametros de este tipo son calicados de ruido en la literatura anglosajona y de fantasmas en la francesa. Teniendo en cuenta que la media pertenece por hip otesis al subespacio V y que resulta m as natural pensar que nuestra observaci on es pr oxima a la media que lo contrario (estamos aplicando el principio de m axima verosimilitud), cabe considerar el siguiente estimador de . (3.5) = PV Y Se trata pues del estimador que minimiza la distancia eucl dea (3.6)

Es decir, se trata de una soluci on m nimo-cuadr atica. Este concepto se dene en (7.8). Respecto a 2 , si tenemos en cuenta (9.19), cabr a considerar, al menos en

Manuales Uex 47

Y 2

jess montanero fernndez


48 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

an principio, el estimador 2 = n1 Y PV Y 2 . No obstante y por razones que quedar patentes m as adelante, se denotar a mediante 2 a cualquier estimador positivo que sea proporcional al cuadrado de a distancia eucl dea entre Y y el estimador propuesto para , es decir, (3.7) 2 Y PV Y 2 . Es inmediato comprobar que es un estimador insesgado de . Veamos que sucede lo mismo con 2 si consideramos el factor de proporcionalidad n dimV . Necesitamos un lema previo de demostraci on trivial.

Lema 3.1.
Si X es un vector aleatorio m-dimensional cuyas componentes son de cuadrado integrable, entonces E[X 2 ] = E[X ]2 + tr Cov[X ] .

Proposici on 3.2.

En las condiciones del Modelo Lineal, el siguiente estad stico es un estimador insesgado de 2 1 2,I = Y PV Y 2 n dimV Demostraci on. En primer lugar, si X es un vector aleatorio n-dimensional, se verica n n n 2 2 = E E [Xi ]2 + var[Xi ] Xi = E Xi2 = E X
i=1 i=1 i=1

= E[X ]2 + tr(Cov[X ]) E PV Y 2 = ( trPV ) =


2

En nuestro caso, teniendo en cuenta el lema anterior, tenemos lo siguiente 2 E = 1


n dimV

1
n dimV

E [PV Y ]2 + tr Cov[PV Y ]

n dimV

Manuales Uex 48

En general, no estamos en condiciones de garantizar que sea el estimador insesgado de m nima varianza. No obstante, s que los es, en cierto sentido, respecto a la familia de estimadores lineales insesgados. stico real T es un estimador lineal insesgado Dado a Rn , decimos que un estad on lineal, es decir, existe b Rn tal que T (Y ) = b Y, de a cuando es una aplicaci enticas veric andose adem as que E[T ] = a . Ello es equivalente a que a y b tengan id olo proyecciones ortogonales sobre V . Efectivamente, b = a para todo V si y s

MODELOS LINEALES
3.1. ESTIMACION 49

si a b, v = 0 para todo v V, es decir, si y s olo si (a b) V o, lo que es lo mismo, PV a = PV b. El Teorema de Gauss-Markov prueba que es optimo respecto a esta clase de estimadores.

Teorema 3.3.

Para todo a Rn , a es el estimador lineal insesgado de m nima varianza de a .

Demostraci on. = (PV a) Y y E [a ] = a , el estimador es lineal insesgado. Su varianza Dado que a es la siguiente
] = var[a PV Y ] = a PV Cov(Y )PV a = 2 a PV a var[a

Sea T (Y ) = b Y cualquier estimador lineal insesgado de a , es decir, tal que PV b = PV a. Entonces, var[b Y ] = b cov(Y )b = 2 b2 = 2 b PV b2 + 2 PV b2 = 2 b PV b2 + 2 a PV a 2 a PV a = var[a ], olo si T (Y ) = a . veric andose la igualdad si y s olo si b = PV a, es decir, si y s Hasta ahora no hemos supuesto la normalidad de la familia de distribuciones. Si hacemos uso de dicha hip otesis podemos deducir interesantes propiedades de los estimadores considerados, entre ellas una m as completa justicaci on te orica de los mismos, como veremos a continuaci on.

Proposici on 3.4.
Bajo las condiciones del Modelo Lineal Normal, y 2,I son independientes y tales que Nn (, 2 PV ), [n dimV ] 2,I 2 2 ndimV

En ese caso, se denota por ELIMV.

Manuales Uex 49

La demostraci on es consecuencia inmediata de las propiedades fundamentales de la distribuci on normal multivariante esf erica. Concretamente, de las proposiciones 2.1, 2.7 y 2.5. N otese que, en particular, podemos armar que la media aritm etica de una muestra aleatoria simple de una distribuci on normal es independiente de su varianza muestral. Tambi en hemos de advertir que, excepto en el caso V = Rn , la distribuci on de es degenerada pues est a contenida en una subvariedad af n cuya a dominada por dimensi on es el rango de PV , es decir, dimV . Por lo tanto, no est

jess montanero fernndez


50 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

on no ocurre cuando consideramos las la medida de Lebesgue en Rn . Esta situaci a m as adelante. Sigamos coordenadas de respecto de una base X de V, como se ver con otra interesante propiedad de estos estimadores.

Teorema 3.5.
El estad stico ( , 2 ) es suciente y completo para el Modelo Lineal Normal3 . Demostraci on. stico Supongamos que 2 = Y PV Y 2 , para cierto > 0. Nuestro modelo estad est a dominado por la medida de Lebesgue, siendo su funci on de verosimilitud la siguiente: 1 y 2 2 2 n 2 , y Rn , (, 2 ) V R+ (3.8) L(y; , ) = (2 ) exp 2 2 Dada X MndimV cuyas columnas constituyen una base ortonormal de V, consideX v, 1 ), remos la biyecci on : V R+ RdimV R+ , denida mediante (v, c) = ( 1 c c para todo v V y c > 0. De esta forma, podemos expresar la familia de distribuciones del modelo con la ayuda del par ametro = (1 , 2 ), denido como (1 , 2 ) := (, 2 ). As mismo, consideremos el estad stico S : Rn RdimV R , denido mediante 1 2 on S (y) = (X y, 2 y ). De esta forma, si consideramos la funci h(1 , 2 ) = 2 2 n 2 1 1 2 , exp 2 2

se verica que la funci on de verosimilitud denida como funci on del nuevo par ametro es la siguiente (y; ) = h() exp {S (y), } , L de lo cual se deduce, teniendo en cuenta el teorema 9.18, que el estad stico S es suciente y completo. Consideremos, por u ltimo, la transformaci on bimedible : RdimV R RdimV R+ denida mediante (a, b) = (Xa, (2b + a2 ), para cada a RdimV y b < 0. Se verica entonces que , 2 = S. Luego, ( , 2 ) es igualmente un estad stico suciente y completo.

Manuales Uex

El hecho de que el estad stico sea suciente tiene muy importantes implicaciones. Efectivamente, considerar el modelo imagen (reducir) no supondr a perdida alguna
3

Se entiende que 2 denota cualquier estimador de la forma (3.7).

50

MODELOS LINEALES
3.1. ESTIMACION 51

de informaci on (en el sentido de Fisher) relativa a los par ametros. Por ello es razonable considerar el modelo reducido para afrontar cualquier problema de Inferencia as completo, se tiene que el estad stico acerca de dichos par ametros4 . Siendo adem es suciente minimal, lo cual se traduce en que no es posible reducir m as sin perder informaci on. Veamos implicaciones m as concretas en lo que respecta al problema de Estimaci on (el de Tests de Hip otesis se ver a m as adelante). Que un estimador sea el de M axima Verosimilitud supone una justicaci on bastante convincente, especialmente por las propiedades asint oticas que conlleva5 . Precisamente, se prueba en Lehmann (1983) que, bajo ciertas condiciones de regularidad que en nuestro caso se cumplen, el Estimador de M axima Verosimilitud ha de ser funci on de cualquier estad stico suciente. Luego, dicho estimador, que determinaremos a continuaci on, ha de expresarse exclusivamente a trav es de nuestro estad stico. Por otra parte, otra propiedad muy deseable para cualquier estimador es que sea insesgado y, mucho mejor, el de m nima varianza entre todos los insesgados. Ya hemos encontrado estimadores insesgados de y 2 son insesgados. Demostrar que son de m nima varianza es sencillo si se tiene en cuenta el resultado anterior junto con el Teorema de Lehmann-Sche e.

Corolario 3.6.
En las condiciones del Modelo Lineal Normal, y 2,I son los EIMV de y 2 , respecti6 vamente . Demostraci on. Teniendo en cuenta que y 2,I son estimadores insesgados de y 2 , respectivamensticos te, y que son de cuadrado integrable7 el teorema 9.19 garantiza que los estad 2,I | ( , 2,I )] son los u nicos EIMV de y 2 , respectivamente, de E [ | ( , 2,I )] y E [ lo cual se deduce la tesis. A continuaci on probaremos que, en las condiciones del Modelo Lineal Normal, podemos hablar del Estimador de M axima Verosimilitud o, abreviadamente, EMV. Dijimos antes que dicho estimador ha de expresarse como funci on del estad stico suciente y completo obtenido en el teorema anterior. Efectivamente, consideremos
5

Manuales Uex 51

As podr a formularse el Principio de Suciencia. Cf. Fergusson (1996) 6 Estamos armando de manera impl cita, que son los u nicos (esencialmente) EIMV. 7 Esto es as porque sus distribuciones derivan de la normal multivariante esf erica. Por otra parte, cuando decimos que es de cuadrado integrable nos referimos a que todas sus componentes lo son.
4

jess montanero fernndez


52 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

el estimador de 2 que se obtiene de forma natural dividiendo por n en lugar de por n dimV , es decir, 1 V 2,MV = Y PV Y 2 = ndim 2,I (3.9) n
n

En ese caso, se verica lo siguiente:

Teorema 3.7.
Bajo las condiciones del Modelo Lineal Normal, ( , 2 ) es el EMV de (, 2 ). Adem as, el n/2 valor que alcanza la funci on de verosimilitud en dicho estimador es 2 e 2,MV .

Demostraci on. Consideremos nuevamente la funci on de verosimilitud L denida en (3.8). Supuesto jo y Rn y teniendo en cuenta que y 2 descompone en y PV y2 + PV y 2 , se deduce f acilmente que L(y; PV y, 2 ) L(y; , 2 ), para todo y 2 . Maximicemos a continuaci on la funci on f ( ) = L(y; PV y, 2 ). Para ello consideramos su primera derivada, que resulta ser y PV y2 n , f ( ) = f ( ) 1 2 que se anula si y s olo si 2 = n1 y PV y2 . Adem as, es f acil comprobar que la segunda derivada es negativa en ese punto, lo cual garantiza que f alcanza un m aximo relativo en el mismo que, en estas condiciones, ser a absoluto. Por lo tanto, se verica 1 (, 2 ) V R+ . L(y; , 2 ) L(y; , PV y, 2 ) L y; PV y, y PV y2 ,
n

Sustituyendo en L se obtiene el m aximo indicado en la tesis. De este resultado se deduce la consistencia y eciencia de ambos estimadores. Queda pues claro que los estimadores propuestos, especialmente , gozan de una excelente justicaci on te orica bajo las condiciones del Modelo Lineal Normal. Adem as, el teorema de Gauss-Markov garantiza su idoneidad, aunque respecto a un grupo de estimadores m as restringido, prescindiendo del supuesto de normalidad. Pero sabemos que en Inferencia Estad stica todo es relativo, y esta no ser a la excepci on, se cumplan o no las condiciones del Modelo Lineal Normal. Efectivamente, puede probarse f acilmente que (3.10) E 2 = 2 + dimV 2 . Es decir, que, por t ermino medio, el EIMV proporciona una estimaci on m as larga que el estimando . El EIMV de no es sino el estimador insesgado optimo para todas

Manuales Uex 52

MODELOS LINEALES
3.1. ESTIMACION y cada una de las funciones de p erdida de la familia W = {Wa : a Rn }, donde 2 Wa [v, (, 2 )] := a, v , v V, (, 2 ) V R+ . 53

Si en vez de considerar la familia W consideramos una u nica funci on de p erdida W , denida de manera muy natural mediante W [v, (, 2 )] := v 2 , 2 (3.11)

sucede que, cuando dimV > 2, el EIMV de resulta ser inadmisible. De hecho, el siguiente estimador, proporcional al EIMV y denominado de James-Stein, resulta ser preferible al mismo para dicha funci on de p erdida: (dimV 2)(n dimV ) 2,I . JS = 1 n dimV + 2 2 Las propiedades de este nuevo estimador se estudian con mayor detenimiento en Arnold (1981), cap tulo 11. En en el mismo cap tulo se analiza tambi en el denominado estimador de Ridge que, en el estudio de Regresi on Lineal y en un marco te orico Bayesiano, puede mejorar en cierto sentido la estimaci on de cuando se observa multicolinealidad. No obstante y a pesar de todo, ser a el u nico estimador de la media que consideraremos en la sucesivo. A continuaci on, construiremos sendas regiones de conanza para los par ametros y 2 bajo los supuestos del Modelo Lineal Normal. Concretamente, se verica lo siguiente:

Proposici on 3.8.
En el Modelo Lineal Normal se verica que, para cada (0, 1), los conjuntos E y I , denidos mediante 2 dimV 2,I Fdim (3.12) E = v V : v V ,ndimV I = zR :
+

(n dimV ) ndimV
2,1/2

2,I

(n dimV ) ndimV
2,/2

2,I

(3.13)

Demostraci on. Sabemos por la proposici on 3.4 cu ales son las distribuciones de y 2,I , de lo cual se 2 deduce inmediatamente el intervalo de conanza para . Respecto a , consideremos

Manuales Uex 53

constituyen sendas regiones de conanza al (1 ) 100 % para y 2 , respectivamente.

jess montanero fernndez


54 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

una matriz cuyas columnas constituyan una base ortonormal de V , y denamos el . En ese caso, se tiene que estad stico T = T NdimV ( , 2 Id), Siendo independiente de 2,I . Se tiene entonces que T 2 2 2 dimV y, en consecuencia, 1 T 2 FdimV ,ndimV . dimV 2,I Por lo tanto, cualesquiera que sean y 2 , se verica 1 dim V 2 P,2 y R : 2,I y T dimV FdimV ,ndimV = 1 .8 Teniendo en cuenta que todo v V puede expresarse mediante v = y, para un u nico y RdimV , y que 2 = (v ) PV (v ) = v 2 , v se concluye. Podemos observar que, mientras la regi on de conanza para 2 es un intervalo positivo, la de es la intersecci on entre una esfera y el subespacio V . El centro de dicha esfera es el estimador puntual , mientras que el radio volumen es proporcional al estimador de 2 . El problema de Estimaci on est a obviamente condicionado por la elecci on del par ametro, es decir, por la forma de caracterizar las distribuciones de la familia de probabilidades considerada, en nuestro caso mediante y 2 . No obstante, dado que es un vector de V , puede resultar natural expresarla a trav es de sus coordenadas respecto de una base de dicho subespacio. Esta situaci on se dar a, concretamente, cuando estudiemos el problema de Regresi on Lineal, tal y como se comento en el cap tulo de introducci on. Efectivamente, en tal caso, partiremos de una matriz X de rango completo compuesta por los valores obtenidos en las variables explicativas junto con un t ermino independiente. V ser a el subespacio generado por las columnas ametro de inter es no ser a la media en s , sino su vector de coordede X y el par nadas respecto de la base X, que se corresponde con los coecientes de las variables explicativas y el t ermino independiente.
8

Manuales Uex

El t ermino P,2 hace referencia, l ogicamente, a la distribuci on Nn (, 2 Id).

54

MODELOS LINEALES
3.1. ESTIMACION 55

As , hablando en t erminos generales, si X denota una matriz cuyas columnas a una u nica soluci on en constituyen una base de V , la ecuaci on lineal = Xb tendr dim V , concretamente el vector R x = (X X)1 X . (3.14)

De esta forma, las distribuciones de la familia pueden caracterizarse igualmente meon (3.14), lo diante los par ametros x y 2 y, teniendo en cuenta en todo caso la ecuaci dicho hasta el momento respecto a la estimaci on de (, 2 ) se traduce a la de (x , 2 ) de la siguiente forma.

Teorema 3.9.
el estad En las condiciones del Modelo Lineal, sean X una base de V y stico denido x mediante x = (X X)1 X Y. (3.15) Entonces, se verica: x es un estimador insesgado de x . (i) es el estimador lineal insesgado de m nima varianza de (ii) Para todo b RdimV , b x b x . Si, adem as, se verican las condiciones del Modelo Lineal Normal, se tiene que: x NdimV x , 2 (X X)1 , siendo independientes de 2,I . (iii) x , (iv) El estad stico 2,I es suciente y completo.

es el EIMV de x . (v) x 2,MV , es el EMV de (x , 2 ). Adem as, el valor que alcanza la funci on de (vi) x 2,MV n/2 . verosimilitud en dicho estimador es 2 e (vii) Dado (0, 1), el conjunto E,X = b RdimV : x b 2,I X X b x
dimV Fdim V ,ndimV

(3.16)

x . PV Y = X

(3.17)

Manuales Uex 55

N otese que, en un contexto determinista, es decir, si prescindi eramos del vector on a la ecuaci on de errores E , y siendo la matriz X de rango completo, existe soluci olo si Y V , en cuyo caso ser au nica. El estimador (3.15) de x lineal Y = Xb si y s es, precisamente, el u nico que satisface

constituye una regi on de conanza al (1 ) 100 % para x .

jess montanero fernndez


56 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

3.2.

Test F para la media.

El segundo problema de Inferencia Estad stica que abordamos es el de contraste de hip otesis. En esta secci on nos limitaremos a estudiar contrastes acerca del par ametro principal del modelo, . Concretamente, se considerar an hip otesis de tipo lineal. Nos referimos a lo siguiente: dado un subespacio lineal W V, contrastaremos la hip otesis inicial (3.18) H0 : W frente a su alternativa. En cap tulos siguientes veremos ejemplos de contrastes de este tipo en los diferentes problemas a estudiar. Supondremos, en todo caso, que se verican los supuestos del Modelo Lineal Normal. En esas condiciones, tanto de la aplicaci on de los Principios de Suciencia e Invarianza como del de M axima Verosimilitud se deriva un mismo test, denominado frecuentemente por Anova9 o, mejor, test F. Dada la enorme trascendencia de este test, no basta probar que posee el nivel de signicaci on que se le supone, sino que conviene justicar su idoneidad a la luz de alg un o algunos Principios Estad sticos. En ese sentido, no ser a dif cil probar que el test F es el Test de la Raz on de Verosimilitudes (TRV, para abreviar), lo cual, adem as de satisfacernos desde un punto de vista meramente los oco, conere al test importantes propiedades asint oticas10 . No obstante, puede demostrarse que, en nuestras condiciones, el TRV es funci on de cualquier estad stico suciente y es invariante ante cualquier grupo de transformaciones que deje a su vez invariantes tanto el experimento estad stico como el problema de contraste de hip otesis. De ah que no sea una mera casualidad que el test F pueda justicarse tambi en como test UMP-invariante a nivel , es decir, es el test a nivel m as potente entre todos los invariantes a nivel respecto de un grupo de transformaciones que especicaremos m as adelante. Es m as, el enunciado del lema fundamental de Neyman-Pearson (ver Ap endice) desvela una clara conexi on entre la b usqueda de un test UMP y la del TRV, siempre y cuando se den ciertas condiciones que se cumplen en nuestro modelo. Por u ltimo, teniendo en cuenta que todo estad stico constante (en particular el que toma en todo caso el valor ) es invariante, se deduce que el test F ser a a su vez insesgado a nivel , es decir, que su funci on potencia tomar a valores no iferiores a cuando / W. El lector interesado en seguir con rigor esta parte del cap tulo deber a estar familiarizado con con los fundamentos de la Teor a de la Decisi on, as como con los
9 10

Manuales Uex

Abreviatura de Analysis of Variance. Ver Fergusson (1996).

56

MODELOS LINEALES
3.2. TEST F PARA LA MEDIA. 57

conceptos de Suciencia, Completitud e Invarianza. Todo ello puede encontrarse en A.G. Nogales (1998). Tambi en aconsejamos ver previamente el apartado del Ap endice dedicado al Principio de Invarianza. Veamos pues c omo se obtiene el test F. 1. Paso a forma can onica En primer lugar, aplicaremos a nuestro modelo una transformaci on bimedible: concretamente un cambio de base en Rn . El objeto del mismo es estructurar el espacio de par ametros de manera natural en funci on de la hip otesis a contrastar. Para ello consideraremos tres matrices X1 , X2 y X3 , bases ortonormales de los subespacios ortogonales W , V |W y V , respectiva mismo, mente. Sea entonces la transformaci on bimedible de (Rn , Rn ) en s que hace corresponder a cada vector Y el vector Z = (Y ) denido mediante

El vector Z est a compuesto por las coordenadas de Y respecto a una base ortonormal de Rn , la cual se descompone a su vez en bases de W , V |W y V . Si se denota Zi = Xi Y, i = Xi , para i = 1, 2, 3, se tiene un nuevo modelo, que denominamos can onico, compuesto por tres vectores aleatorios independientes Z1 NdimW (1 , 2 Id)

X1 Z = X2 Y. X3

Z2 NdimV dimW (2 , 2 Id) Z3 NndimV (0, 2 Id) La familia de distribuciones puede expresarse pues con la ayuda del par ametro 2 dim W dim V dimW + R R . La hip otesis (1 , 2 , ), que recorre el espacio R inicial (3.18) se traduce entonces en H0 : 2 = 0. 2. Reducci on por suciencia. En virtud del teorema 3.5, el estad stico ( , 2) es suciente y completo. Dado que X1 Z1 , 2 Z3 2 , = X2 Z2

Manuales Uex 57

stico suciente y se verica que S = (Z1 , Z2 , Z3 2 ) es, a su vez, un estad completo respecto al modelo can onico. Sabemos que el considerar u nicamente la imagen de dicho estad stico, lo cual se denomina reducci on por suciencia, no conlleva p erdida alguna de informaci on en el sentido de Fisher y no afecta, como veremos m as adelante, a la b usqueda de un test UMP a nivel . Adem as,

jess montanero fernndez


58 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO al ser completo, la reducci on por suciencia es m axima, esto es, una reducci on m as profunda s implicar a p erdida de informaci on referente al par ametro. Las distribuciones del nuevo modelo reducido podr an expresarse, igual que en la ametro (1 , 2 , 2 ). La hip otesis a contrastar fase anterior11 , con la ayuda del par sigue siendo 2 = 0. 3. Reducci on por invarianza. Dado que la reducci on por suciencia no simplica de manera satisfactoria el modelo, llevaremos a cabo una reducci on m as profunda por invarianza. Para ello consideraremos el grupo de transformaciones bimedibles en el modelo can onico G = {gk,O, : k RdimW , O OdimV dimW , > 0} siendo Z1 Z1 + k gk,O, Z2 = OZ2 . Z3 Z3
12

Puede comprobarse f acilmente que G deja invariante tanto el modelo como el problema de contraste de hip otesis considerado. Por ello, el Principio de Invarianza propone restringir la b usqueda de tests a aquellos que sean igualmente invariantes, y entre estos seleccionar el mejor desde alg un criterio establecido. En este caso y dado (0, 1), encontraremos el test UMP-invariante a nivel . Dado que previamente hemos efectuado una reducci on por suciencia y que el estad stico suciente S es trivialmente equivariante respecto a G, podemos considerar el grupo de transformaciones GS que G induce de manera natural sobre el modelo imagen de S y buscar en dicho modelo un test S UMPinvariante respecto a GS a nivel . De esta forma, el test S S , denido sobre el modelo can onico, cumplir a la condici on deseada. Vayamos por partes. En primer lugar, el grupo GS puede descomponerse en la suma de los subgrupos G1 = {gk : k RdimW }, G2 = {gO : O OdimV dimW } y G3 = {g : > 0}, donde Z1 Z1 Z1 + k Z1 gk Z2 = Z2 , gO Z2 = OZ2 , Z3 2 Z3 2 Z3 2 Z3 2

Manuales Uex 58

11 Una reducci on por suciencia no puede implicar simplicaci on alguna en el espacio de par ametros. 12 En general, el t ermino Om denotar a el conjunto de las matrices cuadradas de orden m y ortogonales.

MODELOS LINEALES
3.2. TEST F PARA LA MEDIA. Z1 Z1 g Z2 = Z2 . Z3 2 2 Z3 2 59

Adem as, el conjunto {(2 , 2 ) : 2 RdimV dimW , 2 > 0} es la imagen de un invariante maximal para el espacio de par ametros. Consideramos entonces el M1 = { g : O O } , denido mediante grupo G1 dimV dimW 2 O Z2 OZ2 1 = . gM O Z3 2 Z3 2
1 En virtud del teorema 9.12, el estad stico M2 denido mediante Z2 Z2 2 1 = M2 Z3 2 Z3 2

Estos subgrupos verican la propiedad (9.49). Nuestro primer objetivo es en como el correscontrar un estad stico invariante maximal respecto a GS , as pondiente invariante maximal para el espacio de par ametros. Aprovechando la usqueda se realizar a en tres etapas. En primer descomposici on de GS , dicha b lugar, es obvio que el siguiente estad stico es un invariante maximal respecto a G1 . Z1 Z2 . M 1 Z2 = Z3 2 Z3 2

es invariante maximal respecto a G1 2 en el modelo imagen de M1 . El conjunto {(2 2 , 2 ) : 2 RdimV dimW , 2 > 0} es, a su vez, la imagen de un invariante maximal para el espacio de par ametros. Tomamos, por u ltimo, el grupo G12 3 = 1 M M2 1 {g : > 0}, denido mediante 1 M Z2 Z2 2 M2 1 2 = . g Z3 2 Z3 2
12 El estad stico M3 denido mediante Z2 2 Z2 2 12 = n,V,W M3 2 Z3 Z3 2

on anterior, n,V,W puede ser es invariante maximal respecto a G12 3 . En la expresi cualquier n umero real no nulo. En nuestro caso, conviene tomar (ya veremos el porqu e) n,V,W = (n dimV )/(dimV dimW ). Por su parte, un invariante

Manuales Uex 59

jess montanero fernndez


60 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO maximal respecto al espacio de par ametros nos lleva a considerar el par ametro = 2 2 / 2 , que recorre el espacio [0, +]. En denitiva, las distintas reducciones por suciencia e invarianza conducen 12 a considerar el modelo inducido por el estad stico invariante maximal M3 , concretamente [0, +], R([0, +], {P : 0} ,

on F -Snedecor donde, para cada 0 y en virtud de (2.8), P es la distribuci ametro de no no central con grados de libertad (dimV dimW , n dimV ) y par on centralidad Den otese por p a la correspondiente densidad, cuya expresi expl cita aparece en (2.7). La hip otesis a contrastar se traduce en H0 : = 0, on 1.2, frente a la alternativa H0 : > 0. Tal y como se arma en la secci para cada > 0, la funci on p (x)/p0 (x) es creciente en x 0, es decir, que el modelo presenta raz on de verosimilitudes mon otona. En ese caso, se sigue de la proposici on 9.20 que el test , denido sobre el modelo reducido nal mediante 1 si x > Fdim V dimW ,ndimV (x) = 0 si x Fdim V dimW ,ndimV
12 1 es UMP a nivel . As pues, el test S = M3 M2 M1 , denido sobre el modelo reducido por suciencia, es UMP-invariante a nivel respecto al grupo onico, es UMPGS . Por lo tanto, el test S S, denido sobre el modelo can invariante a nivel respecto al grupo G. Para acabar, tomando F = S S deshacemos el cambio de variables inicial. El test F a nivel , denido sobre el modelo original puede expresarse pues como sigue: 1 si F (Y ) > Fdim V dimW ,ndimV , (3.19) F(Y ) = 0 si F (Y ) Fdim V dimW ,ndimV

siendo F el estad stico de contraste denido mediante


12 1 M2 M1 S (Y ) F (Y ) = M3 PV |W Y 2 n dimV = dimV dimW PV Y 2 n dimV PV Y PW Y 2 = dimV dimW Y PV Y 2 PV |W Y 2 1 . = dimV dimW 2,I

(3.20) (3.21) (3.22) (3.23)

Manuales Uex

En denitiva, hemos probado lo siguiente:

60

MODELOS LINEALES
3.2. TEST F PARA LA MEDIA. 61

Teorema 3.10.
En las condiciones de Modelo Lineal Normal, dados W V y (0, 1), el test otesis inicial H0 : W. (3.19) es UMP-invariante 13 a nivel para contrastar la hip En particular, es insesgado a nivel . La distribuci on del estad stico de contraste F respecto a Nn (, 2 Id) depende 2 es del par ametro del modelo reducido nal de y a trav = PV |W 2 . 2 (3.24)

El caso nulo, W , se corresponde con la situaci on F FdimV dimW ,ndimV . 2 El t ermino PV Y PW Y , que aparece en el numerador de F , se denota con frecuencia en la literatura mediante SCH (siglas de suma cuadr atica de la hip otesis), mientras que el t ermino Y PV Y 2 , que aparece en el denominador, se denota por SCE (suma cuadr atica del error). El estad stico de contraste F resulta de dividir estos t erminos por las dimensiones (grados de libertad) de V |W y V , respectivamente. De esta forma, en el denominador tenemos el EIMV de la varianza 2 , suponiendo que pertenece a V , mientras que en el denominador aparece un estimador sesgado de la varianza, pues su esperanza es, en virtud olo si se supone cierta la hip otesis inide (2.6), 2 + PV |W 2 . Por lo tanto, s cial, este estimador ser a insesgado, en cuyo caso, cabr a esperar que el cociente F estuviera pr oximo a 1. Un valor muy alto del cociente entre estos dos estimadores de la varianza se interpreta como un desacuerdo entre los datos y la hip otesis nula. Por ello, es muy usual referirse al test (3.19) con el sobrenombre de Anova, abreviatura en ingl es de An alisis de la Varianza. No obstante y para evitar confusiones con el Dise no de Experimentos, lo denominaremos en lo sucesivo test F. Si analizamos detenidamente la expresi on del invariante maximal F para el espacio de observaciones y del invariante maximal para el espacio de par ametros, detectaremos cierto paralelismo con la expresi on de la funci on de densidad de la distribuci on normal multivariante esf erica, lo cual no es de extra nar. Este ejemplo ilustra hasta qu e punto cualquier propiedad relativa a la suciencia e
13 En este caso, queremos decir invariante respecto al grupo de transformaciones G = {g : g G}, que deja invariantes tanto el modelo como el problema de contraste de hip otesis originales.

En concreto, para cada distribuci on Nn (, 2 Id), con V y 2 > 0, se tiene que PV |W 2 F FdimV dimW ,ndimV . 2

Manuales Uex 61

jess montanero fernndez


62 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO invarianza es inherente a la formulaci on de la familia de distribuciones consideradas. A continuaci on comprobaremos que el test F es tambi en es el Test de la Raz on de Verosimilitudes denido en el Ap endice. Ya comentamos all que, bajo ciertas condiciones de regularidad, que se verican bajo los supuestos de nuestro modelo, si G es un grupo de transformaciones que dejan invariante tanto el modelo como el problema de contraste de hip otesis, y existe el estad stico de la raz on de verosimilitudes a nivel , este ha de ser equivalente a otro estad stico invariante respecto a G. De esta proposici on se deduce que, en nuestro caso, existe un test equivalente T RV que puede expresarse a trav es de un estad stico de contraste invariante y, por lo tanto, funci on del estad stico de F , denido en (3.22). M as a un, podemos armar que el test F es el propio T RV :

Teorema 3.11.
En las condiciones del Modelo Lineal Normal, dados W V y (0, 1), el test (3.19) es el u nico test de la raz on de verosimilitudes a nivel para contrastar la hip otesis inicial H0 : W . Demostraci on. Recordemos que, en nuestro modelo la funci on de verosimilitud es la siguiente n 1 y 2 , y Rn , L(y; , 2 ) = (2 2 ) 2 exp 2 2 donde (, 2 ) V R+ , y la hip otesis inicial a contrastar es W R+ . Del teorema 3.7 se sigue que, para todo y Rn , 1 2 2 sup L(y; , ) = L y; PV y, PV y ,
V, 2 >0

sup
W, 2 >0

1 L(y; , 2 ) = L y; PW y, PW y2
n

Manuales Uex

Dado que que W descompone en en la suma ortogonal V V |W , se tiene entonces que 1 . RV n/2 = V dimW F 1 + dim ndimV

En consecuencia, el estad stico de la raz on de verosimilitudes es n PV Y 2 2 , Y Rn . RV (Y ) = PW Y 2

(3.25)

62

MODELOS LINEALES
3.2. TEST F PARA LA MEDIA. 63

Dado que la funci on f (x) = (1 + x)2/n es, para todo > 0, una biyecci on decreciente de [0, ] en [0, 1], se sigue que 1 n /2 n dimV dimV dimW F (Y ) > Fdim , RV (Y ) < B 2 2 V dimW ,ndimV luego, el test anterior coincide con el test (3.19).

on Luego, teniendo en cuenta (2.9), se deduce que RV n/2 sigue una distribuci Beta de par ametros (n dimV )/2 y (dimV dimW )/2) en el caso nulo. Por lo tanto, el u nico test de la raz on de verosimilitudes es 1 2/n 1 si RV (Y ) < B ndimV , dimV dimW 2 2 T RV (Y ) = 1 2/n n dimV dimV dimW , 0 si RV (Y ) B 2 2

Manuales Uex 63

As pues, hemos demostrado que el test F a nivel es insesgado, UMP-invariante y test de la raz on de verosimilitudes. Al igual que en el problema de Estimaci on, veamos c omo se expresa el test F si parametrizamos el modelo mediante las coordenadas a de enorme utilidad cuando estudiemos respecto a una base X de V , lo cual ser el problema de Regresi on Lineal. Consideremos pues una matriz X cuyas columnas constituyan una base de V . De esta forma, teniendo en cuenta la ecuaci on = X , las distribuciones del modelo pueden caracterizarse mediante las coordenadas de la media respecto a X, junto con 2 . Dado un subespacio W V , consideremos una matriz C de orden n dimV |W cuyas columnas constituyan una base del subespacio V |W . En ese caso, la hip otesis inicial W equivale a C X = 0, es decir, a Ax = 0, siendo Ax = C X, que es una matriz es de dimensiones dimV |W dimV y rango dimV |W . Rec procamente, dada una hip otesis inicial del tipo A = 0, siendo A una matriz de dimensiones m dimV y rango m (lo cual implica que m dimV ), existe un on dimV m tal que la hip otesis inicial anterior subespacio Wx,A de V de dimensi equivale a que X pertenezca a Wx,A . Concretamente, se trata de la imagen del on dimV m, constituido por los vectores b de RdimV tales subespacio W de dimensi que Ab = 0, por la aplicaci on lineal inyectiva que a cada b en RdimV le asigna el vector Xb de V. Es decir, que contrastar hip otesis del tipo W equivale, en t erminos de , a contrastar hip otesis del tipo A = 0, siendo A una matriz de orden m dimV y rango completo. De hecho, en Regresi on Lineal expresaremos as las hip otesis iniciales. Conviene pues expresar tambi en el estad stico de contraste del test F, que se ha

jess montanero fernndez


64 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

denotado por F , en funci on de X y de la matriz A correspondiente. Para ello es conveniente encontrar una base adecuada de V |Wx,A .

Lema 3.12.
Dada una matriz A de dimensiones m dimV y rango m, las columnas de la matriz C = X(X X)1 A constituyen una base del subespacio V |Wx,A . Demostraci on. Veamos que las columnas de C son linealmente independientes. En efecto, si existe un vector g Rm , tal que Cg = 0, entonces, AX Cg = 0. Dado que AA es una matriz cuadrada de orden m y rango m, podemos armar que 0 = (AA )1 AX Cg = (AA )1 AX X(X X)1 A g = g. Por lo tanto, el rango de C es m. Falta probar que las columnas de C son ortogonales a Wx,A , es decir, que dado b Rm tal que Ab = 0, se verica (Xb) C = (0, . . . , 0). Efectivamente, (Xb) C = b X X(X X)1 A = b A = (0, . . . , 0).

Teorema 3.13.
Dada una matriz A de dimensiones m dimV y rango m, el estad stico de contraste del test F para contrastar la hip otesis inicial H0 : A = 0 es ) A(X X)1 A 1 A n rg(X) (A , (3.26) F = 2 m Y Y X denido seg con un (3.15). Demostraci on. Se verica por (3.21) y (3.22) que F =
n rg(X)

PV |W Y 2 . Y 2 PV Y 2

Manuales Uex 64

Sabemos que PV |W puede expresarse mediante C (C C )1 C , para cualquier base C de V |W . As pues, por el lema anterior y teniendo en cuenta que PV |W Y 2 = Y PV |W Y , junto con la denici on (3.15), obtenemos el numerador. Respecto al denominador, basta notar que la proyecci on ortogonal sobre V puede expresarse mediante PV = X(X X)1 X y que PV Y 2 = Y PV Y. Entonces, por (3.15) se concluye.

MODELOS LINEALES
3.3. CONTRASTES DE HIPOTESIS PARA LA VARIANZA. 65

N otese que la expresi on (3.26) es m as adecuada que (3.20) desde el punto de vista computacional. Este puede ser un s olido argumento a la hora de justicar el uso de la versi on coordenada del modelo lineal. Para acabar con esta secci on, nos preguntamos c omo se plantear a y resolver a en este marco te orico un contraste de tipo unilateral. Obviamente, no tiene sentido, en general, una hip otesis del tipo > 0 o < 0 . Sin embargo, para cada d V |W, podemos considerar el par ametro d, R y, en consecuencia podemos contrastar la hip otesis unilateral d, 0 frente a la alternativa d, > 0, o viceversa. En onica, una reducci on por Arnold (1981)14 se obtiene, mediante un paso a forma can 15 suciencia y dos por invarianza , el siguiente test UMP-invariante a nivel : 1 si td (Y ) > t n v , + ( Y ) = d 0 si td (Y ) t nv donde el estad stico de contraste td se dene mediante td (Y ) = d, , d (3.27)

on t-Student central con n v grados de libertad. y tnv denota la distribuci

3.3.

Contrastes de Hip otesis para la varianza.

En esta breve secci on se afronta, siguiendo el esquema l ogico, el estudio del contraste de hip otesis relativas a la varianza 2 . La brevedad de la misma se debe a razones de diversa ndole. En primer lugar, desde un punto de vista pr actico, interesan menos que los contrastes relativos a la media, pues esta u ltima constituye el par ametro principal del modelo. La varianza suele ser, por contra, un par ametro fantasma que no interesa en s pero cuyo desconocimiento diculta el estudio acerca de la media. La segunda raz on es de car acter t ecnico pues, como se constatar a en la pr oxima secci on, los tests para la varianza presentan un comportamiento asint otico claramente peor que el test F para la media, lo cual se traducir a en una excesiva sensibilidad ante la frecuente violaci on del supuesto de normalidad. 2 > 0, nos proponemos contrastar las siguiente hip otesis En denitiva, dado 0 iniciales frente a sus correspondientes alternativas:
1 H0 : = 0 ,
14 15

2 H0 : 0 ,

3 H0 : 0 .

cap tulo 7, ejercicio B20 El problema es invariante ante la acci on de los grupos G1 y G3 , considerados en el test F.

Manuales Uex 65

jess montanero fernndez


66 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

El procedimiento a seguir es, en principio, similar al llevado a cabo en la secci on anterior: una reducci on por suciencia conduce a considerar el experimento estad stico inducido por el estad stico ( , 2,I ) . Adem as, se verica, trivialmente, que tanto el experimento estad stico original como los tres problemas de contraste de hip otesis considerados permanecen invariantes ante cualquier traslaci on de coordenadas. As pues, una reducci on por invarianza conducen on depende de a considerar el estad stico invariante maximal 2,I , cuya distribuci es, u nicamente, de 2 . Concretamente, el estad stico T , denido mediante (, 2 ) a trav T = (n dimV ) 2,I , 2 0

sigue una distribuci on 2 acil probar que el experimento estad stico indundimV . Es f cido por T presenta raz on de verosimilitudes mon otona16 . Por ello, los tests 2 y 3 denidos mediante 2 2,I > 0 ndimV 1 si (n dimV ) , 2 (Y ) = 2,I 2 0 si (n dimV ) 0 ndimV 3 (Y ) = 1 0
2 1 2,I < 0 ndimV si (n dimV ) , 2,I 2 1 si (n dimV ) 0 ndimV

2 3 y H0 , resson UMP-invariantes a nivel para contrastar las hip otesis iniciales H0 a siquiera insesgado pectivamente. Sin embargo, cualquier test del tipo 2 o 3 no ser 1 , pues la funci on potencia del mismo ser a espara contrastar la hip otesis bilateral H0 trictamente creciente o decreciente, respectivamente17 . Por otra parte y en virtud del teorema 3.7, el estad stico de la raz on de verosimii litudes RV para contrastar las hip otesis iniciales H0 , i = 1, 2, 3, se expresa a trav es de T mediante 1 RV T n/2 exp T . 2

Manuales Uex

Dado que la funci on (x) := xm exp{x} es creciente en (0, m) y decreciente en (m, +), cualquier test del tipo (9.46) tendr a dos colas si lo expresamos en t erminos on de verosimilitudes de T , de lo que se deduce que 2 y 3 no son tests de la raz 3 2 y H0 , respectivamente. No obstante, se prueba en Lehmann (1986) (secci on para H0
16 17

Ver secciones 1.3 y 1.4 Nogales (1998), pag. 185.

66

MODELOS LINEALES
3.4. ESTUDIO ASINTOTICO DEL MODELO 67

4.4) que una adecuada elecci on de las colas proporciona en un test insesgado a nivel 1 , que ser a pues de la forma para contrastar la hip otesis inicial H0 V 2,I (0, A) (B, +) 1 si ndim 2 0 1 (Y ) = V 0 si ndim 2,I [A, B ] 2
0

para ciertos valores A y B , y que los test 1 , 2 y 3 son UMP-insesgados a nivel 3 1 2 , H0 y H0 , respectivamente. para contrastar las hip otesis H0

18

3.4.

Estudio asint otico del Modelo

En esta secci on analizaremos el comportamiento de los estimadores y el test F, bajo las condiciones del Modelo Lineal (sin asumir en ning un momento normalidad), a en la pr actica con el n umero real de cuando el t ermino n (que se corresponder datos) tiende a innito. Convendr a repasar previamente las deniciones y resultados b asicos de la Teor a Asint otica, en especial los distintos tipos de convergencias y sus relaciones, los conceptos de consistencia y eciencia asint otica de un estimador, las Leyes de los Grandes N umeros y las diferentes versiones del Teorema L mite Central. Todo ello puede encontrarse, por ejemplo, en Ash (1972), Billingsley (1986), Fergusson (1996), Lehmann (1983) y Lehmann (1998). Tambi en recomendamos consultar el resumen que se encuentra en la u ltima secci on del Ap endice. Hagamos previamente un inciso sobre una cuesti on de car acter matricial. Dada una matriz (se admiten vectores) A Mmk , de componentes aij , se dene m(A) = m ax |aij |.
i,j

Si A es una matriz cuadrada de orden m, sim etrica y semi denida positiva, existe, en virtud del teorema 9.5, una matriz B con las misma dimensiones tales que A = B B. Si b1 , . . . , bm denotan las columnas de B , se verica aij = bi , bj , aii = bi 2 , ajj = bj 2 .

Luego, por la desigualdad de Cauchy-Schwartz, ax |aii |. |aij | bi bj = (|aii | |ajj |)1/2 m


i

Por lo tanto, en ese caso, m(A) = m ax |aii |.


i

Existen resultados asint oticos que permiten aproximar A y B mediante ndimV y ndimV respectivamente.
18

2,1/2

2,/2

Manuales Uex 67

jess montanero fernndez


68 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

Tambi en se verica, trivialmente, que si A Mmk y B Mkr , m(AB ) km(A)m(B ), (m(A))2 m(AA ). (3.28) (3.29)

Teniendo en cuenta (3.28) junto con el teorema 9.4, se deduce que, si A es una matriz sim etrica de orden k y D es la matriz diagonal constituida por sus autovalores, entonces (3.30) 1/k 2 m(D) m(A) k 2 m(D). Hasta ahora hemos trabajado con modelos en el cual el t ermino n es jo. Es lo que se denomina Modelo Exacto. Teniendo en cuenta que la Teor a Asint otica tiene como objeto estudiar la evoluci on de los distintos estimadores y tests de hip otesis nt otico, en funci on de n, es necesario construir un nuevo modelo, denominado As que, por as decirlo, englobe todos los experimentos exactos. En nuestro caso se denir a com sigue. Dada una sucesi on (Vn )nN de subespacios v-dimensionales de stico constituido por una Rn , respectivamente, consideraremos el experimento estad sucesi on (Zi )iN de variables aleatorias que se descomponen de la siguiente forma Zi = (i) + fi , i N,

donde (i) R y (fi )iN es una secuencia de variables aleatorias independientes e id enticamente distribuidas con media 0 y varianza 2 > 0, y de tal forma que, para cada n N, el vector n = ((1), . . . , (n)) pertenece al subespacio Vn . De esta forma, si se denota Yn = (Z1 , . . . , Zn ) y en = (f1 , . . . , fn ), tendremos Yn = n + en , n Vn , en Pn ,

esimas de distribuciones de media siendo Pn la familia compuesta por las potencias n- 0 y varianza nita. N otese que, para cada n N, tenemos un Modelo Lineal Exacto en dimensi on n. Por lo tanto, tiene sentido hablar de los estimadores n = PVn Yn , 2,I n = 1
nv
2 PVn Yn =

1
nv

2 PVn en .

Manuales Uex 68

As mismo y en lo que respecta a la problema de Contraste de Hip otesis, si consideramos una secuencia (Wn )nN de subespacios w-dimensionales de (Vn )nN , respectivaerminos mente, tendr a sentido hablar del estad stico de contraste Fn , denido en los t de (3.23). N otese que, al contrario de lo que sucede en el Modelo Lineal Normal Exacto, el Modelo Lineal Asint otico no queda parametrizado por un vector media, , y una

MODELOS LINEALES
3.4. ESTUDIO ASINTOTICO DEL MODELO 69

amos hablar de una sucesi on de medias (n )nN y una varianza 2 . Si acaso, podr sentido hablar de una secuencia de estimadores convarianza 2 . Por ello, tiene aqu on, sistente para 2 , pero no para . Este problema, que afecta al estudio de Estimaci podr a resolverse si consider aramos el Modelo Asint otico que resulta de imponer a on: suponer que existe una sucesi on (Xn )nN de bases de (n )nN la siguiente restricci (Vn )nN , de manera que (n )nN verica Rv : n = Xn , n N. (3.31)

De esta forma, s tendr a sentido hablar de una secuencia de estimadores consistente para . Consideremos, concretamente, la secuencia denida mediante = (X Xn )1 X Yn , n n n Se verica entonces lo siguiente.
n N.

Teorema 3.14.
En las condiciones anteriores, si se verica la hip otesis m

n la secuencia de estimadores nN es consistente.

Xn Xn

(3.32)

Demostraci on. Tener en cuenta, primeramente, que n = 2 (X Xn )1 , n = , Cov E n > P n

n N.

Por lo tanto, dado > 0, se sigue de la Desigualdad de Chebyshev19 que


v 2 m((Xn Xn )1 )

Sea Dn la matriz diagonal de los autovalores de Xn Xn , para cada n N. Por el teorema 1 a Dn . Luego, teniendo en cuenta 9.4, la matriz de los autovalores de (Xn Xn )1 ser 1 (3.30), se verica que m((Xn Xn ) ) 0, lo cual concluye la prueba. Veamos qu e podemos decir respecto a la estimaci on de 2 .
19 Si X en una variable aleatoria real con momento de segundo orden nito en un espacio de probabilidad y > 0, entonces P (|X E[X ]| > ) var[X ]/ 2 .

Manuales Uex 69

jess montanero fernndez


70 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

Teorema 3.15. 2,I


Demostraci on. Se verica que

La secuencia n nN de estimadores de 2 es consistente.

nv n

2,I =

2 PVn en

en 2
n

PVn en 2
n

Teniendo en cuenta que, E[en ] = 0 y Cov[en ] = 2 Id, se deduce que E[PVn en ] = 0 y on 9.16 se sigue que Cov[PVn en ] = 2 PVn . Entonces, del lema 3.1 y de la proposici E [PVn en 2 ]
n

= 2

tr(PVn )
n

= 2 .
n

Dado > 0, se verica triviamente, para todo n N, que P (PVn en 2 /n > ) < En consecuencia, PVn en 2
n
P

E [PVn en 2 ] /n .

20

Dado que (fi2 )iN constituye una sucesi on de variables aleatorias iid de media 2 , se verica, en virtud de LDGN, en 2
n

1
n
i=1

fi2 0.

(3.33)

Entonces, se sigue del teorema 9.21 que n en 2 PVn en 2 P 2,I n= 0. nv n n Obviamente, obtendremos tambi en una secuencia consistente si utilizamos el estimador (3.9). El siguiente resultado se sigue del Teorema Central del L mite.

Teorema 3.16.

Manuales Uex

Sea (an )nN una secuencia de vectores tales que an Rn y an = 1, para todo n N. Si m(an ) 0, entonces an en N (0, 2 ).
d
20

N otese que esta armaci on sigue siendo v alida si sustituimos en el denominador n por

70

MODELOS LINEALES
3.4. ESTUDIO ASINTOTICO DEL MODELO 71

Demostraci on. Para cada n N, consideremos la descomposici on an = (an1 , . . . , ann ), y sea Xni = n ani fi , 1 i n. En ese caso, an en = i=1 Xni . Todos los Xni , 1 i n, son as, independientes por serlo las fi . Adem E[Xni ] = 0, var[Xni ] = ani 2 ,
n
i=1

var[Xni ] = 2 .

Por lo tanto, para demostrar la tesis basta probar que se verica la hip otesis (9.66) del teorema 9.26, es decir, Cn =
n 1 2 E Xni I (Xni ) 0. 2 i=1

(3.34)

Efectivamente, si mn = m(an ), se verica21 2 Cn = =


n n n 2 2 2 E Xn a2 a2 i I (Xni ) = ni E fi I/ani fi ni E fi I/mn fi
i=1 i=1 i=1

n
i=1

2 2 a2 ni E f1 I/mn f1 = E f1 I/mn f1 .

2 2 2 Teniendo en cuenta que |f1 I/mn f1 | < f1 y que f1 es integrable, se deduce del Teorema de la Convergencia Dominada que 2 l m Cn = l m (f1 I/mn f1 ) dP.

dado que mn converge a 0, por hip otesis, el integrando converge puntualmente a 0, con lo cual acabamos. Como consecuencia obtenemos el siguiente resultado, de gran utilidad tanto para el problema de Estimaci on como de Contraste de Hip otesis.

Lema 3.17.

n en Nu (0, 2 Id).
21

Cuando ani valga 0, considerar el sumando correspondiente como nulo.

Manuales Uex 71

Sea (n )nN una sucesi on de matrices de dimensi on n u, respectivamente, tales que n n = Id, para todo n N y m(n n ) converge a 0. Entonces,

jess montanero fernndez


72 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

Demostraci on. Dado c Ru tal que c = 1, consideremos, para cada n N, el vector an = n c en an = 1. Dado que m(c) 1, se tiene que m(an ) converge Rn , vericando tambi a 0, pues m(an ) u m(c) m(n ) u(m(n n ))1/2 . Luego, por el teorema 3.16, c n en N (0, 2 ). Teniendo en cuenta la Astucia de Cramer-Wold (teorema 9.21-(x)), se concluye. El siguiente resultado, muy interesante desde el punto e vista de la Estimaci on, se obtiene como corolario del anterior.
d

Teorema 3.18.
Supongamos que se verica (3.31) junto con la siguiente propiedad
n

l m m

Entonces,

Xn (Xn Xn )1 Xn = 0.

(3.35)

n ) = 1 , donde (ii) Para todo (0, 1), l mn P (E 2, n = b Rv : 2,I b n b X Xn E n v n n

d n (i) (Xn Xn )1/2 Nv (0, 2 Id).

(3.36)

Demostraci on. (i) Si para cada n N consideramos la matriz n = Xn (Xn Xn )1/2 , entonces (n )nN satisface las hip otesis del lema anterior con u = v. Por lo tanto, n en Nv (0, 2 ). Teniendo en cuenta que,
d

Manuales Uex

= (X Xn )1 X (Yn n ), n n n se deduce = en , (Xn Xn )1/2 n n

72

MODELOS LINEALES
3.4. ESTUDIO ASINTOTICO DEL MODELO con lo cual se acaba la primera parte. (ii) Del apartado anterior se deduce que 2,I 1 d Xn Xn 2 n v. 2,I n 2 73

Teniendo en cuenta que 2,I n converge a 2 en probabilidad, junto con el teorema 9.21-(ix), podemos despreciar el u ltimo factor del primer t ermino y, aplicando el teorema 9.21-(ii) acabamos. n N otese que, de (i) se sigue que, para n sucientemente grande, el estad stico 2 1 sigue aproximadamente un modelo de distribuci on Nv (, (Xn Xn ) ). En ese sentido podemos decir que el la proposici on (iii) del teorema 3.15 es asint oticamente v alida para el Modelo Lineal, supuesto que se satisfaga la condici on (3.35). Lo mismo puede decirse, por (ii), de la regi on de conanza (3.16). Respecto al test F, que es el de la raz on de verosimilitudes, sabemos, en virtud del teorema 9.28, que puede expresarse asint oticamente haciendo uso de la distribuci on 2 con dimV dimW grados de libertad. Veremos a continuaci on c omo podemos extender este resultado asint otico al Modelo Lineal (sin suponer normalidad). Si (Un )nN es una sucesi on de subespacios de Rn , respectivamente, de dimensi on u N, y tal que (3.37) m(PUn ) 0, Entonces PUn en 2 d 2 u. 2

Teorema 3.19.

Demostraci on. Es consecuencia directa del lema 3.17, considerando una base ortonormal de cada subespacio (Un ), n N. La hip otesis (3.37), que desempe na un papel crucial en nuestra teor a, se conoce normalmente como Condici on de Huber y puede considerarse una suerte de traducci on de la condici on de Lindemberg (9.66) al Modelo Lineal. En cap tulos posteriores, cuando abordemos estudios m as espec cos como son la regresi on lineal o el dise no de experimentos, veremos en qu e se traduce dicha hip otesis para cada caso. Este resultado permitir a extender, en los t erminos de la Teor a Asint otica, el test F al Modelo Lineal (sin suponer normalidad). Si el modelo verica la condici on (3.31), la

Manuales Uex 73

jess montanero fernndez


74 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

condici on de Huber equivale a (3.35), y conere, como ya hemos visto, normalidad asint otica al estimador de y validez asint otica a la regi on de conanza (3.16).

Teorema 3.20.
En las condiciones del Modelo Lineal Asint otico, si (Wn )nN es una sucesi on de subespacio on w, y (Vn )nN satisface la lineales de (Vn )nN , respectivamente, todos ellos de dimensi condici on de Huber (3.37), entonces
= Fn

PVn |Wn (Yn n )2 d 1 2 . (v w) 2,I n v w vw

Demostraci on. Dado que PVn = PWn + PVn |Wn , se tiene que (Vn |Wn )nN verica igualmente la condici on (3.37) luego, por el teorema 3.16, PVn |Wn en 2 d PVn |Wn (Yn n )2 = 2 vw . 2 2 Por otro lado, se sigue del teorema 3.15 que 2,I n P 1. 2 Aplicando el teorema 9.21, se obtiene
= Fn

PVn |Wn (Yn n )2 1 2,I n d 2 . (v w) 2 v w vw

Corolario 3.21.
En las condiciones del teorema anterior, y si n Wn para todo n N, se verica Fn
d

Demostraci on. Basta aplicar el teorema anterior teniendo en cuenta que (3.23) y que PVn |Wn n = 0, para todo n N. En virtud de este resultado se verica que, si se satisface la condici on de Huber on de junto con la hip otesis nula (n Wn , para todo n N), y se considera sucesi tests (Fn )nN , denidos mediante 2, 1 si F (Y ) > vw n v w , Fn (Yn ) = 2, 0 si F (Y ) vw
n

. v w vw

Manuales Uex

vw

74

MODELOS LINEALES
3.4. ESTUDIO ASINTOTICO DEL MODELO entonces Por ello, si consideramos el contraste de hip otesis H0 : W en un Modelo Lineal, on del test F siendo n sucientemente grande, se verica que el nivel de signicaci denido en (3.19) es aproximadamente igual a . En ese sentido decimos que el test F es asint oticamente v alido, aunque no se verique el supuesto de normalidad, siempre y cuando se satisfaga la condici on de Huber. Por otra parte, la distribuci on l mite de F en el caso nulo corresponde, como cabr a esperar, a la distribuci on asint otica del para el TRV, seg un se reeja en el teorema 9.28. Podemos ir un poco m as lejos. Se prueba en Arnold (1981)22 que, si se verica la condici on (3.37) y, adem as, existe > 0 tal que
n n

75

l m P ({Fn = 1}) = 1 .

l m PVn |Wn n = ,
d

(3.38)

entonces Fn

Ello permite construir la funci on potencia asint otica para todos los valores del par ametro vericando la condici on (3.38). Curiosamente, puede comprobarse que, si se plantea el contraste de la hip otesis H0 : W suponiendo normalidad y varianza 2 conocida (estamos hablando pues de otro modelo), se obtiene23 un test optimo a nivel (UMP-invariante) cuyo estad stico de contraste F = sigue una distribuci on dimV dimW
2

1 2 v w vw

2 2

PV |W Y 2 2

(3.39)

PV |W 2 2

(, 2 ) V R+ .

En ese sentido podr amos decir que, si se cumple la condici on de Huber, la potencia asint otica del test F en el Modelo Lineal para los valores del par ametro que verican (3.38), en particular en el caso nulo, coincide con la del test optimo que se obtiene suponiendo normalidad y varianza conocida24 . Ya hemos visto c omo se comporta asint oticamente el Modelo Lineal en lo que respecta a los contraste de hip otesis sobre . Veamos ahora en qu e medida el uso de
Cap tulo 10, ejercicio C1. Arnold (1981), secci on 7.11 24 Heur sticamente hablando, podr amos decir qu la violaci on de la normalidad y el desconocimiento de la varianza pueden ser, de alguna manera, obviados para muestras sucientemente grandes.
22 23

Manuales Uex 75

jess montanero fernndez


76 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

una cantidad sucientemente grande de datos puede permitirnos obviar el supuesto de normalidad a la hora de construir un test de hip otesis o un intervalo de conanza 2 para . Supongamos que las variables fi poseen momento de orden 4 y sea entonces el coeciente denido mediante =
4 4 E[f1 ] ] 25 E[f1 . = 4 2 2 (E[f1 ])

(3.40)

Teorema 3.22.
En las condiciones anteriores se verica 2,I n 2 N 0, 4 ( 1) n
d

Demostraci on. Se sigue la demostraci on del teorema 3.15, pero al llegar a (3.33) aplicamos TCL (caso iid) en lugar de LDGN, con lo cual se tiene que
n

en 2
n

Entonces, teniendo en cuenta que n1/2 PVn en 2 converge a 0 en probabilidad y que (n v)/n converge a 1, basta aplicar el teorema 9.21-(ix) para concluir. Operando en la expresi on obtenida pueden obtenerse, mediante la distribuci on N (0, 1), tests de hip otesis e intervalos de conanza con validez asint otica, siempre y cuando , denominado coeciente de Kurtosis, sea conocido, cosa poco veros mil. on normal, entonces Por ejemplo, puede comprobarse que, si f1 sigue una distribuci = 3, con lo cual el problema estar a resuelto desde el punto de vista asint otico, lo cual no aporta mucho, puesto que el problema ya est a resuelto tambi en en el Modelo Exacto. No obstante, el resultado anterior tiene interesantes aplicaciones. A modo de ejemplo, haremos uso del mismo para construir el denominado test de Barlett de igualdad de varianzas, que ser a de utilidad en cap tulos posteriores. Consideremos k vectores aleatorios independientes
2 ), Yi Nni (i , i 2 i Vi , i > 0,

d N 0, 4 ( 1) .

i = 1, . . . , k

Manuales Uex

siendo cada Vi un subespacio vi -dimensional de Rni . Supongamos que queremos cona componer un Modelo trastar la hip otesis inicial H0 : 1 = . . . = k , lo cual permitir
25

De la desigualdad de Holder se sigue trivialmente que 1.

76

MODELOS LINEALES
3.4. ESTUDIO ASINTOTICO DEL MODELO 77

on por suciencia y otra por Lineal Normal en dimensi on n = i ni . Una reducci stico invarianza26 en el modelo producto nos llevan a considerar el estad 2,I k ) . ( 2,I 1 , . . . , El teorema anterior (con = 3) garantiza que i = 1, . . . , k. etodo Delta Si consideramos la transformaci on g (x) = (log x)/ 2 y aplicamos el M (teorema 9.27), se tiene que d ni 2 N (0, 1), i = 1, . . . , k log 2,I i,ni log i 2
2 4 2,I i,ni i N (0, 2i ), ni

Por lo tanto, para valores de n1 , . . . , nk sucientemente grandes, se tiene que el vector aleatorio n1 log 2,I 1,n1 2 . . T= .

siendo adem as secuencias independientes. Es decir, n1 2 (log 2,I 1,n1 log 1 ) 2 d . . Nk (0, Id). .

(3.41)

nk

(log

2,I

k,nk

2 log k )

nk

log 2,I k,nk

sigue, aproximadamente, una distribuci on Nk (, Id), donde puede ser cualquier esima es vector de Rk , pues su componente i- ni 2 i = , i = 1, . . . , k. log i 2

Podemos pues considerar un nuevo modelo que se dene mediante Z Nk (, Id), Rk , 2 > 0. (3.42)

nk

26

Respecto al grupo de las traslaciones.

Manuales Uex 77

En este modelo podemos contrastar la hip otesis inicial n1 . . W = . .

jess montanero fernndez


78 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO

Dado (0, 1), el test siguiente es entonces UMP-invariante a nivel en el modelo (3.42) para contrastar la hip otesis inicial W : , 1 si F > 2 k 1 . = 2, 0 si F k1

Ya hemos comentado con anterioridad que en un modelo de este tipo (con varianza conocida), el contraste se resuelve de manera optima mediante el estad stico (3.39). En nuestro caso, 2 . F = PW Z 2 2 k1 PW

Ahora bien, puede comprobarse f acilmente que, en virtud de (3.41), si H0 es cierto, la distribuci on del estad stico F T converge a 2 k1 cuando ni tiende a innito, para todo i = 1, . . . , k. Por lo tanto, el nivel de signicaci on del test = T , construido a partir de un test optimo a nivel en el modelo l mite (3.42), converge a cuando ni converge a innito para todo i = 1, . . . , k, es decir, que es asint oticamente v alido. Falta s olo determinar una expresi on m as apropiada para el estad stico de contraste F T. Concretamente, consideremos ni , i = 1, . . . , k jos. Si se denota 1 k n ni , = i
j =1

el estad stico F T se expresa mediante F T = PW T = =


k i=1 2 k i=1

Ti

ni

ni

log

j =1

nj Tj

Por lo tanto, el test de Barlett de igualdad de varianzas a nivel es el siguiente 2 k , i 1 si > 2 k 1 i=1 ni log 2 = . , 0 si k n log i 2 k1 i=1 i

Manuales Uex 78

No obstante, hemos de recalcar que este test puede considerarse v alido para muestras sucientemente grandes y suponiendo que se verique la hip otesis de normalidad (recordemos que hemos supuesto = 3). De hecho, el test resulta ser bastante sensible ante la violaci on de dicho supuesto, cosa bastante com un en buena parte de los tests cl asicos relativos a la varianza (o la matriz de varianzas-covarianzas en el caso multivariante).

MODELOS LINEALES
3.5. INTERVALOS DE CONFIANZA SIMULTANEOS 79

3.5.

Intervalos de conanza simult aneos

Para acabar el cap tulo dedicado al an alisis del Modelo Lineal desde un punto de vista puramente te orico, abordaremos el estudio general de las familias de intervalos de conanza simult aneos, lo cual nos conducir a a los m etodos de Sche e y Bonferroni, a los cuales se a nadir a en el cap tulo 6 el de Tuckey, de car acter m as espec co. Primeramente, hemos de aclarar el concepto en s . Dado un modelo estad stico (, A, {P : }), un conjunto de estimandos reales y (0, 1), una familia de intervalos de conanza simult aneos a nivel 1 = {(a para es una colecci on de pares de estad sticos reales I , b ) : }, tal que
P : a ( ) ( ) b ( ),

= 1 ,

Consideremos un Modelo Lineal Normal

Y Nn (, 2 Id),

V, 2 > 0,

y una hip otesis inicial H0 : W, para alg un W V. Se denomina contraste a cualquier elemento del subespacio V |W . Nuestro objetivo es, dado (0, 1), construir una familia de intervalos de conanza simult aneos a nivel 1 para el conjunto [V |W ] = {d : d V |W }, donde d (, 2 ) = d, Necesitamos un lema previo. , d V |W, (, 2 ) V R+ .

Lema 3.23.
Si x Rn y E Rn , entonces e, x2 = PE x2 . 2 eE \{0} e sup Demostraci on. Dado x Rn , se verica trivialmente que x, e = PE x, e = e, PE x, para todo e E. Luego, aplicando la Desigualdad de Cauchy-Schwartz a x, e2 se deduce que

La desigualdad contraria se obtiene valorando el cociente en el vector e = PE x.

Manuales Uex 79

e, x2 PE x2 . 2 eE \{0} e sup

jess montanero fernndez


80 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO
Consideremos la familia I[ V |W ] = {(ad , bd ) : d V |W } denida mediante

Teorema 3.24.

1/2 dimV |W Fdim d a d (Y ) = d, V dimW ,ndimV 1/2 + dimV |W Fdim d b d (Y ) = d, V dimW ,ndimV

(3.43) (3.44)

I[ aneos a nivel 1 para V |W ] constituye una familia de intervalos de conanza simult [V |W ]. Demostraci on. Dado un valor jo del par ametro (, 2 ), se verica, en virtud del lema anterior,
P,2 (a d d, bd , d V |W )

= P,2

d, 2 Fdim V dimW ,ndimV , d V |W \{0} (dimV dimW ) 2,I d2 d, 2 sup = P,2 FdimV dimW ,ndimV 2,I d2 dV |W \{0} (dimV dimW ) 2 PV |W ( ) = P,2 FdimV dimW ,ndimV (dimV dimW ) 2,I 2 PV |W ( ) FdimV dimW ,ndimV , (dimV dimW ) 2,I

Teniendo en cuenta que

se concluye. Si deseamos contrastar la hip otesis inicial H0 : W, hemos de percatarnos de d : d = 0. olo si, para cada d V |W , se satisface la hip otesis H0 que H0 es cierta si y s Como los estad stico denidos en (3.43) y (3.44) determinan un intervalo de conanza otesis inicial H0 para d , podemos proponer el test consistente en aceptar la hip cuando el valor 0 quede dentro de los intervalos de conanza de la familia I[ V |W ] . No obstante, ello equivaldr a a armar que 2 PV |W 1 Fdim V dimW ,ndimV . dimV dimW 2,I

Manuales Uex 80

MODELOS LINEALES
3.5. INTERVALOS DE CONFIANZA SIMULTANEOS 81

Teniendo en cuenta (3.23), se deduce que el test propuesto es, precisamente, el test F. En ese sentido decimos que el test F a nivel es consistente con la familia I[ V |W ] de intervalos de conanza simult aneos a nivel 1 para [V |W ], la cual se denominar a en lo sucesivo, familia de Sche e a nivel 1 . El problema de la familia de Sche e es que, para que d pertenezca al intervalo (ad , bd ), cualquiera que sea el contraste d elegido, es necesario que dichos intervalos sean m as conservadores de lo deseado, es decir, demasiado amplios. Una soluci on a este problema puede ser seleccionar un subconjunto de contrastes particularmente interesantes y construir una familia de intervalos de conanza simult aneos para la misma. Tal es el caso de la familia de Tuckey, que estudiaremos en el cap tulo 4. El m etodo en cuesti on se encuadra en el marco del An alisis de la Varianza, y consiste en seleccionar un tipo de contrastes denominados comparaciones m ultiples. Presenta la desventaja de que deja de ser consistente con el test F y exige, te oricamente, que las diversas muestras tengan el mismo tama no. Existe otro m etodo alternativo al de Tuckey, aunque v alido en un contexto m as general, para construir pseudo-familias de intervalos de conanza a u pseudo-nivel 1 para un subconjunto nito de D V |W . Aproximado a 1 : el m etodo de Bonferroni. Decimos pseudo-nivel 1 porque verican (3.45) P,2 Ad d, Bd ( ), d D 1 , (, 2 ) V R+ . Se basa en la conocida Desigualdad de Bonferroni P (Ac P (i Ai ) 1 i ).
i

(3.46)

Teorema 3.25.
La familia siguiente verica (3.45)

La demostraci on se deja como ejercicio. El principal problema del m etodo de Bonferroni radica en si conservadurismo, a pesar de la precisi on que se gana al seleccionar un subconjunto nito de V |W . No en vano la probabilidad de acierto es superior a 1 .

2card(D ) A = d Idtn d dim V , d D. B = d + Idt 2card(D)


d

ndimV

Cuestiones propuestas
1. Demostrar el lema 3.1.

Manuales Uex 81

jess montanero fernndez


82 CAP ITULO 3. MODELO LINEAL DE RANGO COMPLETO 2. Demostrar la proposici on 3.4. 3. Demostrar la igualdad (3.10). 4. Demostrar el teorema 3.9. 5. Teniendo en cuenta la Desigualdad de Chebyshev, probar que kFk,m 2 k. 6. Probar que, si se verica la condici on de Huber, la regi on de conanza (3.12) es asint oticamente v alida para el Modelo Lineal. 7. La regi on de conanza (3.16) es un elipsoide. Qu e tiene que suceder para que sea un esfera? C omo se traducir a esa condici on a un problema de Regresi on Lineal? 8. Consideremos el modelo Y Nn (X, 2 Id), Rs , 2 > 0,
d

donde las columnas de X, que se denotan mediante X1 , . . . , Xs , constituyen un sistema ortonormal. Se desea contrastar la hip otesis inicial de que todas las componentes de son id enticas. Probar que el estad stico de contraste del test F puede expresarse mediante
ns s1

F =

2 j =1 ( j Y )

Este estad stico se comparar a con el cuantil Fs 1,ns .

2 s n 1 j =1 Xi Y 2 Y Y s j =1 (Xi Y )

9. Probar que el estad stico (3.27) sigue una distribuci on tnv cuando d = 0. 10. Demostrar que cualquier distribuci on normal presenta un coeciente de Kurtosis = 3. 11. Desarrollar la demostraci on del teorema 3.22 12. Siguiendo un procedimiento an alogo al test de Barlett, obtener un test para contrastar la igualdad de las varianzas partiendo de distribuciones con Kurtosis conocido . 13. Demostrar el teorema 3.25.

Manuales Uex 82

MODELOS LINEALES
3.5. INTERVALOS DE CONFIANZA SIMULTANEOS 83

14. M etodo de m nimos cuadrados generalizado: Dada una matriz A Mnn denida positiva, consideremos el modelo Z Nn (, 2 A), V Rn , 2 > 0.

Consideremos tambi en un subespacio W V. Encontrar entonces un estad stico suciente y completo. Probar que el EIMV y EMV de es aqu el que minimiza la distancia de mahalanobis ) (Y ) A1 (Y Encontrar, asimismo, el EIMV y EMV de 2 y un test UMP-invariante a nivel para contrastar la hip otesis inicial H0 : W. Indicaci on: Se aconseja considerar la transformaci on Y = A1/2 Z , resolver los problemas anteriores en el nuevo modelo y deshacer el cambio. Nota: N otese que, en el caso ya estudiado, es decir, con A = Id, el estimador de obtenido en la teor a es el que minimiza la distancia eucl dea (3.6), por lo que se denomina soluci on por el m etodo de m nimos cuadrados. En nuestro caso diremos que es una soluci on por el m etodo de m nimos cuadrados generalizados. Si el modelo se parametriza a trav es de las coordenadas de respecto de una que base X de V , entonces nuestro problema se traduce a buscar el estimador minimice A1 Y X Y X Este problema ser a de utilidad a la hora de estudiar el m etodo de M nimos Cuadrados Ponderados en Regresi on.

m 15. En las condiciones anteriores, probar que la soluci on nimo-cuadr atica generalizada es la soluci on a la ecuaci on lineal = X A1 Y X A1 X (3.47)

16. Dada una matriz X Mnk , consideremos el modelo Y Nn (X, 2 ), donde otesis Rk y 2 > 0. Determinar el test F a nivel para contrastar la hip inicial de que las dos primeras componentes de son id enticas.

Manuales Uex 83

17. Tiene validez asint otica la familia de intervalos de conanza simult aneos de Sche e cuando se prescinde del supuesto de normalidad?

MODELOS LINEALES

Cap tulo 4 Regresi on Lineal M ultiple


En el presente cap tulo abordamos problemas como los que aparecen en los ejemplos 1 y 2 del cap tulo 1. Es decir, consideramos una variable dependiente, y , que pretende ser explicada a partir de q variables explicativas, z [1], . . . , z [q ], mediante una ecuaci on lineal. El hecho de que las variables explicativas sean, efectivamente, variables aleatorias o, por contra, predeterminadas de antemano, es lo que caracteriza a los Modelos de Correlaci on y Regresi on, respectivamente. En este cap tulo se considerar an jos los valores correspondientes a z [1], . . . , z [q ], respectivamente, que se denominar an vectores explicativos. El modelo de Correlaci on se estudiar a en el siguiente cap tulo. No obstante, adelantamos aqu , tal y como se comenta en la Introducci on, que todos los problemas de Inferencia Estad sticos que se plantean en el Modelo de Regresi on se resuelven de id entica forma (salvo ciertos matices te oricos) desde el Modelo de Correlaci on. La Regresi on Lineal M ultiple se caracteriza porque admite varios vectores explicativas. Como caso particular, cuando es s olo uno, se denomina Regresi on Lineal Simple. Si se consideran varias variables dependientes estaremos hablando de una Regresi on Lineal Multivariante. Este u ltimo estudio no se trata aqu 1 , aunque no a nade dicultades considerables, al menos en lo que a Estimaci on se reere. En este cap tulo pueden distinguirse claramente dos partes: la primera (secciones 1 y 2) dedicada al estudio del modelo sin considerar los posibles problemas pr acticos que conlleva, bien sea por la violaci on de los supuestos del modelo, bien por las dicultades a la hora de extraer conclusiones. Por lo tanto, se trata en buena parte de la aplicaci on directa de los resultados obtenidos en el cap tulo anterior. La segunda parte trata el diagn ostico y posibles soluciones a dichos problemas. En todo caso, el estudio puede complementarse con la bibliograf a que se referencia a lo largo del cap tulo. Dicho esto,
1

Ver el volumen dedicado al An alisis Multivariante

85

Manuales Uex 85

jess montanero fernndez


86 LINEAL MULTIPLE CAP ITULO 4. REGRESION

empezaremos deniendo de forma precisa el Modelo y jando la notaci on a seguir. Advertimos que muchos conceptos que aqu se denen se manejan e interpretan en el Ap endice. Asumimos la redundancia en aras de una mejor compresi on de los mismos. Consideraremos una vector aleatorio Y = (Y1 , . . . , Yn ) que se expresa mediante Y1 = 0 + 1 z1 [1] + . . . + q z1 [q ] + 1 . . . . . . . . . . . . . . . Yn = 0 + 1 zn [1] + . . . + q zn [q ] + n donde = (0 , 1 , . . . , q ) puede ser, en principio, cualquier vector de Rq+1 y i , on N (0, 2 ), pudiendo ser 2 cualquier i = 1 . . . , n, son variables iid con distribuci n umero positivo. Si se denota E = (1 , . . . n ) y 1 z1 [1] . . . z1 [q ] . . . . . X= . . . . 1 zn [1] . . . zn [q ] E Nn (0, 2 Id),

el modelo equivale a considerar un vector aleatorio Y tal que Y = X + E , Rq+1 , 2 > 0.

Se trata pues de un caso particular del Modelo Lineal Normal. Se supondr a por hip otesis que rg(X) = q + 1. La primera columna de la matriz X se denota por 1n , y la submatriz restante por Z. Siguiendo la notaci on introducida en el Ap endice, se denotan por z[j ], j = 1, . . . , q an vectores explicativos. Lo estad sticos los vectores columnas de Z, que se denominar y , Y , Y0 , z[j ],z, Z y Z0 se denen tambi en como en el Ap endice. Se denotan por xi y zi , i = 1, . . . , n, los vectores las traspuestos de X y Z, respectivamente. Podemos hablar de la matriz de varianzas-covarianzas total muestral 2 1 Y0 Y0 Y0 Z0 1 sy Sy z . (4.1) = S= Z0 Y0 Z0 Z0 Szy Szz n n La varianza parcial muestral, denida en (9.64), queda como sigue:

Manuales Uex

2 1 s2 y z = sy Sy z Szz Szy .

(4.2) 0 .

Por u ltimo, se denota por el vector de (1 , . . . , q ) , de manera que =

86

MODELOS LINEALES
4.1. ESTIMACIONES E INTERVALOS DE CONFIANZA. 87

4.1.

Estimaciones e intervalos de conanza.

Dado que el estudio de Regresi on Lineal puede formalizarse mediante un Modelo on y Contraste de Hip oteLineal Normal con V = X, los problema de Estimaci sis han quedado resueltos, desde un punto de vista te orico, en el cap tulo anterior. Unicamente hemos de aplicar los resultados all obtenidos.

Estimaci on de y 2 .
Primeramente, en lo que se reere al problema de Estimaci on, contamos con dos par ametros: Rq+1 2 y 2 > 0. En virtud del teorema 3.9, el EIMV y EMV de es = (X X)1 X Y. (4.3) Estamos pues hablando del u nico vector de Rq+1 tal que = Px Y. X

es el estimador de la media de Y , que en el cap Precisamente, X tulo anterior denot abamos por . No obstante, en este contexto y con el n de coincidir en la notaci on con la mayor parte de la bibliograf a recomendada, se denotar a Y = X, 1, . . . , Y n , denomin y sus componentes se denotar an por Y andose en lo sucesivo valo1 , . . . , q . El vector 0 , res ajustados. La componentes de se denotar an mediante Siguiendo abreviadamente la 0 se denota por . compuestos por todas ellas salvo notaci on introducida en el Ap endice, se tiene que . e=Y Y Las componentes del vector anterior, que se denotar an por ei , i = 1, . . . , n, se denominan residuos de regresi on. Se verica entonces que 2 = m e2 = Y X n{Y Xb2 : b Rq+1 }. (4.4) El EIMV de 2 es 2,I = e2 n (q + 1) 1 2 Y X = n (q + 1) n 2 1 0 + z Yi = . i n (q + 1) i=1 (4.5) (4.6) (4.7)

Para mayor comodidad, suprimimos la notaci on x utilizada en el cap tulo anterior.

Manuales Uex 87

jess montanero fernndez


88 LINEAL MULTIPLE CAP ITULO 4. REGRESION

1 2 2 Seg un (9.65), se tiene que s2 y z = n e . De hecho, se trata del EMV de . Del teorema 3.9 se sigue tambi en que

Luego, en particular,

Nq+1 , 2 (X X)1 . j N (j , 2 jj ), j = 0, 1, . . . , q, (4.8)

esimo elemento de la diagonal de (X X)1 . En (4.65) se da una donde jj denota el j - expresi on expl cita de estos valores que depender a, entre otros factores, del coeciente de correlaci on m ultiple de z[j ] respecto al resto de vectores explicativos. Sabemos que el elipsoide (3.16) constituye una regi on de conanza a nivel 1 para . Por su parte, 2,I 2 2 [n (q + 1)] n(q+1) , (4.9)

siendo independiente del estimador de , lo cual permite construir el siguiente intervalo de conanza a nivel 1 para i , i = 0, 1, . . . , q. j t/2 I jj n(q+1) (4.10)

Manuales Uex

al es el En (3.13) podemos encontrar un intervalo de conanza para 2 . Veamos cu comportamiento asint otico de los estimadores a medida que vamos introduciendo m as unidades experimentales en el estudio, es decir, a medida que se a naden nuevas las otico del tipo (3.31)). Del a la matriz (Y X) (en ese caso, tendremos un Modelo Asint no de muestra n tiende a teorema 3.14 se sigue que, si m(X X) cuando el tama innito, el estimador de beta considerado es consistente. Pero la condici on anterior se verica trivialmente en nuestro caso, pues el primer elemento de la diagonal de X X coincide precisamente con el tama no de muestra. Por otra parte, del teorema 3.15 se on, intentaremos expresar los deduce la consistencia del estimador de 2 . A continuaci estimadores de y 2 a partir de las medias muestrales y matrices de covarianzas, lo cual facilitar a enormemente el estudio de los coecientes de correlaci on. Realmente, hemos de advertir lo que viene a continuaci on no es sino un caso particular de lo estudiado en el Ap endice. son los u 0 y nicos elemento de R Primeramente, hay que tener en cuenta que q y R , respectivamente, tales que 0 1n + Z. Px Y =

88

MODELOS LINEALES
4.1. ESTIMACIONES E INTERVALOS DE CONFIANZA. 89

on Dado que Z0 = P1n Z, se tiene que X = 1n Z0 , siendo dicha descomposici ortogonal. Por lo tanto, Px Y puede calcularse como sigue3 Px Y = P1n Y + Pz0 Y = P1n Y + Pz0 Y0 = y 1n + Z0 (Z0 Z0 )1 Z0 Y0
1 Szy = y 1n + (Z Z)Szz 1 1 Szy . = y z Szz Szy 1n + ZSzz

En consecuencia,

= S 1 Szy , zz

0 = y z .

(4.11)

= (Z Z0 )1 Z Y, se sigue de lo anterior y de de (9.11) que e y son Dado que 0 0 independientes y que 2 Nq , S 1 , (4.12) zz n lo cual ser a de gran utilidad cuando construyamos los intervalos de conanza para las predicciones. Un caso particular por su sencillez es el la Regresi on Simple, donde tenemos s2 z. = zy , =y 0 1 s2 z

Otro enfoque del problema


Lo que vemos a continuaci on es el planteamiento y soluci on del problema mediante la aplicaci on directa del criterio de m nimos cuadrados, sin hacer uso del concepto de proyecci on ortogonal. Obviamente, obtendremos una soluci on id entica. Dados las observaciones de la variable respuesta, Y1 , . . . , Yn y de los valores explicativos, z1 [1], . . . , zn [q ], se trata de buscar los valores de 0 , 1 , . . . , q que minimizan la suma de cuadrados siguientes:
n
i=1

Yi (0 + 1 zi [1] + . . . q zi [q ])

3 Realmente, la expresi on de Px Y se obtuvo ya en (9.61). En consecuencia, el razonamiento que sigue puede omitirse.

Manuales Uex 89

El m nimo se busca haciendo uso de herramientas del C alculo Diferencial. Concretamente, se buscan los valores donde las derivadas parciales respecto a los par ametros

jess montanero fernndez


90 LINEAL MULTIPLE CAP ITULO 4. REGRESION

se anulan. Es decir, se plantea el siguiente sistema de ecuaciones lineales: 0 = Yi (0 + 1 zi [1] + . . . + q zi [q ]) 0 =


i i

(4.13) (4.14)

Yi (0 + 1 zi [1] + . . . + q zi [q ]) zi [j ],

j = 1, . . . , q

= ( , 1 , . . . , q ) es condici En consecuencia, para que el m nimo se alcance en on 0 necesaria que ) = 04 X (Y X Es decir, buscamos una soluci on al sistema de ecuaciones lineales =0 X Y = X X Si la matriz X es de rango completo, como suponemos en nuestro caso, la u nica 5 nica soluci on soluci on es, precisamente, (4.3) . El Hessiano es 2X X > 0, luego la u es, efectivamente, un m nimo.

Coeciente de correlaci on m ultiple


ermino descompone de esta forma Recordemos que 2,MV = s2 y z , y que el segundo t
2 1 s2 y z = sy Sy z Szz Szy .

(4.15)

El segundo sumando del t ermino de la derecha es la matriz de covarianzas total = Px Y. En muestral de Pz0 Y0 , que equivale a la matriz de covarianzas total de Y consecuencia, tenemos la siguiente descomposici on de la varianza muestral de Y :
2 2 s2 y = sPz Y + sy z 0 2 = s2 + sy z . Y

Esta descomposici on de s2 on ortogonal y se corresponde con la siguiente descomposici de 1n 1n = Z0 X = X|1n X . As pues, tal y como se comenta en el Ap endice, s2 y z se interpreta como la parte de la variabilidad total de Y no explicada por la variabilidad total de z[1], . . . , z[q ] mediante

Manuales Uex 90

4 y X, luego, estamos hablando N otese que se se impone la condici on de ortogonalidad entre Y X de la protecci on ortogona de Y sobre X. 5 T engase en cuenta que la proyecci on ortogonal en Rn de Y sobre x minimiza la distancias 2 . eucl dea del vector Y X

MODELOS LINEALES
4.1. ESTIMACIONES E INTERVALOS DE CONFIANZA. 91

a como la parte de la variabilidad la regresi on lineal, mientras que s2 se interpretar Y total de Y que s es explicada por la regresi on lineal respecto a z[1], . . . , z[q ]. Ello invita a denir el coeciente de correlaci on m ultiple muestral6
2 Ry, z = 1 Syz Szz Szy 2 s y

(4.16) (4.17)
2

2 = s2 /sy Y

Px|1n Y P1n Y 2 Pz0 Y0 2 = Y0 2 2 Z0 = Y0 2 =

(4.18) (4.19) (4.20)

Puede interpretarse como la proporci on de variabilidad total de Y explicada por la variabilidad total de z[1], . . . , z[q ] mediante una regresi on lineal. Esta interpretaci on en t erminos del lenguaje usual es, posiblemente, una extrapolaci on de lo que sucede, en t erminos probabil sticos, en el modelo normal multivariante, donde la varianza parcial es la varianza de la distribuci on condicional y por lo tanto, la parte de la varianza no explicada (linealmente en este caso) por el vector aleatorio que condiciona. En todo caso debe ser matizada para evitar confusiones. Estamos descomponiendo la variablidad total de Y en un vector que es combinaci on lineal de las variabilidades totales de z[1], . . . , z[q ] m as otro, denominado residuo. on Y = u +(Y u), Dado cualquier vector u Z0 , podemos considerar la descompoci pero no estamos dispuestos a admitir cualquier descomposici on del vector Y , sino que as pr oximo seg un la distancia eucl dea. En se sentido buscamos el vector de Z0 m decimos que ese vector de Z0 es el que mejor explica la variabilidad de Y0 y es el que conduce a una descomposici on ortogonal con el residuo como diferencia, seg un se ve en la ilustraci on siguiente. As pues, cuando hablamos de la parte de variabilidad de Y0 explicada por la variabilidad total de z[1], . . . , z[q ] nos estamos reriendo impl citamente a dicho vector.

6 Realmente, el par ametro que denimos a continuaci on se denomina coeciente de determinaci on. El coeciente de correlaci on m ultiple es la ra z cuadrada del mismo.

Manuales Uex 91

jess montanero fernndez


92 LINEAL MULTIPLE CAP ITULO 4. REGRESION

1n Y0 2

e2

2 Z0

Z0 Los comentarios anteriores pueden resultar banales pero, en lo relativo a la explicaci on, digamos coloquial, del coeciente de correlaci on, una interpretaci on al pie de la letra en razonamientos de tipo heur stico puede conducir a errores conceptuales. Por ejemplo, c omo es posible que dos variables incorreladas no lo sean condicionalmente dada una tercera? Si se pretende argumentar en t erminos de variabilidades explicadas dif cilmente se lograr a un razonamiento convincente: si la variabilidad de una no explica en absoluto la de la otra, c omo es posible que una parte de la primera (residuo) explique otra parte de la segunda? Nuevamente, hemos de remitirnos a la consabida descomposici on ortogonal para entender este hecho: es posible que los vectores originales sean ortogonales pero que sus residuos dada la tercera no lo sean. En denitiva, de la ecuaci on (4.15) se deduce
2 syyz = s2 y (1 Ry,z ).

(4.21)

El t ermino de la izquierda es el estimador de m axima verosimilitud de 2 . Veamos, 2 no obstante, otra interesante caracterizaci on de Ry, z.

Proposici on 4.1.

Manuales Uex 92

2 2 2 q Ry, ax{ry, z = ry,z = m zb : b R }.

Demostraci on. Dado que los coecientes de correlaci on simple y m ultiple son invariantes ante traslaciones, podemos suponer, sin p erdida de generalidad, que y = 0 y z = 0 o, lo que

MODELOS LINEALES
4.1. ESTIMACIONES E INTERVALOS DE CONFIANZA. es lo mismo, que Y = Y0 y que 93

Z = Z0 . En ese caso y teniendo en cuenta (4.11), se sigue


s2 y,z 2 Sy,z

2 ry, = z

Por otra parte, se sigue de (4.4), que

= s2 Szz s2 y Szz y 2 1 Syz S Szy 2 = Ry, = 2 zz z. 1 sy Syz Szz Szy b Rq , R.

2 Y Zb, Y Z

Operando en ambas expresiones y despejando el t ermino Y 2 , se tiene que 2 2Y, Z 2 Zb2 2Y, Zb. Z Por lo tanto, Z 2 2Y, Z 2Y, Zb 2 Zb2 Y Z Y Z Y, Z Y, Zb = ry,zb , Y Zb Y Z

/Zb, se tiene que Considerando entonces = Z ry,z =

con lo cual termina la demostraci on. Por tanto y como cab a esperar, la m axima correlaci on lineal entre Y y una combinaci on lineal de los vectores z[1], . . . , z[q ], se alcanza precisamente con la ecuaci on de regresi on, y su cuadrado es el coeciente de correlaci on m ultiple. Esta idea se puede generalizar al caso multivariante para construir los coecientes de correlaci on can onica. Podemos garantizar un resultado completamente an alogo para el coeciente de correlaci on m ultiple probabil stico (ejercicio 2.12). Una propiedad del coeciente de correlaci on m ultiple que, desde cierto punto de vista, puede considerarse una patolog a, es el hecho de que al a nadir al modelo un nuevo vector explicativo z[q + 1], por inapropiado que este sea, no se producir a disminuci on alguna del coeciente de correlaci on m ultiple. Es m as, puede demostrarse olo si el coeciente de corre(cuesti on propuesta) que R2 permanece invariante si y s laci on parcial entre Y y z[q + 1] dados z[1], . . . , z[q ] es nulo. Ello puede movernos a

Manuales Uex 93

jess montanero fernndez


94 LINEAL MULTIPLE CAP ITULO 4. REGRESION

otese que denir otro coeciente similar a R2 pero que no presente esta propiedad. N (4.18) puede expresarse tambi en as
2 Ry, z =1

Px Y 2 . P1n Y 2 1
n (q + 1)

Teniendo en cuenta que 1 2 s2 y = P1n Y ,


n

2,I =

Px Y 2 ,

puede resultar natural denir el siguiente estad stico, denominado coeciente de correlaci on m ultiple corregido: 2,I 2 Ry,z = 1 2 . sy
2 La relaci on entre Ry, z y Ry,z es la siguiente: 2

Ry,z = 1

n n (q + 1)

2 (1 Ry, z ).

(4.22)

Predicciones
Un estudio de Regresi on Lineal M ultiple equivale a la b usqueda de una ecuaci on lineal que relacione la variable respuesta con las explicativas, lo cual se realiza normalmente con uno de los siguiente objetivos: conocer en qu e medida inuye en la respuesta cada uno de los vectores explicativos o predecir valores de la variable respuesta cuando se conocen los de los vectores explicativos. En este momento nos centramos en el segundo objetivo. As pues, supongamos que tenemos una nueva unidad experimental, independiente de la muestra que se ha utilizado en la estimaci on de los par ametros y 2 , y que dicha unidad experimental aporta unos valores z0 = (z0 [1], . . . , z0 [q ]) en los vectores explicativos. Se trata de predecir el valor Y0 que presentar a en la variable respuesta, suponiendo que se mantengan el patr on que rige nuestro modelo, es decir, que Y0 = 0 + 1 z0 [1] + . . . q z0 [q ] + 0 , 0 N (0, 2 ).

En ese caso, tanto Y0 como 0 + z0 , que es el valor medio que cabe esperar para Y0 , pueden estimarse mediante

Manuales Uex

0 + z 0 = Y 0 = y + (z0 z) ,
7 El t ermino n del numerador se sustituye por n 1 si optamos por considerar el estimador 1 insesgado s2 P1n Y 2 . y = (n 1)

94

MODELOS LINEALES
4.1. ESTIMACIONES E INTERVALOS DE CONFIANZA. que, teniendo en cuenta (4.12), sigue un modelo de distribuci on 0 N Y 0 + z0 , 2
n

95

1 (z0 z)] . [1 + (z0 z) Szz

En lo sucesivo, se denotar a
1 d2 (z0 , z) = (z0 z) Szz (z0 z)

(4.23)

on anterior se obtiene el a la distancia de Mahalanobis entre z0 y z. De la expresi siguiente intervalo de conanza a nivel 1 para E[Y0 ] 1 1 2 0 t I + d (z0 , z). Y n(q+1)
n n

(4.24)

0 son independientes, se verica que Y0 Y 0 sigue una Por otra parte, dado que Y0 e Y distribuci on normal de media 0 y varianza 2 [1 + n1 + n1 d2 (z0 , z)]. En consecuencia y teniendo en cuenta (4.21), podemos construir un intervalo de conanza a nivel 1 para el valor de Y0 mediante
1/2 0 t Y [n (q + 1)]1/2 n(q+1) n

1 1 2 2 s2 (1 R + d ( z , z ) . ) 1 + 0 y,z y
n n

(4.25)

Si nos centramos en el t ermino que queda dentro de la ra z cuadrada, podemos ana0 : lizar los factores de los que depende la abilidad de la predicci on Y Primeramente, de la varianza total de Y , s2 y , de manera que cuanto mayor sea menos able resultar a la predicci on.
2 on de varianza explicada por la regresi on, de De Ry, z , es decir, de la proporci manera que cuanto mayor sea m as able resultar a la predicci on, l ogicamente.

De el tama no de la muestra n, de forma que cuanto mayor sea m as able resultar a la predicci on. De la distancia de Mahalanois del punto z0 donde se realiza la predicci on al centroide de la muestra. Curiosamente, cuanto m as lejos est e z0 menos able resultar a la predicci on. Esto ha de servir para concienciarnos de que el problema de Regresi on es de car acter local, es decir, que no deben exrtrapolarse los resultados lejos de la regi on de Rq donde se ha realizado el estudio.

Manuales Uex 95

jess montanero fernndez


96 LINEAL MULTIPLE CAP ITULO 4. REGRESION

4.2.

Principales constrastes. Selecci on de variables.

Abordamos a continuaci on el problema de Contraste de Hip otesis. Podemos distinguir, en principio, contrastes relativos al par ametro y contrastes relativos a 2 , aunque estos u ltimos, que se resuelven en la secci on 2.3, gozan de menos inter es que los primeros por razones que ya se detallaron el cap tulo anterior. As pues, nos centraremos en los contrastes de hip otesis referentes a , que ya quedaron resueltos, desde un punto de vista te orico, en las secciones 3.2 y 3.4. Sabemos, concretamente, que para contrastar mediante el test F una hip otesis inicial del tipo H0 : A = 0, siendo A una matriz de dimensiones m (q + 1) y rango m, debemos comparar stico de contraste (3.26), que reproducimos a continuaci on: Fm, n(q+1) con el estad ) A(X X)1 A 1 A 1 (A . F = m 2,I (4.26)

Vamos a destacar tres tipos de contrastes por su utilidad: 1. Contraste de una ecuaci on: en este apartado consideramos, en principio, el contraste de la hip otesis inicial H0 : = 0, que se corresponde con A = Idq+1 . Por lo tanto, de (4.26) podemos obtener una expresi on bastante expl cita del estad stico de contraste 2 1 X , (4.27) F = q+1 2,I que ha de compararse con Fq til en s , pero +1,n(q +1) . Este contraste no es muy u sirve de instrumento a la hora de contrastar una hip otesis del tipo H0 : = b, para alg un vector b Rq+1 conocido. Es decir, cuando queremos contrastar si cierta ecuaci on de regresi on predeterminada es aceptable teniendo en cuenta nuestros datos. En ese caso, debemos sustituir el vector Y por Y = Y Xb y contrastar la hip otesis = 0 con los datos transformados (trasladados). 2. Contraste total: consideramos a continuaci on el contraste de la hip otesis inicial H0 : = 0, que se corresponde con A = (0q |Idq ). La veracidad de la misma equivale a la incapacidad de explicaci on de Y por parte de z[1], . . . , z[q ]. Dado stico de que X = 1n |Z0 , se sigue de (4.26) (ejercicio propuesto) que el estad contraste puede expresarse mediante F = n q (Z Z) q 2,I
2

Manuales Uex

(4.28)

96

MODELOS LINEALES
DE VARIABLES. 4.2. PRINCIPALES CONSTRASTES. SELECCION o bien en t erminos m as generales mediante F = 1 Px|1n Y 2 , q Px Y 2 (4.29) 97

que ha de compararse con Fq, n(q+1) . No obstante, si hacemos uso de (4.20), el estad stico de contraste puede expresarse tambi en a trav es del coeciente de 2 mediante correlaci on m ultiple Ry z

F =

n (q + 1)

2 Ry, z . 2 1 Ry, z

(4.30)

La expresi on anterior puede interpretarse f acilmente en t erminos intuitivos teniendo en cuenta el signicado del coeciente de correlaci on m ultiple y que el test F aceptar a la hip otesis inicial cuando este sea pr oximo a cero. 3. Contrastes parciales: supongamos que la matriz Z se divide por columnas en dos submatrices, ZR (con r columnas) y ZD (con d columnas), y que el aloga en dos subvectores R y D , compuestos vector se divide de manera an respectivamente por los coecientes de los vectores explicativos que conforman otesis las submatrices ZR y ZD . Nos interesamos ahora en el contraste de una hip inicial del tipo H0 : D = 0. La veracidad de la misma supone la nulidad de los a vectores que componen ZD para explicar la variabilidad de Y , lo cual inducir a eliminarlos y pasar de un modelo completo a otro reducido, en el cual s olo se stico para tendr a en cuenta la submatriz ZR . De (3.21) se sigue que el estad contrastar dicha hip otesis es F =
n (q + 1) Px|1n zR Y 2

Px Y 2

que se compara con Fd, stico del contraste parcial n(q+1) . Curiosamente, el estad puede expresarse a trav es de los estad sticos de contraste total en los modelos completo y reducido. Efectivamente, den otense los mismos por F1 y F2 , respectivamente, y consid erese el siguiente diagrama:

F1 (1n )

Manuales Uex 97

(1n ZR ZD )

(1n ZR )

F2

jess montanero fernndez


98 LINEAL MULTIPLE CAP ITULO 4. REGRESION Cada echa del diagrama se interpreta como la reducci on del modelo a la que conducir a la hip otesis inicial cuyo contraste se resuelve mediante el estad stico adjunto. Puede comprobarse (se deja como ejercicio), que q n (q + 1) 1 + n(q+1) F1 1 . (4.31) F = d 1 + n(r F r+1) 2 El contraste de hip otesis del tipo H0 : j = 0, j = 1, . . . , q 8 es, desde el punto de vista pr actico, el caso m as interesante de contraste parcial. De (4.26) podemos obtener una expresi on expl cita del estad stico de contraste 2 j F = 2,I , jj (4.32)

Para contrastar un hip otesis inicial del tipo H0 : j = bj , basta aplicar una traslaci on a los datos para obtener el estad stico de contraste t= j bj | | , I jj

que se compara con F1 sti,n(q +1) . Ello equivale a comparar con tn(q +1) el estad co | | j t= . (4.33) I jj

(4.34)

que se comparar a con el mismo cuantil. Curiosamente, este el test que se derivar a directamente de (4.8) y (4.9). Mediante un razonamiento an alogo al realies del coeciente de correlaci on zado en (4.30) 9 , podemos expresar (4.32) a trav parcial entre Y y z[j ] dados los dem as vectores explicativos (que conguran una matriz ZR ) mediante F = [n (q + 1)]
2 ry, z[j ] zR

2 1 ry, z[j ] zR

(4.35)

Manuales Uex

Esta expresi on resulta muy intuitiva, pues signica que aceptamos la hip otesis inicial H0 : j = 0 cuando ry,z[j] zR es pr oximo a cero, es decir, cuando, conocidos los valores correspondientes al resto de vectores explicativos, la variabilidad de z[j ] aporta muy poco a la hora de explicar la variabilidad de Y .
Tambi en puede incluirse 0 , pues el vector 1n es a estos efectos un vector cualquiera, como pueden serlo z[1], . . . , z[q ]. 9 Cuesti on propuesta
8

98

MODELOS LINEALES
DE VARIABLES. 4.2. PRINCIPALES CONSTRASTES. SELECCION 99

Este tipo de contraste es de gran utilidad teniendo en cuenta que, antes de indagar acerca de la ecuaci on concreta que rige aproximadamente el comportamiento de la variable respuesta, conviene optimizar el modelo, desechando aquellas variables (vectores) explicativas que no tienen inuencia signicativa en la variable respuesta. La forma natural de realizar esta depuraci on ser a, a simple vista, realizar los q contrastes parciales, uno para cada coeciente, y eliminar las variables explicativas que no aporten resultados signicativos. El problema de este m etodo es que el hecho de eliminar o introducir una variable explicativa inuye en los contrastes parciales de las otras. As , por ejemplo, puede suceder que al eliminar una resulte signicativa otra que no lo era en el modelo completo. Todo ello es debido a la colinealidad m as o menos severa que suele afectar a las variables (vectores) explicativas. Este concepto se tratar a m as a fondo en una secci on posterior. Por ello, se hace necesario el uso de alg un algoritmo de selecci on de variables basado en los contrastes parciales, aunque m as complejo. Comentaremos brevemente en qu e consisten los m etodos forward, backward y stepwise, junto con otros m etodos no basados en los contrastes parciales. Un estudio as detallado puede encontrarse en Rawlings et al. (1999). El m etodo forward o hacia delante consiste en considerar q modelos de regresi on simple con Y como variable respuesta y cada uno de los vectores explicativos como u nico vector explicativo. Entrar a en el modelo denitivo aquella cuyo contraste parcial, que equivale al total, sea m as signicativo. A continuaci on, se considerar an q 1 modelos de regresi on a nadiendo a la variable introducida cualquiera de las otras, y se realiza, en cada modelo, el contraste parcial para la variable candidata, entrando en el modelo denitivo aqu ella que aporte un resultado m as signicativo10 . El procedimiento contin ua y se van a nadiendo variables haste que ninguna de las candidatas aporte un resultado signicativo en el contraste parcial. El l mite de signicaci on se conviene de antemano. El m etodo backward o hacia atr as parte del modelo completo, donde se realizan los q contrastes parciales para desechar la variable explicativa que presente un resultado menos signicativo; a continuaci on se considera en el modelo reducido resultante los q 1 contrastes parciales y se desecha la variable menos signicativa, y as sucesivamente hasta que todas las que quedan aportan un resultado signicativo en el contraste parcial. El m etodo stepwise o por pasos sucesivos es una combinaci on de los m etodos forward y backward, pues cada vez que se introduce una nueva variable
10 Coincide con aquella que aporte un resultado m as signicativo en el contrate total (cuesti on propuesta).

Manuales Uex 99

jess montanero fernndez


100 LINEAL MULTIPLE CAP ITULO 4. REGRESION

por el m etodo forward, depura mediante el m etodo backward el modelo resultante. Existen otros m etodos no basados en os contrastes parciales consistente en buscar, para cada q q , el mejor modelo con q vectores explicativos y escoger entonces un as peque no posible siempre y cuando la perdida que conlleva la reducci on sea q lo m tambi en lo menor posible. La cuesti on es dilucidar c omo se mide dicha p erdida y eso es en esencia lo que distingue unos m etodos de otros. As podemos analizar cu anto disminuye R2 con el modelo reducido o considerar en su lugar el coeciente de correlaci on m ultiple ajustado. Podemos tambi en considerar el aumento de P1n zR Y 2 respecto a P1n z Y 2 para un modelo reducido (1n ZR ) con q vectores explicativos. El m etodo de Mallow, relacionado con el anterior, consisten en considerar el estad stico P1n zR Y 2 + 2q n. Cq = 2,I Si las variable excluida en el modelo reducido no son relevantes cabe esperar que [n (q + 1)]1 P1n zR Y 2 tome un valor pr oximo a 2 , con lo que Cq tomar a un , Cq deber a estar claramente por encima de q . valor pr oximo a q . De no ser as As pues, para cada valor de q se consideran todos los posible modelos reducidos y se escoge el que aporte un valor Cq menor. Entonces se escoge el menor q tal que oximo a q . Cq sea lo suciente pr

4.3.

An alisis de los supuestos del Modelo

Todas las inferencias realizadas hasta el momento se han efectuado suponiendo que se veriquen los supuestos del modelo, que pueden desglosarse de la siguiente forma: 1. Independencia: Yi , i = 1, . . . , n son independientes. on normal para i = 1, . . . , n. 2. Normalidad: Yi sigue un modelo de distribuci 3. Homocedasticidad: existe 2 > 0 tal que var[Yi ] = 2 , para todo i = 1, . . . , n. 4. Linealidad: existe Rq+1 tal que E[Yi ] = xi , para todo i = 1, . . . , n.

100

Manuales Uex

Aunque, como veremos m as adelante, existen t ecnicas para evaluar el cumplimiento del supuesto de independencia, dise nar un test de hip otesis para contrastarlo resulta especialmente dicultoso, dado que los tests suelen construirse partiendo precisamente de n unidades experimentales observaciones independientes. No obstante, el cumplimiento de este supuesto depende fundamentalmente de c omo se ha dise nado

MODELOS LINEALES
4.3. ANALISIS DE LOS SUPUESTOS DEL MODELO 101

la recogida de muestras, de manera que el investigador suele saber si sus unidades experimentales pueden considerarse (aproximadamente) independientes. En caso contrario, deber amos optar por t ecnicas de an alisis completamente diferentes a las que nos ocupa, como pueden ser el de series de tiempo o medidas repetidas. La situaci on ideal se da cuando las denominadas variables o vectores explicativos son variables aleatorias, propiamente dicho, y la matriz (Y Z ) resultante puede considerarse una muestra aleatoria simple de tama no n de una distribuci on (q + 1)-normal es exactamente el modelo de Correlaci multivariante. Ese on Lineal11 y, en ese caso, condicionando sobre el valor concreto de Z obtenido de la matriz aleatoria Z , se obtiene un modelo de Regresi on Lineal con los cuatro supuestos anteriores. Por lo tanto, lo primero que deber amos hacer es contrastar a normalidad multivariante de nuestro datos mediante un test de normalidad multivariante12 . Si el resultado es signicativo, puede entenderse como necesario, desde cierto punto de vista, un contraste de los supuestos de normalidad, homocedasticidad y linealidad, aunque esa visi on es, como veremos, bastante discutible. Respecto al supuesto de normalidad, hemos de advertir previamente que, si prescindimos del mismo, tendremos un Modelo Lineal cuyo comportamiento, tanto en el sentido exacto como asint otico, ha sido estudiado en el cap tulo anterior. As , desde el punto de vista exacto, podemos armar que el estimador propuesto para 2 es insesgado, mientras que el de es lineal insesgado de m nima varianza. Desde el punto de vista asint otico, es decir, a medida que introducimos nuevas unidades experimentales (o sea, a medida que incorporamos a la matriz (Y X) nuevas las), sabemos que ambos estimadores son consistentes, puesto que la condici on (3.32) se verica trivialmente. Adem as, si se verica la condici on (3.35) de Huber, todas las inferencias realizas en las secciones anteriores son asint oticamente v alidas para muestras sucientemente grandes. Lo que debemos hacer ahora, l ogicamente, es estudiar en que se traduce exactamente la condici on de Huber o, lo que es lo mismo, cu anto vale m(X(X X)1 X ). Sabemos que m(X(X X)1 X ) = m ax{ii : i = 1, . . . , n} donde ij , i, j = 1, . . . , n, denotan las componentes de la matriz Px = X(X X)1 X . Dado que 1n X y aplicando la propiedad (3.29) con A = Px , se sigue que 1
n
11 12

ii 1,

i = 1, . . . , n.

(4.36)

Ver Arnold (1981). En Bilodeau & Brenner (1999) podemos encontrar una prueba de normalidad multivariante basado en el hecho de que las distancias de mahalanobis divididas por el tama no muestral deben seguir una distribuci on Beta en el caso normal.

101

Manuales Uex

jess montanero fernndez


102 LINEAL MULTIPLE CAP ITULO 4. REGRESION

N otese que, al ser P2 x = Px , se tiene que ii (1 ii ) =

j =i

2 ij

(4.37)

En consecuencia, se verica

Para calcular explic tamente las componentes de Px consideraremos la descomposici on ortogonal del subespacio vectorial X = 1n Z0 , de manera que 1 (z1 z) 1 . 1 0 1 ... 1 . . Px = . . . 1 n 0 Szz z1 z . . . zn z 1 (zn z) ii = 1
n

d2 (zi , z)
n

i = 1, . . . , n,

(4.38)

donde d2 es la distancia de Mahalanobis denida en (4.23). Los elementos fuera de la diagonal pueden expresarse mediante ij = 1 1 (zj z) , 1 + (zi z) Szz n
n1 m ax d2 (zi , z) 0. 1in

i = j.

(4.39)

De esta forma, la condici on de Huber equivale a

(4.40)

102

Manuales Uex

Esta condici on, relacionada con la presencia de valores explicativos extremos, se interpreta de la siguiente forma: a medida que introducimos m as datos, las distancias de mahalanobis de los vectores explicativos a su centroide puede ir aumentando, pero a ritmo menor que n. Esto puede conseguirse de manera articial si las variables explicativos est an controladas en el dise no, es decir, si no son realmente variables aleatorias. Tal es nuestro caso. Cuando sean variables aleatorias, lo cual corresponde al modelo de correlaci on, que se estudiar a en el pr oximo cap tulo, la condici on (4.40) se obtendr a de una forma bastante natural. Ello permite obviar el supuesto de normalidad para n sucientemente grande. No obstante, aunque la violaci on del supuesto de normalidad no es en s un problema grave, es preferible que no se produzca dada la vinculaci on existente entre los supuestos de normalidad y linealidad. Efectivamente, es muy frecuente que el incumplimiento del primero vaya acompa nada de la violaci on del segundo, e incluso del supuesto de homocedasticidad. Si tenemos la intenci on de contrastar la normalidad, la homocedasticidad o la linealidad, hemos de tener en cuenta que el vector aleatorio

MODELOS LINEALES
4.3. ANALISIS DE LOS SUPUESTOS DEL MODELO 103

Y no es una muestra aleatoria simple de ninguna distribuci on, a menos que sea nulo. De ah que para poder efectuar el contraste sea necesario un modelo de regresi on lineal muy particular, consistente en controlar el valor del vector explicativo y considerar para cada valor de este una muestra aleatoria simple de valores de Y que presente ese valor concreto en los vectores explicativos. Obviamente, un dise no de este tipo s olo es viable en la pr actica en un estudio de regresi on simple, como sucede en el ejemplo 2 de la Introducci on. El dise no al que nos referimos se denomina completamente aleatorizado y ser a estudiado en profundidad en el cap tulo 6. Puede expresarse como sigue Y11 = 1 + 11 . . . . . . . . . Y1n1 = 1 + 11n1 . . . . . . . . . . . . . . . . . . Yk1 = 1 + k1 . . . . . . . . . Yknk = 1 + knk

(4.41)

103

Manuales Uex

2 donde ij , i = 1, . . . , k y j = 1, . . . ni , son independientes con media 0 y varianza i . En lo que sigue se denotar a n = i ni . En ese caso, se puede contrastar, para cada on i = 1, . . . , k , si Yij , j = 1, . . . , ni , es una muestra aleatoria simple de una distribuci normal. Para ello podemos hacer uso de diversos tests, como el de KolmogorovSmirnov-Lilliefords, el de Shappiro-Wilks, el test 2 o el de DAgostino. No obstante, hemos de advertir que, para que estos tests tengan suciente potencia en todos los casos es necesario que las muestras sean todas grandes, cosa poco factible en la pr actica. De lo contrario, estaremos otorgando una enorme ventaja a la hip otesis inicial de normalidad. Si, a pesar de los inconvenientes comentados, estamos dispuestos a contrastar los supuestos, el procedimiento a seguir ser a el siguiente: escoger un test de normalidad (el de DAgostino es el m as aconsejabe para muestras peque nas) y aplicarlo a las k muestras. Si todos los resultados son no signicativos, aceptaremos la hip otesis inicial de normalidad. Por lo tanto, podremos suponer que, en el modelo anterior, los t erminos ij son todos normales. A continuaci on proceder amos a contrastar la hip otesis inicial de igualdad de varianzas. Para ello contamos con el test de Barlett, estudiado en el cap tulo anterior. Hay que advertir que este test es bastante sensible ante la violaci on del supuesto de normalidad, de ah que se precise un resultado no signicativo en la fase anterior. No obstante, puede utilizarse un test m as robusto como el de Levene. Si el resultado

jess montanero fernndez


104 LINEAL MULTIPLE CAP ITULO 4. REGRESION

es no signicativo, podremos suponer que el modelo propuesto anteriormente es un un 2 > 0, y V, modelo lineal normal Y = + E , donde E Nn (0, 2 Id), para alg n siendo V el subespacio de R generado por los vectores 0 1 . . . . . . 0 1 . . . . . . . . vk = . . v1 = . . . . . . 1 0 . . . . . . 0 1

As pues, el modelo de regresi on lineal puede considerarse un modelo reducido ( W ) del modelo completo ( V ). Por lo tanto, la linealidad se contrasta mediante el correspondiente test F a nivel . Puede comprobarse que, en esta ocasi on, el estad stico de contraste del mismo es el siguiente (k 2)1 2 k ni j =1 y i 0 + 1 zi i=1 , ni 2 (n k )1 k j =1 (Yij y i ) i=1

En este modelo, el supuesto de linealidad se corresponde con la hip otesis W, donde zi vi V. W = 1n


i

F =

(4.42)

104

Manuales Uex

donde y i denota, para cada i = 1, . . . , k, la media aritm etica o muestral del grupo ermino del denominador, que i- esimo. Este estad stico se comparar a con Fk2,nk . El t on. el EIMV de 2 en el modelo completo, se denomina error puro de regresi As pues, hemos visto un procedimiento para contrastar sucesivamente los supuestos de normalidad, homocedasticidad y linealidad del modelo de regresi on. A este m etodo se le pueden presentar diversas objeciones. En primer lugar, requiere de un dise no que s olo es factible en el caso de una regresi on simple; en segundo lugar, para aplicar el test de linealidad es necesario suponer homocedasticidad y para el de homocedasticidad es necesario suponer la normalidad de cada uno de los k grupos, por lo cual, en el momento que aparezca un resultado signicativo el modelo deber a ser desechado. Que esto no suceda en muchas ocasiones suele deberse normalmente al hecho de que el n umero de datos por grupo no es lo sucientemente alto como para

MODELOS LINEALES
4.4. ANALISIS DE LOS RESIDUOS 105

que los tests utilizados tengan una potencia aceptable, privilegi andose enormemente las hip otesis iniciales de normalidad y homocedasticidad e, incluso, de linealidad. Por ello, el rigor que pretend amos ganar contrastando los supuestos del modelo mediante sendos tests de hip otesis no es tal al no reunirse los requisitos m nimos para su aplicaci on.

4.4.

An alisis de los residuos

El problema es, como cab a esperar, bastante delicado. Desde luego hemos de ser consciente que los supuestos de este modelo, como los de cualquier otro, son ideales, es decir, que hemos de asumir que, en la pr actica, no se vericar an jam as. Por ello una alternativa al procedimiento anterior es renunciar al contraste de los supuestos en pro de una evaluaci on gr aca del desajuste existente entre el modelo te orico y los datos emp ricos. De esta forma, si el desajuste se considera admisible se aplican los m etodos estudiados. En caso contrario, se buscan transformaciones de las variables que permitan una mejor adecuaci on al modelo o bien se aplican procedimientos alternativos. Este an alisis, que presenta por una importante componente de subjetividad, depende en buena medida del comportamiento asint otico del modelo y de la robustez de los m etodos estudiados. En todo caso, hemos de tener en cuenta que los cuatro supuestos del modelo pueden expresarse en funci on de los errores i = Yi E[Yi ], i = 1, . . . , n. M as concretamente, podemos denir, para cada vector en Rq+1 , las variables aleatorias
i = Yi xi ,

i = 1, . . . , n,

de manera que los supuestos, si es el verdadero valor del par ametro, pueden expresarse as : 1. Independencia: i , i = 1, . . . , n, son independientes. 2. Normalidad: on normal para i = 1, . . . , n. i sigue un modelo de distribuci
2 3. Homocedasticidad: existe 2 > 0 tal que var[ i ] = , para todo i = 1, . . . , n.

4. Linealidad: E[ i ] = 0, para todo i = 1, . . . , n. Es decir, que el cumplimiento de los cuatro supuestos equivales al hecho de que las observaciones i , i = 1, . . . , n, constituyan una muestral aleatoria simple de una distribuci on normal de media 0. Dado que que estos valores son desconocidos por

105

Manuales Uex

jess montanero fernndez


106 LINEAL MULTIPLE CAP ITULO 4. REGRESION

serlo , podemos estimarlos de manera natural mediante los denominados residuos13 : i = Yi xi , ei = Yi Y i = 1, . . . , n . (4.43)

Como ya sabemos, estos residuos componen un vector e = (e1 , . . . , en ) que verica e = Y Px Y = Px Y cuya media aritm etica es nula y cuya varianza es, por denici on, la varianza parcial (4.2). Lo que hemos hecho es descomponer ortogonalmente el vector Y mediante + e, Y = X de manera que 2 + e2 . Y 2 = X La distribuci on del vector de residuos es, en virtud de la proposici on 2.1, la siguiente: e Nn 0, 2 [Id Px ] , ei N 0, 2 [1 ii ] , i = 1, . . . , n, (4.44)

es decir, que

veric andose adem as que cov[ei , ej ] = ij si i es distinto de j . Por lo tanto, los residuos no son incorrelados ni, por lo tanto, independientes. De hecho, puede probarse, a incluido teniendo en cuenta que rg(Px ) = n (q + 1), que el vector aleatorio e est con probabilidad 1 en un subespacio lineal de dimensi on n (q + 1). De (4.38) se sigue que, para cada i = 1, . . . , n, var[ei ] = 2 (1 ii ) = 2
n1 n

d2 (zi , z)
n

(4.45)

Manuales Uex

Podemos observar que los residuos tampoco son homoced asticos, sino que su varianza depende de la distancia de mahalanobis del vector explicativo zi correspondiente al centroide, de manera que cuanto mayor sea esta menor ser a la varianza del residuo. El valor m aximo se dar a cuando zi coincidiera con el centroide. Por contra, si ii fuera igual a 1, la varianza del residuo ser a nula, es decir, el valor de y pronosticado para a con probabilidad 1 con el valor observado. Esta situaci on puede darse zi coincidir te oricamente. Teniendo en cuenta (4.37), equivale a que todos los ij , para j distinto de i, sean nulos. Concretamente, en un an alisis de regresi on simple, puede probarse,
13

Denidos ya en (9.55).

106

MODELOS LINEALES
4.4. ANALISIS DE LOS RESIDUOS 107

En condiciones similares estos estad sticos seguir an una distribuci on tn(q+1) . En I. De hecho, esta ocasi on eso no es correcto debido a que ei no es independiente de recordemos que 1 2,I = e2 i. n (q + 1) i

Esto podr a servirnos para plantear un test de bondad de ajuste al modelo de regresi on, aun teniendo en cuenta que no se verica la independencia. Dado que es desconocida, lo que se suele hacer en estos caso es sustituirla por un estimador insesgado de la misma. De esa forma, se denen los residuos estandarizados mediante ei , i = 1, . . . , n. ri = I 1 ii

teniendo en cuenta (4.39), que ello equivale a que todos los vectores explicativos salvo enticos. En lo sucesivo supondremos que ese caso extremo no se verica. zi sean id Por otra parte, la varianza de los residuos es menor que la varianza del modelo, lo cual era de esperar, teniendo en cuenta la descomposici on ortogonal (4.44). No obstante, a medida que el n umero de unidades experimentales tiende a innito, la primera converge a la segunda si, y s olo si, se verica la condici on de Huber. Los residuos denidos anteriormente suelen denominarse residuos brutos, en contraposici on con los residuos estandarizados que denimos a continuaci on. La nueva denici on viene motivada por el hecho de que e i N (0, 1), i = 1, . . . , n. 1 ii

Por lo tanto, si queremos obtener una distribuci on t-student nos vemos obligados a introducir unas sutiles variaciones. (i) y an mediante 2,I (i) los En lo sucesivo y para cada i = 1, . . . , n, se denotar 2 estimadores de y , respectivamente, que se obtienen eliminado del modelo la i- esima unidad experimental (es decir, la i- esima la de datos). Se dene entonces (i). (i) = X Y

En esas condiciones, se dene los residuos estudentizados mediante e i , i = 1, . . . , n . ti = I(i) 1 ii

107

Manuales Uex

an el vector aleatorio Y desprovisto de su componentes As mismo, Y (i) y X(i) denotar esima, respectivamente. Por u ltimo, en i- esima y la matriz X desprovista de la la i- el modelo desprovisto de la unidad i- esima se dene el vector de residuos brutos mediante (i). e(i) = Y (i) Y

jess montanero fernndez


108 LINEAL MULTIPLE CAP ITULO 4. REGRESION

Podr amos proponer tambi en eliminar la inuencia de la unidad i- esima en el c alculo del residuo correspondiente, obteni endose de esta forma los residuos estudentizados eliminados, que se denen mediante i = t (i) Yi Y i , I(i) 1 ii i = 1, . . . , n .

A continuaci on probaremos que, para cada i = 1, . . . , n, ti sigue una distribuci on t-Student. De ah su nombre.

Lema 4.2.
Con las notaciones anteriores se verica que, para cada i = 1, . . . , n, = (i) + Demostraci on. Tener en cuenta, en primer lugar, que ei (X X)1 xi . 1 ii (4.46)

X X = X(i) X(i) + xi xi , X Y = X(i) Y (i) + xi Yi


y que xi (X X)1 xi es igual a ii , que es menor que 1. Por lo tanto, se sigue del lema 9.8 que [X(i) X(i)]1 = [X X xi xi ]1 = (X X)1 + En consecuencia, (i) = [X(i) X(i)]1 X(i) Y (i) (X X)1 xi xi (X X)1 = (X X)1 + [X Y xi Yi ] 1 ii (X X)1 xi Yi + (1 ii )1 (X X)1 xi Y i ii (1 ii )1 (X X)1 xi Yi = (1 ii )1 (X X)1 xi Yi + (1 ii )1 (X X)1 xi Y i = (X X)1 xi Yi Yi , = 1 ii (X X)1 xi xi (X X)1 . 1 ii

de lo cual se obtiene la tesis.

Manuales Uex 108

Teorema 4.3.
Para cada i = 1, . . . , n, se verica lo siguiente

MODELOS LINEALES
4.4. ANALISIS DE LOS RESIDUOS i = (1 ii )ti . (i) t (ii) ti tn(q+2) . 2,I (i) = [n (q + 1)] 2,I (iii) [n (q + 2)] e2 i
1ii

109

Demostraci on. Si en la expresi on (4.46) multiplicamos por xi por la izquierda obtenemos i (i) + ii i . i = Y Yi Y Y 1 ii Por lo tanto, i = ii Yi + (1 ii )Y i (i). Y Luego, i (i) , ei = (1 ii ) Yi Y

(4.47)

(4.48)
2,I

se obtiene la tesis (ii). Para probar (iii) multiplicamos en (4.46) por xj , para j = i, obteniendo j (i) + ij ei . j = Y Y 1 ii En consecuencia, ij ej (i) = ej + ei . 1 ii Sumando los cuadrados cuando j = i se obtiene 2 ei j =i ij 2 2 2 ej (i) = ej + ei + 2 ij ej . 2 (1 ii ) 1 ii j =i j =i j =i Teniendo en cuenta (4.37) y que, al pertenecer e al subespacio X , se obtiene n ii ii 2 ej (i)2 = e2 e2 e2 j ei + i 2 i 1 1 ii ii j =1 j =i = con lo cual se concluye.
n j =1

De lo cual se sigue (i). Adem as, en virtud del teorema 3.9-(iii), se tiene que (i) y ei son independientes. Teniendo en cuenta que e i N (0, 1), [n (q + 2)] 2 2,I (i) 2 n(q+2) , 1 ii

i=n

ij ej = 0,

109

Manuales Uex

e2 j

e2 i , 1 ii

jess montanero fernndez


110 LINEAL MULTIPLE CAP ITULO 4. REGRESION

Este resultado permite proponer un test global de bondad de ajuste. Efectivamente, si los residuos estudentizados fueran independientes constituir an una muestra aleatoria simple de una distribuci on tn(q+2) . Por lo tanto, un test de bondad de ajuste a nivel a dicha distribuci on servir a para contrastar la hip otesis inicial de validez del modelo de regresi on. En todo caso y en virtud de la desigualdad de Bonferroni (3.46), podemos proponer un test a nivel menor o igual que , consistente en /2n un valor de i = 1, . . . , n, es rechazar la hip otesis inicial cuando |ti | > tn(q+2) , para alg decir, cuando aparece alg un residuo estudentizado muy extremo. Este m etodo resulta claramente conservador, lo cual hace necesario un an alisis gr aco de los residuos, ya sean brutos, estandarizados o estudentizados. La desventaja que presenta este tipo de estudio es la subjetividad que conlleva. A favor del mismo destacamos su mayor sensibilidad y que, en muchas ocasiones, arrojan pistas sobre las estrategias a seguir para conseguir un ajuste satisfactorio al modelo. Desde luego, cabe esperar que la representaci on gr aca de los residuos estandaa a una campana de rizados o estudentizados14 sea semejante a la que corresponder on lineal con Gauss. Efectivamente, consideremos, por ejemplo15 , un modelo de regresi n = 100 datos y tres variables explicativas independientes e id enticamente distribuidas seg un un modelo Uniforme[0,10]. Yi = 5 + 2zi [1] + 4zi [2] + zi [3] + i , i iid N (0, 4). (4.49)

En las guras 1 y 2 se presentan, respectivamente, el histograma de los residuos i (eje de on simple de las predicciones Y brutos tipicados16 y el diagrama de dispersi abscisas) frente a dichos residuos (ejes de ordenadas).

Manuales Uex

Tener en cuenta que la distribuci on tn(q+1) es muy parecida a la distribuci on N (0, 1). Modelo simulado mediante el programa R. 16 No coinciden exactamente con los residuos estandarizados ni estudentizados, pero las diferencias son pr acticamente inapreciables en una an alisis gr aco.
14 15

110

MODELOS LINEALES
4.4. ANALISIS DE LOS RESIDUOS 111

En el histograma se observa un buen ajuste a la campana de Gauss; en el diagrama de dispersi on, no se aprecia ninguna tendencia cara en la nube de punto, sino que esta se sit ua en torno al eje y = 0, con mayor densidad de puntos cuanto m as cerca se est e de dicho eje con un nivel de dispersi on similar. Dado que, en este caso, las predicciones se distribuyen uniformemente sobre el eje de las abscisas, se observa una banda de puntos con anchura uniforme. En general, la anchura de la misma ir a en funci on de la concentraci on sobre el eje de las abscisas, pues cuanto m as untos haya, m as probable ser a obtener residuos extremos. Los gr acos de dispersi on de los residuos frente a las distintas variables explicativas (guras 3, 4 y 5) presentan caracter sticas muy similares al de la gura 2.

111

Manuales Uex

jess montanero fernndez


112 LINEAL MULTIPLE CAP ITULO 4. REGRESION

En denitiva, cuando se veriquen los supuestos del modelo, se obtendr an gr acos como los que se han comentado. Por lo tanto, cuanto m as nos desviemos de este tipo de gr acos, m as patente ser a la violaci on de uno o varios de los supuestos. Para poder ilustrar la trascendencia de dichas violaciones en los m etodos de inferencia considerados, indicaremos en cada la ecuaci on que se obtiene del modelo mediante el EIMV. En este primer caso es y [1] 6,07 + 2,00z [1] + 3,86z [2] + 0,90z [3]. A continuaci on, vamos a ir introduciendo alteraciones en el modelo para ver como afectan a los gr acos de los residuos. En primer lugar, veamos qu e sucede cuando se viola exclusivamente el supuesto de normalidad. Para ello, supondremos que las 100 unidades experimentales verican la ecuaci on Yi = 5 + 2zi [1] + 4zi [2] + zi [3] + i , i iid Unifome(4, 4). (4.50)

Hemos de recordar que, seg un vimos en el cap tulo anterior, este tipo de violaci on no deber a tener gran trascendencia en las inferencias a realizar, siempre y cuando se verique la condici on de Huber y el tama no de muestra sea los sucientemente grande. En las gura 6 y 7 se presentan de nuevo el histograma de los residuos y el gr aco de dispersi on de los mismos frente a las predicciones.

112

Manuales Uex

MODELOS LINEALES
4.4. ANALISIS DE LOS RESIDUOS 113

En el histograma de los residuos brutos tipicados se aprecia un mayor aplastamiento que el que corresponder a a una campana de Gauss (curtosis negativo). El gr aco de dispersi on de los residuos frente a las predicciones no presenta diferencias claras respecto a la gura 2. S olo mediante un an alisis concienzudo se detecta una mayor concentraci on de puntos en torno a la recta y = 0 en el caso normal. En la gura 7, la distribuci on de los puntos es uniforme. Los diagramas de dispersi on frente a las variables explicativas ofrecen una imagen compl etamente an aloga, por lo que se omiten en este caso. En este caso, se estima la siguiente ecuaci on: y [2] 6,13 + 1,84z [1] + 4,08z [2] + 0,92z [3]. Como podemos observar, la violaci on de la normalidad que se ha considerado no es obice para obtener una excelente aproximaci on a la verdadera ecuaci on que rige el modelo. Adem as, tiene escasa repercusi on en el an alisis gr aco de los residuos. Introducimos una alteraci on que puede tener mayor trascendencia en el estudio: la violaci on del supuesto de homocedasticidad. Para ello simularemos el modelo (4.49), on t pica pero suponiendo que los errores i son normales de media 0 y de desviaci proporcional al valor de z[1]. Es decir, Yi = 5 + 2zi [1] + 4zi [2] + zi [3] + i , i iid N (0, z[1]2 ). (4.51)

Presentamos el histograma de residuos brutos tipicados y el diagrama de dispersi on de los mismos frente a las predicciones.

113

Manuales Uex

En el histograma no se aprecia un desajuste evidente respecto a la campana de Gauss, aunque un an alisis num erico delata un curtosis positivo. En el gr aco de dispersi on se observa que la anchura de la nube de puntos crece pareja a la magnitud de las predicciones. Los gr acos de dispersi on frente a las variables explicativas resultan en este caso concluyentes.

jess montanero fernndez


114 LINEAL MULTIPLE CAP ITULO 4. REGRESION

Efectivamente, en este queda perfectamente patente que la heterocedasticidad del modelo es u nicamente achacable a la variable z [1]. En los gr acos restates no se aprecian anomal as, salvo un residuo extremo que se corresponde con un dato mal explicada por el modelo. La ecuaci on estimada es la siguiente: y [3] 5,37 + 2,27z [1] + 3,74z [2] + 0,92z [3] La diferencia respecto a la ecuaci on verdadera no es a un muy ostensible, al menos en este caso. A continuaci on, veamos qu e sucede cuando se viola el supuesto de linealidad. Para ello simularemos el modelo Yi = 5 + 2zi [1] + 10zi [2]2 + zi [4] + i ,

i iid N (0, 4),

(4.52)

Manuales Uex 114

con un total de 100 unidades experimentales independientes. El histograma de los residuos y el gr aco de dispersi on frente a la predicciones se muestran a continuaci on.

MODELOS LINEALES
4.4. ANALISIS DE LOS RESIDUOS 115

En el histograma se observa una clara asimetr a con sesgo positivo. Lo m as importante es que, al contrario que en los gr acos anteriores, el gr aco de dispersi on presenta una clara tendencia, pues no se distribuye en torno al eje de abscisas de forma sim etrica, sino que existe un patr on de comportamiento que puede hacernos recordar, en este caso, la forma de una par abola. Esta situaci on suele delatar el incumplimiento del supuesto de linealidad. Confrontamos a continuaci on los residuos con los distintos vectores explicativos con el objeto de detectar la variable o variables responsables de la falta de linealidad. En este caso, queda patente que se trata de z[2], tal y como se aprecia en las guras siguientes.

115

Manuales Uex

jess montanero fernndez


116 LINEAL MULTIPLE CAP ITULO 4. REGRESION

Podemos apreciar, efectivamente, una clara forma de par abola cuando consideramos la variable z[2], lo cual revela una informaci on valios sima de cara a solucionar el desajuste (el desajuste se soluciona sustituyendo z[2] por su cuadrado). Hemos de empezar a tener muy claro que la correlaci on lineal entre los vectores explicativos (colinealidad) supone un pesado lastre en el an alisis de regresi on. De hecho, si las variables fueran no fueran incorreladas, no descubrir amos tan f acilmente que z[2] es la variable responsable de la no linealidad. No obstante, hemos de advertir claramente que en el esquema que estamos siguiendo contamos con dos ventajas enormes a la hora de detectar violaciones del modelo: en primer lugar, estas se introducen de manera aislada en cada caso; segundo, las variables explicativas son incorreladas. Este factor es fundamental pues, de no ser as , os resultar a muy dif cil determinar qu e variable es la reponsable de la heterocedasticidad o falta de linealidad. Cuando se da una relaci on lineal entre las variables explicativas, puede ser de utilidad el uso de gr acos parciales, que consisten en controlar todas las variables respuesta excepto una y enfrentar entre s los residuos de la variable explicativa restante y la variable respuesta dadas las variable controladas. As se elimina gr acamente el efecto de la relaci on lineal entre las variables explicativas. Como ya sabemos, el coeciente de correlaci on entre ambos residuos es el coeciente de correlaci on parcial. Precisamente, el test parcial para contrastar nicamente en el valor de dicho coeciente, es la hip otesis inicial j = 0 se basa u decir, que aporta un valor signicativo cuando en el gr aco parcial se observa una correlaci on clara. La ecuaci on estimada para este modelo es la siguiente: y [4] 13,20 + 2,21z [1] + 10,04z [2] + 0,97z [3]. Como podemos observar, el efecto de la no linealidad se deja notar ostensiblemente en el coeciente de z [2]. De existir multicolinealidad entre las variables explicativas, afectar a sin duda a las dem as variables. Es poco habitual, en la pr actica, que se produzca una u nica violaci on aislada del modelo, ya sea por no normalidad, por heterocedasticidad o por no linealidad, como hemos visto hasta ahora mediante sendos ejemplos. Lo m as frecuente es que se incumplan simult aneamente varios supuestos, por no decir todos. Por ejemplo, consideremos el modelo multiplicativo

Manuales Uex

Yi = 5 zi [1]2 zi [2]4 zi [3] i ,

i iid LN (0, 4)

17

(4.53)

17 Por LN (, 2 ) se denotar na la distribuci on positiva cuyo logaritmos es una normal de media y varianza 2 .

116

MODELOS LINEALES
4.4. ANALISIS DE LOS RESIDUOS 117

Veamos qu e aspecto tienen el histograma de los residuos brutos tipicados y el diagrama de dispersi on frente a las predicciones.

En el histograma podemos apreciar un fuerte sesgo positivo con al menos un valor muy extremo. Concretamente, podemos encontrar un residuo estudentizado con valor pr oximo a 10, lo cual se traducir a en un resultado signicativo al aplicar el test de valores extremos. Este sesgo queda tambi en patente en el diagrama de dispersi on, junto con evidente tendencia de la nube de puntos. Los gr acos de dispersi on frente a las variables explicativas son los siguientes:

117

Manuales Uex

jess montanero fernndez


118 LINEAL MULTIPLE CAP ITULO 4. REGRESION

Desde luego, ante uno gr acos as no procede continuar, sin m as, con el an alisis de regresi on estudiado en las dos primeras secciones. N otese que la ecuaci on de regresi on (lineal) no puede ser en modo alguno acertada. Sin embargo, en este caso, aunque el desajuste es evidente la soluci on es bien sencilla, pues si reemplazamos cada variable por su logaritmo obtenemos autom aticamente el modelo (4.49). La aparici on en el modelo de unidades experimentales an omalas, como ha sido el caso (este problema se tratar a m as adelante) puede achacarse a una violaci on de los supuestos, un error en la toma de datos o, simplemente, al propio azar. Veamos hasta qu e punto puede inuir en el an alisis gr aco de los residuos. Para ello, a nadimos al modelo (4.49) una observaci on an omala, obteni endose el siguiente diagrama de dispersi on frente a las predicciones.

Podemos observar un residuo muy alto (el valor estudentizado es pr oximo a 10) y cierta tendencia lineal negativa en el resto de la nube. Si comparamos este gr aco con la gura 2 entenderemos hasta qu e punto una u nica unidad experimental puede inuir en el an alisis de los residuos y, en general, en el de regresi on.

4.5.

Transformaciones de variables y MCP.

118

Manuales Uex

Cuando el an alisis de los residuos delata una maniesta violaci on de los supuestos del modelo, podemos optar por otro tipo de estudio, como puede ser una regresi on no param etrica o robusta, o bien por adecuar nuestros datos al modelo de regresi on lineal mediante transformaciones de las variables en juego e, incluso, la adici on de nuevos vectores explicativos. Por ejemplo, hemos visto que en la simulaci on (4.53),

MODELOS LINEALES
4.5. TRANSFORMACIONES DE VARIABLES Y MCP. 119

los residuos evidencian una clara violaci on de los supuestos del modelo de regresi on lineal. No obstante, si reemplazamos las variables originales, tanto las explicativas como la respuesta, por sus respectivos logaritmos, se vericar a un ajuste perfecto al modelo. Esto sucede con cierta frecuencia, concretamente en los modelos en los cuales los vectores explicativos no tienen un efecto aditivo sino multiplicativo. En este caso, observamos una falta de normalidad y de homocedasticidad asociada a una falta de linealidad, de manera que al resolver la u ltima se resuelven por a nadidura las primeras. Por desgracia, es bastante habitual que suceda lo contrario, es decir, que si aplicamos una transformaci on que permita vericar uno de los supuestos, deje de vericarse otro que, en principio, se satisfac a. Por ejemplo, si se satisface la linealidad y aplicamos una transformaci on a la variable respuesta (logaritmo, cuadrado,...) con objeto de conseguir normalidad, no es de extra nar que la relaci on lineal se rompa. El problema es pues bastante complicado, porque, aunque existen diversos m etodos para vericar los supuestos por separado, necesitar amos un algoritmo que permitiera vericarlos todos conjuntamente y que estuviera implementado en los programas estad sticos. Primeramente, debemos asumir que el ajuste no se conseguir a en multitud de ocasiones y, por tanto, debemos estar preparados para aplicar t ecnicas no param etricas cuando sean necesarias. No obstante, proponemos, a modo orientativo, una serie de m etodos que, aplicados aislada o conjuntamente, pueden lograr un ajuste satisfactorio al modelo de regresi on. Muchos de ellos tiene un denominador com un: de una forma u otra consisten en transformaciones de las variables, bien sea la respuesta, las explicativas o ambas. 1. M etodo de Box-Cox: este procedimiento se ide o, en principio, para obtener una trasformaci on de la variable respuesta que permita un ajuste satisfactorio a un distribuci on normal o, al menos, sim etrica. Se basa en la idea de que una potencia con exponente mayor que 1 dispersa los datos elevados, por lo que puede eliminar un sesgo negativo. Por contra, una potencia con exponente menor que 1 o el propio logaritmo neperiano dispersan lo datos pr oximos a cero, por lo que pueden eliminar un sesgo positivo18 . De esta forma, se considera la funci on , de R R+ en R que asocia a cada en R y cada x > 0 el valor

18 Para evitar problemas con potencias y logaritmos se supone que los datos son siempre positivos. Si sucede lo contrario, basta con trasladarlos inicialmente, rest andoles el valor m nimo.

119

Manuales Uex

(, x) =

x 1

ln x

si = 0 si = 0

jess montanero fernndez


120 LINEAL MULTIPLE CAP ITULO 4. REGRESION Como podemos apreciar, se ha efectuado una correcci on sobre la funci on indicada anteriormente con el objeto de aportar regularidad a la transformaci on. Efectivamente, puede comprobarse, haciendo uso de la regla de LHopital, que la funci on , as denida, es continua. Tambi en es continua en R la derivada parcial /x. Aunque, como hemos comentado, este m etodo est a originalmente orientado a conseguir normalidad, se utilizar a para lograr un ajuste aproximado a todos los supuestos del modelo de regresi on. En la pr actica, la transformaci on se aplicar a a una muestra de n datos, por lo que es necesario , se dene la funci on de extender la denici on a un vector n-dimensional. As + n n R (R ) en R que asigna a cada real y cada vector X = (x1 , . . . , xn ) el vector (, X ) = (, x1 ), . . . , (, xn ) . El m etodo, expresado en su forma m as general, consiste en suponer que existe un valor de tal forma que el vector aleatorio (, Y ) sigue un modelo lineal normal. Por lo tanto, la media de (, Y ) debe estar restringida a cierto subespacio V de Rn (queda excluido el propio Rn , pues en ese caso el modelo lineal es inviable). Por lo tanto, estamos considerando el siguiente modelo estad stico ((, Y Nn (, 2 Id)
))1

R, V, 2 > 0.

El valor adecuado de se estima por el m etodo de m axima verosimilitud, es decir, se escoger an los par ametros (es decir, la distribuci on) , y 2 que hagan m as veros mil la observaci on Y . En virtud del teorema del cambio de variables19 , se tiene que la funci on de verosimilitud L del modelo se expresa mediante L(y; , , ) = L0
2

n 1 (, y); , yi ,
2 i=1

on de verosimilitud correspondiente al modelo lineal donde L0 denota la funci normal (modelo de regresi on). De esta forma, dado R, se sigue del teorema 3.9 que m ax 2 n/2 L(Y ; , , )
2

V, 2 >0

Manuales Uex

19

Se efect ua aqu ua razonamiento an alogo al realizado en la demostraci on de la proposici on 2.5.

1 Y

n 1 yi n
i=1

120

MODELOS LINEALES
4.5. TRANSFORMACIONES DE VARIABLES Y MCP.

121

etrica de las componentes de Y . Fijo , el m aximo donde Y denota la media geom se alcanza con los estimadores de m axima verosimilitud de y 2 calculados a partir de la observaci on (, Y ). La cuesti on es, por tanto, encontrar el valor de que maximice esta funci on. El u ltimo t ermino resulta de elevar a n el estimador de que se obtendr a si multiplic aramos escalarmente (, Y ) por la media geom etrica de Y elevada a (1 ). En consecuencia, si consideraremos () () el vector Y () = Y1 , . . . , Yn , donde
() Yi

Yi 1

si = 0 si = 0

Y ln Yi

el problema se reduce a buscar el valor de que minimice () Y PV Y () 2 (4.54)

La soluci on nal al problema estar a en funci on del subespacio V escogido o, lo que es lo mismo, de las restricciones impuestas a la media. Destacamos tres casos: a ) El m as restrictivo es V = 1n . En tal caso, estaremos armando que (, Y ) es una muestra aleatoria simple de una distribuci on normal. Salvo que se d e la total incorrelaci on entre la variable respuesta y los vectores explicativos, una situaci on de este tipo s olo puede plantearse en un problema de correlaci on (v ease ejemplo 1 de la Introducci on), es decir, aqu el en el cual se eligen al azar y de forma independiente n unidades experimentales a las cuales se les miden q variables explicativas y una variable respuesta. En ese caso, este tipo de transformaci on puede aplicarse tambi en a las distintas variables explicativas con el objeto de aproximarnos a las condiciones del modelo de correlaci on lineal (v ease cap tulo 4). Tambi en podemos buscar una transformaci on del vector aleatorio (q + 1)-dimensional con la intenci on de conseguir una muestra aleatoria simple de una distribuci on (q + 1)-normal, que es exactamente la condici on de partida del modelo de correlaci on lineal. Para ello se utilizar a una versi on multivariante del ltimo procedimiento puede pecar m etodo de Box-Cox20 . No obstante, este u de ambicioso.
20

Ver volumen dedicado al An alisis Multivariante.

121

Manuales Uex

jess montanero fernndez


122 LINEAL MULTIPLE CAP ITULO 4. REGRESION Sin embargo, en un modelo de regresi on puro (v ease ejemplo 2), en el que los vectores explicativos est an controlados de antemano, los valores de la variable respuesta no pueden considerarse una muestra aleatoria simple de alguna distribuci on concreta, a menor quese d e la incorrelaci on total. Por ello debemos imponer otro tipo de restricciones. En todo caso y teniendo en cuenta (4.54), el m etodo propuesto consiste (cuesti on propuesta) en encontrar el valor de que minimiza la varianza total muestral de Y () . b ) En un modelo de regresi on propiamente dicho con una matriz X, se pueun de considerar la restricci on X, es decir, E[(, Y )] = X, para alg on que verique todos los Rq+1 . Ello equivale a buscar una transformaci supuestos del modelo de regresi on: normalidad de cada observaci on, homocedasticidad y linealidad (adem as de inependencia). Teniendo en cuenta (4.54), el m etodo consiste en encontrar el valor de que minimice () Y X(X X)1 X Y () 2 c ) Si el modelo de regresi on es del tipo (4.41) o, para ser m as preciso, como el del ejemplo 2 de la introducci on, podemos obviar el supuesto de linealidad considerando V = v1 , . . . , vk . En ese caso, estaremos buscando una transformaci on de los datos que permitan vericar los supuestos de normalidad (de cada observaci on) y homocedasticidad. Este modelo es menos restrictivo que los anteriores, por lo que se obtendr a un mayor m aximo para la funci on de verosimilitud o, equivalentemente, un menor m nimo para (4.54) (queda como ejercicio determinar qu e expresi on se debe minimizar). Ello se traduce en una mejor aproximaci on al modelo buscado, lo cual es l ogico dado que nuestras exigencias son menores.

122

Manuales Uex

Existe un problema de car acter t ecnico en el m etodo que no hemos mencionado a un. Radica en la b usqueda del m nimo (4.54). En ese sentido, lo m as habitual es escogerlo mediante un rastreo con diversos valores de . Si no disponemos de los medios adecuados, se aconseja tantear u nicamente con los valores =-1, 0, 0.5, 1, 2. Es decir, considerando las funciones 1 x , x , x2 . (4.55) , ln x , x En la pr actica, es dif cil que se obtenga un buen ajuste co alg un valor de si no se ha logrado con ninguno de estos cinco. Adem as, muchos autores rechazan el uso de transformaciones poco naturales pues desvirt uan la interpretaci on de os resultados en t erminos pr acticos.

MODELOS LINEALES
4.5. TRANSFORMACIONES DE VARIABLES Y MCP. 2. Transformaci on de variables explicativas. Regresi on polin omica: Un desajuste debido a falta de linealidad puede eliminarse en ocasiones manipulando u nicamente las variables explicativas o, mejor dicho, vectores explicativos. El hecho de operar u nicamente sobre estas permite conservar la normalidad y la homocedasticidad en el caso de que estos supuestos se veriquen. Una estrategia en ese sentido puede ser tantear con las distintas transformaciones de (4.55) en cada uno de los vectores explicativos hasta conseguir un ajuste satisfactorio. No obstante, los gr acos de residuos frente a vectores explicativos pueden ofrecer pistas sobre qu e variables transformar y el tipo de transformaci on a efectuar. Por ejemplo, en la simulaci on (4.52) se obtiene la linealidad considerando el cuadrado de z[2], cosa que puede intuirse a tenor de las guras 8, 9 y 10. Esto resulta bastante claro dado que los vectores z[1], z[2] y z[3] son, en este caso, incorrelados. Por otra parte, del Teorema de Aproximaci on de Weierstrass se sigue que cualquier funci on continua puede aproximarse localmente por un polinomio. Ello nos lleva a considerar la posibilidad de a nadir al modelo nuevos vectores explicativos que ser an potencias enteras y productos de los ya existentes. De esta forma, una ecuaci on lineal en t erminos de estas nuevas variables equivale a una ecuaci on polin omica en t erminos de los vectores explicativos originales. Este tipo de estudio recibe el nombre de regresi on polin omica. En el caso de la regresi on simple resulta m as f acil al no tener que introducir productos entre variables. Adem as, puede demostrarse f acilmente que, por muchas potencias de la variable explicativa que a nadamos, el rango de la matriz resultante seguir a siendo completo. Una vez introducidos los distintos monomios y si se consigue un ajuste satisfactorio, puede depurarse el modelo mediante una selecci on de variables. De todas formas se aconseja no superar el grado 2 en una regresi on polin omica. Los dos m etodos considerados pueden combinarse si se realiza una regresi on polin omica a partir de las variables transformadas, que pueden ser inversas, logaritmos o ra ces cuadradas de las originales. Por otra parte, adem as de las transformaciones ya estudiadas existen otras m as dr asticas, como la transformaci on log stica, que se estudia en el cap tulo 8. 3. M nimos Cuadrados Ponderados (MCP): Este procedimiento se plantea como una posible soluci on al problema de hete123

123

Manuales Uex

jess montanero fernndez


124 LINEAL MULTIPLE CAP ITULO 4. REGRESION rocedasticidad. En un modelo del tipo siguiente Y1 . . . Nn X, Yn 2 ... 0 1 . ... . . . . . , 2 0 . . . n

Rq+1 ,

2 2 1 , . . . , n > 0,

ni los estimadores propuestos en la primera secci on, denominados m nimocuadr aticos, ni los tests estudiados en la secci on segunda poseen la idoneidad que les corresponder a en un modelo homoced astico. No obstante, puede suceder que exista una funci on conocida g , de Rq en R+ tal que i g (zi ), i = 1, . . . , n.

En se caso, el modelo podr a expresarse mediante Y Nn (X, 2 Dg ), donde Rq+1 , 2 > 0, (4.56)

Estar amos pues ante un modelo como el estudiado en el problema 3.14. En ese 1/2 1/2 caso, tomando Y = Dg Y y X = Dg X, se verica que Y Nn (X , 2 ), Rq+1 , 2 > 0. (4.57)

0 g 2 (z1 ) . . . . . ... . . Dg = . . . 2 0 . . . g (zn )

Se denomina estimador por m nimos cuadrados ponderados de al estimador m nimo cuadr atico de para el modelo (4.57), es decir = (X D1 X)1 X Dg Y. g es el EIMV y EMV de X en el modelo (4.56). Puede probarse entonces que X Realmente, al considerar Y y X lo que estamos haciendo es dividir Yi y xi por el escalar g (zi ), ara todo i = 1, . . . , n, es decir, se pondera cada unidad experimental de forma inversamente proporcional a la varianza que presenta, de ah el nombre. Hemos de advertir, no obstante, que el exito de este m etodo esta supeditado a una buena elecci on de la funci on g anterior, lo cual no es nada f acil.

124

Manuales Uex

MODELOS LINEALES
4.5. TRANSFORMACIONES DE VARIABLES Y MCP. 125

Otros m etodos para conseguir un satisfactorio ajuste al modelo de regresi on pueden encontrarse en Rawlings et al. (1999). En todo caso, ante un problema tan complejo como este, convendr a seguir algunas pautas orientativas, lo m as concisas posibles. En vista de lo estudiado hasta ahora, nos aventuramos a proponer tres estrategias: 1. La primera es v alida para modelos de correlaci on. Se trata de transformar todas las variables en juego mediante el m etodo de Box-Cox o por simple tanteo para obtener, aproximadamente, muestras aleatorias simples de distribuciones normales. Esta situaci on nos aproximar a a las condiciones del modelo de correlaci on lineal. Tener en cuenta que, si estas se dieran, la normalidad, homocedasticidad y linealidad de la distribuci on condicional se obtendr an autom aticamente (ver cap tulo 4). 2. La segunda es v alida tanto para problemas de regresi on pura como de correlaci on. Se trata de buscar primero la linealidad mediante transformaciones del tipo (4.55) para todas las variables o mediante regresi on polin omica, para despu es buscar la homocedasticidad mediante MCP. 3. La tercera estrategia es v alida u nicamente para modelos de regresi on pura. Consiste en intentar eliminar primero la heterocedasticidad mediante el m etodo de Box-Cox (manipulando u nicamente la variable respuesta) y, despu es, buscar la linealidad manipulando las variables explicativas. En todo caso, considerar u nicamente transformaciones sencillas del tipo (4.55) o regresiones polin omicas. Posiblemente, las dos primeras estrategias son las m as factibles en la pr actica No obstante y como dijimos al comienzo de la secci on, conviene tener en cuenta tambi en los distintos m etodos alternativos de regresi on, incluyendo los no param etricos. Comentamos muy brevemente algunos de ellos. En primer lugar, veamos el m as natural desde el punto de vista te orico. Supongamos que z = (z [1], . . . , z [q ]) es un vector aleatorio de manera que, conjuntamente con y , admiten una densidad respecto a ala medida de Lebesgue en Rq+1 . El objetivo de la regresi on es encontrar el valor medio esperado para la variable y cuando se conocen el resultado de Z, es decir, E[y |z ]. En el caso de que y y z sigan conjuntamente un modelo de distribuci on (q + 1)-normal, la esperanza condicional es, en virtud de la proposici on 2.5, una funci on af n de z , lo cual nos llevar a a un modelo de Regresi on. En general, se trata de una funci on cuyo valor en z = z es la media de la ditribuci on condicional de y respecto a z = z, que puede calcularse a partir de la densidad on condicional. Por su parte, esta densidad pude construirse fy|z=z de dicha distribuci

125

Manuales Uex

jess montanero fernndez


126 mediante fy|z=z (y) = f (y, z) , fz (z) (4.58) LINEAL MULTIPLE CAP ITULO 4. REGRESION

donde f y fz denotan las densidades conjunta y marginal en z , respectivamente. Por lo tanto, el problema se reduce a estimar ambas densidades mediante el conocido M etodo del N ucleo, y los u nicos inconvenientes son los inherentes a este m etodo de estimaci on. Fundamentalmente, hemos de mencionar el problema de la elecci on del ancho de banda adecuado y, sobre todo, lo que en Estad stica no Param etrica se conoce como maldici on de la dimensi on: que el n umero de datos requerido para lograr una estimaci on satisfactoria de la densidad crece exponencialmente en relaci on con la dimensi on considerada21 Otros m etodos alternativos que aporta resultados muy satisfactorios son los de regresi on local. Consisten en calcular una funci on de regresi on (lineal o polin omica) en cada punto dependiendo de lo que se observe en un entorno del mismo. Se trata pues de un patr on de comportamiento cambiante que permite un ajuste muy satisfactorio en problemas complejos. Entre estos m etodos podemos destacar el de Nadaraya-Watson, el de Gasser-M uller o los de regresi on polin omica local. Para m as informaci on, ver Fan & Gijbels (1996).

4.6.

An alisis de valores inuyentes

Manuales Uex

En esta secci on se abordar a el diagn ostico de un problema que, si bien no ha de ser necesariamente consecuencia de la violaci on de los supuestos, puede acarrear mayores perjuicios que esta. Se trata de la presencia de valores inuyentes. Entendemos por valor inuyente a una unidad experimental con una inuencia determinante en el resultado del an alisis, es decir, tal que su supresi on del modelo provoca una cambio sustancial en la ecuaci on de regresi on estimada, tal y como se observa en las guras 24 y 25.

21

Ver Silverman (1986), tabla 2.2.

126

MODELOS LINEALES
4.6. ANALISIS DE VALORES INFLUYENTES 127

22

Ver Pe na (1993).

127

Manuales Uex

Una situaci on como la observada resulta inadmisible desde el punto de vista de la Inferencia Estad stica, pues no parece razonable extraer conclusiones de car acter poblacional cuando vienen determinadas por un u nico individuo. Por ello, cuando se detecta alg un o algunos valores inuyentes debemos valorar dos circunstancias: primeramente, si esa inuencia es debida a la falta de linealidad en el modelo, en cuyo caso debemos intentar conseguir un mejor ajuste, aplicando los m etodos estudiados en la secci on anterior; si no es el caso, debemos considerar la posibilidad de que el dato en s constituya un error en la medici on o en el proceso de tratamiento de la informaci on, en cuyo caso debe ser eliminado. Si el dato es correcto, ser a conveniente aplicar m etodos de Regresi on Robusta. En Carmona (2005) se presentan diversos procedimientos para construir una recta de regresi on simple resistente ante la presencia de datos at picos. En el caso de la regresi on m ultiple, el problema se resuelve ponderando negativamente los residuos de los datos at picos22 .

jess montanero fernndez


128 LINEAL MULTIPLE CAP ITULO 4. REGRESION

De lo dicho anteriormente puede inferirse que el diagn ostico de datos inuyentes ha de llevarse a cabo o con anterioridad o, a la sumo, paralelamente al an alisis de los residuos. Veamos a continuaci on cuatro m etodos para disgnosticar la presencia de valores inuyentes: 1. Distancias de Cook: este m etodo se basa en la idea de considerar inuyente la unidad experimental i- esima cuando existe una diferencia sustancial entre la estimaci on del vector con dicha unidad y sin ella. De esta forma y teniendo en cuenta la regi on de conanza (3.16) para el par ametro , denimos para la unidad i- esima la siguiente distancia, denominada distancia de Cook: (i) X X (i) Y (i)2 Y 2 = . Di = (q + 1) 2,I (q + 1) 2,I

Realmente, lo que estamos haciendo es determinar si la estimaci on de sin la unidad i- esima pertenece a la regi on de conanza para construida con todas las unidades, incluida la i- esimaq. A partir de esto, podr amos construir un 2 es mayor que Fq test de hip otesis consistente en determinar si Di +1,nq 1 . No obstante, como la comparaci on se va a efectuar con todas las unidades experimentales, la Desigualdad de Bonferroni (tener en cuenta que las distancias de /n 2 con Fq+1,nq1 , de forma Cook no so independientes) induce a compara cada Di que si alguna distancia de Cook supera dicho valor se diagnosticar a la presencia de valores inuyentes. No obstante, dicho m etodo resultar a enormemente 2 con el cuantil conservador. En la pr actica es muy com un confrontar cada Di 0,50 Fq+1,nq1 , de manera que los puntos que lo superen se consideran inuyentes. Otros autores proponen consider como punto de corte 4/n. Por otra parte, de (4.46) se sigue directamente que 2 2 ii Di = (q + 1)1 ri , i = 1, . . . , n. 1 ii

(4.59)

Esta igualdad explica perfectamente el porqu e de la inuencia de una determinada unidad, pues vemos que la distancia de Cook es proporcional al producto as extrema de dos factores: el primero de ellos, ii (1 ii )1 es mayor cuanto m sea la observaci on zi en el sentido de la distancia de Mahalanobis d2 denida en (4.23). Efectivamente, seg un se sigue de (4.38), se tiene que ii (1 ii )1 = f(d2 (zi , z)),

Manuales Uex

siendo f la funci on creciente de [0, n 1] en R denida mediante f(x) = 1+x


n1x

128

MODELOS LINEALES
4.6. ANALISIS DE VALORES INFLUYENTES 129

Sabemos por (4.45) que, cuanto m as extremos sea el dato, menor ser a la varianza on lineal del residuo ei . El caso extremo se da cuando ii = 1. En una regresi enticos. simple, ello equivale a que todos los valores explicativos salvo zi sean id En tal caso d(zi , z ) = n 1 y la varianza de ei es nula. Por lo tanto, al ser la media del residuo nula en todo caso, la funci on pasa necesariamente por (zi , Yi ), tal y como sucede en las gura 26 y 27.

129

Manuales Uex

Razonando por continuidad deducimos que los valores distantes del centroide en t erminos relativos tienen residuos menores que los valores cercanos. En t erminos heur sticos, podr amos decir que se realiza un mayor esfuerzo por ajustar bien los datos extremos. En ese sentido podemos armar que estos valores poseen un gran peso en la regresi on. Pero ello no quiere decir que sean de hecho decisivos pues, como podemos ver en (4.59), interviene un segundo factor que es el residuo estandarizado. Por lo tanto, una unidad experimental ser a m as inuyente

jess montanero fernndez


130 LINEAL MULTIPLE CAP ITULO 4. REGRESION cuanto peor ajustada est e por la ecuaci on de regresi on. Si ambos factores (zi extremo y dato mal ajustado) concurren, como ocurre en la gura 25, el dato resulta ser enormemente inuyente. Pero ello no tiene por qu e suceder, como vemos en la gura 28.

2. Dfbetas: el planteamiento es similar al anterior pero considerando por separado los estimadores de las componentes de , es decir, que un unidad experimental se considera inuyente cuando su eliminaci on supone un cambio sustancial en , teniendo en cuenta en esta ocasi on alguna de las estimaciones de 0 , . . . , q . As el intervalo de conanza para obtenido en (4.10), denimos el estad stico Dfj (i) = (i) j j , I jj j = 0, . . . , q, i = 1, . . . , n.

Siguiendo el midmo razonamiento que con las distancias de Cook, podr amos alisis individual connfrontar los valores obtenidos con con t nq1 para un an /n(q +1) o mejor con tnq1 para un an alisis conjunto. Dicho m etodo resulta muy conservador, por lo que en la pr actica se utilizan puntos de corte m as bajos23 . 3. Dfajustados: la idea tambi en es similar al planteamiento de las distancias de Cook pero teniendo en cuenta las predicciones en lugar de las estimaciones de . Al igual que en el caso de las Dfbetas, se realiza un estudio individual. De esta forma, teniendo en cuenta el intervalo de conanza para el valor medio
23

Manuales Uex

Ver Rawlings et al. (1998), pag. 364.

130

MODELOS LINEALES
4.6. ANALISIS DE VALORES INFLUYENTES esperado de una predicci on obtenido en (4.24) Dfadj(i) = i Y i (i) Y , I(i) ii
24

131 , se dene

i = 1, . . . , n .

Este valor podr a confrontarse con t alisis individual o, mejor, nq2 para una an /n alisis global. Para una an alisis menos conservador utilizan con tnq2 para un an otras cotas25 . De (4.47) se sigue inmediatamente que ii Dfadj(i) = ti , 1 ii

i = 1, . . . , n .

(4.60)

2 , Esta expresi on permite interpretar Dfadj(i) en los mismos t erminos que Di pero en t erminos del residuo estudentizado. De hecho, se puede establecer f acilmente la siguiente equivalencia: 2 2,I (i) 2 . (4.61) Di = Dfadj(i) (q + 1) 2,I

4. Covratios: este m etodo diere sustancialmente de los tres anteriores. Se basa en e hecho de que, para cada i = 1, . . . , n, = 2 [X X]1 , Cov (i) = 2 [X(i) X(i)]1 . Cov | 2,I (i)[X(i) X(i)]1 | 2,I 2 1 . [X X]

Se considera entonces el estad stico Covratio(i) =

Un valor distante de 1 se considera pues como signo de inuencia de la unidad i- esima. Para todos los estad sticos introducidos podemos establecer otras cotas convencionales para determinar la inuencia de una determinada unidad, al margen de las ya comentadas en los tres primeros m etodos. El lector puede encontrarlas en Rawlings et al. (1998).
Estamos hablando de la predicci on en Yi que se obtendr a sin la participaci on de la unidad i- esima en el modelo, es decir, partir de n 1 unidades experimentales. 25 Ver Rawlings et al. (1998), pag. 363.
24

131

Manuales Uex

jess montanero fernndez


132 LINEAL MULTIPLE CAP ITULO 4. REGRESION

4.7.

Multicolinealidad

Para acabar este cap tulo abordamos el estudio de una situaci on que, aunque no puede considerarse una violaci on de los supuestos, puede acarrear muy serios problemas a la hora de extraer conclusiones. Nos referimos al problema de multicolinealidad, que se presenta cuando existe un alto grado de correlaci on lineal entre los vectores explicativos, lo cual puede implicar una elevada varianza en los estimadores de los respectivos coecientes de regresi on o una importante correlaci on entre los mismos. El hecho de que los estimadores presenten una elevada varianza puede considerarse negativo, al menos en principio, dado que resta abilidad a las estimaciones obtenidas. Lo mismo puede decirse de la correlaci on entre los estimadores, pues ser a interesante que los distintos coecientes se estimaran de forma totalmente independiente. No obstante, esto es bastante relativo, como ya veremos. La situaci on objetivamente indeseable se produce cuando estas circunstancias inducen a cometer importantes errores a la hora de determinar el grado de inuencia de las variables explicativas en la variable respuesta. El problema de multicolinealidad en regresi on se trata tanto aqu como en el volumen dedicado al an alisis multivariante. Quiz as all se puede abordar con mayor propiedad pues se suele hacer uso de las componentes principales para intentar solucionar el problema. En este caso haremos especial hincapi e en las repercusiones de la multicolinealidad en los resultados de la regresi on. En todo momento hemos supuesto que la matriz X es de rango completo, es decir, que todas sus columnas son linealmente independientes. De no ser as , el par ametro no quedar a un vocamente determinado, pues existir an innitas soluciones a la a ecuaci on E[Y ] = X. De hecho, el estimador propuesto para el mismo no podr a invertible. En tal caso se dice que estamos ante calcularse pues la matriz X X no ser un Modelo Lineal de Rango no Completo. Este modelo se estudiar a m as adelante. an pr oximas Excluyendo esta situaci on, el problema se da cuando las columnas de X est a la dependencia lineal, aunque esta no se d e. Efectivamente, sabemos que la matriz de varianzas-covarianzas del estimador de es la siguiente: = 2 (X X)1 . Cov

132

Manuales Uex

Podemos observar c omo la misma se explica, por una parte, por la propia varianza del modelo, 2 , y por otra, por la estructura de la matriz X. Desde luego, si X fuera a nulo. Razonando por continuidad, de rango no completo, el determinante de X X ser on de dependencia lineal, m as cuando m as se aproximen las columnas de X a la situaci a la existencia se aproximar a a 0 el determinante de la matriz X X, lo cual implicar de valores muy altos en su inversa. No obstante, podemos ser mucho m as expl citos

MODELOS LINEALES
4.7. MULTICOLINEALIDAD si consideramos la descomposici on de en 0 y . Efectivamente, dado que = (Z Z0 )1 Z Y, 0 0 se verica 2 = S 1 , Cov zz
n

133

0 = y z , (4.62)

Luego, en primer lugar, hemos probado que 00 = n1 [1 + d2 (z, 0)]. Respecto a los dem as coecientes, se sigue del lema 9.7 que, para cada j = 1, . . . , q, si Zj denota la esima, entonces matriz Z despojada de la columna j - 1 2 2 = . var sz[j ] Sz[j ]Zj S 1 SZj z[j ] j Zj Zj n 1 1 2 , 2 1 Rj sz[j ] j = 1, . . . , q, (4.63)

1 2 2 1 var 0 = + d (z, 0) .
n n

Teniendo en cuenta (4.16), resulta

2 denota abreviadamente el coeciente de correlaci on m ultiple de z[j ] respecto donde Rj al resto de vectores explicativos. Con esto queda demostrado que 2 2 )sz[j ] ]1 , jj = [n(1 Rj

j = 2 1 var
n

(4.64)

j = 1, . . . , q.

(4.65)

133

Manuales Uex

j puede conducir, seg un un an alisis inicial, no Una elevada varianza del estimador demasiado reexivo, a un resultado no signicativo en el contraste parcial para j y, por lo tanto, a la eliminaci on de dicha variable. De hecho, uno de los m as claros s ntomas de multicolinealidad es la presencia de muchos resultados no signicativos en los tests parciales. Esa apreciaci on no es err onea, aunque est a sujeta a ciertas matizaciones, como veremos a continuaci on. Para un an alisis m as exhaustivo, debemos estudiar detalladamente los distintos factores que intervienen en la expresi on (4.64). En primer lugar, l ogicamente, la propia no de la muestra: cuanto mayor sea, varianza del modelo, 2 ; en segundo lugar, el tama menor ser a la varianza del estimador. No estamos armando que la varianza asint otica sea necesariamente nula, cosa que ocurre cuando jj converge a 0. Precisamente, que esto se verique para todo j = 0, 1, . . . , q, equivale a la proposici on (3.32), que garantiza la consistencia del estimador de . El tercer factor en la ecuaci on (4.64) depende del grado de correlaci on lineal que z[j ] presenta respecto al resto de vectores explicativos: cuanto m as multicolinealidad 2 1 ) se denomina Factor exista, mayor ser a la varianza. De hecho, el t ermino (1 Rj de Inaci on de la Varianza j - esimo, abreviadamente F IVj . Hemos de tener en cuenta

jess montanero fernndez


134 LINEAL MULTIPLE CAP ITULO 4. REGRESION

que el resultado de un test parcial depende u nicamente del valor del coeciente de correlaci on parcial entre la variable respuesta y la variable explicativa en cuesti on, dadas el resto de variables explicativas. Que dicha variable pueda explicarse linealmente por las dem as suele venir acompa nado (aunque no necesariamente, seg un se ve en el ejercicio 3) con un bajo valor del coeciente de correlaci on parcial. La visi on geom etrica puede ser fundamental en este caso. Los siguientes gr acos ilustran c omo una elevada correlaci on lineal entre dos vectores explicativos da lugar a una inaci on en las varianzas de los estimadores. Supondremos que q = 2 y se denotar an por z0 [1] y z0 [2] las columnas primera y segunda de Z0 , respectivamente. En la primera ilustraci on se presentan vectores explicativos incorrelados, lo cual equivale on de la a que z0 [1] y z0 [2] sean perpendiculares. En este caso, los factores de inaci varianza son nulos. z0 [2] 2 2 1 2 P Y z0
2

P Y z0

2 1

1 1

z0 [1]

134

Manuales Uex

Para una observaci on Y 1 de la variable respuesta (es decir, un vector n-dimensional), a expresarse como una u nica obtenemos una proyecci on sobre el plano Z0 , que podr on ser an las combinaci on lineal de z0 [1] y z0 [2]. Los coecientes de dicha combinaci on Y 1 . No obstante, las observaciones est an estimaciones de 1 y 2 para la observaci sometidas a cierta variabilidad dado que son aleatorias. La magnitud de dicha variaon del bilidad est a determinada por el par ametro 2 . Por lo tanto, una nueva ejecuci on sobre el plano Z0 experimento proporcionar a otra observaci on Y 2 cuya proporci ser a diferente, luego, diferentes ser an tambi en las estimaciones de los coecientes. Podemos observar, no obstante, que una peque na diferencia entre las observaciones se traduce en una peque na diferencia entre las estimaciones. Esta es la situaci on ideal, pues no se produce una inaci on de la varianza debida a la correlaci on entre los vectores explicativos. La situaci on contraria se ilustra en el siguiente diagrama. Hemos de tener en

MODELOS LINEALES
4.7. MULTICOLINEALIDAD 135

cuenta que una alta correlaci on entre las variables explicativas se representa mediante oximos a la dependencia lineal. dos vectores, z0 [1] y z0 [2] pr
P Y2 z0 2 Pz0 Y 1 2 z0 [1] 1 1 1 2

z0 [2]

2 1

135

Manuales Uex

En consecuencia, si la correlaci on entre z[1] y z[2] es positiva y los signos de 1 y 2 coinciden, o bien si la correlaci on es negativa y los signos dieren, se verica que, por t ermino medio, un aumento en el valor absoluto de la estimaci on de 1 va acompa nado de una disminuci on en el valor absoluto de la de 2 , y, a efectos de los test parciales (ver (4.33)), esto es lo m as importante a la hora de excluir una variable del modelo. Esa puede ser la situaci on que se da en la segunda ilustraci on. Por lo tanto, en esas condiciones, una sobrevaloraci on de una de las variables explicativas va acompa nada de una minusvaloraci on de la otra. Que esta situaci on, con repercusiones muy negativas en el an alisis, se d e o no, depende, insistimos, de la relaci on entre los estos par ametros del modelo, hablar de la signos de los coecientes 1 y 2 . Al ser

En este caso observamos c omo la misma variaci on en las observaciones produce una diferencia mucho mayor entre las estimaciones de los coecientes. En esto consiste la inaci on de la varianza. Las consecuencias de la misma pueden ser bastante graves en lo que se reere a la optimizaci on del modelo. Efectivamente, seg un la primera observaci on, ser a z[1] la variable con mayor peso en la explicaci on de la variable respuesta, mientras que, seg un la segunda observaci on, la situaci on ser a la contraria. Esto puede verse reejado en los tests parciales, de forma que se considere no signicativo un coeciente (lo cual puede conllevar la eliminaci on de la correspondiente variable) que, con otra observaci on muy similar, s lo ser a. Esta especie de discontinuidad en la decisi on no parece ser admisible desde el punto de vista de la Inferencia Estad stica. Respecto a la covarianza entre los estimadores de 1 y 2 , se sigue trivialmente de (4.12) 2 rz[1],z[2] 1 2 ] = 1 , (4.66) cov 2 n sz[1] sz[2] 1 rz [1],z[2]

jess montanero fernndez


136 LINEAL MULTIPLE CAP ITULO 4. REGRESION

136

Manuales Uex

probabilidad de que se d e esta circunstancia problem atica s olo tiene sentido desde una perspectiva Bayesiana. En el caso general, cuando tengamos q vectores explicativos, podemos obtener, a partir del lema 9.7, una expresi on an aloga en t erminos de las varianzas y coecientes de correlaci on parciales. Concretamente, si consideramos i y j entre 1 y q y distintos esima y j - esima, entre s , y se denota por ZR la matriz Z desprovista de las columnas i- se verica: 2 rz[1],z[2]zR 1 , j ] = cov (4.67) i 2 n sz[1]zR sz[2]zR 1 rz [1],z[2]zR La interpretaci on es, por lo tanto, similar. En denitiva, el problema de multicolinealidad puede llevar a una situaci on en la cual el propio azar tenga demasiado peso a la hora escoger unas variables en detrimento de las otras. j es inversamente proporcional Por u ltimo, se sigue de (4.64) que la varianza de a la varianza muestral de z[j ]. Ello se explica sencillamente por el hecho de que la este es varianza de z[j ] coincide con el cuadrado de la longitud del vector z0 [j ]. Si peque no, lo coecientes correspondientes ser an grandes y su varianza tambi en. De hecho, si, por ejemplo, z[j ] expresa la medici on en cent metros de cierta longitud, expresar los valores en metros equivale a dividir por cien la longitud de z0 [j ] y, por lo tanto, a multiplicar por cien el estimador de su coeciente. En particular, multiplicamos por cien su desviaci on t pica. Este hecho no puede tener inuencia en los contrastes parciales pues no suponen cambio alguno en los subespacios V del modelo ni W de la hip otesis inicial. Simplemente, estaremos manejando valores m as elevados con varianzas m as elevadas pero, en t erminos relativos, el grado de dispersi on es el mismo. Hay que tener en cuenta que, el que la varianza muestral de z[j ] sea pr oxima a 0, equivale a que el vector sea casi proporcional al t ermino independiente 1n , lo cual debe repercutir negativamente en la varianza del estimador y, por lo tanto, en la abilidad de la estimaci on. Pero que esta circunstancia tenga trascendencia real en el an alisis de los resultados es discutible, al menos en lo que a los contrastes parciales se reere. De hecho, basta tipicar los vectores explicativos para que este factor quede eliminado. En conclusi on, hemos analizado en qu e sentido la multicolinealidad entre los vectores explicativos puede entorpecer la valoraci on de la importancia de las mismas a la hora de explicar la variable respuesta. Aunque no es este el u nico problema que ocasiona, es posiblemente el m as relevante pues afecta enormemente a la optimizaci on del modelo. Existen diversas formas de detectar la multicolinealidad. Una de las m as extendidas consiste en analizar los F IV s. Muchos autores consideran la presencia de alg un F IV mayor que 10 como signo de un problema de multicolinealidad; tambi en pueden analizarse los denominados Indices de Condicionamiento para detectar auto-

MODELOS LINEALES
4.7. MULTICOLINEALIDAD 137

on pr oxima al valores pr oximos a cero en X X (lo cual se corresponde con una situaci rango no completo) y las matrices de Proporci on de la Varianza26 . La propia matriz de correlaciones de los vectores explicativos, Rz , o los gr acos de dispersi on aportan una informaci on muy valiosa. No obstante, en muchas ocasiones los resultados de los tests parciales pueden constituir signos claros de un problema de multicolinealidad. Una vez diagnosticado el problema, la siguiente cuesti on es c omo intentamos resolverlo. Recordemos que, realmente, lo que se exige de un estimador es que la matriz (9.42), conocida como error cuadr atico medio, sea lo menor posible. Un estimador optimo en ese sentido no puede encontrarse en la mayor a de los casos, por lo que es costumbre imponer la condici on razonable de que el estimador sea insesgado y buscar entonces el que minimice el error cuadr atico medio. En ese caso, se trata simplemente de minimizar la varianza, por lo que el estimador optimo, si existe, se denomina insesgado de m nima varianza. Ese el el caso, como ya sabemos, del estimador de Pero hemos de tener presente que se ha impuesto una condici on muy restrictiva: que el estimador sea insesgado. Si el EIMV presenta una matriz de varianzas-covarianzas con valores elevados, como sucede cuando existe un problema de multicolinealidad, podemos buscar un estimador sesgado aunque con menor varianza, de manera que el error cuadr atico medio disminuya sustancialmente. Eso es lo que se denomina una regresi on sesgada. Existen diversos m etodos de estimaci on sesgada. Por ejemplo, en Arnold (1981) se estudia el denominado estimador Ridge, propuesto en Hoerl y Kennard (1970) (k) = (X X + k Id)1 X Y, siendo k un n umero positivo seleccionada para minimizar el error cuadr atico medio. Este procedimiento tiene una clara justicaci on te orica desde un punto de vista Bayesiano. No obstante, analizaremos con algo m as de detenimiento otro m etodo de estimaci on sesgada basado en el An alisis de Componentes Principales27 . Antes de aplicar un t ecnica de este tipo es bastante com un tipicar los vectores en juego, en este caso los explicativos, cosa que supondremos en lo que resta del cap tulo. Por lo a con la matriz de correlaciones, tanto, la matriz de covarianzas de Z, Sz , coincidir Rz . El m etodo en s consiste en transformar los datos de manera que los factores de inaci on de la varianza desaparezcan en favor de las varianzas de las vectores explicativos, que aumentan. Para ello, debemos encontrar una transformaci on en
Hair et al. (1999). La descripci on de esa t ecnica multivariante puede encontrarse, por ejemplo, en Rencher (1995), o tambi en en el volumen dedicado al An alisis Multivariante.
26 27

137

Manuales Uex

jess montanero fernndez


138 LINEAL MULTIPLE CAP ITULO 4. REGRESION

las variables explicativas (rotaci on) que las haga incorreladas, lo cual se consigue mediante la diagonalizaci on de la matriz de covarianzas seg un el teorema 9.4 Sz = , donde es la matriz diagonal de los autovalores ordenados de Sz , 1 , . . . , q , y es la matriz ortogonal cuyas columnas constituyen una base ortonormal de autoon, se proyectan los vectores zi sobre los vectores asociados, g1 , . . . , gq . A continuaci ejes determinados por los autovectores, de manera que se obtiene una nueva matriz explicativa U = Z, cuyas columnas, que se denotan por u[1], . . . , u[q ], se denominan componentes principales. Esta transformaci on, consistente en aplicar una matriz ortogonal puede deshacerse mediante Z = U . La ventaja que presentan las componentes principales es que son incorreladas, pues SU = . As pues, la regresi on lineal respecto a Z puede convertirse en una reresi on respecto a U si consideramos el par ametro = Y = 0 1n + Z + E = 0 1n + U + E ,

donde E sigue un modelo de distribuci on Nn (0, 2 Id). El EIMV de es = (U U )1 U Y = , de manera que el estimador de puede reconstruirse mediante = . Sin embargo, 2 1 Nq , .
n

(4.68)

Manuales Uex

En consecuencia, los estimadores j , j = 1, . . . , q son independientes, siendo su varianza 2 1 var j = j . (4.69)


n

Adem as, puede comprobarse que los estimadores j coinciden con los que se obtendr an en cada caso con una regresi on simple. Un dise no de este tipo, en el que los

138

MODELOS LINEALES
4.7. MULTICOLINEALIDAD 139

vectores explicativos tienen media aritm etica nula y son incorreladas, se denomina ortogonal. Podemos observar que la varianza del estimador es inversamente proporcional a la varianza de la correspondiente componente principal, sin que en este caso exista un factor de inaci on de la varianza. Esto no debe inducirnos a pensar que hemos conseguido reducir la matriz de varianzas-covarianzas de los estimadores. De hecho, puede demostrarse f acilmente que, tanto la varianza generalizada28 como la 29 varianza total , permanecen invariantes cuando se consideran las componentes principales. Consideremos una divisi on de en dos submatrices diagonales 1 y 2 , lo cual induce una divisi on an aloga en la matriz , en vector y en su estimador. De esta forma, se verica 1 2 1 0 1 = (4.70) (1 2 ) Cov 0 2 n 2 = descompone en Adem as, = 1 1 + 2 2 . de que se obtiene depreciando los coeSi consideramos un nuevo estimador cientes correspondientes a las componentes principales asociadas a 2 , es decir, = 1 1 , se vericar a lo siguiente: = 2 2 , Sesgo 2
n
1 1 1 1 +

2
n

1 2 2 2 .

(4.71)

Nos referimos al determinante de la matriz de varianza-covarianzas. ,..., . o, lo que es lo mismo, la traza de la matriz de Es decir, la suma de las varianzas de 1 q varianzas-covarianzas total.
28 29

139

Manuales Uex

ltimas As pues, si 1 contiene los autovalores menores (que son las varianzas de las u componentes principales), al considerar este nuevo estimador de conseguiremos una gran reducci on en la matriz de varianzas-covarianzas. Por contra, el estimador obtenido ser a sesgado. Teniendo en cuenta (9.43), este procedimiento resulta rentable cuando el sesgo introducido es peque no en relaci on con reducci on en las varianzas, oximo a 0. Por lo tanto, la estrategia consiste en cosa que sucede cuando 2 es pr despreciar las componentes principales de menor varianza siempre y cuando su correspondiente coeciente sea pr oximo a 0. Una decisi on de este tipo puede basarse en

2 1 = Cov Cov 2 2 2 .
n

jess montanero fernndez


140 LINEAL MULTIPLE CAP ITULO 4. REGRESION

los resultados de los test parciales. Mucho autores coinciden en considerar un nivel de signicaci on mayor de lo habitual, por ejemplo 0.20, a la hora de aplicarlos. Por desgracia, no podemos garantizar que los tests parciales aporten resultados no signicativos para las componentes principales de menor varianza, pero si esto sucede, cabr a conar en una sustancial reducci on de la matriz de varianzas-covarianzas y, por lo tanto, en una clara mejor a del an alisis. Queda pendiente una u ltima cuesti on. En qu e momento debe llevarse a acabo el diagn ostico de multicolinealidad? No estamos en condiciones de dar una respuesta clara pero parece razonable realizarlo una vez ajustados los datos a los supuestos del modelo, pues cualquier acci on que emprendamos previa al an alisis de los residuos puede quedar desbaratada despu es de aplicar transformaciones de las variables.

Cuestiones propuestas
1. Probar la igualdad (4.7).
2 2. Probar que s2 = sPz Y
Y

1 n

3. Demostrar la siguiente igualdad

2 n . i=1 0 + zi y

Demostrar la expresi on equivalente en t erminos de los coecientes probabil sticos. 4. Probar que el coeciente de correlaci on m ultiple puede obtenerse mediante
2 Ry z[1],...,z[q ]

2 2 2 2 Ry z[1],...,z[q +1] Ry z[1],...,z[q ] = ry,z[q +1] z[1],...,z[q ] 1 Ry z[1],...,z[q ] .

5. Probar que el coeciente de correlaci on m ultiple no puede disminuir al introducir un nuevo vector explicativo z[q + 1], y que permanece constante si y s olo si el coeciente de correlaci on parcial entre Y y z[q + 1] dados z[j ], j = 1, . . . , q, es nulo.

2 n 1 zi [1] + . . . + q zi [q ] y + 0 i=1 n = 2 i=1 (Yi y )

Manuales Uex

6. Probar la igualdad (4.22). 7. Construir los intervalos de conanza (4.24) y (4.25). Estudiar el comportamiento asint otico de los mismos cuando se cumple la condici on de Huber.

140

MODELOS LINEALES
4.7. MULTICOLINEALIDAD 141

8. Considerar un Modelo de Regresi on Lineal M ultiple con 4 vectores explicativos y n unidades experimentales. Construir el test F a nivel para contrastar la hip otesis inicial
1 : 1 = 2 . a ) H0 2 : 1 + 22 = 1 b ) H0 1 = 2 3 : c ) H0 3 = 4

9. Obtener las expresiones (4.27), (4.28) y (4.30). 10. Obtener la expresi on (4.31). Para ello es aconsejable expresar el estad stico de contraste del test F mediante (3.25). 11. Obtener la expresi on (4.32). 12. Resolver el contraste H0 : i = bi , donde bi es un valor real conocido. 13. Obtengamos una expresi on an aloga a (4.18) para el coeciente de correlaci on n parcial. Consideremos Y1 , ZD R y Z Mnq , y sea X = (1n |Z|ZD ). Probar, teniendo en cuenta (9.63) y que X descompone en la suma ortogonal 1n Z ZD P1n z ZD , que Px|1n z Y 2 2 . rY, zD z = P 2 1n z Y N otese que, desde este punto de vista, el coeciente de correlaci on simple puede entenderse como un caso particular del coeciente de correlaci on parcial dado Z = 0. 14. Obtener la expresi on (4.35) para el estad stico de contraste de un test parcial. 15. Probar, teniendo en cuenta (4.31), que en el m etodo de selecci on hacia adelante, la variable que aporta el resultado m as signicativo en el contraste parcial coincide con la que aporta el resultado m as signicativo en el contraste total. 16. Obtener el estad stico de contraste (4.42), correspondiente al test de linealidad.

18. Demostrar que, en el caso de la regresi on lineal simple, var[ei ] = 0 equivale a enticos. que todos los vectores predictivos salvo zi sean id

141

Manuales Uex

2,MV . 17. Demostrar que e = 0 y s2 e=

jess montanero fernndez


142 LINEAL MULTIPLE CAP ITULO 4. REGRESION

19. Demostrar que el m etodo de Box-Cox para obtener una muestra aleatoria simple de una distribuci on normal consiste en encontrar el valor de que minimice . s2 Y () 20. Probar que en una regresi on polin omica simple se mantiene en todo caso el rango completo. 21. Obtener (4.60) y (4.61). 22. Obtener (4.62), (4.63) y (4.64). y la de la predicci 23. Qu e semajanzas se dan entre la varianza de on en zi ? 0 C omo puede interpretarse este hecho? 24. Obtener las covarianzas (4.66) y (4.67). Interpretar los resultados. 25. Probar que un dise no ortogonal, el estimador de j , j = 1, . . . , q, coincide con el que se obtendr a con una regresi on simple respecto a la variable z[j ]. 26. Por qu e la tercera estrategia de transformaci on de variables propuesta es s olo v alida en problemas de regresi on pura? Por qu e la primera es v alida u nicamente en problemas de correlaci on? 27. Por qu e en las gura 27 y 28 la recta de regresi on ha de pasar necesariamente por el dato extremo? 28. Es cierto que la incorrelaci on entre dos variables implica la incorrelaci on parcial entre las mismas dada una tercera? En otras palabras: sean tres variables (vectores n-dimensionales) x, y, z , tales que ry,z = 0, debe vericarse ry,zx =0? Si es as demu etrese. En caso contrario presentar un contraejemplo mediante un programa estad stico. 29. Probar que, si z[1], z[2], z[3] son icorreladas, entonces
2 2 ry, z[1]z[2],z[3] ry,z[1]

En qu e condiciones se alcanzar a la igualdad?

142

Manuales Uex

30. Puede cambiar el coeciente de correlaci on m ultiple cuando se lleva a cabo una regresi on por componentes principales?

Cap tulo 5 El Modelo de Correlaci on


Este cap tulo, de car acter fundamentalmente te orico, viene a complementar los cap tulos 3 y 4. La diferencia entre este cap tulo y el anterior estriba u nicamente en el hecho de que, mientras que en el modelo de Regresi on los valores explicativos se consideran jos, aqu se suponen observaciones correspondientes a variables aleatorias. No obstante, el objetivo principal que nos marcamos es dejar claro que, desde un punto de vista pr actico, esta distinci on no afecta sustancialmente a los fundamentales problemas de Estimaci on y Contraste de Hip otesis. Adem as, hemos de advertir que este estudio puede ser enfocado de forma m as elegante desde el punto de vista del An alisis Multivariante. En todo caso, la clave del modelo podemos hallarla en el hecho conocido de que, entre las distintas componentes de un vector normal multivariante s olo cabe una relaci on de tipo lineal.

5.1.

El Modelo
Y1 . Y = . . , Yn z1 [1] . z [1] = . . zn [1] z1 [q ] . z [q ] = . . zn [q ]

En este caso, consideraremos los q + 1 vectores aleatorios siguientes:

...

Se denotar an por Z y X , respectivamente, las matrices z1 [1] . . . z1 [q ] . . , . . . . zn [1] . . . zn [q ] 143

X = (1n |Z ).

143

Manuales Uex

jess montanero fernndez


144 CAP ITULO 5. EL MODELO DE CORRELACION

a mediante Zi el vector que se obtiene transponiendo Para cada i = 1, . . . , n se denotar la la i- esima de Z. De esta forma, Yi denota el resultado de la variable respuesta para an los resultados la i- esima unidad experimental, mientras las componentes que Zi ser de las variables explicativas para dicha unidad. Para cada j = 1, . . . , q, los t erminos z [j ] denotar an, respectivamente, las medias aritm eticas de las n observaciones coa la media de y ; z ser a el rrespondientes a las variables z [j ]. Igualmente, y denotar ermino M denotar a la matriz vector compuesto por las q medias z [ j ], j = 1, . . . , q. El t a la matriz de varianzas-covarianzas total de datos (Y |Z ). En ese caso, SM denotar un (9.54). Esta descompone de la siguiente forma muestral S(Y Z )(Y Z ) , denida seg s2 Y SZY SY Z SZZ

SM =

El vector m ser a igual a (y, z ) . Se supondr a en todo momento que el n umero de umero de variables expliunidades experimentales, n, es estrictamente mayor que el n cativas, q. En denitiva, el Modelo de Correlaci on consiste en suponer la normalidad multivariante de la distribuci on conjunta, es decir, se considera Y1 Z1 Yn Zn Rq+1 , > 0.

,...,

iid Nq+1 (, ),

(5.1)

Hemos de tener en cuenta que, en este modelo, no existe diferencia formal entre la variable respuesta y las explicativas. De hecho, la variable y puede desempe nar el papel de explicativa, si lo deseamos. Adem as, si y eliminamos cualquiera de las variables en juego, tendremos un modelo de correlaci on con q variables, siempre que q sea mayor que 1. En caso contrario, nos quedaremos con un modelo lineal normal con un subespacio V unidimensional. Si descomponemos y de acuerdo con la divisi on entre variable respuesta y explicativas, podemos obtener, de manera manera an aloga a (9.25) y (9.14), los siguientes par ametros: 2 = 112 ,
1 = 22 21 , 0 = 1 2 ,

Manuales Uex

Z = 2 ,

ZZ = 22 .

(5.2)

Estos t erminos, denidos a partir de y , pueden parametrizar el modelo (5.1), puesto que la transformaci on anterior es invertible. Efectivamente, podemos recons-

144

MODELOS LINEALES
5.1. EL MODELO truir y mediante 22 = ZZ , 21 = ZZ , 11 = 2 + ZZ , 2 = Z 1 = 0 + Z . (5.3) (5.4) (5.5) (5.6) (5.7) 145

De esta forma, si se denota = (0 , ) , se verica el siguiente resultado.

Teorema 5.1.
El Modelo de Correlaci on Lineal (5.1) puede expresarse de manera equivalente mediante Y |Z = Z Nn (X, 2 Id), Z1 , . . . , Zn iid Nq (Z , ZZ ), (5.8)

donde Rq+1 , 2 > 0, Z Rq y ZZ > 0, y siendo X = (1n |Z). Adem as, sea cual sea la distribuci on de la familia considerada, se verica que rg(X) = q + 1 con probabilidad 1. Demostraci on. La primera parte de la demostraci on se basa en el hecho de que la distribuci on conjunta de dos vectores aleatorios puede construirse como el producto generalizado entre la distribuci on marginal del segundo y la distribuci on condicional del primero dado el segundo. Concretamente y teniendo en cuenta que los vectores (Yi , Zi ), i = otesis, junto con las proposiciones 2.1, 2.5, se sigue 1, . . . , n, son independientes por hip que n n (Y,Z ) Y |Z =z Z Yi |Zi =zi Zi P = = P P P P = n
i=1 i=1

N (0 + Z
2

2 i , )

= Nn (X, )

n
i=1

n
i=1

i=1

Nq (Z , ZZ )

Nq (Z , ZZ ) ,

145

Manuales Uex

donde el signo denota el producto generalizado. Teniendo en cuenta que la transvoca, queda formaci on que permite obtener , 2 , z y ZZ a partir de y es biun probada la equivalencia entre ambos modelos. La segunda parte del teorema se demostrar a por inducci on sobre q y teniendo en cuenta que la medida de Lebesgue en

jess montanero fernndez


146 CAP ITULO 5. EL MODELO DE CORRELACION

a nula la probabiRn de cualquier hiperplano del mismo es nula. En particular, ser lidad de un hiperplano si esta est a dominada por la medida de Lebesgue. De esta olo si, z [1] pertenece al subespacio forma, si q = 1, se verica que rg(X) < 2 si, y s 1n , que es, a los sumo, un hiperplano de Rn (recordar que estamos suponiendo, por hip otesis, que n > q ). Por lo tanto, la tesis queda probada cuando q = 1. Supong amosla cierta para un cierto q 1 y veamos que lo es tambi en para q . En ese caso, que rg(X) sea menor que q + 1 equivale a que z [q ] pertenezca al subespacio generado por el vector 1n junto con los vectores aleatorios z [j ], j = 1, . . . , q 1, que ser a, a lo sumo, un hiperplano. La distribuci on de z [q ] condicionada a la matriz aleatoria1 constituida por los vectores aleatorios z [j ], j = 1, . . . , q 1, es el producto de las respectivas distribuciones de zi [q ] condicionadas a (zi [1], . . . , zi [q 1]), i = 1, . . . , n. Aplicando en cada caso la proposici on 2.5 y componiendo las distribuciones obtenidas, se obtiene que z [q ] condicionada a la matriz aleatoria z [i], i = 1, . . . , q 1, sigue un modelo de distribuci on n-normal no degenerado y, por lo tanto, dominado por la medida de Lebesgue en Rn . Luego, jos z[j ], j = 1, . . . , q 1, la probabilidad de que z [q ] pertenezca al subespacio 1n , z[1], . . . , z[q 1] es nula. Aplicando (9.30) con f = rg(X ) concluimos. En denitiva, dado un modelo de Correlaci on, al condicionar sobre las variables estas, se obtiene explicativas2 , es decir, cuando se consideran jos los valores de autom aticamente un modelo de Regresi on. Rec procamente, si se a nade el supuesto de q -normalidad de las variables explicativas, se recompone el modelo de Correlaci on. Un modelo m as d ebil que el de Correlaci on se obtendr a eliminando en (5.8) la hip otesis de normalidad, tanto de la distribuci on marginal de las variables explicativas como e la condicional para la respuesta, pero suponiendo que Z1 , . . . , Zn constituye una muestra aleatoria simple de una distribuci on dominada por la medida de Lebesgue a cuando se afronte el estudio asint otico. en Rq . Un modelo de ese tipo se considerar En ese caso, teniendo en cuenta (4.58) y aplicando un razonamiento an alogo al de la demostraci on anterior, se deducir a tambi en que rg(X ) = q +1, con probabilidad 1 (se deja como ejercicio). Por otra parte, si aplicamos nuevamente (9.30), se tiene que el modelo de Correlaci on puede expresarse tambi en mediante Y = (1n |Z ) + E , con E Nn (0, 2 Id) y Z1 , . . . , Zn una muestra aleatoria simple de Nq (Z , ZZ ) independiente de E .

146

Manuales Uex

1 Realmente, una matriz puede entenderse como un vector dispuesto de una forma determinada, por lo que no es estrictamente necesario denir matriz aleatoria. No obstante, este concepto y en particular el de normal matricial, se estudian en Arnold (1981), lo cual permite obtener de forma elegante diversos resultados propios del An alisis Multivariante. 2 Obtenemos entonces lo que daremos en denominar modelo condicionado

MODELOS LINEALES
Y CONTRASTE DE HIPOTESIS 5.2. ESTIMACION 147

Llegados a este punto, hemos de notar que cualquier estad stico T denido en el modelo de Regresi on, que ser a de la forma T (Y ), puesto que Z se considera constante, puede considerarse denido en el modelo de Correlaci on mediante T (Y, Z ), si consideramos Z variable. De esta forma, si T constituye un estimador de cierto estimando , T puede considerarse estimador del estimando , denido sobre el modelo de Correlaci on. Teniendo en cuenta el teorema anterior junto con (9.30), se sigue que la on coincide con la distribuci on condicional distribuci on de T en el modelo de Regresi on. Efectivamente: de T dada Z = Z en el de correlaci T (,z) T (,z) = Nn (1n |Z), 2 Id . P T (Y,Z )|Z =z = P Y |Z =z

Por lo tanto, el EIMV de en el modelo de Regresi on es insesgado en el de Correlaci on, y el elipsoide (3.12) sigue siendo una regi on de conanza a nivel 1 . Mediante una razonamiento an alogo podemos demostrar la validez de los intervalos de conanza (4.10), (4.24) y (4.25). Adem as, la distribuci on nula del estad stico F correspondiente al test F a nivel para contrastar cualquier hip otesis del tipo H0 : A = 0, es una F -Snedecor central que no depende en ning un caso del valor de Z. Por lo tanto, el test F a nivel es tambi en v alido desde el punto de vista del modelo de Correlaci on, en el sentido de que su nivel de signicaci on es, verdaderamente, .

No obstante, si dicha distribuci on no depende del valor Z considerado, entonces T y Z ser an independientes y la distribuci on condicional coincidir a con la distribuci on marginal de T y, por lo tanto, con la de T . Tal es el caso del estimador de la varianza (4.9), po lo que este es insesgado en el modelo de Correlaci on y el intervalo de conanza para la misma construido en (3.13) sigue siendo v alido. Respecto al estimador natural de no puede decirse lo mismo, puesto que su distribuci on depende ametro, obtenemos las siguientes de Z. Sin embargo, si es el verdadero valor del par distribuciones marginales: X X Nq+1 , 2 (X X )1 , Fq+1,n(q+1) 2,I

5.2.

Estimaci on y Contraste de Hip otesis

147

Manuales Uex

Hemos de advertir que, aun siendo importantes, los argumentos utilizados hasta el momento no son sucientes para justicar el uso en el modelo de Correlaci on de los m etodos de Inferencia propios del modelo de Regresi on pues, el hecho de que dichos m etodos sean optimos, seg un diversos criterios, bajo las condiciones del modelo de

jess montanero fernndez


148 CAP ITULO 5. EL MODELO DE CORRELACION

Regresi on, no garantiza, en principio, su optimalidad desde el punto de vista del de Correlaci on. As , por ejemplo el estimador de utilizado en el anterior cap tulo se justica como estimador insesgado de m nima varianza y de m axima verosimilitud. Visto desde el punto de vista del modelo de Correlaci on, s olo sabemos, por ahora, que es insesgado y que las regiones de conanza anteriores siguen siendo correctas. Igualmente, el test F se justica en el modelo de Regresi on como uniformemente m as potente entre todos los test invariantes con nivel de signicaci on menor o igual que , adem as de ser el test de la raz on de verosimilitudes con nivel de signicaci on . Hasta ahora, s olo hemos probado que, bajos las condiciones del modelo de Correlaci on, el nivel de signicaci on del test es, efectivamente, . Falta, po lo tanto, una justicaci on a nivel te orico an aloga a la que se obtiene con los teoremas 3.9, 3.10 y 3.11. Siguiendo el mismo esquema de demostraci on que en el cap tulo 2, empezaremos por obtener un estad stico suciente y completo para el modelo.

Teorema 5.2.
El estad stico (m, SM ) es suciente y completo para el modelo de Correlaci on. Demostraci on. Al igual que en el teorema 3.5, nos situaremos en las condiciones del teorema 9.18. Si . ., ) , la funci on de verosimilitud correspondiente al modelo (5.1) se denota = (, . n es, en virtud de la proposici on 9.17, la siguiente 1 1 1 exp tr (M ) (M ) . (5.9) L(Y, Z; , ) = (2 )(q+1)n/2 ||n/2 2 Teniendo en cuenta que todas las columnas de la matriz pertenecen al subespacio 1n y que P1n = n1 1n 1n , se tiene que 1 1 1 L(Y, Z; , ) = h(, ) exp tr( M M ) + tr m , 2 h(, ) = 1 1 exp{ tr 1 2 1n 1n }. (2 )(q+1)n/2 ||n/2 2

donde

Denamos el par ametro = 1 , perteneciente a Rq+1 , y consideremos entonces los siguientes vectores: 11 . q +1 1 = diag(M ) Rq+1 , 1 = diag(1 ) = . M R , . q+1,q+1

148

Manuales Uex

MODELOS LINEALES
Y CONTRASTE DE HIPOTESIS 5.2. ESTIMACION 12 . q (q +1)/2 2 = triangsup(1 ) = . , R . q,q+1 M tr(1 M M ) = 1 1 + 22 M2 , 149

2 = triangsup(M ) Rq(q+1)/2 , M

Entonces, se verica

tr(1 m) = m.

Si consideramos las funciones Q y H denidas mediante 1 2 T1 1 2 , 2 , H (Y Z ) = T Q(, ) = m se verica que L(Y, Z; , ) = h(, ) exp [Q(, )] H (YZ) .

Por lo tanto, estamos hablando de una estructura estad stica de tipo exponencial y, aplicando el teorema de factorizaci on de Neyman, se deduce que el estad stico H es suciente. Adem as, puede comprobarse que el interior de {Q(, ) : Rq+1 , > 0} as, es distinto del vac o3 . Luego, en virtud del teorema 9.18, H es completo. Adem podemos encontrar f acilmente una biyecci on bimedible tal que (H ) = (m, SM ), de manera que este u ltimo estad stico es, igualmente, suciente y completo.

Corolario 5.3.
El siguiente estad stico es suciente y completo , 2,MV , z, SZZ completo. (5.10)

Demostraci on. Para probar la tesis basta encontrar una biyecci on que transforme (m, SM ) en dicho estad stico. z y SZZ se obtiene de forma trivial, mientras que, teniendo en cuenta (4.11) y (4.15), se tiene que = S 1 SZY , ZZ = y z , 0

3 T engase en cuenta que, en general, el conjunto de las matrices p p sim etricas se corresponden, de manera natural, con Rp(p+1)/2 , y que el subconjunto de las matrices denidas positivas (es decir, aquellas cuyo p- esimo autovalor es estrictamente positivo) se identica entonces con un abierto, pues el p- esimo autovalor es una funci on continua.

149

Manuales Uex

1 2,MV = s2 Y SY Z SZZ SZY .

jess montanero fernndez


150 CAP ITULO 5. EL MODELO DE CORRELACION

La transformaci on inversa se obtiene de manera an aloga a la expresada en (5.3)-(5.7).

Corolario 5.4.
y 2,I son los EIMV de y 2 , respectivamente. Demostraci on. Sabemos que ambos son insesgados, luego, teniendo en cuenta el corolario anterior junto con el teorema de Lehmann-Sche e, se concluye.

Teorema 5.5.
El estad stico (m, SM ) es el EMV de (, ) en el modelo de Correlaci on. Demostraci on. Consideremos la funci on de verosimilitud (5.9) y tengamos en cuenta que, si M denota . ., m) , entonces las columnas de la matriz M M pertenecen a 1n . la matriz (m, . n Por lo tanto, (M M ) (M ) = 0. Luego, se tiene que tr 1 (M ) (M ) = tr 1 (M M ) (M M ) + tr 1 (M ) (M )

Puede demostrarse f acilmente que el u ltimo sumando no puede ser negativo. Luego, para valores de Y, Z y jos, la anterior expresi on alcanza el m nimo (y la funci on de verosimilitud el m aximo) cuando = M o, equivalentemente, cuando = m. Pues bien, dados Y y Z, es decir, dado M , busquemos entonces el valor de que maximiza 1 1 1 L(Y, Z; m, ) = exp tr (M M ) (M M ) . (2 )(q+1)n/2 ||n/2 2 Sea A = (M M ) (M M ), que es, con probabilidad 1, invertible4 . Aplicando el 1 A, que coincide con teorema 9.15, se tiene que el m aximo se alcanza cuando = n SM . Recapitulando, tenemos que, dados Y, Z, y , L(Y, Z; , ) L (Y, Z; m, ) L (Y, Z; m, SZ ) , lo cual acaba la prueba.

Manuales Uex 150

4 Para demostrarlo basta tener en cuenta que, el rango de dicha matriz coincide con el de M M , que es q + 1, pues, seg un un razonamiento an alogo al del teorema 5.1, el rango de (1n |M ) es q + 2, con probabilidad 1.

MODELOS LINEALES
Y CONTRASTE DE HIPOTESIS 5.2. ESTIMACION 151

Corolario 5.6.
y 2,MV son los EMV de y 2 , respectivamente. Demostraci on. Basta tener en cuenta que, dada una observaci on, el EMV es el valor del par ametro o, mejor dicho, la distribuci on de la familia, que hace m as veros mil la observaci on. Seg un el teorema anterior, dicha distribuci on se expresa mediante los par ametros = m y on (5.2) que permite expresar el modelo con = SM . Teniendo en cuenta la biyecci la ayuda de los par ametros , 2 , Z , ZZ , junto (4.11) y (4.15), se concluye. y A tenor de estos resultados, el uso de los estimadores 2,I en el modelo de Correlaci on queda plenamente justicado. Veamos a continuaci on qu e sucede con el test F a nivel para contrastar una hip otesis del tipo H0 : A = 0. Sabemos que el nivel de signicaci on del test es correcto en el modelo de Correlaci on. Para buscar el test de la raz on de verosimilitudes a nivel , hemos de tener en cuenta que, en virtud del teorema 5.1, la funci on de verosimilitud del modelo descompone como producto de dos factores: uno correspondiente a un modelo de Regresi on con Z jo y otro, a un modelo de correlaci on con q variables. En ambos casos sabemos maximizar la funci on a partir de una observaci on dada. No obstante, a la hora de calcular el estad stico aximos de de la raz on de verosimilitudes, RV , para un contraste del tipo H0 , los m los segundos factores se despejan, con lo que el estad stico RV para este problema resulta ser igual al que aparece en el teorema 3.11. En denitiva, podemos armar lo siguiente:

Teorema 5.7.
El test F denido en (3.26) es el de la raz on de verosimilitudes a nivel para contrastar un hip otesis del tipo H0 : A = 0. En el cap tulo 2 tambi en se justic o el test F como UMP-invariante a nivel respecto a cierto grupo de trasformaciones bimedibles. Pues bien, se verica tambi en que, desde el punto de vista el modelo de Correlaci on, F es el test UMP-invariante a nivel respecto a otro grupo de transformaciones G que, l ogicamente, es diferente del 5 nicamente para utilizado para justicar el test F en el cap tulo 2 . Lo probaremos u on para el caso general el contraste de la hip otesis inicial H0 : = 0. La demostraci podemos encontrarla en el cap tulo 16 de Arnold (1981). En ambos casos, se sigue el mismo esquema de demostraci on que en el cap tulo 3, es decir, una reducci on por suciencia, seguida de varias reducciones por invarianza, que conducen a un modelo
5 Tener en cuenta que el espacio de observaciones es distinto, por lo que las transformaciones no pueden ser, en ning un caso, las mismas.

151

Manuales Uex

jess montanero fernndez


152 CAP ITULO 5. EL MODELO DE CORRELACION

con raz on de verosimilitudes mon otona en el cual se aplica el lema fundamental de Neyman-Pearson. Efectivamente, se verica lo siguiente:

Teorema 5.8.
El grupo G = gk,K,B, : k R, K Rq , B Mqq invertible , > 0 i = 1, . . . , n,

de trasformaciones bimedibles denidas mediante Yi Yi + k gk,K,B, = , Zi B Zi + K

deja invariante tanto el modelo de Correlaci on como el problema de contraste de hip otesis. Adem as, el test F es UMP-invariante respecto a G a nivel para contrastar la hip otesis on. inicial H0 : = 0 en el modelo de Correlaci Demostraci on. Comprobar que el grupo deja invariante tanto el modelo como el problema de constraste de hip otesis es trivial. Tambi en se puede comprobar f acilmente que el estad stico suciente y completo (5.10), que se denotar a abreviadamente por S , es G-equivariante, por lo que induce un nuevo grupo de transformaciones, GS , traducidas en t erminos del mismo de la siguiente forma S + k K , B 1 , 2 0 , , 2,I , z, SZZ = 2,I , B z + K, B SZZ B . gk,K,B, 0

A su vez, el grupo GS descompone en suma de tres subgrupos, G1 , G2 y G3 , cuyos elementos se denen, respectivamente, de la siguiente forma: , , + k K , , = 2,I , z, SZZ 2,I , z + K, SZZ , gk,K 0 0 2,I 2,I , , , B 1 , = gB , z, S , B z, B S B , ZZ ZZ 0 0 2 , , , , g 2,I , z, SZZ 2,I , z, SZZ . = 0 0 Dado que estos grupos verican la propiedad (9.49), podemos obtener un estad stico invariante maximal mediante los tres pasos siguientes: en primer lugar un estad stico G1 -invariante maximal es el siguiente 2,I , SZZ . M1 = ,

Manuales Uex 152

Sobre el modelo imagen de M1 consideramos las transformaciones inducidas por G2 , que se expresan mediante M1 , 2,I , SZZ = B 1 , 2,I , B Szz B . gB

MODELOS LINEALES
Y CONTRASTE DE HIPOTESIS 5.2. ESTIMACION En virtud del teorema 9.13, el estad stico 1 S 1 M2 M1 = 2,I , ZZ 153

es (G1 G2 )-invariante maximal. Consideremos entonces las transformaciones indu1 M1 , que se expresan mediante cidas por G3 en la imagen de M2 1 M M = 2 S 1 . S 1 2,I , g 2 1 2,I , 2
ZZ ZZ

En este caso, el estad stico

S 1 ZZ 2,I es, trivialmente, G-invariante maximal. Por un razonamiento completamente an alogo se deduce que la funci on 1 ZZ (5.11) = 2 es un invariante maximal para el espacio de par ametros, es decir, que M1,2,3 depenes de . Puede comprobarse f acilmente (cuesti on de de 0 , , 2 , z y ZZ a trav propuesta) que el estad stico de contraste del test F se expresa mediante M1,2,3 = F =
n

M1,2,3 ,

(5.12)

153

Manuales Uex

siendo PZZ = [Nq (0, ZZ )]n y fq,n(q+1),n2 S 1 la funci on de densidad de la disZZ ametro de no tribuci on F -Snedecor con grados de libertad q y n (q + 1), y par 1 . El hecho de que en (5.13) integremos respecto una districentralidad n 2 SZZ buci on q -normal de media 0, se debe a que la distribuci on de F depende u nicamente de y, por lo tanto, es la misma para cualquier valor del par ametro Z . En denitiva, si para cada > 0 consideramos el cociente T (f) = p (f)/p0 (f) (el denominador entra en la integral), se deduce, al igual que en cap tulo 3, que el mismo es creciente en f 0 y, por lo tanto, el modelo imagen presenta raz on de verosimilitudes mon otona. Luego, aplicando el Lema de Neyman-Pearson, se tiene que el test consistente en comparar F con Fq, n(q+1) es UMP-invariante a nivel .

otesis y que F condicionado a Z sigue un modelo de distribuci on Fq,n(q+1) (n). La hip on nula se traduce en H0 : = 0, en cuyo caso F Fq,n(q+1) . Se sigue de la aplicaci de las propiedades de la probabilidad condicional regular, junto con el teorema de Fubini, que la densidad de F admite a expresi on fq,n(q+1),n2 S 1 (f, z) dPZZ (z), (5.13) p (f) =
R nq
ZZ

jess montanero fernndez


154 CAP ITULO 5. EL MODELO DE CORRELACION

En denitiva y hablando en t erminos pr acticos, los resultados obtenidos justican el hecho de que, al efectuarse las inferencias en un an alisis de Regresi on, poco importa si los vectores explicativos son valores jos controlados en el experimento o, por contra, corresponden a valores concretos de q variables aleatorias explicativas. correspondientes a sus valores est an controlados en el experimento. Por ello, en muchas ocasiones se habla simplemente de estudios de regresi on-correlaci on. Esta armaci on admite, no obstante, importantes matices, fundamentalmente en lo que concierne a los supuestos del modelo. Los supuestos del modelo de Regresi on se analizaron cr ticamente en el cap tulo anterior. Veamos qu e sucede con los del modelo de Correlaci on.

5.3.

Supuestos del modelo. Estudio asint otico

Manuales Uex

Las hip otesis del modelo de Correlaci on pueden enumerarse, teniendo en cuenta (5.8), de la siguiente forma: independencia de las observaciones; normalidad, tanto de la distribuci on marginal de los vectores aleatorios explicativos, como de la distribuci on condicional de la variable respuesta; homocedasticidad de dicha distribuci on condicional y, por u ltimo, linealidad de la relaci on entre la variable respuesta y las explicativas. En primer lugar, hemos de tener en cuenta que si admitimos que nuestro datos constituyen una muestra aleatoria simple de cierta distribuci on (q + 1)-dimensional, la independencia de los mismos se deduce autom aticamente. Pero adem as, y a diferencia del modelo de Regresi on, se obtiene tambi en la hip otesis de homocedasticidad. Respecto al supuesto de normalidad, veamos qu e sucede, desde un punto de vista como del test F, cuando este no se asint otico, con los estimadores de y 2 , as verica. Consideraremos pues el modelo dado por un una secuencia innita de variables aleatorias reales independientes, que se denota por Y , y otra muestra aleatoria de tama no innito, Z , de una distribuci on Q dominada por la medida de Lebesgue en Rq , las componentes de la cual poseen momentos de orden 2 nitos. Si Y n denota el erminos de Y y Z n denota la matriz vector aleatorio compuesto por los n primeros t aleatoria de dimensi on n q cuyas las son las trasposiciones de los n primeros otesis, que existen Rq+1 y 2 > 0 tales vectores de Z 6 , se supone, por hip n n n n que Y = (1n |Z ) + E , siendo E un n-vector aleatorio cuyas componentes son a por Xn . independientes, de media 0 y varianza 2 7 . La matriz (1n |Z n ) se denotar
En ese caso, se deduce que el rango de la matriz (1n |Z n ) es q + 1, con probabilidad 1. Por lo tanto, si impusi eramos la normalidad de E n y Q, tendr amos un modelo de Correlaci on para cada n N.
6 7

154

MODELOS LINEALES
5.3. SUPUESTOS DEL MODELO. ESTUDIO ASINTOTICO 155

8 Arnold, Asymptotic Validity of F Test for the Ordinary Linear Model and Multiple Correlation Model, Journal of the American Statistical Association, Dec. 1980, Vol. 75, 890-894.

155

Manuales Uex

Dado que, en virtud del teorema 3.14, el integrando converge a 0, se sigue del Teorema de la Convergencia Dominada que la integral tambi en lo hace. Por lo tanto, el estimador de es consistente. on 3.2 que es insesgado en el Respecto al estimador de 2 , se sigue de la proposici modelo condicional y, por lo tanto, insesgado tambi en en modelo total. Teniendo en cuenta el teorema 3.15 y aplicando un razonamiento an alogo al anterior, se deduce que el estimador es consistente. Por otra parte, sabemos que la condici on (3.35) equivale, al menos en este caso, a la condici on (4.40), expresada en t erminos de las distancias de Mahalanobis para los on valores explicativos. Puede demostrarse8 que, en nuestras condiciones, la condici (4.40) se verica con probabilidad 1. Por lo tanto, la tesis (i) del teorema 3.18 se verica para la distribuci on condicional dada Z . Por lo tanto, teniendo en cuenta la propia denici on de convergencia en distribuci on y aplicando nuevamente el Teorema de la Convergencia Dominada, se obtiene la convergencia (i) en t erminos globales. En consecuencia, el elipsoide (3.36) constituye una regi on de conanza asint otica para el par ametro . Por u ltimo, un razonamiento completamente an alogo prueba la validez asint otica del test (3.26) para contrastar, con un nivel de signicaci on , la hip otesis inicial H0 : A = 0. En denitiva, si obviamos el supuesto de normalidad (suponiendo que la distribuci on de las variables explicativas est e dominada por la medida de Lebesgue en Rq y es de cuadrado integrable) estamos en las mismas condiciones que en el modelo de Regresi on: el comportamiento asint otico de los m etodos de inferencia considerados es satisfactorio. Pero no debemos enga narnos, pues el problema m as serio se encuentra

Nuestro objetivo es obtener resultados similares a los conseguidos en la secci on 3.4. Para ello consideraremos, en todo caso, a la distribuci on de Y n condicionada al valor ua, Z , que coincide con la distribuci on condicionada al valor de Z n . Ello nos sit precisamente, en las condiciones de la secci on 3.4. En primer lugar, veamos que el estimador de es insesgado y consistente. Para ello consideramos la distribuci on condicional del estimador de dada Z , lo cual nos conduce a las hip otesis del teorema 3.14. Dado que la esperanza del estimador de , condicionada al valor de Z , es constante e igual a , tambi en coincide con la esperanza de la distribuci on marginal. Adem as, la condici on (3.32) se satisface en todo caso, y se verica que > = P 2 > |Z dP Z . P

jess montanero fernndez


156 CAP ITULO 5. EL MODELO DE CORRELACION

en el supuesto de linealidad, estrechamente vinculado al de (q + 1)-normalidad. Al igual que en el cap tulo anterior, habr a que considerar la posibilidad de trasformar de manera adecuada las variables para conseguir una relaci on lineal. No obstante, ser a interesante disponer de un algoritmo que permitiera saber qu e transformaciones considerar y c omo evaluar la efectividad de las mismas. En el caso del modelo de Correlaci on y a la vista de (5.1), parece razonable buscar transformaciones que coneran a nuestro vector aleatorio (q + 1)-dimensional una distribuci on (q + 1)-normal, en cuyo caso, el modelo se satisfar a plenamente. L ogicamente, el problema es dif cil, pero podemos considerar una extensi on multivariante del algoritmo de Box-Cox, estudiado en el cap tulo anterior, con el objetivo de aproximarnos a esta situaci on No obstante, hemos de tener presente la posibilidad de resolver el problema mediante la estimaci on de las densidades marginales del vector de variables explicativas y de la conjunta, lo cual permite estimar la densidad de la distribuci on condicional, tal y como se indic o en el anterior cap tulo.

5.4.

Inferencias sobre los coecientes de correlaci on

156

Manuales Uex

Aunque el estudio de los distintos coecientes de correlaci on (m ultiple, simple y parciales) es posible desde el punto de vista del modelo de Regresi on, alcanza pleno sentido cuando las variables explicativas no est an controladas sino que son aleatorias. En especial, cuando asumimos las hip otesis del modelo de Correlaci on, podemos expresar la distribuci on, tanto exacta como asint otica, de dichos coecientes, lo cual es de gran utilidad de cara a la realizaci on de inferencias sobre los mismos. Consideraremos, en primer lugar, los coecientes de correlaci on m ultiple, tanto muestral como probabil stico. Realmente, no son estos sino sus cuadrados, los denominados coecientes de determinaci on, los coecientes que m as nos interesan, por 2 2 razones que aclararemos. Del corolario 5.6 se sigue que RY Z es el EMV de y z . Por lo tanto, se trata de un estimador consistente y asint oticamente eciente (lo mismo sucede con los coecientes de correlaci on simple y parcial). Por otra parte, se sigue de (4.30) y (5.12) que el estad stico invariante maximal para contrastar la hip otesis 2 2 / (1 R ), tanto en el modelo de Regresi on inicial H0 : = 0 es proporcional a RY Z YZ como en el de Correlaci on. Hemos de tener en cuenta que la funci on (x) = x(1 x)1 constituye una biyecci on de [0, 1] en [0, +]. Por lo tanto, el estad stico F depende 2 2 as, un valor de RY oximo a 0 se de los datos u nicamente a trav es de RY Z . Adem Z pr traducir a en un resultado no signicativo. En verdad, esto era de esperar, pues la on, equivale a 2 hip otesis H0 , desde el punto de vista del modelo de Correlaci y z = 0.

MODELOS LINEALES
5.4. INFERENCIAS SOBRE LOS COEFICIENTES DE CORRELACION 157

Dado que se supone normalidad, dicha hip otesis equivale, a su vez, a la independencia entre la variable respuesta y el vector de variables explicativas. Adem as, la distribuci on de F depende u nicamente del invariante maximal , denido en (5.11), 2 que equivale, precisamente, a 2 y z /(1 y z ). Equivalentemente, podemos armar que 2 2 nicamente de 2 la distribuci on de RYZ depende u y z . En el caso y z = 0, se verica 2 que F sigue una distribuci on Fq,n(q+1) . Luego, dado que RYZ = q (n q )1 F/(1 + F ), podemos obtener, aplicando el teorema del cambio de variables a una funci on del 2 bajo la hip o tesis de independencia. tipo (2.7), la densidad de la distribuci on de RY Z Adem as, se sigue del teorema 3.20 que, bajo la hip otesis inicial de independencia,
n
2 RY d Z 2 q. 2 1 RY Z

(5.14)

Esta armaci on es v alida para el modelo asint otico considerado en la secci on anterior (sin suponer normalidad). En el caso general, basta aplicar el teorema del cambio de variables a la densidad (5.13) para obtener una funci on que depender a del par ametro . Una expresi o n expl cita de esta densidad puede enconu nicamente a partir de 2 y z trarse en Anderson (1958), cap tulo 4. En Bilodeau (1999) se obtiene, adem as, la distribuci on asint otica de R2 bajo el supuesto de normalidad y en el caso 2 = 0. Concretamente, se verica d 2 2 2 2 2 n(RY Z y z ) N 0, 4y z (1 y z ) Esta expresi on no resulta muy u til puesto que el par ametro desconocido 2 y z aparece en la distribuci on l mite. No obstante, aplicando el teorema 9.27 con la funci on (x) = x, se verica d 2 (5.15) n(RYZ yz ) N 0, (1 2 y z )

Luego, aplicando nuevamente el teorema 9.27, pero con (x) = 21 ln[(1+ x)(1 x)1 ] en esta ocasi on, se obtiene 1 + yz n 1 + RYZ d ln N (0, 1), (5.16) ln 2 1 RYZ 1 yz lo cual permite, por ejemplo, construir tests de hip otesis o intervalos de conanza nica variable aproximados para yz . Cuando q = 1, es decir, cuando existe una u explicativa, estaremos hablando del coeciente de correlaci on lineal simple. Ni que decir tiene que todo lo dicho anteriormente para el coeciente de correlaci on m ultiple es v alido para el simple. En particular, se verican (5.16) y, en el caso nulo, (5.14). Para acabar, veamos qu e podemos decir de los coecientes de correlaci on parcial. otese por ZR al resto Consideremos cualquiera de las variables explicativas, Zj , y den

157

Manuales Uex

jess montanero fernndez


158 CAP ITULO 5. EL MODELO DE CORRELACION

2 de las mismas. En ese caso, sabemos por (4.35) que, jo z, rY, zj zR constituye un invariante maximal para contrastar la hip otesis inicial H0 : j = 0 en el modelo de Regresi on, lo cual no es de extra nar, teniendo en cuenta que H0 equivale a 2 y,zj zR = a a la independencia 0. Es m as, en el modelo de Correlaci on, la hip otesis H0 equivaldr condicional entre Y y Zj dadas ZR , es decir, a la nulidad del coeciente 2 y,zj zR . Puede probarse, a partir de (3.24), que la distribuci on de 2 rY, zj zR

[n (q + 1)]

2 1 rY, zj zR

condicionada a Z sigue un modelo F1,n(q+1) (), donde =n


2 j szj zR j

s2 Por lo tanto, integrando la funci on f1,n(q+1),n2 j respecto a la potencia nzj zR j esima de la distribuci on Nq (0, ZZ ) y, aplicando el teorema del cambo de variables, obtenemos la densidad del coeciente de correlaci on parcial al cuadrado. Puede deon del mismo depende del par ametro u nicamente mostrarse tambi en9 que la distribuci . La forma expl cita de esta densidad podemos encontrarla en Ana trav es de 2 y,zj zR derson (1958). Adem as, dado que, si condicionamos en ZR , obtenemos un modelo de correlaci on simple y, en consecuencia, convergencias del tipo (5.14) y (5.16) a distrien buciones que no dependen del propio ZR , dichas convergencias se verican tambi para la distribuci on conjunta, Es decir, que en el caso nulo, se tiene que

2 1 rY,Z j ,ZR

2 rY,Z j ,ZR

2 1,

y, en general,
n

1 + y,zj zR 1 + rY,Zj ,ZR ln ln 1 rY,Zj ,ZR 1 y,zj zR

N (0, 1).

Cuestiones propuestas
1. Probar que si consideramos el modelo que se obtiene eliminando en (5.8) la hip otesis de normalidad, pero suponiendo que Z1 , . . . , Zn constituye una muestra aleatoria simple de una distribuci on dominada por la medida de Lebesgue en que rg(X ) = q + 1, con probabilidad 1 en Rq , se verica tambi
9 Para ello basta tener en cuenta que s2 on 2 y aplicar las propiedades zj zR sigue una distribuci de la misma.

158

Manuales Uex

MODELOS LINEALES
5.4. INFERENCIAS SOBRE LOS COEFICIENTES DE CORRELACION 159

es insesgado en el modelo de Correlaci 2. Probar que on, que el elipsoide (3.12) sigue siendo una regi on de conanza a nivel 1 . 3. Probar que los intervalos de conanza (4.10), (4.24) y (4.25) siguen siendo validos. 4. Probar (5.12). 5. Describir la densidad del coeciente de correlaci on parcial en el caso nulo.

159

Manuales Uex

MODELOS LINEALES

Cap tulo 6 An alisis de la Varianza


En este cap tulo se proponen m etodos para resolver problemas como el tercero y cuarto del cap tulo 1. Si en el cap tulo 4 estudiamos la posible inuencia de q variables cuantitativas en la media de una variable respuesta y , en este consideraremos la inuencia que puedan tener en la misma una o varias variables cualitativas, denominadas factores. Es decir, analizaremos en qu e medida una divisi on en subgrupos de la poblaci on afecta a la distribuci on de la variable y o, al menos, a su esperanza. A lo largo del cap tulo estudiaremos diversos modelos o dise nos con uno y dos factores. Es muy com un, por cierto, denominar este tema mediante el ep grafe Dise no de Experimentos. No obstante, el t tulo escogido se debe a que la resoluci on de los contrastes de hip otesis se realizar a en todo caso mediante el test F , tambi en denominado Anova, abreviatura de An alisis de la Varianza. El estudio del primer dise no, denominado Completamente Aleatorizado, tiene, indiscutiblemente, perfecto sentido desde el marco te orico establecido en el cap tulo 3. Respecto a los dem as dise nos considerados en este cap tulo, se hace necesaria la imposici on de restricciones naturales sobre los tama nos de muestra considerados u otras, en principio arbitrarias, sobre los par ametros del modelo. Esta circunstancia puede llevarnos a enfocar el estudio desde un punto de vista te orico m as general, es decir, partiendo de un Modelo Lineal de Rango no Completo, en el cual se hace uso del concepto de inversa generalizada de una matriz. Este problema se abordar a en el cap tulo 7.

161

161

Manuales Uex

Cualquiera de los dise nos a estudiar puede formalizarse mediante un modelo de regresi on lineal m ultiple, por lo que todo lo estudiado en el cap tulo 4 referente a la diagnosis y validaci on del modelo (tests de bondad de ajuste, an alisis de los residuos, transformaciones de variables para mejorar el ajuste), as como los resultados asint oticos obtenidos en el cap tulo 3, son aplicables aqu . No obstante, hemos de ad-

jess montanero fernndez


162 CAP ITULO 6. ANALISIS DE LA VARIANZA

vertir que cualquier cambio en la variable respuesta debe afectar por igual a todos los niveles del factor o factores considerados. Adem as, la media de la variable transformada no ser a igual, en general, a la transformaci on de la media. Estos inconvenientes puede hacernos desistir en la b usqueda de transformaciones que permitan un adecuado ajuste del modelo, por lo que en ocasiones nos veremos obligados a apoyarnos en resultados de tipo asint otico, a buscar m etodos alternativos o, sencillamente, a conar en la robustez del m etodo estad stico. La u ltima secci on del cap tulo est a dedicada al estudio de ciertos dise nos en los cuales uno o varios de los factores del modelo toman valores aleatorios en cierto espacio, en contraposici on con los dise nos estudiados en el resto del cap tulo, donde los niveles de los factores se jan de antemano. Hemos de anticipar aqu que, si bien las propuestas de soluci on a los principales problemas de Inferencia en un dise no con efectos aleatorios presenta bastantes similitudes con las correspondientes a dise nos de efectos jos, las primeras carecen de justicaciones te oricas de la solidez de las segundas. Empezaremos pues estudiando el dise no m as sencillo y natural, el Dise no Completamente Aleatorizado, que generaliza el dise no a partir del cual se obtiene el test de Student para el contraste de dos medias. Aprovecharemos este modelo para desarrollar las Comparaciones M ultiples y el An alisis de la Covarianza, aunque ambos temas tienen perfecto sentido en cualquiera de los dem as modelos considerados en el cap tulo.

6.1.

Dise no Completamente Aleatorizado

162

Manuales Uex

Este dise no se utiliza para determinar la inuencia de una factor cualitativo con a niveles en una variable respuesta y . Dado un entero positivo a, se considera, para caon normal da i = 1, . . . , a, una muestra aleatoria simple Yi1 , . . . , Yini de una distribuci enticas las varianzas corresponde media i , siendo independientes las muestras e id dientes a las mismas. Hablando en t erminos pr acticos, se supone que la poblaci on on del valor de la variable estudiada es susceptible de dividirse en a partes en funci cualitativa o factor y que esta diferenciaci on puede traducirse u nicamente en una diversicaci on de la media de la distribuci on. Cada muestra representa pues un valor o nivel del factor considerado. En lo que sigue, Y denotar a el vector aleatorio compuesa la suma de los distintos tama nos de muestra; to por las a muestras ordenadas, n ser an, respectivamente, los vectores de Rk para cada entero positivo k , 0k y 1k denotar cuyas componentes son todas 0 y 1; para cada cada i = 1, . . . , a, vi ser a el vector de Rn denido mediante vi = (0n1 . . . 1ni . . . 0na ) . En ese caso, estaremos hablando del

MODELOS LINEALES
COMPLETAMENTE ALEATORIZADO 6.1. DISENO siguiente modelo lineal normal: Y Nn (, 2 Id), V = v1 , . . . , va , 2 > 0. 163

Que el factor no inuya en la respuesta quiere decir que todos los niveles del mismo poseen una misma distribuci on, es decir, una misma media. Por lo tanto, el principal contraste a resolver es H0 : 1 = . . . = a , contra su alternativa, es decir, que al menos un par de medias dieran entre s . otese que, al vericarse los Es decir, la hip otesis inicial a considerar es 1n . N supuesto de normalidad y homocedasticidad, la igualdad de medias equivale a la igualdad de distribuciones. Es lo m as com un que alguno de estos supuestos no se verique o bien que se satisfaga s olo aproximadamente, en cuyo caso, la hip otesis inicial debe interpretarse como que el factor no inuye por t ermino medio en la respuesta. Los problemas de estimaci on y contraste de hip otesis referente a este modelo ya ha sido en esencia resuelto en el cap tulo 3. Para aplicar los resultados all obtenidos es fundamental calcular, teniendo en cuenta (9.8), las matrices de las proyecciones , si para cada par de enteros positivos k1 y k2 , 1k1 k2 ortogonales sobre V y 1n . As denota la matriz k1 k2 cuyas componentes son todas igual a 1, se verica 1 n1 1n1 n1 . . . 0 1n1 na . . ... . . P1n = n1 1nn . PV = (6.1) , . . 0 1na n1
1 . . . n a 1na na

Podemos descomponer Y en los tres siguientes sumando ortogonales: Y = P1n Y + PV |1n Y + PV Y que, teniendo en cuenta, (6.1), queda como sigue y .. y 1. y .. Y11 . . . . . . . . . Y1n y y y .. 1 .. 1. . . . . . . . . . = + . . + . . . . . . . Ya1 y .. y a. y .. . . . . . . . . . y .. y a. y .. Yana

(6.2)

Y11 y 1 . . . Y1n1 y 1 . . . , . . . Y a1 y a . . . Yana y a

(6.3)

163

Manuales Uex

jess montanero fernndez


164 donde y =
i 1

CAP ITULO 6. ANALISIS DE LA VARIANZA


a

Yij ,

i=1 j =1

y i =

ni

Del teorema 3.7 se sigue que el EMV de es el mismo, mientras que el de 2 se obtiene as, podemos hacer uso de la proposici on 3.8 dividiendo por n en lugar de n a. Adem para construir regiones de conanza para y 2 . Por otra parte, en lo que respecta al contraste principal, se sigue de (6.3) que 2 un (3.23), el test F para contrastar PV |1n Y 2 = r i=1 ni (y i y ) . Por lo tanto y seg la hip otesis inicial de igualdad de medias tendr a por estad stico de contraste a (a 1)1 i=1 ni (y i y )2 n i , F = 2 (n a)1 a j =1 (Yij y i ) i=1 que seguir a un modelo de distribuci on Fa1,na PV |1n 2 2 .

Por lo tanto, se sigue del corolario 3.6 que los estimadores insesgados de m nima varianza de y 2 son, respectivamente, y 1. . . . y 1. . ni a . 1 . 2,I , = (Yij y i )2 . = . . n a . i=1 j =1 y a. . . . y a.

ni 1
j =1

Yij ,

i = 1, . . . , r.

164

Manuales Uex

stico En denitiva, el test F a nivel para contrastar H0 consiste en comparar el estad on de F con Fa 1,na . Este test es, por lo tanto, insesgado, UMP-invariante y de raz a como una inuencia verosimilitudes. Un valor de F mayor que Fa 1,na se interpretar del factor sobre la media de la variable respuesta.

Para calcular el par ametro de no centralidad basta tener en cuenta que P1n es el vector cuyas componentes son todas iguales a := a1 a i=1 i . Por lo tanto, se verica a 2 2 F Fa1,na ni (i ) .
i=1

MODELOS LINEALES
COMPLETAMENTE ALEATORIZADO 6.1. DISENO 165

An alisis de la varianza y regresi on


Este modelo puede parametrizarse tambi en mediante coordenadas de la media respecto a una matriz X Mna , tal que sus columnas constituyan una base de V . dado que la principal hip otesis nula a contrastar es H0 : E[Y ] 1n , parece apropiado que el t ermino independiente 1n est e incluido en la matriz X, lo cual signica entender el an alisis de la varianza como un problema de regresi on lineal. Es decir, se trata de encontrar una matriz Z Mn(a1) tal que X = (1n |Z) sea una erminos del base de V . En tal caso, la hip otesis inicial H0 anterior equivale, en los t cap tulo 4, a H0 : = 0 Se tratar a pues de un contraste total, seg un se ha denominado en la secci on 4.2. El problema que se nos presenta es c omo elegir Z para completar una base de V = v1 , . . . , va . Por ejemplo, la matriz

X = (1n |v1 . . . va1 )


0 1 = a = 1 a . . .

(6.4)

verica las condiciones requeridas. En ese caso, de la ecuaci on = X se sigue que

(6.5)

No obstante, ser a conveniente que la matriz Z escogida para parametrizar el modelo correspondiese a una descomposici on natural del subespacio V . Podemos entender como natural una descomposici on ortogonal del espacio. Esta calicaci on no se debe u nicamente a criterios est eticos pues la descomposici on en subespacios ortogonales facilita enormemente el trabajo de cara a la aplicaci on del test F , como veremos en los dise nos multifactoriales. En nuestro caso estamos hablando, concretamente, de la descomposici on V = 1n V |1n . Es decir, que buscamos Z Mn(a1) cuyas columnas {e1 , . . . , ea1 } constituyan una base de V |1n . Para ello basta tener en cuenta que un vector e pertenece a V |1n on a cuando puede expresarse mediante e = a i=1 i vi , con la restricci i=1 ni i = 0. Por lo tanto, podemos expresarlo tambi en mediante e=
a 1
i=1

a1 = a1 a

i (vi

ni na

va ).

165

Manuales Uex

jess montanero fernndez


166 CAP ITULO 6. ANALISIS DE LA VARIANZA

1 En consecuencia, la familia ei = vi n a ni va , i = 1, . . . , a 1, constituye una base de V |1n . Esto nos lleva a parametrizar el modelo de manera natural mediante la matriz (6.6) (1n |e1 . . . ea ) a En ese caso, dado que P1n = 0 1n , se sigue que 0 = .. , siendo .. = n1 i=1 ni i . Si el dise no equilibrado, es decir, si n1 = . . . = na , se tiene que .. = a1 a i=1 i . etica de las medias. En Este u ltimo par ametro se denota por y es la media aritm denitiva, si resolvemos la ecuaci on = X para la matriz (6.6) obtenemos todos los coecientes de regresi on: 0 = .. 1 = 1 .. (6.7) . . .

a1 = a1 .. Con mucha frecuencia, el dise no completamente aleatorizado (y en la misma l nea todos los dem as modelos del an alisis de la varianza) se expresa de la forma Yij = + i + ij , ij N (0, 2 ) independientes, (6.8)

166

Manuales Uex

en funci on de ciertos parar ametros , 1 , . . . , a , 2 . Expresar de esta forma un modelo del an alisis de la varianza puede reportar algunos benecios, especialmente en dise nos con varios factores, como veremos m as adelante. Es m as, modelos m as complicados como el de efectos aleatorios y los modelos mixtos se denen partiendo de una notaci on similar a esta. En denitiva, es la notaci on que se utiliza com unmente en el an alisis de la varianza. Veamos qu e relaci on existe entre esta y la que hemos usado hasta el momento. Las parametrizaciones estudiadas anteriormente se corresponden con = 0 y i = i , para i = 1, . . . , a 1. En particular, (6.5) se corresponde con = a y i = i a , i = 1, . . . , a. Por lo tanto, considerar como base de V la matriz (6.4) equivale a expresar el modelo seg un (6.8) con la restricci on a = 0. Sin embargo, la parametrizaci on (6.7) se corresponde con = .. y i = i . Luego, considerar no como base (6.6) equivale a imponer en (6.8) la restricci on a i=1 ni i = 0. Si el dise a es equilibrado, quedar a como i=1 i = 0. En general, el sistema de ecuaciones lineales i = + i , i = 1, . . . , a presenta ametro no queda determinado. Por una recta de soluciones en Ra+1 , por lo que el par lo tanto, para conseguir una soluci on u nica se hace necesario imponer una ecuaci on s. Eso es lo adicional al sistema, que puede ser una restricci on lineal sobre los i que, en denitiva, se ha hecho con las dos parametrizaciones consideradas. De todas

MODELOS LINEALES
COMPLETAMENTE ALEATORIZADO 6.1. DISENO 167

formas, el problema se resuelve de forma m as general, al menos en principio, en el cap tulo 7 dedicado al modelo lineal de rango no completo. Para ilustrar lo expuesto anteriormente, podemos considerar un dise no completamente aleatorizado con tres niveles y cuatro datos por nivel. En ese caso, podemos parametrizar de diversas formas, por ejemplo seg un (6.5) o (6.7), que se corresponden = 0 , respectivamente. En todo caso, estaremos con las restricciones 3 = 0 y 3 i i=1 considerando las matrices siguientes: = 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 = 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1 1 1 1 1

X1

X2

En ocasiones, podemos encontrarnos con un modelo no equilibrado parametrizado nicamente los valores 1,0 y -1). en funci on de una matriz del tipo X2 (manejando u a de .. al no ser iguales los En ese caso, el t ermino independiente es , que direr tama nos de muestra para los distintos niveles del factor. No se trata pues de una descomposici on ortogonal de V . Si expresamos el modelo seg un (6.8), el t ermino i se interpreta como el efecto del nivel i- esimo del factor sobre la media de la variable respuesta. De hecho, la distribuci on del estad stico F puede expresarse a partir de estos t erminos mediante a 2 . i F Fa1,na 2
i=1

167

Manuales Uex

La hip otesis H0 equivale a 1 = . . . = a = 0. De ser cierta, el estad stico F debe amos. seguir una distribuci on Fa1,na , como ya sab ermino independiente, se denominan con freLas columnas de X, excluyendo el t cuencia variables cticias (en rigor, habr a que hablar de vectores cticios). Las puntuaciones obtenidas en las mismas determinan a qu e nivel del factor corresponde una observaci on concreta. Dado que la igualdad de las medias equivale a = 0, sabemos

jess montanero fernndez


168 CAP ITULO 6. ANALISIS DE LA VARIANZA

por (4.30) que el contraste de igualdad de medias puede dirimirse en funci on del coeciente de correlaci on m ultiple de la variable respuesta respecto a las variables cticias. Adem as, se sigue de (4.18) que dicho coeciente no depende de las variables cticias escogidas y, por lo tanto, no depende de la parametrizaci on concreta que se haya adoptado, cosa que era de esperar.

Normalidad y homocedasticidad
Por otra parte, cuando el supuesto de normalidad no se verica, podemos justicar los m etodos de inferencia anteriores mediante los resultados asint oticos estudiados en el cap tulo 2, lo cual requiere el cumplimiento de la condici on de Huber (3.37) por parte de la sucesi on (Vn )nN . En nuestro caso teniendo en cuenta (6.1), se sigue que la condici on de Huber equivale a que ni converja a innito para todo i = 1, . . . , a. En t erminos pr acticos, dir amos el test F sigue siendo v alido (al menos su nivel de signicaci on es aproximadamente correcto) aunque no se verique el supuesto de normaon lidad, siempre y cuando las a muestras sean sucientemente grandes. Esta condici resulta, desde luego, bastante natural, lo cual es importante teniendo en cuenta que, en estas condiciones, el transformar la variable respuesta tiene una menor expectativa de exito que en el an alisis de regresi on, puesto que la misma transformaci on debe servir para todos los niveles del factor. Respecto a la violaci on del supuesto de homocedasticidad, podemos emplear, teniendo en cuenta que nuestro estudio puede entenderse como una an alisis de regresi on, la t ecnica de M nimo Cuadrados Ponderados, estudiada en el cap tulo anterior, siempre y cuando se conozca, aproximadamente, la relaci on entre las distintas varianzas del modelo. Tambi en podemos aplicar una transformaci on del tipo Box-Cox de las variables respuesta con el objeto de conseguir la normalidad y homocedasticidad de los datos transformados. No obstante, hemos de tener presente la existencia de procedimientos alternativos, como el test de Brown-Forsythe o el test no param etrico de Kruskall-Walllis.

Comparaciones m ultiples

Manuales Uex

Una vez realizado el contraste principal y si el resultado es signicativo, conviene conocer entre qu e niveles del factor existen diferencias en el valor medio de la variable respuesta. Se trata pues de contrastar hip otesis iniciales del tipo
ij H0 : i = j ,

i = j.

168

MODELOS LINEALES
COMPLETAMENTE ALEATORIZADO 6.1. DISENO 169

Estos contrastes reciben el nombre de Comparaciones M ultiples. Dado que la hip otesis inicial anterior equivale a vi , vj , puede contrastarse mediante el test F, siendo su estad stico de contraste F =
ni (y i y i|j )2 + nj (y j y i|j )2

2,I

etica de las muestras i- esima y j - esima combinadas. donde y i|j denota la media aritm . No obstante, puede probarse que el estad stico F se confronta con el cuantil F1 ,na de contraste se expresa tambi en mediante el cuadrado del estad stico y i y j t= 1 1 I ni + nj (6.9)

etodo Por lo tanto, el test equivale a comparar |t| con t na . Este es el denominado m LSD de Fisher. No obstante, ser a deseable que este procedimiento fuera consistente con el contraste principal en el sentido de que este aportara un resultado signicativo si, y s olo si, alguna de las comparaciones m ultiples lo fuera. Siendo menos ambicioultiples sos, cabr a entender, al menos, el conjunto de las a(a 1) comparaciones m desde un punto de vista global, de manera que, si las medias fueran todas iguales, la ij para alg un par i = j sea . Tal y como est a planteado el probabilidad de decidir H1 test anterior, la probabilidad puede ser bastante mayor. Los tres m etodos siguientes pretenden solucionar parcialmente el problema: M etodo de Sche e: se basa en la familia de intervalos de conanza simult aneos de Sche e, estudiada en el cap tulo 2. Efectivamente, dado (0, 1), para cada vector d V |1n , se considera el siguiente intervalo para d 2 2,I (a 1)Fa d 1,na d

ni

nj

de manera que, si el valor 0 queda fuera de alg un intervalo, el test F decide necesariamente H1 en el contraste principal. Por lo tanto, si H0 es correcta, la

169

Manuales Uex

De esta forma, el test F a nivel para el contraste principal decide H1 si, y s olo si, el valor 0 queda fuera del intervalo correspondiente a alg un vector d V |1n . ij se corresponde con d = 0, siendo Teniendo en cuenta que la hip otesis H0 1 1 d = ni vi nj vj , que pertenece a V |1n , podemos considerar la siguiente familia de intervalos de conanza para las diferencias de medias i j , i = j 1 1 y i y j (a 1) + Fa 1,na ,

jess montanero fernndez


170 CAP ITULO 6. ANALISIS DE LA VARIANZA probabilidad de que alguna comparaci on m ultiple resulte signicativa (es decir, que el 0 quede fuera de alg un intervalo) es menor o igual que 1 . Como vemos, el m etodo de Sche e nos aproxima a la soluci on buscada, aunque, por desgracia, peca de conservador. M etodo de Bonferroni: el conservadurismo del m etodo de Sche e se explica por el hecho de que la familia de intervalos se construye para que el test F sea consistente, no s olo con las comparaciones m ultiples, sino con todos los etodo de Bonferroni, basado en la desigualdad del contrastes de V |1n . El m mismo nombre, utiliza el estad stico (6.9) y corrige el valor de a la hora de /a(a1) en lugar de t realizar las comparaciones, tomando tna na . Por lo tanto estamos considerando la familia de intervalos de conanza 1 1 a(a1) y i y j tna + .
ni nj

De esta forma, se sigue de (3.46) que, si todas las medias son iguales, la probabilidad de que el 0 quede fuera de alg un intervalo es menor o igual que 1 . El m etodo sigue siendo pues conservador, aunque en la pr actica se utiliza m as que el de Sche e cuando el n umero de niveles del factor, a, es bajo. M etodo de Tuckey: este m etodo permite recuperar el nivel de signicaci on exacto, pero con la condici on de que el dise no sea equilibrado, es decir, que los enticos. El procedimiento se basa en el tama nos de muestras n1 , . . . , na sean id distribuci on del rango estudentizado, denida como sigue: dados k y s enteros on de la variable aleatoria positivos, se denota por qk,s la distribuci |Zi Zj | q = m ax , i=j U/s

calculada a partir de Z1 , . . . , Zk , variables aleatorias normales e independientes con media 0 y varianza 2 , y U, variable aleatoria independiente de las anteriores acilmente que, si en nuestro con distribuci on 2 2 s central. Pude comprobarse f modelo todas las muestras tienen un mismo tama no m, entonces |y i y j (i j )| m ax m qa,a(m1) . i=j (6.10)

Manuales Uex

Ello nos induce a considerar la siguiente familia de intervalos de conanza para las diferencias i j , donde i = j, y i y j qa ,m(a1) .
m

170

MODELOS LINEALES
6.2. ANALISIS DE LA COVARIANZA 171

De esta forma, si todas las medias son iguales, la probabilidad de que el valor 0 quede fuera de alg un intervalo es exactamente . Existen otros m etodos para realizar las comparaciones m ultiples. Podemos encontrarlos, por ejemplo, en Arnold (1981), cap tulo 12. Adem as, estos procedimientos pueden extenderse, como veremos, al estudio de modelos con m as de un factor.

6.2.

An alisis de la Covarianza

El an alisis de la covarianza pude entenderse como una fusi on entre los an alisis de la varianza y de regresi on m ultiple. En principio, puede considerarse cualquier modelo del an alisis de la varianza y un n umero indeterminado de variables explicativas. Sin embargo y con el objeto de facilitar la compresi on, nos limitaremos a exponer aqu el an alisis de la covarianza mezclando, por as decirlo, un dise no completamente aleatorizado con una regresi on simple. La extrapolaci on al caso general puede realizarse sin dicultad. En un estudio de regresi on lineal (simple) puede existir un factor cualitativo, de manera que la relaci on entre las variables estudiadas puede variar, al menos en principio, en funci on del nivel del factor. Es decir, que existen diversos grupos y puede considerarse para cada grupo una regresi on por separado. El objetivo del investigador puede ser el comparar las rectas de regresi on de los distintos grupos. Tal puede ser el caso, por ejemplo, de los datos de Irisdata, donde se mide la anchura y la longitud de los p etalos y s epalos para muestras de tama no 50 de tres especies de ores: Setosa (negro), Vesicolor (rojo) y Virg nica (verde). Parece razonable pensar que existe una correlaci on lineal entre la anchura (eje X) y la longitud (eje Y) de los s epalos, pero puede ser que esa relaci on dependa de la especie escogida. Eso es, efectivamente, lo que recoge el siguiente diagrama de dispersi on:

171

Manuales Uex

jess montanero fernndez


172 CAP ITULO 6. ANALISIS DE LA VARIANZA

Puede observarse que, al menos aparentemente, la relaci on entre el incremento de la anchura y de la longitud es similar en las especies virginica y vesicolor, aunque a la longitud de vesicolor habr a que a nadirle una cantidad adicional constante. Respecto al grupo setosa la cuesti on parece m as complicada: es posible que incluso la relaci on entre los incrementos sea diferente. Todas estas hip otesis pueden ser contrastadas, como veremos m as adelante. El estudio se puede contemplar tambi en desde el punto de vista del an alisis de la varianza. Por ejemplo, supongamos que nos somos capaces de detectar diferencias signicativas entre las medias de una variable respuesta Y medida en dos grupos o niveles de un factor. Sin embargo, existe otra variable Z , denominada covariable y correlacionada linealmente con la anterior para los dos grupos, de tal manera que las pendientes de las respectivas rectas de regresi on pueden considerarse iguales. Es el caso del ejemplo siguiente:

Manuales Uex

Si los t erminos independientes de las rectas son diferentes, como parece apreciarse en la gura, signicar a que, dado un valor jo de Z , la variable respuesta toma, por t ermino medio, distintos valores para los dos grupos. En concreto, el grupo de los puntos rojos tiende a tomar valores de Y m as altos para un mismo valor Z de la covariable. Es decir, que aunque el factor no afecta a la esperanza de la variable Y , si afecta a la esperanza de Y condicionada al valor de Z . A nadir a estos ejemplos m as factores o m as covariables no supone un cambio esencial en el an alisis de los mismos. En todo caso y sea cual sea la intenci on del investigador, este tipo estudios se enmarca en un mismo modelo te orico: el Modelo amos Lineal. En un caso como el de la gura 30 con a grupos y una covariable, tendr un modelo del tipo Yij = i + zij + ij , i = 1, . . . , a, j = 1, . . . , ni .

172

MODELOS LINEALES
6.2. ANALISIS DE LA COVARIANZA 173

El modelo, si se a naden los supuestos de independencia, normalidad y homocedasticidad, puede expresarse mediante Y = X + E , E Nn (0, 2 ), Ra+1 , 2 > 0, (6.11)

considerando distintas opciones para la matriz X. Por ejemplo, por anidad a la parametrizaci on (6.4)-(6.5), podemos tomar X = (1n |v1 , . . . , va1 , z). En ese caso, se verica 0 = a 1 = 1 a . . (6.12) . a1 = a1 a a = erminos indepenPor lo tanto, la hip otesis 1 = . . . = a1 = 0 equivale a que los t enticos. La hip otesis a = 0 equivale a que la covariable dientes de las a rectas sean id no explique en modo alguna la variablidad de Y , en cuyo caso el dise no utilizado no es el adecuado. Estas hip otesis pueden ser contrastadas f acilmente seg un hemos visto en el cap tulo 4. Por anidad a la parametrizaci on (6.6)-(6.7), podemos tomar X = (1n |e1 , . . . , ea1 , z). En ese caso, se tiene que 0 1 = .. = 1 .. . . .

(6.13)

a1 = a1 .. a = otesis 1 = . . . = a1 = 0 y a = 0 siendo .. = n1 a i=1 ni i . En ese caso, las hip coinciden con las de la parametrizaci on anterior. El dise no considerado en la gura 29 es algo m as complejo, puesto que la pendiente de la recta puede variar en funci on del nivel del factor: Yij = i + i zij + ij , i = 1, . . . , a, j = 1, . . . , ni .

+ E , Y =X

E Nn (0, 2 ),

R2a , 2 > 0.

(6.14)

173

Manuales Uex

columnas {e1 z, . . . , ea1 z } para (6.13). El signo * denota el producto de los vectores componente a componente. Las nuevas columnas a nadidas se denomina interacciones. De esta forma, tendremos el modelo

que se obtiene al a Para formalizarlo consideramos la matriz X nadir a la matriz X anterior las columnas {v1 z, . . . , va1 z}, para la parametrizaci on (6.12), o las

jess montanero fernndez


174 CAP ITULO 6. ANALISIS DE LA VARIANZA

Los par ametros 0 , . . . , a1 se interpretan como antes en ambas parametrizaciones. No obstante, en (6.12) se tiene que a = a , y a+i = i a , para i = 1, . . . , a 1. En (6.13) se verica que a = .. , y a+i = i .. , para i = 1, . . . , a 1, siendo .. = n1 a otesis a+1 = . . . = 2a1 = 0 signica i=1 ni i . En todo caso, la hip la igualdad de las pendientes, lo cual se traducir a en un modelo del tipo (6.11). De hecho, esta hip otesis puede contrastarse antes de considerar dicho modelo. Si el resultado es no signicativo, es costumbre habitual contrastar la hip otesis inicial de igualdad de t erminos independiente en el modelo reducido (6.11). Como podemos ver, las principales hip otesis a contrastar no dependen del tipo de parametrizaci on escogida, lo cual ocurre porque dichas hip otesis verican la condici on (9.44), es decir, que son contrastables. En denitiva, el dise no completamente aleatorizado se resuelve introduciendo variables cticias, que indican a qu e nivel del factor pertenece la unidad experimental; en el problema de regresi on lineal se introducen variables explicativas (covariables); en general, ambos tipos de variables, las cticias y las covariables, pueden combinarse dando lugar a un an alisis de la covarianza. Pueden considerarse, incluso, productos entre ambas, lo cual posibilita la existencia de interacci on entre el factor y las covariables. Como ya hemos comentado, esto puede llevarse a cabo de igual modo en modelos multifactoriales, donde pueden considerarse, a su vez, productos o interacciones entre los factores e, incluso, interacciones entre las interacciones.

6.3.

El test de Student como caso particular

Manuales Uex 174

En esta secci on abordaremos el estudio de dos situaciones particulares, las m as sencillas, del dise no completamente aleatorizado, concretamente, los casos a = 1 y a = 2, que se corresponden con el an alisis de las medias de una y dos muestras de distribuciones normales. Ambos estudios se resuelven, como bien sabemos, mediante el denominado test de Student. Veremos c omo al aplicar las t ecnicas propias del modelo lineal obtenemos dicho test como caso particular del test F. En primer lugar, analizaremos el caso a = 1, es decir, consideramos Y1 , . . . , Yn una muestra aleatoria simple de una distribuci on N (, 2 ), con media y varianza desconocidas. En ese caso, si se denota Y = (Y1 , . . . , Yn ) y = (, . . . , ) , el modelo es el siguiente 1n , 2 > 0. Y Nn (, 2 Id), Se sigue del teorema 3.7 que los EMV de y 2 son, respectivamente, (y, . . . , y ) y 2 1 2 s2 y . Del corolario 3.6 se sigue que (y, . . . , y ) y (n 1) nsy so los EIMV de y , respectivamente. Adem as, de la proposici on 3.4 se sigue que los estad sticos y y s2 y

MODELOS LINEALES
6.3. EL TEST DE STUDENT COMO CASO PARTICULAR 175

son independientes, lo cual constituye, precisamente, la tesis del conocido teorema de Fisher. Para resolver el contraste de la hip otesis inicial H0 : = 0, podemos hacer uso de test F, teniendo en cuenta que H0 equivale a W = {0}. En ese caso ,se obtiene sin dicultad 2 ny y , F = 2 = sy sy / n

stico que debe compararse con F1 ,n1 , lo cual equivale a comparar con tn1 el estad de contraste y t= . sy / n

En la pr actica, suelen considerarse contrastes de hip otesis iniciales del tipo H0 : = un valor 0 conocido. Este problema se resuelve considerando el modelo 0 , para alg trasladado asociado a Yi = Yi 0 , i = 1, . . . , n. En ese caso, el test F a nivel stico de contraste consiste en comparar con t n1 el estad t= y 0 sy / n (6.15)

Este es el denominado test de Student para una muestra. Realmente, no era estrictamente necesario recurrir al Modelo Lineal para llegar a este test, pero el hecho de obtenerlo mediante estas t ecnicas otorga mayor consistencia a nuestra teor a. Lo mismo puede decirse del intervalo de conanza para la media que se deriva de la regi on (3.12). Respecto al supuesto de normalidad, la condici on de Huber, que garantiza, en virtud del corolario 3.21, la validez asint otica del test de Student, es completamente vacua pues equivale a que n converja a innito. Por lo tanto, para muestras sucientemente grandes podemos prescindir del supuesto de normalidad en el contraste de la media. A esta conclusi on se podr a haber llegado sin necesidad de aplicar el corolario 3.21. Hubiera bastado considerar resultados m as b asicos, como son la versi on (9.67) del Terema Central del L mite, junto con el m etodo de los momentos (teorema 9.24). Efectivamente, se verica que, cuando n tiende a innito, se verica y d N (0, 1), / n sy .
P

1 Tener en cuenta tambi en que la distribuci on t-Student con n 1 grados de libertad converge igualmente a la distribuci on N (0, 1) cuando n tiende a innito.

175

Manuales Uex

Aplicando el teorema 9.21, se obtiene la convergencia del estad stico t de (6.15) a la distribuci on N (0, 1) en el caso nulo1 .

jess montanero fernndez


176 CAP ITULO 6. ANALISIS DE LA VARIANZA

Estudiamos, a continuaci on, el caso a = 2, es decir consideramos dos muestras aleatoria simples independientes, Y11 , . . . , Y1n1 y Y21 , . . . , Y2n2 , correspondientes repectivamente a sendas distribuciones normales con id entica varianza y medias 1 y 2 desconocidas. Si componemos las observaciones y las medias en sendos vectores Y y de dimensi on n = n1 + n2 , obtenemos el modelo Y Nn (, 2 Id), v1 , v2 , 2 > 0.

Aplicando los resultados obtenidos en la primera secci on obtenemos los EIMV de y 2 siguientes = y 1 v1 + y 2 v2 , s2 c =
2 (n1 1)s2 1,I + (n2 1)s2,I , n2

donde, para cada j = 1, 2, y j y s2 j,I denotan los EIMV que se obtienen para cada muestra por separada seg un el modelo estudiado anteriormente. Podemos obtener de manera trivial una regi on de conanza para a partir de (3.12). La hip otesis inicial cuyo contraste puede resultar, en principio, m as interesante, es H0 : 1 = 2 , que equivale a 1n . En ese caso, el test F a nivel consiste en compara con F1 ,n2 el estad stico de contraste 2 ni (y y )2 , F = i=1 2 i sc etica de los n datos. Teniendo en cuenta que y = donde y denota la media aritm
n1 (n1 y 1 + n2 y 2 ), se deduce que el test F equivale a comparar co t stico de n2 el estad

contraste

t=

176

Manuales Uex

Nuevamente, estamos hablando pues del test de Student, en esta ocasi on para dos muestras. Respecto a la validez asint otica del mismo presciendiendo del supuesto de normalidad, la condici on de Huber se traduce, en este caso, a que tanto n1 como n2 converjan a innito. Puede probarse tambi en la validez asint otica haciendo uso del teorema 9.24 junto con (9.67). Veamos ahora c omo podemos obviar el supuesto de homocedasticidad. on Supongamos que Y11 , . . . Y1n1 es una muestra aleatoria simple de una distribuci 2 de media 1 y varianza 1 , y que Y21 , . . . , Y2n2 es una muestra aleatoria simple, inde2 . Supongamos pendiente de la anterior, de una distribuci on de media 2 y varianza 2 que los tama nos muestrales convergen a innito. En ese caso, podemos enunciar el siguiente resultado asint otico

y1 y2 . 1 1 sc n +n 1 2

(6.16)

MODELOS LINEALES
BIFACTORIAL EQUILIBRADO 6.4. DISENO 177

1 En las condiciones anteriores, si 1 = 2 y n stico (6.16) n2 1, se verica que el estad converge en distribuci on a N (0, 1).

Proposici on 6.1.

Demostraci on. Dado que n1 /n2 y teniendo en cuenta el teorema 9.21 junto con (9.67), se verica que d d 2 2 n1 (y 1 1 ) N (0, 1 ), n1 (y 2 2 ) N (0, 2 ). (6.17) Por lo tanto, si 1 = 2 , se sigue nuevamente del teorema 9.21 que y y d n1 ,n2 = 1 2 2 2 N (0, 1). 1 2 n1 + n2

Por otra parte, el estad stico t de (6.16) puede expresarse mediante 2 2 1 2 n1 n2 n1 +n2 n1 + n2 t = n1 ,n2 sc
2 Dado que, en virtud del teorema 9.24, s2 i converge en probabilidad a i , para i = 1, 2, 2 2 2 sc converge e probabilidad a (1 + 2 )/2 y, por lo tanto, el segundo factor converge en probabilidad a 1. Luego, por el teorema 9.21, se concluye.

El resultado anterior garantiza la validez asint otica del test de Student aunque no se veriquen los supuestos de normalidad y homocedasticidad, siempre y cuando n1 /n2 converja a 1. En t erminos pr acticos, diremos que el test puede considerarse v alido cuando los tama nos de muestra sean lo suciente grandes y los sucientemente parecidos. Esta forma de proceder se extrapola a cualquier dise no completamente aleatorizado. Es decir, que se procura que las muestras consideradas para cada nivel del factor sean lo mayores posibles y que no exista una gran desproporci on entre sus tama nos. De todas formas, en el caso de dos muestras, contamos con procedimiento alternativos cl asicos, de sobras conocidos, para el caso heteroced astico y el caso no normal, como son, respectivamente el test de Welch y el test no param etrico de Mann-Whitney.

En esta secci on se estudiar a la inuencia de dos factores cualitativos, fA con


a niveles y fB con b niveles, en la media de una variable respuesta y . Para ello,

177

Manuales Uex

6.4.

Dise no bifactorial equilibrado

jess montanero fernndez


178 CAP ITULO 6. ANALISIS DE LA VARIANZA

consideraremos a b muestras aleatorias simples, cada una de ellas correspondiendo a la combinaci on entre un determinado nivel del factor fA , i, con otro del factor fB , j . no, que se denota Se supondr a en todo caso que las ab muestras son del mismo tama umero total de datos es n = abm. El dise no puede representarse, por m. Por lo tanto el n esquem aticamente, como sigue: Factor B Y111 , . . . , Y11m . . . . . . . . . Y1b1 , . . . , Y1bm . . . . Factor A . . Ya11 , . . . , Ya1m . . . . . . . . . Yab1 , . . . , Yabm De esta manera, podemos asignar a la muestra correspondiente a los niveles i- esimo y j - esimo de los factores A y B , respectivamente, las coordenadas (i, j ), que indica una celda de la cuadr cula. Una tercera coordenada, k , indicar a la posici on del dato en la celda corespondiente. Se supondr a, adem as, que todas las muestras son independientes y provienen de distribuciones normales con id entica varianza. Por lo tanto, el modelo puede expresarse as : Yijk = ij + ijk , ijk N (0, 2 ) independientes, (6.18)

donde i = 1, . . . , a, j = 1, . . . , b y k = 1, . . . m. Si componemos todas las observaciones de las variable repuesta, ordenando las muestras por las, obtenemos el vector aleatorio abm-dimensional Y = (Y111 , . . . , Y11m , Y121 , . . . , Yabm ) , de media . Para cada celda (i, j ) de la cuadr cula se considera el vector vij de Rn cuyas componentes son , si V denota el todas nulas salvo las m correspondientes a la misma, que valen 1. As subespacio ab dimensional del Rn generado por los vectores vij , para i = 1, . . . , a y j = 1, . . . , b, el modelo puede expresarse mediante Y = + E, E Nn (0, 2 Id), V, 2 > 0. (6.19)

Manuales Uex

As pues, se trata de un modelo lineal normal, que coincide con el que corresponder a a un dise no completamente aleatorizado, es decir, co un u nico factor, pero con ab niveles. Por lo tanto, el problema de estimaci on de y 2 est a ya resuelto: el valor correspondiente a las coordenadas ijk del estimador de , PV Y, es, para todo k de 1 a m, m y ij = m1 Yijs
s=1

Por lo tanto, el EIMV de 2 es 2,I =

1 (Yijk y ij )2 ab(m 1) i=1 j =1 k=1

(6.20)

178

MODELOS LINEALES
BIFACTORIAL EQUILIBRADO 6.4. DISENO 179

N otese que, si obviamos el factor fB , los cual equivale a agrupar las celdas por las no bm, el modelo resultando corresponder a a un para obtener a muestras de tama dise no completamente aleatorizado con a niveles. En ese caso, pertenece al subes pacio V1 = v1 , . . . , va , siendo vi = b j =1 vij , i = 1, . . . , a. El estimador de en este on ijk el valor modelo, PV1 Y , posee en la posici y i = (bm)1
b m
j =1 s=1

Yijs

An alogamente, si ignoramos el factor fA , es decir, si agrupamos por columnas, ob tenemos un modelo donde pertenece a V2 = v1 , . . . , vb , siendo vj = a i=1 vij , j = 1, . . . , b. Igualmente, el estimador de para este este modelo, PV2 , posee en la posici on ijk el valor a m y j = (am)1 Yijs
i=1 s=1

Por u ltimo, si ignoramos ambos factores tendremos una u nica muestra aleatoria simple de tama no n, en cuyo caso el estimador de la media, P1n Y, es el vector de Rn cuyas componentes son todas iguales a y =
a b m
i=1 j =1 k=1

Yijk

Consideremos a continuaci on las medias aritm eticas siguientes: b = (ab)1 a i=1 j =1 ij ; b i = b1 j =1 ij , i = 1, . . . , a ; a 1 j = a j = 1 , . . . , b. i=1 ij , Denimos entonces los siguientes par ametros: i j ( )ij = = = = ; i , i = 1, . . . , a; j , j = 1, . . . , b; ij i j + , i = 1, . . . , a, j = 1, . . . , b.
b
j =1

Puede comprobarse, trivialmente, que se verican las siguientes restricciones


a
i=1

i =

b
j =1

j = 0,

( )ij = 0, i = 1, . . . a,

a
i=1

( )ij = 0, j = 1, . . . , b. (6.21)

179

Manuales Uex

jess montanero fernndez


180 CAP ITULO 6. ANALISIS DE LA VARIANZA

De esta forma, (6.18) es equivalente al modelo Yijk = + i + j + ( )ij + ijk , ijk N (0, 2 ), (6.22)

con las restricciones expresadas en (6.21). Por lo tanto, estamos expresando el modelo bifactorial de manera an aloga a como expres abamos el unifactorial en (6.8). Veremos a continuaci on que estos nuevos par ametros corresponden a una determinada descomposici on de V en subespacios ortogonales:

Proposici on 6.2.
La siguiente descomposici on es ortogonal V = 1n V1 |1n V2 |1n V |(V1 V2 ) (6.23)

Demostraci on. Debemos probar u nicamente que que V1 |1n V2 |1n . Ciertamente, dos vectores cualesquiera, g1 y g2 , pertenecientes a V1 |1n y V2 |1n , respectivamente, pueden b expresarse mediante g1 = a i=1 xi vi y g2 = j =1 yj vj . Al ser ortogonales a 1n , se b a verica que i=1 xi = j =1 yj = 0. En consecuencia, g1 = As pues, g1 g2 = y, por lo tanto,
a1
i=1

xi (vi va ),
a 1 b1
i=1 j =1

g2 =

b1
j =1

yj (vj vb )

xi yj (vij vaj vib + vab )

g1 , g2 =

a 1 b1
i=1 j =1

xi yj (m m m + m) = 0

En todo caso, se verica que P1n = 1n , PV1 =


a
i=1

i vi ,

PV2 =

Manuales Uex

b
j =1

j vj

Teniendo en cuenta que PV1 |1n = PV1 P1n , PV2 |1n = PV2 P1n (6.24)

180

MODELOS LINEALES
BIFACTORIAL EQUILIBRADO 6.4. DISENO y que PV |(V1 V2 ) = PV (P1n + PV1 |1n + PV2 |1n ), se sigue que , PV1 |1n =
a
i=1

181

(6.25)

i vi ,

PV2 |1n =

b
j =1

j vj ,

PV |(V1 V2 ) =

a b
i=1 j =1

( )ij vij ,

con los par ametros i , j y ( )ij expresados en el modelo (6.22) y, en consecuencia, con las restricciones expresadas en (6.21). En ese sentido decimos que la parametrizaci on (6.22) obedecen a la descomposici on ortogonal (6.23). Obviamente, al igual que sucede en el dise no completamente aleatorizado cuando se considera la matriz (6.6), este dise no corresponde un modelo de regresi on lineal m ultiple a partir de cierta matriz X. Se propone como ejercicio encontrar una forma concreta para la misma. Por otra parte, podemos considerar tambi en la descomposici on ortogonal del vector aleatorio PV Y en las proyecciones sobre los distintos subespacios. PV Y = P1n Y + PV1 |1n Y + PV2 |1n + PV |(V1 V2 ) Y Por un razonamiento an alogo al anterior, la suma queda como sigue PV Y = y 1n + Adem as, PV1 |1n Y 2 = mb PV2 |1n Y 2 = ma PV |(V1 V2 ) Y 2 = m
a
i=1

a
i=1

(y i y )vi +

b
j =1

(y j y )vj +

a b
i=1 j =1

(y ij y i y j + y )vij (6.26)

(y i y )2 , (y j y )2 , 2 y ij y i y j + y .

(6.27) (6.28)

a b
i=1 j =1

b
j =1

(6.29)

Estos resultados ser an de gran utilidad a la hora e contrastar las siguientes hip otesis iniciales:
A H0 : 1 = . . . = a = 0 B H0 : 1 = . . . = b = 0 AB : ( )11 = . . . = ( )ab = 0 H0

181

Manuales Uex

jess montanero fernndez


182 CAP ITULO 6. ANALISIS DE LA VARIANZA

A equivale a que pertenezca al subespacio La hip otesis inicial H0

W = 1n V2 |1n V |(V1 V2 ) Por lo tanto, teniendo en cuenta (3.23), (6.27) y (6.20), el test F a nivel para A consiste en comparar con Fa stico contrastar la hip otesis inicial H0 1,ab(m1) el estad FA =
1

ab(m1)

B Igualmente, para contrastar H0 se compara con Fb stico 1,ab(m1) el estad

a 1 2 a1 mb i=1 (y i y ) a b m
i=1 j =1 k=1 (Yijk

y ij )2

FB =

ab(m1)

AB Por u ltimo, para contrastar H0 , se compara con F( stico a1)(b1),ab(m1) el estad 1 (a1)(b1)

b 1 2 b1 mb j =1 (y j y ) a b m
i=1 j =1 k=1 (Yijk

y ij )2

FAB =

Al igual que en el dise no completamente aleatorizado, podemos proceder a realizar distintas comparaciones m ultiples. En primer lugar, podemos buscar una familia de intervalos de conanza, a a ser posible simult aneos, para los par ametros {i i : i = i }. Hemos de tener en cuenta que, para cada par i = i , se verica y y i N (i i , (mb)1 2 2 ). (6.30)

2 y ij y i y j + y . a b m 1 2 i=1 j =1 k=1 (Yijk y ij ) ab(m1)


m

a b
i=1

j =1

182

Manuales Uex

Un razonamiento an alogo conduce a la familia de intervalos de conanza simult aneos seg un el m etodo de Tuckey: i i y y i qa I (mb)1 , i = i . (6.32) ,ab(m1) Por u ltimo, se sigue del teorema 3.24 que la familia de intervalos Sche e para estos contrates es i i y y i I 2(a 1)(mb)1 Fa i = i . (6.33) 1,ab(m1) ,

En consecuencia, la familia intervalos de conanza por el m etodo de Bonferroni es la siguiente /a(a1) i i y y i tab(m1) I 2(mb)1 , i = i . (6.31)

MODELOS LINEALES
BIFACTORIAL EQUILIBRADO 6.4. DISENO 183

De manera completamente an aloga (se deja como ejercicio), podemos construir las familias de intervalos de conanza de Bonferroni, Tuckey y Sche e para el conjunto de {j j : j = j }. Los par ametros ( )ij , i = 1, . . . , a, j = 1, . . . , b, se denominan interacciones. AB es verdadera, entonces estaremos Si son todas nulas, es decir, si la hip otesis H0 hablando del siguiente modelo reducido Yijk = + i + j + ijk , , ijk N (0, 2 ),
a
i=1

i =

b
j =1

j = 0.

(6.34)

Este modelo se denomina modelo bifactorial sin interacci on, y se caracteriza por cuplir la siguiente propiedad: para todo i = i y j = j , se verica ij ij = i j i j Es decir, la variaciones de la media entre los distintos niveles del factor A no dependen del nivel del factor B considerado y viceversa. En este modelo, se verica que pertenece al subespacio V1 V2 . En consecuencia, se sigue de (6.25) que el EIMV de 2 es el siguiente: 2,I = 2 1 Yijk y i + y j y na+b1 i=1 j =1 k=1
A H0 : 1 = . . . = a = 0 B : 1 = . . . = b = 0 H0

(6.35)

Para contrastar las hip otesis iniciales

se manejan los mismos tests que se utilizan para contrastar en el modelo con interA B y H0 , respectivamente, con la salvedad de que,en acci on las hip otesis iniciales H0 ambos casos, debe aparecer en el denominador de F la expresi on (6.35) en lugar de . Las familia de intervalos de (6.20), que se comparar a con el cuantil Fa 1,naab+1 enticas a las del modelo conanza para {i i : i = i } y {j j : j = j } son id con interacci on salvo en los grados de libertad de los cuantiles utilizados. Concretamente, las familias de Bonferroni, Tuckey y Sche e, se construir an, respectivamente, a partir de los cuantiles tnab+1 ,

A en el modelo sin interacci on equivale al hecho de que La veracidad de la hip otesis H0 la media de la variable respuesta no dependa del nivel del factor A, es decir, que dicho

183

Manuales Uex

/a(a1)

qa ,nab+1 ,

Fa 1,nab+1

jess montanero fernndez


184 CAP ITULO 6. ANALISIS DE LA VARIANZA

factor no inuye, por t ermino medio, en la respuesta (no es una verdadera fuente de B . variabilidad). Lo mismo sucede, pero para el factor B , respecto a la hip otesis H0 Desde el punto de vista del modelo completo, es decir, con interacci on, no est a tan claro c omo contrastar si uno de los factores, por ejemplo A, inuye en la media de la variable respuesta. En principio, podr amos considerar el contraste de la hip otesis A , pero, en este caso, su veracidad equivaldr a a que, para cada i = 1, . . . , a, inicial H0 i sea igual a . Esto se parece a lo que queremos contrastar, pero no es exactamente lo que buscamos, de ah que existan distintas aproximaciones a la hora de intentar resolver este problema, seg un se comenta en Arnold (1981), pp. 97 y 98. Por ejemplo, podemos contrastar la hip otesis inicial
A,AB : 1 = a = ( )11 = . . . = ( )ab = 0, H0

pues, de ser cierta, tendr amos un modelo del tipo Yijk = + j + ijk , ijk N (0, 2 ),
b
j =1

j = 0,

De manera completamente an aloga se proceder a si se estudiara la inuencia del factor B. Otra forma de proceder consiste en contrastar, primeramente, si las interacciones AB es verdadera. Si el resultado no es signicativo, consison nulas, es decir, si H0 A B o H0 , deramos el modelo reducido sin interacci on y contrastamos la hip otesis H0 dependiendo del factor que estemos estudiando. La principal cr tica a este m etodo es AB que el hecho de obtener un resultado no signicativo al contrastar la hip otesis H0 no signica, ni mucho menos, que se haya probado su veracidad.

donde la media no depende del nivel de fA . El test F a nivel para resolver este contraste se obtiene sumando los t erminos (6.27) y (6.29), correspondientes a proyecciones sobre subespacios ortogonales. Consiste pues en comparar con F( a1)b,ab(m1) el estad stico b 2 [(a 1)b]1 m a i=1 j =1 (y ij y j ) FA,AB = b m 2 [ab(m 1)]1 a i=1 j =1 k=1 (Yijk y ij )

6.5.

Dise nos equilibrados con tres o m as factores

Manuales Uex 184

En esta secci on intentaremos generalizar el modelo bifactorial equilibrado al caso en el que exista un n umero arbitrario de factores. Para evitar un excesiva complejidad en la notaci on expondremos u nicamente el modelo con tres factores, entendiendo que

MODELOS LINEALES
FACTORES 6.5. DISENOS EQUILIBRADOS CON TRES O MAS 185

con ello quedar an claras las claves para extrapolar el estudio al caso general. El uso ndice h, que de un tercer factor fC con c niveles obliga a introducir un nuevo sub , nuestro modelo consiste en considerar toma valores desde 1 hasta c. As Yijhk = ijh + ijh N (0, 2 ) independientes. En este caso, el EIMV de 2 es 2,I = [abc(m 1)]1
a b c m
i=1 j =1 h=1 k=1

(6.36)

(Yijhk y ijh )2

El modelo puede expresarse tambi en mediante Y Nn (, 2 Id), donde n = abcm y pertenece al subespacio V generado por los vectores, {vijh : 1 i a, 1 j b, 1 h c}, siendo vijh el vector de Rabcm cuyas componentes son todas nulas salvo las correspondientes a la celda ijh, que valen 1. De manera completamente an aloga al dise no bifactorial, podemos denir los vectores siguientes
vij = vih = vjh = vi = vj = vh =
c
h=1

vijh ,

1 i a, 1 j b, 1 i a, 1 h c, 1 j b, 1 h c, 1 i a, 1 j b, 1 h c,

(6.37) (6.38) (6.39) (6.40) (6.41) (6.42)

b
j =1

vijh ,

a
i=1

vijh ,

b c
j =1 h=1

vijh ,

a c
i=1 h=1

vijh ,

a b
i=1 j =1

vijh ,

1n =

En lo que sigue, V1 , V2 , V3 , V12 , V13 y V23 denotar an los subespacios de V generados por las familias (6.37), (6.38), (6.39), (6.40), (6.41) y (6.42), respectivamente. De esta a el subespacio que recorre cuando ignoramos los factores fB y fC , forma, V1 ser

185

Manuales Uex

a b c
i=1 j =1 h=1

vijh .

(6.43)

jess montanero fernndez


186 CAP ITULO 6. ANALISIS DE LA VARIANZA

es decir, cuando consideramos un dise no completamente aleatorizado con a niveles aloga se interpretan los subespacios V2 y V3 . y bcm datos por nivel. De manera an As mismo, V12 es el subespacio que recorre si ignoramos el factor fC , es decir, cuando a considermos un dise no bifactorial equilibrado con a niveles para un factor, b niveles para el otro y mc datos por celda, lo cual equivale a un dise no completamente aleatorizado con ab niveles y mc datos por nivel. De igual forma se interpretan V13 (se suprime el segundo factor) y V12 (se suprime el tercero).

Proposici on 6.3.
El subespacio V descompone en la siguiente suma de subespacios ortogonales: V = 1n V1 |1n V2 |1n V3 |1n V |(V12 V13 V23 )

V12 |(V1 V2 ) V13 |(V1 V3 ) V23 |(V2 V3 )

Demostraci on. Utilizando los mismos argumentos que en el modelo bifactorial equilibrado se deduce que V1 |1n , V2 |1n y V3 |1n son ortogonales. El mismo razonamiento sirve para probar la ortogonalidad entre V3 |1n y V12 |1n , pues basta considerar un modelo bifactorial equilibrado con un factor, fAB , con ab niveles y otro, fC , con c niveles. De esta forma queda probada tambi en la ortogonalidad entre V3 |1n y V12 |(V1 V2 ) y, an alogamente, la ortogonalidad entre V2 |1n y V13 |(V1 V3 ) y entre V1 |1n y V23 |(V2 on la ortogonalidad entre V12 |(V1 V2 ) y V13 |(V1 V3 ): V3 ). Probemos a continuaci sendos vectores e12 y e13 de estos subespacios se expresan, respectivamente, mediante
a b
i=1 j =1

e12 =

xij vij

e13 =

a c
i=1 h=1

zij vih

La ortogonalidad respecto a V1 V2 y V1 V2 se caracteriza, respectivamente, mediante


a
i=1

xij = 0, j = 1, . . . , b,

Manuales Uex

b
j =1

xij = 0, i = 1, . . . , a,

a
i=1

zih = 0, h = 1, . . . , c,

c
h=1

zih = 0, i = 1, . . . , a.

186

MODELOS LINEALES
FACTORES 6.5. DISENOS EQUILIBRADOS CON TRES O MAS En consecuencia, se verica e12 , e13 = m = m
a b c

187

xij zih
c
h=1

b a
i=1 j =1

i=1 j =1 h=1

xij

zih

=0

Un razonamiento similar permite probar el resto de ortogonalidades entre los espacios de la segunda la. Las ortogonalidades restantes son obvias por denici on. Tambi en se verica, por denici on, que la suma resultante es V . N otese que en la demostraci on de la proposici on anterior se nos dice c omo se expresa expl citamente un vector correspondiente a un subespacio perteneciente a la segunda la del enunciado. Por otra parte, sabemos que un elemento 1n es un vector a a mediante a constante, un elemento de V1 |1n se expresar i=1 xi vi , donde i=1 xi = ltimo, los 0. De forma an aloga se expresan los elementos de V2 |1n y V3 |1n . Por u b c elementos de V |(V12 V13 V23 ) se expresan mediante a i=1 j =1 h=1 xijh vijh , con las restricciones
c
h=1

xijh = 0, (i, j ),

b
j =1

xijh = 0, (i, h),

a
i=1

xijh = 0, (h, j ).

En consecuencia, el modelo puede expresarse tambi en mediante Yijhk = + i + j + h + ( )ij + ( )ih + ( )jh + ( )ijh + ijhk , con las restricciones siguientes: i = 0,
i

ijhk N (0, 2 )

( )ijh = 0, (j, h),


i

( )ijh = 0, (i, h),


j

( )ijh = 0, (i, j ).

187

Manuales Uex

( )ih = 0, h,
i

j = 0,

( )ij = 0, j,

( )ij = 0, i,
h j

h = 0,

( )ih = 0, i,

( )jh = 0, h,

( )jh = 0, j,

jess montanero fernndez


188 CAP ITULO 6. ANALISIS DE LA VARIANZA

Estos par ametros pueden relacionarse con las medias ijh de la siguiente forma i = i =

( )ijh = ijh ij ih jh + i + ih + jh , donde las medias aritm eticas anteriores se denen de manera an aloga al caso bifactorial. De igual forma descompondr a el vector Y en suma ortogonal de proyecciones, de manera que se obtienen las siguientes sumas cuadr aticas PV1 |1n Y 2 = mbc PV2 |1n Y 2 = mac PV3 |1n Y 2 = mab PV12 |(V1 V2 ) Y 2 = mc PV13 |(V1 V2 ) Y 2 = mb PV23 |(V1 V2 ) Y 2 = ma PV |(V12 V13 V23 )Y
2

( )jh = jh j h +

( )ih = ih i h +

( )ij = ij i j +

h = h

j = j

a
i=1

(y i y )2 , (y j y )2 , (y h y )2 , (y ij y i y j + y )2 , (y ih y i y h + y )2 , (y jh y j y h + y )2 , 2

b
j =1

a b
i=1 j =1

c
h=1

a c
i=1 h=1

= m

As , estamos en condiciones de contrastar un buen n umero de hip otesis iniciales. Por ejemplo, el test F a nivel para contrastar la hip otesis inicial 1 = . . . = a = 0 stico consiste en comparar con Fa 1,abc(m1) el estad a (a 1)1 mbc i=1 (y i y )2 FA = 2 [abc(m 1)]1 i,j,h,k Yijhk y ijh

i,j,h

b c
j =1 h=1

y ijh y ij y ih y jh + y i + y j + y h y

188

Manuales Uex

MODELOS LINEALES
6.6. DISENOS ANIDADOS O JERARQUICOS EQUILIBRADOS 189

El test F a nivel para contrastar la hip otesis inicial ( )11 = . . . = ( )ab = 0 stico consiste en comparar con F( a1)(b1),abc(m1) el estad FAB = (a 1)(b 1)1 mc a b 2 i=1 j =1 (y ij y i y j + y ) 2 [abc(m 1)]1 i,j,h,k Yijhk y ijh

El test F a nivel para contrastar la hip otesis inicial ( )111 = . . . = ( )abc = 0 stico consiste en comparar con F(a1)(b1)(c1),abc(m1) el estad FABC =
m

i,j,h

Finalmente, pueden obtenerse de manera trivial (se deja como ejercicio)las familias de intervalos de conanza para {i i : i = i }, {j j : j = j } y {h h : h = h }, seg un los m etodos de Bonferroni, Tuckey y Sche e.

2 y ijh y ij y ih y jh + y i + y j + y h y 2 [abc(m 1)]1 i,j,h,k Yijhk y ijh

6.6.

Dise nos anidados o jer arquicos equilibrados

A continuaci on estudiaremos un dise no que tiene por objeto contrastar la inuencia de dos factores, A y B , en la media de una variable respuesta, con la particularidad de que el factor B no es tal, en el sentido estricto de la palabra, sino que se dene para cada nivel i del factor A, presentando en se caso un total de bi niveles. Por ejemplo, supongamos que pretendemos evaluar si cierta variable biol ogica depende de la especie considerada. Para ello, se toman a especies sobre las que se mide la variable. No obstante, se desea tambi en controlar el factor subespecie, bien por reducir el variabilidad achacable al azar o bien porque el contraste de su posible inuencia sea interesante en s mismo. Obviamente, el n umero de subespecies a considerar depender a de la especie en cuesti on. Por ello, el factor subespecie est a subordinado al factor especie. En todo caso, para cada nivel i del factor A y cada nivel ji del factor subordinado B 2 , consideraremos m mediciones de la variable respuesta. Se trata pues de un dise no equilibrado. Si a nadimos los supuestos t picos del modelo lineal normal (independencia, normalidad y homocedasticidad), tendremos el siguiente modelo

2 Aunque no es estrictamente necesario, se expresa el nivel del factor B mediante el sub ndice ji , en lugar de j , con la intenci on de recalcar la subordinaci on al factor A y as diferenciar claramente este dise no del bifactorial.

189

Manuales Uex

Yiji k = iji + iji ,

iji N (0, 2 ) independientes.

jess montanero fernndez


190 CAP ITULO 6. ANALISIS DE LA VARIANZA

Este modelo coincide con el que corresponder a a un dise no completamente aleatori b niveles y m observaciones por nivel. Por lo tanto, el EIMV de 2 es zado con a i=1 i el siguiente bi a m 1 (Yiji k y iji )2 . 2,I = a i=1 bi (m 1) i=1 ji =1 k=1 El n umero total de observaciones es n = m a endolas todas obtenemos i=1 bi . Componi la siguiente expresi on del modelo Y = + E, E Nn (0, 2 Id), V, 2 > 0, siendo V el subespacio generado por los vectores viji , donde i = 1, . . . , a y ji = 1, . . . , bi (se denen de manera completamente an aloga a la de las secciones anteriores). Si V1 denota el subespacio generado por los vectores v1 , . . . , va , podemos considerar la descomposici on ortogonal siguiente: V = 1n V1 |1n V |V1 a Los vectores V1 |1n se expresan de la forma a =1 xi vi , con i=1 xi = 0, mientras a ib on que los de V |V1 se expresan de la forma i=1 jii=1 xiji viji , con la restricci
ji =1

bi

xiji = 0,

i = 1, . . . , a.

Por lo tanto, teniendo en cuenta la descomposici on anterior, podemos, expresar el modelo mediante Yiji k = + i + iji + iji k ,
a
i=1

i = 0,

ji =1

bi

iji = 0, i = 1, . . . , a.

Los par ametros , i y iji pueden se relacionan con las medias mediante = , i = i , iji = iji i

El subespacio V1 ser a el que corresponder a al dise no completamente aleatorizado que se obtiene ignorando el el factor subordinado. Por lo tanto, la proyecci on del on iji k el valor y i . En consecuencia, vector Y sobre V1 consiste en asignar a la posici

Manuales Uex

PV1 |1n Y 2 = m PV |V1 Y 2 = m

a
i=1

bi (y i y )2 ,

bi a

i=1 ji =1

(y iji y i )2 .

190

MODELOS LINEALES
6.7. BLOQUES ALEATORIZADOS Y CUADRADOS LATINOS As pues, estamos en condiciones de contratar las hip otesis iniciales
A : 1 = . . . = a = 0 H0 AB : 11 = . . . = aba = 0 H0 A El test F a nivel para contrastar H0 consiste en comparar con Fa el 1,(m1) a i=1 bi estad stico 2 (a 1)1 m a i=1 bi (y i y ) FA = a a bi m 1 2 [(m 1) i=1 bi ] i=1 ji =1 k=1 (Yiji k y iji ) B El test F a nivel para contrastar H0 consiste en comparar con F a b a,(m1) a b i=1 i i=1 i el estad stico a bi 1 2 ( a i=1 bi a) m i=1 ji =1 (y iji y i ) FAB = a m bi 2 [(m 1) i=1 bi ]1 a i=1 ji =1 k=1 (Yiji k y iji )

191

Se pueden obtener de manera trivial (se deja como ejercicio) comparaciones multiples para los efectos del factor A seg un los m etodos de Bonferroni, Tuckey y Sche e. A El aceptaci on de la hip otesis H0 no debe interpretarse como la no inuencia del factor A en la media de la variable respuesta. Esta situaci on se corresponder a AB A,AB A = H0 otesis puede contrastarse H0 . Esta hip m as bien con a hip otesis H0 AB y, si el resultado no es directamente. Tambi en se puede optar por contrastar H0 signicativo, realizar el contraste principal en el modelo reducido correspondiente aldise no completamente aleatorizado para el factor A.

6.7.

Bloques aleatorizados y cuadrados latinos

191

Manuales Uex

Los dise nos por bloques aleatorizados tienen por objeto contrastar la inuencia de un u nico factor, denominado factor principal o tratamiento, en la media de cierta variable respuesta. Sin embargo a diferencia del dise no completamente aleatorizado, se consideran simult aneamente uno o varios factores, denominados secundarios, sospechosos de ser constituir una fuente de variabilidad, con el objeto de reducir el grado de azar inherente al experimento (expresado por el par ametro 2 ), lo cual posibilitar a, en principio, resultados m as signicativos. Se supondr a, por hip otesis, que los distintos factores considerados tienen efecto aditivo, es decir, que no se considerar ning un tipo de interacci on en el modelo. Empezaremos considerando el dise no con un u nico factor secundario, que es el que se conoce propiamente como dise no en bloques

jess montanero fernndez


192 CAP ITULO 6. ANALISIS DE LA VARIANZA

aleatorizados, para estudiar posteriormente el dise no con dos factores secundario, denominado de cuadrados greco-latinos. En el dise no con un u nico factor secundario fB , los b niveles del mismo se denominar an bloques. Para cada combinaci on ij entre los niveles de uno de los a niveles del factor principal y del secundario se tomar a un u nico dato al azar, Yij . Al no contemplar ning un tipo de interacci on entre bloques y tratamientos, el modelo asociado on por celda, corresponde a un dise no bifactorial sin interacci on con m = 1 observaci es decir, Yij = + i + j + ij , ij N (0, 2 ) independientes,
a
i=1

i =

b
j =1

j = 0.

Por lo tanto, podemos considerarlo resuelto desde un punto de vista te orico. Concretamente, el estimador de la varianza es 2,I = 2 1 yij y i y j + y (a 1)(b 1) i=1 j =1
a b

A El test F a nivel para contrastar la hip otesis inicial H0 : 1 = . . . = a = 0 (es decir, que el tratamiento no tiene inuencia, por t ermino medio, en la variable stico respuesta), consiste en comparar con Fa 1,(a1)(b1) el estad

Para contrastar la inuencia del bloque en la media de l variable respuesta, se compara stico con F( b1),(a1)(b1) el estad 2 (b 1)1 a b j =1 (y j y ) FB = 2 b [(a 1)(b 1)]1 a i=1 j =1 yij y i y j + y

2 (a 1)1 b a i=1 (y i y ) FA = 2 b [(a 1)(b 1)]1 a i=1 j =1 yij y i y j + y

192

Manuales Uex

Un resultado signicativo de este test puede conducir a considerar un error la elecci on del factor secundario como fuente de variabilidad. Ello puede suponer que la signicaci on al resultado del test para el tratamiento sea menor que la que se obtendr a mediante un dise no completamente aleatorizado, dado que, al controlar los bloques, la varianza del modelo apenas disminuye, mientras que el grado de libertad por el que se divide s . N otese tambi en que, en un modelo de este tipo, con un u nico dato por celda, no cabe siquiera contemplar la posibilidad de que exista interacci on entre los factores,

MODELOS LINEALES
6.7. BLOQUES ALEATORIZADOS Y CUADRADOS LATINOS 193

pues ello nos conducir a a un modelo donde la dimensi on de V coincidir a con el n umero de datos, con la cual no se podr a siquiera estimar 2 . Por otra parte, las comparaciones entre los niveles del tratamiento mediante los m etodos de Bonferroni, Tuckey y Sche e se realizan, respectivamente, mediante las siguientes familias: /a(a1) 2 Bonferroni: i i y i y i t(a1)(b1) I b
Tuckey: i i y i y i qa I ,(a1)(b1)

A continuaci on estudiaremos el caso en el que se introducen dos factores secundarios. En ese caso, aplicando la l ogica anterior, deber amos considerar los distintos niveles del tratamiento para cada combinaci on entre los niveles de los factores secundarios. No obstante y con el prop osito de ahorrar datos, se considerar a un dise no como el que sigue, denominado dise no de cuadrados latinos. En este caso, alteraremos ligeramente la notaci on, pues A y B denotar an los factores secundarios, mientras que T a con denotar a el factor principal o tratamiento. El n umero de niveles s de T coincidir el n umero de niveles de A y B . Para cada nivel i del primer factor secundario, A, se considerar a una u nica ejecuci on para cada unos de los niveles, t, de el tratamiento. Lo mismo suceder a para cada nivel j de B . De todas entre todas las formas de obtener un modelo as , se escoger a aleatoriamente una de ellas3 . Veamos un ejemplo con s = 4: 4 4 B1 A1 T1 A2 T2 A3 T3 A4 T4 B2 B3 B4 T2 T3 T4 T3 T4 T1 T4 T1 T2 T1 T2 T3

2 Sche e: i i y i y i I b Fa1,(a1)(b1)

En Pe na (1986), pag. 130, se muestran las distintas posibilidades para los valores s de 3 a 8.

193

Manuales Uex

Tanto si se consideran las las como las columnas, se pueden observar distintas permutaciones del conjunto {1, 2, 3, 4}. De esta forma, en vez de considerar 43 datos as, nos aseguramos de que cada nivel de A y debemos recabar u nicamente 42 . Adem cada nivel de B se someta a cada nivel del tratamiento, aunque sea una u nica vez. Veamos c omo se formaliza este dise no. Primeramente, hemos de seleccionar dos subconjuntos, compuesto cada uno de ellos por s permutaciones distintas de los elementos de {1, . . . , s}, que se denotan por {A,1 , . . . , A,s } y {B,1 , . . . , B,s }, y veri1 1 (j ) = B,j (i), para todo par i, j . Precisamente, dicho n umero indica el cando que A,i

jess montanero fernndez


194 CAP ITULO 6. ANALISIS DE LA VARIANZA

nivel del tratamiento que corresponder a a la combinaci on entre los niveles i- esimo y j - esimo de A y B , respectivamente., que se denota por t(ij ). Dicho de otra forma, nico nivel j de dados los nivel i y t de A y T , respectivamente, A,i (t) denota el u nico nivel i tal B tal que t se aplica en la celda ij . Igualmente, B,j (t) denota el u que t se aplica en la celda ij . En ese caso, el modelo correspondiente es, al menos en principio, el siguiente Yij,t(ij ) = ij,t(ij ) + ij,t(ij ) , ij,t(ij ) N (0, 2 ) independientes.
2

(6.44)

Por lo tanto, puede expresarse tambi en mediante Y = + E , E Ns2 (0, 2 Id), Rs , 2 > 0. aloga Consideremos los subespacios de Rs siguientes: V1 y V2 , denidos de forma an al modelo bifactorial con m = 1, y VT , generado por la familia s s vi,A,i (t) : t = 1, . . . , s = vB,j (t),j : t = 1, . . . , s
i=1 j =1

Proposici on 6.4.
La siguiente descomposici on es ortogonal Rs = 1s2 V1 |1s2 V2 |1s2 VT |1s2 (V1 V2 V3 )
2

Demostraci on. Basta demostrar que VT es ortogonal a V1 |1s2 y V2 |1s2 . Efectivamente, conside s de la forma remos un vector de la forma e1 = s i=1 xi vi , con i=1 xi = 0, y otro s un t entre 1 y s. En ese caso, e1 et = s xi vi,A,i (t) . et = i=1 vi,A,i (t) , para alg i =1 2 VT . Para el caso x = 0 . As queda probado que V | 1 Luego, e1 , et = s i 1 s i=1 s z = 0, y otro de V2 , consideramos un vector de la forma e2 = s j =1 zj vj , con s s j =1 j un t. En ese caso, e2 et = j =1 zj vB,j (t),j . Por lo vector et = j =1 vB,j (t),j , para alg tanto, e2 , et = 0. De acuerdo con esta descomposici on ortogonal, el modelo (6.44) puede expresarse como sigue Yt(ij ),ij = + i + j + t + ij + t(ij ),ij , t(ij ),ij N (0, 2 ),

Manuales Uex

con las siguientes restricciones


a
i=1

i =

b
j =1

j =

s
t=1

t = 0,

a
i=1

i,A,i (t) = 0, t = 1, . . . , s.

194

MODELOS LINEALES
6.7. BLOQUES ALEATORIZADOS Y CUADRADOS LATINOS 195

En lo que sigue, supondremos, por hip otesis, que los par ametros ij son todos nulos4 , es decir, que suponemos, al igual que en el dise no por bloques aleatorizados, que se da una aditividad entre los efectos de los tres factores. Estamos pues considerando el modelo Yt(ij ),ij = + i + j + t + t(ij ),ij ,
a
i=1

i =

Necesitamos calcular las proyecciones sobre los distintos subespacios considerados: el a el que toma en la cada posici on ij el valor y i = s1 s vector PV1 Y ser j =1 Yij ; PV2 Y Y ; P toma en la posici o n ij el valor toma en la posici on ij el valor y j = s1 s VT i=1 ij 2 y t = s 1 s Y . En consecuencia, el EIMV de se obtiene mediante i=1 i,A,i (t) 2,I = Adem as, 1 (Yij y i y j y t + 2y )2 . (s 1)(s 2) i=1 j =1 PV1 |1s2 Y 2 = s PV2 |1s2 Y 2 = s PVT |1s2 Y 2 = s
s
i=1

b
j =1

j =

s
t=1

t = 0.

(y i y )2 (y j y )2 (y t y )2

s
j =1

T As , por ejemplo, el test F a nivel para contrastar la hip otesis inicial H0 : 1 = stico . . . = s = 0, consiste en comparar con Fs1,(s1)(s2) el estad 2 (s 1)1 s s t=1 (y t y ) FT = s s 1 2 [(s 1)(s 2)] i=1 j =1 (Yij y i y j y t + 2y )

s
t=1

Si aplicamos ninguna restricci on a la media, esta podr a ser cualquier vector de Rs y el modelo considerado no ser a siquiera lineal.
4
2

195

Manuales Uex

Un resultado signicativo se interpretar a como una inuencia de los distintos tipos de tratamientos en la variable respuesta. La inuencia de los factores secundarios puede ser contrastada de forma an aloga. As mismo, puede construirse comparaciones m ultiples para los tratamientos seg un los m etodos de Bonferroni, Tuckey y Sche e (se deja como ejercicio). La idea del dise no de cuadrados latinos puede extenderse al caso de tres factores secundarios, obteniendo as el denominado dise no de cuadrados greco-latinos. Los detalles de este dise no se pueden consultar, por ejemplo, en Pe na (1986).

jess montanero fernndez


196 CAP ITULO 6. ANALISIS DE LA VARIANZA

6.8.

Dise nos no equilibrados

A continuaci on, vamos a abordar un an alisis cr tico, desde una perspectiva global, de lo que hemos estudiado hasta ahora en el cap tulo. Se trata de analizar la inuencia de uno o varios factores cualitativos en la media de cierta variable respuesta. En el caso de un u nico factor, el estudio resulta trivial a partir de los resultados obtenidos en el cap tulo 2, cosa que no ocurre cuando se consideran varios factores. En tal caso, el primer problema es c omo descomponer la media de cada observaci on, de manera que puedan contrastarse aisladamente la repercusi on de cada factor en la media de la variable o las interacciones entre los distintos factores. Pongamos por ejemplo el dise no bifactorial equilibrado, en el cual la media correspondiente a los nivel i- esimo y j - esimo de los factores A y B , espectivamemte, es on entre los mismos, se ij . Para poder aislar los efectos de los factores y la interacci considera una descomposici on del tipo ij = + i + j + ( )ij . (6.45)

Descomposiciones de esta forma podemos encontrar muchas, puesto que los nuevos par ametros constituyen soluciones particulares a un sistema de ab ecuaciones lineales ognitas5 . Una soluci on particular, la que se adopta en el cap tulo, con (a + 1)(b + 1) inc se obtiene considerando = i = i
b
j =1

j = j
b
j =1

( )ij = ij i j + (6.46)
a
i=1

En ese caso, se verican las siguientes restricciones


a
i=1

i = 0,

j = 0,

( )ij = 0, i = 1, . . . , a,

( )ij = 0, j = 1, . . . , b.

(6.47) Realmente, estas restricciones, consideradas como vectores de R(a+1)(b+1) , no son linealmente independientes, es decir, son redundantes. De hecho, equivalen, por ejemplo, a las siguientes, que s son linealmente independientes:
a
i=1

i = 0,

Manuales Uex

(6.48) nadir a + b + 1 ecuaciones lineales Imponer estas a + b + 1 restricciones equivale a a un sistema de ecuaciones hasta completar un total de (a + 1)(b + 1). Obtenemos as
5

b
j =1

j = 0,

b
j =1

( )ij = 0, i = 1, . . . , a,

a
i=1

( )ij = 0, j = 1, . . . , b1.

En el pr oximo cap tulo se describir a con precisi on el espacio de soluciones

196

MODELOS LINEALES
6.8. DISENOS NO EQUILIBRADOS 197

cuya u nica soluci on es (6.46). As pues, hemos de tener claro que considerar una descomposici on particular del tipo (6.45) equivale a imponer una familia de restricciones, como, por ejemplo, (6.48). Las descomposiciones particulares que hemos obtenido en los distintos dise nos estudiados o, lo que es lo mismo, las restricciones consideradas en los mismos, obedecen, en todo caso, a una descomposici on natural de V como suma directa de subespacios ortogonales y siguiendo un procedimiento inductivo. As , recordamos que, en el dise no unifactorial, se considera la descomposici on V = 1n V |1n . En el bifactorial, tenemos V = 1n V1 |1n V2 |1n V |(V1 V2 ). En el caso trifactorial, la descomposici on es la siguiente V = 1n V1 |1n V2 |1n V3 |1n V |(V12 V13 V23 ).

V12 |(V1 V2 ) V13 |(V1 V3 ) V23 |(V2 V3 )

197

Manuales Uex

En el dise no unifactorial, la perpendicularidad de la descomposici on viene dada por la mima construcci on. Sin embargo, en los dise nos con dos o m as factores, para garantizar la ortogonalidad ha sido preciso imponer la condici on de que el dise no sea equilibrado. De esta forma, para todos los dise nos estudiados en el cap tulo, hemos obtenido una restricci on de los par ametros que puede considerarse natural. Por otra parte, cuando se planica un dise no con el objeto de estudiar la inuencia de uno o varios factores en una variable respuesta, el hecho de considerar un mismo n umero de observaciones por celda no s olo resulta razonable desde un punto de vista est etico, sino que puede favorecer tambi en la robustez del modelo. No obstante, dado que el proceso de recogida de datos no siempre se ajusta a nuestra expectativas, convendr a estudiar el tratamiento adecuado de los datos cuando el dise no (con m as de un factor) no sea equilibrado. En ese caso, a la hora de plantear una descomposici on de la media del tipo (6.45), no contamos, al menos en principio, con ning un argumento para privilegiar una familia de restricciones en detrimento de las dem as. Realmente, nada nos impide optar por las mismas soluciones seleccionadas en el dise no equilibrado pero, en este caso, los par ametros no se traducir an en t erminos de las medias de manera natural, como sucede en (6.46), por lo que la elecci on resultar a completamente arbitraria. Parece claro que un estudio coherente de los dise nos no equilibrados deber a partir de un an alisis de todas las familias de restricciones a considerar o, lo que es lo mismo, de todos las soluciones al sistema de ecuaciones del tipo

jess montanero fernndez


198 CAP ITULO 6. ANALISIS DE LA VARIANZA

(6.45). Para ello, debemos enfocar el problema desde un punto de vista m as general, y eso es, precisamente, lo que nos lleva al estudio del Modelo Lineal de Rango no Completo, que se abordar a en el cap tulo 6.

6.9.

Dise nos con efectos aleatorios

Para acabar este cap tulo abordamos el estudio de dise nos del an alisis de la varianza en los que los niveles o valores de uno o varios de los factores considerados no se restringen a una familia nita determinada de antemano, sino que se escoge un n umero determinado de niveles de manera aleatoria en un amplio espacio. El estudio formal de estos modelos es muy similar al de los modelos con efectos jos, estudiados en el resto del cap tulo. De hecho, podemos encontrar estimadores y tests muy similares a los propuestos en dichos modelos. No obstante, se trata en general de un teor a que no goza de la consistencia de la anterior, de ah que las soluciones propuestas a los principales problemas de Inferencia carezcan en la mayor a de los casos de las s olidas justicaciones te oricas que pose an las soluciones correspondientes a modelos con efectos jos. Adem as, las t ecnicas utilizadas en las demostraciones, aunque similares a las ya estudiadas, presentan diversas variaciones. Hemos optado por obviar dichas demostraciones con el objeto de no extendernos demasiado. Si el tema se expusiera con todo detalle deber a congurar un cap tulo aparte. En la presente secci on nos limitaremos a presentaci on de los principales modelos y a la exposici on de los resultados m as relevantes de los mismos. El lector interesado puede encontrar la mayor parte de las demostraciones en el cap tulo 15 de Arnold (1981). En Carmona (2005) podemos encontrar brevemente descrito algunos modelos m as complejos. En todo caso consideraremos u nicamente dise nos equilibrados.

Un factor aleatorio
Situ emonos en las condiciones de un dise no completamente aleatorizado equilibrado con a niveles o valores para el factor y m observaciones por celda (n = a m datos on (ij )- esima en total). En ese caso, para cada i = 1, . . . , a y j = 1, . . . , m, la observaci se expresa mediante Yij = + i + ij , ij N (0, 2 ) independientes

Manuales Uex 198

con la restricci on a i=1 i = 0. En primer lugar, supongamos que los distintos valores o niveles del factor no est an determinados de antemano a la realizaci on del experimento sino que son a valores independientes de una variable aleatoria sobre

MODELOS LINEALES
6.9. DISENOS CON EFECTOS ALEATORIOS 199

un conjunto A de gran tama no. De esta forma, la inuencia particular del nivel del no completamente factor sobre la media de la observaci on (el t ermino i en el dise aleatorizado) debe considerarse una variable aleatoria real que supondremos en to2 . Supondremos tambi en que los valores de do caso normal de media 0 y varianza a on Yij se la misma son independientes de los errores ij . En denitiva, la observaci expresa mediante Yij = + ai + ij , donde todas las variables ai yij son independientes y tales que
2 ai N (0, a ), 2 ij N (0, e ).

Puede demostrarse que este modelo se deriva de otro, quiz as m as intuitivo, que indicamos brevemente: si el nivel del factor se escoge aleatoriamente, la media de la distribuci on de la variable respuesta para el nivel del factor escogido puede tambi en considerarse una variable aleatoria real. Supongamos por hip otesis que dicha distri2 . En ese caso, las medias de buci on es normal con una cierta media y varianza a los niveles seleccionados, m1 , . . . , ma , constituyen una muestra aleatoria simple de la 2 ). Supongamos tambi en que se da la independencia condicional distribuci on N (, a on condicional de cada Yij entre todos los Yij dados (m1 , . . . , ma ) y que la distribuci 2 dados (m1 , . . . , ma ) sigue un modelo N (0, e ). En tales condiciones se verican los supuestos del modelo expresado anteriormente (cuesti on propuesta). En todo caso, n otese que el factor aleatorio inuye en la media de las variable 2 > 0. El espacio de par ametros del modelo es respuesta si, y s olo si, a R,
2 a 0, 2 e > 0.

Hemos de advertir que, si bien dos observaciones correspondientes a diferentes niveles del factor son incorreladas (y por lo tanto independientes), no lo son dos observaciones Yij e Yij correspondientes al mismo nivel. Concretamente,
2 cov[Yij , Yij ] = a . 2 2 En todo caso, se verica que var[Yij ] = a + e , de ah que el coeciente de correlaci on en coeciente de correlaci on intracl asica, sea lineal entre Yij e Yij , denominado tambi

A la vista de estas expresiones se entiende por qu e el estudio de los dise nos con efectos aleatorios se denomina frecuentemente an alisis de las componentes de la varianza.

199

Manuales Uex

2 a 2 + 2 a e

jess montanero fernndez


200 CAP ITULO 6. ANALISIS DE LA VARIANZA

Si seguimos el gui on desarrollado en el estudio del modelo lineal normal, el primer objetivo es encontrar un estad stico suciente y completo para este modelo. Puede 2 2 , S2 ), donde demostrarse que el estad stico (U, S1 U = y ,
2 S1 =m

2 2 < (m 1)1 S2 constituye una evidencia intuitiva de N otese que el hecho de que S1 2 a = 0, lo cual supone un argumento adicional para decantarnos por el EMV en detrimento de cualquier estimador insesgado. 2 = 0, se verica En lo que respecta al contraste de la hip otesis inicial H0 : a que el test F a nivel para contrastar la hip otesis inicial 1 = . . . = a = 0 en el dise no completamente aleatorizado es tambi en UMP-invariante a nivel para el cotraste de la hip otesis H0 , aunque al hablar de invarianza nos reramos a un grupo de transformaciones diferente al considerado en el dise no con efectos jos. Por u ltimo, en Arnold (1981) podemos encontrar intervalos de conanza para 2 2 2 2 2 , a /e y ma + e . algunos estimandos. Concretamente , e

2 verica dichas condiciones. Como corolario inmediato, tenemos que U y [a(m 1)]1 S2 2 son EIMV de y e , respectivamente. Tambi en puede demostrarse que, por desgracia, 2 . Esto supone un serio inconvenienno existe un estimador insesgado no negativo de a te dado que parece razonable en todo caso exigir a un estimador que tome valores en la imagen del estimando correspondiente. El criterio de m axima verosimilitud ofrece estimadores m as apropiados. Efectivamente, puede demostrarse que los estimadores de m axima verosimilitud 2 2 de , a y e son, respectivamente, 2 2 2 2 S2 S S2 S 2 + S2 . U, m ax 1 , 0 , m n , 1 ma ma(m 1) a(m 1) ma

a
i=1

(y i y )2 ,

2 S2 =

a m
I 1 j =1

(Yij y )2 ,

Dos efectos aleatorios


Siguiendo el mismo esquema del caso anterior, vamos a reformular el dise no equilibrado para dos factores con interacci on suponiendo que los niveles de ambos factores se escojan de manera aleatoria. El modelo que proponemos consiste en expresar cada observaci on Yijk , i = 1, . . . , a, j = 1, . . . , b y k = 1 . . . , m, mediante

Manuales Uex

Yijk = + ai + bj + dij + ijk , donde todas las variables del tipo ai , bj , dij y ijk son independientes y tales que
2 ), ai N (0, a 2 bj N (0, b ), 2 dij N (0, d ), 2 ijk N (0, e )

200

MODELOS LINEALES
6.9. DISENOS CON EFECTOS ALEATORIOS En este caso, el espacio de par ametros es R,
2 0, a 2 b 0, 2 d 0, 2 e >0

201

Al igual que sucede en el caso de un factor aleatorio, estas condiciones pueden deducirse a partir de otras m as intuitivas expresadas en t erminos de distribuciones marginales y condicionales (ver Arnold (1981). Si se denota U = y ,
2 S1 = mb

a
i=1

(y i y )2 ,

2 S2 = mb

a
j =1

(y j y )2 ,

2 =m S3

a b
i=1 j =1

(y ij y i y j + y )2 , (Yijk y ij )2 ,

2 S4 =

2 2 2 2 puede demostrarse que el estad stico (U, S1 , S2 , S3 , S4 ) es suciente y completo para 2 , lo cual el modelo considerado. Como corolario obtenemos los EIMV para y e no es de excesiva utilidad puesto que cualquier estimador insesgado de alguno de 2 2 2 , b o d puede tomar valores negativos. los par ametros realmente interesantes, a Adem as, obtener los EMV para los mismos resulta demasiado complicado, con lo que hemos de conformarnos con proponer los siguientes estimadores sin aportar una clara 2 ): justicaci on te orica para los mismos (salvo en el caso de y e 2 2 S1 S3 2 = y , a = m ax ,0 , mb(a 1) mb(a 1)(b 1) 2 2 S2 S3 2 ax b = m ,0 , ma(b 1) ma(b 1)(a 1) 2 2 2 S4 S3 S4 2 2 d = m ax = ,0 , e m(b 1)(a 1) mb(a 1) ab(m 1)

a b m
i=1 j =1 k=1

201

Manuales Uex

Es f acil construir intervalos de conanza exactos para diversos estimandos, pero no 2 2 2 , b y b . En Arnold (1981) se es posible para los par ametros de mayor inter es: a presentan intervalos aproximados. B 2 A 2 = 0, H0 : b = 0 : a Las principales hip otesis iniciales a contrastar son H0 AB 2 como todas sus posibles intersecciones. El modelo considerado y H0 : d = 0, as y todos estos problemas de contrastes de hip otesis son invariantes ante el grupo uan mediante gu,w (Yijk ) = de transformaciones {gu,w : u R, w > 0} que act

jess montanero fernndez


202 CAP ITULO 6. ANALISIS DE LA VARIANZA

stico UMP-invariante a nivel para ninguno wYijk + u. Aunque no existe un estad de los contrastes considerados, podemos optar por los siguientes tests invariantes a nivel que describimos a continuaci on. Se consideran los siguientes estad sticos, F1 , como las funciones 1 , 2 y 3 sobre el espacio de par ametros con valores F2 , y F3 as en [1, +) siguientes: F1 = 1 =
2 (b 1)S1 , 2 S2

F2 =

2 (a 1)S2 , 2 S3

F3 =

2 (a 1)(b 1)S4

3 ab(m 1)S3

2 2 2 mba + md + e , 2 2 md + e

2 =

2 2 2 mab + md + e , 2 2 md + e

3 =

2 2 md + e 2 e

Puede demostrarse f acilmente que (F1 , F2 , F3 ) y (1 , 2 , 3 ) son sendos invariantes m aximales para el espacio de observaciones y el de par ametros, respectivamente, correspondientes al grupo de trasformaciones anterior. Adem as, las distribuciones marginales de los tres estad sticos son las siguientes:
1 F1 Fa1,(a1)(b1) , 1 1 2 F2 Fb1,(a1)(b1) , 1 3 F3 F(a1)(b1),ab(m1)

2 2 Dado que los par ametros 2 y 3 no dependen de a y que 1 = 1 si, y s olo si, a = 0, el siguiente test de hip otesis invariante a nivel para contrastar la hip otesis inicial A puede resultar razonable: H0 1 si F1 (Y ) > Fa 1,(a1)(b1) 1 (Y ) = 0 si F1 (Y ) Fa 1,(a1)(b1)

Razonando de manera completamente an aloga, obtenemos los siguientes tests a nivel B AB y H0 , respectivamente: para constrastar las hip otesis iniciales H0 1 si F2 (Y ) > Fb 1,(a1)(b1) 2 (Y ) = 0 si F2 (Y ) Fb 1,(a1)(b1) 3 (Y ) = 1 si F3 (Y ) > F( a1)(b1),ab(m1) 0 si F3 (Y ) F( a1)(b1),ab(m1)

202

Manuales Uex

AB La veracidad de la hip otesis inicial H0 equivaldr a a la nulidad de las variables amos hablando de un modelo sin interacciones entre los factores dij , con lo que estar A y B . Este dise no, m as sencillo, se desarrolla brevemente en en Carmona (2005). Para determinar si el factor aleatorio A inuye en la media de la variable respuesta A en el modelo sin interacci on, siempre y podemos contrastar la hip otesis inicial H0 cuando se haya determinado previamente que no existe interacci on entre los factores.

MODELOS LINEALES
6.9. DISENOS CON EFECTOS ALEATORIOS 203

En todo caso podemos optar por contrastar en el modelo completo la hip otesis inicial A,AB 2 2 : a = d = 0. N otese que dicha hip otesis se verica si, y s olo si, 1 3 = 1, y H0 que (1 3 )1 F1 F3 Fa1,ab(m1) . Por lo tanto, el siguiente test es invariante a nivel A,AB para contrastar la hip otesis inicial H0 1 si F1 F3 (Y ) > Fa 1,ab(m1) 4 (Y ) = 0 si F1 F3 (Y ) Fa 1,ab(m1) Respecto al factor B proceder amos de manera completamente an aloga. N otese que A,AB B,AB AB , H0 y H0 en el modelo los tests para contrastar las hip otesis iniciales H0 con efectos aleatorios coinciden con los que se propuestos para las hip otesis an alogas A y en el modelo con efectos jos. No ocurre lo mismo con las hip otesis iniciales H0 B . Otra diferencia notable respecto a al modelo con efectos jos es el hecho de que H0 el modelo con interacci on para efectos aleatorios sigue siendo viable con m = 1 (una 2 otesis inicial d =0 observaci on con celda), aunque el test 3 para contrastar la hip 2 a nulo. no tendr a sentido pues S4 ser

Dos efectos mixtos


Para terminar esta secci on, consideraremos el estudio de dos factores con interacci on siendo uno de ellos aleatorio y el otro jo. En la literatura se recogen dos versiones de este dise no, aunque veremos que son muy similares. El primer modelo consiste en expresar cada observaci on Yijk , i = 1, . . . , a, j = 1, . . . , b y k = 1 . . . , m, mediante Yijk = + i + bj + dij + ijk , a donde i=1 i = 0 y todas las variables del tipo bj , dij y ijk son independientes y tales que 2 2 2 ), dij N (0, d ), ijk N (0, e ) bj N (0, b En este caso, el espacio de par ametros es R, (1 , . . . , a ) 1a ,
2 b 0, 2 d 0, 2 e >0

203

Manuales Uex

2 2 2 2 Se demuestra en Arnold (1981), que el estad stico (y 1, , . . . , y a, , S2 , , S4 ), con S2 , S3 2 2 S3 y S4 denidos como en el modelo anterior, es suciente y completo. Por lo tanto, 2 2 son, respectivamente, y , y i y [ab(m 1)]1 S4 . Nuevamente, no los EIMV de , i y e 2 2 . No obstante, existen estimadores insesgados no negativos de los par ametros b y d en la literatura se recogen los siguientes estimadores: 2 2 S2 1 S3 2 = m ax ,0 , b ma b 1 (a 1)(b 1)

jess montanero fernndez


204
2 = m ax d

CAP ITULO 6. ANALISIS DE LA VARIANZA


2 2 S3 S4 ,0 (a 1)(b 1) ab(m 1)

Podemos construir f acilmente intervalos de conanza exactos para distintos estiman2 2 y d , los m as interesantes. En dos (ver Arnold (1981)), no as para los par ametros b Arnold (1981) se construye a su vez una familia de intervalos de conanza simult aneos a w , donde w = 0 . para los estimandos de la forma a i=1 i i i=1 i En cuanto al problema de contraste de hip otesis, hemos de distinguir los contras2 2 y d de los relativos a 1 , . . . , a . En ambos casos tes relativos a los par ametros b proponemos tests invariantes a nivel pero respecto a distintos grupos de transformaciones (ver detalles en Arnold (1981)). En el primer caso, se proponen los test otesis iniciales 2 , 3 y 4 denidos en el modelo anterior para contrastar las hip 2 2 2 2 = 0, d = 0 y b = d = 0, respectivamente. Para contrastar la hip otesis inicial b 1 = . . . = a = 0 se propone asimismo el test 1 del modelo anterior. En denitiva, se utilizan los mismos tests y se justican tambi en por invarianza, pero ante grupos de transformaciones distintas. El segundo modelo consiste en expresar las observaciones Yijk de la forma
Yijk = + i + b j + dij + ijk

donde a y b , d y ijk son variables aleatorias. Supondremos que, para i=1 i = 0 a j ij 2 ) para todo i y j ; adem as, si de todo i = 1, . . . , a, i=1 dij = 0; que dij N (0, d a que todos la bj , ijk y dj son independientes; denota dj = (d1j , . . . , daj ) , se supondr por u ltimo, se supone que bj N (0, b2 ), Los par ametros del modelo son pues R,
(1 , . . . , a ) 1a , 2 ijk N (0, e ).

b2 0,

2 d 0,

2 e >0

Es f acil probar que, en estas condiciones, la distribuci on de d j es la siguiente: 1 1 . . . a 1 a 1 1 1 1 d 1 a j Na 0a , a1 1 1 1 a1 a1 . . . 1

204

Manuales Uex

En Arnold (1981) se deducen los supuestos de este modelo a partir de una serie de hip otesis expresadas en t erminos m as intuitivos, de manera an aloga a los dise nos con uno y dos factores aleatorios. Tambi en se prueba que el primer modelo mixto puede considerarse un caso particular del segundo salvo en el detalle de que debe imponerse

MODELOS LINEALES
6.9. DISENOS CON EFECTOS ALEATORIOS 205

una restricci on adicional en el espacio de par ametros. Concretamente, un modelo 2 2 2 , d y e equivale a un modelo mixto mixto tipo 1 con par ametros , 1 , . . . , a , b tipo 2 con par ametros = ,
i = i ,

1 2 2 b2 = b + d ,
a

2 d =

a1 2 d , a

2 2 e = e .

Por lo tanto, debe vericarse en todo caso que


2 (a 1)b2 d .

De no ser por esta excepci on podr amos armar que el modelo 2 es pues m as general que el 1. Dada esta gran similitud, los resultados obtenidos para ambos modelos as como la propia forma de demostrarlos son muy similares. Los EIMV para , i 2 2 y e son los mismos que para , i y e en el modelo 1. Para b y d proponemos los siguientes estimadores: 2 2 1 S2 S4 2 ax ,0 , b = m ma a 1 ab(m 1) 2 2 a S3 S4 2 d = m ax ,0 m(a 1) (a 1)(b 1) ab(m 1) Respecto a la b usqueda de intervalos de conanza, estamos en la misma situaci on del modelo anterior: podemos construir una familia de intervalos de conanza simult aneos a para los estimandos de la forma a i=1 wi i , con i=1 wi = 0, pero no intervalos de 2 . Por otra parte, todos los contrastes considerados en el conanza exactos para b2 y d modelo anterior se resuelven en este mediante los mismos tests salvo el contraste de B : b2 = 0. El en este caso se rechazar a dicha hip otesis cuando la hip otesis inicial H0 . F1 > Fb 1,ab(m1) Recapitulando, hemos vistos en esta secci on que el hecho de considerar efectos de tipo aleatorio supone, si acaso, sutiles modicaciones en lo que respecta al contrastes de las hip otesis iniciales m as interesantes desde el punto de vista pr actico. No obstante, se abre la puerta a la estimaci on de nuevos par ametros, que podemos denominar componentes de la varianza, que no tienen sentido en un modelo con efectos jos. Tambi en hemos de recalcar que la estimaci on de los mismos presenta serias dicultades desde el punto de vista te orico.

1. Probar que, en el dise no completamente aleatorizado, la condici on de Huber equivale a que ni , para todo i = 1, . . . , a.

205

Manuales Uex

Cuestiones propuestas

jess montanero fernndez


206 CAP ITULO 6. ANALISIS DE LA VARIANZA

2. Explicitar el algoritmo de Box-Cox para conseguir normalidad e igualdad de varianzas en un dise no completamente aleatorizado. 3. Obtener el estad stico de contraste (6.9). 4. Obtener (6.10) en el dise no completamente aleatorizado y equilibrado. 5. Expresar el EIMV de 2 para el modelo (6.14) a partir de los EIMV de las on considerados (uno para cada nivel del varianzas para los a modelos de regresi factor). 6. Obtener, a partir de (3.12), un intervalo de conanza a nivel 1 para la media de una distribuci on normal, conocida una muestra aleatoria simple de tama no n de la misma. 7. En qu e se traduce la condici on de Huber en el modelo bifactorial equilibrado? 8. Considerar un modelo bifactorial equilibrado con m datos por celda, tres niveles para el primer factor y cuatro para el segundo. Probar que los par ametros , 1 , 2 , 1 , 2 , 3 , ( )11 , ( )12 , ( )13 , ( )21 , ( )22 y ( )23 constituyen, por ese orden, los coecientes de regresi on respecto a la matriz de dise no X 6 siguiente X= 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m 0m 0m 0m 0m 1m 1m 1m 1m 0m 1m 0m 0m 1m 0m 0m 0m 0m 0m 0m 0m 1m 0m 0m 1m 0m 0m 0m 0m 0m 0m 0m 1m 0m 0m 1m 0m 0m 0m 0m 1m 1m 1m 1m 1m 1m 0m 0m 0m 1m 1m 0m 0m 0m 0m 0m 1m 0m 0m 1m 0m 1m 0m 0m 0m 0m 0m 1m 0m 1m 0m 0m 1m 0m 0m 0m 0m 0m 1m 1m 1m 1m 1m 0m 0m 0m 1m 1m 1m 1m 1m 0m 0m 1m 0m 0m 1m 0m 0m 1m 0m 1m 0m 0m 1m 0m 0m 1m 0m 1m 0m 0m 1m 0m 0m 1m 0m 0m 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m 1m

Manuales Uex

6 Los t erminos 1m y 0m denotan los vectores de Rm cuyas componentes son todas iguales a 1 y 0, respectivamente.

Es decir, que el dise no anterior puede formalizarse mediante un modelo de regresi on lineal, Y = X + E , respecto a unas variables cticias que indican los

206

MODELOS LINEALES
6.9. DISENOS CON EFECTOS ALEATORIOS 207

9. Probar (6.30) y (6.31), (6.32) y (6.33).

niveles de los factores a los que corresponde cada unidad experimental, junto con otras variables, construidas como producto de variables cticias. Como indi caci on tener en cuenta que un vector de V1 |1n se expresa mediante 3 i=1 xi vi 3 2 con i=1 xi = 0, lo cual equivale a i=1 xi (vi v3 ).

10. Construir las familias de intervalos de conanza de Bonferroni, Tuckey y Sche e para el conjunto de {j j : j = j }. 11. Obtener (6.35) y las familias de intervalos de conanza de Bonferroni, Tuckey y Sche e parael modelo bifactorial sin interacci on y, en particular, para el dise no en bloques aleatorizados. 12. Obtener las comparaciones m ultiples para el modelo trifactorial seg un los m etodos de Bonferroni, Tuckey y Sche e. 13. Proponer un algoritmo para contrastar en el dise no trifactorial equilibrado si ermino medio, en la media de la variable resfactor fA tiene inuencia, por t puesta. 14. Obtener las sumas cuadr aticas que corresponden a un modelo con cuatro factores equilibrados. 15. Obtener las comparaciones m ultiples para los efectos del factor principal en el dise no jer arquico. 16. Dise nar de forma clara un algoritmo para contrastar la inuencia del factor principal en un dise no anidado equilibrado. 17. Obtener las comparaciones m ultiples para los tratamientos en el dise no de cuadrados latinos. 18. Realizar una descomposici on ortogonal de V para un dise no con cuatro factores equilibrado. 19. Probar que las condiciones del modelo de an alisis de la varianza con un factor aleatoria se deriva de los supuestos intuitivos expuestos en la secci on 9.

207

Manuales Uex

MODELOS LINEALES

Cap tulo 7 Modelo lineal de rango no completo


Hemos de advertir que el objeto de este cap tulo no es un nuevo modelo si nos ce nimos a la denici on de tal recogida en (9.31), sino una particular parametrizaci on del modelo lineal estudiado en el cap tulo 1. Este nuevo planteamiento se traducir a en la pr actica en un m etodo alternativo aunque equivalente para resolver los problemas ya estudiados, si bien puede resultar especialmente adecuado a la hora de afrontar an alisis de la varianza complejos y no equilibrados o con vistas a su implementaci on en un programa inform atico.

7.1.

El modelo

209

209

Manuales Uex

Efectivamente, seg un la denici on de modelo estad stico dada en (9.31), el modelo lineal de rango no completo que estudiaremos a continuaci on no se distingue formalmente del modelo lineal denido en (3.1) y estudiado en el cap tulo 3. En este cap tulo estamos asumiendo pues una acepci on diferente del t ermino. Concretamente, estamos considerando como modelo estad stico un par compuesto por un espacio medible (, A) y una aplicaci on sobreyectiva P : P , siendo un conjunto no vac o y P una familia de probabilidades sobre (, A), que se denotar a, en consecuencia, ametro deja de por {P : }. Por lo tanto, desde esta nueva perspectiva, el par ser contingente para convertirse en una componente esencial del modelo. Concretamente, sabemos que el modelo lineal puede parametrizarse por V y ametros 2 > 0. No obstante, podemos considerar una base X de V y reemplazar el par por sus coordenadas respecto a dicha base, lo cual no supondr a ninguna alteraci on del modelo seg un la primera acepci on. El par ametro se expresa a partir de

jess montanero fernndez


210 mediante = (X X)1 X . (7.1) CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

T engase en cuenta que lo que es invertible.

X X es una matriz cuadrada de orden dimV y rango dimV , por

Sin embargo, seg un la segunda acepci on del t ermino, el cambio de par ametro implica un cambio en el modelo estad stico. En este nuevo marco tiene sentido hablar de la siguiente generalizaci on: consideraremos que la matriz X no es una base del subespacio que generan sus columnas, es decir, que sus columnas no tienen por qu e ser linealmente independientes. En denitiva, estaremos hablando de una matriz X on conlleva una clara Mns cuyo rango puede no ser completo. Esta generalizaci complicaci on: no existe una identicaci on entre los par ametros y , pues pueden otese que la expresi on existir, en principio, distintas soluciones al sistema = X. N (7.1) no es v alida en general, pues, si el rango de X no es completo, la matiz X X no es invertible. Este planteamiento puede resultar adecuado para abordar la resoluci on de cualquier sistema de ecuaciones lineales desde un punto de vista estad stico. Sin embargo, debemos preguntarnos en qu e situaciones de inter es real puede considerarse un modelo parametrizado por una matriz de rango no completo. Podemos citar tres ejemplos. En primer lugar, un problema de regresi on lineal cuyos vectores explicativos sean linealmente dependientes, o bien cuando el n umero de estos sea mayor o igual que el de unidades experimentales. En ambas situaciones patol ogicas, el rango de la matriz X no puede ser completo. Tambi en puede aparecer una matriz X de rango no completo en cualquier dise no de experimentos, como ya dijimos en el cap tulo anterior, aunque profundizaremos en este tema en la tercera parte del cap tulo. En el cap tulo 1 en la parte nal de este podemos encontrar una discusi on m as detallada sobre la conveniencia de utilizar este tipo de modelo. Dado que la matriz X X no es necesariamente invertible, haremos uso de una generalizaci on del concepto de inversa de ua matriz que abordaremos en profundidad en la primera parte de la secci on. Este estudio, de car acter matricial, podr a haberse abordado en la primera secci on del segundo ap endice, pero lo hemos incluido aqu el por no alargar en exceso el Ap endice. La segunda parte est a dedicada al planteamiento y resoluci on de los problemas de Estimaci on Puntual y Contraste de Hip otesis cuando el rango de X no es completo.

210

Manuales Uex

7.2. INVERSA GENERALIZADA DE UNA MATRIZ

211

7.2.

Inversa Generalizada de una Matriz

Se desarrolla aqu un concepto que, como su propio nombre indica, viene a generalizar el de inversa de una matriz cuadrada no singular, aunque es aplicable a cualquier matriz. Ser a de inter es a la hora de determinar el conjunto de soluciones de cualquier sistema de ecuaciones lineales compatible, sea o no determinado, lo cual le conere gran trascendencia en el estudio que llevamos a cabo en este cap tulo. En lo que sigue, A denotar a una matriz de Mmp de rango r. Se dice que una matriz G Mpm es una inversa generalizada de A cuando verica AGA = A. (7.2)

El subconjunto de Mpm constituido por todas las inversas generalizadas de A se denota por A . Desde luego, es inmediato comprobar que, si p = m y A es no a constituido u nicamente por la matriz inversa de A, en singular, el conjunto A est cuyo caso nos permitiremos el abuso de denotar A = A1 . En general, el conjunto o. Para probarlo, basta considerar una descomposici on de A seg un (9.5). A no es vac En ese caso, la matriz G denida mediante D1 0 N G=M 0 0 verica trivialmente la condici on (7.2). Podemos ser a un m as precisos y explicitar un algoritmo para la obtenci on de una inversa generalizada. Supondremos, en una primera instancia, que la matriz A puede expresarse mediante A11 A12 , A= A21 A22 donde A11 es una matriz cuadrada de orden r e invertible. En ese caso, la matriz G Mpm denida mediante 1 0 A 11 G= 0 0 es una inversa generalizada. Para probarlo basta tener en cuenta que A11 A12 . AGA = 1 A21 A12 A 11 A12 Tener en cuenta que existe una matriz K M(mr)r tal que A21 = KA11 y A12 = 1 KA22 , de lo cual se sigue que A22 = A21 A 11 A12 . En el caso general, existe una

211

Manuales Uex

jess montanero fernndez


212 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

permutaci on 1 de las las y otra 2 de las columnas, tal que la matriz B = 1 A2 denida mediante puede expresarse de la forma anterior. En ese caso, la matriz G 1 = B11 0 G 0 0 es una inversa generalizada de B . Dado que tanto 1 como 2 son matrices orto 1 A . El algoritmo consiste pues en gonales, puede probarse f acilmente que 2 G reordenar la matriz A para obtener un menor invertible de orden r en la primera posici on, invertirlo, trasponerlo, rellenar con 0 el resto hasta completar una matriz m p, realizar las permutaciones de las y columnas inversas y volver a trasponer. De la denici on de inversa generalizada se siguen una serie de propiedades inmediatas. Por ejemplo, es obvio que, si G es una inversa generalizada de A, G lo etrica y G es una inversa ser a de A . En particular, si A es una matriz cuadrada y sim generalizada, entonces tambi en lo es G . A continuaci on aprovecharemos este concepto para caracterizar el conjunto de soluciones de un sistema de ecuaciones lineales Ax = y, donde y Rm y x Rp , siempre y cueando sea compatible, es decir, que exista alguna soluci on.

Lema 7.1.
Dada G Mpm , las dos proposiciones siguientes son equivalentes: (i) Ax = y es compatible Gy es una soluci on particular (ii) G A . Demostraci on. Supongamos que (i) es cierto y den otense por aj , j = 1, . . . , p, las columnas de A. on se En ese caso, la ecuaci on Ax = aj es compatible. Por lo tanto, alguna soluci expresar a mediante x = Gaj . En consecuencia, AGaj = aj , para todo j = 1, . . . , p y (7.2) se verica. Rec procamente, si se verica (7.2) y Ax = y, entonces AGAx = AGy. Luego, A(Gy) = y. Por lo tanto, el vector x = Gy es soluci on a la ecuaci on Ax = y. Dadas A Mmp , y Rm tal que la ecuaci on Ax = y es compatible y G A , p se dene el siguiente subconjunto de R

Manuales Uex

Teorema 7.2.

SA,y = {Gy + (GA Idpp )z : z Rp }.

En esas condiciones, SA,y es el conjunto de las soluciones a la ecuaci on Ax = y. En particular, SA,y no depende de la matriz G A escogida.

212

MODELOS LINEALES
7.2. INVERSA GENERALIZADA DE UNA MATRIZ 213

Demostraci on. on de la ecuaci on Ax = y es trivial. Probar que cualquier elemento de SA,y es soluci Rec procamente, Ax = y implica que x = Gy + (GA Id)(GA Id)x. Describiremos a continuaci on el espacio SA,y de soluciones. Sea H = GA Mpp . En ese caso, se verica que SA,y = Gy + SA,0 = Gy + H Id, (7.3)

on de la misma, se que se trata de una subvariedad af n de Rp . Respecto a la dimensi tiene lo siguiente:

Lema 7.3.
H verica que H 2 = H y rg(H ) = r, que los subespacios lineales H y Id H son perpendiculares y que rg(Id H ) = p r. Demostraci on. as, dado que rg(GA) m n{rg(G), rg(A)}, se Que H 2 = H se sigue de (7.2). Adem tiene que rg(H ) rg(A). Aplicando el mismo razonamiento a AH = AGA = A, se deduce que rg(H ) rg(A). Por otra parte, dado z Rp , se deduce de lo anterior que (Id H )z, Hz = 0, luego, H Id H . Dado que Id H H = Rp , se concluye.

Teorema 7.4.
Dada A Mmp de rango r, se verica (i) El espacio de soluciones SA,0 es un subespacio (p r)-dimensional de Rp . Por lo tanto, existen p r soluciones linealmente independientes para la ecuaci on Ax = 0. on Ax = y es compatible, el espacio de (ii) Dado y Rm \{0} tal que la ecuaci n (p r)-dimensional de Rp . Adem as, soluciones SA,y constituye una subvariedad af existen p r + 1 soluciones linealmente independientes para la ecuaci on Ax = y. Demostraci on. El apartado (i) y la primera parte de (ii) se siguen directamente del lema anterior. Falta por demostrar que existen p r + 1 soluciones lineales independientes para Ax = y. Primeramente, Gy es linealmente independiente de cualquier vector de a que AGy = 0 y, dado que y = Ax SA,0 = H Id pues, de lo contrario, se vericar para alg un x, ello implicar a, por (7.2), que y = 0, en contra de la hip otesis. Por

213

Manuales Uex

jess montanero fernndez


214 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

lo tanto, si {x0,1 , . . . , x0,pr } denota una base de SA,0 , se trata de comprobar que {Gy, Gy + x0,1 , . . . , Gy + x0,pr } es un conjunto de soluciones linealmente independientes. Efectivamente, dada una familia de n umeros reales {0 , 1 , . . . , pr } tal que pr r pr 0 Gy + p i=1 i (Gy + x0,i ) = 0, se tiene que i=0 i Gy + i=1 i x0,i = 0, lo cual implica i = 0, para todo i = 0, 1, . . . , p r. Este resultado podr a considerarse, desde cierto punto de vista, como una versi on m as expl cita del conocido Teorema de Rouche-Frobenius. Como caso particular, si las columnas de A son linealmente independientes y la ecuaci on Ax = y posee alguna soluci on, esta es u nica y puede expresarse mediante x = Gy, para cualquier G A . En particular, si A es una matriz cuadrada de orden m no singular e y Rm , la ecuaci on Ax = y tiene como u nica soluci on x = A1 y. El siguiente resultado ser a de utilizad a la hora de caracterizar funciones lineales estimables.

Corolario 7.5.
Un vector k Rp verica que k x es invariante para cualquier soluci on x de Ax = y si, y s olo si, k H , siendo H = GA para cualquier G A . Demostraci on. Basta tener en cuenta (7.3) junto co el hecho de que, por el lema 7.3, Id H = H . Ya sabemos que pueden existen varias matrices G vericando la propiedad (7.2). No obstante, si a nadimos algunas hip otesis m as, podemos garantizar la unicidad.

Teorema 7.6.
Dada A Mmp , existe una u nica matriz G Mpm vericando (i) AGA = A (ii) GAG = G (iii) (GA) = GA (iv) (AG) = AG

214

Manuales Uex

Demostraci on. Del teorema 9.5 se sigue que existen B Mmr y C Mrp , ambas de rango r, tales que A = BC . En tal caso, tanto B B como CC son invertibles y la matriz G = C (CC )1 (B B )1 B satisface trivialmente las condiciones requeridas. Veamos

MODELOS LINEALES
7.2. INVERSA GENERALIZADA DE UNA MATRIZ que es la u nica. De (i) y (iii) se sigue que AA G = A. Por un razonamiento completamente an alogo se deduce que (ii)+(iv) implica GG A = G . (7.5) (7.4) 215

Puede probarse tambi en, f acilmente, que (i)+(iv) y (ii)+(iii) implican, respectivamente A AG = A , A G G = G. (7.6) (7.7)

Por lo tanto, si G1 , G2 verican las condiciones (i)-(iv), se sigue de (7.5) aplicado a G1 y (7.6) aplicado a G2 que G1 = G1 G1 A = G1 G1 A AG2 . Aplicando nuevamente (7.5) a G1 , se deduce que G1 = G1 AG2 . Luego, por (7.7) aplicado a G2 , G1 = G1 AA G2 G2 , que es igual, por (7.4) aplicado a G1 , a A G2 G2 . Aplicando nuevamente (7.7) a G2 , se deduce la unicidad. La matriz G vericando las condiciones del teorema se denomina inversa generalizada de Penrose, denot andose con frecuencia por A(p) . Si verica las condiciones (i) y (ii), se dice que es una inversa reexiva generalizada. El conjunto formado por estas u ltimas se denota por A(r) . Conocemos, por (9.8), c omo se expresa la matriz de la proyecci on ortogonal sobre omo expresarla un subespacio a partir de una base de vectores X del mismo. Veamos c en el caso de que X sea un sistema generador de vectores, admitiendo la posibilidad de que sean linealmente dependientes.

Teorema 7.7.
Dada una matriz

X Mmp , se verica que Px = XGX , para cualquier G (X X) .

215

Manuales Uex

Demostraci on. Primeramente, probaremos que X XD = 0 implica XD = 0. Efectivamente, basta considerar dos matrices B C como en el teorema anterior tales que X = BC . Entonces, X XD = 0 implica 0 = C X XD = (CC )(B B )CD. Al ser CC y B B invertibles, se sigue que CD = 0 y, en particular, XD = BCD = 0. Por otra parte, teniendo en cuenta que G (X X) , se sigue de (7.2) que X X(G X X Id) = 0. Luego, aplicando la primera parte, se deduce que G X X = X y , en particular, que X XGX = X . Por lo tanto, dados y Rm y b Rp , se verica que Xb, y XGX y = 0, lo cual concluye la prueba.

jess montanero fernndez


216 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

De este resultado, se sigue directamente que, para todo G (X X) , la matriz XGX es sim etrica y su valor no depende del valor de G. Veamos m as resultados relacionados con la inversa generaliza de X X.

Lema 7.8. X XB1 = X XB2 si, y s olo si, XB1 = XB2 .


Demostraci on. Den otese Z = XB1 XB2 . Si X XB1 = X XB2 , se tiene, en particular, que es nula la B2 )(X XB1 X XB2 ) = Z Z, en cuyo caso lo es tambi en Z . matriz (B1 Dada una matriz X Mmp y un vector y Rm , la ecuaci on Xb = y es compatible, es decir, tiene soluci on exacta, si, y s olo si, y X. En general, diremos que b Rp es una soluci on m nimo-cuadr atica 1 a la ecuaci on Xb = y cuando se verica Xb y Xb y, b Rp . (7.8)

olo si, las soluciones m nimo-cuadr aticas coinciden con las Obviamente, y X si, y s exactas. El siguiente resultado es, posiblemente, el m as importante de esta secci on.

Teorema 7.9. Dados X Mmp , y Rm , las soluciones m nimo-cuadr aticas a la ecuaci on Xb = y coinciden con las soluciones exactas a la ecuaci on Xb = Px y, que coinciden a su vez
con la soluciones exactas a la ecuaci on

X Xb = X y

(7.9)

nimo-cuadr aticas es la Adem as, dada cualquier G (X X) , el espacio de soluciones m subvariead af n [p rg(X)]-dimensional GX y + GX X Idpp . Demostraci on. la primera parte de la tesis se sigue directamente del hecho de que n{y Xb : b Rp }. y Px y = m (7.10)

Manuales Uex 216

En denitiva, se sigue del teorema 7.7 que las soluciones m nimo-cuadr aticas a Xb = y coinciden con las soluciones exactas a la ecuaci on Xb = XGX y, para cualquier G
1 El t ermino cuadr atica hace referencia a hecho de que la norma eucl dea de un vector se dene como la ra z cuadrada de la suma de los cuadrados de sus componentes.

MODELOS LINEALES
7.2. INVERSA GENERALIZADA DE UNA MATRIZ 217

(X X) . En virtud del lema anterior, dichas soluciones coinciden con las soluciones a ermino es igual a X Px y que, teniendo en la ecuaci on X Xb = X XGX y. El segundo t cuenta las propiedades fundamentales de la proyecci on ortogonal, coincide con X y. El espacio de soluciones exactas a esta ecuaci on se obtiene haciendo uso del teorema 7.4. La dimensi on de la subvariedad af n es p rg(X X) = p rg(X). Como consecuencia inmediata tenemos el siguiente resultado.

Corolario 7.10. Si X es de rango completo, la u nica soluci on m nimo-cuadr atica a la ecuaci on Xb = y es el vector b = (X X)1 X y.
En denitiva, hemos probado que la b usqueda de soluciones m nimo cuadr aticas on del sistema de ecuaal sistema de ecuaciones lineales Xb = y pasa por la resoluci ciones (7.9), denominadas normales y, en consecuencia, seg un (7.10), por el c alculo a pues disponer de una algode una inversa generalizada de la matriz X X. Convendr el ritmo para su obtenci on cuando el rango de X no sea completo. Proponemos aqu siguiente. Consideremos una matriz R M(prg(x))p cuyas las sean linealmente independientes entre s y linealmente independientes de las las de X X. Lo mismo puede y en relaci on co las de X X. Es imdecirse entonces de las columnas de R entre s portante tener en cuenta que si R M(prg(x))p es una matriz cuyas las sean linealmente independientes entre s y linealmente independientes de las las de X, tambi en son linealmente independientes de las de X X. En ese caso, Rb = 0 puede on X Xb = X y. entenderse como un conjunto de p rg(X) restricciones a la ecuaci En esas condiciones, la matriz X X R S= R 0 otese es cuadrada de orden 2p rg(X) e invertible. Den B11 B12 S 1 = . B21 B22 Debe vericarse entonces las siguientes ecuaciones

X XB12 + R B22 = 0,
RB11 = 0.

(7.12) (7.13)

217

Manuales Uex

X XB11 + R B21 = Id,

(7.11)

jess montanero fernndez


218 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

Al ser las columnas de R linealmente independientes de las de X X, se verica, por (7.12), que B22 = 0, luego, B21 X X = 0. Si en (7.11) multiplicamos a la derecha por X X y aplicamos lo anterior, se tiene que X XB11 X X = X X. Por lo tanto, B11 (X X) . en la condici on Podemos probar tambi en (cuesti on propuesta), que B11 verica tambi (ii) del teorema 7.6, por lo que se trata realmente de una inversa generalizada reexiva. En denitiva, la b usqueda de una soluci on particular pasa por encontrar una matriz de restricciones lineales R en las condiciones anteriores.

7.3.

Estimaci on y Contraste de Hip otesis.

Consideremos el modelo Y X + E , donde X Mns , E es un n-vector aleatorio umero positivo y de media 0 y matriz de varianzas-covarianzas 2 Id, siendo 2 un n s on los problemas de Estimaci on cualquier vector de R . Afrontaremos en esta secci Puntual y Contraste de Hip otesis desde un punto de vista general. En la secci on siguiente estudiaremos un caso particular. Tambi en se consideraran otros ejemplos en las cuestiones propuestas. Dado que el modelo considerado el el Modelo Lineal estudiado en el cap tulo 3 nadir respecto la estimaci on de 2 . Por lo tanto, se con V = X, nada podemos a sigue de la proposici on 3.2 junto con el teorema 7.7 que el siguiente estad stico es un 2 estimador insesgado de 2,I = [n rg(X)]1 Y XGX Y 2 , as, si E sigue una distribuci on siendo G cualquier inversa generalizada de X X. Es m normal, se sigue de los teoremas 3.6 y 3.7 que el estimador anterior es insesgado de m nima varianza y m axima verosilimitud. Adem as, 2,I 2 2 [n rg(X)] nrg(x) . Por u ltimo, todo lo expuesto en las secciones 3.3 y 3.4 en referencia al contraste de alido. hip otesis y comportamiento asint otico para 2 sigue siendo v Los problemas de Estimaci on y Contraste de Hip otesis para plantean, sin embargo, una nueva dicultad: el hecho de que, en general, no est a perfectamente determinado sino que es cualquier soluci on a la ecuaci on X = E[Y ]. Consideraremos pues la estimaci on de funciones param etricas de estimables2 y el contraste de 3 as, restringiremos el estudio de estimaci on a hip otesis de beta contrastables . Adem
2 3

Manuales Uex

Ver (9.39). Ver (9.44).

218

MODELOS LINEALES
Y CONTRASTE DE HIPOTESIS. 7.3. ESTIMACION 219

en se confunciones reales lineales, es decir, de la forma a , donde a Rs . Tambi siderar au nicamente el contraste de hip otesis del tipo A = 0 4 , donde A Mms . Podemos asumir, sin p erdida de generalidad, que rg(A) = m. A continuaci on, procederemos a caracterizar con precisi on las funciones lineales estimables y las hip otesis lineales contrastables.

Lema 7.11.
Una funci on lineal C , donde C Mcs , es estimable si, y s olo si, existe B Mcn tal que C = B X. Demostraci on. Una implicaci on es trivial, pues si C = B X, entonces C = B X = B E[Y ], en cuyo caso se verica (9.39). Para probar el rec proco, consideremos G (X X) y supongamos que X1 = X2 , lo cual equivale, teniendo en cuenta (7.3), a que 1 2 pertenezca a C X X Id. Por lo tanto, si A1 = A2 , las las de A perteneceran al subespacio ortogonal al anterior, que, en virtud del lema 7.3, es GX X. Por lo tanto, existir a D Mcs tal que A = DGX X, y la tesis se verica tomando B = DGX .

Teorema 7.12.
Dados a Rs y A Mms , se verica lo siguiente: olo si, existe b M1n tal que a = bX. (i) La funci on param etrica a es estimable si, y s olo si, existe B Mmn (ii) La hip otesis param etrica H0 : A = 0 es contrastable si, y s tal que A = B X. Demostraci on. El primer apartado es consecuencia directa del lema anterior. Respecto al segundo, supongamos que la hip otesis inicial H0 : A = 0 es contrastable y consideremos 1 , 2 Rs tales que X1 = X2 . En es ese caso, X(1 2 ) = X0. Dado que A0 = 0, on A es estimable se verica por hip otesis que A(1 2 ) = 0. Por lo tanto, la funci y, aplicando el lema anterior, se concluye.

Corolario 7.13.

4 Los contrastes del tipo A = c puede resolverse a partir de estos mediante una traslaci on del vector de observaciones.

219

Manuales Uex

Se verica lo siguiente: olo si, existe un estad stico lineal real T (i) Una funci on lineal real a es estimable si, y s

jess montanero fernndez


220 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

tal que E(,2 ) [T ] = a . olo si, a es una combinaci on lineal de las las de (ii) La funci on a es estimable si, y s X. Cualquier combinaci on lineal de funciones lineales reales estimables de es, a su vez, una funci on lineal real estimable de . (iii) El n umero m aximo de funciones lineales reales estimables de linealmente independientes es igual al rango de la matriz X. Demostraci on. Para probar (i) supongamos que existe c Rn tal que E,2 ) [c Y ] = a . En ese caso, procamente, supongamos que la funci on a verica (9.38), es decir, es estimable. Rec a = bX para alguna matriz b M1n . Dado Px Y, que es un estimador insesgado de E[Y ], se sigue que bPx Y es un estimador lineal insesgado de a . La propiedad (ii) se sigue directamente del teorema anterior. Para probar (iii) basta tener en cuenta que las funciones lineales reales estimables de se identican, seg un umero el teorema anterior, con los vectores de Rs de la forma X b, donde b Rn . El n de vectores de esta forma linealmente independiente es igual, obviamente, al rango de X. Hemos de advertir que la proposici on (i) del corolario anterior suele presentarse en la mayor parte de la literatura estad stica como denici on de funci on lineal real estimable de . El teorema 3.3, conocido como de Gauss-Markov, resuelve el problema de estimastico ci on de estimandos del tipo c E[Y ], donde c Rn , pues garantiza que el estad nima varianza. En consecuencia, si a c Px Y es el estimador lineal insesgado de m stico es estimable, existe b M1n tal que a = bX, luego, a = bE[Y ] y el estad a el estimador lineal insesgado de m nima varianza de a , cuya T (Y ) = bPx Y ser varianza es, precisamente, 2 b Px b. Si se verica la n-normalidad de E , estaremos hablando del estimador insesgado de m nima varianza y el de m axima verosimilitud on ser a de a , cuya distribuci T N a , 2 b Px b .

Manuales Uex

El par ametro no puede considerarse estimable pues, en principio, no existe una u nica soluci on a la ecuaci on X = E[Y ]. No obstante, aunque no podemos hablar propiamente de estimadores insesgados de , s podemos buscar un estad stico T : n s R R tal que XT sea un estimador insesgado de E[Y ], es decir, que satisfagan la ecuaci on XE[T ] = E[Y ]. Teniendo en cuenta que Px Y es un buen estimador insesgado de E[Y ], procederemos a buscar soluciones particulares a la ecuaci on

XT = Px Y.

(7.14)

220

MODELOS LINEALES
Y CONTRASTE DE HIPOTESIS. 7.3. ESTIMACION 221

a cualquier estad Se denotar a por stico que sea soluci on exacta al sistema de ecuaciones lineales anterior, lo cual equivale, seg un el teorema 7.9, a ser soluci on exacta al sistema de ecuaciones normales

X XT = X Y
o, lo que es lo mismo, soluci on m nimo-cuadr atica a la ecuaci on

(7.15)

XT = Y.
on En virtud del teorema 7.9, sabemos que, dada G (X X) , las soluciones a la ecuaci (7.15) constituyen la siguiente subvariedad lineal de dimensi on s rg(X) GX Y + GX X Idss (7.16)

Teniendo en cuenta el teorema 7.4-(ii) 5 , existen s rg(X) + 1 soluciones linealmente independientes. Dos soluciones cualesquiera dieren en un vector del subespacio on particular equivale a imponer GX X Idss . Por lo tanto, determinar una soluci s rg(X) restricciones linealmenente independientes6 . Si X es de rango completo, existe una u nica soluci on a (7.15), que coincide con el estimador (3.15) obtenido en el cap tulo 3. El siguiente resultado es fundamental en lo que respecta al problema de estimaci on.

Teorema 7.14.
es el estimador es una soluci Si la funci on a es estimable y on cualquiera a (7.15), a lineal insesgado de m nima varianza de a . Si, adem as, E sigue un modelo de distribuci on n-normal, ser a el estimador insesgado de m nima varianza y m axima verosimilitud. Demostraci on. Efectivamente, dado b Rn tal que a = bX, se sigue de (7.14) que = bX = b Px Y, a luego, el teorema de Gauss-Markov prueba la primera armaci on. La segunda parte se sigue de (9.42), teniendo en cuenta la denici on (9.4).
5 Si la distribuci on de Y est a dominada por la medida de Lebesgue en Rn , la probabilidad de que Y pertenezca a X es nula. 6 Dado un vector x Rn , entendemos por restricci on a una hip otesis del tipo y x = 0, donde y Rn .

221

Manuales Uex

jess montanero fernndez


222 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

Respecto al contraste de hip otesis lineales contrastables, el problema tambi en est a resuelto en el cap tulo 3. Efectivamente, una hip otesis inicial de la forma H0 : A = 0, siendo A una matriz m s de rango m y tal que A = B X para cierta matriz pues, el problema se B Mmn , puede expresarse mediante H0 : B E[Y ] = 0. As reduce a contratar una hip otesis del tipo H0 : E [Y ] Wx,A , siendo Wx,A cierto subespacio lineal de X. Como ya hemos armado, este problema se resuelve en el cap tulo 3 mediante el test F. Lo u nico que podemos a nadir es una expresi on expl cita del mismo a partir de las matrices X y A consideradas. En ese sentido, el siguiente resultado es una generalizaci on del teorema 3.13.

A = 0 es contrastable, el test F a nivel para constrastar H0 consiste decidir H1 cuando stico Fm, nrg(x) es menor que el estad F = m1 ) (AGA )1 A (A , 2,I

Teorema 7.15. Dados G (X X) y A una matriz m s de rango m tal que la hip otesis inicial H0 :

(7.17)

cualquier soluci siendo on a la ecuaci on (7.15). Demostraci on. Si A es contrastable, existe B Mmn tal que A = B X = (Px B ) X. En ese caso, Px B es una matriz n m de rango m. Por lo tanto, sus columnas consituyen un conjunto de vectores linealmente independientes de X. Por otra parte, si = X, se verica A = 0 si, y s olo si, B = 0, lo cual equivale a (Px B ) = 0. En consecuencia, el conjunto de vectores anterior constituye una base de X|Wx,A , cuya dimensi on es, por lo tanto, m. Teniendo en cuenta (9.8) junto con el teorema 7.7, se verica = Y XGX B (B XGX B )1 B XGX Y ) (AGA )1 A, = A 2,I 1 = GX Y . En ese caso, el estad Px|Wx,A Y 2 stico de contraste F = m donde sigue trivialmente la expresi on deseada. Para acabar, tener en cuenta que, para cualquier soluci on particular a (7.15), se verica Y Px|Wx,A Y = Y Px B (BPx B )1 BPx Y

Manuales Uex

= BPx Y. = B X A considerada. Por lo tanto, la expresi on anterior no depende de la soluci on

222

MODELOS LINEALES
BIFACTORIAL NO EQUILIBRADO. 7.4. EJEMPLO: DISENO 223

on (3.26). Lo m as Obviamente, si X es de rango completo se obtiene la expresi importante a nuestro entender es que todas las expresiones obtenidas en esta secci on pueden implementarse dando lugar a algoritmos autom aticos, cosa que no sucede si utilizamos el concepto abstracto de subespacio lineal.

7.4.

Ejemplo: dise no bifactorial no equilibrado.

Como ya adelantamos en la u ltima secci on del cap tulo anterior y en la introducci on de este, el Modelo Lineal parametrizado mediante una matriz de rango no completo puede se de utilidad cuando se aborda el modelo de regresi on lineal donde los vectores explicativas son linealmente dependientes, o el n umero de estos no es superior al n umero de unidades experimentales; pero sobre todo puede resultar u til en el estudio de dise nos no equilibrados en el an alisis de la varianza. Dedicaremos esta secci on a justicar dicha armaci on mediante la exposici on de un dise no, similar al considerado en la secci on 6.4. Se estudia la inuencia de dos factores cualitativos, fA con a niveles y fB con b niveles, en la media de una variable respuesta y . Para ello, consideraremos ab muestras aleatorias simples, cada una de ellas correspondiendo a la combinaci on entre un a por nij el determinado nivel del factor fA , i, con otro del factor fB , j . Se denotar tama no de la muestra (i, j )- esima. No estamos suponiendo, por lo tanto, que el di b no puede se no sea equilibrado. El n umero total de datos es n = a i=1 j =1 nij . El dise representarse, esquem aticamente, como sigue: Factor B Factor A Y111 , . . . , Y11n11 . . . . . . . . . . . . Y1b1 , . . . , Y1bn1b . . .

Ya11 , . . . , Ya1na1 . . . . . . . . . Yab1 , . . . , Yabnab Hemos asignado la muestra correspondiente a los niveles i- esimo y j - esimo de los factores A y B , respectivamente, las coordenadas (i, j ), que indica una celda de la cuadr cula. Una tercera coordenada, k , indicar a la posici on del dato en la celda corespondiente. Se supondr a, adem as, que todas las muestras son independientes y provienen de distribuciones normales con id entica varianza. El modelo puede expresarse as : (7.18) Yijk = ij + ijk , ijk N (0, 2 ) independientes, donde i = 1, . . . , a, j = 1, . . . , b y k = 1, . . . , nij . Si componemos todas las observaciones de las variable repuesta, ordenando las muestras por las, obtenemos el vector

223

Manuales Uex

jess montanero fernndez


224 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

aleatorio n-dimensional Y = (Y111 , . . . , Yabnab ) , de media . Para cada celda (i, j ) de aloga al cap tula cuadr cula se considera el vector vij de Rn denido de manera an n lo anterior. As , si V denota el subespacio ab dimensional del R generado por los vectores vij , i = 1, . . . , a, j = 1, . . . , b, el modelo puede expresarse mediante Y = + E, E Nn (0, 2 Id), V, 2 > 0. (7.19)

Se trata pues de un modelo lineal normal. Una descomposici on del tipo (6.23), que lleva asociada la parametrizaci on considerada en la secci on 6.4 con la imposici on de las restricciones (6.21), es posible en general, aunque no se puede garantizar la ortogonalidad entre los subespacios considerados (cuesti on propuesta). Por ello, la familia de restricciones (6.21) no debe ser considerada necesariamente natural. No obstante, dado que el objetivo principal cuando se lleva a cabo un dise no de este tipo es determinar en qu e medida inuyen cada uno de los factores cualitativos y la interacci on entre ambos en la media de la variable respuesta, s resulta natural desde un punto de vista intuitivo proponer la siguiente descomposici on para la media de la casillas (i, j )- esima: (7.20) ij = + i + j + ( )ij De esta forma, el par ametro se interpreta, siempre en t erminos intuitivos, como la aportaci on com un a todos los niveles de los factores, el par ametro i como la aportaon espec ca del ci on espec ca del nivel i- esimo del primer factor, j como la aportaci on nivel j - esimo del segundo factor; por u ltimo, ( )ij se interpreta como la aportaci a la media que resulta de combinar los niveles i- esimo y j - esimo del primer y segundo factor, respectivamente. otese por B a Para poder ser m as expl citos, supongamos que a = 3 y b = 2. Den al par ametro en R12 de componentes B = , 1 , 2 , 3 , 1 , 2 , ( )11 , . . . , ( )32

siendo soluci on a la ecuaci on (7.20). Equivalentemente, se verica que a la ecuaci on Xb = E[Y ], siendo

B es soluci on

X la matriz en Mn12 denida mediante


1n11 1n12 1n21 1n22 1n31 1n32 1n11 1n12 0 0 0 0 0 0 1n21 1n22 0 0 0 0 0 0 1n31 1n32 1n11 0 1n21 0 1n31 0 0 1n12 0 1n22 0 1n32 1n11 0 0 0 0 0 0 1n12 0 0 0 0 0 0 1n21 0 0 0 0 0 0 1n22 0 0 0 0 0 0 1n31 0 0 0 0 0 0 1n32

224

Manuales Uex

X=

MODELOS LINEALES
BIFACTORIAL NO EQUILIBRADO. 7.4. EJEMPLO: DISENO Por lo tanto, el modelo puede expresarse de la forma Y = XB + E , E Nn (0, 2 Id), 225

B R12 , 2 > 0.

De esta forma, descomponer la media de cada celda seg un (7.20) equivale a parametrizar el modelo a trav es de la matriz X Mn12 de rango 6. Del teorema 7.12, se sigue que las funciones lineales estimables de B son de la forma a B para cualquier on lineal de las las de X. En ese a M112 que pueda expresarse como combinaci caso, se verica trivialmente (cuesti on propuesta) que ninguno de los par ametros , i , j , ( )ij , donde i = 1, 2, 3 y j = 1, 2, son estimables. Si son estimables, sin embargo, funciones del tipo 1 + ( )11 2 ( )12 , (7.21)

que equivale a 11 = 12 , es decir, a que el factor B no afecta a la media del primer nivel del factor A. Igualmente, son estimables funciones del tipo 1 + ( )11 2 ( )21 , (7.22)

oteque equivalen a 11 = 21 . En virtud del teorema (7.12), son contrastables las hip sis del tipo AB = 0, cuando las las de A sean combinaciones lineales de las de X. De esta forma, son contrastables la hip otesis
A,AB : i + ( )ij = i + ( )i j , H0 B,AB : 1 + ( )i1 = 2 + ( )i2 , H0

i = i , j = 1, 2, i = 1, 2, 3.

Ambas pueden expresarse, en t erminos de la media, como sigue:


A,AB : ij = i j , H0 B,AB : i1 = i2 , H0

i = i j = 1, 2, i = 1, 2, 3.

7 Aunque no podamos ofrecer una expresi on expl cita para los tests como las que podemos encontrar en cap tulo anterior, pues se basan en el c alculo de proyecci on ortogonal sobre el subespacio V |W correspondiente.

225

Manuales Uex

Por lo tanto, se traducen en la no inuencia de los factores A y B , respectivamente, en la media de la variable respuesta, y esas son, precisamente, los contrastes que m as interesan. Tanto los problemas de estimaci on como los de contraste de hip otesis podr an resolverse directamente con las t ecnicas estudiadas en el cap tulo 3 7 , pues cabe formularlos en t erminos de la media . No obstante, la teor a de rango no completo permite generar de manera sencilla funciones lineales estimables e hip otesis

jess montanero fernndez


226 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

contrastables expresadas a partir de unos par ametros que nos resultan intuitivos (, aticamente un algoritmo para la resoluci on del problema. 1 , 2 , etc) y aporta autom Concretamente, para estimar funciones como las del tipo (7.21) y (7.22) haremos A,AB B,AB y H0 uso del teorema 7.14. Asimismo, para contrastar hip otesis como H0 utilizaremos el teorema 7.15. En ambos casos, precisamos de una soluci on m nimoon8 exacta al sistema cuadr atica a la ecuaci on Xb = Y o, equivalentemente, una soluci de ecuaciones normales X Xb = X Y . En este caso, seg que se denotar a por B un se vio en la segunda secci on, elegir una soluci on particular pasa por imponer un sistema de 6 restricciones linealmente independientes. Puede probarse que las restricciones (6.21), consideradas naturales en el caso equilibrado, son v alidas tambi en en un dise no no equilibrado, es decir, que su cumplimiento conduce a una u nica soluci on. Efectivamente, en nuestro caso se verica trivialmente que las las de la matriz R siguiente son linealmente independientes entre s y linealmente independientes de las de X 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 R= 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 1 0 0 0

Por lo tanto, podemos considerar la u nica soluci on ) , . . . , ( ) = , 1 , 2 , B 1, 2, 3, 11 32 al sistema de ecuaciones


3 i=1

X X
R

b=

X Y
0

la cual verica las restricciones


3 i=1

i = 0,

2 j =1

j = 0,

) = 0, j = 1, 2, ( ij

2 j =1

) = 0, i = 1, 2, 3. ( ij

Manuales Uex 226

Las restricciones anteriores suelen imponerse de manera habitual, lo cual no quiere decir que sean naturales.
8 Tener en cuenta que el espacio de soluciones es una subvariedad af n de dimensi on 12-6=6 de R12 .

MODELOS LINEALES
BIFACTORIAL NO EQUILIBRADO. 7.4. EJEMPLO: DISENO 227

A n de cuentas y desde el punto de vista t ecnico, la diferencia entre abordar el problema con rango no completo en vez de completo (cap tulo 3) estriba en calcular una soluci on a un sistema de ecuaciones no determinado en lugar de una matriz de proyecci on ortogonal sobre cierto subespacio a determinar. Se trata, en n, de una distinci on que bien podr a obviarse, teniendo en cuenta que, hoy en d a, los problemas estad sticos se resuelven en su totalidad mediante programas inform aticos. No obstante, desde el punto de vista t ecnico, el computador debe entender a qu e subespacio nos estamos reriendo, para lo cual habremos de introducir cierta matriz X, que en el modelo de rango no completo viene dada de partida. Esta ventaja la disfruta s olo el programador. Para el usuario del programa inform atico, el uso de rango no completo supone la posibilidad de manejar los par ametros del modelo sin necesidad de imponer previamente restricciones sobre los mismos que pueden resultar articiales. No obstante, las restricciones, igualmente articiales, deber an considerarse a la hora de seleccionar una soluci on particular a las ecuaciones normales.

Cuestiones propuestas
1. Demostrar que la matriz B11 obtenida como inversa generaliza da X X, es reon: considerar (7.11) y exiva, es decir, verica que B11 X XB11 = B11 . (Indicaci (7.13). 2. Dada una funci on lineal estimable a , construir un intervalo de conanza a nivel 1 para a , suponiendo la n-normalidad del vector aleatorio Y . 3. Desarrollar un dise no completamente aleatorizado (secci on 6.1) mediante la parametrizaci on i = + i , i = 1, . . . , r, sin imponer ninguna restricci on a priori sobre y 1 , . . . , r . 4. Probar la validez de la descomposici on (6.23) en el dise no bifactorial no equilibrado, aunque no se verique la ortogonalidad entre todos los subespacios que la componen. 5. Si i denota la media del nivel i-esimo del factor A, i = 1, 2, 3, construir la familia de intervalos de conanza simult aneos a nivel 1 de Bonferroni para las diferencias i i f (B) = 2 + 1 + 2 + 21 + ( )11 + ( )12 y para contrastar a nivel la hip otesis inicial H0 : f (B) = 0.

227

Manuales Uex

6. Establecer un algoritmo para estimar la funci on

jess montanero fernndez


228 CAP ITULO 7. MODELO LINEAL DE RANGO NO COMPLETO

A,AB que 7. Establecer algoritmo para resolver el contraste de la hip otesis inicial H0 no precise del c alculo de inversa generalizada.

8. Es contrastable la hip otesis ( )11 = . . . = ( )32 en dise no bifactorial 3 2? 9. C omo contrastar la existencia o no de interacci on en un modelo bifactorial no equilibrado?

228

Manuales Uex

MODELOS LINEALES

Cap tulo 8 Modelos Lineales Generalizados


Este cap tulo est a dedicado a una familia de modelos que, salvo cierto detalle que comentaremos m as adelante, vienen a generalizar el modelo lineal normal. El caso es que estos modelos aportan un procedimiento para resolver los problemas de regresi on lineal y an alisis de la varianza y covarianza, junto con otros nuevos, entre los que se encuentran la regresi on de Poisson, la regresi on log stica o las tablas de contingencia. Hemos de destacar que las pruebas de los resultados reposan fundamentalmente en el C alculo Diferencial y la Teor a Asint otica, precis andose tambi en cierto conocimiento de las familias exponenciales y la Teor a de la Informaci on. Algunas de ellas se proponen como ejercicio para el lector. En la u ltima secci on se precisa un cierto dominio de los m etodos num ericos para la aproximaci on a las ra ces de una ecuaci on, como el de Newton-Raphson; tambi en encontraremos en ella algunos razonamientos de tipo heur stico impl citamente presentes en la denici on de devianza. En todo caso remitimos al lector interesado a la bibliograf a recomendada para un estudio m as completo del tema. Concretamente, en Dobson (1990) podemos encontrar una buena s ntesis y aporta referencias m as concretas, mientras que en Cox & Hinkley (1974) podemos consultar mejor ciertos detalles t ecnicos.

8.1.

El modelo

(i) La distribuci on de Yi es del tipo (9.36) con i = i , siendo T = Id, Q = b g 229

229

Manuales Uex

La denici on original de modelo lineal generalizado se debe a Nelder & Wedderburn (1972). Sea Y un vector aleatorio n-dimensional de componentes Y1 , . . . , Yn independientes de medias 1 , . . . , n , respectivamente. Decimos que Y sigue un modelo lineal generalizado dada la matriz X Mns de las X1 , . . . , Xn , cuando existe una funci on g mon otona diferenciable tal que, para todo i = 1, . . . , n, se verica:

jess montanero fernndez


230 CAP ITULO 8. MODELOS LINEALES GENERALIZADOS para alguna funci on real b, y c y d son las mismas para todo i. (ii) Existe Rs tal que g (E[Yi ]) = Xi . En denitiva, se trata de un modelo dominado cuya funci on de verosimilitud puede expresarse, si se denota Y = (Y1 , . . . , Yn ) , de la forma L(, Y) = exp B (X ), Y + C ( ) + D(Y) (8.1)

siendo B la composici on de n r eplicas de b y C y D la suma de n r eplicas de c y d, respectivamente. En todos los ejemplos que consideremos, salvo (8.9) y (8.21), tendremos que b y, por lo tanto B , ser an la identidad, es decir, que la funci on de verosimilitud se expresar a de la forma L(, Y) = exp X , Y + C ( ) + D(Y) (8.2)

La funci on g vericando las condiciones anteriores se denomina funci on de ligadura. Al igual que el modelo lineal puede obtenerse condicionando en un modelo de correlaci on, muchos de los modelos lineales generalizados se obtendr an, como veremos, condicionando en otro modelo previo. Por otra parte, si Li denota la funci on de verosimilitud correspondiente a la componente Yi y li = log Li , se sigue que li (i , Yi ) = Yi [b g ](i ) + c(i ) + d(Yi ) (8.3)

El logaritmo l de la funci on de verosimilitud L se expresa a trav es de = (1 , . . . , s ) de la forma n Yi b(Xi ) + c g 1 (Xi ) + d(Yi ) l(, Y) = (8.4)
i=1

Sea U el vector aleatorio n-dimensional de componentes Ui = En ese caso, se sigue de (9.35) que dli di 1in

(8.5)

Manuales Uex

E[Ui ] = 0,

dU var[Ui ] = E di

(8.6)

De (8.3) y (9.34) se sigue (cuesti on propuesta) el siguiente resultado

230

MODELOS LINEALES
8.1. EL MODELO 231

Lema 8.1.
Para todo i = 1, . . . , n, se verica i = b ( i ) c (i ) X g (i )

b (Xi ) = [var[Yi ] g (i )] Si se denota siguiente

Xi = (Xi1 , . . . , Xij ), se sigue de lo anterior (cuesti on propuesta) lo

Proposici on 8.2.
l j = =
n (Yi i )Xij var [Yi ] g (i ) i=1 n
i=1

Por su parte, se sigue (cuesti on propuesta) del lema 8.1, la proposici on 8.2 y (9.35) lo siguiente:

[Yi g 1 (Xi )] b g 1 (Xi ) Xij

Proposici on 8.3.
Las componentes de la matriz de informaci on del modelo pueden expresarse mediante Ijk = = para 1 j, k s
n
i=1

Xij Xik
vari [Yi ] [g (i )]2 var [Yi ] g g 1 (Xi ) ]2

n
i=1

Xij Xik

Corolario 8.4.
La matriz de informaci on del modelo para es la siguiente I = X W X, siendo W la matriz diagonal de componentes 1 wii = vari [Yi ] [g (i )]2 , (8.7)

1in

Este resultado ser a de gran utilidad tanto en la estimaci on de como en el contraste de hip otesis.

231

Manuales Uex

jess montanero fernndez


232 CAP ITULO 8. MODELOS LINEALES GENERALIZADOS

8.2.

Ejemplos

Veamos algunos modelos que pueden adaptarse a este formato, as como diversos problemas pr acticos que pueden ser formalizados mediante estos modelos. El modelo lineal normal no es una estructura de este tipo dado que la distribuci on de los datos depende de la varianza, por lo que los algoritmos que estudiaremos a continuaci on no son, en principio, de aplicaci on en dicho modelo. Otra cosa es que la supongamos conocida. De hecho, si aplicamos el principio de sustituci on y arrastramos ese par ametro hasta el nal, dichos algoritmos conducen a las mismas estimaciones de que se obtienen con el modelo lineal y al propio test F . S olo en ese sentido podemos hablar de una generalizaci on del modelo lineal normal.

Modelo lineal normal con varianza 2 conocida


Si conocemos el valor de la varianza 2 en un modelo lineal podemos dividir por 1 cada dato Yi de media i , obteniendo Yi = 1 Yi , de media i = i . Esta homotecia conduce a un nuevo modelo equivalente, concretamente Y Nn ( , Id), siendo la densidad de cada componente la siguiente 1 1/2 2 ( y ) = (2 ) exp ) ( y f i i i i 2 1 1 2 2 exp { ) ) y } exp = (2 )1/2 exp ( ( y i i 2 i 2 i As pues, estamos hablando de un producto de n densidades del tipo (9.36) con i = i, , T (Yi ) = Yi ,
Q( i ) = i ,

1 1 2 c( i ) = log(2 ) (i ) , 2 2 1 2 d(Yi ) = (yi ) 2

Manuales Uex

Impongamos la restricci on propia del modelo lineal de que, dados X1 , . . . , Xn Rs , erminos del modelo se verique i = Xi , para todo i, es decir, = X. En los t on de transformado se expresar a mediante = X , siendo X = 1 X. la funci verosimilitud del modelo podr a expresarse de la forma (8.2). Concretamente n 1 (8.8) L(, Y ) = exp X , Y log(2 ) X 2 Y 2 2 2 Se trata de un modelo lineal generalizado dada

X con funci on de ligadura g = Id.

232

MODELOS LINEALES
8.2. EJEMPLOS 233

Regresi on de Poisson
Consideremos Y1 , . . . , Yn variables aleatorias independientes distribuidas respectivamente seg un un modelo P (i ), es decir, con densidad respecto a la medida cardinal fi (yi ) = ei y i i yi ! yi = 0, 1, . . .

umero de sucesos contaUna situaci on como esta puede darse cuando cada Yi es el n bilizados en un determinado periodo de tiempo, que se denota por i, en el que existe un fen omeno de p erdida de memoria1 . Puede suceder que la media de esta distribuci on crezca de manera lineal en relaci on con cierta variable real Z , con valores Z1 , . . . , Zn , es decir, que existan 0 , 1 R tales que i = 0 + 1 Zi , i = 1, . . . , n. En tal caso, si se denota Xi = (1, Zi ) y = (0 , 1 ) , a de la forma la funci on de verosimilitud correspondientes a (Y1 , . . . , Yn ) se expresar (8.1), concretamente n L1 (, Y) = exp Yi log(Xi ) Xi log(yi !) (8.9)
i=1

Esta densidad puede expresarse tambi en mediante fi (yi ) = exp yi log i i log(yi !)

Se trata de un modelo lineal generalizado dada X = (1n |Z) con funci on de ligadura g (x) = Id con b(x) = log(x). En otras ocasiones podemos suponer un crecimiento exponencial de i . Puede suceder, por ejemplo, cuando se contabilizan las muertes atribuibles a un enfermedad en una poblaci on grande durante un cierto intervalos de tiempos iguales y consecutivos, umero tal que i = 1, . . . , n. Es decir, suponemos que existe un n i = i En ese caso, g (i ) = (log i) . Por lo tanto, con estos supuestos, si se denota Xi = log i, la funci on de verosimilitud del modelo puede expresarse de la forma (8.2) mediante n L2 (, Y) = exp X, Y i log(yi !) (8.10)
i=1

Se trata de un modelo lineal generalizado dada ligadura g (x) = log x.


1

X = (log 1, . . . , log n) con funci on de

Ver Nogales (1998).

233

Manuales Uex

jess montanero fernndez


234 CAP ITULO 8. MODELOS LINEALES GENERALIZADOS

Regresi on log stica


Una de las m as importantes aplicaciones de los modelos lineales generalizados es la resoluci on de problemas de regresi on con un vector explicativo q -dimensional Z = (Z1 , . . . , Zq ) y una variable respuesta binaria Y . Supongamos que nuestra variable Y eplicas independientes (Y1 , Z1 ), . . . , (Yn , Zn ) toma valores 1 o 0. Si contamos con n r on y, para cada 1 i n, se denota i = P (Y = 1|Zi = zi ), se verica que la funci de verosimilitud del modelo condicional2 de (Y1 , . . . , Yn ) dados Zi = zi , 1 i n, es la siguiente n n (1 i ) exp Yi log Lz 1 , . . . , n , Y1 , . . . , Yn ) =
i=1 i=1

i 1 i

(8.11)

Consideremos la funci on siguiente x , 1x

g (x) = log

0x1

(8.12)

Den otese = (g (1 ), . . . , g (n )) Rn y Y = (Y1 , . . . , Yn ) . En ese caso, podemos expresar (8.11) de forma can onica mediante

Lz (, Y) = exp {, Y + C ()}

(8.13)

1 siendo C () = n on (8.12) es la inversa de la siguiente, i=1 log (1 g (i )). La funci que se denomina funci on log stica: ex , 1 + ex

L(x) =

Manuales Uex

xR

Que est a dominado por la medida uniforme en {0, 1}.

234

MODELOS LINEALES
8.2. EJEMPLOS 235

Las medias condicionales pueden por tanto obtenerse a partir de las componentes de mediante 1in (8.14) i = L(i ), El uso de esta funci on no responde u nicamente a criterios est eticos, sino que puede venir dada por la aceptaci on de diversos supuestos, m as o menos naturales, en diferentes problemas a resolver, y que conducen a un modelo lineal generalizado con la nando el papel de ligadura. Distinguimos dos situaciones. funci on L1 desempe An alisis discriminante: supongamos que la distribuci on de Z condicionada a Y es P Z |Y =j = Nq (j , ), j = 0, 1 Enti endase Y como un factor aleatorio que distingue dos distribuciones normales con id entica matriz de varianzas-covarianzas. Son los mismos supuestos que, en un an alisis discriminante, permiten aplicar la estrategia de clasicaci on on propuesta) lineal de Fisher3 . En ese caso, se sigue de la regla de Bayes (cuesti que (8.15) P (Y = 1|Z = z) = L (0 + z ) donde

Ver volumen dedicado al An alisis Multivariante.

235

Manuales Uex

0 = log

1q + 1 1 1 0 1 0 , q = 1 (0 1 ).

jess montanero fernndez


236 CAP ITULO 8. MODELOS LINEALES GENERALIZADOS Es decir, si se denota = (0 , ) y i = Xi , o, equivalentemente, g (i ) = Xi , 1in En consecuencia, el modelo condicional dada la matriz explicativa Z verica presenta una funci on de verosimilitud del tipo (8.2) con X = (1n |Z) y g = L1 . Concretamente, n log[1 L(Xi )] (8.16) Lz (, Y) = exp X, Y +
i=1

Xi = (1, Zi ), se sigue de (8.14) que


1in

Luego, estaremos hablando de un modelo lineal generalizado dada la matriz de on de ligadura L1 . En denitiva, una buena estimaci on regresi on X con funci del par ametro nos permitir a predecir con bastante exactitud la probabilidad de que Y tome el valor 0 o 1 a partir de los valores obtenidos en Z . Modelos de respuesta a una dosis: estudiamos en este apartado la relaci on existente entre la dosis de una sustancia y la probabilidad de exito de la misma. Puede tratarse de un medicamento o bien un veneno para animales o plantas; en el primer caso el exito consistir a en la curaci on mientras que, en el segundo, ser a la muerte del individuo. Desde el punto de vista hist orico, se trata de una de las primeras aplicaciones de modelos derivados de la regresi on lineal. Consiste pues, al igual que el an alisis discriminate, en un modelo de regresi on simple con una variable respuesta Y con valores en {0, 1} y una variable explicativa Z con valores en [0, +). En la pr actica es frecuente que el exito sea imposible por debajo de un umbral aximo c2 . m nimo de dosis c1 y que sea seguro por encima de un umbral m Tambi en puede resultar natural que la probabilidad de exito crezca de manera lineal entre ambos umbrales. Es decir, si z < c1 0 zc1 si c1 z c2 (8.17) P (Y = 1|Z = z) = c2 c1 1 si z > c2 Tener en cuenta que (z c1 )(c2 c1 )1 = 0 + 1 z para 0 = (c1 c2 )1 y 1 = c1 (c1 c2 )1 .

236

Manuales Uex

MODELOS LINEALES
8.2. EJEMPLOS Tambi en podemos expresar (8.17) mediante P (Y = 1|Z = z) = 237

f (s) ds,

donde la funci on f , denominada funci on de tolerancia, se dene mediante 1 si c1 s c2 c2 c1 (8.18) f (s) = 0 en caso contrario N otese que se trata, l ogicamente, de una funci on de densidad. Si consideramos n r eplicas independientes, (Y1 , Z1 ), . . . , (Yn , Zn ), el modelo condicional de (Y1 , . . . , Yn ) dado Z1 = z1 , . . . , Zn = zn no puede considerarse lineal generalion de ligadura zado para X = (1n |Z) con la funci x f (s) ds (8.19) g (x) =

pues, en (8.17) s olo tenemos una relaci on lineal a trozos. Este problema puede resolverse reemplazando la funci on de tolerancia (8.18) por otra que sea continua. Para ese n puede valernos una curva normal 2 1 s 1 (8.20) f (s) = exp 2 2 2 Efectivamente, en ese caso, si denota la funci on de distribuci on del modelo N (0, 1), se verica en virtud del teorema de cambio ed variables, zi P (Yi = 1|Zi = zi ) = , 1in 2 Por lo tanto, la funci on de verosimilitud del modelo condicional se expresar a con la ayuda del par ametro = ( 1 , 1 ) de la forma (8.1). Concretamente n (Xi ) Lz (, Y1 , . . . , Yn ) = exp Yi log (8.21) + log[1 (Xi )] 1 (Xi ) i=1 En este caso, estamos considerando las funciones b y g siguientes (x) , 1 (x)

Los experimentos estad sticos de este tipo se denominan modelos probit. Estimar el par ametro equivale a estimar los valores y de la funci on de

237

Manuales Uex

b(x) = log

g (y ) = 1 (y )

jess montanero fernndez


238 CAP ITULO 8. MODELOS LINEALES GENERALIZADOS tolerancia. En los estudios relacionados con venenos el par ametro se denomina dosis letal media. Sin embargo, podemos obtener un modelo lineal generalizado m as sencillo si consideramos como funci on de tolerancia esta otra funci on de densidad, bastante similar a una curva normal, que depende de dos par ametros reales 0 , 1 R f (s) = 1 exp{0 + 1 s} , [1 + exp{0 + 1 s}]2 sR (8.22)

Veamos qu e aspecto tiene esta funci on para 0 = 0 y 1 = 1.

En ese caso, se verica, para 1 i n P (Yi = 1|Zi = zi ) = Dado que L1 (x) = log
zi

f (s) ds = L(0 + 1 zi ) x 1x

la funci on de verrosimilitud del modelo para Y = (Y1 , . . . , Yn ) condicionado a es del par ametro = (0 , 1 ) de Z1 = z1 , . . . , Zn = zn puede expresarse a trav la forma (8.16). Concretamente Lz (, Y) = exp X, Y +
n
i=1

Manuales Uex

log[1 L(X )]

(8.23)

Este tipo de modelos basados en el uso de la funci on log stica se denominan en la literatura estad stica modelos logit.

238

MODELOS LINEALES
8.3. ESTUDIO ASINTOTICO 239

8.3.

Estudio asint otico

Seg un se desprende de lo estudiado hasta ahora, una de las tareas m as importantes que debemos afrontar es la estimaci on del par ametro del modelo (o del modelo condicional). La labor resultar a mucho m as dif cil de lo que fue la estimaci on de o en el modelo lineal normal o lineal a secas. En este caso buscaremos el estimador de m axima verosimilitud pues el procedimiento procura mejores estimaciones que las que obtendr amos seg un el m etodo de m nimos cuadrados4 . Es decir, buscaremos el valor de que maximiza la funci on de verosimilitud (8.1) dados Y1 , . . . , Yn . ConcretaMV cualquier vector de Rs cuyas componentes sean soluciones mente, se denotar a por on se centra en las bien conocidas a las ecuaciones l/j = 0, = 1 j s. Esta secci propiedades asint oticas de este estimador. Para un estudio exhaustivo recomendamos Lehmann (1983) y Ferguson (1996). La primera que debemos destacar es la consistencia del estimador. Efectivamente, seg un el teorema 2.2. del cap tulo 6 de Lehmann (1983), queda garantizada la existencia de una secuencia de soluciones al sistema de ecuaciones anterior que converge en probabilidad a . Partiendo de esta propiedad y utilizando herramientas b asicas de la estad stica asint otica, describiremos la disMV en el modelo condicional. Las hip otesis que precisamos son tribuci on l mite de on de vectores aleatolas siguientes: supongamos que (Yi , Xi ), i N, es una sucesi Y |X un rios s + 1-dimensionales iid seg un un modelo de distribuci on P P X , para alg Rs , siendo P tipo
Y |X =x

una distribuci on dominada con funci on de verosimilitud del

MV n vericando q y c las condiciones de regularidad necesarias, y sea, para cada n, s n on al sistema de ecuaciones Uj (b) = 0, para 1 j s, siendo R una soluci log Ujn (b) = n
i=1

) + c(Xi ) + d(Yi )}, Lxi (, Yi ) = exp{Yi q (Xi

L(, Yi )

(b),

b Rs

I( ),n y I( ) denotar an las matrices de informaci on de los modelos condicionados con n y 1 datos, respectivamente.

Teorema 8.5.

1/2 MV n ) Ns (0, Id) I( ),n (


4

(8.24)

Ver Dobson (1990)

239

Manuales Uex

En las condiciones anteriores, si I no es singular, se verica la siguiente convergencia en distribuci on cuando n tiende a innito:

jess montanero fernndez


240 CAP ITULO 8. MODELOS LINEALES GENERALIZADOS

Demostraci on. Primeramente, se verica trivialmente I( ),n = n I( )


n , . . . , U n ) y consid Den otese U n = (U1 erese un desarrollo de Taylor de grado 1 de s n U ( ) en torno a MV :

MV )( MV ) + 1 ( MV )( MV ) MV ) f ( U n ( ) = 0 + Hn ( 2 siendo ( b ) 1 1 1 s . . . . . . 2 log( n 2 log( n i=1 L(,Yi )) i=1 L(,Yi )) ( b ) . . . ( b ) s 1 s s


2 log(

y siendo f (b) una funci on con valores en Mss que podemos suponer continua por MV n podemos desprelas condiciones de regularidad de q y c. Por la consistencia de ciar el u ltimo sumando del segundo t ermino, pues converge a 0 en probabilidad. Lo expresamos as MV ) U n ( ) MV n = H 1 ( n

Hn (b) =

n L(,Yi )) i=1

(b) . . .

2 log(

n L(,Yi )) i=1

MV n y aplicando la LDGN junto Teniendo en cuenta nuevamente la consistencia de con el teorema 9.21 se deduce MV ) I n1 Hn ( Respecto al segundo factor, n otese que Ujn ( ) =
n
i=1

(8.25)

aj i ( ),

1 j s,

siendo aj i = Yi Xij q/j + Xij c/j


s on iid con esperanza Los vectores aleatorios (a1 i , . . . , ai ) , i N, constituyen una sucesi nula, por (9.34), y matriz de varianzas y covarianzas I . Se sigue entonces del TCL iid multivariante, que n1/2 U n ( ) Ns (0, I ) (8.26)

Manuales Uex 240

Teniendo en cuenta (8.25), (8.26) junto con el teorema 9.21, se deduce (8.24).

MODELOS LINEALES
8.3. ESTUDIO ASINTOTICO 241

N otese que, para un tama no de muestra n sucientemente grande, se verica, aproximadamente, MV Ns (, I 1 ) (8.27) n n MV sea insesgado, Lo cual implica, en t erminos aproximados, insistimos, no s olo que n sino que su matriz de varianzas-covarianzas alcanza la cota m nima de Cramer-Rao5 , por lo que podr amos considerarlo como asint oticamente insesgado de m nima varianza. En ese sentido se dice que es un estimador asint oticamente eciente (adem as de consistente). Tambi en podemos obtener como consecuencia inmediata el siguiente resultado:

Corolario 8.6.
En las condiciones anteriores se verica MV n 2 MV n In W= s (8.28)

Dado 0 jo, la funci on W se denomina estad stico de Wald. Conocida la matriz de informaci on, (8.27) puede utilizarse, por ejemplo, para construir intervalos de conanza para las componentes de . Concretamente, si jk denota la componente 1 , ser an de la forma (j, k )- esima de In MV j z n jj , 1js (8.29)

Asimismo, a partir de (8.24), podemos construir regiones de conanza el pticas para , concretamente MV n ) 2, MV n ) I ( (8.30) (
s

En las misma condiciones del teorema 8.5 y siguiendo razonamientos completamente an alogos pero aplicados al logaritmo de la funci on de verosimilitud l, en lugar de a su derivada, y mediante un desarrollo de Taylor de orden 2, en lugar e 1, en torno a MV n , se obtiene el siguiente resultado cuya demostraci on queda como ejercicio

Teorema 8.7.
En las condiciones anteriores se verica MV n ) l( )] 2 2[l( s
5

Ver Lehmann(1983).

241

Manuales Uex

jess montanero fernndez


242 CAP ITULO 8. MODELOS LINEALES GENERALIZADOS

8.4.

Estimaci on y contraste de de hip otesis

Todo lo dicho en la secci on anterior tiene en principio un valor meramente te orico, MV como cualquier vector de Rs cuyas componentes sean veremos por qu e. Se deni o soluciones a las ecuaciones l/j = 0, 1 j s. En las condiciones del primer ejemplo dedicado a un modelo lineal normal puede comprobarse sin dicultad que un vector b es soluci on al sistema de ecuaciones anteriores sil y s olo si, lo es del siguiente sistema de ecuaciones lineales:

X X b = (X ) Y

(8.31)

N otese que, si expresamos la ecuaci on en los t erminos originales (sin dividir por ), esta queda como sigue: X Xb = X Y (8.32) Por lo tanto, para encontrar la soluci on nal no es necesario conocer el valor de 2 pues no depende del mismo. Pero esto no deja de ser una excepci on pues, en general, puede tratase de un sistema de ecuaciones no lineales cuya soluci on deba obtenerse de manera aproximada mediante un m etodo iterativo. Seguramente, lo m as natural primera vista sea aplicar el procedimiento e Newton-Raphson. Concretamente, si U y H denotan respectivaon mente el vector y la matriz denidas en el teorema 8.5, y si b(m1) denota una soluci en la fase (m 1)- esima, la soluci on mejorada en la fase m- esima se obtiene mediante 1 U [b(m1) ] (8.33) b(m) = b(m1) H [b(m1) ] Un procedimiento alternativo, m as simple desde el punto de vista operativo, consiste en reemplazar H por su valor medio, es decir, In . De esta forma, (8.33) quedar a como sigue 1 U [b(m1) ] b(m) = b(m1) In,b(m1) In,b(m1) b(m) = In,b(m1) b(m1) + U [b(m1) ] (8.34)

Es decir,

Se sigue entonces de las proposiciones 8.2 y 8.3 que, para j = 1, . . . , s, la componente j - esima del segundo t ermino de la ecuaci on (8.34) puede expresarse as
s n k=1 i=1

Manuales Uex

En denitiva, si consideramos la matriz W denida en el corolario 8.4 y valorada en a la soluci on al sistema de ecuaciones linales siguientete b(m1) , el vector b(m) ser

[Yi g 1 (Xi b(m1) )] Xij Xij Xik bk 2 + (m1) 1 varb(m1) [Yi ] g g 1 Xi b(m1) varb(m1) [Yi ] g g (Xi b ) i=1
(m1)

X W Xb(m) = X W z,

(8.35)

242

MODELOS LINEALES
Y CONTRASTE DE DE HIPOTESIS 8.4. ESTIMACION siendo z el vector de Rn de componentes zi =
s k=1

243

Xik bk

(m1)

+ Yi g 1 (Xi b(m1) ) g g 1 Xi b(m1) ,

1in

En ese sentido y teniendo en cuenta (3.47), puede entenderse b(m) como una especie de soluci on m nimo-cuadr atica generalizada. La ecuaci on (8.35) es, en denitiva, la que debe resolverse en cada paso. Puede demostrarse (cuesti on propuesta) que, en las condiciones del primer ejemplo, dedicado al modelo lineal con varianza conocida, se tiene que W = Id y zi = Yi , para todo i, por lo que estaremos buscando, para todo m N, una soluci on al sistema de ecuaciones lineales (8.31), o bien a (8.32) si la expresamos en los t erminos originales. En consecuencia, estamos considerando la propia soluci on m nimo-cuadr atica (7.9). El modelo que estudiamos en este cap tulo reposa en una serie de hip otesis, entre las que se encuentra que la existencia de X Rs tal que g (i ) = Xi para todo i. Vamos a proponer a continuaci on un procedimiento para contrastar dicha hip otesis, lo cual puede entenderse parcialmente como una prueba de bondad de ajuste. Es otesis anterior es completamente vacua, pues cualquier base obvio que si s = n, la hip n a un ajuste perfecto, en cuyo caso los datos obtenidos tendr an de R proporcionar una m axima verosimilitud. El t ermino y su EMV se denotar an en ese caso por MV MV max ). a pues un m aximo valor para 2l( m ax y max , respectivamente. Se obtendr Lo que se espera, si el modelo que proponemos es correcto, es que la diferencia MV ) sea peque na. Ello es un indicio de que el modelo reducido con el t ermino 2l( con s par ametros puede hacer sucientemente veros miles nuestras observaciones. En denitiva, denominamos devianza a la diferencia MV )], MV max ) l( D = 2[l( es decir MV ) l(max )] D = 2[l( max MV 2[l( ) l( )] Como vemos, D se obtiene sumando esa diferencia positiva constante (tercer sumando) a la que hac amos alusi on anteriormente dos t erminos aleatorios que se restan (primer y segundo sumandos). En virtud del teorema 8.7, el primer t ermino sigue

243

Manuales Uex

+ 2[l(max ) l( )]

jess montanero fernndez


244 CAP ITULO 8. MODELOS LINEALES GENERALIZADOS

ermino que se resta sigue aproximadamente una distribuci on 2 n , mientras que el t . Llegamos al punto m as conictivo: si ambos aproximadamente una distribuci on 2 s son independientes, cosa que no sucede en general, dicha diferencia debe seguir, aproximadamente, un modelo de distribuci on 2 ns . En ese caso, si el modelo es correcto, se espera que el u ltimo sumando sea pr oximo a 0 y que, por lo tanto, D siga aproxi madamente una distribuci on 2 ns , de manera que un valor de D por encima de ns puede conducirnos a desechar el modelo con s par ametros. Este procedimiento puede utilizarse tambi en para eliminar algunos de los par ametros del modelo, es decir, para contrastar hip otesis del tipo H0 : r+1 = . . . = s = 0 Efectivamente, si reducimos a r la dimensi on de obtendremos un nuevo par ametro MV . En ese y un nuevo EMV del mismo que se denotar an, respectivamente, por 0 y 0 MV 0 )] MV ) l( caso, si la hip otesis inicial es correcta, cabe esperar que la diferencia 2[l( sea pr oxima a 0. Dicha diferencia puede expresarse mediante D = D0 D1 donde D0 expresa la devianza del modelo reducido y D1 la del original. Si se dieran las condiciones de independencia adecuadas, cosa que sucede en el modelo lineal normal con varianza conocida, y el modelo reducido es correcto, cabr a esperar que D se pues, se puede optar por distribuya aproximadamente seg un un modelo 2 sr . As , desechar la reducci on cuando D > 2 sr . Desde luego, no es necesario advertir al lector que considerar este tipo de procedimientos como un tests de hip otesis a todos los efectos se antoja bastante aventurado. No es ese, sin embargo, el caso del caso del modelo lineal normal con varianza conocida, pues se verica tambi en la independencia entre D1 y D, lo cual supone una aproximaci on a la distribuci on Fsr,ns de D/D1 si el modelo reducido es correcto. De hecho, se puede comprobar (cuesti on propuesta) que en dicho modelo, se obtiene una distribuci on F -Snedecor exacta. Adem as, ya hemos visto en su momento c omo se trabaja con este modelo: se dividen los datos originales por 2 . En ese caso, el cociente anterior no depende del valor de 2 , por lo que el procedimiento para contrastar la hip otesis anterior es igualmente viable en el caso general de que la varianza no se conozca. Curiosamente, puede comprobarse (cuesti on propuesta) que este procedimiento es el propio test F . Para m as detalles consultar Doob (1990). Queda pues claro que los procedimientos estudiados en este cap tulo generalizan los ya vistos en los anteriores.

244

Manuales Uex

MODELOS LINEALES
Y CONTRASTE DE DE HIPOTESIS 8.4. ESTIMACION 245

Cuestiones propuestas
1. Probar el lema 8.1. 2. Probar las proposiciones (8.2) y (8.3). 3. Probar (8.15). 4. Obtener las matrices de informaci on para los modelos (8.8 ), (8.9), (8.10) y (8.16). 5. Obtener los intervalos de conanza (8.29) y la regi on de conanza (8.30). 6. Probar el teorema 8.7. 7. Probar que en el modelo de regresi on lineal normal con r+1 = . . . = s = 0, se verica D0 D1 Fsr,ns D1 Probar que el procedimiento para contrastar la hip otesis anterior coincide con el test F . 8. Probar que, en las condiciones del modelo lineal general con varianza conocida, etodo (8.35) se se tiene que W = Id y zi = Yi , para todo i, por lo que el m reduce a buscar la soluci on m nimo-cuadr atica (7.9). 9. En qu e aspectos relativos a la estimaci on y contraste de hip otesis podemos armar que los procedimientos estudiados en este cap tulo generalizan los ya conocidos de los cap tulos anteriores?

245

Manuales Uex

MODELOS LINEALES

Cap tulo 9 Ap endice


En este cap tulo abordamos un sucinto estudio de una serie de temas que estimamos necesarios para el correcto seguimiento de nuestra teor a. En primer lugar, repasaremos una serie de deniciones y resultados fundamentales de la teor a matri cial y, en denitiva, del Algebra Lineal, cuya relaci on con el Modelo Lineal resulta obvia; a continuaci on, en las dos secciones siguientes, realizamos un brev simo repaso de las nociones fundamentales de Probabilidad y Estad stica, imprescindible para una exposici on rigurosa de la materia; posteriormente, se expone someramente en qu e consiste y c omo se aplica el principio de Invarianza, el cual tendr a una enorme trascendencia en la justicaci on del test F; por u ltimo, se presentan las nociones y resultados fundamentales de la teor a asint otica que se utilizar an para analizar el comportamiento l mite de los estimadores y tests de hip otesis obtenidos en la teor a.

9.1.

Resultados de Algebra Matricial

En esta secci on nos limitamos a exponer una serie de resultados relativos al Algebra Lineal que ser an de utilidad en nuestra teor a. Aparte de esto, podemos encontrar en la secci on 7.1 un amplio estudio del concepto de inversa generalizada de una matriz. Recordamos, en primer lugar, algunas deniciones. Dada una matriz A Mnn (entendemos que sus coecientes son reales), C se dice autovalor de A cuando es ra z del polinomio de grado n p(x) = |A xId|, lo cual signica que existe un vector e Cn tal que Ae = e. En ese caso, decimos que e es un autovector asociado al autovalor , lo cual vale para toda la recta e. Consideremos y = (y1 , . . . , yn ) y x = (x1 , . . . , xn ) dos vectores cualesquiera de 247

247

Manuales Uex

jess montanero fernndez


248 CAP ITULO 9. APENDICE

Rn . Se dice que x e y son perpendiculares u ortogonales cuando n xi yi = 0,


i=1

(9.1)

y la distancia eucl dea entre dos vectores mediante n d(x, y ) = (xi yi )2 .


i=1

lo cual se denota mediante x y . Se dene la norma eucl dea de cada vector mediante n x2 (9.2) x = i
i=1

(9.3)

Por lo tanto, la regi on del espacio formada por los puntos cuya distancia respecto a x sea igual a un cierto n umero positivo k es un esfera. El cuadrado de la distancia puede expresarse de esta forma y x2 = (y x) Id(y x).

Si sustituimos la matriz identidad por cualquier matriz sim etrica denida positiva A, la regi on anterior ser a un elipsoide, cuyas caracter sticas depender an de los autovectores y autovalores de A (ver teorema de diagonalizaci on). Una expresi on de este tipo pueden encontrarse en la densidad de la distribuci on normal multivariante. Una sistema de vectores de Rn se dice ortonormal cuando los vectores son de norma eucl dea 1 y ortogonales entre s . Una matriz Mnn se dice ortogonal cuando es su inversa, lo cual equivale a armar que sus columnas constituyen una base ortonormal de Rn . En ocasiones las denominaremos rotaciones, ya veremos por qu e. El conjunto de todas las matrices ortogonales de orden n se denotar a por On . Dado un subespacio vectorial V Rn , V denota el subespacio vectorial de dimensi on n dimV constituidos por todos los vectores ortogonales a V . Asimismo, on dimV dimW . si W V, V |W denotar a el subespacio V W , de dimensi etrica1 y verica Una matriz A Mnn se dice semidenida positiva cuando es sim n on permite que e Ae 0, para todo e R , en cuyo caso se denota A 0. Esta denici establecer un preorden en Mnn . Concretamente,

Manuales Uex

Decimos que A es denida positiva cuando verica e Ae > 0, para todo e Rn \{0}, en cuyo caso se denota A > 0.
1 En rigor, no es necesario que la matriz sea sim etrica para que sea denida positiva, pero en nuestra teor a lo supondremos siempre.

A B cuando x Ax x Bx, para todo x Rn .

(9.4)

248

MODELOS LINEALES
9.1. RESULTADOS DE ALGEBRA MATRICIAL 249

Diagonalizaci on
Dada una matriz A Mnn , se denen sus autovalores como las ra ces del polinomio en x |A xId|. Por lo tanto, C es un autovalor de A cuando existe un vector e Cn tal que Ae = e. En ese caso, se dice que e es un autovector de A asociado al autovalor . Si R, podemos encontrar un autovector asociado de componentes reales. En nuestro caso, s olo consideraremos autovalores y autovectores de matrices sim etricas, lo cual facilitar a las cosas en virtud del siguiente resultado.

Lema 9.1.
Todos los autovalores de una matriz sim etrica son reales. Demostraci on. etrica y supongamos que existen a, b R, con b = 0 tales que Sea A Mnn sim a + bi es ra z del polinomio en p(x) = |A xId|. En ese caso, tambi en lo ser a a bi. Luego, la matriz B = [A (a + bi)Id][A (a bi)Id] = (A aId)2 + b2 Id es singular. Sea pues x = 0 tal que Bx = 0. Luego, con mayor raz on, x Bx = 0. Al ser A sim etrica se tiene que, si y = (A aId)x, 0 = x Bx = x (A aId) (A aId)x + b2 x x = y y + b2 x x. Siendo el primer sumando del u ltimo t ermino no negativo y el segundo estrictamente positivo, se llega a una contradicci on. En consecuencia, dado que s olo consideraremos autovalores de matrices reales sim etricas, tanto estos como las componentes de sus autovectores ser an reales. El resultado siguiente, cuya demostraci on es trivial, precede al m as importante de esta secci on.

Lema 9.2.

El siguiente resultado, denominado Teorema de Diagonalizaci on, permite expresar de forma natural cualquier matriz sim etrica. Para la demostraci on de la segunda parte del mismo se precisa del Teorema de los Multiplicadores Finitos de Lagrange,

249

Manuales Uex

Si A Mnn sim etrica y Mn n ortogonal, los autovalores de A coinciden con los de A.

jess montanero fernndez


250 CAP ITULO 9. APENDICE

que presentamos previamente. Este se divide en dos partes: la primera establece condiciones necesarias que debe vericar un extremos relativo condicionado; la segunda establece condiciones sucientes.

Teorema 9.3.
Sean n y m n umeros naturales tales que n < m y U Rm abierto. Consideremos las aplicaciones : U R y f : U Rn , ambas con derivadas parciales segunda continuas.Sean M = {x U : f (x) = 0} y c M. Supongamos que el rango de fi la matriz xk (c) es n, y que existe un vector Rn tal que ( f )(c) = 0. aximo (m nimo) relativo en c, es condici on suciente Entonces, para que |M tenga un m que D2 L (c)(h, h) < 0 (respectivamente > 0) cada vez que h Rm \ {0} verique que Dfi (c)(h) = 0, i = 1, . . . , n, donde L = f.

Obs ervese la analog a que guarda con las condiciones necesaria y suciente para m aximos y m nimos no condicionados. La primera parte (necesariedad) se obtiene como aplicaci on del teorema de la funci on impl cita, mientras que la segundo (suciencia) se deduce del teorema de Taylor. Para m as detalles, consultar Fdez. Vi nas II, pag. 126. Dicho esto, vamos a enunciar el teorema fundamental al que hac a alusi on anteriormente.

Teorema 9.4 (Diagonalizaci on).


Si A Mnn sim etrica, existe una matriz n n ortogonal y una matriz n n diagonal =diag(1 , . . . , n ), con 1 . . . n , tales que A = . En ese caso, los i s son los autovalores de A y las columnas i s de constituyen una base ortonormal de autovectores asociados, siendo igualmente v alida cualquier otra base ortonormal de autovectores asociados. Se verica, adem as, que 1 = A , 2 Rn \{0} sup A , 2

alcanz andose en = 1 , y que, para cada i = 2, . . . , n, i = sup


1 ,...,i1

Manuales Uex 250

alcanz andose el m aximo en = i . Demostraci on. Sean 1 , . . . , n los autovalores (reales) ordenados de A y 1 un autovector asociado

MODELOS LINEALES
9.1. RESULTADOS DE ALGEBRA MATRICIAL 251

a 1 tal que 1 = 1. Podemos considerar e2 , . . . , en Rn tales que {1 , e2 , . . . , en } constituyan una base ortonormal de Rn . Sea entonces S1 Mnn cuyas columnas son los vectores de la base por el mismo orden. Si se denota B1 = (e2 . . . en ) Mn(n1) , AS1 es sim etrica, se verica, teniendo en cuenta que S1 0 1 1 1 A(1 |B1 ) = (1 1 |AB1 ) = . S1 AS1 = B1 B1 0 B1 AB1
Sea A1 = B1 AB1 M(n1)(n1) sim etrica. Por el lema anterior, los autovalores de AS1 coinciden con los de A. Luego, los autovalores de A1 son 2 , . . . , n . El proceso S1 andose una descomposici on de la forma se repite an alogamente con A1 , consider 2 0 , S2 A1 S2 = 0 A2

siendo S2 M(n1)(n1) ortogonal, y as hasta agotar los n autovalores, tras lo cual, habremos obtenido una serie de matrices cuadradas ortogonales S1 , . . . , Sn , donde cada Si es de orden n (n + 1 i), tales que, si se dene, 1 = S1 y, para cada i = 2, . . . , n, Idi1 0 Mnn , i = 0 Si entonces n . . . 1 A1 . . . n = 1 ... 0 n 0 .

Considerando = n . . . 1 , se tiene que A = D , lo cual implica, adem as, que A = D, de lo que se deduce que las columnas de constituyen una base ortonormal de autovectores asociados a los autovalores 1 , . . . , n , respectivamente. Si es otra base ortonormal de autovectores asociados, se verica trivialmente que A = D. Veamos que 1 = que coincide, trivialmente, com A , 2 Rp \{0} sup

Consideramos las funciones () = A y f () = 1, y el conjunto M = aximo relativo a M { Rn : f () = 0}, que es compacto, por cual alcanza m

251

Manuales Uex

m ax{ A : Rn = 1}.

jess montanero fernndez


252 CAP ITULO 9. APENDICE

en cierto elemento . Luego, por el teorema 9.3, existe un u nico R tal que ( f )( ) = 0, es decir, 2(A ) = 0 y, por tanto, A = . Por lo tanto, es un autovector asociado al autovalor . Realmente, si x Rn es un autovector on de norma 1 asociado a un autovalor , entonces x Ax = . Como la anterior funci se maximiza en , se tiene que = 1 y = 1 . El siguiente paso es encontrar on anterior m ax{ A : = 1 1 = 0}. Se trata pues de maximizar la funci pero restringida al compacto donde se anula la funci on 1 f () = . Aplicando el teorema 9.3 se deduce la existencia de , R tales que, si el m aximo se alcanza en Rn , 2A 2 1 = 0. Por lo tanto, multiplicando por 1 se tiene que
21 A = 0.

Dado que 1 = 2 , . . . , n , y teniendo en cuenta que A = D, se deduce que el primer sumando es nulo. Luego, = 0 y estamos en denitiva en las mismas condiciones del primer paso. Por lo tanto, = 2 y = 2 . El proceso se repite an alogamente hasta completar los n autovalores. Obs ervese que, si los autovalores de la matriz son distintos, la descomposici on es u nica salvo reexiones de los autovectores. En caso contrario, ser a u nica salvo reexiones y rotaciones de estos. El siguiente corolario es inmediato:

Corolario 9.5. (i) Dos autovectores asociados a distintos autovalores de una matriz
sim etrica son ortogonales. (ii) Si A es sim etrica, su rango coincide con el n umero de autovalores no nulos. (iii) Si A 0, sus autovalores son todos no negativos. Si A > 0, son todos estrictamente positivos. (iv) Si A 0, existe2 una matriz sim etrica A1/2 tal que A = A1/2 A1/2 . Si A > 0, existe tambi en una matriz sim etrica A1/2 tal que A1 = A1/2 A1/2 . (v) Si A 0, existe una matriz X con las mismas dimensiones tal que A = X X.
2

Manuales Uex

En Arnold(1981) se prueba adem as la unicidad.

252

MODELOS LINEALES
9.1. RESULTADOS DE ALGEBRA MATRICIAL 253

(vi) Dada A Mnn semidenida positiva de rango r, existe X Mnr de rango r tal que A = XX . (vii) La traza de una matriz sim etrica es la suma de sus autovalores y el determinante, el producto de los mismos. El siguiente resultado, corolario del teorema 9.4, permite obtener un especie de diagonalizaci on para cualquier matriz, sea o no sim etrica.

Teorema 9.6.
Dadas A Mmp de rango r, existen una matriz D = diag(1 , . . . , r ) con elementos positivos y ordenados de mayor a menor, y otras dos matrices N Om y M Op vericando D 0 M . (9.5) A=N 0 0 Demostraci on. Sea = diag(d1 , . . . , dr , 0) la matriz diagonal de orden p de los autovalores ordenados de A A y H una matriz p p cuyas columnas h1 , . . . , hp constituyen una base ortonormal de autovectores respectivos. El teorema de diagonalizaci on permite armar arma que A A = H H . Consideremos r y Hr las submatrices de y H constituidas respectivamente por los r primeros autovalores y sus correspondientes autovectores. Denamos
1/2 Gr = AHr . r

Se verica entonces que Gr Gr = Idr . Por lo tanto, sus columnas pueden completarse hasta obtener una matriz ortogonal de orden m que se denota por G. En ese caso, si 1/2 se denota D = r , se tiene que D 0 , G AH = 0 0 de lo cual se sigue que A=G

Exponemos a continuaci on un resultado relacionado con la matriz de covarianzas parciales, de gran utilidad cuando se estudie el problema de multicolinealidad.

253

Manuales Uex

D 0 0 0

H .

jess montanero fernndez


254 CAP ITULO 9. APENDICE

Lema 9.7.
Consideremos una matriz cuadrada S= S11 S12 S21 S22 .

1 S21 |. (i) Si S22 es invertible, entonces |S | = |S22 | |S11 S12 S22

as, si la inversa de S es (ii) Si S > 0, entonces S22 > 0. Adem V11 V12 , V = V21 V22
1 1 = S11 S12 S22 S21 . se verica que V11

Demostraci on. 1 S21 . Si S22 es invertible, se verica que S = T U T , Den otese S112 = S11 S12 S22 donde 1 S112 0 Id S12 S22 Id 0 , T = , U= . T = 1 0 Id S21 Id 0 S22 S22 Se tiene tambi en que U= En consecuencia, con lo cual queda probado (i). Demostremos (ii): si S > 0, podemos expresarla de la forma S = X X , teniendo X las mismas dimensiones que S . Descompongamos X X2 . Adem as, por columnas en (X1 |X2 ). En ese caso, S22 = X2 S12 = X X2 . S22 Se tiene entonces que rg S12 S22 rg(X2 ) = rg(S22 ). |S | = |T | |U | |T | = |S22 | |S112 |, S112 0 0 Id Id 0 0 S22 .

Manuales Uex 254

en es Luego, S22 es no singular. Se sigue entonces de la primera parte que tambi acilmente que invertible S112 . Puede comprobarse f 1 1 Id S12 S22 S112 0 Id 0 1 , ( T ) = T 1 = , U 1 = . 1 1 0 Id S21 Id 0 S22 S22
1 Por lo tanto, V = S 1 = (T )1 U 1 T 1 . Operando se obtiene que V11 = S11 2 .

MODELOS LINEALES
9.1. RESULTADOS DE ALGEBRA MATRICIAL 255

Miscel anea
A continuaci on expondremos una serie de resultados de diversa ndole que servir an de herramienta en las teor as de Modelos Lineales y An alisis Multivariante. El siguiente lema, de car acter especialmente t ecnico, ser a de utilidad cuando abordemos el an alisis de los residuos.

Lema 9.8.
Dados A Mnn denida positiva y b Rn tales que b A1 b = 1, se tiene que 1 1 1 (A bb )1 = A1 + 1 b A1 b A b bA .

Demostraci on. Basta multiplicar la matriz A bb por el t ermino de la derecha y tener en cuenta que umero real y que, por lo tanto, b(b A1 b)b A1 equivale a (b A1 b)bb A1 . b A1 b es n A continuaci on dos resultados de inter es en An alisis Multivariante:

Teorema 9.9.
Sean S y U matrices p p sim etricas, denida positiva y semidenida positiva, respectivamente, y sea el polinomio en t p(t) = |U tS |. Entonces, p(t) tiene todas sus ra ces andose que reales y no negativas, t1 . . . tp , veric ax t1 = m p
xR

x U x . \{0} x Sx

Adem as, existe una matriz A Mpp tal que ASA = Idp ,

Demostraci on. Siendo S > 0, se verica

AU A =

t1 0

0 ... tp

|U tS | = |S 1/2 ||S 1/2 U S 1/2 tId||S 1/2 | = |S 1/2 |2 ||S 1/2 U S 1/2 tId|.

(9.6)

S 1/2 U S 1/2 = D ,

255

Manuales Uex

Dado que S 1/2 U S 1/2 0, existen una matriz p p ortogonal y una matriz diagonal D = diag(t1 , . . . , tp ) tales que

jess montanero fernndez


256 CAP ITULO 9. APENDICE

siendo t1 , . . . , tp los autovalores ordenados de S 1/2 U S 1/2 , que, por (9.6), coinciden con las ra ces ordenadas p(t). Adem as, ser an todos no negativos, y si U > 0, ser an estrictamente positivos. Por lo tanto S 1/2 U S 1/2 = D, S 1/2 S ( S 1/2 ) = Id.

as, en virtud del teorema 9.4 y Luego, el teorema se satisface con A = S 1/2 . Adem considerando el cambio de variables Z = S 1/2 X , se sigue que t1 = m ax p
z R

z S 1/2 U S 1/2 z x U x = m a x , 2 \{0} xRp \{0} x Sx z

lo cual acaba la demostraci on.

Teorema 9.10.
Para toda S Mpp semidenida positiva existe una matriz C Mpp triangular superior tal que S = CC . Demostraci on. Sabemos que existe B Mpp tal que S = BB . Entonces, para cada Mpp ortogonal se tiene que S = (B )(B ) . Luego, basta probar que, para cada B Mpp , existe ortogonal tal que B es triangular superior. Si b1 , . . . , bp M1p son las las de B , construiremos de tal manera que sus columnas, 1 , . . . , p Rp sean de norma 1 y satisfagan 1 b2 , . . . , bp ,
i 1 , . . . , i1 , bi+1 , . . . , bp ,

i = 2, . . . , p.

Puede comprobarse f acilmente que es ortogonal y B es triangular superior. El teorema siguiente se utiliza, por ejemplo, en la segunda reducci on por invarianza para obtener el test F.

Lema 9.11.
Sean X Mpk de rango r y U Mrk de rango r tales que X X = U U. Entonces, existe una matriz Mpp ortogonal tal que U X = . 0 Demostraci on. Consideremos el subespacio V Rp generado por los vectores columnas de de X y

256

Manuales Uex

MODELOS LINEALES
9.1. RESULTADOS DE ALGEBRA MATRICIAL 257

sea R Mp(pr) cuyas columnas constituyen una base ortonormal de V . Dado que rg(U ) = rg(U U ) = r, U U es una matriz invertible. Consideremos entonces (U U )1 U X Mpp . = R Esta matriz es ortogonal, pues (U U )1 U U U U (U U )1 (U U )1 U X R = Id. = R R R XU (U U )1 Adem as, X = como quer amos demostrar. (U U )1 U U U R X = U 0 ,

Teorema 9.12.
Sean X, Y Mpk . Se verica entonces que X X = Y Y si, y s olo si, existe una matriz Mpp ortogonal tal que Y = X. Demostraci on. on. Si Obviamente, si Y = X, entonces Y Y = X X. Veamos la otra implicaci r = rg(X ), entonces rg(Y ) = rg(Y Y ) = rg(X X ) = rg(X ) = r. En virtud del corolario 9.5(vi), existe una matriz U r k de rango r tal que U U = X X = Y Y. Aplicando el lema anterior a X X y a Y Y, se deduce la existencia de sendas matrices p p ortogonales, 1 y 2 , tales que U 1 X = = 2 Y. 0 Basta pues considerar = 2 1 para obtener el resultado deseado. N otese que, si k = 1, estamos armando que X = Y si, y s olo si, existe una matriz Mpp ortogonal tal que Y = X. Por ello se identican las matrices ortogonales con las rotaciones y la norma eucl dea constituye un invariante maximal para el grupo de las rotaciones. El siguiente resultado ser a de utilidad para justiquemos el test F en el modelo de Correlaci on.

Teorema 9.13.
Sean X, Y Mpk y S, T Mpp denidas positivas. Si X S 1 X = Y T 1 Y, existe una matriz A Mpp invertible tal que Y = AX y T = ASA .

257

Manuales Uex

jess montanero fernndez


258 CAP ITULO 9. APENDICE

Demostraci on. Aplicando el teorema anterior a S 1/2 X y T 1/2 Y, se deduce la existencia de una matriz Mpp ortogonal tal que T 1/2 Y = S 1/2 X, es decir, Y = (T 1/2 S 1/2 )X. Adem as, (T 1/2 S 1/2 )S (T 1/2 S 1/2 ) = T. Luego, considerando A = T 1/2 S 1/2 obtenemos el resultado deseado. El siguiente teorema es de utilidad a la hora de encontrar el estimador de m axima verosimilitud en el modelo de correlaci on. Necesita un lema previo.

Lema 9.14.
Sea h una aplicaci on que asigna a cada matriz U Mpp denida positiva el n umero 1 1 exp tr(U 1 ) . h(U ) = |U |n/2 2
1 Entonces h alcanza el m aximo en U = n Id.

Por lo tanto, h puede considerarse como una funci on g (t1 , . . . , tp ). Veamos que g alcanza un m aximo en (R+ )p . Dado que g (t1 , . . . , tp ) cuando cada ti , i = 1, . . . , p, podemos restringir la b usqueda del m aximo a una regi on del tipo (0, M ]p . Teniendo en cuenta que g se anula cuando cualquier ti vale 0, ello equivale a buscar aximo se alcanza con el m aximo en el compacto [0, M ]p . Siendo g continua, este m certeza en cierto punto, en el cual deben anularse las las derivadas parciales n 1 g (t1 , . . . , tp ) = g (t1 , . . . , tp ), i = 1, . . . , p. ti 2ti 2

Demostraci on. Si t1 . . . tp > 0 denotan los autovalores ordenados de U 1 , h(U ) puede expresarse como p n/2 p 1 ti exp ti . h(U ) = 2 i=1 i=1

Manuales Uex

Dado que g no se anula en (R+ )p , se tiene que g (t1 , . . . , tp ) = 0, i = 1, . . . , p ti t1 = . . . = tn = n.

258

MODELOS LINEALES
9.1. RESULTADOS DE ALGEBRA MATRICIAL 259

Por lo tanto, el m aximo se alcanza cuando todos los autovalores de U son iguales a 1/n. Luego, por el teorema 9.4, se sigue que U = (1/n)Id.

Teorema 9.15.
Sean A una matriz p p denida positiva y f la funci on que asigna a cada matriz U 1 2 tr(U 1 A) . Entonces, dicha funci on del mismo tipo el n umero f (U ) = |U |1 n/2 exp 1 alcanza el m aximo en U = n A. Demostraci on. Se verica que f (U ) = 1

donde h se dene como en el lema anterior. Por lo tanto, f alcanza el m aximo cuando A1/2 U A1/2 =
1 o, equivalentemente, cuando U = n A.

|A1/2 |n |A1/2 U A1/2 |n/2 1 = h A1/2 U A1/2 , |A1/2 |n

1 1 exp tr A1/2 U A1/2 2

1 Id n

Proyecci on Ortogonal
Se trata de un concepto denible no s olo en Rn , sino en cualquier espacio de Hilon bert. Dado E un espacio R-vectorial3 , un producto interior sobre E es una aplicaci , de E E en R sim etrica y tal que, para todo e E, las aplicaciones e, y , e son lineales. En ese caso, se dice que e1 y e2 son perpendiculares u ortogonales cuando e1 , e2 = 0, en cuyo caso se denota e1 e2 . Dado un subconjunto S E, en se denota por S la se denota e1 S cuando e1 e2 para todo e2 S . Tambi familia de los vectores ortogonales a todos los de S . Todo producto interior induce de forma natural una norma denida mediante e = e, e1/2 , la cual induce a su vez ltimo, dicha distancia induce una topolog a una distancia d(e1 , e2 ) = e1 e2 . Por u sobre E. Si el espacio topol ogico resultante es completo se dice de Hilbert. Como ejemplo tenemos el espacio Rn dotado del producto interior x, y = x y =
3

xi y i ,

(9.7)

i=1

Podr amos considerar son problemas espacios C-vectoriales.

259

Manuales Uex

jess montanero fernndez


260 CAP ITULO 9. APENDICE

denominado com unmente producto escalar y del cual proviene la noci on de ortogonalidad denida en (9.1) junto con la norma y distancia eucl deas denidas en (9.2) nico caso espacio que manejemos. Tambi en y (9.3), respectivamente. No ser a Rn el u se considerar a mas adelante el espacio L2 de las variables aleatorias de cuadrado integrable sobre un cierto espacio de probabilidad. Dado un subespacio lineal cerrado S E , se dene la proyecci on ortogonal sobre nico vector s S tal que S como la aplicaci on PS que asigna a cada vector e E el u as pr oximo a e seg un la e s S . Puede probarse4 que se trata del vector de S m distancia inducida por el producto interior. Dicha aplicaci on es lineal y sobreyectiva. E e

e PS e

PS e

S En el caso de un subespacio lineal V Rn (dotado del producto escalar) de a con una matriz n n de rango k , que se dimensi on k , la aplicaci on PV se identicar as, como probaremos a continuaci on, denotar a igualmente por PV . Se verica adem que dada X Mnk una base de V , PV = X (X X )1 X . (9.8) La anterior expresi on tiene sentido, pues rg(X ) = rg(X X ) = k, es decir, X X es as, dado invertible. As pues, dado u Rn , se tiene que X (X X )1 X u V. Adem cualquier y Rk , se tiene que u X (X X )1 X u, Xy = u Xy u X (X X )1 X Xy = 0,

Manuales Uex

es decir, que u X (X X )1 X u V . Adem as, X (X X )1 X u es el u nico vector de V que lo verica pues, si existiesen dos vectores v1 , v2 V tales que u v1 , u v2 V , as, dado que entonces se tendr a que v1 v2 V V = 0. Adem rg X (X X )1 X = rg(X ) = k,
4

Rudin (1979).

260

MODELOS LINEALES
9.1. RESULTADOS DE ALGEBRA MATRICIAL 261

la aplicaci on es sobreyectiva. Por lo tanto, la proyecci on ortogonal est a bien denida y es, efectivamente, una aplicaci on lineal sobreyectiva cuya matriz es (9.8). N otese que, si X es una base ortonormal de V , entonces PV = XX . 2 etrica e idempotente, es decir, verica que PV = PV . Puede La matriz PV es sim demostrarse, rec procamente (ver, por ejemplo, Arnold (1981)), que toda matriz n n sim etrica e idempotente de rango k es la matriz de la proyecci on ortogonal sobre el subespacio k -dimensional de Rn generado por sus vectores columna. Veamos algunas propiedades elementales de la proyecci on ortogonal en Rn .

Proposici on 9.16.
Sean V, W Rn , con W V. Se verica: (i) PV = PV |W + PW . (ii) Para todo y Rn , PV y 2 = PW y 2 + PV |W y 2 . En particular, y 2 = PV y 2 + PV y 2 . (iii) PV y = y sii y V. (iv) PW PV = PW . (v) trPV = dimV . (vi) PV = Id PV . Obviamente, todas estas propiedades excepto (v) pueden extenderse a cualquier espacio de Hilbert. Asimismo, el concepto de proyecci on ortogonal posee pleno sentido cuando en lugar de subespacios lineales consideramos subvariedades anes. As , puede demostrarse f acilmente que, dados un subsepacio lineal V Rn y un vector x Rn \{0}, Px+V u = x + PV (u x). Hemos de tener en cuenta que, para cada v V, se verica Px+V = P(x+v)+V . (9.9)

tr(A B ) =

p n i=1 j =1

aij bij ,

261

Manuales Uex

Por u ltimo, el producto interior denido en Rn puede extenderse a las matrices cuadradas de orden n como sigue. Dadas dos matrices A, B Mnp , con componentes aij y bij , respectivamente, donde i = 1, . . . , n y j = 1, . . . , p,, se verica

jess montanero fernndez


262 CAP ITULO 9. APENDICE

es decir, tr(A B ) se entiende como el producto interior de los vectores np-dimensionales que se obtienen al leer las matrices de cualquier forma (pero de igual manera en ambas). En ese sentido, podemos arma que la tr(A B ) generaliza el producto interior de dos vectores, de ah que denamos A, B := tr(A B ), A, B Mnp .

Por u ltimo, dadas A, B, C matrices cuadradas de orden n, se verica que tr(ABC ) = tr(CAB ) = tr(BAC ).

Proposici on 9.17.
Dadas A, B y C , se verica, siempre y cuando tengan sentido los productos, que tr(A B ) = tr(B A) = tr(AB ) = tr(BA ), tr(ABC ) = tr(BCA) = tr(CAB ).

9.2.

Generalidades sobre Probabilidad

En esta secci on y en la siguiente presentamos una miscel anea de deniciones y resultados fundamentales que ser an necesarios en nuestra teor a. Dado que la probabilidad se entiende formalmente como una medida de extensi on 1, haremos uso de diversos conceptos y resultados de la Teor a de la Medida, que daremos por conocidos5 .

Deniciones b asicas
Para empezar, un espacio medible es un par (, A), donde denota un conjunto no vac o y A una - algebra de P (). Lo m as com un es que sea un subconjunto de un n 1, o una colecci on numerable de elementos, interior no vac o de Rn , para alg por ejemplo N. En el primer caso, se considera normalmente la - algebra de Borel, que es la generada por los conjuntos abiertos y se denota por Rn 6 ; en el segundo, se considera P (). Una probabilidad P sobre (, A) es una medida positiva de extensi on 1 sobre dicho espacio. La terna (, A, P ) constituye un espacio de probabilidad. Una variable aleatoria ser a una funci on X medible de (, A) en otro espacio (X , AX ). Se dice
Pueden consultarse, por ejemplo, en Ash (1972(, Billinsley (1986) o Nogales (1998). Coincide con el producto cartesiano n veces consigo misma de la - algebra de Borel en R, que se denota por R.
5 6

262

Manuales Uex

MODELOS LINEALES
9.2. GENERALIDADES SOBRE PROBABILIDAD 263

real cuando el espacio de llegada es R (se entiende que R est a provisto de - algebra de Borel). En todo caso, X induce en el espacio de llegada una nueva probabilidad P X , denida mediante P X (B ) = P (X 1 (B )), para todo B AX . Si X es real, la a referencia a la integral de X expresi on EP [X ], denominada esperanza de X , har respecto de P, siempre y cuando exista. Esta denici on puede hacerse extensiva a variables aleatorias con valores en C, suponiendo C dotado de la - algebra de Borel a como EP [X k ], siempre R2 . Dado k N, el momento de orden k de X se denir y cuando exista. Se dene la funci on caracter stica de una variable aleatoria real X mediante X (t) = EP [exp{itX }], t R. Esta funci on, bien denida sobre toda la recta real y con valores complejos, viene a caracterizar, en virtud del Teorema de Inversi on de Levy, a la probabilidad P X . De manera an aloga se dene la funci on generatriz de momentos gX (t) = EP [exp{tX }], t R.

Cuando esta funci on est a bien denida en un entorno de 0, queda garantizada la existencia de todos los momentos de P X , que se obtienen a partir de gX mediante EP [X k ] = gX (0). La funci on de distribuci on de X se dene mediante FX (t) = P (X t), t R.
(k)

Esta funci on es no decreciente, continua por la derecha y tal que l mt F (t) = 0 on caracter stica, determina de manera y l mt+ F (t) = 1. Al igual que la funci umero un voca la probabilidad P X . Dado (0, 1), se denota por [P X ] al cualquier n ay real tal que FX [P X ] = 1 , si es que existe. Si FX es continua, [P X ] existir ser au nico para cualquier valor de . En general, las propiedades fundamentales de las tres funciones que hemos denido pueden encontrarse, por ejemplo, en Billingsley (1986). Un n-vector aleatorio real es una funci on medible Y de (, A, P ) en Rn , que induce pues, de manera natural, una nueva probabilidad sobre (Rn , Rn ) denominada stica y distribuci on de Y respecto a P y se denota por P Y . Las funciones caracter generatriz pueden denirse entonces mediante Y (t) = EP [exp{it, Y }], gY (t) = EP [exp{t, Y }],

Las propiedades de las funciones caracter stica e inversa se traducen de manera naa dominada tural del caso unidimensional al multidimensional. Se dice que P Y est

263

Manuales Uex

t Rn .

jess montanero fernndez


264 CAP ITULO 9. APENDICE

por una medida -nita sobre Rn cuando todo suceso -nulo es P Y -nulo. En tal on medible caso, el teorema de Radom-Nykodin7 garantiza la existencia de una funci n + f : R R tal que P (A) = f (x) d,
A

A Rn

Una funci on en tales condiciones se denomina funci on de densidad y caracteriza a la medida de plenamente la distribuci on P Y . En la mayor parte de las ocasiones ser ue como dominante y la integral anterior ser a la de Lebesgue. Lebesgue8 la que act En otros casos, Y tendr a como imagen un conjunto nito o numerable, con lo cual la medida cardinal sobre dicho conjunto ejercer a como dominante y la funci on de densidad ser a la funci on indicador del mismo. Por otra parte, se denota por Y1 , . . . , Yn las componentes de Y , que son variables ametro aleatorias reales. As , para cada i = 1, . . . , n, denimos como media de Yi al par EP [Yi ], siempre y cuando exista. La media suele denotarse mediante la letra , seguida en este caso del correspondiente sub ndice. Adem as, en la notaci on EP suele eliminarse el sub ndice P siempre y cuando no haya lugar a confusi on. Igualmente, si Yi posee momento de segundo orden nito, podemos denir el par ametro var[Yi ] = E[(Yi a positivo y nito. Suele denotarse mediante 2 i )2 ], denominado varianza, que ser seguida del correspondiente sub ndice. Por otra parte, dado i y j entre 1 y n, si Yi e Yj poseen momentos de segundo orden nitos podemos denir la covarianza entre ambas mediante cov[Yi , Yj ] = E[(Yi i )(Yj j )].

2 Se denotar a tambi en mediante ij . Obviamente, se tiene que ii = i . Adem as, se sigue de la desigualdad de Holder9 que

i j ij i j , lo cual invita a considerar el par ametro ij = ij [1, 1], i j (9.10)

denominado coeciente de correlaci on lineal simple. Las medias i , i = 1, . . . , n componen un vector media que se denota por E[Y ] 10 o, frecuentemente, por . Las

Manuales Uex

Ver Billingsley (1986) Ver Billingsley (1986) 9 Rudin (1979). 10 Estamos entendiendo pues que la esperanza de un vector aleatorio es el vector formado por las esperanzas de sus componentes.
7 8

264

MODELOS LINEALES
9.2. GENERALIDADES SOBRE PROBABILIDAD 265

varianzas y covarianzas componen a su vez una matriz que se denota por Cov[Y ] o, frecuentemente, mediante la letra , y que puede denirse matricialmente mediante Cov[Y ] = E[(Y )(Y ) ]. Esta matriz sim etrica es semidenida positiva. La suma de los elementos de su diagonal se denomina varianza total. De igual forma podemos hablar de una matriz de 1 1 D , siendo D la matriz diagonal correlaciones que se dene mediante P = D constituida por las varianzas. Dados A Mmn y b Rn , podemos considerar la acilmente que transformaci on af n AY + b, de (, A, P ) en Rm . Puede comprobarse f E[AY + b] = AE[Y ] + b, Cov[AY + b] = ACov[Y ]A . (9.11)

Dados dos vectores aleatorios Y1 e Y2 de (, A, P ) en Rn1 y Rn2 , respectivamente, decimos que son independientes cuando, para cada par de sucesos B1 de Rn1 y B2 deRn2 , se verica que P (Y1 B1 , Y2 B2 ) = P (Y1 B1 )P (Y2 B2 ). La denici on anterior sigue puede extenderse sin problemas al caso de k vectores aleatorios. Lo mismo ocurre con la que sigue: dados dos probabilidades P1 y P2 denidas sobre (1 , A1 ) y (2 , A2 ), respectivamente, se denota por P1 P2 la u nica probabilidad sobre el espacio producto (1 2 , A1 A2 ) tal que [P1 P2 ](A1 A2 ) = P1 (A1 )P2 (A2 ), B1 A1 , A2 A2 .

La existencia y unicidad de dicha probabilidad, denominada probabilidad producto, se deriva del Teorema de de la medida producto11 . Este producto puede extenderse al caso en el que una de las probabilidades sea de transici on: decimos que L, denida on cuando, para sobre A1 2 y con valores en [0, 1], es una probabilidad de transici on L(A1 , ) es medible y, adem as, para cada x2 2 , la funci on cada A1 A1 , la funci nica probabilidad L P2 sobre L(, x2 ) es una probabilidad. En ese caso, existe una u el espacio producto, denominada producto generalizado, tal que L(A1 , ) dP2 , A1 A1 , B2 A2 . [L P2 ](A1 A2 ) =
A2
11 Ver, por ejemplo, Billingsley (1986). Ver tambi en el teorema de Fubini y el de la medida producto generalizado. La extensi on al producto nito de probabilidades es trivial. En el caso innito, el producto puede construirse teniendo en cuenta el Teorema de Extensi on de Kolmogorov (Ash (1972)).

265

Manuales Uex

jess montanero fernndez


266 CAP ITULO 9. APENDICE

Obviamente, que dos vectores aleatorios Y1 e Y2 denidos en (, A, P ) sean independientes equivale a que la distribuci on conjunta P (Y1 ,Y2 ) sea el producto de las Y1 Y2 distribuciones marginales P y P . Consideremos el vector conjunto Y = (Y1 , Y2 ) , de (, A, P ) en Rn1 +n2 . Si Y1 e Y2 poseen momentos de orden 2 nitos podemos hablar de la media y matriz de varianzas-covarianzas de Y , que descomponen de la siguiente forma = 1 2 , = 11 12 21 22 . (9.12)

Se dice que Y1 e Y2 son incorrelados cuando 12 = 0. Es inmediato comprobar que la independencia implica incorrelaci on, aunque el rec proco no es cierto en general. No obstante, s que lo es bajo la hip otesis de normalidad multivariante, seg un se estudia en el cap tulo 1, dedicado al estudio de dicha distribuci on. Cuando la matriz es denida positiva tambi en lo es, en virtud del del lema 9.7, que tenga sentido denir la matriz la matriz 22 , de ah
1 112 = 11 12 22 21

(9.13)

denominada matriz de varianzas-covarianzas parciales de Y1 dado Y2 . En el caso umero no negativo n1 = 1, estaremos hablando de un n
2 2 1 11 2 = 1 12 22 21 ,

(9.14)

en el que denominaremos varianza parcial de Y1 dado Y2 . En ese caso, se dene tambi siguiente par ametro 1 1 2 (9.15) 12 = 2 12 22 21 1 denominado coeciente de correlaci on lineal m ultiple (al cuadrado) de Y1 respecto a on lineal simple Y2 . En el caso n2 = 1 estaremos hablando del coeciente de correlaci denido en (9.10). A continuaci on intentaremos ofrecer una interpretaci on geom etrica de todos los par ametros denidos.

Interpretaci on geom etrica de los par ametros

266

Manuales Uex

Es bastante habitual en Matem aticas en general, y en Probabilidad y Estad stica en particular, cuanticar los errores evaluando los cuadrados de las diferencias. Esta forma de proceder, a todas luces razonable, fue propuesta por el propio Gauss a nales del siglo XVIII. Se conoce como t ecnica de m nimos cuadrado. El propio

MODELOS LINEALES
9.2. GENERALIDADES SOBRE PROBABILIDAD 267

Gauss demostr o en 1829 un resultado conocido como Teorema de Gauss-Markov12 que explica el exito de esta t ecnica. No obstante, nuestra intenci on aqu es aclarar que esta forma de proceder posee una sencilla justicaci on en un marco formal m as general: el los espacios de Hilbert. El ejemplo m as inmediato de espacio de Hilbert es el propio Rn dotado del producto escalar. Esta consideraci on ser a de utilidad a la hora de interpretar los par ametros muestrales (estad sticos). El otro espacio de Hilbert a tener en cuenta y el que nos ata ne en esta secci on es L2 . Dado un espacio de probabilidad (, A, P ), se denota por L2 (, A, P ) el conjunto de las variables aleatorias13 reales de cuadrado integrable (es decir, de varianza nita). En dicho espacio podemos considerar el producto interior denido mediante f, g = f g dP, f, g L2 . (9.16)

La desigualdad de Holder garantiza que dicha integral existe y es nita. El producto interior induce una noci on de ortogonalidad y una norma sobre L2 denida mediante f 2 = f dP
2

1/2

(9.17)

que induce, a su vez, una m etrica en L2 que se denotar a por d2 y que hace completo el espacio. Si consideramos el espacio de los p-vectores aleatorios cuyas componentes poseen cuadrados integrables, podemos denir, para cada par f = (fi )ip y g = (gi )ip , el producto interior f, gp = f g dP =
p i=1

fi , gi .

(9.18)

12 13

Ver teorema teorema 3.3. Se identican los vectores que dieren en un suceso de probabilidad nula.

267

Manuales Uex

Este producto induce igualmente una norma y una m etrica d2,p en dicho espacio. Interpretaremos los par ametros probabil sticos considerados anteriormente a la luz de estas deniciones. En primer lugar, es obvio que, si cualquiera de las variables aleatorias f o g posee media 0, la ortogonalidad equivale a la incorrelaci on. Adem as, la esperanza o media de on ortogonal de f sobre cualquier funci on f en L2 puede entenderse como la proyecci el subespacio de las funciones constantes, que se denotar a por , siendo su varianza la distancia al cuadrado entre f y su proyecci on, que es m nima. Efectivamente, on constante, lo cual basta demostrar que f EP [f ] es ortogonal a cualquier funci se sigue directamente de la propia denici on de EP [f ]. Por lo tanto, se verica que

jess montanero fernndez


268 CAP ITULO 9. APENDICE

f E[f ] < f k para cualquier otra funci on constante k 14 Es decir, que la media puede entenderse como la variable constante m as pr oxima (seg un la m etrica anterior) a la nuestra. La diferencia existente entre la situaci on real (aleatoria) y la que corresponder a a un fen omeno determinista (constante) queda recogida mediante la variable aleatoria f P1 f = P1 f = f EP [f ], que podemos denominar variabilidad total. La varianza es el tama no al cuadrado (norma al cuadrado) de la variabilidad total y pretende pues cuanticar dicha diferencia. 1 L2 EP [f ]
f

f EP [f ] 0

1 En el caso multivariante, se denota por Kp el subespacio de los p-vectores aleatorios constantes. El vector constante cuyas componentes sean m as pr oximas en sentido d2 a las del vector aleatorio f es PKp f = EP [f]. La diferencia entre ambos es f EP [f], cuya componente i- esima es P fi , para i = 1, . . . , p. Esta discrepancia entre f y la situaci on determinista puede cuanticarse mediante la distancia d2,p entre ambos que se denomina varianza multivariante total de f. Concretamente, varT [f] = EP [f EP [f]2 ] =
p i=1

var[fi ]

(9.19)

Manuales Uex 268

N otese que este par ametro supone una generalizaci on multivariante de la varianza. Los productos interiores entre las componentes del vector variabilidad total son las
14 Algo an alogo podemos decir respecto a la mediana (si es que est a bien denida) en el contexto del espacio L1 de funciones integrables. Concretamente, se trata de la constante k que minimiza la distancia |f k | dP, siendo el m nimo EP [f ] 1.

MODELOS LINEALES
9.2. GENERALIDADES SOBRE PROBABILIDAD 269

covarianzas. As pues, dos variables aleatorias son incorreladas cuando sus proyecun el producto interior denido en (9.25). ciones sobre 1 son perpendiculares seg Posteriormente interpretaremos este hecho en t erminos del problema de regresi on lineal. Por otra parte, aplicando la desigualdad de Holder15 , se tiene que la covarianza al cuadrado es menor o igual que el producto de las varianzas, lo cual invita a denir el coeciente de correlaci on lineal simple que, a la postre, tendr a una interpretaci on m as clara que la de la covarianza. En denitiva, P f E[f ], PKp f E[f], d2 2 (f, E[f ]) = var[f ]. (9.20)

d2 2,p (f, E[f]) = varT [f].

(9.21)

P fi , P fj = cov[fi , fj ], var[f1 ] . . .

i, j = 1, . . . , p.

(9.22)

. . . cov[f1 , fp ] . ... . = Cov[f]. . var[fp ] cov[fp , f1 ] . . .

(9.23)

Dados una variable aleatoria Y1 y un q -vector aleatorio Y2 con matriz de varianzascovarianzas conjunta > 0. Sabemos que tanto Y1 como Y2 se descomponen ortogonalmente en sendas funciones constantes, las respectivas medias, m as sus variabilidae medida des totales, Y1 EP [Y1 ] y Y2 EP [Y2 ], repectivamente. Queremos saber en qu on lineal de la de Y2 . la variabilidad total de Y1 puede ser explicada como combinaci Se trata de la proyecci on ortogonal de Y1 EP [Y1 ] sobre el subespacio E0 L2 compuesto por las funciones de la forma (Y2 EP [Y2 ]), para alg un M1q . Se denotar a tambi en mediante Y2 EP [Y2 ]. En denitiva, buscamos pues el valor de tal que Y1 EP [Y1 ] (Y2 EP [Y2 ]) Y2 EP [Y2 ] (9.24)

15

Caso particular de la de Cauchy-Schwarz

269

Manuales Uex

jess montanero fernndez


270

CAP ITULO 9. APENDICE


Y1 EP [Y1 ] Y1 EP [Y1 ] (Y2 EP [Y2 ]) (Y2 EP [Y2 ]) 0

E0 = Y2 EP [Y2 ] De (9.24) se sigue que es la soluci on a la ecuaci on 12 = 22 , es decir,


1 = 12 22 .

(9.25)

Aplicando las propiedades de la proyecci on ortogonal se tiene entonces que la combinaci on af n de las componentes de Y2 que m as se aproxima en el sentido d2 a Y1 16 es + Y2 , siendo = E[Y1 ] E[Y2 ] (9.26)

Manuales Uex

Si Y1 es un p-vector aleatorio, podemos razonar de igual forma y por separado para cada una de sus componentes, de manera que ser a una matriz p q y un vector p-dimensional. El vector aleatorio Y1 ( + Y2 ) = Y1 EP (Y1 ) (Y2 EP [Y2 ]), recoge la parte de la variabilidad total de Y1 no explicada linealmente por la variabi es constante (es decir, estar amos hablando de una situaci on lidad total de Y2 . Esta a determinado por el vadeterminista) si, y s olo si, es nula, en cuyo caso Y1 quedar on af n anterior. Ello invita a considerar la matriz de lor de Y2 mediante la relaci varianzas-covarianzas de dicha diferencia. Teniendo en cuenta la ilustraci on anterior,
16

Es decir, la proyecci on de Y1 sobre el subespacio 1|Y2

270

MODELOS LINEALES
9.2. GENERALIDADES SOBRE PROBABILIDAD puede obtenerse mediante: 271

CovP [Y1 ( + Y2 )] =

1 = 11 12 22 21

Y1 EP (Y1 ), Y1 EP (Y1 ) (Y2 EP [Y2 ]) = Y1 EP (Y1 ), Y1 EP (Y1 ) + Y2 EP (Y2 ), Y2 EP (Y2 )

Estamos hablando pues de la a matriz de varianzas-covarianzas parciales, denida en (9.13). Esta es menor o igual que la matriz de varianza-covarianzas de Y1 en el sentido del preorden denido en (9.4). En el caso p = 1 tendremos la varianza parcial, que ser a menor o igual que la varianza total de Y1 . Analizando los dos casos extremos tenemos, primeramente, que un valor nulo de la varianza parcial se corresponder a con una dependencia af n perfecta (determinista) de Y1 respecto a Y2 ; por contra, un valor de la varianza parcial igual al de la varianza total se corresponde con = 0 y = E[Y1 ]. En tal caso, la variabilidad total de las componentes de Y2 no sirve en absoluto para explicar linealmente la variabilidad total de Y1 . Este hecho se corresponde con el caso 12 = 0. De esta forma podemos interpretar la incorrelaci on entre variables aleatorias. En on de variabilidad total de Y1 general, el t ermino 2 12 se interpreta como la proporci explicada17 linealmente por la variabilidad total de Y2 . Este coeciente generaliza el de correlaci on lineal simple denido en (9.10), en el sentido de que el primero es el cuadrado del segundo cuando q = 1. Para ilustrarlo, se expresan en el siguiente gr aco las normas al cuadrado de los vectores (varianzas).

17 Esta interpretaci on heur stica del coeciente de correlaci on, muy frecuente en nuestra teor a, ser a comentada y matizada en el cap tulo 3.

271

Manuales Uex

jess montanero fernndez


272

CAP ITULO 9. APENDICE


1
2 1

1 12 22 21

2 11 2

E0 N otese que, por la ortogonalidad de la descomposici on, se verica que


2 1 2 = 12 1 22 21 + 112

De esta manera, el coeciente de correlaci on m ultiple al cuadrado que se dene como el cociente 1 12 22 21 2 , 12 = 2 1 se interpreta, como hemos dicho anteriormente, como la proporci on de la varianza de Y1 explicada linealmente por Y2 , mientras que la parte no explicada es
2 2 2 11 2 = 1 (1 12 )

axima correlaci on Adem as, puede demostrarse (cuesti on propuesta) que 2 12 es la m lineal simple al cuadrado entre Y1 y una variable aleatoria de la forma bY2 , con b M1q , que se alcanza en b = .

Esperanza condicional

272

Manuales Uex

El estudio de los par ametros anteriores tendr a mayor alcance a la luz de los conceptos de esperanza condicional, probabilidad condicional regular e independencia condicional, que introducimos a continuaci on. Dadas una variable aleatoria Z , de (, A, P ) en (Z , AZ ), y una variable aleatoria real Y no negativa o integrable, se

MODELOS LINEALES
9.2. GENERALIDADES SOBRE PROBABILIDAD 273

dene EP [Y |Z ] como la clase de variables aleatorias reales denidas sobre (Z , AZ ) vericando la propiedad18 g dP Z = Y dP, B AZ .
B Z 1 (B )

Puede probarse que, si E1 denota el subespacio lineal cerrado de L2 (, A, P ) constituido por las funciones de la forma f Z, para alguna variable aleatoria f : (Z , AZ ) R, se verica que (9.27) E[Y |Z ] Z = PE1 Y, es decir, la esperanza condicional es la funci on de Z que m as se aproxima a Y en amos hablar pues de la mejor los t erminos de la distancia d2 denida en (9.17). Podr aproximaci on m nimo-cuadr atica. Si Y es un n-vector aleatorio real, queda garantizada la existencia de una probabilidad de transici on P Y |Z , de Z Rn en [0, 1], tal que, para cada A Rn , on de P [Y A|Z ], es decir, de E[IY 1 (A) |Z ]. Una funci on en P Y |Z (, A) es una versi esas condiciones se denomina versi on de la probabilidad condicional regular de Y dada Z. Las propiedades de la misma pueden estudiarse con detalle en Billingsley (1986). Mencionaremos aqu tres de ellas: en primer lugar, la esperanza condicional on probabilidad de Y dada Z es la media de la variable P Y |Z =z , para cualquier versi condicional regular; la distribuci on conjunta de Y y Z se reconstruye como producto ltimo, Y y Z son independientes si, y s olo si, generalizado entre P Y |Z y P Z ; por u podemos encontrar una versi on de P Y |Z constante en Z. an dominadas por sendas mediPuede probarse f acilmente que, si P Y y P Z est das -nitas 1 y 2 , siendo fY y fZ sus respectivas densidades, entonces P (Y,Z ) est a dominada por la medida producto 1 2 . Adem as, si se denota por f la correspondiente funci on de densidad, la siguiente funci on, bien denida P Z -c.s., constituye una densidad de P Y |Z =z respecto a 1 : fY |Z =z (y) = f (y, z) fZ (z) (9.28)

19

Por otra parte, si Y descompone en dos subvectores, Y1 e Y2 , de dimensiones p y q , respectivamente, se dice que Y1 e Y2 son condicionalmente independientes dado Z ,
18 El Teorema de Radom-Nicodym garantiza la existencia de esta familia de funciones. Adem as, las funciones en tales condiciones constituyen una clase de equivalencia en el conjunto de las funciones AZ -medibles, pues dos cualesquiera ser an iguales P Z -casi seguro, es decir, salvo en un conjunto de AZ de probabilidad nula. Por otra parte, si Y es un n-vector aleatorio de componentes Y1 , . . . , Yn , se dene E[Y |Z ] = (E[Y1 |Z ], . . . , E[Yn |Z ]) , cuando tenga sentido. En general, las propiedades fundamentales de la Esperanza Condicional pueden estudiarse en Ash (1972) o Nogales (1998). 19 Ver Nogales (1998).

273

Manuales Uex

jess montanero fernndez


274 CAP ITULO 9. APENDICE

Y2 |Z , cuando se puede construir una versi on de la lo cual se denota mediante Y1 probabilidad condicional regular de Y dada Z mediante P Y |Z =z = P Y1 |Z =z P Y2 |Z =z , z Z ,

lo cual equivale armar que se pude construir una versi on de la probabilidad condicional regular de Y1 dadas Y2 y Z mediante P Y1 |Y2 =y2 ,Z =z = P Y1 |Z =z , (y2 , z) Rn1 Z .

Ello viene a signicar, en t erminos heur sticos que, conocido el valor que toma Z , el hecho de conocer tambi en el valor de Y2 no condiciona el resultado de Y1 . En general no es cierto que la independencia entre dos variables aleatorias implique la independencia condicional entre las mismas dada otra tercera variable20 . Una interesante propiedad de la probabilidad condicional de la que se hace uso muy a menudo es la siguiente: en las condiciones anteriores, si f es variable aleatoria real denida sobre Rn1 +n2 , se verica que E[f (Y1 , Y2 )|Y2 = y2 ] = f (, y2 ) dP Y1 |Y2 =y2 , (9.29)
Rn2

donde f (, y2 ) es la variable aleatoria real que asigna a cada y1 Rn1 el n umero f (y1 , y2 ). f (,y2 ) Si P Y1 |Y2 =y2 denota la distribuci on de dicha variable respecto de P Y1 |Y2 =y2 , se tiene como corolario inmediato que f (,y2 ) , P f (Y1 ,Y2 )|Y2 =y2 = P Y1 |Y2 =y2 (y1 , y2 ) Rn1 +n2 . (9.30)

Si la probabilidad de f Y condicionada a Y2 resulta no depender de el valor que tome esta u ltima, se deduce que ambas son independientes, coincidiendo la distribuci on condicional anterior con la propia distribuci on marginal de f Y. 21 Por u ltimo, vamos a a nadir algunos comentarios a las conclusiones obtenidas en el apartado anterior. Sean de nuevo Y1 e Y2 una variable aleatoria real y un q vector aleatorio, respectivamente. Recordemos que E0 denota el subespacio cerrado
V ease el ejercicio 18 al nal del cap tulo. Esta situaci on ocurre, por ejemplo, en el Modelo de Correlaci on Lineal. Este Modelo tiene la propiedad de que, al condicionar sobre un valor concreto de las variables explicativas, se obtiene un Modelo de Regresi on Lineal. Seg un hemos dicho, cualquier variable denida en el modelo condicional, es decir, el de Regresi on, cuya distribuci on no dependa del valor concreto de las variables explicativas (F -Snedecor o 2 centrales, por ejemplo), ser a independiente de estas y tendr a la misma distribuci on si se considera desde el modelo inicial, es decir, el de Correlaci on.
20 21

274

Manuales Uex

MODELOS LINEALES
9.2. GENERALIDADES SOBRE PROBABILIDAD 275

de L2 (, A, P ) constituido por las combinaciones lineales de las componentes de Y2 EP [Y2 ], y sea E1 el subespacio cerrado compuesto por las funciones medibles de Y2 o, equivalentemente, de Y2 EP [Y2 ]. En ese caso se verica que E0 E1 . Obviamente, que la funci on f : (Rq , Rq ) R que minimiza la distancia d2 entre Y1 EP [Y1 ] y f (Y2 EP [Y2 ]) sea lineal equivale a que las proyecciones de Y1 EP [Y1 ] sobre E1 y E0 coincidan. Seg un (9.24), la diferencia Y1 EP [Y1 ] (Y2 EP [Y2 ]) es ortogonal a Y2 EP [Y2 ], es decir, son incorreladas, pues las medias son nulas. Supongamos por un momento que la probabilidad P es tal que la incorrelaci on (ortogonalidad de las variabilidades totales) implica la independencia, cosa que sucede si el vector (Y1 Y2 ) es normal multivariante. Entonces, con mayor raz on, se tendr a que Y1 EP [Y1 ] (Y2 EP [Y2 ]) f (Y2 EP [Y2 ]), para toda variable aleatoria real f sobre Rq . En consecuencia, PE0 (Y1 EP [Y1 ]) = PE1 (Y1 EP [Y1 ]).

L2

Y1 EP [Y1 ] Y1 EP [Y1 ] (Y2 EP [Y2 ]) (Y2 EP [Y2 ]) 0 E0

E1 Teniendo en cuenta la descomposici on ortogonal E1 = 1 E1 |1, se concluir a que Por lo tanto, la funci on de Y2 m as pr oxima en t erminos de d2 a Y1 ser a es una transforon maci on lineal de la variabilidad total de Y2 o, lo que es lo mismo una transformaci a af n de Y2 , concretamente, + Y2 .

275

Manuales Uex

E[Y1 |Y2 ] Y2 = + Y2

jess montanero fernndez


276 CAP ITULO 9. APENDICE

En ese caso, las varianzas y covarianzas parciales podr an entenderse como la parte la matriz de varianzas-covarianzas de Y1 no explicada por Y2 . Decimos por Y2 y no por la relaci on lineal (af n, si queremos ser m as precisos) con Y2 , dado que, en estas condiciones (recordamos, cuando incorrelaci on equivale a independencia), la relaci on n. Este peque no matiz otorgar a pleno sentido a la matriz de varianzascon Y2 es af covarianzas parciales y, en consecuencia, al coeciente de correlaci on lineal m ultiple (o can onicos) en el caso normal multivariante, donde esta condici on se verica, seg un la proposici on (2.3) . Adem as, la matriz de varianza-covarianzas parciales se relacionar a en la secci on dedicada al estudio de la distribuci on normal multivariante con el concepto de independencia condicional introducido anteriormente.

9.3.

Generalidades sobre Estad stica

Lo dicho en la secci on anterior se enmarca en un contexto meramente probabil stico, pues la distribuci on se supone conocida. La Estad stica se sit ua en una fase anterior, en la cual la distribuci on de probabilidades no se conoce. En ese caso, tras imponer una serie de restricciones razonables m as o menos fuertes a la misma, tendremos una familia de distribuciones candidatas. Todo el trabajo estad stico va encaminado, de una u otra forma, a determinar la verdadera distribuci on. As pues, el punto de partida formal ser a un par compuesto por un espacio medible y una famistico (tambi en lia de probabilidades sobre el mismo. Denimos22 experimento estad estructura estad stica o modelo estad stico) como un terna de la forma (, A, P ), (9.31)

siendo P una familia de probabilidades sobre (, A). Con frecuencia, la familia P se expresa con la ayuda de cierto conjunto y una funci on sobreyectiva P : P , stico se que asigna a cada de la distribuci on P , de forma que el modelo estad escribe de la forma (9.32) (, A, {P : }) Los conjuntos y se denominan, en ese caso, espacio de observaciones y espacio de par ametros, respectivamente. Realmente, el objeto del estudio estad stico no suele ser un espacio de probabilidad abstracto sino un n-vector aleatorio real Y , donde n 1, on P Y es denido sobre un cierto espacio de probabilidad (, A, P ), cuya distribuci desconocida aunque se supone perteneciente a una familia P de distribuciones sobre Rn , lo cual conduce a considerar el modelo (Rn , Rn , P ). Por ello, nos permitiremos
22

Manuales Uex

Esta denici on es discutible. De hecho, en el cap tulo 6 trabajamos con una denici on alternativa.

276

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 277

la licencia de expresar tambi en dicho modelo mediante Y P, P P , o bien, cuando P est e parametrizada, mediante Y P , . En concreto, en nuestro estudio el espacio de observaciones ser a siempre un subconjunto de interior no vac o de Rn , para alg un n N y las distribuciones de la familia estar an dominadas por la medida de a dominada por una medida -nita, Lebesgue en Rn . En general, cuando la familia est las probabilidades quedan caracterizadas, en virtud del Teorema de Radom-Nikodym, por sus correspondientes densidades {p : }. En ese caso, suele considerarse una u nica funci on, denominada funci on de verosimilitud, denida sobre mediante L : (; ) p ( ). En estas condiciones, una variable aleatoria S denida en nuestro modelo (que en el contexto de la Estad stica se denomina estad stico) se dice suciente23 cuando existe una funci on L tal que (; S ( )). L(; ) = L

Se entiende pues que la informaci on referente al par ametro que contiene la observaci on queda perfectamente resumida en S ( ). Ser a interesante comentar aqu diferentes aproximaciones a la idea de Informaci on, aunque nos conformaremos con presentar la denici on de Fisher, que es la que mejor casa con esta denici on de suciencia. Sea (, A, P ) un modelo estad stico dominado tal que P se expresa con la ayuda on de un par ametro , siendo un abierto de Rs . En el caso de que la funci de verosilimitud L verique las condiciones de regularidad necesarias, se dene la informaci on asociada al modelo para el par ametro como la funci on I : Mss siguiente (9.33) I () = Cov [V ], log L(, ) log L(, ) ,..., 1 s Puede demostrarse sin dicultad que log L E = 0, 1js j V ( ) = siendo (9.34)

23 La denici on que se presenta aqu tiene sentido u nicamente en el caso dominado. En general, se dice que un estad stico S es Suciente cuando para cada A A, PP EP [IA |S ] = . El Teorema de factorizaci on Neyman-Halmos-Savage permite la traducci on al caso dominado.

277

Manuales Uex

y que las componentes de la matriz de informaci on pueden obtenerse mediante 2 log L Ijk = E , 1 j, k, s (9.35) j k

jess montanero fernndez


278 CAP ITULO 9. APENDICE

Tambi en puede demostrarse f acilmente que, efectivamente, que en el caso dominado y con las condiciones de regularidad necesarias un estad stico suciente S conduce a un nuevo modelo reducido en el que la informaci on de Fisher permanece invariante. Esta y otras deniciones de informaci on, como la de Kullback24 , al igual que otros muchos conceptos con los que trabajaremos, como el caso de la suciencia, el principio de m axima verosimilitud, etc etera, son de f acil manejo cuando el modelo estudiado es de tipo exponencial. Decimos que un modelo estad stico dominado es exponencial cuando puede expresarse con la ayuda de cierto par ametro mediante dos funciones T y Q con valores en Rs denidas sobre (, A) y , respectivamente, y otras dos h y C denidas respectivamente sobre los mismos espacios con valores en R+ , tales que L(; ) = exp Q(), T ( ) + c() + d( ) (9.36) En ese caso, se sigue directamente del teorema de factorizaci on que el estad stico T es suciente. Como ejemplos de modelos exponenciales podemos citar las familias normales, binomiales y de Poisson. El modelo lineal normal es un ejemplo de modelo exponencial. Puede probarse f acilmente que, mediante una modicaci on adecuada del par ametro y de la medida dominante, la funci on de verosimilitud puede expresarse de manera can onica mediante (9.37) L ( ; ) = exp , T ( ) + c ( )

Expresar el modelo de esa forma es de enorme utilidad a la hora de buscar un estad stico completo. El concepto de completitud es, en cierta forma, complementario al de suciencia. Se dice que un estad stico X con valores en Rk es completo cuando, para cada variable aleatoria real g denida sobre Rk , se verica E [g ] = 0, g = 0 PX casi seguro,

Decimos que suciencia y completitud son propiedades complementarias porque de la coincidencia de ambas pueden extraerse interesantes benecios, como veremos m as adelante.

Teorema 9.18.
En un modelo estad stico del tipo (9.37) con es de interior no vac o en Rs , el estad stico T es, adem as de suciente, completo.

Manuales Uex

Remitimos al lector interesado en los conceptos de Suciencia, Informaci on y Completitud, as como en el estudio de las familias exponenciales, a las referencias Lehmann (1986) y Nogales (1998).
24

Ver Nogales (1998).

278

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 279

Problema de Estimaci on
Ya hemos comentado que el prop osito nal de la Estad stica es determinar cu al es, de entre una familia de candidatas, la verdadera probabilidad que rige un fen omeno aleatorio. A este objetivo podemos aproximarnos mediante dos tipos de estudios: el de Estimaci on y el de Contraste de Hip otesis. El primer problema consiste en, dada una funci on g , denominada estimando, denida sobre P y con valores en cierto conjunto , encontrar un estad stico T , denominado estimador, con valores en , de manera que, si P es la verdadera distribuci on y es la observaci on del experimento, T ( ) sea pr oximo a g (P). Como ya sabemos, la familia de distribuciones P suele expresarse con la ayuda de un espacio de par ametros . Si la identicaci on se realiza mediante una biyecci on, existe una u nica funci on param etrica (es decir, denida sobre el espacio de par ametros ) g : tal que (9.38) g=g P En general, es decir, si no se supone que la aplicaci on P es inyectiva25 , una funci on param etrica g se dice estimable cuando existe un estimando g : P vericando (9.38). Luego, una funci on param etrica g se dice estimable cuando se verica [P1 = P2 ] [g (1 ) = g (2 )] (9.39)

Por otra parte, debemos especicar qu e entendemos por proximidad. Por ejemplo, si = R, es muy frecuente considerar la funci on de p erdida cuadr atica W , denominada funci on de p erdida y denida mediante W (1 , 2 ) = (1 2 )2 . De esta forma, el problema estad stico consiste en encontrar, si es posible, el estimador T tal que, para cada , haga m nimo el denominado error cuadr atico medio E [W (T, g ()] = E [(T g ())2 ]. (9.40)

Como sucede en e cap tulo 6. De hecho, el estudio del modelo lineal de rango no completo es la causa de esta duscusi on. 26 Considerar, por ejemplo, la funci on de p erdida (3.11).
25

279

Manuales Uex

El t ermino E [T ] g () se denomina sesgo de T . Cuando es nulo para cada se dice que T es un estimador insesgado de g , es decir, que, por t ermino medio, la estimaci on

Esta forma de proceder es acorde con la t ecnica de m nimos cuadrados, de ah su popularidad, aunque no sea la u nica funci on de p erdida a considerar26 . Obviamente, se verica la siguiente descomposici on: 2 (9.41) E [(T g ())2 ] = E [T ] g () + var [T ].

jess montanero fernndez


280 CAP ITULO 9. APENDICE

es correcta en todo caso. Si restringimos la b usqueda de estimadores apropiados a la familia de estimadores insesgados, entonces, (9.41) coincide con var [T ]. Por lo tanto, con esta restricci on, nuestro prop osito ser a encontrar el estimador insesgado de m nima varianza (EIMV, para abreviar), si existe, y ser a optimo entre una clase de estimadores vericando una propiedad (el ser insesgado) muy razonable, aunque fuertemente restrictiva. Si = Rk , podemos generalizar lo anterior considerando la familia W = {Wy : on de p erdida denida mediante Wy (1 , 2 ) = y, 1 1 2 . y Rk }, siendo Wy la funci As , el problema en dimensi on k consiste en encontrar el estimador T que, para cada , minimice (9.42) E T g () T g () . Al hablar de minimizar estamos reri endonos al preorden denido en Mkk mediante (9.4). La expresi on anterior descompone de forma an aloga a (9.41) E T g () T g () = Sesgo [T ] Sesgo [T ] + Cov [T ].

(9.43)

Si imponemos la condici on de que el estimador sea insesgado, se trata de buscar aqu el que, para cada , minimize la matriz de varianzas-covarianzas, por lo que dicho estimador, si existe, se denominar a igualmente EIMV. No obstante, pueden considerarse otras funciones de p erdida, por ejemplo (3.11), seg un las cuales el EIMV pierda su condici on de estimador optimo. El Teorema de Lehmann-Sche e, cuya demostraci on puede encontrarse en Nogales (1998), permite obtener el EIMV a partir de un estimador insesgado y un estad stico suciente y completo.

Teorema 9.19.
Dado un T estimador insesgado y de cuadrado integrable de un estimando g , y un esnico28 EIMV de g . tad stico S suciente y completo, el estad stico27 E[T |S ] S es el u

Otro m etodo para buscar un estimador adecuado del estimando g = Id es el de M axima Verosimilitud. Se dene el estimador de m axima verosimilitud (EMV, para abreviar), como aqu el que hace corresponder a cada observaci on el valor de que maximice L(; ). Por lo tanto, para poder hablar del EMV, dicho m aximo debe existir de manera que podamos construir una funci on medible. El EMV, cuando existe, presenta excelentes propiedades asint oticas, tal y como se comenta en la secci on 4 o en el cap tulo 8.

Manuales Uex

N otese que se habla de una u nica una versi on de E [T |S ] com un a cualquier valor del par ametro. Ello es posible por ser S suciente. 28 Cualquier otro diere de este en un suceso nulo para todas las probabilidades de la familia.
27

280

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 281

Problema de Contraste de Hip otesis


Un problema de Contraste de Hip otesis consiste en considerar un subconjunto on pertenece a P0 . Es decir, se propio P0 P y decidir si la verdadera distribuci trata de aceptar o rechazar una hip otesis inicial H0 : P P0 . Si la familia P se expresa con la ayuda de un espacio espacio de par ametros , se denotar a por 0 la antiimagen por P de P0 , de forma que la hip otesis inicial se denota mediante otesis inicial 0 es contrastable cuando H0 : 0 . En general, diremos que una hip un subconjunto propio P0 P , es decir, cuando se es la antiimagen por P de alg verica P1 = P2 = 1 0 2 0 (9.44)

29

En nuestra teor a no consideraremos test aleatorios, con valores en [0, 1].

281

Manuales Uex

La decisi on se tomar a en funci on del resultado de un test no aleatorio29 : (, A) {0, 1}, donde los valores 0 y 1 se interpretan como la aceptaci on y el rechazo, respectivamente, de la hip otesis inicial o nula. La funci on potencia del test se dene sobre el espacio de par ametros mediante () = E []. En consecuencia, de un buen test cabe exigir que su funci on potencia sea baja en 0 y alta en su complementario. El axima test optimo ser a aqu el cuya funci on potencia fuera m nima en todo 0 y m . L o gicamente, un test en esas condiciones s o lo existir a en caso triviales, por lo en c 0 que debemos rebajar nuestra pretensiones. Un procedimiento muy usual a la hora de buscar un test adecuado establecido por Neyman y Pearson consiste en lo siguiente: se denomina nivel de signicaci on del test al supremo de la funci on potencia en 0 . Se ja entonces un n umero (0, 1), a ser posible peque no (el valor m as utilizado es 0.05), y se trata de encontrar el test que maximice la funci on potencia en c 0 entre aqu ellos cuyo nivel de signicaci on sea, a lo sumo, . Si existe, se denomina test uniformemente m as potente a nivel (UMP a nivel , para abreviar). En muchas ocasiones, no existe (o no sabemos encontrar) un test en esas condiciones, por lo que se hace necesario imponer restricciones adicionales sobre los tests a considerar, por ejemplo que sean invariantes (ver el siguiente apartado) o insesgados (es decir, que as potente entre los sea mayor o igual que en c 0 ). Un test uniformemente m invariantes se dice UMP-invariante y es necesariamente insesgado. El Lema fundamental de Neyman-Pearson cuyo enunciado completo y demostraci on podemos encontrar en Nogales (1998), pp. 180-182, puede considerarse el pilar b asico en la construcci on de tests UMP. Se enuncia para un experimento estad stico con familia de probabilidades binaria {P0 , P1 } y dominada, siendo p0 y p1 las respectivas densidades. En esas condiciones, el test UMP a nivel para contrastar la otesis inicial si, y s olo si, la observahip otesis inicial {P0 } consiste en rechazar al hip

jess montanero fernndez


282 ci on satisface p1 ( ) > k p0 ( ) (9.45) donde la constante k se escoge de manera que el nivel de signicaci on del test sea . Este resultado puede extenderse a experimentos estad sticos con raz on de verosimilitud mon otona, como puede ser el caso del Modelo Lineal Normal tras dos reducciones consecutivas por Suciencia e Invarianza. Concretamente, dado un experimento estad stico de la forma (R, R, {P : R}) y dominada por la medida de Lebesgue, decimos que posee raz on de verosimilitud mon otona cuando, para cada on p2 /p1 es no decreciente. En ese caso, el siguiente resultado, par 1 < 2 , la funci cuya demostraci on podemos encontrar en Nogales (1998), pp. 180-186, permite obtener un test UMP a nivel en un problema de contraste de una hip otesis unilateral { 0 } frente a su alternativa { > 0 }. CAP ITULO 9. APENDICE

Proposici on 9.20.
En las condiciones anteriores, el test denido mediante 1 si > C ( ) = , 0 si C es UMP a nivel = P0 (C, +) .

Al igual que ocurre en el problema de Estimaci on, podemos acogernos al Principio de M axima Verosimilitud para construir un test de hip otesis muy natural y con interesantes propiedades asint oticas (ver secci on 4). Consideremos un modelo on de verosimilitud L, y suponestad stico dominado , A, {P : } con funci on de gamos que queremos contrastar una hip otesis inicial 0 . Se denomina Raz Verosimilitudes (RV , para abreviar) a la funci on siguiente RV ( ) := sup0 L( ; ) , sup L( ; ) .

Manuales Uex

Se trata pues de una aplicaci on denida sobre el espacio de observaciones con valores en [0, 1]. Supongamos que existe (es decir, que ambos supremos se alcanzan) y que es A-medible. En ese caso, un test de la raz on de verosimilitudes a nivel (0, 1) es un test de la forma 1 si RV ( ) < C ( ) = , (9.46) 0 si RV ( ) C donde C es una constante tal que
0

sup P (RV < C ) = .

(9.47)

282

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 283

En particular, si existe una probabilidad P sobre [0, 1] tal que PRV = P, para todo nica constante que verica (9.47). Por 0 , y existe P1 , entonces P1 es la u lo tanto, el u nico test de la raz on de verosimilitudes a nivel ser a T RV , denido mediante 1 si RV ( ) < P1 , (9.48) T RV ( ) = 0 si RV ( ) P1 Hay que tener en cuenta que, seg un el Lema Fundamental de Neyman-Pearson, m as concretamente en virtud de (9.45), el test UMP a nivel para contrastar una hip otesis unitaria en una familia binaria dominada es el que cabr a esperar de la aplicaci on inmediata del Principio de M axima verosimilitud. Por ello, no es de extra nar que el test de la raz on de verosimilitudes resulte a su vez UMP, al menos dentro de una subclase de tests, como pueden ser los invariantes. Y es que tambi en podemos establecer condiciones naturales que propician la concordancia entre el Principio de Invarianza y el de M axima Verosimilitud. Efectivamente, podemos enunciar la siguiente propiedad, que se prueba en Lehmann (1983), p agina 341, aunque requiere de cierto dominio de los concepto de Invarianza (ver el siguiente apartado) y casi-invarianza (ver Lehmann (1983)): si {P : } es una familia de probabilidades sobre Rn dominada por la medida de Lebesgue, y G es un grupo de transformaciones dotado de una topolog a que lo hace localmente compacto, que act ua mediblemente sobre (Rn , Rn ) dejando stico invariantes tanto el experimento estad stico como la hip otesis inicial 0 , el estad RV es, si existe, igual, salvo un suceso nulo para toda la familia {P : }, a otro invariante. En consecuencia, si buscamos un test optimo entre los invariantes o equivalentes a invariantes, el T RV es un rme candidato. Dado que la b usqueda del test UMP parte del Lema fundamental de Neyman-Pearson, no es de extra nar que sea el propio T RV el elegido. De hecho, as sucede en el Modelo Lineal Normal, seg un se demuestra en el cap tulo 3. Los resultados all obtenido se antojan bastante previsibles a la luz de las propiedades que acabamos de comentar. N otese, por u ltimo, que el test T RV y en general todos los tests que aparecer an en nuestra teor a, est an compuestos por dos elementos: un estad stico denominado de contraste, RV en este caso, y un cuantil de cierta distribuci on, denominado valor te orico.

Invarianza y Contraste de Hip otesis


En esta secci on vamos a estudiar los aspectos relativos al Principio de Invarianza que son fundamentales para la justicaci on del test F. Por lo tanto, consideraremos u nicamente el problema de Contraste de Hip otesis. El Principio de Invarianza en

283

Manuales Uex

jess montanero fernndez


284 CAP ITULO 9. APENDICE

Manuales Uex 284

relaci on con el problema de Estimaci on se estudia, por ejemplo, en Arnold (1981) o Lehmann (1983). Consideremos un experimento estad stico (, A, {P : }) y un grupo G de transformaciones bimedibles de (, A) en s mismo. De esta forma, dado , cada g transformaci on g G induce de manera natural una probabilidad P sobre el espacio medible (, A). En el conjunto podemos establecer pues la siguiente relaci on: dados , , decimos que cuando existe g G tal que = g( ). Al ser G un grupo, esta relaci on es de equivalencia. Se denota por [ ] a la clase de equivalencia u orbita del elemento . Decimos que G deja invariante el experimento cuando, para toda transformaci on g on g G induce g G, {P : } = {P : }. En se caso, cada transformaci g mismo, denida tal que P = Pg() , para todo . El una biyecci on g de en s conjunto de biyecciones G = {g : g G} tiene, a su vez, estructura de grupo respecto de la operaci on composici on, lo cual induce una partici on del espacio de par ametros en clases de equivalencia u orbitas. Se dice que un estad stico T denido sobre (, A, {P : }) y con valores en cualquier espacio medible ( , A ) es G-invariante cuando es constante sobre cada orbita de , es decir, cuando T g = T , para todo g G. Se dice G-invariante maximal cuando, adem as, toma valores distintos sobre orbitas distintas. En ese caso, ser a igual, salvo una biyecci on, a la proyecci on de sobre el conjunto cociente / . Se verica entonces que, si M es un estad stico G-invariante maximal con valores en stico con valores en ( , A ), T es G-invariante si y s olo si ( , A ) y T es un estad existe una aplicaci on30 h de en tal que T = h M. De igual forma podemos hablar de aplicaciones G-invariantes y G-invariantes maximales en el espacio de par ametros . Puede demostrarse f acilmente que si M y v son G-invariante maximal y G-invariante maximal, respectivamente, se verica, on [v (1 ) = v (2 )] [PM = PM ]. Es decir, para cada par 1 , 2 , la proposici 1 2 las distribuciones inducidas por un estad stico G-invariante maximal dependen del par ametro a trav es de cualquier aplicaci on G-invariante maximal. Si consideramos el problema de contrastar una hip otesis inicial, es decir, un subconjunto 0 frente a su alternativa, decimos que el grupo G deja invariante el problema de contraste de hip otesis cuando, para todo g G. g(0 ) = 0 . El Principio de Invarianza viene a proponer soluciones invariantes a problemas invariantes. Es decir, si ninguna transformaci on de G altera el experimento ni la hip otesis a contrastar, parece razonable solucionar el problema mediante un test que sea igualmente
30 Si (, A) y ( , A ) son espacios de Borel, podemos garantizar la medibilidad de h (ver Florens et al. (1990), secc. 8.2.2).

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 285

invariante. Dicho test ser a pues funci on de un estad stico invariante maximal. Por lo tanto, el primer objetivo ser a encontrar un invariante maximal respecto al grupo G de trasformaciones. El experimento imagen de dicho dicho estad stico, que puede entenderse como un paso al cociente, constituye lo que se denomina reducci on por invarianza, y supondr a no s olo una simplicaci on en el espacio de observaciones sino tambi en del de par ametros. De hecho, este u ltimo quedar a reducido a la imagen de una aplicaci on G-invariante maximal. De ello se deduce que, salvo en el caso trivial G = {Id}, una reducci on por invarianza no puede serlo a la vez por suciencia, porque en el segundo caso no es posible una simplicaci on del espacio de par ametros. As pues, la reducci on por invarianza conlleva cierta p erdida de informaci on, en el sentido de Fisher, pero se entiende que la informaci on que se desecha no es relevante en el problema de contraste de hip otesis que se plantea. No obstante, es lo m as com un, y as sucede en nuestra teor a, combinar ambos tipos de reducciones. El procedimiento est andar es empezar con una reducci on por suciencia, pues no implicar a p erdida alguna de informaci on. Si la simplicaci on no es satisfactoria, procederemos a reducir por invarianza. Decimos que este es el procedimiento habitual aunque puede demostrarse que, en ciertas ocasiones, en particular en nuestra teor a, ambas reducciones pueden permutar. En todo caso, si se aplica una reducci on por suciencia seguida de otra por invarianza, es conveniente, en aras de una mayor coherencia estad stica en la soluci on nal, que exista cierta compatibilidad entre el estad stico suciente y el grupo de transformaciones. Concretamente, decimos que un estad stico S denido sobre el experimento original y con valores en S S on ( , A ) es G-equivariante cuando es sobreyectivo y verica la proposici [S ( ) = S ( )] [(S (g( )) = S (g( )), g G]. En ese caso, S induce un nuevo grupo de transformaciones GS = {gS : g G} en el espacio de llegada, tal que, para cada g G, gS S = S g. Si suponemos que G deja invariante el problema de contraste de hip otesis 0 y S es suciente y G-equivariante, entonces GS deja invariante el experimento (S , AS , {PS : }) y el mismo problema de contraste de hip otesis planteado en el nuevo experimento. A la hora de justicar el test F a nivel en nuestra teor a, hubiera sido ideal que fuera UMP (uniformemente m as potente) a nivel . Ello no ha sido posible, de ah que hayamos buscado un grupo que deja invariante tanto el experimento como el problema de contraste de hip otesis. El principio de invarianza propone pues considerar como u nicas posibles soluciones a los test invariantes respecto a dicho grupo. As pues, nuestro objetivo se reduce a encontrar un test UMP-invariante a nivel , es decir, uniformemente m as potente entre todos los invariantes a nivel . Una reducci on previa

285

Manuales Uex

jess montanero fernndez


286 CAP ITULO 9. APENDICE

mediante un estad stico suciente y equivariante sirve u nicamente para facilitar la b usqueda, ya que puede demostrarse31 que, bajo cierta condiciones de regularidad que se satisfacen en nuestra teor a, se verica que, si S : (S , AS ) [0, 1] es un S test UMP-G -invariante a nivel , entonces S S es UMP-G-invariante a nivel . Es decir, a partir de un tes UMP-invariante en el experimento imagen del estad stico suciente obtenemos un test UMP-invariante en el experimento de partida. En nuestra teor a podemos encontrar no una, sino tres reducciones sucesivas por invarianza respecto a sendos grupos de transformaciones distintas. Se trata en realidad de una u nica reducci on respecto a un grupo mayor, que es suma de los anteriores. El hecho de distinguir varias, es decir, varios subgrupos, facilita, como veremos a continuaci on, la b usqueda de un invariante maximal para ese grupo m as complejo. En lo que sigue, eludiremos, para abreviar, cualquier cuesti on referida a la medibilidad de las aplicaciones32 . Sea G el grupo de todas las biyecciones de en , y G1 , . . . , Gn subgrupos de G que dejan invariante el experimento. Supongamos adem as que se verica la siguiente propiedad
i, j {1, . . . , n}, gi Gi , gj Gj , g j Gj : gi gj = gj gi .

(9.49)

Por la propiedad (9.49), puede considerarse cualquier permutaci on. Se verica entonces que (G1 . . . Gn ) deja a su vez invariante el experimento y que cualquier olo si es Gi -invariante para aplicaci on T : es (G1 . . . Gn )-invariante si y s todo i = 1, . . . , n. Veamos que una aplicaci on (G1 . . . Gn )-invariante maximal puede obtenerse por etapas: consideremos M1 de en 1 , G1 -invariante maximal y sobreyectivo. on g1 mismo tal que Denimos entonces, para cada g2 G2 , la aplicaci 2 de 1 en s 1 on est a bien denida. Adem as, g2 M1 = M1 g2 . Al vericarse (9.49), la transformaci 1 1 1 = { g : g G g . Por lo tanto, el conjunto G se verica que (g1 g2 )1 = g1 2} 2 2 2 2 1 mismo. Veamos entonces que, si constituye un grupo de biyecciones de 1 en s 1 1 : 1 2 , es G1 M2 2 -invariante maximal, entonces M2 M1 es (G1 G2 )-invariante maximal.

Den otese por G1 . . . Gn el menor subgrupo de G conteniendo a G1 , . . . , Gn . Puede demostrarse f acilmente que G1 . . . Gn = g1 . . . gn : gi Gi , i = 1, . . . , n .

Manuales Uex

Lehmann (1986), pp. 297-301. Estas cuestiones pendientes quedan totalmente resueltas introduciendo el concepto de estabilidad de un estad stico. En lo que respecta a nuestra teor a, las propiedades requeridas para garantizar la medibilidad se verican trivialmente.
31 32

286

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 287

1 1 M1 ( ) = M2 M1 ( ) si y s olo si existe g2 G2 tal que En efecto, se tiene que M2 1 (M1 ( )) = M1 (g2 ( )), lo cual equivale a armar que existe g1 G1 tal M1 ( ) = g2 un g G1 Gn , como quer amos que = g1 (g2 ( )), es decir, que = g ( ) para alg probar. En general, podemos considerar un proceso de este tipo: M M1 M 12 M 1...n1

n 1 2 3 1 2 . . . n1 n .

1...n1 Por un razonamiento de tipo inductivo, podemos concluir que Mn . . . M1 es (G1 . . . Gn )-invariante maximal. Si se considera un orden alternativo en los grupos, la armaci on sigue siendo v alida, y todo lo dicho se hace extensivo al espacio de par ametros.

Par ametros muestrales y su interpretaci on.


Anteriormente se han denido los par ametros media y matriz de varianzas-covarianzas, correspondientes a un n-vector aleatorio sobre un espacio probabil stico. A continuaci on, procederemos a denir conceptos an alogos desde el punto de vista estad stico, es decir, aplicaciones denidas sobre un experimento estad stico (que se denominan, como ya sabemos, estad sticos) que funcionar an como estimadores de los primeros. Estos par ametros se denominar an muestrales pues se construir an a partir de los valores de la muestra seleccionada. El t ermino par ametro suele reservarse en Estad stica para referirnos a n umeros propios de las distribuciones de probabilidad, como la media, varianza, etc. Desde ese punto de vista, se incurrir a en un error al denominar par ametro a un n umero que se calcula a partir de una muestra de datos, como pueden ser a media muestral o la varianza muestral. Hemos de tener en cuenta, no obstante, lo siguiente. El espacio de observaciones del experimento estad stico dado por la muestra es Rn , donde n denota el n umero de unidades experimentales que se manejan. En un marco multivariante, es decir, cuando se estudian no una sino p variables sobre la poblaci on e: en considerada, el espacio se observaciones ser a Rnp , es decir, Mnp . Veamos porqu la pr actica, el proceso estad stico consiste en seleccionar n unidades experimentales on, en cada una de las cuales se mide la o las variables consi1 , . . . , n en la poblaci deradas. De la observaci on de una variable y , denida sobre la poblaci on estudiada, en la n-upla de unidades experimentales resulta como muestra una n-upla de n umero reales y1 , . . . , yn , es decir, un vector de Rn . En general, si se observan p variables y [1], . . . , y [p], obtenemos como muestra una matriz de dimensiones n p como la que

287

Manuales Uex

jess montanero fernndez


288 aparece a continuaci on CAP ITULO 9. APENDICE y1 [1] . . . y1 [p] . . . Y= . . . . yn [1] . . . yn [p]

El t ermino entre corchetes hace referencia a la variable y el sub ndice a la unidad experimental sobre la que se mide. Para todo j = 1, . . . , p, Y[j ] denotar a el vector columna j - esimo, es decir, el resultante de medir la variable j - esima en las n unidades experimentales. Los par ametros probabil sticos han sido denidos en el contexto del espacio de 2 Hilbert L de las variables aleatorias de cuadrado integrable denidas sobre el espacio de probabilidad en cuesti on. Los muestrales se denir an en el marco del espacio, on entre ambos espacios, tan diferentes a simple tambi en de Hilbert, Rn . La conexi vista, es la siguiente. Una vez llevado a cabo el experimento, es decir, cuando se posee la n-upla de unidades experimentales y el vector de datos, matriz en el caso multivariante, que resultan de la medici on de la o las variables sobre los mismos, podemos tomar el conalgebra de sus partes, P (n ). Sobre este junto n = {, . . . , n } dotado de la sigma- espacio de medida consideramos la probabilidad uniforme Pn , la cual induce una distribuci on en R si estudiamos una u nica variable, y sobre Rp en el caso multivariante, 1 umero (respectivamente vector) de la muestra. que asigna probabilidad n a cada n Dicha distribuci on se denomina distribuci on emp rica. Tenemos pues un espacio tipo L2 , concretamente las funciones de cuadrado integrable sobre (n , P (n ), Pn ), dotado de un producto interior que se dene como sigue: dadas dos variables y [j ] e y [k ], y [j ], y [k ]L2 = = y [j ] y [k ] dPn =
n n i=1

y [j ](i ) y [k ](i ) Pn (i )

1 yi [j ]yi [k ] Y [j ], Y [k ]Rn . n i=1

288

Manuales Uex

Por lo tanto, se trata, salvo la constante n1 , del producto escalar en Rn entre los vectores asociados. Los par ametros muestrales se denen como los par ametros probabil sticos correspondientes a dicha distribuci on. Por ello, los par ametros que se estudian es este apartado pueden considerarse casos particulares de (9.20), (9.21), (9.22), (9.23) (9.14), (9.23) y (9.15). Los par ametros probabil sticos denidos anterioremente pueden interpretarse en t erminos del producto interior. As pues, como caso particular, los par ametros muestrales se interpretar an en t erminos del producto escalar (y, por lo tanto, de la norma eucl dea) en Rn .

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 289

En denitiva, estamos trabajando paralelamente con dos espacios tipo L2 aunque asociados a distintos espacios probabil sticos: (, A, P ), que corresponde al fen omeno aleatorio estudiado, y (n , Pn , Pn ), que corresponde a una muestra del mismo. La Teor a de la Probabilidad recoge bajo la denominaci on com un de Leyes de los Grandes N umeros diversos resultados (ver, por ejemplo los teoremas 9.22, 9.23 y 9.24) que nos hablan de la convergencia de par ametros muestrales a sus an alogos probabil sticos, a medida que el tama no de muestra n tiende a innito y siempre y cuando esta sea aleatoria simple, es decir, una secuencia independiente e id enticamente distribuida seg un el modelo probabil stico P . Tambi en el teorema 9.25 nos ayuda a entender la relaci on existente entre los productos interiores (9.7) y (9.16) cuando de muestras aleatorias simples se trata. En denitiva, podr amos habar en t erminos heur sticos de una aproximaci on del espacio de Hilbert Rn , asociado a las muestra aleatorias simples de tama no n, al espacio de Hilbert L2 asociado a las variables aleatorias. Visto esto, parece claro que lo que sigue deber a omitirse si pretendi eramos ser concisos en este punto, pero no es el caso. Esta visi on de los par ametros muestrales como casos particulares de los probabil sticos puede resultar interesante desde el punto de vista formal, pero la intuici on parece ir en sentido contrario. Seguramente resulte m as comprensible denir estos par ametros en Rn e interpretarlos mediante las nociones usuales de perpendicularidad y distancia entre vectores, para despu es extender el concepto a espacios de probabilidad abstractos. En todo caso, el objetivo de este apartado es dejar patente el paralelismo entre los par ametros muestrales y sus an alogos probabil sticos, tanto en la denici on como en la interpretaci on, de ah que las propiedades de unos sean autom aticamente heredadas por los otros. As pues, se denen la media, varianza y covarianza muestrales mediante Y[j ] = s2 Y[j ] = sY[j ],Y[k] = 1 yi [j ], n i=1
n n

j = 1, . . . , p. j = 1, . . . , p. j, k = 1, . . . , p,

1 (yi [j ] Y[j ])2 , n i=1


n

lo cual induce a denir, para todo par j, k = 1, . . . , p, el par ametro sY[j ],Y[k] rjk = , sY[j ] sY[k]

(9.50)

289

Manuales Uex

respectivamente. N otese que s2 as, de la Desigualdad de CauchyY[j ] = sY[j ],Y[j ] . Adem Swartz se sigue que |sY[j ],Y[k] | sY[j ] sY[k] ,

1 (yi [j ] Y[j ])(yi [k ] Y[k ]), n i=1

jess montanero fernndez


290 CAP ITULO 9. APENDICE

denominado coeciente de correlaci on muestral simple, que tomar a un valor entre -1 y 1. Es muy frecuente que, por razones que ata nen al problema de Estimaci on, las varianza y covarianzas aparezcan divididas por n 1 en lugar de n. Por el momento, pasaremos por alto ese detalle. Con las medias podemos componer un vector media muestral y = (Y[1], . . . , Y[p]) . Si este vector (columna) se repite p veces tenemos una matriz n p que se denota por Y. Igualmente, tanto las varianzas y covarianzas como las correlaciones componen sendas matrices denominadas matriz de varianzascovarianzas total muestral y matriz de correlaciones, respectivamente, que se denotar a mediante SY y RY . La matriz de varianzas-covarianzas totales muestral puede expresarse mediante 1 SY = (Y Y) (Y Y) n acil En ocasiones se utilizar a la notaci on SYY con el objeto de evitar confusiones. Es f demostrar que, para cada, j = 1, . . . , p, Y[j ] 1n = P1n Y[j ], donde 1n denota el vector de Rn cuyas componentes son todas igual a 1 33 . Es decir, dea a Y[j ] sea m nima el vector de Rn de componentes iguales cuya distancia eucl es su media muestral repetida n veces. N otese que, en una situaci on determinista, el vector Y[j ] ser a constante, es decir, pertenecer a al subespacio 1n . Eso se corresponder a con una variabilidad total de Y[j ] nula, entendiendo por variabilidad total on real de Y[j ] el vector Y[j ] Y[j ]1n . De esta forma, la discrepancia entre la situaci y la que corresponder a a un modelo determinista, puede cuanticarse, de alguna forma, mediante la distancia eucl dea entre Y[j ] y Y[j ]1n , es decir, mediante la norma eucl dea de la variabilidad total, y eso es precisamente lo que se mide con la varianza muestral34 . 1 1 s2 Y[j ] Y[j ]1n 2 = Y[j ] P1n Y[j ]2 Y[j ] = n n 1 1 = P1n Y[j ]2 = Y[j ] P1n Y[j ], j = 1, . . . , p. n n La u ltima expresi on puede utilizarse en el caso multivariante y, de hecho, la matriz de varianzas-covarianzas totales puede expresarse mediante SY = 1 Y P1n Y. n (9.51)

Manuales Uex 290

33 N otese la similitud con la media probabilistica, que determina la proyecci on ortogonal de una variable aleatoria sobre el subespacio de las funciones constantes. 34 N otese, de nuevo, la analog a con la varianza poblacional, que expresa la distancia al cuadrado entre una variable y su proyecci on sobre el subespacio de funciones constantes.

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 291

Si denimos la variabilidad total de la matriz Y mediante Y0 = Y Y, es decir, en de la forma P1n Y, la matriz anterior puede expresarse tambi SY = 1 Y Y0 n 0 (9.52)

Si B , C , son matrices de orden p q y n q, puede comprobarse, trivialmente el an alogo muestral de la proposici on 9.11 YB + C = YB + C, SYB +C = B SY B. (9.53)

Cuando se distinguen dos grupos de variables y y z , de forma que la matriz de datos se expresa mediante YZ, la matriz de covarianzas totales queda dividida, naturalmente, en cuatro partes, que se denotar an de la siguiente forma S(YZ)(YZ) = SYY SYZ SZY SZZ 1 = n Y0 Y0 Y0 Z0 Z0 Y0 Z0 Z0 . (9.54)

Tanto Y como Z presentar an cierta variabilidad total, pero la variabilidad de Z, que se a explicar buena parte de la variabilidad total de Y, que se denota denota por Z0 , podr ltima fuera, aproximadamente, una combinaci on lineal de la primera, por Y0 , si esta u lo cual equivaldr a a que Y fuese una combinaci on af n (con t ermino independiente) de Z . El caso ideal se dar a cuando Y0 perteneciera a Z0 35 o, equivalentemente, cuando acilmente que este u ltimo t ermino es Y0 PZ0 Y0 fuese nulo. Puede comprobarse f igual a Y P1n Z Y, es decir, a P1n Z Y, que pertenece a 1n . En lo sucesivo, dicho t ermino se denominar a residuo de Y dado Z, denot andose ez (Y) = Y P1n z Y (9.55)

En el cap tulo 4 se denotar a abreviadamente por e. Veamos una ilustraci on correspondiente al caso p = 1.

35 Entendemos que una matriz pertenece a cierto subespacio vectorial cuando cada una uno de sus vectores columna pertenecen a dicho subespacio.

291

Manuales Uex

jess montanero fernndez


292

CAP ITULO 9. APENDICE


Rn Y

ez (Y)

Z B A +

1n |Z Los valores de A y B se calcular an a continuaci on buscando la ortogonalidad de la descomposici on. En denitiva, hemos armado que la variabilidad total de Y es explicada por la de Z mediante una relaci on lineal entre ambas cuando el residuo es constante (en cuyo caso ser a nulo). Luego, razonando como antes, expresaremos la discrepancia entre esta situaci on y la que se da en la realidad mediante la matriz de varianzas-covarianzas totales de ez (Y), que se denominar a a partir de ahora matriz pues, de varianzas-covarianzas parciales de Y dada Z, denot andose por SYZ . As SYZ := Sez (Y) 1 ez (Y) P1n ez (Y) = n 1 ez (Y) ez (Y). = n (9.56) (9.57) (9.58)

Es obvio que esta matriz es invariante ante traslaciones36 . Dado que Y descompone en suma ortogonal de ez (Y) y P1n z Y, se deduce de (9.51) que SY = SYZ + SP1n z Y .

Manuales Uex 292

un el preorden (9.4). En particular, Por lo tanto, SYZ es menor o igual que SY seg los elementos de la diagonal, denominados varianzas parciales, son menores o iguales
36 Es decir, que el sumar una constante a cada componente de una columna de Y o Z no afecta al c alculo de SYZ .

MODELOS LINEALES
9.3. GENERALIDADES SOBRE ESTAD ISTICA 293

que las correspondientes varianzas totales, cosa l ogica dado que las primeras vienen a expresar la parte de la variabilidad total de Y no explicada por la la variabilidad total a en el de Z mediante una relaci on lineal. Por otra parte, el t ermino P1n z Y se denotar . Puede descomponerse trivialmente en Y + Pz Y0 . El u ltimo cap tulo 4 mediante Y 0 t ermino es, por denici on, la u nica matriz n p de la forma Z0 B , con B Mqp , tal que las columnas de Y0 Z0 B son perpendiculares a las de Z0 , es decir, tal que (Y0 Z0 B ) Z0 = 0 En ese caso, se obtiene trivialmente
1 SzY B = Szz

(9.59)

Por lo tanto, si se denota A = Y ZB, se tiene que P1n z Y = A + ZB (9.61) N otese que los razonamientos utilizados son completamente an alogos a los considerados para obtener (9.25) y (9.26) en el espacio L2 de las variables aleatorias de cuadrado integrables. La matriz SY viene a expresar la parte de la variabilidad total on lineal, de Y que s es explicada por la variabilidad total de Z mediante una relaci y puede calcularse como sigue SY = SY+z0 B = Sz0 B = = 1 B Z0 P1n Z0 B n (9.60)

1 1 1 Szz Szz SzY B Z0 Z0 B = SYz Szz n 1 SzY . = SYz Szz

En denitiva, la matriz de varianzas-covarianzas parciales puede expresarse a trav es (9.54) de mediante 1 SZY . (9.62) SYZ = SYY SYZ SZZ A partir de esta matriz de varianzas-covarianzas podemos construir una matriz de correlaciones denominadas parciales, que ser an invariantes ante traslaciones y homoon tecias. As , si Y posee dos columnas Y1 y Y2 se dene el coeciente de correlaci parcial entre Y1 e Y2 dado Z mediante rY1 ,Y2 Z = sez (Y1 ),ez (Y2 ) ez (Y1 ), ez (Y2 ) = . sez (Y1 ) sez (Y2 ) ez (Y1 ) ez (Y2 ) (9.63)

293

Manuales Uex

jess montanero fernndez


294 CAP ITULO 9. APENDICE

Para obtener a u ltima expresi on basta considerar (9.55). Cuando y es unitario, es nicamente de la varianza parcial de decir, cuando Y es un vector de Rn , cabe habar u umero positivo Y dado Z, que es n
1 2 s2 YZ = sY SYZ SZZ SZY

(9.64)

que, insistimos, se corresponde con la parte de la variabilidad total de y que no es explicada linealmente por la variabilidad total de Z. Teniendo en cuenta (9.58), puede expresarse mediante 1 (9.65) ez (Y)2 s2 YZ = n Todo ello invita a denir el coeciente de correlaci on m ultiple muestral de y respecto a z mediante 1 SZY SYZ SZZ 2 , RY ,Z = s2 Y de tal forma que s2 YZ 2 = 1 RY,Z . s2 Y

Por lo tanto, el coeciente de correlaci on m ultiple expresa la proporci on de la variabi2 lidad total de Y explicada linealmente por la variabilidad total de Z. El caso RY ,Z = 1 equivale a una relaci on af n perfecta entre el vector Y y la matriz Z. Si z tambi en es unitario, el coeciente de correlaci on m ultiple muestral de y respecto a z es igual al cuadrado del coeciente de correlaci on simple denido en (9.50). Obviamente, el coeciente de correlaci on m ultiple es invariante ante traslaciones y homotecias.

9.4.

Algunos elementos de Teor a Asint otica.

En esta secci on repasamos algunos conceptos y resultados l mite fundamentales (en el sentido de importantes, no de triviales) de la Teor a de la Probabilidad y de la Estad stica en general, de los que se hace uso en los cap tulos 3 y 8. En primer lugar deniremos las convergencias en probabilidad, en distribuci on y casi seguro, y estableceremos relaciones entre las mismas. Recomendamos consultar, en todo caso, bibliograf a complementaria, por ejemplo Billingsley (1986), Fergusson (1996) o Lehmann (1998). on de vectores aleatorios, respectiDados X y (Xn )nN , vector aleatorio y sucesi vamente, denidos sobre un espacio de probabilidad (, A, P ) con valores en Rm , se dice que (Xn )nN converge en casi seguro a X cuando existe un suceso N A P -nulo, tal que la sucesi on Xn ( ) nN converge a X ( ), para todo en el complemtario de

294

Manuales Uex

MODELOS LINEALES
9.4. ALGUNOS ELEMENTOS DE TEOR IA ASINTOTICA.
c.s.

295

cuyo caso se denota Xn X. on y sucesi on de distribuciones, respectivamente, Dadas P0 y (Pn )nN , distribuci on a P cuando EPn [f ] converge sobre Rm , decimos que (Pn )nN converge en distribuci on f de Rm en R medible, continua y acotada37 . En ese caso, a EP0 [f ], para toda funci d se denota Pn P0 . Si X y (Xn )nN son como antes, se dice que (Xn )nN converge d d andose Xn X. en distribuci on a X cuando P Xn P X , denot

N , en cuyo caso, se denota Xn X. Se dice que (Xn )nN converge en probabilidad a X cuando la sucesi on P (Xn X > ) nN converge a 0 para todo > 0, en
P

Teorema 9.21. (i) La convergencia en distribuci on equivale a la convergencia de las


respectivas funciones caracter sticas en todo punto de Rm . (ii) Si m = 1, la convergencia en distribuci on de (Xn )nN a X equivale a la converon de distribuci on gencia de las respectivas funciones de distribuci on Fn a la funci de F de X en cada punto de continuidad de esta u ltima. En ese caso, si, adem as, en una convergencia entre son continuas F y Fn , para cada n N 38 , se da tambi las funciones inversas. (iii) La convergencia casi-seguro implica convergencia en probabilidad. (iv) La convergencia en probabilidad implica convergencia en distribuci on. (v) Si dos sucesiones de variables aleatorias convergen en probabilidad a sendas constantes, las sucesiones de las sumas y productos convergen, respectivamente, a la suma y producto de dichas constantes. (vi) La convergencia en distribuci on a una constante implica convergencia en probabilidad. on a X , (f (Xn ))nN converge en (vii) Si f C (Rp ) y (Xn )nN converge en distribuci distribuci on a f (X ). on a una constante a, (viii) Si f es continua en a y (Xn )nN converge en distribuci on a f (a). (f (Xn ))nN converge en distribuci

295

Manuales Uex

37 Si consideramos medidas nitas con signo sobre un compacto K de Rm , en virtud del Teorema de Representaci on de Riesz (Ash (1972), Th. 4.3.13), podemos identicar dichas medidas con los las funciones reales, lineales y continuas sobre C (K ), y la convergencia en distribuci on con la convergencia respecto a la topolog a d ebil*. 38 En ese caso podemos hablar de la inversas de cada una de ellas

jess montanero fernndez


296 CAP ITULO 9. APENDICE

on a X , a (cte.) y 1, (ix) Si (Xn )nN , (Un )nN y (Vn )nN convergen en distribuci respectivamente, (a) Xn + Un X + a. (b) Xn Un aX (c)
Xn Vn d d

(x) [Astucia de Cramer-Wold] (Xn )nN converge en distribuci on a Np (, ) si y s olo on a N (c , c c), para todo c Rp tal que si (c Xn )nN converge en distribuci c = 1. (xi) Si (Pn )n y (Qn )n , secuencias de probabilidades sobre Rm1 y Rm2 , convergen en on a P Q. distribuci on a P y Q, respectivamente, (Pn Qn )n converge en distribuci El siguiente resultado es consecuencia directa de la desigualdad de Chebyshev.

Teorema 9.22.
Si (Xn )nN es una sucesi on de variables aleatorias reales con varianzas uniformemente acotadas por cierta constante M > 0, se verica que n i=1 (Xn E[Xn ]) P 0. n enticamenEn el caso de que las variables Xn , n N, sean independientes e id te distribuidas (iid), con varianza nita y media , podemos deducir que la media muestral X n converge en probabilidad a . Puede probarse que la convergencia en probabilidad a la media se sigue vericando aunque la distribuci on no sea de cuadrado integrable. Este resultado suele denominarse Ley D ebil de los Grandes N umeros (LDGN). El siguiente, denominado Ley Fuerte de los Grandes N umeros (LFGN), caso iid, va a un m as lejos.

Teorema 9.23.
Si (Xn )nN es una sucesi on de variables aleatorias reales iid con media [, +], se verica que n 1 c.s. Xi . n i=1

Manuales Uex

El resultado anterior desempe na un papel crucial en la Teor a de Probabilidad. Podemos encontrar su demostraci on en Billigsley (1986). A partir del mismo podemos probar el Teorema de Glivenko-Cantelli39 que garantiza, en el caso unidimensional, la
39

Ver Nogales (1998).

296

MODELOS LINEALES
9.4. ALGUNOS ELEMENTOS DE TEOR IA ASINTOTICA. 297

convergencia uniforme de la funci on de distribuci on emp rica de una muestra aleatoria simple de tama no n a la funci on de distribuci on probabil stica F . Algunos autores lo denominan Teorema Fundamental de la Estad stica Matem atica, con lo que queda patente su trascendencia. Por otra parte y teniendo en cuenta que la media es el momento de orden 1 de la distribuci on, no preguntamos si el resultado sigue siendo v alido para un momento de cualquier orden. La respuesta, armativa, la encontramos en el siguiente resultado, conocido como m etodo de los momentos40

Teorema 9.24.
Si (Xn )nN es una sucesi on de variables aleatorias reales iid correspondientes a una distribuci on con momento de orden k nito, se verica que
j = Mn

1 j c.s. j X E[X1 ], n i=1 i

j = 1, . . . , k.

1 k Adem as, si h es una funci on continua de Rk en R, la secuencia h (Mn , . . . , Mn ) converge on es de cuadrado casi seguro a h (E[X1 ], . . . , E[X k ]). En particular, si la distribuci integrable, la varianza muestral denida en la secci on 1.4 converge casi seguro a la varianza de la distribuci on.

La convergencia casi segura se verica tambi en, en el caso multidimensional, para la media del producto de las componentes, siempre y cuando ambas sean de cuadrado integrable. La demostraci on es inmediata partiendo del teorema 9.23.

Teorema 9.25.
Si (Xn , Yn )nN es una sucesi on de vectores aleatorios bidimensionales iid correspondientes a una distribuci on cuyas componentes son de cuadrado integrable, se verica que 1 c.s. Xi Yi E[X1 Y1 ]. n i=1 Como corolario inmediato se obtiene la convergencia c.s. de la covarianza muestral a la covarianza probabil stica y, en consecuencia, del coeciente de correlaci on. Tambi en desempe na un papel crucial el siguiente resultado, denominado Teorema Central del L mite (TCL). Como ya sabemos, esta denominaci on no hace referencia a un u nico teorema sino a una colecci on de resultados, teniendo todo ellos en com un la convergencia la la distribuci on normal de ciertas sumas de variables. El siguiente
40 Realmente, el m etodo de los momentos m as general. Su enunciado y demostraci on pueden encontrarse en Nogales (1998).

297

Manuales Uex

jess montanero fernndez


298 CAP ITULO 9. APENDICE

teorema puede considerarse consecuencia directa de la versi on de Lindemberg-Feller, que podemos encontrar demostrada, por ejemplo, en Billigsley (1986) o en Ash (1972).

Teorema 9.26.
Consideremos una colecci on de variables aleatorias reales {Xni : (n, i) N {1, . . . , n}, 2 , siendo las tal que, para cada n N, se verica que E[Xni ] = 0 y var[Xni ] = ni n 2 2 otese, para cada n N, n = Xni independientes para i = 1, . . . , n. Den i=1 ni . Supongamos adem as que, para todo > 0, se verica
n 1 2 E Xni I (Xni ) = 0. 2 n n i=1

l m

41

(9.66)

Entonces,

n 1 d Xni N (0, 1). n i=1

Como caso particular, si (Xi )iN es una sucesi on de variables aleatorias iid con 2 media y varianza , se verica que n(X n ) N (0, 2 ).
d

(9.67)

La denominada astucia de Cramer-Wold permite extender este resultado al caso multivariante (ver Nogales (1998)). Otro resultado de enorme inter es, cuya demostraci on podemos encontrar en Arnold (1981), pag. 152, es el siguiente:

Teorema 9.27.
Si

d n(Tn a) N (0, b2 ) y es una funci on real diferenciable, entonces n( (Tn ) (a)) N (0, ( (a))2 b2 ).
d

Manuales Uex

Este teorema permite establecer un procedimiento, que suele denominarse m etodo Delta, que de alguna manera viene a complementar el TCL en aquellos casos en los cuales la distribuci on asint otica obtenida depende del par ametro estudiado. Un concepto propio de la teor a asint otica, importante a la hora de justicar un estimador, es el de consistencia. Para poder formular su denici on as como otras propiedades relativas al problema de contraste de hip otesis, es necesario establecer primeramente un marco formal apropiado. Consideremos un experimento estad stiotese que P denota una probabilidad sobre el espacio co (N , AN , {P : }). N
41

I denota la funci on que toma valor 0 en [0, ] y 1 en (, +).

298

MODELOS LINEALES
9.4. ALGUNOS ELEMENTOS DE TEOR IA ASINTOTICA. 299

producto (N , AN ). Como ya hemos comentado, el Teorema de Existencia de Kolmogorov42 permite construir un experimento de este tipo a partir de experimentos en dimensi on n, siempre que se d e la adecuada consistencia. De hecho, ser a as como procedamos en la secci on dedicada al estudio asint otico del Modelo Lineal. No queremos decir que las probabilidades de la familia sean de la forma PN , para cierta amos considerando una muestra aleatoria distribuci on real P . Si ello sucediera, estar simple de tama no innito de dicha distribuci on. Ese caso particular (caso iid) resulta de m as f acil manejo y permite, entre otras cosas, deducir la consistencia y normalidad asint otica de EMV 43 . Dado que la matriz de varianzas-covarianzas de dicha distribuci on normal l mite es la inversa de la matriz de Informaci on, alcanza la cota optima de Cramer-Rao, lo que se traduce en la eciencia asint otica del EMV44 . Dado un estimando g sobre , que supondremos con valores en Rm , una secuencia a una sucesi on de estad sticos sobre el experimento de estimadores (Tn )nN de g ser on medible anterior y con valores en Rm tales que, para todo n N, existe una funci n n , donde n denota la proyecci n , denida sobre (n , An ), vericando Tn = T on T erminos podemos hablar de una secuencia de test de natural sobre n . En los mismos t hip otesis con valores en [0, 1]. Decimos que (Tn )nN es una secuencia de estimadores consistente cuando, para todo , la sucesi on (Tn )nN converge en probabilidad a g (). De la aplicaci on del Principio de M axima Verosimilitud se derivan importantes propiedades asint oticas, no s olo desde el punto de vista de la Estimaci on, como ya hemos mencionado, sino tambi en desde el punto de vista del Contraste de Hip otesis, como veremos a continuaci on. Efectivamente, supongamos que es un conjunto otesis inicial 0 , que su vez es un abierto de Rs y deseamos contrastar la hip subespacio vectorial c-dimensional de , con c < s. Podemos suponer, sin p erdida otesis inicial a de generalidad, que el par ametro descompone en (1 , . . . , s ) y la hip contrastar es H0 : 1 = . . . = sc = 0. Supongamos que, para cada n N, podemos construir el test de la raz on de verosimilitudes, con estad stico de contraste RVn , en cada caso. En Fergusson (1996) se prueba lo siguiente:

Teorema 9.28.
Con las condiciones de regularidad45 necesarias se verica, para todo 0 , 2 log RVn 2 sc
43

299

Manuales Uex

Ash(1972). Lehmann (1983), Cap. 6, Corolario 2.1 y Teorema 2.3. 44 Lehmann (1983), Cap. 6. Corolario 2.3 45 Nos referimos a hip otesis relacionadas con la continuidad y derivabilidad de las funciones de densidad. Para m as detalles, consultar Lehmann (1983) o Fergusson (1996).
42

jess montanero fernndez


300 CAP ITULO 9. APENDICE

As pues, para un tama no muestral sucientemente grande y teniendo en cuenta el teorema 9.21-(ii), puede construirse el test de la raz on de verosimilitudes a nivel de manera aproximada, sin necesidad de conocer la distribuci on nula exacta del estad stico RV , mediante , 1 si 2 log RV ( ) > 2 sc T RV ( ) = 2, 0 si 2 log RV ( ) sc

300

Manuales Uex

Biliograf a
T.W. Anderson (1958). An Introduction to Multivariate Statistical Analysis. Wiley. S.F. Arnold (1981). The Theory of Linear Models and Multivariate Analysis. Wiley. S.F. Arnold (1980). Asymptotic Validity of F test fr the Ordinary Linear Model and Multiple Correlation Model. J.A.S.A., 75, 890-894. R.B. Ash (1972). Real Analysis and Probability. Academic Press. P. Billingsley (1986.) Probability and Measure. Wiley. M. Bilodeau & D. Brenner (1999). Theory of Multivariate Statistics. Springer Verlag. F. Carmona (2005). Modelos Lineales. Universidad de Barcelona. D.R. Cox & D.V. Hinkley (1974). Theoretical Statistics. Chapman & Hall . A.J. Dobson (1990). An Introduction to Generalized Linear Models. Chapman & Hall. J. Fan & I. Gijbels (1996). Loca Polynomial Modelling and Its Applications. Chapman & Hall. T.S. Ferguson (1996). A Course in Large Sample Theory. Chapman & Hall. F. Ferraty & P. Vieu (2006). Nonparametric Modelling for Functional Data. 301

301

Manuales Uex

jess montanero fernndez


302 Springer. J.P. Florens, M. Mouchart & J.M. Rolin. Elements of Bayesian Statistics. Marcel Decker. J.F. Hair, R.E. Anderson, R.L. Tatham & C.B. Black (1999). An alisis Multivariante. Prentice Hall. A. Hoerl & R. Kennard (1970) Ridge regresion: biased estimation for nonorthogonal problems. Technometrics, 19, 275-284. A.C. Lehmann (1983). Theory of Point Estimation. Wiley. A.C. Lehmann (1986). Testing Statistical Hypotesis. Wiley. A.C. Lehmann (1998). Elements of Large Sample Theory. Wiley. J.A. Nelder & R.W.M. Wedderburn (1972) Generalized Linear Moldels. J, R. Statist. Soc. A, 135, 370-84. A.G. Nogales (1988) Estad stica Matem atica. Servicio de Publicaciones Uex. D. Pe na & S. Rivera (1986). Estad stica. Modelos y M etodos. Alianza Editorial. J.O. Rawlings, S.G. Pantula & D.A. Dickey (1998). Applied Regression Analysis. Springer Verlag. A.C. Rencher (1995). Methods of Multivariate Analysis. John Wiley & Sons. W. Rudin (1979). An alisis Real y Complejo. Alhambra. S.R. Searle (1971). Linear Models. Wiley. G.A.F. Seber (1977). Linear Regression. Wiley. CAP ITULO 9. APENDICE

302

Manuales Uex

MODELOS LINEALES
9.4. ALGUNOS ELEMENTOS DE TEOR IA ASINTOTICA. 303

B.W. Silverman (1986). Density Estimation for Statistics and Data Analysis. Chapman & Hall.

303

Manuales Uex

MODELOS LINEALES

Indice alfab etico


ndices de condicionamiento, 136 consistencia de un estimador, 299 contraste total de regresi on, 96 an alisis de componentes principales, 137 contraste unilateral, 65 an alisis de la covarianza, 171 contrastes parciales de regresi on, 97 an alisis de la varianza, 161 convergencia casi seguro, 294 an alisis de las componentes de la varian- convergencia en distribuci on, 295 za, 199 convergencia en probabilidad, 295 an alisis discriminante, 235 cota de Cramer-Rao, 241, 299 anova, 161 covariable, 172 astucia de Cramer-Wold, 296 covarianza, 264 autovalor, 247 covarianza muestral, 289 autovector, 247 covratios, 131 Cramer-Rao, 299 clasicaci on lineal de Fisher, 235 coeciente de correlaci on corregido, 94 descomposici on ortogonal de V , 180, 186, coeciente de correlaci on intracl asica, 199 190, 194 coeciente de correlaci on lineal, 264 desigualdad de Bonferroni, 81 coeciente de correlaci on lineal muestral, desigualdad de Holder, 264 290 devianza, 243 coeciente de correlaci on m ultiple, 266 dfajustados, 130 coeciente de correlaci on m ultiple mues- dfbetas, 130 tral, 91, 294 diagrama de dispersi on, 110 coeciente de correlaci on parcial, 98 dise no anidado, 189 coeciente de correlaci on parcial muestral, dise no bifactorial, 177 293 dise no completamente aleatorizado, 162 colinealidad, 132 dise no con efectos aleatorios, 198 comparaciones m ultiples, 168 dise no equilibrado, 166 completitud, 278 dise no jer arquico, 189 condici on de Huber, 72 dise no no equilibrado, 223 condici on de Lindemberg, 298 dise no ortogonal, 180 consistencia, 69, 70, 88, 155, 239 dise no por bloques aleatorizados, 191 304

305

Manuales Uex

jess montanero fernndez


INDICE ALFABETICO 305

306

Manuales Uex

estad stico de la raz on de verosimilitudes, dise no por cuadrados latinos, 193 282 dise nos no equilibrados, 196 estad stico de Wald, 241 distancia de Cook, 128 stico invariante, 284 distancia de Mahalanobis, 37, 95, 102, 155 estad estad stico invariante maximal, 284 distancia eucl dea, 248 estad stico suciente, 277 distribuci on, 263 2 estad stico suciente minimal, 51 distribuci on , 39 estimaci on sesgada, 137 distribuci on F -Snedecor, 40 estimador, 279 distribuci on t de Student, 41 estimador , 47 distribuci on beta, 41 oticamente eciente, 299 distribuci on condicional de una normal mul-estimador asint estimador consistente, 299 tivariante, 34 estimador de James-Stein, 53 distribuci on de Poisson, 39, 233 estimador de m a xima verosimilitud, 52, distribuci on emp rica, 288 239, 280 distribuci on normal multivariante, 29 distribuci on normal multivariante esf eri- estimador de Ridge, 53 estimador insesgado, 279 ca, 37 estimador insesgado de m nima varianza, dominada, 263 51, 280 dosis letal media, 238 estimador lineal insesgado, 48 estimador lineal insesgado de m nima vaecuaciones normales, 217, 221 rianza, 49 eciencia asint otica, 241, 299 estimando, 279 EIMV, 51, 87, 147, 164, 218, 280 estructura estad stica, 276 ELIMV, 49, 220 experimento estad stico, 276 EMV, 52, 87, 151, 164, 218, 280 equivarianza, 285 factor, 162 error cuadr atico medio, 279 factor de inaci on de la varianza, 133 espacio de Hilbert, 259 factor principal, 192 espacio de probabilidad, 262 factor secundario, 192 espacio L2, 267 familia de Bonferroni, 81 espacio medible, 262 familia de intervalos de conanza simult aneos, esperanza, 263 79 esperanza condicional, 273 familia de Sche e, 81 estad stica, 276 familia exponencial, 229, 278 estad stico, 277 FIV, 133 estad stico completo, 278 funci on caracter stica, 263 funci on de densidad, 264 estad stico de contraste, 283

MODELOS LINEALES
306 funci on funci on funci on funci on funci on funci on funci on funci on funci on funci on de distribuci on, 263 de ligadura, 230 de p erdida, 279 de tolerancia, 237 de verosimilitud, 230, 277 estimable, 279 generatriz de momentos, 263 lineal estimable, 219 log stica o logit, 234 potencia de un test, 281 m etodo m etodo m etodo m etodo m etodo m etodo m etodo INDICE ALFABETICO

307

Manuales Uex

backward, 99 de Bonferroni, 170, 183 de Box-Cox, 119 de los momentos, 297 de m axima verosimilitud, 280 de m nimos cuadrados, 266 de m nimos cuadrados ponderados, 123 m etodo de Mallow, 100 m etodo de Newton-Raphson, 242 m etodo de Schefe e, 169 grado de libertad, 40 m etodo de Sche e, 183 m e todo de Tuckey, 170, 183 heterocedasticidad, 114 m e todo delta, 298 hip otesis contrastable, 174, 281 m etodo forward, 99 hip otesis inicial, 281 m etodo LSD, 169 hip otesis lineal contrastable, 219 m etodo n ucleo, 126 homocedasticidad, 47, 100 m etodo stepwise, 99 iid, 296 m etrica L2, 267 incorrelaci on, 266, 275 m nimos cuadrados generalizados, 83 independencia, 265, 275 matriz X de regresi on, 86 independencia condicional, 273 on, 86 matriz Z de regresi informaci on de Fisher, 230, 277 matriz de correlaciones, 265 interacci on factor-covariable, 174 matriz de correlaciones muestral, 290 interacci on factor-factor, 183 matriz de correlaciones parciales, 293 invariante, 284 matriz de informaci on, 231, 277 invariante maximal, 284 matriz de una proyecci on ortogonal, 260 inversa generalizada de Penrose, 215 matriz de varianzas-covarianzas, 265 inversa generalizada de una matriz, 211 matriz de varianzas-covarianzas muestral, 290 kurtosis, 76 matriz de varianzas-covarianzas parciales, 266 LDGN, 296 lema fundamental de Neyman-Pearson, 281 matriz denida positiva, 248 matriz e varianzas-covarianzas parciales ley d ebil de los grandes n umeros, 296 muestrales, 292 ley fuerte de los grandes n umeros, 296 matriz idempotente, 261 LFGN, 296 linealidad, 100 matriz ortogonal, 248

jess montanero fernndez


INDICE ALFABETICO matriz semidenida positiva, 248 MCP, 123, 168 media, 264 media muestral, 289 medida cardinal, 264 medida de Lebesgue, 264 modelo asint otico, 68 modelo con raz on de verosimilitud mon otona, 282 modelo condicionado, 146 modelo condicional, 230, 239 modelo de correlaci on, 144 modelo estad stico con raz on de verosimilitud mon otona, 42 modelo estad stico I, 276 modelo estad stico II, 209 modelo exacto, 68 modelo exponencial, 278 modelo lineal, 45 modelo lineal de rango no completo, 210 modelo lineal normal, 46 modelos de respuesta a una dosis, 236 modelos lineales generalizados, 229 modelos logit, 238 modelos Probit, 237 multicolinealidad, 132 nivel de signicaci on, 281 norma eucl dea, 248 norma L2, 267 observaci on, 276 par ametro, 276 par ametro fantasma, 65 par ametros muestrales, 287 parametrizaci on, 165, 209 potencia de un test, 281 predicciones en regresi on, 94 307 principio de invarianza, 283, 284 principio de m axima verosimilitud, 280 principio de suciencia, 51 principio de sustituci on, 232 probabilidad, 262 probabilidad condicional regular, 273 probabilidad de transici on, 265 probabilidad producto, 265 problema de constraste de hip otesis, 281 problema de contraste de hip otesis invariante, 284 problema de estimaci on, 279 producto generalizado, 145, 265 producto interior, 259 proyecci on ortogonal, 260 raz on de verosimilitud mon otona, 282 regi on de conanza, 53, 88, 95, 147, 164, 241 regresi on de Poisson, 233 regresi on lineal m ultiple, 85 regresi on log stica, 234 regresi on polin omica, 123 regresi on polin omica local, 126 regresi on robusta, 127 residuos, 87, 106, 291 residuos brutos, 107 residuos estandarizados, 107 residuos estudentizados, 107 restricciones, 196, 217 rotaciones, 257 RV, 282 secuencia iid, 296 selecci on de variables, 99 sesgo, 139, 279 sigma- algebra de Borel, 262 soluci on m nimo-cuadr atica, 216

308

Manuales Uex

MODELOS LINEALES
308 INDICE ALFABETICO

valor inuyente, 126 variabilidad total, 268

309

Manuales Uex

soluci on m nimo-cuadr atica generalizada, variabilidad total muestral, 290 variable aleatoria, 262 83, 243 varianza, 264 subespacio V/W, 248 varianza muestral, 289 suciencia, 277 varianza parcial, 266 TCL, 297 varianza total, 265 teorema central del l mite, 297 varinza parcial muestral, 292 teorema de descomposici on en valores sin- vector 1n , 86 gulares, 253 vector explicativo, 86 teorema de diagonalizaci on, 250 vectores vi , 165 teorema de factorizaci on, 277 vectores ortogonales, 248 teorema de Fisher generalizado, 49 versi on con coordenadas del modelo lineal, teorema de Gauss-Markov, 49, 220 55 teorema de Glivenko-Cantelli, 296 teorema de la convergencia dominada, 155 teorema de la medida producto, 265 teorema de Lehamnn-Sche e, 280 test F , 61, 62, 147, 222 test de Barlett, 78 test de Brown-Forsythe, 168 test de hip otesis, 281 test de Kruskall-Wallis, 168 test de la raz on de verosimilitudes, 62, 282 test de Levene, 103 test de linealidad, 104 test de Mann-Whitney, 177 test de Student, 174 test de Welch, 177 test insesgado, 281 test invariante, 281 test UMP, 281 test UMP-invariante, 61, 152, 164, 281, 286 tests de normalidad, 47, 103 TRV, 62, 151, 164, 282

Вам также может понравиться