Академический Документы
Профессиональный Документы
Культура Документы
Empresa
Octubre 2011
2
A nuestras familias y amigos
ISBN13 978-84-694-9009-9
Depsito Legal: AS-04398-2011
Edicin 2011
Revisin V.1.0
3
Breve resea de autores
Los autores de este libro son profesores del Departamento de Economa Aplicada de
la Universidad de Oviedo (Unidad de Estadstica y Econometra).
https://sites.google.com/a/uniovi.es/libros/meee
4
ndice general
I. Probabilidad 12
1. Incertidumbre y probabilidad 13
1.1. Definiciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.1. Probabilidad clsica . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.2. Probabilidad frecuencial . . . . . . . . . . . . . . . . . . . . . . 15
1.1.3. Probabilidad subjetiva . . . . . . . . . . . . . . . . . . . . . . . 16
1.2. La probabilidad y su cuantificacin . . . . . . . . . . . . . . . . . . . . 18
1.3. Definicin axiomtica de la probabilidad . . . . . . . . . . . . . . . . . 22
1.3.1. Propiedades elementales de la probabilidad . . . . . . . . . . . 25
1.4. Probabilidad condicionada e independencia . . . . . . . . . . . . . . . 27
1.4.1. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . 27
1.4.2. Independencia en probabilidad . . . . . . . . . . . . . . . . . . 29
1.5. Probabilidad total y teorema de Bayes . . . . . . . . . . . . . . . . . . 31
1.5.1. Sistema completo de sucesos . . . . . . . . . . . . . . . . . . . 32
1.5.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . 32
1.5.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 33
2. Magnitudes aleatorias 35
2.1. Variable aleatoria. Variables discretas y continuas . . . . . . . . . . . . 35
2.2. Distribucin de probabilidad de una variable aleatoria . . . . . . . . . 40
2.2.1. Funcin de distribucin . . . . . . . . . . . . . . . . . . . . . . 41
2.2.2. Probabilidades de intervalos . . . . . . . . . . . . . . . . . . . 44
2.2.3. Funcin de probabilidad . . . . . . . . . . . . . . . . . . . . . . 45
2.2.4. Funcin de densidad . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2.5. Variables aleatorias relacionadas: Cambio de variable . . . . . . 51
2.3. Caractersticas asociadas a variables aleatorias. Valor esperado y va
rianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . 65
3. Modelos de probabilidad 68
3.1. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2. Distribuciones Geomtrica y Binomial negativa . . . . . . . . . . . . . 80
3.3. Modelo hipergeomtrico . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.4. Modelo Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.4.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5
ndice general
6
ndice general
5.2.2. Diseo
Acuracidad
de encuestas
y precisin
y seleccin
. . . . muestral
. . . . . . . . . . . . . . . . . . 164
5.2.3. . . . 164
5.3. Estadsticos y estimadores . . . . . . . . . . . . . . . . . . . . . . . . 167
5.3.1. Funcin de verosimilitud . . . . . . . . . . . . . . . . . . . . . 170
5.4. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . 172
5.4.1. Ausencia de sesgo . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.4.2. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
5.4.3. Mnima varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 177
5.4.4. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.4.5. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
5.5. Mtodos de obtencin de estimadores . . . . . . . . . . . . . . . . . . . 185
5.5.1. Mtodo de los
la mxima
mnimos
momentosverosimilitud
cuadrados
. . . . . . . . . . . . . . . . . . . . . . 185
5.5.2. . . . 189
5.5.3. . . . 190
5.6. Algunos estimadores habituales . . . . . . . . . . . . . . . . . . . . . . 191
5.6.1. Parmetro proporcin
varianza
media poblacional
poblacional 2
poblacional . .p . . . . . . . . . . . . . . . . 191
5.6.2. . . . 193
5.6.3. . . . 195
7. Estimacin 234
7.2.
7.1. Intervalos
Estimacindepuntual
confianza.
y porConstruccin
intervalos y. caractersticas
. . . . . . . . . . . . . . . . . . 235
. . . 239
7.2.1. 7.2.2.2.
7.2.2.1.
Precisin
Construccin
Informacin
de los
de intervalos
intervalos
muestral
sobrede
.la. confianza
poblacin
. . . . . . . . . . . . . . . . . . . 239
7.2.2. . . . 242
. . . 243
. . . 244
7
ndice general
8
ndice general
9
ndice general
Bibliografa 386
Index 390
10
ndice general
PRESENTACIN
La informacin econmica forma parte de nuestra realidad cotidiana y afecta a nues
tras vidas. Estadsticas como el Indice de Precios de Consumo (IPC), la tasa de paro
o los ndices burstiles son referencias habituales en los medios de comunicacin, por
lo que resulta imprescindible conocer su significado y dominar las tcnicas estadsticas
necesarias para su correcta utilizacin.
Hace aproximadamente un ao, con motivo de la celebracin del primer Da Mun
dial de la Estadstica (20-10-2010), la declaracin institucional de Naciones Unidas
destacaba la importancia de las estadsticas como herramienta para el desarrollo eco
nmico y social, y su trascendente papel en la adopcin de decisiones gubernamentales,
empresariales y personales en una sociedad moderna.
Convencidos de la importancia de la Estadstica, presentamos ahora este texto, cu
yo antecedente es el manual Anlisis de datos econmicos II- Mtodos inferenciales
publicado en 1997 por Ediciones Pirmide y actualmente descatalogado. Nuestro ob
jetivo al elaborar Mtodos estadsticos para Economa y Empresa es contribuir a la
difusin de las tcnicas estadsticas, animados por nuestras experiencias previas, los
comentarios de nuestros colegas universitarios y las posibilidades que ofrecen las nue
vas tecnologas para la elaboracin de un manual digital y su difusin a travs de la
Red.
Este libro se estructura en un total 10 captulos agrupados en tres partes, dedicadas
respectivamente a Probabilidad (captulos 1 a 4), Inferencia Estadstica (captulos 5 a
9) e Introduccin a la Econometra (captulos 9 y 10) y consideramos que sus conteni
dos pueden ser de utilidad tanto para estudiantes universitarios de diversos grados del
mbito de las Ciencias Sociales (Administracin y Direccin de Empresas, Economa,
Contabilidad y Finanzas, Relaciones Laborales y Recursos Humanos, Comercio, . . . )
como para profesionales interesados en las tcnicas inferenciales de aplicacin habitual
en el contexto socioeconmico.
Con este nimo, el manual Mtodos estadsticos para Economa y Empresa estar
a partir de ahora disponible en la Red en formato pdf, de forma libre y gratuita,
accesible bajo licencia Creative Commons en el sitio web:
https://sites.google.com/a/uniovi.es/libros/MEEE
Gracias a todos los que, de un modo u otro, nos han acompaado en el camino
que ha conducido a este libro. Confiamos en que sus contenidos resulten de utilidad y
agradecemos de antemano cualquier comentario o sugerencia.
11
Parte I.
Probabilidad
12
1. Incertidumbre y probabilidad
La probabilidad forma parte de nuestros esquemas habituales de razonamiento, pro
porcionando un instrumento en el que a veces incluso inconscientemente nos apoyamos
para emitir opiniones o tomar decisiones.
En efecto, vivimos en un mundo incierto en el que debemos conformarnos con cuan
tificar esa incertidumbre, habitualmente en trminos de probabilidad, conociendo as
el grado de creencia en nuestros resultados y conclusiones.
La probabilidad es el pilar bsico en el que descansa todo el proceso inductivo. De
ah la importancia de abordar su estudio desde varias pticas distintas: el concepto y
significado de la probabilidad, su cuantificacin numrica y la axiomtica de la proba
bilidad, marco formal que posibilita una modelizacin matemtica de los fenmenos
aleatorios.
Cualquiera de los aspectos sealados puede resultar de gran trascendencia, y de
hecho existe una bibliografa muy extensa sobre cada uno de ellos. Sin embargo, en
nuestros estudios la probabilidad tiene un carcter instrumental y no constituye un
fin en s misma. Por ello, aun reconociendo la conveniencia de reflexionar sobre el
significado de la probabilidad, prestaremos aqu una atencin preferente a las reglas
de funcionamiento, las posibilidades y los riesgos de esta poderosa herramienta, que
acompaar como medida de credibilidad a nuestras conclusiones.
El origen de la probabilidad no es claro aunque los juegos de azar se practicaban desde muy antiguo
y las leyes de la combinatoria elemental, imprescindibles para la cuantificacin de probabilidades, eran
conocidas por los rabes y los matemticos del Renacimiento pero ms como una rama del lgebra
que en su contexto actual. En las obras de N.F. Tartaglia (1499-1557) y Galileo Galilei (1564-1642)
se recogen problemas de probabilidad y combinatoria relacionados con juegos de azar y existe una
abundante correspondencia entre B. Pascal (1623-1662) y P. Fermat (1601-1665) en la que, mediante
el estudio de juegos de azar, ambos matemticos sientan la base de los fundamentos de la probabilidad.
El primer tratado sobre probabilidades publicado corresponde a Christian Huygens (1654-1705) con
On reasoning in Games of Chance, obra que sirvi de estmulo a James Bernoulli, autor del texto
Ars Conjectandi, publicado en 1705 y de clara influencia en todos los trabajos posteriores.
13
1. Incertidumbre y probabilidad
Este concepto de probabilidad, que suele denominarse de Laplace, se remonta sin embargo al
trabajo The Doctrine of Chances de De Moivre (1711) concebido como un manual para los interesados
en juegos de azar. Por el contrario, Pierre Simon, marqus de Laplace (1749 1827) elabor un total de
10 principios del clculo de probabilidades, entre los que figura por primera vez la definicin anterior,
que no se han visto alterados desde su obra Thorie Analitique des Probabilits (1812).
El concepto clsico, que ha dominado hasta principios del presente siglo, ha sido
objeto de diversas crticas debidas a su falta de rigor lgico (lo definido entra en la
definicin) y al supuesto de resultados igualmente verosmiles en el que se basa la
teora.
La justificacin de esta hiptesis viene dada por el principio de indiferencia, que defiende la sime
tra u homogeneidad de resultados en la situacin considerada, o bien por el principio de la razn
insuficiente segn el cual, si no existe razn que favorezca alguno de los resultados con respecto a los
dems, admitiremos que todos tienen igual probabilidad. Sin embargo ninguno de estos principios
soluciona las dificultades planteadas por la definicin clsica, cuya aplicacin prctica se limita a un
mbito muy reducido (experimentos con nmero finito de resultados equiprobables).
14
1. Incertidumbre y probabilidad
probabilidad clsica. Este principio exigira describir los resultados del experimento mediante sucesos
equiprobables: cara cruz, cara cara, cruz cara, cruz cruz y, dado que de estas cuatro posibilidades
tres son favorables a la apuesta planteada, la probabilidad de xito sera 34.
En otras ocasiones las inexactitudes son ms difciles de detectar. Supongamos una situacin ms
compleja que las anteriores, en la que una empresa concede a sus trabajadores ciertos permisos situa
dos en das que la empresa denomina comodn. Con el objeto de garantizar a todos sus trabajadores
sea cual sea su horario y jornada laboral la posibilidad de disfrutar de este da, se acuerda que los
"comodines" sern situados en meses seleccionados al azar pero siempre el da 13.
Si un trabajador se preguntan cul es la probabilidad de que el comodn coincida en un viernes,
permitindoles as disfrutar de un largo fin de semana, parece legtimo en un principio el supuesto
de equiprobabilidad y simetra que justifica un resultado P(Viernes) = 17, coincidente con el de
cualquier otro da de la semana.
La aplicacin de la probabilidad clsica no plantea en principio inconvenientes. Sin embargo, tras
un razonamiento ms sofisticado se aprecia que, debido a los ajustes horarios y la configuracin de los
calendarios, los distintos das de la semana como justificaremos ms adelante no son equiprobables.
El concepto frecuentista permite resolver adecuadamente el problema relativo a los das comodn,
justificando que la probabilidad de que el comodn sea viernes es superior a la de cualquier otro da
de la semana. En efecto, la determinacin de las probabilidades de cada da de la semana exigira
conocer el nmero de repeticiones de cada resultado sobre el tiempo total de vigencia de nuestro
15
1. Incertidumbre y probabilidad
calendario (aos 1600-2000). Si consideramos que de estos 400 aos 97 son aos bisiestos, el total de
semanas resulta ser 20.871 y de ellas 4.800 fechas son da 13 de un mes. Aunque la enumeracin es
larga, puede observarse el da de la semana en que cada uno de ellos est situado, que resultan ser
una cifra superior en el caso del viernes (688 das respecto a 684 para jueves y sbado, 685 para lunes
y martes y 687 para domingo y mircoles). Una vez determinado este nuevo modelo, la probabilidad
de viernes se situara en 6684800 = 0,143.
El punto de vista subjetivista fue compartido por algunos de los precursores de la teora del clculo
de probabilidades como J. Bernoulli, Bayes o Laplace. No obstante, es desde principios de este siglo
cuando se le ha prestado mayor atencin, siendo pionera la obra de Borel (1924) a la que siguieron,
entre otras, las de Ramsey (1926), De Finetti (1931, 1937) y Savage (1954). Todos ellos consideran
fundamental el comportamiento del individuo frente a la incertidumbre, que le conduce a asignar
implcita o explcitamente un orden o una medida a la posibilidad de que los sucesos tengan lugar.
Esta concepcin logicista es debida, entre otros autores, a Keynes, Jeffreys, Koopman y Carnap,
siendo su idea bsica la extensin de los principios de la lgica matemtica para establecer la proba
bilidad como medida en que una proposicin (hiptesis) confirma a otra (experiencia).
Existen otros conceptos de la probabilidad entre los que, por su originalidad, queremos destacar el
de sorpresa potencial de Shackle. En su obra Decisin, orden y tiempo (1966), este autor plantea de
forma muy ingeniosa el problema de la decisin frente al tiempo, teniendo slo en cuenta el momento
presente. En este contexto, el concepto de probabilidad es sustituido por las ideas de "sorpresa
potencial" y "grado de creencia" que resultan cuantificables si el individuo puede evaluar la distancia
entre distintas sorpresas potenciales. Para Shackle todo decisor racional puede establecer su espacio de
posibles resultados y asignar sus probabilidades, sin embargo el agente nunca es capaz de contemplar
16
1. Incertidumbre y probabilidad
p B?
A ABpB?
pA=0.5 B pA=0.6
pB? pB?
...
Asignacin de
A B
probabilidades subjetivas
pA=0.5 pB?
ABpB? pB?
A BpB?
pA=0.4 pB?
pA=0.5
...
todas las posibilidades y puede producirse una sorpresa; de esta forma no existe el lmite unitario a la
probabilidad (podemos distribuir inicialmente una masa de probabilidad unitaria entre las distintas
posibilidades y ms tarde admitir una sorpresa no contemplada, con lo que al sumar esta probabilidad
supera la unidad).
17
1. Incertidumbre y probabilidad
18
1. Incertidumbre y probabilidad
las condiciones en las que sta se realiza, evitando as confusiones como la que se
esconde tras la falacia protagonizada por de Mr.
Una vez especificadas estas condiciones, la cuantificacin de los casos (tanto favora
bles como posibles) se llevar a cabo mediante los conceptos de variaciones, permuta
ciones o combinaciones. Aunque no es nuestro objetivo efectuar un estudio detallado
de teora combinatoria, s resulta conveniente sealar -mediante ilustraciones- las di
ferencias entre los conceptos y las frmulas de clculo asociadas a los mismos.
Imaginemos a modo de ejemplo que el dominical de un peridico decide incluir en
cada ejemplar un cupn de sorteo con un nmero de 4 dgitos. Cuntos cupones dis
tintos existirn? Mediante un sencillo razonamiento -ilustrado en el grfico 1.2- puede
verse que las posibilidades son 10.000. En efecto, hay 10 opciones para el primer dgito
(en el grfico se han representado solamente 7 para no cargar excesivamente la figura)
y, para cada uno de stos, pueden a su vez seleccionarse 10 para el segundo. A su vez,
para cada una de esas 100 posibilidades tendramos otras 10 para el tercero y lo mismo
para el cuarto dgito. El clculo efectuado se corresponde con el caso de Variaciones
con repeticin de 4 elementos seleccionados entre 10 (tambin denominadas de 10
elementos de orden 4), y sus rasgos son la posibilidad de repeticin (la seleccin de
un dgito no le excluye para una nueva utilizacin) y la importancia del orden (es
relevante en qu lugar est situado cada nmero).
19
1. Incertidumbre y probabilidad
P a,b,c PaPbPc
Pm = m!
m = a!b!c!
Supongamos por ltimo que el peridico decide aumentar el equipo de colaboradores
del dominical, al cual se incorporarn 3 trabajadores ms, seleccionados de entre
los 7 nuevos contratados. De cuntos modos pueden ser seleccionados estos nuevos
miembros del equipo?
20
1. Incertidumbre y probabilidad
La expresin de las combinaciones puede ser obtenida como caso particular de permutaciones con
repeticin. Para ello, basta tener presente que nos interesa nicamente la agrupacin efectuada, por
lo cual del total de ordenaciones de los m elementos (m!) ignoramos las ordenaciones de los elementos
seleccionados para integrar los subconjuntos (n!) y tambin las de los no seleccionados(m n)!. Se
obtiene as: Cm,n = Pn,(mn)m.
Desde luego la teora combinatoria abarca otras expresiones de clculo que no hemos recogido aqu.
As, si por ejemplo distribuimos tres ejemplares del dominical entre 2 kioscos sin ninguna restriccin
(podran ir todos al mismo, por ejemplo), la expresin de clculo de las posibilidades vendra dada
por Combinaciones con repeticin, de aparicin menos frecuente que las anteriores y cuya frmula
guarda relacin con las combinaciones.
Las Combinaciones con repeticin permiten cuantificar las posibilidades de repartir en m grupos
un total de n elementos idnticos, a travs de la expresin: CRm,n = (m+n1)!
n!(m1)!)
. En concreto, para
el ejemplo propuesto se tendran combinaciones en dos grupos con tres elementos repetidos, cuya
frmula viene dada por
(2+31)!
CR2,3 =
3!1!
Las expresiones anteriores resultan tiles para solucionar el problema planteado por De Mr: El
clculo correcto para su primera apuesta viene dado por:
21
1. Incertidumbre y probabilidad
donde la presencia de Combinaciones corresponde a los "huecos" o tiradas en las que aparece el
resultado 6, mientras las Variaciones con Repeticin del numerador recogeran los posibles nmeros
para completar las restantes tiradas.
Por su parte, la segunda apuesta sera resuelta en los siguientes trminos:
c.f.
c.p. = Resultados con suma 12 en las 24 tiradas
P(G) =
Resultados en 24 tiradas
cuya cuantificacin resulta de mayor complejidad.
Como veremos en un apartado posterior, las probabilidades asociadas a estas dos apuestas pueden
ser cuantificadas de forma ms sencilla aplicando ciertas propiedades de la probabilidad.
22
1. Incertidumbre y probabilidad
El espacio muestral E o suceso seguro estar formado por todos los posibles resultados: E={1, 2, ...,
6}.
En el ejemplo anterior puede interesarnos no slo conocer la probabilidad de los resultados ele
mentales, sino tambin cuantificar la probabilidad de que el resultado sea par, mayor que 4 o menor
que 3, por ejemplo.
Por lo tanto tendremos que establecer una estructura que recoja estas combina
ciones. As, despus de definir ciertos sucesos (suceso imposible (vaco), unin, inter
seccin, complementario, diferencia y diferencia simtrica), acompaamos al espacio
muestral E de una familia de sucesos (o subconjuntos de l), A, que tiene cierta
estructura algebraica (-lgebra).
Definicin 1.3. Toda -lgebra se caracteriza por verificar las tres condiciones si
guientes:
En el ejemplo del lanzamiento del dado, el lgebra de sucesos estara formado por los sucesos
elementales: {1}, {2}, ..., {6}, sus complementarios: {2,3,...,6}, {1,3,...,6}, ..., {1,2,...,5}, la unin
de cada dos sucesos elementales: {1,1},{1,2}, ....,{1,6},{2,1}, ...,{2,6}, ...,{6,1},{6,2},....,{6,6}, los
complementarios de estos sucesos, la unin de cada 3 sucesos elementales, sus complementarios, ....,
las intersecciones, etc. [Cuntos elementos integrarn este lgebra?]
P:AAP(A)
23
1. Incertidumbre y probabilidad
1. P(A)0,AA
2.P(E)=1
Ai Aj = , i = j P (i=1Ai) = P(Ai)
i=1
P:AAP(A)
16
P({1})= 16 ,P({2})= ,...,P({6})=16
P({2,4,6}) = P({2}) + P({4}) + P({6}) = 36 por tratarse de la probabilidad de una unin de
sucesos incompatibles.
P({5,6})=P({5}{6})=P({5})+P({6})=26
P({1,2})=26
Con lo cual, bajo la estructura de lgebra podemos responder a las preguntas que nos habamos
planteado como probabilidad de obtener un nmero par, mayor que 4 o inferior a 3. De igual forma
podemos calcular la probabilidad de cualquier otro suceso que nos planteemos sobre los resultados
del lanzamiento de un dado.
Esta funcin de probabilidad cumple los axiomas anteriores [Comprubese]
La cuantificacin de probabilidades para sucesos compuestos se llev a cabo a partir de la asignacin
hecha a los sucesos elementales. Si, por ejemplo, hacemos una nueva asignacin de probabilidad a los
sucesos elementales:
P({1})=212,P({2})=112,P({3})=212,P({4})=112,P({5})=212,P({6})=412
es fcil comprobar que nos conducira a otra funcin de probabilidad diferente. [Obtener la proba
bilidad de los sucesos anteriores]. Observamos por tanto que sobre un espacio probabilizable pueden
definirse diversos espacios de probabilidad.
Los axiomas anteriores estn inspirados en las propiedades de las frecuencias y resultan aplicables
en una amplia variedad de situaciones. As, si un trabajador, ante la incertidumbre laboral, desea
obtener la probabilidad de que su actual contrato sea prorrogado, el experimento tendra dos resul
tados posibles, que podemos denotar por T: continuar contratado y S: ser despedido. El espacio
24
1. Incertidumbre y probabilidad
muestral E estar entonces formado por esos dos sucesos elementales: E = {T,S} y para cuantificar
la probabilidad de cada suceso podramos basarnos en informacin frecuencial sobre renovacin de
contratos. A modo de ejemplo, si sabemos que el 75 % de los contratos han sido renovados se tendra:
f(T) = 34; f(S) = 14 .
Resulta evidente que las frecuencias obtenidas en ningn caso sern negativas. Por su parte la
frecuencia del suceso seguro viene dada por:
nn
dede
realizaciones
vecesque ocurre
del experimento
(T o S) = 4
f(E) = f(T S) = =1
4
Sobre esta expresin podemos comprobar que, dado que T y S no tienen interseccin comn, se
verifica:
La axiomtica de Kolmogorov fue posible gracias al gran desarrollo alcanzado por la teora de
la medida y la integral de Lebesgue; por otra parte, su desarrollo se debi en gran medida a la
identificacin entre sucesos y conjuntos, puesta de manifiesto por Stone en 1936, mediante el teorema
que lleva su nombre. Esta circunstancia le permiti tambin aprovechar los conocimientos relativos a
la teora de conjuntos y gracias a este isomorfismo podemos utilizar indistintamente la terminologa
de sucesos (imposible, incompatibles, ...) o la relativa a conjuntos (vaco, disjuntos, ...).
En la axiomtica original dada por Kolmogorov el axioma 3) se encontraba desdoblado en dos
axiomas: aditividad finita y continuidad montona en el vaco; sin embargo, algn tiempo despus se
demostr que estos supuestos eran equivalentes a la aditividad numerable.
2. P()=0
25
1. Incertidumbre y probabilidad
3. Como A B, podemos expresar B como: B = A (B Ac), siendo los dos sucesos que
forman la unin (A y B Ac) disjuntos [por qu?], de donde el axioma 3 asegura: P(B) =
P(A) + P(B Ac), y como la probabilidad es una funcin no negativa (P(B Ac) 0), por
tanto se tiene la proposicin enunciada [por qu?].
4. Los sucesos A y B pueden ser expresados de la siguiente forma: A = (A B) (A Bc), B =
(A B) (Ac B) siendo los sucesos interseccin considerados en los dos casos disjuntos
[por qu?], por lo cual se tiene: P(A) = P(A B) + P(A Bc), P(B) = P(A B) +
P(Ac B). Por otra parte A B puede descomponerse como unin de sucesos disjuntos:
A B = (A Bc) (A B) (Ac B), con lo que su probabilidad puede obtenerse como:
P(AB) = P(ABc)+P(AB)+P(Ac B) Teniendo en cuenta las expresiones anteriores
y sustituyendo se llega al resultado enunciado. [Completar la justificacin]
Esta ltima propiedad puede extenderse a un mayor nmero de sucesos; por ejemplo si C es otro
suceso se tiene:
P(ABC)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)
Los valores extremos de probabilidad sugieren algunos comentarios. Como hemos comprobado el
suceso imposible tiene probabilidad nula; sin embargo, algunas veces incluimos dentro del suceso
imposible ciertos resultados que, aunque no tienen asignada probabilidad inicial, podran llegar a
ocurrir, hecho que contradice o bien la asignacin de probabilidad nula o bien la especificacin del
experimento.
Un ejemplo muy intuitivo para ilustrar esta discusin es el experimento consistente en lanzar una
moneda. Los resultados que consideramos posibles son cara (C) y cruz (F), por lo cual el suceso
seguro ser E={C,F} y su complementario ser considerado como suceso imposible; sin embargo, al
lanzar una moneda, sta puede caer de canto, resultado que es complementario al suceso seguro y en
cambio no es imposible.
Este mismo ejemplo nos sirve para reflexionar sobre la probabilidad unitaria: el hecho de que sea
posible obtener resultados fuera de E nos exigira asignar a ste una probabilidad inferior a la unidad.
La solucin de estos problemas puede basarse en una revisin del espacio muestral, incluyendo su
cesos de probabilidad nula (sera la probabilidad asignada a caer de canto una moneda); sin embargo,
esta solucin podra ser compleja cuando trabajamos con espacios muestrales infinitos. Otra solucin
posible ira en la lnea de la sorpresa potencial de Shackle, donde la probabilidad puede alcanzar
valores superiores a la unidad.
En el trabajo habitual no suele adoptarse ninguna de las soluciones propuestas, pero conviene ser
conscientes de la posibilidad -aunque remota- de que aparezca este problema.
[Si al lanzar 1.000.000 veces una moneda la frecuencia relativa de que sta quede de canto es
prcticamente despreciable convertira este hecho en "imposible" al resultado?]
26
1. Incertidumbre y probabilidad
Sexo
Tcnicos
\ Sector 40
Industria 25
Servicios
Gestin 10 25
27
1. Incertidumbre y probabilidad
P(A/B) = P(AB)P(B)
P(I/T)=P(IT)P(T)=4010065
100 =4065;P(S/T)=P(ST)P(T)=2510065
100 =2565
[La funcin toma valores no negativos por ser el cociente de dos probabilidades, donde cada una
de ellas es no negativa].
1. PB(A)0
2. PB(E)=1
3. Dada una coleccin de sucesos A1,A2,...,An (Ai A) disjuntos dos a dos, se tiene:
Ai
ni=1 ) n /B n
PB ( = P (( Ai) )= P(Ai/B)
i=1 i=1
P(AB)
El primer axioma se comprueba de modo inmediato ya que se tiene P(A/B) = P(B) 0,
por serlo el numerador.
P(EB) = P(B) = 1
Por lo que se refiere al segundo axioma, se tiene: P(E/B) = P(B) P(B)
Consideremos ahora la coleccin de sucesos especificada en el tercer axioma; se verifica:
ni=1Ai ) ni=1
) /B P ((ni=1Ai ) B (ni=1(AiB))
) P
PB ( =P (( Ai )= P(B) P(B)
=
teniendo en cuenta que los sucesos Ai B son disjuntos dos a dos [por qu?], el axioma iii) de la
caracterizacin de Kolmogorov, garantiza:
28
1. Incertidumbre y probabilidad
n
P(B) B)
P(Ai
n Ai =ni=1 P(AiB)P(B) = n n
i=1
PB ( )= P(Ai/B) = PB(Ai)
i=1 i=1 i=1
Puede extenderse sin ningn problema la justificacin anterior al caso de una sucesin infinita de
sucesos.
Queda pues comprobado que la probabilidad condicionada PB es una verdadera funcin de pro
babilidad.
En la definicin anterior el suceso que condiciona (B) debe tener una probabilidad positiva para
que el cociente de probabilidades est definido. Pero podemos preguntarnos qu ocurrira si B tuviese
asignada probabilidad nula? En este caso caben dos tipos de argumentacin: por un lado podramos
decir que no tiene sentido condicionar a un suceso imposible puesto que esta condicin en la prctica
no se va a dar; sin embargo, utilizando el concepto frecuencial de la probabilidad existen sucesos
que nunca se han verificado, que por tanto tienen probabilidad nula, y que podran servirnos para
hacer simulaciones del tipo "qu habra ocurrido si ....?"; esto es, existen hechos sobre los que no
disponemos de experiencia y que sin embargo de verificarse habran alterado los resultados posteriores.
AB = {AB/A A}
P(A B) = P(A)P(B)
29
1. Incertidumbre y probabilidad
Aunque no se haya hecho una mencin explcita a ello, la definicin de independencia se apoya en
la probabilidad condicionada que exige que el suceso que condiciona tenga una probabilidad no nula;
esto es, P(B) > 0; y como la independencia entre A y B implica la misma entre B y A, tambin debe
cumplirse P(A) > 0.
La equivalencia probada entre la definicin y la condicin de independencia es vlida para todo
par de sucesos de probabilidades no nulas.
Si por ejemplo P(B) = 0 y A es otro suceso cualquiera, la definicin de "A independiente de
B" no puede aplicarse con lo cual no podremos afirmar nada al respecto. Sin embargo, aplicando la
condicin de independencia se tiene: P(A B) P(B)=0, por tanto: P(A B)=0.
Por otra parte: P(A)P(B) = P(A),0=0, de donde se obtiene: P(A B) = P(A)P(B).
De la comprobacin anterior se extraen dos consecuencias: la primera es que la condicin de
independencia es ms general que la definicin establecida y es aplicable a cualquier par de sucesos A
y B; y la segunda es que un suceso de probabilidad nula siempre es independiente de cualquier otro.
Hemos expresado el concepto de independencia ligado al de probabilidad; sin embargo pueden es-
tablecerse diversos conceptos de independencia segn cul sea la referencia respecto a la que medimos
esa independencia. De hecho, esta idea guarda relacin con la independencia estadstica, que viene
expresada en trminos de frecuencias relativas.
30
1. Incertidumbre y probabilidad
Otro concepto que guarda gran similitud con los anteriores es el de independencia en informacin;
un suceso A es informativamente independiente de otro B, si la informacin que proporciona el pri
mero no disminuye al conocerse la que puede suministrar el segundo. Si introducimos una medida I
indicativa de la informacin que contiene un suceso, representamos por I(A) la informacin suminis
trada por A y por I(A/B) la informacin que permanece en A cuando se conoce B. Pues bien, A
ser independiente en informacin de B si I(A) = I(A/B), es decir, la informacin que proporciona
A cuando se conoce B es la mxima que puede suministrar y por tanto B no contiene informacin
sobre A.
31
1. Incertidumbre y probabilidad
1. P(Ai)>0,i=1,...,n
2. AiAj=, i=j
3. ni=1 Ai = E, que aplicando la funcin de probabilidad a ambos miembros y
teniendo en cuenta 2) equivale a: P(E)=1= ni=1 P(Ai)
[Las alternativas de futuro del ejemplo anterior forman una particin. Por qu?]
Esta relacin se conoce como frmula de la probabilidad total, porque permite cal
cular la probabilidad total de un suceso a partir de las probabilidades de sus partes
(intersecciones con los elementos de la particin).
32
1. Incertidumbre y probabilidad
de la particin son incompatibles dos a dos, (BAi) Ai, por tanto esas intersecciones
son tambin incompatibles dos a dos y en consecuencia si aplicamos la funcin de
probabilidad, se tiene:
P(B) = P ( ni=1(B Ai)) = ni=1 P(B Ai) [por qu?]
Por otra parte, de la frmula de la probabilidad condicionada se sigue:
P(B/Ai) = P(BA
P(Ai )
i)
, y despejando: P(B Ai) = P(B/Ai)P(Ai)
Por tanto sustituyendo en la expresin anterior, resulta:
P(B)=ni=1P(B/Ai)P(Ai)
33
1. Incertidumbre y probabilidad
P(B/Ai)P(Ai )
P(Ai/B) = n
i=1 P(B/Ai )P(Ai )
Este teorema fue enunciado por primera vez por Bayes en 1763, aunque ste slo lo demostr para
el caso de equiprobabilidad de las causas (Ai ). La demostracin completa del teorema corresponde a
Laplace (1812).
34
2. Magnitudes aleatorias
A menudo resulta interesante el estudio de magnitudes cuyo valor es imposible
predecir de forma exacta. En estas situaciones, las tcnicas estadsticas descriptivas
-aunque tiles- son insuficientes, revelndose como imprescindible la utilizacin de
probabilidades para cuantificar la potencialidad.
A modo de ejemplo, si consideramos la actualidad econmica de una jornada, es
posible que aparezcan noticias referidas a los beneficios de las entidades bancarias,
el nivel de precios, los nuevos empleos que se generarn asociados a una inversin, el
crecimiento del PIB, . . .
Aunque todas estas caractersticas tienen elementos comunes, tambin se aprecian
entre ellas algunos rasgos diferenciales. As, para tratar la informacin relativa a los
beneficios de entidades bancarias podramos aplicar herramientas de estadstica des
criptiva, ya que estamos describiendo informacin pasada. Por el contrario, el plan
teamiento cambiara si la informacin se refiere al nmero de empleos que de forma
directa o indirecta sern generados por cierta inversin, ya que en este caso hablamos
de un hecho futuro y por tanto existir un componente de incertidumbre. De mo
do anlogo, esta presencia de incertidumbre se manifiesta en hechos que, aun sin ser
futuros, no pueden ser analizados desde un punto de vista determinista, al resultar
imposible un anlisis exhaustivo de los mismos. De ah que las informaciones relativas
al crecimiento del PIB o la inflacin sean estimaciones, basadas en informacin parcial
y que aparecern acompaadas de alguna medida de su credibilidad, en trminos de
probabilidad.
35
2. Magnitudes aleatorias
36
2. Magnitudes aleatorias
Supongamos una funcin aleatoria que asigna valor unitario a la situacin de acti
vidad. Tal y como muestra la figura 2.1todos los activos conducen al valor 1; por lo
tanto tendremos tantas posibilidades de obtener 1 como de seleccionar un activo. As
pues, el sistema inicial de probabilidades sobre E induce un nuevo sistema P sobre
, de manera que P(1) = P(A) y P(0) = P(NA). Esta probabilidad inducida viene
inferida por la definicin de la v.a. que especifica a qu valores se les asigna una pro
babilidad no nula y por el sistema inicial de probabilidades que permite la asignacin
de su cuanta.
De una forma ms general, necesitamos establecer un espacio probabilizable sobre el cuerpo de los
nmeros reales, y a partir de l definir la probabilidad (inducida) que permita esa identificabilidad
El espacio nos lo proporciona y la -lgebra de Borel, , definida sobre ; esta -lgebra estar
formada por todos los intervalos abiertos, semiabiertos, cerrados y sus intersecciones, uniones, ... .
Denotaremos por ( ,) este espacio probabilizable.
Definicin 2.1. Definimos una variable aleatoria, X, como una funcin de E en que sea
medible; esto es, que la imagen inversa de todo boreliano (elemento de ) sea un suceso (elemento
de A).
En un sentido estricto tendramos que distinguir entre el concepto de magnitud aleatoria (in
troducido en prrafos anteriores como v.a.) y la definicin que acabamos de establecer de variable
aleatoria. Podemos observar que esta definicin es ms restrictiva que la enunciada anteriormen
te, pues se pueden buscar contraejemplos de magnitudes aleatorias (asociadas a los resultados de
fenmenos aleatorios) que no satisfacen la definicin de variable aleatoria.
La definicin dada responde satisfactoriamente a nuestros objetivos, pues nos permite definir de
forma natural una probabilidad inducida sobre por P y X que garantice la identificacin anterior
como se recoge en la figura 2.2.
37
2. Magnitudes aleatorias
Definicin 2.2. Una variable aleatoria X es una aplicacin de E en , que verifica: X1(,x]
es un elemento de A para todo x .
Definicin 2.3. Definimos la probabilidad inducida, P, sobre como aquella funcin de conjunto,
que para todo x de verifica: P ((,x]) = P (X1(,x]) .
Demostracin. En efecto, tendremos que comprobar que cumple los tres axiomas de la probabili
dad; esto es:
P(B)0,B
P(E)=1
Si B1,...,Bn,...
( es una
) sucesin
de borelianos disjuntos dos a dos Bi Bj = , i = j,
entonces: P Bi = P (B i ).
i=1 i=1
Volviendo al ejemplo anterior de individuos activos e inactivos, es fcil comprobar que la magnitud
definida cumple la definicin de variable aleatoria. En efecto, la -lgebra A en este caso viene deter
minada por: A = {{},{A},{NA},{E}} (incluye todas las uniones, intersecciones y complementarios
de sus elementos); luego el espacio (E,A) es un espacio probabilizable.
Sobre este espacio pueden establecerse infinitas medidas de probabilidad, por ejemplo: P(A)=0,75
y P(NA)=0, 25. (P es una funcin definida sobre todos los elementos de A, evidentemente P()=0
y P(E)=1). De esta forma la terna (E,A,P) constituye un espacio de probabilidad.
Para comprobar que X es una v.a. tendremos que ver que la imagen inversa de todo intervalo de
la forma (,x] pertenece a A; en efecto,
x<0, X1(,x]=A
38
2. Magnitudes aleatorias
< [0,1),
x 0, P(,x] = P=(X1(,x]
P(,x] P( ) = P()=0
X1(,x]) = P(NA)=0,25
(
x 1, P(,x] = P (X1(,x]) = P X1(,0]) +P (X1(0,1]) +P (X1(1,x]) =
0+P(NA)+ P(A)=0+0,25+0,75 = 1
La probabilidad inducida est inferida por la probabilidad inicial (podra ser otra, por ejemplo P(A) =
0,5 y P(NA)=0,5) y por la variable aleatoria (as la v.a. que asignase X(A) = 10 y X(NA) = 10,
inducira una nueva probabilidad).
39
2. Magnitudes aleatorias
Aunque este ltimo tipo de variable mixta es poco frecuente, merece ser tenido en
consideracin y podran encontrarse algunas ilustraciones del mismo en la vida diaria
(el tiempo que un individuo se ve obligado a esperar en la consulta de un mdico, las
tarifas de algunos servicios telefnicos o elctricos, las ganancias obtenidas con ciertos
juegos de azar...).
Los sucesos aleatorios se caracterizan por "poder ser" y no por "ser"; esta "poten-
cialidad" es la diferencia bsica entre una variable estadstica y una aleatoria y entre
sus correspondientes valores.
Podramos plantearnos entonces si, una vez observada una variable aleatoria, sta se transforma en
estadstica por el simple hecho de pasar de futuro a pasado. Evidentemente, la respuesta es negativa
ya que la diferencia entre ambas categoras entraa algo ms, referido al hecho de que la variable
estadstica se supone exenta de incertidumbre a diferencia de la variable aleatoria cuyos valores
pudieron haber sido otros (sustituimos la certeza por la posibilidad o grados de posibilidad).
Ahora bien, una vez observada cierta variable aleatoria, si nos abstraemos de la incertidumbre que
rodea a sus valores y los tomamos como ciertos, entonces podramos efectuar sobre los mismos un
estudio de tipo descriptivo.
Cuando desarrollamos un anlisis sobre variables estadsticas, el mbito se denomina estadstica
descriptiva. Teniendo en cuenta la identificacin anterior, la estadstica descriptiva tambin se puede
desarrollar sobre los valores de variables aleatorias, reservando en este caso la probabilidad para el
proceso de induccin posterior de resultados.
p:xp(x)=P(X=x)=P({wE/X(w)=x})[0,1]
La cuantificacin de esta probabilidad puntual no siempre tiene sentido, dependien
do la descripcin probabilstica de una variable de su carcter discreto o continuo.
Consideremos dos caractersticas asociadas a cierta entidad bancaria durante el
prximo ao: nmero de empleados por sucursal y volumen de beneficios de la misma.
Dado que ambas magnitudes van referidas al futuro sern variables aleatorias. La
primera de ellas, discreta, quedara descrita si consiguiramos aproximar mediante
algn mtodo la probabilidad de que el nmero de empleados de una sucursal sea 1, 2,
..., procedimiento que sin embargo no es generalizable al caso de los beneficios, como
consecuencia de su carcter continuo.
En efecto, existen infinitas posibilidades de beneficio que son no numerables. Cada
una de ellas tiene cierta posibilidad de ocurrencia -en principio todas ellas positivas
40
2. Magnitudes aleatorias
y, por pequeas que sean estas cantidades, su suma sera infinito, no verificando el
segundo axioma de la probabilidad.
Supongamos que los beneficios pueden oscilar entre a y b, a X b, y cualquier valor de ese
recorrido es posible, P(x) > 0, x [a, b]. Si denotamos por p el nfimo de estos valores:
Estas tres propiedades caracterizan a las funciones de distribucin, de forma que toda funcin que
satisfaga dichas propiedades ser la funcin de distribucin de una cierta variable aleatoria.
[Xx2]=[Xx1][x1<Xx2]
es decir, mediante la unin de dos sucesos incompatibles; aplicando la funcin de probabilidad a los
dos miembros, tendremos:
41
2. Magnitudes aleatorias
de valores m, con m" < mn+1 y lmnsoo m I 0o; sin prdida de generalidad podemos suponer que
esta sucesin es la de los nmeros naturales {0, 1, . . . ,n, . . que cumplen las condiciones anteriores.
El suceso [X n] puede ser expresado como una unin de sucesos incompatibles de la forma
siguiente:
[Xn]:[X0]U[0<X1]U--LJ[n1<Xn]
y como la probabilidad de la unin es la suma de probabilidades, tenemos:
FWIPGXSn1):P([Xs0l)+P([0<X51l)++P([n-1<X5n1)
Por otra parte, el suceso seguro puede ser expresado como unin innita de los sucesos disjuntos
anteriores: E I [X 0] 1 < X i], por lo tanto:
P([XSnl):P([Xs0l)+P([0<Xs1])+"-+P([n-1<Xsn])>1-6
Por tanto queda demostrado que lmnsoo F(n) I 1 y de forma general lmzsroo I 1.
De forma anloga se demuestra lmzasoo F I 0.
Finalmente, pasemos a demostrar la propiedad tercera: F es continua a la derecha, esto es:
1mh>O+ F(m + h) I
En efecto, podemos considerar la siguiente descomposicin: [X m+hj I [X mjLJlx < X m+hj
42
2. Magnitudes aleatorias
{
1 si w es activo
X=
0 si w es inactivo
las probabilidades acumuladas sern nulas para todo valor de X inferior a 0. Para todo
x positivo e inferior a 1 el nico valor factible menor que 1 es el 0 (P(X =0)=0,25),
por lo cual la probabilidad acumulada ser 0,25, y finalmente para todo x 1, los
valores factibles menores o iguales a x son el 0 y el 1, por lo que la probabilidad
acumulada ser 0,25 + 0,75 = 1.
Las caractersticas de la funcin de distribucin (f.d.) son anlogas para toda varia
ble discreta: es una funcin escalonada que est definida en toda la recta real, antes
del primer valor posible de la variable F(x) es nula, la funcin experimenta un salto
en cada uno de los valores factibles de la variable, la altura de dicho salto es igual a
la probabilidad puntual de ese valor (que, por ser no negativa, da lugar a una funcin
montona no decreciente) y, por ltimo, para x no inferiores al ltimo valor de la
variable, F(x) permanece constante e igual a la unidad.
Como podemos observar en el comentario anterior quedan reflejadas las propiedades sealadas de
la funcin de distribucin. En este ejemplo se trata de una funcin de distribucin no continua, con
tantos puntos de discontinuidad como valores puede tomar la variable (para v.a. discretas sern un
nmero finito o infinito numerable). Adems cuando avanzamos hacia un valor de la variable por la
izquierda la f.d. toma un valor constante que no coincide con el del punto:
lm
0+ F(xi ) = F(xi )
y la diferencia entre las dos cantidades ser precisamente la probabilidad asociada a ese valor. Por
tanto la funcin no es continua por la izquierda. [Lo es por la derecha?, raznese la respuesta] [en
qu condiciones la funcin sera continua?]
43
2. Magnitudes aleatorias
F(x) F(x)
0 X Discreta X Continua
P(a<Xb)=P(Xb)P(Xa)=F(b)F(a)
De este modo, a partir de los grficos anteriores podemos identificar las probabilida
des de intervalos, que vendran representadas en el eje de ordenadas por la diferencia
entre los correspondientes valores de la f.d.
44
2. Magnitudes aleatorias
1
0,9
0,7
0,5
0 1 2 3
45
2. Magnitudes aleatorias
0,5
0 1 2 3
Proposicin 2.3. La f.d. F(x) de una v.a. X puede expresarse como la suma de
valores de probabilidad hasta ese valor.
46
2. Magnitudes aleatorias
F(xi) = F(xi1)+p(xi)
y procediendo de forma recursiva:
teniendo en cuenta por otra parte que para x1 se cumple F(x1) = p(x1), se obtiene:
i
F(xi) = p(xj)
j=1
47
2. Magnitudes aleatorias
48
2. Magnitudes aleatorias
P(xh<Xx+h)=F(x+h)F(xh)
Por otra parte, si la funcin f(x) es integrable, entonces el teorema del valor medio
del clculo integral, nos dice que existe un punto intermedio y, de manera que el rea
de ese intervalo se puede expresar como: P(xh<X x+h) = f(y)2h, de donde:
P(xh<Xx+h)
f(y) =
2h
y tomando lmites cuando h tiende a cero, podemos escribir:
f(x) = h0 P(xh<Xx+h)2h
lim
expresin que justifica el nombre que se le asigna a esta funcin: cuantifica la masa
de probabilidad de un intervalo en relacin a su amplitud, cociente que responde a la
idea de densidad, ya que para cada x puede ser interpretada como la densidad de
probabilidad en un entorno infinitesimal de ese punto.
Proposicin. Dada la f.d. F(x) de una cierta v.a. X, la funcin de densidad se
obtiene como la derivada de F(x).
La funcin f(x) que recoge la densidad de probabilidad ser no negativa pues, segn
comprobamos en las propiedades de la f.d., F(x) es una funcin montona no decre
ciente y por tanto su derivada (si existe) no puede ser negativa. Desde un punto de
vista an ms intuitivo, si fuese negativa podramos encontrar algn intervalo -aunque
tuviese amplitud infinitesimal- con probabilidad negativa.
Consideremos por ejemplo una magnitud aleatoria continua X que cuantifica la
distancia (expresada en miles de km.) recorrida semanalmente por un viajante, cuya
funcin de distribucin viene dada por la expresin:
49
2. Magnitudes aleatorias
0 siai<2
Fan: hg a2gx<w
1 si10ac
m{ lop; wlb
a2gs<w
en otro caso
F(x) I f f(t)dt
Demostracin. Bastara tener en cuenta que podemos expresar como una integral
de Stieltjes-Lebesgue I ffoo dF(t) y que cuando la variable es continua se
cumple: dF(ac) I f(x)da:; por tanto se vericar:
Z
b a b
P(a < x 5 b) I F(b) _ Fa) I feo f(m)dm _ fu) aya I f(il)dm
f(w) Z 0
I f; f(x)dx :1
50
2. Magnitudes aleatorias
As, por ejemplo, la probabilidad de que el recorrido del viajante oscile entre 2.000
y 4.000 km. semanales vendra dada por el valor P(2 < X 4) = 0,625. Puede
observarse que dicha probabilidad supera a la del recorrido entre 6.000 y 8.000 km.,
intervalo de igual amplitud que el anterior, pero que sin embargo resulta menos pro
bable como consecuencia de la propia densidad de probabilidad f(x) [comprobar que
P(6 < X 8) 0,10417].
Una vez estudiadas las distintas vas a travs de las cuales puede venir descrita una
variable aleatoria, presentamos una sntesis de las mismas:
51
2. Magnitudes aleatorias
Figura 2.9.:
Funcin de distribucin
Funcin de
probabilidad densidad
Funcin de
DISCRETA CONTINUA
Variable Aleatoria
empleado trabaja h horas semanales, la variable que recoge el nmero total de horas
es tambin aleatoria y vendra dada por X = hX.
De modo anlogo, si la plantilla de cada sucursal aumentase en dos empleados, la
v.a. que indica el nuevo nmero de empleados sera ahora X = X + 2.
En cualquiera de estas dos situaciones nos enfrentamos a un cambio de variable.
La magnitud aleatoria definida aparece conectada con la inicial, por lo cual resulta
posible conocer su distribucin de probabilidad a partir de la informacin sobre X.
En concreto, para los ejemplos anteriores, por tratarse de variables discretas, bas
tara con identificar el recorrido de valores de las nuevas variables X y X y sus
correspondientes probabilidades, que se obtienen a partir de las asociadas a X.
En los ejemplos propuestos, las transformaciones de X, X y X vendran descritas en los trminos
siguientes,
FX(x) = P(X x) = P(hX x) = P(X xh) = FX(xh)
FX(x)=P(X x)=P(X+2x)=P(Xx2)=FX(x2)
Es evidente que a menudo aparecen cambios de variable ms sofisticados que los anteriormente
descritos. As, podramos encontrarnos con cambios por tramos (por ejemplo, aumentos de 1, 2 o 3
empleados por sucursal segn sus niveles iniciales) en cuyo caso la deduccin de la distribucin de la
nueva variable sera ms complicada.
Si consideramos ahora una magnitud continua (por ejemplo, los beneficios empresa
riales Y) y asumimos que la entidad debe pagar en concepto de impuestos un 15 % de
sus beneficios tendramos la variable Y = 0,15Y, cuya distribucin de probabilidad
podra ser obtenida a partir de la idea de probabilidad acumulada (recogida para los
impuestos mediante la funcin de distribucin de Y), conectando esta expresin con
la probabilidad acumulada de los beneficios:
52
2. Magnitudes aleatorias
En el procedimiento genrico del cambio de variable distinguiremos segn se trate de v.a. discretas
o continuas.
1) Supongamos que X es una v.a. discreta que puede tomar un conjunto de valores x1,...,xn ,...
con probabilidades respectivas p,...,pn ,... . Sea g una funcin definida en el conjunto imagen de X
tal que g(X) es una nueva v.a.:
E X(E) g(X(E))
= P({xi/xi Ci})=
P(Y = yi) = P({xi /g(xi) = yi}) = P ({xi/xi {g1(yi)}}) p(xi)
xiCi
para obtener la ltima relacin tngase en cuenta que Ci es un conjunto formado por un nmero
finito o numerable de puntos (estos puntos son disjuntos y por tanto la probabilidad de Ci es la suma
de las probabilidades de los puntos que lo integran).
A modo de ejemplo, reconsideremos la variable anterior X="Plantilla de una sucursal bancaria" y
su transformacin X="Nmero de horas trabajadas". Segn el razonamiento expuesto se obtendra
la probabilidad puntual de un nmero concreto de horas trabajadas como:
({ xih })
P(X = xi) = P({xi /hxi = xi}) = P xi /xi =
En este caso, la correspondencia es sobreyectiva por lo cual la expresin genrica anterior nos
proporcionara la probabilidad de la variable Y como suma de probabilidades puntuales de varios
valores de X.
Si por el contrario g es una funcin continua, ser posible -siempre que g tenga inversa- obtener
su f.d. a partir de la de X como:
53
2. Magnitudes aleatorias
Adems en determinadas condiciones podemos encontrar una relacin entre las funciones de densidad
de X y de Y, como pone de manifiesto la siguiente propiedad:
Proposicin 2.4. Sea X una v.a. continua con funcin de densidad f(x), la cual es estrictamente
positiva en un intervalo [a, b]. Sea Y = g(X) una transformacin montona y continua en el intervalo
[a,b], entonces Y es una v.a. continua cuya funcin de densidad viene dada por la expresin:
1
fX (g1(y)) dg dy(y) siyg([a,b])
fY(y)= {
0 en otro caso
La justificacin consiste en aplicar la regla de la cadena y distinguir los casos de monotona creciente
y decreciente.
A modo de ilustracin de este ltimo caso, retomando la variable X="Distancia kilomtrica recorri
da semanalmente por un viajante" podemos definir ahora Y="Dietas cobradas por desplazamientos"
que viene dada por Y = 24X. Dado que se trata de una funcin montona creciente de x es posible
aplicar la expresin anterior para el cambio de variable, con lo cual se obtiene:
{ ) ( )
fX ( y24 124 siy[24,240]
fY (y) =
0 enelresto
54
2. Magnitudes aleatorias
E(X) = = xdF(x)
[Aplicando esta expresin, comprubese que, para el ejemplo del viajante, se obtiene
un recorrido semanal esperado de 4.024 km. ( = 4,024)].
Para variables discretas, los nicos valores no nulos de las diferencias dF(x) se
corresponden con los valores de la variable, para los cuales se obtiene:
55
2. Magnitudes aleatorias
La esperanza matemtica no siempre permite resolver de forma adecuada algunos problemas re-
lativos a la ganancia esperada de un juego. La "paradoja de San Petersburgo" -denominada as por
haber aparecido publicada en la Revista de la Academia de San Petersburgo- pone de manifiesto la
diferencia entre esperanza matemtica y esperanza moral.
Esta paradoja, que dio origen a numerosas discusiones en el siglo XVIII, puede ser planteada como
sigue: "Dos jugadores A y B participan en un juego consistente en lanzar una moneda y apostar sobre
el resultado considerado favorable (cara, por ejemplo). Las condiciones del juego son: el nmero de
lanzamientos es ilimitado, el juego concluye cuando aparece una cara por primera vez y la apuesta
se va duplicando con el nmero de lanzamientos. As, por ejemplo, A pagar a B una cantidad x si
sale cara en la primera tirada, 2x si no sale en la primera pero s en la segunda, 4x si no sale hasta
la tercera, etc.
Como consecuencia, la probabilidad que tiene B de ganar una cantidad x es 12, de ganar 2x es
( n+1. Su ganancia esperada en n
14, la de 4x es 18 y en general la probabilidad de ganar 2nx es 12 )
E(X)= 1 =nx 1
2x+ 222x+
1 1 22x ++ 2n+1
23 1 2nx
2
que puede llegar a ser infinito si no limitamos el nmero de lanzamientos n y sin embargo ningn
jugador estara dispuesto a exponer en un juego como el descrito una suma importante de dinero,
ponindose as de relieve la limitacin de la esperanza matemtica.
Daniel Bernoulli introdujo en 1738 el concepto de "esperanza moral", germen de la moderna teora
de la utilidad marginal y donde adems ya expresaba el principio de la utilidad marginal decreciente.
Este concepto fue tambin analizado por Laplace (1814) quien comenta algunas aplicaciones del
criterio de la expectativa moral o utilidad esperada.
La inexistencia del valor esperado en una v.a. continua se pone de manifiesto con la distribucin
de Cauchy, cuya funcin de densidad viene dada por la expresin:
f(x)= 1
(1+x2),<x<
Cuando nos interesa resumir una variable obtenida mediante una transformacin de la variable
original, podemos establecer la siguiente definicin:
Definicin. Dadas una v.a. X y una funcin g tal que g(X) es de nuevo una v.a., se define la
esperanza de esta nueva variable como:
E[g(X)] = g(x)dF(x)
Segn que la nueva variable sea discreta o continua, este valor esperado podr ser expresado con
las formulaciones vistas anteriormente.
56
2. Magnitudes aleatorias
1. E(c) = c
2. E(aX) = aE(X)
3. E(X + c) = E(X) + c
4. E(aX + c) = aE(X) + c
Demostracin.
En efecto,
E(c) = cdF(x) = c dF(x) =c
E(aX) = axdF(x) = a xdF(x) = aE(X)
E(X + = c) (X + c)dF(x) = xdF(x) + c dF(x) = E(X) + c
y a partir de los dos ltimos resultados c) aE(X) + c
se obtiene: E(aX + =
[Hemos aplicado
dF(x)que para
continuas = dF(x) = ipi = 1 variables discretas y para variables
f(x)dx = 1 ]
Proposicin 2.6. Para cualesquiera variables aleatorias X e Y, la esperanza de la
suma puede ser obtenida como suma de sus esperanzas: E(X + Y) = E(X) + E(Y)
Esta propiedad resulta de gran inters ya que, como veremos en captulos posteriores, a menudo
nos interesa trabajar con magnitudes aleatorias que se obtienen como agregados de otras.
57
2. Magnitudes aleatorias
Definicin 2.8. Dada una v.a. X definimos la varianza, que denotamos por 2 o
Var(X), como el valor, si existe, de la expresin:
(x
2 = Var(X) =E [X E(X)]2 = )2dF(x)
58
2. Magnitudes aleatorias
2. Var(X + c) = Var(X)
3. Var(bX) = b2Var(X)
4. Var(X) E(X M)2
E(XM)2= E(X+M)2=E[(X)+(M)]2=
[ ]
= E (X)2+2(X)(M)+(M)2
Teniendo en cuenta que el operador esperanza es lineal y que y M son constantes,
se tiene:
E(XM)2=E(X)2+(M)2
0
Al ser ( M)2 un cuadrado y por tanto no negativo, se tiene que a 2 hay que
sumarle una cantidad mayor o igual a cero para alcanzar a E(X M)2 de donde:
E(X M)2 2
59
2. Magnitudes aleatorias
De este modo, se dispone de una medida de dispersin cuya informacin aparece como complemen
taria a la proporcionada por la esperanza. Esta medida permite acotar probabilidades de intervalos
con independencia del modelo de probabilidad que siga la variable X ya que, como demostraremos
en un epgrafe posterior, se cumple para cualquier k > 0:
P(k<X<+k)11k2
expresin conocida como desigualdad de Chebyshev y cuya interpretacin es muy clara: la probabilidad
de que un valor de la variable se site en cierto entorno de su esperanza, determinado ese entorno
por su desviacin tpica, es mayor que una cierta cantidad.
As pues, gracias a la acotacin anterior, podemos entender la desviacin tpica -y en su caso la
varianza- como una medida de riesgo asociada a la v.a.
Adems, en el caso de que la variable X siga una distribucin conocida, las acotaciones an
teriores pueden ser perfeccionadas. Ms concretamente, si X se adapta a un modelo normal, se
puede comprobar que el 66% de los valores se sitan dentro del intervalo ( , + ); esto es:
P( <X< + ) 0,66. Ampliando el intervalo observamos que la proporcin de valores que
se sitan en l aumenta y as se tiene:
P(2<X<+2)0,95yP(3<X<+3)0,99
Las caractersticas anteriormente vistas -esperanza, varianza y desviacin tpica- son equivalentes
a las correspondientes medidas descriptivas media, varianza y desviacin tpica, con la nica salvedad
de que ahora su rasgo caracterstico es la potencialidad como consecuencia del carcter aleatorio de X.
Las caractersticas anteriores, aun siendo las ms habituales, no agotan las posi
bilidades de describir una magnitud aleatoria. De hecho, las distintas medidas de
tendencia definidas para variables estadsticas son generalizables al caso de variables
aleatorias.
Una vez visto el paralelismo entre media y esperanza, la Moda podra ser identificada como valor
que maximiza la probabilidad o densidad y, a travs de la funcin de distribucin podemos contemplar
de modo inmediato cualquier cuantil (a modo de ejemplo, la Mediana sera aquel valor de la variable
para el que se acumula una probabilidad del 50 %, esto es, se cumple p (X Me)=0,5).
60
2. Magnitudes aleatorias
Cuando se quieren comparar las dispersiones de varias v.a., la varianza y la desviacin tpica no
son tiles porque muestran la variacin respecto a su valor esperado y dependen de las unidades y de
la magnitud de ste. En este tipo de problemas es conveniente introducir las medidas de dispersin
relativas, de las cuales la de uso ms generalizado es el coeficiente de variacin de Pearson, definido
como el valor de la expresin: CV = .
r,M=E(XM)r
r = E[X E(X)]2
Se llama momento de orden r centrado respecto al origen (0) o simplemente mo
mento no centrado de orden r, r, al valor, si existe, de la expresin:
61
2. Magnitudes aleatorias
Otras caractersticas importantes asociadas a las v.a. estn referidas a la forma que presenta su
funcin de probabilidad o de densidad; nos referimos a las caractersticas de asimetra y apuntamiento
de la curva. Existen varios indicadores para medir estos parmetros, siendo los ms usuales los
denominados coeficientes 1 y 2 de Fisher.
El estudio de la forma de una distribucin se efecta habitualmente adoptando como referencia
el modelo normal -que analizaremos con detalle en el captulo siguiente- cuya representacin es una
curva simtrica campaniforme conocida como "campana de Gauss".
33 y su valor se
Definicin 2.12. El coeficiente de asimetra 1 se define como el cociente: 1 =
compara respecto al 0, resultando una distribucin asimtrica positiva o a la derecha si su coeficiente
1 es positivo y asimtrica negativa o a la izquierda si ste es negativo. Cuando el resultado es nulo,
decimos que la curva es simtrica.
44 3, y su resultado se compara tambin
El coeficiente de apuntamiento 2 se define como: 2 =
con el 0, valor de referencia que corresponde a una distribucin normal estndar y que de presentarse
permite calificar a una distribucin de mesocrtica. Los valores positivos de este ndice se correspon
den con un apuntamiento superior al normal (distribuciones calificadas de leptocrticas) mientras
que para valores negativos el apuntamiento es inferior al normal y las distribuciones se denominan
platicrticas.
En ocasiones nos interesar conocer la distribucin del valor agregado total de v.a. X entre los
elementos que componen la poblacin. En este caso se utilizan las medidas de concentracin y de
sigualdad.
Las medidas ms utilizadas son la curva de Lorenz y el ndice de Gini -Lorenz que lleva asociado,
que en este caso formalizaremos en trminos probabilsticos
Definicin 2.13. Dada una variable aleatoria X con funcin de distribucin F(x) el ndice de
concentracin de Gini-Lorenz viene dado por el resultado de la expresin:
L(X)=1 2
10 F1(x)dF(x)
donde la f.d. F(x) representa la proporcin de rentistas por debajo de una cantidad x y F1(x) se
define como:
x0tdF(t)
F1(x)=
Aunque la curva de Lorenz y el ndice de Gini-Lorenz son las medidas ms tradicionales, con
carcter ms reciente han sido introducidas medidas que solucionan sus limitaciones. En concreto, en
trabajos anteriores hemos propuesto medidas de la desigualdad desde las pticas individual (indicador
asociado a la persona que sufre o repercute desigualdad) y colectiva (medida obtenida como sntesis
de los indicadores individuales)2.
2Un estudio detallado de estas medidas de desigualdad, que incluye tambin sus conexiones con los
indicadores de pobreza y su anlisis normativo, aparece recogido en el trabajo de Lpez, A.J. y
R. Prez (1991): Indicadores de desigualdad y pobreza. Nuevas alternativas publicado como Docu
mento de trabajo 037/1991 de la Facultad de CC. Econmicas y Empresariales de la Universidad
de Oviedo
62
2. Magnitudes aleatorias
Definicin 2.14. Denominamos ndice de desigualdad individual asociado a una renta x al valor
de la expresin:
x-1
d(x) =
Para x distinto de 0, este coeficiente es una nueva v.a. que recoge la desigualdad generada por
cada renta individual. Como consecuencia, su valor esperado, si existe, ser indicativo del nivel de
desigualdad colectiva:
D=E(d)=E ( x1) 0 ( x1)
dF(x)
=
MX(t) = E(etX)
63
2. Magnitudes aleatorias
dt t
- e") I - E es] - E i; ea] , - Ele en X2
t o
y en general, para la derivada de orden r:
dTM t d d
Ti) I E (JX) I E (JX) I E lx (@)j I E(X) I a.
dt dtT t 0 dtT IO 1:0
Consideremos de nuevo la v.a. "Nmero de medallas obtenidas por un deportista" y su distribucin
de probabilidad:
X:1 P(X_1)_02
X:2 P(X_2)_02
P(X 3) 0 15
Segn la expresin vista para la funcin generatriz de momentos se tiene en este caso
dMX (t)
d, I 0, 2 ( + 2) + 0, se
tIO
dMX (t)
1021 2 03:09
dt 7(+)+7 7
tIO
PFOPOSCII 2.1. Otras propiedades importantes de la f.g.m. son las relativas a los cambios de
origen y escala:
Demostracin. En efecto:
MCJFXG) I E. [eawxq I E. (etcetX) I etcE (etX) I QCMX (t)
64
2. Magnitudes aleatorias
La funcin caracterstica presenta como ventaja con respecto a la f.g.m. que siempre tiene garan
tizada su existencia.
Definicin. Se define la funcin caracterstica asociada a una v.a. X como una aplicacin X :
t x (t) C, dada por la expresin:
eitx
X (t) = E ( ) = E [costx + i sintx]
Este valor esperado existe siempre para todo t real verificndose una identidad entre las funciones de
densidad y caracterstica: a toda funcin de densidad corresponde una nica funcin caracterstica y
recprocamente.
Como observamos, la funcin caracterstica toma valores en el campo de los nmeros complejos
y los conocimientos de integracin compleja exceden el nivel de formalizacin que seguimos en esta
obra.
65
2. Magnitudes aleatorias
P(|XE(X)|)Var(X)2
P[h(X) b] 1bE[h(X)]
Ms concretamente, h(X) =
la desigualdad de Chebyshev se correspondera con el caso en que
[X E(X)]2 , = b. [Comprubese].
donde hemos aplicado para la primera desigualdad h(x) 0 y para la segunda h(x) b para todo x
de A.
V ar(X)
P(|X E(X)| )
2
66
2. Magnitudes aleatorias
67
3. Modelos de probabilidad
En nuestra realidad cotidiana nos encontramos diversas variables de carcter aleato
rio que, tal y como hemos expuesto en el captulo anterior, slo pueden ser analizadas
convenientemente si disponemos de informacin sobre su distribucin de probabilidad.
Supongamos a modo de ejemplo que una publicacin est elaborando un reportaje so-
bre experiencias empresariales, en el que existen varios aspectos inciertos.
I Se ha contactado con 20 empresarios de distintos perfiles a los que se desea en-
trevistar para el reportaje pero se desconoce cuntos de ellos accedern a ser
entrevistados. Desde el equipo de redaccin se asume que las respuestas de los
distintos empresarios convocados son independientes y se confa en que, dado el
prestigio de la publicacin, un 80% de ellos accedern finalmente a colaborar.
III La entrevista, que se ajustar a un modelo ya diseado, tendr una duracin alea
toria en funcin de las respuestas y talante del empresario. No obstante, se prev
una duracin cercana a dos horas, resultando poco probable que la entrevista se
desve considerablemente de este tiempo por exceso o por defecto.
En las cuatro etapas descritas aparecen magnitudes de carcter aleatorio, con distintas
distribuciones de probabilidad. No obstante, en la prctica muchas de estas variables
aleatorias presentan comportamientos comunes que pueden ser descritos mediante
pautas. As, el esquema del nmero de empresarios que acceden a la entrevista del
peridico es similar al de los potenciales clientes que finalmente compran un producto
o al de los estudiantes que aprueban un examen.
De igual modo, los tiempos de duracin de las entrevistas, aunque aleatorios, segui
rn previsiblemente un modelo en forma de campana (mayores probabilidades para
los valores centrales y menores para observaciones extremas). Este tipo de distribu
cin -como justifica su denominacin, normal- servir para describir otras muchas
caractersticas (la altura de los empresarios, su peso, ...).
En efecto, existen modelos probabilsticos cuyo inters reside en la capacidad de
describir comportamientos genricos de distintas magnitudes aleatorias que resultan
68
3. Modelos de probabilidad
semejantes segn ciertas pautas. Nos encontramos as con grandes familias probabils
ticas designadas con nombres propios que incluyen como casos particulares numerosos
fenmenos, incorporando sus rasgos diferenciales mediante parmetros.
69
3. Modelos de probabilidad
Dado que la variable X presenta un nico valor, resulta evidente que ste coincidir con su espe
ranza ( = x0). [Cul ser su varianza?]
Definicin 3.1. Dada una prueba dicotmica (tambin llamada de Bernoulli), carac
terizada por dos resultados mutuamente excluyentes (xito y fracaso), indicando por
p la probabilidad de xito, la variable aleatoria definida como:
{
1 si ocurre xito
X=
0 si ocurre fracaso
se denomina modelo o distribucin de Bernoulli (o dicotmica) B(p) .
P(X=0)=q;P(X=1)=p
Este sencillo modelo discreto puede ser representado mediante un diagrama de ba
rras como como recoge la figura 3.1, a partir del cual se obtiene de modo inmediato
la probabilidad acumulada asociada a la funcin de distribucin:
70
3. Modelos de probabilidad
F(x)=P(Xx)=
0 six < 0
q si0x<1
1 si1 x
Las caractersticas de este modelo probabilstico pueden ser tambin obtenidas con
facilidad, ya que a partir de su definicin se tiene:
=E(X)=1p+0q=p
71
3. Modelos de probabilidad
Ya nos hemos referido a otro de los miembros de la familia, Daniel Bernoulli, quien propuso una
solucin para la famosa paradoja de San Petersburgo.
Si examinamos los rasgos que tienen en comn los ejemplos propuestos podemos
llegar a la conclusin de que existen ciertos requisitos para que una experiencia sea
incluida dentro de la familia binomial. As, ser relevante conocer si la probabilidad
de xito es constante en todas las pruebas (en los lanzamientos de un dado este su
puesto parece evidente, pero sin embargo podran existir diferentes tasas de actividad
segn los sectores econmicos, distintas probabilidades de votar s segn la ideologa
poltica, o diferentes probabilidades de acudir a la entrevista segn la fama o el nivel
de ocupacin del empresario).
Del mismo modo, nos interesar saber si las observaciones son independientes (en
los ejemplos del sondeo y de las entrevistas a empresarios podra existir relacin entre
las respuestas, ya que sabemos que unas personas ejercen influencia sobre otras).
Recopilando las consideraciones anteriores:
72
3. Modelos de probabilidad
Toda sucesin de pruebas que verifican las condiciones anteriores se denominan pruebas de Bernou
lli y dan lugar al proceso de Bernoulli. El proceso de Bernoulli surge de una manera natural cuando
realizamos observaciones en una poblacin infinita o cuando, tratndose de una poblacin finita, las
observaciones se seleccionan al azar con reposicin. En estas situaciones los supuestos enunciados
son fcilmente admisibles, ya que las observaciones no alteran la estructura poblacional (gracias al
reemplazamiento o bien al tamao poblacional infinito) quedando as garantizada la independencia
entre observaciones y la constancia de la probabilidad de xito p.
El primero de los interrogantes hace referencia a los casos favorables (cuya secuencia aparece en
el esquema) mientras el segundo evala la verosimilitud de cada uno de ellos. Como cada una de
las secuencias posibles excluye todas las dems, se trata de resultados incompatibles y por tanto la
probabilidad de la unin viene dada por la suma de probabilidades. [Figura 3.2]
Para responder a la cuestin formas de seleccionar k xitos en n pruebas, podemos acudir -como ya
hemos visto en un tema anterior- al anlisis combinatorio. Concretamente se trata de combinaciones
de n elementos de orden k, supuesto que tambin responde al caso de permutaciones de n elementos
con repeticiones k (no distinguimos un xito de los dems) y (n k) (no distinguimos los fracasos
entre s). ( )
A partir de cualquiera de los razonamientos anteriores la expresin de clculo sera Cn,k = nk =
k!(nk)!
n! , que cuantifica el nmero de secuencias de n observaciones con k xitos.
73
3. Modelos de probabilidad
Ahora bien, necesitaramos adems conocer la probabilidad de que se presente cada una de esas
situaciones favorables, que se corresponde con el suceso k xitos y n k fracasos . Se trata pues de
la probabilidad de la interseccin que -gracias al supuesto de independencia entre pruebas- se obtiene
como producto de probabilidades, dando como resultado la expresin pkqnk.
Una duda que podra plantearse es si todos los casos favorables, esto es, los que presentan k xitos,
son equiprobables. La respuesta es afirmativa ya que los supuestos del modelo nos permiten afirmar
que las pruebas son independientes y la probabilidad de xito p permanece constante. Como conse
cuencia la probabilidad de cualquier secuencia de resultados que incluya k xitos y n k fracasos
ser la probabilidad de n sucesos independientes, dada por un producto en el que k trminos son p
y los restantes (n k) trminos son 1 p = q.
Una vez examinados los factores que intervienen en la probabilidad, estamos en con
diciones de construir la funcin de probabilidad correspondiente a un modelo binomial
B (n,p) que viene dada por:
(nk
)pk(1p)nk ; conk = 0,1, ,n (3.1)
P(X = k) =
Para comprobar que la expresin anterior es una verdadera funcin de probabilidad basta verificar
las condiciones de no negatividad y suma unitaria.
La primera de ellas es inmediata por ser no negativos todos los trminos que aparecen en la
expresin P(X = k). Por lo que respecta a la segunda condicin, se tiene
nk=0P(X=k)=nk=0 (nk
pk(1p)nk
expresin que se corresponde con el desarrollo del Binomio
) de Newton (p+q)n cuyo valor es la unidad
porserq=1p.
La denominacin del modelo binomial se debe a su conexin con el binomio de Newton. De hecho,
74
3. Modelos de probabilidad
Con independencia de cul haya sido su proceso de generacin, podemos afirmar que toda variable
aleatoria discreta, cuya funcin de probabilidad venga dada por la expresin 3.1 sigue un modelo
Binomial (X B(n,p)).
75
3. Modelos de probabilidad
n k/p 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
1 0 0,9500 0,9000 0,8500 0,8000 0,7500 0,7000 0,6500 0,6000 0,5500 0,5000
1 0,0500 0,1000 0,1500 0,2000 0,2500 0,3000 0,3500 0,4000 0,4500 0,5000
2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
2 0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750
2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750
3 0,0001 0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
4 0 0,8145 0,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500
2 0,0135 0,0486 0,0975 0,1536 0,2109 0,2646 0,3105 0,3456 0,3675 0,3750
3 0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500
4 0,0000 0,0001 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625
5 0 0,7738 0,5905 0,4437 0,3277 0,2373 0,1681 0,1160 0,0778 0,0503 0,0313
1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563
2 0,0214 0,0729 0,1382 0,2048 0,2637 0,3087 0,3364 0,3456 0,3369 0,3125
3 0,0011 0,0081 0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125
4 0,0000 0,0004 0,0022 0,0064 0,0146 0,0284 0,0488 0,0768 0,1128 0,1563
5 0,0000 0,0000 0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313
6 0 0,7351 0,5314 0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156
1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
2 0,0305 0,0984 0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
3 0,0021 0,0146 0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125
4 0,0001 0,0012 0,0055 0,0154 0,0330 0,0595 0,0951 0,1382 0,1861 0,2344
5 0,0000 0,0001 0,0004 0,0015 0,0044 0,0102 0,0205 0,0369 0,0609 0,0938
6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156
7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078
1 0,2573 0,3720 0,3960 0,3670 0,3115 0,2471 0,1848 0,1306 0,0872 0,0547
2 0,0406 0,1240 0,2097 0,2753 0,3115 0,3177 0,2985 0,2613 0,2140 0,1641
3 0,0036 0,0230 0,0617 0,1147 0,1730 0,2269 0,2679 0,2903 0,2918 0,2734
4 0,0002 0,0026 0,0109 0,0287 0,0577 0,0972 0,1442 0,1935 0,2388 0,2734
5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
7 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0037 0,0078
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
2 0,0515 0,1488 0,2376 0,2936 0,3115 0,2965 0,2587 0,2090 0,1569 0,1094
3 0,0054 0,0331 0,0839 0,1468 0,2076 0,2541 0,2786 0,2787 0,2568 0,2188
4 0,0004 0,0046 0,0185 0,0459 0,0865 0,1361 0,1875 0,2322 0,2627 0,2734
5 0,0000 0,0004 0,0026 0,0092 0,0231 0,0467 0,0808 0,1239 0,1719 0,2188
6 0,0000 0,0000 0,0002 0,0011 0,0038 0,0100 0,0217 0,0413 0,0703 0,1094
7 0,0000 0,0000 0,0000 0,0001 0,0004 0,0012 0,0033 0,0079 0,0164 0,0313
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039
76
3. Modelos de probabilidad
probabilidades de las distintas caras del dado son constantes, la variable aleatoria X:nmero de
resultados pares en tres lanzamientos de dado sigue un modelo binomial con n = 3 y p = P(par) =
1
2
.
Seleccionando en la tabla ambos parmetros se obtienen las probabilidades correspondientes a los
valores de la variable: 0, 1, 2 y 3. Para nuestro ejemplo concreto, se tiene por tanto P(X =2)=0,375.
El objetivo de las tablas es recoger en un espacio limitado informacin amplia sobre las probabili
dades binomiales. Este ahorro de espacio se consigue limitando los recorridos de los valores n y p, y
tambin aprovechando algunas propiedades del modelo binomial. As, cuando el valor de p sea mayor
que 0,5, la simetra entre xitos y fracasos permite tambin obtener probabilidades de un modelo
B(n,p) a partir de su relacin con B(n, q). [Comprobar que si X B(n,p) e Y B(n, q), entonces:
P(X= k)=P(Y=nk)]
Por su parte, los valores de n contemplados no suelen exceder 10 o 12, hecho que se debe a que
-como veremos ms adelante- a medida que el tamao n crece, el modelo binomial puede ser aproxi
mado por la distribucin normal.
La obtencin de las caractersticas esperanza y varianza puede ser efectuada a partir del binomio
de Newton. En efecto, el valor esperado se obtiene como:
k=0
n nk=0kn!k!(nk)!pk(1 p)nk n n!(k1)!(nk)!pk(1 p)nk =
E(X) = kP(X = k) =
np
= k=1
= n
k=1 (n1)!(k1)!(n1(k1))!pk1(1 p)n1(k1)
Por su parte, la varianza de la variable viene dada por V ar(X) = E(X)2 E2(X), cuyo clculo
resulta ms sencillo mediante la expresin Var(X) = E[X(X 1) + X] E2(X)
En efecto, se tiene mediante un procedimiento anlogo al clculo de la esperanza:
k=0
n k=2
m
E[X(X 1)] = k(k 1)n!k!(nk)!pkqnk = n!(k2)!(nk)!pkqnk =
= n(n 1)p2 n
k=2 (n2)!(k2)!(nk)!pk2qnk
77
3. Modelos de probabilidad
n k\p 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
1 0 0,9000 0,8000 0,7000 0,6000 0,5000 0,4000 0,3000 0,2000 0,1000
1 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
2 0 0,8100 0,6400 0,4900 0,3600 0,2500 0,1600 0,0900 0,0400 0,0100
1 0,9900 0,9600 0,9100 0,8400 0,7500 0,6400 0,5100 0,3600 0,1900
2 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
3 0 0,7290 0,5120 0,3430 0,2160 0,1250 0,0640 0,0270 0,0080 0,0010
1 0,9720 0,8960 0,7840 0,6480 0,5000 0,3520 0,2160 0,1040 0,0280
2 0,9990 0,9920 0,9730 0,9360 0,8750 0,7840 0,6570 0,4880 0,2710
3 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
4 0 0,6561 0,4096 0,2401 0,1296 0,0625 0,0256 0,0081 0,0016 0,0001
1 0,9477 0,8192 0,6517 0,4752 0,3125 0,1792 0,0837 0,0272 0,0037
2 0,9963 0,9728 0,9163 0,8208 0,6875 0,5248 0,3483 0,1808 0,0523
3 0,9999 0,9984 0,9919 0,9744 0,9375 0,8704 0,7599 0,5904 0,3439
4 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
5 0 0,5905 0,3277 0,1681 0,0778 0,0312 0,0102 0,0024 0,0003 0,0000
1 0,9185 0,7373 0,5282 0,3370 0,1875 0,0870 0,0308 0,0067 0,0005
2 0,9914 0,9421 0,8369 0,6826 0,5000 0,3174 0,1631 0,0579 0,0086
3 0,9995 0,9933 0,9692 0,9130 0,8125 0,6630 0,4718 0,2627 0,0815
4 1,0000 0,9997 0,9976 0,9898 0,9688 0,9222 0,8319 0,6723 0,4095
5 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
6 0 0,5314 0,2621 0,1176 0,0467 0,0156 0,0041 0,0007 0,0001 0,0000
1 0,8857 0,6554 0,4202 0,2333 0,1094 0,0410 0,0109 0,0016 0,0001
2 0,9841 0,9011 0,7443 0,5443 0,3438 0,1792 0,0705 0,0170 0,0013
3 0,9987 0,9830 0,9295 0,8208 0,6562 0,4557 0,2557 0,0989 0,0158
4 0,9999 0,9984 0,9891 0,9590 0,8906 0,7667 0,5798 0,3446 0,1143
5 1,0000 0,9999 0,9993 0,9959 0,9844 0,9533 0,8824 0,7379 0,4686
6 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
7 0 0,4783 0,2097 0,0824 0,0280 0,0078 0,0016 0,0002 0,0000 0,0000
1 0,8503 0,5767 0,3294 0,1586 0,0625 0,0188 0,0038 0,0004 0,0000
2 0,9743 0,8520 0,6471 0,4199 0,2266 0,0963 0,0288 0,0047 0,0002
3 0,9973 0,9667 0,8740 0,7102 0,5000 0,2898 0,1260 0,0333 0,0027
4 0,9998 0,9953 0,9712 0,9037 0,7734 0,5801 0,3529 0,1480 0,0257
5 1,0000 0,9996 0,9962 0,9812 0,9375 0,8414 0,6706 0,4233 0,1497
6 1,0000 1,0000 0,9998 0,9984 0,9922 0,9720 0,9176 0,7903 0,5217
7 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
8 0 0,4305 0,1678 0,0576 0,0168 0,0039 0,0007 0,0001 0,0000 0,0000
1 0,8131 0,5033 0,2553 0,1064 0,0352 0,0085 0,0013 0,0001 0,0000
2 0,9619 0,7969 0,5518 0,3154 0,1445 0,0498 0,0113 0,0012 0,0000
3 0,9950 0,9437 0,8059 0,5941 0,3633 0,1737 0,0580 0,0104 0,0004
4 0,9996 0,9896 0,9420 0,8263 0,6367 0,4059 0,1941 0,0563 0,0050
5 1,0000 0,9988 0,9887 0,9502 0,8555 0,6846 0,4482 0,2031 0,0381
6 1,0000 0,9999 0,9987 0,9915 0,9648 0,8936 0,7447 0,4967 0,1869
7 1,0000 1,0000 0,9999 0,9993 0,9961 0,9832 0,9424 0,8322 0,5695
8 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
78
3. Modelos de probabilidad
Var(X) = E[X(X 1)] + E(X) E2(X)= n(n 1)p2 + np (np)2 = np(1 p) = npq
Los clculos anteriores resultan ms sencillos a partir de la funcin generatriz de momentos, que
para un modelo B(n,p) viene dada por la expresin MX (t)=(etp + q)n para <t< .
Partiendo de la definicin de funcin generatriz de momentos se obtiene:
n n
( )
etkpkqnk = n (etp)kqnk = (etp+q)n
MX(t) = E (etX ) =
k
k=0 k=0
El valor esperado puede ser interpretado como valor al que tiende el promedio de
xitos al aumentar indefinidamente en idnticas condiciones el nmero de pruebas.
Por su parte, la varianza de X cuantifica el riesgo, aumentando con el nmero de
pruebas y tambin a medida que se aproximan los valores p y q.
As, si en el ejemplo de los empresarios convocados para la entrevista asumimos
que la probabilidad de aceptacin es de un 80%, el nmero esperado de empresarios
entrevistados ser 16 y la varianza de 3,2.
Si por el contrario el valor de p fuese 0,56 se tendra = 11,2 y 2 = 4,928.
[Qu cambios significativos se han producido en los parmetros?] [cmo se inter
pretara el valor esperado 11,2 entrevistados?]
El inters del modelo binomial es considerable. Adems de su generalizada aplicacin
en muchos casos prcticos, es posible establecer conexiones entre esta distribucin y
otros modelos probabilsticos que estudiaremos en apartados posteriores.
As, podemos definir nuevos modelos probabilsticos con slo alterar la definicin
de las variables (distribucin geomtrica y binomial negativa) o bien algunos de los
supuestos en los que se basa el modelo binomial (distribucin hipergeomtrica).
Por otra parte, las probabilidades binomiales pueden ser aproximadas -para valores
elevados de n y pequeos de p- por la distribucin denominada de Poisson y es posible
-bajo ciertos supuestos que analizaremos en temas posteriores- aproximar cualquiera
de estas distribuciones por el modelo normal.
79
3. Modelos de probabilidad
Definicin 3.3. Dado un proceso de Bernoulli de pruebas independientes con slo dos
alternativas y probabilidad de xito (p) constante, la magnitud aleatoria X definida
como nmero de pruebas necesarias hasta la obtencin del primer xito sigue un
modelo denominado geomtrico que abreviadamente se representa por G(p).
Toda variable aleatoria discreta cuya funcin de probabilidad venga dada por la expresin:
P(X=k)=(1p)k1p; conk=1,2,...
El matemtico y filsofo Blaise Pascal (1623-1662), cuyo apellido se utiliza para designar la dis
tribucin geomtrica, es -gracias en gran medida a su correspondencia con Pierre Fermat- autor de
algunos de los fundamentos de la ciencia de la probabilidad, hasta el punto de que Laplace considera
a ambos autores como precursores de la Teora de la Probabilidad.
Vamos a analizar las caractersticas de la distribucin geomtrica. Para ello comencemos por
justificar que la expresin vista para P(X = k) es una verdadera funcin de probabilidad; esto es, se
trata de una funcin no negativa (puesto que los factores que intervienen son no negativos) y adems
su suma es la unidad:
P(X = k) = pqk1 = p
qk1
80
3. Modelos de probabilidad
La ltima suma corresponde a una progresin geomtrica de razn q, lo cual justifica el nombre
que recibe esta distribucin. Cuando la razn es menor que la unidad (q<1) la serie geomtrica es
convergente y su suma es el primer trmino de la serie partido por uno menos la razn. En este caso:
k=0
P(X =k)= p q0 p
1
1q = p =
k=[x]+1 k=[x]+1
En ciertas ocasiones se plantea una versin alternativa del modelo geomtrico, definiendo la va
riable X como Nmero de fracasos antes del primer xito. Resulta sencillo deducir la funcin de
probabilidad, que en este caso viene dada por la expresin:
P(X = k) = (1 p)kp; conk =0,1,2,...
a la que es tambin posible llegar mediante un cambio de variable (si designamos por X y X a las
variables nmero de pruebas hasta el primer xito y nmero de fracasos antes del primer xito
respectivamente, se tendra X = X + 1).
81
3. Modelos de probabilidad
vada segunda.
Tanto el valor esperado como la varianza pueden ser obtenidos fcilmente a partir
de la funcin generatriz de momentos del modelo, que viene dada por
MX(t)=E(etX)= k=1
etkq k1p=p
q (etq k= etp
)
1etq
k=1
a partir de la cual se obtiene E(X) = dt
d MX (t)|t=0 = 1
p.
[Comprubese de modo anlogo que E(X2) = d2dt2 MX(t)|t=0 = 1+qp2, y en conse
cuencia se obtiene de nuevo: Var(X) = qp2]
Las tablas 3.3 y 3.4 recogen la funcin de probabilidad y de distribucin del modelo
geomtrico.
El manejo de tablas de la distribucin geomtrica es similar al descrito para la
distribucin binomial: en la primera columna se recoge el nmero de pruebas necesarias
para obtener el primer xito y en las restantes columnas se han seleccionado ciertos
valores de p.
Como ya se coment a la vista de los grficos, las tablas confirman cmo al aumentar
la probabilidad de xito p la probabilidad de la cola se hace menor y as, aunque el
nmero de pruebas para obtener un xito pueden ser infinitas, se observa que con
p = 0,5 obtenemos una probabilidad casi nula a partir de la prueba nmero 15.
Son numerosas las aplicaciones prcticas del modelo geomtrico, que podra resultar
til para describir -bajo los supuestos de independencia y probabilidad constante- el
nmero de apuestas efectuadas por un jugador hasta obtener premio, las visitas de
un viajante hasta vender un artculo, las convocatorias de examen a las que acude
un alumno hasta obtener un aprobado, los das que un individuo mira el buzn hasta
recibir cierta carta, ... y
[Sera adecuado en estos ejemplos el supuesto de p constante? el de indepen
dencia entre las observaciones?]
La hiptesis de independencia garantiza que la probabilidad de que sean necesarios
ms de k nuevos intentos para obtener el primer xito no se ve afectada por el nmero
de pruebas que ya llevemos realizadas. Esta propiedad se conoce como prdida de
memoria de la distribucin geomtrica.
El resultado anterior puede formalizarse como sigue: Si X es una v.a. G(p), entonces se cumple:
P(X>k + m/X > m) = P(X>k). En efecto:
P(X>k+m/X>m)= P(X>k+m,X>m)
p(X>m) P(X>m) =1FX(k+m)
=P(X>k+m)
1 1qk+m
( 1FX(m) =
1(1qm)=qk=1P(Xk)=P(X>k)
)
=
82
3. Modelos de probabilidad
k\p 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
1 0,0900 0,1600 0,2100 0,2400 0,2500 0,2400 0,2100 0,1600 0,0900
2 0,0810 0,1280 0,1470 0,1440 0,1250 0,0960 0,0630 0,0320 0,0090
3 0,0729 0,1024 0,1029 0,0864 0,0625 0,0384 0,0189 0,0064 0,0009
4 0,0656 0,0819 0,0720 0,0518 0,0312 0,0154 0,0057 0,0013 0,0001
5 0,0590 0,0655 0,0504 0,0311 0,0156 0,0061 0,0017 0,0003
6 0,0531 0,0524 0,0353 0,0187 0,0078 0,0025 0,0005 0,0001
7 0,0478 0,0419 0,0247 0,0112 0,0039 0,0010 0,0002
8 0,0430 0,0336 0,0173 0,0067 0,0020 0,0004
9 0,0387 0,0268 0,0121 0,0040 0,0010 0,0002
10 0,0349 0,0215 0,0085 0,0024 0,0005 0,0001
11 0,0314 0,0172 0,0059 0,0015 0,0002
12 0,0282 0,0137 0,0042 0,0009 0,0001
13 0,0254 0,0110 0,0029 0,0005 0,0001
14 0,0229 0,0088 0,0020 0,0003
15 0,0206 0,0070 0,0014 0,0002
16 0,0185 0,0056 0,0010 0,0001
17 0,0167 0,0045 0,0007 0,0001
18 0,0150 0,0036 0,0005
19 0,0135 0,0029 0,0003
20 0,0122 0,0023 0,0002
21 0,0109 0,0018 0,0002
22 0,0098 0,0015 0,0001
23 0,0089 0,0012 0,0001
24 0,0080 0,0009 0,0001
25 0,0072 0,0008
26 0,0065 0,0006
27 0,0058 0,0005
28 0,0052 0,0004
29 0,0047 0,0003
30 0,0042 0,0002
40 0,0015
50 0,0005
100
83
3. Modelos de probabilidad
k\p 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
1 0,1900 0,3600 0,5100 0,6400 0,7500 0,8400 0,9100 0,9600 0,9900
2 0,2710 0,4880 0,6570 0,7840 0,8750 0,9360 0,9730 0,9920 0,9990
3 0,3439 0,5904 0,7599 0,8704 0,9375 0,9744 0,9919 0,9984 0,9999
4 0,4095 0,6723 0,8319 0,9222 0,9688 0,9898 0,9976 0,9997 1,0000
5 0,4686 0,7379 0,8824 0,9533 0,9844 0,9959 0,9993 0,9999 1,0000
6 0,5217 0,7903 0,9176 0,9720 0,9922 0,9984 0,9998 1,0000 1,0000
7 0,5695 0,8322 0,9424 0,9832 0,9961 0,9993 0,9999 1,0000 1,0000
8 0,6126 0,8658 0,9596 0,9899 0,9980 0,9997 1,0000 1,0000 1,0000
9 0,6513 0,8926 0,9718 0,9940 0,9990 0,9999 1,0000 1,0000 1,0000
10 0,6862 0,9141 0,9802 0,9964 0,9995 1,0000 1,0000 1,0000 1,0000
11 0,7176 0,9313 0,9862 0,9978 0,9998 1,0000 1,0000 1,0000 1,0000
12 0,7458 0,9450 0,9903 0,9987 0,9999 1,0000 1,0000 1,0000 1,0000
13 0,7712 0,9560 0,9932 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000
14 0,7941 0,9648 0,9953 0,9995 1,0000 1,0000 1,0000 1,0000 1,0000
15 0,8147 0,9719 0,9967 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
16 0,8332 0,9775 0,9977 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000
17 0,8499 0,9820 0,9984 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
18 0,8649 0,9856 0,9989 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
19 0,8784 0,9885 0,9992 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
20 0,8906 0,9908 0,9994 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
21 0,9015 0,9926 0,9996 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
22 0,9114 0,9941 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
23 0,9202 0,9953 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
24 0,9282 0,9962 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
25 0,9354 0,9970 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
26 0,9419 0,9976 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
27 0,9477 0,9981 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
28 0,9529 0,9985 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
29 0,9576 0,9988 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
30 0,9618 0,9990 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
40 0,9867 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
50 0,9954 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
100 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
84
3. Modelos de probabilidad
pruebas sin xito (X>m), no altera la probabilidad de que an necesitemos k pruebas ms hasta
obtener un xito. As pues, el modelo geomtrico no tiene memoria.
En este caso, la probabilidad de que sean necesarias k pruebas hasta los r xitos se obtiene toman
do en cuenta dos factores: la probabilidad de interseccin de r xitos y k r fracasos y las posibles
secuencias en que estas situaciones pueden presentarse. Obsrvese que para este segundo factor igno
ramos la ltima( prueba, que necesariamente corresponde al xito r-simo, con lo cual se calculan las
combinaciones k1).
r1
La denominacin de esta distribucin queda justificada en el esquema que sigue, donde se recogen
paralelamente las condiciones del modelo binomial negativo y las correspondientes a la distribucin
binomial.
Como puede observarse, los rasgos distintivos de ambas distribuciones se refieren al papel aleatorio
que el modelo binomial asigna al nmero de xitos (fijadas las pruebas) y viceversa para la binomial
negativa.
Como consecuencia de esta conexin entre ambas distribuciones de probabilidad puede compro
barse que dadas las variables Y B(n,p) y X BN(r,p) se cumple: P(Y r) = P(X n) y
tambin P(Y <r) = P(X>n).
Por otra parte, podemos observar fcilmente que el caso particular X BN(r = 1,p) coincide con
la distribucin geomtrica G(p).
85
3. Modelos de probabilidad
86
3. Modelos de probabilidad
empresario afecta a las restantes, con lo cual los resultados de las pruebas dejan de
ser independientes.
En estas situaciones se incumplen las hiptesis de independencia y de probabilidad
constante asumidas en el proceso de Bernoulli, por lo cual, aun cuando nos siga in
teresando estudiar los elementos que presentan cierta caracterstica, queda excluida la
utilizacin del modelo binomial, resultando adecuada la distribucin hipergeomtrica.
Las condiciones en las que se define este modelo de probabilidad son las siguientes:
consideramos una poblacin total integrada por N elementos (empresarios, alumnos
presentados a un examen, candidatos a un empleo, ...) sobre los que nos interesa estu
diar determinada caracterstica, que podramos seguir denominando xito (acceder
a la entrevista, aprobar el examen, obtener el empleo, ...).
Definicin 3.5. Supongamos clasificados los integrantes de la poblacin segn la
caracterstica de inters, tal y como indica el esquema 3.5: M elementos presentan el
rasgo estudiado y (N M) no lo presentan.
Si de la poblacin total seleccionamos aleatoriamente y sin reposicin una muestra
de n elementos, el nmero de ellos que presentan la caracterstica analizada (xitos)
es una variable aleatoria que sigue una distribucin hipergeomtrica H(N,M,n).
Este modelo probabilstico aparece directamente asociado al anlisis combinatorio ya que las con
diciones del modelo equivalen a una seleccin aleatoria de n elementos extrados simultneamente
(sin reposicin) de una poblacin de tamao N.
Como consecuencia, la probabilidad de xito no es constante y el nmero de posibilidades de
seleccin coincide con los subconjuntos de n elementos extrados sin reposicin entre N, que pueden
ser cuantificados mediante la frmula de las combinaciones:
( )
CN,n= N
n
Dado que la seleccin es aleatoria, cada uno de estos grupos de tamao n tiene idntica probabilidad
de ser seleccionado. Por tanto, se trata de sucesos equiprobables resultando aplicable la expresin de
la probabilidad clsica. As pues, se tiene:
87
3. Modelos de probabilidad
(M
k
)(NM )
P(X = k) = CM,kCNM,nkCN,n = (Nnk
)
n
[Justificar cmo ha sido obtenida la expresin del numerador][Si los n elementos se seleccionasen
con reposicin cul sera el modelo probabilstico para el nmero de xitos?]
88
3. Modelos de probabilidad
E(X) = n M
n = np
) =npq ( )
M M NnN1 NnN1
V ar(X) = n 1
n ( N )(
en las que pueden apreciarse similitudes con el modelo binomial: el valor esperado se
M
obtiene de modo anlogo (siendo p = ) y el riesgo disminuye como consecuencia
( ) N
del factor de correccin N n1 correspondiente al rasgo de seleccin sin reposicin.
El factor de correccin (que ser inferior a la unidad para n > 1) resulta de gran
inters en el muestreo de poblaciones finitas, puesto que incorpora el ajuste en la
dispersin de la variable que se produce como consecuencia del muestreo sin reposicin,
esto es, al eliminar el riesgo inherente a las observaciones repetidas.
Puede comprobarse que, a medida que el tamao poblacional N aumenta, este factor
de correccin se aproxima a la unidad, de tal modo que en poblaciones conceptual
mente infinitas resulta irrelevante que el muestreo se efecte con o sin reposicin.
k=mx{0,n(NM)}
mn{n,M} (M1k1)(NMnk )
(N1 ) =1
n1
Mediante un mtodo similar se obtiene la varianza 2, caracterstica que puede ser expresada
como:
89
3. Modelos de probabilidad
Una alternativa a las limitaciones anteriores sera el clculo directo de las probabilidades a partir
de la expresin de la funcin de probabilidad, pero esto puede dar lugar a errores de aproximacin
importantes. Por ejemplo, si el tamao de la poblacin es muy elevado, podemos tener problemas
de desbordamiento de memoria por manejar cifras excesivamente altas o bajas; en este caso sera
recomendable factorizar las expresiones de clculo mediante cocientes parciales que permitiran ma
yor exactitud (esto quiere decir que deberamos ir simultaneando operaciones de multiplicar y dividir
para mantener los resultados dentro de un tamao razonable).
Si aproximamos esta probabilidad por una binomial, se obtendra: p = 615, P(X =1)=0,432,
pudiendo apreciarse que las diferencias de probabilidad son del orden del 10 %.
Supongamos que multiplicamos por 10 el nmero de entrevistas y el de mujeres, con lo cual el mo
delo resultante sera: H(N = 150,M = 60,n = 3). En esta situacin la probabilidad hipergeomtrica
sera: P(X =1)=0,43587 mientras que la de la binomial no cambiara [por qu?] y se obtienen
diferencias del orden del 0,7 %.
El proceso de Bernoulli puede ser considerado como punto de partida para la defi
nicin de los modelos probabilsticos analizados hasta ahora, que aparecen conectados
entre s segn el esquema y presentan a su vez relaciones con otras distribuciones de
probabilidad que estudiaremos en posteriores apartados.
90
3. Modelos de probabilidad
P(X=1)=P(X=2)=P(X=3)=13
91
3. Modelos de probabilidad
recorrido.
Esta expresin de la esperanza recoge el principio de indiferencia: asigna igual peso a cada uno de
los valores de la variable aleatoria X como consecuencia de que sus correspondientes probabilidades
son en este caso coincidentes.
92
3. Modelos de probabilidad
Definicin 3.6. Dada una variable aleatoria continua X distribuida segn un modelo
uniforme X U(a, b) su funcin de densidad viene dada por la expresin:
f(x) =
1 a sia<x<b
b
0 en otro caso
La expresin de f(x) puede ser deducida fcilmente de modo grfico, teniendo en cuenta que dicha
funcin asigna una densidad constante a cada punto del intervalo y que -segn la definicin de f(x)
el rea del rectngulo de base (b a) debe ser unitaria. Se tiene as que:
baf(x)dx= bakdx=k(ba)=1
P(aXb)=
1 para
con lo cual f(x) = k = todo a<x<b.
b a
xaba para
[Obtener la funcin de distribucin de X, que vendr dada por la expresin: F(x) =
a x<b] [cul sera su representacin grfica?]
Las caractersticas del modelo uniforme vienen dadas en funcin de los extremos
del correspondiente intervalo. As, dada X U(a, b) puede obtenerse fcilmente =
a+b
, centro de gravedad del recorrido de la variable. [Cul es la hora esperada para
2
el metro del ejemplo anterior?]
(ba)212, que depende
Por su parte, la varianza viene dada por la expresin 2 =
nicamente del recorrido de la variable considerada y se puede obtener por diferencia
a33(ba)
b3 y el cuadrado de la esperanza (2).
de E(X2) =
Ambas caractersticas pueden tambin ser deducidas a partir de la funcin generatriz
etbetat(ba).
de momentos, que para este modelo adopta la expresin MX (t) =
93
3. Modelos de probabilidad
La distribucin normal fue obtenida inicialmente por De Moivre en 1733. Sin embargo, habitual
mente se conoce como modelo de Gauss, o de Gauss-Laplace por ser estos autores quienes, durante
el siglo XVIII, analizaron sus propiedades e impulsaron su utilizacin.
Aunque la distribucin normal se revela como un modelo probabilstico sumamente til para la
descripcin de numerosos fenmenos econmicos, los trabajos iniciales de Gauss (1777-1855), que
dieron lugar a la curva normal, iban referidos a errores de medida en observaciones astronmicas,
cuya distribucin era de tipo campaniforme.
Por su parte, Pierre Simon, marqus de Laplace (1749-1827) obtuvo este modelo como aproxima
cin de otras distribuciones. Este resultado, de gran trascendencia en las tcnicas inferenciales, se
conoce como Teorema Central del Lmite y ser analizado con detalle en un captulo posterior.
Definicin 3.7. Se dice que una variable aleatoria X sigue una distribucin normal
estndar, que denotamos X N(0,1), si su funcin de densidad viene dada por la
94
3. Modelos de probabilidad
N(O,1)
0.4
O .35
0.3
0.2
0.15
0.1
0,05
0
-s 4 -3 -2 -1 0 l 2 3 4 5
Valores
expresin:
1 l 5];
f (w) I le ;oo<x<+oo
x/ 27r
La representacin grca de esta funcin corresponde a una curva simetrica que
alcanza su valor mximo en el punto x I 0, presenta dos puntos de inexion (en -1 y
+1) y una asntota horizontal en el eje de abscisas.
t 2 Ei 45h: I _f
1 i 1 1
LO m) dm I _f
\/27T\/2 0 e \/7 0 il e "su I F
i/F ()
2 I
donde la ltima integral es la funcin matemtica F ( zo|> ) cuyo valor es M.
Demostracin. En efecto:
95
3. Modelos de probabilidad
uIEX
< > l
loo xe_dx:
1 H
m
l-i
el
mlHN +8
10
_OO \/2rr x/2rr _oo
Por otra parte:
EXQ mi 2-4
( ) X/xe 2 x
oo
ux du: dx
dv : xe-dx
x2
v : dv : e
| w,
se obtiene:
E(X2) ll /
+00
8
1
x2e_dx :
=1a
12
61 a
xe l
oo
2 +00
Mis
/
+00
oo
e_dx
12 1
: t!
\/27T
+00
oo
e
m2
dx
xm//
0
12 a2
MX): fe
+ 2 2 12ZCZILE
(+++f1++)++ 4p 2 2 de:
,(I+f) 2
L
La expresin que gura entre parntesis en el ltimo trmino, en la que hemos hecho el cambio de
variable z I x t, se corresponde con la integral de la funcin de densidad de una /\/(0, 1) cuyo valor
es unitario; por tanto se obtiene: MX (t) I el.
2
96
3. Modelos de probabilidad
El modelo normal sirve adems de referencia en cuanto a las caractersticas de forma: simetra y
curtosis. De hecho, el coeficiente de apuntamiento habitualmente utilizado es el propuesto por Fisher,
que es resultado de comparar para cada distribucin el ratio 44 con el valor 3, asociado al apunta
Por lo que se refiere a las reas acumuladas bajo la curva normal, que se corres
ponden con la funcin de distribucin F(x), stas vendrn dadas por la expresin:
F(x)=x 12ex2
2dx, cuyo clculo debe ser efectuado por mtodos de integracin
numrica.
En la notacin anterior aparece un abuso de lenguaje al denotar por x tanto el punto donde
nos situamos para calcular la probabilidad acumulada como la variable de integracin en ese reco
rrido. Si queremos ser ms precisos podemos diferenciar ambos papeles de x, expresando: F(x) =
x 12et22dt .
Conviene tener presente que no todas las tablas tienen el mismo formato. En concreto, aunque las
97
3. Modelos de probabilidad
98
3. Modelos de probabilidad
Figura 3.9.:
Informacin _ _ Tratamiento de Representacin
_ Situacin _
necesaria Informacin de Tablas Grca
P(X g i)
P(X>a) asigo
<0 F(a) 1F(a)
IF (a)
1- F(a) a u
5
a<0<b F (b) - (1 - F(<1)) I
a [l
F(b) _ 1+ F(a)
P(-a g X g i) I
P(]X]a) O<a m) Fl-l -a u a
99
3. Modelos de probabilidad
ms habituales son las que incluyen valores de la funcin de distribucin, podran resultar tambin ti
les otros tipos de tablas, como las que recogen el rea central entre cada valor considerado y el origen.
En este caso la tabla proporciona para cada a > 0 el valor de P(0 <X<a) = P(a<X< 0),
probabilidades que aparecen relacionadas con las comentadas anteriormente. Se dispone as de una
expresin alternativa de las probabilidades que en algunos casos resulta ms directa que la funcin
de distribucin. A modo de ejemplo, para el caso a < 0 < b escribiramos ahora P(a<X b) =
P(a<X0)+P(0<Xb).
Definicin 3.8. Se dice que una variable aleatoria X sigue una distribucin normal
de parmetros y , que denotamos como X N(, ), si su funcin de densidad
viene dada por la expresin:
100
3. Modelos de probabilidad
12 x
f(x)= 1 e ( )2 ;<x<
2
La esperanza y la desviacin tpica de esta distribucin coinciden precisamente con
los parmetros que caracterizan esta poblacin. Su funcin generatriz de momentos
viene dada por la expresin:
MX (t) = et+122t2
Las demostraciones en este caso se realizan de forma anloga a las desarrolladas para la normal
x
estndar considerando previamente el cambio z = .
Si sobre una v.a. Z con distribucin normal estndar, Z N(0,1) efectuamos una transformacin del
tipo X = + Z, entonces la variable aleatoria X resultante se distribuye segn un modelo normal
general N(, ).
A modo de recproco, si X N(, ), entonces:
X N(0,1)
z=
101
3. Modelos de probabilidad
Para cuantificar la probabilidad del intervalo resulta necesario traducir las distribu
ciones A y B a una normal tipificada N(0,1), cuyos valores aparecern perfectamente
tabulados.
Por lo que respecta al mecanismo para llevar a cabo la tipificacin, ste ser anlogo
al de variables estadsticas. A partir de cualquier variable X N(,) es posible
obtener un modelo Z N(0,1) con slo eliminar de la primera los efectos de sus
parmetros, esto es, operar sobre ella el cambio .
La aplicacin del procedimiento de tipificacin a las distribuciones A y B conduce a
los intervalos sealados sobre la distribucin estndar, que se obtienen como resultado
de eliminar de los intervalos iniciales los parmetros y . De este modo, para la
variable A N(9,5) el intervalo (inicial (10,20))quedara transformado en (0,2, 2,2)
ZA A 9
una vez tipificada dicha variable = , mientras el mismo proceso aplicado
5
a B N(15; 2,5) dara lugar al intervalo estandarizado (2,2).
Conviene insistir en que la tipificacin tiene como nico objetivo referir las variables
a un modelo estndar, permitiendo el clculo de probabilidades. En cambio, este pro
ceso elimina el propio significado de la magnitud inicial, impidiendo por tanto hacer
interpretaciones sobre la misma.
En nuestro ejemplo, una vez tipificados los correspondientes recorridos es posible
calcular las probabilidades correspondientes a los intervalos con ayuda de las tablas
N(0,1), obtenindose los resultados 0,4068 y 0,9544 respectivamente. [Comprubese]
A pesar de que, como hemos visto, el modelo normal es adecuado para la descripcin
de numerosos fenmenos, la distribucin de muchas magnitudes econmicas (como la
renta, la riqueza, los salarios, ...) no es simtrica, ya que la densidad se reparte de
forma distinta en los estratos bajos que en niveles elevados.
Sin embargo, este hecho se resuelve a menudo con una transformacin logartmica
de la variable, de modo que la distribucin de Y = lnX s se aproxima a un modelo
normal.
En estas situaciones, la distribucin de la variable X se denomina logaritmo normal
y resulta muy adecuada para la descripcin de magnitudes econmicas como la renta,
en especial para los niveles ms bajos de ingreso.
102
3. Modelos de probabilidad
Esta distribucin fue analizada por S.D. Poisson en un libro publicado en 1837 con el ttulo
Investigacin sobre la probabilidad de juicios en materia criminal y civil, lo cual en cierto modo
justifica sus dos denominaciones.
Por su parte, L.Bortkiewicz (1868-1931) fue el primero en observar que las ocurrencias de sucesos
con pequeas frecuencias en una poblacin amplia pueden ajustarse mediante una distribucin de
Poisson, lo que denomin "ley de los pequeos nmeros".
Bortkiewicz estudi el nmero de soldados fallecidos anualmente por coces de caballo en el ejrcito
prusiano. Se examinaron 14 cuerpos durante 20 aos, observando que estos 280 datos se ajustaban
bien por un modelo de Poisson (de hecho, del total de cuerpos estudiados, se observaron 144 en los
que no se registr ninguna muerte por la causa investigada).
Otros conocidos ejemplos histricos de ajustes a un modelo de Poisson corresponden a las obser
vaciones de estallidos de guerras mundiales entre los aos 1500 y 1931, y los impactos de bombas
alemanas sobre el rea de Londres durante la segunda guerra mundial.
103
3. Modelos de probabilidad
Bajo las condiciones descritas, la variable aleatoria X que recoge el nmero de sucesos
en un intervalo de determinada amplitud se distribuye segn un modelo de Poisson,
representado abreviadamente por P(). Los valores que puede tomar esta variable
son: 0,1,2,... y su funcin de probabilidad viene dada por:
ek
P(X = k) =
k!
La figura 3.13 recoge la representacin de esta funcin de probabilidad para valores
de = 5 y = 20.
Podemos observar cmo cuando aumenta (figura 3.13b) la grfica tiende a ser
campaniforme, lo que nos sugiere que para valores elevados del parmetro esta distri
bucin podr ser aproximada por el modelo normal.
Esta distribucin viene caracterizada por un nico parmetro que representa el
nmero medio de sucesos por unidad de tiempo o espacio. Como consecuencia, el valor
del parmetro cambia segn cul sea la "unidad" adoptada, esto es, en funcin de la
amplitud del intervalo espacial o temporal en el que nos movemos.
Definicin 3.9. De un modo general, toda v.a. discreta X que puede adoptar valores
0,1,2,... con probabilidades dadas por la expresin P(X = k) = ek
k! , se dice que
sigue un modelo de Poisson P().
Esta funcin de probabilidad puede ser obtenida como lmite de un modelo binomial B(n, p), cuan
do se aumenta indefinidamente el nmero de pruebas n y la probabilidad p tiende a 0. Bajo estas
condiciones el modelo binomial se aproxima a una distribucin de Poisson con = np, resultando
estas aproximaciones adecuadas cuando np < 5 y p < 0,1.
104
3. Modelos de probabilidad
pkqnk )( ]
nk n)k(1n)nk
) ] n
limnP(X=k)= limn [( n(n1)(nk+1)
=limn [( =
k
( ]
n [
kk!lim 1n )n
= nk(1n)k =
]
k ( n n 1 (1 1n ) (1
) k1 k
n ) e
= lim (1 n )k =
k! n 1 k!
[
= e y lmn 1(1 1n)(1
(1n)k k1n) =1
por ser lmn (1 n )n
105
0,8
0,9
3. Modelos de probabilidad
1,1
1,2
1,4
\x
1,5 0 1 2 3 4 5 6 7 8 9
0,9048 0, 0905 0,0045 0,0002
1,6 0,8187 0, 1637 0,0164 0,0011 0,0001
0,7408 0, 2222 0,0333 0,0033 0,0003
1,7 0,6703 0, 2681 0,0536 0,0072 0,0007 0,0001
0,6065 0, 3033 0,0758 0,0126 0,0016 0,0002
1,8 0,5488 0, 3293 0,0988 0,0198 0,0030 0,0004
0,4966 0, 3476 0,1217 0,0284 0,0050 0,0007 0,0001
1,9 0,4493 0, 3595 0,1438 0,0383 0,0077 0,0012 0,0002
0,4066 0, 3659 0,1647 0,0494 0,0111 0,0020 0,0003
1 0,3679 0, 3679 0,1839 0,0613 0,0153 0,0031 0,0005 0,0001
0,3329 0, 3662 0,2014 0,0738 0,0203 0,0045 0,0008 0,0001
2,1 0,3012 0, 3614 0,2169 0,0867 0,0260 0,0062 0,0012 0,0002
0,2725 0, 3543 0,2303 0,0998 0,0324 0,0084 0,0018 0,0003 0, 0001
2,2 0,2466 0, 3452 0,2417 0,1128 0,0395 0,0111 0,0026 0,0005 0, 0001
0,2231 0, 3347 0,2510 0,1255 0,0471 0,0141 0,0035 0,0008 0, 0001
2,3 0,2019 0, 3230 0,2584 0,1378 0,0551 0,0176 0,0047 0,0011 0, 0002
0,1827 0, 3106 0,2640 0,1496 0,0636 0,0216 0,0061 0,0015 0, 0003 0,0001
2,4 0,1653 0, 2975 0,2678 0,1607 0,0723 0,0260 0,0078 0,0020 0, 0005 0,0001
0,1496 0, 2842 0,2700 0,1710 0,0812 0,0309 0,0098 0,0027 0, 0006 0,0001
2
2,5 0,1353 0, 2707 0,2707 0,1804 0,0902 0,0361 0,0120 0,0034 0, 0009 0,0002
0,1225 0, 2572 0,2700 0,1890 0,0992 0,0417 0,0146 0,0044 0, 0011 0,0003
2,6 0,1108 0, 2438 0,2681 0,1966 0,1082 0,0476 0,0174 0,0055 0, 0015 0,0004
0,1003 0, 2306 0,2652 0,2033 0,1169 0,0538 0,0206 0,0068 0, 0019 0,0005
2,7 0,0907 0, 2177 0,2613 0,2090 0,1254 0,0602 0,0241 0,0083 0, 0025 0,0007
0,0821 0, 2052 0,2565 0,2138 0,1336 0,0668 0,0278 0,0099 0, 0031 0,0009
2,8 0,0743 0, 1931 0,2510 0,2176 0,1414 0,0735 0,0319 0,0118 0, 0038 0,0011
0,0672 0, 1815 0,2450 0,2205 0,1488 0,0804 0,0362 0,0139 0, 0047 0,0014
2,9 0,0608 0, 1703 0,2384 0,2225 0,1557 0,0872 0,0407 0,0163 0, 0057 0,0018
0,0550 0, 1596 0,2314 0,2237 0,1622 0,0940 0,0455 0,0188 0, 0068 0,0022
3 0,0498 0, 1494 0,2240 0,2240 0,1680 0,1008 0,0504 0,0216 0, 0081 0,0027
3,1 0,0450 0, 1397 0,2165 0,2237 0,1733 0,1075 0,0555 0,0246 0, 0095 0,0033
3,2 0,0408 0, 1304 0,2087 0,2226 0,1781 0,1140 0,0608 0,0278 0, 0111 0,0040
3,3 0,0369 0, 1217 0,2008 0,2209 0,1823 0,1203 0,0662 0,0312 0, 0129 0,0047
3,4 0,0334 0, 1135 0,1929 0,2186 0,1858 0,1264 0,0716 0,0348 0, 0148 0,0056
3,6 0,0273 0, 0984 0,1771 0,2125 0,1912 0,1377 0,0826 0,0425 0, 0191 0,0076
3,8 0,0224 0, 0850 0,1615 0,2046 0,1944 0,1477 0,0936 0,0508 0, 0241 0,0102
4 0,0183 0, 0733 0,1465 0,1954 0,1954 0,1563 0,1042 0,0595 0, 0298 0,0132
5 0,0067 0, 0337 0,0842 0,1404 0,1755 0,1755 0,1462 0,1044 0, 0653 0,0363
6 0,0025 0, 0149 0,0446 0,0892 0,1339 0,1606 0,1606 0,1377 0, 1033 0,0688
10
9
8
7 0,0009 0, 0064 0,0223 0,0521 0,0912 0,1277 0,1490 0,1490 0, 1304 0,1014
0,0003 0, 0027 0,0107 0,0286 0,0573 0,0916 0,1221 0,1396 0, 1396 0,1241
0,0001 0, 0011 0,0050 0,0150 0,0337 0,0607 0,0911 0,1171 0, 1318 0,1318
0, 0005 0,0023 0,0076 0,0189 0,0378 0,0631 0,0901 0, 1126 0,1251
106
3. Modelos de probabilidad
Definicin 3.10. Dada una variable aleatoria X se dice que se distribuye segn un
modelo exponencial de parmetro cuando su funcin de densidad viene dada por:
f(x)=ex ; x>0,>0
La probabilidad acumulada para este modelo viene dada por la funcin de distri
bucin F(x)=1 ex.
Las principales caractersticas del modelo exponencial vienen expresadas en funcin
del parmetro . As se tiene una esperanza = 1, que permite interpretar como
la inversa del tiempo medio de espera hasta la aparicin de un suceso.
Por lo que respecta a la dispersin se tiene 2 = 12 [Comprubese].
Los parmetros esperanza y varianza de este modelo exponencial guardan claras si
militudes con los correspondientes a la distribucin geomtrica, que es la "traduccin"
al caso discreto del modelo exponencial. La funcin generatriz de momentos por su
parte viene dada por la expresin:
1t )1 t
MX(t)= ( =
P(X>k+m/X>m)= P(X>k+m,X>m)
P(X>m) = P(X>k+m) em = ek =P(X>k)
P(X>m)= e(k+m)
107
3. Modelos de probabilidad
Si consideramos la variable Y: nmero de veces que se presenta cierto suceso por unidad de
tiempo Y P() y definimos ahora X: tiempo transcurrido hasta la primera aparicin del suceso,
entonces X ser una variable aleatoria continua para la cual podemos calcular probabilidades gracias
a su conexin con la variable Y.
En efecto, la probabilidad de que el tiempo necesario hasta la aparicin del suceso sea superior a
x coincide con la probabilidad de que en un intervalo temporal de amplitud x no se haya producido
el suceso. As pues, la variable YX: nmero de veces que se presenta cierto suceso en un intervalo de
amplitud x vendr caracterizada por el parmetro x (es decir, YX P(x)) y en consecuencia se
tiene: P(X>x) = P(YX = 0) = ex.
La funcin de distribucin de X puede tambin ser obtenida como:
F(x)=P(Xx)=1P(X>x)=1P(YX=0)=1ex,x>0
El modelo exponencial puede tambin ser estudiado como caso particular (cuando p = 1) del
modelo generalizado gamma (p,a). Se trata de una distribucin continua biparamtrica que, por
resultar adecuada para la modelizacin de rentas, estudiaremos en el epgrafe siguiente.
Desde finales del siglo pasado las teoras estocsticas proporcionan una alternativa a los estudios
deterministas de distribucin de la renta. Los autores pioneros de estos estudios -McAlister (1879),
Pareto (1897)- abrieron una corriente de investigacin que ha alcanzado un notable desarrollo.
Supongamos que nos interesa conocer la distribucin de la renta en una poblacin. Desde una ptica
descriptiva, esta variable vendra representada por una tabla estadstica con valores x1,x2 ,...,xk y
sus correspondientes frecuencias n1,n2 ,...,nk .
Sin embargo, para conseguir una mayor operatividad en su manejo, estos datos aparecen frecuen
temente agrupados en intervalos que representan en realidad decilas de ingresos. Este es el tipo de
informacin recogida habitualmente por las Encuestas de Presupuestos Familiares, y su representa
cin podra ser efectuada mediante un histograma (figura 3.15).
Este histograma representa las decilas de hogares segn sus ingresos. Cada uno de los rectngulos
que componen el histograma tendra una frecuencia relativa -o proporcin de familias- del 10 %.
Sin embargo, para llegar a una descripcin ms completa de la poblacin investigada, debera
mos analizar tambin la distribucin de ingresos dentro de las decilas. En este sentido una primera
opcin sera -reconociendo nuestras limitaciones de informacin- asumir el modelo uniforme, esto
es, considerar como vlido el histograma, donde los rectngulos construidos sobre cada una de las
108
3. Modelos de probabilidad
decilas recogen un 10 % de probabilidad, repartido igualitariamente entre los hogares que componen
ese intervalo, con las consecuencias que ello conlleva.
[A modo de ejemplo cul sera la esperanza de ingresos en cada decila? resulta adecuado este
representante?]
Parece claro que el supuesto de uniformidad puede ser mejorado, buscando modelos que describan
de forma ms realista la distribucin de la renta. En concreto, las distribuciones ms habituales
en la modelizacin de rentas, ingresos y gastos son la logaritmo normal, el modelo de Pareto y la
distribucin gamma.
Definicin 3.11. Decimos que una v.a. Y sigue una distribucin log-normal, si su funcin de
densidad viene dada por la expresin:
fY(y)= 1 e12(lny)2 ; y > 0
y
2
109
3. Modelos de probabilidad
Debemos observar que los parmetros y que aparecen en las expresiones anteriores correspon
den al modelo normal y no al log-normal. Las caractersticas de la distribucin logaritmo normal son
las siguientes:
E(Y) = e+2 e2 )
2 ; Var(Y) = e2 (e22
El modelo log-normal resulta aplicable cuando numerosos factores pequeos presentan un efecto
multiplicativo. Esta ley, denominada "ley del efecto proporcional", fue introducida por McAlister
(1879), si bien es conocida habitualmente como Ley de Gibrat debido a que fue este autor quien en
su obra Les Inegalits Economiques (1931) la estudi de modo exhaustivo y la aplic como modelo
de renta.
110
3. Modelos de probabilidad
El modelo de Pareto es un caso particular de distribucin truncada, que se presenta con cierta
frecuencia en estadstica econmica.
Una distribucin truncada es aqulla elaborada a partir de otra distribucin, al darle un corte a
la altura de cierto valor de la variable aleatoria e ignorando la parte derecha o izquierda de la misma
(tambin podra considerarse un doble truncamiento e ignorar las dos bandas, quedndonos slo con
la parte central).
La ley de Pareto fue introducida por este autor a finales del siglo pasado, al estudiar la distribucin
A
de la renta y la riqueza. Segn su propia formulacin la distribucin de renta viene dada por: N = x ,
donde N es el nmero de personas por encima de un cierto valor R, y A y son constantes.
Suponiendo que la renta x se sita por encima de un mnimo x0, esta ley se reduce a un trunca
miento de la distribucin exponencial negativa en el punto ln x0.
Definicin 3.12. Decimos que una variable aleatoria sigue la ley de Pareto de parmetros y
x0, siendo >0, x0 >0, si su funcin de densidad viene dada por:
f(x)=
x0 sixx0
x+1
0 en otro caso
La esperanza matemtica de este modelo existir para > 1 y viene dada por la expresin:
1 . Por su parte, la varianza existir para todo > 2: V ar(X) =
x0 x20
E(X) = ( 2)( 1)2
[Deducirxlas expresiones anteriores. Para la varianza puede comprobarse previamente que se cumple
2
E(X2) =
02]
Esta distribucin admite una interpretacin muy sencilla por cuanto que el ratio entre su valor
esperado y la renta mnima, E(X)x0 = 1 , puede ser considerado como una medida de desigualdad.
De hecho, los estudios de Wilfredo Pareto aplicando su ley empricamente a varios pases y en distintos
perodos de tiempo arrojaban resultados muy estables de , lo que llev a este autor a defender la
incapacidad de las polticas ms progresistas para reducir el nivel de desigualdad.
Debemos tener en cuenta sin embargo que la eleccin del valor mnimo condiciona el valor de .
Como consecuencia, el modelo de Pareto slo describe la distribucin de la renta -y por tanto mide
la correspondiente desigualdad- para rentas superiores a la adoptada como umbral.
El inters del modelo de Pareto en economa se justifica por su validez para ajustar
distribuciones empricas, excepto en los estratos inferiores de renta. Como consecuen
cia, esta ley se complementa muy bien con la distribucin logaritmo normal, en el
sentido de que cuando una no se ajusta bien a la distribucin de la renta, la otra
suele dar resultados satisfactorios, y, viceversa. De forma global (las dos colas) las
distribuciones de renta tambin suelen ajustarse, entre otros, a travs de modelos
Gamma.
111
3. Modelos de probabilidad
Definicin 3.13. Decimos que una variable aleatoria X sigue una distribucin Gamma con
parmetros p y a, que se denota por (p, a), si su funcin de densidad viene dada por:
ap(p)
xp1eax six > 0
f(x) =
0 en otro caso
Los parmetros caractersticos del modelo gamma p y a adoptan siempre valores positivos y
recogen caractersticas de forma y escala respectivamente. En consecuencia, cambios en el parmetro
p alteran el perfil o forma grfica del modelo, mientras que el parmetro a viene relacionado con la
unidad de medida de la variable tal y como muestra la figura 3.17.
Por lo que se refiere a las caractersticas de la distribucin gamma, su valor esperado viene dado
por E(X) = pa y su varianza es Var(X) = pa2.
La distribucin gamma es una contribucin de L. Euler (1707-1783) pero fue O. Ammon (1895) el
primero en proponerla como modelo descriptivo de la distribucin de la renta.
Otras aplicaciones de este modelo se deben a March (1898), Salem y Mount (1974) y Bartels
(1977). Existen adems generalizaciones de la distribucin gamma como la propuesta por Amoroso
(1924) y varios modelos probabilsticos conectados con ste.
112
3. Modelos de probabilidad
Sin entrar aqu en un anlisis detallado de la desigualdad, presentamos a modo de resumen las
expresiones que adoptan la medida clsica de Gini-Lorenz y el ndice de desigualdad colectiva bajo
los modelos probabilsticos ms habituales para las rentas: Pareto, Log-normal y Gamma.
Indice ndice
Gini-Lorenz Pareto
21
1 Log-normal
2FN(0,1) ( Gamma
)1 )
(+12
(+1)
2
Si la renta es una variable aleatoria X cuya funcin de densidad de probabilidad es f(x), los
indicadores de desigualdad anteriores vienen dados por las expresiones siguientes:
Indice de Gini-Lorenz: L(X)=1 2 +0 F1(x)f(x)dx, donde F1(x) = 1 +0 f(t)dt
+0 (
Indice de desigualdad colectiva: D(X) = x
1) f(x)dx
113
4. Vectores aleatorios y distribuciones
de agregados
La realidad socioeconmica es compleja y de ah la necesidad de introducir los con
ceptos y expresiones que permitan un tratamiento simultneo de k variables aleatorias.
Supongamos a modo de ejemplo que estamos interesados en conocer la probabilidad
de que los beneficios de un centro comercial al finalizar este ao superen a los del
anterior. Lgicamente, este suceso aparecer relacionado con el comportamiento de
numerosas variables como el nivel de precios, la renta familiar disponible, las campaas
publicitarias, la competencia de otros centros comerciales cercanos, .... As pues, la
variable X, beneficios netos aparecera relacionada con otro conjunto de variables
Y, Z, W, ... con lo cual una probabilidad referida a X (por ejemplo, que los beneficios
superen los 2.000 euros) podra ser planteada en los siguientes trminos:
Adems, al realizar nuestro anlisis podramos tambin tener en cuenta que los
beneficios totales del centro comercial son resultado de agregar
i los beneficios de cada
uno de los establecimientos que lo integran, esto es, X = Xi. Evidentemente, los
distintos establecimientos podran registrar evoluciones dispares, pero si su nmero
es elevado, un comportamiento anmalo en uno de ellos no afectar demasiado al
agregado (esta desviacin podra verse compensada por otras de sentido contrario).
Como consecuencia, resultar posible efectuar afirmaciones relativas al total ignorando
cada uno de los sumandos, ya que este beneficio agregado tendr un comportamiento
normal.
La consideracin de vectores aleatorios integrados por k variables aleatorias permite
abordar el estudio exhaustivo (marginal o condicionado) de una de ellas, resultando
perfectamente aplicables los contenidos de captulos anteriores. Sin embargo, nos in
teresarn preferentemente los anlisis conjuntos, que permitirn conocer el modo en
el que las variables se relacionan, si son o no independientes, ....
Al igual que suceda para el estudio individualizado de variables aleatorias, existen
infinitas distribuciones de probabilidad k-dimensionales. De entre ellas, podemos des
tacar ciertos modelos probabilsticos habituales para describir fenmenos econmicos
que resultan de generalizar al caso k-dimensional los modelos conocidos: as, la genera
lizacin del modelo binomial conducir a la distribucin de probabilidad multinomial
y la extensin del hipergeomtrico a la distribucin multihipergeomtrica. De forma
114
4. Vectores aleatorios y distribuciones de agregados
(X,Y) :w E (X(w),Y(w)) 2
De una manera ms formalizada, si X e Y son dos v.a. definidas sobre el mismo espacio de pro
babilidad (E,A,P), y denotamos por 2 la -lgebra de Borel sobre 2, construida con todas las
uniones, intersecciones, complementarios, ... de rectngulos de 2, definimos una variable aleatoria
bidimensional (X, Y) como una aplicacin:
(X, Y) : w E (X(w),Y(w)) 2
115
4. Vectores aleatorios y distribuciones de agregados
Decimos que una v.a. bidimensional (X, Y) es discreta si las variables X e Y que la integran son
discretas. De igual manera diremos que es continua si sus componentes lo son.
En esta clasificacin de las v.a. bidimensionales, la definicin dada para variables continuas (que lo
sean sus componentes) es en realidad una condicin necesaria pero no suficiente; pueden encontrarse
contraejemplos en los que tanto X como Y son continuas y en cambio la variable conjunta no lo es.
P(a<Xb,c<Yd)=F(b,d)F(a,d)F(b,c)+F(a,c)
116
4. Vectores aleatorios y distribuciones de agregados
Definicin. Dada una v.a. bidimensional continua (X, Y), si existe una funcin
f(x,y), tal que:
f(x,y)= 2F(x,y)
xy
la denominaremos funcin de densidad bidimensional (o conjunta) de X e Y.
Obsrvese que para que exista la funcin de densidad de una v.a. bidimensional continua es nece
sario que exista la derivada parcial de segundo orden respecto a x e y.
117
4. Vectores aleatorios y distribuciones de agregados
+ + f(x,y)dxdy = 1 y
a b d
P(a<Xb,c<Yd)=
cf(x,y)dxdy
Supongamos que cada componente del vector anterior es una v.a., en cuyo caso se dice que se trata
de un vector aleatorio, y que son observadas conjuntamente para cada elemento de la poblacin, de
forma que cada elemento w proporciona un vector de informacin: (X1 (w),X2 (w),...,Xk (w)); esto
es, la variable aleatoria k-dimensional puede entenderse como:
(X1,X2,...,Xk) :w E (X1(w),X2(w),...,Xk(w)) k
Definida una -lgebra de Borel sobre k, generada por cubos k-dimensionales de la forma
(,x1] (,x2] (,xk], la probabilidad inducida nos permite establecer una funcin
de distribucin k-dimensional F(x1 ,x2, ...,xk):
F:(x1,x2,...,xk) k F(x1,x2,...,xk) [0,1]
118
4. Vectores aleatorios y distribuciones de agregados
Consideraremos una v.a. k-dimensional discreta o continua cuando lo sean sus componentes.
Dada una v.a. k-dimensional discreta (X1,X2,...,Xk), definimos la funcin de probabilidad k
dimensional como aquella que a cada posible valor de la variable, (x1 ,x2 ,...,xk), le asigna una masa
de probabilidad, que verifica:
+ + +
pi1,i2,...,ik 0 y i1=0 i2=0 pi1i2ik = 1
ik=0
119
4. Vectores aleatorios y distribuciones de agregados
Dada una v.a. bidimensional (X, Y), denominamos distribucin marginal de X a la distribucin
de probabilidad de la v.a. X cuando consideramos un comportamiento libre de Y. Esto es, denotando
por FX (x) a su funcin de distribucin, se tiene:
+
FX(xi) = lim F(xi,y) = phj
y+
hi j=1
f(x,y)dy
x (+ )
FX(x) = limy+F(x,y) = dx
+
pX(xi) = FX(xi) FX(xi1) = pij
j=1
+ f(x,y)dy
fX(x) = FX(x) =
X pX (x)
2 0,25
4 0,35
8 0,4
120
4. Vectores aleatorios y distribuciones de agregados
El caso continuo incorpora algunos rasgos diferenciales, que podemos examinar a travs de una
ilustracin. Consideremos un reciente estudio sobre los mrgenes comerciales del sector de electrodo
msticos, en el que se observaron conjuntamente los precios de venta (X) y su coste (Y), ambos en
miles de unidades monetarias, obtenindose la siguiente funcin de densidad:
200 si10<y<x
f(x,y)= x2y2
0 en otro caso
cuyo campo de variacin -representado en la figura 4.2- supone que el precio de venta tie
ne
que
+ +
ser mayor que su coste (y < x). [Comprubese que f(x,y) es no negativa y se cumple
f(x,y)dxdy = 1].
Si ahora queremos obtener la distribucin marginal del precio de venta, podemos utilizar las
expresiones anteriormente vistas para fX (x):
+ f(x,y)dy =
x x2y2
10 200 dy= 200
x2 [ x = 20
x2 200
fX(x) = x3 ,x > 10
1y
]10
Podemos comprobar que las funciones de probabilidad y de densidad marginales verifican los
requisitos exigidos a estas expresiones; esto es, que son funciones no negativas cuya suma o integral
es la unidad.
En el caso de la funcin de densidad marginal tendramos que es un valor no negativo puesto que a
cada punto le asigna el rea de la seccin determinada por la superficie f(x, y) con un plano paralelo
al eje de la variable que marginamos, y como tal rea no
+
puede adoptar valores negativos.
En segundo lugar tendramos que comprobar que fX (x)dx = 1 (en el caso que se tratase de
la marginal de X). En efecto:
+ fX (x)dx = + + f(x,y)dxdy = 1
121
4. Vectores aleatorios y distribuciones de agregados
La funcin de distribucin marginal FX (x), puede obtenerse a partir de las correspondientes fun
ciones de probabilidad o de densidad, segn se trate de v.a. discretas o continuas, mediante suma o
integracin de las mismas:
les que en el caso unidimensional, teniendo en cuenta que ahora se trata de una distribucin marginal.
+00
E(X) 1 fs fO ivfvlvlwdv I QW ftixvlvj di I
oo
IXW)
: xfX(x)dx : u);
I f_oo(w
+00 _ 9x) 2 +00 f(1viv)d9 div I f_so(w
+09 _ ux)fx(fv)d1v
2
oo
~
GX)
122
4. Vectores aleatorios y distribuciones de agregados
Sus frmulas de clculo para los casos discreto y continuo son las siguientes:
i=1
X,Y = (xi X)(yj Y)pij
j=1
+ +
X,Y = (x X)(yY)f(x,y)dxdy
Proposicin. La covarianza de una variable sobre s misma coincide con la varianza marginal:
Al igual que la varianza, la covarianza admite una expresin de clculo ms simple. En concreto,
la covarianza puede obtenerse como diferencia entre la esperanza del producto y el producto de las
esperanzas marginales:
123
4. Vectores aleatorios y distribuciones de agregados
[Comprubese]
La covarianza presenta la importante limitacin de no encontrarse acotada; el valor resultante de
la covarianza nos permitir establecer el tipo de dependencia lineal (nula, directa o inversa), pero no
as el nivel de la relacin. Este inconveniente motiva la utilizacin del coeficiente de correlacin lineal
definido como cociente entre la covarianza y las desviaciones tpicas de las variables:
X,Y
X,Y =
XY
expresin que se encuentra acotada entre -1 y 1, y resulta adecuada como medida de correlacin lineal
entre dos variables aleatorias, puesto que su valor absoluto expresa el grado de la relacin lineal.
Si consideramos el vector fila aleatorio x = (X, Y), podemos construir un vector de valores espe
rados y matrices de varianzas-covarianzas y de correlaciones como sigue:
[ ]
Cov(x) = 2X Y,X
Y,X 2Y
[
1 Y,X
Corr(x) =
Y,X 1 ]
Al igual que hemos visto para las variables unidimensionales, es posible generar los momentos
bidimensionales a partir de una funcin generatriz.
La funcin generatriz de momentos de una v.a.bidimensional se define como el valor, si existe, de
la expresin:
(et1X+t2Y )
M(X,Y)(t1,t2) = E
pudiendo comprobarse fcilmente a partir de esta expresin: MX+Y (t) = M(X,Y) (t, t).
Podemos extender los conceptos anteriores de distribuciones marginales y sus matrices caracters
ticas al caso de variables k-dimensionales sin ms complejidad que la derivada de su terminologa.
En efecto, si denotamos por x un vector aleatorio con k componentes, x = (X1,X2 ,...,Xk), la
distribucin marginal del componente Xj, ser la distribucin unidimensional de esta variable con
independencia de lo que ocurra con los restantes componentes; esto es:
FXj(xj)= x1
lim xj1
lim xj+1
lim xk
lim F(x1,...,xj1,xj,xj+1,...xk)
Para variables discretas y continuas obtenemos las funciones de probabilidad y densidad, respec
tivamente:
i1=0
ij1=0
ij+1=0
PXj(xi)= P(xi1,...,xij1,xij,xij+1,...,xik)
ik=0
124
4. Vectores aleatorios y distribuciones de agregados
+ +
fXj (xj ) =
f(x1,...,xj,...,xk)dx1dxj1dxj+1dxk
Las distribuciones marginales son de carcter unidimensional y por tanto su funcin de distribucin se
obtiene sumando o integrando las correspondientes funciones de probabilidad o de densidad margina
les. [A partir de una distribucin k-dimensional cuntas distribuciones marginales pueden obtenerse?]
El vector de esperanzas y las matrices de covarianzas y correlaciones vienen en este caso dados
por:
Cov(x)= k1 k2 ... 2k
21
21 12
22
... 1k
2k
.
.. .. .. ..
. . .
Corr(x)=
1 12 1k
21 1 ... 2k
.. .. .. ..
. . . .
k1 k2 ... 1
La funcin generatriz de momentos de una v.a. k-dimensional se define como el valor, si existe, de
la expresin:
)
M(X1,X2,...,Xk)(t1,t2,...,tk) = E (et1X1+t2X2++tkXk
125
4. Vectores aleatorios y distribuciones de agregados
asociada a la misma.
Dada una v.a. bidimensional (X, Y), con funcin de distribucin conjunta F(x,y), definimos la
funcin de distribucin de Ycondicionada a X x, como la aplicacin:
P(Y=yj/X= xi )= P(xi,yj)
PX(xi) = P(xi,yj)
j=1P(xi,yj)
f(x,y)fX(x) = f(x,y)+f(x,y)dy
f(y/x) =
P(Y=1/X=4)= P(X=4,Y=1)
P(X =4)= 0,2
0,35 =0,5714
126
4. Vectores aleatorios y distribuciones de agregados
Las expresiones anteriores cumplen las condiciones exigidas a las funciones de probabilidad y de
densidad. En efecto, dada la variable bidimensional continua (X, Y), la densidad de Y condicionada
a X = x es una funcin:
f(./x) : y f(y/x)
Segn la definicin anterior esta funcin f(y/x) ser no negativa, al obtenerse como cociente entre
un valor de la funcin de densidad conjunta y un rea, ambos no negativos.
Por otra parte, se tiene:
+ f(y/x)dy= + + f(x, y)dy
[
f(x, y) dy= =1
+ f(x,y)dy ] +
f(x,y)dy
* La funcin de distribucin condicionada FY/X=x(y) = P(Y y/X = x), presenta las siguientes
frmulas de clculo:
F(y/X=xi)= P(yj/xi)= P(xi,yj) yj<|y|P(xi,yj)
yj<[y] yj<[y]
j=1 P(xi,yj)
= j=1 P(xi,yj)
y y f(x,t)+f(x,y)dydt
F(y/X = x) = f(t/x)dt =
Por lo que se refiere a las caractersticas de las distribuciones condicionadas, stas pueden ser
obtenidas de forma anloga al caso de las distribuciones marginales, teniendo en cuenta que ahora se
utilizar la funcin de densidad o de probabilidad condicionada.
127
4. Vectores aleatorios y distribuciones de agregados
Supongamos un experimento aleatorio que repetimos n veces. En cada una de estas n repeticiones
-que asumimos independientes entre s- el resultado del experimento ser uno y slo uno de los
resultados (modalidades) A1,A2,...,Ak y designaremos por pj la probabilidad de que en una de las
realizaciones independientes ocurra Aj, asumiendo que dichas probabilidades se mantienen constantes
en las n pruebas.
Los sucesos A1,A2 ...,Ak constituyen una particin de E: k
Ai = E, Ai Aj = , i = j y se
cumple por tanto k i=1
veces que han sido observados los sucesos A1,A2, ...,Ak en las n realizaciones del experimento. En
tonces el vector aleatorio k dimensional ((X1,X2 ,...,Xk) recibe el nombre de variable aleatoria mul
tinomial de parmetros n, p1,p2 ,...,pk y se representa como (X1,X2,...,Xk) M(n,p1,p2 ,...,pk)
La funcin de masa de probabilidad del vector aleatorio (X1,X2 ,...,Xk) M(n,p1,p2 ,...,pk)
ser la siguiente:
k
P(X1 =x1,...,Xk=xk)=n!x
1 !px11pxkk;con xj=n
!xk j=1
Estas probabilidades son no negativas y su suma es la unidad, por lo que se cumplen las condiciones
de una funcin de probabilidad.
Justificbamos el nombre de la distribucin binomial porque sus probabilidades se correspondan
con los sumandos del binomio (p+q)n. Del mismo modo, en la distribucin actual las probabilidades
128
4. Vectores aleatorios y distribuciones de agregados
se corresponden con los sumandos correspondientes del multinomio (p1 + p2 + + pk )n, hecho que
por una parte justifica su nombre y por otra garantiza que la suma de la funcin de probabilidad es
precisamente (p1 + p2 + + pk)n = 1n =1.
Por lo que se refiere a las caractersticas de esta distribucin, los momentos marginales nos pro
porcionan las medias y varianzas marginales dadas por las expresiones:
Adems, por tratarse de un modelo k dimensional nos interesa conocer las expresiones de algunas
caractersticas de correlacin entre variables unidimensionales. As la covarianza entre dos variables
Xi y Xj, viene dada por:
expresin que como vemos depende de las probabilidades de los sucesos considerados pero no del
nmero de pruebas.
En ocasiones la definicin de la distribucin multinomial se lleva a cabo excluyendo una de las cate
goras que se adopta como referencia. Se tendra en este caso un vector k-1 dimensional (X1 ,...,Xk1)
siendo k1
j=1 xi n.
Consideremos una poblacin de tamao N en la cual existen Ni elementos con las caractersticas
de inters A1,A2,...,Ak, que son excluyentes entre s. Al extraer de esta poblacin muestras de ta
mao n sin reposicin, definimos el vector aleatorio (X1 ,X2 ,...,Xk) donde Xi representa el nmero
de elementos de la muestra con la caracterstica Ai.
129
4. Vectores aleatorios y distribuciones de agregados
Las caractersticas de la distribucin multihipergeomtrica guardan relacin con las vistas para el
modelo hipergeomtrico obtenindose:
E(Xi)=n 1
N =npi ; Var(Xi) = n Ni
Ni N ( NiN ) N
nN1=npi(1pi)NnN1
Por lo que se refiere a la covarianza, su expresin mantiene cierta similitud con la correspondiente
a la distribucin multinomial:
N2 Nn
nNiNj N1 ; i=j=1,2,...k
N1=npipj Nn
Xi,Xj =
130
4. Vectores aleatorios y distribuciones de agregados
M(m>52(1 jifizisisi-ii 2
M2 21 2
donde al calcular el determinante se tiene en cuenta que la covarianza es simtrica:
U12 I 021
. _ 2 2 92 _ 2 2 2
El determinante podemos expresarlo como. [E] a1 a2 (1 a???) a1a2(1 p ),
y la matriz inversa de E resulta:
1_ 1 a2 a 12
2 al 2 12 U1
mi i
i(l_llli2_ll2)
U2 <T12
2
901 M1
Q 1 Q 2( P) U12 0'] x2 /sL2
f( x 1 ,x 2 > I Ge 1
27ra1a2\/1 p2
ion-i ( 1 Mi
)_i l m [(991M1)T(I2M2)T12i-(I1 M1)T12+(12M2)Ui] _
Q 01m Q
2 992 M2
e
277a1a2\/1 p2
)_i ion-i 1 (11Mi)2+(92M2)2_2P(11M1)(I2M2)
l
(Y! Q 2 Q 2(1p2) a? 0% 0102
> no
27ra1a2\/ 1 p2
011 Uils tl
(tlvitlc) j j j
M1 t
(t177tl) + 021 2 02k k
Dada una variable normal multivariante, las funciones de densidad marginales coin
ciden con las funciones de densidad univariantes de distribuciones A/(u), ai), con lo
que se tiene: = u,- y Var(X,) I a2.
131
4. Vectores aleatorios y distribuciones de agregados
132
4. Vectores aleatorios y distribuciones de agregados
Dado que las variables aleatorias representan sucesos asociados a determinada experiencia alea
toria, el concepto de independencia de variables aparece conectado a la independencia de sucesos.
As, diremos que dos variables aleatorias X e Y son independientes si los sucesos [a < X b] y
[c<Y d] son independientes para cualesquiera valores reales a, b, c, d.
En efecto, para comprobar que estos sucesos son independientes tendramos que probar la siguiente
igualdad:
P(a<Xb,c<Yd)=P(a<Xb)P(c<Yd)
y para ello partimos de la definicin anterior de independencia. Utilizando la funcin de distribucin
conjunta podemos expresar:
donde en la ltima igualdad hemos aplicado la independencia de las v.a., y si ahora sacamos factor
comn se tiene:
P(a<X b,c<Y d) = FX (b)[FY (d) FY(c)] FX (a)[FY (d) FY(c)] =
= [FX(b) FX(a)][FY(d) FY(c)] =
= P(a<Xb)P(c<Yd)
De modo recproco, si se verifica la relacin anterior para cualquier par de sucesos [a<X b],
[c<Y d], entonces se tiene la condicin de independencia enunciada. En efecto, para todo (x, y)
2 bastar considerar los intervalos de tipo (-,x], (,y] y la comprobacin resulta inmediata.
133
4. Vectores aleatorios y distribuciones de agregados
A partir de cualquiera de las definiciones anteriores de independencia podemos demostrar que dos
v.a. son independientes si y slo si las distribuciones marginales y condicionadas coinciden. Aparece
as un nuevo significado de la independencia; X es independiente de Y si su distribucin no se ve
afectada por los hipotticos valores de Y que puedan haberse verificado.
En efecto, teniendo en cuenta la definicin de probabilidad condicionada, para todo xi y para todo
yj con p(yj) > 0 se tiene:
p(xi,yj) = p(xi/yj)p(yj)
y por ser independientes se cumple: p(xi,yj) = p(xi)p(yj). Comparando miembro a miembro las dos
ecuaciones resulta: p(xi ) = p(xi/yj), y esto para todo xi y para todo yj .
[Comprubese que la implicacin en sentido recproco tambin es cierta]
134
4. Vectores aleatorios y distribuciones de agregados
Demostracin. La comprobacin de esta propiedad resulta muy sencilla con slo apli
car la condicin de independencia anteriormente vista. As, en el caso de una variable
(X, Y) discreta, si el rango de valores de X es x1,...,xk , y el de Y,y1,...,yh, se tiene:
k
i=1 h k h
E(XY ) = xiyjp(xi ,yj) = xiyjp(xi)p(yj) =
j=1 i=1 j=1
[k ] h
xip(xi)
= yjp(yj) = E(X)E(Y)
i=1 j=1
135
4. Vectores aleatorios y distribuciones de agregados
{ }
P{f(X) x, g(Y ) y} = P {X f1(,x],Y g1(,y] = }
= P Xf1(,x]} P {Yg1(,y] =
= P{f(X) x}P{g(Y) y}
MX+Y(t) = MX(t)MY(t)
siendo MX(t), MY(t) y MX+Y(t) las funciones generatrices de momentos de X, de
Y y de su suma respectivamente.
etX etY
MX+Y(t) = E [et(X+Y)] = E (etXetY ) = E ( ) E ( ) = MX(t)MY(t)
Hemos visto que cuando dos variables son independientes entonces son incorreladas.
La implicacin simtrica no es cierta en general, pero sin embargo se verifica:
Proposicin 4.7. Si X e Y son variables aleatorias normales e incorreladas, entonces
son independientes.
136
4. Vectores aleatorios y distribuciones de agregados
Por otra parte, en el apartado anterior hemos visto la expresin de la f.g.m. para
el modelo normal multivariante, que en el caso particular bivariante (k = 2) vendr
dada por:
M(X,Y )(t1,t2) = et11+t22+12(t2121+t2222+2t1t212)
4.4.1. Reproductividad
Adems de las propiedades anteriores, algunos modelos probabilsticos cumplen la
propiedad denominada reproductividad que resulta muy intuitiva y de gran inters
prctico. A grandes rasgos esta propiedad garantiza que, dadas dos variables aleatorias
independientes distribuidas segn cierto modelo, la variable suma sigue tambin ese
modelo probabilstico.
A modo de ilustracin de esta propiedad, consideremos que un individuo apuesta al
resultado sacar 2 en 3 lanzamientos sucesivos de un dado. Como hemos estudiado en
un captulo anterior, la variable aleatoria que recoge el nmero de xitos viene descrita
por un modelo binomial con parmetros n = 3 y p = 16.
Si consideramos ahora que un amigo del individuo anterior realiza la misma apuesta
para 5 lanzamientos sucesivos de dado, qu podramos afirmar sobre el nmero de
xitos conseguidos por los dos amigos? La respuesta es que se tiene ahora la suma de
dos variables independientes (los resultados del primer individuo no afectarn a los
obtenidos por su amigo) y con p = 16 constante, por lo cual la variable nmero total
de xitos tambin ser binomial, en este caso con parmetros n = 8 y p = 16.
Definicin 4.7. Dada una familia de variables aleatorias se dice que sta es repro
ductiva si y slo si para todo par de variables aleatorias independientes X1,X2
se cumple X1,+X2 .
137
4. Vectores aleatorios y distribuciones de agregados
138
4. Vectores aleatorios y distribuciones de agregados
Hasta ahora hemos abordado la independencia y sus propiedades en el caso bidimensional. Sin
embargo, cabe extender este concepto al caso k-dimensional en los siguientes trminos:
Definicin. Se dice que las variables X1,X2,...,Xk son independientes si y slo si se cumple:
k
F(x1,x2...,xk) = FXi(xi), (x1,x2,...,xk) k
i=1
donde F(x1 ,x2 ...,xk) es la funcin de distribucin de la variable k-dimensional y FXi (xi ) la funcin
de distribucin marginal de la variable unidimensional Xi, (i = 1,2,...,k).
Todas las propiedades anteriores pueden generalizarse al caso k-dimensional con la nica dificultad
derivada del cambio de notacin.
139
4. Vectores aleatorios y distribuciones de agregados
Nos planteamos ahora el estudio de estas nuevas magnitudes aleatorias para lo cual
analizaremos en primer lugar sus caractersticas esperanza y varianza.
Consideremos el vector aleatorio (X1,X2,...,Xn), con vector de esperanzas y ma
triz de varianzas-covarianzas finitos. Entonces las caractersticas de las magnitudes
aleatorias suma, media y media ponderada pueden ser obtenidas a partir de las co-
rrespondientes caractersticas del vector n-dimensional.
As, las esperanzas vendran dadas por las siguientes expresiones:
(n ) n n
E(Sn) = E Xi = E(Xi) = i
i=1 i=1 i=1
140
4. Vectores aleatorios y distribuciones de agregados
(n ) n wii
E (XW ) = E wi Xi =
i=1 i=1
en cuya obtencin hemos aplicado nicamente las propiedades de la esperanza como
operador lineal.
Por su parte, para las varianzas se obtiene:
n n Var(Xi) + n Cov(Xi,Xj) = n 2i + n ij
Var(Sn) = Var ( Xi) =
i=1 i=1 i=j i=1 i=j
(obsrvese que bastara con que las variables fuesen independientes dos a dos, ya
que en ese caso se cumplira ij = 0, i = j = 1,2,...n).
Aplicando el mismo razonamiento a las expresiones de la media simple y ponderada
se obtendra, bajo el supuesto de independencia:
= 1n2ni=12i; Var ( n
Var (Xn ) XW ) = w2i2i
i=1
141
4. Vectores aleatorios y distribuciones de agregados
P(lXii-E(Xn)l
P(lSTLE(SW)l z2)s) ss
PUXW-Evunl
P<jX,-/vj2)
i:1 i:1
i /\
l)?
-
TL
M
= o?
TL TL
E, /\| F0
[O
|
g/
142
4. Vectores aleatorios y distribuciones de agregados
n
P (ni=1wiXini=1wii i=1w2i2i
)
2
Tal y como hemos visto al enunciar la desigualdad de Chebyshev para una variable
individual, a partir de las desigualdades anteriores es posible obtener formulaciones
alternativas donde la cota sea proporcional a la desviacin estndar y/o pasando a
los complementarios.
Un caso particular de inters sera que las variables aleatorias X1,X2,...,Xn fueran
independientes e identicamente distribuidas. Se obtendra entonces para cualquier i:
E(Xi ) = y Var(Xi) = 2, caractersticas que conducen a las siguientes expresiones
para la esperanza, la varianza y la cota de Chebyshev de las magnitudes suma, la
media simple y ponderada:
2
Media E(XW) = Var (XW ) = 2 ni=1 w2i P (XW ni=1 w2
) i
ponderada 2
Este tipo de esquema de composicin fue investigado por autores como Gibrat
(1931), quien en sus estudios sobre ingresos supona que los valores de estas varia
bles se hallan afectados por gran cantidad de factores aleatorios independientes, de
varianza finita, que operan de modo multiplicativo y no aditivo. Esta propiedad se
conoce como ley del efecto proporcional y bajo dicha ley la aplicacin del teorema
central del lmite a los logaritmos de los elementos aleatorios conduce, en el lmite, a
una distribucin logartmo normal.
143
4. Vectores aleatorios y distribuciones de agregados
n
) i=1 E(Xi)
n = n
E (i=1 Xi = i
i=1
n Xi n n E2(Xi) = n E ( n
Var ( ) = E ( X2i) X2i) E2(Xi)
i=1 i=1 i=1 i=1 i=1
144
4. Vectores aleatorios y distribuciones de agregados
Las afirmaciones ms fuertes que podemos llegar a efectuar responden al concepto de convergencia
fuerte o casi-segura (c.s.) que se define en los siguientes trminos:
Definicin 4.8. Se dice que la sucesin {Xn} converge a X casi-seguro, lo que representamos por
Xn c.s.
Xo , si y slo si P(lmn Xn = X)=1 o bien > 0, n0 tal que n>n0 , entonces:
En el primer tipo de convergencia estamos garantizando que en el lmite ambas variables coinciden
salvo a lo sumo en un conjunto de probabilidad nula; intuitivamente, para un n suficientemente
grande, la probabilidad de que Xn diste de de la variable lmite ms de cierto nmero es nula, esto
es, Xn coincide casi-seguro con X. Con otras palabras, la convergencia casi-segura (que tambin se
puede denominar convergencia con probabilidad uno) nos indica que para casi todos los resultados
elementales (w E) se verifica:
lm Xn (w)
n = X(w)
si denotamos por E E el conjunto de resultados para los que se verifica el lmite anterior, se tiene
que P(E)=1; el complementario podra no ser vaco pero su probabilidad es nula.
145
4. Vectores aleatorios y distribuciones de agregados
encontrar un n suficientemente grande, tal que la probabilidad de que Xn diste de la variable lmite
ms de cierto nmero es menor que la constante prefijada.
Otra forma de expresar esta convergencia sera:
lo cual quiere decir que si denotamos por En E el conjunto de resultados donde |Xn (w)X(w)| < ,
se tiene:
lm P(En )=1
n
Definicin 4.10. Dada una sucesin de v.a. {Xn} se dice que converge en media r-sima a la
variable X si:
lm
n
E[|Xn X|r ]=0
por tanto:
lm P(|Xn
n X| ) n
lm E(XnX)22
lm P(|XnX|
n )0
y como la probabilidad no puede ser negativa ese lmite tiene que ser nulo y por tanto {Xn} converge
en probabilidad a X.
Por ltimo la convergencia entre los modelos de probabilidad, que denominamos en ley (L) o
distribucin y representamos Xn L X podemos expresarla como sigue:
Definicin 4.11. Se dice que una sucesin de v.a. {Xn}, cuyas funciones de distribucin repre
sentamos por Fn, converge en ley o distribucin a otra v.a. X, con f.d. F, si:
lm Fn(x)
n = F(x), x
donde F es continua.
146
4. Vectores aleatorios y distribuciones de agregados
Ya hemos estudiado algunos modelos entre los cuales podemos establecer una convergencia en ley.
As, el modelo binomial converge al modelo de Poisson. Tendramos que demostrar que la funcin de
distribucin binomial
discretas, para todo xconverge
, sus a laf.d.
funcin de distribucin
constan de Poisson.
de los mismos sumandosPor
ser ambas distribuciones
xix p(xi ) y ya hemos
demostrado al estudiar estas distribuciones la convergencia de cada sumando de la binomial a la de
Poisson, con lo cual se verifica la convergencia enunciada.
De modo similar, la distribucin hipergeomtrica converge en ley a la distribucin binomial.
A modo de sntesis, en la figura 4.6 recogemos la relacin entre los distintos tipos de convergencia:
Teorema 4.1. Sea {Xn} una sucesin de variables aleatorias independientes e idnticamente
distribuidas (i.i.d.), con E(Xi ) = y Var(Xi) = 2. Si definimos la variable media
Xn = X1+X2++Xn
n
entonces se cumple: Xn P .
Esto es, para cualquier > 0 se cumple:
( ) =0
lm P Xn
n
147
4. Vectores aleatorios y distribuciones de agregados
Este enunciado se denomina habitualmente ley dbil de los grandes nmeros, dado que se trata de
una convergencia dbil o en probabilidad. (En el enunciado anterior puede sustituirse por su equiva
lente ).
La primera demostracin de la ley de los grandes nmeros aparece recogida en la obra Ars
Conjectandi de Jacob Bernoulli (1832). Este autor demostr la ley para el caso particular de variables
dicotmicas:
lmnP(|fn(A)p|)=0
El enunciado de esta propiedad es equivalente a considerar una sucesin {Xn} de pruebas inde
pendientes de Bernoulli, con probabilidad de xito constante. La suma de estas variables indica el
nmero de xitos en las n pruebas y si calculamos la media reflejaremos la frecuencia relativa del
xito o suceso A:
X =X1+X2++Xn
n
n = f(A)
y por otra parte E(Xi ) = = p. As pues, la expresin de la ley dbil de los grandes nmeros nos
conduce al enunciado de esta propiedad.
Dado que dicha prueba es anterior a la desigualdad de Chebyshev, Bernoulli necesit una meto
dologa muy ingeniosa para llegar a su demostracin de la ley.
El enunciado anterior puede ser generalizado al caso en que no se verifique la igualdad de esperanzas
y varianzas.
Teorema 4.2. Sea {Xn} una sucesin de variables aleatorias independientes con E(Xi ) = i y
Var(Xi) = 2i. Si definimos la media de estas variables
n n
Xi i
Xn = n
i=1 y= i=1
n
entonces se cumple Xn P
.
1n2 n 2
Var (Xn ) = 1n2 [Var(X1) + Var(X2) + + Var(Xn)] = 2i
n
i=1
148
4. Vectores aleatorios y distribuciones de agregados
donde 2 = mxi{2i}.
En los enunciados anteriores hay una circunstancia que nos puede llamar la atencin, y es el hecho
de que para asegurar la convergencia de la media debamos establecer una hiptesis sobre un momento
de orden superior (varianza). En este sentido, una demostracin general de la ley dbil de los grandes
nmeros fue establecida por el matemtico ruso Khintchine (1929). Adems de l, numerosos autores
contribuyeron a la generalizacin de estas leyes, entre ellos Laplace, Chebyshev, Kolmogorov, Levy,
Cramer, Gnedenko y Feller.
Adems de la ley dbil enunciada, que hace referencia a la convergencia en probabilidad, existen
leyes fuertes de los grandes nmeros, referidas a la convergencia casi-segura. Entre ellas, el enunciado
ms simple es el siguiente:
Teorema 4.3. Sea {Xn} una sucesin de variables aleatorias independientes e idnticamente
distribuidas, con la misma esperanza y varianza y 2 respectivamente, finitas. Entonces se verifica:
Xn c.s. .
Este enunciado fue generalizado por Kolmogorov en dos sentidos: para el caso de sumas infinitas
y para la convergencia a cualquier constante C.
Entonces se cumple:
Sn L )
N (n, n
o equivalentemente
Snn
L
n N(0,1)
149
4. Vectores aleatorios y distribuciones de agregados
Teorema 4.5. Dada una sucesin {Xn} de v.a. independientes e idnticamente dis
tribuidas, con E(Xi ) = y Var(Xi) = 2 finitas, entonces se cumple:
( )
L ,n
Xn N
o equivalentemente
Xnn
L
considerndose estas aproximaciones vlidas N(0,1)
para n > 30.
La primera versin del TCL fue establecida por Abraham De Moivre (1667-1754)
para variables de Bernoulli.
150
4. Vectores aleatorios y distribuciones de agregados
Corolario 4.1. Como conclusin de este resultado se tiene que la distribucin binomial B(n,p)
converge a la normal N (np, npq)
.
Demostracin. Bastara tener en cuenta que la suma de n v.a. independientes de Bernoulli de
parmetro p es una binomial, B(n,p). En efecto, sean X1,X2,...,Xn, v.a. independientes B(p),
etp + q)
entonces la f.g.m de cada una de ellas ser: MXi (t) = ( .
La f.g.m. de la suma ser:
n
Mni=1 Xi (t) = (etp + q )n
MXi (t)=(MXi (t))n =
i=1
que es la f.g.m. de una binomial B(n,p).
Por tanto, en el enunciado de De Moivre sustituyendo la suma de Bernoulli por la correspondiente
binomial, obtendremos la propiedad enunciada.
Laplace generaliz el enunciado dado por De Moivre, para el caso de variables discretas y si
mtricas. Paul Levy lo extendi a v.a. independientes idnticamente distribuidas con momentos de
segundo orden finitos.
Corolario 4.2. Para valores elevados de la distribucin de Poisson P() converge a la normal
.
n+n++n ) =P()
SnP (
Por otra parte, se trata de una sucesin de v.a. i.i.d. con esperanza y varianza finitas; por tan
to en virtud del TCL su suma Sn converge a una normal con media E(Sn) y varianza Var(Sn),
caractersticas que vienen dadas por las expresiones:
151
4. Vectores aleatorios y distribuciones de agregados
n Xi n Xi n
i=1
= nn = ; Var(Sn) = Var ( Var(Xi) = nn =
E(Sn) = E ( ) )=
i=1 i=1
La demostracin se llevara a cabo de forma anloga para cualquier otra distribucin que sea
reproductiva.
Como hemos visto, el teorema central del lmite resulta aplicable a las magnitudes
originadas mediante agregacin de variables individuales. Este sera por ejemplo el
caso de los errores de distinta ndole, que se superponen hasta dar lugar al error total
observado en un estudio, para el cual se obtienen habitualmente representaciones
campaniformes aproximadamente normales.
Cabe por ltimo sealar que, en el caso de que el teorema central del lmite sea
aplicado a variables aleatorias discretas, se plantean dudas sobre el valor puntual a
partir del cual debe ser efectuada la aproximacin. Para solucionar este inconveniente
se introduce la correccin de continuidad, consistente en calcular la probabilidad sobre
el valor medio de dos observaciones consecutivas de la variable.
En efecto, la aplicacin del TCL podr dar lugar a resultados distintos segn el
punto a partir del cual se cuantifique la probabilidad. As, la probabilidad P(X>xi )
podra ser tambin planteada como P(X xi+1), expresin que conducira a un
resultado inferior al anterior.
Para resolver este problema, se introduce la correccin de continuidad, consistente
en enunciar las dos alternativas para la probabilidad buscada, adoptando finalmente
como aproximacin la correspondiente al valor intermedio,
x= xi + xi1
2
que no pertenecer al recorrido de la variable discreta.
Se tendra entonces como aproximacin P(X x) tanto si la probabilidad ini
i
cialmente enunciada es P(X > xi ) como si sta fuese P(X xi+1). A modo de
152
4. Vectores aleatorios y distribuciones de agregados
153
Parte II.
Inferencia estadstica
154
5. Muestras y estimadores
Las variables econmicas no pueden ser conocidas de forma determinista ni siquiera
de forma probabilstica, ya que el tiempo, el espacio y otros factores contribuyen a
que no tengan carcter esttico y como consecuencia nuestros anlisis se desarrolla
rn en un contexto dinmico e incierto. As pues, las poblaciones que investigamos
sern cambiantes, y generalmente nos encontraremos con un cierto desconocimiento
sobre algunos parmetros y caractersticas de la poblacin, o incluso sobre su propia
estructura.
En la prctica nuestras decisiones deben ser adoptadas a partir de informacin par
cial sobre la poblacin investigada. As, los estudios de mercado se basan en muestras
de clientes, las pruebas de control de calidad examinan muestras del producto analiza
do, e incluso algunas de las principales estadsticas oficiales como el Indice de Precios
de Consumo (IPC) o la tasa de paro se basan en la informacin procedente de en
cuestas muestrales: la Encuesta de Presupuestos Familiares (EPF) y la Encuesta de
Poblacin Activa (EPA), ambas realizadas por el Instituto Nacional de Estadstica
(INE).
Teniendo en cuenta la importancia de las investigaciones muestrales en el mbito
socioeconmico, en este captulo recogemos una breve introduccin a la seleccin de
muestras y sus errores, para posteriormente centrarnos en el estudio de los estimadores,
las propiedades bsicas que deben cumplir y los principales mtodos para su obtencin.
En inferencia estadstica esta segunda acepcin suele ser la habitual y en algunas ocasiones se
mezclan ambas terminologas. As en poblaciones finitas hablamos indistintamente de una poblacin
155
5. Muestras y estimadores
E (formada por unidades: personas o cosas) sobre la que se disea el plan de muestreo y de una
poblacin X (v.a.) sobre la que estimamos el total o la media.
Cuando observamos varias variables partimos de una poblacin identificada como universo. Sin
embargo, cuando identificamos la poblacin como v.a. podemos encontrarnos con una poblacin k
dimensional o con k poblaciones unidimensionales.
Sera preferible una poblacin finita o una infinita? Hemos hecho esta pregunta durante muchos
cursos a nuestros alumnos y la respuesta siempre es finita: los nmeros finitos nos parecen siempre
ms tangibles y conocidos (podemos alcanzarlos) y por tanto de ms fcil manejo. El infinito es un
campo cuyo tratamiento y comprensin requiere imaginacin y que, en cualquier caso, se percibe
como lejano. Sin embargo, ya hemos comentado que los modelos son idealizaciones matemticas y en
ellas lo infinito y lo continuo, en contra de nuestra intuicin, tienen un importante papel simplificador.
La mayor parte del aparato matemtico desarrollado hasta la actualidad es de carcter continuo, la
matemtica discreta o finita se encuentra menos desarrollada y por tanto su aplicacin para resolver
problemas reales (finitos) es limitada.
Por este motivo, nos interesar que las poblaciones sean infinitas y a ser posible continuas o apro
ximables por stas.
156
5. Muestras y estimadores
5.1.2. Muestras
En el caso de que las poblaciones que estudiamos sean finitas -supuesto ms ha
bitual en la prctica- podra parecer en un principio que la investigacin exhaustiva
conlleva mayor fiabilidad que los estudios muestrales. Sin embargo, ello no es nece
sariamente cierto, puesto que la disminucin del nmero de unidades investigadas
permite aumentar el detalle con que stas se analizan y en consecuencia la calidad de
los resultados.
Esta ventaja, junto con el ahorro en tiempo y costes, justifica el inters que tienen
en estadstica las investigaciones muestrales.
As, si deseamos llevar a cabo un anlisis sobre la penetracin de cierto producto en
el mercado nos encontraremos con que un estudio exhaustivo de todos los puntos de
venta muy probablemente desbordara las posibilidades de cualquier empresa, debido
al personal necesario, los desplazamientos del mismo, las consiguientes necesidades en
cuanto a tiempo y costes ...
Estos mismos argumentos serviran para justificar la necesidad de tomar muestras en
una amplia variedad de situaciones, en las que resultar recomendable limitar nuestro
anlisis a algunas unidades de la poblacin investigada. De hecho, este tipo de estudio
ser inevitable cuando el anlisis realizado afecte a las unidades investigadas, como
en el caso de los procesos destructivos.
Los procesos destructivos de investigacin justifican plenamente las tcnicas muestrales, ya que
en este tipo de estudios un anlisis exhaustivo conllevara el deterioro o destruccin de la poblacin
investigada. Ejemplos claros son las pruebas de control alimentario que incluyen degustacin de pro
ductos, las experiencias cientficas con elevado riesgo, las pruebas blicas, etc.
Algunos ejemplos extremos de poblaciones homogneas se tienen en las pruebas clnicas (anlisis
de sangre, por ejemplo) o bien de cocina (temperatura o sabor de una sopa, ...), situaciones en las
que una mnima parte de la poblacin resulta suficientemente informativa del total.
Una vez analizadas sus ventajas, conviene sealar tambin algunos inconvenien
tes del muestreo. Entre ellos, el ms inmediato es la posible introduccin de errores
asociados a la propia seleccin de la muestra, que no siempre es posible evitar.
Adems, los estudios muestrales requieren una mayor cualificacin personal, ya que
aumenta considerablemente la complejidad del aparato estadstico necesario tanto
157
5. Muestras y estimadores
158
5. Muestras y estimadores
Si por el contrario seleccionsemos algunos hogares a partir del callejero o de la gua telefnica el
resultado sera una muestra, ya que es previsible que en ese subconjunto de la poblacin estuviesen
incluidos muy distintos tipos de hogares. Esta heterogeneidad, equivalente a la que se observa en
la poblacin, es el rasgo caracterstico de las muestras: as, un colegio podra ser considerado como
una muestra de la poblacin infantil, un hospital como una muestra de una poblacin de enfermos o
un establecimiento como una muestra de una poblacin de trabajadores. No obstante, las muestras
utilizadas en la investigacin estadstica suelen ser resultado de procesos de seleccin ms complejos.
A modo de ejemplo, supongamos que deseamos realizar un estudio sobre la cuota de mercado de
un producto y, una vez descartado por las razones anteriormente expuestas un estudio exhaustivo,
debemos concretar el mbito de la encuesta.
Una primera posibilidad sera realizar la encuesta slo en una parte de la poblacin (digamos una
capital como Madrid). Sin embargo este mtodo parece poco recomendable dado que cada ciudad
presenta unos rasgos especficos (volumen de poblacin, tipo de actividad a la que se dedican, dota
ciones de servicios, ...) que la hacen distinta por ejemplo de las zonas rurales. Dichas caractersticas
configuran a las ciudades como subpoblaciones, mientras que nuestro objetivo sera la extraccin de
muestras.
Resultara interesante por tanto llegar a disponer de un ncleo representativo de la poblacin,
algo similar a una "micropoblacin robot" cuyos rasgos seran los siguientes: un volumen moderado
de habitantes, distribuidos segn una pirmide poblacional similar a la de la poblacin global, una
estructura productiva equivalente a la global (en cuanto a proporcin de poblacin dedicada a cada
sector productivo), la misma renta percpita e igualmente distribuida, una reproduccin a escala de
las ideologas, religiones, razas, etc.
Esta idea de micropoblacin robot -que sera una fuente perfecta de informacin sobre la pobla
cin total- resulta sin embargo demasiado ambiciosa, por lo cual en la prctica debemos contentarnos
con muestras que presentan -consideradas globalmente- caractersticas similares a las del colectivo de
inters. En definitiva, dado que nuestro estudio tendr por objetivo una o varias caractersticas de
la poblacin, trataremos de que la aproximacin que proporciona la muestra sea adecuada, es decir,
que no se produzcan demasiadas discrepancias entre muestra y poblacin.
En un abuso del lenguaje utilizamos aqu el trmino "aleatorio" como sinnimo de "probabilsti
co". En realidad, "aleatorio" se aplica habitualmente a todo suceso que depende del azar y por tanto
no puede ser conocido de antemano, mientras los trminos "estocstico" o "probabilstico" indican
que es posible asignar probabilidades de realizacin a los sucesos, esto es, cuantificar su incertidumbre.
159
5. Muestras y estimadores
Supongamos una poblacin X y seleccionemos a partir de ella una muestra de tamao unitario,
que denotamos por X1. Antes de realizar la seleccin, el valor que puede aparecer es uno cualquiera
de la poblacin y la probabilidad de que salga un valor determinado ser la que dicho valor tenga en
la poblacin. Por tanto la distribucin de X1 ser idntica a la de X, de modo que, denotando por
F la distribucin de X y por FX1 la de X1 se tiene:
FX1(x) = F(x)
Hablamos de muestra genrica cuando sta an no se ha concretado en una realizacin, sino que
se trata de una muestra potencial. En el caso anterior se trata de una muestra de tamao uno
que podemos identificar con la variable muestral X1 y de la misma forma a FX1 la denominaremos
distribucin de la muestra.
Supongamos ahora que se toma una muestra de tamao dos. En la primera seleccin puede obtener
se un valor aleatorio, X1 y en la segunda extraccin de nuevo se puede obtener un valor aleatorio X2;
por tanto la muestra puede identificarse con una v.a. bidimensional (X1,X2). Utilizando la frmula
de la probabilidad condicionada, la funcin de distribucin de la muestra en este caso ser:
FX1,X2(x1,x2)= FX1(x1)FX2/X1=x1(x2)
Ya hemos visto que la primera componente tiene la misma distribucin que X. Adems, dado que
consideramos que las dos extracciones son independientes, al devolver la unidad a la poblacin para
la segunda seleccin, la composicin poblacional vuelve a ser la original y por tanto la distribucin
de X2 tambin coincide con la de X, obtenindose:
160
5. Muestras y estimadores
Si consideramos una muestra aleatoria simple de tamao n, sta puede ser identifi
cada con una v.a. n-dimensional (X1,X2,...,Xn) cuyas componentes, bajo los supues
tos asumidos, son independientes e idnticamente distribuidas. As pues, la funcin de
distribucin de la muestra viene dada por:
n
FX1,X2,...,Xn(x1,x2,...,xn) = F(x1)F(x2 ) F(xn) = F(xi)
i=1
La comprobacin de esta expresin es una extensin de las desarrolladas en los prrafos preceden-
tes. [Qu expresiones adoptara la f.d. si se alterara alguna de las hiptesis anteriores?].
Consideremos ahora una muestra particular (x1,x2 ,...,xn), algunos de cuyos valores aparecern
repetidos y representemos en una tabla de frecuencias cada valor muestral xi con su correspondiente
frecuencia relativa f(xi ). La aplicacin que a cada valor observado le asigna su frecuencia relativa
acumulada se denomina distribucin de frecuencias de la muestra F(x ).
i
Es de suma importancia diferenciar entre los conceptos de muestra genrica y muestra concreta,
y tambin entre la distribucin probabilstica de la muestra y su distribucin de frecuencias. En los
primeros casos existen las componentes de potencialidad o incertidumbre caractersticas de las varia
bles aleatorias, mientras que en los segundos se trata de problemas descriptivos. Las diferencias son
equivalentes a las que existen entre probabilidad y frecuencia o entre las caractersticas esperanza y
media aritmtica.
Para aclarar los conceptos anteriores, consideremos un ejemplo sencillo consistente en extraer bolas
de la urna en la que hay un total de diez bolas, de las que seis son de color blanco y las cuatro restantes
son negras.
El resultado de la extraccin de una bola de la urna puede ser identificado con una v.a. X dico
tmica (1 para el suceso Blanco y 0 para Negro, por ejemplo) que vendr caracterizada por la
probabilidad p = 0,6.
Si de esta urna se realizan dos extracciones sucesivas con reposicin, se obtiene una muestra
aleatoria simple que describimos mediante la variable aleatoria (X1 ,X2), cuya distribucin de proba
bilidad puede ser obtenida fcilmente, teniendo en cuenta las condiciones de independencia e idntica
distribucin:
161
5. Muestras y estimadores
Observaciones
(x1,x2) p(x1,x2)
muestrales
(B,B) (1,1) 0,36
(B,N) (1,0) 0,24
(N,B) (0,1) 0,24
(N,N) (0,0) 0,16
Puede comprobarse que la funcin p(x1,x2) es una verdadera funcin de probabilidad, por cumplir
los requisitos de no negatividad y suma unitaria.
[Definir la variable aleatoria asociada a la extraccin de tres bolas de la urna]
El estudio de la cuantificacin de los errores est mucho ms desarrollado en las ciencias naturales
que en las ciencias sociales. Para constatar esta afirmacin, basta recordar que en sus orgenes la dis
tribucin normal aparece asociada a los errores de medicin en astronoma, investigaciones realizadas
por Gauss a finales del siglo XVIII y principios del XIX.
Sin embargo, en las ciencias sociales los problemas de la medicin se encuentran menos desarrolla
dos debido a la mayor dificultad que entraa en ellas la cuantificacin. Ello no debe llevarnos a pensar
que los errores en las ciencias sociales sean de menor cuanta, pues como recoge O. Morgenstern , en
un amplio estudio sobre la exactitud de los datos econmicos, en el mbito de las ciencias sociales
estn presentes, al menos, todas las causas de error de las ciencias naturales.
En muchas ocasiones la necesidad de facilitar datos de carcter econmico inspira cierto recelo en
los agentes (sobre todo por las implicaciones de tipo jurdico o fiscal), lo que puede conducir a un
falseamiento deliberado de la informacin. As la falta de exactitud que pueden presentar los datos
econmicos facilitados por las empresas y los consumidores aconsejan una confrontacin entre datos
obtenidos por distintas vas de captacin.
Otro tipo de dificultades son las relacionadas con la utilizacin de distintas fuentes, ya que con
frecuencia existen discrepancias entre la informacin facilitada por varios organismos. La existencia
de una pluralidad de observadores de una misma realidad introduce por s misma elementos de error
en la informacin cuantitativa porque los observadores pueden tener objetivos diferenciados (pinsese,
por ejemplo, en las discrepancias sobre el paro estimado en la Encuesta de Poblacin Activa (EPA)
del INE y el paro registrado por los Servicios Pblicos de Empleo).
Del mismo modo, pueden aparecer problemas de homogeneidad por parte de las unidades de ob
servacin, debido a la utilizacin de definiciones diferentes, a cambios en los criterios de clasificacin,
a desfases temporales en las magnitudes consideradas, etc.
162
5. Muestras y estimadores
163
5. Muestras y estimadores
cuestionario, influencias del agente encuestador, ... que estudiaremos con detalle en
un captulo posterior y que habitualmente introducen sesgos en las conclusiones de
nuestros estudios.
Decimos que un diseo (o la estimacin derivada del mismo) es sesgado cuando las desviaciones o
errores que origina tienen carcter sistemtico. El sesgo puede ser debido a diversos factores, como
el diseo de la encuesta, los instrumentos de medida o las respuestas y sus consecuencias son habi
tualmente subestimaciones o sobreestimaciones de las caractersticas investigadas.
A modo de ilustracin, pensemos en una balanza que en su posicin normal se encuentra inclinada,
de modo que pesa siempre algunos gramos de ms.
Esto significara que el instrumento de peso que estamos utilizando es sesgado. Sin embargo, puede
ser muy preciso en el sentido de detectar cualquier diferencia de peso por reducida que sta sea. El
instrumento de medida en este caso ser preciso y poco acurado, pues el peso de cualquier objeto se
encuentra desviado respecto a su verdadero valor.
164
5. Muestras y estimadores
DISEO DE ENCUESTAS
Fase preliminar: objetivos del estudio
Seleccin muestral
Transmisin de la informacin
Contexto del estudio
Trabajo de campo
Tratamiento de la informacin
Tabulacin y sntesis
Tcnicas inferenciales
Evaluacin de resultados
Dentro del diseo de encuestas incluimos desde las etapas previas al estudio (defi
nicin de objetivos y determinacin de la poblacin y sus unidades) hasta el trabajo
de campo y los anlisis posteriores (publicacin y evaluacin de resultados), siendo
especialmente interesante desde la ptica estadstica la etapa de seleccin muestral.
Todas estas etapas sern analizadas con detalle en un captulo posterior, dedicado
al muestreo en poblaciones finitas, por lo cual nos limitaremos aqu a describir cmo
se seleccionan en la prctica muestras aleatorias o probabilsticas.
El trmino aleatorio, que consideramos sinnimo de probabilstico, suele ser utilizado de forma
abusiva en el lenguaje coloquial, para indicar que una seleccin no est expresamente dirigida. As
por ejemplo, frases como "un encuestador de televisin ha salido a la calle preguntando la opinin de
personas seleccionadas aleatoriamente" no seran estrictamente correctas. En efecto, el hecho de que
el encuestador intente que su opinin subjetiva no afecte a la seleccin no basta para calificar a una
muestra de aleatoria ya que, aunque los resultados muestrales son imprevisibles (interviene el azar),
no es posible asignarles probabilidades.
As pues, solamente denominaremos aleatorios (o estocsticos o probabilsticos) a aquellos procesos
en los que podemos determinar la probabilidad de seleccin para cada muestra concreta.
Consideremos el total de hogares sobre los que deseamos analizar las pautas de
lectura o bien el total de puntos de venta del peridico, para los cuales disponemos de
un listado correctamente numerado. Una vez decididos a extraer una muestra aleatoria
o probabilstica qu mecanismo podemos emplear para introducir azar en la seleccin?
Los ejemplos ms conocidos son los sorteos: extraccin al azar de bolas numeradas
de una urna o un bombo de lotera, de tal forma que los elementos de la poblacin
cuyos nmeros se correspondan con los extrados pasan a integrar la muestra. Este
165
5. Muestras y estimadores
mecanismo, muy popular gracias a los sorteos de lotera nacional, resulta sin embargo
impracticable para tamaos muestrales elevados debido al coste material y de tiempo
que conlleva.
Como consecuencia de estas limitaciones, el mtodo general consiste en acudir a
tablas de nmeros aleatorios generadas por distintos procedimientos fsicos y matem
ticos.
Estas tablas recogen los resultados de un proceso que genera dgitos decimales alea
torios, asociados a variables aleatorias independientes con valores 0, 1, ..., 9, que
cumplen las siguientes propiedades:
Como consecuencia de su carcter aleatorio, los dgitos de las tablas no presentarn ningn orden
concreto. Para ilustrar esta idea, E.U. Condon, director del Bureau of Standards afirmaba que la
obtencin de una secuencia lgica al seleccionar nmeros aleatorios resulta tan probable como que
los saltos de un mono sobre una mquina de escribir reproduzcan un prrafo de Shakespeare.2
Por lo que se refiere a la utilizacin de estas tablas, las nicas dudas podran ir
referidas a cuntos dgitos seleccionar y en qu orden.
El punto de arranque es arbitrario dado el propio carcter aleatorio de las tablas.
Una vez situados en ciertas coordenadas, efectuaremos selecciones sucesivas de nme
ros avanzando por filas o por columnas.
Es importante adems tener presente que cualquier elemento de la poblacin debe
ser candidato a formar parte de la muestra. Para garantizar esta potencialidad, el
nmero de columnas seleccionadas en la tabla debe coincidir con el nmero de dgitos
del tamao poblacional N.
Una de las primeras tablas de nmeros aleatorios fue elaborada en 1927 por L.H.C. Tippett, quien
construy una tabla de 41.600 dgitos a partir de datos del censo britnico sobre las reas parroquiales,
eliminando en cada caso los dgitos primero y ltimo.
En 1943 Fisher y Yates publicaron una tabla con 15.000 nmeros, correspondientes a los dgitos
que ocupaban el orden 15 y 19 en tablas logartmicas de 20 dgitos.
El antecedente de las actuales rutinas generadoras de nmeros aleatorios fue un mtodo puesto en
marcha en 1939 por Kendall y Babington-Smith, quienes generaron una tabla de 100.000 nmeros
con ayuda de una mquina electrnica que simulaba lanzamientos de un cuerpo geomtrico de 10
caras, numeradas del 0 al 9. En la actualidad, la generacin y contraste de nmeros aleatorios sigue
siendo un campo de investigacin.
2Esta ancdota aparece recogida en Youden, W.J. (1957): Random Numbers arent Nonsense
Industrial and Engineering Chemistry, 49, n. 10, 89 A
166
5. Muestras y estimadores
167
5. Muestras y estimadores
general.
Nuestro esquema de actuacin, que aparece recogido en la figura 5.2, exige la pre
sencia de instrumentos de sntesis denominados estadsticos que, por ser funciones de
la muestra aleatoria, sern tambin aleatorios.
En efecto, consideremos una m.a.s. (X1,...,Xn) extrada de una poblacin X. Se
trata de n v.a. independientes e idnticamente distribuidas (i.i.d.) y una vez que dicha
muestra aleatoria se concrete en determinada observacin muestral, podemos llevar
a cabo una sntesis de su informacin mediante medidas descriptivas aplicadas a los
valores obtenidos. Adems, antes de que la muestra concreta haya sido seleccionada
es posible tambin establecer expresiones matemticas que son funcin de la muestra
aleatoria y por tanto variables aleatorias. Dichas expresiones genricas, que represen
taremos por T = T(X1,...,Xn) se denominan estadsticos.
Definicin 5.3. Sea (X1,...,Xn) una muestra aleatoria de tamao n de una variable
X. Llamamos estadstico T = T(X1,...,Xn) a cualquier funcin medible definida
sobre las variables muestrales; esto es, una funcin observable del vector aleatorio.
168
5. Muestras y estimadores
n Xi n
i=1 n
i=1
Var(T) = Var ( )= Var(Xi) = 2 = n2
i=1
en cuya expresin aparece la distribucin de la suma, que en el captulo 4 ha sido analizada para
distintos supuestos.
Para tamaos elevados de muestra, el teorema central del lmite garantiza -con independencia
de la distribucin de partida- la convergencia de la distribucin de la suma a un modelo normal.
El estadstico es una funcin que puede tomar valores en una o ms dimensiones, por lo que puede
tratarse de una v.a. unidimensional o k-dimensional. Nos interesarn fundamentalmente los estads
ticos de resumen, que a cada vector aleatorio (X1 ,...,Xn) asocian un valor real T(X1 ,...,Xn).
169
5. Muestras y estimadores
Esta expresin ha sido obtenida en el primer epgrafe de este tema cuando la distribucin no de
penda de ningn parmetro. En este caso el razonamiento sera anlogo.
170
5. Muestras y estimadores
De este modo, si consideramos un valor fijo -aunque desconocido- del parmetro, que
designamos por , la expresin L(x1 ,...,xn,) representa la probabilidad de la
muestra aleatoria (x1 ,...,xn).
De modo alternativo, si disponemos de una realizacin muestral concreta (x1,...,x
n),
la expresin L(x1,...,xn ,) depender nicamente del parmetro , respondiendo as
a su denominacin como funcin de verosimilitud (evala la verosimilitud o credibili
dad de una observacin muestral concreta en funcin del parmetro ).
A modo de ilustracin, consideremos dos ejemplos con los que trabajaremos a lo largo de este tema.
El primero de ellos se corresponde con una variable aleatoria discreta X que recoge si un individuo
activo se encuentra o no en paro, y por tanto sigue un modelo de Bernoulli de parmetro p, cuya
distribucin de probabilidad viene dada por la expresin:
pxi(1 p)1xi , xi = 0,1
p(xi ,p) =
La funcin de verosimilitud genrica es L(x1 ,...,xn,) con , expresin que para valores
concretos del parmetro proporciona resultados L(x1,...,xn,) [0,1], que evalan el nivel de
credibilidad o verosimilitud de nuestra realizacin muestral para cada valor potencial de .
Por tanto, si para dos posibles valores del parmetro 1 y 2 se tiene L(x1 ,...,xn ,1) < L(x1,...,xn ,2)
parece razonable afirmar que la probabilidad de haber obtenido la muestra (x1,...,xn) sera mayor
con el valor 2 que con 1. Esta interpretacin de la funcin de verosimilitud ha inspirado un mtodo
de obtencin de estimadores que analizaremos en un apartado posterior.
En nuestro ejemplo de la tasa de paro, imaginemos que sobre una muestra de 20 activos hemos
observado 5 parados. Si asumimos para mayor claridad que el parmetro p (tasa de paro) pertenece
a un espacio paramtrico con slo dos valores = {0,1; 0,3}, entonces se tiene:
L(x1,...,xn,p=0,1) = 0,150,915
171
5. Muestras y estimadores
L(x1,...,xn,p=0,3) = 0,350,715
verificndose L(x1 ,...,xn,p = 0,1) < L(x1 ,...,xn,p = 0,3), con lo cual concluiramos que p = 0,3
es el valor de la tasa de paro que hace ms verosmil la muestra seleccionada.
Definicin 5.6. Se denomina error aleatorio asociado a T que se genera como dife
rencia entre el estimador y el parmetro desconocido:
eT=T
En el caso de que el origen de estos errores sea nicamente aleatorio, sin que se
presente ninguna componente de tipo sistemtico, se puede asumir fcilmente que
stos llegarn a compensarse, dando lugar a un error esperado nulo, E(eT )=0 .
El requisito de ausencia de sesgo exige que no haya intencionalidad en los errores,
esto es, que las desviaciones tengan carcter aleatorio y por tanto exista neutralidad
en el proceso de estimacin. Cuando una expresin T satisface esta condicin de
neutralidad recibe la denominacin de estimador insesgado o centrado.
172
5. Muestras y estimadores
T1= X1+X2+X3+X4
4;T2= 2X1+X4
4 ;T3 X1+X2+2X3+X4+50
5
Se comprueba fcilmente que slo el primero de los estimadores propuestos es cen
trado o insesgado para estimar por ser el nico que conduce a un error esperado nulo
o, equivalentemente, el nico que presenta esperanza coincidente con el parmetro :
173
5. Muestras y estimadores
BT ()
BTR () =
A modo de ilustracin, para el estimador T2 se tena un sesgo BT2()=0,25 que
expresado en trminos relativos proporciona el valor BRT2 () = 0,25. Este resultado
permite afirmar que T2 subestima el parmetro en un 25 % de su valor.
E(aT+b)=aE(T)+b=a+b
174
5. Muestras y estimadores
5.4.2. Eficiencia
El criterio de ausencia de sesgo exige que el valor esperado de los errores sea nulo;
sin embargo, este requisito no ofrece garantas respecto al riesgo de obtener estima
ciones muy alejadas del parmetro.
En efecto, si examinamos de nuevo los grficos de la figura 5.4 vemos que pueden existir estimadores
insesgados cuyo uso no resulta aconsejable. Esta sera la situacin del estimador Ta, ya que su
esperanza (resumen de los lanzamientos) coincide con el parmetro (centro de la diana) pero sin
embargo puede conducir a estimaciones muy distantes del valor central (alta dispersin).
Por el contrario el estimador Tb presenta un sesgo pero, frente a este rasgo negativo, el estimador
tiene a su favor la baja dispersin (los dardos se encuentran concentrados en un radio pequeo, lo
que equivaldra a estimaciones muy prximas entre s).
175
5. Muestras y estimadores
En efecto, a partir de la expresin de la varianza del error Var(eT) = E (e2T ) E2(eT), se obtiene:
176
5. Muestras y estimadores
que permiten concluir que, de las tres expresiones consideradas como estimadores del gasto men-
sual esperado, T1 resulta ser la ms eficiente.
177
5. Muestras y estimadores
(1+~)Q
Var(T) Z ~
I,,(x,9) I E (~)2
Entre los rasgos de esta medida de informacin destacan los siguientes:
PFOPOSCII 5.3. La cantidad de informacin de Fisher puede ser tambin expresada de forma
ms operativa como.
Proposicin.
ln(X,0) E
a2 iiiL(x,0)
178
5. Muestras y estimadores
Por lo tanto:
(%+)2
o lo que es lo mismo:
f(~)2L(x,9)dx:f(~)
9 892 L(x,9)dx
l:|
PFOPOSCII 5.4. La cantidad de informacin es una medida aditiva en el sentido de que la
informacin de Fisher contenida en una m.a.s. de tamao n coincide con la suma de la informacin
contenida en n muestras de tamao unitario:
4 TLE(%lI1f(I,9))2 4 TLT1(I,)
Desde un punto de vista intuitivo, parece claro que la cantidad de informacin sobre 9 aportada
por el primer elemento de la muestra 11 (x1 , 9) supera la cantidad de informacin incorporada por el
179
5. Muestras y estimadores
elemento n-simo I1(xn,), ya que en el primer caso se parte de una situacin de desconocimiento
mientras que la informacin asociada al elemento n-simo I1(xn,) se incorpora a partir de un nivel
determinado de informacin In1(x1,...,nn1 ,).
Debemos tener presente que dicha acotacin slo se cumple bajo ciertas condiciones de regularidad.
En concreto, en nuestro ejemplo asumimos un modelo N(,1) por lo cual el recorrido de la variable
es (,+) que no depende del parmetro, y el espacio paramtrico no se reduce a un punto por
incluir todos los posibles valores de .
La funcin de verosimilitud, obtenida anteriormente, viene dada por la expresin:
1 ni=1(xi)2
L(x,) = n2 e12
(2)
2 lnL(x,)
2 = n
2lnL(x,)2 ]
In(x,) = E [ = E(n) = n
es decir, la cantidad de informacin sobre contenida por una muestra coincide con su tamao n.
Teniendo en cuenta que se cumplen las condiciones de regularidad, la acotacin de Frechet-Cramer
Rao permite afirmar:
1+ )2
BT()
Var(T) > (
n
A partir de esta expresin es sencillo comprobar que la media muestral es un estimador eficiente,
ya que su varianza sera:
Var(X) = 2n = 1
n
y la cota de F-C-R, cuyo numerador es unitario por ser el estimador insesgado, adopta el mismo
valor:
(
1+BX() )2
1
=
n n
180
5. Muestras y estimadores
5.4.4. Suficiencia
Un estudio muestral no podr ser calificado de adecuado si desperdicia o ignora
parte de la informacin disponible. De ah el concepto de suficiencia, entendido como
capacidad de un estadstico para conservar toda la informacin que contiene una
muestra.
Un estadstico suficiente deber resultar igualmente til -en cuanto al objetivo per
seguido en cada caso- que la muestra inicial. Como recoge el esquema siguiente, la idea
de suficiencia exige que toda la informacin de la muestra sea recogida o "atrapada"
por T y en consecuencia, la distribucin de la muestra una vez conocido T ya no
depender del parmetro .
' $
Muestra
(X1,...,Xn) Suficiente?
Sntesis Informacin
sobre la poblacin
Estimador
T(X1,...,Xn)
& %
Como ilustra el esquema anterior, la utilizacin de estimadores supone en cierto
sentido la aplicacin de un filtro a nuestra informacin muestral. Desde un punto de
vista conceptual, la propiedad de suficiencia resulta muy intuitiva, ya que se traducir
en que dicho filtro sea capaz de "asimilar" toda la informacin muestral disponible.
No obstante, desde un punto de vista "tcnico" la comprobacin de la suficiencia no
resulta sencilla.
El concepto de estadstico suficiente fue introducido por Fisher en 1922. Segn dicho autor, un
estadstico es suficiente para los objetivos de la inferencia estadstica si contiene, en cierto sentido,
toda la informacin acerca de la funcin de distribucin a partir de la cual se ha generado la muestra.
51 5 Xi;
T1 = T2= 1
5(2X1+X2+X5)
i=1
5 2
Estimadores
V.A. T1 T2
35
15 15
25
(0,1,0,0,0)
(0,1,1,1,0)
(1,0,0,0,0)
4 3
Como se aprecia en el cuadro anterior, los estimadores presentan comportamientos distintos frente
al requisito de suficiencia. Para estudiar este comportamiento, consideremos las tres muestras alea
torias representadas, que reflejan situaciones claramente distintas: en la primera y la tercera hay slo
un individuo parado, mientras que en la segunda el nmero de parados se eleva a 3.
181
5. Muestras y estimadores
Cmo recogen esta informacin muestral los dos estimadores propuestos para p? Puede verse que
T1 es capaz de diferenciar las situaciones muestrales registradas pero no sucede lo mismo con T2,
estimador para el que se aprecian dos tipos de contradicciones:
Por una parte, T2 adopta el mismo valor ( 15 ) para dos situaciones muestrales distintas (la primera
muestra con un slo individuo en paro y la segunda con 3 parados).
Adems, se observa que T2 adopta valores distintos para dos situaciones muestrales que resultan
indiferentes. En efecto, la tercera situacin se obtiene como permutacin de la primera, registrando
ambas un slo individuo parado; sin embargo los valores de T2 asociados a dichas muestras son 15 y
2
5 respectivamente.
donde h es una funcin no negativa que slo depende de la muestra (x1 ,...,xn) y g
es una funcin no negativa que slo depende de y del valor del estadstico t.
En este enunciado del teorema de factorizacin se asume que se cumplen las condi
ciones de regularidad exigidas por la acotacin de Frechet-Cramer-Rao. En otro caso
sera necesario que g(t, ) coincidiera con la funcin de densidad del estimador consi
derado.
182
5. Muestras y estimadores
f(x,)= 1 2 1
e n )
1n 2
183
5. Muestras y estimadores
(X1,...,Xn) {Tn}
..
. +
(X1,...,...,Xn)
lm P(|Tn|
n <)=1
8 n
7
[ ]
2 lnf(x,)
I(x, ) = E =n
2
[Comprubese].
5.4.5. Consistencia
Las propiedades que hemos examinado hasta ahora asumen como dado el tamao
muestral. Sin embargo, parece razonable que cuando la muestra aumente de tamao se
disponga de ms informacin y tengamos una seguridad mayor de que las estimaciones
se concentran en torno al verdadero valor del parmetro. Este requisito, denominado
consistencia, se incluye tambin entre las propiedades exigidas a los estimadores.
El requisito de consistencia viene ilustrado en el esquema 5.1, donde los aumentos
en el tamao de la muestra se corresponden con estimadores que, cada vez con mayor
probabilidad, adoptarn valores en determinado entorno de .
Definicin 5.13. Si partimos de una muestra cuyo tamao podemos aumentar inde
finidamente (n ) y consideramos la sucesin de estimadores Tn de (cada uno
de ellos asociado a un tamao de muestra), se dice que esta sucesin es consisten
te si converge en probabilidad al valor del parmetro. Es decir, la sucesin estima
consistentemente a si:
184
5. Muestras y estimadores
Este enunciado puede ser tambin interpretado en trminos del error ya que, a me
dida que el tamao muestral aumenta, los errores eTn = Tn convergen a 0.
Si consideramos el ejemplo de los gastos mensuales con el que venimos trabajando, para comprobar
, por tanto (X)
el requisito de consistencia bastara con tener en cuenta que X N ( 1 ), y n
n
N(0, 1), con lo cual se obtiene:
y bastara con tomar valores suficientemente elevados de n para que la probabilidad anterior se apro
xime a 1 (y en consecuencia su complementaria a 0) tanto como queramos.
La aplicacin general del criterio de consistencia al estimador media muestral puede ser efectuada
gracias a la ley dbil de los grandes nmeros, cuyo postulado es:
lm P (|X| > ) =0
, n
Una formulacin alternativa del criterio de consistencia, viene dada en los siguientes trminos:
dada una sucesin de estimadores Tn del parmetro , se dice que Tn es consistente para si se
cumple:
se presupone que todos sus miembros gozan de las mismas propiedades, hablando as de estimadores
consistentes.
Este mtodo es altamente intuitivo, pero sin embargo resulta poco riguroso ya que
no disponemos de herramientas para comprobar de modo general si los estimadores
analgicos cumplen o no las propiedades consideradas deseables.
185
5. Muestras y estimadores
Consideremos una nueva ilustracin basada en nuestro ejemplo de la tasa de paro: disponemos de
una muestra aleatoria de 5 trabajadores procedentes de una delegacin cuyo origen desconocemos.
Para mayor comodidad asumiremos que existen slo las tres posibilidades siguientes:
Si la muestra fuese la recogida en el esquema de la figura 5.2 cul sera el origen ms verosmil de
los trabajadores? o, dicho de otro modo, cul sera la estimacin mximo-verosmil de la tasa de paro
p? Para responder a esta pregunta utilizaremos la informacin disponible, obteniendo la verosimilitud
de la muestra de trabajadores para cada valor posible de p:
A partir de estos resultados podemos calificar de ms verosmil el primer supuesto (Europa, con tasa
de paro del 12%), ya que la muestra efectivamente extrada, con dos trabajadores en paro, resulta
ms verosmil o creible en ese caso.
Es fcil observar que en el mtodo de mxima verosimilitud la muestra desempea un papel cen
tral. En definitiva, el ejemplo anterior se limita a considerar que, si la muestra es representativa de
la poblacin, la muestra mantendr la misma estructura de la poblacin y por tanto resultar ms
probable bajo la composicin correcta que bajo otra cualquiera.
186
5. Muestras y estimadores
sup L(x1,...,xn,)
ya que dicha transformacin (por ser el logaritmo una funcin montona) linealiza las
expresiones a maximizar, sin que ello afecte a sus puntos extremos.
lnL(x1...,xn,)
=0
2 lnL(x1 ,...,xn ,)
0
2 <
187
5. Muestras y estimadores
Bajo condiciones generales, los estimadores mximo verosmiles son consistentes y adems su
distribucin converge a una normal de esperanza y varianza In
1 .
n n
)
lnL(x,p) = i=1 xi lnp+ (n xi ln(1 p)
i=1
Obsrvese que el proceso seguido parte de una realizacin muestral concreta (x1 ,...,xn), por
lo cual proporciona una estimacin mximo verosmil (que ser la solucin de la ecuacin a la que
conduce la condicin de extremo). El estimador mximo verosmil vendr dado por la correspondiente
expresin aleatoria, funcin de la muestra genrica (X1 ,...,Xn), que en el ejemplo anterior sera:
ni=1 Xi
EMV(p) =
n
De modo anlogo, para deducir el EMV de en el ejemplo de los gastos mensuales, deberamos
partir de la funcin de verosimilitud dada por la expresin:
(2)
2 e12 ni=1(xi)2
L(x,) = n2
188
5. Muestras y estimadores
lnL(x,)
=0 n ni=1 xi
(xi)=0= x
n=
i=1
con lo cual el correspondiente estimador mximo verosmil vendra dado por la expresin:
ni=1Xin
EMV() = = X
189
5. Muestras y estimadores
1 = h1(m1,...,mk)
2 = h2(m1,...,mk)
..
.
k = hk(m1,...,mk)
La aplicacin de este mtodo resulta operativa en el caso de que E(Xi ) sea una
funcin lineal de los parmetros que deseamos estimar, pero sin embargo no pro
porciona estimadores para parmetros que no figuren en los valores esperados de las
observaciones.
La obtencin de estimadores mnimo cuadrticos (EMC) resulta habitual en los
procesos de regresin, cuando una variable aleatoria Y presenta un valor esperado que
es funcin lineal de una o varias caractersticas X:
E(Y) = 1 +2X2++kXk
190
5. Muestras y estimadores
tros). Una ventaja de este mtodo es que los estimadores a los que conduce satisfacen
el requisito de consistencia.
Por lo que respecta a las caractersticas de esta variable aleatoria, se obtiene fcil
mente:
191
5. Muestras y estimadores
) 2n ; = n
E (X =;Var (X) = 2X = X
Las expresiones anteriores han sido obtenidas para el supuesto de muestreo aleato
rio simple en poblaciones infinitas o bien con reposicin en el caso finito, que hemos
adoptado como situacin de referencia. Sin embargo, como ya hemos comentado, en
la prctica resultan habituales otras tcnicas de seleccin cuyas caractersticas sern
analizadas con detalle en un captulo especfico dedicado al muestreo en poblaciones
finitas.
Como ya hemos visto, las condiciones de independencia no son necesarias para calcular
192
5. Muestras y estimadores
mtodo de muestreo
con reposicin sin reposicin
Esperanza
Varianza E (X)
Var (X) = E (X) =
= 2n Var (X) = Nn 2
N1 n
Error estndar X = n X = Nn
N1 n
el valor esperado de una suma, por lo cual se sigue cumpliendo en este caso E (X) = . Sin
embargo, se producirn cambios en las medidas de dispersin (varianza y error estndar),
dado que el riesgo disminuye en el muestreo sin reposicin, como consecuencia de la garanta
de no poder observar ms de una vez un mismo elemento.
La expresin de la varianza sera ahora:
N n 1 2
Var (X) =
n
denominndose factor de correccin a la expresin NnN1 que adoptar valores inferiores a la
unidad siempre que n > 1.
n (Xi ] (ni=1 )
X) = E (n X2 1n (
E(S2n ) = E [ i=1 i=1 i X2)
= E Xi2 E X2) =
n 2 n
) ) (
= E (X2i E (X2 = Var(Xi) + E2(Xi) Var X) E2(X) =
= 2+22n2=n 1
2
n
igualdad en la que hemos aplicado la definicin de varianza para las variables Xi y
para la media muestral.
193
5. Muestras y estimadores
=2
BS2n (2)
n
[Comprubese]
( ) S2
S2X = V
ar X = ;SX = S
n n
194
5. Muestras y estimadores
X
p =
n
donde X es la v.a. que recoge el nmero de elementos de la muestra que presentan la
caracterstica analizada.
As pues, se tiene ahora un caso particular de m.a.s. (X1,...,Xn) donde las variables
Xi son dicotmicas o Bernoulli:
Xi
= 1 si se presenta laencaracterstica
otro caso investigada P(Xi = 1) = p p
Xi = 0 P(Xi =0)=1
siendo por tanto el numerador de la proporcin muestral X = ni=1 Xi una v.a.
distribuida segn un modelo binomial B(n, p).
Como consecuencia, se obtienen las siguientes caractersticas para la proporcin
muestral:E(p)= E ( np = p
Xn )
= 1nE(X) =
( ) n
Var (p) = Var Xn n2Var(X)
1 = np(1p)n2 = p(1p)
=
n
El estimador proporcin muestral podra ser analizado como un caso particular
de la media muestral para variables dicotmicas. No obstante, presenta como rasgo
diferencial la presencia del parmetro p tanto en la esperanza como en la varianza del
estimador, por lo cual resulta conveniente trabajar con estimaciones de la varianza,
dadas por la expresin:
S2(p)=p(1p)n1
Puede comprobarse que esta expresin es insesgada para estimar Var (p) , ya que se obtiene:
195
5. Muestras y estimadores
196
6. Herramientas inferenciales
Como hemos comentado en captulos anteriores, la informacin muestral es el punto
de partida para un amplio abanico de procesos inferenciales. Dichos procesos se basan
en la informacin disponible y tienen como objetivo reducir la incertidumbre, que
puede ir referida a parmetros concretos o a las poblaciones en su conjunto.
Cuando las inferencias que realizamos van referidas a caractersticas poblacionales
concretas, es necesaria una etapa de diseo de estimadores que ya hemos abordado
en el captulo anterior. Una vez que dispongamos de estimadores adecuados para los
parmetros de inters, debemos conectar sus expresiones con modelos probabilsticos
conocidos, tarea de la que nos ocuparemos en este tema. En algunos casos ser posible
adaptar las expresiones a modelos empricos ya estudiados, mientras que en otras
situaciones las necesidades muestrales obligan a definir otra serie de distribuciones de
carcter "artificial" cuya finalidad son precisamente los procesos inferenciales.
Cuando las inferencias son de carcter genrico (por ejemplo, si contrastamos hipte
sis relativas al conjunto de la poblacin) debemos aprovechar la informacin muestral,
construyendo expresiones que permitan efectuar afirmaciones probabilsticas sobre
nuestras conclusiones inferenciales.
Una distribucin, y los procesos inferenciales basados en la misma, se denominan robustos cuando
no resultan muy sensibles a los cambios en los supuestos de partida, es decir, cuando no presentan
197
6. Herramientas inferenciales
, )
Xn N ( n
, )
Xn N (
n
aproximacin que suele realizarse para tamaos muestrales n > 30. Esta convergencia
generaliza de modo considerable la aplicacin del modelo normal como distribucin
de la media muestral.
Un caso particular de esta segunda situacin se presenta cuando la muestra (X1,...,Xn) est
formada por variables dicotmicas o de Bernoulli. Se obtiene en este caso una suma distribuida
segn un modelo binomial B(n, p) que, gracias al Teorema de De Moivre puede ser aproximada para
tamaos elevados por una distribucin normal:
np, )
Sn N ( np(1 p)
y en consecuencia
(p, )
XnN p(1p)n
198
6. Herramientas inferenciales
Cuando partimos de una poblacin normal genrica Y N(,), y consideramos una muestra
aleatoria (Y1 ,...,Yn), entonces la suma de los cuadrados de las variables muestrales tipificadas se
distribuye segn un modelo chi-cuadrado, con n grados de libertad:
ni=1 ( )
Yi
2n
La justificacin en este caso resulta sencilla con slo llevar a cabo un proceso de tipificacin sobre la
(
muestra, definiendo variables Xi = Yi )distribuidas segn modelos N(0,1), a partir de las cuales
se obtiene de forma inmediata la distribucin chi-cuadrado anteriormente definida.
Para ilustrar el concepto de grados de libertad supongamos una poblacin N(0, 1) a partir de la
cual extraemos una muestra aleatoria simple de tamao n =3(X1,X2 ,X3) y definimos el estads
tico media aritmtica. Tanto sobre la expresin muestral como sobre la media podemos seleccionar
arbitrariamente 3 valores, por lo cual ste es el nmero de grados de libertad existentes.
199
6. Herramientas inferenciales
3
(XiX)2
i=1
Resulta sencillo comprobar que en ella podemos seleccionar nicamente dos sumandos, ya que el
tercero quedar automticamente determinado. As, a modo de ejemplo, con la muestra anterior se
tendra (x1 X) = 1, (x2 X) = 3 y la tercera desviacin deber ser obligatoriamente (x3
X)=4
para que se cumpla la propiedad
3
(XiX)=0
i=1
En definitiva, se aprecia que existe una restriccin:
3i=1 (Xi X)=0, equivalente a la definicin
de la media
3i=1
Xi
X =
3
Como consecuencia, se reducen en uno los grados de libertad de la muestra, de modo que la
expresin presenta en este caso 2 g.l.
En el caso de una muestra de tamao n, la expresin ni=1(Xi X)2 tendra n 1 grados de
libertad. De hecho, estos g.l. coinciden con el denominador del estimador insesgado varianza muestral
n
(Xi X)2
i=1
S2 =
n1
A modo de resumen, la tabla siguiente recoge los grados de libertad asociados a expresiones
genricas con y sin restriccin.
Expresin
Variables aleatorias Restricciones g.l.
ni=1X2i X1,...,Xn n
n ( ) o bien
XiX X1X,...,XnX
i=1
ni=1 (XiX) =0 n-1
En general, para una muestra de tamao n agrupada en k intervalos o clases, los grados de
libertad sern k 1 ya que,
k1una vez especificadas k 1 frecuencias, la frecuencia restante nk vendr
determinada como n i=1 ni.
Razonando de modo anlogo, dada una muestra de tamao n si se adoptan como constantes k
funciones de los valores muestrales, el nmero de grados de libertad vendr reducido en k.
La funcin de densidad del modelo chi-cuadrado para n g.l. viene dada por la
expresin:
200
6. Herramientas inferenciales
g.l. n
5 10 20
Valores
5 2n 0,5841 0,1088 0,0003
La expresin de esta funcin de densidad puede obtenerse en dos etapas: en la primera, se parte
de una variable Xi N(0,1) efectuando sobre la misma el cambio de variable Yi = X2i, con lo cual
se obtiene para Yi una funcin de densidad que corresponde a un modelo gamma de parmetros p =
12,a = 1 . En la segunda etapa, teniendo en cuenta que las Xi son v.a. independientes e idnticamente
2
distribuidas (i.i.d.), es posible aplicar la reproductividad del modelo gamma respecto al parmetro
p; as se tiene:
ni=1Yi=ni=1X2i (p= )
n2 1
,a =
2
Sin embargo, conviene sealar que esta estructura de tablas resulta poco til, dado
que en las aplicaciones habituales de esta distribucin nos interesa tener un amplio
recorrido de g.l. y buscaremos el valor correspondiente a determinados centiles (esto
es, valores cuya probabilidad acumulada se sita en el 0,1%, 1%, 5%, etc). De ah
que una estructura ms habitual sea la de la tabla 6.2:
Como puede verse, en la primera columna se recogen los grados de libertad, en la
primera fila el orden de los centiles indicados y en el interior de la tabla aparecen los
distintos valores de la distribucin 2n.
En una aplicacin usual de esta distribucin, lo primero que conoceremos ser el nmero de g.l.,
obtenido directamente a partir del tamao muestral, en segundo lugar fijaremos el nivel de incerti
dumbre (1 %, 5 % o 10 % en general) o bien el nivel de confianza con el que deseamos trabajar (90 %,
95 % o 99 %) y luego buscaremos el valor de la 2n correspondiente a esas restricciones.
201
6. Herramientas inferenciales
202
6. Herramientas inferenciales
0.1
0.08
d
a
di
s 0.06
n
e
D
0.04
0.02
0 0 10 20 30 40 50 60
E(X)=8 E(X)=28
En la tabla 6.1 observamos cmo para determinados grados de libertad la probabilidad acumulada
aumenta con el valor de la 2n o bien para un valor fijo de sta, la probabilidad disminuye conforme
aumentan los grados de libertad. Siguiendo el mismo razonamiento, la tabla nos muestra cmo fijados
los grados de libertad, los valores de 2n aumentan con el valor de la probabilidad, mientras para una
probabilidad acumulada fija estos valores aumentan con los grados de libertad.
Intuitivamente este comportamiento es muy razonable, teniendo en cuenta que Xi N(0,1) y X2i
toma slo valores positivos, con valor esperado la unidad. Por tanto, cuando definimos
n
2n = X2i
i=1
a medida que aumenta n se incrementa el valor esperado de la expresin y el punto donde se alcanza
determinada probabilidad acumulada se desplaza a la derecha.
203
6. Herramientas inferenciales
escribir:
n+m
X +Y = X2i (6.1)
i=1
204
6. Herramientas inferenciales
)
g.l. y valores P (2n x Aprox. TCL Aprox. rpida
n=30, x=30 0,5343 0,5 0,5258
n=50, x=50 0,5266 0,5 0,5200
n=100, x=100 0,5188 0,5 0,5141
n=500, x=500 0,5084 0,5 0,5063
En la segunda columna, que recoge los resultados de esta probabilidad calculada mediante el
modelo chi-cuadrado, se observa que dicha probabilidad converge lentamente hacia 0,5 a medida que
aumentan los tamaos muestrales. En cambio, la aproximacin de estas probabilidades mediante la
aplicacin del TCL, que se recoge en la columna tercera, da siempre un resultado constante e igual
a 0,5.
Por ltimo, la aproximacin que hemos denominado rpida (6.2) subvalora la verdadera probabi
lidad, aunque se aproxima considerablemente al valor verdadero a medida que n aumenta. De ah que
sta ser la aproximacin utilizada siempre que dispongamos de tamaos muestrales suficientemente
elevados.
[En realidad, habra que tener en cuenta que en todas las situaciones - incluida la que hemos llama
do verdadera probabilidad- se utilizan algoritmos de clculo numrico con lo cual se trata siempre
de aproximaciones].
La distribucin chi-cuadrado tambin aparece ligada a otros modelos de probabilidad. As, dada
una v.a. distribuida uniformemente en el intervalo (0, 1) y siendo (X1,...,Xn) una m.a.s. de esa
poblacin, entonces la variable:
ni=1X2i ) = n
ln ( lnX2i
i=1
sigue una distribucin 2n.
El signo negativo de la expresin anterior se debe a que los valores de Xi son inferiores a la unidad
y por tanto sus logaritmos resultan negativos.
Karl Pearson (1857-1936), considerado por algunos autores como el fundador de la ciencia esta
dstica, fue el primero en introducir el modelo chi-cuadrado, en el ao 1900, como expresin vlida
para contrastar la bondad del ajuste de una distribucin terica a la observada.
Pearson obtuvo tambin un sistema de curvas de frecuencias generalizadas basndose en una sola
ecuacin diferencial obteniendo los parmetros por el mtodo de los momentos. Esta aportacin con
virti al modelo chi-cuadrado en una herramienta bsica del anlisis estadstico, hecho que explica
la mayor relevancia otorgada a Pearson que a Helmert, autor que le precedi cronolgicamente ob
teniendo, en 1875, la distribucin de la varianza muestral para una poblacin con distribucin normal.
205
6. Herramientas inferenciales
Teorema de Fisher
La generalidad del modelo chi-cuadrado como distribucin muestral se debe en gran
medida al Teorema de Fisher, que garantiza la independencia entre los estadsticos
media y varianza muestral, as como un modelo probabilstico relacionado con esta
ltima.
Teorema 6.1. Dada una m.a.s. (X1,...,Xn) extrada de una poblacin N(,), se
cumple:
La media muestral X y la varianza muestral S2 son variables aleatorias inde
pendientes.
(n 1)S2
La expresin aleatoria 2 se distribuye segn un modelo chi-cuadrado
con n-1 grados de libertad (2n1).
Demostracin. El primero de los resultados del teorema de Fisher se basa en el hecho de que el
vector (X1 X,...,X
n
X) es independiente de la media muestral por lo cual S2, que es funcin del
vector (X1 X,...,X
n
X), tambin ser independiente de X. Este resultado puede demostrarse
construyendo la funcin generatriz de momentos n+1-dimensional del vector ( X,X1 X,...,X
X)
n
y viendo que dicha funcin se puede factorizar como un producto de dos f.g.m.: una correspondiente
a X y la otra al vector (X1 X,...,X
n
X), lo cual es una condicin necesaria y suficiente (como
hemos visto en el captulo 4) para la independencia entre las dos variables.
Es posible garantizar que esta independencia entre las variables X y S2 slo se obtiene cuando la
poblacin de partida es normal.
Por lo que se refiere al segundo resultado del teorema de Fisher, ste se basa en la descomposicin:
ni=1 ( )2 = )2
Xi (n1)S22 + (X
2n
en la que se cumple:
n ( 2 ;
(
Xi ) X )
2n 22
n
21 ; [Justifquese por qu ]
i=1
Adems, gracias al primer resultado del teorema de Fisher podemos garantizar que los sumandos
)2
(n 21)S2 y (X
2
n
son independientes, y por tanto la reproductividad de la distribucin chi-cuadrado garantiza que la
(n 1)S2
expresin 2 se distribuir segn un modelo 2n1.
206
6. Herramientas inferenciales
( )
1 y
X N 0, nXN(0,1)
n
obtenemos nuevamente la definicin de 2n1.
Siguiendo este mismo planteamiento, cada restriccin adicional que limite la posibilidad de elegir
las componentes de la expresin supondra una nueva reduccin en los grados de libertad.
X
t=
Yn
X
t=
X21++X2n
n1
sigue una distribucin t con n g.l. (tn). Del mismo modo, teniendo en cuenta los comentarios del
epgrafe anterior, podemos afirmar que:
X
t=
(Xi X )2
n
i=1
n1
207
6. Herramientas inferenciales
0.4
0.3
0.2
0.1
0 -5 -4 -3 -2 -1 0
1 2 3 4 5
Si la poblacin X sigue un modelo normal general, X N(, ) y (X1 ,...,Xn) es una m.a.s. de
X, entonces considerando los cambios de variable:
X
y
Yi = Xi
Y =
para i = 1,2,...,n, y aplicando los estadsticos anteriores a las nuevas variables, se tiene:
n
X n )2 X
t= tn y t= tn1
(Xi X )2
i=1(Xi n
i=1
n1
208
6. Herramientas inferenciales
observndose que el riesgo del modelo disminuye a medida que aumentan los grados de libertad de
la distribucin t de Student (se cumple lmn Var(tn )=1).
sigue un modelo F de Snedecor con n y m grados de libertad, que denotamos por Fn,m
o Fnm (indicando as que tenemos n g.l. en el numerador y m en el denominador).
Sean X e Y dos poblaciones distribuidas segn modelos N(0,1). Dadas dos m.a.s. independientes
extradas de esas poblaciones (X1,...,Xn) y (Y1,...,Ym), entonces la expresin:
n
1 n
X2i
i=1
F = m
1 i=1
m
Y2i
sigue una distribucin F de Snedecor con grados de libertad n y m ( Fnm).
Si las variables poblacionales fuesen N(X ,X) y N(Y ,Y) respectivamente, entonces la expre
sin:
209
6. Herramientas inferenciales
210
6. Herramientas inferenciales
0.4
0.3
0.2
0.1
0
-5 -4 -3 -2 -1 0 1 2 3 0, 4 5
)
P(tn x) n
g.l. y valores Aprox. N(0,1) Aprox. N ( n2
211
6. Herramientas inferenciales
n
1 n
(XiX)2
F= i=1
m
1 m
(YiY)2
i=1
sigue tambin un modelo Fnm.
R. A. Fisher (1890-1962) fue el primero en estudiar la distribucin del cociente de varianzas. Estos
estudios fueron proseguidos por G. W. Snedecor (1881-1974), autor de la obra Statistical Methods
(1937) quien denomin F a la distribucin de la razn de varianzas en honor de Fisher.
Existe tambin una distribucin denominada z de Fisher que se obtiene mediante una transfor
macin de la F de Snedecor:
z= 12lnF
que resulta de utilidad para llevar a cabo inferencias relativas a la correlacin entre variables.
; x>0
Las caractersticas del modelo F de Snedecor aparecen relacionadas con sus grados de libertad.
As se obtiene:
E(Fnm)=nn2 conn>2
y
2n2(n+m2)
Var (Fm
n
) = m(n2)2(n4) con n > 4
Por lo que se refiere a la representacin grfica, esta distribucin presenta una forma
similar a la del modelo chi-cuadrado, tal y como puede apreciarse en la figura 6.4.
Para tabular las probabilidades de este modelo es necesario recoger los grados de
libertad tanto del numerador (n) como del denominador (m), por lo cual cada tabla
contiene valores de la distribucin que llevan asociada una probabilidad fija. En la
tabla 6.4 recogemos una de las situaciones ms habituales, con probabilidades en la
cola derecha del 5% (esto es P (F n > x)=0,05 y por tanto P (F n x)=0,95).
m m
En general, utilizaremos las tablas del modelo F cuando disponemos de informacin
sobre los tamaos muestrales y fijamos alguna probabilidad para la cola derecha de la
distribucin.
La interseccin en las tablas entre la columna y la fila asociadas a los g.l. del
numerador y del denominador proporciona el valor de la distribucin que deja a su
derecha la probabilidad fijada.
La utilizacin prctica del modelo F de Snedecor se beneficia en gran medida de la
propiedad de inversin.
212
6. Herramientas inferenciales
gld/n 1 2 3 4 5 6 7 8 9 10
1 161,448 199,500 215, 707 224,583 230,162 233,986 236,768 238,883 240,543 241,882
2 18,513 19,000 19, 164 19,247 19,296 19,330 19,353 19,371 19,385 19,396
3 10,128 9,552 9, 277 9,117 9,013 8,941 8,887 8,845 8,812 8,786
4 7,709 6,944 6, 591 6,388 6,256 6,163 6,094 6,041 5,999 5,964
5 6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735
6 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060
7 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637
8 5,318 4,459 4,066 3,838 3,687 3,581 3,500 3,438 3,388 3,347
9 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137
10 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978
11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854
12 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753
13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671
14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602
15 4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2,544
16 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494
17 4,451 3,592 3,197 2,965 2,810 2,699 2,614 2,548 2,494 2,450
18 4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412
19 4,381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 2,378
20 4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348
21 4,325 3,467 3,072 2,840 2,685 2,573 2,488 2,420 2,366 2,321
22 4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 2,297
23 4,279 3,422 3,028 2,796 2,640 2,528 2,442 2,375 2,320 2,275
24 4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 2,255
25 4,242 3,385 2, 991 2,759 2,603 2,490 2,405 2,337 2,282 2,236
26 4,225 3,369 2, 975 2,743 2,587 2,474 2,388 2,321 2,265 2,220
27 4,210 3,354 2, 960 2,728 2,572 2,459 2,373 2,305 2,250 2,204
28 4,196 3,340 2, 947 2,714 2,558 2,445 2,359 2,291 2,236 2,190
29 4,183 3,328 2, 934 2,701 2,545 2,432 2,346 2,278 2,223 2,177
30 4,171 3,316 2, 922 2,690 2,534 2,421 2,334 2,266 2,211 2,165
40 4,085 3,232 2, 839 2,606 2,449 2,336 2,249 2,180 2,124 2,077
50 4,034 3,183 2, 790 2,557 2,400 2,286 2,199 2,130 2,073 2,026
60 4,001 3,150 2, 758 2,525 2,368 2,254 2,167 2,097 2,040 1,993
70 3,978 3,128 2, 736 2,503 2,346 2,231 2,143 2,074 2,017 1,969
80 3,960 3,111 2, 719 2,486 2,329 2,214 2,126 2,056 1,999 1,951
90 3,947 3,098 2, 706 2,473 2,316 2,201 2,113 2,043 1,986 1,938
100 3,936 3,087 2, 696 2,463 2,305 2,191 2,103 2,032 1,975 1,927
213
6. Herramientas inferenciales
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6
Esta propiedad de inversin rentabiliza el uso de las tablas de la F, ya que permite limitar la
informacin contemplando un mayor recorrido de los grados de libertad en el numerador o en el
denominador, de forma que si la probabilidad buscada no aparece en las tablas podemos llevar a
cabo la transformacin:
( ) ( )
F(Fnmx)=P =P Fmn1x
1Fnm
1x
214
6. Herramientas inferenciales
X=N(0,1)
2m
m
Conviene destacar la importancia de estas caractersticas genricas, que a menudo coinciden con
los supuestos asumidos sobre una o varias poblaciones (normalidad, independencia,...). De ah la
necesidad de ser rigurosos en nuestros procesos inferenciales, en el sentido de especificar (y contrastar)
los supuestos que en cada caso estamos admitiendo como vlidos.
Entre dichos supuestos merece una mencin especial la hiptesis de normalidad, que ocupa un
papel central en la inferencia estadstica: por una parte, es frecuente asumir que la poblacin de
partida se distribuye normalmente y por otra, aun partiendo de poblaciones desconocidas, siempre
que analicemos muestras de tamao suficientemente elevado y se cumplan los supuestos necesarios,
215
6. Herramientas inferenciales
Parmetros Parmetros
de posicin de dispersin
m.a.s.
(X1,...,Xn )
T(X1,...,Xn)
eT = T Error eT eRT = T
& Discrepancia dT
%
podremos aplicar el teorema central del lmite que garantiza la convergencia de agregados o prome
dios a una distribucin normal.
216
6. Herramientas inferenciales
eRT = T
E eRT =E(T)
Var (eRT) = Var(T)
2
BT() =1+BRT()
E(eT) = E(T) = BT() ; E (eRT) =1+
[Comprubese]
Una vez conocidas las caractersticas de los errores, nos interesar llevar a cabo un
proceso de transformacin de alos
hasta llegar mismos, efectuando ciertos ajustes sobre las expre
obtener
siones de eT y eRT discrepancias tipificadas o estandarizadas que
denotaremos por dT.
217
6. Herramientas inferenciales
cor).
Es conveniente observar que, aunque este apartado tiene por objetivo las inferencias relativas a
parmetros, ello no implica que todas las inferencias examinadas sean de tipo paramtrico. La situa
cin ms habitual -y ms conveniente para nuestros objetivos- ser que la poblacin X investigada
sea conocida, limitndose la ausencia de informacin a los parmetros con lo que el estudio sera de
inferencia paramtrica.
Sin embargo, es posible tambin que nos enfrentemos a poblaciones completamente desconocidas,
en cuyo caso nos situaramos en el mbito de la inferencia no paramtrica. En estos casos, a menudo
deberemos renunciar a la segunda etapa de la construccin de discrepancias, ya que no resulta posible
garantizar su conexin con modelos probabilsticos conocidos.
Var (X )
2
E (X) = ;
= n
El error cometido con este estimador ser una variable aleatoria, que se obtiene por
diferencia entre la media muestral y la media poblacional: eX = X .
Siguiendo el esquema anteriormente descrito, debemos analizar las caractersticas
del error, para el que se obtiene un valor esperado nulo:
E(eX)=E (X) =0
y una dispersin dada por las expresiones:
2
n ; eX=
V ar(eX)= V ar (X) = n
As pues, es posible en una primera etapa llevar a cabo una tipificacin o ajuste del
error aleatorio, llegando a una expresin:
eXE(eX)
eX = X
n
218
6. Herramientas inferenciales
eX = X
eX n
dX = N(0,1)
eX X
dX = SeX = Sn tn1
Dado que dichas variables son independientes, podemos aplicar la propiedad de reproductividad
del modelo normal, con lo cual obtenemos:
ni=1 ( )
Xin ,
X = N
n
eXn X
dX = = N(0,1)
n
nos proporciona el numerador, mientras que para el denominador se tiene, gracias al teorema de
Fisher:
219
6. Herramientas inferenciales
(n1)S2
2 2n1
Teniendo en cuenta que -tambin por el teorema de Fisher- ambas expresiones son v.a. indepen
dientes, se obtiene:
X
/n
dX = tn1
(n1)S22(n1)
X
dX = S/n
No obstante, teniendo en cuenta que este supuesto no necesariamente era correcto (al ignorar el
riesgo asociado a la estimacin de por S) Gosset intua que este procedimiento aplicado a muestras
pequeas dara una falsa idea de exactitud. Dicho inconveniente se soluciona al introducir el modelo
probabilstico t, que en tamaos pequeos de muestra viene representado por curvas campaniformes
con menor apuntamiento que la normal.
Parece lgico pensar, y as lo confirmaremos en captulos posteriores, que si utilizamos la infor
macin muestral para estimar los dos parmetros y 2 perderemos fiabilidad, de modo que para
conseguir un mismo nivel de probabilidad, la distribucin t de Student exige un mayor recorrido que
el modelo normal.
220
6. Herramientas inferenciales
Obsrvese que en esta situacin podemos aplicar el TCL, con lo cual el numerador convergera a
una distribucin N(0,1). Sin embargo, la no normalidad nos impide aplicar el teorema de Fisher,
con lo cual no tenemos garantizada la independencia entre numerador y denominador ni tampoco la
distribucin 2n para el denominador.
No obstante, es interesante sealar que aunque Gosset deriv la expresin de la t a partir del su
puesto de poblaciones normales, se ha comprobado que las poblaciones no normales aproximadamente
simtricas proporcionan expresiones que se aproximan mucho a la distribucin t.
Este rasgo permite calificar a la distribucin t de robusta y constituye una garanta de estabilidad
para los procesos inferenciales. En general, la distribucin t de Student asociada a la discrepancia de
la media dX resulta insensible a la hiptesis de normalidad cuando n > 15 y se ha comprobado que
para tamaos pequeos de muestra dicha distribucin se ve ms afectada por la asimetra que por la
no normalidad.
eRS2=S22
Obsrvese que en este caso la comparacin del estimador con el parmetro se lleva a cabo por
cociente y no por diferencia como se haca para la esperanza. Este hecho se debe al propio concepto
de dispersin, que tiene carcter multiplicativo (en este sentido, basta recordar que la dispersin no
viene afectada por el origen sino nicamente por la escala y tambin que en el procedimiento de
tipificacin de variables aleatorias se eliminan la esperanza y la dispersin, pero mientras la primera
se elimina mediante diferencias, en cambio la dispersin se elimina por cociente, dividiendo entre la
desviacin tpica).
221
6. Herramientas inferenciales
A diferencia de los procesos inferenciales referidos a la media, los procesos asociados a la varianza
resultan poco robustos, en el sentido de que el incumplimiento del supuesto de normalidad para la
poblacin de partida invalida la obtencin de una distribucin chi-cuadrado asociada a la varianza
muestral.
E(ep)=0 ; Var(ep)=p(1p)n
( n
) 1n2ni=1Var(Xi) = 1n2ni=1p(1p) =
1 p(1p)n
Var(ep) = Var(p) = Var Xi =
n i=1
222
6. Herramientas inferenciales
p,
Xi )
1nn N (
p(1p)n
p =
i=1
proporcin p y por tanto, si esta desviacin tpica fuese conocida podramos despejar de forma exacta
el valor de la proporcin, sin necesidad de utilizar la informacin muestral para su estimacin.
No obstante, en el caso de la proporcin esta afirmacin no es enteramente correcta. En muchos
supuestos asumiremos como conocido el valor de la dispersin (a veces en problemas reales apro
vechamos cierta informacin obtenida de algn censo anterior o relativo a una actividad afn a la
que estamos estudiando, con lo cual estamos asumiendo que no cambia el riesgo). Sin embargo, la
informacin sobre la dispersin no es vlida para establecer el valor concreto del parmetro p, ya que
los hbitos, el entorno y otras caractersticas influirn en alteraciones de la proporcin poblacional,
aun cuando la banda de riesgo que acompaa a estas estimaciones en perodos no muy grandes de
tiempo se mantenga constante.
Si la varianza del error es desconocida, sta podra aproximarse por su estimador insesgado p(1p)
n1
.
elevados ya que se basa en los teoremas lmites. Debemos tener presente que la variable aleatoria X
que aparece en el numerador de la proporcin muestral es discreta y sin embargo las transformaciones
sucesivas que operamos sobre ella (clculo de errores y tipificacin de los mismos) desembocan en
un modelo aproximadamente normal; por tanto, cuando nos interese aproximar probabilidades para
valores concretos de X conviene llevar a cabo la correccin de continuidad estudiada en el captulo 4.
223
6. Herramientas inferenciales
Var(D)
Var(eD) = Var (D) =
n
que slo podr ser determinada si conocemos las varianza de D o bien las varianzas
de las variables originales y su covarianza.
En general, la varianza anterior resulta desconocida, por lo cual debera ser estimada
a partir de la muestra mediante la expresin:
S2eD =S2D
n =1 n ni=1 (DiD)2n1
ni=1[(XiYi)(XY)]2n1
= 1n
224
6. Herramientas inferenciales
61)
Q
i ll I 92"
5_D
JE ya
Obsrvese que en el supuesto poco frecuente de que la varianza de D resultase
conocida se tendra
Q.
i ll i w A/(O, 1)
4/ Var (eD)
La distribucin normal resultara tambin aplicable cuando la variable D no fuera
normal, siempre que el tamao de muestra fuese elevado y la varianza conocida. En
tal situacin, la aplicacin del TCL conducira a la discrepancia tipicada
Q.
i ll 152 i> N(0,1)
y/Var (eD)
E (XY) I 1 a; t
V (ex-v) I 13
En efecto, se tiene:
><i al "<i
Var(eX_g/):Var( Y):Var(X)+Var(Y)2C0v( ):%+%
puesto que al ser las muestras independientes Cov(X, Y) I 0 y en consecuencia Cov(X, Y) I 0 [Por
qu?]
XzA/(iuxvax) v yzA/(rbyiay)
225
6. Herramientas inferenciales
eXY X Y (X Y)
dXY = =
Var (eXY ) 2X + 2Y
n m
As pues, se obtienen las siguientes distribuciones para el error aleatorio y para la discrepancia
tipificada: 0,
)
X Y 2Xn + 2Ym
eXY = (X-Y)N (
eXY (X Y) N(0,1)
X Y
dXY =
Var(eXY) = 2Xn+2Ym
La comprobacin de este caso se limita a aplicar el teorema central del lmite, ya que si n y m son
elevados, entonces obtenemos:
( ) ( )
X N X,Xn e Y N Y,Ym
siendo vlido el resto del razonamiento sin ms que tener presente que trabajamos con distribuciones
aproximadas.
Obsrvese que si una de las dos muestras tuviese un tamao inferior a 30 ya no podramos aplicar
este desarrollo.
En el caso de que las variables se distribuyan normalmente pero las varianzas pobla
cionales sean desconocidas, la expresin anterior de la discrepancia no resulta vlida.
No obstante, este problema podr ser solventado si las varianzas, aunque desconocidas,
son coincidentes: 2X = 2Y = 2.
En esta situacin, la varianza poblacional 2 podr ser estimada utilizando la in
formacin que proporcionan las dos muestras, mediante la expresin:
226
6, Herramientas inferenciales
2 _ (n 1)Si( + (m llsi
S P n+m 2
que como vemos es una media ponderada de las varianzas muestrales, adoptando como
pesos los grados de libertad.
Utilizando dicha estimacin se llegara a una discrepancia dada por la expresin
<i
>l<ji
N | (HX-MY) | N,
Q "Q H /(n1)S2 +(rn1)S2 N m4
L / SI l El
n+m2
Bajo estas hiptesis, el error asociado a la diferencia de medias de dos muestras independientes:
(B ><l i *<\ I (X Y) (u); uy), se distribuye normalmente con las siguientes caractersticas:
2 2
E(x_/):;V1T(@x_/): UXJFUX IU2
mi m A/(g, 1)
HIH EIH
0' +
pero, dado que en esta expresin aparece el parmetro desconocido o, resulta necesario acudir a la
informacin proporcionada por las dispersiones muestrales.
Gracias al supuesto de normalidad, es posible aplicar a cada muestra el teorema de Fisher, segn
el cual se verica:
sQ s
(n- 1),? w x14 ; (m- U7; w xwl
Teniendo en cuenta que ambas variables son independientes por serlo las muestras y aplicando la
reproductividad de la distribucin chi-cuadrado se obtiene:
(n ns + (m os; 2 2 2
~ z Xn1 +Xm1 = Xn+m2
El teorema de Fisher garantiza adems que esta distribucin chi-cuadrado y la expresin nor
mal anterior son independientes, por lo cual podemos denir a partir de ambas una nueva variable
distribuida segn un modelo t de Student:
N
i +a,
Q f: j ,
7
i><1| 7(HXHY) Nt
"ri+m2
l\/(n1)S%+(m1)S/. \/(n1)S%+(m1)S, HIH
a ri+m2 ri+m2 + El
227
6. Herramientas inferenciales
Resulta interesante analizar cmo se ve afectada esta expresin por la alteracin de los supuestos
de partida.
Comenzando por la hiptesis de normalidad de las poblaciones investigadas, ya hemos comentado
en epgrafes anteriores que la distribucin t de Student resulta ser muy robusta, es decir, poco sensible
a la no normalidad.
En concreto, los estudios efectuados por Barlett (1935), Gayen (1949,1951) y Boneau (1960) ponen
de manifiesto que, siempre que las muestras investigadas tengan tamaos coincidentes, la distribucin
de la expresin no se ve alterada por la no normalidad (incluso cuando las poblaciones de partida sean
muy asimtricas). De modo similar, si las distribuciones de partida son aproximadamente simtricas,
la expresin resulta robusta aun cuando las muestras tengan tamaos distintos.
La alteracin del supuesto de igualdad de varianzas invalida la deduccin efectuada para la t de
Student, dando lugar al problema conocido como de Behrens-Fisher, ampliamente tratado por varios
autores sin que exista una solucin universalmente aceptada.
En general, las propuestas para solucionar este problema parten de la consideracin de las varianzas
muestrales, estimadores consistentes de las varianzas poblacionales, que conducen a la expresin:
X Y (X Y)
dXY =
n+ S2Y
S2X
m
que sigue aproximadamente una distribucin t de Student con grados de libertad:
(n1)S2Xn+(m1)S2Ym
g.l.= 2 2
SX SY
n
+ m
Esta aproximacin, que se debe a Cochran (1964), conduce a un nmero de g.l. que, en general,
no ser entero, por lo cual cuando consultemos en las tablas tendremos que buscar el nmero de g.l.
ms prximo o bien interpolar.
Por ltimo, el supuesto de independencia entre las muestras resulta de gran importancia ya que,
si esta hiptesis se incumple, las expresiones anteriormente deducidas pierden su validez. De ah el
inters de distinguir las inferencias sobre diferencia de medias con muestras independientes de las
correspondientes a datos pareados, analizada con anterioridad.
X+Y(X+Y) N(0,1)
dXY =
22X
n 22Y
+ m
228
6. Herramientas inferenciales
es unitaria.
Supongamos dos poblaciones X e Y normales:
X N(X,X) , Y N(Y,Y)
y consideremos dos muestras independientes de cada poblacin (X1,...,Xn), Y1,...,Yn).
El estimador analgico del parmetro investigado ser
S2X
T =
S2Y
y definiremos un error relativo que -como ya hemos justificado en las inferencias sobre
la varianza- resulta ms adecuado para las caractersticas de dispersin. Dicho error
S2X
eRS2X/S2Y = S2Y S2X 2Y
2X2Y = S2Y2X
2X 2n1; (m 1) S2Y
(n 1) S2X
2m1
2Y
Adems ambas variables son independientes por serlo las muestras, luego el cociente
de dos variables chi-cuadrado divididas por sus g.l. define una variable F de Snedecor.
As:
(n1)SX 2 S2
2 /X X
= S2Y
2X
2Y S2X 2Y Fn1m1
(m1)S2Y/2Y
m1
n1
= S2Y2X
229
6. Herramientas inferenciales
Este proceso resulta poco robusto, ya que la distribucin F se ver muy afectada por posibles
alteraciones en el supuesto de normalidad de las poblaciones investigadas.
A modo de ilustracin, podramos estar interesados en llevar a cabo inferencias sobre el parmetro
b en un modelo uniforme U[0,b] (obsrvese que en este caso b = 2) o sobre la desigualdad en un
modelo de Pareto (es decir, la expresin 1 , que coincide con el ratio x0 ).
Por otra parte, existen situaciones en las que, por el propio carcter del parmetro
investigado, la metodologa inferencial cambia considerablemente. Este ser el caso de
las inferencias relativas a la mediana o, ms en general, a cualquier caracterstica de
posicin no central (cuantiles).
Las inferencias relativas a la mediana Me se abordan desde un marco no param
trico, esto es, sin explicitar supuestos sobre la poblacin de partida X. (Obsrvese que
bajo la hiptesis de normalidad se cumple Me = , por lo cual nos remitiramos a las
deducciones ya estudiadas para la media).
La caracterstica que identifica al parmetro Me es por definicin su probabili
dad acumulada FX(Me) = P(X Me) = 0,5. As pues, a partir de una m.a.s.
(X1,...,Xn) podemos tambin garantizar para una Xi cualquiera: P(Xi Me) =
0,5.
Dado que nuestro objetivo es llegar a un modelo probabilstico conocido que utilice
las informaciones muestral y poblacional, definiremos ahora una v.a. Z que recoge el
nmero de observaciones muestrales inferiores o iguales a Me. Dicha variable segui
r un modelo B(n,0,5) y en consecuencia podremos calcular cualquier probabilidad
asociada a valores concretos de Z, y a partir de ellas llevar a cabo inferencias (esti
maciones o contrastes) del parmetro Me.
La utilizacin de la mediana presenta como ventaja su robustez, pero en cambio supone prdidas
de eficiencia con respecto a otros procesos inferenciales. Para solucionar este inconveniente, en oca
siones se defiende la utilizacin de una media ajustada (trimmed mean) obtenida como promedio de
una muestra de la que se han eliminado las observaciones extremas (por exceso y por defecto).
230
6. Herramientas inferenciales
Poblacin X Caractersticaspoblacionales
m.a.s Caractersticas
(X1 ,...,Xn ) muestrales
Discrepancia
d
& %
La media ajustada de nivel k para una muestra n se obtiene como promedio de sus n 2k obser
vaciones centrales. Puede comprobarse que la mediana se corresponde con el caso particular de nivel
n12 para n impar y n22 para n par.
De modo similar, para cualquier cuantil Q se tiene una probabilidad asociada pQ , por lo cual a
partir de la muestra garantizamos P(Xi Q) = pQ , definiendo ahora la variable Z: nmero de
observaciones muestrales inferiores a Q que sigue un modelo B(n, pQ).
231
6. Herramientas inferenciales
n (Cmi Cpi)2
d= Cpi
i=1
que se distribuye, siempre que se garanticen ciertos tamaos muestrales mnimos,
segn un modelo chi-cuadrado con un nmero de grados de libertad igual a n (tamao
de muestra) menos k (nmero de restricciones).
El procedimiento descrito es aplicable a varias situaciones diferenciadas, que apare
cen sintetizadas en la figura 6.5.
En general estas expresiones son aplicadas al contraste de ciertas hiptesis (contras
tes de bondad de ajuste, contrastes de independencia y contrastes de homogeneidad)
que analizaremos con detalle en un captulo posterior, por lo cual nos limitamos aqu
a comentar brevemente sus rasgos ms destacables.
Las inferencias basadas en la distribucin chi-cuadrado se llevan a cabo agrupando
la informacin muestral en intervalos o clases y comparando las frecuencias observadas
en la muestra con las frecuencias esperadas (esto es, las asociadas a la caracterstica
poblacional investigada).
En concreto, cuando llevamos a cabo inferencias sobre la distribucin de probabi
lidad, denotamos por ni la frecuencia observada en el intervalo i-simo y por npi su
frecuencia esperada (calculada asumiendo que la variable sigue determinado modelo
probabilstico, que nos proporciona para cada intervalo su probabilidad pi).
Repitiendo el proceso para todos los intervalos se llega a la discrepancia tipificada:
r
i=1 npi) 2
(ni np
2r1k
i
232
6. Herramientas inferenciales
cuyos grados de libertad se obtienen como diferencia entre el tamao muestral (r clases
o intervalos) y el nmero de restricciones (al menos existe una:
r r
npi = ni = n
i=1 i=1
Las condiciones de convergencia hacia la distribucin chi-cuadrado exigen que ninguna de las fre
cuencias esperadas npi adopte un valor bajo, considerndose habitualmente 5 como frecuencia mnima
para un intervalo.
cuyos grados de libertad se obtienen como producto de los asociados a cada una de
las
quecaractersticas
existen r clasesinvestigadas
sometidas a(para la primera
la restriccin caracterstica
ri=1 ni = n; desemodo
tienen r 1 para
anlogo g.l., ya
la
segunda se tienen s 1 g.l., ya que las s clases deben cumplir sj=1 nj = n).
La independencia puede ser investigada sobre caractersticas tanto cuantitativas como cualitati
vas, siendo aplicable en ambas situaciones la distribucin chi-cuadrado deducida, en la que tan slo
intervienen las frecuencias. Para que este modelo probabilstico quede garantizado es necesario que
ninguna de las frecuencias esperadas sea excesivamente pequea.
233
7. Estimacin
Cada da, los medios de comunicacin difunden noticias basadas en estimaciones:
la subida media de los precios durante el ltimo mes, la audiencia que ha tenido una
retransmisin deportiva en televisin, la proporcin de votos que obtendra un partido
poltico en las prximas elecciones, ... En todos estos ejemplos las noticias se basan en
informacin parcial, no exhaustiva, y por tanto los datos publicados no sern exactos,
pero sin embargo resultarn de gran utilidad.
As, en el caso de la subida media de precios, la informacin proporcionada por el
IPC (Indice de Precios de Consumo) no puede medir los precios de todos los bienes y
servicios consumidos y por tanto las noticias que se publican cada mes en los medios
de comunicacin corresponden a una estimacin realizada por el Instituto Nacional de
Estadstica (INE) a travs de un muestreo muy completo. De modo similar, las audien
cias de programas televisivos se estiman a partir de encuestas entre los espectadores
y la intencin de voto se estima mediante encuestas o sondeos electorales.
Es importante tener presente que el hecho de que las estimaciones no tengan carc
ter exacto no afecta a su veracidad ni a su utilidad: en el contexto socioeconmico nos
interesar disponer de aproximaciones fiables de la subida de precios, la renta perc
pita, la tasa de paro, ... y la calidad de las estimaciones depender bsicamente de
dos factores que ya hemos analizado en los temas precedentes: en primera instancia la
informacin muestral disponible (que ser la "materia prima" en la que se fundamenta
cualquier estudio inferencial) y en segundo lugar la "calidad" de las tcnicas aplica
das (trmino que abarca tanto las expresiones de los estimadores como el mtodo de
estimacin utilizado).
234
7. Estimacin
235
7. Estimacin
Consideramos como punto de partida del proceso de estimacin una muestra alea
toria simple (X1,...,Xn) extrada de la poblacin investigada, a partir de la cual
definimos un estimador T = T(X1,...,Xn) que ser tambin una v.a.
Para cada muestra concreta (x1 ,...,xn), el estimador T proporciona una estimacin
puntual determinada t = T(x1,...,xn) que aproxima el parmetro desconocido y
por tanto conlleva un error concreto e = t .
Ser aceptable esta estimacin de ? Para responder a esta pregunta sera nece
sario conocer la magnitud del error cometido, objetivo que no resulta factible en la
prctica por ser dicho error funcin del parmetro desconocido.
Debemos tener presente que las propiedades estudiadas para los estimadores garantizan un buen
comportamiento probabilstico de los mismos pero no permiten efectuar ninguna afirmacin sobre
las estimaciones particulares. De este modo es perfectamente posible que, aun utilizando un estima
dor centrado, eficiente, suficiente y consistente cometamos errores de gran magnitud al estimar el
parmetro.
En definitiva, las propiedades de los estimadores avalan el instrumento utilizado pero no cada re-
sultado particular obtenido con ste. De hecho, a partir de la expresin nica de un estimador, cada
muestra concreta nos conducir a estimaciones diferentes, que llevan asociados los correspondientes
errores.
Consideremos a modo de ejemplo que nuestro objetivo es estimar la renta esperada en determinada
poblacin. A partir de una m.a.s. de tamao n y dado que la media muestral -como ya hemos visto
con anterioridad- es un estimador adecuado de podramos enunciar afirmaciones del tipo:
Sin embargo, una vez que partimos de una muestra concreta no tiene sentido plantearse ese ti
po de afirmaciones, (habremos obtenido, por ejemplo, x = 50, y no resultar posible asignar una
probabilidad al error asociado a este valor concreto). En realidad para cada estimacin puntual slo
cabran dos grandes posibilidades excluyentes: haber estimado de forma exacta el valor de o bien
(alternativa ms habitual) haber cometido algn error en dicha estimacin.
236
7. Estimacin
Siguiendo con el ejemplo anterior, la estimacin de la renta esperada se efectuara ahora adop
tando como punto de partida la media muestral a la que incorporamos mrgenes de error , cuya
determinacin estudiaremos ms adelante.
Al igual que ocurra en la estimacin puntual, cada muestra concreta llevar a unos valores par
ticulares de x y x + (47 y 53, por ejemplo) que determinan un intervalo en el que no podemos
asegurar que est contenido el parmetro . Sin embargo, la gran novedad es que ahora resulta posible
)
efectuar afirmaciones probabilsticas referidas a los intervalos genricos (X , X + .
237
7. Estimacin
A modo de ilustracin, una empresa no estar demasiado interesada en una cifra concreta de ventas
esperadas sino que preferir conocer con ciertas garantas un intervalo en el que stas se encuentren
situadas. Este mismo razonamiento podra ser aplicable a la evolucin de precios, pero deja de ser
vlido si lo que se pretende es obtener un ndice que posteriormente pueda ser utilizado como deflac
tor, funcin sta que no puede desempear un intervalo.
238
7. Estimacin
conveniente.
1=P(T1T2)
Consideremos una poblacin que identificamos con una variable aleatoria X cuya
distribucin de probabilidad depende de cierto parmetro desconocido . El procedi
miento general que seguiremos para la construccin de intervalos de confianza para
aparece descrito en la figura 7.3.
La primera etapa, ya conocida, consiste en resumir la informacin muestral me
diante un estimador T(X1,....,Xn) y construir la discrepancia tipificada asociada a
este estimador. Para ello seguiremos la metodologa estudiada en el captulo anterior,
llegando a expresiones dT que son funcin tanto de la m.a.s. (X1,....,Xn) como del
parmetro investigado : dT = dT(X1,....,Xn ,) y que, en general, seguirn un mo
239
7. Estimacin
m.a.s. Parmetro
(X1 ,...,Xn) desconocido
Estimador P (T1 T2) = 1-
T(X1,...,Xn) = ( )
T1
T2
dT(X1,...,Xn,) = P(adTb)=1
8 (adT)b
Las discrepancias tipificadas dT que hemos introducido en el captulo anterior son expresiones alea
torias construidas por comparacin de T y , cuyo modelo probabilstico es habitualmente conocido
y no depende del parmetro .
As, dada una v.a. X con distribucin FX (x), hemos estudiado las distintas expresiones tipificadas
dT (X1 ,....Xn ,), cuya distribucin de probabilidad es conocida (Normal, t de Student, chi-cuadrado
o F de Snedecor) y no depende de ningn parmetro desconocido.
P(adT(X1,...,Xn,)b)=1
Dado que dT es una expresin aleatoria que resume la discrepancia entre T y
convenientemente tipificada, mediante la igualdad anterior garantizamos una proba
bilidad de que la discrepancia se encuentre en cierto recorrido [a, b].
Los niveles de confianza ms habituales son el 90 %, 95 % y 99 %. Una vez fijado un nivel de con
fianza determinado 1 , en principio existen infinitas posibilidades para determinar los valores a
y b que encierran esa probabilidad. Sin embargo, nuestro objetivo es obtener intervalos precisos por
lo cual intentaremos que a y b se encuentren lo ms prximos posible. En concreto, para expresiones
dT distribuidas simtricamente (caso de los modelos Normal o t de Student) el recorrido ptimo -en
el sentido de mxima precisin- se obtiene para valores opuestos, esto es, con a = b.
240
7. Estimacin
Mediante las etapas descritas hasta ahora hemos llegado a obtener intervalos cons
tantes [a, b] para la variable aleatoria dT. Se trata de un paso intermedio hacia nuestro
objetivo, que es la construccin de intervalos aleatorios para el parmetro .
Por tanto, debemos ocuparnos ahora de la etapa final de la figura 7.3, consistente en
pasar del intervalo constante [a, b] que incluye un (1 )% de la probabilidad de dT,
a otro intervalo con lmites aleatorios T1 y T2 entre los que, con probabilidad 1 ,
se encontrar el parmetro .
Dado que dT es una funcin continua e inyectiva de , a partir de su expresin
dT(X1,....,Xn ,) es posible obtener (igualando dT a los extremos constantes a y b)
un par de funciones de la muestra T1(X1,....,Xn) y T2(X1,....,Xn) tales que se
cumpla:
P(T1T2)=1
El proceso de obtencin de [T1,T2] a partir de [a,b] se basa en el siguiente razo
namiento: al igualar la discrepancia dT a su valor mnimo a, estamos asumiendo el
mximo error por defecto (subestimacin) y como consecuencia, debemos corregir T
al alza para compensar esa subestimacin de , llegando as al extremo superior del
intervalo T2.
Este razonamiento se aplicara de modo anlogo a la situacin opuesta en la que la
discrepancia dT adopta su valor mximo b, por lo cual al estimar corregiremos el
valor de T a la baja hasta llegar a T1. As pues, se tiene:
dT(X1,....,Xn,)=a =T2
dT(X1,....,Xn,) = b = T1
241
7. Estimacin
242
7. Estimacin
POBLACIN MUESTRA
Distribucin Tamao
Parmetros Seleccin
Estadsticos
8 7
243
7. Estimacin
P(|dTE(dT)|kdT)1 P(adTb)1
y a partir de la expresin dT(X1,...,Xn ,), podremos despejar un intervalo aleatorio
(T1,T2) para , tal que:
P(T1T2)1
Estos intervalos basados en la desigualdad de Chebyshev sern -para niveles de
confianza dados- menos precisos que los obtenidos a partir de distribuciones probabi
lsticas conocidas, puesto que la ausencia de informacin inicial es un inconveniente
que conlleva un coste en trminos de precisin. As pues, la aplicacin de Chebys
hev nicamente es aconsejable cuando no existe otra alternativa, ya que cualquier
informacin adicional sobre X proporcionar informacin sobre dT y en consecuencia
mejorar la precisin de nuestro intervalo.
244
7. Estimacin
P(T1T2)=1
conduce a dos lmites aleatorios T1 y T2 que en general son funciones de n. En apartados
posteriores analizaremos la relacin entre la amplitud de un intervalo A = T2 T1 y
el tamao de muestra.
La seleccin muestral puede colaborar en gran medida a mejorar la precisin de
los intervalos. Nos referiremos aqu nicamente al muestreo aleatorio simple que es la
tcnica de seleccin ms sencilla y se adopta habitualmente como referencia, pero los
diseos muestrales ms elaborados contribuyen a mejorar la precisin de las estima
ciones.
Por ltimo, debemos tener presente que la informacin muestral debe ser resumida
mediante estadsticos o estimadores, por lo cual su definicin ser tambin de impor
tancia en la determinacin de los intervalos.
Las expresiones T(X1,...,Xn) utilizadas como estimadores sern las que resulten
en cada caso ms adecuadas segn los criterios estudiados en captulos anteriores (au
sencia de sesgo, eficiencia, suficiencia, consistencia) ya que estas propiedades deseables
se trasladan a las discrepancias tipificadas dT(X1,...,Xn ,) y tambin a la precisin
de los intervalos de confianza para .
245
7. Estimacin
Obsrvese que esta afirmacin probabilstica debe ser efectuada en relacin al intervalo aleatorio
y no al parmetro. As, sera incorrecto decir que tiene una probabilidad 1 de pertenecer
al intervalo ya que el parmetro, aunque desconocido, es un valor constante al que por tanto no
podemos asignar ninguna probabilidad.
246
7. Estimacin
X
dX = N(0,1) , si 2 es conocida
n
XS
n
dX = tn1 , si 2 es desconocida
P(kdXk)=1
Puede apreciarse que en este caso particular los valores que encierran la probabili
dad 1 son opuestos ya que, como consecuencia de la simetra del modelo normal,
sta es la opcin que, fijado el nivel de confianza, conduce al intervalo ptimo (de
mnima amplitud o mxima precisin).
A modo de ilustracin, los valores k para los niveles de confianza habituales son:
Nivel de confianza k
0,9 1,645
0,95 1,96
0,99 2,576
Teniendo en cuenta que en este caso la discrepancia viene dada por la expresin
X
dX =
n
El procedimiento seguido hasta la obtencin de este intervalo final consiste en igualar la discre
pancia a cada uno de sus valores lmites k y +k. De este modo, si dX adoptase el valor k entonces
se obtendra la mxima discrepancia -por exceso- de la media muestral respecto a ; por tanto, el
lmite inferior del intervalo se obtiene al corregir el estimador media muestral en el mximo error por
exceso
X
n =k = X k
n
247
7. Estimacin
en la que pueden apreciarse tres factores: el nivel de confianza (que determina k), la
dispersin poblacional () y el tamao muestral (n).
Estudiemos ahora cmo se vera alterado el procedimiento descrito si la varianza
poblacional se desconoce, esto es, si la discrepancia tipificada viene dada por
X
dX = Sn
tn1
P(kdXk)=1
obtenindose a partir de la expresin anterior:
( )
X S X k S
P k +
n n
que conduce al siguiente intervalo de confianza para :
[ ]
X k n
S , X + kSn
Dicho intervalo sigue estando centrado en la media muestral pero presenta ahora
amplitud variable
S
A=2k n
Al comparar esta amplitud con la asociada al IC para con conocida se aprecian dos cambios.
En primer lugar, el valor k aumenta, ya que para un mismo nivel de confianza el valor obtenido en
las tablas t de Student ser superior al del modelo normal (si bien estas diferencias se atenan al
aumentar n).
Por otra parte, la amplitud pasa de ser constante a variable, por lo cual no es posible comparar la
precisin de ambos tipos de intervalos.
248
7. Estimacin
(n 1)S2 2
dS2 = 2 n1
Una vez fijado el nivel de confianza 1 sera necesario obtener un par de valores
k1 y k2 tales que: P(k1 dS2 k2)=1
Como consecuencia de la asimetra del modelo chi-cuadrado, el mtodo de determi
nacin de estos valores no coincide con el visto para los intervalos de . En concreto, la
opcin ms habitual consiste en determinar recorridos [k1 ,k2] que dejan a su izquierda
y a su derecha colas con idntica probabilidad 2 .
A partir de esos valores se llega a intervalos de confianza para 2 dados por la
expresin:
[ (n ]
1)S2 , (n 1)S2
k2 k1
que se encuentran prximos al ptimo.
249
7. Estimacin
Los extremos de este intervalo se obtienen al igualar la discrepancia normalizada a las constantes
k1 y k2 obtenidas anteriormente. En el primer caso se hace coincidir dS2 con su valor mnimo k1,
por lo cual la varianza muestral se corrige al alza multiplicando por el ndice n1 > 1, llegando al
k1
extremo superior (n1)S2
k1 ; la situacin contraria aparece al igualar la discrepancia a k2 y conduce al
(n1)S 2
lmite inferior k2
.
Otra posibilidad sera adoptar soluciones unilaterales que, aunque en ciertos casos
resultan interesantes, en general son poco informativas ya que proporcionan un slo
extremo para el intervalo.
As, cuando el nivel de confianza se acumula a la izquierda P[ (dS2 k)=1 ,
) se
(n1)S2
obtiene [0,k] con lo cual el intervalo de confianza para 2 es k ,+ que no
tiene cota superior.
Si en cambio se obtiene el valor k tal que P (dS2 k)=1, entonces el intervalo
para 2 resulta ser (0, (n1)S2 ]
k .
En cualquiera de las situaciones comentadas, los intervalos de confianza para la
varianza poblacional presentan un rasgo que los diferencia de los construidos para la
media. Se trata de la incorporacin de un coeficiente o margen de carcter multipli
cativo, que sustituye a los mrgenes aditivos considerados hasta ahora.
dp=pp
p(1p)nN(0,1)
250
7. Estimacin
donde k ha sido calculado mediante las tablas de la distribucin normal para el nivel
de confianza 1 fijado.
El razonamiento anterior no resultar sin embargo aplicable para muestras de ta
mao pequeo. En estas situaciones, nicamente es posible afirmar que X (numerador
de la proporcin muestral) sigue una distribucin binomial B(n, p).
As pues, conocida la proporcin muestral p y dado un nivel de confianza 1 se
buscan dos valores de probabilidad p1 y p2 tales que:
2 ; P(X>np/p1)=
P (X<np/p2) =
2
con lo cual se obtiene directamente el intervalo de confianza [p1,p2] para p.
C. J. Clopper y E. S. Pearson (1934) elaboraron bandas grficas para la proporcin con niveles de
confianza del 95 % y el 99 % y para ciertos tamaos de muestra. Posteriormente autores como Clark
(1953) y Pachares (1960) construyeron mediante el mismo procedimiento bandas asociadas a nuevos
niveles de confianza y tamaos muestrales.
Partiendo del valor p observado en una muestra, estas grficas proporcionan bandas de confianza
que en general no son simtricas respecto a p, ya que para proporciones observadas bajas se incorpora
un mayor margen a la derecha y viceversa si la proporcin observada es cercana a 1. (A modo de
ilustracin, para n = 20 con p = 0,8 se llegara a una banda [0,55 , 0,95] mientras que para el mismo
tamao con p = 0,1 se obtiene el intervalo [0,01 , 0,33]).
X+Y(X+Y)
dX+Y =
22Xn+22Ym
251
7. Estimacin
[Comprubese]
grados de libertad.
Siguiendo el mismo procedimiento visto para la varianza, podemos construir inter
valos bilaterales o unilaterales. En el primer caso, buscaramos en las tablas de la F
dque:
dos valores k1 y k2 tales
P <k1 =2;P d
>k2
=2
S2XS2Y S2XS2Y
con lo cual se obtiene la expresin del intervalo bilateral para la razn de varianzas
2X
2
:
Y
252
7. Estimacin
[ ]
S2XS2Yk2 , S2XS2Yk1
Entre las distintas posibilidades para determinar los valores a y b de la variable binomial, optare
mos por aqulla que proporcione a y b ms prximos. Sin embargo, esta opcin no garantiza que el
intervalo [xa , xb] al que conduce sea ptimo en el sentido de maximizar la precisin.
El procedimiento descrito puede ser aplicado a la construccin de intervalos para cualquier cuantil
Q, con slo definir la variable aleatoria Z: nmero de observaciones muestrales inferiores al cuantil
Q que sigue un modelo B(n, pQ).
253
7. Estimacin
Obsrvese que el tamao de muestra es determinante para conocer el presupuesto de una investi
gacin. De ah el inters de optimizar, buscando el mnimo tamao que garantice las condiciones de
precisin y confianza que se consideran necesarias en el intervalo buscado.
XN(,)
Situacin Margen
=kn
de error() Tamao
n = muestral
( )2
k
con
X desconocida
conocida =
n n = ( )2
con conocida
254
7. Estimacin
Debemos tener en cuenta que la realizacin de un estudio piloto para estimar la dispersin pobla
cional aumentar el presupuesto necesario para nuestra investigacin. Sin embargo, tambin presenta
ciertas ventajas, ya que en la medida en que detectemos errores en este estudio previo podremos
mejorar el diseo de la encuesta definitiva.
con lo cual podemos obtener el tamao muestral necesario para garantizar un nivel
de confianza (1 ) y una precisin () concretos:
=k
p(1p)n k2p(1p)
n=
2
Puede verse que el tamao obtenido aumenta con las exigencias de confianza y
precisin para nuestro intervalo. Adems, esta expresin depende de la proporcin p
desconocida, problema que puede ser solucionado de dos formas:
Puede comprobarse fcilmente que la expresin de la dispersin p(1 p) alcanza su valor mximo
para p = 0,5. Dado que sta es la situacin ms desfavorable, en ocasiones podramos disponer de
informacin para acotar p y en consecuencia la dispersin.
255
8. Contraste de hiptesis
Nuestra vida cotidiana est repleta de decisiones y actuaciones basadas en hiptesis.
Si estos supuestos de partida son adecuados aumentarn nuestras posibilidades de xi
to mientras que, si partimos de hiptesis o supuestos inadecuados, nuestras decisiones
pueden llegar a tener consecuencias contrarias a las deseadas. De ah la importan
cia de aprovechar al mximo la informacin estadstica disponible, llevando a cabo
contrastes en los que nuestras hiptesis de partida se enfrentarn a la realidad, para
analizar si ambas informaciones son coherentes o contradictorias.
Dada la trascendencia del contraste de hiptesis, es importante prestar atencin a
todo el proceso, que incluye el enunciado de los supuestos de partida, el tratamiento
de la informacin muestral, la eleccion del estadstico de contraste y la conclusin
final, que consistir a decidir si debemos o no rechazar la hiptesis planteada.
256
8. Contraste de hiptesis
Los tests no paramtricos son enunciados ms globales relativos a una o varias dis
tribuciones poblacionales.
Esta distincin, que hemos propuesto de forma genrica para todos los procesos inferenciales, se
basa en el grado de desconocimiento sobre la poblacin, que es parcial para la inferencia paramtrica
y total para la no paramtrica.
Conviene tener presente este criterio de clasificacin ya que, como hemos visto, existen algunos
procedimientos inferenciales que, pese a ir referidos a parmetros tienen carcter no paramtrico (por
ejemplo, este es el caso de la estimacin por intervalos con desconocimiento del modelo poblacional
mediante la desigualdad de Chebyshev).
Una vez investigada su naturaleza cmo se decide si una hiptesis debe o no ser
rechazada? Algunas veces tenemos pruebas inequvocas sobre la validez de un supuesto
y entonces ste se incluye entre la informacin bsica o ncleo no contrastable. Sin
embargo, en la mayor parte de los supuestos asumimos cierto riesgo o incertidumbre
probabilstica, dado que en general las observaciones se hallan expuestas a variaciones
y por tanto podran haber sido generadas bajo la hiptesis enunciada pero tambin
bajo su complementaria o alternativa.
La filosofa del contraste de hiptesis se basa en recopilar informacin muestral que
nos permita decidir si las desviaciones observadas con respecto a la hiptesis terica
son demasiado elevadas o significativas como para poder atribuirlas al azar. En
este caso, la informacin muestral contradice claramente nuestro supuesto y debemos
rechazar nuestra hiptesis de partida.
En definitiva, las decisiones relativas a la hiptesis se basan en la informacin mues
tral disponible. Como consecuencia, se trata de un proceso de inferencia estadstica,
que lleva inherente el correspondiente riesgo inferencial.
257
8. Contraste de hiptesis
Estimacin Contraste
Aproximar caractersticas Contrastar supuestos
Objetivo
poblacionales desconocidas sobre la poblacin
Informacin Bsica Bsica
Muestral A priori o contrastable
Muestral
Herramienta Discrepancia Discrepancia
estimador-parmetro muestra-hiptesis
Resultado Estimacin puntual o Conclusin:
intervalo de confianza Rechazar o no rechazar
Garantas Nivel de confianza Nivel de significacin
Nivel crtico
Las expresiones de las discrepancias tipificadas estudiadas en captulos anteriores y sus correspon
dientes distribuciones probabilsticas siguen siendo vlidas para la realizacin de contrastes estadsti
cos, con la nica diferencia de que ahora evaluaremos dichas discrepancias bajo ciertas hiptesis que
deseamos contrastar.
Para ilustrar la conexin entre estimacin y contraste consideremos a modo de ejemplo la pro
duccin mensual de cierto mineral (X, datos expresados en miles de Tm.), variable aleatoria que
258
8. Contraste de hiptesis
se distribuye segn un modelo normal y cuyo valor esperado, segn la hiptesis de trabajo de la
empresa, es de 410 miles de Tm./mes.
Analizando esta informacin se aprecia que la hiptesis de normalidad se asume como informacin
bsica (no entra en este caso en el contraste) mientras el supuesto relativo a la produccin mensual
esperada ( = 410) es una informacin a priori que nos interesa contrastar.
Si disponemos de informacin muestral, podemos comenzar por analizar la validez del supuesto
utilizando el planteamiento ya conocido de la estimacin.
La estimacin puntual no resulta de gran ayuda ya que, aunque la poblacin sea normal con media
= 410, no cabe exigir que la media muestral coincida exactamente con este valor. As pues, sera
ms adecuado construir un intervalo de confianza para el parmetro , utilizando las expresiones
estudiadas en el captulo anterior.
Supongamos por ejemplo que, para un nivel de confianza del 95 %, el intervalo obtenido con nuestra
informacin muestral es [350, 390]. Teniendo en cuenta que el 95% de los intervalos contendran
al verdadero valor de la esperanza, en principio pensaramos que nuestro intervalo particular se
encuentra en esa proporcin.
Podemos observar sin embargo que el recorrido estimado [350, 390] no incluye el valor hipottico
de la produccin esperada ( = 410), hecho que nos llevara a pensar que el verdadero valor de se
sita por debajo de nuestro supuesto inicial y por tanto a rechazar la hiptesis = 410.
Siguiendo el mismo procedimiento, cul sera la conclusin si hubiramos obtenido el intervalo
[380, 420]? Parece claro que esta estimacin no contradice el supuesto de partida (el recorrido contiene
el valor hipottico 410), por lo cual no conllevara un rechazo de la hiptesis.
Hemos visto que los intervalos de confianza pueden conducirnos a una decisin sobre el rechazo
de una hiptesis. Sin embargo, conviene observar que en el proceso de construccin de intervalos no
hemos tenido en cuenta el supuesto que sometemos a contraste (los IC anteriores no cambiaran si la
hiptesis inicial hubiera sido = 400 o cualquier otra), hecho que permite apreciar hasta qu punto
estamos menospreciando el supuesto de partida.
Como consecuencia, la estimacin no es un mtodo recomendable cuando se pretende contrastar
una hiptesis: aunque desde un punto de vista instrumental pueda conducir a resultados vlidos, no
sucede lo mismo desde una ptica conceptual, dado que ignora por completo el supuesto planteado o
informacin a priori.
259
8. Contraste de hiptesis
Establecer la hiptesis
Los primeros desarrollos de los contrastes de significacin fueron llevados a cabo por Karl Pearson,
sobre 1900; sin embargo, la sistematizacin y desarrollo de este mtodo se deben a R.A. Fisher, hacia
el ao 1920.
A lo largo de las etapas sealadas, los contrastes de significacin estudian las dis
crepancias entre la informacin muestral y nuestra hiptesis hasta decidir si stas son
significativas para rechazar. El criterio de decisin ser probabilstico: diremos que
las discrepancias son significativas cuando stas resultan muy poco probables bajo el
supuesto de partida, y en caso contrario las calificaremos de no significativas.
En el ejemplo considerado con hiptesis = 410, una media muestral de valor x = 415 puede
resultar coherente con el supuesto de partida, ya que conduce a un error de magnitud 5 que, una
vez tipificado, proporciona una discrepancia de valor moderado. Por tanto, existirn probabilidades
razonablemente elevadas de que, con una produccin esperada de 410 miles de Tm/mes, se obtengan
muestras como la observada.
Ahora bien, si en la muestra se registrase una produccin media x = 200 nuestra conclusin
cambiara ya que bajo el supuesto = 410 resultara muy poco probable extraer muestras con
producciones medias tan bajas. As pues, este resultado nos hace dudar del valor = 410 o, en otras
palabras, es significativo para rechazar el supuesto planteado.
Como puede apreciarse en la figura 8.1, los valores significativos se presentan cuando la muestra
adopta valores muy alejados del supuesto inicial, esto es, en las colas sombreadas a derecha e izquier
260
8. Contraste de hiptesis
Informacin bsica
HIPTESIS
Discrepancia hiptesis muestra
Fijado Informacin muestral
(nivel de
METODO
CLSICO significacin)
Nivel MTODO
Valor crtico (RC) crtico DEL NIVEL
CRTICO
Informacin muestral
CONCLUSIN
da. Por el contrario, los valores centrales se corresponderan con informaciones muestrales compatibles
con la hiptesis.
261
8. Contraste de hiptesis
Se dispone as de un esquema general que delimita dos regiones complementarias en las que clasifica
mos la informacin muestral y segn en cul de ellas nos situemos decidiremos rechazar o no rechazar
la hiptesis inicial. Si ahora introducimos la informacin muestral en el problema, calculamos x = 415
y por lo tanto decidimos no rechazar la hiptesis.
En cambio, siguiendo el segundo procedimiento, la informacin muestral se considera en una etapa
previa a la regla de decisin.que la hiptesiserrores x =(415,
calcular la probabilidad de Asse si presenten es =de
410
al ymenos
en la muestra obtenemos
5 miles de Tm/mes:P X debemos
)
5
.
Este valor de p sera en nuestro caso elevado (por ejemplo p = 0,6) y a partir de l llegaramos a la
decisin de no rechazar el supuesto de partida.
[Cul sera el razonamiento si la informacin muestral proporcionase un resultado =200?]
Cabe preguntarse hasta dnde los resultados de p pueden ser calificados de "mo
derados" y a partir de qu valor pasan a ser suficientemente bajos para rechazar.
Evidentemente no existen respuestas exactas a estos interrogantes y en esta caracte
rstica reside precisamente una de las ventajas de este mtodo: el investigador, a la
262
8. Contraste de hiptesis
vista del nivel crtico obtenido decidir si rechaza o no la hiptesis pero adems, al
proporcionar el valor de p, da una idea del nivel de "fuerza" de su conclusin (as, una
hiptesis puede ser rechazada con p = 0,05, esto es, con un resultado significativo al
5%, pero evidentemente la conclusin de rechazar parece mucho ms slida si obte
nemos un nivel crtico p = 0,0001).
Hemos llamado al primer mtodo tradicional o clsico porque ha sido el usual durante muchas
dcadas y permiti resolver el problema del contraste mediante el uso de las tablas estadsticas dispo
nibles. Estas tablas estn calculadas para determinados niveles de significacin y resulta sumamente
complicado realizar interpolaciones o extrapolaciones (no lineales) de sus correspondientes funciones
de distribucin para obtener el nivel crtico asociado al resumen muestral observado.
Sin embargo, en pocas recientes este problema fue superado gracias al uso masivo del ordenador,
que realiza los clculos anteriores en un tiempo casi despreciable. As, hoy en da prcticamente todos
los programas informticos de estadstica proporcionan tanto el valor muestral de la discrepancia
asociada al contraste como su nivel crtico (p).
Si podemos disponer de las dos alternativas parece claro que el mtodo basado en el nivel crtico se-
ra preferible al clsico, ya que en ste ltimo la informacin muestral no se aprovecha completamente,
sino que se utiliza ms bien en un sentido cualitativo de rechazar o no rechazar la hiptesis.
De este modo, si para un contraste determinado dos investigadores seleccionan muestras, resul
tando una de ellas muy coherente con la hiptesis y la otra con una discrepancia en el lmite de
las significativas, ambos estudios conduciran a la misma conclusin (no rechazar). Sin embargo, el
mtodo del nivel crtico pondra de manifiesto que en el primer caso existe ms evidencia para la
conclusin que en el segundo (valor ms alto de p), y sin embargo esta diferencia entre las dos situa
ciones no se detecta en el mtodo tradicional.
J. Neyman y E. S. Pearson (1928, 1933) propusieron una metodologa para seleccionar contrastes
ptimos. Esta propuesta introduce un cambio en el planteamiento del contraste, ya que la hiptesis
de trabajo (que en este enfoque se denomina hiptesis nula) se enfrenta a una alternativa (o hiptesis
alternativa), de modo que la eleccin del mejor test no depende slo de la hiptesis sino tambin de
la alternativa.
As, cuando comparamos varios tests para contrastar hiptesis no debemos tener en cuenta slo
el nivel de significacin (que mide probabilidad de equivocarnos al rechazar la hiptesis cuando
sea cierta) sino tambin la probabilidad del error contrario (equivocarnos al aceptar la hiptesis nula
cuando la correcta sea la alternativa). Al complementario de esta segunda probabilidad se la deno
mina potencia del test, y el criterio de optimizacin de Neyman y Pearson consiste en elegir, entre
todos los tests que tienen un mismo nivel de significacin, aqul que tenga una menor probabilidad
del segundo tipo de error (o bien que presente una potencia mayor).
263
8. Contraste de hiptesis
Desarrollo:
Mtodo tradicional
Mtodo del nivel crtico
8.2.1. Enunciado
El enunciado de la hiptesis es, sin duda, un punto clave ya que traduce el su
puesto que deseamos someter a verificacin o contraste. Es importante insistir en que
las hiptesis se corresponden con nuestros postulados de trabajo, considerados vlidos
a priori, que sometemos al control de un test estadstico del que pueden salir refutados.
Como justificaremos ms adelante, los contrastes pueden llevarnos a rechazar un supuesto o hip
tesis pero nunca a aceptarlo. Ello se debe a que estamos utilizando tcnicas estadsticas, que pueden
conducirnos a la conclusin de que cierto supuesto es inadecuado (en este sentido rechazar sera equi
valente a detectar contraejemplos) pero en cambio nunca servirn para demostrar la validez general
de un supuesto. De ah que evitemos el uso del trmino aceptar, utilizando en su lugar no rechazar.
264
8. Contraste de hiptesis
2Y ,
2X la proporcin p, ...) mientras que en los problemas no paramtricos las hiptesis
H0:=410
H1:=410
Por su parte, en situaciones de inferencia no paramtrica, podramos someter a con
traste un modelo determinado, por ejemplo N( = 410, = 10), frente a la alternativa
de otra distribucin cualquiera. En este caso la formulacin sera:
H0:F(x,,)=F0(x)
H1:F(x,,)=F0(x)
donde F0(x) N( = 410, = 10).
Es importante tener presente que la hiptesis nula ser siempre un supuesto avalado
por la informacin a priori que en principio suponemos verdadero, designando como
alternativa a su complementario. Esta distincin resulta de gran trascendencia, ya
que el papel de ambas hiptesis en el desarrollo de los contrastes no es en absoluto
simtrico.
A menudo se ilustra el papel de las hiptesis nula y alternativa acudiendo a una comparacin con
los procesos judiciales: una vez enunciada nuestra hiptesis de trabajo, adoptaramos como principio
su inocencia o validez, de modo que una hiptesis ser inocente o vlida mientras la muestra no
demuestre lo contrario.
Siguiendo con este paralelismo, la metodologa del contraste de significacin consiste en evaluar
en qu medida la muestra pone en evidencia la culpabilidad o falsedad de H0.
A modo de ilustracin, si deseamos llevar a cabo un anlisis inferencial sobre cierta funcin de
demanda D = 1 + 2 P, la teora econmica nos llevara a enunciar como hiptesis nula H0 : 2 0
frente a la alternativa H1 : 2 > 0 y no viceversa. De igual modo, si la informacin a priori nos lleva
a defender el supuesto de un aumento en el ahorro medio de un perodo A respecto a otro B, el
contraste deber ser formulado como H0 : A B frente a H1 : A < B .
Tanto la hiptesis nula como la alternativa pueden ser clasificadas en simples o com
puestas. Una hiptesis (o su alternativa) se dice simple cuando de ser cierta especifica
plenamente la poblacin; por el contrario las hiptesis son compuestas cuando, incluso
siendo ciertas, no determinan a la poblacin investigada.
265
8. Contraste de hiptesis
En realidad, en el caso de contrastes genricos las definiciones anteriores deben ser consideradas
de una forma ms amplia, no limitndonos a una determinacin del modelo sino a la nitidez de la
hiptesis. El ejemplo propuesto sobre la normalidad encaja perfectamente en la definicin establecida,
pero si consideramos el contraste: H0 : X eY son poblaciones independientes frente a la alternativa
H1 : existe relacin entre X eY, la hiptesis nula de ser cierta es ntida y por tanto sera simple,
aunque no especifique el modelo probabilstico de ninguna de las dos poblaciones.
Supongamos que la informacin bsica establece nicamente dos posibilidades para la produc
cin media: = 410 o = 350 y la empresa, con informacin adicional, defiende el supuesto
= 410. Entonces el enunciado del contraste sera:
H0:=410
H1:=350
tratndose en ambos casos de hiptesis simples.
Si no existe informacin bsica sobre la produccin media y la informacin adicional nos lleva
a defender que sta ser de al menos 410 miles de Tm/mes, el enunciado sera:
H0:410
H1:<410
siendo ambas hiptesis compuestas.
[Clasificar las siguientes hiptesis y enunciar las correspondientes alternativas: 2X 2Y; X = Y;
p0,2 ; pX =pY]
Si 0 consta de un solo elemento entonces la hiptesis es simple (de ser cierta queda determinado
el valor del parmetro y en consecuencia tambin la distribucin de la poblacin), y si por el contrario
0 consta de dos o ms elementos entonces se dice que la hiptesis es compuesta. La clasificacin de
la hiptesis alternativa se hace en los mismos trminos.
A partir de la informacin muestral pretendemos contrastar si rechazamos que el parmetro se
site en el subespacio 0 o por el contrario no tenemos razones para este rechazo.
266
8. Contraste de hiptesis
Hiptesis genricas Cuando las hiptesis tienen carcter genrico admiten una mayor diversidad
de posibilidades, por lo que no pueden ser formalizadas con tanta concrecin como en el caso anterior.
Sin embargo, sustituyendo el espacio paramtrico por otro tipo de espacios la idea de establecer una
particin del mismo y su formulacin se mantiene.
En esta situacin, recoger todas las especificaciones asociadas al contraste que se plantea, inclu
yndose en 0 las favorables a la hiptesis de partida. As, si queremos contrastar que una poblacin
se distribuye segn un modelo de Poisson de parmetro frente a la alternativa de que se trata
de cualquier otro modelo, entonces el espacio paramtrico es sustituido por el de todos los posibles
modelos de probabilidad (con los infinitos parmetros admisibles) y el subconjunto correspondiente
a la hiptesis nula est constituido por un nico punto.
Si por ejemplo estamos realizando un contraste de independencia entre dos poblaciones, el espacio
paramtrico ser sustituido por el conjunto de todas las posibles relaciones entre esas variables (rela
cin lineal, hiperblica, independencia, etc.) y el subconjunto correspondiente a la hiptesis constar
de un nico elemento {independencia}, mientras las restantes posibilidades se incluyen en la alterna
tiva.
8.2.2. Desarrollo
Como hemos justificado en el epgrafe anterior, los contrastes de significacin se
basan exclusivamente en la hiptesis nula, ya que la alternativa se introduce como
contrapunto para efectuar un contraste estadstico pero no influye en nuestras conclu
siones.
Una vez formulada la hiptesis nula, su contraste se basa en la informacin mues
tral suministrada por una o varias muestras. Generalmente los contrastes se centran
en una poblacin X y para ello seleccionamos una muestra aleatoria de tamao n
(X1,...,Xn) de esa poblacin, pero si queremos llevar a cabo contrastes referidos a
dos poblaciones X e Y (igualdad de medias, independencia, homogeneidad, ...) enton
ces seleccionaremos muestras aleatorias de tamaos n y m, (X1,...,Xn), (Y1,...,Ym)
de las respectivas poblaciones.
267
8. Contraste de hiptesis
H0:=0
X
0 N(0,1)
dX/H0 =
n
H0 : Independencia de X e Y
r
i=1 s ninjn )
n ij
dIND/H0 = ni nj 2 2(r1)(s1)
j=1 ( n
Llegados a este punto tendremos que diferenciar las metodologas segn que el pro
cedimiento utilizado sea el clsico o el basado en el nivel crtico. En el mtodo del nivel
crtico la fase de desarrollo concluye con la construccin de la discrepancia, mientras
que en el mtodo tradicional el paso siguiente ser fijar el nivel de significacin , en
funcin de la seguridad que nos merece nuestra hiptesis.
Supongamos que somos totalmente rgidos y para aceptar la hiptesis exigimos discrepancia nula.
Como esta variable es continua la probabilidad de un punto es nula y por tanto en trminos de
probabilidad nunca aceptaramos la hiptesis. Parece claro que esta forma de proceder no sera en
absoluto recomendable.
Imaginemos ahora que queremos ser imparciales y asignamos el 50% de esa componente de azar
para rechazar y el mismo porcentaje para no rechazar. En este caso si la hiptesis nula es cierta
tendremos una probabilidad del 50 % de confundirnos y rechazarla, es decir, la misma que de actuar
correctamente (no rechazar una hiptesis que es cierta). Este razonamiento equivale a ignorar la
informacin adicional que nos llev a enunciar la hiptesis, cosa que no parece lgica si tenemos
cierta conviccin en nuestra informacin a priori (basada en teora, experiencia, etc.).
La pregunta clave sera entonces en cunto estaramos dispuestos a valorar la fiabilidad de nuestra
hiptesis? Con un planteamiento neutral (valoracin nula) llegaramos al 50 % anterior, pero si tene
mos una alta seguridad en nuestro postulado inicial, el margen a favor de mantener nuestra hiptesis
podra situarse en el 95 % o el 99 %, niveles de confianza habituales.
En estos casos estamos manteniendo un nivel de significacin del 5% o el 1%, lo cual significa
que estamos muy seguros de nuestra hiptesis y que, aunque el azar intervenga en la seleccin de la
muestra, vamos a ser muy tolerantes con l ya que, de ser cierto el supuesto inicial, slo asumimos
un riesgo del 1% de equivocarnos y rechazarlo.
268
8. Contraste de hiptesis
Obsrvese sin embargo que un nivel tan bajo tiene tambin sus implicaciones negativas, ya que
podemos estar considerando como azar desviaciones que pudieran ser atribuibles a otras circunstan
cias. Dicho de otro modo, nuestra elevada tolerancia podra llevarnos a no rechazar hiptesis incluso
cuando stas son falsas.
A la vista de estos comentarios, parece claro que el nivel de significacin debera depender de
nuestra seguridad en el supuesto planteado y por lo tanto asumimos un tratamiento asimtrico para
las decisiones de rechazar y no rechazar. Cuando realizamos un experimento no debemos esperar que
pueda conducirnos a cualquier decisin, sino que el resultado natural sera no rechazar, y solamente
si aparecen discrepancias demasiado elevadas para ser asumidas decidiremos rechazar.
En definitiva, la metodologa del contraste de hiptesis estadsticas est diseada de modo que
cuando tomemos la decisin de rechazar, sta se encuentre estadsticamente avalada. Sin embargo,
cuando no rechazamos ello no significa que la estadstica est avalando la decisin de aceptar, sino
nicamente que la estadstica se abstiene y es la seguridad con la que hemos planteado nuestra
hiptesis (esto es, la informacin adicional o complementaria) la que garantizar nuestra decisin.
En definitiva, aceptamos por un conocimiento profundo del problema econmico y no porque la
distribucin de las discrepancias as nos lo aconseje.
Siguiendo con el mismo razonamiento, parece claro que si queremos equilibrar ms las responsa
bilidades deberemos elevar el nivel crtico.
La expresin P(d > k/H0) representa la probabilidad de que la discrepancia supere determinado valor
cuando la hiptesis nula es cierta. Obsrvese sin embargo que esta notacin, habitual en el contraste
de hiptesis estadsticas, no es completamente correcta, ya que las probabilidades anteriores no son
realmente probabilidades condicionadas, al no tener la hiptesis carcter aleatorio.
A travs de este proceso hemos pasado de una particin del espacio paramtrico a otra particin
sobre la recta real. En los problemas de contraste paramtrico ser muy til esta transformacin, que
permite expresar las reglas de decisin en trminos de la muestra.
En principio, la regin crtica o de rechazo sera un subconjunto del espacio muestral, integrado
por todas las muestras (x1,...,xn) de n que conducen al rechazo de H0. Sin embargo, teniendo
en cuenta que la informacin muestral aparece resumida mediante las discrepancias, resultar ms
operativo definir la regin crtica como un cierto recorrido de la recta real asociado a las discrepancias
o bien, si el contraste va referido a parmetros, a los correspondientes estimadores.
Los valores crticos delimitan la regin crtica (RC) en la que se producir el rechazo
de nuestra hiptesis y su complementaria, la regin de aceptacin (RA). Adems, en
269
8. Contraste de hiptesis
el caso de que las hiptesis vayan referidas a parmetros es posible obtener a partir
de estos valores crticos (k) unas nuevas constantes C que definen las regiones crtica
y de aceptacin en relacin al estimador T.
8.2.3. Conclusin
La conclusin es la ltima etapa del procedimiento y abarca los pasos que se realizan
desde la seleccin de una muestra particular hasta la decisin de rechazar o no la
hiptesis.
Una vez que se selecciona una muestra concreta (x1,...,xn), sobre ella la discre
pancia tipificada adoptar un valor determinado d, cuyo papel es distinto segn que
sigamos el mtodo clsico o el del nivel crtico.
En el mtodo clsico la conclusin se reduce a comprobar si este valor d de la dis
crepancia se sita dentro de la regin crtica. En caso afirmativo, la decisin final ser
rechazar la hiptesis al nivel de significacin establecido (el resultado es significativo
a ese nivel) mientras que en el supuesto contrario no existe evidencia para rechazar la
hiptesis.
En el mtodo del nivel crtico no hemos introducido ningn valor de y por tanto
no es posible determinar una regin de rechazo. El procedimiento consiste entonces en
utilizar el valor muestral de la discrepancia d, con el cual podemos calcular el nivel
crtico p:
Contraste Bilateral: p = P(|d| > |d|/H0) si la distribucin es simtrica y
p = 2P(d>d/H0) o p = 2P(d<d/H0) en otro caso
Contraste Unilateral: p = P(d > d/H0) o p = P(d < d/H0), segn el
enunciado de la hiptesis
La regla de decisin se establecer a partir de los datos observados, de modo que un
mayor nivel crtico indicar una mayor conformidad de la evidencia emprica (muestra)
con la hiptesis de trabajo, y en cambio los niveles crticos bajos van asociados a
grandes discrepancias. Esto es:
Si la informacin muestral no discrepa significativamente del supuesto de partida
no existen razones para rechazar la hiptesis (valor de p alto).
Si la informacin muestral no es compatible con el supuesto de partida, los
resultados pueden ser calificados de "significativos" para rechazar la hiptesis
(valor de p bajo).
Los comentarios anteriores ponen de manifiesto el distinto papel de la informacin muestral en los
dos procedimientos de contraste. En el mtodo clsico esta informacin se utiliza tan slo de forma
cualitativa: una vez determinadas dos categoras correspondientes a la regin crtica (RC) y la regin
de aceptacin (RA), nuestra conclusin se limitar a observar a cul de ellas nos conduce la muestra
observada.
Por el contrario, en el mtodo del nivel crtico la informacin muestral es el punto de partida para
llegar a una decisin, es decir, para evaluar si el resultado debe ser considerado significativo.
270
8. Contraste de hiptesis
Es posible establecer una conexin entre el mtodo del nivel crtico y el mtodo clsico en los
siguientes trminos: dado un nivel crtico p, la conclusin sera rechazar para valores de significacin
superiores a l. En cambio, para niveles de significacin inferiores a p, la hiptesis no se rechazara.
As, si nuestra muestra conduce a un nivel crtico p = 0,07 la conclusin debera ser rechazar la
hiptesis para cualquier nivel de significacin superior (10 %, por ejemplo). Ello se debe a que el valor
muestral que lleva asociado el nivel crtico obtenido se encuentra necesariamente dentro de la regin
crtica fijada al 10 %.
Sin embargo no rechazaramos para niveles inferiores (5%, 1%) ya que stos llevan asociadas
regiones crticas ms pequeas, en las que no se encontrara situada nuestra informacin muestral.
(figura 8.4)
Obsrvese que hemos utilizado tres trminos: valor crtico, nivel crtico y nivel de significacin,
que -aunque puedan resultar similares- tienen significados distintos. As, cuando hablamos de niveles
criticos o niveles de significacin nos estamos refiriendo a probabilidades, mientras que los valores
crticos son valores de la discrepancia que delimitan la regin crtica de un contraste.
El nivel de significacin es una probabilidad asociada a la regin crtica del contraste, esto es,
delimita la regin de los valores significativos para rechazar. Por el contrario el nivel crtico es una
probabilidad asociada a la muestra, a partir de la cual el investigador deber llevar a cabo su decisin.
Los procedimientos descritos sern aplicados a los contrastes habituales en los apar
tados que siguen. No obstante, conviene llevar a cabo una reflexin general sobre la
importancia del supuesto o hiptesis como punto de partida del proceso.
En efecto, hemos visto que los contrastes comienzan con un enunciado terico que
sometemos a un test y finalizan con una conclusin basada en la informacin mues
271
8. Contraste de hiptesis
tral. Desde un punto de vista prctico, el investigador podra plantearse espiar los
datos, es decir, examinar la informacin muestral antes de establecer su supuesto,
pero esta posibilidad invalidara el planteamiento ya que la hiptesis o informacin a
priori quedara desvirtuada.
En pocas recientes algunos paquetes estadsticos han puesto de moda una tcnica llamada anlisis
exploratorio de datos que podramos resumir de modo simple mediante el interrogante dado este
conjunto de datos qu podemos afirmar?. Este tipo de anlisis puede ser til para llevar a cabo
una sntesis de la informacin muestral, pero desde el punto de vista del mtodo cientfico resulta
peligroso, ya que puede inducir a confusin entre las informaciones a priori y a posteriori, con lo cual
el investigador planteara directamente hiptesis para rechazar o hiptesis para validar.
Naturalmente cuando trabajamos con poblaciones finitas y mtodos de muestreo sin reposicin,
el proceso de seleccin de la muestra puede ser aleatorio, pero en cambio las variables muestrales no
son independientes (los valores que pueden tomar dependen de las observaciones anteriores) ni estn
idnticamente distribuidas (el sistema de probabilidades ir cambiando en cada seleccin).
272
8. Contraste de hiptesis
Sin embargo, hasta ahora no nos hemos ocupado de medir el nivel de aleatoriedad
de la muestra o contrastar si es asumible o no que los datos muestrales son aleatorios
o, equivalentemente, que se trata de una m.a.s.
Para llevar a cabo este contraste enunciamos la hiptesis nula H0: los datos cons
tituyen una m.a.s. frente a la que podran formularse diferentes alternativas. As, la
hiptesis H1 podr venir dada por violaciones de hiptesis concretas (no aleatorie
dad, no independencia, distribuciones no idnticas) o bien ser explicitada en trminos
amplios (los datos no constituyen una m.a.s.).
A modo de ilustracin supongamos que se lanza diez veces una moneda. Si todos los resultados
fueran caras o todos cruces parece poco creible que el comportamiento de la moneda fuese aleatorio, y
se dira lo mismo si se observan dos rachas (k caras y nk cruces consecutivas). Adems, aunque nos
resulte llamativo, tampoco parece justificado por el azar un nmero excesivo de rachas (por ejemplo,
si se presentasen diez rachas esto significara que se iran alternando sistemticamente caras y cruces,
que sera un efecto contrario al comportamiento azaroso).
Por el contrario, si obtuvisemos un nmero intermedio de rachas (cinco o seis rachas de diferente
longitud) entonces s podramos asumir la hiptesis de aleatoriedad.
Cmo se puede trasladar este proceso a una variable aleatoria cualquiera? Se trata de definir
sobre dicha variable dos categoras y observar las rachas que se producen con las mismas.
273
8. Contraste de hiptesis
En ciertas situaciones el test de rachas puede plantearse como un contraste unilateral. Este es el
caso cuando la hiptesis alternativa indica la existencia de una tendencia en algn sentido, que ira
asociada a una sola cola.
En el caso de que el tamao muestral n sea elevado, la proporcin de unos (p) y de ceros (1 p)
puede considerarse como un valor fijo. Wald y Woldfowitz demostraron que la distribucin de R es
asintticamente normal con caractersticas E(R)=2np(1 p) y V ar(R)=4np2(1 p)2, con lo cual
se obtiene la discrepancia tipificada asociada al estimador de rachas:
R 2np(1 p)
dR = 2np1p) N(0,1)
274
8. Contraste de hiptesis
en primer lugar, su coincidencia con el coeficiente de correlacin muestral: y en segundo lugar que,
para tamaos muestrales elevados, dicha expresin converge bajo la hiptesis nula a un modelo normal
0, )
N ( 1n1
dr Definimos
= rn 1eneste caso laAs,
N(0,1). discrepancia tipificada
se observar el valorasociada al dr
muestral testque,
de los rangos
si H0 como
es cierta,
Este contraste resulta de gran inters en el mbito de las series temporales, cuando deseamos
estudiar si una serie presenta o no tendencia. En tal situacin, la hiptesis nula sera H0: la serie no
tiene tendencia, equivalente al supuesto de m.a.s.
1En el caso de que varias observaciones sean coincidentes y por tanto ocupen el mismo lugar en
la ordenacin, la solucin ms frecuente consiste en asignar a todas estas observaciones el rango
promedio.
275
8. Contraste de hiptesis
Los tests considerados no agotan todas las posibilidades para contrastar la aleato
riedad de una muestra. Un mtodo que se utiliza habitualmente cuando los datos se
generan en un soporte temporal consiste en estudiar la correlacin entre las obser
vaciones. Si las observaciones fuesen independientes y consideramos los conjuntos de
datos (x1 ,...,xn1) y (x2 ,...,xn) stos presentaran una correlacin nula. Podramos
considerar cualesquiera otros subconjuntos de esas observaciones (por ejemplo los n2
primeros datos y los n2 ltimos) de modo que, si entre alguno de estos subconjuntos en
contramos correlacin (en este caso se denomina autocorrelacin) entonces el proceso
generador de la muestra no sera aleatorio sino que presentara un patrn determinista
o sistemtico.
276
8. Contraste de hiptesis
Este tipo de tests suelen basarse en el hecho de que la funcin de distribucin muestral converge en
probabilidad a la poblacional (distribucin origen que da lugar a la muestra). Este resultado, aunque
admite diversos enunciados, suele conocerse como lema de Glivenko-Cantelli.
Karl Pearson (1857-1936) se plante la necesidad de un criterio para evaluar hasta qu punto una
curva ajustada a un conjunto de observaciones era vlida. As ide la medida chi-cuadrado (1900),
estudiando adems su distribucin que posteriormente se revel como un instrumento de gran utili
dad en diversas aplicaciones estadsticas.
En este contraste es necesario tener presente que, cuando la distribucin es continua, los intervalos
deben abarcar todo el recorrido de la variable.
Cada uno de esos intervalos ser del tipo Ii = (ai, bi] por lo que, de ser cierta la
hiptesis nula, la probabilidad de que una observacin pertenezca a ese intervalo ser:
277
8. Contraste de hiptesis
Hasta aqu estamos suponiendo una m.a.s. por lo que las frecuencias de cada intervalo son aleato
rias y en consecuencia tambin lo ser la discrepancia tipificada asociada a este estadstico.
Cuanto mayor sea el nmero de intervalos en los que agrupemos los valores muestrales, tanto ms
fino ser el contraste. Sin embargo, el proceso de convergencia a la 2 exige que la frecuencia esperada
de cada intervalo sea mayor o igual que 5, con lo cual si para algn i el producto npi < 5 debemos
278
8. Contraste de hiptesis
biai
pi=P(ai<Xbi)= 100
Intervalo n i npi
(0,10]9 5,2
(10,20] 11 5,2
(20,50] 12 15,6
(50,100] 20 26
Total 52 52
Una de las ventajas del contraste de bondad de ajuste mediante la chi-cuadrado es que, en el
caso de que la conclusin sea el rechazo de la hiptesis, este test permite detectar las observaciones
causantes de dicho rechazo. Para ello bastara examinar las discrepancias individuales que aparecen
agregadas en la expresin final chi-cuadrado y de este modo podremos saber si dichas discrepancias
son homogneas o bien existe un nico valor extremo, que incluso podra deberse a errores en la
muestra.
279
8. Contraste de hiptesis
As, en el ejemplo anterior se observa que la mayor discrepancia corresponde al intervalo (10,20]
en el que se han registrado 11 observaciones muestrales cuando la frecuencia terica sera aproxima
damente la mitad [Comprubese que para este intervalo se obtiene npi = (52)(0,1) = 5, 2].
Cuando esta diferencia mxima es pequea quiere decir que ambas f.d. se aproximan,
por lo cual no podramos rechazar la hiptesis nula. Si por el contrario la diferencia
no fuese admisible rechazaramos la hiptesis.
En el caso de una muestra genrica, el supremo anterior ser una v.a. cuya distri
bucin de probabilidad exacta para tamaos pequeos de n, bajo el supuesto de que
la hiptesis nula es cierta, fue obtenida por Massey (1952). Para tamaos elevados
de muestra la probabilidad de que Dn sea mayor que el valor observado se aproxima
mediante la expresin:
lm P (Dn > Dn/H0)=2 (1)i1e2i2Dnn2
n i=1
En cualquiera de los dos casos podemos obtener el nivel crtico que nos indica si
debemos o no rechazar la hiptesis de que la poblacin sigue un modelo determinado.
280
8. Contraste de hiptesis
Podemos observar que esta expresin depende (adems del valor) nicamente de n
(nmero de observaciones) y no de la distribucin terica supuesta. Esto significa que
el lmite de tolerancia admisible para rechazar una hiptesis de poblacin exponencial,
gamma o normal es la misma.
Para determinar Dn debemos calcular todas las diferencias entre la distribucin
muestral y la terica. Las mayores de estas diferencias se encontrarn en los puntos de
salto de la distribucin muestral por lo que nos bastar con observar las desviaciones en
los puntos (x1,...,xn). Sin embargo, debemos tener en cuenta que Sn(xi) = Sn(x+i)
(dado que la f.d. muestral es escalonada) por lo que para calcular la desviacin suprema
es necesario contemplar las 2n diferencias:
Sn ) F0(xi) Sn + )
(x , (x F0 (xi ) ,i = 1,...,n
i i
A.N. Kolmogorov introdujo en 1933 el estadstico Dn para el que elabor las primeras tablas de
probabilidad. Por su parte, N.V Smirnov (1939) public tablas ms precisas y posteriormente (1944)
lleg a acotar las probabilidades del estadstico de Kolmogorov.
Como puede apreciarse en la tabla que sigue, dados un tamao muestral n y un nivel de significacin
, las tablas de Lilliefors proporcionan valores crticos inferiores a los de Kolmogorov-Smirnov. Este
hecho se debe a que el desconocimiento de los parmetros poblacionales debe ser compensado siendo
ms estrictos en el contraste, es decir, admitiendo menores desviaciones.
281
8. Contraste de hiptesis
2Enel captulo 2 hemos definido los coeficientes de asimetra y apuntamiento 1 y 2 de Fisher, que
para una variable aleatoria X vienen dados por las expresiones
1= 3
3y2= 4
43
Para el contraste de normalidad examinamos las correspondientes caractersticas muestrales:
g1= m3
S3yg2= m4
S4
3
282
8. Contraste de hiptesis
24
Var(g2) =
n
y de ah que se combinen ambas medidas en un contraste conjunto:
6g1+
n 2 24g
n 22
2 2
Los mtodos anteriores no agotan las posibilidades para contrastar un modelo probabilstico. As,
la normalidad puede ser contrastada mediante el mtodo de Shapiro y Wilks, que estudia si una
muestra representada en papel probabilstico normal puede ser ajustada adecuadamente a una recta.
283
8. Contraste de hiptesis
Es evidente que las tres situaciones comentadas no agotan la casustica de los contrastes. Sin
embargo, son suficientes para describir la metodologa de los contrastes de significacin, ya que otros
posibles enunciados se resolveran de modo similar.
As, si planteamos un contraste de hiptesis nula simple frente a alternativa simple:
H0 : = 0
H1 : = 1
el espacio paramtrico tendra dos regiones (cada una de ellas con un valor nico) por lo cual el
planteamiento sera de una sola cola (a la derecha si 1 < 0 y a la izquierda en caso contrario).
Obsrvese que en todos los casos se incluye en la hiptesis nula el valor concreto del parmetro 0
que marca su lmite con la alternativa.
En los apartados que siguen desarrollamos los contrastes referidos a los parmetros
ms habituales, tanto por el mtodo clsico como por el del nivel crtico. En sntesis,
para un contraste bilateral el esquema de trabajo es el ilustrado en la figura 8.6.
Por su parte, los contrastes de hiptesis unilaterales se resolveran segn el mismo
esquema de trabajo, con la salvedad de que consideraramos una sola cola, tanto en
la regin crtica como en la probabilidad calculada como nivel crtico.
Como podemos apreciar en los esquemas anteriores, el mtodo del nivel crtico empezara respon
diendo a la pregunta qu dice la muestra? Para evaluar si la muestra dista mucho del valor hipottico
se calcula la discrepancia tipificada d y su correspondiente nivel crtico p.
Por el contrario, el mtodo clsico proporciona reglas de decisin, estableciendo regiones crticas
o de rechazo de una hiptesis. Slo al final del proceso se aplica dicha regla genrica a la muestra
concreta para obtener una conclusin relativa a la hiptesis planteada.
284
8. Contraste de hiptesis
Enunciado I:
H0 : = 0
H1 : = 0
(,k) (k,+)
285
8. Contraste de hiptesis
es decir
(,400,2) (419,8,+)
con lo cual el valor observado x = 430 pertenece a la regin crtica y conduce al rechazo de la hiptesis.
Mediante el enfoque del nivel crtico llegaramos a la misma conclusin ya que, asumiendo como
cierta la hiptesis nula, se obtendra: =P
P(|dX|>|dX|/H0)=P ( n ( )
X
X >4 =0,0000
>4304102016 ) n
y dicho resultado nos informa de que, asumiendo una produccin esperada de 410 miles de Tm/mes,
sera inverosmil una muestra como la observada (la probabilidad p es muy baja); por tanto el resul
tado es claramente significativo para rechazar.
[Estudiar cul sera la conclusin en el caso de que en la muestra se hubiera observado x = 415]
286
8. Contraste de hiptesis
Enunciado II:
H0 : 0
H1 : <0
Como puede verse, la expresin de clculo del nivel crtico depende de la formulacin de las hi
ptesis, pues pretende evaluar la probabilidad de distanciarnos tanto o ms que la muestra de la
hiptesis nula y, segn cules sean los enunciados, se traducir en la probabilidad de dos colas, de la
cola a la derecha o de la cola a la izquierda.
Enunciado III:
H0 : 0
H1 : >0
287
8. Contraste de hiptesis
Enunciado IV:
H0 : = 0
H1 : = 1
Para el contraste de una hiptesis simple frente a una alternativa tambin simple,
nos remitimos a la descripciones anteriores, ya que cuando 1 < 0 el planteamiento
coincidira con el visto para el enunciado II y en caso contrario (1 > 0) con el III.
que, en caso de que 2 fuese desconocido, podra ser aproximada mediante la corres
pondiente estimacin muestral con S2.
De modo similar, la desigualdad de Chebyshev permitira llegar a obtener cotas
superiores para el nivel crtico:
|dX| > dX
p= P ( /H0) ( 1 )
dX 2
288
8. Contraste de hiptesis
macin poblacional ya que, para rechazar una hiptesis al mismo nivel de significacin,
la evidencia muestral debe ser ahora ms fuerte. Este hecho se debe a que con distri
bucin desconocida sern mayores los errores debidos al azar, con lo cual admitiremos
mayores discrepancias, llegando por tanto a regiones crticas menores. Alternativa
mente, si optamos por el mtodo del nivel crtico solamente podramos llegar a una
cota superior para la probabilidad p.
H0 : 2 20
H1 : 2 > 20
(n1)S220 2n1
dS2/H0 =
289
8. Contraste de hiptesis
Enunciado bilateral:
H0:2=20
H1 :2=20
290
8. Contraste de hiptesis
( ( )
0,k120n1) k220n1,+
RC para S2:
k1 k2
n1< 1 y 1
n1>
Cmo se resolvera este contraste por el mtodo del nivel crtico? Por tratarse de
un contraste bilateral debemos tener presentes las discrepancias en los dos sentidos,
con lo cual se obtienen niveles crticos dados por:
P (dS2 < dS2/H0) si la menor probabilidad se encuentra en la cola de la izquierda
Obsrvese que en realidad este planteamiento coincide con el de los contrastes bilaterales para ,
si bien en aquel caso el clculo resultaba ms sencillo al tratarse de una distribucin simtrica, que
permita la utilizacin de discrepancias en valor absoluto.
Enunciado bilateral:
H0 : p = p0
H1 : p = p0
pp0 N(0,1)
dp/H0 =
p0 (1p0 )
n
y en consecuencia bastara con buscar un valor k tal que P (|dp| > k/H0) = donde
es el nivel de significacin.
291
8. Contraste de hiptesis
Una vez determinada la constante k, las regiones crticas para la discrepancia y para
el estimador se obtienen como sigue:
Obsrvese que en este caso no es necesario estimar la varianza de la proporcin muestral, dado que
sta quedar completamente determinada bajo la hiptesis nula p = p0 .
Del mismo modo, si optsemos por el mtodo del nivel crtico, ste se calculara
mediante la expresin:
dp )
p=P (|dp| > /H0
292
8. Contraste de hiptesis
As, en el caso de varianzas desconocidas pero coincidentes, la regin crtica asociada al contraste
bilateral sera del tipo:
<11>)w(1i7:13%i<13)1w)
donde k se obtendra en tablas de la t de Student con n + m 2 g.l.
H 0H4X+5MY1C
H auxJrui/fc
con Oi, B y c constantes, cuya resolucin se llevara a cabo de modo similar a los
contrastes de diferencias de medias.
293
8. Contraste de hiptesis
H0 : 2X = 2Y
H1 : 2X = 2Y
S2X
d S2XS2Y/H0 = Fn1m1
S2Y
[Por qu?]
Dado que el contraste planteado es bilateral, la regin crtica vendra determinada
por los valores inferiores a k1 o superiores a k2. De modo anlogo, si se sigue el mtodo
del nivel crtico la probabilidad correspondiente al nivel crtico sera el rea encerrada
en las dos colas de la distribucin F de Snedecor.
Obsrvese que en este contraste la discrepancia coincide con la razn de varianzas muestrales, por
lo cual la regin crtica es en ambos casos (0,k1) (k2 ,+).
H0 : 2X 2Y (0,k)
conP
H0 : 2X<2Y ( S2XS2Y<k/H0) = p=P(d<d/H0)
H0 : 2X 2Y conP (k,+)
H0 : 2X>2Y ( S2XS2Y>k/H0) = p=P(d>d/H0)
294
8. Contraste de hiptesis
Cabe por ltimo sealar que este planteamiento puede ampliarse a cualquier contraste de propor
cionalidad de varianzas, en los que la hiptesis nula sera:
2
H0:X
2 =c2
Y,H0:2
Xc2
YoH0:2
XcY
295
8. Contraste de hiptesis
Jarque-Bera de forma con las del g1, g2: Medidas de 22 (Aprox.) P(dJB > dJB /H0)
destacables:
Como vemos, estos contrastes presentan diferencias en cuanto a la discrepancia
considerada y a las condiciones de aplicacin.
El test chi-cuadrado introduce una arbitrariedad inicial al tener que agrupar los
datos muestrales en intervalos. La clasificacin que se haga depende del criterio de
la persona que realice el contraste y el valor de la discrepancia es distinto segn la
agrupacin realizada.
Por otra parte, tanto el test chi-cuadrado como el de Jarque-Bera conducen slo a
una distribucin aproximada de la discrepancia, mientras el test de K-S proporciona
una distribucin exacta.
Tanto el test chi-cuadrado como el propuesto por Jarque y Bera para la normalidad
admiten una mayor holgura que el de K-S. En este sentido siempre que sea posible
aplicar el test de K-S (distribuciones continuas y con parmetros conocidos), este
contraste resultar preferible.
En ocasiones, las categoras de clasificacin se corresponden con intervalos: L0 L1, L1 L2, ..., Lr1 Lr
y M0 M1, M1 M2, ..., Ms1 Ms que cubren el recorrido de las variables X e Y respectivamente.
296
8. Contraste de hiptesis
Y/XA1Arnj
B1n11nr1n1
.. .. .. .. ..
. . . . .
Bs n1snrsns
ni n1 nr n
Dado que estamos trabajando con una muestra genrica, las frecuencias absolutas
nij sern v.a. La notacin es la usual en Estadstica Descriptiva donde
ni= s nij,nj= r r s
nij,n ni= nj
=
j=1 i=1 i=1 j=1
H0:pij=pipj,i=1,...,r, j=1,...,s
la hiptesis alternativa ser que para algn par (i, j) no se verifique la igualdad ante
rior. El contraste planteado puede ser equivalente a uno de bondad en el que ajustamos
cada elemento de la tabla bidimensional al comportamiento terico de independencia.
nij
La probabilidad conjunta o frecuencia observada puede calcularse como pij = n
y las probabilidades marginales pi y pj (correspondientes a los valores poblacionales
pi = P(X Ai), pj = P(Y Bj)) sern desconocidas por lo que debemos proce
der a su estimacin a partir de los datos muestrales. Los estimadores MV de estas
probabilidades son:
ni nj
pi= n y pj = ,i=1,...,rj=1,...s
n
As pues, sustituyendo podemos expresar la hiptesis nula como:
H0:nij= ninj i=1,...,rj=1,...s
n ,
n )2
ninj
r
i=1 s
nij
dIND = ninj
j=1 (
n
que, en el supuesto de independencia, converge a una 2 con (r 1)(s 1) g.l.
Para determinar los g.l. debemos tener en cuenta que en principio tenemos rs frecuencias obser
vadas y partimos de una restriccin inicial:
297
8. Contraste de hiptesis
r
i=1 s
n= nij
j=1
rs1(r1)(s1)=rsrs+1=(r1)(s1)
Para que podamos obtener una buena aproximacin de esta discrepancia al modelo 2 se exige
que la frecuencia esperada en cada casilla sea no inferior a 5. Por tanto, si para una clasificacin de
terminada no se verificase este supuesto, deberamos proceder a una reclasificacin de las categoras
hasta conseguir el objetivo anterior.
298
8. Contraste de hiptesis
Ahora bien, para obtener el nivel crtico asociado a este test tendremos que calcular
la probabilidad de obtener esta distribucin de frecuencias o cualquier otra ms ex
trema que ella, esto es, cualquier otra distribucin obtenida a partir de la actual que
presente mayor disparidad entre las proporciones de las categoras.
Obsrvese que esta expresin podra ser tambin obtenida razonando de forma simtrica, esto es,
considerando como casos posibles todas las combinaciones de nA elementos a partir del total nm y
como casos favorables las combinaciones de tamao n1A a partir de la muestra n1 y de tamao n2A
a partir de la muestra n2.
Se tendra entonces la expresin:
( n )( n )
1 2
n1A n 2A
p= (nmnA )
[Comprubese]
A B Sumas
Muestra 1 6 2 8
Muestra2 1 2 3
Sumas 7 4 11
299
8. Contraste de hiptesis
La hiptesis nula es que las poblaciones no difieren en cuanto a la clasificacin en las categoras
anteriores o en otras palabras, que la proporcin de unidades clasificadas en la categora A es la
misma en las dos poblaciones.
La probabilidad asociada a esta tabla ser:76 42
( )( )
p = (118) = 0,25454
Para obtener tablas ms extremas que la actual, debemos tener en cuenta que el total de unidades
(N = 11) debe mantenerse, al igual que el total de unidades a favor (M = 7) y el de unidades
observadas (n = 8); es decir, debemos considerar las combinaciones que se pueden hacer con esta
tabla que conduzcan a una distribucin con ms desequilibrio, pero manteniendo los totales marginales
de la tabla anterior. En esta situacin, una tabla ms extrema que la inicial sera:
A B Sumas
Muestra 1 7 1 8
Muestra2 0 3 3
Sumas 7 4 11
p= ( )( )
(118)=0,1212
La regla de decisin del contraste de Fisher se establece en funcin del nivel crtico
(probabilidad exacta).
Cuando las frecuencias son elevadas debemos tener en cuenta que la distribucin
hipergeomtrica se aproxima por otros tipos de modelos, por lo cual sera preferible
utilizar tests alternativos.
Una variante de este test es la prueba de la mediana. En este caso las categoras
A y B representan los sucesos (,Me) y [Me,+) respectivamente, y la prueba
contrasta si las poblaciones son homogneas o no en cuanto a su tendencia central.
300
8. Contraste de hiptesis
Estas categoras suelen corresponderse con intervalos disjuntos L0 L1, L1 L2, ..., Ls1 Ls
que cubren el recorrido de las variables estudiadas.
H0:pi1=ph1,...,pis=phs, i,h=1,...,r
es decir, la probabilidad de cada categora es la misma en todas las variables y por
tanto tiene que coincidir con la marginal (pj = P(Aj) = pij,i = 1,....,r); as pues,
para toda categora j, debe verificarse: H0 :pij = pj , i = 1,....,r.
Para contrastar esta hiptesis se toma una m.a.s. de cada una de las variables
X1,...,Xr con tamaos respectivos n1,....nr . A partir de estas muestras se pretende
contrastar la hiptesis anterior. Una vez clasificadas las muestras con arreglo a las s
categoras anteriores, podemos resumir su informacin, en trminos de frecuencias, en
la siguiente tabla:
Aj/Xi
A1 Muestra
n11 X1
... Muestra
nr1 Xr nj
n1
.. .. .. .. ..
. . . . .
AS n1s nrs ns
Tam.muestra ni n1 nr n
Observemos que aqu el nmero de g.l. no es rs1, puesto que esta cantidad tiene algunas restric
ciones ms. Ello se debe a que los tamaos de las r muestras, ni , vienen dados y tambin su suma,
301
8. Contraste de hiptesis
n.
que se distribuir asintticamente segn un modelo 2 con g.l. (r 1)(s 1). [Justi
fquese el nmero de estos g.l.].
A partir de la informacin proporcionada por muestras concretas, podemos calcular
la discrepancia observada:
r
i=1 s n )2
ninj
dHOMOG = nij
ninj
( nj=1
que nos conduce a un nivel crtico p = P(d>d/H0),
en funcin del cual rechazare
mos o no la hiptesis formulada.
302
8. Contraste de hiptesis
de una de las muestras seran sistemticamente ms elevados que los de la otra, y por
tanto se situaran en las colas de la serie ordenada por rangos.
El estadstico de contraste utilizado es:
UX = nm + n(n + 1)
2 RX
Cuando los tamaos muestrales son elevados (al menos 10) y la hiptesis nula es cierta, pode
mos utilizar una aproximacin normal con los parmetros sealados. Si por el contrario los tamaos
muestrales son bajos, entonces la distribucin exacta de U se encuentra tabulada, y a partir de ella po
demos obtener para determinados niveles de significacin los valores crticos para realizar el contraste.
A modo de ilustracin, supongamos que disponemos de dos muestras relativas a niveles de conta
minacin diarios (partculas en suspensin, ug/m3N.) y deseamos contrastar si proceden de la misma
poblacin.
X 1225173219
Y 1813161524
UX=55+ 5
2 6 32=8
Este resultado no difiere mucho del valor esperado, E (UX /H0) = 12,5 y por tanto no conduce al
rechazo de la hiptesis nula (en concreto, dado el pequeo tamao muestral, para obtener el nivel
crtico asociado a este valor deberamos acudir a la distribucin tabulada de la U, donde aparece
P(UX 8) = 0,21 y por tratarse de un contraste bilateral se obtendra p = 0,42).
303
8. Contraste de hiptesis
304
8. Contraste de hiptesis
expresin que bajo la hiptesis nula sigue aproximadamente una distribucin 2 con
r-1 g.l.
Sobre muestras concretas calculamos el valor de la discrepancia observada, d, que
permite determinar el nivel crtico p = P (dKW > dKW/H0) en funcin del cual se
establece la decisin del contraste.
En este contraste tenemos las mismas restricciones que en otras aplicaciones de la 2: se exige que
el tamao de cada muestra nj sea mayor o igual que 5 ya que en otro caso habra que desarrollar un
modelo de probabilidad especfico.
Entre las aplicaciones del contraste de Kruskal-Wallis resulta especialmente interesante, en el caso
de series temporales, el contraste de estacionalidad. En esta situacin la hiptesis nula es la no
existencia de estacionalidad, o equivalentemente, la identidad de las poblaciones correspondientes a
los diferentes subperodos considerados (meses, trimestres, etc.).
Categora B nBA nB
305
8. Contraste de hiptesis
(
nAB nAB+nBA2 ) nBA nAB+nBA2 )2
(nAB nBA)2
dM = nAB +
2 nBA 2 +( nAB +
2 nBA =
nAB + nBA
que, bajo la hiptesis nula, se distribuye aproximadamente como una 2 con 1 g.l.
Para una buena aproximacin la frecuencia esperada debera ser mayor o igual que 5 y adems se
recomienda introducir la correccin de continuidad:
306
8. Contraste de hiptesis
r
nj
j=1
nj =
r
y por ni el nmero total de xitos correspondientes al elemento o grupo i-simo, la
discrepancia viene dada por la expresin:
r(r 1) r (nj nj)2
j=1
dQ=
N N
r ni n2i
i=1 i=1
que bajo la hiptesis nula sigue aproximadamente una distribucin 2 con r 1 g.l.
Elementos12345678910 nj
Muestras
Muestra1 11101111110
Muestra2 10011110106
Muestra3 11100111107
ni 322123323122
n2i 944149949154
(97,3)2+(67,3)2+(77,3)2]
dQ = 3(31) [ = 2,3
(3) (22) 54
valor que lleva asociado un nivel crtico p = P (22 > 2,3/H0) = 0,3114 y por tanto
no resulta significativo para rechazar la hiptesis planteada.
307
8. Contraste de hiptesis
Este interrogante no tiene una respuesta nica, ya que sta depender de nuestras
condiciones de trabajo (hiptesis simples o compuestas, informacin poblacional dis
ponible, ...). En cualquier caso, el diseo de contrastes adecuados debe tener en cuenta
no slo la hiptesis nula sino tambin su alternativa.
Para ilustrar hasta qu punto la consideracin de la alternativa afecta a nuestras conclusiones, ima
ginemos que un investigador enuncia una hiptesis relativa a la proporcin de familias que atraviesan
dificultades econmicas: H0 : p = 0,2.
Si al seleccionar una muestra aleatoria simple de 100 familias se observa que 31 declaran tener
dificultades econmicas para llegar a fin de mes, la proporcin muestral sera p = 0,31 y el contraste
de la hiptesis nula se llevara a cabo calculando la discrepancia tipificada y el correspondiente nivel
crtico:
dp/H0= (0,2)(0,8)
100 ; p=P >2,75/H0
0,310,2 pp
p(1p) =0,0059
n
Segn el planteamiento visto en el tema, esta probabilidad adopta un valor suficientemente bajo,
que permite calificar el resultado de "significativo para rechazar". Sin embargo, hasta ahora la hi
ptesis ha sido contrastada por s misma, sin tener en cuenta cul sera la alternativa al supuesto
planteado.
Supongamos ahora que el investigador considera como hiptesis alternativa, H1 : p = 0,15 nos
llevara el rechazo de la hiptesis nula p = 0,2 a admitir como vlida la alternativa p = 0,15? Parece
claro que la respuesta es negativa, ya que la discrepancia de la muestra respecto a la alternativa es
an mayor que la correspondiente a la hiptesis nula (se obtiene dp/H1 = 4,481, que lleva asociada
una probabilidad prcticamente nula: p = 0, 0000074; es decir, una muestra con un 31% de familias
atravesando dificultades econmicas es poco verosmil si la proporcin poblacional es del 20%, pero
an lo es menos bajo la alternativa p = 15 %).
As pues, en situaciones como la descrita es importante tener presente que la hiptesis nula no
se contrasta por s misma sino enfrentada a una alternativa. Por tanto, slo en la medida en que la
hiptesis alternativa explique la realidad observada con un mayor grado de probabilidad tendramos
motivos para rechazar la hiptesis nula.
Aplicando este razonamiento, se obtendra ahora el nivel crtico correspondiente a la cola de la
izquierda (en la direccin de la alternativa): p = P (dp < dp/H0) = P(dp < 2,75/H0) = 0,9 que
llevara a no rechazar la hiptesis nula H0.
[Estdiese cul sera la conclusin en caso de considerar como alternativa H1 : p = 0,28]
Obsrvese que, si bien podra llevarse a cabo un planteamiento ms general del problema, para
una mayor claridad expositiva esta ilustracin considera dos nicos valores posibles en el espacio
paramtrico = {p = 0,2, p = 0,15}.
J. Neyman y E.S. Pearson (1928, 1933) fueron los primeros en reconocer explcita
mente la importancia de la hiptesis alternativa en el diseo de contrastes adecuados.
Ambos autores establecieron bases tericas slidas para la consideracin de la hipte
sis alternativa, a partir de las cuales desarrollaron un nuevo enfoque en la teora del
contraste, con importantes rasgos diferenciales respecto a los contrastes de significa
cin.
El contraste de hiptesis es una tcnica inferencial, que por tanto lleva inherente un
riesgo. Para cuantificar dicho riesgo, podemos examinar los posibles errores cometidos
al adoptar una conclusin sobre determinada hiptesis, tal y como describe la siguiente
308
8. Contraste de hiptesis
tabla:
Es la hiptesis H0 cierta?
SI NO
Rechazamos H0? SI ERROR I
NO ERROR II
La tabla anterior recoge tanto las distintas situaciones poblacionales (la hiptesis
planteada puede ser cierta o falsa, pero nosotros siempre lo ignoraremos) como las
diferentes conclusiones de nuestro contraste (segn la evidencia muestral podramos
optar por rechazar la hiptesis o por no rechazarla). De las cuatro casillas posibles,
puede observarse que en dos de ellas (marcadas con guiones) la decisin ser acertada;
sin embargo existen dos posibilidades de error: el denominado error tipo I o error I
aparece cuando se rechaza una hiptesis que es cierta y el error tipo II o error II
consiste en no rechazar una hiptesis cuando sta es falsa.
La comparacin de los contrastes de hiptesis con los procesos judiciales nos llevara a definir el
error I como condenar a un inocente mientras que el error II sera equivalente a absolver a un
culpable.
Es la hiptesis H0 cierta?
SI NO
Rechazamos H0? SI P(errorI)= 1
NO 1- P(error II) =
309
8. Contraste de hiptesis
el valor crtico C. En esta situacin ambos tipos de error pueden ser representados
grficamente tal y como recoge la figura 8.9
Si las curvas representadas recogen las distribuciones de probabilidad T/H0 y T/H1,
el rea sombreada representa la probabilidad de error tipo I, esto es, la probabilidad
de que T se site en la regin crtica (a la derecha de C) siendo H0 cierta; por su
parte, el rea rayada representa la probabilidad de error tipo II, es decir, de que T se
site en la regin de aceptacin siendo H1 cierta.
En la figura 8.10 puede observarse que si disminuimos la probabilidad de error
tipo I entonces estamos desplazando C hacia la derecha y por tanto aumentamos la
probabilidad tipo II y recprocamente.
Las grficas anteriores ponen de manifiesto la relacin de sustitucin existente en
tre las probabilidades de los dos tipos de error considerados, que impide disear un
procedimiento en el que podamos minimizar simultneamente ambas probabilidades
y por tanto una regin crtica ptima en sentido global.
Una solucin posible sera construir un ptimo condicionado; esto es, acotar una de
las probabilidades de error y elegir, entre todas las regiones crticas que verifiquen la
restriccin anterior, aqulla que haga mnima la probabilidad del otro error.
310
8. Contraste de hiptesis
Aunque puede haber dudas conceptuales sobre la gravedad de ambos tipos de error, partiendo
del supuesto de inocencia de la hiptesis nula parece deseable buscar contrastes que minimicen la
probabilidad de condenar a un inocente, ya que este error I parece ser ms grave que el de absolver
a un culpable.
Otra ilustracin que clarifica estos conceptos consiste en identificar la hiptesis nula con un alumno
que domina cierta asignatura (merece aprobar) siendo la informacin muestral el examen. En este
caso el error I equivale a suspender cuando merece aprobar mientras el error II aprobar cuando
merece suspender suele ser considerado menos grave.
No obstante, conviene aclarar que tambin existen casos en los que el error II resulta especialmente
preocupante, por lo cual debemos prestar atencin a su probabilidad . Este tipo de situaciones se
presentan en algunas pruebas de control estadstico de calidad y as parece claro que asumir como
vlidos un material de construccin o un medicamento que en realidad no cumplen los requisitos
necesarios (error tipo II) seria ms grave, por sus potenciales consecuencias, que rechazarlos cuando
s cumplen los requisitos de calidad (error tipo I).
Partiendo de la consideracin del error tipo I como riesgo prioritario del contraste, la
forma habitual de proceder para disear un buen test consiste en acotar la probabilidad
de este error () minimizando a continuacin la probabilidad de error tipo II (). Este
criterio de optimizacin fue desarrollado por Neyman y Pearson.
La probabilidad de error I se denomina nivel de significacin o tamao del test, y
suele fijarse en valores del 5 % o el 1%. Por otra parte, minimizar la probabilidad del
error tipo II es equivalente a maximizar la de su complementario, que se denomina
potencia del test, y es la probabilidad de rechazar una hiptesis falsa, esto es:
Aunque hemos denotado por la probabilidad de error tipo II, esto es vlido para las situaciones
en las que la alternativa es simple. Sin embargo, cuando sta es compuesta, la probabilidad depende
del valor particular de la alternativa.
A modo de ilustracin consideremos la hiptesis nula H0 : = 0 frente a la alternativa compuesta
H1 : {1,2}, que podemos representar en la figura 8.11 para un nivel de significacin .
Al igual que en figuras anteriores, hemos sombreado en gris la probabilidad de error tipo I y en
rayado y con cuadrculas las probabilidades de error tipo II correspondientes a los dos valores de la
311
8. Contraste de hiptesis
alternativa, que como vemos dependen de los valores adoptados por el parmetro bajo H1 . Por este
motivo, la probabilidad de error tipo II ser una funcin que a cada valor de la alternativa le asigna
un valor().
Enlazando con el prrafo anterior, cuando la hiptesis alternativa es simple la potencia adoptar
un valor constante 1 ; sin embargo, para hiptesis H1 compuestas la potencia ser una funcin
del parmetro que se denomina funcin de potencia P()=1 ().
Si la hiptesis nula tambin fuera compuesta (H0 : 0), entonces para cada valor del parmetro
en esta hiptesis obtendramos una probabilidad de error tipo I, por lo cual definimos el nivel de
significacin o tamao del test, , como la mayor de esta probabilidades (o en su defecto si sta no
existe, como el supremo de las mismas):
sup ()
= 0
Una vez fijado cierto nivel de significacin para los contrastes, estamos interesados
en comparar los distintos tests que garanticen ese tamao o nivel de significacin,
seleccionando los ms adecuados.
312
8. Contraste de hiptesis
Sea X una poblacin con funcin de densidad f(x, 9). Dada una m.a.s. (X1, . . . ,Xn)
sobre esta poblacin, denotaremos por L0 I L(:v1, . . . , Jn, 60) y L1 I L(x1, . . . ,:Un, 91)
las funciones de verosimilitud para los parmetros 90 y 61 respectivamente. En esta
situacin, la determinacin de regiones crticas ptimas queda resuelta mediante el
Lema de Neyman-Pearson cuyo enunciado es el siguiente:
entonces R es una regin critica ptima al nivel a para el contraste de las hiptesis
H0:9:9@yH1:9:61.
Supongamos que X es una poblacin normal con media [L desconocida y varianza 1. Deseamos
encontrar un test ptimo para contrastar: HO : i I no frente a la alternativa H1 : [L I a1. Supongamos
pi > no.
La funcin de verosimilitud bajo estas hiptesis vendr dada por:
1 n i )2 n NiH i )2
e i mi ei
. W /\ ,. /-\
L(x1>1m"viu0): H No L("111..-7In>t'1):( Wi
ji ) D-M: H M1
=i
l fx H iu1)2 n
L(xlxnul): e 2 ,.w Iexi
w I\ H FMFSLZWEFHOFZR, si (9U1...,In)R
i:
a
L(xlahll7xnlio) i NiH
HM /\ s _HO)2
6 n.
313
8. Contraste de hiptesis
ni=1 2 n
1
12
(xi0)2 (xi 1)2 lnk
i=1
con lo cual:
n
xi 2lnkn (20 21 )
i=1
x = n 2n(1 0)
o equivalentemente:
2lnk+n
[ ( ) ] =n [ ]
dx=x01nn 2120 2lnk+n(10)22n(10) =C
2n(10)0
En este caso, el lema de Neyman-Pearson nos define la forma de la regin crtica ptima: recha
zaremos la hiptesis nula cuando la discrepancia asociada al test sea mayor o igual que C; esto es,
R={dx/dxC}.
Por otra parte, podemos calcular el valor de C a partir de la probabilidad de error tipo I. Fijado
un nivel de significacin , se tiene: = P (dx C/ = 0), la existencia de C garantiza la de k y
por tanto la regin crtica obtenida es ptima.
Observemos que la forma de la regin crtica (C,+) coincide con las que habamos construido
en los contrastes de significacin anteriores.
En el ejemplo anterior, para obtener la mejor regin crtica no hemos tenido en cuenta el valor de
la alternativa. Esto se debe al tipo de hiptesis planteada.
d = L(x1,...,xn,1)
L(x1,...,xn,0)
Cuando esta discrepancia adopte valores elevados, llegaremos a la conclusin de que el valor pro
puesto no es suficientemente verosmil y en consecuencia rechazaremos la hiptesis nula.
314
8. Contraste de hiptesis
La monotona puede ser estricta o no, creciente o decreciente segn el comportamiento de la funcin
muestral.
Los modelos binomial, Poisson, normal, exponencial, Gamma, etc. verifican la propiedad de que
su razn de verosimilitudes es montona (RVM).
Para los modelos que verifiquen esta propiedad es vlido el siguiente resultado:
Corolario 8.1. Sea X una poblacin cuyo modelo de probabilidad verifica la propiedad de RVM
(no decreciente), entonces la regin crtica: R = {t/t = T(x1,...,xn) C} es ptima (UMP) al
tamao para contrastar las hiptesis: H0 : 0 frente a la alternativa H1 : >0.
En el caso de que la monotona fuera no creciente la regin crtica vendra dada por: R = {t/t =
T(x1 ,...,xn) C}. De forma complementaria se construyen las regiones para las hiptesis: H0 :
0 frente a la alternativa H1 : <0.
El valor de C que determina la regin crtica puede obtenerse a partir de la probabilidad de error
tipo I.
H0 : 0
H1 : 1
sup L(x1,...xn,)
0
(x1,...,xn) = sup
L(x1 ,...xn ,)
315
8. Contraste de hiptesis
Este procedimiento nos permite abordar alguno de los tests anteriores de forma
sistemtica. As, el test de la razn de verosimilitudes para contrastar H0 : 0
frente a H1 : 1 consiste en calcular , que en ciertos casos contendr en su expre
sin las discrepancias tipificadas asociadas a los contrastes particulares que estemos
realizando. En otros casos tendremos que aplicar la convergencia asinttica de para
obtener la regin crtica, consistente en rechazar H0 si se cumple (x1 ,...,xn) < c
para una constante c; 0 <c< 1.
sup P((X1,...,Xn)
0 < c) =
P((X1,...,Xn)<c)=;0
316
Parte III.
Introduccin a la Econometra
317
9. Modelos economtricos. El modelo
lineal simple
La descripcin de la realidad econmica no es una tarea sencilla. Con el objetivo de
representar esa realidad de forma simplificada pero adecuada, los modelos econom
tricos se han convertido en una herramienta habitual en el anlisis econmico.
Los modelos economtricos se basan en los modelos econmicos, a los que incorporan
un componente de incertidumbre o aleatoriedad que, como hemos visto en captulos
anteriores, es inherente al mbito socioeconmico y que habitualmente denotaremos
por u.
Existe una amplia variedad de modelos economtricos, que llegan a alcanzar niveles
de complejidad y sofisticacin muy elevados. Lgicamente, en este tema nos limitare
mos a presentar un tratamiento introductorio, estudiando nicamente modelos lineales
uniecuacionales.
318
9. Modelos economtricos. El modelo lineal simple
Aunque no existe una divisin radical entre modelos econmicos y economtricos, parece claro que
estos ltimos exigen una especificacin funcional concreta que no siempre aparece en los modelos
econmicos, e incorporan adems un componente aleatorio. As pues, los modelos economtricos son
modelos econmicos que incluyen las especificaciones necesarias para su aplicacin emprica.
Habitualmente las relaciones se formulan, al menos en una primera versin, en trminos lineales o
bien linealizables que proporcionan una descripcin sencilla de la realidad. Ello no impide que puedan
elaborarse modelos ms complejos en cuanto a su formulacin o, si ello resulta necesario, sistemas de
varias ecuaciones que puedan describir ms adecuadamente las interrelaciones entre magnitudes.
319
9. Modelos economtricos. El modelo lineal simple
Sin embargo, en este captulo nos limitaremos a analizar modelos economtricos lineales uniecua
cionales.
Una vez que el modelo economtrico ha sido especificado se dispone de una expresin
genrica para las relaciones estudiadas. Sin embargo, en la prctica los modelos deben
ser aproximados a partir de la informacin estadstica relativa a las variables que
intervienen en los mismos, etapa que se denomina estimacin.
La estimacin de un modelo economtrico consiste en la obtencin de valores nu
mricos para sus parmetros a partir de la informacin estadstica disponible. En esta
etapa resulta imprescindible la informacin sobre todas las variables que aparecen en
el modelo economtrico y la aplicacin de un mtodo de estimacin adecuado.
Los datos tienen una importancia primordial ya que condicionan las inferencias que realicemos
sobre los modelos economtricos. Sin embargo, contra lo que en un principio pudiera suponerse
no es imprescindible que nuestra informacin muestral constituya una verdadera muestra aleatoria
representativa de la poblacin estudiada. El criterio esencial para la seleccin de los datos es que
todas las observaciones procedan del mismo proceso econmico, es decir, que sigan idnticos patrones
de comportamiento.
Por lo que respecta al mtodo de estimacin, seguiremos los procedimientos estudiados en captu
los anteriores (mnimos cuadrados y mxima verosimilitud), que garantizan buenas propiedades para
los estimadores de los parmetros.
Aunque en principio las fases de especificacin, estimacin y contraste son secuenciales, es posible
retroceder o avanzar segn el resultado obtenido en cada etapa. De ah que no haya normas generales
sino que, como indica el esquema, sern en cada caso la propia dificultad del modelo y la informacin
disponible los factores que determinen la secuencia y el ritmo de nuestro trabajo.
320
9. Modelos economtricos. El modelo lineal simple
En efecto, la incertidumbre presente en todo modelo economtrico hace que el valor Y/Xi sea
aleatorio ya que para cada Xi se obtiene Y = 1 + 2Xi + ui. As pues, los desarrollos del modelo
lineal se realizan asumiendo determinadas condiciones sobre el comportamiento probabilstico de la
perturbacin aleatoria u, hiptesis que pueden ser trasladadas a la variable dependiente Y.
Este supuesto, conocido como homoscedasticidad puede tambin ser expresado sobre
la variable dependiente:
321
9. Modelos economtricos. El modelo lineal simple
Este supuesto queda justificado teniendo en cuenta que las perturbaciones pueden ser generadas por
un conjunto numeroso de factores independientes entre s, cuya actuacin conjunta -segn los teore
mas lmites- conduce a un modelo normal.
Obsrvese que Y/Xi se obtiene a partir de ui mediante un cambio de origen, ya que Y/Xi = 1 + 2 Xi + ui
siendo 1 + 2Xi constante para cada observacin.
As pues, el modelo de Y ser normal siempre que lo sea u, y basta aplicar las propiedades de
esperanza y varianza ante cambios de origen para obtener:
Var(Y/Xi) = Var(ui) = 2
Como veremos en los epgrafes que siguen, los supuestos anteriormente enuncia
dos resultan fundamentales en los procesos de estimacin y contraste de los modelos
economtricos.
Supuestos bsicos
Esperanza E(u Sobre u Sobre Y
i )=0,i = 1,...n E(Y/Xi) = 1 + 2Xi,i
Varianza Var(ui) = 2,i = 1,...n Var(Y/Xi) = 2,i
Correlacin Cov(ui,uj )=0,i = j = 1,...n Cov(Y/Xi,Y/Xj )=0,i = j
Modelo prob. ui N(0,) Y/Xi N(1 + 2Xi ,)
322
9. Modelos economtricos. El modelo lineal simple
Esta lnea se corresponde con el lugar geomtrico de las esperanzas condicionadas de la variable
dependiente para cada una de las observaciones de la variable explicativa.
La diferencia entre los valores esperados recogidos por la lnea de regresin po
blacional y los verdaderos valores de Y que en la realidad aparecen asociados a la
variable X es un error o perturbacin que, como ya hemos comentado, tiene carcter
aleatorio. As, tal y como recoge la figura 9.1 es posible representar grficamente los
componentes sistemtico 1 + 2Xi y aleatorio ui asociados a cada Xi.
Dado que la lnea de regresin poblacional es la traduccin de un supuesto terico,
se trata de un valor poblacional desconocido que deber ser estimado con base en la
informacin muestral disponible. As, a partir de un conjunto de observaciones de las
variables estudiadas, se llegar a obtener la lnea de regresin muestral Yi = 1 +2Xi.
Esta lnea de regresin estimada depende directamente de la informacin disponi
ble, y por tanto adoptar valores diferentes para cada muestra. Como consecuencia,
no disponemos de garantas referidas a cada recta concreta sino nicamente al proce
dimiento de estimacin.
Los mtodos ms habituales para estimar las rectas de regresin son el mnimo
cuadrtico y el de mxima verosimilitud, que parten de filosofas distintas: en el pri
mer caso, minimizar la suma de errores cuadrticos y en el segundo, maximizar la
verosimilitud asociada a la muestra observada.
323
9. Modelos economtricos. El modelo lineal simple
ximas a la informacin real, esto es, que minimicen los errores de estimacin
( )
ui=YiYi=Yi 1+2Xi
Aunque una primera opcin sera minimizar directamente la suma de los errores, debemos evitar
que stos se compensen, por lo cual acudimos a la agregacin de errores cuadrticos. Esta decisin
se debe a que la alternativa de agregar errores en valor absoluto presenta dificultades desde el punto
de vista matemtico (exigira resolver un problema de programacin lineal o bien un procedimiento
de clculo iterativo) y adems no garantiza la existencia de una solucin nica.
Obsrvese que los estimadores mnimo cuadrticos no podran ser determinados en el caso de que
la dispersin de X fuese nula (es decir, si la muestra slo presenta un valor de X no tendra sentido
buscar una explicacin al comportamiento de Y en funcin de X).
324
9. Modelos economtricos. El modelo lineal simple
Puede verse adems que la pendiente estimada presenta igual signo que la covarianza entre las va
riables. Por lo que respecta al trmino independiente, en su estimacin intervienen tanto la pendiente
como los valores medios de las variables X e Y.
2. Y = 1 + 2X
3. ni=1 X
i u i =0
4. ni=1 Y
i ui =0
325
9. Modelos economtricos. El modelo lineal simple
Bajo el supuesto de normalidad para las perturbaciones se tiene u w /\/(0, a) e Y w N(B1 +B2X, a)
con lo cual la funcin de verosimilitud depende de tres parmetros: B1, B2 y a2 y se obtiene mediante
producto de funciones de densidad:
2 n. i 2 n 1 z F:
(yi 131 5211)
mi)
L(y1v 129115175270) gflylivlvzvo) e
I I )n e_%zy:1 (Ji!5i;2!521i)2
27ra2
Para obtener los EMV de los parmetros esta funcin se transforma mediante logaritmos, y pos
teriormente se aplican las correspondientes condiciones de extremo.
IHL( 2 __Ei 2 _i 2 _l n (1/1_91_9222)2
ylv 7yTb7/817/8270 ) 2 n( TI) 2 n07) U2
i:1
81nL(y1)vy11)/811/821U2) 2 n
~:0=>2(y,-B1B2x,):0
(281 i:1
alnlylf vyrbvlv2rol2)
~ I 6a a
2 n
, 9 991 , ,=
Las dos primeras ecuaciones coinciden con las obtenidas anteriormente por el procedimiento
mnimo-cuadrtico. Como consecuencia, los EMV para los parmetros B1 y B2 son coincidentes con
los EMC anteriormente estudiados.
Por lo que se reere al estimador mximo verosmil de la varianza poblacional a2 , de la tercera
ecuacin se obtiene -una vez conocidos B1 y B2 - la expresin
n. A2
62 I 22:1 ui
TE
326
9. Modelos economtricos. El modelo lineal simple
Las varianzas de los estimadores mnimo cuadrticos viene dadas por las siguientes
expresiones:
2 i=1
n
X2i
2
Var (2) = 22 = n 2 , Var (1) = 21 = n ( )
XiX) n XiX 2
i=1 ( i=1
Como ya hemos visto, los grados de libertad se obtienen como diferencia entre el total de obser
vaciones muestrales y las restricciones lineales impuestas (en este caso, antes de calcular la varianza
debemos conocer las estimaciones de los parmetros, que son dos restricciones).
En los anlisis de regresin en principio podramos considerar como medida adecuada la varianza
del error o bien su desviacin tpica. Sin embargo, resulta ms adecuado el error estndar de la regre
sin, dado por una expresin similar, en la que aparece como denominador (n-2), que es el nmero
327
9. Modelos economtricos. El modelo lineal simple
de grados de libertad.
1 N(1,1)
2 N(2,2)
(n2)S2 2
2 n2
distribuciones en las que se basan las inferencias sobre el modelo lineal simple.
d eE(e
= )=
e
obteniendo as una discrepancia tipificada con esperanza nula y dispersin unitaria.
Si adems asumimos el supuesto de normalidad para la perturbacin, los estimadores
sonNonormales
obstante,
y dado que en general
la discrepancia sigue se
tambin
desconoce
un modelo
la varianza
normal
poblacional 2 debemos
d N(0,1).
328
9. Modelos economtricos. El modelo lineal simple
d =
S
distribuida segn un modelo t de Student con n 2 grados de libertad.
Para comprobar que la expresin anterior sigue un modelo t de Student, basta tener presente el
resultado anterior:
N(0,1)
y aplicar el teorema de Fisher que, gracias a la normalidad de la poblacin, garantiza
(n 2)S2
2 2n2
Como consecuencia, es posible construir una nueva discrepancia normalizada en los siguientes
trminos:
( )
d = =
(n2)S2 S
2(n2)
Teniendo en cuenta que el numerador de esta expresin sigue una distribucin N(0,1) y su deno
minador -que es independiente de la variable anterior- es el cociente de una chi-cuadrado entre sus
grados de libertad, queda justificado que la expresin de la discrepancia se distribuye en este caso
segn un modelo t de Student con n 2 g.l.
Las expresiones deducidas son aplicables tanto al estimador 2 del coeficiente de regresin como
a 1, estimador del trmino independiente 1. De ah que en el apartado que sigue abordemos la
construccin de intervalos para un parmetro genrico .
eRS2=S22
(n 2)S2
dS2 = 2 2n2
329
9. Modelos economtricos. El modelo lineal simple
330
9. Modelos economtricos. El modelo lineal simple
H0 : 2 = 0
H1 : 2 = 0
de modo que, si la hiptesis nula es cierta, el modelo propuesto no tiene sentido al ser
E(Y/Xi) = 1 para cualquier posible valor de X.
Como consecuencia de este planteamiento, si la informacin muestral disponible
conduce al rechazo de la hiptesis nula, concluiremos que 2 es significativamente
distinto de 0, con lo cual existe evidencia estadstica de que X afecta a Y, y en
consecuencia tiene sentido plantear un modelo Y = 1 + 2X + u.
Si por el contrario se obtiene una informacin muestral que no resulta significativa
para rechazar la hiptesis nula, entonces nuestro modelo no queda validado por la
informacin estadstica.
Obsrvese que el contraste bsico de significacin va referido tan slo al coeficiente 2. Resulta
sencillo comprobar que la nulidad del parmetro 1 no invalidara el modelo sino que nicamente
supondra que la recta pasa por el origen.
331
9. Modelos economtricos. El modelo lineal simple
332
9. Modelos economtricos. El modelo lineal simple
Para los modelos lineales simples, el coeficiente de determinacin coincide con el cuadrado del
coeficiente de correlacin lineal, ya que se cumple:
ni=1 ( )2
Yi Y ni=1 ( 22 = ( (
22 Xi X SXY
S2X )2 S2X SXSY
SXY )
R2 = ni=1 ( = n ( ) 2 = r2
XY
Y )2 Y ) S2Y =
Yi i=1 Yi
ni=1
u2i
333
9. Modelos economtricos. El modelo lineal simple
2
2 = 2
N(0,1)
ni=1(XiX)2
Como hemos visto en el captulo 6, cualquier modelo F de Snedecor con un solo grado de libertad
en el denominador puede ser expresado como el cuadrado de una t de Student con grados de libertad
los del denominador. Como consecuencia de esta propiedad, el estadstico F definido coincidir con
el cuadrado de la t de Student utilizado en los contrastes individuales, relacin que garantiza la
coherencia de resultados entre ambos tipos de contrastes.
Adems de los tests bsicos, puede resultar interesante llevar a cabo otros contrastes
para los parmetros, que en general traducirn restricciones impuestas por la teora
econmica o bien resultados obtenidos en investigaciones previas.
As, por ejemplo, segn la ley psicolgica fundamental de la teora keynesiana, la propensin
marginal al Consumo debe ser no superior a la unidad, de modo que sobre el modelo C = 1 + 2R
sera interesante contrastar H0 : 2 1 frente a H1 : 2 > 1.
De modo similar, la teora econmica define funciones de demanda con pendiente negativa, de modo
que sobre un modelo de demanda C = 1 + 2P deberamos contrastar la hiptesis H0 : 2 0 frente
a H1 : 2 > 0.
Por otra parte, si en estudios previos sobre la poblacin que analizamos se ha estimado un gasto fijo
en alimentacin de 80 unidades monetarias, podramos someter a contraste este valor del parmetro,
planteando H0 : 1 = 80 frente a H1 : 1 = 80.
9.5. Prediccin
Gran parte de los modelos economtricos tienen por objetivo la realizacin de pre
dicciones. Una vez que el modelo ya ha sido validado, para realizar predicciones basta
334
9. Modelos economtricos. El modelo lineal simple
= 2
n1 + (X0X)2n
Var (Y0) = Var (1 + 2X0)
i=1(Xi X)2
Dado que la prediccin Y0 es una aproximacin del verdadero valor Y0, debemos
considerar el error de prediccin eY0 = Y0 Y0 que puede ser expresado como:
)
eY0 = Y0 Y0 = (Y0 E(Y/X0)) + (E(Y/X0) Y0
335
9. Modelos economtricos. El modelo lineal simple
en la nube de puntos) con lo cual el error de prediccin presenta las dos componentes muestral y
poblacional. Como consecuencia se tiene:
E (GYO) I E(Y@) E I0
si. bien,
.
al ser en general a 2 desconocida,
. , .
esta ultima . ,
expresion .
debe ser estimada .
mediante:
s A I s i _i (X0 X?
p
Y0Yo ( + n + _ X)2
donde k se obtiene en tablas de la distribucin t de Student con n 2 g.l. para el nivel de conanza
jado.
Si en cambio deseamos construir bandas de conanza para el valor esperado E (Y/X0) estamos
considerando tan slo el error muestral, para el cual se tiene:
E (Eor/XD) I0
A A
Var (E(Y/XO) YO) I Var (YO) I a2 1 + ni
X X 2
" (Xi - W
Para la construccin de intervalos esta varianza se aproxima utilizando la informacin muestral y
la expresin del IC para E(Y/XO) ser entonces:
336
10. El modelo lineal mltiple
Con frecuencia la especificacin de un modelo resulta ms realista si consideramos
numerosas variables explicativas (de hecho, ya hemos comentado que raramente se
podr aglutinar en una variable explicativa nica todas las posibles causas de cierto
efecto). Por ello, la extensin natural del modelo de regresin lineal simple analizado
en el epgrafe anterior ser el modelo de regresin lineal mltiple.
Consideraremos una especificacin lineal del tipo:
Y=1+2X2++kXk+u
en la que aparecen k parmetros (1,2,...,k) y k 1 variables explicativas, que
designamos por X2,...,Xk.
Por lo que se refiere a u, como ya hemos visto anteriormente es una perturbacin
aleatoria originada por mltiples causas irrelevantes que, al actuar conjuntamente,
tienen un efecto no despreciable. Por tanto, u es una v.a. no observable, y como con
secuencia tambin el regresando Y es una variable aleatoria.
Una expresin ms genrica sera Y = 1X1 + 2X2 + + kXk + u, que conduce a la anterior
si asumimos la existencia de un trmino independiente, esto es, X1 = 1.
337
10. El modelo lineal mltiple
10.1. Estimacin
El modelo genrico anteriormente introducido se denomina modelo lineal mltiple,
y su estudio se lleva a cabo asumiendo ciertas hiptesis de trabajo que explicitaremos
a continuacin. No todas las hiptesis tienen el mismo carcter ni resultan igualmente
restrictivas en la prctica. La ms genrica de todas es la referida a la forma funcional
del modelo, respecto a la que se asume la linealidad.
338
10. El modelo lineal mltiple
Podemos tambin realizar supuestos sobre los regresores, para los cuales se asume:
La matriz de regresores X es fija, es decir, adopta los mismos valores para dis
tintas muestras. Esta hiptesis de regresores no estocsticos, que es admisible
para las ciencias experimentales, puede sin embargo resultar restrictiva en cien
cias sociales, ya que los datos se obtienen habitualmente mediante encuestas y
vienen afectados por numerosas fuentes de error.
En el caso de que los regresores tuvieran carcter estocstico, el efecto sobre el modelo no
sera grave siempre que los regresores no se encontrasen correlacionados con la perturbacin
aleatoria, supuesto que puede ser contrastado mediante el test de Hausman.
La matriz de regresores tiene rango k, esto es, (X) = k. Dado que la matriz X
tiene k columnas (tantas como parmetros) y n filas (observaciones muestrales),
esta hiptesis resume dos supuestos: por una parte, la informacin estadstica
disponible sobre el conjunto de variables observables debe ser suficientemente
amplia para llevar a cabo la solucin del modelo. As pues, el nmero de datos
(n) debe ser superior al de parmetros del modelo (k). Por otra parte, las co
lumnas de la matriz X deben ser linealmente independientes, es decir, no debe
existir relacin lineal exacta entre los regresores del modelo.
En el caso de que existiera relacin lineal entre algn subconjunto de regresores, el rango de
X sera inferior a k y por tanto, como veremos ms adelante, no sera posible determinar los
estimadores del modelo. En la prctica no suelen presentarse relaciones lineales exactas entre
las variables explicativas, pero en cambio s resulta frecuente un cierto grado de relacin lineal
entre los regresores.
es un vector fijo.
339
10. El modelo lineal mltiple
Este supuesto, que puede ser contrastado, equivale a asumir la existencia de una es-
tructura nica vlida para todo el perodo de observacin y el horizonte de prediccin
del fenmeno estudiado, y resulta de gran utilidad.
En sntesis, el modelo bsico de regresin lineal puede ser descrito mediante las
siguientes expresiones:
y = X + u
E(u) = 0
E(uu ) = 2In
(X) = k<n
= (XX)1Xy
n
u2i
i=1
que en notacin matricial viene dada por:
(
= y X) (y X) = yy Xy yX + XX
= yy 2Xy + XX
= (XX)1Xy
Para la determinacin de este vector se iguala a cero la primera derivada:
yy )
( 2Xy + XX
= = 0 2Xy + 2XX = 0 = (XX)1Xy
donde hemos tenido en cuenta la expresin de las derivadas de formas lineales y cuadrticas
340
10. El modelo lineal mltiple
respecto a un vector:
~ I Xy ~ I QX/X
as se
LQQUIQ
12) e-iry-xrnry-xmi
mi:
7T0'
U>
ll <XX>1Xy , Q I l
E)
a1al;L I (2xy
1 i 2xxp) I 0 => xxe I x , y => e- I (xx)xy
602
IHL I-wl
n 204 - X5) Ihmwz:
(y X)(y =: A l
=c Q) 3 Q)
I La suma de los residuos es nula 2;, a, I O . Como consecuencia puede armarse que la
media de las observaciones coincide con la media de las estimaciones: Y ll "
I El hiperplano de regresin pasa por el punto (X2, - - - ,X,) denominado centro de gravedad".
Estas dos primeras propiedades exigen que la especicacin de la regresin contenga un trmino
independiente.
I Los momentos de segundo orden entre los regresores y los residuos son nulos. X/ I O.
I Los momentos de segundo orden entre y y los residuos son nulos, esto es: ll P
<: i
341
10. El modelo lineal mltiple
Los estimadores MCO pueden ser expresados como combinacin lineal de y: I Ay , siendo
A I (XX)X una matriz ja (no aleatoria) de dimensin k >< n. Sustituyendo y por su expresin se
tiene:
> n X)1X(X + u) I e + (xx)1xu
comprobndose fcilmente que el valor esperado de coincide con , y por tanto los estimadores
MCO son insesgados:
( ) I a + <XX>1XE<u> I a
E111 E
031
2
U552A A a a a
051 k
A A
Cm} I 31 0,32 i k
051951 05k 52 Uk
Bajo las condiciones de regularidad es posible aplicar a cualquier estimador del parmetro la
acotacin de Frechet-Cramer-Rao. Segn dicha acotacin, se cumple para todo , insesgado:
1
Var Z e
_E 652
342
10. El modelo lineal mltiple
observndose que dicha expresin coincide con la matriz de dispersin de y por tanto los EMC
resultan ser ptimos entre todos los estimadores insesgados.
S2=
nk
donde M es una matriz definida como [I X(XX)1X] que cumple las propiedades de ser idem
potente (el producto de M por s misma da como resultado la misma matriz, esto es, MM = M,
semidefinida positiva (aMa 0 , a) y simtrica (M = M). Una expresin alternativa a la anterior
para el vector de residuos es:
[
= My = I X(XX)1X ] X + u = X X(XX)1XX + Mu = Mu
La deduccin del valor esperado E() se lleva a cabo teniendo en cuenta dos propiedades de la
traza: la traza de un escalar es el mismo escalar y se cumple tr(AB) = tr(BA):
E[] = E[uMu] = tr [E(uMu)] = E[tr(uMu)] = E[tr(Muu)]
= trME[uu] = trM2I = 2trM = 2(n k)
343
10. El modelo lineal mltiple
(n 2k)S2 2nk
=
2
2nk
2
que resulta de notable utilidad en los procesos inferenciales sobre los parmetros que
analizaremos a continuacin.
d = S tnk
El supuesto de normalidad de las perturbaciones aleatorias u garantiza que los estimadores mnimo
cuadrticos se distribuyen normalmente:
u N(0,2I) N(,2(XX)1)
donde recoge el vector de esperanzas y 2(XX)1 es la matriz de varianzas y covarianzas de .
344
10. El modelo lineal mltiple
H0:j=0,H1:j=0 (10.2)
Debemos tener presente que el hecho de que aparezcan valores elevados de j no significa que
la variable Xj tenga gran influencia sobre Y (de hecho, con slo efectuar un cambio de escala se
modificara la estimacin del parmetro j). Lo importante ser por tanto el producto jXj o bien
la variable normalizada, que da lugar a la discrepancia.
donde la hiptesis nula equivale a afirmar que ninguno de los regresores tiene capacidad
explicativa sobre Y, mientras el complementario se recoge en la hiptesis alternativa.
H0:=0 H0:1=2=...=k=0
H0:=0 H1:j=0, paraalgnj=1,...,k
sin embargo, en general se excluye el trmino independiente al que no es posible asignar capacidad
explicativa sino nicamente impactos fijos.
Por lo que se refiere a la relacin de este test con los contrastes individuales anteriormente vistos,
se observa que el cumplimiento de la hiptesis mltiple H0 : 2 = 3 = ... = k = 0 equivale al
cumplimiento simultneo de todas las hiptesis 2 = 0,3 = 0, ..., k = 0 mientras que la acepta
cin de todas las hiptesis simples no garantiza el cumplimiento de la conjunta al mismo nivel de
significacin.
En sentido contrario, el rechazo de cualquiera de las hiptesis simples se traduce en el rechazo de la
conjunta. As pues, el test global de significacin slo permite afirmar que el modelo "tiene sentido"
pero no que dicho modelo sea "totalmente correcto".
Al igual que hemos visto en el captulo anterior para el modelo simple, los contrastes
345
10. El modelo lineal mltiple
que bajo la hiptesis nula sigue un modelo F de Snedecor con k1 g.l. en el numerador
y nk g.l. en el denominador. Por lo que respecta a la interpretacin de esta expresin,
es fcil comprobar que cuantifica la relacin entre la parte de variacin explicada y
no explicada del modelo, ajustadas ambas por sus grados de libertad. A medida que
los valores de la discrepancia F aumentan se reduce el nivel crtico asociado a las
observaciones muestrales y en consecuencia aumentan los argumentos para rechazar
la hiptesis conjunta planteada.
Este coeficiente de determinacin aparece conectado con la expresin del ratio F asociado al con
traste de significacin global del modelo, ya que se cumple:
R2
k1 k 1
Fnk =
1R2
nk
[Comprubese].
Por consiguiente, los modelos con gran capacidad explicativa llevarn asociado un coeficiente de
determinacin cercano a la unidad y en consecuencia valores elevados de F, con lo cual se rechaza la
hiptesis de nulidad de los parmetros.
346
10. El modelo lineal mltiple
= y X = y X(XX)1Xy
si asumimos n=k sin que exista relacin lineal entre los regresores se obtiene el rango de X, (X) = n
con lo cual la matriz X es invertible y por tanto:
= y X(XX)1Xy = y X [X1(X)1 ] Xy = y y = 0 R2 =1
expresin que resulta de ajustar por sus grados de libertad las variaciones total y
residual del modelo, y que puede tambin ser formulada como R2 = 1 (1 R2)n1nk
[Comprubese].
A partir de la expresin anterior se comprueba fcilmente la desigualdad R2 < R2 para todo k > 1:
R2 <R2 1(1R2)n1nk<R2 (1R2)<(1R2)n1nk
nk<n1k>1
Conviene tener presente que al comparar dos modelos mediante sus coeficientes
de determinacin ajustados resulta imprescindible que la variable dependiente sea la
misma y que los modelos tengan carcter causal.
Otros indicadores utilizados para comparar la bondad de modelos alternativos son
los basados en criterios de informacin. Estas medidas resumen los errores de estima
cin asociados a cada modelo y penalizan adems la inclusin de parmetros.
Logaritmo de verosimilitud: Dada una muestra de tamao n el logaritmo de
la funcin de verosimilitud viene dado por la expresin
)]
lnL = n 2[ 2n
1+ln (
Dado que el resultado de esta medida guarda una relacin inversa con la suma
347
10. El modelo lineal mltiple
Criterio de Akaike:
( )
AIC = nln + 2k + n[1+ln(2)]
n
Criterio de Schwarz:
SIC= 2lnL+kln(n)
Criterio de Hannan-Quinn:
Aunque el coeficiente de determinacin ajustado se utiliza con gran generalidad, en ciertas ocasiones
resultan necesarios otros ajustes en los coeficientes de bondad de los modelos. Este ser el caso de
los modelos temporales, donde la existencia de una tendencia comn en las variables analizadas pue
de dar lugar a valores elevados del coeficiente de determinacin, incluso del ajustado. En este caso
puede resultarnos ms tiles los anteriores criterios de informacin o incluso otras adaptaciones del
coeficiente de determinacin.
348
10. El modelo lineal mltiple
R2Y,X2,...,Xk R2Y,X2,...,Xk1
R2Y,Xk/X2,...,Xk1 =
1 R2Y,X2,...,Xk1
Por ltimo, es posible definir los coeficientes de determinacin simples que slo
tienen en cuenta una de las variables explicativas ignorando por completo la existen
cia de las restantes. Estos coeficientes van asociados a los modelos lineales simples
y su carcter es bidireccional por coincidir con los cuadrados de los coeficientes de
correlacin lineal.
En este tipo de contrastes la hiptesis puede ser expresada en forma genrica como
H0 : R = , donde R es una matriz de r filas (tantas como restricciones impuestas
en la hiptesis) y k columnas (tantas como parmetros para que sea multiplicable por
).
Segn cul sea el tipo de contraste planteado sobre los coeficientes cambiar la expresin de la
matriz R. As, cuando deseamos contrastar valores concretos para los parmetros del modelo, la
matriz R contiene nicamente valores 0 y 1, mientras que si el contraste es de restricciones lineales,
los componentes de R son los coeficientes que recogen las relaciones entre los distintos parmetros
del modelo.
En los ejemplos
anteriores,
la formulacin matricial vendra dada en los siguientes trminos:
1
a) H0 : (0100) 2
3 =1
4
349
10. El modelo lineal mltiple
b)H0 : (0011)
1
23
4 = 0
y de modo similar al contraste de significacin global del modelo se construye una discrepancia
normalizada con distribucin F de r g.l. en el numerador y (n-k) g.l. en el denominador cuya expresin,
bajo la hiptesis nula, es la siguiente: )
( )
(R )(R(XX)1R)1(R
nr k
Fr
nk
Este contraste de restricciones puede ser tambin resuelto mediante contrastes chi-cuadrado con
r grados de libertad, basados en la maximizacin de la funcin de verosimilitud bajo la restriccin
recogida en la hiptesis. Ms concretamente, las expresiones seran en este caso:
R R
LM =
R R
n
)
RR
LR = nln (
R R
W=
n
entre las que se verifica la desigualdad W > LR > LM y para la expresin W (asociada al test de
Wald) se garantiza para tamaos elevados de muestra la proporcionalidad con el estadstico F:
W rFrnk
10.2.5. Prediccin
Una vez que disponemos de uno o varios modelos que superaron la etapa de valida
cin y que por lo tanto parecen ser adecuados debemos pasar a la etapa de prediccin
de las variables dependientes; esta etapa resulta especialmente til en los modelos
350
10. El modelo lineal mltiple
temporales.
Si bien existen muchos mtodos distintos para realizar predicciones, nosotros nos
referiremos en todo momento a predicciones cientficas; es decir, aqullas basadas en
modelos y que tienen una metodologa transparente, de modo que cualquier persona
en las condiciones iniciales puede replicar la prediccin y debera obtener el mismo
valor.
Existen diversas formas de clasificar las predicciones, segn el uso que se haga
de la informacin disponible (condicionada o no condicionada), segn el perodo al
que vayan referidas (ex-post y ex-ante) o bien segn los valores que se encuentran
registrados en cada etapa (esttica y dinmica).
Prediccin condicionada y no condicionada
Cuando realizamos una prediccin cientfica, disponemos de un modelo y unos datos
iniciales o inputs; al aplicar el modelo estimado a los datos disponibles se generan unos
valores de Y que sern nuestras estimaciones o predicciones.
Partiendo de un modelo, generalmente realizaremos una prediccin condicionada,
entendida como aqulla que incorpora la informacin disponible en el momento actual.
As, si disponemos de informacin sobre el vector de datos x0 = (1,X20, ,Xk0) ,
entonces la prediccin condicionada sera E(Y/x0).
Cuando se ignora el valor informativo de los inputs, la prediccin se dice no condi
cionada, y en esta situacin actuaramos como si no existiesen esos datos, asumiendo
hiptesis ingenuas sobre el comportamiento de las variables explicativas.
Prediccin ex-post y ex-ante
La prediccin ex-post es aqulla que va referida a valores de Y para los cuales dis
ponemos de datos registrados. La principal ventaja de esta tcnica es que, al disponer
de la informacin real de la variable en el horizonte de prediccin, permite evaluar la
capacidad predictiva de un modelo.
En cambio, la prediccin ex-ante se realiza de cara a futuro, y por tanto va referida a
perodos para los cuales no hay datos registrados. Si bien esto se corresponde con lo que
en el lenguaje comn se entiende por prediccin, y tiene como finalidad reducir nuestra
incertidumbre futura, debemos tener en cuenta que en este caso no es posible evaluar
la calidad de los resultados obtenidos. De ah que en la prctica resulte recomendable
combinar ambos tipos de predicciones, contrastando la capacidad predictiva de los
modelos como paso previo a la obtencin de predicciones ex-ante.
Prediccin esttica y dinmica
Denominamos prediccin esttica a aqulla en la que los inputs son siempre datos
registrados, mientras que la prediccin dinmica utiliza las predicciones como inputs
del modelo.
Como consecuencia, la prediccin dinmica entraa un mayor riesgo que la esttica,
puesto que combina dos fuentes de error: la referida a los inputs (que no son datos
registrados, sino predicciones, con lo cual tienen un margen de error), y la inherente
a toda prediccin.
Las consideraciones efectuadas para la prediccin con modelos simples son aplicables
en gran medida al modelo lineal general. As, dado un modelo y = X + u podemos
estar interesados en efectuar predicciones para la variable dependiente una vez cono
351
10. El modelo lineal mltiple
cidos los valores adoptados por las variables explicativas, recogidos en el vector x6
que viene dado por la expresin x6 I (1, X26, - - - ,Xk6).
En primera instancia puede obtenerse la prediccin puntual: YO I x69 que proporcio
na un valor individual de la variable dependiente afectado por un error de prediccin
6370 I l/Q Yg .
Como ya hemos visto en el caso simple, esta prediccin Y) es una variable aleatoria para la que
se cumple:
YO I N c\ ll
E
ll
j El >g
u. X)1Xy I Zy es decir, presenta carcter lineal.
E ) I x69 I E(Y/x@) es un predictor insesgado del valor esperado.
/\><
A A l A A l A
Va?" (YQ) I E j(Y0 E(Y/x@)) (YO E(Y/x@))j I E j(x69 x69) (x69 x69)j I
I X602 (XX)1xg
Puede adems demostrarse que esta varianza es mnima en la clase de predictores lineales insesgados,
por lo cual se trata de un predictor ptimo.
Para E(Y/x6)
Error Muestral d/O I 22 tn_k jYQ :l: k\/S2 (x6(XX)"1xg j
6% (En/m) _ YO) o
Y
En el primer caso se elaboran bandas de prediccin para un valor individual YO, obtenindose las
caractersticas:
E (en) I Eo/O) E641): 0
Var (eyo) I Var (K; YO) I Var(Y0) + Var(I/6) I a2 [1+ x6 (XX)1x@j
. . . /
teniendo en cuenta que esta varianza a2 puede ser estimada como S2 I
Asumiendo la normalidad para las perturbaciones se tiene:
352
10. El modelo lineal mltiple
Siguiendo un procedimiento anlogo se obtienen las bandas de confianza para el valor esperado
E(Y/x0), para las cuales se obtiene la expresin:
[Y0 k S2 (x0(XX)1x0), Y0 + k ]
S2 (x0(XX)1x0)
U= Tt=1 R2t
T
YtYt1
donde Pt es el porcentaje de cambio previsto para la variable, Pt = Yt1, y
Yt Yt1
Rt el porcentaje de cambio real, Rt = Yt1 .
Es fcil comprobar que el ndice de Theil adopta valor nulo cuando las predic
ciones son perfectas (Pt = Rt) y valor unitario en el caso de que optemos por un
modelo simplista o naive, que asignara como prediccin el valor presente (status
quo). Como consecuencia, valores del ndice superiores a la unidad indican que
el modelo no es til para fines predictivos.
353
10. El modelo lineal mltiple
Para ampliar las conclusiones del coeficiente de Theil es posible representar en un sistema de coorde
nadas los incrementos previstos y verdaderos. En el caso de que las observaciones estuvieran situadas
sobre la diagonal, el modelo sera adecuado para predecir mientras que en otras situaciones permitira
detectar el signo de las desviaciones en la prediccin, tal y como indica la figura 10.1.
El principal atractivo del coeficiente de Theil es que permite conocer las causas de la inexactitud
de las predicciones, gracias a la igualdad:
U2=U2S+U2V+U2C
donde:
U2S =
(PR)2
Tt=1(PtRt)2 , recoge el componente de sesgo
U2V = (SPSR)2T 2, es el componente de varianza
t=1(PtRt)
354
10. El modelo lineal mltiple
Este sera el caso de caractersticas como el sexo, la ideologa, la cualificacin profesional, el sector
econmico... no cuantificables de modo inmediato pero que pueden desempear un papel relevante
en la descripcin de una realidad econmica.
Adems, incluso en algunas ocasiones en las que los modelos incluyen variables numricas, lo que nos
interesa no es tanto su valor concreto como la clase a la que pertenecen: por ejemplo, frecuentemente
la poblacin aparece clasificada en grupos de edad, las empresas se agrupan en pequeas, medianas
y grandes, ...
Una vez efectuadas estas agrupaciones ignoramos el valor numrico exacto para interesarnos ni
camente por la categora a la que las variables pertenecen. Por tanto, las variables que inicialmente
eran cuantitativas adquieren as un carcter claramente cualitativo.
Supongamos a modo de ejemplo que deseamos explicar el salario percibido por un colectivo de
trabajadores para lo cual hemos especificado un modelo lineal Y = 1 +2X +u donde Y es el salario
mensual, en euros y X la experiencia laboral, en aos.
Si ahora deseamos introducir como explicativa el sexo de cada trabajador podemos definir la variable
cualitativa: {
0, si la observacin corresponde a una mujer
D = 1,
si la observacin corresponde a un hombre
con lo cual el modelo se completara como: Y = 1 + 2X + 3D + u, y 3 representa el aumento de
salario que se produce como consecuencia de que el trabajador tenga sexo masculino.
355
10. El modelo lineal mltiple
y las rectas asociadas a las dos categoras difieren en cuanto a su ordenada en el origen
(en 2) y a su pendiente (en 4).
356
10. El modelo lineal mltiple
Y=1 +2X+3D+4(DX)+u
recogiendo el parmetro 4 la diferencia en el efecto marginal que cada ao de experiencia tiene sobre
el salario para hombres y mujeres.
Y=1+2X+3D1++m+1Dm1+u
donde han sido introducidas m-1 variables cualitativas (una menos que las modalidades
consideradas).
La especificacin de un modelo de m-1 variables ficticias (en lugar de m, como en
principio podra parecer lgico) evita la denominada trampa de las variables ficticias.
Puede comprobarse que la inclusin de m variables ficticias llevara llevara a una ma
triz X de rango no pleno (por ser sus columnas linealmente dependientes) impidiendo
as la estimacin del modelo propuesto.
Imaginemos que proponemos ahora para el salario una explicacin en funcin de la antigedad
laboral y del sector de actividad econmica, caracterstica para la que consideramos las modalidades
357
10. El modelo lineal mltiple
que permiten interpretar cada coeficiente de las variables cualitativas como el efecto que origina
sobre la variable dependiente Y (salario) la pertenencia al sector econmico correspondiente.
Los modelos de variables ficticias con m modalidades pueden ser completados si se desea incorporar
las posibles interacciones de cada una de estas categoras cualitativas con las variables cuantitativas
Xi. La significacin de cada uno de estos trminos puede ser contrastada mediante las correspondien
tes discrepancias, que seguirn una distribucin t de Student.
Como hemos visto, segn cul sea el modo en el que las variables ficticias afectan a la
variable dependiente aparecern distintas especificaciones alternativas para un modelo.
358
10. El modelo lineal mltiple
Si queremos explicar una variable con dos modalidades (como las de los ejemplos
anteriores) los modelos resultantes son de tipo binomial.
Se trata de un modelo para una variable que adopta dos nicos valores, 0 y 1, con
probabilidades desconocidas condicionadas a los valores de X. Aplicando la esperanza
359
10. El modelo lineal mltiple
matemtica, se obtiene:
E(Y/X)=p=1+2X2++kXk =X
Aunque este modelo resulta sencillo de interpretar (cada coeficiente recoger el efecto
sobre la probabilidad de cada variable considerada), se aprecian en l dos inconvenien
tes:
Zi=1+2X2i++kXki+ui=xi+ui
360
10. El modelo lineal mltiple
Esta expresin depende de pi, valores que a su vez se obtendrn segn la distribucin
probabilstica especificada para los errores u (F). As surgen los modelos logit, probit
y de probabilidad lineal.
El modelo logit surge cuando la distribucin considerada es de tipo logstico, el
probit cuando es de tipo normal y el de probabilidad lineal cuando se trata de un
modelo uniforme.
Comenzando por el modelo logit, debemos tener en cuenta que la funcin logstica
viene dada por una probabilidad acumulada F(x) = 11+ex. Por tanto, si asumimos
que los errores u se distribuyen segn un modelo logstico se tiene:
exi
pi=P(Yi=1)=1F(xi )=1 1+exi
1 = 1+exi
361
10. El modelo lineal mltiple
k
Zi = 1 +2X2i++kXki+ui= 1+ jXji+ui
j=2
( )
pi
log 1p i
= i
Xij
362
10. El modelo lineal mltiple
MEDIDA DEFINICIN
Medida de Effron (1978) R2 = 1 nn1n2 ni=1 ( )2
Yi Yi
R2 Cuadrado del coeficiente de correlacin entre Y e Y
ni=1(YiYi)2
Yi(1Yi)n
i=1(YiYi
Medida de Amemiya R2 = 1
R2 = 2 ln LNR )2
LR
LNR: Mx. de L respecto a todos los parmetros
Medida basada en verosimilitudes
LR: Mximo de L con i = 0, i
2
0R21LnR
L2nNR L 2n
Medida de Cragg y Uhler (1970) R2 = ( )R
1L2nR L2nNR
nm.prediccionescorrectasnm.observaciones
Proporcin de aciertos R2 =
363
10. El modelo lineal mltiple
las posibles alteraciones de los supuestos, analizando sus causas, las consecuencias
sobre el modelo, los mtodos para su deteccin y las posibles soluciones.
La admisin de la relacin lineal entre las variables no resulta muy restrictiva en la prctica ya
que la experiencia economtrica ha demostrado que mediante relaciones lineales entre variables se
consiguen a menudo aproximaciones vlidas de la realidad.
Adems, ciertas relaciones no lineales de gran inters en economa (funciones de produccin Cobb
Douglas, curvas de indiferencia, modelos exponenciales...) pueden transformarse fcilmente en lineales
mediante cambios de variable.
As, para un modelo Yi = 1X2 X3 eui podramos efectuar una transformacin logartmica del
2i 3i
tipo lnYi = ln 1 + 2 lnX2i + 3 ln X3i + ui llegando al modelo logartmico (o doble logartmico).
Si por el contrario la especificacin de partida fuese del tipo Yi = e1+2X2i++kXki+ui, enton
ces llegaramos mediante transformacin logartmica al modelo log-lineal (o semi-log), dado por la
expresin: lnYi = 1 + 2X2i + + kXki + ui
La transformacin sera aun ms sencilla para funciones de tipo hiperblico Yi = 1 + 2 + ui, en
Xi
las que bastara con plantear el cambio Zi = X1i para llegar a un modelo lineal.
Las transformaciones anteriores permiten aplicar los desarrollos de MCO a los modelos linealiza
dos, consiguiendo as una estimacin de los parmetros por el procedimiento habitual2. Es importante
tener presente que estas transformaciones son auxiliares para llevar a cabo la estimacin, pero el mo
delo objetivo es el inicialmente propuesto en cada caso. Por ello, los errores deben ser cuantificados
sobre dicho modelo (potencial, exponencial,...) y no sobre el linealizado (estos ltimos son los que
habitualmente proporcionan los paquetes economtricos al efectuar una regresin lineal sobre loga
ritmos).
2En el caso de que los modelos no fuesen linealizados sera necesario plantear una estimacin por
mnimos cuadrados no lineales (nonlinear least squares o NLS) que exigen procedimientos itera
tivos.
364
10. El modelo lineal mltiple
y = X11 + X22 +u
Para la especificacin propuesta los estimadores MCO son del tipo 1 = (X1X1)1X1y que,
sustituyendo y por su valor verdadero, conducen a la expresin:
Yi =1 +2X2i++kXki+ui (10.3)
la omisin de la variable Xk nos llevara a plantear la relacin:
Yi = 1 + 2X2i + + k1Xk1,i + ui (10.4)
Si asumimos que la variable excluida aparece relacionada con las restantes por la expresin: Xki =
1 + 2X2i + + k1Xk1,i + vi, entonces es posible comprobar sobre el modelo propuesto la
relacin:
j = j + k j , j = 2, ,k 1 ,yui = ui + ki (10.5)
y, si v es una v.a. no correlacionada con u y cuyo comportamiento se adapta a los supuestos habituales,
se tiene:
E(u) = E(u +v)
E(u2) = 2
u +2k2
v
E(urus)=0 ,r = s
por lo cual el modelo propuesto 10.4 puede estimarse por MCO bajo las hiptesis habituales, y cada
parmetro 10.3, j segn la relacin 10.5,
j diferir del correspondiente en el modelo verdadero
365
10. El modelo lineal mltiple
siempre que la variable est relacionada con la excluida. Como consecuencia, el coeficiente de Xj ya
no representa el efecto de un incremento de esta variable sobre Y, sino el efecto de un incremento de
esta variable sobre Y bajo la condicin de que Xk se incremente en un valor igual a j y de que ello
provoque un incremento adicional en la variable Y de magnitud kj.
Por lo que respecta a la bondad del modelo, como ya hemos comentado los residuos aumentan
respecto a los del modelo verdadero 10.3 y con ellos las varianzas del error y de los estimadores,
dependiendo la cuanta de este aumento del grado de relacin lineal que guarde la variable excluda
con las restantes. Lgicamente, si esta relacin es muy alta entonces la exclusin de la variable apenas
afectara a la bondad del modelo.
Puede comprobarse que el sesgo asociado a los estimadores MCO no desaparece al aumentar el
tamao muestral n por lo cual los estimadores tambin son inconsistentes.
Por lo que se refiere a la estimacin de la varianza, los residuos asociados al modelo propuesto 10.4
seran superiores a los del modelo verdadero 10.3 y como consecuencia se sobreestimarn la varianza
residual y las varianzas estimadas para los estimadores de los parmetros. En estas situaciones los
contrastes resultan ms exigentes para rechazar la nulidad de los parmetros y por tanto, el proceso
de contraste de significacin queda invalidado.
En efecto, si sobre el modelo anteriormente planteado como verdadero 10.3, proponemos ahora
la inclusin de una variable Xk+1 que resulta irrelevante para explicar Y, entonces el coeficiente de
dicha variable sera nulo y el modelo a estimar sera:
Yi = +2X2i + + k1Xk+1,i + ui
1
con ui = ui k+1Xk+1,i = ui. Por tanto, en este caso no existirn diferencias en las perturbaciones
de ambos modelos.
Las consecuencias sobre la estimacin del modelo dependern del grado de relacin lineal de la
variable irrelevante incluida con las excluidas. En general la varianza estimada se ver poco afectada
mientras que la matriz inversa de X X tendr en general diagonales mayores con el consiguiente
aumento de las varianzas asociadas a los estimadores y a los errores de prediccin.
Este contraste, es un caso particular del test de restricciones sobre coeficientes y por tanto puede
ser resuelto mediante la expresin
366
10. El modelo lineal mltiple
( )
uRuR u u nk Fr
nk
u u r
o bien mediante una razn de verosimilitudes (LR)
( )
uRRuu
LR=2(lnLRlnL)=nln 2r
donde uRR son los residuos cuadrticos del modelo restringido (es decir, sin las variables explicativas
sobre las que dudamos).
Las expresiones anteriores pueden aplicarse en dos modalidades: partiendo de un modelo restringido
nos plantearamos si es conveniente aadir nuevas variables explicativas o bien partiendo de un modelo
ampliado contrastaramos si es aconsejable eliminar del mismo algunas variables explicativas por
ser irrelevantes (como hemos sealado, en ambos casos la hiptesis nula equivale a afirmar que las
variables sobre las que dudamos no son relevantes para explicar Y, y lgicamente la conclusin a la
que llegaremos ser la misma con independencia del planteamiento de partida).
Y = 1 +2X2++kXk (10.6)
Y=1+2X2++kXk+1Y2+2Y3+v (10.7)
sobre el que planteamos como hiptesis nula que todos los coeficientes de la parte no
lineal del modelo son nulos, esto es, que el modelo inicial est correctamente especifi
cado.
H0: 1=2=0
H1: 1=0y/o2=0
Para realizar este contraste se utiliza la prueba F comparando los residuos del
modelo base (restringido) y del modelo ampliado (se tratara por tanto de un caso
particular del test de restricciones lineales)
(
uRuRuu
uu ) nk
r Fr
nk
367
10. El modelo lineal mltiple
E(u) constante
Si E(u) es constante, esta componente afecta tan slo a las conclusiones sobre el trmino indepen
diente ya que se obtendra:
E(u)variable
En cambio, cuando las perturbaciones presentan esperanza variable la situacin resulta ms grave,
ya que en este supuesto se comprueba que los estimadores mnimo cuadrticos resultan sesgados e
inconsistentes. De hecho, las perturbaciones de media variable son una consecuencia de la omisin de
variables relevantes analizada anteriormente.
Como hemos visto, en este caso se propondran expresiones del tipo y = X11 + v, en lugar de la
especificacin correcta y = X11 + X22 + u. Tomando esperanzas se obtiene:
368
10. El modelo lineal mltiple
MCO -
-) ]
E [( )(MCO ] =E[(XX)1 XuuX(XX)1 ] =2 [(XX)1 XX(X X)1
expresin que no coincide con 2(XX)1 que, como ya hemos visto es el valor mnimo
(obsrvese que la coincidencia se producira si = I, en cuyo caso la matriz sera
escalar).
Para llevar a cabo la estimacin de la matriz anterior, es necesario sustituir 2 por
su estimador insesgado, que viene ahora dado por la expresin: S2 =
tr(M)
La Este
justificacin
estimador que, sustituyendo
es supone un cambio respecto a lapor
los residuos su expresin
expresin utilizada=enMu,
el modelo
se obtiene
bsico S2 =
ahora: nk
.
)
E ( = trME (uu) = 2trM
369
10. El modelo lineal mltiple
varianzas-covarianzas que sea escalar. El mtodo seguido para ello es buscar una ma
triz P cuadrada no singular de orden n, tal que PP = 1, donde 1 es simtrica
y definida positiva por ser la inversa de .
Si premultiplicamos el modelo de regresin por esta matriz P se obtiene:
Py = PX + Pu (10.8)
modelo transformado para el que se cumplen los supuestos bsicos sobre las pertur
baciones (esperanza nula y matriz de varianzas-covarianzas escalar).
En efecto, se tiene:
E(Pu) = 0
Var(Pu) = E [Pu(Pu) ] = E(PuuP) = 2PP
= 2P(PP)1P = 2PP1(P)1P = 2I
Modelo
y=X+u
Transformado Y=X+u
Modelo Inicial
Xy
1
XX
Estimadores MCG = ( ) MCG = (X1X 1 X1y
)
(XX)1 1
MCG) = 2 Cov (MCG) = 2 (X1X)
Matriz Var-Cov Cov (
siendo S2 = u nk
1u
el estimador insesgado de 2, con los residuos obtenidos me
diante el modelo de MCG: = y XMCG
370
10. El modelo lineal mltiple
Se comprueba fcilmente que 10s estimadores MCG son insesgados: E (MCG) I y consis
tentes.
Por su parte, la matriz de varianzas covarianzas se obtiene como:
I (Xn1x)xn1E(uu)n1x(xn1x)1
I (xn1x)xn1a2no1x (xn1x)1
I a2 [(XQ1X)I x(n1n)n1X(xsT1x)"] I a2 (xn1x)1
expresin que resulta mnima en la clase de estimadores lineales insesgados para el modelo transfor
mado.
De forma ms sencilla, se puede llegar a esta expresin partiendo del modelo transformado y* I X" + u
I 1 [(y_x[3)PP(yX[3)]: 1k[1]
nk n
Bajo la hiptesis de normalidad para las perturbaciones, es posible comprobar que, en el caso de
una matriz de varianzas-covarianzas no escalar, los estimadores mximo verosmiles de coinciden
con las expresiones de MCG anteriormente deducidas.
371
10. El modelo lineal mltiple
Causas Las causas de la heteroscedasticidad son de diversa ndole: una de ellas pue
de ser la omisin de alguna variable relevante en la especificacin del modelo, que
introduce un efecto que se acumula en el residuo. Como consecuencia, si la variable
presenta tendencia, sta origina mayores residuos al aumentar su valor con el consi
guiente incumplimiento del supuesto de homoscedasticidad.
En otros casos puede producirse un cambio estructural, que da lugar a una alteracin
en la dimensin de las perturbaciones y en su varianza antes y despus de determinado
acontecimiento.
Bajo el supuesto de homoscedasticidad se cumpla E(uu) = 2In, pero si se viola
esta hiptesis la diagonal de la matriz estar formada por elementos 2i no coincidentes.
Dado que se trata de un caso particular del supuesto de matriz E(uu) no escalar, las
consecuencias de la heteroscedasticidad sern la obtencin de estimadores que -aunque
insesgados y consistentes- no son ptimos, la presencia de un sesgo en el clculo de
las varianzas muestrales y la aplicacin incorrecta de los contrastes de significacin.
Con la presencia de heteroscedasticidad, los estimadores MCO seguirn siendo in
sesgados y consistentes, pero dado que la matriz de Covarianzas es no escalar, sera
vlido lo desarrollado en el epgrafe anterior.
Por lo que se refiere a la deteccin de la heteroscedasticidad, una primera aproxi
macin consiste en observar la nube de puntos, para saber si la dispersin vara con
las observaciones de alguna variable explicativa. Adems, existen diversos contrastes
para identificar el problema a partir de procedimientos tanto paramtricos como no
paramtricos.
Entre los segundos se encuentran el contraste de picos, basado en la representacin
grfica de los residuos del modelo y el contraste de rangos. Por su parte, los contrastes
paramtricos incluyen el test de Goldfeld y Quandt, el de White o el de Breusch-Pagan.
372
10. El modelo lineal mltiple
H0:2i=2j i=1,,n
H1 : 2i = g(X i ) siendo g una funcin montona
Para llevar a cabo este test resulta necesario ordenar los datos de la muestra segn
los valores de la variable explicativa ligada a la heteroscedasticidad (es decir, la que
presumiblemente est relacionada con las varianzas de los perturbaciones).
A continuacin, se eliminan p valores centrales, al objeto de tener dos submuestras
claramente diferenciadas: la primera integrada por los np2 primeros datos y la segun
da por otros tantos correspondientes a las observaciones finales. Sobre cada una de
estas submuestras se llevan a cabo estimaciones del modelo, obteniendo las correspon
dientes distribuciones de residuos, que denotamos respectivamente por1 y2.
373
10. El modelo lineal mltiple
np
2 2 2
k
11 F np2k
H0:2i=2j i=1, ,n
H1 :2i = 2j para algn i=j
En caso de que el nmero de grados de libertad fuera reducido se podra proponer un modelo
similar al anterior pero excluyendo los productos cruzados de variables.
El test de White se dice que es el ms general por cuanto no exige supuestos pre
vios al comportamiento de los residuos (no exige normalidad) ni tampoco hay que
pronunciarse con antelacin sobre las variables X que pueden estar causando esta
heteroscedasticidad.
374
10. El modelo lineal mltiple
Por lo que respecta a los efectos introducidos por la autocorrelacin, las consecuen
cias son las propias de una matriz no escalar, que como ya hemos comentado son la
ineficiencia de los estimadores y la presencia de un sesgo en la varianza muestral, que
desaconseja realizar contrastes de significacin.
Para detectar la presencia de autocorrelacin, resulta muy aconsejable como prime
ra aproximacin un examen grfico de los residuos, cuyo patrn de comportamiento
temporal puede delatar la presencia de correlaciones lineales tal y como recoge la
figura 10.5
Aunque en principio la presencia de autocorrelacin vendra descrita de forma gen
rica como E(uiuj) = 0, resulta conveniente especificar ciertos esquemas concretos de
correlacin entre los residuos. As, el contraste de autocorrelacin de Durbin y Watson
de utilizacin generalizada, considera las perturbaciones relacionadas segn el esque
ma: ut = ut1 + t, donde ut recoge la perturbacin asociada al instante t, y se
cumple:
375
10. El modelo lineal mltiple
lo
Ul l! 1.9 t
El:
o
o:
a4
o:
o t
No autocorrelacin Autocorrelacion
A las variables e que cumplen estos requisitos se las denomina ruidos blancos, siendo
su utilizacin frecuente en la modelizacin estocastica de series temporales. Sustitu
yendo en la expresin de ni se obtiene:
O0
U1: i PUt1 + 61: I P(PU1:2 + 61:1) + 61 i 61 + pi1 + p262 + " i z pit1
1:0
E (ni) : E piet) : O
1:0
OO _ OO _ _ _
O0 21 2 a?
I E(i):1_p2
Esta varianza
376
10. El modelo lineal mltiple
2
2u =
1 2
depende de la varianza de (que se asume constante) y de la autocorrelacin .
El contraste de ausencia de autocorrelacin se expresa:
H0 : = 0
H1 : = 0
y dado que las perturbaciones u no son observables el contraste debe llevarse a cabo
con sus errores de estimacin u. Partiendo de estos residuos, Durbin y Watson (1950)
definieron la expresin:
n
(ut ut1)2
t=2
dDW = n
u2t
t=1
que, para tamaos elevados de muestra podr escribirse aproximadamente como: d
(1 ) siendo el coeficiente de autocorrelacin estimado.
Los valores de este coeficiente estimado permiten extraer distintas conclusiones sobre
la autocorrelacin:
377
10. El modelo lineal mltiple
k= 2 3 4 5 6 10
n dL dU dL dU dL dU dL dU dL dU dL dU
10 0,879 1,320 0,697 1,641 0,525 2,016 0,376 2,414 0,243 2,822
11 0,927 1,324 0,758 1,604 0,595 1,928 0,444 2,283 0,316 2,645
12 0,971 1,331 0,812 1,579 0,658 1,864 0,512 2,177 0,379 2,506
13 1,010 1,340 0,861 1,562 0,715 1,816 0,574 2,094 0,445 2,390
14 1,045 1,350 0,905 1,551 0,767 1,779 0,632 2,030 0,505 2,296 0,127 3,360
15 1,077 1,361 0,946 1,543 0,814 1,750 0,685 1,977 0,562 2,220 0,175 3,216
20 1,201 1,411 1,100 1,537 0,998 1,676 0,894 1,828 0,792 1,991 0,416 2,704
25 1,288 1,454 1,206 1,550 1,123 1,654 1,038 1,767 0,953 1,886 0,621 2,419
30 1,352 1,489 1,284 1,567 1,214 1,650 1,143 1,739 1,071 1,833 0,782 2,251
35 1,402 1,519 1,343 1,584 1,283 1,653 1,222 1,726 1,160 1,803 0,908 2,144
40 1,442 1,544 1,391 1,600 1,338 1,659 1,285 1,721 1,230 1,786 1,008 2,072
45 1,475 1,566 1,430 1,615 1,383 1,666 1,336 1,720 1,287 1,776 1,089 2,022
50 1,503 1,585 1,462 1,628 1,421 1,674 1,378 1,721 1,335 1,771 1,156 1,986
100 1,654 1,694 1,634 1,715 1,613 1,736 1,592 1,758 1,571 1,780 1,484 1,874
378
10. El modelo lineal mltiple
es decir
Yt = 1 +2Xt +t
Repeticin de este procedimiento hasta que la diferencia entre dos estimaciones consecutivas
de sea muy pequea (menos de 0,005)
10.4.2.5. No normalidad
La hiptesis de normalidad de la perturbacin aleatoria es la base de todo el proceso
inferencial sobre el modelo lineal bsico. Por tanto, el incumplimiento de este supuesto
podra afectar seriamente a los contrastes de significacin desarrollados.
En apartados anteriores hemos comprobado que los estimadores mnimo cuadrticos
son ELIO, es decir, lineales insesgados y ptimos. Estas propiedades se cumplen con
independencia de la distribucin probabilstica de u y por tanto no se ven afectadas
por el incumplimiento de la hiptesis de normalidad.
Sin embargo, el supuesto de normalidad aade afirmaciones ms fuertes que el
teorema de Gauss-Markov: si el vector de perturbaciones u es normal el vector de
estimaciones mximo verosmiles (EMV) coincide con el vector de estimadores mnimo
cuadrticos y adems no existe ningn otro vector insesgado (lineal o no lineal) cuya
varianza sea menor (teorema de Rao que extiende los resultados de Gauss-Markov).
Adems, el incumplimiento de la hiptesis de normalidad impide conocer el modelo
probabilstico seguido por el vector mnimo cuadrtico y el de residuos. Como conse
cuencia, los estadsticos empleados en los procesos inferenciales, que seguan modelos
chi cuadrado, t de Student o F de Snedecor, todos ellos derivados del normal, tampoco
se adaptarn ahora a dichas distribuciones, con lo cual los contrastes habituales de
hiptesis dejan de ser vlidos (nicamente con tamaos muestrales elevados y bajo
ciertas condiciones podran obtenerse distribuciones asintticas).
Parece por tanto aconsejable contrastar si el supuesto de normalidad de u es o no
admisible y, dado que las verdaderas perturbaciones son desconocidas, el contraste de
normalidad se lleva a cabo sobre los residuos del modelo u siguiendo los procedimientos
379
10. El modelo lineal mltiple
1.2
1
d
a
di
s 0.8
n
e
D
0.6
0.4
0.2
uhat1
La hiptesis nula es la normalidad de las perturbaciones y ser contrastada a partir de los residuos.
Por tanto nos estamos basando en la informacin muestral para estimar los parmetros, hecho que
debe ser tenido en cuenta en el clculo de los niveles crticos.
As, si optsemos por el procedimiento de Kolmogorov-Smirnov para contrastar la normalidad de
u, resultara necesario llevar a cabo la estimacin de los parmetros esperanza y varianza a partir de
la muestra y las correspondientes probabilidades deberan ser consultadas en las tablas modificadas
de Lilliefors.
380
10. El modelo lineal mltiple
Entre las razones que justifican la consideracin de X como estocstica se encuentran la espe
cificacin de modelos que consideran como explicativas las variables endgenas retardadas. As, si
Yi = 1 + 2Xi + 3Yi1 + ui la variable Yi1 es aleatoria por depender de la perturbacin ui1.
Del mismo modo, cualquier modelo de ecuaciones simultneas en el que aparezca como explicativa
alguna variable endgena deber considerarse por definicin de regresores estocsticos. Otra posible
razn del carcter estocstico de X es la presencia de errores en las variables del modelo, como con
secuencia de una medicin inadecuada de las mismas.
Esta segunda condicin no suele cumplirse en la prctica, hecho que afecta a los esti
madores que pasan a ser sesgados y llevan asociadas matrices de varianzas-covarianzas
inferiores a las reales.
Examinando las situaciones anteriormente planteadas se observa que en los modelos que incluyen
como explicativas variables endgenas retardadas Yi = 1 +2 Xi +3Yi1 +ui tan slo puede garan
tizarse la independencia entre valores contemporneos de las variables explicativas y la perturbacin
aleatoria (Xi y ui ) en el caso de que no exista un proceso autorregresivo en las perturbaciones.
Por su parte, los modelos de ecuaciones simultneas y los que contienen errores de medida en las
variables incumplen sistemticamente la condicin de independencia entre las variables explicativas
y la perturbacin aleatoria.
381
10. El modelo lineal mltiple
Debemos tener en cuenta que las expresiones utilizadas en los procesos inferenciales contienen
explcitamente el nmero de los grados de libertad n k. Por tanto, aunque un tamao de muestra
pequeo no viola ninguna de las hiptesis bsicas del modelo, s tiene consecuencias negativas al
conducir a estimaciones que, aunque insesgadas y eficientes, presentan varianzas comparativamente
ms altas que las obtenidas con tamaos muestrales superiores.
Para evitar este tipo de problemas, es recomendable eliminar de un modelo las variables menos
significativas, con lo cual se dispone de ms grados de libertad. El principio de parquedad o par
simonia consiste en buscar el modelo que, con el mnimo nmero de variables explicativas, consiga
un grado de eficacia explicativa comparable con otros ms complejos.
Por otra parte, en el caso de que existiera relacin lineal entre algn subconjunto
de regresores, el rango de la matriz X sera inferior a k y por tanto no sera posible
determinar los estimadores del modelo. Aparecera as una multicolinealidad perfecta,
situacin en la que se tiene:
10.4.3.3. Multicolinealidad
La presencia de relaciones lineales exactas entre los regresores no resulta frecuente
en la prctica, por lo que la multicolinealidad perfecta se estudia tan slo como un
supuesto terico extremo.
En las investigaciones economtricas son frecuentes los modelos en los que aparece
cierto grado de correlacin (o multicolinealidad aproximada) entre las variables expli
cativas. Las razones de este hecho son la presencia de tendencias comunes a varios
regresores o incluso la conexin terica entre ellos y su principal consecuencia es el
aumento en la matriz de varianzas-covarianzas de los estimadores.
Es importante destacar que las propiedades de los EMC no se ven afectadas por la
presencia de una cierta multicolinealidad (siguen siendo insesgados, ptimos y consis
tentes) pero en cambio la matriz de varianzas-covarianzas, que depende de las relacio
nes existentes entre las variables explicativas, aumenta su valor. Como consecuencia,
las expresiones de la t de Student aumentan su denominador, con lo cual resulta ms
difcil rechazar la hiptesis de no significacin de los parmetros individuales. Adems,
la elevada varianza de los estimadores hace que stos sean muy voltiles, por lo cual
382
10. El modelo lineal mltiple
Las estimaciones obtenidas para modelos con un grado importante de multicolinealidad son muy
poco estables, ya que al aadir nueva informacin muestral el modelo estimado podra cambiar
radicalmente.
En cambio, esta multicolinealidad no afectar a las predicciones siempre que admitamos que las
pautas de correlacin se mantienen constantes en el perodo de prediccin.
De hecho, es posible comprobar que la varianza de los estimadores aumenta con la correlacin
entre las variables explicativas:
1 2Y 1R2
2j k 2X 1 j
= n R2
donde R2j es el coeficiente de determinacin de la regresin de Xj sobre las restantes variables inde
pendientes.
383
10. El modelo lineal mltiple
(1 1 +2 2 )
k Fkn1+n22k
11 + 22
n1 + n2 2k
Esta discrepancia tipificada sigue un modelo F de Snedecor y su resultado se in
terpreta como el porcentaje de incremento en la suma de cuadrados de los residuos
asociados a un modelo nico, respecto a la que se obtendra con dos muestras.
[Justificar los grados de libertad de esta expresin]
Si el valor de la F es elevado est indicando un empeoramiento significativo del
modelo como resultado de no dividir el perodo muestral, que lleva a rechazar la
hiptesis nula.
Cuando el punto sobre el que se quiere contrastar el cambio estructural no permite
disponer de dos muestras con tamao suficientemente elevado (n2 < k) el estadstico
pasa a ser
384
10. El modelo lineal mltiple
1 1
n2 Fn2n1k
n1
11
k
Los inconvenientes del contraste de Chow son que necesita conocer el punto de cor
te, y que pierde potencia a medida que dicho punto se acerca al extremo de la muestra
global. Adems, este contraste es sensible a la presencia de heteroscedasticidad por lo
cual sta debe ser corregida antes de contrastar los cambios estructurales.
1 1
n2 Fn2n1k
11
n1 k
donde recoge la suma los residuos cuadrticos cometidos si la regresin se lleva
a cabo para todos los valores muestrales mientras 11 son los residuos cuadrticos
cuando la regresin se extiende slo a los n1 primeros datos.
385
Bibliografa
[1] J. Aranda and J. Gmez. Fundamentos de Estadstica para Economa y Admi
nistracin de Empresas. Diego Martn, 2002.
[3] F. Azorn and J.L. Sanchez Crespo. Mtodo y aplicaciones del muestreo. Alianza
Universidad, 1986.
[5] M. Barrow. Statistics for economics, accounting, and business studies. Pearson
Education, 2006.
[6] W.E. Becker and D.L. Harnett. Business and economics statistics with computer
applications. Addison-Wesley, 1987.
[8] M.L. Berenson and D.M. Levine. Estadistica para administracion y economia:
conceptos y aplicaciones. Mc.Graw-Hill, 1991.
[9] D.A. Berry and B.W. Lindgren. Statistics: Theory and Methodos. Duxbury Press,
1996.
[12] R. Cao, M.A. Presedo, and M.F. Fernndez. Introduccin a la estadstica y sus
aplicaciones. Pirmide, 2006.
[14] J.M. Casas and J. Santos. Introduccin a la estadstica para economa y admi
nistracin de empresas. Centro de Estudios Ramn Areces, 1995.
[15] G. Casella and R.L. Berger. Statistical inference. Textbook Reviews, 2006.
386
Bibliografa
[16] Ya-Lun Chou. Statistical analysis for business and economics. Elsevier Science
Publishing, 1989.
[18] M. Cross and M.K. Starr. Statistics for Business and Economics. McGraw-Hill,
1983.
[19] N.M. Downie and R.W. Heath. Mtodos estadsticos aplicados. Harla, 1986.
[21] H. Fernndez, M.M. Guijarro, and J.L. Rojo. Clculo de probabilidades y esta
dstica. Ariel Economa, 1994.
[23] J.E. Freund and F.J. Williams. Elementos Modernos de Estadstica Empresarial.
Prentice-Hall, 1989.
[25] J.D. Gibbons. Nonparametric methods for quantitative analysis. American Scien
ces Press, 1985.
[28] P.G. Hoel and R.J. Jessen. Estadstica bsica para negocios y economa. CECSA,
1986.
[30] M. Kendall and A. Stuart. The advanced theory of statistics (3 Vol.). Charles
Griffin, 1977.
[31] E.L. Lehmann. Testing Statistical Hypotheses. John Wiley and Sons, 1986.
387
Bibliografa
[37] R.D. Masson and D.A. Lind. Estadstica para Administracin y la Economa.
Alfaomega, 1992.
[38] T. Mayer. Truth versus precision in economics. Edward Elgar Publishing Limited,
1983.
[43] A.M. Mood and F.A. Graybill. Introduccin a la teora de la estadstica. Aguilar,
1978.
[46] R.L. Ott and W. Mendenhall. Understanding statistics. Duxbury Press, 1994.
[50] R. Prez and A.J. Lpez. Anlisis de datos econmicos II. Mtodos inferenciales.
Pirmide, Madrid, 1997.
388
Bibliografa
[57] L. Ruiz-Maya and F.J. Martn Pliego. Estadstica II: Inferencia. Paraninfo, 2001.
[59] M.G. Sobolo and M.K. Starr. Statistics for business and economics. McGraw-Hill,
1983.
[61] J. Tanur and otros. La Estadstica. Una gua de lo desconocido. Alianza Editorial,
1992.
[64] R.E. Walpole and R.H. Myers. Probabilidad y estadstica. McGraw-Hill, 1992.
[65] R.H. Wonnacott and T.H. Wonnacott. Estadstica bsica prctica. Limusa, 1991.
[66] R.H. Wonnacott and T.H. Wonnacott. Fundamentos de estadstica para Admi
nistracin y Economa. Limusa, 1993.
[68] M.V. Esteban y otros. Econometra Bsica Aplicada con Gretl. Sarriko On,
Universidad del Pas Vasco, 2008.
389
Index
A bilateral, 267
agregacin 164
acuracidad,de v.a., 140 de autocorrelacin de Durbin y Wat
son, 375
aleatoria, variable, 35 de bondad de ajuste, 276
anlisis
ausenciade la varianza (ANOVA), 332 de cambio estructural, 384
de homocedasticidad
autocorrelacin,
axiomtica
de sesgo,
correlacin,
de173
Kolmogorov,
276,
322,
369, 375
339 23 de Goldfeld y Quandt, 373
de White, 374
de homogeneidad, 301
de Kolmogorov-Smirnov, 280, 304
de Kruskal-Wallis, 304
B de Mann-Whitney, 302
bondad de un modelo, 333 de McNemar, 306
C de normalidad
Jarque-Bera, 282
cantidad de informacin de Fisher, 178
coeficiente
de rachas, 273
de apuntamiento, 62 de rangos, 275
confianza,
consistencia,
contraste
combinaciones,
combinatoria,
condicin
desimple,
ajustado,19
corregido,
mltiple,
parcial,
de
lineal,
variacin 348
desigualdad
correlacin
asimetra,
Spearman,
de
237124 62de
determinacin,
independencia,
184
349
348
21
347
347
de Pearson,
275
332, 29
61
Theil,346
353 de significacin, 260
de Wald-Woldfowitz, 304
error tipo I, 309
error tipo II, 309
exacto de Fisher, 300
mtododel
nivel crtico, 262
sobre
292 varianza de dos poblacio
nes, 294
Q de Cochran, 306
unilateral, 267
390
Index
391
Index
392
Index
chi-cuadrado, 199 P
de Bernoulli, 70 particin, 32
de Pareto, 110 permutaciones, 20
de Poisson, 104 permutaciones con repeticin, 20
exponencial, 107 perturbacin aleatoria, 319, 338
F de Snedecor, 209 poblacin, 155
Gamma, 112 potencia
geomtrico, 80 de un contraste, 311
hipergeomtrico, 87 de un test, 263
log-normal, 109 precisin, 164, 177, 237
multihipergeomtrico, 129 prediccin
multinomial o polinomial, 128 condicionada, 351
normal, 198 dinmica, 351
estndar, 94 esttica, 351
general, 100 Ex-ante, 351
multivariante, 130 Ex-post, 351
t de Student, 207 no condicionada, 351
uniforme, 93 probabilidad, 23
modelo economtrico, 318 clsica o de Laplace, 14
especificacin, 319 condicionada, 28
estimacin, 320 final o a posteriori, 34
lineal mltiple, 338 frecuencial o frecuentista, 15
validacin, 320 inducida, 38
momento inicial o a priori, 34
centrado de orden r, 61 subjetiva, 16
de orden r centrado respecto a M, total, 32
61 proceso de estimacin, 167
no centrado de orden r, 61 prueba dicotmica, 70
muestra
aleatoria simple, 161 R
muestreo razn de verosimilitudes, 315
aleatorio, 159 regin
probabilstico, 159 crtica, 269
multicolinealidad, 331, 382 ptima al nivel , 313
de aceptacin, 269
N de rechazo, 269
nivel regresores estocsticos, 381
crtico, 262 reproductividad, 137
de confianza, 239
de significacin, 261, 311 S
nivel de confianza, 242 sesgo, 173
normalidad, 322 lgebra, 23
-lgebra de Borel, 37
sistema completo de sucesos, 32
393
Index
subpoblacin, 158
suceso de Wald-Wolfowitz, 304
ms potente, 312
elementale, 22 Q de Cochran, 306
seguro, 22 uniformemente de mxima poten
suficiencia, 181 cia, 312
uniformemente ms potente, 312
ttamao
Tablade
test bdel
teorema
Teorema inomial,
182
poblacional,
central 78
33
factorizacin
la
Rao,
Fisher, 245
Gauss-Markov,
Bayes,
nmeros
muestra,
test,
probabilidad
del
328
311
206
lmite
aleatorios,
156de(TCL), 32
Fisher-Neyman,
326,
total,166
342149 tipificacin, 101
trampa de las variables ficticias, 357
V
v.a.
independientes, 133
validacin, 320
valor
crtico, 269
esperado, 55
estimado, 163
observado, 163
verdadero, 162
variabilidad
explicada, 332
no explicada, 332
total, 332
variable
aleatoria, 35, 37
2 de bondad de ajuste, 276 bidimensional, 115
de autocorrelacin de Durbin y Wat continua, 39, 43
son, 375 discreta, 39, 43
de bondad de ajuste, 295 degenerada, 58
de Chow decambio estructural, 384 dummy o ficticia, 355
de homocedasticidad endgena, 318
de Goldfeld y Quandt, 373 endgena retardada, 318
de White, 374 exgena, 318
de homogeneidad, 301 latente, 319
de Kolmogorov-Smirnov, 280 mixta, 40
de Kolmogorov-Smirnov (K-S), 304 predeterminada, 318
de Kruskal-Wallis, 304 variaciones, 20
de Mann-Whitney, 302 con repeticin, 19
de McNemar, 306 varianza, 58
deK-S
de
normalidad
Jarque-Bera,
Lilliefors, 281
282 marginal, 122
muestral, 194, 327
verosimilitud, 34
de rachas, 273
de rangos, 275
394