Вы находитесь на странице: 1из 374

JULIAN DE LA HORRA NAVARRO

ESTADÍSTICA APLICADA
Julián de la Horra Navarro
Catedrático de Estadística e Investigación Operativa
Departamento de Matemáticas
Universidad Autónoma de Madrid

ESTADÍSTICA APLICADA
Tercera edición

,1

D~ ros
·"'
Primera edición, 1995
Segunda edición, 2001
Tercera edición, 2003

© Julián de la Horra, 2003 (Versión papel)


© Julián de la Horra, 2018 (Versión electrónica)

Reservados todos los derechos.

Queda prohibida, salvo excepción prevista en la ley ,cualquier forma de


reproducción, distribución, comunicación pública y transformación de
esta obra sin contar con la autorización de los titulares de propiedad
intelectual. La infracción de los derechos mencionados puede ser
constitutiva de delito contra la propiedad intelectual (art.270 y siguientes
del Código Penal). El Centro Español de Derechos Reprográficos (CEDRO)
vela por el respeto de los citados derechos.

Ediciones Díaz de Santos


Email:ediciones@editdiazdesantos.com
www.editdiazdesantos.com

ISBN: 978-84-9052-131-1 (Libro electrónico)


ISBN:978-84-7978-554-3 (Libro en papel)
A mis padres, Julián y Milagros.
,
Indice

Prefacio XIII
Prefacio a la tercera edición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XV

l. ESTADÍSTICA DESCRIPTIVA DE UNA VARIABLE


l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. Variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
3. Varibles cuantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4. Diagramas de tallos y hojas . . . . . . . . . . . . . . . . . . . . . . . . . . 3
5. Medidas de centralización . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2. ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES


1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. Conceptos básicos y planteamiento . . . . . . . . . . . . . . . . . . . . 11
3. Modelo de regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4. Aplicaciones del modelo de regresión lineal . . . . . . . . . . . . . . 16
5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3. PROBABILIDAD

l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3. Espacios muestrales discretos . . . . . . . . . . . . . . . . . . . . . . . . . 27
4. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5. Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6. Regla útiles para calcular probabilidades . . . . . . . . . . . . . . . 30
7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
X ÍNDICE

4. VARIABLES ALEATORIAS
l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2. Conceptos básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . 43
4. Variables aleatoria continuas . . . . . . . . . . . . . . . . . . . . . . . . 45
5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 48

5. VECTORES ALEATORIOS
l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3. Vectores aleatorios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4. Vectores aleatorios continuos . . . . . . . . . . . . . . . . . . . . . . . . . 61
5. Algunas propiedades útiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6. MODELOS DE PROBABILIDAD MÁS COMUNES


l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2. Pruebas de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4. Otros modelos basados en pruebas de Bernoulli . . . . . . . . . 75
5. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6. Distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . 78
7. Di tribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8. Distribuciones asociada a Ja normal . . . . . . . . . . . . . . . . . . 81
9. Distribución normal muJtivariante . . . . . . . . . . . . . . . . . . . . 82
10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

7. MUESTREO ALEATORIO
l. Introducción . . . . . . . . . . . . . . . . ............ .......... 95
2. Conceptos básicos . . . . . . . . . . . . ............ .......... 95
3. Inferencia paramétrica . . . . . . . . ............ .......... 98
4. Estadísticos suficientes . . . . . . . . ............ .......... 98

8. ESTIMACIÓN PUNTUAL
l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3. Error cuadrático medio. E timadores in e gados . . . . . . . . . . 102
4. Estimadores consi tentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5. Métodos de construcción de estimadores . . . . . . . . . . . . . . . . 104
6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
ÍNDICE XI

9. ESTIMACIÓN POR INTERVALOS DE CONFIANZA


l. Introducción .......................... _. . . . . . . . . . . . 113
2. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3. Cantidades pivotales en poblaciones normales . . . . . . . . . . . . 114
4. Intervalos de confianza en poblaciones normales . . . . . . . . . . 116
5. Otros intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . 118
6. Mínimo tamaño muestra} . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7. Intervalos de confianza más frecuentes . . . . . . . . . . . . . . . . . . 120
8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

10. CONTRASTE DE lllPÓTESIS PARAMÉTRICAS


l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......... 127
2. Concepto básicos . . . . . . . . . . . . . . . . . . . . . . . . .......... 127
3. Test de razón de verosimilitudes . . . . . . . . . . . . .......... 128
4. Algunas consideraciones adicionales . . . . . . . . . . .......... 132
5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......... 134
6. Te t de hipótesis más frecuentes . . . . . . . . . . . . . .......... 136
7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......... 139

11. CONTRASTES x2
l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
2. Contraste de la bondad del ajuste (primer caso) . . . . . . . . . . 147
3. Contraste de la bondad del ajuste (segundo caso) ...... . .. . 148
4. Contraste de homogeneidad de poblaciones . . . . . . . . . . . . . . 149
5. Contraste de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

12. REGRESIÓN Y DISEÑO DE EXPERIMENTOS


l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
2. Regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
3. Diseño de experimentos con un factor . . . . . . . . . . . . . . . . . . 165
4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

SOLUCIONES DE LOS EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . 173


l. Estadística de criptiva de una variable . . . . . . . . . . . . . . . . . . . . 173
2. E tadistica descriptiva de dos variables . . . . . . . . . . . . . . . . . . . 178
3. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
4. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5. Vectores aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
6. Modelos de probabilidad má comunes . . . . . . . . . . . . . . . . . . . 216
7. E timación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
8. E timación por intervalos de confianza . . . . . . . . . . . . . . . . . . . 257
XII ÍNDICE

9. Contraste de hipótesis paramétricas . . . . . . . . . . . . . . . . . . . . . . 268


10. Contra te X2 • • . • • . • • . • • • • • • • . • . • • • • . . • • • . • . . . • . . • • . 296
11. Regresión y diseño de experimentos . . . . . . . . . . . . . . . . . . . . . 324

TABLAS ................................................... 343

ÍNDICE ANALÍTICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357


Prefacio

Este libro trata de exponer, de manera razonada, aquellos conceptos y méto-


dos de la Estadística que se consideran bá icos e imprescindibles para u
posterior aplicación en cualquier campo. Puede ser adecuado para cursos bien
fundamentados de Estadística para Biología, Medicina, Economía, Ingeniería,
etcétera.
No es un libro con teoremas y demos.traciones (ya que no va dirigido a
estudiante de Matemáticas), pero es un libro riguroso, en el sentido de que las
propiedades se comprueban y los conceptos se plantean y desarrollan mate-
máticamente, siempre que se considera razonable.
De manera intencionada, se han incluido sólo aquellos métodos estadísti-
cos que pueden ser de aplicación en cualquier rama, de modo que, según el
campo específico de aplicación, se puede complementar con otros libros más
específicos.
También, de forma intencionada, se han excluido todos aquellos conceptos
que, desde el punto de vista matemático, pueden ser muy intere antes, pero
que, desde el punto de vista aplicado, suelen contribuir a generar confusión:
álgebras y a-álgebras de sucesos, momentos de cualquier orden, función gene-
ratriz de momentos, etc.
El resultado final de todo esto debería er un libro de Estadística corto en
extensión claro en lo básico y riguroso en lo posible.
E te libro no habría sido posible sin la colaboración de lo profesores de
E tadí tica del Departamento de Matemáticas de la Universidad Autónoma de
Madrid y, muy especialmente, de Carmen Ruiz-Rivas. Para ellos, mi más
profundo agradecimiento.
Prefacio a la tercera edición

La buena acogida que han tenido las dos primeras ediciones de este libro me ha
animado a abordar una tercera edición.
Esta tercera edición respeta la estructura de las dos anteriores. Su principal no-
vedad es que, al final del libro, se incluye la solución detallada de los doscientos
cincuenta ejercicios propuestos en los diferentes capítulos.
Espero que esta modificación contribuya a completar y mejorar el resultado
final.
Finalmente, deseo agradecer a la Editorial Díaz de Santos las facilidades que
siempre me ha brindado.
1

Estadística descriptiva
de una variable

l. Introducción

Si estamos interesados en estudiar alguna característica de una población


(peso, distribución de la renta, etc.) lo más completo es, evidentemente, estudiar
la población entera. Pero esto suele requerir demasiado tiempo y demasiado
dinero. Otras veces, el estudio de un elemento es destructivo, con lo cual es
imposible hacer un análisis de toda la población (nos quedaríamos sin pobla-
ción). Por tanto, normalmente, nos conformaremos con un conocimiento par-
cial de la población. Esto lo conseguiremos observando uno cuantos elemen-
tos y viendo cómo es o cuánto vale en ellos esa característica que nos interesa.
Este conjunto de elementos que observamos es lo que llamaremos una muestra
de la población. Por upue to, una muestras representarán mejor a la població"n
que otras y esta idea habrá que formalizarla más adelante. Pero, de momento,
no quedaremos, simplemente, con Ja idea de que una muestra deberá obtener e
de tal forma que represente «más o menos bien», al conjunto de la población.
El objetivo básico de la Estadística Descriptiva es hacer una descripción lo
más sencilla posible de los resul tado obtenidos en la muestra. Esta descripción
se hará mediante representaciones gráficas y mediante representaciones numéri-
ca . En e tas representaciones hay una idea implícita: lo que ocurre en toda la
población eguramente, e ba ta.nte parecido a lo que ocurre en la mue tra.
Pero, insistimos en que esto se formalizará más adelante. Este capítulo está
dedicado solamente a hacer un estudio de criptivo de Jo obtenido en una
muestra concreta cuando nos interesamos en una sola caracterí tica, es decir en
una ola variable estadística Estas variable p ueden ser de dos tipos: cualitativas
y cuantitativas.

2. Variables cualitativas

Una variable estadística es cualitativa cuando sólo puede clasificarse en cate-


gorías no numéricas. Ejemplos de variables cualitativas son el color de los ojos
2 ESTADÍSTICA APLICADA

de las personas de una ciudad, la Facultad o Escuela en la que están matricula-


dos los estudiantes de una Universidad, etc. En este caso sólo podemos hacer
representaciones gráficas. Su objetivo es dar una idea visual sencilla de la
muestra obtenida. Naturalmente, hay una gran variedad de representaciones
gráficas. A continuación, vemos algunas de ellas en un ejemplo.

EJ~MPLO: clasificamos una muestra de 100 personas según su grupo sanguineo:

Grupo A: 42 personas.
Grupo B: 12 personas.
Grupo AB: 5 personas.
Grupo O: 41 personas.

Estos datos pueden representarse gráficamente mediante un diagrama de rec-


tángulos y un diagrama de sectores (por ejemplo). Ver Fig. 1.1.

A B AB o
Fig. 1.1

El ignificado de estas y otras representaciones similares es obvio.

3. Variables cuantitativas

Una variable estadí tica X es cuantitativa cuando toma valores numéricos. Son
las má interesantes, ya que con ellas podemos hacer representaciones numéricas
que no tenían sentido para las variables cualitativas. Es muy habitual distinguir
dos tipos de variables cuantitativas que indicamos a continuación:

Di cretas: ólo pueden tomar un conjunto finito o numerable de valores


(generalmente valores enteros).
Continua : pueden tornar cualquier valor en un intervalo (finito o infinito).
ESTADÍSTICA DESCRIPTIVA DE UNA VARIABLE 3

Sin embargo, es conveniente resaltar que, para ]a mayoría de las cosas, es


irrelevante si la variable es discreta o continua. Utilizaremos la siguiente nota-
ción, tanto para variables discretas como para continuas:

n: tamaño de la muestra= número de elementos observados.

x 1, ... , xn: representan los n valores de la variable estadística obtenidos en la


muestra (puede haber repeticiones).

A veces, aJ estudiar variables continuas, no disponemos de los datos origina-


les, sino que nos dan ]os datos agrupados en una serie de clases A 1 , ... , Ak. En
este caso, la notación sería:

n: tamaño de la muestra=número de elementos observados.

x 1, . . . , xk: representantes de Jas clases A 1 , .. . , Ak (generalmente los puntos me-


dios de los intervalos).
n1, ... , nk: número de ob ervaciones dentro de cada clase (frecuencias absolu-
tas).
f 1 , ... ,!"-: frecuencias relativas dentro de cada clase (J;=nJn).
Por supuesto, es preferible utilizar los datos originales a usar los datos
agrupados en unas clases artificiales. Intuitivamente, los datos originales contie-
nen más información que los datos agrupados.

4. Diagramas de tallos y hojas

Se pueden hacer di tintas representaciones gráficas con los datos de una variable
cuantitativa X: diagramas de barras para variables discretas histogramas para
variables continuas, etc. Todas estas representaciones son muy sencillas y fácile
de comprender. A modo de ejemplo, vamos a indicar aquí una representación
muy interesante (por su sencillez) para variables cuantitativas continuas: los
diagramas de tallo y hojas. El procedimiento es como sigue:
a) Redondear lo datos a un número conveniente de cifras significativas
(generalmente, dos o tres).
b) Colocarlo en una tabla con dos columnas separadas por una línea, de
la siguiente forma:
Toda las cifras menos la última se escriben a la izqüierda de la línea
(forman el tallo).
La última cifra se escribe a Ja derecha (forma la boja).
e) Cada tallo define una cla e y se escribe sólo una vez. El número de
hojas representa la frecuencia de dicha clase.
4 ESTADÍSTICA APLICADA

EJEMPLO: representar mediante un diagrama de tallos y hojas los siguientes


datos expresados en cm.:
11,357 12542 11,384 12,431 14,212 15,213 13,300 11,300 17,206 12,710
13455 16,143 12162 12 72113420 14,698
a) Los expresamos en mm. (,·edondeamos a tres cifras):
114 125 114 124 142 152 133 113 172 127 135 161122 127 134 147
b) y c)
11 443
12 54727
13 354
14 27
15 2
16 1
17 2

De esta manera, los propios datos nos dan una idea visual de la zona con mayor
frecuencia de observaciones.

5. Medidas de centralización

La misión de las medidas de centralización es dar una idea del valor central,
alrededor del cual se reparten los valore de la muestra obtenida. Solamente
definiremos las más habituales e interesante .

DEFJNJ IÓ : la media muestra{ se define como:

1 /1

x= - ¿ X¡
n i= l

(Cuando se trate de una variable continua con los datos agrupados, usaremos:
x=(l/n) :rf=i n¡x¡=:rf=i J;x¡; es decir, es como si el valor X¡ hubiera aparecido n;
vece . Pero in i timos en que, si los datos están sin agrupar, no tiene mucho
sentido agruparlo ).

DEFINICIÓ : la idea de la mediana muestra/ es la siguiente:

Es el valor de la mue tra que deja a izquierda y derecha el mismo número de


observaciones, una vez ordenadas.
Por tanto, para hallar la mediana de una muestra ordenamos las observacio-
nes de menor a mayor y tenemos dos posibilidades:
ESTAD[STICA DESCRIPTIVA DE UNA VARIABLE 5

Si el número de observaciones es impar, la mediana es el valor central.


Si el número de observaciones es par, la mediana es el punto medio de los dos
valores centrales.
(Si se trata de una variable continua con Los datos agrupados, lo más que se
puede hallar, generalmente, es el intervalo mediana; es decir, la clase en la que se
encuentra la mediana. Pero no hay forma de saber cuánto vale exactamente la
mediana. En algunos textos se recurre a hacer una interpolación; pero eso
equivale a suponer que los datos se reparten de una manera uniforme dentro de
cada clase, cosa que, en realidad, no sabemos, y que, posiblemente, no es cierta.)

DEFINICIÓN: la moda de una muestra de una variable estadística discreta es el


valor que aparece más repetido en la muestra.

La moda no tiene mucho interés como medida de centralización por varias


razones: no tiene sentido para variables estadísticas continuas (habría que
agrupar), puede no ser un valor central, puede haber una moda en cada
extremo, etc.

6. Medidas de dispersión

Las medidas de centralización, por sí solas, son claramente insuficientes para


re u.mir toda una muestra. Por ejemplo, las muestras de la Fig. 1.2 tendrían lo
mismos valores de media muestral y mediana muestral y, sin embargo, son
muestra muy diferentes:

xx x xxex xxxx XXXXX;ie<XXX X X


100 100

ig. 1.2

Las dos muestras difieren claramente en la eparación de sus datos. Con-


viene dar alguna medida que nos dé una idea de Ja dispersión de ]os datos con
respecto a los valores centrales. Este es el objetivo de las medida de disper-
sión. Las más interesantes son la varianza y la desviación típica muestrales.

D EFINJCIÓ : la varianza muestra/ se define como:

Vx = -1 ~
L., (X¡ - X)
-2
n i= l

( Si se trata de una variable continua con lo datos agrupados, usaremos la


expresión: vx = (1/n) l:}. 1 n;(x; - x)2 = l:f= 1. J;(x¡ - .x:)2.)
6 ESTADÍSTICA APLICADA

Para calcular la varianza suele ser más cómodo usar Ja siguiente expresión,
que obtenemos desarrollando el cuadrado:

= -1 ( ¿n
xt-nx 2 ) = -1 ¿n
xt-x 2
n i= J n i• l

(Cuando se trate de una variable continua con los datos agrupados, tendre-
mos de forma análoga: vx=(1/n) L}=1 n1xt-x2 = L7=1 J;xt-x 2 . )
Es frecuente encontrar texto en los que se define la varianza muestra! de
una forma ligeramente diferente: en vez de dividir por n se divide por n - l.
Dividir por n -1 es algo menos natural· hay razones que justifican el hacerlo,
pero esas razone no se pueden dar en este momento, ya que necesitaríamos
hablar de cómo ha sido extraída la muestra, y este aspecto todavía no vamos a
considerarlo. Con la definición que hemos dado, la varianza muestral e
simplemente, una «dispersión cuadrática» media.

DEFINICIÓ : la desviación típica ( o desviación estándar) de la muestra es la


raíz cuadrada positiva de la varianza muestral.

Con la desviación típica intentamos medir la dispersión en las unidades


originales, ya que la varianza no da la media de los cuadrados de las desvia-
ciones a la media muestra}.

EJEMPLO: vamos a aplicar todos los conceptos anteriores a la siguiente muestra


de estaturas de 24 personas:
1,621 ,75 1,601,411,93 2,00 1,711 ,68 1,60 1,67 1,85 1,83 1,57 1,54 1,62 1,93
1,84 2,01 1,70 1,85 2,05 1,66 1,90 1,65
Tenemos el siguiente diagrama de tallos y hojas con tres cifras significativas:
14 1
15 74
16 20807265
17 510
18 5345
19 330
20 015

Media muestral:
1 n
x= - ¿ x¡= 1,75
n i• J
ESTADISTICA DESCRIPTIVA DE UNA VARIABLE 7

Mediana muestra[:

1,70+1,71 =1705
2 '

Varianza muestra[:

1 "
vx= - ¿ xf-x2 =0,0226
n i= l

Desviación típica muestra[:

J0,0226 = 0,15

Supongamos ahora que, en vez de los datos originales, nos hubiesen dado los
datos agrupados de la siguiente manera:

Clases n;
[1,40; 1,60) 3
[1,60; 1,70) 8
[1,70; 1,80) 3
[1,80; 1,90) 4
[1,90; 2,10) 6

En este caso, tendríamos:

Media muestra[:
1 k
.x= - ¿ tl¡X¡= 1,76
n ;- 1

Intervalo mediana:

[1, 70; 1,80)

Varianza muestra{:

Desviación típica muestra{:

J0,0441 =0,21
8 ESTADÍSTICA APLICADA

7. Ejercicios

l. 13 ovejas comieron una hierba venenosa. Las horas que tardaron en


morir fueron: 44, 27, 24, 24, 36, 36, 44, 44 120, 29, 36, 36 y 36. Analizar
de criptivamente.
2. La puntuacione de un test de inteligencia de 198 per onas dieron los
siguientes resultados:

Puntuación: [30, 40], (40, 50], (50, 60], (60, 70], (70, 80], (80, 90]
N.º de personas: 6 17 76 68 22 9

Analizar descriptivamen te.


3. La cla ificación de 100 familias por el número de hijos es:

N.º de hijos: O 1 2 3 4 5 6 7 8
.º de familia : 11 13 20 25 14 10 4 2 1

Analizar de criptivamente.
4. Se tienen los siguientes porcentajes de las tallas de los reclutas españoles
del reemplazo de 1968:

Talla en cm. menos de 150 (150, 155] (155 160] (160, 165]
% 0,3 1,6 7,4 21,5
Talla en cm. (165, 170] (170 175] (175, 180] más de 180
% 30 5 24,5 10,7 3,5

Analizar descriptivamente.
S. Dato ob ervados en un estudio sobre el tamaño de lo huevo de cuco
(Biometrika (1902)):

Anchura N.º de huevos

13 75 - 14 25 1
14 25 - 14,75 1
14,75 - 15,25 5
15 25 - 15,75 9
15 75 - 16,25 73
16,25 - 16,75 51
16,75 - 17,25 80
17,25 - 17,75 15
17 75 - 18,25 7
18,25 - 18,75 o
18,75 - 19,25 1
ESTADÍSTICA DESCRIPTIVA DE UNA VARIABLE 9

Analizar descriptivamente.
6. En 1879, Michelson obtuvo los siguientes valores para la velocidad de la
luz en el aire (se dan los resultados restando 299.000 a los datos origina-
les, en km./seg., para facilitar su manejo): 850, 740, 900, 1.070, 930, 850,
950, 980, 980, 880, 1.000, 980, 930, 650, 760.
En 1882, Newcomb utilizando otro procedimiento, obtuvo (restando
de nuevo 299.000): 883, 816, 778, 796, 682, 711, 611, 599, 1.051, 781 578,
796, 774, 820, 772. Se pide:
a) Diagramas de tallo y hojas para ambas distribuciones.
b) Medias y desviaciones típicas.
c) ¿ Qué conclusiones pueden extraerse?
7. Los siguientes datos fueron utilizados por Lord Rayleigb (1894). En ellos
aparecen los pesos del nitrógeno producido a partir de compuestos
químicos o a partir del aire suprimiendo el oxígeno. Analizarlos mediante
un diagrama de tallo y hojas:

Fecha Origen Agente purificador Peso del nitrógeno

29-XI-1893 NO Acero caliente 2,30143


5-XII-1893 NO Acero caliente 2,29816
6-XII-1893 NO Acero caliente 2,30182
8-XII-1893 NO Acero caliente 2,29890
12-XTI-1893 Aire Acero caliente 2,31017
14-XII-1893 Aire Acero caliente 2,30986
19-XII-1893 Aire Acero caliente 2,31010
22-XII-1893 Aire Acero caliente 2,31001
26-XII-1893 N 20 Acero caliente 2,29889
28-XTI-1893 N 20 Acero caliente 2,29940
9-1 - 1894 NH 4 02 Acero caliente 2,29849
13-1-1894 NH4 N0 2 Acero caliente 2,29889
27-1-1894 Aire Hidrato de hierro 2 31024
30-1-1894 Aire Hidrato de hierro 2,31030
1-II-1894 Aire Hidrato de hierro 2,31028

8. En 1778, H. Cavendish realizó una serie de 29 experimentos con objeto de


medir la densidad de la tierra. Sus resultados, tomando como unidad la
densidad del agua, fueron:

5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65
5,57 5 53 5 62 5,29 5,44 5,34 5, 79 5,10 5 27 5,39
5,42 5,47 5 63 5,34 5,46 5,30 5,75 5,68 5,85

Analizar descriptivamente.
10 ESTADÍSTICA APLICADA

9. El maíz es un alimento importante para los animales. De todas formas


este alimento carece de alguno aminoácido que son esenciales. Un
grupo de científicos desarrolló una nueva variedad que sí contenía niveles
apreciables de dichos aminoácidos. Para comprobar la utilidad de e ta
nueva variedad para la alimentación animal se llevó a cabo el siguiente
experimento: a un grupo de 20 pollos de 1 dia se Les suministró un pienso
que contenía harina de maíz de ]a nueva vatiedad. A otro grupo de 20 pollos
(grupo de control) e le alimentó con un pienso que sólo se diferenciaba
de] anterior en que no contenía harina de la variedad mejorada de maíz.
Los resultados que se obtuvieron sobre las ganancias de peso de los
pollos (en gramos) al cabo de 21 dias de alimentación fueron los siguientes:
• Variedad normal
380 321 366 356 283 349 402 462 356 410 329 399
350 384 316 272 345 455 360 431
• Variedad mejorada
361 447 401 375 434 403 393 426 406 318 467 407
427 420 477 392 430 339 410 326
Analizar descriptivamente.
10. La EPA (Agencia de Protección del medio ambiente de BE UU) exige a
los fabricante de automóviles que ioruquen los consumos, tanto por
ciudad como por carretera, de cada uno de su modelos. A continuación
e pre entan los datos de consumo por carretera de 30 modelos de
automóvil de 1994, expresados en litros por cada 100 km:
12,3 9 1 10,1 10,4 9,7 11,3 11,3 10,8 9,7 10,1 10,8 10,5 11,3 9,7 10,8
10,5 12,8 12,3 10,8 11,3 9,1 11,8 118 14,1 10,8 18,8 10,8 10,4 10,1 10,8
Analizar descri pti vamente.
11. 1 número de nacidos en España en 1995, por grupos de edades de la
madre es el siguiente:

Edad de la madre 15-19 20-24 25-29 30-34 35-39 40-44 45-49


Número de nacidos 11.874 45.715 127.683 127.805 43.628 6.339 306

Analizar de criptivamente.

12. Los pesos al nacer de una muestra de 70 individuos se distribuyen según


la siguiente tabla de frecuencias:

Peso 17,5-22 5 22,5-27,5 27 5-32,5 32 5-37,5 37,5-42,5 42,5-47,5


Frecuencia 1 8 24 21 15

Analizar descriptivamente.
2
Estadística descriptiva
de dos variables

l. Introducción

En muchos casos estaremos interesados en hacer un estudio conjunto de varias


características de una población. Para fijar ideas, y para no complicar la
notación supongamos que deseamos estudiar dos características cuantitativas,
X e Y, de una población (las consideramos variables cuantitativas porque los
conceptos que se van a definir sólo tienen sentido para ellas). X e Y pueden ser
la longitud y la anchura de una especie de insectos, la tasa de inflación y la tasa
de desempleo de un país a lo largo de una serie de años, etc.
El objetivo fundamental va a ser tratar de encontrar una curva sencilla que
exprese (de manera resumida) la posible relación entre X e Y .

2. Conceptos básicos y planteamiento

Para hacer el estudio conjunto de las variables cuantitativas X e Y, supondre-


mos que disponemos de una muestra de n pares de observaciones de X e Y:

Es decir para el elemento i-ésimo de la muestra observamos lo que valen las


variables X e Y. Esto es fundamental para poder decir algo sensato sobre la
posible relación entre las variables. Igual que en el capítulo dedicado a la
Estadí tica Descriptiva de una variable, no se hará ninguna mención sobre
cómo se ha obtenido la muestra. Teoemo en mente la idea de que representa a
la población total (de alguna forma), pero esta idea ni se precisará ni se
necesitará (de momento).
Por supuesto, se puede hacer un estudio de cada variable por separado, y
calcular, en particular, medidas de centralización y de disper ión como x, vx, ji,
vY. Además, estos valores los necesitaremos más adelante. Pero, como ya
hemos indicado, no es este el objetivo fundamental.

11
12 ESTADÍSTICA APLICADA

Ante de hacer cualquier cálculo conviene representar en el plano los pare


de valores obtenidos. Con esto obtenemos una nube de puntos, que nos puede
dar una idea visual de las posibles relaciones existentes (Fig. 2.1).

Fig. 2.1

Además de lo conceptos ya estudiados de media y varianza, vamos a


necesitar en nuestro estudio el concepto de covarianza; este concepto utiliza las
do variables a la vez.

DEFINICIÓN: la covarianza muestra[ entre las observaciones de X e Y se define


como
1 11

cov
x,y
= -n i¿
= l
(x, - x)(y¡ - y)

La manera má sencilla de calcular la covarianza es haciendo un desarrollo


similar al de la varianza:

= -1 ( ¿ x¡y; -
11
nxy) = -1 ¿ 11
x¡y¡ - xji
n i= t n i= l

y y y

. .......:..
...... .....
.....~·. . ..
...
. .. ...• :..··!·.
......
:.:· ...·
X X X
COVx.v>O COVx,y<O cov,.v=O

ig. 2.2
ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES 13

La covarianza va a aparecer de manera natural al obtener rectas de regre-


sión (un poco más adelante). De momento, podemos indicar (de manera infor-
mal) que hay cierta asociación entre el signo de la covarianza y la orientación
de la nube de puntos (Fig. 2.2).
Es fácil comprobar las asociaciones indicadas sin más que analizar la
definición de covarianza. Por supuesto, se trata de una simplificación.

3. Modelo de regresión lineal

Supongamos que la nube de puntos obtenida es de cualquiera de las dos


formas indicadas en la Fig. 2.3.

..
y y

• .. . .
. .. .
.
X X

Fíg. 2.3

En estos casos, parece bastante razonable intentar resumir toda la nube de


puntos mediante una recta; con esta recta se trataría de formalizar la idea de
que exi te una cierta relación lineal entre los valores de X e Y. Una de las
variables jugará el papel de variable independiente (X) y la otra desempeñará
el papel de variable dependiente de la primera (Y). Esta sección está dedicada a
obtener la recta de regresión de Y sobre X.

D EF1NIC[ÓN: la recta de regresión de Y sobre X es la recta y= a+ bx, qu.e


minimiza el error cuadrático medio (E.C.M.):

1 11
E.C.M. = - ¿ (y¡ - a - bx¡}2
n i= l

La idea de la recta de regresión es sencilla: intentamos encontrar la recta


que mejor representa a la nube de puntos, en el sentido de minimizar la media
de los cuadrados de las distancias verticales de los diferentes puntos de la nube
a la recta (ver Fig. 2.4).
El problema de hallar esta recta de regresión se reduce al problema técnico
de minimizar una función (E.C.M.) de dos variables (a y b). Eso es lo que
hacemos a continuación:
14 ESTADÍSTICA APLICADA

/y,a+b,
X

Fig. 2.4

1 "
E.C.M.=- ¿ (y;-a-bx;)2
n i- 1

Derivando con respecto a cada variable, e igualando a cero, obtenemos el


siguiente sistema de ecuaciones:

a(E.C.M.)
- - - - -_ -1
aa n
(2 -2 ~
na L.,
i= 1
Y;+2 b· ~
L., X;
i= 1
)-o
-

- - _- -1 ( 2b ¿
o(E.C.M.) " 11 11
- X;
2
- 2 ¿x;y;+2a ¿ X;
)-
- O
8b n ;- 1 ;- 1 ;- 1

La solución del sistema anterior se obtiene de manera inmediata:

covx y
a= y - - - · x
vx

Se puede comprobar (pero no lo haremos) que esta solución corre ponde a un


mínimo de la función. Por tanto, la recta de regresión de Y obre X es:

covx y COVX y
y=a+bx = y- - - · x+ - - · x
vx vx
En definitiva:
COVX y
Recta de regresión de Y sobre X: y-y=-- · (x - x)
vx

E obvio que, según como sea la nube de puntos, la recta de regresión la


repre entará mejor o peor. Esto vendrá medido por el error cuadrático medio
cometido:
ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES 15

DEFINICIÓN: la varianza residual es el error cuadrático medio cometido con la


recta de regresión de Y sobre X .

Calculamos a continuación el valor de la varianza residual:

1 ) 2
Varianza residual= - ¿n ( COV
y¡- y+ ----='1: x- COV
----='1: X¡
n i= l vx vx

El cociente que aparece en la óltima expresión recibe un nombre específico:

D EFINICIÓN: el coeficiente de correlación muestra/ entre X e Y se define como:

r= covx,y
N,
Por lo tanto, la varianza residual puede escribirse también de la siguiente
manera:

Varianza residual = vy(l - r 2)

El coeficiente de correlación muestra} toma siempre un valor entre - 1 y 1


(ya que la varianza residual, al ser una suma de cuadrados, no puede ser
negativa). Igual que ocurría con la covariaoza, hay una cierta asociación entre
el valor de r y la orientación de la nube de puntos (Fig. 2.5).

y y y

. .. .
..
X X X
r próximo a 1 r próximo a -1

Fig. 2.5
16 ESTADÍSTICA APLICADA

4. Aplicaciones del modelo de regresión lineal

En mucha situaciones, intentar resumir la nube de puntos mediante una recta


puede no tener mucho entido. Por upuesto siempre se puede hallar cuál es la
recta que mejor re ume e a nube de puntos; pero e e re umen puede ser
francamente malo. Podemo pensar en una gran variedad de modelos alterna-
tivo al modelo lineal. Esta sección va a estar dedicada a indicar cómo se
pueden aplicar lo re ultado del modelo de regre ión lineal a otros modelos
como el logarítmico, exponencial, etc. Todos ellos tendrán en común que se
pueden reducir al modelo lineal mediante una sencilla tran formación.
En gene~al, i di ponemos de una ob ervaciones (x 1 , y 1 ) , ... , (x"' y,,) de dos
caracterí ticas X e Y de una población y queremos ajustar un modelo de la
forma
y=a+b g(x)

a estos datos, podemos defmir una nueva variable estadística T = g(X) y baUar
la recta de regresión de Y sobre T corre pondien te a los datos (t 1 , Yi), ... , (tm y,,)
donde t 1 =g(x 1 ) , ... t,,=g(xJ Una vez obtenida la recta de regresión de Y
sobre T, deshacemos el cambio y obtenemos la curva pedida. Veamos algunos
ejemplos:

EJEMPLO (REG SIÓN LOGARÍTMICA): cuando la nube de puntos es como la que


aparece en la Fíg. 2.6, parece bastante aconsejable ajustar un modelo de la forma

y = a+ b log x ( regresión logarítmica)

(ya que la nube de puntos recuerda a la función y = log x), donde log es logarit-
mo neperiano.

.. . .
.

..
... X

Fig. 2.6

En este caso, definimos T = log X, hallamo la recta de regresión de Y sobre T


y deshacemos el cambio ( deshacer el cambio significa aquí que si la recta de
regresión de Y sobre T obtenida es, por ejemplo, y = 2 + 3t, la curva pedida es,
simplemente, y=2+3 log x).
ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES 17

EJEMPLO (REGRESIÓN EXPONENCIAL): cuando la nube de puntos es como una


de las que aparecen en la Fig. 2.7, es bastante razonable intentar representarla
mediante un modelo de la forma
y= aebx ( regresión exponencial)
(ya que dichas nubes recuerdan a lasfimciones y=ex e y=e- -~).

y y

....
. . . .. .. .. . . .
X X

Fig. 2.7

Tomando logaritmos, tendríamos log y= log a + bx. Si ahora llamamos


T= log Y, lo único que tenemos que hacer es halla1' la recta de regresión de T
sobre X y deshacer el cambio ( en este caso, deshacer el cambio significa que si la
recta de regresión de T sobre X obtenida es, por ejemplo, t = 2 + 4x, la curva
pedida es, simplemente, e'= e2 e4 x, o lo que es igual, y= 7,39e4x).

5. Ejercicios
l. Ajustar una recta a los datos siguientes de los caracteres X= longitud
foliar Y= amplitud foliar, en ejemplares de Rubia peregrina de la locali-
dad de Figueres:
X: 21 21 33 21 27 35 25 37 25 18 21 37 45 27 18 35
Y: 5 6 6 8 6 7 5 8 7 4 7 9 10 5 5 8
2. Una fábrica de cerveza quiere averiguar si existe una relación lineal entre
el dinero que gasta en anuncios de televisión y sus ventas totales. Analizar
los siguientes datos:
Ventas Gastos en anuncios de TV
Mes ( miles de dólares) ( miles de dólares)

Enero 50 05
Febrero 90 0,9
Marzo 30 0,4
Abril 90 0,7
Mayo 91 1,1
Junio 95 0,75
Julio 95 0,8
18 ESTADISTICA APLICADA

3. Una empresa quiere conocer la relación entre el tamaño de su equipo de


ventas y sus ingresos anuales (en cientos de miles de dólares). Se exami-
nan las cifras de 10 años obteniéndose los datos de la tabla siguiente:

Año N. 0 de vendedores Ventas

1975 15 1,35
1976 18 1,63
1977 24 2,33
1978 22 2,41
1979 25 2,63
1980 29 2,93
1981 30 3,41
1982 32 3,26
1983 35 3,63
1984 38 415

4. La concentración, X e Y, de de dos sustancias en la sangre parece estar


relacionada. Para estudiar esta posible relación, se miden e tas cantidade
en 30 per onas obteniéndose los siguiente resultados:

¿ x¡=41,2 ¿ y¡=63,8 ¿ X¡y¡= 118,7


¿ xr = 188,2 r: yr = 296,4
Hallar la recta de regresión de Y sobre X y el coeficiente de correla-
ción lineal.
5. El número medio de lújos por mujer en la Comunidad Europea ha
evolucionado según indica Ja tabla siguiente:

Año 1976 1981 1986 1991 1995 1996


Número de hijo 1,92 1 77 1 59 1,53 1,43

Utilizar una recta de regresión para estimar el dato que omite la tabla.

6. Los manatíes son unos animales grandes y dócile que viven a lo largo de
la costa de Florida. Cada año la lancha motoras hieren o matan mu-
cho de ellos. A continuación e pre enta una tabla que contiene para
cada año, el número de licencias para motora (expresado en miles de
licencia ) expedjdas en Florida y el número de manatíes muertos en los
año 1977 a 1990.
a) Queremos analizar la relación entre el número de licencias expedidas
anualmente en Florida y el número de manatíe muertos. ¿Cuál e la
variable explicativa?
ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES 19

b)Dibujar un diagrama con esos datos. ¿Qué nos dice el diagrama


sobre la relación entre esas dos variables?
e) Las va1iables ¿están asociadas positiva o negativamente?
d) Describe la forma de la relación. ¿Es lineal?
e) Describe la fuerza de la relación. ¿Se puede predecir con precisión el
número de manatíes muertos cada año conociendo el número de
licencias expedidas ese año? Si Florida decidiera congelar el número
de licencias en 700.000, ¿cuántos manatíes matarían, aproximada-
mente, las lanchas motoras?

Año Licencias Manatíes Año Licencias Manatíes

1977 447 13 1984 559 34


1978 460 21 1985 585 33
1979 481 24 1986 614 33
1980 498 16 1987 645 39
1981 513 24 1988 675 43
1982 512 20 1989 711 50
1983 526 15 1990 719 47
7. Un periódico universitario entrevista a un psicólogo sobre las evaluacio-
nes que hacen los estudiantes de sus profesores. El psicólogo afirma: «la
evidencia demuestra que la correlación entre la capacidad investigadora
de los profesores y la evaluación docente que hacen los estudiantes es
próxima a cero>>. El titular del periódico dice: «el profesor Cruz dijo que
los buenos investigadores tienden a ser malos profesores». Explica por
qué el titular del periódico no refleja el sentido de las palabras · del
profesor Cruz. Expresa en un lenguaje sencillo (no utilices la palabra
«correlación») lo que quería decir el profesor Cruz.

8. Los corredores buenos dan más pasos por segundo a medida que aumen-
tan la velocidad. He aquí el promedio de pasos por segundo de un grupo
de corredoras dé elite a distintas velocidades. La velocidad se expre a en
metros por segundo.

Velocidad (m/s) 4,83 5,14 5 33 5,67 6,08 6,42 6,74


Pasos por segundo 3,05 3,12 3,17 3,25 3,36 3,46 3,55

a) Quieres predecir el número de pasos por segundo a partir de la


velocidad. Para ello, dibuja un diagrama de dispersión.
b) De cribe la relación existente y halla la correlación.
e) Halla la recta de regresión del número de pasos por segundo con
relación a la velocidad. Traza dicha recta en eJ diagrama de disper-
sión.
20 ESTADÍSTICA APLICADA

9. La tabla siguiente presenta tres conjuntos de datos preparados por el


estadístico Frank An combe para ilu trar los peligro de hacer cálculos
in ante repre entar lo dato . Los tres conjuntos de datos tienen la misma
correlación y la misma recta de regresión.

Conjunto de datos A:
X 10 8 1J 9 11 . 14 6 4 12 7 5
y 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68
Conjunto de datos B:
X 10 8 13 9 11 14 6 4 12 7 5
y 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9 13 7,26 4,74
Conjunto de datos C:
X 8 8 8 8 8 8 8 8 8 19
y 6 58 5,76 7,71 8,84 8,47 7,04 5,25 5,56 7,91 6,89 12,50

a) Calcula la correlación y la recta de regresión para los tres conjuntos


de dato y comprueba que son iguales.
b) Dibuja un diagrama de dispersión para cada uno de los conjuntos de
datos con las rectas de regresión correspondiente .
e) ¿En cuál de los tres casos utilizarías la recta de regresión para
prededir y dado x = 14. Justifica, en cada caso, tu re puesta.
La conclu ión: REPRESENTA !EMPRE T s DATOS.

10. En un estuctio para relacionar las variables X = «Número de emanas de


ge tación» con Y= «Pe o en gramos del niño al nacer», e obtuvieron los
siguiente resultados:

n= 5 ¿ X¡= 197 ¿ y¡ = 15.555 ¿xt = 7.785


r yt = 49.193.521 ¿ X¡y;=617.055
Hallar la recta de regresión de Y sobre X y utilizarla para predecir el
peso de un niño con 40 emanas de gestación. ¿Es bueno el aju te rea-
lizado con e ta recta de regresión.

11. Al analizar lo datos a veces conviene hacer una transformación que


simplifique u a pecto general. A continuación se pre enta un ejemplo de
cómo trao formando la variable respuesta se puede simplificar el aspecto
del ctiagrama de dispersión. La población europea entrre lo años 1750 y
1950 creció de la siguiente manera:
ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES 21

Año 1750 1800 1850 1900 1950


Población (millones) 125 187 274 423 594

a) Dibuja el diagrama de dispersión correspondiente a estos datos. Des-


cribe brevemente el tipo de crecimiento en el período señalado.
b) Calcula los logaritmos de la población de cada uno de los años.
Dibuja el nuevo diagrama de dispersión con la variable población
transformada. ¿Qué tipo de crecimiento e observa ahora?

12. El muestreo de áreas contiguas se utiliza en Ecología para contar el


número de especies distintas de plantas por área. El recuento se realiza de
manera que cada siguiente área contigua tiene el doble de superficie
empezando por un área de 1 m2 , según el siguiente esquema:

1
4
2

El modelo que relaciona Y= n.º de especies con X= superficie en m 2


es Y= a log X+ b (a= índice de diversidad, b = n. 0 de especies por unidad
de área). Ajustar dicho modelo a los datos:

X: 1 2 4 8 16 32 64 m2
Y: 2 4 7 11 16 19 21 e pecies distintas

13. En un estudio sobre la resistencia a baja temperaturas del bacilo de la


fiebre tifoidea, se expusieron cultivos del bacilo durante diferentes pe-
ríodos de tiempo a - 5 ºC. Los siguientes datos representan:

X= tiempo de exposición (en semanas).


Y = porcentaje de bacilos supervivientes.

X: o 0,5 1 2 3 5 9 15
Y: 100 42 14 7,5 0,4 0,11 0,05 0,002

¿ X¡=35,5 ¿ y¡ = 164,062
¿ log y¡=0,664 ¿ xr=345,25
¿y¡= 12.016,42 ¿ (log y¡)2 = 99,52
¿ X¡y¡=5223 ¿ X¡ log y¡= - 125,394
Ajustar una recta y una exponencial a los dato . Interpretar los
resultados.
22 ESTADISTICA APLICADA

14. Los siguientes datos corresponden a la evolución del peso celular (en
mgr./ ml.) y la cantidad de nitrato en un cultivo de algas durante 3 días
(mecticiones cada 24 hora ).

Tiempo (T) Peso (X) Cantidad de nitrato (Y)

Inicio 0,07 12 5
1 día 0,19 104
2 días 0,52 7,8
3 día 1,07 4,5

a) Ajustar una recta y una exponencial a los datos «peso» (X) y «cantidad
de nitrato» (Y).
b) Ajustar una curva a la evolución temporal del peso.
e) Mediante lo obtenido en a) y b) estimar la cantidad de nitrato que
había en el cultivo al cabo de 36 hora .

15. Se obtienen 5 pares de observaciones de las caracterí tica X e Y. A la


vista del a pecto que tiene la nube de puntos,

---t--------------- X

elegir razonadamente una regresión exponencial o una logarítmica de Y


obre X (la que sea más adecuada), utlizando Los siguientes dato :

¿ x, = 15 ¿ x¡=55 ¿ y¡=2,98 ¿ y¡ = 261 ¿ x¡y, = 1171


¿ lag x,=479 ¿ (log x;)2 = 6 20 ¿ y¡ lag X¡= 3,87
I 10g y¡= -3 84 I c1og y/= 5,59 ¿ x 1log y¡= - 640

16. En un estudio de laboratorio se han mectido, en una cierta especie canina,


las variables pe o {X) y concentración en sangre (Y) de una cierta ustan-
cia. Los datos re umidos on lo iguientes:
ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES 23

n= 7 I,x-=135
r , ¿x'.2 = 26 75
1 '

¿y¡=ll,7 ¿yt= 19,83 ¿x¡y;= 22,23

I. -X¡1 =3,7281 1
I. -2= 20374
X¡ '
¿ y¡ =6,3206

a) Calcular el coeficiente de correlación entre X e Y.


b) Ajustar una curva de ecuación Y= a + b-} a los datos.

17. Dispooemo de los siguientes datos referentes a 5 pares de observaciones


de dos variables X e Y :

¿x;=20 ¿xf =90 ¿X¡Y1=69,70

¿y¡= 15,70 ¿yt = 55,89 ¿x;(log yJ = 29,0250


I, (log xJ = 6,5792 ¿ (log xJ 2 = 9,4099 ¿y¡(log xJ=22,6926

a) Expresar Y en función de X mediante un modelo de la forma Y= a+ b


log X .
b) Utilizando el modelo hallado, dar una estimación del valor de Y,
cuando X = 3,5.

18. Una variable Y se mide en 8 días sucesivos con lo siguientes resultados:

T 1 2 3 4 5 6 7 8
Y 0,9 3,6 5,8 6,8 7,1 7,3 7,2 7,4

Representar la nube de puntos y aju tar a los datos obtenidos un


modelo de la forma Y = a + b log T.
Utilizando el modelo logarítmico que se ha obtenido, dar una estima-
ción de lo que valía la variable Y, cuando habían transcurrido dos días y
medio.
Para no perder el tiempo, se dan, a continuación una serie de cálculos
que se pueden necesitar:

¿y; = 46,10 ¿t¡ = 36 ¿ log t¡ = 10,60


¿ yf = 303 95 ¿ tf = 204 ¿(log tJ2 = 17,52
¿ y¡t¡= 241,60 ¿ y¡ log t¡ = 72 20
3
Probabilidad

1. Introducción

Como hemos visto, el objetivo de la Estadística Descriptiva es simplemente


hacer una descripción sencilla de los datos correspondientes a la muestra
obtenida. Pero habitualmente, vamos a pretender más: el objetivo fundamen-
tal de la E tadística es inferir las propiedades de la población a partir de las
propiedades de la muestra. Para esto necesitaremos un puente de unión entre
la población y la muestra. Este puente lo formarán los modelos de probabi-
lidad.
Cuando consideramos un experimento o fenómeno aleatorio (como el
lanzamiento de un dado o la observación de una persona al azar para obtener
su altura), no sabemos de antemano cuál es el resultado que vamo a obtener.
Pero normalmente tenemos cierto conocimiento sobre la mayor o menor
posibilidad de aparición de los diferentes resultados. Este conocimiento es el
que e trata de recoger y formalizar en el concepto de probabilidad. Va a ir
unido, en muchas ocasiones, a la idea de frecuencia relativa de aparición de ese
resultado cuando se repite muchas veces el experimento aleatorio en las mis-
mas condiciones.

2. Conceptos básicos

D EFINICIÓ : el espacio muestral Q de un experimento aleatorio es el conjunto de


resultados elementales que pueden obtenerse en dicho experimento.

Así en el lanzamiento de una moneda, el espacio muestra! e Q= {Cara


Cruz}· en el lanzamiento de un dado, Q = {l , 2, 3, 4, 5, 6}; i el experimento
aleatorio es la elección al azar de una persona adulta de una población para
medir u altura, O erá un intervalo que recoja la alturas que, razonablemente,
pueden obtener e (por ejemplo, el intervalo (150· 2,10); aunque, también,
podemos curarnos en alud y tomar el intervalo (O; oo)).

25
26 ESTADÍSTICA APLICADA

D EFINICIÓN: un uceso es un subconjunto del espacio muestral Q. (En realidad,


esta definición no es rigurosa desde el punto de vista matemático, ya que, en
ciertas situaciones, no todos los subconjuntos serán sucesos; pero, para una
definición rigurosa, necesitaríamos el concepto de álgebra ( o a-álgebra) que, a
este nivel, lo único que hace es crear coefusión).

A í en el lanzamiento de un dado, un suceso sería, por ejemplo, obtener un


número par, es decir, {2, 4, 6}; en la obtención de alturas de una población
adulta, un suceso sería, por ejemplo, que la altura estuviese dentro del interva-
lo (1,70; 1,80).

DEFINICIÓ : un modelo o función de probabilidad es una función P, que a cada


suceso A le hace corresponder un número P(A) entre O y 1, verificando:
a) P(Q)= l.
b) Si A 1 , .•• , A,., ... son sucesos disjuntos (o incompatibles): P(U11 A 11)=l::11 P(A11).

Esta definición de modelo de probabilidad está sugerida por las propieda-


des de las frecuencias relativas. Por supue to, la definición no resuelve el
problema de asignar probabilidades a diferentes sucesos en una situación
determinada; lo único que hace la definición anterior es imponer ciertas condi-
ciones de coherencia a cualquier modelo de probabilidad. A partir de e tas
condicione mínimas de coherencia se pueden obtener, sin embargo, mucha
propiedades que serán muy útiles, en diferentes ituaciones, para efectuar el
cálculo de la probabilidad de sucesos complicados.

PROPI DADES DE UN MODELO DE PROBABILIDAD

a) Para cualquier suceso A: P(Ac) = 1- P(A) ( donde Aº es el suceso comple-


mentario de A en Q).
b) P(0) = 0 (donde 0 es el suceso vacío).
c) Si A c::.B:
P(A) ~ P(B) y P(B - A) = P(B) - P(A)
d) P(A UB) = P(A)+ P(B) - P(AnB).
e) P(Uí'- 1 A¡) = kf- 1 P(A;) - L i<iP(AJ1 A) + ·· ·+ (- 1)"+ 1 P(ní'- 1 A¡).

Todas estas propiedade on sencillas de comprobar:


a) P(Q) = P(AuAc)=P(A) + P(A"); por tanto:
P(Ac) = P(Q) - P(A) = 1 - P(A)
b) P(0) = 1 - P(0<) = 1 - P(Q)=O.
PROBABILIDAD 27

c) P(B)=P(AU(B-A))=P(A)+P(B-A)· las dos conclusiones de este


apartado son ya inmediatas.
d) P(AUB)=P(AU(B-(AnB)))=P(A)+ P(B-(AnB))=
= P(A) + P(B) - P(A n B).
e) Es una generalización de la propiedad anterior. Se puede obtener por
inducción sin mucho esfuerzo (pero no lo haremos).

3. Espacios muestrales discretos

Una buena parte de los experimentos aleatorios que vamos a considerar son
especialmente sencillos de describir (en teoría), ya que constan olamente de un
conjunto finito o numerable de posibles resultados. Por ejemplo, el lanzamien-
to de un dado, el número de siniestros a los que tiene que hacer frente una
compañía de seguros, etc.

DEFINICIÓN: un espacio muestral es discreto cuando es finito o numerable; es


decir, admite una descripción de la forma:

Q= {a1, ... , ª"' ...}

( Por supuesto, en el caso finito quitar{amos lo puntos suspensivos.)

Cuando el espacio muestra] es discreto, el modelo de probabilidad queda


perfectamente e pecificado dando la probabilidad de cada suceso elemental
(sucesos con un solo elemento); es decir, sólo tendóamos que dar los valores
P(a 1 ), . .. , P(an), verificando:

a) P(a")~O para todo ª""


b) 1:.,P(an) = 1.

Evidentemente, para cualquier suceso B ={b 1 ... , b;, ...} tendríamos:

P(B) = P((b 1 )U ... U (bJ U ...) = ¿P(bJ

Veamos, finalmente, la situación que nos encontramo frecuentemente


cuando el espacio muestral e finito: Q ={a 1 , ... , a,,}. En este caso muchas veces
tiene sentido considerar igualmente probables a todos los sucesos elementales
(pero hay que tener cuidado porque e to no siempre e así). Considerarlos
igualmente probables significa tomar P(a 1) = ·· · = P(a") = 1/n y entonces, en
este caso para un suceso B = {b1 . . . bk} obtendríamos la muy popular regla
de Laplace:
28 ESTADÍSTICA APLICADA

P(B) = ±
i= 1
P(b.)= ~ = _ca_s_os_fi_a_vo_r_ab_l_es
' n caso posibles

E ta regla la podemos utilizar siempre que aceptemos que los suceso


elementales son igualmente probables. Hay que hacer notar que la sencillez de
la regla de Laplace es algunas veces, engañosa; el recuento necesano para
hallar los casos favorables puede ser francamente engorroso.

4. Probabilidad condicionada

La probabilidad de un uce o depende de la mayor o menor información que


tengamos. Veamo esta idea en el siguiente ejemplo:

EJEMPLO: con ideremos el lanzamiento de un dado en el que todas las caras son
igualmente probables; si ese dado es lanzado, la probabilidad de que el resultado
esté dentro del suceso A= {l, 2, 4} es 1/2; sin embargo, si nos informan de que el
resultado ha ido un número par las cosas cambian, ya que, ahora, los casos
posibles se han reducido al conjunto {2, 4, 6}, y los casos favorables al uceso A
en esta nueva situación, se han reducido al conjunto {2 4}. Por tanto, la probabili-
dad del suceso A, cuando sabemos que el resultado ha sido par, es 2/ 3 y podemos
e cribirla de la siguiente forma:

P(Alpar) = ~ = 2/6 = P(A n (par))


3 3/6 P(par)

Esta idea es la que formali zamos en la iguiente definición:

D FINICIÓN: la probabilidad del suceso A condicionada por el suceso B ( o dado


que sabemos que ha ocurrido el suceso B) se define como:

P(AIB) = P(A nB)


P(B)

Para que esta definición tenga sentido es necesario que P(B) > O. En toda
las probabilidades condicionadas que aparezcan, se supondrá e to de manera
impücita.
Por supuesto en situacione sencillas como la del ejemplo del dado es
innece ario recurrir a la definición para calcular Ja probabilidad condicionada·
en e caso es más cómodo utilizar el entido común· sin embargo la defini-
ción es muy útil para aquellos casos en los que es complicado utilizar la
intuición.
PROBABILIDAD 29

5. Sucesos independientes

De de un punto de vista intuitivo diremos que dos sucesos son independientes


cuando «la ocurrencia de uno de ellos no nos dice nada nuevo sobre la
ocurrencia del otro». E ta es la idea que se intenta formalizar con la siguiente
definición:

DEFINICIÓ : dos sucesos A y B son independientes cuando

P(A n B) = P(A)P(B)

(En general, los sucesos A 1 , .. . , A,, son independientes cuando, para cualquier
colección de ellos, A., ... , A 1, se tiene que P(A¡ n ... n A 1) = P(AJ .. . P(A )).

La siguiente propiedad pone de relieve el significado intuitivo de la defini-


ción de independencia:

PROPIEDAD: decir que A y B son independientes es equivalente a decir que


P(A/B) = P(A).
En efecto si A y B son independientes:

P(AIB) = P(AnB) = P(A)P(B) =P(A)


P(B) P(B)

Recíprocamente, si P(A/B) = P(A), tenemos:

P(A) = P(A/B) = P(A n B)


P(B)

Despejando P(A n B) obtenemos el resultado.

EJEMPLO: consideremos el experimento aleatorio consistente en dos lanzamien-


tos de una moneda equilibrada. El espacio muestra/ es

Q ={(C, C), (C, X), (X, C), (X X)}

donde C = cara, X= cruz y la probabilidad de cada suceso elemental es 1/4.


Si consideramos los sucesos A= {cara en el primer lanzamiento} = {(C, C), (C,
X)} y B = {cara en el segundo lanzamiento}= {(C, C), (X C)} la intuición nos dice
inmediatamente que los dos sucesos son independientes. Por supuesto, se puede
comprobar que la definición está de acuerdo con la intuición; en efecto
P(A n B) = 1/ 4 y P(A) = P(B) = 1/ 2.
30 ESTADÍSTICA APLICADA

Sin embargo, si deseamos e tudiar la posible independencia de A (el mismo


suceso que antes) y D={diferente resultado en los dos lanzamientos}={(C, X),
(X, C)}, la intuición posiblemente, no nos dice nada. Pero para esto nos sirve la
definición: se obtiene fácilmente que P(A n D) = 1/4 y P(A) = P(D) = 1/2, con lo
cual obtenemos que A y D también son independientes.

6. Reglas útiles para calcular probabilidades

En esta sección vamos a estudiar tres reglas cuyo objetivo es el de facilitarnos


el cálculo de probabilidades en diferentes situaciones.

REGLA DE LA MULTIPLICACIÓN

La comprobación es inmediata: sólo hay que escribir las probabilidades condi-


cionadas del segundo miembro y observar que todos los términos se cancelan unos
a otros salvo P(ní'=rAJ

Esta regla será muy útil cuando gueramo calcular la probabilidad de


ocurrencia simultánea de vario sucesos y las probabilidades condicionadas del
egundo miembro sean sencillas de calcular. Naturalmente, en el ca o de que
los uce os A 1 , .. . , A,, ean independientes, tenemos, simplemente:

P( n 1'=1 A;)= P(A 1 ) . .. P(A,,)

JEMPLO: en una urna hay 20 bolas blancas y 10 bolas negras. Hacemos tres
extracciones sin devolución a la urna. ¿ Cuál e la p1·obabilidad de que la tre
ean blancas?
Si llamamo A¡(i = 1, 2, 3) al suceso «La i-ésima bola extraída es blanca»,
tenemo:

P(las tres son blancas) = P(A 1 n A 2 n A 3 ) = P(A 1 )P(A 2 IA )P(A 3 IA 1 n A 2 )


20 19 18
----
30 29 28

Las tres probabilidades condicionadas del final son triviales de obtener; por
ejemplo, P(A 3 IA 1 n A 2) es la probabilidad de obtener bola blanca en la tercera
extracción, cuando sabemos que la dos prirneras han ido blancas. Por tanto en
ese momento quedan en la urna 28 bolas de las cuale , 18 on blancas; en
con ecuencia, P ( A 3 IA 1 n A 2 ) = 18/ 28.
PROBABILIDAD 31

REGLA DE LA PROBABILIDAD TOTAL: sean A1, ... , A" sucesos tales que:

a) Uí'=iA;=!l
b) AJ1Aj=0, para todo i::/:-j.

Entonces:
n
P(B) = ¿ P(AJP(BIAJ
i- 1

En efecto:
n
P(B)=P(Bn(Ui'- 1A¡))= P(Ui'- 1(BnAJ)= ¿ P(BnAJ
i= J
n
=¿ P(AJP(BIA;)
i• l

REGLA DE BAYES: sean Ai, ... , A" sucesos tales que:

a) Ui'- 1 A¡=Q.
b) A;nAi=0, para todo i#j.
Entonces:

En efecto:

P(A -IB) = P(AinB) = P(A¡)P(BIA}


' P(B) ~,- 1 P(A;)P(BIAJ

La regla de la probabilidad total y la regla de Bayes van a ser especial-


mente útiles cuando se den las siguientes circunstancias:
a) El experimento aleatorio se puede separar en dos etapas.
b) Es sencillo dar una partición de todo el espacio muestral Q mediante
sucesos A 1 , •• . A,, correspondientes a resultados de la primera etapa.
c) Son conocidas o fácilmente calculables las probabilidades P(A 1 ), ... ,
P(A").
á) Son conocidas o fácilmente calculables las probabilidades P(BIA 1), ..• ,
P(BIA,J, donde B es un suceso correspondiente a resultados de la
segunda etapa,
Cuando se den estas circunstancias, la regla de la probabilidad total será
muy útil para calcular P(B), y la regla de Bayes será muy conveniente para
obtener P(A ) B).
32 ESTADÍSTICA APLICADA

En los siguientes ejemplos, veremos que, a menudo, el experimento aleato-


rio considerado cqrrespon.de a esta situación..

EJEMPLO: supongamos que tenemos dos urnas. La urna 1 contiene 3 bolas blan-
cas y 2 negras; la urna 2 contiene 2 bolas blancas y 3 negras. Con probabilidad
1/ 3, extraeremos una bola al azar de la urna 1 y con probabilidad 2/3 la extraere-
mos de la urna 2.
¿ Cuál es la probabilidad de que la bola extraída sea blanca?
Si al final nos comunican que la bola extraída ha sido blanca, ¿cuál es la
probabilidad de que la extracción se haya efectuado de la urna 1?
Se dan toda las condiciones enumeradas anteriormente:
a) El experimento consta claramente de dos etapas:
Primera etapa: elección de la urna.
Segunda etapa: extracción de la bola.
b) Se puede hacer de manera trivial una partición del espacio mue tral
mediante los resultados de la primera etapa: A 1 = (la extracción se efec-
túa de la urna 1) y A 2 = (la extracción se efectúa de la urna 2).
e) Tenemos: P(A 1) = 1/3 y P(A 2 )=2/3.
d) Si llamamos B al suceso «la bola extraída es blanca», tenemos:
P(BIA 1 )= 3/ 5 y P(BIA 2 )=2/5.
Por tanto aplicando La regla de la probabilidad total, tenemo :

P(la bola extraída es blanca) = P(B) = P(A 1 )P(BIA 1 )+P(A 2 )P(BJA 2 )


13 22 7
=--+--=-
35 35 15

Aplicando ahora la regla de Bayes, la probabilidad de que la extracción se


haya efectuado de la urna 1, cuando sabemos que la bola obtenida es blanca, será:

P( IB)- P(A 1 )P(BIA 1)


Ai -: P(A 1 )P(BIA 1 ) + P(A 2 )P(B1A 2 )
(1/3)(3/5) 3
= --
(1/3)(3/5) +(2/3)(2/5) 7
Según hemos podido ver en el ejemplo, la regla de Bayes nos permite
actualizar, de manera automática, la probabilidad sobre diferente ucesos a la
vista de la información adicional que vamos obteniendo con la experimenta-
ción. En principio, la probabilidad de que la extracción se efectua e de la urna 1
era 1/ 3. Pero, una vez que hemos acado una bola y hemos comprobado que e
blanca, parece más probable que ante que e temo utilizando la urna 1 (que
contiene má bola blanca ). La regla de Baye no permite actualizar e a
probabilidad de manera muy encilla.
PROBABILIDAD 33

En el siguiente ejemplo se ve todavía mejor cómo la experimentación va


modificando nue tras probabilidades.

EJEMPLO: las plantas de una especie pueden tener flores rojas homocigóticas
(RR), rojas heterocigóticas (Rr) o blancas (n'). Aproximadamente, el 70 % de
las plantas con flores rojas son heterocigóticas. Nos traen una planta con flores
rojas y para intentar diagnosticar si es homocigótica o no, la cruzamos con una
planta de flores blancas. Si de este cruce obtenemos 5 plantas, todas con flores
rojas, ¿cuál es la probabilidad de que fuera homocigótica?
Intuitivamente, si las cinco plantas obtenidas en el cruce son rojas (necesaria-
mente Rr), parece bastante probable que la planta que nos han traído fuera RR;
pero no es seguro. La regla de Bayes nos permite cuantificar esta probabilidad de
manera muy sencilla. Observemos primero en qué condiciones nos encontramos:
a) El experimento consta de dos etapas:
Primera etapa: obtención al azar de la planta que nos traen (en realidad,
no realizamos ninguna obtención al azar, pero no hay ningún problema en
considerarlo as{).
Segunda etapa: cruce con la planta blanca para obtener 5 nuevas plantas.
b) Partición del espacio muestra[ mediante resultados de la primera etapa:
RR = ( la planta que nos traen es RR) y Rr= (La planta que nos traen es
Rr).
c) Tenemos: P(RR) = 0,3 y P(Rr) = 0,7.
d) Si llamamos B al suceso «las 5 plantas obtenidas en el cruce tienen flores
rojas», tenemos: P(BIRR) = 1 y P(BIRr) = (1/2) 5 .
Por tanto, la probabilidad pedida es:

P(RR IB) = P(RR)P(BIRR)


P(RR)P(BIRR) + P(Rr)P(BIRr)
= (0,3) (l) - O932
(0,3)(1) + (0,7)(1/2) 5 - '
Naturalmente, la probabilidad de ser bomocigótica se ha modificado sus-
tancialmente con la realización del experimento; ba pasado de ser O3 a valer
0,932. El objetivo de un experimento es tratar de conseguir la mayor certeza
posible· e decir, con eguir que las probabilidades e acerquen a O o a l.

7. Ejercicios
l. Un aparato tiene do componentes A y B. Los fallos en el aparato vienen
motivados por fallos en alguna de las componentes. Al cabo de 5 años la
componente A ha fallado en el 6 % de lo aparatos, y la componente Ben
el 8 %. En el 4 % de los aparatos han fallado la dos componentes.
34 ESTADÍSTICA APLICADA

a) os fallo de A y B, ¿son independientes?


b) Si B ha fallado ¿cuál es la probabilidad de que A haya fallado?

2. En una ciudad se publican tres periódicos A, B y C. El 30 % de la


población lee A, el 20 % lee B y el 15 % lee C; el 12 % lee A y B, el 9 % A
y C, y el 6 % B y C; finalmente, el 3 % .lee A, B y C. Se pide:
a) Porcentaje de per onas que leen al meno uno de Jo tres periódico .
b) Porcentaje que lee ólo A.
e) Porcentaje que leen B o C, pero no A.

3. Sea un dado tal que la probabilidad de las distintas caras es proporcional


al número de puntos inscritos en ellas. Hallar la probabilidad de obtener
con este dado un número par.

4. Una familia decide el número de hijos que va a tener mediante el siguien-


te procedimiento: irá teniendo hijos hasta que nazca la primera niña con
un máximo de 5 intentos. En cada intento, la probabilidad de niño es
igual a la de niña.
a) ¿Cuál es la probabiüdad de que, finalmente, haya más niños que
niña?
b) Si sabemos que el primer hijo es varón, ¿cuál es la probabilidad de
que, finalmente, tengan 3 hijos en total (niños más niñas)?

5. Un examen consta de 14 temas. Se eligen dos al azar y el alumno deberá


e coger uno para contestarlo. Calcular la probabilidad de que a un
alumno que ha preparado 5 temas le toque al menos uno que sabe. ¿Cuál
es el número mínimo de temas que debe preparar para que tenga una
probabilidad uperior a 1/2 de superar el examen?

6. Un lote de 8 aparato contiene tre defectuo os. Un inspector prueba uno


de ello ; i e defectuoso lo retira y si no es defectuoso lo devuelve al lote.
Un egundo inspector elige un aparato al azar y lo prueba. ¿Cuál es la
probabilidad de que ea defectuoso?

7. En una reunión hay 25 per ona . Calcular la probabilidad de que cele-


bren su cumpleaños el mi mo día del año al menos dos personas.

8. Una caja de recluta tiene 15 individuo y queremos hacer un sorteo para


elegir a uno de elJo . Con e te ím le asignamos a cada uno un número
desde el 00 ha ta el 14 y utilizamos un bombo que tiene 10 bolas, cada
una con un dígito distinto. Hacemos dos extraccione con reemplaza-
miento; la primera para el dígito de la decena , la egunda para el de las
unidade . i en cualquiera de las dos extracciones obtenemos una bola
PROBABILIDAD 35

que nos llevará con seguridad a un número no asignado repetimos ESA


extracción. ¿Tienen todos los reclutas la misma probabilidad de ser elegi-
dos? En ca o negativo determina la probabilidad de ser elegido que tiene
cada recluta según su número.

9. Se hacen tres disparos simultáneos con tres cañones distintos, siendo la


probabilidad de alcanzar el objetivo 0,1, 0,2 y 0,3 respectivamente. Calcu-
lar la probabilidad de cada uno de los números posibles de blancos.
Calcular la probabilidad de obtener al menos un blanco.

10. Los cuatro grupos sangúineos se reparten, en una población, según los
porcentajes: A (43 %), B (8 %), AB (4 %), O (45 %). Teniendo en cuenta la
incompatibilidades que existen entre los grupos, calcular la probabilidad
de que dadas dos personas X e Y elegidas al azar X pueda recibir sangre
de Y, suponiendo que la población es muy grande.

11. En una empresa que fabrica componentes electrónicos se inspeccionan 50


componentes al final del día; si alguno es defectuoso, se revisa el proce o
de producción en busca de posibles averías. Un determinado día, el 4,8 %
de la producción total resulta defectuosa. ¿Cuál es la probabilidad de que
e decida revisar el proceso de producción despué de la inspección?

12. Un examen consta de 5 temas numerados. Para elegir un tema al azar, se


propone lanzar un dado; si sale de 1 a 5, el número del tema es el
resultado del dado; si sale 6 se vuelve a tirar hasta que sale de 1 a 5.
Sabemos que el dado está trucado de tal manera que la probabilidad de
que salga el número 2 es 2/ 7 y la probabilidad de cualquier otro número
e 1/7. Hallar la probabilidad de que alga el tema 1 (que e el único que
hemos e tudiado).

13. Dos e tudiante quedan en un lugar determinado entre las 12 y la 1, con


el siguiente acuerdo: el primero que llega espera al otro 1/4 de hora y
de pués se marcha. Si cada uno de ellos llega al azar entre las 12 y la 1,
calcular la probabilidad de que se encuentren.

14. Una planta indu trial tiene tres máquinas. La máquina A produce 200
piezas al día con un 4 % de defectuosas la máquina B produce 300 con
un 5 % de defectuosas, y la C fabrica 400 con un 2 % de defectuo as. Al
final del día una pieza es tomada al azar.
a) ¿Cúal es la probabilidad de que sea defectuosa?
b) Si es defectuo a, ¿cuál es la probabilidad de que proceda de la
máquina A?
36 ESTADÍSTICA APLICADA

15. Una población esta formada por tres grupos étnicos: A (30 %), B (10 %) y
C (60 %). Los porcentajes del carácter «ojos claros» son, respectivamente
20 %, 40 % y 5 %.
a) Probabilidad de que un individuo elegido al azar tenga ojos claros.
b) Probabilidad de que un individuo de ojos oscuros sea de A.
e) Si un individuo elegido al azar tiene los ojos claro ¿a qué grupo e
más probable que pertenezca?

16. Atendiendo al njvel de contaminación, una ciudad está dividida en tres


zona A, B y C. El 50 % de la población vive en la zona A, el 40 % en B y
el re to en C. El nivel de contaminación inlluye en la incidencia de una
determinada enfermedad p ulmonar dkha enfermedad afecta a 10 de cada
100 personas que viven en A, mientras que sólo afecta a 1 de cada 100 de
la que viven en By a 5 de cada 1.000 en C.
a) Probabilidad de que una per ona elegida al azar en esta población
sufra la enfermedad y viva en la zona A.
b) Probabilidad de que una persona elegida al azar viva en la zona B,
sabiendo que está afectada por dicha enfermedad.

17. Supongamo que los puestos de trabajo e cla ifican (de acuerdo con la
capacitación requerida) en altos (A), medios (M) y bajos (B). Denotemo
las generaciones por ubíndices, de tal forma que por ejemplo A 1 repre-
enta el suceso «un padre tiene un puesto de trabajo de tipo A» B 2
repre enta el suceso «un hijo tiene un puesto de trabajo de tipo B , etc.
Glas y Hall (1954) en un e turno realizado en Inglaterra y Gales obtuvie-
ron los iguientes datos:

A2 M2 B 2
A1 0,45 0,48 0,07
M1 0,05 O70 0,25
B1 0,01 0,50 0,49

La tabla anterior da probabilidade condfoionada . Por ejemplo


P(A 2 IA 1) = 0,45 denota la probabilidad de que un hijo tenga una ocupa-
ción de nivel A supuesto que el padre también tenía ese ruvel. Suponga-
mo que en la generación de los padres el 10 % están en A, el 40 % en M
y el 50 % en B.

a) ¿Cuál e la probabilidad de que un hijo e té en A?


b) ¿Cuál e la probabilidad de que un padre e té en el nivel A, supue to
que u hijo también lo está?
18. La cuarta parte de una población ha sido vacunada contra una enfermedad
infeccio a. n el tran curso de una epidemia de cticba enfermedad, se con ta-
ta que entre lo enfermo hay un vacunado por cada 4 no vacunado .
PROBABILIDAD 37

a) ¿Es de alguna eficacia la vacuna?


b) Si se sabe que la epidemia ha afectado a uno de cada 12 vacunados,
¿cuál era la probabiJidad de caer enfermo para un individuo no
vacunado?
19. Una prueba de diagnóstico para un cierto tipo de cáncer, tiene probabili-
dad 0,96 de resultar positiva si el paciente tiene cáncer; el 99 % de los
individuos sin cáncer dan prueba negativa. Se elige un individuo al azar
en una población de per onas de las cuale e] 0,1 % tienen dicho tipo de
cáncer (prueba sistemática en enfermedad de poca incidencia).
a) ¿Cuál es la probabilidad de que el individuo dé resultado positivo y
tenga cáncer? ¿Y de que dé resultado positivo y no tenga cáncer?
b) Si sabemos que el individuo ha dado resultado positivo, ¿cuál es la
probabilidad de que tenga cáncer?

20. Una pieza presenta cierto faJlo en el 0,5 % de los casos. Se elige una pieza
al azar de toda la producción y se somete a una inspección rápida (prueba
sistemática para detectar un fallo de poca incidencia). Con probabilidad
0,96, esta in pección detecta el fallo cuando la pieza es defectuosa; con
probabilidad O05 la pieza parece defectuosa cuando es correcta.
Si como resultado de la in pección la pieza no ha parecido defectuo-
a, ¿cuál es la probabilidad de que realmente fuera defectuosa?

21. U na prueba sanguínea para detectar hepatitis tiene los iguiente niveles
de precisión: i el individuo tiene hepatitis, la prueba da positivo con
probabilidd 0,9, mientra que en el 99 % de los individuos sin hepatitis la
prueba da negativo.
a) La tasa de incidencia de la enfermedad en la población estudiada es
de un enfermo por cada 10.000 personas. Calcular la probabilidad de
que un individuo que ha dado po itivo en la prueba tenga hepatitis.
b) Un individuo es enviado a hacerse la prueba porque tiene pérdida de
apetito e ictericia. El médico sabe que el 50 % de lo individuos con
dichos síntoma presentan hepatitis. Si la prueba da po itivo cuál es
la probabilidad de que el paciente tenga hepatitis?

22. Supongamos que tenemos tres tarjetas, de las cuales una tiene ambas
caras rojas, otra amba cara blancas y la tercera una cara blanca y otra
roja. Se extrae una, al azar, y se coloca sobre la mesa.
a) ¿Cuá l es la probabilidad de que la cara de arriba sea roja?
b) Si la cara de arriba es roja, ¿cuál es la probabilidad de que la de
abajo también lo sea?
38 ESTADÍSTICA APLICADA

23. Un hombre va de pesca. En un bote lleva 3 carnada de tipo A 7


carnadas de tipo B y 10 carnadas de tipo C. La mejor carnada es la A: la
probabilidad de pescar un pez con ella es 3/5. La probabilidad de pescar
un pez con las otras camadas es sólo de 2/7. Mete la mano en el bote y
saca una carnada al azar.
a) Probabilidad de que pesque un pez.
b) Si el hombre tiene éxito en la pesca, ¿cuál es la probabilidad de que
utilizara una carnada tipo B?
b) Si hubiera sacado 2 carnadas a la vez, ¿cuál es la probabilidad de que
ninguna fuera de tipo A?

24. La probabilidad de que un sistema tenga n fallos durante un día viene


dada por

1
n=O 1, 2, ...
P" = e(n!)

Si se pre eotao n fallos, el si tema deja de funcionar con probabilidad


1-(1/ 2)". Calcular la probabilidad de que el i tema baya tenido n fallo
si ha dejado de funcionar.

25. El 30 % de los vuelos que llegan a un aeropuerto son vuelos nacionales


regulare , el 45 % vuelo internacionale regulares y el 25 % restante
vuelo charter. La proporción de personas que v:iajan por razone de
trabajo en cada tipo de vuelo son:
En vuelos nacionales regulares, el 90 %.
En vuelos internacionale regulares el 50 %.
En vuelo charter, el 10 % .
La re tantes viajan por diferentes motivo personale .
Elegirnos un avión a l azar y preguntamo a 3 per ona (independien-
te una de otra ) de la que acaban de bajar de e e avión, re ultando que
toda ella viajan por motivos personales. ¿Cuál es la probabilidad de que
el vuelo fuera charter?

26. n mae troy su alumno están tirando flechas con un arco. Cada vez que
uno coge el arco hace una erie de cuatro di paro . Lo di paro del
alumno son independiente entre sí y lo mi mo ocurre con lo di paros
del profe or. El 90 % de lo disparos del profesor da en el blanco; el
alumno (que acaba de empezar las cla e ) ólo con ígue un 15 % de
diana . Como el alumno tiene que ejercitarse el 95 % de las serie de
lanzamiento le corresponden a él. Ob ervamo una de estas serie de 4
disparos en la que e obtienen en total 3 diana (pero no con eguimo ver
quién está disparando). ¿Cuál es la probabiJjdad de que haya sido el
profesor?
PROBABILIDAD 39

27. En el primer curso de una Facultad hay dos grandes grupos: uno por la
mañana y otro por la tarde. El 60 % de los alumnos asiste al grupo de
mañana y los restantes al grupo de tarde.
En el grupo matutino, un 30 % aprueba las Matemáticas en junio un
25 % las aprueba en septiembre y el 45 % restante no aprueba ni en junio
ni en septiembre.
En el grupo vespertino, un 40 % consigue aprobar las Matemáticas en
junio mientras que un 20 % lo consigue en septiembre (el 40 % restante
no aprueba ni en junio ni en septiembre).
a) Elegimos 3 alumnos al azar del grupo de tarde. ¿Cuál es la probabili-
dad de que uno haya aprobado las Matemátjcas en junio, otro en
septiembre y el otro no haya conseguido aprobar?
b) Elegimos un alumno al azar. ¿Cuál es la probabilidad de que sea del
grupo de tarde si aprobó las Matemáticas en junio?

28. Supongamos que tenemos ratones negros y marrones. Los ratones negros
son de dos tipos genéticos: homocigóticos (BB) y heterocigóticos (Bb); los
marrones son de un solo tipo (bb). Los genes actúan independientemente.
Si tenemos un ratón negro que sabemos que ha sido engendrado por el
apareamiento de dos ratones Bb:
a) ¿Cuál e la probabilidad de que sea homocigótico? ¿Y heterocig.ótico?
b) Si además sabemos que el ratón negro del apartado anterior se ba
apareado con un ratón marrón y ha engendrado 7 ratones todos
negros, ¿cuál es, ahora, la probabilidad de que sea homocigótico?

29. Atendiendo a una enfermedad genética, una especie de ratones se puede


dividir en tres clases: no portadores (BB) portadores (Bb) y enfermos (bb).
a) Cruzamos dos ratones portadores y obtenemos un ratón que no está
enfermo. ¿Cuál e la probabilidad de que sea portador?
b) El ratón que hemos obtenido se cruza con uno enfermo y se obtienen
dos ratones no enfermos. ¿Cuál es ahora la probabilidad de que fuera
portador?

30. El color de una especie de mamíferos viene determinado por dos genes N
y n. Puede haber ejemplares negros homocigóticos (NN), negros heteroci-
góticos (Nn) y blancos bomocigóticos (nn).
na hembra negra A, procedente del cruce de un macho negro homo-
cigótico (NN) con una hembra negra heterocigótica (Nn) e cruza con un
macho blanco (nn).
a) Si tiene 5 cachorro , probabilidad de que 2 sean negro y 3 sean
blancos.
b) Si tiene 3 cachorros todo negros, probabilidad de que A sea homo-
cigótica.
40 ESTADÍSTICA APLICADA

31. Inoculamos un viru a 2 ratones para hacer una serie de estudios. Por UD
eror en el laboratorio, estos 2 ratones e mezclan con otros 8 completa-
mente sanos. Como no los podemos distinguir a simple vista, cogemos 2
ratones al azar de los 10 que tenemos y decidimos esperar 1 semana
Sabemos que la probabilidad que tiene UD ratón de obrevivir 1 semana
es 1/ 7 si ha sido inoculado y 5/6 si está sano.
a) Probabilidad de que estén los dos vivos al cabo de 1 semana.
b) Si los dos sobreviven 1 semana, ¿cuál es la probabilidad de que
fueran los inoculados?
32. Ley de Hardy-Weinberg.
Consideremos dos genes A 1 y A 2 que originan tres posibles genotipos
A 1 A 1 , A 1 A 2 y A 2 A 2 . Supongamos que el emparejamiento de lo genes e
al azar (sin elección ni mutaciones), lo cual significa que las probabilida-
des de los diferentes genotipos vienen dadas por:
P(A 1 A 1 ) = P(A 1 )P(A 1)
P(A 1 A 2 ) = 2P(A 1 )P(A 2 )
P(A 2 A 2 ) = P(A 2 )P(A 2 )

Comprobar que la población es genéticamente estable; es decir, .las


proporciones de los di tintos genotipos e mantienen de generación en
generación (esta ley es cierta, en general para m genes A 1 ... , A"'.)
33. La fibro i quística es una conocida enfermedad genética que afecta a
niño con una do is doble de un gen recesivo (genotipo «ce»). Como
produce la muerte en la infancia, los niños con dicha enfermedad son
resultado del cruce de portadores ano de la enfermedad (Ce x Ce). Ea
una población grande, se ha observado que la frecuencia relativa de la
enfermedad e aproximadamente 1 en 1.600 nacimientos en una genera-
ción dada. Calcular la proporción de portadores en dicha generación.
34. La hemofilia es una enfermedad producida por un gen recesivo situado en
el cromosoma X; por lo tanto, para que una mujer (XX) sea bemoú1ica
debe tener dicho gen en ambos cromosomas, mientras que un hombre
(XI') lo será si lo tiene en su único cromosoma X. Calcular la probabili-
dad de que una mujer con padre oormale , un hermano hemofílico y
ca ada con un hombre normal tenga un descendiente hemofi1ico.
35. Cierto tipo de jaqueca se hereda a través de un gen dominante. Roberto y
su madre padecen jaqueca· no la padecen ni el padre ni la mujer de
Roberto. Si Roberto y su mujer tienen do niño , calcular la probabilidad
de que:
a) Al meno uno de los do niño padezca jaqueca.
b) Uno olo de lo niño padezca jaqueca.
4
Variables aleatorias

1. Introducción
Muchas veces nos va a interesar resumir los resultados que hemos obtenido al
llevar a cabo un experimento aleatorio. Por ejemplo, si lanzamos una moneda
100 veces el resultado será una secuencia de caras y cruces, que posiblemente
nos interese resumir indicando sólo el número de caras obtenidas; al estudiar
una población de insectos es posible que, para ciertas cosas sólo nos interese
anotar su longitud; en un estudio sociológico de las unidades familiares de una
ciudad, puede ocurrir que, para ciertas cosas, sólo necesitemos retener su nivel
de ingresos. En cada uno de estos casos, lo que estamos haciendo es considerar
una variable aleatoria.

2. Conceptos básicos
DEFINICIÓN~ una variable aleatoria X es una función X: 0-+9l, que a cada
elemento del espacio muestra[ (correspondiente al experimento aleatorio que
estemos estudiando) le hace corresponder un número real.
( Desde el punto de vista matemático, esta definición no es rigurosa, ya que no
todas las funciones son variables aleatorias; pero es adecuada para poder trabajar
a este nivel).

Por supuesto, la idea de la definición es que X(w) representa la característi-


ca que nos interesa estudiar.
Lo que más nos va a interesar es conocer la probabilidad de los diferentes
sucesos corre pondientes a una variable aleatoria, es decir, su modelo o fun-
ción de probabilidad.

DEFINJ IÓN: si A es un subconjunto de 9l ( es decir, un conjunto de posibles


valores de la variable aleatoria X) definimos:

P(A) = P(X eA) = P{weQ: X(w) e A}

41
42 ESTADÍSTICA APLICADA

La función de distribución (que se define a continuación) es una herramien-


ta cómoda de manejar y muy útil para calcular probabilidade de diferentes
sucesos.

DEF1NICIÓN: la función de distribución de una variable aleatoria se define como:

F(x)=P(-co, x] =P{we Q:X(w)~ x} para todo x E 9t

Cualquier función de distribución tiene las siguientes propiedades esenciales:

PROPIEDADES DE LAS FUNCIONES DE DISTRIBUCIÓN

a) lim F(x) = O.
X-+ - oo

b) Lim F(x) = l.
X-+00

d) F es continua por la derecha: lim F(x + h) = F(x) (siendo h > O).


11 -+ 0

La probabilidad de diferentes tipos de intervalos se puede calcular, in


ninguna clificultad, mediante la función de distribución, utilizando las propie-
dades generales de la probabilidad y el hecho de que P(- co, x] = F(x) y
P( - co, x) = F(x - ):

P(a, b]=P(- co, b]-P(-co, a]=F(b)-F(a)


P(a, b)=P( - co, b) - P( - co, a] = F(b - ) - F(a)
P[a, b] = P( -oo, b] - P( -oo, a.) = F(b) - F(a - )
P{b} = P( - co b] - P(- co, b) = F(b) - F(b- )=«Salto de la función F en el punto h>>.

Por tanto, si la función de distribución tiene un salto en un punto ignifica


que la probabilidad de ese punto es positiva. En caso contrario, es cero.
Como se ha indicado anteriormente, lo que realmente nos interesa de una
variable aleatoria es su función de probabilidad. E ta función de probabilidad
queda caracterizada por su función de distribución. Ahora bien, en lo casos
más intere antes de variables aleatorias que se nos pueden presentar (y que
estudiaremos en las secciones siguientes) hay herramientas todavía más senci-
lla que la función de distribución y que irven también para determinar el
reparto de la probabilidad. Estas herramientas serán la función de masa (en el
caso de la variable aleatoria di cretas) y la función de densidad (para las
variable aleatoria continuas).
VARIABLES ALEATORIAS 43

3. Variables aleatorias discretas

DEFINICIÓN: una variable aleatoria X es discreta cuando sólo puede tomar un


número finito o numerable de valores x 1, ... , xn, ...
La función de probabilidad de una variable aleatoria discreta X queda carac-
terizada por la función de masa, que nos da la probabilidad de cada uno de esos
posibles valores:

P(X = xJ= P(x¡)= P{coEO: X(w)=x¡} i= 1, ... , n ...

La función de distribución de una variable aleatoria discreta tiene forma de


escalera (Fig. 4.1).

F(x)

x, X

Fig. 4.1

En Estadística Descriptiva definíamos una serie de medidas de centraliza-


ción y de dispersión que servían para darnos una idea resumida de lo que
ocurría con lo datos disponibles. Los conceptos que vamos a definir a
continuación son análogos a los de la Estadística Descriptiva y van a servir
para resumir el reparto de probabilidad correspondiente a la variable alea-
toria.

DEFINICIÓN: la media o esperanza de una variable aleatoria discreta X se define


como:
µ = E[X] = ¿ x,P(x,)
i

D EFINICIO : La idea de la mediana de una variable aleatoria X es la siguiente:


Es aquel valor o valores M que dejan a derecha e izquierda la misma cantidad
de probabilidad.
En el caso de una variable aleatoria discreta, esta idea se traduce de la
manera indicada en la Fig. 4.2 ( en las dos posibles situaciones que se pueden
plantear).
44 ESTADISTICA APLICADA

1/2 - ------- - ---------··


-
1/2 ··-·- - ··-------

t
Mediana única Todos los puntos
del intervalo
son medianas

Fig. 4.2

DEFINICIÓ la varianza de una variable aleatoria discreta X se define como:

cr 2 = V(X)= E[(X- µ) 2] = ¿ (x;- µ) 2 P(xJ


i

Desarrollando el cuadrado, y simplificando, se obtiene que:

cr 2 = ¿ xf P(x;)- µ 2 = E[X 2] - µ2
i

DEFINICIÓ : la desviación típica cr de una variable aleatoria discreta X es la


raíz cuadrada positiva de la varianza.

EJEMPLO: vamos a aplicar todos lo conceptos anteriores a la variable aleatoria

X =« Número de caras obtenidas en tres lanzamientos de una moneda»

Evidentemente, X es una variable aleatoria discreta que puede tomar los


valores O, 1. 2 y 3. Los ocho posibles resultados de lo tres lanzamientos tienen
probabilidad 1/8 de ocurrir ( estamos suponiendo que la moneda está equilibra-
da). La función que constituye la variable aleatoria es la siguiente:

X:Q -+ 9t
(C, C, C) -+ 3
(C C, Cr) -+ 2
(C Cr, C) -+ 2
(Cr, C, C) -+ 2
(C, Cr, Cr) -+ 1
(Cr, C, Cr) -+ 1
(Cr, Cr, C) -+ 1
(Cr, Cr, Cr) -+ o
VARIABLES ALEATORIAS 45

La función de masa de esta variable aleatoria es:

P(O) = 1/ 8
P(l)= 3/ 8
P(2)= 3/ 8
P(3)= 1/ 8

La función de distribución puede verse en la Fig. 4.3.

F(x)
1
7/8

1/2

1/Si----
2 3 X

Fig. 4.3

Tenemos, además:

Mediana: cualquier punto del intervalo [1, 2].

C1 2 = L¡(x¡ - µ) 2 P(x¡) = L¡Xf P(x¡) - µ 2 = 0,75


(1=0,87

4. Variables aleatorias continuas

DEFINICIÓN: una variable aleatoria X es continua cuando puede tomar cual-


quier valor en un intervalo (finito o infinito). (Como en ocasiones anteriores, no
se trata de una definición rigurosa, sino de expresar la idea esencial de manera
sencilla). La función de probabilidad de una variable aleatoria continua queda
caracterizada por su función de densidad, que es una función f: 9\--+ 9\ , verifi-
cando:
a) f(x) ~ O para todo x E9\.
b) J9t f(x ) dx = 1.

A partir de la función de densidad, calculamos la probabilidad de un uce o


relativo a la variable aleatoria de la siguiente forma:
46 ESTADÍSTICA APLICADA

P(A) = L f(x)dx

Por lo tanto, la función de densidad nos indica cómo es el reparto de la


probabilidad sobre 9t, y nos permite calcular la probabilidad precisa de un
suceso A.
Conviene re altar que el valor de la función de densidad f(x) en un punto
x, no es la probabilidad de aparición de ese valor x, ya que:

P(x) = Í f(x)dx = O
J {,c}

Por tanto, cuando trabajamos con variable aleatorias continuas la proba-


bilidad de cualquier conjunto unitario es cero y como consecuencia, la función
de distribución es continua.
La función de distribución se puede obtener a partir de la función de
densidad:

F(x) = P( -oo, x] = J :a, f(x)dx

Recíprocamente, en los puntos en que F es derivable:

f(x)= dF(x)
dx

Para una variable aleatoria continua detiojmos media, varianza, etc. de la


siguiente forma:

D EFI ICIÓ : la media o esperanza de una variable aleatoria continua X se


define como:

µ = E[X] = t xf (x )dx

D EFI I CIÓ : la mediana de una variable aleatoria continua X es el valor M , que


verifica que F(M) = 1/2.

D EFINICTÓ : la varianza de una variable aleatoria continua X se define cmno:

a 2 = V(X) = E [(X - µ)2 ] = L (x - µ) 2 f(x) dx


VARIABLES ALEATORIAS 47

Desarrollando el cuadrado, y simplificando, se obtiene que:

DEFINTCIÓN: la desviación típica a de una variable aleatoria continua X se


define como la raíz cuadrada positiva de la varianza.

EJEMPLO: apliquemos todo lo anterior a la variable aleatoria continua X carac-


terizada por la siguiente función de densidad:

f(x)= {k~ O
si O~x~6
en el resto

Lo primero que necesitamos es el valor de k. Sabemos que una función de


densidad es no negativa y, además, tiene que verificar:

1= i91
f(x)dx= f 6

0
k-
x2

36
dx=2k

Por tanto:
k = l /2

En definitiva, la función de densidad queda, exactamente:

x2
f(x)=
·{ n si O~x~6
0 en el resto

En consecuencia, tenemos:

µ= i
91
xf(x)dx= i0
6 x2
x - dx=4,5
72

o- 2 = i
91
x 2 f(x)dx - µ 2 = f0
6 x2
x 2-
72
dx-(4 5)2 = 1,35

a=)Ds = l,16

Para obtener la función de distribución tenemos que calcular F(x) = J:. 00 f(x) dx.
Para x < O, F(x) = O; para x ~ 6, F(x) = 1; para x e [O, 6):

F(x) = I x

- co
f(x) dx=
fx x2
- dx= -
o 72 216
x3
48 ESTADÍSTICA APLICADA

En 1·esumen:

si x<O
F(x) = { ~ si O~x<6
si x~6

Para obtener la mediana, no hay más que plantear la ecuación:

-1 = F(M)=
2
IM
- ex,
f(x) dx = f0
M x2
-
72
dx = -M3
216

Por lo tanto:

M =(108) 1 ' 3 =4,76

Si queremo calcular, por ejemplo, la probabilidad de que el valor absoluto de


X sea inferior a 2, sólo tenernos que integrar la densidad en el suceso correspon-
diente:

P(IXl~2) = P( - 2~X~2)= f 2

- 2
f(x) dx=
f2 x2

o 7
- 2 dx = -
27
1

5. Ejercicios

1. Una compañía de bebidas anuncia premios en los tapones asegurando


que en cada 1.000 tapones hay 500 con «inténtelo otra vez», 300 con
premio de 5 euro , 150 con premio de 10 euros, 40 con premio de 50
euros y 10 con premio de 100 euros. Un individuo, al que no le gusta esa
bebida, decide comprar una botella cuyo coste es 10 euros. Caracterizar
su ganancia mediante una variable aleatoria y calcular su esperanza.
Calcular u probabilidad de perder dinero.

2. Sea X una variable aleatoria con función de densidad

iO~x<l
si 1 ~x~2
en el resto

a) Hallar k. Comprobarlo gráficamente.


b) Hallar la función de di tribución, E[X] y V(X).
VARIABLES ALEATORIAS 49

3. Sea X una variable aleatoria continua con función de densidad

si x e(O, 3)
si X rj:(0, 3)
Se pide:
1) Hallar la constante k y la función de distribución.
2) Probabilidad de que X esté comprendida entre 1 y 2.
3) Probabilidad de que X sea menor que l.
4) Sabiendo que X es mayor que 1, probabilidad de que sea menor que 2.
4. La función de densidad de una variable aleatoria continua es:

si xe(O, 2)
si xrj:(O, 2)

Determinar a y b, sabiendo que P(l/2<X~l) = 0,1357.


5. Sea X una variable aleatoria con función de densidad

si xe(O, 1)
si x e(l, 2)
en el resto

Hallar la mediana.

6. De una estación parte un tren cada 20 munutos. Un viajero llega de


improviso. Hallar:
1) Función de distribución de la variable aleatoria «tiempo de espera».
2) Probabilidad de que espere al tren menos de 7 minutos.
3) Esperanza y varianza de la variable aleatoria «tiempo de espera».
4) Probabilidad de que espere exactamente 12 minutos.
7. La proporción de cierto aditivo en la gasolina determina su peso específi-
co, lo que, a su vez, determina el precio. Supongamos que en la produc-
ción de gasolina la proporción de aditivo es una variable aleatoria X con
función de densidad:

f(x) = {6x(t - x) iO~x~l


0
en el resto

Si X< 0,50 tendremos gasolina del tipo 1 a 0,80 euros el litro; si


0,50 ~X~ 0,80, tendremos gasolina del tipo 2 a O90 euros el litro y,
X> 0,80, tendremos gasolina del tipo 3 a 1 euro el litro.
50 ESTA DISTICA APLICADA

a) Representar gráficamente la densidad y calcular la función de distri-


bución de X.
b) Calcular los porcentajes de producción de cada tipo de gasolina.
e) Calcular el precio medio por Jjtro.

8. El tiempo de vida (en minutos) de un determinado virus es una variable


aleatoria con función de densidad:
X

~ e- 1.000 si x>O
f(x)= { · 0 en el resto

a) Probabilidad de que el tiempo de vida ea uperior a 100 minutos e


inferior a 1.000 minutos.
b) Observamos el virus a los 500 minutos y comprobamos que ha
muerto. ¿Cuál es la probabilidad de que estuviese vivo a los 100
minutos?
9. La variable aleatoria X= «Tiempo tran currido (en hora ) basta el fallo
de una pieza» tiene función de densidad
X

f(x)= {Trloo e- IT.ooo


0
i x>O
en el resto

a) Calcular el tiempo medio transcurrido ha ta el fallo.


b) Si una pieza sigue funcionando despué de 5.000 horas, ¿cuál es la
probabilidad de que siga funcionando después de 10.000 hora ?

10. En un pue to de feria se ofrece la po ibilidad de lanzar a ciegas un dardo


a uno globo . Si se consigue reventar un globo, se recibe un premio igual
a una cantidad oculta tras el globo. Supongamos que la probabilidad de
acertar con algún globo es 1/ 3.
Los premios se distribuyen de la siguiente manera:

40 % de premios de O50 euros


30 % de premios de 1 euro
20 % de premios de 2 euros
10 % de premios de 6 euros

Si cada lanzamiento cue ta 1 euro, ¿cuál es la «ganancia» e perada del


dueño del puesto en cada lanzamiento?

11. El tiempo de vida (en año ) de cierta especie es una variable aleatoria T
con función de densidad:
VARIABLES ALEATORIAS 51

si tE(Ü, 1)
en el resto

a) Hallar el valor de k.
b) Hallar la esperanza de vida.
e) Probabilidad de que un ejemplar de esta especie viva menos de
9 meses.

12. Una variable aleatoria continua X tiene la siguiente función de densidad:

kx si O~x< 1
{
f(x)= i~t si 1 ~x<4
en el resto

a) Valor de k.
b) Media y mediana de esta variable aleatoria.
e) Sabiendo que X es menor que 3, ¿cuál es la probabilidad de que X
sea menor que 2?

13. En una estación de peaje estamos interesados en estudiar la variable


aleatoria:
T = «Tiempo que transcurre (en minutos) entre las llegadas de dos coches
consecutivos».
Su función de densidad es de la forma:

f(t)= {4e~4r si t>O


en el resto

a) Tiempo medio transcurrido entre las llegadas de dos coches consecu-


tivos.
b) ¿Cuál es la probabilidad de que el tiempo transcurrido entre dos
llegadas sea inferior al minuto si sabemos que al cabo de 30 segun-
do todavía no ha llegado el segundo coche?

14. EJ tiempo (en horas) que una máquina de un cierto tipo tarda en averiarse
e una variable aleatoria T con función de densidad:

f(t)= { 1 50 e; 100 si t>O


en el resto

En un taller hay tres máquinas de este tipo funcionando independiente-


mente.
52 ESTADÍSTICA APLICADA

a) Probabilidad de que la máquina número 1 falle en la 100 primera


horas.
b) Probabilidad de que falle al meno una de las máquinas en las 100
primeras horas.
e) Sabiendo que en las 100 primeras horas ha fallado al menos una de
las máquinas, ¿cuál es la probabilidad de que en e te período se haya
averiado la máquina número 1?

15. La velocidad (en Km./h.) de los coches que pasan por determinado punto
kilométrico de una carretera es una variable aleatoria con función de
densidad:

f(x)= {~
r8~ob
si 0<x<l00
si 100<x<200
en el resto

a) Calcular la probabilidad de que un vehículo circule a más de


120 Km./h., si se sabe que circulaba a más de 100 Km./h.
b) En e e punto e encuentra situado un radar con el objeto de multar a
los vehículos dependiendo de la velocidad a la que circulen. El im-
porte de la multa e O euros (es decir, no hay multa) si la velocidad es
inferior a 100 K.m./h. La multa es de 100 euros si la velocidad e tá
comprendida entre 100 y 120 Km./h. y es de 200 euros si la velocidad
es uperior a 120 Km./h. Calcular la esperanza de la va.dable aleatoria
«importe de la multa que tiene que pagar un vehículo elegido al
azar».

16. Se sabe que un lote den piezas contiene exactamente una pieza defectuo-
sa. Vamos probando las piezas de una en una hasta que encontramos la
defectuo a. Sea X = «Número de piezas probadas». Calcular E [X].

17. Un fabricante debe elegir entre dos procesos de producción que dan lugar
a que las longitudes (en cm.) de los elemento producidos se distribuyan
según:

Proce o 1: f 1(x)= {t si x~ l
en el resto

Proce o 2: f2(x) = {t si x~l


en el resto

a) Si los elementos aceptables deben tener longitud entre 1 y 2 cm., ¿qué


proceso produce un porcentaje mayor de elemento aceptable ?
b) Si se elige al azar uno de los dos procesos, ¿cuál es la probabilidad de
obtener una pieza aceptable?
e) ¿Cuál e la longitud medja en cada proce o?
VARIABLES ALEATORIAS 53

18. Una fábrica produce una pieza en dos calidades diferentes:


El 60 % de la producción es de calidad A. La duración (en años) de una
pieza de esta calidad viene dada por la función de densidad:

si x>O
en el resto

El 40 % restante es de calidad B. La duración viene dada en este ca o,


por la función de densidad:
2e- 2x si x>O
ÍB(x) = { O
en el resto

a) Probabilidad de que una pieza de caLidad A dure más de 1 año.


b) Mediana de la distribución del tipo A.
e) Si tomamos una pieza al azar de toda la producción, ¿cuál es la
probabilidad de que dure más de 1 año?
d) Si tomamos una pieza al azar de toda la producción, y observamos
que dura más de 1 año, ¿cuál es la probabilidad de que fuera de
calidad A?

19. La demanda diaria X de un determinado artículo sigue una distribución


con función de densidad:

si 0<x<6
f(x) = {~16
en el resto

donde X viene expresada en miles de uojdades.


a) Determjnar el número de unidades que diariamente hay que tener
dispuestas a la venta para poder satisfacer la demanda con probabili-
dad 0,95.
b) Si e producen 5.000 unidades diarias, y cada día sólo se pueden
consumir las unidades producidas ese día, calcular la probabilidad de
que, durante 20 días, en ninguno de ellos baya una demanda superior.

20. La acidez X de cierto compuesto depende de la proporción Y de uno de


sus componentes químicos y viene dada por la relación X = (1 + Y)2. La
proporción Y es una variable aleatoria con función de densidad:

si O~y~ l
f(y)= {~y
en el resto

Calcular la función de di tribución de la variable aleatoria X, su función


de den idad y la acidez media del compue to.
54 ESTADÍSTICA APLICADA

21. En un cierto sistema eléctrico, el voltaje X es una variable aleatoria que


tiene la siguiente función de distribución: F(x) = O, para x ~ O,
F(x)=x/(1 +x), para x~O. Demostrar que Fes efectivamente una fun-
ción de distribución. Calcular su correspondiente densidad y la probabi-
lidad del intervalo (3, 5).

22. Una central hidroeléctrica tiene, en esquema, el siguiente funcionamiento


desde el punto de vista económico (durante el período de un año): hay un
coste fijo anual de c 1 euros (destinado a gastos de personal y manteni-
miento). Cada kW.-h. de energía producida upone un coste de c 2 euros y
se vende a un precio de e3 •
Supongamo que la cantidad de energía producida (que depende
de la cantidad de lluvia caída en la zona) puede considerarse apro-
ximadamente una variable aleatoria X con densidad dada por
f(x)=r:1.2x exp ( - o:x), para x~O (a>O). Se pide:
a) Calcular la ganancia esperada anual.
b) Calcular la probabilidad de que al final del año la empresa que
ge tiona la central tenga deudas, upuesto que dispone inicialmente
de c4 euros (c4 < c 1 ).
5
Vectores aleatorios

l. Introducción
En muchos experimentos aleatorios nos interesará conocer las posibles relacio-
nes que pueda haber entre dos o más características. Para esto, necesitaremos
estudiar conjuntamente dichas características. Por ejemplo, en una especie de
insectos, puede interesarnos el estudio de su longitud y su peso; en un estudio
socio-económico, nos puede interesar estudiar Ja relación entre número de
hijos y nivel de renta por familia. La herramienta que nos permitirá formalizar
este estudio es el vector aleatorio, que es una generalización natural de la
variable aleatoria que ya hemos estudiado.

2. Conceptos básicos
DEFINICIÓN: un vector aleatorio (o variable aleatoria de dimensión n) es una
función (X 1 ... , X,,): Q----.9l", que a cada elemento co del espacio muestra/ (co-
rrespondiente al experimento aleatorio que estamos estudiando) le hace corres-
ponder n números reales X 1 ( w), ... , X,,( w).
( Desde el punto de vista matemático, esta definición no es rigurosa, ya que no
toda función es un vector aleatol"io, pero es adecuada para poder trabajar a este
nivel.)

Por supuesto, la idea de la definición es que X 1(w), ... , X,,(w) representan


las n caracterí ticas que queremos analizar conjuntamente en esa población.
Vamo a estudiar los diferentes conceptos para el caso de vectores aleato-
rios de dimen ión dos. El motivo es que la notación es más sencilla y, sobre
todo, se pueden hacer representaciones sobre el plano con gran facilidad; con
esto se gana en claridad, y los conceptos se pueden asimilar mejor. Así que, en
el resto del capítulo, consideraremos vectores aleatorios de la forma

(X, Y): Q----.9l 2

55
56 ESTADISTICA APLICADA

D EFINICIÓN: si A es un subconjunto de 9t 2 ( es decir, un conjunto de posibles


valores del vector aleatorio (X, Y)), definimos:

P(A)=P((X, Y) eA)=P{we Q: (X(w), Y(w))eA}

La función de distribución de un vector aleatorio (X, Y) se define de


manera análoga a como se hacía para una variable aleatoria:

DEFI ICIÓN: la función de distribución de un vecto1· aleatorio (X, Y) se define


como:
F(x, y) =P{(t, u)e9t 2 : t~x, u~y}
=P{we n: X(w)~x, Y(w)~y} para todo (x, y)e 9t 2

Las propiedades de la función de distribución de un vector aleatorio (X, Y)


son en cierto modo parecidas a las que tiene la función de distribución de una
variable aleatoria. El problema que tiene aquí la función de distribución e que
es mucho menos manejable y, en consecuencia, no Le vamos a prestar demasia-
da atención. Las herramientas básicas que vamos a utilizar para calcular
probabilidades de sucesos correspondientes a vectores aleatorios son la fun-
ción de ma a (caso cli creto) y la función de densidad (caso continuo).

3. \lectores aleatorios discretos


DEFI ICIÓN: un vector aleatorio (X, Y) es discreto cuando sólo puede tomar un
número finito o numerable de valores.
El modelo de probabilidad conjunta de un vector aleatorio discreto queda
caracterizado por la función de masa conjunta, que no da la probabilidad de
cada uno de esos posibles valores:

P(X = x;· Y = y)=P{we Q: X(ro) =x¡, Y(ro) = y} i= 1, ... , m; } = 1, ... n

La función de masa conjunta puede expresarse fácilmente con una tabJa de


doble entrada:
y
Y1 y,,
X

x,,,
VECTORES ALEATORIOS 57

En el caso de vectores aleatorios, además de la distribución conjunta, hay


otras dfatribuciones qu:e también son muy interesantes: las distribuciones mar-
ginales y las distribuciones condicionadas.

DEFINICIÓN: las distribuciones marginales de un vector aleatorio (X, Y) son las


que se obtienen al considerar cada característica por separado ( como si la otra
no existiera). En el caso discreto tenemos:
Distribución marginal de X: es de tipo discreto y su función de masa marginal
viene dada por:
n
P(X=x,)= ¿ P(X=x¡; Y= Y¡) i= 1, .. . m
j= l

Distribución marginal de Y: es de tipo discreto, y su función de masa marginal


viene dada por:
n,

P(Y = y) = ¿ P(X=x¡; Y= y) j= 1, ... , n


l= l

Lo realmente interesante de la definición anterior es ver cómo las funciones


de masa marginales se obtienen a partir de la función de masa conjunta, ya
que por lo demás las distribuciones marginales de X e Y son simplemente
di tribuciones de variables aleatorias.
Naturalmente, a partir de las funciones de masa marginales se puede
calcular E[X], V(X), E[Y], V(Y), etc.
(Si con iderásemos vectores aleatorio (X 1 , .. . , Xn), obtendríamos una
mayor variedad de distribuciones marginales.)
Antes de pasar a las distribuciones condicionadas podemos ver otros dos
conceptos interesantes: la covarianza y la independencia.

DE INICIÓN: la covarianza entre dos variables aleatorias discretas X e Y se


define como:

Cov(X, Y)=E[(X-E[X])(Y - E[Y])]


m n
= ¿ ¿ (x,- E[X])(y¡- E[Y])P(X = x,; Y = y)
i• l j• 1

Decimos que X e Y están incorreladas, cuando Cov(X, Y) = O.

Desarrollando el sumatorio, tenemos:

m n
Cov('X Y) = ¿ ¿ X¡y¡P(X=x¡; Y= y)
i= l j= l
58 ESTADÍSTICA APLICADA

- E[X] ¿n Yi (
¿m
P(X =x¡; Y= y))
j=1 i- 1
m n
+E[X]E[Y] ¿ ¿ P(X=x;; Y=y)
i= l j= l
m " m
= ¿ ¿ X¡y1P(X=x;; Y= y¡)-E[Y] ¿ X¡P(X=xJ
i=l j = l i- 1
n
-E[X] L Y1P(Y=y)+E[X]E[Y]
j = l

m n
= ¿ ¿ X;YJP(X=x;; Y= y)-E[X]E[Y] =E[XY]-E[X]E[Y].
i= l j = 1

Esta última expresión suele ser más cómoda para el cálculo efe.ctivo de la
covarianza.

DEFINICIÓN: dos variables aleatorias discretas, X e Y, son independientes cuando:

P(X = x ¡;.Y =y)=P(X=xJP(Y= y) para i= l, ... , m; j = l, ... , n

Si se compara con la definición de independencia de sucesos se puede


observar que son bastante imilare (como era de esperar).
Al estudiar la Estadística Descriptiva de dos variables veíamos (intuitiva-
mente) que si la nube de puntos era de tal forma que el crecimiento de los
valores de X oo parecía influir en los valores de Y, entonces la covarianza
muestra! era aproximadamente cero. Esta idea se puede expresar aquí de
manera má preci a:

PROPIEDAD: si X e Y son variables aleatorias discretas independientes:

Cov (X, Y) = O ( es decir, X e Y están incorreladas)

En efecto:

m n
Cov(X, Y) = ¿ ¿ x¡yiP(X=x¡· Y= y)-E [X] E [Y]
i= 1 j = 1

tll "

= ¿ ¿ X;Y¡ P(X=xJP(Y= y)-E[X]E[Y]


i =l j - l
VECTORES ALEATORIOS 59

= (t x;P(X=xJ) (t1
yiP(Y= y))- E[X]E[Y]

=E[X]E[Y]-E[X]E[Y] =O

DEFINICIÓN: la distribuci6n de la variable aleatoria X, condicionada por un


valor fijo yi de la variable aleatoria Y, viene dada por la función de masa con-
dicionada:

P(x =x-lY=y.)=
, 1
P(X=x¡; Y=y) . 1,
1= ... , m
P(Y =y)

De manera análoga, se define la distribución de Y condicionada por X = X¡

Es fácil comprobar que, si X e Y son independientes, las distribuciones


concticionadas coinciden con las ctistribuciones marginaJes corresponctientes:

P(X= ·I Y= .)= P(X =x;; Y= y)


x, Y; P(Y = Y)

= P(X=x;)P(Y =y) =P(X =x.J i=1, ... , m


P(Y = y)

EJEMPLO: lanzamos tres veces una moneda equilibrada y consideramos el vector


aleatorio (X, Y), que se obtiene definiendo:

X= «número de caras».
Y = «diferencia, en valor absoluto, ent1·e número de caras y de cruces».

a) El e pacio muestral que recoge todos los posibles resultados del experi-
mento es Q= {(C, C, C), {C, C, Cr), (C, Cr, C), (Cr, C, C), (C, Cr Cr), (Cr C, Cr),
(Cr, Cr, C) , (Cr, Cr, Cr)}. Como la moneda está equilibrada, admitiremos que la
probabilidad de cada suceso elemental es la misma; es decir, 1/8. El vector
aleatorio (X Y) es evidentemente discreto. Su descripción completa es como sigue:

(X, Y):Q -+ ~2

(C C, C) -+ (3, 3)
(C, e, Cr) -+ (2, 1)
(C, Cr C) -+ (2, 1)
(Cr, C, C) -+ (2, 1)
(C Cr, Cr) -+ (1 1)
(Cr C, Cr) -+ (1, 1)
(Cr, Cr C) -+ (1, 1)
(Cr Cr Cr) -+ (O, 3)
60 ESTADÍSTICA APLICADA

b) La función de masa conjunta del vector aleatorio (X, Y) se recoge en la


siguiente tabla de doble entrada:

y
1 3
X
o o 1/8
1 3/8 o
2 3/8 o
3 o 1/8

e) A partir de la función de masa conjunta obtenemos, sin dificultad, las


distribuciones marginales y las distribuciones condicionadas. Por ejemplo, la
distribución marginal de Y ( que, intuitivamente, corresponde a olvidarnos de la
variable aleatoria X) viene dada por la siguiente función de masa marginal:

P(Y=l)=P(X=O; Y=l)+P(X=l; Y= l)
+ P(X =2; Y=l)+P(X=3; Y=1)=6/8
P(Y=3)=P(X=O; Y=3)+P(X=l; Y=3)
+ P(X =2· Y=3)+ P(X=3; Y=3)=2/8
d) Si estamos interesados en conocer la probabilidad de obtener un número
determinado de caras, cuando la diferencia entre caras y cruces es 1, lo que
tenemos que hacer es calcular la dist1·ibución de la variable aleatoria X condicio-
nada por Y = 1; la función de masa condicionada es, en este caso:

(X=OI Y=l) = P(X=O; Y= 1) =~=O


p P(Y = l) 6/8

P(X = l· Y=l) 3/ 8
P(X = 1 1Y = 1) = P(Y = l) = 618 = 1/2

P(X = 2 1Y = 1) = P(X= 2; Y= 1) = 3/8 = 1/2


P(Y= 1) 6/8
P(X = 3· Y = 1) O
P(X = 3 i Y = 1) = P(Y = l) = 618 = O

Por supuesto, si aplicamos el sentido común, nos daremo cuenta de que, si la


diferencia entre caras y cruce e 1, es imposible que hayan salido cero caras o
tres caras; esto e refleja en el hecho de que las respectivas probabilidade
condicionadas on cero.
e) Finalmente, si observamo la tabla con la función de ma a conjunta, nos
daremos cuenta de que X e Y no on. independientes, aplicando la definición.
VECTORES ALEATORIOS 61

4. Vectores aleatorios continuos

El otro caso importante de vector aleatorio que vamos a estudiar es el de tipo


continuo: los posibles valores que puede tomar son todos los puntos de un
cuadrado, de un triángulo, etc. (en realidad, no hay forma de dar una defini-
ción rigurosa de vector aleatorio continuo a este nivel, pero, intuitivamente, lo
que se acaba de decir describe bien la situación). La herramienta básica en este
caso, no e la función de rna a, sino la función de densidad:

DEFINICIÓ : la función de densidad conjunta de un vector aleatorio continuo


(X, Y) es una función f: 9\ 2 -+'.R, que verifica:

f(x, y)~O para todo (x, y)E<.R 2


{
J,./ f(x, y) dx dy = 1

La probabilidad de cualquier suceso A e <.R 2 relativo al vector aleatorio se calcula,


mediante la función de densidad, de la siguiente forma:

P(A) = L f(x, y) dx dy

Lo que vamos a hacer a continuación es trasladar todos los conceptos


estudiados en el caso discreto al caso continuo.

DEFINICIÓN: las distribuciones marginales de un vector aleatorio (X, Y) son las


que se obtienen al considerar cada característica por separado ( como si la otra
no existiera). En el caso continuo tenemos:
Distribución marginal de X: es de tipo continuo, y su función de densidad
marginal viene dada por:

f(x)= J9t
f(x , y) dy para todo xe<.R

Distribución marginal de Y: es de tipo continuo, y su función de densidad


marginal viene dada por:

J(y) = L f(x, y) dx para todo y E SR

Lo realmente interesante de la defmición anterior e ver cómo la funciones


de densidad marginale e obtienen a partir de la función de densidad conjun-
ta ya que, por lo demás, las di tribuciones marginales de X e Y on simple-
mente distribuciones de variable aleatoria .
62 ESTADÍSTICA APLICADA

Naturalmente, a partir de las funciones de densidad marginales se puede


calcular E[X], V(X), E[YJ, V(Y), etc.

DEFINICIÓN: la covarianza entre dos variables aleatorias continuas X e Y se


define como:

Cov(X, Y)=E[(X-E[X])(Y-E[Y])J= r (x - E[X])(y - E[Y])f(x, y)dxdy


J912
Decimos que X e Y están incorreladas cuando Cov(X, Y) = O.

Desarrollando el sumatorio tenemos:

Cov(X Y)= r xyf(x y)dxdy- J912


J9t2
r xE[Y]f(x,y)dxdy
- J<Jt2
r yE[X]f(x, y) dx dy+ Jg¡2
r E[X]E[Y]f(x y) dx dy
= L 2
xyf(x, y) dx dy - E[Y] Lx( L f(x, y) dy) dx

- E[X] Ly( L f(x, y) dx) dy + E[X]E[YJ L 2 f(x, y) dx dy

= ¡ xyf(x, y)dx dy - E[Y] 1xf(x)dx - E[X] ¡ yf(y)dy+ E[X]E[Y]


J~ 1 J'Jt
= 1 xyf(x y) dx dy - E[Y]E[X] - E[X]E[Y] + E[X]E[Y]
J912
= 1 xyf(x y)dxdy - E[X]E[Y] = E[XY] - E[X]E[Y]
J<Jt2
Esta última expresión suele er más cómoda para el cálculo efectivo de la
covarianza.

D EFINICIÓ : do variables aleatorias continuas X e Y son independientes, cuando:

f(x, y = f(x).f(y) para xE9t, yE9'

También en e te caso tenemos la siguiente propiedad:

PROPIEDAD: si X e Y son variables aleatorias continuas independientes:

Cov(X, Y)=O (es decir, X e Y están incorreladas)


VECTORES ALEATORIOS 63

En efecto:

Cov(X, Y)= f 912


xyf(x, y)dxdy-E[X]E[Y]

= f xyf(x)f(y) dx dy - E[X]E[Y]
J912
=E[X]E[Y] - E[X]E[Y] =O

D EFINICIÓN: la distribución de la variable aleatoria X , condicionada por un valor


fijo y de la variable aleatoria Y, viene dada por la función de densidad condicionada:

f(x, y)
f(xly)= f(xl Y= y)= f(y) para todo xe9t

( Como se puede observar, es necesario que f(y) > O; intuitivamente, esto quiere decir
que estamos condicionando por un valor de Y potencialmente observable).
De manera análoga, se define la distribución de Y condicionada por X= x.

Es fácil comprobar también aquí que, si X e Y son independientes, ]as distribu-


ciones condicionadas coinciden con las distribuciones marginales correspondientes:

fe X
IY = ) = f(x, y)= f(x)f(y) =f( )
y f(y) f(y) X

EJEMPLO: supongamos que (X, Y) es un vector aleatorio continuo, cuya función


de densidad conjunta es:

f(x, y)= {k si O<y<x< l


O en el resto

a) Lo primero que tenemos que hacer es determinar el valor de k, para que la


función f sea, efectivamente, una función de densidad. Podemos utilizar dos proce-
dimientos:

Método general: imponemos la condición J91 2 f(x, y) dx dy = l y tenemos (ver


Fig. 5.1 ):

1= L 2
f(x, y) dx dy = L f(x, y) dx dy = I: (f: k dy) dx = ~ -

Por tanto, k=2.


64 ESTADÍSTICA APLICADA

X=Y
T X=l

y=O X

Fig. 5.1

Método particular para este caso: por tratarse de una densidad que reparte
la probabilidad uniformemente en el triángulo T. tenemos, también:

1 1
k= = - =2.
Area(T) 1/2

( Insistimos en que este procedimiento sólo es válido cuando la probabilidad está


uniformemente repartida).
b) A continuación, podemos obtener las densidades marginales.

Densidad marginal para X:

J
J(x) = "'J(x y) dy = 0
,.
{Jt 2dy = 2x si x e(O, 1)
en el resto

Densidad marginal para Y:

f(y) = J,,, f(x, y) dx = {J0; 2dx =2-2y si ye(O 1)


,. en el resto

c) Veamos, ahora, las distribuciones condicionadas.


Densidad de X condicionada por Y= y ( donde y es cualquier valor fijo del
intervalo (O, 1)):

- -f(x,
!(x l)y y)_ f(x, y)_ {2 -32y = 1!..y
-- - - - -
si xe(y, 1)
f(y) 2 - 2y z% = O en el l'esto

Densidad de Y condicionada por X = x ( donde x es cualquier valor fijo del


intervalo (O, 1) ) :

f(y lx)= f(x y)= f(x, y)=


J(x) 2x
= i si ye(O x)
fx = O en el resto
{ix
VECTORES ALEATORIOS 65

d) Es inmediato comprobar que X e Y no son independientes.


e) Para acabar con este ejemplo veamos cómo se calcula la probabilidad de
algún suceso. Obtengamos, por ejemplo, P(X>l/2; Y<l/2) (ver Fig. 5.2); igual
que en el apartado a) podemos utilizar dos métodos diferentes:

X=1

Fig. 5.2

Método general: calculamos la probabilidad de un suceso, integrando la


función de densidad conjunta sobre dicho suceso:

P(X>l/ 2; Y<l/2) = J A
f(x , y)dx dy= f 1

1/ 2
(
Jof1'
2
2dy)dx=!
2

Método particular para este caso. por tratarse de un modelo que reparte la
probabilidad de manera uniforme sobre el triángulo T, tenemos:

P(X > l / 2· y< l / 2) = Area(A) = 1/4 = !


' Area(T) 1/2 2

5. Algunas propiedades útiles

La finalidad de esta sección es poner junta una serie de propiedades muy


útiles de esperanzas y varianzas de variables aleatorias. Estas propiedades on
válida independientemente del carácter de continuas o discretas que puedan
tener las variable aleatorias involucradas.

PROPIBDADES

a) E[kX] = kE[X].
b) E[X + Y]= E[X] + E[Y].
e) V(kX) = k 2 V(X).
d) Si X e Y son incorrelada :
E[XY] =E[X]E[Y]
66 ESTADÍSTICA APLICADA

i<j
1) Si X 1 ... , X" son variables aleatorias incorreladas:

V(X 1 + ··· +X,,)=V(X 1)+ ... +V(X,,)


g) V(X-Y)= V(X)+ V(Y) - 2 Cov(X, Y).
h) Si X e Y son variables aleatorias incorreladas:

V(X - Y)= V(X) + V(Y)

Todas estas propiedades soo sencillas de comprobar:


a) Por ejemplo, en el ca o discreto:

m m
E[kXJ= ¿ kx,P(xJ=k ¿ X¡P(x 1)=kE[X]

b) Por ejemplo, en el ca o continuo:

E[X+Y]= ( (x+y)f(x,y)dxdy= ( xf(x y)dxdy+ ( yf(x,y)dxdy


JF JF JF
= L xf(x)dx+ t yf(y)dy = E[X] + E[Y]

e) Tenemo :

V(kX) = E [({,X - kE [X])2] = k 2 E [(X - E [X])2] = k 2 V(X)

á) Si X e Y on incorreladas, tenemos que Cov(X, Y)=O; por tanto:

Cov(X Y) =E [XYJ - E[X]E [Y] = O

Despejando, tenemos: E [XY] = E [X] E [Y ].


e) En efecto:

V(X 1 + ··· +X,,)=E[((X 1 + ··· +X")- (E[XiJ + ·· · +E[X,,])) 2 ]


= E[((X 1 -E [X 1 ])+ ··· + (X,, -E [XnJ)) 2]
=E [(X 1 -E[X 1]) 2 ]+ ··· +E [(X,, - E[X11] ) 2 ]
+2 ¿ E[(X¡ - E[XJ)(Xj - E[Xj])]
i<j

=V(X 1 )+ ··· +V(X11 )+ 2 ¿ Cov(X¡, X)


i<J
VECTORES ALEATORIOS 67

f) Por ser incorreladas sabemos que Cov (X,, Xi)= O y, por tanto:

g) Tenemos:

V(X-Y)=E[((X-Y)-(E[X]-E[Y]))2]
=E[((X- E[X])-(Y- E[Y])) 2 ]
= V(X)+ V(Y)-2 Cov(X, Y)
h) Es inmediato.

6. Ejercicios
l. Sea X la variable aleatoria «suma de los puntos obtenidos en n tiradas de
un dado». Hallar la esperanza de X.

2. Se tiran dos dados. Consideremos las variables aleatorias X= «Número


de puntos del 1.er dado» e Y= «Número mayor de los dos obtenidos».
a) Hallar la funcion de masa conjunta y las marginales.
b) CalcuJar las probabilidades de los di tintos valores de X si sabemos
que Y=4.

3. a) Caracterizar el experimento aleatorio del problema de los estudiantes


(dos persona llegan al azar e independientemente entre la 12 y la 1)
mediante un par de variables aleatorias. Indicar su densidad conjunta
y marginales.
b) Supongamo ahora que los instantes de llegada de las dos personas
tienen como función de densidad conjunta:

4xy iO~x~lO~y~l
f(x, y)= {
O en el resto

¿Son independientes las llegadas de ambos? ¿Cuál es la distribución


egún la cual llega abara cada uno?

4. La función de densidad conjunta de dos variables aleatorias con distribu-


ción continua es:
f(x, y)= {k(x+xy) si xE(O 1), yE(O, 1)
O en otro caso
1) Valor de k.
2) Funciones de densidad marginales.
3) ¿Son independientes?
68 ESTADÍSTICA APLICADA

5. Sea (X, Y) un vector aleatorio que tiene por función de densidad:

f(x, ) = { 1 si IYI < x, O< x < 1


y O en el resto

a) Comprobar que es función de densidad.


b) Hallar la medias de X y de Y.
e) Hallar:

6. En una población muy grande de familia con 3 lujos, consideramo las


do siguientes variables aleatorias:

X =« úmero de hijos varones en la familia».


Y = «Número de rachas en el exo de los hijos».
a) Si cada hijo tiene la m isma probabilidad de er varón que de er
mujer ballar la función de masa conjunta de X e Y.
b) Hallar la di tribuciones marginales de X e Y. ¿Son X e Y indepen-
diente ?

7. Dos caracterí tica , X e Y, son variables aleatorias con función de densi-


dad conjunta:

x = {kye- 2 xe- y i x>O y>O


f( ' y) O en el re to

a) Hallar el valor de k. ¿Son independiente X e Y?


b) Calcular la e peranza de X.

8. Do u tancias A y B se encuentran en la angre en cantidades X e Y,


re pectivamente. Esta cantidades varían de un individuo a otro. La
den idad conjunta de estas cantidade es:

!( X y) = { s21 xy 2 si O< x < 3 O< y< 3


' O en el resto

a) Densidad marginal de Y y e peranza de Y.


b) Probabilidad de qu , en un individuo tomado al azar, haya más
sustancia A que B.

9. El vector aleatorio (X Y) tiene como función de densidad


VECTORES ALEATORIOS 69

f(x , y) = {15x 2 y si (x, y)eR


O en el resto

donde R es el triángulo limitado por las rectas x = O, y = 1 y x = y.


a) Hallar la densidad marginal de X.
b) Hallar la esperanza de X.

10. La proporción en sangre de dos compuestos, X e Y en una especie común


de ratone es variable. Su distribución conjunta en toda la población se
caracteriza medjante la función de densidad

f(x, ) = {k(l-x)y 2 si Ü<x<l, Ü<y<l


Y O en otro caso

Un ratón e considera sano si ambas concentraciones son inferiores a i.


a) Hallar el valor de k. Decidrr si X e Y son independientes.
b) Hallar la concentración media del compuesto Y en la especie.
e) Hallar la probabilidad de que un ratón elegido al azar esté sano.

11. Sea (X, Y) un vector aleatorio con función de densidad

f(x y )= {okxy 2 si 0< x <2, O< y<l


en el resto

a) Valor de k .
b) ¿Cuánto vale la densidad marginal de X en x = 1?
e) Valor de la densidad condicionada f(X = i I Y = i ).

12. Consideramos dos características de tipo continuo, X e Y, para cada


individuo de una población. Lo valores de X e Y son variable y u
distribución viene expresada por la función de densidad:

kxy 2 si 0 < y <x< 2


f(x, y)= { 0
en el re to

a) Determinar el valor de k.
b) Hallar la den idad marginal de Y y calcular P {Y;::: l }.
70 ESTADÍSTICA APLICADA

13. Sea (X Y) un vector aleatorio continuo con función de densidad

2 si O~y~x~ 1
f(x y)= {
' O en el resto

a) Obtener las distribuciones marginales.


b) Calcular P(X < 1/ 2; Y< 1/ 3).
e) Calcular Cov(X, Y).

14. Un vector aleatorio (X, Y) tiene como función de densidad

f(x, ) =
Y
{1 si (x, y)ET
O en el re to

donde Te el triángulo limitado por las rectas y= 1- x, y= x - 1, y= l. Se


pide:

a) E peranza de X y P(X > 1/2).


b) P(l/2<X <3/ 2; Y> 1/2).

15. Los tiempos de vida, X e Y (en día ), de una bacteria en dos medio
di tintos e independientes A y B, respectivamente, tienen las funciones de
densidad

f(x)= { ~ si Ü<x< 10 f e- y/k i y>O


g(y = {
O en el resto ) O en el resto

donde k e una con tante positiva. La duración media de las bacterias en el


medio B es de 5 días.
a) Calqilar el valor de k y la e peranza de vida en el medio A .
b) na bacteria tiene la misma probabilidad de estar en el medio A que
en el B. Sabiendo que vivió más de 5 día , ¿cuál e la probabilidad de
que e encontrara en el medio A?
e) Hallar la función de den idad conjunta de X e Y y la probabilidad
P {X > S; Y > S).

16. Sean X e Y do variable aleatorias independientes con densidade

2x i O<x < 1 1/ 5 si 0< y <5


f(x) =
{
O en el re to g(y) = { o
en el resto

a) Hallar la mediana de la variable aleatoria X.


b) Hallar la probabilidad P(X + Y~ 1).
VECTORES ALEATORIOS 71

17. Las variables aleatorias X e Y se distribuyen conjuntamente según la


función de den idad

f(x )= {kx si (x, y)ET


Y O en el resto

donde T es el triángulo determinado por las rectas x = 1, x = y, y= O.


a) Valor de k.
b) Calcular la esperanza de Y
e) Hallar P(X +Y~ 1).
6
Modelos de probabilidad
/
mas con1unes

l. Introducción

Hasta ahora hemos estado refiriéndonos a los modelos de probabilidad en


general, sin hacer referencia a ninguno en particular. Sin embargo, algunas
distribuciones específicas juegan un papel muy importante tanto en la Proba-
bilidad como en la Estadística. En realidad, son ejemplos, pero tan destacados
que merecen un capítulo aparte. Veremos primero algunos modelos de proba-
bilidad de tipo discreto y, después, algunos de tipo continuo.

2. Pruebas de Bernoulli

DEFlNICIÓN: una prueba de Bernoulli es un experimento aleatorio cuyos posi-


bles resultados son agrupados en dos conjuntos excluyentes que llamaremos éxito
(E) y fracaso (F), con P(E) = p y P(F) = 1 - p.
Esta divi ión en éxito y fracaso puede ser algo que viene impuesto de
manera natural o una división artificial que a nosotros no interesa realizar.
Vemos a continuación alguno ejemplos sencillos:
En el lanzamiento de una moneda podemos tomar E={Cara} y F={Cruz}.
En el lanzamiento de un dado podemos tomar, por ejemplo E= {1, 2} y
F={3 4 5, 6}.
AJ elegir una persona al azar en una población podemos tomar, por
ejemplo E= {Altura~ 1,80} y F ={Altura< 1,80}.
La distribución de Bernoulli constituye el modelo más sencillo obtenido
mediante pruebas de BernouJli:
DEFINICIÓN: realizamos una prueba de Bernoulli con P(E) = p. La distribución
de Bernoulli es la distribución de la variable aleatoria

X = { 1 si obtenemos éxito
O si obtenemos fracaso

73
74 ESTADÍSTICA APLICADA

Su función de masa es:

P(X = O) = 1 - p
o bien P(X = x) = px(l - p)l - x para x=O, 1
P(X= 1)= p

La e peranza y la varianza de una distribución de Bernoulli son inmediatas


de obtener (simplemente, se aplican las definiciones); serán muy útiles en la
sección iguiente:

E[X] = p
V(X) = E[X 2 ] - p 2 = p - p 2 = p(l - p)

La pruebas de Bemoulli generan diferentes modelos de probabilidad


algunos de ellos muy interesantes y muy utilizados. Los estudiamos a conti-
nuación.

3. Distribución binomial

El modelo de probabilidad más importante generado a partir de prueba de


Bernoulli e el modelo binomial:

D FTNl TÓ : realizamos n pruebas de Bernoulli independientes con P(E) = p en


cada prueba. La distribución binomial B(n; p) es la distribución de la variable
aleatoria X =«número de éxito obtenidos en las n pruebas». Sufunción de masa
es:

P(X = x)= (:) p"{l - p)'• - x para x=O 1 ... , n

El hecho de que una variable aleatoria X tenga di tribución B(n; p) lo


representaremos abreviadamente por X-B(n; p). El mismo tipo de notación e
utilizará para otros modelos de probabilidad.
Para obtener la esperanza y la varianza de la distribución binomial pode-
mo hacer dos cosas: intentar aplicar ciegamente la definiciones, o utilizar (de
forma inteligente) las propiedade que conocemos. Vamos a hacer lo segundo
ya que, de e ta manera, conseguiremos con poco esfuerzo, lo mi mo que
conseguiríamo con la primera vía complicándonos mucho má la vida. Para
e to definimos:

1 i obtenemos éxito en la prueba i-ésima


{ (i= 1, .. . , n)
X,= O si obtenemos fracaso en la prueba i-ésima
MODELOS DE PROBABILIDAD MÁS COMUNES 75

De esta forma, tenemos que X 1 , ... , ,Xn son variables aleatorias indepen-
dientes con distribución de Bernoulli y, además, X = X 1 + ··· + Xn. Por lo
tanto:
E[X]=E[X1+ ... + XnJ = E[X1J+ ... +E[XnJ
=p+ ... +p=np
V(X)=V(X1+ ... + Xn)=V(X1) + .. . + V(Xn)
= p(l - p) + ·· · +p(l - p)=np(l - p)

Calcular probabilidades correspondientes a la distribución binomial no es


nada complicado mediante una calculadora. Puede utilizarse también la tabla
correspondiente a esta distribución. Para usar estas tablas sólo hay que hacer
notar que, si p>0,5, tendremos que usar la siguiente propiedad:
Si X-B(n; p) e Y-B(n; 1- p), tenemos que P(X=x)=P(Y= n-x). Esto es
cierto, ya que:

P(X = x) = (:) px(l - pt-x

P(Y=n- x )= ( n )(l - pt-xPx


n -x

4. Otros modelos basados en pruebas de Bernoulli

Hay otros modelos de probabilidad que están basados en la realización de


pruebas de Bernoulli (aunque no son tan importantes como el modelo bino-
mial).

D EFINICIÓN: realizamos pruebas de Bernoulli independientes, con P(E) = p en


cada prueba, hasta La aparición del primer éxito. La distribución geométrica es la
distribución de la variable aleatoria X = «número de fracasos hasta la aparición
del primer éxito». Su función de masa es:

P(X = x) = (l - pyp para x = O, 1, ...

(En alguno textos se define la distribución geométrica de manera ligera-


mente diferente diciendo que es la distribución de la variable aleatoria
X = «número de pruebas hasta la aparición del primer éxito»; en este caso, la
función de masa sería P(X = x) = (1 - py- 1 p para x = 1 2, ...).
La esperanza de la distribución geométrica no es muy difícil de calcular:
00

E[X]= ¿ x(I-pyp
x= O
76 ESTADÍSTICA APLICADA

-
-p (1-p p + (l -pp) 2
+ .. ·) (sumando por columnas)

l- p
= (1 - p)+(l-p)2 + ... =-
p

(Con la definición alternativa de distribución geométrica antes indicada


habríamos obtenido, de manera análoga: E[X] = l /p).

DEFINICIÓN: realizamos prueba de Bernoulli independientes, con P(E) = p en


cada prueba, hasta conseguir r éxitos (donde r está fijado previamente). La
distribución binomial negativa es la distribución de la variable aleatoria X= «nú-
mero de fracasos hasta la aparición del r-ésimo éxito». Su función de masa es:

x+r-1)
P(X= x)= ( x p'(l-p)" para x=O, 1, .. .

Como se puede observar, se trata de una generalización de la idea que e


utilizaba para definir la distribución geométrica. Esta relación con la distribu-
ción geométrica la vamos a emplear para calcular la esperanza de la distribu-
ción binomial negativa de manera muy sencilla. Para hacer esto, definiremos
X¡= «número de fraca os obtenidos entre el (i - 1) -ésimo éxito y el i-ésimo
éxito» (i = 1, ... , r). Es inmediato observar que X 1 , . .. , X, son variables aleato-
ria independiente con distribución geométrica y, ademá X= X 1 + .. · + X,.
Por tanto:
E[X]=E[X 1 + ··· + X,J = E[X 1] + ·· · +E [X,]
= _1-_p + ... + _1 -_p = _r(_l -_ p_)
p p p

(Compáre e este cálculo con el que habría que realizar si se intenta aplicar
directamente la definición de esperanza de una variable aleatoria discreta).

5. Distribución de Poissoo

La di tribución de Poisson es otro de los modelos más utilizados en Probabili-


dad y E tadística. La forma más sencilla e intuitiva de presentarla e como
límite de la distribución binomial B(n; p) cuando n-HYJ y p--tO. Veamos para
MODELOS DE PROBABILIDAD MÁS COMU NE S 77

esto, cuál es el límite de las probabilidades binomiales cuando n-+ oo, p-+ 0 y
np-+ A.(0 <A< oo ):

lim (n) px(l - Pr - x = lim


X
n(n - 1) .. . (n -
X!
X+ l) px(l - p)" - x

. n(n - 1) ... (n -x+ l)( )x(l )n - x


= L~ x !nx ~ - p

_ .
- lim -
1
x!
(nnn - 1 n - x+ l) ( )x (1 - pt
- - - ···
n n
np
(1 - p)"
e- J.;¡_x
x!

Este resultado es el que motiva la siguiente definición para el modelo de


probabilidad de Poisson:

D EFlNJCIÓN : la distribución de Poisson de parámetro A(A> O) es la que tiene


como función de masa:

e- ).A.x
P(X = x)= - - para x= O, 1, ...
x!

Es inmediato comprobar que, efectivamente, lo anterior es una función de


masa:

Ya que hemos presentado el modelo de Poi son como límite del modelo
binomial, e fundamental comprender en qué situaciones nos encontraremos,
de manera aproximada con el modelo de Poisson: decir que n-+ oo lo entende-
remo intuitivamente, como que n es grande, y decir que p-+0 lo entenderemos
como que p está próximo a cero. Por tanto, cuando nos encontremos con un
modelo binomial con las circunstancias indicadas lo podremos sustituir por el
corre pondiente modelo de Poisson tomando A.= np (a título orientativo diga-
mos que esta sustitución puede resultar aconsejable cuando n ~ 30 y p ~ 0,1).
Veamo alguno ejemplo en lo que urge, de manera natural, la distribución
de Poisson como modelo de la variable aleatoria considerada:
X = «número de erratas por página en un libro».
X = «número de asegurados en una compañía que han declarado algún
sinie tro en un año».
78 ESTADÍSTICA APLICADA

En resumen, digamos que la distribución de Poisson es un modelo bastante


razonable cuando estamos interesados en estudiar el número de éxitos obteni-
dos en un número grande de pruebas independientes de Bernoulli, y la proba-
bilidad de éxito, cada vez que se repite la prueba, es pequeña.
Una manera informal, pero sencilla, de obtener la esperanza y la varianza
de una variable aleatoria X con distribución de Poisson, consiste en recordar
que la distribución de Poisson es límite del modelo binomial· de este modo,
tenemos:
E[X]=lim np=J..
V(X) = lim (np) (1 - p) = J..

(Como se ha indicado, el procedimiento no es riguroso, pero es cómodo


para recordar el valor de la esperanza y de la varianza; aplicando directamente
las definiciones obtenemos los aúsmos resultados, pero con mucho más trabajo).
Es sencillo calcular probabilidades correspondientes al modelo de Poisson
mediante una calculadora. También e puede utilizar la tabla correspondiente.

6. Distribución hipergeométrica

DEFINICIÓN: consideremos una población con N elementos, de los cuales, D son


éxitos ( es decir, tienen una determinada característica) y N - D sonfi'acaso (no
tienen esa característica). La distribución hipergeométrica es la distribución de la
variable aleatoria X = «número de éxitos obtenidos en n observaciones al azar de
la población, sin reemplazamiento». Su función de masa es:

para max{O n - (N-D)} .:;:;x.:;:; min{n D}

Sobre esta definición se pueden hacer algunas ob ervaciones interesantes:


a) Normalmente los valores que puede tomar una variable aleatoria con
distribución hipergeométrica son x = O, 1, ... , n. Pero esto no e cierto si el
número de éxitos (o el nómero de fracasos) es menor que el número n de
observacione . La expresión válida para todas las situacione es la que se
indica en la definición. Esta expre ión es complicada de recordar; pero esto, en
realidad, no e un problema ya que lo mejor es en cada ca o particular
aplicar nue tro sentido común para conocer cuáles son los valores que puede
tomar la variable aleatoria (con idére e, por ejemplo, el número de éxitos que
pueden obtenerse en 20 ob ervaciones sin reemplazamiento de una población
que consta de 15 éxitos y 85 fraca o ).
MODELOS DE PROBABILIDAD MÁS COMUNES 79

b) Si las observaciones se realizasen con reemplazamiento, la situación


sería la misma que si estuviésemos considerando el número de éxitos obtenidos
en n pruebas independientes de Bernoulli, coa P(E)=D/N en cada prueba, y lo
que obtendríamos sería la distribución binomial. Naturalmente, al ser sin
reemplazamiento, desaparece la independencia y obtenemos un modelo dife-
rente. Debemos señalar no obstante, que si el número de éxitos y de fracasos
en la población es grande en comparación con el número n de observaciones,
la diferencia entre que tomemos las observaciones con o sin reemplazamiento
va a ser insignificante. En este caso, la distribución hipergeométrica coincide
prácticamente con la distribución binomial.
Finalmente, calcularemos la esperanza de una variable aleatoria X con
distribución hipergeométrica; definimos las siguientes variables aleatorias auxi-
liares:

x .= o
1
{1 si obtenemos éxito en la observación i-ésima
si obtenemos fracaso en la observación i-ésima
(i=l, ... , n)

X 1 , ... , X" on variables aleatorias (no independientes), todas ellas con distri-
bución de Bernoulli con P(E) = D/N y, además, X=X 1 +· ··+X,.. Por tanto:

E[X]=E[X 1 + ··· +X,,]=E[X 1 ]+ ··· +E[X11]


D D nD
=-+ ···+- = -
N N N

(En vez de hacer lo anterior, inténtese calcular la esperanza de la distribu-


ción hipergeométrica directamente con la definición).

7. Distribución normal

La distribución normal es el modelo más importante y más utilizado para


variables aleatorias continuas. Su importancia proviene de que aparece (por
upue to, de forma aproximada) en muchas situaciones: medidas morfológicas
en e pecies animales o vegetales (pe o, altura, etc.), medicione en experimentos
físicos, etc. En general, la distribución normal surge siempre que los resultados
de un experimento sean debidos a un conjunto muy grande de cau as indepen-
dientes que actúan sumando sus efectos, siendo cada efecto individual, de poca
importancia respecto al conjunto.

D EFINlCIÓN: la disf:!ibución normal de parámetros µ y (J ( - oo < µ < oo y (J > O),


que representaremos abreviadamente por N(µ; (J), es el modelo de probabilidad
caracterizado por la función de densidad:
80 ESTADÍSTICA APLICADA

f(x)= -1- exp [ - -1 - -


afln 2 a
(x-µ) 2
] para todo xe~

(Laforma de la/unción de den idad puede verse en la Fig. 6.1.)

f(x)

µ-o µ µ+o X

Fig. 6.1

Hay una erie de propiedades básicas que conviene aber obre la distribu-
ción normal:

a) E[X] = µ.
b) V(X)=a 2 .
e) Es una den idad imétrica con re pecto a la media µ.
Una consecuencia de esto es que, por ejemplo

P(X <µ - l) = P(X>µ+ 1)

d) Si una variable aleatoria X tiene distribución N(µ· <T) entonces la


variable aleatoria
X-µ
Z = --
a
tiene distribución N(O; 1).
Gracias a esta propiedad podremos calcular la probabilidad de un
suce o correspondiente a una variable aleatoria X,..., N(µ · a) a partir de
la tabla de la distribución N(O; 1); ya veremos, con un ejemplo, cómo e
hace e to.
e) La distribución B(n; p) tiende a la di tribucióo normal, cuando n_. oo (y
p está fijo).
Por tanto cuando estemos trabajando con un modelo binomial
B(n· p) con n grande, lo podremo sustituir por el corre pondiente
J
modelo normal tomando µ = np y a = np(l - p) (a título orientativo,
digamo que esta sustitución puede re ultar aconsejable cuando n ~ 30
y O l<p<09).
MODELOS DE PROBABILIDAD MÁS COMUNES 81

Para dar e cuenta de la importancia práctica de esta sustitución


podemos considerar una variable aleatoria X"' B(n = 100· p = 0,3) e
intentar calcular directamente P(X > 40).
j) Si X 1 -N(µú a 1), ... , Xn"'N(µn; aj y son independientes, entonces:

X1+ .. · + X,,"' N (µ = µ 1 + .. · + µ,,; a= J cr¡ + .. · + cr;)


X 1 - X 2 -N(µ= µ 1 - µ 2 ; a= Jcri +a~)

EJEMPLO: calcular la probabilidad de que la variable aleatoria X tome valores


entre - 1 y 7 si su distribución es N(µ = 5; a= 4).

Para poder obtener esta probabilidad, vamos a utilizar las propiedades ante-
riores para transformar el cálculo de P( - 1 ~X~ 7) en algo que podamos obtener
utilizando las tablas de la distribución N(O; 1). Estas tablas nos dan probabilida-
des del tipo P(Z > z) para z > O. Tenemos:

- 1 - 5 X - 5 7 - 5)
P(-l~X~7)=P ( ~ -- ~ -
4 4 4
=P( - 1,5~Z ~0,5) ( por la propiedad d))
= P(Z ~ - 1,5) - P(Z ~ 0,5)
= P(Z ~ 1,5) - P(Z ~ 0,5) ( por la propiedad c))
= 1-P(Z~ 1,5) - P(Z~0,5)
= 1 - 0,0668 - O3085 = 0,6247 ( utilizando las tablas)

8. Distribuciones asociadas a la normal

Las distribuciones que vamos a definir en esta sección son distribuciones que
aparecen de modo natural en el muestreo de poblaciones normales y, en
consecuencia, tienen una gran aplicación en E tadística.

DEFINICIÓN: sean X 1 , Xn variables aleatorias independientes, todas con


... ,
distribución N(O; 1). La distribución x2 de Pearson con n grados de libertad
( abreviadamente x;) es la distribución de la variable aleatoria

n
LX¡
i= 1

DEFINICIÓN: sean Y X 1 ... , X n variables aleatorias independientes todas ellas


con distribución N(O; 1). La distribución t de Student con n grados de libertad
( abreviadamente tn) es la di tribución de la variable aleatoria
82 ESTADISTICA APLICADA

y
J+, :Ef- 1X¡
DEFINICIÓN: sean X 1 , ••• , X m• Y L• ••• , Yn variables aleatorias independientes,
todas con distribución N(O; 1). La distribución F de Fisher-Snedecor con m y n
grados de libertad ( abreviadamente F"' .") es la distribución de la variable alea-
toria
; :E:". 1 X¡
f.- :E\'=1 Y?

9. Distribución normal moltivariante

La clistribución normal multivariante es el modelo de probabilidad más impor-


tante para vectores aleatorios de tipo continuo. Naturalmente, constituye una
generalización del modelo normal en una dimensión que ya hemos visto.
Vamos a dedicar especiaJ atención a la distribución normaJ bivariante, ya que
los resultados que se obtienen son más fácile de de cribir y de entender. Por
tanto, la siguiente definición se refiere a un vector aleatorio (X, Y):

DEFINICIÓN: la distribución normal bivariante con vector de medias µ = (µ 1 , µ 2 )


y matriz de varianzas y covarianzas

:E - ( at Cov(X, Y))
Cov(X, Y) a~

(que representaremos abreviadamente por N(µ; :E)) es el modelo de probabilidad


para (X, Y) caracterizado por la función de den idad:

Es interesante saber cómo son las distribuciones marginaJe y condiciona-


das que se obtienen a partir de una distribución normal bivariante. E to es,
básicamente, lo que se recoge en las siguientes propiedade :
a) La distribución marginal de X es N(µ = µ 1 ; a = a 1).
b) La distribución margioaJ de Y es N(µ = µ 2 ; a= cr 2).
c) La distribución de la variable aleatoria Y condicionada por X = x es
MODELOS DE PROBABILIDAD MÁS COMUNES 83

siendo p el coeficiente de correlación, que se define de manera análoga al


coeficiente de correlación muestra) r:

Cov(X, Y)
p=

Es intere ante destacar que los valores de la esperanza de esta distribución


condicionada (para los diferentes valores de xe9t) forman una recta, cuya
ecuación es

_ Cov(X, Y) ( _ )
y-µ2+ 2 X µ1
CT 1

Resulta evidente la similitud de esta recta con la recta de regresión de Y


sobre X que se obtenía en Estadística Descriptiva.
Además, la varianza de esta distribución condicionada es a~(l - p 2 ), y
también es evidente su similitud con la varianza residual o error cuadrático
medio de la recta de regresión de Y sobre X.
d) Si el vector aleatorio (X, Y) tiene di tribución N(µ; I:) y Cov(X, Y)= O,
entonces, X e Y son independientes.
En efecto, si Cov(X, Y)= O, la matriz de varianzas y covarianzas I: es de la
forma

I:= (ª¡o o) (1~

y la función de densidad conjunta queda de la siguiente forma

1/:~) (: =:~))
= 1 exp ( - -1 [(x-µ)2 + (y-µ
_ _1 __)2]) 2
Cfo) 2 a1ª2 2 ª1 ª2

= f(x)J(y)

Por tanto, X e Y son independientes.


Al estudiar la independencia de variables aleatorias vimos que i X e Y eran
independientes, entonces, Cov(X, Y)= O. La propiedad que acabamos de com-
probar nos dice que si (X, Y) tiene distribución normal, entonces el hecho de
que X e Y sean independientes e equivalente a que Cov(X Y) = O.
Veamos, finalmente, cuál es la den idad normal multivariante para un
vector aleatorio (Xi, ... , X"):
84 ESTADÍSTICA APLICADA

DEF ICIO : la distribución normal multivariante con vector de medias


µ=(µ 1 , ... ,µ,,)y matriz de varianzas y covarianzas

crr Cov(X 1 , X 2) ...


Cov(~:- XJ)
i:= ( Cov(~ ~, X 2) ~~ .. .

Cov(X 1 , X,J CT,,

(que representaremos abreviadamente por N(µ:, I:)) es el modelo de probabilidad


para (X 1 , .. . , X J caracterizado por la función de densidad:

f(x 1 , ... , x,,)= r:;::,1 ~ exp ( - -21 (x 1 -


(y 2n)" v II:I
µ1 , . .. , x 11 - µJr.- 1 ( X¡ -
:
µ 1))
x,, _ µ,,

10. Ejercicios

l. Suponiendo que la probabilidad de que un niño que nace ea varón e


0,51, hallar la probabilidad de que una familia de 6 hijo tenga.
a) por lo menos una niña,
b) por lo menos, un niño,
c) por lo meno , do niños y una niña.

2. na compañía de seguros con 10.000 asegurados halla que el 0,005 % de


la población fallece cada año de un cierto tipo de accidente.
a) Hallar la probabilidad de que la compañía tenga que pagar a má de
tre asegurados, por dicho accidente, en un año determinado.
b) ¿Cuál e el número medio de sinie tro por año?

3. La probabilidad de que un individuo tenga una reacción alérgica al


inyectarle un suero es 0,001. Hallar Ja probabilidad de que, entre 2.000
individuo tengan reacción alérgica:
a) exactamente tres,
b) más de 2.

4. El número de erratas por página en un libro e upone que sigue una


distribución de Poisson. En una muestra de 95 páginas se han ob ervado
la iguientes frecuencias

Número de erratas: O 1 2 3 4 5
Frecuencia: 40 30 15 7 2 1
MODELOS DE PROBABILIDAD MÁS COMUNES 85

Hallar la probabilidad de que en una página tomada al azar haya alguna


errata.

5. Una máquina produce varillas metálicas. Las longitudes siguen una nor-
mal con µ= 19 8 cm. y a= 5 mm. La normativa exige que la longitud de
la varillas se sitúe entre 19,5 y 20 5 cm. ¿Qué porcentaje de las varillas
satisface la normativa?

6. Un canal de comunicación recibe impulsos independientes a razón de 200


impulsos por microsegundo. La probabilidad de un error de transmisión
es de O001 para cada impulso. Calcular las probabilidades de los siguien-
tes suce os:
a) No hay ningún error en un microsegundo.
b) Hay exactamente un error en un microsegundo.
e) Hay al menos un error en un microsegundo.
á) Hay exactamente dos errores en un microsegundo.

7. Por un canal de comunicación se transmiten mensajes compuestos por


dos signos: cero y uno. Debido a la perturbaciones en la transmisión,
cada signo se recibe correctamente con probabilidad 0,7. Para aumentar
la probabilidad de una recepción correcta, cada signo se transmite cinco
veces, interpretándose, por parte del receptor, que el signo transmitido es
el más frecuente entre los cinco signos recibidos.
a) Hallar la probabilidad de que un signo transmitido por este método
sea interpretado correctamente por el receptor.
b) Supongamos que se transmiten 10 signos por este método. Hallar la
probabilidad de que al menos 8 de ellos sean interpretados correcta-
mente.

8. La probabilidad de error en la tran misión de un bit por un canal de


comunicación es p= 10- 4 • ¿Cuál es la probabilidad de que se produzcan
más de dos errores al transmitir un bloque de 1.000 bits?

9. El 2 % de los coche que circulan por el carril BUS-VAO de la N-VI


llevan 1 ocupante, el 60 % lleva 2 y el 38 % restante lleva más de 2. El
conductor es un hombre en el 70 % de los coches que llevan 1 ocupante,
en el 80 % de los que llevan 2 ocupantes y en el 40 % de los que llevan
más de 2 ocupantes.
a) Se elige un coche al azar y el conductor re uJta er un hombre.
Calcular la probabilidad de que hubiera 2 ocupantes en el coche.
b) Una pareja de la Guardia Civil de Tráfico detiene 200 coche al azar.
Calcular la probabilidad de que tenga que poner como mucho una
multa (sólo está permitido que circulen los coches con 2 o más ocu-
pantes).
86 ESTADÍSTICA APLICADA

10. En una gran ciudad, el 60 % de la población fuma, el 6 % tiene bronquitis


crónica, y el 4 % fuma y padece bronqwti crónica.

a) Hallar la probabilidad de que un individuo elegido al azar tenga


bronquitis crónica o sea fumador.
b) Elegimos al azar 120 personas de la ciudad. Hallar la probabilidad de
que má de 80 de ellas sean fumadore .
e) Elegimos aJ azar 200 individuos de e ta gran ciudad. Hallar la proba-
bilidad de que no haya más de uno que sea fumador y padezca
bronquití crónica.

11. Un pájaro de cierta especie come mariposas de una población muy


grande. Estas mariposas pueden comer, a su vez, de una planta venenosa,
de manera que si el pájaro come una mariposa envenenada, deja de
comer mariposas ese día. Suponiendo que el 40 % de la población de
mariposas come de la planta venenosa, hallar el número medio de mari-
posas comidas en un día por el pájaro.

12. Un lepidopterista está intere ado en lo ejemplare de una cla e de mari-


posas que constituyen el 15 % de todas las mariposas de la zona. Hallar
la probabilidad de que tenga que cazar 10 mariposa de las que no le
interesan antes de encontrar:

a) un ejemplar de la clase deseada,


b) tre ejemplare de la cla e deseada.

13. Cierto individuo valora como factor decisivo para la compra de un coche
el con umo de ga olina. Debe decidir entre dos modelo , A y B.
El fabricante de A afirma que su consumo sigue una distribución
N(8; 5) (en litros/ 100 Km.), mientras que el de B dice que e N(8· 3).

a) Hallar la probabilidad de que el coche A consuma má de 9 litros y la


probabilidad de que B consuma entre 7 y 8,5 litro .
b) Si decide comprar el modelo B calcular la probabilidad de que
ahorre má de 2 litros/ 100 Km.

14. El coeficiente de inteligencia e una variable aleatoria que se distribuye


según una N(lOO· 16). Calcular:

a) La proba bilidad de que un individuo elegido al azar tenga un coefi-


ciente superior a 120.
b) Suponiendo que un individuo con carrera universitaria debe tener un
coeficiente superior a 110, hallar la probabilidad de que un licenciado
tenga un coeficiente superior a 120.
MODELOS DE PROBABILIDAD MÁS COMUNES 87

15. Un botánico ha observado que la anchura, X, de las hojas del álamo


sigue una distribución normal con µ= 6 cm., y que el 90 % de las hojas
tiene una anchura inferior a 7,5 cm.
Hallar a. Hallar la probabilidad de que una hoja mida más de 8 cm.

16. La anchura en mm. de una población de coleópteros sigue una distribución


N(µ; a). Se estima que el 77 % de la población mide menos de 12 mm. y
que el 84 % mide más de 7 mm.
¿Cuál es la anchura media de la población? Hallar a.

17. La duración, en minutos, de un proceso textil sigue una distribución


N(µ, a). El 60 % de las veces dura más de 40 minutos. El 55 % de ellas
dura menos de 50 minutos. Hallar µ y a.

18. Tiramos 400 veces una moneda equilibrada.


a) Hallar la probabilidad de que el número de caras esté comprendido
entre 160 y 190.
b) Hallar el intervalo (a, b) centrado en 200, tal que la probabilidad de
que el número de caras obtenido esté en dicho intervalo sea O95.
19. Se supone que el número de bacterias por mm 3 de agua en un estanque es
una variable aleatoria X con distribución de Poisson de parámetro A= O5.
a) ¿Cuál es la probabilidad de que en un mm 3 de agua del estanque no
haya ninguna bacteria?
b) En 40 tubos de ensayo se toman muestra de agua del estanque
(1 mm 3 de agua en cada tubo). ¿Qué distribución sigue la variable
Y = «Número de tubos de ensayo, entre los 40, que no contienen
bacterias»? Calcular, aproximadamente, P(Y ~ 20).
e) Si sabemos que en un tubo hay bacterias, ¿cuál es la probabilidad de
que haya menos de tres?

20. Un zoólogo estudia una cierta especie de ratones de campo. Para ello,
captura ejemplares de una población grande en la que la proporción de
dicha especie es p.

a) Si p= 0,3, hallar la probabilidad de que en 6 ejemplares capturados


haya, al menos, 2 de los que le interesan.
b) Si p = 0,05, calcular la probabilidad de que en 200 haya exactamente
3 de los que le interesan.
e) Si p = 0,4 calcular ia probablidad de que en 200 baya entre 75 y 110
de los que le interesan.
d) ¿Cuál es el número medio de ejemplares que tendrá que capturar
para encontrar uno de la especie que le interesa, si p = 0,2?
88 ESTADÍSTICA APLICADA

21. La duración en minutos de las cintas de video de cierta marca tiene una
di tribución N((µ = 240; 11 = 10).
a) Elegimos dos cintas al azar e independientemente. ¿Cuál es la proba-
bilidad de que la duración total sea inferior a 490 minutos?
b) Elegimos 100 cintas al azar e independientemente unas de otras.
¿Cuál es la probabilidad de que má de 80 tengan una duración
inferior a 250 minutos?

22. En una población la cantidad de plomo X presente en la sangre de una


persona elegida al azar es una variable aleatoria con función de densidad:

x/300 si 0<x<20
f(x) = { (50- x)/1.350 i 20 < x < 50
O en el resto

a) Cantidad media de plomo en la sangre de los individuos de la pobla-


ción.
b) Elegimos una persona al azar. Probabilidad de que la cantidad de
plomo en su sangre sea inferior a 20.
e) Probabilidad de que en 40 personas elegidas al azar, haya entre 20 y
30 personas con una cantidad de plomo inferior a 20.

23. Un tren de circulación diaria se retrasa independientemente de un día a


otro, un tiempo aleatorio con di tribución exponencial de parámetro 0,25
(el tiempo e mide en minutos):

0,25e- 0 •25 x si x > O


{
f(x) = O en el resto

Calcular la probabilidad de que, a lo largo de un año el tren e retra e


6 o más minutos en más de 50 ocasiones.

24. La capacidad de enrollar la lengua e tá controlada por una pareja de


genes: el gen E, que determina su enrollamiento, y el gen e, que lo impide.
El gen E es dominante, de modo que una persona Ee será capaz de
enrollar la lengua.
En una ciudad grande se sabe que aproximadamente el 40 % no
puede enrollar la lengua y el 60 % sí puede. De estos últimos, el 70 % on
Ee y el 30 % son EE.
a) Si elegimos 200 per onas al azar, ¿cuál es la probabfüdad de que más
de 70 no puedan enrollar u lengua?
b) Un hombre con lengua enrollable e casa con una mujer con lengua
no enrollable, y tienen tres hijos con lengua enrollable. ¿Cuál e la
probabilidad de que el hombre sea EE?
MODELOS DE PROBABILIDAD MÁS COMUNES 89

25. Un fabricante produce varillas y recipientes para insertar la varillas.


Ambos tienen secciones circulares. Los diámetros de las varillas siguen
una N(µ = 1; (J = 0,2); los diámetros de los recipientes siguen una
N(µ= 1,05; (J=0,15). Un ingeniero selecciona al azar una varilla y un
recipiente. ¿Cuál es la probabilidad de que la varilla pueda insertarse en
el recipiente?
26. El peso de las personas de una población sigue una distribución normal
con media 72 Kg. y desviación típica 10.
a) Cuatro personas elegidas al azar en esa población entran en un
ascensor cuya carga máxima es de 350 Kg. ¿Cuál es la probabilidad
de que entre los cuatro superen esa carga máxima?
b) -¿Cuál e la probabilidad de que dos personas, elegidas al azar en esa
población, puedan jugar en un balancín, si sólo pueden hacerlo cuan-
do sus pesos difieren en menos de 5 Kg.?

27. Una .línea eléctrica se avería cuando la tensión sobrepasa la capacidad de


la línea. Si la tensión es N(lOO; 20), y la capacidad es N(140; 10), calcular
la probabilidad de avería.

28. Una máquina produce lámina de madera cuyo espesor sigue una distri-
bución normal con media 10 mm. y desviación típica 1 mm., y otra
máquina produce láminas que siguen una N(µ = 11 · (J = 1). La producción
e almacena en una nave. La cuarta parte de la producción procede de la
segunda máquina.
a) Si inspeccionamos una lámina al azar de la nave, ¿cuál es la probabi-
lidad de que su espesor sea inferior a 12 mm.?
b) Si el e pesor de la lamina inspeccionada es inferior a 12 mm., ¿cuál es
la probabilidad de que proceda de la primera máquina?

29. Un e pecialista en ictiología tropical estudia la supervivencia de un cierto


tipo de pez en aguas contaminada . Despué de una serie de experimen-
to , estima que la vida media de este tipo de pez, después de ser colocado
en aguas contaminadas, es de 90 días con una desviación típica de 20
días. En apariencia la distribución de los días sobrevividos es normal.
¿Cuál es la probabilidad de que un pez que está vivo al cabo de 110 días
sobreviva más de 120 días?
30. Una población de n células cuenta con a individuos que presentan una
anomalía hereditaria. La reproducción se da por partición celular y la
segunda generación se obtiene escogiendo, al azar, 11 individuos entre los
2n obtenidos de la reproducción. Sea X la variable aleatoria «número de
individuos anómalo en la segunda generación».
a) ¿Cuál es la distribución de X? Si n = 7 y a = 3, ¿cuáles son los posibles
valores de X?
90 ESTADÍSTICA APLICADA

b) Paran = 7 y a = 3, caJcular la probabilidad de que la segunda genera-


ción sea igual a la primera.

31. En una plantación de manzanos, el peso en Kg. de la fruta producida


anualmente por cada uno sigue una distribución N(µ= 50; (J= 10).
a) Si tomamos 2 manzano al azar, ¿cuál es la probabilidad de que la
producción anual entre los dos supere los 110 Kg.?
b) Si tomamos 9 manzanos al azar, ¿cuál e la probabilidad de que
exactamente 7 tengan una producción uperior a lo 45 Kg.?
e) Si en otra plantación admitimos una distribución N(µ = 50; cr) para el
peso anual producido por cada manzano, y sabemos que el 80 %
tiene una producción uperior a 40 Kg., ¿cuánto vale O'?

32. En el grupo étnico A, la estatura de las personas (en cm.) sigue una
distribución N(µ = 165; (J = 5), en el grupo étnico B sigue una distribución
N(µ = l70· 0' = 5) y en el grupo Cuna distribución N(µ = l75; (J = 5). Los
tres grupos étnicos son muy numerosos.
a) Si elegimo una per ona al azar del grupo A, ¿cuál e la probabilidad
de que mida más de 160 cm.?
b) Si elegimos 10 personas al azar del grupo étnico A, independiente-
mente unas de otras, ¿cuál es la probabilidad de que entre todas
midan más de 1.600 cm.?
e) En una ciudad, el 50 % de la población pertenece a la etnia A, el
20 % pertenece a la B y el 30 % restante a la C. Si elegimos una
persona al azar en esta ciudad, y mide más de 172 cm., ¿cuál e la
probabilidad de que pertenezca al grupo étnico C?
á) Si elegimos 100 persona al azar del grupo B, independientemente
lina de otras, ¿cuál es la probabilidad de que, al menos, 50 midan
más de 172 cm.?
33. En un examen se plantean 10 cuestiones a las que debe responderse
verdadero o fal o. Un alumno aprobará el examen si al menos, 7 respues-
tas on acertadas. ¿Qué probabilidad de aprobar tiene un e tudiante que
responde todo al azar? ¿Y uno que abe el 30 % de la a ignatura?

34. En un paf ubtropical conviven tres castas religiosas A, B, y C, entre la


que no exi te mestizaje. El 75 % de la población pertenece a la ca ta A, el
20 % a la ca ta By el 5 % a la casta C. Las e taturas en centímetro de
e to individuo siguen unas distribuciones N(µ= 175; (J = 10), N(l 70· 10),
y N(165· 10) para las castas A, B y C, re pectivamente.
a) i elegimos al azar un individuo de la ca ta A, ¿qué probabilidad
habrá de que u e tatura ea inferior a 164 cm.?
MODELOS DE PROBABILIDAD MÁS COMUNES 91

b) Hallar Ja probabilidad de que el primer individuo que nos encontre-


mos tenga estatura inferior a 164 cm.
e) Si el primer individuo que nos encontramos mide efectivamente me-
nos de 164 cm., ¿a qué casta es más probable que pertenezca?

35. Entre los adolescentes de una cierta población, el 10 % de los chicos


padecen obesidad y lo mismo ocurre con las chicas.
Se eligen al azar, e independientemente, 250 chicos y 200 chicas.
a) Calcular la probabilidad de que entre ]as 200 chicas, al menos, 10
sean obesas.
b) Consideremos las variables aleatorias:
X= «Frecuencia relativa de obeso , en 250 chicos»,
Y = «Frecuencia relativa de obesas, en 200 chicas».
Calcular la esperanza y la varianza de X - Y.
Calcular P{X-Y> 0,06} (utilizando la aproximación normal).

36. Una compañía de petróleo tiene un contrato para vender grasa en enva-
se de 500 gramo . La cantidad de grasa que la máquina de llenado pone
en los enva es sigue una normal con la media que el encargado elija y
a=25. ¿Qué valor medio deberá elegir el encargado si la compañía no
desea que le rechacen más del 2 % de los envases por tener un peso por
debajo de lo especificado?.

37. Un distribuidor almacena tela a fáltica en una nave. El 70 % proceden


de la fábrica A y el 30 % restante de la fábrica B.
El porcentaje de asfaJteno de las telas asfálticas procedentes de A
igue una di tribución N(µ = 30; a = 3). El porcentaje de asfalten o de las
telas asfálticas procedentes de B tiene una distribución N(µ = 35; a= 2).

a) ¿Cuál es la probabilidad de que una tela asfáltica producida en la


fábrica A tenga un porcentaje de a falteno situado entre 28 y 34?
b) Si una tela aslfáltica elegida a1 azar en la nave tiene un porcentaje de
asfalteno superior a 34, ¿cuál es la probabilidad de que haya ido
fabricada en A?

38. Una máquina de envasado llena aco de fertilizante de aproximada-


mente 30 Kg. La «cantidad de fertilizante por saco» igue una distribu-
ción N(µ == 30· a= 1).
a) Se desea que la cantidad de fertilizante por saco esté entre 29 y
31 Kg. Calcular la probabilidad de que esté dentro de esos límite .
92 ESTADÍSTICA APLICADA

b) Una empre a realiza un pedido de 80 de esto aco de íertilizante.


Calcular la probabilidad de que más de 50 e tén dentro de los límües
indicado.

39. Una in pección de ga olinera toma mue tras de un surtidor con un


volumen illdicado en el medidor de 10 litro . Se e tima que, debido a
errores de medición aleatorio , la cantidad reaJ de ga olina servida en
estas muestras sigue una distribución N(µ = 10; a= O 1).
a) Calcular la probabilidad de que, en tres mue tra independiente ,
baya exactamente en dos de ellas meno de 9,9 litros.
b) Una gasolinera tiene tres surtidores. Uno de ellos está trucado de
manera que, para las mue tra mencionadas, la cantidad real de
gasolina ervida igue una N(µ = 9,9; a = O,l). La inspección elige aJ
azar un urtidor de esta gasolinera y toma tre muestras del surtidor
elegido. La cantidad real de estas muestras resulta ser menos de 9,9
litros en exactamente dos de ellas. Calcular la probabilidad de que el
surtidor elegido sea el trucado.

40. La inten idad de un impul o igue una variable aleatoria, X, cuya función de
distribución es

O si x< O
{
F(x)= x /9 i O~x<3
2

1 i x~3

a) Calcular la inten idad media del impu1 o.


b) Si medimos 90 impulsos independientes, ¿cuál e la probabilidad de
que exactamente 3 tengan una inten idad inferior a O3?

41. En 'toda la Unión Europea los huevos se clasifican en cuatro categorías,


dependiendo del peso, X, que tienen:
S (pequeño ): meno de 53 gr.
M (medianos): entre 53 y 63 gr.
L (grandes): entre 63 y 73 gr.
XL ( upergrandes): más de 73 gr.

En una central huevera e reciben huevos de dos granjas: el 30 % de


los huevo procede de .la granja A y el 70 % re tan te de la granja B. En la
granja A el pe o X de los huevo igue una N(µ=6l' a = 8); en la granja
B, igue una (µ = 65; a = 8).
a) Se elige un huevo al azar en la central huevera re ultando er de
tamaño M. ¿Cuál es la probabilidad de que proceda de A?
MODELOS DE PROBABILIDAD MÁS COMUNES 93

b) Se eligen 6 huevos al azar de la granja A. ¿Cuál es Ja probabilidad de


que exactamente 2 sean de tamaño S?
e) Se eligen 200 huevos al azar de la granja B. ¿Cuál es la probabilidad
de que entre 50 y 95 sean de tamaño L?
d) Se eligen al azar 12 huevos de la granja A. ¿Cuál es la probabilidad
de que en total, pe en má de 720 gr.

42. En una empresa que fabrica componentes electrónicos se inspeccionan 50


componentes al final del día; si má de 1 es defectuo o, se revi a el
proceso de producción en busca de posibles averías. Un determinado día,
el 4,8% de la producción total resulta defectuosa. ¿Cuál es la probabili-
dad de que se decida revisar el proceso de producción después de la
inspección?

43. Lo lavabos de unos servicios son más utilizados cuanto más próximos
están a la puerta. Así, el lavabo número 1 (el más cercano a la puerta)
es utilizado con probabilidad 1/2, el lavabo número 2 con probabilidad 1/4,
el número 3 con probabilidad 1/8, y el número 4 con probabilidad 1/8.
a) Consideramos 3 personas que actúan independientemente. Hallar la
probabilidad de que alguno utilice el lavabo número 4.
b) Consideramos 100 per onas que actúan independientemente. Hallar
la probabilidad de que más de 20 personas (de las 100) utilicen el
lavabo número 2.

44. La producción anual en una fábrica es una variable aleatoria X con


di tribución N(µ, a). El 90% de lo año la producción es inferior a 1.300
y el 40% de lo año e uperior a 1.100. La producción es independiente
de uno año a otro .
a) Valor de µ.
b) Valor de e1.
e) Probabilidad de que la producción anual ea superior a 1.000.
d) Probabilidad de que en 10 años la producción total sea inferior
a 10.000.

45. Los porcentaje de lo di tinto grupo anguíneo en una gran ciudad


on lo iguiente :

Grupo O: 45 %.
Grupo A: 40 %.
Grupo B: 10 %.
Grupo AB: 5 %.
94 ESTADÍSTICA APLICADA

A su vez, los porcentajes para el factor Rh son:


Rh positivo: 80 %.
Rh negativo: 20 %.
Se supone que el grupo sanguíneo y el factor Rh actúan independien-
temente.
a) ¿Cuál e la probabilidad de que en 300 personas tomadas al azar en
la ciudad, baya menos de 95 con sangre O positiva?
b) ¿Cuál es la probabilidad de que, en 150 personas tomadas al azar en
la ciudad, haya por lo menos una con sangre AB negativa?
e) Vamos entrevistando per onas aJ azar hasta encontrar 3 personas
con sangre A. ¿CuáJ es la probabilidad de que, para lograr esto,
necesitemos entrevistar a 12 personas?

46. a) La cantidad (en mg.) de un determinado contaminante que un coche


de pequeña cilindrada expele a la atmósfera cada 100 Km. es una
variable aleatoria X con distribución N(µ = 20; a= 3). Si 10 coches de
e te tipo (que admitiremos que actúan independientemente) recorren
100 Km. cada uno, calcular la probabilidad de que la cantidad total
de contaminante baya sido inferior a 210 mg.
b) En el ca o de coches de cilindrada media, la cantidad de contaminan-
te arrojada cada 100 Km. es una variable aleatoria Y con distribución
N(µ; a) (con 1l y a desconocidos). Si abemos que el 80 % de los
coche de e te tipo expelen más de 25 mg. y el 60 % meno de 30 mg.
(siempre cada 100 Km.), ¿cuánto valen µ y a?

47. En una población, la cantidad de plomo, X, presente eo la angre de una


per ona sigue una distribución N(µ = 30; a= 10). Una cantidad superior a
53 se considera extremadamente alta. Para hacer un estudio elegimo
personas al azar independientes unas de otras.
a) Se eligen 7 personas al azar. Probabilidad de que, al meno , una de
ellas pre ente una cantidad de plomo extremadamente alta.
b) Se eligen 5 personas al azar. Probabilidad de que la suma de sus
cantidades de plomo en sangre sea superior a 140.
e) Probabilidad de que la diferencia de cantidad de plomo en angre
entre dos personas ea inferior a 10.
7
Muestreo aleatorio

1. Introducción

El objetivo básico de Ja Estadística es estudiar, de un modo aproximado,


alguna característica de una población, a partir del conocimiento de cómo es
esa característica en una muestra de elementos de la población. Naturalmente,
esto sólo tendrá sentido cuando esa muestra sea «representativa» de la pobla-
ción que se quiere estudiar. Por supuesto, esta «representatividad» puede
definirse de muchas maneras distintas. Cada una de estas definiciones nos
llevaría a un concepto diferente de muestra. La definición que vamos a consi-
derar en este capítulo (y que utilizaremos en los sucesivos) e la más sencilla y
habitual.

2. Conceptos básicos

Nuestro objetivo básico será el estudio de una característica numérica X de


una población. Si esta característica X es de tipo discreto, será considerada
como una variable aleatoria cuya distribución viene dada por una función de
masa P; si X es de tipo continuo, será considerada como una variable aleatoria
cuya distribución viene dada por una función de densidadf Como todo esto es
muy largo de decir, lo que diremos, habitualmente, es que estamos estudiando
una población X con función de masa P (o función de densidad fl.
Cuando queramo observar lo que vale esa característica X en n elementos
de la población, extraeremos una muestra «representativa» definida de la
iguiente manera:

D EFfNICióN: una muestra aleatoria de tamaño n de una población X con función


de masa P ( o función de densidad f) es un vector aleatorio (X 1 , ... , X") donde:

a) La distribución marginal de cada X¡ viene dada por P ( o por f ),


b) X 1 , . . . X n son independientes.

95
96 ESTADÍSTICA APLICADA

Conviene analizar detenidamente una erie de aspectos de e ta definición


formal de muestra aleatoria:
a) x;
representa el valor de la característica X en el elemento i-ésimo de
la mue tra.
b) Decir que la distribución marginal de cada X¡ viene dada por P (o por J)
significa, de manera informal, que todos los elementos de la población
tienen la misma oportunidad de aparecer en la muestra. Dicho de otra
manera: la probabilidad de que un valor aparezca en la ob ervación
i-é ima depende sólo de la probabilidad que tiene e e valor en la
población. Esto hace que la muestra sea «representativa».
e) Suponer que las observaciones X 1 , . .. Xn son independientes es có-
modo para el de arrollo teórico del modelo de muestreo. Esta indepen-
dencia la podemos entender de do manera : de un modo exacto,
significa que cada vez que observamos un elemento lo devolvemos a la
poblacióD" de una manera aproximada, significa que el tamaño de la
población es muy grande en comparación con el tamaño de la muestra
de tal modo que la composición de la población se altera muy poco al
faltarle algunos elementos (en la práctica, este es el caso habitual).
á) Finalmente indiquemos que hay otros conceptos de «muestreo» aun-
que vamos a limitarno al que e acaba de definir.
Según e de prende de la definición, la función de roa a (o función de
densidad) de la muestra aleatoria (X 1 , . . . , X n) viene dada por:
Caso discreto: P(x 1 , . . . xn) = P(x 1 ) ..• P(x ,.).
Ca o continuo: f(x 1 , •.. , x,,)= f(x 1 ) •.. f(x 11).
Por upue to, P (o f) no es conocida (si fuera conocida, el problema dejaría
de existir). Precisamente, nuestro objetivo es ganar información obre P (o f) a
partir de las observaciones X 1 , . . . , X""
Una de nuestras primera necesidades será la de simplificar, de alguna
manera, los datos muestrales obtenidos (esta simplificación e puede hacer con
diferente fines). Esta nece idad nos lleva a la definición de e tadí tico:

DEFINICIÓ : un estadístico es una función real T de la muestra aleatoria


(X 1 , ... , XJ
Por tanto, un estadístico es una variable aleatoria T(X 1 , . . . , X,.) y, en
consecuencia, podemos hablar de su e peranza, de u varianza etc. Algunos de
los estadístico más utilizados en todo tipo de situaciones son lo siguiente :

Media mue tral =X= +, E¡'_ 1 X ;


Varianza mu tral = Vx = +, I:7=1 (X; - X) 2 = f. (I:;'=1 X¡ - n.X 2 )
Cua i-varianza muestral = S2 = ;2-r Ef_ 1 (X; - X)2 =~ (E?=i X ¡-n.X 2 )
MUESTREO ALEATORIO 97

La medfa muestral se utilizó ya en Estadística Descriptiva, aunque con un


pequeño matiz de diferencia: la media muestra! en Estadística Descriptiva
corresponde al conjunto concreto de datos que tenemos (se trata, por tanto, de
un valor concreto); ahora, sin embargo, la media muestral es una variable
aleatoria (toma valores diferentes para las posibles muestras). Lo mismo se
puede decir con respecto a la varianza muestra!.
Veamos algunas propiedades importantes de e tos estadísticos:

PROPIEDADES: sea (X 1 , .•• , X") una muestra aleatoria de una población X con
esperanza µ y varianza u 2 • Entonces:

a) E[X]=µ
b) V(X)=~
c) E[S2] = u2
d) E[Vx]=~u2

En efecto:

a)
_ [1 ¿ J= -1¿
E[X]=E -
n

n 1
E[X¡]= - (nµ)=µ
n i= 1 n i- 1 n

b)
- (1 ¿ = 1 ¿
V(X) = V -
n

)
2
n 1 <J2
V(XJ = 2 (nu 2 )= -
n ;- 1 n i= 1 n n

=~
n 1 ;- 1
¿
1 E [ n (X; - µ)2+n(X - µ)2+2(µ-X) ¿n
i- 1
(X;-µ) J
= ~ E [ ± (X¡-µ)2-n(X-µ) 2 ]
n 1 i- 1

=
n
~l (.± r= l
E [(X; - µ)2] - nE [(X - µ) 2 ] )

= -1- ( nu 2 - n - (J2) = u 2
n- 1 n

d) E[Vx]=E[!
n
±
¡. 1
(X; - X) 2 ]=E[n - l s2J=n - l u2
n n
98 ESTADÍSTICA APLICADA

3. Inferencia paramétrica
Como e ha indicado anteriormente, la función de masa P (o la función de
densidad f) de la característica X que se quiere estudiar, no es conocida (al
menos perfectamente). Sin embargo, en la mayor parte de las situaciones que
consideraremos, tendremos un conocimiento parcial de P (o f). Así, será
habitual suponer que la población se adapta bien a un determinado modelo de
probabilidad (binomial, Poisson, normal, ...), y lo único que nos falta por
conocer es el valor de algún parámetro (p en el caso binomial, 2 en el modelo
de Pois on ...). Siempre que estemo en una situación de este tipo, nos estare-
mos enfrentando a algóo problema de Inferencia paramétrica. La notación
general para e te tipo de problema e la siguiente:
El parámetro, cuyo valor desconocemos puede ser de una o más dimensio-
nes y lo representaremos en general, por e; el conjunto de po ibles valores del
parámetro ese representa por 0 y recibe el nombre de espacio paramétrico. Si
la caracterí tica que estamos e tudiando es de tipo discreto, su función de masa
e representará por P 0; si e de tipo continuo, su función de densidad e
repre entará por fo. La función de masa (o función de densidad) de la muestra
aleatoria viene dada, en estos casos, de la siguiente forma:
Caso discreto: Po(x 1, ... , x") = Po(x 1 ) ... Po(x,,).
Caso continuo: f 0(x 1 ... , x,J= f 0(x 1 ) ... fo(x,J.
La Inferencia paramétrica e divide en tre grandes parte , dependiendo de
la naturaleza del problema que intentemos resolver y del tipo de solución que
demo : estimación puntual, estimación por intervalos de confianza y contra te
de hipóte is paramétricas. El planteamiento y los objetivos de cada una de
estas parte erán el objeto de estudio de lo próximos capítulos.
Antes de finalizar este capítulo, e tudiaremos el concepto de estadístico
uficiente, ya que este concepto es aplicable a los diferentes problema de la
Inferencia paramétrica.

4. Estadísticos suficientes
Sea (X 1 , ... , X,,) una muestra aleatoria de una población X con función de
ma a P 0 (o función de densidad f 6). Es interesante buscar estadísticos eocillo
que con erven toda la infonnación sobre eque lleva la mue tra (X 1 ... , X,,); la
razón e encilla: si, por ejemplo, la media muestra! almacena tanta informa-
ción sobre el parámetro desconocido e como una muestra con 1.000 ob erva-
cione , obviamente, e más cómodo manejar sólo el valor de la media muestra!
que manejar los 1.000 dato de que e di pone. El problema e preci ar el
significado de «almacenar tanta información sobre e como la muestra». Para
motivar intuitivamente la definición que vamo a dar de estadístico suficiente,
consideremos una ituación e pecialmente sencilla:
MUESTREO ALEATORIO 99

La probabilidad de obtener «cara» al lanzar una moneda es un valor


desconocido e (O< e< 1). Si al suceso «cara» le asignamos el valor 1, al suceso
«cruz» le asignamos el valor O, y lanzamos la moneda n veces, lo que obtene-
mos es una muestra aleatoria (Xi, ... , Xn) de una población con función de
masa
P e(x) = ex(l - 8) 1 - x x = O, 1 (Distribución de Bernoulli)

La función de masa de la muestra es

En este caso sencillo, parece claro que el estadístico


11

T(X 1 , ••. ,X,,)=¿ X¡=«número de caras obtenidas»


i- J

contiene tanta información sobre 9 como la descripción detallada del resultado


de los n lanzamientos. En realidad, sólo estamos prescindiendo del orden en
que e han obtenido las «caras» y la «cruces», y esto oo parece muy relevante.
Observando que T tiene una distribución B(n; 9), será fácil obtener la probabi-
lidad de una muestra (x 1 ••• , x,,) condicionada por el hecho de que e] estadí ti-
co T ha tomado el valor t (han salido t caras en los n lanzamientos):

_ )- P(T = tlx 1 ... , x,,)Po(x 1, .• • , x,,)


P( x 1 , ... Xn
1
T- t - ( )
P 0 T=t
P(T = t IX¡, . . . x,,) 91:7_, X¡ (1 - 9t - :E7-, X¡
(7)(:}'(1 - (:}t - '

O'U - e~ - , _ 1 . ,, _
= { c·iwcI - >" , - m s, L¡- 1 x¡ - t
O si I:1= 1 x¡#t

Es decir la di tribucióo de la muestra (X 1 ,


.. • , X,J condicionada por T= t no
depende del parámetro 9. El significado intuitivo de este resultado es que lo
que queda en la muestra, una vez extraída la información contenida en T, no
no va a decir ah olutamente nada sobre e. Este resultado no da la idea para
definir formalmente un e tadístico uficiente:

D EFINICIÓN: ea (X 1 . . . X,,) una muestra aleatoria de una población X con


función de masa PO ( o función de densidad fo). Un estadístico T es suficiente
para ecuando la distribución de (X 1 , ... , X,,) condicionada por T = t no depende
de e.

E ta definición es enormemente incómoda de usar ya que, primero, hay


que conjeturar qué estadístico T puede ser suficiente (cosa que no iempre es
100 ESTADÍSTICA APLICADA

fácil) y, despué , obtener la di tribución condicionada correspondiente (cosa


que casi siempre es difícil). Afortunadamente, hay una caracterización alterna-
tiva muy sencilla:

PROPIEDAD: sea (X 1 , ... , X n) una muestra aleatoria de una población X con


función de masa P O ( o función de densidad fo). Un estad{stico T es siificiente para
e si, y sólo si,
P0(x 1 , •.. , x,,)=g(T(x 1 , ... , x,,), O)h(x 1 , ... , x,.)
(en el caso continuo: f 0(x 1 , .. ., x,,)=g(T(x 1 , .•., x,.), 8)h(x 1 ... , x ,,))

Incluso, en el encillo ejemplo del lanzamiento de la moneda, la comproba-


ción habría sido má rápida:

siendo:

T(x 1 , .•. , x,,) = ¿" X¡

g(T(x1, ... x,,), e) = (JT(x, •...• ·"•> (1 - 0)'' - T(x,..... x.)


h(x 1 ..• x,.) = 1
8
Estimación puntual

l. Introducción
La estimación puntual es el primer problema que vamos a analizar dentro de
la Inferencia paramétrica. Supondremos, por tanto, que (X 1 , .. . Xn) es una
mue tra aleatoria de una población X con clistribución dada por la función de
masa Pe (o por la función de densidad.fo), donde e es un parámetro cuyo valor
desconocemos, pero que está dentro de un conjunto 0 que llamaremos espacio
paramétrico. Nue tro objetivo en la e timación puntual es decidir, en función
del modelo que estamos aceptando para la población y en función de la
muestra concreta (x 1 , ... , xn) que hayamo obtenido cuál es el valor de 8 que
nos parece más plausible (en algún sentido). s decir, vamos a elegir un punto
del espacio paramétrico que utilizaremo como estimación de e (de ahí el
nombre de estimación puntual).

2. Conceptos básicos
En con ecuencia, lo primero que vamos a definir es lo que entenderemos por
e timador puntual de una función g(O) del parámetro:

D FINICIÓ : sea (X 1, ... , X") una muestra aleatoria de una población X con
función de masa Pe (o función de densidadf0 ), donde 0E0. Un estimador puntual
de g(B) es una función T que a cada posible muestra (x 1 , ... , x,.) le hace correspon-
der una estimación T(x 1 , • • • , xJ de g(8).

Observaciones:

a) Lo que vamos a estimar habitualmente es e(es decir, g(O) = O). Pero en


alguno ca o , podría interesarno estimar alguna función de e (por ejem-
plo 82). Por e ta razón, e preferible hablar de e timadore puotuale de g({}),
ya que además no supone ninguna complicación adicional.

101
102 ESTADÍSTICA APLICADA

b) Evidentemente T(X 1 , ... , X,J es una variable aleatorja (o un vector


aleatorio, en el caso de que g(8) ea de más de una dimensión). En realidad, un
estimador puntual no es más que un estadístico con una misión especial:
acercarse lo más posible al verdadero valor de g(8). Según nos convenga,
utilizaremos la notación T o T(X 1 ... , X 11).
e) La definición que hemos dado de estimador puntual es enormemente
general y engloba tanto estimadores muy razonables como estimadores com-
pletamente absurdos. Por este motivo, lo siguiente que vamo a hacer e
indicar propiedades deseables para un estimador razonable, eliminando, de
e te modo e timadores indeseables.

3. Error cuadrático medio. Estimadores insesgados


Supongamos, por ejemplo, que (X 1 , .•. , X,,) e una mue tra aleatoria de una
población X con distribución N((J; ( l = 1), donde ees el parámetro de conocido
que queremos estimar. Intuitivamente, T 1 (X 1 .. . X,,) = X parece un estimador
puntual de e mucho más razonable que T2 (X 1 , ... , X,,) = 3. Por supuesto, los
do verifican la definjción de estimador puntual, pero mientras el primero
proporciona e timaciooe que posiblemente, se acerquen bastante al verdade-
ro valor del parámetro (ya que es de esperar que la media mue tral e «parez-
ca» a la esperanza ede la población), el segundo desprecia la muestra obtenida
y, salga lo que alga, decide dar como estimación de e el valor 3. En este
ejemplo, el entido común es uficiente para llegar a la conclusión de que T2 es
un estimador indeseable. Sin embargo, en otras situaciones, las cosas no están
tao clara y por e o conviene dar medidas de la efectividad de un estimador.
Una forma bastante razonable de medir esta efectividad es mediante su error
cuadrático meclio:

D EFINTCIÓN: el error cuadrático medio de un estimador T, para estimar g(8), se


define como:

El objetivo de la definición está bastante claro: un estimador será má


efectivo cuanto má pequeño ea u error cuadrático medio. El error cuadráti-
co medio de un e timador T puede expre ar e también, de la iguiente forma:

E0 [(T - g(8))2] = E0 [(T- E0 [T] + E0 [T] - g(8)) 2 ]


= Eo[(T - Eo[T])2] + (E0 [T] - g(e)) 2
= V0 (T) + (Se go (T)) 2

siendo Se go (T) = E0 [T] - g(O).


ESTIMACIÓN PUNTUAL 103

De este modo, el error cuadrático medio se puede reducir bien reduciendo


la varianza del estimador, o bien reduciendo su sesgo para estimar g(8). Una
manera de eliminar completamente el sesgo es trabajar con estimadores inses-
gados:

DEFINICIÓN: un estimador Tes insesgado (o centrado) para estimar g(fJ), cuando


verifica:
Eo [7] = g(fJ) para todo (Je E>

Naturalmente, si consideramos sólo estimadores insesgados, estamos elimi-


nando otros estimadores que podrían ser valiosos, aunque no sean insesgados.
Una ventaja adicional de los estimadores insesgados es que su error cua-
drático medio es simplemente Vo(T). De este modo, si trabajamos solamente
con estimadores insesgados, deberíamos buscar aquel que tenga varianza míni-
ma. Este es un problema muy interesante, pero en el que no vamos a profundi-
zar, ya que su nivel es excesivo para nuestros objetivos.
Es sencillo encontrar ejemplos de estimadores insesgados:

EJEMPLO: sea (X 1 , ..• , Xn) una muestra aleatoria de una población X con distri-
bución N(¡.t; o"). En este caso, (} = (¡.t; o"), y tenemos:

T1 (Xi, ... Xn)=X es un estimador insesgado de g 1 (8)=µ, ya que E9 [X] = µ.


T2 (X 1 , ... , X,.) = S 2 es un estimador insesgado de g 2 (8)=u 2 , ya que Eo[S 2 ]=u2 .

4. Estimadores consistentes
Otra cosa que parece bastante razonable exigir a un e timador T es que,
cuanto mayor sea el nú,mero n de observaciones, más e acerque la estimación
T(x 1 , . . . x al verdadero valor de g(8). Esta idea se plasma en la siguiente
11)

definición:

D EFINICIÓN: un estimador Tes consistente para estimar g(O), cuando para todo
eee:
lim FT(t) = O para t<g(O)
{ n ... co
lim FT(t)=l para t>g(8)
n-co

donde F 7 es La función de distribución de T(X 1 . .. , X 11).

El significado intuitivo de la definición es que, a medida que el tamaño


muestra! n aumenta la di tribución de la variable aleatoria T(X 1 ... X 11) se
104 ESTADÍSTICA APLICADA

concentra cada vez más alrededor del verdadero valor de g(8) (sea cual sea) y,
en consecuencia, las estimaciones T(x 1 , .•• , xn) cada vez se acercan más a dicho
valor.
Calcular la función de distribución de T suele ser difícil. La siguiente
propiedad nos da un método alternativo para comprobar si un estimador es
consistente. Dicho método es fácilmente aplicable en muchas ocasiones.

PROPIEDAD: si T es un estimador que verifica

a) lim E9 [T] = g(O), para todo 8 E @,


n...., 00

b) lim Vo(T)=O, para todo 8E0,


n-+ a:,

entonces, T es consistente para estimar g(O).

EJEMPLO: supongamos nuevamente que (X 1 , ... , Xn) es una muestra aleatoria de


una población con distribución N(µ; o'), siendo O= (J.t; o'). EL estimador
T1 (X 1 , ... , Xn)=X es consistente para estimar g 1 (8)=µ ya que:

a) lim E 0 [T1 ]
11 -+oo
=11-
lim E 0 [X] = lim µ = µ
co n-.oo
2
b) lim V0 (T1 )= lim Vo(.X) = lim ~ =O
11 -+oo n .... oo n -+(O n

5. Métodos de construcción de estimadores


Esta sección estará dedicada al aspecto que má nos interesa de la estimación
puntual: dar métodos sencillos y razonables de construcción de estimadores
que puedan aplicarse en cualquier situación que nos encontremos. Empezare-
mo con el método de los momentos, para pasar, posteriormente, al método
más ampliamente utilizado: el método de máxima vero imilitud.

D EFINICIÓ : ea (Xi, ... , X,,) una muestra aleatoria de una población X con
función de masa PO (o función de den idad f 0) donde e=(8 1 .. . OJ. El estimador
de O por el método de los momentos es el formado por los valores O1 ... , Ok que se
obtienen al resolver en e1 , . . . (:)k el sistema de ecuaciones:

1 n
E0 [XJ= - ¿ X¡
ni= t
ESTIMACIÓN PUNTUAL 105

Observaciones.
a) La justificación del método de los momentos es sencilla: el método se
basa en la intuición de que los momentos de la población (E 0 [X], E0 [X 2 ], ••.)
se «parecerán» a los respectivos momentos de la muestra (i :!: X;, ; :!: X¡, ...) En
consecuencia, consideramos k ecuaciones derivadas de esta intuición (tantas
como componentes tiene el parámetro que necesitamos estimar).
b) Hay que señalar, no obstante, que el método de los momentos presenta
serios inconvenientes. Por ejemplo, es perfectamente posible que la estimación
obtenida corresponda a valores que están fuera del espacio paramétrico. Ob-
viamente, esto último no es muy aconsejable.
El método más ampliamente utilizado para construir estimadores es el
método de máxima verosimilitud. Está basado también en una idea muy
sencilla, y no presenta inconvenientes serios como le ocurre a veces al método
de los momentos. En el ejemplo siguiente vemos ]as idea básicas que nos
llevarán a la definición general.

EJEMPLO: sabemos que en una urna hay 4 bolas (que pueden ser blancas o
negras). Por tanto la proporción (} de bolas blancas es desconocida, y puede
tomar los valores (} = O, 1/4, 1/2, 3/4, l. Para obtener más información, extraemos
de la urna 2 bolas con reemplazamiento (de esta forma, las observaciones son
independientes). Supongamos que la primera bola observada es blanca y la segun-
da negra, de modo que la muestra obtenida es (B, N); la probabilidad que
teníamos de obtener precisamente esta muestra, dependiendo de la proporción (}
de bolas blancas de la urna era:

o si 8=0
3/16 si (}= 1/4
P 0 (B, N) = 4/ 16 si 8 = 1/2
3/ 16 si 8 = 3/4
o si 8 = 1

La idea del método de máxima verosimilitud es muy sencilla y muy m zonable:


tomar como estimación de (} aquel valor que daba más probabilidad a la muestra
obtenida. Por tanto, si la muestra obtenida era (B N), la estimación de máxima
verosimilitud sería é= 1/2.

Esto será lo que haremos en general:

DEFINJCJÓ : sea (X 1 ... , X,,) una muestra aleatoria de una población X con
función de masa P 0 (o función de densidadf0), donde 8= (8 1 , ... , 8k). EL estimador
de máxima verosimilitud de 8 es el formado por los valores (0 1 , .. . , ék) que
max imizan lo que llamaremos función de verosimilitud de la muestra (x 1 , ... , x,.)
obtenida:
106 ESTADÍSTICA APLICADA

) p 0 (x 1 ) ... P 0 (x,J (caso discreto)


L(B)=L(fJ; x 1 , ... , xn = { r ( ) r ( ,.) ( )
Jo x 1 ···Jo x caso continuo

Observaciones:
a) La función de verosimilitud expresa la probabilidad (o la densidad) que
los diferentes valores de fJ dan a la muestra obtenida. Lo que hacemos, por
tanto, es maximizar esa probabilidad (o densidad).
b) Por la propia definición, la estimación de máxima verosimilitud siem-
pre es un valor del espacio paramétrico (cosa que no siempre ocurre con el
método de lo momento).
c) En muchas ocasiones, la forma más cómoda de encontrar el estimador
de máxima verosimilitud e la siguiente: consideramos lag L(8) en vez de L(fJ)
(ya que es más fácil de manejar, y presenta los mismos máximos y mínimos) y
despejamos () 1 .. . , (}k del siguiente sistema de ecuaciones:

o logL(fJ) = O
f}(}l

Por supuesto bay que tener precaución con e te procedimiento, ya que el


punto crítico obtenido no tiene por qué corresponder a un máximo. También
puede ocurrir que la función de verosimilitud se maximice en un extremo, y no
obtengamo nada con este procedimiento.
e
d) Señalemos, finalmente, que si es el estimador de máxima verosimili-
tud de fJ, entonces, g(()) es el estimador de máxima verosimilitud de g(O). De
esta manera si hemos obtenido que X es el estimador de máxima verosimilitud
e,
de el estimador de máxima verosimilitud de () 2 es X2 .

6. Ejercicios

l. Dada una muestra aleato1ia de tamaño n de una población X , calcular el


estimador de máxima verosimilitud y el del método de los momentos, en
lo iguientes casos:
a) X - Bernoulli de parámetro p.
b) X - Poisson (,l).
c) X-Exponencial (,l); es decir,f;.(x) = ,le- ;.x, para x>O (,l >O).
d) X -N(µ; a), (cr conocido).
e) X -N(µ; a), (µ conocido}.
t) X - N(µ· a).
ESTIMACIÓN PUNTUAL 107

2. El procedimiento que se describe a continuación se utiliza para evitar


respuestas falsas a preguntas delicadas en una encuesta (método de res-
puesta aleatorizada): .
Sea A una pregunta delicada (por ejemplo, ¿evade Vd. impuestos?) y
sea B una pregunta inocua {por ejemplo, ¿su número de D .N.I. es par?).
Se pide al sujeto que lance una moneda en secreto; si sale cara contesta a
Ja pregunta A y si sale cruz, a la B. El encuestador recibe una sola
respuesta (si o no) y no sabe a qué pregunta corresponde.
Si esta prueba se realiza a 1.000 sujetos, y 600 de ellos contestan «sí»,
¿qué porcentaje de individuos se estima que evade impuestos?

3. Sea (X 1 , .. . , X,,) una muestra aleatoria de:

e - x+O Si x>e .
¡;0 (x) = {
O en el resto
ce e9t)
a) Hallar el e timador por el método de los momentos de e.
b) Estudiar si el e timador encontrado en el apartado anterior es inses-
gado para estimar el parámetro 8.

4. Sea (X 1 .. . , X") una muestra aleatoria de

"
fo(x) = {02 exp - 202
( ;x2) s1. x>O
(e>O)
O en el resto

Hallar el estimador de máxima verosimilitud de 8.

S. Sea (X 1 , ... , X,.) una muestra aleatoria de una población con función de
densidad:

fo(x)={ºmO+ l SÍ X>l (8>1)


O en el resto .

a) Estimador de máxima verosimilitud de 8.


b) Estimador de 8 por el método de los momentos.

6. Se toma una muestra aleatoria de tamaño n de una población cuya


función de den idad es:

f(x) = 1 exp [ - (log x ; µ)2] si x>O


X<J jbr. 20'

donde µ puede ser cualquier número real y e¡ es mayor que cero.


Hallar los estimadores de máxima vero imilitud de µ y c¡2 •
108 ESTADÍSTICA APLICADA

7. En una gran piscifactoría hay una proporción desconocida de peces de


una especie A. Para obtener información obre e a proporción, varno a
ir sacando peces al azar.
a) Si la proporción de peces de la especie A es p ¿cuál e la probabilidad
de que el primer pez de la especie A sea el décimo que extraemos?
b) Tres personas realizan, independientemente unas de otras el proceso
de sacar peces al azar hasta encontrarse con el primero de tipo A:
La primera persona obtiene el primer pez tipo A en la décima extrac-
ción.
La segunda persona obtiene el primer pez tipo A en la decimoquinta
extracción.
La tercera persona obtiene el primer pez tipo A en la decimoctava
extracción.
Escribir la función de verosimilitud y obtener la estimación de máxi-
ma verosimilitud de p.

8. Para estudiar la proporción p de caballos afectados por la peste equina se


les va a someter a una prueba. Sabemos que la prueba será positiva si el
animal está enfermo; si está ano, hay una probabilidad 0,04 de que la
prueba resulte positiva.
a) Hallar la relación entre la probabilidad p de estar enfermo y la
probabilidad q de dar po itivo en la prueba.
b) Obtener la estimación de máxima verosimilitud de p si 500 ejempla-
res son sometido a la prueba y resuJta positiva en 95 casos.
e) Si realmente hay un 20 % de caballos afectados por la epidemia,
¿cuál es la probabilidad de que la prueba resulte positiva en, al
meno , 95 ejemplare de los 500?

9 La distancia X entre un árbol cualquiera y el árbol má próximo a él en


un bosque sigue una di tribución de Rayleigb con función de den idad

f 6 (x) = Wx exp( - Ox 2 ) i x;3: 0 (0>0)

a) Obtener Lo e timadore de máxima verosimilitud de e y de


g(fJ) = Eo(X) = (1/2)(n/ fJ) 1 '2, basados en muestras de tamaño n.
b) Obtener el estimador de fJ por el método de los momentos.

10. El co eno X del ángulo con el que e emiten los electrones en un proce o
radiactivo e una variable aleatoria con función de densidad

-1..±h si - l ~ x ~ l
fo(x) = { 0 2 ( - 1~0~1)
en el resto
ESTIMACIÓN PUNTUAL 109

Consideremos una muestra aleatoria (X 1 , ... , XJ de esta variable alea-


toria.
a) Obtener el estimador de (} por el método de los momentos.
b) Calcular la varianza de este estimador y demostrar que es consistente
para estimar fJ.

11. (X 1 , ... , Xn) es una muestra aleatoria de una población con función de
densidad
ie- xfO si x> O
{ (8>0)
fo(x)= O en el re to

a) Obtyner el estimador de máxima verosimilitud de (} y de 02 •


b) Consideramos ahora el estimador T= x 1 \ 2 x 2 • ¿Es iosesgado para
estimar ()? Hallar la varianza de T sabiendo que la varianza de la
población es ()2.

12. La lectura de voltaje dada por un voltímetro conectado a un circuito


eléctrico es una variable aleatoria con distribución uniforme en el interva-
lo ((), 8 + 1), siendo () el verdadero valor (desconocido) del voltaje. Sea
(X 1 , ... , X,,) una muestra aleatoria de lecturas de dicho voltímetro.
a) Demostrar que la media muestra! X es un estimador sesgado de ey
calcular el sesgo.
b) Calcular el error cuadrático medio de X .
e) Obtener a partir de X, un estimador iosesgado de 8.

13. Un comprador solicita un lote de 10 tela asfálticas cuyo contenido de


asfalteno sigue una distribución N(µ = 35; a= 2). ¿Cuál e la probabilidad
de que el contenido medio de a falteno del lote sea inferior a 37?

14. Una variable aleatoria X tiene función de densidad

fo(x) = 2fJe - Ox2 para x>O (8>0)

Hallar el estimador de máxima verosimilitud de ea partir de una


muestra aleatoria (X 1, ... X,,).

15. Consideramos una muestra aleatoria (X 1 , ... X,,) de una población con
función de densidad:

e2 xe- 8x si x>O
fo(x) = { O
en el resto

Hallar el estimador de máxima verosimilitud de fJ.


, ,o ESTADÍSTICA APLICADA

16. Disponemos de una muestra aleatoria (X 1 , ... , X,,) de una población con
función de den idad:

J,(x)-{! si x-;?:-0
en el resto
((1>0)

a) E timador de máxima verosimilitud de 8.


b) E timador de máxima verosimilitud de 1/8.

17. Se obtiene una muestra aleatoria (X 1 , ... , Xn) de la población cuya función
de densidad e :

exo- 1 si xE (O, 1)
fo(x) = { 0 (0>0)
en el resto

a) Hallar un estadístico suficiente.


b) Estimador de máxima verosimilitud de e.
e) E timador de e por el método de los momentos.

18. Supongamos que e realizan n observaciones independientes de una va-


riable aleatoria X con función de densidad:
1

{1i xo - 1
fo(x) = 0
si O.:;;:;x .:;;:; 1
en el resto

a) Obtener el estimador de e por el método de los momentos.


b) Obtener el estimador de máxima verosimilitud de e.
e) Obtener el estimador de máxima verosimilitud de Po(X < 1/ 2).

19. El error (en centigramos) que se comete al pesar un objeto en una balanza
puede considerarse como una variable aleatoria con distribución N(µ = O·
( l = 15).

a) Probabilidad de que el error cometido (en valor absoluto) en una


pesada ea inferior a 20 centigramos.
b) úmero mínimo de pesadas para que el error medio cometido (en
valor ab oluto) sea inferior a 5 centigramo con una probabilidad 0,90.

20. Vamos a clasificar las personas de un país segúo do características: color


de los ojo (claros u oscuros) y sexo (hombre o mujer). Las dos caracte-
rí tica on independientes.
a) Obtenemo una muestra al azar de la población con lo siguientes
re ultado :
ESTIMACIÓN PUNTUAL 111

200 mujeres con ojos claros.


150 hombres con ojos claros.
350 mujeres con ojos oscuros.
300 hombres con ojos oscuros.
Obtener la estimación de máxima verosimilitud de p = P{bombre} y
q = P {ojos claros}.
b) Después de muchas horas de intenso trabajo llegamos a saber con
exactitud que p = 0,4 y q = 0,6. Si tomamos 8 personas al azar de ese
país, ¿cuál es la probabilidad de encontrar alguna mujer de ojos
oscuros? Y si la muestra que tomamos es de 200 personas, ¿cuál es Ja
probabilidad de que haya más de 60 mujeres de ojos oscuro ?
9
Estimación por intervalos
de confianza

l. Introducción

En este capítulo seguiremos trabajando dentro de la Inferencia paramétrica;


es decir, seguiremos suponiendo que (X 1 , ... , Xn) es una muestra aleatoria de
una población X cuya distribución viene dada por una función de masa P6 (o
por una función de densidad j 6), donde e es un parámetro desconocido que
toma valore dentro de un espacio paramétrico 0. La estimación puntual
analizada en el capítulo anterior tiene un problema evidente: si damos un
único punto como estimación del parámetro, esa estimación difícilmente
acertará con el valor exacto del parámetro. Por otra parte, no acertar por
completo, seguramente no nos va a importar demasiado; normalmente, lo
que buscamos es que el verdadero valor del parámetro quede cerca de
nue tra estimación. Esta idea se recogerá perfectamente en la noción de
intervalo de confianza.

2. Conceptos básicos

DEFINICJÓ : sea (X 1 , . . . X") una muestra aleatoria de una población X con


función de masa P 0 (o función de densidadf6), donde 0=(0 1 , . .. , O,). Un estimador
por intervalos de confianza de 01 (al nivel de confianza 1- a), es una función que a
cada posible muestra (x 1 , . . . xn) le hace corresponder un intervalo
(T1 , T2)=(T1 (x 1 , .. . , x,:), T2 (x 1, .. . , x,,)), tal que, para todo fJE®:

La idea de la definición es la siguiente:


Elegimos un nivel de confianza 1- a próximo a 1 (supongamos por
ejemplo, que elegimos l -a= 0,95) y exigimos que la estimación contenga al
verdadero valor de 8¡, en el 95 % de los ca os posibles; es decir, el 95 % de Jas
estimaciones erían buenas y el 5 % restante mala . Obviamente, parece

113
114 ESTADÍSTICA APLICADA

preferible que el 100 % de las estimaciones sean buenas; pero, para conseguir
esto, necesitaríamos que el intervalo de confianza abarcase todo el espacio
paramétrico, y para dar esa estimación no necesitamos obtener ninguna
muestra.
El principal problema de los intervalos de confianza e su construcción. En
dicha construcción intervendrá lo que Uamaremos una cantidad pivotal.

DEFINlCIÓN: sea (X 1 , ... , X,,) una muestra aleatoria de una población X con
función de masa P 0 (o función de densidad/6), donde 0=(0 1 , ... , ()J. Una cantidad
pivota/ para 01 es una función C(X1 , ... , X,,; OJ tal que su distribución no
depende de e.
Una vez obtenida una cantidad pivotal C(X 1 . .. , X f:JJ, el procedimiento
11 ;

que hay que seguir para construir un intervalo estimador será el siguiente:
Elegimos dos valores c 1 y c2 , tales que

Ob érvese que c 1 y c 2 no dependen de O, por ser C(X 1 , ... , X,,; f:JJ una cantidad
pivota!; después, todo lo que tenemos que hacer es despejar 8; de las desigual-
dades c 1 <C(x 1 , .•. , x,,; O;)<c 2 , y habremos obtenido un estimador por interva-
los de confianza para 81 ( e hace notar que la cantidad pivota} debe ser
continua y monótona en OJ
Por tanto, necesitamos obtener cantidades pivotales para los modelos más
importantes.

3. Cantidades pivotales en poblaciones normales


La cantidades pivotales, para el caso en el que el muestreo tiene lugar en
una población con distribución normal se obtienen a partir de la siguiente
propiedad.

PROPIEDAD: sea (Xi, ... , X 11) una muestra aleatoria de una población X con
distribución N(µ · a). Entonces:

n- 1
X"' N(µ ; a/ Jn) -
(J
2-
2 2
S "'Xn - 1

y además, X y S2 son independientes.

Las cantidades pivotales más habituales para este caso on la siguientes:

CANTTDADES PIVOTALES PARA EL CASO DE UNA MUESTRA


ESTIMACIÓN POR INTERVALOS DE CONFIANZA 115

a) Sea (Xi, .. . , X n) una muestra aleatoria de una población X,..., N(µ; u), con
u conocido. Entonces:

X-µ
í.. "'N(O; 1) y es una cantidad pivota[ para µ
u/.._¡n
b) Sea (X 1 , . .. , Xn) una muestra aleatoria de una población X,..., N(µ; u).
Entonces:
X-µ
í.. "'tn - i y es una cantidad pivota/ para µ
S/.._¡n
n- 1
- 2- S2 "'x:- 1 y es una cantidad pivotal para o-2
(1

En realidad, lo único que hay que comprobar es la primera cantidad pivota! de


b); recordando cómo se definía la distribución t de Student, tenemos:

X-µ
uf.fa X- µ
--;=========== ~~-t
J- - s
n-1
1 n- 1
o- 2
2 s;Jn n- l

CANTIDADES PIVOTALES PARA EL CASO DE DOS MUESTRAS

a) Sean (X 1 , . . . , X,,,) e (Y1 . .. , Y") muestras aleatorias independientes de las


poblaciones X"' N(µ 1; u) e Y"' N(µz; u), respectivamente. Entonces:

donde
S2 = (m - 1) St+(n - l)S~
P m+n - 2

puede interpretarse como una ponderación de las cuasi-varianzas muestrales y sr


S~ correspondientes a cada una de las muestras.
b) Sean (X1 , ... X,,,) e (Y1 , .. . Y") muestras aleatorias independientes de las
poblaciones X,..., N(µ 1 · u 1 ) e Y,...., N(µ 2; u 2 ), respectivamente. Entonces:

Srfu¡ . . 2 2
S22 / 0"22 "'Fm- l ; n- i y es una cantidad pwotal para a ifo- 2
116 ESTA DISTICA APLICADA

Para comprobar la cantidad pivota[ del apartado b), basta recordar la defini-
ción de la distribución F de Fisher-Snedecor y tenemos:

_ 1_ m- 1 S¡
m-1 <Ti S¡/af
= s2¡ 2 -F,,, _1: 11 - 1
_ l _ n- 1 s~ 2 <12

n- 1 <1~

LA. comprobación del apartado a) es más laboriosa, y no se abordará.

4. Intervalos de confianza en poblaciones normales

A partir de la cantidades pivotale indicadas en ]a sección anterior, es sencillo


obtener intervalos de confianza para los parámetro de interés, cuando el
muestreo se efectúa en poblaciones normales. Con ideraremo diferentes posi-
bilidades.

PRIMER CASO:

Sea (X 1 , . .. X") una muestra aleatoria de una población X - N(µ; a), con <1
conocido. Entonces:

es un intervalo de confianza para µ (al nivel 1- a), siendo z.. el valor que verifica
P {Z>z..}= a donde Z-N(O; 1).
En efecto, utilizando el hecho de que:

X-¡i
- -N(0· 1)
af.fiz
y es una cantidad pivota[ para µ, tenemos:

X-µ }
P { -za¡2 <a/Jn<z ..¡2 = 1-a

y despejando µ de las dos desigualdades obtenemos el intervalo de confianza


indicado.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA 117

SEGUNDO CASO:

Sea (X 1 , ... , Xn) una muestra aleatoria de una población X"' N(µ; a). Enton-
ces:
a)

( X- tn - l ; a./ 2 }n, j{ + tn - 1; a./2 } . )

es un intervalo de confianza paraµ (al nivel 1- a), siendo tn. a. el valor que verifica
P{tn > tn; a.}= IX.
b)
(n - l)S 2 (n - l)S 2 )
( 2 ' 2
Xn - 1; a./2 X11 - 1; 1 - a.¡2

es un intervalo de confianza para a 2 (al nivel 1 - a), siendo X~; a. el valor que
x;;
verifica p {x; > a.} = (X,
En efecto:
a) Como consecuencia de que, en este caso,

y es una cantidad pivota/ para µ, tenemos:

X- µ
p {- tn-1; a./2 < s¡J;i < tn - 1; a./2} = 1 - (X

Despejando µ de las dos desigualdades, obtenemos el intervalo de confianza


paraµ.
b) Ahora, utilizaremos el hecho de que

n- 1 2 2
-2- S "'Xn - 1
a

y es una cantidad pivota[ para a 2 . Podemos escribir:

2 n-1 2 2 }
P { X11 - 1; 1 - a.12 < 7 S <Xn - 1; a.12 = 1-a

Sólo queda despejar a 2 de las dos desigualdades para obtener el intervalo de


confianza deseado.
118 ESTADÍSTICA APLICADA

TERCER CASO:

Sean (X 1 , ... , X m) e (Y1 , ••• , Y,J muestras aleatorias independientes de las


poblaciones X"' N(µ 1 · a) e Y,...., N(µ 2 ; a), respectivamente. Entonces:

es un intervalo de confianza para µ 1 - u2 (al nivel l - a).


La comprobación es análoga a la de los casos anteriores.

CUARTO CASO:

Sean (X 1 , ... , Xm) e (Y1 ... , Y,,) muestras aleatorias independientes de las
poblaciones X,..., N(µ 1; a 1 ) e Y,..., N(µ 2 ; a 2 ), respectivamente. Entonces:

( sus~ sus~ )
Fm - 1; n - 1; a/2' Fm - 1 ; n - 1 ; 1 - a/2

..
es un intervalo de confianza para aifa~ (al nivel l - a), siendo F m· ,,. ª el valor que
.
verifica P{F111.• ,.>F,,,.. ,,. a}=o:.
La comprobación es también inmediata y análoga a las anteriores.

Observación

A la hora de manejar las tablas correspondientes a la distribución Fm; m es


importante tener en cuenta la siguiente relación:

1
F,,~n· 1 - a= - -
• F,.; m; a

5. Otros intervalos de confianza

Cuando el muestreo se realiza en poblaciones con distribución de Bernoulli o


con distribución de Pois on, suelen emplearse intervalos de confianza asintóti-
cos; esto significa que la cantidad pivotal utilizada tiene una distribución límite
(cuando n--+ oo) independiente de parámetros desconocidos.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA 119

INTERVALOS DE CONFIANZA PARA UNA DISTRIBUCIÓN DE BERNOULLI

Sea (X 1, ... , X") una muestra aleatoria de X"' B(l; p). Entonces:

-0- -
( A z,,,12 JfJ(l n
- f)) , -o-+ z,,,12
A
JfJ(l n-fJ))
es un intervalo de confianza para p (al nivel 1- ex), siendo fJ =X= «frecuencia
relativa de éxitos».
En este caso, lo que hacemos es partir de la siguiente cantidad pivota[
asintótica:

X- P "'N(O· 1) (aproximadamente, para n grande)


J fJ(l - fJ)/ n '

INTERVALOS DE-CONFIANZA PARA UNA DISTRIBUCIÓ DE POISSON

Sea (X 1 , ... , X 11) una muestra aleatoria de una población X"' Poisson(J.).
Entonces:

es un intervalo de confianza para ,l (al nivel 1 - ex), siendo 1 = X.


La cantidad pivota[ asintótica utilizada en este caso es:

.X-,l
.jVn "'N(O; 1) (aproximadamente para n grande)

6. Mínimo tamaño maestral


Un problema muy relacionado con la construcción de intervalos de confianza
es el de determinar el mínimo tamaño muestra! que necesitamos para que
nuestra estimación tenga una determinada «precisión»; es decir, cuántos ele-
mentos tenemos que observar para que el «error» cometido con la e timación
no supere una cierta cantidad.

DEFINICIÓ : el error de una estimación por intervalos de confianza (al nivel


1 - cx) es la semi-amplitud del intervalo obtenido.

EJEMPLO: ¿ cuál debe ser el mínimo tamaño de una muestra aleatoria de una
población N(µ; a = 5) para que el error de la estimación no sea superior a 0,5 (con
un nivel de confianza del 95 %)?
120 ESTADÍSTICA APLICADA

Lo que se pretende en este caso es estimar µ mediante un intervalo de con-


fianza de la forma

Como se acaba de indicar, el error de esta estimación es zª12 Jn y, por tanto

lo que queremos es encontrar el mínimo valor de n, que verifique

(J
Za/ 2 Jn :s;;Q,5
donde a= 5 y zª12 = z0 , 025 = 1,96. Sustituyendo y despejando n, obtenemos
n~ 384,16. Es decir, necesitaríamos observar 385 elementos para conseguir la
precisión deseada para esa estimación.

Un cálculo similar al efectuado en este ejemplo puede llevarse a cabo con


otros intervalos de confianza. Conviene resaJtar que, en general, el valor que
obtengamos como mínimo tamaño muestra! deberá entenderse, implemente,
como un valor orientativo. Así, si obtenemo que el mínimo tamaño muestra]
(para con eguir una determinada precisión) es 497, este valor deberá entender-
e como gue debemos ob ervar alrededor de 500 elementos. Esto es esencial,
obre todo en aqueHos casos en los que el mínimo tamaño muestra) depende
de la muestra concreta obtenida.

7. Intervalos de confianza más frecuentes

Se recogen aquí los intervalos de confianza anteriormente obtenidos, junto con


alguno otro . La abreviatw-a m. a. significa muestra aleatoria

1) X -N(µ, o}

Intervalos de confianza 1 - a para µ:

a) a conocida: / = [ x ± Za¡z J.]


b) (J de conocida:/= [x±tn- l;a/2 S J
ESTIMACIÓN POR INTERVALOS DE CONFIANZA 121

Intervalo de confianza 1- ce para a- 2:

]= [
(n- l)s 2
2
(n - l)s 2
'-2~--
J
Xn - 1; «{2 Xn - 1; l - «/ 2

2) X,..., B(l, p) (muestras grandes)

Intervalo de confianza 1 - ce para p: J = x ± z«12 [ Jx(l-.x)J


n

3) X,..., Poisson(J..) (muestras grandes).

Intervalo de confianza 1- ce para J..: 1 = [ x ± z«12 ~ ]

4) Dos poblaciones normales independientes.


X"' N(µ 1 ; a 1); (X 1 , ... , X,,J m. a. de X; se calcula x y sr.
Y"' N(µ 2 ; a 2); (Y1 ... , Y,,) m. a. de Y; se calcula ji y s~.

s 2 = (m- l)sf +(n- l)s~


P m+n - 2

Intervalos de confianza 1-ce para µ 1 - µ 2 :


a) <1 1 , a 2 conocidas:

ª2+ 2
......!
m
ª2]
n

b) a- 1 , a 2 desconocidas, a- 1 = a 2 :

I = [ x - ji± t f ; «/2

( 2¡m + s2/n)2
donde f = entero más próximo a (sf/~) 2 (s~/n) 2
--- +--
m- 1 n- 1
122 ESTADÍSTICA APLICADA

Intervalo de confianza 1- a para cr¡joJ

I= [ p
s¡/s~ s¡
, z F n - 1; m- 1; a12
J
111 - 1; n - 1; a./ 2 S2

5) Diferencia de proporciones (muestras grandes e independientes).


X-B(l, p 1 ); (X 1 , . . . , XnJ m. a. de X.
Y-B(l, p 2 ); (Y1 , . .. , X 11) m. a. de Y.
Intervalo de confianza 1- o:: para p 1 - p 2 :

x(l - x) + y(l - y)]


I= [x-y±z.,12
m n

6) Datos emparejados.

(X 1 Y1 ), ... , (X Y,.) m. a. de (X, Y); E[X] = µ 1 , E[r) = µ 2 .


11 ,

D=X-Y-N(µ=µ 1 - µ 2 , a).
(D 1 , ... D,,) m. a. de D(D,= X,-Y,).

Intervalos de confianza 1- a paraµ o cr:


Se aplican a la variable aleatoria D los resultado del apartado 1).

8. Ejercicios
l. En una población se desea conocer la probabilidad de que un individuo
sea alérgico al polen de las acacias. En 100 individuos tomado al azar se
observaron 10 alérgicos. Hallar el intervalo de confianza al 95 % para la
probabilidad pedida. ¿Cuántos individuo e deberían observar para que
con probabilidad 0,95, el error máximo en la estimación de la proporción
de alérgico sea del 0,01?

2. Se upone que el número de errata por página en un libro sigue una


di tribución de Poisson. Elegidas al azar 95 página , e obtuvieron los
siguientes re ultados:

Número de errata O 1 2 3 4 5
úmero de páginas 40 30 15 7 2 1

Hallar el intervalo de confianza al 90 % para el número medio de


erratas por página en todo el libro.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA 123

3. Se mide el tiempo de duración (en segundos) de un proceso químico


realizado 20 veces en condiciones similares, obteniéndose los siguientes
resultados:

93, 90, 97, 90, 93, 91, 96, 94, 91, 91, 88, 93, 95, 91, 89, 92, 87, 88, 90, 86

Suponiendo que la duración sigue una distribución Normal, hallar los


intervalos de confianza al 90 % para ambos parámetros.

4. Las tensiones de rotura (en Kp.) de 5 cables de un determinado metal


fueron 660,460, 540, 580, 550. Suponiendo normalidad para las tensiones:

a) Estimar la tensión media de rotura mediante un intervalo de confian-


za al nivel 0,95.
b) Estimar a2 mediante un intervalo de confianza a] nivel 0,90.

5. En una población la altura de Jos individuos varones sigue una N(µ;


a= 7,5). Hallar el tamaño de la muestra para estimar µ con un error
inferior a ± 2 cm. con un nivel de confianza 0,90.

6. La vida activa (en días) de cierto fármaco sigue una distribución N(l.200;
40). Se desea enviar un lote de medicamentos de modo que ]a vida media
del lote no sea inferior a 1.180 días con probabilidad 0,95. Hallar el
tamaño del lote.

7. Se intenta estudiar la in.fluencia de la hipertensión en los padres sobre la


presión sanguínea de los hijos. Para ello se seleccionan dos grupos de
niños, unos con padres de pre ión sanguínea normal (grupo 1) y otros con
uno de sus padres hipertenso (grupo 2), obteniéndose las siguientes pre-
siones sistólicas:

Grupo 1: 104 88 100 98 102 92 96 100 96 96


Grupo 2: 100 102 96 106 110 110 120 112 112 90

Hallar un intervalo de confianza para la diferencia de medias, supo-


niendo que las varianzas en las do poblaciones de niños son iguales.

8. Una noticia en el periódico dice que, de 1.000 personas encuestadas sobre


una cuestión 556 se muestran a favor y 444 en contra, y concluye
afirmando que el 55,6 % de la población se muestra a favor, con un
margen de error de ± 3 %. ¿Cuál es el nivel de confianza de esta afirma-
ción?
124 ESTADÍSTICA APLICADA

9. Se quiere e tudiar la proporción p de declaraciones de la renta que


presenta algún defecto. En una muestra preliminar pequeña (muestra
piloto) de tamaño 50 se han ob ervado 22 declaraciones defectuosas.
¿Cuál es el tamaño muestral necesario para estimar p cometiendo un
error máximo de 0,01 con una probabilidad de 0,99?

10. Se quiere comparar do métodos, A y B, para determinar el calor latente


de fusión del hielo. La siguiente tabla da los resultados obtenidos (en
calorías por gramo de masa para pasar de -O 72 ºC a Oº) usando reitera-
damente ambo métodos):

Método A: 79,98 80,04 80,02, 80 04, 80,03, 80,03, 80,04, 79,97, 80,05,
80,03, 80,02, 80,00, 80,02.
Método B: 80 02 79 94, 79,98, 79,97, 79,97, 80,03, 79 95, 79,97

Obtener un intervalo de confianza 0,95 para la diferencia de las


medicione media obtenida por ambos métodos.

11. En un estudio sobre el tiempo de desarrollo de una especie de insectos en


dos poblaciones, A 1 y A 2 aisladas se obtuvieron lo iguientes dato :

n 1 = 13 .x 1 = 4 s 1 = 3
n2 =11 x2 =5 s2 = 2,2

Suponiendo que el tiempo de desarrollo en la población A; sigue una


di tribución N(µ;; aJ para i = 1, 2 e pide:
a) Hallar un intervalo de con.fianza para el cociente de varianza al
ojvel 0,80.
b) Obtener un intervalo de confianza para µ 1 - µ 2 , con nivel de confian-
za 0,95 (suponiendo igualdad de varianzas).
e) ¿Cuánto individuos habría que ob ervar para e timar µ 1 con un
error máximo de ± 0,2 y un nivel de confianza de 0,95?

12. En una gran zona ganadera se de ea estimar la proporción de oveja que


ufren una c.i erta enfermedad degenerativa. Calcular el tamaño muestra(
nece ario para estimar esta proporción con un error menor que 0,03 a un
nivel de confianza del 0,95 sabiendo que, en w1a pequeña mue tra preli-
minar se seleccionaron treinta ovejas de las cuales dos resultaron pade-
cer la enfermedad.

13. Calcular el mínimo tamaño muestra( necesario para cometer un error


menor que 0,05 con una probabilidad de 0,99, en la estimación de Ja
proporción de personas que tienen sensibilidad para la (eniltiocarbamina
abiendo que en una muestra de 60 per onas e han encontrado 14 que
son ensibles a este producto.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA 125

14. El contenido en nicotina de los cigarrillos de una marca determinada


sigue una distribución N (µ, o-). Se toma una muestra de 5 cigarrillos,
obteniéndose en esta muestra un contenido medio de 21,2 mg. con
s = 2,05.
a) Intervalo de confianza para ¡.t con un nivel de confianza del 90 %.
b) Intervalo de confianza para <J2, con un nivel de confianza de 95 %.
10

Contraste
,,, .
de hipótesis
parametr1cas

l. Introducción

El contraste de hipótesis constituye el tercer gran bloque de técnicas dentro de


la Inferencia paramétrica, junto con la estimación puntual y la estimación por
intervalos de confianza. El objetivo del contraste de hipótesis es diferente del
de la estimación: ahora no deseamos estimar razonablemente bien el valor de
un parámetro desconocido, sino que tratamos de decidir si es sensato rechazar
(o aceptar) la hipótesis de que el valor de ese parámetro se sitúa en una
determinada región del espacio paramétrico 0. Por ejemplo, queremos decidir
si es razonable aceptar que la probabilidad de que salga «cara» al lanzar una
determinada moneda es 1/2, o queremos decidir si es sensato admitir que la
duración de las bombillas aumenta cuando empleamos un nuevo filamento.
Por supuesto, estas decisiones tendrán que estar basadas en los resultados de
un muestreo aleatorio realizado en las poblaciones correspondientes.

2. Conceptos básicos

Consideremos una muestra aleatoria (X 1 , . .. X,J de una población X con


función de masa P 0 (o función de densidad f 0 ) , donde eE e. Nuestro problema
es decidir a la vista de la muestra obtenida, si es más plausible que ee0 0 o
que OeE> 1 , donde 0 0 y E\ constituyen una partición previamente elegida del
espacio paramétrico 0; dicho en lenguaje estadístico, queremos contrastar la
hipótesis nula R 0 : Oe 0 0 frente a la hipótesis alternativa R 1 : Oe 0 1 .

D EFJNICJóN: un test para contrastar la hipótesis nula H O : eE 0 0 frente a la


e
hipótesis alternativa H 1 : e e 1 , consiste en decidir, para cada posible muestra, si
aceptamos o rechazamos H 0 ; por lo tanto, un test consistirá en dividir el espacio
,nuestra[ ( conjunto de todas las posibles muestras) en dos regiones: una región
crítica R, o de rechazo de H 0 , y una región A de aceptación de R 0 .

127
128 ESTADÍSTICA APLICADA

Obviamente e ta definición engloba tanto test sensato como test absur-


do . Con un test se pueden cometer, básicamente, dos tipos de errores:

Error de tipo I: rechazar H O cuando no se debe.


Error de tipo II: aceptar H O cuando no se debe.

Evidentemente, no gu taría que la probabilidad de cometer ambos tipo


de errores fuera baja. Esta idea se formaliza utilizando la función de potencia:

D EFI ICIÓ : la función de potencia de un test con región crítica R . para con-
trastar H 0 :8e®0 frente a H 1 :8e® 1 , es lafu.nción que a cada 8e0 le hace
corresponder el valor P 0 (R) , que es simplemente la probabilidad de rechazar H 0
( para cada valor de ()).

Por tanto, lo que interesa es que la función de potencia tome valore


próximos a cero cuando 8e0 0 (pequeña probabilidad de error de tipo 1) y
valores próximo a uno cuando eE e 1 (pequeña probabilidad de error de tipo
II). Lo que se suele hacer habitualmente es exigir que la función de potencia no
pase de cierto valor cuando () E 0 0 (es decir, acotar la máxima probabilidad de
error de tipo I) y procurar, después, que la función de potencia sea lo mayor
posible cuando 8 E G\ (es decir, minimizar la probabilidad de error de tipo II).
Como se puede observar, la hipótesis nula y la hipótesis alternativa no desem-
peñan papele imétrico . El hecho de que acotemos la máxima probabilidad
de error de tipo I (normahnente, por un valor próximo a cero, como 0,05) hace
que difícilmente rechacemos H 0 cuando no se debe; una consecuencia de esto
es que lo test de hipótesis tienden a ser tremendamente conservadores con la
hlpóte is nula; es decir, es necesario que la evidencia muestra] en contra de H 0
ea muy fuerte para que el test rechace la hipótesis nula (por supue to, debe
recordarse que estamos hablando de los te t en atas que habitualmente se
utilizan). La máxima probabilidad de cometer el error de tipo I suele recibir un
nombre más específico:

DEFINICIÓ : el nivel de ignificación (o tamaño) de un test con región crítica R ,


para contrastar H O '. 8 E E) O frente a H 1 '. eE E) 1 es el valor

a = max P 0 (R)
Oe @o

(Es decir, la máxima probabilidad de cometer el error de tipo I).

3. Test de razón de verosimilitudes


En la práctica el problema más importante del contraste de hipótesi es dar
una técnica razonable de construcción de tests. El método má utilizado para
CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 129

construir un test que sirva para contrastar H 0 frente a H 1 es el método de


razón de verosimilitudes. Este método está muy unido al método de máxima
verosimilitud para construcción de estimadores puntuales. La idea del método
de razón de verosimilitudes es muy sencilla y natural; se expone a continuación
utilizando funciones de masa (en el caso continuo no hay más que sustituir las
funciones de masa por funciones de densidad):
Para cada po ible muestra (x 1 , ... , x"), se considera ~l siguiente cociente
(razón de verosimilitudes):

maXoe E>o Po(X1, ... , xn)


maxoee p o(X1 · · · Xn)

Si el cociente es pequeño, es poco plausible (a la vista de la muestra obtenida)


que el verdadero valor de e esté en ® 0 ; en consecuencia, lo más razonable ería
rechazar H 0 . Si, por el contrario, el cociente es grande, es bastante plausible
que el verdadero valor de e esté en 8 0 ; en este caso, lo más razonable sería
aceptar H 0 . El problema de elegir el punto crítico que epare la región de
rechazo de H 0 (valores pequeños del cociente) de la región de aceptación de H 0
(valores grandes del cociente) se resuelve fijando un determinado nivel de
significación a. Todo esto se recoge en la siguiente definición:

D FTNICJÓN: el test de razón de verosimilitudes para contrastar H O : eE 80


ji-ente a H 1 : e
E e 1 , al nivel de significación o:, es el que tiene como región crítica:

donde c se obtiene de la condición:

a=max P 0 (R)
OeE>o

(Naturalmente, e ta notación corresponde al caso discreto; en el caso continuo,


cambiaríamos funciones de masa por funciones de densidad).

La popularidad de e to test se debe, muy e pecialmente a que, en el caso


de poblacione normale , quedan reducidos a regla muy encilla y muy
relacionada con los intervalos de confianza. A continuación vamos a ver, en
un ca o concreto, todo el desarrollo que nos permite llegar, partiendo de la
definición general, a la encilla expresión final del te t.

JEMPLO: upongamos que (XJ ... , X,,) es una muestra aleatoria de una pobla-
ción con distribución N(µ· a), donde los dos parámetros son desconocidos, pero
sólo estamos interesados en hacer un contraste de hipótesis sobre el posible valor
130 ESTADÍSTICA APLICADA

de µ. Concretamente, vamos a obtener el test de 1·az6n de verosimilitudes para


contrastar H O : µ = µ 0 frente a H 1 : µ =;6 µ 0 , al nivel de significación IX. Formal-
mente, tenemos:

8= {fJ=(µ, a):µe9t; a>O}


E>o= {(µ, a)eE>:µ = µo}
el ={(µ, a)e 0: µ=¡6 µo }

Para obtener el test de razón de verosimilitudes tenemos que hallar el máximo


de fo(x 1 , ... , xn), tanto en e como en 0 0 . Pero estos máximos se alcanzan en los
valores correspondientes a los estimadores de máxima verosimilitud (recuérdese la
definición de estos estimadores). Concretamente, tenemos:
El valor max 0 e 0 .fo(x 1 , •.. , xJ se alcanza en el estimador de máxima verosimi-
litud

fl=x

El valor max0 e 00 f 0 (x 1 , •• . , xn) se alcanza en el estimador de máxima verosimi-


litud

Por tanto:

maxoeeofo(X1 ... , x,,)


max0e 0 fo(xi, ... , x,,)

1 )"/2 ( 1 )n/2
= ( 1+ n(x - µ0) 2 = 1 + - 1- (.x - µ0)2
I:(x;- x) 2 n- l s2/ n
CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 131

1 )n/2
=( 1 x-µº2
l + n- 1 C1Jn)
Por tanto, la región crítica sería de la forma:

= {(x1 · ·,x"):( + - ¡ (~ y)"'2~c}


1
n- 1 s/Jn

El valor de c 2 lo obtenemos imponiendo la condición de que el test debe tener


nivel de significación a; es decir:

x- µ
Ahora bien, como en este caso ); "'t"_ 1, resulta que c2 = tn - i ; a.¡2 , En defmiti-
s/ ....¡ n
va, la región crítica para contrastar H O : µ = µ 0 frente a H 1 : µ =f. µ 0 , al nivel de
significación a, es:

Con respecto a este test, podemos hacer alguna consideraciones intere-


santes:
a) El test que acabamos de obtener está e trecbameote ligado al corres-
pondiente intervalo de confianza para µ (al nivel 1- a.), cuando a e desconoci-
do. Ob ervemos, para ver esto que la región de aceptación de H 0 , en el test
que acabamos de obtener, es, simplemente:
132 ESTADÍSTICA APLICADA

En consecuencia, el test de razón de verosimilitudes para contrastar


H O :µ= µ 0 frente a H 1 : µ =!- µ 0 , al nivel de significación a se puede enunciar
también de la siguiente forma: rechazamos la hipótesis nula si µ 0 no está
conterudo en el intervalo de confianza (al nivel de confianza 1- ex) para µ:

(x-t,,_1; «tz ~ , x+t,, _1;«i z ~ )

b) El funcionamiento del test es muy razonable:


El parámetro que nos interesa estudiar es µ; la estimación de máxima
vero imilitud de µ e la media muestra! x; si µ = µ 0 , es de esperar que x esté
próxima a µ 0 (ya que no podemo pretender que sea exactamente igual a µ 0 ,
por las íluctuacione debidas al azar)· el grado de «alejamiento» permitido
dependerá del tamaño mue tral n y del ruvel de ignjficación a; el método de
razón de verosimilitudes no dice cómo fijar este máximo alejamiento permiti-
do de manera automática; como acabamo de ver, rechazaremos H O si
s
lx- µol~tn - 1: a./2 - .
n
Mediante de arrollas análogos a lo del ejemplo obtendríamo los te t de
razón de verosimilitudes correspondientes a otros contra tes. Como el proce o
e laborioso, nos limitaremo a dar al final del capítulo, una li ta con lo te t
de hipóte i más utilizados.

4. Algunas consideraciones adicionales

En el contraste de hipótesi , hay una erie de a pecto que on muy importan-


tes cuando se intentan apbcar a ituacione reale . Por ejemplo, en el típico
ejercicio realizado en cla e puede especificarse cuál de las dos regiones en que
dividimos el espacio paramétrico va a de empeñar el papel de hipótesis nula y
cuál es el nivel de ignificación que hay que considerar sin em bargo, en una
situación real, nadie nos va a decir runguna de estas cosas. Por tanto e
importante tener alguna idea sobre cómo hacer e ta eleccione .

Elecci6n de la hip6te is nula.

Bá icamente, la ituacione que e pueden pre entar se pueden dividir en


do grande grupo :
CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 133

a) Queremos hacer un contraste entre las posibilidades () = 8 0 y () =¡6 () 0 . En


e te caso hay una clara a imetría, y siempre tomaremos como hipótesis nula
H 0 :()=00 .
b) El caso realmente problemático surge cuando queremos hacer un con-
traste entre (} < 00 y () > (} 0 . En estas situaciones, puede ser más difícil decidir
qué e debe tomar como hipótesis nula. Ahora bien, recordemos que un te t de
hipótesis funciona de manera conservadora con la hipótesis nula· es decir, hace
falta una fuerte evidencia muestra! en contra de H O para que el test rechace H 0
(y, en con ecuencia, acepte H 1); esto nos sugiere que deberemo tomar como
hipótesis alternativa aquella hjpótesis que deseemos «probar» estadística-
mente. Naturalmente, esto no resuelve todas las complicaciones que pueden
surgir en la práctica, ya que, a veces, no es sencillo determinar qué es lo que
interesa probar estadísticamente. Algunos ejemplos pueden ayudar a compren-
der mejor las co as.

EJEMPLO: supongamos que la duración media de las bombillas que se producen


en una fábrica es µ 0 . La dirección de la fábrica está estudiando la posibilidad de
cambiar el filamento de modo que la duración media con este nuevo filamento sea
µ 1 . Obviamente, se quiere hacer un contraste entre las hipótesis µ 0 < µ 1 y µ 0 > µ 1 ;
en este caso, parece claro que la dirección de la fábrica desea saber si hay una
fuerte evidencia muestra/ a favor del nuevo filamento antes de efectuar el cambio·
por tanto deberíamos tomar como hipótesis alternativa H 1 : µ 0 < µ 1 .

EJEMPLO: supongamos que unos laboratorios están estudiando un nuevo medica-


mento contra una enfermedad; este medicamente sólo será interesante si cura la
enfermedad en más del 80 % de Los casos. Por tanto si llamamo p a la proporción
de casos en que el fármaco se aplica con éxito, necesitaremos hacer un contraste
entre la hipótesis p < 0,80 y p > O80. Es de suponer que los laboratorios sólo
lanzarán el producto al mercado si tienen una fuerte evidencia muestra[ de que el
fármaco es efectivo· es decir, si se puede « probar» estadísticamente que p > O80.
En consecuencia, deberíamos tomar como hipótesis alternativa H 1 : p > 0,80.

EJEMPLO: consideremos ahora la siguiente situación: un profesor va a llevar a


cabo un examen entre sus alumnos y desea que un alumno para aprobar sepa, al
menos el 60 % de la asignatura; por tanto si llamamos p a la proporción de
asignatura que sabe el alumno, lo que tiene que hacer es un contraste entre las
hipótesi p < O60 y p > 0,60. Aquí la situación es menos clara:
Si el profesor es «duro» deseará tener una fuerte evidencia muestral a favor
de la hipótesis p > O60 antes de aprobar a un alumno. En este caso tomará como
hipótesis alternativa H 1 : p > 0,60.
Si por el contrario, el profesor es «blando» seguramente necesitará tener una
fuerte evidencia muestra[ a favor de la hipótesis p < 0,60, para suspender a un
alumno. Si piensa así, deberá tomar como hipóte is alternativa H 1 : p < O60.
134 ESTADÍSTICA APLICADA

Con un mismo examen, los porcentajes de aprobados serán totalmente diferen-


tes, según que se adopte un punto de vista u otro.

Elección del nivel de significación.

Hay ya una larga tradición en elegir el nivel de ignificación en la aplica-


ciones, como 0,10, 0,05 ó 0,01. El nivel elegido depende de lo serias que se
consideren las consecuencias de rechazar equivocadamente H 0 (o lo que es
igual de aceptar equivocadamente H 1); cuanto más desastrosas e consideren
las consecuencias de esta posible equivocación más pequeño se debería tomar
el nivel de significación- es decir, más limitaríamos la máxima probabilidad de
error de tipo I. Por supuesto, la regla es imprecisa, pero esto es algo inevitable.

El p-valor

El p-valor es una herramienta muy valiosa, automáticamente proporciona-


da por el ordenador, cuando se realiza un contraste de hipótesis mediante un
paquete estadí tico. El p-valor de una muestra para contrastar H 0 frente a H 1
se puede definir como «la probabilidad (evaluada bajo H 0) que tendríamos de
obtener un resultado menos compatible con la hipótesis nula que el proporcio-
nado por la mue tra obtenida». Sin la ayuda del ordenador, el cálculo del
p-valor no e fácil. Por este motivo, lo que más no interesa de este concepto es
su interpretación una vez que nos ha sido proporcionado por el ordenador. La
interpretación más sencilla y manejable es la siguiente:
El p-valor de una muestra es el apoyo que Jo datos proporcionan a la
bipóte is nula; si el p-valor está por debajo del nivel de significación elegido, el
apoyo a H O es escaso, y la hipótesis nula debe rechazar e; si, por el contrario, el
p-valor está por encima del nivel de significación elegido, el apoyo a H 0 es
suficiente y la hipóte is nula puede ser aceptada.

5. Ejemplos
EJEMPLO 1: el Verapamil y el Nitroprusside son dos productos utilizados para
reducir la hipertensión. Para compararlos, unos pacientes son tratados con Vera-
pamil y otros con Nitroprusside. Los resultqdos obtenidos se muestran en la
siguiente tabla donde X= «R educción (en mm.) de la presión arterial de un
paciente tratado con Verapamil» e Y=«Reducción (en mm.) de la presión arterial
de un paciente tratado con Nitroprusside»:

X: 10 15 18 23 12 16 15
Y: 15 10 19 9 14 12 18
a) Admitiendo normalidad, ¿se puede aceptar la igualdad de varianzas? (al
nivel a = O, 10).
CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 135

b) ¿Proporcionan estos datos suficiente evidencia estadística (al nivel de


significación 0,10) para concluir que el Verapamil es más efectivo que el Nitro-
prusside para reducir la presión arterial?

a) Necesitaremos obtener los valores de las medias y cuasi-varianzas mues-


tra/es:
x= 15,57 s¡= 17,67
y= 13,86 s~ = 14,38
En la lista de test al final del capítulo encontramos que la región de recha-
zo para contrastar H 0 : a 1 = a 2 frente a H 1 : a 1 =/: a 2 es: R = {sUs~ </: [F 6; 6 ; 0 , 95,
F6;6; o.osJ}.
En este caso:

s¡ / s~ = 1,23

[F 6;6;0,95> F 6;6;o,osJ = [F
1 , F 6; 6;o.os] = [0,2334, 4,2839]
6;6;0 ,05

En consecuencia, aceptaremos a 1 = a 2 .
b) En este apartado deseamos «probar» estadísticamente (si es posible) que
el Verapamil es más efectivo, en promedio, que el Nitroprusside. Es decir, si
X,...., N(µ 1 ; a) e Y,..._, N(µ 2 ; a), queremos «probar» estadísticamente que µ 1 > µ 2 •
Para llevar esto a cabo, debemos efectuar un contraste de H 0 : µ 1 ~µ 2 frente a
H 1 : µ 1 > µ 2 • Mirando la lista de test al final del capítulo encontramos que la
región de rechazo en este caso es:

En este caso:

x-y= 1,71
6s 21 + 6s22
s2 = = 1602
P 12
{1:1
t12;0,10 Sp \rJ 7 =2,90
T

En definitiva, no rechazamos H O• no hay suficiente evidencia estadística para


concluir que el Verapamil es más efectivo que el Nitroprusside.
En este ejemplo, es interesante destacar que los datos obtenidos con el
Verapamil eran independientes de los obtenidos con el Nitroprusside, ya que unos
pacientes eran tratados con una sustancia y otros pacientes con la otra.

JEMPLO 2: se tienen algunos indicios de que el consumo de tabaco tiende a


provocar problemas de trombosis debidos a un aumento en la capacidad de
136 ESTADÍSTICA APLICADA

coagulación. Para estudiar esta hipótesis, Levine (1973) extrajo muestras de


sangre de 11 individuos antes y después de que fumasen un cigarrillo, y midió la
capacidad de agregación de las plaquetas, obteniendo los datos siguientes (corres-
pondientes al máximo porcentaje de plaquetas que se agregaron después de haber
sido sometidas a un estímulo adecuado):

Antes de fumar (X): 25 25 27 44 30 67 53 53 52 60 28


Después de fumar (Y): 27 29 37 56 46 82 57 80 61 59 43

¿Hay suficiente evidencia estadística (al nivel de significación 0,01) a favor de


la hipótesis de que los fumadores presentan una mayor tendencia a la formación
de coágulos?

Lo primero que hay que destacar en este ejemplo es que los datos obtenidos
antes de fumar, y los obtenidos después de fumar, no son. independientes (ya que se
obtienen de las mismas personas). Esto significa que no podemos llevar a cabo un
contraste del mismo tipo que en el ejemplo anterior. Lo que sí podemos hacer es
considerar la variable aleatoria D = X - Y y, admitiendo que su distribución sea
N(µ: a), efectuar un contraste adecuado sobreµ. Si µ 1 es el porcentaje medio de
agregación de plaquetas antes de fumar y µ 2 el porcentaje medio después de
fumar, entonce µ= µ 1 - ¡i 2 . Queremo «p1·obar» estadísticamente que µ 1 <µ 2 o,
lo que es igual que µ<O. Por tanto, contrastaremos H O :µ~ Ofrente a H 1 : µ<O
(al nivel de significación 0,01). La región de rechazo de este test es:

En este caso tenemos:

d¡: -2, - 4 - 10 - 12, - 16 - 15, - 4, - 27, - 9 1, - 15


a= - 1021
sd = 7 96
sd
Jii
tl0; 0,99 = - 6,63

En definitiva, hay suficiente evidencia estadística para aceptar


H 1 : µ = ¡t1 - µ 2 < O es decir para aceptar que los fumadores presentan una mayor
tendencia a la formación de coágulos.

6. Test de hipótesis más frecuentes


Damos a continuación una lista de los test de hipóte is más habitualmente
utilizados. La abreviatura m. a. significa muestra aleatoria.
CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 137

1) X -N(µ a)

H 0 :µ=µ 0 (a conocida); R= {1x-µo l>za¡2 Jn}


H O :µ = µ 0 (a desconocida); R= {1.x - µo l> tn - 1;a / 2 .Jn}
H 0 :µ~µ 0 (a conocida); R= {x-µ 0 >zª Jn}
H 0 :µ~µ 0 (a desconocida); R= {x-µ 0 >t11 _ .Jn}
1 ;a

H 0 :µ~µ 0 (a conocida); R= {x - µ 0 <z1 - a Jn}


H 0 :µ~µ 0 (a desconocida)· R= {x-µo<tn - 1;1- a .Jn}
n-1 2 2 2 ]}
R = { 0"5 S ÍCxn - l ; l - a/ 2 . Xn - l;a/ 2

R- _{n-1
a5 s > 2 2
Xn - 1;a}

n-1 2 }
R = { ª 5 s <Xn -
2
1; 1 - a

2) X,..,, B(l, p) (muestras grandes)

R = { lx_- Poi> Za/ 2 JPo(l n- Po)}

-
R = { x-po > Za Jvo(l - Po)}
n

R -{-
- X - Po < Z1 - a JPo(l-po)}
n

3) X"' Poisson(J) (muestras grandes)

Ho: ..l= ..lo; R = {lx - A0 1> z,.,2.¡¡:;¡;,.}


Ho:..l~Jo; R = {x - ..l0 > z,..¡¡:;¡;,.}
Ho: A.~Ao; R={.x - ..lo<Z1 - a ~ }
138 ESTA DÍSTICA APLICADA

4) Do poblaciones normales independientes

X -N(µ 1 , a 1); (X 1 , ... X n) m. a. de X; se calcula x y sr.


y,..., N(µ 2 , a 2 )· (Y 1 , .. . , Y,) m. a. de Y; se calcula ji y sf

s2 = (n 1 - l)si + (n 2 - l)s~
P n 1 +n 2 -2

Ho:<11 = <12; R = {s¡/s~ ~ [Fn, - 1;112 - 1;1 - «12, F,,, - 1:11r 1;«/ 2] }

Ho:<11 ~<12; R = {sf/s~ > F ,,, - 1; 112 - 1;J


Ho:<11~ªú R = {sf/s~ < F111 - 1; 112 _ 1; i - «}

. (s¡/n1 + s~/n 2)2


donde f = entero más próXlIIlo a ( 2/ ) 2 ( 2 / ) 2
S1 n1 + s2 n2
n1 - 1 n2 - 1

5) Comparación de proporciones (muestras grandes e independientes).

X-B(l, p 1 )· {X 1 ... , X,,) m. a. de X


CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 139

R= {1x-yl>z«12 Jp(l - p) (~ + :J}


R= {x-y>z«JP(l-p) (~ + ~)}
R= {x - ji<z _«JP(l - p) (:¡ + ~J}
1

7. Ejercicios

l. Se considera buena la edición de un libro si el número medio de erratas


por página no supera el 0,1 (H 0 ). Dadas las pruebas de imprenta se
eligen 10 páginas al azar y se rechazan las pruebas si se observan 2 ó
más erratas. Se supone que el número de erratas por página sigue una
Poisson.
¿Qué nivel de significación tiene el contra te? ¿Con qué probabilidad
aceptaremos un libro si realmente tiene una media de 0,2 erratas por
página?

2. En una piscifactoría se desea contrastar la hipótesis (H 0) de que el por-


centaje de peces adultos que miden menos de 20 cm. es, como máximo,
del 10 %. Para ello, se va a tomar una muestra de 6 peces y rechazaremos
H 0 si encontramos más de un pez con longitud inferior a 20 cm.
a) ¿Cuál es el nivel de significación de este contraste?
b) Calcular la potencia del contraste si en realidad hay un 20 % de peces
que miden meno de 20 cm.

3. Para estudiar si una prueba de laboratorio puede resultar demasiado


nociva para la salud, contrastaremos la hipótesis (H0) de que la probabili-
dad de que una per ona ometida a esa prueba resulte afectada sea como
máximo 0,001. Para esto sometemos a esa prueba a 1.000 personas elegidas
al azar y aceptamos H O si, como máximo, ha habido un afectado.
a) Nivel de significación del contraste.
b) Si, en realidad, la prueba afecta a la salud de una persona con
probabilida~ 0,003, ¿cuál es la probabilidad de aceptar H O?
1
140 ESTADISTICA APLICADA

4. Se recibe un envío de latas de conserva de la que se afirma que el peso


medio on 1.000 gr. Examinada una muestra de 5 latas se obtiene un peso
medio de 995 gr. con una cuasivarianza s 2 = 19,6. Al nivel de confianza
95 % ¿ e puede aceptar que el peso medio on 1.000 gr.?
5. La concentración media de dióxido de carbono en el aire en una cierta
zona no e habitualmente mayor que 355 p.p.m.v. (partes por millón en
vol umen). Se ospecha que e ta concentración es mayor en la capa de aire
más próxima a la superficie. Para contra tar esta hipótesis se analiza el
aire en 20 puntos elegidos aleatoriamente a una misma altura cerca del
suelo. Resultó una media muestra! de 580 p.p.m.v. y una cua i-desviación
típica muestra) de 180. Suponiendo normalidad para la mediciones
¿proporcionan estos datos suficiente evidencia estadística, al nivel 0,01, a
favor de la hipótesis de que la concentración es mayor cerca del suelo?
Indicar razonadamente si el p-valor es mayor o menor que O01.
6. Un dentista afirma que el 40 % de los niño de 10 años pre eotan indicio
de caries dental. Tomada una muestra de 100 niños se observó que 36
pre entaban indicios de carie .
Contrastar la hipótesi del dentista para un nivel de confianza del 90 %.
7. Se han realizado diversos estudios analizando la incidenca de la malaria
en niños africanos heterocigóticos respecto al gen a ociado a la anemia
falciforme, y en niños homocigóticos normales. En un estudio realizado
por Allison y Clyde se obtuvieron los siguientes datos: de 136 niños
heterocigóticos, 36 sufrieron la malaria, mientras que, de 407 homocigóti-
cos, la sufrieron 152.
¿Hay evidencia estadística (al nivel 0,05) de que los heterocigótico están
mejor protegidos frente a la malaria que los bomocigóticos normales?
8. Se desea comparar la proporción de viviendas con calefacción en Extre-
mad ura y en Galicia. Se hace un muestreo en las dos comunidades con
lo siguientes resultados:
Extremadura: de 500 viviendas elegidas al azar, 300 disponían de
calefacción.
Galicia: de 1.000 viviendas elegidas al azar 680 disponían de cale-
facción.
¿Hay suficiente evidencia e tadística para concluir, con un nivel de con-
fianza del 95 %, que e menor la proporción de vivienda con calefacción
en Extremadura que en Galicia?
9. La duración media de una muestra de 10 bombillas es x = 1.250 horas,
con una cuasidesviación típica muestra} de sx = 115. Se cambia el material
del filamento por otro nuevo y, entonces, de una muestra de 12 bombilla
se obtuvo una duración media de ji= 1.340 horas, con una cuaside via-
ción típica mue traJ de Sy = 106.
CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 141

a) ¿Puede aceptarse que la varianza , antes y después del cambio de


filamento, son iguales? ¿Bajo qué hipótesis?
b) ¿Ha aumentado la duración media de las bombillas?

10. Se van a probar dos medicamentos, A y B, contra una enfermedad. Para


esto, tratamos ido ratones enfermos con A y otros 100 con B. El número
medio de horas que sobreviven con A es x = l.200 y el número medio con
B es y= 1.400. Suponiendo normalidad en ambos casos, se pide:
a) ¿Se puede I aceptar igualdad de varianzas si sabemos que
r.(x 1 - .:x:)2 = 9ioo.OOO y r.(y¡ - 5i)2 = 9 50.000? (Tornar a= 0,10).
b) ¿Es más efectivo el medicamento B? Plantear el contraste adecuado
para estudiar esto con un nivel de confianza del 95 %.
11. Con objeto de estudiar si las pulsaciones en los hombres pueden conside-
rarse menores que en las mujeres, se tomaron muestras de 16 hombres y
16 mujeres, obteniéndose los siguientes datos:

Hombres (X): 74 77 71 76 79 74 83 79 83 72 79 77 81 79 84 80
Mujeres (Y): 81 84 80 73 78 80 82 84 80 84 75 82 79 82 79 85

LX¡ = 1.248 r.xf =97.570 :Ey¡ = 1.288 'Eyf = 103.846

¿ Qué se puede decir al respecto?

12. Se tienen algunos indicio de que el consumo de tabaco tiende a provocar


problemas de trombosis debidos a un aumento en la capacidad de coagu-
lación. Para estudiar esta hipótesis Levine (1973) extrajo muestras de
sangre de 11 individuos antes y después de que fumasen un cigarrillo y
midió la capacidad de agregación de las plaquetas, obteniendo los datos
siguientes (correspondientes al máximo porcentaje de plaquetas que se
agregaron después de haber sido ometidas a un estímulo adecuado):

Antes: 25 25 27 44 30 67 53 53 52 60 28
Después: 27 29 37 56 46 82 57 80 61 59 43

¿Hay uficiente evidencia estadística (al nivel de significación 0,01) a


favor de la hipóte is de que los fumadores presentan una mayor tendencia
a la formación de coágulos? Indicar las condicione que e requieren para
que el test utilizado ea válido.

13. Queremos comparar dos métodos rápidos para estimar la concentración


de una hormona en una solución. Tenemos 10 dosis preparadas en el
laboratorio y vamos a medir la concentración de cada una con los dos
métodos. Se obtienen los iguiente resultados:
142 ESTADÍSTICA APLICADA

Dosis 1 2 3 4 5 6 7 8 9 10
Método A 10,7 11,2 15,3 14,9 13,9 15 O 15,6 15,7 14,3 10.8
Método B 11,1 11,4 15,0 15,1 14 3 15,4 15,4 16 O 14.3 11,2

Contra tar si los do métodos proporcionan, en media, las misma


estimaciones (tomar un nivel de confianza del 90 %).

14. En la fabricación de chips para circuitos integrados hay una variable,


denominada amplitud de ventana, que está relacionada con los procedi-
miento de interconexión entre los circuitos.
Se de ea estudiar el efecto que tiene sobre la amplitud de ventana una
determinada reacción química que se produce durante el proceso de
fabricación de los chips. Para ello se ha medido dicha variable (Phadke et
al. (1983), Bell System Tech. J.) antes de la reacción química, en una
muestra aleatoria de 10 lugares, obteniéndose los siguientes resultados (en
milimicras).

X¡: 2,52, 2,50, 2,66, 2,73, 2,71, 2,67, 2,06, 1,66, 1,78, 2,56

Se midieron tarribíen las amplitudes de ventana, después de la reac-


ción, en una nueva muestra independiente de la anterior, obteniéndose

y,: 3,21, 2,49, 2,94, 4,38, 4,02, 3,82, 3,30, 2,85, 3,34, 3,91
Suponiendo normalidad e igualdad de las varianzas poblacionales
(ante y después de la reacción), ¿hay uficiente evidencia estadística (al
nivel de significación O01) para poder afirmar que después de la reacción
ha aumentado la amplitud media de ventana?
Indicación: :Ex,= 23 85, :E.xf = 58,3231, :E.y,= 34,26 :Eyf = 120,5412

15. Con el fin de e tudiar el efecto de los rayos X sobre la viabilidad huevo-
larva en «Tribolium castaneum» se irradiaron 1.000 huevos, de los que
resultaron 572 larvas. Sabiendo que la viabilidad normal de esta especie
es del 63 %, contrastar la hipótesis nula de que la radiación no ha tenido
efecto obre la viabilidad (al njvel de significación 0,05).

16. Un fabricante de lavadoras produce un determinado modelo en do


colore A y B. De las 1.000 primeras lavadora vendidas, 560 fueron del
color A. ¿Proporcionan estos datos suficiente evidencia estadí tica (al
nivel de significación 0,01) para concluir que lo con umidore prefieren
mayoritariamente el color A?

17. Un método de tratamiento contra la leucemia mieloblástica aguda consis-


te en ometer al paciente a quimioterapia intensiva. Se abe que e te
tratamiento proporciona un porcentaje de remisión de un 70 %. Se aplica
CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 143

un nuevo método de tratamiento a 50 voluntarios. ¿Cuál es el mínimo


número de casos de remisión de la enfermedad que debe observarse para
poder afirmar (a un nivel de significación del 0,025) que el nuevo método
produce una tasa de remisión más alta que el antiguo?

18. Un examen con ta de 100 preguntas con 4 alternativas cada una. Se desea
que los alumnos que superen la prueba sepan al menos, el 50 % de la
asignatura. ¿Cuál debe ser el número mínimo de respuestas correctas
para aprobar el examen, con un nivel de confianza del 99 % ? Estudiar las
dos formas posibles de plantear el contraste. (Sólo una de las alternativas
es correcta, y las preguntas abarcan uniformemente toda la asignatura.)

19. Una prueba de detección de la hepatitis vírica produce un 2 % de falsos


positivos (prueba positiva en una persona sana) y un 5 % de fal o
negativos (prueba negativa en una persona enferma). Se aplica esta prue-
ba a 800 personas independientes tomadas al azar en la población.
a) Hallar la relación entre p = «Probabilidad de dar positivo» y
r= «Probabilidad de padecer hepatiti vírica».
b) ¿Cuál es el máximo número de pruebas po itiva que podríamos
obtener entre las 800, para considerar estadísticamente probado que
la enfermedad afecta a menos del 8 % de la población? Tomar
a = 0,01.

20. Una compañía petrolífera está con ideraodo la po ibilidad de introducir


un nuevo aditivo en su gasolina, esperando incrementar el kilometraje
medio por litro. Los ingenieros del grupo de investigación prueban 10
coche con la gasolina habitual y otros 10 coches con la gasolina con el
nuevo aditivo. El resumen de los re ultados es:

«Kilometraje medio sin aditivo» = 14,2 Km./J. sf =3,24


«Kilometraje medio con aditivo» = 15,4 Km./1. s~ = 5,76

a) ¿Se puede considerar probado que el nuevo aditivo aumenta el kilo-


metraje medio por litro? Plantear el modelo correspondiente (asu-
miendo normalidad e igualdad de varianzas) y obtener una conclu-
sión con una confianza del 95 %.
b) Con lo datos disponibles, ¿era razonable trabajar con la hipótesis de
igualdad de varianzas en el apartado anterior? Dar una respuesta
razonada con un nivel de significación de 0,10.

21. Una fábrica de fertilizantes tiene dos máquinas envasadoras con las que
pretende llenar sacos iguales. Se llenan 10 sacos con la primera máquina
obteniéndose un contenido medio de 29 8 Kg. y una cuasi-varianza de
144 ESTADÍSTICA APLICADA

1,2. Se llenan otros 10 sacos con la segunda máquina obtenjéndose un


conterudo mectio de 30,2 Kg. y una cuasi-varianza de 1,4. Asumiendo
normalidad, e pide:
a) Hallar un intervalo de confianza al 95 % para la varianza de la
primera máquina envasadora.
b) ¿Se puede concluir, con un ruvel de significación del 10 %, que la
egunda máquina envasadora introduce más fertilizante que la prime-
ra? Hacer el estudio asumiendo igualdad de varianzas.

22. Queremo comparar la duración de las cintas de video de dos marcas.


Para esto, obtenemos dos muestras aleatorias con los siguientes resulta-
dos:
11.arca A: 230 235 238 242 242 246
11.arca B: 232 234 239 245 248 253

Aceptando normalidad e igualdad de varianzas, ¿se puede considerar


estadísticamente probado (al nivel 0,10) que la duración mectia de las
cintas de la marca B es superior a la duración media de la marca A?

23. En un estudio sobre la influencia del sexo en la aptitud matemática se


tomaron do muestra indepenctientes de tamaño 10 de los alumnos de
cierta e cuela y se obtuvieron las siguientes puntuaciones en un examen:

CHICOS: 92 84 93 91 93 90 86 89 91 88
CHICAS: 88 85 82 90 81 93 87 92 86 85

a) ¿Proporcionan esto datos suficiente evidencia estadística, al nivel


0,05, para afirmar que la aptitude matemáticas on ctiferentes en
chico y chicas? Especificar claramente la hipótesi que se contrastan
y las suposiciones previas nece aria para la validez del test que se
utilice.
b) Si las muestra anteriores correspondieran a pares hermano-herma-
na, ¿cómo debería abordarse el problema?

24. Para probar una nueva droga para el tratamiento del SIDA se trabajó
con do grupos de ratones infectados.
El primer grupo e taba formado por 20 ratone y no recibió ningún
tratamiento. Su vida media fue de 93 día , con una cuasi-varianza mues-
tra! de 120.
El segundo grupo estaba formado por 40 ratone , y fué tratado con la
nueva droga. Su vida media fue de 102 día , con una cuasi-varianza
mue tral de 125.
CONTRASTE DE HIPÓTESIS PARAMÉTRICAS 145

Admitiendo que en los dos grupos el tiempo de vida de los ratones se


adapta bien a una distribución Normal, ¿se puede llegar a la conclusión
de que la nueva droga proporciona una mejora significativa? (Tomar
como nivel de significación o:= 0,10).

25. La Comunidad Autónoma de Madrid está interesada en averiguar i el


índice de absentismo laboral es mayor en dicha Comunidad que en la
Unión Europea, donde se sitúa en el 11 % . Con este propósito, seleccionó
al azar una m uestra de 200 trabajadores, la cual proporcionó un porcen-
taje de absentismo del 16 %. ¿Se puede sacar la conclusión de que el
absentismo es mayor en la Comunidad de Madrid que en la Unión
Europea, al nivel de significación a= 0,025?

26. Un grupo de investigadores afirma haber descubierto un tipo de afünen-


tación para las gallinas, bajo la cual, éstas producen h uevos que no
aumentan el colesterol en las personas que los consumen. Para compro-
bar dicha teoría, se seleccionaron al azar 10 personas a las que se les
midió su nivel de colesterol antes (X) y después (Y) de ser sometidos a una
dieta a ba e de dichos huevos. Suponiendo normalidad, contrastar la
hipóte is nula de que el nivel de colesterol es el mismo antes y después de
la dieta (al nivel o:= 0,05) si los datos obtenidos son los siguientes:

X 120 312 243 161 314 234 143 287 423 155
y 130 306 255 168 310 250 158 290 440 140

27. En una granja experin1ental e intenta comparar la virulencia de dos


organismos patógenos causantes de epidemias en los pollos. De 200
pollos inoculados con el organismo 1 137 manifestaron síntomas durante
Jo 14 primeros días. De 150 pollos inoculados con el organismo 2, 98
manife taran síntoma en los primeros 14 días.
Con un nivel de confianza del 95 % ¿existe diferencia entre la virulen-
cia de los dos organismo ? (Se upone que los pollo están ai lados y no
hay contagios).

28. Una compañía farmacéutica afirma que cierto medicamento elimina el


dolor de cabeza en un cuarto de hora en el 90 % de los casos. Tomada
una muestra de 200 pacientes a los que se le admin.i tró el medicamento,
se observó la desaparición del dolor en 170 de ellos. Contrastar la hipóte-
sis de la compañía.

29. Una agencia dedicada al cobro de cheques encontró que el 5 % de todos


los cheques remitidos a la agencia eran de cuentas sin fondos. Después de
implantar un sistema de verificación para disminuir sus pérdidas, se
hallaron solamente 50 cheques sin fondos en una mue tra aleato1ia de
146 ESTADÍSTICA APLICADA

1.124 cheques. ¿Existe suficiente evidencia estadística para concluir que el


i tema de verificación ha reducido la proporción de cheques sin fondos?
Tomar un nivel de significación C( = 0,01 para efectuar el contraste.

30. Se efectuó un estudio por parte de la Comisión de Caza y Pesca de


Florida para estimar las cantidades de residuo químico encontrados en
los tejidos cerebrales de los pelícanos café. En una prueba sobre DDT
una muestra aleatoria de 10 pelícanos jóvenes, y otra muestra aleatoria de
13 polluelos, dieron lo iguiente resultados:

Jóvenes Polluelos
.Y1 = 0,041 y2 = 0,026
S1 =0,017 Sz=0,006

a) Admitiendo normalidad, hallar un intervalo de confianza (al nivel


0,90) de la varianza para la población de los pelícanos jóvenes.
b) Admitiendo normalidad e igualdad de varianzas, ¿se puede concluir
que la cantidad media de residuos químicos es mayor entre los
pelícanos jóvenes (al nivel 0,05)?
11

Contrastes x2

l. Introducción

Hasta ahora, hemos supue to que la muestra aleatoria (X 1 , ... , X,,) procedía de
una población X con función de masa P6 (o función de densidadf0); es decir,
sólo nos faltaba por conocer el valor del parámetro O. En este capítulo aban-
donamos este contexto para abordar algunos problemas muy interesantes
dentro de lo que llamaremos Inferencia no paramétrica (el nombre hace refe-
rencia al hecho de que ahora nue tro desconocimiento no se reduce al valor
de un parámetro, sino que es más amplio). Los problemas que vamos a
analizar son problemas de contraste de hipótesis; en todos ellos, los estadísti-
cos que utilizaremos para llevar a cabo el contraste (es decir, para decidir si
aceptamos o rechazamos la hipótesis nuJa) tendrán aproximadamente una
distribución x2 de Pearson; esto es lo que motiva el nombre del capítulo.

2. Contraste de la bondad del ajuste (primer caso)

Vamo a ob ervar una muestra aleatoria (X 1 , .. • , X,,) de una población X con


distribución de conocida y queremos ver s~ a la vista de La muestra, es razona-
ble admitir que la distribución de X viene dada por P (un determinado modelo
de probabilidad); es decir queremos ver si los dato «se ajustan bien» a P. Por
tanto, tenemos:

H 0 : «El modelo de probabilidad de X es P».


H 1 : «El modelo de probabilidad de X no es P».

Para contrastar H O frente a H 1 hacemos una partición (arbitraria) del


espacio muestral de la población (posibles valores de X) en k clase A1 , ... , Ak.
Después para cada Ai (i = 1 . .. k) consideramos las siguientes frecuencias
(ab olutas):

147
148 ESTADISTICA APLICADA

O; = «frecuencia observada en A 1 » = «número de elementos de la mue tra


(x 1 , ... xn) que se han situado en la clase A,».
e¡= «frecuencia esperada en la clase A¡, si la hipótesis nula es cierta»
=nP(AJ.

(Ob ervemos que el valor de e; es nP(AJ, ya que e, es, simplemente, la


esperanza de una distribución binomial B(n; P(AJ).)
El estadístico que utilizaremo para llevar a cabo este contraste e :

±(O, -e¡ eJ
i= t
2

que tiene, aproximadamente (cuando n es grande), una distribución xf- 1, si H 0


es cierta.
Si la muestra procede de P, es de esperar que baya valore parecidos para
O¡ y e¡ y, por tanto, este estadístico debería tomar valores próximos a cero· en
consecuencia, rechazaremos la hipótesis nula cuando los valores de este esta-
dístico sean «grandes» y la aceptaremos cuando sean pequeños; la separación
entre valores «grandes» y «pequeños» viene dada por la elección de un nivel de
significación o:; en definitiva, tenemos:

CONTRASTE DE LA BONDAD DEL AJUSTE (PRIMER CASO)

Rechazamos la hipótesis nula H 0 : « El modelo de probabilidad de X es P » ( al


nivel de significación a) si:

Normalmente, el valor del estadístico se calcula de la siguiente forma:

± (O,-e¡)2 =
i= l e;
f
i= l
(Of - 20¡e;+ef)=

f
;- 1
Of _ 2

±O¡+±
;- 1 ;- 1
e;

k Qf k k 02
= ¿ - ' - 2n+n ¿ P(AJ = ¿ -' - n
;- 1 e¡ ,= 1 i= t e¡

3. Contraste de la bondad del ajuste (segundo caso)

El contraste de la bondad del ajuste se puede plantear también en una situa-


ción algo más general:
Ob ervamos una muestra aleatoria (X 1 , ... , X,;) de una población X con
distribución desconocida, y queremo ver si a la vi ta de la mue tra, e
CONTRASTES f 149

razonable admitir que la distribución de X viene dada por algún modelo de la


familia {P O : eE E>} donde e= (8 1 ..• , e,). Es decir queremos ver si los datos «se
ajustan» bien a un modelo de probabilidad de la familia {P O: fJ E E>}. Por tanto,
tenemo :

H 0 : «El modelo de probabilidad de X es algún P0 de la familia indicada».


H 1 : «El modelo de probabilidad de X no es ningún P0 de la familia indicada».

Para contra tar H O frente a H 1 hacemos nuevamente una par6ción (arbi-


traria) del espacio muestraJ de la población (posibles valores de X) en clases
A 1 . . . A"' y consideramos:

O¡= «Frecuencia observada en A¡».


e,= «frecuencia esperada en A¡, si la hipótesis nula es cierta»= nPo(AJ~nP¡j(AJ.

(donde 8=(01 , ... , 8,) son estimaciones de máxima verosimilitud).


El estadí tico que utilizaremos es:

E(O;-e;)2
i= l €¡

que aproximadamente (cuando n es grande), tiene una distribución xf- 1 _ " si


H 0 es cierta.
Razonando de manera análoga a como e hizo en el primer caso, llegamos
a Ja siguiente regla para efectuar el contraste:

CONTRASTE DE LA BONDAD OEL AJUSTE (SEGUNDO CASO)

Rechazamos la hipótesis nula H 0 : « El modelo de probabilidad de X es algún


P O de la familia indicada» ( al nivel de significación a) si:

4. Contraste de homogeneidad de poblaciones


Supongamo que di ponemos de p muestras aleatorias tomadas independiente-
mente en p poblaciones:

sobre una característica X común a todas ellas.


150 ESTADÍSTICA APLICADA

Queremos ver si, a la vi ta de las muestra obtenidas, es razonable admitir


que todas las poblaciones tienen una distribución común; e decir queremo
ver si son poblaciones «homogéneas». Por tanto, tenemos:
H 0 : «La p poblacione tienen una distribución común».
H 1 : «La p poblaciones no tienen una di tribución común».
Para contrastar H 0 frente a H 1 hacemos una partición (arbitraria) del
espacio muestra! común a las p poblaciones en k clases A 1 , . . . Ak. Después
definimos para la clase A¡(i= 1, ... , k) y para la muestra de la población j-ésima
U=1, ... , p):
Oii = «frecuencia observada en la clase A; con la muestra j-ésima».
e;i = «frecuencia esperada en la clase A¡ con la muestraj-ésima, si todas las
poblaciones tienen la distribución común P» = niP(AJ.

Entonce tenemos, para la muestra j-ésima (ver sección 2):

aproximadamente (cuando n es grande).


Si sumamos lo p estadí ticos obtenidos (uno de cada muestra), tenemos:

aproximadamente (para n grande).


Sin embargo, todavía nos queda un problema por re olver:
El valor de e te estadístico e podría calcular si supiéramos cuál es la
di tribución P común a las p poblaciones. ormalmente, lo único que quere-
mos contra tar es si tienen una distribución común, pero sin que sepamos, ni
nos importe cuál es esa distribución común (puede ser cualquiera). Por tanto
tenemo que e timar P(AJ (i = 1, ... , k) a partir de las observaciones; esta
e timaci6n e hace mediante:

----- = ¿I!
P(A.) ;= 1º··,; (i = 1, .. ., k)
' n

Las frecuencia e perada erán, entonces:


CONTRASTES f 151

En definitiva, e] estadístico utilizado es:

que tiene, aproximadamente (para n grande), una distribución

Xp(k
2
-
-x2
1)-(k- 1)- (k - l)(p - 1)

cuando H O es cierta.
De nuevo, podemos razonar diciendo que, si la hipótesis nula es cierta, las
frecuencias observadas y esperadas serán parecidas y, por tanto, el estadístico
anterior tomará valores pequeños (próximos a cero); en definitiva, tenemos:

CONTRASTE DE HOMOGENEIDAD

Rechazamos la hipótesis nula H 0 : «Las p poblaciones tienen una distribución


común» ( al nivel de significación <X) si:

Es frecuente rusponer las frecuencias observadas y esperadas en dos tablas


de la siguiente manera:

Muestra 1 Muestra j Muestra p


A1 0 11 011 º1p

A; oíl oij O;p

Ak okl o kj o kp

Muestra 1 Muestra j Muestra p


A1 eu e11 e1p

A, eil €¡¡ e,P

Ak ekl eki ekp

La egunda tabla se construye a partir de los valores de la primera.


152 ESTADÍSTICA APLICADA

Finalmente, y de manera aná1oga a lo que se hizo en el contraste de la


bondad del ajuste, el valor del estadístico se ue]e calcular de la siguiente
manera:

5. Contraste de independencia

Supongamos que queremos estudiar si dos características X e Y de una pobla-


ción están relacionadas o no. Para hacer este estudio, obtenemos una muestra
aleatoria de n pares de valore de estas características:

Queremos ver si, a la vista de 1a muestra, tiene sentido admitir que X e Y son
independiente . Por tanto tenemos:
H 0 : «X e Y son independientes».
H 1 : «X e Y no son independientes».
Tomamos una partición (arbitraria) del espacio muestra! (correspondiente
a lo posibles valores de X e Y) en kp cla es A1 x B 1 ... A; x Bi, ... , Ak x BP.
E tas kp clase corresponden a tomar las cla es A 1 , ... , Ak para la característica
X, y las clases B 1 , •. . , B P para la característica Y.
Llamamos:
Oii = «frecuencia observada en la clase A¡ x B/> -
eii = «frecuencia esperada en la clase A; x Bi, si la hipótesi nula es cier-
ta»= nP(AJP(B).
(Obsérvese que i la hipótesi nula e cierta e; e la e peranza de una
binomial B(n; P(A;)P(Bi))).
Entonces tenemos (ver sección 2):

aproximadamente (para n grande).


Pero otra vez tenemos el mismo problema de antes: los valores de P(AJ y
P(B) tienen que ser estimados a partir de la muestra; esto se hace de la forma:

_.._ I:i:' 1 0- -
P(A -)= ;= •i
' n
CONTRASTES f 153

Las frecuencias esperadas serán, por lo tanto:

En definitiva, el estadístico que utilizaremos para el contraste de indepen-


dencia es:

que tiene, aproximadamente (para n grande), una distribución

2 -
Xkp -x2
l - (k - l)-(p - 1)-
(k - 1) (p-1)

cuando H O es cierta.
Como se puede ob ervar, el estadístico anterior coincide con el que utili-
zábamos para el contraste de homogeneidad, aunque tiene un origen diferente.
En definitiva, tenemos:

CO TRASTE DE INDEPENDE CIA


Rechazamos la hipótesis nula H 0: «X e Y son independientes» ( al nivel de
significación rx) i:

La disposición en tablas de las frecuencias observadas y esperadas es iguaJ


que en el contraste de homogeneidad.

6. Ejercicios
l. Después de lanzar un dado 300 veces, se hao obtenido las siguientes
frecuencias:
1 2 3 4 5 6
Frecuencias 43 49 56 45 66 41

Al nivel de significación O05 ¿ e puede afumar que el dado es regular?

2. o dicen que un programa de ordenador genera observaciones de una


di tribución N(O; 1). Como no estamo eguros de ello obtenemos una
muestra aleatoria de 450 observaciones mediante dicho programa, obte-
niéndo e lo siguiente resultados:
154 ESTADÍSTICA APLICADA

30 observaciones menores que - 2;


80 observaciones entre - 2 y - 1;
140 observaciones entre -1 y O;
110 observaciones entre O y 1;
60 observaciones entre 1 y 2;
30 ob ervaciones mayores que 2.
¿Se puede aceptar, al nivel rx = 0,01, que el programa funciona correcta-
mente?

3. Se clasificaron 1.000 individuos de una población según el sexo y según


fueran normales o daltónico .

Masculino Femenino
Normal 442 514
Daltónicos 38 6

Según un modelo genético, las probabilidades deberían ser:

!p !p2+pq
!q fq2

donde q = 1 - p = proporción de genes defectuosos en la población.


A partir de la mue tra e ha estimado que q= 0,087. ¿Concuerdan los
dato con el modelo?

4. En el tran cur o de dos horas, el número de llamadas por minuto solicita-


das a una centralita telefónica fue:

Número de llamadas/minuto O 1 2 3 4 5 6
Frecuencia 6 18 32 35 17 10 2

¿Se puede aceptar que el número de llamadas por min uto sigue una
di tribución de Poisson?

5. Una fábrica de automóvile quiere averiguar si la preferencia de modelo


tiene relación con el exo de los clientes. Se toman dos muestra aleato-
ria de 1.000 hombres y 1.000 mujere ob ervándose la siguientes prefe-
rencias:
Modelo
Sexo A B e
Mujer 340 400 260
Hombre 350 270 380
CONTRASTES t 155

¿Son homogéneas las preferencias entre hombres y mujeres, al nivel de


significación O01?

6. Se está estudiando la distribución de los grupos sanguíneos O A B, AB


en dos comunidades. Los resultados obtenidos fueron

O A B AB
Comunidad 1 121 120 79 33
Comunidad 2 118 95 121 30

a) Se puede considerar que son homogéneas ambas comunidades?


b) Consideremos ahora sólo los datos de la comunidad l. El mode-
lo teórico asigna las siguientes probabilidades a cada uno de los
grupos

o A B AB
(p+q+r=l)
r2 p 2 + 2pr q 2 + 2qr 2pq

A partir de lo datos de la muestra se han obtenido las siguientes


e timaciones de los parámetros: f) = 0,2465 y 4= 0,1732. Obtener las fre-
cuencias esperadas egún el modelo teórico y contrastar la mpótesis de
que los datos se ajustan a él.
7. Se dispone de los siguientes datos sobre el número de horas de trabajo
perdidas al afio por 16 obreros correspondiente a 2 niveles profe io-
nales:

Nivel A 48 5 49,2 35,3 39,7 38 9 43,6 40,8 44,7


Nivel B 26 2 21,2 17 19,7 18 2 28,4 23,J 18 9

Suponiendo que las cantidades de horas perdidas siguen distribucio-


nes Normale con la misma varianza, ¿tiene influencia la categoría
profesional?
Entre los obreros de la categoría A se llevó a cabo un plan de
prevención de accidentes laborales, de forma que al año iguiente la
horas perdidas por los mismos 8 obreros fueron:

32,4 41,3 26,2 18,7 37 2 45,8 60 1 53,2

Contrastar, al nivel de significación 0,05 si el plan de prevención ha


resultado efectivo.
En un estudio más detallado se observó el número de accidentes
diarios a lo largo de 100 días con los siguientes resultados:
156 ESTADÍSTICA APLICADA

úmero de accidentes/ día O 1 2 3 4


Número de días 57 30 10 2 1
¿Es admi ible que el número de accidentes diarios siga una distribución
de Pois on?

8. En una tómbola de feria se desarrolla el siguiente sorteo:


El feriante tiene un gran bombo opaco y dice que contiene 5 bolas con
tunare , 45 bolas blancas, 50 azules 50 rojas y 50 amarilla . El sorteo
consi te en sacar una bola al azar dando los siguientes premios:
Bola con lunares: premio importante.
Bola blanca: premio de consolación.
Bolas re tante : nada.
Despué devuelve al bombo la bola extraída.
Observo los resultados de 600 sorteos, durante los cuale reparte
6 premio importantes y 160 de consolación. ¿Podemos afirmar que hace
trampa con un nivel de confianza del 95 %?

9. Hemos desarrollado un modelo teórico para la diferentes cla es de una


variedad de mo cas. Este modelo nos dice que la mosca puede ser de tipo
L con probabilidad p 2 de tipo M con probabilidad q2 y de tipo N con
probabilidad 2pq (p + q = 1). Para confirmar el modelo experimentalmente
tomamo una muestra de 100 moscas obteniendo 10, 50 y 40, respectiva-
mente.
a) Hallar la e timación de máxima vero imilitud de p con los datos
obtenidos.
b) ¿Se aju tan lo datos al modelo teórico, al nivel de ignificación 0,05?

10. Se de ea evaluar la efectividad de una nueva vacuna antigripal. Para ello


e decide umini trar dicha vacuna de manera voluntaria y gratuita, a
una pequeña comunidad. La vacuna e admini tra en dos dosis separa-
das por un período de do emanas, de íorma que algunas persona han
recibido una ola dosis, otras han recibido las dos y otra persona no
han recibido ninguna. La siguiente tabla indica Jo re ultado que se
registraron durante la iguiente primavera en 1.000 habitante de la
comunidad elegidos al azar.

No vacunados Una dosis Dos dosis


Gripe 24 9 13
o gripe 289 100 565

¿Proporcionan esto dato uficiente evidencia e tadística (al nivel de


significación 0,05) para indicar una dependencia entre la clasificación
re pecto a la vacuna y la protección frente a La gripe?
CONTRASTES f 157

11. Se quiere comparar la biodiversidad de dos montes cercanos. Para esto


hacemos lo siguiente:
En uno de lo montes se eligen al azar 50 zonas, de 4 m 2 cada una, y
se hace el recuento del número de e pecies vegetales diferentes que hay en
cada una, con los siguientes resultados:
En 20 zonas había menos de 6 especies diferentes.
En 17 zonas había entre 6 y 8 especies diferentes.
En 13 zonas había más de 8 especies diferentes.
En el otro monte se hace el mismo recuento en otras 40 zonas
obteniéndose los siguientes resultados:
En 12 zona había menos de 6 especies diferentes.
En 20 zonas había entre 6 y 8 especies diferentes.
En 8 zonas había más de 8 especies diferentes
¿Son similares los do montes en lo que se refiere a su biocLiversidad?
Hacer el contraste correspondiente con un nivel de ignificación del 0,10.

12. Las células infectadas por el viru del SIDA HIV-1 producen una pro-
teína llamada TAT. Se lleva a cabo un estudio para contrastar la asocia-
ción entre pre encia de anticuerpos TAT y el sarcoma de Kaposi en
paciente de SIDA. Se analiza el suero de 297 pacientes HIV-1- eropo iti-
vos dentro del período de un mes de de la diagnosis del SIDA. Cada
observación se clasifica según contenga el sarcoma de Kaposi o no, y
egún contenga anticuerpo TAT o no. De las 78 observaciones que
contenían arcoma 10 pre entaban anticuerpo TAT de los 219 pacientes
sin sarcoma, 21 tenían anticuerpo TAT.
Contrastar, al nivel 0,05, la asociación entre presencia de anticuerpos
y pre encia de arcoma de Kaposi. ¿Se trata de un contraste de indepen-
dencia o de homogeneidad? (Dato de Rei y Lange (1990), Nature, 30 de
agost, p. 801).

13. Se ha realizado una encuesta en una ciudad con objeto de estudiar las
posibles relaciones entre el nivel educativo (educación superior, media o
primaria) de las personas y el nivel de consumo (bajo, medio o alto) de un
determinado producto. Lo re ultados, para 400 personas seleccionada
al azar, han sido:

Bajo M edio Alto


Superior 31 41 44
Media 28 79 125
Primaria 16 17 19
158 ESTADÍSTICA APLICADA

Contrastar estadísticamente (aJ nivel 0,01) Ja independencia entre el nivel


educativo y el nivel de consumo.

14. Se generan con Statgraphics, 200 observaciones independientes de una


di tribución de Poisson (A. = 2). Los resultado obtenidos se muestran en
la siguiente tabla:

Valor de X O 1 2 3 4 5 6
Frecuencia 28 49 51 34 28 5 5

AJ nivel de confianza 0,90, ¿se puede aceptar que la generación de núme-


ros aleatorios ha funcionado correctamente?

15. El contenido medio en proteínas por cada 100 gr. de tejido muscular
estriado en un análisis de 25 animales de cierta raza A de ganado vacuno
es de 14 gr. con LX¡= 4.996 mientras que para el mismo número de
yr
animales de otra raza B el contenido medio es de 14,5 gr. con :E = 5.362.
a) Contrastar si las varianzas son iguales en las dos razas, con una
confianza del 98 %, uponiendo que la distribución del contenido en
proteínas es aproximadamente normal.
b) Contra tar la hipótesis de que el contenido medio en las dos razas es
el mismo (con una confianza del 90 % y admitiendo igualdad de
varianzas).
e) Independientemente del e tudio anterior, otro equipo ha realizado
una investigación diferente obre esas do raza . Lo animales estu-
diados e han clasificado en 5 categorías (atendiendo, también, al
contenido en proteínas del tejido mu cular estriado): muy bajo, bajo
medio, alto y muy alto. Lo resultado han ido los siguientes:

Muy bajo: 7 Muy bajo: 10


Bajo: 16 Bajo: 20
Raza A Medio: 32 Raza B Medio: 40
Alto: 18 Alto: 20
Muy alto: 6 Muy alto: 12

A la vista de estos dato , ¿cuál ería la conclu ión sobre la homogeneidad


de la dos razas en lo que al contenido en proteínas se refiere (al nivel de
ignificación 0,01)?

16. Un investigador está e tudfando el efecto de tre tratamientos químicos


para mejorar la germinación de semillas almacenadas. Tomó una muestra
aleatoria de 600 semillas y las repartió al azar en tre grupo de 200.
Aplicó un tratamiento a cada grupo e hizo una prueba de germinación en
condiciones uniforme . Lo re ultado fueron:
CONTRASTES r 159

Producto Germinadas No germinadas


A 190 10
B 170 30
e 180 20

Contrastar, al nivel 0,05, la hipótesis de que el porcentaje de germinación


es el mismo para los tres tipos de compuesto utilizados.

17. Las calificaciones de una asignatura en tres grupos diferentes se reparten


de la siguiente manera:
Grupo 1: 34 calificaciones inferiores a 4, 49 comprendidas entre 4 y 7
y, finalmente, 21 superiores a 7.
Grupo 2: 40, 42 y 20, respectivamente.
Grupo 3: 28, 31 y 10, respectivamente.
¿Se puede aceptar que los tres grupos son homogéneos en sus calificacio-
nes? Tomar o:= 0,05.

18. Un laboratorio cultiva virus (para la fabricación de una vacuna) que


guarda en un medio líquido. De 78 muestras de 1 cm 3 se han obtenido los
siguientes resultados:

Número de virus: O 1 2 3 4
Frecuencia: 45 24 7 1 1

a) Si los virus se distribuyen al azar, independientemente unos de otros,


parece razonable pensar que la variable aleatoria X = «Número de
virus por cm\> sigue una di tribución de Poisson. Contrastar dicha
hipótesis mediante lo datos obtenidos (al nivel de significación 0,01).
b) Suponiendo que dicha variable aleatoria sigue una distribución de
Pois on obtener un intervalo de confianza 0,95 para el parámetro de
la distribución de Poisson.

19. El número de defectos congénitos en una muestra de 100 individuos de


una población dio la siguiente distribución:

Número de defectos: O 1 2 3 4 5
Frecuencia: 84 9 3 2 1 1

¿Se ajusta a una di tribución de Poisson?

20. Con el objeto de controlar la producción de una máquina que produce


láminas de madera e in peccionan 100 láminas al azar. Los res(unene
de los resultados muestrale e indican a continuación:
160 ESTADÍSTICA APLICADA

µ=x=9,7; et = 1,05

20 láminas con espesor inferior a 9 mm.


38 láminas con espesor entre 9 y 10 mm.
25 lámjnas con espesor entre 10 y 11 mm.
17 láminas con espesor superior a 11 mm.
El espesor de los datos obtenidos ¿se ajusta a una distribución Normal
con una confianza del 95 %?

21. Se de ea estudiar el número de accidentes por dfa que se producen en


cierto regimiento. Para ello se toman al azar los partes de 200 días dentro
de los últimos 5 año , encontrando los siguiente resultados:

Número de accidente /día o 1 2 3 4 5 6


Número de días 58 75 44 18 3 1 1

a) ¿Se puede aceptar, con nivel de confianza del 90 %, que el número de


accidentes por día igue una distribución de Poi son?
b) Independientemente del resultado de a) suponemos que la distribu-
ción del número de accidentes por día es Poissoo (l). ¿Hay uficiente
evidencia estadística (tomar nivel de significación rx = 0,05) de que el
verdadero valor medio l del número de accidentes por día es menor
que 1,35? Dada la aceptación o el rechazo en el test usado, ¿el p-valor
es mayor o e menor que 0,05?

22. Se ha realizado un e tudio para determinar los síntoma clínicos que


ayudan a la identificación de las tos ferina. Un sfa toma investigado es la
tos aguda de cualquier duración. Los dato obtenidos sobre 233 niños
estudiados se muestran en la iguiente tabla:

Tiene tos aguda N o tiene tos aguda


Padece to ferina Ü2 6
o padece tos ferina 83 32

¿Existe relación entre tener to aguda y padecer la enfermedad al nivel de


ignificación del 0,01 ?
12
Regresión y diseño
de experimentos

l . Introducción
Las técnicas estadísticas generales que se han desarrollado en los capítulos
correspondientes a la Inferencia paramétrica pueden aplicarse a situaciones
específicas de gran interés. El modelo de regresión lineal y el modelo de diseño
de experimentos son posiblemente, los de mayor interés general en Estadística
aplicada. En este capítulo vamo a estudiar estos dos modelo en su versiones
más sencillas.

2. Regresión lineal simple

El problema bá ico consi te en analizar estadí ticamente la posible relación


lineal entre dos características cuantitativas, X e Y de los elementos de una
población. Por supuesto, este problema está muy relacionado con el problema
que se estudió en E tadí tica De criptiva ya que allí también e quería expre-
sar una relación lineal, pero hay una importante diferencia de matiz: en
E tadística Descriptiva tratábamos de expresar la posible relación lineal entre
la observaciones mue trales de dos característica mientra que ahora trata-
mos de expresar la posible relación lineal entre las dos características en toda
la población. Es decir, como en todos los problemas estadísticos, estamos
interesado en poder decir algo sobre la población a partir de los resultados
muestrales obtenjdos, y para esto hay q ue precisar cuál es la relación entre la
población y la muestra.

HIPÓTESIS BÁSICAS

Disponemo den pare de observaciones (x 1 y 1) . . . , (x,, y,J de dos caracte-


rísticas cuantitativas, X e Y de una población. Suponemos que, para
i = 1, ... , n, la ob ervacione Y¡ son ob ervaciones independientes con di tri-
bución N(/3 0 + f3 1 x¡· a).

161
162 ESTADÍSTICA APLICADA

ESTIMACIÓN DE LOS PARÁMETROS

El primer problema al que nos enfrentamos es el de obtener estimaciones de


los parámetros. Para empezar, abordaremos la estimación de {J0 y /J1 . Si
utilizamos la técnjca de máxima verosimilitud, comprobaremos fácilmente que
los estimadores obtenidos coinciden con los valores que se obtuvieron en
Estadística Descriptiva al ajustar la recta de mínimos cuadrados:

cov ~ =b= covx,y


~ =a=y-~x
o V 1 V
X X

De este modo, la recta de regresión de Y tiene un doble papel; por un lado, es


el mejor ajuste lineal a la nube de puntos (x 1 , y 1 ), ... , (xn, yJ; por otro lado, si
las hipótesis del modelo son aceptables, proporciona una estimación de la
relación lineal entre las características X e Y en la población.
También estamos interesados en estimar el parámetro <J 2 . Para esto, lo
primero que tenemos que calcular son los residuos de cada observación:

El estadístico

constituye un e timador insesgado de la varianza a 2 .

ESTUDIO DE LA INFLUE CIA DE X SOBR Y


Una cuestión central en el análi i del modelo de regresión lineal es la de saber
i la caracterí tica X ejerce una influencia significativa (desde el punto de vi ta
e tadí tico) obre la característica Y. X ejercerá una influencia significativa
obre Y i el parámetro /J1 es significativamente distinto de cero. Por tanto lo
que queremo contrastar es H 0 : /J 1 = O (X no influye sobre Y) frente a
H 1 : /31 #O (X influye sobre Y).
Para llevar a cabo este contraste, e utiliza el hecho de que, i /3 1 = O
entonce :

~l rvt
sR jl/(nvJ 11
-
2

A partir de este estadístico se puede responder fácilmente al contra te de


hípóte i planteado:
Rechazaremos la hipóte i nula (y, por tanto, concluiremo que X tiene
influencia obre Y) al nivel de significación a cuando:
REGRESIÓN Y DISEÑO DE EXPERIMENTOS 163

~l ¡>t
1 SR J l /(nvJ n - 2;11./ 2

También podemos estar interesados en estudiar si es posible concluir (des-


de) el punto de vista estadístico) que X ejerce una influencia positiva sobre Y,
es decir, si /31 es significativamente positivo. Como es habitual en estos casos,
efectuamos un contraste de hipóte is en el que elegiremos como hipótesis
alternativa lo que queremos probar estadísticamente. Es decir, contrastaremos
H 0 : /31 ~O frente a H 1 : /31 > O(X influye positivamente sobre Y). Rechazaremos
la hipótesis nula (y, por tanto, concluiremos que X influye positivamente sobre
Y), al nivel de significación o:, cuando:

~l >t
SR ~ n - 2;11.

De manera análoga, podemos estar interesados en estudiar si es posible


concluir (desde el punto de vista estadístico) que X ejerce una influencia
negativa sobre Y, es decir, si /31 es significativamente negativo. Corno se acaba
de indicar, efectuaremos un contraste de hipótesis en el que elegiremos como
hipóte is alternativa lo que queremos probar estadísticamente. Es decir, con-
trastaremos H O : /31 ~ O frente a H 1 : /31 < O (X influye negativamente sobre Y).
Rechazaremos la hipótesis nula (y por tanto, concluiremos que X influye
negativamente sobre Y), al nivel de significación o:, cuando:

~1 <t .
SR J l /(nvJ n - i ,l - 11.

ESTIMACIÓN DEL VALOR MEDIO D E Y

Una utilidad obvia de la recta de regresión de Y sobre X es la de proporcio-


nar una estimación del valor medio o esperado de la característica Y, cuando la
característica X toma el valor x 0 . Esta estimación será:

Pero cuando las hipótesis básicas del modelo son aceptables, podemos dar
una respue ta mejor; podemo construir un intervalo de conGanza que nos
sirva para e timar, con una confianza 1- o: el valor medio de Y:

(xo__
-1 + _.; - .x)2]
n nvx
164 ESTADÍSTICA APLICADA

Un problema muy relacionado con el anterior es el de predecir cuál será el


valor de la característica Y en una única ob ervación futura si la característica
X toma el valor x 0 . El intervalo de confianza que estima esta predicción con
una confianza 1 - a, es muy parecido al anterior, aunque tiene una amplitud
algo mayor:

1 (xo
1 +-+--- -x)2]
n nvx

Es muy razonable que la amplitud sea mayor ya que, intuitivamente, es


más difícil estimar un único valor que el valor medio.

EJEMPLO 1: disponemos de las longitudes (en cm.) de 10 plantas al cabo de un


año de vida

15,3 17,8 20,7 25,1 16,4 21,6 19,6 18,8 20,2 19,4
y de las longitudes de esas mismas plantas cuando son adultas

30,5 32,6 38,3 45,7 33,6 42,2 37,5 38,1 41,6 40,4
Estamos interesados en analizar La posible relación lineal entre las caracte-
rísticas X= « Longitud al cabo del primer año de vida» e Y= «Longitud máxima
que alcanzan».
La recta de regresión de Y sobre X que resume la posible relación lineal entre
la longitud que alcanza una planta en u máximo desarrollo y la que tiene al cabo
de un año de vida viene dada en este caso por

y= 7,03 + 1 59x

ya que x= l9,49, y = 38,05, vx = = 6,83, vy =20,07 y covx,y = l0,88.


Si queremos confirmar estadísticamente que /3 1 > O (es decir, que X tiene una
influencia positiva significativa obre Y), podemos efectuar un contraste de
H0 : /31 ~ Ofi·ente a H 1 : /31 > O(por ejemplo, al nivel 0,05). En este caso obtenemo

t,, _ 2; a.= ls; o.os = 1,86

con lo cual, evidentemente rechazamos la hipótesis nula, y aceptamos que X


influye positivamente sobre Y.
Si queremos estimar la altura media que alcanzarían las plantas que en u
primer año de vida, miden 20 5 cm. el intervalo de confianza (a un nivel del 95 %)
ería I = [39,66 ± 1,45].
REGRESIÓN Y DISEÑO DE EXPERIMENTOS 165

Los diferentes a pectas indicados en esta sección constituyen un rápido


e bozo del tipo de problemas que se abordan y analizan en un modelo general
de regresión.

3. Diseño de experimentos con un factor

El diseño de experimentos con un factor constituye la versión más sencilla


del problema general de diseño de experimentos. Suele plantearse de la siguien-
te forma:
Se quiere analizar una característica cuantitativa X (que e uele llamar
variable de respuesta), sometida a m niveles de un único factor. Fundamental-
mente, nos interesa estudiar si el factor tiene una influencia significativa
(desde el punto de vista estadístico) sobre la variable de respuesta. Para
estudiar esto obtendremos, para cada uno de estos niveles, una muestra
aleatoria de valores de X. Supondremos que estas observaciones, Xu, son
ob ervaciones independientes con distribución N(µ + et¡; cr). De manera mas
detallada:

(X 11 ... X in 1) muestra aleatoria de una población N(µ + cx1 · a)


m
(Xil , .. . , X;n,) muestra aleatoria de una población N(µ + ex¡; a)

(X,., 1 , ... , X,,111,.,) muestra aleatoria de una población N(µ + ex,,,; a)

El parámetro µ representa el efecto medio común del factor considerado.


Lo parámetros a; representan los efectos medios específicos adicionales (posi-
tivos o negativo ) correspondiente a cada nivel i(i = l, ... , m); por este motivo
"I;= 1a; =O.Contrastaremos la hipóte is nula H 0:a1 = ... = a = O (el factor no
111

tiene influencia apreciable sobre X) frente a la hipótesis alternativa H 1: «Algún


a.1 e di tinto de cero» (el factor tiene una influencia significativa sobre X). Este
problema puede con iderarse también como una generalización del problema
de contrastar la igualdad de medias de dos poblacione normale con varian-
za iguale (ahora trabajamo con má de do poblacione ).
A continuación veremos cómo se lleva a cabo este contraste. La técnica
que vamos a amplear e utiliza mucho en Estadí tica, y recibe el nombre de
análisi de la varianza. E te nombre de análisis de la varianza viene de que lo
que vamos a hacer e preci amente analizar o descomponer la varianza total
de la variable de re pue ta en do partes: una parte corresponderá a la
variabilidad entre lo diferente grupos y la otra a la variabilidad dentro de
los grupos· si la primera es muy grande en relación con la egunda debere-
mo rechazar H 0 •
166 ESTADÍSTICA APLICADA

En primer lugar consideramos las medias muestrales dentro de cada grupo


y la media total:

_ 'E1~1 xii
X¡_= (i= 1, ... , m)
n;

A continuación, descomponemos la varianza total:


m m m rn
¿ ¿ (X·· _X- )2 -- ¿ ¿ (x.. _X-- + X-- _ X- )2
•J .. 'J l. ,. .•
i=l j=l í= l j = l
m m rn
="¿ n-(x. - x )2+"¿
i= l
l ,. ..
i= 1 j = 1
"(x
~ .. - x.)
lJ l.
2

m n,
+2"
L, °"(x
L, .. - x.)(x-
') ,. - x) l. ..
i= l j = l
m m rn
= °" n.(x. -x ) + ¿"
'-'
i= 1
t l.. .•
2
i=lj=l
"~ (x lJ.. -x.l. )2

ya que como se comprueba fácilmente, el sumatorio de los producto cruzado


es cero.
Para efectuar el contraste de bipóte is indicado utilizaremos el hecho de
que si la hipótesis nula H 0 :a,1 = ...= a,m = O es cierta entonces:

1- l n.(x.
¿,'!~ L l.
- x,.)2
m- 1
F="m ._,,., ( _ - )2 ,...,pm - J,,, - 111
"-i = l "-j = L Xij X¡_
n-m

Si H O e cierta e de esperar que la medias muestrales dentro de cada


grupo ean parecida entre sí y parecidas a la media total; es decir, si H O e
cierta, es de esperar que el numerador del estadístico F sea pequeño en
comparación con el denominador; por este motivo, rechazaremos I-1 0 cuando
F tome valores grandes; en concreto, rechazaremos la hipótesi nula H 0 :
a.1 = ... = a,,,= O al nivel de significación a, cuando

:E¡'!: 1 n ;(.xi. - x ..)2


m-1
F= "(" "'!' ( --)2 >Fm- 1 , 11 - 111,or
"-, = l"-¡= lXij X¡_
n- m

Lo cálculos para llevar a cabo este contraste se disponen, tradicional-


mente, en una tabla que recibe el nombre de tabla de análisis de la varianza·
e ta tabla e de cribe a continuación:
REGRESIÓN Y DISEÑO DE EXPERIMENTOS 167

Suma de Cuadrado
Fuente de variación cuadrados G. l. medio Estadístico

1:r= 1 n¡{.x;. - .x..)2


Entre grupos 1:7~1 n;(.x;. - x..)2 m- 1 F
m-1
Lm; = 1 1;n1 ( - }2
J= lxli-xi.
Dentro de los grupos Lmi= l 1;n1 - )2
{ _ X;.
j=l X¡¡ n- m
n- m
Total Lm
i=l j=l X;¡
- J2
Ln¡ ( _ X. n- 1

EJEMPLO 2: se sospecha que los compuestos fosforados procedentes de las activi-


dades industriales pueden afectar de manera diferente a las aguas de cuatro lagos.
Para tratar de verificar esta sospecha, medimos los niveles de fósforo en diferentes
puntos de los cuatro lagos, obteniéndose los valores:

7,1 8,5 6,2 7,3 79 (lago 1)


72 6,5 5,9 7,8 (lago 2),
56 7,1 6,3 6,7 6,5 (lago 3),
7,2 6,6 6,3 7,4 (lago 4).

Los valores obten.idos en el primer lago son superiores a los obtenidos en los
otros tres lagos. ¿ E suficientemente importante esta diferencia como para con-
cluir que el nivel de fósforo en el lago 1 es más alto que en los demás?
Expresado de otra manera, disponemos de cuatro muestras aleatorias que
corresponden a las mediciones del nivel de fósforo realizadas en los cuatro lagos.
Se quiere estudiar si los distintos niveles del factor «lago» influyen sobre la
variable de respuesta X= «Nivel defósforo». Si aceptamos que, en cada lago, las
mediciones siguen distribuciones (aproximadamente) normales y las varianzas son
(aprox imadamente) iguales, entonces, estamos en las hipótesis del modelo de
diseño de experimentos con un factor, y podremos contrastar si los niveles medios
de fósforo son similares en los cuatro lagos o no. Dicho de otra manera: podremos
estudiar si el factor lago (el único que estamos considerando) influye o no en el
nivel de fósforo (que es la varia.ble que observamos).
Efectuamos un análisis de la varianza (por ejemplo, al nivel o:= 0,05) para
llevar a cabo e te estudio. Disponiendo lo cálculos en forma de tabla como se ha
indicado tenemos:

Suma de Cuadrado
Fuente de variación cuadrados G. l. medio Estadístico

Entre grupo 2 32 3 0,77 F = l 51


Dentro de los grupos 7 08 14 0,5 1
Total 9,40 17
168 ESTADÍSTICA APLICADA

Además F m- l ; n - m: «= F 3; 14; o .os= 3,3439. Por tanto, aceptaremos la hipótesis


nula; es decir, no hay suficiente evidencia muestra[ para concluir que existen
diferencias significativas entre los niveles medios de fósforo de los cuatro lagos.
El problema expue to en esta sección constituye un breve re umen del tipo
de problemas que se abordan y anaJjzan en un modelo general de diseño de
experimento donde e con idera la posible influencia de varios factores sobre
una variable de respuesta.

4. Ejercicios
l. En un estudio (H. Bebbahani, Universidad de Florida 1977) acerca del
efecto de la ta a agua/ cemento obre la resistencia del material resultante
al cabo de 28 día , se obtuvieron los iguientes datos:

X= Tasa agua/cemento 1,21 1,29 1,37 1,46 1,62 1,79


Y = Resistencia 1,302 1,231 1,061 1,040 0,803 0,711
a) Ajustar un modelo de regre ión lineal simple, y = Po +P1 x, para expli-
car la resi tencia en función de la ta a agua/cemento.
b) Contrastar la hipótesis H O : p1 ~ O frente a H 1 : p1 <0 al ruvel a = 0,05.
Interpretar el re ultado.
e) Obtener un intervalo de confianza al 90 % para la resistencia media
cuando la tasa agua/cemento es 1 5. ¿Qué ocurriría con la amplitud
del intervalo de confianza corresponcliente a la tasa O 3?
2. Ci n talos de la planta acuática Lemna minar e colocaron en un tanque
que contenía una solución nutritiva mineral adecuada. Cada día se anotó
el número de talo exi tentes en el tanque. Lemna minor se reproduce
vegetativamente formando pequeños talos que pronto se eparan e inde-
pendizan dando lugar, a su vez, a la formación de pequeño talos. sta
forma de reproducción e análoga a la li ión rucotórnica de los organis-
mo unicelulares. En ausencia de factores limüantes este crecimiento
puede describir e por una función exponencial del tipo

donde x e el número de talos en el tiempo x, N O es el número inicial


para x = O y {31 es la tasa de crecimiento.
E ta función puede tran formarse en lineal memante aplicación de
logaritmo neperiano
log N_~ = log N 0 + {31 x

que ( i log N x = Y y log O = Po) queda en la forma


REGRESIÓN Y DISEÑO DE EXPERIMENTOS 169

En el experimento descrito se obtuvieron los siguientes valores:

Tiempo en días (x) O 1 2 3 4 5 6 7 8


Número de talos (N,J 100 125 169 246 336 436 586 867 1.090
log Nx= y 4,61 4,83 5,13 5,51 5,82 6,08 6,37 6,77 6,99

Con estos datos se han calculado las siguientes cantidades: I:x 1 = 36,
I:xf = 204 I: y 1= 52,11, I:y f = 307,37 y I:x¡y¡ = 226 83.
a) Obtener las estimaciones de /30 y /J1 .
b) Una vez obtenida la ecuación de predicción y = Po + P1 x, obtener la
que realmente interesa, N x= N 0 eP 1x.
e) Contrastar la hipótesis {J 1 = O al nivel a= 0,05.
3. Se ha medido la longitud y la anchura máximas en una especie de
aligustre. Los datos observados son:

Longitud 40 38 31 43 45 33 36 33
Anchura 21 19 17 22 25 16 19 17

¿Cuál es la correlación muestral entre ambos caracteres? ¿Cómo podría


predecirse la longitud en función de la anchura?
4. En un estudio publicado en el New England Journal of Medicine (1980) se
analiz.aba una variable relacionada con la función pulmonar (el flujo expira-
torio bajo ciertas condiciones) para seis grupos de pacientes: no fumadores
(NF), fumadores pasivos (FP), fumadores que no inhalan el humo (NI),
fumadores ligeros (FL), fumadores moderados (FM) y grandes fumadores
(GF). Los autores del estudio pudieron identificar 400 hombres dentro de
cada grupo, excepto en el grupo NI, en el que sólo consiguieron observar 100
hombres. En la siguiente tabla se dan lo valores obtenidos para las media y
las cuasivarianzas muestrales de los distintos grupos (en el orden indicado):

xi. (en 1/ s) 3 78 3,30 3,32 3,23 2,73 2 59


sf 0,79 0,77 0,86 0,78 0,81 0,82
Contrastar la hipótesis de que la capacidad pulmonar media {medida a
través de la variable indicada) es la misma en todos los grupos.
5. Según las estadísticas sanitarias del estado de Florida, las tasas anuales
(Y) de casos de tuberculosis (por 100.000 habitante ) registradas en dicho
estado desde el año 1967 hasta el año 1976 (ambos inclusive) han sido las
siguientes: 26,3, 26,1, 24,7, 22,8, 221 , 20,4, 19 O 17 7 19,3, 17 5.
a) Ajustar un modelo de regresión lineal simple, codificando adecuada-
mente los años {por ejemplo, tomar 1967 como «año cero»).
b) ¿Hay suficiente evidencia estadística (al nivel O05) para afirmar que
la tasa de enfermos tiende a decrecer?
170 ESTADÍSTICA APLICADA

(Tomando 1967=0, 1968= 1, etc., tenemos: Lx¡=45, LJ;=215,9,


!:xr =285, !:yr=4.76043 y LX¡y¡=884,1}.
6. Se desea estudiar la relación entre la intensidad de regadío (X) y la produc-
tividad (Y) de un cierto cultivo. Se han obtenido los siguientes resultados:

X¡: 9 10 13 15 18 13
y¡: 36 44 48 63 70 45

a) Ajustar un modelo de regresión lineal simple.


b) ¿Hay suficiente evidencia estadística (al nivel de significación 0,05)
para afirmar que la productividad tiende a aumentar con la intensidad
de regadío?
7. Uno de los índices más útiles para analizar la contaminación en las aguas
es la cantidad de oxígeno que contienen en disolución (a mayor contami-
nación menor cantidad de oxígeno disuelto}. Se ha hecho un estudio de la
contaminación en un óo tomando muestras en cuatro lugares diferentes
del río, y midiendo las respectivas cantidades de oxígeno en clisolución.
Los resultados obtenidos fueron:
Lugar 1: 5,9 6,1 6,3
6,1 6
Lugar 2: 6,3 6,6 6,4
6,4 6,5
Lugar 3: 4,8 5,2 5 4,7 5,1
Lugar 4: 6 6 2 6 1 5,8
¿Proporcionan estos datos suficiente evidencia (al nivel de significación
0,01) para inclicar diferencias significativas en la cantidad media de oxige-
no en disolución en los cuatro lugares observados?
8. El resumen de los resultados de un examen en cuatro grupos de una
misma asignatura, se presenta a continuación:
Grupo 1:
Número de alumnos: 104; calificación media obtenida: 4,99; cuasi-varianza
muestral: 4,19.
Grupo 2:
Número de alumnos: 102; calificación media obtenida: 4,63; cuasi-varianza
muestral: 5,75.
Grupo 3:
Número de alumnos: 69; calificación media obtenida: 4 53; cuasi-varianza
muestral: 5 15.
Grupo 4:
Número de alumnos: 80; calificación media obtenida: 4,79; cuasi-varianza
muestra!: 5,35.
REGRESIÓN Y DISEÑO DE EXPERIMENTOS 171

Admitiendo oonnalidad e igualdad de varianzas en los cuatro grupos, con-


trastar la hipótesis de igualdad de medias de todos los grupos, con un nivel
de significación 0,05.

9. En un hipermercado, se seleccionan al azar 64 hombres que entran a com-


prar, resultando que el tiempo medio que emplean en la compra es de 33
minutos con una cuasi-varianza de 126. Por otra parte, se seleccionan 70
mujeres, resultando que el tiempo medio que emplean es de 30 minutos con
una cuasi-varianza de 120. Admitiremos normalidad e igualdad de varianzas
para las variables aleatorias X= «Tiempo que emplea un hombre en la
compra» e Y= «Tiempo que emplea una mujer en la compra».
a) Hallar un intervalo de confianza para el tiempo medio que emplea un
hombre en la compra {al nivel de confianza 0,90).
b) ¿Se puede considerar probado, al nivel de confianza 0,90, que el tiempo
medio empleado por un hombre es superior al tiempo medio empleado
por una mujer en la compra?
e) Elegimos posteriormente, al azar, compradoras divididas en tres grupo
de edades: por debajo de los 30, entre 30 y 50, y por encima de los 50.
Los tamaños muestrales, los tiempos medios y las cua i-variaozas mues-
trales en estos tres grupos se indican a continuación:

n 10 15 10
ji 25 26 32
s2 110 130 120
Admitiendo normalidad e igualdad de varianzas en los tres grupos,
contrastar la hipótesis nula de que los tiempos empleados en la compra
son iguales en los tres grupos (tomar cx= 0,05).

10. Para estudiar la relación entre la densidad de la madera (X) y la resistencia a


la rotura (Y), se seleccionan al azar 10 vigas (con la mi roa sección) y se las
omete a una fuerza hasta que se rompen. Los resultados obtenido se
resumen a continuación:

LX¡= 4,951; ~ = 2,489; I,y,= 118,76; I i; = 1.415 704; LX;)'¡ = 59,207;


SR= 0,38
a) Ajustar un modelo de regresión lineal simple a estos datos (indicando
brevemente las hipótesis que se están asumiendo).
b) ¿Proporcionan estos datos suficiente evidencia estadística de que la
re istencia tiende a aumentar con la densidad de la madera? Tomar
cx= 0,01.

11. Se va a realizar un estudio comparativo de tres especies de pájaros (A, B y C)


que son irnilares y comparten el mismo hábitat. Se piensa que la duración en
172 ESTADÍSTICA APLICADA

en egundos del canto podiia ser un rasgo distintivo interesante. Para inves-
tigar e te hecho se han seleccionado tres muestras independientes de pájaros
de la e pecies A, B y C con tamaños respectivos n1 = 11 n2 = 9, n3 = 12. Las
medias y cuasi-varianzas de e tas tres mue tras bao sido las siguientes:

Especie Media Cuasi-varianza

A 1,09 0,0236
B 1,86 0,0364
e 063 00461

Suponiendo normalidad e igualdad de varianzas, contrastar la hipótesis nula de


que la duración media del canto es la misma para las tres especies (al nivel O05).

12. Matis y Wehrly (Biometrics, 35, marzo de 1979) estudiaron la proporción Y


de percas verdes que sobreviven cuando se les expone a un nivel fijo de
contaminación térmica durante tiempos X diferentes. Lo resultados fueron:

y 1,00 0,95 0,95 0,90 0,85 0,70 0,65 0,60 0,55 0,40
X 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55

a) Ajustar un modelo de regresión lineal para estudiar Y en función de X.


b) ¿Hay uficiente evidencia estadística, al nivel 0,05 para afirmar que la
proporción de superviviente tiende a disminuir cuando aumenta el
tiempo de expo icióo?

NOTA: I.x.=
1
3,25, "'"
~l
.= 7,55, ~l = 1,2625, L.Y:I =6,0725 I.x.v.
f'I
=2,1825·
SR= O045.

13. En cuatro ciudades, A, B, C y D, se hace un muestreo aleatorio sobre los


pe o (en Kg.) de los varones adultos con los siguientes resuJtado :

En A: tamaño muestra] = 10: media muestra! = 70,5; cuasi-varianza muestra! = 7,2


En B: tamaño muestra! = 12; media muestral = 71 ; cuasi-varianza muestral = 7 4
En C: tamaño muestra! = 13' media muestra! = 69 · cuasi-varianza muestral = 7,5
En D : tamaño muest:raJ = 11; media muest:ral = 75 ; cuasi-vruianza muestral = 71

Admitiendo normalidad e igualdad de varianzas:


a) ¿Se puede considerar e tadí ticamente probado que el peso medio en
A e m enor que en B al nivel de significación 0,10?
b) Contrastar la b.ipóte i nula de que los pesos medio on iguales en
la cuatro ciuda des, a l nivel de significación 0,10.
Soluciones de los ejercicios

l. Estadística descriptiva de una variable


l. Analizamos la variable estadística X= «Tiempo que tardan en morir». Lo
más relevante de estos datos es la comparación de la media con ]a mediana.
El tiempo medio que tardan en morir e .x =.! L X¡= 41,23 mientras que la
mediana es M = 36. n
Se ob erva que la media es apreciablemente mayor, como consecuencia
del dato 120. Probablemente, ese dato sea consecuencia de que durante
varias horas se dejó de ob ervar e] proceso. La mediana tiene la ventaja de
er una medida de centralización más robusta, es decir, más resistente a la
influencia de dato atípico que puedan proceder de diverso errores en la
medición.

2. La variable e tadí tica que vamos a analizar es X = «Puntuación obtenida en


el test de inteligencia». Tomando como marca de clase, x;, lo puntos me-
dios de los intervalos tenemos:

x = .!. I.n;X¡ = 60, 56; Desviación típica= .!. I, n;(X¡ - .x)2 = 10 44


n n

Podemos observar también que el 50% de los individuos tienen una pun-
tuación por debajo de 60, y el 50% restante por encima de 60. Por tanto, la
mediana sería M = 60.

3. En este caso, la variable estadística con iderada es X = «Número de hijos


por familia». Tenemos:

.x = ~ L x¡ = 2, 8· Desviación típica= ~ ~ I.(x¡ - x)2 =1, 77

173
174 SOLUCIONES DE LOS EJERCICIOS

Si colocamos todos los datos en orden creciente, los dos datos que
quedan en la po icione centrales on 3 y 3. Por tanto, la mediana es
M=3.

4. La variable e tadí ti.ca que consideramo e X= «Talla del recluta». El re-


presentante de cada clase, x;, será el punto medio salvo en la primera cla e
y en la última (que no tendría sentido). Podemos tomar por ejemplo como
representante dela primera clase el valor 147,5, y como representante del
último intervalo el valor 185. A partir de los porcentajes de cada intervalo
podemo obtener las frecuencia relativas J; (o tanto por uno). De este
modo, tenemo todo lo nece ario para calcular la media y la desviación tí-
pica:

x = I.J;x; = 168,29; Desviación típica= ~ °I,J;(x; -.x)2 = 6, 73


Finalmente, podemos observar que hasta la altura 165 se han acumula-
do el 30,8% de los datos, y ha ta la altura 170 e han acumulado el 61,3%
de lo datos. Por tanto, la mediana se encontrará en el intervalo (165, 170),
seguramente má cerca del valor 170 que del valor 165.

S. En e te ejercicio, vamo a analizar la variabJe estadística X= «Tamaño del


huevo». Tomando como representante de cla e xi lo puntos medios de los
intervalos, calculamos:

x =~ 'I,n;X; = 16,54; De viación típica= ~ ; Ln;(X; -x)1 =O, 73

Por otra parte, ob ervamo que de los 243 huevos in peccionado , 89 de


ellos (meno del 50%) tienen un tamaño inferior a 16,25, núentra que 140
(má del 50%) tienen un tamaño inferior a 16,75. Por tanto, la mediana e -
tará situada entre 16 25 y 16,75.

6. a) Dividiendo lo datos por 10, tenemos los iguientes diagramas de tallos


y bojas:

5 5 8
6 5 6 810
7 46 7 81877
8 558 8 82002
9 0358883 9
lO 70 10 5
SOLUCIONES DE LOS EJERCICIOS 175

b) Con lo datos de Michel on x = ..!.. I, X; = 897, lo cual da una veloci-


n
dad media para la luz de 299897 km/seg, y «Desviación típica» =

~± I,(x; - x)2 =105,3.


Con los datos de Newcomb, x =..!..LX;= 763, lo cual da una velo-
n
cidad media para la luz de 299763 km/ eg, y «Desviación típica» =

= ~~ I,(x; - x) 2 = 116, 7.
e) Según se desprende de la observación de los diagramas de tallos y ho-
ja y de los valores de las desviaciones típicas, la dispersión es pareci-
da en ambos conjuntos de datos; sin embargo, las mediciones obtenidas
son ligeramente superiores (en conjunto) en el experimento de Mi-
chelson, como se observa en las medias y en los diagramas.

7. Redondeando los datos a cinco cifras significativas tenemos e] siguiente


diagrama de tallos y hojas:

2298 29959
2299 4
2300
2301 · 48
2302
2303
2304
2305
2306
2307
2308
2309 9
2310 210233

Hay una clara separación de Jos pesos del nitrógeno obtenidos por pro-
cedimientos físicos y de los obtenidos por procedimientos químicos. Esto e
debe a que al uprirnir el oxígeno del aire por procedimientos físicos, no
queda sólo nitrógeno.

8. En primer lugar, podemos representar los datos sobre la variable estadística


X= «Den idad de la tierra» con un diagrama de tallos y hojas:
176 SOLUCIONES DE LOS EJERCICIOS

48 8
49
50 7
51 O
52 6997
53 64940
54 4276
55 05873
56 15238
57 95
58 5

Ordenando los datos de menor a mayor, la mediana sería el dato que


ocupa el puesto decimoquinto: M = 5,46.
Podemos calcular también la media y la desviación típica:

Podemos observar que la media y la mediana son muy simi]are ; esto e


con ecuencia de la imetr:ía que e puede apreciar en el diagrama de tallos y
hoja.

9. Para la variedad normal ob ervamos que los valore intermedio (una vez
ordenados de menor a mayor) on 356 y 360; por tanto, la mediana e M =
358. Ademá :

x=~Lx; =366 30; Desviación tipica= ~ ~I,(x; -xl = 49,52

Para la variedad mejorada ob ervamo que ]os valores intermedios (una


vez ordenados de menor a mayor) son 406 y 407; por tanto, la mediana es M
= 406,5. Además:

x =~LX;= 402, 95; Desviación típica= ~~ l:,(x; -x) 2 = 41,65

En consecuencia, observamos que los pe o medios y medianos au-


mentan bastante con la variedad mejorada. Sin embargo la dispersión (de -
viación típica) disminuye claramente con la variedad mejorada. En resumen
la variedad mejorada con igue pollos de más peso que la variedad normal y
más homogéneos.
SOLUCIONES DE LOS EJERCICIOS 177

10. En primer lugar, podemos disponer los datos en un diagrama de tallos y hojas:

9 17771
10 14818585888418
11 333388
12 383
13
14 1
15
16
17
18 8
A la vista de e te diagrama es natural esperar que la media sea ligera-
mente superior a la mediana, como consecuencia de los dos consumos
grandes que se apartan de la tónica general. En efecto, disponiendo los da-
to en orden de menor a mayor, observamos que los dos consumos inter-
medios son 10,8 y 10,8. Por tanto, la mediana es M = 10,8. La media es algo
superior, como era de esperar:

x =.!_LX¡= 11,14
n

11. La variable estadística analizada en este ejercicio es X = «Edad de la madre


en el momento del parto». Tomando los punto medios de lo intervalo
como representantes, X¡, de dichos intervalos, tenemos:

Podemo también observar que el 51 % de los partos tienen lugar antes


de lo 30 años. Esto significa que la edad mediana de la madre se situaría
por debajo (pero muy cerca) de esos 30 años.

12. Analizamo la variable e tadí tica X = «Peso al nacer»:

x=.!.L,n¡X¡ =33,14; De viación típica= .!:..rn¡(X¡-x)2 =5,17


n n

Observando que el 48% de los pe os e sitúa por debajo de 32,5, con-


cluímos que el peso mediano al nacer se itúa un poco por encima de lo
3250 gramos.
178 SOLUCIONES DE LOS EJERCICIOS

2. Estadística descriptiva de dos variables

l. En este caso, tan razonable es hacer una regresión lineal de Y sobre X, como
de X sobre Y. Haremos, por ejemplo, una regresión lineal de Y sobre X:

- covx,y -
y-y=--(x-x) => -6 625= 9· 5156 (x -27 875) =>
vx y ' 61,8593 '
y= 2,34 + 0,15x

2. El diagrama de dispersión de Y = «Ventas» obre X = «Gasto en TV» pone


de manifiesto que, más que una relación lineal, se observa una relación de
tipo logarítmico. Por este motivo, planteamos una regresión logarítmica de
Y obreX:

y =a+ b log x => Regresión lineal de Y sobre U =Iog X =>


covu 6 9488
y-y=--'- y (u-u) => y -77,29= (u+0,3553) =>
v,. 0,1023
y=I01,42+67,93u => y=l01,42+67,93logx

Para evaluar el ajuste logarítmico efectuado, calculamos:

covu,y
r,,, y = ~ =0,90
'V V"VY

El ajuste logarítmico es francamente bueno.

3. Podemos considerar las variables e tadí tica X= «Número de vendedores»


e Y= «Ventas» y hacer una regresión lineal de Y sobre X:

- covx,y -
y-y= - - (x-x) => y-2 77 = 5•75 (x - 26 8) =>
vx ' 48,56
y = 0,12x - O 40

Podemos medir la bondad de e te aju te mediante el coeficiente de co-


rrelación entre X e Y:

r=covx, y = 5,75 = 098


~ vxvy ..j(48,56)(0, 71) '
SOLUCIONES DE LOS EJERCICIOS 179

El modelo de regresión lineal expre a muy bien la relación entre lo in-


gresos anuales y el tamaño de su equipo de ventas (dentro de los tamaños
considerados).

4. La recta de regresión de Y sobre X viene dada por:

- covx,y -
y - y = - - (x -x) => - 21267 = 1•0361 (x-13733) =>
vx y ' 4,3874 '
y= 0,24x + 1,80

El coeficiente de correlación lineal es:

r = covx,y = 1,0361 =O 21
~vxvy ..j(4,3874)(5,3571) '

El ajuste es bastante malo: la recta de regresión no expresa bien Y en


función de X.

5. Tenemos 5 pares de datos sobre las variables estadísticas Y= «Número de


hijos» y X= «Año». Hallamos la recta de regresión de Y sobre X:

y = 52,2566 - 0,0255x.

El número de hijos e timados en 1996 sería:

y= 52,2566-0,0255(1996) = 1,36.

6. a) Queremo expresar Y= «Número de manatíe muertos» en función


de la variable explicativa X= «Número de licencias (en miles)».
b), e) y d) El diagrama de dispersión o nube de punto nos dice que parece
haber una estrecha relación lineal entre X e Y. La variables están aso-
ciadas positivamente ya que los valores de Y crecen al crecer los de X.
e) Podemos hallar la recta de regresión lineal de Y sobre X y el coeficiente
de correlación lineal entre X e Y:

y = 0,1249x - 41,4304; r= 0,94.

La relación e fuerte ya que r está próximo a l. Podemos utilizar la rec-


ta de regresión para predecir, razonablemente bien, el número de manatíes
muertos cuando X= 700:

y= 0,1249(700) - 41,4304 = 46.


180 SOLUCIONES DE LOS EJERCICIOS

7. Lo que el profesor Cruz quería decir es que no existe relación apreciable (ni
a favor ni en contra) entre la capacidad inve tigadora y la capacidad docen-
te. E decir, entre los buenos investigadores hay buenos y malos docentes, y
lo mismo ocurre entre los malos investigadores.

8. a), b) y e) En el diagrama de dispersión de Y= «Pasos por segundo» sobre


X= «Velocidad» se puede apreciar una fuerte relación lineal positiva. Ha-
llamos la recta de regre ión de Y sobre X y el coeficiente de correlación:

y= 1,771 + O 263x; r= 0,999.

En efecto, el aju te que proporciona la recta de regresión es muy bueno


(r muy próximo a 1). Esta recta puede utilizarse para predecir (aproxima-
damente) el número de pa o por egundo a partir de la velocidad.

9. a), b) y e) En efecto la recta de regre ión de Y sobre X y el coeficiente de


correlación son iguale para los tre conjuntos de datos:

y= 3 + 0,5x; r= 0,82.

Sin embargo, el único caso en que se utilizaría la recta de regresión para


predecir el valor de Y cuando X= 14, sería en el primero:

y = 3 + 0,5(14) = 10.
10. Tenemos:

- covx,y -
y - y = - -(x- x ) ~ y-3111 = 837•6 cx - 39 4) ~
vx 4,64 '
y = 180,52x - 4001,38

El pe o aproximado de un niño que nace tras 40 semanas de gestación


sería:

y= 180,52(40)-4001 38 = 3219 gramo .

Podemo medir la bondad del aju te mediante el coeficiente de correla-


ción entre X e Y:

r = covx,y = 837,6 =0,97


~ vxvy ..j(4,64)(160383,2)

El ajuste e muy bueno.


SOLUCIONES DE LOS EJERCICIOS 181

11. a) Representamos los datos en un diagrama de dispersión de Y= «Pobla-


ción (en millones)» obre X= «Año», haciendo un sencillo cambio de
origen en los año (para facilitar los cálculo po teriores). En concreto,
llamamos año O al 1750, año 50 al 1800, y así uce ivamente. El dia-
grama que se obtiene es de tipo exponencial, cosa que era de esperar,
tratándose de la evolución de una población.
b) Si representamo un diagrama de dispersión de U= log Y sobre X,
observamos que tiene un aspecto lineal, lo cual sugiere hacer una re-
gresión lineal de U = Iog Y sobre X.
Por supuesto, podemos hacer un razonamiento directo a partir del dia-
grama de Y sobre X. A la vista de este diagrama de di persión, conviene ha-
cer una regresión exponencial de Y obre X:

y =a,ehx ==> log y = lag a + bx ==>


-
Regre ión lineal de U= log Y obre X ==> u - u =-covx u
- · - (x -
-
x) ==>
vx
u = 4,835 + 0,008 x ==> Iog y = 4 835 + 0,008 x =>
y= 125,839 e0 •008 " .

Para evaluar este ajuste exponencial, podemos calcular el coeficiente de


correlación lineal entre U = log Y y X:

lo cual corrobora la impresión visual de que el ajuste exponencial es muy


bueno.

12. En efecto, el diagrama de disper ión de Y sobre X nos sugiere un modelo de


regresión logaritmica de Y obre X:

y = a log x + b ==> Regre ión lineal de Y sobre U = log X ==>


covu y 9 497
Y -y-=--' (u-u) ==> y-1143= ' (u-2 08) =>
vu ' 1,9193 . '
y= 1,14 + 4,95 U ==> y= 1,14 + 4,95 log X

Para evaluar el ajuste logaritmico efectuado, calculamos:

- covu,y -
r;,,y- ~ -0,99
'\Jvuvy

El ajuste logaritmico efectuado es muy bueno.


182 SOLUCIONES DE LOS EJERCICIOS

13. Lo natural e tratar de expresar el porcentaje de bacilos uperv1v1entes en


función del tiempo de exposición. Por eso, baremos regresiones de Y sobre X.
Regresión lineal de Y sobre X:

y = 36,48 - 3,60 X ; rX,'j = -0,53.

El ajuste lineal no es muy bueno.


Regresión exponencial de Y sobre X:

y = aebx => log y = log a + bx =>

Regresión lineal de U = log Y sobre X => u - u- = -


COVX " -
-·-(x - x) =>
vx

u-O 083= -l 6 , 04 cx-4 44) => u=3,1213-0,6843x =>


' 23,44 '
log y= 3,1213-0,6843x => y= 22,68e-0·68 x

Para evaluar este aju te exponencial, calculamos el coeficiente de co-


rrélación lineal entre U = log Y y X:

covx "
r.'C, 11 = - -·- =-0 94
e-:-:-
,¡ V X v"

En e te ca o, el ajuste exponencial es mucho mejor que el aju te lineal.

14. a) Haremos una regresión lineal y una regre ión exponencial de Y sobre X
que podremos utilizar en el apartado c).
Regresión lineal de Y obre X:

y= 12,310 - 7,588 x; rX,)' = 0,984.

El aju te lineal es muy bueno.


Regresión exponencial de Y sobre X:

y = aebx => log y = log a + bx =>


- covx, u -
Regre ión lineal de U = Iog Y sobre X => u - u =- -(x - x ) =>
vx
u = 2,567 - O, 995x => log y = 2,567 - O, 995x =>
cov
Y = I3 ' 027e-0,995x . rX, U =r::-::-
~ = O 998
'
,t Vx V,.
SOLUCIONES DE LOS EJERCICIOS 183

Por tanto, el ajo te exponencial es todavía mejor.

b) AJ tratarse de la evolución temporal de una población, pensamos ini-


cialmente en una regresión exponencial de X sobre T. El cliagrama de
clisper ión de X sobre T nos confirma esta idea inicial:

x = ae1" => log x = Iog a + bt =>


cov, z -
Regresión lineal de Z = log X sobre T => z- z= --·-(t- t) =>
v,
Z = - 2,605 + 0 919 t => log X= -2,605 + 0,919 t =>
X= 0,074 e 0,919 r.

e) Primero utilizamos el modelo exponencial del apartado b) para estimar


el peso celuJar que había al cabo de 36 hora :

X= 0,074 e 0,9 t9(l,S) = 0,294.


Después, utilizamo el ajuste exponencial del apartado a) para estimar la
cantidad de nitrato que queda al cabo de 36 hora :

Y = 13,027 e--0.995(0.294) = 9,72.

15. Lo razonable es elegir una regresión exponencial de Y sobre X:

y =aehx => log y =log a + bx =>


cov
Regresión lineal de U = Iog Y sobre X => u - u = ~ (x - x) =>
vx
1,024
u+0,768= - 2 - (x -3) => u = 0,512x- 2,304 =>
log y= 0,512 X - 2,304 => y = 0,0999 eº·512 x.

16. a) rX.Y = - 0,75.


1
b) y = a + b - => Regresión lineal de Y sobre Z = 1/X =>
X
cov
y -y= ~ (z -z) => -1 6714 = O,OlZS( - O 5326) =>
vz y ' O 0074 z '
y = O, 75+ 1,73z => y= O, 75 + 1, 73 f

17. a) Hacemos una regre ión logarítmica de Y sobre X:


184 SOLUCIONES DE LOS EJERCICIOS

Regresión lineal de Y sobre U = log X =>


y = a + b log x =>
_ cov y _ 11 O 4069
y-y=--' (u-u) => y-314= ' (u - 13158) =>
V11 ' 0,1507
y=2,70u-0,41 => y=2,70logx-0,41.
b) Cuando X= 3,5, tenemos:

y= 2,70 log (3,5) - 0,41 = 2,97.


18. La representación de la nube de puntos sugiere, precisamente, un ajuste lo-
garítmico de Y sobre T:

y = a + b log t => Regresión lineal de Y sobre U = log T =>


cov,, y 1 3897
Y -y-=--' (u-u) => y-5 7625= ' (u-13250) =>
VII ' 0,4344 '
y= 3,20 u+ 1,52 => y= 3,20 log t + 1,52.

Cuando T= 2,5, tenemos:

y= 3 20 log (2,5) + 1,52 = 4,45.

3. Probabilidad
l. a) P(A)P(B) = (0,06)(0,08) = 0,0048 ::¡:. P(A n B) = 0,04.
Por tanto, lo fallo de A y B no son independientes.

b) P(AIB)= P(AnB) = 0,04 = 0 5


P(B) 0,08 '

2. a) P (Leer al meno uno) = P(A u B u C) = P(A) + P(B) + P(C)- P(A n B) -


P(A n C) - P(B n C) + P(A n B n C) = 0,30 + 0,20 + 0,15 -0,12 -
0,09 - 0,06 + 0,03 = 0,41 => 41 %.
b) P (Leer sólo A) = P(A u B u C) - P(B u C) = P(A u B u C) -
[P(B) + P(C) - P(B n C)] = 0,41 - (0,20 + 0,15 - 0,06] = 0,12 => 12%.
e) P (Leer B o C, pero no leer A)= P(A u Bu C) - P(A) = 0,41 - 0,30 =
0,11 => 11%.

3. Tenemos que para i = 1 ... ,6: P(i) = ki.


Obtenemos k de la iguiente ecuación:

6 6
1 =¿P(i) = L,ki =21k => k= _!_
21
i= l i= l
SOLUCIONES DE LOS EJERCICIOS 185

Luego:

2 4 6 12
PWar)= ~+~ + -=~
21 21 21 21

4. Si representamos a los niños por V y a las niñas por H, tenemos que el es-
pacio muestral es:

Q = (H, VH, WH, VWH, WWH, VWW}

a) P (Más niños que niñas) = P (VVH) + P (VVVH) + P (VVVVH) +


P (VVVVV) = (l/2) 3 + (1/2)4 + (l/2)5 + (l/2)5 = 0,25.

b) .. 1 .
P(3 hlJOS m· , ) P(3 hijo y primer hijo varón)
pnmer JO varon = - - - - - - - - - -
?(primer hijo varón)

= P(VVH) = (1/2)3 =0 25
1-P(H) 1- (1/2) '

S. Cuando ha preparado 5 temas (y por tanto no sabe los otros 9), tenemos:

P (Aprobar)= P (Saber al menos uno)= 1-P (No saber ninguno)


=1 - P (No saber el primero y no saber el segundo)
= 1 -P (No saber el primero) P (No saber el segundolNo saber el primero)
9 8
=1---=0 6044
1413 '

Se hace notar que exigir la ocurrencia de do condicione es Jo mismo


que hablar de su intersección.
Para contestar a la segundo cuestión, calculamos la probabilidad de
aprobar cuando aben temas (y por tanto no sabe 14 - n tema ):

P (Aprobar)= P (Saber al menos uno)= 1- P (No saber ninguno)


=1 -P (No saber el primero y no saber el segundo)
=1 - P (No saber el primero) P (No saber el segundolNo saber el primero)
14-n 13 -n 27n.-n2
=l-----=---
14 13 182

Ahora es muy fácil comprobar que tiene que e tudjar al menos 4 temas
para tener una probabilidad de aprobar superior a 1/2. De hecho la proba-
bilidad en este caso es 0,5055.
186 SOLUCIONES DE LOS EJERCICIOS

6. Aplicamo la regla de la probabilidad total:


P (Seg. def.) = P (Prirn. def.) P (Seg. def.lPrim. def.)
+ P (Prim. no def.) P (Seg. def.lPrim. no def.)
32 53
=--+--=O 3415
87 88 '
7. P (Al menos do coincidencias) = 1 - P (Ninguna coincidencia)
= l - 365 X 364 X ... X 341
365 25

8. Por un lado están los números del 00 al 09; la probabilidad de cualquiera de


ellos e calcula de la mi ma forma. Por ejemplo:
P (08) = P (Primera = Oy Segunda = 8)
= P (Primera= O) P (Segunda= 81Primera = O)
1 1 1
=--=-
210 20
Por otro lado e tán los números del 1O al 14; la probabilidad de cual-
quiera de ello también e calcula de la misma forma. Por ejemplo:
P (12) = P (Primera= 1 y Segunda= 2)
= P (Primera= 1) P (Segunda= 21Primera = 1)
11 1
=--=-
2 5 10
Por tanto, con este istema, las probabilidade de lo diferente recluta
no son todas iguales.

9. P(O blancos)= (0,9)(0,8)(0,7).


P(J blanco)= (0,1)(0,8)(0,7) + (0,9)(0,2)(0,7) + (0,9)(0,8)(0,3).
P(2 blanco ) = (0,1)(0 2)(0,7) + (0,1)(0,8)(0,3) + (0,9)(0,2)(0,3).
P(3 blanco ) = (O, 1)(0,2)(0,3).
P(Al meno un blanco)= 1 - P(O blanco ) = 1 - (O9) (0,8) (O 7).

10. P(X pueda recibir sangre de Y) = P(X = A e Y = A) + P(X = A e Y = O) +


P(X = B e Y= B) + P(X =B e Y= O) + P(X = AB e Y= AB) + P(X =AB e Y=
A) + P(X = AB e Y = B) + P(X = AB e Y = O) + P(X = O e Y = O) =
(0,43)(0,43) + (0,43)(0,45) + ... = 0,66.

11. P(Revi ar)= P(Más de un defectuoso)


= 1 - P(O defectuo os) - P(l defectuo o)

= 1- (95,2)5º -so(4, 8 )(95,2)49 =O 6990


100 100 100 '
SOLUCIONES DE LOS EJERCICIOS 187

12. Puesto que los lanzamientos son independientes, tenemos:


P(Tema 1) = P(Primero sale 1) + P(Primero sale 6 y Segundo ale 1) + ...
= P(Primero sale 1) + P(Primero sale 6)P(Segundo sale 1) + , ..
1 11 111 1/7 1
=-+ - -+---+ ... = =-
7 77 777 1-1/7 6

13. En este caso, llamando x al instante de llegada del estudiante número 1, e y


al instante de llegada del estudiante número 2, podemos representar el es-
pacio muestra! de la siguiente forma:
Q = [O 1] x [0,1] = { (x, y): O$ x ~ 1; O~ y~ 1}

El hecho de que lleguen al azar se interpreta como que todos los ins-
tante de llegada tienen la misma «probabilidad». Esto se traduce en que uti-
lizaremos la regla de Laplace (convenientemente adaptada) para calcular
probabilidades. En este caso, el suceso A = (Se encuentran) es el indicado en
la siguiente figura:

Por tanto:

Área (Ac)
P(Se encuentran)= P(A) =1- P(A e)= 1- Ár
ea (.Q)
9 7
= l- - = -
16 16

14. Tenemo do tipo de información: porcentaje de producción de cada má-


quina y porcentajes de defectuosas para cada máquina. Estas informaciones
se traducen en las siguientes probabilidades.

P(A) = 200 = ~- P(B) = 300 = l. P(C) = 400 = i


900 9 ' 900 9 900 9
P(def.lA) =O, 04; P( def.lB) = O 05· P(defJC) =O, 02
188 SOLUCIONES DE LOS EJERCICIOS

a) Aplicamo la regla de la probabilidad total:

P(def.) = P(A)P(def.lA) + P(B)P(def. lB) + P(C)P(def.lC)


2 3 4
= - (0,04)+-(0,05) +-(0,02) =0,0344
9 9 9

b) Aplicamos la regla de Bayes:

Ico,o4)
P(Aldef.) = P(A)P(def.lA) =9 = 0,2584
P(def.) 0,0344

15. Tenemos dos tipos de información: porcentajes de cada grupo y porcentajes


de ojo claros dentro de cada grupo. Estas informaciones se traducen en las
siguiente probabilidades.

P(A) =0,3; P(B) = 0,1; P(C) = 0,6


P(claroslA) = 0,2; P(claroslB) = 0,4; P(claroslC) = 0,05

a) Utilizamo la regla de la probabilidad total:

P(claros) = P(A) P(claroslA) + P(B) P(claroslB) + P(C) P(claro IC)


= (0,3)(0,2) + (0,1)(0,4) + (O 6)(0,05) = 0,13.

b) Aplicamo la regla de Baye :

P(Aloscuros) = P(A)P(oscuro IA) = (0,3)(0,8) =0, 276


P(o cw·os) 1-0,13

e) Utilizando la regla de Bayes, obtenemos la iguientes probabilidades


condicionadas:

P(Alclaros) =0,46; P(Blclaros) =0,31; P(Clclaros) = 0,23

Por tanto, es más probable que sea de A ya que el 46% de los que tienen
ojo claros pertenece a e te grupo.

16. Conocemos las siguiente probabilidades:

P(A) =0 ,50; P(B) = 0,40; P(C) = 0,10;


10
P(enf.lA) = - = O 1· P(enf.lB) = - 1 = O 01" P(enf.lC) = - 5 = O 005
100 '' 100 1000
SOLUCIONES DE LOS EJERCICIOS 189

a) P(enf. y A)= P(enf. n A)= P(A) P(enf.lA) = (0,50)(0,1) = 0,05.


b) Usando la regla de Bayes:

P(Blenf.) = P(B)P(enf.lB)
P(A)P( enf.lA) + P(B)P(enf.lB) + P( C)P( enf.lC)
= (0,40)(0,01) = 0,0734
(0,50)(0,1) + (0,40)(0,01) + (0,10)(0,005)

17. a) Mediante la regla de la probabilidad total:

P(hijo en A)= P(A2 ) = P(A 1)P(~IA 1) + P(M1)P(A}M1) + P(B 1)P(A2IB 1)


=(0,10)(0,45) + (0,40)(0,05) + (0,50)(0,01) =0,07.
Es decir el 7% de los hijos tiene empleos altos.

b) Utilizando la regla de Baye :

P(padre en Alhijo en A)== P(A11~) = P(A¡)P(~ IA¡)


P(A 2 )
= (0,10)(0,45) = O 64
O, 07 '

18. a) Consideraremo que la vacuna es eficaz si P(enf.lvac.) < P(enf.lno


vac.).
Tenemo:

P(enf.lvac) = P(enf.)P(vac.lenf.) = P(enf.)(1/ 5) = 12 P(enf.)


P(vac.) 1/ 4 15
P(enf.lno vac.) = P(enf.)P(no vac.lenf.) = P(enf.)(4/ 5) = 16 P(enf.)
P(no vac.) 3/ 4 15

Por tanto, la vacuna e eficaz.

b) El nuevo dato que no aportan es que P(enf.lvac.) == 1/12. Por tanto,


P(enf.) = 5/48 y P(enf.lno vac.) = 1/9.

19. a) P(po . y enf.) = P(po . n enf.) = P(enf.)P(pos.lenf.)


== (O 001)(0,96) = 0,0010
P(pos. y no enf.) = P(pos. n no enf.) = P(no enf.)P(po .lno enf.)
== (1- 0,001)(1 - O 99) = O 0100
190 SOLUCIONES DE LOS EJERCICIOS

P( enf .pos P(em.)P(pos.lenf.)


1 ) = - - - -- -
b) -- ~ - - - - - - -
P(enf.)P(pos.lenf.) + P(no enf.)P(pos.lno enf.)
= (0,001)(0,96) = O 0877
(0,001)(0,96) +(1-0,001)(1-0,99) '

Como se puede observar, la probabilidad de padecer cáncer habiendo


dando positivo en la prueba es muy baja. Pero esto es lo que ocurre siempre
que e lleva a cabo una prueba sistemática sobre una enfermedad de poca in-
cidencia; por este motivo, no suelen ser aconsejables.
20. Al tratarse de una prueba sistemática para detectar un fallo de poca inci-
dencia, es de e perar que la probabilidad de que sea defectuosa habiéndola
rechazado ea pequeña; en efecto:

P(def.lrecb.) = P(def.)P(recb.ldef.)
P(def.)P(recb.ldef.)+ P(no def.)P(rech.lno def.)
= (0,005)(0,96) =O 0880
(O, 005)(0, 96) + (1- O 005)(0 05) '

21. a) En e te apartado estarna tratando con una prueba sistemática para de-
tectar una enfermedad de e ca a incidencia:

P( enf.po.
l ) -- P(enf.)P(po .lenf.)
P(enf.)P(pos.lenf.) + P(no enf.)P(po .lno enf.)

- 1 - (0,9)
= 10000 = O 0089
_ 1 _ (0 9)+ 9999 (O 01) '
10000 ' 10000 '

Como era de esperar, la probabilidad es muy pequeña.


b) En este apartado, al haber íntomas de la enfermedad (pérdida de ape-
tito e ictericia), la probabilidad a priori de estar enfermo es mucho
mayor (50%), y ya no e trata de una prueba i temática para detectar
una enfermedad de esca a incidencia; el e cenario cambia completa-
mente y la probabilidad final también:

P(enf.lpo .) = P(enf.)P(po .lenf.)


P(eof.)P(pos.lenf.) + P(no enf.)P(po .lno enf.)
= (O S)(O 9) = O 9890
(0,5)(0,9)+(0,5)(0,01) '

22. Tenemo tre tarjeta (RR, RB y BB), todas con la mi ma probabilidad (1/3).
SOLUCIONES DE LOS EJERCICIOS 191

a) Aplicamos la regla de la probabilidad total:


P(cara roja)
= P(RR)P(cara rojalRR) + P(RB)P(cara rojalRB) + P(BB)P(cara rojalBB)

=(1 / 3)(1) + (1/ 3)(1 / 2) + (1/ 3)(0) =.!_


2

b) Ahora aplicamos la regla de Bayes:

. ) P(RR)P(cara rojalRR)
P<RRI cara roJa =
P(cara roja)
= (1/3)(1) = 2
1/2 3

23. a) P(pescar) = P(A)P(pescarlA) + P(B)P(pescarlB) + P(C)P(pescarlC)


=(3/20)(3/5) + (7/20)(2/7) + (10/20)(2/7) =0,3329.
P(B)P(pescarlB)
P(BI pescar) = _ _
b) ....;a._._ _

P(pescar)
= (7 /20)(2/7) = o 3004
0,3329 '

e) P(Ninguna es A)= P(primera no es A y segunda no es A)


= P(primera no es A)P(segunda no es Alprimera no es A)
= (17/20)(16/19) = 0,7158.
24. Aplicamos la regla de Bayes:

P(n fallos)P(no func.ln faUos)


P(n fall os Ino fun c. ) = - - ---------
.L~=0 P(n fallos)P(no func.ln fallos)

.!.l..(1 - (1/2)"]
= en!
°" .!._!_[1 - (1/ 2)"]
00

~n=Oe n!

.!l[l-(l /2)"]
= e ni
.!"'00 _!_ _ .! "'00 _(11_2_)"
e ,¿_n=O ni e ,¿_n=O n!

_!__!_ [1-(1/2)"] .!l[l - (1/2)" ]


_ en! _ -=e...:..::n.:....
! _ __
- 1 1 112 - 1- e-112
- e- - e
e e
192 SOLUCIONES DE LOS EJERCICIOS

25. Para implificar la notación, escribiremo la información de la que dispo-


nemo de la iguiente forma:

A= {Las 3 personas entrevistadas de ese vuelo viajan por motivos per-


sonales}
Ahora, u amo la regla de Bayes:

P(charterlA) = . P(charter)P(Alcbarter)
P(charter)P(A Icharter) + P(oac.)P(Aloac.) + P(int.)P(Alint.)
= (O, 25)(0, 90)3 =O 7632
(0,25)(0,90)3 +(0,30)(0,10) 3 +(0,45)(0,50)3 '

26. Para simplificar la notación, e cribiremo la información de la que dispo-


nemo de la iguiente forma:

B == {3 diana de 4 di paro }

Ahora, u amos la regla de Bayes:

P( profie orIB) = P(profesor)P(Blprofesor)


P(profe or)P(Blprofe or) + P(alumno)P(Blalumno)
= (0,05)(4(0,90)3 (0,10)] =O 57
(O, 05)[ 4(0, 90)3{0, 10)] + (O, 95)[4(0, 15)3 (O, 85)] '

27. a) P(Uno en Junio y Uno en Septiembre y Uno no apruebaltarde)


= P(El primero en Junio n El segundo en Septiembre n El tercero no
apruebaltarde) + ... = (0,40)(0,20)(0 40)3 ! = O, 1920.
b) Aplicamo la regla de Baye :

. )
P(tardeIJ umo P(tarde)P(Junioltarde)
= - - - - -- - - - - - - - - - - - -
P(tarde)P(Junio!tarde) + P(mañana)P(Juniolmañana)
= (0,40)(0,40) = O 4706
(O, 40)(0, 40) + (O, 60)(0, 30) '

28. a) Lo cuatro posibles caso procedentes de un cruce de Bb con Bb son:


BB Bb, Bb y bb. Suprimiendo el último ca o (ya que vemos que el ra-
tón es negro), tenemo :

P(BB) == 1/3; P(Bb) = 213


SOLUCIONES DE LOS EJERCICIOS 193

b) Para simplificar la notación, escribiremo la información de la que


di ponemos de la siguiente forma:
H = { Se obtienen 7 ratones negros en el cruce con bb J
Ahora usamos la regla de Bayes:

P(BBIH) = P(BB)P(HIBB)
P(BB)P(HIBB) + P(Bb )P(HIBb)

= (1/ 3)(l) = O 9846


(1/3)(1)+(2/3)(112)7 '

29. a) Lo cuatro posibles caso procedentes de un cruce de ratones portado-


res (Bb con Bb) son: BB, Bb, Bb y bb. Suprimiendo el último ca o (ya
que sabemos que el ratón no está enfermo), tenemos:
P(BB) = 1/3· P(Bb) =2/3
Por tanto, la probabilidad de que ea portador es 2/3.
b) Para simplificar la notación, escribiremos la información de la que
di ponemos de la siguiente forma:
H = {Se obtienen 2 ratones no enfermos en el cruce con bb J
Ahora u amo la regla de Bayes:

P(BblH) = P(Bb)P(H1Bb)
P(BB)P(HIBB) + P(Bb )P(HIBb)

= <213)(1/ 2 )2 =0 3333
(1/ 3)(1) + (2 / 3)(112)2 '

30.
¡
Lo primero que hacemos notar es que P(A = NN) = 1/2 y P(A = Nn) = 1/2,
al proceder de un cruce de NN con Nn.
a) P(2 negro y tre blancos)
= P(A = NN) P(2 negros y tres blancoslA = NN)
+ P(A = Nn) P(2 negros y tre blanco 1A =Nn)

=i(O)+HG) (1/2)' ]= 0,1563

b) P(A = NNl3 negros)


P(A = NN)P(3 negroslA = NN)
=- - - - - - -- - - - ~ - - - - - - - - -
P(A = NN)P(3 negroslA = NN) + P(A = Nn)P(3 negroslA = Nn)
= (1/Z)(l) = O 8889
(1/2)(1)+(1/2)(1/2)3 '
194 SOLUCIONES DE LOS EJERCICIOS

31. a) En primer lugar, calculamo las igttiente probabilidades, de compo-


niendo lo ucesos en casos elementales y aplicando la regla de la
multiplicación:

8 7
P(2 sanos)= ?(Primero ano y Segundo sano)= - - =-56
10 9 90
P(l sano y 1 enf.) = P(Primero sano y Segundo enf.)
. 8 2 2 8 32
+P(Prunero enf. y Segundo sano)= - - + - - = -
10 9 10 9 90
P(2 enf.) = ?(Primero enf. y Segundo·enf.) = ~ .!_ = _?_
10 9 90

Ahora, aplicamos la regla de la probabilidad total:

P(vivos) = P(2 sanos)P(vivos12 sanos)


+ P(l sano y l enf.)P(vivosll sano y 1 enf.)
+ P(2 enf.)P(vivosl2 enf.)

=(!~)(%J +(!~)(%~)+(:o)(~ r =0 4749

. ) P(2 enf.)P(vivosl2 enf.)


b) P(2 enf.1VIVO = -'-- ---'----'-----
P( VÍVOS)

Jfo)(H -o
0,4749 '
0010

32. Llamaremos p = P(A¡) y q = P(A2) (p + q = I). Queremo probar que la pro-


porción de cada genotipo en la generación de los hijos es la misma que en la
de los padres:

Comprobaremo , por ejemplo, la primera (la otras on análogas):

P(hijo = ALA1)
=P(padre=A 1A 1 y madre=A 1A 1) P(hijo=A 1A 11padre=A 1A 1 y madre=A 1A 1)
+P(padre=A 1A 1 y madre=A 1A2) P(hijo=A 1A 11padre=A 1A 1 y madre=A 1A2)
+P(padre=A,A2 y madre=A 1A 1) P(hijo=A 1A 11padre=A 1A2 y madre=AtA,)
+P(padre = A1A2 y madre=A 1A2) P(hijo=A 1A 11padre=A 1A2 y madre =A 1A2)
=(p2)(p2)(1) + (p2)(2pq)(l/2) + (2pq)(p2)(1/2) + (2pq)(2pq)(l/4)
=p2(p2 + 2pq + q2) =p2(p + q)2 =p 2.
SOLUCIONES DE LOS EJERCICIOS 195

33. Generación de los padre :

P(CC) =a; P(Cc) = 1- a

Generación de los hijos:

1 1
P(CC)=b· P(cc)=-· P(Ce)=l - b - -
1600' 1600

Por un lado, tenemos:

- 1- = P(hijo = ce)
1600
=P(padre = Ce y madre = Ce) P(hijo = ce Ipadre= Ce y madre = Ce)
=(1 - a)2 (1/4)

De esta ecuación, despejamos el valor de a:

19
a=-
20

Por otro lado, tenemos:

b =P(hijo = CC)
= P(padre = CC y madre= CC) P(hijo = CC Ipadre= CC y madre= CC)
= P(padre= CC y madre= Ce) P(hijo = CC Ipadre= CC y madre= Ce)
= P(padre = Ce y madre= CC) P(hijo = CC Ipadre = Ce y madre= CC)
= P(padre = Ce y madre = Ce) P(hijo = CC I padre = Ce y madre= Ce)
= a2 (1) + a(l - a)(l/2) + (1 - a) a (1/2) + (1 - a )2(1/4)
a2 a 1
= - + - +-
4 2 4

Sustituyendo el valor de a, obtenemos:

b = 1521
1600
En definitiva, obtenernos los siguiente resultados:
Proporción de portadore en la generación de los padres:

19
1- a=l- - =0 05
20 '
196 SOLUCIONES DE LOS EJERCICIOS

Proporción de portadore en la generación de lo hijo :

1 1521 1
1 - b - - = l -- - - =0 0488
1600 1600 1600 '

34. Repre entaremo por Xh un cromo orna con gen hemofüico, y por X un cro-
mosoma con gen normal. Si la mujer tiene padres normales y un hermano he-
mofílico, u padre es necesariamente XY y su madre es necesariamente X!' X.
En e tas condiciones, tenemos:

P(mujer = XX) = 1/2; P(mujer = X" X) = 1/2

Aplicamo ahora la regla de la probabilidad total:

P(desc. hemof.)
= P(mujer = XX) P(de c. hemof.lmujer = XX)
+ P(mujer = x1i X) P(desc. bemof.lmujer = X" X)
= (1/2)(0) + (1/2)(1/4) = 1/8.
35. Llamaremo D al gen dominante y d al gen rece ivo. Si Roberto padece ja-
queca, pero su padre no, Roberto es necesariamente Dd. La mujer de Ro-
berto no padece jaqueca; por tanto es dd.. En e tas condicione , cada uno de
us hijo tiene la mi ma probabilidad (1/2) de padecer jaqueca que de no pa-
decerla. Por tanto, tenemo :

a) P(Al menos uno padezca jaqueca)


= 1 - ?(Ninguno padezca jaqueca)= 1 - (1/2)2 = 3/4.

b) P(Uno sólo padezcajaqueca)


=P(El primero tiene jaqueca n El egundo no tiene jaqueca)
+ P(El primero no tiene jaqueca n El eguado tiene jaqueca)
= (1/2)(1/2) + (1/2)(1/2) = 1/2.

4. Variables aleatorias
l. E tamo con iderando la variable aleatoria di creta X = «Ganancia» = «Pre-
mio»- 10. Su función de ma a e :

P(X=0 - 10= - 10) =500/1000=0 5


P(X=S-10 =-5) =300/1000=0 3
P(X = 10-10 =O)= 150/1000 = O 15
P(X = 50 - 10 = 40) = 40 /1000 = O 04
P(X = l00 - 10 =90) = 10/1000 = 0 01
SOLUCIONES DE LOS EJERCICIOS 197

«Ganancia esperada» = E[Ganancia) = E[XJ = I,x. P(x.) 1 1

= (- 10)(0,5) + (- 5)(0,3) + (0)(0,15) + (40)(0,04) + (90)(0,01) = - 4.

P(Perder dinero)= P(X <O)= 0,5 + 0,3 = 0,8.

2. · a) 1= tJ(x)dx= txdx+ f<k-x)dx=k-1 ~ k=2

Al representar gráficamente la función de densidad, obtenemos un trián-


gulo; se comprueba de manera inmediata que su área es 1.

b) F(x) = P(X 5c x) = ftCx)dx

o six<O

i xdx=-2
o
x x2
i x e (O, 1)
=
2
f\dx+ f \2-x)dx=2x- x -1 iX E [l, 2)
Jo 1 2
1 six~2

µ = E[X]=f9t xf(x)dx = J>(x)dx+ 1~(2-x)d.x=l J


V(X) = E[X 2 ] - µ 2 = J91 x 2 f(x)dx-I =J>2cx)dx+ f x 2 (2-x)d.x-1 =1/6

3. 1) 1= f f (x)dx = f:k(l + x )dx =12k


91 2 ~ k=l/12

F(x)=P(XSx)= J: J(x)dx

o six<O

= r - 1 (l +x 2 )dx=-
o 12
x )
1 ( x+-
12 3
3
si x E [O 3)

1 ix~3

2) P(l 5' X 5c 2) = f _!_(1


1 12
+ x 2 )dx = 5/18

3) P(X<l)= f -(l+x
012
1 )d.x=l/9
2
198 SOLUCIONES DE LOS EJERCICIOS

4) P(X < 21 X > l) = P(X < 2 y X> 1) = P(l < X< 2)


P(X>l) P(X>l)
r2 i 2
J1 - (l+x )dx 5 / 18 5
= 12 =--= -
f3_1 (l+x2)dx 16/18 16
J112

4. Planteamos un sistema de dos ecuaciones con dos incógnitas:

1 = J:cru:2 + b)dx =la+ 2b


{
O 1357 = P(l/2 < X S: 1) = i112
1
(ax 2
7a+ 12b
+ b)dx =- - -
24

De e te sistema obtenemos: a= 0,3048 y b = 0,0936.

S. La mediana, M, tiene que verificar:

rM f(x)dx = f ~c1x+JM(3- 3x)c1x


.!.2 = P(X::,; M) = Jo 1
Jo2 2 1

3M2
=3M - - - - 2
4

Re olviendo esta ecuación la única olución válida para el problema es


M= 1 18.
6. 1) La variable aleatoria X= «Tiempo de e pera» e una variable aleatoria
de tipo continuo, que reparte la probabilidad de manera uniforme en el
intervalo (O, 20), ya que el viajero llega de improviso. Por tanto, la fun-
ción de den idad e :

] - l i O< X < 20
f(x) ={ Longitud (0,20) - 20
0
en el resto

f
F(x) = P(X:::; x) = _1(x)dx

-¡l
Qx ]
-dx--
- 1020 - 20
X
ix<O

six e[O, 20)

ix~20
SOLUCIONES DE LOS EJERCICIOS 199

2) P(X < 7) = 1o -dx


7 1
20
=-
7
20

3) E[X]= 1 x-dx=lO
20

o
1
20
V(X) = f20 x2 _!_ dx-102 = 100
Jo 20 3

4) P(X = 12) = O, ya que se trata de una variable continua.

7. a) F(x) = P(X $ x) = r_ f(x)dx

O ~x<O

= J:6x(l -x)dx=3x2 - 2x 3 sixe[0,1)


1 ~x~l

b) rº.s
Tipo 1:P(X<O 50)= Jo 6x(l-x)dx=0,50 ~ 50%

Tipo 2: P(O, 50 $X$ O, 80) = Ji rº·s 6x(l - x)dx =O, 396 ~ 39,6%
0,5

Tipo 3: P(X > 0,80) = f0,8


6x(l-x)dx = 0,104 ~ 10,4%

e) La variable aleatoria Y= «Precio por litro» es una variable aleatoria dis-


creta con función de masa:

P(Y = O, 80) = O, 50
{ P(Y == O 90) 0,396
=
P(Y == 1) == O, 104

«Precio medio por litro» = E[Precio por litro] = E[Y] =Ly1 P(y;) =
(0,80)(0,50) + (0,90)(0,396) + (1)(0,104) = 0,86 euros.

8. a) Consideramos la variable aleatoria X= «Tiempo de vida (en minu-


tos)». Tenemos:

P(X > 100 y X< 1000) = P(lOO <X< 1000) = 1


1()()()

LOO
1 X
- - e-1000 d.x
1000
== 0,5370
200 SOLUCIONES DE LOS EJERCICIOS

b) P(X > lOOIX < 500) = P(X > 100 y X< 500) = P(lOO <X< 500)
P(X < 500) P(X < 500)
500 1
1 X
- -e 1ooodx
= 100 1000 = 0,2983 =o 76
r500_l_e 1~ dx 0,3935 '
Jo 1000

9. a) «Tiempo medio hasta e] fa1lo» = E[Tiempo hasta el fallo] = E[X] =


1 -e- is~dx= l5000 hora
= Í xf(x)dx= Í x - 00

J'R Jo 15000

P(X>lOOOOIX> 5000)= P(X>l0000(iX>5000) = P(X>lOOOO)


P(X > 5000) P(X > 5000)
roo - - e
1
J10000 15000
15~ dx
0,5134 =0 72
= J 00 1 - e- ,s~ dx
500015000
-
0,7165 '

10. La variable aleatoria de interés es:

1 con prob. (2/3) = 0,6667


1-0,50 = 0,50 con prob. (1/3)(0,40) = 0,1333
Y= «Ganancia»= 1- 1 =O con prob. (1 / 3)(0, 30) = 0,10
1- 2 = -1 con prob. (1 / 3)(0 20) = O, 0667
1-6 =-5 con prob. (1/3)(0,10) = 0,0333

«Ganancia esperada» = E[Ganancia] = E[Y] = LY, P(y.)I = (1)(0,6667) +


1

(0,5)(0,1333) + (0)(0,10) + (-1)(0,0667) + (-5)(0,0333) = O 50 euros.

11. a) 1 = I ~ k(l - t)2 12 dt = k/30 => k = 30


b) «Esperanza de vida»= E[Tiempo de vida] = E[71 = J'R t f(t) dt =
f ~ t [30 (1 - t)2 t 2] dt = 0,5 año = 6 meses.
e) P(vivir meno de 9 mese ) = P(T<0,75) = fg-75 30(1 - t)2t2 dt = 0,8965.

12. a) l = f 91 J(x)dx = 1kxdx + J4(2


o
1 X) dx =-+-
---
3 6
1
k 3
2 4
=> k = l/2

b)
SOLUCIONES DE LOS EJERCICIOS 201

Para detenninar la mediana, M, planteamos la siguiente ecuación:

1/2= ioM o2
x fM(2---x)d x2M
f(x)dx= J.1 ~+
3 6 1
=--
3
M- - -¡
12 3
2
M=l,55

e) P(X < 21 X < 3) = P(X < 2 y X< 3) = P(X < 2)


P(X <3) P(X < 3)

rx
1

= Jo2dx+ J1
r
2 (23-6x)
dx = 0,6667 =O 73
r1~dx+ f3 (~-~)dx o,9161
Jo 2 J1 3 6

13. a) «Tiempo medio transcurrido entre la llegada de dos coches consecutivos»


= E[Tiem_po tran currido entre la llegada de dos coches consecutivos]
= E[T] =J9! t f(t) dt =fo t (4e --4!) dt = 1/4.

b) P(T < llT > 112) = P(T < 1 y T> 1/2) = P(l/2< T < I)
P(T>l/2) P(T>l/2)

=
i l

1, 2
4e-4 1dt
= O, 1170 =O 86
f 4 e-41dt
00
0,1353
J 112

14. Llamaremo T; al tiempo que tarda en averiarse la máquina número i .

a) P(T¡ ~100)= 1 -1001e 1oodt=l-(l/e)=0,632


o
100 1

b) P(A) = P(Falle alguna en las 100 primera horas)=


= 1-P(Ninguna falle en las 100 primeras horas)=
= 1-P(TI > 100 y T2> 100 y T3>100) =
= l - P(T1 > 100)P(T2 > 100)P(T3 > 100) = 1 - (l/e)3 =0,95.

e) P(T. ~ IOOIA) = P(T¡ ~ lOO)P(AIT¡ ~ 100)


1 P(A)
= (0,632)(1) = O 67
0,95 '

15. a) Llamando X= «Velocidad (en Km/h)>> tenemo :


202 SOLUCIONES DE LOS EJERCICIOS

P(X > 120IX > lOO) = P(X > 120 y X> 100) = P(X > 120)
P(X > 100) P(X > 100)
r200 200 - x
= J120 10000 dx = 321100 = o 64
r200200 -x dx 1/2 '
J,oo 10000

b) Ahora consideramos la variable aleatoria Y= «Importe de la multa» que


es de la forma:

O con prob. P(X < 100) =1 10000 = 0,5


100

o
X
--dx

100 con prob. P(lOO <X< 120) = 1


120200-x
dx = 0,18
100 10000

> 120) = 1
200200-x
200 con prob. P(X = 0,32dx
120 10000

Tenemo : E[Y] = (0)(0,5) + (100)(0,18) + (200)(0,32) = 82 euros.

16. En primer lugar, comprobaremos que la función de ma a de la variable


aleatoria X es de la fonna P(X = 1) = ... = P(X = n) = 1/n. En efecto:

P(X = 1) = P(Prim. def.) = .!_


n
P(X = 2) = P(Prim. no def. y Seg. def.)
= P(Prim. no def.)P(Seg. def.tPrim. no def.)
n- 1 1 1
=----=-
n n- l n

De manera análoga se comprueba en todos los demás casos. Por tanto:

E[X] = "i,kP(X = k) = "i,k.!_ = .!_(l + n n) = n + l


n n 2 2

17. =
Llamaremo X, «Longitud obtenida con el proceso 1» y X2 =«Longitud
obtenida con el proceso 2».

a) ?(Aceptable con el proceso 1) = P(l < X1 < 2) = f ~dx =0,8750


2
IX
~
87 ,50% de aceptables con el proceso 1.

J,í X~ dx=0,9375 ~
2
P(Aceptableconelproce o 2) = P(l<X2 <2)=
93,75% de aceptables con el proceso 2.
SOLUCIONES DE LOS EJERCICIOS 203

b) Aplicaremos la regla de la probabilidad total:


P(Aceptable) = P(Proc. l)P(AceptablelProc. 1) + P(Proc. 2) P(Acep-
=
tablelProc. 2) P(Proc. l)P(l < X 1 < 2) + P(Proc. 2)P(l< X2 < 2) =
(1/2)(0,8750) + (1/2)(0,9375) = 0,9063.

e) «Longitud media en el proceso 1» =E[X¡] =

J,/Íi (x )dx =J:"' x( : ) dx =1, 5


4

«Longitud media en el proceso 2» = E[X2 ] =

f xf (x)dx = J:ºx(:S )c1x = 1,33


91 2

18. Llamaremos XA = «Duración de una pieza de calidad A» y X8 = «Duración


de una pieza de calidad B».

b) La mediana M , tiene que verificar la ecuación:

e) Aplicamos la regla de la probabilidad total:

P(Duración > 1) = P(A)P(XA > 1) + P(B)P(X8 > 1)

=(0,60) Ji00
e-.xdx+ (0,40) J 2e- xdx =0,2749
1
00
2

d) Aplicamos la regla de Bayes:

P(A)p(x 1) P(A) f.. e-xdx


P(A1Duraci6n > 1) = > A = __.;;..oJ1_ __
?(Duración > 1) P(Duración > 1)
= (0,60)(0,3679) =O 80
0,2749 '

19. a) Se quiere determinar el valor A tal que:

O 95 = P(X::; A)= rA..!..dx = A ~ A =5 7 ~ 5.700 unidades


Jo 6 6
204 SOLUCIONES DE LOS EJERCICIOS

b) Si llamamos X.r a la demanda del día número i, tenemos:

P(No hay demanda uperior a 5000 durante 20 días) =


P(X1 s 5 y ... y X20 s 5) = P(X, s 5) ... P(X20 s 5) =
(S:-ldxJº =(5/6) º=0 0261 2

20. En e te ejercicio, conocemo la densidad de la variable aleatoria Y= «Pro-


porción de cierto componente», y queremo e tud.iar vario a pecto de ]a
variable aleatoria X= «Acidez del compuesto».
En primer lugar obtendremo la función de distribución de X. Dado
que la variable aleatoria Y reparte la probabilidad entre los valores Oy 1, la
variable aleatoria X= (1 + Y)2 repartirá la probabilidad entre los valores 1 y
4. Por tanto, pasaremos a calcular F(x) para valore de x entre 1 y 4:

. F(x) =P(Xs x) =P((l +Y) 2 s x) =P(--fx- I s Ys -/x- I)


= f
,/x-1
f (y) dy =
i.¡;_, 2 ydy = (--Jx - 1)2
--Jx-1 O

En definitiva:

o si x < I }
{
F(x)= (--Jx-1)2 • i 1 Sx<4

1 six ~ 4

Derivando la función de ctistribución, obtenemo la función de densidad:

--Jx - 1 i l<x<4
f(x)= { -fx
0
en el resto

«Acidez med.ia del compuesto»= E[Acidez del compuesto]=


E[X] = E[(l + Y)2] = E[l + 2Y + Y2 ] =1 + 2E[Y] + E[Y2 ] =

1 +2 J>(2y)dy+ t y2(2y)dy = 2,83

21. Comprobamo que F ati face las propiedades de una función de distribu-
ción:
SOLUCIONES DE LOS EJERCICIOS 205

1) lim F(x)==O; limF(x)= lim~=l


.x-+--- X--)= X--)= 1+ x

. dF(x) 1
2) Fes creciente ya que: - - = 2 > O.
dx (l+x)
3) Además F es continua.
Por tanto, F es una función de distribución. Derivando, obtenemos la
función de densidad:

six>O

en el resto

Finalmente:

5 3 1
P(3< X< 5) = P(X < 5)-P(X :s; 3)=F(5)-F(3) =---=-
6 4 12

22. a) Tenemos Y= «Ganancia anual»= (c3 -c2 )X -e,. Por tanto:


«Ganancia esperada anual»= E[Ganancia anual]= E[Y]
= E[(c3 -c2 )X -c1] = (c3 -c2 )E[X] -c1

= (c3 -c2 ) r=x(a xe-ac)dx-c


Jo
2
1 = (C3 -C2)~-C¡
a

b) P(Tener deudas)= P(c4 +Y< O)= P(c4 + (c3 - c2 )X -e, < O)

a(c -e )] a(c¡-c,)
= 1- [ 1+ ! 4 e C3 -C2
C3 -C2

5. Vectores aleatorios
l. En vez de intentar calcular la esperanza de X directamente (que ería una ta-
rea complicada), lo que hacemos es descomponer X en suma de variables
aleatorias independientes. Para i = l ... n, llamamos X; =«Puntos obtenidos
en la tirada número i», de modo que X= X1+ ... + Xn. Entonces:

2. 1
E[X] = E[X1 + ... + Xn] = E[X.] + ... + E[Xn] = n[ -(1)+ 1
... +-(6) = -7n J
6 6 2
206 SOLUCIONES DE LOS EJERCICIOS

a) La función de masa conjunta y la marginales e recogen en la siguiente ta-


bla:

XIY 1 2 3 4 5 6
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 o 2/36 1/36 1/36 1/36 1/36 1/6
3 o o
3/36 1/36 1/36 1/36 1/6
4 o o o 4/36 1/36 1/36 1/6
5 o o o o 5/36 1/36 1/6
6 o o o o o 6/36 1/6
1/36 3/36 5/36 7/36 9/36 11/36

b) P(X=klY=4)= P(X=k;Y= 4 )
P(Y=4)

1136 =1/7 si k =I
7/36
1136 = 1/7 si k =2
7/36

= 1136 =1/7 sik=3


7/36
4136 = 4/7 si k = 4
7/36

- º -= O si k =5, 6
7/36

3. Llamamo X= «Instante de llegada del estudiante número 1» e Y= «In -


tante de llegada del estudiante número 2».
a) Decir que cada uno de ellos llega al azar a lo largo de una hora, signi-
fica que las densidades de X e Y repartirán la probabilidad uniforme-
mente entre Oy 1. Por tanto:

1 siO<x<l l si O<y< 1
f(x)= { f(y) = {
O en el re to O en el resto

Como además las llegadas se producen de forma independiente, tenemos:

1 si O < x < I, O < y < 1


f(x, y)= f(x)f(y) ={ 0 t
ene1 res o
SOLUCIONES DE LOS EJERCICIOS 207

b) En primer lugar, obtenemos las densidades marginales de X e Y:

f(x) = f. f(x, y)dy = {J 1


y=O
4.xydy =2x si O< x < 1

9t O en el resto

f(y) = f. f(x, y)dx = {J I 4.xydx=2y


x =O
i O<y<l
9t O en el resto

Las llegadas de ambo son independientes ya queftx, y)= ftx)f (y).

4. 1) Obtenemos k de la siguiente ecuación:

1= Í [Í j(x, y)dy]dx=f [JI


J9t J9t
1
x =O y=O
k(x+.xy)dy]dx= 3k
4
~ k=4/3

2) Densidades marginales:

f(x) = J f(x, y)dy = {J I


y=O
icx+xy)dy = 2x
3
si O<x<l

9t O en el resto

f(y) = J f(x, y)dx = {J I


x=O
icx + .xy)dx=~(l+y)
3 3
si O< y <l

51{ O en el resto

3) X e Y son independientes ya queftx, y)= ftx)f (y).

S. La función de den idadftx, y) reparte la probabilidad en la siguiente región:

X= Y
X=1

X=-y
208 SOLUCIONES DE LOS EJERCICIOS

a) f(í
J'Jl J'Jl
f(x, y)dy]dx= f 1_
x-0
[f._ ldy]dx = J
y--.t
1
_
x-0
2xdx=l => Es fun-

ción de densidad.

b) Calculamos la densidad marginal de X:

f(x)
f
=j , f(x,y)dy =
{Jy=-x
. ldy =2x sixe(0,1)
'Jl O en el re to

Por tanto:

E[X]= f xf(x)dx=J' x(2x)dx=213


J'Jl .t=O

Calculamo ahora la densidad marginal de Y:

{ =-y 1 dx =1+ y si y e (- 1, O)

f(y) =f'Jlf(x,y)dx = {=
/ dx =l -y si y E (0,1)
O en el re to

Por tanto:

E[Y] = i.,/f(y )dy = S:=-i y(l + y)dy + S:=o y(l -y)dy = O

e) P(X < 1/2;Y <O) =t ~:[f:=-x 1 dy ]dx = t~: xdx = 1/8

P(X > 1/2;-1/2 <Y< 1/2) = J' [f 11


2
1 dy ]dx = f 1
1 dx = 112
.t=l/ 2 y=-l/2 .t=l/2

6. a) Si llamamos V al varón y Mala mujer, tenemos 8 po ibles casos: (V, V,


V) (V, V, M), (V, M, V), ... Todo ellos tienen probabilidad 1/8. En este
caso, podemo dar la de cripción completa del vector aleatorio, es de-
cir, los valores que toman las variables X e Y para cada uno de lo po-
ible ca o :
SOLUCIONES DE LOS EJERCICIOS 209

(X,Y): Q ~ 9t2
(V, V, V) ~ (3,1)
(V, V, M) ~ (2,2)
(V, M, V) ~ (2,3)
(M, V, V) ~ (2,2)
(V,M,M) ~ (1,2)
(M, V,M) ~ (1,3)
(M,M, V) ~ (1,2)
(M,M,M) ~ (0,1)

Esto origina la siguiente función de masa conjunta:

XlY 1 2 3
o 1/8 o o
1 o 2/8 1/8
2 o 2/8 1/8
3 1/8 o o
b) Las funciones de masa marginales son inmediatas de obtener:

P(X=O)=l/8
P(Y =1) =2/8
P(X = 1) = 3/8
{ P(Y = 2) = 4/8
P(X=2)=3/8
P(Y = 3) = 2/ 8
P(X =3)= 1/8

X e Y no on independientes. Por ejemplo:

P(X =1; Y= 1) =O
32 6
P(X = l)P(Y = 1) = - - =-
8 8 64

7. a) Tenemos:

1 = f9t[f9tf(x,y)dy]dx = t: [t:
0 0 kye-2 xe- 1 dy ]dx =

kf 00
e-2 x[f 00
ye-y dy]dx = kf 00
e-2xdx =~ : : :} k =2
x=O y=O x=O 2

Para estudiar si son independiente obtendremos las densidades margi-


nales:
210 SOLUCIONES DE LOS EJERCICIOS

f(x) = {J.,. y=O


2 ye -2x e-ydy= 2 e-2x[ ye - yd y= 2 e- 2x
y=O
six>O

o en el resto

siy> O
en el re to

X e Y son independientes, ya quefi'.x, y)= fi'.x)J(y).

={J
3 2 2 2 2J3 y2
- dx= - y xdx= - Si y E (Q,3)
8. a) f(y) = f..iJCx,y)dx ox=O 81 xy 81 x=O 9
en el resto

E[YJ= f yf(y)dy=f3 y ( L2 ) dy= -9


J9t y=O 9 4

b) P (Más sustancia A que B) = P(X >Y) = J [fx .!:....xy dy]dx =


3
.xeoO y=O 81
2

Jx=0 -2432 x dx= -25


3 4

9. La den idad conjuntafi'.x, y) reparte la probabilidad en la región indicada en


la figura siguiente:

y=1

X=Y
X=O

a)

f(x) = J,
r f(x,y)dy =
{I
y=x
1
15x2 ydy =15x 2 f
y=x
1
ydy = 15 (x2
2
- x 4) si X E (O 1)
9! o en el resto
SOLUCIONES DE LOS EJERCICIOS 211

b) E[X] = J.
91
xf(x)dx = f x[ 15
1
x=O 2
(x 2 -x 4 )]dx = 5 / 8

10. a) Determinamos k de la siguiente ecuación:

1=kfx =O [fy=O (1-x)y2dy]dx=kfx=O .!.Ú-x)dx=k/6


1 1
3
1
=> k=6

A continuación, obtenemos las densidades marginales de X e Y:

f (x) = J.'JI f (x, y )dy = {Jy=O


1
6(l-x)y2dy =2(1-x) si x E (0,1)

O en el resto

f(y) = J,
f
f(x,y)dx =
{fx=O
1
6(1-x)y2 dx=3y 2 iye(O 1)
91 O en el resto

X e Y son independientes, ya que f{x, y) = f{x) f{y).

b) E[Y] = f yf(y)dy =
J:R
f
y=O
I
y(3y2)dy = 314

e) P(Ratón sano) = P(X < 3/ 4; Y< 314) = J3/4[J314 6(1-x)y2dy Jdx =


x=O y=O

27
-
f3/4 (I-x)dx=0,40
32 x=O

11. a) Determinamos k de la siguiente ecuación:

2[JIy=O xy dy]dx = kJx=O I..xdx


l=kfx=O 3
2 =2k/3 2
=> k = 3/2

b) Tenemos:

={fy=O lxy
1
=J.f
2 dy=xl2 SÍXE(0,2)
f(x) f(x,y)dy 2
'JI o en el resto
212 SOLUCIONES DE LOS EJERCICIOS

Por tanto:ftX = 1) = 1/2

e) Tenemo :

3
f. to =O-xldx=3y2
. { 2 i y E (0, 1)
f(y) = f(x y)dx = 2
91 en el resto

Por tanto:

_ l _
f ( X - - IY - - -
l)- !(X=i; Y=1-) _%(1/2)(1/2)
( ) -
2
_
-114
2 2 f y= _!. 3(1/ 2) 2
2

12. La región donde se reparte la probabilidad es:

X= Y
X=2

a) k=~
32

iy E (Q,2)
b)
en el resto

P(Y~ 1) = J2 (15-/--y
y=J 16
15 4)
64
dy =47 /64
SOLUCIONES DE LOS EJERCICIOS 213

13. En este caso, la región donde queda repartida la probabilidad es:

X=Y
X:1

y=O

x 2dy = 2x si X E (0,1)
a) f(x) = J. f(x,y)dy ={fy=O
9l O en eI resto

f(y) = f9lf(x,y)dx =
{Jx=y
I
2dx=2-2y siyE(O,l)

O en el resto

b) P(X<ll2;Y<l/3)= fl/3[Jl/2 2dxJdy=2 Jl/3(--y


y=O x=y
1 ) dy=219
2 y=O

e) E[X] = f9l .if(x)dx = {=o x(2x)dx = 2/3


E[Y] = J.
9l
yf(y)dy = J
1
y=O
y(2- 2y)dy =1/ 3

E[XY] = J9l[t xyf(x,y)dy]dx ={=O[f:=0 xy(2)dyJdx ={=O x 3dx =1/ 4


Por tanto, tenemos:

Cov (X, Y) = E[XY] - E[X]E[Y] = 1/4 - (2/3)(1/3) = 1/36.

14. La región donde se distribuye la probabilidad es:


y ;;; 1

y= X· 1
y= 1 • X
214 SOLUCIONES DE LOS EJERCICIOS

a) Lo primero que hacemos es calcular la densidad marginal de X:

Jy=l- x ldy=X
I si X E (0,1)

f(x)= tJ(x,y)dy= s:=x- lldy=2-X SiXE(l,2)

o en el resto

E[X] =Jxf(x)dx =( =x(x)dx + f x(2- x)dx = 1


91 0 =I

P(X> 1/2) = 1-P(X 1/2)= 1- J


l/2
~x=O xdx =7 /8

15. a) Obtenemos el valor de k de la siguiente ecuación:

5 = «Duración media en el medio B » = E [Duración en el medio B] =

= E[Y] = Jy=O
.. y(.!..e-ylk)dy
k
=k ~ k=5

«Esperanza de vida en el medio A» = E[X] = Ix=Ox10-x


IO
-- dx =10 / 3 =3, 33 días
50

b) Si llamamos V= { Vivir más de 5 días} tenemo , aplicando la regla de


Baye:

P(A ¡V) = P(A)P(V I A) = P(A)P(X > 5)


P(A)P(VIA) + P(B)P(VIB) P(A)P(X > 5) + P(B)P(Y > 5)

P(A)f 10 10- X dx
x=5 50
= P(A)fw 10-x dx+P(B)f .. _!_e-y1sdy
.r=5 50 y=5 5
= (1/2)(0,25) = O 40
(1/2)(0,25)+(1/2)(0,368) '
SOLUCIONES DE LOS EJERCICIOS 216

e) Como los medios de vida son independientes, tenemos:

10-x -y1 s
Si Ü <X< 10,y > 0
f(x y)= f(x)g(y) ={ 250 e
0
en el resto

Además, por ser independientes:

P(X> 5; Y> 5) = P(X> 5)P(Y> 5) =(0,25)(0,368) =0,09.

16. a) 1/2= t:Jxdx=M 2 => M=0,71.

b) Por ser independientes:

2x
si O< X < 1, 0 < y < 5
f(x,y) = f( x )g(y ) ={ 5
0
en el resto

P(X+Y~l)= f [f
1
x =O y=O
2x
1- x -dy
5
Jdx=-2 J
5
l x(l-x)dx=l/15
x=O

17. La región donde se reparte la probabilidad es:

X= Y
X= 1

y=O

a) 1= J [Jx kxdy]dx =kf


1
x=O y=O
1
x=O
x 2dx =k/3 => k= 3
b) Primero determinamo la densidad marginal de Y:

r
f(y) J, f(x , y)dx =
{f 1
x=y
3xdx- i _ i y 2
- 2 2
i o< y < 1
91
O en el resto
216 SOLUCIONES DE LOS EJERCICIOS

E[Y] = J y(3
I 3y z)dy = 3!8
---
2 2
y=O

e) P(X +Y~ 1) = Jl/2[Jl-y3xdxJdy = -23 Jl/2 (1 - 2y)dy = 318


y =O x=y y=O

6. Modelos de probabilidad más comunes

l. La variable aleatoria relevante en este problema es:

X= «Número de niña en una familia de 6 hijo » - B(n = 6; p = 0,49).


a) P(Por lo menos 1 niña)= P(X ~ 1) = 1- P(X = 0) = 0,9824.
b) P(Por lo menos 1 niño)= P(X ~ 5) = 1- P(X = 6) = 0,9861.
e) P(Por lo menos 2 niños y 1 niña)= P(l :s; X :s; 4) = 0,8821.

2. La variable aleatoria relevante en este problema es:

X= «Número de accidentado entre 10000 asegurados» - B(n = 10000; p =


O00005) = Poisson(íL = np = 0,5).
Hemos aproximado la Binomial por la Poisson ya que n es grande y p pró-
ximo a cero.

a) P(Pagar a má de 3 a egurados) = P(X> 3) = 1 - P(X :s; 3) = 0,0018.


b) «Número medio de siniestros por año» = E[Número de accidentado
entre 10000] = E [X] = A= 0,5.

3. La variable aleatoria relevante en este problema es:

X= «Número de alérgicos entre 2000» - B(n = 2000; p = 0,001) = Poi -


son(íL = np = 2).
Hemo aproximado la Binomial por la Poisson por ser n grande y p próximo
a cero.

a) ? (Exactamente 3 alérgicos)= P(X = 3) = 0,1804.


b) P(Más de 2 alérgicos)= P(X > 2) = 1 - P(X :s; 2) = 0,3233.

4. La variable aleatoria relevante en este problema es:

X= «Número de erratas por página» - Poisson(Á).


El valor de íl no es conocido. Lo que vamos a hacer es «estimarlo», ade-
SOLUCIONES DE LOS EJERCICIOS 217

lantando un procedimiento al que recurriremos sistemáticamente en Infe-


rencia:

Á = E[X] ~ x = _!_[(40)(0) + (30)(1) + (15)(2) + (7)(3) + (2)(4) + (1)(5)] =


95
=0,989~1

Ahora tenemos:
P(Alguna errata en una página) = P(X ~ 1) = 1 - P(X = O) = 0,6321.

5. La variable aleatoria con la que vamos a trabajar en e te ejercicio es:

X= «Longitud de las varillas (en cm.)» - N(µ = 19,8· CJ= 0,5).

P(l9,5 <X< 20,5) = P(I 9,S- l 9, 8 < Z < 20,S-l 9, 8 ) = P(-0,6 < Z < 1,4) =
0,5 0,5
l - P(Z > 0,6) - P(Z > 1,4) =1- 0,2743 - 0, 0808 !:::! 0, 64

Por tanto, aproximadamente el 64% de las varillas cumpliría la normativa.

6. La variable aleatoria con la que estamos trabajando es:

X= «Numero de errores en 200 impulsos» - B(n = 200; p = 0,001) = Pois-


son(Á = np = 0,2).
Aproximamos la Binomial por la Poisson por ser n grande y p próximo a
cero.
a) P(Ningún error)= P(X =O)= 0,8187.
b) P(Exactamente un error)= P(X = 1) = 0,1637.
e) P(Al meno un error)= P(X ~ 1) = 1-P(X =O)== 0,1883.
d) P(Exactamente dos errores)= P(X = 2) = 0,0164.

7. a) La variable aleatoria relevante en este apartado es:

X= «Número de recepciones correctas, de los 5 envíos» - B(n = 5;


p = 0,7).
P(lnterpretar correctamente el igno) = P(X ~ 3) = 0,8370 = 0,85.

b) La variable aleatoria relevante en este apartado e :


Y = «Número de ignos correctamente interpretado , de los 10» -
B(n = IO;p = O 85).
?(Interpretar correctamente al meno 8 signos)= P(Y ~ 8) = 0,8202.
218 SOLUCIONES DE LOS EJERCICIOS

8. La variable aleatoria relevante es:

X= «Número de errores en 1000 bits transmitidos» - B(n = 1000; p = lo-4)


= Poisson(A = np = 0,1).
Hemos aproximado la Binomial por la Pois on por ser n grande y p próximo
a cero.
P(Más de dos errores) = P(X > 2) = 1 - P(X ~ 2) = 0,0002.

9. a) Representamos por H el suceso de que el conductor sea un hombre, y


aplicamos la regla de Bayes:

P(2 oc.lH)
P(2 oc.)P(Hl2 oc.)
= -------------------------
P(l oc.)P(Hll oc.)+ P(2 oc.)P(Hl2 oc.)+ P(Más de 2 oc.)P(H I Más de 2 oc.)
= (0, 60)(0, 80) = O, 7430
(0, 02)(0, 70) + (O, 60)(0, 80) + (O, 38)(0, 40)

b) La variable aleatoria relevante en este apartado es:

X = «Número de multas, en 200 coche >> = «Número de coches con 1


ocupante, en 200 coches» - B(n = 200; p = 0,02) = Poisson(íl. = np = 4).
Hemos aproximado la Binomial por la Poisson por ser n grande y p
próximo a cero.
P(Como mucho una multa)= P(X :o; L) = 0,0916.

10. a) ?(Bronquitis o fumador)= P(Bronquiti u Fumador)=


?(Bronquitis)+ P(Fumador) - P(Bronquiti ri Fumador}) = O 06 +
0,60 - 0,04 = 0,62.
b) La variable aleatoria relevante en este apartado es:

X= <<Número de fumadores, entre 120 personas» - B(n = 120; p = O60) =


N(µ = np = 72; CJ = .Jnp(l- p) = 5 37)

Hemos aproximado la Binomial por la Normal por que ne grande y p


no es próximo a cero.
X - 72 80 - 72)
P(Más de 80 fumadores)= P(X > 80) = P ( > =
5,37 5,37
= P(Z > 1,49) = 0,0681
e) La variable aleatoria relevante en e te apartado e :

Y= «Número de fumadores y bronquíticos, entre 200 per onas» - B(n


= 200; p = 0,04) = Poisson(A = np = 8).
SOLUCIONES DE LOS EJERCICIOS 219

Ahora hemos aproximado la Binomial por la Poisson ya que n e grande y p


es próximo a cero.
P(No baya más de uno fumador y bronquítico, entre 200 personas)= P(Y::::; 1)
=0,0030.

11. La variable aleatoria relevante en este problema es:

X= «Número total de mariposas comidas» = «Numero de mariposas comi-


das antes de la primera envenenada» + 1 = Y + l, donde Y - Geométrica,
con p = P(Comer mariposa envenenada) = 0,40.

Por tanto, tenemos:

«Número medio de mariposas comidas en un día»= E[Número total de ma-

riposas comidas] = E[Y +1] =E[Y]+l = E[Geométrica]+ 1 = l- p + l =


p
= 1-0,40 +1=2 5
0,40 '

12. a) En este apartado, la variable aleatoria relevante es:

X= «Número de mariposas capturadas de la clase no deseada antes de


capturar un ejemplar de la clase deseada» - Geométrica, con p = 0,15.

Entonces:

P(X = 10) = (O 85) 1º(0,15) = O 0295.


b) En e te apartado, la variable aleatoria relevante es:

Y= «Número de mariposas capturadas de la clase no deseada antes de


capturar tres ejemplares de la clase de eada» - Binomial negativa, con p
=0,15.
Entonce :

P(Y =10) =G~}o,85) 1 ºco 15) 3 = o 0439

13. a) Tenemo la dos iguientes variables aleatoria :

XA = «Consumo de A» - N(µ = 8; <Y= 5).


X 8 = «Conswno de B » - N(µ = 8; cr = 3).
220 SOLUCIONES DE LOS EJERCICIOS

Tenemo:

T
P(El coche A consuma más de 9 litros)= P(XA > 9) = P( X -8 > -9-8)
5- =
P(Z > 0,2) = 0,4207.
P(El coche B consuma entre 7 y 8,5 litros)= P(7 < X 8 < 8,5) =

p(7-8 < Xn-8 < 8,5-8)=P(-033<2<017)=


3 3 3 ' '
1- P(Z > 0,33) - P(Z > 0,17) = 1-0,3707-0,4325 = 0,1968

b) La variable aleatoria relevante en este apartado es:

Y= «Ahorro al comprar B» = XA - X8 ,..., N(µ = O; a = .)25 + 9 = 5,83)

Entonce :

Y-0
P(Ahorrar más de 2 litros al comprar B = P(Y > 2) = P( - 2-0)
- >- - =
5,83 5,83
P(Z > 0,34) = 0,3669

14. En este ejercicio vamo a trabajar con la variable aleatoria:

X = «Coeficiente de inteligencia» - N(µ = 100; a= 16).

a)

.
P(Coefic1ente . a 120) = P(X > 120) =P (X-100 > 120-100) =
superior
16 16
P(Z > 1,25) = 0,1056

b)
?(Coeficiente uperior a 120, abiendo que e licenciado)
=P(X>l 20IX>llO)= P(X>120 yX>llO) = P(X>l20)
P(X > 110) P(X > 110)
= P(Z > 1,25) = 0,1056 = O 39 _
P(Z > 0,62) 0,2676
SOLUCIONES DE LOS EJERCICIOS 221

15. Sabemos que X= «Anchura de las hojas del álamo» - N(µ = 6; a). Vamos
a obtener el valor de <J planteando una ecuación a partir de la información
que tenemos:

El 90% de la hojas tiene una anchura inferior a 7,5 cm. ~

0,9=P(X<7,5)=P(X~ 6 < 7,~- 6 )=P(Z< 1:) ~


P( Z ~ 1: ) = O, 1 ~ 1: = 1, 28 ~ <J = 1,17

Una vez obtenido el valor de a, la segunda parte es inmediata:

8-6)
P(X>8)=P( Z > - =P(Z>l,71)=0,0436
1,17

16. Sabemos que X= «Anchura de los coleópteros» - N(µ; a). Vamos a obte-
ner lo valore de µ y a planteando dos ecuaciones a partir de la informa-
ción que tenemos. Por un lado:

El 77% de la población mide menos de 12 mm.~

0,77=P(X<12)=P(X~µ < 12~ µ) = P( Z< 12~µ) ~


p(z~ 12; µJ=o,23 ~ 12;µ = o,74

Por otro lado:

El 84% de la población mide más de 7 mm. ~

0,84=P(X>7)=P(X~µ> 7 :µ)=P(z> 7 :µ) ~


P(z<µ~ 7 )=o,84 ~ P(z~µ; 7 )=016 ~
Con e to, tenemo un sistema de dos ecuaciones con dos incógnitas:

12
;µ =0,74}
~ {µ=9,86
µ - 7 = 0,99 a= 2,89
(j
222 SOLUCIONES DE LOS EJERCICIOS

17. En e te caso, trabajamos con la variable aleatoria X= «Duración del proce-


so textil>> - N(µ; cr). Planteamos dos ecuaciones a partir de la información
que tenemos. Por un lado:

El 60% de la vece dura má de 40 minutos ~

0,60=P(X>40)= P( X:µ> 40;µ)=P( Z> 4o;µ) ~

P( Z < µ ~40) = O, 60 ~ P( Z ~ µ ~40) = O, 40 ~ µ ~40 = O 25

Por otra parte:

El 55% de la veces dura meno de 50 minutos~

O, 55 = P(X < SO) = P( X:µ < 50; µ) = P(Z< SO;µ) ~

p(z~ 5º;µ) = o,4s ~ 5 º;µ=0 ,12

Con e to, tenemo un sistema de dos ecuacione con dos incógrúta :

-µ -(J"-
40= 0 •25} µ = 46,76
50;µ = 012 => {c,. = 27,03

18. En e te ejercicio trabajamos con la variable aleatoria X= «Número de cara en


.J
400 tiradas» - B(n = 400; p = 0,5) = N(µ = np =200; cr = np(] - p) =10),
donde herno aproximado la Binomial por la Normal, ya que n es grande y
p no e próximo a cero.

a) P(Número de cara entre 160 y 190) = P(160 s X s 190) =

?(160 - 200 s X-200 ~ 190 - 200) = P(-4sZs - l) = P(lsZs4) =


10 10 10
P(Z > 1) - P(Z > 4) = 0,1587-0,0000317 = O 1587
SOLUCIONES DE LOS EJERCICIOS 2.23

b) Tenemos que hallar un intervalo J = (a, b) = (200 -k, 200 + k), que ve-
rifique:

0,95 = P(200-k S XS200+k)=


= zÍ 200- k - 200 S X - 200 S 200 + k- 200) =
~\ 10 10 10

=P(-..!:.._szs..!:.._)
10 10
~ P(z>..!:.._)=o 025
10 '
~ ..!:.._=1,96
10
~ k=I9,6.

Por lo tanto, el intervalo buscado sería:

1 = (a, b) = (200- k, 200 + k) = (180,4; 219,6) ~ Entre 181 y 219 caras.

19. a) Consideramos la variable aleatoria:

X= «Número de bacterias por mm3 de agua» - Poisson(A = 0,5). Te-


nemos:

P(No haya bacterias en un mm3) = P(X = O) = 0,6065.

b) En este apartado, consideramos la variable aleatoria:

Y= «Número de tubos sin bacterias, entre 40» -

B(n = 40;p = P(X =O)= 0,6065) ~ N(µ = np = 24,26;


a = .jnp(l- p) = 3,1)
donde aproximamos la Binomial por la Normal, ya que n es grande y p
no es próximo a cero. Tenemos:

P(Y~ 20)= p(Y-24,26 ~ 20 - 24,26) = P(Z~ - l, 37) =


3,1 3,1
=P(Z ~ 1,37) = 1- P(Z > 1,37) = 1- 0,0853 =0,9147

e) P(Menos de 3 bacterias en un mm3 sabiendo que hay alguna)


=P(X < 31 X >O) = P(X < 3 y X> O) = P(X = 1) + P(X = 2)
P(X>O) 1- P(X = O)
= O 3033 + 0,0758 = 0 96
1-0,6065 '
224 SOLUCIONES DE LOS EJERCICIOS

20. En este ejercicio, vamos a ir trabajando con variables aleatoria diferentes,


según el tipo de muestreo que llevamos a cabo.

a) La variable aleatoria relevante es:

X1 = «Número de ratones de esa especie en 6 capturas» - B(n = 6; p = 0,3).


P(Haya al menos 2 de esa especie)= P(X1 ~ 2) = 1 - P(X = 0) - P(X = 1) =
1 - O, 1176 - 0,3025 = 0,5799.

b) Ahora, la variable aleatoria relevante es:

X¡ = «Número de ratones de esa especie en 200 capturas» -


B(n = 200;
p = 0,05) = Poi
on(..l = np = 10).
Hemos aproximado la Binomial por la Poi son por ser n grande y p
próximo a cero.
P(Exactamente 3 de esa especie)= P(X2 = 3) = 0,0076.

e) En este apartado vamos a trabajar con la variable aleatoria:

X3 = «Número de ratones de esa especie en 200 capturas» - B(n = 200·


p = 0,4) = N(µ = np = 80;CJ =~ np(l- p) = 6, 93)
Ahora hemos aproximado la Binomial por la Normal ya que n e gran-
de y p no e próximo a cero.

P(Entre 75 y 110 de e a especie) = P(75 ::; X3 S 110) =

P(75 - 80::; X3 - 80 5 110-80] =


6, 93 6,93 6,93
P( -O 72 ::; Z ::; 4, 3) = l - P( Z > O, 72) - P( Z > 4, 3) =
1- O, 2358 - O, 00000854 = O, 7642

á) Finalmente, la variable aleat01ia relevante en e te apartado e :


X4 = «Número total de ratones capturados» = «Número de ratones
capturados antes del primero de esa especie» + 1 = Y + 1, donde
Y - Geométrica de parámetro p = O 2.

Entonces, tenemo :
«Número medio de ratones capturado » = E[Número total de rato-
. 1-p
ne capturado ) = E[Y + 1] = E[Y] + 1 = E[Geométiica] + 1 = - - + 1 =
p
= 1- 0,2 +1 = 5
0.2
SOLUCIONES DE LOS EJERCICIOS 225

21. La variable aleatoria básica en este ejercicio es X= «Duración (en minutos)


de las cinta de video» - N(µ = 240; CJ = 10).

a) En este apartado nos interesa la duración total de 2 cinta . Por eso, con-
sideramos la variable aleatoria:

X1 + X 2 "'N(µ = 2(240) = 480;CJ = ,J2(100) = 14,14)

Tenemos:

?(Duración total inferior a 490 minutos)= P(X1 + X2 < 490) =


p(X1 +X2 - 480 < 490 - 480)=
14,14 14, 14
P(Z < O, 71) = 1-P(Z > O, 71) = 1-0,2389 = O, 7611.

b) Lo primero que hacemos es calcular la probabilidad de que una cinta


tenga una duración inferior a 250 minuto :

P(X < 2SO) = p( X - 240 < 250 - 240) =


10 10
P(Z < 1) =1-P(Z > 1) = 1-0,1587 = 0,8413

La variable aleatoria con la que trabajamos en este apartado es:

Y= «Número de cintas con una duración inferior a 250 minuto , entre 100»
"'B(n = lOO;p = P(X < 250) = 0,8413) ~ N(µ = np = 84,13;
CJ = .Jnp(l - p) =3,65)
Lo que buscamos es:

P(Y> 80) = P(~ ~.86~ 13 > 8 º;,!~,1 3) = P(Z> - 1,13) =P(Z < 1,13) =
l-P(Z > 1,13) =1- 0,1292 = O 8708

22. a) La variable aleatoria básica en este ejercicio e X= «Cantidad de plomo


en la sangre», que está caracterizada por la función de densidad f(x).
Tenemos:

Cantidad media de plomo en la angre = E[Cantidad de plomo en Ja angre] =

E[X] = J xf( x'¡:Jx = 1o20 x300- dx + J50x -501350


91
X

20
- x
- d x = 18 89
226 SOLUCIONES DE LOS EJERCICIOS

b) P(Cantidad de plomo en la sangre inferior a 20) = P(X < 20) = J/Cx)dx


f20

f 20 X 2
=Jo 300 dx=3

e) En este apartado, vamo a trabajar con la variable aleatoria:

Y= «Número de personas con cantidad de plomo inferior a 20, entre 40»


- B(n =40;p = P(X < 20)= 2 /3) ~ N(µ=np= 26,67; a =.Jnp(l- p) = 2,98)

Remo aproximado la Binomial por la Normal ya que n es grande y p


no es próximo a cero.
En este caso, nos piden:

P(20::; y::; 30) = p(20-26,67::; Y -26,67::; 30-26,67)


2,98 2,98 2,98
= P(-2,24 S Z S 1,12) =1- P(Z> 2,24)-P(Z> 1,12)
= 1-0,0125-0,1314= 0,8561

23. La variable aleatoria básica es X= «Retraso de un tren» que está caracteri-


zada por la función de den idad.f(x). En primer lugar, calculru:no la proba-
bilidad de que se retrase 6 o má minutos:

P(Se retrase 6 o más minutos)= P(X ~ 6) = r f(x)dx = J;


O, 25e--0·25x dx
=0,2231
Para poder calcular la probabilidad que nos piden necesitamos consi-
derar la variable aleatoria Y= «Número de veces que el tren se retrasa 6 o
má minutos, en un año» ,..., B(n = 365;p = P(X ~ 6) = O, 2231) ~ N(µ = np
= 81,44· a = ~ np(l- p) = 7,95),donde hemo aproximado la Binomial por
la Normal, ya que n es grande y p no es próximo a cero. Nos piden:

P(Y> 50) = p (Y-81,44 > 50-81,44) = P(Z>-4) = P(Z < 4)


7,95 7,95
=1- P(Z > 4) = 1- 0,0000317 ~ 1

E decir, es prácticamente seguro que el tren se retra ará 6 o más minu-


to en más de 50 oca ione a lo largo del año.
SOLUCIONES DE LOS EJERCICIOS 227

24. a) Para contestar este apartado, consideramos la variable aleatoria:

X = «Número de persona con lengua no enrollable, entre 200»


,..., B(n = 200· p =0,40) ~ N(µ = np = 80;<1 = .jnp(I- p) = 6,93),

donde hemos aproximado la Binomial por la Normal, ya que n es grande y


p no es próximo a cero. Ahora calculamos:

X - 80
P(X > 70) = P( > 70 - 80) = P(Z>-1,44) = P(Z < 1,44)
6,93 6,93
= 1-P(Z > 1,44) = 1-0,0749 = 0,9251

b) Lo primero que hacemos notar es que si e} hombre e EE, toda su des-


cendencia con una mujer de lengua no enrollable (ee) tendrá la lengua en-
rollable (Ee), mientras que si el hombre es Ee, el 50% de su descendencia
con una mujer de lengua no enrollable (ee) tendrá su lengua enrollable
(Ee) y el 50% restante no la tendrá (ee). Si llamamos Sal suceso «Tener 3
hijos con lengua enrollable» y aplicamos la regla de Baye , tenemos:

P(EEIS) = P(EE)P(SIEE)
P(EE)P(SIEE) + (P(Ee)P(SIEe)

= (0, 3)(l) = O 7742


(0,3)(1) + (O, 7)(1/2)3 '

25. Tenemos dos variables aleatorias:

X= «Diámetro de la varilla» - N(µ = 1· a= 0,2)


Y= «Diámetro del recipiente» - N(µ = 1,05; <1= 0,15)

Queremos calcular:

P(La varilla pueda insertarse en el recipiente)= P(X <Y)= P(X - Y< O)= (*)

Antes de proseguir, observamos que:

X -Y,.., N(µ = 1-1,05 =-0, 05; a= ~ (0,2) 2 + (0,15)2 =0,25)


Ahora, podemo pro eguir el cálculo:

(*)= P( X - Y- (0,05) < 0-(-0,05))=P(Z<O 2) = 1- P(Z >0,2)


0,25 0,25
= 1- 0,4207 = 0,5793
228 SOLUCIONES DE LOS EJERCICIOS

26. La variable aleatoria básica para este problema es X = «Peso de una perso-
na» - N(µ = 72; a= 10).

a) P(Entre los cuatro operen lo 350 Kg.)= P(X1 +X,_+~ + X4 > 350) = (*)

Ante de pro eguir observamo que:

X1 + X2 + X3 + X4 "'N(µ = 4(72) = 288; a= .J4(100) = 20)

Ahora podemos proseguir:

(*) = p( X1 + X2 + ~~+ X4 - 288 > 350;288) = P(Z > 3, l) = O, 000968

b) P(Puedanjugar en un balancín) = P(-5 < X1-X2 < 5) = (**)


Antes de continuar ob ervamos que:

X1 -X2 "'N(µ=72-72=0 · a= .Jl00+100 =14,14)

Ahora podemos continuar:

(**) = P(-5 -o < X1-X2 -0 < 5 -o) = P(- O 35<2<0 35)


14,14 14,14 14,14 '
= 1 - 2P(Z > 0,35) = 1- 2(0,3632) = 0,2736

27. En e te problema estamos manejando dos variable aleatorias:

X= «Ten ión de la línea» - N(µ = 100; a= 20)


Y= «Capacidad de la línea» - N(µ = 140· a= 10)

Tenemos:

P(Avería) = P(X > Y) = P(X - Y> O) = (*)

Ante de eguir, ob ervamos que:

X - Y""' N(µ = 100-140 = -40; a = .J400+ 100 = 22,36)

Ahora podemo continuar:

(*) = P(X -Y - (-40) > 0 - (-40) ) = P(Z> 1 79) = O 0367


22,36 22,36 '
SOLUCIONES DE LOS EJERCICIOS 229

28. En este caso, tenemos dos variables aleatoria :

X 1 = «Espesor con la primera máquina» - N(µ = 10; a= l).


X2 = «Espesor con la segunda máquina» - N(µ = 11; a= 1).

a) Aplicamos la regla de la probabilidad total:

P(Espesor < 12)


= P(Maq. l)P(Espesor < 121Maq. 1) + P(Maq . 2)P(Espesor < 121Maq. 2)
= (3/ 4)P(X1 < 12)+ (1/ 4)P(X2 < 12)

= (3 / 4 )1 X1 ; 10 < 12~ 10)+(1/ 4 )P( X2 ; 11 < 12~ 11)

= (3/ 4)P(Z < 2)+(1/ 4)P(Z < 1)


= (3/ 4)(1 - P(Z > 2)]+ (1/ 4)(1-P(Z > 1)]
=(3/ 4)(1 -0,0228]+(1/ 4)(1-0,1587] =0,9432
b) En e te apartado, aplicamos la regla de Bayes:

P(Maq. l)P(Espesor < 121Maq. 1)


P(Maq. l!Espesor < 12) =- ----------
P(Espesor < 12)
_ (3/4)P(X1 <12)
?(Espesor< 12)
= (3 / 4 )(1 - O, 0228) = O 7770
0,9432 '

29. La variable aleatoria en este problema es:

X= «Número de días sobrevividos» - N(µ = 90; a= 20).

Nos piden:

P(Sobreviva más de 120 días, sabiendo que está vivo al cabo de 110 días)=
P(X > 1201 X> llO) = P(X > 120 y X> 110) = P(X > 120)
P(X > 110) P(X > 110)
= P(Z>(120-90)/20) = P(Z>l,5) = 0, 0668 =O 42
P(Z > (110-90) /20) P(Z > 1) 0,1587 '

30. a) Con ideremos el caso n = 7 y a= 3 (para otro valore , el razonamien-


to seria análogo). En la primera generación hay un total de 7 célula : 3
anómalas y 4 normale . Al reproducirse por partición celular e origi-
nan 14 células: 6 anómalas y 8 normales. La segunda generación e for-
230 SOLUCIONES DE LOS EJERCICIOS

ma e cogiendo al azar (sin reemplazamiento) 7 célula de estas 14. Por


lo tanto, la variable aleatoria X= «Número de individuos anómalos en
la segunda generacióID> sigue una distribución hipergeométrica. Los po-
sibles valores de X van de O a 6.
b) Se trata de calcular la probabilidad de que en la egunda generación
siga habiendo 3 célula anómalas:

31. a) Vamos a llamar A a la plantación considerada en lo dos primeros


apartados. La variable aleatoria bá ica en estos apartados es:

XA = «Producción por manzano en A» - N(µ = 50; a= 10).

Queremos calcular:

P(La producción de 2 manzanos supere los 110 Kg.) = P(XA 1 + XA2 > 110) = (*)
Para continuar con el cálculo, observamos que:

XA, + XA 2 "'N(µ =50+ 50 = 100· a = "1100 + 100 = 14,14)


Por tanto, tenemos:

(*)= p(XAI +XA2 - lOO > 110 - 100 ) = P(Z>O 71) = 0 2389
14,14 14,14 ' '

b) En primer lugar, calculamos:

P(La producción de un manzano de A upere lo 45 Kg.) = P(XA > 45) =

p(XA - 50 > 45 - 50) = P(Z > -0 5) = P(Z < O 5)


10 10
= 1- P(Z > 0,5) = 1- 0,3085 = 0,6915 ~ O, 70

La variable aleatoria relevante en este apartado e :

Y= «Número de manzanos con producción superior a 45 Kg. entre 9>>


- B(n =9; p =P(X > 45) =O 70).

Lo que nos piden es: P(Y = 7) = 0,2668.


SOLUCIONES DE LOS EJERCICIOS 231

e) En este apartado, estamos interesado en una nueva plantación, que lla-


maremos B, y trabajamos con una nueva variable aleatoria:

X8 = «Producción por manzano en B» - N(µ = 50; a),

donde a es desconocida. Para conocer a, plantearemos una ecuación a par-


tir de la información que tenemos:

El 80% de lo manzanos de B tiene una producción superior a 40 Kg. =>

O 80=P(Xn >40)=1 Xn ~50 > 40~50)= p(Z>-:) ~

p( :)=Z< 0,80 => p( :)=


Z> 0,20 =>

10 =0,84 => O"=ll,90


(j

32. En este ejercicio tenemos, en principio, tres variable aleatorias:

XA = «E tatura de una persona del grupo A» - N(µ = 165; a= 5)


X8 = «Estatura de una persona del grupo B» - N(µ = 170; a= 5)
Xc = «Estatura de una persona del grupo C» - N(µ = 175; a= 5)

a) P(Una persona del grupo A mida más de 160 cm.)= P(XA > 160) =

p( XA ~165 > 160;165) = P(Z >-l) = P(Z < l) =l-P(Z> l)

= 1-0,1587 = 0,8413

b) P(Entre 10 personas de A midan más de 1600 cm.)= P(XA1 + ... + XA 10


> 1600) = (*)

Observamos que:

XAI + ... + XAIO ,.., N(µ = 10(165) = 1650; a= ._/10(25) = 15,81)

Entonces:

(*)=P(XAI + .. . +XAI0-1650 > 1600 - 1650J=P(Z> -3 2)=P(Z<3 2)


15,81 15,81 ' '
= 1-P(Z > 3,2) =1-0,000687 = 0,9993
232 SOLUCIONES DE LOS EJERCICIOS

e) Aplicamo la regla de Baye :


P(CIAlt. > 172)
P(C)P(Alt. > 1721C)
=---------'---'---'------'--------
P(A)P(Alt. > 1721A) + P(B)P(Alt. > l 721B) + P(C)P(Alt. > 1721C)
= P(C)P(Xc >172)
P(A)P(XA > 172) + P(B)P(X8 > 172) + P( C)P(Xc > 172)
=________ ) 1-'5] = - - - - - - - - -
P_(, C_-'-)P-=[c....Z_>_;_{l_7_2_-_l7_5::-
P(A)P[Z > (172-165)/ 5)+ P(B)P[Z > (172-170)/ 5]+ P(C)P[Z > (172 - 175)/ 5)
(0,30)P(Z > -0,60)
= - - - - - --'-----'--'-----'--'------ -
(0,50)P(Z > 1,40)+ (0,20)P(Z > 0,40) + (0,30)P(Z >-0,60)
= (0, 30)(0, 7257) = O 67
(O, 50)(0, 0808) + (0, 20)(0, 3446) + (0, 30)(0, 7257) '
el) Finalmente, consideramos la variable aleatoria:
Y= «Número de per onas que miden má de 172 cm., entre 100 de B» -
B(n = lOO;p = P(X0 > 172) = 0,3446) !:::::

N(µ = np = 34,46; a= -Jnp(l- p) = 4, 75),


donde aproximamos la Binomial por Ja Normal, ya que n es grande y p no
es próximo a cero. Tenemos entonces:

P(Y2'.:50) = P(Y- 34, 46 ~ Sü - 34, 46 )=P(Z~3 3) = 0 000483


4,75 4 75 ' '

33. En este ejercicio, la variable aleatoria relevante e X= «Número de acierto


en 10 cue tiones» - B(n = 10; p), donde p = «Probabilidad de acierto en
cada cue tión».

Primer caso: Cuando el e tudiante re ponde todo al azar, p = O 50 con


lo que X - B(n = 10; p = 0,50). Entonces:
P(Aprobar) = P(X 2'.: 7) = 0,1719.
Segundo ca o: Cuando el estudiante sabe el 30% de la a ignatura, p =
P(Acierto) =(0,30)(1) + (0,70)(0,50) =0,65, con lo que X - B(n = 10; p =
O65). Entonces:
P(Aprobar) = P(X 2'.: 7) = 0,5139.

34. En e te ejercicio, di ponemo de 3 variable aleatoria relevante :

XA = «Altura de la casta A » - N(µ = 175· <:5 = 10)


X 8 = «Altura de la ca ta B» - N(µ = 170; <:5 = 10)
Xc = «Altura de la ca ta C» - N(µ = 165; <:5= 10)
SOLUCIONES DE LOS EJERCICIOS 233

a) P(Individuo de A tenga estatura inferior a 164 cm.)= P(XA < 164) =


p(XA-10175 < 16410- 175 )=P(Z<-1' l) =P(Z>l' 1)=01357
'

b) En este apartado, aplicamos la regla de la probabilidad total:

P(Altura < 164) = P(A)P(XA < 164)+ P(B)P(X8 < 164)+ P(C)P(Xc < 164) =
(O 75)P(XA -175 < 164-175)+(0 20)P(Xg-170 < 164-170)
' 10 10 ' 10 10

+(0,05)P(Xc -l 65 < 164 - 165 ) = (0, 75)P(Z <-1,1) +(0,20)P(Z <-0,6)


10 10
+(O, 05)P(Z < -0,1) = (0, 75)P(Z > 1, 1) + (0, 20)P(Z > O, 6) + (0, 05)P(Z > O, I) =
(0, 75)(0,1357) + (0,20)(0,2743) + (0,05)(0,4602) = 0,1796

e) En este apartado, aplicamos la regla de Bayes:

P(AIAltura<164)= P(A)P(XA <164)


?(Altura< 164)
= (O, 75)(0, 1357) = O 57
0,1796 '
P(BIAltura < 164) = P(B)P(XB < 164)
P(Altura < 164)
= (0,20)(0,2743) = O 30
0,1796 '
P(CIAltura < 164) = P(C)P(Xc < l 64)
P(AJtura < 164)
= (0,05)(0,4602) = O l3
0,1796

Hay un 57% de probabilidades que sea de A.

35. a) En este apartado, consideramos la variable aleatoria:

U= «Número de chicas obesas, entre 200>> - B(n =200; p =O, 10) =


N(µ = np = 20; a= ~np(l - p) = 4,24).
U- -
P(Al menos 10 chicas obesas, entre 200) = P(U ~ 10) = P ( - 10-20)
20 ~ - - =
4,24 4,24
P(Z ~ -2,36) = 1- P(Z > 2,36) = 1-0,00914 = 0,9909
234 SOLUCIONES DE LOS EJERCICIOS

b) En este apartado, consideramos también la variable aleatoria:

T = «Número de chico obesos, entre 250» - B(n = 250; p = 0,10).

En primer lugar, calculamos la esperanza y la varianza de X - Y:

[ T U] 1
E[X -Y]= E 250 - 200 = 250 E[T]- 200 E[U]
1

= - 1-(250)(0,10) - - 1-(200(0,10) = o.
250 200
T U)
1 1
V(X - Y)= V ( 250 - 200 = 250 2 V(T) + 200 2 V(U)

=~(250)(0,10)(1-0,10) +~(200)(0,10)(1- 0,10) = 0,0008


250 200

Entonces:

X - Y ~ N(µ = O· a = .Jo,0008 = O, 0285)

Finalmente:

P(X - Y> O 06)= P(X-Y-O > O 06 -0) = P(Z>2 11)= O 0174


' O, 0285 O, 0285 ' '

36. En e te ejercicio, trabajamos con la variable aleatoria:

X = «Cantidad de grasa envasada» - N(µ; a = 25)

Queremos elegir el valor de µ que verifique la condición:

El 2% de los enva es tiene una cantidad de grasa inferior a 500 gramos =>

O' 02 = P(X < 500) = P(X25- µ < 50025- µ) = P(z < 500-µ)
25
=>

P( Z> µ~~OOj=O 02 => µ~~OO =2,05 => µ=551,25

37. Disponemos de dos variables aleatoria :

XA = «Porcentaje de asfalteno en la telas de A» - N(µ = 30; a = 3)


X8 = «Porcentaje de asfalteno en las telas de B» - N(µ = 35; a= 2)
SOLUCIONES DE LOS EJERCICIOS 235

a) P(Una tela de A tenga un porcentaje de asfalteno entre 28 y 34) =

P(28 < XA < 34) = p(28-30 < XA -30 < 34-30)


3 3 3
= P(-0,66 < Z < 1,33) =1- P(Z > 0,66) - P(Z> 1,33)
=1- 0,2546-0,0918 =0,6536
b) Aplicamos la regla de Bayes:

P(AIAsfalteno > 34) = P(A)P(XA > 34)


P(A)P(XA > 34) + P(B)P(XB > 34)
P(A)P(Z > 1,33)
=- -----------
P(A)P(Z > 1,33)+ P(B)P(Z >-0,5)
= (O, 70)(0,0918) = O 24
(O, 70)(0, 0918) + (O, 30)(1- O, 3085) '

38. a) En este apartado, trabajamos con la variable aleatoria:

X= «Cantidad de fertilizante por saco» - N(µ = 30; a= l).


P(La cantidad de fertilizante por saco esté entre 29 y 31) = P(29 s; X s; 31) =

p ( 29-30 s; X-30 s; 31-30) =P(-ls; z s; l) =1 _ 2P(Z > l) =


1 1 1
=1- 2(0, 1587) =O, 6826
b) En este apartado, trabajamos con la variable aleatoria:

Y = «Número de saco con una cantidad entre 29 y 31 Kg, de los 80» -


B(n = 80; p = P(29 s; X s; 31) = 0,6826) ~
N(µ =np = 54,61; a= .Jnp(l - p) = 4,16)
Hemos aproximado la Binomial por la Normal, ya que n e grande y p
no está próximo a cero.

P(Y> 50) = ¿
P( y ~~1 61 > SO ~.~:· 61 ) =P(Z >-1,11) = P(Z < 1,11) =
1-P(Z > 1,11) = 1-0,1335 = 0,8665

39. a) La primera variable aleatoria que consideramos es:

X= «Cantidad de gasolina en cada muestra» - N(µ = 10, a= 0,1)


236 SOLUCIONES DE LOS EJERCICIOS

En primer lugar, calculamos:

P(Menos de 9, 9 litros en una muestra) = P( X < 9 9) = P( -·X-10 99 - 10 ) ==


- - < '
0,1 0,1
P(Z < - 1) = P(Z > 1) = 0,1587

Ahora consideramos la variable aleatoria:

Y= «Número de muestras con menos de 9,9 litros, entre las 3» -


B(n=3; p =P(X < 9,9) =0,1587 = 0,15).
Nos piden: P(Y = 2) = 0,0574.

b) Ahora tenemos dos surtidores correcto (C) y uno trucado (1). Los
elegimos al azar, de modo que P(C) =2/3 y P(1) = 1/3.

El uce o que observamo e :

S == {Obtenemos menos de 9 ,9 litros en exactamente 2 de las 3 muestras}

Hemos vi to en el apartado anterior que, cuando el surtidor es correcto,


tenemo : P(SIC) == 0,0574.
Razonando de manera análoga a la efectuada en el apartado anterior ob-
tendríamos que, si el surtidor está trucado, la probabilidad de obtener menos
de 9,9 litros en una muestra e 0,50 y, en consecuencia, la variable aleatoria
Y seguiría una B(n = 3; p = 0,50). Por tanto, la probabilidad de obtener me-
nos de 9,9 litros en exactamente dos de la tre muestras seó a: P (Sl7) =
0,3750.
Ahora, ólo queda aplicar la regla de Bayes:

P(TIS) = P(DP(SID
P( C)P(SIC) + P(DP(SID
= (1/3)(0, 3750) = O 77
(2/3)(0, 0574) + (1/3)(0, 3750) '

40. La funciói;i de densidad de la variable aleatoria X = «Intensidad de un im-


pulso» e :

2x
si0 <x <3
{
f (x) = 9
0
en el resto
SOLUCIONES DE LOS EJERCICIOS 237

a) «Intensidad media del impulso»= E[Intensidad del impulso}= E[X] =

J91 xf(x) dx =fo\( 2; ) dx =2

b) En primer lugar, calculamos:

P(Intensidad inferior a 0,3) = P(X < 0,3) == l0,32x


o
-dx = 0,01
9

Consideramos ahora la variable aleatoria:

Y= «Número de impul os con intensidad inferior a 0,3, entre 90» -


B(n = 90; p = P(X < 0,3) = 0,01) = Poisson (l = np = 0,9).

Hemos aproximado la Binomial por la Poi on, por er n grande y p pró-


ximo a cero. Entonces, tenemos:

P(Y = 3) = 0,0494.

41. En este ejercicio, estamos considerando dos variables aleatorias:

XA = «Peso de los huevos de la granja A» - N(µ = 61; a= 8)


X8 = «Peso de los huevo de la granja B» - N(µ = 65; a= 8)

Además: P(A) = 0,30 y P(B) = 0,70

a) Aplicamos la regla de Bayes:

P(AIM) _ P(A)P(MIA) _ (*)


P(A)P(MIA) + P(B)P(MIB)

Para continuar, nece itamos calcular:

P(MIA) = P(53 < XA < 63) = J'53-61 < XA -61 < 63-61) =
'~ 8 8 8
P(-1 < Z < 0,25) = 1-P(Z> 1)-P(Z > 0,25)= 1-0,1587-0,4013 = 0,4400

P(MIB) = P(S 3 <X»< 63) =p ( 53-65 < X 8 -65 < 63-65) =


8 8 8
P(- 1, 5 < Z < -0, 25) = P(O, 25 < Z < L 5) = P(Z > O, 25) - P(Z > 1, 5) =
0,4013 - 0,0668 = 0,3345

Ahora podemos continuar:


238 SOLUCIONES DE LOS EJERCICIOS

(*) = (0,30)(0,4400) = O 36
(O, 30)(0, 4400) + (O, 70)(0, 3345) '

b) En primer lugar, calculamos:

X -61 53-61)
P(SIA)=P(XA <53)=P( A8 < 8 =P(Z<-l)=P(Z>l)=0,1587

A continuación, consideramos la variable aleatoria:

Y= «Número de huevos tipo S de la granja A, entre 6» -


= 0,15).
B(n = 6; p = P(XA < 53) = 0,1587

Entonces:

P(Y = 2) = 0,1762
e) En primer lugar, calculamos:
P(LIB) =P(63 < Xs < 73) = p(63-65 < X8 -65 < 63-65) =
8 8 8
P(-0,25 < Z <1) = 1-P(Z> 0,25)-P(Z> 1) = 1-0,4013- 0,1587 = 0,4400

A continuación considerarnos la variable aleatoria:

T= «Número de huevos tipo L de la granja B, entre 200» -


B(n = 200· p = P(63 < X 8 < 73) = 0,44) ~

N(µ = np = 88; CY = -Jnp(l- p) =7,02)

Hemos aproximado la Binomial por la Normal ya que n es grande y p


no e próximo a cero.
Por tanto, tenemos:

P (50 ~ T ~95) = p (S0-88 ~ T-88 ~ 95 - 88] = P(-5,41 ~ z ~ 1) =


7,02 7,02 7,02
1-P(Z > 5 41)- P(Z > 1) = 1-0,0000000333-0,1587 = 0,8413

d) Finalmente, en este apartado consideramo la variable aleatoria:

S = XAI + ... + XAl2 ,..., N(µ = 12(61) =732· a= ~ 12(8)2 =27, 71)
SOLUCIONES DE LOS EJERCICIOS 239

Tenemos:

P(S>720)=P(s- 732 > ?20- 732 )=P(Z>-O 43)=P(Z<O 43)=


27,71 27,71 ' '
l-P(Z>0,43)=1-0 3336=0,6664

42. La variable aleatoria de interés en este problema es:

X = «Número de componentes defectuosos, entre 50» -


B(n =50; p = P(Defectuoso) =0,048) = Poisson(íl =np = 2,4).

Hemos aproximado la Binomial por la Poisson ya que n es grande y p es


próximo a cero. Finalmente, tenemos:

P(Revisar el proceso de producción)= P(X > 1) = 1 - P(X = O) - P(X = 1) =


1-0,0907 - 0,2177 = 0,6916.

43. a) En e te apartado, la variable aleatoria relevante e :

X = «Número de personas que usan el lavabo 4, de un total de 3 personas»


~ B(n = 3;p = 1/8).

Tenemos:

P(X> O)= 1-P(X =O)= 1-(7/8)3 = 0,33.

b) En e te apartado consideramos la variable aleatoria:

Y= <<Número de personas que usan el lavabo 2, de un total de 100 personas -


B(n = lOO;p = 1/ 4) ~ N(µ = np =25; a= .Jnp(l- p) =4,33)

Hemo aproximado la Binomial por la Normal, ya que n es grande y p


no es próximo a cero. Tenemo :

X - 25 20- 25)
P(Y>20)=P( - - > =P(Z>-1,15)=P(Z<l,I5)=
4,33 4,33
1-P(Z > 1,15) = 1-0,1251 = 0,8749

44. a) y b) Consideramo la variable aleatoria X= «Producción anual» ~ N(µ;


a), y planteamo do ecuaciones:
240 SOLUCIONES DE LOS EJERCICIOS

El 90% de lo años la producción es inferior a 1300 ==>

0,90=P(X<1300)=P(X:µ < l30~-µ)=P( Z< l30~-µ ) ==>

P( Z> l30~-µ )= 0,10 ==> l30~-µ =1 ,28

El 40% de lo año la producción es superior a 1100 ==>

0,40 = P(X > 1100) = P( X:µ> llO~-µ) = p( Z> llO~-µ) ==>

1100 - µ = 0 25
O" '

Por lo tanto, tenemos:

130
~ - µ = 1,28} ==> µ = 1051,46
1100 - µ =0,25 0"=194,17
O"

e) P(X> lOOO) = p(X - 1051,46 > 1000 - 1051,46) = P(Z >-0 26)=
194,17 194,17 '
P(Z < O 26) = 1-P(Z > 0,26) = 1-0,3974 =0,6026

á) En este apartado oecesitamo con iderar la variable aleatoria:

«Producción total en 1O años» = X1 + ... Xw-

N(µ =10(1051,46) = 10514,6; a = ~10(194,17)2 =614,02)

Por tanto:

P(X + .. . + X < lOOOO) = p(X, + ... + Xro -10514,6 < 10000 - 10514,6) =
I JO 614,02 614,02
P(Z <-0,84) =P(Z > 0,84) =0,2005

45. a) En primer lugar observamos que P(Per ona O po itiva) = (0,45)(0,80)


= 0,36. Ahora, consideramos la variable aleatoria:
SOLUCIONES DE LOS EJERCICIOS 241

X= «Número de personas O positivas, entre 300» ,..., B(n = 300;p = 0,36) ~

N(µ =np =108; a= .Jnp(l- p) =8, 31)

Hemos aproximado la Binomial por la Normal ya que n es grande y p


no es próximo a cero. Tenemos:

P(X < 95)= P(X-l0 8 < 95 - 108 )= P(Z <-1 56) =P(Z> 1 56) =O 0594
8 31 8 31 ' ' '
'
b) En primer lugar, ob ervamos que P(Persona AB negativa) = (0,05)
(0,20) = 0,01. Ahora, consideramos la variable aleatoria:

Y = «Número de personas AB negativas entre 150» - B(n = 150; p =


0,01) = Poisson(A= np = 1,5).
Hemos aproximado la Binomial por la Poisson ya que n es grande y p es
próximo a cero. Tenemo :

P(Y~ 1) = l -P(Y =O)= 1-0,2231 = 0,7759.

e) El calculo de probabilidad que hacemos a continuación, corresponde a


una variable aleatoria con distribución binomial negativa:

P(Necesitar 12 personas basta encontrar 3 del grupo A)=

(~1)co,4o)3co,6o)9 = o,0355

46. a) En primer lugar, consideramos la variable aleatoria:

X= «Cantidad de contaminante de un coche de pequeña cilindrada cada 100


Km.» - N(µ = 20; CT= 3).

La cantidad total de contaminante de 1O coches de este tipo viene dada


por la variable aleatoria:

X1+ ... + X10 ,..., N(µ =10(20) = 200;a = ~10(3)2 = 9,49)


Entonces, tenemos:

P(X, + ... +X10 <210) = P(X1 + ... +Xw - 200 < 210 - 200) = P(Z<l,05) =
9,49 9,49
1- P(Z > 1,05) =1-0,1469 =0,8531
242 SOLUCIONES DE LOS EJERCICIOS

b) En e te apartado, consideramo la variable aleatoria:

Y = «Cantidad de contaminante de un coche de cilindrada media cada 100


Km» - N(µ; a).

Para obtenerµ y a, planteamos dos ecuaciones:

El 80% de los coches expelen más de 25 mg. ~

O, 80 = P(Y > 25) = P( y~µ > µ)25; = P( Z > 25; µ) ~

p( Z < µ~25 ) = 0,80

El 60% de los coches expelen menos de 30 mg.


O60 = P(Y < 30) = P( y~µ < 30; µ) = P(Z< 30; µ) ~

p( Z> 30;µ)=0,40 ~ 30;µ =0,25

Entonces, tenemos:

µ~ 25 = 0,84} µ=28,86
30 - µ =0,25 a =4,59
a

47. La variable aleatoria básica en este ejercicio e :

X= «Cantidad de plomo» - N(µ = 30; a= 1O)

a) En primer lugar, calculamos:

P(Cantidad de plomo extremadamente alta) = P(X > 53) =

P(X- 10
30 > 53 - 3
10
º)= P(Z > 2 30)=0 0107
' '

Ahora, con ideramo la variable aleatoria:

Y = «Número de per onas con cantidad de plomo extremadamente alta,


entre 7» - B(n = 7; p = P(X> 53) = 0,0107 = 0,01).
SOLUCIONES DE LOS EJERCICIOS 243

Tenemo:

P(Y;:::: 1) = 1 - P(Y =O)= 1 - 0,9321 = 0,0679.

b) Ahora necesitamos considerar la variable aleatoria:

XL+ ... + X5 ""N(µ = 5(30) = 150; a= ~ 5(10)2 = 22,36)

Entonces:

P(X, + . .. + Xs > 140) = p(X, + ... + X -150 > 140-150) = P(Z >-0, 45) =
5
22,36 22,36
P(Z < 0,45) =1-P(Z > 0,45) =1- 0,3264 = 0,6736

e) Finalmente, consideramos la variable aleatoria:

x1 -x2 "'N(µ=30 - 30=0; a= ~ 2(10)2 =14,14)

Tenemos:

P(- lO <X - X < lO)= p( - 10-0 < X1 -X2 -O< 10-0) =


L 2 14,14 14,14 14,14
P(-0, 71 < Z < O, 71) = 1- 2P(Z > O, 71) =1-2(0,2389) = 0,5222

7. Estimación puntual
1. a) En e te ca o, la función de masa es P(x) = p'(l-p) 1- x.
Estimador por el método de los momentos:

E[X]=x => p=X => p=x

Estimador de máxima verosimilitud:

L(p) = P(xl) .. .P(xn) = p x' (l- p)l- x, ... p x• (1- p)l- x. =


= p1:x1 (l- p)"-á, =>
log L(p) = (LX¡)log p+ (n - I.x;)log(l- p) =>
d log L(p) = I, X ¡ _ n - I, X; = 0 => p= x
dp p 1-p
244 SOLUCIONES DE LOS EJERCICIOS

-l íl:'
b) En este caso, la función de masa es P (x) =-e__
x!
Estimador por el método de los momentos:

E[ X] = x => A. = x => A= x

Estimador de máxima verosimilitud:

e-,l;¡_x, e-líl;'• e-nlÍLL;


L(A.) = P(x1) • • • P(xn) = - -... =--- =>
(x1)! (xn)! (x1 )!. .. (xn)
log L(A.) =- níl + (Lx¡)logA- }:.log(x¡)! =>
dlogL(A) =-n+ LX¡ =O => A

.:l=x
d;t .:l

e) En este caso, la función de densidad esf(x) = ?vr/lX.

Estimador por el método de lo momento :

E[X]=x => f
x=E[X]= 91 xf(x)dx= fo° x (k - .tr)dx=
0
~ =>

Á=_!_
x

Estimador de máxima verosimilitud:

L(.:l) = J(x,) ... f(x,,) = k - ).r, ... Ae- ..ix" =J_"e- m ; =>
logL(Á) =n log.:l -íl ¿x; =>
dlogL(Á) =!:- ¿x. = O A l
=> A.=-
dJ.. ;t ' .x

el) En este ca o, la función de den idad e

1
!( X ) -- 1
- - ( , : -µ )
r;:,:: e 2u 2
2

a -v 2rc

Estimador por el método de los momentos:

E[X] =.x => µ = x => µ. =x


SOLUCIONES DE LOS EJERCICIOS 245

Estimador de máxima verosimilitud:

log L(µ) =-n log a- n log -fin --4


2a
¿(x; - µ) 2 =>

dlogL(µ) =- - 1- (- 2)(¿x. -nµ)=O => µ= x


dµ 2a 2 '

e) En este caso, la función de densidad es

1 1 2
f(x)=--e 2 a 2 (x-µ )
a-fin
Estimador por el método de los momentos:
La primera posible ecuación:
E[X]=x => µ= x
no sirve en este caso, ya que no aparece el parámetro d-que es e] que que-
remos estimar. Recurrimos a la segunda posible ecuación:

=>

De paso, es conveniente hacer notar que el estimador obtenido por el


método de los momento produce, alguna veces, e timaciones absurdas.
Por ejemplo, si es conocido queµ= 3, y la muestra obtenida es (1 , 2, 4), ob-
tenemos ii-2 = -2, lo cual e claramente absurdo.
Estimador de máxima verosimilitud:

1
logL(cr)= - nlogcr - nlog - f i n - -2 I.(x; -µ)
2 =>
2cr
dlogl(cr) =-~ + - 1 l(x¡-µ)2 = O => 8 2 =_!.L(x.- µ)2
~ CJ" ~ n '
246 SOLUCIONES DE LOS EJERCICIOS

j) En e te ca o, la función de den idad igue iendo:

1
!( X ) = O'..fin 1
- -(x- µ)
2
e 2<1 2

Estimador por el método de lo momento :


Como en este ca o tenemo que e timar dos parámetros, planteamo dos
ecuaciones:

E[X]= x }
E[X 2 ]=;I.x¡
íl= x
- 2
O' = -1 ,t.,
""' X¡2 - -2
X = -1 ""'(
L., X ¡ -
- )2
X
n n

Estimador de máxima verosimilitud:

1_ -- 12 (xi-µ) 2 1 1 2
L( µ, O') -_ f( X1) • • • f( Xn ) -_ _~ e 2u ... ~ e- 2u 2 (x. -µ ) _
-
a -v 2rc a -v2rc
- I 1
e- -2l:(x¡-µ ) 2

- <J'" ( -fiii t 2CT =>

log L( µ ,a) =-nloga - nlog..fiii - ~ I.(x; -µ )2 =>


20'

dlogL(µ, a) =--l-(-2)(I,x. -nµ)=O¡ µ=x


aµ 2a 2 •
=> O' 2 = 1
A ""'( - )2
- ¿, X¡ -X
dlog L(µ, a) =_ !:_ + - 1 I.(x; _ µ)2 =0 n
ªª O' 0'3

2. Estamo interesados en estimar el parámetro p = «Proporción de personas


que evaden impuesto ». Para evitar respuestas falsas, recurrimo a un mé-
todo indirecto (método de respuesta aleatorizada). Para poder estimar p
con este método, seguiremos los siguiente pasos:

Paso 1: Definimos un nuevo parámetro muy relacionado con p , pero


algo diferente: q = «Probabilidad de recibir una respue ta afirmativa».
SOLUCIONES DE LOS EJERCICIOS 247

La ventaja de este nuevo parámetro es que es un parámetro directamente


estimable. Como en todos los casos en que queremos estimar ona pro-
porción o una probabilidad, dispondremos de una muestra aleatoria (X1,
... , X) de X - B(I; q). Ahora, podemos estimar q (por ejemplo, por má-
xima verosimilitud):

q~ = x- = « Frecuenc1a aova de respuestas afum.


. re1. 600
ativas» = - - = 060
1000

Paso 2: Lo siguiente que necesitamos es poder establecer la rela-


ción que hay entre p (parámetro que nos interesa) y q (parámetro que
acabamos de estimar). Para esto basta aplicar la regla de la probabili-
dad total:

q = P(Si) = P(A)P(SilA) + P(B)P(SilB) = ..!_ p + ..!_..!_ = p + ..!_


2 22 2 4
1
=> p=2q--
2

Paso 3: Finalmente, podemos estimar p:

1
p= 2q-- =2(0,60) --= 0,7
A A 1 o
2 2

Por lo tanto, se estima que el 70% de la población evade impuestos.

3. a) Planteamos la ecuación:

E[X] = x => x = E[X] = Jxf


91 6 (x)dx = fe~ xe- x+e dx =e+ I

=> 8 =.x -1

b) El estimador (J será insesgado para estimar 8 si E[Ó] =e.Veamos si se


verifica:
E[OJ = E[x - 11 = E[XJ-1 = E[XJ-1 =ce+ 1) -1 = o.

Por tanto, es insesgado para estimar e.


248 SOLUCIONES DE LOS EJERCICIOS

4. L(()) = J9(x 1) ... fixn) = xi exp (- x¡2 )· . . x; exp (- x;2 ) =


() 2() () 2()

= x1 •• • xn ex ( - í.,x¡) =>
9 2n P 2()2

¿x~
log L( ()) = í., log X; - 2n log () - - - ~ =>
2()
dlog L(()) =- 2n + í.,x¡ = 0 => 0~ = ~X~
_ _,
d() () ()3 2n

8 1
°S. a) L(()) = f9(X¡). · ,j9(X11 ) = ()(_!_)B+l... ()(_!_)B+I=8 11 ( l ) + =>
x1 x 11 X¡ • •• xn
lag L(()) = nlog0-(8 + 1) Í.,logx; =>
dlogL(()) =~-Í.,logx. = 0 => ~ n
8=---
d() () 1 I. Iog x¡

b) Resolvemos la ecuación:

.. ( 1 )8+1 8
E[X]=x => x=E[XJ = f xf8 (x)dx=f x () - dx= - =>
9l. 1 X (}-}

-
8= -
x
.x-l

6. L(µ, a ) =!( x1)• • . !( x" ) = x a -v1r;;-::: exp[ (logx1 ~ µ)


2
]···
2n 1 2a

•. .
1r;,::: exp[ (logx11 - µ)2 ] --
2
1
11 r;,::: n exp[
I.Oogx¡ - µ)2 J ~
xna-v 21' 2a (x, ... xn)a (-v 2n) 2a 2

rJlogL(µ, a')_
---=----'-- -- - - 1 (- 2)[~l
_¿_, og x. - nµ J-
- O¡
r)µ 2 0'2 1

ªª
rJiogL(µ cr) =-!:.+_l_ I (logx.-µ) 2 = O
(J' 0'3 1

7. E l objetivo fundamental de e te ejercicio es estimar, por máxima verosimi-


litud, el parámetro p = «Proporción de peces de la especie A».
SOLUCIONES DE LOS EJERCICIOS 249

a) ?(Primer pez tipo A en la décima extracción)= (1-p)9 p.


b) El apartado anterior nos sirve para indicamos cómo escribir la función
de verosimilitud. Recordemos que la función de verosimilitud es la pro-
babilidad, bajo los diferentes valores del parámetro p, de los resultados
muestrales obtenido :
L(p) = P(Resultados muestrales obtenidos)= P(Primer pez tipo A en la
décima extracción y Primer pez tipo A en la decimoquinta extracción y
Primer pez tipo A en la decimoctava extracción) =

= [(1- p)9 p][(l - p)l4p][(l - p)17 p] =(1- p)40 p 3 ~


logL(p) = 40Iog(l- p) + 3logp ~

dlogL(p) =-~+i=o
dp 1- p p

7. a) y b) El objetivo fundamental en estos dos primeros apartados es


estimar, por máxima verosimilitud, el parámetro p = «Propor-
ción de caballos afectados por la peste equina». Para esto se-
guiremos los siguientes pasos:

Paso 1: Consideramos un nuevo parámetro, muy relacionado con p


pero algo diferente: q = «Probabilidad de dar positivo en la prueba».
La ventaja de este nuevo parámetro es que es un parámetro directa-
mente estimable. Como en todo los casos en que queremos estimar una
proporción o una probabilidad, dispondremos de una muestra aleatoria
(X1 .•• , Xn) de X- B(l; q). Ahora, podemos estimar q por máxima verosi-
militud:

q~ = x- = «Frecuenc1a
. re1atlva
. de pruebas pos1t1vas»
.. = - 95 = O 19
500

Pa o 2: Lo siguiente que necesitamos es poder establecer la relación que


hay entre p (parámetro que nos interesa) y q (parámetro que acabamo de
estimar). Para esto, basta aplicar la regla de la probabilidad total:

q = P(Pos.) = P(Eof)P(Pos. l Enf.) + P(No enf.)P(Pos. l No eof.) = (p )(1) +


q-0,04
+(1- p)(0,04) = 0,04 + 0,96p ~
p= O, 96

Paso 3: Finalmente, podemos estimar p :


250 SOLUCIONES DE LOS EJERCICIOS

Es decir, alrededor de un 16% de lo caballos están afectados por la pes-


te equina.

e) Si realmente hay un 20% de caballos afectado por la peste equina, en-


tonces p = 0,20, y q = O 04 + (0,96)(0 20) = 0,2320. Consideramos la
variable aleatoria:

T = «Número de pruebas positivas, entre 500» "'B(n = 500; q = 0,2320)


~ N(µ = nq = 116; <1 = ~ nq(l-q) = 9,44),
donde bemo aproximado la Binomial por la Normal, ya que n es grande y
p no es próximo a cero. Tenemos:

P(T'?:. 95) = P(T-ll 6 'c. 95 - 116 ) = P(Z'c.-2,22) = P(Z::; 2,22) =


9,44 9,44
1- P(Z > 2,22) = 1- 0,0132 = 0,9868

9. a) L(8) = f 9 (x 1) •.. fo(x,,) =[2fü 1 exp(-8x~)] . ..[28x,, exp(-fu?, )] =


2 11 8 11 (x1 ••• x,,)exp(-OI, x~) ~
logL(O) = nlog2+nloge+ I,logx¡ - 8I- x; ~
dlogL(O) !:-I,x2 =O ~ O=-n-
d() e · I- xi

Si queremo estimar por máxima vero imilitud g( 8) tenemo :

1/2

g(O) =(1 / 2)(n / 0) = l. 112 (


; 2
)
2 n/ X¡

b) Planteamo la ecuación:

- n
E[X] = x ~ (l/2)(n/8) 112 =X ~ 8= -2
4.x

10. a) Planteamos la ecuación:

E[X]= x ~ x=E[X] = J. xf9 (x)dx=


9l
J xl +--2fu dx= -(}3
I
-1
~ 8=3x
SOLUCIONES DE LOS EJERCICIOS 251

b) V(Ó) =V(3X) =9V(X) =9 V(X) =2V(X) =(*)


n n
Calculamos la varianza de X:

V(X) = E[X2]-(E[X])2 = J9t


Í x 2 J8 (x)dx - 82 =
9
= f• x2 l+8x dx - 82 = 3-82
-1 2 9 9

Ahora, podemos continuar:

2 2
-9-3-8
( *)- - ---3-8
--
n 9 n

Para probar que ii es consistente para estimar 8 es suficiente comprobar


que:

lim,, E[~]= 8
{
lim,, V(8) = O

Efectivamente:

lim,, E[tiJ =lim, E[3X: =lim, 3E[XJ =3E[XJ =3f =6


{
limn V(é) = limn 3 -fJ =Ü
n

Por tanto, ii es consistente para estimar e.

11. a) L(8) = f 8 (x1 ) • • .fo(xn) = [ie-x J. ..[ie-x•


118 18 J= ;,, exp(-i LX;) =>

1
logL(()) = -nlog8-e LX¡ =>

dlog L(8) =-~+ __!_LX· =O => 9= x


de e e2 •
En consecuencia tenemos:

{p =x2
252 SOLUCIONES DE LOS EJERCICIOS

b) El e timador T será in esgado para estimar O i E[1] = O. Veamo ie


cierto:

E[T] = E[Xi + 2 X2
3
J=_!.(E[X¡]
3
+ 2E[X 2 ]) =_!.(E[X]+ 2E[X]) =E[X] =
3
=f
J<R
xf(x)dx = r=xl.e-"
Jo e dx = 0
19

Por tanto, Tes insesgado para estimar O.


Calculamos ahora su varianza:

V(T) = v( Xi+ 2 X2 )
3
= ..!_ [V(X1) + 4 V(X2 )] =..!_ [V(X) + 4V(X)] =
9 9

=2V(X)=2e2
9 9

12. En e te ejercicio, disponemos de una muestra aleatoria (X1, ••• , X) de la


variable X = «Lectura del voltímetro» que sigue una distribución uniforme
en el intervalo (8, 8+ 1), con lo que u función de densidad es:

1 si B<x<O+l
J;9 (x) ={
O en el resto

a) El e timador X será sesgado para estimar esi E [X] t:- e. En efecto:

_
E[X] = E[X] =
J. xf9 (x)dx =
f.9+!x(I)dx =e+ -1 =/= e
~ 9 2

Por lo tanto, X e un e timador se gado de 8. Además:

- -
«Sesgo(X)»=E[X]-8= 0+ 2 -0= 2 ( 1) 1
- - - 2
b) «Error cuadrático medio de X»= V(X)+[Sesgo(X)] =
= V(X) +! = (*)
n 4
SOLUCIONES DE LOS EJERCICIOS 253

Calculamos V(X):

= i
8
8 +1
X
2 l ) 2 =l-
(l)dx- ( 8+-
2 12

Ahora, podemos continuar:

1 1
(*)= - +-
12n 4

e) Según hemos comprobado anteriormente, el sesgo de X era Por lo .!..


2
tanto, para conseguir un estimador insesgado a partir de Xlo único que
tenemos que hacer es corregir el sesgo. Es decir, consideramos el esti-
mador T = X - .!. . Comprobar que T es un estimador insesgado de 8
2
es ya inmediato.

13. En este ejercicio estamos considerando una muestra aleatoria (X, , ...,X) de
tamaño n = 10 de X= «Contenido de asfalteno» - N(µ = 35; CJ= 2). Esta-
mos interesados en el estadístico:

«Contenido medio de asfalteno dei lote» =

= x,..., Ñ<µ =35; a = 21-Jw =o,6325)


Nos piden:

P(Contenido medio de asfalteno del lote inferior a 37)= P(X < 37) =

P( X- 35 < 37 - 35
O, 6325 · O, 6325
)= P(Z < 3 2) = 1-P(Z> 3 2) =
' '
= 1- O, 000687 = O, 9993

14.
L(8) = f e(x, ) ... f 9 (xn) = [28e-er¡ ] .. . [28e-er; ] = 2" 8"e-BI.t¡ =>
logL(8) = nlog2+n1og8-8I x¡ =>
d lag L(8) =!!.. _ ~ x ~ = 0 => A n
de e L.. ' e=~
L..X¡
254 SOLUCIONES DE LOS EJERCICIOS

15. L(8) = f9(X¡) ... f9(x,.) = [8 2x¡e-ln¡ ] .. . [8 2xne-ln· ] = e2n(X¡ ... xn)e- BLr; =>
log L(8) = 2nlog9 + Llogx¡ -8 LX; =>
dlogL(8) = 2n -LX· =O => O= 2n
d8 8 ' LX¡

16. a) E te ejercicio presenta una ligera diferencia a la hora de bu car e] e ti-


mador de máxima verosimilitud de 9. Por supuesto, lo que bu camas es
e
el valor de que maximiza la función de verosimilitud, y lo único
que tenemos que hacer e escribir esta función con cuidado. La función
de verosimilitud es de la forma:

si todos los xi son mayores o iguales que 8, es decir, si min x; ~ e (y cero, en


ca o contrario). En definitiva, la función de verosimilitud sería:

9"
_ 2 2 SÍ Ü < 9 ~ min X¡
L(B) - { X¡ .. . x,,

O en el re to

Observemos que esta función es creciente para los valores de entre O y e


min xr E to ignifica que derivando no obtendríamos el máximo; natural-
mente, no hace ninguna falta derivar ya que, al tratarse de una función cre-
ciente, el máximo e encuentra en el extremo derecho del intervalo y, por
tanto: (} = mio X ,..

b) En consecuencia: íÍe = - 1-
min x;

17. a) Para hallar un e tadí tico uficiente T. todo lo que teneroo que hacer e
tratar de factorizar la función de vero irrulitud en la forma:

L(B) = g(T, 8) h(x1, ••• ,x).

Tenemo :
SOLUCIONES DE LOS EJERCICIOS 255

Por tanto, T = X 1...Xn es un estadístico suficiente.

b) L(8)=(r(x¡ .. ,x,,) 8-I => logL(8)=nlog8+(8-l)I.logx¡ =>


dlogL(8) = ~ + I.log x. = 0 => {J = _ n
d8 8 1
I.logx¡

e) Planteamos la ecuación:

E[X]=x => x = E[X] = J. xf8(x)dx = í 1x0x8- 1dx = ~ =>


<Jl Jo 8+1
-
8=-
x
1-x

18. a) Planteamos la ecuación:

E[X]=x => x = E[X] = J<JI


xfi (x)dx = r\_!__xot 9)-tdx = _l_
8 Jo 8 8+1
=>

- 1-x
8=-
x

b) L(8) = fe(x¡) , . .fe(x,,) = ix?18)-1 .. ·ix~l/8)-1 =;,,(xi .. . x,,)<1'8)-1 -


logL(8) =-nlog8+(i-1)I.togx¡ =>

dlogL(8) =-~-_!__I.logx. = O => O= I.Iogx¡


d8 8 82 1
n

e) En este apartado, queremos estimar la siguiente función de 8.

}é(X < 1/2) = io


l/2 1
-x(lte¡- idx = (1/2)119
8

............... .
Por tanto: P8 (X < 1/2) =(1/2) 118 = (1/2) x'"'''
.

19. a) Consideramos la variable aleatoria:

X= «Error cometido en una pesada» - N(jl = O; a= 15).


256 SOLUCIONES DE LOS EJERCICIOS

Nos piden:

-20-0 X-O 20-0)


P(-20<X<20)=P( < - - < - - =P(-1,33<2<1,33)=
15 15 15
1-2P(Z > 1,33) = 1-2(0 0918) = 0,8164

b) Ahora consideramos una muestra aleatoria (X1, ••• X) de X, y estamos


interesados en el estadístico:

«Error medio cometido»= X"' N(µ = O· a= 15/ ../ñ)


Nos piden determinar el valor de n para que:
-
0,90 = P(-5 <X< 5) = P
(-5-0
..Jñ <
X-O
..Jñ <
5- 0)
.Jn =
15/ n 15/ n 151 n
= P(-..Jñ I 3 < Z < .Jñ / 3) =
l-2P(Z>../ñl3) ~ P(Z> .j;;, /3) = 0,05 ~
Fn /3 =1,64 ~ n =24,21

Por tanto, necesitaríamos un mínimo de 25 pesadas.

20. a) En primer lugar hacemos notar que las probabilidades de Jo cuatro po-
sibles resultados muestrale son:
?(Mujer con ojos claros)= (1-p)q
?(Hombre con ojos claros) = pq
?(Mujer con ojo oscuros)= (1- p)(l- q)
P (Hombre con ojos o curo ) = p(I-q)
Recordemos que la función de vero irnilitud es la probabilidad, bajo los
diferentes valore de los parámetro p y q, de lo resultado mue trale
obtenido :

L(p q) = P(Re ultado mue trale obtenidos) =

[(1- p)q]200[pq ]150[(1- p)(l - q)]35º [p(l - q)]JOO = p450 (1- p)550 q350 (l- q)650 =>
logL(p, q) = 450logp +550log(l- p)+350logq + 650log(] - q) =>

dlogL(p, q)
rJp
= 450 _
p
550
1- p
= º} {p = 0,45
ologL(p, q) = 350 _ 650 =O => q = 0,35
dq q 1-q
SOLUCIONES DE LOS EJERCICIOS 257

b) Ahora sabemo que:

P(Mujer con ojos oscuros)= (1-p) (1-q) = 0,24.

En primer lugar, consideramos la variable aleatoria:

X = «Número de mujeres con ojos oscuros, entre 8>> - B(n = 8;


p = 0,24 =
0,25).

Tenemos:
P(X?. 1) = 1-P(X =O)= 1-0 1001 = 0,90.
Después, consideramos la variable aleatoria:

Y= «Número de mujeres con ojos oscuros, entre 200» -

B(n=200; p=0,24) ~ N(µ=np=48; a= ~ np(l-p) =6,04)

Hemo aproximado la Binomial por la Normal, ya que n es grande


y p no es próximo a cero.

Entonces:

P(Y> 60) = P(Y - 4 B > 60 - 48 ) = P(Z > 199) = O 0233


6,04 6,04 ' '

8. Estimación por intervalos de confianza


l. Deseamos estimar p = «Probabilidad de padecer alergia», con un nivel de
confianza 1 - a= 0,95. Siempre que queremos estimar una probabilidad o
proporción, disponemos de una muestra aleatoria (X1, ••• , X) de X - B (1; p );
en este caso, n = 100 (muestra grande). El intervalo de confianza e :

l z.,,r(l:
= ( x± X))=(*)

En nuestro caso, tenemos:

x = p = «Frecuencia relativa de alérgicos» = 1O = O, 1O


100
Za12 = Zo,025 = 1, 96
258 SOLUCIONES DE LOS EJERCICIOS

Por tanto, tenemo :

(*) = ( 0,10 ±1,96 (O,IO)i~O,JO)) = (0,04; 0,16)

Veamos ahora cuántas ob ervacjones necesitaría.roo para e timar p con


un error máximo de 0,01. Planteamos la siguiente desigualdad, tomando
como p el valor obtenido en la muestra piloto anterior:

. .
«Error en la estunac1ón» = Za 12
Jx(l n-x) = Za12 ~p(l n- p) =

(1,96) (O,lO)(l-O,lO) ~0,01 => n23458


n

Es decir, necesitaríamos del orden de 3500 observaciones para poder es-


timar p con un error de 0,01 y una confianza del 95%.

2. Disponemos de una muestra aleatoria (X1, • • • ,X,,) de X= «Número de erra-


tas por página» - Poi on (A), con n = 95 (muestra grande).
Queremo estimar «Número medio de erratas por página» = E [Número
de erratas por página] = E [X] = íl, con un nivel de confianza 1 - a= O 90.
El intervalo de confianza e :

l =(x± Za 12 -Jx In) =(*)

En nuestro caso, tenemo :

x =..!_ LX¡= _!._[40(0)+ 30(1)+ ... + 1(5)] =O, 989.


n 95
Za12 =Zo,05 = 1 64

Por tanto, tenemos:

(*) = (0,989 ±1,64-JO 989/95) = (0,82; 1,16)

3. En e te caso, disponemos de una muestra aleatoria (X1 ••• ,X) de X= «Du-


ración del proceso químico» - N (µ; a), con n = 20.
SOLUCIONES DE LOS EJERCICIOS 259

a) Intervalo de confianza para estimar la duración media del proceso,µ,


con un nivel de confianza 1 - a= 0,90:

/-(-+
- X - tn-l ;u./2 _!____)
jn -- (*)

Calculamos todo lo que necesitamos:

x=.!..Lx¡ =91,25
n
1"'
s 2 =-~(x;-x)
-2 1 ""2 -n(x)
=-[~x; -2
] =8,6184 ~ s=2,94
n-1 n-1
tn- 1; u. / 2 = tl9 ; 0,05 = 1,729

Ahora podemos continuar:

(*) = (91,25 ± (1,729) ~ ) = (90,11; 92,39)

b) Intervalo _de confianza para estimar la varianza de la duración del pro-


ceso, d-, con un nivel de con.fianza 1 - a= 0,90:

l=((n-l)s 2 (n-l)s 2 J=(**)


2 ' 2
Xn - 1; u./ 2 Xn- 1; 1- u./2

Obtenernos de las tablas:

x:-1;u.1 2 =xt9:o.os= 30,144


x:- 1: l - a/2 = xt9;0,95 =10,117

Tenerno , entonces:

(**)=((19)(8,6184) (19)(8,6184)]=(5 4J 1619)


30,144 ' 10,117 ' '

Naturalmente, un intervalo de confianza para estimar a sería 1 = (2,33·


4,02).
260 SOLUCIONES DE LOS EJERCICIOS

4. En e te caso, msponemos de una muestra aleatoria (X,, .. . ,X) de X= «Ten-


sion de rotura» - N(µ; a), con n = 5.

a) Intervalo de confianza para estimar la tensión media de rotura,µ, con


un nivel de confianza 1- a= 0,95:

/-(-+
- X - tn-l; a/ 2 )-<*)
,J;i.
s -

Calculamo todo lo que necesitamos:

x =!I.x. =558
1
n
s2 = - 1- I.(x; -x)2 =-1-[I.x; - n(xi ]= 5220 ==> s=72,25
n-1 n-1
t,, _¡; a/2 = t4 ; 0,025 = 2,776

Ahora, podemos continuar:

(*) = (558 ± (2,776) 7~ 5 ) = (468,30; 647,70)

b) Intervalo de confianza para e timar la varianza de la tensión de rotura,


<r, con un nivel de confianza 1 - a= 0,90:

1= ((n-l)s (n -l)s
2
2
' 2
2
) = (**)
X ri- 1; a/2 X11- I; l-a/2

Obtenemos de las tablas:

X ~-1; a12= X!; o.os = 9, 488


X~-i; 1-a12 = X1; o.9s = O, 711

Tenemo , entonces:

(**) =( (4)(5220) (4)(5220)) =(2201· 29367)


9 488 ' O 711 '
Naturalmente, un intervalo de confianza para estimar a sería I = (47; 171).
SOLUCIONES DE LOS EJERCICIOS 261

5. Nue tro problema, en este caso, es determinar el número n de observacione


necesarias en una muestra aleatoria (X1, •.• , X) de X = «Altura» - N(µ; <J =
7 5), para estimar la altura media, µ, con un error máximo de 2 cm. y un ni-
vel de confianza 1 - a= 0,90.
Puesto que, en este caso, el intervalo de confianza para estimar µ sería

de la forma J = ( .x ± Za 12 .fn") la condición sobre el error en la estima-


ción, quedaría:

«Error en la estimación»= Za 12 ~ = z0 05 7~ = (1,64) 7) ~ 2 ~ n ~ 38


-v n · -v n -v n
Por tanto, necesitaríamos 38 observaciones para estimar la altura media,
µ, con un error de 2 cm. y un nivel de confianza 0,90.

6. El lote que se va a enviar puede considerarse como una muestra aleatoria


(X1, • • • ,X) de X= «Vida activa» - N(µ = 1200; <J= 40). Estamos interesa-
dos en la vida media del lote:

«Vida media del lote»= X"' N(µ = 1200; a= 40/ ~ ).

Queremos hallar el valor de n que verifique la iguiente condición:

O 95 = P(X~ 1180) = P(X - 1200 ~ 1180 - 1200 ] = P(Z ~ -.Jn 12 ) =


' ~/ ~ ~/ ~

P(Z 5,-,¡n /2) =} P(Z> ,¡;¡ /2) = 0, 05 =} .fñ =1 64 n=l0,76


2 '

Por tanto el tamaño del lote debería ser 11.

7. Disponemos de una muestra aleatoria (X1 • • • , Xm) de tamaño m = l O de X =


«Presión de niños con padres de tensión normal», y de otra muestra aleatoria
(Y1, .. . ,Y) de tamaño n = 10 de Y= «Presión de niños con uno de sus padres
hipertenso». Asumimos que X - N(µ 1; <r1) , Y - N~; a2) , y que <J1 = <J2 •
Además, podemos considerar que las muestras son independientes (los datos
no van emparejados).
Vamos a estimar µ 1 - ~ mediante un intervalo con un nivel de confian-
za 1 - a= 0,95:

/=(---+
X Y- tm+n-2; a/2 sp ~ m1 + !n ) -- (*)
262 SOLUCIONES DE LOS EJERCICIOS

En nuestro caso, tenemos:

x =..!_LX;= 97,2; y=_!. LY; =105, 8


m n
2

1 '
=--~(X¡-X)
-2 1 ' 2 - 2
= - - ( ~ X ¡ - m(x) ]=22 4
m- l m-1

S2
1 ·,
2 =-~(y¡-y) 1 " 2 -n(y)
-2 =-[~y¡ -2 ]=78,6
n-l n- l
sP2=(m-l)s~+(n-l)si =50,51 => sP=7,11
m+n - 2
tm+n- 2; a/2 = !18; 0,025 = 2,101

Ahora podemo continuar:

(*)=(97,2-105 8 ±(2,101)(7,11)~ l + l )= (- 15,28; - 1,92)


10 10

8. La noticia en el periódico no e tá hablando sobre la estimación del pará-


metro p = «Proporción de per onas a favor de una cuestión» mediante un in-
tervalo de confianza. Como siempre que tratamos de estimar una propor-
ción, di ponerno de una muestra aleatoria (X1, •• • ,X) de X - B(l; p)· en
e te caso, n = 1000.
El intervalo de confianza correspondiente es de la forma:

1= (-+ X -Zat2 ~.x(l-.x))


n

Ademá , en nuestro caso:

x= = A
556 = O 556
p 1000 '

Como el margen de error es 0,03, tenemos finalmente:

O 03 = «Error en la estimación» =
_ ~ x(] - x) _ (O, 556)(1- o, 556) =>
- Za12 n - Za12 lOOO
Za, 2 =191 => a/2=0,0281 => a~ O 06
Por Jo tanto el nivel de confianza de la afumación 1 - a= l - O06 = 0,94.
SOLUCIONES DE LOS EJERCICIOS 263

9. Deseamos estimar p = «Proporción de declaraciones defectuosas», con un


nivel de confianza 1 - a= 0,99. Como siempre que queremos estimar una
probabilidad o proporción, disponemo de una muestra aleatoria (X1, •• • ,X)
de X - B(I; p); en este caso, disponemos de una muestra piloto con n = 50.
El intervalo de confianza sería:

[=(-+X-Za12 ~x(l-x))
n

En este caso, lo que queremos es determinar el número de observaciones


necesarias para estimar p con un error máximo de 0,01 y una confianza del
99%. Para e to, efectuamos una estimación previa de p con la muestra pi-
loto:

x = p = «Frecuencia relativa de declaraciones defectuosas»= 22 = O, 44


50

Ahora, podemos plantear la desigualdad correspondiente:

. .,
«Error en 1a est:unac100» = Za, 2
~ x(l - x) = z ~ p(I - p) =
0 005
n · n

=(2,58) ~(0, 44)(~-0, 44) ~0.01 => n ~ 16402

Es decir, necesitaríamos del orden de 16400 observaciones para poder


e timar p con un error de 0,01 y una confianza del 99%.

10. Disponemos de una muestra aleatoria (X1, ... ,Xm) de tamaño m = 13 de X=


«Calor latente de fusión del hielo medido con el método A», y de otra
muestra aleatoria (Y1, • •• , Y) de tamaño n = 8 de Y= «Calor latente de fusión
del hielo medido con el método " B». A umimos que X - N(µ 1• cr1) Y -
N<fli; cr2) y que cr1 = cr2• Además, podemos considerar que la muestras son
independientes (los datos no van emparejados).
Vamo a estimar µ 1 - ~ mediante un intervalo con un nivel de confian-
za 1- a= 0,95:

/-(---+
- X ~)-(*)
Y-tm+n-2; al 2 Sp~--;;;+-;; -
264 SOLUCIONES DE LOS EJERCICIOS

En nuestro caso, tenemos:

x =J:._ LX¡= 80,02 ;


m
1-I(x; -x) 2 = -
st = - 1-[Ix¡-m(x) 2 ] =0,13
m-1 m-1
Si =-n-1
1- L(Y; - y")2 =- 1-[I y¡ - n(y)2] =1, 60
n- 1

s = (m-I)st+(n-l)si = 0, 82
P m+n-2
tm +n-2; a/2 = tl9; 0 ,025 =2,093
Ahora podemos continuar:

i
(*) =(80, 02 - 79, 97 ± (2, 093)(0, 82 )~ 3 + ~) =(-0, 72; O, 82)

11. Disponemos de una muestra aleatoria (X" .. . ,X) de tamaño m = 13 de X=


«Tiempo de desarrollo en la población A,» y de otra muestra aleatoria (Y1, ••• ,
Y) de tamaño n = 11 de Y= «Tiempo de desarrollo en la población Az>>.

a) A umimo que X - N(µ 1; CY1) y que Y - N(µ2 ; CY2). Queremo estimar


u~luJ mediante un intervalo con un nivel de confianza 1 - a= O 80:

2 / 2
I=[ S¡ S2 . S¡
2 / s22 ) = (*)
F;,,-1; 11-l; a/2 , F.11-l ; n - 1; l-a / 2

En e te ca o, tenemos:

Fm- 1; 11- l; a/2 = F.2; JO; 0,10 = 2,2841


Fm-1 ; 11- l ; 1- a/2 -F. - - -1- - = , l
12; 10: 0,90 - F.
=0•46
- 2 1878
10; 12; 0,10

Ahora podemos continuar:

(*) = ((3)2 /(2.2)2 . (3)2 /(2,2)2) =(O 81" 4 04)


2,2841 ' 0,46 ' ' '
SOLUCIONES DE LOS EJERCICIOS 265

Vamos a estimar µ 1 - ~ mediante un intervalo con un nivel de confian-


za 1 - a= 0,95:

/-(---+
- X Y-tm +n-2: a /2 SP~;¡+-;¡
~J=(*)

En nuestro caso, tenemos:

S = (m-l)s¡ +(n-l)sJ = 2, 67
P m+n-2
tm+n-2; a /2 = f22; 0,025 =2,074

Ahora podemos continuar:

(*)=(4-5±(2,074)(2,67)~ l + l J = (- 3,27; 1,27)


13 11

e) En este apartado sólo necesitamos asumir que X - N(µ1; a 1). Estamos


intere ados en estimar µ 1 mediante un intervalo con un nivel de con-
fianza 1 - a= 0,95:

¡--(-+ .Jñ
X - tn- 1; a/2 S¡ )

En este ca o, quererno determinar el valor de n para poder estimar µ 1


con un error inferior a O 2 y un nivel de confianza de O 95. Imponemos esta
condición, utilizando como valor de s 1 el obtenido en la muestra piloto:

«Error en la estimación» =
_ s1 _ ' S¡ _ S¡ _ 3 Q
- tn- l·a/2 e - Za 12 c -Zo.025 , -1,96 C $ ,2 n ~ 864,36
· ...¡ n ...¡ n '\I n '\I n

Por tanto, necesitamos del orden de 865 observaciones para estimar µ 1


con un error 0,2 y una confianza 0,95.

12. Deseamos estimar p = «Proporción de oveja enfermas», con un nivel de


confianza 1 - a= 0,95. Como siempre que queremos estimar una probabi-
266 SOLUCIONES DE LOS EJERCICIOS

lidad o proporción, disponemos de una mue tra aleatoria (X1, • • . , X) de X -


B(l · p); en e te ca o di ponemos de una muestra preliminar con n = 30. El
intervalo de confianza sería:

[=(-+X - Za 12 ~x(I -x))


n

En este caso, lo que queremos es determinar el número de observaciones


necesarias para estimar p con un error máximo de 0,03 y una confianza de
0,95. Para esto, efectuamos una estimación previa de p con la muestra pre-
funinar:

x = p = «Frecuencia relativa de ovejas enfermas» =~=O, 0667.


30

Ahora, podemos plantear la de igualdad corre pondiente:

. .
«Error en la est:1mac1ón» =Za 12 ~x(l - x)
n
=z0·025 ~ fi(ln- p) =
=(l 96 ) (O, 0667)(1 - O, 0667) $ O 03 => n :2'. 266
l'l

Es decir, necesitaríamos del orden de 270 observaciones para poder


estimar p con un error de O 03 y una confianza de 0,95.

13. En este problema, estamo interesado en e timar el parámetro p = «Pro-


porción de per ona que tienen sensibilidad a la feniltiocarbamina». Como
iempre que deseamos estimar una proporción, necesitaremos una muestra
aleatoria (X1, • • • ,X,,) de X - B(l; p). El intervalo para e timar p con un nivel
de confianza 1 - a e de la fonna:

/=(-+X - Za/2 ~x(I -x)J


n

En este caso, lo que queremo es determinar el número de observacione


nece aria para estimar p con un error menor que O 05 y una confianza de
0,99. Para e to, efectuamos una estimación previa de p con una mue trapi-
loto de 60 personas:
SOLUCIONES DE LOS EJERCICIOS 267

x = p = «Frecuencia relativa de per ona con sensibilidad»= 14 = O, 2333.


60

Ahora, podemos plantear la desigualdad corre pondiente:

. .
«Error en la estunac16n» = za,2 ~x(l -x) = z0 005 ~ fiCI-.f,) =
n · n
= (2,58) (0,2333)(1-0,2333) s; 0,05 => n;? 476,26
n

Es decir, necesitaríamos del orden de 480 observaciones para poder


estimar p con un error de 0,05 y una confianza de O 99.

14. En este caso, disponemos de una mue tra aleatoria (X¡, . .. ,X) de X= «Con-
tenido en nicotina» - N(µ; a), con n = 5.

a) Intervalo de confianza para estimar el contenido medio de nicotina,µ,


con un nivel de confianza 1 - a= 0,90:

- X +
I -(- s )-
- tn- 1; a/2 .J,i - (*)

Calculamos todo lo que necesitamos:

x=.!_ I.x; =21,2; s =2,05


n
tn- 1; a/2 = t4; 0,05 = 2,132

Ahora, podemos continuar:

(*) = ( 21,2±(2,132) 2 .Js-5) = (19,25; 23,15)


b) Intervalo de confianza para estimar la varianza del contenido en nico-
tina, <fl, con un nivel de confianza 1- a= 0,95:

I = ((n2-l)s2, (~ - l)s 2 J= (**)


Xn-1; a/2 Xn -1; l-a /2
268 SOLUCIONES DE LOS EJERCICIOS

Obtenemos de las tablas:

x:-1; a/ 2 = x;; 0,025 = 11,143


x;_,; l-a / 2 = x;; 0,975 = 0,484
Tenemos, entonces:

(**) = ((4)(2,05)2 (4)(2,05) 2 )=(151" 34 73)


11,143 0,484 ' ' '

Naturalmente, un intervalo de confianza para estimar e, sería / =


(1,23 ; 5,89).

9. Contraste de hipótesis paramétricas


l. Disponemos de una muestra aleatoria (X1, • •• , X), de tamaño n = 10, de X=
«Número de erratas por página». Suponemos que X - Pois on (A).
E tamos interesados en el parámetro «Número medio de erratas por
página» = E [Número de erratas por página] = E [X] = A. En concreto, de-
eamos contrastar H0 : A $ 0,1 frente a H 1: A> O, l.
Tomamo como región de rechazo de la hipóte is nula:

R = {«Número total de erratas en las 10 páginas»:?. 2} ={LX; ~ 2} .

Una vez planteados todos los elemento del contraste, calculamos su ni-
vel de ignificación:

a = max.1.so,t P,1. (R) = P.:1.=o,, {LX; ~ 2} = (*)

Cuando A= 0,1 tenemos que :EX; - Poisson (A= 10(0,1) = 1). Ahora
podemo continuar:

(*) = P{Poi oo(A = 1) ~ 2} = 1- P{Poisson(A = 1) $ l} =


=1- O, 3679 - O, 3679 = O, 2642.

Finalmente, un libro que tiene, en general, una media de 0,2 errata por
página, e un libro para el cual Á = 0,2. La probabilidad de aceptar un libro
en estas condiciones es:

P).=o.2 (Aceptar)= P.i. =o, 2 {LX; $ l} = (**)


SOLUCIONES DE LOS EJERCICIOS 269

Cuando A.= 0,2 tenemos que U¡ - Poisson (A..= 10(0,2) = 2). Ahora,
podemos continuar:

(**) =P{Poisson(A.. =2) :51} =0,1353 + 0,2707 =0,4060

2. Estamos interesados en el parámetro p = «Proporción de peces adultos que


miden menos de 20 cm.». Como siempre que estamos interesados en hacer
un contraste sobre una proporción, disponemos de una muestra aleatoria (X1,
... , X), de tamaño n = 6, de X - B(l; p). Deseamos contrastar H0 : p ~ 0,10
frente a H 1: p > 0,10. Decidimos rechazar la hipótesis nula cuando estemos
en la región de rechazo:

R = {«Número de peces con longitud inferior a 20 cm, entre 6» > 1)

Una vez planteados todos los elemento del contraste de hipótesis, po-
demos pasar a calcular las cosas que nos piden:

a) El nivel de significación será:

a= maxpso.10P(R) = Pp=o.io {«Número de peces con longitud inferior a


20 cm, entre 6» > 1} = (*)

Antes de continuar, observemos que, cuando p = 0,10:

«Número de peces con longitud inferior a 20 cm entre 6>>- B(n = 6- p = 0,10).

Ahora, podemos acabar el cálcúlo:

(*) = P{B(n = 6; p = 0,10) > l} =1- P{B(n = 6; p =0,10) :5 l} =


= 1- 0,5314 - 0,3543 = 0,1143

b) La potencia del contraste, cuando p = 0,20, es:

p p= 0.20(R) =
PP= 0•20 { «Número de peces con longitud inferior a 20 cm, entre 6»
> l} = (* *)

Cuando p = 0,20 tenemos:

«Número de peces con longitud inferior a 20 cm entre 6» - B(n = 6; p = 0,20).


270 SOLUCIONES OE LOS EJERCICIOS

Ahora, podemos continuar:

(**) = P{B(n =6; p =0,20) > l} =I-P{B(n =6; p = 0,20) s; 1} =


=1- 0 2621 - 0,3932 = 0,3447

3. Estamo interesados en el parámetro p = «Probabilidad de que una persona


resulte afectada». Como siempre que estamos interesados en hacer un con-
traste sobre una probabilidad, disponemo de una mue tra aleatoria (X1,
..., X) de tamaño n = 1000, de X- B(l;p). Deseamos contrastar H 0: p s;
0,001 frente a H1: p > 0,001. Decidimos rechazar la hipótesis nula cuando
estemos en la región de rechazo:

R = {«Número de personas afectadas, entre 1000» > 1}


Una vez planteados todos los elementos del contraste de hipótesis, po-
demos pasar a calcular las cosas que nos piden:

a) El nivel de ignificacióo será:

a= max,,s o.oo, P(R) =


Pp=o,ooi {«Número de per ona afectadas, entre 1000» > 1} = (*)

Antes de continuar, observemo que, cuando p = 0,001:

«Número de per onas afectadas, entre 1000» - B(n = 1000; p =0,001) =


Poisson (A= np = 1),

donde hemos aproximado la binomial por la Poi son por er n grande y p


próximo a cero. Ahora, podemos continuar:

(*) = P{Pois on(A = 1) > l} = 1- P{Poisson(A = 1) s; 1} =


1- O, 3679 - O, 3679 = O, 2642

b) La probabilidad de aceptar H0 cuando p = 0,003 será:

Pp=o.003(A) =
P p = O,ooJ { «Número de personas afectadas, entre 1000» s; 1} = (**)
Cuando p = O003, tenemos:

«Número de personas afectada , entre 1000» - B(n = 1000; p = 0,003) =


Poi son (A= np = 3),
SOLUCIONES DE LOS EJERCICIOS 271

donde hemos aproximado la binomial por ]a Poisson, por ser n grande y p


próximo a cero. Ahora, podemos acabar:
.
(**) = P{Poisson(l =3) ~ l} = 0,0498+0,1494 = 0,1992

4. Disponemos de una muestra aleatoria (X1, • . • , X), de tamaño n = 5, de X=


«Peso de una lata de conserva». Asumimos que X - N(µ, a). Queremos ver si
resulta aceptable queµ= 1000; para estudiar e to, p]anteamos un contraste de
H0 : µ = 1000 frente a H 1: µ * 1000, al nivel de significación a= 0,05.
Rechazaremos H 0 si se verifica la región de rechazo:

En nuestro caso:

l.x -10001=1995-10001= 5
s s ,JI9,6
tn - 1; a/2 -..Ín = t4; 0,025 -..Ín =2,776 .Js =5,50

Por lo tanto, no se verifica la condición de rechazo, y la conclusión e :


Aceptamos H0 ~ Se puede aceptar (al nivel de significación 0,05)
que el pe o medio son 1000 gramos.

5. Disponemos de una muestra aleatoria (X1, ••• , X), de tamaño n = 20, de X


= «Concentración de dióxido de carbono en puntos cercanos al suelo». Su-
ponemos que X - N(µ; a). Queremo comprobar si hay uficiente evidencia
estadística a favor de queµ> 355. Tomaremos esto como hipótesis alter-
nativa, de modo que planteamos un contraste de H0 : µ ~ 355 frente a H 1: µ >
355, al nivel de significación a= O 01.
Rechazaremos H0 si se verifica la región de rechazo:

R= {x-355 > t,,_ 1; a},¡}


En nuestro caso:

x-355 = 580-355 = 22s


s s 180
tn- 1· a 1 = l¡9- o 01 e= 2,539 ~ = 102,19
· -vn · · -vn -v20
272 SOLUCIONES DE LOS EJERCICIOS

Por lo tanto, se verifica la condición de la región de rechazo, y nuestra


conclusión es:
Rechazamos H 0 => Aceptamos H, => Existe suficiente evidencia es-
tadística para concluir (al nivel de significación 0,01) que la concentración
media es superior a 355 cerca del suelo.
Para contestar a la pregunta sobre el p-valor, recordemos que el p-valor
se suele interpretar como el apoyo que los datos proporcionan a H 0 ; de
manera más concreta, se rechaza H0 cuando el p-valor es inferior al nivel de
significación. En este caso hemos rechazado H0 (al nivel 0,01) y, por tanto,
el p-valor es inferior a 0,01.

6. En este ejercicio, estamos interesados en el parámetro p = «Proporción de


niños que presentan indicios de caries dental». Como siempre que quere-
mos un hacer un contraste sobre una proporción, disponemos de una
muestra aleatoria (X1, ••• , X), de tamaño n = 100, de X - B(l; p). Que-
remos ver si resulta aceptable que p = 0,40; para esto, recurrimos a un
contraste de H 0 : p = 0,40 frente a H 1: p t:. 0,40, al nivel de significación a
= 0,10.
Rechazaremos H0 si se verifica la región de rechazo:

(0,40)(1n-0,40)}
R= { lx-0,40l>za 12

En nuestro caso:

lx-0,40l=l.&-o,40l=l 36 -0,40l=0,04
100
(0,40)(1-0,40) (0,40)(1 - 0,40)
Za12
n
= Zo 025
· n
=
=164 (0,40)(1-0,40) =0 08
100

Por lo tanto, no se verifica la condición de rechazo, y la conclusión e :

Aceptamo H 0 => Se puede aceptar (al nivel de significación 0,10)


que el 40% de los niños presenta indicios de carie dental.

7. En e te ejercicio, queremos comparar dos parámetros:

p 1 = «Proporción de niños afectados por la malaria, entre los heterocigóticos»


p2 = «Proporción de niño afectados por la malaria, entre lo homocigótico »
SOLUCIONES DE LOS EJERCICIOS 273

Disponemos de una muestra aleatoria (X1, ••• , X,), de tamaño m = 136,


de X - B(l; Pi), y de otra muestra aleatoria (Yl' ... , Y), de tamaño n = 407
de Y - B(l · p 2). Podemos considerar que las muestras son independientes.
La pregunta que nos hac~mo es: ¿Hay suficiente evidencia estadística para
afirmar (al nivel de significación a= 0,05) que p 1 < p2?; para contestar a esta
pregunta, tomaremos p 1 < p 2 como hipótesis alternativa, y contrastaremos H0:
Pi -;z.p2 frente aH1: p 1 <A, al nivel de significación a= 0,05.
Rechazaremos H 0 si se verifica la región de rechazo:

R= {x- y<z,_. p(I- v{: +-!;) },


. d - mx+ny
sien op = .
m+n
En nuestro caso:

36 = O 2647·
x = p~1 = 136 Y-=P~2 = 152 =0 3735
, 407 '

p = m.x + ny = 0,3462
m+n
x-y = 0,2647 - 0,3735 = -0,11

z,_a p(l- p)(_!_ +


m
.n!.) = Zo 95
·
p(l- p)(_!_ + .!.) =
m n

= (-1,64) (0,3462)(1 - 0,3462)(- 1- +- 1- ) = - 0,08


136 407

Por lo tanto, se verifica la condición de rechazo, y la conclu ión e :

Rechazamo H 0 ::::} Aceptamos H 1 =} Hay suficiente evidencia estadís-


tica para afirmar (al nivel de significación 0,05) que los heterocigóticos
están mejor protegidos frente a la malaria que los homocigóticos.

8. En este ejercicio, queremo comparar dos parámetros:

p 1 = «Proporción de viviendas con calefacción en Extremadura»


p 2 = «Proporción de viviendas con calefacción en Galicia»

Disponemos de una muestra aleatoria (X1 . . . , Xm) de tamaño m = 500,


de X - B(l; p 1) , y de otra muestra aleatoria (Y1, . •• , Y), de tamaño n = 1000,
de Y - B(l ; p 2). Podemos considerar que las muestras on independientes. La
274 SOLUCIONES DE LOS EJERCICIOS

pregunta que nos hacemos es: ¿Hay suficiente evidencia estadística para
concluir (al nivel de significación a= 0,05) que p 1 <p2?· para contestar a esta
pregunta, tomaremos p 1 < p 2 como hipótesis alternativa, y contrastaremos
H0 : p 1 ~ p 2 frente a H 1 : p 1 < p 2 , al nivel de significación a= 0,05.
Rechazaremos H0 i se verifica la región de rechazo:

. d - m.x+ny
sien op = .
m+n
En nuestro caso:

x = p"1 = 500
300 = O 60·
, ,
y= P2= 680 = o 68
1000 '

p = mx + ny = O, 65
m+n
x - y= O, 60- O, 68 = -0, 08

Z1 -a J5(1- P{~+~) =Zo,95\/p(l- P{~ +~) =


= (- 1, 64) (O, 65)(1 - O, 65)(- 1- + - 1- ) =- 0, 04
500 1000

Por lo tanto, se verifica la condición de rechazo, y la conclusión es:


Rechazamos H0 => Aceptamos H 1 => Hay suficiente evidencia estadís-
tica para concluir (al nivel de significación 0,05) que la proporción de vi-
vienda con calefacción e menor en Extremadura que en Galicia.

9. Di ponemos de una muestra aleatoria (X1, •• • , Xm), de tamaño m = 10, de X


= «Duración de la bombilla con el antiguo filamento», y de otra mue tra ale-
atoria (Y1 • • • , Y), de tamaño n = 12, de Y= «Duración de la bombilla con
el nuevo filamento».
a) Asumiremos que X - N(µ 1; CY1) y que Y - N(J!z· CY). Ademá pode-
mos considerar que la mue tras son independientes (los datos no van
emparejados).
La pregunta que nos hacemos en e te apartado e : ¿Re ulta aceptable
que CY1 = CY2? Daremos una re puesta al nivel de significación a= 0,1 O. Para
esto, planteamo un contraste de hipóte is de H0: CY1 = CY2 frente a H 1: CY1 -:¡:.
CY2 , al nivel de significación a= O, 10.
SOLUCIONES DE LOS EJERCICIOS 275

Rechazaremos H 0 si se verifica la región de rechazo:

R = {s; / Si E [Fm- l; n-1; l-a/2• Fm-1; n-1; a/2)}

En nuestro caso:

st/si=l,18

[Fm-1; n-1 ; 1-a12, Fm-1; n-t; a12] = [Fg; 11; o,9s ~ ' 11 , o.o) ]= [ F l , Fg; 11: o.os] =
JI : 9: º·°'

[
1
Fio; 9; o.os
, Fg; u;o.os]= [3,1373
1 ;2,8962] = [0,32; 2 90)

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclusión es:

Aceptamos H 0 ==} Es razonable aceptar la igualdad de varianzas.

b) A las hipótesis asumidas anteriormente añadimos ahora la de que CT1 =


CT2 • Queremos saber si se puede considerar estadísticamente probado
(por ejemplo, al nivel de significación a= O 05) que µ 1 < f.l,_. Tomaremos
esto como hipótesis alternativa, de modo que planteamos un contraste de
H 0: µ 1 ~ f.l,_ frente a H 1: µ 1 < f.l,_, al nivel de significación a= 0,05.
Rechazaremos H 0 si se verifica la región de rechazo:

R= {x - y < tm+n- 2; 1- asp~ ~ +~}


En nuestro caso:

x-y =1250-1340 = -90


s = (m-l)s{ +(n-l)sJ = 110141
P m+n-2 '
Izo; o,95 =-!20; o.os = -1, 725

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión es:
276 SOLUCIONES DE LOS EJERCICIOS

Rechazamos H 0 => Aceptamos H 1 => Podemo con iderar estadística-


mente probado (al nivel de significación 0,05) que el nuevo filamento au-
menta la duración media de la bombilla .

10. Disponemos de una muestra aleatoria (X1, ••• , X'"), de tamaño m = 100, de X=
«Número de horas que sobreviven con A», y de otra mue tra aleatoria (Y1 ••• ,
Y),
11
de tamaño n = 100, de Y= «Número de horas que sobreviven con B».

a) Asumiremos que X - N(µ 1; a 1) y que Y - NCµ,_ ; a 2). Además, pode-


rno considerar que las muestras son independientes (los datos no van
emparejados).
La pregunta que nos hacemos en este apartado .es: ¿Resulta aceptable
que 0"1 = 0"2 ? Daremos una re puesta al nivel de significación a = O, 1O. Para
e to, plantearnos un contraste de hipótesis de H0 : 0"1 = 0"2 frente aHr: 0"1 *
0"2 , al nivel de significación a= 0,10.
Rechazaremos H0 si se verifica la región de rechazo:

R= {st /s;é [F,n-1; n-1; J-a/2 F,11-J; 11- I: a/2 ]}


En nuestro caso:

s 2 1s 2 = 900000199 = 0 95
1 2 950000/99 '
[F,11- 1-t,-1· I- a/2• F,11- 1· 11- J· a12l = [F99. 99·095 • Fg9. 99·0 os l =
1 1 1 • • • 1 1 • 1

1 , F99. 99· o 05] =[ 1 F..20: 120; o.os]=


[
F99; 99; o.os ' . ' F..20; 120: o.os

1 ; 1,3519] = [O 74· 1,35]


[
1,3519

Por lo tanto, no e verifica la condición de la región de rechazo y nue -


tra conclu ión e :

Aceptamos H0 => Es razonable aceptar la igualdad de varianza .

b) A las hipóte is asumidas anteriormente añadimos ahora la de que 0"1 =


a2• Queremos saber i se puede con iderar estadísticamente probado (al
nivel de significación a = 0,05) que µ 1 < ~- Tomaremos esto como hi-
pótesis alternativa, de modo que planteamos un contraste de H0 : µ 1 ~ ~
frente a H 1: µ 1 < ~ . al nivel de i gnificación a = O 05.
SOLUCIONES DE LOS EJERCICIOS 277

Rechazaremos H0 si se verifica la región de rechazo:

En nue tro caso:

x - y =1200-1400 =-200
s = (m-l)st +(n-l)si = 900000 + 950000 = 96 6614
P m+n-2 198 '
tl98; 0,95 = -tl98; 0,05 = - t200; 0,05 = -1, 653
1 1 1 1
t198. 095 sP - +- =(-1,653)(96,6614) - + - =-22 60
· · 100 100 100 100 '

Por lo tanto, e verifica la condición de la región de rechazo y nuestra


conclusión es:

Rechazamos H 0 ~ Aceptamos H 1 ~ Podemos considerar estadí tica-


mente probado (al nivel de ignificación 0,05) que el medicamento Bes más
efectivo que el A.

11. Disponemos de una muestra aleatoria (XI' . .. , Xm) , de tamaño m = 16, de X


= «Número de pulsaciones por minuto en hombres», y de otra muestra ale-
atoria (Y1, ••• , Y), de tamaño n = 16, de Y= «Número de pulsaciones por
minuto en mujeres». Para saber en qué dirección debemos trabajar calcula-
mos las medias muestrales, obteniendo:

x = l~: 8 = 78; y= l~: 8 = 80,5

Parece haber un mayor número de pulsacione en las mujeres que en


los hombres. Por lo tanto, la pregunta que nos hacemos es: ¿Podemos
concluir que el número de pulsaciones es mayor en las mujeres que en los
hombre ? Para contestar a esta pregunta llevamos a cabo el siguiente es-
tudio:

a) Asumiremos que X - N(µ 1; 0'1) y que Y - N(µ,_· a2). Ademá , pode-


mos considerar que las muestras on independientes (lo datos no van
emparejados).
278 SOLUCIONES DE LOS EJERCICIOS

Antes de contestar a la pregunta esencial del estudio, tenemos que re-


solver una cuestión auxiliar: ¿Resulta aceptable que a, = a/ Daremos una
respuesta al nivel de significación a= O, l O. Para esto, planteamos un con-
traste de hipótesis de H0 : a 1 = a 2 frente a H 1: a 1 -t:- a 2, al nivel de significa-
ción a= 0,10.
Rechazaremos H0 si se verifica la región de rechazo:

R= {st I Si é [Fm- l;n- 1; 1- a12,Fm-l;n- l; a12JJ

En nuestro caso:

st = - 1- ¿,(x; -.x)2 = - 1 -[¿,x¡ - mx2 ] = 15,07


m- 1 m-1

Si =-n-1
1- L(Y; - y/ =- 1-[L y¡ - n_y2 J=1O, 80
n-1
S~ /Si =1,40
[Fm - 1; 11- t; 1-a12,F,,,-,; 11-1 ; a12l = [Pis: 15; o,9s,Fis; 15; o.os]=

=[ 1
Fis: rs; o.os
,Fis: 15: o.os]=[ 2, 4035
1 ; 2,4035] = [0,42; 2,40]

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclusión es:

Aceptamos H0 => Es razonable aceptar la igualdad de varianzas.

b) Pasamos a la cuestión central del estudio. A las hipótesis asumidas an-


teriormente añadimos ahora la de que a, = a2• Queremos saber si se
puede considerar estadísticamente probado (por ejemplo, al nivel de
significación a= 0,05) que µ 1 <~-Tomaremos esto como hipóte i al-
ternativa, de modo que planteamos un contraste de H0: µ 1 ~ ~ frente a
H 1: µ 1 < µ 2, al nivel de significación a= 0,05.

Rechazaremos H 0 si se verifica la región de rechazo:

En nuestro caso:
SOLUCIONES DE LOS EJERCICIOS 279

x-y= 78-80,5 =-2,5


s = (m-1)st+(n-l)si= 3, 60
P m+n-2
!30; 0,95 = -t30; 0,05 = - 1 697

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión es:

Rechazamos H 0 ~ Aceptarnos H 1 ~ Podemos considerar estadística-


mente probado (al nivel de significación 0,05) que el número de pulsaciones
es mayor en las mujeres que en los hombres.

12. Disponemos de una muestra aleatoria (X1, •• • , X), de tamaño m = 11, de X


= «Capacidad de agregación de las plaquetas antes de fumar», y de otra
muestra aleatoria (Y1, ••• , Y,,), de tamaño n = 11, de Y= «Capacidad de
agregación de las plaquetas después de fumar». Las dos muestras no son
independientes ya que los datos van emparejados: cada par de datos co-
rresponde a la capacidad de agregación de un mismo individuo antes y
después de fumar un cigarrillo. Al tratarse de datos emparejados, lo pri-
mero que tenemos que hacer es obtener la diferencia de cada par de datos,
resultando:

-2 -4 -10 -12 -16 -15 -4 -27-91 -15

Esto dato con ti tuyen una muestra aleatoria (D 1, ••• , D ,,), de tama-
ño n = 11, de D =X - Y. Llamaremos µ 1 a la capacidad media de agrega-
ción antes de fumar, 11-i a la capacidad media de agregación después de fu-
mar, y asumiremos que X - Y - N(µ = µ 1 - µ 2; a). La pregunta que nos
hacemos es: ¿Hay suficiente evidencia estadística (al nivel de significación
0,01) para concluir que µ 1<µ/ O lo que es igual: ¿Hay suficiente evi-
dencia estadística (al nivel de significación 0,01) para concluir queµ< O?
Tomaremos esto como hipótesis alternativa, de modo que planteamos un
contraste de H 0 : µ ~ O frente a H 1: µ < O, al nivel de significación a =
0,01.
Rechazaremos H0 si se verifica la región de rechazo:

R- - - O< tn- 1; 1- a ,rn.


- {d sd }
280 SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

d = - 10,27

sd = '-1- 'I(d¡ - d) 2 = /_l_ ['Id} - ncl2] =7, 96


~ n- 1 ~ n-1
s s 7 96
tn- 1· 1-a r =t1o· 099 r =-2,764 r;-:; =-6,63
· -v n. · · -v n -v l 1

Por lo tanto, se verifica la condición de la región de rechazo, y nuestra


conclusión e :

Rechazamos H0 => Aceptamos HJ => Existe suficiente evidencia esta-


dística para concluir (al nivel de significación 0,01) que los fumadore pre-
entan una mayor tendencia a la formación de coágulos.

13. Di ponemo de una mue tra aleatoria (X¡, . . . , X),


m
de tamaño m = 10, de X
= «Concentración medida con el método A», y de otra muestra aleatoria (Y1,
... , Y),
n
de tamaño n = 10, de Y= «Concentración medida con el método
B». Las do muestras no son independiente ya que los dato van empare-
jado : cada par de dato corre pande a la medida de la concentración que se
ha obtenido en una mi ma do i con lo do método . Al tratarse de datos
emparejado , lo primero que tenerno que hacer es obtener la diferencia de
cada par de datos, resultando:

-0,4 -0,2 0,3 -0,2 -0,4 -0,4 0,2 -0,3 O -0,4

Esto datos constituyen una muestra aleatoria (D 1, • •• D), de tamaño n


= 10, de D = X - Y. Llamaremos µ 1 a la concentración media que e obten-
dría con el método A , µ 2 a la concentración media que se obtendría con el
método B, y asumiremos que X - Y - N(µ = µ 1 - ~ ; Cí).
Queremo estudiar i resulta aceptable que µ 1 =~(al nivel de signifi-
cación O 10)· o lo que e igual queremos ver i nos parece aceptable queµ
= O (al nivel de significación O, 10). Para e tudiar e to planteamo un con-
tra te de H 0 : µ = O frente a H 1: µ*O , al nivel de ignificación 0,10.
Rechazaremos H0 i se verifica la región de rechazo:

R == {1J - 01 > t11 _ 1; ª' 2 .f,;_}


En nuestro caso:

ld - 01 = 1- 0 171 = 0,17
t n-1; a/2 = t 9; 0,05 = 1,833
SOLUCIONES DE LOS EJERCICIOS 281

sd = /_l_ ¿,(d¡ -d)2 = /_I_ [I,d(-nd 2 ] =0,25


"/n-1 ~n-1
sd _ 0,25 _
tn-1· a/2 r - (1,833) 11n -0,14
• -..¡n -..¡10

Se verifica la condición de la región de rechazo y nuestra conclusión es:

Rechazamos H 0 => Aceptamos H 1 => Los dos métodos proporcionan, en


media diferentes estimaciones (al nivel de significación 0,10).

14. Di ponemos de una muestra aleatoria (X1, ••• , X), de tamaño m = 10, de X
= «Amplitud de ventana antes de la reacción» y de otra muestra aleatoria
(Y1, •.• , Y), de tamaño n = 1O, de Y= «Amplitud de ventana después de la
reacción». Asumimos que X - N(µ 1; 0'1), Y - NCfli; 0'2), y que 0'1 = 0'2•
Además, el enunciado nos informa de que las muestras on independientes
(los dato no van emparejados).
Queremos saber si hay suficiente evidencia estadí tica (al nivel a=
O 01). para afirmar que µ 1 < ~ . Tomaremos e to como hipótesis alternativa,
de modo que planteamos un contraste de H0 : µ 1 ~ ~ frente a H 1: µ 1 < ~. al
nivel de significación a= 0,01.
Rechazaremos H0 si se verifica la región de rechazo:

.R = { X- - v-;;; +-;; }
Y- < fm +n- 2; 1- aS p ~

En nuestro caso:

x-y = 2,385 -3, 426 =-1,04


s¡ = - 1 - I(x¡ -x) 2 = - 1 - [I,x¡ - m.x2 ] = 0,1601
m- l m-1

s;= -n-1
1-I,(y¡ - y) 2 = - 1-
n-1
[Iy¡ - ny 2 ] = 0,3518

s = (m-l)s¡ + (n-l)s] = 0,5059


P m+n-2
t1s; o,99 = -lis; 0.01 = - 2,552
tl8; 0,99S p ~ = (-2,552)(0,5059)~ l~ + l~ = -0,58

Por lo tanto e verifica la condición de la región de rechazo y nuestra


conclusión e :
282 SOLUCIONES DE LOS EJERCICIOS

Rechazamos H 0 => Aceptamos H 1 => Exi te suficiente evidencia e ta-


dística para afirmar (al nivel de significación 0,01) que la amplitud media de
ventana es mayor después de la reacción que ante de la reacción.

15. En e te ejercicio, estamos interesados en el parámetro p = «Proporción de


huevos viables después de la radiación con rayos X». Como siempre que que-
remos hacer un contraste sobre una proporción, disponemos de una muestra
aleatoria (X,, . .. , X), de tamaño n = 1000, de X - B(l; p). Queremos ver si
resulta aceptable que p = 0,63; para esto, recurrimos a un contraste de H 0: p
= 0,63 frente a H1: p t; 0,63, al nivel de significación a= 0,05.
Rechazaremos H 0 si se verifica la región de rechazo:

(O, 63)(1- O, 63) }


R-{ix - 0,631 > Zu.12
n

En nuestro caso:

1x- 0,631 = 1p - 0,631 = 1572 -0,63/ = o,o58


1000
(0,63)(1 - 0 63) (0,63)(1- 0,63) = 1,96 (O, 63)(1- O, 63) = O 030
Za12
n
=Zoo25
· n 1000 '

Por Jo tanto, e verifica la condición de la región de rechazo, y la con-


clu ión es:

Rechazamos H0 => Aceptamos H 1 => Concluimos que la radiación ha te-


nido efecto obre la viabilidad (al nivel de significación 0,05).

16. En este ejercicio, nuestro interés se centra en el parámetro p = «Proporción


de consumidores que prefieren el color A». Como en todos lo casos en que
e tamos intere ados en una proporción, disponemos de una muestra aleato-
ria (XJ' ... , X) de X - B(l; p), de tamaño n = 1000. La cue tión a la que
hay que contestar es: ¿Proporcionan esto dato uficiente evidencia esta-
dí tica para concluir (al nivel de significación 0,01) que p > 0,50? Para
contestar a esta pregunta, recurrimos a un contraste de hipótesis, donde p >
0,50 será la rupóte i alternativa. E decir, contrastamo H0 : p S 0,50 frente
a H 1: p > 0,50 al nivel de significación 0,01 .
. Rechazaremos H0 si se verifica la región de rechazo:

R- {x-o.so > '• (O so¡~- o.so¡}


SOLUCIONES DE LOS EJERCICIOS 283

En nuestro caso:

x-O,SO=p-0,50= 560 -0,50=0,060


1000
(0,50)(1- O, 50) (O, 50)(1- O, 50) = 2 33 (0, 50)(1- O, 50) = O 037
z(I = Zo,01
n n 1000 '

Por lo tanto, se verifica la condición de la región de rechazo, y la con-


clusión es:

Rechazamos H 0 ==} Aceptamos H 1 ==} Los datos proporcionan suficiente


evidencia estadística para concluir (al nivel de significación 0,01) que los
consumidores prefieren mayoritariamente el color A.

17. El parámetro de interés en este ejercicio es p = «Proporción de renrisión de


la enfermedad con el nuevo tratamiento». Como en todos los casos en que
estudiamos una proporción, disponemos de una muestra aleatoria (X1, •.• ,
X) de X - B(I; p), de tamaño n = 50. La pregunta que nos hacemos es:
¿Cuál es el número mínimo de casos de remisión, entre lo 50 voluntarios
para poder afirmar (al nivel de significación 0,025) que p > 0,70?
Para poder contestar a esta pregunta plantearemos un contraste de hi-
póte is, donde p > O 70 será la hipótesis alternativa. Es decir, contrastamos
H 0 : p ~ 0,70 frente a H 1: p > 0,70, al nivel de significación 0,025.
Rechazaremos H0 si se verifica la región de rechazo:

R ={x - O, 70 > Za (O, 70)~~- O, 70) }

. _ ~ Número de remisiones
Teruendo en cuenta que x = p = , y que
50
Za = z0 ,025 = 1, 96, tenemos que rechazaremo H0 i:

Número de remisiones _ 0 70 > 1 96 (0, 70)(1- O, 70)


50 ' ' 50
Número de remisiones> 41,35

En conclusión, podremos afirmar (a un nivel de significación O 025) que


el porcentaje de remisión con el nuevo tratamiento está por encima del
70%, i e obtienen al menos 42 casos de remisión, entre los 50 voluntarios.

18. El parámetro de interés en este ejercicio es p= «Proporción de a ignatura


que abe el alumno». Sin embargo, puesto que el alumno puede acertar al-
guna pregunta por casualidad, necesitamos definir el parámetro auxiliar q =
284 SOLUCIONES DE LOS EJERCICIOS

«Probabilidad de contestar correctamente una pregunta». La relación entre p


y q se obtiene mediante la regla de la probabilidad total:

q = P(Acertar) = P(Saber)P(Acertar1Saber)+ P(No saber)P(Acertar I No saber)=


3p+l
p(l)+(l- p)(l/4) = - -
4

Las respuestas del examen nos proporcionan una muestra aleatoria (X1,
..., X) de X - B(l; q), de tamaño n = 100. La pregunta que nos hacemos
es: ¿Cuál es el número mínimo de pregunta aceitadas, entre las 100, para
poder afirmar (al nivel de significación 0,01) que p > 0,50? Planteada en tér-
mino de q, la pregunta ería: ¿Cuál es el número mínimo de preguntas acer-
tadas, entre la 100, para poder afirmar (al nivel de significación 0,01) que
q =3p+l > 3(0,50)+1=0625?
4 4 '

Para poder contestar a esta pregunta plantearemos un contraste de hi-


pótesis, donde q > 0,625 será la hipótesis alternativa. Es decir, contra tamo
H0 : q ~ O 625 frente a H 1: q > 0,625, al nivel de significación 0,01.
Rechazaremos H 0 i e verifica la región de rechazo:

R= {x _O 625'
>
Za
(0, 625)(1- O, 625)}
100

• •

Teruendo en cuenta que x


_

= q = Número100
A de aciertos
, y que Za= "V,01 = 2,33
7-

tenemo que recbazaremo H0 i:


Número de aciertos O 625 > 2 33 (O 625)(1-0 625)
=>
100 ' 100
Número de acierto > 73, 78

En conclusión, podremos afirmar (a un nivel de ignificación O 01) que


el alumno sabe más del 50% de la a ignatura, si acjerta al meno 74 pre-
gunta , entre las 100.

19. a) El parámetro de interés en este ejercicio e r = «Probabilidad de pade-


cer hepatitis vírica». Sin embargo, puesto que exi te la posibilidad de
fal o po itivo y de fal o negativos, nece itamos definir el parámetro
auxiliar p = «Probabilidad de dar po itivo». La relación entre r y p se
obtiene mediante la regla de la probabilidad total:
SOLUCIONES DE LOS EJERCICIOS 285

p =P(Po itivo) =
P(Enfermo)P(PositivolEnfermo) + P(No enfermo)P(PositivolNo Enfer-
mo)= r(0,95) + (1 - r)(0,02) = O 02 + 0,93r.

b) Las pruebas de detección aplicadas a 800 personas nos proporcionan


una muestra aleatoria (X1, •• • ,X) de X - B(l; p), de tamaño n = 800.
La pregunta que nos hacemos es: ¿Cuál es el número máximo de prue-
bas po itivas, entre las 800 para poder afirmar (al nivel de ignificación
0,01) que r < 0,08? Planteada en términos de p, la pregunta sería:
¿Cuál es el número máximo de pruebas positivas, entre las 800, para
poder afumar (al nivel de significación 0,01) que p = 0,02 + 0,93r <
0,02 + 0,93(0,08) = 0,094?
Para poder contestar a esta pregunta plantearemos un contraste de hi-
pótesis, donde p < 0,094 será la hipótesis alternativa. Es decir, contra tamo
H0 : p 2:: 0!094 frente a H 1: p < 0,094, al nivel de significación 0,01.
Rechazaremos H0 si se verifica la región de rechazo:

R={x-o 094 <z (0,094)(1-0,094)}


' l- a 800

Teruendo en cuenta que x


_

= p = Número de pruebas positivas • y que


A

800
Zi- a = z0,99 =- 2,33, tenemo que rechazaremos H 0 si:
Número de pruebas po itivas O 094 < _2 33 (O, 094)(1- O, 094)
=>
800 ' ' 800
Número de pruebas positiva < 55,92

En conclusión, podremos considerar estadísticamente probado (a un


nivel de ignificación 0,01) que la enfermedad afecta a meno del 8% de la
población si se obtiene un máximo de 55 pruebas positivas, entre las 800.

20. Disponemos de una muestra aleatoria (X¡, . .. , Xm), de tamaño m = 10, de X


= «Km.por litro sin aditivo» y de otra mue tra aleatoria (Y1, • •• , Yn), de ta-
maño n = 10, de Y= «Km. por litro con aditivo».

a) Asumimo que X - N(µ 1; CT1), Y - N(µ2; CT2) y que CT1 = CT2• Además,
podemos con iderar que las mue tras son independiente (los datos
no van emparejado ).
Queremos saber si se puede considerar estadísticamente probado (al
nivel a= 0,05) que µ 1 < ~- Tomaremo esto como hipótesis alternativa, de
modo que planteamo un contraste de H0 : µ 1 2:: ~ frente a H 1: µ 1 < µ2 , al ni-
vel de significación a= 0,05.
286 SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H0 si se verifica la región de rechazo:

R={X-jkt.~-2; ,_.,, ~ ~ +H
En nuestro caso:

x - y = 14,2-15,4 =-1,2
s = (m-l)s~+(n-l)s; =Z,l 2
P m+n-2
tl8; 0,95 = -tl8; 0,05 = -1, 734

Por lo tanto, no se verifica la condición de la región de rechazo y nue -


tra conclusión es:

Aceptamos H0 => No podemo considerar e tadísticamente probado (al


nivel de significación 0,05) que el aditivo aumenta el kilometraje medio por
litro.

b) Para decidir si era razonable a umir la hipó te i de igualdad de varian-


zas, planteamos un contraste de hipótesis de H0 : a-1 = a-2 frente a H ,: a-1
:t:. a-2 , al nivel de significación a= 0,10.

Rechazaremos H0 i se verifica la región de rechazo:

R = {s~ I i "= [F,,,-1: 11-1; 1- a12.F:11- 1: n- 1: a,2 ]}

En nuestro caso:

S~ f Si= 0,56

[F,,,-l;n-1; l-a/2,Fm-J; n-l;a/2 ] = [ ~:9;0,95 •Fg; 9; 0.05] = [R l


9; 9;0,05
' ~;9;0,05] =

1 ;3, I789J~ ro,3l' 3,1s1


[
3,1789
SOLUCIONES DE LOS EJERCICIOS 287

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclusión es:

Aceptamos H0 ~ Es razonable aceptar la igualdad de varianzas (al


nivel de significación 0,10).

21. Disponemos de una muestra aleatoria (X1, ••• , Xm) de X= «Cantidad de fer-
tilizante envasado con la primera máquina», de tamaño m = 10, y de otra
muestra aleatoria (Y1, • •• , Y) de Y= «Cantidad de fertilizante envasado con
la segunda máquina», de tamaño n = 10. Asumimos que X - N(A, a), que
Y - N(µ2 , a2), y que las muestras son independientes (ya que los datos no
van emparejados).

a) Intervalo de confianza para estimar~. con un nivel de confianza 1 - a


=0,95:

I=[(m2 - l)st ' (m-l)s¡ )=(*)


2
Xm - l;a/2 Xm - l;l- a/2

Obtenemos de las tablas:

x!-l;a/2 = x;;0,025 = 19,023


x.!-t;l-a/2 = x:;0,915 = 2,700
Tenemos, entonces:

(*)=((9)(1,2) (9)(1,2))=(0 57·4)


19,023 ' 2,700 ' '

Naturalmente, un intervalo de confianza para estimar a 1 sería/= (0,75; 2).

b) En e te apartado asumimos, además de la Normalidad y la indepen-


dencia, la igualdad de varianzas.
Queremos saber si se puede concluir (al nivel de significación a=
0,10) que µ 1 <~-Tomaremos esto como hipótesis alternativa, de modo que
planteamos un contraste de H0 : µ 1 ;;;,: ~ frente a Ht: µ 1 < µ 2, al nivel de sig-
nificación a= 0,10.
Rechazaremos H 0 si se verifica la región de rechazo:

R ={ X- -
'fl:T}
Y- < tm+n- 2; 1- aSp ~ +-;;
-;;;.

En nue tro caso:


288 SOLUCIONES DE LOS EJERCICIOS

x-y =29,8-30,~=-0,40
s = (m-l)s;+(n-l)si =l l 4
P m+n-2 '
t1s;o,90 =-lis; o.10 =-1, 330
t18: 0•90s P ~ = (-1,330)(1,14)~ 1~ + 1~ = -0,68

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclusión es:

Aceptamos H0 ~ No podemo concluir (al nivel de significación 0,10)


que la segunda máquina envasadora introduce más fertilizante que la primera.

22. Di ponemo de una muestra aleatoria (X1 ••• , X,.), de tamaño m = 6, de X=

«Duración de las cintas de la marca A», y de otra muestra aleatoria (Y1 •••
Y), de tamaño n = 6, de Y= «Duración de las cintas de la marca B». Asumí-
"
mosque X - N(µ 1; a), Y - N(,µ,_; a2), y que a 1 = a2• Ademá , podemo con-
iderar que las mue tras on indepencliente (lo datos no van emparejado ).
Queremos saber i hay uficiente evidencia estadí tica (al nivel a =
0,10) para afirmar que µ 1 < µ 2. Tomaremos esto como hipóte is alternativa,
de modo que planteamos un contraste de H 0 : µ 1 ~ ~ frente a H 1: µ 1 < µ 2, al
nivel de ignificación a= 0,10.
Rechazaremo H0 i se verifica la región de rechazo:

R = { x-y
.
~ 1}
- - <t,,,+n- 2·1- a sp -+-
m n

En nuestro caso:

x -y= 238,83-241,83 = - 3
s;= -m1- -1 I(x¡ -xi= -m1- -1[Ix¡ - mx 2] = 34,88
s; = - 1- I(Y; -ji)2 = - 1-[I,y¡ -ny2 ]= 69, 70
n- l n-1
s = (m-l)s;+(n-l)s; = 7 23
P m+n-2
tJ0;0,90 = - tJ0;0,10 = - 1 372
SOLUCIONES DE LOS EJERCICIOS 289

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclusión es:

Aceptamos H0 ~ No se puede considerar estadísticamente probado (al


nivel de significación 0,10) que la duración media de las cintas de la marca
B es superior a la duración media de las cintas de la marca A.

23. a) Disponemos de una muestra aleatoria (X1, ... , Xm), de tamaño m = 10,
de X= «Puntuación de los chicos», y de otra muestra aleatoria (YL, .. .,
Y), de tamaño n = 10, de Y= «Puntuación de las chicas». Asumimos
que X - N(µ 1; CT1) , Y - NCJLi; a 2), y que al= CT2. Además, podemos
considerar que las muestras son independientes (los datos no van em-
parejados).
Queremo decidir si las aptitudes matemáticas son iguales o diferentes
en chicos y chicas (al nivel de significación a= 0,05). Para~ to, planteamos
un contraste de H0 : µ 1 = ~ frente a H 1: µ 1 '# ~. al nivel de significación a=
0,05.
Rechazaremos H0 si se verifica la región de rechazo:

En nuestro caso:

lx - yl = 189, 7 - 86 91 = 2, 8

st = - 1 - I.(x; -.x)2 = -
1-[I,x¡-mx2 ]=8,90
m-I m- 1

S2
2 1 " - 2 =1-[L,
=-L,(y¡-y) " y¡2 -ny-2 ] = 15,65
n-1 n- 1

s = (m - l)st + (n - l)sf = 3 50
P m+n - 2 '
tm+n- 2;al2 = tl 8;0,025 = 2, 1O1

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclusión es:
Aceptamo H0 ~ Decidimos que las aptitudes matemáticas son pareqi-
da ea chico y chicas (al nivel de igaificación 0,05).
290 SOLUCIONES DE LOS EJERCICIOS

b) Si las mue tras anteriores correspondieran a pares hermano - hermana,


los datos irían emparejados y no seóan muestras independientes. En este
caso habría que recurrir a hallar las diferencias de cada par de datos:

4 - 1 11 1 12 - 3 - 1 - 3 5 3

Por lo tanto, disponemos de una muestra aleatoria de diferencias (D 1, • •• ,


Dn), de tamaño n = 10, de D =X - Y - N(Jl =µ 1 -JJ.i; a). El contraste de hi-
pótesis de H 0 : µ 1 = µ 2 frente a H 1: µ 1 -::;:. µ 2 e transforma ahora en un con-
traste de hipóte is de H0 : µ=O frente a H 1: µ'#O, al mismo nivel a= 0,05.

Rechazaremos H0 si se verifica la región de rechazo:

{- -01 >
R = Id tn- l ;a/2
sd}
,¡;;,

En nuestro caso:

Id - 01 = 12, 8 - 01 = 2, 8
tn - l; a/2 = !9:0,025 = 2,262
s; = - 1- I(d; - d)2 = - 1- [Id;2 -nd2 ] = 28 62
n-1 n-1

tn-J· a/2
sd
r -- (2,262) fis,62. -
r;,:;; -3,83
· ~n ~10

No se verifica la condición de la región de rechazo y nuestra conclusión


es:

Aceptamos H0 ~ Decidimos que las aptirude matemáticas on pareci-


da en hermano y hermana (al nivel de ignificación O 05).

24. Di ponemo de una muestra aleatoria (X1, • •• , X"'), de tamaño m = 20, de X


= «Tiempo de vida de los ratones que no reciben tratamiento», y de otra
mue tra aleatoria (Y1, • •• , Y), de tamaño n = 40, de f = «Tiempo de vida de
los ratones tratado con la nueva droga». A umimo que X - N(J11; a 1), Y -
N(µ,_; <12), y que a1 = a2 • Ademá , podemo con iderar que las muestras son
independiente (los dato no van emparejados).
Queremos saber si se puede llegar a la conclu ión (al nivel a= 0,10) de
que µ 1 < µ 2• Tomaremos esto como hipótesis alternativa, de modo que
planteamos un contraste de H 0 : µ 1 2: µ,_ frente a H 1: µ 1 < µ 2, al nivel de sig-
nificación a= 0,10.
SOLUCIONES DE LOS EJERCICIOS 291

Rechazaremos H 0 si se verifica la región de rechazo:

R= {x -Y < tm+n-2; 1-aS p ~ ~ + ~}


En nuestro caso:

x - y= 93 - 102 =-9

s = (m-l)s{ + (n-l)s~ =ll,ll


P m+n-2
tss;o.90 =-tss;o.10 ~-t6<l;o,10 =-1,296

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión es:

Rechazamos H 0 ~ Aceptamos H 1 ~ Se puede concluir (al nivel de sig-


nificación 0,10) que la nueva droga proporciona una mejora significativa en
el tiempo de vida.

25. En este ejercicio, e tamo interesados en el parámetro p = «Proporción de


absentismo laboral en la Comunidad Autónoma de Madrid». Como en todos
los casos en que estamos interesados en una proporción, disponemos de una
muestra aleatoria (X1 • •• , X) de X - B(l~ p), de tamaño n = 200. La cues-
tión a la que hay que contestar es: ¿Se puede sacar Ja conclusión (al nivel de
significación 0,025) de que p > O,11? Para contestar a esta pregunta, recu-
rrimos a un contraste de hipótesi , donde p > 0,11 será la hipótesis alterna-
tiva. Es decir, contra tamo H 0 : p ~ 0,11 frente a H 1: p > 0,11, al nivel de
significación 0,025.
Rechazaremos H 0 si se verifica 1a región de rechazo:

R= { x -0,11> Za (O, ll)(ln- O, 11) }

En nuestro ca o:

x- 0.11 = p - 0,11 = 0,16 - 0,11 =o,o5


Za (0,11)(1 - 0,11) = Zo.o2S (0,11)(1 - 0,11) = l, 96 (0,11)(1- O, 11) = O 04
n n 200 '
292 SOLUCIONES DE LOS EJERCICIOS

Por lo tanto, se verifica la condición de la región de rechazo, y la con-


clu ión e :

Rechazamos H0 =} Aceptamo H 1 =} Se puede sacar la conclusión (al


nivel de significación 0,025) de que el absentismo laboral es mayor en la
Comunidad de Madrid que en la Unión Europea.

26. Di ponemo de una mue tra aleatoria (X1 . •. , X) de tamaño m = 10 de X


= «Nivel de colesterol antes de la dieta», y de otra muestra aleatoria (Y1, . ..
Y), de tamaño n = 10, de Y= «Nivel de colesterol despué de la dieta». Las
do mue tra no on independiente ya que los dato van emparejados:
cada par de datos corresponde al nivel de colesterol que se ha obtenido en
un mismo individuo, ante y despué de la dieta. Al tratar e de datos empa-
rejado lo primero que tenemos que hacer e obtener la diferencia de cada
par de datos, resultando:

-10 6 -12 - 7 4 -16 -15 -3 - 17 15

E to dato con tituyen una mue tra aleatoria (D 1, ••• , D,.), de tamaño n
= 10 de D = X - Y. Llamaremos µ 1 al nivel medio de cole terol ante de la
dieta, /1i al nivel medio de cole terol de pué de la dieta, y asumiremos que
X - Y - N(µ = µ 1 - µ 2 ; a").
Queremo estudiar i re ulta aceptable que µ 1 = tii (al nivel de ignifi-
cación O05)· o lo que es igual, queremo ver si no parece aceptable queµ
= O (al nivel de ignificación 0,05). Para e tudiar esto, planteamos un con-
traste de H0 : µ = Ofrente a H 1: µ -:t:- O, al nivel de significación 0,05.
Rechazaremos H0 i e verifica la región de rechazo:

R ={Id- -01 > t,,_1:a 12 .¡;;,


sd}

En nue tro ca o:

ld-01=1- 5 51=5,5
t,, _ J; a /2 = !9; 0,025 =2,262
sd= /_I_'i,(d;-d)2 = - 1- [í.d(- nd2 ] = 10,78
i n-1 n- 1
sd 10 78
t11 _ 1. a 12 e =(2,262) r.n =7,71
· vn vlO
No e verifica la condición de la región de rechazo y nuestra conclu ión
e:
SOLUCIONES DE LOS EJERCICIOS 293

Aceptamo H 0 :::::) El oivel medio de cole terol es similar antes y después


de la dieta (al oivel de significación 0,05).

27. Estarno interesado en comparar do parámetros:

p 1 = «Proporción de pollos que muestran síntomas de contagio durante


los 14 primeros días con e] organismo 1»
p 2 = «Proporción de pollos que muestran síntomas de contagio durante
los 14 primeros días con el organismo 2»

Disponemos de una muestra aleatoria (X1, ••• , X), de tamaño m = 200


de X - B(l; p 1), y de otra mue tra aleatoria (Y1, •• • , Y), de tamaño n = 150,
de Y - B(l; p 2). Podemos considerar que las muestras son independientes.
La pregunta que nos hacemos es: ¿Las proporcione p 1 y p 2 son similares o
existe diferencia entre ella (al nivel de significación a= 0,05)?; para con-
testar a esta pregunta haremos un contraste de H0 : p 1 = p 2 frente a H 1: p 1 :t
p2' al nivel de significación a= 0,05.
Rechazaremos H0 si se verifica la región de rechazo:

R={IX-Yl> z012 P(l - pc +~) }•


. d _
sien o p = mx+nY
m+n

En nue tro caso:

x =PA1 = 137 =O 685· -


Y =PA2 = 98 = o 653
200 ' ' 150 '
p= mx +ny = 0,671
m+n
lx - YI = 10,685 - O, 6531 = O, 032

Zo: 12 p(l - p)(_!_ +


m
.n!.) = Zo 02s
·
p(l - p)(_!_ +
m
.!.)
n
=

(1, 96) (O, 671)(1- O, 671)(-1- + - 1-) =O, 099


200 150

Por lo tanto, no se verifica la condición de rechazo, y la cooclu ión es:

Aceptamo H 0 :::::) La virulencia de los dos organismos es similar (al ni-


vel de significación 0,05).
294 SOLUCIONES DE LOS EJERCICIOS

28. En este ejercicio, estamos interesados en el parámetro p = «Proporción de


per onas a las que les desaparece el dolor de cabeza en un cuarto de hora con
el medicamento». Como siempre que queremos un hacer un contraste sobre
una proporción, disponemos de una muestra aleatoria (X,, ... , X,,), de tamaño
n = 200, de X - B(l · p). Queremos ver si resulta aceptable la hipótesis de la
compañía de que p = 0,90; para esto, recurrimos a un contraste de H0 : p =
O 90 frente a H 1: p-:#:- 0,90 (por ejemplo, al nivel de significación a= 0,01).
Rechazaremos H0 si se verifica la región de rechazo:

R= { lx - 0,901>za,i (O, 90)(1n- O, 90)}

En nuestro caso:

l.x -0,901 = lp-0,90I = l~:-0,901= 0,050

(O, 90)(1- O, 90) _ (O, 90)(1- O 90) _ (2 58) (O, 90)(1- O, 90) = O 055
Za12 - Zo.oos - ,
n n 200 '

Por lo tanto no se verifica la condición de rechazo, y la conclusión e :


Aceptamos H0 => Resulta aceptable (al nivel de significación 0,01) la hi-
pótesis de la compañía.

29. Estamo intere adosen el parámetro p = «Proporción de cheques sin fondo


después de impJantar el i tema de verificación». Como siempre que esta-
mos interesados en w1a proporción, di ponemos de una muestra aleatoria
(X1, ... , X,,) de X - B(l; p), de tamaño n = 1124. La pregunta que nos ha-
cerno es: ¿Se puede concluir (al nivel de ignificación a = 0,01) que
p < 0,05? Para conte tar a esta pregunta, recurrimos a un contraste de hipó-
tesis, donde p < 0,05 será la hipótesi alternativa. E decir, contrastamos H 0 :
p;;:: 0,05 frente a H1 : p < 0,05, al nivel de significación 0,01.
Rechazaremos H0 i se verifica la región de rechazo:

R = { X - 0,05 <z,~ (0,05)(~-0,05)}

En nue tro caso:

x - O 05 = p~ - O 05 = 2!!._ _ O 05 = - O 0055
' ' 1124 ' '
(0,05)(1- 0,05) (0,05)(1- 0,05) =-2,33 (0,05)(1- 0,05) = - 0 0151
z,-a n = Zo,99 n 1124
SOLUCIONES DE LOS EJERCICIOS 295

Por lo tanto, no se verifica la condición de la región de rechazo, y la con-


clusión es:
Aceptamos H0 => No se puede concluir (al nivel de significación 0,01)
que e ha reducido la proporción de cheques sin fondos.

30. Disponemos de una muestra aleatoria (X1 ••• , Xm) de X= «Cantidad de re-
iduos químicos encontrados en pelícanos jóvenes», de tamaño m = 10, y de
otra muestra aleatoria (YI' .. ., Y) de Y= «Cantidad de residuos químicos en-
contrado en polluelos», de tamaño n = 13. Asumimos que X - N(µl'a1),
que Y - N(µ2 0'2), y que las muestras son independientes (ya que los datos
no van emparejados).

a) Intervalo de confianza para estimar 07, con un nivel de confianza 1 - a


=0,90:

1 = [(m-l)sf (m-l)sf ) = (*)


2 ' 2
Xm- l;a/2 Xni - l;l - a/2

Obtenemos de las tablas:

x:, - l;a/2 = x;;0.05 =16,919


x!-t;l-a/2 = xto.95 = 3,325
Tenemos, entonces:

( *) = ((9)(0,017)2 (9)(0,017)2) = (0 0002· o 0008)


16,919 ' 3,325 ' ' '

Naturalmente, un intervalo de confianza para estimar 0'1 sería J = (0,01;


0,03).

b) En este apartado asumimos, además de la Nonnalidad y la indepen-


dencia, la igualdad de varianzas.
Queremos saber si se puede concluir (al nivel de significación a=
0,05) que µ 1 > ~- Tomaremo esto como lúpótesis alternativa, de modo que
planteamos un contraste de H0 : µ 1~ ~ frente a H 1: µ 1 > µ 2, al nivel de sig-
nificación a= 0,05.
Rechazaremos H0 si se verifica la región de rechazo:

R={x-y>tm+n-2;asp ~ ~ +;}
296 SOLUCIONES DE LOS EJERCICIOS

En nue tro caso:

x -y = 0,041 - 0,026 = 0,0150


s = (m-l)s¡+(n-l)si =O,Ol 2
P m+n - 2
121; 0,os = 1,721

t21; 0 ,05sP ~ =(1,721)(0,012) ~ 1~ + 1~ =0,0087

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclu ión e :

Rechazamo H0 ~ Aceptamos H 1 ~ Concluimo (al nivel de signifi-


cación 0,05) que la cantidad media de residuos es mayor entre los pelícanos
jóvenes que entre los polluelo .

10. Contrastes x2
1. Di ponemos de una mue tra aleatoria de n = 300 lanzamiento de un dado.
Los posibles resultados de estos lanzamientos on: 1, 2, 3, 4, 5 y 6.
Para decidir si el dado e regular o no, llevamo a cabo un contraste de
bondad de ajuste, al nivel de significación a= 0,05:

H0 : «El dado e regular» (P(l) =... = P(6) = 1/6)


H1: «El dado e irregular»
La tabla de frecuencias observadas y esperadas es:

A. 1 2 3 4 5 6
O.1 43 49 56 45 66 41
e.1 50 50 50 50 50 50

donde las frecuencias esperadas, bajo H0 , han ido calculadas de la 1-


guiente forma:

e.1 = nP(A.)
1
=300(1/6) =50.
Rechazaremo H0 i e verifica la región de rechazo:
SOLUCIONES DE LOS EJERCICIOS 297

En nuestro caso:

x!-1;a=x;; 0,05 =11,07 '.


Por lo tanto, no se verifica la condición de la región de rechazo, y nues-
tra conclusión es:

Aceptamos H 0 ~ Aceptamos que el dado es regular (al nivel de signi-


ficación 0,05).

2. Disponemos de una muestra aleatoria de n = 450 observaciones generadas


por el programa. Los posibles resultados de estas observaciones·se agrupan
en 6 clases:
A1 =(- oo, - 2) A 2 = (- 2, - 1) A 3 =(- 1, O) A4 =(O 1)
A 5 = (1, 2) A6 = (2, oo)

Para decidir si el programa funciona correctamente o no, llevamos a


cabo un contraste de bondad de ajuste, al nivel de significación a= 0,01:

H0: «El programa funciona correctamente (las observaciones proceden de


una N(O; l))»
H 1: «El programa no funciona correctamente»

La tabla de frecuencias observadas y esperadas es:

A 1. (-oo, - 2) (-2, -1) (-1, O) (O, 1) (1, 2) (2 oo)


O.1 30 80 140 110 60 30
P(A.)1
0,0228 O 1359 O 3413 0,3413 O 1359 0,0228
e.1 10,26 61,155 153 585 153,585 61 ,155 10,26'

donde las frecuencias esperadas, bajo H0 , han sido calculadas de la si-


guiente forma:

y lo valores de P(A¡) se han calculado de la forma habitual a partir de la ta-


bla de la N(O; 1).
Rechazaremos H 0 si se verifica la región de rechazo:
298 SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

x:-l;a =x;;0,01 =15,086


Por lo tanto, e verifica la condición de la región de rechazo y nuestra
conclusión es:

Rechazamos H0 ==> Aceptamos H 1 ==> Podemos afirmar que el programa


no funciona correctamente (al nivel de significación 0,01).

3. Disponemos de una mue tra aleatoria de n = 1000 individuos de una po-


blación clasificados en 4 clases:

A, = {Hombre normal} A2 = {Hombre daltónico} A 3 = {Mujer normal}


A4 = {Mujer daltónica}

Para decidir i el modelo genético e correcto o no, llevamos a cabo un con-


tra te de bondad de ajuste, al ruvel de significación a= 0,05 (por ejemplo):

H0 : «El modelo genético e correcto»


H 1: «El modelo genético no es correcto»

La tabla de frecuencias observadas y esperadas es:

{Hombre {Hombre {Mujer {Mujer


A.1
normal} daltónico} normal} daltónica}
O.1 442 38 514 6
P(A.)
1
0,4565 0,0435 0,4962 0,0038
e.1 456,5 43,5 496,2 3,8

donde las frecuencias esperadas, bajo H0 , han ido calculadas de la si-


guiente forma:

e.1 = nP(A.)
1
= lOOOP(A 1.),

y los valores de P(A) e han calculado a partir del modelo genético pro-
puesto, tomando q = 0,087.
Rechazaremos H0 si e verifica la región de rechazo:

R= {I, ( O; - ef > X2
e.
1
k-J - r ; a
}
SOLUCIONES DE LOS EJERCICIOS 299

En nuestro caso:

Xi-1-r;a = Xi;o,os =5,991

Por lo tanto, no se verifica la condición de la región de rechazo, y nues-


tra conclusión es:

Aceptamos H0 => Podemos aceptar el modelo genético (al nivel de


significación 0,05).

4. Disponemos de una muestra aleatoria de n = 120 minutos, en los cuales re-


gistramos el número de llamadas que se han producido. El número de lla-
madas por minuto lo clasificamos en las siguientes clases:

{O} {1} {2} {3} {4} {~5}

Las dos últimas clases las hemos agrupado para evitar frecuencias de-
masiado bajas.
Para decidir si el número de llamadas por minuto sigue una distribución
de Poisson, llevamos a cabo un contraste de bondad de ajuste, al nivel de
significación a= 0,05 (por ejemplo):

H0 : X= «Número de llamadas por minuto» - Poisson


H 1: X= «Número de llamadas por minuto» no sigue una Poisson

La tabla de frecuencias observadas y esperadas es:

A. {O} {l} {2} {3} {4} {~ 5}


O. 6 18 32 35 17 12
P(A¡)' 0,0743 0,1931 0,2510 0,2176 0,1414 0,1226
e.1 8,92 23,17 30,12 26,11 16,97 14,71

donde las frecuencias esperadas bajo H0 , han sido calculadas de la si-


guiente forma:

e.=
1
nP(A.)
l
= 120P(A.),
l

y los valores de P(A) se han calcula~o a partir de la tabla de la distribución


de Poisson, estimando ít mediante ,l = x = 2,6.
300 SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H0 si se verifica la región de rechazo:

R= {r ( O; - e¡)2 > X2
e. k- 1- r ; a
}
'

En nuestro caso:

xt-1-ra
'
== xi-o
. ' 05 =9,488
Por lo tanto, no e verifica la condición de la región de rechazo, y nues-
tra conclusión es:

Aceptamo H0 ~ Podemos aceptar que el número de llamadas por mi-


nuto igue una distribución de Poisson (al nivel de significación 0,05).

S. Disponemo de una muestra aleatoria de 1000 hombres y de otra muestra


aleatoria de 1000 mujere , clasificada por u preferencia obre los mo-
delos A , By C. EJ número total de dato es n = 2000.
Para decidir si las preferencias en las do poblaciones son homogéneas,
plante.amo un contraste de homogeneidad, al nivel de igni:ficación a= 0,01:
H 0 : «La preferencias on homogéneas»
H1: «Las preferencias no on homogénea »
La tabla de frecuencia ob ervada e :

A B e
Mujere 340 400 260
Hombres 350 270 380

La frecuencia e peradas se calculan como

obteniéndo e la iguiente tabla de frecuencias esperadas:


e ..
IJ
A B C
Mujeres 345 335 320
Hombre 345 335 320
SOLUCIONES DE LOS EJERCICIOS 301

Rechazaremos H0 si se verifica la región de rechazo:

(O.. -e .. ) 2 2 }
R ={ L¡Lj IJ IJ > X ck-l)(p -1); a
e;j

En nuestro caso:

L ; L j (Oij- ei)2 =L¡L j oJ


_n=47,87
eij eij

Xt-1><p-1); a = Xi; o,D1 = 9,210

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión e :

Rechazamo HD==> Aceptamos H 1 ==> Podemos concluir que no son


homogéneas las preferencia entre hombres y mujeres (al nivel de signifi-
cación 0,01).

6. a) Di ponemos de una muestra aleatoria de 353 individuo de la comuni-


dad 1 y de otra mue tra aleatoria de 364 i,ndividuos de la comunidad 2,
clasificadas por sus grupos sanguíneo . El número total de datos e n =
353 + 364 = 717.
Para decidir si la distribución de lo grupos sanguíneos es homogénea en
las dos comunidades, planteamos un contraste de homogeneidad, al nivel de
significación a= 0,05 (por ejemplo):

HD: <<La di tribucióo de los grupos sanguíneos es homogénea»


H 1: «La distribución de los grupos anguíneos no es homogénea»

La tabla de frecuencias observadas es:

O A B AB
Comunidad 1 121 120 79 33
Comunidad 2 118 95 121 30

Las frecuencias esperadas e calculan como

_ (L; O;i )(Lj Oij )


e,-,, - -- - n~ - -
302 SOLUCIONES DE LOS EJERCICIOS

obteniéndose la siguiente tabla de frecuencias esperadas:

e .. o A B AB
Comunidad 1 117,67 105,85 98,47 31,02
Comunidad2 121,33 109,15 101,53 31,98

Rechazaremos H0 si se verifica la región de rechazo:

(0..-e ..)2 2 }
R ={ L; Lj 11 11
> X (k- l )(p- 1); a

En nuestro caso:

x fk- 1)(p- 1); a = Xi; o.os = 7,815

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión es:

Recbazamo H 0 => Aceptamos H 1 => Podemos concluir que la di tribu-


ción de los grupos sanguíneos no es homogénea en las dos comunidades
(al nivel de significación 0,05).

b) En este apartado vamos a considerar una muestra aleatoria den= 353


individuos de una población clasificados en 4 clases: O, A, By AB.

Para decidir i el modelo genético es correcto o no, llevamos a cabo un con-


traste de bondad de ajuste, al nivel de significación a= 0,05 (por ejemplo):

H0 : «El modelo genético es correcto»


H1: «El modelo genético no es correcto»

La tabla de frecuencias observadas y esperadas e :

A. o A B AB
O.1 121 120 79 33
P(A) 0,3367 0,3469 0,2310 0,0854
e.1 118,86 122,46 81,54 30,15
SOLUCIONES DE LOS EJERCICIOS 303

donde las frecuencias esperadas, bajo H 0, han sido calculadas de la si-


guiente forma:

e.=
J
nP(A.)
1
= 353P(A.),
1

y los valores de P(A) se han calculado a partir de] modelo genético pro-
puesto, tomando p =0,2465 y q =O, 1732.

Rechazaremos H0 si se verifica la región de rechazo:

En nuestro caso:

¿(O¡-e¡)2 =Í,O( -n=043


e; e;

xL-,;a = X~0 ,05 = 3,841


Por lo tanto, no se verifica la condición de la región de rechazo, y nues-
tra conclusión es:

Aceptamos H 0 => Podemos aceptar el modelo genético (al nivel de ig-


nificación 0,05).

7. a) Disponemos de una muestra aleatoria (XI' . .. , Xm), de tamaño m = 8, de


X= <<Número de horas perdidas en el nivel A», y de otra muestra alea-
toria (Y1, ... , Y), de tamaño n = 8, de Y= «Número de horas perdidas
en el nivel B». Asumimos que X - N(µ 1; a,), Y- N(Jl¡_; a 2), y que 0"1 =
0"2 • Además, podemos considerar que las muestras son independiente
(los datos no van emparejados).

Queremos decidir si el número de horas perdidas es similar o diferente


en los do niveles (al nivel de significación a= 0,05 por ejemplo). Para
esto, planteamos un contraste de H0 : µ 1 = Jl.i frente a H,: µ 1 -:f. /.l.i, al nivel de
significación a= 0,05.

Rechazaremos H0 si se verifica la región de rechazo:


304 SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

l.x - yl = 142,59-21,591= 21

s; = - 1-L(x;-x)2 = - 1 - [Lx(- mx2 ] = 22 96


m- l m-I
2 1 ~ - 2 l ~ 2 - 2
s2 = - ~ ( y¡ -y) =-[~Y; -ny ]=16,08
n- 1 n-1

s = (m - l)st+(n - l)s; = 4 , 42
P m + n-2
t,,,+11-2; a /2 = t l 4; 0,025 = 2,145

Por lo tanto, se verifica la condición de la región de rechazo y nue tra


conclu ión e :

Rechazamo H 0 => Aceptamos H 1 => Decidimos que el número de horas


perilida e diferente en lo dos niveles profe ionale (al njvel de significa-
ción 0,05).

b) En este caso disponemos de una muestra aleatoria (X , .. . X), de ta-


maño n = 8, de X= «Número de horas perdidas en el ruvel A antes del
plan de prevención», y de otra muestra aleatoria (T 1, ••• , T,,), de tamaño
n = 8, de T = «Número de horas perdidas en el nivel A de pué del plan
de prevención». Se trata de dos muestras de datos emparejados (no in-
dependiente ) ya que cada par de dato corre ponde al mismo obrero,
y hay que recurrir a hallar las diferencia de cada par de datos:

16,1 7,9 9,1 21 1,7 - 2,2 - 19,3 - 85

Por lo tanto, disponemos de una muestra aleatoria de diferencia (D 1, •.• ,


D), de tamaño n = 8, de D = X - T - N(µ =µ 1 - ~; a), siendo µ 1 el número
medio de horas perdidas antes del plan de prevención y ~ el número medio
de horas perdida de pués del plan de preveoción. Queremos saber si hay u-
fi.ciente evidencia e tadí tica (al nivel a= 0,05) para afirmar queµ= µ t - ~
> O. Tomaremo esto como lúpótesi alternativa, de modo que planteamos un
contraste de hipótesi de H0 : µ$;O frente a H1: µ > O, al nivel a= 0,05.
Rechazaremo H0 i se verifica la región de rechazo:

{-
R = d -O> tn- l;a
sd}
.Jii
SOLUCIONES DE LOS EJERCICIOS 305

En nuestro caso:

J =3,225
tn - 1; a = t 1; 0,05 = l, 895
2 1 - 2 1 2 -2
sd = - I ( d1 -d) = - [ I d1 -nd ]=173,53
n-l n-l

tn-l ; a ,¡¡;, = (1•895) .J173


.!.L .Js, 53 = 8•83
No se verifica la condición de la región de rechazo y nuestra conclusión es:

Aceptamos H0 => No podemos concluir que el plan de prevención ha re-


sultado efectivo (al nivel de significación 0,05).

e) Disponemos de una muestra aleatoria den= 100 días, en los cuales re-
gistramos el número de accidentes que se han producido. El número de
accidentes diarios lo clasificamos en las siguientes clases:

{O} {l} {;;;:2}

Las tres últimas clases las hemos agrupado para evitar frecuencias de-
masiado bajas.
Para decidir i el número de accidentes diarios sigue una distribución de
Poisson, llevamos a cabo un contraste de bondad de ajuste, al nivel de sig-
nificación a= 0,05 (por ejemplo):

H0 : X= «Número de accidentes diarios» - Poisson


H ,: X= «Número de accidentes diarios» no sigue una Pois on
La tabla de frecuencia ob ervada y esperadas es:

A 1. {O} { 1} {;;;: 2}
O.r 57 30 13
P(A r.) 0,5488 0,3293 0,1219
e.r 54,88 32,93 12,19

donde las frecuencias esperadas, bajo H0, han sido calculadas de la si-
guiente forma:

e., = nP(A.)
1
= IOOP(A.),
r

y los valores de P(A,) se han calcul~do a partir de la tabla de la distribución


de Poi on, estimando A. mediante A. = x = 0,6.
306 SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H0 si se verifica la región de rechazo:

R= {r (O; - e, )2 > X2
e.
1
k-1- r ; a
}

En nuestro caso:

x:-1-,;a= X~o.os = 3,841


Por lo tanto, no e verifica la condición de la región de rechazo, y nues-
tra conclusión es:

Aceptamos H0 ~ Podemos aceptar que el número de accidentes diarios


sigue una distribución de Poisson (al nivel de significación 0,05).

8. Di ponemo de una muestra aleatoria de n = 600 sorteos. Los posibles re-


ultado de e tos sorteos los agrupamos en tres clases, de acuerdo con la in-
formación que tenemos:

A 1 = {Premio importante} A 2 = {Premio de consolación} A 3 = {Nada}

Para decidir si los orteos e ajustan a lo que dice el feriante, llevamos a


cabo un contraste de bondad de ajuste, al nivel de significación a= 0,05:

H0 : «Lo sorteos se ajustan a lo que dice el feriante»


H,: «Hace trampa»

La tabla de frecuencia ob ervadas y esperadas es:

A 1. Premio importante Premio de consolación Nada


01 6 160 434
P(A.)
1
5/200 45/200 150/200
e.1 15 135 450

donde las frecuencias esperadas, bajo H0 , han sido calculadas de la si-


guiente forma:

e.1 = nP(A 1.) = 600P(A.),


1

y las P(A1) e obtienen a partir de lo que dice e] feriante.


SOLUCIONES DE LOS EJERCICIOS 307

Rechazaremos H 0 si se verifica la región de rechazo:

R= { L(O¡-e¡)2 >X2 }
e. k-l ;a
1

En nuestro caso:

Xi-t;a = Xi;o.os =5,991

Por lo tanto, se verifica la condición de la región de rechazo, y nuestra


conclusión es:

Rechazamos H0 => Aceptamos H 1 => Podemos afirmar que hace trampa


(al nivel de significación 0,05).

9. a) Recordemos que la función de verosimilitud es la probabilidad, bajo los di-


ferentes valores del parámetro p, de los resultados muestrales obtenidos:

L(p) = P(Resultados muestrales obtenidos)=


P(lO mo cas de tipo L, 50 moscas de tipo M y 40 moscas de tipo N) =
(p2)1°(q2)5º (2pq)40 = 240 p 60ql40 = 240 p60 (1- p )140 =>
logL(p)= 40log2+60 logp+ 140log(l- p) =>.
dlogL( p) _ 60 _ 140 --O => ~ 60 O3
dp p 1- p P = 200 = '

b) Disponemos de una muestra aleatoria de n= 100 moscas clasificadas


en 3 clases: L, M y N.
Para decidir si el modelo teórico es correcto o no, llevamos a cabo un
contraste de bondad de ajuste, al nivel de significación a= 0,05:

H 0 : «El modelo teórico es correcto»


H 1: «El modelo teórico no es correcto»
La tabla de frecuencias ob ervadas y esperadas es:

A. L M N
O.1 10 50 40
P(A) 0,09 0,49 042
e, 9 49 42
308 SOLUCIONES DE LOS EJERCICIOS

donde la frecuencias esperadas, bajo H0 , han sido calculada de la si-


guiente forma:

e.=
1
nP(A.)
1
= IOOP(A.),
1

y lo valore de P(A) se han calculado a partir del modelo teórico propues-


to, tomando p = 0,3 .
Recbazaremo H0 si se verifica la región de rechazo:

R= {I. (O¡ - e; )2 > %2


e.
1
. }
k- 1- r ,a

En nuestro caso:

xL-ra. = Xt.oos
'. =3,841

Por lo tanto, no se verifica la condición de la región de rechazo, y nue -


tra conclusión e :

Aceptamo H0 => Podemos aceptar el modelo teórico (al nivel de signi-


ficación 0,05).

10. Disponemos de una muestra aleatoria de n = 1000 habitante clasificado e-


gún dos característica : «Número de dosis recibidas» y «Protección frente a
la gripe».
Para decidir i exi te dependencia entre e ta dos caracterí ticas, plan-
teamos un contraste de independencia, al nivel de significación a= 0,05:

H0 : <<La do características son independiente »


H 1: «Existe dependencia entre las dos características»

La tabla de frecuencias ob ervadas es:

No vacunados Una dosis Do dosis


Gripe 24 9 13
No gripe 289 100 565

Las frecuencia e perada e calculan como


SOLUCIONES DE LOS EJERCICIOS 309

obteniéndose la siguiente tabla de frecuencias esperadas:

No vacunados Una dosis Dos dosis


Gripe 14,4 5 26,6
No gripe 298,6 104 551,4

Rechazaremos H 0 si se verifica la región de rechazo:

(O .. -e.. )2 2 }
R ={ L¡Lj l) l) > X ck- L)(p-l);a
eii

En nuestro caso:

X~-l )(p-l); a = Xi;o,os = 5,991

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión es:

Rechazamos H0 => Aceptamos H 1 => Podemos concluir que existe de-


pendencia entre el número de dosis recibidas y la protección frente a la gri-
pe (al nivel de significación 0,05).

11. Disponemos de una muestra aleatoria de 50 zonas en un monte y de otra


muestra aleatoria de 40 zonas en otro monte, clasificadas en tres clases: me-
nos de 6 especies diferentes, entre 6 y 8 especies y más de 8 especies. El
número total de datos es n = 90.
Para decidir si los dos montes son similares en lo que se refiere a su bio-
diversidad, planteamos un contraste de homogeneidad, al nivel de signifi-
cación a= 0,10:

H0 : «Son similares en su biodiversidad»


H 1: «No son similares en su biodiversidad»

La tabla de frecuencias observadas es:

O.1
Menos de 6 Entre 6 y 8 Má de 8
Monte 1 20 17 13
Monte 2 12 20 8
310 SOLUCIONES DE LOS EJERCICIOS

Las frecuencia esperadas se calculan como

obteniéndose la siguiente tabla de frecuencia esperadas:

e .. Menos de6 Entre 6 y 8 Más de 8


'
Monte 1 17,78 20,56 11,67
Monte 2 14,22 16,44 9,33

Rechazaremos H0 i se verifica la región de rechazo:

(0. . -e .. )2 2 }
R = { L; Li IJ e,j
11
> X (k-l J(p-l ); a

En nue tro ca o:

X fk- 1)(p- 1J:a = Xi;o.10 = 4,605

Por lo tanto, no e verifica la condición de la región de rechazo y nues-


tra conclusión es:
Aceptamos H0 => Podemo aceptar que lo do montes son bastantes si-
milares en lo que se refiere a su biodiversidad (al nivel de significación 0,10).

12. Disponemo de una muestra aleatoria den= 297 paciente de SIDA cla i-
ficado según dos características: «Posible presencia de anticuerpos TAT» y
«Po ible sarcoma de Kaposi».
Para decidir si existe relación entre e ta dos caracteásticas, planteamos
un contraste de independencia al nivel de ignificación a= 0,05:

H0 : «Las do características son independientes»


H 1: «Existe a ociación entre las dos características»

La tabla de frecuencias observadas es:

O .. Sarcoma No sarcoma
Con anticuerpos TAT 10 21
Sin anticuerpos TAT 68 198
SOLUCIONES DE LOS EJERCICIOS 311

Las frecuencias esperadas se calculan como

obteniéndose la siguiente tabla de frecuencias esperadas:

e .. Sarcoma No sarcoma
Con anticuerpos TAT 8,14 22,86
Sin anticuerpos TAT 69,86 196,14

Rechazaremos H0 si se verifica la región de rechazo:

(O .. - e..) 2 2 }
R = { L;L¡ 11
'' > X (k-l)(p - 1); a
e¡¡

En nuestro caso:

x fk- l)(p-l);a = x f o.os = 3,841

Por lo tanto, no se verifica la condición de la región de rechazo y nue -


tra conclu ión es:

Aceptamos H0 =} No podemos afirmar que existe asociación entre las


dos características (al nivel de significación 0,01).

13. Disponemos de una muestra aleatoria de n = 400 personas clasificadas según


dos características: «Nivel educativo» y <<Nivel de consumo».

Para decidir si existe relación entre estas dos caracteósticas, plaoteamo


un contraste de independencia, al nivel de significación a= 0,01:
H0 : «La dos características son independientes»
H 1: «Exi te relación entre las dos características»

La tabla de frecuencias observadas es:

Bajo Medio Alto


Superior 31 41 44
Media 28 79 125
Primaria 16 17 19
312 SOLUCIONES DE LOS EJERCICIOS

Las frecuencias esperadas se calculan como

obteniéndo e la siguiente tabla de frecuencias esperada :

e..
1
Bajo Medio Alto
Superior 21,75 39,73 54,52
Media 43,50 79,46 109,04
Primaria 9,75 17,81 24,44

Rechazaremos H0 si se verifica la región de rechazo:

(0.. -e .. )2 2 }
R = { Li; L, j IJ I) > X ck-l )(p-l);a
eij

En nuestro caso:

X [k-J)(p-t);a = X i;o,01 = 13,277

Por lo tanto, se verifica la condición de la región de rechazo y nue tra


conclusión es:

Rechazamos H0 => Aceptamos H, => Podemos concluir que existe re-


lación entre el nivel educativo y el nivel de con umo (al nivel de significa-
ción 0,01).

14. Disponemos de una muestra aleatoria de n = 200 observaciones generadas


con Statgraphics. Los po ibles re ultados de estas observaciones son: O, 1,
2, ...
Para decidir si la generación de números aleatorios ha funcionado co-
rrectamente o no, llevamos a cabo un contraste de bondad de ajuste, al nivel
de significación a= 0,10:

H 0 : «Lo datos proceden de una Poi son (A.= 2)»


H 1: «Los datos no proceden de una Poisson (A.= 2)»
SOLUCION ES DE LOS EJERCICIOS 313

La tabla de frecuencias observadas y esperadas es:

A. o 1 2 3 4 5 ~6
O; 28 49 51 34 28 5 5
e.1 27,06 54,14 54,14 36,08 18,04 7,22 3,32

donde las frecuencias esperadas, bajo H 0 , han sido calculadas de la si-


guiente forma:
e.=
1
nP(A.)
1
=200P(A 1.),

y los valores de P(A) se han obtenido de las tablas de la distribución de


Poisson.
Rechazaremos H0 si se verifica la región de rechazo:

R= {I, (O; - e¡)2 > X2 }


e.
1
k- l;a

En nue tro caso:

x;-l;a = x:;0,10 = 10 645


Por lo tanto, no se verifica la condición de la región de rechazo y nues-
tra conclusión es:
Aceptamos H0 ~ Aceptamos que la generación de número aleatorio
ha funcionado correctamente (al nivel de significación 0,10).

15. En lo do primeros apartados, di ponemo de una muestra aleatoria (X1, ••• ,


X,), de tamaño m = 25, de X= «Contenido en proteínas en la raza A», y de
otra muestra aleatoria (Y1, .. . , Y), de tamaño n = 25, de Y= «Contenido en
proteínas en la raza B».
a) A umiremo que X - N(µ 1; a 1) y que Y - N(µ2 ; a2 ). Además pode-
mos considerar que las m uestras on independientes (los datos no van
emparejados).
La pregunta que no hacemos en este apartado e : ¿Resulta aceptable
que a 1 = a2? Daremos una respuesta al nivel de significación a= 0,02. Para
e to, planteamos un contraste de hipótesis de H 0 : a 1 = a2 frente a H 1: a1 -:t
a-2, al nivel de significación a= 0,02.
Rechazaremo H 0 i e verifica la región de rechazo:

R = {st Is; ~ [Fm- t; n- 1; 1- a12. F,n- 1;n-1;a12 ]}


314 SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

s¡ /s~ = 4/ 4,4063 = 0,91


[F,,,_ 1;n-1; 1-a12.Fm- 1;n- 1; a121 = [F24;24; ü,99• f;4;24;o.oil =[ F. l , f;4;24; o.o,]=
24;24;0,0 I

[ l
2,6591
; 2,6591] ~ [0,38; 2,66]

Por lo tanto, no e verifica la condición de la región de rechazo y nues-


tra conclusión es:

Aceptamos H0 ~ Es razonable aceptar la igualdad de varianzas.

b) A las hipótesi asuoúdas anteriormente añadimos ahora la de que cr1 =


cr2 . Queremos saber si resulta aceptable que el contenido medio de
proteínas en las dos razas es el mismo (al nivel de significación a=
0,10). Planteamos un contraste de H 0 : µ 1 = Ji.-¿ frente a H 1: µ, -:t= Ji.-¿, al rú-
vel de significación a= O, 10.
Rechazaremos H0 si e verifica la región de rechazo:

En nuestro caso:

l.x- yl= 114- 14,51= O 5

s = (m-l)st+(n-l)si = 2 , 05
P m+n-2
t48;0,05 = t50;0.05 = 1,676

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclu ión es:

Aceptamos H0 ~ Re ulta aceptable (al nivel de significación 0,10) que


el contenido medio de proteínas e parecido en las dos razas.
SOLUCIONES DE LOS EJERCICIOS 315

e) En este apartado, disponemos de una muestra aleatoria de 79 animales


de raza A, y de otra muestra aleatoria de 102 animales de raza B, cla-
sificados en cinco clases atendiendo a su contenido en proteínas: muy
bajo, bajo, medio, alto y muy alto. El número total de datos es n = 181.

Para decidir si las dos razas son similares en lo que se refiere a su con-
tenido en proteínas, planteamos un contraste de homogeneidad, al nivel de
significación a= 0,01 :

H0 : «Son similares en su contenido en proteínas»


H 1: «No son similares en su contenido en proteínas»

La tabla de frecuencias observadas es:

O ..
1
Muy bajo Bajo Medio Alto Muy alto
RazaA 7 16 32 18 6
RazaB 10 20 40 20 12

Las frecuencias esperadas se calculan como

(I; Oij)(Ij Oij)


e..
11
=--~~--n

obteniéndose la siguiente tabla de frecuencias esperadas:

e1.. Muy bajo Bajo Medio Alto Muy alto


Raza A 7,4 199 15,7127 31,4254 16,5856 7,8564
RazaB 9,5801 20,2873 40,5746 21,4144 10,1436

Rechazaremos H0 si se verifica la región de rechazo:

(o. - e··11 )2 }
R = {L¡L j
2
IJ > X (k- l)(p- l ); a

En nuestro caso:

X [k-!)Cp-I);a = x¡;o.o1 = 13,28


316 SOLUCIONES DE LOS EJERCICIOS

Por lo tanto no se verifica la condición de la región de rechazo y nues-


tra conclusión e :
Aceptamos H0 =} Podemos aceptar que las dos razas son homogéneas
en u contenido en proteínas (al nivel de ignificación 0,01).

16. Disponemos de 3 muestra aleatoria (con 200 dato cada una) obre lo re-
ultados de la germinación con 3 producto diferente . El número total de
datos es n = 600.
Para decidir i los porcentaje de germinación on lo mi mos (es decir,
son homogéneos) con los tres productos, planteamos un contraste de ho-
mogeneidad, al nivel de significación a= 0,05:
H0 : «Los porcentajes de germinación son homogéneos»
H,: «Lo porcentajes de germinación no son homogéneo »
La tabla de frecuencias observadas es:

O; Germinadas No germinadas
A 190 10
B 170 30
e 180 20

La frecuencia e pecada e calculan como

obteniéodo e la siguiente tabla de frecuencias esperadas:

er Germinadas No germinada
A 1O 20
B 180 20
e 180 20

Rechazaremos H0 1 e verifica la región de rechazo:

En nue tro ca o:

Xtk-1Jcp-1J; a = Xi; o.os = 5,991


SOLUCIONES DE LOS EJERCICIOS 317

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión es:

Rechazamos H0 => Aceptamos H1 => Podemos concluir que los por-


centaje de germinación no son los mismos con los tres productos (al nivel
de significación 0,05).

17. Disponemos de 3 muestras aleatorias (con 104, 102 y 69 datos, respectiva-


mente) sobre las calificaciones de los alumnos de tre grupos de una a ig-
natura. En total, disponemos den= 275 datos.
Para decidir si los tres grupos son homogéneos en sus calificaciones,
planteamos un contraste de homogeneidad al nivel de significación
a= 0,05:

H0 : «Los grupos son homogéneos»


H 1: «Los grupos no son homogéneos»

La tabla de frecuencias observadas es:

Ol.. De0a4 De4a7 De 7 a 10


Grupo 1 34 49 21
Grupo 2 40 42 20
Grupo 3 28 31 10

Las frecuencias e perada e calculan como

obteniéndose la siguiente tabla de frecuencias esperadas:

De0a4 De 4a7 De 7 a 10
Grupo 1 38,57 46,14 19,29
Grupo 2 37,83 45,25 18,92
Grupo 3 25,59 30,61 12.80

Rechazaremos H0 si se verifica la región de rechazo:

(0..- e..)1 2 }
R = { L.¡L j IJ IJ > X cH)(p-1): a
eij
318 SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

x fk- l )(p-l );a = x i; 0,05 =9,488

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclusión es:

Aceptamos H0 :::::} Podemos aceptar que los tres grupos son homogéneos
en sus calificaciones (al nivel de significación 0,05).

18. a) Disponemo de una muestra aleatoria den= 78 cm.3, en los cuales re-
gistramos el número de virus obtenidos. El número de virus obtenidos
lo clasificamos en las siguientes clases:

{O} {l} {~ 2}

Las tres últimas clases las hemos agrupado para evitar frecuencias de-
masiado bajas.
Para decidir si el número de virus por cm. 3 sigue una distribución de Pois-
son, llevamo a cabo un contra te de bondad de ajuste, al nivel de signifi-
cación a= 0,01:

H0 : X= «Número de virus por cm.3>> - Poisson


H 1: X= «Número de viru por cm.3>>no igue una Poisson

La tabla de frecuencias observada y e peradas es:

A. {O} {1} {~ 2}
O; 45 24 9
P(A.) 0,5488 · 0,3293 0,1219
e.1 ' 42 81 25,69 9 51

donde la frecuencias esperadas, bajo H 0, han sido calculadas de la si-


guiente forma:

e.= nP(A.) = 78P(A.),


1 1 1

y los valores de P(A) se han calcul~do a partir de la tabla de la distribución


de Poi on, estimando X mediante X =x =0,58 = 0,6.
SOLUCIONES DE LOS EJERCICIOS 319

Rechazaremos H 0 si se verifica la región de rechazo:

R={L(O¡-e¡)2 >X2 }
e. k- l- r;a
1

En nuestro caso:

Xi- t- r;a = X~o,01 = 6,635

Por lo tanto, no se verifica la condición de la región de rechazo, y nues-


tra conclusión es:

Aceptamos H0 => Podemos aceptar que el número de virus por cm. 3 si-
gue una distribución de Poisson (al nivel de significación 0,01).

b) Di ponemos de una muestra aleatoria (X1, •• • , X) de X= «Número de


virus por cm. 3» - Poisson(Á), con n = 78 (muestra grande).
Queremos estimar ..l, con un nivel de confianza 1 - a= 0,95. El inter-
valo de confianza es:

I =(x±za 12 --/xl n) =(*)


En nuestro caso, tenemos:
x= 0,58
Za 12 = Zo.ozs = l, 96

Por tanto, tenemos:

(*) = (0, 58± 1,96--/0,58/78) = (0,41; O, 75)

19. Disponemos de una muestra aleatoria den= 100 individuos, y anotamos el


número de defectos congénitos de cada uno. El número de defectos congé-
nitos lo cla i:ficamos en las siguientes clases:

{O} {1} {~2}

Las cuatro últimas clases las hemos agrupado para evitar :frecuencias de-
masiado bajas.
Para decidir si el número de defectos congénitos sigue una distribución
de Poisson, Uevamo a cabo un contraste de bondad de ajuste, al nivel de
significación a= 0,01 (por ejemplo):
320 SOLUCIONES DE LOS EJERCICIOS

H0 : X = «Número de defectos congénitos» - Poisson


H 1: X= «Número de defectos congénitos» no sigue una Pois on

La tabla de frecuencias observadas y esperadas es:

A. {O} { 1} {~ 2}
84 9 7
0,7408 0,2222 00370
74,08 22,22 3,70

donde la frecuencias esperadas, bajo H0 , han sido calculadas de la si-


guiente forma:

e.1 =nP(A 1.) = lOOP(A 1.),

y los valores de P(A.)


1
se han calculado a partir de la tabla de la distribución
h

de Poisson, estimando A. mediante A. = x = 0,3.


Rechazaremo H0 i se verifica la región de rechazo:

R={~(O;
,L.,
-e,.)2 >X2 . }
lc- 1- r.a
e,.

En nue tro ca o:

xL-r;a= X~o.01 = 6,635

Por lo tanto, se verifica la condición de la región de rechazo, y nue tra


conclu ión es:
Rechazamo H0 => Aceptamos H 1 => Podemos afirmar que el número
de defectos congénitos no se ajusta a una distribución de Poi on (al nivel de
ignificación 0,01).

20. Di ponemo de una muestra aleatoria de n = 100 lámina de madera. Los


posibles espesores de e tas láminas se agrupan en 4 cla e :

A, = «Inferior a 9» A2 = «Entre 9 y 10» A3 = «Entre 10 y 11»


A 4 = «Superiora 11 »
SOLUCIONES DE LOS EJERCICIOS 321

Para decidir si la variable aleatoria X = «Espesor» se ajusta a una dis-


tribución Normal, llevamos a cabo un contraste de bondad de ajuste, al nivel
de significación a= 0,05:
H 0 : «X - Normal»
H 1: «X no sigue una Normal»

La tabla de frecuencias observadas y esperadas es:

A. «Menor que 9» «Entre 9 y 10» «Entre 10 y 11» «Superior a 11»


oi 20 38 25 17
P(A.)
1
0,2514 0,3627 0,2784 0,1075
e.1 25,14 36,27 27,84 10 75

donde las frecuencias esperadas, bajo H 0, han sido calculadas de la si-


guiente forma:

e.=
1
nP(A.)
1
= lOOP(A.), 1

y los valores de P(A.)


f
se han calculado de la forma habitual a partir de la tabla
A A

de la Normal, usando para lo parámetros las estimacionesµ= 9,7 y a= 1,05.


Rechazaremos H0 si se verifica la región de rechazo:

R={L. (O,. -e.e¡)2 > X2 k- 1- r ; a


}
1

En nuestro caso:

Xf- 1-,:a = X~o.o5 = 3,841

Por lo tanto, e verifica la condición de la región de rechazo, y nuestra


conclusión es:
Rechazamos H0 ~ Aceptamo H 1 ~ Podemos afirmar que el espesor
no se ajusta a una distribución Normal (al nivel de ignificación 0,05).

21. a) Disponemos de una muestra aleatoria de n = 200 partes, en lo cuales


registramos el número de accidentes por día. El número de accidente
diarios lo clasificamos en la iguieotes clases:

{O} {l} {2} {3} (~4}


322 SOLUCIONES DE LOS EJERCICIOS

Las tres últimas clases las hemos agrupado para evitar frecuencias de-
masiado bajas.
Para decidir si el número de accidentes diarios sigue una distribución de
Poisson llevamos a cabo un contraste de bondad de ajuste al nivel de sig-
nificación a= O, 10:

H 0 : X= «Número de accidentes diarios» - Poisson


H 1: X= «Número de accidentes diarios» no sigue una Poisson

La tabla de frecuencias observadas y esperadas es:

A. {O} { 1} {2} {3} {2::4}


O¡ 58 75 44 18 5
P(A 1.) 0,3012 0,3614 0,2169 0,0867 0,0338
e.1 60,24 72,28 43,38 17,34 6,76

donde las frecuencias esperadas, bajo H 0 , han sido calculadas de la si-


guiente forma:

e.t = nP(A.)
t
= 200P(A.),
1

y los valores de P(A¡) se han calcula__do a partir de la tab]a de la di tribución


de Poisson, estimando i mediante A = x = 1,2.
Rechazaremos H0 si se verifica la región de rechazo:

R ={"'
.t.J
(O¡ - e¡)2 > X2k-1-r; cr }
e;

En nuestro caso:

x t - 1- r;a = x J:0,10 = 6,251

Por lo tanto, no se verifica la condición de la región de rechazo, y nues-


tra conclusión es:
Aceptamo H0 ~ Podemo aceptar que el número de accidentes diarios
sigue una di tribución de Poisson (al nivel de significación 0,10).

b) Disponemo de una mue tra aleatoria (X1, ••• X) de X= «Número de ac-


cidentes diarios» - Pois on(A) con n = 200 (muestra grande).
SOLUCIONES DE LOS EJERCICIOS 323

Queremos saber si hay suficiente evidencia estadística para afirmar que


A< 1,35. Lo tomaremos como hipótesis alternativa y efectuaremos un con-
traste de H0: A 2:: 1,35 frente a H,: A. <1,35, al nivel de significación a= 0,05.
La región de rechazo es:

En nuestro caso, tenemos:

x-Au = 1,2-1,35 =--0,15


Zi-a~Au In= Zo,95 --Íl,35/200 =-Zo.os--Íl,35/200 =(-l,64)--Íl,35/200 =--0,135
Se cumple la región de rechazo, y la conclusión es:

Rechazamos H0 ~ Aceptamos H 1 :::} Hay suficiente evidencia estadís-


tica para afumar que A.< 1,35 (al nivel de significación O 05)
Para contestar a la pregunta sobre el p - valor, recordemos que el p - va-
lor e suele interpretar como el apoyo que los datos proporcionan a H0 ; de
manera más concreta, se rechaza H0 cuando el p - valor es inferior al nivel
de significación. En este caso hemos rechazado H0 (al nivel 0,05) y, por tan-
to elp- valor es inferior a 0,05.

22. Disponemos de una muestra aleatoria de n = 233 niños clasificados según


dos características: «Tener o no tos aguda» y «Padecer o no tos ferina».
Para decidir si existe relación entre estas dos características, planteamos
un contraste de independencia, al nivel de significación a= 0,01:

H 0: «Las dos características son independientes»


H,: «Existe relación entre las dos característica »

La tabla de frecuencias observada e :

Tiene tos aguda No tiene tos aguda


Padece tos ferina 112 6
No padece tos ferina 83 32

Las frecuencias esperadas se calculan como


324 SOLUCIONES DE LOS EJERCICIOS

obteniéndo e la siguiente tabla de frecuencia e perada :

e .. Tiene tos aguda No tiene to aguda


'
Padece tos ferina 98,76 19,24
No padece to ferina 96,24 18,76

Rechazaremos H 0 i se verifica la región de rechazo:

(0.. - e .. )2 2 }
R = { L¡L j ') eij I) > Xck- l )(p-l);a

En nuestro caso:

X t-,><p-1); a = X~o.01 =6,635

Por Jo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión e :

Rechazamos H 0 => Aceptamos H 1 => Podemos concluir que exi te


relación entre tener tos aguda y padecer tos ferina (al nivel de significa-
ción 0,01).

11. Regresión y diseño de experimentos


l. a) En primer lugar queremos ajustar un modelo de regre ión lineal imple
y= S0 + S1x, donde:

cov
.x; /J, = b cov X, Y
A

/30 = a= y- ----5.1.
A

=--
vr vx

En nue tro caso:

x = 1,46; y= 1,02
vr = !rr. x;- nx2 ] = 0,029
n
SOLUCIONES DE LOS EJERCICIOS 325

vY = .!.[¿y¡ - ny2] = 0,054


n

. = .!.[LX;Y;
COY x Y
n - nxy] = -0, 038

Por tanto:

A A

y=/30 +/31x=l,02-
-o' 038 (1,46)+ -O' 038 x=2 93-1,31x
0,029 0,029

b) Queremos contrastar H0 : /31 ~ O frente a H 1: /31 <0 al nivel a= 0,05, Re-


chazaremos H 0 si se verifica la región de rechazo:

En nuestro caso:

s~ = -n -2
1 - I(y; -y¡) 2 = 0,006
A

/31 = - 1,31 = - 7 055


SR ~ l/(nvx) -J0,006 ~ 1/(6)(0,029) '
tn-2;1-a = t4 ;0,95 = -t4;0,05 = -2,132

Por tanto, se cumple la condición de la región de rechazo, y nuestra con-


clu ión e :

Rechazamos H 0 => Aceptamo H , =>


Podemos concluir que /31 < O (al nivel de significación 0,05).

e) El intervalo de confianza al 90% para la resistencia media cuando la


tasa agua/cemento es 1,5 es de la fonna:

[
-
- [ A
- t,,_2;a/2 s.R
Yo + .!. + (x0 -.x) 2 ] -
-
n nvx

= [ O 965 ± (2 132).jO 006 .!.+ (l, 5 - l, 46) 2 ] =


' ' ' 6 (6)(0, 029)
= [O, 965 ± O, 069] = [O, 896; 1,034]
326 SOLUCIONES DE LOS EJERCICIOS

La amplitud del intervalo de confianza correspondiente a la tasa 0,3 seña bas-


tante mayor, ya que el valor 0,3 está mucho más alejado de :X que el valor 1,5.

2. a) En primer lugar queremos ajustar un modelo de regresión lineal simple


fi
y= fia + 1x, donde:

/3",_- b
_ COY
---
x, y

v.,,

En nuestro caso:

x= 4; y= 5,79
v.,,= .!..[I,x¡- n.x2 ]= 6,67
n
vy = .!..cr.
n
y¡- ny 2] = 0,628

COVx
.
y= .!..[L
n
X¡y¡- nxy]= 2,04

Por tanto:

" " 204 204


y= /30+ /31x= 5,79--'-(4)+-'-x =4,56+0,31x
6,67 6,67

b) Ahora tenemos que deshacer los cambios para obtener el modelo de re-
gre ión exponencial que realmente nos interesa:

y = 4,56+03Ix => logNx= 4,56+0,31x => Nx =95,58eª·31x

e) Queremos contrastar Ha: /31 = O frente a H 1: /31 '# O al nivel a= 0,05.


Rechazaremos Ha si e verifica la región de rechazo:

En nuestro caso:

s; = -1-I.(y¡ - y¡)2 = 0,0052


n-2

/31 -1
0,31
SR~l/(nv.,,) - .Jo,0052.J11(9)(6,67)
33,31

tn -2; a/2 = t1; a,a25 = 2,365


SOLUCIONES DE LOS EJERCICIOS 327

Por tanto, se cumple la condición de la región de rechazo, y nuestra con-


clusión es:

Rechazamos H0 ~ Aceptamos H 1 ~
Podemos concluir que /31 '* O (al nivel de significación 0,05).

3. Para predecir la longitud (Y) en función de la anchura (X) podemos ajustar


un modelo de regresión lineal simple. La correlación entre ambos caracter~s
no~ indicará la bondad de este ajuste. El modelo de regresión lineal es y = /30
+ {31x, donde:

" cov " COV x,y


f3o = a= y-~x; f31=b= - -
v., v.,

En nuestro caso:

x=19,5; J=37,37
1 - 2 ]=8
vx=-[Lx(-n.x
n
vy = .!_[L y( - ny2]= 22,61
n
COV x,y = .!_[L X;Y;- nxy]= 12,91
n

Por tanto:

" " 12,91 12,91


y= /10 + /11:x = 37,37---(19,5)+--x = 5 90 +l,6Ix
8 8

El coeficiente de correlación es:

r. = covx,y = 12,91 =o 96
x,y ~ vxvy ..j(8)(22,61) '

Este valor es muy próximo al, lo cual indica que el modelo de regresión
lineal es muy adecuado para predecir la longitud en función de la anchura.

4. Se quiere estudiar si el factor «fumar en mayor o menor grado» influye so-


bre la variable de re puesta X= «Capacidad pulmonar». Si aceptamo
328 SOLUCIONES DE LOS EJERCICIOS

que, en cada grupo, las mediciones siguen distribuciones (aproximada-


mente) oormale y las varianzas son (aproximadamente) iguales, entonces
estamos en las hipótesis del modelo de diseño de experimentos con un fac-
tor, y podremo contra tar i lo niveles medios de capacidad pulmonar son
inulares en los diferente grupos o no. Dicho de otra manera: podremos
estudiar si el factor «fumar» (el único que estamos considerando) influye o
no en la capacidad pulmonar (que es la variable que observamos). Plante-
amos un contraste de hipótesis, al nivel de significación 0,01 (por ejemplo),
obre:

H0 : a 1 = ... =a"'= O (el factor no influye)


H 1: Algún aí e di tinto de cero (el factor influye)

Rechazaremos H0 si se verifica la región de rechazo:

_ ¡ ~"'
_
R - F - ~~,
e- -
L,¡=¡n¡ X¡. - X ..)2

m-1
~n 1 ( ••
L,,=1 L,1= 1 x,1
n- m
_ - .
x ,_
)2
>
F:n-l; n- m;a
¡
En nuestro caso, tenemos:

~m -
-
X .. --
L,i= I lt¡X¡ 3 14
· -- '
n
I.;: 1 n;(x;.- x_.)2 = 368,80
I.;: 1 I,1~1(x;¡ - x;) = I;: 1(n; -
2 l)s( = 1669,17

La tabla de análi i de la varianza queda de la siguiente forma:

Suma de Cuadrado
Fuente de variación cuadrados G.l. medio Estadístico
Entre grupo 368,80 5 73,76 F= 92,54
Dentro de lo grupo 1.669,17 2.094 0,7971
Total 2.037,97 2.099

Por otro lado:

f;,,_J; 11- m;a = F;;2094;0,0I = F;;= ; 0,01 = 3,0173


SOLUCIONES DE LOS EJERCICIOS 329

Por lo tanto, se cumple la condición de la región de rechazo, y la con-


clusión es:
Rechazamo H 0 => Aceptamos H , => Podemos concluir que el hecho de
ser fumador en mayor o menor grado afecta a la capacidad pulmonar (al ni-
vel de significación 0,01).

5. a) Codificando los años como se sugiere, los datos quedan de la siguiente


forma:

X o 1 2 3 4 5 6 7 8 9
Y 26 3 26,1 24,7 22,8 22,1 20,4 19,0 17,7 19,3 17,5

En primer lugar queremos ajustar un modelo de regresión lineal imple


y= S + S,x, donde:
0

11. _ _ COV x, y
/JI - b- - -
Vx

En nuestro caso:

x=4,5; y= 21,59
vx = .!..[L x¡- nx 2 ] = 8,25
n
Vy = .!..u::. y¡- ny 2 ]= 9,91
n
COV x Y=

.!..r:r.
n
X ;Y; - nxy] = -8, 74

Por tanto:

" " -8 74 -8 74
y= /30 +/31x =21,59- - ' - (4,5)+ - ' -x= 26,36 - 1,06x
· 8,25 8,25

b) En e te apartado, estudiaremos si hay suficiente evidencia estadística


para afirmar que /31 < O. Tomaremos esto como hipótesis alternativa, de
modo que contrastaremos H 0 : /31 ~ O frente a H 1: /31 <0 al nivel de signi-
ficación a= O 05. Rechazaremos H 0 si se verifica la región de rechazo:

R={ SR"11f(nvx)
/3, <t 11-2;1- a
}
330 SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

s; =_!_
n- 2
I.(y¡ -y¡) 2 = 0,81

[3, = -1, 06 = -10 70


SR~l/(nvx) .J0,81..jl/(10)(8,25) '
tn-2; 1-a = ts; 0.95 = -ts;0,05 = -1, 860

Por tanto, se cumple la condición de la región de rechazo, y nuestra con-


clusión es:

Rechazamos H0 ~ Aceptamo H 1 ~ Podemos concluir que la tasa de


enfermos tiende a decrecer (al nivel de significación 0,05).

6. a) En primer lugar queremos ajustar un modelo de regresión lineal simple


fi fi
y = 0 + 1x, donde:

A cov x,y
/31 = b = - -
vx

En nuestro caso:

.x= 13; y= 51
vx = .!._[I.
n
xt- n.x J= 9 2

vy = .!._[L l - ny 2 ] = 137,33
n

cov x
. >' = n.!.rr X¡Y; - nxy] = 33,33

Por tanto:

33,33 33,33
y= /30 + /31x
A A

= 51- - -(13) +- -x = 2,86 + 3, 70x


9 9

b) En este apartado, estudiaremo si hay suficiente evidencia e tadí tica


para afirmar que /31 > O. Tomaremos esto como bipóte is alternativa, de
modo que contrastaremo H 0 : /31~ O frente a H 1: /31> O al nivel de sig-
n.ifi.cación a= O 05. Rechazaremos H0 si se verifica la región de rechazo:
SOLUCIONES DE LOS EJERCICIOS 331

En nuestro caso:

Si = - 1- I, (Y; - y¡) 2 = 20, 82


n-2
3,70
5 96
-./20, 82-./1 /(6)(9)
tn- 2;a = t4; 0,0S = 2,132

Por tanto, se cumple la condición de la región de rechazo y nuestra con-


clusión es:

Rechazamos H 0 ===> Aceptamos H 1 ===> Podemos afirmar que la producti-


vidad tiende a aumentar con la intensidad de regadío (al nivel de significa-
ción 0,05).

7. Se quiere estudiar si el factor «lugar» influye sobre la variable de respuesta


X== <<Nivel de oxígeno en disolución». Si aceptamos que, en cada lugar, las
mediciones siguen distribucione (aproximadamente) normales y las va-
rianzas son (aproximadamente) iguales, entonces estamos en las hipótesis
del modelo de diseño de experimentos con un factor, y podremos contrastar
si los niveles medios de oxígeno en disolución son símilares en los cuatro
Jugare o no. Dicho de otra manera: podremos estudiar si el factor lugar (el
único que estamos considerando) influye o no en el nivel de oxígeno en di-
solución (que es la variable que observamo ).
Planteamos un contraste de hipótesi , al nivel de significación 0,01
sobre:

H0 : a,= .. . == a,,,== O (el factor no influye)


H 1: Algún a; es distinto de cero _(el factor influye)

Rechazaremos H0 si se verifica la región de rechazo:

R= {F=
~"' e- - )2
_¿,,i=lni X¡.-X •.

~ '." ~~¡ (
m-1
.. _ - . )2
¿,,= J _¿,, ¡ = I XIJ X,.
>F
m- l ;n- m;a
¡
n-m
332 SOLUCIONES DE LOS EJERCICIOS

La tabla de análisis de la varianza queda de la forma:

Suma de Cuadrado
Fuente de variación cuadrados G.l. medio E tadístico
Entre grupo 6,0815 3 2,0272 F= 76115
Dentro de lo grupo 0,3995 15 0,0266
Total 6,4810 18

Por otro lado:

Fm - l;n-m; a= F 3; 15;0,0I = 5,4170

Por lo tanto, se cumple la condición de la región de rechazo, y la con-


clusión es:

Rechazamos H0 => Aceptamos H, => Podemos concluir que existen


diferencias significativas en la cantidad media de oxígeno en disolución en
lo cuatro lugares observados (al nivel de ignificación 0,01).

8. Se quiere estudiar si el factor «grupo» in.fluye sobre la variable de respuesta


X= «Calificación». Si aceptamos que, en cada grupo, las calificaciones si-
guen di tribucione (aproximadamente) normales y las varianzas son (apro-
ximadamente) iguales, entonces estamos en las hipótesis del modelo de di-
seño de experimentos con un factor, y podremo contra tar si la
calificaciones medias son similares en los diferentes grupo o no. Dicho de
otra manera: podremos estudiar si el factor «grupo» (el único que estarna
considerando) in.fluye o no en la calificación (que es la variable que obser-
vamos). Planteamo un contraste de hipótesis, al nivel de significación
0,05, obre:

H0 : a 1 = ... = am = O (el factor no influye)


H 1: Algún a,. es distinto de cero (el factor influye)

Rechazaremos H0 i se verifica la región de rechazo:

~i=t
~m e- -
n,. x,.. - x .. )2 )
(
R= F = ¿"' ¿''.~(l.--.)2 >F,n- 1:n-m;a
r=l J= I X'l X, .

n- m

En nue tro ca o, tenemo :


SOLUCIONES DE LOS EJERCICIOS 333

r::. n¡(X¡_- x.Y = 10, 93


r:1 L1~1(X¡¡ - X¡/= r:1(n¡-l)s; = 1785,17
La tabla de análisis de la varianza queda de la siguiente forma:

Suma de Cuadrado
Fuente de variación cuadrados G.l. medio Estadístico
Entre grupos 10,93 3 3,64 F= 0,72
Dentro de los grupos 1.785,17 351 5,09
Total 1.796,10 354

Por otro lado:

Fm- l· n-m·a
1 ,
= F:i-351· 0 05 ~ F:i-=· O 05 =2,6049
1 , 1 t t t

Por lo tanto, no se cumple la condición de la región de rechazo, y la con-


clusión es:

Aceptamos H0 => No hay diferencias importantes en las calificaciones


medias de los cuatro grupos (al nivel de significación 0,05).

9. a) En este apartado, disponemos de una muestra aleatoria (X1, ••• , X) de X


= «Tiempo que emplea un hombre en la compra» - N(µ; a), con n = 64.
Intervalo de confianza para estimar el tiempo medio que emplea un
hombre en la compra, µ, con un nivel de confianza 1 - a= 0,90:

/-(-+- X - tn- l;a/2 .J;;.


s - )-(*)
Tenemo:

tn-1; a/2 = !63; 0,05 ~ t60;0,05 =1,671

Ahora, podemos continuar:

(*) =(33±(1,671) ~ )=(30,66-35,34)


334 SOLUCIONES DE LOS EJERCICIOS

b) En e te apartado disponemo de una muestra aleatoria (X1, ••• , Xm) de X


=«Tiempo que emplea un hombre en hacer la compra», de tamaño m =
64, y de otra muestra aleatoria (Y1, • • • , Y) de Y= «Tiempo que emplea
una mujer en hacer la compra», de tamaño n = 10. Asumimos que X -
N(µ 1,a1) , que Y - N(µ2,a2) , que a 1 = a2, y que las muestras son inde-
pendiente (ya que los datos no van emparejados).
Queremos aber si se puede concluir (al nivel de significación a=
0,10) que µ 1 > µ,_. Tomaremo esto como bipótesis alternativa, de modo que
planteamos un contraste de H 0 : µ 1 ~ µ 2 frente a H 1: µ 1 > µ2 , al nivel de sig-
nificación a= 0,10.

Rechazaremo H0 si se verifica la región de rechazo:

En nuestro caso:

x- y=33 - 30 = 3
s = (m - l)s~ + (n - l)s; = 11 08
P m+n - 2 '
t l32; 0,IO ~ tl 00; 0,10 = 1,290

Por lo tanto, se verifica la condición de la región de rechazo y nuestra


conclusión es:

Rechazamos H 0 ~ Aceptamos H 1 ~ Concluimos (al nivel de signifi-


cación 0,10) que el tiempo medio que emplean los hombres e superior al de
las mujeres.

e) Finalmente, en este apartado se quiere estudiar si el factor «grupo de


edad» influye sobre la variable de respuesta X = «Tiempo que tarda
una mujer en hacer la compra». Si aceptamos que, en cada grupo, los
tiempos siguen distribuciones (aproximadamente) normales y las va-
rianzas son (aproximadamente) iguales, entonces e tamos en las bi-
póte is del modelo de di eño de experimentos con un factor, y podre-
mos contrastar si los tiempos medios son similares en los diferente
grupos o no. Dicho de otra manera: podremos estudiar si el factor
«grupo de edad» (el único que estamos considerando) influye o no en
SOLUCIONES DE LOS EJERCICIOS 335

el tiempo en hacer la compra (que es la variable que observamos).


Planteamos un contraste de hipótesis, al nivel de significación 0,05,
sobre:

H 0 : a 1 = ... = am =O (el factor no influye)


H 1: Algún a1 es distinto de c~ro (el factor influye)

Rechazaremos H 0 si se verifica la región de rechazo:

_{ _ ·
R- F -
""'m eX¡- . - X-.. )2
"'-i=Jni

°"'~' °"'~
"'-1=1 "'-J=I
m-1
1 ( .. _
x,J
- .
X,.
)2
>F
¡
m- l;n- m;a

· n-m

En nuestro caso, tenemos:

""'"i=I' n;X¡_-
x = "'- 27,43
.. n
I;: 1 n;(x;. - x.i = 298,57
I ;'! 1 LJ'.= 1(x¡¡ - X¡_)2 = I ;'! 1(n¡- l)s¡ =3890

La tabla de análisis de la varianza queda de la siguiente forma:

Suma de Cuadrado
Fuente de variación cuadrados G.l. medio Estadístico
Entre grupos 298,57 ' 2 149,3 F= 1,23
Dentro de los grupos 3.890 32 121,56
Total 4.188,57 34

Por otro lado:

Fm- l"n-
t m·r a =fi -32· 0 05 ~ Jii-30· 0 05 =3,3158
1 1 , 1 J l

Por lo tanto, no se cumple la condición de la región de rechazo, y la con-


clusión es:

Aceptamos H 0 => No hay diferencias importantes (al nivel de significa-


ción 0,05) entre los tiempos medios empleados para hacer la compra en lo
tres grupos.
336 SOLUCIONES DE LOS EJERCICIOS

10. a) En primer lugar queremos ajustar un modelo de regresión lineal simple


fi fi
y = 0 + 1x, donde:

cov cov
/3,-
A A

/30 =a= y-~x· - b-


- ~
V _. V_.

Estarna asumiendo las hipótesis habituales de este modelo: normalidad,


igualdad de varianzas, linealidad.
En nuestro caso:

x= o,4951; y= 11,876
v_. 1 ~ 2 -nx-2 ]= 0,0o38
= -["-'x;
n

vy = !cI.
n
y;- ny = 0,5310
2]

cov_.,Y = ..!..[LX;Y;-nxy]= O 0409


n

Por tanto:

= /JA + /JA x = 11 876- 0,04 09 (O 4951)+ 0,0409 x = 6 55 + 10 76x


y o 1 , o, 0038 o, 0038 , '

b) En e te apartado, estudiaremos si hay suficiente evidencia estadística


para afirmar que /31 > O. Tomaremo e to como hipótesis alternativa, de
modo que contrastaremos H 0 : /3 1 :s; O frente a H 1: /31 > O al nivel de ig-
nificacióo a= 0,01 . Rechazaremos H0 si se verifica la región de rechazo:

En nuestro caso:

/3, 10,76 = 5 52
(O, 38).Jl /(10)(0, 0038)
t,,_2; a = ts;0.01 = 2,896

Por tanto, se cumple la condición de la región de rechazo, y nuestra con-


clusión es:
SOLUCIONES DE LOS EJERCICIOS 337

Rechazamos H0 => Aceptamos H 1 => Los datos proporcionan sufi-


ciente evidencia e tadística de que la resistencia tiende a aumentar con la
densidad de la madera (al nivel de significación 0,01).

11. Se quiere estudiar si el factor «especie» influye sobre la variable de res-


puesta X= «Duración del canto». Si aceptamos que, en cada especie, las
duraciones siguen distribuciones (aproximadamente) normales y la va-
rianzas son (aproximadamente) iguales, entonces estamos en las hipóte-
sis del modelo de diseño de experimentos con un factor, y podremos con-
trastar si las duraciones medias del canto son similares en las tre
especies o no. Dicho de otra manera: podremos estudiar si el factor «es-
pecie» influye o no en la duración del canto (que es la variable que ob-
ervamos). Planteamos un contraste de hipótesis, al nivel de significación
0,05, sobre:

H 0 : a 1 = ... = am = O (el factor no influye)


H 1: Algún a; es distinto de cero (el factor influye)

Rechazaremos H0 si se verifica la región de rechazo:

¡
R= F =
"m e- - )2
ki= l n i X¡.-X . .

¿,'." L,~~(~.--. )2
r= I J= I X,1 x,.
>Fm- 1:n- m;a
¡
n-m

En nuestro caso, tenemos:

-
X
-
.. -
"'" -
k¡: ¡ n¡X¡ . - 113
- '
n
I.;: 1 n;(x;. - x_.)2 = 7,81
I.;: 1 I. 1~1(xij - x;,) 2 = I;: 1(n; - l)s¡ = 1,0343

La tabla de análisis de la varianza queda de la siguiente forma:

Suma de Cuadrado
Fuente de variación cuadrados G.l. medio Estadístico
Entre grupos 7,81 2 3,9050 F= 109 38
Dentro de los grupos 1,0343 29 0,0357
Total 8,8443 31
338 SOLUCIONES DE LOS EJERCICIOS

Por otro lado:

Fm- 1:n-m:a = F;; 29;0,05 =3,3277

Por lo tanto, se cumple la condición de la región de rechazo, y la con-


clusión es:

Recbazamo H 0 ~ Aceptamo H 1 ~ Hay diferencia significativas (al


nivel de significación 0,05) entre la duraciones medias de los cantos de las
tres e pecies.

12. a) En primer lugar queremos ajustar un modelo de regresión lineal simple


S S
y = 0 + 1x, donde:

/3"i_- b
_ COV
---
x ,y

vx

En nuestro caso:

x= 0,325; y= O, 755
vx = .!:.n [I x¡- nx 2] = o, 0206
vy = _!:_[L yt- ny2 ] = 0,0372
n
cov x
.
Y= .!.[L
n
X;Y; - nxy] = -0,0271

Por tanto:

= R 0,0271 (0 325)+ -0,0271 x=l 18-132x


+/3"1x=O' 755- -0,0206
y JJO ' 0,0206 , ,

b) En este apartado estudiaremos si hay u:ficiente evidencia estadística


para afirmar que /31 < O. Tomaremos esto como hipótesis alternativa, de
modo que contrastaremo H0 : /31 ~ O frente a H 1: /31 < O al nivel de sig-
nificación a= 0,05. Rechazaremos H0 si e verifica la región de rechazo:
SOLUCIONES DE LOS EJERCICIOS 339

En nuestro caso:

/31 = - 1, 32 = - 13 31
SR -Jll(nvx) (0, 045),Jl/(10)(0,0206) '
t n-2: l-cr = ts;0.95 = - ts:0,05 = -1,860
Por tanto, se cumple la condición de la región de rechazo, y nuestra con-
clusión es:

Rechazamos H 0 :::::} Aceptamos H 1 ===} Podemo afirmar que la propor-


ción de supervivientes tiende a disminuir cuando aumenta el tiempo de ex-
posición (al nivel de significación 0,05).

13. a) Disponemos de una muestra aleatoria (X1, ... , X), de tamaño m = 10,
de X = «Peso de varones adultos de A», y de otra muestra aleatoria (Y1,
... , Y), de tamaño n = 12, de Y= «Peso de varones adultos de B». Asu-
mimos que X - N(µ 1; o) Y - N~; a 2) y que a 1 = a2• Además, po-
demos considerar que las muestras son independientes (lo datos no van
emparejados).
Queremos saber si se puede considerar estadísticamente probado (al
nivel a= 0,10) que µ 1 < ~- Tomaremos esto como hipótesis alternativa, de
modo que planteamos un contraste de H 0 : µ 1 ~ ~ frente a H 1: µ 1 < ~. al ni-
vel de ignificación a= 0,10.
Rechazaremos H 0 si e verifica la región de rechazo:

R= {x-y < tm+n-2; 1-as p ~ ~ +~}


En nuestro caso:

x - y= 70 5 - 71 = -0,5
s = (m - l)s¡ + (n - I)s; =2 70
P m +n - 2 '
t20; 0,90 = - t20; 0,10 = - 1,325

Por lo tanto, no se verifica la condición de la región de rechazo y nues-


tra conclusión es:
340 SOLUCIONES DE LOS EJERCICIOS

Aceptamos H 0 =} No se puede considerar estadísticamente probado (al


nivel de significación 0,10) que el pe o medio en A e menor que en B.

b) Se quiere estudiar si el factor «ciudad» influye sobre la variable de res-


pue ta X= «Pe o de un varón adulto». Si aceptamos que, en cada ciu-
dad los pesos siguen distribuciones (aproximadamente) normales y
las varianzas on (aproximadamente) iguales, entonces estamos en las
hipótesis del modelo de di eño de experimentos con un factor, y po-
dremos contrastar si los pe os medio on similares en las cuatro ciu-
dades o no. Dicho de otra manera: podremos estudiar si el factor «ciu-
dad» influye o no sobre el peso de los varones adultos (que es la
variable que ob ervamo ). Planteamo un contraste de hipótesis, al ni-
vel de significación 0,10, obre:

H 0 : a 1 = ... = a111 = O (el factor no influye)


H 1: Algún a; e distinto de cero (el factor influye)

Rechazaremos H0 si se verifica la región de rechazo:

{
R = F=
,~,.
"""' e- - )
¿,,i= lni X ¡,- X .. 2

~~,
m (- l.. _ -. )2 >F111- l; ll- m; a
¿,,,= I ¿,,1= 1 XIJ X ,.
¡
n- m

En nuestro caso, tenemos:

"'C"m -
x = _¿_, i= 1 n ;X ;. 71, 2826
.. n
r ~:.n¡(x¡_ - x.) = 226,8261
2

I.;':,, I %, (x;¡- .x;_)2 = I ;: 1(n; - l)s; = 307, 2

La tabla de análisis de la varianza queda de la iguiente forma:

Suma de Cuadrado
Fuente de variación cuadrados G.l. medio E tadí tico
Entre grupos 226,8261 3 75 6087 F= 10,34
Dentro delo grnpo 307,2 42 7,3143
Total 534,0261 45

Por otro lado:

F,11-1 ;11-m;cc = 1';;42;0,IO ~ i,;;40; 0,1 0 = 2, 2261


SOLUCIONES DE LOS EJERCICIOS 341

Por lo tanto, se cumple la condición de Ja región de rechazo, y la con-


clusión es:

Rechazamos H 0 ~ Aceptamos H 1 ~ Hay diferencias significativas (al


nivel de ignifi.cación O, 1O) entre los pe os medios de lo varones adultos de
las cuatro ciudades.
Tablas
TABLAS 345

TABLA 1
Distribución binomial B(n; p)

P(X = k)= (:)lq•-k


,,¡ klp 0,01 b,OS 0,10 0, 15 0,20 0,25 0,30 1/J 0,35
º·'º 0,45 0 ,49 0,50

20 0,9801 0 ,9026 0,8100 0,7225 0,6400 0,5625 0 ,4900 0,4444 0 ,4225 0 ,3600 0 ,3025 0 ,2601 0, 2500
1 0 ,0198 0,0950 0,1800 0 ,2550 0 ,)200 0,3750 0.4200 O,HH 0 ,4550 0 ,4800 0 ,4950 0,4998 0,5000
2 0,0001 0 ,0025 0,0100 0,0225 0,0400 0,0625 O.O'IOO 0.11 11 0 .1225 0.1600 0,2025 0 ,2401 0,2500

30
1
0,970l
0,0294
0.8574 º·
72'1()
0,1)54 0 ,2430
0 ,6 141
0 ,3251
0 ,5120
0,3840
0.4219
0,4219
0 .1410
0,4410
0.296J
0,4444
0,2746
0,4436
0,2160
0,020
0,1664
0,4084
O, ll27
O,l8H
0,1250
0,3751
2 0,0003 0.0071 0,0270 0,0574 0,0960 0,1406 0 , 1890 0 ,2222 0,2J~g 0,2880 O,H41 0,3674 0,1150
3 0,0000 0 ,0001 0,0010 0.0034 0,0080 0,0156 0.0270 0 .0l70 0,0429 0,0640 0,0911 0,1176 0,1250

40 0,9606 0,8145 0 ,6561 0,5220 0,4096 0,3164 0.2401 o,1g15 0, 1785 0. 12'16 0,0915 · 0 ,0677 0.062S
l 0,0388 0. 1715 o,2g16 0 ,)685 0 ,4096 0,4219 0,4116 0 ,195 1 0,3845 0,)<56 0,2995 0 ,2600 0,2SOO
2 0,0006 O,Oll5 0,0486 0 ,0975 0 , 1516 0,2109 0,2646 0.296} 0,310 5 0,;456 0,)675 0,3747 O,l750
3
4
0,0000
0,0000
0.0005
0,0000
0,0036
0,0001
0,0115
0,0005
0 .0256
0,0016'
0 ,0469
0,00)9
0,0756
0,0081
0,0988
0.012)
º· 111 5
0,0150
0,15)6
0,0256
0,2005
0,0410
0,2400
0 ,0516
0,2500
0 .0625

so 0.95 10 0,77)8 0,5'l05 0,44)7 0 ,)277 0.2l73 0,1681 0,1)17 0 ,1160 0,0778 U.OSOl O,OH5 Ó,0)12
l 0,0480 0 .2036 0, )280 0,)915 0 .4096 0 ,3955 0.3602 0.32'12 0 ,3124 0,2592 0 .2059 0,1657 0 ,1562
2 0,0010 0,02 14 0,0729 0,1)82 0,2048 0 .2637 0 ,3087 0 .}292 o ,; J64 0,3456 0 .3169 o.11ss 0.3125
J 0 ,0000 0,0011 0,0081 0,0244 o.Os12 0 .0879 O, ll2J 0, 1646 0. 1~11 0,2)04 0,2757 0 ,3060 0,)125
4 0.0000 0.0000 0.0004 0,0022 0,0064 0,0146 O.o284 0,04 12 0 .041!8 0,0768 0, 1128 0 , 1470 0,1 562
5 0.0000 0,0000 0.0000 0 ,0001 0,0003 0,0010 0,0024 0 .004 1 O.OOSl 0 .0102 0 .0185 0 ,028:Í 0.0312

60 0,9415 0,7J51 0,5}14 0 ,3771 0 ,2621 0,1780 0,1 176 o .08711 0,0JS4 0,0467 0,0277 0 ,0176 0 ,0 156
l 0,0511 0,232 1 O,l54l 0,399) 0,19}2 0,)560 0.1025 0,2614 0,2H7 0,1866 0, 1359 0 ,1014 0 .0938
2 0,0014 O.OJOS 0,0984 0,1762 0,24n o.2966 0,12(1 0 ,}292 O,l 2RO 0.}110 0,2780 0 ,2417 0 .2J«
J 0,0000 0.0021 0,0146 0 .0415 0.0819 0,ll18 0,1852 0,2195 0 ,2155 0,2765 0,)0l2 0.112 1 0,)125
4 u.0000 0 ,0001 0,0012 0,0055 0 ,0 154 o.ono 0,0595 0 .0823 0 ,0951 O, ll82 0, 11161 0 .2249 0,2)44
s 0,0000 0.0000 0,0001 0,0004 0 ,0015 0,0044 0.0102 0 .0165 0,0205 0,0:169 0 ,0609 0 ,0864 0,0918
6 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0 ,0014 0 ,0018 0 :0041 0,008) 0 .0119 0 ,0 1$6
- --
70 0,9121 0.6981 0.4781 0.1206 0.2097 -O, UJ5 0 ,0824 O,OS8S 0,0490 0.02110 0,0152 O.OO'lO 0 .0078
1 0 ,0659 0 ,2573 0,17200,3960 0,,3670 O.l115 0.2471 0,2048 0,1848 0 ,1306 0,0872 0 ,0601 0,0541
2 0.0020 0 ,0406 ,0 ,1140
0,2097 0 ,275} O,JI 15 0,)177 0 ,1073 0 .2985 0,2613 0,2140 0 .1 740 0 ,1641
3 0,0000 0,0036 0,02300 ,0617 0 ,1147 0,1730 0 ,2269 0 .2561 0,2679 0 ,2903 0 , 19 18 0,2786 0 ,27l4
4
5
0,0000
0.0000
0 ,0002
0 .0000
0,0026
0,0002
0 ,0109
0,0012
0 ,0287
0,0041
0,0577
0,0115
0 ,0972
0.0250
0.1280
0 ,0)84
º·
1442
0.0466
0, 19)5
0 ,0774
0 ,2388
0,1 172
0,2676
0 ,1 54]
0 ,27)4
0, 1641
6 0,0000 0,0000 0,00000 .0001 0,0004 O,OOIJ 0,0016 O,OOl>4 0,00,.4 0 ,0 17Z 0,0320 0,0494 0 ,0547
7 0 ,0000 0 ,0000 0,0000 0,0000 0.0000 0 ,0001 0.0002 0 ,0005 0,0006 0,0016 0,0037 0 .0068 0,0078

8 O 0,9121 0,6614 0;4105 0 ,2125 0 ,1678 0,1001 0,0576 0 ,0190 0,0}19 0 ,0 168 0,0084 0 ,0046 0 ,0019
1 0 ,0746 0,2791 O,JS26 0,1847 O,H55 0,2670 0 , 1977 0,1561 0 , l l7l 0 .0896 0,0548 0,0352 0.01 12
2 0,0026 0,05 15 0,1488 0,2)76 0,2916 O,l1U 0,2965 0.27J 1 0 ,2;5 7 0,2090 0, 1569 0 ,118) 0.1094
J 0 ,0001 0,0054 o.om 0 ,0839 0,1468 0 ,2076 0,25(1 0,2711 0 .2786 0,2787 0 ,2568 0,2271 0 ,2188
4 0,0000 0 .0004 0,0046 0,0185 0 ,04S9 0 ,0865 O, ll61 0 ,1707 0, 1875 0,2122 0,2627 0 ,2730 0 ,2JJ4
s 0,0000 0 ,0000 0,0004 0,0026 0 .0092_ 0,02;1 0,0467 0,9683 0 ,0808 0 ,12l9 0,1719 0,2008 0 ,2 1811
6 0,0000 0.0000 0,0000 0.0002 0 ,0011 0,0038 0.0100 0,0171 0.02 17 0,041} 0,070) 0 ,1008 0 ,1094
7 0,0000 0.0000 0,0000 0,0000 0,0001 0,0004 0,0012 0,0024 O,OOJJ 0,0079 0,0164 0,0277 0.0) 12
8 0 ,0000 0,0000 0,0000 0,0000 0 ,0000 0,0000 0 ,0001 0,0002 0,0002 0,0001 0,0017 o.oon 0 .0039

99 0,9115 0 .6l02 0,1874 0,2116 O,IJ42 0,07,t 0,0404 0 ,0260 0 ,0207 0,0101 0,0046 0,0021 0.0020
f 0,08l0 0,2985 0,)874 0,)679 0,3020 0 ,22Sl 0,1556 0 , 11 71 0 ,1004 0,060S 0 ,0139 0.0202 0,0176
2 0,0034 0 ,0629 0,1722 0,2597 0,3020 0,lOOJ 0,2668 0 ,234 1 0 ,2 162 0,1612 0,1 110 0,0776 omo;
.; 0 ,0001 0,0077 0 ,0446 0,1069 0 , 1762 0,2136 0,2668 0 ,273 1 0.2716 0,2508 0 ,2119 0 ,1739 0 ,1641
4 0,0000 0,0006 0,0074 0,028} 0,0661 0 ,1168 0,1715 0,2048 0,2194 0,2508 0,2600 0,2506 0 ,2461
s -0.0000 0 ,0000 0,0008 0 ,0050 0,0 165 0,0389 0,01l5 0,1024 0 , 1181 0, 1672 0,2128 0 ,2408 0 ,2461
6 0,0000 0,0000 0.0001 0,0006 0 .0028 0 .0087 0.0210 0.0341 0 ,04 24 0.0741 0,1160 0, 1542 0 ,1641
7 0 .0000 0 ,0000 0,0000 0 ,0000 0,0001 0,0012 Q,0019 0 ,0071 0,0098 0 ,0212 0.0407 o.0636 0,07Ql
8 0.0000 0,0000 0.0000 0,0000 0,0000 0 ,0001 0,0004 0,0009 O,OO l l 0,00)5 0,008) 0,015l 0,0 176
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0 ,0000 0 .0001 0,0001 0 ,0001 0,0008 0 ,0016 0 ,0020

10 O 0,90« M987 0,3487 0,1969 0. 1074 0 .056l 0 ,0282 0,017J 0 ,0IJS 0.0060 0,0025 0,0012 0 .0010
1 0 ,0914 0,)151 0,)874 0,)474 0,2684 0,1877 0,1211 0.0867 0,0725 0,040) 0,0207 0 ,0114 0,0098
:z 0,0042 0,0746 0, 1937 0,2759 0,3020 0 ,2816 0,2ll5 0, 1951 0,1157 0,1209 0,016) 0 ,0495 0,0439
J 0 ,0001 0,0105 0,0574 0,1298 0 ,201) 0,250) 0 ,2668 0 ,2601 0,2522 0,2150 0,1 665 0, 1267 0,1172
4 0,0000 0 ,0010 0.0112 0,0401 0.0881 0 , 1460 0.2001 0 .2276 0.2J77 0,2508 0,2384 0,2130 0,2051
5 0,0000 0,0001 0,0015 0,0085 0 ,0264 0 ,0584 0 , !029 0.1366 0, 1516 0 ,2007 0,2l40 0 ,2456 0 ,2461
6 0,0000 0 ,0000 0,0001 0 ,0012 0,0055 0,0162 0 ,0168 0,0569 0 ,0689 O, I I IS 0 ,1596 ll,1966 0,20Sl
7 0,0000 0,0000 0.0000 0.0001 0.0008 0 ,0031 0,0090 0.016l 0,0212 0,0425' 0,0746 0, 1080 0.1172
8 0 ,0000 0,0000 0,0000 0,0000 0,0001 0 ,0004 0 ,0011 0 .0010 0 ,0043 0 ,0106 0,0229 0,0189 0,0439
9 0,0000 0,0000 0,0000 0,0000 0 ,0000 0 ,0000 0 ,0001 0 ,0001 0.0005 0.0016 0,0042 0 ,008) 0,0098
10 0,0000 0 ,0000 0,0000 '0.0000 0.0000 0 .0000 0,0000 0,0000 0 ,0000 0,0001 0 ,0001 0_:_0008 0 ,0010
346 TABLAS

TABLA 2
Distribución de Poi on P(..l.)
Jk
P(X = k)=e- i -
k!

2 3 4 5 6 7 8 9 10 ll 12

0,1 0,9048 0,0905 0,0045 0,0002 0,0000


0,2 0,8187 0,1637 0,0164 0,0011 0,0001 0,0000
0,3 0,7408 0,2222 0,0333 0,0033 0,0002 0,0000
0,4 0,6703 0,2681 0,0536 0,0072 0,0007 0,0001 0,0000
0,5 0,6065 0,3033 0,0758 0,0126 0,0016 0,0002 0,0000
0,6 0,5488 0,3293 0,0988 0,0198 0,0030 0,0004 0,0000 0,0000
0,7 0,4966 0,3476 0,1217 0,0284 0,0050 0,0007 0,0001 0,0000
0,8 0,4493 0,3595 0,1438 0,0383 0,0077 0,0012 0,0002 0,0000
0,9
1,0
0,4066
0,3679
0,3659
0,3679
0,1647
0,1839
0,0494
0,0613
0,0111
0,0153
0,0020
0,0031
0,0003 0,0001
0,0005
º·ºººº
1,1 0,3329 0,3662 0,2014 0,0738 0,0203 0,0045 0,0008 0,0001 0,0000
1,2 0,3012 0,3614 0,2169 0,0867 0,0260 0,0062 0,0012 0,0002 0,0000
1,3 0,2725 0,3543 0,2303 0,0998 0,0324 0,0084 0,0018 0,0003 0,0001 0,0000
1,4 0,2466 0,3452 0,2417 0,1128 0,0395 O,Olll 0,0026 0,0005 0,0001 0,0000
1.5 0,2231 0,3347 0,2510 0,1255 0,0471 0,0141 0,0035 0,0008 0,0001 0,0000
1,6 0,2019 0,3230 0,2584 0,1378 0,0551 0,0176 0,0047 O,OOII 0,0002 0,0000
1,7 0,1827 0,3106 0,2640 0,1496 0,0636 0,0216 0,0061 0,0015 0,0003 0,0001 0,0000
1,8 0,1653 0,2975 0,2678 0,1607 0,0723 0,0260 0,0078 0,0020 0,0005 0,0001 0,0000
1,9 0,141>6 0,2842 0,2700 0,1710 0,0812 0,0309 0,0098 0,0027 0,0006 0,0001 0,0000
2,0 0,1353 0,2707 0,2707 0,1804 0,0902 0,0361 0,0120 0,0034 0.0009 0,0002 0,0000
2,2 0,1108 0,2438 0,2681 0,1966 0,1082 0,0476 0,0174 0,0055 0,0015 0,0004 0,0001 0,0000
2,4 0,0907 0,2177 0,261) 0,2090 0,1254 0,0602 0,0241 0,0083 0,0025 0,0007 0,0002 0,0000
2,6 0,0743 0,1931 0,2510 0,2176 0,1414 0,0735 O,Oll9 O,Oll8 0,0038 0,0011 0,0003 0,0001 0,0000
2,8 0,0608 0,1703 0,2384 0,2225 0,1557 0,0872 0,0407 0,0163 0,0057 0,0018 0,0005 0,0001 0,0000
3,0 0,0498 0,1494 0,2240 0,2240 0,1680 0,1008 0,0504 0,0216 0,0081 0,0027 0,0008 0,0002 0,0001
3,2 0,0408 0,1304 0,2087 0,2226 0,1781 0,1140 0,0608 0,0278 0,0111 0,0040 0,0013 0,0004 0,0001
3,4 0,0334 0,1135 0,1929 0,2186 0, 1858 0,1264 0,0176 0,0348 0,0148 0,056 0,0019 0,0006 0,0002
3,6 0,0273 0,0984 0,1771 0,2125 0,1912 0,1377 0,0826 0,0425 0,01910,00760,0028 0,0009 0,0003
3,8 0,0224 0,0850 0,1615 0,2046 0,1944 0,1477 0,0936 0,0508 0,0241 0,0102 0,0039 0,0013 0,0004
4,0 0,0183 0,0733 0,1465 0,1954 0,1954 0,1563 0,1042 0,0595 0,0298 0,0132 0,0053 0,0019 0,0006
5,0 0,0067 0,0337 0,0842 0,1404 0,1755 0,1755 0,1462 0,1044 0,0653 0,0363 0,0181 0,0082 0,0034
6,0 0,0025 0,0149 0,0446 0,0892 O,l339 0,1 606 0,1606 0,1377 0,1033 0,0688 0,0413 0,0225 0,0113
7,0 0,0009 0,0064 0,0223 0,0521 0,0912 0,1277 0,1490 0,1490 0,1304 0,1014 0.0~10 0,0452 0,0264
8,0 0,0003 0,0027 0,0107 0,0286 0,0573 0,01>16 0,1221 0,1396 0,1396 0,1241 0,099) 0,0722 0,0481
9,0 0,0001 0,0011 0,0050 0,0157 0,0337 0,0607 O,o911 0,1171 0,1318 0,1381 0,1186 0,0970 0,0728
10,0 0,0000 0,0005 0,0023 0,0076 0,0189 0,0378 0,0631 0,0901 0,1126 0,1251 0,1251 0,1137 0,0948

14 15 16 17 18 19 20 21 22 23 24

5,0 0,0013 0,0005 0,0002


6,0 0,0052 0,0022 0,0009 0,0003 0,0001
7,0 0,0142 0,0071 0,0033 0,0014 0,0006 0,0002 0,0001
8,0 0,0296 0,0169 0,0090 0,0045 0,0021 0,0009 0,0004 0,0002 0,0001
9,0 0,0504 0,0)24 0,0193 0,0109 0,0058 0,0029 0,0014 0,0006 0,0003 0,0001
10,0 0,0729 0,0521 0,0347 0,0217 0,0128 0,0071 0,00)7 0,0019 0,0009 0,0004 0,0002 0,0001
TABLAS 347

TABLA 3
Distribución normal N(O; 1)

J.,.--=-
t
1

./ 2rr
e-•'Jl dz=oc
"'

z., 0,08 0,09


º·ºº 0,01 0,02 0,03 0,04 0,05 0,06 0,07

0,4960
º·º
0,1
0,5000
0,4602 0,4562
0,4920
0,4522
0,4880
0,1483
0,4840 0,4801 0,4761 0,4721
0,4443 0,4404 0,4364 0,4325
0,4681
0,4286
0,4641
0,4247
0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 · 0,3974 0,3936 0,3897 0,3859
0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
1,1 0,1357 0,1335 0,1314 0,]292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869. 0,0853 0,0838 0,0823
1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
1,5 0,0668 0,0655 0,0643 0,0630 0.0618 0,0606 0,0594 0,0582 0,0571 0,0559
1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
1,7 0,0446 0,0436 0,0427 0,0418 . 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
1.9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
2.3 0,0107 O,OI04 0,0102 0.00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842
2,4 0,00820 0,00798 0,00776 0,00755 -0,00734 0,00711 0,00695 0,00676 0,00657 0,00639
2,5 0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480
2,6 0.00466 0,00453 0,00440 0,00427 0,00415 0.00402 0,00391 0,00379 0,00368 0,00357
2,7 0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264
2,8 0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193
2,9 0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139

Za 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

3 0,00135 0,01968 0,03687 0,01483 0,03337 0,03233 0,01159 0.01108 0,04723 0,04481
4 0,0 4317 0,04201 o,0•133 o,os354 o,os541 0,05340 o,os211 0,05130 0,06793 0,08479
5 0,06287 0,06170 0,07996 0,01579 0,07333 0,07190 0,01107 0,0!599 0,01332 0,0ª182
6 0,09987 0,09530 0,09282 0,09149 0,010777 0,010402 0,0 10206 0,010104 0,0 11 523 0,0 11260
348 TABLAS

TABLA 4.
D istribución r de Pearson

o x!a: X

~ 0,995 0,99 0,98 0,9i5 0,95 0,90 0,10 0,05 0,025 0,02 O,oJ

1 0,()-1393 0,03157 O,Q.l628 0,0.;982 0,00393 0,0158 2,706 3,841 5,024 5,412 6,635
2 0,0100 0,0201 0,0404 0,0506 0,103 0,211 4,605 5,991 7,378 7,824 9,210
3 O,Oil7 0,115 0,185 0,216 0,352 0,584 6,251 7,815 9,348 9,837 11,345
4 0,207 0,297 0,429 0,484 0,711 1,064 7,779 9,488 11,143 11,668 13,2i7
5 0,412 0,554 0,752 0,831 1,145 1,610 9,236 11,070 12,832 13,388 15,086
6 0,676 0,872 1,134 1,237 1,635 2,204 10,645 12,592 14,449 15,033 16,812
7 0,989 1,239 1,564 1,690 2,167 2,833 12,017 14,067 16 013 16,622 18,475
8 1,344 1,646 2,032 2,180 2,733 3,490 13,362 15,507 17,535 18,168 20,090
9 1,735 2,088 2,532 2,700 3,325 4,168 14,684 16,919 19,023 19,679 21,666
10 2,156 2,558 3,059 3,247 3,940 4,865 15,987 18,307 20,483 21,161 23,209
11 2,603 3,053 3,609 3,81 6 4,575 5,578 17,275 19,675 21,920 22,618 24,725
12 3,074 3,571 4,178 4.404 5,226 6,304 18,549 21,026 23,337 24,054 26,217
13 3,565 4,107 4,765 5.009 5,892 7,042 19,812 22,362 24,736 25,472 27,688
14 4,075 4,660 5,368 5,629 6,571 7,790 21,064 23,685 26,119 26,873 29,141
15 4,601 5,229 5,985 6,262 7,261 8,547 22,307 24,996 27,488 28,259 30,578
16 5,142 5,812 6,614 6,908 7,962 . 0,312 23,542 26,296 28,845 29,633 32,000
17 5,697 6,408 7,255 7,564 8,672 10,085 24,769 27,587 30,191 30,995 33,409
18 6,265 7,015 7,906 8,231 9,390 10,865 25,989 28,869 31,526 32,346 34,605
19 6,844 7,633 8,567 8,907 10,117 ll,651 27';204 30,144 32,852 33,687 36,191
20 7,434 8,260 9,237 9,591 10,851 12,443 28,412 31,410 34,170 35,020 37,566
21 8,034 8,897 9,915 10,283 11,591 13,240 29,615 32,671 35,479 36,343 38,932
22 8,643 9,542 10,600 10,982 12,338 14,041 30,813 33,924 36,781 37,659 40,289
23 9,260 10,196 11,293 11,688 13,091 14,848 32,007 35,172 38,076 38,968 41,638
24 9,886 10,856 11,992 12,401 13,848 15,659 33,196 36,415 39,364 40,270 42,980
25 10,520 11,524 12,697 13,120 14,611 16,473 34,382 37,652 40,646 41,566 44,314
26 11,160 12,198 13,409 13,844 15,379 17,292 35,563 38,885 41,923 42,856 45,642
27 11,808 12,879 14,125 14,573 16,151 18,114 36,741 40,113 43,194 44,140 46,963
28 12,461 13,565 14,847 15,308 16,928 18,939 37,916 41,337 44,461 45,419 48,278
29 13,121 14,256 15,574 16,047 17,708 19,768 39,087 42,557 45,722 46,693 49,588
30 13,787 14,953 16,306 16,791 18,493 20,599 40,256 43,773 46,979 47,962 50,892
TABLAS 349

TABLA 5
Di tribución t de Student

~ 0,40 0,30 0,20 0,10 0,050 0,025 0,010 0,005 0,001 0,0005

l 0,325 0,727 1,376 3,078 6,314 12,71 31.82 63,66 318,3 636,6
2 0,289 0,617 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,868 1,345 1,761 2,145 2,624 2,9i7 3,787 4,140
15 0,258 0,536 0,866 1,341 1,753 2,131 2.602 2,947 3,733 4,073
16 0,258 0,535 0,865 1,337 1.746 2,120 2,583 2,921 3,686 4,015
17 0,257 0,534 0,863 1,333 l,740 2,110 2.567 2,898 3,646 3,965
18 0,257 0,534 0,862 1,330 1,734 2.101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,861 1,328 1.729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,860 1,325 1.725 2.086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,859 1,323 1,721 2,080 2.518 2,831 3,527 3,819
22 0,256 0,532 0,858 1,321 1,717 2,074 2,508 2,819 3,~05 3,792
23 0,256 0,532 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,,67
24 0,256 0,531 0,857 1.318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,856 1,315 1.706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,855 1,313 1,701 2,048 2,467 2,763 3.408 3,674
29 0,256 0,530 0,854 1,311 1,699 2,045 2.46:: 2.756 3,396 3.659
30 0.256 0,530 0,854 1,310 1,697 2.042 2,457 2.750 3,385 3,646
40 0,255 0,259 0,851 1,303 l,648 2,021 2,423 2,704 3,307 3,551
50 0.255 o,;23 0,849 1,298 1,676 2,009 2,403 2,678 3.262 3,495
60 0,254 0,527 0,848 1,296 1,671 2.000 2.390 2,660 3,232 3,460
80 0,254 0,527 0,846 1,292 1,664 1,990 2,374 2,639 3,195 3,415
100 0.254 0.256 0,845 1,290 l,660 1.984 2,365 2,626 3,174 3,389
200 0,254 0,525 0,843 l,286 1,653 1.972 2.345 2,601 3,131 3,339
500 0.253 0,525 0,842 1,283 1.648 1,965 2,334 2,586 3,106 3,310
00 . 0,253 0.524 0,842 1,282 1,645 1.960 2,326 2,576 3,090 3,291
350 TABLAS

TABLA 6
D istribución F de Fisher-Snedecor
P(F,11;n2 ;;:::: F.,;n2:a.) = ex
a. = 0,10

~ 2
1 2 3 4 5 6 7 8 9

l 39,864 49,500 53,593 55,833 57,241 58,204 58,906 59,439 59,858


2 8,5263 9,0000 9,1618 9,2434 9,2926 9,3255 9,3491 9,3668 9,3805
3 5;5383 5,4624 5,3908 5,3427 5,3092 5,2847 5,2662 5,2517 5,2400
4 4,5448 4,3246 4,1908 4,1073 4,0506 4,0098 3,9790 3,9549 3,9357
5 0,0604 3,7797 3,6195 3,5202 3,4530 3,4045 3,3679 3,3393 3,3163
6 3,7760 3,4633 3,2888 3,1808 3,1075 3,054l 3,0145 2,9830 2,9577
7 3,5894 3,2574 3,0741 2,9605 2,8833 2,8274 2,7849 2,7516 2,7247
8 3,4579 3,1131 2,9238 2,8064 2,7265 2,6683 2,6241 2,5893 2,5612
9 3,3603 3,0065 2,8129 2,6927 2,6106 2,5509 2,5053 2,4694 2,4403
10 3,2850 2,9245 2,7277 2,6053 2,5216 2,4606 2,4140 2,3772 2,3473
11 3,2252 2,8595 2,6602 2,5362 2,4512 2,3891 2,3416 2,3040 2,2735
12 3,1765 2,8068 2,6055 2,4801 2,3940 2,3310 2,2828 2,2446 2,2135
13 3,1362 2,7632 2,5603 2,4337 2,3467 2,2830 2,2341 2,1953 2,1638
14 3,1022 2,7265 2,5222 2,3947 2,3069 2,2426 2,1931 2,1539 2,1220
15 3,0732 2,6952 2,4898 2,3614 2,2730 2,2081 2,1582 2,1185 2,0862
16 3,0481 2,6682 2,4618 2,3327 2,2438 2,1783 2,1280 2,0880 2,0553
17 3,0262 2,6446 2,4374 2,3077 2,2183 2,1524 2,1017 2,0613 2,0284
18 3,0070 2,6239 2,4160 2,5858 2,1958 2,1296 2,0785 2,0379 2,0047
19 2,9899 2,6056 2,3970 2,2663 2,1760 2,1094 2,0580 2,0171 1,9836
20 2,9747 2,5893 2,3801 2,2489 2,1582 2,0913 2,0397 1,9985 1,9649
21 2,9609 2,5746 2,3649 2,2333 2,1423 2,0751 2,0232 1,9819 1,9480
22 2,9486 2,5613 2,3512 2,2193 2,1279 2,0605 2,0084 l,9668 1,9327
23 2,9374 2,5493 2,3387 2,2065 2,1149 2,0472 1,9949 1,9531 1,9189
24 2,9271 2,5383 2,3274 2,1949 2,1030 2,0351 1,9826 1,9407 1,9063
25 2,9177 2,5283 2,3170 2,1843 2,0922 2,0241 1,9714 1,9292 1,8947
26 2,9091 2,5191 2,3075 2,1745 2,0822 2,0139 1,9610 1,9188 1,8841
27 2,9012 2,5106 2,2987 2,1655 2,0730 2,0045 1,9515 1,9091 1,8743
28 2,8939 2,5028 2,2906 2,1571 2,0645 1,9959 l ,9427 1,9001 1,8652
29 2,8871 2,4955 2,2831 2,1494 2,0566 1,9878 1,9345 1,8918 1,8560
30 2,8807 2,4887 2,2761 2,1422 2,0492 1,9803 1,9269 1,8841 1,8498
10 2,8354 2,4404 2,2261 2,0909 l,9968 1,9269 1,8725 l,8289 1,7929
60 2,7914 2,3932 2,1774 2,0410 l,9457 1,8747 1,8194 1,7748 1,7380
120 2,7478 2,3473 2,1300 1,9923 l,8959 1,8238 1,7675 1,7220 1,6843
(X) 2,7055 2,3026 2,0838 1,9449 1,8473 1,7741 1,7167 1,6702 1,6315
TABLAS 351

TABLA 6 (Cont.)
Distribución F de Fi her-Snedecor
ex= 0,10

10 12 15 20 24 30 40 60 120 00

60,195 60,705 61,220 61,740 62,002 62,265 62,529 62,794 63,061 63,328
9,3916 9,4081 9,4247 9,4413 9,4496 9,4579 9,4663 9,4746 9,4829 9,4913
5,2304 5,2156 5,2003 5,1845 5,1764 5,1681 5,1597 5,1512 5,1425 5,1337
3,9199 3,8955 3,8689 3,8443 3,8310 3,8174 3,8036 3,7896 3,7753 3,7607
3,2974 3,2682 3,2380 3,2067 3,1905 3,1741 3,1573 3,1402 3,1228 3,1050
2,9369 2,9047 2,8712 2,8363 2,8183 2,8000 2,7812 2,7620 2,7423 2,7222
2,7025 2,6681 2,6322 2,5947 2,5753 2,5555 2,5351 2,5142 2,4928 2,4708
2,5380 2,5020 2,4642 2,4246 2,4041 2,3830 2,3614 2,3391 2,3162 2,2926
2,4163 2,3789 2,3396 2,2983 2,2768 2,2547 2,2320 2,2085 2,1843 2,1592
2,3226 2,2841 2,2435 2,2007 2,1784 2,1554 2,1317 2,1072 2,0818 2,0554
2,2482 2,2087 2,1671 2,1230 2,1000 2,0762 2,0516 2,0261 1,.9997 l,9721
2,1878 2,1474 2,1049 2,0597 2,0360 2,0115 1,9861 1,9597 1,9323 1,9036
2,1376 2,0966 2,0532 2,0070 1,9827 1,9$76 1,.9315 1,9043 1,8759 1,8462
2,0954 2,0537 2,0095 1,9625 1,9377 1,9119 1,8852 1,8572 1,8280 1,7973
2,0593 2,0171 1,9722 1,9243 1,8990 1,8728 1,8454 1,8168 1,7867 1,7551
2,0281 1,9854 1,9399 1,8913 l,8656 1,8388 1,8108 1,7816 1,7507 1,7182
2,0009 1,9577 1,9117 1,8624 1,8362 1,8090 1,7805 1,7506 l,il91 1,6856
1,9770 1,9333 1,8868 1,8368 l,8103 1,7827 1,7537 1,7232 1,6910 1,6567
1,9557 1.9117 1,8647 1,8142 1,7667 1,7382 1,7083 1,6988 1,6659 1,6308
1,9367 1,8924 l,8449 l,7938 1,7873 1,7592 1,7298 1,6768 1,6433 1,6074
1,9197 1,8750 1,8272 1,7756 1,7481 1,7193 1,6890 1,6569 l ,6228 l,5862
1,9043 1,8593 1,8111 1,7590 1,7312 1,7021 1,6714 1,6339 1,6042 1,5668
1,8903 1,8450 1,7964 1,7439 1,7159 1,6864 1,6554 1,6224 1,5871 1,5490
1,8775 1,8319 1,7831 1,7302 1,7019 1,6721 1,6407 1,6073 1,5715 1,5327
1,8658 l,8200 1,7708 1,7175 1,6890 1,6589 1,6272 1,5934 1,5570 1,5176
1,8550 1,8090 1,7596 1,7059 l,6771 1,6468 1,6147 1,5805 1,5437 1,5036
1,8451 1,7989 1,7492 I.6951 1,6662 1,6356 1,6032 1,5686 1,5313 1,4906
1,8359 1,7895 1,7395 1,6852 1,6560 1,6252 1,5925 1,5575 1,5198 1,4784
1,8274 1,7808 1,7306 1,6759 1,6465 1,6155 1,5825 1,5472 1,5090 1,4670
l,8195 1,7727 1,7223 1,6673 1,6377 l,6065 1,5732 l,5376 1,4989 1,4564
1,7627 1,7146 1,6624 1,6052 1,5741 1,5.411 1,5056 1,4672 1,4248 1,3769
1,7070 1,6574 1,6034 1,5435 1,5107 1,4755 1,4373 1,3952 1,3476 1,2915
1,6524 1,6012 1,5450 1,4821 1,4472 1,4094 1,3676 1,3203 1,2646 1,1926
1,5987 1,5458 1,4871 1,4206 1,3832 1,3419 1,2951 1,2400 1,1686 1,0000
352 TABLAS

TABLA 7
Distribución F de Fisher-Snedecor
P(Fn,;n, ~ F,,,; ni:J = ex
ex= 0,05

~ll 1
1 2

161,45 199,50 215,71


3 4

224,58 230.16 233,99


5

236,77
6

238,88
7

240,54
8 9

2 1 18,513 19,000 19,164 19.247 19.296 19,330 19,353 19,371 19,385


3 1 10,128 9,5521 9,2766 9.1172 9 0135 8,9406 8,8868 8,8452 8,8123
4 7,7086 6,9443 6,5914 6 3883 6.2560 6,1631 6,0942 6,0410 5.9988
5 6,6079 5.7861 5.4095 5,1922 5.0503 4,9503 4,8759 4,8183 4,772.S
6 5.9874 5,1433 4.7571 4.5337 4,3874 4,2839 4,2066 4,1468 4,0990
7 5,5914 4.7374 4,3468 4,1203 3,9715 3,8660 3,7870 3 7257 3,6767
8 5.3177 4,4590 4.0662 3 8378 3,6875 3,5806 3,5005 3,4281 3,3881
9 5,11 74 4.2565 3.8626 3.6331 3,4817 3,3738 3,2927 3,2296 3 1789
10 4.9646 4,1028 3,7083 3.4780 3.3258 3.2172 3,1355 3,0717 3,0204
11 4.8443 3.9823 3.5874 3,3567 3.2039 3,0946 3,0123 2,9480 2,8962
12 4.7472 3.8853 3,4903 3.2592 3.1059 2.9961 2,9134 2.&486 2.7964
13 4,6672 3.8056 3.4105 3,1791 3.0254 2,9153 2,8321 2,7669 2,7144
14 4,6001 3.7389 3,3439 3,1 122 2.9582 2,8477 2,7642 2,6987 2,6458
15 5.5431 3,6823 3,2874 3,0556 2,9013 2,7905 2,7066 2.6408 2,5876
16 4,4940 3.6337 3,2389 3.0069 2 8524 2,7413 2,6572 2,5911 2,5377
17 4,4513 3,5915 3,1968 2,9647 2.8100 2,6987 2,6143 2,5480 2,4943
18 4,4139 3,5546 3,.¡.599 2,9277 2,7729 2,6613 2,5767 2,5102 2,4563
19 4,3808 3,5219 3,1274 2,8951 2,7401 2,6283 2,5435 2,4768 2,4227
20 4,3513 3,4928 3,0984 2,8661 2.7109 2,5900 2,5140 2,4471 2,3928
21 4,3248 3,4668 3,0i25 2,8401 2,6848 2,5727 2,4876 2,4205 2.3661
22 4,3009 3,4434 3,0491 2,8167 2,6613 2,5491 2,4638 2,3965 2,3419
23 4,2793 3,4221 3,0280 2,795 ,6400 2,5277 2,4422 2,3748 2,3201
24 4,2597 3,4028 3,0088 2,7763 2,6207 2,5082 2,4226 2,3551 2,3002
25 4,2417 3,3852 2,9912 2,7587 2,6030 2,4904 2,4047 2,3371 2,2821
26 4,2252 3,3690 2,9751 2,7426 2,5868 2,4741 2,3883 2,3205 2,2655
27 4,2100 3,3541 2,9604 2,7278 2,5719 2,4591 2,3732 2,3053 2,2501
28 4,1960 3,3404 2,9467 2,7141 2,5581 2,4453 2,3593 2.2913 2,2360
29 4,1830 3,3277 2.9340 2,7014 2,5454 2,4324 2,3463 2,2782 2,2229
30 4,1709 3,3158 2,9223 2,6896 2,5336 2,4205 2,3343 2,2662 2,2107
40 4,0848 3,2317 2,8387 2,6060 2,4495 2,3359 2,2490 2.1802 2,1240
60 4,0012 3,1504 2,7581 2,5252 2,3683 2,2540 2,1665 2.0970 2,0401
120 3,9201 3,0718 2,6802 2,<472 2.2900 2,1750 20867 2,0164 l.9588
00 2,8415 2,9957 2,6049 2,3719 2,2141 2,0986 2,0096 1,9384 1,8799
TABLAS 353

TABLA 7 (Cont.)
Distribución F de Fisher-Snedecor

a. = 0,05

10 12 15 20 24 30 40 60 120 00

241,88 243,91 245,95 248,01 249,05 250,09 251,14 252,20 253,25 254,32
19,396 19,413 19,429 19,446 19,454 19,462 19,471 19,479 19,487 19,496
8,7855 8,7446 8,7029 8,6602 8,6385 8,6166 8,5944 8,5720 8,5494 8,5265
5,9644 5,9117 5,8578 5,8025 5,7744 5,7459 5,7170 5,6878 5,6581 5,6281
4,7351 4,6777 4,6188 4,5581 4,5272 .4,4957 4,4638 4,4314 4,3984 4,3650
4,0600 3,9999 3,9381 3,8742 3,8415 3,8082 3,7743 3,i398 3,7047 3,6688
3,6365 3,5747 3,5108 3,4445 3,4105 3,3758 3,3404 3,3043 3,2674 3,2298
3,3472 3,2840 3,2184 3,1503 3,1152 3,0794 3,0428 3,0053 2,9669 2,9276
3,1373 3,0729 3,0061 2,9365 2,9005 2,8637 2,8759 2,7872 2,7475 2,7067
2,9782 2,9130 2,8450 2,7740 2,7372 2,6996 2,6609 2,6211 2,5801 2,5379
2,8536 2,7876 2,7186 2,6464 2,6090 2,5705 2,5309 2,4901 2,4480 2,4045
2,7534 2,6866 2,6169 2,5436 2,5055 2,4663 2,4259 2,3842 2,3410 2,2962
2,6710 2,6037 2,5331 2,4589 2,4202 2,3803 2,3392 2,2966 2,2524 2,2064
2,6021. 2,5342 2,4630 2,3879 2,3487 2,3082 2,2664 2,2230 2,1778 2,1307
2,5437 2,4753 2,4035 2,3275 2,2878 2,2468 2,2043 2,1601 2,1141 2,0658
2,4935 2,4247 2,3522 2,2756 2,2354 2,1938 2,1507 2,1058 2,0589 2,0096
2,4499 2,3807 2,3077 2,2304 2,1898 2,1477 2,1040 2,0584 2,0 107 1,9604
2,4117 2,3421 2,2686 2,1906 2,1497 2,1071 2,0629 2,0166 1,9681 1,9168
2,37í9 2,3080 2,2341 2,1555 2,1141 2,0712 2,0264 1,9796 1,9302 1,8780
2,3479 2,2776 2,2033 2,1242 2,0825 2,0391 1,9938 l,9464 1,8963 1,8432
2.3210 2,2504 2,1757 2,0960 2,0540 2,0102 1,9645 1,9165 1,8657 1,8117
2,2967 2.2258 2,1508 2.0707 2,0283 1,9842 1,9380 1,8895 1,8380 1,7831
2,2747 2,2036 2,1882 2,0476 2,0050 1,9605 1,9139 1,8649 1,8128 1,7570
2,2547 2,1834 2,1077 2,0267 1,9838 1,9390 1,8920 1,8424 1,7897 1,7331
2,2365 2,1649 2,0889 2,0075 i°.9643 1,9192 1,8718 1,8217 1,7684 1,7110
2,2197 2,1479 2,0716 1,9898 1.9464 1,9010 1,8533 1,8027 1,7488 1,6906
2,2043 2,1323 2,0558 l,9736 1,9299 1,8842 1,8361 1,7851 1.7307 1,6717
2,1900 2,1179 2,0411 l,9586 l,9147 1,8687 1,8203 1.7689 1,7138 1,6541
2,1768 2,1045 2,0275 1,9446 1,9005 1,8543 1,8055 1,7537 l,6981 1,6377
2,1646 2,0921 · 2,0148 1,9317 1,8874 1,8409 1,7918 1,7396 1,6835 1,6223
2,0772 2,0035 1,9245 1,8389 1,7929 1,7444 1,6928 1,6373 1,5766 1,5089
1,9926 I.9174 l,8364 1,7480 1,7001 1,6491 1.5943 l,5343 1,4673 1,3893
1.9105 1,8337 1,7505 1,6587 1,6084 1.5?43 1,4952 l,4290 1,3519 1,2539
1,8307 l,7522 1,6664 1,5705 1,5173 1,4591 1,3940 1,3180 1,2214 l,0000
354 TABLAS

TABLA 8
Distribución F de Fisher-Snedecor
P(Fn,; n2;., Fn,: n2;«) = O::
C(= 0,01

~ 2
1 2 3 4 5 6 7 8 9

1 4-052,2 4999,5 5403,3 5624,6 5763,7 5859,0 5928,3 5981,6 6022,5


2 98,503 99,000 99,166 99,249 99,299 99,332 99,356 99,374 99,388
3 34,116 30,817 29,457 28,710 28,237 27,911 27,672 27,489 27,345
4 21,198 18,000 16,694 15,977 15,522 15,207 14,976 14,799 14,659
5 16,258 13,274 12,060 11,392 10,967 10,672 10,456 10,289 10,158
6 13,745 10,925 9,7795 9,1483 8,7459 8,4661 8,2600 8,1016 7,9761
7 12,246 9,5466 8,4513 7,8467 7,4604 7,1914 6,9928 6,8401 6,7188
8 11,259 8,6491 7,5910 7,0060 6,6318 6,3707 6,1776 6,0289 5,9106
9 10,561 8,0215 6,9919 6,4221 6,0569 5,8018 5,6129 5,4071 5,3511
10 10,044 7,5194 6,5523 5,9943 5,6363 5,3858 5,2001 5,0567 4,9424
11 9,6400 7,2057 6,2167 5,6683 5,3160 5,0692 4,8861 4,7445 4,6315
12 9,3302 6,9266 5,9526 5,4119 5,0643 4,8206 4,6395 4,4994 4,3875
13 5,0708 6,7010 5,7394 5,2053 4,8616 4;6204 4,4410 4,3021 4,1911
14 8,8616 6,5149 5,5639 5,0354 4,6950 4,4558 4,2779 4,1399 4,0297
15 8,6831 6,3589 5,4170 4,8932 4,5556 4,3183 4,1415 4,0045 3,8948
16 8,5310 6,2262 5,2922 4,7726 4,4374 4,2016 4,2059 3,8896 3,7804
17 8,3997 6,1121 5,1850 4,6690 4,3359 4,1015 3,9267 3,7910 3,6822
18 8,2854 ·6,0129 5,0919 4,5790 4,2479 4,0146 3,8406 3,7054 3,5971
19 8,1850 5,9259 5,0103 4,5003 4,1704 3,9386 3,7653 3,6305 3,5225
20 8,0960 5,8489 5,9382 4,4307 4,1027 3,8714 3,6987 3,5644 3,4567
21 8,0166 5,7804 4,8740 4,3688 4,0421 3,8117 3,6396 3,5056 3,3981
22 7,9454 5,7190 4,8166 4,3134 3,9880 3,7583 3,5867 3,4530 3,3458
23 7,8811 5,6637 4,7649 4,2635 3,9392 3,7102 3,5390 3,4057 3,2986
24 7,8229 5,6136 4,7181 4,2184 3,8951 3,6667 3,4959 3,3679 3,2560
25 7,7698 5,5680 4,6755 4,1774 3,8550 3,6272 3,4568 3,3239 3,2172
26 7,7213 5,5263 4,6166 4,1400 3,8183 3,5911 3,4210 3,2884 3,1818
27 7,6767 3,4881 4,0009 4,1056 3,7848 3,5580 3,3882 3,2558 3,1494
28 7,6356 5,4529 4,5681 4,0740 3,7539 3,5276 3,3581 3,2259 3,1195
29 7,5976 5,4205 4,5378 4,0449 3,7254 3,4995 3,3302 3,1982 3,0920
30 7,5625 5,3904 4,5097 4,0179 3,6990 3,4735 3,3045 3,1726 3,0665
40 7,3141 5,1785 4,3126 3,8283 3,5138 3,2910 3,1238 2,9930 2,8876
60 7,0771 4,9774 4,1259 3,6491 3,3389 3,1187 2,9530 2,8233 2,7185
120 6,8510 4,7865 3,9493 3,4796 3,1735 2,9559 2,7918 2,6629 2,5586
00 6,6349 4,6052 3,7816 3,3192 3,0li3 2,8020 2,6393 2,5113 2,4073
TABLAS 355

TABLA 8 (Cont.)
Distribución F de Fisher-Snedecor

o:=0,01

10 12 15 20 24 30 40 60 120 00

6055,8 6106,3 6157,3 6708,7 6234,6 6260,7 6286,8 6313,0 6339,4 6366,0
99,399 99,416 99,432 99,449 99,458 99,466 99,474 99,483 99,491 99,501
27,229 27,052 26,872 26,690 26,598 26,505 26,411 26,316 26,221 26,125
14,546 14,374 14,198 14,020 13,929 13,838 13,745 13,652 15,558 13,463
10,051 9,8883 9,7222 9,5527 9,4665 9,3793 9,2912 9,2020 9,1118 9,0204
7,8741 7,7183 7,5590 7,3958 7,3127 7,2285 7,1432 7,0568 6,9690 6,8801
6,6201 6,4691 6,3143 6,1554 6,0743 5,9921 5,9084 5';8236 5,7372 5,6495
5,8143 5,6668 5,5151 5,3591 5,2793 5,1980 5,1156 5,0316 4,9460 4,8588
5,2565 5,1114 4,9621 4,8080 4,7290 4,6486 4,5667 4,4831 4,3978 4,3105
4,0492 4,7059 4,5582 4,4054 4,3269 4,2469 4,1653 4,0819 3,9965 3,9090
4,5393 4,3974 4,2509 4,0990 4,0209 3,9411 3,8596 3,7761 3,6904 3,6025
4,2961 4,1553 4,0096 3,8584 3,7805 3,7008 3,6192 3,5355 5,4494 3,3608
4,1003 3,9603 3,8154 3,6646 3,5868 3,5070 3,4253 3,3413 3,8548 3,1654
3,9394 3,8001 3,6557 3,5052 3,4274 3,3476 3,2656 3,1813 3,0942 3,0040
3,8049 3,6662 3,5222 3,3719 3,2940 3,2141 3,1319 3,0471 2,9595 2,8684
3,6909 3,5527 3,4089 3,2588 3,1808 3,1007 3,0182 2,9330 2,8447 2,7528
3,5931 3,4552 3,3117 3,1615 3,0835 3,0032 2,9205 2,8348 2,7459 2,6530
3,5082 3,3706 3,2273 3,0771 2,9990 2,9185 2,8354 2,7493 2,6597 2,5660
3,4338 3,2965 3,1533 3,0031 2,9249 2,8442 2,7608 2,6742 2,5839 2,4893
3,3682 3,2311 3,0880 2,9377 2,8594 2,7785 2,6947 2,60í7 2,5168 2,4212
3,3098 3,1729 3,0299 2,8796 2,8011 2,7200 2,6359 2,5484 2,4568 2,3603
3,2576 3,1209 2,9780 2,8274 2,7488 2,6675 2,5831 2,4951 2,4029 2,3055
3,2106 3,0740 2,9311 2,7805 2,7017 2,6202 2,5355 2,4471 2,3542 2,2559
3,1681 3,0316 2.8887 2,7380 2,6591 2,5773 2,4923 2,4035 2,3099 2,2107
3,1294 2,9931 2,8502 2,6993 2,6203 2,5383 2,4530 2,3637 2,2695 2,1694
3,0941 2,9579 2,8150 2,6640 2,5848 2,5026 2,4170 2,32i3 2,2325 2,1315
3,0618 2,9256 2,7827 2,6316 2,5522 2,4699 2,3840 2,2938 2,1984 2,0965
3,0320 2,8959 2,7530 2,6017 2.5223 2,4397 2,3535 2,2629 2,1670 2,0642
3,0045 2,8685 2,7256 2,5742 2,4946 2,4118 2,3253 2,2344 2,1378 2,0342
2,9791 2,8431 2,7002 2,5487 2,4689 2,3860 2,2992 2,2079 2,1107 2,0062
2,8005 2,6648 2,5216 2,3689 2,2880 2,2034 2,1162 2,0194 1,9172 1,8047
2,6318 2,4961 2,3523 2,1978 2,1154 2,0285 1,9360 1,8363 1,7263 1,6006
2,4721 2,3363 2,1915 2,0346 1,9500 1,8600 1,7628 1,0557 1,5530 1,3805
2,3209 2,1848 2,0385 1,8783 1,7908 1,6964 1.5923 1,4730 1,3246 1,0000
,
Indice analítico

Análisis de la varianza, 165 F de Fisher-Snedecor, 82


Bayes, regla de, 31 geométrica, 75
Bemoulli, hipergeométrica, 78
distribución de, 73 marginales, 57, 61
prueba de, 73 normal, 79
Cantidad pivota!, 114 bivariante, 82
Coelíciente de correlación muestra!, 15 multivariaote, 84
Contraste t de Student, 81
de hipótesi 127 x2 de Pearson, 81
de homogeneidad, 149 Elección de la hipótesis nula, 132
de independencia, 152 Error,
de la bondad del ajuste, 147 cuadrático medio, 13, 102
Covarianza, de tipo I, 128
entre do,s variables aleatoria , 57, 62 de tipo II, 128
muestra!, 12 Espacio m uestraJ, 25
Cuasi-varianza muestral, 96 discreto, 27
Den idad, Esperanza de una variable aleatoria, 43, 46
condicionada, función de, 63 Estadístico, 96
conjunta, función de, 61 suficiente, 98
marginal, función de, 61 Estimador,
Desviación típica, consistente, 103
de la muestra, 6 de máxima verosimilitud, 105
de una variable aleatoria, 44, 47 in esgado 103
Diagramas puntual, 101
de tallos y hojas, 3 Fisher-Snedecor, distribución F de, 82
Diseño de experimentos 165 Frecuencias,
Distribución(es), absolutas 3
binomial,74 relativas, 3
negativa, 76 Función de densidad, 45, 61
condicionada 59 63 condicionada 63
de Bernoulli 73 conjunta, 61
de Poissoo, 77 marginal, 61
358 ÍNDICE ANAlÍTICO

Función de distribución, Prueba de Bernoulli, 73


de un vector aleatorio, 56 p-valor, 134
de una variable aleatoria, 42 Recta de regresión, 13
Función de masa, 43 Región,
condicionada, 59 crítica, 127
conjunta, 56 de aceptación, 1'.?7
marginal, 57 Regla,
Función de potencia, 128 de Bayes, 31
Hipótesis. de la multiplicación, 30
alternativa, 127 de Laplace, 27
contraste de, 127 de la probabilidad total, 31
nula 127 Regresión
elección de la 132 exponencial, 17
Inferencia lineal, 13 161
no paramétrica 147 logarítmica, 16
para.métrica, 98 Re iduos, 162
Intervalos de confianza, 113 Sesgo, 102
Laplace regla de, 27 Suceso, 26
Masa, Sucesos independiente , 29
condicionada función de, 59 Tamaño,
conjunta, función de, 56 de la muestra, 3
marginal, función de, 57 muestral mínimo, 119
Media muestral, 4, 96 Test, 127
Mediana, de razón de verosimfütude , 129
de una variable aleatoria, 43, 46 Variable(s)
muestral, 4, 96 aleatoria 41
Método, continua, 45
de los momentos 104 covarianza entre dos, 57, 62
de máxima verosimiJitud 105 desviación típica de una, 44 47
de razón de vero imilitudes 129 discreta, 43
Mínimo tamaño muestral, 119 esperanza de una, 43, 46
Moda de una muestra, 5 fw1ción de distribución de una, 42
Modelo de probabilidad, 26 independientes, 58, 62
Muestra, mediana de una 43, 46
aleatoria, 95 varianza de una, 44, 46
de viación típica de la, 6 estadística
moda de una, 5 cualitativa, 1
tamaño de la, 3 cuantitativa, 2
ivel, Varianza,
de confianza, 113 de una variable aleatoria, 44, 46
de significación, 128 muestral, 5, 96
Nube de punto , 12 residual, 15
Pearson, distribución x2 de, 81 Vector aleatorio, 55
Poisson, distribución de 77 continuo, 61
Probabilidad 25 discreto, 56
condicionada, 28 función de distribución de un, 56

Вам также может понравиться