Вы находитесь на странице: 1из 312

ESTADÍSTICA

Marta Cordero Gracia


José Olarrea Busto
Dpto. de Matemática Aplicada y Estadı́stica
Índice general
1. Estadı́stica descriptiva 1
1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . . . . . . . . 3
1.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Medidas numéricas descriptivas . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Medida de asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Análisis combinatorio 11
2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3. Álgebra de sucesos 19
3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1. Unión de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2. Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3. Propiedades de la unión y la intersección . . . . . . . . . . . . . . . 21
3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . . . . 22

4. Teorı́a de la probabilidad 23
4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . . . 24

i
4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.3. Axiomática del cálculo de probabilidades . . . . . . . . . . . . . . . 26
4.1.4. Axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 28
4.2. Teoremas del cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . 29
4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.1. Regla de la multiplicación . . . . . . . . . . . . . . . . . . . . . . . 32
4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . 33
4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5. Variable aleatoria unidimensional 37


5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.1. Definición matemática . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.2. Definición intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3.1. Función de distribución y función de densidad . . . . . . . . . . . . 42
5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . 46
5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 46
5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 48
5.5.3. Transformación integral . . . . . . . . . . . . . . . . . . . . . . . . 49
5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6. Momentos de una variable aleatoria unidimensional 53


6.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2. Momento de orden k de una variable aleatoria . . . . . . . . . . . . . . . . 55
6.3. Varianza y desviación tı́pica . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.4. Otros valores tı́picos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.5. Coeficientes de asimetrı́a y curtosis . . . . . . . . . . . . . . . . . . . . . . 58
6.6. Teorema de Markov. Desigualdad de Chebychev . . . . . . . . . . . . . . . 60
6.7. Función generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . 61
6.8. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.8.1. Cambio de variable en la función caracterı́stica . . . . . . . . . . . . 64

ii
7. Variable aleatoria bidimensional y n-dimensional 65
7.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 66
7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 66
7.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . . 69
7.3.1. Función de distribución y función de densidad . . . . . . . . . . . . 69
7.4. Variable aleatoria bidimensional condicional . . . . . . . . . . . . . . . . . 72
7.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 72
7.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 73
7.5. Variables aleatorias bidimensionales independientes . . . . . . . . . . . . . 75
7.6. Momentos de una variable aleatoria bidimensional . . . . . . . . . . . . . . 76
7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . . . . 78
7.6.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 80
7.7. Función caracterı́stica de una variable aleatoria bidimensional . . . . . . . 81
7.8. Transformación de variables aleatorias bidimensionales . . . . . . . . . . . 82
7.8.1. Una función de dos variables aleatorias . . . . . . . . . . . . . . . . 82
7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . . . . . 82
7.8.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 83
7.8.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 83
7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . . . . . . . . . 84

8. Distribuciones de probabilidad discretas 85


8.1. Distribución de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . . . . . . . . 86
8.2. Distribución Binomial, B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . 86
8.2.1. Teorema de adición para distribuciones Binomiales . . . . . . . . . 88
8.2.2. Distribución de la proporción . . . . . . . . . . . . . . . . . . . . . 89
8.3. Distribución de Poisson, P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.3.1. Teorema de adición para distribuciones de Poisson . . . . . . . . . . 90
8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.3. Aproximación de una Binomial por una Poisson . . . . . . . . . . . 92
8.4. Distribución Hipergeométrica, H(n, N, A) . . . . . . . . . . . . . . . . . . 92
8.5. Distribución Geométrica, G(p) . . . . . . . . . . . . . . . . . . . . . . . . 94
8.6. Distribución Binomial Negativa, BN(r, p) . . . . . . . . . . . . . . . . . . 95
8.6.1. Teorema de adición para distribuciones Binomiales Negativas . . . . 96

iii
9. Distribuciones de probabilidad continuas 99
9.1. Distribución Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . 100
9.2. Distribución Normal, N(µ, σ) . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.2.1. Teorema de adición para distribuciones Normales . . . . . . . . . . 103
9.2.2. Distribución Normal estándar . . . . . . . . . . . . . . . . . . . . . 104
9.3. Distribución Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . . . . . . 105
9.4. Distribución χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . . . . . . . 107
9.4.1. Teorema de adición para distribuciones χ2 de Pearson . . . . . . . 108
9.5. Distribución t-Student, tn . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.6. Distribución F-Snedecor, Fn,m . . . . . . . . . . . . . . . . . . . . . . . . . 110
9.7. Distribución Exponencial, Exp(λ) . . . . . . . . . . . . . . . . . . . . . . 111
9.7.1. Teorema de adición para distribuciones Exponenciales . . . . . . . . 113
9.8. Distribución de Erlang Er(n, λ) . . . . . . . . . . . . . . . . . . . . . . . 113
9.8.1. Teorema de adición para distribuciones de Erlang . . . . . . . . . . 115
9.9. Relación entre las distribuciones de Poisson, Exponencial y Erlang . . . . . 115
9.10. Distribución de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . . . . . . . 117
9.11. Distribución Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . 118
9.11.1. Teorema de adición para distribuciones Gamma . . . . . . . . . . . 119
9.12. Distribución Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . . . . . . . . 121
9.14. Distribución Normal Bidimensional . . . . . . . . . . . . . . . . . . . . . . 123

10.Convergencia de sucesiones de variables aleatorias 127


10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
10.2. Problema central del lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . . . 129
10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.3. Aproximaciones a la distribución Normal . . . . . . . . . . . . . . . . . . . 130
10.3.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 130
10.3.2. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 131
10.3.3. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 132
10.3.4. Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 132

11.Regresión y correlación 133


11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

iv
11.2. Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.2.1. Método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . 134
11.2.2. Método de la distribución condicional . . . . . . . . . . . . . . . . . 136
11.2.3. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
11.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.3.1. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 140

12.Distribuciones de muestreo 143


12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.2. Definición de estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3. Estadı́stico media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 146
(n − 1)s2
12.4. Estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
σ2
x̄ − µ
12.5. Estadı́stico √ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
s/ n
12.5.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 147
12.5.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 148
12.6. Estadı́stico varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . 148
12.6.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 148
12.6.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 149
12.7. Estadı́stico desviación tı́pica muestral . . . . . . . . . . . . . . . . . . . . . 150
12.8. Estadı́stico diferencia de medias muestrales . . . . . . . . . . . . . . . . . . 152
12.9. Estadı́stico cociente de varianzas muestrales . . . . . . . . . . . . . . . . . 153
12.10.Estadı́stico proporción muestral . . . . . . . . . . . . . . . . . . . . . . . . 154
12.11.Estadı́stico elemento que ocupa el lugar r . . . . . . . . . . . . . . . . . . 155
12.11.1.Estadı́stico máximo valor de una muestra . . . . . . . . . . . . . . . 155
12.11.2.Estadı́stico mı́nimo valor de una muestra . . . . . . . . . . . . . . . 156
12.11.3.Estadı́stico recorrido de una muestra . . . . . . . . . . . . . . . . . 156
12.11.4.Estimación de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 157

13.Estimación puntual y estimación por intervalo 159


13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
13.2. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . 163
13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . 163
13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . 164
13.2.3. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . . 165

v
13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . 166
13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
13.3. Métodos de estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . 170
13.3.1. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . 170
13.3.2. Propiedades de los estimadores de máxima verosimilitud . . . . . . 172
13.3.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . 173
13.4. Estimación por intervalo de confianza . . . . . . . . . . . . . . . . . . . . . 174
13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . 176
13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . 179
13.4.3. Intervalo de confianza para la diferencia de medias . . . . . . . . . 180
13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . . . 182
13.4.5. Intervalo de confianza para la proporción poblacional . . . . . . . . 183
13.5. Intervalo de confianza asintótico . . . . . . . . . . . . . . . . . . . . . . . . 185

14.Teorı́a de muestras de población finita 187


14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
14.2. Distribuciones de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
14.2.1. Estadı́stico media muestral . . . . . . . . . . . . . . . . . . . . . . . 189
14.2.2. Estadı́stico varianza muestral . . . . . . . . . . . . . . . . . . . . . 191
14.2.3. Estadı́stico proporción muestral . . . . . . . . . . . . . . . . . . . . 193
14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . . . . 194
14.3.2. Intervalo de confianza para la proporción poblacional . . . . . . . . 195

15.Contraste de hipótesis 197


15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
15.2. Las hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . 199
15.3. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
15.4. Nivel de significación y región crı́tica . . . . . . . . . . . . . . . . . . . . . 204
15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
15.6. Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
15.7. Contrastes para la media de una población . . . . . . . . . . . . . . . . . . 209
15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . 211
15.8. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

vi
15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . . . . 213
15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . . . . 213
15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . 214
15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . . . . 215
15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.10.1.Una población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.10.2.Comparación de varianzas . . . . . . . . . . . . . . . . . . . . . . . 215

16.Contrastes no paramétricos 219


16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . 221
16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . 222
16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . 223
16.2. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . 223
16.3. Otros contrastes no paramétricos . . . . . . . . . . . . . . . . . . . . . . . 224
16.3.1. Contrastes de posición . . . . . . . . . . . . . . . . . . . . . . . . . 224
16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . 228
16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

17.Regresión lineal simple 251


17.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
17.3. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 254
17.4. Propiedades de los estimadores de mı́nimos cuadrados . . . . . . . . . . . . 256
17.4.1. Propiedades generales . . . . . . . . . . . . . . . . . . . . . . . . . 256
17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . . . . 257
17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
17.6. Inferencias respecto a los parámetros . . . . . . . . . . . . . . . . . . . . . 258
17.7. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
17.7.1. Estimación de la respuesta media . . . . . . . . . . . . . . . . . . . 259
17.7.2. Predicción de una observación . . . . . . . . . . . . . . . . . . . . . 260
17.8. Análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.9. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
17.9.1. Inferencias sobre el coeficiente de correlación . . . . . . . . . . . . . 264
17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

vii
A. Tablas estadı́sticas 271

B. Resumen de distribuciones 303

viii
Estadı́stica
1 descriptiva

Índice
1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . 3
1.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Medidas numéricas descriptivas . . . . . . . . . . . . . . . . . . 5
1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1.1. Medidas de tendencia central . . . . . . . . . . . . . . 6
1.4.1.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2.1. Varianza y desviación tı́pica . . . . . . . . . . . . . . 8
1.4.2.2. Desviación media . . . . . . . . . . . . . . . . . . . . 8
1.4.2.3. Coeficiente de variación de Pearson . . . . . . . . . . 8
1.4.2.4. Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Medida de asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . 9

1
2 Estadı́stica

La estadı́stica descriptiva tiene por objeto describir y analizar un determinado con-


junto de datos sin pretender sacar conclusiones de tipo más general.
El conjunto de datos en cuestión representa una muestra de los distintos valores que
puede tomar una población (e.g. estatura de los alumnos de la Escuela, ingresos familiares
de una unidad familiar, estado civil, número de grietas en las alas de un determinado
modelo de avión)
Las variables se pueden clasificar en:

Cuantitativas: variables en las que los datos difieren en magnitud (e.g. estaturas, ingresos
anuales, etc)

Cualitativas: variables en las que los datos difieren en tipo (e.g. estado civil, nacionalidad,
etc)

En este capı́tulo se tratará únicamente con variables cuantitativas.


Para obtener una muestra de valores de una variable cuantitativa es necesario realizar
medidas con una determinada escala y unidad de medida. La unidad de medida puede
ser infinitamente divisible (e.g. km, m, cm, mm, . . . ) o indivisible (e.g. tamaño de una
unidad familiar). Cuando la unidad de medida es infinitamente divisible, la variable se
dice que es continua. En el caso de unidad de medida indivisible, se dice que la variable
es discreta. En otras palabras,

Variable continua: aquella que puede tomar un número infinito no numerable de valores.

Variable discreta: aquella que puede tomar un número finito o infinito numerable de va-
lores.

1.1. Notación
La notación que vamos a utilizar a lo largo de este capı́tulo es la siguiente:

• Disponemos de N observaciones, r de las cuales son distintas {x1 , x2 , . . . , xr }.

• Las observaciones están ordenadas en forma creciente x1 < x2 < · · · < xr .

• Cada observación xi ha aparecido ni veces.

• Se llama frecuencia absoluta de la observación xi al valor ni , siendo


r
X
ni = N
i=1
1 Estadı́stica descriptiva 3

• Se llama frecuencia absoluta acumulada de la observación xi , al valor


i
X
Ni = nk
k=1

siendo Nr = N

• Se llama frecuencia relativa de la observación xi al valor


ni
fi =
N
r
X
siendo fi = 1
i=1

• Se llama frecuencia relativa acumulada de la observación xi , al valor


i
X
Fi = fk
k=1

siendo Fr = 1

1.2. Formas de agrupar los datos de una muestra


Tabla Tipo I. Se utiliza cuando el número de observaciones es reducido (N es
pequeño), y cada valor distinto ha aparecido una sola vez (todas las frecuencias
absolutas valen uno).

xi ni

x1 1
x2 1
.. ..
. .
xN 1

Tabla Tipo II. Se utiliza cuando el número de observaciones es grande (N es gran-


de), pero el número de valores distintos que han aparecido es pequeño (algunas
frecuencias absolutas son distintas de uno).
4 Estadı́stica

xi ni

x1 n1
x2 n2
.. ..
. .
xr nr

Tabla Tipo III. Se utiliza cuando tanto el número de observaciones como el número
de valores distintos que han aparecido es grande. En este caso, elegiremos unos
intervalos, Li−1 — Li , de amplitud, ai = Li − Li−1 , fija o variable, que contengan
a la totalidad de los valores observados.

∈[L0 ,L1 ) ∈[L1 ,L2 ) Li−1 — Li ni


z }| {z }| {
x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 , x9 , x10 ,

.. L0 — L1 n1
. L1 — L2 n2
.. ..
x82 , x83 , x84 , x85 , x86 , x87 , x88 , x89 , x90 . .
| {z }| {z }
∈[Lr−2 ,Lr−1 ) ∈[Lr−1 ,Lr ) Lr−1 — Lr nr

En las tablas tipo III, se sugieren las siguientes normas :

• Se debe intentar que los intervalos sean de amplitud constante.

• Los intervalos se deben tomar semiabiertos, [Li−1 , Li ).

• Para facilitar los cálculos, se definen las marcas de clase como


Li−1 + Li
xi =
2
convirtiéndolas en tablas tipo II.

1.3. Representación gráfica


Hay muchas formas de representar gráficamente una tabla, aquı́ veremos sólo algunas
de ellas.
1 Estadı́stica descriptiva 5

Diagrama de barras Polı́gono de frecuencias

n 6 n 6

n2

n4
"•
"
"
nr n2 •aa ""
n3 %% a•"
n1 %

n1

- -
x1 x2 ··· xr x x1 x2 x3 x4 x

Histograma Histograma

h 6 n 6

h2 n2

h3 n3
n2 A2
h1 n3 n1 A3
n1 A1
- -
L0 L1 L2 L3 x L0 L1 L2 L3 x
ni
ai = Li − Li−1 , hi = Ai = ai ni
ai

1.4. Medidas numéricas descriptivas


Una vez que se han recogido y graficado los datos, es conveniente definir algunas
medidas numéricas para describirlos. Existen dos medidas de especial interés para cual-
quier conjunto de datos: la localización de su centro y su variabilidad. Además, hay otras
medidas también importantes como la localización de los extremos y la forma en que se
distribuyen los datos.
6 Estadı́stica

1.4.1. Medidas de posición

1.4.1.1. Medidas de tendencia central

Estas medidas indican dónde se encuentra el centro de los datos

• Media muestral (x̄)


La medida de tendencia central más utilizada es la media muestral o simplemente
media,

r
x1 n1 + x2 n2 + · · · + xr nr 1 X
x̄ = = xi ni
n1 + n2 + · · · + nr N i=1

• Otros tipos de medias

– Media geométrica
x̄G = (x1 n1 · x2 n2 · · · xr nr )1/N

– Media cuadrática
r
x21 n1 + x22 n2 + · · · + x2r nr
x̄Q =
N

– Media armónica
N
x̄A = n1 n2 nr
+ +···+
x1 x2 xr

– Media ponderada
x1 p1 + x2 p2 + · · · + xr pr
x̄p =
p1 + p2 + · · · + pr

Se cumple: x̄A ≤ x̄G ≤ x̄ ≤ x̄Q

• Mediana (Me)
La mediana es la medida de tendencia central que, supuestos los valores de la muestra
ordenados en forma creciente, deja igual número de observaciones por debajo y por
encima de ella. Ası́, suponiendo que los valores de la muestra son x1 ≤ x2 ≤ · · · ≤ xN
1 Estadı́stica descriptiva 7


 N

 xN Si ∈
/N
 [ 2 ]+1 2
Me =

  
 1 xN + xN

Si
N
∈N
+1
2 2 2 2
donde los corchetes, [ ], indican la parte entera.

• Moda (Mo)
La moda se define como el valor de la muestra que tiene máxima frecuencia. La
moda no siempre es única. Ası́, si una muestra tiene dos modas se llamará bimodal,
si tiene tres modas trimodal, etc.

1.4.1.2. Cuantiles

Ya hemos visto que la mediana divide el conjunto de datos en dos partes de igual
tamaño. Para obtener medidas de localización más finas, solo es cuestión de dividir el
conjunto de datos en más de dos partes. De esta forma se definen los p-cuantiles, siendo p
la proporción de datos que deja el cuantil a su izquierda. Si tenemos la muestra ordenada
de forma creciente, x1 ≤ x2 ≤ · · · ≤ xN , el p-cuantil viene dado por


 x Si Np ∈
/N
 [N p]+1
xp =


 1 (x + x
Np N p+1 ) Si Np ∈ N
2
donde los corchetes, [ ], indican la parte entera. Los casos particulares de cuantiles más
utilizados son

• Cuartiles (Q1/4 , Q2/4 , Q3/4 )


Son los 3 valores de la muestra que dividen las observaciones en 4 partes iguales.

• Deciles (D1/10 , D2/10 , . . . , D9/10 )


Son los 9 valores de la muestra que dividen las observaciones en 10 partes iguales.

• Centiles o percentiles (P1/100 , P2/100 , . . . , P99/100 )


Son los 99 valores de la muestra que dividen las observaciones en 100 partes iguales.
8 Estadı́stica

1.4.2. Medidas de dispersión

1.4.2.1. Varianza y desviación tı́pica

Las medidas de dispersión más utilizadas son la varianza y la desviación tı́pica. La


varianza muestral, s2 , es un tipo de promedio de las desviaciones de los valores observados
respecto de su media, y se define como

r
2 (x1 − x̄)2 n1 + · · · + (xr − x̄)2 nr 1 X
s = = (xi − x̄)2 ni
(n1 + n2 + · · · + nr ) − 1 N − 1 i=1
La desviación tı́pica se define como la raı́z cuadrada de la varianza y tiene las mismas
dimensiones que los datos originales.
v
u r
√ u 1 X
s= s2 = t (xi − x̄)2 ni
N − 1 i=1

1.4.2.2. Desviación media

Se define la desviación media respecto de un parámetro cualquiera, p, como

r
1 X
DMp = |xi − p| ni
N i=1
donde, generalmente, como parámetro p se utiliza la media o la mediana.

1.4.2.3. Coeficiente de variación de Pearson

El coeficiente de variación de Pearson, definido como el cociente

s
C.V. = (x̄ 6= 0)

mide la dispersión de la distribución, al igual que la desviación tı́pica o la varianza, con
la ventaja de ser un coeficiente adimensional.

1.4.2.4. Recorrido

Es la diferencia entre el valor máximo y el valor mı́nimo que toma la muestra

R = máx{xi } − mı́n{xi }

Además, se define
1 Estadı́stica descriptiva 9

• Rango intercuartı́lico
RI = Q3/4 − Q1/4

• Rango semicuartı́lico
Q3/4 − Q1/4 RI
RSI = =
2 2

1.4.3. Medida de asimetrı́a


P
En un conjunto de datos simétricos respecto a su media, x̄, la suma (xi − x̄)3
será nula, mientras que con datos asimétricos esta suma crecerá con el grado de asimetrı́a.
Para obtener una medida adimensional del grado de asimetrı́a se define el coeficiente de
asimetrı́a o deformación como
P
n (xi − x̄)3
CA = (n ≥ 3 y s 6= 0)
(n − 1)(n − 2)s3
donde s es la desviación tı́pica de la muestra. Valores grandes y negativos de CA son
indicativos de asimetrı́a hacia la izquierda (x̄ <Me<Mo) mientras que valores grandes y
positivos son indicativos de asimetrı́a hacia la derecha (x̄ >Me>Mo).

1.4.4. Medida de apuntamiento


Para medir si una distribución de datos es más puntiaguda o más achatada de lo
“normal”, se define el coeficiente de apuntamiento o curtosis como

P
n(n + 1) (xi − x̄)4 3(n − 1)2
CAp = − (n ≥ 4 y s 6= 0)
(n − 1)(n − 2)(n − 3)s4 (n − 2)(n − 3)

donde s es la desviación tı́pica de la muestra. Si CAp> 0 indica que la distribución es


puntiaguda, mientras que si CAp< 0 indica que es achatada.
10 Estadı́stica
Análisis
2 combinatorio

Índice
2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.0.1. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 13
2.1.0.2. Con repetición . . . . . . . . . . . . . . . . . . . . . . 14
2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.0.3. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 14
2.2.0.4. Con repetición . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.0.5. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 15
2.3.0.6. Con repetición . . . . . . . . . . . . . . . . . . . . . . 16

11
12

El principal objetivo de la combinatoria –o, por lo menos en el que estamos aquı́ más
interesados– es el de hallar el cardinal de un conjunto finito o, dicho de otro modo, contar.
Una posible definición matemática de la acción que supone contar es la de establecer una
biyección entre el conjunto que se desea contar y los números naturales, de modo que
podamos enumerar los elementos como el uno, el dos, etc.
Es fácil, por ejemplo, contar el número de cuadrados perfectos que hay entre 100
y 1000. Basta observar que 100 = (9 + 1)2 y que el mayor cuadrado perfecto menor que
1000 es 961 = 312 = (9 + 22)2 . Hemos establecido una biyección entre el conjunto que
deseábamos contar y los naturales entre el 1 y el 22. Hay, por tanto, 22 cuadrados perfectos
entre 100 y 1000.
Sin embargo, la mayor parte de las veces, no es evidente –o siquiera posible– cómo
establecer tal biyección. Un primer procedimiento accesible en estos casos es el denominado
constructivo. Se trata de recorrer los pasos necesarios para formar todos los elementos del
conjunto anotando las alternativas que puedan elegirse en cada uno.
Veamos un ejemplo: ¿De cuántas maneras se pueden sentar tres chicas y tres chicos
en seis butacas consecutivas de un cine de forma que no haya dos chicas ni dos chicos
seguidos?
Hay que ocupar seis sitios. Los indicaremos gráficamente ası́:

La primera butaca puede ser ocupada por cualquiera de las seis personas.

|{z}
6
Elegida la primera persona hay 3 elecciones posibles, entre las personas de sexo
contrario, para ocupar el segundo lugar.

|{z} |{z}
6 3
La tercera butaca ha de ser ocupada por una de las 2 personas que quedan del mismo
sexo de la primera y la cuarta por una de las dos del sexo de la segunda.

|{z} |{z} |{z} |{z}


6 3 2 2
Y, para terminar, las dos últimas personas no tienen elección.

|{z} |{z} |{z} |{z} |{z} |{z}


6 3 2 2 1 1
2 Análisis combinatorio 13

En total hay, por tanto, 6 · 3 · 2 · 2 = 72 ordenaciones posibles.

La intuitiva multiplicación que proporciona el resultado final puede expresarse como


una regla general matemática:

Si los conjuntos A1 , A2 ,. . .,Ak tienen n1 , n2 , . . .,nk elementos respectivamente,

el producto cartesiano A1 × A2 × · · · × Ak tiene n1 · n2 · · · nk elementos.

En algunas ocasiones hay que resolver problemas que pueden reducirse a un pequeño
número de patrones o formas de contar. Estos patrones se estudian en la educación secun-
daria y haremos aquı́ sólamente un breve recordatorio. Sin embargo, la mayor parte de las
veces tendremos problemas que no corresponden exactamente a alguno de estos patrones.
Lo más recomendable suele ser recurrir antes a la lógica y al método constructivo que a
buscar hipotéticas fórmulas que resuelvan nuestro problema concreto.
Entre estos patrones fundamentales –que pueden resumirse esquemáticamente en la
tabla del final del capı́tulo – se encuentran los siguientes:

2.1. Permutaciones
Supongamos un conjunto de n elementos. Se llaman permutaciones de estos n ele-
mentos a las distintas ordenaciones que podemos hacer con ellos.

2.1.0.1. Sin repetición

El método anterior nos da fácilmente el número de permutaciones Pn que existen en


el conjunto si no se repite ningún elemento (es decir, si son todos distintos o distinguibles):
El primer elemento puede ser cualquiera de los n, el segundo cualquiera de los n − 1
restantes, el tercero cualquiera de los n − 2 restantes y ası́ sucesivamente.

|{z} |{z} |{z} ... |{z} |{z} |{z}


n n−1 n−2 3 2 1
El total de permutaciones de n elementos es, entonces:

Pn = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1 = n!
14 Estadı́stica

2.1.0.2. Con repetición

Supongamos ahora que no todos los n elementos del conjunto son distintos, sino que
hay r grupos de elementos iguales entre sı́ (o indistinguibles), digamos n1 de una clase,
n2 de otra, hasta nr de la última clase. Está claro que n1 + n2 + . . . + nr = n. ¿Cuántas
ordenaciones podrı́amos distinguir?
Un ejemplo tı́pico de este problema podrı́a ser el siguiente: disponemos de una bolsa
en la que hay 11 bolas iguales; cuatro de ellas tienen un 1 escrito, otras tres un 2 y las
cuatro restantes un 3. Sacando las once bolas una tras otra y anotando las cifras que
aparecen ¿Cuantos números distintos podemos obtener?
Otro ejemplo clásico: ¿Cuántas palabras distintas pueden formarse empleando las 8
letras del vocablo CASCARAS?
Pensemos en el problema general. Si los n elementos fueran distintos tendrı́amos n!
permutaciones posibles. Dada una cualquiera de ellas, podrı́amos sacar de la ordenación
los n1 elementos del primer grupo, reordenarlos arbitrariamente y volver a rellenar los
huecos que hubieran dejado libres sin que fuéramos capaces de distinguir la permutación
original del resultado final de esta operación. Lo mismo es cierto para los n2 elementos del
segundo grupo, los n3 del tercero, hasta los nr del último. Puesto que hay ni ! ordenaciones
parciales posibles de los elementos del grupo i-ésimo, tenemos que:
n!
P Rnn1 ,n2 ,...,nr =
n1 ! × n2 ! × · · · × nr !

2.2. Variaciones

2.2.0.3. Sin repetición

Sea ahora un conjunto de n elementos distintos. Se llama variación de r elementos


tomados de entre los n (Vn,r ) a una ordenación de un subconjunto de tamaño r.
Una variación de 3 elementos tomados de entre 7 es, por ejemplo, el podio (los 3
primeros clasificados) de una carrera con 7 inscritos.
Es muy fácil calcular el número de variaciones Vn,r . Basta observar que hay que
elegir r elementos de modo que el primero puede ser uno cualquiera de los n, el segundo
uno cualquiera de los n − 1 restantes y ası́ sucesivamente:

|{z} |{z} ... |{z} |{z}


n n−1 n−r+2 n−r+1
| {z }
r
2 Análisis combinatorio 15

Y aplicando la regla del producto cartesiano:

n!
Vn,r = n × (n − 1) × · · · × (n − r + 2) × (n − r + 1) =
(n − r)!

2.2.0.4. Con repetición

Supongamos ahora que cada elemento del conjunto original pueda ser repetido al
crear una ordenación de tamaño r. Se hablará entonces de variaciones con repetición de
r elementos tomados de entre n, V Rn,r .
Pensemos, por ejemplo, en las palabras de 8 letras que pueden formarse con el
alfabeto español. Hay que tomar 8 decisiones (cuál es la primera letra, cuál la segunda,
etc.) teniendo 27 posibilidades de elección cada vez (las 27 letras del alfabeto). El número

| × 27 × ·{z
total de palabras es, entonces 27 · · × 27 × 27} = 278 .
8veces
Es fácil observar que, en general:

V Rn,r = nr

2.3. Combinaciones
Una combinación de r elementos tomados de entre n es cualquier subconjunto de
tamaño r de un conjunto de n elementos. Es importante resaltar que en una combinación
no interviene el orden de los elementos: si sacamos tres bolas de una bolsa que contiene
diez, numeradas del uno al diez, podemos obtener las permutaciones distintas {1, 2, 7} y
{7, 1, 2} que, sin embargo, son un mismo subconjunto de tamaño 3 (el obtenido por unión
de {1}, {2} y {3}). Son, por tanto, la misma combinación.

2.3.0.5. Sin repetición

Siguiendo la idea del ejemplo anterior, una manera sencilla de contar las combina-
ciones de r elementos tomados entre n (Cn,r ) es observar que, de las n!/(n−r)! variaciones
posibles, r! de ellas son ordenaciones distintas de los mismos elementos y, por tanto, la
misma combinación. El número total de combinaciones será entonces:
!
n! n
Cn,r = =
(n − r)! r! r
16 Estadı́stica

2.3.0.6. Con repetición

Supongamos ahora que tenemos la libertad de repetir los elementos del conjunto
para formar un subconjunto de tamaño r, obtendremos una combinación con repetición
de r elementos tomados de entre n. En una de estas combinaciones cada uno de los n
elementos del conjunto puede aparecer 0, 1, 2, 3, . . ., hasta r veces. Cada combinación
puede ser descrita por una n-upla de números que indica cuántas veces aparece el elemento
1, el 2, y ası́ hasta el n. Evidentemente, la suma de las cifras de cada n-upla es r, puesto
que cada combinación consta de r elementos. El número total de n-uplas tales que la
suma de sus elementos sea r es el número de posibles combinaciones con repetición y lo
que deseamos calcular.
Olvidémonos por el momento de las combinaciones y pensemos en los siguientes
problemas:
Introducimos r bolas idénticas en n cajas. ¿Cuántas configuraciones finales distintas
podrı́amos reconocer?
¿Cuántas soluciones distintas tiene la ecuación k1 + k2 + · · · + kn = r si cada ki debe
ser un número natural ó 0?
Estos dos problemas aparentemente distintos son, en realidad, equivalentes. Supon-
gamos r bolas iguales y n cajas. Las introducimos y contamos cuántas bolas han caı́do en
la primera caja, cuántas en la segunda, la tercera y la cuarta. Cada configuración nos da
una n-upla de números (k1 , k2 , . . . , kn ) que resuelve el segundo problema.
Obsérvese, llegados a este punto, que el número de configuraciones distintas que
obtenemos al introducir r bolas en n cajas y el número de combinaciones que buscábamos
P
coinciden: ambas son el número de n-uplas (k1 , k2 , . . . , kn ) tales que la suma ni=1 ki = r.
Vamos a calcular este número empleando un sencillo y original argumento para el problema
de las bolas y las cajas.
Supongamos las n cajas colocadas una a continuación de la otra y pegadas entre sı́.
Representaremos las bolas mediante asteriscos y las cajas como los n espacios comprendi-
dos entre n + 1 barras (las paredes de las cajas). Por ejemplo, la secuencia | ∗ ∗ ∗ |||| ∗ ∗|| ∗ |
indica una manera de introducir 6 bolas en 7 cajas con el resultado de 3 en la primera,
2 en la quinta y 1 en la séptima. Cada secuencia que representemos empieza y termina
por una barra vertical, pero las restantes n − 1 barras y r asteriscos aparecen en un orden
arbitrario. Por lo tanto, el número de configuraciones distinguibles es igual al número de
formas de seleccionar r lugares de n + r − 1 posiciones posibles, es decir:
2 Análisis combinatorio 17

!
(n + r − 1)! n+r−1
CRn,r = =
(n − 1)! r! r

Otro ejemplo clásico que puede reducirse al de introducir r bolas en n cajas: ¿Cuántas
derivadas parciales de orden r diferentes existen para una función analı́tica de n variables
f (x1 , x2 , . . . , xn )?
Por ser una función analı́tica, las derivadas parciales de orden r no dependen del
orden de la derivación, sino sólo del número de veces que cada variable aparece. Si identi-
ficamos cada variable con una celda, cada configuración obtenida al introducir r bolas nos
da, de nuevo, una derivada posible de orden r. Hay, por tanto CRn,r derivadas distintas
de f .
COMBINATORIA
18

n n!
3 Cn,r =
no =
r
!

puedo 
r! (n − r)!

repetir Q
Q
 si QQ
s

n+r−1
=
(n + r − 1)!
CRn,r =
 r
!


r! (n − 1)!
no 





interviene 
el 
B
orden B
B
B
B no
3 Vn,r = n × (n − 1) × · · · × (n − r + 1)
B  cojo 
si B 
no  todos Q
B  Q
B  si QQ
s
B  Pn = n!
B 
BN 
puedo 
repetir A
A
A
A r
A 3 V Rn,r = n
me dicen no
si A cuantas veces 
A Q
AU se repite Q
cada uno si QQ
s n!
P Rnn1 ,n2 ,...,nr =
n1 ! × n2 ! × · · · × nr !
Estadı́stica
3 Álgebra
de sucesos

Índice
3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1. Unión de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2. Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3. Propiedades de la unión y la intersección . . . . . . . . . . . . 21
3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . 22

19
20 Estadı́stica

3.1. Experimento aleatorio


Por experimento entenderemos cualquier acción que pueda dar lugar a resultados
identificables. Suponemos que podemos repetir el experimento gran número de veces bajo
las mismas condiciones, y que todos los posibles resultados son conocidos antes de la
realización del mismo.
Si los resultados del experimento pueden ser distintos y no se sabe cuál de ellos
aparecerá al final, el experimento se llamará aleatorio. Si el resultado del experimento es
conocido de antemano, se llamará determinista.

3.2. Sucesos
Llamaremos sucesos elementales de un experimento a un conjunto de resultados
posibles que cumplen:

1. Siempre ocurre alguno de ellos

2. Son mutuamente excluyentes, es decir, la ocurrencia de uno de ellos implica la no


ocurrencia de los demás

Llamaremos espacio muestral, E, al conjunto de todos los posibles resultados de un


experimento aleatorio. Si, por ejemplo, el experimento consiste en lanzar una moneda dos
veces, el espacio muestral lo forman cuatro sucesos elementales, E = {c c, c +, + c, ++}.
En un experimento aleatorio podemos estar interesados no en un suceso elemental,
sino en un conjunto de sucesos elementales, conjunto que llamaremos suceso compuesto,
es decir, un subconjunto del espacio muestral (que se obtiene mediante la unión de sucesos
elementales). En el ejemplo anterior, un suceso compuesto serı́a obtener exactamente una
cara, S = {c +, + c}
Si el único resultado que interesa del experimento es el mismo espacio muestral E,
estamos ante el suceso seguro; mientras que si el resultado deseado es no obtener ninguno
de los sucesos contenidos en E, tenemos el suceso imposible.
3 Álgebra de sucesos 21

3.3. Operaciones con sucesos

3.3.1. Unión de sucesos


n
!
[
Dados n sucesos S1 , S2 , . . . , Sn , la operación unión de ellos Si es otro suceso
i=1
constituido por los elementos comunes y no comunes a los sucesos S1 , S2 , . . . , Sn . Es decir,
un suceso que aparece cuando tiene lugar S1 ó S2 ó · · · ó Sn .

3.3.2. Intersección de sucesos


n
!
\
Dados n sucesos S1 , S2 , . . . , Sn , la operación intersección de ellos Si es otro
i=1
suceso constituido por los elementos comunes a los sucesos S1 , S2 , . . . , Sn . Es decir, un
suceso que aparece cuando tiene lugar S1 y S2 y · · · y Sn .
Cuando n sucesos !no tienen ningún elemento común, su intersección es igual al
n
\
suceso vacı́o Si = ∅ , y se dice que los sucesos son disjuntos o incompatibles. Como
i=1
caso particular, n sucesos son disjuntos dos a dos si Si ∩ Sj = ∅ ∀i 6= j.
Si n sucesos
! son disjuntos dos a dos y la unión de todos ellos es el espacio muestral,
n
[
Si = E , se dice que los sucesos Si forman una partición del espacio muestral E.
i=1
La definición de partición se puede ampliar a un conjunto numerable de sucesos disjuntos
[∞
dos a dos y tales que Si = E.
i=1

3.3.3. Propiedades de la unión y la intersección


• Conmutativa
S1 ∪ S2 = S2 ∪ S1
S1 ∩ S2 = S2 ∩ S1

• Asociativa
S1 ∪ (S2 ∪ S3 ) = (S1 ∪ S2 ) ∪ S3
S1 ∩ (S2 ∩ S3 ) = (S1 ∩ S2 ) ∩ S3

• Distributiva
S1 ∪ (S2 ∩ S3 ) = (S1 ∪ S2 ) ∩ (S1 ∪ S3 )
S1 ∩ (S2 ∪ S3 ) = (S1 ∩ S2 ) ∪ (S1 ∩ S3 )
22 Estadı́stica

3.3.4. Diferencia de sucesos


Dados dos sucesos S1 y S2 , la operación diferencia (S1 − S2 ) es el suceso integrado
por los elementos de S1 que no pertenecen a S2 . Es decir, el suceso que tiene lugar cuando
sucede S1 y no sucede S2 . La operación diferencia no goza de la propiedad conmutativa,
pues, en general, S1 − S2 6= S2 − S1 .

3.3.5. Suceso complementario


El complementario de un suceso S, que notaremos por S̄, es la diferencia entre el
espacio muestral, E, y el suceso S, es decir S̄ = E − S. Es el suceso compuesto por los
elementos de E que no pertenecen a S.
¯=S
Se comprueba fácilmente que S ∪ S̄ = E, S ∩ S̄ = ∅ y S̄

• Leyes de De Morgan
n
! n
[ \
Si = S̄i
i=1 i=1

n
! n
\ [
Si = S̄i
i=1 i=1
Teorı́a de
4 la probabilidad

Índice
4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . 24
4.1.3. Axiomática del cálculo de probabilidades . . . . . . . . . . . . 26
4.1.3.1. Álgebra de sucesos . . . . . . . . . . . . . . . . . . . . 26
4.1.4. Axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . 28
4.2. Teoremas del cálculo de probabilidades . . . . . . . . . . . . . 29
4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 31
4.3.1. Regla de la multiplicación . . . . . . . . . . . . . . . . . . . . . 32
4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . 33
4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . 34

23
24 Estadı́stica

4.1. Concepto de probabilidad

4.1.1. Probabilidad clásica


Laplace define la probabilidad de un suceso como el cociente entre el número de casos
favorables y el número de casos posibles, siempre que todos sean igualmente posibles.
De la definición clásica de probabilidad se desprenden una serie de propiedades (S
denota cualquier suceso ya sea compuesto o elemental):

• P (S) ≥ 0

• P (S) ≤ 1

• Si tenemos dos sucesos disjuntos S1 y S2 , y su unión es S = S1 ∪ S2 , entonces


P (S) = P (S1 ∪ S2 ) = P (S1 ) + P (S2 )

• Si S̄ es el suceso complementario de S, entonces P (S̄) = 1 − P (S)

La probabilidad clásica supone que el número de casos posibles sea finito.

4.1.2. Probabilidad frecuentista


Esta teorı́a se basa en dos aspectos fundamentales :

– La estabilidad de las frecuencias o regularidad estadı́stica :

En un experimento aleatorio, a pesar del comportamiento irregular de los


resultados individuales, los resultados promedios, en largas sucesiones de
experimentos aleatorios, muestran una sorprendente regularidad.

– La objetividad de la probabilidad

La probabilidad es una propiedad fı́sica de los objetos como la densidad,


la temperatura, etc, y por tanto, medible.
4 Teorı́a de la probabilidad 25

Si realizamos un experimento N veces, el número de veces, n, que ocurre un suceso


particular, S, es su frecuencia absoluta, mientras que la frecuencia relativa se define como
f (S) = n/N. Ası́, la teorı́a frecuentista define la probabilidad del suceso S como el lı́mite
n
P (S) = lı́m f (S) = lı́m
N →∞ N →∞ N

Las frecuencias relativas verifican una serie de propiedades fácilmente demostrables:

• 0 ≤ f (S) ≤ 1
n
[
• Sean S1 , S2 , . . . , Sn sucesos disjuntos dos a dos y S = Si , entonces
i=1
n
X n
X n
n 1 ni X
f (S) = = ni = = f (Si )
N N i=1 i=1
N i=1

Por todo ello, al identificar la probabilidad de un suceso con el valor tomado en el


lı́mite por la frecuencia relativa, se admite que

n
X
0 ≤ P (S) ≤ 1 y P (S) = P (Si )
i=1
Para poder definir la probabilidad frecuentista, debemos imponer dos condiciones

1. En la secuencia de observaciones, existe el lı́mite de las frecuencias relativas (prin-


cipio de existencia del lı́mite).

2. Considerada aleatoriamente cualquier subsecuencia dentro del colectivo, existe en


ella el lı́mite de la frecuencia relativa y es igual al obtenido en todo el colectivo
(principio de aleatoriedad).

Al igual que la teorı́a clásica, esta teorı́a también tiene sus inconvenientes :

– Del principio de existencia del lı́mite se deduce que esta teorı́a de la probabilidad
no puede aplicarse a sucesos que no puedan repetirse.

– Es necesario realizar el experimento para obtener la frecuencia relativa corres-


pondiente al suceso en cuestión.

– Habrı́a que realizar el experimento infinitas veces para calcular el lı́mite, pues las
reglas del cálculo de lı́mites sólo son aplicables a sucesiones no aleatorias, donde
se supone que existe un término general.
26 Estadı́stica

4.1.3. Axiomática del cálculo de probabilidades


Las limitaciones de las teorı́as clásica y frecuentista de la probabilidad hacen im-
posible la formalización matemática de la asignación de un modelo matemático a la pro-
babilidad, consiguiéndose éste con el planteamiento axiomático de Kolmogorov (1933), al
poner en relación la teorı́a de la probabilidad con la de conjuntos y con la teorı́a de la
medida.
El planteamiento de Kolmogorov presenta la limitación de no proporcionar un méto-
do práctico de obtención de probabilidades de sucesos en el mundo real. Para salvar esta
importante limitación, Kolmogorov establece la conexión del modelo matemático con el
mundo real recurriendo a la base empı́rica de la teorı́a frecuentista, al considerar que si un
experimento aleatorio se repite gran número de veces, la frecuencia relativa de un suceso
diferirá ligeramente de la probabilidad del suceso.

4.1.3.1. Álgebra de sucesos

En el experimento del dado, el espacio muestral es el conjunto E = {1, 2, 3, 4, 5, 6},


pudiendo plantearse preguntas como : ¿qué probabilidad hay de obtener el número 5 en
una tirada? En la pregunta, el suceso es 5, uno de los sucesos elementales constitutivos del
espacio muestral E. Sin embargo, existen otras muchas preguntas en las que se formulan
sucesos compuestos, como la obtención de : {número par}, {número distinto de 5}, etc.
Todos estos sucesos compuestos tienen un denominador común : no figuran explı́citamente
en el espacio muestral E, aunque proceden de los elementos constitutivos de él. Esto tiene
como consecuencia que el número de sucesos que pueden plantearse en un experimento
aleatorio es superior al de sucesos elementales integrantes de E, y son generados desde
E mediante las operaciones de unión, intersección y complementariedad, constituyendo
todos ellos un nuevo conjunto denominado álgebra.
Lo anterior puede formalizarse de la siguiente manera : sea E el espacio muestral in-
tegrado por sucesos elementales. Sea A una colección de subconjuntos de E, cumpliéndose
las siguientes condiciones :

1. El espacio muestral, E, pertenece a A.

2. Si un suceso S pertenece a A, también pertenece su complementario S̄. Como


consecuencia, el conjunto vacı́o, ∅, pertenece a A.
4 Teorı́a de la probabilidad 27

3. Si S1 y S2 son dos subconjuntos de A, su unión, S1 ∪ S2 , pertenece a A; y por


tanto también su intersección, S1 ∩ S2 .

La colección de sucesos que cumple las tres condiciones se denomina álgebra de


Boole, siendo extensible a cualquier número finito de sucesos, sin más que reiterar las
operaciones de unión e intersección.
Si en vez de tener n sucesos tenemos una sucesión numerable, S1 , S2 , . . . , Sn , . . . ,

[ \∞
pertenecientes a A, entonces Si y Si también pertenecen a A, la colección recibe
i=1 i=1
el nombre de σ-álgebra, que representaremos por Ω. El par (E, Ω) recibe el nombre de
espacio probabilizable o medible.
Mediante dos ejemplos podremos apreciar con claridad la formación de una σ-álgebra
de sucesos, Ω, a partir de los elementos de un espacio muestral, E.
En el primer caso tenemos el espacio muestral E = {1, 2, 3} y como σ-álgebra Ω, la
σ-álgebra completa que puede generarse desde él :

E −−−−−−−−−−−→ Ω
{ningún elemento}={∅}
{1}
{2}
1 {3}
2 −→
3 {no obtener el 1}={{2} ∪ {3}}
{no obtener el 2}={{1} ∪ {3}}
{no obtener el 3}={{1} ∪ {2}}
{cualquier elemento}={E}

En el segundo ejemplo hemos elegido como σ-álgebra Ω de interés el número de


caras resultante de lanzar una moneda dos veces :
E −−−−−−−−−−−→ Ω
{ningún elemento}={∅}
{2 caras}={c c}
cc {como mı́nimo una cara}={{c c} ∪ {c +} ∪ {+ c}}
c+ {como máximo una cara}={{c +} ∪ {+ c} ∪ {+ +}}
+c −→
{1 cara}={{c +} ∪ {+ c}}
++
{no obtener una cara}={{c c} ∪ {+ +}}
{0 caras}={++}
{cualquier elemento}={E}
28 Estadı́stica

4.1.4. Axiomática de Kolmogorov


El sistema axiomático de Kolmogorov consta de tres axiomas :

A1. Si S es un suceso de una σ-álgebra, Ω, existe un número P (S) ≥ 0, denominado


probabilidad del suceso S

A2. P (E) = 1

A3. Dada una sucesión numerable de sucesos S1 , S2 , . . . , Sn , . . ., disjuntos dos a dos,


se verifica que

[ ∞
X
P( Si ) = P (Si )
i=1 i=1

La tripleta (E, Ω, P ) se conoce como espacio probabilı́stico.


Ampliamos el doble ejemplo de espacio probabilizable (E, Ω) para disponer del es-
pacio probabilı́stico (E, Ω, P ).
En el primer caso, suponemos que P (1) = 3/12, P (2) = 4/12 y P (3)=5/12

E −−−−−−−−−−−→ Ω −−−−−−−−→ P
{ningún elemento}={∅} −→ 0
{1} −→ 3/12
{2} −→ 4/12
1 {3} −→ 5/12
2 −→
3 {no obtener el 1}={{2} ∪ {3}} −→ 9/12
{no obtener el 2}={{1} ∪ {3}} −→ 8/12
{no obtener el 3}={{1} ∪ {2}} −→ 7/12
{cualquier elemento}={E} −→ 1
4 Teorı́a de la probabilidad 29

En el segundo ejemplo, se supone que P (c c) = P (c +) = P (+ c) = P (+ +) = 1/4

E −−−−−−−−−−−−−−−−−−→ Ω −−−−−−−−−−−−−−−−−→ P
{ningún elemento}={∅} −→ 0
{2 caras}={c c} −→ 1/4
{como mı́nimo una cara}={{c c} ∪ {c +} ∪ {+ c}} −→ 3/4
cc
c+ {como máximo una cara}={{c +} ∪ {+ c} ∪ {+ +}} −→ 3/4
+ c −→ {1 cara}={{c +} ∪ {+ c}} −→ 2/4
++
{no obtener una cara}={{c c} ∪ {+ +}} −→ 2/4
{0 caras}={++} −→ 1/4
{cualquier elemento}={E} −→ 1

4.2. Teoremas del cálculo de probabilidades


TEOREMA 1. La probabilidad del suceso imposible es cero : P (∅) = 0
Sea una sucesión de sucesos disjuntos dos a dos S1 , . . . , Sn ,!. . . , todos ellos iguales
[∞ X∞
al suceso imposible (Si = ∅). Según el tercer Axioma P Si = P (Si ), es decir
i=1 i=1

X
P (∅) = P (∅), y por el Axioma 1, debe ser P (∅) = 0
i=1

TEOREMA 2. La probabilidad de la unión de n sucesos disjuntos dos a dos, S1 , . . . , Sn ,


es igual a la suma de las probabilidades :
n
! n
[ X
P Si = P (Si )
i=1 i=1

Consideremos la sucesión numerable S1 , . . . , Sn , Sn+1 , Sn+2, . . . , siendo los sucesos


Sn+1 = ∅, Sn+2 = ∅, . . . Según el tercer Axioma

! ∞
[ X
P Si = P (Si )
i=1 i=1

es decir,

! " n
! ∞
!# " n
!# ∞ n
[ [ [ [ X X
P Si =P Si ∪ Si =P Si = P (Si ) = P (Si )
i=1 i=1 i=n+1 i=1 i=1 i=1

TEOREMA 3. La probabilidad de la unión de dos sucesos cualesquiera, S1 y S2 viene


dada por P (S1 ∪ S2 ) = P (S1 ) + P (S2 ) − P (S1 ∩ S2 )
Descomponemos los sucesos S1 ∪ S2 , S1 y S2 en uniones de sucesos disjuntos :
30 Estadı́stica

S1 ∪ S2 = (S1 ∩ S¯2 ) ∪ (S¯1 ∩ S2 ) ∪ (S1 ∩ S2 )


S1 = (S1 ∩ S¯2 ) ∪ (S1 ∩ S2 )
S2 = (S¯1 ∩ S2 ) ∪ (S1 ∩ S2 )
por el teorema 2,

P (S1 ∪ S2 ) = P (S1 ∩ S¯2 ) + P (S¯1 ∩ S2 ) + P (S1 ∩ S2 )


P (S1) = P (S1 ∩ S¯2 ) + P (S1 ∩ S2 )
P (S2) = P (S¯1 ∩ S2 ) + P (S1 ∩ S2 )

por tanto,
P (S1 ∪ S2 ) = P (S1 ) + P (S2 ) − P (S1 ∩ S2 )

Para n sucesos :
n
! n n n
[ X X X
P Si = P (Si ) − P (Si ∩ Sj ) + P (Si ∩ Sj ∩ Sk ) +
i=1 i=1 i<j i<j<k

+ · · · + (−1)n+1 P (S1 ∩ S2 ∩ · · · ∩ Sn )

TEOREMA 4. Si un suceso S1 está contenido en otro S, (S1 ⊂ S), se verifica que


P (S1 ) ≤ P (S)
Descomponemos el suceso S en la unión de dos sucesos disjuntos

S = (S1 ∩ S) ∪ (S¯1 ∩ S)

por el teorema 2,
P (S) = P (S1 ∩ S) + P (S¯1 ∩ S)

Por el Axioma 1, P (S¯1 ∩ S) ≥ 0, por tanto P (S) ≥ P (S1 ∩ S), pero S1 ∩ S = S1 ,


con lo que P (S1 ) ≤ P (S)

TEOREMA 5. La probabilidad de cualquier suceso es menor o igual que la unidad :


P (S) ≤ 1
Todo suceso, S, está contenido en el suceso seguro (S ⊂ E), por tanto P (S) ≤
P (E) ≤ 1

TEOREMA 6. La probabilidad del suceso complementario S̄ es P (S̄) = 1 − P (S)


Siendo S y S̄ disjuntos y tales que S ∪ S̄ = E, se tiene que

P (E) = P (S) + P (S̄) = 1 ⇒ P (S̄) = 1 − P (S)


4 Teorı́a de la probabilidad 31

4.3. Probabilidad condicional


Consideremos las dos situaciones siguientes : acertar si la puntuación resultante de
lanzar un dado perfecto es 2, o acertarla sabiendo que ha salido un número par. No cabe
duda que las dos situaciones son distintas en cuanto a nuestra certidumbre de ganar, pues
parece más fácil lograrlo en la segunda que en la primera. Este planteamiento conduce a un
nuevo tipo de sucesos denominados condicionados, y de aquı́ a la probabilidad condicional.
En el ejemplo anterior, la probabilidad de obtener un 2 es 1/6. Si sabemos que ha
salido un número par, la probabilidad de que sea 2 es 1/3. La diferencia en el valor de
la probabilidad se debe a que tenemos más información en el segundo caso. El efecto
de la información se centra en el espacio muestral. Si no existe ninguna información, el
espacio muestral es E = {1, 2, 3, 4, 5, 6}, y si existe información, el espacio muestral se
reduce a E = {2, 4, 6}. En esta situación, el conocimiento del suceso {par} condiciona la
probabilidad de obtener el suceso {número 2}, denominando al primero condicionante y
al segundo condicionado, y designándolo por {número 2/par}. Establecida la existencia
de los sucesos condicionados, pasamos a su estudio.
Dados dos sucesos S1 y S, el suceso S1 está condicionado por el suceso S si la proba-
bilidad de que suceda S1 depende de que haya sucedido S, y la probabilidad condicional
se define como
P (S1 ∩ S)
P (S1 /S) =
P (S)
siempre que P (S) > 0.
Hemos visto que la consecuencia de disponer de la información proporcionada por el
conocimiento de la presencia del suceso S, radica en la modificación del espacio muestral
E, dando lugar a un nuevo espacio muestral ES = E ∩ S. Este espacio muestral genera, a
su vez, una nueva σ-álgebra ΩS = Ω ∩ S y teniendo, por último, una nueva probabilidad
sobre ΩS , que denominaremos PS y que ya hemos definido como PS (S1 ) = P (S1 /S). El
espacio probabilı́stico resultante es (S, ΩS , PS ), siempre que P (S) > 0.
Para concluir que PS es realmente una probabilidad, debemos comprobar que verifica
los tres axiomas de Kolmogorov.

1 PS (S1 ) ≥ 0
Según la definición de probabilidad condicional,

P (S1 ∩ S)
PS (S1 ) = P (S1 /S) =
P (S)

y por el Axioma 1, P (S1 ∩ S) ≥ 0 y P (S) > 0, por tanto, PS (S1 ) ≥ 0


32 Estadı́stica

2 PS (ES ) = 1

P (ES ∩ S) P (S)
PS (ES ) = P (ES /S) = = =1
P (S) P (S)

! ∞
[ X
3 PS Si = PS (Si ) siendo los Si disjuntos dos a dos
i=1 i=1

Por la propiedad distributiva,



! ∞
[ [
Si ∩S = (Si ∩ S)
i=1 i=1

por tanto,
" ∞
! # "∞ #
[ [

! ∞
! P Si ∩S P (Si ∩ S)
[ [ i=1 i=1
PS Si =P Si /S = = =
i=1 i=1
P (S) P (S)

X
P (Si ∩ S) ∞ ∞ ∞
i=1
X P (Si ∩ S) X X
= = = P (Si /S) = PS (Si )
P (S) i=1
P (S) i=1 i=1
La definición de probabilidad condicional se extiende fácilmente a más de dos suce-
sos. Por ejemplo, para tres sucesos S1 , S2 y S3 , tenemos

P (S1 ∩ S2 ∩ S3 )
P (S1 /S2 ∩ S3 ) =
P (S2 ∩ S3 )

P (S1 ∩ S2 ∩ S3 )
P (S1 ∩ S2 /S3 ) =
P (S3 )

4.3.1. Regla de la multiplicación


Dados n sucesos, S1 , . . . , Sn , se verifica
n
!
\
P Si = P (S1 )P (S2/S1 )P (S3 /S1 ∩ S2 ) · · · P (Sn /S1 ∩ S2 ∩ · · · ∩ Sn−1 )
i=1

Demostramos este teorema por inducción. Comenzamos con dos sucesos S1 y S2


P (S1 ∩ S2 )
P (S2 /S1 ) = ⇒ P (S1 ∩ S2 ) = P (S1 )P (S2 /S1 )
P (S1 )
Pasamos a tres sucesos S1 , S2 y S3
P (S1 ∩ S2 ∩ S3 ) P (S1 ∩ S2 ∩ S3 )
P (S3 /S1 ∩ S2 ) = = ⇒
P (S1 ∩ S2 ) P (S1 )P (S2/S1 )
4 Teorı́a de la probabilidad 33

P (S1 ∩ S2 ∩ S3 ) = P (S1 )P (S2 /S1 )P (S3 /S1 ∩ S2 )

y ası́ sucesivamente

4.3.2. Teorema de la probabilidad total


Dados un suceso A y n sucesos, S1 , . . . , Sn , disjuntos dos a dos, Si ∩ Sj = ∅, tales que
n
[
Si = E, y A ∩ Si 6= ∅ ∀i, se verifica
i=1

n
X
P (A) = P (A/Si )P (Si )
i=1

Para la demostración de este teorema, descomponemos el suceso A de la siguiente


forma !
n
[ n
[
A=A∩E =A∩ Si = (A ∩ Si )
i=1 i=1

Tomando probabilidades, y teniendo en cuenta que los sucesos {A ∩ Si } son disjuntos dos
a dos, " #
n
[ n
X n
X
P (A) = P (A ∩ Si ) = P (A ∩ Si ) = P (A/Si )P (Si )
i=1 i=1 i=1

4.3.3. Teorema de Bayes


Dados un suceso A y n sucesos, S1 , . . . , Sn , disjuntos dos a dos, Si ∩ Sj = ∅, tales que
n
[
Si = E, y A ∩ Si 6= ∅ ∀i, se verifica
i=1

P (A/Si )P (Si )
P (Si /A) = n
X
P (A/Si )P (Si )
i=1

Por la definición de probabilidad condicional


P (A ∩ Si )
P (A/Si ) =
P (Si )

P (A ∩ Si )
P (Si /A) =
P (A)
Por tanto,
P (A/Si )P (Si )
P (A ∩ Si ) = P (Si /A)P (A) = P (A/Si )P (Si ) ⇒ P (Si /A) =
P (A)
34 Estadı́stica

y, del teorema de la probabilidad total resulta

P (A/Si )P (Si )
P (Si /A) = n
X
P (A/Si )P (Si )
i=1

4.4. Independencia de sucesos


Consideremos el siguiente ejemplo. Una urna contiene 8 bolas blancas y 4 bolas
negras. Se extraen consecutivamente dos bolas, y queremos determinar la probabilidad de
que la segunda bola sea blanca. Para calcular esta probabilidad, debemos diferenciar los
dos tipos de extracción, con o sin reemplazamiento.
Cuando realizamos la extracción sin reemplazamiento, la probabilidad buscada es-
tará condicionada por el color de la primera bola. Es decir, si la primera bola sacada
es blanca, la probabilidad de que la segunda también lo sea es 7/11, mientras que si la
primera bola es negra, la probabilidad de que la segunda sea blanca es 8/11.
Si realizamos la extracción con reemplazamiento, la probabilidad de que la segunda
bola sea blanca es 8/12, sea cual sea el color de la primera bola sacada.
En el primer caso, el color de la segunda bola está condicionado por el color de la
primera bola (sucesos condicionados), mientras que en la extracción con reemplazamien-
to, el color de la segunda bola es independiente del color de la primera bola (sucesos
independientes).
Dos sucesos, S1 y S2 , son independientes si

P (S1 ∩ S2 ) = P (S1 )P (S2)

es decir, cuando P (S1 /S2 ) = P (S1 ) y P (S2/S1 ) = P (S2)


En el caso de tres sucesos, S1 , S2 , S3 , para que sean independientes, han de cumplirse
las cuatro condiciones siguientes

P (S1 ∩ S2 ) = P (S1 )P (S2)


P (S1 ∩ S3 ) = P (S1 )P (S3)
P (S2 ∩ S3 ) = P (S2 )P (S3)
P (S1 ∩ S2 ∩ S3 ) = P (S1 )P (S2 )P (S3)

El cumplimiento de las tres primeras condiciones no implica el de la cuarta. Los


sucesos que cumplen sólo las tres primeras condiciones reciben el nombre de sucesos
independientes dos a dos.
4 Teorı́a de la probabilidad 35

Propiedad. Si S1 y S2 son dos sucesos independientes. Entonces,

S1 y S¯2 son independientes (⇒ S¯1 y S¯2 son independientes)

Descomponemos el suceso S1 en unión de dos sucesos disjuntos,

S1 = (S1 ∩ S¯2 ) ∪ (S1 ∩ S2 )

entonces

P (S1 ) = P (S1 ∩ S¯2 ) + P (S1 ∩ S2 ) = P (S1 ∩ S¯2 ) + P (S1 )P (S2 ) ⇒

P (S1 ∩ S¯2 ) = P (S1) − P (S1 )P (S2 ) = P (S1 )[1 − P (S2 )] = P (S1 )P (S¯2 )
36 Estadı́stica
Variable aleatoria
5 unidimensional

Índice
5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.1. Definición matemática . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.2. Definición intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 40
5.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . 41
5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . 42
5.3.1. Función de distribución y función de densidad . . . . . . . . . . 42
5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . 44
5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . 46
5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 46
5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . 48
5.5.3. Transformación integral . . . . . . . . . . . . . . . . . . . . . . 49
5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . 50

37
38 Estadı́stica

5.1. Variable aleatoria

5.1.1. Definición matemática


Dado un espacio probabilı́stico, (E, Ω, P ), pretendemos asignar un número a cada
uno de los sucesos elementales, Ai , del espacio muestral. Es decir, creamos una función
X, llamada variable aleatoria, definida en E, que toma valores en R, con la condición de
que
X −1 (b) = {Ai ∈ E/X(Ai ) ∈ b} ∈ Ω

siendo b = (x, y) ó [x, y] ó (x, y] ó [x, y) ó [x, x] con − ∞ ≤ x, y ≤ +∞ es decir, b es un


subconjunto de la σ-álgebra completa de R, llamada σ-álgebra de Borel.
Veamos un par de ejemplos. Consideremos el experimento de lanzar una moneda
dos veces. Entonces
E = {{c, c}, {c, +}, {+, c}, {+, +}} = {A1 , A2 , A3 , A4 }
Ω = {∅, A1 , A4 , A2 ∪ A3 , A1 ∪ A2 ∪ A3 , A4 ∪ A2 ∪ A3 , A1 ∪ A4 , E} = {S1 , . . . , S8 }
Y : E −→ R X: E −→ R
A1 −→ 2 A1 −→ 2
A2 −→ 1 A2 −→ 1
A3 −→ 5 A3 −→ 1
A4 −→ 0 A4 −→ 0
En el primer caso,

Y −1 ((4, 5]) = {Ai ∈ E/4 < Y (Ai ) ≤ 5} = A3 ∈


/Ω

por tanto, Y no es una variable aleatoria de este espacio probabilı́stico (E, Ω, P ). En


cambio, si consideramos la σ−álgebra completa, Y sı́ es una variable aleatoria para este
nuevo espacio probabilı́stico.
En el segundo caso, es fácil comprobar que

X −1 (b) = {Ai ∈ E/X(Ai ) ∈ b} ∈ Ω ∀ b ∈ B

El hecho de que X sea una v.a. de (E, Ω, P ) está directamente relacionado con la
intención con la que se creó el σ−álgebra Ω. Al tomar como sucesos que definen Ω los
sucesos A1 , A4 y A2 ∪ A3 , estamos diciendo que lo que nos interesa del experimento es el
número de caras, lo que está de acuerdo con la filosofı́a de X.
Si el número de valores que toma la variable aleatoria es finito o infinito numerable,
se dice que es una variable aleatoria discreta. Si toma un número infinito no numerable
5 Variable aleatoria unidimensional 39

de valores se dice que es continua. Además, una v.a. puede ser discreta en un conjunto
numerable de puntos y continua en el resto. En este caso, se dice que es mixta.

5.1.2. Definición intuitiva


Una variable aleatoria es una regla que asigna a cada suceso un número real. Se
puede interpretar, por tanto, como una función que toma valores en el espacio muestral E
y devuelve números reales. El uso de variables aleatorias permite, como veremos, cambiar
el álgebra de sucesos por el cálculo con números reales, facilitando enormemente el manejo
de probabilidades asociadas a experimentos aleatorios.
Al definir una variable aleatoria cada suceso se convierte en un subconjunto de la
recta real (en general un intervalo o un punto). En este sentido, uno de los conceptos
fundamentales es el de sucesos generados por variables aleatorias. Supongamos un ex-
perimento aleatorio con espacio muestral E. Si asignamos a cada suceso elemental un
número real (en principio de manera arbitraria) hemos definido una variable aleatoria X.
Manejaremos la notación

{X ≤ x} ≡ conjunto unión de todos los sucesos de E a los que X asigna un


número menor o igual que x.

De la misma manera se pueden definir los conjuntos {x1 < X ≤ x2 } ó {x1 ≤ X ≤ x2 }


ó {X ≥ x} ó {X = x}. Obsérvese que en cada caso hemos convertido un determinado
suceso (puesto que cualquier unión de sucesos elementales lo es) en un intervalo o punto de
la recta real. P ({X ≤ x}) será entonces la probabilidad de que ocurra el suceso definido
por {X ≤ x}. Abusando de la notación prescindiremos en lo sucesivo de las llaves y
escribiremos P (X ≤ x).
Consideremos por ejemplo el experimento de lanzar un dado. El espacio muestral
está formado por seis sucesos elementales E = {Si }i=1,...,6 donde Si ≡ valor obtenido en
la tirada es i. Podemos definir una variable aleatoria X asignando al suceso Si el número
10i. Ası́:

S S
• {X ≤ 35} = S1 S2 S3 . El suceso representado es que salga 1, 2 ó 3.
S
• {20 ≤ X ≤ 35} = S2 S3 . El suceso representado es que salga 2 ó 3.
S
• {20 < X ≤ 35} = S2 S3 . El suceso representado es que salga 3.

• {X ≤ 5} = ∅. Suceso imposible.
40 Estadı́stica

• {X = 40} = S4 . El suceso representado es que salga un 4.

• {X = 35} = ∅. Suceso imposible.

Las probabilidades asociadas serán: P (X ≤ 35) = 1/2, P (20 ≤ X ≤ 35) = 1/3,


P (20 < X ≤ 35) = 1/6, P (X = 5) = 0, P (X = 40) = 1/6, P (X = 35) = 0.
Para el mismo experimento podrı́amos haber definido una variable asignando 0 a los
sucesos S2 , S4 y S6 y 1 a S1 , S3 y S5 . Parece claro que ésta última variable resultará útil
si sólo nos interesa que el resultado del experimento haya sido la obtención de un número
par o uno impar.

5.2. Variable aleatoria discreta

5.2.1. Función de probabilidad


Una vez que hemos definido una variable aleatoria, X, podemos definir una función,
llamada función de probabilidad asociada a X, de la siguiente forma

f : R −→ [0, 1]
x −→ f (x) = P (X = x)

En particular, refiriéndonos al ejemplo de las dos monedas, tenemos

f : R −→ [0, 1]
2 −→ f (2) = P (X = 2) = P (A1) = 1/4
1 −→ f (1) = P (X = 1) = P (A2 ∪ A3 ) = 1/2
0 −→ f (0) = P (X = 0) = P (A4) = 1/4

En general, para que una función, f , sea la función de probabilidad asociada a una
variable aleatoria X, debe cumplir :

i) f (x) ≥ 0 ∀ x ∈ R
X
ii) f (x) = 1
x

donde la suma en x en la segunda condición se realiza sobre todos los posibles valores que
puede tomar la variable aleatoria.
5 Variable aleatoria unidimensional 41

5.2.2. Función de distribución


Dada una v.a. discreta, X, se llama función de distribución a la función F definida
como
F : R −→ [0, 1]
x −→ F (x) = P (X ≤ x)
Veamos algunas propiedades de la función de distribución.
1 F (−∞) = 0

F (−∞) = lı́m F (x) = lı́m P (X ≤ x) = P (∅) = 0


x→−∞ x→−∞

2 F (+∞) = 1

F (+∞) = lı́m F (x) = lı́m P (X ≤ x) = P (E) = 1


x→+∞ x→+∞

3 P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 )


Consideremos los sucesos

A = {X ≤ x2 } B = {X ≤ x1 } C = {x1 < X ≤ x2 }

como A = B ∪ C, siendo B ∩ C = ∅, tenemos

P (A) = P (B) + P (C) =⇒ F (x2 ) = F (x1 ) + P (x1 < X ≤ x2 )

es decir,
P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 )

De forma análoga se demuestra :

P (x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ) + P (X = x1 )


P (x1 < X < x2 ) = F (x2 ) − F (x1 ) − P (X = x2 )
P (x1 ≤ X < x2 ) = F (x2 ) − F (x1 ) + P (X = x1 ) − P (X = x2 )

4 F es monótona creciente
Sean x1 < x2 , por la propiedad anterior,

F (x2 ) = F (x1 ) + P (x1 < X ≤ x2 ) ≥ F (x1 )

5 F es continua por la derecha


Tenemos que comprobar que, dado ε > 0, se cumple

lı́m (F (x + ε) − F (x)) = 0
ε→0
42 Estadı́stica

pero
lı́m (F (x + ε) − F (x)) = lı́m P (x < X ≤ x + ε) = P (∅) = 0
ε→0 ε→0

Si calculamos el lı́mite por la izquierda,

lı́m(F (x) − F (x − ε)) = lı́m P (x − ε < X ≤ x) = P (X = x)


ε→0 ε→0

y, esta probabilidad puede ser cero o no. Por tanto, la función de distribución, en general,
no es continua por la izquierda. De hecho,

F (x) − F (x− ) = lı́m(F (x) − F (x − ε)) = P (X = x)


ε→0

es decir, la probabilidad de que la v.a. discreta X tome un valor concreto es


igual al salto de la función de distribución en ese punto.

Ejemplo.- Sea X una v.a. discreta con función de probabilidad

xi 1 2 3 4
P (X = xi ) 0.1 0.4 0.2 0.3
La función de distribución asociada es



 0 x<1 F (x)

 6

 1


r



 0.1 1≤x<2



 0.7 r


F (x) = 0.5 2≤x<3 0.5 r









 0.7 3≤x<4

 0.1 r

 -



 1 2 3 4 x
1 x≥4

5.3. Variable aleatoria continua

5.3.1. Función de distribución y función de densidad


Dada una v.a. continua, X, se llama función de distribución a la función absoluta-
mente continua, F , definida como

F : R −→ [0, 1]
x −→ F (x) = P (X ≤ x)
5 Variable aleatoria unidimensional 43

Decimos que F es absolutamente continua, si existe una función f : R −→ R, no


negativa e integrable Lebesgue tal que
Z x
F (x) = f (t) dt ∀x ∈ R
−∞

La función f se llama función de densidad. En general, una función f es función de


densidad si verifica

i) f (x) ≥ 0 ∀x ∈ R
Z ∞
ii) f (x) dx = 1
−∞

Veamos algunas propiedades de la función de distribución.


1 F (−∞) = 0 y F (∞) = 1
2 F es monótona creciente
3 F es continua en R
Z x+ε Z x  Z x+ε
lı́m (F (x + ε) − F (x)) = lı́m f (t) dt − f (t) dt = lı́m f (t) dt
ε→0 ε→0 −∞ −∞ ε→0 x
Z x+ε
Por ser f integrable en [x, x + ε], ∃µ ∈ [inf f, sup f ] tal que f (t) dt = µ ε
x
(Primer Teorema de la Media). Por tanto,

lı́m (F (x + ε) − F (x)) = lı́m(µ ε) = 0


ε→0 ε→0

La continuidad por la izquierda se demuestra de forma análoga. Por ser F continua,


se cumple
P (X = x) = F (x) − F (x− ) = 0 ∀x ∈ R

por tanto

P (x1 < X ≤ x2 ) = P (x1 < X < x2 ) = P (x1 ≤ X ≤ x2 ) = P (x1 ≤ X < x2 ) =


= F (x2 ) − F (x1 )

Como consecuencia de esta propiedad, al ser la función de distribución continua


en R, no tiene discontinuidades (saltos), por tanto la probabilidad de que la v.a.
continua X tome un valor concreto es cero (P (X = x) = 0).

4 Si f es continua, entonces F es de clase C 1 y F ′ (x) = f (x) ∀x ∈ R


Z x+ε
′ F (x + ε) − F (x) 1
F (x) = lı́m = lı́m f (t) dt
ε→0 ε ε→0 ε x
44 Estadı́stica

Z x+ε
Por ser f continua en [x, x + ε], ∃x0 ∈ [x, x + ε] tal que f (t) dt = f (x0 ) ε
x
(Primer Teorema de la Media). Por tanto,

F (x + ε) − F (x) 1
F ′ (x) = lı́m = lı́m f (x0 ) ε = f (x0 )
ε→0 ε ε→0 ε

Como x0 ∈ [x, x + ε] ∀ε ⇒ x0 = x. La derivabilidad por la izquierda se demuestra de


forma análoga.

Ejemplo.- Sea X una v.a. continua con función de densidad



 3 2
x ∈ [−1, 1]
 2x

f (x) =


 0 resto
La función de distribución
Z x asociada
Z x es
• Si x < −1 F (x) = f (t) dt = 0 dt = 0
−∞Z −∞Z Z x
x −1
3 2 1
• Si −1 ≤ x < 1 F (x) = f (t) dt = 0 dt + t dt = [x3 + 1]
Z x −∞ Z −1 −∞ Z 1 −1 2 Z 2
x
3 2
• Si x ≥ 1 F (x) = f (t) dt = 0 dt + t dt + 0 dt = 1
−∞ −∞ −1 2 1

F (x) 6
 1

 0 x < −1







1 3
F (x) = [x + 1] −1 ≤ x < 1

 2






 1 x≥1
-
-1 1 x

5.4. Variable aleatoria mixta


Una v.a. mixta viene caracterizada por su función de distribución, definida de igual
forma que en los casos anteriores, que es continua por la derecha, con un número de
discontinuidades a lo sumo numerable, pero que no es escalonada. Es decir, en algunos
puntos es discreta (puntos de discontinuidad) y en el resto es continua. Por ejemplo, la
v.a. X con función de distribución
5 Variable aleatoria unidimensional 45



 0 x < −1









 (x + 1)2 + 1/4 −1 ≤ x < −1/2






F (x) = 5/8 −1/2 ≤ x < 1/2









 x + 1/4 1/2 ≤ x < 3/4








1 x ≥ 3/4

F (x) 6

3/4 r
r
1/2

r 1/4

-
-1 -1/2 1/2 3/4 x

Para esta v.a. se cumple


1

P (X = −1) = F (−1+ ) − F (−1− ) = 1/4 − 0 = 1/4

P (X = −1/2) = F (−1/2+ ) − F (−1/2− ) = 5/8 − 1/2 = 1/8

P (X = 1/2) = F (1/2+ ) − F (1/2− ) = 3/4 − 5/8 = 1/8

P (X = x) = 0 ∀ x 6= −1, −1/2, 1/2

Z −1/2 Z 1/2 Z 3/4


P (X = −1)+ (2x+2) dx+P (X = −1/2)+ 0 dx+P (X = 1/2)+ 1 dx = 1
−1 −1/2 1/2
46 Estadı́stica

NOTA: Tanto en el caso de variables discretas como continuas o mixtas, el conocimiento


de la función de distribución (o la de probabilidad o la de densidad) es toda la información
que necesitamos para manejar la v.a. y estudiar el experimento para el que ha sido definida.
De hecho estas funciones constituyen la máxima información posible acerca de la variable.

5.5. Transformaciones de variables aleatorias


En muchas ocasiones deberemos hacer “operacionesçon variables aleatorias. Dada
una variable aleatoria X una función de ella será una nueva variable aleatoria Y = u(X).
En esta sección trataremos de calcular la distribución de esta nueva variable.
Lo primero que debemos tener en mente es que la “aritmética” de las variables
aleatorias no coincide con la de los números reales. Supongamos que lanzamos un dado
y definimos la variable aleatoria X cuyo valor asignado al suceso Si ( ≡ el resultado de
la tirada es i) es i. X toma seis posibles valores {1, 2, 3, 4, 5, 6} según la cara que haya
mostrado el dado. Y1 = 2X es una nueva variable aleatoria que asigna un valor doble al
definido anteriormente para cada suceso elemental. Sin embargo Y2 = X + X no tiene la
misma interpretación. En este caso el dado es lanzado dos veces, sumándose la puntación
obtenida en cada tirada. Los posibles valores de Y1 son {2, 4, 6, 8, 10, 12} mientras que
los de Y2 son {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Para evitar confusiones es conveniente asignar
subı́ndices distintos a las variables que representan cada resultado de un determinado
experimento que se repite varias veces, aun cuando cada una de ellas esté definida de la
misma forma. En el caso de lanzar un dado dos veces podemos considerar la variable X
definida anteriormente y obtener los posibles resultados como X1 + X2 donde cada Xi
tiene la misma distribución de probabilidad que la X.

5.5.1. Variable aleatoria discreta


Sea X una v.a. con función de probabilidad f (x) y función de distribución F (x)
e, Y = u(X) otra v.a. con función de probabilidad g(y) y función de distribución G(y).
Es decir, tenemos una función que relaciona a x e y, y = u(x) ⇒ x = u−1 (y) = w(y).
Entonces

g(y) = P (Y = y) = P (u(X) = y) = P (X = u−1 (y)) = P (X = w(y)) = f [w(y)]

G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1 (y)) = P (X ≤ w(y)) = F [w(y)]

En general el paso de una v.a. a otra es sencilla, sólo hay que tener cuidado cuando
la función u no es biyectiva. Veamos un par de ejemplos para aclarar esto último.
5 Variable aleatoria unidimensional 47

Ejemplo.- Sea X una v.a. con función de probabilidad

xi -2 -1 0 1 2
P (X = xi ) 0.1 0.2 0.2 0.4 0.1
La función de distribución de X es


 0 x < −2





 0.1 −2 ≤ x < −1


 0.3 −1 ≤ x < 0
F (x) =

 0.5 0≤x<1





 0.9 1≤x<2


 1 x≥2
Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1 (y) = w(y) = y/2. Los valores que
toma la v.a. Y son y = {−4, −2, 0, 2, 4}. Entonces

g(y) = P (Y = y) = P (2X = y) = P (X = y/2) = f (y/2)

es decir
yi -4 -2 0 2 4
P (Y = yi ) 0.1 0.2 0.2 0.4 0.1
Y, la función de distribución de Y es

G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2)

es decir


 0 y < −4





 0.1 −4 ≤ y < −2


 0.3 −2 ≤ y < 0
G(y) =

 0.5 0≤y<2





 0.9 2≤y<4


 1 y≥4
Sea ahora Y = u(X) = X 2 . Claramente, la función u no es biyectiva. Tenemos
entonces que los valores que toma la v.a. Y son y = {0, 1, 4}, y la función de probabilidad
es
√ √
g(y) = P (Y = y) = P (X 2 = y) = P ( (X = − y ) ∪ (X = + y ) ) =
√ √
= P (X = − y ) + P (X = + y )
es decir
48 Estadı́stica

yi 0 1 4
P (Y = yi ) 0.2 0.6 0.2

Y, la función de distribución de Y es
√ √
G(y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ + y) =
√ √ √
= P (X = − y) + P (− y < X ≤ + y) =
√ √ √
= f (− y) + F (+ y) − F (− y)

es decir


 0 y<0


 0.2 0≤y<1
G(y) =

 0.8 1≤y<4



1 y≥4

5.5.2. Variable aleatoria continua


Sea X una v.a. con función de densidad f (x) y función de distribución F (x) e,
Y = u(X) otra v.a. con función de densidad g(y) y función de distribución G(y). Es decir,
tenemos una función que relaciona a x e y, y = u(x) ⇒ x = u−1 (y) = w(y). Entonces

G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1 (y)) = P (X ≤ w(y)) = F [w(y)]

g(y) = G′ (y) = F ′ [w(y)] |w ′(y)| = f [w(y)] |w ′(y)|

Igual que en el caso de las v.a. discretas, hay que tener cuidado cuando la función
u no es biyectiva. Veamos un par de ejemplos para aclarar esto último.

Ejemplo.- Sea X una v.a. con funciones de densidad y distribución




 0 x < −1
 

 3 2 

 2x
 −1 ≤ x ≤ 1 

1
f (x) = F (x) = [x3 + 1] −1 ≤ x < 1

 

2
 0 resto 




 1 x≥1
Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1 (y) = w(y) = y/2. Entonces
5 Variable aleatoria unidimensional 49

G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2)

g(y) = G′ (y) = F ′ (y/2) 12 = f (y/2) 12


es decir,


 0 y < −2
 

 3 2 


 16
y −2 ≤ y ≤ 2 

1
g(y) = G(y) = [(y/2)3 + 1] −2 ≤ y < 2

 

2
 0 resto 




 1 y≥2

Sea ahora Y = u(X) = X 2 . Claramente, la función u no es biyectiva.


√ √ √ √
G(y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ + y ) = F (+ y ) − F (− y )

√ √ √ √
g(y) = G′ (y) = F ′ (+ y ) 2√1 y − F ′ (− y ) 2−1 1
√ = f (+ y ) √
y 2 y
+ f (− y ) 2√1 y

es decir,


 0 y<0
 

 3√ 

 2 y
 0≤y≤1 


g(y) = G(y) = y y 0≤y<1

 

 0 resto 




 1 y≥1

5.5.3. Transformación integral


Sea X una v.a. con función de distribución, F , estrictamente creciente. Entonces, la
transformación biyectiva
Y = F (X)

da lugar a una nueva v.a. con funciones de distribución y densidad

G(y) = P (Y ≤ y) = P (F (X) ≤ y) = P (X ≤ F −1 (y)) = F (F −1(y)) = y

g(y) = G′ (y) = 1
50 Estadı́stica

Ejemplo.- Sea X una v.a. con funciones de densidad y distribución




 0 x<1
 

 2 


 3 x 1 ≤ x ≤ 2 

f (x) = F (x) = 1 2
[x − 1] 1≤x<2

 

3
 0 resto 




 1 x≥2

Realizamos la transformación Y = 31 [X 2 − 1], entonces



G(y) = P (Y ≤ y) = P 31 [X 2 − 1] ≤ y = P (X 2 ≤ 3y + 1) =

√ √  √  √ 
= P − 3y + 1 ≤ X ≤ + 3y + 1 = F + 3y + 1 − F − 3y + 1 =

√ 
= F + 3y + 1
√  3 √  3
g(y) = F ′ 3y + 1 2√3y+1 =f 3y + 1 2√3y+1 =

2p 3
= 3y + 1 √ =1
3 2 3y + 1
es decir,

( 
1 0≤y≤1  0
 y<0
g(y) = G(y) = y 0≤y<1
0 resto 

 1 y≥1

5.6. Distribuciones truncadas


En ocasiones, cuando se estudia el comportamiento de una v.a., resulta conveniente
restringir su campo de variación a un cierto subconjunto de especial interés, lo que conduce
a un tipo de v.a. llamada variable aleatoria truncada.
Expresado formalmente, sea X una v.a. cuyo campo de variación es el conjunto E y
su función de distribución es F (x); y sea S un subconjunto de E tal que P (X ∈ S) > 0.
El problema consiste en calcular la probabilidad de que X ∈ A sabiendo que X ∈ S,
siendo A ⊂ S, es decir calcular la probabilidad del suceso condicionado {X ∈ A/X ∈ S}.
Para ello, recurrimos a la definición de probabilidad condicional

P ((X ∈ A) ∩ (X ∈ S))
P (X ∈ A/X ∈ S) =
P (X ∈ S)
5 Variable aleatoria unidimensional 51

En particular, si consideramos el suceso A = {X ≤ x} entonces la probabilidad


buscada, P (X ≤ x/X ∈ S), es la función de distribución truncada de la v.a. X en el
nuevo campo de variación, S, y la notaremos por FT . Ası́,
P ((X ≤ x) ∩ (X ∈ S))
FT (x) ≡ P (X ≤ x/X ∈ S) =
P (X ∈ S)
Ejemplo.- Sea X una v.a. definida en el intervalo E = [xi , xf ] y con función de distribución
F . Dados los sucesos S = {x0 < X ≤ x1 } y A = {X ≤ x} (Fig. 5.1), entonces la función
de distribución truncada es

P ((X ∈ A) ∩ (X ∈ S))
FT (x) = P (X ∈ A/X ∈ S) = =
P (X ∈ S)

P ((X ≤ x) ∩ (x0 < X ≤ x1 )) P (x0 < X ≤ x)


= = =
P (x0 ≤ X ≤ x1 ) P (x0 < X ≤ x1 )

F (x) − F (x0 )
= , x0 < x ≤ x1
F (x1 ) − F (x0 )
• Si X es discreta, la función de probabilidad truncada es

P ((X = x) ∩ (x0 < X ≤ x1 ))


PT (X = x) = P (X = x/X ∈ S) = =
P (x0 ≤ X ≤ x1 )

P (X = x)
= , x0 < x ≤ x1
F (x1 ) − F (x0 )
• Si X es continua, la función de densidad truncada es

f (x)
fT (x) = FT′ (x) = , x0 < x ≤ x1
F (x1 ) − F (x0 )

xi x0 x x1 xf
A

Figura 5.1: Esquema para una distribución truncada


52 Estadı́stica
Momentos de una
6 variable aleatoria
unidimensional

Índice
6.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . 54
6.2. Momento de orden k de una variable aleatoria . . . . . . . . . 55
6.3. Varianza y desviación tı́pica . . . . . . . . . . . . . . . . . . . . 56
6.4. Otros valores tı́picos . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.5. Coeficientes de asimetrı́a y curtosis . . . . . . . . . . . . . . . 58
6.6. Teorema de Markov. Desigualdad de Chebychev . . . . . . . 60
6.7. Función generatriz de momentos . . . . . . . . . . . . . . . . . 61
6.8. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . 62
6.8.1. Cambio de variable en la función caracterı́stica . . . . . . . . . 64

53
54 Estadı́stica

6.1. Esperanza matemática


Se define la esperanza matemática o media de una v.a. X como
X
µ = E[X] = xi P (X = xi ) v.a. discreta
i

Z +∞
µ = E[X] = xf (x) dx v.a. continua
−∞

De forma más general, si tenemos una función T (X),


X
E[T (X)] = T (xi ) P (X = xi ) v.a. discreta
i

Z +∞
E[T (X)] = T (x)f (x) dx v.a. continua
−∞

Si la v.a. es discreta y toma un número finito de valores, entonces su esperanza


siempre es finita, pero en el resto de los casos, la esperanza puede no ser finita.

Ejemplo 1.- Sea X una v.a. discreta con función de probabilidad

xn 2n−1
P (X = xn ) 2−n

Entonces ∞ ∞
X X 1 1/2
P (X = xn ) = n
= =1
n=1 n=1
2 1 − 1/2
pero,

X ∞
X ∞
X1
n−1 1
E[X] = xn P (X = xn ) = 2 = =∞
n=1 n=1
2n n=1
2

Ejemplo 2.- Sea X una v.a. continua con función de densidad




 0
 x<1
f (x) =


 1
x≥1
x2

Entonces Z +∞ Z +∞
1
f (x) dx = dx = 1
−∞ 1 x2
pero Z Z
+∞ +∞
1
E[X] = xf (x) dx = x dx = ∞
−∞ 1 x2
6 Momentos de una variable aleatoria unidimensional 55

En general, tomaremos como criterio de convergencia de la esperanza matemática,


la convergencia absoluta de la serie o la integral, es decir
X X
si |xi |P (X = xi ) < ∞ ⇒ xi P (X = xi ) = E[X] < ∞
i i

Z +∞ Z +∞
si |x|f (x) dx < ∞ ⇒ xf (x) dx = E[X] < ∞
−∞ −∞

Veamos algunas propiedades de la esperanza matemática

• La esperanza matemática de una constante es la misma constante : E[C]=C

• E[T1 (X) + T2 (X)] = E[T1 (X)] + E[T2 (X)]

• E[aX + b] = aE[X] + b

6.2. Momento de orden k de una variable aleatoria


Como casos particulares de función de una v.a. se pueden tomar las funciones
T1 (X) = X k y T2 (X) = (X − µ)k con k ∈ N. De esta forma, se define el
momento de orden k centrado en el origen de X como
X
mk = E[X k ] = xi k P (X = xi ) v.a. discreta
i

Z +∞
mk = E[X ] =k
xk f (x) dx v.a. continua
−∞

y el momento de orden k centrado en la media de X como


X
Mk = E[(X − µ)k ] = (xi − µ)k P (X = xi ) v.a. discreta
i

Z +∞
Mk = E[(X − µ) ] = k
(x − µ)k f (x) dx v.a. continua
−∞

Se comprueba fácilmente que :

• m1 = E[X] = µ

• M1 = E[X − µ] = E[X] − µ = 0
56 Estadı́stica

Además, podemos relacionar los momentos centrados en la media con los momentos
centrados en el origen, y viceversa.
X
Mk = E[(X − µ)k ] = (xi − µ)k P (X = xi ) =
i
" ! ! ! ! #
X k k k k
= xi k − xi k−1 µ + xi k−2 µ2 + · · · + (−1)k µk P (X = xi ) =
i 0 1 2 k
! ! ! !
k k k k
= mk − µmk−1 + µ2 mk−2 + · · · + (−1)k µk
0 1 2 k
X
mk = E[X k ] = E[(X − µ + µ)k ] = (xi − µ + µ)k P (X = xi ) =
i
" ! ! ! #
X k k k
k k−1 k
= (xi − µ) + (xi − µ) µ+···+ µ P (X = xi ) =
i 0 1 k
! ! ! !
k k k 2 k
= Mk + µMk−1 + µ Mk−2 + · · · + µk
0 1 2 k

6.3. Varianza y desviación tı́pica


Se define la varianza de una v.a., X, con media µ, como

X
σ 2 = Var(X) = M2 = E[(X − µ)2 ] = (xi − µ)2 P (X = xi ) v.a. discreta
i

Z +∞
2
σ = Var(X) = M2 = E[(X − µ) ] = 2
(x − µ)2 f (x) dx v.a. continua
−∞

Veamos algunas propiedades :


• Var(X) = E[X 2 ] − (E[X])2
X X 
Var(X) = (xi − µ)2 P (X = xi ) = xi 2 + µ2 − 2µxi P (X = xi ) =
i i
X X
= xi 2 P (X = xi ) + µ2 − 2µ xi P (X = xi ) = E[X 2 ] + µ2 − 2µ2 = E[X 2 ] − (E[X])2
i i

• Var(aX + b) = a2 Var(X)
Sea Y = aX + b ⇒ µY = E[Y ] = E[aX + b] = aE[X] + b = aµX + b. Entonces
Var(aX + b) = Var(Y ) = E[(Y − µY )2 ] =

= E[(aX + b − aµX − b)2 ] = E[(aX − aµX )2 ] = a2 E[(X − µX )2 ] = a2 Var(X)


6 Momentos de una variable aleatoria unidimensional 57

Generalmente, resulta más práctico utilizar una medida de la dispersión de los datos
en las mismas unidades que los propios datos, por ello, se define la desviación tı́pica como
p
σ= Var(X)

6.4. Otros valores tı́picos


Mediana (Me) : es el punto que divide la distribución en dos partes de igual probabilidad

• v.a. discreta 

 P (X ≤ xn ) ≥ 1/2

Me=xn ∈ R tal que


 P (X ≥ x ) ≥ 1/2
n

• v.a. continua

Me=x ∈ R tal que P (X ≥ x) = P (X ≤ x) = 1/2

Moda (Mo) : es el punto (o los puntos) de mayor probabilidad.

Mo=xn ∈ R tal que P (X = xn ) ≥ P (X = xi ) ∀i v.a. discreta

Mo=x ∈ R tal que f (x) ≥ f (t) ∀t v.a. continua

Cuantiles : El cuantil de orden p es el valor xp de la variable tal que

P (X ≤ xp ) = p (0 < p < 1)

Como casos particulares citamos :

• Cuartiles : Son tres valores, Qn , tales que


n
P (X ≤ Qn ) = (n = 1, 2, 3)
4

• Deciles : Son nueve valores, Dn , tales que


n
P (X ≤ Dn ) = (n = 1, . . . , 9)
10

• Percentiles : Son 99 valores, Pn , tales que


n
P (X ≤ Pn ) = (n = 1, . . . , 99)
100
58 Estadı́stica

Figura 6.1: Función de densidad de una distribución Normal

6.5. Coeficientes de asimetrı́a y curtosis


Una distribución continua muy utilizada es la llamada distribución Normal (Fig.
6.1). En este apartado, pretendemos comparar la distribución de una v.a. cualquiera, X,
con media E[X] = µ y varianza Var(X) = σ 2 , con la distribución Normal, en dos aspectos :
grado de asimetrı́a y grado de achatamiento.
Una de las propiedades de la distribución Normal, es que su función de densidad es
simétrica respecto a su media. En general, si la distribución que estamos estudiando es
simétrica respecto a su media, entonces

P (X ≥ µ + x) = P (X ≤ µ − x) v.a. discreta
(x > 0)
f (µ + x) = f (µ − x) v.a. continua

y, es fácil comprobar, que los momentos de orden impar centrados en la media son todos
nulos,
M2n+1 = E[(X − µ)2n+1 ] = 0 n = 0, 1, 2, . . .

Sabemos que M1 = 0 para toda v.a., por tanto, utilizamos el siguiente momento
más fácil de calcular, que es M3 . Ası́, definimos el coeficiente de asimetrı́a o sesgo, como
el escalar adimensional
6 Momentos de una variable aleatoria unidimensional 59

Figura 6.2: Asimetrı́a

X
(xi − µ)3 P (X = xi )
M3 M3
CA = 3
= 3/2 = " i #3/2 v.a. discreta
σ M2 X
(xi − µ)2 P (X = xi )
i

Z +∞
(x − µ)3 f (x) dx
M3 M3 −∞
CA = 3 = 3/2 = Z 3/2 v.a. continua
σ M2 +∞
2
(x − µ) f (x) dx
−∞

de forma que si


 CA = 0 puede ser simétrica






CA > 0 es asimétrica positiva o sesgada a la derecha (µ ≥ Me)







 CA < 0 es asimétrica negativa o sesgada a la izquierda (µ ≤ Me)

Respecto al grado de achatamiento o apuntamiento, parece lógico utilizar un coe-


ficiente que tenga en cuenta la dispersión de los datos en torno a la media. En una
distribución Normal, se cumple
M4
=3
M22
y, en general, definimos el coeficiente de apuntamiento o curtosis como el escalar adimen-
sional
60 Estadı́stica

Figura 6.3: Curtosis

X
(xi − µ)4 P (X = xi )
M4 M4
CAp = 4
−3 = 2 −3 = " i #2 − 3 v.a. discreta
σ M2 X
(xi − µ)2 P (X = xi )
i

Z +∞
(x − µ)4 f (x) dx
M4 M4
CAp = 4 − 3 = 2 − 3 = Z −∞ 2 − 3 v.a. continua
σ M2 +∞
(x − µ)2 f (x) dx
−∞

de forma que si 

 CAp > 0 distribución leptocúrtica






CAp = 0 distribución mesocúrtica







 CAp < 0 distribución platicúrtica

6.6. Teorema de Markov. Desigualdad de Chebychev


Sea X una v.a. y g(X) una función tal que g(X) ≥ 0. Entonces, ∀ k > 0 se cumple
E[g(X)]
P (g(X) ≥ k) ≤
k
La demostración
Z +∞ es muy sencilla,
Z ya que Z
E[g(X)] = g(x)f (x) dx = g(x)f (x) dx + g(x)f (x) dx ≥
−∞ g(X)≥k g(X)<k
Z Z
≥ g(x)f (x) dx ≥ k f (x) dx = kP (g(X) ≥ k)
g(X)≥k g(X)≥k
6 Momentos de una variable aleatoria unidimensional 61

En la práctica, se utilizan otras versiones de este teorema, como :

E[g(X)]
• P (g(X) < k) = 1 − P (g(X) ≥ k) ≥ 1 −
k
• Si g(X) = (X − µ)2 y k = (kσ)2 entonces

E[(X − µ)2 ]
P ((X − µ)2 < k 2 σ 2 ) ≥ 1 − =⇒
k2 σ2
σ2
P (|X − µ| < kσ) ≥ 1 − =⇒
k2 σ2
1
P (µ − kσ < X < µ + kσ) ≥ 1 − 2
k

que es la desigualdad de Chebychev. La probabilidad de que una v.a., X, tome


un valor dentro de k desviaciones de la media es al menos (1 − 1/k 2 )

6.7. Función generatriz de momentos


La función generatriz de momentos asociada a una v.a. X se define como
X
g(θ) = E[eθX ] = eθxi P (X = xi ) v.a. discreta
i

Z +∞
g(θ) = E[e θX
]= eθx f (x) dx v.a. continua
−∞

La función generatriz de momentos se utiliza, como su nombre indica, para calcular


los momentos deZuna v.a., ya que Z  
+∞ +∞
θ2 2 θn n
g(θ) = E[eθX ] = eθx f (x) dx = 1 + θx + x + · · · + x + · · · f (x) dx =
−∞ −∞ 2! n!

θ2 θn
= 1 + θm1 + m2 + · · · + mn + · · ·
2! n!
es decir, si g(θ) admite desarrollo de Taylor en torno a 0, entonces

dr g(θ)
mr =
dθr θ=0

El inconveniente de utilizar la función generatriz de momentos es que antes de utili-


zarla, hay que saber si la serie o la integral converge. Para evitar este problema, se define
la función caracterı́stica, que estudiamos en el siguiente apartado.
62 Estadı́stica

6.8. Función caracterı́stica


La función caracterı́stica asociada a una v.a. X se define como
X
ϕ(t) = E[eitX ] = eitxk P (X = xk ) v.a. discreta
k

Z +∞
ϕ(t) = E[e itX
]= eitx f (x) dx v.a. continua
−∞
Veamos algunas de sus propiedades.
1 La función caracterı́stica existe ∀t ∈ R
ϕ(t) = E[eitX ] = E[cos(tX) + isen(tX)] = E[cos(tX)] + iE[sen(tX)]
pero Z Z
+∞ +∞
E[|cos(tX)|] = |cos(tx)| f (x) dx ≤ f (x) dx = 1 < +∞
−∞ −∞

Z +∞ Z +∞
E[|sen(tX)|] = |sen(tx)| f (x) dx ≤ f (x) dx = 1 < +∞
−∞ −∞
por tanto, E[cos(tX)] y E[sen(tX)] son convergentes, y ϕ(t) también.
2 ϕ(0) = 1

3 |ϕ(t)| ≤ 1
Z +∞ Z +∞
itX itX itx
|ϕ(t)| = |E[e ]| ≤ E[ |e |] = |e | f (x) dx = f (x) dx = 1
−∞ −∞

4 ϕ(−t) = ϕ(t)

ϕ(−t) = E[ei(−t)X ] = E[cos(tX) − isen(tX)] = E[cos(tX)] − iE[sen(tX)] = ϕ(t)

5 Si ϕ(t) es la función caracterı́stica asociada a una v.a., X, con función de distribución


F , y a < b son dos puntos de continuidad de F , entonces
Z T −iat
1 e − e−ibt
F (b) − F (a) = lı́m ϕ(t) dt
2π T →∞ −T it
siempre que ϕ(t) sea integrable. En particular,
Z T
1 e−izt − e−ibt
F (b) = F (b) − 0 = F (b) − F (−∞) = lı́m lı́m ϕ(t) dt
2π z→−∞ T →∞ −T it
6 Si ϕ(t) es integrable, y x un punto de continuidad de F , entonces
Z +∞
1
P (X = x) = e−itx ϕ(t) dt v.a. discreta
2π −∞
Z +∞
1
f (x) = e−itx ϕ(t) dt v.a. continua
2π −∞
6 Momentos de una variable aleatoria unidimensional 63

7 Si ϕ(t) es la función caracterı́stica de una v.a., y admite un desarrollo de Taylor en


torno a 0, entonces

i2 ik
ϕ(t) = 1 + im1 t + m2 t2 + · · · + mk tk + · · ·
2! k!

ϕ(t) = E[eitX ] =⇒ ϕ(0) = 1

ϕ′ (t) = E[iXeitX ] =⇒ ϕ′ (0) = E[iX] = im1

ϕ′′ (t) = E[i2 X 2 eitX ] =⇒ ϕ′′ (0) = E[i2 X 2 ] = i2 m2


..
.
dr ϕ(t) r r itX dr ϕ(0)
r
= E[i X e ] =⇒ r
= E[ir X r ] = ir mr
dt dt
es decir,
1 dr ϕ(t)
mr = r
i dtr t=0
8 La función caracterı́stica es uniformemente continua en todo intervalo de la recta real.

9 La función caracterı́stica, ϕ(t), asociada a una v.a., X, es real si y sólo si, X es


simétrica.

10 A toda función caracterı́stica le corresponde una y sólo una función de distribución.


Es decir, si dos v.a. tienen la misma función caracterı́stica, entonces tienen la misma
función de distribución y viceversa.

11 Sean {X1 , X2 , . . . , Xn } n variables aleatorias independientes con funciones carac-


terı́sticas {ϕX1 , ϕX2 , . . . , ϕXn }, e Y = X1 + X2 + · · · + Xn . Entonces
n
Y
ϕY (t) = ϕXi (t)
i=1

Es necesario resaltar que, a lo largo de este apartado, hemos visto cómo dada una v.a.
se puede calcular su función caracterı́stica e incluso, a partir de la función caracterı́stica
podemos calcular el valor de la función de distribución asociada, en un punto. En cambio,
en ningún momento hemos dado un criterio para saber, dada una función cualquiera, ϕ(t),
si es la función caracterı́stica asociada a alguna v.a. Veamos con un par de ejemplos, que
la cosa no es sencilla.
1
Ejemplo 1.- Sea ϕ(t) = ∀t ∈ R
1 + t4
Esta función verifica las siguientes propiedades tı́picas de una función caracterı́stica :
64 Estadı́stica

• ϕ está definida en todo R

• ϕ(0) = 1

• ϕ(−t) = ϕ(t)

• ϕ es uniformemente continua en R

• |ϕ(t)| ≤ 1

Supongamos que ϕ(t) es la función caracterı́stica de una v.a. X. Claramente, ϕ(t)


admite un desarrollo de Taylor, por tanto
ϕ′ (0)
µ = m1 = E[X] = =0
i
ϕ′′ (0)
Var(X) = E[(X − µ)2 ] = E[X 2 ] − µ2 = 2 = 0
i
Es decir la v.a. X tiene que ser la v.a. degenerada que toma el valor 0 con probabi-
lidad P (X = 0) = 1. Pero, la función caracterı́stica de esta v.a. degenerada es
X
ϕ(t) = E[eitX ] = eitxn P (xn ) = eit0 P (0) = 1
n

1
Ejemplo 2.- Sea ϕ(t) = ∀t ∈ R
2 − eit
Supongamos que ϕ(t) es la función caracterı́stica de una v.a., X, discreta. Como
ϕ(t) es un sumatorio de una serie de términos, vamos a suponer que se trata de una serie
de potencias. Ası́,
X ∞
itx 1 1/2 1er término X 1 ixt
ϕ(t) = e P (x) = = = = e
x
2 − eit 1 − 12 eit 1 − razón x=0
2 x+1

es decir, se trata de una v.a. discreta que toma todos los valores enteros no negativos,
1
x, con P (X = x) = x+1 . Si calculamos ahora la función caracterı́stica de esta v.a.,
2
comprobamos fácilmente que es ϕ(t).

6.8.1. Cambio de variable en la función caracterı́stica


Sea X una v.a. con función caracterı́stica ϕX (t). Realizamos el cambio Y = aX + b,
entonces Z +∞
ϕY (t) = E[e itY
] = E[e it(aX+b)
]= eit(ax+b) f (x) dx =
−∞
Z +∞
= eitb eitax f (x) dx = eitb E[ei(at)X ] = eitb ϕX (at)
−∞
Variable aleatoria
7 bidimensional y
n-dimensional

Índice
7.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . 66
7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . . 66
7.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . 67
7.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . 67
7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . . 69
7.3.1. Función de distribución y función de densidad . . . . . . . . . . 69
7.4. Variable aleatoria bidimensional condicional . . . . . . . . . . 72
7.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 72
7.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . 73
7.5. Variables aleatorias bidimensionales independientes . . . . . . 75
7.6. Momentos de una variable aleatoria bidimensional . . . . . . 76
7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . . 78
7.6.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . 80
7.7. Función caracterı́stica de una variable aleatoria bidimensional 81
7.8. Transformación de variables aleatorias bidimensionales . . . . 82
7.8.1. Una función de dos variables aleatorias . . . . . . . . . . . . . . 82
7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . . 82
7.8.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 83
7.8.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . 83
7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . . 84

65
66 Estadı́stica

7.1. Variable aleatoria bidimensional


Cuando el resultado de un experimento aleatorio se traduce en una única obser-
vación, tenemos una variable aleatoria unidimensional. Si el resultado del experimento
se materializa en dos observaciones simultáneas, por ejemplo, el peso y la altura de un
colectivo de individuos, estamos ante una variable aleatoria bidimensional (X, Y ).
Expresado formalmente, partimos de un espacio probabilı́stico (E, Ω, P ) y dos va-
riables aleatorias X e Y definidas en él. El vector aleatorio cuyas componentes son X e
Y , se denomina variable aleatoria bidimensional (X, Y ). Este vector aleatorio tendrá un
campo de variación y una distribución de probabilidad, que llamaremos conjunta. Por
otra parte, tanto X como Y son v.a. unidimensionales, y tendrán un campo de variación
y una distribución de probabilidad que llamaremos marginales.
De nuevo, lo que se pretende es sustituir el álgebra de sucesos por el álgebra de
números reales y, otra vez, el concepto relevante es el de sucesos generados por variables
aleatorias. Dadas dos variables aleatorias X e Y podemos definir los sucesos conjuntos
{X ≤ x, Y ≤ y} como:

\
{X ≤ x, Y ≤ y} ≡ {X ≤ x} {Y ≤ y}

De la teorı́a sabemos que el conocimiento de las probabilidades de los dos sucesos


del miembro de la izquierda no basta para calcular la probabilidad de su intersección.
Sólo en el caso en que las dos variables unidimensionales X e Y representen resultados
independientes la probabilidad de la intersección será el producto de las probabilidades.
En general, por tanto, la máxima información sobre una variable bidimensional no
está en las distribuciones marginales sino que deberemos conocer la distribución conjunta.
En el caso de variables unidimensionales los sucesos se convierten en intervalos de
la recta real y sus probabilidades asociadas pueden calcularse integrando la función de
densidad sobre dicho intervalo. Ahora, los sucesos conjuntos se convierten en subconjuntos
de R2 . La probabilidad asociada a un suceso de este tipo puede calcularse también, como
veremos, realizando la correspondiente integración en el plano.

7.2. Variable aleatoria bidimensional discreta


Una v.a. bidimensional, (X, Y ), es discreta cuando las v.a. que la componen, X e
Y , son discretas.
7 Variable aleatoria bidimensional y n-dimensional 67

7.2.1. Función de probabilidad


Dada una v.a. bidimensional (X, Y ), la función de probabilidad conjunta viene dada
por

P (X = xi , Y = yj ) = pij 1 ≤ i, j ≤ +∞

debiéndose cumplir

• pij ≥ 0 ∀i, j

∞ X
X ∞ ∞ X
X ∞
• P (X = xi , Y = yj ) = pij = 1
i=1 j=1 i=1 j=1

Las funciones de probabilidad marginales son:

• v.a. X ∞
X
P (X = xi ) = P (X = xi , Y = yj ) = pi· 1 ≤ i ≤ +∞
j=1

• v.a. Y ∞
X
P (Y = yj ) = P (X = xi , Y = yj ) = p·j 1 ≤ j ≤ +∞
i=1

Como tanto X como Y son v.a. unidimensionales, debe cumplirse que



X ∞
X
P (X = xi ) = P (Y = yj ) = 1
i=1 j=1

7.2.2. Función de distribución


Dada una v.a. bidimensional (X, Y ), la función de distribución conjunta viene dada
por

n X
X m n X
X m
F (xn , ym ) = P (X ≤ xn , Y ≤ ym ) = P (X = xi , Y = yj ) = pij
i=1 j=1 i=1 j=1

La función de distribución conjunta verifica algunas de las propiedades tı́picas de la


función de distribución unidimensional:

(i) F (−∞, −∞) = F (xi , −∞) = F (−∞, yj ) = 0

(ii) F (+∞, +∞) = 1


68 Estadı́stica

(iii) F es monótona creciente:

Si x1 < x2 F (x1 , y) ≤ F (x2 , y) ∀y


Si y1 < y2 F (x, y1 ) ≤ F (x, y2 ) ∀x

Las funciones de distribución marginales vienen dadas por

• v.a. X
n X
X ∞
FX (xn ) = F (xn , +∞) = P (X ≤ xn , Y ≤ +∞) = P (X = xi , Y = yj ) =
i=1 j=1

X ∞
n X n
X
= pij = pi· = P (X ≤ xn ) ∀xn
i=1 j=1 i=1

• v.a. Y
∞ X
X m
FY (ym ) = F (+∞, ym) = P (X ≤ +∞, Y ≤ ym ) = P (X = xi , Y = yj ) =
i=1 j=1

∞ X
X m m
X
= pij = p·j = P (Y ≤ ym ) ∀ym
i=1 j=1 j=1

Ejemplo.- Sea la v.a. bidimensional (X, Y ), con función de probabilidad conjunta,


HH
HH
H xi 0 1 2 P (Y = yj )
yj HH
H

-1 0.01 0.07 0.04 0.12


0 0.05 0.02 0.11 0.18
1 0.32 0.14 0.04 0.50
2 0.06 0.13 0.01 0.20

P (X = xi ) 0.44 0.36 0.20 1

Se cumple,

XX 3 X
X 4
P (X = xi , Y = yj ) = pij = 0.01 + · · · + 0.01 = 1
i j i=1 j=1
7 Variable aleatoria bidimensional y n-dimensional 69

Las funciones de probabilidad marginales son,


• v.a. X

xi 0 1 2
P (X = xi ) 0.44 0.36 0.20

Se cumple,

X 3
X
P (X = xi ) = pi· = 0.44 + 0.36 + 0.20 = 1
i i=1

• v.a. Y

yj -1 0 1 2
P (Y = yj ) 0.12 0.18 0.50 0.20

Se cumple,

X 4
X
P (Y = yj ) = p·j = 0.12 + 0.18 + 0.50 + 0.20 = 1
j j=1

7.3. Variable aleatoria bidimensional continua


Una v.a. bidimensional, (X, Y ), es continua cuando las v.a. que la componen, X e
Y , son continuas.

7.3.1. Función de distribución y función de densidad


Dada una v.a. bidimensional (X, Y ), la función de distribución conjunta viene dada
por

F (x, y) = P (X ≤ x, Y ≤ y) ∀x, y ∈ R

La función de distribución conjunta verifica algunas de las propiedades tı́picas de la


función de distribución unidimensional:

(i) F (−∞, −∞) = F (x, −∞) = F (−∞, y) = 0

(ii) F (+∞, +∞) = 1


70 Estadı́stica

(iii) F es monótona creciente:

Si x1 < x2 F (x1 , y) ≤ F (x2 , y) ∀y ∈ R


Si y1 < y2 F (x, y1 ) ≤ F (x, y2 ) ∀x ∈ R

En el caso de v.a. unidimensionales continuas, a la función de distribución está aso-


ciada la función de densidad, que se obtiene derivando la primera. Para las v.a. bidimen-
sionales continuas también hay una función de densidad conjunta, f (x, y), asociada a la
función de distribución conjunta, de tal forma que
Z x Z y
F (x, y) = P (X ≤ x, Y ≤ y) = f (x, y) dxdy
−∞ −∞

Veamos algunas relaciones importantes

1 f (x, y) ≥ 0 ∀x, y ∈ R

Z +∞ Z +∞
2 f (x, y) dydx = 1
−∞ −∞

Z b Z d
3 P (a ≤ X ≤ b, c ≤ Y ≤ d) = f (x, y) dydx
a c

∂ 2 F (x, y) ∂ 2 F (x, y)
4 = = f (x, y) ∀x, y ∈ R
∂x ∂y ∂y ∂x

Las funciones de distribución marginales vienen dadas por,


• v.a. X

Z x Z +∞ Z x
FX (x) = F (x, +∞) = P (X ≤ x, Y ≤ +∞) = f (x, y) dydx = fX (x) dx
−∞ −∞ −∞

siendo
Z +∞
fX (x) = f (x, y) dy ∀ x ∈ R
−∞

la función de densidad marginal de X, que debe verificar


Z +∞
fX (x) dx = 1
−∞
7 Variable aleatoria bidimensional y n-dimensional 71

• v.a. Y

Z y Z +∞ Z y
FY (y) = F (+∞, y) = P (X ≤ +∞, Y ≤ y) = f (x, y) dxdy = fY (y) dy
−∞ −∞ −∞

siendo
Z +∞
fY (y) = f (x, y) dx ∀ y ∈ R
−∞
la función de densidad marginal de Y , que debe verificar
Z +∞
fY (y) dy = 1
−∞

Ejemplo.- Sea (X, Y ) la v.a. bidimensional con función de densidad conjunta

2
f (x, y) = (x + 6y) 0 ≤ x, y ≤ 1
7
Z +∞ Z +∞ Z 1 Z 1 Z 1
2 2
• f (x, y) dydx = (x + 6y) dydx = (x + 3) dx = 1
−∞ −∞ 0 0 7 0 7

• Función de distribución conjunta


Z x Z y Z x Z y
2
F (x, y) = f (x, y) dydx = (x + 6y) dydx =
−∞ −∞ 0 0 7
Z x
2 2 1 1
= (xy + 3y 2) dx = ( x2 y + 3xy 2) = xy(x + 6y) 0 ≤ x, y ≤ 1
0 7 7 2 7

• Función de densidad marginal de X


Z +∞ Z 1
2 2
fX (x) = f (x, y) dy = (x + 6y) dy = (x + 3) 0 ≤ x ≤ 1
−∞ 0 7 7

• Función de densidad marginal de Y

Z +∞ Z 1
2 1
fY (y) = f (x, y) dx = (x + 6y) dx = (1 + 12y) 0 ≤ y ≤ 1
−∞ 0 7 7

• Función de distribución marginal de X


Z x Z +∞ Z x
FX (x) = f (x, y) dydx = fX (x) dx =
−∞ −∞ 0
72 Estadı́stica

Z x
2 1
= (x + 3) dx = x(x + 6) 0 ≤ x ≤ 1
0 7 7

• Función de distribución marginal de Y


Z y Z +∞ Z y
FY (y) = f (x, y) dxdy = fY (y)dy =
−∞ −∞ 0
Z y
2 1 2 1 1
= ( + 6y) dy = ( y + 3y 2) = y(1 + 6y) 0 ≤ y ≤ 1
0 7 2 7 2 7

• Se puede comprobar que

fX (x) = FX′ (x) 0 ≤ x ≤ 1 y fY (y) = FY′ (y) 0 ≤ y ≤ 1

Z +∞ Z +∞
fX (x) dx = fY (y) dy = 1
−∞ −∞

7.4. Variable aleatoria bidimensional condicional


Junto con las distribuciones marginales tenemos otras de gran importancia, las dis-
tribuciones condicionales, que surgen cuando en la distribución conjunta se establece una
condición sobre una de las variables. La distribución condicional expresa el comportamien-
to probabilı́stico de una variable aleatoria, cuando la otra está sujeta a ciertas condiciones.
Partimos de la definición de probabilidad condicional de dos sucesos
P (A ∩ B)
P (A/B) =
P (B)
siempre que P (B) > 0.

7.4.1. Variable aleatoria discreta


Sea (X, Y ) una v.a. bidimensional discreta con función de probabilidad conjunta

P (X = xi , Y = yj ) = pij

Definimos la función de distribución de la variable Y condicionada por la variable


X, {Y|X } como

m
X
pnj
P (X = xn , Y ≤ ym ) j=1
F (ym |xn ) = P (Y ≤ ym |X=xn ) = =
P (X = xn ) pn·
7 Variable aleatoria bidimensional y n-dimensional 73

De manera análoga, se define la función de distribución de la variable X condicionada


por la variable Y , {X|Y } como

n
X
pim
P (X ≤ xn , Y = ym ) i=1
F (xn |ym ) = P (X ≤ xn |Y =ym ) = =
P (Y = ym ) p·m
Como casos particulares,
s
X m
X
pij
P (xr < X ≤ xs , Y ≤ ym ) i=r+1 j=1
• P (Y ≤ ym |xr <X≤xs ) = = s
P (xr < X ≤ xs ) X
pi·
i=r+1

n X
X m
pij
P (X ≤ xn , Y ≤ ym ) i=1 j=1
• P (Y ≤ ym |X≤xn ) = = n
P (X ≤ xn ) X
pi·
i=1

7.4.2. Variable aleatoria continua


Sea (X, Y ) una v.a. bidimensional discreta con función de densidad conjunta

f (x, y) − ∞ ≤ x, y ≤ +∞

Definimos la función de distribución de la variable Y condicionada por la variable


X, {Y|X } como
74 Estadı́stica

F (y|x) = P (Y ≤ y|X=x ) = lı́m P (Y ≤ y|x−ε<X≤x+ε) =


ε→0

Z x+ε Z y
f (x, y) dydx
P (x − ε < X ≤ x + ε, Y ≤ y) x−ε −∞
= lı́m = lı́m Z x+ε =
ε→0 P (x − ε < X ≤ x + ε) ε→0
fX (x) dx
x−ε

Z x+ε

Z y  f (x, y) dx 
 x−ε 
  dy Z y
−∞  2ε 
f (x, y) dy
−∞
= lı́m Z x+ε = =
ε→0 fX (x)
fX (x) dx
x−ε

Z y Z y
f (x, y)
= dy = f (y|x) dy ∀y ∈ R
−∞ fX (x) −∞

habiendo definido la función f (y|x) como

f (x, y)
f (y|x) =∀y ∈ R
fX (x)
es decir, f (y|x) es la función de densidad de la variable aleatoria Y condicionada por el
valor de la variable aleatoria X = x.
De manera análoga, se define la función de distribución de la variable X condicionada
por la variable Y , {X|Y } como
Z x Z x
f (x, y)
F (x|y) = P (X ≤ x|Y =y ) = dx = f (x|y) dx ∀x ∈ R
−∞ fY (y) −∞
habiendo definido la función f (x|y) como

f (x, y)
f (x|y) =∀x ∈ R
fY (y)
es decir, f (x|y) es la función de densidad de la variable aleatoria X condicionada por el
valor de la variable aleatoria Y = y.
Como casos particulares,
Z x Z y
f (x, y) dydx
P (X ≤ x, Y ≤ y) −∞ −∞
• P (Y ≤ y|X≤x) = = Z x
P (X ≤ x)
fX (x) dx
−∞
7 Variable aleatoria bidimensional y n-dimensional 75

Z b Z y
f (x, y) dydx
P (a ≤ X ≤ b, Y ≤ y) a −∞
• P (Y ≤ y|a≤X≤b ) = = Z b
P (a ≤ X ≤ b)
fX (x) dx
a

7.5. Variables aleatorias bidimensionales independien-


tes
Cuando dos sucesos son independientes, se verifica que

P (S1 ∩ S2 ) = P (S1 )P (S2 )

o, también

P (S1 /S2 ) = P (S1 )


P (S2 /S1 ) = P (S2 )
Utilizando el mismo razonamiento, dos variables aleatorias X e Y con función de
probabilidad conjunta P (X = xi , Y = yj ) = pij si son discretas, y función de densidad
conjunta f (x, y) si son continuas, son independientes, si se verifica

 ∀i, j
 pij = pi· p·j
 v.a. discreta



 f (x, y) = f (x)f (y) ∀x, y v.a. continua
X Y

TEOREMA 1. Si dos variables X e Y son independientes, cualquier par de variables que


se obtengan cada una como función de una sola de las anteriores, Z = g(X) y W = h(Y )
son independientes.

TEOREMA 2. Si dos experimentos son independientes, dos variables aleatorias definidas


respectivamente a partir de los resultados de cada uno de los experimentos anteriores son
independientes.
76 Estadı́stica

7.6. Momentos de una variable aleatoria bidimensio-


nal
Dada una v.a. bidimensional (X, Y ), se pueden definir los momentos de orden r y s
centrados en el origen o centrados en las medias.
• Momento de orden r y s centrado en el origen
 XX

 xri yjs P (X = xi , Y = yj )



 i j
mrs = E[X r Y s ] =

 Z +∞ Z +∞



 xr y s f (x, y) dxdy
−∞ −∞

Los momentos centrados en el origen más utilizados son


2 Momentos de primer orden

 XX X

 x P (X = x , Y = y ) = xi pi·


i i j

 i j i
µX = m10 = E[X] =

 Z +∞ Z +∞ Z +∞



 xf (x, y) dxdy = xfX (x) dx
−∞ −∞ −∞

 XX X

 y P (X = x , Y = y ) = yj p·j


j i j

 i j j
µY = m01 = E[Y ] =

 Z +∞ Z +∞ Z +∞



 yf (x, y) dxdy = yfY (y) dy
−∞ −∞ −∞

Como puede comprobarse, los momentos de primer orden centrados en el origen m10
y m01 son, respectivamente, las medias, µX y µY , de las distribuciones marginales X e Y .
7 Variable aleatoria bidimensional y n-dimensional 77

2 Momentos de segundo orden


 XX X

 x2
P (X = x , Y = y ) = x2i pi·

 i i j

 i j i
m20 = E[X 2 ] =

 Z +∞ Z +∞ Z +∞




2
x f (x, y) dxdy = x2 fX (x) dx
−∞ −∞ −∞

 XX X

 y 2
P (X = x , Y = y ) = yj2 p·j

 j i j

 i j j
m02 = E[Y 2 ] =

 Z +∞ Z +∞ Z +∞




2
y f (x, y) dxdy = y 2 fY (y) dy
−∞ −∞ −∞

 XX

 xi yj P (X = xi , Y = yj )



 i j
m11 = E[XY ] =

 Z +∞ Z +∞



 xyf (x, y) dxdy
−∞ −∞

• Momento de orden r y s centrado en las medias

 XX

 (xi − µX )r (yj − µY )s P (X = xi , Y = yj )



 i j
Mrs = E[(X − µX )r (Y − µY )s ] =

 Z +∞ Z +∞



 (x − µX )r (y − µY )s f (x, y) dxdy
−∞ −∞

Los momentos centrados en las medias más utilizados son


2 Momentos de primer orden
 XX X

 (x i − µ X ) P (X = x i , Y = y j ) = (xi − µX ) pi· = 0



 i j i
M10 = E[X − µX ] =

 Z +∞ Z +∞ Z +∞



 (x − µX )f (x, y) dxdy = (x − µX )fX (x) dx = 0
−∞ −∞ −∞

 XX X

 (yj − µY ) P (Y = xi , Y = yj ) = (yj − µY ) p·j = 0



 i j i
M01 = E[Y − µY ] =

 Z +∞ Z +∞ Z +∞



 (y − µY )f (x, y) dxdy = (y − µY )fY (y) dy = 0
−∞ −∞ −∞

2 Momentos de segundo orden


78 Estadı́stica

 XX X
2


 (x i − µ X ) P (X = x i , Y = y j ) = (xi − µX )2 pi·


 i j i
2 =M 2
σX 20 = E[(X − µX ) ] =

 Z +∞ Z +∞ Z +∞



 (x − µX )2 f (x, y) dxdy = (x − µX )2 fX (x) dx
−∞ −∞ −∞

 XX X
2


 (y j − µ Y ) P (Y = x i , Y = y j ) = (yj − µY )2 p·j


 i j i
σY2 = M02 = E[(Y − µY )2 ] =

 Z +∞ Z +∞ Z +∞



 2
(y − µY ) f (x, y) dxdy = (y − µY )2 fY (y) dx
−∞ −∞ −∞

 XX

 (xi − µX )(yj − µY ) P (X = xi , Y = yj )



 i j
σXY = M11 = E[(X − µX )(Y − µY )] =

 Z +∞ Z +∞



 (x − µX )(y − µY )f (x, y) dxdy
−∞ −∞

Como puede comprobarse, los momentos de segundo orden centrados en las medias
2
M20 y M02 son, respectivamente, las varianzas, σX y σY2 , de las distribuciones marginales
X e Y.
El momento de segundo orden centrado en las medias M11 se denomina covarianza
de la v.a. bidimensional (X, Y ) y la notaremos por σXY o Cov(X, Y ).

7.6.1. Propiedades de las varianzas y la covarianza


Veamos, en primer lugar, un método alternativo para el cálculo de las varianzas y
la covarianza.

2 Varianzas

2
σX = E[(X − µX )2 ] = E[(X 2 − 2µX X + µ2X ] = E[X 2 ] − 2µX E[X] + µ2X =

= E[X 2 ] − 2µ2X + µ2X = E[X 2 ] − µ2X = E[X 2 ] − E[X]2 = m20 − m210

σY2 = E[(Y − µY )2 ] = E[(Y 2 − 2µY Y + µ2Y ] = E[Y 2 ] − 2µY E[Y ] + µ2Y =

= E[Y 2 ] − 2µ2Y + µ2Y = E[Y 2 ] − µ2Y = E[Y 2 ] − E[Y ]2 = m02 − m201


2 Covarianza
7 Variable aleatoria bidimensional y n-dimensional 79

σXY = E[(X − µX )(Y − µY )] = E[XY − µX Y − µY X + µX µY ] =

= E[XY ] − µX E[Y ] − µY E[X] + µX µY = E[XY ] − µX µY − µY µX + µX µY =

= E[XY ] − µX µY = E[XY ] − E[X]E[Y ] = m11 − m10 m01

Ahora, veamos algunas propiedades de las varianzas y la covarianza. Sea (X, Y ) una
v.a. bidimensional

1 Var(aX + b) = a2 Var(X)

2 Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y )

• E[aX + bY ] = aE[X] + bE[Y ] = aµX + bµY

• Var(aX + bY ) = E [((aX + bY ) − E[(aX + bY )])2 ] =

= E [((aX + bY ) − (aµX + bµY ))2 ] =

= E [((aX − aµX ) + (bY − bµY ))2 ] =

= E [(aX − aµX )2 + (bY − bµY )2 + 2(aX − aµX )(bY − bµY )] =

= a2 E[(X − µX )2 ] + b2 E[(Y − µY )2 ] + 2abE[(X − µX )(Y − µY )] =

= a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y )

3 Si X e Y son independientes, entonces Cov(X, Y ) = 0

Si X e Y son independientes, entonces

• f (x, y) = fX (x)fY (y)


Z +∞ Z +∞ Z +∞ Z +∞
• E[XY ] = xyf (x, y) dydx = xyfX (x)fY (y) dydx =
−∞ −∞ −∞ −∞

Z +∞  Z +∞ 
= xfX (x) dx yfY (y) dy = E[X]E[Y ]
−∞ −∞

• Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[X]E[Y ] − E[X]E[Y ] = 0


80 Estadı́stica

4 Si X e Y son independientes, entonces Var(aX + bY ) = a2 Var(X) + b2 Var(Y )

5 Cov2 (X, Y ) ≤ Var(X) Var(Y )

7.6.2. Coeficiente de correlación lineal


En el capı́tulo 6, vimos que la varianza de una v.a. unidimensional nos da una idea
del grado de dispersión de los valores que toma la variable respecto a su media. Es decir,
la varianza es una medida de dispersión. Sin embargo, lo que generalmente se utiliza es
la raı́z cuadrada de la varianza, o sea la desviación tı́pica, y ası́ trabajar con las mismas
unidades que la media.
La covarianza, en cambio, es un momento que se refiere a una v.a. bidimensional,
(X, Y ), y da una idea del grado de asociación lineal que existe entre ambas variables.
Ası́, si Cov(X, Y ) > 0, hay una relación lineal positiva entre X e Y en el sentido de, a
valores grandes de X le corresponden valores grandes de Y y viceversa; mientras que si
Cov(X, Y ) < 0, hay una relación lineal negativa entre X e Y en el sentido de, a valores
grandes de X le corresponden valores pequeños de Y , y viceversa. Si Cov(X, Y ) = 0, no
hay relación lineal entre ellas.
Para medir el grado de relación lineal entre dos variables, conviene trabajar con un
parámetro adimensional. Para ello, se define el coeficiente de correlación lineal,ρ, como

Cov(X, Y ) σXY
ρ= p =
Var(X)Var(Y ) σX σY
también se utiliza el coeficiente de determinación lineal, ρ2

Cov2 (X, Y ) σ2
ρ2 = = 2XY2
Var(X)Var(Y ) σX σY
El concepto de asociación lineal se estudiará más adelante, por lo que, ahora, sólo
nos detenemos en observar que

−1 ≤ ρ ≤ 1 y 0 ≤ ρ2 ≤ 1
7 Variable aleatoria bidimensional y n-dimensional 81

7.7. Función caracterı́stica de una variable aleatoria


bidimensional
Sea (X, Y ) una v.a. bidimensional con función de probabilidad conjunta dada por
P (X = x, Y = y) si es discreta, o función de densidad conjunta f (x, y) si es continua. Se
define la función caracterı́stica conjunta como,
 XX

 eit1 x+it2 y P (X = x, Y = y)



 x y
ϕ(t1 , t2 ) = E[eit1 X+it2 Y ] =

 Z +∞ Z +∞



 eit1 x+it2 y f (x, y) dxdy
−∞ −∞

Algunas de las propiedades más importantes de la función caracterı́stica son

• ϕ(0, 0) = 1

• Se cumple,

∂ r ϕ(t1 , t2 )
= E[ir X r−s Y s eit1 X+it2 Y ]
∂t1r−s ∂ts2
Entonces, los momentos centrados en el origen se pueden calcular como,


r−s s1 ∂ r ϕ(t1 , t2 )
mr−s,s = E[X Y ]= r
i ∂t1r−s ∂ts2 t1 =0,t2 =0

• Si ϕ(t1 , t2 ) es la función caracterı́stica conjunta de (X, Y ), entonces las funciones


caracterı́sticas de las distribuciones marginales X e Y son

ϕX (t) = E[eitX ] = ϕ(t, 0)


ϕY (t) = E[eitY ] = ϕ(0, t)

Si, además, X e Y son independientes, entonces

ϕ(t1 , t2 ) = ϕ(t1 , 0)ϕ(0, t2) = ϕX (t1 )ϕY (t2 )

• Si ϕ(t1 , t2 ) es la función caracterı́stica conjunta de (X, Y ), y Z = X + Y , entonces,

ϕZ (t) = ϕ(t, t)
82 Estadı́stica

Si, además, X e Y son independientes, entonces

ϕZ (t) = ϕ(t, t) = ϕX (t)ϕY (t)

7.8. Transformación de variables aleatorias bidimen-


sionales

7.8.1. Una función de dos variables aleatorias


Sean X e Y dos variables aleatorias con distribución conjunta conocida f (x, y).
Consideremos una nueva variable aleatoria Z definida mediante la función Z = g(X, Y ).
Definamos ∀z ∈ R el subconjunto de R2


Dz ≡ (x, y) ∈ R2 tales que g(x, y) ≤ z

El suceso {Z ≤ z} es ahora {g(X, Y ) ≤ z} = {(X, Y ) ∈ Dz }, y la función de


distribución de la variable Z es
Z Z
FZ (z) = P (Z ≤ z) = P ((X, Y ) ∈ Dz ) = f (x, y) dxdy
Dz

7.8.2. Dos funciones de dos variables aleaorias


Supongamos ahora que dadas X e Y con distribución conjunta conocida f (x, y),
queremos calcular la distribución de un par de variables Z y W dadas por

Z = g(X, Y )
W = h(X, Y )

Definamos en subconjunto de R2


Dzw ≡ (x, y) ∈ R2 tales que g(x, y) ≤ z , h(x, y) ≤ w

El suceso conjunto {Z ≤ z, W ≤ w} = {(X, Y ) ∈ Dzw }, y la función de distribución


del par (Z, W ) es

Z Z
FZW (z, w) = P (Z ≤ z, W ≤ w) = P ((X, Y ) ∈ Dzw ) = f (x, y) dxdy
Dzw
7 Variable aleatoria bidimensional y n-dimensional 83

7.8.3. Variable aleatoria discreta


Dada una v.a. bidimensional (X, Y ), con función de probabilidad conjunta

P (X = xi , Y = yj ) = pij 1 ≤ i, j ≤ +∞

definimos la transformación biunı́voca

U = u(X, Y )
V = v(X, Y )
La función de probabilidad conjunta de la nueva v.a. bidimensional (U, V ) será

X
P (U = ur , V = vs ) = P ((X, Y ) ∈ S) = P (X = xi , Y = yj ) 1 ≤ r, s ≤ +∞
(xi ,yj )∈S

7.8.4. Variable aleatoria continua


Dada una v.a. bidimensional (X, Y ), con función de densidad conjunta

f (x, y) − ∞ ≤ x, y ≤ +∞

definimos la transformación biunı́voca

U = u(X, Y )
V = v(X, Y )
La función de densidad conjunta de la nueva v.a. bidimensional (U, V ) será

g(u, v) = f (x(u, v), y(u, v))|J| − ∞ ≤ u, v ≤ +∞

siendo J el jacobiano de la transformación, es decir

∂u ∂u
−1

∂x ∂x

∂u ∂v ∂x ∂y

J= =

∂y ∂y ∂v ∂v

∂u ∂v ∂x ∂y
84 Estadı́stica

7.9. Variable aleatoria n-dimensional


Todo lo que se ha visto para v.a. bidimensionales se puede extender al caso de
n variables aleatorias. Dado un espacio probabilı́stico (E, Ω, P ) y n variables aleatorias
X1 , X2 , . . . , Xn definidas en él, el vector aleatorio (X1 , X2 , . . . , Xn ), se denomina variable
aleatoria n-dimensional.
La función de densidad conjunta viene dada por

P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) v.a. discreta

f (x1 , x2 , . . . , xn ) v.a. continua


Las distribuciones marginales se definen como,

X X X X
P (Xr = xr ) = ··· ··· P (X1 = x1 , . . . , Xn = xn ) v.a. discreta
x1 xr−1 xr+1 xn

Z +∞ Z +∞
fXr (xr ) = ··· f (x1 , . . . , xn ) dx1 . . . dxr−1 dxr+1 . . . dxn v.a. continua
−∞ −∞

Las n variables aleatorias son independientes si se verifica

P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) × · · · × P (Xn = xn ) ∀x1 , . . . , xn

fX1 ,...,Xn (x1 , . . . , xn ) = fX1 (x1 ) × · · · × fXn (xn ) ∀x1 , . . . , xn


Distribuciones de
8 probabilidad
discretas

Índice
8.1. Distribución de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . . 86
8.2. Distribución Binomial, B(n, p) . . . . . . . . . . . . . . . . . . 86
8.2.1. Teorema de adición para distribuciones Binomiales . . . . . . . 88
8.2.2. Distribución de la proporción . . . . . . . . . . . . . . . . . . . 89
8.3. Distribución de Poisson, P(λ) . . . . . . . . . . . . . . . . . . . 89
8.3.1. Teorema de adición para distribuciones de Poisson . . . . . . . 90
8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 91
8.3.3. Aproximación de una Binomial por una Poisson . . . . . . . . . 92
8.4. Distribución Hipergeométrica, H(n, N, A) . . . . . . . . . . . 92
8.5. Distribución Geométrica, G(p) . . . . . . . . . . . . . . . . . . 94
8.6. Distribución Binomial Negativa, BN(r, p) . . . . . . . . . . . . 95
8.6.1. Teorema de adición para distribuciones Binomiales Negativas . 96

85
86 Estadı́stica

8.1. Distribución de Bernoulli, B(1, p)


Supongamos un experimento, llamado experimento de Bernoulli, en el que sólo se
pueden dar dos resultados, éxito o fracaso. Generalmente, se asigna el valor 1 al suceso
éxito, y el valor 0 al suceso fracaso. Si la probabilidad de éxito es p y la de fracaso es
q = 1 − p, entonces, la función de probabilidad de la v.a. X asociada a este experimento
es
P (X = x) = px q 1−x x = 0, 1
1
X
• P (X = x) = P (X = 0) + P (X = 1) = p + q = 1
x=0

• Esperanza y Varianza
1
X
E[X] = xP (X = x) = 0 × P (X = 0) + 1 × P (X = 1) = p
x=0

1
X
2
Var(X) = E[X ] − (E[X]) = 2
x2 P (X = x) − p2 =
x=0

= 02 × P (X = 0) + 12 × P (X = 1) − p2 = p − p2 = p(1 − p) = pq

E[X] = p Var(X) = pq

• Función Caracterı́stica
1
X
ϕ(t) = E[eitX ] = eitx P (X = x) = eit0 P (X = 0) + eit1 P (X = 1) = q + p eit
x=0

ϕ(t) = q + p eit

8.2. Distribución Binomial, B(n, p)


Si realizamos un experimento de Bernoulli n veces, siempre en las mismas condi-
ciones, y nos interesamos por el número de éxitos obtenidos, tenemos una distribución
Binomial B(n, p), con función de probabilidad
!
n
P (X = x) = px q n−x x = 0, 1, 2, . . . , n
x
8 Distribuciones de probabilidad discretas 87

n n
!
X X n
• P (X = x) = px q n−x = (p + q)n = 1
x=0 x=0 x

• Función Caracterı́stica
n n
!
X X n
itX itx
ϕ(t) = E[e ]= e P (X = x) = (p eit )x q n−x = (p eit + q)n
x=0 x=0 x

ϕ(t) = (p eit + q)n

• Esperanza

ϕ′ (0)
ϕ′ (t) = npi eit (p eit + q)n−1 =⇒ ϕ′ (0) = npi =⇒ E[X] = = np
i

E[X] = np

• Varianza

ϕ′′ (t) = npi2 eit [(p eit + q)n−1 + (n − 1)p eit (p eit + q)n−2]

ϕ′′ (0) = npi2 [1 + (n − 1)p] = i2 [np + (np)2 − np2 ]

ϕ′′ (0)
E[X 2 ] = = np + (np)2 − np2
i2

Var(X) = E[X 2 ] − (E[X])2 = np + (np)2 − np2 − (np)2 = np(1 − p) = npq

Var(X) = npq

• Moda
Buscamos el valor de x tal que P (X = x) ≥ P (X = y) ∀y = 0, 1, 2, . . . , n.
Supongamos que x es la moda, entonces,
! !
n n
P (X = x) > P (X = x − 1) =⇒ px q n−x > px−1 q n−x+1 =⇒
x x−1

n! n! p q
px q n−x > px−1 q n−x+1 =⇒ > =⇒
x! (n − x)! (x − 1)! (n − x + 1)! x n−x+1
88 Estadı́stica

x < (n + 1)p

Por otra parte,


! !
n n
P (X = x) > P (X = x + 1) =⇒ px q n−x > px+1 q n−x−1 =⇒
x x+1

n! n! q p
px q n−x > px+1 q n−x−1 =⇒ > =⇒
x! (n − x)! (x + 1)! (n − x − 1)! n−x x+1
(n + 1)p − 1 < x

Por tanto,
(n + 1)p − 1 < x < (n + 1)p

es decir, la moda es el número entero, x, no negativo, que se encuentra entre los


valores (n + 1)p − 1 y (n + 1)p. Si (n + 1)p es un número entero no negativo, entonces
la distribución tiene dos modas :

x1 = (n + 1)p − 1
x2 = (n + 1)p

8.2.1. Teorema de adición para distribuciones Binomiales


Sean X1 ≡ B(n1 , p), . . . , Xr ≡ B(nr , p) r v.a. Binomiales independientes. Entonces
la nueva variable aleatoria

Y = X1 + · · · + Xr ≡ B(n1 + · · · + nr , p)

Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el


hecho de que son independientes,

ϕXk (t) = (q + p eit )nk k = 1, 2, . . . , r

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 × · · · × eitXr ] = E[eitX1 ] × · · · × E[eitXr ] =

= ϕX1 (t) × · · · × ϕXr (t) = (p eit + q)n1 × · · · × (p eit + q)nr =

= (p eit + q)n1 +···+nr

Pero, esta es la función caracterı́stica de una distribución Binomial de parámetros


n = n1 + · · · + nr y p.
8 Distribuciones de probabilidad discretas 89

8.2.2. Distribución de la proporción


Si realizamos n veces un experimento de Bernoulli, podemos interesarnos por el
número de éxitos, para lo cual tenemos la distribución Binomial, o podemos estar intere-
sados en la proporción de éxitos. Sean
• X ≡ Número de éxitos al realizar n veces un experimento de Bernoulli ≡ B(n, p)
X
• Y ≡ Proporción de éxitos al realizar n veces un experimento de Bernoulli =
n
La v.a. Y no sigue una distribución Binomial, pero está relacionada con ella por una
constante, n. Además, se tiene
 n
it X i nt X i nt
ϕY (t) = E[e itY
] = E[e n ] = E[e ]= ϕX ( nt ) = q +pe


X 1 1
E[Y ] = E = E[X] = np = p
n n n
 
X 1 1 pq
Var(Y ) = Var = Var(X) = npq =
n n2 n2 n

8.3. Distribución de Poisson, P(λ)


Sea X la v.a. que describe el número de eventos que ocurren por unidad de tiempo
o espacio, y λ el número medio de estos eventos que ocurren por unidad de tiempo o
espacio. Imponemos, además, la restricción de que los eventos deben ser independientes
entre sı́ y ocurrir con una tasa constante. En ese caso, se dice que X sigue una distribución
de Poisson de parámetro λ, y cada uno de los eventos se denomina suceso de Poisson.
De forma más general, una v.a. sigue una distribución de Poisson, si su función de
probabilidad es de la forma
λx −λ
P (X = x) = e x = 0, 1, 2, . . .
x!

X ∞
X ∞
X
λx −λ −λ λx
• P (X = x) = e =e = e−λ eλ = 1
x=0 x=0
x! x=0
x!

• Función Caracterı́stica


X ∞
X
itX itx −λ (λeit )x it it −1)
ϕ(t) = E[e ]= e P (X = x) = e = e−λ eλe = eλ(e
x=0 x=0
x!

it −1)
ϕ(t) = eλ(e
90 Estadı́stica

• Esperanza

it −1) ϕ′ (0)
ϕ′ (t) = iλeit eλ(e =⇒ ϕ′ (0) = λi =⇒ E[X] = =λ
i

E[X] = λ

• Varianza

it −1)
ϕ′′ (t) = i2 λeit eλ(e [1 + λeit ] =⇒ ϕ′′ (0) = i2 (λ + λ2 )

ϕ′′ (0)
E[X 2 ] = = λ + λ2 =⇒ Var(X) = E[X 2 ] − (E[X])2 = λ + λ2 − λ2 = λ
i2

Var(X) = λ

• Moda
Supongamos que la moda es x, entonces,
λx −λ λx−1 −λ
P (X = x) > P (X = x − 1) =⇒ e > e =⇒ x < λ
x! (x − 1)!
λx −λ λx+1 −λ
P (X = x) > P (X = x + 1) =⇒ e > e =⇒ x > λ − 1
x! (x + 1)!
Por tanto,
λ−1<x<λ

es decir, la moda es el número entero, x, no negativo, que se encuentra entre λ − 1 y


λ. Si λ es un número entero no negativo, entonces la distribución tiene dos modas :

x1 = λ − 1
x2 = λ

8.3.1. Teorema de adición para distribuciones de Poisson


Sean X1 ≡ P(λ1 ), . . . , Xn ≡ P(λn ) n v.a. de Poisson independientes. Entonces la
nueva variable aleatoria

Y = X1 + · · · + Xn ≡ P(λ1 + · · · + λn )

Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el


hecho de que son independientes,
8 Distribuciones de probabilidad discretas 91

it −1)
ϕXk (t) = eλk (e k = 1, 2, . . . , n

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] =

it −1) it −1)
= ϕX1 (t) × · · · × ϕXn (t) = eλ1 (e × · · · × eλn (e =

it −1)
= e(λ1 +···+λn )(e

Pero, esta es la función caracterı́stica de una distribución de Poisson de parámetro


λ = λ1 + · · · + λn .

8.3.2. Probabilidad condicional


Sean X1 ≡ P(λ1 ) y X2 ≡ P(λ2 ), dos v.a. de Poisson independientes. Ya hemos visto
que entonces X1 + X2 ≡ P(λ1 + λ2 ). Pero, si consideramos la v.a. condicionada

X1|X1 +X2

su función de probabilidad será

  P (X1 = x, X1 + X2 = y) P (X1 = x, X2 = y − x)
P X1 = x|X1 +X2 =y = = =
P (X1 + X2 = y) P (X1 + X2 = y)

y−x
λx
1 −λ1 λ2
P (X1 = x)P (X2 = y − x) x!
e (y−x)!
e−λ2
= = (λ1 +λ2 )y −(λ1 +λ2 )
=
P (X1 + X2 = y) e
y!

! x  y−x
y! λx1 λy−x
2 y λ1 λ2
= =
x! (y − x)! (λ1 + λ2 )y x λ1 + λ2 λ1 + λ2

Pero, esta es la función de probabilidad de una distribución Binomial de parámetros


λ1
n = y, p = λ1 +λ2
, es decir
 
λ1
X1|X1 +X2 ≡ B n = y, p =
λ1 + λ2
92 Estadı́stica

8.3.3. Aproximación de una Binomial por una Poisson


Originalmente, Poisson determinó la distribución que lleva su nombre como el lı́mite
de una B(n, p) cuando n tiende a infinito y p tiende a cero, manteniendo constante la
esperanza, np.
Si hacemos que n → ∞ bajo la condición de que λ = np = cte, entonces
λ
lı́m np = λ =⇒ p = −→ 0
n→∞ n
Veamos qué ocurre al introducir estos lı́mites en la función de probabilidad de una
B(n, p) ! !  
x n−x
n n λ λ
lı́m P (B(n, p) = x) = lı́m px q n−x = lı́m 1− =
n→∞ n→∞ x n→∞ x n n
p→0 p→0
 n
λ
 n−x 1−
n! λx λ λx n! n
= lı́m 1− = lı́m  x =
n→∞ x! (n − x)! nx n x! n→∞ nx (n − x)! λ
1−
n
 n
λ
  lı́m 1 −  n
λx n(n − 1) · · · [n − (x − 1)] n→∞ n λx λ
= lı́m  x = lı́m 1 − =
x! n→∞ nx λ x! n→∞ n
lı́m 1 −
n→∞ n
 !− nλ −λ
x x
λ 1  = λ e−λ = P (P(λ) = x)
= lı́m  1 + n
x! n→∞ −λ
x!

Es decir, para valores grandes de n y pequeños de p, de forma que el producto np


tenga un valor moderado, una Binomial B(n, p) se puede aproximar por una Poisson,
P(λ), siendo λ = np. En general, si

np ≥ 5 y p ≤ 0.1 =⇒ B(n, p) ∼
= P(λ = np)

8.4. Distribución Hipergeométrica, H(n, N, A)


En urna hay N bolas de las cuales, A son blancas y N −A son negras. La probabilidad
de sacar una bola blanca es p = A/N. Extraemos n bolas, bien sacando todas a la vez o
bien una a una sin reemplazamiento, y definimos la v.a. X como el número de bolas
blancas entre las n extraı́das, entonces,
8 Distribuciones de probabilidad discretas 93

! !
A N −A
x n−x
P (X = x) = ! x = 0, 1, 2, . . . , n
N
n
NOTA.- Para algunos de estos valores de x, P (X = x) = 0. De hecho, debe ser

máx{0, n − N + A} ≤ x ≤ mı́n{n, A}

sin embargo, a lo largo del desarrollo, tomaremos 0 ≤ x ≤ n.


n n
! ! !
X 1 X A N −A 1 N
• P (X = x) = ! = ! =1
x=0 N x=0 x n − x N n
n n

• Esperanza

! ! ! !
A N −A A N −A
n
X n
X n
X
x n−x x n−x
E[X] = xP (X = x) = x ! = x ! =
x=0 x=0 N x=1 N
n n

! !
N −A N −A
n
X n
X
A! n−x (A − 1)! n−x
= x ! =A ! =
x=1
x! (A − x)! N x=1
(x − 1)! (A − x)! N
n n

! ! ! !
A−1 N −A A−1 (N − 1) − (A − 1)
n
X n−1
X
x−1 n−x y (n − 1) − y
=A ! =A ! =
x=1 N y=0 N
n n

! !
A−1 (N − 1) − (A − 1)
n−1
X y (n − 1) − y A
=A ! =n = np
y=0 N N −1 N
n n−1
94 Estadı́stica

A
E[X] = n = np
N

• Varianza
 
N −n A A (N − n)np(1 − p)
Var(X) = n 1− =
N −1 N N N −1

8.5. Distribución Geométrica, G(p)


Partimos de un experimento de Bernoulli, siendo p = P (éxito) y q = 1 − p =
P (fracaso), y repetimos el experimento, siempre en las mismas condiciones, hasta que
ocurre el primer éxito. De esta forma, definimos la v.a. X, como el número de fracasos
hasta que se obtiene el primer éxito. Entonces,

P (X = x) = p q x x = 0, 1, 2, . . .

X ∞
X ∞
X
x 1 1
• P (X = x) = pq = p qx = p =p =1
x=0 x=0 x=0
1−q p

• Función de distribución
x
X x
X 1 − qxq
F (x) = P (X ≤ k) = p qk = p = 1 − q x+1
k=0 k=0
1−q

• Función Caracterı́stica


X ∞
X p
ϕ(t) = E[eitX ] = eitx P (X = x) = p (q eit )x =
x=0 x=0
1 − q eit

p
ϕ(t) =
1 − q eit

• Esperanza

eit 1 q ϕ′ (0) q
ϕ′ (t) = ipq =⇒ ϕ ′
(0) = ipq = i =⇒ E[X] = =
(1 − q eit )2 (1 − q)2 p i p

q
E[X] =
p
8 Distribuciones de probabilidad discretas 95

• Varianza

(1 − q eit )2 + 2q eit (1 − q eit )


ϕ′′ (t) = i2 pq eit
(1 − q eit )4

(1 − q)2 + 2q(1 − q) 2 q
ϕ′′ (0) = i2 pq = i (p + 2q)
(1 − q)4 p2

ϕ′′ (0) q
E[X 2 ] = 2
= 2 (p + 2q)
i p

qp + 2q 2 q 2 qp + q 2 q(p + q) q
Var(X) = E[X 2 ] − (E[X])2 = 2
− 2
= 2
= 2
= 2
p p p p p

q
Var(X) =
p2

8.6. Distribución Binomial Negativa, BN(r, p)


Partimos de un experimento de Bernoulli, siendo p = P (éxito) y q = 1 − p =
P (fracaso), y repetimos el experimento, siempre en las mismas condiciones, hasta que
ocurre el n-ésimo éxito. De esta forma, definimos la v.a. X, como el número de fracasos
hasta que se obtiene el n-ésimo éxito. Entonces,
!
x+r−1
P (X = x) = pr q x x = 0, 1, 2, . . .
x
En general, si a ∈ R y n ∈ N, se define
! !
−a a+n−1
= (−1)n
n n

Utilizando esta expresión, tenemos


! !
−r −r
P (X = x) = (−1)x pr q x = pr (−q)x x = 0, 1, 2, . . .
x x

expresión similar a la de una distribución Binomial.


∞ ∞
!
X X −r
• P (X = x) = pr (−q)x = pr (1 − q)−r = 1
x=0 x=0 x
96 Estadı́stica

• Función Caracterı́stica

∞ ∞
!  r
X X −r p
itX itx r it x
ϕ(t) = E[e ]= e P (X = x) = p (−q e ) =
x=0 x=0 x 1 − q eit

 r
p
ϕ(t) =
1 − q eit

• Esperanza

eit 1 q ϕ′ (0) q
ϕ′ (t) = ipr qr it r+1
=⇒ ϕ ′
(0) = ip r
qr r+1
= i r =⇒ E[X] = = r
(1 − q e ) (1 − q) p i p

q
E[X] = r
p

• Varianza

(1 − q eit )r+1 + (r + 1)q eit (1 − q eit )r


ϕ′′ (t) = i2 pr qr eit
(1 − q eit )2r+2

(1 − q)r+1 + (r + 1)q(1 − q)r p + (r + 1)q


ϕ′′ (0) = i2 pr qr 2r+2
= i2 qr
(1 − q) p2

2 ϕ′′ (0) p + (r + 1)q


E[X ] = 2
= qr
i p2

rpq + r(r + 1)q 2 q 2 r 2 rqp + rq 2 rq(p + q) q


Var(X) = E[X 2 ] − (E[X])2 = 2
− 2
= 2
= 2
= 2r
p p p p p

q
Var(X) = r
p2

8.6.1. Teorema de adición para distribuciones Binomiales Ne-


gativas
Sean X1 ≡ BN(r1 , p), . . . , Xn ≡ BN(rn , p) n v.a. Binomiales Negativas independien-
tes. Entonces la nueva variable aleatoria

Y = X1 + · · · + Xn ≡ BN(r1 + · · · + rn , p)
8 Distribuciones de probabilidad discretas 97

Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el


hecho de que son independientes,

pr k
ϕXk (t) = k = 1, 2, . . . , n
(1 − q eit )rk

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] =

pr 1 pr n
= ϕX1 (t) × · · · × ϕXn (t) = × · · · × =
(1 − q eit )r1 (1 − q eit )rn

pr1 +···+rn
=
(1 − q eit )r1 +···+rn

Pero, esta es la función caracterı́stica de una distribución Binomial Negativa de


parámetros r = r1 + · · · + rn y p.
98 Estadı́stica
Distribuciones de
9 probabilidad
continuas

Índice
9.1. Distribución Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . 100
9.2. Distribución Normal, N(µ, σ) . . . . . . . . . . . . . . . . . . . 101
9.2.1. Teorema de adición para distribuciones Normales . . . . . . . . 103
9.2.2. Distribución Normal estándar . . . . . . . . . . . . . . . . . . . 104
9.3. Distribución Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . 105
9.4. Distribución χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . 107
9.4.1. Teorema de adición para distribuciones χ2 de Pearson . . . . . 108
9.5. Distribución t-Student, tn . . . . . . . . . . . . . . . . . . . . . 109
9.6. Distribución F-Snedecor, Fn,m . . . . . . . . . . . . . . . . . . 110
9.7. Distribución Exponencial, Exp(λ) . . . . . . . . . . . . . . . . 111
9.7.1. Teorema de adición para distribuciones Exponenciales . . . . . 113
9.8. Distribución de Erlang Er(n, λ) . . . . . . . . . . . . . . . . . . 113
9.8.1. Teorema de adición para distribuciones de Erlang . . . . . . . . 115
9.9. Relación entre las distribuciones de Poisson, Exponencial y
Erlang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.10. Distribución de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . 117
9.11. Distribución Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . 118
9.11.1. Teorema de adición para distribuciones Gamma . . . . . . . . . 119
9.12. Distribución Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . 120
9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . 121
9.14. Distribución Normal Bidimensional . . . . . . . . . . . . . . . 123

99
100 Estadı́stica

9.1. Distribución Uniforme, U(a, b)


Una v.a. X se dice que sigue una distribución Uniforme, X ≡ U(a, b), si su función
de densidad es de la forma

1
f (x) = si a < x < b
b−a

a b

Figura 9.1: Función de densidad de una distribución U(a, b)

Z +∞ Z b
1
• f (x) dx = dx = 1
−∞ a b−a
• Función de Distribución
Z +∞ Z x
1 x−a
F (x) = f (x) dx = dx = a≤x<b
−∞ a b−a b−a

• Esperanza y Varianza

Z +∞ Z b
x b+a
E[X] = xf (x) dx = =
−∞ a b−a 2

Z +∞ Z b
2 2 x2 b2 + a2 + ab
E[X ] = x f (x) dx = =
−∞ a b−a 3

 2
2 b2 + a2 + ab 2 b+a (b − a)2
Var(X) = E[X ] − (E[X]) = − =
3 2 12

b+a (b − a)2
E[X] = Var(X) =
2 12

• Función Caracterı́stica
Z +∞ Z b
itX itx 1 eibt − eiat
ϕ(t) = E[e ] = e f (x) dx = eitx dx = ∀t ∈ R
−∞ b−a a i(b − a)t

eibt − eiat
ϕ(t) =
i(b − a)t
9 Distribuciones de probabilidad continuas 101

9.2. Distribución Normal, N(µ, σ)


Una v.a. X se dice que sigue una distribución Normal, X ≡ N(µ, σ), si su función
de densidad es de la forma
 2
1 x−µ

1
f (x) = √ e 2 σ − ∞ ≤ x ≤ +∞
σ 2π

Figura 9.2: Función de densidad de una distribución N(µ, σ)

Z +∞ Z +∞ Z +∞
1 − 12 ( x−µ )
2 1 1 2
• f (x) dx = √ e σ dx = √ e− 2 u du =
−∞ σ 2π −∞ 2π −∞
Z +∞ Z +∞
2 1 2 1 1
=√ e− 2 u du = √ z −1/2 e−z dz = √ Γ(1/2) = 1
2π 0 π 0 π

• Función Caracterı́stica

Z +∞ Z +∞
1 x−µ 2
eitx e− 2 ( ) dx =
1
itX itx
ϕ(t) = E[e ]= e f (x) dx = √ σ

−∞ σ 2π −∞

Z +∞ Z +∞
1 [(x−µ)2 −2σ2 itx] dx = √1 e− 2σ2 [x ] dx =
1 1 2 −2(µ+σ 2 it)x+µ2

= √ e 2σ 2
σ 2π −∞ σ 2π −∞

Z +∞ h i
1 − 1
(x−(µ+σ2 it))
2
+µ2 −(µ+σ2 it)2
= √ e 2σ 2 dx =
σ 2π −∞

 2
µ2 −(µ+σ 2 it)2 Z x − (µ + σ 2 it)
− +∞ − 12  
e 2σ 2
σ
= √ e dx =
σ 2π −∞
102 Estadı́stica

σ 4 t2 −2µσ 2 it Z 1 2 2
e− 2σ 2
+∞
− 12 u2 eiµt− 2 σ t √ 1 2 2
= √ e σ du = √ σ 2π = eiµt− 2 σ t
σ 2π −∞ σ 2π

1 2 t2
ϕ(t) = eiµt− 2 σ

• Esperanza

1 2 t2 ϕ′ (0)
ϕ′ (t) = (iµ − σ 2 t)eiµt− 2 σ =⇒ ϕ′ (0) = iµ =⇒ E[X] = =µ
i

E[X] = µ

• Varianza

1 2 t2
ϕ′′ (t) = [−σ 2 + (iµ − σ 2 t)2 ] eiµt− 2 σ =⇒ ϕ′′ (0) = −σ 2 + i2 µ2

ϕ′′ (0)
E[X 2 ] = = σ 2 + µ2
i2

Var(X) = E[X 2 ] − (E[X])2 = (σ 2 + µ2 ) − µ2 = σ 2

Var(X) = σ 2

• Coeficiente de deformación

ϕ′′′ (0) = −3iσ 2 µ + i3 µ3

ϕ′′′ (0) ϕ′′′ (0)


m3 = 3
= − = 3σ 2 µ + µ3
i i
! ! ! !
3 3 3 3
M3 = m3 − m2 µ + m1 µ2 − µ3 = 0
0 1 2 3

M3
D= =0
σ3
La distribución Normal es simétrica respecto a la media
9 Distribuciones de probabilidad continuas 103

• Coeficiente de curtosis

ϕ(iv (0) = 3σ 4 − 6i2 σ 2 µ2 + i4 µ4

ϕ(iv (0)
m4 = = 3σ 4 + 6σ 2 µ2 + µ4
i4
! ! ! ! !
4 4 4 4 4
M4 = m4 − m3 µ + m2 µ2 − m1 µ3 + µ4 = 3σ 4
0 1 2 3 4

M4
C= −3 =0
σ4

La distribución Normal es mesocúrtica

9.2.1. Teorema de adición para distribuciones Normales


Sean X1 ≡ N(µ1 , σ1 ), . . . , Xn ≡ N(µn , σn ), n v.a. Normales independientes. Enton-
ces, la nueva variable aleatoria

 q 
2 2 2 2
Y = b + a1 X1 + · · · + an Xn ≡ N b + a1 µ1 + · · · + an µn , a1 σ1 + · · · + an σn

Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el


hecho de que son independientes,

1 2 2
ϕXk (t) = eiµk t− 2 σk t k = 1, 2, . . . , n

   
ϕY (t) = E[eitY ] = E ei(b+a1 X1 +···+an Xn )t = E eibt × eia1 tX1 × · · · × eian tXn =

= eibt × E[eia1 tX1 ] × · · · × E[eian tXn ] =

= eibt × ϕX1 (a1 t) × · · · × ϕXn (an t) =

1 2 2 2 1 2 2 2
= eibt × eia1 µ1 t− 2 σ1 a1 t × · · · × eian µn t− 2 σn an t =

1 2 2 2 2 2
= ei(b+a1 µ1 +···+an µn )t− 2 (a1 σ1 +···+an σn )t
104 Estadı́stica

Pero, esta es la función caracterı́stica de una distribución Normal con media µ =


b + a1 µ1 + · · · + an µn y varianza σ 2 = a21 σ12 + · · · + a2n σn2 .
También se puede demostrar el teorema inverso, es decir, si la distribución de la
suma de n variables aleatorias independientes es Normal, entonces cada una de las varia-
bles sigue una distribución Normal. Por otra parte, la distribución Normal nunca puede
obtenerse exactamente como suma de variables aleatorias no Normales.

9.2.2. Distribución Normal estándar


Dentro de las distribuciones Normales, la más utilizada es la que tiene media µ = 0
y varianza σ 2 = 1, llamada distribución Normal estándar, N(0, 1).

• Función de densidad

1 1 2
f (x) = √ e− 2 x − ∞ ≤ x ≤ +∞

• Función caracterı́stica

1 2
ϕ(t) = e− 2 t ∀t ∈ R

• Como µ = 0, los momentos respecto a la media coinciden con los momentos respecto
al origen, es decir, Mk = mk ∀k.

• Como la distribución es simétrica, los momentos de orden impar son todos nulos,

m2k+1 = 0 k = 0, 1, 2, . . .

• Los momentos de orden par verifican

(2k)!
m2k = k = 0, 1, 2, . . .
2k k!

En general, siempre podemos pasar de una N(µ, σ) a una N(0, 1) (lo que se llama
tipificar la variable N(µ, σ)) y viceversa, por medio de una transformación lineal.

2 N(µ, σ) −→ N(0, 1)
Sea Y ≡ N(µ, σ), entonces la nueva v.a.

Y −µ
X= ≡ N(0, 1)
σ
9 Distribuciones de probabilidad continuas 105

2 N(0, 1) −→ N(µ, σ)
Sea X ≡ N(0, 1), entonces la nueva v.a.

Y = µ + σX ≡ N(µ, σ)

9.3. Distribución Log-Normal, Log-N(µ, σ)


Sea X ≡ N(µ, σ). Si realizamos la transformación

Y = eX

la distribución de la nueva v.a., llamada distribución Log-Normal, Log-N(µ, σ), es,

GY (y) = P (Y ≤ y) = P (eX ≤ y) = P (X ≤ Ly) = FX (Ly)

1 1
gY (y) = G′Y (y) = FX′ (Ly) = fX (Ly)
y y
Por tanto, la función de densidad de una Log-N(µ, σ) es

1 1 Ly−µ 2
g(y) = √ e− 2 ( σ ) y≥0
yσ 2π

Figura 9.3: Función de densidad de una distribución Log-N(µ, σ)

Z +∞ Z +∞ Z +∞
1 − 12 ( Ly−µ
2 1 1 x−µ 2
• g(y) dy = √ e σ ) dy = √ e− 2 ( σ ) dx = 1
−∞ 0 yσ 2π −∞ σ 2π
106 Estadı́stica

• Esperanza

Z +∞ Z +∞
1 Ly−µ 2
e− 2 ( ) dy =
1
E[Y ] = yg(y) dy = √ σ

−∞ σ 2π 0

Z +∞ Z +∞
1 2 1
− 12 ( x−µ
σ ) e− 2σ2 [(x−µ) ] dx =
1 2 −2σ 2 x
x
= √ e e dx = √
σ 2π −∞ σ 2π −∞

Z +∞
1
e− 2σ2 [(x−(µ+σ ] dx =
1 2 ))2 +µ2 −(µ+σ 2 )2
= √
σ 2π −∞

1 2 2 )2 ) Z  2
x−(µ+σ 2 )
e− 2σ2 (µ −(µ+σ +∞
− 12 σ
= √ e dx =
σ 2π −∞

1 2 Z 1 2
eµ+ 2 σ +∞
1 2 eµ+ 2 σ √ 1 2
= √ e− 2 u σ du = √ σ 2π = eµ+ 2 σ
σ 2π −∞ σ 2π

1
µ + σ2
E[Y ] = e 2

• Varianza

Z +∞ Z +∞
1 Ly−µ 2
ye− 2 ( ) dy =
1
2 2
E[Y ] = y g(y) dy = √ σ

−∞ σ 2π 0

Z +∞ Z +∞
1 2 1
− 12 ( x−µ
σ ) e− 2σ2 [(x−µ) ] dx =
1 2 −4σ 2 x
2x
= √ e e dx = √
σ 2π −∞ σ 2π −∞
Z +∞
1
e− 2σ2 [(x−(µ+2σ ] dx =
1 2 ))2 +µ2 −(µ+2σ 2 )2
= √
σ 2π −∞

1 2 2 )2 ) Z  2
x−(µ+2σ 2 )
e− 2σ2 (µ −(µ+2σ +∞
− 12 σ
= √ e dx =
σ 2π −∞

2 Z 2
e2µ+2σ +∞
− 21 u2 e2µ+2σ √ 2
= √ e σ du = √ σ 2π = e2µ+2σ
σ 2π −∞ σ 2π

2 2 2 2
Var(Y ) = E[Y 2 ] − E[Y ]2 = e2µ+2σ − e2µ+σ = e2µ+σ (eσ − 1)
 2  2
Var(Y ) = e − 1 e2µ + σ
σ
9 Distribuciones de probabilidad continuas 107

9.4. Distribución χ2 de Pearson, χ2n


Sean X1 , . . . , Xn , n v.a. independientes e idénticamente distribuidas según una
N(0, 1). Entonces, la variable aleatoria

X = X12 + · · · + Xn2 = [N(0, 1)]2 + · · · + [N(0, 1)]2 ≡ χ2n

sigue una distribución χ2 de Pearson con n grados de libertad, χ2n , con función de densidad

1 n x
f (x) =  n  x 2 −1 e− 2 x≥0
2n/2 Γ
2

Figura 9.4: Función de densidad de una distribución χ2n

Z +∞ Z +∞
1 n x
• f (x) dx = n x 2 −1 e− 2 dx =
−∞ 2n/2 Γ 0
2
Z +∞ n
1 n n 1
= n 2 2 −1 u 2 −1 e−u 2 du = n Γ =1
2n/2 Γ 0 Γ 2
2 2

• Función caracterı́stica

Z +∞ Z +∞
itx 1 n x
ϕ(t) = E[e itX
]= e f (x) dx = n eitx x 2 −1 e− 2 dx =
−∞ 2n/2 Γ 0
2
Z +∞
1 n 1
= n x 2 −1 e−( 2 −it)x dx =
2n/2 Γ 0
2
108 Estadı́stica

Z +∞   n2 −1
1 2 n 2
= n u 2 −1 e−u du =
2n/2 Γ 0 1 − 2it 1 − 2it
2
  n2 n   n2
1 1 1
= n Γ =
Γ 1 − 2it 2 1 − 2it
2

ϕ(t) = (1 − 2it)−n/2

• Esperanza

ϕ′ (0)
ϕ′ (t) = in(1 − 2it)−1−n/2 =⇒ ϕ′ (0) = in =⇒ E[X] = =n
i

E[X] = n

• Varianza

ϕ′′ (t) = i2 n(n + 2)(1 − 2it)−2−n/2 =⇒ ϕ′′ (0) = i2 n(n + 2)

ϕ′′ (0)
E[X 2 ] = 2
= n2 + 2n
i

Var(X) = E[X 2 ] − (E[X])2 = n2 + 2n − n2 = 2n

Var(X) = 2n

9.4.1. Teorema de adición para distribuciones χ2 de Pearson


Sean X1 ≡ χ2n1 , . . . , Xr ≡ χ2nr , r variables aleatorias χ2 de Pearson independientes.
Entonces la nueva variable aleatoria

Y = X1 + · · · + Xr ≡ χ2n1 +···+nr

Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el


hecho de que son independientes,

ϕXk (t) = (1 − 2it)−nk /2 k = 1, 2, . . . , r


9 Distribuciones de probabilidad continuas 109

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 ] × · · · × E[eitXr ] =

= ϕX1 (t) × · · · × ϕXr (t) = (1 − 2it)−n1 /2 × · · · × (1 − 2it)−nr /2 =

n1 +···+nr
= (1 − 2it)− 2

Pero, esta es la función caracterı́stica de una distribución χ2 de Pearson con n =


n1 + · · · + nr grados de libertad.

9.5. Distribución t-Student, tn


Sean Y, X1 , . . . , Xn , n+1 v.a. independientes e idénticamente distribuidas según una
N(0, 1). Entonces, la variable aleatoria

Y N(0, 1)
X=r = r ≡ tn
X12 + · · · + Xn2 χ2n
n n
sigue una distribución t-Student con n grados de libertad, tn , con función de densidad
 
n+1
Γ  − n+1
2 x2 2
f (x) = √ n 1 + x∈R
nπ Γ n
2

Figura 9.5: Función de densidad de una distribución tn

√ n
Z +∞ Z +∞  − n+1
nπ Γ
x2 2
2
• f (x) dx = 1 =⇒ 1+ dx = 
−∞ −∞ n n + 1
Γ
2
110 Estadı́stica

• Esperanza


n+1
Z +∞ Γ Z +∞  − n+1
2 x2 2
E[X] = xf (x) dx = √ n x 1+ dx = 0
−∞ nπ Γ −∞ n
2
pues el integrando es una función impar.

E[X] = 0 (n > 1)

• Varianza

 
n+1
Z +∞ Γ Z +∞  − n+1
2 2 2 x2 2
E[X 2 ] = x f (x) dx = √ n x 1+ dx =
−∞ nπ Γ −∞ n
2
 
n+1
Γ Z +∞  − n−1
2 n x2 2
=√ n 1+ dx =
nπ Γ n − 1 −∞ n
2
   
n+1 √ n−2
Γ nπ Γ
2 n 2 n
=√ n   =
nπ Γ n−1 n−1 n−2
2 Γ
2

n
Var(X) = E[X 2 ] − E[X]2 =
n−2

n
Var(X) = (n > 2)
n−2

9.6. Distribución F-Snedecor, Fn,m


Sean X1 , . . . , Xn e Y1 , . . . , Ym , n+m v.a. independientes e idénticamente distribuidas
según una N(0, 1). Entonces, la variable aleatoria

X12 + · · · + Xn2 χ2n


X= 2 n = n2 ≡ Fn,m
Y1 + · · · + Ym2 χm
m m
9 Distribuciones de probabilidad continuas 111

sigue una distribución F-Snedecor con n y m grados de libertad, Fn,m , con función de
densidad
 
n/2 m/2 n+m
n m Γ
2 n n+m
f (x) = n m x 2 −1 (m + nx)− 2 x≥0
Γ Γ
2 2

Figura 9.6: Función de densidad de una distribución Fn,m

• Esperanza

m
E[X] = (m > 2)
m−2

• Varianza

2m2 (n + m − 2)
Var[X] = (m > 4)
n (m − 2)2 (m − 4)

1
• Si X ≡ Fn,m =⇒ ≡ Fm,n
X

9.7. Distribución Exponencial, Exp(λ)


Una v.a. X se dice que sigue una distribución Exponencial de parámetro λ > 0,
X ≡ Exp(λ), si su función de densidad es de la forma

f (x) = λ e−λx x≥0


112 Estadı́stica

Figura 9.7: Función de densidad de una distribución Exp(λ)


Z +∞ Z +∞
• f (x) dx = λ e−λx dx = 1
−∞ 0

• Función de distribución

Z x Z x
F (x) = f (x) dx = λ e−λx dx = 1 − e−λx
−∞ 0

• Función caracterı́stica

Z +∞ Z +∞
itX itx λ
ϕ(t) = E[e ]= e f (x) dx = λ e−(λ−it)x dx =
−∞ 0 λ − it

λ
ϕ(t) =
λ − it

• Esperanza

λi i ϕ′ (0) 1
ϕ′ (t) = 2
=⇒ ϕ ′
(0) = =⇒ E[X] = =
(λ − it) λ i λ

1
E[X] =
λ

• Varianza

2λi2
ϕ′′ (t) =
(λ − it)3

2i2
ϕ′′ (0) =
λ2
9 Distribuciones de probabilidad continuas 113

ϕ′′ (0) 2
E[X 2 ] = 2
= 2
i λ

2 1 1
Var(X) = E[X 2 ] − (E[X])2 = 2
− 2 = 2
λ λ λ

1
Var[X] =
λ2

9.7.1. Teorema de adición para distribuciones Exponenciales


Sean X1 ≡ Exp(λ), . . . , Xn ≡ Exp(λ), n v.a. Exponenciales independientes. Enton-
ces la nueva variable aleatoria

Y = X1 + · · · + Xn ≡ Er(n, λ)
Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el
hecho de que son independientes,

λ
ϕXk (t) = k = 1, 2, . . . , n
λ − it

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] =

 n
λ λ λ
= ϕX1 (t) × · · · × ϕXn (t) = ×···× =
λ − it λ − it λ − it
Pero, esta es la función caracterı́stica de una distribución de Erlang de parámetros
n y λ (Sec. 9.8).

9.8. Distribución de Erlang Er(n, λ)


Una v.a. X se dice que sigue una distribución de Erlang de parámetros n y λ > 0,
X ≡ Er(n, λ), si su función de densidad es de la forma

λn n−1 −λx
f (x) = x e x≥0
Γ(n)
Z +∞ Z +∞ Z +∞  u n−1
λn n−1 −λx λn 1
• f (x) dx = x e dx = e−u du =
−∞ Γ(n) 0 Γ(n) 0 λ λ
Z +∞
1 1
= un−1 e−u du = Γ(n) = 1
Γ(n) 0 Γ(n)
114 Estadı́stica

Figura 9.8: Función de densidad de una distribución Er(n, λ)

• Función caracterı́stica

Z +∞ Z +∞
itx λn
ϕ(t) = E[e itX
]= e f (x) dx = xn−1 e−(λ−it)x dx =
−∞ Γ(n) 0

Z +∞  n−1 Z +∞
λn u −u 1 λn 1
= e du = un−1 e−u du =
Γ(n) 0 λ − it λ − it Γ(n) (λ − it)n 0

 n
λn 1 λ
= Γ(n) =
Γ(n) (λ − it)n λ − it
 n
λ
ϕ(t) =
λ − it

• Esperanza

nλn i ni ϕ′ (0) n
ϕ′ (t) = n+1
=⇒ ϕ ′
(0) = =⇒ E[X] = =
(λ − it) λ i λ

n
E[X] =
λ

• Varianza

n(n + 1)λn i2
ϕ′′ (t) =
(λ − it)n+2

n(n + 1)i2
ϕ′′ (0) =
λ2
9 Distribuciones de probabilidad continuas 115

ϕ′′ (0) n(n + 1)


E[X 2 ] = 2
=
i λ2

n(n + 1) n2 n
Var(X) = E[X 2 ] − (E[X])2 = 2
− 2 = 2
λ λ λ

n
Var[X] =
λ2

9.8.1. Teorema de adición para distribuciones de Erlang


Sean X1 ≡ Er(n1 , λ), . . . , Xr ≡ Er(nr , λ), r v.a. de Erlang independientes. Entonces
la nueva variable aleatoria

Y = X1 + · · · + Xr ≡ Er(n1 + · · · + nr , λ)

Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el


hecho de que son independientes,
 nk
λ
ϕXk (t) = k = 1, 2, . . . , r
λ − it

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 × · · · × eitXr ] = E[eitX1 ] × · · · × E[eitXr ] =

 n1  nr  n1 +···+nr


λ λ λ
= ϕX1 (t) × · · · × ϕXr (t) = ×···× =
λ − it λ − it λ − it

Pero, esta es la función caracterı́stica de una distribución de Erlang de parámetros


n = n1 + · · · + nr y λ.

9.9. Relación entre las distribuciones de Poisson, Ex-


ponencial y Erlang
En la sección 8.3, definimos la v.a. de Poisson, P(λ), como la variable que cuenta
el número de eventos que ocurren por unidad de tiempo o espacio, siendo λ el número
medio de estos eventos que ocurren por unidad de tiempo o espacio. Lógicamente, el
número medio de eventos que ocurren en t unidades de tiempo o espacio será (λ × t), por
tanto, la v.a. que cuenta el número de eventos que ocurren en t unidades de tiempo o
espacio sigue una distribución de Poisson, P(λ × t), de parámetro (λ × t). Ası́, sean
116 Estadı́stica

• X ≡ P(λ) ≡ Número de eventos de Poisson que ocurren en una unidad de


tiempo

P (X = x) = P (ocurran x eventos en una unidad de tiempo) =

λx −λ
= e x = 0, 1, 2, . . .
x!

• Xt ≡ P(λt) ≡ Número de eventos de Poisson que ocurren en t unidades de


tiempo

P (Xt = x) = P (ocurran x eventos en t unidades de tiempo) =

(λt)x −λt
= e x = 0, 1, 2, . . .
x!
Supongamos que estamos interesados en saber cuándo ocurre el primero de estos
eventos de Poisson; es decir, sea
• Y ≡ Tiempo transcurrido hasta que ocurre el primer evento de Poisson

GY (t) = P (Y ≤ t) =

= P (el primer evento ocurra antes de t unidades de tiempo) =

= 1 − P (Y ≥ t) =

= 1 − P (el primer evento ocurra pasadas t unidades de tiempo) =

= 1 − P (en t unidades de tiempo ocurran 0 eventos de Poisson) =

(λt)0
= 1 − P (Xt = 0) = 1 − e−λt = 1 − e−λt
0!
Pero, esta es la función de distribución de una Exponencial de parámetro λ. Por
tanto,

Y ≡ Exp(λ)
9 Distribuciones de probabilidad continuas 117

Supongamos ahora, que estamos interesados en saber cuándo ocurre el n-ésimo de


estos eventos de Poisson; es decir, sea
• Z ≡ Tiempo transcurrido hasta que ocurre el n-ésimo evento de Poisson
Como los sucesos de Poisson ocurren de forma independiente, una vez que ocurre un
suceso de Poisson, ese instante es el origen de tiempos para el suceso siguiente, es decir

Z ≡ Tiempo transcurrido hasta que ocurre el n-ésimo evento de Poisson ≡

≡ Tiempo transcurrido hasta que ocurre el 1er evento de Poisson+

+Tiempo transcurrido entre el 1o y el 2o eventos de Poisson+

+Tiempo transcurrido entre el 2o y el 3o eventos de Poisson+

+ · · · + Tiempo transcurrido entre el (n − 1)o y el no eventos de Poisson ≡

≡ Exp(λ) + Exp(λ) + Exp(λ) + · · · + Exp(λ) ≡ Er(n, λ)

Por tanto,

Z ≡ Er(n, λ)

9.10. Distribución de Weibull, W(r, λ)


Sea X una v.a. con distribución Exponencial de parámetro λ, es decir, X ≡ Exp(λ).
Se dice que la variable aleatoria Y sigue una distribución de Weibull de parámetros r > 0
y λ, Y ≡ W(r, λ), si es
Y = X 1/r

Veamos algunas propiedades de la distribución de Weibull

• Función de densidad

GY (y) = P (Y ≤ y) = P (X 1/r ≤ y) = P (X ≤ y r ) = FX (y r )

gY (y) = G′Y (y) = FX′ (y r )ry r−1 = fX (y r )ry r−1

Por tanto,
118 Estadı́stica

r
gY (y) = λ r y r−1e−λy y≥0

• Esperanza

Z +∞ Z +∞
1/r
E[Y ] = E[X 1/r
]= x fX (x) dx = λ x1/r e−λx dx =
−∞ 0

1
  
Γ 1+ r − r1 1
=λ 1 =λ Γ 1+
λ1+ r r

1

E[Y ] = λ−1/r Γ 1 + r

• Varianza

Z +∞ Z +∞
2/r
2
E[Y ] = E[X 2/r
]= x fX (x) dx = λ x2/r e−λx dx =
−∞ 0

2
  
Γ 1+ r − r2 2
=λ 2 =λ Γ 1+
λ1+ r r

2   
Var(Y ) = E[Y 2 ] − (E[Y ])2 = λ− r Γ 1 + 2r − Γ2 1 + 1r

  
Var(Y ) = λ−2/r Γ 1 + 2r − Γ2 1 + 1r

9.11. Distribución Gamma, G(p, q)


Una v.a. X se dice que sigue una distribución Gamma de parámetros p > 0 y q > 0,
X ≡ G(p, q), si su función de densidad es de la forma

q p p−1 −qx
f (x) = x e x≥0
Γ(p)
Como se puede comprobar, la distribución de Erlang es un caso particular de la
distribución Gamma, para p = n y q = λ. Es decir, Er(n, λ) = G(p = n, q = λ). Por tanto
los cálculos son los mismos y no los vamos a repetir, sólo citaremos los resultados.

• Función caracterı́stica
 p
q
ϕ(t) =
q − it
9 Distribuciones de probabilidad continuas 119

Figura 9.9: Función de densidad de una distribución G(p, q)

• Esperanza y Varianza

p p
E[X] = Var[X] =
q q2

9.11.1. Teorema de adición para distribuciones Gamma


Sean X1 ≡ G(p1 , q), . . . , Xn ≡ G(pn , q), n v.a. Gamma independientes. Entonces la
nueva variable aleatoria

Y = X1 + · · · + Xn ≡ G(p1 + · · · + pn , q)

Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el


hecho de que son independientes,
 pk
q
ϕXk (t) = k = 1, 2, . . . , n
q − it

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] =

 p1  pn  p1 +···+pn


q q q
= ϕX1 (t) × · · · × ϕXn (t) = ×···× =
q − it q − it q − it

Pero, esta es la función caracterı́stica de una distribución Gamma de parámetros


p = p1 + · · · + pn y q.
120 Estadı́stica

9.12. Distribución Beta, B(p, q)


Una v.a. X se dice que sigue una distribución Beta de parámetros p > 0 y q > 0,
X ≡ B(p, q), si su función de densidad es de la forma

1
f (x) = xp−1 (1 − x)q−1 0≤x≤1
β(p, q)

Figura 9.10: Función de densidad de una distribución B(p, q)

Z +∞ Z 1
1 1
• f (x) dx = xp−1 (1 − x)q−1 dx = β(p, q) = 1
−∞ β(p, q) 0 β(p, q)
• Esperanza

Z +∞ Z 1
1 1
E[X] = xf (x) dx = xp (1 − x)q−1 dx = β(p + 1, q) =
−∞ β(p, q) 0 β(p, q)

Γ(p + q) Γ(p + 1)Γ(q) Γ(p + q) pΓ(p) p


= = =
Γ(p)Γ(q) Γ(p + q + 1) Γ(p) (p + q)Γ(p + q) p+q

p
E[X] =
p+q

• Varianza

Z +∞ Z 1
2 1
2
E[X ] = x f (x) dx = xp+1 (1 − x)q−1 dx =
−∞ β(p, q) 0

1 Γ(p + q) Γ(p + 2)Γ(q)


= β(p + 2, q) = =
β(p, q) Γ(p)Γ(q) Γ(p + q + 2)
9 Distribuciones de probabilidad continuas 121

Γ(p + q) (p + 1)pΓ(p) (p + 1)p


= =
Γ(p) (p + q + 1)(p + q)Γ(p + q) (p + q + 1)(p + q)

 2
2 (p + 1)p
2 p
Var(X) = E[X ] − (E[X]) = − =
(p + q + 1)(p + q) p+q

pq
=
(p + q + 1) (p + q)2

pq
Var(X) =
(p + q + 1) (p + q)2

9.12.1. Transformaciones
• Sean X1 ≡ G(p1 , 1) y X2 ≡ G(p2 , 1) dos v.a. Gamma independientes, entonces

X1
≡ B(p1 , p2 )
X1 + X2
• Sea X ≡ Fn,m una v.a. F-Snedecor, entonces

 n −1
1+ X ≡ B(m/2, n/2)
m

nX
≡ B(n/2, m/2)
m + nX

9.13. Relaciones entre distribuciones continuas


En la figura 9.13 se muestra un croquis de las relaciones que existen entre las distintas
distribuciones continuas estudiadas en este capı́tulo.
122 Estadı́stica

eX
µ=0 N( µ,σ) Log-N( µ,σ )
σ=1
Ln X
µ= pq
N(0,1) σ 2 = p2 q X1
q X1 + X2
B(p,q)
2 2
n
X + + Xn n G(p,q)
1
/2 p=n
q=1 q= λ
/2
p=n
p=1
tn χn
2
Er(n, λ) q=1
n=2
n=1
χm m
2

m=1 χn2 n X1 + + Xn

Exp(λ) U(0,1)
−λLn X
Fm,n ( ver distribucion Beta )
1/r a + (b-a) X a=0
r=1 X
caso particular b=1
transformacion
W(r, λ) U(a,b)
distribucion limite

Figura 9.11: Relaciones entre distribuciones continuas


9 Distribuciones de probabilidad continuas 123

9.14. Distribución Normal Bidimensional


Una v.a. bidimensional (X, Y ) se dice que sigue una distribución Normal Bidimen-
sional, si su función de densidad conjunta, definida en R2 , es de la forma

1
f (x, y) = p ×
2πσX σY 1 − ρ2
( " 2     2 #)
1 x − µX x − µX y − µY y − µY
exp − − 2ρ +
2(1 − ρ2 ) σX σX σY σY

siendo

2
µX = E[X] σX = Var(X)

µY = E[Y ] σY2 = Var(Y )

Cov(X, Y ) σXY
ρ= p p = Coeficiente de correlación lineal de (X, Y )
Var(X) Var(Y ) σX σY

• Función caracterı́stica

1 2 2 2 2
ϕ(t1 , t2 ) = E[eit1 X+it2 Y ] = ei(µX t1 +µY t2 )− 2 (σX t1 +2ρσX σY t1 t2 +σY t2 )

• Distribuciones marginales

1 2 2
ϕX (t) = ϕ(t, 0) = eiµX t− 2 σX t =⇒ X ≡ N(µX , σX )

1 2 2
ϕY (t) = ϕ(0, t) = eiµY t− 2 σY t =⇒ Y ≡ N(µY , σY )
Por tanto, las funciones de densidad marginales son
Z +∞
1 − 12 (
x−µX 2
)
fX (x) = f (x, y) dy = √ e σX
x∈R
−∞ σX 2π
Z +∞
1 − 21 (
y−µY
)2
fY (y) = f (x, y) dy = y∈R √ e σY

−∞ σY 2π
Es decir, si (X, Y ) es una v.a. Normal Bidimensional, entonces X e Y son v.a.
Normales unidimensionales. En general, lo contrario no es cierto. O sea, si X e Y son v.a.
124 Estadı́stica

Normales unidimensionales, la v.a. (X, Y ) no siempre es una Normal Bidimensional. Lo


vemos con un ejemplo
Ejemplo.- Sea (X, Y ) una v.a. bidimensional con función de densidad conjunta
"
1 ρ − 1
(x2 −2ρxy+y 2 )
f (x, y) = p e 2(1−ρ2 ) +
2 2π 1 − ρ2 #
ρ − 1 2
(x +2ρxy+y )2
+ p e 2(1−ρ2 ) (x, y) ∈ R2
2π 1 − ρ2

Claramente, (X, Y ) no es Normal Bidimensional, sin embargo, las distribuciones


marginales de X e Y son
Z +∞
1 x2
fX (x) = f (x, y) dy = √ e− 2 x∈R
−∞ 2π
Z +∞
1 y2
fY (y) = f (x, y) dy = √ e− 2 y∈R
−∞ 2π
es decir, X ≡ N(0, 1) e Y ≡ N(0, 1).

• Distribuciones condicionadas
h  i2
σ
f (x, y) 1 − 2 1 2 x− µX +ρ σX (y−µY )
f (x|y) = =√ p e 2σX (1−ρ ) Y

fY (y) 2πσX 1 − ρ2

h  i2
σ
f (x, y) 1 − 2 1 2 y− µY +ρ σ Y (x−µX )
f (y|x) = =√ p e 2σY (1−ρ ) X

fX (x) 2πσY 1 − ρ2
Por tanto,
 σX

 µ = µX + ρ (y − µY )
 σ Y
X|Y ≡ N(µ, σ) con

 p

σ = σX 1 − ρ2

 σY

 µ = µY + ρ (x − µX )
 σX
Y |X ≡ N(µ, σ) con

 p

σ = σY 1 − ρ2
Como se puede comprobar, si ρ = 0, entonces

X|Y ≡ N(µX , σX )
Y |X ≡ N(µY , σY )
9 Distribuciones de probabilidad continuas 125

• Combinación lineal de v.a. Normales


Sea (X, Y ) una v.a. Normal Bidimensional, entonces la variable aleatoria
 q 
2 2 2 2
Z = aX + bY ≡ N aµX + bµY , a σX + 2abρσX σY + b σY

Vamos a demostrarlo utilizando la función caracterı́stica.

ϕZ (t) = E[eitZ ] = E[eit(aX+bY ) ] = E[ei(at)X+i(bt)Y ) ] =

1 2 σ 2 +2abρσ σ +b2 σY
2 )t2
= ϕ(at, bt) = ei(aµX +bµY )t− 2 (a X X Y

Pero, esta es la función caracterı́stica de una distribución Normal de parámetros


µ = aµX + bµY y σ 2 = a2 σX
2
+ 2abρσX σY + b2 σY2 .
Como se puede comprobar fácilmente, si ρ = 0, entonces
 q 
2 2 2 2
Z = aX + bY ≡ N aµX + bµY , a σX + b σY

• Independencia de v.a. Normales


Sea (X, Y ) una v.a. Normal Bidimensional, entonces se cumple

X e Y son independientes ⇐⇒ ρ = 0

2 Si X e Y son independientes =⇒ Cov(X, Y ) = 0 =⇒ ρ = 0. (Esto es válido para


cualquier v.a. bidimensional (X, Y ))

2 En sentido contrario, si ρ = 0 =⇒

 2  2 
x−µX y−µ
1 −1 + σ Y
f (x, y) = e 2 σX Y
=
2πσX σY
 2  2
1 −1
x−µX
1 −1
y−µY
√ e 2 σX
×√ e 2 σY
= fX (x) fY (y)
2π σX 2π σY
Por tanto, f (x, y) = fX (x) fY (y), y X e Y son independientes.

• Resumen de las propiedades de la v.a. Normal Bidimensional

2 Si (X, Y ) es Normal Bidimensional =⇒ X e Y son Normales Unidimensionales.

2 Si X e Y son Normales Unidimensionales independientes =⇒ (X, Y ) es Normal


Bidimensional.
126 Estadı́stica

2 Si X e Y son Normales Unidimensionales no independientes =⇒


/ (X, Y ) es Normal
Bidimensional.

2 Si (X, Y ) es Normal Bidimensional =⇒ Z = aX + bY es Normal Unidimensional.

2 Si (X, Y ) es Normal Bidimensional =⇒ X|Y e Y |X son Normales Unidimensionales.

2 Si (X, Y ) es Normal Bidimensional =⇒ X e Y son independientes ⇐⇒ ρ = 0.


Convergencia de
10 sucesiones de
variables aleatorias

Índice
10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . 128
10.2. Problema central del lı́mite . . . . . . . . . . . . . . . . . . . . 129
10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . 129
10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . 129
10.3. Aproximaciones a la distribución Normal . . . . . . . . . . . . 130
10.3.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . 130
10.3.2. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . 131
10.3.2.1. Corrección de Yates . . . . . . . . . . . . . . . . . . . 131
10.3.3. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . 132
10.3.4. Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . 132

127
128 Estadı́stica

10.1. Convergencia en ley


Sea {Fn } una sucesión de funciones de distribución. Se dice que {Fn } converge en
ley o en distribución a la función de distribución F , si

lı́m Fn (x) = F (x) ∀x ∈ CF


n→∞

siendo CF el conjunto de puntos de continuidad de F . La notación será


L
{Fn } −→ F

Ejemplo.- Sea


 0 x<0 (

 1 0 x≤0
Fn (x) = nx 0 ≤ x < =⇒ lı́m Fn (x) = G(x) =

 n n→∞ 1 x>0
 1 x≥ 1

n
pero, G no es una función de distribución (no es continua por la derecha en x = 0), por
tanto, {Fn } no converge en ley a G. En cambio, si consideramos
(
0 x<0
F (x) =
1 x≥0
F es función de distribución, y {Fn } converge en ley a F , pues

lı́m Fn (x) = F (x) ∀x ∈ R − {0}


n→∞

pero 0 ∈
/ CF , por tanto
lı́m Fn (x) = F (x) ∀x ∈ CF
n→∞

Consideremos ahora una sucesión de v.a., {Xn }, con funciones de distribución {Fn }
y funciones caracterı́sticas {ϕn }. Y, sea X una v.a. con función de distribución F y función
caracterı́stica ϕ. Entonces

• Se dice que {Xn } converge en ley a la v.a. X, si {Fn } converge en ley a F , y se


notará por
L
{Xn } −→ X

• Si {Fn } converge en ley a F , entonces {ϕn } converge puntualmente a ϕ, es decir


lı́m ϕn (t) = ϕ(t) ∀t ∈ R
n→∞

• Si {ϕn } converge puntualmente a una función ψ continua en 0, entonces ψ es la


función caracterı́stica asociada a una v.a. Y con función de distribución G, y se
cumple que {Fn } converge en ley a G.
10 Convergencia de sucesiones de variables aleatorias 129

10.2. Problema central del lı́mite


Dada una sucesión de v.a., {Xn }, definidas sobre el mismo espacio probabilı́stico, se
dice que verifica el problema central del lı́mite, si se cumple

n
" n #
X X
Xk − E Xk
k=1 k=1 L
v ! −→ N(0, 1)
u n
u X
tVar Xk
k=1

10.2.1. Teorema de Levy-Lindeberg


Sea {Xn } una sucesión de v.a. independientes e idénticamente distribuidas, con
E[Xn ] = µ < +∞ y Var(Xn ) = σ 2 < +∞. Entonces, {Xn } verifica el problema central
del lı́mite. Es decir
 " #
 Xn Xn



 E Xk = E[Xk ] = nµ


n
X  k=1 k=1
Xk =⇒

 !
k=1 

n
X n
X

 Var(Xk ) = nσ 2
 Var
 Xk =
k=1 k=1

y, se cumple

n
" n # n
X X X
Xk − E Xk Xk − nµ
k=1 k=1 k=1 L
v ! = √ −→ N(0, 1)
u n σ n
u X
tVar Xk
k=1

o, lo que es lo mismo

n
X L √
Xk −→ N(nµ, σ n )
k=1

10.2.2. Teorema de Lindeberg


Sea {Xn } una sucesión de v.a. independientes tales que :
130 Estadı́stica

n
X
i) Yn = Xi
i=1

ii) E[Xn ] = µn < +∞ ∀n ∈ N

iii) ∃ k ≥ 3 tal que Mk (Xn ) = E[(Xn − µn )k ] < +∞ ∀n ∈ N


n
X n
X
Mk (Xi ) E[(Xi − µi )k ]
i=1 i=1
iv) lı́m = lı́m hp ik = 0
n→∞ σ k (Yn ) n→∞
Var(Yn )

Entonces, {Xn } verifica el problema central del lı́mite.


Si k = 3, el Teorema de Lindeberg se conoce como Teorema de Liapunov.

10.3. Aproximaciones a la distribución Normal

10.3.1. Distribución Binomial


Sea {Xn } una sucesión de v.a. independientes e idénticamente distribuidas según
una B(1, p), es decir, Xn ≡ B(1, p) ∀n ∈ N. Entonces,
 " #
 Xn



 E Xk = np


n
X  k=1
Xk ≡ B(n, p) =⇒

 !
k=1 

n
X


 Var
 Xk = npq
k=1

y, se cumple

n
" n #
X X
Xk − E Xk
k=1 k=1 B(n, p) − np L
v ! = √ −→ N(0, 1)
u n npq
u X
tVar Xk
k=1

Es decir, para un n suficientemente grande se cumple que

B(n, p) − np ∼ √
√ = N(0, 1) =⇒ B(n, p) ∼
= N(np, npq )
npq
En la práctica, esta aproximación es buena cuando np(1 − p) > 5.
10 Convergencia de sucesiones de variables aleatorias 131

10.3.2. Distribución de Poisson


Puesto que la distribución Binomial se comporta en el lı́mite como una Poisson,
también ésta última se puede aproximar por una Normal. En la práctica, si λ > 5 entonces
se puede utilizar la siguiente aproximación


P(λ) ∼
= N(λ, λ )

10.3.2.1. Corrección de Yates

Cuando una variable aleatoria discreta se aproxima por una variable aleatoria con-
tinua, como es el caso de la Binomial o la Poisson por la Normal, surge un problema a la
hora de calcular probabilidades. Por ejemplo, sabemos que

P (x1 ≤ B(n, p) ≤ x2 ) 6= P (x1 < B(n, p) ≤ x2 )

P (B(n, p) = x) 6= 0
sin embargo,

√  √ 
P x1 ≤ N(np, npq ) ≤ x2 = P x1 < N(np, npq ) ≤ x2

√ 
P N(np, npq ) = x = 0
Para resolver este problema se aplica la corrección de Yates, que consiste en ampliar
o reducir el intervalo de integración de la v.a. continua, para asegurar la inclusión o
exclusión de los lı́mites de la v.a. discreta. De forma general, si X es una v.a. discreta, e
Y una v.a. continua tal que X ∼ = Y , entonces

P (X = x) ≃ P (x − 0.5 ≤ Y ≤ x + 0.5)

P (x1 < X ≤ x2 ) ≃ P (x1 + 0.5 ≤ Y ≤ x2 + 0.5)

P (x1 ≤ X ≤ x2 ) ≃ P (x1 − 0.5 ≤ Y ≤ x2 + 0.5)

P (x1 < X < x2 ) ≃ P (x1 + 0.5 ≤ Y ≤ x2 − 0.5)

P (x1 ≤ X < x2 ) ≃ P (x1 − 0.5 ≤ Y ≤ x2 − 0.5)


132 Estadı́stica

10.3.3. Distribución χ2 de Pearson


Como la distribución Chi-cuadrado con n grados de libertad se define como la suma
de n v.a. independientes e idénticamente distribuidas, cuando n ≥ 30 se puede utilizar la
siguiente aproximación

p √ 
2χ2n ∼
=N 2n − 1, 1

10.3.4. Distribución t-Student


Teniendo en cuenta que una distribución t-Student con n grados de libertad se define
como el cociente
N(0, 1)
tn = r
χ2n
n
2
y, que la distribución χn se puede aproximar por una Normal, cuando n ≥ 30 se puede
utilizar la siguiente aproximación
 r 
n
tn ∼
= N 0,
n−2
Regresión
11 y correlación

Índice
11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.2. Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.2.1. Método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . 134
11.2.2. Método de la distribución condicional . . . . . . . . . . . . . . 136
11.2.3. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 137
11.2.3.1. Método de los mı́nimos cuadrados . . . . . . . . . . . 137
11.2.3.2. Método de la distribución condicional . . . . . . . . . 138
11.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.3.1. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . 140

133
134 Estadı́stica

11.1. Introducción
Sea (X, Y ) una v.a. bidimensional. Algo que nos podemos preguntar es si existe
algún tipo de relación entre las dos variables que forman el par, es decir, si existe alguna
función que las relaciona. Por supuesto, el hecho de que exista alguna relación entre ellas
implica que no son independientes.
Tenemos pues dos objetivos,

1.- Determinar la función Y = h1 (X) que mejor expresa el comportamiento de la v.a. Y


para cada valor que pueda tomar X. Esta función se conoce como curva de regresión
de Y sobre X. Igualmente, se puede determinar la función X = h2 (Y ) que mejor
expresa el comportamiento de la v.a. X para cada valor que pueda tomar Y . Esta
función se conoce como curva de regresión de X sobre Y .

2.- Medir el grado de asociación que pueda existir entre las dos v.a. Este parámetro se
conoce como coeficiente de correlación.

La regresión tiene dos significados. Uno, surge de la distribución conjunta de las dos
v.a., y es el que vamos a estudiar en este capı́tulo. El otro, que estudiaremos más adelante,
es empı́rico, y nace de la necesidad de ajustar una función a un conjunto de datos.

11.2. Regresión
En la regresión de Y sobre X, como ya se ha dicho, se quiere encontrar una función
Y = h1 (X) que mejor exprese el comportamiento de la v.a. Y para cada valor que pueda
tomar X. Para ello, podemos utilizar dos métodos

11.2.1. Método de los mı́nimos cuadrados


Este método consiste en encontrar la función Y = h1 (X) de forma que el error
cuadrático medio (ECM) sea mı́nimo, siendo

 
ECM = E (Y − h1 (X))2
Este método tiene el inconveniente de que es necesario conocer a priori la forma de
la función h1 .
Ejemplo 1.- Dada una v.a. bidimensional (X, Y ), con función de densidad conjunta
4
f (x, y) = x2 (x + y) 0 ≤ x ≤ 1; 0 ≤ y ≤ 3
9
11 Regresión y correlación 135

De las variables X e Y se sabe que existe una relación del tipo


b
Y = aX +
X
Se pide, calcular los valores de a y b que mejor ajustan este tipo de relación.
" 2 #
 2
 b
ECM = E (Y − h1 (X)) = E Y − aX −
X
Para calcular el mı́nimo de ECM, tenemos que derivar respecto de a y b

  
 ∂ECM b 2


 = E 2(Y − aX − )(−X) = 2 −E[XY ] + aE[X ] + b =0

 ∂a X

       

 ∂ECM b 1 Y 1
 = E 2(Y − aX − )(− ) = 2 −E + a + bE =0
∂b X X X X2
entonces,

    
 Y 1

 E − E[XY ]E

 X X2

 a =  
 
 1
 aE[X 2 ] + b = E[XY ] 
 1 − E[X 2 ]E

 
 X2
 
    =⇒

 1 Y 
  

 a + bE =E 
 Y
X 2 X 
 E[XY ] − E E[X 2 ]

 X

 b=  

 1

 1 − E[X 2 ]E
X2

Z +∞ Z +∞ Z 1 Z 3
2 4 28
• E[X ] = 2
x f (x, y) dxdy = x4 (x + y) dydx =
−∞ −∞ 9 x=0 y=0 45


 Z +∞ Z +∞ Z Z 3
1 1 4 1 8
• E = f (x, y) dxdy = (x + y) dydx =
X2 −∞ −∞ x
2 9 x=0 y=0 3


 Z +∞ Z +∞ Z Z 3
Y y 4 1 8
• E = f (x, y) dxdy = xy(x + y) dydx =
X −∞ −∞ x 9 x=0 y=0 3

Z +∞ Z +∞ Z 1 Z 3
4 7
• E[XY ] = xyf (x, y) dxdy = x3 y(x + y) dydx =
−∞ −∞ 9 x=0 y=0 5

Por tanto,
136 Estadı́stica


 144

 a=
 89


 b = 35

89
y, la relación entre las dos variables es de la forma

144 35
Y = X+
89 89X

11.2.2. Método de la distribución condicional


Para cada valor x que toma la variable X, el comportamiento de la variable Y viene
definido por la v.a. condicionada Y |X=x , con función de densidad condicionada f (y|x).
El criterio de este método consiste en definir la función h1 de tal forma que asigne
a cada valor x del campo de variación de la variable X, el valor medio o esperanza de la
variable Y condicionado a ese valor x. Es decir,
Z +∞
y = h1 (x) = E [Y |X=x ] = yf (y|x) dy
−∞

Ejemplo 2.- Dada la v.a. bidimensional (X, Y ) con función de densidad conjunta

f (x, y) = x + y 0 ≤ x, y ≤ 1

Se pide, calcular la curva de regresión de Y sobre X.


Primero, tenemos que calcular la función de densidad condicional f (y|x)
Z +∞ Z 1
1
• fX (x) = f (x, y) dy = (x + y) dy = x + 0≤x≤1
−∞ 0 2

f (x, y) 2(x + y)
• f (y|x) = = 0≤y≤1
fX (x) 2x + 1
Ahora,
Z +∞ Z 1
2y(x + y) 3x + 2
h1 (x) = E [Y |X=x ] = yf (y|x) dy = dy =
−∞ 0 2x + 1 6x + 3
Por tanto, la relación entre las dos variables es de la forma

3X + 2
Y =
6X + 3
11 Regresión y correlación 137

11.2.3. Regresión Lineal


Un caso particular de curva de regresión de Y sobre X se da cuando la curva que
relaciona las dos variables es una recta del tipo

Y = h1 (X) = a + bX

11.2.3.1. Método de los mı́nimos cuadrados

ECM = E[(Y − h1 (X)2 ] = E[(Y − a − bX)2 ]


 ∂ECM

 = E [2(Y − a − bX)(−1)] = 2 (−E[Y ] + a + bE[X]) = 0
 ∂a


 ∂ECM = E [2(Y − a − bX)(−X)] = 2 −E[XY ] + aE[X] + bE[X 2 ] = 0

∂b
entonces,

 
 E[XY ] − E[X]E[Y ] Cov(X, Y )
 
 a + bE[X] = E[Y ]
  b = E[X 2 ] − (E[X])2 = Var(X)

=⇒

 

 aE[X] + bE[X 2 ] = E[XY ] 

a = E[Y ] − bE[X]

Por tanto, la recta de regresión lineal de Y sobre X es Y = a + bX, con

Cov(X, Y ) σXY
b= = 2
Var(X) σX

a = E[Y ] − bE[X] = µY − bµX


o, expresado de otra forma

Y = a + bX = µY − bµX + bX = µY + b(X − µX ) =⇒

σXY
Y − µY = 2
(X − µX )
σX
De igual forma, la recta de regresión lineal de X sobre Y es X = a′ + b′ Y , con
138 Estadı́stica

Cov(X, Y ) σXY
b′ = = 2
Var(Y ) σY

a′ = E[X] − b′ E[Y ] = µX − b′ µY
o, expresado de otra forma

X = a′ + b′ Y = µX − b′ µY + b′ Y = µX + b′ (Y − µY ) =⇒

σXY
X − µX = (Y − µY )
σY2

• Los coeficientes b y b′ (las pendientes de las rectas de regresión de Y sobre X y


de X sobre Y , respectivamente), se llaman coeficientes de regresión lineal. Siempre
tienen el mismo signo, por tanto, o las dos rectas son crecientes o las dos rectas son
decrecientes, siempre que Cov(X, Y ) 6= 0.

• El punto de intersección de las dos rectas de regresión se denomina centro de gravedad


de la v.a. bidimensional (X, Y ).

11.2.3.2. Método de la distribución condicional

Si al aplicar el método de la distribución condicional para obtener la curva de re-


gresión de Y sobre X obtenemos una recta, entonces

y = E[Y |X=x ] = a + bx

Es decir,
Z +∞ Z +∞
f (x, y)
E[Y |X=x ] = yf (y|x) dy = y dy =
−∞ −∞ fX (x)
Z +∞
1
= yf (x, y) dy = a + bx =⇒
fX (x) −∞
Z +∞
yf (x, y) dy = afX (x) + bxfX (x)
−∞

Entonces,
11 Regresión y correlación 139

 Z +∞ Z +∞ Z +∞ Z +∞



 yf (x, y) dydx = afX (x) dx + bxfX (x) dx

 −∞ −∞ −∞ −∞
=⇒

 Z +∞ Z +∞ Z +∞ Z +∞



 xyf (x, y) dydx = axfX (x) dx + bx2 fX (x) dx
−∞ −∞ −∞ −∞


 E[Y ] = a + bE[X]



 E[XY ] = aE[X] + bE[X 2 ]

Y, despejando,

 E[XY ] − E[X]E[Y ] Cov(X, Y )

 b = E[X 2 ] − (E[X])2 = Var(X)





a = E[Y ] − bE[X]
Por tanto, los coeficientes de la recta obtenidos con el método de la distribución
condicional coinciden con los obtenidos con el método de los mı́nimos cuadrados.

11.3. Correlación
Ligado al concepto de regresión (relación entre dos variables X e Y ), está el de
correlación (grado de relación entre las variables X e Y ). Es decir, al calcular la curva de
regresión de Y sobre X, Y = h1 (X), en realidad estamos calculando una función que, con
el criterio que hayamos escogido, mejor ajusta los valores de la variable Y para un valor
dado de la variable X. Ahora, debemos cuantificar cómo es de bueno ese ajuste.
Una forma bastante lógica de cuantificar la bondad del ajuste consiste en medir
la diferencia entre el verdadero valor de la variable Y , y el valor asignado por la curva
de regresión, h1 (X). Para que las diferencias positivas no se cancelen con las negativas,
generalmente se recurre al estudio de las diferencias al cuadrado. Ası́, se define la varianza
residual, σR2 , como la media cuadrática de estos errores

 
σR2 = E (Y − h1 (X))2

Como se puede comprobar, coincide con el error cuadrático medio. Partiendo de σR2 ,
Pearson definió el coeficiente general de correlación como
140 Estadı́stica

s
σR2
ρG = 1−
σY2
mientras que ρ2G se denomina coeficiente general de determinación.
En cualquier caso, se cumple

0 ≤ ρ2G ≤ 1

−1 ≤ ρG ≤ 1

11.3.1. Coeficiente de correlación lineal


Ya que generalmente la regresión que más se utiliza es la lineal, vamos a estudiar
con más profundidad el coeficiente de correlación lineal.
Si partimos de la recta de regresión de Y sobre X calculada en la sección 11.2.3,

σXY
Y = h1 (X) = µY + 2
(X − µX )
σX
La varianza residual será

" 2 #
 2 σXY
σR2 = E (Y − h1 (X)) =E Y − µY − 2 (X − µX ) =
σX

  σ2  2 σXY
= E (Y − µY )2 + XY
4
E (X − µ X ) − 2 2 E[(Y − µY )(X − µX )] =
σX σX

2 2
σXY 2 σXY 2 σXY
= σY2 + 4
σX − 2 2
σXY = σY − 2
σX σX σX

Y, el coeficiente de correlación lineal es


v
u 2
σXY
s u s
u σY2 −
σ2 t σX2 2
σXY
ρ = 1− R = 1− = 1−1+ =
σY2 σY2 σX2 2
σY

σXY Cov(X, Y )
= =p
σX σY Var(X) Var(Y )
que, como se puede comprobar, coincide con el estudiado en la sección 7.6.2. Además, el
coeficiente de determinación lineal viene dado por
11 Regresión y correlación 141

2
2
σXY Cov2 (X, Y )
ρ = 2 2 =
σX σY Var(X) Var(Y )
Veamos algunas propiedades de estos coeficientes.

• Como ocurre de forma general,

0 ≤ ρ2 ≤ 1 y −1 ≤ρ≤1

• Los coeficientes de regresión lineal, b y b′ , y el coeficiente de correlación lineal, ρ, tie-


nen el mismo signo, pues éste sólo depende del signo de Cov(X, Y ). Si Cov(X, Y ) >
0, entonces las rectas de regresión son crecientes y el coeficiente de correlación lineal
es positivo. Si Cov(X, Y ) < 0, entonces las rectas de regresión son decrecientes y el
coeficiente de correlación lineal es negativo.
σXY σXY
• Como b = 2
y b′ = 2 , entonces,
σX σY

ρ= b b′

• Como
σXY σXY σY σY
b= 2
= =ρ
σX σX σY σX σX

σXY σXY σY σX
b′ = 2
= =ρ
σY σX σY σY σY
las rectas de regresión también se pueden escribir como,

σY
Y − µY = ρ (X − µX )
σX

σX
X − µX = ρ (Y − µY )
σY
142 Estadı́stica
Distribuciones
12 de muestreo

Índice
12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.2. Definición de estadı́stico . . . . . . . . . . . . . . . . . . . . . . 145
12.3. Estadı́stico media muestral . . . . . . . . . . . . . . . . . . . . . 145
12.3.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . 145
12.3.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . 146
(n − 1)s2
12.4. Estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . 146
σ2
x̄ − µ
12.5. Estadı́stico √ . . . . . . . . . . . . . . . . . . . . . . . . . . 147
s/ n
12.5.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . 147
12.5.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . 148
12.6. Estadı́stico varianza muestral . . . . . . . . . . . . . . . . . . . 148
12.6.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . 148
12.6.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . 149
12.7. Estadı́stico desviación tı́pica muestral . . . . . . . . . . . . . . 150
12.8. Estadı́stico diferencia de medias muestrales . . . . . . . . . . . 152
12.9. Estadı́stico cociente de varianzas muestrales . . . . . . . . . . 153
12.10.Estadı́stico proporción muestral . . . . . . . . . . . . . . . . . . 154
12.11.Estadı́stico elemento que ocupa el lugar r . . . . . . . . . . . . 155
12.11.1.Estadı́stico máximo valor de una muestra . . . . . . . . . . . . 155
12.11.2.Estadı́stico mı́nimo valor de una muestra . . . . . . . . . . . . 156
12.11.3.Estadı́stico recorrido de una muestra . . . . . . . . . . . . . . . 156
12.11.4.Estimación de cuantiles . . . . . . . . . . . . . . . . . . . . . . 157

143
144 Estadı́stica

12.1. Introducción
Consideremos una población de la que necesitamos analizar alguna caracterı́stica.
Lo ideal serı́a estudiar todos y cada uno de los elementos de esa población, pero esto, en la
gran mayorı́a de las ocasiones resulta difı́cil, caro e incluso, a veces, imposible. Ello obliga
a elegir un determinado número de elementos (muestra) de la población, analizar en ellos
la caracterı́stica antes mencionada y, de los resultados obtenidos, inferir lo que sucede en
la totalidad de la población. Esto nos lleva a la Teorı́a de Muestras.
A la población objeto del estudio le damos el nombre de Población Madre (P.M.).
Consideramos ésta en su totalidad, y por un método aleatorio elegimos n elementos,
obteniendo lo que se llama una muestra de tamaño n. Ahora bien, los n elementos se
pueden extraer de dos maneras:

• Todos a la vez (o uno a uno sin reemplazamiento), con lo cual el número de!
muestras
N
posibles de tamaño n que se pueden obtener está determinado por , siendo
n
N el número total de elementos de la Población Madre. Además, el número de
muestras posibles, considerando todos los tamaños, es finito:
! ! !
N N N
+ +···+ = 2N − 1
1 2 N

Esto dará lugar al estudio de unas consecuencias que quedarán reflejadas en la


llamada Teorı́a de Muestras de Población Finita.

• La muestra de tamaño n se obtiene sacando los elementos uno a uno, con reempla-
zamiento. A este tipo de muestra le daremos el nombre de muestra aleatoria simple
(m.a.s.) de tamaño n. En este caso, no importa el tamaño N de la P.M., que incluso
pudiera ser N < n. Ahora, el número de muestras posibles, considerando todos los
tamaños, es infinito.
Esto dará lugar al estudio de unas consecuencias que quedarán reflejadas en la
llamada Teorı́a de Muestras de Población Infinita.

En general, mientras no se especifique lo contrario, a lo largo de este curso considera-


remos siempre que, por defecto, la muestra se ha obtenido con reemplazamiento. Es decir,
se trata de una m.a.s. Sólo en el capı́tulo 14 daremos una descripción de los resultados
referentes a las muestras obtenidas sin reemplazamiento.
12 Distribuciones de muestreo 145

12.2. Definición de estadı́stico


Consideremos, en un espacio unidimensional, una Población Madre definida por su
función de densidad f (x). De ella, extraemos una m.a.s. de tamaño n, {x1 , x2 , . . . , xn }.
Cada uno de los valores xi son extracciones aleatorias e independientes obtenidas de una
P.M. intacta (extracción con reemplazamiento). Los posibles valores de cada una de las
extracciones, xi , es una variable aleatoria, Xi . Por tanto, con este procedimiento hemos
construido una variable aleatoria n-dimensional X = (X1 , X2 , . . . , Xn ), donde todas las
v.a. son independientes e idénticamente distribuidas con la misma distribución que la
v.a. asociada a la P.M. Es decir, si la P.M. sigue una distribución N(µ, σ), entonces cada
Xi ≡ N(µ, σ).
LLamaremos Estadı́stico a cualquier función de las n variables aleatorias,

T (X) = T (X1 , X2 , . . . , Xn )

El estudio de la teorı́a de muestras que haremos en este curso estará dedicado a


obtener la distribución de la variable aleatoria T (X), cuando T (X) sea cierto tipo de
función conocida. Incurriendo en un abuso de notación, utilizaremos la expresión xi para
referirnos tanto a la v.a. Xi , como a un valor de la misma, xi .

12.3. Estadı́stico media muestral

n
1X
x̄ = xi
n i=1

12.3.1. Población Madre Normal


Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sabemos que xi ≡ N(µ, σ)
y que las n v.a. son independientes. Entonces, la v.a. x̄ también sigue una distribución
Normal, por ser combinación lineal de v.a. Normales. Además,
" n
# n n
1X 1X 1X
E[x̄] = E xi = E[xi ] = µ=µ
n i=1 n i=1 n i=1
n
! n n
1X 1 X 1 X 2 σ2
Var(x̄) = Var xi = 2 Var(xi ) = 2 σ =
n i=1 n i=1 n i=1 n
Por tanto, si la Población Madre es N(µ, σ) el estadı́stico media es
146 Estadı́stica


x̄ ≡ N (µ, σ/ n )

12.3.2. Población Madre no Normal


Dada una m.a.s., {x1 , . . . , xn } de una P.M.≡ ?(µ, σ) sabemos que xi ≡ ? (µ, σ) y que
las n v.a. son independientes. Entonces, se puede aplicar el Teorema de Levi-Lindeberg.

n
" n #
X X
xi − E xi
i=1 i=1 nx̄ − nµ x̄ − µ
v ! = √ = √ −→ N(0, 1)
u n nσ 2 σ/ n
u X
tVar xi
i=1

Por tanto,


si n > 30 =⇒ x̄ ∼
= N (µ, σ/ n )


si n < 30 =⇒ x̄ ≡ ? (µ, σ/ n )

(n − 1)s2
12.4. Estadı́stico
σ2
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), definimos la varianza mues-
tral, s2 , como
n
2 1 X
s = (xi − x̄)2
n − 1 i=1
Entonces,
12 Distribuciones de muestreo 147

n n
(n − 1)s2 1 X 1 X
= 2
(xi − x̄) = 2 [(xi − µ) − (x̄ − µ)]2 =
σ2 σ 2 i=1 σ i=1

" n n n
#
1 X 2
X
2
X
= (xi − µ) + (x̄ − µ) − 2(x̄ − µ) (xi − µ) =
σ 2 i=1 i=1 i=1

" n #
1 X
= (xi − µ)2 + n(x̄ − µ)2 − 2n(x̄ − µ)2 =
σ 2 i=1

" n #
1 X
= (xi − µ)2 − n(x̄ − µ)2 =
σ 2 i=1

n 
X 2  2
xi − µ x̄ − µ
= − √
i=1
σ σ/ n

Pero,

Xn  2
xi − µ xi − µ
xi ≡ N(µ, σ) =⇒ ≡ N(0, 1) =⇒ ≡ χ2n
σ i=1
σ

 2
√ x̄ − µ x̄ − µ
x̄ ≡ N(µ, σ/ n ) =⇒ √ ≡ N(0, 1) =⇒ √ ≡ χ21
σ/ n σ/ n

y, aunque en general la diferencia de dos v.a. Chi-cuadrado no sigue una distribución


Chi-cuadrado, en este caso especial se puede demostrar que

(n − 1)s2
2
≡ χ2n−1
σ

x̄ − µ
12.5. Estadı́stico √
s/ n
12.5.1. Población Madre Normal
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sabemos que
 
σ x̄ − µ
x̄ ≡ N µ, √ =⇒ √ ≡ N(0, 1)
n σ/ n
148 Estadı́stica

Por otra parte,


(n − 1)s2
≡ χ2n−1
σ2
entonces, dividiendo,

x̄ − µ

σ/ n N(0, 1) x̄ − µ
r =r 2 = √ ≡ tn−1
2
(n − 1)s 1 χn−1 s/ n
σ 2 n−1 n−1
Por tanto,

x̄ − µ
√ ≡ tn−1
s/ n

12.5.2. Población Madre no Normal


Aunque la P.M. no sea Normal, si el tamaño de muestra es suficientemente grande,
se puede hacer la aproximación σ 2 ≃ s2 y aplicar el Teorema de Levy-Lindeberg. Ası́,

x̄ − µ ∼
si n > 30 =⇒ √ = N(0, 1)
s/ n

si n < 30 =⇒ —

12.6. Estadı́stico varianza muestral

n
X
1
2
s = (xi − x̄)2
n−1 i=1

12.6.1. Población Madre Normal


Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), tenemos
(n − 1)s2 2 2 σ2
X= ≡ χn−1 =⇒ s = X
σ2 n−1
entonces,
σ2 σ2
E[s2 ] = E[X] = (n − 1) = σ 2
n−1 n−1

σ4 σ4 2σ 4
Var(s2 ) = Var(X) = 2(n − 1) =
(n − 1)2 (n − 1)2 n−1
12 Distribuciones de muestreo 149

Por tanto,

 r 
∼ 2 2 2 2
si n > 100 =⇒ s = N σ , σ
n−1
 r 
2 2 2 2
si n < 100 =⇒ s ≡ ? σ ,σ
n−1

12.6.2. Población Madre no Normal


Aunque la P.M. no sea Normal, utilizando el desarrollo del apartado 12.4, llegamos
a

n
2 1 X n
s = (xi − µ)2 − (x̄ − µ)2
n − 1 i=1 n−1
y, por tanto

n
2 1 X n
E[s ] = E[(xi − µ)2 ] − E[(x̄ − µ)2 ]
n − 1 i=1 n−1
Pero,
E[xi ] = µ =⇒ E[(xi − µ)2 ] = Var(xi ) = σ 2

σ2
E[x̄] = µ =⇒ E[(x̄ − µ)2 ] = Var(x̄) =
n
entonces,

2n 2 n σ2
E[s ] = σ − = σ2
n−1 n−1 n
Operando se puede demostrar también que
 
2 4 2 CAp
Var(s ) = σ +
n−1 n
siendo CAp el coeficiente de apuntamiendo o curtosis de la población que, en caso de ser
desconocido, se puede aproximar por el coeficiente de curtosis de la muestra.
Por tanto

 r 
2 ∼ 2 2 2 CAp
s = ? σ ,σ +
n−1 n
150 Estadı́stica

12.7. Estadı́stico desviación tı́pica muestral

" n
#1/2
1 X
2
s= (xi − x̄)
n−1 i=1

Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sea

n−1 2 1 n−3 x
X= s ≡ χ2n−1 =⇒ fX (x) =   x 2 e− 2 , x>0
σ2 n−1 n−1
2 2 Γ
2

σ2
Hacemos el cambio de variable Y = X, es decir, Y = s2 . Entonces
n−1
  n−3
1 n−1 2 n−1 n−1
gY (y) =   y e− 2σ2 y , y>0
n−1 n−1 σ 2 σ2
2 Γ2
2

Hacemos el cambio de variable T = Y , es decir, T = s. Entonces

  n−3
1 n−1 2 2 n−1 2 n−1
hT (t) =   t e− 2σ2 t 2t , t>0
n−1 n−1 σ2 σ2
2 2 Γ
2
y, operando

  n−1
n−1 2
2
2 n−1 2
hT (t) =   tn−2 e− 2σ2 t , t>0
n−1
σ n−1 Γ
2
Entonces,
12 Distribuciones de muestreo 151

  n−1
n−1 2
Z ∞ 2 Z ∞
2 n−1 2
E[T ] = t hT (t) dt =   tn−1 e− 2σ2 t dt =
0 n−1 0
σ n−1 Γ
2

  n−1
n−1 2
2 Z ∞ √ !n−1
2 σ 2u σ √ 1
=   √ e−u √ n − 1 √ du =
n−1
n−1 0 n−1 2 2 u
σ Γ
2
r Z ∞
2 1 n
= σ   u 2 −1 e−u du =
n−1 n −1 0
Γ
2
n
r Γ
2
= σ  2 
n−1 n−1
Γ
2

√ n−1
donde, para calcular la integral hemos realizado el cambio u= √

Por otra parte,

E[T 2 ] = E[s2 ] = σ 2

Y, por último, la varianza de T viene dada por


 n 
 2 Γ2  2
Var(T ) = E[T ] − (E[T ]) = 
2 2
1 − n − 1  2  σ
2
n−1 
Γ
2
Por tanto, la distribución del estadı́stico s es

 r 
∼ 1
si n > 100 =⇒ s = N σ, σ
2(n − 1)
 v n   
r u 2 n
 Γ u Γ 
2 u 2
si n < 100 =⇒ s ≡ ? 
σ  2  , σ u1 −  2  

n−1 n − 1 t n−1 2 n−1
Γ Γ
2 2
152 Estadı́stica

12.8. Estadı́stico diferencia de medias muestrales


De dos Poblaciones Normales P.M.= X ≡ N (µx , σx ) y P.M.= Y ≡ N (µy , σy )
extraemos dos muestras independientes, {x1 , x2 , . . . , xn } y {y1, y2 , . . . , ym }, de tamaños n
y m, con medias y varianzas

n n
1X 1 X
x̄ = xi s2x = (xi − x̄)2
n i=1 n − 1 i=1

m m
1 X 1 X
ȳ = yi s2y = (yi − ȳ)2
m i=1 m − 1 i=1
Definimos el estadı́stico diferencia de medias como

n m
1X 1 X
x̄ − ȳ = xi − yi
n i=1 m i=1

• Si σx y σy son conocidos

 √

 x̄ ≡ N (µx , σx / n )



 (x̄ − ȳ) − (µx − µy )
 =⇒ r ≡ N (0, 1)
 σx2 σy2

 +

 n m

 √
ȳ ≡ N (µy , σy / m )

• Si σx y σy son desconocidos

◦ si σx2 = σy2 = σ 2


 (x̄ − ȳ) − (µx − µy )

 r ≡ N (0, 1)

 1 1

 σ +



 n m

(x̄ − ȳ) − (µx − µy )
=⇒ r ≡ tn+m−2

 1 1

 Sp +

 n m



 2 2
 (n − 1)sx + (m − 1)sy ≡ χ2

n+m−2
σ2
donde s
(n − 1)s2x + (m − 1)s2y
Sp =
n+m−2
12 Distribuciones de muestreo 153

◦ si σx2 6= σy2

(x̄ − ȳ) − (µx − µy ) ∼


r = tγ
s2x s2y
+
n m
donde,
(A + B)2 s2x s2y
γ= A= , B=
A2 B2 n m
+
n−1 m−1

12.9. Estadı́stico cociente de varianzas muestrales


De dos Poblaciones Normales P.M.= X ≡ N (µx , σx ) y P.M.= Y ≡ N (µy , σy )
extraemos dos muestras independientes, {x1 , x2 , . . . , xn } y {y1 , y2 , . . . , ym}, de tamaños n
y m, con medias y varianzas

n n
1X 1 X
x̄ = xi s2x = (xi − x̄)2
n i=1 n − 1 i=1

m m
1 X 1 X
ȳ = yi s2y = (yi − ȳ)2
m i=1 m − 1 i=1
Definimos el estadı́stico cociente de varianzas como

n
1 X
(xi − x̄)2
s2x n − 1 i=1
= m
s2y 1 X
(yi − ȳ)2
m − 1 i=1
Del apartado 12.4 sabemos que

(n − 1)s2x
≡ χ2n−1
σx2

(m − 1)s2y
≡ χ2m−1
σy2

χ2n−1 /(n−1)
entonces, como χ2m−1 /(m−1)
≡ Fn−1,m−1 ,

s2x /σx2
≡ Fn−1,m−1
s2y /σy2
154 Estadı́stica

12.10. Estadı́stico proporción muestral


Partimos de una P.M. Binomial de parámetro p, es decir, p es la proporción de éxitos
de la Población. Extraemos una m.a.s. {x1 , . . . , xn } y asignamos los valores
(
1 si es éxito
xi =
0 si es fracaso

es decir, cada v.a. xi ≡ B(1, p)


Sean las v.a.

X ≡ número de éxitos de la muestra

pb ≡ proporción de éxitos de la muestra

Entonces,
n
X n
1X X
X= xi ≡ B(n, p) y pb = xi =
i=1
n i=1 n

"
n
# n
1X 1X 1
E[b
p] = E xi = E[xi ] = np = p
n i=1 n i=1 n

n
! n
1X 1 X 1 p(1 − p)
Var(b
p) = Var xi = Var(xi ) = np(1 − p) =
n i=1 n2 i=1 n2 n

Aplicando el Teorema de Levy-Lindeberg

n
" n #
X X
xi − E xi
i=1 i=1 p − np
nb pb − p
v ! = √ =r −→ N(0, 1)
u n np p(1 − p)
u X
tVar xi n
i=1

Por tanto,

r !
p(1 − p)  p 
si n > 30 =⇒ pb ∼
= N p, y X ∼
= N np, np(1 − p)
n

r !
p(1 − p)
si n < 30 =⇒ pb ≡ ? p, y X ≡ B(n, p)
n
158 Estadı́stica

x] ≃ Me = µ
E[e

p(1 − p) 0.5 × 0.5 πσ 2


x) ≃
Var(e = 2 =
nf 2 (Me) 1 2n
n √
2πσ
donde hemos utilizado el hecho de que en una distribución Normal, Me = µ. Ası́,
 r 
π
xe∼
= N µ, σ
2n
Estimación puntual
13 y estimación
por intervalo

Índice
13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
13.2. Propiedades deseables de los estimadores puntuales . . . . . 163
13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . 163
13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . 164
13.2.3. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . 165
13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . 166
13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . 167
13.2.5.1. Teorema (Cota de Cramér-Rao) . . . . . . . . . . . . 168
13.3. Métodos de estimación puntual . . . . . . . . . . . . . . . . . . 170
13.3.1. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . 170
13.3.2. Propiedades de los estimadores de máxima verosimilitud . . . . 172
13.3.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . 173
13.4. Estimación por intervalo de confianza . . . . . . . . . . . . . . 174
13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . 176
13.4.1.1. P.M. ≡ N(µ, σ) con σ conocido . . . . . . . . . . . . 176
13.4.1.2. P.M. ≡ N(µ, σ) con σ desconocido . . . . . . . . . . 177
13.4.1.3. P.M. ≡ ?(µ, σ) con σ conocido y n > 30 . . . . . . . 178
13.4.1.4. P.M. ≡ ?(µ, σ) con σ conocido y n < 30 . . . . . . . 178
13.4.1.5. P.M. ≡ ?(µ, σ) con σ desconocido y n > 30 . . . . . 179
13.4.1.6. P.M. ≡ ?(µ, σ) con σ desconocido y n < 30 . . . . . 179
13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . 179
13.4.2.1. P.M. ≡ N(µ, σ) con µ desconocido . . . . . . . . . . 179

159
160

13.4.3. Intervalo de confianza para la diferencia de medias . . . . . . . 180


13.4.3.1. P.M. Normales con σx y σy conocidas . . . . . . . . . 181
13.4.3.2. P.M. Normales con σx2 = σy2 = σ2 desconocida . . . 181
13.4.3.3. P.M. Normales con σx2 6= σy2 desconocidas . . . . . . 182
13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . 182
13.4.5. Intervalo de confianza para la proporción poblacional . . . . . . 183
13.4.5.1. P.M. Binomial y n > 30 . . . . . . . . . . . . . . . . 184
13.5. Intervalo de confianza asintótico . . . . . . . . . . . . . . . . . 185
13 Estimación puntual y estimación por intervalo 161

13.1. Introducción
En el capı́tulo anterior hemos calculado la distribución de algunos estadı́sticos y men-
cionado brevemente que los estadı́sticos se utilizan para estimar los valores de parámetros
desconocidos de una población. En este capı́tulo se examinará con detalle el concepto de
estimación de parámetros mediante la especificación de las propiedades deseables de los
estimadores (estadı́sticos), y el desarrollo de técnicas apropiadas para implementar el pro-
ceso de estimación. Se utilizará el punto de vista de la teorı́a de muestras, que considera
a un parámetro poblacional como una cantidad fija (nunca una v.a.), pero desconocida.
La estimación de un parámetro de la población involucra el uso de los datos mues-
trales en conjunción con algún estadı́stico. Existen dos formas de realizar la estimación:
la estimación puntual y la estimación por intervalo. En la primera, se busca un estimador
que, con base en los datos muestrales, dé origen a una estimación univaluada del valor
del parámetro poblacional, y que recibe el nombre de valor estimado. Para la segunda, se
determina un intervalo en el que, en forma probable, se encuentra el valor del parámetro.
Este intervalo recibe el nombre de intervalo de confianza.
Antes de entrar en materia, vamos a ver algunas definiciones que serán de utilidad.
En general, el planteamiento del problema es el siguiente

• En una P.M. definida por su función de distribución F (x, θ) existe un parámetro, θ,


cuyo valor es desconocido.

• Para poder asignar un valor a dicho parámetro θ, extraemos una muestra aleatoria
de tamaño n, X = {x1 , . . . , xn }.

b = T (X), que supone


• Con los datos de la muestra, construimos un estadı́stico, Θ
una simplificación de la información proporcionada por la muestra.

FUNCIóN DE VEROSIMILITUD DE LA MUESTRA


Puesto que las n variables aleatorias de la muestra constituyen una v.a. n-dimensional,
{x1 , . . . , xn }, se llama función de verosimilitud de la muestra a la función de densidad de
dicha v.a. n-dimensional, y se denota por L(x1 , . . . , xn , θ).

∗ Si la P.M. es una v.a. continua con función de densidad f (x, θ), y la muestra es
aleatoria simple; entonces las n v.a. son independientes e idénticamente distribuidas
según la distribución de la P.M. Por tanto,

L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ)


162 Estadı́stica

∗ Si la P.M. es una v.a. discreta, sea como sea la muestra aleatoria, con o sin reem-
plazamiento,

L(x1 , . . . , xn , θ) = P (de que salga la muestra obtenida)

ESTIMACIÓN PUNTUAL
Una estimación puntual, θ,b de un parámetro poblacional θ, es un valor único del
b Por ejemplo, el valor x̄ del estadı́stico media muestral, X̄, calculado a partir
estadı́stico Θ.
de una muestra de tamaño n, es una estimación puntual del parámetro media poblacional
µ.

ESTIMADOR
El estadı́stico que se utiliza para obtener una estimación puntual es un estimador.
Por ejemplo, el estadı́stico varianza muestral, s2 , que es una función de la muestra alea-
toria, es un estimador de σ 2 .

ESTIMADOR SUFICIENTE
Estimador suficiente es el que proporciona la máxima información posible sobre el
parámetro poblacional, θ, una vez determinado el tamaño n de la muestra.

ESTIMADOR CONSISTENTE
b es un estimador consistente del parámetro θ si
Se dice que un estadı́stico, Θ,

b − θ| ≤ ǫ) = 1
P (|Θ cuando n→∞

ESTIMADOR INSESGADO
b es un estimador insesgado del parámetro θ si
Se dice que un estadı́stico, Θ,

b =θ
E[Θ]

ESTIMADOR SESGADO
b es un estimador sesgado del parámetro θ si
Se dice que un estadı́stico, Θ,

b = θ + b(θ)
E[Θ]

y b(θ) recibe el nombre de sesgo.

ESTIMADOR EFICIENTE
Si se consideran todos los posibles estimadores insesgados de un parámetro poblacio-
nal, θ, aquél que tenga la varianza más pequeña se dirá que es el estimador más eficiente.
13 Estimación puntual y estimación por intervalo 163

13.2. Propiedades deseables de los estimadores pun-


tuales

13.2.1. Estimador suficiente


Un estadı́stico T (X) es suficiente, si el conocimiento pormenorizado de los elementos
de la muestra no añade ninguna información sobre θ que no proporcione la simplificación
T (X).
Una definición más técnica serı́a que un estadı́stico T (X) es suficiente respecto al
parámetro θ, si la función de distribución de la muestra, condicionada por un valor del
estadı́stico (o sea, F (X|T (X)=t )) no depende de θ.
Ejemplo.- De una P.M. Binomial, desconocemos la proporción de éxitos. Es decir, θ = p
es desconocido. Extraemos una m.a.s. de tamaño n = 50, {x1 , . . . , x50 }, de tal forma que
(
1 si es éxito
xi =
0 si es fracaso

Construyo dos estadı́sticos


50
X
T1 (X) = xi
i=1

T2 (X) = máx {xi }

Con los datos de la muestra obtenemos los valores de los estadı́sticos


50
X
t1 = T1 (x) = xi = 35
i=1

t2 = T2 (x) = máx {xi } = 1

En el primer caso, el hecho de que t1 = 35 significa que en la muestra han apare-


cido exactamente 35 éxitos de 50 casos muestreados. Para realizar una estimación de la
proporción de éxitos de la población, me basta con este dato, podrı́a suponer de forma
razonable que p ≈ 35/50. No necesito conocer cuáles de los elementos muestreados son
éxitos. Es decir, no necesito conocer de forma pormenorizada el valor de cada uno de los
elementos de la muestra.
En el segundo caso, sin embargo, el hecho de que t2 = 1 significa que en la muestra ha
aparecido al menos un éxito entre los 50 casos muestreados. En este caso, el conocimiento
164 Estadı́stica

pormenorizado de los valores de la muestra sı́ añadirı́a información, y bastante, sobre el


posible valor de p.
Claramente, T1 (X) es un estimador suficiente del parámetro p, mientras que T2 (X)
no lo es.

13.2.2. Estimador consistente


Como hemos visto en el ejemplo anterior, los valores obtenidos con las muestras nos
van a servir para estimar el verdadero valor del parámetro θ desconocido. Ası́ pues, es
razonable pensar que un buen estimador debe ser capaz de aproximarse mejor al valor
del parámetro a medida que aumenta el tamaño de la muestra. Siguiendo con el ejemplo
de la P.M. binomial, si en vez de una muestra de tamaño n = 50, saco una muestra de
tamaño n = 5000, es de esperar que la proporción de éxitos en esta segunda muestra se
aproxime más al verdadero valor de p que los 35/50 obtenidos con la primera muestra.
Sea T (X) un estimador de θ, y sean T1 (X), . . . , Tn (X) una secuencia de estimadores
que representan a T con distintos tamaños de muestra 1, . . . , n, respectivamente. Se dice
que T es un estimador consistente para θ si

lı́m P (|Tn − θ| ≤ ε) = 1
n→∞

Ejemplo.- Tenemos una P.M. con distribución no Normal y media desconocida, es decir,
θ = µ. Extraemos muestras de distintos tamaños, y construimos los estadı́sticos
n
1X
Tn (X) = x̄n = xi n = 1, 2, 3, . . .
n i=1

De cada una de estas v.a. sabemos que E[x̄n ] = µ y Var(x̄n ) = σ 2 /n. Por el teorema
de Chebychev,
 p  1 √  1
P |x̄n − E[x̄n ]| ≤ k Var(x̄n ) ≥ 1 − 2 =⇒ P |x̄n − µ| ≤ kσ/ n ≥ 1 − 2
k k

n
tomando k = ε,
σ
σ2
P (|x̄n − µ| ≤ ε) ≥ 1 − =⇒ lı́m P (|x̄n − µ| ≤ ε) = 1
nε2 n→∞

Es decir, cuanto mayor es el tamaño de la muestra, más se aproxima el valor de


la media muestral al valor de la media poblacional. Por tanto, la media muestral es un
estimador consistente de la media poblacional.
13 Estimación puntual y estimación por intervalo 165

13.2.3. Error cuadrático medio


b se utiliza para estimar el valor de un parámetro de
Puesto que un estimador, Θ,
la población, θ, es conveniente que el valor esperado del estimador coincida con el valor
del parámetro que va a estimar. Para que las diferencias negativas no se cancelen con las
positivas, se define el Error Cuadrático Medio (ECM) como,
h i
ECM = E (Θ b − θ)2

b es una v.a. (función de


Si desarrollamos esta expresión, teniendo en cuenta que Θ
los elementos de la muestra) y θ es una constante (parámetro desconocido de la P.M.),

h i  2 
ECM = E (Θb − θ) = E (Θ
2 b − E[Θ])
b − (θ − E[Θ])b =
 2    2  h i
b
= E Θ − E[Θ] b + E θ − E[Θ]b b b b
− 2(θ − E[Θ])E Θ − E[Θ] =
 2
b + θ − E[Θ]
= Var(Θ) b −0

Es decir, h i  2
ECM = E (Θ b + θ − E[Θ]
b − θ)2 = Var(Θ) b

El ECM es la suma de dos cantidades no negativas, una es la varianza del estimador


y la otra es el cuadrado del sesgo del estimador. Estas dos cantidades están relacionadas
con las propiedades deseables de un estimador. Por una parte, la varianza (dispersión) de
un estimador debe ser lo más pequeña posible y, por otra, el valor esperado del estimador
debe coincidir con el valor del parámetro a estimar. Por tanto, el problema de encontrar el
mejor estimador de θ se puede plantear, de forma simplificada, en términos de encontrar
el estimador que tenga el ECM más pequeño de entre todos los estimadores factibles de
θ. Sin embargo, en realidad el problema es mucho más complicado. Aun si fuese práctico
calcular el ECM de un gran número de estimadores, para la mayorı́a de los parámetros
poblacionales no existe ningún estimador que minimice el ECM para todos los posibles
b 1 , puede tener un ECM mı́nimo para algunos valores
valores de θ. Es decir, un estimador, Θ
b 2 , tendrá la misma propiedad para otros valores de
de θ, mientras que otro estimador, Θ
θ.
166 Estadı́stica

Ejemplo.- De una P.M. se extrae una m.a.s. {x1 , . . . , xn }, de la cual se sabe que E[xi ] = µ
y Var(xi ) = σ 2 ∀i = 1, n. Consideramos dos estimadores de la media

Xn
b 1 = x̄ = 1
Θ xi
n i=1

n
b2 = 1 X
Θ xi
n + 1 i=1

Entonces
 n

 b 1X

 E[Θ1 ] = E[xi ] = µ

 n i=1
 σ2
b 1) =
=⇒ ECM(Θ

 n n
 X σ2


 Var( b 1) = 1
Θ Var(x ) =
 n2 i=1
i
n

 n

 b 1 X n

 E[Θ2 ] = E[xi ] = µ

 n + 1 i=1 n+1
 µ2 + nσ 2
b 2) =
=⇒ ECM(Θ

 n (n + 1)2

 1 X n

 b σ2
 Var(Θ2 ) = (n + 1)2 Var(xi ) =
(n + 1) 2
i=1

Si n = 10 y σ 2 = 100, entonces,

b 1 ) = 10
ECM(Θ
2
b 2 ) = µ + 1000
ECM(Θ
121
Al igualar ambas expresiones y resolver para µ, se tiene que

si µ < b 1 ) > ECM(Θ
210 =⇒ ECM(Θ b 2)

si µ > b 1 ) < ECM(Θ
210 =⇒ ECM(Θ b 2)

Por esta razón, se deben examinar criterios adicionales para la selección de los esti-
madores de θ, aun cuando el error cuadrático medio es el concepto más importante.

13.2.4. Estimador insesgado


b es un estimador insesgado del parámetro θ, si cumple
Se dice que un estimador Θ
que
b =θ
E[Θ]
13 Estimación puntual y estimación por intervalo 167

para todos los posibles valores de θ. De esta forma, para cualquier estimador insesgado,
b se cumple que ECM=Var(Θ).
Θ, b Como vimos en el capı́tulo anterior, sea como sea la
P.M., la esperanza de la media muestral coincide con la media poblacional. Por tanto, la
media de la muestra, x̄, es un estimador insesgado de µ.
Si un estimador no es insesgado, se dice que es sesgado, y se llama sesgo a la función
b − θ. El sesgo puede ser positivo, lo cual implica que el estimador en
(no v.a.) b(θ) = E[Θ]
cuestión está sobrevalorando, en media, el valor de θ; o puede ser negativo, lo cual implica
que el estimador en cuestión está infravalorando, en media, el valor de θ.
Ejemplo.- De una P.M.≡ N(µ, σ) extraemos una m.a.s., {x1 , . . . , xn }, y construimos dos
estimadores de la varianza,
n
b 1 = s2 = 1 X
Θ (xi − x̄)2
n − 1 i=1

X n
b2 = 1
Θ (xi − x̄)2
n i=1

En la sección 12.4 vimos que, si la población es Normal, entonces (n − 1)s2 /σ 2 ≡


χ2n−1 . Por tanto,
b 1 ] = E[s2 ] = σ2
E[Θ E[χ2n−1 ] = σ 2
n−1

b 2] = n−1 b n−1 2 1
E[Θ E[Θ1 ] = σ = σ2 − σ2
n n n
P
Por tanto, la varianza muestral, Θ b 1 = s = (xi − x̄) /(n − 1) es un estimador
2 2

insesgado de la varianza de la población, σ 2 . En cambio, Θ b 2 = P(xi − x̄)2 /n es un


estimador sesgado de σ 2 . Además, el sesgo de Θb 2 es b(θ) = −θ/n < 0, es decir, el estimador
b 2 está infravalorando, en media, el verdadero valor de la varianza de la población σ 2 .
Θ
Esta es la razón por la cual se define la varianza muestral con el dividendo igual a n − 1
en vez de igual a n. Por último, hay que señalar que el hecho de que s2 sea un estimador
insesgado de σ 2 , no implica que s sea un estimador insesgado de σ (ver Sec. 12.7).

13.2.5. Estimador eficiente


Sin perder de vista el hecho de que estamos buscando aquellos estimadores con ECM
mı́nimo, si consideramos los estimadores insesgados, para ellos se cumple ECM=Var(Θ).b
Por tanto, el problema se reduce a encontrar un estimador insesgado que tenga varianza
b es un estimador insesgado de varianza
mı́nima. En general, se dice que el estimador Θ
168 Estadı́stica

b = θ), y Var(Θ)
mı́nima uniforme de θ, si es insesgado (E[Θ] b es menor que la varianza de
cualquier otro estimador de θ para todos los posibles valores de θ.
La varianza de un estimador insesgado es la cantidad más importante para decidir
b1 y Θ
cómo de bueno es el estimador para estimar θ. Por ejemplo, si Θ b 2 son dos estimadores
b 1 es más eficiente que Θ
insesgados de θ, se dice que Θ b 2 si Var(Θ
b 1 ) ≤Var(Θ
b 2 ), cumpliéndose
la desigualdad en el sentido estricto para algún valor de θ. Es muy común utilizar el
b 1 )/Var(Θ
cociente Var(Θ b 2 ) para determinar la eficiencia relativa de Θ
b 1 respecto a Θ
b 2 . Si
los estimadores son sesgados, las eficiencias relativas se calculan con los respectivos errores
cuadráticos medios.
Pero, dicho todo esto, seguimos teniendo un problema. Una vez que tenemos un
estimador y conocemos su varianza, ¿cómo podemos saber si existe otro estimador con
una varianza más pequeña? Para resolverlo, recurrimos al siguiente teorema.

13.2.5.1. Teorema (Cota de Cramér-Rao)

Dada una P.M. con función de densidad f (x, θ) y una muestra aleatoria simple de
b es un estimador de θ, entonces se cumple
tamaño n, {x1 , . . . , xn }, si Θ

b ≥ (1 + b′ (θ))2 (1 + b′ (θ))2 − (1 + b′ (θ))2


Var(Θ)  2 = " 2 # =  2 
∂Ln L(x1 , . . . , xn , θ) ∂Ln f (x, θ) ∂ Ln f (x, θ)
E nE nE
∂θ ∂θ ∂2θ

b y L(x1 , . . . , xn , θ) la función de verosimilitud de la muestra.


siendo b(θ) el sesgo de Θ
La primera expresión a la derecha de la desigualdad se conoce como cota de Cramér-
Rao. El resto de igualdades representan distintas versiones, generalmente más sencillas
de calcular, de dicha cota. Lo primero que debemos observar es que, si el estimador es
insesgado, entonces b(θ) = 0.
La cota de Cramér-Rao establece un lı́mite inferior para la varianza de cualquier
estimador de θ. Esto no implica necesariamente que deba existir un estimador de θ cuya
varianza coincida con la cota de Cramér-Rao. Es decir, es posible encontrar un estimador
de θ que tenga la varianza más pequeña posible de entre todos los estimadores de θ, pero
cuya varianza sea más grande que el lı́mite inferior establecido por la cota de Cramér-Rao.
Este estimador, en el caso de que además fuera insesgado, seguirı́a siendo un estimador
insesgado de varianza mı́nima uniforme para θ.
Un estimador cuya varianza coincide con la cota de Cramér-Rao se dice que es un
estimador eficiente. Si, además, es insesgado, se llama estimador de eficiencia absoluta o
13 Estimación puntual y estimación por intervalo 169

completa. De esta forma, un estimador de θ de eficiencia absoluta es el mejor estimador


de θ que se puede encontrar.
Ejemplo.- De una P.M.≡ N(µ, σ), con σ conocido y θ = µ desconocido, se extrae una m.a.s.
de tamaño n, {x1 , . . . , xn }. Como estimador de la media de la población, utilizamos la
media muestral n
X
b = x̄ = 1
Θ xi
n i=1

de la que sabemos que su distribución es x̄ ≡ N(µ, σ/ n ). Por tanto,

E[x̄] = µ = θ =⇒ es insesgado =⇒ b(θ) = 0


σ2
Var(x̄) =
n
Vamos a calcular la cota de Cramér-Rao (CCR) de los estimadores insesgados de la
media de una población Normal.

1 −1
CCR = " 2 # =  2

∂Ln f (x, θ) ∂ Ln f (x, θ)
nE nE
∂θ ∂2θ

Como P.M.≡ N(µ, σ), su función de densidad es de la forma


1 1 2
f (x, θ) = √ e− 2σ2 (x−θ)
σ 2π
entonces  
1 1
Ln f (x, θ) = Ln √ − (x − θ)2
σ 2π 2σ 2

∂Ln f (x, θ) 1
= 2 (x − θ)
∂θ σ

∂ 2 Ln f (x, θ) 1
2
=− 2
∂ θ σ
   
∂ 2 Ln f (x, θ) 1 1
E 2
=E − 2 =− 2
∂ θ σ σ
Por tanto,

−1 σ2
CCR =   =
∂ 2 Ln f (x, θ) n
nE 2
∂ θ
Es decir,
Var(x̄) = CCR
170 Estadı́stica

y, además, x̄ es insesgado. Entonces, la media muestral de una población Normal es un


estimador de eficiencia absoluta de la media poblacional.
Por último, hay que señalar que, como se ha visto en este ejemplo, para calcular la
cota de Cramér-Rao es necesario conocer la distribución de la P.M.

13.3. Métodos de estimación puntual


En las secciones anteriores hemos comentado ampliamente las propiedades que debe
tener un buen estimador. Incluso hemos visto, a través de los ejemplos, que un estima-
dor de la media poblacional podrı́a ser la media muestral, un estimador de la varianza
poblacional podrı́a ser la varianza muestral, y un estimador de la proporción de éxitos
de la población podrı́a ser la proporción de éxitos de la muestra. Pero, ¿qué ocurre si el
parámetro θ de la población no es ni su media, ni su varianza ni su proporción de éxitos?
Por ejemplo, si la P.M. tiene una función de densidad
θ
f (x, θ) = x ≥ 0, θ > 0
(1 + x)1+θ
En este caso, θ no es ninguno de los parámetros “conocidos”, por tanto, en un
principio, no tenemos ninguna pista sobre cómo podrı́a ser un estimador de θ. En esta
sección vamos a dar dos métodos para obtener un estimador de cualquier parámetro
poblacional θ.

13.3.1. Método de máxima verosimilitud


La idea en la que se basa este método es muy sencilla y, además, bastante lógica. Si
de una población cualquiera he obtenido una muestra en particular, es razonable pensar
que la muestra obtenida es la que mayor probabilidad tenı́a de salir. Veamos esta idea
con un ejemplo
Ejemplo.- Una urna contiene bolas rojas y blancas con una proporción de bolas rojas, p,
desconocida. Extraemos 10 bolas con reemplazamiento (m.a.s. de tamaño n = 10) con el
resultado de 3 bolas rojas y 7 blancas. Parece lógico pensar que el hecho de que en la
muestra aparezcan 3 bolas rojas de 10 es porque, según la proporción real de bolas rojas
que hay en la urna, es más probable que salgan 3 rojas a que salgan 5 ó 9. Es decir, la
muestra que ha salido es la que mayor probabilidad tenı́a de salir. Vamos a trasladar este
razonamiento a números. La probabilidad de que salga la muestra que ha salido (o sea,
la función de verosimilitud de la muestra) es
10!
L(p) = p3 (1 − p)7 P R3,7
10
= p3 (1 − p)7
3! 7!
13 Estimación puntual y estimación por intervalo 171

Para calcular el valor de p que hace que esta probabilidad sea máxima, basta con
derivar respecto de p e igualar a 0.

∂L(p)  2  10! 10!


= 3p (1 − p)7 − 7p3 (1 − p)6 = p2 (1 − p)6 [3 − 10p] =0
∂p 3! 7! 3! 7!
Entonces, se pueden dar 3 casos

• p=0 imposible, pues hay al menos una bola roja


• p=1 imposible, pues hay al menos una bola blanca


∂ 2 L(p)
• p = 3/10 además, <0
∂ 2 p p=3/10
Es decir, si en la muestra han salido 3 bolas rojas de las 10 muestreadas, el valor de
p que hace de esta muestra la más probable es p = 3/10.
Ahora, vamos a generalizar este ejemplo al caso de una P.M. cualquiera, con función
de densidad f (x, θ), siendo θ un parámetro cualquiera de la población. Extraemos una
m.a.s. de tamaño n, {x1 , . . . , xn }. La función de verosimilitud de la muestra, por ser
muestra extraı́da con reemplazamiento, viene dada por

L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ)

La máxima verosimilitud puede obtenerse derivando L con respecto a θ e igualando


a cero. Para ello, es conveniente tomar primero logaritmos y luego derivar, ya que la
función logaritmo es estrictamente creciente. Ası́, obtenemos θ en términos de los xi .
El método puede generalizarse para el caso en que existan varios parámetros pobla-
cionales a estimar. Ahora, se toman las derivadas parciales respecto a cada uno de los
parámetros, se igualan a cero y se resuelven las ecuaciones resultantes.
Ejemplo.- De una P.M. con función de densidad
θ
f (x, θ) = x ≥ 0, θ > 0
(1 + x)1+θ

b de θ. La
extraemos una m.a.s. de tamaño n, {x1 , . . . , xn }, para calcular un estimador, Θ,
función de verosimilitud de la muestra es
θn
L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ) = n
Y
(1 + xi )1+θ
i=1
172 Estadı́stica

Antes de derivar, tomamos logaritmos


n
Y n
X
n 1+θ
Ln L(x1 , . . . , xn , θ) = Ln θ − Ln (1 + xi ) = nLn θ − (1 + θ) Ln (1 + xi )
i=1 i=1

n
∂Ln L(x1 , . . . , xn , θ) n X b= n
= − Ln (1 + xi ) = 0 =⇒ Θ n
∂θ θ X
i=1
Ln (1 + xi )
i=1


∂ 2 Ln L(x1 , . . . , xn , θ) n
=− <0
2
∂ θ b
θ=Θ
b2
Θ
Por tanto, el estimador de máxima verosimilitud (EMV) de θ viene dado por

b= n
Θ n
X
Ln (1 + xi )
i=1

Hay que señalar que no siempre es posible aplicar el método de máxima verosimilitud
para calcular un estimador (ver Sec. 13.3.2).

13.3.2. Propiedades de los estimadores de máxima verosimilitud


En esta sección vamos a enumerar una serie de propiedades o teoremas que verifican
los estimadores de máxima verosimilitud (EMV), comenzando con una definición sobre
las condiciones en las que se puede aplicar el método de máxima verosimilitud.

• Condiciones de regularidad de Fisher-Wolfowitz

1.- La P.M. de la que procede la muestra tiene un campo de variación que no


depende del parámetro θ, y, por tanto, la muestra tampoco.
2.- La función de verosimilitud de la muestra admite, por lo menos, las derivadas
de primer y segundo orden respecto del parámetro θ.
3.- Las operaciones de derivación e integración (o suma, en el caso de v.a. discretas)
son intercambiables.

• Bajo condiciones de regularidad, los EMV son consistentes.

b entonces el EMV de θ es fun-


• Si un parámetro θ posee un estimador suficiente, Θ,
b Esto no implica que todos los EMV sean suficientes, pues no todos los
ción de Θ.
parámetros poblacionales poseen un estimador suficiente.
13 Estimación puntual y estimación por intervalo 173

• Los EMV no siempre son insesgados, pero sı́ son asintóticamente insesgados, es decir

lı́m b(θ) = 0
n→∞

• Bajo condiciones de regularidad, si existe un estimador eficiente de θ, éste coincide


con el obtenido por el método de máxima verosimilitud. De nuevo, esto no implica
que todos los EMV sean eficientes.

• Bajo condiciones de regularidad, los EMV son asintóticamente eficientes y asintóti-


b es el EMV de θ, entonces
camente Normales. Es decir, si Θ
!
b ≡ N θ, p 1
lı́m Θ
n→∞ I(θ)

siendo " 2 #
∂Ln L(x1 , . . . , xn , θ)
I(θ) = E
∂θ

b es el EMV de θ, entonces g(Θ)


• Si Θ b es el EMV de g(θ), siempre que g sea continua
y biunı́voca.

13.3.3. Método de los momentos


Este método consiste en igualar los momentos de la distribución de la P.M., con
los correspondientes momentos muestrales, teniendo en cuenta que, para una m.a.s. de
tamaño n, {x1 , . . . , xn }, el momento centrado en el origen de orden r es
n
1X r
mr = x
n i=1 i

Ejemplo.- De una P.M. con función de densidad


θ
f (x, θ) = x ≥ 0, θ > 0
(1 + x)1+θ

b de θ.
extraemos una m.a.s. de tamaño n, {x1 , . . . , xn }, para calcular un estimador, Θ,
Los momentos de primer orden de la población y la muestra son,
Z +∞ Z +∞
θ 1
E[P.M.] = xf (x, θ) dx = x 1+θ
dx = (θ > 1)
−∞ 0 (1 + x) θ−1

n
1X
m1 = xi
n i=1
174 Estadı́stica

e, igualando,
n
1 1X b= n
= xi =⇒ Θ n +1
θ−1 n i=1 X
xi
i=1

Como se puede comprobar, el estimador obtenido por el método de máxima verosi-


militud puede no coincidir con el obtenido por el método de los momentos.

13.4. Estimación por intervalo de confianza


En lugar de hacer una estimación puntual del parámetro poblacional θ, se pretende
dar un intervalo en el que se tiene cierta probabilidad (confianza) de que se encuentre el
verdadero valor de θ. Es decir, un intervalo de confianza del parámetro θ es de la forma

θb − e < θ < θb + e

donde, generalmente, θb es una estimación puntual de θ, obtenida con el estimador puntual


b Se llama amplitud del intervalo o margen de error, al tamaño del intervalo, 2e.
Θ.
Cuando calculamos un intervalo para un parámetro poblacional θ, también debemos
dar una medida de la bondad de la estimación, es decir, la probabilidad de que el valor
del parámetro θ se encuentre realmente dentro del intervalo construido. Ası́, si

P (θb − e < θ < θb + e) = 1 − α

decimos que el intervalo (θb − e, θb + e) es un intervalo de confianza del (1 − α)100 %. La


fracción (1 − α) recibe el nombre de coeficiente de confianza o grado de confianza; y los
puntos extremos, θb − e y θb + e, se llaman lı́mites de confianza.
Se llama nivel de significación (N.S.) a la probabilidad de que el verdadero valor de
θ esté fuera del intervalo de confianza, es decir

N.S. = α100 %

De esta forma, tenemos distintos niveles de significación, según el grado de confianza


obtenido. Algunos de ellos tienen nombre propio, por ejemplo

• Confianza Casi Significativa

Confianza = 1 − α = 95 %
N.S. = α = 5 %
13 Estimación puntual y estimación por intervalo 175

• Confianza Significativa

Confianza = 1 − α = 99 %
N.S. = α = 1 %

• Confianza Muy Significativa

Confianza = 1 − α = 99.5 %
N.S. = α = 0.5 %

Por último, se habla de seguridad estadı́stica cuando se trabaja con un intervalo de


confianza del tipo

θb − 3σΘb < θ < θb + 3σΘb


b
siendo σΘb la desviación tı́pica del estadı́stico Θ.
En las secciones siguientes vamos a construir el intervalo de confianza de varios
parámetros poblacionales tales como la media, la varianza o la proporción de éxitos,
siguiendo siempre el mismo esquema:

1.- Se definirá la distribución de la P.M.

b del parámetro poblacional θ. Si es posible,


2.- Se definirá un estimador puntual, Θ,
estimador insesgado.

b En cualquier caso, se
3.- Cuando sea posible, se definirá la distribución de la v.a. Θ.
contará con la media y la varianza del estimador, µ b =E(Θ)b y σ 2 =Var(Θ).
b
Θ b
Θ

4.- Fijado un nivel de confianza, (1 − α)100 %, se construirá un intervalo de confianza,


partiendo de el hecho de que

b − θ| ≤ k) = 1 − α
P (|Θ

Cuando la distribución de Θ b sea conocida, buscaremos en las tablas apropiadas el


b sea desconocida, calcularemos k aplicando
valor de k y, cuando la distribución de Θ
el teorema de Chebychev.
176 Estadı́stica

13.4.1. Intervalo de confianza para la media


Dada un P.M. con media µ, como estimador puntual de la media de la población,
se utiliza la media de la muestra

n
1X
x̄ = xi
n i=1

13.4.1.1. P.M. ≡ N(µ, σ) con σ conocido

Si tenemos una muestra de tamaño n, entonces el estadı́stico media muestral sigue



una distribución x̄ ≡ N(µ, σ/ n ). Tipificando la variable,
x̄ − µ
√ ≡ N(0, 1)
σ/ n
entonces,  
x̄ − µ
P −zα/2 < √ < zα/2 = 1 − α
σ/ n
es decir  
σ σ
P x̄ − √ zα/2 < µ < x̄ + √ zα/2 = 1 − α
n n
siendo zα/2 , el número real que deja un área de α/2 unidades a su derecha en una N(0, 1)
(Fig. 13.1).
Por tanto, una estimación puntual de la media poblacional µ, se obtiene seleccio-
nando una muestra aleatoria simple de tamaño n, y calculando su media x̄. Mientras que
un intervalo de confianza del (1 − α)100 % para la media poblacional viene dado por

σ σ
x̄ − √ zα/2 < µ < x̄ + √ zα/2
n n
La semiamplitud del intervalo es
σ
e = √ zα/2
n

Si e es un dato del problema, podemos determinar el tamaño de la muestra adecuado


al nivel de confianza pedido, por medio de la expresión
σ 2
n= zα/2
e
13 Estimación puntual y estimación por intervalo 177

Figura 13.1: P (−zα/2 < N(0, 1) < zα/2 ) = 1 − α

13.4.1.2. P.M. ≡ N(µ, σ) con σ desconocido

Si x̄ y s son la media y la desviación tı́pica de una muestra aleatoria simple de


tamaño n obtenida de una población Normal con varianza σ 2 desconocida, entonces
x̄ − µ
√ ≡ tn−1
s/ n
entonces,  
x̄ − µ
P −tα/2 < √ < tα/2 = 1−α
s/ n
es decir  
s s
P x̄ − √ tα/2 < µ < x̄ + √ tα/2 = 1 − α
n n
siendo tα/2 , el número real que deja un área de α/2 unidades a su derecha en una tn−1
(Fig. 13.2).
Por tanto, un intervalo de confianza del (1 − α)100 % para la media poblacional
viene dado por

s s
x̄ − √ tα/2 < µ < x̄ + √ tα/2
n n
178 Estadı́stica

Figura 13.2: P (−tα/2 < tn−1 < tα/2 ) = 1 − α

13.4.1.3. P.M. ≡ ?(µ, σ) con σ conocido y n > 30

Aun cuando la forma de la P.M. sea desconocida o no Normal, si el tamaño de la


muestra es suficientemente grande, n > 30, sabemos que
x̄ − µ ∼
√ = N(0, 1)
σ/ n

y, por tanto, un intervalo de confianza del (1 − α)100 % para la media poblacional viene
dado por

σ σ
x̄ − √ zα/2 < µ < x̄ + √ zα/2
n n

13.4.1.4. P.M. ≡ ?(µ, σ) con σ conocido y n < 30

Del estadı́stico media muestral sólo sabemos que su esperanza es E[x̄] = µ y su


varianza es Var(x̄) = σ 2 /n, pero no conocemos su distribución, por lo que sólo podemos
aplicar el Teorema de Chebychev.
 
σ σ
P x̄ − √ k < µ < x̄ + √ k ≥ 1 − αk
n n
13 Estimación puntual y estimación por intervalo 179

siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media
poblacional viene dado por

σ σ
x̄ − √ k < µ < x̄ + √ k
n n

13.4.1.5. P.M. ≡ ?(µ, σ) con σ desconocido y n > 30

Si x̄ y s son la media y la desviación tı́pica de una muestra aleatoria simple de


tamaño n > 30 obtenida de una población desconocida o no Normal, con varianza σ 2
desconocida, entonces se puede aproximar σ 2 ≃ s2 y,
x̄ − µ ∼
√ = N(0, 1)
s/ n
y, por tanto, un intervalo de confianza del (1 − α)100 % para µ es

s s
x̄ − √ zα/2 < µ < x̄ + √ zα/2
n n

13.4.1.6. P.M. ≡ ?(µ, σ) con σ desconocido y n < 30

Es el único caso en el que no poseemos herramientas suficientes para obtener un


intervalo de confianza válido para la media. En cualquier caso, como estimación puntual
de µ, siempre es válida la media muestral, sea cual sea el tamaño de la muestra.

13.4.2. Intervalo de confianza para la varianza

13.4.2.1. P.M. ≡ N(µ, σ) con µ desconocido

Dada un P.M.≡ N(µ, σ) con media µ desconocida, como estimador puntual de la


varianza de la población, se utiliza la varianza de la muestra

n
2 1 X
s = (xi − x̄)2
n − 1 i=1
En la sección 12.4, comprobamos que
(n − 1)s2
2
≡ χ2n−1
σ
Entonces, se puede escribir
 
2 (n − 1)s2 2
P χ1−α/2 < < χα/2 = 1 − α
σ2
180 Estadı́stica

Figura 13.3: P (χ21−α/2 < χ2n−1 < χ2α/2 ) = 1 − α

o bien
!
2 2
(n − 1)s (n − 1)s
P 2
< σ2 < = 1−α
χα/2 χ21−α/2
donde χ21−α/2 y χ2α/2 son los valores de la distribución χ2n−1 que dejan áreas de 1 − α/2 y
α/2, respectivamente, a su derecha (Fig. 13.3)
Por tanto, un intervalo de confianza del (1 − α)100 % para la varianza muestral de
una población Normal viene dado por

(n − 1)s2 2 (n − 1)s2
< σ <
χ2α/2 χ21−α/2

13.4.3. Intervalo de confianza para la diferencia de medias


Suponemos dos poblaciones, X e Y , con distribuciones X ≡ N(µx , σx ) e Y ≡
N(µy , σy ). De cada una de ellas extraemos una muestra de tamaños n y m, respectivamen-

te. El estadı́stico media de la primera muestra será x̄ ≡ N (µx , σx / n), y el estadı́stico

media de la segunda muestra será ȳ ≡ N (µy , σy / m)
13 Estimación puntual y estimación por intervalo 181

Una estimación puntual de la diferencia de medias, (µx − µy ), viene dada por la


diferencia de las medias de las muestras,

n m
1X 1 X
x̄ − ȳ = xi − yi
n i=1 m i=1
Para obtener un intervalo de confianza, debemos tener en cuenta si las varianzas son
conocidas.

13.4.3.1. P.M. Normales con σx y σy conocidas

En este caso,

(x̄ − ȳ) − (µx − µy )


q ≡ N(0, 1)
σx2 σy2
n
+ m

Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es

r r
σx2 σy2 σx2 σy2
(x̄ − ȳ) − + zα/2 < µx − µy < (x̄ − ȳ) + + zα/2
n m n m

13.4.3.2. P.M. Normales con σx2 = σy2 = σ 2 desconocida

En este caso, hemos visto que

(x̄ − ȳ) − (µx − µy )


r ≡ tn+m−2
1 1
Sp +
n m
siendo s
(n − 1)s2x + (m − 1)s2y
Sp =
n+m−2
Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es

r r
1 1 1 1
(x̄ − ȳ) − Sp + tα/2 < (µx − µy ) < (x̄ − ȳ) + Sp + tα/2
n m n m

siendo tα/2 , el número real que deja un área de α/2 unidades a su derecha en una tn+m−2 .
182 Estadı́stica

13.4.3.3. P.M. Normales con σx2 6= σy2 desconocidas

En este caso, hemos visto que

(x̄ − ȳ) − (µx − µy ) ∼


r = tγ
s2x s2y
+
n m
siendo
(A + B)2 s2x s2y
γ= A= , B=
A2 B2 n m
+
n−1 m−1
Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es

r r
s2x s2y s2x s2y
(x̄ − ȳ) − + tα/2 < (µx − µy ) < (x̄ − ȳ) + + tα/2
n m n m
siendo tα/2 , el número real que deja un área de α/2 unidades a su derecha en una tγ

13.4.4. Intervalo de confianza para el cociente de varianzas


Suponemos dos poblaciones, X e Y , con distribuciones X ≡ N(µx , σx ) e Y ≡
N(µy , σy ). De cada una de ellas extraemos una muestra de tamaños n y m, respecti-
vamente. Sean s2x y s2y las varianzas de las muestras. Una estimación puntual del cociente
de varianzas, σx2 /σy2 , viene dada por el cociente de las varianzas de las muestras

n
X
1
n−1
(xi − x̄)2
s2x i=1
= m
s2y X
1
m−1
(yi − ȳ)2
i=1

Para obtener un intervalo de confianza, consideramos el estadı́stico

s2x /σx2
≡ Fn−1,m−1
s2y /σy2
Entonces,
 
s2 /σ 2
P f1−α/2 (n − 1, m − 1) < x2 x2 < fα/2 (n − 1, m − 1) =1−α
sy /σy
siendo f1−α/2 (n − 1, m − 1) y fα/2 (n − 1, m − 1), los números reales que dejan un área de
1 − α/2 y α/2 unidades a su derecha, respectivamente, en una Fn−1,m−1 (Fig. 13.4).
O bien,
13 Estimación puntual y estimación por intervalo 183

Figura 13.4: P (f1−α/2 < Fn−1,m−1 < fα/2 ) = 1 − α

 
s2x 1 σx2 s2x 1
P < < =1−α
s2y fα/2 (n − 1, m − 1) σy2 s2y f1−α/2 (n − 1, m − 1)
Utilizando las propiedades de la distribución F-Snedecor, también se puede escribir
como
 
s2x 1 σx2 s2x
P < < fα/2 (m − 1, n − 1) = 1−α
s2y fα/2 (n − 1, m − 1) σy2 s2y
Entonces un intervalo de confianza del (1 − α)100 % para el cociente de varianzas
poblacionales viene dado por

s2x 1 σx2 s2x


< < fα/2 (m − 1, n − 1)
s2y fα/2 (n − 1, m − 1) σy2 s2y

13.4.5. Intervalo de confianza para la proporción poblacional


Partimos de una P.M. Binomial de parámetro p, es decir, p es la proporción de éxitos
de la Población. Extraemos una m.a.s. {x1 , . . . , xn } y asignamos los valores
(
1 si es éxito
xi =
0 si es fracaso
184 Estadı́stica

es decir, cada v.a. xi ≡ B(1, p)


Sean las v.a.

X ≡ número de éxitos de la muestra

pb ≡ proporción de éxitos de la muestra

Una estimación puntual de la proporción de éxitos de la población viene dada por


la proporción de éxitos de la muestra

n
1X
pb = xi
n i=1
Para encontrar un intervalo de confianza, tenemos en cuenta el tamaño de la muestra.

13.4.5.1. P.M. Binomial y n > 30

Si el tamaño de la muestra es suficientemente grande, entonces


r !
p(1 − p)
pb ≃ N p,
n
y,
 
 pb − p 
P
−zα/2 < r < zα/2
= 1−α

p(1 − p)
n
Por tanto,
r r !
p(1 − p) p(1 − p)
P pb − zα/2 < p < pb + zα/2 = 1−α
n n
Podrı́amos decir que un intervalo de confianza del (1 − α)100 % para la proporción
de éxitos de la población viene dado por
r r
p(1 − p) p(1 − p)
pb − zα/2 < p < pb + zα/2
n n
pero esto no sirve de mucho pues como no conocemos el valor de p, no se pueden calcular
los lı́mites del intervalo. Para resolver este problema se puede proceder de dos formas.
13 Estimación puntual y estimación por intervalo 185

• Una solución consiste en aproximar el valor de p por el valor de la proporción


muestral. Por tanto, un intervalo de confianza del (1 − α)100 % para la proporción
de éxitos de la población viene dado por
r r
pb(1 − pb) pb(1 − pb)
pb − zα/2 < p < pb + zα/2
n n

• Otro método consiste en utilizar como valor aproximado del producto p(1 − p), su
máximo valor posible. Ası́,

1 1
y = p(1 − p) ⇒ y ′ = 1 − 2p = 0 ⇒ p = ⇒ p(1 − p) =
2 4
Entonces, un intervalo de confianza del (1 − α)100 % para la proporción de éxitos
viene dado por
r r
1 1
pb − zα/2 < p < pb + zα/2
4n 4n

13.5. Intervalo de confianza asintótico


Si θ es cualquier parámetro de una población, Θ b MV es su estimador de máxima
verosimilitud y θbMV es su estimación de máxima verosimilitud entonces, Θ
b MV es asintóti-
camente Normal con parámetros

b MV ] −→ θ
µΘb MV = E[Θ

2 b MV ) −→ −1
σΘ = Var(Θ
b MV ∂ LnL(x1 , . . . , xn ; θ)
2

∂θ2 b
θ=θMV

donde LnL(x1 , . . . , xn ; θ) es el logaritmo neperiano de la función de verosimilitud de la


muestra. Por tanto, si la muestra es suficientemente grande, podemos construir un inter-
valo de confianza para el parámetro θ de la forma habitual, teniendo en cuenta que
b MV − µ b
Θ ΘMV ∼
= N(0, 1)
σΘb MV

entonces !
b MV − µ b
Θ ΘMV
P −zα/2 < < zα/2 =1−α
σΘb MV
186 Estadı́stica

es decir,
θbMV − zα/2 σΘb MV < θ < θbMV + zα/2 σΘb MV
Un inconveniente de este método general es que la convergencia de la distribución de
b MV hacia la Normal puede ser muy lenta y entonces el intervalo de confianza será poco
Θ
preciso. Esto no ocurre cuando θ es un parámetro de centralización.
Ejemplo.- Vamos a obtener el intervalo de confianza asintótico del parámetro λ de una
población Exponencial
Dada la P.M. = X ≡ Exp(λ), entonces

f (x, λ) = λe−λx
1 1
µ = E[X] = σ 2 = Var(X) = 2
λ λ
i) Obtenemos el estimador de máxima verosimilitud de λ
La función de verosimilitud de una muestra de tamaño n es
P
L(x1 , . . . , xn ; λ) = f (x1 , λ) × · · · × f (xn , λ) = λn e−λ xi

Obtenemos el logaritmo neperiano


P
Ln L(x1 , . . . , xn ; λ) = nLn λ − λ xi

Entonces
∂Ln L n P P
= − xi = 0 =⇒ n−λ xi = 0 =⇒
∂λ λ

b n 1
λMV = P =
xi x̄

ii) Realizamos las aproximaciones

bMV ] ≃ λ
E[λ

bMV ) ≃ −1 −1 1
Var(λ
∂ LnL
2 = n =
nx̄2
− 2
∂λ2 bMV
λ=λ
λ λ=λbMV

iii) Si el tamaño de la muestra es suficientemente grande, un intervalo de confianza del


(1 − α) % para el parámetro λ de una población Exponencial es

1 1 1 1
− zα/2 √ < λ < + zα/2 √
x̄ x̄ n x̄ x̄ n
Teorı́a de muestras
14 de población finita

Índice
14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
14.2. Distribuciones de muestreo . . . . . . . . . . . . . . . . . . . . 189
14.2.1. Estadı́stico media muestral . . . . . . . . . . . . . . . . . . . . 189
14.2.2. Estadı́stico varianza muestral . . . . . . . . . . . . . . . . . . . 191
14.2.3. Estadı́stico proporción muestral . . . . . . . . . . . . . . . . . . 193
14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . 194
14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . 194
14.3.1.1. P.M. ≡ ?(µ, σ) con σ conocido . . . . . . . . . . . . . 195
14.3.1.2. P.M. ≡ ?(µ, σ) con σ desconocido . . . . . . . . . . . 195
14.3.2. Intervalo de confianza para la proporción poblacional . . . . . . 195

187
188 Estadı́stica

14.1. Introducción
A lo largo de este capı́tulo supondremos que la muestra aleatoria se ha realizado
sin reemplazamiento o, lo que es equivalente, se han extraı́do los n elementos a la vez. Es
importante resaltar dos cosas:

• Si la muestra se extrae sin reemplazamiento, las v.a. {x1 , . . . , xn } que representan a


la muestra no son independientes, pues cada extracción depende de las extracciones
anteriores y, además, no están idénticamente distribuidas, pues en cada extracción
la configuración de la población es distinta. Por tanto, por muy grande que sea el
tamaño de la muestra, en ningún caso estaremos en condiciones de aplicar el Teorema
de Levy-Lindeberg. Es decir, en ningún caso podremos aproximar la distribución del
estadı́stico muestral por una distribución Normal. Por otra parte, el conocimiento
de la distribución poblacional es, en la mayorı́a de los casos, irrelevante.

• Aunque la diferencia teórica entre la teorı́a de población infinita y población finita


radica en el método de extracción de la muestra (con o sin reemplazamiento), en la
práctica, casi todas las muestras se realizan sin reemplazamiento. Al fin y al cabo
serı́a una pérdida de tiempo y de dinero inspeccionar dos veces el mismo elemento
de la población. ¿Cómo se diferencian entonces en la práctica? Veamos un ejemplo.
Supongamos que queremos estimar la proporción de éxitos, p1 y p2 , de dos po-
blaciones. En el primer caso, la población la constituyen los 34 millones de es-
pañoles con derecho a voto. Extraemos una muestra aleatoria, sin reemplazamien-
to, de 1000 personas. Extraemos el primer elemento, lo examinamos, y lo deja-
mos fuera. Cuando vamos a extraer el segundo elemento, la población consta de
34.000.000 − 1 ≃ 34.000.000 elementos y la proporción de éxitos de la “nueva” po-
blación es ≃ p1 , por tanto, podemos considerar que x1 y x2 provienen de la misma
P.M. y, además, son independientes. Cuando vamos a extraer el tercer elemento,
la población consta de 34.000.000 − 2 ≃ 34.000.000 elementos y la proporción de
éxitos de la “nueva” población es ≃ p1 , por tanto, podemos considerar que x1 , x2 y
x3 provienen de la misma P.M. y, además, son independientes. Y ası́ sucesivamente.
Por tanto, en este caso, no importa cómo se haya extraı́do la muestra, pues siempre
podremos considerar que {x1 , . . . , x1000 } son independientes y están idénticamen-
te distribuidas. En el segundo caso, supongamos que tenemos que inspeccionar un
lote de 50 piezas. Extraemos una muestra aleatoria, sin reemplazamiento, de 20
piezas. Claramente, ahora cada extracción realizada modifica la composición de la
14 Teorı́a de muestras de población finita 189

población, tanto en tamaño como en proporción de piezas defectuosas, y, por tanto,


{x1 , . . . , x20 } no son independientes ni están idénticamente distribuidas.
Como conclusión, en la práctica, lo que diferencia una muestra con reemplazamiento
de otra sin reemplazamiento, es la relación entre el tamaño de la población y el
tamaño de la propia muestra. Un criterio de uso generalizado es considerar como
m.a.s. toda muestra que cumpla la relación n/N < 0.10.

A lo largo de este capı́tulo supondremos que la muestra la componen n v.a. que no


son independientes ni están idénticamente distribuidas. La nomenclatura empleada a lo
largo de este capı́tulo es la siguiente

• Población Madre formada por N elementos {X1 , X2 , . . . , XN }


N
1 X
• Media Poblacional µ = Xi
N i=1

N
1 X
• Varianza Poblacional σ = 2
(Xi − µ)2
N i=1

• Muestra sin reemplazamiento formada por n elementos {x1 , x2 , . . . , xn }


n
1X
• Media Muestral x̄ = xi
n i=1
n
1 X
• Varianza Muestral s = 2
(xi − x̄)2
n − 1 i=1

14.2. Distribuciones de muestreo

14.2.1. Estadı́stico media muestral

n
1X
x̄ = xi
n i=1
Si llamamos η = x̄ y {z1 , . . . , zm } a los posibles valores que puede tomar η, entonces
!
N 1
m= y P (η = zi ) = !
n N
n
190 Estadı́stica

Por tanto,
m
X m
X
1 1
E[η] = zi P (η = zi ) = ! zi = ! (z1 + · · · + zm ) =
i=1 N i=1 N
n n

! !
N −1 N −1
(X1 + · · · + XN ) N
1 n−1 n−1 1X
= ! = ! Xi =
N n N n i=1
n n

N N
n1X 1 X
= Xi = Xi = µ
N n i=1 N i=1

Es decir,

E[x̄] = µ

Para calcular la varianza,

 
Var(η) = E (η − µη )2 = E[η 2 ] − (E[η])2

Pero

m
X m
X
1
2
• E[η ] = zi2 P (η = zi ) = ! zi2 =
i=1 N i=1

" ! N
! #
1 1 N −1 X N −2 X
= ! 2 Xi2 + 2 Xi Xj =
N n n−1 i=1 n−2 i<j

N
1 X 2 n−1 X
= Xi + 2 Xi Xj
nN i=1 Nn(N − 1) i<j

N
!2 N
!
2 1 X 1 X X
• (E[η]) = µ2 = Xi = 2 Xi2 + 2 Xi Xj
N i=1 N i=1 i<j
14 Teorı́a de muestras de población finita 191

Entonces

 X
N  X
1 1 n−1 1
Var(η) = − 2 Xi2 +2 − 2 Xi Xj =
nN N i=1
Nn(N − 1) N i<j

N
N −nX 2 N −n X
= X − 2 Xi Xj =
nN 2 i=1 i nN 2 (N − 1) i<j

" N
#
N −n N −1X 2 2 X
= X − 2 Xi Xj =
n(N − 1) N 2 i=1 i N i<j

" X
N
#
N −n 1 1 2 X
= − 2 Xi2 − 2 Xi Xj =
n(N − 1) N N i=1
N i<j

N
" N
!#
N −n 1 X 2 1 X X
= Xi − 2 Xi2 + 2 Xi Xj =
n(N − 1) N i=1 N i=1 i<j

" N
# N
N −n 1 X 2 2 N −n 1 X 2
= Xi − X̄ = Xi − X̄ =
n(N − 1) N i=1 n(N − 1) N i=1

N −n 2
= σ
n(N − 1)
Es decir,

N −n 2
Var(x̄) = σ
n(N − 1)
N −n
Además, cuando N es grande con respecto a n, entonces N −1
→ 1 y la varianza del
estadı́stico media es igual que en el caso de población infinita.
Por tanto,

 r 
N −n
x̄ ≡ ? µ, σ
n(N − 1)

14.2.2. Estadı́stico varianza muestral

n
2 1 X
s = (xi − x̄)2
n − 1 i=1
192 Estadı́stica

Si llamamos η = s2 y {z1 , . . . , zm } a los posibles valores que puede tomar η, entonces


!
N
m=
n
y

1 X 1X 1
z1 = (Xi − x̄1 )2 −→ x̄1 = Xi −→ P (η = z1 ) = !
n−1 n N
n

1 X 1X 1
z2 = (Xi − x̄2 )2 −→ x̄2 = Xi −→ P (η = z2 ) = !
n−1 n N
n
..
.
1 X 1X 1
zm = (Xi − x̄m )2 −→ x̄m = Xi −→ P (η = zm ) = !
n−1 n N
n

donde cada zi es de la forma


1 X 2 1 X 2 2

zi = (Xi − x̄i ) = Xi − nx̄i
n−1 n−1
Entonces,
14 Teorı́a de muestras de población finita 193

m
X z1 + · · · + zm
E[η] = zi P (η = zi ) = ! =
i=1 N
n

" ! N m
#
1 1 N −1 X X
= ! Xi2 −n x̄2i =
N n−1 n−1 i=1 i=1

" ! N
1 1 N −1 X
= ! Xi2 −
N n−1 n−1 i=1

! N
! !#
1 N −1 X N −2 X
− n 2 Xi2 + 2 Xi Xj =
n n−1 i=1 n−2 i<j

N
n 1 n−1X 2 n(n − 1) 1 1 X
= Xi − 2 Xi Xj =
N n − 1 n i=1 N(N − 1) n − 1 n i<j

N
1 X 2 2 X N
= Xi − Xi Xj = σ2
N i=1 N(N − 1) i<j N −1

Por tanto,

N
E[s2 ] = σ2
N −1

14.2.3. Estadı́stico proporción muestral


Tenemos una P.M. ≡ B(1, p) de N elementos, {X1 , . . . , Xi }, entre los cuales hay A
éxitos y (N − A) fracasos; siendo
A
p = P (éxito) = proporción de éxitos de la P.M. =
N

q = P (fracaso) = proporción de fracasos de la P.M. = 1 − p


por tanto,
µ = E[P.M.] = p y σ 2 = Var(P.M.) = p(1 − p)
194 Estadı́stica

Sacamos una muestra aleatoria sin reemplazamiento, {x1 , . . . , xn }, entre los cuales
hay a éxitos y (n − a) fracasos; siendo
a
pb = P (éxito) = proporción de éxitos de la muestra =
n

qb = P (fracaso) = proporción de fracasos de la muestra = 1 − pb

A cada elemento de la muestra le asignamos el valor




 1 si es éxito

xi =


 0 si es fracaso

entonces n
1X
pb = xi = x̄
n i=1
es decir, la proporción muestral no es más que la media muestral por lo que podemos
aplicar los resultados de la sección 14.2.1. Ası́

E[b
p] = E[x̄] = µ = p
N −n 2 N −n
Var(b
p) = Var(x̄) = σ = p(1 − p)
n(N − 1) n(N − 1)
Por tanto,

 r 
N −n
pb ≡ ? p, p(1 − p)
n(N − 1)

14.3. Intervalos de confianza

14.3.1. Intervalo de confianza para la media poblacional


Dada un P.M. con media µ, como estimador puntual de la media de la población,
se utiliza la media de la muestra

n
1X
x̄ = xi
n i=1
14 Teorı́a de muestras de población finita 195

14.3.1.1. P.M. ≡ ?(µ, σ) con σ conocido

Atendiendo a lo dicho en el apartado 14.2.1, la distribución frecuencial del estadı́stico


media es
s !
N −n
x̄ ≡ ? µ, σ
n(N − 1)
Teniendo en cuenta que la única herramienta aplicable es Chebychev,
s s !
N −n N −n
P x̄ − σ k < µ < x̄ + σ k ≥ 1 − αk
n(N − 1) n(N − 1)
siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media
poblacional viene dado por

r r
N −n N −n
x̄ − σ k < µ < x̄ + σ k
n(N − 1) n(N − 1)

14.3.1.2. P.M. ≡ ?(µ, σ) con σ desconocido

Atendiendo a lo dicho en el apartado 14.2.2,


 
2 N 2 N −1 2
E[s ] = σ =⇒ E s = σ2
N −1 N
por tanto, podemos tomar como estimación de la varianza poblacional, el valor de la
N −1
varianza de la muestra, corregido por el factor N
. A partir de aquı́, estamos en las
mismas condiciones que en el apartado anterior. Ası́,
r r !
N −n N −n
P x̄ − s k < µ < x̄ + s k ≥ 1 − αk
nN nN
siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media
poblacional viene dado por

r r
N −n N −n
x̄ − s k < µ < x̄ + s k
nN nN

14.3.2. Intervalo de confianza para la proporción poblacional


Dada un P.M. con una proporción de éxitos p, como estimador puntual de dicho
parámetro se utilizará la proporción de éxitos de la muestra, pb.
196 Estadı́stica

Según lo dicho en el apartado 14.2.3


s !
N −n
pb ≡ ? p, p(1 − p)
n(N − 1)
Teniendo en cuenta que la única herramienta aplicable es Chebychev,

s s !
N −n N −n
P pb − p(1 − p) k < p < pb + p(1 − p) k ≥ 1 − αk
n(N − 1) n(N − 1)

siendo αk = 1/k 2 . Entonces, podrı́amos decir que un intervalo de confianza del (1 −


αk )100 % para la proporción de éxitos de la población vendrı́a dado por
s s
N −n N −n
pb − p(1 − p) k < p < pb + p(1 − p) k
n(N − 1) n(N − 1)

pero esto no sirve de mucho pues como no conocemos el valor de p, no se pueden calcular
los lı́mites del intervalo. Para resolver este problema, se puede proceder de dos formas.

• Una solución consiste en aproximar el valor de p por el valor de la proporción


muestral. Por tanto, un intervalo de confianza del (1 − αk )100 % para la proporción
de éxitos de la población es
r r
N −n N −n
pb − pb(1 − pb) k < p < pb + pb(1 − pb) k
n(N − 1) n(N − 1)

• Otro método consiste en utilizar como valor aproximado del producto p(1 − p), su
máximo valor posible. Ası́,

1 1
y = p(1 − p) ⇒ y ′ = 1 − 2p = 0 ⇒ p = ⇒ p(1 − p) =
2 4
Entonces, un intervalo de confianza del (1 − αk )100 % para la proporción de éxitos
viene dado por
r r
1 N −n 1 N −n
pb − k < p < pb + k
4 n(N − 1) 4 n(N − 1)
Contraste
15 de hipótesis

Índice
15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
15.2. Las hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . 199
15.3. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
15.4. Nivel de significación y región crı́tica . . . . . . . . . . . . . . 204
15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
15.6. Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . 209
15.7. Contrastes para la media de una población . . . . . . . . . . . 209
15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . 210
15.7.1.1. Población Madre Normal o n ≥ 30 . . . . . . . . . . 210
15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . 211
15.7.2.1. Población Madre Normal . . . . . . . . . . . . . . . . 211
15.7.2.2. Población Madre no Normal . . . . . . . . . . . . . . 213
15.8. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . 213
15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . 213
15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . 213
15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . 213
15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . 214
15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . 214
15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . 215
15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . 215
15.10.1.Una población . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.10.2.Comparación de varianzas . . . . . . . . . . . . . . . . . . . . . 215

197
198 Estadı́stica

15.1. Introducción
Con frecuencia, los problemas a los que nos enfrentamos no se refieren sólo a la
estimación de un parámetro poblacional. Se nos puede plantear el problema de rechazar o
aceptar cierta hipótesis realizada sobre una población, en base al estudio de una muestra
más pequeña. Los procedimientos que conducen a la aceptación o rechazo de una hipótesis
estadı́stica se enmarcan dentro de la llamada Teorı́a de la Decisión.
Una Hipótesis Estadı́stica es una afirmación o conjetura acerca de una o más po-
blaciones. Nunca se sabe con absoluta certeza la veracidad o falsedad de una hipótesis
estadı́stica, a no ser que se examine la población entera. Esto, por supuesto, es poco
práctico en la mayorı́a de las ocasiones. En su lugar, se toma una muestra aleatoria de la
población de interés, y se utilizan los datos de dicha muestra para obtener evidencias que
confirmen o no la hipótesis propuesta. La evidencia de la muestra que es inconsistente con
la hipótesis planteada conduce a un rechazo de la misma, mientras que la evidencia que
la apoya, conduce a su no rechazo.
Debe quedar claro que el diseño de un procedimiento de decisión debe llevarse a
cabo con la idea de la probabilidad de una conclusión equivocada. Por ejemplo, supon-
gamos que la hipótesis planteada es que la fracción, p, de artı́culos defectuosos en un
cierto proceso es de 0.10. El experimento consiste en observar una muestra aleatoria del
producto en cuestión. Supongamos, además, que se estudian 100 artı́culos y se encuen-
tran 12 defectuosos. Es razonable concluir que esta evidencia no refuta la hipótesis de
que p = 0.10, y entonces esto puede conducir a su aceptación. Sin embargo, tampoco
rebate que p = 0.12 o tal vez, incluso, que p = 0.15. Por tanto, debemos acostumbrarnos
a entender que la aceptación de una hipótesis implica tan sólo que los datos no
proporcionan evidencia suficiente para rechazarla. Por otra parte, el rechazo
de una hipótesis implica que la evidencia de la muestra la refuta. Dicho de otra
forma, el rechazo de una hipótesis significa que la probabilidad de que dicha
hipótesis sea cierta es muy pequeña. Por ejemplo, en la hipótesis de proporción de
defectos, de una muestra de 100 artı́culos, 20 son defectuosos. Esto es una evidencia para
rechazar la hipótesis, pues si en realidad fuese p = 0.10, la probabilidad de obtener 20 o
más artı́culos defectuosos es aproximadamente 0.0035. Con el pequeño riesgo de llegar a
una conclusión equivocada, parece lógico rechazar la hipótesis de que p = 0.10.
Generalmente, en este tipo de problemas, si queremos respaldar un argumento, lo
que debemos intentar es rechazar el argumento contrario. Es decir, si queremos mostrar
una evidencia contundente a favor del argumento de que tomar café aumenta el riesgo de
15 Contraste de hipótesis 199

infarto, la hipótesis a probar debe ser de la forma “no hay aumento en el riesgo de infarto
al tomar café”. Como resultado, el argumento se alcanza vı́a rechazo. De igual forma, para
respaldar la afirmación de que un tipo de medidor es más preciso que otro, se prueba con
la hipótesis de que no hay diferencia en la exactitud de los dos tipos de medidores.

15.2. Las hipótesis nula y alternativa


La estructura de la prueba de hipótesis se formula utilizando el término Hipótesis
Nula. Esto se refiere a cualquier hipótesis que se desee probar, y se representa por H0 .
El rechazo de H0 da como resultado la aceptación de una Hipótesis Alternativa, que se
representa por H1 .
Una hipótesis nula referente a un parámetro poblacional debe ser establecida de tal
forma que especifique un valor exacto del parámetro, mientras que la hipótesis alternativa
admite la posibilidad de varios valores. De aquı́ que, si H0 es la hipótesis nula p = 0.5 para
una población binomial, la hipótesis alternativa, H1 , serı́a una de las siguientes: p > 0.5,
p < 0.5 ó p 6= 0.5.
Una hipótesis como la hipótesis nula anterior, p = 0.5, que especifica un valor
exacto del parámetro se denomina simple, mientras que una hipótesis como cualquiera
de las hipótesis alternativas anteriores que no especifican un valor exacto del parámetro
se denomina compuesta. Conviene observar que, según lo dicho anteriormente no hay
diferencia entre el test H0 : p = 0.5 ; H1 : p > 0.5 y el test H0 : p ≤ 0.5 ; H1 : p > 0.5.
En ambos, aceptar H0 significa que no hay evidencia suficiente para creer que p > 0.5
y por tanto que H1 sea cierta. Rechazar la hipótesis nula significarı́a, por el contrario,
que la proporción p es superior a 0.5. Ası́, por simplicidad, la hipótesis nula se toma
siempre simple.
La hipótesis alternativa se clasifica como unilateral si conocemos en qué dirección
puede ser falsa H0 (los casos H1 : p > 0.5 ó H1 : p < 0.5) y bilateral si no podemos saber
la dirección (H1 : p 6= 0.5)
Para aclarar un poco los conceptos anteriormente expuestos, consideremos el siguien-
te ejemplo. Se sabe que, pasados 2 años, cierto tipo de vacuna es eficaz sólo en un 25 % de
los casos. Para verificar si una vacuna nueva y algo más cara es mejor que la anterior para
proporcionar protección contra el mismo virus durante un periodo más largo, se inyecta
en 20 personas elegidas al azar. Si más de 8 de los que recibieron la nueva vacuna superan
el periodo de 2 años sin contraer el virus, la nueva vacuna se considerará mejor que la
que se utiliza actualmente. El requisito de que el número exceda de 8 es algo arbitrario,
200 Estadı́stica

pero parece razonable en el sentido de que representa una pequeña ganancia respecto a
las 5 personas que podrı́a esperarse recibieran protección contra el virus, pasados 2 años,
si a las 20 personas se les hubiera inyectado la vacuna antigua. La hipótesis alternativa
es la de que la nueva vacuna es mejor que la antigua. Esto equivale a probar la hipótesis
de que el parámetro binomial para la probabilidad de un éxito en un intento es p = 1/4,
contra la alternativa de que p > 1/4. Por lo general, esto se escribe como sigue:

H0 : p = 1/4
H1 : p > 1/4
Recordemos que, en realidad, queremos rechazar la hipótesis nula de que las dos
vacunas son iguales. El estadı́stico de prueba sobre el cual se basa la decisión es X,
la cantidad de individuos en el grupo de prueba que reciben protección contra el virus
con la nueva vacuna, para un periodo de al menos 2 años, es decir X ≡ B(20, p). Los
posibles valores de X, de 0 a 20, se dividen en dos grupos: aquellos valores menores o
iguales que 8, y los que son mayores que 8. Todos los posibles valores mayores que 8
constituyen la llamada Región Crı́tica o de Rechazo, y todos los valores menores o iguales
que 8 constituyen la Región de Aceptación. El último valor que se tiene en la región de
aceptación antes de pasar a la región crı́tica (en este caso el 8), recibe el nombre de Valor
Crı́tico. Por tanto, si x > 8, se rechaza H0 en favor de la hipótesis alternativa H1 . Si x ≤ 8
se acepta H0 , siendo x el valor de X observado en la muestra.
El procedimiento de decisión que hemos descrito podrı́a conducir a cualquiera de dos
conclusiones erróneas. Por ejemplo, la nueva vacuna puede no ser mejor que la antigua y, en
particular para el grupo de individuos seleccionados aleatoriamente, más de 8 sobrepasan
el periodo de 2 años sin contraer el virus. Estarı́amos cometiendo el error de rechazar H0
cuando realmente es cierta. De igual forma, podrı́a ocurrir que 8 o menos individuos del
grupo de prueba sobrepasan el periodo de 2 años con éxito, y se concluye que la nueva
vacuna no es mejor, cuando en realidad sı́ lo es. Estarı́amos aceptando H0 , cuando en
realidad es falsa.

• Se dice que se ha cometido un error tipo I, cuando se rechaza la hipótesis nula siendo
ésta verdadera.

• Se dice que se ha cometido un error tipo II, cuando se acepta la hipótesis nula siendo
ésta falsa.

La probabilidad de cometer un error tipo I se llama Nivel de Significación o tamaño


de la región crı́tica, y se representa por α. En ejemplo anterior,
15 Contraste de hipótesis 201

 

α = P (error tipo I) = P Rechazar H0 =
H0 es cierta

  X 20

= P X > 8 = P [B(20, 1/4) = x] = 0.0409
p = 1/4 x=9

Se dice, entonces, que la hipótesis nula, p = 1/4, se está probando con un nivel de
significación de α = 0.0409. Este nivel de significación es bastante pequeño, por tanto,
es poco probable que se cometa un error tipo I. Es decir, es poco probable que más de
8 individuos se mantengan inmunes al virus durante 2 o más años utilizando una nueva
vacuna que, en realidad, es equivalente a la que ya existe en el mercado.
La probabilidad de cometer un error tipo II, representado por β, es imposible de
calcular a no ser que se tenga una hipótesis alternativa especı́fica. Si se prueba la hipótesis
nula de que p = 1/4 en contraposición con la hipótesis alternativa de que p = 1/2, entonces
estamos en condiciones de calcular la probabilidad de aceptar H0 cuando en realidad es
falsa. Simplemente hay que calcular la probabilidad de obtener 8 o menos individuos en
el grupo de prueba que sobrepasen el periodo de 2 años, cuando p = 1/2. Es decir,
 

β = P (error tipo II) = P Aceptar H0 =
H0 es falsa

  X 8


= P X ≤ 8 = P [B(20, 1/2) = x] = 0.2517
p = 1/2 x=0

Ésta es una probabilidad bastante grande, lo que indica un procedimiento de prueba


con el cual es muy probable que se rechace la nueva vacuna cuando, en realidad, es
superior a la que se utiliza en la actualidad. En una situación ideal, serı́a preferible utilizar
un procedimiento con el que ambos tipos de error fuesen pequeños. Siempre es posible
disminuir el valor de β, incrementando el tamaño de la región crı́tica. Por ejemplo, veamos
qué ocurre con α y β cuando tomamos como valor crı́tico 7. Ahora, al probar p = 1/4
contra la hipótesis alternativa de que p = 1/2, se encuentra que
202 Estadı́stica

 

α = P (error tipo I) = P Rechazar H0 =
H0 es cierta

  X20

= P X > 7 = P [B(20, 1/4) = x] = 0.1018
p = 1/4 x=8

 


β = P (error tipo II) = P Aceptar H0 =
H0 es falsa

  X7

= P
X ≤ 7 = P [B(20, 1/2) = x] = 0.1316
p = 1/2 x=0

Al adoptar un nuevo procedimiento de decisión, se reduce la probabilidad de cometer


un error tipo II, a expensas de incrementar la probabilidad de cometer un error tipo I.
Para una muestra de tamaño fijo, la disminución en la probabilidad de un tipo de error
casi siempre resulta en un aumento en la probabilidad del otro tipo de error. Sin embargo,
se puede reducir la probabilidad de cometer ambos tipos de error, aumentando el tamaño
de la muestra. Por ejemplo, supongamos que inyectamos la nueva vacuna a 100 individuos
tomados aleatoriamente. Si más de 36 del grupo de muestra sobrepasan el periodo de 2
años, se rechaza la hipótesis nula de que p = 1/4 y se acepta la hipótesis alternativa de
que p = 1/2.
Para determinar la probabilidad de cometer un error tipo I, utilizamos la aproxima-
ción de la curva normal con
r
1 √ 1 3
µ = np = 100 × = 25 y σ= npq = 100 × × = 4.33
4 4 4
Tipificamos la normal
X −µ 36.5 − 25
Z= = = 2.66
σ 4.33
entonces
 

α = P (error tipo I) = P Rechazar H0 =
H0 es cierta
 

= P X > 36 ≃ P (Z > 2.66) = 0.0039
p = 1/4
Para determinar la probabilidad de cometer un error tipo II, utilizamos de nuevo la
aproximación de la curva normal con
15 Contraste de hipótesis 203

Figura 15.1: Representación esquemática de la probabilidad de cometer errores de tipo I


y II en un contraste de hipótesis.

r
1 √ 1 1
µ = np = 100 × = 50 y σ = npq = 100 × × = 5
2 2 2
Tipificamos la normal
X −µ 36.5 − 50
Z= = = −2.70
σ 5
entonces  

β = P (error tipo II) = P Aceptar H0 =
H0 es falsa
 

= P X ≤ 36 ≃ P (Z < −2.70) = 0.0035
p = 1/2
En la figura 15.1 se muestra un esquema de los errores tipo I y tipo II correspon-
dientes al ejemplo anterior.

15.3. Metodologı́a
Para establecer y realizar un contraste de hipótesis sobre un parámetro poblacional,
θ, se realizan los siguientes pasos:

1. Definir las hipótesis nula H0 y alternativa H1 . Recordamos que la hipótesis nula


siempre la consideramos simple (H0 : θ = θ0 ).

b que permita medir si existe discrepancia entre los


2. Considerar un estadı́stico, Θ,
datos muestrales y la hipótesis H0 . Para ello, es necesario conocer la distribución de
este estadı́stico bajo la suposición de que H0 es cierta.
204 Estadı́stica

3. Definir la región crı́tica del test, es decir, especificar qué valores del estadı́stico consi-
deramos inadmisibles para asumir H0 . Esta especificación se cuantifica en términos
de probabilidades: nos interesa saber cuándo la diferencia entre el valor esperado
del estadı́stico bajo la hipótesis H0 y su valor obtenido para la muestra (lo que se
conoce como “disparo”) es demasiado grande para poder atribuirse al azar.

b y
4. Tomar una muestra, calcular el valor que toma el estadı́stico en la muestra, θ,
tomar una decisión según su valor caiga o no en la región crı́tica.

Lo que debe especificarse al definir un contraste de hipótesis es, por tanto, el es-
tadı́stico que vamos a utilizar y la región crı́tica. En gran parte de los casos, la elección del
estadı́stico o es evidente (la media muestral, por ejemplo, si las hipótesis se refieren al va-
lor medio de una cantidad) o éste resulta ser estándar, y por tanto conocido de antemano
para un determinado tipo de problema (como el estadı́stico de Pearson que estudiaremos
posteriormente en los contrastes de bondad del ajuste).
La elección de la región crı́tica se hace de acuerdo al interés que tengamos en mini-
mizar el error de tipo I. Para reducir la posibilidad de un error de tipo II deberemos jugar
con el tamaño de la muestra.

15.4. Nivel de significación y región crı́tica


Tradicionalmente la región crı́tica de un contraste se determina fijando de antemano
b La región
un nivel de significación α. Supongamos un contraste basado en un estadı́stico Θ.
b que consideramos tan poco probables como
crı́tica será el conjunto de posibles valores de Θ
para rechazar H0 . Llamemos a esta región Dc , de tal modo que rechazaremos H0 si el valor
b obtenido en el muestreo θb ∈ Dc .
de Θ
Recordando la definición del nivel de significación:
 


α = P Rechazar H0
H0 es cierta
Podemos reescribir:
 

α=P b
θ ∈ Dc
H0 es cierta
Recordemos que es posible calcular esta probabilidad ya que conocemos la distri-
b bajo la suposición de que H0 es cierta. Ası́, fijado de antemano
bución del estadı́stico Θ
el nivel de significación α podremos obtener de la ecuación anterior la región crı́tica Dc .
Basta entonces tomar la decisión:
15 Contraste de hipótesis 205

• Si θb ∈ Dc se rechaza la hipótesis H0

• En caso contrario no existe evidencia suficiente que permita rechazar H0 , para el


nivel de significación prefijado.

En general, en este curso vamos a trabajar solo con tres tipos de contrastes, para
los cuales la relación entre el nivel de significación y la región crı́tica es (Fig. 15.2):

• Contraste bilateral

◦ Contraste

H0 : θ = θ0
H1 : θ 6= θ0

◦ Cálculo de la Región Crı́tica

  

α/2 = P b
Θ < a1 =⇒ a1 


θ = θ0 

=⇒ RC = (−∞, a1)∪(a2, +∞)
  



α/2 = P b > a2
Θ =⇒ a2 
θ = θ0

◦ Decisión

Si θb < a1 ó θb > a2 =⇒ Rechazo H0 en favor de H1


Si a1 < θb < a2 =⇒ No Rechazo H0

• Contraste unilateral por la derecha

◦ Contraste

H0 : θ = θ0
H1 : θ > θ0

◦ Cálculo de la Región Crı́tica


 

α = P Θ > a
b =⇒ a =⇒ RC = (a, +∞)
θ = θ0
206 Estadı́stica

◦ Decisión

Si θb > a =⇒ Rechazo H0 en favor de H1


Si θb < a =⇒ No Rechazo H0

• Contraste unilateral por la izquierda

◦ Contraste

H0 : θ = θ0
H1 : θ < θ0

◦ Cálculo de la Región Crı́tica


 

α=P Θb < a =⇒ a =⇒ RC = (−∞, a)
θ = θ0
◦ Decisión

Si θb < a =⇒ Rechazo H0 en favor de H1


Si θb > a =⇒ No Rechazo H0

Este mecanismo basado en la fijación de un nivel de significación no es completa-


mente satisfactorio y, en la actualidad, se prefiere el enfoque basado en lo que se conoce
como Valor-p de un contraste. Antes de definirlo conviene detenerse en las limitaciones
del enfoque anterior.
El resultado del test depende enormemente de la elección del nivel α. Ası́, es posible
rechazar H0 con un α = 0.05 y, sin embargo no hacerlo si α = 0.045. De hecho, con este
enfoque, no queda constancia del grado de evidencia que la muestra indica a favor o en
contra de H0 . En la figura 15.3 se muestran dos disparos que conducirı́an al rechazo de
H0 aunque, claramente, la evidencia de este rechazo es muy distinta.

15.5. Valor-p
b para el que hemos
Supongamos un contraste de hipótesis basado en un estadı́stico Θ
b Se define Valor-p del contraste
obtenido un disparo, o valor estimado en la muestra, de θ.
como:
15 Contraste de hipótesis 207

Figura 15.2: Región crı́tica para un nivel de significación α. (a): contraste bilateral, (b):
contraste unilateral por la derecha, (c): contraste unilateral por la izquierda. En todos los
b cuando H0 es cierta, es decir cuando
casos se ha dibujado la distribución del estadı́stico Θ
θ = θ0
208 Estadı́stica

Rechazo

Figura 15.3: Dos disparos que conducen al rechazo de la hipótesis H0 . Claramente la


evidencia para este rechazo es muy distinta en ambos casos.

 

b b
Valor-p = P |Θ| ≥ θ Contraste bilateral
H0 es cierta
 

Valor-p = P Θb ≥ θb Contraste unilateral por la derecha
H0 es cierta
 

Valor-p = P Θb ≤ θb Contraste unilateral por la izquierda
H0 es cierta

La relación del Valor-p con el nivel de significación es evidente: según el enfoque


anterior, no rechazarı́amos H0 para ningún nivel de significación α menor que el Valor-p.
Habitualmente, el criterio basado en el Valor-p es como sigue:

1. Si Valor-p ≥ 0.2 se considera que no existe evidencia estadı́stica para rechazar la


hipótesis H0 .

2. Si Valor-p ≤ 0.01 se considera que la evidencia es más que suficiente para rechazar
H0 en favor de H1 .

3. Si 0.01 ≤ Valor-p ≤ 0.2 la aceptación o rechazo de H0 dependerá de la confianza


que tengamos a priori en la hipótesis H0 . Normalmente se rechaza H0 si el Valor-p
es menor que 0.1
15 Contraste de hipótesis 209

15.6. Potencia de un contraste


La potencia de un contraste se define en términos de la probabilidad de cometer un
error de tipo II (es decir, aceptar H0 siendo falsa): un test es tanto más potente cuanto
menor sea esta probabilidad.
Ya hemos visto que para calcular la probabilidad de error de tipo II necesitamos
una hipótesis alternativa H1 completamente especificada. Si nuestro contraste se refiere a
algún parámetro poblacional, θ, deberemos especificar su valor.
Se define la función o curva de operación caracterı́stica (O.C.) de un contraste, β(θ),
como (Fig 15.4.a):

   


β(θ) = P (error tipo II) = P Aceptar H0 = P Aceptar H0
H0 es falsa θ

Si el valor de θ se toma como aquel que especifica la hipótesis nula θ0 , β(θ0 ) será la
probabilidad de aceptar H0 cuando ésta es cierta y, por tanto, está relacionada con el
nivel de significación mediante la igualdad:

β(θ0 ) = 1 − α

Para cualquier otro valor de θ se obtiene la probabilidad de error de tipo II si la


hipótesis alternativa H1 especifica dicho valor para el parámetro.
Se define la función o curva de potencia de un contraste como (Fig 15.4.b)

   

P otencia(θ) = 1 − β(θ) = P
Rechazar H0 = P Rechazar H0
H0 es falsa θ

Obsérvese que para dos contrastes con igual nivel de significación, el de mayor po-
tencia es aquel en el que es menos probable cometer un error de tipo II.
Como se ha visto en el ejemplo anterior una posible manera de aumentar la potencia
de un contraste es aumentar el tamaño muestral.

15.7. Contrastes para la media de una población


Vamos a establecer en esta sección una serie de contrastes relacionados con el valor
de la media de una población. Los estadı́sticos que vamos a emplear han sido estudiados
en el capı́tulo dedicado a las distribuciones en el muestreo.
210 Estadı́stica

15.7.1. Varianza conocida


Supongamos una P.M. de media µ y varianza σ conocida. Sabemos que la distribu-
ción en el muestreo del estadı́stico media muestral
n
1X
x̄ = xi
n i=1
es  √ 

 N µ, σ/ n
 si la población madre es normal N(µ, σ) o n ≥ 30
x̄ ≡

 ? (µ, σ/√n )

si la población madre es ? (µ, σ)

15.7.1.1. Población Madre Normal o n ≥ 30

• Contraste bilateral

H0 : µ = µ 0
H1 : µ 6= µ0

Empleando la notación zp para el cuantil 1 − p de una normal estándar N(0, 1) (es


decir, zp es el valor para el que la función de distribución vale p o, dicho de otro
modo, que deja una probabilidad 1 − p a su izquierda) tenemos, para un nivel de
significación α  
x̄ − µ0
P −zα/2 < √ < zα/2 = 1 − α
σ/ n
√ √
y, por tanto, una región de aceptación (µ0 − zα/2 σ/ n, µ0 + zα/2 σ/ n). Tomando el
valor muestral de x̄ rechazaremos H0 si obtenemos un valor fuera de este intervalo
y deberemos aceptarla en caso contrario. El nivel crı́tico del test, o Valor-p, será
 
x̄ − µ0
Valor-p = P |N(0, 1)| > √
σ/ n

• Contraste unilateral por la derecha

H0 : µ = µ 0
H1 : µ > µ 0

El contraste es completamente análogo al anterior salvo que ahora la región de


aceptación no está limitada por la izquierda. Tenemos ahora que
 
x̄ − µ0
P √ < zα = 1 − α
σ/ n
15 Contraste de hipótesis 211


y, por tanto, una región de aceptación (−∞, µ0 + zα σ/ n). El nivel crı́tico del test,
o Valor-p, será ahora
 
x̄ − µ0
Valor-p = P N(0, 1) > √
σ/ n

• Contraste unilateral por la izquierda

H0 : µ = µ 0
H1 : µ < µ 0
 
x̄ − µ0
P √ > −zα = 1 − α
σ/ n

y la región de aceptación es (µ0 − zα σ/ n, +∞). El nivel crı́tico del test, o Valor-p,
será ahora  
x̄ − µ0
Valor-p = P N(0, 1) < √
σ/ n

En ambos casos (prueba bilateral o unilateral), el tamaño de la muestra n puede


fijarse con alguna suposición añadida. Lo más habitual es obligar a que, dada una hipótesis
alternativa determinada H1 : µ = µ0 + δ, el error de tipo II sea menor que una cantidad
prefijada.
Es fácil demostrar que se obtiene una potencia 1 − β para un tamaño muestral


 (zα + zβ )2 σ 2

 si la prueba es unilateral
 δ2
n∼



 (z + zβ )2 σ 2
 α/2 si la prueba es bilateral
δ2

15.7.2. Varianza desconocida

15.7.2.1. Población Madre Normal

En el caso de que desconozcamos la varianza de la población madre, pero ésta sea


N(µ, σ), hemos visto que
x̄ − µ
√ ≡ tn−1
s/ n
siendo tn−1 una variable t de Student con n − 1 grados de libertad.

• Contraste bilateral
212 Estadı́stica

H0 : µ = µ 0
H1 : µ 6= µ0
Empleando la notación tp para el cuantil 1 − p de una t de Student con n-1 grados
de libertad tn−1 tenemos, para un nivel de significación α
 
x̄ − µ0
P −tα/2 < √ < tα/2 = 1 − α
s/ n
√ √
y, por tanto, una región de aceptación (µ0 − tα/2 s/ n, µ0 + tα/2 s/ n). Tomando el
valor muestral de x̄ rechazaremos H0 si obtenemos un valor fuera de este intervalo
y deberemos aceptarla en caso contrario. El nivel crı́tico del test, o Valor-p, será

 
x̄ − µ0
Valor-p = P |tn−1 | > √
s/ n
• Contraste unilateral por la derecha

H0 : µ = µ 0
H1 : µ > µ 0
Tenemos ahora que  
x̄ − µ0
P √ < tα = 1 − α
s/ n

y, por tanto, una región de aceptación (−∞, µ0 + tα s/ n). El nivel crı́tico del test,
o Valor-p, será ahora

 
x̄ − µ0
Valor-p = P tn−1 > √
s/ n
• Contraste unilateral por la izquierda

H0 : µ = µ 0
H1 : µ < µ 0
Tenemos ahora que  
x̄ − µ0
P √ > −tα = 1 − α
s/ n

y, por tanto, una región de aceptación (µ0 − tα s/ n, +∞). El nivel crı́tico del test,
o Valor-p, será ahora

 
x̄ − µ0
Valor-p = P tn−1 < √
s/ n
15 Contraste de hipótesis 213

15.7.2.2. Población Madre no Normal

Incluso en el caso de que la población madre no sea normal, en virtud del teorema
central del lı́mite, para valores grandes de n (n > 30) podemos utilizar la aproximación
x̄ − µ ∼
√ = N(0, 1)
s/ n

15.8. Comparación de medias


A partir de esta sección no seremos exhaustivos en la presentación de los contrastes,
sino que nos limitaremos a considerar el estadı́stico más apropiado y su distribución. El
mecanismo para construir el contraste a partir de esta información es siempre igual.
Sean dos muestras de tamaños n y m sacadas de dos poblaciones normales con
medias µx y µy y varianzas σx y σy respectivamente. La hipótesis nula del contraste será

H0 : µ x − µ y = d 0

15.8.1. Varianzas conocidas


El estadı́stico relevante es

(x̄ − ȳ) − (µx − µy )


r ≡ N (0, 1)
σx2 σy2
+
n m

15.8.2. Varianzas desconocidas e iguales

(x̄ − ȳ) − (µx − µy )


s r ≡ tn+m−2
2 2
(n − 1)sx + (m − 1)sy 1 1
+
n+m−2 n m

15.8.3. Varianzas desconocidas y distintas

(x̄ − ȳ) − (µx − µy ) ∼


r = tγ
s2x s2y
+
n m
donde,
214 Estadı́stica

(A + B)2 s2x s2y


γ= A= , B=
A2 B2 n m
+
n−1 m−1

15.8.4. Muestras apareadas


El anterior enfoque para la comparación de medias no es completamente satisfacto-
rio. En algunos casos podemos sospechar que las muestras tomadas independientemente
de las dos poblaciones no han sido hechas bajo las mismas condiciones, lo que falsearı́a
el resultado del contraste. ésto es especialmente relevante si la poblaciones presentan una
gran variabilidad, lo que suele ser indicativo de que existen muchos factores que pueden
influir en sus parámetros.
Una manera de evitar este problema es tomar, si se puede, muestras apareadas:
medidas realizadas por pares en situaciones lo más semejantes posibles. Por ejemplo, para
medir la eficacia de dos marcas de neumáticos conviene tomar medidas de los neumáticos
montados sobre el mismo vehı́culo, con lo que eliminaremos la variabilidad debida a los
distintos conductores, amortiguadores, mecánica etc.
En un proceso de medida apareado obtenemos n pares de valores x1,i , x2,i referidos
a las dos poblaciones 1 y 2. Se toma el valor yi = x1,i − x2,i del estadı́stico diferencia D̄.
Si µD̄ y sD̄ son su media y desviación muestral respectivamente, el estadı́stico

D̄ − µD̄
T = √ ≡ tn−1
sD̄ / n

La hipótesis nula para este contraste se reduce a

H0 : µD̄ = d0

En la tabla 15.1 se encuentra un esquema de los contrastes relativos a medias

15.9. Pruebas sobre proporciones


El número de elementos de una población que presentan una determinada carac-
terı́stica sigue una distribución binomial, como sabemos. Si X es una variable binomial
B(n, p), la proporción de elementos de la población que presentan la caracterı́stica desea-
da será su valor medio dividido por n. Para n grande, la variable binomial se aproxima a
una normal, por lo que salvo en el caso de poblaciones pequeñas (n < 30) los contrastes
de proporciones son análogos a los referidos a las medias de una población.
15 Contraste de hipótesis 215

En el caso de poblaciones pequeñas se procede como en el ejemplo que abre este


capı́tulo, manejando directamente el estadı́stico media de una variable binomial.

15.9.1. Diferencia de dos proporciones


Si tenemos dos poblaciones y queremos medir si la diferencia de proporciones p1 − p2
de una caracterı́stica determinada en ellas es 0 se emplea el estadı́stico

pb1 − pb2
Z=p ∼ N(0, 1)
pe(1 − pe)(1/n1 + 1/n2 )
donde
x1 + x2
pe =
n1 + n2
siendo x1 y x2 el número de elementos de cada muestra que presentan la caracterı́stica.

15.10. Pruebas sobre varianzas

15.10.1. Una población


Tomando una muestra de tamaño n de una población madre normal de varianza σ 2 ,
se cumple para la varianza muestral s2

(n − 1)s2
≡ χ2n−1
σ2

15.10.2. Comparación de varianzas


Dadas dos muestras de tamaños n y m de dos poblaciones normales de varianzas σx
y σy respectivamente

s2x /σx2
≡ Fn−1,m−1
s2y /σy2
siendo s2x y s2y la varianza muestral de cada población.
216 Estadı́stica

Figura 15.4: Dada la hipótesis nula H0 : p = 1/4. Curva de operación caracterı́stica para
las hipótesis alternativas (a1) H1 : p 6= 1/4; (a2) H1 : p > 1/4; (a3) H1 : p < 1/4. Curva
de potencia para las hipótesis alternativas (b1) H1 : p 6= 1/4; (b2) H1 : p > 1/4; (b3)
H1 : p < 1/4
15 Contraste de hipótesis 217

Cuadro 15.1: Pruebas relativas a medias

H0 Valor del estadı́stico de prueba H1 Región crı́tica


µ < µ0 z < −zα
x̄ − µ0
µ = µ0 z= √ ; σ conocida µ > µ0 z > zα
σ/ n
µ 6= µ0 |z| > zα/2
µ < µ0 t < −tα
x̄ − µ0
µ = µ0 t= √ ; ν =n−1 µ > µ0 t > tα
s/ n
σ desconocida µ 6= µ0 |t| > tα/2
µ1 − µ2 < d0 z < −zα
(x̄1 − x̄2 ) − d0
µ1 − µ2 = d0 z=p µ1 − µ2 > d0 z > zα
(σ12 /n1 ) + (σ22 /n2 )
σ1 y σ2 conocidas µ1 − µ2 6= d0 |z| > zα/2
(x̄1 − x̄2 ) − d0
t= p µ1 − µ2 < d0 t < −tα
sp (1/n1 ) + (1/n2 )

µ1 − µ2 = d0 ν = n1 + n2 − 2, σ1 = σ2 µ1 − µ2 > d0 t > tα
pero desconocida,

(n1 − 1)s21 + (n2 − 1)s22


s2p = µ1 − µ2 6= d0 |t| > tα/2
n1 + n2 − 2

(x̄1 − x̄2 ) − d0
t= p 2 µ1 − µ2 < d0 t < −tα
(s1 /n1 ) + (s22 /n2 )

(s21 /n1 + s22 /n2 )2


µ1 − µ2 = d0 ν= µ1 − µ2 > d0 t > tα
(s21 /n1 )2 (s22 /n2 )2
+
n1 − 1 n2 − 1

σ1 6= σ2 y desconocidas µ1 − µ2 6= d0 |t| > tα/2

µD < d0 t < −tα


d¯ − d0
µD = d0 t= √ ; ν =n−1 µD > d0 t > tα
sd / n
observaciones apareadas µD 6= d0 |t| > tα/2
218 Estadı́stica
Contrastes
16 no paramétricos

Índice
16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . 221
16.1.1.1. Hipótesis simple . . . . . . . . . . . . . . . . . . . . . 221
16.1.1.2. Hipótesis compuesta . . . . . . . . . . . . . . . . . . . 221
16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . 222
16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . 223
16.2. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . 223
16.3. Otros contrastes no paramétricos . . . . . . . . . . . . . . . . . 224
16.3.1. Contrastes de posición . . . . . . . . . . . . . . . . . . . . . . . 224
16.3.1.1. Test de los signos . . . . . . . . . . . . . . . . . . . . 225
16.3.1.2. Test de Wilcoxon de los rangos signados . . . . . . . . 226
16.3.1.3. Test de la mediana . . . . . . . . . . . . . . . . . . . . 227
16.3.1.4. Test de Mann-Whitney . . . . . . . . . . . . . . . . . 227
16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . 228
16.3.2.1. Test τ de Kendall . . . . . . . . . . . . . . . . . . . . 228
16.3.2.2. Test del coeficiente de correlación entre rangos o test
de Spearman . . . . . . . . . . . . . . . . . . . . . . . 229
16.3.2.3. Test de rachas . . . . . . . . . . . . . . . . . . . . . . 229
16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

219
220 Estadı́stica

En el capı́tulo anterior hemos manejado contrastes paramétricos, es decir, aquellos


en los que se estudia la veracidad de hipótesis acerca de los parámetros de los que depende
la distribución de una población. En muchas otras ocasiones es necesario emitir un juicio
sobre la distribución poblacional en su conjunto. Los problemas más habituales que suelen
plantearse son los siguientes:

• Decidir, a la vista de una muestra aleatoria de una población, si puede admitirse


que ésta sigue una cierta distribución dada N(0,1), Poisson(5), etc.) o bien perte-
nece a un cierto tipo de distribuciones (es normal, exponencial, geométrica, etc.).
Los contrastes que dilucidan esta cuestión se denominan de bondad del ajuste.

• Analizar si varias muestras aleatorias provienen de poblaciones con la misma dis-


tribución teórica, de forma que puedan utilizarse conjuntamente para inferencias
posteriores sobre ésta o si, por el contrario, son muestras de poblaciones con
distinta distribución. Es el problema de la homogeneidad de varias muestras.

• Estudiar, en el caso de que se observen dos o más caracterı́sticas de los elementos


de la población (de forma que la distribución teórica no sea unidimensional) si las
caracterı́sticas observadas pueden ser consideradas independientes y proceder a
su análisis por separado o, por el contrario, existe relación estadı́stica entre ellas.

Cualquiera de estos problemas se denominan no paramétricos ya que no se trata de


decidir entre distribuciones Fθ que sólo se diferencian en el valor del parámetro θ. Ası́, por
ejemplo, si queremos probar una hipótesis nula como que la distribución es Exp(λ = 5)
la hipótesis alternativa contiene a todas las distribuciones continuas y no sólo a las
exponenciales con otro valor de su parámetro λ.

16.1. Contraste χ2
Reciben este nombre los contrastes basados en el estadı́stico de Pearson. Omitiremos
la justificación teórica, algo complicada, del proceder para su cálculo ası́ como de la
obtención de su distribución.
16 Contrastes no paramétricos 221

16.1.1. Prueba de bondad del ajuste

16.1.1.1. Hipótesis simple

Supongamos una muestra aleatoria simple de tamaño n de una distribución desco-


nocida F . Tratamos de contrastar si puede aceptarse la hipótesis H0 : F = F0 , donde F0
es una distribución conocida completamente especificada, es decir, de la que conoce-
mos todos y cada uno de los parámetros de los que depende (la media y la desviación en
el caso de una normal, el valor del parámetro λ en el caso de una exponencial, etc.). El
procedimiento a seguir es el siguiente:

1. Se divide el recorrido de la distribución poblacional en k conjuntos disjuntos o clases:


A1 , A2 , · · · , Ak

2. Se calcula el número ni de elementos de la muestra observados en cada clase Ai .

3. Se calcula el número ni,esp de elementos esperados en cada clase si la hipótesis H0


es cierta. Para ello, basta multiplicar la probabilidad que la distribución F0 asigna
a cada clase por el número de elementos de la muestra.
IMPORTANTE. Sólo puede realizarse el contraste si cada uno de los ni,esp es
mayor o igual a 5. En caso contrario, se unen varias clases Aj hasta conseguirlo. En
lo que sigue supondremos que el número de clases k en las que hemos descompuesto
el recorrido de la distribución teórica es el resultado de esta operación: entre las k
clases no hay ninguna con ni,esp < 5.

4. Se realiza el test empleando el estadı́stico de Pearson:

k
X (ni − ni,esp )2
D=
i=1
ni,esp

que, en las condiciones antes citadas, sigue una distribución χ2 con k − 1 grados de
libertad. (La región crı́tica es de la forma D > c).

16.1.1.2. Hipótesis compuesta

Supongamos ahora (lo que suele ser más habitual) que la hipótesis a contrastar espe-
cifica una familia de distribuciones de forma funcional dada pero dependiente de algunos
parámetros no especificados (por ejemplo, suponemos que nuestra población es normal
de media 1 pero desconocemos la desviación o, suponiendo que es normal, no conocemos
222 Estadı́stica

ni la media ni la desviación, etc.). En este sentido se dice que la hipótesis nula es ahora
compuesta pues unifica varias hipótesis simultáneamente. Una posibilidad para resolver
el problema es tomar varias muestras: con las primeras estimamos los parámetros y con
la última realizamos el contraste χ2 anterior. Sin embargo, es posible (y más conveniente
en muchos casos) realizar el estudio empleando una única muestra. El procedimiento a
seguir en este segundo caso es:

1. Se estiman los parámetros a partir de la muestra empleando el criterio de máxi-


ma verosimilitud.

2. Se repite el proceso anterior con la salvedad de que ahora la distribución del es-
tadı́stico D de Pearson es una χ2 con k − 1 − ν grados de libertad, siendo ν el
número de parámetros que hemos estimado.

16.1.2. Prueba de homogeneidad


Supongamos que se dispone de m muestras aleatorias simples de otras tantas pobla-
ciones cuyos tamaños son, respectivamente, n1 , n2 , · · ·, nm . A partir de estos datos se desea
decidir si la distribución poblacional es la misma en todos los casos y, por consiguiente,
se dispone de una muestra de tamaño n = n1 + n2 + · · · + nm de una única distribución
o, por el contrario, se trata de poblaciones heterogéneas con diferentes distribuciones.
Nuevamente, el conjunto de posibles valores de las observaciones se divide en k clases
disjuntas: A1 , A2 , · · ·, Ak . Si llamamos nij al número de observaciones de la muestra i
que pertenecen a la clase Aj podemos construir la siguiente tabla de contingencia:

Muestra A1 A2 ··· Ak Total


1 n11 n12 ··· n1k n1
2 n21 n22 ··· n2k n2
.. .. .. .. .. ..
. . . . . .
m nm1 nm2 · · · nmk nm
Total n·1 n·2 ··· n·k n
donde ni es la suma de los elementos de la fila i y n·j es la suma de la columna j.
El contraste se realiza recurriendo al estadı́stico

Xm X k
(nij − ni n·j /n)2
D=
i=1 j=1
ni n·j /n
que sigue una distribución χ2 con (m − 1)(k − 1) grados de libertad.
16 Contrastes no paramétricos 223

16.1.3. Prueba de independencia


Supongamos que de n elementos de una población se han observado dos caracterı́sti-
cas X e Y , obteniéndose una muestra aleatoria simple bidimensional (x1 , y1 ), (x2 , y2),
· · ·,(xn , yn ). Sobre la base de dichas observaciones se desea contrastar si las caracterı́sticas
poblacionales X e Y son independientes o no.
Para ello se divide el conjunto de posibles valores de X en k clases disjuntas A1 ,
A2 , · · ·, Ak y los de Y en r clases disjuntas B1 , B2 , · · ·, Br . Al clasificar los elementos
de la muestra aparecerá un cierto número de ellos , nij , en cada una de las k × r clases
constituidas, dando lugar a una tabla de contingencia de la forma:

B1 B2 ··· Br Total
A1 n11 n12 ··· n1r n1·
A2 n21 n22 ··· n2r n2·
.. .. .. .. .. ..
. . . . . .
Ak nk1 nk2 · · · nkr nk·
Total n·1 n·2 ··· n·r n

El contraste se realiza mediante el estadı́stico

Xk X r
(nij − ni· n·j /n)2
D=
i=1 j=1
ni· n·j /n
que sigue una distribución χ2 con kr − 1 grados de libertad.
Tanto en este caso como en el anterior la región crı́tica del test es de la forma D > c.

16.2. Contraste de Kolmogorov-Smirnov


El contraste K-S es una contraste de bondad del ajuste válido únicamente para
distribuciones continuas. No es conveniente su uso cuando hay que estimar parámetros ya
que la distribución del estadı́stico es entonces sólo aproximada. La hipótesis nula de este
contraste es que la muestra proviene de una distribución continua F0 (x). El procedimiento
para construir el contraste es:

1. Se ordenan los n valores muestrales de forma que

x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn
224 Estadı́stica

2. Se calcula la función de distribución empı́rica de la muestra , Fn (x), con:



 0 x < x1





 r
Fn (x) = xr ≤ x ≤ xr + 1

 n






1 x ≥ xn

3. Se calcula la discrepancia máxima entre la función de distribución empı́rica y la


teórica F0 (x) con el estadı́stico

∆n = máx |Fn (x) − F0 (x)|

cuya distribución es conocida y está tabulada según los valores de n.

Para realizar correctamente el contraste hay que calcular para cada punto muestral
xh el valor
∆n (xh ) = máx{|Fn (xh−1 ) − F0 (xh )| , |Fn (xh ) − F0 (xh )|}

El máximo de los n valores ası́ obtenidos es el estadı́stico ∆n de Kolmogorov-


Smirnov. La región crı́tica del test es de la forma ∆n > c.

16.3. Otros contrastes no paramétricos

16.3.1. Contrastes de posición


En ocasiones sólo nos interesa conocer, de una población desconocida, su posición
sobre la recta real, porque se da por supuesto que las condiciones en que se observa el
fenómeno sólo pueden trasladar la distribución sin deformarla. Ejemplos de este tipo de
situaciones pueden ser:

1. Una empresa cambia su horario de entrada, adelantándolo media hora, y se pregunta


si ello habrá afectado a los retrasos de sus empleados. Los datos son aleatorios,
variando de dı́a en dı́a y de un empleado a otro, pero es aceptable pensar que la
forma de su distribución no ha variado; el temor es que se haya desplazado hacia la
derecha, incrementándose el tiempo perdido.
16 Contrastes no paramétricos 225

2. Una comunidad ha modificado la procedencia del agua para consumo doméstico.


Tras cierto tiempo, quiere comprobar si ello ha afectado a la concentración de sodio
en la sangre de sus habitantes, en el sentido de que la distribución de dicha con-
centración se haya trasladado hacia uno u otro lado, mientras que la forma de la
distribución se supone que no habrá variado apenas.

3. Se desea saber si las ventas en dos establecimientos de la misma cadena son análogas.
Presumiblemente la forma de la distribución de las ventas diarias será similar para
ambas, ası́ que el objetivo es detectar si una está desplazada respecto a la otra.

Si no puede suponerse la normalidad de la población madre (ya que entonces lo


adecuado es aplicar los contrastes paramétricos sobre la media de una normal) es posible
abordar el problema de la posición de la distribución usando la mediana muestral.

16.3.1.1. Test de los signos

Tenemos una distribución continua desconocida F cuya mediana será Me. Probare-
mos a contrastar la hipótesis nula

H0 : Me = m0

frente a alguna de las alternativas Me < m0 , Me > m0 ó Me 6= m0 . El estadı́stico que se


emplea es

T = { Número de observaciones muestrales mayores que m0 }

que, si H0 es correcta, tiene una distribución binomial B(n, 1/2), siendo n el tamaño de
la muestra.
S
La región crı́tica será de la forma {T ≤ k}, {T ≥ k} ó {T ≤ k} {T ≥ n − k},
según sea la hipótesis alternativa una de las reseñadas arriba, y donde k puede fijarse
determinando un nivel crı́tico α.

• Si el tamaño muestral es apreciable (n > 20) puede aproximarse la distribución


binomial por la normal correspondiente.

• Según la hipótesis de continuidad de la distribución no deberı́an obtenerse valores


muestrales coincidentes con la mediana. En la práctica ésto puede ocurrir, siendo
aconsejable excluir tales valores, disminuyendo consecuentemente el tamaño de la
muestra.
226 Estadı́stica

• Es fácil generalizar este contraste para cualquier otro cuantil, cambiando el paráme-
tro p de la binomial.

• Si tenemos datos apareados se puede aplicar el contraste a la diferencia de los


datos, siendo entonces m0 = 0. Este procedimiento nos dirá si la mediana de las dos
muestras es igual o no.

16.3.1.2. Test de Wilcoxon de los rangos signados

En el caso en que sepamos que la distribución poblacional, además de continua, es


simétrica puede mejorarse el contraste anterior de la siguiente manera.
Si Di = xi − m0 son las diferencias entre las observaciones muestrales y el valor a
contrastar para Me, se ordenan, en orden creciente, los valores absolutos |Di | y se anota
el rango (o lugar) r (|Di |) que cada uno ocupa en dicha ordenación. El estadı́stico en
que se basa el test es la suma de los rangos de las observaciones mayores que m0 , cuya
distribución, si H0 es cierta, se encuentra tabulada.

X
T+ = r (|Di |)
∀Di >0

• Si el tamaño muestral es apreciable


 (n > 20) la distribución del estadı́stico
 T + puede
p
aproximarse por la normal N n(n + 1)/4, n(n + 1)(2n + 1)/24 . En todo caso,
la distribución de T + es simétrica en torno a n(n + 1)/4

• Igual que antes, según la hipótesis de continuidad de la distribución, no deberı́an


obtenerse valores muestrales coincidentes con la mediana. En la práctica ésto puede
ocurrir, siendo aconsejable excluir tales valores, disminuyendo consecuentemente el
tamaño de la muestra.

• Si tenemos datos apareados se puede aplicar el contraste a la diferencia de los


datos, siendo entonces m0 = 0. Este procedimiento nos dirá si la mediana de las dos
muestras es igual o no.

• Si se conoce la mediana poblacional este test se convierte en una prueba sobre la


hipótesis subyacente de que la distribución es simétrica respecto a la mediana. Ası́,
para tamaños muestrales grandes, para los que la mediana muestral tiende al valor
de la mediana poblacional, puede usarse, sustituyendo m0 por el valor muestral de
la mediana, para contrastar la simetrı́a de la distribución.
16 Contrastes no paramétricos 227

16.3.1.3. Test de la mediana

Los dos tests anteriores se refieren a la mediana de una única población y hacen uso
de una única muestra (en el caso de los datos apareados la población y la muestra que
interesan son las diferencias entre las parejas de datos). Sin embargo, con frecuencia se
plantean situaciones en las cuales hay que comparar dos poblaciones continuas y tratar
de detectar desplazamientos entre ambas distribuciones.
Supongamos, por tanto, dos muestras aleatorias simples: x1 , x2 , · · · , xn e y1 , y2 , · · · , ym
correspondientes a cada población e independientes entre sı́. Si se ordenan conjuntamente
en orden creciente, la mediana z de la muestra combinada es el valor central, en el caso
de que n + m sea impar, y el promedio de los dos valores centrales en el caso de que n + m
sea par. El estadı́stico que se emplea es

T = Número de xi inferiores a z

Si Mex = Mey , es decir, si la hipótesis H0 es cierta, la distribución de T es hiper-


geométrica
! !
p n+m−p
t n−t
P (T = t) = !
n+m
n

 p −m}
donde p es la parte entera de (n+ m)/2 y t puede variar entre max{0,
p
y min{n, p}.

Si n y m son grandes la distribución de T es aproximadamente N n/2, nm/4(n + m) .

16.3.1.4. Test de Mann-Whitney

Este contraste “resuelve.el mismo caso que el anterior: detectar diferencias de posi-
ción entre dos poblaciones continuas de las que tenemos dos muestras aleatorias simples.
El estadı́stico a utilizar es V , calculado como sigue:

1. Se ordenan conjuntamente, igual que en el caso anterior, las dos muestras en orden
creciente.

2. Para cada valor xi correspondiente a la primera muestra (que debe corresponder a


la de tamaño muestral menor) se cuenta el número de valores de la segunda muestra
que hay por debajo de él.

3. V es la suma de los números calculados anteriormente.


228 Estadı́stica

Supongamos, por ejemplo, que al ordenar la muestra el resultado hubiera sido (cada x
representa un valor de la primera muestra y cada y uno de la segunda): xxyyxyyyxxyxxyx,
entonces
V = 0 + 0 + 2 + 5 + 5 + 6 + 6 + 7 = 31

La distribución
 de este estadı́stico se halla
 tabulada. Si n y m son grandes es, aproximada-
p
mente, N nm/2, nm(n + m + 1)/12 . En todo caso, la distribución de V es simétrica
en torno a nm/2.

16.3.2. Contrastes de independencia


Vamos a estudiar algunos contrastes para decidir sobre la independencia de dos
caracterı́sticas poblacionales continuas X e Y cuya distribución conjunta no sea normal
y que no están basados en el contraste χ2 .
En el caso de distribución conjunta normal lo más adecuado es realizar un contraste
paramétrico sobre el coeficiente de correlación.

16.3.2.1. Test τ de Kendall

Supongamos un conjunto de n observaciones apareadas: (x1 , y1 ), (x2 , y2), · · ·, (xn , yn ).


Para calcular el estadı́stico T de Kendall se procede como sigue:

1. Se ordena la muestra según la primera componente, de modo que x1 < x2 < · · · < xn

2. Consideramos ahora la segunda componente de cada par ası́ ordenado y ecribimos


su rango, es decir, el lugar que ocupa respecto del resto de valores de y. Obtenemos
entonces una sucesión de valores r1 , r2 , · · · , rn donde rj ≡ lugar que ocupa la segunda
componente del par i-ésimo en la ordenación de estos valores.

3. Para cada valor de esta sucesión se cuenta cuántos de los valores posteriores a él
son mayores.

4. Se suman los números ası́ obtenidos. Llamemos P a su valor.


4P
5. T = −1
n(n − 1)
La distribución de T está tabulada y para n > 10 es aproximadamente
s !
2(2n + 5)
N 0,
9n(n − 1)

La región crı́tica de este contraste es de la forma {|T | > k}


16 Contrastes no paramétricos 229

16.3.2.2. Test del coeficiente de correlación entre rangos o test de Spearman

Supongamos de nuevo una muestra apareada de valores (xi , yi ). Este contraste


está basado en el estadı́stico de Spearman, RS , que se calcula como sigue:

1. Se ordena la muestra según los valores de la primera componente (en orden creciente
de ésta).

2. Consideramos de nuevo el rango, rj , que corresponde al valor de la segunda compo-


nente y que ocupa el lugar j-ésimo de esta ordenación.
n
X
3. Calculamos U = (rj − j)2
j=1

6U
4. RS = 1 −
n(n2 − 1)
La distribución de RS está tabulada y para n > 10 es aproximadamente
 
1
N 0, √
n−1

16.3.2.3. Test de rachas

Un problema de independencia distinto de los anteriores se plantea cuando existen


dudas acerca de que una muestra sea realmente aleatoria simple, es decir, que las sucesivas
observaciones hayan sido efectuadas independientemente. Condiciones de muestreo sin las
debidas garantı́as de aleatoriedad pueden afectar a la independencia de las observaciones
y dar al traste con la aplicación de todos los métodos basados en el muestreo aleatorio
simple.
Supongamos una variable que sólo puede tomar dos valores (digamos 0 y 1). Al
tomar una muestrta obtendremos sucesiones de la forma 0001101011110001.
Se llama racha a cada uno de los conjuntos de ceros consecutivos que se observan
hasta llegar a un 1 y a cada uno de los conjuntos de unos consecutivos que se observan
hasta llegar a un 0. La muestra anterior, por ejemplo, tiene 8 rachas.
Si R es el número de rachas en una muestra que tiene n ceros y m unos (y por tanto
tamaño n + m) puede demostrarse que si la muestra es aleatoria
! !
n−1 m−1
r−1 r−1
P (R = 2r) = 2 !
n+m
n
230 Estadı́stica

! ! ! !
n−1 m−1 n−1 m−1
+
r−1 r r r−1
P (R = 2r + 1) = !
n+m
n
con r ≤ min{n, m}.
Si n y m son grandes (superiores a 10) puede tomarse como distribución de R
s !
2nm 2nm(2nm − n − m)
N + 1,
(n + m) (n + m)2 (n + m − 1
S
La región crı́tica de este contraste es de la forma {R < k1 } {R > k2 }.

16.4. Ejemplos

Ejemplo 1

Se ha estimado que el número de accidentes diarios en una determinada carretera


sigue una distribución de Poisson de parámetro 2. Durante 200 dı́as se han recogido los
siguientes datos:

n◦ de accidentes 0 1 2 3 4 5 6 7
n◦ de dı́as 22 53 58 39 20 5 2 1

con los que se quiere contrastar si se ajusta a la distribución indicada. Si la hipótesis es


cierta se espera un número de dı́as igual a 200 veces la probabilidad de que una Poisson
de parámetro 2 valga 0, 1, 2, 3, 4, 5, 6 ó 7:
Los valores esperados son:

n◦ de accidentes 0 1 2 3 4 ≥5
n◦ esperado de dı́as 27.06 54.14 54.14 36.08 18.04 10.54

donde se han agrupado las categorı́as correspondientes a 5 o más accidentes para satisfacer
la condición de que el número esperado en cada categorı́a sea mayor o igual a 5.
El estadı́stico D de Pearson vale

5
X X5
(ni − ni,esp)2 n2i 222 532 82
D= = −n + = + +···+ − 200 = 2.307
i=0
ni,esp n
i=0 i,esp
27.06 54.14 10.54
16 Contrastes no paramétricos 231

cuya distribución, si la hipótesis es correcta, es aproximadamente χ2 con 5 grados de


libertad. Por ejemplo, P (χ25 > 7.29) = 0.2, de modo que sólamente un valor de D superior
a 7.29 permitirı́a, con nivel de significación 0.2, afirmar que la distribución de accidentes
no es una Poisson de parámetro 2. El valor p del contraste realizado es superior a 0.7.
232 Estadı́stica

Ejemplo 2

Una máquina, en correcto estado de funcionamiento, fabrica piezas cuya longitud


se distribuye según una N(10.5; 0.15). En determinado momento se observa la siguiente
muestra, de tamaño 40, de la longitud de las piezas producidas:

10.39 10.66 10.12 10.32 10.25 10.91 10.52 10.83


10.72 10.28 10.35 10.46 10.54 10.72 10.23 10.18
10.62 10.49 10.32 10.61 10.64 10.23 10.29 10.78
10.81 10.39 10.34 10.62 10.75 10.34 10.41 10.81
10.64 10.53 10.31 10.46 10.47 10.43 10.57 10.74

y se desea saber si la muestra avala que la máquina está funcionando correctamente.


Vamos a realizar el contraste de bondad del ajuste de χ2 primero y, posteriormente, el de
Kolmogorov-Smirnov.
Para realizar el contraste χ2 , tomamos 8 intervalos buscando los cuantiles de órdenes
0.125, 0.25, 0.375, · · ·, 0.875, de modo que el número esperado de valores sea 5 en cada
intervalo. La partición resultante es:

Ai ni ni,esp
≤ 10.33 10 5
(10.33, 10.4] 5 5
(10.4, 10.45] 2 5
(10.45, 10.5] 4 5
(10.5, 10.55] 3 5
(10.55, 10.6] 1 5
(10.6, 10.67] 6 5
> 10.67 9 5
Total 40 40

52 + 02 + 32 + 12 + 22 + 42 + 12 + 42
D= = 14.4
5
Si la hipótesis fuera correcta la distribución de D serı́a χ2 con 7 grados de libertad y la
tabla indica que
P (χ27 > 14.4) = 0.0445

Y, por tanto, se puede afirmar con cualquier nivel de significación superior a 0.0445 que
las piezas no siguen la distribución N(10.5; 0.15).
16 Contrastes no paramétricos 233

Para realizar ahora el contraste K-S se construye la siguiente tabla, cuya segunda
columna da el número de observaciones acumuladas hasta el valor muestral, la tercera
la función de distribución muestral (dividiendo por el tamaño de la muestra), la cuarta
la distribución teórica (dada por la hipótesis nula) y las dos siguientes las diferencias: la
quinta de la misma fila y la sexta de cada F0 (xi ) con la de la fila anterior de la distribución
de la muestra.
234 Estadı́stica

xi i Fn (xi ) F0 (xi ) Fn (xi ) − F0 (xi ) Fn (xi−1 ) − F0 (xi )


10.12 1 0.025 0.0056 0.0194 0.0056
10.18 2 0.050 0.0164 0.0336 -0.0086
10.23 4 0.100 0.0359 0.0641 -0.0141
10.25 5 0.125 0.0478 0.0772 -0.0522
10.28 6 0.150 0.0712 0.0788 -0.0538
10.29 7 0.175 0.0807 0.0943 -0.0693
10.31 8 0.200 0.1026 0.0974 -0.0724
10.32 10 0.250 0.1151 0.1349 -0.0849
10.34 12 0.300 0.1431 0.1569 -0.1069
10.35 13 0.325 0.1587 0.1663 -0.1413
10.39 15 0.375 0.2317 0.1433 -0.0933
10.41 16 0.400 0.2743 0.1257 -0.1007
10.43 17 0.425 0.3204 0.1046 -0.0796
10.46 19 0.475 0.3949 0.0801 -0.0301
10.47 20 0.500 0.4207 0.0793 -0.0543
10.49 21 0.525 0.4734 0.0516 -0.0266
10.52 22 0.550 0.5530 -0.0030 0.0280
10.53 23 0.575 0.5793 -0.0043 0.0293
10.54 24 0.600 0.6051 -0.0051 0.0301
10.57 25 0.625 0.6796 -0.0546 0.0796
10.61 26 0.650 0.7683 -0.1183 0.1433
10.62 28 0.700 0.7881 -0.0881 0.1381
10.64 30 0.750 0.8247 -0.0747 0.1247
10.66 31 0.775 0.8569 -0.0819 0.1069
10.72 33 0.825 0.9288 -0.1038 0.1538
10.74 34 0.850 0.9452 -0.0952 0.1202
10.75 35 0.875 0.9522 -0.0772 0.1022
10.78 36 0.900 0.9690 -0.0690 0.0940
10.81 38 0.950 0.9806 -0.0306 0.0806
10.83 39 0.975 0.9861 -0.0111 0.0361
10.91 40 1 0.9969 0.0031 0.0219

La entrada con mayor valor absoluto de la quinta columna es 0.1663 mientras que
la de la sexta es 0.1538. Ası́, el estadı́stico de Kolmogorov-Smirnov vale

∆40 = 0.1663
16 Contrastes no paramétricos 235

y, según la tabla, corresponde a un valor p muy cercano a 0.2 (y desde luego, mayor que
0.1). No hay, por tanto, evidencia según este contraste en contra de la hipótesis nula.
En este ejemplo se comprueba que, a veces, el contraste χ2 detecta diferencias que
el de Kolmogorov-Smirnov no es capaz de detectar.

Ejemplo 3

Hemos deducido del contraste χ2 anterior que la maquina no fabrica piezas tal y como
pensábamos. Sin embargo parece plausible pensar que la distribución de longitudes sigue
siendo normal, sólo que la media y desviación han cambiado. Probemos esta hipótesis.
Lo primero que ha de hacerse es estimar la media y la desviación tı́pica por máxima
verosimilitud. Para una normal, los estimadores de estas cantidades resultan ser la media
y la desviación muestral, obteniéndose para nuestra muestra

µ
b = x̄ = 10.502 σ
b = s = 0.2025

Tratemos de ajustar nuestros datos a una normal con estos parámetros. Tomamos
una partición arbitraria y construimos la tabla

Ai ni ni,esp
≤ 10.3 7 6.37
(10.3, 10.4] 8 5.92
(10.4, 10.5] 6 7.55
(10.5, 10.6] 4 7.59
(10.6, 10.7] 6 6.00
> 10.7 9 6.57

según la cual D = 3.708. Al tener seis intervalos y haber estimado dos parámetros la
distribución de D, si H0 es cierta, es una χ2 con 6 − 1 − 2 = 3 grados de libertad. Como

P (χ23 > 3.708) = 0.295

La muestra no permite ahora rechazar la hipótesis de que la longitud de las piezas fabri-
cadas sigue una distribución normal N(10.502; 0.2025).

Ejemplo 4

Los impactos de 60 bombas volantes sobre la superficie de Londres, considerada


cuadrada, fueron clasificados en 9 zonas obtenidas dividiendo cada lado en tres partes
iguales, con los siguientes resultados
236 Estadı́stica

8 7 3
5 9 11
6 4 7

Los responsables de la defensa querı́an averiguar si las bombas perseguı́an algún


objetivo concreto o se distribuı́an al azar sobre la superficie de la ciudad.
Con distribución uniforme sobre toda la superficie, cada cuadrı́cula tendrı́a probabi-
lidad 1/9 de recibir cada impacto y, por tanto, un número esperado de impactos de 60/9.
El estadı́stico de Person vale ahora
D = 7.5

y su distribución teórica deberı́a ser una χ2 con 8 grados de libertad.

P (χ28 > 7.5) = 0.48

valor que no permite rechazar la hipótesis de uniformidad.

Ejemplo 5

Un modelo genético indica que la distribución de daltónicos se ajusta a las proba-


bilidades

Hombres Mujeres
Normales q/2 q 2 /2 + pq
Daltónicos p/2 p2 /2

siendo p = 1−q la proporción de cromosomas X portadores del daltonismo. Para compro-


bar la teorı́a se examinaron 2000 individuos elegidos al azar con los siguientes resultados

Hombres Mujeres
Normales 894 1015
Daltónicos 81 10

y se desea saber si las observaciones concuerdan con el modelo.


Puesto que q no es conocido habrá que hallar su estimación de máxima verosimilitud.
La muestra observada tiene por verosimilitud

 q 894  81 h   10


2000! 1−q q i1015 (1 − q)2
q 1−
894! 81! 1015! 10! 2 2 2 2
cuyo logaritmo (prescindiendo de los términos independientes de q) es
16 Contrastes no paramétricos 237

894 log q + 81 log (1 − q) + 1015 log q + 1015 log (2 − q) + 20 log (1 − q)

y tiene por derivada respecto a q

1909 101 1015


− −
q 1−q 2−q
La estimación de q es qb = 0.91277 y los números esperados en cada uno de los cuatro
grupos son

Hombres Mujeres
Normales 912.77 992.39
Daltónicos 87.23 7.61

El estadı́stico D = 2.097 debe seguir una distribución χ2 con 2 grados de libertad.


Como

P (χ22 > 2.097) = 0.35

no puede rechazarse la hipótesis nula.

Ejemplo 6

Se quiere estudiar si los distintos grupos sanguı́neos se presentan con las mismas
frecuencias en tres grupos étnicos diferentes. Para ello se analizaron un cierto número de
individuos de cada raza, obteniéndose los resultados siguientes:

Raza 0 A B AB Total
A 32 11 7 2 52
B 47 13 17 9 86
C 23 7 9 6 45
Total 102 31 33 17 183

El estadı́stico D = 4.691 y debe seguir una χ2 con 6 grados de libertad. Como

P (χ26 > 4.691) = 0.584

No podemos rechazar la igualdad de frecuencias.


Esta claro que las cifras de las distintas filas de la tabla anterior no son compa-
rables entre sı́ directamente, puesto que se refieren a diferentes tamaños muestrales. En
porcentajes, los datos se expresan:
238 Estadı́stica

Raza 0 A B AB Total
A 61.54 21.15 13.46 3.85 100
B 54.65 15.12 19.77 10.46 100
C 51.11 15.56 20.00 13.33 100
Total 55.74 16.94 18.03 9.29 100

La simple inspección de esta tabla parece indicar que hay diferencias significativas,
al menos entre el primer grupo étnico y los otros dos. Sin embargo, el contraste nos indica
que estas diferencias son completamente admisibles como debidas al azar y no contradicen,
en absoluto, la hipótesis de igualdad de fercuencia de cada grupo sanguı́neo.

Ejemplo 7

Para comprobar la eficacia del test χ2 de homogeneidad se han simulado dos mues-
tras aleatorias simples, de tamaño 50, de las distribuciones N(0,1) y Cauchy ( de densidad
π −1 (1 + x2 )−1 ), cuya apariencia gráfica es similar. Las muestras obtenidas han sido:

N(0,1) Cauchy
-0.99 1.54 -1.02 0.56 -0.36 -2.15 1.34 -2.98 1.22 0.46
0.31 -0.18 0.41 0.51 -0.44 -0.60 0.58 2.18 -0.63 1.03
-0.28 0.75 0.26 -0.89 1.76 -1.21 7.05 -5.96 1.23 0.77
0.98 -0.46 0.07 0.68 1.11 -16.39 0.03 0.71 -0.56 -0.91
0.39 -0.45 -0.44 1.27 -1.13 0.44 -27.53 0.44 3.77 -0.69
0.21 1.88 2.57 -0.80 -0.16 -0.52 1.24 -1.18 -0.52 0.28
0.89 0.03 0.25 0.58 0.83 -1.24 0.88 0.66 -0.96 0.29
0.31 0.99 0.15 -0.13 -1.56 1.28 1.58 -1.74 28.33 -0.58
-1.24 -0.64 -1.34 -0.99 1.85 0.08 -0.71 -4.07 2.45 1.41
-0.16 0.11 -1.21 -0.21 -0.22 12.89 1.28 1.39 -3.49 -1.42
Podemos clasificar estas muestras en los intervalos
16 Contrastes no paramétricos 239

Aj n1j n2j n·j


(−∞, −2] 0 7 7
(−2, −1.2] 4 4 8
(−1.2, −0.9] 4 3 7
(−0.9, −0.6] 3 4 7
(−0.6, −0.3] 5 4 9
(−0.3, 0] 7 1 8
(0, −0.3] 7 3 10
(0.3, 0.6] 7 4 11
(0.6, 0.9] 4 4 8
(0.9, 1.2] 3 1 4
(1.2, 2] 5 9 14
(2, ∞] 1 6 7
Total 50 50 100

El estadı́stico D toma el valor 20.03 y tiene distribución χ2 con 11 grados de libertad.


Puesto que
P (χ211 > 20.03) = 0.045

se puede rechazar la homogeneidad de ambas muestras con nivel crı́tico 0.045.

Ejemplo 8

Para estudiar si el grupo sanguı́neo tiene relación con la predisposición a padecer


diabetes, se seleccionan al azar 400 sujetos de los que se ha determinado el grupo san-
guı́neo y el nivel de glucosa en idénticas condiciones experimentales. Clasificada la segunda
medida en bajo, medio y alto, los resultados han sido:

Bajo Medio Alto Total


0 137 86 35 258
A 42 23 11 76
B 19 17 7 43
AB 14 7 2 23
Total 212 133 55 400

Con los datos expresados en la tabla se obtiene D = 2.406. Por otra parte, D tiene
distribución χ2 con 6 grados de libertad y

P (χ26 > 2.204) = 0.9


240 Estadı́stica

por lo que no puede concluirse de ninguna manera que haya una relación entre el grupo
sanguı́neo y la diabetes.

Ejemplo 9

Un laboratorio farmacéutico afirma que uno de sus productos confiere inmunidad


contra la picadura de insectos durante un tiempo exponencial de media 2.5 horas. Probado
en 25 sujetos, en un ambiente con gran número de mosquitos, los instantes (en horas) en
que recibieron la primera picadura fueron:

0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.23 0.51


0.74 0.96 1.17 1.46 1.62 2.18 2.25 2.79 3.45
3.83 3.92 4.27 5.43 5.79 5.91 6.34

Construimos, para realizar un contraste K-S, la tabla:

xi i Fn (xi ) F0 (xi ) Fn (xi ) − F0 (xi ) Fn (xi−1 ) − F0 (xi )


0.01 2 0.08 0.004 0.076 0.004
0.02 5 0.20 0.008 0.192 -0.072
0.03 7 0.28 0.012 0.268 -0.188
0.23 8 0.32 0.088 0.232 -0.192
0.51 9 0.36 0.185 0.175 -0.135
0.74 10 0.40 0.256 0.144 -0.104
0.96 11 0.44 0.319 1.121 -0.081
1.17 12 0.48 0.374 0.106 -0.066
1.46 13 0.52 0.442 0.078 -0.038
1.62 14 0.56 0.477 0.083 -0.043
2.18 15 0.60 0.582 0.018 0.022
2.25 16 0.64 0.593 0.047 -0.007
2.79 17 0.68 0.672 0.008 0.032
3.45 18 0.72 0.748 -0.028 0.068
3.83 19 0.76 0.784 -0.024 0.064
3.92 20 0.80 0.792 0.008 0-032
4.27 21 0.84 0.819 0.021 0-019
5.43 22 0.88 0.886 -0.006 0.046
5.79 23 0.92 0.901 0.019 0.021
5.91 24 0.96 0.906 0-054 -0.014
6.34 25 1 0.921 0.079 -0.039
16 Contrastes no paramétricos 241

en la que la cuarta columna contiene la función de distribución teórica: 1−e−0.4x . Se tiene,


de esta tabla, que ∆25 = 0.268 y la correspondiente tabla indica que la hipótesis de que la
distribución es la que dice la empresa puede ser rechazada con nivel de significación 0.05.
Probemos ahora un contraste χ2 . Como hay sólo 25 datos lo más lógico es descom-
poner el recorrido de la variable en 5 intervalos de probabilidad 1/5, obteniéndose:

Ai ni ni,esp
[0, 0.558) 9 5
(0.558, 1.277] 3 5
(1.277, 2.291] 4 5
(2.291, 4.024] 4 5
(4.024, ∞) 5 5

y un valor del estadı́stico D = 4.4 que, comparado con la distribución χ24 , no permite
rechazar la hipótesis de ajuste ni siquiera con nivel de significación 0.3. Ahora es este
contraste el que no es capaz de detectar las diferencias que sı́ ha detectado Kolmogorov-
Smirnov.

Ejemplo 10

Una empresa decide adelantar su horario de entrada en una hora. Antes del cambio
sabı́a que la media de retraso de sus empleados era de 5 minutos. Tras el cambio selecciona
12 empleados y observa, en un determinado dı́a, los siguientes retrasos (en minutos):

2.5 1.2 7 1.8 8.3 6.8 5.2 3.4 4.7 6.2 9.1 5.2

El contraste que desea realizar la empresa es H0 : Me = 5 (los retrasos no han variado)


frente a H1 : Me > 5 (los retrasos han aumentado). Vamos a emplear el test de los signos:
el número de datos superiores a 5 es T = 7, y la distribución binomial B(12, 1/2),indica
que, si H0 es correcta,
P (T ≥ 7) = 0.3871

lo que indica que no es rechazable la hipótesis nula.

Ejemplo 11

Supongamos ahora que la empresa anterior seleccionó 16 de sus empleados y mi-


dió sus retrasos en dos dı́as , antes y después del cambio de horario. Los resultados
fueron:
242 Estadı́stica

2.1/3.4 1.2/5.1 4.2/2.6 4.6/7.4 0.7/2.4 3.2/2.7 5.6/5.2 1.8/2.9


4.8/6.5 2.3/7.3 0.4/0.8 2.5/2.2 3.2/9.8 4.7/2.8 1.6/2.2 6.3/6.5

que se traduce en los siguientes aumentos de los retrasos:

1.3 3.9 -1.6 2.8 1.7 -0.5 -0.4 1.1


1.7 5.0 0.4 -0.3 6.6 -1.9 0.6 0.2

Si Me es la mediana de la distribución de incrementos se puede contrastar, ahora,


la hipótesis H0 : Me = 0 frente a H1 : Me > 0. El número de incrementos positivos es
T = 11 y la distribución binomial B(16, 1/2) proporciona

P (T ≥ 11) = 0.105

y se podrı́a rechazar la hipótesis Me = 0 con nivel crı́tico 0.105.

Ejemplo 12

Supongamos que la distribución de sodio por unidad de volumen de sangre en una


población es simétrica alrededor de 3.24 g. Se ha cambiado el suministro de agua y se han
obtenido los siguientes análisis de 15 habitantes (en gramos por unidad de volumen):

2.37 2.95 3.40 2.46 3.66 3.18 2.72 3.71


3.87 1.97 1.66 3.72 2.10 1.83 3.03

Las diferencias respecto a la mediana, con los rangos, en la ordenación creciente de


sus valores absolutos, indicados junto a cada término, tal y como se requiere para aplicar
el test de los rangos asignados a H0 : Me = 3.24 frente a H1 : Me 6= 3.24 son:

−0.8711 −0.294 +0.162 −0.69 +0.426 −0.061 −0.528 +0.375


+0.6310 −1.2713 −1.5815 +0.487 −1.1412 −1.4114 −0.213

La suma de los rangos de los términos positivos es T + = 2 + 6 + 5 + 10 + 7 = 30.


Con nivel de significación α = 0.1 la tabla indica que la hipótesis Me = 3.24 puede ser
rechazada si T + ≥ 89 ó T + ≤ 31. En cambio, para α = 0.05 la región crı́tica del test es
T + ≥ 94 ó T + ≤ 26. Los datos obtenidos permiten, pues, afirmar que la distribución de
la cantidad de sodio ha variado, con un riesgo de error próximo al 10 %.
16 Contrastes no paramétricos 243

Ejemplo 13

En 8 personas elegidas al azar se analizó el contenido en sodio antes y después del


cambio de suministro de agua, con los siguientes resultados:

3.34/2.58 2.82/2.46 3.06/3.50 2.30/2.16


4.22/3.78 3.55/3.19 2.61/2.94 2.83/1.94

Los incrementos han sido:

-0.76 -0.36 +0.44 -0.14 -0.44 -0.36 +0.33 -0.89


(7) (3.5) (5.5) (1) (5.5) (3.5) (2) (8)

con los rangos que se indican en la segunda fila. El test de Wilcoxon para el contraste de
Me = 0 frente a Me 6= 0 nos proporciona el estadı́stico T + = 7.5, mientras que la tabla
correspondiente indica que, con nivel de significación 0.1, la hipótesis Me = 0 sólo podrı́a
rechazarse si fuese T + ≥ 30 ó T + ≤ 6.

Ejemplo 14

Las ventas de los establecimientos A y B fueron controladas durante 9 y 12 dı́as


respectivamente, con los siguientes resultados (en miles de pesetas):

A: 132.5 167.4 189.8 124.6 136.6 147.5 159.9 117.8 106.3


B: 97.4 108.2 114.1 86.3 101.8 122.6 78.3 136.2 89.5
118.4 109.2 92.7

La ordenación conjunta de ambas muestras (sin perder la procedencia de cada dato)


figura en la siguiente tabla:

A: 106.3 117.8
B: 78.3 86.3 89.5 92.7 97.4 101.8 108.2 109.2 114.1

A: 124.6 132.5 136.6 147.5 159.9 167.4 189.8


B: 118.4 122.6 136.3

La mediana de la muestra conjunta (que ocupa el valor 11) es el valor 117.8 y hay
un único término de la primera muestra inferior a este, luego T = 1.
Para contrastar Mex = Mey frente a Mex > Mey con nivel de significación α, el test
de la mediana utiliza la región crı́tica {T ≤ k} donde ha de ser
244 Estadı́stica

! !
10 11
k
X t 9−t
P (T ≤ k) = ! ≤α
t=0 21
9
Con k = 1 el nivel de significación resulta α = 0.0058, de forma que se puede afirmar
que Mex > Mey con gran seguridad.
El contratse χ2 aplicado a la tabla de contingencia

< 120 > 120 Total


A 2 7 9
B 10 2 12
Total 12 9 21

da una valor del estadı́stico D = 7.84 que, comparado con una distribución χ21 , permite
también descartar la homogeneidad de ambas muestras con nivel de significación inferior
a 0.01.
Con los tamaños muestrales usados y la partición elegida, el contraste χ2 es menos
fiable que el de la mediana. Con tamaños muestrales grandes, y sobre todo si no hay
constancia de la igualdad de forma de las distribuciones, es preferible el contraste χ2 .
Tratemos ahora de emplear el test de Mann-Whitney. Para la ordenación de las
muestras anterior basta contar el número de elementos de la muestra B que hay por
debajo de cada elemento de la muestra A para obtener:

V = 6 + 9 + 11 + 11 + 12 + 12 + 12 + 12 + 12 = 97

Como V es aproximadamente N(54, 14.07) tenemos

P (V > 96) ≃ P (N(0, 1) > 2.98) = 0.0014

y el test de Mann-Whitney corrobora, con nivel de significación inferior a 0.005 que las
ventas del establecimiento A son superiores a las del B.

Ejemplo 15

En 10 empleados de una empresa se ha observado la distancia (en km.) de su do-


micilio a la sede de la empresa y el retraso (en min.) con el que llegaron al trabajo cierto
dı́a. Los resultados fueron:
16 Contrastes no paramétricos 245

(3.3, 5, 1) (2.4, 3.6) (1.9, 4.2) (2.8, 6.3) (1.2, 2.3)


(2.7, 3.4) (4.0, 2.8) (0.7, 3.2) (6.1, 5.3) (3.7, 3.7)

Ordenada la muestra según la distancia, los retrasos asociados son

3.2 2.3 4.2 3.6 3.4 6.3 5.1 3.7 2.8 5.3
(3) (1) (7) (5) (4) (10) (8) (6) (2) (9)

cuyos rangos (en la ordenación de valores de menor a mayor) se han indicado debajo
de cada uno. El recuento de valores mayores que quedan a la derecha de cada rango
proporciona
P = 7 + 8 + 3 + 4 + 4 + 0 + 1 + 1 + 1 = 29

con lo cual T = 13/45 = 0.288. La correspondiente tabla indica que deberı́a ser T > 0.33
para poder rechazar la hipótesis de independencia con nivel de significación 0.1. Por tanto,
los datos no permiten concluir que haya relación entre el retraso y la distancia del domicilio
a la empresa.
Probemos ahora con el test de Spearman. Con la ordenación ya efectuada anterior-
mente:
U = 22 + 12 + 42 + 12 + 12 + 42 + 12 + 22 + 72 + 12 = 94

y el estadı́stico de Spearman vale RS = 1 − 6U/990 = 0.43. De la correspondiente tabla


observamos que dicho coeficiente no es suficiente para rechazar la independencia entre las
variables ni siquiera con nivel de significación 0.1.

Ejemplo 16

Al extraer 17 bolas con reemplazamiento de una bolsa con bolas blancas y negras
se ha obtenido el resultado

BBBBNNNBBBBBBBBNN

que muestra R = 4 rachas. Puesto que hay 12 blancas y 5 negras, el número de rachas
podrı́a haber sido cualquiera entre 2 y 11. Las fórmulas dadas anteriomente permiten
calcular la probabilidad de cada uno de los valores:

2 3 4 5 6 7 8 9 10 11
0.0003 0.002 0.014 0.046 0.107 0.195 0.213 0.24 0.107 0.075

Incluyendo las probabilidades de menor a mayor, se observa que {R ≤ 4} es la región


crı́tica con tamaño α = 0.0169; con tamaño α = 0.0631 se podrı́a rechazar para {R ≤ 5}
S
y para α = 0.1377 se obtendrı́a la región crı́tica {R ≤ 5} {R = 11}.
246 Estadı́stica

Ejemplo 17

Queremos comprobar si al tomar en dı́as consecutivos los datos de ventas del es-
tablecimiento B del ejemplo 14 hemos afectado a su independencia. Los 12 datos tienen
como mediana 105. Los términos de la muestra original, comparados con esta mediana
dan la secuencia de signos

-++--+-+-++-

con R = 9 rachas. Con n = m = 6 la distribución de R es simétrica entre 2 y 12,


obteniéndose las probabilidades:

2 y 12 3 y 11 4 y 10 5y9 6y8 7
0.002 0.011 0.054 0.011 0.216 0.216
S
La región crı́tica {R ≤ 4} {R ≥ 10} tendrı́a tamaño =0.134, de forma que, con
R = 9, no puede afirmarse que la toma de datos en dı́as consecutivos haya afectado a la
independencia de la muestra.

Ejemplo 18

Una afección de la glándula tiroides ha sido investigada en una cierta región durante
los años ochenta. El número de casos observados desde junio de 1986 hasta mayo de 1989
vienen dados en la siguiente tabla

Año Mes
E F M A M J J A S O N D
1986 6 9 8 6 8 11 8
1987 5 4 4 2 1 8 8 6 2 2 1 2
1988 7 8 3 1 2 7 7 6 5 5 3 5
1989 1 2 1 1 2

Se quiere investigar si existe o no alguna periodicidad en dicha enfermedad contras-


tando: (a) Si pueden considerarse homogéneas las tres temporadas durante las cuales se
recogieron los datos. (b) Si los casos se presentan con variaciones estacionales.
(a) En primer lugar se trata de detectar si hay una pauta común en los tres ciclos
anuales considerados, ya que, en caso contrario, ello significarı́a que el comportamiento es
diferente cada año. Para ello , conviene agrupar los datos de la froma
16 Contrastes no paramétricos 247

J J A S O N D E F M A-M Total
1986-87 6 9 8 6 8 11 8 5 4 4 3 72
1987-88 8 8 6 2 2 1 2 7 8 3 3 50
1988-89 7 7 6 5 5 3 5 1 2 1 3 45
Total 21 24 20 13 15 15 15 13 14 8 9 167
con los meses de abril y mayo sumados para conseguir que sea ni n·j /n ≥ 2. El estadı́stico
de contraste toma el valor

m X k 3 X 11
!
X (nij − ni n·j /n)2 X nij
D= = n −1 + = 24.477
i=1 j=1
ni n·j /n nn
i=i j=1 i ·j

y D tiene distribución χ220 , cuya tabla indica que la hipótesis de que las tres temporadas
siguen el mismo patrón no puede ser rechazada con nivel de significación 0.1 (el nivel
crı́tico es, de hecho, 0.222).
(b) Admitida la homogeneidad de las tres muestras, los 167 casos, agrupados por
meses, se distribuyen como indica la tabla siguiente

J J A S O N D E F M A M
21 24 20 13 15 15 15 13 14 8 4 5
La influencia del mes sobre el número de casos ocurridos tendrı́a que ser descartada
si las frecuencias observadas fuesen compatibles con probabilidades de 1/12 para cada
uno de ellos; es decir si no pudiese admitirse que los datos fueran desviaciones debidas al
azar en torno a 167/12 casos por mes. El estadı́stico de Pearson para dicho contraste vale
12
12 X 2
D = −167 + n = 29.24
167 j=1 j

y tiene distribución χ211 . La hipótesis de uniformidad de la distribución puede rechazarse,


por tanto, con nivel de significación 0.005.
Las diferencias entre los tres meses de verano (J,J,A) no son significativas, pues los
datos
J J A
21 24 20
65/3 65/3 65/3
3
X
dan como valor del estadı́stico de Pearson D = −65 + 3/65 n2j = 0.4 que, comparado
j=1
con la distribución χ22 no permite rechazar la hipótesis de que los casos se presentan
unifromemente distribuidos entre los tres meses.
248 Estadı́stica

Lo mismo ocurre con los tres meses de primavera (M,A,M: D = 1.53 < χ22;0.1 ) y, por
supuesto, con los seis meses de otoño-invierno.
En cambio, existen diferencias significativas entre estos tres periodos. Por ejemplo,
la comparación entre el verano y los seis meses siguientes da como resultado

Verano Otoño-Invierno
65 85
150/3 2 · 150/3

D = 6.75 > χ21;0.01


de manera que no hay un reparto uniforme de los casos entre los tres meses de verano y
los seis siguientes.
En definitiva, puede concluirse que la incidencia de la enfermedad es más alta en
verano y más baja en primavera, respecto del nivel medio durante el resto del año.
Los datos de este ejemplo corresponden a una serie temporal (un conjunto de ob-
servaciones a lo largo del tiempo) que tienen su tratamiento especı́fico. Esto no significa,
sin embargo, que los resultados obtenidos mediante las técnicas estándar para estas series
sean “mejores”que las que hemos obtenido. La principal diferencia radica en la capacidad
que da el análisis de series temporales de predecir el comportamiento futuro (al menos a
corto plazo).

Ejemplo 19

Las 100 primeras cifras decimales del número π son

π = 3.14159265358979323846264338327950288419716939937510
58209749445923078164062862089986280348253421170679

y queremos saber si estas cifras tienen las propiedades de una secuencia de cifras elegida
al azar.
Se puede contrastar, en primer lugar, si todas las cifras aparecen con la misma
frecuencia 1/10, que si hubiesen sido elegidas al azar de una urna con diez bolas numeradas
del 0 al 9.
Para ello comparamos las frecuencias esperadas y observadas, mediante la tabla

0 1 2 3 4 5 6 7 8 9
ni 8 8 12 11 10 8 9 8 12 14
ni,esp 10 10 10 10 10 10 10 10 10 10
16 Contrastes no paramétricos 249

El valor del estadı́stico de Pearson resulta


9
1 X
D= (ni − 10)2 = 4.2
10 i=0

que, comparado con la distribución χ29 lleva a aceptar la hipótesis de unifromidad con un
nivel crı́tico próximo a 0.9.
Podemos contrastar ahora si la posición de las cifras parece el resultado de haberlas
elegido al azar, sin dependencia entre ellas. Para ello lo adecuado es el test de rachas:
eligiendo 4.5 como promedio de las 10 cifras, se indican con un + o un - aquellos dı́gitos
que sean, respectivamente, menores o mayores que 4.5; se obtiene ası́

1 4 1 5 9 2 6 5 3 5 8 9 7 9 3 2 3 8 4 6
− − − + + − + + − + + + + + − − − + − +
2 6 4 3 3 8 3 2 7 9 5 0 2 8 8 4 1 9 7 1
− + − − − + − − + + + − − + + − − + + −
6 9 3 9 9 3 7 5 1 0 5 8 2 0 9 7 4 9 4 4
+ + − + + − + + − − + + − − + + − + − −
5 9 2 3 0 7 8 1 6 4 0 6 2 8 6 2 0 8 9 9
+ + − − − + + − + − − + − + + − − + + +
8 6 2 8 0 3 4 8 2 5 3 4 2 1 1 7 0 6 7 9
+ + − + − − − + − + − − − − − + − + + +

con n = 49 signos – y m = 51 signos + y un total de R = 54 rachas. Como n y m son


grandes, para que la colocación de las cifras parezca hecha al azar, R tendrı́a que tener
aproximadamente distribución
r !
2 · 49 · 51 2 · 49 · 51 · (2 · 49 · 51 − 49 − 51)
N + 1; = N(50.98; 4.97)
100 990000

El nivel crı́tico resulta

2P (R > 54) = 2P (Z > 0.61) = 0.5418

que no permite, en absoluto, afirmar que las cifras no están colocadas al azar.
Otra posibilidad, en la misma dirección, es clasificar las cifras en pares e impares,
tratando de detectar alguna regularidad en la colocación de unas y otras. Concretamente
tenemos ahora la tabla:
250 Estadı́stica

1 4 1 5 9 2 6 5 3 5 8 9 7 9 3 2 3 8 4 6
i p i i i p p i i i p i i i i p i p p p
2 6 4 3 3 8 3 2 7 9 5 0 2 8 8 4 1 9 7 1
p p p i i p i p i i i p p p p p i i i i
6 9 3 9 9 3 7 5 1 0 5 8 2 0 9 7 4 9 4 4
p i i i i i i i i p i p p p i i p i p p
5 9 2 3 0 7 8 1 6 4 0 6 2 8 6 2 0 8 9 9
i i p i p i p i p p p p p p p p p p i i
8 6 2 8 0 3 4 8 2 5 3 4 2 1 1 7 0 6 7 9
p p p p p i p p p i i p p i i i p p i i

con n = 49 cifras impares, m = 51 pares y R = 43 rachas. La distribución aproximada de


R es la misma normal anterior y el nivel crı́tico resulta

2P (R > 43) = 2P (Z > −1.6) = 0.1096

que tampoco permite afirmar que las cifras no están situadas como si hubiesen sido elegidas
al azar.
Regresión
17 lineal simple

Índice
17.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
17.3. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . 254
17.4. Propiedades de los estimadores de mı́nimos cuadrados . . . . 256
17.4.1. Propiedades generales . . . . . . . . . . . . . . . . . . . . . . . 256
17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . 257
17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
17.6. Inferencias respecto a los parámetros . . . . . . . . . . . . . . 258
17.7. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
17.7.1. Estimación de la respuesta media . . . . . . . . . . . . . . . . . 259
17.7.2. Predicción de una observación . . . . . . . . . . . . . . . . . . . 260
17.8. Análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . 261
17.9. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . 263
17.9.1. Inferencias sobre el coeficiente de correlación . . . . . . . . . . 264
17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . 265

251
252 Estadı́stica

17.1. Introducción
En la práctica, con mucha frecuencia es necesario resolver problemas que implican
conjuntos de variables, cuando se sabe que existe alguna relación inherente entre ellas.
Por ejemplo, en un caso industrial, se puede saber que el contenido de alquitrán en el
producto de salida de un proceso quı́mico está relacionado con la temperatura con la que
éste se lleva a cabo. Puede ser interesante desarrollar un método de predicción, esto es,
un procedimiento para estimar el contenido de alquitrán para varios niveles de tempera-
tura tomados de información experimental. El aspecto estadı́stico del problema consiste
entonces en lograr la mejor estimación de la relación entre las variables.
Para este ejemplo y para la mayorı́a de las aplicaciones, existe una clara distinción
entre las variables en cuanto a su papel dentro del proceso experimental. Muy a menudo
se tiene una sola variable dependiente o respuesta Y , que no se controla en el experimento.
Esta respuesta depende de una o más variables independientes o de regresión, como son
x1 , x2 , . . . , xk , las cuales se miden con un error despreciable y en realidad, en la mayorı́a de
los casos, se controlan en el experimento. Ası́, las variables independientes no son aleatorias
y por tanto no tienen propiedades distribucionales. En el ejemplo citado anteriormente,
la temperatura es la variable independiente o variable de regresión, x, y el contenido de
alquitrán es la respuesta, Y . La relación fija para un conjunto de datos experimentales se
caracteriza por una ecuación de predicción que recibe el nombre de ecuación de regresión.
En el caso de una sola x, se habla de regresión simple. Para k variables independientes,
se habla de regresión múltiple.
En este curso se tratará el tema de la regresión lineal simple. Representamos una
m.a.s. de tamaño n por el conjunto {(x1 , y1), . . . , (xn , yn )}. Si se tomaran muestras adi-
cionales utilizando exactamente los mismos valores de x, se debe esperar que los valores
de y varı́en. De ahı́ que el valor yi en el par ordenado (xi , yi ) sea un valor de la v.a. Y |xi .
Por conveniencia se define Y |x como la v.a. Y correspondiente a un valor genérico x, y su
media y su varianza se indican por µY |x y σ 2 Y |x , respectivamente; mientras que si x = xi ,
el sı́mbolo Yi representa la v.a. Y |xi con media µYi = µY |xi y varianza σ 2 Yi = σ 2 Y |xi .
El término regresión lineal implica que µY |x está linealmente relacionado con x por
la recta de regresión lineal poblacional

µY |x = α + βx

donde los coeficientes de regresión α y β son parámetros que deben estimarse a partir de
los datos muestrales. Si a y b representan estas estimaciones, respectivamente, se puede
17 Regresión lineal simple 253

Figura 17.1: Descripción del modelo de regresión lineal simple.

entonces estimar µY |x por yb de la regresión muestral o recta de regresión ajustada o


estimada
yb = a + bx

El sı́mbolo yb se utiliza aquı́ para distinguir entre el valor estimado que da la recta
de regresión muestral y el valor experimental real observado, y, para algún valor de x.

17.2. Modelo lineal


En el caso de una regresión lineal simple, donde hay una sola variable de regresión,
x, y una sola v.a. dependiente, Y , los datos pueden representarse por los pares de observa-
ciones {(x1 , y1 ), . . . , (xn , yn )}. Es conveniente utilizar los conceptos de la sección anterior
para definir cada v.a. Yi = Y |xi por medio de un modelo estadı́stico. Si se postula que
todas las medias µYi caen sobre una recta (Fig. 17.1),

µYi = α + βxi i = 1, . . . , n (17.1)

entonces cada Yi puede describirse por el modelo de regresión lineal simple

Yi = µYi + Ei = α + βxi + Ei i = 1, . . . , n (17.2)


254 Estadı́stica

Figura 17.2: Descripción del error del modelo (εi ) y del residuo (ei ).

donde el error aleatorio Ei , el error del modelo, debe tener media nula. Cada observación
(xi , yi ) de la muestra satisface la ecuación

yi = α + βxi + εi (17.3)

donde εi es el valor que asume la v.a. Ei cuando Yi toma el valor yi . La ecuación anterior
puede considerarse como el modelo para una sola observación yi .
De manera similar, al utilizar la recta de regresión lineal estimada

yb = a + bx

cada par de observaciones satisface la relación

yi = a + bxi + ei (17.4)

donde ei = yi − ybi se llama residuo y describe el error en el ajuste del modelo en el punto
i de los datos. La diferencia entre ei y εi se muestra claramente en la figura 17.2.

17.3. Método de mı́nimos cuadrados


El método se basa en encontrar las estimaciones a y b de α y β de tal forma que la
suma de los cuadrados de los residuos sea mı́nima. Si notamos por
P P P
SSE = e2i = (yi − ybi )2 = (yi − a − bxi )2
17 Regresión lineal simple 255

Derivando respecto de a y b, e igualando a cero se tiene


 P P
 ∂(SSE)

 = −2 (yi − a − bxi ) = 0 (=⇒ ei = 0)
 ∂a
(17.5)


 ∂(SSE) = −2 P(y − a − bx )x = 0 (=⇒ P x e = 0)

i i i i i
∂b
de donde  P P

 na + b xi =
 yi


 a P x + b P x2 = P x y

i i i i

que se pueden resolver para dar las expresiones de a y b


 P P P

 n xi yi − ( xi ) ( yi )

 b= P 2 P 2

 n x − ( xi )

 i

(17.6)



 P P


 y i−b xi
 a=
n
Para simplificar un poco, definimos
1P
x̄ = xi
n

1P
ȳ = yi
n

P P 1 P P
Sxx = (xi − x̄)2 = x2i − ( xi )2 = x2i − nx̄2
n

P P 2 1 P 2 P 2
Syy = (yi − ȳ)2 = yi − ( yi ) = yi − nȳ 2
n

P P 1 P P P
Sxy = (xi − x̄)(yi − ȳ) = xi yi − ( xi ) ( yi ) = xi yi − nx̄ȳ
n
Entonces,
Sxy
b=
Sxx
(17.7)
a = ȳ − bx̄

Por tanto, la recta de regresión estimada se puede expresar como

yb = ȳ + b(x − x̄) (17.8)


256 Estadı́stica

17.4. Propiedades de los estimadores de mı́nimos cua-


drados

17.4.1. Propiedades generales


Además de la suposición de que el término de error del modelo, Ei , es una v.a. con
media cero, supongamos que cada Ei tiene la misma varianza, σ 2 (homocedasticidad), y
que E1 , E2 , . . . , En son independientes. Con estas hipótesis sobre las Ei podemos calcular
la media y la varianza de los estimadores de α y β.
Es importante recordar que los valores de a y b, obtenidos en base a una muestra
dada de n observaciones, son solo estimaciones de los parámetros reales α y β. Si el
experimento se repite varias veces, utilizando los mismos valores de x, es muy probable que
las estimaciones resultantes de α y β difieran de un experimento a otro. Estas estimaciones
diferentes pueden considerarse como valores asumidos por las v.a. A y B.
Dado que los valores de x permanecen fijos, los valores de A y B dependen de
las variaciones de los valores de y, o en forma más precisa, de los valores de las v.a.
Y1 , Y2 , . . . , Yn . Las suposiciones distribucionales de las Ei implican que Y1 , Y2 , . . . , Yn tam-
bién se distribuyen independientemente con medias µYi = α + βxi y varianzas iguales σ 2 ;
es decir, σ 2 Yi = σ 2 para i = 1, 2, . . . , n. Dado que el estimador

P P P P P P
nxi Yi − ( xi ) ( Yi ) n xi Yi − nx̄ ( Yi ) (x − x̄)Yi
B= P 2 P 2 =  = P i
n xi − ( xi ) P 2 1 P 2 (xi − x̄)2
n xi − ( xi )
n
P
es de la forma B = ai Yi , donde

(xi − x̄)
ai = P i = 1, 2, . . . , n
(xi − x̄)2
entonces,

P P
(xi − x̄)E[Yi ] (xi − x̄)(α + βxi )
µB = E[B] = P 2 = P =
(xi − x̄) (xi − x̄)2

1 P P P 1 P
= [α xi + β x2i − nαx̄ − β x̄ xi ] = β [ x2i − nx̄2 ] = β
Sxx Sxx
P P
(xi − x̄)2 Var(Yi ) σ 2 (xi − x̄)2 σ2 σ2
σB2 = Var(B) = P 2 = P 2 =
P =
( (xi − x̄)2 ) ( (xi − x̄)2 ) (xi − x̄)2 Sxx
17 Regresión lineal simple 257

Igualmente, el estimador A se puede expresar como

P P P  
Yi − B xi 1P (xi − x̄)Yi P 1 x̄(xi − x̄)
A= = Yi − x̄ P = −P Yi
n n (xi − x̄)2 n (xi − x̄)2
es decir, A también es una combinación lineal de las v.a. independientes Yi , por tanto,
operando, se llega fácilmente a
 
P 1 x̄(xi − x̄)
µA = E[A] = −P E[Yi ] = α
n (xi − x̄)2

 2 rP 2
1 P
x̄(xi − x̄) xi
σA2= Var(A) = −P 2 Var(Yi ) = σ 2
n (xi − x̄) nSxx
Por tanto, sea cual sea la distribución de los errores del modelo, los estimadores
mı́nimo cuadráticos, A y B, de los coeficientes de regresión α y β, son insesgados.
Por la propia definición de los estimadores A y B, se deduce que no son indepen-
dientes, siendo
x̄σ 2
Cov(A, B) = E[(A − α)(B − β)] = −
Sxx

17.4.2. Condiciones de normalidad


Para conocer la forma de la distribución de los estimadores A y B, es necesario co-
nocer previamente la distribución de los errores del modelo. Si a las hipótesis de indepen-
dencia y homocedasticidad de los errores del modelo añadimos la hipótesis de normalidad,
es decir, Ei ≡ N(0, σ) i = 1, . . . , n, entonces todas las v.a. involucradas hasta ahora: Yi ,
A, B, resultan ser combinaciones lineales de v.a. Normales e independientes, por tanto su
distribución también será Normal. Ası́,


 Yi ≡ N(µYi , σ) i = 1, . . . , n






 B ≡ N(β, σ/√S )

xx
Si Ei ≡ N(0, σ) i = 1, . . . , n =⇒



 rP 2 !



 xi

 A ≡ N α, σ nS
xx

17.5. Varianza residual


Según lo expuesto anteriormente, la hipótesis de normalidad en los errores del modelo
asegura la normalidad de los estimadores mı́nimo cuadráticos sin embargo, para tener
258 Estadı́stica

completamente especificadas sus distribuciones, es necesario tener una estimación de la


varianza de los errores, σ 2 . Para ello, definimos la varianza residual como
P 2 P
SSE ei (yi − ybi )2
s2 = = =
n−2 n−2 n−2
Veamos una forma más sencilla de expresar s2

P P
SSE = (yi − ybi )2 = (yi − a − bxi )2 =
P P
= (yi − (ȳ − bx̄) − bxi )2 = ((yi − ȳ) − b(xi − x̄))2 =
P P P
= (yi − ȳ)2 + b2 (xi − x̄)2 − 2b (yi − ȳ)(xi − x̄) =
= Syy + b2 Sxx − 2bSxy = Syy + bSxy − 2bSxy = Syy − bSxy
Por tanto, P
2 (yi − ybi )2 Syy − bSxy
s = = (17.9)
n−2 n−2
y, como es habitual en la varianzas que proceden de distribuciones normales, la varianza
residual sigue una distribución del tipo Chi-cuadrado. En particular,

(n − 2)s2
2
≡ χ2n−2 (17.10)
σ
Por tanto, la varianza residual es una estimación insesgada de la varianza de los
errores del modelo.

17.6. Inferencias respecto a los parámetros


Una vez estimada la varianza de los errores, y recordando que mantenemos las
hipótesis de normalidad de los mismos, podemos construir los estadı́sticos adecuados para
realizar inferencias respecto a los parámetros de regresión. Ası́,

√ 
B ≡ N(β, σ/ Sxx ) 
 B−β

 √
σ/ Sxx B−β
=⇒ s = √ ≡ tn−2 (17.11)
(n − 2)s 2 
 (n − 2)s 2 s/ S xx
≡ χ2n−2 

σ 2 (n − 2)σ 2
rP !  A−α
x2i 
 rP 2
A ≡ N α, σ 
 xi
nSxx 
 σ
nSxx A−α
=⇒ s = r P 2 ≡ tn−2 (17.12)

 (n − 2)s2 xi

 s
(n − 2)s2 
 nSxx
2
≡ χ2n−2 (n − 2)σ 2
σ
17 Regresión lineal simple 259

Por tanto, un intervalo de confianza del (1 − α)100 % para la pendiente de la recta


de regresión poblacional, β, es

s s
b − tα/2 √ < β < b + tα/2 √
Sxx Sxx
y, un intervalo de confianza del (1 − α)100 % para la ordenada en el origen de la recta de
regresión poblacional, α, es

rP rP
x2i x2i
a − tα/2 s < α < a + tα/2 s
nSxx nSxx

17.7. Predicción
Un modelo de regresión, fijado un valor particular de la variable independiente (xp ),
permite en primer lugar, estimar el valor medio de la respuesta (µYp ); y en segundo lugar,
prever futuros valores de la variable respuesta (yp ).
Tanto la estimación de la media, como la predicción de un valor de la variable
dependiente, se obtienen sustituyendo en la recta de regresión estimada. Es decir,

µYp ≃ ybp = a + bxp


yp ≃ ybp = a + bxp
sin embargo, la precisión de estas estimaciones es distinta, como veremos en las siguientes
secciones.

17.7.1. Estimación de la respuesta media


Utilizando la notación habitual para v.a.

Ybp = A + Bxp

entonces

E[Ybp ] = E[A + Bxp ] = E[A] + E[B]xp = α + βxp = µYp

Var(Ybp ) = Var(A + Bxp ) = Var((Ȳ − B x̄) + Bxp ) = Var(Ȳ + B(xp − x̄)) =

 
σ2 σ2 1 (xp − x̄)2
2
= Var(Ȳ ) + (xp − x̄) Var(B) = + (xp − x̄)2 = σ2 +
n Sxx n Sxx
260 Estadı́stica

donde hemos utilizado el hecho de que las variables Ȳ y B son independientes. Entonces,

r ! 
1 (xp − x̄)2 

Ybp ≡ N µYp , σ + 


n Sxx  Ybp − µYp
=⇒ r ≡ tn−2

 1 (xp − x̄)2

 s +
(n − 2)s2 
 n Sxx
≡ χ2n−2
σ2
Por tanto, un intervalo de confianza del (1 − α)100 % para la respuesta media, µYp ,
es

r r
1 (xp − x̄)2 1 (xp − x̄)2
ybp − tα/2 s + < µYp < ybp + tα/2 s +
n Sxx n Sxx

17.7.2. Predicción de una observación


En este caso, utilizamos la v.a. Ybp − Yp

E[Ybp − Yp ] = E[Ybp ] − E[Yp ] = µYp − µYp = 0

 
1 (xp − x̄)2
Var(Ybp − Yp ) = Var(Ybp ) + Var(Yp ) = σ 2 + + σ2 =
n Sxx
 
21 (xp − x̄)2
=σ 1+ +
n Sxx

Entonces

r ! 
1 (xp − x̄)2 

Ybp − Yp ≡ N 0, σ 1+ + 


n Sxx  Ybp − Yp
=⇒ r ≡ tn−2

 1 (xp − x̄)2

 s 1+ +
(n − 2)s2 
 n Sxx
≡ χ2n−2
σ2
y, un intervalo de confianza del (1 − α)100 % para una predicción, yp , es

r r
1 (xp − x̄)2 1 (xp − x̄)2
ybp − tα/2 s 1 + + < yp < ybp + tα/2 s 1+ +
n Sxx n Sxx
17 Regresión lineal simple 261

17.8. Análisis de la varianza


El contraste más importante en regresión se refiere a la pendiente de la recta de
regresión poblacional, y se plantea de la forma

H0 : β = 0
H1 : β 6= 0
Aunque en la sección 17.6 hemos dado un estadı́stico válido para este contraste (Eq.
17.11), en este apartado vamos a estudiarlo desde otro punto de vista.
Si la pendiente de la verdadera recta de regresión es distinta de cero, entonces las
desviaciones de los datos, yi , respecto a su valor medio, ȳ, se pueden descomponer en dos
partes (Fig. 17.3(a)): una, el residuo, es decir (yi − ybi ); y otra, la diferencia entre el valor
yi − ȳ).
predicho por la recta de regresión estimada y el valor medio de los datos, es decir, (b
Sin embargo, si la verdadera pendiente de la recta de regresión es nula (Fig. 17.3(b)),
entonces todos los valores predichos verifican ybi = ȳ, por lo que la segunda componente
es nula.
El residuo representa las fluctuaciones aleatorias dentro del rango probable de va-
lores que puede asumir la v.a. Yi , mientras que la segunda componente representa las
fluctuaciones intrı́nsecas debidas a la relación lineal que verifican las v.a. Yi ; ası́, cuanto
más nos alejamos de la zona central, (x̄, ȳ), más grandes deben ser estas fluctuaciones.
De esta forma, la variación total se puede expresar como
P P
(yi − ȳ)2 = yi − ȳ)]2 =
[(yi − ybi ) + (b
P P P
= (yi − ybi )2 + (b yi − ȳ)2 + 2 (yi − ybi )(b
yi − ȳ) =
P 2
P 2
= (yi − ybi ) + (b yi − ȳ)

donde hemos utilizado el hecho de que (Eq. 17.5)

P P P P
ybi (yi − ybi ) =(a + bxi )ei = a ei + b xi ei = 0
P P
ȳ(yi − ybi ) = ȳ ei = 0
En resumen, la variación total

P P P
(yi − ȳ)2 = (yi − ybi )2 + (b
yi − ȳ)2 (17.13)

se descompone en dos términos independientes: el primero refleja la variabilidad no ex-


plicada por la regresión, que es debida al carácter aleatorio de la relación; y el segundo
contiene la variabilidad explicada por la regresión, y puede interpretarse como la parte
determinista de la variabilidad de la respuesta. LLamaremos
262 Estadı́stica

Figura 17.3: Descomposición de la varianza para el caso de (a) pendiente no nula; y (b)
pendiente nula.

P
SST = (yi − ȳ)2 = Syy = Suma Total de los Cuadrados
P
SSE = (yi − ybi )2 = Syy − bSxy = Suma de los Cuadrados de los Errores
17 Regresión lineal simple 263

Fuente Suma Grados Cuadrados Estadı́stico Valor-P


Error Cuadrados Libertad Medios

Regresión SSR 1 SSR/1 f = SSR/s2 P (F1,n−2 ≥ f )


Error SSE n−2 SSE/(n − 2)
Total SST n−1

Figura 17.4: Tabla ANOVA


P
SSR = yi − ȳ)2 = bSxy = Suma de los Cuadrados de Regresión
(b

Se puede demostrar que, si la hipótesis nula es cierta es decir, si β = 0, entonces

SSR/σ 2 ≡ χ21 y SST /σ 2 ≡ χ2n−1

Por tanto,
SSR/1 SSR
= 2 ≡ F1,n−2 (17.14)
SSE/(n − 2) s
Este estadı́stico se puede utilizar como alternativa al estadı́stico dado en (Eq. 17.11)
para realizar el contraste regresión. Si su valor, f , es pequeño, significa que SSE es
muy grande comparado con el valor de SSR es decir, la mayor parte de la variabilidad
observada es puramente aleatoria, y la componente explicada por el modelo (la recta
propuesta) tiene muy poca influencia, por tanto no se rechaza H0 . Por otra parte, si f es
grande, significa que SSR es muy grande comparado con SSE es decir, la mayor parte de
la variabilidad observada se debe a la existencia de una recta de regresión con pendiente
no nula, por tanto se rechaza H0 . De hecho, se cumple
!2
b − β
f= √ = t2
s/ Sxx β=0
La forma habitual de presentar todos los datos vistos en esta sección es en la llamada
tabla ANOVA (del inglés, ANalysis Of VAriance), que se muestra en la figura 17.4.

17.9. Coeficiente de correlación


La evaluación global de una recta de regresión puede hacerse mediante la varianza
residual, que es un ı́ndice de la precisión del modelo. Sin embargo, esta medida no es útil
264 Estadı́stica

para comparar rectas de regresión de variables distintas, ya que depende de las unidades
de medida. Una medida más adecuada de la bondad del ajuste es el llamado coeficiente de
determinación del modelo, definido como la proporción de la variabilidad total explicada
por el modelo propuesto P
2 SSR yi − ȳ)2
(b
R = =P
SST (yi − ȳ)2
Para el caso particular del modelo lineal,
2
2 Sxy Sxy
r =b = (17.15)
Syy Sxx Syy
y, el coeficiente de correlación lineal de la muestra es
Sxy
r=p (17.16)
Sxx Syy
que representa una estimación del coeficiente de correlación lineal de la población
Cov(X, Y )
ρ= p
Var(X) Var(Y )

Sea cual sea el modelo propuesto, siempre se cumple que 0 ≤ R2 ≤ 1. En particular,

• 0 ≤ r 2 ≤ 1 (−1 ≤ r ≤ 1)

• Si r 2 = 1, existe una relación lineal perfecta entre las variables X e Y (Si r =


1 la relación es positiva, es decir, la pendiente de la recta es positiva. Si r =
−1 la relación es negativa, es decir, la pendiente de la recta es negativa). En
consecuencia, las variables son dependientes.

• Si r 2 = 0 (r = 0), no existe relación lineal entre las variables X e Y . De forma


general, esto no implica que las variables sean independientes, ya que podrı́a
existir una relación no lineal entre ellas.

17.9.1. Inferencias sobre el coeficiente de correlación


El contraste H0 : ρ = 0 es equivalente al ya estudiado H0 : β = 0, y se puede realizar
con el estadı́stico √
r n−2
√ ≡ tn−2 (17.17)
1 − r2
ya que se cumple
√ !2
r n−2 b − β
√ = √ = t2
1 − r2 s/ Sxx β=0
17 Regresión lineal simple 265

Para realizar el contraste general H0 : ρ = ρ0 6= 0, es necesario que la población, es


decir, la v.a. (X, Y ), siga una distribución Normal Bidimensional. En ese caso, se utiliza
el estadı́stico  
1 1+r ∼ 1 1+ρ 1
Ln = N Ln ,√ (17.18)
2 1−r 2 1−ρ n−3

17.10. Contraste de linealidad


Hasta ahora, hemos supuesto que realmente existe una recta de regresión que ajusta
perfectamente los datos, es decir, las medias de las v.a. Yi se encuentran sobre una recta

µYi = α + βxi i = 1, . . . , n

que hemos estimado por


ybi = a + bxi i = 1, . . . , n

Por tanto, la primera pregunta deberı́a haber sido ¿es cierta esa afirmación? El
contraste de linealidad está diseñado para responder a esta cuestión. Cuando las medias de
las v.a. Yi no se encuentran sobre una recta (Fig. 17.5) pero casi, este “casi” es la llamada
componente de falta de ajuste, y el contraste de linealidad cuantifica este desajuste para
contrastar la hipótesis de linealidad del modelo.
Para realizar el contraste, es necesario disponer de varios valores de y para algunos
o todos los valores de x. LLamaremos xi (i = 1, . . . , d) a los valores distintos que toma
la variable x. Para cada valor de xi existirán observaciones yij (j = 1, . . . , ni ), de forma
que n = n1 + · · · + nd (Fig. 17.6)
La lógica del contraste puede entenderse suponiendo que representamos gráficamente
las medias de las distribuciones condicionadas, y¯i . Nos encontraremos con alguna de las
situaciones que muestra la figura 17.7: el gráfico 17.7 (a) sugiere que probablemente la
hipótesis de linealidad es cierta, ya que las medias ȳi parecen tener una relación lineal;
en 17.7 (b) se detecta una relación claramente no lineal; y en 17.7 (c) no está clara la
existencia de relación.
El contraste de linealidad compara las medias muestrales estimadas directamente
de los datos observacionales, ȳi , con las medias muestrales estimadas bajo la hipótesis de
linealidad, ybi . Intuitivamente, si medimos la discrepancia entre ambas estimaciones con
P
ni (ȳi − ybi )2 , tenderemos a rechazar la hipótesis de linealidad si esta discrepancia es
grande, y a no rechazarla cuando es pequeña. Para cuantificar el tamaño de esta discre-
pancia, se compara con una medida de la variabilidad muestral cuyo valor esperado no
266 Estadı́stica

Figura 17.5: Descripción del modelo de regresión lineal simple con componente de falta
de ajuste.

depende de la hipótesis que estamos contrastando. Un término razonable de comparación


PP
es (yij − y¯i )2 , que mide la variabilidad inherente a los datos, sin depender de la
hipótesis de linealidad.
Vamos a aclarar estos conceptos con la figura 17.8. La ausencia de una relación lineal
perfecta permite descomponer los residuos, eij = yij − ybi , en suma de dos componentes:
una, (yij − y¯i ), debida a la fluctuación aleatoria dentro del rango probable de valores que
puede asumir la v.a. Yi para cada valor fijo xi ; y otra,(ȳi − ybi ), que contiene los errores
debidos a la falta de ajuste ya que, al fin y al cabo, las medias no están sobre una recta
por lo que la recta estimada no puede contener a las medias estimadas. Si la relación
lineal es perfecta, entonces ȳi = ybi (i = 1, . . . , d) y la segunda componente es nula, por
lo que la varianza residual es una estimación insesgada de la varianza de los errores del
modelo (como vimos en la sección 17.5) pero, si la relación lineal no es perfecta, la segunda
componente es distinta de cero, por lo que la varianza residual pasa a ser una estimación
sesgada de σ 2 al contener un término de falta de ajuste que no tiene nada que ver con el
error del modelo.
17 Regresión lineal simple 267

observaciones

n1
1 X
x1 y11 y12 · · · y1j ··· y1n1 y¯1 = y1j
n1 j=1

n
1 X 2

x2 y21 y22 · · · y2j ··· y2n2 y¯2 = y2j


n2 j=1
.. .. .. .. .. .. .. ..
. . . . . . . .
ni
1 X
xi yi1 yi2 ··· yij ··· yini y¯i = yij
ni j=1
.. .. .. .. .. .. .. ..
. . . . . . . .

nd
1 X
xd yd1 yd2 ··· ydj · · · ydnd y¯d = ydj
nd j=1

d d n d
1X 1 XX i
1X
x̄ = ni xi ȳ = yij = ni ȳi
n i=1 n i=1 j=1 n i=1

Figura 17.6: Tabla de datos para realizar el contraste de linealidad

La descomposición de la suma de los cuadrados de los residuos es sencilla pues,

X ni
d X ni
d X
X ni
d X
X
SSE = e2ij = 2
(yij − ybi ) = [(yij − ȳi ) + (ȳi − ybi )]2 =
i=1 j=1 i=1 j=1 i=1 j=1

X ni
d X ni
d X
X ni
d X
X
2 2
= (yij − y¯i ) + (ȳi − ybi ) + 2 (yij − y¯i )(ȳi − ybi ) =
i=1 j=1 i=1 j=1 i=1 j=1

ni
d X d d
"n #
X X X X i

= (yij − y¯i )2 + ni (ȳi − ybi )2 + 2 (ȳi − ybi ) (yij − y¯i ) =


i=1 j=1 i=1 i=1 j=1

X ni
d X d
X
= (yij − y¯i )2 + ni (ȳi − ybi )2
i=1 j=1 i=1
268 Estadı́stica

Figura 17.7: Medias condicionadas y la recta de regresión.

ni
X
donde hemos utilizado el hecho de que (yij − y¯i ) = 0. En resumen, la suma de los
j=1
cuadrados de los residuos

X ni
d X X ni
d X d
X
2 2
(yij − ybi ) = (yij − y¯i ) + ni (ȳi − ybi )2 (17.19)
i=1 j=1 i=1 j=1 i=1

se descompone en dos términos independientes: el primero refleja la fluctuaciones aleato-


rias de cada observación en torno a su valor medio; y el segundo refleja la ausencia de una
relación lineal perfecta en la medias de las v.a. Yi . LLamaremos

ni
d X
X
SSE = (yij − ybi )2 = Suma de los Cuadrados de los Residuos
i=1 j=1
17 Regresión lineal simple 269

Figura 17.8: Descomposición del residuo (eij ) cuando existe componente de falta de ajuste.

ni
d X
X
SSE(p) = (yij − y¯i )2 = Error Puro
i=1 j=1

d
X
SSE(a) = ni (ȳi − ybi )2 = Error por Falta de Ajuste
i=1

Se puede demostrar que, si la hipótesis de linealidad es cierta, entonces

SSE(p)/σ 2 ≡ χ2n−d y SSE(a)/σ 2 ≡ χ2d−2

Por tanto, SSE(p)/(n − d) es una estimación insesgada de la varianza, σ 2 , de los


errores del modelo, y el estadı́stico

SSE(a)/(d − 2)
≡ Fd−2,n−d (17.20)
SSE(p)/(n − d)
representa el cociente entre la variación debida a la falta de ajuste y la variación debida
a causas puramente aleatorias. Ası́, este estadı́stico nos sirve para contrastar la hipótesis
de linealidad. Si su valor, f , es grande, significa que la mayor parte del error procede de
la componente de falta de ajuste, por lo que deberemos rechazar la hipótesis de relación
lineal perfecta. Por el contrario, si f es pequeño, significa que la mayor parte del error es
puramente aleatorio y no rechazaremos la hipótesis de relación lineal perfecta.
270 Estadı́stica

La forma habitual de presentar todos los datos vistos en esta sección es en la tabla
ANOVA completa, que se muestra en la figura 17.9

Fuente Suma Grados Cuadrados Estadı́stico Valor-P


Error Cuadrados Libertad Medios

SSR/1
Regresión SSR 1 SSR/1 f= P (F1,n−2 ≥ f )
SSE/(n − 2)

Error SSE n−2 SSE/(n − 2)


SSE(a)/(d − 2)
Ajuste SSE(a) d−2 SSE(a)/(d − 2) f= P (Fd−2,n−d ≥ f )
SSE(p)/(n − d)
Puro SSE(p) n−d SSE(p)/(n − d)

Total SST n−1

Figura 17.9: Tabla ANOVA completa


Tablas
A estadı́sticas

271
x
!
X n
Tabla A.1: Distribución Binomial. P (B(n, p) ≤ x) = pk (1 − p)n−k
k=0 k

p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

1 0 .9000 .8000 .7500 .7000 .6000 .5000 .4000 .3000 .2000 .1000
1 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

2 0 .8100 .6400 .5625 .4900 .3600 .2500 .1600 .0900 .0400 .0100
1 .9900 .9600 .9375 .9100 .8400 .7500 .6400 .5100 .3600 .1900
2 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

3 0 .7290 .5120 .4219 .3430 .2160 .1250 .0640 .0270 .0080 .0010
1 .9720 .8960 .8438 .7840 .6480 .5000 .3520 .2160 .1040 .0280
2 .9990 .9920 .9844 .9730 .9360 .8750 .7840 .6570 .4880 .2710
3 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

4 0 .6561 .4096 .3164 .2401 .1296 .0625 .0256 .0081 .0016 .0001
1 .9477 .8192 .7383 .6517 .4752 .3125 .1792 .0837 .0272 .0037
2 .9963 .9728 .9492 .9163 .8208 .6875 .5248 .3483 .1808 .0523
3 .9999 .9984 .9961 .9919 .9744 .9375 .8704 .7599 .5904 .3439
4 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

5 0 .5905 .3277 .2373 .1681 .0778 .0312 .0102 .0024 .0003 .0000
1 .9185 .7373 .6328 .5282 .3370 .1875 .0870 .0308 .0067 .0005
2 .9914 .9421 .8965 .8369 .6826 .5000 .3174 .1631 .0579 .0086
3 .9995 .9933 .9844 .9692 .9130 .8125 .6630 .4718 .2627 .0815
4 1.0000 .9997 .9990 .9976 .9898 .9688 .9222 .8319 .6723 .4095
5 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

6 0 .5314 .2621 .1780 .1176 .0467 .0156 .0041 .0007 .0001 .0000
1 .8857 .6554 .5339 .4202 .2333 .1094 .0410 .0109 .0016 .0001
2 .9841 .9011 .8306 .7443 .5443 .3438 .1792 .0705 .0170 .0013
3 .9987 .9830 .9624 .9295 .8208 .6562 .4557 .2557 .0989 .0159
4 .9999 .9984 .9954 .9891 .9590 .8906 .7667 .5798 .3446 .1143
5 1.0000 .9999 .9998 .9993 .9959 .9844 .9533 .8824 .7379 .4686
6 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

272
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

7 0 .4783 .2097 .1335 .0824 .0280 .0078 .0016 .0002 .0000 .0000
1 .8503 .5767 .4449 .3294 .1586 .0625 .0188 .0038 .0004 .0000
2 .9743 .8520 .7564 .6471 .4199 .2266 .0963 .0288 .0047 .0002
3 .9973 .9667 .9294 .8740 .7102 .5000 .2898 .1260 .0333 .0027
4 .9998 .9953 .9871 .9712 .9037 .7734 .5801 .3529 .1480 .0257
5 1.0000 .9996 .9987 .9962 .9812 .9375 .8414 .6706 .4233 .1497
6 1.0000 .9999 .9998 .9984 .9922 .9720 .9176 .7903 .5217
7 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

8 0 .4305 .1678 .1001 .0576 .0168 .0039 .0007 .0001 .0000 .0000
1 .8131 .5033 .3671 .2553 .1064 .0352 .0085 .0013 .0001 .0000
2 .9619 .7969 .6785 .5518 .3154 .1445 .0498 .0113 .0012 .0000
3 .9950 .9437 .8862 .8059 .5941 .3633 .1737 .0580 .0104 .0004
4 .9996 .9896 .9727 .9420 .8263 .6367 .4059 .1941 .0563 .0050
5 1.0000 .9988 .9958 .9887 .9502 .8555 .6846 .4482 .2031 .0381
6 .9999 .9996 .9987 .9915 .9648 .8936 .7447 .4967 .1869
7 1.0000 1.0000 .9999 .9993 .9961 .9832 .9424 .8322 .5695
8 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

9 0 .3874 .1342 .0751 .0404 .0101 .0020 .0003 .0000 .0000 .0000
1 .7748 .4362 .3003 .1960 .0705 .0195 .0038 .0004 .0000 .0000
2 .9470 .7382 .6007 .4628 .2318 .0898 .0250 .0043 .0003 .0000
3 .9917 .9144 .8343 .7297 .4826 .2539 .0994 .0253 .0031 .0001
4 .9991 .9804 .9511 .9012 .7334 .5000 .2666 .0988 .0196 .0009
5 .9999 .9969 .9900 .9747 .9006 .7461 .5174 .2703 .0856 .0083
6 1.0000 .9997 .9987 .9957 .9750 .9102 .7682 .5372 .2618 .0530
7 1.0000 .9999 .9996 .9962 .9805 .9295 .8040 .5638 .2252
8 1.0000 1.0000 .9997 .9980 .9899 .9596 .8658 .6126
9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

273
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

10 0 .3487 .1074 .0563 .0282 .0060 .0010 .0001 .0000 .0000 .0000
1 .7361 .3758 .2440 .1493 .0464 .0107 .0017 .0001 .0000 .0000
2 .9298 .6778 .5256 .3828 .1673 .0547 .0123 .0016 .0001 .0000
3 .9872 .8791 .7759 .6496 .3823 .1719 .0548 .0106 .0009 .0000
4 .9984 .9672 .9219 .8497 .6331 .3770 .1662 .0473 .0064 .0001
5 .9999 .9936 .9803 .9527 .8338 .6230 .3669 .1503 .0328 .0016
6 1.0000 .9991 .9965 .9894 .9452 .8281 .6177 .3504 .1209 .0128
7 .9999 .9996 .9984 .9877 .9453 .8327 .6172 .3222 .0702
8 1.0000 1.0000 .9999 .9983 .9893 .9536 .8507 .6242 .2639
9 1.0000 .9999 .9990 .9940 .9718 .8926 .6513
10 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

11 0 .3138 .0859 .0422 .0198 .0036 .0005 .0000 .0000 .0000 .0000
1 .6974 .3221 .1971 .1130 .0302 .0059 .0007 .0000 .0000 .0000
2 .9104 .6174 .4552 .3127 .1189 .0327 .0059 .0006 .0000 .0000
3 .9815 .8389 .7133 .5696 .2963 .1133 .0293 .0043 .0002 .0000
4 .9972 .9496 .8854 .7897 .5328 .2744 .0994 .0216 .0020 .0000
5 .9997 .9883 .9657 .9218 .7535 .5000 .2465 .0782 .0117 .0003
6 1.0000 .9980 .9924 .9784 .9006 .7256 .4672 .2103 .0504 .0028
7 .9998 .9988 .9957 .9707 .8867 .7037 .4304 .1611 .0185
8 1.0000 .9999 .9994 .9941 .9673 .8811 .6873 .3826 .0896
9 1.0000 1.0000 .9993 .9941 .9698 .8870 .6779 .3026
10 1.0000 .9995 .9964 .9802 .9141 .6862
11 1.0000 1.0000 1.0000 1.0000 1.0000

274
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

12 0 .2824 .0687 .0317 .0138 .0022 .0002 .0000 .0000 .0000 .0000
1 .6590 .2749 .1584 .0850 .0196 .0032 .0003 .0000 .0000 .0000
2 .8891 .5583 .3907 .2528 .0834 .0193 .0028 .0002 .0000 .0000
3 .9744 .7946 .6488 .4925 .2253 .0730 .0153 .0017 .0001 .0000
4 .9957 .9274 .8424 .7237 .4382 .1938 .0573 .0095 .0006 .0000
5 .9995 .9806 .9456 .8822 .6652 .3872 .1582 .0386 .0039 .0001
6 .9999 .9961 .9857 .9614 .8418 .6128 .3348 .1178 .0194 .0005
7 1.0000 .9994 .9972 .9905 .9427 .8062 .5618 .2763 .0726 .0043
8 .9999 .9996 .9983 .9847 .9270 .7747 .5075 .2054 .0256
9 1.0000 1.0000 .9998 .9972 .9807 .9166 .7472 .4417 .1109
10 1.0000 .9997 .9968 .9804 .9150 .7251 .3410
11 1.0000 .9998 .9978 .9862 .9313 .7176
12 1.0000 1.0000 1.0000 1.0000 1.0000

13 0 .2542 .0550 .0238 .0097 .0013 .0001 .0000 .0000 .0000 .0000
1 .6213 .2336 .1267 .0637 .0126 .0017 .0001 .0000 .0000 .0000
2 .8661 .5017 .3326 .2025 .0579 .0112 .0013 .0001 .0000 .0000
3 .9658 .7473 .5843 .4206 .1686 .0461 .0078 .0007 .0000 .0000
4 .9935 .9009 .7940 .6543 .3530 .1334 .0321 .0040 .0002 .0000
5 .9991 .9700 .9198 .8346 .5744 .2905 .0977 .0182 .0012 .0000
6 .9999 .9930 .9757 .9376 .7712 .5000 .2288 .0624 .0070 .0001
7 1.0000 .9988 .9944 .9818 .9023 .7095 .4256 .1654 .0300 .0009
8 .9998 .9990 .9960 .9679 .8666 .6470 .3457 .0991 .0065
9 1.0000 .9999 .9993 .9922 .9539 .8314 .5794 .2527 .0342
10 1.0000 .9999 .9987 .9888 .9421 .7975 .4983 .1339
11 1.0000 .9999 .9983 .9874 .9363 .7664 .3787
12 1.0000 .9999 .9987 .9903 .9450 .7458
13 1.0000 1.0000 1.0000 1.0000 1.0000

275
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

14 0 .2288 .0440 .0178 .0068 .0008 .0001 .0000 .0000 .0000 .0000
1 .5846 .1979 .1010 .0475 .0081 .0009 .0001 .0000 .0000 .0000
2 .8416 .4481 .2811 .1608 .0398 .0065 .0006 .0000 .0000 .0000
3 .9559 .6982 .5213 .3552 .1243 .0287 .0039 .0002 .0000 .0000
4 .9908 .8702 .7415 .5842 .2793 .0898 .0175 .0017 .0000 .0000
5 .9985 .9561 .8883 .7805 .4859 .2120 .0583 .0083 .0004 .0000
6 .9998 .9884 .9617 .9067 .6925 .3953 .1501 .0315 .0024 .0000
7 1.0000 .9976 .9897 .9685 .8499 .6047 .3075 .0933 .0116 .0002
8 .9996 .9978 .9917 .9417 .7880 .5141 .2195 .0439 .0015
9 1.0000 .9997 .9983 .9825 .9102 .7207 .4158 .1298 .0092
10 1.0000 .9998 .9961 .9713 .8757 .6448 .3018 .0441
11 1.0000 .9994 .9935 .9602 .8392 .5519 .1584
12 1.0000 .9999 .9991 .9919 .9525 .8021 .4154
13 1.0000 .9999 .9992 .9932 .9560 .7712
14 1.0000 1.0000 1.0000 1.0000 1.0000

15 0 .2059 .0352 .0134 .0047 .0005 .0000 .0000 .0000 .0000 .0000
1 .5490 .1671 .0802 .0353 .0052 .0005 .0000 .0000 .0000 .0000
2 .8159 .3980 .2361 .1268 .0271 .0037 .0003 .0000 .0000 .0000
3 .9444 .6482 .4613 .2969 .0905 .0176 .0019 .0001 .0000 .0000
4 .9873 .8358 .6865 .5155 .2173 .0592 .0093 .0007 .0000 .0000
5 .9977 .9389 .8516 .7216 .4032 .1509 .0338 .0037 .0001 .0000
6 .9997 .9819 .9434 .8689 .6098 .3036 .0950 .0152 .0008 .0000
7 1.0000 .9958 .9827 .9500 .7869 .5000 .2131 .0500 .0042 .0000
8 .9992 .9958 .9848 .9050 .6964 .3902 .1311 .0181 .0003
9 .9999 .9992 .9963 .9662 .8491 .5968 .2784 .0611 .0022
10 1.0000 .9999 .9993 .9907 .9408 .7827 .4845 .1642 .0127
11 1.0000 .9999 .9981 .9824 .9095 .7031 .3518 .0556
12 1.0000 .9997 .9963 .9729 .8732 .6020 .1841
13 1.0000 .9995 .9948 .9647 .8329 .4510
14 1.0000 .9995 .9953 .9648 .7941
15 1.0000 1.0000 1.0000 1.0000

276
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

16 0 .1853 .0281 .0100 .0033 .0003 .0000 .0000 .0000 .0000 .0000
1 .5147 .1407 .0635 .0261 .0033 .0003 .0000 .0000 .0000 .0000
2 .7892 .3518 .1971 .0994 .0183 .0021 .0001 .0000 .0000 .0000
3 .9316 .5981 .4050 .2459 .0651 .0106 .0009 .0000 .0000 .0000
4 .9830 .7982 .6302 .4499 .1666 .0384 .0049 .0003 .0000 .0000
5 .9967 .9183 .8103 .6598 .3288 .1051 .0191 .0016 .0000 .0000
6 .9995 .9733 .9204 .8247 .5272 .2272 .0583 .0071 .0002 .0000
7 .9999 .9930 .9729 .9256 .7161 .4018 .1423 .0257 .0015 .0000
8 1.0000 .9985 .9925 .9743 .8577 .5982 .2839 .0744 .0070 .0001
9 .9998 .9984 .9929 .9417 .7728 .4728 .1753 .0267 .0005
10 1.0000 .9997 .9984 .9809 .8949 .6712 .3402 .0817 .0033
11 1.0000 .9997 .9951 .9616 .8334 .5501 .2018 .0170
12 1.0000 .9991 .9894 .9349 .7541 .4019 .0684
13 1.0000 .9999 .9979 .9817 .9006 .6482 .2108
14 1.0000 .9997 .9967 .9739 .8593 .4853
15 1.0000 .9997 .9967 .9719 .8147
16 1.0000 1.0000 1.0000 1.0000

17 0 .1668 .0225 .0075 .0023 .0002 .0000 .0000 .0000 .0000 .0000
1 .4818 .1182 .0501 .0193 .0021 .0001 .0000 .0000 .0000 .0000
2 .7618 .3096 .1637 .0774 .0123 .0012 .0001 .0000 .0000 .0000
3 .9174 .5489 .3530 .2019 .0464 .0064 .0005 .0000 .0000 .0000
4 .9779 .7582 .5739 .3887 .1260 .0245 .0025 .0001 .0000 .0000
5 .9953 .8943 .7653 .5968 .2639 .0717 .0106 .0007 .0000 .0000
6 .9992 .9623 .8929 .7752 .4478 .1662 .0348 .0032 .0001 .0000
7 .9999 .9891 .9598 .8954 .6405 .3145 .0919 .0127 .0005 .0000
8 1.0000 .9974 .9876 .9597 .8011 .5000 .1989 .0403 .0026 .0000
9 .9995 .9969 .9873 .9081 .6855 .3595 .1046 .0109 .0001
10 .9999 .9994 .9968 .9652 .8338 .5522 .2248 .0377 .0008
11 1.0000 .9999 .9993 .9894 .9283 .7361 .4032 .1057 .0047
12 1.0000 .9999 .9975 .9755 .8740 .6113 .2418 .0221
13 1.0000 .9995 .9936 .9536 .7981 .4511 .0826
14 .9999 .9988 .9877 .9226 .6904 .2382
15 1.0000 .9999 .9979 .9807 .8818 .5182
16 1.0000 .9998 .9977 .9775 .8332
17 1.0000 1.0000 1.0000 1.0000

277
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

18 0 .1501 .0180 .0056 .0016 .0001 .0000 .0000 .0000 .0000 .0000
1 .4503 .0991 .0395 .0142 .0013 .0001 .0000 .0000 .0000 .0000
2 .7338 .2713 .1353 .0600 .0082 .0007 .0000 .0000 .0000 .0000
3 .9018 .5010 .3057 .1646 .0328 .0038 .0002 .0000 .0000 .0000
4 .9718 .7164 .5187 .3327 .0942 .0154 .0013 .0000 .0000 .0000
5 .9936 .8671 .7175 .5344 .2088 .0481 .0058 .0003 .0000 .0000
6 .9988 .9487 .8610 .7217 .3743 .1189 .0203 .0014 .0000 .0000
7 .9998 .9837 .9431 .8593 .5634 .2403 .0576 .0061 .0002 .0000
8 1.0000 .9957 .9807 .9404 .7368 .4073 .1347 .0210 .0009 .0000
9 .9991 .9946 .9790 .8653 .5927 .2632 .0596 .0043 .0000
10 .9998 .9988 .9939 .9424 .7597 .4366 .1407 .0163 .0002
11 1.0000 .9998 .9986 .9797 .8811 .6257 .2783 .0513 .0012
12 1.0000 .9997 .9942 .9519 .7912 .4656 .1329 .0064
13 1.0000 .9987 .9846 .9058 .6673 .2836 .0282
14 .9998 .9962 .9672 .8354 .4990 .0982
15 1.0000 .9993 .9918 .9400 .7287 .2662
16 .9999 .9987 .9858 .9009 .5497
17 1.0000 .9999 .9984 .9820 .8499
18 1.0000 1.0000 1.0000 1.0000

278
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

19 0 .1351 .0144 .0042 .0011 .0001 .0000 .0000 .0000 .0000 .0000
1 .4203 .0829 .0310 .0104 .0008 .0000 .0000 .0000 .0000 .0000
2 .7054 .2369 .1113 .0462 .0055 .0004 .0000 .0000 .0000 .0000
3 .8850 .4551 .2631 .1332 .0230 .0022 .0001 .0000 .0000 .0000
4 .9648 .6733 .4654 .2822 .0696 .0096 .0006 .0000 .0000 .0000
5 .9914 .8369 .6678 .4739 .1629 .0318 .0031 .0001 .0000 .0000
6 .9983 .9324 .8251 .6655 .3081 .0835 .0116 .0006 .0000 .0000
7 .9997 .9767 .9225 .8180 .4878 .1796 .0352 .0028 .0000 .0000
8 1.0000 .9933 .9713 .9161 .6675 .3238 .0885 .0105 .0003 .0000
9 .9984 .9911 .9674 .8139 .5000 .1861 .0326 .0016 .0000
10 .9997 .9977 .9895 .9115 .6762 .3325 .0839 .0067 .0000
11 1.0000 .9995 .9972 .9648 .8204 .5122 .1820 .0233 .0003
12 .9999 .9994 .9884 .9165 .6919 .3345 .0676 .0017
13 1.0000 .9999 .9969 .9682 .8371 .5261 .1631 .0086
14 1.0000 .9994 .9904 .9304 .7178 .3267 .0352
15 .9999 .9978 .9770 .8668 .5449 .1150
16 1.0000 .9996 .9945 .9538 .7631 .2946
17 1.0000 .9992 .9896 .9171 .5797
18 .9999 .9989 .9856 .8649
19 1.0000 1.0000 1.0000 1.0000

279
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90

20 0 .1216 .0115 .0032 .0008 .0000 .0000 .0000 .0000 .0000 .0000
1 .3917 .0692 .0243 .0076 .0005 .0000 .0000 .0000 .0000 .0000
2 .6769 .2061 .0913 .0355 .0036 .0002 .0000 .0000 .0000 .0000
3 .8670 .4114 .2252 .1071 .0160 .0013 .0000 .0000 .0000 .0000
4 .9568 .6296 .4148 .2375 .0510 .0059 .0003 .0000 .0000 .0000
5 .9887 .8042 .6172 .4164 .1256 .0207 .0016 .0000 .0000 .0000
6 .9976 .9133 .7858 .6080 .2500 .0577 .0065 .0003 .0000 .0000
7 .9996 .9679 .8982 .7723 .4159 .1316 .0210 .0013 .0000 .0000
8 .9999 .9900 .9591 .8867 .5956 .2517 .0565 .0051 .0001 .0000
9 1.0000 .9974 .9861 .9520 .7553 .4119 .1275 .0171 .0006 .0000
10 .9994 .9961 .9829 .8725 .5881 .2447 .0480 .0026 .0000
11 .9999 .9991 .9949 .9435 .7483 .4044 .1133 .0100 .0001
12 1.0000 .9998 .9987 .9790 .8684 .5841 .2277 .0321 .0004
13 1.0000 .9997 .9935 .9423 .7500 .3920 .0867 .0024
14 1.0000 .9984 .9793 .8744 .5836 .1958 .0113
15 .9997 .9941 .9490 .7625 .3704 .0432
16 1.0000 .9987 .9840 .8929 .5886 .1330
17 .9998 .9964 .9645 .7939 .3231
18 1.0000 .9995 .9924 .9308 .6083
19 1.0000 .9992 .9885 .8784
20 1.0000 1.0000 1.0000

280
x
X λk
Tabla A.2: Distribución de Poisson. P (P(λ) ≤ x) = e−λ
k=0
k!

λ
x 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066


1 0.9953 0.9825 0.9631 0.9384 0.9098 0.8781 0.8442 0.8088 0.7725
2 0.9998 0.9989 0.9964 0.9921 0.9856 0.9769 0.9659 0.9526 0.9371
3 1.0000 0.9999 0.9997 0.9992 0.9982 0.9966 0.9942 0.9909 0.9865
4 1.0000 1.0000 0.9999 0.9998 0.9996 0.9992 0.9986 0.9977
5 1.0000 1.0000 1.0000 0.9999 0.9998 0.9997
6 1.0000 1.0000 1.0000

λ
x 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0 0.3679 0.2231 0.1353 0.0821 0.0498 0.0302 0.0183 0.0111 0.0067


1 0.7358 0.5578 0.4060 0.2873 0.1991 0.1359 0.0916 0.0611 0.0404
2 0.9197 0.8088 0.6767 0.5438 0.4232 0.3208 0.2381 0.1736 0.1247
3 0.9810 0.9344 0.8571 0.7576 0.6472 0.5366 0.4335 0.3423 0.2650
4 0.9963 0.9814 0.9473 0.8912 0.8153 0.7254 0.6288 0.5321 0.4405
5 0.9994 0.9955 0.9834 0.9580 0.9161 0.8576 0.7851 0.7029 0.6160
6 0.9999 0.9991 0.9955 0.9858 0.9665 0.9347 0.8893 0.8311 0.7622
7 1.0000 0.9998 0.9989 0.9958 0.9881 0.9733 0.9489 0.9134 0.8666
8 1.0000 0.9998 0.9989 0.9962 0.9901 0.9786 0.9597 0.9319
9 1.0000 0.9997 0.9989 0.9967 0.9919 0.9829 0.9682
10 0.9999 0.9997 0.9990 0.9972 0.9933 0.9863
11 1.0000 0.9999 0.9997 0.9991 0.9976 0.9945
12 1.0000 0.9999 0.9997 0.9992 0.9980
13 1.0000 0.9999 0.9997 0.9993
14 1.0000 0.9999 0.9998
15 1.0000 0.9999
16 1.0000

281
Tabla A.2: Distribución de Poisson (Continuación)

λ
x 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5

0 0.0041 0.0025 0.0015 0.0009 0.0006 0.0003 0.0002 0.0001 0.0001


1 0.0266 0.0174 0.0113 0.0073 0.0047 0.0030 0.0019 0.0012 0.0008
2 0.0884 0.0620 0.0430 0.0296 0.0203 0.0138 0.0093 0.0062 0.0042
3 0.2017 0.1512 0.1118 0.0818 0.0591 0.0424 0.0301 0.0212 0.0149
4 0.3575 0.2851 0.2237 0.1730 0.1321 0.0996 0.0744 0.0550 0.0403
5 0.5289 0.4457 0.3690 0.3007 0.2414 0.1912 0.1496 0.1157 0.0885
6 0.6860 0.6063 0.5265 0.4497 0.3782 0.3134 0.2562 0.2068 0.1649
7 0.8095 0.7440 0.6728 0.5987 0.5246 0.4530 0.3856 0.3239 0.2687
8 0.8944 0.8472 0.7916 0.7291 0.6620 0.5925 0.5231 0.4557 0.3918
9 0.9462 0.9161 0.8774 0.8305 0.7764 0.7166 0.6530 0.5874 0.5218
10 0.9747 0.9574 0.9332 0.9015 0.8622 0.8159 0.7634 0.7060 0.6453
11 0.9890 0.9799 0.9661 0.9467 0.9208 0.8881 0.8487 0.8030 0.7520
12 0.9955 0.9912 0.9840 0.9730 0.9573 0.9362 0.9091 0.8758 0.8364
13 0.9983 0.9964 0.9929 0.9872 0.9784 0.9658 0.9486 0.9261 0.8981
14 0.9994 0.9986 0.9970 0.9943 0.9897 0.9827 0.9726 0.9585 0.9400
15 0.9998 0.9995 0.9988 0.9976 0.9954 0.9918 0.9862 0.9780 0.9665
16 0.9999 0.9998 0.9996 0.9990 0.9980 0.9963 0.9934 0.9889 0.9823
17 1.0000 0.9999 0.9998 0.9996 0.9992 0.9984 0.9970 0.9947 0.9911
18 1.0000 0.9999 0.9999 0.9997 0.9993 0.9987 0.9976 0.9957
19 1.0000 1.0000 0.9999 0.9997 0.9995 0.9989 0.9980
20 1.0000 0.9999 0.9998 0.9996 0.9991
21 1.0000 0.9999 0.9998 0.9996
22 1.0000 0.9999 0.9999
23 1.0000 0.9999
24 1.0000

282
Tabla A.2: Distribución de Poisson (Continuación)
λ
x 10.0 11.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0
0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.0005 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0028 0.0012 0.0005 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000
3 0.0103 0.0049 0.0023 0.0011 0.0005 0.0002 0.0001 0.0000 0.0000
4 0.0293 0.0151 0.0076 0.0037 0.0018 0.0009 0.0004 0.0002 0.0001
5 0.0671 0.0375 0.0203 0.0107 0.0055 0.0028 0.0014 0.0007 0.0003
6 0.1301 0.0786 0.0458 0.0259 0.0142 0.0076 0.0040 0.0021 0.0010
7 0.2202 0.1432 0.0895 0.0540 0.0316 0.0180 0.0100 0.0054 0.0029
8 0.3328 0.2320 0.1550 0.0998 0.0621 0.0374 0.0220 0.0126 0.0071
9 0.4579 0.3405 0.2424 0.1658 0.1094 0.0699 0.0433 0.0261 0.0154
10 0.5830 0.4599 0.3472 0.2517 0.1757 0.1185 0.0774 0.0491 0.0304
11 0.6968 0.5793 0.4616 0.3532 0.2600 0.1848 0.1270 0.0847 0.0549
12 0.7916 0.6887 0.5760 0.4631 0.3585 0.2676 0.1931 0.1350 0.0917
13 0.8645 0.7813 0.6815 0.5730 0.4644 0.3632 0.2745 0.2009 0.1426
14 0.9165 0.8540 0.7720 0.6751 0.5704 0.4657 0.3675 0.2808 0.2081
15 0.9513 0.9074 0.8444 0.7636 0.6694 0.5681 0.4667 0.3715 0.2867
16 0.9730 0.9441 0.8987 0.8355 0.7559 0.6641 0.5660 0.4677 0.3751
17 0.9857 0.9678 0.9370 0.8905 0.8272 0.7489 0.6593 0.5640 0.4686
18 0.9928 0.9823 0.9626 0.9302 0.8826 0.8195 0.7423 0.6550 0.5622
19 0.9965 0.9907 0.9787 0.9573 0.9235 0.8752 0.8122 0.7363 0.6509
20 0.9984 0.9953 0.9884 0.9750 0.9521 0.9170 0.8682 0.8055 0.7307
21 0.9993 0.9977 0.9939 0.9859 0.9712 0.9469 0.9108 0.8615 0.7991
22 0.9997 0.9990 0.9970 0.9924 0.9833 0.9673 0.9418 0.9047 0.8551
23 0.9999 0.9995 0.9985 0.9960 0.9907 0.9805 0.9633 0.9367 0.8989
24 1.0000 0.9998 0.9993 0.9980 0.9950 0.9888 0.9777 0.9594 0.9317
25 0.9999 0.9997 0.9990 0.9974 0.9938 0.9869 0.9748 0.9554
26 1.0000 0.9999 0.9995 0.9987 0.9967 0.9925 0.9848 0.9718
27 0.9999 0.9998 0.9994 0.9983 0.9959 0.9912 0.9827
28 1.0000 0.9999 0.9997 0.9991 0.9978 0.9950 0.9897
29 1.0000 0.9999 0.9996 0.9989 0.9973 0.9941
30 0.9999 0.9998 0.9994 0.9986 0.9967
31 1.0000 0.9999 0.9997 0.9993 0.9982
32 1.0000 0.9999 0.9996 0.9990
33 0.9999 0.9998 0.9995
34 1.0000 0.9999 0.9998
35 1.0000 0.9999
36 0.9999
37 1.0000

283
Tabla A.3: Distribución Normal Estándar. P (N(0, 1) ≥ z)

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776

0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148
0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379

1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681
1.5 .0668 .0655 .0642 .0630 .0618 .0606 .0594 .0582 .0571 .0559

284
Tabla A.3: Distribución Normal Estándar (Continuación)

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183

2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048

2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
2.9 .0019 .0018 .0018 .0017 .0016 .0016 .0015 .0015 .0014 .0014
3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010

3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007
3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005
3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003
3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002

285
Tabla A.4: Distribución t-Student. P (tn ≥ a)

Probabilidades
Grados de
0.40 0.25 0.15 0.10 0.05 0.025 0.001 0.005
libertad

1 0.3249 1.0000 1.9626 3.0777 6.3138 12.7062 31.8205 63.6567


2 0.2887 0.8165 1.3862 1.8856 2.9200 4.3027 6.9646 9.9248
3 0.2767 0.7649 1.2498 1.6377 2.3534 3.1824 4.5408 5.8408
4 0.2707 0.7407 1.1896 1.5332 2.1318 2.7764 3.7470 4.6041
5 0.2672 0.7267 1.1558 1.4759 2.0150 2.5706 3.3649 4.0321

6 0.2648 0.7176 1.1342 1.4398 1.9432 2.4469 3.1427 3.7074


7 0.2632 0.7111 1.1192 1.4149 1.8946 2.3646 2.9980 3.4995
8 0.2619 0.7064 1.1081 1.3968 1.8595 2.3060 2.8965 3.3554
9 0.2610 0.7027 1.0997 1.3830 1.8331 2.2622 2.8215 3.2498
10 0.2602 0.6998 1.0931 1.3722 1.8125 2.2281 2.7638 3.1693

11 0.2596 0.6974 1.0877 1.3634 1.7959 2.2010 2.7181 3.1058


12 0.2590 0.6955 1.0832 1.3562 1.7823 2.1788 2.6810 3.0546
13 0.2586 0.6938 1.0795 1.3502 1.7709 2.1604 2.6503 3.0123
14 0.2582 0.6924 1.0763 1.3450 1.7613 2.1448 2.6245 2.9768
15 0.2579 0.6912 1.0735 1.3406 1.7531 2.1314 2.6025 2.9467

16 0.2576 0.6901 1.0711 1.3368 1.7459 2.1199 2.5835 2.9208


17 0.2573 0.6892 1.0690 1.3334 1.7396 2.1098 2.5669 2.8982
18 0.2571 0.6884 1.0672 1.3304 1.7341 2.1009 2.5524 2.8784
19 0.2569 0.6876 1.0655 1.3277 1.7291 2.0930 2.5395 2.8609
20 0.2567 0.6870 1.0640 1.3253 1.7247 2.0860 2.5280 2.8453

286
Tabla A.4: Distribución t-Student (Continuación)

Probabilidades
Grados de
0.40 0.25 0.15 0.10 0.05 0.025 0.001 0.005
libertad

21 0.2566 0.6864 1.0627 1.3232 1.7207 2.0796 2.5176 2.8314


22 0.2564 0.6858 1.0614 1.3212 1.7171 2.0739 2.5083 2.8188
23 0.2563 0.6853 1.0603 1.3195 1.7139 2.0687 2.4999 2.8073
24 0.2562 0.6848 1.0593 1.3178 1.7109 2.0639 2.4922 2.7969
25 0.2561 0.6844 1.0584 1.3163 1.7081 2.0595 2.4851 2.7874

26 0.2560 0.6840 1.0575 1.3150 1.7056 2.0555 2.4786 2.7787


27 0.2559 0.6837 1.0567 1.3137 1.7033 2.0518 2.4727 2.7707
28 0.2558 0.6834 1.0560 1.3125 1.7011 2.0484 2.4671 2.7633
29 0.2557 0.6830 1.0553 1.3114 1.6991 2.0452 2.4620 2.7564
30 0.2556 0.6828 1.0547 1.3104 1.6973 2.0423 2.4573 2.7500

35 0.2553 0.6816 1.0520 1.3062 1.6896 2.0301 2.4377 2.7238


40 0.2550 0.6807 1.0500 1.3031 1.6839 2.0211 2.4233 2.7045
45 0.2549 0.6800 1.0485 1.3006 1.6794 2.0141 2.4121 2.6896
50 0.2547 0.6794 1.0473 1.2987 1.6759 2.0086 2.4033 2.6778
60 0.2545 0.6786 1.0455 1.2958 1.6706 2.0003 2.3901 2.6603

70 0.2543 0.6780 1.0442 1.2938 1.6669 1.9944 2.3808 2.6479


80 0.2542 0.6776 1.0432 1.2922 1.6641 1.9901 2.3739 2.6387
90 0.2541 0.6772 1.0424 1.2910 1.6620 1.9867 2.3685 2.6316
100 0.2540 0.6770 1.0418 1.2901 1.6602 1.9840 2.3642 2.6259
120 0.2539 0.6765 1.0409 1.2886 1.6577 1.9799 2.3578 2.6174

150 0.2538 0.6761 1.0400 1.2872 1.6551 1.9759 2.3515 2.6090


200 0.2537 0.6757 1.0391 1.2858 1.6525 1.9719 2.3451 2.6006
300 0.2536 0.6753 1.0382 1.2844 1.6499 1.9679 2.3388 2.5923
∞ 0.2533 0.6745 1.0364 1.2816 1.6449 1.9600 2.3263 2.5758

287
Tabla A.5: Distribucón χ2n . P (χ2n ≥ a)

Probabilidades
Grados de
0.99 0.975 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.025 0.01
libertad

1 1.571∗ 9.821∗ 39.320∗ 0.016 0.102 0.455 1.323 2.706 3.841 5.024 6.635
2 0.020 0.051 0.103 0.211 0.575 1.386 2.773 4.605 5.991 7.378 9.210
3 0.115 0.216 0.352 0.584 1.213 2.366 4.108 6.252 7.815 9.349 11.346
4 0.297 0.484 0.711 1.064 1.923 3.357 5.385 7.779 9.488 11.143 13.277
5 0.554 0.831 1.145 1.610 2.675 4.351 6.626 9.236 11.070 12.832 15.086

6 0.872 1.237 1.635 2.204 3.455 5.348 7.841 10.645 12.592 14.449 16.812
288

7 1.239 1.690 2.167 2.833 4.255 6.346 9.037 12.017 14.067 16.013 18.475
8 1.646 2.180 2.733 3.490 5.071 7.344 10.219 13.362 15.507 17.535 20.090
9 2.088 2.700 3.325 4.168 5.899 8.343 11.389 14.684 16.919 19.023 21.666
10 2.558 3.247 3.940 4.865 6.737 9.342 12.549 15.987 18.307 20.483 23.209

11 3.053 3.816 4.575 5.578 7.584 10.341 13.701 17.275 19.675 21.920 24.725
12 3.571 4.404 5.226 6.304 8.438 11.340 14.845 18.549 21.026 23.337 26.217
13 4.107 5.009 5.892 7.041 9.299 12.340 15.984 19.812 22.362 24.712 27.688
14 4.660 5.629 6.571 7.790 10.165 13.339 17.117 21.064 23.685 26.119 29.141
15 5.229 6.262 7.261 8.547 11.037 14.339 18.245 22.307 24.996 27.488 30.578

16 5.812 6.908 7.962 9.312 11.912 15.338 19.369 23.542 26.296 28.845 32.000
17 6.408 7.564 8.672 10.085 12.792 16.338 20.489 24.769 27.587 30.191 33.409
18 7.015 8.231 9.390 10.865 13.675 17.338 21.605 25.989 28.869 31.526 34.805
19 7.633 8.907 10.117 11.651 14.562 18.338 22.718 27.204 30.144 32.852 36.191
20 8.260 9.591 10.851 12.443 15.452 19.337 23.828 28.412 31.410 34.170 37.566

∗ Dividir entre 1000


Tabla A.5: Distribución χ2n (Continuación)

Probabilidades

Grados de
libertad 0.99 0.975 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.025 0.01

21 8.897 10.283 11.591 13.240 16.344 20.337 24.935 29.615 32.671 35.479 38.932
22 9.542 10.982 12.338 14.041 17.240 21.337 26.039 30.813 33.924 36.781 40.289
23 10.196 11.689 13.091 14.848 18.137 22.337 27.141 32.007 35.172 38.076 41.638
24 10.856 12.401 13.848 15.659 19.037 23.337 28.241 33.196 36.415 39.364 42.980
25 11.524 13.120 14.611 16.473 19.939 24.337 29.339 34.382 37.652 40.646 44.314
289

26 12.198 13.844 15.379 17.292 20.843 25.336 30.435 35.563 38.885 41.923 45.642
27 12.879 14.573 16.151 18.114 21.749 26.336 31.528 36.741 40.113 43.194 46.963
28 13.565 15.308 16.928 18.939 22.657 27.336 32.620 37.916 41.329 44.461 48.278
29 14.256 16.047 17.708 19.768 23.567 28.336 33.711 39.087 42.557 45.722 49.588
30 14.954 16.791 18.493 20.599 24.478 29.336 34.800 40.256 43.773 46.979 50.892

40 22.164 24.433 26.509 29.050 33.660 39.335 45.616 51.805 55.758 59.342 63.691
50 29.707 32.357 34.764 37.689 42.942 49.335 56.334 63.167 67.505 71.420 76.154
60 37.485 40.482 43.188 46.459 52.294 59.335 66.981 74.397 79.082 83.298 88.379
70 45.442 48.758 51.739 55.329 61.698 69.334 77.577 85.527 90.531 95.023 100.425
80 53.540 57.153 60.391 64.278 71.144 70.334 88.130 96.578 101.879 106.629 112.329
90 61.754 65.647 69.126 73.291 80.625 89.334 98.650 107.565 113.145 118.136 124.116
100 70.065 74.222 77.929 82.358 90.133 99.334 109.141 118.498 124.342 129.561 135.807
Tabla A.6.1: Distribución Fnm . P (Fnm ≥ a) = 0.25

Grados de Grados del libertad del numerador (n)

libertad del

denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞

1 5.83 7.50 8.20 8.58 8.82 8.98 9.10 9.19 9.26 9.32 9.41 9.49 9.58 9.63 9.67 9.71 9.76 9.80 9.85
2 2.57 3.00 3.15 3.23 3.28 3.31 3.34 3.35 3.37 3.38 3.39 3.41 3.43 3.43 3.44 3.45 3.46 3.47 3.48
3 2.02 2.28 2.36 2.39 2.41 2.42 2.43 2.44 2.44 2.44 2.45 2.46 2.46 2.46 2.47 2.47 2.47 2.47 2.47
4 1.81 2.00 2.05 2.06 2.07 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08
5 1.69 1.85 1.88 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.88 1.88 1.88 1.88 1.87 1.87 1.87

6 1.62 1.76 1.78 1.79 1.79 1.78 1.78 1.78 1.77 1.77 1.77 1.76 1.76 1.75 1.75 1.75 1.74 1.74 1.74
7 1.57 1.70 1.72 1.72 1.71 1.71 1.70 1.70 1.69 1.69 1.68 1.68 1.67 1.67 1.66 1.66 1.65 1.65 1.65
8 1.54 1.66 1.67 1.66 1.66 1.65 1.64 1.64 1.63 1.63 1.62 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.58
9 1.51 1.62 1.63 1.63 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.54 1.53 1.53
10 1.49 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.53 1.52 1.52 1.51 1.51 1.50 1.49 1.48

11 1.47 1.58 1.58 1.57 1.56 1.55 1.54 1.53 1.53 1.52 1.51 1.50 1.49 1.49 1.48 1.47 1.47 1.46 1.45
12 1.46 1.56 1.56 1.55 1.54 1.53 1.52 1.51 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.45 1.44 1.43 1.42
290

13 1.45 1.55 1.55 1.53 1.52 1.51 1.50 1.49 1.49 1.48 1.47 1.46 1.45 1.44 1.43 1.42 1.42 1.41 1.40
14 1.44 1.53 1.53 1.52 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.44 1.43 1.42 1.41 1.41 1.40 1.39 1.38
15 1.43 1.52 1.52 1.51 1.49 1.48 1.47 1.46 1.46 1.45 1.44 1.43 1.41 1.41 1.40 1.39 1.38 1.37 1.36

16 1.42 1.51 1.51 1.50 1.48 1.47 1.46 1.45 1.44 1.44 1.43 1.41 1.40 1.39 1.38 1.37 1.36 1.35 1.34
17 1.42 1.51 1.50 1.49 1.47 1.46 1.45 1.44 1.43 1.43 1.41 1.40 1.39 1.38 1.37 1.36 1.35 1.34 1.33
18 1.41 1.50 1.49 1.48 1.46 1.45 1.44 1.43 1.42 1.42 1.40 1.39 1.38 1.37 1.36 1.35 1.34 1.33 1.32
19 1.41 1.49 1.49 1.47 1.46 1.44 1.43 1.42 1.41 1.41 1.40 1.38 1.37 1.36 1.35 1.34 1.33 1.32 1.30
20 1.40 1.49 1.48 1.47 1.45 1.44 1.43 1.42 1.41 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.32 1.31 1.29

21 1.40 1.48 1.48 1.46 1.44 1.43 1.42 1.41 1.40 1.39 1.38 1.37 1.35 1.34 1.33 1.32 1.31 1.30 1.28
22 1.40 1.48 1.47 1.45 1.44 1.42 1.41 1.40 1.39 1.39 1.37 1.36 1.34 1.33 1.32 1.31 1.30 1.29 1.28
23 1.39 1.47 1.47 1.45 1.43 1.42 1.41 1.40 1.39 1.38 1.37 1.35 1.34 1.33 1.32 1.31 1.30 1.28 1.27
24 1.39 1.47 1.46 1.44 1.43 1.41 1.40 1.39 1.38 1.38 1.36 1.35 1.33 1.32 1.31 1.30 1.29 1.28 1.26
25 1.39 1.47 1.46 1.44 1.42 1.41 1.40 1.39 1.38 1.37 1.36 1.34 1.33 1.32 1.31 1.29 1.28 1.27 1.25

26 1.38 1.46 1.45 1.44 1.42 1.41 1.39 1.38 1.37 1.37 1.35 1.34 1.32 1.31 1.30 1.29 1.28 1.26 1.25
27 1.38 1.46 1.45 1.43 1.42 1.40 1.39 1.38 1.37 1.36 1.35 1.33 1.32 1.31 1.30 1.28 1.27 1.26 1.24
28 1.38 1.46 1.45 1.43 1.41 1.40 1.39 1.38 1.37 1.36 1.34 1.33 1.31 1.30 1.29 1.28 1.27 1.25 1.24
29 1.38 1.45 1.45 1.43 1.41 1.40 1.38 1.37 1.36 1.35 1.34 1.32 1.31 1.30 1.29 1.27 1.26 1.25 1.23
30 1.38 1.45 1.44 1.42 1.41 1.39 1.38 1.37 1.36 1.35 1.34 1.32 1.30 1.29 1.28 1.27 1.26 1.24 1.23

40 1.36 1.44 1.42 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.31 1.30 1.28 1.26 1.25 1.24 1.22 1.21 1.19
60 1.35 1.42 1.41 1.38 1.37 1.35 1.33 1.32 1.31 1.30 1.29 1.27 1.25 1.24 1.22 1.21 1.19 1.17 1.15
120 1.34 1.40 1.39 1.37 1.35 1.33 1.31 1.30 1.29 1.28 1.26 1.24 1.22 1.21 1.19 1.18 1.16 1.13 1.10
∞ 1.32 1.39 1.37 1.35 1.33 1.31 1.29 1.28 1.27 1.25 1.24 1.22 1.19 1.18 1.16 1.14 1.12 1.08 1.00
Tabla A.6.1: Distribución Fnm . P (Fnm ≥ a) = 0.10

Grados de Grados del libertad del numerador (n)

libertad del

denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞

1 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 60.71 61.22 61.74 62.00 62.26 62.53 62.79 63.06 63.33
2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49
3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.18 5.17 5.16 5.15 5.14 5.13
4 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76
5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.14 3.12 3.10

6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.72
7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47
8 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29
9 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.28 2.25 2.23 2.21 2.18 2.16
10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.18 2.16 2.13 2.11 2.08 2.06

11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.03 2.00 1.97
12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.15 2.10 2.06 2.04 2.01 1.99 1.96 1.93 1.90
291

13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.90 1.88 1.85
14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.05 2.01 1.96 1.94 1.91 1.89 1.86 1.83 1.80
15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.90 1.87 1.85 1.82 1.79 1.76

16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.99 1.94 1.89 1.87 1.84 1.81 1.78 1.75 1.72
17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.96 1.91 1.86 1.84 1.81 1.78 1.75 1.72 1.69
18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66
19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63
20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61

21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.87 1.83 1.78 1.75 1.72 1.69 1.66 1.62 1.59
22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.64 1.60 1.57
23 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.84 1.80 1.74 1.72 1.69 1.66 1.62 1.59 1.55
24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53
25 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.82 1.77 1.72 1.69 1.66 1.63 1.59 1.56 1.52

26 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.81 1.76 1.71 1.68 1.65 1.61 1.58 1.54 1.50
27 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.80 1.75 1.70 1.67 1.64 1.60 1.57 1.53 1.49
28 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.79 1.74 1.69 1.66 1.63 1.59 1.56 1.52 1.48
29 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.78 1.73 1.68 1.65 1.62 1.58 1.55 1.51 1.47
30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46

40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.47 1.42 1.38
60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 1.51 1.48 1.44 1.40 1.35 1.29
120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.60 1.55 1.48 1.45 1.41 1.37 1.32 1.26 1.19
∞ 2.71 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63 1.60 1.55 1.49 1.42 1.38 1.34 1.30 1.24 1.17 1.00
Tabla A.6.1: Distribución Fnm . P (Fnm ≥ a) = 0.05

Grados de Grados del libertad del numerador (n)

libertad del

denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞

1 161.40 199.50 215.70 224.60 230.20 234.00 236.80 238.90 240.50 241.90 243.90 245.90 248.00 249.10 250.10 251.10 252.20 253.30 254.30
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.39 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.75 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
292

13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84

21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71

26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62

40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
∞ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
Tabla A.6.1: Distribución Fnm . P (Fnm ≥ a) = 0.025

Grados de Grados del libertad del numerador (n)

libertad del

denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞

1 647.80 799.50 864.20 899.60 921.80 937.10 948.20 956.70 963.30 968.60 976.70 984.90 993.10 997.20 1001.00 1006.00 1010.00 1014.00 1018.00
2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26
5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02

6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.41 4.36 4.31 4.25 4.20 4.14
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08

11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88
12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72
293

13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40

16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25
18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09

21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91

26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88
27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85
28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83
29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79

40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.68
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31
∞ 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
Tabla A.6.1: Distribución Fnm . P (Fnm ≥ a) = 0.01

Grados de Grados del libertad del numerador (n)

libertad del

denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞

1 4052.19 4999.50 5403.00 5625.00 5764.00 5859.00 5928.00 5982.00 6022.00 6056.00 6106.00 6157.00 6209.00 6235.00 6261.00 6287.00 6313.00 6399.00 6366.00
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.00
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02

6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91

11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
294

13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87

16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75
17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42

21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17

26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13
27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10
28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06
29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01

40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
∞ 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
Tabla A.6.1: Distribución Fnm . P (Fnm ≥ a) = 0.005

Grados de Grados del libertad del numerador (n)

libertad del

denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞

1 162.11∗ 200.00∗ 216.15∗ 225.00∗ 230.56∗ 234.37∗ 237.15∗ 239.25∗ 240.91∗ 242.24∗ 244.26∗ 246.30∗ 248.36∗ 249.40∗ 250.44∗ 251.48∗ 252.53∗ 253.59∗ 254.65∗
2 198.50 199.00 199.17 199.25 199.30 199.33 199.36 199.37 199.39 199.40 199.42 199.43 199.45 199.46 199.47 199.47 199.48 199.49 199.50
3 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88 43.69 43.39 43.08 42.78 42.62 42.47 42.31 42.15 41.99 41.83
4 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14 20.97 20.70 20.44 20.17 20.03 19.89 19.75 19.61 19.47 19.32
5 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62 13.38 13.15 12.90 12.78 12.66 12.53 12.40 12.27 12.14

6 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25 10.03 9.81 9.59 9.47 9.36 9.24 9.12 9.00 8.88
7 16.24 12.40 10.88 10.05 9.52 9.16 8.89 8.68 8.51 8.38 8.18 7.97 7.75 7.64 7.53 7.42 7.31 7.19 7.08
8 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34 7.21 7.01 6.81 6.61 6.50 6.40 6.29 6.18 6.06 5.95
9 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54 6.42 6.23 6.03 5.83 5.73 5.62 5.52 5.41 5.30 5.19
10 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85 5.66 5.47 5.27 5.17 5.07 4.97 4.86 4.75 4.64

11 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54 5.42 5.24 5.05 4.86 4.76 4.65 4.55 4.44 4.34 4.23
12 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09 4.91 4.72 4.53 4.43 4.33 4.23 4.12 4.01 3.90
13 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94 4.82 4.64 4.46 4.27 4.17 4.07 3.97 3.87 3.76 3.65
295

14 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72 4.60 4.43 4.25 4.06 3.96 3.86 3.76 3.66 3.55 3.44
15 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42 4.25 4.07 3.88 3.79 3.69 3.58 3.48 3.37 3.26

16 10.58 7.51 6.30 5.64 5.21 4.91 4.69 4.52 4.38 4.27 4.10 3.92 3.73 3.64 3.54 3.44 3.33 3.22 3.11
17 10.38 7.35 6.16 5.50 5.07 4.78 4.56 4.39 4.25 4.14 3.97 3.79 3.61 3.51 3.41 3.31 3.21 3.10 2.98
18 10.22 7.21 6.03 5.37 4.96 4.66 4.44 4.28 4.14 4.03 3.86 3.68 3.50 3.40 3.30 3.20 3.10 2.99 2.87
19 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04 3.93 3.76 3.59 3.40 3.31 3.21 3.11 3.00 2.89 2.78
20 9.94 6.99 5.82 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.68 3.50 3.32 3.22 3.12 3.02 2.92 2.81 2.69

21 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88 3.77 3.60 3.43 3.24 3.15 3.05 2.95 2.84 2.73 2.61
22 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81 3.70 3.54 3.36 3.18 3.08 2.98 2.88 2.77 2.66 2.55
23 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75 3.64 3.47 3.30 3.12 3.02 2.92 2.82 2.71 2.60 2.48
24 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69 3.59 3.42 3.25 3.06 2.97 2.87 2.77 2.66 2.55 2.43
25 9.48 6.60 5.46 4.84 4.43 4.15 3.94 3.78 3.64 3.54 3.37 3.20 3.01 2.92 2.82 2.72 2.61 2.50 2.38

26 9.41 6.54 5.41 4.79 4.38 4.10 3.89 3.73 3.60 3.49 3.33 3.15 2.97 2.87 2.77 2.67 2.56 2.45 2.33
27 9.34 6.49 5.36 4.74 4.34 4.06 3.85 3.69 3.56 3.45 3.28 3.11 2.93 2.83 2.73 2.63 2.52 2.41 2.29
28 9.28 6.44 5.32 4.70 4.30 4.02 3.81 3.65 3.52 3.41 3.25 3.07 2.89 2.79 2.69 2.59 2.48 2.37 2.25
29 9.23 6.40 5.28 4.66 4.26 3.98 3.77 3.61 3.48 3.38 3.21 3.04 2.86 2.76 2.66 2.56 2.45 2.33 2.21
30 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34 3.18 3.01 2.82 2.73 2.63 2.52 2.42 2.30 2.18

40 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 3.12 2.95 2.78 2.60 2.50 2.40 2.30 2.18 2.06 1.93
60 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.74 2.57 2.39 2.29 2.19 2.08 1.96 1.83 1.69
120 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.54 2.37 2.19 2.09 1.98 1.87 1.75 1.61 1.43
∞ 7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.74 2.62 2.52 2.36 2.19 2.00 1.90 1.79 1.67 1.53 1.36 1.00

* Muliplicar por 100


Tabla A.6.1: Distribución Fnm . P (Fnm ≥ a) = 0.001

Grados de Grados del libertad del numerador (n)

libertad del

denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞

1 4053∗ 5000∗ 5404∗ 5625∗ 5764∗ 5859∗ 5929∗ 5981∗ 6023∗ 6056∗ 6107∗ 6158∗ 6209∗ 6235∗ 6261∗ 6287∗ 6313∗ 6340∗ 6366∗
2 998.50 999.00 999.20 999.20 999.30 999.30 999.40 999.40 999.40 999.40 999.40 999.40 999.40 999.50 999.50 999.50 999.50 999.50 999.50
3 167.00 148.50 141.10 137.10 134.60 132.80 131.60 130.60 129.90 129.20 128.30 127.40 126.40 125.90 125.40 125.00 124.50 124.00 123.50
4 74.14 61.25 56.18 53.44 51.71 50.53 49.66 49.00 48.47 48.05 47.41 46.76 46.10 45.77 45.43 45.09 44.75 44.40 44.05
5 47.18 37.12 33.20 31.09 29.75 28.83 28.16 27.65 27.24 26.92 26.42 25.91 25.39 25.13 24.87 24.60 24.33 24.06 23.79

6 35.51 27.00 23.70 21.92 20.80 20.03 19.46 19.03 18.69 18.41 17.99 17.56 17.12 16.90 16.67 16.44 16.21 15.98 15.75
7 29.25 21.69 18.77 17.20 16.21 15.52 15.02 14.63 14.33 14.08 13.71 13.32 12.93 12.73 12.53 12.33 12.12 11.91 11.70
8 25.41 18.49 15.83 14.39 13.48 12.86 12.40 12.05 11.77 11.54 11.19 10.84 10.48 10.30 10.11 9.92 9.73 9.53 9.33
9 22.86 16.39 13.90 12.56 11.71 11.13 10.70 10.37 10.11 9.89 9.57 9.24 8.90 8.72 8.55 8.37 8.19 8.00 7.81
10 21.04 14.91 12.55 11.28 10.48 9.93 9.52 9.20 8.96 8.75 8.45 8.13 7.80 7.64 7.47 7.30 7.12 6.94 6.76

11 19.69 13.81 11.56 10.35 9.58 9.05 8.66 8.35 8.12 7.92 7.63 7.32 7.01 6.85 6.68 6.52 6.35 6.17 6.00
12 18.64 12.97 10.80 9.63 8.89 8.38 8.00 7.71 7.48 7.29 7.00 6.71 6.40 6.25 6.09 5.93 5.76 5.59 5.42
13 17.82 12.31 10.21 9.07 8.35 7.86 7.49 7.21 6.98 6.80 6.52 6.23 5.93 5.78 5.63 5.47 5.30 5.14 4.97
296

14 17.14 11.78 9.73 8.62 7.92 7.44 7.08 6.80 6.58 6.40 6.13 5.85 5.56 5.41 5.25 5.10 4.94 4.77 4.60
15 16.59 11.34 9.34 8.25 7.57 7.09 6.74 6.47 6.26 6.08 5.81 5.54 5.25 5.10 4.95 4.80 4.64 4.47 4.31

16 16.12 10.97 9.01 7.94 7.27 6.80 6.46 6.19 5.98 5.81 5.55 5.27 4.99 4.85 4.70 4.54 4.39 4.23 4.06
17 15.72 10.66 8.73 7.68 7.02 6.56 6.22 5.96 5.75 5.58 5.32 5.05 4.78 4.63 4.48 4.33 4.18 4.02 3.85
18 15.38 10.39 8.49 7.46 6.81 6.35 6.02 5.76 5.56 5.39 5.13 4.87 4.59 4.45 4.30 4.15 4.00 3.84 3.67
19 15.08 10.16 8.28 7.27 6.62 6.18 5.85 5.59 5.39 5.22 4.97 4.70 4.43 4.29 4.14 3.99 3.84 3.68 3.51
20 14.82 9.95 8.10 7.10 6.46 6.02 5.69 5.44 5.24 5.08 4.82 4.56 4.29 4.15 4.00 3.86 3.70 3.54 3.38

21 14.59 9.77 7.94 6.95 6.32 5.88 5.56 5.31 5.11 4.95 4.70 4.44 4.17 4.03 3.88 3.74 3.58 3.42 3.26
22 14.38 9.61 7.80 6.81 6.19 5.76 5.44 5.19 4.99 4.83 4.58 4.33 4.06 3.92 3.78 3.63 3.48 3.32 3.15
23 14.20 9.47 7.67 6.70 6.08 5.65 5.33 5.09 4.89 4.73 4.48 4.23 3.96 3.82 3.68 3.53 3.38 3.22 3.05
24 14.03 9.34 7.55 6.59 5.98 5.55 5.23 4.99 4.80 4.64 4.39 4.14 3.87 3.74 3.59 3.45 3.29 3.14 2.97
25 13.88 9.22 7.45 6.49 5.89 5.46 5.15 4.91 4.71 4.56 4.31 4.06 3.79 3.66 3.52 3.37 3.22 3.06 2.89

26 13.74 9.12 7.36 6.41 5.80 5.38 5.07 4.83 4.64 4.48 4.24 3.99 3.72 3.59 3.44 3.30 3.15 2.99 2.82
27 13.61 9.02 7.27 6.33 5.73 5.31 5.00 4.76 4.57 4.41 4.17 3.92 3.66 3.52 3.38 3.23 3.08 2.92 2.75
28 13.50 8.93 7.19 6.25 5.66 5.24 4.93 4.69 4.50 4.35 4.11 3.86 3.60 3.46 3.32 3.18 3.02 2.86 2.69
29 13.39 8.85 7.12 6.19 5.59 5.18 4.87 4.64 4.45 4.29 4.05 3.80 3.54 3.41 3.27 3.12 2.97 2.81 2.64
30 13.29 8.77 7.05 6.12 5.53 5.12 4.82 4.58 4.39 4.24 4.00 3.75 3.49 3.36 3.22 3.07 2.92 2.76 2.59

40 12.61 8.25 6.59 5.70 5.13 4.73 4.44 4.21 4.02 3.87 3.64 3.40 3.14 3.01 2.87 2.73 2.57 2.41 2.23
60 11.97 7.77 6.17 5.31 4.76 4.37 4.09 3.86 3.69 3.54 3.32 3.08 2.83 2.69 2.55 2.41 2.25 2.08 1.89
120 11.38 7.32 5.78 4.95 4.42 4.04 3.77 3.55 3.38 3.24 3.02 2.78 2.53 2.40 2.26 2.11 1.95 1.76 1.54
∞ 10.83 6.91 5.42 4.62 4.10 3.74 3.47 3.27 3.10 2.96 2.74 2.51 2.27 2.13 1.99 1.84 1.66 1.45 1.00

* Muliplicar por 100


Tabla A.7: Distribución del Estadı́stico ∆n de Kolmogorov-Smirnov. P (∆n > x) = p

p 0.2 0.1 0.05 0.02 0.01


n
2 0.684 0.776 0.842 0.900 0.929
3 0.565 0.636 0.708 0.785 0.829
4 0.493 0.565 0.624 0.689 0.734
5 0.447 0.509 0.563 0.627 0.669
6 0.410 0.468 0.519 0.577 0.617
7 0.381 0.436 0.483 0.538 0.576
8 0.358 0.410 0.454 0.507 0.542
9 0.339 0.387 0.430 0.480 0.513
10 0.323 0.369 0.409 0.457 0.489
11 0.308 0.352 0.391 0.437 0.468
12 0.296 0.338 0.375 0.419 0.449
13 0.285 0.325 0.361 0.404 0.432
14 0.275 0.314 0.349 0.390 0.418
15 0.266 0.304 0.338 0.377 0.404
16 0.258 0.295 0.327 0.366 0.392
17 0.250 0.286 0.318 0.355 0.381
18 0.244 0.279 0.309 0.346 0.371
19 0.237 0.271 0.301 0.337 0.361
20 0.232 0.265 0.294 0.329 0.352
21 0.226 0.259 0.287 0.321 0.344
22 0.221 0.253 0.281 0.314 0.337
23 0.216 0.247 0.275 0.307 0.330
24 0.212 0.242 0.269 0.301 0.323
25 0.208 0.238 0.264 0.295 0.317
26 0.204 0.233 0.259 0.290 0.311
27 0.200 0.229 0.254 0.284 0.305
28 0.197 0.225 0.250 0.279 0.300
29 0.193 0.221 0.246 0.275 0.295
30 0.190 0.218 0.242 0.270 0.290
31 0.187 0.214 0.238 0.266 0.285
32 0.184 0.211 0.234 0.262 0.281
33 0.182 0.208 0.231 0.258 0.277
34 0.179 0.205 0.227 0.254 0.273
35 0.177 0.202 0.224 0.251 0.269
36 0.174 0.199 0.221 0.247 0.265
37 0.172 0.196 0.218 0.244 0.262
38 0.170 0.194 0.215 0.241 0.258
39 0.168 0.191 0.213 0.238 0.255
40 0.165 0.189 0.210 0.235 0.252
√ √ √ √ √
n > 40 1.07/ n 1.22/ n 1.36/ n 1.52/ n 1.63/ n

297
Cuadro A.8: Distribución del estadı́stico de Wilcoxon. P {T + > x} = p

p 0.1 0.05 0.025 0.01

3 4 6 6 6
4 9 10 10 10
5 12 14 15 15
6 17 18 20 21
7 22 24 25 27
8 27 30 32 34
9 34 36 39 41
10 40 44 46 49
11 48 52 55 58
12 56 60 64 67
13 64 69 73 78
14 73 79 84 89
15 83 89 94 100
16 93 100 106 112
17 104 111 118 125
18 115 123 130 138
19 127 136 143 152
20 140 149 157 166

298
Cuadro A.9: Distribución del estadı́stico τ de Kendall. P {|T | > x} = p

p 0.2 0.1 0.05 0.02

3 1.0000 1.0000 1.0000 1.0000


4 0.6667 0.6667 1.0000 1.0000
5 0.6000 0.6000 0.8000 0.8000
6 0.4667 0.6000 0.7333 0.7333
7 0.4286 0.5238 0.6190 0.7143
8 0.4128 0.5000 0.5714 0.6429
9 0.3333 0.4444 0.5000 0.6111
10 0.3333 0.4222 0.4667 0.5556

299
Cuadro A.10: Distribución del estadı́stico de Mann-Whitney. P {V > x} = p
m 2 3 4 5 6 7 8 9 10
n p
2 0.100 4 5 7 8 10 12 13 15 16
0.050 4 6 8 9 11 13 14 16 18
0.025 4 6 8 10 12 14 15 17 19
0.010 4 6 8 10 12 14 16 18 20
3 0.100 7 10 12 14 16 18 21 23
0.050 8 11 13 15 18 20 22 25
0.025 9 11 14 16 19 21 24 26
0.010 9 12 15 18 20 22 25 28
4 0.100 12 15 18 21 24 26 29
0.050 14 17 20 23 26 29 32
0.025 15 18 21 24 27 31 34
0.010 16 19 22 26 29 32 36
5 0.100 19 22 26 29 32 36
0.050 20 24 28 31 35 38
0.025 22 26 29 33 37 41
0.010 23 27 31 35 39 43
6 0.100 26 30 34 38 42
0.050 28 33 37 41 45
0.025 30 35 39 43 48
0.010 32 37 41 46 51
7 0.100 35 39 44 48
0.050 37 42 47 52
0.025 40 45 50 55
0.010 42 48 53 58
8 0.100 44 49 55
0.050 48 53 59
0.025 50 56 62
0.010 54 60 66
9 0.100 55 61
0.050 59 65
0.025 63 69
0.010 66 73
10 0.100 67
0.050 72
0.025 76
0.010 80

300
Cuadro A.11: Distribución del estadı́stico de Spearman. P {RS > x} = p

p 0.1 0.05 0.025 0.01 0.005 0.001

4 0.8000 0.8000
5 0.7000 0.8000 0.9000 0.9000
6 0.6000 0.7714 0.8286 0.8857 0.9429
7 0.5357 0.6786 0.7450 0.8571 0.8929 0.9643
8 0.5000 0.6190 0.7143 0.8095 0.8571 0.9286
9 0.4667 0.5833 0.6833 0.7667 0.8167 0.9000
10 0.4424 0.5515 0.6364 0.7333 0.7818 0.8667
11 0.4182 0.5273 0.6091 0.7000 0.7545 0.8364
12 0.3986 0.4965 0.5804 0.6713 0.7273 0.8182
13 0.3791 0.4780 0.5549 0.6429 0.6978 0.7912
14 0.3626 0.4593 0.5341 0.6220 0.6747 0.7670
15 0.3500 0.4429 0.5179 0.6000 0.6536 0.7464
16 0.3382 0.4264 0.5000 0.5824 0.6324 0.7265
17 0.3260 0.4118 0.4853 0.5637 0.6152 0.7083
18 0.3148 0.3994 0.4716 0.5480 0.5975 0.6904
19 0.3070 0.3895 0.4579 0.5333 0.5825 0.6737
20 0.2977 0.3789 0.4451 0.5203 0.5684 0.6586
21 0.2909 0.3688 0.4351 0.5078 0.5545 0.6455
22 0.2829 0.3597 0.4241 0.4963 0.5426 0.6318
23 0.2767 0.3518 0.4150 0.4852 0.5306 0.6186
24 0.2704 0.3435 0.4061 0.4748 0.5200 0.6070
25 0.2646 0.3362 0.3977 0.4654 0.5100 0.5962
26 0.2588 0.3299 0.3894 0.4564 0.5002 0.5856
27 0.2540 0.3236 0.3822 0.4481 0.4915 0.5757
28 0.2490 0.3175 0.3749 0.4401 0.4828 0.5660
29 0.2443 0.3113 0.3685 0.4320 0.4744 0.5567
30 0.2400 0.3059 0.3620 0.4251 0.4665 0.5479

301
302
Resumen
B de distribuciones

303
Distribución F. de densidad F. Caracterı́stica Esperanza Varianza

Bernoulli B(1, p) px q 1−x x = 0, 1 q + peit p pq

 
n
Binomial B(n, p) x px q n−x x = 0, 1, . . . , n (q + peit )n np npq

λx −λ it −1)
Poisson P(λ) e x = 0, 1, . . . eλ(e λ λ
x!

  
K N −A
x n−x A n(N − n)pq
Hipergeométrica H(n, N, A)   x = 0, 1, . . . , n n = np
304

N N N −1
n

p q q
Geométrica G(p) pq x x = 0, 1, . . .
1 − qeit p p2

  pr q q
x+r−1
Binomial Negativa BN(r, p) x pr q x x = 0, 1, . . . r r
(1 − qeit )r p p2
Distribución F. de densidad F. Caracterı́stica Esperanza Varianza

1 eibt − eiat a+b (b − a)2


Uniforme U(a, b) a<x<b
b−a i(b − a)t 2 12

 2
1 x−µ 1
1 −
2 σ itµ − t2 σ 2
Normal N(µ, σ) √ e x∈R e 2 µ σ2
σ 2π

 2
1 Lx − µ 1
1 − µ + σ2
e 2 σ 2 2
Log-Normal Log-N(µ, σ) √ x≥0 e 2 (eσ − 1)e2µ+σ
xσ 2π
305

1
Pearson χ2n  n  xn/2−1 e−x/2 x ≥ 0 (1 − 2it)−n/2 n 2n
2n/2 Γ
2

 
n+1
Γ  − n + 1
2 x2 2 n
t-Student tn √ n 1 + x∈R 0 (n > 1) (n > 2)
nπ Γ n n−2
2

 
n+m
nn/2 mm/2 Γ n+m
2 n/2−1
− m 2m2 (n + m − 2)
F-Snedecor Fn,m n m x (m + nx) 2 x≥0
Γ Γ m−2 n(m − 2)2 (m − 4)
2 2
Distribución F. de densidad F. Caracterı́stica Esperanza Varianza

λ 1 1
Exponencial Exp(λ) λe−λx x ≥ 0
λ − it λ λ2

 n
λn n−1 −λx λ n n
Erlang Er(n, λ) x e x≥0
Γ(n) λ − it λ λ2
 p
q p p−1 −qx q p p
Gamma G(p, q) x e x≥0
Γ(p) q − it q q2

      
r 1 2 1
Weibull W(r, λ) λrxr−1 e−λx x≥0 λ−1/r Γ 1+ λ−2/r Γ 1+ 2
−Γ 1+
306

r r r

1 p pq
Beta B(p, q) xp−1 (1 − x)q−1 0 ≤ x ≥ 1
β(p, q) p+q (p + q)2 (p + q + 1)

( " 2     2 #)
1 1 x − µx x − µx y − µy y − µy
Normal Bidimensional f (x, y) = p exp − − 2ρ +
2πσx σy 1−ρ 2 2(1 − ρ2 ) σx σx σy σy

Вам также может понравиться