Apunte Complementario Estad - Ã - Stica I - Temas Varios

ESTADÍSTICA
Marta Cordero Gracia

José Olarrea Busto
Dpto. de Matemática Aplicada y Estadı́stica
Índice general
1. Estadı́stica descriptiva 1
1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . . . . . . . . 3
1.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Medidas numéricas descriptivas . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Medida de asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Análisis combinatorio 11
2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3. Álgebra de sucesos 19
3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1. Unión de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2. Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3. Propiedades de la unión y la intersección . . . . . . . . . . . . . . . 21
3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . . . . 22
4. Teorı́a de la probabilidad 23
4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . . . 24
i
4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.3. Axiomática del cálculo de probabilidades . . . . . . . . . . . . . . . 26
4.1.4. Axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 28
4.2. Teoremas del cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . 29
4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3.1. Regla de la multiplicación . . . . . . . . . . . . . . . . . . . . . . . 32
4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . 33
4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5. Variable aleatoria unidimensional 37

5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.1. Definición matemática . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.2. Definición intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3.1. Función de distribución y función de densidad . . . . . . . . . . . . 42
5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . 46
5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 46
5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 48
5.5.3. Transformación integral . . . . . . . . . . . . . . . . . . . . . . . . 49
5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6. Momentos de una variable aleatoria unidimensional 53

6.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2. Momento de orden k de una variable aleatoria . . . . . . . . . . . . . . . . 55
6.3. Varianza y desviación tı́pica . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.4. Otros valores tı́picos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.5. Coeficientes de asimetrı́a y curtosis . . . . . . . . . . . . . . . . . . . . . . 58
6.6. Teorema de Markov. Desigualdad de Chebychev . . . . . . . . . . . . . . . 60
6.7. Función generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . 61
6.8. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.8.1. Cambio de variable en la función caracterı́stica . . . . . . . . . . . . 64
ii
7. Variable aleatoria bidimensional y n-dimensional 65
7.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 66
7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 66
7.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . . 69
7.3.1. Función de distribución y función de densidad . . . . . . . . . . . . 69
7.4. Variable aleatoria bidimensional condicional . . . . . . . . . . . . . . . . . 72
7.5. Variables aleatorias bidimensionales independientes . . . . . . . . . . . . . 75
7.6. Momentos de una variable aleatoria bidimensional . . . . . . . . . . . . . . 76
7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . . . . 78
7.6.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 80
7.7. Función caracterı́stica de una variable aleatoria bidimensional . . . . . . . 81
7.8. Transformación de variables aleatorias bidimensionales . . . . . . . . . . . 82
7.8.1. Una función de dos variables aleatorias . . . . . . . . . . . . . . . . 82
7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . . . . . 82
7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . . . . . . . . . 84
8. Distribuciones de probabilidad discretas 85

8.1. Distribución de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . . . . . . . . 86
8.2. Distribución Binomial, B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . 86
8.2.1. Teorema de adición para distribuciones Binomiales . . . . . . . . . 88
8.2.2. Distribución de la proporción . . . . . . . . . . . . . . . . . . . . . 89
8.3. Distribución de Poisson, P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.3.1. Teorema de adición para distribuciones de Poisson . . . . . . . . . . 90
8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.3. Aproximación de una Binomial por una Poisson . . . . . . . . . . . 92
8.4. Distribución Hipergeométrica, H(n, N, A) . . . . . . . . . . . . . . . . . . 92
8.5. Distribución Geométrica, G(p) . . . . . . . . . . . . . . . . . . . . . . . . 94
8.6. Distribución Binomial Negativa, BN(r, p) . . . . . . . . . . . . . . . . . . 95
8.6.1. Teorema de adición para distribuciones Binomiales Negativas . . . . 96
iii
9. Distribuciones de probabilidad continuas 99
9.1. Distribución Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . 100
9.2. Distribución Normal, N(µ, σ) . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.2.1. Teorema de adición para distribuciones Normales . . . . . . . . . . 103
9.2.2. Distribución Normal estándar . . . . . . . . . . . . . . . . . . . . . 104
9.3. Distribución Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . . . . . . 105
9.4. Distribución χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . . . . . . . 107
9.4.1. Teorema de adición para distribuciones χ2 de Pearson . . . . . . . 108
9.5. Distribución t-Student, tn . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.6. Distribución F-Snedecor, Fn,m . . . . . . . . . . . . . . . . . . . . . . . . . 110
9.7. Distribución Exponencial, Exp(λ) . . . . . . . . . . . . . . . . . . . . . . 111
9.7.1. Teorema de adición para distribuciones Exponenciales . . . . . . . . 113
9.8. Distribución de Erlang Er(n, λ) . . . . . . . . . . . . . . . . . . . . . . . 113
9.8.1. Teorema de adición para distribuciones de Erlang . . . . . . . . . . 115
9.9. Relación entre las distribuciones de Poisson, Exponencial y Erlang . . . . . 115
9.10. Distribución de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . . . . . . . 117
9.11. Distribución Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . 118
9.11.1. Teorema de adición para distribuciones Gamma . . . . . . . . . . . 119
9.12. Distribución Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . . . . . . . . 121
9.14. Distribución Normal Bidimensional . . . . . . . . . . . . . . . . . . . . . . 123
10.Convergencia de sucesiones de variables aleatorias 127

10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
10.2. Problema central del lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . . . 129
10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.3. Aproximaciones a la distribución Normal . . . . . . . . . . . . . . . . . . . 130
10.3.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 130
10.3.2. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 131
10.3.3. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 132
10.3.4. Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 132
11.Regresión y correlación 133

11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
iv
11.2. Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.2.1. Método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . 134
11.2.2. Método de la distribución condicional . . . . . . . . . . . . . . . . . 136
11.2.3. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
11.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.3.1. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . . . 140
12.Distribuciones de muestreo 143

12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.2. Definición de estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3. Estadı́stico media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 145
12.3.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 146
(n − 1)s2
12.4. Estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
σ2
x̄ − µ
12.5. Estadı́stico √ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
s/ n
12.6. Estadı́stico varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . 148
12.7. Estadı́stico desviación tı́pica muestral . . . . . . . . . . . . . . . . . . . . . 150
12.8. Estadı́stico diferencia de medias muestrales . . . . . . . . . . . . . . . . . . 152
12.9. Estadı́stico cociente de varianzas muestrales . . . . . . . . . . . . . . . . . 153
12.10.Estadı́stico proporción muestral . . . . . . . . . . . . . . . . . . . . . . . . 154
12.11.Estadı́stico elemento que ocupa el lugar r . . . . . . . . . . . . . . . . . . 155
12.11.1.Estadı́stico máximo valor de una muestra . . . . . . . . . . . . . . . 155
12.11.2.Estadı́stico mı́nimo valor de una muestra . . . . . . . . . . . . . . . 156
12.11.3.Estadı́stico recorrido de una muestra . . . . . . . . . . . . . . . . . 156
12.11.4.Estimación de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 157
13.Estimación puntual y estimación por intervalo 159

13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
13.2. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . 163
13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . 163
13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . 164
13.2.3. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . . 165
v
13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . 166
13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
13.3. Métodos de estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . 170
13.3.1. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . 170
13.3.2. Propiedades de los estimadores de máxima verosimilitud . . . . . . 172
13.3.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . 173
13.4. Estimación por intervalo de confianza . . . . . . . . . . . . . . . . . . . . . 174
13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . 176
13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . 179
13.4.3. Intervalo de confianza para la diferencia de medias . . . . . . . . . 180
13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . . . 182
13.4.5. Intervalo de confianza para la proporción poblacional . . . . . . . . 183
13.5. Intervalo de confianza asintótico . . . . . . . . . . . . . . . . . . . . . . . . 185
14.Teorı́a de muestras de población finita 187

14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
14.2. Distribuciones de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
14.2.1. Estadı́stico media muestral . . . . . . . . . . . . . . . . . . . . . . . 189
14.2.2. Estadı́stico varianza muestral . . . . . . . . . . . . . . . . . . . . . 191
14.2.3. Estadı́stico proporción muestral . . . . . . . . . . . . . . . . . . . . 193
14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . . . . 194
14.3.2. Intervalo de confianza para la proporción poblacional . . . . . . . . 195
15.Contraste de hipótesis 197

15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
15.2. Las hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . 199
15.3. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
15.4. Nivel de significación y región crı́tica . . . . . . . . . . . . . . . . . . . . . 204
15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
15.6. Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
15.7. Contrastes para la media de una población . . . . . . . . . . . . . . . . . . 209
15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . 211
15.8. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
vi
15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . . . . 213
15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . . . . 213
15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . 214
15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . . . . 215
15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.10.1.Una población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.10.2.Comparación de varianzas . . . . . . . . . . . . . . . . . . . . . . . 215
16.Contrastes no paramétricos 219

16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . 221
16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . 222
16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . 223
16.2. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . 223
16.3. Otros contrastes no paramétricos . . . . . . . . . . . . . . . . . . . . . . . 224
16.3.1. Contrastes de posición . . . . . . . . . . . . . . . . . . . . . . . . . 224
16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . 228
16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
17.Regresión lineal simple 251

17.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
17.3. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 254
17.4. Propiedades de los estimadores de mı́nimos cuadrados . . . . . . . . . . . . 256
17.4.1. Propiedades generales . . . . . . . . . . . . . . . . . . . . . . . . . 256
17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . . . . 257
17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
17.6. Inferencias respecto a los parámetros . . . . . . . . . . . . . . . . . . . . . 258
17.7. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
17.7.1. Estimación de la respuesta media . . . . . . . . . . . . . . . . . . . 259
17.7.2. Predicción de una observación . . . . . . . . . . . . . . . . . . . . . 260
17.8. Análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.9. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
17.9.1. Inferencias sobre el coeficiente de correlación . . . . . . . . . . . . . 264
17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
vii
A. Tablas estadı́sticas 271
B. Resumen de distribuciones 303
viii
Estadı́stica
1 descriptiva
Índice
1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . 3
1.3. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Medidas numéricas descriptivas . . . . . . . . . . . . . . . . . . 5
1.4.1. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1.1. Medidas de tendencia central . . . . . . . . . . . . . . 6
1.4.1.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2.1. Varianza y desviación tı́pica . . . . . . . . . . . . . . 8
1.4.2.2. Desviación media . . . . . . . . . . . . . . . . . . . . 8
1.4.2.3. Coeficiente de variación de Pearson . . . . . . . . . . 8
1.4.2.4. Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3. Medida de asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . 9
1
2 Estadı́stica
La estadı́stica descriptiva tiene por objeto describir y analizar un determinado con-

junto de datos sin pretender sacar conclusiones de tipo más general.
El conjunto de datos en cuestión representa una muestra de los distintos valores que
puede tomar una población (e.g. estatura de los alumnos de la Escuela, ingresos familiares
de una unidad familiar, estado civil, número de grietas en las alas de un determinado
modelo de avión)
Las variables se pueden clasificar en:
Cuantitativas: variables en las que los datos difieren en magnitud (e.g. estaturas, ingresos
anuales, etc)
Cualitativas: variables en las que los datos difieren en tipo (e.g. estado civil, nacionalidad,
etc)
En este capı́tulo se tratará únicamente con variables cuantitativas.

Para obtener una muestra de valores de una variable cuantitativa es necesario realizar
medidas con una determinada escala y unidad de medida. La unidad de medida puede
ser infinitamente divisible (e.g. km, m, cm, mm, . . . ) o indivisible (e.g. tamaño de una
unidad familiar). Cuando la unidad de medida es infinitamente divisible, la variable se
dice que es continua. En el caso de unidad de medida indivisible, se dice que la variable
es discreta. En otras palabras,
Variable continua: aquella que puede tomar un número infinito no numerable de valores.
Variable discreta: aquella que puede tomar un número finito o infinito numerable de va-
lores.
1.1. Notación
La notación que vamos a utilizar a lo largo de este capı́tulo es la siguiente:
• Disponemos de N observaciones, r de las cuales son distintas {x1 , x2 , . . . , xr }.
• Las observaciones están ordenadas en forma creciente x1 < x2 < · · · < xr .
• Cada observación xi ha aparecido ni veces.
• Se llama frecuencia absoluta de la observación xi al valor ni , siendo

r
X
ni = N
i=1
1 Estadı́stica descriptiva 3
• Se llama frecuencia absoluta acumulada de la observación xi , al valor

i
X
Ni = nk
k=1
siendo Nr = N
• Se llama frecuencia relativa de la observación xi al valor

ni
fi =
N
r
X
siendo fi = 1
i=1
• Se llama frecuencia relativa acumulada de la observación xi , al valor

i
X
Fi = fk
k=1
siendo Fr = 1
1.2. Formas de agrupar los datos de una muestra

Tabla Tipo I. Se utiliza cuando el número de observaciones es reducido (N es
pequeño), y cada valor distinto ha aparecido una sola vez (todas las frecuencias
absolutas valen uno).
xi ni
x1 1
x2 1
.. ..
. .
xN 1
Tabla Tipo II. Se utiliza cuando el número de observaciones es grande (N es gran-

de), pero el número de valores distintos que han aparecido es pequeño (algunas
frecuencias absolutas son distintas de uno).
4 Estadı́stica
xi ni
x1 n1
x2 n2
.. ..
. .
xr nr
Tabla Tipo III. Se utiliza cuando tanto el número de observaciones como el número
de valores distintos que han aparecido es grande. En este caso, elegiremos unos
intervalos, Li−1 — Li , de amplitud, ai = Li − Li−1 , fija o variable, que contengan
a la totalidad de los valores observados.
∈[L0 ,L1 ) ∈[L1 ,L2 ) Li−1 — Li ni

z }| {z }| {
x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 , x9 , x10 ,
.. L0 — L1 n1
. L1 — L2 n2
.. ..
x82 , x83 , x84 , x85 , x86 , x87 , x88 , x89 , x90 . .
| {z }| {z }
∈[Lr−2 ,Lr−1 ) ∈[Lr−1 ,Lr ) Lr−1 — Lr nr
En las tablas tipo III, se sugieren las siguientes normas :
• Se debe intentar que los intervalos sean de amplitud constante.
• Los intervalos se deben tomar semiabiertos, [Li−1 , Li ).
• Para facilitar los cálculos, se definen las marcas de clase como

Li−1 + Li
xi =
2
convirtiéndolas en tablas tipo II.
1.3. Representación gráfica

Hay muchas formas de representar gráficamente una tabla, aquı́ veremos sólo algunas
de ellas.
Diagrama de barras Polı́gono de frecuencias
n 6 n 6
n2
n4
"•
"
"
nr n2 •aa ""
n3 %% a•"
n1 %
•
n1
- -
x1 x2 ··· xr x x1 x2 x3 x4 x
Histograma Histograma
h 6 n 6
h2 n2
h3 n3
n2 A2
h1 n3 n1 A3
n1 A1
- -
L0 L1 L2 L3 x L0 L1 L2 L3 x
ni
ai = Li − Li−1 , hi = Ai = ai ni
ai
1.4. Medidas numéricas descriptivas

Una vez que se han recogido y graficado los datos, es conveniente definir algunas
medidas numéricas para describirlos. Existen dos medidas de especial interés para cual-
quier conjunto de datos: la localización de su centro y su variabilidad. Además, hay otras
medidas también importantes como la localización de los extremos y la forma en que se
distribuyen los datos.
6 Estadı́stica
1.4.1. Medidas de posición
1.4.1.1. Medidas de tendencia central
Estas medidas indican dónde se encuentra el centro de los datos
• Media muestral (x̄)

La medida de tendencia central más utilizada es la media muestral o simplemente
media,
r
x1 n1 + x2 n2 + · · · + xr nr 1 X
x̄ = = xi ni
n1 + n2 + · · · + nr N i=1
• Otros tipos de medias
– Media geométrica
x̄G = (x1 n1 · x2 n2 · · · xr nr )1/N
– Media cuadrática
r
x21 n1 + x22 n2 + · · · + x2r nr
x̄Q =
N
– Media armónica
N
x̄A = n1 n2 nr
+ +···+
x1 x2 xr
– Media ponderada
x1 p1 + x2 p2 + · · · + xr pr
x̄p =
p1 + p2 + · · · + pr
Se cumple: x̄A ≤ x̄G ≤ x̄ ≤ x̄Q
• Mediana (Me)
La mediana es la medida de tendencia central que, supuestos los valores de la muestra
ordenados en forma creciente, deja igual número de observaciones por debajo y por
encima de ella. Ası́, suponiendo que los valores de la muestra son x1 ≤ x2 ≤ · · · ≤ xN

 N

 xN Si ∈
/N
 [ 2 ]+1 2
Me =


 1 xN + xN

Si
N
∈N
+1
2 2 2 2
donde los corchetes, [ ], indican la parte entera.
• Moda (Mo)
La moda se define como el valor de la muestra que tiene máxima frecuencia. La
moda no siempre es única. Ası́, si una muestra tiene dos modas se llamará bimodal,
si tiene tres modas trimodal, etc.
1.4.1.2. Cuantiles
Ya hemos visto que la mediana divide el conjunto de datos en dos partes de igual
tamaño. Para obtener medidas de localización más finas, solo es cuestión de dividir el
conjunto de datos en más de dos partes. De esta forma se definen los p-cuantiles, siendo p
la proporción de datos que deja el cuantil a su izquierda. Si tenemos la muestra ordenada
de forma creciente, x1 ≤ x2 ≤ · · · ≤ xN , el p-cuantil viene dado por


 x Si Np ∈
/N
 [N p]+1
xp =


 1 (x + x
Np N p+1 ) Si Np ∈ N
2
donde los corchetes, [ ], indican la parte entera. Los casos particulares de cuantiles más
utilizados son
• Cuartiles (Q1/4 , Q2/4 , Q3/4 )

Son los 3 valores de la muestra que dividen las observaciones en 4 partes iguales.
• Deciles (D1/10 , D2/10 , . . . , D9/10 )

• Centiles o percentiles (P1/100 , P2/100 , . . . , P99/100 )

8 Estadı́stica
1.4.2. Medidas de dispersión
1.4.2.1. Varianza y desviación tı́pica
Las medidas de dispersión más utilizadas son la varianza y la desviación tı́pica. La

varianza muestral, s2 , es un tipo de promedio de las desviaciones de los valores observados
respecto de su media, y se define como
r
2 (x1 − x̄)2 n1 + · · · + (xr − x̄)2 nr 1 X
s = = (xi − x̄)2 ni
(n1 + n2 + · · · + nr ) − 1 N − 1 i=1
La desviación tı́pica se define como la raı́z cuadrada de la varianza y tiene las mismas
dimensiones que los datos originales.
v
u r
√ u 1 X
s= s2 = t (xi − x̄)2 ni
N − 1 i=1
1.4.2.2. Desviación media
Se define la desviación media respecto de un parámetro cualquiera, p, como
r
1 X
DMp = |xi − p| ni
N i=1
donde, generalmente, como parámetro p se utiliza la media o la mediana.
1.4.2.3. Coeficiente de variación de Pearson
El coeficiente de variación de Pearson, definido como el cociente
s
C.V. = (x̄ 6= 0)
x̄
mide la dispersión de la distribución, al igual que la desviación tı́pica o la varianza, con
la ventaja de ser un coeficiente adimensional.
1.4.2.4. Recorrido
Es la diferencia entre el valor máximo y el valor mı́nimo que toma la muestra
R = máx{xi } − mı́n{xi }
Además, se define
• Rango intercuartı́lico
RI = Q3/4 − Q1/4
• Rango semicuartı́lico
Q3/4 − Q1/4 RI
RSI = =
2 2
1.4.3. Medida de asimetrı́a

P
En un conjunto de datos simétricos respecto a su media, x̄, la suma (xi − x̄)3
será nula, mientras que con datos asimétricos esta suma crecerá con el grado de asimetrı́a.
Para obtener una medida adimensional del grado de asimetrı́a se define el coeficiente de
asimetrı́a o deformación como
P
n (xi − x̄)3
CA = (n ≥ 3 y s 6= 0)
(n − 1)(n − 2)s3
donde s es la desviación tı́pica de la muestra. Valores grandes y negativos de CA son
indicativos de asimetrı́a hacia la izquierda (x̄ <Me<Mo) mientras que valores grandes y
positivos son indicativos de asimetrı́a hacia la derecha (x̄ >Me>Mo).
1.4.4. Medida de apuntamiento

Para medir si una distribución de datos es más puntiaguda o más achatada de lo
“normal”, se define el coeficiente de apuntamiento o curtosis como
P
n(n + 1) (xi − x̄)4 3(n − 1)2
CAp = − (n ≥ 4 y s 6= 0)
(n − 1)(n − 2)(n − 3)s4 (n − 2)(n − 3)
donde s es la desviación tı́pica de la muestra. Si CAp> 0 indica que la distribución es

puntiaguda, mientras que si CAp< 0 indica que es achatada.
10 Estadı́stica
Análisis
2 combinatorio
Índice
2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.0.1. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 13
2.1.0.2. Con repetición . . . . . . . . . . . . . . . . . . . . . . 14
2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.0.3. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 14
2.2.0.4. Con repetición . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.0.5. Sin repetición . . . . . . . . . . . . . . . . . . . . . . 15
2.3.0.6. Con repetición . . . . . . . . . . . . . . . . . . . . . . 16
11
12
El principal objetivo de la combinatoria –o, por lo menos en el que estamos aquı́ más
interesados– es el de hallar el cardinal de un conjunto finito o, dicho de otro modo, contar.
Una posible definición matemática de la acción que supone contar es la de establecer una
biyección entre el conjunto que se desea contar y los números naturales, de modo que
podamos enumerar los elementos como el uno, el dos, etc.
Es fácil, por ejemplo, contar el número de cuadrados perfectos que hay entre 100
y 1000. Basta observar que 100 = (9 + 1)2 y que el mayor cuadrado perfecto menor que
1000 es 961 = 312 = (9 + 22)2 . Hemos establecido una biyección entre el conjunto que
deseábamos contar y los naturales entre el 1 y el 22. Hay, por tanto, 22 cuadrados perfectos
entre 100 y 1000.
Sin embargo, la mayor parte de las veces, no es evidente –o siquiera posible– cómo
establecer tal biyección. Un primer procedimiento accesible en estos casos es el denominado
constructivo. Se trata de recorrer los pasos necesarios para formar todos los elementos del
conjunto anotando las alternativas que puedan elegirse en cada uno.
Veamos un ejemplo: ¿De cuántas maneras se pueden sentar tres chicas y tres chicos
en seis butacas consecutivas de un cine de forma que no haya dos chicas ni dos chicos
seguidos?
Hay que ocupar seis sitios. Los indicaremos gráficamente ası́:
La primera butaca puede ser ocupada por cualquiera de las seis personas.
|{z}
6
Elegida la primera persona hay 3 elecciones posibles, entre las personas de sexo
contrario, para ocupar el segundo lugar.
|{z} |{z}
6 3
La tercera butaca ha de ser ocupada por una de las 2 personas que quedan del mismo
sexo de la primera y la cuarta por una de las dos del sexo de la segunda.
|{z} |{z} |{z} |{z}

6 3 2 2
Y, para terminar, las dos últimas personas no tienen elección.
|{z} |{z} |{z} |{z} |{z} |{z}

6 3 2 2 1 1
2 Análisis combinatorio 13
En total hay, por tanto, 6 · 3 · 2 · 2 = 72 ordenaciones posibles.
La intuitiva multiplicación que proporciona el resultado final puede expresarse como

una regla general matemática:
Si los conjuntos A1 , A2 ,. . .,Ak tienen n1 , n2 , . . .,nk elementos respectivamente,
el producto cartesiano A1 × A2 × · · · × Ak tiene n1 · n2 · · · nk elementos.
En algunas ocasiones hay que resolver problemas que pueden reducirse a un pequeño
número de patrones o formas de contar. Estos patrones se estudian en la educación secun-
daria y haremos aquı́ sólamente un breve recordatorio. Sin embargo, la mayor parte de las
veces tendremos problemas que no corresponden exactamente a alguno de estos patrones.
Lo más recomendable suele ser recurrir antes a la lógica y al método constructivo que a
buscar hipotéticas fórmulas que resuelvan nuestro problema concreto.
Entre estos patrones fundamentales –que pueden resumirse esquemáticamente en la
tabla del final del capı́tulo – se encuentran los siguientes:
2.1. Permutaciones
Supongamos un conjunto de n elementos. Se llaman permutaciones de estos n ele-
mentos a las distintas ordenaciones que podemos hacer con ellos.
2.1.0.1. Sin repetición
El método anterior nos da fácilmente el número de permutaciones Pn que existen en

el conjunto si no se repite ningún elemento (es decir, si son todos distintos o distinguibles):
El primer elemento puede ser cualquiera de los n, el segundo cualquiera de los n − 1
restantes, el tercero cualquiera de los n − 2 restantes y ası́ sucesivamente.
|{z} |{z} |{z} ... |{z} |{z} |{z}

n n−1 n−2 3 2 1
El total de permutaciones de n elementos es, entonces:
Pn = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1 = n!
14 Estadı́stica
2.1.0.2. Con repetición
Supongamos ahora que no todos los n elementos del conjunto son distintos, sino que
hay r grupos de elementos iguales entre sı́ (o indistinguibles), digamos n1 de una clase,
n2 de otra, hasta nr de la última clase. Está claro que n1 + n2 + . . . + nr = n. ¿Cuántas
ordenaciones podrı́amos distinguir?
Un ejemplo tı́pico de este problema podrı́a ser el siguiente: disponemos de una bolsa
en la que hay 11 bolas iguales; cuatro de ellas tienen un 1 escrito, otras tres un 2 y las
cuatro restantes un 3. Sacando las once bolas una tras otra y anotando las cifras que
aparecen ¿Cuantos números distintos podemos obtener?
Otro ejemplo clásico: ¿Cuántas palabras distintas pueden formarse empleando las 8
letras del vocablo CASCARAS?
Pensemos en el problema general. Si los n elementos fueran distintos tendrı́amos n!
permutaciones posibles. Dada una cualquiera de ellas, podrı́amos sacar de la ordenación
los n1 elementos del primer grupo, reordenarlos arbitrariamente y volver a rellenar los
huecos que hubieran dejado libres sin que fuéramos capaces de distinguir la permutación
original del resultado final de esta operación. Lo mismo es cierto para los n2 elementos del
segundo grupo, los n3 del tercero, hasta los nr del último. Puesto que hay ni ! ordenaciones
parciales posibles de los elementos del grupo i-ésimo, tenemos que:
n!
P Rnn1 ,n2 ,...,nr =
n1 ! × n2 ! × · · · × nr !
2.2. Variaciones
Sea ahora un conjunto de n elementos distintos. Se llama variación de r elementos

tomados de entre los n (Vn,r ) a una ordenación de un subconjunto de tamaño r.
Una variación de 3 elementos tomados de entre 7 es, por ejemplo, el podio (los 3
primeros clasificados) de una carrera con 7 inscritos.
Es muy fácil calcular el número de variaciones Vn,r . Basta observar que hay que
elegir r elementos de modo que el primero puede ser uno cualquiera de los n, el segundo
uno cualquiera de los n − 1 restantes y ası́ sucesivamente:
|{z} |{z} ... |{z} |{z}

n n−1 n−r+2 n−r+1
| {z }
r
Y aplicando la regla del producto cartesiano:
n!
Vn,r = n × (n − 1) × · · · × (n − r + 2) × (n − r + 1) =
(n − r)!
Supongamos ahora que cada elemento del conjunto original pueda ser repetido al
crear una ordenación de tamaño r. Se hablará entonces de variaciones con repetición de
r elementos tomados de entre n, V Rn,r .
Pensemos, por ejemplo, en las palabras de 8 letras que pueden formarse con el
alfabeto español. Hay que tomar 8 decisiones (cuál es la primera letra, cuál la segunda,
etc.) teniendo 27 posibilidades de elección cada vez (las 27 letras del alfabeto). El número
| × 27 × ·{z
total de palabras es, entonces 27 · · × 27 × 27} = 278 .
8veces
Es fácil observar que, en general:
V Rn,r = nr
2.3. Combinaciones
Una combinación de r elementos tomados de entre n es cualquier subconjunto de
tamaño r de un conjunto de n elementos. Es importante resaltar que en una combinación
no interviene el orden de los elementos: si sacamos tres bolas de una bolsa que contiene
diez, numeradas del uno al diez, podemos obtener las permutaciones distintas {1, 2, 7} y
{7, 1, 2} que, sin embargo, son un mismo subconjunto de tamaño 3 (el obtenido por unión
de {1}, {2} y {3}). Son, por tanto, la misma combinación.
Siguiendo la idea del ejemplo anterior, una manera sencilla de contar las combina-
ciones de r elementos tomados entre n (Cn,r ) es observar que, de las n!/(n−r)! variaciones
posibles, r! de ellas son ordenaciones distintas de los mismos elementos y, por tanto, la
misma combinación. El número total de combinaciones será entonces:
!
n! n
Cn,r = =
(n − r)! r! r
16 Estadı́stica
Supongamos ahora que tenemos la libertad de repetir los elementos del conjunto
para formar un subconjunto de tamaño r, obtendremos una combinación con repetición
de r elementos tomados de entre n. En una de estas combinaciones cada uno de los n
elementos del conjunto puede aparecer 0, 1, 2, 3, . . ., hasta r veces. Cada combinación
puede ser descrita por una n-upla de números que indica cuántas veces aparece el elemento
1, el 2, y ası́ hasta el n. Evidentemente, la suma de las cifras de cada n-upla es r, puesto
que cada combinación consta de r elementos. El número total de n-uplas tales que la
suma de sus elementos sea r es el número de posibles combinaciones con repetición y lo
que deseamos calcular.
Olvidémonos por el momento de las combinaciones y pensemos en los siguientes
problemas:
Introducimos r bolas idénticas en n cajas. ¿Cuántas configuraciones finales distintas
podrı́amos reconocer?
¿Cuántas soluciones distintas tiene la ecuación k1 + k2 + · · · + kn = r si cada ki debe
ser un número natural ó 0?
Estos dos problemas aparentemente distintos son, en realidad, equivalentes. Supon-
gamos r bolas iguales y n cajas. Las introducimos y contamos cuántas bolas han caı́do en
la primera caja, cuántas en la segunda, la tercera y la cuarta. Cada configuración nos da
una n-upla de números (k1 , k2 , . . . , kn ) que resuelve el segundo problema.
Obsérvese, llegados a este punto, que el número de configuraciones distintas que
obtenemos al introducir r bolas en n cajas y el número de combinaciones que buscábamos
P
coinciden: ambas son el número de n-uplas (k1 , k2 , . . . , kn ) tales que la suma ni=1 ki = r.
Vamos a calcular este número empleando un sencillo y original argumento para el problema
de las bolas y las cajas.
Supongamos las n cajas colocadas una a continuación de la otra y pegadas entre sı́.
Representaremos las bolas mediante asteriscos y las cajas como los n espacios comprendi-
dos entre n + 1 barras (las paredes de las cajas). Por ejemplo, la secuencia | ∗ ∗ ∗ |||| ∗ ∗|| ∗ |
indica una manera de introducir 6 bolas en 7 cajas con el resultado de 3 en la primera,
2 en la quinta y 1 en la séptima. Cada secuencia que representemos empieza y termina
por una barra vertical, pero las restantes n − 1 barras y r asteriscos aparecen en un orden
arbitrario. Por lo tanto, el número de configuraciones distinguibles es igual al número de
formas de seleccionar r lugares de n + r − 1 posiciones posibles, es decir:
!
(n + r − 1)! n+r−1
CRn,r = =
(n − 1)! r! r
Otro ejemplo clásico que puede reducirse al de introducir r bolas en n cajas: ¿Cuántas
derivadas parciales de orden r diferentes existen para una función analı́tica de n variables
f (x1 , x2 , . . . , xn )?
Por ser una función analı́tica, las derivadas parciales de orden r no dependen del
orden de la derivación, sino sólo del número de veces que cada variable aparece. Si identi-
ficamos cada variable con una celda, cada configuración obtenida al introducir r bolas nos
da, de nuevo, una derivada posible de orden r. Hay, por tanto CRn,r derivadas distintas
de f .
COMBINATORIA
18
n n!
3 Cn,r =
no =
r
!
puedo
r! (n − r)!

repetir Q
Q
si QQ
s

n+r−1
=
(n + r − 1)!
CRn,r =
r
!

r! (n − 1)!
no

interviene
el
B
orden B
B
B
B no
3 Vn,r = n × (n − 1) × · · · × (n − r + 1)
B cojo
si B
no todos Q
B Q
B si QQ
s
B Pn = n!
B
BN
puedo
repetir A
A
A
A r
A 3 V Rn,r = n
me dicen no
si A cuantas veces
A Q
AU se repite Q
cada uno si QQ
s n!
P Rnn1 ,n2 ,...,nr =
n1 ! × n2 ! × · · · × nr !
Estadı́stica
3 Álgebra
de sucesos
Índice
3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1. Unión de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2. Intersección de sucesos . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3. Propiedades de la unión y la intersección . . . . . . . . . . . . 21
3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . 22
19
20 Estadı́stica
3.1. Experimento aleatorio

Por experimento entenderemos cualquier acción que pueda dar lugar a resultados
identificables. Suponemos que podemos repetir el experimento gran número de veces bajo
las mismas condiciones, y que todos los posibles resultados son conocidos antes de la
realización del mismo.
Si los resultados del experimento pueden ser distintos y no se sabe cuál de ellos
aparecerá al final, el experimento se llamará aleatorio. Si el resultado del experimento es
conocido de antemano, se llamará determinista.
3.2. Sucesos
Llamaremos sucesos elementales de un experimento a un conjunto de resultados
posibles que cumplen:
1. Siempre ocurre alguno de ellos
2. Son mutuamente excluyentes, es decir, la ocurrencia de uno de ellos implica la no

ocurrencia de los demás
Llamaremos espacio muestral, E, al conjunto de todos los posibles resultados de un

experimento aleatorio. Si, por ejemplo, el experimento consiste en lanzar una moneda dos
veces, el espacio muestral lo forman cuatro sucesos elementales, E = {c c, c +, + c, ++}.
En un experimento aleatorio podemos estar interesados no en un suceso elemental,
sino en un conjunto de sucesos elementales, conjunto que llamaremos suceso compuesto,
es decir, un subconjunto del espacio muestral (que se obtiene mediante la unión de sucesos
elementales). En el ejemplo anterior, un suceso compuesto serı́a obtener exactamente una
cara, S = {c +, + c}
Si el único resultado que interesa del experimento es el mismo espacio muestral E,
estamos ante el suceso seguro; mientras que si el resultado deseado es no obtener ninguno
de los sucesos contenidos en E, tenemos el suceso imposible.
3 Álgebra de sucesos 21
3.3. Operaciones con sucesos
3.3.1. Unión de sucesos

n
!
[
Dados n sucesos S1 , S2 , . . . , Sn , la operación unión de ellos Si es otro suceso
i=1
constituido por los elementos comunes y no comunes a los sucesos S1 , S2 , . . . , Sn . Es decir,
un suceso que aparece cuando tiene lugar S1 ó S2 ó · · · ó Sn .
3.3.2. Intersección de sucesos

n
!
\
Dados n sucesos S1 , S2 , . . . , Sn , la operación intersección de ellos Si es otro
i=1
suceso constituido por los elementos comunes a los sucesos S1 , S2 , . . . , Sn . Es decir, un
suceso que aparece cuando tiene lugar S1 y S2 y · · · y Sn .
Cuando n sucesos !no tienen ningún elemento común, su intersección es igual al
n
\
suceso vacı́o Si = ∅ , y se dice que los sucesos son disjuntos o incompatibles. Como
i=1
caso particular, n sucesos son disjuntos dos a dos si Si ∩ Sj = ∅ ∀i 6= j.
Si n sucesos
! son disjuntos dos a dos y la unión de todos ellos es el espacio muestral,
n
[
Si = E , se dice que los sucesos Si forman una partición del espacio muestral E.
i=1
La definición de partición se puede ampliar a un conjunto numerable de sucesos disjuntos
[∞
dos a dos y tales que Si = E.
i=1
3.3.3. Propiedades de la unión y la intersección

• Conmutativa
S1 ∪ S2 = S2 ∪ S1
S1 ∩ S2 = S2 ∩ S1
• Asociativa
S1 ∪ (S2 ∪ S3 ) = (S1 ∪ S2 ) ∪ S3
S1 ∩ (S2 ∩ S3 ) = (S1 ∩ S2 ) ∩ S3
• Distributiva
S1 ∪ (S2 ∩ S3 ) = (S1 ∪ S2 ) ∩ (S1 ∪ S3 )
S1 ∩ (S2 ∪ S3 ) = (S1 ∩ S2 ) ∪ (S1 ∩ S3 )
22 Estadı́stica
3.3.4. Diferencia de sucesos

Dados dos sucesos S1 y S2 , la operación diferencia (S1 − S2 ) es el suceso integrado
por los elementos de S1 que no pertenecen a S2 . Es decir, el suceso que tiene lugar cuando
sucede S1 y no sucede S2 . La operación diferencia no goza de la propiedad conmutativa,
pues, en general, S1 − S2 6= S2 − S1 .
3.3.5. Suceso complementario

El complementario de un suceso S, que notaremos por S̄, es la diferencia entre el
espacio muestral, E, y el suceso S, es decir S̄ = E − S. Es el suceso compuesto por los
elementos de E que no pertenecen a S.
¯=S
Se comprueba fácilmente que S ∪ S̄ = E, S ∩ S̄ = ∅ y S̄
• Leyes de De Morgan
n
! n
[ \
Si = S̄i
i=1 i=1
n
! n
\ [
Si = S̄i
i=1 i=1
Teorı́a de
4 la probabilidad
Índice
4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Probabilidad clásica . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . 24
4.1.3. Axiomática del cálculo de probabilidades . . . . . . . . . . . . 26
4.1.3.1. Álgebra de sucesos . . . . . . . . . . . . . . . . . . . . 26
4.1.4. Axiomática de Kolmogorov . . . . . . . . . . . . . . . . . . . . 28
4.2. Teoremas del cálculo de probabilidades . . . . . . . . . . . . . 29
4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 31
4.3.1. Regla de la multiplicación . . . . . . . . . . . . . . . . . . . . . 32
4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . 33
4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . 34
23
24 Estadı́stica
4.1. Concepto de probabilidad
4.1.1. Probabilidad clásica

Laplace define la probabilidad de un suceso como el cociente entre el número de casos
favorables y el número de casos posibles, siempre que todos sean igualmente posibles.
De la definición clásica de probabilidad se desprenden una serie de propiedades (S
denota cualquier suceso ya sea compuesto o elemental):
• P (S) ≥ 0
• P (S) ≤ 1
• Si tenemos dos sucesos disjuntos S1 y S2 , y su unión es S = S1 ∪ S2 , entonces

P (S) = P (S1 ∪ S2 ) = P (S1 ) + P (S2 )
• Si S̄ es el suceso complementario de S, entonces P (S̄) = 1 − P (S)
La probabilidad clásica supone que el número de casos posibles sea finito.
4.1.2. Probabilidad frecuentista

Esta teorı́a se basa en dos aspectos fundamentales :
– La estabilidad de las frecuencias o regularidad estadı́stica :
En un experimento aleatorio, a pesar del comportamiento irregular de los

resultados individuales, los resultados promedios, en largas sucesiones de
experimentos aleatorios, muestran una sorprendente regularidad.
– La objetividad de la probabilidad
La probabilidad es una propiedad fı́sica de los objetos como la densidad,

la temperatura, etc, y por tanto, medible.
4 Teorı́a de la probabilidad 25
Si realizamos un experimento N veces, el número de veces, n, que ocurre un suceso

particular, S, es su frecuencia absoluta, mientras que la frecuencia relativa se define como
f (S) = n/N. Ası́, la teorı́a frecuentista define la probabilidad del suceso S como el lı́mite
n
P (S) = lı́m f (S) = lı́m
N →∞ N →∞ N
Las frecuencias relativas verifican una serie de propiedades fácilmente demostrables:
• 0 ≤ f (S) ≤ 1
n
[
• Sean S1 , S2 , . . . , Sn sucesos disjuntos dos a dos y S = Si , entonces
i=1
n
X n
X n
n 1 ni X
f (S) = = ni = = f (Si )
N N i=1 i=1
N i=1
Por todo ello, al identificar la probabilidad de un suceso con el valor tomado en el

lı́mite por la frecuencia relativa, se admite que
n
X
0 ≤ P (S) ≤ 1 y P (S) = P (Si )
i=1
Para poder definir la probabilidad frecuentista, debemos imponer dos condiciones
1. En la secuencia de observaciones, existe el lı́mite de las frecuencias relativas (prin-

cipio de existencia del lı́mite).
2. Considerada aleatoriamente cualquier subsecuencia dentro del colectivo, existe en

ella el lı́mite de la frecuencia relativa y es igual al obtenido en todo el colectivo
(principio de aleatoriedad).
Al igual que la teorı́a clásica, esta teorı́a también tiene sus inconvenientes :
– Del principio de existencia del lı́mite se deduce que esta teorı́a de la probabilidad
no puede aplicarse a sucesos que no puedan repetirse.
– Es necesario realizar el experimento para obtener la frecuencia relativa corres-

pondiente al suceso en cuestión.
– Habrı́a que realizar el experimento infinitas veces para calcular el lı́mite, pues las
reglas del cálculo de lı́mites sólo son aplicables a sucesiones no aleatorias, donde
se supone que existe un término general.
26 Estadı́stica
4.1.3. Axiomática del cálculo de probabilidades

Las limitaciones de las teorı́as clásica y frecuentista de la probabilidad hacen im-
posible la formalización matemática de la asignación de un modelo matemático a la pro-
babilidad, consiguiéndose éste con el planteamiento axiomático de Kolmogorov (1933), al
poner en relación la teorı́a de la probabilidad con la de conjuntos y con la teorı́a de la
medida.
El planteamiento de Kolmogorov presenta la limitación de no proporcionar un méto-
do práctico de obtención de probabilidades de sucesos en el mundo real. Para salvar esta
importante limitación, Kolmogorov establece la conexión del modelo matemático con el
mundo real recurriendo a la base empı́rica de la teorı́a frecuentista, al considerar que si un
experimento aleatorio se repite gran número de veces, la frecuencia relativa de un suceso
diferirá ligeramente de la probabilidad del suceso.
4.1.3.1. Álgebra de sucesos
En el experimento del dado, el espacio muestral es el conjunto E = {1, 2, 3, 4, 5, 6},

pudiendo plantearse preguntas como : ¿qué probabilidad hay de obtener el número 5 en
una tirada? En la pregunta, el suceso es 5, uno de los sucesos elementales constitutivos del
espacio muestral E. Sin embargo, existen otras muchas preguntas en las que se formulan
sucesos compuestos, como la obtención de : {número par}, {número distinto de 5}, etc.
Todos estos sucesos compuestos tienen un denominador común : no figuran explı́citamente
en el espacio muestral E, aunque proceden de los elementos constitutivos de él. Esto tiene
como consecuencia que el número de sucesos que pueden plantearse en un experimento
aleatorio es superior al de sucesos elementales integrantes de E, y son generados desde
E mediante las operaciones de unión, intersección y complementariedad, constituyendo
todos ellos un nuevo conjunto denominado álgebra.
Lo anterior puede formalizarse de la siguiente manera : sea E el espacio muestral in-
tegrado por sucesos elementales. Sea A una colección de subconjuntos de E, cumpliéndose
las siguientes condiciones :
1. El espacio muestral, E, pertenece a A.
2. Si un suceso S pertenece a A, también pertenece su complementario S̄. Como

consecuencia, el conjunto vacı́o, ∅, pertenece a A.
3. Si S1 y S2 son dos subconjuntos de A, su unión, S1 ∪ S2 , pertenece a A; y por

tanto también su intersección, S1 ∩ S2 .
La colección de sucesos que cumple las tres condiciones se denomina álgebra de

Boole, siendo extensible a cualquier número finito de sucesos, sin más que reiterar las
operaciones de unión e intersección.
Si en vez de tener n sucesos tenemos una sucesión numerable, S1 , S2 , . . . , Sn , . . . ,
∞
[ \∞
pertenecientes a A, entonces Si y Si también pertenecen a A, la colección recibe
i=1 i=1
el nombre de σ-álgebra, que representaremos por Ω. El par (E, Ω) recibe el nombre de
espacio probabilizable o medible.
Mediante dos ejemplos podremos apreciar con claridad la formación de una σ-álgebra
de sucesos, Ω, a partir de los elementos de un espacio muestral, E.
En el primer caso tenemos el espacio muestral E = {1, 2, 3} y como σ-álgebra Ω, la
σ-álgebra completa que puede generarse desde él :
E −−−−−−−−−−−→ Ω
{ningún elemento}={∅}
{1}
{2}
1 {3}
2 −→
3 {no obtener el 1}={{2} ∪ {3}}
{no obtener el 2}={{1} ∪ {3}}
{no obtener el 3}={{1} ∪ {2}}
{cualquier elemento}={E}
En el segundo ejemplo hemos elegido como σ-álgebra Ω de interés el número de

caras resultante de lanzar una moneda dos veces :
E −−−−−−−−−−−→ Ω
{ningún elemento}={∅}
{2 caras}={c c}
cc {como mı́nimo una cara}={{c c} ∪ {c +} ∪ {+ c}}
c+ {como máximo una cara}={{c +} ∪ {+ c} ∪ {+ +}}
+c −→
{1 cara}={{c +} ∪ {+ c}}
++
{no obtener una cara}={{c c} ∪ {+ +}}
{0 caras}={++}
{cualquier elemento}={E}
28 Estadı́stica
4.1.4. Axiomática de Kolmogorov

El sistema axiomático de Kolmogorov consta de tres axiomas :
A1. Si S es un suceso de una σ-álgebra, Ω, existe un número P (S) ≥ 0, denominado

probabilidad del suceso S
A2. P (E) = 1
A3. Dada una sucesión numerable de sucesos S1 , S2 , . . . , Sn , . . ., disjuntos dos a dos,

se verifica que
∞
[ ∞
X
P( Si ) = P (Si )
i=1 i=1
La tripleta (E, Ω, P ) se conoce como espacio probabilı́stico.

Ampliamos el doble ejemplo de espacio probabilizable (E, Ω) para disponer del es-
pacio probabilı́stico (E, Ω, P ).
En el primer caso, suponemos que P (1) = 3/12, P (2) = 4/12 y P (3)=5/12
E −−−−−−−−−−−→ Ω −−−−−−−−→ P
{ningún elemento}={∅} −→ 0
{1} −→ 3/12
{2} −→ 4/12
1 {3} −→ 5/12
2 −→
3 {no obtener el 1}={{2} ∪ {3}} −→ 9/12
{no obtener el 2}={{1} ∪ {3}} −→ 8/12
{no obtener el 3}={{1} ∪ {2}} −→ 7/12
{cualquier elemento}={E} −→ 1
En el segundo ejemplo, se supone que P (c c) = P (c +) = P (+ c) = P (+ +) = 1/4
E −−−−−−−−−−−−−−−−−−→ Ω −−−−−−−−−−−−−−−−−→ P
{ningún elemento}={∅} −→ 0
{2 caras}={c c} −→ 1/4
{como mı́nimo una cara}={{c c} ∪ {c +} ∪ {+ c}} −→ 3/4
cc
c+ {como máximo una cara}={{c +} ∪ {+ c} ∪ {+ +}} −→ 3/4
+ c −→ {1 cara}={{c +} ∪ {+ c}} −→ 2/4
++
{no obtener una cara}={{c c} ∪ {+ +}} −→ 2/4
{0 caras}={++} −→ 1/4
{cualquier elemento}={E} −→ 1
4.2. Teoremas del cálculo de probabilidades

TEOREMA 1. La probabilidad del suceso imposible es cero : P (∅) = 0
Sea una sucesión de sucesos disjuntos dos a dos S1 , . . . , Sn ,!. . . , todos ellos iguales
[∞ X∞
al suceso imposible (Si = ∅). Según el tercer Axioma P Si = P (Si ), es decir
i=1 i=1
∞
X
P (∅) = P (∅), y por el Axioma 1, debe ser P (∅) = 0
i=1
TEOREMA 2. La probabilidad de la unión de n sucesos disjuntos dos a dos, S1 , . . . , Sn ,

es igual a la suma de las probabilidades :
n
! n
[ X
P Si = P (Si )
i=1 i=1
Consideremos la sucesión numerable S1 , . . . , Sn , Sn+1 , Sn+2, . . . , siendo los sucesos

Sn+1 = ∅, Sn+2 = ∅, . . . Según el tercer Axioma
∞
! ∞
[ X
P Si = P (Si )
i=1 i=1
es decir,
∞
! " n
! ∞
!# " n
!# ∞ n
[ [ [ [ X X
P Si =P Si ∪ Si =P Si = P (Si ) = P (Si )
i=1 i=1 i=n+1 i=1 i=1 i=1
TEOREMA 3. La probabilidad de la unión de dos sucesos cualesquiera, S1 y S2 viene

dada por P (S1 ∪ S2 ) = P (S1 ) + P (S2 ) − P (S1 ∩ S2 )
Descomponemos los sucesos S1 ∪ S2 , S1 y S2 en uniones de sucesos disjuntos :
30 Estadı́stica
S1 ∪ S2 = (S1 ∩ S¯2 ) ∪ (S¯1 ∩ S2 ) ∪ (S1 ∩ S2 )

S1 = (S1 ∩ S¯2 ) ∪ (S1 ∩ S2 )
S2 = (S¯1 ∩ S2 ) ∪ (S1 ∩ S2 )
por el teorema 2,
P (S1 ∪ S2 ) = P (S1 ∩ S¯2 ) + P (S¯1 ∩ S2 ) + P (S1 ∩ S2 )

P (S1) = P (S1 ∩ S¯2 ) + P (S1 ∩ S2 )
P (S2) = P (S¯1 ∩ S2 ) + P (S1 ∩ S2 )
por tanto,
P (S1 ∪ S2 ) = P (S1 ) + P (S2 ) − P (S1 ∩ S2 )
Para n sucesos :
n
! n n n
[ X X X
P Si = P (Si ) − P (Si ∩ Sj ) + P (Si ∩ Sj ∩ Sk ) +
i=1 i=1 i<j i<j<k
+ · · · + (−1)n+1 P (S1 ∩ S2 ∩ · · · ∩ Sn )
TEOREMA 4. Si un suceso S1 está contenido en otro S, (S1 ⊂ S), se verifica que

P (S1 ) ≤ P (S)
Descomponemos el suceso S en la unión de dos sucesos disjuntos
S = (S1 ∩ S) ∪ (S¯1 ∩ S)
por el teorema 2,
P (S) = P (S1 ∩ S) + P (S¯1 ∩ S)
Por el Axioma 1, P (S¯1 ∩ S) ≥ 0, por tanto P (S) ≥ P (S1 ∩ S), pero S1 ∩ S = S1 ,

con lo que P (S1 ) ≤ P (S)
TEOREMA 5. La probabilidad de cualquier suceso es menor o igual que la unidad :

P (S) ≤ 1
Todo suceso, S, está contenido en el suceso seguro (S ⊂ E), por tanto P (S) ≤
P (E) ≤ 1
TEOREMA 6. La probabilidad del suceso complementario S̄ es P (S̄) = 1 − P (S)

Siendo S y S̄ disjuntos y tales que S ∪ S̄ = E, se tiene que
P (E) = P (S) + P (S̄) = 1 ⇒ P (S̄) = 1 − P (S)

4.3. Probabilidad condicional

Consideremos las dos situaciones siguientes : acertar si la puntuación resultante de
lanzar un dado perfecto es 2, o acertarla sabiendo que ha salido un número par. No cabe
duda que las dos situaciones son distintas en cuanto a nuestra certidumbre de ganar, pues
parece más fácil lograrlo en la segunda que en la primera. Este planteamiento conduce a un
nuevo tipo de sucesos denominados condicionados, y de aquı́ a la probabilidad condicional.
En el ejemplo anterior, la probabilidad de obtener un 2 es 1/6. Si sabemos que ha
salido un número par, la probabilidad de que sea 2 es 1/3. La diferencia en el valor de
la probabilidad se debe a que tenemos más información en el segundo caso. El efecto
de la información se centra en el espacio muestral. Si no existe ninguna información, el
espacio muestral es E = {1, 2, 3, 4, 5, 6}, y si existe información, el espacio muestral se
reduce a E = {2, 4, 6}. En esta situación, el conocimiento del suceso {par} condiciona la
probabilidad de obtener el suceso {número 2}, denominando al primero condicionante y
al segundo condicionado, y designándolo por {número 2/par}. Establecida la existencia
de los sucesos condicionados, pasamos a su estudio.
Dados dos sucesos S1 y S, el suceso S1 está condicionado por el suceso S si la proba-
bilidad de que suceda S1 depende de que haya sucedido S, y la probabilidad condicional
se define como
P (S1 ∩ S)
P (S1 /S) =
P (S)
siempre que P (S) > 0.
Hemos visto que la consecuencia de disponer de la información proporcionada por el
conocimiento de la presencia del suceso S, radica en la modificación del espacio muestral
E, dando lugar a un nuevo espacio muestral ES = E ∩ S. Este espacio muestral genera, a
su vez, una nueva σ-álgebra ΩS = Ω ∩ S y teniendo, por último, una nueva probabilidad
sobre ΩS , que denominaremos PS y que ya hemos definido como PS (S1 ) = P (S1 /S). El
espacio probabilı́stico resultante es (S, ΩS , PS ), siempre que P (S) > 0.
Para concluir que PS es realmente una probabilidad, debemos comprobar que verifica
los tres axiomas de Kolmogorov.
1 PS (S1 ) ≥ 0
Según la definición de probabilidad condicional,
P (S1 ∩ S)
PS (S1 ) = P (S1 /S) =
P (S)
y por el Axioma 1, P (S1 ∩ S) ≥ 0 y P (S) > 0, por tanto, PS (S1 ) ≥ 0

32 Estadı́stica
2 PS (ES ) = 1
P (ES ∩ S) P (S)
PS (ES ) = P (ES /S) = = =1
P (S) P (S)
∞
! ∞
[ X
3 PS Si = PS (Si ) siendo los Si disjuntos dos a dos
i=1 i=1
Por la propiedad distributiva,

∞
! ∞
[ [
Si ∩S = (Si ∩ S)
i=1 i=1
por tanto,
" ∞
! # "∞ #
[ [
∞
! ∞
! P Si ∩S P (Si ∩ S)
[ [ i=1 i=1
PS Si =P Si /S = = =
i=1 i=1
P (S) P (S)
∞
X
P (Si ∩ S) ∞ ∞ ∞
i=1
X P (Si ∩ S) X X
= = = P (Si /S) = PS (Si )
P (S) i=1
P (S) i=1 i=1
La definición de probabilidad condicional se extiende fácilmente a más de dos suce-
sos. Por ejemplo, para tres sucesos S1 , S2 y S3 , tenemos
P (S1 ∩ S2 ∩ S3 )
P (S1 /S2 ∩ S3 ) =
P (S2 ∩ S3 )
P (S1 ∩ S2 ∩ S3 )
P (S1 ∩ S2 /S3 ) =
P (S3 )
4.3.1. Regla de la multiplicación

Dados n sucesos, S1 , . . . , Sn , se verifica
n
!
\
P Si = P (S1 )P (S2/S1 )P (S3 /S1 ∩ S2 ) · · · P (Sn /S1 ∩ S2 ∩ · · · ∩ Sn−1 )
i=1
Demostramos este teorema por inducción. Comenzamos con dos sucesos S1 y S2

P (S1 ∩ S2 )
P (S2 /S1 ) = ⇒ P (S1 ∩ S2 ) = P (S1 )P (S2 /S1 )
P (S1 )
Pasamos a tres sucesos S1 , S2 y S3
P (S1 ∩ S2 ∩ S3 ) P (S1 ∩ S2 ∩ S3 )
P (S3 /S1 ∩ S2 ) = = ⇒
P (S1 ∩ S2 ) P (S1 )P (S2/S1 )
P (S1 ∩ S2 ∩ S3 ) = P (S1 )P (S2 /S1 )P (S3 /S1 ∩ S2 )
y ası́ sucesivamente
4.3.2. Teorema de la probabilidad total

Dados un suceso A y n sucesos, S1 , . . . , Sn , disjuntos dos a dos, Si ∩ Sj = ∅, tales que
n
[
Si = E, y A ∩ Si 6= ∅ ∀i, se verifica
i=1
n
X
P (A) = P (A/Si )P (Si )
i=1
Para la demostración de este teorema, descomponemos el suceso A de la siguiente

forma !
n
[ n
[
A=A∩E =A∩ Si = (A ∩ Si )
i=1 i=1
Tomando probabilidades, y teniendo en cuenta que los sucesos {A ∩ Si } son disjuntos dos
a dos, " #
n
[ n
X n
X
P (A) = P (A ∩ Si ) = P (A ∩ Si ) = P (A/Si )P (Si )
i=1 i=1 i=1
4.3.3. Teorema de Bayes

Dados un suceso A y n sucesos, S1 , . . . , Sn , disjuntos dos a dos, Si ∩ Sj = ∅, tales que
n
[
Si = E, y A ∩ Si 6= ∅ ∀i, se verifica
i=1
P (A/Si )P (Si )
P (Si /A) = n
X
P (A/Si )P (Si )
i=1
Por la definición de probabilidad condicional

P (A ∩ Si )
P (A/Si ) =
P (Si )
P (A ∩ Si )
P (Si /A) =
P (A)
Por tanto,
P (A/Si )P (Si )
P (A ∩ Si ) = P (Si /A)P (A) = P (A/Si )P (Si ) ⇒ P (Si /A) =
P (A)
34 Estadı́stica
y, del teorema de la probabilidad total resulta
P (A/Si )P (Si )
P (Si /A) = n
X
P (A/Si )P (Si )
i=1
4.4. Independencia de sucesos

Consideremos el siguiente ejemplo. Una urna contiene 8 bolas blancas y 4 bolas
negras. Se extraen consecutivamente dos bolas, y queremos determinar la probabilidad de
que la segunda bola sea blanca. Para calcular esta probabilidad, debemos diferenciar los
dos tipos de extracción, con o sin reemplazamiento.
Cuando realizamos la extracción sin reemplazamiento, la probabilidad buscada es-
tará condicionada por el color de la primera bola. Es decir, si la primera bola sacada
es blanca, la probabilidad de que la segunda también lo sea es 7/11, mientras que si la
primera bola es negra, la probabilidad de que la segunda sea blanca es 8/11.
Si realizamos la extracción con reemplazamiento, la probabilidad de que la segunda
bola sea blanca es 8/12, sea cual sea el color de la primera bola sacada.
En el primer caso, el color de la segunda bola está condicionado por el color de la
primera bola (sucesos condicionados), mientras que en la extracción con reemplazamien-
to, el color de la segunda bola es independiente del color de la primera bola (sucesos
independientes).
Dos sucesos, S1 y S2 , son independientes si
P (S1 ∩ S2 ) = P (S1 )P (S2)
es decir, cuando P (S1 /S2 ) = P (S1 ) y P (S2/S1 ) = P (S2)

En el caso de tres sucesos, S1 , S2 , S3 , para que sean independientes, han de cumplirse
las cuatro condiciones siguientes
P (S1 ∩ S2 ) = P (S1 )P (S2)

P (S1 ∩ S3 ) = P (S1 )P (S3)
P (S2 ∩ S3 ) = P (S2 )P (S3)
P (S1 ∩ S2 ∩ S3 ) = P (S1 )P (S2 )P (S3)
El cumplimiento de las tres primeras condiciones no implica el de la cuarta. Los

sucesos que cumplen sólo las tres primeras condiciones reciben el nombre de sucesos
independientes dos a dos.
Propiedad. Si S1 y S2 son dos sucesos independientes. Entonces,
S1 y S¯2 son independientes (⇒ S¯1 y S¯2 son independientes)
Descomponemos el suceso S1 en unión de dos sucesos disjuntos,
S1 = (S1 ∩ S¯2 ) ∪ (S1 ∩ S2 )
entonces
P (S1 ) = P (S1 ∩ S¯2 ) + P (S1 ∩ S2 ) = P (S1 ∩ S¯2 ) + P (S1 )P (S2 ) ⇒
P (S1 ∩ S¯2 ) = P (S1) − P (S1 )P (S2 ) = P (S1 )[1 − P (S2 )] = P (S1 )P (S¯2 )
36 Estadı́stica
Variable aleatoria
5 unidimensional
Índice
5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.1. Definición matemática . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.2. Definición intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 40
5.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . 41
5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . 42
5.3.1. Función de distribución y función de densidad . . . . . . . . . . 42
5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . 44
5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . 46
5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . 46
5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . 48
5.5.3. Transformación integral . . . . . . . . . . . . . . . . . . . . . . 49
5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . 50
37
38 Estadı́stica
5.1. Variable aleatoria
5.1.1. Definición matemática

Dado un espacio probabilı́stico, (E, Ω, P ), pretendemos asignar un número a cada
uno de los sucesos elementales, Ai , del espacio muestral. Es decir, creamos una función
X, llamada variable aleatoria, definida en E, que toma valores en R, con la condición de
que
X −1 (b) = {Ai ∈ E/X(Ai ) ∈ b} ∈ Ω
siendo b = (x, y) ó [x, y] ó (x, y] ó [x, y) ó [x, x] con − ∞ ≤ x, y ≤ +∞ es decir, b es un

subconjunto de la σ-álgebra completa de R, llamada σ-álgebra de Borel.
Veamos un par de ejemplos. Consideremos el experimento de lanzar una moneda
dos veces. Entonces
E = {{c, c}, {c, +}, {+, c}, {+, +}} = {A1 , A2 , A3 , A4 }
Ω = {∅, A1 , A4 , A2 ∪ A3 , A1 ∪ A2 ∪ A3 , A4 ∪ A2 ∪ A3 , A1 ∪ A4 , E} = {S1 , . . . , S8 }
Y : E −→ R X: E −→ R
A1 −→ 2 A1 −→ 2
A2 −→ 1 A2 −→ 1
A3 −→ 5 A3 −→ 1
A4 −→ 0 A4 −→ 0
En el primer caso,
Y −1 ((4, 5]) = {Ai ∈ E/4 < Y (Ai ) ≤ 5} = A3 ∈

/Ω
por tanto, Y no es una variable aleatoria de este espacio probabilı́stico (E, Ω, P ). En

cambio, si consideramos la σ−álgebra completa, Y sı́ es una variable aleatoria para este
nuevo espacio probabilı́stico.
En el segundo caso, es fácil comprobar que
X −1 (b) = {Ai ∈ E/X(Ai ) ∈ b} ∈ Ω ∀ b ∈ B
El hecho de que X sea una v.a. de (E, Ω, P ) está directamente relacionado con la
intención con la que se creó el σ−álgebra Ω. Al tomar como sucesos que definen Ω los
sucesos A1 , A4 y A2 ∪ A3 , estamos diciendo que lo que nos interesa del experimento es el
número de caras, lo que está de acuerdo con la filosofı́a de X.
Si el número de valores que toma la variable aleatoria es finito o infinito numerable,
se dice que es una variable aleatoria discreta. Si toma un número infinito no numerable
5 Variable aleatoria unidimensional 39
de valores se dice que es continua. Además, una v.a. puede ser discreta en un conjunto
numerable de puntos y continua en el resto. En este caso, se dice que es mixta.
5.1.2. Definición intuitiva

Una variable aleatoria es una regla que asigna a cada suceso un número real. Se
puede interpretar, por tanto, como una función que toma valores en el espacio muestral E
y devuelve números reales. El uso de variables aleatorias permite, como veremos, cambiar
el álgebra de sucesos por el cálculo con números reales, facilitando enormemente el manejo
de probabilidades asociadas a experimentos aleatorios.
Al definir una variable aleatoria cada suceso se convierte en un subconjunto de la
recta real (en general un intervalo o un punto). En este sentido, uno de los conceptos
fundamentales es el de sucesos generados por variables aleatorias. Supongamos un ex-
perimento aleatorio con espacio muestral E. Si asignamos a cada suceso elemental un
número real (en principio de manera arbitraria) hemos definido una variable aleatoria X.
Manejaremos la notación
{X ≤ x} ≡ conjunto unión de todos los sucesos de E a los que X asigna un

número menor o igual que x.
De la misma manera se pueden definir los conjuntos {x1 < X ≤ x2 } ó {x1 ≤ X ≤ x2 }

ó {X ≥ x} ó {X = x}. Obsérvese que en cada caso hemos convertido un determinado
suceso (puesto que cualquier unión de sucesos elementales lo es) en un intervalo o punto de
la recta real. P ({X ≤ x}) será entonces la probabilidad de que ocurra el suceso definido
por {X ≤ x}. Abusando de la notación prescindiremos en lo sucesivo de las llaves y
escribiremos P (X ≤ x).
Consideremos por ejemplo el experimento de lanzar un dado. El espacio muestral
está formado por seis sucesos elementales E = {Si }i=1,...,6 donde Si ≡ valor obtenido en
la tirada es i. Podemos definir una variable aleatoria X asignando al suceso Si el número
10i. Ası́:
S S
• {X ≤ 35} = S1 S2 S3 . El suceso representado es que salga 1, 2 ó 3.
S
• {20 ≤ X ≤ 35} = S2 S3 . El suceso representado es que salga 2 ó 3.
S
• {20 < X ≤ 35} = S2 S3 . El suceso representado es que salga 3.
• {X ≤ 5} = ∅. Suceso imposible.
40 Estadı́stica
• {X = 40} = S4 . El suceso representado es que salga un 4.
• {X = 35} = ∅. Suceso imposible.
Las probabilidades asociadas serán: P (X ≤ 35) = 1/2, P (20 ≤ X ≤ 35) = 1/3,

P (20 < X ≤ 35) = 1/6, P (X = 5) = 0, P (X = 40) = 1/6, P (X = 35) = 0.
Para el mismo experimento podrı́amos haber definido una variable asignando 0 a los
sucesos S2 , S4 y S6 y 1 a S1 , S3 y S5 . Parece claro que ésta última variable resultará útil
si sólo nos interesa que el resultado del experimento haya sido la obtención de un número
par o uno impar.
5.2. Variable aleatoria discreta
5.2.1. Función de probabilidad

Una vez que hemos definido una variable aleatoria, X, podemos definir una función,
llamada función de probabilidad asociada a X, de la siguiente forma
f : R −→ [0, 1]
x −→ f (x) = P (X = x)
En particular, refiriéndonos al ejemplo de las dos monedas, tenemos
f : R −→ [0, 1]
2 −→ f (2) = P (X = 2) = P (A1) = 1/4
1 −→ f (1) = P (X = 1) = P (A2 ∪ A3 ) = 1/2
0 −→ f (0) = P (X = 0) = P (A4) = 1/4
En general, para que una función, f , sea la función de probabilidad asociada a una
variable aleatoria X, debe cumplir :
i) f (x) ≥ 0 ∀ x ∈ R
X
ii) f (x) = 1
x
donde la suma en x en la segunda condición se realiza sobre todos los posibles valores que
puede tomar la variable aleatoria.
5.2.2. Función de distribución

Dada una v.a. discreta, X, se llama función de distribución a la función F definida
como
F : R −→ [0, 1]
x −→ F (x) = P (X ≤ x)
Veamos algunas propiedades de la función de distribución.
1 F (−∞) = 0
F (−∞) = lı́m F (x) = lı́m P (X ≤ x) = P (∅) = 0

x→−∞ x→−∞
2 F (+∞) = 1
F (+∞) = lı́m F (x) = lı́m P (X ≤ x) = P (E) = 1

x→+∞ x→+∞
3 P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 )

Consideremos los sucesos
A = {X ≤ x2 } B = {X ≤ x1 } C = {x1 < X ≤ x2 }
como A = B ∪ C, siendo B ∩ C = ∅, tenemos
P (A) = P (B) + P (C) =⇒ F (x2 ) = F (x1 ) + P (x1 < X ≤ x2 )
es decir,
P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 )
De forma análoga se demuestra :
P (x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ) + P (X = x1 )

P (x1 < X < x2 ) = F (x2 ) − F (x1 ) − P (X = x2 )
P (x1 ≤ X < x2 ) = F (x2 ) − F (x1 ) + P (X = x1 ) − P (X = x2 )
4 F es monótona creciente
Sean x1 < x2 , por la propiedad anterior,
F (x2 ) = F (x1 ) + P (x1 < X ≤ x2 ) ≥ F (x1 )
5 F es continua por la derecha

Tenemos que comprobar que, dado ε > 0, se cumple
lı́m (F (x + ε) − F (x)) = 0
ε→0
42 Estadı́stica
pero
lı́m (F (x + ε) − F (x)) = lı́m P (x < X ≤ x + ε) = P (∅) = 0
ε→0 ε→0
Si calculamos el lı́mite por la izquierda,
lı́m(F (x) − F (x − ε)) = lı́m P (x − ε < X ≤ x) = P (X = x)

ε→0 ε→0
y, esta probabilidad puede ser cero o no. Por tanto, la función de distribución, en general,
no es continua por la izquierda. De hecho,
F (x) − F (x− ) = lı́m(F (x) − F (x − ε)) = P (X = x)

ε→0
es decir, la probabilidad de que la v.a. discreta X tome un valor concreto es

igual al salto de la función de distribución en ese punto.
Ejemplo.- Sea X una v.a. discreta con función de probabilidad
xi 1 2 3 4
P (X = xi ) 0.1 0.4 0.2 0.3
La función de distribución asociada es


 0 x<1 F (x)

 6

 1


r



 0.1 1≤x<2



 0.7 r


F (x) = 0.5 2≤x<3 0.5 r









 0.7 3≤x<4

 0.1 r

 -



 1 2 3 4 x
1 x≥4
5.3. Variable aleatoria continua
5.3.1. Función de distribución y función de densidad

Dada una v.a. continua, X, se llama función de distribución a la función absoluta-
mente continua, F , definida como
F : R −→ [0, 1]
x −→ F (x) = P (X ≤ x)
Decimos que F es absolutamente continua, si existe una función f : R −→ R, no

negativa e integrable Lebesgue tal que
Z x
F (x) = f (t) dt ∀x ∈ R
−∞
La función f se llama función de densidad. En general, una función f es función de

densidad si verifica
i) f (x) ≥ 0 ∀x ∈ R
Z ∞
ii) f (x) dx = 1
−∞
Veamos algunas propiedades de la función de distribución.

1 F (−∞) = 0 y F (∞) = 1
2 F es monótona creciente
3 F es continua en R
Z x+ε Z x Z x+ε
lı́m (F (x + ε) − F (x)) = lı́m f (t) dt − f (t) dt = lı́m f (t) dt
ε→0 ε→0 −∞ −∞ ε→0 x
Z x+ε
Por ser f integrable en [x, x + ε], ∃µ ∈ [inf f, sup f ] tal que f (t) dt = µ ε
x
(Primer Teorema de la Media). Por tanto,
lı́m (F (x + ε) − F (x)) = lı́m(µ ε) = 0

ε→0 ε→0
La continuidad por la izquierda se demuestra de forma análoga. Por ser F continua,

se cumple
P (X = x) = F (x) − F (x− ) = 0 ∀x ∈ R
por tanto
P (x1 < X ≤ x2 ) = P (x1 < X < x2 ) = P (x1 ≤ X ≤ x2 ) = P (x1 ≤ X < x2 ) =

= F (x2 ) − F (x1 )
Como consecuencia de esta propiedad, al ser la función de distribución continua

en R, no tiene discontinuidades (saltos), por tanto la probabilidad de que la v.a.
continua X tome un valor concreto es cero (P (X = x) = 0).
4 Si f es continua, entonces F es de clase C 1 y F ′ (x) = f (x) ∀x ∈ R

Z x+ε
′ F (x + ε) − F (x) 1
F (x) = lı́m = lı́m f (t) dt
ε→0 ε ε→0 ε x
44 Estadı́stica
Z x+ε
Por ser f continua en [x, x + ε], ∃x0 ∈ [x, x + ε] tal que f (t) dt = f (x0 ) ε
x
(Primer Teorema de la Media). Por tanto,
F (x + ε) − F (x) 1
F ′ (x) = lı́m = lı́m f (x0 ) ε = f (x0 )
ε→0 ε ε→0 ε
Como x0 ∈ [x, x + ε] ∀ε ⇒ x0 = x. La derivabilidad por la izquierda se demuestra de

forma análoga.
Ejemplo.- Sea X una v.a. continua con función de densidad


 3 2
x ∈ [−1, 1]
 2x

f (x) =


 0 resto
La función de distribución
Z x asociada
Z x es
• Si x < −1 F (x) = f (t) dt = 0 dt = 0
−∞Z −∞Z Z x
x −1
3 2 1
• Si −1 ≤ x < 1 F (x) = f (t) dt = 0 dt + t dt = [x3 + 1]
Z x −∞ Z −1 −∞ Z 1 −1 2 Z 2
x
3 2
• Si x ≥ 1 F (x) = f (t) dt = 0 dt + t dt + 0 dt = 1
−∞ −∞ −1 2 1
F (x) 6
 1

 0 x < −1







1 3
F (x) = [x + 1] −1 ≤ x < 1

 2






 1 x≥1
-
-1 1 x
5.4. Variable aleatoria mixta

Una v.a. mixta viene caracterizada por su función de distribución, definida de igual
forma que en los casos anteriores, que es continua por la derecha, con un número de
discontinuidades a lo sumo numerable, pero que no es escalonada. Es decir, en algunos
puntos es discreta (puntos de discontinuidad) y en el resto es continua. Por ejemplo, la
v.a. X con función de distribución


 0 x < −1









 (x + 1)2 + 1/4 −1 ≤ x < −1/2






F (x) = 5/8 −1/2 ≤ x < 1/2









 x + 1/4 1/2 ≤ x < 3/4








1 x ≥ 3/4
F (x) 6
3/4 r
r
1/2
r 1/4
-
-1 -1/2 1/2 3/4 x
Para esta v.a. se cumple

1
P (X = −1) = F (−1+ ) − F (−1− ) = 1/4 − 0 = 1/4
P (X = −1/2) = F (−1/2+ ) − F (−1/2− ) = 5/8 − 1/2 = 1/8
P (X = 1/2) = F (1/2+ ) − F (1/2− ) = 3/4 − 5/8 = 1/8
P (X = x) = 0 ∀ x 6= −1, −1/2, 1/2
Z −1/2 Z 1/2 Z 3/4

P (X = −1)+ (2x+2) dx+P (X = −1/2)+ 0 dx+P (X = 1/2)+ 1 dx = 1
−1 −1/2 1/2
46 Estadı́stica
NOTA: Tanto en el caso de variables discretas como continuas o mixtas, el conocimiento

de la función de distribución (o la de probabilidad o la de densidad) es toda la información
que necesitamos para manejar la v.a. y estudiar el experimento para el que ha sido definida.
De hecho estas funciones constituyen la máxima información posible acerca de la variable.
5.5. Transformaciones de variables aleatorias

En muchas ocasiones deberemos hacer “operacionesçon variables aleatorias. Dada
una variable aleatoria X una función de ella será una nueva variable aleatoria Y = u(X).
En esta sección trataremos de calcular la distribución de esta nueva variable.
Lo primero que debemos tener en mente es que la “aritmética” de las variables
aleatorias no coincide con la de los números reales. Supongamos que lanzamos un dado
y definimos la variable aleatoria X cuyo valor asignado al suceso Si ( ≡ el resultado de
la tirada es i) es i. X toma seis posibles valores {1, 2, 3, 4, 5, 6} según la cara que haya
mostrado el dado. Y1 = 2X es una nueva variable aleatoria que asigna un valor doble al
definido anteriormente para cada suceso elemental. Sin embargo Y2 = X + X no tiene la
misma interpretación. En este caso el dado es lanzado dos veces, sumándose la puntación
obtenida en cada tirada. Los posibles valores de Y1 son {2, 4, 6, 8, 10, 12} mientras que
los de Y2 son {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Para evitar confusiones es conveniente asignar
subı́ndices distintos a las variables que representan cada resultado de un determinado
experimento que se repite varias veces, aun cuando cada una de ellas esté definida de la
misma forma. En el caso de lanzar un dado dos veces podemos considerar la variable X
definida anteriormente y obtener los posibles resultados como X1 + X2 donde cada Xi
tiene la misma distribución de probabilidad que la X.
5.5.1. Variable aleatoria discreta

Sea X una v.a. con función de probabilidad f (x) y función de distribución F (x)
e, Y = u(X) otra v.a. con función de probabilidad g(y) y función de distribución G(y).
Es decir, tenemos una función que relaciona a x e y, y = u(x) ⇒ x = u−1 (y) = w(y).
Entonces
g(y) = P (Y = y) = P (u(X) = y) = P (X = u−1 (y)) = P (X = w(y)) = f [w(y)]
G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1 (y)) = P (X ≤ w(y)) = F [w(y)]
En general el paso de una v.a. a otra es sencilla, sólo hay que tener cuidado cuando
la función u no es biyectiva. Veamos un par de ejemplos para aclarar esto último.
Ejemplo.- Sea X una v.a. con función de probabilidad
xi -2 -1 0 1 2
P (X = xi ) 0.1 0.2 0.2 0.4 0.1
La función de distribución de X es


 0 x < −2





 0.1 −2 ≤ x < −1


 0.3 −1 ≤ x < 0
F (x) =

 0.5 0≤x<1





 0.9 1≤x<2


 1 x≥2
Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1 (y) = w(y) = y/2. Los valores que
toma la v.a. Y son y = {−4, −2, 0, 2, 4}. Entonces
g(y) = P (Y = y) = P (2X = y) = P (X = y/2) = f (y/2)
es decir
yi -4 -2 0 2 4
P (Y = yi ) 0.1 0.2 0.2 0.4 0.1
Y, la función de distribución de Y es
G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2)
es decir


 0 y < −4





 0.1 −4 ≤ y < −2


 0.3 −2 ≤ y < 0
G(y) =

 0.5 0≤y<2





 0.9 2≤y<4


 1 y≥4
Sea ahora Y = u(X) = X 2 . Claramente, la función u no es biyectiva. Tenemos
entonces que los valores que toma la v.a. Y son y = {0, 1, 4}, y la función de probabilidad
es
√ √
g(y) = P (Y = y) = P (X 2 = y) = P ( (X = − y ) ∪ (X = + y ) ) =
√ √
= P (X = − y ) + P (X = + y )
es decir
48 Estadı́stica
yi 0 1 4
P (Y = yi ) 0.2 0.6 0.2
Y, la función de distribución de Y es
√ √
G(y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ + y) =
√ √ √
= P (X = − y) + P (− y < X ≤ + y) =
√ √ √
= f (− y) + F (+ y) − F (− y)
es decir


 0 y<0


 0.2 0≤y<1
G(y) =

 0.8 1≤y<4



1 y≥4
5.5.2. Variable aleatoria continua

Sea X una v.a. con función de densidad f (x) y función de distribución F (x) e,
Y = u(X) otra v.a. con función de densidad g(y) y función de distribución G(y). Es decir,
tenemos una función que relaciona a x e y, y = u(x) ⇒ x = u−1 (y) = w(y). Entonces
G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1 (y)) = P (X ≤ w(y)) = F [w(y)]
g(y) = G′ (y) = F ′ [w(y)] |w ′(y)| = f [w(y)] |w ′(y)|
Igual que en el caso de las v.a. discretas, hay que tener cuidado cuando la función
u no es biyectiva. Veamos un par de ejemplos para aclarar esto último.
Ejemplo.- Sea X una v.a. con funciones de densidad y distribución



 0 x < −1
 

 3 2 

 2x
 −1 ≤ x ≤ 1 

1
f (x) = F (x) = [x3 + 1] −1 ≤ x < 1

 

2
 0 resto 




 1 x≥1
Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1 (y) = w(y) = y/2. Entonces
G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2)
g(y) = G′ (y) = F ′ (y/2) 12 = f (y/2) 12

es decir,


 0 y < −2
 

 3 2 


 16
y −2 ≤ y ≤ 2 

1
g(y) = G(y) = [(y/2)3 + 1] −2 ≤ y < 2

 

2
 0 resto 




 1 y≥2
Sea ahora Y = u(X) = X 2 . Claramente, la función u no es biyectiva.

√ √ √ √
G(y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ + y ) = F (+ y ) − F (− y )
√ √ √ √
g(y) = G′ (y) = F ′ (+ y ) 2√1 y − F ′ (− y ) 2−1 1
√ = f (+ y ) √
y 2 y
+ f (− y ) 2√1 y
es decir,


 0 y<0
 

 3√ 

 2 y
 0≤y≤1 

√
g(y) = G(y) = y y 0≤y<1

 

 0 resto 




 1 y≥1
5.5.3. Transformación integral

Sea X una v.a. con función de distribución, F , estrictamente creciente. Entonces, la
transformación biyectiva
Y = F (X)
da lugar a una nueva v.a. con funciones de distribución y densidad
G(y) = P (Y ≤ y) = P (F (X) ≤ y) = P (X ≤ F −1 (y)) = F (F −1(y)) = y
g(y) = G′ (y) = 1
50 Estadı́stica
Ejemplo.- Sea X una v.a. con funciones de densidad y distribución



 0 x<1
 

 2 


 3 x 1 ≤ x ≤ 2 

f (x) = F (x) = 1 2
[x − 1] 1≤x<2

 

3
 0 resto 




 1 x≥2
Realizamos la transformación Y = 31 [X 2 − 1], entonces

G(y) = P (Y ≤ y) = P 31 [X 2 − 1] ≤ y = P (X 2 ≤ 3y + 1) =
√ √ √ √
= P − 3y + 1 ≤ X ≤ + 3y + 1 = F + 3y + 1 − F − 3y + 1 =
√
= F + 3y + 1
√ 3 √ 3
g(y) = F ′ 3y + 1 2√3y+1 =f 3y + 1 2√3y+1 =
2p 3
= 3y + 1 √ =1
3 2 3y + 1
es decir,

( 
1 0≤y≤1  0
 y<0
g(y) = G(y) = y 0≤y<1
0 resto 

 1 y≥1
5.6. Distribuciones truncadas

En ocasiones, cuando se estudia el comportamiento de una v.a., resulta conveniente
restringir su campo de variación a un cierto subconjunto de especial interés, lo que conduce
a un tipo de v.a. llamada variable aleatoria truncada.
Expresado formalmente, sea X una v.a. cuyo campo de variación es el conjunto E y
su función de distribución es F (x); y sea S un subconjunto de E tal que P (X ∈ S) > 0.
El problema consiste en calcular la probabilidad de que X ∈ A sabiendo que X ∈ S,
siendo A ⊂ S, es decir calcular la probabilidad del suceso condicionado {X ∈ A/X ∈ S}.
Para ello, recurrimos a la definición de probabilidad condicional
P ((X ∈ A) ∩ (X ∈ S))
P (X ∈ A/X ∈ S) =
P (X ∈ S)
En particular, si consideramos el suceso A = {X ≤ x} entonces la probabilidad

buscada, P (X ≤ x/X ∈ S), es la función de distribución truncada de la v.a. X en el
nuevo campo de variación, S, y la notaremos por FT . Ası́,
P ((X ≤ x) ∩ (X ∈ S))
FT (x) ≡ P (X ≤ x/X ∈ S) =
P (X ∈ S)
Ejemplo.- Sea X una v.a. definida en el intervalo E = [xi , xf ] y con función de distribución
F . Dados los sucesos S = {x0 < X ≤ x1 } y A = {X ≤ x} (Fig. 5.1), entonces la función
de distribución truncada es
P ((X ∈ A) ∩ (X ∈ S))
FT (x) = P (X ∈ A/X ∈ S) = =
P (X ∈ S)
P ((X ≤ x) ∩ (x0 < X ≤ x1 )) P (x0 < X ≤ x)

= = =
P (x0 ≤ X ≤ x1 ) P (x0 < X ≤ x1 )
F (x) − F (x0 )
= , x0 < x ≤ x1
F (x1 ) − F (x0 )
• Si X es discreta, la función de probabilidad truncada es
P ((X = x) ∩ (x0 < X ≤ x1 ))

PT (X = x) = P (X = x/X ∈ S) = =
P (x0 ≤ X ≤ x1 )
P (X = x)
= , x0 < x ≤ x1
F (x1 ) − F (x0 )
• Si X es continua, la función de densidad truncada es
f (x)
fT (x) = FT′ (x) = , x0 < x ≤ x1
F (x1 ) − F (x0 )
xi x0 x x1 xf
A
Figura 5.1: Esquema para una distribución truncada

52 Estadı́stica
Momentos de una
6 variable aleatoria
unidimensional
Índice
6.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . 54
6.2. Momento de orden k de una variable aleatoria . . . . . . . . . 55
6.3. Varianza y desviación tı́pica . . . . . . . . . . . . . . . . . . . . 56
6.4. Otros valores tı́picos . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.5. Coeficientes de asimetrı́a y curtosis . . . . . . . . . . . . . . . 58
6.6. Teorema de Markov. Desigualdad de Chebychev . . . . . . . 60
6.7. Función generatriz de momentos . . . . . . . . . . . . . . . . . 61
6.8. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . 62
6.8.1. Cambio de variable en la función caracterı́stica . . . . . . . . . 64
53
54 Estadı́stica
6.1. Esperanza matemática

Se define la esperanza matemática o media de una v.a. X como
X
µ = E[X] = xi P (X = xi ) v.a. discreta
i
Z +∞
µ = E[X] = xf (x) dx v.a. continua
−∞
De forma más general, si tenemos una función T (X),

X
E[T (X)] = T (xi ) P (X = xi ) v.a. discreta
i
Z +∞
E[T (X)] = T (x)f (x) dx v.a. continua
−∞
Si la v.a. es discreta y toma un número finito de valores, entonces su esperanza

siempre es finita, pero en el resto de los casos, la esperanza puede no ser finita.
Ejemplo 1.- Sea X una v.a. discreta con función de probabilidad
xn 2n−1
P (X = xn ) 2−n
Entonces ∞ ∞
X X 1 1/2
P (X = xn ) = n
= =1
n=1 n=1
2 1 − 1/2
pero,
∞
X ∞
X ∞
X1
n−1 1
E[X] = xn P (X = xn ) = 2 = =∞
n=1 n=1
2n n=1
2
Ejemplo 2.- Sea X una v.a. continua con función de densidad



 0
 x<1
f (x) =


 1
x≥1
x2
Entonces Z +∞ Z +∞
1
f (x) dx = dx = 1
−∞ 1 x2
pero Z Z
+∞ +∞
1
E[X] = xf (x) dx = x dx = ∞
−∞ 1 x2
6 Momentos de una variable aleatoria unidimensional 55
En general, tomaremos como criterio de convergencia de la esperanza matemática,

la convergencia absoluta de la serie o la integral, es decir
X X
si |xi |P (X = xi ) < ∞ ⇒ xi P (X = xi ) = E[X] < ∞
i i
Z +∞ Z +∞
si |x|f (x) dx < ∞ ⇒ xf (x) dx = E[X] < ∞
−∞ −∞
Veamos algunas propiedades de la esperanza matemática
• La esperanza matemática de una constante es la misma constante : E[C]=C
• E[T1 (X) + T2 (X)] = E[T1 (X)] + E[T2 (X)]
• E[aX + b] = aE[X] + b
6.2. Momento de orden k de una variable aleatoria

Como casos particulares de función de una v.a. se pueden tomar las funciones
T1 (X) = X k y T2 (X) = (X − µ)k con k ∈ N. De esta forma, se define el
momento de orden k centrado en el origen de X como
X
mk = E[X k ] = xi k P (X = xi ) v.a. discreta
i
Z +∞
mk = E[X ] =k
xk f (x) dx v.a. continua
−∞
y el momento de orden k centrado en la media de X como

X
Mk = E[(X − µ)k ] = (xi − µ)k P (X = xi ) v.a. discreta
i
Z +∞
Mk = E[(X − µ) ] = k
(x − µ)k f (x) dx v.a. continua
−∞
Se comprueba fácilmente que :
• m1 = E[X] = µ
• M1 = E[X − µ] = E[X] − µ = 0
56 Estadı́stica
Además, podemos relacionar los momentos centrados en la media con los momentos
centrados en el origen, y viceversa.
X
Mk = E[(X − µ)k ] = (xi − µ)k P (X = xi ) =
i
" ! ! ! ! #
X k k k k
= xi k − xi k−1 µ + xi k−2 µ2 + · · · + (−1)k µk P (X = xi ) =
i 0 1 2 k
! ! ! !
k k k k
= mk − µmk−1 + µ2 mk−2 + · · · + (−1)k µk
0 1 2 k
X
mk = E[X k ] = E[(X − µ + µ)k ] = (xi − µ + µ)k P (X = xi ) =
i
" ! ! ! #
X k k k
k k−1 k
= (xi − µ) + (xi − µ) µ+···+ µ P (X = xi ) =
i 0 1 k
! ! ! !
k k k 2 k
= Mk + µMk−1 + µ Mk−2 + · · · + µk
0 1 2 k
6.3. Varianza y desviación tı́pica

Se define la varianza de una v.a., X, con media µ, como
X
σ 2 = Var(X) = M2 = E[(X − µ)2 ] = (xi − µ)2 P (X = xi ) v.a. discreta
i
Z +∞
2
σ = Var(X) = M2 = E[(X − µ) ] = 2
(x − µ)2 f (x) dx v.a. continua
−∞
Veamos algunas propiedades :

• Var(X) = E[X 2 ] − (E[X])2
X X
Var(X) = (xi − µ)2 P (X = xi ) = xi 2 + µ2 − 2µxi P (X = xi ) =
i i
X X
= xi 2 P (X = xi ) + µ2 − 2µ xi P (X = xi ) = E[X 2 ] + µ2 − 2µ2 = E[X 2 ] − (E[X])2
i i
• Var(aX + b) = a2 Var(X)
Sea Y = aX + b ⇒ µY = E[Y ] = E[aX + b] = aE[X] + b = aµX + b. Entonces
Var(aX + b) = Var(Y ) = E[(Y − µY )2 ] =
= E[(aX + b − aµX − b)2 ] = E[(aX − aµX )2 ] = a2 E[(X − µX )2 ] = a2 Var(X)

Generalmente, resulta más práctico utilizar una medida de la dispersión de los datos
en las mismas unidades que los propios datos, por ello, se define la desviación tı́pica como
p
σ= Var(X)
6.4. Otros valores tı́picos

Mediana (Me) : es el punto que divide la distribución en dos partes de igual probabilidad
• v.a. discreta 

 P (X ≤ xn ) ≥ 1/2

Me=xn ∈ R tal que


 P (X ≥ x ) ≥ 1/2
n
• v.a. continua
Me=x ∈ R tal que P (X ≥ x) = P (X ≤ x) = 1/2
Moda (Mo) : es el punto (o los puntos) de mayor probabilidad.
Mo=xn ∈ R tal que P (X = xn ) ≥ P (X = xi ) ∀i v.a. discreta
Mo=x ∈ R tal que f (x) ≥ f (t) ∀t v.a. continua
Cuantiles : El cuantil de orden p es el valor xp de la variable tal que
P (X ≤ xp ) = p (0 < p < 1)
Como casos particulares citamos :
• Cuartiles : Son tres valores, Qn , tales que

n
P (X ≤ Qn ) = (n = 1, 2, 3)
4
• Deciles : Son nueve valores, Dn , tales que

n
P (X ≤ Dn ) = (n = 1, . . . , 9)
10
• Percentiles : Son 99 valores, Pn , tales que

n
P (X ≤ Pn ) = (n = 1, . . . , 99)
100
58 Estadı́stica
Figura 6.1: Función de densidad de una distribución Normal
6.5. Coeficientes de asimetrı́a y curtosis

Una distribución continua muy utilizada es la llamada distribución Normal (Fig.
6.1). En este apartado, pretendemos comparar la distribución de una v.a. cualquiera, X,
con media E[X] = µ y varianza Var(X) = σ 2 , con la distribución Normal, en dos aspectos :
grado de asimetrı́a y grado de achatamiento.
Una de las propiedades de la distribución Normal, es que su función de densidad es
simétrica respecto a su media. En general, si la distribución que estamos estudiando es
simétrica respecto a su media, entonces
P (X ≥ µ + x) = P (X ≤ µ − x) v.a. discreta
(x > 0)
f (µ + x) = f (µ − x) v.a. continua
y, es fácil comprobar, que los momentos de orden impar centrados en la media son todos
nulos,
M2n+1 = E[(X − µ)2n+1 ] = 0 n = 0, 1, 2, . . .
Sabemos que M1 = 0 para toda v.a., por tanto, utilizamos el siguiente momento
más fácil de calcular, que es M3 . Ası́, definimos el coeficiente de asimetrı́a o sesgo, como
el escalar adimensional
Figura 6.2: Asimetrı́a
X
(xi − µ)3 P (X = xi )
M3 M3
CA = 3
= 3/2 = " i #3/2 v.a. discreta
σ M2 X
(xi − µ)2 P (X = xi )
i
Z +∞
(x − µ)3 f (x) dx
M3 M3 −∞
CA = 3 = 3/2 = Z 3/2 v.a. continua
σ M2 +∞
2
(x − µ) f (x) dx
−∞
de forma que si


 CA = 0 puede ser simétrica






CA > 0 es asimétrica positiva o sesgada a la derecha (µ ≥ Me)







 CA < 0 es asimétrica negativa o sesgada a la izquierda (µ ≤ Me)
Respecto al grado de achatamiento o apuntamiento, parece lógico utilizar un coe-

ficiente que tenga en cuenta la dispersión de los datos en torno a la media. En una
distribución Normal, se cumple
M4
=3
M22
y, en general, definimos el coeficiente de apuntamiento o curtosis como el escalar adimen-
sional
60 Estadı́stica
Figura 6.3: Curtosis
X
(xi − µ)4 P (X = xi )
M4 M4
CAp = 4
−3 = 2 −3 = " i #2 − 3 v.a. discreta
σ M2 X
(xi − µ)2 P (X = xi )
i
Z +∞
(x − µ)4 f (x) dx
M4 M4
CAp = 4 − 3 = 2 − 3 = Z −∞ 2 − 3 v.a. continua
σ M2 +∞
(x − µ)2 f (x) dx
−∞
de forma que si 

 CAp > 0 distribución leptocúrtica






CAp = 0 distribución mesocúrtica







 CAp < 0 distribución platicúrtica
6.6. Teorema de Markov. Desigualdad de Chebychev

Sea X una v.a. y g(X) una función tal que g(X) ≥ 0. Entonces, ∀ k > 0 se cumple
E[g(X)]
P (g(X) ≥ k) ≤
k
La demostración
Z +∞ es muy sencilla,
Z ya que Z
E[g(X)] = g(x)f (x) dx = g(x)f (x) dx + g(x)f (x) dx ≥
−∞ g(X)≥k g(X)<k
Z Z
≥ g(x)f (x) dx ≥ k f (x) dx = kP (g(X) ≥ k)
g(X)≥k g(X)≥k
En la práctica, se utilizan otras versiones de este teorema, como :
E[g(X)]
• P (g(X) < k) = 1 − P (g(X) ≥ k) ≥ 1 −
k
• Si g(X) = (X − µ)2 y k = (kσ)2 entonces
E[(X − µ)2 ]
P ((X − µ)2 < k 2 σ 2 ) ≥ 1 − =⇒
k2 σ2
σ2
P (|X − µ| < kσ) ≥ 1 − =⇒
k2 σ2
1
P (µ − kσ < X < µ + kσ) ≥ 1 − 2
k
que es la desigualdad de Chebychev. La probabilidad de que una v.a., X, tome

un valor dentro de k desviaciones de la media es al menos (1 − 1/k 2 )
6.7. Función generatriz de momentos

La función generatriz de momentos asociada a una v.a. X se define como
X
g(θ) = E[eθX ] = eθxi P (X = xi ) v.a. discreta
i
Z +∞
g(θ) = E[e θX
]= eθx f (x) dx v.a. continua
−∞
La función generatriz de momentos se utiliza, como su nombre indica, para calcular

los momentos deZuna v.a., ya que Z
+∞ +∞
θ2 2 θn n
g(θ) = E[eθX ] = eθx f (x) dx = 1 + θx + x + · · · + x + · · · f (x) dx =
−∞ −∞ 2! n!
θ2 θn
= 1 + θm1 + m2 + · · · + mn + · · ·
2! n!
es decir, si g(θ) admite desarrollo de Taylor en torno a 0, entonces

dr g(θ)
mr =
dθr θ=0
El inconveniente de utilizar la función generatriz de momentos es que antes de utili-

zarla, hay que saber si la serie o la integral converge. Para evitar este problema, se define
la función caracterı́stica, que estudiamos en el siguiente apartado.
62 Estadı́stica
6.8. Función caracterı́stica

La función caracterı́stica asociada a una v.a. X se define como
X
ϕ(t) = E[eitX ] = eitxk P (X = xk ) v.a. discreta
k
Z +∞
ϕ(t) = E[e itX
]= eitx f (x) dx v.a. continua
−∞
Veamos algunas de sus propiedades.
1 La función caracterı́stica existe ∀t ∈ R
ϕ(t) = E[eitX ] = E[cos(tX) + isen(tX)] = E[cos(tX)] + iE[sen(tX)]
pero Z Z
+∞ +∞
E[|cos(tX)|] = |cos(tx)| f (x) dx ≤ f (x) dx = 1 < +∞
−∞ −∞
Z +∞ Z +∞
E[|sen(tX)|] = |sen(tx)| f (x) dx ≤ f (x) dx = 1 < +∞
−∞ −∞
por tanto, E[cos(tX)] y E[sen(tX)] son convergentes, y ϕ(t) también.
2 ϕ(0) = 1
3 |ϕ(t)| ≤ 1
Z +∞ Z +∞
itX itX itx
|ϕ(t)| = |E[e ]| ≤ E[ |e |] = |e | f (x) dx = f (x) dx = 1
−∞ −∞
4 ϕ(−t) = ϕ(t)
ϕ(−t) = E[ei(−t)X ] = E[cos(tX) − isen(tX)] = E[cos(tX)] − iE[sen(tX)] = ϕ(t)
5 Si ϕ(t) es la función caracterı́stica asociada a una v.a., X, con función de distribución

F , y a < b son dos puntos de continuidad de F , entonces
Z T −iat
1 e − e−ibt
F (b) − F (a) = lı́m ϕ(t) dt
2π T →∞ −T it
siempre que ϕ(t) sea integrable. En particular,
Z T
1 e−izt − e−ibt
F (b) = F (b) − 0 = F (b) − F (−∞) = lı́m lı́m ϕ(t) dt
2π z→−∞ T →∞ −T it
6 Si ϕ(t) es integrable, y x un punto de continuidad de F , entonces
Z +∞
1
P (X = x) = e−itx ϕ(t) dt v.a. discreta
2π −∞
Z +∞
1
f (x) = e−itx ϕ(t) dt v.a. continua
2π −∞
7 Si ϕ(t) es la función caracterı́stica de una v.a., y admite un desarrollo de Taylor en

torno a 0, entonces
i2 ik
ϕ(t) = 1 + im1 t + m2 t2 + · · · + mk tk + · · ·
2! k!
ϕ(t) = E[eitX ] =⇒ ϕ(0) = 1
ϕ′ (t) = E[iXeitX ] =⇒ ϕ′ (0) = E[iX] = im1
ϕ′′ (t) = E[i2 X 2 eitX ] =⇒ ϕ′′ (0) = E[i2 X 2 ] = i2 m2

..
.
dr ϕ(t) r r itX dr ϕ(0)
r
= E[i X e ] =⇒ r
= E[ir X r ] = ir mr
dt dt
es decir,
1 dr ϕ(t)
mr = r
i dtr t=0
8 La función caracterı́stica es uniformemente continua en todo intervalo de la recta real.
9 La función caracterı́stica, ϕ(t), asociada a una v.a., X, es real si y sólo si, X es

simétrica.
10 A toda función caracterı́stica le corresponde una y sólo una función de distribución.

Es decir, si dos v.a. tienen la misma función caracterı́stica, entonces tienen la misma
función de distribución y viceversa.
11 Sean {X1 , X2 , . . . , Xn } n variables aleatorias independientes con funciones carac-

terı́sticas {ϕX1 , ϕX2 , . . . , ϕXn }, e Y = X1 + X2 + · · · + Xn . Entonces
n
Y
ϕY (t) = ϕXi (t)
i=1
Es necesario resaltar que, a lo largo de este apartado, hemos visto cómo dada una v.a.
se puede calcular su función caracterı́stica e incluso, a partir de la función caracterı́stica
podemos calcular el valor de la función de distribución asociada, en un punto. En cambio,
en ningún momento hemos dado un criterio para saber, dada una función cualquiera, ϕ(t),
si es la función caracterı́stica asociada a alguna v.a. Veamos con un par de ejemplos, que
la cosa no es sencilla.
1
Ejemplo 1.- Sea ϕ(t) = ∀t ∈ R
1 + t4
Esta función verifica las siguientes propiedades tı́picas de una función caracterı́stica :
64 Estadı́stica
• ϕ está definida en todo R
• ϕ(0) = 1
• ϕ(−t) = ϕ(t)
• ϕ es uniformemente continua en R
• |ϕ(t)| ≤ 1
Supongamos que ϕ(t) es la función caracterı́stica de una v.a. X. Claramente, ϕ(t)

admite un desarrollo de Taylor, por tanto
ϕ′ (0)
µ = m1 = E[X] = =0
i
ϕ′′ (0)
Var(X) = E[(X − µ)2 ] = E[X 2 ] − µ2 = 2 = 0
i
Es decir la v.a. X tiene que ser la v.a. degenerada que toma el valor 0 con probabi-
lidad P (X = 0) = 1. Pero, la función caracterı́stica de esta v.a. degenerada es
X
ϕ(t) = E[eitX ] = eitxn P (xn ) = eit0 P (0) = 1
n
1
Ejemplo 2.- Sea ϕ(t) = ∀t ∈ R
2 − eit
Supongamos que ϕ(t) es la función caracterı́stica de una v.a., X, discreta. Como
ϕ(t) es un sumatorio de una serie de términos, vamos a suponer que se trata de una serie
de potencias. Ası́,
X ∞
itx 1 1/2 1er término X 1 ixt
ϕ(t) = e P (x) = = = = e
x
2 − eit 1 − 12 eit 1 − razón x=0
2 x+1
es decir, se trata de una v.a. discreta que toma todos los valores enteros no negativos,
1
x, con P (X = x) = x+1 . Si calculamos ahora la función caracterı́stica de esta v.a.,
2
comprobamos fácilmente que es ϕ(t).
6.8.1. Cambio de variable en la función caracterı́stica

Sea X una v.a. con función caracterı́stica ϕX (t). Realizamos el cambio Y = aX + b,
entonces Z +∞
ϕY (t) = E[e itY
] = E[e it(aX+b)
]= eit(ax+b) f (x) dx =
−∞
Z +∞
= eitb eitax f (x) dx = eitb E[ei(at)X ] = eitb ϕX (at)
−∞
Variable aleatoria
7 bidimensional y
n-dimensional
Índice
7.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . 66
7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . . 66
7.2.1. Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . 67
7.2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . 67
7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . . 69
7.3.1. Función de distribución y función de densidad . . . . . . . . . . 69
7.4. Variable aleatoria bidimensional condicional . . . . . . . . . . 72
7.5. Variables aleatorias bidimensionales independientes . . . . . . 75
7.6. Momentos de una variable aleatoria bidimensional . . . . . . 76
7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . . 78
7.6.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . 80
7.7. Función caracterı́stica de una variable aleatoria bidimensional 81
7.8. Transformación de variables aleatorias bidimensionales . . . . 82
7.8.1. Una función de dos variables aleatorias . . . . . . . . . . . . . . 82
7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . . 82
7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . . 84
65
66 Estadı́stica
7.1. Variable aleatoria bidimensional

Cuando el resultado de un experimento aleatorio se traduce en una única obser-
vación, tenemos una variable aleatoria unidimensional. Si el resultado del experimento
se materializa en dos observaciones simultáneas, por ejemplo, el peso y la altura de un
colectivo de individuos, estamos ante una variable aleatoria bidimensional (X, Y ).
Expresado formalmente, partimos de un espacio probabilı́stico (E, Ω, P ) y dos va-
riables aleatorias X e Y definidas en él. El vector aleatorio cuyas componentes son X e
Y , se denomina variable aleatoria bidimensional (X, Y ). Este vector aleatorio tendrá un
campo de variación y una distribución de probabilidad, que llamaremos conjunta. Por
otra parte, tanto X como Y son v.a. unidimensionales, y tendrán un campo de variación
y una distribución de probabilidad que llamaremos marginales.
De nuevo, lo que se pretende es sustituir el álgebra de sucesos por el álgebra de
números reales y, otra vez, el concepto relevante es el de sucesos generados por variables
aleatorias. Dadas dos variables aleatorias X e Y podemos definir los sucesos conjuntos
{X ≤ x, Y ≤ y} como:
\
{X ≤ x, Y ≤ y} ≡ {X ≤ x} {Y ≤ y}
De la teorı́a sabemos que el conocimiento de las probabilidades de los dos sucesos

del miembro de la izquierda no basta para calcular la probabilidad de su intersección.
Sólo en el caso en que las dos variables unidimensionales X e Y representen resultados
independientes la probabilidad de la intersección será el producto de las probabilidades.
En general, por tanto, la máxima información sobre una variable bidimensional no
está en las distribuciones marginales sino que deberemos conocer la distribución conjunta.
En el caso de variables unidimensionales los sucesos se convierten en intervalos de
la recta real y sus probabilidades asociadas pueden calcularse integrando la función de
densidad sobre dicho intervalo. Ahora, los sucesos conjuntos se convierten en subconjuntos
de R2 . La probabilidad asociada a un suceso de este tipo puede calcularse también, como
veremos, realizando la correspondiente integración en el plano.
7.2. Variable aleatoria bidimensional discreta

Una v.a. bidimensional, (X, Y ), es discreta cuando las v.a. que la componen, X e
Y , son discretas.
7 Variable aleatoria bidimensional y n-dimensional 67
7.2.1. Función de probabilidad

Dada una v.a. bidimensional (X, Y ), la función de probabilidad conjunta viene dada
por
P (X = xi , Y = yj ) = pij 1 ≤ i, j ≤ +∞
debiéndose cumplir
• pij ≥ 0 ∀i, j
∞ X
X ∞ ∞ X
X ∞
• P (X = xi , Y = yj ) = pij = 1
i=1 j=1 i=1 j=1
Las funciones de probabilidad marginales son:
• v.a. X ∞
X
P (X = xi ) = P (X = xi , Y = yj ) = pi· 1 ≤ i ≤ +∞
j=1
• v.a. Y ∞
X
P (Y = yj ) = P (X = xi , Y = yj ) = p·j 1 ≤ j ≤ +∞
i=1
Como tanto X como Y son v.a. unidimensionales, debe cumplirse que

∞
X ∞
X
P (X = xi ) = P (Y = yj ) = 1
i=1 j=1
7.2.2. Función de distribución

Dada una v.a. bidimensional (X, Y ), la función de distribución conjunta viene dada
por
n X
X m n X
X m
F (xn , ym ) = P (X ≤ xn , Y ≤ ym ) = P (X = xi , Y = yj ) = pij
i=1 j=1 i=1 j=1
La función de distribución conjunta verifica algunas de las propiedades tı́picas de la

función de distribución unidimensional:
(i) F (−∞, −∞) = F (xi , −∞) = F (−∞, yj ) = 0
(ii) F (+∞, +∞) = 1

68 Estadı́stica
(iii) F es monótona creciente:
Si x1 < x2 F (x1 , y) ≤ F (x2 , y) ∀y

Si y1 < y2 F (x, y1 ) ≤ F (x, y2 ) ∀x
Las funciones de distribución marginales vienen dadas por
• v.a. X
n X
X ∞
FX (xn ) = F (xn , +∞) = P (X ≤ xn , Y ≤ +∞) = P (X = xi , Y = yj ) =
i=1 j=1
X ∞
n X n
X
= pij = pi· = P (X ≤ xn ) ∀xn
i=1 j=1 i=1
• v.a. Y
∞ X
X m
FY (ym ) = F (+∞, ym) = P (X ≤ +∞, Y ≤ ym ) = P (X = xi , Y = yj ) =
i=1 j=1
∞ X
X m m
X
= pij = p·j = P (Y ≤ ym ) ∀ym
i=1 j=1 j=1
Ejemplo.- Sea la v.a. bidimensional (X, Y ), con función de probabilidad conjunta,

HH
HH
H xi 0 1 2 P (Y = yj )
yj HH
H
-1 0.01 0.07 0.04 0.12

0 0.05 0.02 0.11 0.18
1 0.32 0.14 0.04 0.50
2 0.06 0.13 0.01 0.20
P (X = xi ) 0.44 0.36 0.20 1
Se cumple,
XX 3 X
X 4
P (X = xi , Y = yj ) = pij = 0.01 + · · · + 0.01 = 1
i j i=1 j=1
Las funciones de probabilidad marginales son,

• v.a. X
xi 0 1 2
P (X = xi ) 0.44 0.36 0.20
Se cumple,
X 3
X
P (X = xi ) = pi· = 0.44 + 0.36 + 0.20 = 1
i i=1
• v.a. Y
yj -1 0 1 2
P (Y = yj ) 0.12 0.18 0.50 0.20
Se cumple,
X 4
X
P (Y = yj ) = p·j = 0.12 + 0.18 + 0.50 + 0.20 = 1
j j=1
7.3. Variable aleatoria bidimensional continua

Una v.a. bidimensional, (X, Y ), es continua cuando las v.a. que la componen, X e
Y , son continuas.
7.3.1. Función de distribución y función de densidad

Dada una v.a. bidimensional (X, Y ), la función de distribución conjunta viene dada
por
F (x, y) = P (X ≤ x, Y ≤ y) ∀x, y ∈ R
La función de distribución conjunta verifica algunas de las propiedades tı́picas de la

función de distribución unidimensional:
(i) F (−∞, −∞) = F (x, −∞) = F (−∞, y) = 0
(ii) F (+∞, +∞) = 1

70 Estadı́stica
(iii) F es monótona creciente:
Si x1 < x2 F (x1 , y) ≤ F (x2 , y) ∀y ∈ R

Si y1 < y2 F (x, y1 ) ≤ F (x, y2 ) ∀x ∈ R
En el caso de v.a. unidimensionales continuas, a la función de distribución está aso-

ciada la función de densidad, que se obtiene derivando la primera. Para las v.a. bidimen-
sionales continuas también hay una función de densidad conjunta, f (x, y), asociada a la
función de distribución conjunta, de tal forma que
Z x Z y
F (x, y) = P (X ≤ x, Y ≤ y) = f (x, y) dxdy
−∞ −∞
Veamos algunas relaciones importantes
1 f (x, y) ≥ 0 ∀x, y ∈ R
Z +∞ Z +∞
2 f (x, y) dydx = 1
−∞ −∞
Z b Z d
3 P (a ≤ X ≤ b, c ≤ Y ≤ d) = f (x, y) dydx
a c
∂ 2 F (x, y) ∂ 2 F (x, y)
4 = = f (x, y) ∀x, y ∈ R
∂x ∂y ∂y ∂x
Las funciones de distribución marginales vienen dadas por,

• v.a. X
Z x Z +∞ Z x
FX (x) = F (x, +∞) = P (X ≤ x, Y ≤ +∞) = f (x, y) dydx = fX (x) dx
−∞ −∞ −∞
siendo
Z +∞
fX (x) = f (x, y) dy ∀ x ∈ R
−∞
la función de densidad marginal de X, que debe verificar

Z +∞
fX (x) dx = 1
−∞
• v.a. Y
Z y Z +∞ Z y
FY (y) = F (+∞, y) = P (X ≤ +∞, Y ≤ y) = f (x, y) dxdy = fY (y) dy
−∞ −∞ −∞
siendo
Z +∞
fY (y) = f (x, y) dx ∀ y ∈ R
−∞
la función de densidad marginal de Y , que debe verificar
Z +∞
fY (y) dy = 1
−∞
Ejemplo.- Sea (X, Y ) la v.a. bidimensional con función de densidad conjunta
2
f (x, y) = (x + 6y) 0 ≤ x, y ≤ 1
7
Z +∞ Z +∞ Z 1 Z 1 Z 1
2 2
• f (x, y) dydx = (x + 6y) dydx = (x + 3) dx = 1
−∞ −∞ 0 0 7 0 7
• Función de distribución conjunta

Z x Z y Z x Z y
2
F (x, y) = f (x, y) dydx = (x + 6y) dydx =
−∞ −∞ 0 0 7
Z x
2 2 1 1
= (xy + 3y 2) dx = ( x2 y + 3xy 2) = xy(x + 6y) 0 ≤ x, y ≤ 1
0 7 7 2 7
• Función de densidad marginal de X

Z +∞ Z 1
2 2
fX (x) = f (x, y) dy = (x + 6y) dy = (x + 3) 0 ≤ x ≤ 1
−∞ 0 7 7
• Función de densidad marginal de Y
Z +∞ Z 1
2 1
fY (y) = f (x, y) dx = (x + 6y) dx = (1 + 12y) 0 ≤ y ≤ 1
−∞ 0 7 7
• Función de distribución marginal de X

Z x Z +∞ Z x
FX (x) = f (x, y) dydx = fX (x) dx =
−∞ −∞ 0
72 Estadı́stica
Z x
2 1
= (x + 3) dx = x(x + 6) 0 ≤ x ≤ 1
0 7 7
• Función de distribución marginal de Y

Z y Z +∞ Z y
FY (y) = f (x, y) dxdy = fY (y)dy =
−∞ −∞ 0
Z y
2 1 2 1 1
= ( + 6y) dy = ( y + 3y 2) = y(1 + 6y) 0 ≤ y ≤ 1
0 7 2 7 2 7
• Se puede comprobar que
fX (x) = FX′ (x) 0 ≤ x ≤ 1 y fY (y) = FY′ (y) 0 ≤ y ≤ 1
Z +∞ Z +∞
fX (x) dx = fY (y) dy = 1
−∞ −∞
7.4. Variable aleatoria bidimensional condicional

Junto con las distribuciones marginales tenemos otras de gran importancia, las dis-
tribuciones condicionales, que surgen cuando en la distribución conjunta se establece una
condición sobre una de las variables. La distribución condicional expresa el comportamien-
to probabilı́stico de una variable aleatoria, cuando la otra está sujeta a ciertas condiciones.
Partimos de la definición de probabilidad condicional de dos sucesos
P (A ∩ B)
P (A/B) =
P (B)
siempre que P (B) > 0.

Sea (X, Y ) una v.a. bidimensional discreta con función de probabilidad conjunta
P (X = xi , Y = yj ) = pij
Definimos la función de distribución de la variable Y condicionada por la variable

X, {Y|X } como
m
X
pnj
P (X = xn , Y ≤ ym ) j=1
F (ym |xn ) = P (Y ≤ ym |X=xn ) = =
P (X = xn ) pn·
De manera análoga, se define la función de distribución de la variable X condicionada

por la variable Y , {X|Y } como
n
X
pim
P (X ≤ xn , Y = ym ) i=1
F (xn |ym ) = P (X ≤ xn |Y =ym ) = =
P (Y = ym ) p·m
Como casos particulares,
s
X m
X
pij
P (xr < X ≤ xs , Y ≤ ym ) i=r+1 j=1
• P (Y ≤ ym |xr <X≤xs ) = = s
P (xr < X ≤ xs ) X
pi·
i=r+1
n X
X m
pij
P (X ≤ xn , Y ≤ ym ) i=1 j=1
• P (Y ≤ ym |X≤xn ) = = n
P (X ≤ xn ) X
pi·
i=1

Sea (X, Y ) una v.a. bidimensional discreta con función de densidad conjunta
f (x, y) − ∞ ≤ x, y ≤ +∞
Definimos la función de distribución de la variable Y condicionada por la variable

X, {Y|X } como
74 Estadı́stica
F (y|x) = P (Y ≤ y|X=x ) = lı́m P (Y ≤ y|x−ε<X≤x+ε) =

ε→0
Z x+ε Z y
f (x, y) dydx
P (x − ε < X ≤ x + ε, Y ≤ y) x−ε −∞
= lı́m = lı́m Z x+ε =
ε→0 P (x − ε < X ≤ x + ε) ε→0
fX (x) dx
x−ε
Z x+ε

Z y  f (x, y) dx 
 x−ε 
  dy Z y
−∞  2ε 
f (x, y) dy
−∞
= lı́m Z x+ε = =
ε→0 fX (x)
fX (x) dx
x−ε
2ε
Z y Z y
f (x, y)
= dy = f (y|x) dy ∀y ∈ R
−∞ fX (x) −∞
habiendo definido la función f (y|x) como
f (x, y)
f (y|x) =∀y ∈ R
fX (x)
es decir, f (y|x) es la función de densidad de la variable aleatoria Y condicionada por el
valor de la variable aleatoria X = x.
De manera análoga, se define la función de distribución de la variable X condicionada
por la variable Y , {X|Y } como
Z x Z x
f (x, y)
F (x|y) = P (X ≤ x|Y =y ) = dx = f (x|y) dx ∀x ∈ R
−∞ fY (y) −∞
habiendo definido la función f (x|y) como
f (x, y)
f (x|y) =∀x ∈ R
fY (y)
es decir, f (x|y) es la función de densidad de la variable aleatoria X condicionada por el
valor de la variable aleatoria Y = y.
Como casos particulares,
Z x Z y
f (x, y) dydx
P (X ≤ x, Y ≤ y) −∞ −∞
• P (Y ≤ y|X≤x) = = Z x
P (X ≤ x)
fX (x) dx
−∞
Z b Z y
f (x, y) dydx
P (a ≤ X ≤ b, Y ≤ y) a −∞
• P (Y ≤ y|a≤X≤b ) = = Z b
P (a ≤ X ≤ b)
fX (x) dx
a
7.5. Variables aleatorias bidimensionales independien-

tes
Cuando dos sucesos son independientes, se verifica que
P (S1 ∩ S2 ) = P (S1 )P (S2 )
o, también
P (S1 /S2 ) = P (S1 )

P (S2 /S1 ) = P (S2 )
Utilizando el mismo razonamiento, dos variables aleatorias X e Y con función de
probabilidad conjunta P (X = xi , Y = yj ) = pij si son discretas, y función de densidad
conjunta f (x, y) si son continuas, son independientes, si se verifica

 ∀i, j
 pij = pi· p·j
 v.a. discreta


 f (x, y) = f (x)f (y) ∀x, y v.a. continua
X Y
TEOREMA 1. Si dos variables X e Y son independientes, cualquier par de variables que

se obtengan cada una como función de una sola de las anteriores, Z = g(X) y W = h(Y )
son independientes.
TEOREMA 2. Si dos experimentos son independientes, dos variables aleatorias definidas

respectivamente a partir de los resultados de cada uno de los experimentos anteriores son
independientes.
76 Estadı́stica
7.6. Momentos de una variable aleatoria bidimensio-

nal
Dada una v.a. bidimensional (X, Y ), se pueden definir los momentos de orden r y s
centrados en el origen o centrados en las medias.
• Momento de orden r y s centrado en el origen
 XX

 xri yjs P (X = xi , Y = yj )



 i j
mrs = E[X r Y s ] =

 Z +∞ Z +∞



 xr y s f (x, y) dxdy
−∞ −∞
Los momentos centrados en el origen más utilizados son

2 Momentos de primer orden
 XX X

 x P (X = x , Y = y ) = xi pi·


i i j

 i j i
µX = m10 = E[X] =

 Z +∞ Z +∞ Z +∞



 xf (x, y) dxdy = xfX (x) dx
−∞ −∞ −∞
 XX X

 y P (X = x , Y = y ) = yj p·j


j i j

 i j j
µY = m01 = E[Y ] =

 Z +∞ Z +∞ Z +∞



 yf (x, y) dxdy = yfY (y) dy
−∞ −∞ −∞
Como puede comprobarse, los momentos de primer orden centrados en el origen m10
y m01 son, respectivamente, las medias, µX y µY , de las distribuciones marginales X e Y .
2 Momentos de segundo orden

 XX X

 x2
P (X = x , Y = y ) = x2i pi·

 i i j

 i j i
m20 = E[X 2 ] =

 Z +∞ Z +∞ Z +∞




2
x f (x, y) dxdy = x2 fX (x) dx
−∞ −∞ −∞
 XX X

 y 2
P (X = x , Y = y ) = yj2 p·j

 j i j

 i j j
m02 = E[Y 2 ] =

 Z +∞ Z +∞ Z +∞




2
y f (x, y) dxdy = y 2 fY (y) dy
−∞ −∞ −∞
 XX

 xi yj P (X = xi , Y = yj )



 i j
m11 = E[XY ] =

 Z +∞ Z +∞



 xyf (x, y) dxdy
−∞ −∞
• Momento de orden r y s centrado en las medias
 XX

 (xi − µX )r (yj − µY )s P (X = xi , Y = yj )



 i j
Mrs = E[(X − µX )r (Y − µY )s ] =

 Z +∞ Z +∞



 (x − µX )r (y − µY )s f (x, y) dxdy
−∞ −∞
Los momentos centrados en las medias más utilizados son

2 Momentos de primer orden
 XX X

 (x i − µ X ) P (X = x i , Y = y j ) = (xi − µX ) pi· = 0



 i j i
M10 = E[X − µX ] =

 Z +∞ Z +∞ Z +∞



 (x − µX )f (x, y) dxdy = (x − µX )fX (x) dx = 0
−∞ −∞ −∞
 XX X

 (yj − µY ) P (Y = xi , Y = yj ) = (yj − µY ) p·j = 0



 i j i
M01 = E[Y − µY ] =

 Z +∞ Z +∞ Z +∞



 (y − µY )f (x, y) dxdy = (y − µY )fY (y) dy = 0
−∞ −∞ −∞
2 Momentos de segundo orden

78 Estadı́stica
 XX X
2


 (x i − µ X ) P (X = x i , Y = y j ) = (xi − µX )2 pi·


 i j i
2 =M 2
σX 20 = E[(X − µX ) ] =

 Z +∞ Z +∞ Z +∞



 (x − µX )2 f (x, y) dxdy = (x − µX )2 fX (x) dx
−∞ −∞ −∞
 XX X
2


 (y j − µ Y ) P (Y = x i , Y = y j ) = (yj − µY )2 p·j


 i j i
σY2 = M02 = E[(Y − µY )2 ] =

 Z +∞ Z +∞ Z +∞



 2
(y − µY ) f (x, y) dxdy = (y − µY )2 fY (y) dx
−∞ −∞ −∞
 XX

 (xi − µX )(yj − µY ) P (X = xi , Y = yj )



 i j
σXY = M11 = E[(X − µX )(Y − µY )] =

 Z +∞ Z +∞



 (x − µX )(y − µY )f (x, y) dxdy
−∞ −∞
Como puede comprobarse, los momentos de segundo orden centrados en las medias
2
M20 y M02 son, respectivamente, las varianzas, σX y σY2 , de las distribuciones marginales
X e Y.
El momento de segundo orden centrado en las medias M11 se denomina covarianza
de la v.a. bidimensional (X, Y ) y la notaremos por σXY o Cov(X, Y ).
7.6.1. Propiedades de las varianzas y la covarianza

Veamos, en primer lugar, un método alternativo para el cálculo de las varianzas y
la covarianza.
2 Varianzas
2
σX = E[(X − µX )2 ] = E[(X 2 − 2µX X + µ2X ] = E[X 2 ] − 2µX E[X] + µ2X =
= E[X 2 ] − 2µ2X + µ2X = E[X 2 ] − µ2X = E[X 2 ] − E[X]2 = m20 − m210
σY2 = E[(Y − µY )2 ] = E[(Y 2 − 2µY Y + µ2Y ] = E[Y 2 ] − 2µY E[Y ] + µ2Y =
= E[Y 2 ] − 2µ2Y + µ2Y = E[Y 2 ] − µ2Y = E[Y 2 ] − E[Y ]2 = m02 − m201

2 Covarianza
σXY = E[(X − µX )(Y − µY )] = E[XY − µX Y − µY X + µX µY ] =
= E[XY ] − µX E[Y ] − µY E[X] + µX µY = E[XY ] − µX µY − µY µX + µX µY =
= E[XY ] − µX µY = E[XY ] − E[X]E[Y ] = m11 − m10 m01
Ahora, veamos algunas propiedades de las varianzas y la covarianza. Sea (X, Y ) una
v.a. bidimensional
1 Var(aX + b) = a2 Var(X)
2 Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y )
• E[aX + bY ] = aE[X] + bE[Y ] = aµX + bµY
• Var(aX + bY ) = E [((aX + bY ) − E[(aX + bY )])2 ] =
= E [((aX + bY ) − (aµX + bµY ))2 ] =
= E [((aX − aµX ) + (bY − bµY ))2 ] =
= E [(aX − aµX )2 + (bY − bµY )2 + 2(aX − aµX )(bY − bµY )] =
= a2 E[(X − µX )2 ] + b2 E[(Y − µY )2 ] + 2abE[(X − µX )(Y − µY )] =
= a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y )
3 Si X e Y son independientes, entonces Cov(X, Y ) = 0
Si X e Y son independientes, entonces
• f (x, y) = fX (x)fY (y)

Z +∞ Z +∞ Z +∞ Z +∞
• E[XY ] = xyf (x, y) dydx = xyfX (x)fY (y) dydx =
−∞ −∞ −∞ −∞
Z +∞ Z +∞
= xfX (x) dx yfY (y) dy = E[X]E[Y ]
−∞ −∞
• Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[X]E[Y ] − E[X]E[Y ] = 0

80 Estadı́stica
4 Si X e Y son independientes, entonces Var(aX + bY ) = a2 Var(X) + b2 Var(Y )
5 Cov2 (X, Y ) ≤ Var(X) Var(Y )
7.6.2. Coeficiente de correlación lineal

En el capı́tulo 6, vimos que la varianza de una v.a. unidimensional nos da una idea
del grado de dispersión de los valores que toma la variable respecto a su media. Es decir,
la varianza es una medida de dispersión. Sin embargo, lo que generalmente se utiliza es
la raı́z cuadrada de la varianza, o sea la desviación tı́pica, y ası́ trabajar con las mismas
unidades que la media.
La covarianza, en cambio, es un momento que se refiere a una v.a. bidimensional,
(X, Y ), y da una idea del grado de asociación lineal que existe entre ambas variables.
Ası́, si Cov(X, Y ) > 0, hay una relación lineal positiva entre X e Y en el sentido de, a
valores grandes de X le corresponden valores grandes de Y y viceversa; mientras que si
Cov(X, Y ) < 0, hay una relación lineal negativa entre X e Y en el sentido de, a valores
grandes de X le corresponden valores pequeños de Y , y viceversa. Si Cov(X, Y ) = 0, no
hay relación lineal entre ellas.
Para medir el grado de relación lineal entre dos variables, conviene trabajar con un
parámetro adimensional. Para ello, se define el coeficiente de correlación lineal,ρ, como
Cov(X, Y ) σXY
ρ= p =
Var(X)Var(Y ) σX σY
también se utiliza el coeficiente de determinación lineal, ρ2
Cov2 (X, Y ) σ2
ρ2 = = 2XY2
Var(X)Var(Y ) σX σY
El concepto de asociación lineal se estudiará más adelante, por lo que, ahora, sólo
nos detenemos en observar que
−1 ≤ ρ ≤ 1 y 0 ≤ ρ2 ≤ 1
7.7. Función caracterı́stica de una variable aleatoria

bidimensional
Sea (X, Y ) una v.a. bidimensional con función de probabilidad conjunta dada por
P (X = x, Y = y) si es discreta, o función de densidad conjunta f (x, y) si es continua. Se
define la función caracterı́stica conjunta como,
 XX

 eit1 x+it2 y P (X = x, Y = y)



 x y
ϕ(t1 , t2 ) = E[eit1 X+it2 Y ] =

 Z +∞ Z +∞



 eit1 x+it2 y f (x, y) dxdy
−∞ −∞
Algunas de las propiedades más importantes de la función caracterı́stica son
• ϕ(0, 0) = 1
• Se cumple,
∂ r ϕ(t1 , t2 )
= E[ir X r−s Y s eit1 X+it2 Y ]
∂t1r−s ∂ts2
Entonces, los momentos centrados en el origen se pueden calcular como,

r−s s1 ∂ r ϕ(t1 , t2 )
mr−s,s = E[X Y ]= r
i ∂t1r−s ∂ts2 t1 =0,t2 =0
• Si ϕ(t1 , t2 ) es la función caracterı́stica conjunta de (X, Y ), entonces las funciones

caracterı́sticas de las distribuciones marginales X e Y son
ϕX (t) = E[eitX ] = ϕ(t, 0)

ϕY (t) = E[eitY ] = ϕ(0, t)
Si, además, X e Y son independientes, entonces
ϕ(t1 , t2 ) = ϕ(t1 , 0)ϕ(0, t2) = ϕX (t1 )ϕY (t2 )
• Si ϕ(t1 , t2 ) es la función caracterı́stica conjunta de (X, Y ), y Z = X + Y , entonces,
ϕZ (t) = ϕ(t, t)
82 Estadı́stica
Si, además, X e Y son independientes, entonces
ϕZ (t) = ϕ(t, t) = ϕX (t)ϕY (t)
7.8. Transformación de variables aleatorias bidimen-

sionales
7.8.1. Una función de dos variables aleatorias

Sean X e Y dos variables aleatorias con distribución conjunta conocida f (x, y).
Consideremos una nueva variable aleatoria Z definida mediante la función Z = g(X, Y ).
Definamos ∀z ∈ R el subconjunto de R2

Dz ≡ (x, y) ∈ R2 tales que g(x, y) ≤ z
El suceso {Z ≤ z} es ahora {g(X, Y ) ≤ z} = {(X, Y ) ∈ Dz }, y la función de

distribución de la variable Z es
Z Z
FZ (z) = P (Z ≤ z) = P ((X, Y ) ∈ Dz ) = f (x, y) dxdy
Dz
7.8.2. Dos funciones de dos variables aleaorias

Supongamos ahora que dadas X e Y con distribución conjunta conocida f (x, y),
queremos calcular la distribución de un par de variables Z y W dadas por
Z = g(X, Y )
W = h(X, Y )
Definamos en subconjunto de R2

Dzw ≡ (x, y) ∈ R2 tales que g(x, y) ≤ z , h(x, y) ≤ w
El suceso conjunto {Z ≤ z, W ≤ w} = {(X, Y ) ∈ Dzw }, y la función de distribución

del par (Z, W ) es
Z Z
FZW (z, w) = P (Z ≤ z, W ≤ w) = P ((X, Y ) ∈ Dzw ) = f (x, y) dxdy
Dzw

Dada una v.a. bidimensional (X, Y ), con función de probabilidad conjunta
P (X = xi , Y = yj ) = pij 1 ≤ i, j ≤ +∞
definimos la transformación biunı́voca
U = u(X, Y )
V = v(X, Y )
La función de probabilidad conjunta de la nueva v.a. bidimensional (U, V ) será
X
P (U = ur , V = vs ) = P ((X, Y ) ∈ S) = P (X = xi , Y = yj ) 1 ≤ r, s ≤ +∞
(xi ,yj )∈S

Dada una v.a. bidimensional (X, Y ), con función de densidad conjunta
f (x, y) − ∞ ≤ x, y ≤ +∞
definimos la transformación biunı́voca
U = u(X, Y )
V = v(X, Y )
La función de densidad conjunta de la nueva v.a. bidimensional (U, V ) será
g(u, v) = f (x(u, v), y(u, v))|J| − ∞ ≤ u, v ≤ +∞
siendo J el jacobiano de la transformación, es decir
∂u ∂u
−1

∂x ∂x

∂u ∂v ∂x ∂y

J= =

∂y ∂y ∂v ∂v

∂u ∂v ∂x ∂y
84 Estadı́stica
7.9. Variable aleatoria n-dimensional

Todo lo que se ha visto para v.a. bidimensionales se puede extender al caso de
n variables aleatorias. Dado un espacio probabilı́stico (E, Ω, P ) y n variables aleatorias
X1 , X2 , . . . , Xn definidas en él, el vector aleatorio (X1 , X2 , . . . , Xn ), se denomina variable
aleatoria n-dimensional.
La función de densidad conjunta viene dada por
P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) v.a. discreta
f (x1 , x2 , . . . , xn ) v.a. continua

Las distribuciones marginales se definen como,
X X X X
P (Xr = xr ) = ··· ··· P (X1 = x1 , . . . , Xn = xn ) v.a. discreta
x1 xr−1 xr+1 xn
Z +∞ Z +∞
fXr (xr ) = ··· f (x1 , . . . , xn ) dx1 . . . dxr−1 dxr+1 . . . dxn v.a. continua
−∞ −∞
Las n variables aleatorias son independientes si se verifica
P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) × · · · × P (Xn = xn ) ∀x1 , . . . , xn
fX1 ,...,Xn (x1 , . . . , xn ) = fX1 (x1 ) × · · · × fXn (xn ) ∀x1 , . . . , xn

Distribuciones de
8 probabilidad
discretas
Índice
8.1. Distribución de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . . 86
8.2. Distribución Binomial, B(n, p) . . . . . . . . . . . . . . . . . . 86
8.2.1. Teorema de adición para distribuciones Binomiales . . . . . . . 88
8.2.2. Distribución de la proporción . . . . . . . . . . . . . . . . . . . 89
8.3. Distribución de Poisson, P(λ) . . . . . . . . . . . . . . . . . . . 89
8.3.1. Teorema de adición para distribuciones de Poisson . . . . . . . 90
8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 91
8.3.3. Aproximación de una Binomial por una Poisson . . . . . . . . . 92
8.4. Distribución Hipergeométrica, H(n, N, A) . . . . . . . . . . . 92
8.5. Distribución Geométrica, G(p) . . . . . . . . . . . . . . . . . . 94
8.6. Distribución Binomial Negativa, BN(r, p) . . . . . . . . . . . . 95
8.6.1. Teorema de adición para distribuciones Binomiales Negativas . 96
85
86 Estadı́stica
8.1. Distribución de Bernoulli, B(1, p)

Supongamos un experimento, llamado experimento de Bernoulli, en el que sólo se
pueden dar dos resultados, éxito o fracaso. Generalmente, se asigna el valor 1 al suceso
éxito, y el valor 0 al suceso fracaso. Si la probabilidad de éxito es p y la de fracaso es
q = 1 − p, entonces, la función de probabilidad de la v.a. X asociada a este experimento
es
P (X = x) = px q 1−x x = 0, 1
1
X
• P (X = x) = P (X = 0) + P (X = 1) = p + q = 1
x=0
• Esperanza y Varianza
1
X
E[X] = xP (X = x) = 0 × P (X = 0) + 1 × P (X = 1) = p
x=0
1
X
2
Var(X) = E[X ] − (E[X]) = 2
x2 P (X = x) − p2 =
x=0
= 02 × P (X = 0) + 12 × P (X = 1) − p2 = p − p2 = p(1 − p) = pq
E[X] = p Var(X) = pq
• Función Caracterı́stica
1
X
ϕ(t) = E[eitX ] = eitx P (X = x) = eit0 P (X = 0) + eit1 P (X = 1) = q + p eit
x=0
ϕ(t) = q + p eit
8.2. Distribución Binomial, B(n, p)

Si realizamos un experimento de Bernoulli n veces, siempre en las mismas condi-
ciones, y nos interesamos por el número de éxitos obtenidos, tenemos una distribución
Binomial B(n, p), con función de probabilidad
!
n
P (X = x) = px q n−x x = 0, 1, 2, . . . , n
x
8 Distribuciones de probabilidad discretas 87
n n
!
X X n
• P (X = x) = px q n−x = (p + q)n = 1
x=0 x=0 x
n n
!
X X n
itX itx
ϕ(t) = E[e ]= e P (X = x) = (p eit )x q n−x = (p eit + q)n
x=0 x=0 x
ϕ(t) = (p eit + q)n
• Esperanza
ϕ′ (0)
ϕ′ (t) = npi eit (p eit + q)n−1 =⇒ ϕ′ (0) = npi =⇒ E[X] = = np
i
E[X] = np
• Varianza
ϕ′′ (t) = npi2 eit [(p eit + q)n−1 + (n − 1)p eit (p eit + q)n−2]
ϕ′′ (0) = npi2 [1 + (n − 1)p] = i2 [np + (np)2 − np2 ]
ϕ′′ (0)
E[X 2 ] = = np + (np)2 − np2
i2
Var(X) = E[X 2 ] − (E[X])2 = np + (np)2 − np2 − (np)2 = np(1 − p) = npq
Var(X) = npq
• Moda
Buscamos el valor de x tal que P (X = x) ≥ P (X = y) ∀y = 0, 1, 2, . . . , n.
Supongamos que x es la moda, entonces,
! !
n n
P (X = x) > P (X = x − 1) =⇒ px q n−x > px−1 q n−x+1 =⇒
x x−1
n! n! p q
px q n−x > px−1 q n−x+1 =⇒ > =⇒
x! (n − x)! (x − 1)! (n − x + 1)! x n−x+1
88 Estadı́stica
x < (n + 1)p
Por otra parte,

! !
n n
P (X = x) > P (X = x + 1) =⇒ px q n−x > px+1 q n−x−1 =⇒
x x+1
n! n! q p
px q n−x > px+1 q n−x−1 =⇒ > =⇒
x! (n − x)! (x + 1)! (n − x − 1)! n−x x+1
(n + 1)p − 1 < x
Por tanto,
(n + 1)p − 1 < x < (n + 1)p
es decir, la moda es el número entero, x, no negativo, que se encuentra entre los

valores (n + 1)p − 1 y (n + 1)p. Si (n + 1)p es un número entero no negativo, entonces
la distribución tiene dos modas :
x1 = (n + 1)p − 1
x2 = (n + 1)p
8.2.1. Teorema de adición para distribuciones Binomiales

Sean X1 ≡ B(n1 , p), . . . , Xr ≡ B(nr , p) r v.a. Binomiales independientes. Entonces
la nueva variable aleatoria
Y = X1 + · · · + Xr ≡ B(n1 + · · · + nr , p)
Para demostrarlo, utilizamos las funciones caracterı́sticas de las variables Xk , y el

hecho de que son independientes,
ϕXk (t) = (q + p eit )nk k = 1, 2, . . . , r
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 × · · · × eitXr ] = E[eitX1 ] × · · · × E[eitXr ] =
= ϕX1 (t) × · · · × ϕXr (t) = (p eit + q)n1 × · · · × (p eit + q)nr =
= (p eit + q)n1 +···+nr
Pero, esta es la función caracterı́stica de una distribución Binomial de parámetros

n = n1 + · · · + nr y p.
8.2.2. Distribución de la proporción

Si realizamos n veces un experimento de Bernoulli, podemos interesarnos por el
número de éxitos, para lo cual tenemos la distribución Binomial, o podemos estar intere-
sados en la proporción de éxitos. Sean
• X ≡ Número de éxitos al realizar n veces un experimento de Bernoulli ≡ B(n, p)
X
• Y ≡ Proporción de éxitos al realizar n veces un experimento de Bernoulli =
n
La v.a. Y no sigue una distribución Binomial, pero está relacionada con ella por una
constante, n. Además, se tiene
n
it X i nt X i nt
ϕY (t) = E[e itY
] = E[e n ] = E[e ]= ϕX ( nt ) = q +pe

X 1 1
E[Y ] = E = E[X] = np = p
n n n

X 1 1 pq
Var(Y ) = Var = Var(X) = npq =
n n2 n2 n
8.3. Distribución de Poisson, P(λ)

Sea X la v.a. que describe el número de eventos que ocurren por unidad de tiempo
o espacio, y λ el número medio de estos eventos que ocurren por unidad de tiempo o
espacio. Imponemos, además, la restricción de que los eventos deben ser independientes
entre sı́ y ocurrir con una tasa constante. En ese caso, se dice que X sigue una distribución
de Poisson de parámetro λ, y cada uno de los eventos se denomina suceso de Poisson.
De forma más general, una v.a. sigue una distribución de Poisson, si su función de
probabilidad es de la forma
λx −λ
P (X = x) = e x = 0, 1, 2, . . .
x!
∞
X ∞
X ∞
X
λx −λ −λ λx
• P (X = x) = e =e = e−λ eλ = 1
x=0 x=0
x! x=0
x!
∞
X ∞
X
itX itx −λ (λeit )x it it −1)
ϕ(t) = E[e ]= e P (X = x) = e = e−λ eλe = eλ(e
x=0 x=0
x!
it −1)
ϕ(t) = eλ(e
90 Estadı́stica
• Esperanza
it −1) ϕ′ (0)
ϕ′ (t) = iλeit eλ(e =⇒ ϕ′ (0) = λi =⇒ E[X] = =λ
i
E[X] = λ
• Varianza
it −1)
ϕ′′ (t) = i2 λeit eλ(e [1 + λeit ] =⇒ ϕ′′ (0) = i2 (λ + λ2 )
ϕ′′ (0)
E[X 2 ] = = λ + λ2 =⇒ Var(X) = E[X 2 ] − (E[X])2 = λ + λ2 − λ2 = λ
i2
Var(X) = λ
• Moda
Supongamos que la moda es x, entonces,
λx −λ λx−1 −λ
P (X = x) > P (X = x − 1) =⇒ e > e =⇒ x < λ
x! (x − 1)!
λx −λ λx+1 −λ
P (X = x) > P (X = x + 1) =⇒ e > e =⇒ x > λ − 1
x! (x + 1)!
Por tanto,
λ−1<x<λ
es decir, la moda es el número entero, x, no negativo, que se encuentra entre λ − 1 y

λ. Si λ es un número entero no negativo, entonces la distribución tiene dos modas :
x1 = λ − 1
x2 = λ
8.3.1. Teorema de adición para distribuciones de Poisson

Sean X1 ≡ P(λ1 ), . . . , Xn ≡ P(λn ) n v.a. de Poisson independientes. Entonces la
nueva variable aleatoria
Y = X1 + · · · + Xn ≡ P(λ1 + · · · + λn )

it −1)
ϕXk (t) = eλk (e k = 1, 2, . . . , n
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] =
it −1) it −1)
= ϕX1 (t) × · · · × ϕXn (t) = eλ1 (e × · · · × eλn (e =
it −1)
= e(λ1 +···+λn )(e
Pero, esta es la función caracterı́stica de una distribución de Poisson de parámetro

λ = λ1 + · · · + λn .
8.3.2. Probabilidad condicional

Sean X1 ≡ P(λ1 ) y X2 ≡ P(λ2 ), dos v.a. de Poisson independientes. Ya hemos visto
que entonces X1 + X2 ≡ P(λ1 + λ2 ). Pero, si consideramos la v.a. condicionada
X1|X1 +X2
su función de probabilidad será
P (X1 = x, X1 + X2 = y) P (X1 = x, X2 = y − x)
P X1 = x|X1 +X2 =y = = =
P (X1 + X2 = y) P (X1 + X2 = y)
y−x
λx
1 −λ1 λ2
P (X1 = x)P (X2 = y − x) x!
e (y−x)!
e−λ2
= = (λ1 +λ2 )y −(λ1 +λ2 )
=
P (X1 + X2 = y) e
y!
! x y−x
y! λx1 λy−x
2 y λ1 λ2
= =
x! (y − x)! (λ1 + λ2 )y x λ1 + λ2 λ1 + λ2
Pero, esta es la función de probabilidad de una distribución Binomial de parámetros

λ1
n = y, p = λ1 +λ2
, es decir

λ1
X1|X1 +X2 ≡ B n = y, p =
λ1 + λ2
92 Estadı́stica
8.3.3. Aproximación de una Binomial por una Poisson

Originalmente, Poisson determinó la distribución que lleva su nombre como el lı́mite
de una B(n, p) cuando n tiende a infinito y p tiende a cero, manteniendo constante la
esperanza, np.
Si hacemos que n → ∞ bajo la condición de que λ = np = cte, entonces
λ
lı́m np = λ =⇒ p = −→ 0
n→∞ n
Veamos qué ocurre al introducir estos lı́mites en la función de probabilidad de una
B(n, p) ! !
x n−x
n n λ λ
lı́m P (B(n, p) = x) = lı́m px q n−x = lı́m 1− =
n→∞ n→∞ x n→∞ x n n
p→0 p→0
n
λ
n−x 1−
n! λx λ λx n! n
= lı́m 1− = lı́m x =
n→∞ x! (n − x)! nx n x! n→∞ nx (n − x)! λ
1−
n
n
λ
lı́m 1 − n
λx n(n − 1) · · · [n − (x − 1)] n→∞ n λx λ
= lı́m x = lı́m 1 − =
x! n→∞ nx λ x! n→∞ n
lı́m 1 −
n→∞ n
 !− nλ −λ
x x
λ 1  = λ e−λ = P (P(λ) = x)
= lı́m  1 + n
x! n→∞ −λ
x!
Es decir, para valores grandes de n y pequeños de p, de forma que el producto np

tenga un valor moderado, una Binomial B(n, p) se puede aproximar por una Poisson,
P(λ), siendo λ = np. En general, si
np ≥ 5 y p ≤ 0.1 =⇒ B(n, p) ∼
= P(λ = np)
8.4. Distribución Hipergeométrica, H(n, N, A)

En urna hay N bolas de las cuales, A son blancas y N −A son negras. La probabilidad
de sacar una bola blanca es p = A/N. Extraemos n bolas, bien sacando todas a la vez o
bien una a una sin reemplazamiento, y definimos la v.a. X como el número de bolas
blancas entre las n extraı́das, entonces,
! !
A N −A
x n−x
P (X = x) = ! x = 0, 1, 2, . . . , n
N
n
NOTA.- Para algunos de estos valores de x, P (X = x) = 0. De hecho, debe ser
máx{0, n − N + A} ≤ x ≤ mı́n{n, A}
sin embargo, a lo largo del desarrollo, tomaremos 0 ≤ x ≤ n.

n n
! ! !
X 1 X A N −A 1 N
• P (X = x) = ! = ! =1
x=0 N x=0 x n − x N n
n n
• Esperanza
! ! ! !
A N −A A N −A
n
X n
X n
X
x n−x x n−x
E[X] = xP (X = x) = x ! = x ! =
x=0 x=0 N x=1 N
n n
! !
N −A N −A
n
X n
X
A! n−x (A − 1)! n−x
= x ! =A ! =
x=1
x! (A − x)! N x=1
(x − 1)! (A − x)! N
n n
! ! ! !
A−1 N −A A−1 (N − 1) − (A − 1)
n
X n−1
X
x−1 n−x y (n − 1) − y
=A ! =A ! =
x=1 N y=0 N
n n
! !
A−1 (N − 1) − (A − 1)
n−1
X y (n − 1) − y A
=A ! =n = np
y=0 N N −1 N
n n−1
94 Estadı́stica
A
E[X] = n = np
N
• Varianza

N −n A A (N − n)np(1 − p)
Var(X) = n 1− =
N −1 N N N −1
8.5. Distribución Geométrica, G(p)

Partimos de un experimento de Bernoulli, siendo p = P (éxito) y q = 1 − p =
P (fracaso), y repetimos el experimento, siempre en las mismas condiciones, hasta que
ocurre el primer éxito. De esta forma, definimos la v.a. X, como el número de fracasos
hasta que se obtiene el primer éxito. Entonces,
P (X = x) = p q x x = 0, 1, 2, . . .
∞
X ∞
X ∞
X
x 1 1
• P (X = x) = pq = p qx = p =p =1
x=0 x=0 x=0
1−q p
• Función de distribución
x
X x
X 1 − qxq
F (x) = P (X ≤ k) = p qk = p = 1 − q x+1
k=0 k=0
1−q
∞
X ∞
X p
ϕ(t) = E[eitX ] = eitx P (X = x) = p (q eit )x =
x=0 x=0
1 − q eit
p
ϕ(t) =
1 − q eit
• Esperanza
eit 1 q ϕ′ (0) q
ϕ′ (t) = ipq =⇒ ϕ ′
(0) = ipq = i =⇒ E[X] = =
(1 − q eit )2 (1 − q)2 p i p
q
E[X] =
p
• Varianza
(1 − q eit )2 + 2q eit (1 − q eit )

ϕ′′ (t) = i2 pq eit
(1 − q eit )4
(1 − q)2 + 2q(1 − q) 2 q
ϕ′′ (0) = i2 pq = i (p + 2q)
(1 − q)4 p2
ϕ′′ (0) q
E[X 2 ] = 2
= 2 (p + 2q)
i p
qp + 2q 2 q 2 qp + q 2 q(p + q) q
Var(X) = E[X 2 ] − (E[X])2 = 2
− 2
= 2
= 2
= 2
p p p p p
q
Var(X) =
p2
8.6. Distribución Binomial Negativa, BN(r, p)

Partimos de un experimento de Bernoulli, siendo p = P (éxito) y q = 1 − p =
P (fracaso), y repetimos el experimento, siempre en las mismas condiciones, hasta que
ocurre el n-ésimo éxito. De esta forma, definimos la v.a. X, como el número de fracasos
hasta que se obtiene el n-ésimo éxito. Entonces,
!
x+r−1
P (X = x) = pr q x x = 0, 1, 2, . . .
x
En general, si a ∈ R y n ∈ N, se define
! !
−a a+n−1
= (−1)n
n n
Utilizando esta expresión, tenemos

! !
−r −r
P (X = x) = (−1)x pr q x = pr (−q)x x = 0, 1, 2, . . .
x x
expresión similar a la de una distribución Binomial.

∞ ∞
!
X X −r
• P (X = x) = pr (−q)x = pr (1 − q)−r = 1
x=0 x=0 x
96 Estadı́stica
∞ ∞
! r
X X −r p
itX itx r it x
ϕ(t) = E[e ]= e P (X = x) = p (−q e ) =
x=0 x=0 x 1 − q eit
r
p
ϕ(t) =
1 − q eit
• Esperanza
eit 1 q ϕ′ (0) q
ϕ′ (t) = ipr qr it r+1
=⇒ ϕ ′
(0) = ip r
qr r+1
= i r =⇒ E[X] = = r
(1 − q e ) (1 − q) p i p
q
E[X] = r
p
• Varianza
(1 − q eit )r+1 + (r + 1)q eit (1 − q eit )r

ϕ′′ (t) = i2 pr qr eit
(1 − q eit )2r+2
(1 − q)r+1 + (r + 1)q(1 − q)r p + (r + 1)q

ϕ′′ (0) = i2 pr qr 2r+2
= i2 qr
(1 − q) p2
2 ϕ′′ (0) p + (r + 1)q

E[X ] = 2
= qr
i p2
rpq + r(r + 1)q 2 q 2 r 2 rqp + rq 2 rq(p + q) q

Var(X) = E[X 2 ] − (E[X])2 = 2
− 2
= 2
= 2
= 2r
p p p p p
q
Var(X) = r
p2
8.6.1. Teorema de adición para distribuciones Binomiales Ne-

gativas
Sean X1 ≡ BN(r1 , p), . . . , Xn ≡ BN(rn , p) n v.a. Binomiales Negativas independien-
tes. Entonces la nueva variable aleatoria
Y = X1 + · · · + Xn ≡ BN(r1 + · · · + rn , p)

pr k
ϕXk (t) = k = 1, 2, . . . , n
(1 − q eit )rk
pr 1 pr n
= ϕX1 (t) × · · · × ϕXn (t) = × · · · × =
(1 − q eit )r1 (1 − q eit )rn
pr1 +···+rn
=
(1 − q eit )r1 +···+rn
Pero, esta es la función caracterı́stica de una distribución Binomial Negativa de

parámetros r = r1 + · · · + rn y p.
98 Estadı́stica
Distribuciones de
9 probabilidad
continuas
Índice
9.1. Distribución Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . 100
9.2. Distribución Normal, N(µ, σ) . . . . . . . . . . . . . . . . . . . 101
9.2.1. Teorema de adición para distribuciones Normales . . . . . . . . 103
9.2.2. Distribución Normal estándar . . . . . . . . . . . . . . . . . . . 104
9.3. Distribución Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . 105
9.4. Distribución χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . 107
9.4.1. Teorema de adición para distribuciones χ2 de Pearson . . . . . 108
9.5. Distribución t-Student, tn . . . . . . . . . . . . . . . . . . . . . 109
9.6. Distribución F-Snedecor, Fn,m . . . . . . . . . . . . . . . . . . 110
9.7. Distribución Exponencial, Exp(λ) . . . . . . . . . . . . . . . . 111
9.7.1. Teorema de adición para distribuciones Exponenciales . . . . . 113
9.8. Distribución de Erlang Er(n, λ) . . . . . . . . . . . . . . . . . . 113
9.8.1. Teorema de adición para distribuciones de Erlang . . . . . . . . 115
9.9. Relación entre las distribuciones de Poisson, Exponencial y
Erlang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.10. Distribución de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . 117
9.11. Distribución Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . 118
9.11.1. Teorema de adición para distribuciones Gamma . . . . . . . . . 119
9.12. Distribución Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . 120
9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . 121
9.14. Distribución Normal Bidimensional . . . . . . . . . . . . . . . 123
99
100 Estadı́stica
9.1. Distribución Uniforme, U(a, b)

Una v.a. X se dice que sigue una distribución Uniforme, X ≡ U(a, b), si su función
de densidad es de la forma
1
f (x) = si a < x < b
b−a
a b
Figura 9.1: Función de densidad de una distribución U(a, b)
Z +∞ Z b
1
• f (x) dx = dx = 1
−∞ a b−a
• Función de Distribución
Z +∞ Z x
1 x−a
F (x) = f (x) dx = dx = a≤x<b
−∞ a b−a b−a
Z +∞ Z b
x b+a
E[X] = xf (x) dx = =
−∞ a b−a 2
Z +∞ Z b
2 2 x2 b2 + a2 + ab
E[X ] = x f (x) dx = =
−∞ a b−a 3
2
2 b2 + a2 + ab 2 b+a (b − a)2
Var(X) = E[X ] − (E[X]) = − =
3 2 12
b+a (b − a)2
E[X] = Var(X) =
2 12
Z +∞ Z b
itX itx 1 eibt − eiat
ϕ(t) = E[e ] = e f (x) dx = eitx dx = ∀t ∈ R
−∞ b−a a i(b − a)t
eibt − eiat
ϕ(t) =
i(b − a)t
9 Distribuciones de probabilidad continuas 101
9.2. Distribución Normal, N(µ, σ)

Una v.a. X se dice que sigue una distribución Normal, X ≡ N(µ, σ), si su función
de densidad es de la forma
2
1 x−µ
−
1
f (x) = √ e 2 σ − ∞ ≤ x ≤ +∞
σ 2π
Figura 9.2: Función de densidad de una distribución N(µ, σ)
Z +∞ Z +∞ Z +∞
1 − 12 ( x−µ )
2 1 1 2
• f (x) dx = √ e σ dx = √ e− 2 u du =
−∞ σ 2π −∞ 2π −∞
Z +∞ Z +∞
2 1 2 1 1
=√ e− 2 u du = √ z −1/2 e−z dz = √ Γ(1/2) = 1
2π 0 π 0 π
Z +∞ Z +∞
1 x−µ 2
eitx e− 2 ( ) dx =
1
itX itx
ϕ(t) = E[e ]= e f (x) dx = √ σ
−∞ σ 2π −∞
Z +∞ Z +∞
1 [(x−µ)2 −2σ2 itx] dx = √1 e− 2σ2 [x ] dx =
1 1 2 −2(µ+σ 2 it)x+µ2
−
= √ e 2σ 2
σ 2π −∞ σ 2π −∞
Z +∞ h i
1 − 1
(x−(µ+σ2 it))
2
+µ2 −(µ+σ2 it)2
= √ e 2σ 2 dx =
σ 2π −∞
 2
µ2 −(µ+σ 2 it)2 Z x − (µ + σ 2 it)
− +∞ − 12  
e 2σ 2
σ
= √ e dx =
σ 2π −∞
102 Estadı́stica
σ 4 t2 −2µσ 2 it Z 1 2 2
e− 2σ 2
+∞
− 12 u2 eiµt− 2 σ t √ 1 2 2
= √ e σ du = √ σ 2π = eiµt− 2 σ t
σ 2π −∞ σ 2π
1 2 t2
ϕ(t) = eiµt− 2 σ
• Esperanza
1 2 t2 ϕ′ (0)
ϕ′ (t) = (iµ − σ 2 t)eiµt− 2 σ =⇒ ϕ′ (0) = iµ =⇒ E[X] = =µ
i
E[X] = µ
• Varianza
1 2 t2
ϕ′′ (t) = [−σ 2 + (iµ − σ 2 t)2 ] eiµt− 2 σ =⇒ ϕ′′ (0) = −σ 2 + i2 µ2
ϕ′′ (0)
E[X 2 ] = = σ 2 + µ2
i2
Var(X) = E[X 2 ] − (E[X])2 = (σ 2 + µ2 ) − µ2 = σ 2
Var(X) = σ 2
• Coeficiente de deformación
ϕ′′′ (0) = −3iσ 2 µ + i3 µ3
ϕ′′′ (0) ϕ′′′ (0)

m3 = 3
= − = 3σ 2 µ + µ3
i i
! ! ! !
3 3 3 3
M3 = m3 − m2 µ + m1 µ2 − µ3 = 0
0 1 2 3
M3
D= =0
σ3
La distribución Normal es simétrica respecto a la media
• Coeficiente de curtosis
ϕ(iv (0) = 3σ 4 − 6i2 σ 2 µ2 + i4 µ4
ϕ(iv (0)
m4 = = 3σ 4 + 6σ 2 µ2 + µ4
i4
! ! ! ! !
4 4 4 4 4
M4 = m4 − m3 µ + m2 µ2 − m1 µ3 + µ4 = 3σ 4
0 1 2 3 4
M4
C= −3 =0
σ4
La distribución Normal es mesocúrtica
9.2.1. Teorema de adición para distribuciones Normales

Sean X1 ≡ N(µ1 , σ1 ), . . . , Xn ≡ N(µn , σn ), n v.a. Normales independientes. Enton-
ces, la nueva variable aleatoria
q
2 2 2 2
Y = b + a1 X1 + · · · + an Xn ≡ N b + a1 µ1 + · · · + an µn , a1 σ1 + · · · + an σn

1 2 2
ϕXk (t) = eiµk t− 2 σk t k = 1, 2, . . . , n

ϕY (t) = E[eitY ] = E ei(b+a1 X1 +···+an Xn )t = E eibt × eia1 tX1 × · · · × eian tXn =
= eibt × E[eia1 tX1 ] × · · · × E[eian tXn ] =
= eibt × ϕX1 (a1 t) × · · · × ϕXn (an t) =
1 2 2 2 1 2 2 2
= eibt × eia1 µ1 t− 2 σ1 a1 t × · · · × eian µn t− 2 σn an t =
1 2 2 2 2 2
= ei(b+a1 µ1 +···+an µn )t− 2 (a1 σ1 +···+an σn )t
104 Estadı́stica
Pero, esta es la función caracterı́stica de una distribución Normal con media µ =

b + a1 µ1 + · · · + an µn y varianza σ 2 = a21 σ12 + · · · + a2n σn2 .
También se puede demostrar el teorema inverso, es decir, si la distribución de la
suma de n variables aleatorias independientes es Normal, entonces cada una de las varia-
bles sigue una distribución Normal. Por otra parte, la distribución Normal nunca puede
obtenerse exactamente como suma de variables aleatorias no Normales.
9.2.2. Distribución Normal estándar

Dentro de las distribuciones Normales, la más utilizada es la que tiene media µ = 0
y varianza σ 2 = 1, llamada distribución Normal estándar, N(0, 1).
• Función de densidad
1 1 2
f (x) = √ e− 2 x − ∞ ≤ x ≤ +∞
2π
• Función caracterı́stica
1 2
ϕ(t) = e− 2 t ∀t ∈ R
• Como µ = 0, los momentos respecto a la media coinciden con los momentos respecto
al origen, es decir, Mk = mk ∀k.
• Como la distribución es simétrica, los momentos de orden impar son todos nulos,
m2k+1 = 0 k = 0, 1, 2, . . .
• Los momentos de orden par verifican
(2k)!
m2k = k = 0, 1, 2, . . .
2k k!
En general, siempre podemos pasar de una N(µ, σ) a una N(0, 1) (lo que se llama
tipificar la variable N(µ, σ)) y viceversa, por medio de una transformación lineal.
2 N(µ, σ) −→ N(0, 1)
Sea Y ≡ N(µ, σ), entonces la nueva v.a.
Y −µ
X= ≡ N(0, 1)
σ
2 N(0, 1) −→ N(µ, σ)
Sea X ≡ N(0, 1), entonces la nueva v.a.
Y = µ + σX ≡ N(µ, σ)
9.3. Distribución Log-Normal, Log-N(µ, σ)

Sea X ≡ N(µ, σ). Si realizamos la transformación
Y = eX
la distribución de la nueva v.a., llamada distribución Log-Normal, Log-N(µ, σ), es,
GY (y) = P (Y ≤ y) = P (eX ≤ y) = P (X ≤ Ly) = FX (Ly)
1 1
gY (y) = G′Y (y) = FX′ (Ly) = fX (Ly)
y y
Por tanto, la función de densidad de una Log-N(µ, σ) es
1 1 Ly−µ 2
g(y) = √ e− 2 ( σ ) y≥0
yσ 2π
Figura 9.3: Función de densidad de una distribución Log-N(µ, σ)
Z +∞ Z +∞ Z +∞
1 − 12 ( Ly−µ
2 1 1 x−µ 2
• g(y) dy = √ e σ ) dy = √ e− 2 ( σ ) dx = 1
−∞ 0 yσ 2π −∞ σ 2π
106 Estadı́stica
• Esperanza
Z +∞ Z +∞
1 Ly−µ 2
e− 2 ( ) dy =
1
E[Y ] = yg(y) dy = √ σ
−∞ σ 2π 0
Z +∞ Z +∞
1 2 1
− 12 ( x−µ
σ ) e− 2σ2 [(x−µ) ] dx =
1 2 −2σ 2 x
x
= √ e e dx = √
σ 2π −∞ σ 2π −∞
Z +∞
1
e− 2σ2 [(x−(µ+σ ] dx =
1 2 ))2 +µ2 −(µ+σ 2 )2
= √
σ 2π −∞
1 2 2 )2 ) Z 2
x−(µ+σ 2 )
e− 2σ2 (µ −(µ+σ +∞
− 12 σ
= √ e dx =
σ 2π −∞
1 2 Z 1 2
eµ+ 2 σ +∞
1 2 eµ+ 2 σ √ 1 2
= √ e− 2 u σ du = √ σ 2π = eµ+ 2 σ
σ 2π −∞ σ 2π
1
µ + σ2
E[Y ] = e 2
• Varianza
Z +∞ Z +∞
1 Ly−µ 2
ye− 2 ( ) dy =
1
2 2
E[Y ] = y g(y) dy = √ σ
−∞ σ 2π 0
Z +∞ Z +∞
1 2 1
− 12 ( x−µ
σ ) e− 2σ2 [(x−µ) ] dx =
1 2 −4σ 2 x
2x
= √ e e dx = √
σ 2π −∞ σ 2π −∞
Z +∞
1
e− 2σ2 [(x−(µ+2σ ] dx =
1 2 ))2 +µ2 −(µ+2σ 2 )2
= √
σ 2π −∞
1 2 2 )2 ) Z 2
x−(µ+2σ 2 )
e− 2σ2 (µ −(µ+2σ +∞
− 12 σ
= √ e dx =
σ 2π −∞
2 Z 2
e2µ+2σ +∞
− 21 u2 e2µ+2σ √ 2
= √ e σ du = √ σ 2π = e2µ+2σ
σ 2π −∞ σ 2π
2 2 2 2
Var(Y ) = E[Y 2 ] − E[Y ]2 = e2µ+2σ − e2µ+σ = e2µ+σ (eσ − 1)
2 2
Var(Y ) = e − 1 e2µ + σ
σ
9.4. Distribución χ2 de Pearson, χ2n

Sean X1 , . . . , Xn , n v.a. independientes e idénticamente distribuidas según una
N(0, 1). Entonces, la variable aleatoria
X = X12 + · · · + Xn2 = [N(0, 1)]2 + · · · + [N(0, 1)]2 ≡ χ2n
sigue una distribución χ2 de Pearson con n grados de libertad, χ2n , con función de densidad
1 n x
f (x) = n x 2 −1 e− 2 x≥0
2n/2 Γ
2
Figura 9.4: Función de densidad de una distribución χ2n
Z +∞ Z +∞
1 n x
• f (x) dx = n x 2 −1 e− 2 dx =
−∞ 2n/2 Γ 0
2
Z +∞ n
1 n n 1
= n 2 2 −1 u 2 −1 e−u 2 du = n Γ =1
2n/2 Γ 0 Γ 2
2 2
Z +∞ Z +∞
itx 1 n x
ϕ(t) = E[e itX
]= e f (x) dx = n eitx x 2 −1 e− 2 dx =
−∞ 2n/2 Γ 0
2
Z +∞
1 n 1
= n x 2 −1 e−( 2 −it)x dx =
2n/2 Γ 0
2
108 Estadı́stica
Z +∞ n2 −1
1 2 n 2
= n u 2 −1 e−u du =
2n/2 Γ 0 1 − 2it 1 − 2it
2
n2 n n2
1 1 1
= n Γ =
Γ 1 − 2it 2 1 − 2it
2
ϕ(t) = (1 − 2it)−n/2
• Esperanza
ϕ′ (0)
ϕ′ (t) = in(1 − 2it)−1−n/2 =⇒ ϕ′ (0) = in =⇒ E[X] = =n
i
E[X] = n
• Varianza
ϕ′′ (t) = i2 n(n + 2)(1 − 2it)−2−n/2 =⇒ ϕ′′ (0) = i2 n(n + 2)
ϕ′′ (0)
E[X 2 ] = 2
= n2 + 2n
i
Var(X) = E[X 2 ] − (E[X])2 = n2 + 2n − n2 = 2n
Var(X) = 2n
9.4.1. Teorema de adición para distribuciones χ2 de Pearson

Sean X1 ≡ χ2n1 , . . . , Xr ≡ χ2nr , r variables aleatorias χ2 de Pearson independientes.
Entonces la nueva variable aleatoria
Y = X1 + · · · + Xr ≡ χ2n1 +···+nr

ϕXk (t) = (1 − 2it)−nk /2 k = 1, 2, . . . , r

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 ] × · · · × E[eitXr ] =
= ϕX1 (t) × · · · × ϕXr (t) = (1 − 2it)−n1 /2 × · · · × (1 − 2it)−nr /2 =
n1 +···+nr
= (1 − 2it)− 2
Pero, esta es la función caracterı́stica de una distribución χ2 de Pearson con n =

n1 + · · · + nr grados de libertad.
9.5. Distribución t-Student, tn

Sean Y, X1 , . . . , Xn , n+1 v.a. independientes e idénticamente distribuidas según una
N(0, 1). Entonces, la variable aleatoria
Y N(0, 1)
X=r = r ≡ tn
X12 + · · · + Xn2 χ2n
n n
sigue una distribución t-Student con n grados de libertad, tn , con función de densidad

n+1
Γ − n+1
2 x2 2
f (x) = √ n 1 + x∈R
nπ Γ n
2
Figura 9.5: Función de densidad de una distribución tn
√ n
Z +∞ Z +∞ − n+1
nπ Γ
x2 2
2
• f (x) dx = 1 =⇒ 1+ dx =
−∞ −∞ n n + 1
Γ
2
110 Estadı́stica
• Esperanza

n+1
Z +∞ Γ Z +∞ − n+1
2 x2 2
E[X] = xf (x) dx = √ n x 1+ dx = 0
−∞ nπ Γ −∞ n
2
pues el integrando es una función impar.
E[X] = 0 (n > 1)
• Varianza

n+1
Z +∞ Γ Z +∞ − n+1
2 2 2 x2 2
E[X 2 ] = x f (x) dx = √ n x 1+ dx =
−∞ nπ Γ −∞ n
2

n+1
Γ Z +∞ − n−1
2 n x2 2
=√ n 1+ dx =
nπ Γ n − 1 −∞ n
2

n+1 √ n−2
Γ nπ Γ
2 n 2 n
=√ n =
nπ Γ n−1 n−1 n−2
2 Γ
2
n
Var(X) = E[X 2 ] − E[X]2 =
n−2
n
Var(X) = (n > 2)
n−2
9.6. Distribución F-Snedecor, Fn,m

Sean X1 , . . . , Xn e Y1 , . . . , Ym , n+m v.a. independientes e idénticamente distribuidas
según una N(0, 1). Entonces, la variable aleatoria
X12 + · · · + Xn2 χ2n

X= 2 n = n2 ≡ Fn,m
Y1 + · · · + Ym2 χm
m m
sigue una distribución F-Snedecor con n y m grados de libertad, Fn,m , con función de
densidad

n/2 m/2 n+m
n m Γ
2 n n+m
f (x) = n m x 2 −1 (m + nx)− 2 x≥0
Γ Γ
2 2
Figura 9.6: Función de densidad de una distribución Fn,m
• Esperanza
m
E[X] = (m > 2)
m−2
• Varianza
2m2 (n + m − 2)
Var[X] = (m > 4)
n (m − 2)2 (m − 4)
1
• Si X ≡ Fn,m =⇒ ≡ Fm,n
X
9.7. Distribución Exponencial, Exp(λ)

Una v.a. X se dice que sigue una distribución Exponencial de parámetro λ > 0,
X ≡ Exp(λ), si su función de densidad es de la forma
f (x) = λ e−λx x≥0

112 Estadı́stica
Figura 9.7: Función de densidad de una distribución Exp(λ)

Z +∞ Z +∞
• f (x) dx = λ e−λx dx = 1
−∞ 0
• Función de distribución
Z x Z x
F (x) = f (x) dx = λ e−λx dx = 1 − e−λx
−∞ 0
Z +∞ Z +∞
itX itx λ
ϕ(t) = E[e ]= e f (x) dx = λ e−(λ−it)x dx =
−∞ 0 λ − it
λ
ϕ(t) =
λ − it
• Esperanza
λi i ϕ′ (0) 1
ϕ′ (t) = 2
=⇒ ϕ ′
(0) = =⇒ E[X] = =
(λ − it) λ i λ
1
E[X] =
λ
• Varianza
2λi2
ϕ′′ (t) =
(λ − it)3
2i2
ϕ′′ (0) =
λ2
ϕ′′ (0) 2
E[X 2 ] = 2
= 2
i λ
2 1 1
Var(X) = E[X 2 ] − (E[X])2 = 2
− 2 = 2
λ λ λ
1
Var[X] =
λ2
9.7.1. Teorema de adición para distribuciones Exponenciales

Sean X1 ≡ Exp(λ), . . . , Xn ≡ Exp(λ), n v.a. Exponenciales independientes. Enton-
ces la nueva variable aleatoria
Y = X1 + · · · + Xn ≡ Er(n, λ)
λ
ϕXk (t) = k = 1, 2, . . . , n
λ − it
n
λ λ λ
= ϕX1 (t) × · · · × ϕXn (t) = ×···× =
λ − it λ − it λ − it
Pero, esta es la función caracterı́stica de una distribución de Erlang de parámetros
n y λ (Sec. 9.8).
9.8. Distribución de Erlang Er(n, λ)

Una v.a. X se dice que sigue una distribución de Erlang de parámetros n y λ > 0,
X ≡ Er(n, λ), si su función de densidad es de la forma
λn n−1 −λx
f (x) = x e x≥0
Γ(n)
Z +∞ Z +∞ Z +∞ u n−1
λn n−1 −λx λn 1
• f (x) dx = x e dx = e−u du =
−∞ Γ(n) 0 Γ(n) 0 λ λ
Z +∞
1 1
= un−1 e−u du = Γ(n) = 1
Γ(n) 0 Γ(n)
114 Estadı́stica
Figura 9.8: Función de densidad de una distribución Er(n, λ)
Z +∞ Z +∞
itx λn
ϕ(t) = E[e itX
]= e f (x) dx = xn−1 e−(λ−it)x dx =
−∞ Γ(n) 0
Z +∞ n−1 Z +∞
λn u −u 1 λn 1
= e du = un−1 e−u du =
Γ(n) 0 λ − it λ − it Γ(n) (λ − it)n 0
n
λn 1 λ
= Γ(n) =
Γ(n) (λ − it)n λ − it
n
λ
ϕ(t) =
λ − it
• Esperanza
nλn i ni ϕ′ (0) n
ϕ′ (t) = n+1
=⇒ ϕ ′
(0) = =⇒ E[X] = =
(λ − it) λ i λ
n
E[X] =
λ
• Varianza
n(n + 1)λn i2
ϕ′′ (t) =
(λ − it)n+2
n(n + 1)i2
ϕ′′ (0) =
λ2
ϕ′′ (0) n(n + 1)

E[X 2 ] = 2
=
i λ2
n(n + 1) n2 n
Var(X) = E[X 2 ] − (E[X])2 = 2
− 2 = 2
λ λ λ
n
Var[X] =
λ2
9.8.1. Teorema de adición para distribuciones de Erlang

Sean X1 ≡ Er(n1 , λ), . . . , Xr ≡ Er(nr , λ), r v.a. de Erlang independientes. Entonces
la nueva variable aleatoria
Y = X1 + · · · + Xr ≡ Er(n1 + · · · + nr , λ)

nk
λ
ϕXk (t) = k = 1, 2, . . . , r
λ − it
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 × · · · × eitXr ] = E[eitX1 ] × · · · × E[eitXr ] =
n1 nr n1 +···+nr

λ λ λ
= ϕX1 (t) × · · · × ϕXr (t) = ×···× =
λ − it λ − it λ − it
Pero, esta es la función caracterı́stica de una distribución de Erlang de parámetros

n = n1 + · · · + nr y λ.
9.9. Relación entre las distribuciones de Poisson, Ex-

ponencial y Erlang
En la sección 8.3, definimos la v.a. de Poisson, P(λ), como la variable que cuenta
el número de eventos que ocurren por unidad de tiempo o espacio, siendo λ el número
medio de estos eventos que ocurren por unidad de tiempo o espacio. Lógicamente, el
número medio de eventos que ocurren en t unidades de tiempo o espacio será (λ × t), por
tanto, la v.a. que cuenta el número de eventos que ocurren en t unidades de tiempo o
espacio sigue una distribución de Poisson, P(λ × t), de parámetro (λ × t). Ası́, sean
116 Estadı́stica
• X ≡ P(λ) ≡ Número de eventos de Poisson que ocurren en una unidad de

tiempo
P (X = x) = P (ocurran x eventos en una unidad de tiempo) =
λx −λ
= e x = 0, 1, 2, . . .
x!
• Xt ≡ P(λt) ≡ Número de eventos de Poisson que ocurren en t unidades de

tiempo
P (Xt = x) = P (ocurran x eventos en t unidades de tiempo) =
(λt)x −λt
= e x = 0, 1, 2, . . .
x!
Supongamos que estamos interesados en saber cuándo ocurre el primero de estos
eventos de Poisson; es decir, sea
• Y ≡ Tiempo transcurrido hasta que ocurre el primer evento de Poisson
GY (t) = P (Y ≤ t) =
= P (el primer evento ocurra antes de t unidades de tiempo) =
= 1 − P (Y ≥ t) =
= 1 − P (el primer evento ocurra pasadas t unidades de tiempo) =
= 1 − P (en t unidades de tiempo ocurran 0 eventos de Poisson) =
(λt)0
= 1 − P (Xt = 0) = 1 − e−λt = 1 − e−λt
0!
Pero, esta es la función de distribución de una Exponencial de parámetro λ. Por
tanto,
Y ≡ Exp(λ)
Supongamos ahora, que estamos interesados en saber cuándo ocurre el n-ésimo de

estos eventos de Poisson; es decir, sea
• Z ≡ Tiempo transcurrido hasta que ocurre el n-ésimo evento de Poisson
Como los sucesos de Poisson ocurren de forma independiente, una vez que ocurre un
suceso de Poisson, ese instante es el origen de tiempos para el suceso siguiente, es decir
Z ≡ Tiempo transcurrido hasta que ocurre el n-ésimo evento de Poisson ≡
≡ Tiempo transcurrido hasta que ocurre el 1er evento de Poisson+
+Tiempo transcurrido entre el 1o y el 2o eventos de Poisson+
+Tiempo transcurrido entre el 2o y el 3o eventos de Poisson+
+ · · · + Tiempo transcurrido entre el (n − 1)o y el no eventos de Poisson ≡
≡ Exp(λ) + Exp(λ) + Exp(λ) + · · · + Exp(λ) ≡ Er(n, λ)
Por tanto,
Z ≡ Er(n, λ)
9.10. Distribución de Weibull, W(r, λ)

Sea X una v.a. con distribución Exponencial de parámetro λ, es decir, X ≡ Exp(λ).
Se dice que la variable aleatoria Y sigue una distribución de Weibull de parámetros r > 0
y λ, Y ≡ W(r, λ), si es
Y = X 1/r
Veamos algunas propiedades de la distribución de Weibull
• Función de densidad
GY (y) = P (Y ≤ y) = P (X 1/r ≤ y) = P (X ≤ y r ) = FX (y r )
gY (y) = G′Y (y) = FX′ (y r )ry r−1 = fX (y r )ry r−1
Por tanto,
118 Estadı́stica
r
gY (y) = λ r y r−1e−λy y≥0
• Esperanza
Z +∞ Z +∞
1/r
E[Y ] = E[X 1/r
]= x fX (x) dx = λ x1/r e−λx dx =
−∞ 0
1

Γ 1+ r − r1 1
=λ 1 =λ Γ 1+
λ1+ r r
1

E[Y ] = λ−1/r Γ 1 + r
• Varianza
Z +∞ Z +∞
2/r
2
E[Y ] = E[X 2/r
]= x fX (x) dx = λ x2/r e−λx dx =
−∞ 0
2

Γ 1+ r − r2 2
=λ 2 =λ Γ 1+
λ1+ r r
2
Var(Y ) = E[Y 2 ] − (E[Y ])2 = λ− r Γ 1 + 2r − Γ2 1 + 1r

Var(Y ) = λ−2/r Γ 1 + 2r − Γ2 1 + 1r
9.11. Distribución Gamma, G(p, q)

Una v.a. X se dice que sigue una distribución Gamma de parámetros p > 0 y q > 0,
X ≡ G(p, q), si su función de densidad es de la forma
q p p−1 −qx
f (x) = x e x≥0
Γ(p)
Como se puede comprobar, la distribución de Erlang es un caso particular de la
distribución Gamma, para p = n y q = λ. Es decir, Er(n, λ) = G(p = n, q = λ). Por tanto
los cálculos son los mismos y no los vamos a repetir, sólo citaremos los resultados.
p
q
ϕ(t) =
q − it
Figura 9.9: Función de densidad de una distribución G(p, q)
p p
E[X] = Var[X] =
q q2
9.11.1. Teorema de adición para distribuciones Gamma

Sean X1 ≡ G(p1 , q), . . . , Xn ≡ G(pn , q), n v.a. Gamma independientes. Entonces la
nueva variable aleatoria
Y = X1 + · · · + Xn ≡ G(p1 + · · · + pn , q)

pk
q
ϕXk (t) = k = 1, 2, . . . , n
q − it
p1 pn p1 +···+pn

q q q
= ϕX1 (t) × · · · × ϕXn (t) = ×···× =
q − it q − it q − it
Pero, esta es la función caracterı́stica de una distribución Gamma de parámetros

p = p1 + · · · + pn y q.
120 Estadı́stica
9.12. Distribución Beta, B(p, q)

Una v.a. X se dice que sigue una distribución Beta de parámetros p > 0 y q > 0,
X ≡ B(p, q), si su función de densidad es de la forma
1
f (x) = xp−1 (1 − x)q−1 0≤x≤1
β(p, q)
Figura 9.10: Función de densidad de una distribución B(p, q)
Z +∞ Z 1
1 1
• f (x) dx = xp−1 (1 − x)q−1 dx = β(p, q) = 1
−∞ β(p, q) 0 β(p, q)
• Esperanza
Z +∞ Z 1
1 1
E[X] = xf (x) dx = xp (1 − x)q−1 dx = β(p + 1, q) =
−∞ β(p, q) 0 β(p, q)
Γ(p + q) Γ(p + 1)Γ(q) Γ(p + q) pΓ(p) p

= = =
Γ(p)Γ(q) Γ(p + q + 1) Γ(p) (p + q)Γ(p + q) p+q
p
E[X] =
p+q
• Varianza
Z +∞ Z 1
2 1
2
E[X ] = x f (x) dx = xp+1 (1 − x)q−1 dx =
−∞ β(p, q) 0
1 Γ(p + q) Γ(p + 2)Γ(q)

= β(p + 2, q) = =
β(p, q) Γ(p)Γ(q) Γ(p + q + 2)
Γ(p + q) (p + 1)pΓ(p) (p + 1)p

= =
Γ(p) (p + q + 1)(p + q)Γ(p + q) (p + q + 1)(p + q)
2
2 (p + 1)p
2 p
Var(X) = E[X ] − (E[X]) = − =
(p + q + 1)(p + q) p+q
pq
=
(p + q + 1) (p + q)2
pq
Var(X) =
(p + q + 1) (p + q)2
9.12.1. Transformaciones
• Sean X1 ≡ G(p1 , 1) y X2 ≡ G(p2 , 1) dos v.a. Gamma independientes, entonces
X1
≡ B(p1 , p2 )
X1 + X2
• Sea X ≡ Fn,m una v.a. F-Snedecor, entonces
n −1
1+ X ≡ B(m/2, n/2)
m
nX
≡ B(n/2, m/2)
m + nX
9.13. Relaciones entre distribuciones continuas

En la figura 9.13 se muestra un croquis de las relaciones que existen entre las distintas
distribuciones continuas estudiadas en este capı́tulo.
122 Estadı́stica
eX
µ=0 N( µ,σ) Log-N( µ,σ )
σ=1
Ln X
µ= pq
N(0,1) σ 2 = p2 q X1
q X1 + X2
B(p,q)
2 2
n
X + + Xn n G(p,q)
1
/2 p=n
q=1 q= λ
/2
p=n
p=1
tn χn
2
Er(n, λ) q=1
n=2
n=1
χm m
2
m=1 χn2 n X1 + + Xn
Exp(λ) U(0,1)
−λLn X
Fm,n ( ver distribucion Beta )
1/r a + (b-a) X a=0
r=1 X
caso particular b=1
transformacion
W(r, λ) U(a,b)
distribucion limite
Figura 9.11: Relaciones entre distribuciones continuas

9.14. Distribución Normal Bidimensional

Una v.a. bidimensional (X, Y ) se dice que sigue una distribución Normal Bidimen-
sional, si su función de densidad conjunta, definida en R2 , es de la forma
1
f (x, y) = p ×
2πσX σY 1 − ρ2
( " 2 2 #)
1 x − µX x − µX y − µY y − µY
exp − − 2ρ +
2(1 − ρ2 ) σX σX σY σY
siendo
2
µX = E[X] σX = Var(X)
µY = E[Y ] σY2 = Var(Y )
Cov(X, Y ) σXY
ρ= p p = Coeficiente de correlación lineal de (X, Y )
Var(X) Var(Y ) σX σY
1 2 2 2 2
ϕ(t1 , t2 ) = E[eit1 X+it2 Y ] = ei(µX t1 +µY t2 )− 2 (σX t1 +2ρσX σY t1 t2 +σY t2 )
• Distribuciones marginales
1 2 2
ϕX (t) = ϕ(t, 0) = eiµX t− 2 σX t =⇒ X ≡ N(µX , σX )
1 2 2
ϕY (t) = ϕ(0, t) = eiµY t− 2 σY t =⇒ Y ≡ N(µY , σY )
Por tanto, las funciones de densidad marginales son
Z +∞
1 − 12 (
x−µX 2
)
fX (x) = f (x, y) dy = √ e σX
x∈R
−∞ σX 2π
Z +∞
1 − 21 (
y−µY
)2
fY (y) = f (x, y) dy = y∈R √ e σY
−∞ σY 2π
Es decir, si (X, Y ) es una v.a. Normal Bidimensional, entonces X e Y son v.a.
Normales unidimensionales. En general, lo contrario no es cierto. O sea, si X e Y son v.a.
124 Estadı́stica
Normales unidimensionales, la v.a. (X, Y ) no siempre es una Normal Bidimensional. Lo

vemos con un ejemplo
Ejemplo.- Sea (X, Y ) una v.a. bidimensional con función de densidad conjunta
"
1 ρ − 1
(x2 −2ρxy+y 2 )
f (x, y) = p e 2(1−ρ2 ) +
2 2π 1 − ρ2 #
ρ − 1 2
(x +2ρxy+y )2
+ p e 2(1−ρ2 ) (x, y) ∈ R2
2π 1 − ρ2
Claramente, (X, Y ) no es Normal Bidimensional, sin embargo, las distribuciones

marginales de X e Y son
Z +∞
1 x2
fX (x) = f (x, y) dy = √ e− 2 x∈R
−∞ 2π
Z +∞
1 y2
fY (y) = f (x, y) dy = √ e− 2 y∈R
−∞ 2π
es decir, X ≡ N(0, 1) e Y ≡ N(0, 1).
• Distribuciones condicionadas
h i2
σ
f (x, y) 1 − 2 1 2 x− µX +ρ σX (y−µY )
f (x|y) = =√ p e 2σX (1−ρ ) Y
fY (y) 2πσX 1 − ρ2
h i2
σ
f (x, y) 1 − 2 1 2 y− µY +ρ σ Y (x−µX )
f (y|x) = =√ p e 2σY (1−ρ ) X
fX (x) 2πσY 1 − ρ2
Por tanto,
 σX

 µ = µX + ρ (y − µY )
 σ Y
X|Y ≡ N(µ, σ) con

 p

σ = σX 1 − ρ2
 σY

 µ = µY + ρ (x − µX )
 σX
Y |X ≡ N(µ, σ) con

 p

σ = σY 1 − ρ2
Como se puede comprobar, si ρ = 0, entonces
X|Y ≡ N(µX , σX )
Y |X ≡ N(µY , σY )
• Combinación lineal de v.a. Normales

Sea (X, Y ) una v.a. Normal Bidimensional, entonces la variable aleatoria
q
2 2 2 2
Z = aX + bY ≡ N aµX + bµY , a σX + 2abρσX σY + b σY
Vamos a demostrarlo utilizando la función caracterı́stica.
ϕZ (t) = E[eitZ ] = E[eit(aX+bY ) ] = E[ei(at)X+i(bt)Y ) ] =
1 2 σ 2 +2abρσ σ +b2 σY
2 )t2
= ϕ(at, bt) = ei(aµX +bµY )t− 2 (a X X Y
Pero, esta es la función caracterı́stica de una distribución Normal de parámetros

µ = aµX + bµY y σ 2 = a2 σX
2
+ 2abρσX σY + b2 σY2 .
Como se puede comprobar fácilmente, si ρ = 0, entonces
q
2 2 2 2
Z = aX + bY ≡ N aµX + bµY , a σX + b σY
• Independencia de v.a. Normales

Sea (X, Y ) una v.a. Normal Bidimensional, entonces se cumple
X e Y son independientes ⇐⇒ ρ = 0
2 Si X e Y son independientes =⇒ Cov(X, Y ) = 0 =⇒ ρ = 0. (Esto es válido para

cualquier v.a. bidimensional (X, Y ))
2 En sentido contrario, si ρ = 0 =⇒
2 2
x−µX y−µ
1 −1 + σ Y
f (x, y) = e 2 σX Y
=
2πσX σY
2 2
1 −1
x−µX
1 −1
y−µY
√ e 2 σX
×√ e 2 σY
= fX (x) fY (y)
2π σX 2π σY
Por tanto, f (x, y) = fX (x) fY (y), y X e Y son independientes.
• Resumen de las propiedades de la v.a. Normal Bidimensional
2 Si (X, Y ) es Normal Bidimensional =⇒ X e Y son Normales Unidimensionales.
2 Si X e Y son Normales Unidimensionales independientes =⇒ (X, Y ) es Normal

Bidimensional.
126 Estadı́stica
2 Si X e Y son Normales Unidimensionales no independientes =⇒

/ (X, Y ) es Normal
Bidimensional.
2 Si (X, Y ) es Normal Bidimensional =⇒ Z = aX + bY es Normal Unidimensional.
2 Si (X, Y ) es Normal Bidimensional =⇒ X|Y e Y |X son Normales Unidimensionales.
2 Si (X, Y ) es Normal Bidimensional =⇒ X e Y son independientes ⇐⇒ ρ = 0.

Convergencia de
10 sucesiones de
variables aleatorias
Índice
10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . 128
10.2. Problema central del lı́mite . . . . . . . . . . . . . . . . . . . . 129
10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . 129
10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . 129
10.3. Aproximaciones a la distribución Normal . . . . . . . . . . . . 130
10.3.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . 130
10.3.2. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . 131
10.3.2.1. Corrección de Yates . . . . . . . . . . . . . . . . . . . 131
10.3.3. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . 132
10.3.4. Distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . 132
127
128 Estadı́stica
10.1. Convergencia en ley

Sea {Fn } una sucesión de funciones de distribución. Se dice que {Fn } converge en
ley o en distribución a la función de distribución F , si
lı́m Fn (x) = F (x) ∀x ∈ CF

n→∞
siendo CF el conjunto de puntos de continuidad de F . La notación será

L
{Fn } −→ F
Ejemplo.- Sea


 0 x<0 (

 1 0 x≤0
Fn (x) = nx 0 ≤ x < =⇒ lı́m Fn (x) = G(x) =

 n n→∞ 1 x>0
 1 x≥ 1

n
pero, G no es una función de distribución (no es continua por la derecha en x = 0), por
tanto, {Fn } no converge en ley a G. En cambio, si consideramos
(
0 x<0
F (x) =
1 x≥0
F es función de distribución, y {Fn } converge en ley a F , pues
lı́m Fn (x) = F (x) ∀x ∈ R − {0}

n→∞
pero 0 ∈
/ CF , por tanto
lı́m Fn (x) = F (x) ∀x ∈ CF
n→∞
Consideremos ahora una sucesión de v.a., {Xn }, con funciones de distribución {Fn }
y funciones caracterı́sticas {ϕn }. Y, sea X una v.a. con función de distribución F y función
caracterı́stica ϕ. Entonces
• Se dice que {Xn } converge en ley a la v.a. X, si {Fn } converge en ley a F , y se

notará por
L
{Xn } −→ X
• Si {Fn } converge en ley a F , entonces {ϕn } converge puntualmente a ϕ, es decir

lı́m ϕn (t) = ϕ(t) ∀t ∈ R
n→∞
• Si {ϕn } converge puntualmente a una función ψ continua en 0, entonces ψ es la

función caracterı́stica asociada a una v.a. Y con función de distribución G, y se
cumple que {Fn } converge en ley a G.
10 Convergencia de sucesiones de variables aleatorias 129
10.2. Problema central del lı́mite

Dada una sucesión de v.a., {Xn }, definidas sobre el mismo espacio probabilı́stico, se
dice que verifica el problema central del lı́mite, si se cumple
n
" n #
X X
Xk − E Xk
k=1 k=1 L
v ! −→ N(0, 1)
u n
u X
tVar Xk
k=1
10.2.1. Teorema de Levy-Lindeberg

Sea {Xn } una sucesión de v.a. independientes e idénticamente distribuidas, con
E[Xn ] = µ < +∞ y Var(Xn ) = σ 2 < +∞. Entonces, {Xn } verifica el problema central
del lı́mite. Es decir
 " #
 Xn Xn



 E Xk = E[Xk ] = nµ


n
X  k=1 k=1
Xk =⇒

 !
k=1 

n
X n
X

 Var(Xk ) = nσ 2
 Var
 Xk =
k=1 k=1
y, se cumple
n
" n # n
X X X
Xk − E Xk Xk − nµ
k=1 k=1 k=1 L
v ! = √ −→ N(0, 1)
u n σ n
u X
tVar Xk
k=1
o, lo que es lo mismo
n
X L √
Xk −→ N(nµ, σ n )
k=1
10.2.2. Teorema de Lindeberg

Sea {Xn } una sucesión de v.a. independientes tales que :
130 Estadı́stica
n
X
i) Yn = Xi
i=1
ii) E[Xn ] = µn < +∞ ∀n ∈ N
iii) ∃ k ≥ 3 tal que Mk (Xn ) = E[(Xn − µn )k ] < +∞ ∀n ∈ N

n
X n
X
Mk (Xi ) E[(Xi − µi )k ]
i=1 i=1
iv) lı́m = lı́m hp ik = 0
n→∞ σ k (Yn ) n→∞
Var(Yn )
Entonces, {Xn } verifica el problema central del lı́mite.

Si k = 3, el Teorema de Lindeberg se conoce como Teorema de Liapunov.
10.3. Aproximaciones a la distribución Normal
10.3.1. Distribución Binomial

Sea {Xn } una sucesión de v.a. independientes e idénticamente distribuidas según
una B(1, p), es decir, Xn ≡ B(1, p) ∀n ∈ N. Entonces,
 " #
 Xn



 E Xk = np


n
X  k=1
Xk ≡ B(n, p) =⇒

 !
k=1 

n
X


 Var
 Xk = npq
k=1
y, se cumple
n
" n #
X X
Xk − E Xk
k=1 k=1 B(n, p) − np L
v ! = √ −→ N(0, 1)
u n npq
u X
tVar Xk
k=1
Es decir, para un n suficientemente grande se cumple que
B(n, p) − np ∼ √
√ = N(0, 1) =⇒ B(n, p) ∼
= N(np, npq )
npq
En la práctica, esta aproximación es buena cuando np(1 − p) > 5.
10 Convergencia de sucesiones de variables aleatorias 131
10.3.2. Distribución de Poisson

Puesto que la distribución Binomial se comporta en el lı́mite como una Poisson,
también ésta última se puede aproximar por una Normal. En la práctica, si λ > 5 entonces
se puede utilizar la siguiente aproximación
√
P(λ) ∼
= N(λ, λ )
10.3.2.1. Corrección de Yates
Cuando una variable aleatoria discreta se aproxima por una variable aleatoria con-
tinua, como es el caso de la Binomial o la Poisson por la Normal, surge un problema a la
hora de calcular probabilidades. Por ejemplo, sabemos que
P (x1 ≤ B(n, p) ≤ x2 ) 6= P (x1 < B(n, p) ≤ x2 )
P (B(n, p) = x) 6= 0
sin embargo,
√ √
P x1 ≤ N(np, npq ) ≤ x2 = P x1 < N(np, npq ) ≤ x2
√
P N(np, npq ) = x = 0
Para resolver este problema se aplica la corrección de Yates, que consiste en ampliar
o reducir el intervalo de integración de la v.a. continua, para asegurar la inclusión o
exclusión de los lı́mites de la v.a. discreta. De forma general, si X es una v.a. discreta, e
Y una v.a. continua tal que X ∼ = Y , entonces
P (X = x) ≃ P (x − 0.5 ≤ Y ≤ x + 0.5)
P (x1 < X ≤ x2 ) ≃ P (x1 + 0.5 ≤ Y ≤ x2 + 0.5)
P (x1 ≤ X ≤ x2 ) ≃ P (x1 − 0.5 ≤ Y ≤ x2 + 0.5)
P (x1 < X < x2 ) ≃ P (x1 + 0.5 ≤ Y ≤ x2 − 0.5)
P (x1 ≤ X < x2 ) ≃ P (x1 − 0.5 ≤ Y ≤ x2 − 0.5)

132 Estadı́stica
10.3.3. Distribución χ2 de Pearson

Como la distribución Chi-cuadrado con n grados de libertad se define como la suma
de n v.a. independientes e idénticamente distribuidas, cuando n ≥ 30 se puede utilizar la
siguiente aproximación
p √
2χ2n ∼
=N 2n − 1, 1
10.3.4. Distribución t-Student

Teniendo en cuenta que una distribución t-Student con n grados de libertad se define
como el cociente
N(0, 1)
tn = r
χ2n
n
2
y, que la distribución χn se puede aproximar por una Normal, cuando n ≥ 30 se puede
utilizar la siguiente aproximación
r
n
tn ∼
= N 0,
n−2
Regresión
11 y correlación
Índice
11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.2. Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.2.1. Método de los mı́nimos cuadrados . . . . . . . . . . . . . . . . 134
11.2.2. Método de la distribución condicional . . . . . . . . . . . . . . 136
11.2.3. Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 137
11.2.3.1. Método de los mı́nimos cuadrados . . . . . . . . . . . 137
11.2.3.2. Método de la distribución condicional . . . . . . . . . 138
11.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.3.1. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . 140
133
134 Estadı́stica
11.1. Introducción
Sea (X, Y ) una v.a. bidimensional. Algo que nos podemos preguntar es si existe
algún tipo de relación entre las dos variables que forman el par, es decir, si existe alguna
función que las relaciona. Por supuesto, el hecho de que exista alguna relación entre ellas
implica que no son independientes.
Tenemos pues dos objetivos,
1.- Determinar la función Y = h1 (X) que mejor expresa el comportamiento de la v.a. Y

para cada valor que pueda tomar X. Esta función se conoce como curva de regresión
de Y sobre X. Igualmente, se puede determinar la función X = h2 (Y ) que mejor
expresa el comportamiento de la v.a. X para cada valor que pueda tomar Y . Esta
función se conoce como curva de regresión de X sobre Y .
2.- Medir el grado de asociación que pueda existir entre las dos v.a. Este parámetro se
conoce como coeficiente de correlación.
La regresión tiene dos significados. Uno, surge de la distribución conjunta de las dos
v.a., y es el que vamos a estudiar en este capı́tulo. El otro, que estudiaremos más adelante,
es empı́rico, y nace de la necesidad de ajustar una función a un conjunto de datos.
11.2. Regresión
En la regresión de Y sobre X, como ya se ha dicho, se quiere encontrar una función
Y = h1 (X) que mejor exprese el comportamiento de la v.a. Y para cada valor que pueda
tomar X. Para ello, podemos utilizar dos métodos
11.2.1. Método de los mı́nimos cuadrados

Este método consiste en encontrar la función Y = h1 (X) de forma que el error
cuadrático medio (ECM) sea mı́nimo, siendo

ECM = E (Y − h1 (X))2
Este método tiene el inconveniente de que es necesario conocer a priori la forma de
la función h1 .
Ejemplo 1.- Dada una v.a. bidimensional (X, Y ), con función de densidad conjunta
4
f (x, y) = x2 (x + y) 0 ≤ x ≤ 1; 0 ≤ y ≤ 3
9
11 Regresión y correlación 135
De las variables X e Y se sabe que existe una relación del tipo

b
Y = aX +
X
Se pide, calcular los valores de a y b que mejor ajustan este tipo de relación.
" 2 #
2
b
ECM = E (Y − h1 (X)) = E Y − aX −
X
Para calcular el mı́nimo de ECM, tenemos que derivar respecto de a y b

 ∂ECM b 2


 = E 2(Y − aX − )(−X) = 2 −E[XY ] + aE[X ] + b =0

 ∂a X



 ∂ECM b 1 Y 1
 = E 2(Y − aX − )(− ) = 2 −E + a + bE =0
∂b X X X X2
entonces,

 Y 1

 E − E[XY ]E

 X X2

 a =
 
 1
 aE[X 2 ] + b = E[XY ] 
 1 − E[X 2 ]E

 
 X2
 
=⇒

 1 Y 


 a + bE =E 
 Y
X 2 X 
 E[XY ] − E E[X 2 ]

 X

 b=

 1

 1 − E[X 2 ]E
X2
Z +∞ Z +∞ Z 1 Z 3
2 4 28
• E[X ] = 2
x f (x, y) dxdy = x4 (x + y) dydx =
−∞ −∞ 9 x=0 y=0 45

Z +∞ Z +∞ Z Z 3
1 1 4 1 8
• E = f (x, y) dxdy = (x + y) dydx =
X2 −∞ −∞ x
2 9 x=0 y=0 3

Z +∞ Z +∞ Z Z 3
Y y 4 1 8
• E = f (x, y) dxdy = xy(x + y) dydx =
X −∞ −∞ x 9 x=0 y=0 3
Z +∞ Z +∞ Z 1 Z 3
4 7
• E[XY ] = xyf (x, y) dxdy = x3 y(x + y) dydx =
−∞ −∞ 9 x=0 y=0 5
Por tanto,
136 Estadı́stica

 144

 a=
 89


 b = 35

89
y, la relación entre las dos variables es de la forma
144 35
Y = X+
89 89X
11.2.2. Método de la distribución condicional

Para cada valor x que toma la variable X, el comportamiento de la variable Y viene
definido por la v.a. condicionada Y |X=x , con función de densidad condicionada f (y|x).
El criterio de este método consiste en definir la función h1 de tal forma que asigne
a cada valor x del campo de variación de la variable X, el valor medio o esperanza de la
variable Y condicionado a ese valor x. Es decir,
Z +∞
y = h1 (x) = E [Y |X=x ] = yf (y|x) dy
−∞
Ejemplo 2.- Dada la v.a. bidimensional (X, Y ) con función de densidad conjunta
f (x, y) = x + y 0 ≤ x, y ≤ 1
Se pide, calcular la curva de regresión de Y sobre X.

Primero, tenemos que calcular la función de densidad condicional f (y|x)
Z +∞ Z 1
1
• fX (x) = f (x, y) dy = (x + y) dy = x + 0≤x≤1
−∞ 0 2
f (x, y) 2(x + y)
• f (y|x) = = 0≤y≤1
fX (x) 2x + 1
Ahora,
Z +∞ Z 1
2y(x + y) 3x + 2
h1 (x) = E [Y |X=x ] = yf (y|x) dy = dy =
−∞ 0 2x + 1 6x + 3
Por tanto, la relación entre las dos variables es de la forma
3X + 2
Y =
6X + 3
11.2.3. Regresión Lineal

Un caso particular de curva de regresión de Y sobre X se da cuando la curva que
relaciona las dos variables es una recta del tipo
Y = h1 (X) = a + bX
11.2.3.1. Método de los mı́nimos cuadrados
ECM = E[(Y − h1 (X)2 ] = E[(Y − a − bX)2 ]

 ∂ECM

 = E [2(Y − a − bX)(−1)] = 2 (−E[Y ] + a + bE[X]) = 0
 ∂a


 ∂ECM = E [2(Y − a − bX)(−X)] = 2 −E[XY ] + aE[X] + bE[X 2 ] = 0

∂b
entonces,
 
 E[XY ] − E[X]E[Y ] Cov(X, Y )
 
 a + bE[X] = E[Y ]
  b = E[X 2 ] − (E[X])2 = Var(X)

=⇒

 

 aE[X] + bE[X 2 ] = E[XY ] 

a = E[Y ] − bE[X]
Por tanto, la recta de regresión lineal de Y sobre X es Y = a + bX, con
Cov(X, Y ) σXY
b= = 2
Var(X) σX
a = E[Y ] − bE[X] = µY − bµX

o, expresado de otra forma
Y = a + bX = µY − bµX + bX = µY + b(X − µX ) =⇒
σXY
Y − µY = 2
(X − µX )
σX
De igual forma, la recta de regresión lineal de X sobre Y es X = a′ + b′ Y , con
138 Estadı́stica
Cov(X, Y ) σXY
b′ = = 2
Var(Y ) σY
a′ = E[X] − b′ E[Y ] = µX − b′ µY
o, expresado de otra forma
X = a′ + b′ Y = µX − b′ µY + b′ Y = µX + b′ (Y − µY ) =⇒
σXY
X − µX = (Y − µY )
σY2
• Los coeficientes b y b′ (las pendientes de las rectas de regresión de Y sobre X y

de X sobre Y , respectivamente), se llaman coeficientes de regresión lineal. Siempre
tienen el mismo signo, por tanto, o las dos rectas son crecientes o las dos rectas son
decrecientes, siempre que Cov(X, Y ) 6= 0.
• El punto de intersección de las dos rectas de regresión se denomina centro de gravedad

de la v.a. bidimensional (X, Y ).
11.2.3.2. Método de la distribución condicional
Si al aplicar el método de la distribución condicional para obtener la curva de re-

gresión de Y sobre X obtenemos una recta, entonces
y = E[Y |X=x ] = a + bx
Es decir,
Z +∞ Z +∞
f (x, y)
E[Y |X=x ] = yf (y|x) dy = y dy =
−∞ −∞ fX (x)
Z +∞
1
= yf (x, y) dy = a + bx =⇒
fX (x) −∞
Z +∞
yf (x, y) dy = afX (x) + bxfX (x)
−∞
Entonces,
 Z +∞ Z +∞ Z +∞ Z +∞



 yf (x, y) dydx = afX (x) dx + bxfX (x) dx

 −∞ −∞ −∞ −∞
=⇒

 Z +∞ Z +∞ Z +∞ Z +∞



 xyf (x, y) dydx = axfX (x) dx + bx2 fX (x) dx
−∞ −∞ −∞ −∞


 E[Y ] = a + bE[X]



 E[XY ] = aE[X] + bE[X 2 ]
Y, despejando,

 E[XY ] − E[X]E[Y ] Cov(X, Y )

 b = E[X 2 ] − (E[X])2 = Var(X)





a = E[Y ] − bE[X]
Por tanto, los coeficientes de la recta obtenidos con el método de la distribución
condicional coinciden con los obtenidos con el método de los mı́nimos cuadrados.
11.3. Correlación
Ligado al concepto de regresión (relación entre dos variables X e Y ), está el de
correlación (grado de relación entre las variables X e Y ). Es decir, al calcular la curva de
regresión de Y sobre X, Y = h1 (X), en realidad estamos calculando una función que, con
el criterio que hayamos escogido, mejor ajusta los valores de la variable Y para un valor
dado de la variable X. Ahora, debemos cuantificar cómo es de bueno ese ajuste.
Una forma bastante lógica de cuantificar la bondad del ajuste consiste en medir
la diferencia entre el verdadero valor de la variable Y , y el valor asignado por la curva
de regresión, h1 (X). Para que las diferencias positivas no se cancelen con las negativas,
generalmente se recurre al estudio de las diferencias al cuadrado. Ası́, se define la varianza
residual, σR2 , como la media cuadrática de estos errores

σR2 = E (Y − h1 (X))2
Como se puede comprobar, coincide con el error cuadrático medio. Partiendo de σR2 ,
Pearson definió el coeficiente general de correlación como
140 Estadı́stica
s
σR2
ρG = 1−
σY2
mientras que ρ2G se denomina coeficiente general de determinación.
En cualquier caso, se cumple
0 ≤ ρ2G ≤ 1
−1 ≤ ρG ≤ 1
11.3.1. Coeficiente de correlación lineal

Ya que generalmente la regresión que más se utiliza es la lineal, vamos a estudiar
con más profundidad el coeficiente de correlación lineal.
Si partimos de la recta de regresión de Y sobre X calculada en la sección 11.2.3,
σXY
Y = h1 (X) = µY + 2
(X − µX )
σX
La varianza residual será
" 2 #
2 σXY
σR2 = E (Y − h1 (X)) =E Y − µY − 2 (X − µX ) =
σX
σ2 2 σXY
= E (Y − µY )2 + XY
4
E (X − µ X ) − 2 2 E[(Y − µY )(X − µX )] =
σX σX
2 2
σXY 2 σXY 2 σXY
= σY2 + 4
σX − 2 2
σXY = σY − 2
σX σX σX
Y, el coeficiente de correlación lineal es

v
u 2
σXY
s u s
u σY2 −
σ2 t σX2 2
σXY
ρ = 1− R = 1− = 1−1+ =
σY2 σY2 σX2 2
σY
σXY Cov(X, Y )
= =p
σX σY Var(X) Var(Y )
que, como se puede comprobar, coincide con el estudiado en la sección 7.6.2. Además, el
coeficiente de determinación lineal viene dado por
2
2
σXY Cov2 (X, Y )
ρ = 2 2 =
σX σY Var(X) Var(Y )
Veamos algunas propiedades de estos coeficientes.
• Como ocurre de forma general,
0 ≤ ρ2 ≤ 1 y −1 ≤ρ≤1
• Los coeficientes de regresión lineal, b y b′ , y el coeficiente de correlación lineal, ρ, tie-

nen el mismo signo, pues éste sólo depende del signo de Cov(X, Y ). Si Cov(X, Y ) >
0, entonces las rectas de regresión son crecientes y el coeficiente de correlación lineal
es positivo. Si Cov(X, Y ) < 0, entonces las rectas de regresión son decrecientes y el
coeficiente de correlación lineal es negativo.
σXY σXY
• Como b = 2
y b′ = 2 , entonces,
σX σY
√
ρ= b b′
• Como
σXY σXY σY σY
b= 2
= =ρ
σX σX σY σX σX
σXY σXY σY σX
b′ = 2
= =ρ
σY σX σY σY σY
las rectas de regresión también se pueden escribir como,
σY
Y − µY = ρ (X − µX )
σX
σX
X − µX = ρ (Y − µY )
σY
142 Estadı́stica
Distribuciones
12 de muestreo
Índice
12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12.2. Definición de estadı́stico . . . . . . . . . . . . . . . . . . . . . . 145
12.3. Estadı́stico media muestral . . . . . . . . . . . . . . . . . . . . . 145
12.3.1. Población Madre Normal . . . . . . . . . . . . . . . . . . . . . 145
12.3.2. Población Madre no Normal . . . . . . . . . . . . . . . . . . . . 146
(n − 1)s2
12.4. Estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . 146
σ2
x̄ − µ
12.5. Estadı́stico √ . . . . . . . . . . . . . . . . . . . . . . . . . . 147
s/ n
12.6. Estadı́stico varianza muestral . . . . . . . . . . . . . . . . . . . 148
12.7. Estadı́stico desviación tı́pica muestral . . . . . . . . . . . . . . 150
12.8. Estadı́stico diferencia de medias muestrales . . . . . . . . . . . 152
12.9. Estadı́stico cociente de varianzas muestrales . . . . . . . . . . 153
12.10.Estadı́stico proporción muestral . . . . . . . . . . . . . . . . . . 154
12.11.Estadı́stico elemento que ocupa el lugar r . . . . . . . . . . . . 155
12.11.1.Estadı́stico máximo valor de una muestra . . . . . . . . . . . . 155
12.11.2.Estadı́stico mı́nimo valor de una muestra . . . . . . . . . . . . 156
12.11.3.Estadı́stico recorrido de una muestra . . . . . . . . . . . . . . . 156
12.11.4.Estimación de cuantiles . . . . . . . . . . . . . . . . . . . . . . 157
143
144 Estadı́stica
Consideremos una población de la que necesitamos analizar alguna caracterı́stica.
Lo ideal serı́a estudiar todos y cada uno de los elementos de esa población, pero esto, en la
gran mayorı́a de las ocasiones resulta difı́cil, caro e incluso, a veces, imposible. Ello obliga
a elegir un determinado número de elementos (muestra) de la población, analizar en ellos
la caracterı́stica antes mencionada y, de los resultados obtenidos, inferir lo que sucede en
la totalidad de la población. Esto nos lleva a la Teorı́a de Muestras.
A la población objeto del estudio le damos el nombre de Población Madre (P.M.).
Consideramos ésta en su totalidad, y por un método aleatorio elegimos n elementos,
obteniendo lo que se llama una muestra de tamaño n. Ahora bien, los n elementos se
pueden extraer de dos maneras:
• Todos a la vez (o uno a uno sin reemplazamiento), con lo cual el número de!
muestras
N
posibles de tamaño n que se pueden obtener está determinado por , siendo
n
N el número total de elementos de la Población Madre. Además, el número de
muestras posibles, considerando todos los tamaños, es finito:
! ! !
N N N
+ +···+ = 2N − 1
1 2 N
Esto dará lugar al estudio de unas consecuencias que quedarán reflejadas en la

llamada Teorı́a de Muestras de Población Finita.
• La muestra de tamaño n se obtiene sacando los elementos uno a uno, con reempla-
zamiento. A este tipo de muestra le daremos el nombre de muestra aleatoria simple
(m.a.s.) de tamaño n. En este caso, no importa el tamaño N de la P.M., que incluso
pudiera ser N < n. Ahora, el número de muestras posibles, considerando todos los
tamaños, es infinito.
Esto dará lugar al estudio de unas consecuencias que quedarán reflejadas en la
llamada Teorı́a de Muestras de Población Infinita.
En general, mientras no se especifique lo contrario, a lo largo de este curso considera-

remos siempre que, por defecto, la muestra se ha obtenido con reemplazamiento. Es decir,
se trata de una m.a.s. Sólo en el capı́tulo 14 daremos una descripción de los resultados
referentes a las muestras obtenidas sin reemplazamiento.
12 Distribuciones de muestreo 145
12.2. Definición de estadı́stico

Consideremos, en un espacio unidimensional, una Población Madre definida por su
función de densidad f (x). De ella, extraemos una m.a.s. de tamaño n, {x1 , x2 , . . . , xn }.
Cada uno de los valores xi son extracciones aleatorias e independientes obtenidas de una
P.M. intacta (extracción con reemplazamiento). Los posibles valores de cada una de las
extracciones, xi , es una variable aleatoria, Xi . Por tanto, con este procedimiento hemos
construido una variable aleatoria n-dimensional X = (X1 , X2 , . . . , Xn ), donde todas las
v.a. son independientes e idénticamente distribuidas con la misma distribución que la
v.a. asociada a la P.M. Es decir, si la P.M. sigue una distribución N(µ, σ), entonces cada
Xi ≡ N(µ, σ).
LLamaremos Estadı́stico a cualquier función de las n variables aleatorias,
T (X) = T (X1 , X2 , . . . , Xn )
El estudio de la teorı́a de muestras que haremos en este curso estará dedicado a

obtener la distribución de la variable aleatoria T (X), cuando T (X) sea cierto tipo de
función conocida. Incurriendo en un abuso de notación, utilizaremos la expresión xi para
referirnos tanto a la v.a. Xi , como a un valor de la misma, xi .
12.3. Estadı́stico media muestral
n
1X
x̄ = xi
n i=1
12.3.1. Población Madre Normal

Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sabemos que xi ≡ N(µ, σ)
y que las n v.a. son independientes. Entonces, la v.a. x̄ también sigue una distribución
Normal, por ser combinación lineal de v.a. Normales. Además,
" n
# n n
1X 1X 1X
E[x̄] = E xi = E[xi ] = µ=µ
n i=1 n i=1 n i=1
n
! n n
1X 1 X 1 X 2 σ2
Var(x̄) = Var xi = 2 Var(xi ) = 2 σ =
n i=1 n i=1 n i=1 n
Por tanto, si la Población Madre es N(µ, σ) el estadı́stico media es
146 Estadı́stica
√
x̄ ≡ N (µ, σ/ n )
12.3.2. Población Madre no Normal

Dada una m.a.s., {x1 , . . . , xn } de una P.M.≡ ?(µ, σ) sabemos que xi ≡ ? (µ, σ) y que
las n v.a. son independientes. Entonces, se puede aplicar el Teorema de Levi-Lindeberg.
n
" n #
X X
xi − E xi
i=1 i=1 nx̄ − nµ x̄ − µ
v ! = √ = √ −→ N(0, 1)
u n nσ 2 σ/ n
u X
tVar xi
i=1
Por tanto,
√
si n > 30 =⇒ x̄ ∼
= N (µ, σ/ n )
√
si n < 30 =⇒ x̄ ≡ ? (µ, σ/ n )
(n − 1)s2
12.4. Estadı́stico
σ2
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), definimos la varianza mues-
tral, s2 , como
n
2 1 X
s = (xi − x̄)2
n − 1 i=1
Entonces,
n n
(n − 1)s2 1 X 1 X
= 2
(xi − x̄) = 2 [(xi − µ) − (x̄ − µ)]2 =
σ2 σ 2 i=1 σ i=1
" n n n
#
1 X 2
X
2
X
= (xi − µ) + (x̄ − µ) − 2(x̄ − µ) (xi − µ) =
σ 2 i=1 i=1 i=1
" n #
1 X
= (xi − µ)2 + n(x̄ − µ)2 − 2n(x̄ − µ)2 =
σ 2 i=1
" n #
1 X
= (xi − µ)2 − n(x̄ − µ)2 =
σ 2 i=1
n
X 2 2
xi − µ x̄ − µ
= − √
i=1
σ σ/ n
Pero,
Xn 2
xi − µ xi − µ
xi ≡ N(µ, σ) =⇒ ≡ N(0, 1) =⇒ ≡ χ2n
σ i=1
σ
2
√ x̄ − µ x̄ − µ
x̄ ≡ N(µ, σ/ n ) =⇒ √ ≡ N(0, 1) =⇒ √ ≡ χ21
σ/ n σ/ n
y, aunque en general la diferencia de dos v.a. Chi-cuadrado no sigue una distribución

Chi-cuadrado, en este caso especial se puede demostrar que
(n − 1)s2
2
≡ χ2n−1
σ
x̄ − µ
12.5. Estadı́stico √
s/ n
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sabemos que

σ x̄ − µ
x̄ ≡ N µ, √ =⇒ √ ≡ N(0, 1)
n σ/ n
148 Estadı́stica
Por otra parte,

(n − 1)s2
≡ χ2n−1
σ2
entonces, dividiendo,
x̄ − µ
√
σ/ n N(0, 1) x̄ − µ
r =r 2 = √ ≡ tn−1
2
(n − 1)s 1 χn−1 s/ n
σ 2 n−1 n−1
Por tanto,
x̄ − µ
√ ≡ tn−1
s/ n

Aunque la P.M. no sea Normal, si el tamaño de muestra es suficientemente grande,
se puede hacer la aproximación σ 2 ≃ s2 y aplicar el Teorema de Levy-Lindeberg. Ası́,
x̄ − µ ∼
si n > 30 =⇒ √ = N(0, 1)
s/ n
si n < 30 =⇒ —
12.6. Estadı́stico varianza muestral
n
X
1
2
s = (xi − x̄)2
n−1 i=1

Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), tenemos
(n − 1)s2 2 2 σ2
X= ≡ χn−1 =⇒ s = X
σ2 n−1
entonces,
σ2 σ2
E[s2 ] = E[X] = (n − 1) = σ 2
n−1 n−1
σ4 σ4 2σ 4
Var(s2 ) = Var(X) = 2(n − 1) =
(n − 1)2 (n − 1)2 n−1
Por tanto,
r
∼ 2 2 2 2
si n > 100 =⇒ s = N σ , σ
n−1
r
2 2 2 2
si n < 100 =⇒ s ≡ ? σ ,σ
n−1

Aunque la P.M. no sea Normal, utilizando el desarrollo del apartado 12.4, llegamos
a
n
2 1 X n
s = (xi − µ)2 − (x̄ − µ)2
n − 1 i=1 n−1
y, por tanto
n
2 1 X n
E[s ] = E[(xi − µ)2 ] − E[(x̄ − µ)2 ]
n − 1 i=1 n−1
Pero,
E[xi ] = µ =⇒ E[(xi − µ)2 ] = Var(xi ) = σ 2
σ2
E[x̄] = µ =⇒ E[(x̄ − µ)2 ] = Var(x̄) =
n
entonces,
2n 2 n σ2
E[s ] = σ − = σ2
n−1 n−1 n
Operando se puede demostrar también que

2 4 2 CAp
Var(s ) = σ +
n−1 n
siendo CAp el coeficiente de apuntamiendo o curtosis de la población que, en caso de ser
desconocido, se puede aproximar por el coeficiente de curtosis de la muestra.
Por tanto
r
2 ∼ 2 2 2 CAp
s = ? σ ,σ +
n−1 n
150 Estadı́stica
12.7. Estadı́stico desviación tı́pica muestral
" n
#1/2
1 X
2
s= (xi − x̄)
n−1 i=1
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sea
n−1 2 1 n−3 x
X= s ≡ χ2n−1 =⇒ fX (x) = x 2 e− 2 , x>0
σ2 n−1 n−1
2 2 Γ
2
σ2
Hacemos el cambio de variable Y = X, es decir, Y = s2 . Entonces
n−1
n−3
1 n−1 2 n−1 n−1
gY (y) = y e− 2σ2 y , y>0
n−1 n−1 σ 2 σ2
2 Γ2
2
√
Hacemos el cambio de variable T = Y , es decir, T = s. Entonces
n−3
1 n−1 2 2 n−1 2 n−1
hT (t) = t e− 2σ2 t 2t , t>0
n−1 n−1 σ2 σ2
2 2 Γ
2
y, operando
n−1
n−1 2
2
2 n−1 2
hT (t) = tn−2 e− 2σ2 t , t>0
n−1
σ n−1 Γ
2
Entonces,
n−1
n−1 2
Z ∞ 2 Z ∞
2 n−1 2
E[T ] = t hT (t) dt = tn−1 e− 2σ2 t dt =
0 n−1 0
σ n−1 Γ
2
n−1
n−1 2
2 Z ∞ √ !n−1
2 σ 2u σ √ 1
= √ e−u √ n − 1 √ du =
n−1
n−1 0 n−1 2 2 u
σ Γ
2
r Z ∞
2 1 n
= σ u 2 −1 e−u du =
n−1 n −1 0
Γ
2
n
r Γ
2
= σ 2
n−1 n−1
Γ
2
√
√ n−1
donde, para calcular la integral hemos realizado el cambio u= √
2σ
Por otra parte,
E[T 2 ] = E[s2 ] = σ 2
Y, por último, la varianza de T viene dada por

 n 
 2 Γ2  2
Var(T ) = E[T ] − (E[T ]) = 
2 2
1 − n − 1 2  σ
2
n−1 
Γ
2
Por tanto, la distribución del estadı́stico s es
r
∼ 1
si n > 100 =⇒ s = N σ, σ
2(n − 1)
 v n 
r u 2 n
 Γ u Γ 
2 u 2
si n < 100 =⇒ s ≡ ? 
σ 2 , σ u1 − 2 

n−1 n − 1 t n−1 2 n−1
Γ Γ
2 2
152 Estadı́stica
12.8. Estadı́stico diferencia de medias muestrales

De dos Poblaciones Normales P.M.= X ≡ N (µx , σx ) y P.M.= Y ≡ N (µy , σy )
extraemos dos muestras independientes, {x1 , x2 , . . . , xn } y {y1, y2 , . . . , ym }, de tamaños n
y m, con medias y varianzas
n n
1X 1 X
x̄ = xi s2x = (xi − x̄)2
n i=1 n − 1 i=1
m m
1 X 1 X
ȳ = yi s2y = (yi − ȳ)2
m i=1 m − 1 i=1
Definimos el estadı́stico diferencia de medias como
n m
1X 1 X
x̄ − ȳ = xi − yi
n i=1 m i=1
• Si σx y σy son conocidos
 √

 x̄ ≡ N (µx , σx / n )



 (x̄ − ȳ) − (µx − µy )
 =⇒ r ≡ N (0, 1)
 σx2 σy2

 +

 n m

 √
ȳ ≡ N (µy , σy / m )
• Si σx y σy son desconocidos
◦ si σx2 = σy2 = σ 2

 (x̄ − ȳ) − (µx − µy )

 r ≡ N (0, 1)

 1 1

 σ +



 n m

(x̄ − ȳ) − (µx − µy )
=⇒ r ≡ tn+m−2

 1 1

 Sp +

 n m



 2 2
 (n − 1)sx + (m − 1)sy ≡ χ2

n+m−2
σ2
donde s
(n − 1)s2x + (m − 1)s2y
Sp =
n+m−2
◦ si σx2 6= σy2
(x̄ − ȳ) − (µx − µy ) ∼

r = tγ
s2x s2y
+
n m
donde,
(A + B)2 s2x s2y
γ= A= , B=
A2 B2 n m
+
n−1 m−1
12.9. Estadı́stico cociente de varianzas muestrales

De dos Poblaciones Normales P.M.= X ≡ N (µx , σx ) y P.M.= Y ≡ N (µy , σy )
extraemos dos muestras independientes, {x1 , x2 , . . . , xn } y {y1 , y2 , . . . , ym}, de tamaños n
y m, con medias y varianzas
n n
1X 1 X
x̄ = xi s2x = (xi − x̄)2
n i=1 n − 1 i=1
m m
1 X 1 X
ȳ = yi s2y = (yi − ȳ)2
m i=1 m − 1 i=1
Definimos el estadı́stico cociente de varianzas como
n
1 X
(xi − x̄)2
s2x n − 1 i=1
= m
s2y 1 X
(yi − ȳ)2
m − 1 i=1
Del apartado 12.4 sabemos que
(n − 1)s2x
≡ χ2n−1
σx2
(m − 1)s2y
≡ χ2m−1
σy2
χ2n−1 /(n−1)
entonces, como χ2m−1 /(m−1)
≡ Fn−1,m−1 ,
s2x /σx2
≡ Fn−1,m−1
s2y /σy2
154 Estadı́stica
12.10. Estadı́stico proporción muestral

Partimos de una P.M. Binomial de parámetro p, es decir, p es la proporción de éxitos
de la Población. Extraemos una m.a.s. {x1 , . . . , xn } y asignamos los valores
(
1 si es éxito
xi =
0 si es fracaso
es decir, cada v.a. xi ≡ B(1, p)

Sean las v.a.
X ≡ número de éxitos de la muestra
pb ≡ proporción de éxitos de la muestra
Entonces,
n
X n
1X X
X= xi ≡ B(n, p) y pb = xi =
i=1
n i=1 n
"
n
# n
1X 1X 1
E[b
p] = E xi = E[xi ] = np = p
n i=1 n i=1 n
n
! n
1X 1 X 1 p(1 − p)
Var(b
p) = Var xi = Var(xi ) = np(1 − p) =
n i=1 n2 i=1 n2 n
Aplicando el Teorema de Levy-Lindeberg
n
" n #
X X
xi − E xi
i=1 i=1 p − np
nb pb − p
v ! = √ =r −→ N(0, 1)
u n np p(1 − p)
u X
tVar xi n
i=1
Por tanto,
r !
p(1 − p) p
si n > 30 =⇒ pb ∼
= N p, y X ∼
= N np, np(1 − p)
n
r !
p(1 − p)
si n < 30 =⇒ pb ≡ ? p, y X ≡ B(n, p)
n
158 Estadı́stica
x] ≃ Me = µ
E[e
p(1 − p) 0.5 × 0.5 πσ 2

x) ≃
Var(e = 2 =
nf 2 (Me) 1 2n
n √
2πσ
donde hemos utilizado el hecho de que en una distribución Normal, Me = µ. Ası́,
r
π
xe∼
= N µ, σ
2n
Estimación puntual
13 y estimación
por intervalo
Índice
13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
13.2. Propiedades deseables de los estimadores puntuales . . . . . 163
13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . 163
13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . 164
13.2.3. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . 165
13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . 166
13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . 167
13.2.5.1. Teorema (Cota de Cramér-Rao) . . . . . . . . . . . . 168
13.3. Métodos de estimación puntual . . . . . . . . . . . . . . . . . . 170
13.3.1. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . 170
13.3.2. Propiedades de los estimadores de máxima verosimilitud . . . . 172
13.3.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . 173
13.4. Estimación por intervalo de confianza . . . . . . . . . . . . . . 174
13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . 176
13.4.1.1. P.M. ≡ N(µ, σ) con σ conocido . . . . . . . . . . . . 176
13.4.1.2. P.M. ≡ N(µ, σ) con σ desconocido . . . . . . . . . . 177
13.4.1.3. P.M. ≡ ?(µ, σ) con σ conocido y n > 30 . . . . . . . 178
13.4.1.4. P.M. ≡ ?(µ, σ) con σ conocido y n < 30 . . . . . . . 178
13.4.1.5. P.M. ≡ ?(µ, σ) con σ desconocido y n > 30 . . . . . 179
13.4.1.6. P.M. ≡ ?(µ, σ) con σ desconocido y n < 30 . . . . . 179
13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . 179
13.4.2.1. P.M. ≡ N(µ, σ) con µ desconocido . . . . . . . . . . 179
159
160
13.4.3. Intervalo de confianza para la diferencia de medias . . . . . . . 180

13.4.3.1. P.M. Normales con σx y σy conocidas . . . . . . . . . 181
13.4.3.2. P.M. Normales con σx2 = σy2 = σ2 desconocida . . . 181
13.4.3.3. P.M. Normales con σx2 6= σy2 desconocidas . . . . . . 182
13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . 182
13.4.5. Intervalo de confianza para la proporción poblacional . . . . . . 183
13.4.5.1. P.M. Binomial y n > 30 . . . . . . . . . . . . . . . . 184
13.5. Intervalo de confianza asintótico . . . . . . . . . . . . . . . . . 185
13 Estimación puntual y estimación por intervalo 161
En el capı́tulo anterior hemos calculado la distribución de algunos estadı́sticos y men-
cionado brevemente que los estadı́sticos se utilizan para estimar los valores de parámetros
desconocidos de una población. En este capı́tulo se examinará con detalle el concepto de
estimación de parámetros mediante la especificación de las propiedades deseables de los
estimadores (estadı́sticos), y el desarrollo de técnicas apropiadas para implementar el pro-
ceso de estimación. Se utilizará el punto de vista de la teorı́a de muestras, que considera
a un parámetro poblacional como una cantidad fija (nunca una v.a.), pero desconocida.
La estimación de un parámetro de la población involucra el uso de los datos mues-
trales en conjunción con algún estadı́stico. Existen dos formas de realizar la estimación:
la estimación puntual y la estimación por intervalo. En la primera, se busca un estimador
que, con base en los datos muestrales, dé origen a una estimación univaluada del valor
del parámetro poblacional, y que recibe el nombre de valor estimado. Para la segunda, se
determina un intervalo en el que, en forma probable, se encuentra el valor del parámetro.
Este intervalo recibe el nombre de intervalo de confianza.
Antes de entrar en materia, vamos a ver algunas definiciones que serán de utilidad.
En general, el planteamiento del problema es el siguiente
• En una P.M. definida por su función de distribución F (x, θ) existe un parámetro, θ,

cuyo valor es desconocido.
• Para poder asignar un valor a dicho parámetro θ, extraemos una muestra aleatoria
de tamaño n, X = {x1 , . . . , xn }.
b = T (X), que supone

• Con los datos de la muestra, construimos un estadı́stico, Θ
una simplificación de la información proporcionada por la muestra.
FUNCIóN DE VEROSIMILITUD DE LA MUESTRA

Puesto que las n variables aleatorias de la muestra constituyen una v.a. n-dimensional,
{x1 , . . . , xn }, se llama función de verosimilitud de la muestra a la función de densidad de
dicha v.a. n-dimensional, y se denota por L(x1 , . . . , xn , θ).
∗ Si la P.M. es una v.a. continua con función de densidad f (x, θ), y la muestra es
aleatoria simple; entonces las n v.a. son independientes e idénticamente distribuidas
según la distribución de la P.M. Por tanto,
L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ)

162 Estadı́stica
∗ Si la P.M. es una v.a. discreta, sea como sea la muestra aleatoria, con o sin reem-
plazamiento,
L(x1 , . . . , xn , θ) = P (de que salga la muestra obtenida)
ESTIMACIÓN PUNTUAL
Una estimación puntual, θ,b de un parámetro poblacional θ, es un valor único del
b Por ejemplo, el valor x̄ del estadı́stico media muestral, X̄, calculado a partir
estadı́stico Θ.
de una muestra de tamaño n, es una estimación puntual del parámetro media poblacional
µ.
ESTIMADOR
El estadı́stico que se utiliza para obtener una estimación puntual es un estimador.
Por ejemplo, el estadı́stico varianza muestral, s2 , que es una función de la muestra alea-
toria, es un estimador de σ 2 .
ESTIMADOR SUFICIENTE
Estimador suficiente es el que proporciona la máxima información posible sobre el
parámetro poblacional, θ, una vez determinado el tamaño n de la muestra.
ESTIMADOR CONSISTENTE
b es un estimador consistente del parámetro θ si
Se dice que un estadı́stico, Θ,
b − θ| ≤ ǫ) = 1
P (|Θ cuando n→∞
ESTIMADOR INSESGADO
b es un estimador insesgado del parámetro θ si
b =θ
E[Θ]
ESTIMADOR SESGADO
b es un estimador sesgado del parámetro θ si
b = θ + b(θ)
E[Θ]
y b(θ) recibe el nombre de sesgo.
ESTIMADOR EFICIENTE
Si se consideran todos los posibles estimadores insesgados de un parámetro poblacio-
nal, θ, aquél que tenga la varianza más pequeña se dirá que es el estimador más eficiente.
13.2. Propiedades deseables de los estimadores pun-

tuales
13.2.1. Estimador suficiente

Un estadı́stico T (X) es suficiente, si el conocimiento pormenorizado de los elementos
de la muestra no añade ninguna información sobre θ que no proporcione la simplificación
T (X).
Una definición más técnica serı́a que un estadı́stico T (X) es suficiente respecto al
parámetro θ, si la función de distribución de la muestra, condicionada por un valor del
estadı́stico (o sea, F (X|T (X)=t )) no depende de θ.
Ejemplo.- De una P.M. Binomial, desconocemos la proporción de éxitos. Es decir, θ = p
es desconocido. Extraemos una m.a.s. de tamaño n = 50, {x1 , . . . , x50 }, de tal forma que
(
1 si es éxito
xi =
0 si es fracaso
Construyo dos estadı́sticos

50
X
T1 (X) = xi
i=1
T2 (X) = máx {xi }
Con los datos de la muestra obtenemos los valores de los estadı́sticos

50
X
t1 = T1 (x) = xi = 35
i=1
t2 = T2 (x) = máx {xi } = 1
En el primer caso, el hecho de que t1 = 35 significa que en la muestra han apare-

cido exactamente 35 éxitos de 50 casos muestreados. Para realizar una estimación de la
proporción de éxitos de la población, me basta con este dato, podrı́a suponer de forma
razonable que p ≈ 35/50. No necesito conocer cuáles de los elementos muestreados son
éxitos. Es decir, no necesito conocer de forma pormenorizada el valor de cada uno de los
elementos de la muestra.
En el segundo caso, sin embargo, el hecho de que t2 = 1 significa que en la muestra ha
aparecido al menos un éxito entre los 50 casos muestreados. En este caso, el conocimiento
164 Estadı́stica
pormenorizado de los valores de la muestra sı́ añadirı́a información, y bastante, sobre el

posible valor de p.
Claramente, T1 (X) es un estimador suficiente del parámetro p, mientras que T2 (X)
no lo es.
13.2.2. Estimador consistente

Como hemos visto en el ejemplo anterior, los valores obtenidos con las muestras nos
van a servir para estimar el verdadero valor del parámetro θ desconocido. Ası́ pues, es
razonable pensar que un buen estimador debe ser capaz de aproximarse mejor al valor
del parámetro a medida que aumenta el tamaño de la muestra. Siguiendo con el ejemplo
de la P.M. binomial, si en vez de una muestra de tamaño n = 50, saco una muestra de
tamaño n = 5000, es de esperar que la proporción de éxitos en esta segunda muestra se
aproxime más al verdadero valor de p que los 35/50 obtenidos con la primera muestra.
Sea T (X) un estimador de θ, y sean T1 (X), . . . , Tn (X) una secuencia de estimadores
que representan a T con distintos tamaños de muestra 1, . . . , n, respectivamente. Se dice
que T es un estimador consistente para θ si
lı́m P (|Tn − θ| ≤ ε) = 1
n→∞
Ejemplo.- Tenemos una P.M. con distribución no Normal y media desconocida, es decir,
θ = µ. Extraemos muestras de distintos tamaños, y construimos los estadı́sticos
n
1X
Tn (X) = x̄n = xi n = 1, 2, 3, . . .
n i=1
De cada una de estas v.a. sabemos que E[x̄n ] = µ y Var(x̄n ) = σ 2 /n. Por el teorema
de Chebychev,
p 1 √ 1
P |x̄n − E[x̄n ]| ≤ k Var(x̄n ) ≥ 1 − 2 =⇒ P |x̄n − µ| ≤ kσ/ n ≥ 1 − 2
k k
√
n
tomando k = ε,
σ
σ2
P (|x̄n − µ| ≤ ε) ≥ 1 − =⇒ lı́m P (|x̄n − µ| ≤ ε) = 1
nε2 n→∞
Es decir, cuanto mayor es el tamaño de la muestra, más se aproxima el valor de

la media muestral al valor de la media poblacional. Por tanto, la media muestral es un
estimador consistente de la media poblacional.
13.2.3. Error cuadrático medio

b se utiliza para estimar el valor de un parámetro de
Puesto que un estimador, Θ,
la población, θ, es conveniente que el valor esperado del estimador coincida con el valor
del parámetro que va a estimar. Para que las diferencias negativas no se cancelen con las
positivas, se define el Error Cuadrático Medio (ECM) como,
h i
ECM = E (Θ b − θ)2
b es una v.a. (función de

Si desarrollamos esta expresión, teniendo en cuenta que Θ
los elementos de la muestra) y θ es una constante (parámetro desconocido de la P.M.),
h i 2
ECM = E (Θb − θ) = E (Θ
2 b − E[Θ])
b − (θ − E[Θ])b =
2 2 h i
b
= E Θ − E[Θ] b + E θ − E[Θ]b b b b
− 2(θ − E[Θ])E Θ − E[Θ] =
2
b + θ − E[Θ]
= Var(Θ) b −0
Es decir, h i 2
ECM = E (Θ b + θ − E[Θ]
b − θ)2 = Var(Θ) b
El ECM es la suma de dos cantidades no negativas, una es la varianza del estimador

y la otra es el cuadrado del sesgo del estimador. Estas dos cantidades están relacionadas
con las propiedades deseables de un estimador. Por una parte, la varianza (dispersión) de
un estimador debe ser lo más pequeña posible y, por otra, el valor esperado del estimador
debe coincidir con el valor del parámetro a estimar. Por tanto, el problema de encontrar el
mejor estimador de θ se puede plantear, de forma simplificada, en términos de encontrar
el estimador que tenga el ECM más pequeño de entre todos los estimadores factibles de
θ. Sin embargo, en realidad el problema es mucho más complicado. Aun si fuese práctico
calcular el ECM de un gran número de estimadores, para la mayorı́a de los parámetros
poblacionales no existe ningún estimador que minimice el ECM para todos los posibles
b 1 , puede tener un ECM mı́nimo para algunos valores
valores de θ. Es decir, un estimador, Θ
b 2 , tendrá la misma propiedad para otros valores de
de θ, mientras que otro estimador, Θ
θ.
166 Estadı́stica
Ejemplo.- De una P.M. se extrae una m.a.s. {x1 , . . . , xn }, de la cual se sabe que E[xi ] = µ
y Var(xi ) = σ 2 ∀i = 1, n. Consideramos dos estimadores de la media
Xn
b 1 = x̄ = 1
Θ xi
n i=1
n
b2 = 1 X
Θ xi
n + 1 i=1
Entonces
 n

 b 1X

 E[Θ1 ] = E[xi ] = µ

 n i=1
 σ2
b 1) =
=⇒ ECM(Θ

 n n
 X σ2


 Var( b 1) = 1
Θ Var(x ) =
 n2 i=1
i
n
 n

 b 1 X n

 E[Θ2 ] = E[xi ] = µ

 n + 1 i=1 n+1
 µ2 + nσ 2
b 2) =
=⇒ ECM(Θ

 n (n + 1)2

 1 X n

 b σ2
 Var(Θ2 ) = (n + 1)2 Var(xi ) =
(n + 1) 2
i=1
Si n = 10 y σ 2 = 100, entonces,
b 1 ) = 10
ECM(Θ
2
b 2 ) = µ + 1000
ECM(Θ
121
Al igualar ambas expresiones y resolver para µ, se tiene que
√
si µ < b 1 ) > ECM(Θ
210 =⇒ ECM(Θ b 2)
√
si µ > b 1 ) < ECM(Θ
210 =⇒ ECM(Θ b 2)
Por esta razón, se deben examinar criterios adicionales para la selección de los esti-
madores de θ, aun cuando el error cuadrático medio es el concepto más importante.
13.2.4. Estimador insesgado

b es un estimador insesgado del parámetro θ, si cumple
Se dice que un estimador Θ
que
b =θ
E[Θ]
para todos los posibles valores de θ. De esta forma, para cualquier estimador insesgado,
b se cumple que ECM=Var(Θ).
Θ, b Como vimos en el capı́tulo anterior, sea como sea la
P.M., la esperanza de la media muestral coincide con la media poblacional. Por tanto, la
media de la muestra, x̄, es un estimador insesgado de µ.
Si un estimador no es insesgado, se dice que es sesgado, y se llama sesgo a la función
b − θ. El sesgo puede ser positivo, lo cual implica que el estimador en
(no v.a.) b(θ) = E[Θ]
cuestión está sobrevalorando, en media, el valor de θ; o puede ser negativo, lo cual implica
que el estimador en cuestión está infravalorando, en media, el valor de θ.
Ejemplo.- De una P.M.≡ N(µ, σ) extraemos una m.a.s., {x1 , . . . , xn }, y construimos dos
estimadores de la varianza,
n
b 1 = s2 = 1 X
Θ (xi − x̄)2
n − 1 i=1
X n
b2 = 1
Θ (xi − x̄)2
n i=1
En la sección 12.4 vimos que, si la población es Normal, entonces (n − 1)s2 /σ 2 ≡

χ2n−1 . Por tanto,
b 1 ] = E[s2 ] = σ2
E[Θ E[χ2n−1 ] = σ 2
n−1
b 2] = n−1 b n−1 2 1
E[Θ E[Θ1 ] = σ = σ2 − σ2
n n n
P
Por tanto, la varianza muestral, Θ b 1 = s = (xi − x̄) /(n − 1) es un estimador
2 2
insesgado de la varianza de la población, σ 2 . En cambio, Θ b 2 = P(xi − x̄)2 /n es un

estimador sesgado de σ 2 . Además, el sesgo de Θb 2 es b(θ) = −θ/n < 0, es decir, el estimador
b 2 está infravalorando, en media, el verdadero valor de la varianza de la población σ 2 .
Θ
Esta es la razón por la cual se define la varianza muestral con el dividendo igual a n − 1
en vez de igual a n. Por último, hay que señalar que el hecho de que s2 sea un estimador
insesgado de σ 2 , no implica que s sea un estimador insesgado de σ (ver Sec. 12.7).
13.2.5. Estimador eficiente

Sin perder de vista el hecho de que estamos buscando aquellos estimadores con ECM
mı́nimo, si consideramos los estimadores insesgados, para ellos se cumple ECM=Var(Θ).b
Por tanto, el problema se reduce a encontrar un estimador insesgado que tenga varianza
b es un estimador insesgado de varianza
mı́nima. En general, se dice que el estimador Θ
168 Estadı́stica
b = θ), y Var(Θ)
mı́nima uniforme de θ, si es insesgado (E[Θ] b es menor que la varianza de
cualquier otro estimador de θ para todos los posibles valores de θ.
La varianza de un estimador insesgado es la cantidad más importante para decidir
b1 y Θ
cómo de bueno es el estimador para estimar θ. Por ejemplo, si Θ b 2 son dos estimadores
b 1 es más eficiente que Θ
insesgados de θ, se dice que Θ b 2 si Var(Θ
b 1 ) ≤Var(Θ
b 2 ), cumpliéndose
la desigualdad en el sentido estricto para algún valor de θ. Es muy común utilizar el
b 1 )/Var(Θ
cociente Var(Θ b 2 ) para determinar la eficiencia relativa de Θ
b 1 respecto a Θ
b 2 . Si
los estimadores son sesgados, las eficiencias relativas se calculan con los respectivos errores
cuadráticos medios.
Pero, dicho todo esto, seguimos teniendo un problema. Una vez que tenemos un
estimador y conocemos su varianza, ¿cómo podemos saber si existe otro estimador con
una varianza más pequeña? Para resolverlo, recurrimos al siguiente teorema.
13.2.5.1. Teorema (Cota de Cramér-Rao)
Dada una P.M. con función de densidad f (x, θ) y una muestra aleatoria simple de
b es un estimador de θ, entonces se cumple
tamaño n, {x1 , . . . , xn }, si Θ
b ≥ (1 + b′ (θ))2 (1 + b′ (θ))2 − (1 + b′ (θ))2

Var(Θ) 2 = " 2 # = 2
∂Ln L(x1 , . . . , xn , θ) ∂Ln f (x, θ) ∂ Ln f (x, θ)
E nE nE
∂θ ∂θ ∂2θ
b y L(x1 , . . . , xn , θ) la función de verosimilitud de la muestra.

siendo b(θ) el sesgo de Θ
La primera expresión a la derecha de la desigualdad se conoce como cota de Cramér-
Rao. El resto de igualdades representan distintas versiones, generalmente más sencillas
de calcular, de dicha cota. Lo primero que debemos observar es que, si el estimador es
insesgado, entonces b(θ) = 0.
La cota de Cramér-Rao establece un lı́mite inferior para la varianza de cualquier
estimador de θ. Esto no implica necesariamente que deba existir un estimador de θ cuya
varianza coincida con la cota de Cramér-Rao. Es decir, es posible encontrar un estimador
de θ que tenga la varianza más pequeña posible de entre todos los estimadores de θ, pero
cuya varianza sea más grande que el lı́mite inferior establecido por la cota de Cramér-Rao.
Este estimador, en el caso de que además fuera insesgado, seguirı́a siendo un estimador
insesgado de varianza mı́nima uniforme para θ.
Un estimador cuya varianza coincide con la cota de Cramér-Rao se dice que es un
estimador eficiente. Si, además, es insesgado, se llama estimador de eficiencia absoluta o
completa. De esta forma, un estimador de θ de eficiencia absoluta es el mejor estimador

de θ que se puede encontrar.
Ejemplo.- De una P.M.≡ N(µ, σ), con σ conocido y θ = µ desconocido, se extrae una m.a.s.
de tamaño n, {x1 , . . . , xn }. Como estimador de la media de la población, utilizamos la
media muestral n
X
b = x̄ = 1
Θ xi
n i=1
√
de la que sabemos que su distribución es x̄ ≡ N(µ, σ/ n ). Por tanto,
E[x̄] = µ = θ =⇒ es insesgado =⇒ b(θ) = 0

σ2
Var(x̄) =
n
Vamos a calcular la cota de Cramér-Rao (CCR) de los estimadores insesgados de la
media de una población Normal.
1 −1
CCR = " 2 # = 2

∂Ln f (x, θ) ∂ Ln f (x, θ)
nE nE
∂θ ∂2θ
Como P.M.≡ N(µ, σ), su función de densidad es de la forma

1 1 2
f (x, θ) = √ e− 2σ2 (x−θ)
σ 2π
entonces
1 1
Ln f (x, θ) = Ln √ − (x − θ)2
σ 2π 2σ 2
∂Ln f (x, θ) 1
= 2 (x − θ)
∂θ σ
∂ 2 Ln f (x, θ) 1
2
=− 2
∂ θ σ

∂ 2 Ln f (x, θ) 1 1
E 2
=E − 2 =− 2
∂ θ σ σ
Por tanto,
−1 σ2
CCR = =
∂ 2 Ln f (x, θ) n
nE 2
∂ θ
Es decir,
Var(x̄) = CCR
170 Estadı́stica
y, además, x̄ es insesgado. Entonces, la media muestral de una población Normal es un

estimador de eficiencia absoluta de la media poblacional.
Por último, hay que señalar que, como se ha visto en este ejemplo, para calcular la
cota de Cramér-Rao es necesario conocer la distribución de la P.M.
13.3. Métodos de estimación puntual

En las secciones anteriores hemos comentado ampliamente las propiedades que debe
tener un buen estimador. Incluso hemos visto, a través de los ejemplos, que un estima-
dor de la media poblacional podrı́a ser la media muestral, un estimador de la varianza
poblacional podrı́a ser la varianza muestral, y un estimador de la proporción de éxitos
de la población podrı́a ser la proporción de éxitos de la muestra. Pero, ¿qué ocurre si el
parámetro θ de la población no es ni su media, ni su varianza ni su proporción de éxitos?
Por ejemplo, si la P.M. tiene una función de densidad
θ
f (x, θ) = x ≥ 0, θ > 0
(1 + x)1+θ
En este caso, θ no es ninguno de los parámetros “conocidos”, por tanto, en un
principio, no tenemos ninguna pista sobre cómo podrı́a ser un estimador de θ. En esta
sección vamos a dar dos métodos para obtener un estimador de cualquier parámetro
poblacional θ.
13.3.1. Método de máxima verosimilitud

La idea en la que se basa este método es muy sencilla y, además, bastante lógica. Si
de una población cualquiera he obtenido una muestra en particular, es razonable pensar
que la muestra obtenida es la que mayor probabilidad tenı́a de salir. Veamos esta idea
con un ejemplo
Ejemplo.- Una urna contiene bolas rojas y blancas con una proporción de bolas rojas, p,
desconocida. Extraemos 10 bolas con reemplazamiento (m.a.s. de tamaño n = 10) con el
resultado de 3 bolas rojas y 7 blancas. Parece lógico pensar que el hecho de que en la
muestra aparezcan 3 bolas rojas de 10 es porque, según la proporción real de bolas rojas
que hay en la urna, es más probable que salgan 3 rojas a que salgan 5 ó 9. Es decir, la
muestra que ha salido es la que mayor probabilidad tenı́a de salir. Vamos a trasladar este
razonamiento a números. La probabilidad de que salga la muestra que ha salido (o sea,
la función de verosimilitud de la muestra) es
10!
L(p) = p3 (1 − p)7 P R3,7
10
= p3 (1 − p)7
3! 7!
Para calcular el valor de p que hace que esta probabilidad sea máxima, basta con
derivar respecto de p e igualar a 0.
∂L(p) 2 10! 10!

= 3p (1 − p)7 − 7p3 (1 − p)6 = p2 (1 − p)6 [3 − 10p] =0
∂p 3! 7! 3! 7!
Entonces, se pueden dar 3 casos
• p=0 imposible, pues hay al menos una bola roja

• p=1 imposible, pues hay al menos una bola blanca

∂ 2 L(p)
• p = 3/10 además, <0
∂ 2 p p=3/10
Es decir, si en la muestra han salido 3 bolas rojas de las 10 muestreadas, el valor de
p que hace de esta muestra la más probable es p = 3/10.
Ahora, vamos a generalizar este ejemplo al caso de una P.M. cualquiera, con función
de densidad f (x, θ), siendo θ un parámetro cualquiera de la población. Extraemos una
m.a.s. de tamaño n, {x1 , . . . , xn }. La función de verosimilitud de la muestra, por ser
muestra extraı́da con reemplazamiento, viene dada por
L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ)
La máxima verosimilitud puede obtenerse derivando L con respecto a θ e igualando

a cero. Para ello, es conveniente tomar primero logaritmos y luego derivar, ya que la
función logaritmo es estrictamente creciente. Ası́, obtenemos θ en términos de los xi .
El método puede generalizarse para el caso en que existan varios parámetros pobla-
cionales a estimar. Ahora, se toman las derivadas parciales respecto a cada uno de los
parámetros, se igualan a cero y se resuelven las ecuaciones resultantes.
Ejemplo.- De una P.M. con función de densidad
θ
f (x, θ) = x ≥ 0, θ > 0
(1 + x)1+θ
b de θ. La
extraemos una m.a.s. de tamaño n, {x1 , . . . , xn }, para calcular un estimador, Θ,
función de verosimilitud de la muestra es
θn
L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ) = n
Y
(1 + xi )1+θ
i=1
172 Estadı́stica
Antes de derivar, tomamos logaritmos

n
Y n
X
n 1+θ
Ln L(x1 , . . . , xn , θ) = Ln θ − Ln (1 + xi ) = nLn θ − (1 + θ) Ln (1 + xi )
i=1 i=1
n
∂Ln L(x1 , . . . , xn , θ) n X b= n
= − Ln (1 + xi ) = 0 =⇒ Θ n
∂θ θ X
i=1
Ln (1 + xi )
i=1

∂ 2 Ln L(x1 , . . . , xn , θ) n
=− <0
2
∂ θ b
θ=Θ
b2
Θ
Por tanto, el estimador de máxima verosimilitud (EMV) de θ viene dado por
b= n
Θ n
X
Ln (1 + xi )
i=1
Hay que señalar que no siempre es posible aplicar el método de máxima verosimilitud
para calcular un estimador (ver Sec. 13.3.2).
13.3.2. Propiedades de los estimadores de máxima verosimilitud

En esta sección vamos a enumerar una serie de propiedades o teoremas que verifican
los estimadores de máxima verosimilitud (EMV), comenzando con una definición sobre
las condiciones en las que se puede aplicar el método de máxima verosimilitud.
• Condiciones de regularidad de Fisher-Wolfowitz
1.- La P.M. de la que procede la muestra tiene un campo de variación que no

depende del parámetro θ, y, por tanto, la muestra tampoco.
2.- La función de verosimilitud de la muestra admite, por lo menos, las derivadas
de primer y segundo orden respecto del parámetro θ.
3.- Las operaciones de derivación e integración (o suma, en el caso de v.a. discretas)
son intercambiables.
• Bajo condiciones de regularidad, los EMV son consistentes.
b entonces el EMV de θ es fun-

• Si un parámetro θ posee un estimador suficiente, Θ,
b Esto no implica que todos los EMV sean suficientes, pues no todos los
ción de Θ.
parámetros poblacionales poseen un estimador suficiente.
• Los EMV no siempre son insesgados, pero sı́ son asintóticamente insesgados, es decir
lı́m b(θ) = 0
n→∞
• Bajo condiciones de regularidad, si existe un estimador eficiente de θ, éste coincide

con el obtenido por el método de máxima verosimilitud. De nuevo, esto no implica
que todos los EMV sean eficientes.
• Bajo condiciones de regularidad, los EMV son asintóticamente eficientes y asintóti-

b es el EMV de θ, entonces
camente Normales. Es decir, si Θ
!
b ≡ N θ, p 1
lı́m Θ
n→∞ I(θ)
siendo " 2 #
∂Ln L(x1 , . . . , xn , θ)
I(θ) = E
∂θ
b es el EMV de θ, entonces g(Θ)

• Si Θ b es el EMV de g(θ), siempre que g sea continua
y biunı́voca.
13.3.3. Método de los momentos

Este método consiste en igualar los momentos de la distribución de la P.M., con
los correspondientes momentos muestrales, teniendo en cuenta que, para una m.a.s. de
tamaño n, {x1 , . . . , xn }, el momento centrado en el origen de orden r es
n
1X r
mr = x
n i=1 i
Ejemplo.- De una P.M. con función de densidad

θ
f (x, θ) = x ≥ 0, θ > 0
(1 + x)1+θ
b de θ.
extraemos una m.a.s. de tamaño n, {x1 , . . . , xn }, para calcular un estimador, Θ,
Los momentos de primer orden de la población y la muestra son,
Z +∞ Z +∞
θ 1
E[P.M.] = xf (x, θ) dx = x 1+θ
dx = (θ > 1)
−∞ 0 (1 + x) θ−1
n
1X
m1 = xi
n i=1
174 Estadı́stica
e, igualando,
n
1 1X b= n
= xi =⇒ Θ n +1
θ−1 n i=1 X
xi
i=1
Como se puede comprobar, el estimador obtenido por el método de máxima verosi-

militud puede no coincidir con el obtenido por el método de los momentos.
13.4. Estimación por intervalo de confianza

En lugar de hacer una estimación puntual del parámetro poblacional θ, se pretende
dar un intervalo en el que se tiene cierta probabilidad (confianza) de que se encuentre el
verdadero valor de θ. Es decir, un intervalo de confianza del parámetro θ es de la forma
θb − e < θ < θb + e
donde, generalmente, θb es una estimación puntual de θ, obtenida con el estimador puntual

b Se llama amplitud del intervalo o margen de error, al tamaño del intervalo, 2e.
Θ.
Cuando calculamos un intervalo para un parámetro poblacional θ, también debemos
dar una medida de la bondad de la estimación, es decir, la probabilidad de que el valor
del parámetro θ se encuentre realmente dentro del intervalo construido. Ası́, si
P (θb − e < θ < θb + e) = 1 − α
decimos que el intervalo (θb − e, θb + e) es un intervalo de confianza del (1 − α)100 %. La

fracción (1 − α) recibe el nombre de coeficiente de confianza o grado de confianza; y los
puntos extremos, θb − e y θb + e, se llaman lı́mites de confianza.
Se llama nivel de significación (N.S.) a la probabilidad de que el verdadero valor de
θ esté fuera del intervalo de confianza, es decir
N.S. = α100 %
De esta forma, tenemos distintos niveles de significación, según el grado de confianza

obtenido. Algunos de ellos tienen nombre propio, por ejemplo
• Confianza Casi Significativa
Confianza = 1 − α = 95 %
N.S. = α = 5 %
• Confianza Significativa
Confianza = 1 − α = 99 %
N.S. = α = 1 %
• Confianza Muy Significativa
Confianza = 1 − α = 99.5 %
N.S. = α = 0.5 %
Por último, se habla de seguridad estadı́stica cuando se trabaja con un intervalo de

confianza del tipo
θb − 3σΘb < θ < θb + 3σΘb

b
siendo σΘb la desviación tı́pica del estadı́stico Θ.
En las secciones siguientes vamos a construir el intervalo de confianza de varios
parámetros poblacionales tales como la media, la varianza o la proporción de éxitos,
siguiendo siempre el mismo esquema:
1.- Se definirá la distribución de la P.M.
b del parámetro poblacional θ. Si es posible,

2.- Se definirá un estimador puntual, Θ,
estimador insesgado.
b En cualquier caso, se
3.- Cuando sea posible, se definirá la distribución de la v.a. Θ.
contará con la media y la varianza del estimador, µ b =E(Θ)b y σ 2 =Var(Θ).
b
Θ b
Θ
4.- Fijado un nivel de confianza, (1 − α)100 %, se construirá un intervalo de confianza,

partiendo de el hecho de que
b − θ| ≤ k) = 1 − α
P (|Θ
Cuando la distribución de Θ b sea conocida, buscaremos en las tablas apropiadas el

b sea desconocida, calcularemos k aplicando
valor de k y, cuando la distribución de Θ
el teorema de Chebychev.
176 Estadı́stica
13.4.1. Intervalo de confianza para la media

Dada un P.M. con media µ, como estimador puntual de la media de la población,
se utiliza la media de la muestra
n
1X
x̄ = xi
n i=1
13.4.1.1. P.M. ≡ N(µ, σ) con σ conocido
Si tenemos una muestra de tamaño n, entonces el estadı́stico media muestral sigue

√
una distribución x̄ ≡ N(µ, σ/ n ). Tipificando la variable,
x̄ − µ
√ ≡ N(0, 1)
σ/ n
entonces,
x̄ − µ
P −zα/2 < √ < zα/2 = 1 − α
σ/ n
es decir
σ σ
P x̄ − √ zα/2 < µ < x̄ + √ zα/2 = 1 − α
n n
siendo zα/2 , el número real que deja un área de α/2 unidades a su derecha en una N(0, 1)
(Fig. 13.1).
Por tanto, una estimación puntual de la media poblacional µ, se obtiene seleccio-
nando una muestra aleatoria simple de tamaño n, y calculando su media x̄. Mientras que
un intervalo de confianza del (1 − α)100 % para la media poblacional viene dado por
σ σ
x̄ − √ zα/2 < µ < x̄ + √ zα/2
n n
La semiamplitud del intervalo es
σ
e = √ zα/2
n
Si e es un dato del problema, podemos determinar el tamaño de la muestra adecuado

al nivel de confianza pedido, por medio de la expresión
σ 2
n= zα/2
e
Figura 13.1: P (−zα/2 < N(0, 1) < zα/2 ) = 1 − α
13.4.1.2. P.M. ≡ N(µ, σ) con σ desconocido
Si x̄ y s son la media y la desviación tı́pica de una muestra aleatoria simple de

tamaño n obtenida de una población Normal con varianza σ 2 desconocida, entonces
x̄ − µ
√ ≡ tn−1
s/ n
entonces,
x̄ − µ
P −tα/2 < √ < tα/2 = 1−α
s/ n
es decir
s s
P x̄ − √ tα/2 < µ < x̄ + √ tα/2 = 1 − α
n n
siendo tα/2 , el número real que deja un área de α/2 unidades a su derecha en una tn−1
(Fig. 13.2).
Por tanto, un intervalo de confianza del (1 − α)100 % para la media poblacional
viene dado por
s s
x̄ − √ tα/2 < µ < x̄ + √ tα/2
n n
178 Estadı́stica
Figura 13.2: P (−tα/2 < tn−1 < tα/2 ) = 1 − α
13.4.1.3. P.M. ≡ ?(µ, σ) con σ conocido y n > 30
Aun cuando la forma de la P.M. sea desconocida o no Normal, si el tamaño de la

muestra es suficientemente grande, n > 30, sabemos que
x̄ − µ ∼
√ = N(0, 1)
σ/ n
y, por tanto, un intervalo de confianza del (1 − α)100 % para la media poblacional viene
dado por
σ σ
x̄ − √ zα/2 < µ < x̄ + √ zα/2
n n
13.4.1.4. P.M. ≡ ?(µ, σ) con σ conocido y n < 30
Del estadı́stico media muestral sólo sabemos que su esperanza es E[x̄] = µ y su

varianza es Var(x̄) = σ 2 /n, pero no conocemos su distribución, por lo que sólo podemos
aplicar el Teorema de Chebychev.

σ σ
P x̄ − √ k < µ < x̄ + √ k ≥ 1 − αk
n n
siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media
poblacional viene dado por
σ σ
x̄ − √ k < µ < x̄ + √ k
n n
13.4.1.5. P.M. ≡ ?(µ, σ) con σ desconocido y n > 30
Si x̄ y s son la media y la desviación tı́pica de una muestra aleatoria simple de

tamaño n > 30 obtenida de una población desconocida o no Normal, con varianza σ 2
desconocida, entonces se puede aproximar σ 2 ≃ s2 y,
x̄ − µ ∼
√ = N(0, 1)
s/ n
y, por tanto, un intervalo de confianza del (1 − α)100 % para µ es
s s
x̄ − √ zα/2 < µ < x̄ + √ zα/2
n n
13.4.1.6. P.M. ≡ ?(µ, σ) con σ desconocido y n < 30
Es el único caso en el que no poseemos herramientas suficientes para obtener un

intervalo de confianza válido para la media. En cualquier caso, como estimación puntual
de µ, siempre es válida la media muestral, sea cual sea el tamaño de la muestra.
13.4.2. Intervalo de confianza para la varianza
13.4.2.1. P.M. ≡ N(µ, σ) con µ desconocido
Dada un P.M.≡ N(µ, σ) con media µ desconocida, como estimador puntual de la

varianza de la población, se utiliza la varianza de la muestra
n
2 1 X
s = (xi − x̄)2
n − 1 i=1
En la sección 12.4, comprobamos que
(n − 1)s2
2
≡ χ2n−1
σ
Entonces, se puede escribir

2 (n − 1)s2 2
P χ1−α/2 < < χα/2 = 1 − α
σ2
180 Estadı́stica
Figura 13.3: P (χ21−α/2 < χ2n−1 < χ2α/2 ) = 1 − α
o bien
!
2 2
(n − 1)s (n − 1)s
P 2
< σ2 < = 1−α
χα/2 χ21−α/2
donde χ21−α/2 y χ2α/2 son los valores de la distribución χ2n−1 que dejan áreas de 1 − α/2 y
α/2, respectivamente, a su derecha (Fig. 13.3)
Por tanto, un intervalo de confianza del (1 − α)100 % para la varianza muestral de
una población Normal viene dado por
(n − 1)s2 2 (n − 1)s2
< σ <
χ2α/2 χ21−α/2
13.4.3. Intervalo de confianza para la diferencia de medias

Suponemos dos poblaciones, X e Y , con distribuciones X ≡ N(µx , σx ) e Y ≡
N(µy , σy ). De cada una de ellas extraemos una muestra de tamaños n y m, respectivamen-
√
te. El estadı́stico media de la primera muestra será x̄ ≡ N (µx , σx / n), y el estadı́stico
√
media de la segunda muestra será ȳ ≡ N (µy , σy / m)
Una estimación puntual de la diferencia de medias, (µx − µy ), viene dada por la

diferencia de las medias de las muestras,
n m
1X 1 X
x̄ − ȳ = xi − yi
n i=1 m i=1
Para obtener un intervalo de confianza, debemos tener en cuenta si las varianzas son
conocidas.
13.4.3.1. P.M. Normales con σx y σy conocidas
En este caso,
(x̄ − ȳ) − (µx − µy )

q ≡ N(0, 1)
σx2 σy2
n
+ m
Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es
r r
σx2 σy2 σx2 σy2
(x̄ − ȳ) − + zα/2 < µx − µy < (x̄ − ȳ) + + zα/2
n m n m
13.4.3.2. P.M. Normales con σx2 = σy2 = σ 2 desconocida
En este caso, hemos visto que
(x̄ − ȳ) − (µx − µy )

r ≡ tn+m−2
1 1
Sp +
n m
siendo s
(n − 1)s2x + (m − 1)s2y
Sp =
n+m−2
r r
1 1 1 1
(x̄ − ȳ) − Sp + tα/2 < (µx − µy ) < (x̄ − ȳ) + Sp + tα/2
n m n m
siendo tα/2 , el número real que deja un área de α/2 unidades a su derecha en una tn+m−2 .
182 Estadı́stica
13.4.3.3. P.M. Normales con σx2 6= σy2 desconocidas
En este caso, hemos visto que
(x̄ − ȳ) − (µx − µy ) ∼

r = tγ
s2x s2y
+
n m
siendo
(A + B)2 s2x s2y
γ= A= , B=
A2 B2 n m
+
n−1 m−1
r r
s2x s2y s2x s2y
(x̄ − ȳ) − + tα/2 < (µx − µy ) < (x̄ − ȳ) + + tα/2
n m n m
siendo tα/2 , el número real que deja un área de α/2 unidades a su derecha en una tγ
13.4.4. Intervalo de confianza para el cociente de varianzas

Suponemos dos poblaciones, X e Y , con distribuciones X ≡ N(µx , σx ) e Y ≡
N(µy , σy ). De cada una de ellas extraemos una muestra de tamaños n y m, respecti-
vamente. Sean s2x y s2y las varianzas de las muestras. Una estimación puntual del cociente
de varianzas, σx2 /σy2 , viene dada por el cociente de las varianzas de las muestras
n
X
1
n−1
(xi − x̄)2
s2x i=1
= m
s2y X
1
m−1
(yi − ȳ)2
i=1
Para obtener un intervalo de confianza, consideramos el estadı́stico
s2x /σx2
≡ Fn−1,m−1
s2y /σy2
Entonces,

s2 /σ 2
P f1−α/2 (n − 1, m − 1) < x2 x2 < fα/2 (n − 1, m − 1) =1−α
sy /σy
siendo f1−α/2 (n − 1, m − 1) y fα/2 (n − 1, m − 1), los números reales que dejan un área de
1 − α/2 y α/2 unidades a su derecha, respectivamente, en una Fn−1,m−1 (Fig. 13.4).
O bien,
Figura 13.4: P (f1−α/2 < Fn−1,m−1 < fα/2 ) = 1 − α

s2x 1 σx2 s2x 1
P < < =1−α
s2y fα/2 (n − 1, m − 1) σy2 s2y f1−α/2 (n − 1, m − 1)
Utilizando las propiedades de la distribución F-Snedecor, también se puede escribir
como

s2x 1 σx2 s2x
P < < fα/2 (m − 1, n − 1) = 1−α
s2y fα/2 (n − 1, m − 1) σy2 s2y
Entonces un intervalo de confianza del (1 − α)100 % para el cociente de varianzas
poblacionales viene dado por
s2x 1 σx2 s2x

< < fα/2 (m − 1, n − 1)
s2y fα/2 (n − 1, m − 1) σy2 s2y
13.4.5. Intervalo de confianza para la proporción poblacional

Partimos de una P.M. Binomial de parámetro p, es decir, p es la proporción de éxitos
de la Población. Extraemos una m.a.s. {x1 , . . . , xn } y asignamos los valores
(
1 si es éxito
xi =
0 si es fracaso
184 Estadı́stica
es decir, cada v.a. xi ≡ B(1, p)

Sean las v.a.
X ≡ número de éxitos de la muestra
pb ≡ proporción de éxitos de la muestra
Una estimación puntual de la proporción de éxitos de la población viene dada por

la proporción de éxitos de la muestra
n
1X
pb = xi
n i=1
Para encontrar un intervalo de confianza, tenemos en cuenta el tamaño de la muestra.
13.4.5.1. P.M. Binomial y n > 30
Si el tamaño de la muestra es suficientemente grande, entonces

r !
p(1 − p)
pb ≃ N p,
n
y,
 
 pb − p 
P
−zα/2 < r < zα/2
= 1−α

p(1 − p)
n
Por tanto,
r r !
p(1 − p) p(1 − p)
P pb − zα/2 < p < pb + zα/2 = 1−α
n n
Podrı́amos decir que un intervalo de confianza del (1 − α)100 % para la proporción
de éxitos de la población viene dado por
r r
p(1 − p) p(1 − p)
pb − zα/2 < p < pb + zα/2
n n
pero esto no sirve de mucho pues como no conocemos el valor de p, no se pueden calcular
los lı́mites del intervalo. Para resolver este problema se puede proceder de dos formas.
• Una solución consiste en aproximar el valor de p por el valor de la proporción

muestral. Por tanto, un intervalo de confianza del (1 − α)100 % para la proporción
de éxitos de la población viene dado por
r r
pb(1 − pb) pb(1 − pb)
pb − zα/2 < p < pb + zα/2
n n
• Otro método consiste en utilizar como valor aproximado del producto p(1 − p), su
máximo valor posible. Ası́,
1 1
y = p(1 − p) ⇒ y ′ = 1 − 2p = 0 ⇒ p = ⇒ p(1 − p) =
2 4
Entonces, un intervalo de confianza del (1 − α)100 % para la proporción de éxitos
viene dado por
r r
1 1
pb − zα/2 < p < pb + zα/2
4n 4n
13.5. Intervalo de confianza asintótico

Si θ es cualquier parámetro de una población, Θ b MV es su estimador de máxima
verosimilitud y θbMV es su estimación de máxima verosimilitud entonces, Θ
b MV es asintóti-
camente Normal con parámetros
b MV ] −→ θ
µΘb MV = E[Θ
2 b MV ) −→ −1
σΘ = Var(Θ
b MV ∂ LnL(x1 , . . . , xn ; θ)
2
∂θ2 b
θ=θMV
donde LnL(x1 , . . . , xn ; θ) es el logaritmo neperiano de la función de verosimilitud de la

muestra. Por tanto, si la muestra es suficientemente grande, podemos construir un inter-
valo de confianza para el parámetro θ de la forma habitual, teniendo en cuenta que
b MV − µ b
Θ ΘMV ∼
= N(0, 1)
σΘb MV
entonces !
b MV − µ b
Θ ΘMV
P −zα/2 < < zα/2 =1−α
σΘb MV
186 Estadı́stica
es decir,
θbMV − zα/2 σΘb MV < θ < θbMV + zα/2 σΘb MV
Un inconveniente de este método general es que la convergencia de la distribución de
b MV hacia la Normal puede ser muy lenta y entonces el intervalo de confianza será poco
Θ
preciso. Esto no ocurre cuando θ es un parámetro de centralización.
Ejemplo.- Vamos a obtener el intervalo de confianza asintótico del parámetro λ de una
población Exponencial
Dada la P.M. = X ≡ Exp(λ), entonces
f (x, λ) = λe−λx
1 1
µ = E[X] = σ 2 = Var(X) = 2
λ λ
i) Obtenemos el estimador de máxima verosimilitud de λ
La función de verosimilitud de una muestra de tamaño n es
P
L(x1 , . . . , xn ; λ) = f (x1 , λ) × · · · × f (xn , λ) = λn e−λ xi
Obtenemos el logaritmo neperiano

P
Ln L(x1 , . . . , xn ; λ) = nLn λ − λ xi
Entonces
∂Ln L n P P
= − xi = 0 =⇒ n−λ xi = 0 =⇒
∂λ λ
b n 1
λMV = P =
xi x̄
ii) Realizamos las aproximaciones
bMV ] ≃ λ
E[λ
bMV ) ≃ −1 −1 1
Var(λ
∂ LnL
2 = n =
nx̄2
− 2
∂λ2 bMV
λ=λ
λ λ=λbMV
iii) Si el tamaño de la muestra es suficientemente grande, un intervalo de confianza del

(1 − α) % para el parámetro λ de una población Exponencial es
1 1 1 1
− zα/2 √ < λ < + zα/2 √
x̄ x̄ n x̄ x̄ n
Teorı́a de muestras
14 de población finita
Índice
14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
14.2. Distribuciones de muestreo . . . . . . . . . . . . . . . . . . . . 189
14.2.1. Estadı́stico media muestral . . . . . . . . . . . . . . . . . . . . 189
14.2.2. Estadı́stico varianza muestral . . . . . . . . . . . . . . . . . . . 191
14.2.3. Estadı́stico proporción muestral . . . . . . . . . . . . . . . . . . 193
14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . 194
14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . 194
14.3.1.1. P.M. ≡ ?(µ, σ) con σ conocido . . . . . . . . . . . . . 195
14.3.1.2. P.M. ≡ ?(µ, σ) con σ desconocido . . . . . . . . . . . 195
14.3.2. Intervalo de confianza para la proporción poblacional . . . . . . 195
187
188 Estadı́stica
A lo largo de este capı́tulo supondremos que la muestra aleatoria se ha realizado
sin reemplazamiento o, lo que es equivalente, se han extraı́do los n elementos a la vez. Es
importante resaltar dos cosas:
• Si la muestra se extrae sin reemplazamiento, las v.a. {x1 , . . . , xn } que representan a

la muestra no son independientes, pues cada extracción depende de las extracciones
anteriores y, además, no están idénticamente distribuidas, pues en cada extracción
la configuración de la población es distinta. Por tanto, por muy grande que sea el
tamaño de la muestra, en ningún caso estaremos en condiciones de aplicar el Teorema
de Levy-Lindeberg. Es decir, en ningún caso podremos aproximar la distribución del
estadı́stico muestral por una distribución Normal. Por otra parte, el conocimiento
de la distribución poblacional es, en la mayorı́a de los casos, irrelevante.
• Aunque la diferencia teórica entre la teorı́a de población infinita y población finita

radica en el método de extracción de la muestra (con o sin reemplazamiento), en la
práctica, casi todas las muestras se realizan sin reemplazamiento. Al fin y al cabo
serı́a una pérdida de tiempo y de dinero inspeccionar dos veces el mismo elemento
de la población. ¿Cómo se diferencian entonces en la práctica? Veamos un ejemplo.
Supongamos que queremos estimar la proporción de éxitos, p1 y p2 , de dos po-
blaciones. En el primer caso, la población la constituyen los 34 millones de es-
pañoles con derecho a voto. Extraemos una muestra aleatoria, sin reemplazamien-
to, de 1000 personas. Extraemos el primer elemento, lo examinamos, y lo deja-
mos fuera. Cuando vamos a extraer el segundo elemento, la población consta de
34.000.000 − 1 ≃ 34.000.000 elementos y la proporción de éxitos de la “nueva” po-
blación es ≃ p1 , por tanto, podemos considerar que x1 y x2 provienen de la misma
P.M. y, además, son independientes. Cuando vamos a extraer el tercer elemento,
la población consta de 34.000.000 − 2 ≃ 34.000.000 elementos y la proporción de
éxitos de la “nueva” población es ≃ p1 , por tanto, podemos considerar que x1 , x2 y
x3 provienen de la misma P.M. y, además, son independientes. Y ası́ sucesivamente.
Por tanto, en este caso, no importa cómo se haya extraı́do la muestra, pues siempre
podremos considerar que {x1 , . . . , x1000 } son independientes y están idénticamen-
te distribuidas. En el segundo caso, supongamos que tenemos que inspeccionar un
lote de 50 piezas. Extraemos una muestra aleatoria, sin reemplazamiento, de 20
piezas. Claramente, ahora cada extracción realizada modifica la composición de la
14 Teorı́a de muestras de población finita 189
población, tanto en tamaño como en proporción de piezas defectuosas, y, por tanto,

{x1 , . . . , x20 } no son independientes ni están idénticamente distribuidas.
Como conclusión, en la práctica, lo que diferencia una muestra con reemplazamiento
de otra sin reemplazamiento, es la relación entre el tamaño de la población y el
tamaño de la propia muestra. Un criterio de uso generalizado es considerar como
m.a.s. toda muestra que cumpla la relación n/N < 0.10.
A lo largo de este capı́tulo supondremos que la muestra la componen n v.a. que no

son independientes ni están idénticamente distribuidas. La nomenclatura empleada a lo
largo de este capı́tulo es la siguiente
• Población Madre formada por N elementos {X1 , X2 , . . . , XN }

N
1 X
• Media Poblacional µ = Xi
N i=1
N
1 X
• Varianza Poblacional σ = 2
(Xi − µ)2
N i=1
• Muestra sin reemplazamiento formada por n elementos {x1 , x2 , . . . , xn }

n
1X
• Media Muestral x̄ = xi
n i=1
n
1 X
• Varianza Muestral s = 2
(xi − x̄)2
n − 1 i=1
14.2. Distribuciones de muestreo
14.2.1. Estadı́stico media muestral
n
1X
x̄ = xi
n i=1
Si llamamos η = x̄ y {z1 , . . . , zm } a los posibles valores que puede tomar η, entonces
!
N 1
m= y P (η = zi ) = !
n N
n
190 Estadı́stica
Por tanto,
m
X m
X
1 1
E[η] = zi P (η = zi ) = ! zi = ! (z1 + · · · + zm ) =
i=1 N i=1 N
n n
! !
N −1 N −1
(X1 + · · · + XN ) N
1 n−1 n−1 1X
= ! = ! Xi =
N n N n i=1
n n
N N
n1X 1 X
= Xi = Xi = µ
N n i=1 N i=1
Es decir,
E[x̄] = µ
Para calcular la varianza,

Var(η) = E (η − µη )2 = E[η 2 ] − (E[η])2
Pero
m
X m
X
1
2
• E[η ] = zi2 P (η = zi ) = ! zi2 =
i=1 N i=1
" ! N
! #
1 1 N −1 X N −2 X
= ! 2 Xi2 + 2 Xi Xj =
N n n−1 i=1 n−2 i<j
N
1 X 2 n−1 X
= Xi + 2 Xi Xj
nN i=1 Nn(N − 1) i<j
N
!2 N
!
2 1 X 1 X X
• (E[η]) = µ2 = Xi = 2 Xi2 + 2 Xi Xj
N i=1 N i=1 i<j
Entonces
X
N X
1 1 n−1 1
Var(η) = − 2 Xi2 +2 − 2 Xi Xj =
nN N i=1
Nn(N − 1) N i<j
N
N −nX 2 N −n X
= X − 2 Xi Xj =
nN 2 i=1 i nN 2 (N − 1) i<j
" N
#
N −n N −1X 2 2 X
= X − 2 Xi Xj =
n(N − 1) N 2 i=1 i N i<j
" X
N
#
N −n 1 1 2 X
= − 2 Xi2 − 2 Xi Xj =
n(N − 1) N N i=1
N i<j
N
" N
!#
N −n 1 X 2 1 X X
= Xi − 2 Xi2 + 2 Xi Xj =
n(N − 1) N i=1 N i=1 i<j
" N
# N
N −n 1 X 2 2 N −n 1 X 2
= Xi − X̄ = Xi − X̄ =
n(N − 1) N i=1 n(N − 1) N i=1
N −n 2
= σ
n(N − 1)
Es decir,
N −n 2
Var(x̄) = σ
n(N − 1)
N −n
Además, cuando N es grande con respecto a n, entonces N −1
→ 1 y la varianza del
estadı́stico media es igual que en el caso de población infinita.
Por tanto,
r
N −n
x̄ ≡ ? µ, σ
n(N − 1)
14.2.2. Estadı́stico varianza muestral
n
2 1 X
s = (xi − x̄)2
n − 1 i=1
192 Estadı́stica
Si llamamos η = s2 y {z1 , . . . , zm } a los posibles valores que puede tomar η, entonces

!
N
m=
n
y
1 X 1X 1
z1 = (Xi − x̄1 )2 −→ x̄1 = Xi −→ P (η = z1 ) = !
n−1 n N
n
1 X 1X 1
z2 = (Xi − x̄2 )2 −→ x̄2 = Xi −→ P (η = z2 ) = !
n−1 n N
n
..
.
1 X 1X 1
zm = (Xi − x̄m )2 −→ x̄m = Xi −→ P (η = zm ) = !
n−1 n N
n
donde cada zi es de la forma

1 X 2 1 X 2 2

zi = (Xi − x̄i ) = Xi − nx̄i
n−1 n−1
Entonces,
m
X z1 + · · · + zm
E[η] = zi P (η = zi ) = ! =
i=1 N
n
" ! N m
#
1 1 N −1 X X
= ! Xi2 −n x̄2i =
N n−1 n−1 i=1 i=1
" ! N
1 1 N −1 X
= ! Xi2 −
N n−1 n−1 i=1
! N
! !#
1 N −1 X N −2 X
− n 2 Xi2 + 2 Xi Xj =
n n−1 i=1 n−2 i<j
N
n 1 n−1X 2 n(n − 1) 1 1 X
= Xi − 2 Xi Xj =
N n − 1 n i=1 N(N − 1) n − 1 n i<j
N
1 X 2 2 X N
= Xi − Xi Xj = σ2
N i=1 N(N − 1) i<j N −1
Por tanto,
N
E[s2 ] = σ2
N −1
14.2.3. Estadı́stico proporción muestral

Tenemos una P.M. ≡ B(1, p) de N elementos, {X1 , . . . , Xi }, entre los cuales hay A
éxitos y (N − A) fracasos; siendo
A
p = P (éxito) = proporción de éxitos de la P.M. =
N
q = P (fracaso) = proporción de fracasos de la P.M. = 1 − p

por tanto,
µ = E[P.M.] = p y σ 2 = Var(P.M.) = p(1 − p)
194 Estadı́stica
Sacamos una muestra aleatoria sin reemplazamiento, {x1 , . . . , xn }, entre los cuales
hay a éxitos y (n − a) fracasos; siendo
a
pb = P (éxito) = proporción de éxitos de la muestra =
n
qb = P (fracaso) = proporción de fracasos de la muestra = 1 − pb
A cada elemento de la muestra le asignamos el valor



 1 si es éxito

xi =


 0 si es fracaso
entonces n
1X
pb = xi = x̄
n i=1
es decir, la proporción muestral no es más que la media muestral por lo que podemos
aplicar los resultados de la sección 14.2.1. Ası́
E[b
p] = E[x̄] = µ = p
N −n 2 N −n
Var(b
p) = Var(x̄) = σ = p(1 − p)
n(N − 1) n(N − 1)
Por tanto,
r
N −n
pb ≡ ? p, p(1 − p)
n(N − 1)
14.3. Intervalos de confianza
14.3.1. Intervalo de confianza para la media poblacional

Dada un P.M. con media µ, como estimador puntual de la media de la población,
se utiliza la media de la muestra
n
1X
x̄ = xi
n i=1
14.3.1.1. P.M. ≡ ?(µ, σ) con σ conocido
Atendiendo a lo dicho en el apartado 14.2.1, la distribución frecuencial del estadı́stico

media es
s !
N −n
x̄ ≡ ? µ, σ
n(N − 1)
Teniendo en cuenta que la única herramienta aplicable es Chebychev,
s s !
N −n N −n
P x̄ − σ k < µ < x̄ + σ k ≥ 1 − αk
n(N − 1) n(N − 1)
r r
N −n N −n
x̄ − σ k < µ < x̄ + σ k
n(N − 1) n(N − 1)
14.3.1.2. P.M. ≡ ?(µ, σ) con σ desconocido
Atendiendo a lo dicho en el apartado 14.2.2,

2 N 2 N −1 2
E[s ] = σ =⇒ E s = σ2
N −1 N
por tanto, podemos tomar como estimación de la varianza poblacional, el valor de la
N −1
varianza de la muestra, corregido por el factor N
. A partir de aquı́, estamos en las
mismas condiciones que en el apartado anterior. Ası́,
r r !
N −n N −n
P x̄ − s k < µ < x̄ + s k ≥ 1 − αk
nN nN
r r
N −n N −n
x̄ − s k < µ < x̄ + s k
nN nN
14.3.2. Intervalo de confianza para la proporción poblacional

Dada un P.M. con una proporción de éxitos p, como estimador puntual de dicho
parámetro se utilizará la proporción de éxitos de la muestra, pb.
196 Estadı́stica
Según lo dicho en el apartado 14.2.3

s !
N −n
pb ≡ ? p, p(1 − p)
n(N − 1)
Teniendo en cuenta que la única herramienta aplicable es Chebychev,
s s !
N −n N −n
P pb − p(1 − p) k < p < pb + p(1 − p) k ≥ 1 − αk
n(N − 1) n(N − 1)
siendo αk = 1/k 2 . Entonces, podrı́amos decir que un intervalo de confianza del (1 −

αk )100 % para la proporción de éxitos de la población vendrı́a dado por
s s
N −n N −n
pb − p(1 − p) k < p < pb + p(1 − p) k
n(N − 1) n(N − 1)
pero esto no sirve de mucho pues como no conocemos el valor de p, no se pueden calcular
los lı́mites del intervalo. Para resolver este problema, se puede proceder de dos formas.
• Una solución consiste en aproximar el valor de p por el valor de la proporción

muestral. Por tanto, un intervalo de confianza del (1 − αk )100 % para la proporción
de éxitos de la población es
r r
N −n N −n
pb − pb(1 − pb) k < p < pb + pb(1 − pb) k
n(N − 1) n(N − 1)
• Otro método consiste en utilizar como valor aproximado del producto p(1 − p), su
máximo valor posible. Ası́,
1 1
y = p(1 − p) ⇒ y ′ = 1 − 2p = 0 ⇒ p = ⇒ p(1 − p) =
2 4
Entonces, un intervalo de confianza del (1 − αk )100 % para la proporción de éxitos
viene dado por
r r
1 N −n 1 N −n
pb − k < p < pb + k
4 n(N − 1) 4 n(N − 1)
Contraste
15 de hipótesis
Índice
15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
15.2. Las hipótesis nula y alternativa . . . . . . . . . . . . . . . . . . 199
15.3. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
15.4. Nivel de significación y región crı́tica . . . . . . . . . . . . . . 204
15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
15.6. Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . 209
15.7. Contrastes para la media de una población . . . . . . . . . . . 209
15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . 210
15.7.1.1. Población Madre Normal o n ≥ 30 . . . . . . . . . . 210
15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . 211
15.7.2.1. Población Madre Normal . . . . . . . . . . . . . . . . 211
15.7.2.2. Población Madre no Normal . . . . . . . . . . . . . . 213
15.8. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . 213
15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . 213
15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . 213
15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . 213
15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . 214
15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . 214
15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . 215
15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . 215
15.10.1.Una población . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.10.2.Comparación de varianzas . . . . . . . . . . . . . . . . . . . . . 215
197
198 Estadı́stica
Con frecuencia, los problemas a los que nos enfrentamos no se refieren sólo a la
estimación de un parámetro poblacional. Se nos puede plantear el problema de rechazar o
aceptar cierta hipótesis realizada sobre una población, en base al estudio de una muestra
más pequeña. Los procedimientos que conducen a la aceptación o rechazo de una hipótesis
estadı́stica se enmarcan dentro de la llamada Teorı́a de la Decisión.
Una Hipótesis Estadı́stica es una afirmación o conjetura acerca de una o más po-
blaciones. Nunca se sabe con absoluta certeza la veracidad o falsedad de una hipótesis
estadı́stica, a no ser que se examine la población entera. Esto, por supuesto, es poco
práctico en la mayorı́a de las ocasiones. En su lugar, se toma una muestra aleatoria de la
población de interés, y se utilizan los datos de dicha muestra para obtener evidencias que
confirmen o no la hipótesis propuesta. La evidencia de la muestra que es inconsistente con
la hipótesis planteada conduce a un rechazo de la misma, mientras que la evidencia que
la apoya, conduce a su no rechazo.
Debe quedar claro que el diseño de un procedimiento de decisión debe llevarse a
cabo con la idea de la probabilidad de una conclusión equivocada. Por ejemplo, supon-
gamos que la hipótesis planteada es que la fracción, p, de artı́culos defectuosos en un
cierto proceso es de 0.10. El experimento consiste en observar una muestra aleatoria del
producto en cuestión. Supongamos, además, que se estudian 100 artı́culos y se encuen-
tran 12 defectuosos. Es razonable concluir que esta evidencia no refuta la hipótesis de
que p = 0.10, y entonces esto puede conducir a su aceptación. Sin embargo, tampoco
rebate que p = 0.12 o tal vez, incluso, que p = 0.15. Por tanto, debemos acostumbrarnos
a entender que la aceptación de una hipótesis implica tan sólo que los datos no
proporcionan evidencia suficiente para rechazarla. Por otra parte, el rechazo
de una hipótesis implica que la evidencia de la muestra la refuta. Dicho de otra
forma, el rechazo de una hipótesis significa que la probabilidad de que dicha
hipótesis sea cierta es muy pequeña. Por ejemplo, en la hipótesis de proporción de
defectos, de una muestra de 100 artı́culos, 20 son defectuosos. Esto es una evidencia para
rechazar la hipótesis, pues si en realidad fuese p = 0.10, la probabilidad de obtener 20 o
más artı́culos defectuosos es aproximadamente 0.0035. Con el pequeño riesgo de llegar a
una conclusión equivocada, parece lógico rechazar la hipótesis de que p = 0.10.
Generalmente, en este tipo de problemas, si queremos respaldar un argumento, lo
que debemos intentar es rechazar el argumento contrario. Es decir, si queremos mostrar
una evidencia contundente a favor del argumento de que tomar café aumenta el riesgo de
15 Contraste de hipótesis 199
infarto, la hipótesis a probar debe ser de la forma “no hay aumento en el riesgo de infarto
al tomar café”. Como resultado, el argumento se alcanza vı́a rechazo. De igual forma, para
respaldar la afirmación de que un tipo de medidor es más preciso que otro, se prueba con
la hipótesis de que no hay diferencia en la exactitud de los dos tipos de medidores.
15.2. Las hipótesis nula y alternativa

La estructura de la prueba de hipótesis se formula utilizando el término Hipótesis
Nula. Esto se refiere a cualquier hipótesis que se desee probar, y se representa por H0 .
El rechazo de H0 da como resultado la aceptación de una Hipótesis Alternativa, que se
representa por H1 .
Una hipótesis nula referente a un parámetro poblacional debe ser establecida de tal
forma que especifique un valor exacto del parámetro, mientras que la hipótesis alternativa
admite la posibilidad de varios valores. De aquı́ que, si H0 es la hipótesis nula p = 0.5 para
una población binomial, la hipótesis alternativa, H1 , serı́a una de las siguientes: p > 0.5,
p < 0.5 ó p 6= 0.5.
Una hipótesis como la hipótesis nula anterior, p = 0.5, que especifica un valor
exacto del parámetro se denomina simple, mientras que una hipótesis como cualquiera
de las hipótesis alternativas anteriores que no especifican un valor exacto del parámetro
se denomina compuesta. Conviene observar que, según lo dicho anteriormente no hay
diferencia entre el test H0 : p = 0.5 ; H1 : p > 0.5 y el test H0 : p ≤ 0.5 ; H1 : p > 0.5.
En ambos, aceptar H0 significa que no hay evidencia suficiente para creer que p > 0.5
y por tanto que H1 sea cierta. Rechazar la hipótesis nula significarı́a, por el contrario,
que la proporción p es superior a 0.5. Ası́, por simplicidad, la hipótesis nula se toma
siempre simple.
La hipótesis alternativa se clasifica como unilateral si conocemos en qué dirección
puede ser falsa H0 (los casos H1 : p > 0.5 ó H1 : p < 0.5) y bilateral si no podemos saber
la dirección (H1 : p 6= 0.5)
Para aclarar un poco los conceptos anteriormente expuestos, consideremos el siguien-
te ejemplo. Se sabe que, pasados 2 años, cierto tipo de vacuna es eficaz sólo en un 25 % de
los casos. Para verificar si una vacuna nueva y algo más cara es mejor que la anterior para
proporcionar protección contra el mismo virus durante un periodo más largo, se inyecta
en 20 personas elegidas al azar. Si más de 8 de los que recibieron la nueva vacuna superan
el periodo de 2 años sin contraer el virus, la nueva vacuna se considerará mejor que la
que se utiliza actualmente. El requisito de que el número exceda de 8 es algo arbitrario,
200 Estadı́stica
pero parece razonable en el sentido de que representa una pequeña ganancia respecto a
las 5 personas que podrı́a esperarse recibieran protección contra el virus, pasados 2 años,
si a las 20 personas se les hubiera inyectado la vacuna antigua. La hipótesis alternativa
es la de que la nueva vacuna es mejor que la antigua. Esto equivale a probar la hipótesis
de que el parámetro binomial para la probabilidad de un éxito en un intento es p = 1/4,
contra la alternativa de que p > 1/4. Por lo general, esto se escribe como sigue:
H0 : p = 1/4
H1 : p > 1/4
Recordemos que, en realidad, queremos rechazar la hipótesis nula de que las dos
vacunas son iguales. El estadı́stico de prueba sobre el cual se basa la decisión es X,
la cantidad de individuos en el grupo de prueba que reciben protección contra el virus
con la nueva vacuna, para un periodo de al menos 2 años, es decir X ≡ B(20, p). Los
posibles valores de X, de 0 a 20, se dividen en dos grupos: aquellos valores menores o
iguales que 8, y los que son mayores que 8. Todos los posibles valores mayores que 8
constituyen la llamada Región Crı́tica o de Rechazo, y todos los valores menores o iguales
que 8 constituyen la Región de Aceptación. El último valor que se tiene en la región de
aceptación antes de pasar a la región crı́tica (en este caso el 8), recibe el nombre de Valor
Crı́tico. Por tanto, si x > 8, se rechaza H0 en favor de la hipótesis alternativa H1 . Si x ≤ 8
se acepta H0 , siendo x el valor de X observado en la muestra.
El procedimiento de decisión que hemos descrito podrı́a conducir a cualquiera de dos
conclusiones erróneas. Por ejemplo, la nueva vacuna puede no ser mejor que la antigua y, en
particular para el grupo de individuos seleccionados aleatoriamente, más de 8 sobrepasan
el periodo de 2 años sin contraer el virus. Estarı́amos cometiendo el error de rechazar H0
cuando realmente es cierta. De igual forma, podrı́a ocurrir que 8 o menos individuos del
grupo de prueba sobrepasan el periodo de 2 años con éxito, y se concluye que la nueva
vacuna no es mejor, cuando en realidad sı́ lo es. Estarı́amos aceptando H0 , cuando en
realidad es falsa.
• Se dice que se ha cometido un error tipo I, cuando se rechaza la hipótesis nula siendo
ésta verdadera.
• Se dice que se ha cometido un error tipo II, cuando se acepta la hipótesis nula siendo
ésta falsa.
La probabilidad de cometer un error tipo I se llama Nivel de Significación o tamaño

de la región crı́tica, y se representa por α. En ejemplo anterior,

α = P (error tipo I) = P Rechazar H0 =
H0 es cierta
X 20

= P X > 8 = P [B(20, 1/4) = x] = 0.0409
p = 1/4 x=9
Se dice, entonces, que la hipótesis nula, p = 1/4, se está probando con un nivel de
significación de α = 0.0409. Este nivel de significación es bastante pequeño, por tanto,
es poco probable que se cometa un error tipo I. Es decir, es poco probable que más de
8 individuos se mantengan inmunes al virus durante 2 o más años utilizando una nueva
vacuna que, en realidad, es equivalente a la que ya existe en el mercado.
La probabilidad de cometer un error tipo II, representado por β, es imposible de
calcular a no ser que se tenga una hipótesis alternativa especı́fica. Si se prueba la hipótesis
nula de que p = 1/4 en contraposición con la hipótesis alternativa de que p = 1/2, entonces
estamos en condiciones de calcular la probabilidad de aceptar H0 cuando en realidad es
falsa. Simplemente hay que calcular la probabilidad de obtener 8 o menos individuos en
el grupo de prueba que sobrepasen el periodo de 2 años, cuando p = 1/2. Es decir,

β = P (error tipo II) = P Aceptar H0 =
H0 es falsa
X 8

= P X ≤ 8 = P [B(20, 1/2) = x] = 0.2517
p = 1/2 x=0
Ésta es una probabilidad bastante grande, lo que indica un procedimiento de prueba

con el cual es muy probable que se rechace la nueva vacuna cuando, en realidad, es
superior a la que se utiliza en la actualidad. En una situación ideal, serı́a preferible utilizar
un procedimiento con el que ambos tipos de error fuesen pequeños. Siempre es posible
disminuir el valor de β, incrementando el tamaño de la región crı́tica. Por ejemplo, veamos
qué ocurre con α y β cuando tomamos como valor crı́tico 7. Ahora, al probar p = 1/4
contra la hipótesis alternativa de que p = 1/2, se encuentra que
202 Estadı́stica

H0 es cierta
X20

= P X > 7 = P [B(20, 1/4) = x] = 0.1018
p = 1/4 x=8

H0 es falsa
X7

= P
X ≤ 7 = P [B(20, 1/2) = x] = 0.1316
p = 1/2 x=0
Al adoptar un nuevo procedimiento de decisión, se reduce la probabilidad de cometer

un error tipo II, a expensas de incrementar la probabilidad de cometer un error tipo I.
Para una muestra de tamaño fijo, la disminución en la probabilidad de un tipo de error
casi siempre resulta en un aumento en la probabilidad del otro tipo de error. Sin embargo,
se puede reducir la probabilidad de cometer ambos tipos de error, aumentando el tamaño
de la muestra. Por ejemplo, supongamos que inyectamos la nueva vacuna a 100 individuos
tomados aleatoriamente. Si más de 36 del grupo de muestra sobrepasan el periodo de 2
años, se rechaza la hipótesis nula de que p = 1/4 y se acepta la hipótesis alternativa de
que p = 1/2.
Para determinar la probabilidad de cometer un error tipo I, utilizamos la aproxima-
ción de la curva normal con
r
1 √ 1 3
µ = np = 100 × = 25 y σ= npq = 100 × × = 4.33
4 4 4
Tipificamos la normal
X −µ 36.5 − 25
Z= = = 2.66
σ 4.33
entonces

H0 es cierta

= P X > 36 ≃ P (Z > 2.66) = 0.0039
p = 1/4
Para determinar la probabilidad de cometer un error tipo II, utilizamos de nuevo la
aproximación de la curva normal con
Figura 15.1: Representación esquemática de la probabilidad de cometer errores de tipo I

y II en un contraste de hipótesis.
r
1 √ 1 1
µ = np = 100 × = 50 y σ = npq = 100 × × = 5
2 2 2
Tipificamos la normal
X −µ 36.5 − 50
Z= = = −2.70
σ 5
entonces

H0 es falsa

= P X ≤ 36 ≃ P (Z < −2.70) = 0.0035
p = 1/2
En la figura 15.1 se muestra un esquema de los errores tipo I y tipo II correspon-
dientes al ejemplo anterior.
15.3. Metodologı́a
Para establecer y realizar un contraste de hipótesis sobre un parámetro poblacional,
θ, se realizan los siguientes pasos:
1. Definir las hipótesis nula H0 y alternativa H1 . Recordamos que la hipótesis nula

siempre la consideramos simple (H0 : θ = θ0 ).
b que permita medir si existe discrepancia entre los

2. Considerar un estadı́stico, Θ,
datos muestrales y la hipótesis H0 . Para ello, es necesario conocer la distribución de
este estadı́stico bajo la suposición de que H0 es cierta.
204 Estadı́stica
3. Definir la región crı́tica del test, es decir, especificar qué valores del estadı́stico consi-
deramos inadmisibles para asumir H0 . Esta especificación se cuantifica en términos
de probabilidades: nos interesa saber cuándo la diferencia entre el valor esperado
del estadı́stico bajo la hipótesis H0 y su valor obtenido para la muestra (lo que se
conoce como “disparo”) es demasiado grande para poder atribuirse al azar.
b y
4. Tomar una muestra, calcular el valor que toma el estadı́stico en la muestra, θ,
tomar una decisión según su valor caiga o no en la región crı́tica.
Lo que debe especificarse al definir un contraste de hipótesis es, por tanto, el es-
tadı́stico que vamos a utilizar y la región crı́tica. En gran parte de los casos, la elección del
estadı́stico o es evidente (la media muestral, por ejemplo, si las hipótesis se refieren al va-
lor medio de una cantidad) o éste resulta ser estándar, y por tanto conocido de antemano
para un determinado tipo de problema (como el estadı́stico de Pearson que estudiaremos
posteriormente en los contrastes de bondad del ajuste).
La elección de la región crı́tica se hace de acuerdo al interés que tengamos en mini-
mizar el error de tipo I. Para reducir la posibilidad de un error de tipo II deberemos jugar
con el tamaño de la muestra.
15.4. Nivel de significación y región crı́tica

Tradicionalmente la región crı́tica de un contraste se determina fijando de antemano
b La región
un nivel de significación α. Supongamos un contraste basado en un estadı́stico Θ.
b que consideramos tan poco probables como
crı́tica será el conjunto de posibles valores de Θ
para rechazar H0 . Llamemos a esta región Dc , de tal modo que rechazaremos H0 si el valor
b obtenido en el muestreo θb ∈ Dc .
de Θ
Recordando la definición del nivel de significación:

α = P Rechazar H0
H0 es cierta
Podemos reescribir:

α=P b
θ ∈ Dc
H0 es cierta
Recordemos que es posible calcular esta probabilidad ya que conocemos la distri-
b bajo la suposición de que H0 es cierta. Ası́, fijado de antemano
bución del estadı́stico Θ
el nivel de significación α podremos obtener de la ecuación anterior la región crı́tica Dc .
Basta entonces tomar la decisión:
• Si θb ∈ Dc se rechaza la hipótesis H0
• En caso contrario no existe evidencia suficiente que permita rechazar H0 , para el

nivel de significación prefijado.
En general, en este curso vamos a trabajar solo con tres tipos de contrastes, para
los cuales la relación entre el nivel de significación y la región crı́tica es (Fig. 15.2):
• Contraste bilateral
◦ Contraste
H0 : θ = θ0
H1 : θ 6= θ0
◦ Cálculo de la Región Crı́tica


α/2 = P b
Θ < a1 =⇒ a1 


θ = θ0 

=⇒ RC = (−∞, a1)∪(a2, +∞)




α/2 = P b > a2
Θ =⇒ a2 
θ = θ0
◦ Decisión
Si θb < a1 ó θb > a2 =⇒ Rechazo H0 en favor de H1

Si a1 < θb < a2 =⇒ No Rechazo H0
• Contraste unilateral por la derecha
◦ Contraste
H0 : θ = θ0
H1 : θ > θ0

α = P Θ > a
b =⇒ a =⇒ RC = (a, +∞)
θ = θ0
206 Estadı́stica
◦ Decisión
Si θb > a =⇒ Rechazo H0 en favor de H1

Si θb < a =⇒ No Rechazo H0
• Contraste unilateral por la izquierda
◦ Contraste
H0 : θ = θ0
H1 : θ < θ0

α=P Θb < a =⇒ a =⇒ RC = (−∞, a)
θ = θ0
◦ Decisión
Si θb < a =⇒ Rechazo H0 en favor de H1

Si θb > a =⇒ No Rechazo H0
Este mecanismo basado en la fijación de un nivel de significación no es completa-

mente satisfactorio y, en la actualidad, se prefiere el enfoque basado en lo que se conoce
como Valor-p de un contraste. Antes de definirlo conviene detenerse en las limitaciones
del enfoque anterior.
El resultado del test depende enormemente de la elección del nivel α. Ası́, es posible
rechazar H0 con un α = 0.05 y, sin embargo no hacerlo si α = 0.045. De hecho, con este
enfoque, no queda constancia del grado de evidencia que la muestra indica a favor o en
contra de H0 . En la figura 15.3 se muestran dos disparos que conducirı́an al rechazo de
H0 aunque, claramente, la evidencia de este rechazo es muy distinta.
15.5. Valor-p
b para el que hemos
Supongamos un contraste de hipótesis basado en un estadı́stico Θ
b Se define Valor-p del contraste
obtenido un disparo, o valor estimado en la muestra, de θ.
como:
Figura 15.2: Región crı́tica para un nivel de significación α. (a): contraste bilateral, (b):
contraste unilateral por la derecha, (c): contraste unilateral por la izquierda. En todos los
b cuando H0 es cierta, es decir cuando
casos se ha dibujado la distribución del estadı́stico Θ
θ = θ0
208 Estadı́stica
Rechazo
Figura 15.3: Dos disparos que conducen al rechazo de la hipótesis H0 . Claramente la

evidencia para este rechazo es muy distinta en ambos casos.

b b
Valor-p = P |Θ| ≥ θ Contraste bilateral
H0 es cierta

Valor-p = P Θb ≥ θb Contraste unilateral por la derecha
H0 es cierta

Valor-p = P Θb ≤ θb Contraste unilateral por la izquierda
H0 es cierta
La relación del Valor-p con el nivel de significación es evidente: según el enfoque

anterior, no rechazarı́amos H0 para ningún nivel de significación α menor que el Valor-p.
Habitualmente, el criterio basado en el Valor-p es como sigue:
1. Si Valor-p ≥ 0.2 se considera que no existe evidencia estadı́stica para rechazar la

hipótesis H0 .
2. Si Valor-p ≤ 0.01 se considera que la evidencia es más que suficiente para rechazar
H0 en favor de H1 .
3. Si 0.01 ≤ Valor-p ≤ 0.2 la aceptación o rechazo de H0 dependerá de la confianza

que tengamos a priori en la hipótesis H0 . Normalmente se rechaza H0 si el Valor-p
es menor que 0.1
15.6. Potencia de un contraste

La potencia de un contraste se define en términos de la probabilidad de cometer un
error de tipo II (es decir, aceptar H0 siendo falsa): un test es tanto más potente cuanto
menor sea esta probabilidad.
Ya hemos visto que para calcular la probabilidad de error de tipo II necesitamos
una hipótesis alternativa H1 completamente especificada. Si nuestro contraste se refiere a
algún parámetro poblacional, θ, deberemos especificar su valor.
Se define la función o curva de operación caracterı́stica (O.C.) de un contraste, β(θ),
como (Fig 15.4.a):

β(θ) = P (error tipo II) = P Aceptar H0 = P Aceptar H0
H0 es falsa θ
Si el valor de θ se toma como aquel que especifica la hipótesis nula θ0 , β(θ0 ) será la
probabilidad de aceptar H0 cuando ésta es cierta y, por tanto, está relacionada con el
nivel de significación mediante la igualdad:
β(θ0 ) = 1 − α
Para cualquier otro valor de θ se obtiene la probabilidad de error de tipo II si la

hipótesis alternativa H1 especifica dicho valor para el parámetro.
Se define la función o curva de potencia de un contraste como (Fig 15.4.b)

P otencia(θ) = 1 − β(θ) = P
Rechazar H0 = P Rechazar H0
H0 es falsa θ
Obsérvese que para dos contrastes con igual nivel de significación, el de mayor po-
tencia es aquel en el que es menos probable cometer un error de tipo II.
Como se ha visto en el ejemplo anterior una posible manera de aumentar la potencia
de un contraste es aumentar el tamaño muestral.
15.7. Contrastes para la media de una población

Vamos a establecer en esta sección una serie de contrastes relacionados con el valor
de la media de una población. Los estadı́sticos que vamos a emplear han sido estudiados
en el capı́tulo dedicado a las distribuciones en el muestreo.
210 Estadı́stica
15.7.1. Varianza conocida

Supongamos una P.M. de media µ y varianza σ conocida. Sabemos que la distribu-
ción en el muestreo del estadı́stico media muestral
n
1X
x̄ = xi
n i=1
es  √

 N µ, σ/ n
 si la población madre es normal N(µ, σ) o n ≥ 30
x̄ ≡

 ? (µ, σ/√n )

si la población madre es ? (µ, σ)
15.7.1.1. Población Madre Normal o n ≥ 30
H0 : µ = µ 0
H1 : µ 6= µ0
Empleando la notación zp para el cuantil 1 − p de una normal estándar N(0, 1) (es

decir, zp es el valor para el que la función de distribución vale p o, dicho de otro
modo, que deja una probabilidad 1 − p a su izquierda) tenemos, para un nivel de
significación α
x̄ − µ0
P −zα/2 < √ < zα/2 = 1 − α
σ/ n
√ √
y, por tanto, una región de aceptación (µ0 − zα/2 σ/ n, µ0 + zα/2 σ/ n). Tomando el
valor muestral de x̄ rechazaremos H0 si obtenemos un valor fuera de este intervalo
y deberemos aceptarla en caso contrario. El nivel crı́tico del test, o Valor-p, será

x̄ − µ0
Valor-p = P |N(0, 1)| > √
σ/ n
H0 : µ = µ 0
H1 : µ > µ 0
El contraste es completamente análogo al anterior salvo que ahora la región de

aceptación no está limitada por la izquierda. Tenemos ahora que

x̄ − µ0
P √ < zα = 1 − α
σ/ n
√
y, por tanto, una región de aceptación (−∞, µ0 + zα σ/ n). El nivel crı́tico del test,
o Valor-p, será ahora

x̄ − µ0
Valor-p = P N(0, 1) > √
σ/ n
H0 : µ = µ 0
H1 : µ < µ 0

x̄ − µ0
P √ > −zα = 1 − α
σ/ n
√
y la región de aceptación es (µ0 − zα σ/ n, +∞). El nivel crı́tico del test, o Valor-p,
será ahora
x̄ − µ0
Valor-p = P N(0, 1) < √
σ/ n
En ambos casos (prueba bilateral o unilateral), el tamaño de la muestra n puede

fijarse con alguna suposición añadida. Lo más habitual es obligar a que, dada una hipótesis
alternativa determinada H1 : µ = µ0 + δ, el error de tipo II sea menor que una cantidad
prefijada.
Es fácil demostrar que se obtiene una potencia 1 − β para un tamaño muestral


 (zα + zβ )2 σ 2

 si la prueba es unilateral
 δ2
n∼



 (z + zβ )2 σ 2
 α/2 si la prueba es bilateral
δ2
15.7.2. Varianza desconocida
15.7.2.1. Población Madre Normal
En el caso de que desconozcamos la varianza de la población madre, pero ésta sea

N(µ, σ), hemos visto que
x̄ − µ
√ ≡ tn−1
s/ n
siendo tn−1 una variable t de Student con n − 1 grados de libertad.
212 Estadı́stica
H0 : µ = µ 0
H1 : µ 6= µ0
Empleando la notación tp para el cuantil 1 − p de una t de Student con n-1 grados
de libertad tn−1 tenemos, para un nivel de significación α

x̄ − µ0
P −tα/2 < √ < tα/2 = 1 − α
s/ n
√ √
y, por tanto, una región de aceptación (µ0 − tα/2 s/ n, µ0 + tα/2 s/ n). Tomando el
valor muestral de x̄ rechazaremos H0 si obtenemos un valor fuera de este intervalo
y deberemos aceptarla en caso contrario. El nivel crı́tico del test, o Valor-p, será

x̄ − µ0
Valor-p = P |tn−1 | > √
s/ n
H0 : µ = µ 0
H1 : µ > µ 0
Tenemos ahora que
x̄ − µ0
P √ < tα = 1 − α
s/ n
√
y, por tanto, una región de aceptación (−∞, µ0 + tα s/ n). El nivel crı́tico del test,

x̄ − µ0
Valor-p = P tn−1 > √
s/ n
H0 : µ = µ 0
H1 : µ < µ 0
Tenemos ahora que
x̄ − µ0
P √ > −tα = 1 − α
s/ n
√
y, por tanto, una región de aceptación (µ0 − tα s/ n, +∞). El nivel crı́tico del test,

x̄ − µ0
Valor-p = P tn−1 < √
s/ n
15.7.2.2. Población Madre no Normal
Incluso en el caso de que la población madre no sea normal, en virtud del teorema
central del lı́mite, para valores grandes de n (n > 30) podemos utilizar la aproximación
x̄ − µ ∼
√ = N(0, 1)
s/ n
15.8. Comparación de medias

A partir de esta sección no seremos exhaustivos en la presentación de los contrastes,
sino que nos limitaremos a considerar el estadı́stico más apropiado y su distribución. El
mecanismo para construir el contraste a partir de esta información es siempre igual.
Sean dos muestras de tamaños n y m sacadas de dos poblaciones normales con
medias µx y µy y varianzas σx y σy respectivamente. La hipótesis nula del contraste será
H0 : µ x − µ y = d 0
15.8.1. Varianzas conocidas

El estadı́stico relevante es
(x̄ − ȳ) − (µx − µy )

r ≡ N (0, 1)
σx2 σy2
+
n m
15.8.2. Varianzas desconocidas e iguales
(x̄ − ȳ) − (µx − µy )

s r ≡ tn+m−2
2 2
(n − 1)sx + (m − 1)sy 1 1
+
n+m−2 n m
15.8.3. Varianzas desconocidas y distintas
(x̄ − ȳ) − (µx − µy ) ∼

r = tγ
s2x s2y
+
n m
donde,
214 Estadı́stica
(A + B)2 s2x s2y

γ= A= , B=
A2 B2 n m
+
n−1 m−1
15.8.4. Muestras apareadas

El anterior enfoque para la comparación de medias no es completamente satisfacto-
rio. En algunos casos podemos sospechar que las muestras tomadas independientemente
de las dos poblaciones no han sido hechas bajo las mismas condiciones, lo que falsearı́a
el resultado del contraste. ésto es especialmente relevante si la poblaciones presentan una
gran variabilidad, lo que suele ser indicativo de que existen muchos factores que pueden
influir en sus parámetros.
Una manera de evitar este problema es tomar, si se puede, muestras apareadas:
medidas realizadas por pares en situaciones lo más semejantes posibles. Por ejemplo, para
medir la eficacia de dos marcas de neumáticos conviene tomar medidas de los neumáticos
montados sobre el mismo vehı́culo, con lo que eliminaremos la variabilidad debida a los
distintos conductores, amortiguadores, mecánica etc.
En un proceso de medida apareado obtenemos n pares de valores x1,i , x2,i referidos
a las dos poblaciones 1 y 2. Se toma el valor yi = x1,i − x2,i del estadı́stico diferencia D̄.
Si µD̄ y sD̄ son su media y desviación muestral respectivamente, el estadı́stico
D̄ − µD̄
T = √ ≡ tn−1
sD̄ / n
La hipótesis nula para este contraste se reduce a
H0 : µD̄ = d0
En la tabla 15.1 se encuentra un esquema de los contrastes relativos a medias
15.9. Pruebas sobre proporciones

El número de elementos de una población que presentan una determinada carac-
terı́stica sigue una distribución binomial, como sabemos. Si X es una variable binomial
B(n, p), la proporción de elementos de la población que presentan la caracterı́stica desea-
da será su valor medio dividido por n. Para n grande, la variable binomial se aproxima a
una normal, por lo que salvo en el caso de poblaciones pequeñas (n < 30) los contrastes
de proporciones son análogos a los referidos a las medias de una población.
En el caso de poblaciones pequeñas se procede como en el ejemplo que abre este

capı́tulo, manejando directamente el estadı́stico media de una variable binomial.
15.9.1. Diferencia de dos proporciones

Si tenemos dos poblaciones y queremos medir si la diferencia de proporciones p1 − p2
de una caracterı́stica determinada en ellas es 0 se emplea el estadı́stico
pb1 − pb2
Z=p ∼ N(0, 1)
pe(1 − pe)(1/n1 + 1/n2 )
donde
x1 + x2
pe =
n1 + n2
siendo x1 y x2 el número de elementos de cada muestra que presentan la caracterı́stica.
15.10. Pruebas sobre varianzas
15.10.1. Una población

Tomando una muestra de tamaño n de una población madre normal de varianza σ 2 ,
se cumple para la varianza muestral s2
(n − 1)s2
≡ χ2n−1
σ2
15.10.2. Comparación de varianzas

Dadas dos muestras de tamaños n y m de dos poblaciones normales de varianzas σx
y σy respectivamente
s2x /σx2
≡ Fn−1,m−1
s2y /σy2
siendo s2x y s2y la varianza muestral de cada población.
216 Estadı́stica
Figura 15.4: Dada la hipótesis nula H0 : p = 1/4. Curva de operación caracterı́stica para
las hipótesis alternativas (a1) H1 : p 6= 1/4; (a2) H1 : p > 1/4; (a3) H1 : p < 1/4. Curva
de potencia para las hipótesis alternativas (b1) H1 : p 6= 1/4; (b2) H1 : p > 1/4; (b3)
H1 : p < 1/4
Cuadro 15.1: Pruebas relativas a medias
H0 Valor del estadı́stico de prueba H1 Región crı́tica

µ < µ0 z < −zα
x̄ − µ0
µ = µ0 z= √ ; σ conocida µ > µ0 z > zα
σ/ n
µ 6= µ0 |z| > zα/2
µ < µ0 t < −tα
x̄ − µ0
µ = µ0 t= √ ; ν =n−1 µ > µ0 t > tα
s/ n
σ desconocida µ 6= µ0 |t| > tα/2
µ1 − µ2 < d0 z < −zα
(x̄1 − x̄2 ) − d0
µ1 − µ2 = d0 z=p µ1 − µ2 > d0 z > zα
(σ12 /n1 ) + (σ22 /n2 )
σ1 y σ2 conocidas µ1 − µ2 6= d0 |z| > zα/2
(x̄1 − x̄2 ) − d0
t= p µ1 − µ2 < d0 t < −tα
sp (1/n1 ) + (1/n2 )
µ1 − µ2 = d0 ν = n1 + n2 − 2, σ1 = σ2 µ1 − µ2 > d0 t > tα
pero desconocida,
(n1 − 1)s21 + (n2 − 1)s22

s2p = µ1 − µ2 6= d0 |t| > tα/2
n1 + n2 − 2
(x̄1 − x̄2 ) − d0
t= p 2 µ1 − µ2 < d0 t < −tα
(s1 /n1 ) + (s22 /n2 )
(s21 /n1 + s22 /n2 )2

µ1 − µ2 = d0 ν= µ1 − µ2 > d0 t > tα
(s21 /n1 )2 (s22 /n2 )2
+
n1 − 1 n2 − 1
σ1 6= σ2 y desconocidas µ1 − µ2 6= d0 |t| > tα/2
µD < d0 t < −tα

d¯ − d0
µD = d0 t= √ ; ν =n−1 µD > d0 t > tα
sd / n
observaciones apareadas µD 6= d0 |t| > tα/2
218 Estadı́stica
Contrastes
16 no paramétricos
Índice
16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . 221
16.1.1.1. Hipótesis simple . . . . . . . . . . . . . . . . . . . . . 221
16.1.1.2. Hipótesis compuesta . . . . . . . . . . . . . . . . . . . 221
16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . 222
16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . 223
16.2. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . 223
16.3. Otros contrastes no paramétricos . . . . . . . . . . . . . . . . . 224
16.3.1. Contrastes de posición . . . . . . . . . . . . . . . . . . . . . . . 224
16.3.1.1. Test de los signos . . . . . . . . . . . . . . . . . . . . 225
16.3.1.2. Test de Wilcoxon de los rangos signados . . . . . . . . 226
16.3.1.3. Test de la mediana . . . . . . . . . . . . . . . . . . . . 227
16.3.1.4. Test de Mann-Whitney . . . . . . . . . . . . . . . . . 227
16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . 228
16.3.2.1. Test τ de Kendall . . . . . . . . . . . . . . . . . . . . 228
16.3.2.2. Test del coeficiente de correlación entre rangos o test
de Spearman . . . . . . . . . . . . . . . . . . . . . . . 229
16.3.2.3. Test de rachas . . . . . . . . . . . . . . . . . . . . . . 229
16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
219
220 Estadı́stica
En el capı́tulo anterior hemos manejado contrastes paramétricos, es decir, aquellos

en los que se estudia la veracidad de hipótesis acerca de los parámetros de los que depende
la distribución de una población. En muchas otras ocasiones es necesario emitir un juicio
sobre la distribución poblacional en su conjunto. Los problemas más habituales que suelen
plantearse son los siguientes:
• Decidir, a la vista de una muestra aleatoria de una población, si puede admitirse

que ésta sigue una cierta distribución dada N(0,1), Poisson(5), etc.) o bien perte-
nece a un cierto tipo de distribuciones (es normal, exponencial, geométrica, etc.).
Los contrastes que dilucidan esta cuestión se denominan de bondad del ajuste.
• Analizar si varias muestras aleatorias provienen de poblaciones con la misma dis-

tribución teórica, de forma que puedan utilizarse conjuntamente para inferencias
posteriores sobre ésta o si, por el contrario, son muestras de poblaciones con
distinta distribución. Es el problema de la homogeneidad de varias muestras.
• Estudiar, en el caso de que se observen dos o más caracterı́sticas de los elementos

de la población (de forma que la distribución teórica no sea unidimensional) si las
caracterı́sticas observadas pueden ser consideradas independientes y proceder a
su análisis por separado o, por el contrario, existe relación estadı́stica entre ellas.
Cualquiera de estos problemas se denominan no paramétricos ya que no se trata de

decidir entre distribuciones Fθ que sólo se diferencian en el valor del parámetro θ. Ası́, por
ejemplo, si queremos probar una hipótesis nula como que la distribución es Exp(λ = 5)
la hipótesis alternativa contiene a todas las distribuciones continuas y no sólo a las
exponenciales con otro valor de su parámetro λ.
16.1. Contraste χ2
Reciben este nombre los contrastes basados en el estadı́stico de Pearson. Omitiremos
la justificación teórica, algo complicada, del proceder para su cálculo ası́ como de la
obtención de su distribución.
16 Contrastes no paramétricos 221
16.1.1. Prueba de bondad del ajuste
16.1.1.1. Hipótesis simple
Supongamos una muestra aleatoria simple de tamaño n de una distribución desco-

nocida F . Tratamos de contrastar si puede aceptarse la hipótesis H0 : F = F0 , donde F0
es una distribución conocida completamente especificada, es decir, de la que conoce-
mos todos y cada uno de los parámetros de los que depende (la media y la desviación en
el caso de una normal, el valor del parámetro λ en el caso de una exponencial, etc.). El
procedimiento a seguir es el siguiente:
1. Se divide el recorrido de la distribución poblacional en k conjuntos disjuntos o clases:

A1 , A2 , · · · , Ak
2. Se calcula el número ni de elementos de la muestra observados en cada clase Ai .
3. Se calcula el número ni,esp de elementos esperados en cada clase si la hipótesis H0

es cierta. Para ello, basta multiplicar la probabilidad que la distribución F0 asigna
a cada clase por el número de elementos de la muestra.
IMPORTANTE. Sólo puede realizarse el contraste si cada uno de los ni,esp es
mayor o igual a 5. En caso contrario, se unen varias clases Aj hasta conseguirlo. En
lo que sigue supondremos que el número de clases k en las que hemos descompuesto
el recorrido de la distribución teórica es el resultado de esta operación: entre las k
clases no hay ninguna con ni,esp < 5.
4. Se realiza el test empleando el estadı́stico de Pearson:
k
X (ni − ni,esp )2
D=
i=1
ni,esp
que, en las condiciones antes citadas, sigue una distribución χ2 con k − 1 grados de
libertad. (La región crı́tica es de la forma D > c).
16.1.1.2. Hipótesis compuesta
Supongamos ahora (lo que suele ser más habitual) que la hipótesis a contrastar espe-
cifica una familia de distribuciones de forma funcional dada pero dependiente de algunos
parámetros no especificados (por ejemplo, suponemos que nuestra población es normal
de media 1 pero desconocemos la desviación o, suponiendo que es normal, no conocemos
222 Estadı́stica
ni la media ni la desviación, etc.). En este sentido se dice que la hipótesis nula es ahora
compuesta pues unifica varias hipótesis simultáneamente. Una posibilidad para resolver
el problema es tomar varias muestras: con las primeras estimamos los parámetros y con
la última realizamos el contraste χ2 anterior. Sin embargo, es posible (y más conveniente
en muchos casos) realizar el estudio empleando una única muestra. El procedimiento a
seguir en este segundo caso es:
1. Se estiman los parámetros a partir de la muestra empleando el criterio de máxi-

ma verosimilitud.
2. Se repite el proceso anterior con la salvedad de que ahora la distribución del es-
tadı́stico D de Pearson es una χ2 con k − 1 − ν grados de libertad, siendo ν el
número de parámetros que hemos estimado.
16.1.2. Prueba de homogeneidad

Supongamos que se dispone de m muestras aleatorias simples de otras tantas pobla-
ciones cuyos tamaños son, respectivamente, n1 , n2 , · · ·, nm . A partir de estos datos se desea
decidir si la distribución poblacional es la misma en todos los casos y, por consiguiente,
se dispone de una muestra de tamaño n = n1 + n2 + · · · + nm de una única distribución
o, por el contrario, se trata de poblaciones heterogéneas con diferentes distribuciones.
Nuevamente, el conjunto de posibles valores de las observaciones se divide en k clases
disjuntas: A1 , A2 , · · ·, Ak . Si llamamos nij al número de observaciones de la muestra i
que pertenecen a la clase Aj podemos construir la siguiente tabla de contingencia:
Muestra A1 A2 ··· Ak Total

1 n11 n12 ··· n1k n1
2 n21 n22 ··· n2k n2
.. .. .. .. .. ..
. . . . . .
m nm1 nm2 · · · nmk nm
Total n·1 n·2 ··· n·k n
donde ni es la suma de los elementos de la fila i y n·j es la suma de la columna j.
El contraste se realiza recurriendo al estadı́stico
Xm X k
(nij − ni n·j /n)2
D=
i=1 j=1
ni n·j /n
que sigue una distribución χ2 con (m − 1)(k − 1) grados de libertad.
16.1.3. Prueba de independencia

Supongamos que de n elementos de una población se han observado dos caracterı́sti-
cas X e Y , obteniéndose una muestra aleatoria simple bidimensional (x1 , y1 ), (x2 , y2),
· · ·,(xn , yn ). Sobre la base de dichas observaciones se desea contrastar si las caracterı́sticas
poblacionales X e Y son independientes o no.
Para ello se divide el conjunto de posibles valores de X en k clases disjuntas A1 ,
A2 , · · ·, Ak y los de Y en r clases disjuntas B1 , B2 , · · ·, Br . Al clasificar los elementos
de la muestra aparecerá un cierto número de ellos , nij , en cada una de las k × r clases
constituidas, dando lugar a una tabla de contingencia de la forma:
B1 B2 ··· Br Total
A1 n11 n12 ··· n1r n1·
A2 n21 n22 ··· n2r n2·
.. .. .. .. .. ..
. . . . . .
Ak nk1 nk2 · · · nkr nk·
Total n·1 n·2 ··· n·r n
El contraste se realiza mediante el estadı́stico
Xk X r
(nij − ni· n·j /n)2
D=
i=1 j=1
ni· n·j /n
que sigue una distribución χ2 con kr − 1 grados de libertad.
Tanto en este caso como en el anterior la región crı́tica del test es de la forma D > c.
16.2. Contraste de Kolmogorov-Smirnov

El contraste K-S es una contraste de bondad del ajuste válido únicamente para
distribuciones continuas. No es conveniente su uso cuando hay que estimar parámetros ya
que la distribución del estadı́stico es entonces sólo aproximada. La hipótesis nula de este
contraste es que la muestra proviene de una distribución continua F0 (x). El procedimiento
para construir el contraste es:
1. Se ordenan los n valores muestrales de forma que
x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn
224 Estadı́stica
2. Se calcula la función de distribución empı́rica de la muestra , Fn (x), con:


 0 x < x1





 r
Fn (x) = xr ≤ x ≤ xr + 1

 n






1 x ≥ xn
3. Se calcula la discrepancia máxima entre la función de distribución empı́rica y la

teórica F0 (x) con el estadı́stico
∆n = máx |Fn (x) − F0 (x)|
cuya distribución es conocida y está tabulada según los valores de n.
Para realizar correctamente el contraste hay que calcular para cada punto muestral
xh el valor
∆n (xh ) = máx{|Fn (xh−1 ) − F0 (xh )| , |Fn (xh ) − F0 (xh )|}
El máximo de los n valores ası́ obtenidos es el estadı́stico ∆n de Kolmogorov-

Smirnov. La región crı́tica del test es de la forma ∆n > c.
16.3. Otros contrastes no paramétricos
16.3.1. Contrastes de posición

En ocasiones sólo nos interesa conocer, de una población desconocida, su posición
sobre la recta real, porque se da por supuesto que las condiciones en que se observa el
fenómeno sólo pueden trasladar la distribución sin deformarla. Ejemplos de este tipo de
situaciones pueden ser:
1. Una empresa cambia su horario de entrada, adelantándolo media hora, y se pregunta

si ello habrá afectado a los retrasos de sus empleados. Los datos son aleatorios,
variando de dı́a en dı́a y de un empleado a otro, pero es aceptable pensar que la
forma de su distribución no ha variado; el temor es que se haya desplazado hacia la
derecha, incrementándose el tiempo perdido.
2. Una comunidad ha modificado la procedencia del agua para consumo doméstico.

Tras cierto tiempo, quiere comprobar si ello ha afectado a la concentración de sodio
en la sangre de sus habitantes, en el sentido de que la distribución de dicha con-
centración se haya trasladado hacia uno u otro lado, mientras que la forma de la
distribución se supone que no habrá variado apenas.
3. Se desea saber si las ventas en dos establecimientos de la misma cadena son análogas.
Presumiblemente la forma de la distribución de las ventas diarias será similar para
ambas, ası́ que el objetivo es detectar si una está desplazada respecto a la otra.
Si no puede suponerse la normalidad de la población madre (ya que entonces lo

adecuado es aplicar los contrastes paramétricos sobre la media de una normal) es posible
abordar el problema de la posición de la distribución usando la mediana muestral.
16.3.1.1. Test de los signos
Tenemos una distribución continua desconocida F cuya mediana será Me. Probare-
mos a contrastar la hipótesis nula
H0 : Me = m0
frente a alguna de las alternativas Me < m0 , Me > m0 ó Me 6= m0 . El estadı́stico que se

emplea es
T = { Número de observaciones muestrales mayores que m0 }
que, si H0 es correcta, tiene una distribución binomial B(n, 1/2), siendo n el tamaño de
la muestra.
S
La región crı́tica será de la forma {T ≤ k}, {T ≥ k} ó {T ≤ k} {T ≥ n − k},
según sea la hipótesis alternativa una de las reseñadas arriba, y donde k puede fijarse
determinando un nivel crı́tico α.
• Si el tamaño muestral es apreciable (n > 20) puede aproximarse la distribución

binomial por la normal correspondiente.
• Según la hipótesis de continuidad de la distribución no deberı́an obtenerse valores

muestrales coincidentes con la mediana. En la práctica ésto puede ocurrir, siendo
aconsejable excluir tales valores, disminuyendo consecuentemente el tamaño de la
muestra.
226 Estadı́stica
• Es fácil generalizar este contraste para cualquier otro cuantil, cambiando el paráme-
tro p de la binomial.
• Si tenemos datos apareados se puede aplicar el contraste a la diferencia de los

datos, siendo entonces m0 = 0. Este procedimiento nos dirá si la mediana de las dos
muestras es igual o no.
16.3.1.2. Test de Wilcoxon de los rangos signados
En el caso en que sepamos que la distribución poblacional, además de continua, es

simétrica puede mejorarse el contraste anterior de la siguiente manera.
Si Di = xi − m0 son las diferencias entre las observaciones muestrales y el valor a
contrastar para Me, se ordenan, en orden creciente, los valores absolutos |Di | y se anota
el rango (o lugar) r (|Di |) que cada uno ocupa en dicha ordenación. El estadı́stico en
que se basa el test es la suma de los rangos de las observaciones mayores que m0 , cuya
distribución, si H0 es cierta, se encuentra tabulada.
X
T+ = r (|Di |)
∀Di >0
• Si el tamaño muestral es apreciable

(n > 20) la distribución del estadı́stico
T + puede
p
aproximarse por la normal N n(n + 1)/4, n(n + 1)(2n + 1)/24 . En todo caso,
la distribución de T + es simétrica en torno a n(n + 1)/4
• Igual que antes, según la hipótesis de continuidad de la distribución, no deberı́an

obtenerse valores muestrales coincidentes con la mediana. En la práctica ésto puede
ocurrir, siendo aconsejable excluir tales valores, disminuyendo consecuentemente el
tamaño de la muestra.
• Si tenemos datos apareados se puede aplicar el contraste a la diferencia de los

datos, siendo entonces m0 = 0. Este procedimiento nos dirá si la mediana de las dos
muestras es igual o no.
• Si se conoce la mediana poblacional este test se convierte en una prueba sobre la

hipótesis subyacente de que la distribución es simétrica respecto a la mediana. Ası́,
para tamaños muestrales grandes, para los que la mediana muestral tiende al valor
de la mediana poblacional, puede usarse, sustituyendo m0 por el valor muestral de
la mediana, para contrastar la simetrı́a de la distribución.
16.3.1.3. Test de la mediana
Los dos tests anteriores se refieren a la mediana de una única población y hacen uso
de una única muestra (en el caso de los datos apareados la población y la muestra que
interesan son las diferencias entre las parejas de datos). Sin embargo, con frecuencia se
plantean situaciones en las cuales hay que comparar dos poblaciones continuas y tratar
de detectar desplazamientos entre ambas distribuciones.
Supongamos, por tanto, dos muestras aleatorias simples: x1 , x2 , · · · , xn e y1 , y2 , · · · , ym
correspondientes a cada población e independientes entre sı́. Si se ordenan conjuntamente
en orden creciente, la mediana z de la muestra combinada es el valor central, en el caso
de que n + m sea impar, y el promedio de los dos valores centrales en el caso de que n + m
sea par. El estadı́stico que se emplea es
T = Número de xi inferiores a z
Si Mex = Mey , es decir, si la hipótesis H0 es cierta, la distribución de T es hiper-

geométrica
! !
p n+m−p
t n−t
P (T = t) = !
n+m
n
p −m}
donde p es la parte entera de (n+ m)/2 y t puede variar entre max{0,
p
y min{n, p}.

Si n y m son grandes la distribución de T es aproximadamente N n/2, nm/4(n + m) .
16.3.1.4. Test de Mann-Whitney
Este contraste “resuelve.el mismo caso que el anterior: detectar diferencias de posi-
ción entre dos poblaciones continuas de las que tenemos dos muestras aleatorias simples.
El estadı́stico a utilizar es V , calculado como sigue:
1. Se ordenan conjuntamente, igual que en el caso anterior, las dos muestras en orden
creciente.
2. Para cada valor xi correspondiente a la primera muestra (que debe corresponder a

la de tamaño muestral menor) se cuenta el número de valores de la segunda muestra
que hay por debajo de él.
3. V es la suma de los números calculados anteriormente.

228 Estadı́stica
Supongamos, por ejemplo, que al ordenar la muestra el resultado hubiera sido (cada x
representa un valor de la primera muestra y cada y uno de la segunda): xxyyxyyyxxyxxyx,
entonces
V = 0 + 0 + 2 + 5 + 5 + 6 + 6 + 7 = 31
La distribución
de este estadı́stico se halla
tabulada. Si n y m son grandes es, aproximada-
p
mente, N nm/2, nm(n + m + 1)/12 . En todo caso, la distribución de V es simétrica
en torno a nm/2.
16.3.2. Contrastes de independencia

Vamos a estudiar algunos contrastes para decidir sobre la independencia de dos
caracterı́sticas poblacionales continuas X e Y cuya distribución conjunta no sea normal
y que no están basados en el contraste χ2 .
En el caso de distribución conjunta normal lo más adecuado es realizar un contraste
paramétrico sobre el coeficiente de correlación.
16.3.2.1. Test τ de Kendall
Supongamos un conjunto de n observaciones apareadas: (x1 , y1 ), (x2 , y2), · · ·, (xn , yn ).

Para calcular el estadı́stico T de Kendall se procede como sigue:
1. Se ordena la muestra según la primera componente, de modo que x1 < x2 < · · · < xn
2. Consideramos ahora la segunda componente de cada par ası́ ordenado y ecribimos

su rango, es decir, el lugar que ocupa respecto del resto de valores de y. Obtenemos
entonces una sucesión de valores r1 , r2 , · · · , rn donde rj ≡ lugar que ocupa la segunda
componente del par i-ésimo en la ordenación de estos valores.
3. Para cada valor de esta sucesión se cuenta cuántos de los valores posteriores a él
son mayores.
4. Se suman los números ası́ obtenidos. Llamemos P a su valor.

4P
5. T = −1
n(n − 1)
La distribución de T está tabulada y para n > 10 es aproximadamente
s !
2(2n + 5)
N 0,
9n(n − 1)
La región crı́tica de este contraste es de la forma {|T | > k}

16.3.2.2. Test del coeficiente de correlación entre rangos o test de Spearman
Supongamos de nuevo una muestra apareada de valores (xi , yi ). Este contraste

está basado en el estadı́stico de Spearman, RS , que se calcula como sigue:
1. Se ordena la muestra según los valores de la primera componente (en orden creciente
de ésta).
2. Consideramos de nuevo el rango, rj , que corresponde al valor de la segunda compo-

nente y que ocupa el lugar j-ésimo de esta ordenación.
n
X
3. Calculamos U = (rj − j)2
j=1
6U
4. RS = 1 −
n(n2 − 1)
La distribución de RS está tabulada y para n > 10 es aproximadamente

1
N 0, √
n−1
16.3.2.3. Test de rachas
Un problema de independencia distinto de los anteriores se plantea cuando existen

dudas acerca de que una muestra sea realmente aleatoria simple, es decir, que las sucesivas
observaciones hayan sido efectuadas independientemente. Condiciones de muestreo sin las
debidas garantı́as de aleatoriedad pueden afectar a la independencia de las observaciones
y dar al traste con la aplicación de todos los métodos basados en el muestreo aleatorio
simple.
Supongamos una variable que sólo puede tomar dos valores (digamos 0 y 1). Al
tomar una muestrta obtendremos sucesiones de la forma 0001101011110001.
Se llama racha a cada uno de los conjuntos de ceros consecutivos que se observan
hasta llegar a un 1 y a cada uno de los conjuntos de unos consecutivos que se observan
hasta llegar a un 0. La muestra anterior, por ejemplo, tiene 8 rachas.
Si R es el número de rachas en una muestra que tiene n ceros y m unos (y por tanto
tamaño n + m) puede demostrarse que si la muestra es aleatoria
! !
n−1 m−1
r−1 r−1
P (R = 2r) = 2 !
n+m
n
230 Estadı́stica
! ! ! !
n−1 m−1 n−1 m−1
+
r−1 r r r−1
P (R = 2r + 1) = !
n+m
n
con r ≤ min{n, m}.
Si n y m son grandes (superiores a 10) puede tomarse como distribución de R
s !
2nm 2nm(2nm − n − m)
N + 1,
(n + m) (n + m)2 (n + m − 1
S
La región crı́tica de este contraste es de la forma {R < k1 } {R > k2 }.
16.4. Ejemplos
Ejemplo 1
Se ha estimado que el número de accidentes diarios en una determinada carretera

sigue una distribución de Poisson de parámetro 2. Durante 200 dı́as se han recogido los
siguientes datos:
n◦ de accidentes 0 1 2 3 4 5 6 7
n◦ de dı́as 22 53 58 39 20 5 2 1
con los que se quiere contrastar si se ajusta a la distribución indicada. Si la hipótesis es

cierta se espera un número de dı́as igual a 200 veces la probabilidad de que una Poisson
de parámetro 2 valga 0, 1, 2, 3, 4, 5, 6 ó 7:
Los valores esperados son:
n◦ de accidentes 0 1 2 3 4 ≥5
n◦ esperado de dı́as 27.06 54.14 54.14 36.08 18.04 10.54
donde se han agrupado las categorı́as correspondientes a 5 o más accidentes para satisfacer
la condición de que el número esperado en cada categorı́a sea mayor o igual a 5.
El estadı́stico D de Pearson vale
5
X X5
(ni − ni,esp)2 n2i 222 532 82
D= = −n + = + +···+ − 200 = 2.307
i=0
ni,esp n
i=0 i,esp
27.06 54.14 10.54
cuya distribución, si la hipótesis es correcta, es aproximadamente χ2 con 5 grados de

libertad. Por ejemplo, P (χ25 > 7.29) = 0.2, de modo que sólamente un valor de D superior
a 7.29 permitirı́a, con nivel de significación 0.2, afirmar que la distribución de accidentes
no es una Poisson de parámetro 2. El valor p del contraste realizado es superior a 0.7.
232 Estadı́stica
Ejemplo 2
Una máquina, en correcto estado de funcionamiento, fabrica piezas cuya longitud

se distribuye según una N(10.5; 0.15). En determinado momento se observa la siguiente
muestra, de tamaño 40, de la longitud de las piezas producidas:
10.39 10.66 10.12 10.32 10.25 10.91 10.52 10.83

10.72 10.28 10.35 10.46 10.54 10.72 10.23 10.18
10.62 10.49 10.32 10.61 10.64 10.23 10.29 10.78
10.81 10.39 10.34 10.62 10.75 10.34 10.41 10.81
10.64 10.53 10.31 10.46 10.47 10.43 10.57 10.74
y se desea saber si la muestra avala que la máquina está funcionando correctamente.

Vamos a realizar el contraste de bondad del ajuste de χ2 primero y, posteriormente, el de
Kolmogorov-Smirnov.
Para realizar el contraste χ2 , tomamos 8 intervalos buscando los cuantiles de órdenes
0.125, 0.25, 0.375, · · ·, 0.875, de modo que el número esperado de valores sea 5 en cada
intervalo. La partición resultante es:
Ai ni ni,esp
≤ 10.33 10 5
(10.33, 10.4] 5 5
(10.4, 10.45] 2 5
(10.45, 10.5] 4 5
(10.5, 10.55] 3 5
(10.55, 10.6] 1 5
(10.6, 10.67] 6 5
> 10.67 9 5
Total 40 40
52 + 02 + 32 + 12 + 22 + 42 + 12 + 42
D= = 14.4
5
Si la hipótesis fuera correcta la distribución de D serı́a χ2 con 7 grados de libertad y la
tabla indica que
P (χ27 > 14.4) = 0.0445
Y, por tanto, se puede afirmar con cualquier nivel de significación superior a 0.0445 que
las piezas no siguen la distribución N(10.5; 0.15).
Para realizar ahora el contraste K-S se construye la siguiente tabla, cuya segunda
columna da el número de observaciones acumuladas hasta el valor muestral, la tercera
la función de distribución muestral (dividiendo por el tamaño de la muestra), la cuarta
la distribución teórica (dada por la hipótesis nula) y las dos siguientes las diferencias: la
quinta de la misma fila y la sexta de cada F0 (xi ) con la de la fila anterior de la distribución
de la muestra.
234 Estadı́stica
xi i Fn (xi ) F0 (xi ) Fn (xi ) − F0 (xi ) Fn (xi−1 ) − F0 (xi )

10.12 1 0.025 0.0056 0.0194 0.0056
10.18 2 0.050 0.0164 0.0336 -0.0086
10.23 4 0.100 0.0359 0.0641 -0.0141
10.25 5 0.125 0.0478 0.0772 -0.0522
10.28 6 0.150 0.0712 0.0788 -0.0538
10.29 7 0.175 0.0807 0.0943 -0.0693
10.31 8 0.200 0.1026 0.0974 -0.0724
10.32 10 0.250 0.1151 0.1349 -0.0849
10.34 12 0.300 0.1431 0.1569 -0.1069
10.35 13 0.325 0.1587 0.1663 -0.1413
10.39 15 0.375 0.2317 0.1433 -0.0933
10.41 16 0.400 0.2743 0.1257 -0.1007
10.43 17 0.425 0.3204 0.1046 -0.0796
10.46 19 0.475 0.3949 0.0801 -0.0301
10.47 20 0.500 0.4207 0.0793 -0.0543
10.49 21 0.525 0.4734 0.0516 -0.0266
10.52 22 0.550 0.5530 -0.0030 0.0280
10.53 23 0.575 0.5793 -0.0043 0.0293
10.54 24 0.600 0.6051 -0.0051 0.0301
10.57 25 0.625 0.6796 -0.0546 0.0796
10.61 26 0.650 0.7683 -0.1183 0.1433
10.62 28 0.700 0.7881 -0.0881 0.1381
10.64 30 0.750 0.8247 -0.0747 0.1247
10.66 31 0.775 0.8569 -0.0819 0.1069
10.72 33 0.825 0.9288 -0.1038 0.1538
10.74 34 0.850 0.9452 -0.0952 0.1202
10.75 35 0.875 0.9522 -0.0772 0.1022
10.78 36 0.900 0.9690 -0.0690 0.0940
10.81 38 0.950 0.9806 -0.0306 0.0806
10.83 39 0.975 0.9861 -0.0111 0.0361
10.91 40 1 0.9969 0.0031 0.0219
La entrada con mayor valor absoluto de la quinta columna es 0.1663 mientras que
la de la sexta es 0.1538. Ası́, el estadı́stico de Kolmogorov-Smirnov vale
∆40 = 0.1663
y, según la tabla, corresponde a un valor p muy cercano a 0.2 (y desde luego, mayor que
0.1). No hay, por tanto, evidencia según este contraste en contra de la hipótesis nula.
En este ejemplo se comprueba que, a veces, el contraste χ2 detecta diferencias que
el de Kolmogorov-Smirnov no es capaz de detectar.
Ejemplo 3
Hemos deducido del contraste χ2 anterior que la maquina no fabrica piezas tal y como
pensábamos. Sin embargo parece plausible pensar que la distribución de longitudes sigue
siendo normal, sólo que la media y desviación han cambiado. Probemos esta hipótesis.
Lo primero que ha de hacerse es estimar la media y la desviación tı́pica por máxima
verosimilitud. Para una normal, los estimadores de estas cantidades resultan ser la media
y la desviación muestral, obteniéndose para nuestra muestra
µ
b = x̄ = 10.502 σ
b = s = 0.2025
Tratemos de ajustar nuestros datos a una normal con estos parámetros. Tomamos
una partición arbitraria y construimos la tabla
Ai ni ni,esp
≤ 10.3 7 6.37
(10.3, 10.4] 8 5.92
(10.4, 10.5] 6 7.55
(10.5, 10.6] 4 7.59
(10.6, 10.7] 6 6.00
> 10.7 9 6.57
según la cual D = 3.708. Al tener seis intervalos y haber estimado dos parámetros la
distribución de D, si H0 es cierta, es una χ2 con 6 − 1 − 2 = 3 grados de libertad. Como
P (χ23 > 3.708) = 0.295
La muestra no permite ahora rechazar la hipótesis de que la longitud de las piezas fabri-
cadas sigue una distribución normal N(10.502; 0.2025).
Ejemplo 4
Los impactos de 60 bombas volantes sobre la superficie de Londres, considerada

cuadrada, fueron clasificados en 9 zonas obtenidas dividiendo cada lado en tres partes
iguales, con los siguientes resultados
236 Estadı́stica
8 7 3
5 9 11
6 4 7
Los responsables de la defensa querı́an averiguar si las bombas perseguı́an algún

objetivo concreto o se distribuı́an al azar sobre la superficie de la ciudad.
Con distribución uniforme sobre toda la superficie, cada cuadrı́cula tendrı́a probabi-
lidad 1/9 de recibir cada impacto y, por tanto, un número esperado de impactos de 60/9.
El estadı́stico de Person vale ahora
D = 7.5
y su distribución teórica deberı́a ser una χ2 con 8 grados de libertad.
P (χ28 > 7.5) = 0.48
valor que no permite rechazar la hipótesis de uniformidad.
Ejemplo 5
Un modelo genético indica que la distribución de daltónicos se ajusta a las proba-

bilidades
Hombres Mujeres
Normales q/2 q 2 /2 + pq
Daltónicos p/2 p2 /2
siendo p = 1−q la proporción de cromosomas X portadores del daltonismo. Para compro-

bar la teorı́a se examinaron 2000 individuos elegidos al azar con los siguientes resultados
Hombres Mujeres
Normales 894 1015
Daltónicos 81 10
y se desea saber si las observaciones concuerdan con el modelo.

Puesto que q no es conocido habrá que hallar su estimación de máxima verosimilitud.
La muestra observada tiene por verosimilitud
q 894 81 h 10

2000! 1−q q i1015 (1 − q)2
q 1−
894! 81! 1015! 10! 2 2 2 2
cuyo logaritmo (prescindiendo de los términos independientes de q) es
894 log q + 81 log (1 − q) + 1015 log q + 1015 log (2 − q) + 20 log (1 − q)
y tiene por derivada respecto a q
1909 101 1015

− −
q 1−q 2−q
La estimación de q es qb = 0.91277 y los números esperados en cada uno de los cuatro
grupos son
Hombres Mujeres
Normales 912.77 992.39
Daltónicos 87.23 7.61
El estadı́stico D = 2.097 debe seguir una distribución χ2 con 2 grados de libertad.

Como
P (χ22 > 2.097) = 0.35
no puede rechazarse la hipótesis nula.
Ejemplo 6
Se quiere estudiar si los distintos grupos sanguı́neos se presentan con las mismas
frecuencias en tres grupos étnicos diferentes. Para ello se analizaron un cierto número de
individuos de cada raza, obteniéndose los resultados siguientes:
Raza 0 A B AB Total
A 32 11 7 2 52
B 47 13 17 9 86
C 23 7 9 6 45
Total 102 31 33 17 183
El estadı́stico D = 4.691 y debe seguir una χ2 con 6 grados de libertad. Como
P (χ26 > 4.691) = 0.584
No podemos rechazar la igualdad de frecuencias.

Esta claro que las cifras de las distintas filas de la tabla anterior no son compa-
rables entre sı́ directamente, puesto que se refieren a diferentes tamaños muestrales. En
porcentajes, los datos se expresan:
238 Estadı́stica
Raza 0 A B AB Total
A 61.54 21.15 13.46 3.85 100
B 54.65 15.12 19.77 10.46 100
C 51.11 15.56 20.00 13.33 100
Total 55.74 16.94 18.03 9.29 100
La simple inspección de esta tabla parece indicar que hay diferencias significativas,
al menos entre el primer grupo étnico y los otros dos. Sin embargo, el contraste nos indica
que estas diferencias son completamente admisibles como debidas al azar y no contradicen,
en absoluto, la hipótesis de igualdad de fercuencia de cada grupo sanguı́neo.
Ejemplo 7
Para comprobar la eficacia del test χ2 de homogeneidad se han simulado dos mues-
tras aleatorias simples, de tamaño 50, de las distribuciones N(0,1) y Cauchy ( de densidad
π −1 (1 + x2 )−1 ), cuya apariencia gráfica es similar. Las muestras obtenidas han sido:
N(0,1) Cauchy
-0.99 1.54 -1.02 0.56 -0.36 -2.15 1.34 -2.98 1.22 0.46
0.31 -0.18 0.41 0.51 -0.44 -0.60 0.58 2.18 -0.63 1.03
-0.28 0.75 0.26 -0.89 1.76 -1.21 7.05 -5.96 1.23 0.77
0.98 -0.46 0.07 0.68 1.11 -16.39 0.03 0.71 -0.56 -0.91
0.39 -0.45 -0.44 1.27 -1.13 0.44 -27.53 0.44 3.77 -0.69
0.21 1.88 2.57 -0.80 -0.16 -0.52 1.24 -1.18 -0.52 0.28
0.89 0.03 0.25 0.58 0.83 -1.24 0.88 0.66 -0.96 0.29
0.31 0.99 0.15 -0.13 -1.56 1.28 1.58 -1.74 28.33 -0.58
-1.24 -0.64 -1.34 -0.99 1.85 0.08 -0.71 -4.07 2.45 1.41
-0.16 0.11 -1.21 -0.21 -0.22 12.89 1.28 1.39 -3.49 -1.42
Podemos clasificar estas muestras en los intervalos
Aj n1j n2j n·j

(−∞, −2] 0 7 7
(−2, −1.2] 4 4 8
(−1.2, −0.9] 4 3 7
(−0.9, −0.6] 3 4 7
(−0.6, −0.3] 5 4 9
(−0.3, 0] 7 1 8
(0, −0.3] 7 3 10
(0.3, 0.6] 7 4 11
(0.6, 0.9] 4 4 8
(0.9, 1.2] 3 1 4
(1.2, 2] 5 9 14
(2, ∞] 1 6 7
Total 50 50 100
El estadı́stico D toma el valor 20.03 y tiene distribución χ2 con 11 grados de libertad.

Puesto que
P (χ211 > 20.03) = 0.045
se puede rechazar la homogeneidad de ambas muestras con nivel crı́tico 0.045.
Ejemplo 8
Para estudiar si el grupo sanguı́neo tiene relación con la predisposición a padecer

diabetes, se seleccionan al azar 400 sujetos de los que se ha determinado el grupo san-
guı́neo y el nivel de glucosa en idénticas condiciones experimentales. Clasificada la segunda
medida en bajo, medio y alto, los resultados han sido:
Bajo Medio Alto Total

0 137 86 35 258
A 42 23 11 76
B 19 17 7 43
AB 14 7 2 23
Total 212 133 55 400
Con los datos expresados en la tabla se obtiene D = 2.406. Por otra parte, D tiene
distribución χ2 con 6 grados de libertad y
P (χ26 > 2.204) = 0.9

240 Estadı́stica
por lo que no puede concluirse de ninguna manera que haya una relación entre el grupo
sanguı́neo y la diabetes.
Ejemplo 9
Un laboratorio farmacéutico afirma que uno de sus productos confiere inmunidad

contra la picadura de insectos durante un tiempo exponencial de media 2.5 horas. Probado
en 25 sujetos, en un ambiente con gran número de mosquitos, los instantes (en horas) en
que recibieron la primera picadura fueron:
0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.23 0.51

0.74 0.96 1.17 1.46 1.62 2.18 2.25 2.79 3.45
3.83 3.92 4.27 5.43 5.79 5.91 6.34
Construimos, para realizar un contraste K-S, la tabla:
xi i Fn (xi ) F0 (xi ) Fn (xi ) − F0 (xi ) Fn (xi−1 ) − F0 (xi )

0.01 2 0.08 0.004 0.076 0.004
0.02 5 0.20 0.008 0.192 -0.072
0.03 7 0.28 0.012 0.268 -0.188
0.23 8 0.32 0.088 0.232 -0.192
0.51 9 0.36 0.185 0.175 -0.135
0.74 10 0.40 0.256 0.144 -0.104
0.96 11 0.44 0.319 1.121 -0.081
1.17 12 0.48 0.374 0.106 -0.066
1.46 13 0.52 0.442 0.078 -0.038
1.62 14 0.56 0.477 0.083 -0.043
2.18 15 0.60 0.582 0.018 0.022
2.25 16 0.64 0.593 0.047 -0.007
2.79 17 0.68 0.672 0.008 0.032
3.45 18 0.72 0.748 -0.028 0.068
3.83 19 0.76 0.784 -0.024 0.064
3.92 20 0.80 0.792 0.008 0-032
4.27 21 0.84 0.819 0.021 0-019
5.43 22 0.88 0.886 -0.006 0.046
5.79 23 0.92 0.901 0.019 0.021
5.91 24 0.96 0.906 0-054 -0.014
6.34 25 1 0.921 0.079 -0.039
en la que la cuarta columna contiene la función de distribución teórica: 1−e−0.4x . Se tiene,

de esta tabla, que ∆25 = 0.268 y la correspondiente tabla indica que la hipótesis de que la
distribución es la que dice la empresa puede ser rechazada con nivel de significación 0.05.
Probemos ahora un contraste χ2 . Como hay sólo 25 datos lo más lógico es descom-
poner el recorrido de la variable en 5 intervalos de probabilidad 1/5, obteniéndose:
Ai ni ni,esp
[0, 0.558) 9 5
(0.558, 1.277] 3 5
(1.277, 2.291] 4 5
(2.291, 4.024] 4 5
(4.024, ∞) 5 5
y un valor del estadı́stico D = 4.4 que, comparado con la distribución χ24 , no permite
rechazar la hipótesis de ajuste ni siquiera con nivel de significación 0.3. Ahora es este
contraste el que no es capaz de detectar las diferencias que sı́ ha detectado Kolmogorov-
Smirnov.
Ejemplo 10
Una empresa decide adelantar su horario de entrada en una hora. Antes del cambio
sabı́a que la media de retraso de sus empleados era de 5 minutos. Tras el cambio selecciona
12 empleados y observa, en un determinado dı́a, los siguientes retrasos (en minutos):
2.5 1.2 7 1.8 8.3 6.8 5.2 3.4 4.7 6.2 9.1 5.2
El contraste que desea realizar la empresa es H0 : Me = 5 (los retrasos no han variado)

frente a H1 : Me > 5 (los retrasos han aumentado). Vamos a emplear el test de los signos:
el número de datos superiores a 5 es T = 7, y la distribución binomial B(12, 1/2),indica
que, si H0 es correcta,
P (T ≥ 7) = 0.3871
lo que indica que no es rechazable la hipótesis nula.
Ejemplo 11
Supongamos ahora que la empresa anterior seleccionó 16 de sus empleados y mi-

dió sus retrasos en dos dı́as , antes y después del cambio de horario. Los resultados
fueron:
242 Estadı́stica
2.1/3.4 1.2/5.1 4.2/2.6 4.6/7.4 0.7/2.4 3.2/2.7 5.6/5.2 1.8/2.9

4.8/6.5 2.3/7.3 0.4/0.8 2.5/2.2 3.2/9.8 4.7/2.8 1.6/2.2 6.3/6.5
que se traduce en los siguientes aumentos de los retrasos:
1.3 3.9 -1.6 2.8 1.7 -0.5 -0.4 1.1

1.7 5.0 0.4 -0.3 6.6 -1.9 0.6 0.2
Si Me es la mediana de la distribución de incrementos se puede contrastar, ahora,

la hipótesis H0 : Me = 0 frente a H1 : Me > 0. El número de incrementos positivos es
T = 11 y la distribución binomial B(16, 1/2) proporciona
P (T ≥ 11) = 0.105
y se podrı́a rechazar la hipótesis Me = 0 con nivel crı́tico 0.105.
Ejemplo 12
Supongamos que la distribución de sodio por unidad de volumen de sangre en una

población es simétrica alrededor de 3.24 g. Se ha cambiado el suministro de agua y se han
obtenido los siguientes análisis de 15 habitantes (en gramos por unidad de volumen):
2.37 2.95 3.40 2.46 3.66 3.18 2.72 3.71

3.87 1.97 1.66 3.72 2.10 1.83 3.03
Las diferencias respecto a la mediana, con los rangos, en la ordenación creciente de

sus valores absolutos, indicados junto a cada término, tal y como se requiere para aplicar
el test de los rangos asignados a H0 : Me = 3.24 frente a H1 : Me 6= 3.24 son:
−0.8711 −0.294 +0.162 −0.69 +0.426 −0.061 −0.528 +0.375

+0.6310 −1.2713 −1.5815 +0.487 −1.1412 −1.4114 −0.213
La suma de los rangos de los términos positivos es T + = 2 + 6 + 5 + 10 + 7 = 30.

Con nivel de significación α = 0.1 la tabla indica que la hipótesis Me = 3.24 puede ser
rechazada si T + ≥ 89 ó T + ≤ 31. En cambio, para α = 0.05 la región crı́tica del test es
T + ≥ 94 ó T + ≤ 26. Los datos obtenidos permiten, pues, afirmar que la distribución de
la cantidad de sodio ha variado, con un riesgo de error próximo al 10 %.
Ejemplo 13
En 8 personas elegidas al azar se analizó el contenido en sodio antes y después del

cambio de suministro de agua, con los siguientes resultados:
3.34/2.58 2.82/2.46 3.06/3.50 2.30/2.16

4.22/3.78 3.55/3.19 2.61/2.94 2.83/1.94
Los incrementos han sido:
-0.76 -0.36 +0.44 -0.14 -0.44 -0.36 +0.33 -0.89

(7) (3.5) (5.5) (1) (5.5) (3.5) (2) (8)
con los rangos que se indican en la segunda fila. El test de Wilcoxon para el contraste de
Me = 0 frente a Me 6= 0 nos proporciona el estadı́stico T + = 7.5, mientras que la tabla
correspondiente indica que, con nivel de significación 0.1, la hipótesis Me = 0 sólo podrı́a
rechazarse si fuese T + ≥ 30 ó T + ≤ 6.
Ejemplo 14
Las ventas de los establecimientos A y B fueron controladas durante 9 y 12 dı́as

respectivamente, con los siguientes resultados (en miles de pesetas):
A: 132.5 167.4 189.8 124.6 136.6 147.5 159.9 117.8 106.3

B: 97.4 108.2 114.1 86.3 101.8 122.6 78.3 136.2 89.5
118.4 109.2 92.7
La ordenación conjunta de ambas muestras (sin perder la procedencia de cada dato)

figura en la siguiente tabla:
A: 106.3 117.8
B: 78.3 86.3 89.5 92.7 97.4 101.8 108.2 109.2 114.1
A: 124.6 132.5 136.6 147.5 159.9 167.4 189.8

B: 118.4 122.6 136.3
La mediana de la muestra conjunta (que ocupa el valor 11) es el valor 117.8 y hay
un único término de la primera muestra inferior a este, luego T = 1.
Para contrastar Mex = Mey frente a Mex > Mey con nivel de significación α, el test
de la mediana utiliza la región crı́tica {T ≤ k} donde ha de ser
244 Estadı́stica
! !
10 11
k
X t 9−t
P (T ≤ k) = ! ≤α
t=0 21
9
Con k = 1 el nivel de significación resulta α = 0.0058, de forma que se puede afirmar
que Mex > Mey con gran seguridad.
El contratse χ2 aplicado a la tabla de contingencia
< 120 > 120 Total

A 2 7 9
B 10 2 12
Total 12 9 21
da una valor del estadı́stico D = 7.84 que, comparado con una distribución χ21 , permite
también descartar la homogeneidad de ambas muestras con nivel de significación inferior
a 0.01.
Con los tamaños muestrales usados y la partición elegida, el contraste χ2 es menos
fiable que el de la mediana. Con tamaños muestrales grandes, y sobre todo si no hay
constancia de la igualdad de forma de las distribuciones, es preferible el contraste χ2 .
Tratemos ahora de emplear el test de Mann-Whitney. Para la ordenación de las
muestras anterior basta contar el número de elementos de la muestra B que hay por
debajo de cada elemento de la muestra A para obtener:
V = 6 + 9 + 11 + 11 + 12 + 12 + 12 + 12 + 12 = 97
Como V es aproximadamente N(54, 14.07) tenemos
P (V > 96) ≃ P (N(0, 1) > 2.98) = 0.0014
y el test de Mann-Whitney corrobora, con nivel de significación inferior a 0.005 que las
ventas del establecimiento A son superiores a las del B.
Ejemplo 15
En 10 empleados de una empresa se ha observado la distancia (en km.) de su do-

micilio a la sede de la empresa y el retraso (en min.) con el que llegaron al trabajo cierto
dı́a. Los resultados fueron:
(3.3, 5, 1) (2.4, 3.6) (1.9, 4.2) (2.8, 6.3) (1.2, 2.3)

(2.7, 3.4) (4.0, 2.8) (0.7, 3.2) (6.1, 5.3) (3.7, 3.7)
Ordenada la muestra según la distancia, los retrasos asociados son
3.2 2.3 4.2 3.6 3.4 6.3 5.1 3.7 2.8 5.3
(3) (1) (7) (5) (4) (10) (8) (6) (2) (9)
cuyos rangos (en la ordenación de valores de menor a mayor) se han indicado debajo
de cada uno. El recuento de valores mayores que quedan a la derecha de cada rango
proporciona
P = 7 + 8 + 3 + 4 + 4 + 0 + 1 + 1 + 1 = 29
con lo cual T = 13/45 = 0.288. La correspondiente tabla indica que deberı́a ser T > 0.33
para poder rechazar la hipótesis de independencia con nivel de significación 0.1. Por tanto,
los datos no permiten concluir que haya relación entre el retraso y la distancia del domicilio
a la empresa.
Probemos ahora con el test de Spearman. Con la ordenación ya efectuada anterior-
mente:
U = 22 + 12 + 42 + 12 + 12 + 42 + 12 + 22 + 72 + 12 = 94
y el estadı́stico de Spearman vale RS = 1 − 6U/990 = 0.43. De la correspondiente tabla

observamos que dicho coeficiente no es suficiente para rechazar la independencia entre las
variables ni siquiera con nivel de significación 0.1.
Ejemplo 16
Al extraer 17 bolas con reemplazamiento de una bolsa con bolas blancas y negras
se ha obtenido el resultado
BBBBNNNBBBBBBBBNN
que muestra R = 4 rachas. Puesto que hay 12 blancas y 5 negras, el número de rachas
podrı́a haber sido cualquiera entre 2 y 11. Las fórmulas dadas anteriomente permiten
calcular la probabilidad de cada uno de los valores:
2 3 4 5 6 7 8 9 10 11
0.0003 0.002 0.014 0.046 0.107 0.195 0.213 0.24 0.107 0.075
Incluyendo las probabilidades de menor a mayor, se observa que {R ≤ 4} es la región

crı́tica con tamaño α = 0.0169; con tamaño α = 0.0631 se podrı́a rechazar para {R ≤ 5}
S
y para α = 0.1377 se obtendrı́a la región crı́tica {R ≤ 5} {R = 11}.
246 Estadı́stica
Ejemplo 17
Queremos comprobar si al tomar en dı́as consecutivos los datos de ventas del es-
tablecimiento B del ejemplo 14 hemos afectado a su independencia. Los 12 datos tienen
como mediana 105. Los términos de la muestra original, comparados con esta mediana
dan la secuencia de signos
-++--+-+-++-
con R = 9 rachas. Con n = m = 6 la distribución de R es simétrica entre 2 y 12,

obteniéndose las probabilidades:
2 y 12 3 y 11 4 y 10 5y9 6y8 7
0.002 0.011 0.054 0.011 0.216 0.216
S
La región crı́tica {R ≤ 4} {R ≥ 10} tendrı́a tamaño =0.134, de forma que, con
R = 9, no puede afirmarse que la toma de datos en dı́as consecutivos haya afectado a la
independencia de la muestra.
Ejemplo 18
Una afección de la glándula tiroides ha sido investigada en una cierta región durante
los años ochenta. El número de casos observados desde junio de 1986 hasta mayo de 1989
vienen dados en la siguiente tabla
Año Mes
E F M A M J J A S O N D
1986 6 9 8 6 8 11 8
1987 5 4 4 2 1 8 8 6 2 2 1 2
1988 7 8 3 1 2 7 7 6 5 5 3 5
1989 1 2 1 1 2
Se quiere investigar si existe o no alguna periodicidad en dicha enfermedad contras-

tando: (a) Si pueden considerarse homogéneas las tres temporadas durante las cuales se
recogieron los datos. (b) Si los casos se presentan con variaciones estacionales.
(a) En primer lugar se trata de detectar si hay una pauta común en los tres ciclos
anuales considerados, ya que, en caso contrario, ello significarı́a que el comportamiento es
diferente cada año. Para ello , conviene agrupar los datos de la froma
J J A S O N D E F M A-M Total
1986-87 6 9 8 6 8 11 8 5 4 4 3 72
1987-88 8 8 6 2 2 1 2 7 8 3 3 50
1988-89 7 7 6 5 5 3 5 1 2 1 3 45
Total 21 24 20 13 15 15 15 13 14 8 9 167
con los meses de abril y mayo sumados para conseguir que sea ni n·j /n ≥ 2. El estadı́stico
de contraste toma el valor
m X k 3 X 11
!
X (nij − ni n·j /n)2 X nij
D= = n −1 + = 24.477
i=1 j=1
ni n·j /n nn
i=i j=1 i ·j
y D tiene distribución χ220 , cuya tabla indica que la hipótesis de que las tres temporadas
siguen el mismo patrón no puede ser rechazada con nivel de significación 0.1 (el nivel
crı́tico es, de hecho, 0.222).
(b) Admitida la homogeneidad de las tres muestras, los 167 casos, agrupados por
meses, se distribuyen como indica la tabla siguiente
J J A S O N D E F M A M
21 24 20 13 15 15 15 13 14 8 4 5
La influencia del mes sobre el número de casos ocurridos tendrı́a que ser descartada
si las frecuencias observadas fuesen compatibles con probabilidades de 1/12 para cada
uno de ellos; es decir si no pudiese admitirse que los datos fueran desviaciones debidas al
azar en torno a 167/12 casos por mes. El estadı́stico de Pearson para dicho contraste vale
12
12 X 2
D = −167 + n = 29.24
167 j=1 j
y tiene distribución χ211 . La hipótesis de uniformidad de la distribución puede rechazarse,

por tanto, con nivel de significación 0.005.
Las diferencias entre los tres meses de verano (J,J,A) no son significativas, pues los
datos
J J A
21 24 20
65/3 65/3 65/3
3
X
dan como valor del estadı́stico de Pearson D = −65 + 3/65 n2j = 0.4 que, comparado
j=1
con la distribución χ22 no permite rechazar la hipótesis de que los casos se presentan
unifromemente distribuidos entre los tres meses.
248 Estadı́stica
Lo mismo ocurre con los tres meses de primavera (M,A,M: D = 1.53 < χ22;0.1 ) y, por
supuesto, con los seis meses de otoño-invierno.
En cambio, existen diferencias significativas entre estos tres periodos. Por ejemplo,
la comparación entre el verano y los seis meses siguientes da como resultado
Verano Otoño-Invierno
65 85
150/3 2 · 150/3
D = 6.75 > χ21;0.01

de manera que no hay un reparto uniforme de los casos entre los tres meses de verano y
los seis siguientes.
En definitiva, puede concluirse que la incidencia de la enfermedad es más alta en
verano y más baja en primavera, respecto del nivel medio durante el resto del año.
Los datos de este ejemplo corresponden a una serie temporal (un conjunto de ob-
servaciones a lo largo del tiempo) que tienen su tratamiento especı́fico. Esto no significa,
sin embargo, que los resultados obtenidos mediante las técnicas estándar para estas series
sean “mejores”que las que hemos obtenido. La principal diferencia radica en la capacidad
que da el análisis de series temporales de predecir el comportamiento futuro (al menos a
corto plazo).
Ejemplo 19
Las 100 primeras cifras decimales del número π son
π = 3.14159265358979323846264338327950288419716939937510
58209749445923078164062862089986280348253421170679
y queremos saber si estas cifras tienen las propiedades de una secuencia de cifras elegida
al azar.
Se puede contrastar, en primer lugar, si todas las cifras aparecen con la misma
frecuencia 1/10, que si hubiesen sido elegidas al azar de una urna con diez bolas numeradas
del 0 al 9.
Para ello comparamos las frecuencias esperadas y observadas, mediante la tabla
0 1 2 3 4 5 6 7 8 9
ni 8 8 12 11 10 8 9 8 12 14
ni,esp 10 10 10 10 10 10 10 10 10 10
El valor del estadı́stico de Pearson resulta

9
1 X
D= (ni − 10)2 = 4.2
10 i=0
que, comparado con la distribución χ29 lleva a aceptar la hipótesis de unifromidad con un
nivel crı́tico próximo a 0.9.
Podemos contrastar ahora si la posición de las cifras parece el resultado de haberlas
elegido al azar, sin dependencia entre ellas. Para ello lo adecuado es el test de rachas:
eligiendo 4.5 como promedio de las 10 cifras, se indican con un + o un - aquellos dı́gitos
que sean, respectivamente, menores o mayores que 4.5; se obtiene ası́
1 4 1 5 9 2 6 5 3 5 8 9 7 9 3 2 3 8 4 6
− − − + + − + + − + + + + + − − − + − +
2 6 4 3 3 8 3 2 7 9 5 0 2 8 8 4 1 9 7 1
− + − − − + − − + + + − − + + − − + + −
6 9 3 9 9 3 7 5 1 0 5 8 2 0 9 7 4 9 4 4
+ + − + + − + + − − + + − − + + − + − −
5 9 2 3 0 7 8 1 6 4 0 6 2 8 6 2 0 8 9 9
+ + − − − + + − + − − + − + + − − + + +
8 6 2 8 0 3 4 8 2 5 3 4 2 1 1 7 0 6 7 9
+ + − + − − − + − + − − − − − + − + + +
con n = 49 signos – y m = 51 signos + y un total de R = 54 rachas. Como n y m son

grandes, para que la colocación de las cifras parezca hecha al azar, R tendrı́a que tener
aproximadamente distribución
r !
2 · 49 · 51 2 · 49 · 51 · (2 · 49 · 51 − 49 − 51)
N + 1; = N(50.98; 4.97)
100 990000
El nivel crı́tico resulta
2P (R > 54) = 2P (Z > 0.61) = 0.5418
que no permite, en absoluto, afirmar que las cifras no están colocadas al azar.
Otra posibilidad, en la misma dirección, es clasificar las cifras en pares e impares,
tratando de detectar alguna regularidad en la colocación de unas y otras. Concretamente
tenemos ahora la tabla:
250 Estadı́stica
1 4 1 5 9 2 6 5 3 5 8 9 7 9 3 2 3 8 4 6
i p i i i p p i i i p i i i i p i p p p
2 6 4 3 3 8 3 2 7 9 5 0 2 8 8 4 1 9 7 1
p p p i i p i p i i i p p p p p i i i i
6 9 3 9 9 3 7 5 1 0 5 8 2 0 9 7 4 9 4 4
p i i i i i i i i p i p p p i i p i p p
5 9 2 3 0 7 8 1 6 4 0 6 2 8 6 2 0 8 9 9
i i p i p i p i p p p p p p p p p p i i
8 6 2 8 0 3 4 8 2 5 3 4 2 1 1 7 0 6 7 9
p p p p p i p p p i i p p i i i p p i i
con n = 49 cifras impares, m = 51 pares y R = 43 rachas. La distribución aproximada de

R es la misma normal anterior y el nivel crı́tico resulta
2P (R > 43) = 2P (Z > −1.6) = 0.1096
que tampoco permite afirmar que las cifras no están situadas como si hubiesen sido elegidas
al azar.
Regresión
17 lineal simple
Índice
17.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
17.3. Método de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . 254
17.4. Propiedades de los estimadores de mı́nimos cuadrados . . . . 256
17.4.1. Propiedades generales . . . . . . . . . . . . . . . . . . . . . . . 256
17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . 257
17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
17.6. Inferencias respecto a los parámetros . . . . . . . . . . . . . . 258
17.7. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
17.7.1. Estimación de la respuesta media . . . . . . . . . . . . . . . . . 259
17.7.2. Predicción de una observación . . . . . . . . . . . . . . . . . . . 260
17.8. Análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . 261
17.9. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . 263
17.9.1. Inferencias sobre el coeficiente de correlación . . . . . . . . . . 264
17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . 265
251
252 Estadı́stica
En la práctica, con mucha frecuencia es necesario resolver problemas que implican
conjuntos de variables, cuando se sabe que existe alguna relación inherente entre ellas.
Por ejemplo, en un caso industrial, se puede saber que el contenido de alquitrán en el
producto de salida de un proceso quı́mico está relacionado con la temperatura con la que
éste se lleva a cabo. Puede ser interesante desarrollar un método de predicción, esto es,
un procedimiento para estimar el contenido de alquitrán para varios niveles de tempera-
tura tomados de información experimental. El aspecto estadı́stico del problema consiste
entonces en lograr la mejor estimación de la relación entre las variables.
Para este ejemplo y para la mayorı́a de las aplicaciones, existe una clara distinción
entre las variables en cuanto a su papel dentro del proceso experimental. Muy a menudo
se tiene una sola variable dependiente o respuesta Y , que no se controla en el experimento.
Esta respuesta depende de una o más variables independientes o de regresión, como son
x1 , x2 , . . . , xk , las cuales se miden con un error despreciable y en realidad, en la mayorı́a de
los casos, se controlan en el experimento. Ası́, las variables independientes no son aleatorias
y por tanto no tienen propiedades distribucionales. En el ejemplo citado anteriormente,
la temperatura es la variable independiente o variable de regresión, x, y el contenido de
alquitrán es la respuesta, Y . La relación fija para un conjunto de datos experimentales se
caracteriza por una ecuación de predicción que recibe el nombre de ecuación de regresión.
En el caso de una sola x, se habla de regresión simple. Para k variables independientes,
se habla de regresión múltiple.
En este curso se tratará el tema de la regresión lineal simple. Representamos una
m.a.s. de tamaño n por el conjunto {(x1 , y1), . . . , (xn , yn )}. Si se tomaran muestras adi-
cionales utilizando exactamente los mismos valores de x, se debe esperar que los valores
de y varı́en. De ahı́ que el valor yi en el par ordenado (xi , yi ) sea un valor de la v.a. Y |xi .
Por conveniencia se define Y |x como la v.a. Y correspondiente a un valor genérico x, y su
media y su varianza se indican por µY |x y σ 2 Y |x , respectivamente; mientras que si x = xi ,
el sı́mbolo Yi representa la v.a. Y |xi con media µYi = µY |xi y varianza σ 2 Yi = σ 2 Y |xi .
El término regresión lineal implica que µY |x está linealmente relacionado con x por
la recta de regresión lineal poblacional
µY |x = α + βx
donde los coeficientes de regresión α y β son parámetros que deben estimarse a partir de
los datos muestrales. Si a y b representan estas estimaciones, respectivamente, se puede
17 Regresión lineal simple 253
Figura 17.1: Descripción del modelo de regresión lineal simple.
entonces estimar µY |x por yb de la regresión muestral o recta de regresión ajustada o

estimada
yb = a + bx
El sı́mbolo yb se utiliza aquı́ para distinguir entre el valor estimado que da la recta
de regresión muestral y el valor experimental real observado, y, para algún valor de x.
17.2. Modelo lineal

En el caso de una regresión lineal simple, donde hay una sola variable de regresión,
x, y una sola v.a. dependiente, Y , los datos pueden representarse por los pares de observa-
ciones {(x1 , y1 ), . . . , (xn , yn )}. Es conveniente utilizar los conceptos de la sección anterior
para definir cada v.a. Yi = Y |xi por medio de un modelo estadı́stico. Si se postula que
todas las medias µYi caen sobre una recta (Fig. 17.1),
µYi = α + βxi i = 1, . . . , n (17.1)
entonces cada Yi puede describirse por el modelo de regresión lineal simple
Yi = µYi + Ei = α + βxi + Ei i = 1, . . . , n (17.2)

254 Estadı́stica
Figura 17.2: Descripción del error del modelo (εi ) y del residuo (ei ).
donde el error aleatorio Ei , el error del modelo, debe tener media nula. Cada observación
(xi , yi ) de la muestra satisface la ecuación
yi = α + βxi + εi (17.3)
donde εi es el valor que asume la v.a. Ei cuando Yi toma el valor yi . La ecuación anterior
puede considerarse como el modelo para una sola observación yi .
De manera similar, al utilizar la recta de regresión lineal estimada
yb = a + bx
cada par de observaciones satisface la relación
yi = a + bxi + ei (17.4)
donde ei = yi − ybi se llama residuo y describe el error en el ajuste del modelo en el punto
i de los datos. La diferencia entre ei y εi se muestra claramente en la figura 17.2.
17.3. Método de mı́nimos cuadrados

El método se basa en encontrar las estimaciones a y b de α y β de tal forma que la
suma de los cuadrados de los residuos sea mı́nima. Si notamos por
P P P
SSE = e2i = (yi − ybi )2 = (yi − a − bxi )2
Derivando respecto de a y b, e igualando a cero se tiene

 P P
 ∂(SSE)

 = −2 (yi − a − bxi ) = 0 (=⇒ ei = 0)
 ∂a
(17.5)


 ∂(SSE) = −2 P(y − a − bx )x = 0 (=⇒ P x e = 0)

i i i i i
∂b
de donde  P P

 na + b xi =
 yi

 a P x + b P x2 = P x y

i i i i
que se pueden resolver para dar las expresiones de a y b

 P P P

 n xi yi − ( xi ) ( yi )

 b= P 2 P 2

 n x − ( xi )

 i
(17.6)



 P P


 y i−b xi
 a=
n
Para simplificar un poco, definimos
1P
x̄ = xi
n
1P
ȳ = yi
n
P P 1 P P
Sxx = (xi − x̄)2 = x2i − ( xi )2 = x2i − nx̄2
n
P P 2 1 P 2 P 2
Syy = (yi − ȳ)2 = yi − ( yi ) = yi − nȳ 2
n
P P 1 P P P
Sxy = (xi − x̄)(yi − ȳ) = xi yi − ( xi ) ( yi ) = xi yi − nx̄ȳ
n
Entonces,
Sxy
b=
Sxx
(17.7)
a = ȳ − bx̄
Por tanto, la recta de regresión estimada se puede expresar como
yb = ȳ + b(x − x̄) (17.8)

256 Estadı́stica
17.4. Propiedades de los estimadores de mı́nimos cua-

drados
17.4.1. Propiedades generales

Además de la suposición de que el término de error del modelo, Ei , es una v.a. con
media cero, supongamos que cada Ei tiene la misma varianza, σ 2 (homocedasticidad), y
que E1 , E2 , . . . , En son independientes. Con estas hipótesis sobre las Ei podemos calcular
la media y la varianza de los estimadores de α y β.
Es importante recordar que los valores de a y b, obtenidos en base a una muestra
dada de n observaciones, son solo estimaciones de los parámetros reales α y β. Si el
experimento se repite varias veces, utilizando los mismos valores de x, es muy probable que
las estimaciones resultantes de α y β difieran de un experimento a otro. Estas estimaciones
diferentes pueden considerarse como valores asumidos por las v.a. A y B.
Dado que los valores de x permanecen fijos, los valores de A y B dependen de
las variaciones de los valores de y, o en forma más precisa, de los valores de las v.a.
Y1 , Y2 , . . . , Yn . Las suposiciones distribucionales de las Ei implican que Y1 , Y2 , . . . , Yn tam-
bién se distribuyen independientemente con medias µYi = α + βxi y varianzas iguales σ 2 ;
es decir, σ 2 Yi = σ 2 para i = 1, 2, . . . , n. Dado que el estimador
P P P P P P
nxi Yi − ( xi ) ( Yi ) n xi Yi − nx̄ ( Yi ) (x − x̄)Yi
B= P 2 P 2 = = P i
n xi − ( xi ) P 2 1 P 2 (xi − x̄)2
n xi − ( xi )
n
P
es de la forma B = ai Yi , donde
(xi − x̄)
ai = P i = 1, 2, . . . , n
(xi − x̄)2
entonces,
P P
(xi − x̄)E[Yi ] (xi − x̄)(α + βxi )
µB = E[B] = P 2 = P =
(xi − x̄) (xi − x̄)2
1 P P P 1 P
= [α xi + β x2i − nαx̄ − β x̄ xi ] = β [ x2i − nx̄2 ] = β
Sxx Sxx
P P
(xi − x̄)2 Var(Yi ) σ 2 (xi − x̄)2 σ2 σ2
σB2 = Var(B) = P 2 = P 2 =
P =
( (xi − x̄)2 ) ( (xi − x̄)2 ) (xi − x̄)2 Sxx
Igualmente, el estimador A se puede expresar como
P P P
Yi − B xi 1P (xi − x̄)Yi P 1 x̄(xi − x̄)
A= = Yi − x̄ P = −P Yi
n n (xi − x̄)2 n (xi − x̄)2
es decir, A también es una combinación lineal de las v.a. independientes Yi , por tanto,
operando, se llega fácilmente a

P 1 x̄(xi − x̄)
µA = E[A] = −P E[Yi ] = α
n (xi − x̄)2
2 rP 2
1 P
x̄(xi − x̄) xi
σA2= Var(A) = −P 2 Var(Yi ) = σ 2
n (xi − x̄) nSxx
Por tanto, sea cual sea la distribución de los errores del modelo, los estimadores
mı́nimo cuadráticos, A y B, de los coeficientes de regresión α y β, son insesgados.
Por la propia definición de los estimadores A y B, se deduce que no son indepen-
dientes, siendo
x̄σ 2
Cov(A, B) = E[(A − α)(B − β)] = −
Sxx
17.4.2. Condiciones de normalidad

Para conocer la forma de la distribución de los estimadores A y B, es necesario co-
nocer previamente la distribución de los errores del modelo. Si a las hipótesis de indepen-
dencia y homocedasticidad de los errores del modelo añadimos la hipótesis de normalidad,
es decir, Ei ≡ N(0, σ) i = 1, . . . , n, entonces todas las v.a. involucradas hasta ahora: Yi ,
A, B, resultan ser combinaciones lineales de v.a. Normales e independientes, por tanto su
distribución también será Normal. Ası́,


 Yi ≡ N(µYi , σ) i = 1, . . . , n






 B ≡ N(β, σ/√S )

xx
Si Ei ≡ N(0, σ) i = 1, . . . , n =⇒



 rP 2 !



 xi

 A ≡ N α, σ nS
xx
17.5. Varianza residual

Según lo expuesto anteriormente, la hipótesis de normalidad en los errores del modelo
asegura la normalidad de los estimadores mı́nimo cuadráticos sin embargo, para tener
258 Estadı́stica
completamente especificadas sus distribuciones, es necesario tener una estimación de la

varianza de los errores, σ 2 . Para ello, definimos la varianza residual como
P 2 P
SSE ei (yi − ybi )2
s2 = = =
n−2 n−2 n−2
Veamos una forma más sencilla de expresar s2
P P
SSE = (yi − ybi )2 = (yi − a − bxi )2 =
P P
= (yi − (ȳ − bx̄) − bxi )2 = ((yi − ȳ) − b(xi − x̄))2 =
P P P
= (yi − ȳ)2 + b2 (xi − x̄)2 − 2b (yi − ȳ)(xi − x̄) =
= Syy + b2 Sxx − 2bSxy = Syy + bSxy − 2bSxy = Syy − bSxy
Por tanto, P
2 (yi − ybi )2 Syy − bSxy
s = = (17.9)
n−2 n−2
y, como es habitual en la varianzas que proceden de distribuciones normales, la varianza
residual sigue una distribución del tipo Chi-cuadrado. En particular,
(n − 2)s2
2
≡ χ2n−2 (17.10)
σ
Por tanto, la varianza residual es una estimación insesgada de la varianza de los
errores del modelo.
17.6. Inferencias respecto a los parámetros

Una vez estimada la varianza de los errores, y recordando que mantenemos las
hipótesis de normalidad de los mismos, podemos construir los estadı́sticos adecuados para
realizar inferencias respecto a los parámetros de regresión. Ası́,
√ 
B ≡ N(β, σ/ Sxx ) 
 B−β

 √
σ/ Sxx B−β
=⇒ s = √ ≡ tn−2 (17.11)
(n − 2)s 2 
 (n − 2)s 2 s/ S xx
≡ χ2n−2 

σ 2 (n − 2)σ 2
rP !  A−α
x2i 
 rP 2
A ≡ N α, σ 
 xi
nSxx 
 σ
nSxx A−α
=⇒ s = r P 2 ≡ tn−2 (17.12)

 (n − 2)s2 xi

 s
(n − 2)s2 
 nSxx
2
≡ χ2n−2 (n − 2)σ 2
σ
Por tanto, un intervalo de confianza del (1 − α)100 % para la pendiente de la recta

de regresión poblacional, β, es
s s
b − tα/2 √ < β < b + tα/2 √
Sxx Sxx
y, un intervalo de confianza del (1 − α)100 % para la ordenada en el origen de la recta de
regresión poblacional, α, es
rP rP
x2i x2i
a − tα/2 s < α < a + tα/2 s
nSxx nSxx
17.7. Predicción
Un modelo de regresión, fijado un valor particular de la variable independiente (xp ),
permite en primer lugar, estimar el valor medio de la respuesta (µYp ); y en segundo lugar,
prever futuros valores de la variable respuesta (yp ).
Tanto la estimación de la media, como la predicción de un valor de la variable
dependiente, se obtienen sustituyendo en la recta de regresión estimada. Es decir,
µYp ≃ ybp = a + bxp

yp ≃ ybp = a + bxp
sin embargo, la precisión de estas estimaciones es distinta, como veremos en las siguientes
secciones.
17.7.1. Estimación de la respuesta media

Utilizando la notación habitual para v.a.
Ybp = A + Bxp
entonces
E[Ybp ] = E[A + Bxp ] = E[A] + E[B]xp = α + βxp = µYp
Var(Ybp ) = Var(A + Bxp ) = Var((Ȳ − B x̄) + Bxp ) = Var(Ȳ + B(xp − x̄)) =

σ2 σ2 1 (xp − x̄)2
2
= Var(Ȳ ) + (xp − x̄) Var(B) = + (xp − x̄)2 = σ2 +
n Sxx n Sxx
260 Estadı́stica
donde hemos utilizado el hecho de que las variables Ȳ y B son independientes. Entonces,
r ! 
1 (xp − x̄)2 

Ybp ≡ N µYp , σ + 


n Sxx  Ybp − µYp
=⇒ r ≡ tn−2

 1 (xp − x̄)2

 s +
(n − 2)s2 
 n Sxx
≡ χ2n−2
σ2
Por tanto, un intervalo de confianza del (1 − α)100 % para la respuesta media, µYp ,
es
r r
1 (xp − x̄)2 1 (xp − x̄)2
ybp − tα/2 s + < µYp < ybp + tα/2 s +
n Sxx n Sxx
17.7.2. Predicción de una observación

En este caso, utilizamos la v.a. Ybp − Yp
E[Ybp − Yp ] = E[Ybp ] − E[Yp ] = µYp − µYp = 0

1 (xp − x̄)2
Var(Ybp − Yp ) = Var(Ybp ) + Var(Yp ) = σ 2 + + σ2 =
n Sxx

21 (xp − x̄)2
=σ 1+ +
n Sxx
Entonces
r ! 
1 (xp − x̄)2 

Ybp − Yp ≡ N 0, σ 1+ + 


n Sxx  Ybp − Yp
=⇒ r ≡ tn−2

 1 (xp − x̄)2

 s 1+ +
(n − 2)s2 
 n Sxx
≡ χ2n−2
σ2
y, un intervalo de confianza del (1 − α)100 % para una predicción, yp , es
r r
1 (xp − x̄)2 1 (xp − x̄)2
ybp − tα/2 s 1 + + < yp < ybp + tα/2 s 1+ +
n Sxx n Sxx
17.8. Análisis de la varianza

El contraste más importante en regresión se refiere a la pendiente de la recta de
regresión poblacional, y se plantea de la forma
H0 : β = 0
H1 : β 6= 0
Aunque en la sección 17.6 hemos dado un estadı́stico válido para este contraste (Eq.
17.11), en este apartado vamos a estudiarlo desde otro punto de vista.
Si la pendiente de la verdadera recta de regresión es distinta de cero, entonces las
desviaciones de los datos, yi , respecto a su valor medio, ȳ, se pueden descomponer en dos
partes (Fig. 17.3(a)): una, el residuo, es decir (yi − ybi ); y otra, la diferencia entre el valor
yi − ȳ).
predicho por la recta de regresión estimada y el valor medio de los datos, es decir, (b
Sin embargo, si la verdadera pendiente de la recta de regresión es nula (Fig. 17.3(b)),
entonces todos los valores predichos verifican ybi = ȳ, por lo que la segunda componente
es nula.
El residuo representa las fluctuaciones aleatorias dentro del rango probable de va-
lores que puede asumir la v.a. Yi , mientras que la segunda componente representa las
fluctuaciones intrı́nsecas debidas a la relación lineal que verifican las v.a. Yi ; ası́, cuanto
más nos alejamos de la zona central, (x̄, ȳ), más grandes deben ser estas fluctuaciones.
De esta forma, la variación total se puede expresar como
P P
(yi − ȳ)2 = yi − ȳ)]2 =
[(yi − ybi ) + (b
P P P
= (yi − ybi )2 + (b yi − ȳ)2 + 2 (yi − ybi )(b
yi − ȳ) =
P 2
P 2
= (yi − ybi ) + (b yi − ȳ)
donde hemos utilizado el hecho de que (Eq. 17.5)
P P P P
ybi (yi − ybi ) =(a + bxi )ei = a ei + b xi ei = 0
P P
ȳ(yi − ybi ) = ȳ ei = 0
En resumen, la variación total
P P P
(yi − ȳ)2 = (yi − ybi )2 + (b
yi − ȳ)2 (17.13)
se descompone en dos términos independientes: el primero refleja la variabilidad no ex-

plicada por la regresión, que es debida al carácter aleatorio de la relación; y el segundo
contiene la variabilidad explicada por la regresión, y puede interpretarse como la parte
determinista de la variabilidad de la respuesta. LLamaremos
262 Estadı́stica
Figura 17.3: Descomposición de la varianza para el caso de (a) pendiente no nula; y (b)
pendiente nula.
P
SST = (yi − ȳ)2 = Syy = Suma Total de los Cuadrados
P
SSE = (yi − ybi )2 = Syy − bSxy = Suma de los Cuadrados de los Errores
Fuente Suma Grados Cuadrados Estadı́stico Valor-P

Error Cuadrados Libertad Medios
Regresión SSR 1 SSR/1 f = SSR/s2 P (F1,n−2 ≥ f )

Error SSE n−2 SSE/(n − 2)
Total SST n−1
Figura 17.4: Tabla ANOVA

P
SSR = yi − ȳ)2 = bSxy = Suma de los Cuadrados de Regresión
(b
Se puede demostrar que, si la hipótesis nula es cierta es decir, si β = 0, entonces
SSR/σ 2 ≡ χ21 y SST /σ 2 ≡ χ2n−1
Por tanto,
SSR/1 SSR
= 2 ≡ F1,n−2 (17.14)
SSE/(n − 2) s
Este estadı́stico se puede utilizar como alternativa al estadı́stico dado en (Eq. 17.11)
para realizar el contraste regresión. Si su valor, f , es pequeño, significa que SSE es
muy grande comparado con el valor de SSR es decir, la mayor parte de la variabilidad
observada es puramente aleatoria, y la componente explicada por el modelo (la recta
propuesta) tiene muy poca influencia, por tanto no se rechaza H0 . Por otra parte, si f es
grande, significa que SSR es muy grande comparado con SSE es decir, la mayor parte de
la variabilidad observada se debe a la existencia de una recta de regresión con pendiente
no nula, por tanto se rechaza H0 . De hecho, se cumple
!2
b − β
f= √ = t2
s/ Sxx β=0
La forma habitual de presentar todos los datos vistos en esta sección es en la llamada
tabla ANOVA (del inglés, ANalysis Of VAriance), que se muestra en la figura 17.4.
17.9. Coeficiente de correlación

La evaluación global de una recta de regresión puede hacerse mediante la varianza
residual, que es un ı́ndice de la precisión del modelo. Sin embargo, esta medida no es útil
264 Estadı́stica
para comparar rectas de regresión de variables distintas, ya que depende de las unidades
de medida. Una medida más adecuada de la bondad del ajuste es el llamado coeficiente de
determinación del modelo, definido como la proporción de la variabilidad total explicada
por el modelo propuesto P
2 SSR yi − ȳ)2
(b
R = =P
SST (yi − ȳ)2
Para el caso particular del modelo lineal,
2
2 Sxy Sxy
r =b = (17.15)
Syy Sxx Syy
y, el coeficiente de correlación lineal de la muestra es
Sxy
r=p (17.16)
Sxx Syy
que representa una estimación del coeficiente de correlación lineal de la población
Cov(X, Y )
ρ= p
Var(X) Var(Y )
Sea cual sea el modelo propuesto, siempre se cumple que 0 ≤ R2 ≤ 1. En particular,
• 0 ≤ r 2 ≤ 1 (−1 ≤ r ≤ 1)
• Si r 2 = 1, existe una relación lineal perfecta entre las variables X e Y (Si r =

1 la relación es positiva, es decir, la pendiente de la recta es positiva. Si r =
−1 la relación es negativa, es decir, la pendiente de la recta es negativa). En
consecuencia, las variables son dependientes.
• Si r 2 = 0 (r = 0), no existe relación lineal entre las variables X e Y . De forma

general, esto no implica que las variables sean independientes, ya que podrı́a
existir una relación no lineal entre ellas.
17.9.1. Inferencias sobre el coeficiente de correlación

El contraste H0 : ρ = 0 es equivalente al ya estudiado H0 : β = 0, y se puede realizar
con el estadı́stico √
r n−2
√ ≡ tn−2 (17.17)
1 − r2
ya que se cumple
√ !2
r n−2 b − β
√ = √ = t2
1 − r2 s/ Sxx β=0
Para realizar el contraste general H0 : ρ = ρ0 6= 0, es necesario que la población, es

decir, la v.a. (X, Y ), siga una distribución Normal Bidimensional. En ese caso, se utiliza
el estadı́stico
1 1+r ∼ 1 1+ρ 1
Ln = N Ln ,√ (17.18)
2 1−r 2 1−ρ n−3
17.10. Contraste de linealidad

Hasta ahora, hemos supuesto que realmente existe una recta de regresión que ajusta
perfectamente los datos, es decir, las medias de las v.a. Yi se encuentran sobre una recta
µYi = α + βxi i = 1, . . . , n
que hemos estimado por

ybi = a + bxi i = 1, . . . , n
Por tanto, la primera pregunta deberı́a haber sido ¿es cierta esa afirmación? El
contraste de linealidad está diseñado para responder a esta cuestión. Cuando las medias de
las v.a. Yi no se encuentran sobre una recta (Fig. 17.5) pero casi, este “casi” es la llamada
componente de falta de ajuste, y el contraste de linealidad cuantifica este desajuste para
contrastar la hipótesis de linealidad del modelo.
Para realizar el contraste, es necesario disponer de varios valores de y para algunos
o todos los valores de x. LLamaremos xi (i = 1, . . . , d) a los valores distintos que toma
la variable x. Para cada valor de xi existirán observaciones yij (j = 1, . . . , ni ), de forma
que n = n1 + · · · + nd (Fig. 17.6)
La lógica del contraste puede entenderse suponiendo que representamos gráficamente
las medias de las distribuciones condicionadas, y¯i . Nos encontraremos con alguna de las
situaciones que muestra la figura 17.7: el gráfico 17.7 (a) sugiere que probablemente la
hipótesis de linealidad es cierta, ya que las medias ȳi parecen tener una relación lineal;
en 17.7 (b) se detecta una relación claramente no lineal; y en 17.7 (c) no está clara la
existencia de relación.
El contraste de linealidad compara las medias muestrales estimadas directamente
de los datos observacionales, ȳi , con las medias muestrales estimadas bajo la hipótesis de
linealidad, ybi . Intuitivamente, si medimos la discrepancia entre ambas estimaciones con
P
ni (ȳi − ybi )2 , tenderemos a rechazar la hipótesis de linealidad si esta discrepancia es
grande, y a no rechazarla cuando es pequeña. Para cuantificar el tamaño de esta discre-
pancia, se compara con una medida de la variabilidad muestral cuyo valor esperado no
266 Estadı́stica
Figura 17.5: Descripción del modelo de regresión lineal simple con componente de falta
de ajuste.
depende de la hipótesis que estamos contrastando. Un término razonable de comparación

PP
es (yij − y¯i )2 , que mide la variabilidad inherente a los datos, sin depender de la
hipótesis de linealidad.
Vamos a aclarar estos conceptos con la figura 17.8. La ausencia de una relación lineal
perfecta permite descomponer los residuos, eij = yij − ybi , en suma de dos componentes:
una, (yij − y¯i ), debida a la fluctuación aleatoria dentro del rango probable de valores que
puede asumir la v.a. Yi para cada valor fijo xi ; y otra,(ȳi − ybi ), que contiene los errores
debidos a la falta de ajuste ya que, al fin y al cabo, las medias no están sobre una recta
por lo que la recta estimada no puede contener a las medias estimadas. Si la relación
lineal es perfecta, entonces ȳi = ybi (i = 1, . . . , d) y la segunda componente es nula, por
lo que la varianza residual es una estimación insesgada de la varianza de los errores del
modelo (como vimos en la sección 17.5) pero, si la relación lineal no es perfecta, la segunda
componente es distinta de cero, por lo que la varianza residual pasa a ser una estimación
sesgada de σ 2 al contener un término de falta de ajuste que no tiene nada que ver con el
error del modelo.
observaciones
n1
1 X
x1 y11 y12 · · · y1j ··· y1n1 y¯1 = y1j
n1 j=1
n
1 X 2
x2 y21 y22 · · · y2j ··· y2n2 y¯2 = y2j

n2 j=1
.. .. .. .. .. .. .. ..
. . . . . . . .
ni
1 X
xi yi1 yi2 ··· yij ··· yini y¯i = yij
ni j=1
.. .. .. .. .. .. .. ..
. . . . . . . .
nd
1 X
xd yd1 yd2 ··· ydj · · · ydnd y¯d = ydj
nd j=1
d d n d
1X 1 XX i
1X
x̄ = ni xi ȳ = yij = ni ȳi
n i=1 n i=1 j=1 n i=1
Figura 17.6: Tabla de datos para realizar el contraste de linealidad
La descomposición de la suma de los cuadrados de los residuos es sencilla pues,
X ni
d X ni
d X
X ni
d X
X
SSE = e2ij = 2
(yij − ybi ) = [(yij − ȳi ) + (ȳi − ybi )]2 =
i=1 j=1 i=1 j=1 i=1 j=1
X ni
d X ni
d X
X ni
d X
X
2 2
= (yij − y¯i ) + (ȳi − ybi ) + 2 (yij − y¯i )(ȳi − ybi ) =
i=1 j=1 i=1 j=1 i=1 j=1
ni
d X d d
"n #
X X X X i
= (yij − y¯i )2 + ni (ȳi − ybi )2 + 2 (ȳi − ybi ) (yij − y¯i ) =

i=1 j=1 i=1 i=1 j=1
X ni
d X d
X
= (yij − y¯i )2 + ni (ȳi − ybi )2
i=1 j=1 i=1
268 Estadı́stica
Figura 17.7: Medias condicionadas y la recta de regresión.
ni
X
donde hemos utilizado el hecho de que (yij − y¯i ) = 0. En resumen, la suma de los
j=1
cuadrados de los residuos
X ni
d X X ni
d X d
X
2 2
(yij − ybi ) = (yij − y¯i ) + ni (ȳi − ybi )2 (17.19)
i=1 j=1 i=1 j=1 i=1
se descompone en dos términos independientes: el primero refleja la fluctuaciones aleato-

rias de cada observación en torno a su valor medio; y el segundo refleja la ausencia de una
relación lineal perfecta en la medias de las v.a. Yi . LLamaremos
ni
d X
X
SSE = (yij − ybi )2 = Suma de los Cuadrados de los Residuos
i=1 j=1
Figura 17.8: Descomposición del residuo (eij ) cuando existe componente de falta de ajuste.
ni
d X
X
SSE(p) = (yij − y¯i )2 = Error Puro
i=1 j=1
d
X
SSE(a) = ni (ȳi − ybi )2 = Error por Falta de Ajuste
i=1
Se puede demostrar que, si la hipótesis de linealidad es cierta, entonces
SSE(p)/σ 2 ≡ χ2n−d y SSE(a)/σ 2 ≡ χ2d−2
Por tanto, SSE(p)/(n − d) es una estimación insesgada de la varianza, σ 2 , de los

errores del modelo, y el estadı́stico
SSE(a)/(d − 2)
≡ Fd−2,n−d (17.20)
SSE(p)/(n − d)
representa el cociente entre la variación debida a la falta de ajuste y la variación debida
a causas puramente aleatorias. Ası́, este estadı́stico nos sirve para contrastar la hipótesis
de linealidad. Si su valor, f , es grande, significa que la mayor parte del error procede de
la componente de falta de ajuste, por lo que deberemos rechazar la hipótesis de relación
lineal perfecta. Por el contrario, si f es pequeño, significa que la mayor parte del error es
puramente aleatorio y no rechazaremos la hipótesis de relación lineal perfecta.
270 Estadı́stica
La forma habitual de presentar todos los datos vistos en esta sección es en la tabla
ANOVA completa, que se muestra en la figura 17.9
Fuente Suma Grados Cuadrados Estadı́stico Valor-P

Error Cuadrados Libertad Medios
SSR/1
Regresión SSR 1 SSR/1 f= P (F1,n−2 ≥ f )
SSE/(n − 2)
Error SSE n−2 SSE/(n − 2)

SSE(a)/(d − 2)
Ajuste SSE(a) d−2 SSE(a)/(d − 2) f= P (Fd−2,n−d ≥ f )
SSE(p)/(n − d)
Puro SSE(p) n−d SSE(p)/(n − d)
Total SST n−1
Figura 17.9: Tabla ANOVA completa

Tablas
A estadı́sticas
271
x
!
X n
Tabla A.1: Distribución Binomial. P (B(n, p) ≤ x) = pk (1 − p)n−k
k=0 k
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
1 0 .9000 .8000 .7500 .7000 .6000 .5000 .4000 .3000 .2000 .1000
1 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
2 0 .8100 .6400 .5625 .4900 .3600 .2500 .1600 .0900 .0400 .0100
1 .9900 .9600 .9375 .9100 .8400 .7500 .6400 .5100 .3600 .1900
2 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
3 0 .7290 .5120 .4219 .3430 .2160 .1250 .0640 .0270 .0080 .0010
1 .9720 .8960 .8438 .7840 .6480 .5000 .3520 .2160 .1040 .0280
2 .9990 .9920 .9844 .9730 .9360 .8750 .7840 .6570 .4880 .2710
3 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
4 0 .6561 .4096 .3164 .2401 .1296 .0625 .0256 .0081 .0016 .0001
1 .9477 .8192 .7383 .6517 .4752 .3125 .1792 .0837 .0272 .0037
2 .9963 .9728 .9492 .9163 .8208 .6875 .5248 .3483 .1808 .0523
3 .9999 .9984 .9961 .9919 .9744 .9375 .8704 .7599 .5904 .3439
4 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
5 0 .5905 .3277 .2373 .1681 .0778 .0312 .0102 .0024 .0003 .0000
1 .9185 .7373 .6328 .5282 .3370 .1875 .0870 .0308 .0067 .0005
2 .9914 .9421 .8965 .8369 .6826 .5000 .3174 .1631 .0579 .0086
3 .9995 .9933 .9844 .9692 .9130 .8125 .6630 .4718 .2627 .0815
4 1.0000 .9997 .9990 .9976 .9898 .9688 .9222 .8319 .6723 .4095
5 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
6 0 .5314 .2621 .1780 .1176 .0467 .0156 .0041 .0007 .0001 .0000
1 .8857 .6554 .5339 .4202 .2333 .1094 .0410 .0109 .0016 .0001
2 .9841 .9011 .8306 .7443 .5443 .3438 .1792 .0705 .0170 .0013
3 .9987 .9830 .9624 .9295 .8208 .6562 .4557 .2557 .0989 .0159
4 .9999 .9984 .9954 .9891 .9590 .8906 .7667 .5798 .3446 .1143
5 1.0000 .9999 .9998 .9993 .9959 .9844 .9533 .8824 .7379 .4686
6 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
272
Tabla A.1: Distribución Binomial (Continuación)
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
7 0 .4783 .2097 .1335 .0824 .0280 .0078 .0016 .0002 .0000 .0000
1 .8503 .5767 .4449 .3294 .1586 .0625 .0188 .0038 .0004 .0000
2 .9743 .8520 .7564 .6471 .4199 .2266 .0963 .0288 .0047 .0002
3 .9973 .9667 .9294 .8740 .7102 .5000 .2898 .1260 .0333 .0027
4 .9998 .9953 .9871 .9712 .9037 .7734 .5801 .3529 .1480 .0257
5 1.0000 .9996 .9987 .9962 .9812 .9375 .8414 .6706 .4233 .1497
6 1.0000 .9999 .9998 .9984 .9922 .9720 .9176 .7903 .5217
7 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
8 0 .4305 .1678 .1001 .0576 .0168 .0039 .0007 .0001 .0000 .0000
1 .8131 .5033 .3671 .2553 .1064 .0352 .0085 .0013 .0001 .0000
2 .9619 .7969 .6785 .5518 .3154 .1445 .0498 .0113 .0012 .0000
3 .9950 .9437 .8862 .8059 .5941 .3633 .1737 .0580 .0104 .0004
4 .9996 .9896 .9727 .9420 .8263 .6367 .4059 .1941 .0563 .0050
5 1.0000 .9988 .9958 .9887 .9502 .8555 .6846 .4482 .2031 .0381
6 .9999 .9996 .9987 .9915 .9648 .8936 .7447 .4967 .1869
7 1.0000 1.0000 .9999 .9993 .9961 .9832 .9424 .8322 .5695
8 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
9 0 .3874 .1342 .0751 .0404 .0101 .0020 .0003 .0000 .0000 .0000
1 .7748 .4362 .3003 .1960 .0705 .0195 .0038 .0004 .0000 .0000
2 .9470 .7382 .6007 .4628 .2318 .0898 .0250 .0043 .0003 .0000
3 .9917 .9144 .8343 .7297 .4826 .2539 .0994 .0253 .0031 .0001
4 .9991 .9804 .9511 .9012 .7334 .5000 .2666 .0988 .0196 .0009
5 .9999 .9969 .9900 .9747 .9006 .7461 .5174 .2703 .0856 .0083
6 1.0000 .9997 .9987 .9957 .9750 .9102 .7682 .5372 .2618 .0530
7 1.0000 .9999 .9996 .9962 .9805 .9295 .8040 .5638 .2252
8 1.0000 1.0000 .9997 .9980 .9899 .9596 .8658 .6126
9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
273
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
10 0 .3487 .1074 .0563 .0282 .0060 .0010 .0001 .0000 .0000 .0000
1 .7361 .3758 .2440 .1493 .0464 .0107 .0017 .0001 .0000 .0000
2 .9298 .6778 .5256 .3828 .1673 .0547 .0123 .0016 .0001 .0000
3 .9872 .8791 .7759 .6496 .3823 .1719 .0548 .0106 .0009 .0000
4 .9984 .9672 .9219 .8497 .6331 .3770 .1662 .0473 .0064 .0001
5 .9999 .9936 .9803 .9527 .8338 .6230 .3669 .1503 .0328 .0016
6 1.0000 .9991 .9965 .9894 .9452 .8281 .6177 .3504 .1209 .0128
7 .9999 .9996 .9984 .9877 .9453 .8327 .6172 .3222 .0702
8 1.0000 1.0000 .9999 .9983 .9893 .9536 .8507 .6242 .2639
9 1.0000 .9999 .9990 .9940 .9718 .8926 .6513
10 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
11 0 .3138 .0859 .0422 .0198 .0036 .0005 .0000 .0000 .0000 .0000
1 .6974 .3221 .1971 .1130 .0302 .0059 .0007 .0000 .0000 .0000
2 .9104 .6174 .4552 .3127 .1189 .0327 .0059 .0006 .0000 .0000
3 .9815 .8389 .7133 .5696 .2963 .1133 .0293 .0043 .0002 .0000
4 .9972 .9496 .8854 .7897 .5328 .2744 .0994 .0216 .0020 .0000
5 .9997 .9883 .9657 .9218 .7535 .5000 .2465 .0782 .0117 .0003
6 1.0000 .9980 .9924 .9784 .9006 .7256 .4672 .2103 .0504 .0028
7 .9998 .9988 .9957 .9707 .8867 .7037 .4304 .1611 .0185
8 1.0000 .9999 .9994 .9941 .9673 .8811 .6873 .3826 .0896
9 1.0000 1.0000 .9993 .9941 .9698 .8870 .6779 .3026
10 1.0000 .9995 .9964 .9802 .9141 .6862
11 1.0000 1.0000 1.0000 1.0000 1.0000
274
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
12 0 .2824 .0687 .0317 .0138 .0022 .0002 .0000 .0000 .0000 .0000
1 .6590 .2749 .1584 .0850 .0196 .0032 .0003 .0000 .0000 .0000
2 .8891 .5583 .3907 .2528 .0834 .0193 .0028 .0002 .0000 .0000
3 .9744 .7946 .6488 .4925 .2253 .0730 .0153 .0017 .0001 .0000
4 .9957 .9274 .8424 .7237 .4382 .1938 .0573 .0095 .0006 .0000
5 .9995 .9806 .9456 .8822 .6652 .3872 .1582 .0386 .0039 .0001
6 .9999 .9961 .9857 .9614 .8418 .6128 .3348 .1178 .0194 .0005
7 1.0000 .9994 .9972 .9905 .9427 .8062 .5618 .2763 .0726 .0043
8 .9999 .9996 .9983 .9847 .9270 .7747 .5075 .2054 .0256
9 1.0000 1.0000 .9998 .9972 .9807 .9166 .7472 .4417 .1109
10 1.0000 .9997 .9968 .9804 .9150 .7251 .3410
11 1.0000 .9998 .9978 .9862 .9313 .7176
12 1.0000 1.0000 1.0000 1.0000 1.0000
13 0 .2542 .0550 .0238 .0097 .0013 .0001 .0000 .0000 .0000 .0000
1 .6213 .2336 .1267 .0637 .0126 .0017 .0001 .0000 .0000 .0000
2 .8661 .5017 .3326 .2025 .0579 .0112 .0013 .0001 .0000 .0000
3 .9658 .7473 .5843 .4206 .1686 .0461 .0078 .0007 .0000 .0000
4 .9935 .9009 .7940 .6543 .3530 .1334 .0321 .0040 .0002 .0000
5 .9991 .9700 .9198 .8346 .5744 .2905 .0977 .0182 .0012 .0000
6 .9999 .9930 .9757 .9376 .7712 .5000 .2288 .0624 .0070 .0001
7 1.0000 .9988 .9944 .9818 .9023 .7095 .4256 .1654 .0300 .0009
8 .9998 .9990 .9960 .9679 .8666 .6470 .3457 .0991 .0065
9 1.0000 .9999 .9993 .9922 .9539 .8314 .5794 .2527 .0342
10 1.0000 .9999 .9987 .9888 .9421 .7975 .4983 .1339
11 1.0000 .9999 .9983 .9874 .9363 .7664 .3787
12 1.0000 .9999 .9987 .9903 .9450 .7458
13 1.0000 1.0000 1.0000 1.0000 1.0000
275
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
14 0 .2288 .0440 .0178 .0068 .0008 .0001 .0000 .0000 .0000 .0000
1 .5846 .1979 .1010 .0475 .0081 .0009 .0001 .0000 .0000 .0000
2 .8416 .4481 .2811 .1608 .0398 .0065 .0006 .0000 .0000 .0000
3 .9559 .6982 .5213 .3552 .1243 .0287 .0039 .0002 .0000 .0000
4 .9908 .8702 .7415 .5842 .2793 .0898 .0175 .0017 .0000 .0000
5 .9985 .9561 .8883 .7805 .4859 .2120 .0583 .0083 .0004 .0000
6 .9998 .9884 .9617 .9067 .6925 .3953 .1501 .0315 .0024 .0000
7 1.0000 .9976 .9897 .9685 .8499 .6047 .3075 .0933 .0116 .0002
8 .9996 .9978 .9917 .9417 .7880 .5141 .2195 .0439 .0015
9 1.0000 .9997 .9983 .9825 .9102 .7207 .4158 .1298 .0092
10 1.0000 .9998 .9961 .9713 .8757 .6448 .3018 .0441
11 1.0000 .9994 .9935 .9602 .8392 .5519 .1584
12 1.0000 .9999 .9991 .9919 .9525 .8021 .4154
13 1.0000 .9999 .9992 .9932 .9560 .7712
14 1.0000 1.0000 1.0000 1.0000 1.0000
15 0 .2059 .0352 .0134 .0047 .0005 .0000 .0000 .0000 .0000 .0000
1 .5490 .1671 .0802 .0353 .0052 .0005 .0000 .0000 .0000 .0000
2 .8159 .3980 .2361 .1268 .0271 .0037 .0003 .0000 .0000 .0000
3 .9444 .6482 .4613 .2969 .0905 .0176 .0019 .0001 .0000 .0000
4 .9873 .8358 .6865 .5155 .2173 .0592 .0093 .0007 .0000 .0000
5 .9977 .9389 .8516 .7216 .4032 .1509 .0338 .0037 .0001 .0000
6 .9997 .9819 .9434 .8689 .6098 .3036 .0950 .0152 .0008 .0000
7 1.0000 .9958 .9827 .9500 .7869 .5000 .2131 .0500 .0042 .0000
8 .9992 .9958 .9848 .9050 .6964 .3902 .1311 .0181 .0003
9 .9999 .9992 .9963 .9662 .8491 .5968 .2784 .0611 .0022
10 1.0000 .9999 .9993 .9907 .9408 .7827 .4845 .1642 .0127
11 1.0000 .9999 .9981 .9824 .9095 .7031 .3518 .0556
12 1.0000 .9997 .9963 .9729 .8732 .6020 .1841
13 1.0000 .9995 .9948 .9647 .8329 .4510
14 1.0000 .9995 .9953 .9648 .7941
15 1.0000 1.0000 1.0000 1.0000
276
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
16 0 .1853 .0281 .0100 .0033 .0003 .0000 .0000 .0000 .0000 .0000
1 .5147 .1407 .0635 .0261 .0033 .0003 .0000 .0000 .0000 .0000
2 .7892 .3518 .1971 .0994 .0183 .0021 .0001 .0000 .0000 .0000
3 .9316 .5981 .4050 .2459 .0651 .0106 .0009 .0000 .0000 .0000
4 .9830 .7982 .6302 .4499 .1666 .0384 .0049 .0003 .0000 .0000
5 .9967 .9183 .8103 .6598 .3288 .1051 .0191 .0016 .0000 .0000
6 .9995 .9733 .9204 .8247 .5272 .2272 .0583 .0071 .0002 .0000
7 .9999 .9930 .9729 .9256 .7161 .4018 .1423 .0257 .0015 .0000
8 1.0000 .9985 .9925 .9743 .8577 .5982 .2839 .0744 .0070 .0001
9 .9998 .9984 .9929 .9417 .7728 .4728 .1753 .0267 .0005
10 1.0000 .9997 .9984 .9809 .8949 .6712 .3402 .0817 .0033
11 1.0000 .9997 .9951 .9616 .8334 .5501 .2018 .0170
12 1.0000 .9991 .9894 .9349 .7541 .4019 .0684
13 1.0000 .9999 .9979 .9817 .9006 .6482 .2108
14 1.0000 .9997 .9967 .9739 .8593 .4853
15 1.0000 .9997 .9967 .9719 .8147
16 1.0000 1.0000 1.0000 1.0000
17 0 .1668 .0225 .0075 .0023 .0002 .0000 .0000 .0000 .0000 .0000
1 .4818 .1182 .0501 .0193 .0021 .0001 .0000 .0000 .0000 .0000
2 .7618 .3096 .1637 .0774 .0123 .0012 .0001 .0000 .0000 .0000
3 .9174 .5489 .3530 .2019 .0464 .0064 .0005 .0000 .0000 .0000
4 .9779 .7582 .5739 .3887 .1260 .0245 .0025 .0001 .0000 .0000
5 .9953 .8943 .7653 .5968 .2639 .0717 .0106 .0007 .0000 .0000
6 .9992 .9623 .8929 .7752 .4478 .1662 .0348 .0032 .0001 .0000
7 .9999 .9891 .9598 .8954 .6405 .3145 .0919 .0127 .0005 .0000
8 1.0000 .9974 .9876 .9597 .8011 .5000 .1989 .0403 .0026 .0000
9 .9995 .9969 .9873 .9081 .6855 .3595 .1046 .0109 .0001
10 .9999 .9994 .9968 .9652 .8338 .5522 .2248 .0377 .0008
11 1.0000 .9999 .9993 .9894 .9283 .7361 .4032 .1057 .0047
12 1.0000 .9999 .9975 .9755 .8740 .6113 .2418 .0221
13 1.0000 .9995 .9936 .9536 .7981 .4511 .0826
14 .9999 .9988 .9877 .9226 .6904 .2382
15 1.0000 .9999 .9979 .9807 .8818 .5182
16 1.0000 .9998 .9977 .9775 .8332
17 1.0000 1.0000 1.0000 1.0000
277
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
18 0 .1501 .0180 .0056 .0016 .0001 .0000 .0000 .0000 .0000 .0000
1 .4503 .0991 .0395 .0142 .0013 .0001 .0000 .0000 .0000 .0000
2 .7338 .2713 .1353 .0600 .0082 .0007 .0000 .0000 .0000 .0000
3 .9018 .5010 .3057 .1646 .0328 .0038 .0002 .0000 .0000 .0000
4 .9718 .7164 .5187 .3327 .0942 .0154 .0013 .0000 .0000 .0000
5 .9936 .8671 .7175 .5344 .2088 .0481 .0058 .0003 .0000 .0000
6 .9988 .9487 .8610 .7217 .3743 .1189 .0203 .0014 .0000 .0000
7 .9998 .9837 .9431 .8593 .5634 .2403 .0576 .0061 .0002 .0000
8 1.0000 .9957 .9807 .9404 .7368 .4073 .1347 .0210 .0009 .0000
9 .9991 .9946 .9790 .8653 .5927 .2632 .0596 .0043 .0000
10 .9998 .9988 .9939 .9424 .7597 .4366 .1407 .0163 .0002
11 1.0000 .9998 .9986 .9797 .8811 .6257 .2783 .0513 .0012
12 1.0000 .9997 .9942 .9519 .7912 .4656 .1329 .0064
13 1.0000 .9987 .9846 .9058 .6673 .2836 .0282
14 .9998 .9962 .9672 .8354 .4990 .0982
15 1.0000 .9993 .9918 .9400 .7287 .2662
16 .9999 .9987 .9858 .9009 .5497
17 1.0000 .9999 .9984 .9820 .8499
18 1.0000 1.0000 1.0000 1.0000
278
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
19 0 .1351 .0144 .0042 .0011 .0001 .0000 .0000 .0000 .0000 .0000
1 .4203 .0829 .0310 .0104 .0008 .0000 .0000 .0000 .0000 .0000
2 .7054 .2369 .1113 .0462 .0055 .0004 .0000 .0000 .0000 .0000
3 .8850 .4551 .2631 .1332 .0230 .0022 .0001 .0000 .0000 .0000
4 .9648 .6733 .4654 .2822 .0696 .0096 .0006 .0000 .0000 .0000
5 .9914 .8369 .6678 .4739 .1629 .0318 .0031 .0001 .0000 .0000
6 .9983 .9324 .8251 .6655 .3081 .0835 .0116 .0006 .0000 .0000
7 .9997 .9767 .9225 .8180 .4878 .1796 .0352 .0028 .0000 .0000
8 1.0000 .9933 .9713 .9161 .6675 .3238 .0885 .0105 .0003 .0000
9 .9984 .9911 .9674 .8139 .5000 .1861 .0326 .0016 .0000
10 .9997 .9977 .9895 .9115 .6762 .3325 .0839 .0067 .0000
11 1.0000 .9995 .9972 .9648 .8204 .5122 .1820 .0233 .0003
12 .9999 .9994 .9884 .9165 .6919 .3345 .0676 .0017
13 1.0000 .9999 .9969 .9682 .8371 .5261 .1631 .0086
14 1.0000 .9994 .9904 .9304 .7178 .3267 .0352
15 .9999 .9978 .9770 .8668 .5449 .1150
16 1.0000 .9996 .9945 .9538 .7631 .2946
17 1.0000 .9992 .9896 .9171 .5797
18 .9999 .9989 .9856 .8649
19 1.0000 1.0000 1.0000 1.0000
279
p
n x .10 .20 .25 .30 .40 .50 .60 .70 .80 .90
20 0 .1216 .0115 .0032 .0008 .0000 .0000 .0000 .0000 .0000 .0000
1 .3917 .0692 .0243 .0076 .0005 .0000 .0000 .0000 .0000 .0000
2 .6769 .2061 .0913 .0355 .0036 .0002 .0000 .0000 .0000 .0000
3 .8670 .4114 .2252 .1071 .0160 .0013 .0000 .0000 .0000 .0000
4 .9568 .6296 .4148 .2375 .0510 .0059 .0003 .0000 .0000 .0000
5 .9887 .8042 .6172 .4164 .1256 .0207 .0016 .0000 .0000 .0000
6 .9976 .9133 .7858 .6080 .2500 .0577 .0065 .0003 .0000 .0000
7 .9996 .9679 .8982 .7723 .4159 .1316 .0210 .0013 .0000 .0000
8 .9999 .9900 .9591 .8867 .5956 .2517 .0565 .0051 .0001 .0000
9 1.0000 .9974 .9861 .9520 .7553 .4119 .1275 .0171 .0006 .0000
10 .9994 .9961 .9829 .8725 .5881 .2447 .0480 .0026 .0000
11 .9999 .9991 .9949 .9435 .7483 .4044 .1133 .0100 .0001
12 1.0000 .9998 .9987 .9790 .8684 .5841 .2277 .0321 .0004
13 1.0000 .9997 .9935 .9423 .7500 .3920 .0867 .0024
14 1.0000 .9984 .9793 .8744 .5836 .1958 .0113
15 .9997 .9941 .9490 .7625 .3704 .0432
16 1.0000 .9987 .9840 .8929 .5886 .1330
17 .9998 .9964 .9645 .7939 .3231
18 1.0000 .9995 .9924 .9308 .6083
19 1.0000 .9992 .9885 .8784
20 1.0000 1.0000 1.0000
280
x
X λk
Tabla A.2: Distribución de Poisson. P (P(λ) ≤ x) = e−λ
k=0
k!
λ
x 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066

1 0.9953 0.9825 0.9631 0.9384 0.9098 0.8781 0.8442 0.8088 0.7725
2 0.9998 0.9989 0.9964 0.9921 0.9856 0.9769 0.9659 0.9526 0.9371
3 1.0000 0.9999 0.9997 0.9992 0.9982 0.9966 0.9942 0.9909 0.9865
4 1.0000 1.0000 0.9999 0.9998 0.9996 0.9992 0.9986 0.9977
5 1.0000 1.0000 1.0000 0.9999 0.9998 0.9997
6 1.0000 1.0000 1.0000
λ
x 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
0 0.3679 0.2231 0.1353 0.0821 0.0498 0.0302 0.0183 0.0111 0.0067

1 0.7358 0.5578 0.4060 0.2873 0.1991 0.1359 0.0916 0.0611 0.0404
2 0.9197 0.8088 0.6767 0.5438 0.4232 0.3208 0.2381 0.1736 0.1247
3 0.9810 0.9344 0.8571 0.7576 0.6472 0.5366 0.4335 0.3423 0.2650
4 0.9963 0.9814 0.9473 0.8912 0.8153 0.7254 0.6288 0.5321 0.4405
5 0.9994 0.9955 0.9834 0.9580 0.9161 0.8576 0.7851 0.7029 0.6160
6 0.9999 0.9991 0.9955 0.9858 0.9665 0.9347 0.8893 0.8311 0.7622
7 1.0000 0.9998 0.9989 0.9958 0.9881 0.9733 0.9489 0.9134 0.8666
8 1.0000 0.9998 0.9989 0.9962 0.9901 0.9786 0.9597 0.9319
9 1.0000 0.9997 0.9989 0.9967 0.9919 0.9829 0.9682
10 0.9999 0.9997 0.9990 0.9972 0.9933 0.9863
11 1.0000 0.9999 0.9997 0.9991 0.9976 0.9945
12 1.0000 0.9999 0.9997 0.9992 0.9980
13 1.0000 0.9999 0.9997 0.9993
14 1.0000 0.9999 0.9998
15 1.0000 0.9999
16 1.0000
281
Tabla A.2: Distribución de Poisson (Continuación)
λ
x 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5
0 0.0041 0.0025 0.0015 0.0009 0.0006 0.0003 0.0002 0.0001 0.0001

1 0.0266 0.0174 0.0113 0.0073 0.0047 0.0030 0.0019 0.0012 0.0008
2 0.0884 0.0620 0.0430 0.0296 0.0203 0.0138 0.0093 0.0062 0.0042
3 0.2017 0.1512 0.1118 0.0818 0.0591 0.0424 0.0301 0.0212 0.0149
4 0.3575 0.2851 0.2237 0.1730 0.1321 0.0996 0.0744 0.0550 0.0403
5 0.5289 0.4457 0.3690 0.3007 0.2414 0.1912 0.1496 0.1157 0.0885
6 0.6860 0.6063 0.5265 0.4497 0.3782 0.3134 0.2562 0.2068 0.1649
7 0.8095 0.7440 0.6728 0.5987 0.5246 0.4530 0.3856 0.3239 0.2687
8 0.8944 0.8472 0.7916 0.7291 0.6620 0.5925 0.5231 0.4557 0.3918
9 0.9462 0.9161 0.8774 0.8305 0.7764 0.7166 0.6530 0.5874 0.5218
10 0.9747 0.9574 0.9332 0.9015 0.8622 0.8159 0.7634 0.7060 0.6453
11 0.9890 0.9799 0.9661 0.9467 0.9208 0.8881 0.8487 0.8030 0.7520
12 0.9955 0.9912 0.9840 0.9730 0.9573 0.9362 0.9091 0.8758 0.8364
13 0.9983 0.9964 0.9929 0.9872 0.9784 0.9658 0.9486 0.9261 0.8981
14 0.9994 0.9986 0.9970 0.9943 0.9897 0.9827 0.9726 0.9585 0.9400
15 0.9998 0.9995 0.9988 0.9976 0.9954 0.9918 0.9862 0.9780 0.9665
16 0.9999 0.9998 0.9996 0.9990 0.9980 0.9963 0.9934 0.9889 0.9823
17 1.0000 0.9999 0.9998 0.9996 0.9992 0.9984 0.9970 0.9947 0.9911
18 1.0000 0.9999 0.9999 0.9997 0.9993 0.9987 0.9976 0.9957
19 1.0000 1.0000 0.9999 0.9997 0.9995 0.9989 0.9980
20 1.0000 0.9999 0.9998 0.9996 0.9991
21 1.0000 0.9999 0.9998 0.9996
22 1.0000 0.9999 0.9999
23 1.0000 0.9999
24 1.0000
282
Tabla A.2: Distribución de Poisson (Continuación)
λ
x 10.0 11.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0
0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.0005 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0028 0.0012 0.0005 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000
3 0.0103 0.0049 0.0023 0.0011 0.0005 0.0002 0.0001 0.0000 0.0000
4 0.0293 0.0151 0.0076 0.0037 0.0018 0.0009 0.0004 0.0002 0.0001
5 0.0671 0.0375 0.0203 0.0107 0.0055 0.0028 0.0014 0.0007 0.0003
6 0.1301 0.0786 0.0458 0.0259 0.0142 0.0076 0.0040 0.0021 0.0010
7 0.2202 0.1432 0.0895 0.0540 0.0316 0.0180 0.0100 0.0054 0.0029
8 0.3328 0.2320 0.1550 0.0998 0.0621 0.0374 0.0220 0.0126 0.0071
9 0.4579 0.3405 0.2424 0.1658 0.1094 0.0699 0.0433 0.0261 0.0154
10 0.5830 0.4599 0.3472 0.2517 0.1757 0.1185 0.0774 0.0491 0.0304
11 0.6968 0.5793 0.4616 0.3532 0.2600 0.1848 0.1270 0.0847 0.0549
12 0.7916 0.6887 0.5760 0.4631 0.3585 0.2676 0.1931 0.1350 0.0917
13 0.8645 0.7813 0.6815 0.5730 0.4644 0.3632 0.2745 0.2009 0.1426
14 0.9165 0.8540 0.7720 0.6751 0.5704 0.4657 0.3675 0.2808 0.2081
15 0.9513 0.9074 0.8444 0.7636 0.6694 0.5681 0.4667 0.3715 0.2867
16 0.9730 0.9441 0.8987 0.8355 0.7559 0.6641 0.5660 0.4677 0.3751
17 0.9857 0.9678 0.9370 0.8905 0.8272 0.7489 0.6593 0.5640 0.4686
18 0.9928 0.9823 0.9626 0.9302 0.8826 0.8195 0.7423 0.6550 0.5622
19 0.9965 0.9907 0.9787 0.9573 0.9235 0.8752 0.8122 0.7363 0.6509
20 0.9984 0.9953 0.9884 0.9750 0.9521 0.9170 0.8682 0.8055 0.7307
21 0.9993 0.9977 0.9939 0.9859 0.9712 0.9469 0.9108 0.8615 0.7991
22 0.9997 0.9990 0.9970 0.9924 0.9833 0.9673 0.9418 0.9047 0.8551
23 0.9999 0.9995 0.9985 0.9960 0.9907 0.9805 0.9633 0.9367 0.8989
24 1.0000 0.9998 0.9993 0.9980 0.9950 0.9888 0.9777 0.9594 0.9317
25 0.9999 0.9997 0.9990 0.9974 0.9938 0.9869 0.9748 0.9554
26 1.0000 0.9999 0.9995 0.9987 0.9967 0.9925 0.9848 0.9718
27 0.9999 0.9998 0.9994 0.9983 0.9959 0.9912 0.9827
28 1.0000 0.9999 0.9997 0.9991 0.9978 0.9950 0.9897
29 1.0000 0.9999 0.9996 0.9989 0.9973 0.9941
30 0.9999 0.9998 0.9994 0.9986 0.9967
31 1.0000 0.9999 0.9997 0.9993 0.9982
32 1.0000 0.9999 0.9996 0.9990
33 0.9999 0.9998 0.9995
34 1.0000 0.9999 0.9998
35 1.0000 0.9999
36 0.9999
37 1.0000
283
Tabla A.3: Distribución Normal Estándar. P (N(0, 1) ≥ z)
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148
0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681
1.5 .0668 .0655 .0642 .0630 .0618 .0606 .0594 .0582 .0571 .0559
284
Tabla A.3: Distribución Normal Estándar (Continuación)
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
2.9 .0019 .0018 .0018 .0017 .0016 .0016 .0015 .0015 .0014 .0014
3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010
3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007
3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005
3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003
3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002
285
Tabla A.4: Distribución t-Student. P (tn ≥ a)
Probabilidades
Grados de
0.40 0.25 0.15 0.10 0.05 0.025 0.001 0.005
libertad
1 0.3249 1.0000 1.9626 3.0777 6.3138 12.7062 31.8205 63.6567

2 0.2887 0.8165 1.3862 1.8856 2.9200 4.3027 6.9646 9.9248
3 0.2767 0.7649 1.2498 1.6377 2.3534 3.1824 4.5408 5.8408
4 0.2707 0.7407 1.1896 1.5332 2.1318 2.7764 3.7470 4.6041
5 0.2672 0.7267 1.1558 1.4759 2.0150 2.5706 3.3649 4.0321
6 0.2648 0.7176 1.1342 1.4398 1.9432 2.4469 3.1427 3.7074

7 0.2632 0.7111 1.1192 1.4149 1.8946 2.3646 2.9980 3.4995
8 0.2619 0.7064 1.1081 1.3968 1.8595 2.3060 2.8965 3.3554
9 0.2610 0.7027 1.0997 1.3830 1.8331 2.2622 2.8215 3.2498
10 0.2602 0.6998 1.0931 1.3722 1.8125 2.2281 2.7638 3.1693
11 0.2596 0.6974 1.0877 1.3634 1.7959 2.2010 2.7181 3.1058

12 0.2590 0.6955 1.0832 1.3562 1.7823 2.1788 2.6810 3.0546
13 0.2586 0.6938 1.0795 1.3502 1.7709 2.1604 2.6503 3.0123
14 0.2582 0.6924 1.0763 1.3450 1.7613 2.1448 2.6245 2.9768
15 0.2579 0.6912 1.0735 1.3406 1.7531 2.1314 2.6025 2.9467
16 0.2576 0.6901 1.0711 1.3368 1.7459 2.1199 2.5835 2.9208

17 0.2573 0.6892 1.0690 1.3334 1.7396 2.1098 2.5669 2.8982
18 0.2571 0.6884 1.0672 1.3304 1.7341 2.1009 2.5524 2.8784
19 0.2569 0.6876 1.0655 1.3277 1.7291 2.0930 2.5395 2.8609
20 0.2567 0.6870 1.0640 1.3253 1.7247 2.0860 2.5280 2.8453
286
Tabla A.4: Distribución t-Student (Continuación)
Probabilidades
Grados de
0.40 0.25 0.15 0.10 0.05 0.025 0.001 0.005
libertad
21 0.2566 0.6864 1.0627 1.3232 1.7207 2.0796 2.5176 2.8314

22 0.2564 0.6858 1.0614 1.3212 1.7171 2.0739 2.5083 2.8188
23 0.2563 0.6853 1.0603 1.3195 1.7139 2.0687 2.4999 2.8073
24 0.2562 0.6848 1.0593 1.3178 1.7109 2.0639 2.4922 2.7969
25 0.2561 0.6844 1.0584 1.3163 1.7081 2.0595 2.4851 2.7874
26 0.2560 0.6840 1.0575 1.3150 1.7056 2.0555 2.4786 2.7787

27 0.2559 0.6837 1.0567 1.3137 1.7033 2.0518 2.4727 2.7707
28 0.2558 0.6834 1.0560 1.3125 1.7011 2.0484 2.4671 2.7633
29 0.2557 0.6830 1.0553 1.3114 1.6991 2.0452 2.4620 2.7564
30 0.2556 0.6828 1.0547 1.3104 1.6973 2.0423 2.4573 2.7500
35 0.2553 0.6816 1.0520 1.3062 1.6896 2.0301 2.4377 2.7238

40 0.2550 0.6807 1.0500 1.3031 1.6839 2.0211 2.4233 2.7045
45 0.2549 0.6800 1.0485 1.3006 1.6794 2.0141 2.4121 2.6896
50 0.2547 0.6794 1.0473 1.2987 1.6759 2.0086 2.4033 2.6778
60 0.2545 0.6786 1.0455 1.2958 1.6706 2.0003 2.3901 2.6603
70 0.2543 0.6780 1.0442 1.2938 1.6669 1.9944 2.3808 2.6479

80 0.2542 0.6776 1.0432 1.2922 1.6641 1.9901 2.3739 2.6387
90 0.2541 0.6772 1.0424 1.2910 1.6620 1.9867 2.3685 2.6316
100 0.2540 0.6770 1.0418 1.2901 1.6602 1.9840 2.3642 2.6259
120 0.2539 0.6765 1.0409 1.2886 1.6577 1.9799 2.3578 2.6174
150 0.2538 0.6761 1.0400 1.2872 1.6551 1.9759 2.3515 2.6090

200 0.2537 0.6757 1.0391 1.2858 1.6525 1.9719 2.3451 2.6006
300 0.2536 0.6753 1.0382 1.2844 1.6499 1.9679 2.3388 2.5923
∞ 0.2533 0.6745 1.0364 1.2816 1.6449 1.9600 2.3263 2.5758
287
Tabla A.5: Distribucón χ2n . P (χ2n ≥ a)
Probabilidades
Grados de
0.99 0.975 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.025 0.01
libertad
1 1.571∗ 9.821∗ 39.320∗ 0.016 0.102 0.455 1.323 2.706 3.841 5.024 6.635
2 0.020 0.051 0.103 0.211 0.575 1.386 2.773 4.605 5.991 7.378 9.210
3 0.115 0.216 0.352 0.584 1.213 2.366 4.108 6.252 7.815 9.349 11.346
4 0.297 0.484 0.711 1.064 1.923 3.357 5.385 7.779 9.488 11.143 13.277
5 0.554 0.831 1.145 1.610 2.675 4.351 6.626 9.236 11.070 12.832 15.086
6 0.872 1.237 1.635 2.204 3.455 5.348 7.841 10.645 12.592 14.449 16.812
288
7 1.239 1.690 2.167 2.833 4.255 6.346 9.037 12.017 14.067 16.013 18.475
8 1.646 2.180 2.733 3.490 5.071 7.344 10.219 13.362 15.507 17.535 20.090
9 2.088 2.700 3.325 4.168 5.899 8.343 11.389 14.684 16.919 19.023 21.666
10 2.558 3.247 3.940 4.865 6.737 9.342 12.549 15.987 18.307 20.483 23.209
11 3.053 3.816 4.575 5.578 7.584 10.341 13.701 17.275 19.675 21.920 24.725
12 3.571 4.404 5.226 6.304 8.438 11.340 14.845 18.549 21.026 23.337 26.217
13 4.107 5.009 5.892 7.041 9.299 12.340 15.984 19.812 22.362 24.712 27.688
14 4.660 5.629 6.571 7.790 10.165 13.339 17.117 21.064 23.685 26.119 29.141
15 5.229 6.262 7.261 8.547 11.037 14.339 18.245 22.307 24.996 27.488 30.578
16 5.812 6.908 7.962 9.312 11.912 15.338 19.369 23.542 26.296 28.845 32.000
17 6.408 7.564 8.672 10.085 12.792 16.338 20.489 24.769 27.587 30.191 33.409
18 7.015 8.231 9.390 10.865 13.675 17.338 21.605 25.989 28.869 31.526 34.805
19 7.633 8.907 10.117 11.651 14.562 18.338 22.718 27.204 30.144 32.852 36.191
20 8.260 9.591 10.851 12.443 15.452 19.337 23.828 28.412 31.410 34.170 37.566
∗ Dividir entre 1000

Tabla A.5: Distribución χ2n (Continuación)
Probabilidades
Grados de
libertad 0.99 0.975 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.025 0.01
21 8.897 10.283 11.591 13.240 16.344 20.337 24.935 29.615 32.671 35.479 38.932
22 9.542 10.982 12.338 14.041 17.240 21.337 26.039 30.813 33.924 36.781 40.289
23 10.196 11.689 13.091 14.848 18.137 22.337 27.141 32.007 35.172 38.076 41.638
24 10.856 12.401 13.848 15.659 19.037 23.337 28.241 33.196 36.415 39.364 42.980
25 11.524 13.120 14.611 16.473 19.939 24.337 29.339 34.382 37.652 40.646 44.314
289
26 12.198 13.844 15.379 17.292 20.843 25.336 30.435 35.563 38.885 41.923 45.642
27 12.879 14.573 16.151 18.114 21.749 26.336 31.528 36.741 40.113 43.194 46.963
28 13.565 15.308 16.928 18.939 22.657 27.336 32.620 37.916 41.329 44.461 48.278
29 14.256 16.047 17.708 19.768 23.567 28.336 33.711 39.087 42.557 45.722 49.588
30 14.954 16.791 18.493 20.599 24.478 29.336 34.800 40.256 43.773 46.979 50.892
40 22.164 24.433 26.509 29.050 33.660 39.335 45.616 51.805 55.758 59.342 63.691
50 29.707 32.357 34.764 37.689 42.942 49.335 56.334 63.167 67.505 71.420 76.154
60 37.485 40.482 43.188 46.459 52.294 59.335 66.981 74.397 79.082 83.298 88.379
70 45.442 48.758 51.739 55.329 61.698 69.334 77.577 85.527 90.531 95.023 100.425
80 53.540 57.153 60.391 64.278 71.144 70.334 88.130 96.578 101.879 106.629 112.329
90 61.754 65.647 69.126 73.291 80.625 89.334 98.650 107.565 113.145 118.136 124.116
100 70.065 74.222 77.929 82.358 90.133 99.334 109.141 118.498 124.342 129.561 135.807
Tabla A.6.1: Distribución Fnm . P (Fnm ≥ a) = 0.25
Grados de Grados del libertad del numerador (n)
libertad del
denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 5.83 7.50 8.20 8.58 8.82 8.98 9.10 9.19 9.26 9.32 9.41 9.49 9.58 9.63 9.67 9.71 9.76 9.80 9.85
2 2.57 3.00 3.15 3.23 3.28 3.31 3.34 3.35 3.37 3.38 3.39 3.41 3.43 3.43 3.44 3.45 3.46 3.47 3.48
3 2.02 2.28 2.36 2.39 2.41 2.42 2.43 2.44 2.44 2.44 2.45 2.46 2.46 2.46 2.47 2.47 2.47 2.47 2.47
4 1.81 2.00 2.05 2.06 2.07 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08
5 1.69 1.85 1.88 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.88 1.88 1.88 1.88 1.87 1.87 1.87
6 1.62 1.76 1.78 1.79 1.79 1.78 1.78 1.78 1.77 1.77 1.77 1.76 1.76 1.75 1.75 1.75 1.74 1.74 1.74
7 1.57 1.70 1.72 1.72 1.71 1.71 1.70 1.70 1.69 1.69 1.68 1.68 1.67 1.67 1.66 1.66 1.65 1.65 1.65
8 1.54 1.66 1.67 1.66 1.66 1.65 1.64 1.64 1.63 1.63 1.62 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.58
9 1.51 1.62 1.63 1.63 1.62 1.61 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.54 1.53 1.53
10 1.49 1.60 1.60 1.59 1.59 1.58 1.57 1.56 1.56 1.55 1.54 1.53 1.52 1.52 1.51 1.51 1.50 1.49 1.48
11 1.47 1.58 1.58 1.57 1.56 1.55 1.54 1.53 1.53 1.52 1.51 1.50 1.49 1.49 1.48 1.47 1.47 1.46 1.45
12 1.46 1.56 1.56 1.55 1.54 1.53 1.52 1.51 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.45 1.44 1.43 1.42
290
13 1.45 1.55 1.55 1.53 1.52 1.51 1.50 1.49 1.49 1.48 1.47 1.46 1.45 1.44 1.43 1.42 1.42 1.41 1.40
14 1.44 1.53 1.53 1.52 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.44 1.43 1.42 1.41 1.41 1.40 1.39 1.38
15 1.43 1.52 1.52 1.51 1.49 1.48 1.47 1.46 1.46 1.45 1.44 1.43 1.41 1.41 1.40 1.39 1.38 1.37 1.36
16 1.42 1.51 1.51 1.50 1.48 1.47 1.46 1.45 1.44 1.44 1.43 1.41 1.40 1.39 1.38 1.37 1.36 1.35 1.34
17 1.42 1.51 1.50 1.49 1.47 1.46 1.45 1.44 1.43 1.43 1.41 1.40 1.39 1.38 1.37 1.36 1.35 1.34 1.33
18 1.41 1.50 1.49 1.48 1.46 1.45 1.44 1.43 1.42 1.42 1.40 1.39 1.38 1.37 1.36 1.35 1.34 1.33 1.32
19 1.41 1.49 1.49 1.47 1.46 1.44 1.43 1.42 1.41 1.41 1.40 1.38 1.37 1.36 1.35 1.34 1.33 1.32 1.30
20 1.40 1.49 1.48 1.47 1.45 1.44 1.43 1.42 1.41 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.32 1.31 1.29
21 1.40 1.48 1.48 1.46 1.44 1.43 1.42 1.41 1.40 1.39 1.38 1.37 1.35 1.34 1.33 1.32 1.31 1.30 1.28
22 1.40 1.48 1.47 1.45 1.44 1.42 1.41 1.40 1.39 1.39 1.37 1.36 1.34 1.33 1.32 1.31 1.30 1.29 1.28
23 1.39 1.47 1.47 1.45 1.43 1.42 1.41 1.40 1.39 1.38 1.37 1.35 1.34 1.33 1.32 1.31 1.30 1.28 1.27
24 1.39 1.47 1.46 1.44 1.43 1.41 1.40 1.39 1.38 1.38 1.36 1.35 1.33 1.32 1.31 1.30 1.29 1.28 1.26
25 1.39 1.47 1.46 1.44 1.42 1.41 1.40 1.39 1.38 1.37 1.36 1.34 1.33 1.32 1.31 1.29 1.28 1.27 1.25
26 1.38 1.46 1.45 1.44 1.42 1.41 1.39 1.38 1.37 1.37 1.35 1.34 1.32 1.31 1.30 1.29 1.28 1.26 1.25
27 1.38 1.46 1.45 1.43 1.42 1.40 1.39 1.38 1.37 1.36 1.35 1.33 1.32 1.31 1.30 1.28 1.27 1.26 1.24
28 1.38 1.46 1.45 1.43 1.41 1.40 1.39 1.38 1.37 1.36 1.34 1.33 1.31 1.30 1.29 1.28 1.27 1.25 1.24
29 1.38 1.45 1.45 1.43 1.41 1.40 1.38 1.37 1.36 1.35 1.34 1.32 1.31 1.30 1.29 1.27 1.26 1.25 1.23
30 1.38 1.45 1.44 1.42 1.41 1.39 1.38 1.37 1.36 1.35 1.34 1.32 1.30 1.29 1.28 1.27 1.26 1.24 1.23
40 1.36 1.44 1.42 1.40 1.39 1.37 1.36 1.35 1.34 1.33 1.31 1.30 1.28 1.26 1.25 1.24 1.22 1.21 1.19
60 1.35 1.42 1.41 1.38 1.37 1.35 1.33 1.32 1.31 1.30 1.29 1.27 1.25 1.24 1.22 1.21 1.19 1.17 1.15
120 1.34 1.40 1.39 1.37 1.35 1.33 1.31 1.30 1.29 1.28 1.26 1.24 1.22 1.21 1.19 1.18 1.16 1.13 1.10
∞ 1.32 1.39 1.37 1.35 1.33 1.31 1.29 1.28 1.27 1.25 1.24 1.22 1.19 1.18 1.16 1.14 1.12 1.08 1.00
libertad del
denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 60.71 61.22 61.74 62.00 62.26 62.53 62.79 63.06 63.33
2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49
3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.18 5.17 5.16 5.15 5.14 5.13
4 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76
5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.14 3.12 3.10
6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.72
7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47
8 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29
9 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.28 2.25 2.23 2.21 2.18 2.16
10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.18 2.16 2.13 2.11 2.08 2.06
11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.03 2.00 1.97
12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.15 2.10 2.06 2.04 2.01 1.99 1.96 1.93 1.90
291
13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.90 1.88 1.85
14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.05 2.01 1.96 1.94 1.91 1.89 1.86 1.83 1.80
15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.90 1.87 1.85 1.82 1.79 1.76
16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.99 1.94 1.89 1.87 1.84 1.81 1.78 1.75 1.72
17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.96 1.91 1.86 1.84 1.81 1.78 1.75 1.72 1.69
18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66
19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63
20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61
21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.87 1.83 1.78 1.75 1.72 1.69 1.66 1.62 1.59
22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.64 1.60 1.57
23 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.84 1.80 1.74 1.72 1.69 1.66 1.62 1.59 1.55
24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53
25 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.82 1.77 1.72 1.69 1.66 1.63 1.59 1.56 1.52
26 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.81 1.76 1.71 1.68 1.65 1.61 1.58 1.54 1.50
27 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.80 1.75 1.70 1.67 1.64 1.60 1.57 1.53 1.49
28 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.79 1.74 1.69 1.66 1.63 1.59 1.56 1.52 1.48
29 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.78 1.73 1.68 1.65 1.62 1.58 1.55 1.51 1.47
30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46
40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.47 1.42 1.38
60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 1.51 1.48 1.44 1.40 1.35 1.29
120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.60 1.55 1.48 1.45 1.41 1.37 1.32 1.26 1.19
∞ 2.71 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63 1.60 1.55 1.49 1.42 1.38 1.34 1.30 1.24 1.17 1.00
libertad del
denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 161.40 199.50 215.70 224.60 230.20 234.00 236.80 238.90 240.50 241.90 243.90 245.90 248.00 249.10 250.10 251.10 252.20 253.30 254.30
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.39 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.75 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
292
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
∞ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
libertad del
denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 647.80 799.50 864.20 899.60 921.80 937.10 948.20 956.70 963.30 968.60 976.70 984.90 993.10 997.20 1001.00 1006.00 1010.00 1014.00 1018.00
2 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50
3 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90
4 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26
5 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02
6 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85
7 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.41 4.36 4.31 4.25 4.20 4.14
8 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67
9 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33
10 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08
11 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88
12 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72
293
13 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60
14 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49
15 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40
16 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32
17 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25
18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19
19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13
20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09
21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04
22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00
23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97
24 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94
25 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91
26 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88
27 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85
28 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83
29 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81
30 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79
40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64
60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.68
120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31
∞ 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00
libertad del
denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 4052.19 4999.50 5403.00 5625.00 5764.00 5859.00 5928.00 5982.00 6022.00 6056.00 6106.00 6157.00 6209.00 6235.00 6261.00 6287.00 6313.00 6399.00 6366.00
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.00
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
294
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75
17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17
26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13
27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10
28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06
29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
∞ 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
libertad del
denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 162.11∗ 200.00∗ 216.15∗ 225.00∗ 230.56∗ 234.37∗ 237.15∗ 239.25∗ 240.91∗ 242.24∗ 244.26∗ 246.30∗ 248.36∗ 249.40∗ 250.44∗ 251.48∗ 252.53∗ 253.59∗ 254.65∗
2 198.50 199.00 199.17 199.25 199.30 199.33 199.36 199.37 199.39 199.40 199.42 199.43 199.45 199.46 199.47 199.47 199.48 199.49 199.50
3 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88 43.69 43.39 43.08 42.78 42.62 42.47 42.31 42.15 41.99 41.83
4 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14 20.97 20.70 20.44 20.17 20.03 19.89 19.75 19.61 19.47 19.32
5 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62 13.38 13.15 12.90 12.78 12.66 12.53 12.40 12.27 12.14
6 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 10.25 10.03 9.81 9.59 9.47 9.36 9.24 9.12 9.00 8.88
7 16.24 12.40 10.88 10.05 9.52 9.16 8.89 8.68 8.51 8.38 8.18 7.97 7.75 7.64 7.53 7.42 7.31 7.19 7.08
8 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34 7.21 7.01 6.81 6.61 6.50 6.40 6.29 6.18 6.06 5.95
9 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54 6.42 6.23 6.03 5.83 5.73 5.62 5.52 5.41 5.30 5.19
10 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 5.85 5.66 5.47 5.27 5.17 5.07 4.97 4.86 4.75 4.64
11 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54 5.42 5.24 5.05 4.86 4.76 4.65 4.55 4.44 4.34 4.23
12 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 5.09 4.91 4.72 4.53 4.43 4.33 4.23 4.12 4.01 3.90
13 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94 4.82 4.64 4.46 4.27 4.17 4.07 3.97 3.87 3.76 3.65
295
14 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72 4.60 4.43 4.25 4.06 3.96 3.86 3.76 3.66 3.55 3.44
15 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 4.42 4.25 4.07 3.88 3.79 3.69 3.58 3.48 3.37 3.26
16 10.58 7.51 6.30 5.64 5.21 4.91 4.69 4.52 4.38 4.27 4.10 3.92 3.73 3.64 3.54 3.44 3.33 3.22 3.11
17 10.38 7.35 6.16 5.50 5.07 4.78 4.56 4.39 4.25 4.14 3.97 3.79 3.61 3.51 3.41 3.31 3.21 3.10 2.98
18 10.22 7.21 6.03 5.37 4.96 4.66 4.44 4.28 4.14 4.03 3.86 3.68 3.50 3.40 3.30 3.20 3.10 2.99 2.87
19 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04 3.93 3.76 3.59 3.40 3.31 3.21 3.11 3.00 2.89 2.78
20 9.94 6.99 5.82 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.68 3.50 3.32 3.22 3.12 3.02 2.92 2.81 2.69
21 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88 3.77 3.60 3.43 3.24 3.15 3.05 2.95 2.84 2.73 2.61
22 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81 3.70 3.54 3.36 3.18 3.08 2.98 2.88 2.77 2.66 2.55
23 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75 3.64 3.47 3.30 3.12 3.02 2.92 2.82 2.71 2.60 2.48
24 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69 3.59 3.42 3.25 3.06 2.97 2.87 2.77 2.66 2.55 2.43
25 9.48 6.60 5.46 4.84 4.43 4.15 3.94 3.78 3.64 3.54 3.37 3.20 3.01 2.92 2.82 2.72 2.61 2.50 2.38
26 9.41 6.54 5.41 4.79 4.38 4.10 3.89 3.73 3.60 3.49 3.33 3.15 2.97 2.87 2.77 2.67 2.56 2.45 2.33
27 9.34 6.49 5.36 4.74 4.34 4.06 3.85 3.69 3.56 3.45 3.28 3.11 2.93 2.83 2.73 2.63 2.52 2.41 2.29
28 9.28 6.44 5.32 4.70 4.30 4.02 3.81 3.65 3.52 3.41 3.25 3.07 2.89 2.79 2.69 2.59 2.48 2.37 2.25
29 9.23 6.40 5.28 4.66 4.26 3.98 3.77 3.61 3.48 3.38 3.21 3.04 2.86 2.76 2.66 2.56 2.45 2.33 2.21
30 9.18 6.35 5.24 4.62 4.23 3.95 3.74 3.58 3.45 3.34 3.18 3.01 2.82 2.73 2.63 2.52 2.42 2.30 2.18
40 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 3.12 2.95 2.78 2.60 2.50 2.40 2.30 2.18 2.06 1.93
60 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.74 2.57 2.39 2.29 2.19 2.08 1.96 1.83 1.69
120 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.54 2.37 2.19 2.09 1.98 1.87 1.75 1.61 1.43
∞ 7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.74 2.62 2.52 2.36 2.19 2.00 1.90 1.79 1.67 1.53 1.36 1.00
* Muliplicar por 100

libertad del
denominador (m) 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 4053∗ 5000∗ 5404∗ 5625∗ 5764∗ 5859∗ 5929∗ 5981∗ 6023∗ 6056∗ 6107∗ 6158∗ 6209∗ 6235∗ 6261∗ 6287∗ 6313∗ 6340∗ 6366∗
2 998.50 999.00 999.20 999.20 999.30 999.30 999.40 999.40 999.40 999.40 999.40 999.40 999.40 999.50 999.50 999.50 999.50 999.50 999.50
3 167.00 148.50 141.10 137.10 134.60 132.80 131.60 130.60 129.90 129.20 128.30 127.40 126.40 125.90 125.40 125.00 124.50 124.00 123.50
4 74.14 61.25 56.18 53.44 51.71 50.53 49.66 49.00 48.47 48.05 47.41 46.76 46.10 45.77 45.43 45.09 44.75 44.40 44.05
5 47.18 37.12 33.20 31.09 29.75 28.83 28.16 27.65 27.24 26.92 26.42 25.91 25.39 25.13 24.87 24.60 24.33 24.06 23.79
6 35.51 27.00 23.70 21.92 20.80 20.03 19.46 19.03 18.69 18.41 17.99 17.56 17.12 16.90 16.67 16.44 16.21 15.98 15.75
7 29.25 21.69 18.77 17.20 16.21 15.52 15.02 14.63 14.33 14.08 13.71 13.32 12.93 12.73 12.53 12.33 12.12 11.91 11.70
8 25.41 18.49 15.83 14.39 13.48 12.86 12.40 12.05 11.77 11.54 11.19 10.84 10.48 10.30 10.11 9.92 9.73 9.53 9.33
9 22.86 16.39 13.90 12.56 11.71 11.13 10.70 10.37 10.11 9.89 9.57 9.24 8.90 8.72 8.55 8.37 8.19 8.00 7.81
10 21.04 14.91 12.55 11.28 10.48 9.93 9.52 9.20 8.96 8.75 8.45 8.13 7.80 7.64 7.47 7.30 7.12 6.94 6.76
11 19.69 13.81 11.56 10.35 9.58 9.05 8.66 8.35 8.12 7.92 7.63 7.32 7.01 6.85 6.68 6.52 6.35 6.17 6.00
12 18.64 12.97 10.80 9.63 8.89 8.38 8.00 7.71 7.48 7.29 7.00 6.71 6.40 6.25 6.09 5.93 5.76 5.59 5.42
13 17.82 12.31 10.21 9.07 8.35 7.86 7.49 7.21 6.98 6.80 6.52 6.23 5.93 5.78 5.63 5.47 5.30 5.14 4.97
296
14 17.14 11.78 9.73 8.62 7.92 7.44 7.08 6.80 6.58 6.40 6.13 5.85 5.56 5.41 5.25 5.10 4.94 4.77 4.60
15 16.59 11.34 9.34 8.25 7.57 7.09 6.74 6.47 6.26 6.08 5.81 5.54 5.25 5.10 4.95 4.80 4.64 4.47 4.31
16 16.12 10.97 9.01 7.94 7.27 6.80 6.46 6.19 5.98 5.81 5.55 5.27 4.99 4.85 4.70 4.54 4.39 4.23 4.06
17 15.72 10.66 8.73 7.68 7.02 6.56 6.22 5.96 5.75 5.58 5.32 5.05 4.78 4.63 4.48 4.33 4.18 4.02 3.85
18 15.38 10.39 8.49 7.46 6.81 6.35 6.02 5.76 5.56 5.39 5.13 4.87 4.59 4.45 4.30 4.15 4.00 3.84 3.67
19 15.08 10.16 8.28 7.27 6.62 6.18 5.85 5.59 5.39 5.22 4.97 4.70 4.43 4.29 4.14 3.99 3.84 3.68 3.51
20 14.82 9.95 8.10 7.10 6.46 6.02 5.69 5.44 5.24 5.08 4.82 4.56 4.29 4.15 4.00 3.86 3.70 3.54 3.38
21 14.59 9.77 7.94 6.95 6.32 5.88 5.56 5.31 5.11 4.95 4.70 4.44 4.17 4.03 3.88 3.74 3.58 3.42 3.26
22 14.38 9.61 7.80 6.81 6.19 5.76 5.44 5.19 4.99 4.83 4.58 4.33 4.06 3.92 3.78 3.63 3.48 3.32 3.15
23 14.20 9.47 7.67 6.70 6.08 5.65 5.33 5.09 4.89 4.73 4.48 4.23 3.96 3.82 3.68 3.53 3.38 3.22 3.05
24 14.03 9.34 7.55 6.59 5.98 5.55 5.23 4.99 4.80 4.64 4.39 4.14 3.87 3.74 3.59 3.45 3.29 3.14 2.97
25 13.88 9.22 7.45 6.49 5.89 5.46 5.15 4.91 4.71 4.56 4.31 4.06 3.79 3.66 3.52 3.37 3.22 3.06 2.89
26 13.74 9.12 7.36 6.41 5.80 5.38 5.07 4.83 4.64 4.48 4.24 3.99 3.72 3.59 3.44 3.30 3.15 2.99 2.82
27 13.61 9.02 7.27 6.33 5.73 5.31 5.00 4.76 4.57 4.41 4.17 3.92 3.66 3.52 3.38 3.23 3.08 2.92 2.75
28 13.50 8.93 7.19 6.25 5.66 5.24 4.93 4.69 4.50 4.35 4.11 3.86 3.60 3.46 3.32 3.18 3.02 2.86 2.69
29 13.39 8.85 7.12 6.19 5.59 5.18 4.87 4.64 4.45 4.29 4.05 3.80 3.54 3.41 3.27 3.12 2.97 2.81 2.64
30 13.29 8.77 7.05 6.12 5.53 5.12 4.82 4.58 4.39 4.24 4.00 3.75 3.49 3.36 3.22 3.07 2.92 2.76 2.59
40 12.61 8.25 6.59 5.70 5.13 4.73 4.44 4.21 4.02 3.87 3.64 3.40 3.14 3.01 2.87 2.73 2.57 2.41 2.23
60 11.97 7.77 6.17 5.31 4.76 4.37 4.09 3.86 3.69 3.54 3.32 3.08 2.83 2.69 2.55 2.41 2.25 2.08 1.89
120 11.38 7.32 5.78 4.95 4.42 4.04 3.77 3.55 3.38 3.24 3.02 2.78 2.53 2.40 2.26 2.11 1.95 1.76 1.54
∞ 10.83 6.91 5.42 4.62 4.10 3.74 3.47 3.27 3.10 2.96 2.74 2.51 2.27 2.13 1.99 1.84 1.66 1.45 1.00
* Muliplicar por 100

Tabla A.7: Distribución del Estadı́stico ∆n de Kolmogorov-Smirnov. P (∆n > x) = p
p 0.2 0.1 0.05 0.02 0.01

n
2 0.684 0.776 0.842 0.900 0.929
3 0.565 0.636 0.708 0.785 0.829
4 0.493 0.565 0.624 0.689 0.734
5 0.447 0.509 0.563 0.627 0.669
6 0.410 0.468 0.519 0.577 0.617
7 0.381 0.436 0.483 0.538 0.576
8 0.358 0.410 0.454 0.507 0.542
9 0.339 0.387 0.430 0.480 0.513
10 0.323 0.369 0.409 0.457 0.489
11 0.308 0.352 0.391 0.437 0.468
12 0.296 0.338 0.375 0.419 0.449
13 0.285 0.325 0.361 0.404 0.432
14 0.275 0.314 0.349 0.390 0.418
15 0.266 0.304 0.338 0.377 0.404
16 0.258 0.295 0.327 0.366 0.392
17 0.250 0.286 0.318 0.355 0.381
18 0.244 0.279 0.309 0.346 0.371
19 0.237 0.271 0.301 0.337 0.361
20 0.232 0.265 0.294 0.329 0.352
21 0.226 0.259 0.287 0.321 0.344
22 0.221 0.253 0.281 0.314 0.337
23 0.216 0.247 0.275 0.307 0.330
24 0.212 0.242 0.269 0.301 0.323
25 0.208 0.238 0.264 0.295 0.317
26 0.204 0.233 0.259 0.290 0.311
27 0.200 0.229 0.254 0.284 0.305
28 0.197 0.225 0.250 0.279 0.300
29 0.193 0.221 0.246 0.275 0.295
30 0.190 0.218 0.242 0.270 0.290
31 0.187 0.214 0.238 0.266 0.285
32 0.184 0.211 0.234 0.262 0.281
33 0.182 0.208 0.231 0.258 0.277
34 0.179 0.205 0.227 0.254 0.273
35 0.177 0.202 0.224 0.251 0.269
36 0.174 0.199 0.221 0.247 0.265
37 0.172 0.196 0.218 0.244 0.262
38 0.170 0.194 0.215 0.241 0.258
39 0.168 0.191 0.213 0.238 0.255
40 0.165 0.189 0.210 0.235 0.252
√ √ √ √ √
n > 40 1.07/ n 1.22/ n 1.36/ n 1.52/ n 1.63/ n
297
Cuadro A.8: Distribución del estadı́stico de Wilcoxon. P {T + > x} = p
p 0.1 0.05 0.025 0.01
3 4 6 6 6
4 9 10 10 10
5 12 14 15 15
6 17 18 20 21
7 22 24 25 27
8 27 30 32 34
9 34 36 39 41
10 40 44 46 49
11 48 52 55 58
12 56 60 64 67
13 64 69 73 78
14 73 79 84 89
15 83 89 94 100
16 93 100 106 112
17 104 111 118 125
18 115 123 130 138
19 127 136 143 152
20 140 149 157 166
298
Cuadro A.9: Distribución del estadı́stico τ de Kendall. P {|T | > x} = p
p 0.2 0.1 0.05 0.02
3 1.0000 1.0000 1.0000 1.0000

4 0.6667 0.6667 1.0000 1.0000
5 0.6000 0.6000 0.8000 0.8000
6 0.4667 0.6000 0.7333 0.7333
7 0.4286 0.5238 0.6190 0.7143
8 0.4128 0.5000 0.5714 0.6429
9 0.3333 0.4444 0.5000 0.6111
10 0.3333 0.4222 0.4667 0.5556
299
Cuadro A.10: Distribución del estadı́stico de Mann-Whitney. P {V > x} = p
m 2 3 4 5 6 7 8 9 10
n p
2 0.100 4 5 7 8 10 12 13 15 16
0.050 4 6 8 9 11 13 14 16 18
0.025 4 6 8 10 12 14 15 17 19
0.010 4 6 8 10 12 14 16 18 20
3 0.100 7 10 12 14 16 18 21 23
0.050 8 11 13 15 18 20 22 25
0.025 9 11 14 16 19 21 24 26
0.010 9 12 15 18 20 22 25 28
4 0.100 12 15 18 21 24 26 29
0.050 14 17 20 23 26 29 32
0.025 15 18 21 24 27 31 34
0.010 16 19 22 26 29 32 36
5 0.100 19 22 26 29 32 36
0.050 20 24 28 31 35 38
0.025 22 26 29 33 37 41
0.010 23 27 31 35 39 43
6 0.100 26 30 34 38 42
0.050 28 33 37 41 45
0.025 30 35 39 43 48
0.010 32 37 41 46 51
7 0.100 35 39 44 48
0.050 37 42 47 52
0.025 40 45 50 55
0.010 42 48 53 58
8 0.100 44 49 55
0.050 48 53 59
0.025 50 56 62
0.010 54 60 66
9 0.100 55 61
0.050 59 65
0.025 63 69
0.010 66 73
10 0.100 67
0.050 72
0.025 76
0.010 80
300
Cuadro A.11: Distribución del estadı́stico de Spearman. P {RS > x} = p
p 0.1 0.05 0.025 0.01 0.005 0.001
4 0.8000 0.8000
5 0.7000 0.8000 0.9000 0.9000
6 0.6000 0.7714 0.8286 0.8857 0.9429
7 0.5357 0.6786 0.7450 0.8571 0.8929 0.9643
8 0.5000 0.6190 0.7143 0.8095 0.8571 0.9286
9 0.4667 0.5833 0.6833 0.7667 0.8167 0.9000
10 0.4424 0.5515 0.6364 0.7333 0.7818 0.8667
11 0.4182 0.5273 0.6091 0.7000 0.7545 0.8364
12 0.3986 0.4965 0.5804 0.6713 0.7273 0.8182
13 0.3791 0.4780 0.5549 0.6429 0.6978 0.7912
14 0.3626 0.4593 0.5341 0.6220 0.6747 0.7670
15 0.3500 0.4429 0.5179 0.6000 0.6536 0.7464
16 0.3382 0.4264 0.5000 0.5824 0.6324 0.7265
17 0.3260 0.4118 0.4853 0.5637 0.6152 0.7083
18 0.3148 0.3994 0.4716 0.5480 0.5975 0.6904
19 0.3070 0.3895 0.4579 0.5333 0.5825 0.6737
20 0.2977 0.3789 0.4451 0.5203 0.5684 0.6586
21 0.2909 0.3688 0.4351 0.5078 0.5545 0.6455
22 0.2829 0.3597 0.4241 0.4963 0.5426 0.6318
23 0.2767 0.3518 0.4150 0.4852 0.5306 0.6186
24 0.2704 0.3435 0.4061 0.4748 0.5200 0.6070
25 0.2646 0.3362 0.3977 0.4654 0.5100 0.5962
26 0.2588 0.3299 0.3894 0.4564 0.5002 0.5856
27 0.2540 0.3236 0.3822 0.4481 0.4915 0.5757
28 0.2490 0.3175 0.3749 0.4401 0.4828 0.5660
29 0.2443 0.3113 0.3685 0.4320 0.4744 0.5567
30 0.2400 0.3059 0.3620 0.4251 0.4665 0.5479
301
302
Resumen
B de distribuciones
303
Distribución F. de densidad F. Caracterı́stica Esperanza Varianza
Bernoulli B(1, p) px q 1−x x = 0, 1 q + peit p pq

n
Binomial B(n, p) x px q n−x x = 0, 1, . . . , n (q + peit )n np npq
λx −λ it −1)
Poisson P(λ) e x = 0, 1, . . . eλ(e λ λ
x!

K N −A
x n−x A n(N − n)pq
Hipergeométrica H(n, N, A) x = 0, 1, . . . , n n = np
304
N N N −1
n
p q q
Geométrica G(p) pq x x = 0, 1, . . .
1 − qeit p p2
pr q q
x+r−1
Binomial Negativa BN(r, p) x pr q x x = 0, 1, . . . r r
(1 − qeit )r p p2
1 eibt − eiat a+b (b − a)2

Uniforme U(a, b) a<x<b
b−a i(b − a)t 2 12
2
1 x−µ 1
1 −
2 σ itµ − t2 σ 2
Normal N(µ, σ) √ e x∈R e 2 µ σ2
σ 2π
2
1 Lx − µ 1
1 − µ + σ2
e 2 σ 2 2
Log-Normal Log-N(µ, σ) √ x≥0 e 2 (eσ − 1)e2µ+σ
xσ 2π
305
1
Pearson χ2n n xn/2−1 e−x/2 x ≥ 0 (1 − 2it)−n/2 n 2n
2n/2 Γ
2

n+1
Γ − n + 1
2 x2 2 n
t-Student tn √ n 1 + x∈R 0 (n > 1) (n > 2)
nπ Γ n n−2
2

n+m
nn/2 mm/2 Γ n+m
2 n/2−1
− m 2m2 (n + m − 2)
F-Snedecor Fn,m n m x (m + nx) 2 x≥0
Γ Γ m−2 n(m − 2)2 (m − 4)
2 2
λ 1 1
Exponencial Exp(λ) λe−λx x ≥ 0
λ − it λ λ2
n
λn n−1 −λx λ n n
Erlang Er(n, λ) x e x≥0
Γ(n) λ − it λ λ2
p
q p p−1 −qx q p p
Gamma G(p, q) x e x≥0
Γ(p) q − it q q2

r 1 2 1
Weibull W(r, λ) λrxr−1 e−λx x≥0 λ−1/r Γ 1+ λ−2/r Γ 1+ 2
−Γ 1+
306
r r r
1 p pq
Beta B(p, q) xp−1 (1 − x)q−1 0 ≤ x ≥ 1
β(p, q) p+q (p + q)2 (p + q + 1)
( " 2 2 #)
1 1 x − µx x − µx y − µy y − µy
Normal Bidimensional f (x, y) = p exp − − 2ρ +
2πσx σy 1−ρ 2 2(1 − ρ2 ) σx σx σy σy

Apunte Complementario Estad - Ã - Stica I - Temas Varios

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Apunte Complementario Estad - Ã - Stica I - Temas Varios

Загружено:

Авторское право:

Доступные форматы

ESTADÍSTICA

Marta Cordero Gracia

5. Variable aleatoria unidimensional 37

6. Momentos de una variable aleatoria unidimensional 53

8. Distribuciones de probabilidad discretas 85

10.Convergencia de sucesiones de variables aleatorias 127

11.Regresión y correlación 133

12.Distribuciones de muestreo 143

13.Estimación puntual y estimación por intervalo 159

14.Teorı́a de muestras de población finita 187

15.Contraste de hipótesis 197

16.Contrastes no paramétricos 219

17.Regresión lineal simple 251

B. Resumen de distribuciones 303

La estadı́stica descriptiva tiene por objeto describir y analizar un determinado con-

En este capı́tulo se tratará únicamente con variables cuantitativas.

• Disponemos de N observaciones, r de las cuales son distintas {x1 , x2 , . . . , xr }.

• Las observaciones están ordenadas en forma creciente x1 < x2 < · · · < xr .

• Cada observación xi ha aparecido ni veces.

• Se llama frecuencia absoluta de la observación xi al valor ni , siendo

• Se llama frecuencia absoluta acumulada de la observación xi , al valor

• Se llama frecuencia relativa de la observación xi al valor

• Se llama frecuencia relativa acumulada de la observación xi , al valor

1.2. Formas de agrupar los datos de una muestra

Tabla Tipo II. Se utiliza cuando el número de observaciones es grande (N es gran-

∈[L0 ,L1 ) ∈[L1 ,L2 ) Li−1 — Li ni

En las tablas tipo III, se sugieren las siguientes normas :

• Se debe intentar que los intervalos sean de amplitud constante.

• Los intervalos se deben tomar semiabiertos, [Li−1 , Li ).

• Para facilitar los cálculos, se definen las marcas de clase como

1.3. Representación gráfica

Diagrama de barras Polı́gono de frecuencias

1.4. Medidas numéricas descriptivas

1.4.1. Medidas de posición

1.4.1.1. Medidas de tendencia central

Estas medidas indican dónde se encuentra el centro de los datos

• Media muestral (x̄)

• Otros tipos de medias

Se cumple: x̄A ≤ x̄G ≤ x̄ ≤ x̄Q

• Cuartiles (Q1/4 , Q2/4 , Q3/4 )

• Deciles (D1/10 , D2/10 , . . . , D9/10 )

• Centiles o percentiles (P1/100 , P2/100 , . . . , P99/100 )

1.4.2. Medidas de dispersión

1.4.2.1. Varianza y desviación tı́pica

Las medidas de dispersión más utilizadas son la varianza y la desviación tı́pica. La

1.4.2.2. Desviación media

Se define la desviación media respecto de un parámetro cualquiera, p, como

1.4.2.3. Coeficiente de variación de Pearson

El coeficiente de variación de Pearson, definido como el cociente

Es la diferencia entre el valor máximo y el valor mı́nimo que toma la muestra

1.4.3. Medida de asimetrı́a

1.4.4. Medida de apuntamiento

donde s es la desviación tı́pica de la muestra. Si CAp> 0 indica que la distribución es

|{z} |{z} |{z} |{z}

|{z} |{z} |{z} |{z} |{z} |{z}

En total hay, por tanto, 6 · 3 · 2 · 2 = 72 ordenaciones posibles.

La intuitiva multiplicación que proporciona el resultado final puede expresarse como

Si los conjuntos A1 , A2 ,. . .,Ak tienen n1 , n2 , . . .,nk elementos respectivamente,

el producto cartesiano A1 × A2 × · · · × Ak tiene n1 · n2 · · · nk elementos.

2.1.0.1. Sin repetición

El método anterior nos da fácilmente el número de permutaciones Pn que existen en

|{z} |{z} |{z} ... |{z} |{z} |{z}

2.1.0.2. Con repetición