Вы находитесь на странице: 1из 51

Instituto Politécnico Nacional

ESIA TICOMAN CIENCIAS DE LA TIERRA

8 DE SEPTIEMBRE DE 2017

Instituto Politécnico Nacional

Geoestadística 2PM2

MARTINEZ ORTIZ JULIO SALVADOR


PROFESOR: VELAZQUEZ CADENA ARIEL YRVING
Estadística Descriptiva y Probabilidad

Organización y presentación de datos y análisis de datos

Conceptos básicos de estadística


El tema de la estadística moderna abarca la recolección, presentación y
caracterización de información para ayudar tanto en el análisis de datos como en el
proceso de la toma de decisiones.

La estadística se divide normalmente en dos:

Estadística Descriptiva. Puede definirse como aquellos métodos que incluyen la


recolección, presentación y caracterización de un conjunto de datos con el fin de
describir apropiadamente las diversas características de ese conjunto de datos.

Ejemplos: promedio de bateo, índice de accidentes, tasa de mortalidad, calcular


desviación estándar, etc.

Inferencia Estadística o Estadística inferencial. Puede definirse como aquellos


métodos que hacen posible la estimación de una característica de una población o
la toma de una decisión referente a una población, basándose sólo en los resultados
de la muestra.

Por ejemplo, un profesor de historia decide servirse de la calificación promedio


lograda por un grupo para estimar el promedio de los diez grupos que asisten al
mismo curso de historia. El proceso de estimación de la calificación promedio sería
un problema de inferencia estadística. Cualquier conclusión a la que llegue el
profesor respecto al os diez grupos del curso se basará en una generalización que
va mucho más allá de los datos relativos al grupo que asiste al curso de historia; y
la generalización no será totalmente válida, de modo que el profesor debe indicar
las probabilidades de que sea verdadera.

Teoría de decisión.

Algunos de los problemas más importantes de la inferencia estadística se refieren


a la evaluación de los riesgos y las consecuencias que pueden ocurrir al hacer
generalizaciones a partir de una muestra de datos. Esto incluye una estimación de
la probabilidad de tomar decisiones erróneas, las posibilidades de hacer
predicciones incorrectas. En los últimos años, se han hecho intentos de abordar
todos estos problemas dentro del marco de referencia de una teoría unificada
llamada teoría de decisión. Si bien esta teoría tiene muchas ventajas conceptuales
y teóricas, plantea algunos problemas de aplicación que son difíciles de resolver.
Para entenderlos debe comprenderse que, por muy objetivamente que se planee
un experimento o investigación, es imposible eliminar todos los elementos
subjetivos. Un elemento de subjetividad interviene aun cuando definimos elementos
como “bueno” o “mejor” con respecto a la razón de criterios de decisión (por ejemplo,
buscaremos una línea recta que “mejor se ajuste a un conjunto dado de pares
ordenados de datos).

La gran mayoría de los métodos que serán usados para plantear y resolver estos
problemas pertenecen al enfoque clásico, ya que no toman en cuenta los varios
factores subjetivos mencionados antes. Algunas otras aplicaciones pertenecen al
enfoque Bayesiano, que consideran, informalmente al menos, algunos de estos
factores subjetivos. La subjetividad influye mucho en la elección de los métodos
estadísticos o fórmulas empleadas en una situación específica.

Población (o universo): Es la totalidad de elementos o cosas bajo consideración.

Una Muestra: Es la porción de la población que se selecciona para su análisis.

Un Parámetro: Es una medida de resumen que se calcula para describir una


característica de toda una población.

Una Estadística: Es una medida de resumen que se calcula para describir una
característica de una sola muestra de la población.
Muestra aleatoria: Es una muestra elegida independientemente de todas las
demás, con la misma probabilidad que cualquier otra y cuyos elementos están
elegidos independientemente unos de otros y con la misma probabilidad.

DESCRIPCION DE DATOS

Los datos ayudan a los encargados de la toma de decisiones a hacer conjeturas


bien fundamentadas acerca de las causas y, por lo tanto, sobre los efectos
probables de ciertas características de algunas situaciones. Por lo demás, el
conocimiento de las tendencias adquirido con la experiencia permite conocer los
posibles resultados y planear con anticipación.

Los datos estadísticos se obtienen mediante un proceso que comprende la


observación o medición de conceptos, como ingresos anuales de una comunidad,
calificaciones de exámenes, resistencia a la rotura de las fibras de plástico, etc., a
menudo son tan numerosos que carecen de utilidad a menos que sean
condensados o reducidos a una forma más adecuada.

Algunas veces puede ser satisfactorio presentar los datos tal como se encuentran y
obtener información directamente de ellos; otras veces solo habrá que agruparlos y
presentarlos en forma gráfica o tabulada, aquí el uso de las tecnologías
computacionales es mucha utilidad y rapidez.

DATOS AGRUPADOS

Cuando la muestra consta de más de 30 datos, lo aconsejable es agrupar los datos


en clases y a partir de estas determinar las características de la muestra y por
consiguiente las de la población de donde fue tomada.

Los datos agrupados se pueden resumir gráficamente, o en tablas, y mediante el


uso de medidas numéricas, como la media, la amplitud, la desviación estándar, y
otras más. El nombre que reciben los datos ordenados en grupos o categorías es el
de distribución de frecuencia.
Distribución de frecuencia

Una forma de sintetizar los datos consiste en valerse de una tabla o distribución de
frecuencia. Tomemos como ejemplo el inventario promedio en días de 20 tiendas
de conveniencia.

En las siguientes tablas se han incluido datos idénticos referentes al inventario


promedio y se han dispuesto primero como un arreglo en orden ascendente y luego
como una distribución de frecuencia. Para obtener la tabla 2 se tuvo que dividir los
datos en grupos de valores semejantes. Después se registraron el número de
puntos graficados (observaciones) de datos que caían dentro de cada grupo.

TABLA 1: Arreglo de datos del inventario promedio (en días) de 20 tiendas de


artículos de conveniencia

2.0 3.4 3.8 4.1 4.1 4.3 4.7 4.9 5.5 5.5
3.4 3.8 4.0 4.1 4.2 4.7 4.8 4.9 5.5 5.5

TABLA 2: Distribución de frecuencia del inventario promedio (en días) de 20 tiendas


de artículos de conveniencia (6 clases)

Clase (grupo de observaciones de datos Frecuencia (número de


con valores semejantes) observaciones en cada clase)
2.0 a 2.5 1
2.6 a 3.1 0
3.2 a 3.7 2
3.8 a 4.3 8
4.4 a 4.9 5
5.0 a 5.5 4
Nótese que perdimos un poco de información al construir la distribución de
frecuencia, por ejemplo, ya no sabemos que el valor 5.5 aparece cuatro veces o que
el valor 5.1 no parece en absoluto. Pero, por otra parte, adquirimos información
concerniente al patrón de los inventarios promedio.

La distribución de frecuencia es una tabla que organiza los datos en clases; es


decir, en grupos de valores que describen una característica de los datos. El
inventario promedio es una característica de las 20 tiendas de conveniencia

Una distribución de frecuencia muestra el número de observaciones provenientes


del conjunto de datos que caen dentro de cada una de las clases. Si podemos
determinar la frecuencia con que ocurren los valores en cada clase de un conjunto
de datos, estaremos en condiciones de construir una distribución de frecuencia.

Características de las distribuciones de Frecuencia relativa

Hasta ahora se ha expresado la frecuencia con que ocurren los valores en cada
clase como el número total de observaciones que caen en dicha clase. También se
puede expresar la frecuencia de cada valor como una fracción o porcentaje del
número total de observaciones. La frecuencia de un inventario promedio, digamos
de 4.4 a 4.9, es 5 en la tabla 2 y de 0.25 en la tabla 3. Para obtener este último valor,
dividimos la frecuencia de esta clase (5) entre el número total de observaciones en
el conjunto de datos (20). La respuesta puede expresarse como una fracción ( 5 20 ),
un decimal (0.25) o un porcentaje (25 %). Una distribución de frecuencia relativa
presenta las frecuencias en fracciones o porcentajes.

TABLA 3: Distribución de frecuencia relativa del inventario promedio (en días) de 20


tiendas de artículos de conveniencia
CLASE FRECUENCIA Frecuencia relativa: Fracciones de observaciones en
cada clase
2.0 a 2.5 1 0.05
2.6 a 3.1 0 0.00
3.2 a 3.7 2 0.10
3.8 a 4.3 8 0.40
4.4 a 4.9 5 0.25
5.0 a 5.5 4 0.20
20 1.00 suma de las frecuencias relativas de todas las
clases

La suma de todas las frecuencias relativas es de 1.00 o 100 %. Esto sucede porque
una distribución de frecuencia relativa parea cada clase con su fracción o porcentaje
correspondiente de los datos totales. Por lo anterior, las clases en cualquier
distribución de frecuencia simple o relativa son exhaustivas. Todos los datos
encajan en una u otra categoría. Observe también que las clases son mutuamente
excluyentes; es decir, ninguna observación cae dentro de más de una categoría.

Clases discretas.

Los esquemas de clasificación pueden ser cualitativos o cuantitativos y discretos o


continuos. Las clases discretas son entidades individuales que no pasan de una
clase a la siguiente sin una ruptura. Son discretas las siguientes clases: el número
de hijos de las familias, el número de camiones que poseen las compañías
transportistas, las ocupaciones de los graduados universitarios.

Los datos continuos pueden pasar de una clase a la siguiente sin ruptura alguna.
Contienen una medida numérica como el peso de unas latas de tomates, los
kilogramos de presión sobre el concreto, o el promedio de calificaciones de los
universitarios el último semestre.
Construcción de una distribución de Frecuenci

Ahora que hemos aprendido a dividir una muestra en clases, ya se está en


condiciones de tomar datos brutos y construir una distribución de frecuencia. A
continuación, tomaremos el siguiente ejemplo para el desarrollo de la distribución
de frecuencia:

EJEMPLO 1: Un ingeniero de control de calidad del agua en Charlotte (North


Carolina) es responsable del nivel de clorinación del agua. Dicho nivel ha de
acercarse bastante al que exige el departamento de salubridad. Para vigilar el cloro
sin necesidad de verificar cada galón de agua que sale de la planta, el ingeniero
muestrea diariamente algunos galones, mide el contenido de cloro y extrae una
conclusión sobre el nivel promedio de clorinación que tiene el agua tratada de ese
día. La tabla anexa muestra las concentraciones de cloro de 30 galones
seleccionados como muestra de un día. Estos niveles son los datos brutos de donde
el ingeniero saca sus conclusiones respecto a la población total a la que se aplicó
la clorinación ese día.

TABLA 4: Concentraciones de cloro en partes por millón (ppm) en 30 galones de


agua tratada.

16.2 15.4 16.0 16.6 15.9 15.8 16.0 16.8 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 15.7 16.2 15.6 15.9 16.3 16.3 16.0 16.3

Para analizar los datos de esta tabla seguiremos los siguientes pasos:

1.- Escoger el tipo y número de clases para dividir los datos. En este caso, ya
se ha optado por clasificar los datos según la medida cuantitativa del número de
ppm del cloro en el agua tratada, en vez de hacerlo a partir de un atributo cualitativo
como color o el olor del agua.

Después necesitamos decidir cuántas clases utilizar y el intervalo (la distancia que
debe comprender cada clase).

El número de clases por utilizar depende principalmente del número de


observaciones en los datos. Esto es, un número mayor de observaciones requiere
un mayor número de grupos de clase. En general la distribución de frecuencia debe
tener al menos cinco clases, pero no más de 15. Si no hay suficientes
agrupamientos de clase o si hay demasiados, se obtendrá poca información.

A continuación se muestra una tabla que nos puede ser útil para seleccionar el
número de clases, aclarando que esta designación no es obligatoria y puede ser a
decisión del analista.

TAMAÑO DE MUESTRA O N° DE DATOS NUMERO DE CLASES (K)


Menos de 50 5a7
50 a 99 6 a 10
100 a 250 7 a 12
250 en adelante 12 a 15

Para designar el número de clases usaremos la letra K, para este ejemplo se usará
K= 6 clases.

Es deseable que el ancho da cada agrupamiento de clase (intervalo del inicio de


una clase al inicio de la siguiente) sea igual. Para determinar el ancho de cada clase,
el alcance de los datos de divide entre el número de agrupamientos de clase
deseado:
Rango
Ancho de Intervalo : =
número total de intervalos de clase

R
A R  Val. mayor  Val. menor
K

La amplitud o ancho del intervalo se calcula:

16.9  15.2
A  0.283  0.30 ppm
6

Ya se ha terminado el paso 1. Se han clasificado los datos según la media


cuantitativa de cuantas ppm se encuentran en el agua tratada. Se escogieron seis
clases para cubrir el intervalo de 15.2 a 16.9 y en consecuencia se utilizará 0.3 ppm
como el ancho de los intervalos de clase.

2.- Clasificar los puntos de datos en clases y contar el número de puntos en


cada clase: Esta información aparece en la tabla 5. Toda observación de datos
encaja por lo menos en una clase y ninguna observación lo hace en más de una
clase. Por lo que nuestras clases son exhaustivas y mutuamente excluyentes.
Observe que el límite inferior de la primera clase corresponde a la menor
observación de datos de la muestra, y que el límite superior de la última clase
corresponde a la observación mayor de los datos.

TABLA 5: Concentraciones de cloro en muestras de agua tratada con intervalos de


clase de 0.3 ppm

CLASE FRECUENCIA
15.2 - 15.4 2
15.5 - 15.7 5
15.8 - 16.0 11
16.1 - 16.3 6
16.4 - 16.6 3
16.7 - 16.9 3
30

3.- Mostrar las observaciones en una gráfica.

12 11

10
FRECUENCIA

8
6
6 5

4 3 3
2
2

0
15.2 - 15.4 15.5 - 15.7 15.8 - 16.0 16.1 - 16.3 16.4 - 16.6 16.7 - 16.9

Fig. 1 Histograma de Frec. Absoluta

Graficación de las distribuciones de Frecuencia.

Las gráficas de distribución de frecuencia y de distribución de frecuencia relativa


son útiles porque ponen de manifiesto y aclaran las tendencias que no se captan
fácilmente en las tablas. Atraen la atención del lector sobre las tendencias de los
datos.

Histogramas

La figura 1 es un ejemplo de un histograma. El histograma es una serie de


rectángulos, todos ellos de anchura proporcional a la gama de valores dentro de
una clase y también de altura proporcional a los elementos que caen dentro de la
clase. Si las clases que empleamos en la distribución de frecuencia tienen el mismo
ancho, las barras verticales del histograma lo tendrán también. La altura de la barra
de cada clase corresponde al número de elementos de esta última.

Un histograma que se sirve de la frecuencia relativa (tabla 6) de las observaciones


de datos en cada una de las clases y no del número real de observaciones recibe
el nombre de Histograma de frecuencia relativa (fig. 2). Este tiene la misma forma
que un histograma de frecuencia absoluta hecho con el mismo conjunto de datos.
La única diferencia entre el histograma de frecuencia absoluta y el de frecuencia
relativa, es la escala vertical de la izquierda, en el primero es el número absoluto de
observaciones en cada clase y en el segundo es el número de observaciones en
cada clase como una fracción del número total de ellas.

TABLA 6: Concentraciones de cloro en muestras de agua tratada con intervalos de


clase de 0.3 ppm usando la frecuencia relativa.

CLASE FRECUENCIA FREC. REL.


15.2 - 15.4 2 0.067
15.5 - 15.7 5 0.167
15.8 - 16.0 11 0.367
16.1 - 16.3 6 0.200
16.4 - 16.6 3 0.100
16.7 - 16.9 3 0.100
Total 30 1.000
Fig. 2 Histograma de Frec. Relativa

HISTOGRAMA DE FRECUENCIA
RELATIVA
0.400 0.367
0.350

0.300
PORCENTAJE

0.250
0.200
0.200 0.167
0.150
0.100 0.100
0.100 0.067
0.050

0.000
15.2 - 15.5 - 15.8 - 16.1 - 16.4 - 16.7 -
15.4 15.7 16.0 16.3 16.6 16.9

Polígono de frecuencias

Aunque de menor uso, los polígonos de frecuencias son otro medio de representar
gráficamente tanto las distribuciones de frecuencia simples como las de frecuencia
relativa. Para construir un polígono de frecuencias, marcamos las frecuencias sobre
el eje vertical y los valores de la variable que vamos a medir las marcamos sobre el
eje horizontal, tal como lo hicimos con los histogramas. El siguiente paso consiste
en graficar cada frecuencia de clase dibujando un punto sobre su marca de clase,
o punto medio, y conectar los puntos consecutivos con una recta para formar un
polígono (figura de muchos lados).

A continuación, en la tabla 7 se muestran los datos de una distribución de


frecuencias para elaborar un polígono.

TABLA 7: Datos de la concentración de cloro en ppm (distribución de frecuencia)


para graficar polígono de frecuencias.
CLASE FRECUENCIA CENTRO CLASE
0 15.0
15.2 - 15.4 2 15.3
15.5 - 15.7 5 15.6
15.8 - 16.0 11 15.9
16.1 - 16.3 6 16.2
16.4 - 16.6 3 16.5
16.7 - 16.9 3 16.8
0 17.1
30

En la figura 3 se muestra un polígono de frecuencias construido con los datos de la


tabla 7. Si comparamos esta figura con las figuras anteriores vemos que se han
agregado clases en cada extremo de la escala de valores observados. Estas dos
nuevas clases contienen cero observaciones, pero permiten al polígono alcanzar el
eje horizontal en ambos extremos de la distribución.

FIG. 3 Polígono de frecuencias

POLIGONO DE FRECUENCIAS
12

10
FRECUENCIA

0
15.0 15.3 15.6 15.9 16.2 16.5 16.8 17.1
Concentración de cloro en ppm
El polígono es simplemente una gráfica lineal que une los puntos medios de todas
barras en un histograma.

Se llama polígono de frecuencias relativas a aquel que usa la frecuencia relativa


de de los puntos de datos en cada clase y no el número real de puntos.

Ojivas

Una distribución de frecuencia acumulativa nos permite ver cuantas observaciones


se hallan por arriba o por debajo de ciertos valores, en lugar de limitarnos a anotar
los números de elementos dentro de los intervalos. Por ejemplo, si queremos saber
cuántos galones contienen menos de 17.0 ppm, podemos servirnos de una tabla
que incluya frecuencias acumulativas “menores que” en nuestra muestra cómo se
observa en la tabla 8.

TABLA 8: Distribución de frecuencia acumulativa “menor que” de las


concentraciones de cloro en ppm

CLASE FRECUENCIA ACUMULATIVA

Menor que 15.2 0


Menor que 15.5 2
Menor que 15.8 7
Menor que 16.1 18
Menor que 16.4 24
Menor que 16.7 27
Menor que 17.0 30
Se llama ojiva a la gráfica de una distribución de frecuencia acumulativa. La ojiva
de una distribución de este tipo se muestra en la figura 4. Los puntos graficados
representan la cantidad de galones que tienen menos cloro que las partes por millón
indicadas sobre el eje horizontal.

FIG. 4 Ojiva “menor que” de la distribución de las concentraciones de cloro


en ppm para 30 galones de agua tratada.

33
30
No. Acumulativo de gal. muestreados

27
24
21
18
15
12
9
6
3
0
15.2 15.5 15.8 16.1 16.4 16.7 17.0
Concentración de cloro en ppm

En ocasiones la información que se utiliza se presenta a partir de frecuencias


“mayores que”. La ojiva apropiada para tal información tendrá una pendiente hacia
abajo y hacia la derecha.

También es posible construir una ojiva de una distribución de frecuencia relativa, de


la misma manera que una absoluta.
DATOS NO AGRUPADOS

Cuando la muestra que se ha tomado de la población o proceso que se desea


analizar, es menor de 30 elementos en la muestra, entonces estos datos son
analizados sin necesidad de formar clases con ellos y a esto se le llama tratamiento
de datos no agrupados.

Con frecuencia un conjunto de números se puede reducir a una o unas cuantas


medidas numéricas sencillas que resumen el conjunto total. Tales medidas son
fáciles de comprender que los datos originales, no procesados. Dos importantes
características de los datos que las medidas numéricas pueden poner de manifiesto
son: 1) el valor central o típico del conjunto y 2) la dispersión de los números.

MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS

Estas medidas se utilizan para indicar un valor que tiende a ser el más
representativo de un conjunto de números. Las tres medidas que más comúnmente
se emplean son la media, la mediana y la moda. En la fig. 5 podemos apreciar el
significado grafico de las medidas de tendencia central.

Curva B Curva C

Curva A

Fig. 5. Comparación de la localización central de las tres curvas


Medidas de localización

Las medidas de localización están diseñadas para brindar al analista algunos


valores cuantitativos de la ubicación central o de otro tipo de los datos en una
muestra. La media es simplemente un promedio numérico.

Hay otras medidas de tendencia central que se explican con detalle en capítulos
posteriores. Una medida importante es la mediana de la muestra. El propósito de la
mediana de la muestra es reflejar la tendencia central de la muestra de manera que
no sea influida por los valores extremos.

Por ejemplo, suponga que el conjunto de datos es el siguiente: 1.7, 2.2, 3.9, 3.11 y
14.7. La media y la mediana de la muestra son, respectivamente, x¯ = 5.12, ˜x =
3.9. Es evidente que la media es influida de manera considerable por la presencia
de la observación extrema, 14.7; en tanto que el lugar de la mediana hace énfasis
en el verdadero “centro” del conjunto de datos. En el caso del conjunto de datos de
dos muestras del ejemplo 1.2, las dos medidas de tendencia central para las
muestras individuales son:

x¯ (sin nitrógeno) = 0.399 gramos,

x˜ (sin nitrógeno) = 0.38+ 0.42 / 2 = 0.400 gramos,

x¯ (con nitrógeno) = 0.565 gramos,

x˜ (con nitrógeno) = 0.49 0.52 / 2 = 0.505 gramos.

Es evidente que hay una diferencia conceptual entre la media y la mediana. Para el
lector con ciertas nociones de ingeniería quizá sea de interés que la media de la
muestra es el centroide de los datos en una muestra. En cierto sentido es el punto
en el cual se puede colocar un fulcro (apoyo) para equilibrar un sistema de “pesos”,
que son las ubicaciones de los datos individuales.

El propósito de la inferencia estadística es obtener conclusiones acerca de las


características o parámetros y la estimación es una característica muy importante
de la inferencia estadística.

Otras medidas de localización

Hay muchos otros métodos para calcular la ubicación del centro de los datos en la
muestra.

Por lo general las alternativas para la media de la muestra se diseñan con el fi n de


generar valores que representen relación entre la media y la mediana. Rara vez
utilizamos alguna de tales medidas. Sin embargo, es aleccionador estudiar una
clase de estimadores conocida como media recortada, la cual se calcula “quitando”
cierto porcentaje de los valores mayores y menores del conjunto. Por ejemplo, la
media recortada al 10% se encuentra eliminando tanto el 10% de los valores
mayores como el 10% de los menores, y calculando el promedio de los valores
restantes. En el caso de los datos del peso de los tallos, eliminaríamos el valor más
alto y el más bajo, ya que el tamaño de la muestra es 10 en cada caso. De manera
que para el grupo sin nitrógeno la media recortada al 10% está dada por:

y para la media recortada al 10% del grupo con nitrógeno tenemos

Observe que, en este caso, como se esperaba, las medias recortadas están cerca
tanto de la media como de la mediana para las muestras individuales. Desde luego,
el enfoque de la media recortada es menos sensible a los valores extremos que la
media de la muestra, pero no tan insensible como la mediana. Además, el método
de la media recortada utiliza más información que la mediana de la muestra.
Advierta que la mediana de la muestra es, de hecho, un caso especial de la media
recortada, en el cual se eliminan todos los datos de la muestra y queda sólo el
central o dos observaciones.

Medidas de variabilidad

La variabilidad de una muestra desempeña un papel importante en el análisis de


datos. La variabilidad de procesos y productos es un hecho real en los sistemas
científicos y de ingeniería: el control o la reducción de la variabilidad de un proceso
a menudo es una fuente de mayores dificultades. Cada vez más ingenieros y
administradores de procesos están aprendiendo que la calidad del producto y, como
resultado, las utilidades que se derivan de los productos manufacturados es, con
mucho, una función de la variabilidad del proceso.

Rango y desviación estándar de la muestra

Así como hay muchas medidas de tendencia central o de localización, hay muchas
medidas de dispersión o variabilidad. Quizá la más simple sea el rango de la
muestra Xmáx - Xmín. La medida muestral de dispersión que se utiliza más a
menudo es la desviación estándar de la muestra. Nuevamente denotemos con x1 ,
x2 ,..., xn los valores de la muestra.

Una variabilidad grande en un conjunto de datos produce valores relativamente


grandes de (x - x )2 y, por consiguiente, una varianza muestral grande. La cantidad
n - 1 a menudo se denomina grados de libertad asociados con la varianza estimada

Por ejemplo, suponga que deseamos calcular la varianza de la muestra y la


desviación estándar del conjunto de datos (5, 17, 6, 4). El promedio de la muestra
es x – = 8. El cálculo de la varianza implica: (5 − 8)2 + (17 − 8)2 + (6 − 8)2 + (4 −
8)2 = (−3)2 + 92 + (−2)2 + (−4)2
Las cantidades dentro de los paréntesis suman cero. En general, ∑ni=1(x i − x¯ ) =
0

Entonces, el cálculo de la varianza de una muestra no implica n desviaciones


cuadradas independientes de la media x – . De hecho, como el último valor de x - x
– es determinado por los primeros n - 1 valores, decimos que éstas son n - 1 “piezas
de información” que produce s2 . Por consiguiente, hay n - 1 grados de libertad en
vez de n grados de libertad para calcular la varianza de una muestra.

En un ejemplo que se estudia ampliamente en el capítulo 10, un ingeniero se


interesa en probar el “sesgo” en un medidor de pH. Los datos se recaban con el
medidor mediante la medición del pH de una sustancia neutra (pH = 7.0). Se toma
una muestra de tamaño 10 y se obtienen los siguientes resultados:

7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08.

La media de la muestra x – está dada por x¯ = (7.07 7.00 + + ++ 7.10 . . . 7.08 ) /10
= 7.0250.

La varianza de la muestra s2 está dada por s2 = 1 9 [(7.07 - 7.025)2+ (7.00 -


7.025)2+ (7.10 - 7.025)2 + ··· + (7.08 − 7.025)2 ] = 0.001939.

Como resultado, la desviación estándar de la muestra está dada por s= √0.001939


= 0.044

Así que la desviación estándar de la muestra es 0.0440 con n - 1 = 9 grados de


libertad.

Fundamentos de la Probabilidad. Espacios maestrales y eventos

Espacio muestral

Al conjunto de todos los resultados posibles de un experimento estadístico se le


llama espacio muestral y se representa con el símbolo S.

A cada resultado en un espacio muestral se le llama elemento o miembro del


espacio muestral, o simplemente punto muestral. Si el espacio muestral tiene un
número fi nito de elementos, podemos listar los miembros separados por comas y
encerrarlos entre llaves. Por consiguiente, el espacio muestral S, de los resultados
posibles cuando se lanza una moneda al aire, se puede escribir como S = {H, T}, en
donde H y T corresponden a “caras” y “cruces”, respectivamente.

Considere el experimento de lanzar un dado. Si nos interesara el número que


aparece en la cara superior, el espacio muestral sería

S1 = {1, 2, 3, 4, 5, 6}

Si sólo estuviéramos interesados en si el número es par o impar, el espacio muestral


sería simplemente S2 = {par, impar}

El ejemplo ilustra el hecho de que se puede usar más de un espacio muestral para
describir los resultados de un experimento. En este caso, S1 brinda más información
que S2 . Si sabemos cuál elemento ocurre en S1 , podremos indicar cuál resultado
tiene lugar en S2 ; no obstante, saber lo que pasa en S2 no ayuda mucho a
determinar qué elemento ocurre en S1 . En general, lo deseable sería utilizar un
espacio muestral que proporcione la mayor información acerca de los resultados del
experimento. En algunos experimentos es útil listar los elementos del espacio
muestral de forma sistemática utilizando un diagrama de árbol.

Un experimento consiste en lanzar una moneda y después lanzarla una segunda


vez si sale cara. Si en el primer lanzamiento sale cruz, entonces se lanza un dado
una vez. Para listar los elementos del espacio muestral que proporciona la mayor
información construimos el diagrama de árbol de la figura. Las diversas trayectorias
a lo largo de las ramas del árbol dan los distintos puntos muestrales. Si empezamos
con la rama superior izquierda y nos movemos a la derecha a lo largo de la primera
trayectoria, obtenemos el punto muestral HH, que indica la posibilidad de que
ocurran caras en dos lanzamientos sucesivos de la moneda. De igual manera, el
punto muestral T3 indica la posibilidad de que la moneda muestre una cruz seguida
por un 3 en el lanzamiento del dado. Al seguir todas las trayectorias, vemos que el
espacio muestral es:
S = {HH, HT, T1, T2, T3, T4, T5, T6}.

Muchos de los conceptos de este capítulo se ilustran mejor con ejemplos que
involucran el uso de dados y cartas. Es particularmente importante utilizar estas
aplicaciones al comenzar el proceso de aprendizaje, ya que facilitan el flujo de esos
conceptos nuevos en ejemplos científicos y de ingeniería.

Eventos

En cualquier experimento dado, podríamos estar interesados en la ocurrencia de


ciertos eventos, más que en la ocurrencia de un elemento específico en el espacio
muestral. Por ejemplo, quizás estemos interesados en el evento A, en el cual el
resultado de lanzar un dado es divisible entre 3. Esto ocurrirá si el resultado es un
elemento del subconjunto A = {3, 6} del espacio muestral S1 del ejemplo. Otro
ejemplo: podríamos estar interesados en el evento B de que el número de artículos
defectuosos sea mayor que 1 en el ejemplo. Esto ocurrirá si el resultado es un
elemento del subconjunto

B = {DDN, DND, NDD, DDD} del espacio muestral S.

Para cada evento asignamos un conjunto de puntos muestrales, que constituye un


subconjunto del espacio muestral. Este subconjunto representa la totalidad de los
elementos para los que el evento es cierto.

Un evento es un subconjunto de un espacio muestral.


Dado el espacio muestral S = {t | t ≥ 0}, donde t es la vida en años de cierto
componente electrónico, el evento A de que el componente falle antes de que fi
nalice el quinto año es el subconjunto A = {t | 0 ≤ t < 5}.

Es posible concebir que un evento puede ser un subconjunto que incluye todo el
espacio muestral S, o un subconjunto de S que se denomina conjunto vacío y se
denota con el símbolo ϕ, que no contiene ningún elemento. Por ejemplo, si en un
experimento biológico permitimos que A sea el evento de detectar un organismo
microscópico a simple vista, entonces A =ϕ. También, si

B = {x | x es un factor par de 7},

entonces B debe ser el conjunto vacío, pues los únicos factores posibles de 7 son
los números nones 1 y 7.

Considere un experimento en el que se registran los hábitos de tabaquismo de los


empleados de una empresa industrial. Un posible espacio muestral podría clasificar
a un individuo como no fumador, fumador ocasional, fumador moderado o fumador
empedernido. Si se determina que el subconjunto de los fumadores sea un evento,
entonces la totalidad de los no fumadores corresponderá a un evento diferente,
también subconjunto de S, que se denomina complemento del conjunto de
fumadores.

El complemento de un evento A respecto de S es el subconjunto de todos los


elementos de S que no están en A. Denotamos el complemento de A mediante el
símbolo A’.

La intersección de dos eventos A y B, que se denota con el símbolo A ∩ B, es el


evento que contiene todos los elementos que son comunes a A y a B.

Dos eventos A y B son mutuamente excluyentes o disjuntos si A ∩ B = ϕ; es decir,


si A y B no tienen elementos en común.

La unión de dos eventos A y B, que se denota con el símbolo A ∪ B, es el evento


que contiene todos los elementos que pertenecen a A o a B, o a ambos.
Ejemplo. Sea P el evento de que un empleado de una empresa petrolera
seleccionado al azar fume cigarrillos. Sea Q el evento de que el empleado
seleccionado ingiera bebidas alcohólicas. Entonces, el evento P ∪ Q es el conjunto
de todos los empleados que beben o fuman, o que hacen ambas cosas.

Si M = {x | 3 < x < 9} y N = {y | 5 < y < 12}, entonces,

M ∪ N = {z | 3 < z < 12}.

La relación entre eventos y el correspondiente espacio muestral se puede ilustrar


de forma gráfi ca utilizando diagramas de Venn. En un diagrama de Venn
representamos el espacio muestral como un rectángulo y los eventos con círculos
trazados dentro del rectángulo. De esta forma, en la figura vemos que:

A ∩ B = regiones 1 y 2,

B ∩ C = regiones 1 y 3,

A ∪ C = regiones 1, 2, 3, 4, 5 y 7,

B’ ∩ A = regiones 4 y 7,

A ∩ B ∩ C = región 1,

(A ∪ B) ∩ C' = regiones 2, 6 y 7,

y así sucesivamente.
En la figura vemos que los eventos A, B y C son subconjuntos del espacio muestral
S. También es claro que el evento B es un subconjunto del evento A; el evento B ∩
C no tiene elementos, por lo tanto, B y C son mutuamente excluyentes; el evento A
∩ C tiene al menos un elemento; y el evento A ∪ B = A. Por consiguiente, la fi gura
2.4 podría representar una situación en la que se selecciona una carta al azar de
una baraja ordinaria de 52 cartas y se observa si ocurren los siguientes eventos:

A: la carta es roja,

B: la carta es la jota, la reina o el rey de diamantes,

C: la carta es un as. Claramente, el evento A ∩ C consta sólo de los dos ases rojos.

Varios resultados que se derivan de las definiciones precedentes, y que se pueden


verificar de forma sencilla empleando diagramas de Venn, son como los que siguen:

1. A ∩ ϕ = ϕ. 6. ϕ’ = S.

2. A ∪ ϕ = A. 7. (A’)’ = A.

3. A ∩ A’ = ϕ. 8. (A ∩ B)’ = A’ ∪ B’.

4. A ∪ A’ = S. 9. (A ∪ B)’ = A’ ∩ B’.

5. S’ = ϕ.
Probabilidad de eventos que involucran el uso de técnicas de conteo.

Uno de los problemas que el estadístico debe considerar e intentar evaluar es el


elemento de aleatoriedad asociado con la ocurrencia de ciertos eventos cuando se
realiza un experimento. En muchos casos debemos ser capaces de resolver un
problema de probabilidad mediante el conteo del número de puntos en el espacio
muestral, sin listar realmente cada elemento. El principio fundamental del conteo, a
menudo denominado regla de multiplicación.

Si una operación se puede llevar a cabo en n1 formas, y si para cada una de éstas
se puede realizar una segunda operación en n2 formas, entonces las dos
operaciones se pueden ejecutar juntas de n1 n2 formas.

¿Cuántos puntos muestrales hay en el espacio muestral cuando se lanza un par de


dados una vez? Solución: El primer dado puede caer en cualquiera de n1 = 6
maneras. Para cada una de esas 6 maneras el segundo dado también puede caer
en n2 = 6 formas. Por lo tanto, el par de dados puede caer en n1 n2 = (6)(6) = 36
formas posibles.

Si una operación se puede ejecutar en n1 formas, y si para cada una de éstas se


puede llevar a cabo una segunda operación en n2 formas, y para cada una de las
primeras dos se puede realizar una tercera operación en n3 formas, y así
sucesivamente, entonces la serie de k operaciones se puede realizar en n1 n2 ...nk
formas.

Una permutación es un arreglo de todo o parte de un conjunto de objetos.

Para cualquier entero no negativo n, n!, denominado “n factorial” se define como N!


= n(n – 1) ··· (2)(1), con el caso especial de 0! = 1.

El número de permutaciones de n objetos es n!

El número de permutaciones de n objetos ordenados en un círculo es (n – 1)!.


Ejemplo. Durante un entrenamiento de fútbol americano colegial, el coordinador
defensivo necesita tener a 10 jugadores parados en una fila. Entre estos 10
jugadores hay 1 de primer año, 2 de segundo año, 4 de tercer año y 3 de cuarto
año, respectivamente. ¿De cuántas formas diferentes se pueden arreglar en una fi
la si lo único que los distingue es el grado en el cual están?

Solución: Usando directamente el teorema 2.4, el número total de arreglos es 10!


/1! 2! 4! 3! =12,600.

Con frecuencia nos interesa el número de formas de dividir un conjunto de n objetos


en r subconjuntos denominados celdas. Se consigue una partición si la intersección
de todo par posible de los r subconjuntos es el conjunto vacío ϕ, y si la unión de
todos los subconjuntos da el conjunto original. El orden de los elementos dentro de
una celda no tiene importancia. Considere el conjunto {a, e, i, o, u}. Las particiones
posibles en dos celdas en las que la primera celda contenga 4 elementos y la
segunda 1 son:

{(a, e, i, o), (u)}, {(a, i, o, u), (e)}, {(e, i, o, u), (a)}, {(a, e, o, u), (i)}, {(a, e, i, u), (o)}.

Vemos que hay 5 formas de partir un conjunto de 4 elementos en dos subconjuntos


o celdas que contengan 4 elementos en la primera celda y 1 en la segunda.

El número de particiones para esta ilustración se denota con la expresión (5 4, 1) =


5! / 4! 1! = 5, en la que el número superior representa el número total de elementos
y los números inferiores representan el número de elementos que van en cada
celda.
Probabilidad condicional. Teorema de Bayes

La estadística bayesiana es un conjunto de herramientas que se utiliza en un tipo


especial de inferencia estadística que se aplica en el análisis de datos
experimentales en muchas situaciones prácticas de ciencia e ingeniería. La regla
de Bayes es una de las normas más importantes de la teoría de probabilidad, ya
que es el fundamento de la inferencia bayesiana.

Regresemos al ejemplo un individuo al azar de entre los adultos de una pequeña


ciudad para que viaje por el país promoviendo las ventajas de establecer industrias
nuevas en la ciudad. Suponga que ahora se nos da la información adicional de que
36 de los empleados y 12 de los desempleados son miembros del Club Rotario.
Deseamos encontrar la probabilidad del evento A de que el individuo seleccionado
sea miembro del Club Rotario. Podemos remitirnos a la fi gura 2.12 y escribir A
como la unión de los dos eventos mutuamente excluyentes E ∩ A y E’ ∩ A. Por lo
tanto, A = (E ∩ A) ∪ (E’ ∩ A), y podemos escribir.

P(A) = P [(E ∩ A) ∪ (E’ ∩ A)] = P(E ∩ A) + P(E’ ∩ A) = P(E)P(A|E) + P(E')P(A|E’).

Los datos de la sección, junto con los datos adicionales antes dados para el conjunto
A, nos permiten calcular
Si mostramos estas probabilidades mediante el diagrama de árbol de la figura,
donde la primera rama da la probabilidad P(E)P(A|E) y la segunda rama da la
probabilidad

la probabilidad P(E’)P(A|E’), deducimos que

Una generalización del ejemplo anterior para el caso en donde el espacio muestral
se parte en k subconjuntos se cubre mediante el siguiente teorema, que algunas
veces se denomina teorema de probabilidad total o regla de eliminación.

Distribuciones de Probabilidad, Estimación Puntual y por Intervalos

Variables aleatorias discretas y continuas.


Concepto de variable aleatoria
La estadística realiza inferencias acerca de las poblaciones y sus características.
Se llevan a cabo experimentos cuyos resultados se encuentran sujetos al azar. La
prueba de un número de componentes electrónicos es un ejemplo de experimento
estadístico, un concepto que se utiliza para describir cualquier proceso mediante el
cual se generan varias observaciones al azar. A menudo es importante asignar una
descripción numérica al resultado. Por ejemplo, cuando se prueban tres
componentes electrónicos, el espacio muestral que ofrece una descripción detallada
de cada posible resultado se escribe como
S = {NNN, NND, NDN, DNN, NDD, DND, DDN, DDD},
donde N denota “no defectuoso”, y D, “defectuoso”. Es evidente que nos interesa el
número de componentes defectuosos que se presenten. De esta forma, a cada
punto en el espacio muestral se le asignará un valor numérico de 0, 1, 2 o 3. Estos
valores son, por supuesto, cantidades aleatorias determinadas por el resultado del
experimento. Se pueden ver como valores que toma la variable aleatoria X, es decir,
el número de artículos defectuosos cuando se prueban tres componentes
electrónicos.
Una variable aleatoria es una función que asocia un número real con cada elemento
del espacio muestral.
Si un espacio muestral contiene un número finito de posibilidades, o una serie
interminable con tantos elementos como números enteros existen, se llama espacio
muestral discreto.

Si un espacio muestral contiene un número infinito de posibilidades, igual al número


de puntos en un segmento de recta, se le denomina espacio muestral continuo.

Cuando una variable aleatoria puede tomar valores en una escala continua, se le
denomina variable aleatoria continua. A menudo los posibles valores de una variable
aleatoria continua son precisamente los mismos valores incluidos en el espacio
muestral continuo.

Distribuciones de probabilidad discretas y continuas


Las distribuciones de probabilidad son distribuciones de probabilidad continuas o
distribuciones de probabilidad discretas, dependiendo de si definen probabilidades
para variables continuas o discretas.

¿Qué es una distribución continua?

Una distribución continua describe las probabilidades de los posibles valores de una
variable aleatoria continua. Una variable aleatoria continua es una variable aleatoria
con un conjunto de valores posibles (conocido como el rango) que es infinito y no
se puede contar.

Las probabilidades de las variables aleatorias continuas (X) se definen como el área
por debajo de la curva. Por lo tanto, solo los rangos de valores pueden tener una
probabilidad diferente de cero. La probabilidad de que una variable aleatoria
continua equivalga a algún valor siempre es cero.

Ejemplo de la distribución de pesos

La distribución normal continua puede describir la distribución del peso de hombres


adultos. Por ejemplo, usted puede calcular la probabilidad de que un hombre pese
entre 160 y 170 libras.

Gráfica de distribución del peso de hombres adultos

El área sombreada debajo de la curva en este ejemplo representa el rango de 160


a 170 libras. El área de este rango es 0.136; por lo tanto, la probabilidad de que un
hombre seleccionado aleatoriamente pese entre 160 y 170 libras es de 13.6%. Toda
el área por debajo de la curva equivale a 1.0.
Sin embargo, la probabilidad de que X sea exactamente igual a algún valor siempre
es cero, porque el área por debajo de la curva en un punto individual, que no tiene
anchura, es cero. Por ejemplo, la probabilidad de que un hombre pese exactamente
190 libras es cero. Podría calcular una probabilidad diferente de cero de que un
hombre pese más de 190 libras, menos de 190 libras o entre 189.9 y 190.1 libras,
pero la probabilidad de que pese exactamente 190 libras es cero.

¿Qué es una distribución discreta?

Una distribución discreta describe la probabilidad de ocurrencia de cada valor de


una variable aleatoria discreta. Una variable aleatoria discreta es una variable
aleatoria que tiene valores contables, tales como una lista de enteros no negativos.

Con una distribución de probabilidad discreta, cada valor posible de la variable


aleatoria discreta puede estar asociado con una probabilidad distinta de cero. Por
lo tanto, una distribución de probabilidad discreta suele representarse en forma
tabular.

Ejemplo del número de quejas de clientes

Con una distribución discreta, a diferencia de una distribución continua, usted puede
calcular la probabilidad de que X sea exactamente igual a algún valor. Por ejemplo,
puede utilizar la distribución discreta de Poisson para describir el número de quejas
de clientes en un día. Supongamos que el número promedio de quejas por día es
10 y usted desea saber la probabilidad de recibir 5, 10 y 15 quejas de clientes en un
día.

x P (X = x)

5 0.037833

10 0.12511

15 0.034718
Usted también puede visualizar una distribución discreta en una gráfica de
distribución para ver las probabilidades entre los rangos.

Gráfica de distribución del número de quejas de clientes

Las barras sombreadas en este ejemplo representan el número de ocurrencias


cuando las quejas diarias de los clientes son 15 o más. La altura de las barras suma
0.08346; por lo tanto, la probabilidad de que el número de llamadas por día sea 15
o más es 8.35%.

Principales distribuciones de probabilidad para variables aleatorias discretas


y continuas

Distribución de probabilidad discreta: Sea un espacio probabilístico y sea X una


variable aleatoria discreta que toma como posibles valores x1,x2,.....xn, se define la
distribución de probabilidad de X como el conjunto de pares (xi, pi) que a cada valor
de la variable le asocia una probabilidad, donde pi= P(X=xi), tal que la suma de
todas las probabilidades es igual a la unidad. Del ejemplo realizado anteriormente
se desprende que la distribución de probabilidad viene dada por: (0,1/8); (1,3/8);
(2,3/8); (3,1/8).

Distribución de probabilidad continua: Si la variable aleatoria es continua, hay


infinitos valores posibles de la variable y entra cada dos de ellos se podrían definir
infinitos valores. En estas condiciones no es posible deducir la probabilidad de un
valor puntual de la variable como se puede hacer en el caso de las variables
discretas. Pero sí es posible calcular la probabilidad acumulada hasta un cierto valor
(función de distribución) y cómo cambia esa probabilidad acumulada en cada punto
(densidad de probabilidad). Por tanto, cuando la variable aleatoria sea continua
hablaremos de función de densidad. Sea X una variable aleatoria continua, se llama
función de densidad y se representa como f(x) a una función no negativa definida
sobre la recta real, tal que para cualquier intervalo que estudiemos se verifica:

Teorema del límite central

El teorema del límite central es un teorema fundamental de probabilidad y


estadística. El teorema describe la distribución de la media de una muestra aleatoria
proveniente de una población con varianza finita. Cuando el tamaño de la muestra
es lo suficientemente grande, la distribución de las medias sigue aproximadamente
una distribución normal. El teorema se aplica independientemente de la forma de la
distribución de la población. Muchos procedimientos estadísticos comunes
requieren que los datos sean aproximadamente normales. El teorema de límite
central le permite aplicar estos procedimientos útiles a poblaciones que son
considerablemente no normales. El tamaño que debe tener la muestra depende de
la forma de la distribución original. Si la distribución de la población es simétrica, un
tamaño de muestra de 5 podría producir una aproximación adecuada. Si la
distribución de la población es considerablemente asimétrica, es necesario un
tamaño de muestra más grande. Por ejemplo, la distribución de la media puede ser
aproximadamente normal si el tamaño de la muestra es mayor que 50. Las
siguientes gráficas muestran ejemplos de cómo la distribución afecta el tamaño de
la muestra que se necesita.
Distribución uniforme

Medias de las muestras

Muestras de una población uniforme


Una población que sigue una distribución uniforme es simétrica, pero
marcadamente no normal, como lo demuestra el primer histograma. Sin embargo,
la distribución de las medias de 1000 muestras de tamaño 5 de esta población es
aproximadamente normal debido al teorema del límite central, como lo demuestra
el segundo histograma. Este histograma de las medias de las muestras incluye una
curva normal superpuesta para ilustrar esta normalidad.

Distribución exponencial
Medias de las muestras

Muestras de una población exponencial


Una población que sigue una distribución exponencial es asimétrica y no normal,
como lo demuestra el primer histograma. Sin embargo, la distribución de las medias
de 1000 muestras de tamaño 50 de esta población es aproximadamente normal
debido al teorema del límite central, como lo demuestra el segundo histograma. Este
histograma de las medias de las muestras incluye una curva normal superpuesta
para ilustrar esta normalidad.

Estimación puntual. Estimadores insesgados y de varianza mínima

Sean X1, X2, …, Xn una muestra aleatoria de tamaño n proveniente de una


distribución con función de densidad conocida f(x; q), y sea T =u(X1, X2, …, Xn)
cualquier estadístico. Queremos encontrar una función u que proporcione la “mejor”
estimación de q.

Definición.

Se define el error cuadrático medio:

ECM (T) =E [(T- q)2]

Por tanto, se tiene:


ECM (T) = E[(T2-2Tq + q2)]=E (T2) –2qE(T) + q2=(E (T2) –E(T)2) + E(T)2-2qE(T)
+ q2 = Var (T) + [E(T) - q]2= Var (T) + [q-E(T)]2

El error cuadrático medio es la suma de dos cantidades positivas, una es la varianza


del estimador y la otra el cuadrado del sesgo del estimador.

Visto de una manera simple, el “mejor” estimador será aquel que minimice el ECM.
Sin embargo, aún en el caso en el que determinemos el ECM para un gran número
de estimadores, para la mayor parte de las funciones de densidad f(x; q) no existe
un estimador que minimice el error cuadrático medio para todos los posibles valores
de q. Por esta razón hay que añadir criterios adicionales para la selección de los
estimadores de q.

Estimadores insesgados.

En el ECM el término [q-E(T)] recibe el nombre de sesgo del estimador.

Definición

Se dice que T=u(X1, X2, …, Xn) es un estimador insesgado del parámetro q, si


E(T)= q para cualquier q.

De esta forma, para cualquier estimador insesgado de q, la distribución de muestreo


de T se encuentra centrada alrededor de q y ECM(T)=var(T).

Puede demostrarse que si:

Demostración
Como Y sigue una Chi-cuadrado con n-1 grado de libertad; E(Y) = n-1. Luego

Este resultado se puede extender sin importar cuál sea la distribución de


probabilidad de la población de interés.

Teorema 1

Sea X1, X2, …, Xn una muestra aleatoria de alguna población con función de
densidad no especificada de manera que E(Xi)=m y Var(Xi)=s2 para todo i. Entonces
si

S2 es un estimador insesgado de s2, es decir sólo cuando se divide por n-1, se


obtiene un estimador insesgado.

Estimadores consistentes.

La idea es que conforme se va aumentando el tamaño de la muestra, el estimador


se va concentrando cada vez más alrededor de q.

Definición

Sea T un estimador del parámetro q, y sean T1, T2, …, Tn una secuencia de


estimadores que representan a T en base a muestras de tamaño 1, 2, …, n;
respectivamente. Se dice que T es un estimador consistente de q si:

El requisito
constituye lo que se llama convergencia en probabilidad.

Esto implica que la varianza de un estimador consistente Tn disminuye conforme n


crece. Una condición necesaria, aunque no suficiente para que T n sea un estimador
consistente de q es que Var(Tn) tienda a cero cuando n tiende a infinito.

Por ejemplo: la media muestral y la varianza muestral son estimadores consistentes


de m y s2. para demostrarlo veamos primero el importante teorema siguiente:

Desigualdad de Tchebysheff.

Sea X una variable aleatoria con función de densidad f(x) y tal que E(X)=m y
Var(X)=s2 son finitas. Entonces:

o de otra manera

Teorema.

Sean X1, X2, …, Xn n variables aleatorias IID, tales que E(Xi)=m y Var(Xi)=s2 y son
finitas. Entonces

es un estimador consistente de m. Es decir:


Este importante teorema se conoce con el nombre de Ley de los grandes números

Demostración

Dado que E( X n)=m y Var( X n )=s2 / n, aplicando la desigualdad de Tchebycheff, se


tiene:

Tomando

se tiene :

Tomando límites cuando n tiende a ¥.

y por tanto:
Ejercicio.

Considérese una muestra de tamaño n de una distribución que tiene varianza


conocida s2=10 y media desconocida m. ¿Cuál debe ser el tamaño de la muestra
para que la media

se encuentre dentro de un intervalo igual a 2 unidades de la media poblacional


con una probabilidad de al menos 0, 9?.

Por tanto:

De otro lado

Estimadores insesgados de varianza mínima.

Para un parámetro dado q, considérese la clase formada por todos los estimadores
insesgados de q. Si T es un estadístico perteneciente a esta clase, entonces
E(T)=q y ECM(T) = Var (T). Debe buscarse una clase de estimadores insesgados,
si es que existe, que tenga una varianza mínima para todos los valores de q. Este
estimador recibe el nombre de estimador insesgado de varianza mínima uniforme
(VMU) de q.
Definición

Sea X1, X2, …, Xn una muestra aleatoria cuya función de probabilidad es f(x; q). Sea
el estadítico T=u(X1, X2, …, Xn) un estimador de q tal que E(T)=q y Var(T) es menor
que la varianza de cualquier otro estimador insesgado de q. Se dice que T es un
estimador insesgado de varianza mínima.

Si T1 y T2 son dos estimadores insesgados de q, T1 es más eficiente que T2 si


Var(T1)£Var(T2) cumpliéndose la desigualdad en sentido estricto para algún valor
de q.

S muy común utilizar el cociente Var(T 1)/Var(T2) para medir la eficiencia. La


búsqueda de un estimador VMU se facilita bastante con la ayuda de un resultado
que recibe el nombre de cota inferior de Cramer-Rao.

Teorema

Sea X1, X2, …, Xn una muestra aleatoria de función de densidad de probabilidad


f(x;q). Si T es un estimador insesgado de q, entonces la varianza de T debe de
satisfacer la siguiente desigualdad.

Definición

Si T es cualquier estimador insesgado del parámetro q tal que

Entonces T es un estimador eficiente de q.


Estadísticos suficientes.

Intuitivamente, un estadístico es suficiente para el parámetro q si utiliza toda la


información contenida en la muestra aleatoria con respecto a q.

Un criterio para ver si un estadístico es suficiente viene dado por el teorema de


factorización de Neyman.

Teorema.

Sea X1, X2, …, Xn una muestra de una distribución con una función de densidad de
probabilidad f(x;q). Se dice que T=u(X1, X2, …, Xn) es un estadístico suficiente
de q si y solo si la función de verosimilitud puede factorizarse de la siguiente forma:

L(x1, x2, …, xn)=h(t;q)g(x1, x2, …, xn)

Para cualquier valor t=u(x1, x2, …, xn) de T y en donde g(x1, x2, …, xn) no contiene
al parámetro q.

Métodos de estimación puntual.

¿Cómo obtener estimadores que cumplan con las propiedades deseables de los
estimadores? Veamos el método de máxima verosimilitud y el de los momentos.
Más adelante, en otro capítulo, se estudiará el método de mínimos cuadrados:

Estimación por máxima verosimilitud.

En esencia el método consiste en seleccionar como estimador a aquel valor del


parámetro que tiene la propiedad de maximizar el valor de la probabilidad de la
muestra observada. Es decir, encontrar el valor del parámetro que maximiza la
función de verosimilitud.
Definición

Sea X1, X2, …, Xn una muestra aleatoria de una distribución con función de densidad
de probabilidad f(x; q), y sea L(x1, x2, …, xn;q) la verosimilitud de la muestra como
función de q. Si t=u(x1, x2, …, xn) es el valor de q para el cual la función de
verosimilitud es máxima, entonces T=u(X1, X2, …, Xn) es el estimador de máxima
verosimilitud de q.

El método de máxima verosimilitud proporciona el estimador eficiente, si es que


existe. Sin embargo, los estimadores de MV son por lo general sesgados.

Por otra parte, es más fácil, generalmente, maximizar Ln(L(q)) que L(q).

El método de máxima verosimilitud posee otra propiedad deseable conocida como


propiedad de invariancia.

el estimador de máxima verosimilitud de q. Si g(q) es una función univaluada de q,


entonces el estimador de máxima verosimilitud de g(q) es g(q^).

Método de los momentos

Este método consiste en igualar los momentos apropiados de la distribución de la


población con los correspondientes momentos muestrales para estimar un
parámetro desconocido de la población.

Definición

Sea X1, X2, …, Xn una muestra aleatoria con función de densidad f(x;q). El r-ésimo
momento alrededor de cero se define como
El método de los momentos constituye una alternativa razonable cuando no pueden
hallarse los estimadores de máxima verosimilitud.

Téngase en cuenta que muchas veces los parámetros son funciones de los
momentos teóricos.

Estimación de máxima verosimilitud para muestras censuradas.

Una prueba típica de duración consiste en seleccionar de manera aleatoria un


conjunto de artículos iguales y someterlos a un cuidadoso proceso hasta que el
articulo falla.

Si la prueba de duración se termina sólo cuando todos los artículos han fallado, se
dice que la muestra aleatoria de tiempos está completa. Sin embargo,
generalmente, si la prueba termina después de un lapso determinado de tiempo x0 o
después de la falla de un número determinado de unidades m £n. Las dos
condiciones producen muestras censuradas.

Si X0 es un lapso fijo de tiempo, el número de unidades que fallan de las n, después


del comienzo de la prueba hasta el tiempo x0, es una variable aleatoria, se dice
entonces que la muestra es del tipo I

Si m es fijo y el tiempo de terminación es la variable aleatoria Xm, se dice que la


muestra es de tipo II.

Si no se tienen en cuenta las inferencias, existe muy poca diferencia entre ambos
tipos.

Estudiemos las de tipo II.

Supongamos que el primer fallo se dio en un tiempo igual a x1 desde el comienzo y


el 2º en un tiempo x2, también desde el comienzo, y así hasta xm, en donde m £n,
es el número fijado de antemano para terminar la prueba. Es obvio que x 1£ x2 £ ...
£ xm y que n-m unidades tienen un tiempo de supervivencia xm.
Supóngase que los tiempos de duración son variables aleatorias X1, X2, …,
Xn independientes normalmente distribuidas, con función de densidad

El interés recae en encontrar el estimador de máxima verosimilitud de q.

La función de verosimilitud para un muestreo censurado del tipo II es la probabilidad


de que fallen m unidades en los tiempos x1, x2 , ..., xm es f(x1;q).f(x2;q)…f(xm;q). Pero
ésta es una de las formas en las que pueden fallar m unidades de n. El número total
de formas es:

La probabilidad de que n-m unidades sobrevivan un tiempo xm está por la función


de confiabilidad a tiempo xm.

Por tanto la función de verosimilitud es

Siendo

Tomando logaritmos
Derivando con respecto a q.

Se deduce que

Luego

Intervalos de confianza con muestras grandes para la media y la proporción de una


población

Es conocido que, a menudo, es difícil conocer la distribución en el muestreo de


determinados estadísticos y que, en cambio, se puede conocer su distribución
asintótica. Como ocurre con los cuantiles y los momentos muestrales,
frecuentemente, es posible disponer de una sucesión Tn de estadísticos,
correspondientes a sucesivos tamaños muestrales n, tales que

donde θ representa el parámetro que caracteriza la distribución teórica y σn(θ)


depende en general de n y del parámetro poblacional.
Esta situación puede ser utilizada para obtener intervalos de confianza aproximados
para el parámetro θ. De hecho, si n es suficientemente grande, será

de manera que, si puede invertirse la desigualdad, despejando θ, se obtendrá un


intervalo de confianza para θ, de nivel de confianza aproximado 1 − α.

Intervalos de confianza para muestras grandes aplicando el Teorema Central del


Limite

Si se quiere obtener un intervalo de confianza para la media µ de una población con


varianza desconocida se puede utilizar el Teorema Central del Límite que garantiza
que,

lo cual conduce al intervalo de confianza,

La diferencia con los intervalos obtenidos anteriormente es que aquellos eran


exactos y ahora son aproximados y sólo son válidos para muestras grandes, n > 30.

Intervalos basados en una población con distribución normal

Dada una variable aleatoria con distribución Normal N (μ, σ), el objetivo es la
construcción de un intervalo de confianza para el parámetro μ, basado en una
muestra de tamaño n de la variable.

Desde el punto de vista didáctico hemos de considerar dos posibilidades sobre la


desviación típica de la variable: que sea conocida o que sea desconocida y
tengamos que estimarla a partir de la muestra. El caso de σ conocida, ya comentado
anteriormente, no pasa de ser un caso académico con poca aplicación en la
práctica, sin embargo, es útil desde el punto de vista didáctico.

Caso de varianza conocida

Dada una muestra X1, ..., Xn, el estadístico

se distribuye según una Normal estándar. Por tanto, aplicando el método del pivote
podemos construir la expresión

donde zα/2 es el valor de una distribución Normal estándar que deja a su derecha
una probabilidad de α/2, de la que se deduce el intervalo de confianza

Puede repasarse la construcción más detallada.

Caso de varianza desconocida

Dada una muestra X1, ..., Xn, el estadístico


se distribuye según una t de Student de n − 1 grados de libertad. Por tanto, y
siguiendo pasos similares a los del apartado anterior, el intervalo de confianza
resultante es

donde tα/2 es el valor de una distribución t de Student con n − 1 grados de libertad


que deja a su derecha una probabilidad de α/2.

Вам также может понравиться