Вы находитесь на странице: 1из 4

INTRODUCCIÓN Y ESTADÍSTICA DESCRIPTIVA

Introducción
La estadística es el estudio de los fenómenos aleatorios. El aspecto más importante de la estadística es la
obtención de conclusiones basadas en los datos experimentales. Este proceso se conoce como inferencia
estadística.

La población es la colección de toda la posible información que caracteriza a un fenómeno. En estadística,


población es un concepto mucho más general del que tiene la acepción común de esta palabra. En este sentido,
una población es cualquier colección ya sea de un numero finito de mediciones o una colección grande,
virtualmente infinita, de datos acerca de algo de interés, Por otro lado, la muestra es un subconjunto representativo
seleccionado de una población. La palabra representativo es la clave de esta idea. Una buena muestra es aquella
que refleja las características esenciales de la población de la cual se obtuvo.

Descripción grafica de los datos


Una descripción informativa de cualquier conjunto de datos está dada por la frecuencia de repetición (resumen
de datos). Para identificar los patrones en un conjunto de datos es necesario agrupar las observaciones en un
número relativamente pequeño de clases que no se superpongan entre sí, de tal manera que no exista ninguna
ambigüedad con respecto a la c1asea que pertenece una observación en particular. EI número de observaciones
en una clase recibe el nombre de frecuencia de clase, mientras que el cociente de una frecuencia de clase con
respecto al número combinado de observaciones en todas las clases se conoce como la frecuencia relativa de
esa clase. Las fronteras de la clase se denominan límites, y el promedio aritmético entre los límites superior e
inferior recibe el nombre de punto medio de la clase. AI graficarse las frecuencia relativas de las clases contra
sus respectivos intervalos en forma de rectángulos, se produce lo que comúnmente se conoce como histograma
de frecuencia relativa o distribución de frecuencia relativa. Esta última es la que puede hacer evidentes los
patrones existentes en un conjunto de
datos.

Como ilustración, los datos de la tabla 1.1


representan las frecuencias de unidades
vendidas por día de un determinado
producto por una compañía, EI histograma
de frecuencia relativa se construye
graficando en el eje vertical la frecuencia
relativa y en el eje horizontal las fronteras
inferiores de cada clase, como se ilustra en
la figura 1.1.

Una buena práctica es la creación de clases que tengan una longitud igual. Esto puede lograrse tomando la
diferencia entre los dos valores extremos del conjunto de datos y dividiéndola entre el número de clases; el
resultado será aproximadamente la longitud del intervalo para cada clase.
Medidas numéricas descriptivas
Existen dos medidas de interés para cualquier conjunto de datos: la localización de su centro y su variabilidad.
La tendencia central de un conjunto de datos es la disposición de estos para agruparse ya sea alrededor del
centro o de ciertos valores numéricos. La variabilidad de un conjunto de datos es la dispersión de las
observaciones en el conjunto.

Existen principalmente tres medidas de tendencia central: la media, la mediana y la moda.

Definición 1.1 La media de las observaciones X1, X2 ... , Xn es el promedio aritmético de estas y se denota por

Definición 1.2 La mediana de un conjunto de observaciones es el valor para el cual, cuando todas las
observaciones se ordenan de manera creciente, la mitad de estas es menor que este valor y la otra mitad mayor.

Si el número de observaciones en el conjunto es impar, la mediana es el valor de la observación que se encuentra


a la mitad del conjunto ordenado. Si el número es par se considera la mediana como el promedio aritmético de
los valores de las dos observaciones que se encuentren a la mitad del conjunto ordenado. Alternativamente, la
mediana puede determinarse a partir de la distribución acumulativa, es decir, la mediana es el percentil cincuenta.

Definición 1.3 La moda de un conjunto de observaciones es el valor de la observación que ocurre con mayor
frecuencia en el conjunto.

La moda muestra hacia qué valor tienden los datos a agruparse. En conjuntos relativamente pequeños, puede
que no exista un par de observaciones cuyo valor sea el mismo. En esta situación no es clara la definición de
moda. También puede suceder que la frecuencia más alta se encuentre compartida por dos o más observaciones.
En estos casos, la moda tiene una utilidad limitada como medida de tendencia central. Si se ha determinado una
distribución de frecuencia relativa, la clase con la frecuencia más alta recibirá el nombre de clase modal, con lo
que se define a la moda como el punto medio de esa clase. En este caso la clase modal sirve como punto de
concentración en el conjunto de datos.

Para calcular la media con base en los datos agrupados, sea k el número de clases Y Xi el punto medio de la i-
esima clase. Entonces el valor aproximado de la media es

En donde fi es la frecuencia de la i-esima clase y n = Sumatoria desde i = 1 hasta k de fi. Nótese que en esta
fórmula la frecuencia de la clase representa la frecuencia relativa de las observaciones dentro de cada clase. Es
decir, entre más observaciones tenga una clase mayor será el peso del punto medio de esta en el cálculo de la
media.

Para datos agrupados, la mediana es aquel valor que divide en dos partes iguales la distribución de frecuencia
relativa. La fórmula computacional está dada por

En donde L es el límite inferior de la clase donde se encuentra la mediana, fm es la frecuencia de esa clase, c es
la longitud de la clase y j es el número de observaciones en esta clase, necesarias para completar un total de
n12. Para determinar la mediana esta fórmula en esencia, se interpola linealmente en la clase que contiene a Ia
mediana. Así, se supone que las observaciones se encuentran distribuidas uniformemente dentro de la clase.

Como se mencionó anteriormente, la moda se toma, para datos agrupados, como el punto medio de la clase que
presenta una mayor frecuencia.
Una medida de tendencia central proporciona información acerca de un conjunto de datos, pero no proporciona
ninguna idea de la variabilidad de las observaciones en dicho conjunto, Por ejemplo, considere los dos siguientes
conjuntos de datos, cada uno de los cuales consiste de cuatro observaciones: 0, 25, 75, 100; 48, 49, 51, 52. En
ambos casos, media = mediana = 50. Estos dos conjuntos son muy diferentes entre sí, sin embargo las
observaciones en el primero se encuentran mucho más dispersas que las del segundo. Una de las medidas más
útiles de dispersión o variación es la varianza.

Definición 1.4 La varianza de las observaciones X1, X2,...,Xn, es, en esencia, el promedio del cuadrado de las
distancias entre cada observación y la media del conjunto de observaciones. La varianza se denota por

La varianza es una medida razonablemente buena de la variabilidad debido a que si muchas de las diferencias
son grandes (o pequeñas) entonces el valor de la varianza S2 será grande (o pequeño). EI valor de la varianza
puede sufrir un cambio muy desproporcionado, aún más que la media, por la existencia de algunos valores
extremos en el conjunto.

Definición 1.5 La raíz cuadrada positiva de la varianza recibe el nombre de desviación estándar y se denota por

La varianza y la desviación estándar no son medidas de variabilidad distintas, debido a que la Ultima no puede
determinarse a menos que se conozca la primera. A menudo se prefiere la desviación estándar en relación con
la varianza, porque se expresa en las mismas unidades físicas de las observaciones.

Definición 1.6 La desviación media es el promedio de los valores absolutos de las diferencias entre cada
observación y la media de las observaciones. La desviación media está dada por

Para datos agrupados, el valor de la desviación media se aproxima por

Definición 1.8 El recorrido R de las observaciones en un conjunto de datos es la diferencia entre el valor más
grande y el más pequeño del conjunto. Por su simplicidad, el recorrido proporciona una rápida indicación de la
variabilidad existente entre las observaciones de un conjunto de datos.

CONCEPTOS EN PROBABILIDAD

Introducción
La probabilidad es un mecanismo por medio del cual pueden estudiarse sucesos aleatorios, cuando estos se
comparan con los fenómenos determinísticos.
Para ilustrar el uso de la probabilidad en la toma de decisiones, considérese el siguiente ejemplo: una compañía
produce un detergente líquido que se envasa en botellas de 500 ml, las que son llenadas por una máquina, Debido
a que las botellas que contienen una cantidad mayor de 500 ml representan una perdida para la compañía y todas
aquellas que contienen una cantidad menor constituyen una perdida para el consumidor (lo que puede
desencadenar una acción legal en contra de la compañía), la compañía realiza todos los esfuerzos necesarios
para mantener el volumen neto promedio en un nivel de 500 ml. Para mantener un control apropiado se ideo el
siguiente esquema de muestreo: se seleccionaran 10 botellas del proceso de llenado, cuatro veces durante el
transcurso del día y se determinara su contenido neto promedio. Si este se encuentra entre 498 y 502 ml,
inclusive, el proceso se considerara "bajo control"; de otra manera, este se encontrara "fuera de control".

La colección de todos los posibles resultados de un experimento aleatorio es importante en la definición de la


probabilidad. Para definir esta colección considérense los siguientes experimentos: el número de reservaciones
no canceladas para un vuelo, el número de llegadas a un servicio o la duración de un determinado componente,
Todos son ejemplos de fenómenos impredecibles con un determinado número de posibles resultados. El número
de reservaciones no canceladas puede ser cualquier entero positivo no mayor que el número de asientos del
avión: el número de llegadas puede ser, teóricamente, cualquier entero positivo sin ningún límite, y la duración
de un componente puede ser cualquier número real positivo. Lo anterior lleva, de manera inmediata, a la siguiente
definición:

Definición 2.3 El conjunto de todos los posibles resultados de un experimento aleatorio recibe el nombre de
espacio muestral.

El conjunto de todos los posibles resultados puede ser finito, infinito numerable o infinito no numerable. Por
ejemplo, el número de reservaciones sin cancelar constituye un espacio muestral finito, dado que este número
nunca excederá la capacidad del avión, que es finita. El número de llegadas al servicio constituye un espacio
muestral infinito numerable, dado que es posible colocar los resultados en una correspondencia uno a uno con
los enteros positives, que .constituyen un conjunto infinito pero numerable. La duración de una componente
constituye un espacio muestral infinito innumerable, dado que esta puede ser cualquier número real positivo. En
este momento, es conveniente dar las siguientes definiciones.

Вам также может понравиться