Definicion 1 (Diagrama de dispersion). Es una representacion grafica de
la relacion entre dos variables cuantitativas. Definicion 2 (Media aritmetica o promedio). Dado un conjunto de datos x1 , x2 , . . . , xn , se define su media aritmetica o promedio muestral por n x1 + + xn 1X x= = xk . n n k=1
En caso de que sea conocida toda la poblacion generalmente el promedio es
denotado por . Si tenemos datos agrupados, entonces la media aritmetica se calcula de la forma Xn fk Mk f1 M1 + + fn Mn k=1 x= = n , f1 + + fn X fk k=1
donde Mk es la marca de clase (punto medio de la calse k) y fk es la frecuencia
de Mk Definicion 3 (Media armonica). Dado un conjunto de datos x1 , x2 , . . . , xn , la media armonica se define por n n = n . 1 1 1 X 1 + + x1 x2 xn xk k=1
La media armonica es recomendada para promediar velocidades.
Definicion 4 (Media geometrica). Dado un conjunto de datos x1 , x2 , . . . , xn , la media geometrica se define por v u n uY n x1 x2 xn = t n xk k=1
La media geometrica es recomendada para promediar razones e
interes compuesto.
Ademas del promedio, existen otras medidas de localizacion central, entre
las que se encuentran los percentiles. Definicion 5 (Percentiles). El p-esimo percentil, el cual denotamos por Qp , es un valor tal que por lo menos un p% de los valores de la muestra son menores o iguales que Qp y al menos un (100 p)% son mayores o iguales a Qp . Si hay mas de uno de estos numeros, en cuyo caso habra todo un intervalo de valores de este tipo, se define el p-esimo percentil como el punto medio de dicho intervalo. Forma de calcular el p-esimo percentil: 1. Ordenar los datos de forma creciente. h p i 2. Calcular i = n, donde p es el percentil de interes y n la cantidad de 100 elementos. 3. a) Si i no es un entero. El valor entero inmediato mayor que i es la posicion del p-esimo percentil. b) Si i es un entero. El p-esimo percentil es el promedio de los valores ubicados en la lugares i e i + 1. Definicion 6 (Mediana). A Q50 de una muestra se le llama comunmente mediana. Definicion 7. A Q25 y Q75 de una muestra se les llama cuartil inferior y cuartil superior de la muestra, respectivamente. Y la diferencia entre estos datos es llamada Rango intercuartlico, la cual es una medida de dispersion que elimina la influencia de los valores extremos. Medidas de dispersion Definicion 8 (Varianza). Dado un conjunto de datos x1 , x2 , . . . , xn , la va- rianza poblacional o varianza se calcula de la siguiente forma n n 1X 1X 2 2 = (xk )2 = xk 2 , n n k=1 k=1
donde es la media poblacional. En caso de que solo tengamos una muestra de
la poblacion, entonces la varianza muestral se calcula de la siguiente forma n " n # 1 X 1 X s2 = (xk x)2 = x2k nx2 , n1 n1 k=1 k=1
Si tenemos datos agrupados, entonces la varianza se calcula por medio de la
formula Xn fk (Mk )2 k=1 s2 = n , X fk 1 k=1
donde Mk es la marca de clase y fk es la frecuencia de Mk .
Observacion: La varianza es una medida para comparar el grado de dis- persion de dos o mas conjuntos de datos. Al comparar conjunto de datos, el que tiene mayor varianza tiene la mayor dispersion o variabilidad.
Definicion 9 (Desviacion estandar). A la raz cuadrada no negativa de la
varianza s2 se le llama desviacion estandar de la muestra y se denota por s. Definicion 10 (Coeficiente de variacion). El coeficiente de variacion se define como el cociente de la desviacion estandar entre la media, esto es s CV = x Observacion Como el coeficiente de variacion es independiente de las unida- des usadas, puede ser de utilidad cuando se trata de comparar dos distribuciones cuyas unidades sean distintas. Regla emprica y teorema de Chebyshev Regla emprica. Si un conjunto de datos x1 , x2 , . . . , xn tiene un histograma de forma aproxi- madamente acampanada y tiene media x y desviacion estandar s, entonces
1. El intervalo (x s, x + s) contiene aproximadamente el 68% de los datos
de la poblacion. 2. El intervalo (x 2s, x + 2s) contiene aproximadamente el 95% de los datos de la poblacion. 3. El intervalo (x 3s, x + 3s) contiene casi todos los elementos.
En dado caso de que el histograma no tenga una forma acampanada, entonces
no se puede utilizar la regla emprica, pero en esta caso podemos hacer uso del siguiente teorema. Teorema 1 (Teorema de Chebyshev). Sean x, s la media y desviacion estandar muestrales respectivamente. Si k > 1, entonces 1 p (|x x| ks) 1 k2
1 En otras palabras, por lo menos 1 100% de los elementos de cualquier k2 conjunto de datos debe de estar a menos de k desviaciones estandar de sepa- racion respecto a la media. El teorema de Chebyshev tambien se puede leer de la siguiente manera: alrededor de la media muestral x, k (con k > 1) veces la desviacion estandar s hay al menos 1 1 2 % k