Вы находитесь на странице: 1из 43

UNIVERSIDAD RURAL DE GUATEMALA. SECCIN NORTE I, PETN. CURSO: ESTADSTICA I. CARRERAS: INGENIERA AMBIENTAL/INGENIERA AGROINDUSTRIAL.

CUARTO CICLO, SEGUNDO SEMESTRE 2,011. CATEDRTICO: ING. AGR. RAMN FRANCISCO MORALES CANSINO. UNIDAD II ESTADSTICA DESCRIPTIVA. 2.1. ANLISIS DE DATOS DE MUESTRAS PEQUEAS. Como muestras pequeas entenderemos para el presente curso, aquellas que tienen 30 elementos, datos o unidades de anlisis. 2.1.a) Notacin Sumatoria. La sumatoria significa que se deben de adicionar o sumar los valores que se deseen por medio del smbolo sumatoria, que es la letra griega (sigma), que es la S de nuestro alfabeto. Propiedades de la sumatoria. Si partimos del supuesto de que x, y & z son variables o valores por sumar, y las letras A & B son constantes (que pueden tomar un valor numrico). 1) Suma de una variable: sumar los valores de la variable desde el primero hasta el ltimo.
n

xi = x1 + x2 + . . . . . . + xn.
i=1

2) Suma de una constante: si sumamos una constante de 1 a n, es igual a n veces la constante.


n

A = A + A + . . . . . . + A = nA.
i=1

3) Suma de una constante por una variable: es igual a la constante por la sumatoria de la variable.
n

Byi = BYi = B(y1 + y2 + . . . . . . +yn).


i=1

4) Suma de dos o ms variables: se aplica la ley distributiva, en la que sumamos las dos variables por separado.

(xi + zi) = x1 + zi = (x1 + x2 + . . . . . . + xn) + (z1 + z2 + . . . . . . + zn).


i=1

5) Suma de una variable elevada a cualquier potencia.


n

xi = x1 + x2 + . . . . . . + xn.
i=1

6) Sumatoria del producto de dos variables.


n

(xi . zi) = (x1 . z1 + x2 . z2 + . . . . . . + xn . zn).


i=1

7) Sumatoria de una variable ms una constante: es la suma de la variable ms n veces la constante.


n

(zi + A) = z1 + nA = (z1 + A) + (z2 + A) +. . + (zn+ A) = (z1 + z2 + . . + zn) + nA.


i=1 n

NOTA: cuando se anota =


i=1

Ejemplo: De acuerdo a las propiedades de la sumatoria y a la siguiente tabla desarrolle los ejercicios planteados.
i 1 2 x 0 2 y 1 2 z 2 0 3 4 5 6 8 -2 1 0 0 4 2 -3 0 1 3 5 7 8 2 6 1 0 -1 1

Se tienen como constante la A = 10; B = 20; C = 30.


8

1.- xi = [0+2+8+(-2)+1+0+2+6] = 17.


i=1 4

2.- yi = [(-1)+2+0+4] = 5.
i=1 8

3.- A = (10+10+10+10+10+10+10+10) = 80. O resolverse: 8(10) = 80.


i=1 8 i=1 6 i=3 8 i=1 6 i=3 6 i=3

4.- Bzi = B.zi = B[2+0+0+1+3+5+(-1)+1] = 11B = 11(20) = 220. 5. - (xi + zi) = xi + zi = [8+(-2)+1+0] + (0+1+3+5) = 7+9 = 16.

6. - yi = 4 + 2 + (-3) + 1 = 16+4+9+1 = 30
i=4 4

7. -(yi . zi) = [(-1)(2) + (2)(0) + (0)(0) + (4)(1) = -2+0+0+4 = 2.


i=1 6 i=5
8 8

6 i=5

6 i=5
8

8. -(zi + C) = zi + C = (3+5) + 2C = 8+[(2)(30)] = 8+60 = 68. 9.- (yi + zi) = yi + zi = [(-1)+2+0+4+2+(-3)+1+0] + [2+0+0+1+3+5+(-1)+1] =
i=1 i=1 i=1

= 5 + 41 = 46. 2.1.a) Medidas de Tendencia Central para datos no agrupados. Nos dan un centro de la distribucin de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el centro de las observaciones en un conjunto de datos. Por orden de importancia, son: la media aritmtica, la mediana y la moda. Media Aritmtica: Es la suma de los valores de los elementos dividida por la cantidad de stos. Es conocida tambin como promedio, o media aritmtica. Si x1, x2,.., xn representan una muestra de tamao n de la poblacin, la media aritmtica se calcula como:

Frmula de la media: Media Poblacional = = Xi N Xi= sumatoria de los valores (X1 + X2 +. . . . . . +Xn). = media aritmtica. N = nmero de elementos. X = valores o datos. Esta frmula se lee: mu es igual a la sumatoria de X dividido entre N _ Media Muestral: x = xi n La media aritmtica es la medida de la tendencia central que posee menor

varianza. Engloba en ella toda la informacin de la muestra; esto, con ser una ventaja, supone una cierta desventaja pues los valores muy extremos, en muestras pequeas afectan mucho a la media. PROPIEDADES DE LA MEDIA ARITMTICA: a- Unicidad. Existe slo una media aritmtica para una poblacin o una muestra. b- Simplicidad. Es fcil de calcular. c- Se ve afectada por valores extremos. d- La primera propiedad de la media indica que la suma de las diferencias de cada valor respecto a la media es igual a cero. Esto es fcil de entender si se considera que los valores mayores que la media son mayores en la misma proporcin que los valores menores que la media. N _ (xi X) = 0. Aqu el valor de la media aritmtica es una constante.
i=0

_ xi X = 0.
n n I=0 n i=0

_ xi nX =
I=0

xi n (xi) = xi xi = 0. Sustituir n arriba y abajo.


n

Ejemplo: Calcule la media de los siguientes nmeros: 10, 11, 12, 12, 13. a. Sumar las cantidades: 10 + 11 + 12 + 12 + 13 = 58 b. Dividir la suma por la cantidad de elementos: 58/5 c. El resultado es la media: 11.6 Por lo tanto, la media de los 5 nmeros es 11.6. Note que la media resulta un nmero que est entre el rango de elementos; en este caso, 11.6 est entre 10, 11,12 y 13. Si se desea probar la ltima propiedad de la media aritmtica de este ejemplo, las operaciones aparecen en la siguiente tabla: xi
10 11 12 12 13 11.6 11.6 11.6 11.6 11.6 Xi -1.6 -0.6 0.4 0.4 1.4 0

Mediana: La mediana es el valor del elemento intermedio cuando todos los elementos se ordenan. Es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el nmero de datos es impar la mediana ser el valor central, si es par tomaremos como mediana la media aritmtica de los dos valores centrales. En una variable se define como el punto para el cual la funcin de distribucin alcance el valor 0.5; en una muestra la mediana es el valor central. Para calcularla se ordenan las observaciones de menor a mayor. Algunas veces se le denomina media posicional, debido a que est ubicada en la mitad del conjunto de datos despus de que se han ordenado los valores forma ascendente o descendente. Otra forma de definir la mediana, es la observacin de la mitad despus de que se han colocado los datos en una serie ordenada.

Frmula de la mediana: Si n es impar, la mediana es la observacin central.

Si n es par, la mediana se define como la media aritmtica de las dos observaciones centrales.

Mediana = X[n/2 +1/2]

La parte de [n/2 + 1/2] representa la posicin.

Donde X es la posicin de los nmeros y n es el nmero de elementos. Ejemplo: buscar la mediana de los siguientes nmeros:

2, 4, 1, 3, 5, 6, 3. Primero, hay que ordenarlos: 1 X1 2 X2 3 X3 3 X4 4 X5 5 X6 6 X7 (Las posiciones de los nmeros).

Mediana = X[7/2 + ] X[3.5 + 0.5] X4 Se cambi el a 0.5 La mediana est en la posicin 4.

Por lo tanto, la mediana es 3. Ejemplo: buscar la mediana del ejemplo anterior de la media aritmtica. Nmeros del ejemplo anterior: 10, 12, 13, 12, 11. 1 Hay que ordenarlos, en este caso de forma ascendente; aunque tambin puede ser descendente. 10, 11, 12, 12, 13. 2. Buscar el elemento intermedio. 10, 11, 12, 12, 13. El elemento del medio es 12. Por lo tanto, la mediana es 12. Nota: si el nmero de elementos es impar, la mediana es el nmero del elemento intermedio. Si el nmero de elementos es par, se hace el cmputo mostrado en el ejemplo siguiente: Ejemplo. Buscar la mediana de: 15, 13, 11, 14, 16, 10, 12, 18. Como el nmero de elementos es par, hay que utilizar los dos nmeros intermedios.

10, 11, 12, 13, 14, 15, 16, 18. Los nmeros son:

(Ordenados). 13 y 14

Ahora, para buscar la mediana: 1. Sumar ambos nmeros. 13 + 14 = 27. 2. Dividirlo entre 2. 27/2 = 13.5 3. El resultado es la mediana. 13.5 En resumen, podramos decir que la mediana es el valor que es mayor o igual que el 50% de las observaciones de la muestra y menor o igual que el otro 50%. No tiene por qu ser igual a una de las observaciones de la muestra. Es ms fcil de calcular que la media aritmtica y apenas se afecta por observaciones extremas; sin embargo tiene mayor varianza que X y slo toma en cuenta la informacin de los valores centrales de la muestra. PROPIEDADES DE LA MEDIANA: a) Simplicidad. Es fcil de calcular o posicionar. b) No es afectada por valores extremos. Posible ventaja de la Mediana en relacin con la Media Aritmtica. c) Una desventaja posible es que deben estar ordenados los valores.

Moda:
Es el valor que se presenta el mayor nmero de veces. Es el valor de la variable que ms veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. Es el valor ms frecuente. Es el valor de un conjunto de datos con mayor frecuencia. No tiene por qu ser nica, ya que puede unimodal (una sola moda), bimodal (dos modas), multimodal (varias modas).

Su clculo es el ms simple de los tres correspondientes a estadsticos de centralidad pero la moda es el estadstico de mayor varianza. La moda puede no existir y cuando existe no es necesariamente nica. No tiene sentido en muestras pequeas en las que la aparicin de coincidencias en los valores es con gran frecuencia ms producto del azar que de otra cosa.

La media aritmtica es el estadstico de centralidad ms usado cuando uno espera que la poblacin tenga una distribucin ms o menos simtrica, sin estar clasificada en grupos claramente diferenciados.

Ejemplo 1: Buscar la moda de: 5, 12, 9, 5, 8, 7, 1. Como la moda es el nmero que ms se repite, la moda es 5. Ejemplo 2: Buscar la moda de: 14, 16, 18, 16, 15, 12, 14, 14, 16, 18, 20, 16, 16 . El 14 se repite 3 veces. El 18 se repite 2 veces. El 16 se repite 5 veces. Por lo tanto, la moda es 16. Ejemplo 3: buscar la moda de: 23, 35, 45, 33, 47, 31, 29, 22. Como ningn nmero se repite, no tiene moda.

Ejercicios resueltos.
1. Clasificar si es muestra o poblacin. a. Las elecciones en Guatemala. b. El salario de 20 empleados de una enorme compaa. c. Hacer una encuesta a 100 personas que entraron a una tienda de los 896 que entraron a dicha tienda, en un da. d. Hacer un estudio con todos los ancianos de un asilo.

2. Buscar la media, la mediana y la moda de los siguientes nmeros: 25 15 28 29 25 26 21 26 <Use las frmulas>

3. Buscar la media, la mediana y la moda de los siguientes nmeros: 15 16 19 15 14 16 20 15 17 < No use las frmulas> 4. En un estudio que se realiz en un asilo de ancianos, se tom las edades de los ancianos que pueden caminar sin dificultades. Buscar la media, la mediana y la moda de las siguientes edades, e indicar si es muestra o poblacin. No utilice la frmula. 69 73 65 70 71 74 65 69 60 62. 5. Se escogi un saln de clases de cuarto grado, con un total de 25 estudiantes, y se les pidi que calificaran del 1 al 5 un programa televisivo. (5 = Excelente 4 = Bueno 3 = Regular 4 = No muy bueno Estos fueron los resultados: 1 3 2 4 5 2 3 2 5 1 1 4 2 1 4 2 1 5 5 1 3 1 3 2 5 1 = Fatal)

Buscar la media, la moda y la mediana e indicar si es muestra o poblacin. Soluciones: 1. a. Poblacin b. Muestra, ya que estamos investigando solo a 20 empleados de una gran compaa; puede tener 200 o ms empleados. c. Muestra d. Poblacin 2. Media: 25 15 28 29 25 26 21 26 25 + 15 + 28 + 29 + 25 + 26 + 21 + 26 = 195 195/8 = 24.375 La media es 24.4

Mediana: 15 21 25 25 26 26 28 29 X 1 X 2 X3 X4 X 5 X 6 X7 X 8 X[8/2+1/2] = X[4+1/2] = X[4.5] La posicin 4.5 est entre 4 y 5 quiere decir que: 25 + 26 = 51 51/2 = 25.5 La mediana es 25.5 Moda: los que se repiten es 25 y 26. Por lo tanto, la moda es 25 y 26. 3. Media: 15 + 16 + 19 + 15 + 14 + 16 + 20 + 15 + 17 = 147 147/ 9 = 16.3 La media es 16.3 Mediana: 14 15 15 15 16 16 17 19 20 X 1 X 2 X3 X 4 X5 X5 X 6 X7 X 8 El elemento intermedio es 16 al ordenar los nmeros. Por lo tanto, la mediana es 16. Moda: El 15 se repite 3 veces. El 16 se repite 2 veces. Por lo tanto, la moda es 15. 4. Media: 69 + 73 + 65 + 70 + 71 + 74 + 65+ 69 + 60 + 62 = 678/10 = 67.8 La media es 67.8. Quiere decir que la edad promedio de los ancianos del asilo que pueden caminar sin dificultad es de 67.8 Mediana 60 62 65 65 69 69 70 71 73 74

Elementos intermedios: 69, 69 69 + 69 = 138/2 = 69 Por lo tanto, la mediana es de 69. Moda: Tiene 2 modas, 65 y 69 Este estudio es una muestra ya que se seleccionaron 10 ancianos de un asilo. 5. Media: 1 + 3 + 3 + 4 + 1 + 2 + 2 + 2 + 5 + 1+ 4 + 5 + 1+ 5+ 3 + 5 + 1+ 4 + 1 + 2 + 2 + 1 + 2 + 3 + 5 = 68 68/25 = 2.72 El promedio es de 2.72 Mediana: 1 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 4 4 4 5 5 5 5 5. El elemento intermedio es 2, as que la mediana es 2 Moda: El que ms se repite es el 1. Es poblacin, ya que la informacin fue recogida de todos los estudiantes de un saln de clases.

2.1.b) Medidas de Dispersin para datos no agrupados.


Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras.

EL RANGO (R):
es la diferencia entre las dos observaciones extremas, la mxima menos la mnima. Expresa cuantas unidades de diferencia podemos esperar, como mximo, entre dos valores de la variable. El rango estima el campo de variacin de la variable. Se afecta mucho por observaciones extremas y utiliza nicamente una pequea parte de la informacin.

VARIANZA (2 s2 ):
es el promedio del cuadrado de las distancias entre cada observacin y la media aritmtica del conjunto de observaciones. Es la desviacin cuadrtica media de las observaciones a la media muestral.

(Xi X)
i=1__________

N Haciendo operaciones en la frmula anterior obtenemos otra frmula para calcular la varianza:

O se puede anotar de la siguiente forma:

Su concepto es anlogo al de la varianza poblacional. No obstante esta expresin de clculo de la varianza muestral no se utiliza mucho pues sus valores tienden a ser menores que el de la autntica varianza de la variable (debido a que la propia media muestral tiene una varianza que vale un ensimo de la de las observaciones) Para compensar esta deficiencia y obtener valores que no subestimen la varianza poblacional (cuando estamos interesados en ella y no en la varianza muestral) utilizaremos una expresin, esencialmente igual que la anterior salvo que el denominador est disminuido en una unidad.

Normalmente, estaremos interesados en saber cosas acerca de la varianza poblacional y no de la varianza muestral. Por tanto, en adelante, cuando hablemos de varianza muestral, salvo indicacin expresa, nos referiremos a la segunda. Su mayor inconveniente consiste en que se expresa en unidades cuadrticas. Por ello, para muchos propsitos se utiliza otro estadstico de dispersin que la desviacin tpica. Si no disponemos de una calculadora, el clculo de la varianza puede ser complicado porque, habitualmente, los valores de las desviaciones de las observaciones a la media resultan ser nmeros con varias cifras decimales. Por ello, se suele utilizar una ecuacin que deriva directamente de la anterior:

O, alternativamente, la equivalente a aquella de "la media de los cuadrados menos el cuadrado de la media".

La segunda propiedad de la media afirma que la suma de los cuadrados de las diferencias de cada valor respecto a la media es un valor mnimo. Si ese valor se divide entre el nmero de datos, se obtiene una importante medida de dispersin conocida como varianza. DESVIACIN ESTNDARD O TPICA (S): la varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersin la desviacin tpica que se define como la raz cuadrada positiva de la varianza.

Para estimar la desviacin tpica de una poblacin a partir de los datos de una muestra se utiliza la frmula (cuasi desviacin tpica):

COEFICIENTE DE VARIACIN: Cuando se quiere comparar el grado de dispersin de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variacin que se define como el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica.

CV representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media.

Es el cociente entre la desviacin tpica y la media aritmtica muestrales y expresa la variabilidad de la variable en tanto por uno, sin dimensiones.

Permite comparar muestras de variables de distinta naturaleza o muestras de la misma variable en poblaciones en las que el orden de magnitud de las observaciones sea muy diferente. EJEMPLO. 1.- El nmero de das necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales caractersticas han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 das. Calcular la media, mediana, moda, varianza, desviacin estndar o tpica y el coeficiente de variacin. SOLUCIN: La media aritmtica: suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone:

La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80. Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez 60, que es el valor de la mediana. La moda: el valor de la variable que presenta una mayor frecuencia es 60. La varianza: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

La desviacin estndar o tpica: es la raz cuadrada de la varianza.

_______ S = 427.61 = 20.67. La desviacin estndar es una de las medidas de dispersin ms utilizadas porque refleja fielmente la media de las diferencias (elevadas al cuadrado) de cada valor respecto a la media. La desviacin estndar se calcula como la raz cuadrada de la varianza, e indica qu tan diferentes son entre s los datos que se analizan. El coeficiente de variacin: cociente entre la desviacin tpica y el valor absoluto de la media aritmtica. C.V. = 20.67/52.3 = 0.39 Se puede obtener en porcentaje si se desea, quedando de la siguiente manera: C.V. = (20.67/52.3) x 100 = 39%. Las medidas de dispersin ms comunes son el rango, la varianza y la desviacin estndar. Ejemplo: se hizo un experimento en donde se desea determinar el contenido de clorofila en plantas, lo que se puede realizar por medio de los mtodos de anlisis qumico cuantitativo de base hmeda y por base seca. Se seleccionan al azar 10 hojas, a 5 se les aplica el mtodo de base hmeda y a las otras 5 hojas el de base seca. A partir de los siguientes resultados, qu mtodo recomienda utilizar?

Base hmeda 60 mg 68 56 63 58 xi = 305 X = 61 mg xi = 18,693 S = 22 mg S = 4.69 mg Frmulas utilizadas:

Base seca 337 mg 334 335 324 345 1675_ 335 mg 561,351 56.5 mg 7.52 mg

Se recomienda el mtodo de anlisis cuantitativo de la base hmeda, por tener una menor variabilidad con respecto a la media aritmtica. Sin embargo, se aduce que los datos no son muy convincentes, por la poca variacin de los resultados, la magnitud de la informacin reportada en los anlisis en relacin a su magnitud es diferente. Siendo necesario para una mejor conclusin y recomendacin, utilizar el C.V. ya que es una medida de variacin relativa ms que una variacin absoluta y nos puede expresar la desviacin estndar como una tasa o porcentaje de la media aritmtica. C.V. = 7.69% 2.24%

Con estos resultados se recomienda utilizar el mtodo de anlisis qumico cuantitavo para hojas de plantas, el de base seca. Observemos la siguiente divisin de las medidas de dispersin: * Rango o amplitud. * Desviacin media. * Varianza. * Desviacin estndar. * Coeficiente de variacin. * Porcentaje de variacin. * Coeficiente de asimetra de Pearson. * Momentos. * Curtosis. *Puntuaciones estndar.

Medidas de dispersin

Resumen de Frmulas:

OTRAS MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIN. Media Aritmtica Ponderada:


A veces asociamos con los nmeros X1, X2, X3, .. Xk ciertos factores peso (o pesos) W1, W2, W3, .. WK dependientes de la relevancia asignada a cada nmero. En tal caso,

O se puede utilizar la siguiente frmula: PROMEDIO PONDERADO = suma ( cada valor * factor de ponderacin) Nmero de valores
n

( Xi * w i ) MEDIA PONDERADA =
i = 1

n Se llama la media aritmtica ponderada con pesos w1, w2, ..., wk.

_ Se puede denotar por Xp. Ejemplo: Si el examen final de un curso cuenta tres veces ms que una evaluacin parcial, y un estudiante tiene calificacin 85 en el examen final, 70 y 90 en los dos parciales, la calificacin media es:

Media Geomtrica:
Nos proporciona un cambio porcentual promedio en una serie de nmeros, y se obtiene tomando la raz ensima del producto de n nmeros, as: n ______________ MG = x1.x2.x3xn. Ejemplo: la media geomtrica de la serie de nmeros 2, 4, 6, 12, y 18, es:
5 ____________ MG = 2x4x6x12x18 = 6.36

__ 1/m NOTA: a = a Es til en el clculo de tasas de crecimiento. Si el crecimiento de ciertos rboles es de 26, 32 y 28 cm, en los ltimos tres aos, hallar la media anual de crecimiento.
m 3 ________ MG = 26x32x28 = 28.6 cm.

O sea, que la MG representa el cambio promedio con el tiempo.

Media Armnica:
Es el recproco de la media aritmtica de los recprocos de los nmeros de la una serie de nmeros. 1/H = (1/xi)/n; o se puede colocar de esta manera: 1/H = n/(1/xi) Es de especial importancia cuando van a promediarse relaciones que son inversamente proporcionales, como el tiempo en relacin a la velocidad en Fsica, y la variable est dada en forma de tasa. Ejemplo: obtener la media armnica de los nmeros 4, 5 y 8. 1/H = (1/4 + 1/5 + 1/8)/3 = 23/120 H = 120/23 = 5.22

Desviacin Media:
La desviacin media es la media aritmtica de los valores absolutos de las desviaciones de las variables respecto a la media aritmtica. _ DM = (X-X)/n. Tambin se puede utilizar DM = (X-)/N. Si se suma el valor absoluto de las diferencias de cada valor, respecto a la media, y se divide entre el nmero de datos, se obtiene el promedio de las diferencias de cada valor respecto a la media. A esta medida se le conoce como desviacin media. Cuanto mayor sea su valor mayor es la dispersin de los datos; sin embargo, no proporciona una relacin matemtica precisa entre su magnitud y la posicin de un dato dentro de la distribucin, midiendo la desviacin de una observacin sin mostrar si est por encima o por debajo de la media aritmtica. Ejemplo: En una prueba de tiro al blanco de 5 anillos, dos competidores, Prez y Ramrez, obtuvieron los resultados que se indican. Cul es el mejor o el ms preciso o el ms constante?

X f fX X- fx- 5 1 5 2 2 4 8 32 1 8 3 14 42 0 0 2 5 10 1 5 1 1 1 2 2 0 1 0 3 3 30 90 20

X 5 4 3 2 1 0

f 4 9 7 5 3 2 30

fX 20 36 21 10 3 0 90

X- 2 1 0 1 2 3

fx- 8 9 0 5 6 6 34

= fX / f. DM = fx-/ f Prez = 90/30 = 3 DM = 20/30 = 0.67

Ramrez = 90/30 = 3 DM = 34/30 = 1.13

Ambos competidores lograron el mismo puntaje y tienen la misma media aritmtica (promedio), pero el resultado de Prez es ms consistente ya que su DM es menor. En este caso de la DM estamos utilizando lo que sern las frecuencias, que ser el contenido de la siguiente parte, el de las muestras grandes o datos agrupados, pero que tiene utilidad para datos no agrupados. Existe tambin la media cuadrtica y la media cbica, cuyas frmulas son:

_ ______ x = (x)/n

_ 3 ______ x = (x)/n

2.2) MEDIDAS DE DISPERSIN PARA DATOS AGRUPADOS O MUESTRAS GRANDES.


Como muestras grandes son aquellas que tienen >30 elementos, datos o unidades de anlisis, y para encontrar sus respectivos parmetro o estadsticos, se utilizar la distribucin de frecuencias

2.2.2) Distribucin de frecuencia.


Cuando existe un gran nmero de datos o de valores numricos, es til distribuirlos en clases o categoras, y determinar el nmero de individuos pertenecientes a cada clase, que ser la frecuencia de clase. Para agrupar esta informacin y no se traslapen los valores en cada categora, se aplican los intervalos de clase, que son el lmite inferior y el lmite superior de un grupo de individuos dentro de una clase, y a cada lmite se le llama lmite de clase; existiendo el lmite de clase cerrado, el que tiene el lmite inferior y el superior, y el lmite de clase abierto, el que no tiene el lmite inferior o el superior (slo uno de los dos). Adems, estn los limites reales de clase, que son los lmites inferiores o superiores que con datos aproximados equivalen a estos lmites o que corresponden al punto medio entre el lmite superior de una clase precedente o anterior y el lmite inferior de la clase siguiente. El tamao o anchura de un intervalo de clase, es la diferencia de los limites reales de clase que lo forman, y estn determinados por su longitud, tamao o anchura. La marca de clase, es el valor correspondiente al punto medio o media aritmtica de un intervalo de clase. PROCEDIMIENTO: 1) 2) 3) 4) Colectar o recolectar la informacin. Ordenamiento o conteo de los valores o datos. Obtener el Rango. Determinar el nmero de clase, se puede realizar por criterio personal del investigador o por medio de frmulas, tales como: Sturges: K = 1 + 3.322 (log10 n) K = No. Intervalo de clase. n = No. de valores.
4 ___

Johnson: K = 2.54 + n

5) Tamao de clase o intervalo de clase. I.C. = R/K. Tambin se puede utilizar el criterio personal del investigador. 6) Ordenamiento en clases o categoras. 7) Distribucin de frecuencias tales como: frecuencia absoluta, frecuencia absoluta acumulada, frecuencia relativa, frecuencia relativa acumulada, frecuencia porcentual, frecuencia porcentual acumulada. 8) Determinar la marca de clase, lmites reales. 9) Calcular las medidas de tendencia de central, de dispersin y otras de inters, como los cuartiles, deciles, percentiles, etc. 10) Conclusiones y recomendaciones. Ejemplo. En una granja de porcinos se obtuvieron los pesos en kilogramos de 57 estos animales, los que aparecen en la siguiente tabla. TABLA 1. Peso en kilogramos de 57 cerdos en una granja de Petn. 1) 68 2) 63 3) 42 4) 27 5) 30 6) 36 7) 28 8) 32 9) 79 10) 27 11) 22 12) 23 13) 24 14) 25 15) 44 16) 65 17) 43 18) 25 19) 74 20) 51 21) 36 22) 42 23) 28 24) 31 25) 28 26) 25 27) 45 28) 12 29) 57 30) 51 31) 12 32) 32 33) 49 34) 38 35) 42 36) 27 37) 31 38) 50 39) 38 40) 21 41) 16 42) 24 43) 69 44) 47 45) 23 46) 22 47) 43 48) 27 49) 49 50) 28 51) 23 52) 19 53) 46 54) 30 55) 43 56) 49 57) 12

a) Encontrar las medidas de tendencia central y las de dispersin para datos agrupados. b) Encontrar el Q1, Q2, Q3. c) D7o. d) P30. e) RP32 kg. f) RI(Q). g) QD. h) Nmero de credos que estn por debajo del 89.47%. i) Nmero de cerdos que pesan entre 30-39 kg y su %. j) Qu opinin le merecen estas medidas? k) Haga sus grficas respectivas (histograma y polgono de frecuencias). SOLUCIN. 1. Coleccin de la informacin. Se hace al pesar cada uno de los 57 cerdos en una balanza para ganado. 2. Conteo u ordenamiento de los datos. 3. Obtener el Rango. R = 79-12 = 67.

4. Calcular el nmero de clases por medio de la frmula de Sturges. K = 1 + 3.322 (log10 57) = 6.8 ~ 7 clases o categoras. 5. Determinar el nmero de intervalos de clase. I.C. = 67/7 = 9.6 ~ 10. 6. Ordenamiento en clases o categoras. TABLA No. 2. Ordenamiento de 57 pesos de cerdos en clases o categoras con su intervalo, conteo y su frecuencia absoluta.
No. Clase 1 2 3 4 5 6 7 Intervalo de clase 10 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 a 79 Conteo IIIII IIIII IIIII IIIII IIII IIIII IIIII IIIII IIIII III IIII IIII II = Frecuencia (fi) 5 19 10 13 4 4 2 57

7. Tabla de distribucin de frecuencias. Ver tabla No. 3. A continuacin aparecen algunos clculos aritmticos de la forma de llenar las primera(s) casilla(s) de la tabla No. 3, distribucin de frecuencias. F = fi anterior + fi de la clase = 0 + 5 = 5. = Fa anterior + fi superior = 5 + 19 = 24. fr = fi/n = 5/57 = 0.0877. Fr = fr anterior + fr de la clase = 0 + 0.0877 = 0.0877. = Fr anterior + fr superior = 0.0877 + 0.3333 = 0.4210. fp = fr x 100 = 0.0877 x 100 = 8.77 Fp = fp anterior + fp de la clase = 0 + 8.77 = 8.77 = Fp anterior + fp superior = 8.77 + 33.33 = 42.10 mi = L. Inf. + L. Sup. = 10 + 19 = 19.5 2 2 L.R. = L. Sup. + L. Inf. clase siguiente = 19 + 20 = 19.5 2 2 Para cada una de la frecuencias se pueden aplicar estas formas sencillas de ir llenando las diferentes casillas, hasta completar la tabla.

TABLA No. 3. Distribuciones de frecuencias del peso de 57 cerdos, incluyendo marca de clase, lmites y otra informacin de inters. Frec. Abs. Acum. F 5 24 34 47 51 55 57

IC L. L. Inf. Sup. 10 20 30 40 50 60 70 19 29 39 49 59 69 79

Frec. Abs. fi 5 19 10 13 4 4 2

Frec. Rel. fr 0.0877 0.3333 0.1754 0.2281 0.0702 0.0702 0.0351

Frec. Rel. Acum. Fr 0.0877 0.4210 0.5964 0.8245 0.8947 0.9649 1.0000

Frec. Porc. fp 8.77 33.33 17.54 22.81 7.02 7.02 3.51

Frec. Porc. Acum. Fp 8.77 42.10 59.64 82.45 89.47 96.49 100.00

Marca de Clase mi 14.5 24.5 34.5 44.5 54.5 64.5 74.5

Lmit reale es s L.R.S L.R.I. . 9.5 19.5 29.5 39.5 49.5 59.5 69.5 19.5 29.5 39.5 49.5 59.5 69.5 79.5

mi.fi 72.5 465.5 345.0 578.5 218.0 258.0 149.0

mi.fi 1,051.2 5 11,404. 75 11,902. 50 25,743. 25 11,881. 00 16,641. 00 11,100. 50

57

100.00

2,086. 89,724. 5 25

8. Calcular las medidas descriptivas para datos agrupados. a) Medidas de tendencia central y dispersin para datos agrupados. MEDIDAS DE TENDENCIA CENTRAL. Media aritmtica.
k

_ mi.fi X = __i=1____; n _ X = 2,086.5/57 = 36.6 kg.

donde n = fi
i=1

Mediana. Se puede calcular su valor por medio de la siguiente frmula: Me = LRI + (n/2) Fa).C fi En donde: Me = Mediana. LRI = Lmite real inferior de la clase de la mediana.
k

n = fi.
i=1

fi = Frecuencia absoluta de la clase de la mediana. Fa = Frecuencia absoluta acumulada de la clase anterior a la clase de la mediana. C = Tamao de clase de la mediana (IC). El procedimiento para estimar la mediana es el siguiente: 1) Localizar la clase de la mediana, por medio de (n+1)/2 = (57+1)/2 = 29. Entonces, la clase de las mediana se localiza en donde est ubicado el dato nmero 29. Por lo que es necesario observar la columna de las fi o de las F. Se encuentra en el 3 intervalo de clase. 2) Localizar la Fa. En este caso es igual a 24, ya que la clase de la mediana es la tercera clase o categora. 3) Estimar el valor de la mediana. Me = 29.5 + (57/2) 24).10 = 29.5 + (28.5-24) = 34 kg. 10 Moda: Por medio de la siguiente ecuacin se puede estimar el valor de la moda: Mo = LRI + [d1 / ( d1+ d2)].C En donde: Mo = Moda. LRI = Lmite real inferior de la clase de la modal.

d1= Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase precedente o anterior. d2 = Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase posterior o siguiente. C = Tamao de clase de la moda. El procedimiento para estimar la moda es el siguiente: 1) Localizar la clase modal. Es aquella que presenta la mayor frecuencia absoluta (valor 19). En este caso ser la segunda clase o categora o segundo intervalo de clase. 2) Localizar y calcular cada dato de la frmula: LRI = 19.5 d1 = 19-5 = 14. d2 = 19-10 = 9. C = 10. 3) Estimar el valor de la Moda. Mo = 19.5 + [14/(14+9)].10 = 25.59 kg. NOTA: cuando la clase modal es alguna de las clases que se ubique en los extremos (primero o ltimo intervalo de clase), tomamos como valor para la Moda, la Marca de Clase Modal. MEDIDAS DE DISPERSIN. Varianza o Variancia.
K i=1 k i=1 k i=1 _ k i=1

S = [(mi X)fi] / (fi-1);

S = [mifi (mifi)/n ] / (n-1);

k i=1

k i=1

S = n[ mifi (mifi)] / n(n-1) _ La frmula para , son las mismas que para S, excepto que sustituye a X, y
k

el denominador es fi, y N, sustituye a n(n-1). O sea, para calcular los


i=1

parmetros. Quedando de la siguiente manera el valor de la variaza. S = [89,724.25 (2,086.5)/57] / (57-1) = 13,347.37/56 = 238.34 kg. Desviacinn Estndar o Desviacin tpica. ___ S = S

______ S = 238.34 = 15.44 kg. Coeficiente de variacin. _ C.V. = (S/X) x 100 C.V. = (15.44/36.6) x 100 = 42.18%. b) Cuartiles. Divide la distribucin de frecuencias en 4 partes iguales, cada uno contendr el mismo nmero de observaciones, o sea, el 25% del total; los puntos de separacin de los valores (X) son los cuartiles. El primer cuartil (Q1) es el valor que corresponde al 25%. El segundo cuartil (Q2), que es el valor que separa el 50%, que coincide con la mediana. El tercer cuartil (Q3), que es el valor que separa el 75% de las observaciones que quedan por debajo de l. Primer cuartil (Q1). Primero dividimos el nmero de cerdos entre 4. O sea, N/4 = 57/4 = 14.25, que corresponde al dato No. 14.25, u obtenemos el 25% de 57; cayendo el Q1 en la segunda clase (ver frecuencias acumuladas o las frecuencias absolutas). Segundo, para la primera clase tenemos 5 cerdos, y para llegar a 14.25 nos falta 9.25 cerdos (14.25-5 = 9.25). Tercero utilizamos interpolacin lineal, as: 19 corresponde a 10 (ver columna de las fi y el tamao del intervalo de clase) 1 corresponde a 10/19 9.25 corresponde a [(10).(9.25)] / 19 = 4.87 O se puede por medio de una regla de 3 directa. 19 -------- 10 9.25 -------- X X = [(10).(9.25)] / 19 = 4.87 Y al final, sumamos el LRI de la clase o categora en donde est el dato No. 14.25 (segunda clase) al valor de X obtenido en el paso anterior, de la siguiente manera: 19.5 + 4.87 = 24.37 kg. Se puede utilizar la frmula siguiente: Q1 = LRI + {[(N/4).(1) Fa] / fi}.C

En donde LRI = Limite Real Inferior de la clase donde est el supuesto cuartil. N = Nmero total de datos o valores. Fa = Frecuencia acumulada anterior al intervalo de clase donde est el supuesto cuartil. fi = Frecuencia absoluta del intervalo de clase donde est el supuesto cuartil. C = Tamao de clase del intervalo de clase donde est el supuesto cuartil. El 25% de los datos est en la segunda clase (ver columna de frecuencia porcentual acumulada). Q1 = 19.5 + {[(57/4).(1) 5] / 19}.10 = 24.37 kg Este el valor del Q1 = 24.37 kg. O sea, que el 25% de los cerdos tiene un peso de 24.37 kg o menos. Segundo cuartil (Q2). Primero dividimos el nmero de cerdos entre 2. O sea, n/2 = 57/2 = 28.5, que corresponde al dato No. 28.5, o sacamos el 50% de 57; cayendo el Q2 en la tercera clase (ver frecuencias acumuladas o frecuencias absolutas). Segundo, para las dos primeras clases tenemos 24 cerdos, y para llegar a 28.5 nos falta 4.5 cerdos (28.5-24 = 4.5). Tercero, utilizamos interpolacin lineal, as: 10 corresponde a 10. (ver columna de las fi y el tamao del intervalo de clase) 1 corresponde a 10/10 4 corresponde a [(10).(4.5)] / 10 = 4.5 O se puede por medio de una regla de 3 directa. 10 -------- 10 4.5 ------- X X = (10.4.5) / 10 = 4.5 Y al final, sumamos el LRI de la clase o categora en donde est el dato No. 28.5 (segunda clase) al valor de X obtenido en el paso anterior, de la siguiente manera: 29.5 + 4.5 = 34 kg. Se puede utilizar la frmula siguiente: Q2 = LRI + {[(N/4).(2) Fa] / fi}.C En donde LRI = Limite Real Inferior de la clase donde est el supuesto cuartil.

N = Nmero total de datos o valores. Fa = Frecuencia acumulada anterior al intervalo de clase donde est el supuesto cuartil. fi = Frecuencia absoluta del intervalo de clase donde est el supuesto cuartil. C = Tamao de clase del intervalo de clase donde est el supuesto cuartil. El 50% de los datos est en la tercera clase (ver columna de frecuencia porcentual acumulada). Q2 = 29.5 + [(57/4).2 24) / 10].10 = 34 kg Este el valor del Q2 = 34 kg. O sea, que el 50% de los cerdos tiene un peso de 34 kg o menos. Tercer cuartil (Q3). Primero multiplicamos el nmero de cerdos por 3 y dividimos entre 4. O sea, (n.3)/4 = (57.3)/4 = 42.75, que corresponde al dato No. 42.75, o se obtiene el 75% de 57; cayendo el Q3 en la cuarta clase (ver frecuencias acumuladas o frecuencias absolutas). Segundo, para las tres primeras clases tenemos 34 cerdos, y para llegar a 42.75 nos falta 8.75 cerdos (42.75-34 = 8.75). Tercero, utilizamos interpolacin lineal, as: 13 corresponde a 10 (ver columna de las fi y el tamao del intervalo de clase) 1 corresponde a 10/13 4 corresponde a [(10).(8.75)] / 13 = 6.73 O se puede por medio de una regla de 3 directa. 13 -------- 10 8.75 ------- X X = [(10).(8.75)] / 13 = 6.73 Y al final, sumamos el LRI de la clase o categora en donde est el dato No. 42.75 (tercera clase) al valor de X obtenido en el paso anterior, de la siguiente manera: 39.5 + 6.73 = 46.23 kg. Se puede utilizar la frmula siguiente: Q3 =LRI + {[(N/4).(3) Fa)] / fi}.C En donde LRI = Limite Real Inferior de la clase donde est el supuesto cuartil.

N = Nmero total de datos o valores. Fa = Frecuencia acumulada anterior al intervalo de clase donde est el supuesto cuartil. fi = Frecuencia absoluta del intervalo de clase donde est el supuesto cuartil. C = Tamao de clase del intervalo de clase donde est el supuesto cuartil. El 75% de los datos est en la cuarta clase (ver columna de frecuencia porcentual acumulada). Q3 = 39.5 + [(57/4x3) 34) / 13].10 = 46.23 kg Este el valor del Q3 = 46.23 kg. O sea, que el 75% de los cerdos tiene un peso de 46.23 kg o menos. c) Deciles. Divide el conjunto de valores entre 10 partes iguales, tenindose 9 punto de divisin, debido a que el decil 10 corresponde al 100% de los datos o valores, correspondiendo a cada punto un decil; as el primer decil corresponde al valor por debajo del cual est el 10% de las observaciones; para el segundo decil, el 20%, y as sucesivamente hasta llegar al noveno decil, que corresponde el 90% de los valores o menos. Decil 7 Primero se localiza en donde est ubicado el 70% de los datos. ste se encuentra en el cuarto intervalo de clase (ver frecuencias porcentuales acumuladas). O sea, entre 59.64% y 82.45%. Por lo que hay que utilizar una interpolacin lineal. Obtener las diferencias de los porcentajes y los lmites reales respectivos. Porcentaje 82.45% 59.64% 22.81% LRI 39.5 29.5 10

22.81% corresponde a 10 kg.

Para llegar de 59.64% a 70% nos da 70 59.64 = 10.36%. Por simple regla de tres directa, obtenemos: 22.81% ------ 10 10.36% ------ X X = (10.36x10) / 22.81 = 4.54

Enseguida le sumamos el LRI a X; 39.5 + 4.54 = 44.04 kg. O tambin se puede utilizar la frmula siguiente: D7 = LRI + {[(N/100).(70) Fa)] / fi}.C

En donde LRI = Limite Real Inferior de la clase donde est el supuesto decil. N = Nmero total de datos o valores. Fa = Frecuencia acumulada anterior al intervalo de clase donde est el supuesto decil. fi = Frecuencia absoluta del intervalo de clase donde est el supuesto decil. El 70% de los datos est en la cuarta clase (ver columna de frecuencia porcentual acumulada). D7 = LRI + {[(N/100).(70) Fa)] / fi}.C D7 = 39.5 + {[(57/100).(70) 34)] / 13}.10 = 44.04 kg. O sea, que 44.04 kg pesa el 70% de los cerdos o menos. d) Percentiles. El trmino percentil nos indica en una distribucin de observaciones el valor por debajo del cual est situado un cierto porcentaje de la distribucin de valores, y divide el conjunto de stos en 100 partes iguales, tenindose desde el percentil 1 hasta el 99. Percentil 30 (P30). Este percentil 30 nos indica que el 30% de los valores estn en el 30% o menos de la variable peso. Primero se localiza en donde est ubicado el 30% de los datos. ste se encuentra en el segundo intervalo de clase (ver frecuencias porcentuales acumuladas). O sea, entre 8.77% y 42.10%. Por lo que hay que utilizar una interpolacin lineal. Obtener las diferencias de los porcentajes y los lmites reales respectivos. Porcentaje 42.10% 8.77% 33.33% LRI 19.5 9.5 10

33.33% corresponde a 10 kg.

Para llegar de 8.77% a 30%, nos da 30 8.77 = 21.23%. Por simple regla de tres directa, obtenemos: 33.33% ------ 10 21.23% ------ X X = (21.23x10) / 33.33 = 6.37

Enseguida le sumamos el LRI a X; 19.5 + 6.37 = 25.87 kg.

O tambin se puede utilizar la siguiente frmula: P30 = LRI + {[(N/100).(30) Fa)] / fi}.C En donde LRI = Limite Real Inferior de la clase donde est el supuesto percentil. N = Nmero total de datos o valores. Fa = Frecuencia acumulada anterior al intervalo de clase donde est el supuesto percentil. fi = Frecuencia absoluta del intervalo de clase donde est el supuesto percentil. El 30% de los datos est en la segunda clase (ver columna de frecuencia porcentual acumulada). D7 = LRI + {[(N/100).(30) Fa)] / fi}.C D7 = 19.5 + {[(57/100).(30) 5)] / 19}.10 = 25.87 kg. O sea, que 25.87 kg pesa el 30% de los cerdos o menos. e) Rango Percentil. El rango percentil nos indica el tanto por ciento de las observaciones que quedan por debajo de un cierto valor de la variable (peso en kg). RP32 kg. Para el clculo del rango percentil, el procedimiento es anlogo a los anteriores. Primero obtenemos el intervalo en el que se encuentra el 32 kg, y se localiza en el tercero, o sea, entre 29.5 y 39.5. Por lo que hay que utilizar una interpolacin lineal. Calculamos las diferencias de los LRI y las frecuencias porcentuales acumuladas. LRI 39.5 29.5 10 Fp 82.45% 59.64% 22.81%

10 kg corresponde al 22.81%

Para llegar a 29.5 de 32, nos da 32 29.5 = 2.5 Por simple regla de tres directa, obtenemos: 10 ------ 22.81% 2.5 ------ X X = (2.5x22.81) / 10 = 5.70%

Enseguida le sumamos la frecuencia porcentual acumulada a X: 59.64 + 5.70 = 65.34%. O tambin se puede utilizar la siguiente frmula: RP = Fp + {[(X - LRI).(Fpp - Fp)] / C} En donde: RP = Rango Percentil. Fp = Frecuencia porcentual acumulada del intervalo de clase en donde est el rango percentil a calcular. X = Valor del rango percentil a calcular. LRI = Lmite Real Inferior de la clase del rango percentil a calcular. Fpp = Frecuencia porcentual acumulada posterior al intervalo de clase en donde est el rango percentil a calcular. Se determina que el valor de 32 kg est ubicado en el tercer intervalo de clase, si se observan, las columnas del intervalo de clase (30 a 39) y la columna de la frecuencia absoluta acumulada (F). RP32 = 59.64 + {[(32 29.5).(82.45 59.64)] / 10} RP32 = 65.34%. O sea, que por debajo de 32 kg pesa el 65.34% de los cerdos. f) Rango Intercuartil. Cuando estudiamos el rango, vimos que era muy influenciado por valores extremos; para eliminar la influencia de los extremos se suele analizar la situacin del intermedio de la distribucin y a esto se refiere el rango intercuartil, que es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). RI(Q) = Q3 - Q1 RI(Q) = 46.23 - 24.37 = 21.86 kg. g) Rango semi-intercuartlico o desviacin cuartil. Es la mitad del rango intercuartlico, cuya frmula es: QD = (Q3 - Q1) / 2 QD = (Q3 - Q1) / 2 = (46.23 - 24.37) / 2 = 10.93 kg. h) Nmero de cerdos que pesan y tienen el 89.47%. En virtud que en la columna de las frecuencias porcentuales acumuladas, se observa que existe el 89.47%, y en la columna de las frecuencias absolutas

acumuladas est el numeral 51, que se localiza en el quinto intervalo de clase, se aduce que 51 cerdos representan el 89.47% o estn por debajo de este porcentaje. La respuesta ser de 51 cerdos. i) Nmero de cerdos que pesan entre 30-39 kg y su % Para esto es necesario observar en el tercer intervalo de clase, que los lmites son 30 a 39, y hay 10 cerdos segn la columna de las frecuencias absolutas, y el porcentaje es de 17.54%. La respuesta ser: 10 cerdos y 17.54%. j) Qu opinin le merecen estas medidas? Dentro de todas las medidas estadsticas obtenidas, es conveniente opinar que la media aritmtica nos representa el valor de la distribucin en forma adecuada, aunque se vea afectada por valores extremos. Sin embargo, esta medida y la mediana resultan ms adecuadas debido a que son bastante cercanos sus valores, y la moda es menor que estas dos. Esto nos demuestra que en esta la distribucin que los valores son asimtricos en torno a su media aritmtica. La varianza, la desviacin estndar y el coeficiente de variacin son medidas altas, lo que confirma la mucha variabilidad de los valores generados, diciendo con esto que los pesos de los cerdos son bastante variables, por lo que habrn cerdos de poco peso y mucho peso. Qu medida de tendencia central escoger? La medida de tendencia central que debe de utilizarse depende de la informacin que se tenga y el objetivo que se persigue. Si la distribucin es aproximadamente simtrica, pueden utilizarse indistintamente las tres medidas, que resultan aproximadamente iguales. Si los datos no estn ordenados, puede resultar ms fcil el clculo de la media aritmtica que el de la mediana. La moda por el valor con mayor frecuencia. Si los datos son irregulares y hay lagunas en los valores de la clase de la mediana, esta medida no resulta buena ya que su ubicacin puede resultar falsa. Si se desea calcular totales, la nica medida utilizable es la media aritmtica. As, si basados en una experiencia deseamos conocer en una empresa el posible gasto de energa elctrica para un perodo futuro, la nica medida utilizable es la media aritmtica.

Si se desea ubicar las condiciones de una persona en una clase, la mediana resulta la medida ms indicada ya que por comparacin pone en evidencia si la persona est por sobre la mitad o por debajo de ella. El rango intercuartil y la desviacin cuartil resultan ms adecuados que el rango, debido a la variabilidad de la informacin generada. Sin embargo presentan algunos inconvenientes, tales como: No toma en consideracin todos los valores de la distribucin y puede ocurrir que los valores inferiores al Q1 o superiores a Q2 estn muy compactos o muy dispersos, y el valor del rango intercuartil sea el mismo. No es posible, conociendo slo el rango intercuartil, hacer la ubicacin precisa de una observacin dentro de la distribucin. Al igual que la mediana, que es el segundo cuartil, no tienen propiedades que les permitan intervenir en las relaciones matemticas que utiliza la estadstica. Observando la distribucin de frecuencias, podemos considerar que la mayor parte de los cerdos tienen pesos menores, por lo que la mayora de stos tienen animales pequeos o de bajo peso ms que animales grandes o pesados, debido a que la asimetra se ubica hacia la izquierda que hacia la derecha. k) Haga sus grficas respectivas (histograma y polgono de frecuencias). HISTOGRAMA. El histograma es una de las herramientas grficas ms tiles para resumir un conjunto de datos de una variable. Un histograma es la representacin grfica de una tabla de frecuencias donde los datos han sido agrupados por intervalos. Representa grficamente una distribucin de frecuencias siendo una serie de rectngulos con las siguientes caractersticas: a) Tiene sus bases sobre el eje horizontal X, con ancho de cada rectngulo igual al tamao de clase o intervalo de clase, y el centro de cada rectngulo est ubicado sobre la marca de clase. b) La altura de los rectngulos corresponde a la frecuencia absoluta (fi) sobre el eje vertical Y, y la superficie o rea de los mismos son proporcionales a la frecuencia relativa (fr). Partiendo de la informacin generada en la tabla No. 3 que son las distribuciones de frecuencias del peso de 57 cerdos, incluyendo marca de clase, lmites y otra informacin de inters se genera la tabla No. 4.

TABLA No. 4. Lmites reales, frecuencias absolutas y absolutas acumuladas, y marcas de clase del peso de 57 cerdos. Frec. Frec. Abs. Marca de Lmites reales Abs. Acum. Clase L.R.I. L.R.S. fi F mi 9.5 19.5 5 5 14.5 19.5 29.5 19 24 24.5 29.5 39.5 10 34 34.5 39.5 49.5 13 47 44.5 49.5 59.5 4 51 54.5 59.5 69.5 4 55 64.5 69.5 79.5 2 57 74.5

POLGONO DE FRECUENCIAS. Es otra forma de representar las distribuciones de frecuencias grficamente, que se construyen uniendo las marcas de clases por medio de lneas continuas sobre la parte superior de los rectngulos de un histograma.

2.3. REPRESENTACIN GRFICA DE DATOS.


Ver documento de Representaciones grficas.

2.4. MEDIDAS CURTOSIS.

DE

ASIMETRA,

SESGO

En las distribuciones que toman la forma de una curva normal, nos interesa obtener dos medidas, adicionales a las de tendencia central y dispersin. Estas medidas son las de asimetra y la de curtosis. Es de importancia conocer el concepto y clculo de los momentos, ya que nos servirn para calcular una medida de asimetra y una de curtosis. A) ASIMETRA. En estadstica son de uso frecuente los promedios de las series de potencias de la variable, y estos promedios reciben el nombre de momentos. Si X1, X2, , , , , XN son los N valores de X, entonces: a) Para datos no agrupados. Momento de orden r = mr = X1r + X2r + . . . . . + Xnr = Xr N N b) Para datos agrupados. mr = fxr N A los momentos anteriores se le denomina momentos relativos de orden r. Los momentos se pueden definir respecto a cualquier punto. En este caso se toman las potencias de la diferencia (X a), donde a es la ordenada del punto de trabajo. Ejemplo: Momento de orden 0 = m0 = 1 (ya que X1 = 1)

Momento de orden 1 = m = media aritmtica (ya que X1 = 1) Momento de orden 2 = m2 = S2 + m2 = varianza + (media al cuadrado) Ejemplo: dada la serie de nmeros 5, 1, 3, 6 hallar los momentos relativos: a) de orden 0; b) primero; c) segundo; d) tercero. a) m0 = 50 + 10 + 30 + 60 = 1 + 1 + 1 + 1 = 4 = 1. 4 4 4

b) m = 5 + 1 + 3 + 6 = 15 = 3.75 4 4 c) m2 = 52 + 12 + 32 + 62 = 25 + 1 + 9 + 36 = 71 = 17.75 4 4 4 d) m3 = 53 + 13 + 33 + 63 = 125 + 1 + 27 + 216 = 369 = 92.25 4 4 4 Dados los nmeros del problema anterior, hallar los momentos respecto a la media aritmtica, de orden: a) primero; b) segundo; c) tercero. Los momentos respecto a la media aritmtica se simbolizan por mr = r _ a) 1 = (X X)1 = (5 - 3.75) + (1 - 3.75) + (3 - 3.75) + (6 - 3.75) = 0 N 4 _ b) 2 = (X X)2 = (5 - 3.75)2 + (1 - 3.75)2 + (3 - 3.75)2 + (6 - 3.75)2 = 3.69 N 4 2 = S2 = 3.69 _ c) 3 = (X X)3 = (5 - 3.75)3 + (1 - 3.75)3 + (3 - 3.75)3 + (6 - 3.75)3 = 1.97 N 4 Del ejemplo anterior podemos deducir que el 2 = S2 _ En general podemos decir r = (X X)r; para datos no agrupados. N _ r = f(mi X)r; para datos agrupados. f A estos momentos con respecto a la media aritmtica se les denomina momentos centrados. Ejemplo: de acuerdo con la tabla No. 4 de distribuciones de frecuencias, halle los momentos centrados, de orden: primero, segundo, tercero y cuarto. 1 = 0.00526 3 = 2410.16 B) SESGO.
Cuando al trazar una vertical, en el diagrama de barras o histograma de una variable, segn sea esta discreta o continua, por el valor de la media, esta vertical se transforma en eje de simetra, decimos que la distribucin

2 = 234.16 4 = 151,082.79

es simtrica. En caso contrario, dicha distribucin ser asimtrica o diremos que presenta asimetra. En una distribucin simtrica las tres medidas de tendencia central son idnticas, y si la distribucin se torna asimtrica no se produce cambio en la moda; la mediana y la media aritmtica se corren en la direccin de la asimetra. La asimetra es positiva hacia la derecha y negativa hacia la izquierda. En la asimetra positiva la mediana aumenta por el mayor nmero de frecuencias hacia la derecha y la media aumenta ms, ya que hay un nmero de frecuencia y en el valor de las observaciones. En las asimetras negativas ocurre lo contrario: la mediana disminuye y la media aritmtica disminuye ms que la mediana.

Medidas de la asimetra: Karl Pearson investig la asimetra y a l se debe la relacin emprica de que en las distribuciones moderadamente asimtricas la mediana queda aproximadamente a 2/3 partes de la moda a la media aritmtica.

Cuando se obtiene el valor de la asimetra de acuerdo con Pearson, se le conoce como coeficiente de Pearson, y este es funcin de la media aritmtica y la moda en relacin a la desviacin estndar o tpica. _ As = X - Mo S

_ Reemplazando la moda por la relacin emprica Mo = 3Me 2X, se tiene la asimetra en funcin de la media aritmtica y la mediana. _ As = 3(X Me) S El coeficiente de Pearson vara entre 3, y 0 es simtrico o correspondiente a una distribucin normal. Se le conoce en ingls como Skewness, que significa asimetra. Medida cuartil de asimetra o medida de Bowley: en una distribucin simtrica Q1 y el Q3 a ambos lados e igual distancia de la mediana, si la distribucin es simtrica hacia la derecha, el Q3 queda ms lejos de la mediana que el Q1, y si es simtrico hacia la izquierda el Q1 queda ms lejos de la mediana que el Q3; la mediana es siempre Q2. La medida de Bowley basada en los cuartiles es: As = Q1 + Q3 2Q2 Q3 Q1 La medida de Bowley vara entre 1, y es 0 en la distribucin normal o cuando hay simetra. Ejemplo: hallar el coeficiente de Pearson de asimetra y la medida cuartlica o medida de Bowley, del ejemplo de los 57 cerdos, y diga si hay simetra (distribucin normal) o asimetra hacia la izquierda (negativa) o hacia la derecha (positiva). _ As = 3(X Me) = 3(36.6-34) = 0.505 S 15.44 As = 24.37 + 46.23 2(34) = 0.12 46.23 - 24.37

En ambos se obtuvo una simetra positiva, hacia la derecha. Al ser un valor no grande con respecto a 3 y 1, la curva de la distribucin est un poco
sesgada hacia la derecha. El coeficiente de asimetra ms preciso es el de Fisher, que se define por:

Segn sea el valor de g1, diremos que la distribucin es asimtrica a derechas o positiva, a izquierdas o negativa, o simtrica, o sea: Si g1 > 0 => la distribucin ser asimtrica positiva o a derechas (desplazada hacia la derecha). Si g1 < 0 => la distribucin ser asimtrica negativa o a izquierdas (desplazada hacia la izquierda). Si g1 = 0 => la distribucin puede ser simtrica; si la distribucin es simtrica, entonces si podremos afirmar que g1 = 0.

C) CURTOSIS.
Las curvas de distribucin, comparadas con la curva de distribucin normal, pueden presentar diferentes grados de apuntamiento o de altura de la cima de la curva. Segn su apuntamiento, las curvas reciben nombres as: la

curva normal se denomina mesocrtica, la de mayor apuntamiento que la normal es la leptocrtica, y la de menor apuntamiento que la normal es la platicrtica.

Una medida de curtosis sirve para apreciar el grado en que una curva de distirbucin de frecuencias es ms alta o ms achatada que la curva normal de distribucin. Una de las medidas de curtosis se basa en el cuarto momento respecto a la media aritmtica (momento centrado) dividida por la varianza elevada al cuadrado. Coeficiente de curtosis = k = 4/S4 = 4/(S2)2 Otra medida de curtosis que se puede emplear, est basado en los cuartiles y percentiles, que es el rango semi-intercuartlico o desviacin cuartil dividido entre la diferencia del percentil 90 y el percentil 10, segn la siguiente frmula: Coeficiente de curtosis percentlico = k = QD/(P90 P10) Para la curva normal o simtrica k = 3, siendo mesocrtica. Si k>3, la curva es leptocrtica. Y, si la k<3, la curva es platicrtica. Ejemplo: encuentre la curtosis del ejemplo de los 57 cerdos.
Para determinarlo, se puede emplear el coeficiente de curtosis de Fisher. (g2).

Si g2 > 3 la distribucin ser leptocrtica o apuntada. Si g2 = 3 la distribucin ser mesocrtica o normal. Si g2 < 3 la distribucin ser platicrtica o menos apuntada que lo normal.

Вам также может понравиться