Вы находитесь на странице: 1из 9

3 MEDIDAS DESCRIPTIVAS 3.

1 INTRODUCCIN Se presentaron los mtodos tabulares y grficos ms usuales para destacar las particularidades ms importantes de un conjunto de datos. Sin embargo, tales mtodos no son suficientes para caracterizarlos en forma resumida. Por ejemplo, si deseamos comparar dos conjuntos de datos, resulta difcil confrontarlos por simple inspeccin de sus grficos o de sus distribuciones de frecuencia: En tal caso, resulta conveniente obtener medidas numricas que describan resumidamente los conjuntos de datos. Existen fundamentalmente dos tipos de medidas de inters para cualquier conjunto de datos. Las de tendencia central y las de dispersin. Medidas que sern estudiadas en la presente unidad. 3.2 MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central resumen los datos en un valor central alrededor del cual se distribuyen todos los datos del conjunto. Entre tales valores estn la media aritmtica, la mediana, la moda y la media ponderada entre otras. 3.2.1 Media Aritmtica La media aritmtica, media o promedio de un conjunto de n observaciones x1 , x2 ,..., xn se representa por x y se define como :

La media es la ms importante de las medidas de tendencia central. Su interpretacin corresponde geomtricamente al punto de equilibrio de los datos. Posee propiedades tericas excelentes para su empleo en la inferencia estadstica. La desventaja que tiene es que es muy sensible a los valores extremos cuando stos no estn equilibrados entre s. 3.2.2 Propiedades de la media aritmtica La media aritmtica posee las siguientes dos propiedades. I.- La suma de las desviaciones con respecto a la media es igual a cero, esto es

II.-La suma de las desviaciones al cuadrado con respecto a la media es mnima que con respecto a cualquier otro valor, esto es

3.2.3 Mediana La mediana de un conjunto de n observaciones se representa por Md y se define como el valor central de los datos, previamente ordenados creciente o decrecientemente. Otra forma de definir la mediana es la siguiente: es el valor a partir del cual el 50% de los datos estn por debajo y el otro 50% por arriba. En un conjunto de datos originales la mediana puede determinarse aplicando uno de los siguientes casos. I.- Si n es impar, la mediana ser el valor central del conjunto de datos ordenados. II.-Si n es par, la mediana ser el promedio de los dos valores centrales, previo ordenamiento de los datos. 3.2.4 Moda La moda de un conjunto de n observaciones se representa por Mo y es el valor de la observacin que se presenta con mayor frecuencia en un conjunto de datos. La moda es una medida de tendencia central poco usual, las razones se deben a que puede ocurrir que en un conjunto de datos no exista moda, como tambin puede suceder que la moda no se un valor nico; esto es, que este compartida por dos o ms observaciones. 3.2.5 Comparacin de la media, mediana y moda En secciones precedentes se hizo notar que la media es el punto de equilibrio de un conjunto de datos. Que la mediana, divide al grupo de datos en dos partes iguales de tal modo que la mitad de los datos quedan por debajo de ella y la otra mitad por arriba. Finalmente, que la moda representa el valor de la observacin que se presenta con mayor frecuencia con el conjunto de datos. Estas medidas, son las medidas de tendencia central ms usuales por su fcil comprensin y su enorme utilidad. Sin embargo, de estas tres medidas, la media es la ms usual para representar la tendencia central de un conjunto de datos. Esto se debe a que generalmente proporciona una mejor estimacin de parmetro. Adems, la media posee propiedades tericas excelentes que no tienen la mediana y la moda, y que originan que la media sea ampliamente utilizada en la inferencia estadstica. No obstante, pueden presentarse tambin algunas situaciones en las que se opta por el empleo de la mediana en lugar de la media para representar la tendencia central de un conjunto de datos. Estas situaciones se presentan en aquellos grupos de observaciones que contienen valores extremos que no estn equilibrados en ambos lados del colectivo y que a causa de la sensibilidad de la media, sta proporciona una estimacin errnea de la tendencia central. En estas circunstancias, la mediana resulta ser la medida apropiada para representar la tendencia central de un conjunto de datos. Por otro lado, la moda es

una medida adecuada siempre que se desee una estimacin aproximada rpida de la tendencia central, o cuando slo estamos interesados en la ocurrencia del valor caracterstico. La Figura 3.1 muestra las posiciones de la media, la mediana y la moda. Si la distribucin es simtrica, como se aprecia en a), las tres mediadas de tendencia central coinciden, es decir, se verificar la igualdad x = Md = Mo . Si la distribucin es asimtrica positiva, como se observa en b), las tres medidas de tendencia central divergen, de tal forma que se cumple la relacin x > Md > Mo . Finalmente, si la distribucin es asimtrica negativa, como se aprecia en c) las tres medidas de tendencia central divergen, verificandose en tal caso la relacin x < Md < Mo . Al respecto cabe mencionar, que si una distribucin presenta dos o ms modas, la direccin de sta se determina comparando nicamente la media y la mediana. Figura 3.1 Posicin de la media, la mediana y la moda.

3.3 MEDIDAS DE POSICIN Las medidas de posicin sirven para describir la localizacin de un dato especfico en la relacin con el resto de la muestra. Dos de las medidas de posicin ms populares son los llamados cuartiles y los centiles. 3.3.1 Cuartiles Los cuartiles son nmeros que dividen al conjunto de datos ordenados en cuatro partes iguales. Estos se representan habitualmente por Q1, Q2, y Q3. El primer cuartil, Q1, es el valor que tiene por debajo la cuarta parte de los datos. El segundo cuartil, Q2, tiene por debajo la mitad de los datos. Ntese que Q2 tiene la misma ubicacin que la mediana. El tercer cuartil Q3, tiene por debajo las tres cuartas partes de los datos. En trminos de porcentaje, Q1 tiene por debajo el 25% de los datos, Q2 el 50% y Q3 el 75%. El rango intercuartlico (R.I) mide aproximadamente la distancia de la mediana que debemos recorrer en ambos lados antes de poder incluir una mitad de los valores del conjunto de datos. R.I.=Q3-Q1 . 3.3.2 Centiles Los centiles (o percentiles) son nmeros que dividen al conjunto de datos ordenados en 100 partes iguales. Estos se representan por p1 , p2 ,..., p100. El centil ochenta, p80, tiene por debajo el 80% de los datos. El centil cuarenta y cinco p45 tiene por debajo el 45% de los datos. 3.4 MEDIDAS DE DISPERSIN

En unidades anteriores se presentaron las medidas de tendencia central ms comunes para caracterizar conjuntos de datos. Sin embargo, tales medidas no son suficientes para realizar de manera completa la caracterizacin de stos, puesto que otro aspecto que se debe considerar es la dispersin o variabilidad de los datos. Una dispersin pequea, denota gran homogeneidad de los datos. Por el contrario, una dispersin grande indica heterogeneidad de los datos. La ausencia de dispersin significa que todos los datos del conjunto son iguales. La Figura 3.2 muestra que una medida de tendencia central no es suficiente para caracterizar dos conjuntos de datos, puesto que, es posible tener dos o ms distribuciones con la misma medida de tendencia central y pertenecer a distribuciones muy diferentes. Por ejemplo, hay que apreciar en la Figura 2, la diferencia en la interpretacin de la observacin 80. En a) se observa que la distribucin tiene menor dispersin, es decir, las observaciones estn estrechamente distribuidas alrededor de la media, tanto as, que la observacin de 80 est situada casi en el extremo de la distribucin y puede por lo tanto considerarse como una observacin muy alta. En b), por el contrario, las observaciones estn ms dispersas alrededor de la media. En este caso, la observacin de 80 no se localiza tan al extremo de la distribucin puesto que, tiene encima de ella un buen nmero de observaciones, tal como lo indica el rea situada a la derecha de 80. Figura 3.2 Dos distribuciones con la misma medida de tendencia central pero con diferente dispersin.

La dispersin de un conjunto de datos normalmente se expresa cuantitativamente. De esta manera, con el propsito de medir la dispersin de un conjunto de datos, se estudian en la presente seccin las medidas siguientes: amplitud, varianza, desviacin estndar y coeficiente de variacin. 3.4.1 Amplitud o Rango

La amplitud (A) de un conjunto de datos es la diferencia entre las observaciones de mayor y menor valor numrico en el mismo. La amplitud es poco usual por su evidente inestabilidad. Esto se debe a que nicamente considera para su clculo, los valores extremos del conjunto de datos. 3.4.2 Varianza La varianza de un conjunto de n observaciones x1, x2,..., xn; se representa por S2 y se define como la suma de los cuadrados de las desviaciones con respecto a su media, dividida por el nmero de observaciones menos uno, simblicamente

La varianza es una medida de dispersin de gran importancia en la estadstica, debido a que constituye la base de algunas distribuciones que se estudian en la inferencia estadstica. 3.4.3 Desviacin Estndar La desviacin estndar se representa por S y se define como la raz cuadrada de la varianza esto es

Debido a las propiedades tericas que posee la desviacin estndar es la ms importante y la ms usual de las medidas de dispersin. Se opta por el uso de la desviacin estndar en la relacin con la varianza, porque la varianza expresa las unidades al cuadrado, mientras que la desviacin estndar presenta las unidades de su forma original. 3.4.4 Coeficiente de Variacin El coeficiente de variacin se representa por C.V., y se define como la medida de dispersin relativa de un conjunto de datos, que se obtiene dividiendo la desviacin estndar del conjunto entre su media, esto es

La forma ms usual del coeficiente de variacin es como se indica a continuacin

Se multiplica por l00 con el propsito de expresar la dispersin de un conjunto de datos en trminos de porcentaje. El coeficiente de variacin cobra mayor importancia cuando se desea comparar la

dispersin de dos o ms conjuntos de datos que tienen diferente unidad de medida. Esto se debe a que la unidad de medida utilizada en los grupos que se comparan se elimina, y la dispersin de los datos, se da en trminos de porcentaje. 3.4.5 Comparacin de las medidas de dispersin Por la rapidez y facilidad con que se obtiene, la amplitud se considera simplemente como un ndice preliminar o aproximado de la variacin existente entre las observaciones de un conjunto de datos. Como medida de dispersin debe emplearse con precaucin, puesto que su valor depende nicamente de los dos valores extremos del conjunto. La varianza resulta ser una medida razonablemente buena de la dispersin debido a que si las desviaciones son grandes entonces el valor de la varianza ser grande, por el contrario, si stos son pequeos entonces el valor de la varianza ser pequeo. La varianza puede sufrir un cambio bastante desproporcionado, aun ms que la media, por la existencia de valores extremos en el conjunto. La varianza es una medida de dispersin en la que los resultados que se obtienen representan unidades al cuadrado, para superar ste inconveniente de la varianza y disponer de otra medida de dispersin que exprese las unidades en su forma original como fueron obtenidos, se extrae la raz cuadrada de la varianza, obtenindose, lo que se conoce como desviacin estndar. La desviacin estndar es la ms utilizada e importante de las medidas de dispersin, esto se debe a las propiedades tericas que posee, razn por la cual, se constituye en la base de los mtodos inferenciales. El coeficiente de variacin es una medida de dispersin independiente de la unidad de medida, puesto que la dispersin de un conjunto de datos se obtiene en trminos de porcentaje. 3.4.6 Significado de la desviacin estndar El resultado obtenido al calcular la desviacin estndar de un conjunto de datos, nos lleva a preguntar Qu significa realmente ese nmero?. El significado completo de la desviacin estndar se comprende cuando se estudia la distribucin normal puesto que el significado depende del entendimiento de la relacin que existe entre la desviacin estndar y la distribucin normal. Sin embargo, a manera de ilustrar el significado de la desviacin estndar consideremos el aspecto que se presenta a continuacin. Supngase que se desea medir la distancia que hay entre las plantas de un jardn. Se podra efectuar la medicin de stos, ya sea en metros o en centmetros. Por ejemplo, que el rosal esta a una distancia de 3 metros del tulipn o que la gardenia esta a 95 centmetros de la noche buena. Pero, cmo medir la anchura del eje horizontal de un polgono de frecuencias?. Del mismo modo en que se midieron las plantas del jardn en metros o en centmetros, se puede medir tambin el eje horizontal de un polgono de frecuencias en unidades de desviacin estndar. Desde este punto de vista, la desviacin estndar se constituye en una especie de "vara de medir", que nos permite comparar datos de dos o ms conjuntos. Con el propsito de ilustrar lo anterior considrese la distribucin de frecuencias que se presento en la Tabla 2.5, perteneciente al peso de 60 alumnos elegidos al azar de una escuela. Tal caracterstica tiene un peso promedio igual a x = 67.63 kg. y una desviacin estndar igual a S = l l.02. Se podra sumar la desviacin estndar al valor de la media

para determinar el peso de un alumno que esta situada a una desviacin estndar por encima de la media, o bien, restar la desviacin estndar al valor de la media y encontrar el alumno que esta ubicado a la misma distancia pero por debajo de la media. Si se realiza lo antes indicado se obtiene que el peso aproximado de ambos alumnos es 78.65 y 56.61 kg. respectivamente. La Figura 3.3 muestra el peso de los alumnos que estn situados a una y dos desviaciones estndar por encima y por abajo de la media. Figura 3.3 Medicin de observaciones en un polgono de frecuencias en unidades de desviacin estndar.

Se aprecia en la Figura 3.3 que el proceso de medir en el eje horizontal de un polgono, en unidades de desviacin estndar, es en muchos aspectos, similar al medir en metros o en centmetros las plantas de un jardn. Sin embargo, la similitud se divide en por lo menos un aspecto importante: mientras que los metros o los centmetros son de dimensin constante, es decir, un metro siempre tendr 100 centmetros y un centmetro iempre ser la centsima parte de un metro, el valor de la desviacin estndar variar de una distribucin a otra. Por tal razn, se debe de calcular la desviacin estndar de cualquier grupo de datos con el que se est trabajando para efectuar las mediciones correspondientes. 3.5 COEFICIENTE DE ASIMETRA Y CURTOSIS En este apartado se estudian dos medidas que proporcionan informacin til con respecto a la forma de la distribucin de un conjunto de datos. 3.5.1 Coeficiente de asimetra El coeficiente de asimetra (ax) se utiliza para conocer si la distribucin de un conjunto de datos es asimtrica o no. Este se calcula utilizando la expresin

Para las distribuciones que presentan un solo pico, si a x < 0, se dice que la distribucin es asimtrica negativa; si a x > 0, la distribucin es asimtrica positiva; y si a x =0, la distribucin recibe el nombre de simtrica, los tres tipos de distribucin se ilustran en la Figura 3.4. Figura 3.4 Simetra y asimetra de un conjunto de datos a) Asimtrica negativa, b) Simtrica c)Asimtrica positiva.

3.5.2 Curtosis La curtosis es una medida que indica qu tan puntiaguda es la distribucin de un conjunto de datos. Esta se calcula utilizando la expresin

Para las distribuciones que presentan un solo pico, si a * x > 3, la distribucin de los datos

presenta un solo pico relativamente alto y recibe el nombre de leptocrtica; si a * x < 3, la distribucin es relativamente plana y recibe el nombre de platicrtica; y si a * x = 3 la distribucin presenta un pico ni muy alto ni muy bajo y recibe el nombre de mesocrtica. Los tres tipos de distribuciones se ilustra en la Figura 3.5 Figura 3.5 Diferentes tipos de distribucin de un conjunto de datos. a) Leptocrtica b) Platicrtica, c) Mesocrtica.

Es importante anotar que en la mayora de paquetes estadsticos para determinar la curtosis no se realiza el corte en 3, s por facilidad se utiliza el cero, es decir: Si a * x < 0 entonces se dice que la curva es platicrtica. Si a * x =0 entonces se dice que la curva es mesocrtica. Si a * x > 0 entonces se dice que la curva es leptocrtica.

Вам также может понравиться