Вы находитесь на странице: 1из 22

_____________________________________________________ Variables y representaciones

Introduccin
La estadstica descriptiva es una gran parte de la estadstica que se dedica a analizar y representar los datos. Este anlisis es muy bsico. Aunque hay tendencia a generalizar a toda la poblacin, las primeras conclusiones obtenidas tras un anlisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qu medida los datos se agrupan o dispersan en torno a un valor central. Tambin se puede referir a la recoleccin, presentacin, descripcin, anlisis e interpretacin de una coleccin de datos, esencialmente consiste en resumir stos con uno o dos elementos de informacin (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadstica Descriptiva es el mtodo de obtener de un conjunto de datos conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado por stos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una poblacin o de una muestra, cuando en la etapa preliminar de la Inferencia Estadstica se conocen los elementos de una muestra. Tienen por objeto fundamental describir y analizar las caractersticas de un conjunto de datos, obtenindose de esa manera conclusiones sobre las caractersticas de dicho conjunto y sobre las relaciones existentes con otras poblaciones, a fin de compararlas. No obstante puede no solo referirse a la observacin de todos los elementos de una poblacin (observacin exhaustiva) sino tambin a la descripcin de los elementos de una muestra (observacin parcial).

En relacin a la estadstica descriptiva, Ernesto Rivas Gonzles dice; "Para el estudio de estas muestras, la estadstica descriptiva nos provee de todos sus medidas; medidas que cuando quieran ser aplicadas al universo total, no tendrn la misma exactitud que tienen para la muestra, es decir al estimarse para el universo vendr dada con cierto margen de error; esto significa que el valor de la medida calculada para la muestra, en el oscilar dentro de cierto lmite de confianza, que casi siempre es de un 95 a 99% de los casos.

Poblacin y muestra
Poblacin
El nmero de elementos o sujetos que componen una poblacin estadstica es igual o mayor que el nmero de elementos que se obtienen de ella en una muestra (n).

Tipos de poblacin
Existen distintos tipos de poblaciones que son:
o

o o

Poblacin base: es el grupo de personas designadas por las siguientes caractersticas: personales, geogrficas o temporales, que son elegibles para participar en el estudio. Poblacin muestreada: es la poblacin base con criterios de viabilidad o posibilidad de realizarse el muestreo. Muestra estudiada: es el grupo de sujetos en el que se recogen los datos y se realizan las observaciones, siendo realmente un subgrupo de la poblacin muestreada y accesible. El nmero de muestras que se puede obtener de una poblacin es una o mayor de una. Poblacin diana: es el grupo de personas a la que va proyectado dicho estudio, la clasificacin caracterstica de los mismos, lo cual lo hace modelo de estudio para el proyecto establecido que esta conformada por lo cuntico de un elemento.

Muestra
En estadstica una muestra estadstica (tambin llamada muestra complicada o simplificada muestra) es un subconjunto de casos o individuos de una poblacin estadstica. Las muestras se obtienen con la intencin de inferir propiedades de la totalidad de la poblacin, para lo cual deben ser representativas de la misma. Para cumplir esta caracterstica la inclusin de sujetos en la muestra debe seguir una tcnica de muestreo. En tales casos, puede obtenerse una informacin similar a la de un estudio exhaustivo con mayor rapidez y menor coste (vanse las ventajas de la eleccin de una muestra, ms abajo). Por otra parte, en ocasiones, el muestreo puede ser ms exacto que el estudio de toda la poblacin porque el manejo de un menor nmero de datos provoca tambin menos

errores en su manipulacin. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados. El nmero de sujetos que componen la muestra suele ser inferior que el de la poblacin, pero suficiente para que la estimacin de los parmetros determinados tenga un nivel de confianza adecuado. Para que el tamao de la muestra sea idneo es preciso recurrir a su clculo.

Variables discretas y continuas


Variable discreta
Una variable discreta es sencillamente una variable para la que se dan de modo inherente separaciones entre valores observables sucesivos. Dicho con ms rigor, se define una variable discreta como la variable tal que entre dos cualesquiera valores observables (potencialmente), hay por lo menos un valor no observable (potencialmente). Por ejemplo, un recuento del nmero de colonias de un cultivo en agar es una variable discreta. Mientras que cuentas de 3 y 4 son potencialmente observables, no lo es una de 3,5.

Variable contina
Una variable continua tiene la propiedad de que entre 2 cualesquiera valores observables (potencialmente), hay otro valor observable (potencialmente). Una variable continua toma valores a lo largo de un continuo, esto es, en todo un intervalo de valores. Longitudes y pesos son ejemplos de variables continuas. La estatura de una persona, por ejemplo, puede ser de 1,70 m o de 1,75 m, pero en potencia al menos podra tomar cualquier valor intermedio, como 1,7351 m. Un atributo esencial de una variable continua es que, a diferencia de una variable discreta, nunca se la puede medir exactamente. Con una variable continua debe haber inevitablemente un error de medida.

_________________________________________________________________________

Distribuciones de frecuencias
Tomas de datos
Consiste en obtener valores sobre un parmetro de una poblacin, normalmente mediante una muestra de la que se ha especificado anteriormente el tamao y mtodo de recogida de estos valores, para su posterior anlisis para extraer conclusiones sobre el parmetro estudiado. La toma de datos es la obtencin de una coleccin de los mismos que no han sido ordenados numricamente. Un ejemplo es el conjunto de alturas de 100 estudiantes, sacados de una lista alfabtica de una universidad.

Ordenacin
Una ordenacin es una colocacin de los datos numricos tomados, en orden creciente o decreciente de magnitud. La diferencia entre el mayor y el menor de los nmeros se llama recorrido o rango de los datos. Por ejemplo, si la altura mayor de los 100 estudiantes es 74 pulgadas y la menor es de 60 pulgadas, el rango es 74 - 60 = 14 pulgadas. Las permutaciones son tambin conocidas como ordenaciones, y de hecho toman este nombre porque son ordenaciones de r objetos de n dados. En este curso las representaremos como ORnr nORr.

Por ejemplo: Sea A={a,b,c,d}, cuntas "palabras" de dos letras se pueden obtener? Se pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras es 4. En este caso r=2 y n=4. Las "palabras" formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd. En total son 16.

En general, si se toman r objetos de n, la cantidad de permutaciones u ordenaciones con repeticin obtenidas son: ORnr = nORr = n r

Permutaciones (u ordenaciones) sin repeticin En este caso, a diferencia del anterior, se realizan ordenaciones de r objetos de n dados atendiendo a la situacin de cada objeto en la ordenacin. Su representacin ser Pnr nPr. Por ejemplo: Sea el mismo conjunto A={a,b,c,d}, cuntas ordenaciones sin repeticin se pueden obtener? Lo que resulta es: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc. Son 12 en total.

Distribucin de frecuencias
Es como se denomina en estadstica a la agrupacin de datos en categoras mutuamente excluyentes que indican el nmero de observaciones en cada categora. Esto significa una de las cosas ms importantes de la matemtica, su estadstica con la agrupacin de datos. La distribucin de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el nmero existente en cada clase. Elementos fundamentales para elaborar una distribucin de frecuencia: 1) RANGO. Es una medida de dispersin que se obtiene como la diferencia entre el nmero mayor y el nmero menor de los datos. R = N_max - N_min Ejemplo. Dados los nmeros: 5, 10, 12, 8, 13, 9, 15 R= 15- 5 2) AMPLITUD TOTAL. Simplemente se obtiene sumndole 1 al rango. AT = (R+1)

3) LAS CLASES. Estn formadas por dos extremos. el menor se llama lmite inferior el mayor se llama lmite superior. hay distintos tipos de clases. Ej. Notas (20-26) Edades (20-26.5) Salarios (22-26.99) 4) EL NUMERO DE CLASES. Se determina a travs de la formula de Sturges, la cual es valida cuando el No de observaciones sea menor o igual a 500. Formula. Nc= 1 + 3.33log ( N ) Donde: Nc es el nmero de clases. N es la cantidad de muestras tomadas. 5) VALOR DEL INTERVALO O AMPLITUD Se Obtiene por medio de la ecuacin de dicta: Vi = AT / Nc Donde: Vi es el valor de intervalo AT es la amplitud total o "el rango" Nc es el nmero de clase

Intervalos de clase
Rango utilizado para dividir el conjunto de posibles valores numricos al trabajar con grandes cantidades de datos. Por ejemplo, si los valores estn entre 1 y 100, se podran definir grupos por medio de los intervalos 1-25, 26-50, 51-75, 76-100 cuando el intervalo de la clase es 25. Un smbolo que define una clase, tal como 60 - 62 de la tabla anterior, se conoce como intervalo de clase. Los nmeros extremos, 60 y 62, son los lmites de clase; el nmero menor 60 es el lmite inferior de la clase y el mayor 62 es el lmite superior. Los trminos clase e intervalo de clase se utilizan a menudo indistintamente, aunque el intervalo de clase es realmente un smbolo para la clase.

Limites de clase
Un intervalo de clase que, al menos tericamente, no tiene lmite superior o inferior, se conoce como intervalo de clase abierto. Por ejemplo, al referirse a la edad de grupos de individuos el intervalo de clase, mayores de 65 aos es un intervalo de clase abierto.

Limites reales de clase


El tamao o la amplitud de un intervalo de clase es la diferencia entre los lmites superior e inferior y se le conoce como amplitud, tamao o longitud de clase. Es igual a la diferencia entre los dos lmites. Si las alturas se registran con aproximacin de pulgada, el intervalo de clase 60 - 62 tericamente incluye todas las medidas desde 59,5000... a 62,5000 pulgadas. Estos nmeros, representados brevemente por los nmeros exactos 59,5 y 62,5, se conocen como lmites reales de clase o lmites verdaderos de clase; el menor de ellos, 59,5, es el lmite real inferior y el mayor de ellos, 62,5, es el lmite real superior. Prcticamente, los lmites reales de clase se obtienen sumando al lmite superior de un intervalo de clase el lmite inferior del intervalo de clase contiguo superior y dividiendo por 2. A veces, los lmites reales de clase se utilizan para simbolizar las clases. Por ejemplo, las diferentes clases de la primera columna de la Tabla 1 podran indicarse por 59,5 - 62,5, 62,5 - 65,5, etc. Sin embargo, con tal notacin aparece una ambigedad, pues los lmites reales de clase no coincidiran con las observaciones reales. As si una observacin fuese 62,5 no sera posible discernir si pertenece al intervalo de clase 59,5 - 62,5 o al 62,5 - 65,5.

Tamao del intervalo de clase


El tamao o la amplitud de un intervalo de clase es la diferencia entre los lmites superior e inferior y se le conoce como amplitud, tamao o longitud de clase. Es igual a la diferencia entre los dos lmites.

Marca de clase
La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los lmites inferior y superior de la clase y dividiendo por 2. As, la marca de clase del intervalo 60 - 62 es (60 + 62)/2 = 61. La marca de clase se llama tambin punto medio de la clase.

Para anlisis matemticos posteriores, todas las observaciones pertenecientes a un intervalo de clase dado se suponen coincidentes con la marca de clase. As, todas las alturas en el intervalo de clase 60 - 62 pulgadas se considerarn como de 61 pulgadas.

Histograma y polgonos de frecuencia


Histogramas
Es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los datos. En trminos matemticos, puede ser definida como una funcin inyectiva (o mapeo) que acumula (cuenta) las observaciones que pertenecen a cada subintervalo de una particin. El histograma, como es tradicionalmente entendido, no es ms que la representacin grfica de dicha funcin. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores. Los histogramas son ms frecuentes en ciencias sociales, humanas y econmicas que en ciencias naturales y exactas. Y permite la comparacin de los resultados de un proceso. Tipos de histograma o Diagramas de barras simples Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categora que representa. o Diagramas de barras compuesta Se usa para representar la informacin de una tabla de doble entrada o sea a partir de dos variables, las cuales se representan as; la altura de la barra representa la frecuencia simple de las modalidades o categoras de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad. o Diagramas de barras agrupadas Se usa para representar la informacin de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.

o Polgono de frecuencias Es un grfico de lneas que se usa para presentar las frecuencias absolutas de los valores de una distribucin en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor. o Ojiva porcentual Es un grfico acumulativo, el cual es muy til cuando se quiere representar el rango porcentual de cada valor en una distribucin de frecuencias. Construccin de un histograma o Paso 1 Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor. o Paso 2 Obtener los nmeros de clases, existen varios criterios para determinar el nmero de clases (o barras) -por ejemplo la regla de Sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cmo estn los datos y cuntos sean. Un criterio usado frecuentemente es que el nmero de clases debe ser aproximadamente a la raz cuadrada del nmero de datos. Por ejemplo, la raz cuadrada de 30 ( nmero de artculos) es mayor que cinco, por lo que se seleccionan seis clases. o Paso 3 Establecer la longitud de clase: es igual al rango dividido por el nmero de clases. o Paso 4 Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en relacin al resultado del PASO 2 en intervalos iguales. o Paso 5

Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace un grfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectngulos se obtiene el polgono de frecuencias.

El histograma de una imagen representa la frecuencia relativa de los niveles de gris de la imagen. Las tcnicas de modificacin del histograma de una imagen son tiles para aumentar el contraste de imgenes con histogramas muy concentrados. Sea u una imagen de tamao NxN, la funcin de distribucin del histograma es: Fu(l) = (Numerodepixels(i,j)talesqueu(i,j) < = l) / N2

Ejemplos de otros tipos de representaciones grficas: Hay histogramas donde se agrupan los datos en clases, y se cuenta cuntas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases estn definidas de modo natural, p.e sexo con dos clases: mujer, varn o grupo sanguneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explcitamente (intervalos de clase). Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical). A veces es ms til representar las frecuencias acumuladas. O representar simultneamente los histogramas de una variable en dos situaciones distintas. Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas. En las variables cuantitativas o en las cualitativas ordinales se pueden representar polgonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva. EJEMPLO : A una fabrica de envases de vidrio, un cliente le est exigiendo que la capacidad de cierto tipo de botella sea de13 ml., con una tolerancia de ms menos 1 ml.. La fbrica establece un programa de mejora de calidad para que las botellas que se fabriquen cumplan con los requisitos del cliente.

Clase Intervalo Frecuencia Frec. Relativa 1 11,12 3 0,12 2 12,13 5 0,25 3 13,14 5 0,25 4 14,15 6 0,24 5 15,16 6 0,24 20 1,00

Polgonos de frecuencia
Un grfico hecho uniendo los puntos medios de la cima de las columnas de un histograma de frecuencia. Se utiliza, al igual que el histograma, para representar distribuciones de frecuencias de variables cuantitativas continuas, pero como no se utilizan barras en su confeccin sino segmentos de recta, de ah el nombre de polgono. Habitualmente se usa cuando se quiere mostrar en el mismo grfico ms de una distribucin o una clasificacin cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta, ya que por la forma de construccin del histograma slo se puede representar una distribucin. Para su confeccin, una vez construidas y rotuladas las escalas, de manera similar a como se realiza para un histograma, los valores de alturas obtenidos se plotean sobre el punto medio o marca de clase de los intervalos correspondientes y luego se procede a unir esos puntos con segmentos de recta.

Un polgono de frecuencias se forma uniendo los extremos de las barras de un diagrama de barras mediante segmentos. Tambin se puede realizar trazando los p un to s que representan las f re cue n cias y unindolos mediante segmentos. E j e m p lo Las temperaturas en un da de otoo de una ciudad han sufrido las siguientes variaciones:

Hora 6 9 12 15 18 21 24

Temperatura 7 12 14 11 12 10 8

Polgonos de frecuencia para datos agrupados


Para construir el polgono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectngulo de un histograma. Ejemplo El peso de 65 personas adultas viene dado por la siguiente tabla:

ci [50, 60) [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) 55 65 75 85 95 110 115

fi 8 10 16 14 10 5 2 65

Fi 8 18 34 48 58 63 65

Polgono de frecuencias acumuladas


Si se representan las frecuencias acumuladas de una tabla de datos agrupados se obtiene el histograma de frecuencias acumuladas o su correspondiente polgono.

Distribuciones de frecuencia
La frecuencia relativa de una clase es la frecuencia de la clase dividida por el total de frecuencias de todas las clases y se expresa generalmente como porcentaje. Por ejemplo, la frecuencia relativa de la clase 66 - 68 de la Tabla 1 es 42/100 = 42 %. La suma de las frecuencias relativas de todas las clases es evidentemente 1 100 %. Si las frecuencias en la anterior tabla de frecuencias se sustituyen por las correspondientes frecuencias relativas, la tabla resultante se llama distribucin de frecuencias relativas, distribucin porcentual o tabla de frecuencias relativas. Las representaciones grficas de distribuciones de frecuencia relativa pueden obtenerse del histograma o del polgono de frecuencias, sin ms que cambiar la escala vertical de frecuencia a frecuencia relativa, conservndose exactamente el mismo diagrama. Los grficos que resultan se llaman histogramas de frecuencias relativas o histogramas porcentuales y polgonos de frecuencias relativas o polgonos porcentuales, respectivamente.

Frecuencia absoluta La frecuencia absoluta es el nmero de veces que aparece un determinado valor en un estudio estadstico. Se representa por f i . La su m a d e las fre cue n cias ab so lut as es igual al nmero total de datos, que se representa por N .

Para indicar resumidamente estas sumas se utiliza la letra griega (sigma mayscula) que se lee suma o sumatoria.

Frecuencia relativa La f r e cue n cia re lat iva es el co cie nt e entre la fre cu e n cia ab so lu ta de un determinado valor y el n me ro t ot al d e d at os . Se puede expresar en tantos por ciento y se representa por n i .

La suma de las frecuencias relativas es igual a 1. Frecuencia acumulada La f r e cue n cia acu mulad a es la suma d e las f re cue n cias ab so lut as de todos los va lo r e s inf e rio re s o igu ale s al valo r considerado. Se representa por F i . Frecuencia relativa acumulada La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el nmero total de datos. Se puede expresar en tantos por ciento.

Distribuciones de frecuencia acumulada


La frecuencia total de todos los valores menores que el lmite real superior de clase de un intervalo de clase dado se conoce como frecuencia acumulada hasta ese intervalo de clase inclusive. Por ejemplo, la frecuencia acumulada hasta el intervalo de clase 66 - 68 inclusive en la Tabla 1, es 5 + 18 + 42 = 65, significando que 65 estudiantes tienen alturas menores que 68,5 pulgadas. Una tabla que represente las frecuencias acumuladas se llama distribucin de frecuencias acumuladas, tabla de frecuencias acumuladas o brevemente distribucin acumulada, y se muestra en la Tabla 2, para la distribucin de la altura de los estudiantes. Un grfico que muestre las frecuencias acumuladas menores que cualquier lmite real superior de clase trazado sobre los lmites reales superiores de clase se llama polgono de frecuencias acumuladas u ojiva y se muestra en la Fig. 2-2 para la distribucin de la altura de los estudiantes. En algunos casos es preferible considerar una distribucin de frecuencias acumuladas de todos los valores mayores o iguales al lmite real inferior de clase de cada intervalo de clase. En este caso consideramos las alturas de 59,5 pulgadas o ms, 62,5 pulgadas o ms, etc., sta se llama a veces distribucin acumulada o ms, mientras que la considerada anteriormente es la distribucin acumulada menor que. De la una se obtiene fcilmente la otra. Las correspondientes ojivas se llaman o ms y menor que. Siempre que nos refiramos a distribuciones acumuladas u ojivas sin especificar, se entender que son del tipo menor que.

Distribuciones de frecuencia relativas acumuladas


La frecuencia relativa acumulada o frecuencia porcentual acumulada es la frecuencia acumulada dividida por la frecuencia total. Por ejemplo, la frecuencia relativa acumulada de alturas menores que 68,5 pulgadas es 65/100 = 65 %, queriendo con ello decir que el 65 % de los estudiantes tienen alturas menores de 68,5 pulgadas. Si se utilizan en la Tabla 2, y Fig. 2, las frecuencias relativas acumuladas en lugar de las frecuencias acumuladas, los resultados se llaman distribuciones de frecuencias relativas acumuladas o distribuciones porcentuales acumuladas y polgonos de frecuencias relativas acumuladas u ojivas porcentuales, respectivamente.

_________________________________________________________________________

Medidas de tendencia central


Promedio
El promedio de datos estadstico es conocido como la media aritmtica y para calcularla se suman todas las cifras de la distribucin y se divide entre el nmero de cifras. En cuanto a las variables nominales son aquellas que sirven para nombrar una caracterstica de la muestra pero que no tienen un valor matemtico por ejemplo: el sexo (femenino o masculino), la religin, escolaridad. Las variables cuantitativas son aquellas cuyos valores si tienen un valor numrico. Las discretas son aquellas que utilizan valores enteros y donde se usa el cero absoluto (es decir la ausencia total de la variable) por ejemplo el numero de hermanos. Las continuas son aquellas que toman un valor dentro de un rango por ejemplo la temperatura, la velocidad de un auto etc.

Media
En el mbito de la estadstica, la mediana es el valor de la variable que deja el mismo nmero de datos antes y despus que l, una vez ordenados estos. De acuerdo con esta definicin el conjunto de datos menores o iguales que la mediana representarn el 50% de los datos, y los que sean mayores que la mediana representarn el otro 50% del total de datos de la muestra. La mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil.

Mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales, de forma que el nmero de valores mayor o igual a la mediana es igual al nmero de valores menores o igual a estos. Su aplicacin se ve limitada ya que solo considera el orden jerrquico de los datos y no alguna propiedad propia de los datos, como en el caso de la media. La mediana se puede construir los siguientes criterios:

Lo primero que se requiere es ordenar los datos en forma ascendente o descendente, cualquiera de los dos criterios conduce al mismo resultado.
x1 , x 2 , x3 , , x n

Sean ordenados lo datos en orden ascendente

Si el nmero de valores es impar, la mediana es el valor medio, el cual corresponde xn al dato 2 . Cuando el nmero de valores en el conjunto es par, no existe un solo valor medio, si no que existe dos valores medios, en tal caso, la mediana es el promedio de los valores, es decir, la mediana es numricamente igual a
xn xn Md
2 2 1

Podemos describir algunas propiedades para la mediana: 1.- Es nica. 2.- Es simple. 3.- Los valores extremos no tienen efectos importantes sobre la mediana, lo que si ocurre con la media.

Moda
Es el valor que cuenta con una mayor frecuencia en una distribucin de datos. Una distribucin bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta mxima. Una distribucin trimodal de los datos es en la que encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos que no hay moda. El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con datos agrupados antes de definir la moda, se ha de definir el intervalo modal. La moda, cuando los datos estn agrupados, es un punto que divide al intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que: Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.

_______________________________________________________________

Medidas de dispersin
Dispersin
Medida en la que los datos se dispersan alrededor de un punto central (normalmente la media aritmtica) en una muestra. Las medidas de dispersin, tambin llamadas medidas de variabilidad, muestran la variabilidad de una distribucin, indicando por medio de un nmero, si las diferentes puntuaciones de una variable estn muy alejadas de la media. Cuanto mayor sea ese valor, mayor ser la variabilidad, cuanto menor sea, ms homognea ser a la media. As se sabe si todos los casos son parecidos o varan mucho entre ellos. Para calcular la variabilidad que una distribucin tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmtica. Pero la suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviacin media) y otra es tomando las desviaciones al cuadrado (Varianza).

Rango
Rango estadstico (R) o recorrido estadstico al intervalo de menor tamao que contiene a los datos; es calculable mediante la resta del valor mnimo al valor mximo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersin de los datos. Por ejemplo, para una serie de datos de carcter cuantitativo como es la estatura tal y como: x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155

es posible ordenar los datos como sigue: x(1) = 155,x(2) = 165,x(3) = 170,x(4) = 182,x(5) = 185

donde la notacin x(i) indica que se trata del elemento i-simo de la serie de datos. De este modo, el rango sera la diferencia entre el valor mximo (k) y el mnimo; o, lo que es lo mismo: R = x(k) x(1) En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30.

Desviacin media
La desviacin media es la media de las diferencias en valor absoluto de los valores a la media.

Este valor estadstico no es de mucha utilidad en estadstica debido a que no es fcil manipular dicha funcin al no ser derivable. Siendo ms formales, la desviacin media debera llamarse desviacin absoluta respecto a la media, para evitar confusiones con otra medida de dispersin, la desviacin absoluta respecto a la mediana, DM, cuya frmula es la misma, sustituyendo la media aritmtica por la mediana M. Pero tal precisin no es relevante, porque la desviacin absoluta respecto a la mediana es de uso todava menos frecuente. La desviacin absoluta respecto a la media, Dm, la desviacin absoluta respecto a la mediana, DM, y la desviacin tpica, , de un mismo conjunto de valores verifican la desigualdad:

Siempre ocurre que

donde el Rango es igual a Rango = valor mximo valor mnimo

Dm = 0 cuando los datos son exactamente iguales (e iguales a la media aritmtica) justo slo hay dos valores en los datos, :a,b, y hay exactamente la mitad de datos igual a :a y :b

Rango semiintercuartilico
Rango intercuartlico o rango intercuartil, es la diferencia entre el tercer y el primer cuartil de una distribucin. Es una medida de la dispersin estadstica. A diferencia del rango, se trata de un estadstico robusto. El rango intercuartlico es una medida de variabilidad adecuada cuando la medida de posicin central empleada ha sido la mediana. Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: RQ = Q3 - Q1. A la mitad del rango intercuartil se le conoce como desviacin cuartil (DQ): DQ = RQ/2= (Q3 - Q1)/2. Se usa para construir los diagramas de caja y bigote (box plots) que sirven para visualizar la variabilidad de una variable y comparar distribuciones de la misma variable; adems de ubicar valores extremos

Rango entre percentiles


Devuelve el rango de un valor en un conjunto de datos como un porcentaje del conjunto de datos.

Desviacin tpica
Es una medida de centralizacin o dispersin para variables de razn (ratio o cociente) y de intervalo, de gran utilidad en la estadstica descriptiva. Se define como la raz cuadrada de la varianza. Junto con este valor, la desviacin tpica es una medida (cuadrtica) que informa de la media de distancias que tienen los datos respecto de su media aritmtica, expresada en las mismas unidades que la variable. Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer tambin la desviacin que representan los datos en su distribucin respecto de la media aritmtica de dicha distribucin, con objeto de tener una visin de los mismos ms acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.

desviacin estndar es una medida del grado de dispersin de los datos con respecto al valor promedio. Dicho de otra manera, la desviacin estndar es simplemente el "promedio" o variacin esperada con respecto a la media aritmtica. Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estndar son 8,08, 5,77 y 1,15, respectivamente. La tercera muestra tiene una desviacin mucho menor que las otras dos porque sus valores estn ms cerca de 7. La desviacin estndar puede ser interpretada como una medida de incertidumbre. La desviacin estndar de un grupo repetido de medidas nos da la precisin de stas. Cuando se va a determinar si un grupo de medidas est de acuerdo con el modelo terico, la desviacin estndar de esas medidas es de vital importancia: si la media de las medidas est demasiado alejada de la prediccin (con la distancia medida en desviaciones estndar), entonces consideramos que las medidas contradicen la teora. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el cual sera razonable esperar que ocurrieran si el modelo terico fuera correcto. La desviacin estndar es uno de tres parmetros de ubicacin central; muestra la agrupacin de los datos alrededor de un valor central (la media o promedio).

Varianza
En teora de probabilidad, la varianza o coeficiente de variacin (que suele representarse como 2) de una variable aleatoria es una medida de su dispersin definida como la esperanza del cuadrado de la desviacin de dicha variable respecto a su media. Est medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviacin estndar, la raz cuadrada de la varianza, es una medida de dispersin alternativa expresada en las mismas unidades. Hay que tener en cuenta que la varianza puede verse muy influida por los valores atpicos y se desaconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersin ms robustas. _________________________________________________________________________

Вам также может понравиться