Академический Документы
Профессиональный Документы
Культура Документы
Medidas Descriptivas
Para condensar y describir los datos se utilizan las medidas de
Tendencia central , las medidas de dispersión y las medidas de
Asimetría y forma.
En una curva simétrica una línea vertical que pase por el punto más alto de la curva divide
el área en dos partes iguales.
En una curva sesgada los valores de su distribución de frecuencias están concentrados en
el extremo inferior o en el superior de la escalad e medición horizontal
Medidas Descriptivas
Y Posición
• Cuartiles • Coeficiente de
• Deciles Variación
• Percentiles
Tendencia Central o de Posición
Media aritmética
Media geométrica
Media armónica
Media Aritmética o Promedio
X
i 1
N
i
( Población)
Para un conjunto de datos x1 ………xn, de una muestra, en su
forma no agrupada, la media aritmética se obtiene sumando todas
las observaciones del conjunto de datos y se divide por el número
total de observaciones de la muestra :
x i
x i 1
n
( Muestra)
Recordando el concepto de datos agrupados…..
f X
A
TOTALES i i fi
i 1 i 1
m
X i fi
Para la población i 1
m
i 1
fi
X i fi
Para la muestra X i 1
m
i 1
fi
Así, dados los números a1,a2, ... , an, (NO AGRUPADOS) la media
armónica será igual a:
m
f
i 1
i
M . Armónica
m 1
* fi
i 1 X i
MGeometrica ( X1 f i ) * ( X 2 f 2 ) * ........( X m f m )
OTROS TIPOS DE MEDIA
1
X ( X 1 X 2 X 3 ........ X n )
n1 n2 n3 nn n
Por ejemplo, la media geométrica de 2 y 18 es
Desventajas:
o:
• No presentan el problema de estar influido por los valores extremos, pero en cambio
no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor
por el número de veces que se ha repetido).
CALCULO DE LA MEDIANA
d1
Mo LRI * cr
(d1 d 2
LRI: Límite real inferior de la clase modal
d1: frecuencia de la clase modal menos la frecuencia de la clase
que se encuentra inmediatamente por debajo de ella.
d2: frecuencia de la clase modal menos la frecuencia de la clase
que está por encima de ella
Cr: ancho del intervalo modal
De acuerdo al número de modas de un conjunto
de datos se pueden dar los siguientes casos:
UNIMODAL
BIMODAL
MULTIMODAL
Ventajas y desventajas de la moda:
•La moda, al igual que la mediana, se puede utilizar como una posición central para datos
tanto cualitativos como cuantitativos.
•También, al igual que la mediana, la moda no se ve mayormente afectada por los valores
extremos. Incluso si los valores extremos son muy altos o muy bajos, se escoge el valor
más frecuente del conjunto de datos como el valor modal.
•Se puede utilizar la moda sin importar qué tan grandes o qué tan pequeños sean los
valores del conjunto de datos, e independientemente de cuál sea su dispersión.
•Se puede utilizar aun cuando una o más clases sean de extremo abierto.
•Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene
valores que se presenten más de una vez.
•En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo
número de veces.
Cuando los datos contienen dos, tres o más modas, resultan difíciles de
• interpretar y comparar.
¿Cuál medida de tendencia central se debe utilizar?
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil
es precisamente la mediana. El primer cuartil, es el valor en el cual o por
debajo del cual queda un cuarto (25%) de todos los valores de la
sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo
del cual quedan las tres cuartas partes (75%) de los datos.
Y Posición
• Rango
• Desviación Típica
• Varianza
• Coeficiente de Variación
Importancia de la dispersión
N
2
(Xi )
2 i 1
Población N
(X i X) 2
2 i 1
Muestra S n 1
Cálculo de Desviación Estándar Datos No Agrupados
N
(X i ) 2
Población i 1
N
(X i X) 2
Muestra S i 1
n 1
Ecuaciones para el cálculo de la
varianza y la desviación estándar para
datos agrupados
SIMBOLOGIA
ESTADISTICAS POBLACION MUESTRA
DESCRIPTIVAS
VARIANZA
2 2
S
DESVIACION
STANDARD
S
Para un conjunto de datos de una población que se agrupa en una distribución de frecuencias
CLASES MC (Xi) fi ( X i ) ( X i ) fi
2 2
1 X1 f1 ( X 1 ) ( X 1 ) f1
2 2
2 X2 f2 ( X 2 ) 2
( X 2 ) 2
f2
3 X3 f3 ( X 3 )2 ( X 3 )2 f3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
m Xm fm . .
m m
Totales f
i 1
i (X
i 1
i ) f i
2
DE LOS DATOS DE LA TABLA ANTERIOR SE
OBTIENE EL CALCULO DE LA VARIANZA DE LA
POBLACION POR LA EXPRESION:
m
2
( Xi ) fi
2
i 1
m
f
i 1 i
CALCULO DE LA DESVIACION ESTANDAR
DE LA POBLACION
m 2
(Xi ) fi
i 1
m
f
i 1 i
Para una muestra
CLASES MC (Xi) fi ( X i X ) ( X i X ) fi
2 2
1 X1 f1 ( X1 X ) ( X1 X ) f1
2 2
2 X2 f2 ( X 2 X ) ( X 2 X ) f2
2 2
3 X3 f3 ( X 3 X )2 ( X 3 X )2 f3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
m Xm fm . .
m m
Totales f
i 1
i (X
i 1
i X ) f i
2
CALCULO DE LA VARIANZA DE LA MUESTRA
m
2
( xi x ) fi
2
m
i 1
S f 1 n 1
i 1 i
¿Por qué utilizamos n – 1 como denominador en lugar de n? Los especialistas en
estadística pueden demostrar que si tomamos muchas muestras de una población dada, si
encontramos la varianza de la muestra para cada muestra y promediamos los resultados,
entonces este promedio no tiende a tomar el valor de la varianza de la población, a menos
que tomemos n – 1 como denominador de los cálculos.
CALCULO DE LA DESVIACION ESTANDAR
DE LA MUESTRA
m 2
( xi x ) fi
S i 1
m
f 1
i 1 i
Usos de la desviación estándar
Teorema de Chebyshev
La desviación estándar nos permite determinar, con un buen
grado de precisión, dónde están localizados los valores de una
distribución de frecuencias con relación a la media. El
teorema de Chebyshev dice que no importa qué forma tenga la
distribución, al menos 75% de los valores caen dentro de + 2
desviaciones estándar a partir de la media de la distribución, y
al menos 89% de los valores caen dentro de + 3 desviaciones
estándar a partir de la media.
Pgs 81 y 82 lind marchalwatten
Para distribuciones simétricas:
Teorema de la Normal
Aproximadamente 68% de los valores de la población cae
dentro de + 1 desviación estándar a partir de la media.
Aproximadamente 95% de los valores estará dentro de + 2
desviaciones estándar a partir de la media.
Aproximadamente 99% de los valores estará en el intervalo
que va desde tres desviaciones estándar por debajo de la
media hasta tres desviaciones estándar por arriba de la media.
Coeficiente de Variación
Es una medida relativa de dispersión, en la cual se expresa la
desviación estándar como un porcentaje de la media.
Resulta útil al comparar la cantidad de variación en grupos de
datos que posean medias diferentes.
Se calcula como cociente entre la desviación típica y la media.
El interés del coeficiente de variación es que al ser un
porcentaje permite comparar el nivel de dispersión de dos
muestras. Esto no ocurre con la desviación típica, ya que viene
expresada en las mismas unidades que los datos de la serie.
Por ejemplo, para comparar el nivel de dispersión de una serie
de datos de la altura de los alumnos de una clase y otra serie
con el peso de dichos alumnos, no se puede utilizar las
desviaciones típicas (una viene expresada en cm y la otra en
kg). En cambio, sus coeficientes de variación son ambos
porcentajes, por lo que sí se pueden comparar.
Coeficiente de variación
Lo que necesitamos es una medida relativa que nos proporcione una estimación de la
magnitud de la desviación con respecto a la magnitud de la media. El coeficiente de
variación es una de estas medidas relativas de dispersión. Se relaciona la desviación
estándar y la media, expresando la desviación estándar como porcentaje de la media.
Coeficiente de variación
• Es la razón entre la desviación típica y la media.
S
– Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media” CV
– También se la denomina variabilidad relativa.
– Es frecuente mostrarla en porcentajes
x
• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)
S
PARA LA MUESTRA cv
X
ESTADISTICAS POBLACION MUESTRA
DESCRIPTIVAS
MEDIA
x
VARIANZA
2 2
S
DESVIACION
STANDARD
S
COEFICIENTE
DE VARIACION
CV cv
Otras Medidas de Dispersión
• Miden el grado de dispersión (variabilidad)
de los datos, independientemente de su causa.
0.75
0.5
0.25
Recorrido o rango
intercuartílico
0
P25 P50 P75 x
Q1 Q2 Q3
mediana
Medidas de forma: Grado de concentración
Las medidas de forma permiten conocer que forma tiene la curva que representa la
serie de datos de la muestra. Forma es el patrón de distribución de los valores de los
datos a través del rango de todos los valores.
La distribución puede ser simétrica cuando los valores pequeños y grandes se equilibran
entre si. Puede ser asimétrica cuando muestra un desequilibrio entre los valores
pequeños y grandes.
Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de
la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda
son similares.
Las curvas simétricas, tienen una forma tal que una línea vertical que pase por
el punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cada
parte es una imagen espejo de la otra.
g2 = 0 (distribución mesocúrtica)
.
g2 > 0 (distribución leptocúrtica)
.
g2 < 0 (distribución platicúrtica
300
400
160
140
300
200
120
100 200
100
80
Frecuencia
100
Frecuencia
60
0
40 0
27 37 45 53 61 69 77 85 93
45 48 51 54 57 60 63 66 69 72 75 78 81 84 3 27 37 47 57 67 77 87 97 108
32 41 49 57 65 73 81 89 99
16 32 42 52 62 72 82 92 102 138
Platicúrtica
Mesocúrtica
Leptocúrtica
¿Cómo seleccionar una medida de tendencia que represente los datos?
En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda
todavía se encuentra en el punto más alto de la distribución, la mediana está hacia la
derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la
mediana.
En una distribución negativamente sesgada, la moda sigue siendo el punto más alto de la
distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía más
a la izquierda de la moda y la mediana.
Resumiendo