Вы находитесь на странице: 1из 29

MSc.

Marco A Salazar Montecinos

Segundo Tema

Estadística Descriptiva

MSc. Marco A. Salazar

La Paz-2014

1
MSc. Marco A Salazar Montecinos

2
Estadisitica Descriptiva

Competencias a Desarrollar

A la finalización de esta Unidad, usted será capaz de:

Comprende los modelos Estadísticos descriptivos y su aplicación en los


procesos metodológicos de la investigación social en el marco de las Ciencias
de la Educación.
Maneja metodologías y modelos estadísticos en la aplicación Excel
Maneja y aplica herramientas informáticas en la investigación social.

2
MSc. Marco A Salazar Montecinos

1. ¿Qué es una población?

La población o universo es la totalidad de individuos o elementos en las cuales pueden


presentarse determinadas características susceptibles de ser estudiados, los datos
individuales de una población se llaman unidades elementales

La población puede ser según su tamaño de dos tipos:

 Población finita: cuando el número de elementos es finito, por ejemplo el


número de estudiantes de la UMSA, o de una facultad o carrera.
 Población infinita: cuando el número de elementos es infinito, o tan grande
que pudiese considerarse infinitos. Como por ejemplo si se realizase un estudio
sobre los productos disponibles en el mercado, hay tantos y de tantas
cualidades y precios que esta población podría considerarse infinita.

2. ¿Qué es una Muestra?

En términos estadísticos, la muestra es una parte de la población, o sea, un número de


individuos u objetos seleccionados científicamente, cada uno de los cuales es un
elemento del universo. Se obtiene con la finalidad de investigar, a partir del
conocimiento de sus características particulares, las propiedades de la población.

2.1 Se debe garantizar que la muestra sea representativo?

El problema que se puede presentar es garantizar que la muestra sea representativa


de la población, que sea lo más precisa y al mismo tiempo contenga el mínimo de
sesgo posible.

La muestra descansa en el principio de que las partes representan al todo y, por tal,
refleja las características que definen la población de la que fue extraída, lo cual nos
indica que es representativa. Por lo tanto, la validez de la generalización depende de la
validez y tamaño de la muestra.

3
MSc. Marco A Salazar Montecinos

3. ¿Qué es una Variables Estadísticas?


Una variable estadística es una característica de la población de interés y que puede
asumir diferentes valores (x, y,...) por ejemplo precio, cantidad, edades, estaturas,
etc. Si es variable con valores de factores fortuitos ésta se denomina “Variable
aleatoria”.

3.1 Como se Clasificación las variables?

 Variable cualitativa: Son variables cualitativas cuando sus diversas


modalidades no son asociables a un número real; por ejemplo “tipo de
detergente”: ACE, OMO, ABC, ARIEL, etc.

A su vez la variable cualitativa puede clasificarse en: nominal y ordinal:

 Variable cualitativa ordinal: Se caracteriza porque se pueden ordenar


de menor a mayor o viceversa.

Ejemplo:
El grado de satisfacción en el trato con el personal sanitario es una
variable cualitativa ordinal. Sus modalidades podrían ser: muy
satisfecho, satisfecho, poco satisfecho.

 Variable cualitativa nominal: Sus modalidades no se pueden


ordenar.

Ejemplo:
La variable sexo es una variable cualitativa nominal

 Variables cuantitativas: Son aquellas que resultan de adiciones y conteos


(peso, temperatura, número de estudiantes, etc.)

Las variables cuantitativas se clasifican en: discretas y continuas

 Variable discreta.- Son las que resultan del conteo es decir, que toma
valores numéricos enteros y no pueden asumir ningún valor entre 2

4
MSc. Marco A Salazar Montecinos

puntos consecutivos fijados (cuando se habla de variables discretas, se


habla de puntos fijos).

Ejemplo:
La variable “edad de los adolescentes” es una variable cuantitativa
discreta. Toma valores 13, 14, 15 y 16.

 Variable continua.- Son aquellas que pueden tomar infinitos valores


entre 2 números (intervalos), por muy próximos que los fijemos.

Ejemplo:
La variable altura es cuantitativa continua. Puede tomar cualquier valor,
por ejemplo entre, 150 y 200 cm.

4. ¿Qué es un Parámetro?
Es usado para describir alguna característica de una población, para determinar su
valor, es necesario utilizar la información de la población completa y por tanto, las
decisiones se tomarán con certidumbre total. Los más conocidos son:

a) Media Poblacional
b) Varianza Poblacional
c) Proporción Poblacional

5. ¿Qué es un Estadígrafo?
Medida usada para describir alguna característica de la muestra y la toma de
decisiones contiene un grado de incertidumbre, los más usados son:

a) Media Muestral.
b) Varianza Muestral.
c) Proporción Muestral.

RECUERDA QUE:
El Parametro y el Estadígrafo son distintos

5
MSc. Marco A Salazar Montecinos

6. Que es una distribución de frecuencia?


Es un conjunto de puntuaciones ordenadas en sus respectivas categorías

6.1 Que elementos tiene una distribución de frecuencias?

 Frecuencia Absoluta de un dato: ( fi ) La frecuencia absoluta de un valor Xi


de la variable estadística X es el número de veces que aparece repetido dicho
valor en el conjunto de las observaciones realizadas.
 Frecuencia Absoluta Acumulada de un dato ( Fi ): La frecuencia absoluta
acumulada de un valor Xi de la variable estadística X es igual a la suma de los
valores inferiores o iguales a dicho valor para esto los valores X1, ....., Xn
deberán estar ordenados en forma creciente. Así, la frecuencia absoluta
acumulada del último valor será n (el número de observaciones realizadas)

 Frecuencia Relativa.- Se llama frecuencia relativa del valor Xi, al cociente de


la frecuencia absoluta de Xi y el número total de observaciones.

Esta frecuencia se denota por “ hi ”. Entonces.

frecuencia absoluta de Xi fi
hi  
número total de observaciones n

hi se interpreta como la proporción porcentual de una observación respecto al


total de observaciones realizadas.

La importancia de la frecuencia relativa, es que mide el “peso” que tiene cada


frecuencia absoluta respecto al número total de observaciones.

 Frecuencia Relativa Porcentual.- Es la frecuencia relativa hi multiplicada


por 100% (100 hi %) y representa el porcentaje de observaciones al valor de
Xi. Está comprendida entre 0 y 100.
 Frecuencia Relativa Acumulada.- Del valor de Xi es la frecuencia relativa
total de las observaciones menores o iguales a Xi.

6
MSc. Marco A Salazar Montecinos

Valor de la Frecuencia Frecuencia Absoluta Frecuencia Frecuencia relativa


Variable Absoluta acumulada relativa Acumulada
Xi fi Fi hi Hi
X1 n1 F1=n1 h1=n1/N H1=h1
X2 n2 F2=n1+n2 h2=n1/N H2=h1+h2
X3 n3 F3=n1+n2+n3 h3=n3/N H3=h1+h2+h3
.
.
Xm nm Fm=n1+n2..nm hm=nm/N Hm=h1+h2..hm=1

∑ N 1

Tabla : Distribución de frecuencias y Frecuencias Acumuladas

Ejemplo:
Se quiere analizar los promedio de notas de 50 estudiantes de la carrera ciencias de la
educación y se tiene la siguiente distribución
X: promedio de Notas
N:50

Valor de Frecuen Frecuencia Frecuencia Frecuencia relativa Frecuencia Frecuencia


la cia Absoluta relativa Acumulada Relativa Relativa
Variable Absolut acumulada hi Hi Porcentual Acumulada
Xi a Fi hi*100 Hi*100
fi
X1=51 f1=20 F1=20 h1=20/50 = 0,4 H1=0,4 40% 40%

X2=60 f2=15 F2=20+15=35 h2=15/50= 0,3 H2=0,4+0,3=0,7 30% 70%

X4=75 f3=10 F3=20+15+10=4 h3=10/50 =0,2 H3=0,4+0,3+0,2= 20% 90%


5 0,9
X5=80 f4=5 F4=20+15+10+5 H4=5/50=0,1 H4=0,4+0,3+0,2+ 10% 100%
=50 0,1=1

N=50

7
MSc. Marco A Salazar Montecinos

Como resultado se tiene la siguiente distribución de frecuencias


Xi fi Fi hi Hi hi% Hi%
51 20 20 0,4 0,4 40% 40%
60 15 35 0,3 0,7 30% 70%
75 10 45 0,2 0,9 20% 90%
80 5 50 0,1 1 10% 100%

∑ N=50

Para poder ejemplificar se interpretara algunos datos

f2: De un total de 50 estudiantes que hacen el 100% de los estudiantes encuestados,


15 estudiantes tiene un promedio de nota de 60 puntos
F3: De un total de 50 estudiantes que hacen el 100% de los estudiantes encuestados,
45 estudiantes tienen un promedio de nota entre 51 a 75 puntos
h3%: De un total de 50 estudiantes que hacen el 100% de los estudiantes
encuestados un 20 % tienen un promedio de nota de 75 puntos

7. ¿Qué es una medida de tendencia central?

La distribución de frecuencias, tal como hemos estudiado anteriormente, no solo es un


resumen de los datos observados , también ella nos muestra la forma en que se
distribuye la Población; cada uno de los valores incluidos en la tabla de distribución de
frecuencias , proporciona una información estadística. De manera que se tiene un
conjunto de datos estadísticos descriptivos, ya que cada uno de ellos nos describen la
densidad de observaciones que caen en una clase o varias clases. Sin embargo,
frecuentemente se necesita tener una sola medida que describa la naturaleza de los
datos en su conjunto, es decir un numero simple que a su vez sea “Representativo” de
todos las observaciones.

7.1 ¿Qué significa Representativo?


Representativo significa, que el número debe reflejar la tendencia de los valores
individuales que están distribuidos alrededor de cierto valor central. Es obvio que el
valor más representativo para un conjunto de números normalmente no es el valor

8
MSc. Marco A Salazar Montecinos

mas pequeño ni el mas grande, sino que es un numero cuyo valor esta en algún punto
intermedio del grupo. Por esta razón un numero representativo es aquel que indica una
medida de tendencia central conocido comúnmente como promedio.

Un Promedio es un valor, que es típico o representativo de un conjunto de datos.


Como tales valores tienden a sustituirse en el centro del conjunto de datos ordenados
según su magnitud, los promedios se conocen también como medidas de
centralización.

Se pueden definir varios tipos de medidas de centralización, las mas comunes son la
media aritmética o brevemente la media, la mediana, la moda, la media geométrica y
la media armónica.

RECUERDA QUE:
Representativo significa, que el número debe reflejar la
tendencia de los valores individuales que están distribuidos
alrededor de cierto valor central

7.2 Media aritmética


La medida de tendencia central mas atril y la mas usada es la “media aritmética ” que
algunas veces se la llama simplemente “media ” o “promedio”.
Definición: La media aritmética es la suma de todos los valores observados dividido
por el numero de observaciones. Si X1, X2,……..,Xn son los valores observados de una
muestra , entonces la media aritmética esta dada por:
Caso a)

 X
N
___
X  X 2  X 3  ...  X N XJ
X  1  J 1

N N N

Media Aritmética calculada a partir de datos agrupados.- Si los datos se


presentan mediante una distribución de frecuencia, la media aritmética es:

9
MSc. Marco A Salazar Montecinos

Caso b)

  fX
N
___
f X  f 2 X 2  f 3 X 3  ...  f N X N fJ X J
X  1 1  J 1

N N N
Caso c)

X
 ( Mci ) f i
, donde:
N

Mci = marca de clase de la i-esima clase

f i = frecuencia de la i-esima clase

7.3 Media Geométrica

Definición.- La media geométrica se define como la raíz enésima del producto de los
n valores observados, o sea; Cuando los datos no están agrupados
Si tiene una distribución de frecuencias, entonces

Caso a)

X
ni
G(X)= n x1 x 2 x3 ......x n = n i
i 1

Donde m es el número de valores distintos que toma la variable.

Cuando el número de observaciones es mayor que dos, se puede transformar las


formulas anteriores mediante la aplicación de logaritmos decimales, ó sea:

10
MSc. Marco A Salazar Montecinos

Caso b)

1 n
Log G(X)=  log xi
n i 1

1 n
Log G(x)=  f i log xi
n i 1

Ejemplo

Calcular la media geométrica para datos agrupados

xi fi Log xi fi*Log xi
3 2 0,47712 0,95424
4 3 0,60206 1,80618
5 2 0,69897 1,39794
6 2 0,77815 1,55630
7 1 0,84510 0,84510

1
De manera que log G(X) = (6,55976)  0,655976
10
Luego G(X)= 4,53

7.4 Media Armónica

Definición: La media Armónica de una serie de valores x1,x2,…..,xn , se define como el


reciproco de la media aritmética de los recíprocos de los valores observados. Así datos
sin agrupar, se tiene.

1 1 n
H(x)=  =
1 / x1  1 / x2  ....  1 / xn n

1/ x n
1/ x
n i 1

11
MSc. Marco A Salazar Montecinos

Y para datos agrupados


1 n
H(x)=  n
= m
1 f

i 1 xi
fi  i
i 1 xi

Ejemplo

Calcular la media Armónica para datos agrupados

xi fi f/x
3 2 0,67
4 3 0,75
5 2 0,40
6 2 0,33
7 1 0,14

 10 2,29

10
H(x)=  4,36
2,29

De la misma manera que la media aritmética y la media geométrica, la media


armónica es también afectada por los valores de cada elemento observado. La media
aritmética es también afectada por los valores de cada elemento observado. La media
aritmética es la más afectada por los valores extremos, que la media geométrica, y
esta a su vez es más afectada que la media armónica.
Las magnitudes de las tres diferentes medidas para los mismos datos, tienen la
siguiente relación.

12
MSc. Marco A Salazar Montecinos

M ( x)  G ( x)  H ( x)
Si observamos los resultados de los ejemplos se tiene lo siguiente
M ( x)  4,7  G( x)  4,53  H ( x)  4,36

La media armónica se usa mas para promediar principalmente razones. Ejemplo


velocidades, tiempos promedio de trabajo, etc.

9. REFLEXIONA
Es importante analizar la siguiente relación
M ( x)  G( x)  H ( x)

7.5 Media Cuadrática

Definición: La media cuadrática de n valores se define como la raíz cuadrada de la


media aritmética de los cuadrados de las observaciones.

Para datos sin agrupar se tiene.


n

x 2
i
Mc( x)  i 1

Y para datos agrupados


n

x 2
i fi
Mc( x)  i 1

13
MSc. Marco A Salazar Montecinos

xi fi x^2 (x^2)f
3 2 9 18
4 3 16 48
5 2 25 50
6 2 36 72
7 1 49 49
237

237
Mc(x)=  23,7 =4,87
10

7.6 Mediana

Hemos visto que las medidas anteriores están influenciadas particularmente por los
valores de las observaciones. De esta manera, cuando hay valores extremos,
generalmente la media no es una buena medida , así por ejemplo , si la producción
diaria de un obrero es normal durante 4 días de la semana y el 5º día tiene
rendimiento nulo su rendimiento medio desciende considerablemente. Esta influencia
profunda de los valores extremos sobre la media aritmética , implica que este
promedio frecuente no proporcione una media significativa de la tendencia central, es
decir , que indique un punto cercano a aquel en que la mayor parte de los elementos
están localizados, si la distribución es marcadamente oblicua, En este casos a menudo
se utiliza otro tipo de media que no esta influenciado por los valores extremos, o sea
que es un valor que esta situado en el centro del numero de datos. Esta medida recibe
el nombre de mediana.

Definición
La mediana (Me) es un valor de las observaciones que divide en dos partes iguales al
numero total de observaciones cuando estos están ordenados de acuerdo a sus
valores.

14
MSc. Marco A Salazar Montecinos

Es decir que cuando la serie de observaciones esta ordenada según sus valores, la
mediana es un valor observado, tal que antes y después de este valor , hay el mismo
numero de observaciones .

Ejemplo
Supongamos que se tienen los siguientes valores: 4,5,8,2,7,2,3 , Previamente se los
ordena, 2,2,3,4,5,7,8 , la media es 4 . Ya que antes del 4 hay 3 observaciones,
igualmente hay observaciones por encima del 4.

Ejemplo

Se tiene los siguientes valores 3,4,6,7,7,8, no hay un valor observado que satisfaga
plenamente la definición de mediana. En este caso, podría ser cualquier valor
promedio entre 6 y 7, pero en la practica , se usa el punto medio de entre los dos
67
valores centrales , por tanto, la mediana será Me   6,5
2
La característica típica de la mediana es que divide al conjunto de observaciones en
dos partes iguales, es decir que el 50% de las observaciones tienen valores menores
que la mediana, y el otro 50% de las observaciones tienen valores mayores. En cierto
sentido, la mediana es también un punto de equilibrio, puesto que balancea al número
de elementos de la serie estadística.

Hasta aquí únicamente nos hemos referido a la determinación de la mediana, cuando


los datos no están agrupados , Ahora nos toca ver como se calculara en el caso de
tener una distribución de frecuencias , cuando la clase es única y cuando se tienen
intervalos de clase.

1) Cuando la clase es única: se Fj la j-esima frecuencia absoluta acumulada


n
inmediata superior a , entonces ;
2

15
MSc. Marco A Salazar Montecinos

n
a) si  F j 1  M e  X j
2
n X j 1  X j
b) si  F j 1  M e 
2 2

Donde X j yX j 1 son los valores j-esimo y (j-1)-esimo las Fj y Fj-1

respectivamente.
n
Entonces, para calcular la mediana se debe determinar previamente , y luego ver
2
si este valor es menor o igual que una j-esima frecuencia acumulada, y luego
seguir la regla.

Ejemplo: hallar la Mediana de los siguientes datos

Calificación fi Fi
10 4 4
20 6 10
30 11 21
40 12 33
50 8 41
60 7 48
70 2 50
50

Solución
n 50
Se tiene =  25 es un valor que esta comprendido entre 21 y 33 de las
2 2
n
frecuencias acumuladas , es decir 21<25<33 lo que significa F j 1   Fj
2
n
Entonces, como 25 >21 , o sea  F j 1 , se tiene Me= x j , en consecuencia Me=40
2

16
MSc. Marco A Salazar Montecinos

2) Cuando se tienen intervalos de clase: Bajo los mismos supuestos del caso (1) la
mediana se obtiene como sigue:

n
F j 1
n
a) Si  F j 1  Me  x j 1  c j 2
2 F j  F j 1

n
b) Si  F j 1  Me  x j 1
2
Donde c j es el tamaño del intervalo de clase

Ejemplo

Hallar la Mediana de la siguiente distribución de frecuencias de salarios semanales


de 100 obreros

Intervalos de
Clase fi Fi
280-295 4 4
295-310 5 9
310-325 10 19
325-340 9 28
340-355 13 41
355-370 15 56
370-385 18 74
385-400 12 86
400-415 8 94
415-430 6 100
100

Hay 100 obreros en las distribución, la media debe ser al final del 50 avo elemento

en la distribución, entonces F j =56 y F j 1 = 41, luego Me = 355+d

17
MSc. Marco A Salazar Montecinos

Como cj = 15 , entonces , aplicando el calculo de d tenemos


50  41
d= 15 9
56  41
entonces Me = 355 + 9 = 364

7.7. Moda

Es otra medida de tendencia central, es la moda o valor modal , que se define


como sigue.

Definición: La moda es un valor distinto observado de una serie estadística que se


repite más veces.

De esta manera, el valor modal es el valor más frecuente en una serie de datos. Es
evidente que la moda nos siempre estará en el centro, sino que, como ocurre a
menudo, puede ser un valor extremo.

La moda para datos no agrupados de unos pocos valores puede obtenerse por
simple inspección, así por ejemplo, si tenemos las series:

2,2,5,7,9,9,9,9,11,12 : la moda es Mo =9
3,5,8,10,12,15,16 : No existe la moda
2,3,4,4,4,5,5,7,7,7,9: Tiene dos modas, o sea Mo= 4 o 7

Cuando hay dos modas se dice binodal, y en el caso de existir mas de dos, se
conoce con el nombre de multimodal.
Si se tienen datos agrupados, tal que los valores de la clase son únicos, entonces la
moda, es obvio que sea la que tiene mayor frecuencia.

Cunado se tiene una distribución de frecuencias con intervalos de la clase, la moda


se determina por interpolación, es decir

18
MSc. Marco A Salazar Montecinos

d1
Mo= x j 1 + ( )c
d1  d 2

Donde x j 1 = limite inferior de la clase modal ( O sea el intervalo que tiene mayor

frecuencia)

d 1 = diferencia entre la frecuencia de la clase modal y la frecuencias premodal

d 2 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase

post modal

c = Tamaño del intervalo de la clase modal.

Ejemplo: Determinar la Moda de los siguientes datos

Intervalos de
Clase fi Fi
280-295 4 4
295-310 5 9
310-325 10 19
325-340 9 28
340-355 13 41
355-370 15 56
370-385 18 74
385-400 12 86
400-415 8 94
415-430 6 100
100

19
MSc. Marco A Salazar Montecinos

Solución:
La clase modal es 370-385 ya que en este intervalo hay el mayor número de
observaciones, entonces

x j 1 = 370

d1=18-15=3
d2=18-12=6
c=15

Ahora aplicando la formula tenemos


6
Mo= 370+ *15  375$
3 6

Hagamos una observación importante: si se toma directamente la información


original , hay valores de los ingresos que se repiten mas veces que 375, así por
ejemplo , el 380 se repite 7 veces , mientras que 275 solamente 5.

8. Medidas de posición

Ayudan a localizar el valor de la variable que acumula cierto porcentaje específico de


datos.

Cuartiles(Q): Encuentran el valor acumulado al 25%, 50% y 75% respectivamente.

Deciles (D): Representan el 10%, 20%, ... , 90% de los datos acumulados
respectivamente.

Percentiles(P): Representan el 1%, 2%, ... , 99% de los datos acumulados


respectivamente.

Cada cuantil delimita dos regiones:

 El p% de datos de menor valor (acumulados a la izquierda del cuantil C)


 El (1-p)% de datos de mayor valor (acumulados a la derecha del cuantil C).

Datos No Agrupados:

En los datos ordenados: se debe calcular la posición mediante la fórmula:

20
MSc. Marco A Salazar Montecinos

j * ( n  1)
Posición 
r
donde :
j  Número de cuantil que se desea obtener
r  p uede ser 4, 10 o 100 dep ende del cuantil
que se desee obtener
n  número de datos

Después de calcular la posición se utiliza la siguiente fórmula para encontrar el cuantil


deseado:

dato menor  (dato mayor - dato menor) * fracción de la posición

Ejemplo:

Dados los números 3, 5, 7, 36, 45; obtener el número que represente al 75% de los
datos.

Solución:

Primer paso: Primero obtienes la posición

n=5
j = 75
r = 100

75 * (5  1)
 4.5
100

Segundo Paso: Identificamos que números están en la cuarta y quinta posición, es


decir el 36 y el 45

Tercer paso: Aplicamos la fórmula:

36  (45  36) * 0.5  40.5

Es decir, el número que representa al 75% de los datos es el 40.5

Datos Agrupados:

Primero calculamos la posición como en los datos no agrupados, después buscamos la


primer fa  posición , y aplicamos la siguiente formula:

21
MSc. Marco A Salazar Montecinos

Posición de la mediana

. Frecuencia acumulada anterior


al renglón seleccionado
  j * n  1  
   fa anterior 
C = FI +    *i
r Tamaño de intervalo del renglón seleccionado
 f 
 
 
Frontera Frecuencia del renglón seleccionado
inferior

Ejemplo

Encontrar el cuartil 3 de la siguiente tabla

Fronteras Frecuenci Fa
a
100 - 200 389 389
200- 300 258 647
300 - 400 452 1099

  j * n  1     3 * (1099  1)  
   fa anterior     647 
C = FI +     * i  300      * 100  339.3805
r 4
 f   452 
   
   

9. Medidas de forma

Proporcionan un valor numérico para saber hacia qué lado de la distribución hay mayor
acumulación de frecuencias y si la concentración central de frecuencias es mayor que
en los extremos o viceversa sin tener que graficar los datos.

22
MSc. Marco A Salazar Montecinos

9.1 Momento Respecto de la Media: El r-ésimo momento respecto a la media


aritmética es:

 Datos No Agrupados:

 x  x
n
r
i
mr  i 1

 Datos Agrupados:

 f x  x
n
r
i i
mr  i 1

El primer momento respecto a la media (r=1) siempre es igual a cero.


El segundo momento respecto a la media (r=2) es la varianza poblacional.

9.2 Sesgo: Es el grado de asimetría que tiene la distribución. La distribución puede


ser:

 Insesgada: Si tiene forma de campana y el área acumulada del centro de la


distribución a la derecha es igual a la que se acumula a la izquierda.

Moda=Mediana=Media
Insesgada

 Con sesgo positivo o a la derecha: Si tiene la mayor acumulación de


frecuencias a la izquierda y una cola larga a la derecha.

Sesgo Positivo (a la derecha)


Moda

Mediana
Media

23
MSc. Marco A Salazar Montecinos

 Con sesgo negativo o a la izquierda: Si la mayor acumulación está a la


derecha y tiene una cola larga a la izquierda.

Sesgo Negativo (a la izquierda)


Moda

Mediana

Media

9.2.1 Coeficiente Momento de Sesgo ( a 3 ): se calcula dividiendo el tercer momento


respecto a la media entre la desviación estándar al cubo:

Datos No Agrupados:

 x  x
n
3
i
m3
a3   i 1

S3 ns 3

Datos Agrupados:

 f x  x
k
3
i i
m3
a3   i1

S3 ns3

Coeficiente Sesgo
momento de sesgo
a3 = 0 No hay sesgo. La distribución
es insesgada
a3 > 0 La distribución tiene sesgo
positivo o a la derecha.
a3 < 0 La distribución tiene sesgo
negativo o a la izquierda.

24
MSc. Marco A Salazar Montecinos

9.3 Curtosis: Mide qué tan puntiaguda es una distribución, con respecto a la Normal.
La distribución puede ser:

 Mesocúrtica: solo la distribución Normal (es el término medio).

 Leptocúrticas: Las distribuciones más puntiagudas que la Normal.

 Platocúrticas: Las distribuciones menos puntiagudas que la Normal.

Lept ocúrt ica

M esocúrt ica

Plat ocúrt ica

9.3.1 Coeficiente momento de curtosis ( a 4 ): se calcula dividiendo el cuarto


momento respecto a la media entre la varianza al cuadrado (o la desviación estándar a
la cuarta).

Datos No Agrupados:

 x  x
n
4
i
m4
a4   i 1

S4 ns 3

Datos Agrupados:

 f x  x
k
4
i i
m4
a4   i1

S4 ns 4

Coeficiente Curtosis
momento de
curtosis
a4 = 3 La distribución es Mesocúrtica.
a4 > 3 La distribución es Leptocúrtica.
a4 < 3 La distribución es Platocúrtica.
25
MSc. Marco A Salazar Montecinos

10. Estadígrafos de dispersión

Los estadígrafos de dispersión como su nombre indica, miden la dispersión de los datos
de la muestra.

Dos conjuntos de datos pueden tener la misma localización central, y no obstante ser
muy diferentes, si uno está más disperso que el otro. Así, en los dos ejemplos
siguientes (las unidades están en cm.):

a. 9, 10, 11, 12, 13, 14, 15.


b. 6, 8, 10, 12, 14, 16, 18.

En ambos casos la media aritmética x = 12 cm. y la mediana Me = 12 cm.

Es decir, tienen la misma media y la misma mediana y sin embargo, no se necesita


mucho esfuerzo para darse cuenta que son muestras significativamente diferentes.

Las dispersiones se clasifican en dos grupos:


 Absolutas: Es imprescindible utilizarlas con un promedio. Tienen el inconveniente
que no permite comparaciones entre distribuciones heterogéneas.
 Relativa: Tienen significado propio y se utilizan para comparar promedios de
distintas distribuciones. Se obtienen por cocientes entre magnitudes de la
misma dimensión, por lo que sus valores son adimensionales, o que permite
comparaciones entre distribuciones heterogéneas.

10.1 La Varianza.- La varianza de una muestra x1, x2…..x n , de una variable o

característica x “V(x) ”, se define como la media del cuadrado de las desviaciones de


las observaciones con respecto de la media aritmética de esos datos.
Datos no agrupados
n

 (x
i 1
i  x) 2
V(x)=
n

26
MSc. Marco A Salazar Montecinos

Datos agrupados
n

 (x
i 1
i  x) 2 f i
V(x)=
n
Ó
n

x
2
i fi
V(x)= i 1
 x2
n

10.2 Desviación estándar (típica).- La desviación Standard de la variable X,


respecto a su media aritmética se calcula extrayendo la raíz cuadrada del valor de la
varianza:
n

 (x
i 1
i  x) 2
Sx =
n

Las expresiones anteriores muestran que mientras mayor sea la dispersión de las
observaciones, mayor será la magnitud de sus desviaciones respecto a la media, y
más alto el valor numérico de la desviación Standard.

9.3 Dispersiones relativas

Las medidas de variabilidad absolutas como las que acabamos de ver, no siempre son
posibles de utilizar, por ejemplo, para comparar dos conjuntos de valores sobre todo si
estos tienen distintas unidades de medida por esto, en muchos problemas una medida
de variabilidad relativa para distribuciones de frecuencia suele ser mas significativo
que la variabilidad absoluta.

Si dos conjuntos de valores se están comparando, los valores absolutos son


convenientes solamente cuando los promedios de los dos conjuntos son
aproximadamente del mismo tamaño y las unidades de medida son idénticos.
Efectivamente la comparación de dos diferentes unidades de medida, tales como
numero de libros comparados con el numero de horas de viaje, no tienen sentido de

27
MSc. Marco A Salazar Montecinos

dispersión basados en los valores absolutos de los diferentes conjuntos suele ser aun
mas difícil.

Coeficiente de variación
s
CV = *100
x
Donde s es la desviación Standard y x es la media aritmética de un mismo conjunto
de observaciones.

Ejemplo:
El ingreso medio mensual de cierto grupo de trabajadores adultos es de 1875 Bs. Con
una desviación estándar de 285 Bs., en tanto que el ingreso mensual de trabajadores
voceadores para el grupo del mismo tamaño, es 315 Bs. , con una desviación
estándar de 80 Bs, ¿cuál de los ingresos tiene mayor variabilidad?

Solución
Se tiene los siguientes Datos:
Sa=285
Xa=1875
Sv=80
Xv=315
Aplicando la relación se tiene

CVa= 285/1875 = 0,152 y CVv=80/315 = 0,254

Convirtiendo los resultados en porcentaje , tenemos


CVa = 15,2 % CVv=25,4%
Podemos concluir que el ingresos de los voceadores tiene mayor variabilidad
que el de los trabajadores adultos.

28
MSc. Marco A Salazar Montecinos

1. Bibliografía

 Macro (2003) Aplicación estadística con SPSS. Rafael Juan Cherre


 ESIC Editorial (2002) , Estadística Descriptiva Santiago Fernandez Fernandez ,Jose
Maria Cordero Sanches - Segunda edición
 Editorial Reverte S.A.(2005), Introducción a la estadística Sheldon M ROSS -
Segunda Edición
 Universidad Nacional de la Plata (1995), Probabilidad y Estadística Elementos para
Estudiantes de Ciencias Ricardo A. Maronna
 Universidad de Jaen (2010),Métodos Estadísticos con Ry R Commander Dr. Antonio
Jose Saez Castillo - Segunda edición
 Universidad de la Republica Regional Norte Sede salto (2000), Curso de Estadistica
Basica - , Luis Salvarrey , Primera Edición

29

Вам также может понравиться