Вы находитесь на странице: 1из 47

ESTADSTICA DESCRIPTIVA

Mtodos Estadsticos Aplicados a las Auditoras Sociolaborales


Francisco lvarez Gonzlez francisco.alvarez@uca.es

Bajo el trmino Estadstica Descriptiva se engloban las tcnicas que nos permitirn realizar un anlisis elemental de las observaciones experimentales observadas. Se subdivide en dos bloques : 1 2 Estadstica primaria : Obtenido un grupo de observaciones experimentales, este apartado nos ensea a ordenarlas adecuadamente, de modo que se ofrezca una informacin lo ms clara posible. Estadstica derivada o secundaria : Con los datos observados realizaremos ciertos clculos, obteniendo as unas medidas. Este bloque temtico nos ensea a interpretarlas.

PROCEDIMIENTO A SEGUIR EN UN ESTUDIO ESTADSTICO.


El proceso seguido en el estudio estadstico de una cierta caracterstica o variable, puede subdividirse en tres pasos sucesivos :

A B C

RECOGIDA DE DATOS : Planteado el test o encuesta oportuno y recogidos los datos que correspondan, el primer anlisis que realizaremos es el del tipo de variable que pretendemos estudiar (Cualitativa o Cuantitativa ; Discreta o Continua). Esto condicionar en gran medida su posterior tratamiento. ORGANIZACIN DE LOS DATOS : Determinado el modo de agrupamiento de las observaciones, procedemos a su recuento, construyendo la tabla de frecuencias. Posteriormente podremos visualizar tales frecuencias de forma grfica con el diagrama estadstico apropiado. ANLISIS FINAL : La obtencin de muy diversas conclusiones respecto de la variable estudiada, se podr realizar con auxilio de los diferentes parmetros estadsticos (de centralizacin , posicin , dispersin , etc.)

VARIABLES ESTADSTICAS. CLASIFICACIN.


El aspecto que deseamos estudiar (edad, sexo, peso, ...) recibe el nombre de VARIABLE ESTADSTICA. A lo largo de esta unidad observaremos, que las tcnicas estadsticas a seguir sern diferentes segn el tipo de variable objeto de estudio. La clasificacin ms tradicional de las variables estadsticas es la siguiente :

CUALITATIVAS
Los valores de las observaciones quedan expresados por caractersticas o atributos. Por ejemplo : Estado civil ; Color preferido ; Nivel de estudios ; Raza ; ... Dentro de ellas podremos subdividirlas en funcin de que puedan ser ordenadas (Nivel de estudios) o no tenga sentido una determinada ordenacin que se establezca (Color preferido, Razas, ...).

CUANTITATIVAS
Los valores de las observaciones son numricos (cuantificables) y, en consecuencia, ordenables. A su vez las variables cuantitativas se subdividen en dos tipos : DISCRETAS : Toman valores concretos (N de hijos : 0, 1, 2, ...) CONTINUAS : Pueden tomar cualquier valor de un cierto intervalo (Peso ; Estatura ; ...).

TABLAS DE FRECUENCIAS.
Si la variable es Cualitativa, observamos los valores diferentes de la misma. Si es Cuantitativa buscaremos los valores mnimo y mximo obtenidos. En funcin del nmero de observaciones, decidiremos si se realiza su estudio de forma individual o agrupando en intervalos.

CONSTRUCCIN DE INTERVALOS :
Teniendo en cuenta la amplitud total de las observaciones (Valor mximo menos valor mnimo observados), tomaremos una decisin sobre el nmero total de intervalos, o bien sobre la amplitud o tamao de los mismos. Estadstica descriptiva (F. lvarez) - 1

EJEMPLO : Supuesto : Valor mximo = 87 , Valor mnimo = 11 .

Luego : AMPLITUD = 87 - 11 = 76.

Si decidimos construir 8 intervalos, la amplitud de cada uno ser de 10 unidades (valor aproximado de 76/8). El primer intervalo no tiene porqu iniciarse en 11 (mnimo); es ms, se aconseja tomar siempre valores "visualmente agradables" (5, 10, 15 ,...). Con esto los intervalos seran : [10,20) [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,90] Si partimos de la decisin de que los intervalos tengan 15 unidades de amplitud, simplemente iniciaremos su construccin hasta llegar a un intervalo que contenga al valor mximo observado. [10,25) [25,40) [40,55) [55,70) [70,85) [85,90] Tericamente se establece que el nmero ideal de intervalos debe ser la raz cuadrada del nmero de observaciones disponibles : Para N observaciones : Criterio de Kaiser Criterio de Sturges N de intervalos N de intervalos

N E( 15 + 3' 3 N ) ) ' .ln(

(E = parte entera)

NOTACIN
Al establecer dos intervalos consecutivos, por ejemplo de 10 a 20 y de 20 a 30, hemos de decidir si el valor 20 (final de uno e inicio del siguiente) pertenece al primer intervalo o al segundo. Para ello empleamos los smbolos [ y ( . [ o ] el valor situado junto a l pertenece al intervalo ( o ) el valor situado junto a l no pertenece al intervalo

NOTACIONES PARA REPRESENTAR INTERVALOS EXTREMOS REALES


Desde 0 hasta menos de 10 De 10 a menos de 20 De 20 a menos de 30 De 30 a menos de 40 Desde 40 hasta 50 [ 0 , 10 ) [ 10 , 20 ) [ 20 , 30 ) [ 30 , 40 ) [ 40 , 50 ]

EXTREMOS APARENTES 1-4 5-8 9 - 12


Valores : 1, 2, 3 y 4 Valores : 5, 6, 7 y 8 Valores : 9, 10, 11 y 12

[ 0'5 , 4'5 ) [ 4'5 , 8'5 ) [ 8'5 , 12'5 ]

RECUENTO. TABLA DE FRECUENCIAS ABSOLUTAS.


Situados en una tabla los valores de la variable (desde el mnimo al mximo) o los intervalos que los contienen, procedemos a contar las veces que se repiten. Construimos as una tabla como la de la izquierda. En ella podr observarse que, en el supuesto de datos agrupados en intervalos, se ha incluido una columna encabezada por x . Tal valor de x se denomina marca de clase y es el valor central de cada intervalo. Intervalos [ e1 , e2 ) [ e2 , e3 ) ... [ ei , ei+1 ) ... x x1 x2 ... xi ... Recuento /// ///// ///// / ... ///// /// ... n n1 n2 ... ni ... ni = N N n1 n1+n2 ... n1+n2+ ... +ni ...

2 - Estadstica descriptiva (F. lvarez)

FRECUENCIAS.
FRECUENCIA ABSOLUTA (n) : Para datos no agrupados en intervalos, es el nmero de veces que se presenta cada valor de la variable. Si los datos se agrupan en intervalos, es el nmero de observaciones que pertenecen a dicho intervalo. FRECUENCIA ABSOLUTA ACUMULADA (N) : Para un cierto valor de la variable, la frecuencia absoluta acumulada nos da el nmero de observaciones menores o iguales que dicho valor.

OTRAS FRECUENCIAS :
FRECUENCIA RELATIVA (r) : Cociente entre la frecuencia absoluta y el nmero total de observaciones (N). PROPORCIN o PORCENTAJE (p) : Frecuencia relativa multiplicada por 100 (es la expresin de las frecuencias en %). De igual modo que se defini para las frecuencias absolutas, se definen las FRECUENCIAS RELATIVAS ACUMULADAS (R) y los PORCENTAJES ACUMULADOS (P).

TABLA COMPLETA DE FRECUENCIAS :


x x1 x2 ... xi ... EJEMPLO : x 2 3 4 5 6 n 5 10 16 6 3 40 r 0'125 0'250 0'400 0'150 0'075 1 p 12'5 25 40 15 7'5 100 N 5 15 31 37 40 R 0'125 0'375 0'775 0'925 1'000 P 12'5 37'5 77'5 92'5 100 n n1 n2 ... ni ... ni = N r r1 = n1 / N r2 = n2 / N ... ri = ni / N ... ri = 1 p p1 = r1 . 100 p2 = r2 . 100 ... pi = ri . 100 ... pi = 100 N n1 n1+n2 ... n1+n2+ ... +ni ... R r1 r1+r2 ... r1+r2+ ... +ri ... P p1 p1+p2 ... p1+p2+ ... +pi ...

GRFICOS ESTADSTICOS.
La norma que hemos de seguir en la construccin de un grfico estadstico es siempre : "La zona que identifica a cada valor ser proporcional a su frecuencia"

Los diagramas usuales son los que se describen a continuacin.

Diagramas de barras
Para variables cualitativas o cuantitativas no agrupadas en intervalos. FUNDAMENTO : Sobre un eje (normalmente el horizontal) marcamos los valores de la variable, dibujando sobre cada uno de ellos una barra cuya longitud sea proporcional a la frecuencia que se est visualizando. Si la variable representada es cuantitativa, enlazando los extremos de las barras obtendremos el POLGONO DE FRECUENCIAS, denominado PERFIL ORTOGONAL para cualitativas ordenables .

Histogramas
Representativo de las variables agrupadas en intervalos. FUNDAMENTO : Sobre el eje horizontal marcamos los distintos intervalos, dibujando sobre cada uno de ellos un rectngulo cuya rea sea proporcional a la frecuencia que se est visualizando (Si todos los intervalos tienen la misma amplitud, nos bastar con que la altura de los rectngulos sea proporcional a las frecuencias). POLGONOS DE FRECUENCIAS : Si la frecuencia representada no es acumulada, enlazamos los puntos medios de los extremos superiores de los rectngulos. Para frecuencias acumuladas, el polgono de frecuencias se obtiene de la forma indicada en el grfico.

Estadstica descriptiva (F. lvarez) - 3

Diagramas de sectores
Utilizable en cualquier tipo de variable. FUNDAMENTO : Dividimos el crculo en sectores circulares, de modo que la amplitud de cada sector, sea proporcional a la frecuencia. Junto a cada sector, se suele indicar el valor representado. Es aconsejable la expresin de las amplitudes de los sectores en % (porcentajes p ).

Pictogramas
Utilizable en todo tipo de variables, especialmente con las cualitativas. FUNDAMENTO : Es el mismo que se sigue para la construccin de los diagramas de barras y histogramas. La diferencia estriba en que, en lugar de dibujar una barra o un rectngulo, se dibuja una figura que hace referencia al problema objeto de estudio.

Diagramas de reas
Representativo de las variables cuantitativas, equivale a la representacin independiente de los polgonos de frecuencias (descritos en los diagramas de barras y histogramas). FUNDAMENTO : Indica la evolucin de los valores de la variable, consistiendo en la visualizacin del rea encerrada bajo el polgono de frecuencias. Para ello, se conecta dicho polgono con el eje de la variable (el horizontal en el grfico), tanto a la izquierda del primer valor como a la derecha del ltimo.

Los diagramas de barras , histogramas , pictogramas y de reas , admiten la representacin correspondiente a sus frecuencias acumuladas.

MEDIDAS DE CENTRALIZACIN. MEDIA ARITMTICA : ni .xi Es el resultado de dividir la suma de todas las observaciones entre el nmero de ellas. x= N MODA :
Mo = ei +
Es el valor que ms se repite. Ser pues el valor (o valores) cuya frecuencia absoluta sea la ni +1 .ai mayor de las observadas. ni +1 + ni 1 Si los datos se encuentran agrupados en intervalos, obtendremos el intervalo en el que se encuentra la moda (INTERVALO MODAL). Para determinar su valor concreto, aplicamos la expresin de la izquierda. i intervalo donde se encuentra la moda. i-1 intervalo anterior al que contiene la moda. i+1 intervalo siguiente al que contiene la moda. extremo inferior del intervalo en el que se encuentra la moda. amplitud del intervalo en el que est la moda. frecuencia absoluta.

NOTACIONES Los subndices indican :

e a n

MEDIANA :
Supuestas ordenadas las observaciones, MEDIANA es el valor de la variable que est en el centro de las mismas. Deja pues a la mitad (el 50%) de las observaciones por debajo de dicho valor. Para obtener el valor de la mediana, seguimos los pasos siguientes : 1 Calculamos la tabla de frecuencias absolutas acumuladas. 2 La mediana ser el valor de la variable cuya frecuencia absoluta acumulada primero iguale o supere a N/2. Si los datos se encuentran agrupados en intervalos, el punto 2 nos dar el intervalo en el que se encuentra la mediana. Para determinar su valor concreto, aplicamos la expresin de la izquierda.

N N i 1 Me = ei + 2 .ai ni

4 - Estadstica descriptiva (F. lvarez)

NOTA : En el caso de variables continuas no agrupadas en intervalos, suelen considerarse previamente los intervalos reales que esos valores representan, procediendo a aplicar la expresin superior. As, los valores 1 , 2 ,3 , ... representan a los intervalos de valores [0'5 , 1'5) , [1'5 , 2'5) , [2'5 , 3'5) , ... NOTACIONES Los subndices indican : e a n N i intervalo donde se encuentra la mediana. i-1 intervalo anterior al que contiene la mediana. extremo inferior del intervalo en el que se encuentra la mediana. amplitud del intervalo en el que est la mediana. frecuencia absoluta. frecuencia absoluta acumulada.

OTRAS MEDIDAS DE CENTRALIZACIN. MEDIA PONDERADA :


Aplicable cuando a cada valor (Xi) se le asigna un peso (pi) :

MEDIA GEOMTRICA :

MEDIA ARMNICA :
xA =

x G = N x1 . x 2 . ... . x N
Con frecuencias fi para cada xi : (N = fi)
n n xG = N x 1n1 .x2 2 .....xn n

xp =

p .X p
i i

N 1 xi

Con frecuencias fi para cada xi : (N = fi)

xA =

N n xi i

MEDIDAS DE POSICIN.
CONCEPTO : Permiten el clculo del valor de la variable que ocupa una cierta posicin relativa respecto del conjunto total de los valores observados. PERCENTIL DE ORDEN K : Es el valor de la variable que deja por debajo de l el K% de las observaciones.

PROCESO DE CALCULO :
Para obtener el valor del percentil de orden K, seguimos los pasos siguientes : 1 Calculamos la tabla de frecuencias absolutas acumuladas. 2 Obtenemos el LUGAR que ocupa : Lugar = N . K / 100 3 El percentil de orden K ser el valor de la variable cuya frecuencia absoluta acumulada primero iguale o supere a dicho lugar. Si los datos se encuentran agrupados en intervalos, el punto 3 nos dar el intervalo en el que se encuentra el percentil de orden K. Para determinar el valor concreto del percentil, aplicamos la expresin de la izquierda.

k .N N i 1 Pk = ei + 100 .ai ni

NOTA : En el caso de variables continuas no agrupadas en intervalos, suelen considerarse previamente los intervalos reales que esos valores representan, procediendo a aplicar la expresin anterior. As, los valores 1 , 2 ,3 , ... representan a los intervalos de valores [0'5 , 1'5) , [1'5 , 2'5) , [2'5 , 3'5) , ... NOTACIONES Los subndices indican : e a n N i intervalo donde se encuentra el percentil. i-1 intervalo anterior al que contiene el percentil. extremo inferior del intervalo en el que se encuentra el percentil. amplitud del intervalo en el que est el percentil. frecuencia absoluta. frecuencia absoluta acumulada.

PERCENTILES ESPECIALES
MEDIANA CUARTILES DECILES Percentil de orden 50. Percentiles de rdenes 25 (Cuartil 1), 50 (Cuartil 2) y 75 (Cuartil 3). Percentiles de rdenes 10, 20, .... , 90 (Deciles 1, 2, ... , 9).

MEDIDAS DE DISPERSIN. RANGO , RECORRIDO O AMPLITUD TOTAL : R = Mx Mn Con el fin de medir el mayor o menor
grado de separacin de las observaciones, en una primera instancia se define el RANGO (tambin denominado recorrido o amplitud total), como la diferencia existente entre los valores mximo y mnimo observados.

Estadstica descriptiva (F. lvarez) - 5

AMPLITUD SEMI-INTERCUARTLICA :
Q= Q 3 Q1 2
Esta medida de dispersin se basa en medidas de posicin (Cuartiles),.Su empleo tendr sentido en el supuesto de imposibilidad de clculo de la media.

El no tomar en consideracin a la totalidad de las observaciones, hace pensar que esta medida es poco representativa. Por ello se intenta definir las medidas de dispersin, de modo que sean el promedio de las separaciones de cada valor respecto de uno tomado como referencia (la MEDIA). Observando la figura apreciamos que las desviaciones d antes definidas tienen como media cero (las positivas compensan con las negativas), lo cul obliga a subsanar este inconveniente tomndolas en valor absoluto o elevndolas al cuadrado.

DESVIACIN MEDIA :
Dx =

n . x
i

Es la media de las desviaciones o separaciones de cada una de las observaciones, respecto a la media aritmtica, consideradas en valor absoluto. Sustituyendo la media por la moda o la mediana, definiremos las desviaciones medias respecto de la moda y de la mediana.

VARIANZA :
s =
2 2 i

n .(x =

x)

n .x =
i

2 i

x2

Es la media de los cuadrados de las desviaciones o separaciones de cada una de las observaciones, respecto a la media aritmtica.

DESVIACIN TPICA :
s = = var ianza =

n .x
i

2 i

x2

Es la raz cuadrada de la varianza. Con ello corregimos el haber tomado cuadrados de separaciones en el clculo de la varianza. Esta medida de dispersin es la ms caracterstica.

COEFICIENTE DE VARIACIN :
CV= x .100 x
Mide la representatividad de la media. Valores extremos del mismo nos llevarn a concluir que la media no es representativa, es decir, existirn valores entre las observaciones que se separan significativamente de las dems. Slo puede ser utilizado cuando los valores de la variable toman valores "normales". Es decir, no son muy elevados ni muy pequeos, ya que una media prxima a cero o muy alta daran valores nulos o infinitos al coeficiente. Si la media es representativa de las observaciones (no existen valores extremos exageradamente distanciados de la mayora), el coeficiente de variacin permite comparar la dispersin de dos series estadsticas : mayor coeficiente indica menor homogeneidad, o lo que es lo mismo, mayor dispersin o variabilidad.

GRFICO DE VARIABILIDAD :
Basado en los cuartiles, adopta la forma del grfico de la derecha. En l se reflejan los cuartiles 1 y 3 y la mediana, junto a los extremos inferior y superior :

Linf = Q1 3.

Q 3 Q1 = Q1 3. Q ; L sup = Q 3 + 3. Q 2
( Linf , Lsup )

Se consideran observaciones atpicas aquellas que quedan fuera del intervalo :

OTRAS MEDIDAS ESTADSTICAS. COEFICIENTE DE ASIMETRA DE FISHER :


Permite interpretar la forma de la distribucin, respecto a ser o no simtrica. INTERPRETACIN

n .(x
i

x)

As1 =

6 - Estadstica descriptiva (F. lvarez)

Basados en al relacin existente entre media, mediana y moda : se definen dos nuevos coeficientes de asimetra (de Pearson):

x Mo = 3.( x Md )
As3 = 3.( x Md )

As2 =

x Mo

COEFICIENTE DE CURTOSIS :
Recibe tambin el nombre de coeficiente de concentracin central, midiendo el grado de aplastamiento o apuntamiento de la grfica de la distribucin de la variable estadstica. Una mayor concentracin de datos en torno al promedio harn que la forma sea alargad, siendo tanto ms plana (o aplastada) cuanto mayor sea la dispersin de los mismos. INTERPRETACIN Determina la forma de la distribucin, en relacin con su grado de aplastamiento.

n .(x
i

x)

K=

Basados en medidas de posicin, se definen los nuevos coeficientes :

Coeficiente de asimetra de Bowley-Yule, o intercuartlico : Q 2. Me + Q1 Y= 3 Q 3 Q1 Coeficiente absoluto de asimetra:

A=

Q 3 2. Me + Q1

Coeficiente de curtosis de Kelley : Q Q 3 Q1 K= 0'263 con: Q = P90 P10 2

ANLISIS CONJUNTO DE VARIOS GRUPOS.


Si disponemos de k grupos con ni elementos, medias x i , y varianzas S i , podemos obtener : Media conjunta de los k grupos
2

n .x X= n
i i

n .S = n
i i

Varianza conjunta de los k grupos


2 i

, o, con mayor rigor : S

n .S = n
i i

2 i

n .( x X ) + n
i i i

PROPIEDADES DE LAS MEDIDAS ESTADSTICAS. TABLA PARA CLCULOS :


La tabla siguiente nos muestra una disposicin prctica de los clculos necesarios para la obtencin de los parmetros estadsticos usuales: Media , Moda, Mediana , Percentiles , Varianza y Desviacin tpica. Intervalos [ e1 , e2 ) [ e2 , e3 ) ... [ ei , ei+1 ) ... x x1 x2 ... xi ... n n1 n2 ... ni n.x n1 . x1 n2 . x2 ... ni . xi n.x2 (n1 . x1).x1 (n2 . x2).x2 ... (ni . xi).xi N P N1=n1 P1 = (N1 / N) . 100 N2=n1+n2 P2 = (N2 / N) . 100 ... ... NI=n1+n2+ ... Pi = (Ni / N) . 100 +ni ... ... Clculo de percentiles

... ... ... ni ni . xi ni . xi2 N A B Clculo de media y varianza

La media y la varianza seran el resultado de calcular :Clculo de media y varianza

x=

A N

2 =

B x2 N

PROPIEDADES :
A) Si a todos los valores de una variable x les sumamos una cantidad constante, la media queda incrementada en dicha constante, mientras que la desviacin tpica (y la varianza) no vara. Estadstica descriptiva (F. lvarez) - 7

Si multiplicamos todos los valores de una variable x por una constante, la media y la desviacin tpica quedan tambin multiplicadas por dicha constante (la varianza quedar multiplicada por el cuadrado de la constante). EJEMPLO :

B)

CAMBIO DE VARIABLE. TIPIFICACIN.


Haciendo uso de las propiedades de las medidas estadsticas ,podremos facilitar y simplificar los clculos de parmetros estadsticos, realizando un cambio de variable. As, si todos los valores son muy altos, podremos restarles una cantidad (normalmente la Moda) y, si poseen cifras decimales o son mltiplos de un mismo nmero, podremos multiplicarlos o dividirlos por el valor adecuado. Una vez calculados los parmetros estadsticos, en virtud de las propiedades descritas, obtendremos el valor final real de tales parmetros. Mencin especial merecen dos cambios de variables particulares : A) Diferenciales : partiendo de la variable inicial x (puntuaciones directas), si a todos los valores les restamos la media, obtenemos una nueva variable d (puntuaciones diferenciales) cuya media es cero (la desviacin tpica no se modifica). Tipificadas : Si a todos los valores de la variable inicial x les restamos la media y el resultado lo dividimos por la desviacin tpica, obtenemos una nueva variable z (puntuaciones tipificadas) cuya media es cero , teniendo siempre como desviacin tpica la unidad.

B)

Este ltimo cambio de variable recibe el nombre de TIPIFICACIN.

SUMA Y DIFERENCIA DE VARIABLES.


Partiendo de dos variables X , Y, podemos definir las nuevas variables : S=X+Y obtenida sumando cada valor de X con el correspondiente de Y. D=X-Y obtenida restando a cada valor de X el valor correspondiente de Y. Esto supone la existencia de tantas observaciones de X como de Y, as como el emparejamiento de ellas; es decir, a cada valor de X queda asociado un valor de Y. Esto constituir la base de estudio del siguiente tema . Veamos como se comporta la media de las dos nuevas variables S y D definidas.

S = X+Y

En efecto :

S=

( X i + Yi ) = X i + Yi = X i + Yi
N N N N

= X+Y

Anlogamente se verifica que :

D = XY
2

Calculemos la varianza de la suma S :


2 SS

( ( X i + Yi ) S)
N

( ( X i + Yi ) ( X + Y))
N

( ( X i X) + (Yi Y))
N

= N ( X i X) 2 + (Yi Y) 2 + 2. ( X i X).(Yi Y) = S2 + S2 + 2.S = X Y XY N N N


La expresin tambin a :

( ( X i X) 2 + (Yi Y) 2 + 2.( X i X).(Yi Y))

(X i X).(Yi Y)
N

, representada por SXY, recibe el nombre de covarianza, justificndose que es igual

SXY =
Anlogamente se verifica que :

(Xi X).(Yi Y) = Xi .Yi X. Y


N N

2 S2 = S2 + SY 2.SXY D X

Si las variables X , Y son independientes, la covarianza (medida de variacin conjunta) es igual a cero.

8 - Estadstica descriptiva (F. lvarez)

Resumiendo : Medias Dependientes ( SXY 0 )


2 2 SS = S 2 + S Y X 2 S 2 = S 2 + SY D X

Varianzas Independientes ( SXY = 0 )


2 2 SS = S 2 + S Y X 2 S2 = S2 + SY D X

S=X+Y D=X-Y

S = X+Y D = XY

+ 2.S XY 2.S XY

MOMENTOS ORDINARIOS Y CENTRALES


Momento ordinario de orden Se verifica que : k: m1 = 0 m2 = a 2 a 1 2 Algunos parmetros expresarse : estudiados, pueden

ak =

n k .x N

Momento central de orden k :

= x = a1 2 = s 2 = m2 = a 2 a 1 2 x m3 = a 3 3. a 2 . a1 + 2. a13 m3 m3 m4 m4 2 4 m 4 = a 4 4. a 3 . a 1 + 6. a 2 . a 1 3. a 1 As = K= 4 3= = 3 3 3 2

mk =

n k .(x x ) N

m2

m2

MEDIDAS DE CONCENTRACIN.
Estas medidas, de aplicacin econmica fundamentalmente, determinan el nivel de igualdad en el reparto total de las observaciones de la variable. Su determinacin se realizar a partir de la siguiente tabla de clculos : A B C D E N G H

xi
x1 x2 ... xk

ni
n1 n2 ... nk

Ni = ni.
N1 N2 ... Nk

Pi = (Ni.. /N).100
P1 P2 ... Pk (= 100)

ti = ni. xi
t1 t2 ... tk

Ti = ti.
T1 T2 ... Tk

Qi = (Ti.. /T).100
Q1 Q2 ... Qk (= 100)

Pi - Qi
P1 - Q1 P2 - Q2 ... Pk - Qk (= 0)

N = ni.

TP = Pi

T = ni. xi

TD = (Pi Qi)

Siendo : A) Valores de la variable (marca de clase si est agrupada en intervalos). B) Frecuencias absolutas (N = total de observaciones). C) Frecuencias absolutas acumuladas. D) Porcentajes acumulados (totalizando - TP). E) Productos de cada frecuencia por su correspondiente valor (T = suma total de estos productos). F) Productos anteriores acumulados (de igual modo que se realiza con frecuencias). G) Expresin en porcentaje del contenido de la columna anterior. H) Diferencias de los valores de las columnas D y G (totalizando - TD).

MEDIALA :
Su definicin tiene un fundamento similar al de la mediana. Para distribuciones discretas (no agrupadas en intervalos), la mediala es el valor de la variable cuyo Qi primero iguala o supera el 50%. Para distribuciones continuas (agrupadas en intervalos), el intervalo que contiene la mediala es aquel cuyo Qi primero iguala o supera el 50%. De aqu obtenemos el valor de la mediala del modo siguiente :

50 Q i1 Ml = e i + .a Q i Q i1 i

Los subndices indican : i intervalo donde se encuentra la mediala. i-1 intervalo anterior al que contiene la mediala. e extremo inferior del intervalo en el que se encuentra la mediala. a amplitud del intervalo en el que est la mediala.

Estadstica descriptiva (F. lvarez) - 9

CURVA DE LORENZ :
Sobre un rectngulo de 100 unidades de lado, se dibuja la poligonal que resulta de unir los puntos (Pi , Qi). Esta poligonal (curva de Lorenz) determina con la diagonal AB un recinto (sombreado en la figura) que mide el grado de concentracin. Cuando el rea sombreada es muy pequea (la curva de Lorenz se aproxima a la diagonal AB) se presenta una baja concentracin, o lo que es lo mismo, indica uniformidad en el reparto de los valores de la variable. La mayor concentracin se producir cuando la zona sombreada coincide con el tringulo ABC.

NDICE DE CONCENTRACIN DE GINI :


Haciendo uso de la tabla de clculos anterior, necesaria para la obtencin de la curva de Lorenz, definiremos el presente estadstico. Otros, como el ndice de Dalton, el de paridad, etc. , pueden ser empleados con idntica interpretacin a la que tratamos con el de Gini, si bien omitimos su estudio.
k 1

( Pi Q i )
i =1 k 1 i =1

G=

Pi

TD = TP 100

El ndice de Gini (expresin de la izquierda) coincide geomtricamente con el cociente entre el rea sombreada (definida por la curva de Lorenz) y la del tringulo ABC. Concentracin mnima : G = 0 Concentracin mxima : G = 1

10 - Estadstica descriptiva (F. lvarez)

EJERCICIOS RESUELTOS
1
La tabla siguiente nos muestra el resultado de una encuesta entre los alumnos de primer curso, analizando el nmero de suspensos en la primera evaluacin : 0 3 1 3 2 1 3 2 2 4 0 3 4 1 5 2 0 1 2 3 3 0 2 3 3 4 3 1 2 1 0 2 5 1 3 4 2 4 0 2 3 2 5 3 2 4 1 1 4 2 1 3 3 0 4 1 4 3 0 4

Realicemos un estudio estadstico completo. Se trata de una variable cuantitativa discreta. Esto condicionar algunos procesos del clculo estadstico. RECUENTO Y TABLA DE FRECUENCIAS x 0 1 2 3 4 5 recuento ///// /// ///// ///// / ///// ///// /// ///// ///// ///// ///// ///// /// Totales : n 8 11 13 15 10 3 N = 60 r 0'1333 0'1833 0'2167 0'2500 0'1667 0'0500 1'0000 p 13'33 18'33 21'67 25'00 16'67 5'00 100'00 N 8 19 32 47 57 60 R 0'1333 0'3167 0'5333 0'7833 0'9500 1'0000 P 13'33 31'67 53'33 78'33 95'00 100'00

GRFICOS ESTADSTICOS APROPIADOS PARA ESTE TIPO DE VARIABLE DIAGRAMA DE BARRAS : Sobre el valor de cada variable dibujamos una barra con altura igual a la frecuencia que deseamos representar (en este caso las absolutas n ). POLGONO DE FRECUENCIAS : Obtenidos enlazando los extremos superiores de las barras. NOTA :Siendo la variable discreta, no tiene sentido dibujar el polgono de frecuencias.

DIAGRAMAS ACUMULADOS : Construidos como representativos de acumuladas. los las anteriores, son los distintas frecuencias

El ejemplo representa las frecuencias absolutas acumuladas (N). El polgono de frecuencias se construira enlazando los extremos superiores de las barras.

PICTOGRAMAS: Con el mismo principio seguido para la construccin de los diagramas de barras, sustituimos dichas barras por dibujos alusivos a la variable estadstica estudiada. DIAGRAMAS DE SECTORES : Resultan de la divisin de un crculo en sectores cuya amplitud es proporcional a la frecuencia. La amplitud de cada sector ser :

n .360 = r.360 N

Estadstica descriptiva (F. lvarez) - 11

MEDIA, VARIANZA Y DESVIACIN TPICA x 0 1 2 3 4 5 n 8 11 13 15 10 3 N = 60


i i

n.x 0 11 26 45 40 15 137

n.x2 0 11 52 135 160 75 433

Este tipo de tabla facilita los clculos. Media = 137 / 60 = 2,283 Varianza = (433 / 60) - media al cuadrado = 2'005 Desviacin tpica = raz cuadrada de la varianza = 1'416

x=

n .x
N

137 ni .xi2 x 2 = 433 2'2832 = 2'00 sx = sx2 = 2' 005 = 1' 416 2 = 2'283 s x = 60 N 60

MODA = Valor de mayor frecuencia = 3 PERCENTILES Para la determinacin de medidas de posicin (percentiles), podemos seguir dos procedimientos de clculo : 1) Basado en las frecuencias absolutas acumuladas N : Determinamos el lugar que ocupa : L = k.N / 100 El percentil ser el valor cuya frecuencia N primero iguale o supere al lugar L. 2) Basado en porcentajes acumulados P : El percentil ser el valor cuyo porcentaje P primero iguale o supere al orden k del percentil. Apliquemos el primer procedimiento para calcular la mediana y el 9 decil : La mediana (percentil 50) ocupar el lugar : L = 50 . 60 / 100 = 30 El 9 decil (percentil 90) ocupar el lugar : L = 90 . 60 / 100 = 54 x 0 1 2 3 4 5 n 8 11 13 15 10 3 N = 60 N 8 19 32 47 57 60

Mediana = 2 9 decil = 4

Aplicando el segundo procedimiento descrito, determinemos los cuartiles 1 y 3, as como la amplitud semiintercuartlica : x 0 1 2 3 4 5 n 8 11 13 15 10 3 N = 60 r 0'1333 0'1833 0'2167 0'2500 0'1667 0'0500 1'0000 p 13'33 18'33 21'67 25'00 16'67 5'00 100'00 P 13'33 31'67 53'33 78'33 95'00 100'00

Cuartil 1 (percentil 25) = 1 Cuartil 3 (percentil 75) = 3

Amplitud semi-intercuartlica =

Q 3 Q1 3 1 = =1 2 2

12 - Estadstica descriptiva (F. lvarez)

2
Trabajamos ahora con las edades de 50 jvenes de nuestro barrio : 1 24 20 21 11 15 6 25 20 7 12 20 15 8 4 22 10 12 7 10 4 9 1 12 9 18 20 5 20 5 2 11 23 20 10 9 13 14 12 15 20 13 7 11 14 11 13 15 22 15

Como en el ejemplo anterior, realicemos un estudio estadstico completo. Nos encontramos ante una variable estadstica cuantitativa continua. Agruparemos o no las observaciones en intervalos en funcin de los diferentes valores observados. TABLA DE FRECUENCIAS Observado el valor mnimo (1) y mximo (24), decidimos agrupar los datos en intervalos de 5 aos de amplitud, empezando por 0. Intervalos [ 0, 5) [ 5, 10 ) [ 10 , 15 ) [ 15 , 20 ) [ 20 , 25 ] recuento ///// ///// ///// ///// ///// ///// / ///// / ///// ///// /// Totales : n 5 10 16 6 13 N = 50 r 0'10 0'20 0'32 0'12 0'26 1'00 p 10 20 32 12 26 100 N 5 15 31 37 50 R 0'10 0'30 0'62 0'74 1'00 P 10 30 62 74 100

GRFICOS ESTADSTICOS HISTOGRAMA : Sobre el valor de cada variable dibujamos una franja con altura igual a la frecuencia que deseamos representar (en este caso las absolutas n ). POLGONO DE FRECUENCIAS : Obtenido enlazando los puntos medios de los extremos superiores de las franjas.

HISTOGRAMAS ACUMULADOS : Construidos como los anteriores, son los representativos de las distintas frecuencias acumuladas. El ejemplo representa las frecuencias absolutas acumuladas ( N ). En este caso, el polgono de frecuencias NO se construira enlazando los puntos medios de los extremos superiores de las franjas, sino como se indica en la figura.

Clculo de Moda, Media, Varianza y Desviacin tpica : Para el clculo de la media y la varianza utilizamos la tabla auxiliar siguiente. En ella se incorpora la columna x , que contiene la marca de clase (valor central) de cada intervalo. La MODA (valor de mayor frecuencia) se encuentra en el intervalo [10 , 15) . Determinemos su valor concreto :

Mo = ei +
Intervalos [ 0, 5) [ 5, 10 ) [ 10 , 15 ) [ 15 , 20 ) [ 20 , 25 ]

ni +1 6 .ai = 10 + .5 = 11'875 ni +1 + ni 1 6 + 10
n 5 10 16 6 13 N = 50 x 2'5 7'5 12'5 17'5 22'5 n.x 12'5 75'0 200'0 105'0 292'5 685'0 n.x2 31'25 562'50 2500'00 1837'50 6581'25 11512'50 Estadstica descriptiva (F. lvarez) - 13

n .x x=
i

685 = = 13'7 50

2 x

n .x =
i

2 i

x2 =

2 11512'5 13'7 2 = 42 s x = s x = 42' 56 = 6' 524 50

Utilizando las frecuencias absolutas acumuladas, calculemos el decil 2 y el percentil 62 : Lugar que ocupa el decil 2 (percentil 20) = 20 . 50 / 100 = 10 Lugar que ocupa el percentil 62 = 62 . 50 / 100 = 31 Intervalos [ 0, 5) [ 5, 10 ) [ 10 , 15 ) [ 15 , 20 ) [ 20 , 25 ] n 5 10 16 6 13 N = 50 N 5 15 31 37 50 Decil 2 (percentil 20) en [5,10) Percentil 62 en [10,15) Lugar = 10 Lugar = 31

Determinemos sus valores concretos :

20.N 20.50 N i 1 5 100 100 .5 = 7'5 P20 = ei + .ai = 5 + ni 10 62.N 62.50 N i 1 15 100 100 .5 = 15 P62 = ei + .ai = 10 + ni 16
Utilizando los porcentajes acumulados, calculemos el cuartil 1 y la mediana : Intervalos [ 0, 5) [ 5, 10 ) [ 10 , 15 ) [ 15 , 20 ) [ 20 , 25 ] n 5 10 16 6 13 N = 50 r 0'10 0'20 0'32 0'12 0'26 1'00 p 10 20 32 12 26 100 P 10 30 62 74 100 Cuartil 1 (percentil 25) en [5,10) Mediana (percentil 50) en [10,15)

Determinemos sus valores concretos :

25.N 25.50 N i 1 5 .5 = 8'75 P25 = ei + 100 .ai = 5 + 100 ni 10 50.N 50.50 N i 1 15 .5 = 13'125 P50 = ei + 100 .ai = 10 + 100 ni 16

14 - Estadstica descriptiva (F. lvarez)

3
x 2 3 4 5 n 6 15 10 9 De la presente distribucin, calculemos : Media, varianza y desviacin tpica. Moda. Mediana, Percentil 82, Cuartiles y amplitud semi-intercuartlica.

La variable establecida puede ser discreta o continua sin agrupar en intervalos. Realicemos los clculos en ambos supuestos. x 2 3 4 5 Media n 6 15 10 9 40 Varianza
i

N 6 21 31 40

P 15 52'5 77'5 100

n.x 12 45 40 45 142

n.x2 24 135 160 225 544

x=

n .x
i

Desviacin tpica
2 i i

142 = 3'55 40

2 =

n .x
N

x2 =

544 3'55 2 = 0'99 40

= 0' 9975 = 0' 99875

Moda 3 Cuartil 1 (percentil 25) 3

Mediana (percentil 50) 3 Cuartil 3 (percentil 75) 4

Percentil 82 5 Rango semi-intercuartlico

Q 3 Q1 4 3 = = 0' 5 2 2

Los valores anteriores, relativos a percentiles, son vlidos si la variable es DISCRETA. En el supuesto de tratarse de una variable CONTINUA (con datos no agrupados), deberamos entender que el valor identifica el intervalo situado a la izquierda en la siguiente tabla : Intervalo [1'5,2'5)... [2'5,3'5)... [3'5,4'5)... [4'5,5'5]... x 2 3 4 5 n 6 15 10 9 40 N 6 21 31 40 P 15 52'5 77'5 100

Los percentiles pedidos se obtendran del modo siguiente : Mediana en [2'5,3'5)

Percentil 82

en [4'5,5'5]

Cuartil 1

en [2'5,3'5)

Cuartil 3

en [3'5,4'5)

50 . 40 6 Me = P50 = 2' 5 + 100 . 1 = 3' 433 15 82. 40 31 P82 = 4' 5 + 100 . 1 = 4' 700 9 25 . 40 6 Q 1 = P25 = 2' 5 + 100 . 1 = 2' 767 15 75 . 40 21 Q 3 = P75 = 3' 5 + 100 . 1 = 3' 400 10

Estadstica descriptiva (F. lvarez) - 15

4
Interv. [10,12) [12,14) [14,16) [16,18) [18,20] Interv. [10,12) [12,14) [14,16) [16,18) [18,20] Media n 5 11 19 21 4 n 5 11 19 21 4 60 De la distribucin de la izquierda, calcular : Media, varianza y desviacin tpica. Moda Mediana, Percentil 59 y Decil 3. Desviacin media. Coeficientes de asimetra y curtosis. a 11 13 15 17 19 Varianza
i

N 5 16 35 56 60

P 8'333 26'667 58'333 93'333 100'000

n.a 55 143 285 357 76 916

n.a2 605 1859 4275 6069 1444 14252

x=

n .a
i

Desviacin tpica
2 i i

N
Moda

916 = 15'2667 2 = 60
en [16,18) en [14,16)

n .a
N

x2 =

14252 15'2667 2 = 4'4 60


Mo = 16 +

= 4' 4622 = 2' 1124

Mediana (percentil 50) Percentil 59

en [16,18)

Decil 3 (percentil 30)

en [14,16)

4 . 2 = 16' 3478 4 + 19 50 . 60 16 Me = P50 = 14 + 100 . 2 = 15' 4737 19 59 . 60 35 P59 = 16 + 100 . 2 = 16' 0381 21 30 . 60 16 D 3 = P30 = 14 + 100 . 2 = 14' 2105 19
Asimetra y Curtosis

Desviacin media

xx
4'2667 2'2667 0'2668 1'7333 3'7333

n. x x
21'3333 24'9333 5'0668 36'4000 14'9333 102'6667

xx
-4'2667 -2'2667 -0'2668 1'7333 3'7333

n.( x x ) 3
-388'3615 -128'1019 -0'3603 109'3618 208'1375 -199'3244

n.( x x ) 4
1657'0090 290'3644 0'0961 189'5604 777'0466 2914'0765

Desviacin media

D=

n . x
i

x
3

Asimetra (-0'3524 < 0) Algo asimtrica hacia la izquierda Curtosis (-0'5608 < 0) Ligeramente aplanada (Platicrtica)

n .(x
i

N
i

x)

102'6667 = 1'7111 60

As1 =

3
i i

- 199'3244 60 = = 0'3524 2'1124 3

n .(x
K=

x)

2914'0765 60 3 = 3 = 0'5608 2'1124 4

16 - Estadstica descriptiva (F. lvarez)

5
La distribucin de las estaturas en centmetros de los alumnos de un centro, expresados en porcentajes, es la siguiente: Estaturas Menos de 150 De 150 a 154 De 155 a 159 De 160 a 164 De 165 a 169 De 170 a 174 De 175 a 179 De 180 y ms a) b) c) d) Porcentajes 0'3 1'6 9'4 20'5 31'5 22'5 10'7 3'5

Siendo abiertos los intervalos primero y el ltimo, qu valores sera razonable considerar para los lmites extremos de esos intervalos ? Si suponemos que en el Centro hay 1200 alumnos, cules seran las frecuencias absolutas? Calcular la estatura media y la desviacin tpica. Entre qu estaturas se encuentra la quinta parte de las estaturas centrales ?.

a) Al referirse a intervalos de 5 cm. de amplitud en los restantes casos, debemos considerar que el primer intervalo es de 145 a menos de 150 y, el ltimo, de 180 a 185. b) Estaturas [145,150) [150,155) [155,160) [160,165) [165,170) [170,175) [175,180) [180,185) c) Estaturas [145,150) [150,155) [155,160) [160,165) [165,170) [170,175) [175,180) [180,185) n 4 19 113 246 378 270 128 42 1200 x 147'5 152'5 157'5 162'5 167'5 172'5 177'5 182'5 n.x 590'0 2897'5 17797'5 39975'0 63315'0 46575'0 22720'0 7665'0 201535'0 n.x2 87025'00 441868'75 2803106'25 6495937'50 10605262'50 8034187'50 4032800'00 1398862'50 33899050'00 p 0'3 1'6 9'4 20'5 31'5 22'5 10'7 3'5 n = p . 1200 / 100 3'6 19'2 112'8 246 378 270 128'4 42 n 4 19 113 246 378 270 128 42 N=1200 P 0'3 1'9 11'3 31'8 63'3 85'8 96'5 100'0 N 4 23 136 382 760 1030 1158 1200

De aqu resulta :

201535 = 167' 95 1200 33899050 2 sx = 167' 95 2 = 42' 006 1200 x=

s x = 42' 006 = 6' 481

d) La quinta parte representa el 20%. Con relacin al centro (50%), cubrirn desde el 40% al 60%. Se nos pide que calculemos los percentiles 40 y 60 de la distribucin de estaturas. La tabla de porcentajes acumulados del apartado b) nos permite deducir que : Los percentiles 40 y 60 se encuentran en el intervalo [165,170) . Sus valores concretos son :

40.N 40.1200 N i 1 382 .5 = 166'963 P40 = ei + 100 .ai = 165 + 100 ni 378 60.N 60.1200 N i 1 382 .5 = 169'471 P60 = ei + 100 .ai = 165 + 100 ni 378
Estadstica descriptiva (F. lvarez) - 17

6
Partiendo de la siguiente distribucin de frecuencias acumuladas, determinar la media, mediana y moda de la siguiente distribucin de edades. Analice la relacin entre ellas. Edad [10,12) [12,14) [14,16) [16,18) [18,20] Calculemos N 4 11 24 34 40 fin de observar en qu medida se verifica la relacin

x Mo = 3.(x Me )

los

parmetros

pedidos,

con

el

Para obtener las frecuencias absolutas, a partir de las acumuladas, aplicamos el concepto que define a estas ltimas. En la prctica, las frecuencias absolutas se obtienen restando la correspondiente acumulada de la anterior. Edad [10,12) [12,14) [14,16) [16,18) [18,20] N 4 11 24 34 40 n 4 7 13 10 6 40 x 11 13 15 17 19 n.x 44 91 195 170 114 614 n.x2 484 1183 2925 2890 2166 9648 La moda se encuentra en [14 , 16). Su valor concreto es :

614 x= = 15' 35 40

Lugar que ocupa la mediana : L = 50 . 40 / 100 = 20 La mediana est en [14,16) :

Me = 14 +

20 11 . 2 = 15' 3846 13

Mo = 14 +

10 . 2 = 15' 1765 10 + 7

Comprobemos la relacin existente entre ellas :

x Mo = 15'35 15'1765 = 0'1735 3.(x Me ) = 3.(15'35 15'3845) = 0'1035

No se verifica la relacin esperada, si bien la diferencia no es muy grande. Esta relacin terica slo se verifica en situaciones ideales y excepcionales (por ejemplo en distribuciones simtricas, donde x = Mo = Me ).

18 - Estadstica descriptiva (F. lvarez)

7
Completar la tabla de frecuencias siguiente : N de suspensos 0 1 2 3 4 N= N de suspensos 0 1 2 3 4 n 3 7 12 8 20 N 3 10 22 30 50 n 3 12 30 50 N 10

coincide con el valor de n para que al acumular resulte N=10 acumulando 12 para que al acumular resulte N=30 ltima acumulada =N=50 y n=20 por diferencia con la anterior

Estadstica descriptiva (F. lvarez) - 19

8
Calcular la amplitud semi-intercuartlica de la distribucin de las edades de 400 nios, representada a la izquierda.

Conocidos los porcentajes y el total de observaciones (N=400), podemos construir la distribucin de frecuencias absolutas : n = p . N / 100 x 2 3 4 5 6 7 p 6 12 12 15 24 31 n 24 48 48 60 96 124 400 P 6 18 30 45 69 100

Primer cuartil (percentil 25)

Tercer cuartil (percentil 75)

La amplitud o rango semi-intercuartlico ser pues :

Q 3 Q1 7 4 = = 1' 5 2 2

20 - Estadstica descriptiva (F. lvarez)

9
Una variable X tiene por media 12 y desviacin tpica 3. Si elevamos todos los valores al cuadrado construimos la nueva variable Y = X2 . Cul es el valor de su media aritmtica ?.

Observemos la expresin de la varianza :

2 sx =

n .x
i =1 i

2 i

x2

La primera parte de la expresin contiene los cuadrados de los valores de la variable X; es decir, los valores definidos como la nueva variable Y.

Con esto :

s =
2 x

n .y
i =1 i

2 2 x 2 s x = y x 2 y = s x + x 2 = 32 + 12 2 = 153

Estadstica descriptiva (F. lvarez) - 21

10
Una variable X tiene como media 8 y varianza 4. Qu transformacin lineal hemos de realizar con ella, para obtener una nueva variable Y que tenga por media 42 y desviacin tpica 10 ?. Se entiende por transformacin lineal a una relacin del tipo : Hemos de calcular los parmetros a y b desconocidos. Y = a + b.X

Haciendo uso de las propiedades de la media y la desviacin tpica, resulta : Y = a +b. X 42 = a + b. 8 Sobre la media s Y = b . s X 10 = b . 2 En relacin con la desviacin tpica La transformacin realizada fue : Y = 2 + 5.X

b = 5 a = 42 5 . 8 = 2

22 - Estadstica descriptiva (F. lvarez)

11
Las calificaciones de un alumno en dos test de conocimientos fueron 5'4 y 41. El primer test dio como media 5 con varianza 2 y, el segundo, media 38 con varianza 12. En qu test obtuvo mejor calificacin con relacin al grupo total de alumnos ?. Nos encontramos con dos distribuciones de calificaciones medidas en distintas escalas. Para poder comparar tendremos que referir ambas series de valores a otras equivalentes entre s (igual media y desviacin tpica). El proceso de tipificacin nos proporciona lo que deseamos (siempre obtendremos una distribucin con media 0 y desviacin tpica 1). Tipificando ambas calificaciones se obtiene : Nota del test 1 : 5' 4

z1 =

5' 4 5

= 0' 283

Nota del test 2 : 41

z1 =

2 41 38

= 0' 866

12

La nota obtenida en el segundo test es superior a la del primero en trminos comparativos.

Estadstica descriptiva (F. lvarez) - 23

12
a) Determinar la frecuencia desconocida, sabiendo que la estatura media es de 1515 cm. b) Calcule la amplitud semi-intercuartlica. c) Moda de la distribucin y coeficiente de asimetra que la utiliza. d) Percentil correspondiente a una estatura de 153 cm.. Explique su significado. e) Entre qu estaturas se encuentran las 25 centrales ?. f) Porcentaje de alumnos que miden ms de 157 cm. a) [140,145) [145,150) [150,155) [155,160) [160,165) b) n 12 35 51 20 7 N=125 N 12 47 98 118 125 Lugar Q1 = 125 . 25 / 100 = 3125 Q1 se encuentra en [145,150) x 1425 1475 1525 1575 1625 n 12 35 51 f 7 105+f n.x 1710 51625 77775 157'5.f 11375 157875+157'5.f La tabla de clculos de la media conduce a : Estatura en cm. [140,145) [145,150) [150,155) [155,160) [160,165) Alumnos 12 35 51 ? 7

1515 = '

15787'5 + 157'5. f 105 + f

Resolviendo deducimos que : f = 20

[140,145) [145,150) [150,155) [155,160) [160,165)

Q1 = 145 +

' 3125 12 .5 = 147 '75 35

Lugar Q3 = 125 . 75 / 100 = 9375 Q3 se encuentra en [150,155)

Q 3 = 150 +
Luego :

c)

1) x 1425 1475 1525 1575 1625

Q 3 Q1 154 '5833 147 '75 = = 3'4167 2 2 20 Moda en [150,155) : Mo = 150 + .5 = 1518182 ' 35 + 20 Q=
n 12 35 51 20 7 125 n.x 1710 51625 77775 3150 11375 189375 n.x2 243675 76146875 118606875 496125 18484375 287218125 d)

93'75 47 .5 = 154 '5833 51

' 287218125 ' 15152 125 s = 5'02 s= As = x Mo = 0'0634 s


125 47 100 .5 = 153 51

153 se encuentra en [150,155)

[140,145) [145,150) [150,155) [155,160) [160,165)

n 12 35 51 20 7 N=125

N 12 47 98 118 125

Pk = 150 +

k.

Resolviendo : k = 6208 62

e)

Lugar = 125 . 40 / 100 = 50 ; en [150,155) :

P40 = 150 + P60 = 150 +


Entre 15029 y 15275

50 47 .5 = 150'29 51 75 47 .5 = 152 '75 51

Lugar = 125 . 60 / 100 = 75 ; en [150,155) :

24 - Estadstica descriptiva (F. lvarez)

f) 157 se encuentra en [155,160)

Pk = 155 +

k.

125 98 100 .5 = 157 20

Resolviendo : k = 848% (porcentaje inferiores a 157) 100% - 848% = 152%

Luego, miden ms de 157 cm. :

Estadstica descriptiva (F. lvarez) - 25

13
Edad 22 a 25 19 a 22 16 a 19 13 a 16 10 a 13 Hombres 7 9 5 11 8 Mujeres 3 5 6 9 2 a) Determine el nmero de hombres con edades comprendidas entre los 11 y 15 aos. b) Cul de los dos grupos de edades est ms disperso ?. c) Con relacin al grupo integrado por los del mismo sexo, quin resulta ms joven, un hombre o una mujer de 20 aos ?.

[10,13) [13,16) [16,19) [19,22) [22,25)

x 115 145 175 205 235

n 8 11 5 9 7 40

N 8 19 24 33 40

Hombre 2 n.x n.x 92 1058 1595 231275 875 153125 1845 378225 1645 386575 688 12550

n 2 9 6 5 3 25

Mujer n.y 23 1305 105 1025 705 4315

n.y2 2645 189225 18375 210125 165675 775225

a)

11 pertenece al intervalo [10,13) :

15 pertenece al intervalo [13,16) : Entre 11 y 15 el 3833-667 = 3166%. b)

Luego hay : 40 . 3166 / 100 = 12664 13 hombres

40 0 100 Pk = 10 + .3 = 11 k = 6'67% 8 40 k. 8 100 Pk = 13 + .3 = 15 k = 38'33% 11 k.

Calculamos las varianzas de ambos grupos :

688 12550 = 17'2 ; s2 = 17'22 = 17'91 ; sx = 17'91 = 4'232 x 40 40 7752'25 4315 ' y= = 17'26 ; s2 = 17'262 = 12'1824 ; sy = 12'1824 = 3'49 y 25 25 x=
Siendo 1791 > 121824 Grupo hombres ms disperso de forma aboluta Pese a ser las medias prcticamente iguales, debemos emplear el coeficiente de variacin para estudiar la variabilidad relativa de ambos grupos :

CVx =
c)

4'232 3'49 .100 = 24'605% ; CVy = .100 = 20'220% hombres ms disperso 17'2 17'26

Tipificamos 20 en ambos grupos :

Z hombre =

20 17'26 20 17'2 = 0'662 ; Z mujer = = 0'785 12'1824 17'91


Como 0662 < 0785 Hombre ms joven

26 - Estadstica descriptiva (F. lvarez)

14
La tabla siguiente nos muestra las calificaciones de inicio del curso y al finalizar el mismo. Alumno 1 2 3 4 5 Inicio 4 5 1 5 2 Final 6 8 5 9 3 10 alumnos, en un test de clculo matemtico, al 6 3 6 7 2 7 8 1 6 9 1 4 10 3 9

a) Determine la media, desviacin tpica, mediana y moda de las calificaciones al inicio y al final del curso. b) Calcule la media y desviacin tpica del incremento o mejora de la calificacin obtenida. a) Inicio x x
2

4 16

5 25

1 1

5 25

2 4

3 9

2 4

1 1

1 1

3 9

27 95

x=
Ordenando valores : 1 1 1

27 95 = 2'7 ; sx = 2'7 2 = 1487 ' 10 10


2 2 3 3 Moda = 1 9 81 3 9 6 36 7 49 6 36 4 16 9 81 63 433 4 5 5

Mediana = 25 Final y y
2

6 36

8 64

5 25

y=
Ordenando valores : 3 b) Mejora d d
2

63 = 6'3 ; sy = 10
6 6

433 6'32 = 1'9 10


6 7 Moda = 6 8 9 9

Mediana = 6

2 4

3 9

4 16

4 16

1 1

3 9

5 25

5 25

3 9

6 36

36 150

d=
Media de la diferencia :

36 = 3'6 ; sd = 10

150 3'62 = 1428 ' 10


( No es vlido para dispersiones )

d = y x = 6'3 2'7 = 3'6

Estadstica descriptiva (F. lvarez) - 27

15
N Suspensos 0 1 2 3 4 5 a) Alumnos 16 20 14 15 10 5 a) Determine la media, desviacin tpica, coeficiente de variacin, mediana y moda del nmero de suspensos. b) Coeficiente de asimetra de Fisher. c) Puntuacin diferencial y tipificada correspondiente a 2 suspensos.

De la siguiente tabla de clculos obtenemos :

x=

158 = 1975 ' 80

s=

496 19752 = 15164 ' ' 80

CV =

15164 ' .100 = 76'78% 1975 '

Mediana : N/2 = 40 Me = 2

Moda = 1

x 0 1 2 3 4 5

n 16 20 14 15 10 5 80

N 16 36 50 65 75 80

n.x 0 20 28 45 40 25 158

n.x2 0 20 56 135 160 125 496

xx
-1975 -0975 0025 1025 2025 3025

n.( x x ) 3
-1232598 -185372 00002 161534 830377 1384032 957975

b)

n.( x x )
As = N s3

95'7975 = 80 3 = 0'3434 1'5164

Ligeramente asimtrica a la derecha (o positiva)

c)

x=2 ' d = x x = 2 1975 = 0'025 x x 0'025 z= = = 0'016 ' s 15164

28 - Estadstica descriptiva (F. lvarez)

16
Estatura 155-159 150-154 145-149 140-144 135-139 130-134 Nios 4 13 12 A 2 1 La altura en cm. de los nios de 12 aos, examinados durante la ltima semana en la unidad de crecimiento del centro hospitalario Crecebien, viene representada en la tabla de la izquierda. Sabiendo que la altura media de los mismos es 14775 cm., calcular : a) La frecuencia A del tercer intervalo. b) La simetra de la distribucin a partir de la comparacin de media, mediana y moda. c) El percentil correspondiente a un nio que mide 143 m..

x
132 137 142 147 152 157 TOTAL

n
1 2 A 12 13 4 32+A n 1 2 8 12 13 4

n.x
132 274 142.A 1764 1976 628 4774+142.A N 1 3 11 23 36 40

a)

x = 147'75 =

4774 + 142. A 32 + A

Resolviendo la ecuacin anterior obtenemos el valor de A : 14775.(32+A)=4774+142.A 4728+14775.A=4774+142.A 575.A = 46 A = 8

b) Intervalos [1295 , 1345) [1345 , 1395) [1395 , 1445) [1445 , 1495) [1495 , 1545) [1545 , 1595)

Calculemos la mediana y la moda de la distribucin : Moda en [1495 , 1545) :

Mo = 149'5 +
Lugar que ocupa la mediana = 40/2 = 20 Mediana en [1445 , 1495) :

4 .5 = 150'75 4 + 12

Me = 144'5 +

20 11 .5 = 148'25 12

Utilizando los coeficientes de asimetra :

As 2 =

x Mo s

As 3 =

3.( x Me) s

y siendo siempre positiva la desviacin tpica ,concluiremos que la simetra resultar del anlisis del signo del numerador.

x Mo = 147'75 150'75 = 3 < 0

3.( x Me ) = 3.( 147'75 148'25) = 1'5 < 0


Luego es asimtrica izquierda (o negativa). c) La altura 143 m. (= 143 cm.) se encuentra en el intervalo [1395 , 1445) :

k .40 3 0'4. k 3 Pk = 143 = 139'5 + 100 .5 3'5 = .5 8 8

3'5.8 8'6 + 3 = 0'4. k k = = 21'5 5 0'4

Luego corresponde al percentil 215.

Estadstica descriptiva (F. lvarez) - 29

17
X 10-12 7-9 4-6 1-3 n 10 100 60 30 Dada la siguiente distribucin de frecuencias., calcular : a) Media y desviacin tpica. b) Nmero de observaciones comprendidas entre las puntuaciones directas 35 y 95. c) Puntuaciones tpicas de los percentiles 20 y 80.

Ordenamos los intervalos de menor a mayor, expresndolos mediante sus extremos reales. Intervalos [ 05 , 35 ) [ 35 , 65 ) [ 65 , 9,5 ) [ 95 , 125 ] Totales a) b) c) n 30 60 100 10 200 x 2 5 8 11 n.x 60 300 800 110 1270 n.x2 120 1500 6400 1210 9230 N 30 90 190 200

x=

1270 = 6'35 200

s2 =

9230 6'352 = 58275 ' 200

s = 58275 = 2'414 '

De la observacin directa de la tabla se concluye que es 160 (60+100). Percentil 20 : Lugar = 20 x 200 / 100 = 40

40 30 P20 = 35 + ' .3 = 4 60

(Observando N) se encuentra en [ 35 , 65 )

z=

4 6'35 = 0'9735 2'414

Percentil 80 :

Lugar = 80 x 200 / 100 = 160

160 90 P80 = 6'5 + .3 = 8'6 100

(Observando N) se encuentra en [ 65 , 9,5 )

z=

8'6 6'35 = 0'9321 2'414

30 - Estadstica descriptiva (F. lvarez)

18
x 0 1 2 3 n 6 12 21 11 Haciendo uso de coeficientes basados en medidas de posicin, estudie la asimetra y el apuntamiento de la distribucin.

Tales coeficientes son el de asimetra de Yule y el de curtosis de Kelley. Obtengamos los percentiles que intervienen en su clculo a travs de la columna de porcentajes acumulados (P) : x 0 1 2 3 Con ellos : n 6 12 21 11 50 r 012 024 042 022 p 12 24 42 22 P 12 36 78 100 Cuartil 1 : (25%) Cuartil 3 : (75%) Mediana : (50%) Percentil 10 : (10%) Percentil 90 : (90%) 1 2 2 0 3 (asimtrica a la izquierda o negativa)

Y=

Q3 2. Me + Q1 2 2.2 + 1 = = 1 2 1 Q3 Q1 Q 3 Q1 21 Q 2 2 0'263 = 0'263 = 0'0963 K= 0'263 = P90 P10 P90 P10 3 0

(ligeramente platicrtica o aplastada)

Estadstica descriptiva (F. lvarez) - 31

19
Determine las medias aritmtica, geomtrica y armnica de la variable X que toma los valores siguientes : 5 , 1 , 5 , 4 , 8. Media aritmtica : Media geomtrica : Media armnica :

x=

xi
N
N

5 + 1 + 5 + 4 + 8 23 = = 4'6 5 5
1 5

x G = x1 . x 2 . ... . x N = 5 515.4.8 = 5 800 = 800 .. 5 5 N = = = 2'817 xA = 1 1 1 1 1 1 1775 ' x 5 + 1 + 5 + 4 + 8 i

= 800 0'2 = 3807 '

32 - Estadstica descriptiva (F. lvarez)

20
x 1 2 3 n 3 10 7 20 Determine las medias aritmtica, geomtrica y armnica de la distribucin.

Generalizamos las expresiones correspondientes al figurar frecuencias : Media aritmtica :

x=

n .x
i

3.1 + 10.2 + 7.3 44 = = 2'2 20 20

Media geomtrica :

n n xG = N x1n1 .x 2 2 .....x n n = 20 13.210.37 =

= 20 2239488 = 2239488
Media armnica :

20

= 22394880'05 = 2'077

xA =

N n xi i

20 20 = = 1'935 3 10 7 10'333 + + 1 2 3

Estadstica descriptiva (F. lvarez) - 33

21
Con el fin de estudiar la edad media y la dispersin de edades en un centro educativo, el director solicita estos datos a los responsables de los distintos niveles, resultando : 200 alumnos de Primaria con media 11 aos y varianza 25. 140 alumnos de Secundaria con media 146 aos y varianza 2. 165 alumnos de Bachillerato con media 171 aos y varianza 09. Cul es la edad media y la varianza del colectivo total de alumnos del centro ?. Media conjunta de los 3 grupos

X=

n i . xi ni

20011 + 14014'6 + 16517'1 70655 . . . ' = = 13'99 200 + 140 + 165 505
2

Varianza conjunta de los 3 grupos S2 =

n i .S 2 + n i .( x i X) i ni ni

200.2'5 + 140.2 + 165.0'9 200.(11 13'99) 2 + 140.(14'6 13'99) 2 + 165.(17'1 13'99) 2 + = 505 505 928'5 3436'0105 ' = + = 1839 + 6'804 = 8'643 505 505 =

34 - Estadstica descriptiva (F. lvarez)

22
De las 10 observaciones de dos variables X , Y, conocemos : X = 114 ; X2 = 1410 ; Y = 34 ; Y2 = 154 ; XY = 398 . Determine la media y varianza de la variable V = X - Y. Calculemos la media y varianza de X, la media y varianza de Y, as como la covarianza.

X=

114 = 114 ' 10

Y=

34 = 3'4 10
SXY = N

S2 = X

1410 114 2 = 1104 ' ' 10


10

S2 = Y

154 3'4 2 = 384 ' 10

Xi . Yi X. Y = 398 114.3'4 = 104 ' '


V = X Y = 114 3'4 = 8 '

Con ello :
2 S 2 = S 2 + S Y 2.S XY = 1104 + 384 2.104 = 12'8 ' ' ' V X

Estadstica descriptiva (F. lvarez) - 35

23
El estudio de las faltas de asistencia a clase de alumnos de un grupo de 3 de Secundaria produjo los resultados siguientes : Faltas Alumno s 1 4 2 3 3 3 4 2 5 3 6 2 7 1 8 2

Determine la mediala y estudie analtica y grficamente el grado de concentracin de la distribucin. Los clculos de la mediala, ndice de Gini y curva de Lorenz, se obtienen a partir de la siguiente tabla auxiliar: xi 1 2 3 4 5 6 7 8 ni 4 3 3 2 3 2 1 2 Ni = ni. 4 7 10 12 15 17 18 20 Pi = (Ni.. /N).100 20 35 50 60 75 85 90 100 ti = ni. xi 4 6 9 8 15 12 7 16 T i = ti . 4 10 19 27 42 54 61 77 Qi = (Ti.. /T).100 5'195 12'987 24'675 35'065 54'545 70'130 79'221 100 Pi - Qi 14'805 22'013 25'325 24'935 20'455 14'870 10'779 0

N = 20

TP = 515

T = 77

TD =133'182

Uniendo el origen del rectngulo (0 , 0) con los sucesivos puntos (Pi , Qi) obtenemos la curva de Lorenz de la derecha. Las sumas TD y TP permiten obtener el ndice de Gini :

G=

TD 133182 ' = = 0'3209 TP 100 515 100

Concluimos la presencia de una cierta concentracin (lo cul tambin se advierte con la grfica).

Mediala = 5 ya que el primer valor que iguala o supera a 50 en la columna Qi es 54'545, el cul corresponde a x = 5.

36 - Estadstica descriptiva (F. lvarez)

24
Un anlisis del pago de impuesto en el sector de hostelera ofreci los resultados siguientes (importes mensuales por 10.000 pesetas) : Importe Empresas [0,2) 2 [2,4) 6 [4,6) 26 [6,8) 40 [8,10) 21 [10,12] 5

Determine la mediala y estudie analtica y grficamente el grado de concentracin de la distribucin. Los clculos de la mediala, ndice de Gini y curva de Lorenz, se obtienen a partir de la siguiente tabla auxiliar: xi [0,2) [2,4) [4,6) [6,8) [8,10) [10,12] 1 3 5 7 9 11 ni 2 6 26 40 21 5 Ni = ni. 2 8 34 74 95 100 Pi = (Ni.. /N).100 2 8 34 74 95 100 ti = ni. xi 2 18 130 280 189 55 T i = ti . 2 20 150 430 619 674 Qi = (Ti.. /T).100 0'297 2'967 22'255 63'798 91'840 100 Pi - Qi 1'703 5'033 11'745 10'202 3'160 0

N =100
Con TD y TP obtenemos el ndice de Gini :

TP = 313

T = 674

TD =31'843

G=

TD 31843 ' = = 01495 ' TP 100 313 100

Concluimos que existe una concentracin muy baja (lo cul manifestar tambin la grfica de Lorenz). Uniendo el origen del rectngulo (0 , 0) con los sucesivos puntos (Pi , Qi) obtenemos la curva de Lorenz de la derecha.

Mediala en el intervalo [6 , 8) ya que el primer valor que iguala o supera a 50 en la columna Qi es 63'798, el cul corresponde al intervalo indicado. De aqu :

Ml = e i +

50 Q i1 50 22'255 .a i = 6 + .2 = 7'3357 Q i Q i1 63'798 22'255

Estadstica descriptiva (F. lvarez) - 37

25
x 0 1 2 3 4 f 2 8 10 3 1 Haciendo uso del clculo de momentos ordinarios de rdenes 1 al 4, determine el valor de la media, varianza, asimetra y curtosis de la distribucin de la izquierda.

Tabla de clculo de momentos ordinarios :

a1 x
0 1 2 3 4 Totales :

a2 n.x
0 8 40 27 16 91
2

a3 n.x
3

a4 n.x4
0 8 160 243 256 667

n
2 8 10 3 1 24

n.x
0 8 20 9 4 41

0 8 80 81 64 233

Orden 1 2 3 4

ak =

k n k n.x .x = N N 41 = 17083 ' a1 = 24 91 a2 = = 3'7917 24 233 a3 = = 9'7083 24 667 a4 = = 27'7917 24

mk
m1 = 0

m2 = a 2 a12 = 3'7917 170832 = 0'8734 ' m3 = a 3 3. a 2 . a1 + 2. a13 = ... = 0'2468 m4 = a 4 4. a 3 . a1 + 6. a 2 . a12 3. a14 = ... = 2'2954

Con los momentos calculados : Media Varianza Coeficiente de asimetra

Coeficiente de curtosis

= x = a1 = 17083 ' 2 2 = sx = m2 = 0'8734 m3 0'2468 As = 3 = 3 = 0'3024 0'8734 m2 2'2954 m 3 = 0'0091 K = 42 3 = m2 0'87342

) (

38 - Estadstica descriptiva (F. lvarez)

26
Haciendo uso del coeficiente de variacin, compare la dispersin o variabilidad relativa de las dos variables descritas en cada uno de los apartados siguientes : a) El peso medio de los toros de una ganadera es de 410 kg. con desviacin tpica de 1 kg. y, el peso medio de los perros de una granja es de 8 kg. con igual desviacin tpica. b) Dos fbricas producen tornillos con igual longitud media (50 mm.), siendo la desviacin tpica de la primera de 2 mm. y de 12 mm. la de la segunda. a)

CVT = CVA =

1 .100 = 0'2439% 410 2 .100 = 4% 50

1 CVP = .100 = 12'5% 8 12 .100 = 24% 50

El

peso

de

los

perros

tiene

mayor

variabilidad b)

CVB =

Los de la 2 tienen mayor variabilidad

Estadstica descriptiva (F. lvarez) - 39

27
X 0-6 7-13 14-20 21-27 28-34 nA 4 6 9 12 9 nB 4 7 9 8 2 La tabla muestra la comprensin lectora (X) de dos grupos de sujetos educados en niveles socioculturales altos (A) y bajos (B). Si a partir de la puntuacin X=19 se considera una comprensin lectora buena, calcular : a) El porcentaje de personas en cada grupo con una buena comprensin lectora. b) Cul de los dos grupos presenta mayor variabilidad ? (Razone adecuadamente su respuesta).

Expresamos los intervalos con extremos reales, obteniendo la tabla de clculos de percentiles, media y varianza de ambos grupos.

x
[-0'5,6'5) [6'5,13'5) [13'5,20'5) [20'5,27'5) [27'5,34'5] a) 3 10 17 24 31

nA
4 6 9 12 9 40

NA
4 10 19 31 40

nA.x
12 60 153 288 279 792

nA.x2
36 600 2601 6912 8649 18798

nB
4 7 9 8 2 30

NB
4 11 20 28 30

nB.x
12 70 153 192 62 489

nB.x2
36 700 2601 4608 1922 9867

Calculemos el orden k del percentil que es igual a 19. Este nos da el porcentaje de los que tienen menos de 19 puntos, luego, como deseamos saber el porcentaje de los superiores a 19, la respuesta ser su diferencia hasta 100. El valor 19 se encuentra en el intervalo [13'5,20'5) : En el grupo A :

k.40 10 Pk = 19 = 135 + 100 ' .7 9


En el grupo B :

k = 42'68

Luego el 57'32% (100 - 42'68) tienen buena comprensin lectora en el grupo A.

k.30 11 Pk = 19 = 135 + 100 ' .7 9


b)

k = 60'24

Luego el 39'76% (100 - 60'24) tienen buena comprensin lectora en el grupo B. Mayor variabilidad la presentar aquel grupo que posea mayor dispersin entre sus valores. Con mayor rigor, si la media es representativa de las observaciones (no existen valores extremos exageradamente distanciados de la mayora), es el coeficiente de variacin el ms adecuado para medir la variabilidad relativa entre dos series estadsticas (mayor coeficiente indica menor homogeneidad; un menor valor indicar menor dispersin o variabilidad). Si comparamos mediante las varianzas :

XA =

792 18798 489 9867 2 = 19'8 ; S A = 19'82 = 77'91 ; X B = = 16'3 ; S 2 = 16'32 = 63'21 B 40 40 30 30

el grupo A presenta una mayor variabilidad. Si comparamos mediante los coeficientes de variacin :

CVA =

SA 77'91 .100 = .100 = 44'58% XA 19'8

CVB =

SB 63'21 .100 = .100 = 48'78% XB 16'3

luego, concluimos que el grupo B presenta una mayor variabilidad relativa (44'58 < 48'78), en contra de lo obtenido comparando varianzas.

40 - Estadstica descriptiva (F. lvarez)

28
X 0-6 7-13 14-20 21-27 28-34 nA 4 6 9 12 9 nB 4 7 9 8 2 La tabla muestra la comprensin lectora (X) de dos grupos de sujetos educados en niveles socioculturales altos (A) y bajos (B). Si a partir de la puntuacin X=19 se considera una comprensin lectora buena, calcular : a) El porcentaje de personas en cada grupo con una buena comprensin lectora. b) Cul de los dos grupos presenta mayor variabilidad ? (Razone adecuadamente su respuesta).

Expresamos los intervalos con extremos reales, obteniendo la tabla de clculos de percentiles, media y varianza de ambos grupos.

x
[-0'5,6'5) [6'5,13'5) [13'5,20'5) [20'5,27'5) [27'5,34'5] a) 3 10 17 24 31

nA
4 6 9 12 9 40

NA
4 10 19 31 40

nA.x
12 60 153 288 279 792

nA.x2
36 600 2601 6912 8649 18798

nB
4 7 9 8 2 30

NB
4 11 20 28 30

nB.x
12 70 153 192 62 489

nB.x2
36 700 2601 4608 1922 9867

Calculemos el orden k del percentil que es igual a 19. Este nos da el porcentaje de los que tienen menos de 19 puntos, luego, como deseamos saber el porcentaje de los superiores a 19, la respuesta ser su diferencia hasta 100. El valor 19 se encuentra en el intervalo [13'5,20'5) : En el grupo A :

k.40 10 Pk = 19 = 135 + 100 ' .7 9


En el grupo B :

k = 42'68

Luego el 57'32% (100 - 42'68) tienen buena comprensin lectora en el grupo A.

k.30 11 Pk = 19 = 135 + 100 ' .7 9


b)

k = 60'24

Luego el 39'76% (100 - 60'24) tienen buena comprensin lectora en el grupo B. Mayor variabilidad la presentar aquel grupo que posea mayor dispersin entre sus valores. Con mayor rigor, si la media es representativa de las observaciones (no existen valores extremos exageradamente distanciados de la mayora), es el coeficiente de variacin el ms adecuado para medir la variabilidad relativa entre dos series estadsticas (mayor coeficiente indica menor homogeneidad; un menor valor indicar menor dispersin o variabilidad). Si comparamos mediante las varianzas :

XA =

792 18798 489 9867 2 = 19'8 ; S A = 19'82 = 77'91 ; X B = = 16'3 ; S 2 = 16'32 = 63'21 B 40 40 30 30

el grupo A presenta una mayor variabilidad. Si comparamos mediante los coeficientes de variacin :

CVA =

SA 77'91 .100 = .100 = 44'58% XA 19'8

CVB =

SB 63'21 .100 = .100 = 48'78% XB 16'3

luego, concluimos que el grupo B presenta una mayor variabilidad relativa (44'58 < 48'78), en contra de lo obtenido comparando varianzas.

Estadstica descriptiva (F. lvarez) - 41

EJERCICIOS PROPUESTOS
1
Las edades de los alumnos que asisten a clase de repaso en una academia son las siguientes. 14 19 16 16 18 a) b) c) d) 16 15 15 16 18 16 15 16 15 16 19 16 18 16 18 17 17 14 17 17 17 14 15 15 17 15 15 14 17 17 17 16 17 14 17 17 17 13 16 15 15 16 18 16 16

Construir la tabla completa de frecuencias. Calcular la moda. Determinar su media aritmtica, varianza y desviacin tpica. Obtener el valor de la mediana, del percentil 29 y de la amplitud semi-intercuartlica.

2
La tabla siguiente contiene los pesos en kg. de los alumnos de un curso. 40 51'5 44 50 43 57 40 45 58 43 45 43'5 48 44 50 45'5 47 56 50'5 53 41'5 44 49'5 59 40'5 50 41 39 43 50'5 55 40 47 46 58 38 52 42 51 39'5

a) Agrupar los valores en intervalos de 5 kg. de amplitud, comenzando por 35 kg., realizando un recuento de los mismos y confeccionando la tabla completa de frecuencias b) Calcular la moda de dicha distribucin de pesos. c) Determinar su media aritmtica, varianza y desviacin tpica. d) Obtener el valor de la mediana, y del 8 decil.

3
Sea la siguiente distribucin de frecuencias: x 1 2 3 4 n 10 15 12 8

a) Calcular la media de esta distribucin. b) Si se suma a los valores de xi la cantidad A, qu relacin guarda la media de la nueva distribucin con la de la anterior ?. Generalizar este resultado y demostrar que si en una distribucin de frecuencias de media m, se sustituyen los valores xi por xi + A, manteniendo las frecuencias, la media m' de la nueva distribucin verifica : m'= A + m c) Utilizando la igualdad obtenida, cmo podra calcularse ms fcilmente la media de la distribucin siguiente ? x 2752 2754 2756 2758 n 36 54 24 18

4
Una serie familias se han clasificado por su nmero de hijos, resultando : N de hijos N de familias 0 11 1 13 2 20 3 25 4 14 5 10 6 4 7 2 8 1

Se pide: a) Calcular la tabla completa de frecuencias. b) Representaciones grficas. c) Calcular la media, mediana y moda. d) Hallar el recorrido, varianza y desviacin tpica.

42 - Estadstica descriptiva (F. lvarez)

5
Ordenar las cuatro distribuciones siguientes de mayor a menor dispersin.

6
Los precios de una chaqueta en once establecimientos fueron (en pts.): 5000 5200 5300 5600 6000 6400 6500 7200 Calcular la desviacin media respecto de la mediana y respecto de la media. 7300 8400 9000

7
Si en una distribucin de frecuencias duplicamos las amplitudes de los intervalos, qu suceder, aproximadamente, con los valores de las frecuencias ?.

8
Represente el histograma correspondiente a la siguiente distribucin de edades de los trabajadores de una fbrica. Edades de 20 a menos de 25 de 25 a menos de 35 de 35 a menos de 45 de 45 hasta 65 N de trab. 15 20 48 24

9
Ponga un ejemplo sencillo de una distribucin de frecuencias simtrica. Calcule su moda, media y mediana, verificando que los tres parmetros coinciden.

10
A la izquierda se muestra el grfico representativo de las frecuencias absolutas acumuladas de la distribucin de edades de 40 individuos. a) Obtenga su media, mediana y moda. b) Cuntos tienen edades inferiores a cinco aos y medio ?

Estadstica descriptiva (F. lvarez) - 43

11
Una variable X tiene como media 21 y varianza 9. Si se obtiene una nueva variable Y multiplicando los elementos de X por 4 y restndoles 8 unidades, cul es el valor del coeficiente de variacin de Y ?.

12
Una variable X toma los valores : 2 5 5 6 7 Realizada una transformacin lineal con ella, se gener una nueva variable de la que conocemos que su media era 15 y que la puntuacin X=2 se transform en Y=13. Calcule las cuatro puntuaciones Y desconocidas.

13
X 0 1 2 3 4 5 n 3 9 13 25 16 14 Estudie la simetra y el apuntamiento (curtosis) de la distribucin de la izquierda.

NOTA : Obtenga los distintos coeficientes conocidos. Compare los resultados.

14
Nota 9 - 10 7-8 5-6 3-4 1-2 Alumnos 2 0 4 14 12 La tabla de la izquierda nos muestra la distribucin de calificaciones de los 32 alumnos de un curso. a) Determine su media, mediana y moda. b) Qu porcentaje de observaciones tienen nota inferior a 162 ?. c) Entre qu valores se encuentra el 70% de las notas centrales ? d) Obtenga el coeficiente de variacin y la amplitud semi-intercuartlica.

15
Nota [0 , 1) [1 , 2) [2 , 3) [3 , 4) [4 , 5) [5 , 6) [6 , 7) [7 , 8] n N 1 1 5 11 6 19 De la distribucin de notas de 20 alumnos, calcular : a) Frecuencias absolutas simples (f) y acumuladas (F) que faltan en la tabla. b) Coeficiente de variacin. c) Porcentaje de alumnos con notas inferiores a 2'6. d) Entre qu notas se encuentra el 10% de las calificaciones centrales ?. e) Momentos ordinarios y centrales hasta el 4 orden. f) Coeficientes de asimetra y curtosis, utilizando los momentos calculados en e).

16
Con el fin de estudiar la distribucin de fallos en una pieza de tela, se realiz un recuento de los contenidos en cada metro. Los resultados fueron los siguientes : Fallos N de metros 0 25 1 8 2 4 3 1 4 1 5 1 6 2 7 1 8 3 9 4

a) Estudie el grado de concentracin de la distribucin de fallos a lo largo de la pieza de tela. b) Calcule su media y su mediala.

17
La tabla siguiente muestra los fallos cometidos por alumnos en la realizacin de un test de 120 items. Errores Alumnos [0 , 10) 25 [10 , 20) 20 [20 , 30) 22 [30 , 40) 16 [40 , 50) 29 [50 , 60) 24 [60 , 70) 38 [70 , 80) 26

a) Estudie el grado de concentracin de la distribucin de preguntas con respuesta errnea. b) Calcule su mediala.

44 - Estadstica descriptiva (F. lvarez)

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS


1
a) x 13 14 15 16 17 18 19 n 1 5 10 14 13 5 2 r 0'02 0'10 0'20 0'28 0'26 0'10 0'04 p 2 10 20 28 26 10 4 N 1 6 16 30 43 48 50 R 0'02 0'12 0'32 0'60 0'86 0'96 1'00 P 2 12 32 60 86 96 100

b) c) d)

Mo = 16 x = 16'12 ; s2 = 1'7856 ; s = 1'3363 Me = 16 ; P29 = 15 ; Q = 1 Intervalo [35,40) [40,45) [45,50) [50,55) [55,60] n 3 14 8 9 6 r 0'075 0'350 0'200 0'225 0'150 p 7'5 35'0 20'0 22'5 15'0 N 3 17 25 34 40 R 0'075 0'425 0'625 0'850 1'000 P 7'5 42'5 62'5 85'0 100'0

2
a)

b) c) d)

Mo = 43'636 x = 47'625 ; s2 = 36'859 ; s = 6'071 Me = 46'875 ; D8 = 53'889

3
a) b) c)

x = 2'4 2'4 + A
Realizando el cambio : y =

x 2754 2
N 11 13 20 25 14 10 4 2 1 11 24 44 69 83 93 97 99 100 R 0'11 0'24 0'44 0'69 0'83 0'93 0'97 0'99 1'00 P 11 24 44 69 83 93 97 99 100
5 10%

4
a) x 0 1 2 3 4 5 6 7 8 n 11 13 20 25 14 10 4 2 1 r 0'11 0'13 0'20 0'25 0'14 0'10 0'04 0'02 0'01 p

b)

25 20 15 10 5 0 0 1 2 3 4 5 6 7 8
3 25% 4 14%

6 7 4% 8 2% 1%

0 11%

1 13%

2 20%

c) d)

x = 2'8 ; Me = 3 ; Mo = 3 R = 8 ; s2 = 3'14 ; s = 1'772


Estadstica descriptiva (F. lvarez) - 45

5
A , D , C , B.

6 7

D Me = D x = 870

Se dividen por dos.

8
Las alturas deben ser proporcionales al rea. Dividimos las frecuencias segn sea la amplitud del intervalo. Alturas : 15 10 (20/2) 24 (48/2) 6 (24/4)

9
x 0 1 2 3 4 n 2 8 20 8 2 40

= Me = Mo = 2

10
a) b)

x = 4'7 ; Me = 5 ; Mo = 6
20

11
CV = 15'789

12
15 , 15 , 15'667 , 16'333

13
As =

n .(x
i

x)

As1 =
simtrica).

x Mo

= - 0'299561

ligeramente asimtrica a la izquierda

= 0'036786

ligeramente asimtrica a la derecha (prcticamente

As2 =

3.( x Md )

= - 0'110357

ligeramente asimtrica a la izquierda

Los coeficientes basados en la moda y la mediana hacen uso de una relacin terica entre los parmetros de centralizacin. Generalmente no conducen a la misma conclusin, salvo distribuciones claramente asimtricas. 46 - Estadstica descriptiva (F. lvarez)

n .(x
i

x)

K=

3 = - 0'620240

ligeramente aplastada (mesocrtica)

14
a) c) 3375 ; 30714 ; 3 13 y 51 b) d) 21% 60'9707% ; 11905

15
a) b) c) d) e) f) n = 1, 0, 4, 3, 3, 6, 2, 1 N = 1, 1, 5, 8, 11, 17, 19, 20 38'6364 17 4'333 y 5 a1 = 4'4 ; a2 = 22'25 ; a3 = 121'7 ; a4 = 703'0625 m1 = 0 ; m2 = 0 ; 2'89 ; m3 = -1'6320 ; m4 = 21'2737 A = -0'3322 ; K = -0'4529

16
ndice de Gini = 0'6567 Media = 2'14 ; Mediala = 8

17
ndice de Gini = 0'394 Mediala = 60'5263

Puede que sus resultados no coincidan exactamente con los ofrecidos. Todo depende del nmero de cifras decimales

que emplee en sus clculos. Estadstica descriptiva (F. lvarez) - 47