Вы находитесь на странице: 1из 90

ESTADSTICA DESCRIPTIVA

Ing. Sergio Castro Viloria Especialista en Estadstica Aplicada

DEFINICIONES BSICAS

Estadstica: Ciencia que recoge, clasifica, representa y resume los datos de muestras, as como de establecer inferencias de las poblaciones de las cuales ellas provienen. Estadstica Descriptiva: Resumen muestras Estadstica Inferencial: Conclusiones de la poblacin a partir de las muestras.
28/08/2012

CONCEPTOS GENERALES

Poblacin: Conjunto de individuos con propiedades comunes sobre los cuales se realiza la investigacin estadstica. Muestra: Subconjunto de la poblacin Tamao Muestral: # individuos de la muestra. Muestreo: Proceso mediante el cual se obtienen muestras representativas de la poblacin. Variable: Propiedad que puede manifestarse bajo 2 o ms formas distintas en un individuo en una poblacin. Modalidades o categoras de una variable: Distintas formas en que se manifiesta esta ltima.
28/08/2012

TIPOS DE VARIABLES

Multiestado: Pueden tomar ms de 2 valores Binarias: Toman slo 2 valores (S o No) Cualitativas: Expresan cualidades o atributos (Color)

Ordinales: Admiten ordenacin de menor a mayor, pero con resultados no numricos (Percepciones de calidad) Nominales: No admiten dicha ordenacin (Color)

Cuantitativas: Expresan cantidades resultados de medicin con algn instrumento, conteos de eventos u operaciones matemticas simples.

Discretas: Magnitud en nmeros enteros (Cantidad de hijos) Continuas: # infinito de valores entre dos puntos de la escala de medida utilizada (Peso) Derivadas: Clculos simples de Variables discretas o continuas (IMC)
28/08/2012

ESCALAS DE MEDIDA

Nominal: La cantidad que se mide no tiene secuencia lgica (Sexo) Ordinal: Las observaciones pueden ordenarse de menor a mayor, pero las distancias no tienen sentido. (Calidad) Intervalo: Las distancias tienen sentido, su magnitud es igual a lo largo de la escala, se pueden hacer comparaciones. Pero no productos o divisiones. El cero es arbitrario. (Temperatura)
28/08/2012

La diferencia entre una temperatura de 14 y 16 grados es la misma que la existente entre una diferencia de 25 y 27. Pero no se puede decir que una temperatura de 20 equivale a la mitad de una de 10. Razn: Con las mismas caractersticas de las variables de intervalo, pero aqu el cero es absoluto, e indica la ausencia de medida, por lo que es posible realizar cualquier operacin aritmtica (+,-,x,/) y lgica (Comparacin u ordenamiento). Permiten el nivel ms alto de medicin. Ej: Altura, peso.
28/08/2012

ELABORACIN DE TABLAS O CUADROS

Las tablas facilitan el anlisis y la presentacin de la informacin. Lo primero que se debe hacer es identificar las caractersticas que se investigaron, para clasificar mejor lo observado. (Caractersticas cualitativas o atributos, y cuantitativas o variables). Las tablas se clasifican segn el nmero de caractersticas que se estudian, en unidimensionales, bidimensionales o pluridimensionales

28/08/2012

ALGUNAS REGLAS PARA ELABORAR CUADROS

Las tablas son arreglos sistemticos de datos, para ello no debe olvidar: Establecer un criterio de ordenacin (alfabtico, cronolgico, importancia, proporcionales o por intervalos) El cuadro debe ser lo ms sencillo posible. Numeracin El ttulo debe ser claro y conciso, respondiendo al qu, cmo y cundo se hizo.

28/08/2012

TABULACIN DE DATOS

Variables Cualitativas: Color de Ojos Ejemplo 1: Datos cualitativos (no ordenados)


Marrones Marrones Azules Negros Azules Marrones Verdes Azules Verdes Azules Marrones Verdes Verdes Negros Negros Miel Negros Negros Azules Verdes Marrones Verdes Azules Verdes Azules

Azules
Verdes Azules

Marrones
Marrones Marrones

Marrones
Miel Azules

Azules
Marrones Azules

Azules
Verdes Marrones

28/08/2012

CONCEPTOS Y FRMULAS

Frecuencia Absoluta clase i-sima: = Cantidad de observaciones dentro de la clase.

Frecuencia Relativa clase i-sima: = , con n el


nmero total de datos. Se puede expresar en forma decimal o en porcentaje. Propiedades: 1 + 2 + + = 1 + 2 + + = 1 Con k el nmero de clases. Distribucin de frecuencias: Tabla que contiene las clases y frecuencias correspondientes a cada una de ellas.

28/08/2012

Ejemplo distribucin de frecuencias para los datos anteriores (Color de ojos):


Clase Negros Verdes Frecuencia Absoluta 5 9 Frecuencia Relativa 0,125 0,225 Porcentaje 12,5 22,5

Marrones
Azules Miel

11
13 2

0,275
0,325 0,05

27,5
32,5 5

TOTAL

40

100

28/08/2012

VARIABLES DISCRETAS

Ejemplo 2 (Bencardino): La siguiente tabla recoge el nmero de imperfecciones en una tela utilizada para hacer vestidos de alta costura:
1 2 3 1 2 2 1 3 4 3 2 1 2 1 4 3 2 0 2 2

2
3

0
2

2
2

3
0

1
3

28/08/2012

Se pueden calcular, adems de los mismos criterios mostrados en el caso cualitativo, lo siguiente: Frecuencia absoluta acumulada de la clase i-sima = ;1 + = 1 + 2 + +
Es igual al nmero de datos que caen en la clase y cualquier clase anterior (despus de ordenar las clases de menor a mayor)
Frecuencia relativa acumulada de la clase i-sima = 1 + 2 + + =

28/08/2012

Para los datos discretos anteriores se tiene:


Nmero de Frecuencia Frecuencia desperfectos Absoluta Relativa
0 1 2 3 4 TOTAL 3 6 12 7 2 30 0,1 0,2 0,4 0,23 0,07 1

Frecuencia Frecuencia Absoluta Relativa Acumulada Acumulada


3 9 21 28 30 0,1 0,3 0,7 0,93 1

28/08/2012

VARIABLES CONTINUAS
Generalmente se divide el intervalo de valores posibles en intervalos secuenciales llamados intervalos de clase. Despus de agrupar los datos en intervalos, se tabulan de manera similar a los casos de variable discreta. Rango de las observaciones: = Nmero de intervalos (Frmula de Sturges): = 1 + 3,3() Generalmente se aproxima al entero superior el resultado.

Amplitud de intervalo: =

Se expresa en la tabla as:

= :1 , indica lmites de intervalo Marca de clases del intervalo: = (:1 + )/2


28/08/2012

Ejemplo 3 (Bencardino): Se toma una muestra de 30 cajas con el fin de investigar el peso de cada caja en Kg.
48 56 60 70 63 72 92 70 69 85 68 82 52 58 76

67
47 70

76
74 67

61
71 79

55
65 88

57
72 67

28/08/2012

1. 2.

3.

Agrupando en intervalos de clase de igual amplitud: Se calcula el Rango = = 92 47 = 45 Nmero de intervalos: = 1 + 3,3 log = 1 + 3,3 log 30 = 5,87 6 La amplitud de cada intervalo es 45 = = = 7,5 8 6 Como se tom una amplitud un poco mayor de los datos originales, el nuevo rango sera: = # = 6 8 = 48 El recorrido original es 45, con lo que sobran 3 unidades, las cuales podemos distribuir sumando unas unidades al lmite superior y restando otras al lmite inferior, preferiblemente distribuyndolo de manera proporcional.
28/08/2012

Para este caso, restamos una unidad a = 47 1 = 46 y sumamos dos unidades a = 92 + 2 = 94, para tener el Rango obtenido de 48. Y as se obtienen los 6 intervalos de clase determinados por los valores siguientes: 1 = 47 1 = 46 46 + 8 = 54 54 + 8 = 62 62 + 8 = 70 70 + 8 = 78 78 + 8 = 86 86 + 8 = 94 = + 2

28/08/2012

Los intervalos son: (46;54],(54;62],(62;70],(70;78],(78;86],(86;94] Se agrupan los datos en los intervalos de clase y se obtiene su distribucin de frecuencias, como se muestra:
Intervalo de Marca de clase clase (46 ; 54] (54 ; 62] (62 ; 70] 50 58 66 Frecuencia Frecuencia Absoluta Relativa 3 6 10 0,1 0,2 0,33 Frecuencia Frecuencia Absoluta Relativa Acumulada Acumulada 3 9 19 0,1 0,3 0,63

(70 ; 78]
(78 ; 86] (86; 94] Total

74
82 90

6
3 2 30

0,2
0,1 0,07 1

25
28 30

0,83
0,93 1

28/08/2012

REPRESENTACIONES GRFICAS

Un grfico estadstico es una representacin pictrica, cuyo objetivo es expresar el comportamiento de una variable en estudio. Un grfico sirve tambin para comparar visualmente el comportamiento de dos o ms variables similares o relacionadas

28/08/2012

PARTES DE UN GRFICO ESTADSTICO


1. 2.

3.

4.

5.

Numeracin : De los grficos. Ttulo: Aqu se seala la poblacin en estudio y la variable. Diagrama: Dado por el propio dibujo el cual representa el comportamiento de los datos. Escalas y/o leyendas: Son indicadores donde se precisa la correspondencia entre los elementos del grfico y la naturaleza de la medidas representadas. Fuente: Aqu se seala de donde se obtuvo la informacin que permiti obtener el respectivo grfico.

28/08/2012

Ttulo

GRFICO N 02

Numeracin

DISTRIBUCION DE ALUMNOS SEGN ESCUELA PROFESIONAL UPNTRUJILLO 2009


30 25 PORCENTAJE ALUMNOS 20,6 20 15 10 5 8,8 17,7

Diagrama

26,5 23,5

2,9

Escalas

0
CONTAB. CC. COMUNIC. NEG. INT. INDUSTRIAL SISTEMAS DERECHO

ESCUELAS PROFESIONALES

Fuente: oficina de Admisin UPN

Fuente
28/08/2012

TIPOS DE GRFICOS ESTADSTICOS


Hay varias formas de hacer la representacin grfica de un conjunto de datos estadsticos. Presentaremos aqu los ms importantes:
a. Histograma b. Polgono de frecuencias c. Grfico de barras d. Tallos y hojas e. Pictograma. f. Cartograma, etc. Variable

Cualitativa

Cuantitativa

Nominal

Ordinal

Discreta
BARRAS

Continua
HISTOGRAMA OJIVAS SERIES DE TIEMPO
28/08/2012

BARRAS, SECTORES

28/08/2012

VARIABLES CUALITATIVAS
Diagrama de barras: se sitan en el eje horizontal las clases y sobre cada una de ellas se levanta un segmento rectilneo (o un rectngulo) de altura igual a la frecuencia (absoluta o relativa) de cada clase. A continuacin se muestra el diagrama de barra para el ejemplo 1.
Diagrama Barras para color de ojos
14 12 10 8 6 4 2 0 Negros Verdes Marrones Azules Miel

Negros Verdes Marrones

Azules
Miel

28/08/2012

BARRAS SIMPLES
GRAFICO N 09 DISTRIBUCIN DE LOS 28 TRABAJADORES DE LA EMPRESA X SEGN SU TIPO DE RELIGIN QUE PRACTICA. Febrero de 2012.

fi, hi
50 45 40 35 30 25 20 15 10 5 0

46,4 %

35,7 %

Frecuencia

17,9%

Catlico

cristiano

Testigo de jehova
Cualidad o Atributo

Fuente: Cuadro N 07
28/08/2012

BARRAS DOBLES
GRAFICO N 10 DISTRIBUCIN DE LAS VIVIENDAS DEL PORVENIR SEGN TENENCIA DE SERVICIOS BASICOS EN LOS AOS 1972 Y 1992. FONCODES

Leyenda Frecuencia

Fuente: Censo INEI 2005

28/08/2012

GRFICO DE SECTORES
Se divide el rea de un crculo en sectores circulares de ngulos proporcionales a las frecuencias absolutas de clases. A continuacin se muestra la grfica de sectores para el ejemplo 1.
Grfico de Sectores Color de Ojos
Miel 5% Negros 12% Azules 33% Verdes 22%

Marrones 28%

28/08/2012

GRFICO N 14

DEFUNCIONES DE MENORES DE 5 AOS POR ENFERMEDADES INMUNOPREVENIBLES 2008

Fuente: Departamento de estadstica DANE. 28/08/2012

VARIABLES CUANTITATIVAS CON DATOS NO AGRUPADOS EN INTERVALOS


Diagrama de barras: igual que en el caso de variables cualitativas. A continuacin se muestra el diagrama de barra para el ejemplo 2.
Diagrama de Barras para Desperfectos
14 12 10 Frecuencia 8

6
4 2 0 0 1 2 Nmero de desperfectos 3 4

Frecuencia

28/08/2012

Polgono de frecuencias:
Se ubican los puntos resultantes de tomar en el eje horizontal los distintos valores de la variable y en el eje vertical sus correspondientes frecuencias (absolutas o relativas), uniendo despus los puntos mediante segmentos rectilneos. A continuacin se muestra el polgono de frecuencia para el ejemplo 2.
Frecuencia
14 12

10
8 6 4 2 0 0 1 2 3 4 Frecuencia

28/08/2012

GRFICO DE FRECUENCIAS ACUMULADAS


Es la representacin grfica de las frecuencias acumuladas (absolutas o relativas), para todo valor numrico. Si la frecuencia acumulada (absoluta o relativa) de un valor numrico no aparece en la distribucin de frecuencias, entonces ser igual a la frecuencia acumulada (absoluta o relativa) de la observacin inmediatamente anterior (ordenadas de menor a mayor). Por lo tanto, el grfico de frecuencias acumuladas siempre tiene forma de escalera.

28/08/2012

VARIABLES CUANTITATIVAS CON DATOS AGRUPADOS EN INTERVALOS


Histograma de frecuencias: Para su representacin se sitan en el eje horizontal los intervalos de clase y sobre cada uno se levanta un rectngulo de rea proporcional a la frecuencia absoluta. (a) Si todos los intervalos tienen la misma amplitud, entonces basta con hacer los rectngulos con una altura igual a la frecuencia absoluta o relativa. Se muestran los histogramas resultantes tanto en Excel como en Statgraphics

28/08/2012

Histograma
12 10 8 6 4 2 0 120,00% 100,00% 80,00% 60,00% 40,00% 20,00% 0,00%
Frecuencia

Frecuencia % acumulado

Clase

28/08/2012

(b) Si los intervalos tienen distinta amplitud, la

construccin del histograma presenta una importante variacin. Una vez marcados sobre el eje horizontal los extremos de los intervalos, hay que calcular la altura de los rectngulos de forma que su rea sea igual o proporcional a la frecuencia absoluta del intervalo. Ejemplo 4. Sea la siguiente distribucin de frecuencias:

28/08/2012

La formula del rea de un rectngulo es base x altura y tambin se considera que los rectngulos del histograma van a tener un rea igual a la frecuencia absoluta. Por ejemplo, para averiguar la altura del primer rectngulo, se tiene en cuenta que la base es igual a 3 y el rea del rectngulo es igual a 11, por lo tanto la altura debe ser igual a 11/3 = 3,6667. Del segundo rectngulo: 10/2,5 = 4, del tercero: 2/1 = 2, del cuarto: 1/1,5 = 0,6667, del quinto: 1/2 = 0,5.

28/08/2012

Grfico N 05
DISTRIBUCIN DE 20 EMPRESAS PRODUCTORAS DE CALZADO DE VESTIR SEGN SU CAPITAL EN MILES DE DOLARES EN EL DISTRITO. MARZO 2009

fi, hi
10 9 8 7

9 8 7 6 4 6

Frecuencias absolutas

6 5 4 3 2 1 0 300 - 350 350 - 400 400 - 450 450 - 500 500 - 550 550 - 600

Fuente: Grfico N 04

Intervalos
28/08/2012

POLGONO DE FRECUENCIAS
Se sitan los puntos que resultan de tomar en el eje horizontal las marcas de clase de los intervalos y en el eje vertical sus correspondientes frecuencias (absolutas o relativas), uniendo despus los puntos mediante segmentos rectilneos. A continuacin se muestra el polgono de frecuencias para el ejemplo 3.
Polgono de Frecuencias
12 10 8 6 4 2 0 50 58 66 74 82 90

Frecuencia

28/08/2012

POLGONO DE FRECUENCIAS ACUMULADAS


Se sitan los puntos que resultan de tomar en el eje horizontal los extremos superiores de los intervalos de clase y en el eje vertical sus correspondientes frecuencias acumuladas, uniendo despus los puntos mediante segmentos rectilneos. A continuacin se muestra el polgono de frecuencias acumuladas para el ejemplo 3.
Pol. Frec Acum Ej 3
35 30 25 Frecuencia 20 15 10 Frec Acumulada

5
0 54,0 62,0 70,0 78,0 86,0 94,0

28/08/2012

DISTRIBUCIN: TALLO Y HOJAS

En el diagrama de tallo y hojas los datos puntuales se agrupan de tal modo que se puede visualizar la forma de la distribucin mientras que se mantiene la individualidad de los datos puntuales. Un diagrama de tallos y hojas consiste en una serie de hileras horizontales de nmeros. El numero utilizado para designar una hilera es su tallo, el resto de nmeros de la hilera se denominan hojas. Pasos a seguir para disear el diagrama de tallo y hojas:

28/08/2012

DISEO DE UN DIAGRAMA DE TALLO Y HOJAS SIMPLE


1. Se eligen algunos nmeros oportunos que puedan servir de tallos. Para facilitar la determinacin de la forma se necesitan al menos 5 tallos. Los tallos elegidos generalmente son el primero o los dos primeros dgitos de los nmeros del conjunto de datos. 2. Se nombran las hileras mediante los tallos elegidos. 3. Se reproducen grficamente los datos registrando el dgito, siguiendo el tallo, como una hoja del tallo adecuado. 4. Se gira el grfico hacia un lado para ver como se distribuyen los nmeros. En concreto, se intenta responder a preguntas como: a. Los datos tienden a agruparse cerca de un tallo o tallos en particular o se distribuyen de forma uniforme por el diagrama?

28/08/2012

b. Los datos tienden a juntarse hacia un extremo u otro del diagrama? c. Si se traza una curva a lo largo de la parte superior del diagrama forma ms o menos una campana? Es plana? Es simtrica? Ejemplo: (Walpole, 8 ed.) Los siguientes datos representan la duracin de vida, en aos, medida al decimal ms cercano, de 30 bombas de combustible similares:
2 0,2 1,5 4,5 1 3 6 4 0,3 6 0,3 5,5 5,9 1,5 5,6 3,3 6,5 1,8 0,5 6 1,3 0,2 4,7 2,5 1,2 0,4 2,3 0,7 5 0,2

Construya un Diagrama de TyH para la vida, en aos, de las bombas de combustible, utilizando el dgito a la izquierda del punto decimal como el tallo para cada observacin.
28/08/2012

A continuacin se representan los datos grficamente representando el nmero que aparece despus de la coma decimal como una hoja del tallo apropiado. En la siguiente figura se visualiza todo el conjunto de datos.
Tallo 0 1 2 3 4 5 6
2 0 0 0 0 0 0 2 2 3 3 5 5 0 2 3 5

Hojas 3 3 5 5

4 8

7 6 0

9 5

Frecuencia 8 6 3 2 3 4 4

Observando el diagrama, puede deducirse que estos datos se aproximan al extremo inferior de la escala. Tambin se observa que el diagrama no es simtrico. Hay ms bien una cola larga en el extremo superior, con una cada en el centro y una ligera recuperacin hacia el extremo derecho.

28/08/2012

Diseo de un diagrama de tallos dobles

Algunas veces, la utilizacin del primero o los dos primeros dgitos de los datos puntuales como tallos no proporciona suficientes tallos como para permitir detectar la forma. Una manera de solucionar este problema es utilizar tallos dobles. Es decir, utilizar cada tallo dos veces: una vez para trazar las hojas inferiores 0, 1, 2, 3, 4 y la siguiente para trazar las hojas superiores 5, 6, 7, 8, 9. Ejemplo (Walpole): Los siguientes datos representan la duracin de la vida, en segundos, de 50 moscas frutales que se someten a un nuevo aerosol en un experimento de laboratorio controlado:
17 12 16 20 14 18 10 6 8 9 9 13 23 13 3 13 6 32 12 7 9 19 10 7 18 13 10 24 7 11

13
7

7
10

18
5

7
14

10
15

4
10

27
9

19
6

16
7

8
15
28/08/2012

Cuatro tallos no son suficientes para detectar la forma. Se utilizarn dos veces cada uno de los tallos y se formar un grfico de tallo doble con hojas inferiores y hojas superiores. A continuacin se presenta el diagrama obtenido:
Hojas 3 5 0 5 0 7 2 4 6 0 5 3 6 0 6 4 6 0 6 7 0 7 7 0 8 7 1 8 7 2 8 7 2 9 7 3 9 7 3 8 3 8 3 9 3 9 4 9 4 9 Frecuencia 2 17 16 10 3 1 1

Tallo 0* 0. 1* 1. 2* 2. 3*

Se observa que los datos tienden a agruparse en el tiempo entre 5 y 14 segundos, teniendo un ligero sesgo hacia la izquierda.

28/08/2012

MEDIDAS DE POSICIN

Son valores que nos sirven para indicar la posicin alrededor de la cual se distribuyen las observaciones. Solo se calculan cuando la variable es cuantitativa. Veamos las ms usuales:

Moda Se denotar por Mo. No necesariamente es nica. 1. Datos no agrupados en intervalos. Mo es el dato (o datos) con mayor frecuencia absoluta. En el ejemplo 2: Mo = 2.

2. Datos agrupados en intervalos. Intervalo modal: Aquel que tiene mayor frecuencia absoluta. No necesariamente es nico.
28/08/2012

(a) Intervalo modal no nico. Las modas son las marcas de clase de los intervalos modales (b) Intervalo modal nico. Intervalos de la misma amplitud. ;1 = + ( ) 2 :1 ;1 :1 donde ( , :1 ] es el intervalo modal, es su frecuencia absoluta, ;1 es la frecuencia absoluta del intervalo anterior al modal, y :1 es la frecuencia absoluta del intervalo posterior al modal. En el ejemplo del peso en Kg de las cajas: El intervalo modal es (62,70] y la moda es 10 6 = 62 + 70 62 = 62 + 4 = 66 2 10 6 6

28/08/2012

Intervalos de distinta amplitud. ;1 = + ( ) 2 :1 ;1 :1 donde ( , :1 ] es el intervalo modal, es la altura del rectngulo del histograma que tiene de base al intervalo modal, ;1 es la altura del rectngulo del histograma que tiene de base al intervalo anterior al modal, y :1 es la altura del rectngulo del histograma que tiene de base al intervalo posterior al modal.

En el ejemplo 4: El intervalo modal es [0; 3] y la moda es:


0 3 = 0 + 3 0 = 3 1,1 = 3,3 11 2 3 40 11

28/08/2012

MEDIANA

Se denotar por Me. Es el valor que tiene la propiedad de dejar a su izquierda el 50% de las observaciones y a su derecha el 50% restante, siempre que se hayan ordenado los datos de menor a mayor. Por tanto, la frecuencia absoluta acumulada de la mediana es igual a n/2, siendo n el numero total de datos.
Datos no agrupados en intervalos. (a) Si en la distribucin de frecuencias no aparece ninguna frecuencia absoluta acumulada igual a n/2 entonces se toma como mediana el valor cuya frecuencia absoluta acumulada sea la mas prxima a n/2 por exceso. Un caso en que esto ocurre es cuando el numero total de datos es impar; en cuyo caso tambin se puede hallar la mediana como el dato central, una vez que los datos estn ordenados de menor a mayor.

1.

28/08/2012

En el ejemplo del nmero de imperfecciones en la tela: n/2 = 30/2 = 15, por lo que no hay ningn dato cuya frecuencia acumulada sea igual a n/2. Entonces, se toma como mediana el siguiente dato; es decir, el dato cuya frecuencia acumulada es 21. Por tanto, Me = 2. (b) Si en la distribucin de frecuencias aparece la frecuencia absoluta acumulada igual a n/2 entonces ocurre que hay todo un intervalo [a, b) de valores cuya frecuencia absoluta acumulada es igual a n/2. En este caso se toma como mediana el valor

Me = a + b 2
Donde a es el dato con la frecuencia acumulada igual a n/2 y b el dato con la frecuencia acumulada siguiente.

28/08/2012

2. Datos agrupados en intervalos. Intervalo mediano: intervalo que contiene a la mediana. Es el primer intervalo cuya frecuencia absoluta acumulada (Fi) es igual o mayor que n/2. ;1 = + 2 (:1 ) donde ( , :1 ] es el intervalo mediano, es su frecuencia absoluta y ;1 es la frecuencia absoluta acumulada del intervalo anterior al mediano.
En el ejemplo de las cajas: El intervalo mediano es (62,70] y la mediana es: 15 9 = 62 + 70 62 = 66,8 10

28/08/2012

PERCENTIL O CUANTIL
El percentil (o cuantil) al r% es aquel valor que deja a su izquierda el r% de las observaciones y a su derecha el (100r)% restante, siempre que se hayan ordenado los datos de menor a mayor. Se suele denotar por Pr (o por Cr). El clculo de los percentiles se hace de modo similar al clculo de la mediana, teniendo en cuenta que el percentil al r% verifica que su frecuencia absoluta acumulada es igual a: 100 Calcule los percentiles 25 y 75 en el ejemplo 2 (Imperfecciones)
En el ejemplo de imperfecciones: ningn dato cuya frecuencia acumulada sea igual a
100

3025 100

= 7,5, por lo que no hay


. 100

Entonces, se

toma como percentil el siguiente dato; es decir, el dato cuya frecuencia acumulada es 9. Por tanto, P25 = 1. En forma anloga se determina que 3075 P75 = 3 ya que: 100 = 100 = 22,5 , y el siguiente dato tiene como frecuencia acumulada 28.
28/08/2012

Cuando los datos estn agrupados en intervalos de clase, la formula del percentil al r % es: ;1 100 = + (:1 ) donde ( , :1 ] es el intervalo que contiene a , es su frecuencia absoluta y ;1 es la frecuencia absoluta acumulada del intervalo anterior. En el ejemplo de las cajas: percentil 25 es (54,62) y
100

3025 100

= 7,5, entonces el intervalo del

100

3075 100

= 22,5, entonces el intervalo del

percentil 75 es (70,78). Por lo tanto, los percentiles son:


25 = 54 +
75 = 70 +

7,5 3 62 54 = 54 + 6 = 60 6

22,5 19 78 70 = 70 + 4,67 = 74,67 6


28/08/2012

Algunos percentiles especiales son:

Cuartiles: Primer cuartil = Q1 = P25, Segundo cuartil = Q2 = P50 = Me y Tercer cuartil = Q3 = P75.
Deciles: Primer decil = D1 = P10, Segundo decil = D2 = P20, ..., Noveno decil = D9 = P90.

MEDIA ARITMTICA
Si 1 , 2 , , son los n valores de la muestra, su media aritmtica es: 1 + 2 + + =

28/08/2012

Si los valores de los datos son x1, x2, ..., xk, y ellos aparecen con frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+fk = n) entonces la expresin de la media aritmtica es:

1 1 + 2 2 + + = =


<1

Si los datos estn agrupados en intervalos de clase, la frmula de la media aritmtica es la misma, salvo que xi representa la marca de clase del intervalo i-simo. En el ejemplo 2 (Imperfecciones): La media es:
= (0 3) + (1 6) + + (4 2) 59 = = 1,9667 30 30

En el ejemplo 3 (Peso Kg de las cajas): La media es:


= (50 3) + (58 6) + + (90 2) 2028 = = 67,6 30 30
28/08/2012

Dado que la media aritmtica es la mas comn, en adelante se le llamar solo media.
Si se dispone de los datos de toda la poblacin, entonces representamos la media aritmtica por la letra griega (que se lee miu).

Propiedades de la media 1. Si = + , siendo a y b constantes, entonces la media de la nueva variable es = + 2. Si = , entonces = 0.

28/08/2012

OTRAS MEDIAS
Media ponderada: Consiste en asignar a cada valor xi de los datos un peso pi que depende de su importancia relativa bajo algn criterio. La definicin de la media ponderada es: 1 1 + 2 2 + + <1 = = 1 + 2 + + <1

Si los datos de la muestra son x1, x2, ..., xk , y ellos aparecen con frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+fk = n), entonces se definen:

Media geomtrica: =

1 1 2 2

28/08/2012

Media cuadrtica:
2 2 2 1 1 + 2 2 + + = 2 <1

= Media armnica:

= 1 2 + + + <1 1 2 En las tres definiciones anteriores, si los datos estn agrupados en intervalos, entonces representa la marca de clase del intervalo

i-simo.

Fijada una muestra cualquiera, siempre se verifica:


28/08/2012

MEDIDAS DE DISPERSIN
Son valores que miden el grado de separacin de las observaciones entre s o con respecto a ciertas medidas de posicin. Solo se calculan cuando la variable es cuantitativa. Recorrido: Es una medida de dispersin global que se define como la diferencia entre la observacin mayor, xmx, y la observacin menor, xmn, y se denota por R; es decir: = Si el recorrido es pequeo entonces los datos estn poco dispersos. En el ejemplo 2 (Imperfecciones): El recorrido es: = 4 0 = 4 En el ejemplo 3: (Peso de las cajas en Kg) El recorrido es: R = 94 46 = 48.
28/08/2012

Recorrido intercuartlico Se denota por RI y se define como la diferencia entre el tercer cuartil y el primer cuartil; es decir: RI = Q3 Q1. Si el recorrido intercuartlico es pequeo entonces los datos estn cerca de la mediana; en caso contrario, los datos estn alejados de ella. En el ejemplo 2: El recorrido intercuartlico es: RI = 3 1 = 2. En el ejemplo 3: El recorrido intercuartlico es: RI = 74,67 60 = 14,67.

28/08/2012

DESVIACIN MEDIANA
Si los datos de la muestra son x1, x2, ..., xk y ellos aparecen con frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+fk = n), entonces se define la desviacin mediana como: <1 = Si los datos estn agrupados en intervalos, representa la marca de clase del intervalo i-simo. Cuando DMe es pequea, entonces los datos estn cerca de la mediana, en caso contrario, los datos estn alejados de la mediana.

28/08/2012

En el ejemplo 2 (Imperfecciones): La desviacin mediana es:

0 2 3 + 1 2 6 + + 4 2 2 23 = = = 0,7667 30 30
En el ejemplo 3 (Peso de las cajas): La desviacin mediana es: 50 66,8 3 + 58 66,8 6 + + 90 66,8 2 = = 8,2133 30

28/08/2012

Desviacin media Si los datos de la muestra son x1, x2, ..., xk y ellos aparecen con frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+fk = n), entonces: <1 = Si los datos estn agrupados en intervalos, xi representa la marca de clase del intervalo i-simo. Cuando es pequea, entonces los datos estn cerca de la media. En caso contrario, los datos estn alejados de la media.

28/08/2012

En el ejemplo 2 (Imperfecciones): La desviacin media es:


0 1,9667 3 + 1 1,9667 6 + + 4 1,9667 2 = 30 = 0,5467 En el ejemplo 3 (Peso de las cajas): La desviacin media es: 50 67,6 3 + 58 67,6 6 + + 90 67,6 2 = = 8,4267 30

Varianza y desviacin tpica


Si los datos de la muestra son x1, x2, ..., xk y ellos aparecen con frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+fk = n), entonces se definen:

28/08/2012

Varianza (algunos autores la llaman varianza sesgada o poblacional): 2 2 = = En el ejemplo 2: La varianza es:
<1 2 <1

2 2 2 0 3 + 1 6 + + 4 2 2 = 1,96672 = 1,0989 30

En el ejemplo 3: La varianza es:


2 2 2 50 3 + 58 6 + + 90 2 2 = 67,62 = 112,64 30

28/08/2012

Desviacin tpica: raz cuadrada de la varianza poblacional:


<1

2 =

2 <1

En el ejemplo 2: La desviacin tpica es = 1,0989 = 1,0483

En el ejemplo 3: La desviacin tpica es


= 112,64 = 10,6132

28/08/2012

Cuasivarianza (algunos autores la llaman varianza insesgada, varianza corregida, slo varianza o varianza muestral):
2

<1

2 = 1

2 <1

En el ejemplo 2: La Cuasivarianza es:


2 2 2 2 (0 3 + 1 6 + + 4 2) (30 1,9667 ) 2 = = 1,1368 29

En el ejemplo 3: La Cuasivarianza es:


2 3 + 582 6 + + 902 2) (30 67,62 ) (50 2 = = 116,524 29

28/08/2012

Cuasidesviacion tpica: raz cuadrada de la cuasivarianza:


<1

2 = 1

2 <1

Ms conocida como desviacin estndar muestral. En el ejemplo 2: La cuasidesviacion tpica es

1,1368 = 1,0662

En el ejemplo 3: La cuasidesviacion tpica es: = 116,524 = 10,7946

28/08/2012

En consecuencia, la varianza y la cuasivarianza estn relacionadas de la siguiente forma: 2 2 1 = por lo cual se puede calcular una de ellas a partir de la otra.
Si los datos estn agrupados en intervalos de clase, las frmulas anteriores son las mismas, salvo que representa la marca de clase del intervalo i-simo. Cuando la desviacin tpica (o la cuasidesviacin tpica) es pequea, entonces los datos estn cerca de la media. En caso contrario, los datos estn alejados de la media. Si disponemos de los datos de toda la poblacin, la varianza se denota por 2 y la desviacin tpica por (letra griega que se lee sigma).
28/08/2012

PROPIEDAD DE LA VARIANZA Si = + , siendo a y b constantes, entonces la varianza de la 2 2 nueva variable es = 2 , y por tanto la desviacin tpica es =
COEFICIENTE DE VARIACIN =

= 100% Algunos autores sustituyen por en la frmula anterior. Si 0,15, la muestra se considera homognea; si 0,15 0,45 es medianamente homognea y si 0,45, se considera heterognea

28/08/2012

Este coeficiente nos sirve para comparar la dispersin relativa de dos muestras distintas. La muestra que tenga un coeficiente de variacin ms grande es la ms heterognea (sus datos estn ms dispersos). En el ejemplo 2: El coeficiente de variacin es 1,0662 = = 0,542 1,9667 Estos datos son heterogneos En el ejemplo 3: El coeficiente de variacin es 10,7946 = 0,1597 67,6 Los datos presentan mediana homogeneidad. (Igual es la representatividad de la media aritmtica) =

28/08/2012

PUNTAJE TPICO ESTANDARIZADO Z

Dada una variable X con media y desviacin estndar S, la normalizacin consiste en realizar la transformacin:

Esta nueva variable Z tiene media 0 y desviacin estndar 1. El uso ms importante de la normalizacin es para comparar distintas distribuciones an en el caso que sus unidades vengan expresadas en diferentes unidades.
28/08/2012

Ejemplo (Schaum): Un estudiante obtuvo 84 puntos en el examen final de Matemticas, en el que la nota media fue 76, y la desviacin estndar 10. En el examen final de fsica obtuvo 90 puntos, siendo la media 82 y la desviacin estndar 16. En qu examen sobresali ms? Solucin: Para efectuar las comparaciones, podemos emplear el puntaje tpico estandarizado Z para comparar las distribuciones de matemticas y fsica:

84;76 10

= 0,8, y =

90;82 16

= 0,5

Se puede ver que la puntuacin tpica del estudiante en matemticas est 0,8 veces sobre la media, mientras que para fsica est 0,5 desviaciones tpicas por encima de la media. El estudiante tuvo mejor desempeo en matemticas.
28/08/2012

DIAGRAMA DE CAJA Y BIGOTES

El diagrama de caja y bigotes (boxplot) es una representacin grfica de un conjunto de datos que facilita la percepcin visual de la posicin, extensin y el grado y la direccin del sesgo. Tambin permite identificar los datos atpicos. Es especialmente til cuando se desean comparar dos o ms conjuntos de datos.

Un diagrama de caja es un grfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Est compuesto por un rectngulo, la caja, y dos brazos, los bigotes. Suministra informacin sobre los valores mnimo y mximo, los cuartiles Q1, Q2 (o mediana) y Q3, y sobre la existencia de valores atpicos y la simetra de la distribucin.

28/08/2012

PASOS PARA LA ELABORACIN DE UN DIAGRAMA DE CAJA Y BIGOTES


1. Se ordenan los datos y se calculan el valor mnimo, el mximo, los cuartiles Q1, Q2 y Q3 y el Rango Intercuartlico (RI). En el ejemplo:(ver la figura del grfico de caja y bigotes) Valor 7: es el Q1 (25% de los datos). Valor 8,5: es el Q2 o mediana (el 50% de los datos). Valor 9: es el Q3 (75% de los datos). Rango Intercuartlico RI = (Q3 Q1) = 2. 2. Dibujar un rectngulo con Q1 y Q3 como extremos e indicar la posicin de la mediana (Q2) mediante una lnea.

28/08/2012

3. Para dibujar los bigotes, las lneas que se extienden desde la caja, hay que calcular los lmites superior e inferior, Li y Ls, que identifiquen a los valores atpicos. Para ello se calcula cuando se consideran atpicos los valores. Son aquellos inferiores a Q1 1,5RI o superiores a Q3 + 1,5RI. En el ejemplo: inferior: 7 (1,5x2) = 4; superior: 9 + (1,5x2) = 12. 4. Ahora se buscan los ltimos valores que NO son atpicos, que sern los extremos de los bigotes. En el ejemplo: 5 y 10. 5. Marcar como atpicos todos los datos que estn fuera del intervalo (Li, Ls). En el ejemplo: 0,5 y 3,5.

28/08/2012

6. Adems, se pueden considerar valores extremadamente atpicos que exceden Q1 3RI Q3 + 3RI. De modo que, en el ejemplo: inferior: inferior: 7 (3x2) = 1; superior: 9 + (3x2) = 15. El valor 0,5 seria atpico extremo (se denota mediante asterisco) y el 3,5 ser atpico moderado (se denota mediante crculo abierto).

28/08/2012

Se observa en el grfico de caja y bigotes del ejemplo de la duracin de la vida de las bombas, que la media (cruz de color rojo) es mayor que la mediana (lnea azul dentro de la caja), lo cual indica una mayor concentracin de los datos a la izquierda (vida baja para las bombas). Lo anterior tambin se constata al comparar los datos rectngulos formados al separar por la lnea mediana y el largo de los bigotes. No se observan datos atpicos para estos datos, y las longitudes de los bigotes estn dadas por los valores mnimo y mximo (0,2 y 6,5 aos).
28/08/2012

En el grfico de caja y bigotes del ejemplo de las moscas frutales se observa que los valores de la mediana y media estn cercanos entre s. La mayora de datos estn para valores bajos de la vida de la mosca frutal, lo que muestra que el aerosol es efectivo. Existe un solo dato atpico, para la vida de 32 segundos, ya que excede el valor 16 + 1,5(9) = 29,5 (Y el bigote derecho llega al dato 27).

28/08/2012

MOMENTOS
Si los datos de la muestra son x1, x2, ..., xk y ellos aparecen con frecuencias absolutas respectivas f1, f2, ..., fk (con f1+f2+...+fk = n), Entonces se definen: Momento de orden k respecto del origen:

<1

, = 1,2,3

Momento de orden k respecto de la media: =


<1

, = 1,2,3

28/08/2012

Algunos casos particulares son: 1 = = . 1 = 0 2 2 = = Desarrollando el binomio se puede comprobar que existe una relacin entre los momentos respecto al origen y los momentos respecto de la media; por ejemplo:
2 2 = 2 1 3 3 = 3 32 1 + 21 2 4 4 = 4 43 1 + 62 1 31

28/08/2012

MEDIDAS DE FORMA
A travs de las representaciones grficas (histogramas, diagramas de barras, etc.) nos podemos hacer una idea sobre la forma de las distribuciones, pero tambin resulta importante cuantificar esta caracterstica a travs de las medidas de forma.

Las caractersticas bajo-ancho, alto-estrecho se miden respecto de una curva modelo llamada curva Normal.

28/08/2012

Esta curva es la representacin grfica de la siguiente funcin: = 1 2


1 ; ;2( )2

donde x, y son nmeros reales, siendo adems > 0; e es la base de los logaritmos neperianos (e = 2, 7182818....) y es la relacin de la longitud de una circunferencia a su dimetro ( = 3,1415926...). Para cada par de valores de y tendremos una curva Normal distinta. Es decir, se tiene una familia de curvas. Pero todas ellas coinciden en algunas propiedades, como, por ejemplo: a) Tiene un nico mximo para x = . b) Es simtrica respecto al eje vertical que pasa por x = . c) Se acerca asintticamente al eje horizontal. En otras palabras, se acerca ms y ms a ese eje, tanto por la derecha como por la izquierda, sin llegar a tocarlo en ningn punto.

28/08/2012

ASIMETRA
Se dice que una distribucin presenta una asimetra positiva o por la derecha cuando su polgono de frecuencias (absolutas o relativas) es similar a la Figura (a). Anlogamente, se dice que una distribucin presenta una asimetra negativa o por la izquierda cuando su polgono de frecuencias (absolutas o relativas) tiene una forma parecida a la Figura (b). Diremos que una distribucin presenta simetra cuando su polgono de frecuencias (absolutas o relativas) es similar a la Figura de la curva normal presentada en medidas de forma).

28/08/2012

Para las distribuciones unimodales, como medida de asimetra se suele utilizar el coeficiente de asimetra de Pearson, que se define por la expresin: = que permite distinguir los casos: a) CA = 0 (distribucin simtrica), b) CA > 0 (distribucin asimtrica por la derecha), c) CA < 0 (distribucin asimtrica por la izquierda). En el ejemplo 2: La distribucin unimodal es: 1,9667 2 = = 0,0318 ( ) 1,0483 En el ejemplo 3: La distribucin unimodal es: 67,6 66 = = 0,1508 ( ) 10,6132

28/08/2012

Cuando la distribucin no es unimodal no se puede emplear el anterior coeficiente, por lo que se introduce el coeficiente de asimetra de Fisher, que viene dado por: 3 1 = 3 que permite distinguir los casos: a) 1 = 0 (distribucin simtrica), b) 1 > 0 (distribucin asimtrica por la derecha), c) 1 < 0 (distribucin asimtrica por la izquierda). En el ejemplo 2: (0 1,9667)3 3 + (4 1,9667)3 2 3,7022 1 = = = 0,1071 1,04833 30 34,5583 La distribucin es asimtrica por la izquierda.

28/08/2012

En el ejemplo 3: (50 67,6)3 3 + (90 67,6)3 2 11304,96 1 = = = 0,3152 10,61323 30 35864,12 La distribucin es asimtrica por la derecha. APUNTAMIENTO O KURTOSIS Si el polgono de frecuencias (absolutas o relativas) es anlogo a la curva Normal, entonces se dice que la distribucin es mesocrtica (ver la Figura de la Curva normal); si es ms elevado y estrecho que la curva Normal, entonces se llama distribucin leptocrtica (ver la Figura (a)); y si es menos elevado y ms ancho que la curva Normal, entonces se llama distribucin platicrtica (ver la Figura (b)).

28/08/2012

Como medida del apuntamiento de la distribucin se utiliza el coeficiente de kurtosis, dado por: 4 2 = 4 3

permitiendo distinguir los casos: a) g2 = 0 (distribucin mesocrtica), b) g2 > 0 (distribucin leptocrtica), c) g2 < 0 (distribucin platicrtica).

28/08/2012

En el ejemplo 2:
(0 1,9667)4 3 + (4 1,9667)4 2 92,2866 4 = 3= 3 1,04834 30 36,2267 = 0,4525 La distribucin es platicrtica. En el ejemplo 3: (50 67,6)4 3 + (90 67,6)4 2 981467,136 4 = 3 = 3 4 10,6132 30 380633,088 = 0,4215 La distribucin es platicrtica.

28/08/2012

Referencias
1.

G. C. Canavos. 1988. Probabilidad y Estadstica - Aplicaciones y Mtodos. Mc. Graw Hill, Mxico. S. J. Milton. 1994. Estadstica para Biologa y Ciencias de la Salud. Segunda edicin Interamericana-McGraw-Hill

2.

3.

Martnez Bencardino, Ciro. Estadstica Bsica Aplicada. 3 ed. ECOE Ediciones, 2008.

28/08/2012

Вам также может понравиться