You are on page 1of 83

EJEMPLO

La directora ele produccin de una empresa debe informar a su superior sobre el nmero de das promedio que los empleados de la empresa se ausentan del trabajo. Sin embargo, la planta emplea ms de dos mil trabajadores, y la directora de produccin no tiene tiempo de revisar los registros personales de cada empleado. Como asistente, usted debe decidir cmo puede ella obtener la informacin necesaria. Qu consejo podra darle?

Recolecta r

Organizar
Resumir

Contrastar

Estadstic a

Presentar

Generalizar Interpretar

Analizar

QU ES LA ESTADSTICA?

Significa tcnica o mtodo cientfico usado para recolectar, organizar, resumir, presentar, analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenmenos reales.

POR QU USTED NECESITA CONOCER ESTADSTICA?

Presentar y describir la informacin en forma adecuada. Inferir conclusiones sobre poblaciones grandes basndose solamente en la informacin obtenida de subconjuntos de ellas. Utilizar modelos para obtener pronsticos confiables.

DEFINICIONES
Una POBLACIN es el conjunto total de objetos que son de inters para un problema dado. Los objetos pueden ser personas, animales, producto fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo Una MUESTRA es un subconjunto de la poblacin. Los DATOS u Observaciones son nmeros o denominaciones que podemos asignar a un individuo o elemento de la poblacin. Un PARMETRO es cualquier caracterstica medible de una poblacin. Un ESTADSTICO es cualquier caracterstica medible de una muestra.

Un CENSO (palabra derivada del latn censere, que significa "valuar o tasar") es la enumeracin completa de la poblacin.

La ESTADSTICA DESCRIPTIVA se compone de aquellos mtodos que incluyen tcnicas- para recolectar, presentar, analizar e interpretar datos.

La ESTADSTICA INFERENCIAL abarca aquellos mtodos y conjuntos de tcnicas que se utilizan para obtener conclusiones sbrelas leyes de comportamiento de una poblacin basndose en los datos de muestras tornadas de esa poblacin.

MUESTREO ALEATORIO 5%

MUESTREO ALEATORIO 10%

ORGANIZACIN DE DATOS DE ACUERDO AL TIPO


Como se ilustra en la figura, existen dos tipos de datos: categricos (o cualitativos) y numricos (cuantitativos).

TIPOS DE VARIABLES

ORGANIZACIN DE DATOS MEDIANTE TABLAS

En esta forma de organizacin de datos es importante el concepto de frecuencia de un dato.


La frecuencia (absoluta) de un dato, simbolizado con la letra f, es el nmero de veces que aparece ese dato en una coleccin de datos.

Ejemplo: En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro slo aparece una vez (por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el 7 tiene frecuencia f = 3, etc.

DATOS ORIGINALES

TABLAS DE FRECUENCIA

TABLAS DE FRECUENCIA

NO AGRUPADAS

AGRUPADAS

TABLA DE FRECUENCIA NO AGRUPADAS


Tablas de frecuencias: variables cuantitativas discretas Distribucin del nmero de hermanos (excluido l mismo) de una muestra de 500 alumnos varones de una Universidad
Nmero de hermanos 0 1
2 3 4 5 6 ms de 6 Total f fr % F FR

% acumulado 14.4 45.4


64.8 81 87 92.4 96.4 100

72 155
97 81 30 27 20 18 500

0.1440 0.3100
0.1940 0.1620 0.0600 0.0540 0.0400 0.0360 1.0000

14.4 31
19.4 16.2 6 5.4 4 3.6 100

72 227
324 405 435 462 482 500

0.144 0.454
0.648 0.81 0.87 0.924 0.964 1

TABLA DE FRECUENCIAS NO AGRUPADAS


Ejemplo: Se clasific a los estudiantes de un programa universitario de acuerdo con el semestre que cursan y sus preferencias deportivas. Los resultados estn registrados en la siguiente tabla:

Primero Ftbol Bisbol Voleibol Basquetbol Natacin TOTAL 15 12 5 26 7 65

Segundo 14 22 5 7 8 56

Tercero 5 6 9 6 4 30

Cuarto 9 6 5 7 2 29

TOTAL 43 46 24 46 21 180

Qu porcentaje de los estudiantes de primer semestre prefieren el ftbol?


Qu porcentaje de los aficionados a la natacin son de segundo semestre?

Qu porcentaje del total de los estudiantes prefieren el basquetbol?


Qu porcentaje de los estudiantes son de cuarto semestre? Qu porcentaje del total de estudiantes son de tercero o cuarto semestre?

Qu porcentaje prefiere la natacin, el voleibol o el bisbol?

TABLA DE FRECUENCIAS AGRUPADAS


Ejemplo: La tabla es un ejemplo de una tabla de frecuencias agrupada y 10-14 y 15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los datos de tiempo de auditoras de fin de ao.
Tiempo de auditora (das) Frecuenci a

Intervalo de Clase o Clase Limite inferior de Clase

10 - 14 15 - 19 20 - 24 25 - 29 30 - 34

4 8 5 2 1

Frecuencias de Clase

Limite superior de Clase

AMPLITUDES

Datos Agrupados

LMITES DE CLASES TERICOS L MITES REALES DE CLASE O FRONTERA DE CLASE


Distribucin de frecuencias para los datos de tiempo de auditora:
Tiempo de auditora Fronteras inferior (das) superior 10 - 14 15- 19 20- 24 25- 29 30- 34 9,5 - 14,5 14,5 - 19,5 19,5 - 24,5 24,5 - 29,5 29,5 - 34,5 Frecuencia 4 8 5 2 1

DIAGRAMA DE TALLO Y HOJA


Un TALLO es el primer dgito o parte del numeral, mientras que una HOJA est formada por el o los dgitos restantes. Por ejemplo, el numeral 534 se puede descomponer en dos formas: 5 | 34 53 | 4 tallo hoja tallo hoja

EJEMPLO Construye una tabla de frecuencias agrupadas considerando los siguientes datos:
14 24 16 24 21 28 17 24 23 15 18 25 21 22 23 19 16 24 25 16 19 20 20 19 22 22 23 18 25 24 16 19 16 22 20 21 16 20 19 12

Paso 1. Organizamos los datos en un diagrama de tallo y hoja Paso 2. Primero determinamos el rango R. Como la medida mayor menos la medida menor.

Paso 3. El ejemplo no nos dice con cuntas clases debemos construir la tabla de frecuencias agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar la regla de Sturges c = 3, 3 (log n) + 1 donde n es el nmero de medidas y log n es el logaritmo de n en base 10. El valor de c es comn redondearlo al entero ms cercano. Otra regla razonable para el nmero de clase es: c = n

Paso 4. Ahora, determinamos w, la amplitud de cada clase. En este caso, Paso 5: A continuacin se construye la primera clase con un ancho de w = 3. Para ello, primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como la unidad de medida es 1 (porque todos los datos son enteros) y como el "punto medio" de cada unidad de medida es Paso 6. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la frontera inferior de la clase siguiente coincide con la frontera superior de la clase anterior y que la amplitud del intervalo es w = 3.

Paso 7. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta. Si uno de los datos cae en una clase, anotamos una marca (\) en la columna correspondiente a esa clase.

Paso 8. Calculamos la frecuencia relativa, Frecuencia acumulada y frecuencia acumulada relativa.

DIAGRAMAS CIRCULARES (O DE PASTEL)


Se utilizan para hacer representaciones porcentuales y se emplean generalmente para datos categricos. EJEMPLO: La siguiente tabLa presenta los datos sobre la cantidad de refrescos de marca A, B, C, D y E que se vendieron en una tienda: Refresco A B C D E Frecuencia 19 8 5 13 5 Frecuencia relativa 0,38 0,16 0,10 0,26 0,10

E 10%

A 38% D 26%

C 10%

B 16%

PICTOGRAMAS O PICTGRAFOS
Un PICTOGRAMA es la representacin de datos estadsticos por medio de smbolos que por su forma sugieren la naturaleza del dato.

DIAGRAMA DE BARRAS

Es una representacin grfica en la que cada una de las modalidades del aspecto de inters se representa mediante una barra.
REFRESCOS
20 18 16 14 12 10 8 6 4 2 0 A B C D E

DESCRIPCIN
En este grfico se suelen disponer los datos en el primer cuadrante de unos ejes coordenados, y se levanta sobre el eje de las abscisas una barra para cada modalidad del dato observado. La altura de la barra ha de ser proporcional a la frecuencia absoluta o relativa, que se representa en el eje de las ordenadas. Este tipo de diagramas se utilizan tanto para datos categricos como numricos.

HISTOGRAMAS
Los histogramas son una forma de representacin grfica de una distribucin de frecuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas) por medio de reas de rectngulos (barras). Cuando utilizamos frecuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse para distribuciones de frecuencias agrupadas y no agrupadas.

EJEMPLO

La tabla de frecuencias (absolutas, acumuladas y relativas).


Clase 5.95 7.95 7.95 9.95 9.95 11.95 11.95 13.95 13.95 15.95 Punto Medio 6.95 8.95 10.95 12.95 14.95 f 4 2 9 2 3 fr 0.2000 0.1000 0.4500 0.1000 0.1500 F 4 6 15 17 20 Fr 0.2000 0.3000 0.7500 0.8500 1.0000

POLGONO

OJIVA

ANLISIS DE DATOS EN TABLAS DE FRECUENCIAS NO AGRUPADAS

MEDIDAS DE TENDENCIA CENTRAL O DE CENTRALIZACIN

MEDIDAS DE TENDENCIA CENTRAL O DE CENTRALIZACIN

Media
La media aritmtica de cierto conjunto de nmeros se encuentra sumando los nmeros y dividiendo despus entre la cantidad de datos. En otras palabras, si x1... ,xn son nmeros, entonces la media aritmtica de este conjunto de nmeros est dada por

EJEMPLO
Supongamos que tenemos la muestra siguiente de edades en ao de principiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media aritmtica de estos datos es:

MEDIA ARITMTICA PONDERADA


Generalmente, para calcular la media de un conjunto de datos es ms cmodo utilizar la llamada media aritmtica ponderada, la cual es un caso especial de la media aritmtica. Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que puede ocurrir si se han organizado los datos en una tabla de frecuencias. Sea dada siguiente tabla de frecuencias no agrupadas:

Dato Frecuencia

Xi f1

X2 f2

xn fn

en donde fi es la frecuencia del dato Xi. Entonces, la MEDIA aritmtica PONDERADA o, simplemente, media artimetica, de los datos Xi,...,xn se define como

EJEMPLO
La media aritmtica de los siguientes datos

Dato Frecuencia

18 4

19 20 21 3 2 1

DESVENTAJA DE LA MEDIA
La media tiene una seria desventaja: se ve afectada por los valores extremos del final de una distribucin. Como depende del valor de cada medida, los valores extremos pueden llevarla a representar defectuosamente los datos.

MEDIANA
Para datos medidos en al menos una escala de intervalo, la MEDIANA es el puntaje medio ordenado.
Ejemplo 1 El conjunto de nmeros 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto que ya los datos estn ordenados, el nmero de datos es 9 (impar) y, en este caso, el 6 est ubicado en el centro (en el cuarto lugar). Ejemplo 2 El conjunto de nmeros 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana (9 + 11)/2 = 10, puesto que ya los datos estn ordenados, el nmero de datos es 8 (par), el 9 y el 11 son los dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos.

MEDIANA
Ejemplo 3: Encuentre la mediana para los datos organizados en la siguiente tabla de frecuencias:

Datos Frecuencia

0 10

1 10

2 8

3 4 4 8

Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la mediana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran en la tabla

Datos Frecuencia

0 1 2 3 4 10 20 28 32 40

Como el total de datos es n = 40 (par), entonces la mediana es el promedio de las medidas que estn en las posiciones = 20 y + 1 = 21. Para 2 2 encontrar la mediana recomendamos contar los datos en direccin de la medida menor a la mayor. En la tabla es fcil ver que el dato en lugar 20 es 1 y que el dato en la posicin 21 es 2. Por tanto, la mediana es:

VENTAJAS Y DESVENTAJAS DE LA MEDIANA


El uso de la mediana para datos de intervalo posee tanto ventajas como desventajas. Una ventaja consiste en que la mediana no se ve afectada por valores extremos al final de la distribucin. Su desventaja reside en que no es fcilmente determinable si el conjunto de datos es grande, puesto que las medidas deben ordenarse primero y ponerse en orden numrico de menor a mayor o al contrario.

MODA
La MODA, si se da, es el dato con mayor frecuencia. Ejemplo 1. El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato con mayor frecuencia.

VENTAJAS DE LA MODA
Tiene dos ventajas: Para ciertas muestras pequeas, se le determina fcilmente y, en general, no se ve afectada por los valores extremos al final de un conjunto de datos ordenados. Cuando se analizan datos categricos, la moda es el nico dato de tendencia central que puede utilizarse. Adems, la moda puede usarse como una medida de tendencia central para datos numricos empleados en sentido categrico. Una moda para datos en una tabla de frecuencia se encuentra localizando el valor de frecuencia mxima, si no todas las frecuencias son iguales. El dato que corresponde al valor de frecuencia mxima se toma como la moda.

DESVENTAJAS
La moda tiene varias desventajas como medida de tendencia central: una de ellas consiste en que para un cierto conjunto de datos no puede haber moda. Esta situacin surge cuando todos los datos tienen la misma frecuencia. Otra desventaja reside en que la moda puede existir pero no ser nica.

TAREA

Indaga sobre: Media geomtrica Media armnica

MEDIDAS DE COLOCACIN O DE POSICIN RELATIVA

PERCENTILES
El p-simo (punto) percentil es un valor tal que a lo ms un p% de los datos tienen dicho o menos de ese valor y, al menos, un (100 p)% de los datos tienen este valor o ms.

PASOS PARA CALCULARLOS


Para calcular el p-simo (punto) percentil de un conjunto de n datos, es importante que tengamos en cuenta los siguientes pasos:

Ordenemos los datos de manera ascendente.


Calculemos un ndice i a travs de la frmula i = np/100, siendo p el percentil de inters y n, la cantidad de datos. Decidamos de acuerdo a uno de los dos casos:

Si el ndice i no es entero, redondeamos al entero siguiente. Este valor aproximado de i indica la posicin del p-simo percentil.
Si i es entero, el p-simo percentil es el promedio de los valores de los datos ubicados en las posiciones i y i + 1.

EJEMPLO
Calcule (a) el 85-simo punto percentil y (b) el 50-simo punto percentil de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados en una empresa:

2,350 2,450 2,550 2,380 2,255 2,210 2,825 2,420 2,380


SOLUCIN:

2,390

2,630

2,440

Como primer paso fundamental debemos ordenar los datos de manera ascendente (preferiblemente con ayuda de un diagrama de tallo y hojas): 2,210 2,255 2,350 2,380 2,380 2,390 2,420 2,440 2,450 2,550 2,630 2,825

(a) Para determinar el 85-simo punto percentil, calculemos el ndice i = np/100, con p = 85 y n = 12. Al reemplazar obtenemos que i = 10,2. En este caso, como i = 10,2 no es entero, entonces redondeamos a 11. Por lo tanto, el lugar del Sb-simo percentil es el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el 85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el 15% de estos empleados ganan $2.630.000 o ms que este valor. (b) En este caso, p = 50. Con ello y con n = 12 obtenemos que i = 6 (que es un nmero entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y sptimo (2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto de datos. En conclusin, podemos decir que el 50% de los empleados tienen un salario menor o igual (o mayor o igual) que $2.405.000.

CUARTILES
Los cuartiles son las medidas de posicin relativa correspondiente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se definen asi: Q1 = primer cuartil o 25 - esimo percentil. Q2 = segundo cuartil o 50 - simo percentil o tambin mediana. Q3 = tercer cuartil o 75 - simo percentil.

EJEMPLO
Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24. SOLUCIN: Como Q2 coincide con la mediana, entonces Q2 = 2,405. Calculando los percentiles como en el anterior ejemplo podemos verifcar que

Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa que el 25% de los empleados gana al menos $2.365.000 o el 75% gana ms de este salario, y el valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o el 25% gana ms de este salario.

DECILES
Los deciles son las medidas de posicin relativa correspondiente a un conjunto de datos (ordenado ascendentemente) que est dividido en diez partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas. Hay nueve deciles, denotados por D1, D2, ... y D9. Si Dn es el n-simo decil, entonces cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-simo punto percentil, D7 es 70-simo punto percentil, etc.

ANLISIS DE DATOS EN TABLAS DE FRECUENCIA AGRUPADAS


Media para datos agrupados
Ejemplo 1.4.1 Los datos siguientes representan el nmero de personas que han entrado a un establecimiento diariamente durante un periodo de 25 das:
60 36 61 56 19 35 59 28 51 63 42 38 21 15 28 24 33 35 67 30 49 46 53 57 61 54

Los datos han sido agrupados en la tabla de frecuencias agrupadas

Nmero de personas
14,5 - 25,5 25,5 - 36,5 36,5 - 47,5 47,5 - 58,5 58,5 - 69,5

Nmero de das
4 7 3 6 3

(a) Calcule la media x del nmero de personas que entran por da. (b) Calcule la media aproximada xa del nmero de personas que entran por da.

SOLUCIN:
(a) Se puede comprobar que la media de los datos es = 42,4. (b) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase es el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su frecuencia correspondiente, como se muestra en la tabla

Nmero de personas
14,5 - 25,5 25,5 - 36,5 36,5 - 47,5 47,5 58,5 58,5-69,5 SUMAS

Nmero de das f ni
4 7 3 6 5 25

Marca clase X Mi
20 31 42 53 64

fX Ni
80 217 126 318 320 1061

Por consiguiente, la media aproximada es:

el cual es slo un valor aproximado para la media de las 25 medidas mustrales originales. La aproximacin se considera buena comparada con el valor exacto x = 42,40, obtenido en la parte (a)

MEDIANA PARA DATOS AGRUPADOS


Clase acumulada 49,5 - 59,5 59,5 - 69,5 69,5 - 79,5 79,5 - 89,5 89,5 - 99,5 99,5 - 109,5 Frecuencia 3 7 18 12 8 2 Frecuencia 3 10 28 40 48 50

MODA PARA DATOS AGRUPADOS

PERCENTILES

VARIANZA Y DESVIACIN TPICA

RESUMEN DE LOS CINCO NMEROS


Un resumen de cinco nmeros consiste en cinco cantidades que se emplean para resumir los datos: valor mnimo, primer cuartil (Q1), mediana (Q2), tercer cuartil (Q3) y valor mximo. Con base en el resumen de cinco nmeros se pueden obtener, entre otras, dos medidas de tendencia central (la mediana y el rango medio) y dos medidas de variacin (el rango intercuartil y el rango) para tener una mejor idea de la forma de la distribucin. Si la distribucin es simtrica, la relacin entre las diversas medidas nos la da el siguiente teorema:

(SITUACIONES PARA RECONOCER LA SIMETRA DE LOS DATOS)


Si la distribucin es simtrica: La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3. Adems, la distancia del valor mnimo a Q1 es igual a la distancia de Q3 al valor mximo. La mediana y el rango medio son iguales. (Estas medidas son iguales a la media de los datos)

DIAGRAMA DE CAJA Y BIGOTES


El DIAGRAMA de CAJA Y bigotes, como el que se muestra en la figura, proporciona una representacin grfica de los datos mediante el resumen de cinco nmeros.

TALLER
1. Clasifique los datos siguientes en cuantitativos (numricos) y cualitativos (categricos). En caso de ser numrico, como discretos o continuos:en centmetros de cuatro jugadores de ftbol. Estaturas
El nmero de goles anotados por un futbolista en toda su carrera deportiva.
Los sueldos ganados por unos profesores universitarios, Las temperaturas promedios diarias en el ltimo mes. Clasificacin tnica de 30 empleados. Nmeros telefnicos de ciertas personas. Calificaciones del primer parcial de Estadstica de unos estudiantes universitarios. Distancia (en metros) recorrido por un atleta en una temporada. Peso perdido (en kilogramos) por 10 personas debido a una dieta. Fecha de cumpleaos de determinadas personas. Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato. Rango militar.

2. Los siguientes datos representan los totales, en miles de pesos, gastados en fotocopias por una muestra de 25 estudiantes durante un semestre:

29 89 77 72 39 47 64 84 88 57 28 63 38 42 36 72 69 68 41 52 39 84 45 52 72 Construya una tabla de frecuencias agrupadas usando la regla de Sturges.

3. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la gasolina extra en una cierta ciudad a lo largo de un ao en particular:
123,9 121,9 119,9 127,9 126,9 118,9 130,9 122,8 119,8 121,9 126,9 116,9 132,9 137,9 129,9 120,8 115,9 122,8 115,9 115,9 119,9 117,9 121,9 131,9 126,9

Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas,