Вы находитесь на странице: 1из 10

Universidad Metropolitana

Departamento de Matemáticas
Felipe corrió a alcanzar el carruaje. Cuando ya estuvo cerca, escuchó que el oficial leía el
libro del profeta Isaías. Entonces le preguntó: ¿Entiende usted lo que está leyendo? Y el
oficial etíope le respondió: ¿Y cómo voy a entenderlo, si no hay quien me lo explique?
Hechos 8:30-31.

1. INTRODUCCIÓN

La forma en que se presentan los datos tiene mucho que ver con la comprensión de la
información que se desea transmitir. Por ello es muy importante conocer las técnicas de
resumen más favorables para cada ocasión.

En el análisis de un conjunto de datos pueden enfrentarse tres posibilidades:


1. Es posible visualizar el valor de cada uno de los datos, y efectuar las operaciones
convenientes de acuerdo al nivel de medición de la variable en la que se midieron los
datos.
2. Los datos se presentan resumidos en una tabla y no se dispone de los valores
individuales de cada uno de ellos, en cuyo caso es necesario replicar las operaciones
descriptivas ya estudiadas para esta nueva situación.
3. Es posible visualizar el valor de cada uno de los datos, pero se desea utilizar una
herramienta gráfica que requiere procesar previamente los datos para resumirlos en
una tabla.

2. DATOS REPETIDOS

Sin pérdida de generalidad vamos a efectuar el estudio siguiente utilizando un conjunto de


datos de tamaño n. En el contexto estadístico esto significa que los datos corresponden a
una muestra, sin embargo todas las operaciones que se describirán a continuación se
pueden reproducir para un conjunto de N datos.

Después de inspeccionar un conjunto cualquiera de datos, digamos x1 , x2 , , xn ,


evidentemente encontraremos que: o todos los valores son distintos, o algunos valores
están repetidos. Denotaremos por k al número de valores diferentes que se encuentran
en un conjunto de n datos.

Datos No Repetidos
Es un conjunto donde todos los datos son diferentes, es decir que hay k = n valores
distintos.

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas
Ejemplo:
Los datos dados a continuación corresponden a las calificaciones acumuladas después del
100% de las evaluaciones efectuadas por un profesor sobre un grupo de 28 estudiantes en
una escala del 0 al 20. En este caso n = 28 y k = 28:

11.25 10.45 9.65 11.2 10.8 1.45 3


8.1 1.25 7.6 0 9.55 14.5 5.05
6.45 11.5 10.25 7.55 14.2 9.1 9.65
16.45 19.6 14.2 8.7 13 12.3 10.9

Se establecerá que x1  11.25 , x 2  10.45 , …, x n  x 28  10.9 . Evidentemente son


posibles otras asignaciones, pero eso no es importante para los cálculos que se
efectuarán.

Datos Repetidos
Es un conjunto donde al menos algunos de los datos están repetidos, es decir que hay k
valores distintos entre los datos.

Ejemplo:
Para llenar el acta de calificaciones definitivas, el profesor procede a redondear las
calificaciones obtenidas por sus estudiantes, resultando:
11 10 10 11 11 1 3
8 1 8 0 10 15 5
6 12 10 8 14 9 10
16 20 14 9 13 12 11
Como se puede ver, hay algunos valores de calificaciones repetidos. El valor 10 aparece en
4 ocasiones, si bien el valor 5 aparece una sola vez, y el valor 2 no aparece ninguna.

En resumen se puede decir que el número 0 aparece 0 veces, el 1 aparece 2 veces, el 3


aparece 1 vez, etc.

Por otra parte, al medir otro atributo de los estudiantes, como la carrera a la que
pertenecen, que es una variable medida en escala nominal, el profesor puede obtener la
siguiente caracterización:
Civil Mecánica Sistemas Indefinido Civil Sistemas Industrial
Industrial Industrial Sistemas Sistemas Mecánica Civil Sistemas
Sistemas Sistemas Industrial Mecánica Sistemas Civil Mecánica
Sistemas Civil Mecánica Industrial Industrial Sistemas Indefinido
Inspeccionando esta tabla se puede ver que los 28 estudiantes están repartidos entre 4
programas de ingeniería, y algunos aún no han definido sus preferencias de estudio.

En resumen, hay 5 estudiantes de Civil, 6 de Industrial, 10 de Sistemas, 5 de Mecánica y 2


estudiantes sin definir su carrera.

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas

3. TABLAS DE FRECUENCIA

Al considerar el manejo de datos repetidos, surge de manera natural el concepto de tabla


de frecuencia, una idea que después se extenderá incluso a datos no repetidos.

Una de las formas más elementales, y útiles, de presentar la información contenida en un


conjunto de datos es construir un resumen que indique los diferentes valores de la
variable de interés y un conteo de la cantidad de veces que se repite cada valor.

Tabla de Frecuencias
Es una disposición en forma de matriz que muestra cuántos elementos de los datos que se
están analizando entran en cada una de las diferentes categorías o intervalos en los cuales
se agrupan los datos.

A la tabla de frecuencias se le conoce también como distribución de frecuencias.

En el caso de las calificaciones se puede presentar una tabla que resuma los datos
originales mediante:
Calificación 0 1 3 5 6 8 9 10 11 12 13 14 15 16 20
Estudiantes 1 2 1 1 1 3 2 5 4 2 1 2 1 1 1

Esta forma de representar la información utiliza únicamente los valores que aparecen en
la tabla original de datos en bruto.

Como los datos presentados están medidos en una escala de razón, disponen de los
atributos ya mencionados, pudiéndose establecer un orden natural en las calificaciones.
En la tabla anterior, en principio, no se representan las calificaciones 2, 4, 7, 17, 18 y 19
porque no figuran en los datos originales ni una sola vez. En la presentación de este
ejemplo se puede decir que k = 15.

Otra forma de representar la información es establecer la tabla de la siguiente manera,


utilizando todos los valores enteros que aparecen en la escala de calificaciones original:
Calificación 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Estudiantes 1 2 0 1 0 1 1 0 3 2 5 4 2 1 2 1 1 0 0 0 1

La razón para completar la tabla anterior y convertirla en una tabla extendida es que para
el analista de los datos puede tener significado la escala original en que se efectuaron las
mediciones.

Por ejemplo, para un lector no informado, el resumen de la tabla siguiente …


Civil Mecánica Sistemas Indefinido Civil Sistemas Producción
Producción Producción Sistemas Sistemas Mecánica Civil Sistemas
Sistemas Sistemas Producción Mecánica Sistemas Civil Mecánica

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas
Sistemas Civil Mecánica Producción Producción Sistemas Indefinido

… Se puede expresar mediante la siguiente tabla de frecuencias


Carrera Civil Indefinido Mecánica Producción Sistemas
Estudiantes 5 2 5 6 10

Si el analista conoce en mayor detalle la naturaleza de la variable, puede optar por una
representación que despliegue otra información útil para los interesados:
Carrera Civil Eléctrica Indefinido Mecánica Producción Química Sistemas
Estudiantes 5 0 2 5 6 0 10

Diferentes opciones de presentación son posibles, según la intención del analista. Por
ejemplo, se puede pretender facilitar la inspección de aquellas carreras en las que hay
más estudiantes, optándose por una presentación en la cual se ordenan las categorías
según las frecuencias, de mayor a menor:
Carrera Sistemas Producción Civil Mecánica Indefinido
Estudiantes 10 6 5 5 2

O inclusive puede existir una intención de destacar las ingenierías preferidas y separarlas
de los individuos que aún no han hecho selección:
Carrera Sistemas Producción Civil Mecánica Eléctrica Química Indefinido
Estudiantes 10 6 5 5 0 0 2

A fin de establecer el lenguaje común se simbolizan las k observaciones diferentes


mediante la notación mi, donde el subíndice i varía de 1 a k. Para cada uno de estos
elementos el valor fi simboliza la frecuencia o cantidad de veces que aparece repetido mi.

Clase
Cada uno de los k grupos diferentes recibe el nombre de clase. Este término se utilizará
luego en contextos más generales.

Frecuencia absoluta
Es el número de veces que aparece repetido un valor de la clase mi en un conjunto de
datos. En el caso de la clase mi , esta frecuencia se denota mediante fi .

Simbólicamente, una tabla de frecuencia se representa de la siguiente manera:


Clase m1 m2 … mk

Frecuencia f1 f2 … fk

En la práctica se acostumbra sustituir la palabra clase por el nombre de la variable que se


está analizando, y la palabra frecuencia por el nombre de los individuos que se están

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas
midiendo. Por ejemplo, en el caso de las notas, las clases son las diferentes calificaciones y
las frecuencias son conteos de estudiantes.

A la frecuencia absoluta se le denomina simplemente frecuencia, siempre que no exista


riesgo de confusión con los otros conceptos que se estudiarán a continuación.

Frecuencia Relativa
Para cada valor m i , donde i  1,, n , su respectiva frecuencia relativa es el cociente
entre la frecuencia absoluta f i y el tamaño n de los datos, definiéndose entonces
f
hi  i .
n

Esta forma de expresar la frecuencia permite representarla mediante una proporción,


independiente del número de observaciones que se esté analizando, que se puede
manejar además como un porcentaje con solo multiplicar la frecuencia relativa por 100.

Frecuencia Acumulada
Para la clase i, representada por el valor o marca mi , su respectiva frecuencia acumulada
es la suma de todas las frecuencias absolutas desde f1 hasta f i inclusive, definiéndose
entonces
Fi  j1 f j .
i

Frecuencia Acumulada Relativa


Para el valor m i , la frecuencia acumulada relativa es la suma de todas las frecuencias
relativas desde fr1 hasta fri inclusive, definiéndose
Hi  j1 h j
i

4. DATOS AGRUPADOS

Cuando el número k de datos diferentes lo amerita, se recurre a la agrupación de los


mismos, elaborando particiones del rango de los datos y contando el número de datos
que contiene cada segmento de la partición. Aquí el término rango se utiliza en el
significado de valores que se encuentran entre el mínimo y el máximo.

La ventaja de esta construcción es observar el comportamiento de los datos en estudio a


través de sus recorridos parciales y abreviar el análisis de la información. Por otra parte, la

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas
desventaja es que una vez agrupados los datos, se pierde la identidad de cada una de las
observaciones incluidas en el conjunto.

Cuando las clases se construyen dividiendo el rango de los datos en subintervalos, se debe
especificar el límite superior e inferior de cada uno. Para efectos de facilidad de
interpretación nos limitamos a trabajar con intervalos de la misma longitud. Asimismo
estos intervalos no deben solaparse (no obstante el lector encontrará tablas de frecuencia
con datos agrupados en los que no siempre queda claro a cual intervalo pertenece un
dato, esto debe evitarse).

Se redefinirán los conceptos clave en este contexto de datos agrupados.

Clases
Es el fraccionamiento que se hace del intervalo total de la variable en segmentos
parciales. Cuando las clases representan intervalos de valores, cada una consta de un
límite inferior Li y un límite superior Ls .

Marca de Clase
Valor representativo de cada clase de la distribución. Cuando la clase está constituida por
un único valor, la marca es dicho valor. Cuando la clase está constituida por un intervalo,
la marca es el valor medio del intervalo. Se calcula mediante:
Li  Ls
mc 
2

Amplitud o intervalo de clases:


Es la distancia entre el límite superior y el límite inferior de la clase y se determina a través
de su diferencia. En estas notas utilizaremos la letra i para identificar la amplitud:
i = Ls - Li

El trabajo de agrupación de datos se puede llevar a cabo mediante dos enfoques:


i. Decidiendo primero la cantidad de clases k que se construirán y dividiendo luego el
rango entre dicho número, para determinar el ancho o amplitud de cada clase.
ii. Decidiendo el ancho de las clases y contando luego el número de clases resultantes.

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas
i. Reglas para el cálculo del número de clases adecuadas:
 Empírica: no menos de 5 y no más de 20 clases (regla subjetiva)
 Regla de Sturges (1926)
k  1  log 2 n  1  3.322 log10 n
A
i 
1  3.222log 10n

En la primera fórmula n es el tamaño de la muestra y k se redondea al entero más


cercano. En la segunda fórmula se calcula la amplitud de cada clase, siendo A la amplitud
total o rango de los datos.
 Regla de la raíz cuadrada de n

ii. Reglas para el ancho de clases (y consiguiente elaboración del número de clases):
 Regla de Scott (1978)
h  3.5sn1 3
En esta fórmula n representa el tamaño de una muestra y s la desviación muestral.
 Regla de Freedman y Diaconis (1981)
h  2( RI )n1 3
En esta fórmula n representa el tamaño de una muestra y RI el rango
intercuartílico muestral.

El lector debe tener presente que hay numerosas reglas adicionales, pero las que se
presentan son algunas de las más conocidas y utilizadas por los libros de texto, software,
investigadores, docentes, etc. En este curso generalmente se usa la regla de Sturges.

4. MEDIDAS RESUMEN PARA DATOS AGRUPADOS

Cuando los datos se encuentran agrupados en k clases con frecuencias f1 , f 2 ,..., f k . Si


definimos los puntos medios de estas k clases como m1 , m 2 ,..., m k , entonces la media y la
varianza del conjunto de datos agrupados puede estimarse utilizando las fórmulas para
observaciones repetidas que se dieron.

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas
k

k f m i i
 Para una población de N observaciones, siendo N   f i , la media es   i 1

i 1 N
k k

 f (m i i  ) 2 f m i
2
i
y la varianza es  2  i 1
 i 1
 2
N N
k

k f m i i
 Para una muestra de n observaciones, siendo n   f i , la media es x  i 1
y
i 1 n
k k

 f i ( mi  x ) 2 f m
2
i
2
i  nx
la varianza es s 2  i 1
 i 1
n 1 n 1

Resulta evidente que las medias para datos agrupados o repetidos son medias
ponderadas.

Percentiles para datos agrupados

Para calcular el percentil p (siendo p un valor entre 0 y 100), previamente se debe…


a. calcular la posición del percentil deseado ( posp ).
b. luego establecer cuál es la clase en la que se ubica dicha posición ( L p ).
El cálculo del percentil se ejecuta ahora mediante la fórmula
n
p  Fap
Lp  100  ap
fp
Siendo:
f p la frecuencia de la clase L p
Fap la frecuencia acumulada anterior a la clase L p
a p la amplitud de la clase L p
n el tamaño de la muestra

Los cuartiles se pueden calcular como antes, mediante los percentiles 25, 50 y 75, y de la
misma forma se puede calcular el rango intercuartílico, deciles, quintiles, etc.

Porcentaje de datos en una distribución de frecuencias

En ocasiones se desea estimar el porcentaje de datos que resultan menores a un cierto


valor x. Con los datos agrupados se puede estimar este porcentaje mediante la fórmula
siguiente:

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas

 f x  Lix   100
 Fax  cx 
 a cr  n

EJERCICIOS

1. En un edificio de 6 pisos, con 5 apartamentos por piso, se realizó un censo para


determinar cuántas personas habitan por apartamento resultando los siguientes
datos:
2 1 7 4 3
1 2 2 3 4
5 4 0 3 3
6 4 3 6 5
1 4 5 6 2
3 3 2 7 4
a. Determine los valores de n y de k.
b. Construya una tabla para los datos repetidos.

2. El departamento de control de calidad de una fábrica de fósforos seleccionó una


muestra de 40 cajas de todas las empaquetadas el día de hoy, observando los siguientes
números de fósforos por caja:
Número de fósforos 38 39 40 41 42
Número de cajas 4 9 15 10 2
a. Señale cuales son las marcas de clase.
b. Construya una tabla con las frecuencias acumuladas, frecuencias relativas y
frecuencias relativas acumuladas.
c. Halle el número medio de fósforos por caja. Compárelo con la mediana. ¿Se debe
sospechar algún sesgo en el empaquetado?
d. Calcule la desviación típica.
e. Halle el rango intercuartílico.
f. ¿Cuántos fósforos se encontrarán en una caja al menos el 60% de las veces?

3. Una agencia de publicidad desea presentar a un nuevo cliente un resumen numérico de


sus últimas publicidades televisivas. Presenta a su cliente una tabla de frecuencias con
los tiempos de varias cuñas contratadas anteriormente:
duración segundos # de cuñas
0 – 18 8
18 – 25 14
25 – 35 18
35 – 50 6
50 – 70 2

Prof. Juan C. Trabucco


Universidad Metropolitana
Departamento de Matemáticas
El cliente desea saber:
¿Cuál es la duración media aproximada de los anuncios?
¿Cuál es la duración más frecuente?
¿Cuántos segundos duran los comerciales del 30% inferior?
¿Al menos cuánto tiempo duran los 10 anuncios más largos?
Si cada segundo cuesta mil dólares, ¿cuál es el costo medio de una cuña con esta agencia?

Prof. Juan C. Trabucco

Вам также может понравиться