Академический Документы
Профессиональный Документы
Культура Документы
Departamento de Matemáticas
Felipe corrió a alcanzar el carruaje. Cuando ya estuvo cerca, escuchó que el oficial leía el
libro del profeta Isaías. Entonces le preguntó: ¿Entiende usted lo que está leyendo? Y el
oficial etíope le respondió: ¿Y cómo voy a entenderlo, si no hay quien me lo explique?
Hechos 8:30-31.
1. INTRODUCCIÓN
La forma en que se presentan los datos tiene mucho que ver con la comprensión de la
información que se desea transmitir. Por ello es muy importante conocer las técnicas de
resumen más favorables para cada ocasión.
2. DATOS REPETIDOS
Datos No Repetidos
Es un conjunto donde todos los datos son diferentes, es decir que hay k = n valores
distintos.
Datos Repetidos
Es un conjunto donde al menos algunos de los datos están repetidos, es decir que hay k
valores distintos entre los datos.
Ejemplo:
Para llenar el acta de calificaciones definitivas, el profesor procede a redondear las
calificaciones obtenidas por sus estudiantes, resultando:
11 10 10 11 11 1 3
8 1 8 0 10 15 5
6 12 10 8 14 9 10
16 20 14 9 13 12 11
Como se puede ver, hay algunos valores de calificaciones repetidos. El valor 10 aparece en
4 ocasiones, si bien el valor 5 aparece una sola vez, y el valor 2 no aparece ninguna.
Por otra parte, al medir otro atributo de los estudiantes, como la carrera a la que
pertenecen, que es una variable medida en escala nominal, el profesor puede obtener la
siguiente caracterización:
Civil Mecánica Sistemas Indefinido Civil Sistemas Industrial
Industrial Industrial Sistemas Sistemas Mecánica Civil Sistemas
Sistemas Sistemas Industrial Mecánica Sistemas Civil Mecánica
Sistemas Civil Mecánica Industrial Industrial Sistemas Indefinido
Inspeccionando esta tabla se puede ver que los 28 estudiantes están repartidos entre 4
programas de ingeniería, y algunos aún no han definido sus preferencias de estudio.
3. TABLAS DE FRECUENCIA
Tabla de Frecuencias
Es una disposición en forma de matriz que muestra cuántos elementos de los datos que se
están analizando entran en cada una de las diferentes categorías o intervalos en los cuales
se agrupan los datos.
En el caso de las calificaciones se puede presentar una tabla que resuma los datos
originales mediante:
Calificación 0 1 3 5 6 8 9 10 11 12 13 14 15 16 20
Estudiantes 1 2 1 1 1 3 2 5 4 2 1 2 1 1 1
Esta forma de representar la información utiliza únicamente los valores que aparecen en
la tabla original de datos en bruto.
Como los datos presentados están medidos en una escala de razón, disponen de los
atributos ya mencionados, pudiéndose establecer un orden natural en las calificaciones.
En la tabla anterior, en principio, no se representan las calificaciones 2, 4, 7, 17, 18 y 19
porque no figuran en los datos originales ni una sola vez. En la presentación de este
ejemplo se puede decir que k = 15.
La razón para completar la tabla anterior y convertirla en una tabla extendida es que para
el analista de los datos puede tener significado la escala original en que se efectuaron las
mediciones.
Si el analista conoce en mayor detalle la naturaleza de la variable, puede optar por una
representación que despliegue otra información útil para los interesados:
Carrera Civil Eléctrica Indefinido Mecánica Producción Química Sistemas
Estudiantes 5 0 2 5 6 0 10
Diferentes opciones de presentación son posibles, según la intención del analista. Por
ejemplo, se puede pretender facilitar la inspección de aquellas carreras en las que hay
más estudiantes, optándose por una presentación en la cual se ordenan las categorías
según las frecuencias, de mayor a menor:
Carrera Sistemas Producción Civil Mecánica Indefinido
Estudiantes 10 6 5 5 2
O inclusive puede existir una intención de destacar las ingenierías preferidas y separarlas
de los individuos que aún no han hecho selección:
Carrera Sistemas Producción Civil Mecánica Eléctrica Química Indefinido
Estudiantes 10 6 5 5 0 0 2
Clase
Cada uno de los k grupos diferentes recibe el nombre de clase. Este término se utilizará
luego en contextos más generales.
Frecuencia absoluta
Es el número de veces que aparece repetido un valor de la clase mi en un conjunto de
datos. En el caso de la clase mi , esta frecuencia se denota mediante fi .
Frecuencia f1 f2 … fk
Frecuencia Relativa
Para cada valor m i , donde i 1,, n , su respectiva frecuencia relativa es el cociente
entre la frecuencia absoluta f i y el tamaño n de los datos, definiéndose entonces
f
hi i .
n
Frecuencia Acumulada
Para la clase i, representada por el valor o marca mi , su respectiva frecuencia acumulada
es la suma de todas las frecuencias absolutas desde f1 hasta f i inclusive, definiéndose
entonces
Fi j1 f j .
i
4. DATOS AGRUPADOS
Cuando las clases se construyen dividiendo el rango de los datos en subintervalos, se debe
especificar el límite superior e inferior de cada uno. Para efectos de facilidad de
interpretación nos limitamos a trabajar con intervalos de la misma longitud. Asimismo
estos intervalos no deben solaparse (no obstante el lector encontrará tablas de frecuencia
con datos agrupados en los que no siempre queda claro a cual intervalo pertenece un
dato, esto debe evitarse).
Clases
Es el fraccionamiento que se hace del intervalo total de la variable en segmentos
parciales. Cuando las clases representan intervalos de valores, cada una consta de un
límite inferior Li y un límite superior Ls .
Marca de Clase
Valor representativo de cada clase de la distribución. Cuando la clase está constituida por
un único valor, la marca es dicho valor. Cuando la clase está constituida por un intervalo,
la marca es el valor medio del intervalo. Se calcula mediante:
Li Ls
mc
2
ii. Reglas para el ancho de clases (y consiguiente elaboración del número de clases):
Regla de Scott (1978)
h 3.5sn1 3
En esta fórmula n representa el tamaño de una muestra y s la desviación muestral.
Regla de Freedman y Diaconis (1981)
h 2( RI )n1 3
En esta fórmula n representa el tamaño de una muestra y RI el rango
intercuartílico muestral.
El lector debe tener presente que hay numerosas reglas adicionales, pero las que se
presentan son algunas de las más conocidas y utilizadas por los libros de texto, software,
investigadores, docentes, etc. En este curso generalmente se usa la regla de Sturges.
k f m i i
Para una población de N observaciones, siendo N f i , la media es i 1
i 1 N
k k
f (m i i ) 2 f m i
2
i
y la varianza es 2 i 1
i 1
2
N N
k
k f m i i
Para una muestra de n observaciones, siendo n f i , la media es x i 1
y
i 1 n
k k
f i ( mi x ) 2 f m
2
i
2
i nx
la varianza es s 2 i 1
i 1
n 1 n 1
Resulta evidente que las medias para datos agrupados o repetidos son medias
ponderadas.
Los cuartiles se pueden calcular como antes, mediante los percentiles 25, 50 y 75, y de la
misma forma se puede calcular el rango intercuartílico, deciles, quintiles, etc.
f x Lix 100
Fax cx
a cr n
EJERCICIOS