Вы находитесь на странице: 1из 35

ESCUELA POLITÉCNICA CHIMBORAZO

EXTENSIÓN NORTE AMAZONICA


FACULTAD DE RECURSOS NATURALES
CARRERA AGRONOMÍA –
BIOESTADISTICA

Análisis de datos: La
ordenación de datos
Realizado por : Jorge Rentería 2018-10
Ordenamiento de datos

Los datos son colecciones de cualquier cantidad de


observaciones relacionadas. Una colección de datos se
conoce como conjunto de datos y una sola observación
es un punto de dato.

Para que los datos sean útiles, necesitamos organizar


nuestras observaciones, de modo que podamos distinguir
patrones y llegar a conclusiones lógicas.

Recolección de datos
Los datos pueden provenir de observaciones reales o de
registros que se mantienen para otros propósitos.
La distribución de frecuencias o tabla de frecuencias es
una ordenación en forma de tabla de los datos
estadísticos, asignando a cada dato su frecuencia
correspondiente.

Tipos de frecuencias

Frecuencia absoluta

La frecuencia absoluta es el número de veces que


aparece un determinado valor en un estudio
estadístico. Se representa por Fabs.

La suma de las frecuencias absolutas es igual al


número total de datos, que se representa por N.

fab1 + fab2 + fab3 +...+fabn =N


Para indicar resumidamente estas sumas se utiliza la letra
griega Σ (sigma mayúscula) que se lee suma o sumatoria.

Σfab= N

Veamos un ejemplo
En una Tabla de Distribución de Frecuencias, de 5 clases,
se tienen los siguientes valores de frecuencias absolutas:
CLASES Fab
Clase 1--------------10
Clase 2--------------20
Clase 3--------------25
Clase 4--------------08
Clase 5--------------02
el calculo de N (suma de frecuencias absolutas) es:
N=10+20+25+08+02

N=65
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia
absoluta de un determinado valor y el número total de
datos.

La suma de las frecuencias relativas es igual a 1.

Ejemplo

Si se desea calcular la frecuencia relativa de la Clase 2,


de la Tabla de Distribución de Frecuencia anterior, esta
se haría:
Frecuencia Relativa porcentual
Se puede expresar en tantos por ciento y se representa por %Fr

En ambas formulas, N representa la suma de las frecuencias


absolutas, tal como se planteo en párrafos anteriores.

Ejemplo

Si se desea calcular la Frecuencia Relativa Porcentual para la


Clase 2 anterior, esta se haría de la siguiente manera:
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias
absolutas de todos los valores inferiores o iguales al valor
considerado.

Se representa por Fac.

Ejemplo

La frecuencia Acumulada de la Clase 2, para la Tabla anterior


seria:

Fac. Clase 2=10+20


=30
y la Fac. de la Clase 3 sería:

Fac. Clase 3=10+20+25


=55

o más bien

Fac. Clase 3=30 + 25


=55

Este último procedimiento es el que realmente se


emplea por ser más práctico
Frecuencia relativa acumulada

La frecuencia relativa acumulada de cada clase, es la suma de


las frecuencias relativas de la clase actual y las frecuencias
relativas anteriores. Se puede expresar en tantos por ciento. Se
representa por %Fracum.

El intervalo, conocido también como rango, amplitud o ancho


de clase, puede determinarse como la diferencia entre el limite
inferior de la clase siguiente y el limite inferior de la clase
actual. También puede determinarse como la diferencia entre el
limite superior y el inferior de cada clase más la unidad de
variación de los datos.

Unidad de Variación
Un concepto muy importante en este punto es el de la Unidad
de Variación. El cual se debe entender como la mínima diferencia
que puede presentarse entre dos datos del conjunto que se analiza.
1.-Recopilación de los Datos a analizar
2.-Ordenamiento de los datos de menor a mayor
o de mayor a menor.
3.-Se establece el número de clases
4.-Se calcula el ancho de clase exacto de cada
intervalo.
5.-Se ajusta el valor del ancho de clase.
6.-Identificación de los limites de clase o de los
intervalos de clase nominales.
7.-Se realiza el conteo de los datos.
Desarrolle la tabla de Distribución de Frecuencia para la
siguiente lista de datos.
Paso 1
Recopilación de los datos

782, 1333, 515, 1475, 696, 832, 1052, 700, 958, 542, 1296,
704, 814, 1482, 1023, 739, 643, 956, 1023, 784.

Paso 2
Se ordenan los datos de menor a mayor
515 700 784 987 1296
542 704 814 1023 1333
643 739 832 1023 1475
696 782 956 1052 1482
Paso 3
Se determina el número de clases
Para esto se emplea la fórmula:

En la que N representa el total del número de datos que se


van a ordenar y analizar.

Número de clases= 4.47


Este valor se redondea al próximo número superior ya que
aparece un valor decimal, sin importar que este sea menor a
0.5. De esta forma el número de clases se quedaría:

Número de clases= 5.
Antes de entrar al paso 4, veamos
Cabe mencionar que en este caso particular se aplica
el método de la raíz cuadrada para determinar el número de
clases, pues el número de datos que se desea analizar es
pequeño. Sin embargo, para los casos en que la base de
datos es grande, se sugiere aplicar
el método de Sturges, quien presenta la siguiente formula
para para calcular el número de clases:
Número de Clases= 1 +3.32*log(N)

Se considera pequeña una base de datos cuando N≤30


datos. Cuando N excede de 30 datos, la muestra se
considera grande, es entonces cuando se sugiere aplicar
el Método de Sturges.
Otro método menos empleado es el que indica que el numero
de clases de cualquier TDF debe oscilar entre 5 y 20 clases,
a criterio de quien esta elaborando la referida TDF.
Paso 4
Cálculo del intervalo exacto o ancho de Clase. Para esto, la
fórmula empleada es:

Se observa que el valor mayor de la base de datos es 1482,


y el valor más pequeño es de 515, por ello;

Intervalo Exacto de Clase= 193.4


Paso 5

Se determina el Ancho de Clase ajustado según el valor de la


unidad de variación.

En este ejemplo, la unidad de variación de los datos es igual a


1, por lo que el tamaño ajustado o ancho de clase debe ser
por lo menos igual al siguiente valor entero incrementado en
1, o sea 194.
Paso 6
Se calculan los Limites Nominales Inferiores (LNI) y
Superiores de cada clase (LNS).

Para ello se emplea la fórmula:

Limite inferior de la clase= Limite inferior de la clase anterior +


Ancho de Clase
Este cálculo se inicia tomando en cuenta que el primer
Limite Nominal Inferior de la primera clase es el valor
menor de los datos que se desean ordenar, esto es 515.

Limite Nominal Inferior de la Primera Clase= 515

Limite Nominal Inferior de la Segunda Clase=


515+Ancho de Clase
= 515+194=709

Limite Nominal Inferior de la Tercera Clase


= 709+194

= 903
Limite Nominal Inferior de la Cuarta Clase
= 903+194
= 1097
Limite Nominal Inferior de la Quinta Clase
= 1097+194
= 1291
Aunque sabemos que solo son 5 clases las que
compondrá la Tabla de Distribución de Frecuencias,
calcularemos un Limite Nominal Inferior hipotético para
apoyarnos en el y poder calcular el ultimo Limite
Nominal Superior.

Limite Nominal Inferior Hipotético (H)= 1291+194


=1485
Hasta ahora, lo que hemos logrado, se puede observar
de la siguiente manera en la Tabla de Distribución de
Frecuencia
CLASE LNI LNS Fab Facu %Fr %Fac
1 515

2 709

3 903

4 1097

5 1291

H 1485

En este mismo paso figura la necesidad de calcular los


Limites Nominales Superiores, para ellos se emplea la
siguiente fórmula.

En donde

n= número de clase
Según esto, la formula, traducida a lenguaje común, se expresaría:

Limite Nominal Superior 1= (Limite Nominal Inferior de la clase 2) - (la Unidad


de Variación)

De forma que
Recuerde que la unidad de variación (UV) es igual a 1,
según lo expuesto anteriormente.
Los limites Nominales, ya completos se verían en la TDF
así.
y ya habiendo calculado el último Limite Nominal
Superior(el de la quinta clase), se puede eliminar la
clase hipotética que se introdujo solo como apoyo para
poder calcular mencionado limite La TDF quedaría
PASO 7
En este paso iniciamos el conteo de los datos. Para ello
procedemos de la manera que se explica; a partir de la
base de datos que se ordeno de menor a mayor, se van
contando los números que están comprendidos en cada
intervalo de clase, de preferencia, estos se van tachando
en la misma base de datos.

Observe que en la primera clase, cuyo intervalo va de


515 a 708, están los números 515, 542, 643, 696, 700 y
704, por lo que podemos decir que en este primer
intervalo o Clase 1, tenemos una Frecuencia Absoluta de
seis, ya que solo hay seis números que están dentro de
el intervalo mencionado.
En la segunda clase ( intervalo que va de 709 a 902)
están los números 739, 782, 784, 814 y 832. En esta Clase
la Fab seria de 5.
En la Clase 3, los números que debemos buscar son los
que sean iguales o mayores que 903 e iguales o menores
de 1096. Los números que están comprendidos entre
estos limites son el 956, 987, 1023, 1023 otra vez, y el
1052. La frecuencia absoluta seria 5

Para la clase 4, los números deben ser iguales o


mayores de 1097 pero iguales o menores de 1290. Véase
que en este intervalo no hay ningún valor, por ello la Fab
es igual a cero.

Para terminar, la ultima clase exige que se busquen


valores mayores o iguales a 1291 y menores o iguales a
1484. Se observa que los valores aquí cautivos son el
1296, 1333, 1475 y 1482, lo cual indica que la Fab es igual
a 5.
Con las frecuencias absolutas bien definidas para cada
Clase, la TDF quedaría de la forma que se exhibe.
FRECUENCIA ACUMULADA

La Frecuencia acumulada de cierta n clase, corresponde


a la sumatoria de los valores de las Frecuencias
Absolutas abajo del Limite Real superior de la clase n
contemplada.
Nos disponemos ahora a calcular la Frecuencia
Acumulada. Para esto se emplea la formula.
Con esta fórmula calculamos la Frecuencia acumulada
de las 5 clases.

Incluyendo estos datos en la columna de la Frecuencia


acumulada, la TDF, quedaría.
La columna de el Porciento de la Frecuencia
absoluta(%Fr, Frecuencia Relativa) se calcula
fácilmente dividiendo cada valor de la Frecuencia
absoluta entre el total de datos que en esta base de
datos particular es igual a 20, a saber, para el primer
caso.
Para lograr la Frecuencia Relativa acumulada se dividió la
Frecuencia acumulada(Fac) entre el total de datos, el cual
es igual a 20(N), según la ultima fórmula dada
anteriormente.
Determinación de los Limites Reales de Clase
Los limites Reales de Clase son los que realmente se
emplean para elaborar cualquier grafico que se desee
utilizar para analizar los datos de una manera rápida y
precisa. Para ello se emplea la formula que se muestra
enseguida.
de forma que los Limites Reales para la primera clase
se calcularían así:

Incluyendo la nueva columna de estos limites en la


TDF quedaría:

Вам также может понравиться