Вы находитесь на странице: 1из 26

La estadística actual reúne dos disciplinas que evolucionaron de forma independiente hasta que en el siglo XIX se

unificaron:  
 Cálculo de probabilidades, que nace cuando se sistematizaron los juegos de azar en el siglo XVII.
 Estadística, como ciencia del Estado, que estudia los datos de los censos de población ya bastante antes de
la era cristiana (Egipcios, griegos y mesopotámicos).

La Estadística es una ciencia que analiza las diferentes maneras de procesar, ordenar y sistematizar los datos.
Nos brinda  las instrucciones y los medios para recoger los datos y analizarlos de forma tal que sean apropiados  a los
fines de nuestro negocio, empresa, o actividad.

Otra definición desde la bibliografía ampliada, cita que la estadística: “Es el conjunto de métodos y técnicas que permiten
determinar, de una muestra debidamente representativa de una población, los valores estadísticos, a fin de poder inferir
sobre los parámetros poblacionales con un cierto grado de bondad" Berenson y Levine, 2006, p. 2). Como se observa en
esta definición, incluyen dos de las ramas de la estadística que estudiaremos en este curso: La Estadística Descriptiva
y la Estadística inferencial. Los mismos autores definen a la

 Estadística descriptiva como: “El conjunto de métodos que incluyen la recolección, presentación y
caracterización de un conjunto de datos con el fin de describir apropiadamente sus características” (Berenson y
Levine, 2006, p. 4). Y a la
 estadística inferencial como: “Conjunto de métodos que hacen posible la estimación de una característica de la
población o la toma de una decisión referente a una población basándose solo en los resultados de una muestra”
(Berenson y Levine, 2006, p. 4). 

A la luz de facilitar una compresión más detallada de las mismas, es que profundizaremos algunos conceptos importantes.

Etapas que definen un análisis estadístico


Si bien cada caso en observación tiene sus particularidades; para realizar un análisis estadístico sobre un fenómeno
especial se deben seguir las siguientes etapas:
 Planteamiento del problema: se comienza en reconocer el problema y plantear la pregunta a la que se
quiere dar respuesta con el análisis estadístico, es decir ¿Qué se quiere investigar? y ¿Por qué se debe
investigar?
 Fijación de objetivos: en este punto, una vez que hemos definido el problema debemos presupuestar el
alcance de nuestra investigación que necesariamente debe ser claro y preciso y definir sus metas en el
corto, mediano y largo plazo.
 Formulación de hipótesis: es una proposición para responder posiblemente a un problema, es decir la
respuesta al ¿Qué? del paso anterior, y según nuestro análisis, va a ser puesta a prueba en cuanto a su
validez.
 Definición de la unidad de observación y la unidad de medida: la unidad de observación es cada uno
de los integrantes de la población sujeta a estudio, que debe ser definida previamente y establecidas sus
características. Pueden ser uno o varios objetos de observación. En cuanto a la unidad de medida debe
definirse y comunicarse a todo el equipo de trabajo y bajo qué sistema de medición se va a trabajar.
 Determinación de la población y muestra: como veremos más adelante, la población o universo, son
individuos u objetos que tienen una o varias características comunes y no necesariamente deben ser seres
con vida y pueden tomar valores finitos o infinitos. En cambio, la muestra, al ser una porción de la
población, solo puede tomar valores finitos. Debe ser tomada al azar y ser representativa, para que la
investigación sea lo más objetiva posible.
 Recolección de datos: para recoger la información se cuentan diversos medios:
 1
Por observación directa
 2
Por encuestas
 3
Por fuentes externas confiables
 4
Por encuestas on line
 5
Por publicaciones de renombre científico

En esta etapa se deben establecer los criterios para realizar las preguntas.
Estas pueden ser políticas, demográficas, culturales, sociales, o económicas. Según sea el aspecto a relevar y a
continuación a diseñar, según el criterio elegido, el tipo de preguntas a realizar.

 Análisis, selección y clasificación de la información: una vez que se cuenta con toda la información, se
la revisa y se descarta la información confusa, viciada o sin valor, y a partir de la información restante se
procede a clasificarla y ordenarla para lo cual se pueden aplicar diferentes modelos de tabulación.
 Tabulación: es expresar los resultados a través de una tabla que resume la información recolectada. Esta
tabla debe tener título (claro y legible), subtítulos (cuando sea necesario), unidades de medida de las
observaciones según cada variable analizada y toda nota al pie de la misma que ayude a la lectura e
interpretación de la información. La presentación de los resultados del estudio deben ser lo más claros,
precisos y entendibles posibles. La utilización de cuadros, tablas, gráficos y cualquier otro método de
representación de los resultados, tiene que elegirse en función de las variables a representar y del posible
destinatario del informe.
 El análisis de la información: En este punto, es cuando a partir de la determinación de los parámetros y
estadísticos muestra les y su confiabilidad permiten ser usados para las estimaciones y las inferencias
respecto de la población total y ajustar los modelos previstos y confirmar o rechazar las hipótesis
planteadas para que nos conduzcan a las conclusiones correctas.
 Publicación: los resultados deben presentarse adecuadamente para que cumplan con los objetivos
prefijados. Según la importancia del trabajo realizado es el tipo de presentación que se realizará, pudiendo
ser en auditorios, en conferencia de prensa o en ámbitos privados, en reuniones de Directorio o bien a
través de informes personalizados.

Idear

En los ejemplos anteriores, los elementos de las poblaciones son: cada uno de los obreros, cada uno de los pernos de
pistón, cada uno de los animales y cada una de las infecciones en las vías respiratorias.

¿Qué es variable de la población?

Es la característica en estudio que se observa en cada uno de los elementos de la población y que varía de un elemento con
respecto a otro.

En los ejemplos anteriores, podríamos tener como variable de estudio en los obreros de la industria si son solteros,
casados, divorciados o viudos; en los pernos de pistón si tienen cabeza cuadrada o hexagonal, en los animales del parque
nacional si son herbívoros, carnívoros o frugívoros y en la infecciones respiratorias diferentes tipos de influenza.

Con el objeto de seleccionar las medidas más adecuadas para corregir alguna anomalía o realizar alguna acción
deberíamos contar con la mayor información posible, y lo más conveniente sería tener los que  provienen del estudio de
toda la población, ya que nos evitaría tener que realizar alguna inferencia, en este caso decimos que se ha efectuado un
censo de la población.

Pero en este caso, la mayor exactitud va acompañada por un mayor costo y tiempo que evidentemente encarece el
proceso. Por lo tanto, los resultados que puede entregarnos un censo tienen el carácter de ser exactos, pero los costos que
determinan los mismos pueden no justificar dicha exactitud cuándo, con muestras debidamente seleccionadas y
representativas se determinan esos valores con un cierto grado de error que se puede regular y controlar.

En algunas situaciones especiales, el censo se presenta impracticable o puede ser inconveniente en cuanto a su realización.
Solamente imagine que se realiza un estudio sobre saneamientos de hormigueros en una obra vial en el Norte del País, la
población tendría el carácter de infinita y por lo tanto sería poco más que imposible censarla. 

Supongamos que se desata un Tsunami en la población costera de un país intensamente poblado y debemos analizar las
ubicaciones para los evacuados. Pretender estudiar la cantidad exacta de la población afectada  llevaría un tiempo enorme
tal que, al cumplirse tal vez no tendría sentido la evacuación de los afectados.

Esto que hemos analizado son solo unos casos donde nos revela que no siempre el análisis de las características de una
población es lo más conveniente y que en esos casos deberíamos poder tomar decisiones, en base a las inferencias que
sobre una población podemos hacer, de resultado del análisis y estudio de una muestra de la misma.
Muestra

Según lo acabado de analizar, estudiar el comportamiento de una población a través de un censo, se torna en la mayoría de
las veces impracticable, es por las razones dadas anteriormente que el análisis se efectúa por medio de una muestra, que
esté constituida por una porción de todos los valores poblacionales. 

¿Qué entendemos por muestra?

Una muestra estará constituida por una porción de la población por lo tanto es un subconjunto de la misma. Cada uno de
los elementos que forman parte de la muestra se denominan observación. Cuando se trabaja con toda la población, la
obtención de los datos se denomina censo, en cambio cuando los datos se obtienen sobre una muestra, se dice que estamos
realizando un muestreo. Censo vs muestreo

¿Qué es una muestra representativa?

Si bien es cierto que una muestra está constituida por elementos pertenecientes a la población, tenemos que entender que
no todo subconjunto de la población se constituye en una muestra representativa.

Y se dice que es debidamente representativa de una población cuando presenta sus mismas características, cuestión que es
tal,  si el 40% de la población cumple con una determinada propiedad, se espera que el 40% de la muestra cumpla con esa
misma propiedad.

Esto permite disminuir los errores que se cometen cuando se efectúa la inferencia de los parámetros poblacionales a partir
de los valores determinados en la muestra.

Variable en estudio:

Definida anteriormente como: La característica que se observa en cada uno de los elementos de la población y que se
modifica o no de un elemento con respecto a otro.

Ahora bien nuestra materia  basa su aplicación en el estudio y análisis de Datos, si el objeto en estudio es toda la
población. 

Si dichos datos son obtenidos a través de una muestra, se los llama Observaciones, las que deben responder a una
determinada característica que es la que tenemos en estudio.

Mediante la aplicación de métodos y técnicas estadísticas se estudian estas observaciones sobre la variable que estamos
considerando y se determinan los estadísticos.

Tipo de variables:

La variable cuantitativa discreta es la que resulta de un conteo y sólo puede tomar valores definidos y no puede
tomar ningún valor comprendido entre dos valores consecutivos, por esa razón, toma valores del conjunto de
números enteros.

Son ejemplos de ellas:


 Número de conejos en una jaula. 
 Cantidad de obreros con título profesional en una fábrica. 
 Número de casos de cáncer en una localidad; etc.

Como verán no se podría contar 3 conejos y medio en una jaula, ni 35 obreros y medio en la empresa y mucho menos
150,2 casos de cáncer en un ciudad.

La variable cuantitativa continua Es la que puede tomar infinitos valores posibles dentro de un cierto intervalo, es
decir, toma valores dentro del conjunto de números reales. Además, tiene la característica que, para su medición,
se utilizan generalmente instrumentos de medición.
Son ejemplos de ellas:
 La altura de los brotes de una oleaginosa en un almácigo.
 Los pesos de los deportistas de una cierta especialidad. 
 El volumen de líquido escurrido en un ensayo de permeabilidad.

La variable cualitativa nominal es aquella variable en estudio, en la cual los valores que adopta pueden ser
clasificados de acuerdo a categorías, pero sin orden jerárquico.

Son ejemplos de ellas:


 Clasificar una población por su estado civil: solteros, casados, viudos, o divorciados.
 Realizar una encuesta sobre los grupos sanguíneos de un sector de nuestra empresa.
 Ubicar la procedencia de los empleados de un sector específico de la Construcción.

La variable cualitativa jerarquizada es aquella variable en estudio, que se presenta cuando es necesario otorgarle a
ella una cierta jerarquía de orden.

Son ejemplos de ellas:


 Clasificar una población por su nivel de instrucción: analfabetos, nivel primario, nivel secundario, nivel
terciario o universitario.
 Realizar una encuesta sobre los niveles de glucemia de los empleados de una confitería.

Datos esperados y datos observados:

Los datos esperados son los datos que un investigador espera si la hipótesis que se planteó al iniciar la investigación
fuera cierta.

Los datos observados   son aquellos que se encuentran en la muestra sujeta a análisis y que reciben el nombre de
estadísticos de la muestra.

Valores estadísticos 

Los estudios sobre una muestra permiten determinar valores que se los denomina estimadores (también llamados valores
estadísticos), a través de los se podrá efectuar una correcta estimación sobre los valores de la población.

Parámetros 

Los valores en estudio, que en la muestra toman el nombre de Estadísticos, en la población se los denominan Parámetros. 

Si necesitásemos determinar el salario de los docentes del País, deberíamos tomar una muestra constituida por docentes de
distintas escuelas, distintas provincias y distintos niveles, el salario promedio obtenido en la muestra se denomina
estadístico, mientras que el salario promedio de toda la población docente se constituye en parámetro.

Se define como bondad al margen de seguridad con que se realiza la inferencia de acuerdo a los estudios realizados
sobre la o las muestras.

Indicar que tal encuesta sobre un hecho marca una tendencia determinada no tiene peso como información si no se lo
acompaña con un grado de seguridad.
Valores de posición y de dispersión

Según sus características los valores estadísticos se pueden clasificar:

Valores o medidas de tendencia central o de posición:

“Es la medida que describe cómo todos los valores de los datos se agrupan en torno a un valor central.”

 Media aritmética o promedio:

Es el cociente entre las sumas de todas las observaciones y el número total de las mismas. La media poblacional la
representamos con la letra μ y el tamaño de la población con N, por lo que la media poblacional se expresa como:

Y en notación abreviada:

En cambio, la media muestral, la representamos con: 

y el tamaño de la muestra o número de observaciones lo representaremos con n.

Y en notación abreviada:
Ejemplo N°1:

En un brote de gripe invernal, 8 personas que desarrollaron la enfermedad tardaron la siguiente cantidad de días en curarse
completamente:

8, 8, 9, 10, 7, 7, 7, 9, y para calcular la media de esta población, procedemos de la siguiente manera:

Es viable notar que si bien la media no coincide con ninguna medición nos representa el valor medio de duración de la
enfermedad.

Ahora bien, tratándose de un grupo de datos muy grande, en que alguno de ellos se presenta con distinta frecuencia, se
puede modificar la ecuación anterior:

Llamando f1, f2, …fn, a las distintas frecuencias en que aparecen los datos.

Ejemplo N°2:

En la siguiente tabla se representa el número de hermanos de cada alumno de 4° año de la carrera de Abogacía:

Tabla 1: hermanos de cada alumno de 4° año de la carrera de Abogacía.


N° de hermanos Frecuencia
1 30
2 20
3 15
4 5
5 2
En el caso que estamos analizando, vemos que la media cuenta con la ventaja de la facilidad del cálculo, pero la
desventaja es que es un parámetro muy sensible a los valores extremos, lo cual le hace perder representatividad en esos
casos y convendría utilizar otra de las medidas de tendencia central.

Ejemplo N°3:

Si en un curso de Postgrado de la Universidad asisten 10 alumnos y se hace una encuesta de las edades de los mismos:

24, 23, 25, 27, 30, 26, 28, 29, 30, 65

Se verifica que la media aritmética es 30,7 años, valor que no sería representativo, dado que solo un alumno superaría ese
valor (65 años) afectando demasiado al promedio. Si analizamos el resto de los 9 alumnos y calculamos su media, esta
toma un valor de 26,9. Veremos más adelante que para este caso la mediana sería una opción más conveniente.

Mediana:

Es el valor que divide en partes iguales a los datos ordenados de una distribución. La mediana, en una distribución
ordenada, deja a uno de sus lados los valores menores o iguales a ella y hacia el otro lado los mayores o iguales a ella en
igual número de observaciones.

Para calcularla, se procede de las siguientes dos maneras, según si el número de observaciones fuera par o impar:

Si n es impar es el valor central al ordenar la distribución, por ejemplo:

Tabla 2: ejemplo si n es impar


Valores ordenados de una observación 22 23 25 29 30
Orden de la distribución 1 2 3 4 5
Me = 25

En cambio, si n es par es el promedio de los valores centrales al ordenar la distribución, por ejemplo:

Tabla 3: ejemplo si n es par


Valores ordenados de una observación 32 35 37 40 42 83
Orden de la distribución 1 2 3 4 5 6
Me = (37+40)/2= 38.5

En este último ejemplo, observamos que la mediana es insensible a los valores extremos, por lo que describe con más
exactitud las distribuciones con valores extremos despegados de la mayoría.

Moda:

Es el valor que más se repite en una distribución. Tomando el mismo ejemplo N°2:

Tabla 4: hermanos de cada alumno de 4° año de la carrera de Abogacía.


N° de hermanos Frecuencia
1 30
2 20
3 15
4 5
5 2

Observamos que la cantidad de hermanos que más se repite es el 1, con 30 alumnos, por lo tanto, la moda es: MO = 1
Si contamos con el caso en que más de un valor de la distribución se repite el mismo máximo número de veces, puede
tener más de una moda; por ejemplo, si existen dos valores en esas condiciones recibe el nombre de bimodal, si fueran
tres, trimodal y así sucesivamente.

En cambio si todos los valores de la distribución tienen el mismo número de repeticiones se dice que no tiene moda.

Valores o medidas de variación o dispersión

En la figura siguiente,  mostramos dos conjuntos de datos con la misma posición central, pero uno con mayor dispersión
que el otro. 

La media de las dos curvas es toma el mismo valor, pero la curva de la serie 2 tiene menor separación (o variabilidad) que
la curva de la serie 3, si medimos sólo la media de estas dos distribuciones, estaremos pasando por alto una distinción
importante que existe entre las dos curvas. Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la
moda sólo nos muestran parte de la información que debemos conocer acerca de las características de los eventos.

Para mejorar   nuestra comprensión del conjunto de   datos de cada distribución, debemos medir también su dispersión,
separación o variabilidad.

Serie simple:

Los datos en bruto, tal cual fueron obtenidos, sin agrupar constituyen una serie simple. Están dados, entonces, por una
cantidad finita de datos estén éstos ordenados o no.
Como ejemplo de serie simple: 2          4          5          1          7

Serie de frecuencia:

Cuando se realiza un estudio de cada uno de los elementos que componen la población o muestra bajo análisis,
observamos que en general, hay un número de veces en que aparece repetido un mismo valor de una variable , o bien
repeticiones de la misma modalidad de un atributo. 

Este número de repeticiones de un resultado, recibe el nombre de frecuencia absoluta o simplemente frecuencia.

El procedimiento mediante el cual se realiza el conteo, para así determinar el número de veces que cada dato se repite,
recibe el nombre de tabulación. 

Al agrupar los resultados de las observaciones en término de las veces que éstos se repiten, da lugar a las llamadas "series
de frecuencias" o distribuciones de frecuencias.

Frecuencia relativa:
La frecuencia relativa de un valor, expresada como fri, es el cociente entre su frecuencia absoluta y la suma de todas las
frecuencias absolutas.

La suma de todas las frecuencias es igual al número de elementos de la distribución.

Frecuencia acumulada:
La frecuencia acumulada de una clase y se la denota como fai, a la suma de su frecuencia absoluta y la suma de las
frecuencias absolutas de los valores que le anteceden.
Frecuencia desacumulada:

La frecuencia desacumulada de un valor, y se denota fds de una distribución, a la diferencia entre el número total de
observaciones y su frecuencia acumulada. Para un valor cualquiera, i, se verifica:

fdsi = n - fai

video https://siglo21.instructure.com/courses/7537/pages/modulos#lectura2m1
video https://siglo21.instructure.com/courses/7537/pages/modulos#lectura2m1
video https://siglo21.instructure.com/courses/7537/pages/modulos#lectura2m1

Gráficos
A fin de poder realizar una lectura rápida de la distribución de datos y sacar conclusiones inmediatas de ella, es muy
conveniente graficar los valores estadísticos. Sin embargo, bastaría con abrir una hoja de cálculo para identificar la gran
variedad de gráficos que existen para representar una distribución. Como ejemplos citaremos los diagramas de líneas, de
barras, de barras acumuladas, de sectores, de torta o circular, diagramas cartesianos x-y, de bastones, etcétera.
Diagramas circulares o de sectores
En este tipo de gráfico, consideraremos que el ángulo central del círculo es de 360 °, que representa el 100 % de los datos
relevados y que cada una de las clases estará dada por un sector cuyo ángulo será proporcional a su frecuencia porcentual.
Por eso, con una regla de tres simple directa se procede a graficarlas.
Usualmente, es más interesante plantear este mismo diagrama, pero con sus valores expresados en porcentajes.
Diagrama de barras

Estos diagramas proporcionan información en un gráfico de dos dimensiones. En el eje horizontal, podemos mostrar los
valores de la variable (la característica que estamos midiendo), como las calificaciones en una evaluación o los diferentes
deportes practicados en un club social; y, en el eje vertical, señalamos las frecuencias de las clases mostradas en el eje
horizontal. 

De esta manera, la altura de las barras mide el número de observaciones que hay en cada clase señalada en el eje
horizontal. En este ejemplo, observamos las barras separadas.

En este otro, las barras se encuentran pegadas entre sí.

En este caso, también están unidas según la procedencia, pero separadas entre diferentes orígenes.
Histograma

Es un gráfico en el cual se representan las variables con rectángulos, en el que su ancho está preestablecido según la
cantidad de intervalos de clase que existan  y cuya altura es dependiente de la cantidad  valores que pertenecen a cada
clase.

Si en lugar de frecuencias absolutas, para construir un histograma, utilizamos las frecuencias relativas, sus ordenadas
serán más estables y se lo reconocerá como histograma de frecuencias relativas.
Polígono de frecuencias

Los polígonos de frecuencias representan otra manera de representar gráficamente distribuciones, tanto de frecuencias
como de frecuencias relativas. 

En el eje vertical, ubicamos las frecuencias y, en el eje horizontal, los datos de la variable que estamos analizando de la
misma forma en que se hizo el histograma. Una vez realizado esto, graficamos cada frecuencia de clase trazando un punto
sobre su punto medio en la parte superior del rectángulo y vinculamos los puntos sucesivos con una línea recta para
formar un polígono (una figura de muchos lados), denominado polígono de frecuencias.
Su principal característica es que el área encerrada por el polígono de frecuencias es igual al área encerrada por el
histograma de frecuencias; ya que, en cada barra, se compensan entre sí áreas en exceso con áreas en defecto. Si a un
polígono como el que hemos construido le aumentamos el número de clases y de datos puntuales, se suaviza su forma;
esto da lugar a una curva de frecuencias.

Polígono de frecuencias relativas

Del mismo modo en que construimos el polígono de frecuencias, se grafica también el polígono de frecuencias relativas.
Tanto la superficie encerrada por el polígono de frecuencias relativas como el del histograma de esas mismas frecuencias
son iguales entre sí por las razones mostradas gráficamente y, adicionalmente, en este caso, iguales a 1. 

Este polígono tiene la misma forma que el polígono de frecuencias obtenido a partir del mismo conjunto de datos, pero se
utiliza una escala distinta en los valores del eje de las ordenadas. La escala representa el número de observaciones de cada
clase, expresadas como una fracción del total de observaciones (frecuencia relativa) en lugar del número absoluto de
observaciones.

Graficación de frecuencias acumulada y desacumulada

Para poder identificar rápidamente la cantidad de observaciones que se encuentran debajo de determinados valores, se
construye un gráfico de distribución de frecuencias acumuladas que es más eficiente que una tabla de registros.

La gráfica se conoce como ojiva y se utiliza para representar las frecuencias acumuladas.
De la misma manera que el polígono de frecuencia, se grafica uniendo los puntos centrales del lado más alto de cada
barra, no ya de un histograma de frecuencias absolutas o relativas sino de un histograma de frecuencias acumuladas.

Lo cual nos permite observar el número de  observaciones registradas debajo de cierto valor de nuestro interés.

Del mismo modo, podemos graficar la frecuencia desacumulada (columna de la tabla en la que cada renglón se forma
restando del total de observaciones la frecuencia acumulada). Esta gráfica permite ver cuántas observaciones se
encuentran por encima de ciertos valores.

Se pueden ubicar ambas ojivas en el mismo diagrama, y señalar la intersección de ambas curvas en la mitad exacta de los
números de observaciones. 

Debe considerarse que, para cualquier valor observado, la suma de la frecuencia acumulada y la desacumulada siempre
debe ser igual al número total de observaciones.

fa + fds = n.
Relación entre la media, la mediana y la moda en un diagrama de polígono de frecuencias relativas.

Si observamos la figura 12, la curva es simétrica y como tal, tiene una gráfica en la que una línea paralela al eje de
ordenadas desde el punto más alto de la curva dividirá su superficie en dos partes iguales.  

En la figura 12, las curvas A y B se llaman  curvas sesgadas. 

Al estar concentrados los valores de distribución de frecuencias, ya sea hacia la parte creciente o decreciente del eje de
abscisas, se dice que la curva es sesgada a la derecha o bien sesgada a la izquierda.

En este caso, la moda (el valor más alto de la escala vertical), se encuentra desplazada a la izquierda; le sigue hacia la
derecha la mediana (divide al gráfico en dos áreas iguales) y, más alejada aún, la media.
En este caso, la moda está desplazada hacia la izquierda, ya que el mayor valor en escala vertical así lo está. A la derecha,
ubicamos primero la mediana (divide al gráfico en dos áreas iguales) y, más cerca del eje vertical, la media.

A continuación te propongo la lectura de los siguientes artículos:

https://siglo21.instructure.com/courses/7537/pages/modulos#lectura3m1

https://siglo21.instructure.com/courses/7537/pages/modulos#lectura3m1

Distribución de intervalos de clase


Números de intervalos

Amplitud de cada intervalo

Hay oportunidades en que un ordenamiento de datos no resulta útil. Por ejemplo, en una lista de todos los valores, por ser
una forma incómoda de mostrar gran cantidad de datos. 

Para estas situaciones, necesitamos resumir la información sin que pierda su calidad al momento de utilizarla en su
interpretación y en la evaluación de decisiones.

Una alternativa a la hora de resumir datos es a partir de una tabla de frecuencias o de distribución de frecuencias.

Una tabla de distribución de frecuencias se utiliza para ubicar datos distribuidos en clases, es decir, en agrupamientos de
valores que describen una característica particular de dichos datos.

Para poder construir una distribución de intervalos de clase, se debe tener en cuenta:
 1
El número de intervalos: La determinación del número de intervalos (k) está relacionada con la cantidad de datos que
tenemos (n). Algunos técnicos definen:

En cambio, otros se inclinan por la expresión del método Sturges:

Pero, en un plano aún más general, se puede definir el valor de k teniendo en cuenta que:
Es decir, el número de intervalos debe estar comprendido entre 6 y 15. Menos de 6 intervalos da lugar a una distribución
con información insuficiente y frecuencias muy altas, y más de 15 intervalos generan una distribución que resulta
complicado operar.
 2
A la amplitud de intervalo  la podremos calcular con:

 3
No puede existir un intervalo con frecuencia cero; si esa situación se presentara, sería necesario modificar la cantidad de
intervalos o la amplitud de cada intervalo.
 4
Al fijar los extremos de los intervalos, debe atenderse a la posibilidad de que uno de ellos pueda ser cerrado y el otro
abierto.
 5
Es necesario que todos los intervalos tengan el mismo tamaño y, cuando esto no sea posible, los intervalos de diferente
amplitud deben ubicarse en los extremos.
 6
Hay que tratar de evitar que las observaciones coincidan con los extremos de cada intervalo, así desaparece la duda en
cuanto a la pertenencia de una observación a un intervalo o a su adyacente.
Tipos de intervalos finitos:

Son aquellos intervalos de números que se relacionan con segmentos de recta. 

Intervalo abierto: Se trata de un intervalo cuyos extremos no participan del conjunto que está describiendo.   En el
ejemplo a continuación, se representan todos los números reales inferiores a b y superiores a  a pero no incluyen ni a a ni a
b. 

En este tipo de intervalo, se representan a través de los valores extremos separándose por un punto y coma y entre
paréntesis.

Ejemplo: (a; b).

Intervalo cerrado: Al contrario del intervalo abierto, sus extremos si forman parte del conjunto solución al que
representa. Este intervalo involucra, entre de sus extremos a y b, todos los números reales que sean iguales o mayores que
a y los que sean iguales o menores que b. Estos valores se colocan entre corchetes y separados por un punto y coma.

En nuestro ejemplo: [a; b].


Intervalo semiabierto a la izquierda: Se llama también intervalo semicerrado a la derecha. Esto ocurre cuando su lado
izquierdo se encuentra abierto, es decir que no incluye al punto a y su lado derecho se encuentra cerrado, por lo que si
incluye al punto b.

Se representa con un paréntesis a la izquierda, los extremos separados con punto y coma, y con un corchete a la derecha.
Ejemplo: (a;b]. 

En cambio, los intervalos semiabiertos por la derecha incluyen a los números reales menores que b y a los iguales o
mayores que a por lo que se encuentran cerrados a la izquierda. 

Estos intervalos se escriben con un corchete a la izquierda, los extremos separados por punto y coma  y un paréntesis a la
derecha. 

Ejemplo: [a; b).

Tipos de intervalos infinitos

Los valores en este tipo de intervalos son encerrados por paréntesis y separados por punto y coma.

Ejemplo: (–ꝏ; +ꝏ)

Intervalo infinito abierto a la izquierda:

Ejemplo: (a; +ꝏ).


Intervalo infinito cerrado a la izquierda:

Ejemplo: [a, +ꝏ). 

Intervalo infinito abierto a la derecha:

Ejemplo: (–ꝏ; b).

Intervalo infinito cerrado a la derecha:

Ejemplo: (–ꝏ; b].


Determinación de la media
Para poder determinar la media aritmética de una distribución de frecuencias, consideramos que todos los valores
pertenecientes a cada intervalo están uniformemente distribuidos por dicho intervalo. De esta manera, la suma de todos
ellos estará dada por el producto entre la marca de clase y la frecuencia de ese intervalo.

Determinación de la mediana para datos agrupados


La mediana estará ubicada en el intervalo cuya frecuencia acumulada contenga la observación X(n/2); es, por lo tanto,
conveniente determinar, en la tabla de frecuencias, las columnas que contengan las frecuencias acumuladas y
desacumuladas. De acuerdo con la tabla, la mediana deberá ubicarse en el intervalo al que denominaremos intervalo
medial. Para su determinación en una distribución de intervalos de clase, contamos con dos métodos.
 1
Método gráfico: Trazaremos los diagramas correspondientes con la frecuencia acumulada y desacumuladas. Combinemos,
en un mismo diagrama, las representaciones gráficas de un ejemplo cualquiera.

Como ambas frecuencias se representan en el eje vertical a la misma escala, en el punto intersección ambas son iguales y
su suma es: 

fa + fds = N.

Debe verificarse que el valor de esas frecuencias, en ese punto, es igual a N/2. Como la mediana es el valor que ocupa el
punto medio, la abscisa correspondiente con el punto de intersección tendrá su valor. Por lo tanto, las coordenadas del
punto intersección serán (Me, N/2).
 2
Método analítico: analizaremos el intervalo medial. 
Esa variación de frecuencia acumulada de fas - fai es justamente la frecuencia correspondiente con el intervalo medial (fm
= 6). Consideramos que el total de observaciones es 21, por lo que la mediana se encontrará en el intervalo que incluye a  
N/2 = 10,5. Esos triángulos que se ven en el gráfico son semejantes y, por lo tanto, sus lados homólogos son
proporcionales. 

Por tal razón, tendremos:

Determinación de la moda para datos agrupados

Se define como intervalo modal al intervalo de mayor frecuencia; para la determinación de la moda, consideremos, en el
histograma de frecuencia, el intervalo modal y los intervalos adyacentes.

Si definimos a d1 = (frecuencia del intervalo modal) - (frecuencia del intervalo que le antecede) y d2 = (frecuencia del
intervalo modal) - (menos la frecuencia del intervalo que le sucede), como Li se define al inicio del intervalo modal, el
valor de la moda de una distribución de intervalos de clase está dada por la expresión:
Histograma de frecuencias
Es un gráfico de barras para datos numéricos agrupados, en el que la frecuencia o el porcentaje de cada grupo está
representado por una barra individual. No hay separación entre las barras adyacentes, por lo que tenemos un diagrama de
barras sin discontinuidades. La variable (por ejemplo, las calificaciones) que nos interesa se coloca a lo largo del eje de las
abscisas. El eje (Y) vertical representa la frecuencia o el porcentaje de los valores de cada intervalo de clase. El intervalo
entre dos clases sucesivas se denomina “amplitud de intervalo”; en este caso, es la unidad y se la expresa como Δx = 1.
La superficie de cada una de las barras está dada por el producto entre la base Δx por la altura, que está determinada por la
frecuencia.

Si a ∆x lo asimilamos con la unidad, entonces cada barra tendrá una superficie igual a su frecuencia, y el área total del
diagrama será la suma de todas las frecuencias e igual a N. ΣSi = Σfi = N.
Histograma de frecuencias relativas:

Este histograma se diferencia del histograma de frecuencias absolutas, en que en el eje de las ordenadas, se ubican las
frecuencias relativas de los datos de cada una de las clases. 

Este histograma tiene una gráfica similar al de un histograma de frecuencias absolutas del mismo agrupamiento de datos. 

Se debe a que el tamaño relativo de cada bastón es la frecuencia absoluta de esa clase dividida por el número total de
observaciones.

Habiendo recordado esto último, la diferencia entre el histograma de frecuencias relativas y absolutas es la escala del eje
de las ordenadas.

Muy ventajoso es poder mostrar los datos en función de frecuencias relativas debido a que los valores absolutos pueden
alterarse individualmente, las frecuencias relativas permanecen relativamente estable.

Este hecho nos ayudará  comparar datos de muestras con diferentes tamaños muestrales.
En los diagramas que anteceden, se puede observar, en un ejemplo cualquiera, las formas similares de ambos diagramas y
el cambio de escala citado.
Frecuencias acumuladas
Recuerda que la frecuencia acumulada (fa) indica el número de valores que son menores o iguales que el valor dado. Su
representación gráfica es similar a la estudiada en el punto 2.3, pero, en cuanto a datos agrupados en el eje de las abscisas,
se ubican las marcas de cada clase (la marca clase de una distribución de datos agrupados en intervalos corresponde con la
media aritmética de los extremos de cada uno de dichos intervalos).
Frecuencias acumuladas y desacumuladas para datos agrupados
Hacemos las mismas consideraciones que en el punto anterior, lo hemos explicado en el punto 2.3 considerando que, en
los datos agrupados, trabajamos con la marca de la clase.
Valores de dispersión
Frecuentemente, los valores de posición central no suelen ser suficientes para determinar las características de una
distribución, ya que podemos tener distribuciones que presenten la misma media, la misma moda y la misma mediana,
pero aun así sean diferentes. Podemos tener también distribuciones de igual número de elementos o conformadas por los
mismos elementos, que, no obstante, son distintas. Deberíamos, entonces, considerar valores que nos determinen cuán
dispersas están dichas distribuciones.  Estos valores se denominan valores de dispersión.
Amplitud o rango

Es la diferencia entre el valor más grande y el más pequeño del conjunto de datos.

Rango = Xmayor - Xmenor.


El rango no toma en cuenta cómo se distribuyen los datos entre el valor más grande y el más pequeño.
Desvío medio

Lo podemos expresar como la media aritmética de los valores absolutos de los desvíos respecto a la media del
agrupamiento de datos. 

Se simboliza por las siglas DM y se calcula como sigue:

Varianza

Es la sumatoria de los cuadrados de las diferencias con respecto a la media de la población relevada.

Se simboliza por Var(x) o σ2 y se calcula de la siguiente manera:

Desvío estándar

Es la raíz cuadrada de la varianza; por lo tanto, es la raíz cuadrada de la sumatoria de los cuadrados de las diferencias con
respecto a la media de la población relevada. Su mayor ventaja es que permite trabajar con las unidades lineales y no al
cuadrado como ocurre con la varianza.

Se simboliza por σ(x) y se calcula así:

Coeficiente de variación

Es una medida de dispersión relativa que relaciona la desviación estándar con la media, expresándola como un por ciento
de ella. Es un porcentaje, que se denota mediante el símbolo CV e indica la dispersión de los datos con respecto a la media
aritmética.

Se simboliza por CV y se calcula:

Cuartiles y percentiles
Un fractil es una fracción o proporción dada de los datos de una distribución de frecuencias. Estos fractiles toman
denominaciones según el número de partes iguales en que se subdividen los datos, como por ejemplo, cuando se dividen
en 10 partes iguales, cada una de  ellas es un decil.Los cuartiles son aquellos que surgen de dividir los datos en cuatro
partes iguales, es decir que cada una es un cuartil. De la misma manera, los percentiles son los que surgen de dividir al
agrupamiento de datos en 100 partes iguales y cada una de ellas es un percentil.
Regla empírica
La mediana y la media son iguales en conjuntos de datos simétricos, donde los valores tienden a agruparse alrededor de
ella y así generan una distribución con forma de campana. En las distribuciones de este tipo, se puede utilizar la regla
empírica, que observamos a continuación, para calcular su dispersión.
 1
Empíricamente el 68 % de la población se encuentra a una distancia de ±1 desvío estándar respecto de la media.
 2
Del mismo modo, el 95 % de la población se encuentra a una distancia de ±2 desvíos estándar respecto de la media.
 3
De la misma manera anterior, se comprobó que el 99,7 % de la población se encuentra a una distancia de ±3 desvíos
estándar de la media de distribución.
Resolución de ejercicios
1) Dados los siguientes datos de cantidad de formularios utilizados por horas en una oficina: 8 - 6 - 8 -
7 - 9,
+

2) Una oficina de reclamos...


+

Para ampliar la información, te propongo la lectura de los siguientes artículos:


https://siglo21.instructure.com/courses/7537/pages/modulos#lectura4m1
https://vimeo.com/171925580

teleclase https://drive.google.com/file/d/0B87kfJshjMtFeXJmaTJyQlhJQW8/view

Вам также может понравиться