Вы находитесь на странице: 1из 16

Histograma

En estadstica,

un histograma es

una

representacin grfica de

una variable en forma de barras, donde la superficie de cada barra es


proporcional a la frecuencia de los valores representados, ya sea en forma
diferencial o acumulada. Sirven para obtener una "primera vista" general, o
panorama, de la distribucin de la poblacin, o la muestra, respecto a una
caracterstica, cuantitativa y continua, de la misma y que es de inters para el
observador (como la longitud o la masa). De esta manera ofrece una visin en
grupo permitiendo observar una preferencia, o tendencia, por parte de la
muestra o poblacin por ubicarse hacia una determinada regin de valores
dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir
la caracterstica. As pues, podemos evidenciar comportamientos, observar el
grado de homogeneidad, acuerdo o concisin entre los valores de todas las
partes que componen la poblacin o la muestra, o, en contraposicin, poder
observar el grado de variabilidad, y por ende, la dispersin de todos los valores
que toman las partes, tambin es posible no evidenciar ninguna tendencia y
obtener que cada miembro de la poblacin toma por su lado y adquiere un
valor de la caracterstica aleatoriamente sin mostrar ninguna preferencia o
tendencia, entre otras cosas.

En el eje vertical se representan las frecuencias, es decir, la cantidad de


poblacin o la muestra, segn sea el caso, que se ubica en un determinado
valor o sub-rango de valores de la caracterstica que toma la caracterstica de
inters, evidentemente, cuando este espectro de valores es infinito o muy
grande el mismo es reducido a slo una parte que muestre la tendencia o
comportamiento de la poblacin, en otras ocasiones este espectro es extendido
para mostrar el alejamiento o ubicacin de la poblacin o la muestra analizada
respecto de un valor de inters.
En general se utilizan para relacionar variables cuantitativas continuas, pero
tambin se lo suele usar para variables cuantitativas discretas, en cuyo caso es

comn llamarlo diagrama de frecuencias y sus barras estn separadas, esto es


porque en el "x" ya no se representa un espectro continuo de valores, sino
valores cuantitativos especficos como ocurre en un diagrama de barras
cuando la caracterstica que se representa es cualitativa o categrica. Su
utilidad se hace ms evidente cuando se cuenta con un gran nmero de datos
cuantitativos y que se han agrupado en intervalos de clase.
Ejemplos de su uso es cuando se representan franjas de edades o altura de la
muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores
continuos. En los casos en los que los datos son cualitativos (no numricos),
como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de
sectores.
Los histogramas son

ms frecuentes en ciencias sociales, humanas y

econmicas que en ciencias naturales y exactas. Y permite la comparacin de


los resultados de un proceso.
Tipos de histograma:
Diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa) mediante la altura de la
barra la cual es proporcional a la frecuencia simple de la categora que
representa.
Diagramas de barras compuesta
Se usa para representar la informacin de una tabla de doble entrada o sea a
partir de dos variables, las cuales se representan as; la altura de la barra
representa la frecuencia simple de las modalidades o categoras de la variable
y esta altura es proporcional a la frecuencia simple de cada modalidad.
Diagramas de barras agrupadas
Se usa para representar la informacin de una tabla de doble entrada o sea a
partir de dos variables, el cual es representado mediante un conjunto de barras
como se clasifican respecto a las diferentes modalidades.
Polgono de frecuencias
Es un grfico de lneas que de las frecuencias absolutas de los valores de una
distribucin en el cual la altura del punto asociado a un valor de las variables
es proporcional a la frecuencia de dicho valor.
Ojiva porcentual

Es un grfico acumulativo, el cual es muy til cuando se quiere representar el


rango porcentual de cada valor en una distribucin de frecuencias.
En los grficos las barras se encuentran juntas y en la tabla los nmeros
poseen en el primer miembro un corchete y en el segundo un parntesis, por
ejemplo: (10-20) aunque existen algunas otras. no hay nada bueno.

Elaboracin de un histograma:
Paso 1
Determinar el rango de los datos. Rango es igual al dato mayor menos el dato
menor.
Paso 2
Obtener todos los nmeros de clases, existen 2 criterios para determinar el
nmero de clases (o barras) por ejemplo, la regla de Sturges. Sin embargo
ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince
clases, dependiendo de cmo estn los datos y cuntos sean. Un criterio usado
frecuentemente es que el nmero de clases debe ser aproximadamente a la
raz cuadrada del nmero de datos. Por ejemplo, la raz cuadrada de 30
(nmero de artculos) es mayor que cinco, por lo que se seleccionan seis
clases.
Paso 3
Establecer la longitud de clase: es igual al rango dividido por el nmero de
clases.
Paso 4
Construir los intervalos de clases: Los intervalos resultan de dividir el rango de
los datos en relacin al resultado del PASO 2 en intervalos diferentes
Paso 5
Graficar el histograma: En caso de que las clases sean todas de la misma
amplitud, se hace una grfica de pastel, las bases de las barras son los
intervalos de clases y la altura es la frecuencia de las clases. Si se unen los

puntos medios de la base superior de los rectngulos se obtiene el polgono de


frecuencias.

ESTADISTICA UNIVARIADA
Se llama univariada cuando de cada elemento en estudio se toma una solo
variable. Por ejemplo se estudian personas y se toma solo su edad. La
Estadstica que se aplicar ser la univariada en contraposicin a la
multivariada que aparece cuando se toma ms de una variable por elemento
del universo.
PARAMETROA ESTADISTICOS
Hay tres tipos parmetros estadsticos :
De centralizacin.
De posicin.
De dispersin.

Medidas de Posicin: Cuantiles


Los cuantiles son valores de la distribucin que la dividen en partes iguales, es
decir, en intervalos, que comprenden el mismo nmero de valores. Los ms
usados son los cuartiles, los deciles y los percentiles.
PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto
de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15%
de las observaciones, y por encima queda el 85%
CUARTILES: son los tres valores que dividen al conjunto de datos ordenados
en cuatro partes iguales, son un caso particular de los percentiles:

- El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte
de
los
datos
- El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que
la
mitad
de
los
datos
- El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas

partes de los datos

DECILES: son los nueve valores que dividen al conjunto de datos ordenados
en diez partes iguales, son tambin un caso particular de los percentiles.
Ejemplo:
Dada la siguiente distribucin en el nmero de hijos (Xi) de cien familias,
calcular sus cuartiles.

xi

ni

Ni

14

14

10

24

15

39

26

65

20

85

15

100

n=100
Solucin:
1.
Primer cuartil:
2.
Segundo cuartil:

3.
Tercer cuartil:

Medidas de Centralizacin
Nos dan un centro de la distribucin de frecuencias, es un valor que se puede
tomar como representativo de todos los datos. Hay diferentes modos para

definir el "centro" de las observaciones en un conjunto de datos. Por orden de


importancia, son:
MEDIA: (media aritmtica o simplemente media). Es el promedio aritmtico
de las observaciones, es decir, el cociente entre la suma de todos los datos y el
nmero de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:

Si los datos estn agrupados utilizamos las marcas de clase, es decir c i en vez
de xi.

MEDIANA (Me):es el valor que separa por la mitad las observaciones


ordenadas de menor a mayor, de tal forma que el 50% de estas son menores
que la mediana y el otro 50% son mayores. Si el nmero de datos es impar la
mediana ser el valor central, si es par tomaremos como mediana la media
aritmtica de los dos valores centrales.

MODA (M0): es el valor de la variable que ms veces se repite, es decir,


aquella cuya frecuencia absoluta es mayor. No tiene porque ser nica.

Medidas de Dispersin
Las medidas de tendencia central tienen como objetivo el sintetizar los datos
en un valor representativo, las medidas de dispersin nos dicen hasta que
punto estas medidas de tendencia central son representativas como sntesis de
la informacin. Las medidas de dispersin cuantifican la separacin, la
dispersin, la variabilidad de los valores de la distribucin respecto al valor
central.Distinguimos entre medidas de dispersin absolutas, que no son
comparables entre diferentes muestras y las relativas que nos permitirn
comparar varias muestras.

MEDIDAS DE DISPERSIN ABSOLUTAS


VARIANZA ( s2 ): es el promedio del cuadrado de las distancias entre cada
observacin y la media aritmtica del conjunto de observaciones.

Haciendo operaciones en la frmula anterior obtenemos otra frmula para


calcular la varianza:

Si los datos estn agrupados utilizamos las marcas de clase en lugar de X i.


DESVIACIN TPICA (S): La varianza viene dada por las mismas unidades
que la variable pero al cuadrado, para evitar este problema podemos usar
como medida de dispersin la desviacin tpica que se define como la raz
cuadrada positiva de la varianza

Para estimar la desviacin tpica de una poblacin a partir de los datos de una
muestra se utiliza la frmula (cuasi desviacin tpica):

RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las


observaciones mayor y el menor. Re = xmax - xmin

MEDIDAS DE DISPERSIN RELATIVAS


COEFICIENTE DE VARIACIN DE PEARSON: Cuando se quiere comparar el
grado de dispersin de dos distribuciones que no vienen dadas en las mismas

unidades o que las medias no son iguales se utiliza el coeficiente de variacin


de Pearson que se define como el cociente entre la desviacin tpica y el valor
absoluto de la media aritmtica

CV representa el nmero de veces que la desviacin tpica contiene a la media


aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la
representatividad de la media.

Medidas de Forma
Comparan la forma que tiene la representacin grfica, bien sea el histograma
o el diagrama de barras de la distribucin, con la distribucin normal.
MEDIDA DE ASIMETRA
Diremos que una distribucin es simtrica cuando su mediana, su moda y su
media aritmtica coinciden.
Diremos que una distribucin es asimtrica a la derecha si las frecuencias
(absolutas o relativas) descienden ms lentamente por la derecha que por la
izquierda.
Si las frecuencias descienden ms lentamente por la izquierda que por la
derecha diremos que la distribucin es asimtrica a la izquierda.
Existen varias medidas de la asimetra de una distribucin de frecuencias. Una
de ellas es el Coeficiente de Asimetra de Pearson:

Su valor es cero cuando la distribucin es simtrica, positivo cuando existe


asimetra a la derecha y negativo cuando existe asimetra a la izquierda.

MEDIDA DE APUNTAMIENTO O CURTOSIS


Miden la mayor o menor cantidad de datos que se agrupan en torno a la
moda. Se definen 3 tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio
alrededor de los valores centrales de la variable (el mismo que presenta una
distribucin normal). Distribucin leptocrtica: presenta un elevado grado
de
concentracin
alrededor
de
los
valores
centrales
de
la
variable. Distribucin platicrtica: presenta un reducido grado de
concentracin alrededor de los valores centrales de la variable.

EJEMPLO 1

El nmero de dis necesarios por 10 equipos de trabajadores para terminar 10 instalaciones


caractersticas han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 das. Calcular la media, med
varianza y desviacin tpica.
SOLUCIN:

La media: suma de todos los valores de una variable dividida entre el nmero total de datos
se dispone:

La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otr
debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.

Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos
se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valor
a su vez 60, que es el valor de la mediana.
La moda: el valor de la variable que presenta una mayor frecuencia es 60

La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable
aritmtica de la distribucin.

S x2
=

La desviacin tpica S: es la raz cuadrada de la varianza.

S = 427,61 = 20.67
El rango: diferencia entre el valor de las observaciones mayor y el menor

80 - 15 = 65 das

El coeficiente de variacin: cociente entre la desviacin tpica y el valor absoluto d


aritmtica
CV = 20,67/52,3 = 0,39

DISTRIBUCION NORMAL Y LOGNORMAL


Distribucion normal:
En estadstica y probabilidad se

llama distribucin

normal, distribucin

de

Gauss o distribucin gaussiana, a una de las distribuciones de probabilidad de variable


continua que con ms frecuencia aparece aproximada en fenmenos reales.[cita requerida]
La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto
de un determinado parmetro estadstico. Esta curva se conoce como campana de
Gauss y es el grfico de una funcin gaussiana.
La importancia de esta distribucin radica en que permite modelar numerosos fenmenos
naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran
parte de este tipo de fenmenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observacin se obtiene como la suma de unas pocas causas
independientes.
De hecho, la estadstica descriptiva slo permite describir un fenmeno, sin explicacin
alguna. Para la explicacin causal es preciso el diseo experimental, de ah que al uso de
la estadstica en psicologa y sociologa sea conocido como mtodo correlacional.
La distribucin normal tambin es importante por su relacin con la estimacin
por mnimos cuadrados, uno de los mtodos de estimacin ms simples y antiguos.
Algunos ejemplos de variables asociadas a fenmenos naturales que siguen el modelo de
la normal son:

caracteres morfolgicos de individuos como la estatura;

caracteres fisiolgicos como el efecto de un frmaco;

caracteres sociolgicos como el consumo de cierto producto por un mismo grupo


de individuos;

caracteres psicolgicos como el cociente intelectual;

nivel de ruido en telecomunicaciones;

errores cometidos al medir ciertas magnitudes;

etc.

La distribucin normal tambin aparece en muchas reas de la propia estadstica. Por


ejemplo, la distribucin muestralde las medias muestrales es aproximadamente normal,
cuando la distribucin de la poblacin de la cual se extrae la muestra no es
normal.1 Adems,

la

distribucin

normal

maximiza

la entropa entre

todas

las

distribuciones con media y varianza conocidas, lo cual la convierte en la eleccin natural


de la distribucin subyacente a una lista de datos resumidos en trminos de media
muestral y varianza. La distribucin normal es la ms extendida en estadstica y muchos
tests estadsticos estn basados en una "normalidad" ms o menos justificada de la
variable aleatoria bajo estudio.
En probabilidad, la distribucin normal aparece como el lmite de varias distribuciones de
probabilidad continuas y discretas.

Distribucion Log- normal


En probabilidades y estadsticas,

la distribucin

log-normal es

una distribucin

de

probabilidad de una variable aleatoria cuyo logaritmo est normalmente distribuido. Es decir,
si X es una variable aleatoria con una distribucin normal, entonces exp(X) tiene una
distribucin log-normal.
La base de una funcin logartmica no es importante, ya que log a X est distribuida
normalmente si y slo si log b X est distribuida normalmente, slo se diferencian en un factor
constante.
Log-normal tambin se escribe log normal o lognormal.

Una variable puede ser modelada como log-normal si puede ser considerada como
un producto multiplicativo de muchos pequeos factores independientes. Un ejemplo tpico es
un retorno a largo plazo de una inversin: puede considerarse como un producto de muchos
retornos diarios.

La variable T sigue una distribucin lognormal si lnT tiene una


distribucin normal de media y varianza . En consecuencia, la
variable

es un variable normal reducida, es decir de media igual a 0 y desviacin


tpica igual a 1. Por lo tanto, la funcin de supervivencia se puede
escribir

siendo
la funcin de distribucin acumulativa de la normal reducida.
Por lo tanto un modo grfico de verificar esta distribucin es comparar la
funcin de supervivencia dibujada en papel lognormal con una recta.
La funcin estn caracterizadas por los dos parmetros y ,
que no son su media y desviacin tpica. La estimacin de estos
parmetros slo es sencilla en el caso de que no haya prdidas y sta es
la que implementa el PRESTA.
Se ha usado esta funcin para estudiar tanto la supervivencia en SIDA
(1), como el tiempo hasta la seroconversin de HIV+ (2).
Ejemplo
Estmese las funcin de supervivencia, asumiendo el modelo lognormal y
realcese la prueba de la bondad de ajuste, para los datos de la tabla.
La salida del PRESTA
A a m y parmetro B a s2

es

(ntese

que

se

denomina parmetro

NUMERO
DE
CASOS:
CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0

121

PARAMETRO

ERROR STANDARD

2.32263

.04138

.20719

.02664

MATRIZ

DE

.00171

.00000

.00000

.00071

TABLA
(SOLO

DE

VALORES
CUENTAN

COVARIANZAS

OBSERVADOS
LOS

INTERVALO

OBSERVADOS ESPERADOS CONT. JI2

< 5.69

10.00

12.10

.3645

5.69 - 6.96

9.00

12.10

.7942

6.96 - 8.04

18.00

12.10

2.8769

8.04 - 9.09

12.00

12.10

.0008

9.09 - 10.20

17.00

12.10

1.9843

10.20 - 11.45

12.00

12.10

.0008

11.45 - 12.95

8.00

12.10

1.3893

12.95 - 14.96

9.00

12.10

.7942

14.96 - 18.28

16.00

12.10

1.2570

> 18.28

10.00

12.10

.3645

PRUEBA
DE
BONDAD
JI-CUADRADO: 9.82645 G.L.: 7 p= .197686

DE

ESPERADOS
EVENTOS)

AJUSTE

Con la prueba de bondad de ajuste basada en la ji-cuadrado, que en este caso


que no hay prdidas funciona mejor, no se rechaza la hiptesis nula de
modelo lognormal y en la grfica tambin se observa que el modelo es
satisfactorio.

Aceptando que el modelo es bueno, calclese la supervivencia a 8 aos


(suponiendo los tiempos en aos) y la mediana de supervivencia.
En la grfica se observa que para T=8, S(t) es aproximadamente 0,7 y
que S(t)=0,5 para t=10 aproximadamente. O bien, ms laborioso pero ms
preciso, usando lasfrmulas

y mirando en la tabla de la normal

es decir la probabilidad de supervivencia a los 8 aos es 0,7019. La mediana es


el tiempo en el que S(t)=0,5

y mirando en la tabla de la normal

Вам также может понравиться