You are on page 1of 19

ESTADISTICA 1

1.1Conceptos de estadstica y su clasificacin


1.2 Recopilacin de datos.
1.3 Distribucin de frecuencia.
1.3.1 Histogramas, polgonos de frecuencia, ojivas.
1.4 Medidas de tendencia central para un conjunto datos y datos agrupados.
1.4.1 Media, media ponderada.
1.4.2 Mediana.
1.4.3 Moda.
1.4.4 Relacin entre media, mediana y moda.
1.5 Medidas de dispersin para un conjunto de datos y datos agrupados.
1.5.1 Rango.
1.5.2 Desviacin media.
1.5.3 Varianza.
1.5.4 Desviacin estndar.
1.6 Coeficiente de variacin.
1.7 Coeficiente de asimetra de Pearson

1.1 Conceptos de estadstica y su clasificacin .


Se puede decir que la "estadstica es el estudio de los mtodos y procedimientos
para recoger, clasificar, resumir y analizar datos y para hacer inferencias
cientficas partiendo de tales datos.
Esta definicin cubre gran parte de la actividad del cientfico. Es importante
observar que el objeto del que realiza el anlisis estadstico son los datos y las
observaciones cientficas por s mismos, ms que el material qumico que
interviene en el estudio.
Por lo tanto no es posible trazar lmites rgidos entre la qumica, la estadstica y la
matemtica.
La estadstica se puede dividir en 2 categoras, la "estadstica descriptiva" y la
"inferencia estadstica".
La estadstica descriptiva implica la abstraccin de varias propiedades de
conjuntos de observaciones, mediante el empleo de mtodos grficos, tabulares
numricos. Entre estas propiedades, estn la frecuencia con que se dan varios
valores en la observacin, la nocin de un valor tpico o usual, la cantidad de
variabilidad en un conjunto de datos observados y la medida de relaciones entre 2
ms variables.
El campo de la estadstica descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadstica
descriptiva sirve como mtodo para organizar datos y poner de manifiesto sus
caractersticas esenciales con el propsito de llegar a conclusiones.
La inferencia estadstica se basa en las conclusiones a la que se llega por la
ciencia experimental basndose en informacin incompleta.
Por ejemplo, Mendelal estudiar la manera como diferan entre s las plantas de
guisantes en altura, color de las semillas, color de las vainas y color de las flores,
tuvo que hacer sus conclusiones necesariamente basndose en un grupo de
plantas relativamente poco numeroso comparado con toda la poblacin de plantas
de guisantes de un tipo particular.
Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las
conclusiones de Mendel dependan de la muestra particular de plantas disponibles
para este estudio.

En la terminologa estadstica, el procedimiento inductivo implica el hacer


inferencias acerca de una poblacin adecuada universo a la luz de lo averiguado
en un subconjunto aparte o muestra.
La inferencia estadstica se refiere a los procedimientos mediante los cuales se
pueden hacer tales generalizaciones inducciones.
Es importante por todo lo dicho anteriormente, que el proceso de la inferencia
cientfica, implica el grado ms elevado de cooperacin entre la estadstica y el
estudio experimental.

1.2 Recopilacin de datos


Poblacin y muestra Al recoger datos relativos a las caractersticas de un grupo de
individuos u objetos, sean alturas y pesos de estudiantes de una universidad o
tuercas defectuosas producidas en una fbrica, suele ser imposible o nada
prctico observar todo el grupo, en especial si es muy grande. En vez de examinar
el grupo entero, llamado poblacin o universo, se examina una pequea parte del
grupo, llamada muestra. Una poblacin puede ser finita o infinita. Por ejemplo, la
poblacin consistente en todas las tuercas producidas por una fbrica un cierto da
es finita, mientras que la determinada por todos los posibles resultados (caras,
cruces) de sucesivas tiradas de una moneda, es infinita. Si una muestra es
representativa de una poblacin, es posible inferir importantes conclusiones sobre
las poblaciones a partir del anlisis de la muestra. La fase de la estadstica que
trata con las condiciones bajo las cuales tal diferencia es vlida se llama
estadstica inductiva o inferencia estadstica. Ya que dicha inferencia no es del
todo exacta, el lenguaje de las probabilidades aparecer al establecer nuestras
conclusiones. La parte de la estadstica que slo se ocupa de describir y analizar
un grupo dado, sin sacar conclusiones sobre un grupo mayor, se llama estadstica
descriptiva o deductiva.

1.3 Distribucin de frecuencias


Distribucin de frecuencias es como se denomina en estadstica a la agrupacin
de datos en categoras mutuamente excluyentes que indican el nmero de
observaciones en cada categora. Esto significa una de las cosas ms importantes
de la matemtica, su estadstica con la agrupacin de datos. La distribucin de
frecuencias presenta las observaciones clasificadas de modo que se pueda ver el
nmero existente en cada clase.

Elementos fundamentales para elaborar una distribucin de frecuencia:


1) RANGO.
Es una medida de dispersin que se obtiene como la diferencia entre el nmero
mayor y el nmero menor de los datos.
R = N_max - N_min
Ejemplo.
Dados los nmeros: 5, 10, 12, 8, 13, 9, 15
R= 15- 5
2) AMPLITUD TOTAL.
Simplemente se obtiene sumndole 1 al rango.
AT = (R+1)
3) LAS CLASES.
Estn formadas por dos extremos. El menor se llama lmite inferior el mayor se
llama lmite superior. Hay distintos tipos de clases.
Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)
4) EL NUMERO DE CLASES.
Se determina a travs de la formula de Sturges, la cual es vlida cuando el No de
observaciones sea menor o igual a 500. Formula.
Nc= 1 + 3.33log ( N )
Donde:
Nc es el nmero de clases. N es la cantidad de muestras tomadas.
5) VALOR DEL INTERVALO O AMPLITUD
Se Obtiene por medio de la ecuacin de dicta:
Vi = AT / Nc
Donde:
Vi es el valor de intervalo AT es la amplitud total Nc es el nmero de clase

1.3.1 Histogramas, polgonos de frecuencia, ojivas


HISTOGRAMA
En estadstica, un histograma es una representacin grfica de una variable en
forma de barras, donde la superficie de cada barra es proporcional a la frecuencia
de los valores representados. En el eje vertical se representan las frecuencias, y
en el eje horizontal los valores de las variables, normalmente sealando las
marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los
datos.
En trminos matemticos, puede ser definida como una funcin inyectiva (o
mapeo) que acumula (cuenta) las observaciones que pertenecen a cada
subintervalo de una particin. El histograma, como es tradicionalmente entendido,
no es ms que la representacin grfica de dicha funcin.
Se utiliza cuando se estudia una variable continua, como franjas de edades o
altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir,
valores continuos. En los casos en los que los datos son cualitativos (nonumricos), como sexto grado de acuerdo o nivel de estudios, es preferible un
diagrama de sectores
POLIGONO DE FRECUENCIA
Un polgono de frecuencia es igual que hacer un histograma.. Solo que no creas
barras.. Si no pones puntos en el nivel que se le asigna... no hay frmula.. Es un
grfico... pero.. Los intervalos de lo que mides... debes hacer con la marca de
clase.. O sea.. El lmite inferior ms el lmite superior entre 2.. Para cada clase... y
ese es la marca de clase.. De cada clase.. O punto medio... y cada punto del
grfico lo unes... la frecuencia.. Pues es el nmero de veces que existe cada
clase... entonces.. Puede haber polgonos de porcentaje... de frecuencia, de
frecuencia relativa.. etc.
OJIVAS:
Cuando se trata de relacionar observaciones en un mismo aspecto para dos
colectivos diferentes no es posible ejecutar comparaciones sobre la base de la
frecuencia, es necesario tener una base estndar, la frecuencia relativa. La ojiva
representa grficamente la forma en que se acumulan los datos y permiten ver
cuntas observaciones se hallan por arriba o debajo de ciertos valores. Es til
para obtener una medida de los cuartiles, deciles , percentiles.

MEDIDAS DE TENDENCIA CENTRAL PARA UN CONJUNTO DATOS Y DATOS


AGRUPADOS
MEDIDAS DE TENDENCIA CENTRAL
La estadstica busca entre otras cosas, describir
conjuntos de datos y, como hay varias formas de
varios tipos de promedios. Se les llama medidas
general mente la acumulacin ms alta de datos
intermedios.

las caractersticas tpicas de


hacerlo, existen y se utilizan
de tendencia central porque
se encuentra en los valores

MODA
La moda es el valor que aparece con mayor frecuencia en la serie de datos. As
por ejemplo, de la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.
La moda es una medida muy natural para describir un conjunto de datos; su
concepto se adquiere fcilmente: es la altura ms corriente, es la velocidad ms
comn, etc. Adems tiene la ventaja de que no se ve afectada por la presencia de
valores altos o bajos.
La principal limitacin esta en el hecho de que requiere un nmero suficiente de
observaciones para que se manifieste o se defina claramente.
Otros inconvenientes son que puede darse el caso de que una determinada serie
no tenga moda o que tenga varias modas.
Por ejemplo:
L, K, M, O, N (no hay moda)
5, 6, 10, 5, 8, 6, 7, 4 (2 modas)
MEDIANA
La mediana toma en cuenta la posicin de los datos y se define como el valor
central de una serie de datos o, ms especficamente, como un valor tal que no
ms de la mitad de las observaciones son menores que l y no ms de la mitad
mayores.
El primer paso es ordenar los datos de acuerdo a su magnitud, luego se determina
el valor central de la serie y esa es la mediana. Si el nmero de datos es par,
existirn dos valores centrales y entonces la mediana se obtiene sacando el
promedio de ellos.
Por ejemplo:

7, 8, 8, 10, 12, 19, 23 Mes = 10


3, 4, 4, 5, 16, 19, 25, 30 Med = (5+16)/2 = 10.5
Media Aritmtica
La media aritmtica es el promedio ms comnmente usado, este puede ser
simple o ponderado.
La media aritmtica simple est dada por la formula SX/n y que significa: la suma
de todos los valores dividida por el nmero de datos.
Por ejemplo:
10, 13, 10, 13, 14, 10, 13, 10, 15

Media Aritmtica Ponderada


Si los valores que toma x en una serie de datos, no todos tienen la misma
importancia, es vlido asignar "pesos" o "ponderaciones" de acuerdo a la
importancia de cada dato.
En la serie del ejemplo anterior aparecen los nmeros; pero cada uno con
diferente frecuencia. Si cada uno de estos datos se multiplica por su respectiva
frecuencia o ponderacin y se suman estos productos, se obtendr la misma suma
que si se hubieran sumado uno por uno.
Sin ponderar

Clculo ponderado

Nmero x

Nmero x

Frecuencia

Producto (fx)

10

10

40

13

13

39

14

14

14

15

15

15

108

Suma = 52

52/4 = 13

108/9 = 12

Media Geomtrica
La media geomtrica es la raz ensima del producto de todos los valores de la
serie.

As por ejemplo la media geomtrica de 3,4,9 y 12 seria:

Como este sistema de clculo resulta muy difcil de emplear, mxime cuando son
nmeros grandes o largas series de datos, en la prctica se recurre a los
logaritmos.
xg = antilog (S log xi)/n
as la xg del ejemplo se calculara as:
xg

xg

antilog
antilog

xg

log
4
(0.477
4
=

+
+

log

0.602

log

+
antilog

0.954

+
+

log

12

1.079

)
)

(3.11)

4
xg = antilog 0.78
xg = 6
Media Armnica
La media armnica se define como el recproco de la media aritmtica de los
recprocos de los valores.

y reacomodando la frmula se tiene:

As la media armnica de 3, 2, 6 sera:

Xa = 3
Clculo de las medidas de posicin en datos agrupados
Cuando los datos estn agrupados en distribucin de frecuencias las frmulas
varan un poco.
Clases

fx

29.5-34.5

32

32

34.5-39.5

37

111

39.5-44.5

42

12

336

44.5-49.5

47

21

423

49.5-54.5

52

28

364

54.5-59.5

57

32

228

59.5-64.5

62

35

186

64.5-69.5

67

38

201

69.5-74.5

72

40

144

40

2025

Total

Donde:
x
es
el
punto
medio
f
es
la
frecuencia
F
es
la
frecuencia
fx es el producto del punto medio por la frecuencia absoluta

de

clase
absoluta
acumulada

Moda (datos agrupados)

Donde:
L
=
Limite
inferior
de
la
clase
modal.
d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
anterior.
d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
posterior.
C = Intervalo de clase.
Por ejemplo:
Primero se localiza la clase modal que es aquella en la que hay la mayor densidad
de frecuencia por unidad de intervalo y luego aplicar la formula.
La
clase
es:
44.5
49.5
Entonces:

Mo

=
1+2

44.5

= 44.5 + 1.67 = 46.17


Mediana (datos agrupados)

Donde:
n
=
Nmero
total
L
=
Limite
inferior
de
la
clase
que
f
=
Frecuencia
de
la
clase
que
F = Frecuencia acumulada "menos de"
C = Intervalo de clase.

de
observaciones.
contiene
la
mediana.
contiene
la
mediana.
de la clase anterior.

La determinacin de la clase que contiene la mediana se hace dividiendo n/2 y


viendo en cual clase qued este acumulado. En el ejemplo es la clase 44.5 - 49.5
ya que en sta qued el 20 dato.

Media aritmtica (datos agrupados)


Es la suma de los productos de la frecuencia por el punto medio divididos por la
frecuencia acumulada total.
x

=
n

S
40

fx

2025

50.62

Percentiles (datos agrupados)

Donde:
Pm
=
Percentil
m.
m
=
Nmero
del
percentil
deseado.
n
=
Nmero
total
de
observaciones.
L
=
Limite
inferior
de
la
clase
donde
est
el
percentil.
f
=
Frecuencia
de
la
clase
que
contiene
el
percentil.
F = Frecuencia acumulada de la clase anterior a la que contiene el percentil
C = Intervalo de clase.
Clculo del P72
Primero se determina la clase donde est el percentil deseado as:
m/100 * n = 72/100 * 40 = 28.8
O sea que el P72 es el 28.8 trmino de la serie y ste queda en la clase 54.5 59.5.
P72

54.5
4

28.8

28

55.5

1.5 Medidas de dispersin para un conjunto de datos y datos agrupados


El conocimiento de la forma de la distribucin y del respectivo promedio de una
coleccin de valores de una variable, puede servir para tener una idea bastante
clara de la conformacin, pero no de de la homogeneidad de cada una de los
valores con respecto a la medida de tendencia central aplicada.

En el caso de las variables con valores que pueden definirse en trminos de


alguna escala de medida de igual intervalo, puede usarse un tipo de indicador que
permite apreciar el grado de dispersin o variabilidad existente en el grupo de
variantes en estudio.

A estos indicadores les llamamos medidas de dispersin, por cuanto que estn
referidos a la variabilidad que exhiben los valores de las observaciones, ya que si

no hubiere variabilidad o dispersin en los datos inters, entonces no habra


necesidad de la gran mayora de las medidas de la estadstica descriptiva.

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersin nos dicen hasta que punto estas
medidas de tendencia central son representativas como sntesis de la informacin.
Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad
de los valores de la distribucin respecto al valor central. Distinguimos entre
medidas de dispersin absolutas, que no son comparables entre diferentes
muestras y las relativas que nos permitirn comparar varias muestras.

1.5.1 Rango
Se denomina rango estadstico (R) o recorrido estadstico al intervalo de menor
tamao que contiene a los datos; es calculable mediante la resta del valor mnimo
al valor mximo; por ello, comparte unidades con los datos. Permite obtener una
idea de la dispersin de los datos.
Por ejemplo, para una serie de datos de carcter cuantitativo como es la estatura
tal y como:
x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155
es posible ordenar los datos como sigue:
x(1) = 155,x(2) = 165,x(3) = 170,x(4) = 182,x(5) = 185
donde la notacin x(i) indica que se trata del elemento i-simo de la serie de datos.
De este modo, el rango sera la diferencia entre el valor mximo (k) y el mnimo; o,
lo que es lo mismo:
R = x(k) x(1)
En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30

1.5.2 Desviacin media


La desviacin media es la media de las diferencias en valor absoluto de los
valores a la media.

Este valor estadstico no es de mucha utilidad en estadstica debido a que no es


fcil manipular dicha funcin al no ser derivable.
Siendo ms formales, la desviacin media debera llamarse desviacin absoluta
respecto a la media, para evitar confusiones con otra medida de dispersin, la
desviacin absoluta respecto a la mediana, DM, cuya frmula es la misma,
sustituyendo la media aritmtica
por la mediana M. Pero tal precisin no es
relevante, porque la desviacin absoluta respecto a la mediana es de uso todava
menos frecuente.
La desviacin absoluta respecto a la media, Dm, la desviacin absoluta respecto a
la mediana, DM, y la desviacin tpica, , de un mismo conjunto de valores
verifican la desigualdad:

Siempre ocurre que

donde el Rango es igual a


Rango = valor mximo valor mnimo
Dm = 0 cuando los datos son exactamente iguales (e iguales a la media aritmtica)

justo slo hay dos valores en los datos, :a,b, y hay exactamente
la mitad de datos igual a :a y :b

1.5.3 Varianza
En teora de probabilidad, la varianza (2) de una variable aleatoria es una medida
de su dispersin definida como la esperanza del cuadrado de la desviacin de
dicha variable respecto a su media.
Est medida en unidades distintas de las de la variable. Por ejemplo, si la variable
mide una distancia en metros, la varianza se expresa en metros al cuadrado. La
desviacin estndar, la raz cuadrada de la varianza, es una medida de dispersin
alternativa expresada en las mismas unidades.

Hay que tener en cuenta que la varianza puede verse muy influida por los valores
atpicos y se desaconseja su uso cuando las distribuciones de las variables
aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras
medidas de dispersin ms robustas.
El trmino varianza fue acuado por Ronald Fisher en un artculo de 1918 titulado
The Correlation Between Relatives on the Supposition of Mendelian Inheritance.
Varianza o coeficiente de Variacin es la variable aleatoria x tiene media = E(X)
se define la varianza Var(X) (tambin representada como o, simplemente 2) de
X como

Desarrollando la definicin anterior, se obtiene la siguiente definicin alternativa (y


equivalente):

Si una distribucin no tiene esperanza, como ocurre con la de Cauch tampoco


tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen
de varianza. Un ejemplo de ellas es la de Pareto cuando su ndice k satisface 1 <
k 2.

1.5.4 Desviacin estndar


La desviacin estndar o desviacin tpica () es una medida de centralizacin o
dispersin para variables de razn (ratio o cociente) y de intervalo, de gran utilidad
en la estadstica descriptiva.

Se define como la raz cuadrada de la varianza. Junto con este valor, la desviacin
tpica es una medida (cuadrtica) que informa de la media de distancias que
tienen los datos respecto de su media aritmtica, expresada en las mismas
unidades que la variable.

Para conocer con detalle un conjunto de datos, no basta con conocer las medidas
de tendencia central, sino que necesitamos conocer tambin la desviacin que
representan los datos en su distribucin respecto de la media aritmtica de dicha
distribucin, con objeto de tener una visin de los mismos ms acorde con la
realidad a la hora de describirlos e interpretarlos para la toma de decisiones
La varianza representa la media aritmtica de las desviaciones con respecto a la
media que son elevadas al cuadrado.
Si atendemos a la coleccin completa de datos (la poblacin en su totalidad)
obtenemos la varianza poblacional; y si por el contrario prestamos atencin slo a
una muestra de la poblacin, obtenemos en su lugar la varianza muestral. Las
expresiones de estas medidas son las que aparecen a continuacin.
Expresin de la varianza muestral:

Segunda forma de calcular la varianza muestral:

Demostracin

Podemos observar que como

(sumamos n veces 1 y luego dividimos por n)


y como

obtenemos

Expresin de la cuasivarianza muestral (estimador insesgado de la varianza


poblacional):

Expresin de la varianza poblacional:

donde es el valor medio de {Xi}


Expresin de la desviacin estndar poblacional:

El trmino desviacin estndar fue incorporado a la estadstica por Karl Pearson


en 1894.
Por la formulacin de la varianza podemos pasar a obtener la desviacin estndar,
tomando la raz cuadrada positiva de la varianza. As, si efectuamos la raz de la
varianza muestral, obtenemos la desviacin tpica muestral; y si por el contrario,
efectuamos la raz sobre la varianza poblacional, obtendremos la desviacin tpica
poblacional.

Desviaciones estndar en una distribucin normal.


Expresin de la desviacin estndar muestral:

Tambin puede ser tomada como

con a como
y s como
adems se puede tener una mejor tendencia de
medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la
media, mediana y moda

1.6 Coeficiente de variacin


En estadstica el coeficiente de variacin (de Pearson), es una medida de
dispersin til para comparar dispersiones a escalas distintas pues es una medida
invariante ante cambios de escala. Sirve para comparar variables que estn a
distintas escalas pero que estn correlacionadas estadsticamente y
sustantivamente con un factor en comn. Es decir, ambas variables tienen una
relacin causal con ese factor. Su frmula expresa la desviacin estndar como
porcentaje de la media aritmtica, mostrando una mejor interpretacin porcentual
del grado de variabilidad que la desviacin tpica o estndar. Por otro lado
presenta problemas ya que a diferencia de la desviacin tpica este coeficiente es
variable ante cambios de origen. Por ello es importante que todos los valores sean
positivos y su media de por tanto un valor positivo. A mayor valor de C.V. mayor
heterogeneidad de los valores de la variable; y a menor C.V., mayor
homogeneidad en los valores de la variable. Suele representarse por medio de las
siglas C.V..
Exigimos que:
Se calcula:

Donde es la desviacin tpica. Se puede dar en tanto por ciento calculando:

Propiedades y aplicaciones
El coeficiente de variacin es tpicamente menor que uno.
Para su mejor interpretacin se lo expresa como porcentaje.
Depende de la desviacin tpica y en mayor medida de la media aritmtica, dado
que cuando sta es 0 o muy prxima a este valor C.V. pierde significado, ya que
puede dar valores muy grandes, que no necesariamente implican dispersin de
datos.
El coeficiente de variacin es comn en varios campos de la probabilidad aplicada,
como teora de renovacin y teora de colas. En estos campos la distribucin
exponencial es a menudo ms importante que la distribucin normal. La
desviacin tpica de una distribucin exponencial es igual a su media, por lo que
su coeficiente de variacin es 1. Las distribuciones con un C.V. menor que uno,
como la distribucin de Erlang se consideran de "baja varianza", mientras que
aquellas con un C.V. mayor que uno, como la distribucin hiperexponencial se
consideran de "alta varianza". Algunas frmulas en estos campos se expresan
usando el cuadrado del coeficiente de variacin, abreviado como S.C.V. (por
sus siglas en ingls).