Вы находитесь на странице: 1из 15

APUNTES DE ESTADSTICA DESCRIPTIVA

Profesor: Carlos Daz Arias carlosdiazarias@hotmail.com

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

1.

INTRODUCCIN

1.1.

Qu es la Estadstica? La estadstica es una disciplina que se preocupa de desarrollar tcnicas y modelos que permitan estudiar la forma cmo la incertidumbre de un fenmeno es alterada por informacin disponible. La estadstica es una ciencia, ya que esta se puede considerar como la aplicacin del mtodo cientfico en el anlisis de datos numricos con el fin de tomar decisiones racionales.

1.2.

Poblacin y Muestra Variable: Es toda caracterstica que toma diferentes valores en distintas personas, lugar o cosas.(Por ejemplo: estatura, peso, costo, utilidad, etc....) Datos: Son nmeros o medidas que han sido recopiladas como resultados de observaciones. Poblacin: Es el conjunto formado por todos los valores posibles que puede asumir la variable objeto de estudio. Muestra: Es cualquier subconjunto de la poblacin, escogido al seguir ciertos criterios de seleccin (Tcnicas de muestreo).

1.3.

Conceptos Bsicos de Tcnicas de Muestreo Todo estudio estadstico requiere de la formulacin del problema y la definicin de los objetivos. Fuentes de datos Uso de fuentes de datos publicados Diseo de un experimento Elaboracin de una encuesta Tipos de datos Cualitativos, son aquellos que estn asociados a atributos o caractersticas. Cuantitativos, son aquellos que estn asociados a una unidad de medida y pueden ser de carcter discreto o contnuo. - Discreto, son respuestas numricas que surgen de un proceso de conteo. - Continuo, son respuestas continuas que surgen de un proceso de medicin.
2

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

Tipos de datos Cualitativos

Tipos de preguntas Posee Ud. depsitos a plazo fijo? Discretos A cuntos diarios est Ud. suscrito?

Respuestas SI___ NO___ N____

Cuantitativos Continuos Cul es su estatura? Cm____

Tcnicas de Muestreo Muestras Probabilsticas Muestreo Aleatoria Simple (Con reemplazo o Sin reemplazo) Muestra sistemtica Muestra estratificada Muestra por conglomerado Muestras No Probabilsticos Muestra Intencional (de juicio) Muestra por cuota Muestra sin norma o circunstancial 1.4. Variables y Escalas de Medida El anlisis estadstico depende no slo del nmero de observaciones sino tambin del nmero y tipo de variables. El nmero de observaciones debe ser al menos 10. El tipo de variable es relevante, y es til distinguir entre las diferentes escalas de medidas, las cuales incluyen: Escala nominal, para variables categricas sin orden. Por lo tanto, estos valores slo tienen un sentido de clasificacin. Escala ordinal, donde hay orden, pero no implica distancia entre las posiciones de la escala. Es decir, los nmeros se emplean para diferenciar un orden de supremaca de acuerdo a cierto criterio jerrquico. Escala intervalar, donde la diferencia entre enteros sucesivos son iguales, pero el punto cero es arbitrario. Escala de razn, el mayor nivel de medida, donde uno puede comparar las diferencias en trminos absolutos o relativos de los puntajes y tiene un cero verdadero.

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

En resumen, todo estudio estadstico requiere la siguiente metodologa para su realizacin y que se deriva en los siguientes pasos: 1. Formulacin del problema (tiempo, costo, personal idneo,...). 2. Diseo de experimento, que consiste en obtener la mxima informacin con el mnimo costo posible (determinar claramente el tamao de la muestra, riesgo). 3. Recoleccin de datos, que debe ajustarse a las reglas (requiere ms tiempo). 4. Tabulacin y descripcin de los datos, que consiste en realizar medidas estadsticas necesarias para el estudio (diagramas, histogramas estadgrafos,....). 5. Inferencia estadstica y conclusiones, que es el ms importante, porque es aqu donde se deben tomar decisiones y determinar el nivel de confianza y de significancia de stas.

2.

ESTADSTICA DESCRIPTIVA La estadstica descriptiva se puede definir como los mtodos que implican la recoleccin, presentacin y caracterizacin de un conjunto de datos a fin de describir en la forma apropiada las diversas caractersticas de ese conjunto de datos.

2.1.

Tablas de Frecuencias Por lo general, cuando la cantidad de datos es muy grande es conveniente hacer una tabla de frecuencias, la cual, consiste en ordenarlos de alguna manera para poder obtener una distribucin y obtener conclusiones preliminares. Para ordenar los datos es conveniente tener presente las clasificaciones dadas anteriormente, es decir, proceder de distinta manera cuando la variable es discreta o continua.

2.1.1. Tabulacin de Variables Discretas En la prctica las variables discretas son aquellas que toman un nmero pequeo de valores distintos y que posteriormente se van repitiendo. Ejemplos: Las caras de una moneda al ser lanzada. Las caras de un dado correcto al ser lanzado. Nmero de hijos por familia. Nmero de transacciones en un da de los clientes de un banco.

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

Ejemplo 1: Supongamos que se desea estudiar el nmero de operaciones que realizan los clientes de un banco en determinado da, cmo el nmero de clientes del banco es significativamente grande, se encuestan solamente a cincuenta de ellos y se les pregunta cuntas operaciones ha realizado en el banco?, obtenindose los siguientes resultados ( x j ), de acuerdo al orden de recepcin de ellas. 1 3 2 3 4 Los datos tabulados y 5 2 1 4 0 3 2 3 3 4 registrados los posibles 5 3 2 4 2 3 5 3 4 2 1 3 4 3 4 5 4 1 2 2 4 1 2 3 4 3 0 3 4 4 5 3 2 3 5 anteriormente reciben el nombre de datos no valores de la variable se definen por Y j que seala

la marca de clase y se obtendrn tantas clases ( m ) como valores distintos tome la variable, es decir, para el ejemplo Y j = 0,1,2,3,4,5 para todo j = 1,2,3,4,5,6, pero antes de ordenar los datos de una forma ms resumida, y comprensible definamos algunos elementos de una tabla de frecuencias. 2.1.2. Frecuencia absoluta ( n j ) La frecuencia absoluta de la clase j sima se define como el nmero de veces que se repite la clase y se denota por n j . 2.1.3. Frecuencia absoluta acumulada ( N j ) La frecuencia absoluta acumulada de la clase j sima se define como la suma de frecuencias absolutas hasta la clase j sima y se denota por N j .

N j = n1 + n 2 + n3 + ........... + n j = n k
k =1

2.1.4. Frecuencia relativa o porcentual ( h j ) La frecuencia relativa de la clase j sima se define como el cociente entre la frecuencia absoluta de la clase j sima y el tamao de la muestra y se denota por h j .

n 2.1.5. Frecuencia relativa acumulada ( H j )


La frecuencia relativa acumulada de la clase j sima se define como la suma de las frecuencias relativas hasta la clase j sima y se denota por H j.

hj =

nj

H j = hk =
k =1

Nj nk 1 j 1 = nk = N j = n k =1 n n k =1 n
j

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

2.1.6. Propiedades de las frecuencias (1) (2) (3) (4) (5) (6)

n
j =1

=n

0 nj n

h
j =1

=1

0 hj 1
n1 = N 1 N 2 ....... N m = n h1 = H 1 H 2 ....... H m = 1 TABLA DE FRECUENCIAS

j
1 2 3 4 5 6

Yj
0 1 2 3 4 5 Suma

nj
2 5 10 15 12 6 50

Nj
2 7 17 32 44 50

hj
0.04 0.10 0.20 0.30 0.24 0.12 1.00

Hj
0.04 0.14 0.34 0.64 0.88 1.00

Interpretacin de algunos valores de la tabla n 5 = 12 , esto indica, que de los cincuenta clientes encuestados, 12 de ellos realizan exactamente cuatro operaciones en el banco ese da. N 3 = 17 , esto indica, que de los cincuenta clientes encuestados, 17 de ellos realizan a lo ms dos operaciones en el banco ese da. h4 = 0.30 , esto indica, que de los cincuenta clientes encuestados, el 30% de ellos realizan exactamente tres operaciones en el banco ese da. H 4 = 0.64 , esto indica, que de los cincuenta clientes encuestados, el 64% de ellos realizan a lo ms tres operaciones en el banco ese da. 2.1.7. Tabulacin de Variables Continuas En la prctica las variables continuas son aquellas que toman valores en la recta real (por ejemplo: estatura, peso, ingresos, costos, PIB, etc.....) Es necesario resumir la informacin en intervalos de valores, que son llamados intervalos de clases o simplemente clases.

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

El nmero de clases ( m ) que se va a utilizar, depende fundamentalmente del nmero de observaciones ( n ), es decir, cuanto mayor es el nmero de observaciones, mayor ser el nmero de clases, y viceversa. Segn la literatura, la distribucin de frecuencias debe tener, cuando menos cinco, pero no ms de quince, clases. 2.1.8. Seleccin del nmero de clases En la literatura clsica existe una regla para definir claramente el nmero de clases a utilizar, esta se llama formula de Sturges que indica:
m = 1+ 1.33 log n

2.1.9. Obtencin del intervalo de clase ( C j ) El ancho de cada clase, se obtiene dividiendo el recorrido de los datos (la diferencia entre la observacin ms grande y la ms pequea) por el nmero de clases y se denota lo longitud de la clase j sima por C j .
Cj = x mx x mn m

Nota: Es deseable que la longitud de cada clase de la tabla de frecuencias sea un intervalo semi-abierto del mismo tamao, es decir, el intervalo de clase debe ser desde limite inferior de clase hasta menos del lmite superior de la clase, no descartando que el lmite superior de la ltima clase sea cerrado para algunos casos. Para completar la tabla de frecuencias se utiliza los mismos criterios y definiciones vistas anteriormente para el caso de tablas de frecuencias de variables discretas. Ejemplo 2: Se desea determinar el precio de venta (en dlares) de un producto para ser informado a los consumidores. Para ello se recoge la informacin del precio del producto de 40 locales, los cuales arrojan los siguientes resultados ( x j ), de acuerdo al orden de recepcin de ellas. 68 71 67 56 64 58 64 63 55 61 62 59 58 65 64 67 69 62 57 59 65 60 60 65 62 69 57 62 63 64 60 65 61 72 56 62 60 62 60 71

Nmero de clases

m = 1 + 1.33 log 40 = 5.9062 6

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

Longitud de clase
Cj = x mx x mn 72 55 = = 2.8 3 3 m 6

TABLA DE FRECUENCIAS

j
1 2 3 4 5 6

Clases [55 - 58) [58 - 61) [61 - 64) [64 - 67) [67 - 70) [70 - 73) Suma

nj

Nj

hj

Hj

5 9 10 8 5 3 40

5 14 24 32 37 40

0.125 0.225 0.250 0.200 0.125 0.075 1.000

0.125 0.350 0.600 0.800 0.925 1.000

2.2.

Grficos Los estadsticos emplean tcnicas grficas para describir con ms vivacidad la distribucin de los datos, de aqu el viejo dicho un dibujo vale por mil palabras. Para los datos cuantitativos resumidos en tablas de frecuencias, se utilizan histogramas y polgonos.

2.2.1. Histogramas Los histogramas, son grficas de barras, en los cuales se construyen las barras en las fronteras de cada clase. Al trazar los histogramas, la variable de inters se representa a lo largo del eje horizontal; el eje vertical representa el nmero, proporcin de observaciones, frecuencias acumuladas o frecuencias relativas acumuladas por intervalo de clase. Del ejemplo 2 podemos obtener los siguientes histogramas:
Histograma de Frecuencias Absolutas Histograma de Frecuencias Relativas

12 9 6 3

0.32 0.24 0.16 0.08

55 58 61 64 67 70 73

55 58 61 64 67 70 73

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

Histograma de Frecuencias Absolutas Acumuladas

Histograma de Frecuencias Relativas Acumuladas

40 30 20 10

1.0 0.8 0.6 0.4

55 58 61 64 67 70 73

55 58 61 64 67 70 73

2.2.2. Polgonos A partir del Histograma de frecuencias es posible construir el Polgono de frecuencias, que es la lnea poligonal que resulta de la unin de los puntos medios de la parte superior de cada una de las barras del histograma. Del ejemplo 2 se pueden obtener los siguientes polgonos:
Polgono de Frecuencias Absolutas Polgono de Frecuencias Relativas

12 9 6 3

0.32 0.24 0.16 0.08

55 58 61 64 67 70 73

55 58 61 64 67 70 73

Polgono de Frecuencias Absolutas Acumuladas

Polgono de Frecuencias Relativas Acumuladas

40 30 20 10

1.0 0.8 0.6 0.4

55 58 61 64 67 70 73

55 58 61 64 67 70 73

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

2.3.

Estadgrafos Una vez tabulado los datos y tener una visin grfica de ellos, podemos identificar algunos valores que representan los datos y proporcionan informacin sobre su comportamiento, estos valores reciben el nombre de estadgrafos que se clasifican en: Estadgrafos de Posicin Estadgrafos de Dispersin Estadgrafos de Deformacin y Estadgrafos de Apuntamiento

2.3.1. Estadgrafos de Posicin Es la caracterstica ms importante que describe o resume un grupo de datos. Estos valores son denominados estadgrafos de posicin o medidas de tendencia central. Los ms importantes estadgrafos de posicin que estudiaremos sern: La media, La mediana y La moda. 2.3.1.1. La Media o Media aritmtica es el centro fsico de los datos, que se define como el promedio de los valores y se denota por X o M (X ) .

x
Datos No Tabulados
X =
j =1

n
m j =1 j

= M (X )
j

y n
Datos Tabulados
Y = n

= M (Y )

Donde y j corresponde a la marca de clase j esima , es decir, la marca de clase es el centro de cada clase. Propiedades (1) M (k ) = k (2) M (kX ) = kM ( X ) (3) M ( X + k ) = M ( X ) + M (k ) = M ( X ) + k (4) M ( X 1 X 2 ) = M ( X 1 ) M ( X 2 ) (5) Si X = X 1 X 2 , # X 1 = n1 , # X 2 = n2 n M ( X 1 ) + n2 M ( X 2 ) entonces M (X ) = 1 n (6)

y # X = n = n1 + n2 ,

(x
j =1

x ) = 0 bien

(y
j =1

y )n j = 0

10

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

2.3.1.2. La Mediana es el trmino central de los datos previamente ordenados. impar Me = X n +1 2 Datos No Tabulados Xn + Xn +1 Me = 2 2 par 2
n N j 1 2 Me = Li min f j + Cj nj

Datos Tabulados

Donde: j , es el nmero de clase a la cual pertenece la mediana. Liminf j es el lmite inferior de la clase j esima donde est ubicada la mediana. N j 1 , es la frecuencia absoluta acumulada de la clase anterior a la clase j esima donde est ubicada la mediana. n j , es la frecuencia absoluta de la clase anterior a la clase
j esima donde est ubicada la mediana. C j , es la longitud de la clase j esima donde est ubicada la

mediana. 2.3.1.3. La Moda es el valor de la variable que tiene mayor frecuencia o aquel que ms se repite.ddasdasd Datos No Tabulados La moda es el valor que ms se repite. Datos Tabulados

Mo = Lim inf j +

n j +1 n j 1 + n j +1

Cj

j , es el nmero de clase al cual pertenece la moda, es decir, la clase de mayor frecuencia. Lim inf j es el lmite inferior de la clase j esima donde est ubicada la moda. n j +1 , es la frecuencia absoluta de la clase siguiente a la clase j esima donde est ubicada la moda. n j 1 , es la frecuencia absoluta de la clase anterior a la clase j esima donde est ubicada la moda. C j , es la longitud de la clase j esima donde est ubicada la moda.

11

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

2.3.1.4. Cuartiles, son aquellos valores que dividen las observaciones en cuatro partes iguales, por lo tanto existen cuatro cuartiles, Q1 , Q2 y Q3 . n k ( ) N j 1 k = 1,2,3 Qk = Lim inf j + 4 Cj nj
Q1 Q2 =Me Q3

2.3.1.5. Deciles, son aquellos valores que dividen las observaciones en diez partes iguales, por lo tanto existen nueve deciles, D1 , D2 ,..........., D9 .
Dk = Lim inf j + k( n ) N j 1 10 Cj nj

k = 1,2,.............,9

2.3.1.6. Percentiles, son aquellos valores que dividen las observaciones en cien partes iguales, por lo tanto existen noventa y nueve percentiles, P , P2 ,.................., P99 . 1
n k( ) N j 1 Pk = Lim inf j + 100 Cj nj

k = 1,2,.............,99

2.3.2. Estadgrafos de Dispersin Son valores numricos que nos indican la homogeneidad o heterogeneidad de los datos. Los estadgrafos de dispersin que estudiaremos son: Rango, Desviacin Inter Cuartil, Desviacin Inter Percentil, Desviacin Media, Varianza, Desviacin Estndar y Coeficiente de Variacin. 2.3.2.1. Rango, es la diferencia entre el valor mximo y el valor mnimo de la variable .
Rango = xmx xmn

2.3.2.2. Desviacin Inter Cuartil, es la mitad de la diferencia entre el cuartil tres y el cuartil uno y se denota por Q .
Q= Q3 Q1 2
12

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

2.3.2.3.

Desviacin Inter Percentil, es la mitad de la diferencia entre el percentil noventa y el percentil diez y se denota por P .
P= P90 P 10 2

2.3.2.4. Desviacin Media, es la media aritmtica de los valores absolutos de las desviaciones respecto de la media (o de la mediana).

Datos No Tabulados

Dm =

| x
i =1
m

x| =

| z
i =1

Datos Tabulados 2.3.2.5. Varianza. Datos No Tabulados

Dm =

| y
i =1

y | ni n

| z
i =1

| ni

S2 =

( x1 x )2
i =1

n
m

z
i =1

2 i

n
m

= Var ( X )

Datos Tabulados 2.3.2.6. Desviacin Estndar.

S =
2

( yi y )2 ni
i =1

z
i =1

2 i

ni

= Var ( X )

Datos No Tabulados

S = S2 =

( x1 x )2
i =1

n
m

z
i =1

2 i

Datos Tabulados

S= S =
2

( yi y )2 ni
i =1

z
i =1

2 i

ni

Propiedades de la Varianza (1) Var ( X ) 0 (2) Var (k ) = 0 (3) Var (kX ) = k 2Var ( X ) (4) Var ( X + k ) = Var ( X ) + Var (k ) = Var ( X ) (5) Var ( X 1 X 2 ) = Var ( X 1 ) + Var ( X 2 )
13

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

Regla Emprica, si la distribucin de los datos es simtrica, entonces: M ( X ) Var ( X ) 65%


M ( X ) 2Var ( X ) 95% M ( X ) 3Var ( X ) 99%

2.3.2.7. Coeficiente de Variacin, es una medida til para comparar la variabilidad de dos grupos de distintas unidades de medidas.
C.V . = S 100% X

2.3.3. Estadgrafos de Deformacin Coeficiente de Sesgo, es un valor numrico que nos indica si la distribucin de los datos es simtrica o est inclinada a la derecha o a la izquierda con respecto a algn valor de tendencia central.

(y
i =1

y )3 ni

Sesgo =

n S3

x Sesgo = 0

x Sesgo < 0

x Sesgo > 0

2.3.4. Estadgrafos de Apuntamiento Coeficiente de Curtosis, es un valor numrico que nos permite estudiar la curva normal (Sesgo = 0) , en relacin a que si los datos estn tienen una distribucin normal, ms eguzados o ms achatados.

(y
i =1

y ) 4 ni

Curtosis =

n S4

14

PROBABILIDAD Y ESTADSTICA

CARLOS DAZ A.

x Curtosis > 3 Leptocurtica

x Curtosis = 3 Mesocurtica o Normal

x Curtosis < 3 Platicurtica

15

Вам также может понравиться