Вы находитесь на странице: 1из 66

STAT 555: Analisis e

Inferencia Estadistica
Dr. J. E. Caraballo
jose.jcarabal@gmail.com

04/05/16

Estadstica Descriptiva
Objetivos:
1. Conocer tcnicas utilizadas para organizar
datos en
tablas.
2. Aprender a calcular medidas estadsticas
tales como:
- Media aritmtica
- Mediana
- Moda
- Varianza
- Desviacin estndar
- Coeficiente de variacin.
04/05/16

Bosquejo
I. Orden de Datos
II. Medidas de Tendencia Central
(Localizacin)
A. Media Aritmtica
B. Mediana
C. Moda
III. Medidas de Variabilidad (Dispersin)
A. Varianza
B. Desviacin Estndar
C. Coeficiente de Variacin
04/05/16

I. Orden de Datos
Para que los datos recopilados sean tiles,
necesitamos organizarlos de modo que
podamos identificar patrones y nos ayuden a
llegar a conclusiones lgicas.
En el proceso de investigacin cuantitativa
utilizamos la recopilacin de datos para probar
nuestras teoras o hiptesis planteadas.
Esa recopilacin de datos se le conoce como
conjunto de datos.
Es importante que tales datos del conjunto
sean seleccionados de manera que todos los
grupos relevantes estn representados.
04/05/16

Cont. Orden de Datos


Los datos pueden venir de observaciones reales
(data secundaria) o de registros establecidos con
otros propsitos (data primaria).
Los datos por si solos no representan nada hasta
tanto no estn organizados.
Los datos organizados se convierten en informacin
valiosa para la toma de decisiones.
Una manera efectiva de ordenar los datos es
utilizando lo que se conoce como; Distribuciones de
Frecuencias.
Las Distribuciones de Frecuencias consisten de
agrupar los datos en clases o categoras, mostrando
el nmero de observaciones en cada una de las clase
o categoras establecidas.
04/05/16

Cont. Orden de Datos


Pasos para construir una Distribucin de
Frecuencias:
A. Recopilar los datos
B. Ordenar los datos
a. de < a >
b. de > a <
C. Construrir la Tabla de Distribucin de
Frecuencias
a. Determinar el # de clases o categoras
b. Determinar el ancho del intervalo
D. Adjudicar las observaciones (datos) dentro de
cada clase
o categora.
04/05/16

Cont. Orden de Datos


A. Recopilar los Datos: Pueden ser
recopilados a
travs de encuestas.
Notas de los estudiantes del curso de
Estadstica:
82
75 88 93
53
84
87 58 72
94
69
84 61 91
64
87
84 70 76
89
75
80 73 78
60

04/05/16

Cont. Orden de Datos


B. Orden de Datos: Los datos podrn
ser
ordenados de menor a mayor
(preferiblemente) o de mayor a
menor.
Menor a Mayor:
53 58 60 61 64
69 70 72 73 75
75 76 78 80 82
84 84 84 87 87
88 89 91 93 94
04/05/16

Cont. Orden de Datos


C. Construir la Tabla de Distribucin de
Frecuencias:

# de clases = 2k n
Utlizamos esta frmula cuando no se nos
el nmero
#dice
de clases
= 2 k nde clases.
# de clases = 2 k 25
# de clases = 25 25
32 25
Por lo tanto el # de clases ser 5.
n

Otra forma de calcular el # de clases es


04/05/16

Cont. Orden de Datos


Una vez determinado el # de clases, pasamos a
determinar el ancho del intervalo para cada clase.
El Ancho del Intervalo (AI) se determina de la
siguiente manera:
AI =
AI =

(94 + 1) 53

= 8.3 9

5
Una vez determinado el ancho del intervalo,
pasamos a construir la Tabla de Frecuencias,
adjudicando cada observacin en cada clase o
categora.
04/05/16

10

Cont.Orden de Datos (Ej. Tabla


de Distribucin de
Frecuencias)
Clase Frecuen
Frec.
Frecuenc Frecuencia Puntos
s
cia
Relativ
ia
Acumulada Medios
(Nota Absolut a (% Absoluta
Relativa
(PM)
s)
a (#
Est.)
Acumula
Est.)
da
53-61

4/25=.
16

4/25=.16

57

62-70

3/25=.
12

7/25=.28

66

71-79

6/25=.
24

13

13/25=.52

75

80-88

8/25=.
32

21

21/25=.84

84

89-97

4/25=.

25

25/25=1.0

93

04/05/16

11

Cont. Orden de Datos


1. Frecuencia absoluta: Indica el nmero de veces
que se repite un valor de la variable.
2. Frecuencia relativa: Indica la proporcin con que
se repite un valor. Se obtiene dividiendo la
frecuencia absoluta entre el tamao de la
muestra. Para una mejor interpretacin es ms
conveniente mutiplicarla por 100 para trabajar
con una Frecuencia relativa porcentual.
3. Frecuencia absoluta acumulada: Indica el nmero
de valores que son menores o iguales que el
valor dado.
4. Frecuencia relativa porcentual acumulada: Indica
el porcentaje de datos que son menores o iguales
que el valor dado.
5. Puntos Medios (PM): Se determina sumando el
LI inferior
LS
lmite
con el lmite superior de cada
PM

clase, y2luego dividiendo entre dos.


04/05/16

12

Cont. Orden de Datos


D.

Representacin Grfica de los Datos

1.Histograma: Es la grfica de la tabla de


distribucin de
frecuencias para datos agrupados, la cul
consiste de
barras cuyas bases son los intervalos de clases
y cuyas
alturas son proporcionales a las frecuencias
absolutas (o
relativas) de los correspondientes intervalos.

Ver las siguientes grficas


04/05/16

13

Histograma de Frecuencia
Absoluta de las Notas de
los Estudiantes
Frecuencia
Absoluta
(# de
estudiantes)

Clases (Notas de los


Estudiantes)

Histograma de Frecuencia
Relativa de las Notas de
los Estudiantes
Frecuencia
Relativa
(% de
estudiantes)

Clases (Notas de los Estudiantes)

Cont. Orden de Datos


2. Polgono de Frecuencias:
Aunque se utilizan menos, los polgonos de
frecuencias son otra forma de representar
grficamente distribuciones de frecuencias.
Para construir un polgono de frecuencias,
siyuamos las frecuencias en el eje de y (eje
vertical), y los valores de la variable que
estamos midiendo en el eje de x (eje
horizontal) de la grfica.
El polgono de frecuencias utiliza los puntos
medios (PM) en el eje de x (eje horizontal) .
04/05/16

16

Polgono de Frecuencia
Absoluta de las Notas de los
Estudiantes

Polgono de Frecuencia
Relativa de las Notas de
los Estudiantes

Cont. Orden de Datos


3. Ojiva:
La grfica de una distribucin de frecuencias
acumulativas se conoce como ojiva.
Una distribucin de frecuencias acumulativas nos
permite ver cuntas observaciones (o datos)
estn por encima o por debajo de ciertos valores.
Puede ser de frecuencias acumulativas absolutas
o de frecuencias acumulativas relativas.
Para construir una ojiva utilizamos los valores de
las frecuencias acumulativas en el eje de y (eje
vertical), y los valores de los lmites inferiores
menor que en el eje de x (eje horizontal)

04/05/16

19

Cont. Orden de Datos


Debemos aadir dos columnas a nuestra
tabla de Distribuciones de Frecuencias:
Clases
(Notas
)

Frecuencia
Absoluta (#
Est.)

Frec.
Acumulativa
Absoluta
< que

Frec.
Acumulativa
Relativa
< que

53-61

53--- 0

53--- 0.00

62-70

62--- 4

62--- 0.16

71-79

71--- 7

71--- 0.28

80-88

80--- 13

80--- 0.52

89-97

89--- 21

89--- .84

Total

25

98--- 25

98---1.00

04/05/16

20

Ojiva de Frecuencia
Acumulativa Absoluta

Ojiva de Frecuencia
Acumulativa Relativa

II. Medidas de Tendencia


Central
La tendencia central se refiere al punto
medio de una distribucin.
Las medidas de tendencia central se conocen
tambin como medidas de posicin.
Las medidas de tendencia central dan una
idea del centro de la distribucin de los
datos.
Las principales medidas de este tipo son la
media o promedio aritmtico, la mediana, la
moda.

04/05/16

23

Cont. Medidas de Tendencia


Central
A. La media aritmtica o simplemente
promedio
(para una muestra de datos
no agrupados) se calcula de la siguiente
forma:

x
X
n

Para una poblacin:

04/05/16

24

Cont. Medidas de Tendencia


Central
53 58 60 61 64 69 70 72 73 75
75 76 78 80 82 84 84 84 87 87
x 88 89 91 93 94
x

n
25
655 817 455 1927
x

77.08 77.10 77
25
25
La media o promedio se obtiene
sumando
todos los datos y dividiendo entre el nmero
de datos.
04/05/16

25

Cont. Medidas de Tendencia


Central
Para calcular la media aritmtica de
una muestra de datos agrupados se
calcula utilizando la siguiente frmula:

F PM

x
n

Para calcular la media aritmtica de


una poblacin de datos agrupados se
calcula utilizando la siguiente frmula:

F PM

04/05/16

26

Cont. Medidas de
Tendencia Central
Clases Frecuenc
(Notas
ia
)
Absoluta
(# Est.)

Puntos
Medios
(PM)

(F x PM)

Frecuencia
Acum.
(Frec.
Acum.)

53-61

57

(4)
(57)=228

62-70

66

(3)
(66)=198

71-79

75

(6)
(75)=450

13 (m)

80-88

84

(8)
(84)=672

21 (Mo)

89-97

93

(4)
(93)=372

25

04/05/16

Total

25

= 1920

27

Cont. Medidas de
Tendencia Central
Utilizando la Frmula para calcular la media
aritmtica muestral para datos agrupados,
obtenemos:

F PM

x
n

04/05/16

1920

76.8 77
25

28

Cont. Medidas de Tendencia


Central
B. La mediana es el elemento central del
conjunto de datos.
Por definicin:m% n 1
2
Esta es la frmula para Datos No-Agrupados)
La mediana es aquel valor que deja el
cincuenta por ciento de los datos por debajo y
otro cincuenta por encima.
Cabe destacar que es preferible el uso de la
mediana como medida descriptiva del centro
cuando se quiere reducir o eliminar el efecto
de valores extremos en un conjunto de datos
(muy grandes o muy pequeos).

04/05/16

29

Cont. Medidas de
Tendencia Central
Mediana para Datos No-Agrupados:
n 1
Por definicin la mediana
es
m%
2

En nuestro caso sera:

n 1 25 1 26
m%

13
2
2
2
La mediana es el elemento nmero 13 del conjunto de datos.
En este caso la mediana es m%= 78
04/05/16

30

Cont. Medidas de Tendencia


Central
Para Datos Agrupados calculamos la mediana
con la siguiente frmula:

n 1

m%
w Lm%
f m%

Donde:
n=
# de datos
F = suma de todas las frecuencias hasta la clase donde se
encuentra la
mediana pero sin incluirla.
f m=
frecuencia de la clase donde se encuentra la
mediana.
w=
ancho del intervalo
Lm=lmite inferior de la clase donde se encuentra la
mediana.

04/05/16

31

Cont. Medidas de Tendencia


Central
En nuestro ejemplo, calculamos la mediana
de la siguiente manera:
25 1

n 1



2 F 1
2

9 69
m
w

m
f m%
6

26

(8)
2

13 8
5

m
9 69
9 69
9 69

6
6

% (.83)(9) 69 7.5 69 76.5 77


m
04/05/16

32

Cont. Medidas de Tendencia


Central
C. La Moda: Es el dato que ms se repite
en un conjunto.
Para datos no agrupados podemos
determinarla por observacin.
En nuestro ejemplo de las notas de los
estudiantes, la moda es Mo= 84.
El conjunto de datos puede tener una
moda mltiple o multimodal.

04/05/16

33

Cont. Medidas de Tendencia


Central

Para datos agrupados, podemos determinar


la moda utilizando la siguiente frmula:

d1

w LM
M o

d
2
1
Donde:
d1= diferencia entre la frecuencia de la
clase modal y la frecuencia de la clase
anterior

d2=
diferencia entre la frecuencia de la clase
modal y la frecuencia de la clase
siguiente.

w=
ancho del intervalo

LMo= limite inferior de la clase modal

04/05/16

34

Cont. Medidas de Tendencia


Central
En nuestro ejemplo, calculamos la moda de
la sigueinte manera:

d1
Mo
w LM
d1 d 2
2

Mo
9 80
2 4

04/05/16

(8 6)

9 80
(8 6) (8 4)
2
9 80 3 80 83
6

35

III. Medidas de Variabilidad


(Dispersin)

La localizacin o tendencia central de un


conjunto de datos no necesariamente
proporciona informacin suficiente para
describirlos adecuadamente.
Debido a que no todos los valores son
semejantes, la variacin entre ellos se
considera importante.
Las medidas de variabilidad expresan el
grado de concentracin o dispersin de
los datos con respecto al centro de la
distribucin.

04/05/16

36

Cont. Medidas de
Variabilidad (Dispersin)
Estas medidas no proporcionan
informacion adicional que nos permite
juzgar la confiabilidad de nuestra medida
de tendencia central.
Por ejemplo; si los datos se encuentran
ampliamente dispersos, la posicin
central es menos representativa de los
datos como un todo.

04/05/16

37

Cont. Medidas de Variabilidad


(Dispersin)
Se puede decir que un conjunto de datos
tiene una dispersin reducida si los mismos
se aglomeran estrechamente en torno a
alguna medida de localizacin de inters, y
se dice que tiene una dispersin grande si
se esparcen ampliamente alrededor de
alguna medida de localizacin de inters.
Entre las principales medidas de este tipo
estn el rango, la varianza, la desviacin
estndar, y el coeficiente de variacin.
04/05/16

38

Cont. Medidas de
Variabilidad (Dispersin)
A. Rango: es la medida de variabilidad ms sencilla
entre todas las mencionadas; y se define como la
diferencia entre la observacin ms grande y la ms
pequea :
Esta medida de distancia se calcula de la siguiente
manera:

Rango = Dato mayor Dato menor


Es fcil de entender
Tiene poca utilidad como medida de dispersin (solo
toma en cuenta valores extremos)
Ignora la naturaleza de la variacin entre las dems
observaciones del conjunto.
Se ve muy influenciado poor valores extremos.
04/05/16

39

Cont. Medidas de
Variabilidad (Dispersin)
En general, se desea una medida de variabilidad
que utilice todas las observaciones y no slo
algunas de ellas; por lo tanto parece razonable
medir la variacin en trminos de las desviaciones
relativas a alguna medida de localizacin,
(generalmente esta medida es la media)
Para el conjunto de datos x1, x2,.,xn
Las diferencias determinan las desviaciones de la
media.
Dado que la suma de estas desviaciones es cero,
se utiliza como medida de variabilidad el
promedio de los cuadrados de tales desviaciones.
04/05/16

40

Cont. Medidas de
Variabilidad (Dispersin)
Para describir la dispersin de una manera
ms amplia y comprehensiva, utilizamos
aquellas medidas que se relacionan con
desviaciones promedio a partir de alguna
medida de tendencia central.
Existen dos medidas de variabilidad que
utilizaremos, y se denominan la varianza y
la desviacin estndar.
Ambas medidas nos dicen la distancia
promedio de cualquier dato en el conjunto a
partir de la media aritmtica de la
distribucin.
04/05/16

41

Cont. Medidas de
Variabilidad (Dispersin)
B. Varianza
La siguiente frmula calcula la Varianza para una
muestra de datos No -Agrupados:
2

(
x

x
)
x2
n 1

La siguiente frmula calcula la Varianza para una


poblacin de datos No -Agrupados:

(
x

)
Ver
ejemplo:

N
2

04/05/16

42

Cont. Medidas de
Variabilidad (Dispersin)
x x

77

x x
-24

58

77

-19

361

60

77

-17

289

61

77

-16

256

64

77

-13

169

69

77

-8

64

70

77

-7

49

72

77

-5

25

73

77

-4

16

75

77

-2

53

576

=1809
04/05/16

43

Cont. Medidas de
Variabilidad (Dispersin)
x x

77

x x
-2

76

77

-1

78

77

80

77

82

77

25

84

77

49

84

77

49

84

77

49

87

77

10

100

87

77

10

100

75

=387
04/05/16

44

Cont. Medidas de
Variabilidad (Dispersin)
x x

88

77

x x
11

89

77

12

144

91

77

14

196

93

77

16

256

94

77

17

289

121

= 1006

04/05/16

45

Cont. Medidas de
Variabilidad (Dispersin)
En nuestro ejemplo, calculamos la varianza
muestral para datos no-agrupados de la
siguiente manera:

s
2

2
(X

X)

1809 387 1006

25 1

n-1
3202
2
s
133.41
24

04/05/16

46

Cont. Medidas de
Variabilidad (Dispersin)
Usando nuestro ejemplo, calculamos la
varianza muestral para datos agrupados de
la siguiente manera:
Frec.
Absol
uta
(F)

Puntos
Medios
(PM)

( PM x )

( PM x )

57

77

57-77=20

400

4(400)=16
00

66

77

66-77=11

121

3(121)=36
3

75

77

75-77=-2

6(4)= 24

84

77

84-77=7

49

8(49) =
392

93

77

93-77=16

256

04/05/16

F ( PM x )2

4(256)=10
47
24

Cont. Medidas de
Variabilidad (Dispersin)
s

F PM x

n 1

3403

25 1

3403
s
141.80
24
2

04/05/16

48

Cont. Medidas de
Variabilidad (Dispersin)
Como S2 (Varianza muestral) no tiene las
mismas unidades que los datos, se define
la desviacin estndar como la raz
cuadrada (positiva) de la varianza, a fin de
tener una medida en las mismas unidades
de los datos.
La desviacin estndar es til para
comparar dispersin entre dos poblaciones,
pero tambin lo es para calcular el
porcentaje de la poblacin que puede
localizarse a menos de una distancia
especfica de la media.
04/05/16

49

Cont. Medidas de
Variabilidad (Dispersin)
B. La Desviacin Estndar muestral, es la
Raz Cuadrada de la Varianza muestral.

s s

En nuestro ejemplo:

La desviacin estandar de la muestra para datos no-agrupados:


s= s 2 133.41 11.55
La desviacin estandar de la muestra para datos agrupados:
s= s 2 141.80 11.91
04/05/16

50

Cont. Medidas de
Variabilidad (Dispersin)
Calculamos la Desviacin Estndar de la
Poblacin de la sigueinte manera:
Es la raz cuadrada de la varianza de la
poblacin.

04/05/16

51

Cont. Medidas de
Variabilidad (Dispersin)
Usos de la Desviacin Estndar:
1. Nos permite determinar con cierto grado de
precisin
(exactitud) donde estn localizados los
valores de una
distribucin de frecuencias con
relacin a la media.
Esto lo podemos hacer utilizando el Teorema de
Chebyshev (Matemtico ruso 18211894) el cul dice
que:
No importa cual sea la forma de la distribucin:
- por lo menos 75% de los valores caen dentro de
2 desviaciones estndar a partir de la media de la
distribucin.
- por lo menos 89% de los valores caen dentro de
3 desviaciones estndar a partir de la media de la
distribucin.
04/05/16

52

Cont. Medidas de
Variabilidad (Dispersin)
Cont. Usos de la Desviacin Estndar
2. Podemos medir an con mayor precisn
el porciento de
datos que caen dentro
de rangos especficos bajo una
curva
simtrica.
Utilizando la Regla Emprica podemos
aproximar la variacin de los datos en una
curva simtrica:
04/05/16

53

La Regla Emprica
La Regla Emprica aproxima la variacin de los datos
de distribuciones que tienen forma de campana.

04/05/16

54

Cont. La Regla Emprica


Aproximadamente 68% de los datos en un
adistribucin en forma de campana cae
dentro de una desviacin estndar de la
media. ( )
Aproximadamente el 95% de los datos en
una distribucin en forma de campana caen
dentro de dos deviaciones etstndar. (
2)
Aproximadamente el 99.7% de los datos en
una distribucin en forma de campana caen
dentro de tres deviaciones etstndar. (
3)
04/05/16

55

Cont. Medidas de
Variabilidad (Dispersin)
Cont. Usos de la Desviacin
Estndar
3. La desviacin estndar es til para
descubrir cun
distantes se encuentra cada
dato a partir de la media de la distribucin.
Para calcular esta distancia utilizamos la
siguiente frmula:
Puntuacin Estndar =
Veamos el siguiente ejemplo:
04/05/16

56

Cont. Medidas de
Variabilidad (Dispersin)
Determine la Puntuacin Estndar(z) para
los siguientes datos:( x= 58; x=75)
xx
58 77
19
PE

1.65
s
11.55
11.55
desviaciones estndar a la izquierda
de la media aritmtica.
xx
75 77
2
PE =

.17
s
11.55
11.55
desviaviones estndar a la izquierda
de la media aritmtica.
04/05/16

57

Cont. Medidas de Variabilidad


Comparando la Desviacin
Estndar
Desviacin estndar
pequea
Desviacin estndar
grande

04/05/16

Chap 3-58

Cont. Medidas de Variabilidad


Resumen de las
Caracatersticas
Mientras ms dispersos los datos, mayor
el rango, la varianza y la desviacin
estndar.
Mientras ms concentrados los datos,
ms pequeo el rango, la varianza y la
desviacin estndar.
Si los valores son iguales a la media (no
existe variacin), todas las medidas
sern igual a cero.
Ninguna de estas medidas sern
negativas.
04/05/16

59

D. Dispersion Relativa
Es una medida de dispersin que nos
permite determinar la magnitud de la
desviacin en relacin a la magnitud de la
media.
Es una medida de dispersin relativa que
relaciona la desviacin estndar y la media,
expresando la desviacin estndar como un
porcentaje
s de la media.

CV

100
x

04/05/16

60

SBAXSX
$
5
CCVV
101%
0%
$5101%
0(.5()101)0%
%
Cont. Dispersin
Relativa

Accin A:
Precio promedio el ao pasado
Ambas
= $50
acciones
Desviacin estndar = $5
tienen la
misma
desviaci
n
estndar,
Accin B:
pero la
Precio promedio el ao pasado accin B
= $100
es menos
Desviacin estndar = $5
variable
a suChap 3-61
precio.

Como localizar Valores


Extremos (Outliers) no
Representativos
Para computar la Puntuacin Z (Z-score) de un
valor especfico del conjunto de datos, reste el
mismo de la media y divida entre la desviacin
estndar.
La Puntuacin Z as el nmero de desviaciones
estndar que el valor del conjunto de datos
se separa de la media.
Un valor del conjunto de datos es considerado
un valor extremo (outlier) si su puntuacin Z
es menor de -3.0 o mayor de +3.0.
Mientras mayor su valor absoluto de
puntuacin Z, ms lejos de la media se
encuentra.
04/05/16

62

Como localizar Valores Extremos


(Outliers) no Representativos
X X
Z
S
Donde: X
= representa el valor
del dato
x
= es la media muestral
S = es la desviacin estndar
muestral
04/05/16

63

Ej. Como localizar Valores


Extremos (Outliers) no
Representativos
Suponer que la media de una puntuacin
del SAT es 490, con una desviacin
estndar de 100. Computar la puntuacin z
para una puntuacin en la prueba de 620.

X X 620 490 130


Z

1.3
S
100
100
Una puntuacin de 620 est a 1.3

desviaciones estndar sobre la media y no


se considera un valor extremo (outlier).
04/05/16

64

Formas de una
Distribucin

Estas describen como los datos de


distribuyen.
Miden la forma
Simtrica o sesgada (skewed)
Sesgada Izq.
Media < Mediana

04/05/16

Simtrica

Sesgada Der.

Media = Mediana

Mediana < Media

65

RESUMEN
1. Conocimos tcnicas utilizadas para
organizar datos en
tablas.
2. Aprendimos a calcular medidas
estadsticas tales como:
- Media aritmtica
- Mediana
- Moda
- Varianza
- Desviacin estndar
- Coeficiente de variacin.
04/05/16

66

Вам также может понравиться