Вы находитесь на странице: 1из 55

Estatstica Descritiva

Prof. Victor Hugo Lachos Davila


AULA1-AULA5
2
oO que a estatstica ?
Para muitos, a estatstica no passa de conjuntos
de tabelas de dados numricos. Os estatsticos so
pessoas que coletam esses dados.
A estatstica originou-se com a coleta e construo
de tabelas de dados para os governos
A situao evoluiu e esta coleta de dados
representa somente um dos aspectos da estatstica.
3
Definio de Estatstica
A estatstica um conjunto de tcnicas que permite,
de forma sistemtica, organizar, descrever, analisar e
interpretar dados oriundos de estudos ou
experimentos, realizados em qualquer rea do
conhecimento.
4
reas da Estatstica
1.- Estatstica Descritiva
2.- Probabilidade
3.- Inferncia estatstica
5
ESTATSTICA DESCRITIVA
A estatstica descritiva a etapa inicial da anlise
utilizada para descrever e resumir os dados. A
disponibilidade de uma grande quantidade de dados
e de mtodos computacionais muito eficientes
revigorou est rea da estatstica.
6
PROBABILIDADE
A teoria de probabilidades nos permite
descrever os fenmenos aleatrios, ou
seja, aqueles em que est presente a
incerteza.
7
INFERENCIA ESTATISTICA
E o estudo de tcnicas que possibilitam a
extrapolao, a um grande conjunto de
dados, das informaes e concluses
obtidas a partir da amostra.
8
Etapas da Analise
Estatstica
9
AMOSTRAGEM
Uma rea importante em muitas aplicaes Estatsticas a da Tecnologia de
Amostragem.
Exemplos de Aplicao:
Pesquisa de mercado,
Pesquisa de opinio,
Avaliao do processo de produo,
Praticamente em todo experimento.
10
Amostragem Aleatria
Cada elemento da populao tem a
mesma chance de ser escolhido.
Amostragem Estratificada
Classificar a populao em, ao
menos dois estratos e extrair uma
amostra de cada um.
Amostragem Sistemtica
Escolher cada elemento de ordem k.
11
Amostragem por Conglomerados
Dividir em sees a rea populacional,
selecionar aleatoriamente algumas dessas
sees e tomar todos os elementos das
mesmas.
Amostragem de Convenincia
Utilizar resultados de fcil acesso.
12
Exemplo 1
Numa pesquisa eleitoral, um instituto de pesquisa
procura, com base nos resultados de um
levantamento aplicado a uma amostra da
populao, prever o resultado da eleio.
13
Na eleio Presidencial
Os Institutos de Pesquisa de opinio
colhem periodicamente amostras de
eleitores para obter as estimativas de
inteno de voto da populao. As
estimativas so fornecidas com um valor e
uma margem de erro.
O quadro do Instituto Toledo &
Associados, a seguir refere-se inteno
de voto no 1 turno das eleies para o
governo em 2002.
14
Inteno de voto para presidente do Brasil-2002
Voto estimulado,em % do total de votos.A ultima pesquisa
ouviu 2.202 eleitores- Margem de erro de 2,09%
Fonte:Pesquisa toledo& Associados.
Mai o Jul /Ago Set/Out
Juni o
34,9% 40,5%
33,6%
46,3%
13,8%
12,1%
34,3%
11,3%
22,8%
23,3%
13,8%
17,6%
12,6%
10,5%
9,0%
14,8%
Lula(PT)
Serra(PSDB)
Ciro(PPS)
Garotinho(PSB)
15
Confronto no segundo turno.
Grfico de setores ou em forma de pizza
16
N
o
Estado
Civil
Grau de
Instruo
No de
filhos
Salrio (X
Sal. Min)
Idade
anos meses
Regio de
procedncia
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
Solteiro
Casado
Casado
Solteiro
Solteiro
Casado
Solteiro
Solteiro
Casado
Solteiro
Casado
Solteiro
Solteiro
Casado
Casado
Solteiro
Casado
Casado
Solteiro
Solteiro
Casado
Solteiro
Solteiro
Casado
Casado
Casado
Solteiro
Casado
Casado
Casado
Solteiro
Casado
Casado
Solteiro
Casado
Casado
1
0
grau
1
0
grau
1
0
grau
2
0
grau
1
0
grau
1
0
grau
1
0
grau
1
0
grau
2
0
grau
2
0
grau
2
0
grau
1
0
grau
2
0
grau
1
0
grau
2
0
grau
2
0
grau
2
0
grau
1
0
grau
Superior
2
0
grau
2
0
grau
2
0
grau
1
0
grau
Superior
2
0
grau
2
0
grau
1
0
grau
2
0
grau
2
0
grau
2
0
grau
Superior
2
0
grau
Superior
Superior
2
0
grau
Superior
-
1
2
-
-
0
-
-
1
-
2
-
-
3
0
-
1
2
-
-
1
-
-
0
2
2
-
0
5
2
-
1
3
-
2
3
4,00
4,56
5,25
5,73
6,26
6,66
6,86
7,39
7,59
7,44
8,12
8,46
8,74
8,95
9,13
9,35
9,77
9,80
10,53
10,76
11,06
11,59
12,00
12,79
13,23
13,60
13,85
14,69
14,71
15,99
16,22
16,61
17,26
18,75
19,40
23,30
26 03
32 10
36 05
20 10
40 07
28 00
41 00
43 04
34 10
23 06
33 06
27 11
37 05
44 02
30 05
38 08
31 07
39 07
25 08
37 04
30 09
34 02
41 00
26 01
32 05
35 00
46 07
29 08
40 06
35 10
31 05
36 04
43 07
33 07
48 11
42 02

Interior
Capital
Capital
Outro
Outro
Interior
Interior
Capital
Capital
Outro
Interior
Capital
Outro
Outro
Interior
Outro
Capital
Outro
Interior
Interior
Outro
Capital
Outro
Outro
Interior
Outro
Outro
Interior
Interior
Capital
Outro
Interior
Capital
Capital
Capital
Interior

Tabela 1.1 Informao do estado civil, grau de instruo, nmero de filhos, idade e procedncia de 36
funcionrios sorteados ao acaso da empresa MB.(Bussab e Morettin)
17
18
Varivel
Qualquer caracterstica associada a uma populao
Classificao de variveis
Quantitativa
{
{
Qualitativa
Nominal sexo, cor dos olhos
Ordinal
Classe social, grau de instruo
Contnua
Discreta
Peso, altura,salario
Nmero de filhos, numero de
carros
19
Variveis Quantitativas
MEDIDAS DE POSIO: Moda, Mdia, Mediana, Percents,
Quartis.

MEDIDAS DE DISPERSO: Amplitude, Intervalo-Interquartil,
Varincia, Desvio Padro, Coeficiente de Variao.
Medidas Resumo
20
Medidas de Posio
Moda(mo): o valor (ou atributo) que
ocorre com maior freqncia.Moda
Ex: 4,5,4,6,5,8,4,4
Mo = 4
Variavel
qualitativa
21
Mdia
n n
x
n
i
i
n
x
x x x x

=
=
+ + + +
=
1 3 2 1
...
Ex:2,5,3,7,8
Mdia = [(2+5+3+7+8)/5]=5
22
Mediana
A mediana o valor da varivel que ocupa a
posio central de um conjunto de n dados
ordenados.
Posio da mediana: (n+1)/2
Ex: 2,5,3,7,8
Dados ordenados: 2,3,5,7,8 => (5+1)/2=3
=> Md = 5
Ex: 3,5,2,1,8,6
Dados ordenados:1,2,3,5,6,8 =>
(6+1)/2=3,5 => Md=(3+5)/2=4

23
Percentis
O percentil de ordem px100 (0<p<1), em um
conjunto de dados de tamanho n, o valor da
varivel que ocupa a posio px(n+1) do conjunto
de dados ordenados.
O percentil de ordem p (ou p-quantil) deixa
px100% das observaes abaixo dele na amostra
ordenada.
Casos Particulares:
Percentil 50 = mediana, segundo quartil(md,Q2,q(0,5))
Percentil 25= primeiro quartil (Q1), q(0,25)
Percentil 75= terceiro quartil (Q3) , q(0,75)
24
Exemplos

Ex(1): 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7
=>n=10
Posio Md:0,5(n+1)=0,5x11=>Md=(3+3,1)/2=3,05
Posio de Q1:0,25(11)=2,75=> Q1=(2+2,1)/2=2,05
Posio de Q3:0,75(11)=8,25=>Q3=(3,7+6,1)/2=4,9
Ex(2):0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6
=>n=11
Md=5,3 Q1=1,7 Q3=12,9
25
Exemplo 2: Considere as notas de um teste de 3 grupos de alunos:

Grupo 1: 3, 4, 5, 6, 7; Grupo 2: 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5.












G1
0 10
0
10
0 10
5
G2
G3
5 5 x : Temos
3 3 1 3 3 1
= = = = = = Md Md Md x x
26
Medidas de Disperso
Finalidade: encontrar um valor que resuma a
variabilidade de um conjunto de dados
Amplitude (A): A=mx-min
Para os grupos anteriores, temos:
Grupo 1, A=4
Grupo 2, A=8
Grupo 3, A=0
27
Intervalo-Interquartil (d)
a diferena entre o terceiro quartil e o primeiro
quartil, ou seja,
d= Q3-Q1
Ex(1): 15,5,3,8,10,2,7,11,12
Q1=4,5 e Q3=11,25

d =Q3-Q1=4,9-2,05=2,85
Max,Min,Q1,Q3,Q2: importantes para se ter uma boa ideia da
forma dos dados (simetrica ou assimetrica) e construir box-plots
28
Varincia
( )
1 1
...
1
2
2 2 2
2
) ( ) ( ) (
2 1

+ + +
=


=
n
x x
n
S
n
i
i
x
x
x
x
x
x
n
Desvio padro S
Varincia = S : Padro Desvio
29
Clculo da varincia para o grupo 1:
G1:3, 4, 5, 6, 7: Vimos que:
5 , 2
4
10
1 5
) 5 7 ( ) 5 6 ( ) 5 5 ( ) 5 4 ( ) 5 3 (
2 2 2 2 2
2
= =

+ + + +
= S
5 = x
Desvio padro
58 , 1 5 , 2 = = S
0 0 : 3
16 , 3 10 : 2
58 , 1 5 , 2 : 1
2
2
2
= =
= =
= =
S S G
S S G
S S G
30
Coeficiente de Variao (CV)
uma medida de disperso relativa;
Elimina o efeito da magnitude dos dados;

Exprime a variabilidade em relao a mdia
% 100 =
X
S
CV

til Comparar duas ou mais variveis
31
Exemplo 4: Altura e peso de alunos
Concluso: Com relao as mdias, os alunos so,
aproximadamente, duas vezes mais dispersos quanto ao peso
do que quanto a altura
Mdia Desvio padro Coeficiente de
variao
Altura 1,143m 0,063m 5,5%
Peso 50Kg 6kg 12%
32
ORGANIZAO E REPRESENTAO DOS DADOS
Uma das formas de organizar e resumir a informao contida em
dados observados por meio de tabela de freqncias e grficos.
Tabela de freqncia: relaciona categorias (ou classes) de valores,
juntamente com contagem (ou freqncias) do nmero de valores que
se enquadram em cada categoria ou classe.
1. Variveis qualitativas: Podemos construir tabela de freqncia
que os quantificam por categoria de classificao e sua
representao grfica mediante grfico de barras, grfico setorial
ou em forma de pizza.
33
Exemplo 1: Considere ao varivel grau de Instruo dos dados da
tabela 1.(Varivel qualitativa)
:Frequncia absoluta da categoria i (nmero de indivduos
que pertencem categoria i
n
f
f
i
r
i
= : Frequncia relativa da categoria i
i
f
33,3%
% 100 * %
i i
r r
f f =
: Frequncia relativa percentual da categoria i
Grau de
instruo
1o Grau
2o Grau
Superior
total
Contagem
12
18
6
n=36
0,3333
0,5000
0,1667
1,0000
i
f
i
r
f %
i
r
f
50 %
16.7%
100%
Tabela de freqncia
34
Diagrama de barras para a varivel
grau de instruo
33,33%
50,00%
16,70%
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
1o Grau 2o Grau Superior
Representao grfica de variveis qualitativas
Grfico de Barras
Diagrama circular, de sectores ou em forma de pizza

35
1 o G r a u ( 3 3 . 3 % )
S u p e r i o r ( 1 6 . 7 % ) 2 o G r a u ( 5 0 . 0 % )
D i a g r a m a c i r c u l a r p a r a a v a r i a v e l g r a u d e i n s t r u o
Diagrama circular para a varivel grau de
instruo
1o Grau
33%
2o Grau
50%
Superior
17%
36
2. Organizao e representao de variveis quantitativas
2.1 Quantitativas discretos: Organizam-se mediante tabelas de
frequncias e a representao grfica mediante grfico de
barras
Exemplo: Considere a varivel nmero de filhos dos dados da tabela 1.

Tabela 2.1:Distribuio de freqncias de funcionrios da empresa,
segundo o nmero de filhos

i Nmero de
filhos
(X
i
)
Nmero de
funcionrios
(f
i
)
% de funcionrios
(f
ri
)
1 0 4 20%
2 1 5 25%
3 2 7 35%
4 3 3 15%
5 5 1 5%
total 20 100%

37
Representao grfica : Diagrama de Barras
0 1 2 3 4 5
5
1 5
2 5
3 5
N m e r o
d e f i l h o s
%


d

e


f
u

n

c
i
o

n


r
i
o

s

2 0 %
2 5 %
3 5 %
1 5 %
5 %
Observao 1: A partir da tabela 2.1 podemos recuperar as 20
observao da tabela 1.1, ou seja, aqui no temos perda de
informao dos dados originais.
Mo=2
38
Determinao das medidas de posio e medidas de disperso para
variveis quantitativas discretas agrupados em tabela de freqncias:
n
f X
n
f X f X f X
X
k
i
i i
k k

=
=
+ + +
=
1 2 2 1 1

Mdia:
Exemplo: Considere a tabela 2.1 e determine a mdia de filhos dos
funcionrios.
65 , 1
20
33
20
1 5 3 3 7 2 5 1 4 0
= =
+ + + +
= X
Mediana:
Dados ordenados:
0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 =>
(20+1)/2=10,5 => Md = (2+2) /2=2
39
Varincia:
1
) (
1
) ( ) ( ) (
1
2
2
2
2
2 1
2
1 2

+ + +
=

=
n
f X X
n
f X X f X X f X X
S
k
i
i i
k k

0,858553
19
16,3125
19
) 65 , 1 5 ( ) 65 , 1 3 ( 3 ) 65 , 1 2 ( 7 ) 65 , 1 1 ( 5 ) 65 , 1 0 ( 4
2 2 2 2 2
2
= =
+ + + +
= S
Clculo da varincia para os dados da tabela 2.1
Desvio padro:
0,927 0,858553
2
= = = S S
40
2.2 Quantitativas continuas: Os seus valores podem ser qualquer
nmero real e ainda geralmente existe um grande nmero de
valores diferentes. Como proceder a construir uma tabela de
frequncia nestes casos?
A alternativa consiste em construir classes ou faixas de valores e
contar o nmero de ocorrncias em cada faixa
No caso da variavel salario podemos considerar as seguintes
faixas de valores: [4,0; 7,0); [7,0;10,0);......
NOTAO: 4,0|----7,0
41
2.2 Procedimento de construo de tabelas de freqncia para
variveis contnuas:

1. Escolha o nmero de intervalos de classe (k)
2. Identifique o menor valor (MIN) e o valor mximo (MAX) dos
dados.
3. Calcule a amplitude dos dados (A): A=MAX MIN
4. Calcule o comprimento de cada intervalo de classe (h):

5. Arredonde o valor de h de forma que seja obtido um nmero
conveniente.
6. Obtenha os limites de cada intervalo de classe.


k
A
h =
h LI
MIN
+ =
=
1 1
1
LS : superior Limite
LI : inferior Limite
: INTERVALO PRIMEIRO
42
h LI
LS
h LI
LS
INTERVALO SEGUNDO
k
k
+ =
=
+ =
=

k
1 k
2 2
1 2
LS : superior Limite
LI : inferior Limite
: INTERVALO SIMO - k
LS : superior Limite
LI : inferior Limite
:
7. Construa uma tabela de freqncias, constituda pelas seguintes
colunas:
Nmero de ordem de cada intervalo (i)
Limites de cada intervalo. Os intervalos so fechados
esquerda e aberta direita: NOTAO:|----
43
Ponto mdio (ou marca de classe) de cada intervalo de classe:
2
i i

LI LS
X
+
=
Contagem dos dados pertencentes a cada intervalo.
Freqncias absolutas de cada intervalo de classe.
Freqncias relativas de cada intervalo de classe.
Freqncias acumuladas absolutas de cada intervalo de classe.


Freqncias acumuladas relativa de cada intervalo de classe.

=
= + + + =
i
j
j i i
f f f f F
1
2 1

n
F
F ou f f f f F
i
r
i
j
r r r r r
i j i i
= = + + + =

=
;
1
2 1

44
Exemplo: Considere a varivel salrio da empresa comercializadora de
produtos de informtica.
Procedimento:
1. Considere k=5.
2. MIN=4; MAX=23,30.
3. A=MAX-MIN=23,30-4=19,30
4. h=19,3/5=3,86
5. h~3,9
6. Clculo dos limites de cada intervalo:
8 , 11 9 , 3 9 , 7 LS
9 , 7 LI
INTERVALO SEGUNDO
9 , 7 9 , 3 4 LS
4 LI
INTERVALO PRIMEIRO
2
2
1
1
= + =
=
= + =
=
Os demais limites dos intervalos foram gerados seguindo o
procedimento anterior.
45
Ponto mdio:
( ) ( )
9,85.....
2
8 , 11 9 , 7
; 95 , 5
2
9 , 7 4

1
=
+
= =
+
= X X
De forma similar obtm-se os outros pontos mdios.

i Intervalos
de classe
Ponto mdio
(X
i
)
Freqncia
Absoluta (f
i
)
Freqncia
Relativa ) (
i
r
f

Freqncia
Acumulada
Absoluta (F
i
)
Freqncia
Acumulada
Relativa ) (
i
r
F
1 4,0 |-- 7,9 5,95 10 0,277778 10 0,277778
2 7,9 |-- 11,8 9,85 12 0,333333 22 0,611111
3 11,8 |-- 15,7 13,75 7 0,194444 29 0,805556
4 15,7 |-- 19,6 17,65 6 0,166667 35 0,972222
5 19,6 |-- 23,5 21,55 1 0,027778 36 1
Total 36 1,000000

Tabela 2.2: Distribuio de freqncias da varivel salrio.
46
Representao grfica:
Histograma de freqncias relativas (em %) para a varivel salrio
4 . 0 7 . 9 1 1 . 8 1 5 . 7 1 9 . 6 2 3 . 5
0
1 0
2 0
3 0
S a l r i o
%


d

e


f
u

n
c

i
o

n


r
i
o

s

1 9 . 4 4 %
1 6 , 6 7 %
2 , 7 %
2 7 , 7 8 %
3 3 , 3 3 %
47
Histograma de freqncia acumulada relativa (em %)
4.0 7.9 11.8 15.7 19.6 23.5
0
50
100
Salario
F
r
e
q
u

n
c
i
a

a
c
u
m
u
l
a
d
a

p
e
r
c
e
n
t
u
a
l

(
%
)
27,78%
61,11%
80,56%
97,22%
100%
Aprox. 61% dos empregados
possuim salrio inferior a 12
salarios mnimos
Aprox. 19% dos empregados possuim
salrio superior a 16 salrios mnimos
48
4 00 56
5 25 73
6 26 66 86
7 39 44 59
8 12 46 74 95
9 13 35 77 80
10 53 76
11 06 59
12 00 79
13 23 60 85
14 69 71
15 99
16 22 61
17 26
18 75
19 40
20
21
22
23 30


Grfico de Ramo e Folhas: Varivel salrio
Valores concentrados entre 4 e 19
Leve assimetria na direo dos valores
grandes( assimtrica direita)
Destaque do valor 23.30

49
Medidas de posio e medidas de disperso para variveis
contnuas agrupadas em tabela de freqncias.
Mdia:
n
f X
n
f X f X f X
X
k
i
i i
k k

=
=
+ +
=
1

2 1

1

11,15
35
401,4
36
1 55 , 21 6 65 , 17 7 75 , 13 12 85 , 9 10 95 , 5
= =
+ + + +
= X
Este resultado difere do valor obtido anteriormente. Porque?
Se calculamos a mdia para dados no agrupados apresentadas
anteriormente resulta:
11,122
36
30 , 23 36 , 4 4
36
36 2 1
=
+ + +
=
+ + +
=
X X X
X
Exemplo: Considere a tabela 2.2
50
Varincia:
( )
1
2
1

=
n
X X f
S
k
i
i i
i Intervalos
de classe
X
i
f
i

( )
2

X X f
i i

1 4,0 |-- 7,9 5,95 10 270,40
2 7,9 |-- 11,8 9,85 12 20,28
3 11,8 |-- 15,7 13,75 7 47,32
4 15,7 |-- 19,6 17,65 6 253,50
5 19,6 |-- 23,5 21,55 1 108,16
Total 36 699,66

Exemplo: Considere a tabela 2.2. Vimos que
15 , 11 = X
( )
Padro) (Desvio 4,47105 S 19,99029
35
699,66
1 36
2
5
1

2
= = =

= i
i i
X X f
S
51
Esquema dos cinco nmeros
Extremos
Quartis
Mediana
x
(1)
x
(n)
Q1

Q3

Q2

n
Total Observaes
x
(1)
x
(n)
Q1

Q2

Q3

52
Boxplot
O BOXPLOT representa os dados atravs de um retngulo
construdo com os quartis e fornece informao sobre valores
extremos. (veja o esquema embaixo)
53
Exemplo de construo de um Boxplot. Com a finalidade de
aumentar o peso (em Kg) um regime alimentar foi aplicado em 12
pessoas. Os resultados (ordenados) foram:

-0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2.
Calculando as medidas temos:
Mediana (md ou Q2) = 5,6kg
1.quartil (Q1) = 3,3kg
3.quartil (Q3) = 6,25kg
d=intervalo interquartil = Q3-Q1 =2,95kg
Logo as linhas auxiliares correspondem aos pontos:
Q1-1,5d = -1,25kg
Q3+1,5d = 10,675kg
54
Exemplo: Considere os dados da tabela 1.1, o boxplot para varivel
salrio por educao e regio de procedncia dos funcionrios da
empresa.
11.2
Observao
exterior
(discrepante
ou atipica)
55
1 2 3
5
15
25
Grau de Instrucao
S
a
l
a
r
i
o
Boxplot de Salrio por educao

5 15 25
1
2
3
G
r
a
u

I
n
s
t
r
u
c
a
o
Salario
Boxplot de Salrio por educao


5 15 25
Interi or
Capi tal
Outro
R
e
g
i

o

d
e

P
r
o
c
e
d

n
c
i
a
Salario
Boxplot de Salrio por regio de procedncia