Академический Документы
Профессиональный Документы
Культура Документы
UNIDADE I
ESTATISTICA DESCRITIVA
Para motivarmos nosso estudo vejamos algumas pesquisas realizadas recentemente no Brasil:
1. A market Analysis recentemente realizou realizada por meio de entrevistas pessoais com 800
adultos entre 18 e 69 anos nas oito principais capitais do país. Entre dezembro de 2006 e fevereiro
de 2007. Nessa pesquisa, ela descobriu que 87% dos brasileiros têm maior respeito por uma em-
presa quando o seu presidente fala por ela. Esse comportamento também se estende a investido-
res. Com isso os técnicos do estudo concluirão que os brasileiros, diferentemente dos norte-
americanos e europeus, entendem que o questionamento já não é apenas o que a companhia faz,
mas sobretudo o que o CEO(presidente) pensa.
2. O IBGE mostra que a crescente participação das mulheres no mercado de trabalho não reduziu
a jornada delas com os afazeres domésticos. Pelo contrário, na faixa etária de 25 a 49 anos de
idade, onde a inserção das mulheres nas atividades remuneradas é maior e que coincide com a
presença de filhos menores, o trabalho doméstico ocupa 94,0% das mulheres. Este estudo foi rea-
lizado na Pesquisa Nacional por Amostra de Domicílios/PNAD de 2001 e de 2005.
3. Em um estudo realizado pelas Universidades de Glasgow e Paisley , na Grã-Bretanha, mais de
um terço dos trabalhadores afirmam que se sentem “estressados” pelo número de emails que re-
cebem durante o trabalho e pela pressão para respondê-los, segundo a pesquisa. Apenas 38% dos
trabalhadores pesquisados se sentiam à vontade para esperar um dia ou mais antes de responder a
um email, segundo o estudo feito com 200 pessoas.
Estas e outras pesquisas têm em comum o interesse em retirar conclusões para uma população,
por meio de uma amostra. Mas será que podemos concluir, por exemplo, que mais de um terço da
população da Grã-Bretanha se sentem “estressados” pelo número de e-mails que recebem durante
o trabalho e pela pressão para respondê-los? Ou podemos afirmar que nove em cada dez brasilei-
ros têm maior respeito por uma empresa quando o seu presidente fala por ela? As respostas a es-
sas perguntas são importantes para o desenvolvimento do estudo.
Antes de responder essas e outras perguntas vamos definir alguns conceitos básicos:
Estatística é uma ferramenta (ou método) que no ajuda a obter, organizar, resumir, apresen-
tar, interpretar e analisar grandes conjuntos de dados.
Vejamos na primeira pesquisa os dados coletados foram às opiniões com relação do respeito
das pessoas quando o presidente da empresa fala por ela, a população pesquisada é a popula-
ção brasileira, e como foi realizada com uma parcela dessa população, logo os dados foram
obtidos a partir de uma amostra.
Ainda com relação aos dados, por terem características diferentes, recebem as seguintes classifi-
cações:
Qualitativos nominais quando são apresentados de forma não numérica sem uma ordem natu-
ral (exemplo: informação sobre o sexo de um indivíduo, intenção de voto, etc.)
Qualitativos ordinais quando são apresentados de forma não numérica, além disso, existe uma
ordem natural de classificação desses dados (exemplo: grau de escolaridade, porte de uma empre-
sa, etc.)
Quantitativos discretos quando são apresentados numericamente de forma que possam ser con-
tados (exemplo: número de pessoas de uma casa, número de funcionários de uma empresa, etc.)
Antes de começarmos a calcular ou analisar alguns dados vamos entender os três ramos da estatís-
tica:
b) Probabilidade estatística utilizada para analisar situações que envolvem o acaso (alea-
toriedade).
A realização de uma pesquisa deve passar, necessariamente pelas fases apresentadas abaixo:
1) Definição do problema Saber exatamente o que se pretende pesquisar, ou seja, definir cor-
retamente o problema.
3) Coleta de Dados consiste na busca ou compilação dos dados. Pode ser classificado, quanto
ao tempo em:
Contínua (inflação, desemprego, etc);
Periódica (Censo);
Ocasional (pesquisa de mercado, eleitoral)
4) Crítica dos dados objetiva a eliminação de erros capazes de provocar futuros enganos.
Faz-se uma revisão crítica dos dados suprimindo os valores estranhos ao levantamento.
5) Apresentação dos dados a organização dos dados denomina-se “Série Estatística”. Sua
apresentação pode ocorrer por meio de tabelas e gráficos.
6) Análise e Interpretação dos Dados Consiste em tirar conclusões que auxiliem o pesquisa-
dor a resolver seu problema, descrevendo o fenômeno através do cálculo de medidas estatísticas,
especialmente as de posição e as de dispersão.
Notas de Aula – Allan Robert 5
X θ
Como já vimos, a inferência estatística tem como objetivo a estimação de parâmetros para
uma população tendo como base às informações extraídas através de uma amostra. Neste con-
texto, o estudo dos mais diversos tipos de procedimentos de amostragem se faz necessário.
As técnicas de amostragem podem ser classificadas em dois grandes grupos: a amostragem pro-
babilística e a amostragem não probabilística.
Amostragem Probabilística: neste grupo encontram-se os planos amostrais que utilizam meca-
nismos aleatórios de seleção dos elementos da amostra, atribuindo a cada um deles uma probabi-
lidade, conhecida à priori, de pertencer à amostra.
Amostragem Não Probabilística: neste grupo encontram-se os planos amostrais que não utilizam
mecanismos aleatórios de seleção dos elementos da amostra, e dessa forma, não existe nenhuma
probabilidade associada à seleção desses elementos.
Atenção: As duas podem ser confundidas facilmente. Por exemplo, suponha que um professor
deseja retirar uma amostra de cinco alunos de uma turma. Pergunta-se que tipo de amostragem é
essa? A resposta é depende. Se por exemplo forem selecionados os cinco primeiros alunos que
entrarem em sala de aula um dia, esse é um tipo de amostragem não probabilística, pois pode ser
que um aluno da turma não venha nesse dia, ou seja, esse aluno não tem chance de participar da
amostra ferindo o conceito de amostragem probabilística. Agora se o professor fizer um sorteio
usando a lista de chamada será garantindo que todos os alunos tenham uma chance de participar
da amostra.
Ambos os procedimentos têm vantagens e desvantagens. A grande vantagem das amostras proba-
bilísticas é medir a precisão da amostra obtida. Tais medidas já são bem mais difíceis para os pro-
Notas de Aula – Allan Robert 6
cedimentos do outro grupo, já que é não probabilística é mais simples de obter. Diante disso, a-
mostras probabilísticas são comumente utilizadas na prática.
Os tipos de planos de amostragem probabilísticos são os seguintes:
Consiste em dispor os dados em linhas e colunas, distribuídas de modo ordenado, segundo al-
gumas regras práticas e obedecendo à Resolução nº 886/66, de 26 de outubro de 1966, do Conse-
lho Nacional de Estatística. Vejamos um exemplo:
Corpo
2002 2.666
2003 2.122
2004 3.750
2005 2.007
Rodapé Fonte: IBGE
São os dados organizados em forma de tabelas. De acordo com o fenômeno, local e a época de
ocorrência classificam-se, respectivamente, em: Temporal, Especificativa e Geográfica.
Exercícios
2. Procure três pesquisas, pela internet, jornal, etc. Identifique: o tipo de dado, a população e se
foi censo ou amostra (se foi uma amostra identifique que tipo de amostragem foi usado).
6. Um pesquisador tem dez gaiolas que contém, cada uma, 12 ratos. Cada gaiola recebe uma
alimentação diferente. Deseja-se estimar o peso total dos ratos com base numa amostra de 20 ra-
tos. Como o pesquisador pode selecionar essa amostra de maneira a usar uma amostragem proba-
bilística? Justifique e comentando que plano amostral esta sendo usado.
7. Um pesquisador pretende levantar dados sobre o número de moradores por domicílio, usando
amostragem sistemática. O pesquisador visitará cada domicílio selecionado. Suponha que se não
tiver nenhuma pessoa na ocasião da visita, o pesquisador excluirá o domicílio da amostra e em
seu lugar visitará a casa mais próxima até encontrar alguém. Este tipo de amostragem continua
sendo probabilística? O pesquisador esta introduzindo tendenciosidade? Justifique suas respostas.
Notas de Aula – Allan Robert 10
Tabelas com grandes números de dados são cansativas e não dão uma visão rápida e geral do
fenômeno. Dessa forma, é necessário que os dados sejam organizados em uma tabela de distribui-
ção de freqüências.
Distribuição de Freqüências: série estatística em que os dados são agrupados em classes, com suas
respectivas freqüências absolutas, relativas e percentuais, com o objetivo de facilitar ao analista o
seu estudo.
Amplitude Total (A): é a diferença entre o maior valor do rol (LS) e o menor valor (LI).
A = LS - LI
Número de Classes (c): corresponde à quantidade de classes, nas quais serão agrupados os
elementos do rol. Para determinar c, utiliza-se a fórmula de Sturges:
c = 1 + (3,33333.....).log(n)
Amplitude ou Intervalo de Classe (i): geralmente utilizam-se intervalos iguais, obtidos atra-
vés da fórmula:
i = A/c
Outros elementos da tabela:
Li = limite inferior de cada classe;
Ls = limite superior de cada classe;
x = ponto médio de cada classe x = Li + (i/2);
f = freqüência absoluta = número de ocorrências de cada classe;
fr = freqüência relativa fr f / f ;
f % = freqüência percentual f % = 100.fr;
F↓= freqüência absoluta acumulada "abaixo de";
F↑= freqüência absoluta acumulada "acima de";
Notas de Aula – Allan Robert 11
1) (Dados Simples: grande freqüência de valores) Em uma pesquisa feita para detectar o número
de filhotes de fêmeas de uma raça de cães, foram encontrados os valores:
1 4 2 5 3 2 0 3 2 1
5 4 2 5 0 3 2 4 2 3
2 3 2 1 4 2 1 3 4 2
Solução:
Rol (dados em ordem crescente):
0 0 1 1 1 1 2 2 2 2
2 2 2 2 2 2 3 3 3 3
3 3 4 4 4 4 4 5 5 5
X F fr f% F↓ F↑ F%↓ F%↑
0 2 0,067 6,7 2 30 6,7 100
1 4 0,133 13,3 6 28 20 93,3
2 10 0,333 33,3 16 24 53,3 80
3 6 0,2 20 22 14 73,3 46,7
4 5 0,167 16,7 27 8 90 26,7
5 3 0,1 10 30 3 100 10
Total 30 1 100 - - - -
2) (Dados Agrupados em Classes: pouca freqüência de valores) . Dose (kg do i.a./ha) dos
principais herbicidas pré e pós-emergentes recomendados para o controle de plantas dani-
nhas na cultura da mandioca, no Brasil e outros países da América Latina.
1,51 1,65 1,58 1,54 1,65 1,40 1,61 1,08 1,81 1,38 1,56 1,83
1,69 1,22 1,22 1,68 1,47 1,68 1,49 1,80 1,33 1,83 1,50 1,46
1,67 1,60 1,23 1,54 1,73 1,43 2,18 1,46 1,53 1,60 1,59 1,49
1,46 1,72 1,56 1,43 1,69 1,15 1,89 1,47 2,00 1,58 1,37 1,40
1,76 1,62 1,96 1,66 1,51 1,31 2,29 1,58 2,34 1,66 1,71 1,44
1,66 1,36 1,43 1,26 1,47 1,52 1,57 1,33 1,86 1,75 1,57 1,83
1,52 1,66 1,90 1,59 1,47 1,86 1,73 1,55 1,52 1,40 1,86 2,02
Solução:
Rol (dados em ordem crescente):
1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36 1,37 1,38
1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46 1,46 1,46 1,47 1,47
1,47 1,47 1,49 1,49 1,50 1,51 1,51 1,52 1,52 1,52 1,53 1,54
1,54 1,55 1,56 1,56 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,60
1,60 1,61 1,62 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68
1,69 1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,86 1,86
1,86 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02 2,18 2,29 2,34
Construção da Tabela:
Observações:
(1) O melhor valor para representar cada classe é o seu respectivo ponto médio (Pm), o qual se
obtém pela fórmula:
Pm = Li + (i / 2), ou de mesmo modo, Pm = (Li + Ls) / 2
(3) 1,08 |-- 1,26, indica um intervalo fechado à esquerda (pertencem a classe valores iguais ao
extremo inferior) e aberto à direita (não pertencem a classe valores iguais ao extremo superior).
(4) Não necessariamente o último número será o limite superior da última classe, mas obrigatori-
amente as classes devem conter todos os elementos.
(5) Quando o último número for igual ao limite superior da última classe, será representado como
na tabela pelo símbolo “|--|”, senão será somente “|--”.
(6) Usando a distribuição de freqüência acima não é possível perguntar, por exemplo, em quantos
herbicidas a dose (kg do i.a./ha) foi superior a 1,8 kg, pois 1,8 é o limite inferior da classe e logo
podem existir alguns meses com esse valor. O correto é questionar em quantos herbicidas a dose
(kg do i.a./ha) foi superior ou igual a 1,8 kg.
As bases precisam ser de tamanhos iguais. Se as legendas forem extensas, aconselha-se o uso do
diagrama em barras.
Obs: Estes gráficos não são aconselhados no caso de séries temporais.
Exemplo 1:
Mortes por acidente no trânsito no Brasil - 1986
Tipo Freqüência Percentual
Pedestres 11712 42,89
Passageiros 7116 26,06
Condutores 8478 31,05
Total 27306 100,00
Fonte: IBGE
14000
10000
8000
Passageiros
6000
4000
Pedest res
2000
0
Pedest res Passageiros Condut ores 0 2000 4000 6000 8000 10000 12000 14000
Usado para representar variáveis quantitativas e qualitativas. Para fazer este gráfico, primeiro se
traça uma circunferência que, como se sabe tem 306º. Dentro desta circunferência será represen-
tada cada uma das categorias e para isso toma-se o ângulo central da seguinte maneira: se 100%
corresponde a 360°, uma categoria com freqüência relativa de f % terá ângulo central x, tal que:
100 360
fx
o valor do ângulo central x será:
x = 360 f
100
Notas de Aula – Allan Robert 15
Pedestres
Passageiros
Condutores
I nt e nç ã o de v ot o a pr e si de nc i a no B r a si l - 2 0 0 6
50
45
40
35
30 LULA
25 ALCKIMIN
20 HELOISA HELENA
15
10
5
0
Jun Jul Ago
Notas de Aula – Allan Robert 16
Uma distribuição gráfica pode ser representada por um histograma, por um polígono de freqüên-
cia, ou por um polígono de freqüência acumulada (conhecido também por Ogiva de Galton).
Exemplo: Quantidade de cabeças de gado em 473 municípios do Brasil.
Intervalos fi F↓
15750 |-- 29000 238 238
29000 |-- 42250 144 382
42250 |-- 55500 35 417
55500 |-- 68750 29 446
68750 |-- 82000 16 462
82000 |-- 95250 6 468
92250 |-- 10850 4 472
108500 |-- 121750 1 473
121750 |-- 135000 0 473
HISTOGRAMA
250
200
150
100
50
0
15750 |-- 29000 |-- 42250 |-- 55500 |-- 68750 |-- 82000 |-- 92250 |-- 108500 |-- 121750 |--
29000 42250 55500 68750 82000 95250 10850 121750 135000
250
200
150
100
50
0
15750 |- 29000 |- 42250 |- 55500 |- 68750 |- 82000 |- 92250 |- 108500 121750
- 29000 - 42250 - 55500 - 68750 - 82000 - 95250 - 10850 |-- |--
121750 135000
Ogiva de Galton
500
400
300
200
100
0
15750 |- 29000 |- 42250 |- 55500 |- 68750 |- 82000 |- 92250 |- 108500 121750
- 29000 - 42250 - 55500 - 68750 - 82000 - 95250 - 10850 |-- |--
121750 135000
Conclusões: Observe que, em cada gráfico, verifica-se que quando a quantidade de cabeças de
gado menor a quantidade de municípios referente a esta classe. Em partícula, na Ogiva de Galton
observe ao se aproximar das classes que representam as maiores quantidades de cabeça de gados
“os saltos” vão ficando cada vez menores, ou seja, há poucos municípios.
Atenção: Acabamos de ver que para cada tipo de série estatística existe um tipo de gráfico
específico. Lembre-se disso.
1.6 - Medidas de Tendência Central
São medidas que tendem para o centro da distribuição e tem a capacidade de representá-la como
um todo. Dão o valor do ponto em torno do qual os dados se distribuem. As principais são: Mé-
dia Aritmética, Mediana e Moda e algumas.
Atenção: Calcularemos a média, mediana e moda em dados brutos, freqüência simples e em fre-
qüência de classes. Todavia se temos os dados brutos o ideal é fazer os cálculos com estes, discu-
tiremos isso com mais detalhes em seguida.
A média aritmética pode ser definida em dois tipos: populacional ( ) e amostral ( X ). Nos dois
casos existem três situações quanto aos cálculos.
x i
soma de todos os elementos
X i 1
n número totoal de ele mentos
Notação
“x” é a variável que representa os dados
n
Ex.: Peso em gramas de ratos (50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74)
Análise: o peso médio dos 12 ratos observados é de 67 gramas.
x i fi
A média será: X i
média ponderada.
f i
X 0 1 2 3 4 Total
fi 2 4 10 6 5 27
x i fi
0.2 1.4 2.10 3.6 4.5
X 2,3
27
f i
Análise: Verifica-se que a média de cáries das 27 crianças observadas no estudo é de 2,3.
P m fi
A média será: X
f i
Notas de Aula – Allan Robert 19
Classes Pm fi
1,5 |-- 2,0 1,75 3
2,0 |-- 2,5 2,25 16
2,5 |-- 3,0 2,75 31
3,0 |-- 3,5 3,25 34
3,5 |-- 4,0 3,75 11
4,0 |-- 4,5 4,25 4
4,5 |--| 5,0 4,75 1
Total 100
Agora não temos um número que represente bem o valor da variável (dado), pois temos clas-
ses de valores. A solução é pegar um valor para representar essa classe. Esse valor é o Ponto
médio da classe (Pm).
P m fi
(1,75).(3) (2,25)(16) (4,75) * (1)
X 3
100
f i
Análise: Verifica-se que o em média a altura das árvores dessa espécie é cerca de 3 metros.
Atenção: Estamos representando uma classe de valores por um número (Ponto médio), mas será
que ele representa bem essa classe? Talvez sim ou talvez não, o que pode afetar a estimativa da
média. Logo se tivermos acesso aos dados brutos é mais seguro usá-los para o cálculo. Contudo, é
importante saber lidar com esse tipo de situação já que nem sempre temos acesso a esses dados
brutos.
1.6.2 - Mediana
A mediana é o valor que divide a distribuição em duas partes iguais, em relação à quantidade de
elementos. Isto é, é o valor que ocupa o centro da distribuição, de onde se conclui que 50% dos
elementos ficam abaixo dela e 50% ficam acima.
Colocados em ordem crescente, a mediana (Med ou Md) é o valor que divide a amostra, ou popu-
lação, em duas partes iguais.
Representação gráfica.
0 Med 100%
Notas de Aula – Allan Robert 20
Med = média aritmética dos dois elementos centrais (de ordem (n/2)º e [(n/2) + 1]º)
X fi F↓
1 1 1
2 3 4
3 5 9
4 2 11
Total 11 -
n = 11 (ímpar)
Observe que a 3ª classe contém do 5° até o 9° elemento (ver F↓ ), logo contém o 6º elemento,
onde a Med é o valor 3.
Ex4.: Suponha agora a seguinte distribuição de freqüência simples.
X fi F↓
82 5 5
85 10 15
87 15 30
89 8 38
90 4 42
Total 42 -
Notas de Aula – Allan Robert 21
n = 42 (par)
Passos a seguir:
Ex.: No exemplo sobre altura de uma determinada árvore, em metros, de uma região, a mediana
é dada por:
Classes Pm fi F↓
1,5 |-- 2,0 1,75 3 3
2,0 |-- 2,5 2,25 16 19
2,5 |-- 3,0 2,75 31 50
3,0 |-- 3,5 3,25 34 84
3,5 |-- 4,0 3,75 11 95
4,0 |-- 4,5 4,25 4 99
4,5 |--| 5,0 4,75 1 100
Total - 100 -
Obs: Por coincidência, a média foi igual, porém nem sempre isso acontece.
É o valor que ocorre com maior freqüência, ou seja, aquele que mais se repete.
Ex2.:
Tipo de Sangue fi
O 547
A 441
B 123
AB 25
Total 1136
Ex.:
Classes fi
1,08 |-- 1,26 5
1,26 |-- 1,44 13
1,44 |-- 1,62 32
1,62 |-- 1,80 18
1,80 |-- 1,98 11
1,98 |-- 2,16 2
2,16 |--| 2,34 3
Total 84
Mo = 3.Med - 2. X
Utiliza-se a MoP para a análise da assimetria. Suponha que estamos verificando notas de 100 alu-
nos de uma escola. Essas notas podem apresentar as seguintes características:
Assimetria à esquerda: X < Med < M oP (concentração à direita ou nos valores maiores)
Assimétrica à Esquerda e Normal ( 7 ) Assimétrica à Esquerda e Afunilada ( 8 ) Assimétrica
70
30
20
60
25
50
15
20
Frequência
Frequência
Frequência
40
15
10
30
10
20
5
5
10
0
2 4 6 8 10 2 4 6 8 10 2
notas notas
X Med Mop
Assimetria à direita: M oP < Med < X (concentração à esquerda ou nos valores menores)
Frequên
Frequên
Frequên
15
20
10
10
10
5
5
0
0
0 2 4 6 8 10 0 2 4 6 8 10 0 2
notas
Notas de Aula – Allan Robert notas
24
Assimétrica à Direita e Normal ( 4 ) Assimétrica à Direita e Afunilada ( 5 ) Assimétric
70
30
20
60
25
50
15
20
Frequência
Frequência
Frequência
40
15
10
30
10
20
5
5
10
0
0
0 2 4 6 8 0 2 4 6 8 0 2
notas notas
Mop Med X
Simétrica: M
oP
@Med @ X (concentração no ecentro)
Simétrica Normal ( 1 ) Simétrica e Afunilada ( 2 ) Simé
40
20
25
30
20
15
Frequência
Frequência
Frequência
15
20
10
10
10
5
5
0
0
0 2 4 6 8 10 0 2 4 6 8 10 0 2
notas notas
M oP Med X
Assimétrica à Direita e Normal ( 4 ) Assimétrica à Direita e Afunilada ( 5 ) Assimétric
70
30
20
60
25
50
Ex.: Agora calcule à moda de Pearson para os seguintes dados: X = 1,61 e Med = 1,57.
15
20
Frequência
Frequência
Frequência
40
15
10
30
20
5
Análise: MoP < Med < X , o que indica uma assimetria à direita, isto é, uma maior concentração à
5
10
0
0 2 4 6 8 0 2 4 6 8 0 2
notas notas
Moda de King (MoK)
f post
M oK li Mo .i
f f
ant post
d1 d1 = f máx - f ant
M oC li Mo .i ,
d1 d 2
d 2 = f máx - f post
Notas de Aula – Allan Robert 25
Moda de King:
Classe Modal = 3ª classe [1,44; 1,62) com fi = 32
fant = 13
fpost = 18
iMo = (1,62) - (1,44) = 0,18
f post
M oK li Mo .i 1,44 18 .0,18 1,54
f f 13 18
ant post
Análise: valores próximos ou iguais a 1,54 ocorrem com maior freqüência.
Moda de Czuber:
d1 19
M oC li Mo .i Mo 1,44 .0,18 1,55
d1 d 2 14 19
O que essas seqüências têm em comum? Basta calcular a média aritmética de cada um desses
conjuntos, e verificaremos:
X
x i X 50 10 ; Y y i Y 50 10 ; Z z i Z 50 10
n 5 n 5 n 5
Notas de Aula – Allan Robert 26
Observações: Os três conjuntos de dados apresentam mesma média aritmética. No entanto, são
seqüências completamente distintas do ponto de vista da variabilidade de dados. Na seqüência X,
não há variabilidade dos dados, logo a média representa perfeitamente qualquer valor da série.
Na seqüência Y, a média representa bem a série, mas existem elementos da série levemente dife-
renciados. Na seqüência Z, existem muitos elementos bastante diferenciados da média, ou seja, a
média não representa esta seqüência.
Nosso objetivo é construir medidas que avaliem a representatividade da média. Para
isto, usaremos as medidas de dispersão. As principais medidas de dispersão absolutas são:
amplitude total (já vista), variância, desvio padrão e coeficiente de variação.
1.7.1-Variância
È a medida de dispersão mais utilizada. É definida como sendo o quociente entre a soma
dos quadrados dos desvios e o número de elementos. É classificada em dois tipos:
Variância populacional , representada por uma letra grega chamada sigma elevada ao qua-
drado:
X X
2 2
X 1
N
i i
2
X i2
N N
Variância amostral, representada pela letra “S” elevada ao quadrado:
X X
2 2
X
n
i 1 i
S 2
X i2
n 1 n 1
Exemplo: Calcular a variância amostral das notas obtidas por quatro alunos em cinco avaliações.
Alunos Notas x i x 2
i S
2
Antônio 5 5 5 5 5 25 0
Aline 6 4 5 4 6 129 1
Marcos 10 5 5 5 0 25 12,5
Maria 10 10 5 0 0 225 25
Conclusões:
Atenção: Quando os dados estão dispostos em uma tabela de distribuição de freqüência, utiliza-se
a fórmula:
Notas de Aula – Allan Robert 27
x f
2
f n
1 i
s
2
xi2
n 1
x f 2
1 i
2
f
xi2
N N
Pm f
2 Pm f
2
Pm Pm
1
1
s
2 2
f 2 2
f
n 1 n N N
Não amigo leitor, a variância é dada sempre no quadrado da unidade de medida da série.
Se os dados são expressos em metros, a variância é expressa em metros quadrados.
Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por
exemplo, em que os dados são expressos em litros, logo a variância será expressa em litros qua-
drados. Portanto, o valor da variância não pode ser comparado diretamente com os dados da série,
ou seja: não há interpretação para a variância.
1.7.2-Desvio Padrão
Eis aqui a solução, ou seja, a raiz do problema. Exatamente a raiz quadrada da variância.
Ora se estamos elevando cada diferença ao quadrado, nada mais justo que extrair a raiz quadrada
da soma dessas diferenças. Assim voltaremos à mesma unidade de medida dos dados originais.
Desvio padrão populacional , representada por uma letra grega chamada sigma:
X i X 2
N
Desvio padrão amostral, representada pela letra “S”:
X
2
i X
S
n 1
OBS: Quanto maior o valor do desvio padrão significa que mais dispersos estão os elementos em
torno da média.
Notas de Aula – Allan Robert 28
No exemplo anterior:
Alunos Notas S
2 S
Antônio 5 5 5 5 5 0 0
Aline 6 4 5 4 6 1 1
Marcos 10 5 5 5 0 12,5
Maria 10 10 5 0 0 25
Exemplo: Suponha uma série com média x= 100 e desvio padrão s=5, se temos a relação
X = Med = Mop , podemos interpretar estes valores da seguinte forma:
O intervalo [95, 105] contém aproximadamente 68% dos valores da série. O intervalo [90, 110]
contém aproximadamente 95% dos valores da série, já o intervalo [85, 115] contém aproximada-
mente 99% dos valores da série.
Quando as medidas de duas ou mais variáveis são expressas em unidades diferentes como pe-
so/altura, capacidade/comprimento, etc. não se pode compará-las através do desvio padrão, por
este ser uma medida absoluta de variabilidade. Usa-se então o CV, que é uma medida relativa,
que expressa o desvio padrão como uma porcentagem da média aritmética. Quanto mais próximo
de zero, mais homogênea é a distribuição. Quanto mais distante, mais dispersas.
O CV mede a dispersão em relação à média. É a razão entre o desvio padrão e a média. O
resultado obtido dessa operação é multiplicado por 100, para que o coeficiente de variação seja
dado em porcentagem.
S
CV = *100
X
Observação : CV alto indica que a dispersão dos dados em torno da média é muito grande.
Exemplo: Calcule a média, o desvio padrão e o coeficiente de variação dos dados apresenta-
dos na tabela abaixo. Comente os resultados, apontando quais os dados que apresentaram
menor variabilidade, ou seja, qual a variável mais homogênea (peso ou comprimento).
Peso (em kg) e comprimento (em cm) de 10 cães
Peso(X) Comprimento(Y) X2 Y2
23 9 529 81
22 9,5
21 8,7
21 8
17 6,5
28 10
19 6
14 7
19 8
19 7,5