Вы находитесь на странице: 1из 171

Antonio F.

Beraldo

Estatstica I

Estatstica Descritiva
Compacta
Estatstica Descritiva
Antonio Fernando Beraldo

Departamento de Estatstica
ICE UFJF

Verso Final Compacta 2014

Coordenao, criao do ambiente grfico e do repositrio de arquivos, e


programao em LATEX:
Raphael de Freitas Saldanha

Reviso e digitao:
Ana Darc da Silva
Bruno Alves Simes
Diego Augusto
Elisa Lancini Nogueira
Letcia Vale de Lima
Lucas Silva Novais
Marcelle Souza Pinto
Mirela Rigolon Valinote
Natlia Ferreira de Azevedo
Paula Bottoni
Ramon Goulart
Rosiany Grosman
Stfani Ferreira
Vanessa Castro Abreu
Victor Lopes Costa Serra
Willian Costa
Apresentao
Esta Apostila o primeiro volume de um conjunto de textos preparados para os
alunos dos cursos de Graduao e Ps-Graduao que possuem disciplinas de Estatstica
em sua grade curricular. Os textos abordam os seguintes temas:

Apostila Contedo
I Estatstica Descritiva
II Clculo de Probabilidades
III Teoria da Amostragem, Inferncia e Testes Estatsticos

Em cada captulo das Apostilas procuramos sintetizar os contedos, em textos breves


de exposio dos conceitos, seguidos de exemplos de aplicaes das frmulas.

Outros materiais didticos, referenciados no corpo das Apostilas, esto dispon-


veis no site do Professor:

http://www.ufjf.br/antonio_beraldo

A. F. Beraldo iii
Agradecimentos
Este um trabalho que reflete a experincia - e aprendizagem - do ensino de
Estatstica e a valiosssima contribuio dos alunos nestes 23 anos de atividades na
Universidade Federal de Juiz de Fora, como tambm a prtica da aplicao da Estatstica
em dezenas de dissertaes e teses de mestrandos e doutorandos de diversas IES do Pas.
Sem esta contribuio, este trabalho no existiria.

Em destaque, agradeo ao estmulo das professoras doutoras Martha de Oliveira


Guerra e Vera Maria Peters, do Centro de Biologia da Reproduo; pacincia abnegada
de Renata Mrcia de Figueiredo, PhD, pela reviso do texto bsico da edio inicial
(1998);

A todos os alunos que, com suas crticas e sugestes, me ensinaram o como, o quando
e o qu.

Esta primeira Apostila dedicada, in memoriam, a meu pai.

Wilson Joo Beraldo


(1918 - 1994)

A. F. Beraldo v
Sumrio
Sumrio vi

1 Introduo Estatstica 1
1.1 O Mtodo Estatstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos . . . . . . . . . 21

2 Medidas Estatsticas de Tendncia Central 31


2.1 Mdia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.1 Mdia Aritmtica . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.2 Mdia Aritmtica Ponderada . . . . . . . . . . . . . . . . . . . . . 33
2.1.3 Mdia Geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.4 Mdia Harmnica . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.5 Propriedades da Mdia Aritmtica . . . . . . . . . . . . . . . . . 38
2.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4 Ponto Mdio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3 Medidas Estatsticas de Disperso 45


3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 Desvios e Desvio Mdio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3 Varincia e Desvio Padro . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Coeficiente de variao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5 Propriedades da varincia . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4 Estatstica em Grandes Conjuntos: Distribuies de Frequncias 61


4.1 Frequncias Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Frequncias Relativas, o Histograma e os Polgonos de Frequncia . . . . 67
4.3 Frequncias Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4 Frequncias Relativas Acumuladas e a Ogiva de Galton . . . . . . . . . . 75

5 Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e


Disperso 81
5.1 Clculo da Mdia: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2 Clculo da Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 Clculo da Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

vi A. F. Beraldo
SUMRIO

5.3.1 Roteiro para o clculo da mediana . . . . . . . . . . . . . . . . . . 90


5.4 Clculo da Varincia, do Desvio Padro e do Coeficiente de Variao . . 94
5.5 Exemplos Comentados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

6 Estatstica em Grandes Conjuntos: Medidas de Posio 103


6.1 Clculo de Quartis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . 109
6.2 Determinao Grfica das Separatrizes . . . . . . . . . . . . . . . . . . . 114
6.3 Determinao Grfica de intervalos . . . . . . . . . . . . . . . . . . . . . 118

7 Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose 123


7.1 Simetria e Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.2 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7.3 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

8 Introduo Anlise Exploratria de Dados 145


8.1 Fundamentos da Anlise Exploratria . . . . . . . . . . . . . . . . . . . . 145
8.2 Determinao dos Quartis: . . . . . . . . . . . . . . . . . . . . . . . . . . 149
8.3 Clculo das Cercas e o Box-Plot . . . . . . . . . . . . . . . . . . . . . . . 152

A. F. Beraldo vii
1 Introduo Estatstica
A Estatstica um conjunto de mtodos que, utilizando procedimentos matemti-
cos, visa conhecer e descrever a realidade que nos cerca, analisar seus fenmenos
naturais e sociais e organizar e fornecer informaes de apoio s Cincias. A
Estatstica uma das Matemticas, assim como a Geometria, a Trigonometria e o
Clculo Integral. E no h, na vida contempornea, praticamente nenhum setor de
atividade humana em que no faa uso da Estatstica.

Os verbos da Estatstica so:

Contar
Contar o processo matemtico mais primitivo para se conhecer a realidade.
Provavelmente o processo de contagem comeou h muitos milhares de anos atrs, junto
com a descoberta do fogo e com o desenvolvimento das primeiras habilidades de caa.
Segundo os especialistas1 , o homem primitivo contava at 2 acima desta quantidade,
deveria existir um gesto para significar muitos (at hoje, algumas tribos primitivas
contam no mximo at 3). Depois, talvez com auxlio dos dedos das mos, formou-se
aos poucos o sistema decimal. Com a evoluo cultural e tecnolgica, alguns povos
adotaram sistemas diferentes, como o vintesimal (mltiplos de vinte2 ) e o sexagesimal3 .
Em pinturas rupestres e inscries talhadas em pedras, vemos como nossos antepassados
enumeravam os objetos do seu mundo pedaos da sua realidade: membros do
grupo, produtos agrcolas, animais domesticados, a caa abatida, etc. Mas, quando esta
realidade se torna muito numerosa (muitas pessoas, muitos bens, rebanhos maiores),
a contagem de seus componentes passa a ser bem mais trabalhosa.

A Estatstica comeou quando o homem precisou enumerar (recensear) seus bens,


seus rebanhos, a colheita e os exrcitos. Estas informaes sempre foram vitais para
os reis e governantes, e as contagens eram feitas periodicamente, a seu mando. Temos
notcias de levantamentos feitos na China, 2.000 anos a.C., na Bblia (informaes sobre
o contingente de soldados e armas do povo judeu), dos recenseamentos no Imprio

1
Ver Boyer, Histria da Matemtica, Ed. Edgar Blucher Ltda/USP, So Paulo, 1976.
2
Como os franceses dizem oitenta?
3
A contagem do tempo feita, at hoje, neste sistema. Veja tambm as medidas utilizadas na
trigonometria.

A. F. Beraldo 1
1. Introduo Estatstica

Romano (populao e extenso territorial)4 , das coletas de dados feitas pelos rabes
no sculo VIII. Ainda na Idade Mdia, Carlos Magno, rei dos francos e Imperador
do Ocidente, organizou o Estado a partir da contagem de seus sditos e de suas
propriedades. Guilherme, o Conquistador, ordenou a elaborao do Domesday Book,
um curioso catlogo dos bens do reino5 (Inglaterra, 1085-6) e de sua produo, para
fins de coleta de impostos. Como se pode ver, a Estatstica sempre foi associada ao
Estado (da seu nome). Ainda na Inglaterra, mas no sc. XVII temos o trabalho de
um dos primeiros demgrafos, John Graunt, (1620-1674) que pesquisou o crescimento
da populao de Londres, a proporo entre os sexos das crianas e dos adultos, e a
causa da morte de milhares de pessoas nas vrias tabelas do livro Natural and Political
Observations Made upon the Bills of Mortality (1662), que surpreende pela atualidade
e pela metodologia6 .

Censos demogrficos so realizados a cada 10 anos desde 1790 nos EUA, desde 1791
na Frana, e desde 1801 na Gr Bretanha. No Brasil em 1872, foi realizado o primeiro
recenseamento nacional no pas, o qual recebeu o nome de Recenseamento da Populao
do Imprio do Brasil. Depois deste e at 1940, novas operaes censitrias sucederam-se
em 1890, 1900 e 1920. Em 1910 e em 1930, no foram realizados os recenseamentos7

4
Os habitantes do Imprio Romano tinham que responder ao census na sua cidade de origem, e a
punio para quem fugisse ou no respondesse era a pena de morte. Segundo a Bblia, os pais de Jesus,
Maria e Jos, tiveram que empreender uma viagem de Nazar, na Galilia, at Belm, na Judia, para
responder ao Censo ordenado por Csar.
5
Est na Internet, transposto para o ingls de hoje: http://www.domesdaybook.co.uk/index.
html. Se voc l bem em ingls, divirta-se.
6
Veja o site http://www.edstephan.org/Graunt/graunt.html.
7
Veja: http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html

2 A. F. Beraldo
A seguir, um histograma de frequncia mostra a composio percentual da
populao brasileira segundo o Censo de 2010:

Figura 1.1: Populao Brasileira Urbana (2010) distribuio percentual por faixas etrias
Fonte: Pirmide Etria, disponvel em
http://www.ibge.gov.br/censo2010/piramide_etaria/index.php

Segundo o IBGE, o Censo Demogrfico de 2010 contou uma populao de 190.732.694


pessoas (Nov/2010). Cada 1% no grfico acima corresponde a cerca de 1,9 milhes de
habitantes. Em 10 anos, a populao aumentou em quase 21 milhes de habitantes,
ou seja, grosso modo, cresceu, em mdia, 4 habitantes por minuto (diferena entre
nascimentos e mortes). No entanto, a taxa de crescimento est declinando: segundo o
Banco Mundial, deve passar dos atuais 0,9 para 0,24 em meados deste sculo.

No pas, como um todo, as propores eram, em 2010, de 48,3% do sexo masculino


e de 51,7% do sexo feminino, ou seja, havia 1,07 brasileira para cada brasileiro. A
proporo masculino/feminino maior na Regio Norte (0,97) e menor na Regio
Nordeste (0,91).

A. F. Beraldo 3
1. Introduo Estatstica

Medir
Alguns fenmenos no so contveis so mensurveis. As tcnicas de medir, cuja
histria se confunde com a histria da Cincia, foram amplamente desenvolvidas pela
Estatstica. A Estatstica tem a sua maneira prpria de medir, e suas prprias medidas,
chamadas estatsticas: mdia, moda, varincia, desvio padro, nmeros-ndices ...
A Estatstica mede, por exemplo, a disperso (ou concentrao) de elementos de um
conjunto em torno de um elemento central; a probabilidade da ocorrncia de defeitos
em um produto industrial; a relao entre o nvel de renda de uma populao e seu
consumo de alimentos; a evoluo das taxas de mortalidade de indivduos acometidos de
doenas; a posio de um eltron em torno do ncleo do tomo; a classificao provvel de
determinado candidato num concurso vestibular (entre milhares de candidatos); o efeito
da propaganda nas vendas de um determinado produto; a audincia de um programa de
televiso; a inteno de votos em um candidato a prefeito...

Um bom exemplo do que seja calcular uma medida estatstica sobre uma grande
massa de dados o clculo do valor do PIB Produto Interno Bruto, soma das riquezas
produzidas pela indstria, agropecuria e servios, durante um determinado perodo.
um dos principais indicadores econmicos de um pas, e sua evoluo, ano a ano, revela
o comportamento de sua economia. O clculo do PIB, no entanto, no to simples.
Imagine que o IBGE queira calcular a riqueza gerada por um arteso. Ele cobra, por
uma escultura, de madeira, R$ 30. No entanto, no esta a contribuio dele para o
PIB. Para fazer a escultura, ele usou madeira e tinta. No o arteso, no entanto, que
produz esses produtos ele teve que adquiri-los da indstria. O preo de R$ 30 traz
embutido os custos para adquirir as matrias-primas para seu trabalho. Assim, se a
madeira e a tinta custaram R$ 20, a contribuio do arteso para o PIB foi de R$ 10,
no de R$ 30. Os R$ 10 foram a riqueza gerada por ele ao transformar um pedao de
madeira e um pouco de tinta em uma escultura. O IBGE precisa fazer esses clculos
para toda a cadeia produtiva brasileira. Ou seja, ele precisa excluir da produo total de
cada setor as matrias-primas que ele adquiriu de outros setores. Depois de fazer esses
clculos, o instituto soma a riqueza gerada por cada setor, chegando contribuio de
cada um para a gerao de riqueza e, portanto, para o crescimento econmico8 .

8
Adaptado de Folha On Line http://www1.folha.uol.com.br/folha/dinheiro/ult91u105544.
shtml

4 A. F. Beraldo
Figura 1.2: Evoluo percentual do Produto Interno Bruto Brasil
Fonte: Indicadores Econmicos do Banco Central do Brasil

O PIB (Produto Interno Bruto) do Brasil, em 2010, foi de 3,675 trilhes de reais,
um crescimento de cerca de 7,5%. O PIB per capita, foi de cerca de R$ 19 mil, um
crescimento de 6,5% sobre 20099 .

9
http://oglobo.globo.com/economia/mat/2011/03/03/pib-brasileiro-fecha-2010\
-com-crescimento-de-7-5-maior-desde-1986-aponta-ibge-923926837.asp

A. F. Beraldo 5
1. Introduo Estatstica

Classificar
Classificar quase uma decorrncia natural dos processos de contar e de medir.
Medidas estatsticas conduzem colocao dos fenmenos (e de suas variveis10 ) em
classes. Classificar pode ser entendido como categorizar (colocar em categorias - A,
B, C, D ...) ou ordenar (colocar em postos: 1o lugar, 2o lugar 3o lugar, etc.). A
Estatstica possui tambm suas medidas especiais de classificao, como as separatrizes
e os escores padronizados, entre outras. Estes processos vm desde o sculo XVII, com
os estudos de Estatstica Demogrfica, de John Graunt, at a Anlise Exploratria de
Tukey, com suas tcnicas modernas de anlise de dados numricos.

Na figura a seguir, um exemplo de aplicao da Estatstica Descritiva:

Figura 1.3: Distribuio percentual das classes econmicas, segundo a metodologia da


ABEP
Fonte: Associao Brasileira de Empresas de Pesquisa, Brasil, 2009.

10
Variveis so os valores produzidos na ocorrncia de um fenmeno. Este um assunto importante,
que ser abordado muitas vezes durante este curso.

6 A. F. Beraldo
Segundo os critrios da ABEP, as classes econmicas, em termos de poder aquisitivo,
tm a seguinte renda mdia:

Tabela 1.1: Classes Econmicas - Brasil - 2008


Classe Mdia em R$
Econmica do poder aquisitivo
A1 14.366
A2 8.099
B1 4.558
B2 2.327
C1 1.391
C2 933
D 618
E 403
Fonte: http://www.abep.org

Relacionar
A Estatstica estuda os relacionamentos entre os fenmenos, no tempo e no espao.
Atravs de um conjunto de medidas estatsticas, procura-se determinar se existe uma
correlao (ou interdependncia) entre duas ou mais variveis e, se esta relao existir,
se forte ou fraca. Pode-se investigar, por exemplo, a relao existente entre a
escolaridade de uma populao e a incidncia de uma determinada doena; a correlao
entre o nmero de animais predadores em um lugar e os tipos de presas existentes nesta
regio; o rendimento escolar de alunos e seu quociente de inteligncia; o nmero de
acidentes de trnsito e a quantidade de veculos em circulao...

Veja, a seguir, um exemplo de correlao entre dois atributos de um grupo de pessoas:


peso e estatura.

Figura 1.4: Pesos e estaturas mdias de 100 indivduos do sexo masculino

A. F. Beraldo 7
1. Introduo Estatstica

Figura 1.5: Curva de correlao entre os pesos e as estaturas mdias de 100 indivduos
do sexo masculino

Os dois grficos acima mostram o estudo da correlao entre pesos e estatura de 100
estudantes de um colgio da cidade. Na figura 1.4 esto os dados colocados no grfico,
e, na figura 1.5, a curva de correlao uma espcie de ajustamento ideal entre o peso
e estatura, a equao da curva de correlao e a estatstica R2 - r ao quadrado - que
mostra o grau de correlao linear entre as duas variveis. Quanto mais prximo de
R2 = 1, 0; melhor a correlao entre os valores das duas variveis.

8 A. F. Beraldo
Comparar
Comparar grandezas uma das reas onde mais se aplicam os processos estatsticos.
So as estatsticas chamadas nmeros-ndices, entre outras, de larga utilizao na
Economia, nas Cincias Sociais, na Medicina, na Administrao Pblica, etc. Ao
comparar valores destas grandezas entre diversos pases ou regies, em pocas diferentes,
procura-se, desta forma, medir a evoluo destas grandezas - o que fornece os parmetros
para o planejamento governamental das polticas sociais e econmicas, entre muitos
outros exemplos.

Figura 1.6: IDH-M das quatro melhores e quatro piores cidades, Brasil, 2000
Fonte: PNUD - Atlas do Desenvolvimento Humano, 2008.

O IDH, ndice de Desenvolvimento Humano, uma estatstica elaborada e calculada


pela ONU (PNUD), que leva em considerao dados sobre a Educao, Sade e Renda
per capita de uma regio (cidade, estado, pas) em determinado ano. Quanto mais
prximo de 1, melhor a situao do pas com relao a estas variveis. Quanto mais
prximo de zero, pior. O IDH do Brasil de 0,699 (2010) que o coloca em 73o lugar entre
os 169 pases pesquisados. Os maiores valores do IDH (2010) foram os da, pela ordem,
Noruega, Austrlia, Nova Zelndia, Estados Unidos e Irlanda. Os piores ndices so dos
pases Zimbbue, Repblica Democrtica do Congo, Nger, Mali e Burkina Faso11 .

11
http://g1.globo.com/brasil/noticia/2010/11/brasil-ocupa-73-posicao-entre-169\
-paises-no-idh-2010.html

A. F. Beraldo 9
1. Introduo Estatstica

Prever
As tcnicas de previso estatstica (forecasting), baseadas no Clculo de Probabilida-
des, constituem o ferramental bsico dos Sistemas de Apoio s Decises. Principalmente
a Anlise de Sries Temporais (onde os fenmenos se relacionam diretamente com o
passar do tempo), que talvez seja o ramo da Estatstica de maior desenvolvimento nos
ltimos anos. A previso estatstica, conjugada com as tcnicas de correlao e de
comparao, auxilia no planejamento das aes e no desenvolvimento das empresas, das
instituies governamentais e de tecnologia - de prognsticos do comportamento das
carteiras de aes na Bolsa de Valores ao lanamento de satlites espaciais. Uma parte
importante da previso estatstica a Aturia, ou Clculo Atuarial, que trata dos
clculos de seguros (de vida, de acidentes, de doenas, etc.), tendo por base o Clculo
de Probabilidades.

A seguir, grficos mostrando a evoluo de duas medidas estatsticas muito impor-


tantes em Demografia e nas Polticas Pblicas em Sade: Expectativa de Vida, a Taxa
de Natalidade, e a Taxa de Fecundidade (Fonte: Censo 2000 e PNAD 200312 ).

Figura 1.7: Expectativa de Vida ao Nascer

12
PNAD a abreviao de Pesquisa Nacional por Amostragem Domiciliar. uma pesquisa feita
pelo IBGE com periodicidade menor do que o Censo, e utilizada para acompanhar a evoluo de
algumas estatsticas.

10 A. F. Beraldo
Figura 1.8: Expectativa de Vida ao Nascer (Reta de Regresso)

Figura 1.9: Expectativa de Vida ao Nascer (Previso)

A. F. Beraldo 11
1. Introduo Estatstica

Inferir
Inferir o processo estatstico em que se estima o valor de uma medida da populao
(chamada parmetro13 ) a partir do valor desta mesma medida, calculada sobre uma
Amostra retirada da populao. Por exemplo, queremos saber qual a taxa de
fertilidade (nmero de filhos por mulher) da populao do Brasil. Em outras palavras,
desejamos saber o parmetro nmero de filhos por mulher. Esta populao muito
numerosa (em torno de 60 milhes de mulheres). Sorteamos, ento, uma Amostra
de 2.400 mulheres desta populao e, com os dados desta amostra, calculamos duas
estatsticas14 : a mdia e o desvio-padro15 . A partir destas estatsticas, dizemos
(por exemplo) que a taxa de fertilidade atual no Brasil est em torno de 2,8 filhos
por mulher. Ou seja, estimamos o valor do parmetro de uma populao a partir de
estatsticas amostrais.

Figura 1.10: Inferir

13
Parmetro: o valor de uma medida, referente a populao.
14
Estatstica: o valor de uma medida referente amostra.
15
Mdia e desvio-padro so medidas que estudamos no Captulo 2 desta Apostila.

12 A. F. Beraldo
Testar
Testes Estatsticos so processos de verificao da igualdade ou desigualdade entre
duas ou mais medidas - entre valores esperados (ou previstos) e valores ocorridos, por
exemplo, ou entre estatsticas de dois ou mais conjuntos, separados no tempo ou no
espao. Pode se testar estatisticamente a eficincia de um processo (uma dieta, por
exemplo), ou a eficcia de uma ao (um mtodo de aprendizagem), as diferenas entre
os resultados de dois ou mais tipos de tratamentos mdicos (a cura pela sugesto, pela
alopatia ou pela homeopatia). A seguir, uma ilustrao de uma pesquisa experimental
onde se testa a eficcia de um medicamento em um grupo de pessoas.

Figura 1.11: Pesquisa experimental

Na figura 1.11, um experimento cientfico que consiste em analisar os efeitos de


uma droga. So dois grupos de pessoas. O primeiro grupo, chamado de Estudo, ou
Experimental, recebe a droga; o segundo grupo, chamado de grupo de Controle, no
recebe a droga, mas um composto incuo, chamado Placebo. A Estatstica fornece
recursos para avaliar os efeitos da droga administrada, comparando as variaes entre
os dois grupos, e verificando se a droga produz realmente o efeito que se espera.

A. F. Beraldo 13
1. Introduo Estatstica

Modelar
O que faz um cliente do supermercado tomar a deciso de comprar um produto de
determinada marca, e no de outra? Quais so os fatores de risco de algum tornar-se
diabtico? Em crianas em processo de alfabetizao, o que facilita e o que dificulta a
aprendizagem? Tomada de decises, incidncia de doenas e processos de aprendizagem
so exemplos de fenmenos complexos que ocorrem, associados ou determinados
por vrios fatores. Saber quais so os fatores mais importantes, qual o impacto de
associao de fatores, e quais as consequncias de realarmos um ou mais fatores so
alguns aspectos da anlise de modelos multivariados.

Cuidado para no confundir rendimento escolar com aprendi-


zagem. Rendimento escolar o que apurado nas provas,
trabalhos, atividades, etc (nota uma varivel objetiva,
quantitativa). Aprendizagem uma varivel latente (veja
mais em Variveis latentes, pgina 28).

Suponha que estamos pesquisando os fatores que interferem no rendimento escolar


dos alunos da ltima srie do ensino mdio. O simptico menino da figura acima, que faz
parte do grupo pesquisado pode ser descrito pelas suas variveis: sexo, idade, condio
econmica familiar, constituio da famlia (pais casados, pais separados, pais em unio
estvel, etc.), escolaridade dos pais, relao idade/srie, nmero de repetncias, e muitos
outros atributos. E, claro, as variveis referentes s notas (rendimento escolar).

Modelo a representao estruturada de um fenmeno a partir de hipteses de


relacionamento de suas variveis. Por exemplo,

Figura 1.12: Fatores em um modelo

14 A. F. Beraldo
Um modelo uma simplificao uma representao esquemtica -, de como
percebemos os fenmenos. Matematicamente, escrevemos

Y = B1 x1 + B2 x2 + B3 x3 + + Bn Xn

Exemplificando (bem superficialmente): Pense no fenmeno da aprendizagem. Con-


sidere que aprender determinado assunto est relacionado (associado) com as variveis
horas de estudo, material didtico (quantidade e qualidade), capacidade do pro-
fessor, escolaridade dos pais, simpatia com a matria, entre outras. Estas so
as variveis, que aparecem no modelo como x1 , x2 , x3 , . . . , xn . Cada varivel est
multiplicada por um B, que mede a importncia que atribumos a esta varivel. Os
valores de B1 , B2 , B3 , . . . , Bn podem ser altos, baixos, ou mesmo nulos, conforme seu
peso.

Considere, por fim, que podemos medir esta aprendizagem por meio de exames
(provas, testes) que, bem elaborados, pontuam (quantificam) esta aprendizagem. Os
valores obtidos nos testes so os valores de Y . Assim, podemos correlacionar Y com as
variveis, que no nosso modelo, favorecem ou so obstculos para a aprendizagem.

A. F. Beraldo 15
1. Introduo Estatstica

1.1 O Mtodo Estatstico


Imagine o conjunto de moradores do Bairro B: so pessoas que tem os mais diversos
atributos idade, estado civil, naturalidade, renda, etc. , que desejamos conhecer.
No entanto, todos estes moradores possuem pelo menos um atributo em comum:
so pessoas residentes no Bairro B.

Figura 1.13: O conjunto Universo

Para efeito de anlise estatstica, estes moradores do Bairro B so agrupados em um


conjunto que denominamos Universo, notado pelo smbolo . Pertencem ao conjunto
Universo todas as pessoas que possuem este atributo: moradores do Bairro B. Esto
fora do Universo todas as pessoas que no possuem este atributo. Os demais atributos
dos moradores podem ser descritos por um conjunto de valores denominado varivel.
Assim, temos as variveis sexo, idade, estado civil, renda, etc.

Assume-se, para efeito de estudo, que estas variveis so aleatrias, ou seja,


seus valores no so influenciados por nenhum fator externo16 . As variveis de um
conjunto Universo (e o prprio conjunto Universo) so descritas por medidas chamadas
parmetros. Por exemplo, as variveis idade, renda, escolaridade (medida em anos de
estudo) tem, cada uma, os parmetros mdia (), varincia ( 2 ), desvio-padro ();
as variveis sexo, escolaridade (medida em nvel de ensino) e naturalidade, tem, cada
uma, o parmetro proporo ().

16
O conceito de varivel aleatria explicado em profundidade na Apostila II Clculo de
Probabilidades.

16 A. F. Beraldo
1.1 O Mtodo Estatstico

Um parmetro uma medida de uma varivel do conjunto Universo, e recebem


como smbolo, as letras do alfabeto grego.

Um conjunto Universo suposto de tamanho infinito, ou finito. Mesmo sendo


de tamanho finito, sempre partimos do princpio que estes conjuntos tm um tamanho
muito grande um nmero muito grande de elementos. Este tamanho muito grande
torna extremamente difcil, seno impossvel, a obteno destes parmetros. Para
estudarmos o Universo, dispomos de dois mtodos principais: o Censo e o Mtodo
Estatstico.

Censo, ou recenseamento o processo de coleta de dados em que todo o conjunto


universo pesquisado. Todos os elementos do conjunto so estudados, um a um, e o
censo s termina quando todo o conjunto universo for abrangido. Censos so trabalhosos,
demorados, dispendiosos e, por isso mesmo, so realizados apenas por instituies oficiais
e por rgos do governo. Censos demogrficos so realizados de dez em dez anos,
quando uma grande quantidade de recenseadores recrutada para coletar dados sobre a
populao, atravs de questionrios. Desta forma, podemos medir a evoluo de dados
como a populao das cidades e do meio rural, as taxas de natalidade e mortalidade, as
caractersticas da etnia, o credo religioso, as migraes internas, etc.

Figura 1.14: O Censo

A. F. Beraldo 17
1. Introduo Estatstica

Portanto, o Censo17 uma investigao extensiva a todos os elementos do Universo,


e tambm intensiva, pois, na oportunidade da realizao de um Censo, so coletados
dados sobre centenas de variveis, como caractersticas gerais da populao, educa-
o, migrao, nupcialidade, trabalho, famlias e domiclios (...) informaes sobre a
populao residente por sexo, cor ou raa, religio, categorias de incapacidade ou defi-
cincia fsica ou mental, nvel educacional, movimentos migratrios, situao conjugal,
ocupao, rendimento de trabalho, tamanho da famlia e condies habitacionais, entre
outros aspectos, para o total do Brasil, grandes regies e unidades da federao (...)
comentrios sobre as caractersticas selecionadas em cada um dos temas e as diferenas
regionais observadas, notas e anexos contendo a Classificao de Religies, desenvolvida
pelo IBGE e o Instituto Superior de Estudos da Religio - ISER, e a Classificao
Nacional de Atividades Econmicas - Domiciliar.18

O Mtodo Estatstico foi desenvolvido para obtermos o valor estimado dos


parmetros, a partir das medidas de um subconjunto do Universo chamado Amostra.
Este mtodo consiste nos seguintes passos:

1. O conjunto Universo tratado de forma que cada um, e todos os seus


elementos, tm a mesma probabilidade de serem sorteados. Este processo chamado de
homogeneizao do Universo. Em seguida, alguns elementos do Universo so sorteados
para compor um subconjunto chamado amostra ():

17
Para se ter uma ideia da magnitude do problema do Censo em um pas como o nosso, com seus 8,5
milhes de km2 , O Censo 2010 custou em torno de 1,4 bilho de reais. Os 240 mil recenseadores, com
seus GPS, visitaram 58 milhes de domiclios, em 5.565 cidades, e coletaram dados sobre os mais de
190 milhes de brasileiros. A coleta de dados foi feita no mais em formulrios de papel, mas por meio
de 220 mil palmtops e netbooks, em cerca de 314 mil setores censitrios. Os dados foram transmitidos
central do IBGE via web. Foram duas modalidades de questionrios: o bsico, com 16 perguntas,
e o amostra, com 81 perguntas, aplicados em 7 milhes de domiclios, sorteados dentro do universo.
Entre as novidades deste censo foi a incluso do item unio homossexual entre as 20 opes de grau
de parentesco com o responsvel pelo domiclio, e o mapeamento das cerca de 210 lnguas faladas no
pas (http://www.ibge.gov.br/censo2010/). Um censo uma espcie de corrida contra o tempo, em
termos de atualizao de nmeros. Por exemplo, desde que voc comeou a ler esta nota de rodap, j
nasceram mais de 6 brasileiros (o ritmo estimado de 4,2 nascimentos/minuto).
18
Veja http://www.ibge.gov.br/censo/divulgacao_impresso.shtm

18 A. F. Beraldo
1.1 O Mtodo Estatstico

Figura 1.15: Universo e Amostra

A extrao dos elementos do Universo que iro compor a Amostra um processo


que recebe o nome de Amostragem. A Amostragem consiste em uma srie de tcnicas
cuja finalidade fazer com que os princpios de aleatoriedade sejam respeitados.

A Amostra, por ter um tamanho muito inferior ao tamanho do Universo, pode


ser observada em sua totalidade (ao contrrio do Universo). Estas observaes so
chamadas medidas estatsticas, ou, mais simplesmente, estatsticas (veja o quadro a
seguir).

A. F. Beraldo 19
1. Introduo Estatstica

Figura 1.16: Estatstica e Parmetros

Uma estatstica uma medida descritiva de uma varivel da amostra, e recebe


como smbolo, uma letra do alfabeto latino.

Aps o clculo das estatsticas, prossegue-se com um outro processo estatstico:


a Inferncia, que consiste no clculo dos parmetros (populacionais) a partir das
estatsticas (amostrais).

Populao = Parmetro.
Amostra = Estatstica.

20 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos

Portanto, h uma correspondncia entre as medidas amostrais (estatsticas) e as


medidas populacionais (parmetros). Esta correspondncia expressa da seguinte
maneira:

Parmetro = Estatstica Margem de erro

A margem de erro pode ser interpretada como a diferena existente entre as


medidas de uma amostra e as do universo de onde foi extrada. Cada estatstica
possui a sua margem de erro. A margem de erro funo:

Do Nvel de Confiana com que se est trabalhando;

Do tamanho da amostra, n;

Das condies do Universo (infinito ou finito), e da disperso de seus valores;

Do tipo de amostragem que foi realizado (com reposio ou sem reposio).

Todas estas condies sero extensamente estudadas na Apostila Estatstica III.

1.2 Atributos e Variveis: a Natureza dos dados


Estatsticos
Na seo anterior, falamos de atributos, que seriam algo como as qualidades ou
caractersticas que todos os elementos de um Universo (e das amostras dele extradas)
possuiriam. Estes atributos so uma espcie de caracterstica comum aos elementos
do Universo. Por exemplo, seja o Universo 1 constitudo por todos os alunos das
universidades brasileiras. O atributo em comum destes elementos do Universo estar
matriculado em algum curso de alguma universidade brasileira. Seja um subconjunto
deste Universo 1 , que chamaremos de 2 , formado por elementos que pertencem s
universidades federais. Seu atributo comum estar matriculado em algum curso de
alguma universidade federal brasileira. Seja, outra vez, outro subconjunto do Universo
2 , que chamaremos de 3 , que consiste nos estudantes da UFJF. Seu atributo em
comum : estar matriculado em algum curso da UFJF. A figura a seguir ilustra a
disposio destes conjuntos:

Continuemos com o conjunto 3 : alunos matriculados em algum curso da UFJF.


Alm deste atributo comum, estes elementos do Universo 3 possuem diversas ca-
ractersticas: curso em que esto matriculados, nvel do curso, idade, sexo, estado

A. F. Beraldo 21
1. Introduo Estatstica

Figura 1.17: Conjuntos universo

civil, estatura, peso, naturalidade, classe social, classe econmica, nmero de matrcula,
pontuao no vestibular, tipo de moradia em Juiz de Fora, e muitas, muitas outras.
Estas caractersticas, daqui por diante, passam a se chamar variveis.

Uma varivel uma caracterstica dos elementos do Universo (e da Amostra) que


pode ser valorada.

Por exemplo, a varivel curso em que esto matriculados. Pode assumir os


valores Arquitetura, Direito, Medicina, Psicologia, Administrao, tantos quantos
forem os cursos oferecidos pela UFJF. A varivel nvel do curso pode assumir os
valores Graduao, Especializao, Mestrado, Doutorado... A varivel idade pode
assumir valores que vo de, digamos, 16 anos at 70 anos. A varivel estatura pode
assumir valores, digamos, de 1,00m a 2,30m. E assim por diante.

O domnio da varivel (tipo de valores que a varivel pode assumir) que determina
o tipo da varivel.

22 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos

Estes podem ser:

Figura 1.18: Variveis

Uma varivel dita quantitativa ou numrica quando assume exclusivamente


valores numricos (que representam quantidades). So discretas quando estes valores
N
pertencem ao conjunto dos Naturais ( ), mais o zero ( v : 0, 1, 2, 3, 4, 5, . . . ). Geral-
mente, estes valores so resultado de um processo de contagem.

Uma varivel quantitativa (ou numrica) contnua quando pode assumir valores
R
pertencentes ao conjunto dos Reais, (v ). Geralmente, estes valores so resultado de
uma medio.

Uma varivel dita qualitativa, categrica ou nominal, quando pode assumir


apenas valores no-numricos (palavras, sinais, ou nmeros que no representam quan-
tidades). Ser dicotmica se seu domnio conter apenas dois valores, ser politmica
se o seu domnio conter mais de dois valores.

No exemplo que estudamos, a varivel idade quantitativa discreta. Pode assumir


os valores 16, 17, 18, ... , 70. A varivel estatura quantitativa contnua, podendo
assumir qualquer valor entre 1,00m e 2,30m: 1,01m, 1,02m, 1,03m, ... , 2,29m, 2,30m.

A varivel sexo qualitativa (ou nominal) dicotmica, podendo assumir os


valores masculino ou feminino . O curso em que o aluno est matriculado
uma varivel qualitativa politmica, que pode assumir os valores Engenharia,
Medicina, Direito, Enfermagem, etc.

Classificao quanto a natureza


Algumas vezes uma mesma caracterstica do Universo pode ser estudada por mais de
uma varivel. Por exemplo, a classificao econmica dos moradores de um bairro: pes-

A. F. Beraldo 23
1. Introduo Estatstica

quisando por domiclio, podemos simplesmente perguntar qual o rendimento familiar


mensal dos moradores do domiclio; podemos estimar esta renda perguntando o valor da
conta de energia eltrica; podemos perguntar quais e quantos eletrodomsticos existem
no domiclio, e a escolaridade dos moradores..., enfim, existem vrias formas de conseguir
dados sobre esta caracterstica, cada um deles apurado atravs de uma varivel.

As variveis so tambm tipificadas segundo sua Natureza, ou Nvel de Mensu-


rao. Esta uma categorizao muito til na descrio de amostras, mas requer um
estudo mais apurado, quando precisamos decidir qual tipo de varivel mais adequado
(e qual varivel a mais adequada) para descrevermos determinada caracterstica de um
Universo19 .

Varivel nominal: O nvel mais baixo de informao o das variveis nominais


dicotmicas que, como vimos, podem assumir apenas dois valores, opostos e comple-
mentares: sim ou no, ligado ou desligado, defeituoso ou no defeituoso. Em seguida,
temos as variveis nominais politmicas, que podem assumir mais de dois valores.
Por exemplo, estado civil: solteiro, casado, unio estvel, separado, divorciado, vivo,
outros.

Varivel nominal ordinal: uma varivel nominal politmica cujos valores podem
ser colocados em ordem de intensidade (ou de frequncia, ou de gravidade, entre outras
qualificaes). Por exemplo, as respostas questo:

Em relao reserva de vagas nas universidades federais (poltica de cotas), voc:

 Discorda totalmente;

 Discorda;

 No sei avaliar;

 Concorda;

 Concorda totalmente.

Varivel intervalar: uma varivel quantitativa, em que os valores esto dispostos


em uma escala, e os intervalos entre os pontos da escala so fixos e iguais. Por exemplo,
19
Esta uma tarefa muito complexa. Uma boa parte do tempo de planejamento das pesquisas deve
ser dedicada a este processo. Veja Apostila IV Metologia de Pesquisa

24 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos

as escalas de temperatura, como a escala Celsius20 : 0 C corresponde ao ponto do gelo e


100 C que corresponde ao ponto de ebulio da gua, medidos pela coluna de mercrio
de um termmetro. Estes dois pontos foram convencionados, e a distncia entre eles foi
dividida em cem partes, e variao da temperatura entre 10 C e 15 C a mesma que

entre 15 C e 20 COutro aspecto a considerar que o valor de 0 C no significa que no
h temperatura, e sim, que a temperatura de 0 C .

importante notar que um corpo a 60 C no duas vezes mais quente que um


corpo a 30 C. Temperatura varivel intervalar e quente (ou frio) valor de uma
varivel nominal ordinal.

Varivel de razo: So as variveis cujos valores so mltiplos ou submltiplos de


uma unidade convencionada, podendo haver uma correspondncia linear (como no caso
das variveis estatura, peso, tempo, valores monetrios) ou no-linear (exponencial ou
logartmica). No caso de uma varivel de razo, o valor 0 (zero) corresponde a ausncia
de, e no uma conveno, como o caso das variveis intervalares.

Em casos que a evoluo dos valores linear, como por exemplo, as medidas
de comprimento (estatura, distncia), a unidade o metro, e, se dizemos que o
comprimento de uma sala de aula de 8m, estamos falando que o comprimento da
sala de 8 x 1m (oito vezes um metro). O mesmo vale para peso, tempo, volume, rea,
e outras.

H casos em que a correspondncia no linear, ou quando o intervalo entre dois


pontos de uma escala no fixo. Por exemplo, as escalas que utilizam logaritmos, como
as escalas Richter21 intensidade de terremotos, e a escala de decibis intensidade
do som e do rudo. Dizer que um terremoto alcanou 4 graus na escala Richter no
significa que sua intensidade foi duas vezes a de um terremoto de grau 2, e sim, a 100
vezes a de um terremoto grau 2. No caso da escala de rudos, a intensidade do rudo
medida em decibis (dB), sendo que a variao de 1 dB corresponde a uma variao de
10 vezes na potncia do som ou do rudo.

20
Anders Celsius (1701-1744), astrnomo e cientista sueco. Curiosamente, quando foi inventada, a
escala Celsius era ao contrrio: 0 C correspondia ao ponto de ebulio e 100 C ao ponto do gelo
da gua. Depois de sua morte, a escala passou a ter o sentido e direo atual.
21
Charles Richter (1905-1985) e Beno Gutenberg, do California Institute of Technology, propuseram
em 1935 a escala de medida sismogrfica que, no comeo, tinha a finalidade de medir unicamente os
terremotos que se produziram na Califrnia (EUA). A escala Richter corresponde ao logaritmo da
amplitude das ondas a 100 km do epicentro. Era graduada de 1 a 9, mas, depois de tremores que
ultrapassam o grau 9, , uma escala aberta (sem limite superior).

A. F. Beraldo 25
1. Introduo Estatstica

Exemplo 1.1. Propaganda de carro: destacamos as variveis:

Figura 1.19: Caractersticas de um automvel

Notar que as variveis dados de razo sempre se referem a uma base: o melhor
exemplo est no preo do carro, fornecido tanto em reais quanto em dlares.

Comentrios:

1. Discretas ou Contnuas? Notar que as variveis numricas discretas podem ser


tratadas como se fossem contnuas. Um dos problemas que so resolvidos pela
Estatstica, como foi dito, o de efetuar contagens em conjuntos muito grandes.
Mesmo para estes conjuntos (o nmero de analfabetos no pas, por exemplo), o
resultado desta contagem pode ser calculado com uma preciso razovel, usando
um mtodo estatstico chamado Estimao. Sem entrar em detalhes, neste
momento, podemos dizer que estimar uma quantidade calcular um intervalo
numrico em que o valor mais provvel de uma medida esteja nele contido.
Note que escrevemos intervalo numrico, ou seja, a grosso modo, entre dois
nmeros. Diz-se que uma pessoa tem entre 120.000 a 140.000 fios de cabelo,
isto , ela tem entre 120 mil e 140 mil fios de cabelo. Este resultado obtido
assim: divide-se a rea total do couro cabeludo do cidado em quadradinhos de
rea igual, digamos, 1 cm2 de rea. Para simplificar, vamos supor que o couro
cabeludo contenha 1.000 quadradinhos. Sorteia-se uma srie de quadradinhos,
digamos, uns trinta quadradinhos. Em cada quadradinho sorteado conta-se o
nmero de fios de cabelo, e calcula-se a mdia de fios de cabelo por quadradinho.
Calcula-se tambm outra estatstica, chamada desvio padro, que , por assim

26 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos

dizer, a faixa de variao da mdia. Se a mdia foi de 290 fios de cabelo por
quadradinho, e o desvio padro de 50 fios de cabelo por quadradinho, dizemos que
o nmero de fios de cabelo, por quadradinho, est entre 240 e 340. Como so
1.000 quadradinhos, dizemos que a pessoa possui entre 240.000 e 340.000 fios de
cabelo. Note que nmero de fios de cabelo , a priori, uma varivel numrica
discreta. Quando seu valor se torna muito grande, d-se a ela um tratamento de
varivel numrica contnua.

2. Variveis Categricas Dicotmicas: este tipo de varivel tambm muito


utilizado pela Estatstica. Dissemos que ela pode assumir os valores S e N (sim
e no). Estendendo o raciocnio, podemos dizer que esta varivel pode assumir
dois valores, opostos e complementares, e que so mutuamente excludentes,
ou seja: a varivel possui dois estados, que no podem ocorrer simultaneamente.
Por exemplo: cara ou coroa, no lanamento de uma moeda; masculino ou
feminino, no nascimento de uma criana; ligado ou desligado, para um
aparelho eltrico. Notar que muitas vezes atribui-se um valor numrico aos
estados da varivel, como, por exemplo, 1 para ligado e 0 para desligado.
Deve-se prestar ateno a este caso, porque, apesar de termos valores numricos,
estes apenas simbolizam os estados da varivel, que deve continuar sendo entendida
e tratada como varivel categrica, e no como varivel numrica.

3. Por outro lado, podemos substituir as categorias de uma varivel qualitativa por
nmeros, se esta varivel qualitativa possui um carter hierrquico ou ordinal, ou
mesmo de graduao em nvel ou intensidade. Por exemplo, em uma pesquisa de
opinio pblica a respeito do presidente da repblica, as respostas possveis so:
timo, bom, regular, ruim ou pssimo (variveis qualitativas). Devido
ao alto grau de subjetividade nesta conceituao, pode-se substituir a pergunta da
pesquisa por outra: Qual nota, numa escala de 0 a 10, voc daria ao Presidente
da Repblica?. Com este procedimento, tenta-se tornar a pesquisa mais objetiva,
com a utilizao de variveis quantitativas. O inverso pode tambm ser utilizado:
as famlias de um bairro podem ter uma classificao scio-econmica A, B, C, D
ou E (varivel qualitativa) conforme sua renda familiar (varivel quantitativa).

4. Muitas vezes voc encontrar variveis qualitativas identificadas por nmeros.


Por exemplo, em um questionrio acerca do estado civil de um elemento amostral,
pode-se identificar solteiro por 01, casado por 02, divorciado por 03,
etc. preciso no confundir este valores, digamos, pseudo-numricos, com valores
de uma varivel quantitativa. Estado civil uma varivel qualitativa e deve
ter o tratamento correspondente, adequado. Outro exemplo: no seu nmero de
matrcula, consta, digamos, o dgito 04 - que corresponde ao curso no qual voc

A. F. Beraldo 27
1. Introduo Estatstica

est matriculado. Apesar de ser um nmero, estes dgitos representam variveis


qualitativas.

5. Atributos e Variveis: Tempos atrs, fazia uma distino entre atributos e vari-
veis. Atributo era uma espcie de caracterstica do elemento amostral que pouco
ou nada variava, como sexo, naturalidade, data de nascimento, e outras. J a
varivel seria uma caracterstica que se alterava mais frequentemente.

Variveis latentes
At agora, falamos apenas de variveis objetivas, como peso, estatura, sexo,
classe econmica. So variveis cujos valores podem ser diretamente apurados, seja
por questionrios e entrevistas, seja pela observao dos coletores de dados, seja por
instrumentos apropriados de medio. Existe, no entanto, um outro extenso grupo de
variveis que no so passveis de serem medidas direta e objetivamente, mas cujos
valores (ou estados) so estimados - so as chamadas variveis latentes, muito
comuns em Psicologia, Cincias Sociais, Educao, Economia e Administrao. Alguns
exemplos: Qualidade de Vida, Satisfao do Consumidor, Nvel de Participao Poltica,
Nvel de Aprendizagem, Inteligncia, Aptido Fsica...

Por exemplo, como medir algo que convencionamos chamar de Qualidade de Vida?
Deve-se, primeiro, definir o qu seja Qualidade Vida, e de quem: da populao em
geral, dos jovens, das mulheres, dos deficientes fsicos? O que seria Aptido Fsica?

A definio do significado de uma varivel latente feita a partir de estudos tericos,


muitas vezes acompanhados de pesquisas qualitativas. Esta definio chamada de
constructo, e procura desmembrar a varivel latente em uma srie de variveis cujos
valores podem ser obtidos de forma direta. Veja o exemplo 1.2 a seguir:

Exemplo 1.2. Uma pesquisa dos alunos do curso de Cincias Sociais procurou medir o
Nvel de Satisfao dos moradores do Bairro Alfa. Nvel de Satisfao uma varivel
latente, como foi dito, e no pode ser medida direta e objetivamente.

A equipe resolveu, ento, elaborar um constructo em que a varivel Qualidade de Vida


foi segmentada nos fatores Sade, Educao, Segurana, Transporte, Lazer, Comrcio,
e Vizinhana, cuja avaliao foi feita pelos respondentes a um questionrio aplicado a
600 moradores do bairro.

Por exemplo, o fator Sade foi medida pela avaliao feita pelos respondentes, em
questes como:

28 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos

Em relao ao atendimento do Posto de Sade, voc est:

 Totalmente Insatisfeito
 Insatisfeito
 NSA No Sei Avaliar
 Satisfeito
 Totalmente Satisfeito

As respostas eram pontuadas de 1 a 5. A pontuao de cada fator foi a soma


das pontuaes das questes a ele relativas. A menor pontuao de um fator, por
respondente, era 5, a maior, 25 pontos. Foi utilizada a mediana como medida de
tendncia central22 de cada fator.

Adicionalmente, adotou-se o seguinte critrio:

Entre 5 e 10 pontos Fator mal avaliado

Entre 11 e 18 pontos Fator avaliado como regular

Entre 19 e 25 pontos Fator bem avaliado

Veja um dos resultados da pesquisa no grfico a seguir. Avalie cada fator segundo o
critrio dado.

Figura 1.20: Resultados da pesquisa (dados fictcios)

22
A mediana e demais medidas de tendncia central so estudadas no prximo captulo.

A. F. Beraldo 29
1. Introduo Estatstica

Alm deste Captulo, pratique:

Faa agora os exerccios da Lista 1.1 - Distribuies de


Frequncias.

Assita ao audiovisual AV01 - Introduo Estatstica.

Faa o Estudo Dirigido ED01 - Introduo Estatstica /


Variveis.

30 A. F. Beraldo
2 Medidas Estatsticas de Tendncia Central
Medidas de Tendncia Central procuram caracterizar um conjunto de n dados
numricos por apenas um valor. Esta parece ser uma tendncia natural das pessoas:
quando se tm uma srie de valores procura-se um valor mdio, pelo qual se identifica
o conjunto. muito comum se ouvirem frases do tipo os aluguis esto em torno de
R$ 250,00, ou so meninos na faixa de 12 anos, ou ainda o jogador faz cerca de 2
gols por partida. Expresses como em torno, cerca de, na faixa de, ou ainda em
mdia, traduzem esta tentativa de adotar-se um valor nico para identificar um
conjunto de valores.

A Estatstica possui um conjunto de Medidas de Tendncia Central que, conforme


o caso, fornecem este valor nico, caracterstico dos dados existentes na amostra.
Tenha em mente que estamos tratando apenas de variveis quantitativas. Variveis
qualitativas sero abordadas em outra parte desta Apostila.

As Medidas de Tendncia Central que estudaremos nesta parte sero a mdia, a


moda, a mediana e o ponto mdio. Existem outras estatsticas de tendncia central
que sero citadas, quando necessrio.

2.1 Mdia
2.1.1 Mdia Aritmtica

Definio: A mdia, ou mdia aritmtica, de um conjunto de n valores numricos


definida como a razo entre a soma destes valores e o tamanho do conjunto.

Seja um conjunto A de n valores numricos, descrito como:

A = {x1 , x2 , x3 , , xn }

Define-se sua mdia aritmtica, ou simplesmente, mdia, notada por X.

A. F. Beraldo 31
2. Medidas Estatsticas de Tendncia Central

P
xi
X= (2.1)
n

Onde: X a mdia aritmtica do conjunto, n o tamanho (nmero de elementos)


do conjunto.

Exemplo 1.1 Seja o conjunto A = {1, 2, 4, 8, 0, 3}. Sua mdia ser:

P
xi 1+2+4+8+0+3 18
X= = = = 3, 0
n 6 6

Note que o elemento 0 entra na conta, no somatrio de xi .

Exemplo 1.2 Seja o conjunto B = {8, 2, 5, 6, 4, 2, 2, 1}. Sua mdia ser:

82+5+64+2+21
P
xi 16
X= = = = 2, 0
n 8 8

Note que elementos com sinal negativo mantm o sinal, no somatrio.

Exemplo 1.3: Seja o conjunto C = {1, 2, 4, 3, 2, 2, 2, 3, 2, 1, 2}. Sua mdia ser:

P
xi 1+2+4+3+2+2+2+3+2+1+2 24
X= = = = 2, 18
n 11 11

Note que a mdia pode ser fracionria, ou seja, pode assumir um valor que, primeira
vista, pode parecer absurdo, como o caso de 1,3 filhos por casal, ou 0,96 gols por
partida.

Comentrios

1. Note que mdia um termo tcnico, matemtico. Devemos diferenciar o conceito


que temos, no cotidiano, da palavra mdia. Quando dizemos que uma pessoa
possui estatura mdia, na linguagem do dia-a-dia, no-tcnica, queremos dizer
que ela no alta nem baixa. Quando dizemos que um aluno est na mdia,
queremos dizer que suas notas situam-se em torno de uma nota mdia, adotada

32 A. F. Beraldo
2.1 Mdia

pela escola ou pelo curso que frequenta. Isto bem diferente do conceito que
acabamos de estudar.

2. A mdia de um conjunto nem sempre poder ser adotada como valor caracterstico
deste conjunto. Conjuntos muito irregulares (com valores extremos) tambm
possuem mdia, mas esta pode no caracterizar o conjunto. Por exemplo, se numa
prova aplicada a uma turma de alunos a metade dos alunos tirou nota 3 e a outra
metade tirou nota 7, a mdia ser 5. No entanto:

a Nenhum aluno tirou nota 5;


b Se voc disser esta uma turma nota 5, estar superestimando metade da
turma (a que tirou nota 3) e subestimando a outra metade (a que tirou nota
7).

2.1.2 Mdia Aritmtica Ponderada


A mdia aritmtica ponderada aplicvel quando um conjunto de valores possui
elementos que se repetem. Por exemplo, o conjunto A:

A = {1, 1, 5, 5, 5, 6, 6}

No conjunto acima, o elemento 1 repete-se duas vezes, o elemento 5 repete-se trs


vezes e o elemento 6 repete-se duas vezes. Diz-se, ento, que o elemento 1 tem peso 2
(duas repeties), o elemento 5 tem peso 3 e o elemento 6 tem peso 2. Ao calcularmos
a mdia do conjunto teramos:

P
xi 1+1+5+5+5+6+6 29
X= = = = 4, 14
n 7 7

Podemos simplificar as operaes, fazendo

(1 2) + (5 3) + (6 2)
P
xi 29
X= = = = 4, 14
n 7 7

Ao invs de somar 1 + 1, preferimos fazer 1 2; ao invs de somar 5 + 5 + 5,


calculamos 5 3 . O mesmo com 6 + 6 substitudo por 6 2. O resultado o mesmo,
mas o nmero de operaes ficou reduzido - mais prtico calcular assim. No exemplo
acima o conjunto pequeno (7 elementos). Em conjuntos maiores, a praticidade de

A. F. Beraldo 33
2. Medidas Estatsticas de Tendncia Central

utilizar-se a multiplicao dos elementos por seus pesos fica bem mais evidente. De uma
forma geral, introduzimos a mdia aritmtica ponderada X P , dada por:

Pj=k
xj p j
X P = Pj=1
j=k (2.2)
j=1 pj

onde xj so os elementos repetidos do conjunto, e pj so os pesos(nmero de vezes


em que os elementos ocorrem no conjunto). Veja o exemplo a seguir:

Seja A = {4, 4, 4, 5, 5, 7, 7, 7, 7, 3, 3, 2, 2, 2, 2, 2, 6} . Calculando a mdia de A, optamos


por utilizar a mdia ponderada:

xi p i (4 3) + (5 2) + (7 4) + (3 2) + (2 5) + (6 1)
P
XP = P =
pi 3+2+4+2+5+1
72
= = 4, 24
17

Nota: as propriedades da mdia aritmtica se aplicam igualmente mdia aritmtica


ponderada.

2.1.3 Mdia Geomtrica


Seja um conjunto A de n valores numricos, descrito como:

A = {x1 , x2 , x3 , , xn }

Define-se a sua mdia geomtrica como:


XG = n
x1 x2 x3 xn (2.3)

ou seja, a mdia geomtrica do conjunto, X G , a raiz n-sima do produtrio dos


elementos xi do conjunto.

Por exemplo: seja o conjunto A = {1, 4, 5, 6, 3}. Sua mdia geomtrica dada por:

34 A. F. Beraldo
2.1 Mdia


5
XG = n
x1 .x2 .x3 . .xn = 5 1 4 5 6 3 = 360 = 3, 245

Lembre-se que:

1. No conjunto dos Reais, R, no existe raiz par de nmero negativo.


2. Se voc estiver utilizando calculadoras que possuem a funo xy , a expresso acima
para o clculo da mdia geomtrica pode ser reescrita como:

1
X G = (x1 x2 x3 xn ) n

3. Se voc estiver utilizando logaritmos, a expresso do clculo da mdia geomtrica


passa a ser:

1 
log X G = log x1 + log x2 + log x3 + ... + log xn
n

2.1.4 Mdia Harmnica


Seja um conjunto A de n valores numricos, descrito como

A = {x1 , x2 , x3 , , xn }

Define-se sua mdia harmnica como:

n
X H = Pi=n 1 (2.4)
i=1 xi

A. F. Beraldo 35
2. Medidas Estatsticas de Tendncia Central

Por exemplo, seja o conjunto A = {3, 4, 6, 2}. Sua mdia harmnica X H dada por

n 4 4
XH = P 1 = 1 = = 3, 20
xi 3
+ + 16 +
1
4
1
2
15
12

Nota: Como voc deve ter notado, ao analisar a frmula de clculo da mdia
harmnica, esta no existe no campo real se:

1. Existir pelo menos um elemento do conjunto igual a zero.


P 1
2. O somatrio xi
for igual a zero.

Nota: A partir deste ponto, iremos utilizar a notao X para as mdias aritmticas
Simples e Ponderadas, X G para a mdia geomtrica e X H para a mdia harmnica.

Comentrios

1. Aplicao das Mdias Geomtrica e Harmnica:


A mdia geomtrica deve ser utilizada quando os valores do conjunto esto colo-
cados em alguma forma de progresso geomtrica ou quando os valores mostram
a evoluo exponencial de uma grandeza. muito utilizada quando os valores
da amostra so nmeros ndices. A mdia geomtrica aplicada, por exemplo,
no clculo das mdias de taxas: de inflao, de preos, de juros, de evoluo
de ndices econmicos, etc. bastante utilizada, tambm, em Demografia e em
Epidemiologia.
A mdia harmnica aplicada em taxas ou coeficientes por quantidades fixas,
como, por exemplo, nos ndices utilizados em sade pblica: bitos por 10.000
habitantes, incidncia de uma doena por 1.000 habitantes, etc.

2. Se um conjunto possui apenas valores positivos, temos sempre a seguinte relao:

X XG XH

Os casos de igualdade entre as mdias referem-se a conjuntos com valores iguais.


Para exemplificar esta relao, utilizamos o conjunto formado pelos nmeros 1, 2, 4.

36 A. F. Beraldo
2.1 Mdia

Sua mdia aritmtica dada por:


P
xi 1+2+4
X= = = 2, 3
n 3
A mdia geomtrica dada por:


3

3
XG = 124= 8=2

A mdia harmnica dada por:

3 3 3
XH = = = = 1, 71
1 1 1 4+2+1 1, 75
+ +
1 2 4 4
3. Voc pode ver que as mdias Harmnicas e Geomtricas no so to afetadas
pela existncia de valores extremos no conjunto.

4. As mdias aritmticas so diretamente afetadas pelos prprios valores do con-


junto. Lembre-se que a mdia aritmtica o resultado de uma operao matem-
tica que envolve tanto o nmero de elementos do conjunto (denominador) quanto
o somatrio destes valores (numerador).

5. Vantagens do uso da mdia:

A mdia a Estatstica de Tendncia Central de mais fcil compreenso.


utilizada de forma generalizada, na Estatstica Descritiva e na Inferencial;
A mdia sempre pode ser calculada em conjuntos numricos;
Pode ser tratada algebricamente. Por exemplo, se um conjunto muito grande
de valores subdividido, as mdias dos subconjuntos podem ser combinadas,
para fornecer a mdia do conjunto original.

6. Desvantagens do uso da mdia:

Como seu valor pode ser distorcido pela presena de elementos extremos no
conjunto, h de se fazer uma verificao na distribuio destes valores, para
julgar se a mdia boa ou ruim para caracterizar o conjunto.

A. F. Beraldo 37
2. Medidas Estatsticas de Tendncia Central

2.1.5 Propriedades da Mdia Aritmtica

Propriedade I
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A .
Seja um conjunto B, definido como:
B = {x1 + k, x2 + k, x3 + k, , xn + k} = {xi + k}n , (sendo k uma constante) e
com mdia X B .
A mdia X B ser igual a X A + k.
Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores de um
conjunto, a nova mdia ser a mdia do conjunto original somada (ou diminuda)
a esta constante K.

Propriedade II
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A .
Seja um conjunto B, definido como:
A = {x1 k, x2 k, x3 k, , xn k} = {xi k}n , e com mdia X B .
(sendo k uma constante diferente de zero)
A mdia X B ser igual a X A k.

Propriedade III
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A .
Sejas as diferenas (ou desvios) di = xi X A (diferena entre cada elemento do
conjunto em relao mdia). Temos que:

i=n
X
di = 0
i=1

Ou seja, a soma algbrica dos valores das diferenas dos elementos em relao
mdia do conjunto sempre nula.

38 A. F. Beraldo
2.2 Moda

Propriedade IV
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A .
Sejam as diferenas (ou desvios) di = xi V (diferena de cada elemento do
conjunto em relao a um valor V qualquer.
Pi=n 2
Temos que d
i=1 i um mnimo quando V = X A .

2.2 Moda

Definio: A moda de um conjunto de valores numricos o valor de maior


frequncia dentro do conjunto.

Assim, um conjunto pode possuir uma moda apenas, ou pode possuir mais de uma
moda, ou pode no possuir moda. Para que um conjunto possua moda, necessrio
que:

1. Existam valores repetidos no conjunto;

2. No conjunto, existam um ou mais valores que se repitam mais vezes do que os


demais.

A moda notada
 por
 X.
c A frequncia da moda, ou das modas, chamada
frequncia modal fk .

  Seja o conjunto A = {1, 3, 4, 5, 5, 8, 5}. Sua moda X = 5, a frequncia


Exemplo: c
modal fk = 3 (o elemento 5 repete-se mais do que os demais, e repete-se 3 vezes).

Exemplo: Sejao conjunto


 B = {1, 3, 4, 5, 5, 8, 4}. Suas modas so X
c=5 e X
c = 4, e
frequncia modal fk = 2 (os elementos 5 e 4 repetem-se mais do que os demais, sendo
2 vezes cada).

Exemplo: Seja o conjunto C = {1, 1, 4, 5, 5, 4}. Este conjunto no possui moda.


Apesar de haver repetio de valores, nenhum valor do conjunto repete-se mais
vezes que os demais.

Exemplo: Seja o conjunto D = {1, 1, 1, 1, 1, 1}. Este conjunto no possui moda.


Apesar de haver repetio do valor 1, nenhum valor do conjunto repete-se mais do que
os demais. Apesar disto, bvio que o valor 1 o valor caracterstico do conjunto.

A. F. Beraldo 39
2. Medidas Estatsticas de Tendncia Central

Comentrios

1. A moda no muito considerada pelos estatsticos uma vez que ela pode no
ocorrer ou, o que pior, pode existir mais de uma moda na amostra. Desta forma,
ficaramos em dvida de qual dos valores da moda usar - lembre-se que uma medida
de tendncia central tem que ser um valor nico.

2. Muitos alunos tendem a procurar sub-modas na distribuio, quando h elemen-


tos com frequncia prxima frequncia modal. Isto no correto. A moda ter
a maior frequncia dentro do conjunto.

3. Outro erro muito comum , quando a distribuio possui duas modas, inventar-se
uma moda mdia, que seria o valor mdio entre as modas. Esta moda mdia
no existe.

4. Mesmo que a moda possa no ser utilizada como Medida de Tendncia Central (no
caso de duas ou mais modas, por exemplo), ela no perde sua utilidade. As modas
fornecem indcios que existem vrios pontos de concentrao na amostra, o que
pode caracterizar um conjunto formado por vrios subconjuntos - e assim que a
amostra deve ser analisada.

5. A moda diretamente afetada pelo nmero de repeties dos elementos do


conjunto.

6. Vantagens da moda:

a Quando a frequncia modal alta (por exemplo, 50% do conjunto), a moda


passa a ser o valor tpico do conjunto;
b A moda no afetada por valores extremos do conjunto;
c Ao contrrio da mdia, se um conjunto possui moda(s), esta(s) pertence(m)
necessariamente ao conjunto.

7. Desvantagens da moda:

a A moda pode no existir;


b O conjunto pode ser bimodal ou polimodal
c A frequncia modal muito baixa (poucas repeties), o que torna a moda no
caracterstica do conjunto.

40 A. F. Beraldo
2.3 Mediana

2.3 Mediana

Definio: A mediana o valor central de um conjunto ordenado.

A mediana notada por X.


f

Seja o conjunto A = {1, 4, 6, 3, 9}. Para calcular sua mediana, temos que ordenar o
conjunto (vide definio acima). Ordenado, o conjunto passa a ser:

A0 = {1, 3, 4, 6, 9}

O valor central (no meio do conjunto) o elemento 4. Portanto, a mediana deste


conjunto X
f = 4.

Em conjuntos pequenos, de tamanho mpar, fcil determinar a mediana. Se o


conjunto possui n elementos e n mpar, a mediana ocupa a posio central (n + 1)/2.
No exemplo acima, como o conjunto possui 5 elementos, a mediana est na 3a posio,
pois (5 + 1)/2 = 3.

Figura 2.1: Conjunto de tamanho mpar

No entanto, em conjuntos pequenos, de tamanho par, temos duas posies centrais:

Figura 2.2: Conjunto de tamanho par

A. F. Beraldo 41
2. Medidas Estatsticas de Tendncia Central

Neste caso, a mediana ser a mdia dos dois valores centrais. Por exemplo, seja
o conjunto B = {1, 0, 3, 5, 4, 9, 2, 1}. O conjunto ordenado ser:

B 0 = {0, 1, 1, 2, 3, 4, 5, 9}

Os valores centrais so 2 e 3. Portanto, a mediana deste conjunto X


f = (2 + 3)/2 =
2, 5.

Comentrios

1. A mediana considerada a Medida de Tendncia Central mais robusta, uma vez


que no sofre a desvantagem da mdia de se alterar devido presena de valores
extremos.

2. Como se v, o valor da mediana depende apenas de sua posio. Logicamente, se


o tamanho do conjunto alterado, a mediana pode deslocar-se para cima ou para
baixo.

3. Vantagens da mediana:

a A mediana, por ser independente dos valores do conjunto, pode ser calculada
mesmo para conjuntos abertos;
b Sua robustez.

4. Desvantagens da mediana:

a A mediana no caracterstica do conjunto se a distribuio de valores for


bimodal ou polimodal (reas de concentrao diferentes);
b Se um conjunto for de tamanho par, a mediana ter que ser inventada, em
uma posio arbitrada 1 .

1
No consideremos isto uma desvantagem. Mesmo que a mediana no pertena ao conjunto, sua
finalidade como medida de tendncia central ou de posio no se perde. Sempre saberemos que 50%
dos valores do conjunto esto abaixo da mediana, e 50% acima dela. isso que importa.

42 A. F. Beraldo
2.4 Ponto Mdio

2.4 Ponto Mdio

Definio: O ponto mdio de um conjunto a mdia entre o maior valor e o menor


valor do conjunto.

O ponto mdio notado por x . A expresso de clculo :

Maior valor + Menor valor


x= (2.5)
2

Por exemplo, seja o conjunto A = {3, 8, 1, 9, 4}. Seu ponto mdio, x, dado por:

Maior valor + Menor valor 9+1 10


x= = = = 5, 0
2 2 2

A. F. Beraldo 43
2. Medidas Estatsticas de Tendncia Central

Alm deste Captulo, pratique:

Faa agora os exerccios da Lista 1.2 - Medidas de Tendncia


Central.

Faa agora uma simulao destas medidas no templates TP01 -


Estatstica Bsica.

Utilize o software DidDest para uma simulao destas medidas.

Assita ao audiovisual AV02 - Medidas de Tendncia Central


e Medidas de Disperso at o slide 32.

Faa o Estudo Dirigido ED02 - Medidas de Tendncia


Central e Disperso (parte de Tendncia Central).

44 A. F. Beraldo
3 Medidas Estatsticas de Disperso
At aqui estudamos as Medidas de Tendncia Central. Procuramos um valor nico
que represente todo um conjunto numrico. Com a determinao deste valor, seja ele
a mdia, a moda ou a mediana, aumentamos ainda mais o nvel de conhecimento que
possumos sobre a amostra. Prosseguindo nosso estudo; vamos adotar a Mdia como
Medida de Tendncia Central (por mais imperfeita que possa ser esta medida), e verificar
como os demais elementos do conjunto se dispem em torno da mdia.

Na prtica, podemos obter amostras regulares, com a maioria de seus elementos


concentrados em torno da mdia, ou irregulares, com valores dispersos, distantes
da mdia. Alguns conjuntos so extremamente regulares, como as medidas de peas
fabricadas em srie, em indstrias com um bom controle de qualidade. Outros, ao
contrrio, so bastante heterogneos como, por exemplo, as idades dos habitantes de
uma cidade - temos desde recm-nascidos at pessoas de idade bem avanada.

Figura 3.1: Conjunto A

No conjunto A, os elementos da amostra se concentram de maneira quase uniforme,


em torno da regio central (em cinza). Existem alguns elementos, inclusive, dentro da
rea cinzenta. Se imaginarmos que esta rea cinzenta representa a Medida de Tendncia
Central (no caso, a mdia), teremos um conjunto de pouca disperso em torno da mdia.

A. F. Beraldo 45
3. Medidas Estatsticas de Disperso

Figura 3.2: Conjunto B

Ao contrrio, no conjunto B, os elementos da amostra se afastam da regio central,


estando dispersos por todas as regies da amostra. Uns poucos elementos se encontram
prximos a esta regio central; o restante dos elementos da amostra se distribui irregu-
larmente. Comparando as duas ilustraes, formamos um conceito, ainda que visual, de
uma grandeza chamada disperso.

3.1 Amplitude
Amplitude (R) simplesmente a distncia entre o maior valor e o menor valor de um
conjunto de dados. Por exemplo, a Amplitude do conjunto A = {1, 3, 5, 5, 5, 8} igual
a R = 8 1 = 7.

Outra forma de mostrar a Amplitude de um conjunto a que utiliza a notao da


teoria dos conjuntos: [a, b] significando um intervalo fechado, sendo a o menor valor e b
o maior valor. Para o exemplo acima, teremos R = [1, 8].

46 A. F. Beraldo
3.2 Desvios e Desvio Mdio

3.2 Desvios e Desvio Mdio


O nosso problema, agora que j temos uma ideia visual do que seja concentrao
ou disperso, quantificar esta disperso em torno da mdia. Na ilustrao ao lado,
mostramos uma tentativa de quantificao desta grandeza. Medimos a distncia entre
cada elemento da amostra e a mdia do conjunto. Esta distncia chamada de desvio
de um elemento, que notaremos por di . Assim, cada elemento da amostra poder ter
seu desvio calculado em relao mdia. uma medida ainda bem primitiva, mas j
um comeo.

Figura 3.3: Desvios

Exemplificando, seja o conjunto A = {0, 3, 2, 7, 8, 4}. A mdia deste conjunto :

P
xi 0+3+2+7+8+4 24
X= = = = 4, 0
n 6 6

Os desvios dos elementos so calculados pela frmula:

di = xi X (3.1)

A. F. Beraldo 47
3. Medidas Estatsticas de Disperso

Onde di o desvio de um elemento xi e X a mdia do conjunto. Calculando os


desvios dos elementos do conjunto, temos:

Tabela 3.1: Desvios dos elementos do conjunto


xi di
0 0 4 = 4
3 1
2 2
7 +3
8 +4
4 0
0

Note que temos desvios negativos, positivos e nulos. Desvios negativos ocorrem
quando os elementos so menores que a mdia; desvios positivos acontecem quando os
elementos so maiores do que a mdia; desvios nulos ocorrem quando os elementos so
coincidentes com a mdia. Assim, podemos ter:

di > 0 o que indica que xi > X , ou que o elemento xi est acima da mdia X

di = 0 o que indica que xi = X , ou que o elemento xi coincide com a mdia X

di < 0 o que indica que xi < X, ou que o elemento xi est abaixo da mdia X

Repare, tambm, que a soma algbrica dos desvios em relao mdia


igual a zero. Esta uma das propriedades da mdia, que j foi estudada, e uma
maneira de conferirmos se nossas contas esto certas.

J temos uma ideia dos desvios dos elementos (ou de cada elemento), dentro do
conjunto. Ainda assim, pouco. Queremos ter uma ideia geral de como est a disperso,
como um todo, dentro da amostra. Uma ideia inicial calcular a mdia dos desvios,
ou desvio mdio. Uma frmula para o desvio mdio seria:

Pi=n
i=1| di |
d= (3.2)
n

A introduo da operao mdulo | di | se faz necessria porque a soma algbrica


dos desvios sempre igual a zero. Se assim no o fizssemos, teramos sempre d = 0.

48 A. F. Beraldo
3.3 Varincia e Desvio Padro

Utilizando a tabela 3.2 para calcular o desvio mdio, temos:

Tabela 3.2: Clculo do desvio mdio


xi di |d|
0 -4 4
3 -1 1
2 -2 2
7 +3 3
8 +4 4
4 0 0
0 14

Pi=n
i=1 | di | 14
d= = = 2, 33
n 6

O que quer dizer este valor? Este desvio mdio, de 2, 33, indica que os elementos
da amostra se desviam, em mdia, de 2, 33 unidades (acima e abaixo da mdia). Este
desvio em relao mdia, lembre-se que pode ser tanto positivo quanto negativo. Este
um valor mdio, ou seja, sofre de todas as imperfeies desta medida: fortemente
afetada por valores extremos, no se aplica a conjuntos muito irregulares, etc. Estas
desvantagens, de certa forma, distorcem aquilo que seria uma boa medida da grandeza
disperso. necessrio, ento, melhorar a forma de medir a disperso dos elementos
da amostra em torno da mdia. Existem alguns procedimentos matemticos adotados
pela Estatstica, dentre os quais o mais utilizado o clculo de uma estatstica chamada
desvio padro.

3.3 Varincia e Desvio Padro


O desvio padro foi adotado pela Estatstica para refletir, de maneira mais realista,
mais robusta1 e mais precisa a grandeza disperso nas amostras. O desvio padro o
resultado de uma operao matemtica chamada raiz mdia quadrtica dos desvios.
De uma forma mais prtica, para calcular o desvio padro melhor calcular antes, outra
estatstica chamada varincia. Por enquanto, no se preocupe com o que significa a
varincia, mas saiba que uma estatstica muito importante, intensamente utilizada em
anlises mais avanadas em Estatstica.

Definio: A varincia a mdia dos quadrados dos desvios em relao mdia.

1
Voc se lembra do que robustez, em Estatstica?

A. F. Beraldo 49
3. Medidas Estatsticas de Disperso

A varincia notada por s2 (a letra s, minscula, elevada ao quadrado). A frmula


da varincia a seguinte:

Pi=n 2
2 d
i=1 i
s = (3.3)
n1

O desvio padro a raiz quadrada da varincia. Sua frmula, portanto, :


s= s2 (3.4)

Seja o conjunto do exemplo anterior, A = {0, 3, 2, 7, 8, 4}. A mdia do conjunto,


X = 4, e os desvios foram calculados, conforme a tabela 3.3.

Tabela 3.3: Desvios dos elementos do conjunto


xi di
0 4
3 1
2 2
7 +3
8 +4
4 0
0

50 A. F. Beraldo
3.3 Varincia e Desvio Padro

Montamos mais uma coluna, direita, para conter os valores dos quadrados dos
desvios:

Tabela 3.4: Clculo dos quadrados dos desvios


xi di d2
0 4 16
3 1 1
2 2 4
7 +3 9
8 +4 16
4 0 0
0 46

A varincia, ento, ser:

Pi=n 2
2 d
i=1 i 46
s = = = 9, 2
n1 5

O desvio padro ser:


s= s2 = 9, 2 = 3, 03

Comentrios

1. A disperso dos elementos de um conjunto uma espcie de propriedade dos


conjuntos, assim como as figuras geomtricas planas possuem rea, e as figuras em
trs dimenses possuem volume.

2. Leia novamente a Propriedade IV da mdia aritmtica. por consequncia desta


propriedade que utilizamos a varincia.

3. Voc deve estar perguntando: por que, afinal, no utilizamos a varincia, apenas,
sem mais esta medida do desvio padro? A resposta a seguinte:
Suponha que estamos analisando as notas de uma turma, em que foram atribudos
pontos aos alunos, numa escala de 0 a 10. Ento, podemos ter alunos com 0
ponto, 1, 2 ou 3 pontos, e assim por diante, at alunos com 10 pontos.
Ao calcularmos a mdia das notas dos alunos, encontramos, por exemplo, o valor
6,8. Isto quer dizer que a mdia da turma 6,8 pontos.

A. F. Beraldo 51
3. Medidas Estatsticas de Disperso

Ao calcularmos as Medidas de Disperso, temos: desvios di calculados em pontos,


desvio mdio calculado em pontos, e a varincia em pontos ao quadrado (!).
Ora, esta unidade de medida, pontos ao quadrado, no existe! Para voltarmos
unidade original, temos que extrair a raiz quadrada da varincia - que justamente
o desvio padro, cuja unidade pontos... Agora, estamos sossegados.

4. A maioria dos autores faz uma distino entre o clculo da varincia e do desvio
padro referindo-se a amostras ou aos elementos do conjunto Universo (ou popu-
lao). Adotam expresses de clculo ligeiramente diferentes para s2 (varincia de
amostras) e para 2 (varincia de populaes)2 . As frmulas so:
Para amostras:

P 2
2 d
s = (3.5)
n1

Para populaes:

P 2
2 d
= (3.6)
N

Onde d2 a expresso quadrado do desvio(di = xi X), e n e N so,


respectivamente, os tamanhos da amostra e da populao, N >> n. O desvio
padro
calculado da mesmaforma, seja para amostras, seja para populaes:
s = s2 para amostras e = 2 para populaes.
Esta diferena no representa muito em termos de resultado, para n ou N
superiores a 30. Da que utilizaremos, nesta apostila, o denominador n 1 para
amostras de tamanho inferior a 30, e n, para amostras com tamanho maior ou
igual a 30. Para populaes, a mesma regra.
Se aplicssemos a frmula da varincia com n, ao invs de n 1 no denominador,
os resultados seriam: s2 = 7, 67 e s = 2, 67. O erro cometido seria de 14%, para
menos, no desvio padro. Isto ocorreu porque o tamanho do conjunto muito
pequeno, 6 elementos apenas.

2
Os motivos tcnicos para esta distino sero discutidos na Apostila III, Amostragem, Inferncia
de Testes

52 A. F. Beraldo
3.4 Coeficiente de variao

Outra frmula para o clculo da varincia pode ser deduzida da expresso que
utilizamos. a seguinte:

Pi=n 2
2 i=1d i 2
s = X (3.7)
n

Voc pode utilizar qualquer uma das expresses, dependendo da sua comodidade.

3.4 Coeficiente de variao


O coeficiente de variao (CV) a razo entre o desvio padro e a mdia do conjunto.
Sua frmula, portanto, :

s
CV = (3.8)
X

No exemplo atual, calculamos a mdia X = 4, 0 e o desvio padro S = 3, 03. O


coeficiente de variao ser dado por:

s 3, 03
CV = = = 0, 7575
X 4, 0

Nota: Na prtica, expressamos o valor do CV em porcentagem. O CV calculado


acima ser, ento, CV = 76%.

Comentrios

1. As Medidas de Disperso que estudamos analisam a disposio dos elementos


amostrais em relao mdia. Nas amostras, os elementos podem estar distantes
da mdia (dispersos), ou concentrados em torno desta Estatstica (caso das amos-
tras homogneas), ou mesmo esta disposio pode ser irregular, com uma parte
da amostra concentrada e a outra dispersa. Novamente temos que aprofundar
a anlise destas Estatsticas, assim como fizemos com as Medidas de Tendncia
Central.

2. A Amplitude fornece uma ideia preliminar de como est a disperso, a grosso modo,
na amostra. Se a varivel estatura dos indivduos que est sendo medida, uma
amostra A com Amplitude R(A) = [1, 68m, 1, 72m] deve ter, teoricamente, uma

A. F. Beraldo 53
3. Medidas Estatsticas de Disperso

disperso de valores menor do que uma amostra B, com R(B) = [1, 60m, 1, 92m]
- a faixa de valores possveis em A menor do que em B. Mas este apenas o
comeo da nossa anlise.

3. Os Desvios e o Desvio Mdio, como vimos, so medidas um tanto imperfeitas.


Mesmo assim, conveniente dispor os desvios dos elementos em uma tabela
- os desvios muito grandes em relao mdia podem indicar a existncia de
outliers"3 . Outlier, em Estatstica, o nome que se d ao elemento ou elementos
que se distanciam exageradamente da mdia, ou da regularidade do conjunto. A
existncia de outliers causa uma grande elevao das Medidas de Disperso, como
veremos a seguir.

4. Voc deve ter em mente que s o estudo de muitos conjuntos e muitas distribuies
de valores ir fornecer a voc uma boa ideia do que um desvio padro alto ou
baixo. Isto depende da varivel em estudo. As peas de um motor fabricado
em srie, por exemplo, saem da linha de montagem com as medidas praticamente
iguais, se a mquina estiver bem calibrada e lubrificada. Os desvios padres das
medidas tendem a zero, e s um exame muito minucioso ir apontar as diferenas
(mnimas) existentes entre elas. Quanto maior a regularidade e qualidade dos
processos de fabricao, menores sero os coeficientes de variao encontrados. A
regulamentao dos padres de qualidade, as normas ISO 9000 e outras, utilizam
os desvios padres e os escores padronizados para fixar os limites de tolerncia das
medidas dos produtos industriais.

5. Com outras variveis, principalmente as adotadas nas reas das Cincias Econ-
micas, Humanas e da Sade, devemos estar preparados para encontrar desvios
padres to altos que chegam a descaracterizar a mdia dos dados coletados. Mas
a Estatstica possui ferramentas que solucionam estes problemas. A Apostila III
traz algumas destas ferramentas.

6. A varincia, o desvio padro e o coeficiente de variao so utilizados em todos


os casos, para medir a disperso em relao mdia. No momento, no se
preocupe com a varincia - esta estatstica de extrema importncia, e ser objeto
de estudos mais adiante. Mas neste ponto concentremo-nos no desvio padro
e no coeficiente de variao. Neste primeiro contato, normalmente o aluno no
consegue visualizar o que seja (ou o que medido) pelo desvio padro. Vamos
tentar esclarecer, atravs do exemplo seguinte:
3
Outlier uma palavra da lngua inglesa, pronuncia-se ut-laiar. Na linguagem comum, significa
algum que no reside na cidade onde trabalha ou estuda, ou ocupa um cargo administrativo. Tambm
empregue para significar parte separada do todo. Em Estatstica, h um significado diferente: valor
fora da regularidade do conjunto.

54 A. F. Beraldo
3.4 Coeficiente de variao

Exemplo 3.1. Imagine que estamos estudando a varivel peso, expressa em


quilos, de um conjunto de 17 pessoas. Este conjunto o seguinte:

A1 = {68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68}

Ento, todas as pessoas em A1 possuem 68 kg. A mdia do conjunto, assim como


sua mediana, igual a 68 kg. Como no h variao, o desvio padro igual a 0,
e o coeficiente de variao igual a 0%. O conjunto absolutamente uniforme e
regular. Vamos modificar o conjunto, alterando os 2 primeiros e os dois ltimos
elementos, montando o conjunto A2:

A2 = {66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70}

A mdia e a mediana continuam iguais a 68, e agora, a moda pode ser calculada,
e tambm igual a 68. O conjunto no mais to regular, dada a introduo
de elementos iguais a 66 kg e 70 kg, que possuem desvios -2 kg e +2 kg,
respectivamente. O desvio padro, que reflete estas alteraes, passa a ser de
1,00 kg. O CV passa a ser de 1,5 %.

Figura 3.4: Conjunto A1 e A2, respectivamente

Alteramos ainda mais o conjunto original, e montamos o conjunto A3:

A3 = {64, 64, 66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70, 72, 72}

As Medidas de Tendncia Central (mdia, moda e mediana) permanecem as


mesmas: 68 kg. O desvio padro e o coeficiente de variao crescem para 2,24
kg e 3,3%.

A. F. Beraldo 55
3. Medidas Estatsticas de Disperso

Continuamos a alterar o conjunto inicial, montando os conjuntos A4, A5 e A6,


conforme quadro a seguir:

Tabela 3.5: Conjuntos A


Elemento (i) A1 A2 A3 A4 A5 A6
1 68 66 64 62 60 58
2 68 66 64 64 62 62
3 68 68 66 64 64 62
4 68 68 66 66 66 66
5 68 68 68 66 66 66
6 68 68 68 66 66 66
7 68 68 68 68 68 68
8 68 68 68 68 68 68
9 68 68 68 68 68 68
10 68 68 68 68 68 68
11 68 68 68 68 68 68
12 68 68 68 70 70 70
13 68 68 68 70 70 70
14 68 68 70 70 70 70
15 68 68 70 72 72 74
16 68 70 72 72 74 74
17 68 70 72 74 76 78
Mdia 68 68 68 68 68 68
Moda No h 68 68 68 68 68
Mediana 68 68 68 68 68 68
Amplitude 0 4 8 12 16 20
Desvio 0,00 1,00 2,24 3,16 4,00 4,80
padro
Coef. de 0,0% 1,5% 3,3% 4,7% 5,9% 7,1%
Variao

Repare que medida em que vamos alterando os valores do conjunto, as Estats-


ticas de Tendncia Central permanecem as mesmas, mas as Medidas de Disperso
aumentam de valor.

56 A. F. Beraldo
3.4 Coeficiente de variao

Representando graficamente estas alteraes, percebemos como a regularidade do


conjunto vai diminuindo a cada alterao:

Figura 3.5: Conjunto A4

Na Figura 3.5, conjunto A4, os elementos comeam a se espalhar mais, o que


aumenta as medidas de disperso.

Figura 3.6: Conjunto A6

Na Figura 3.6, conjunto A6, os valores esto ainda mais dispersos. O coeficiente
de variao sobe para 7,1%.
As alteraes que fizemos no conjunto provocaram um aumento na disperso e,
consequentemente, nas suas medidas: desvio padro e coeficiente de variao.

A. F. Beraldo 57
3. Medidas Estatsticas de Disperso

7. Foi dito que a existncia de outliers acarreta uma grande elevao nas medidas de
disperso. Imagine que algum tivesse cometido um erro na coleta de dados do
conjunto do exemplo anterior, e que o ltimo elemento, ao invs de ter 78 kg, foi
anotado como se tivesse 128 kg4 . A representao do conjunto a seguinte:

Figura 3.7: Outliers

As estatsticas passam a ser as seguintes:

Mdia 71
Moda 68
Mediana 68
Amplitude 70
Desvio padro 15,25
Coef.de Variao 21, 5%

Note que a mdia foi puxada para cima, mas a mediana permanece a mesma
(lembre-se que a mediana a Medida de Tendncia Central mais robusta). Mas o
desvio padro e o coeficiente de variao triplicaram de valor.

4
Na verdade, este elemento com 128 kg no to discrepante. Mais tarde, na parte de Anlise
Exploratria de Dados, voc ir aprender a identificar com maior preciso os outliers em uma
distribuio.

58 A. F. Beraldo
3.5 Propriedades da varincia

3.5 Propriedades da varincia


Propriedade I
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A e varincia SA2 .
Seja um conjunto B, definido como B = {x1 + k, x2 + k, x3 + k, , xn + k} =
{xi + k}n , e com mdia X B e varincia SB2 .

A varincia SB2 ser igual varincia SA2 .

Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores


de um conjunto, a varincia do conjunto no se altera.

Propriedade II
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A e varincia SA2 .
Seja um conjunto B, definido como:
B = {x1 k, x2 k, x3 k, , xn k} = {xi k}n ,(sendo k uma constante diferente
de zero) e com mdia X B e varincia SB2 .

A varincia SB2 ser igual varincia SA2 k 2 .

Assim, se multiplicarmos (ou dividirmos) por uma constante k(k 6= 0),


a todos os valores de um conjunto, a nova varincia ser a varincia
do conjunto original, multiplicada (ou dividida) pelo quadrado desta
constante (k 2 ).

Propriedade III
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A e varincia SA2 . Sejam um outro
conjunto B = {y1 , y2 , y3 , , yn } cujos valores so definidos como Y = aX + b .
Pelas Propriedades I e II, acima, temos que:

SB2 = a2 SA2

A. F. Beraldo 59
3. Medidas Estatsticas de Disperso

Alm deste Captulo, pratique:

Faa agora os exerccios da Lista 1.3 - Medidas de Disperso.

Faa agora uma simulao destas medidas nos templates TP01 -


Estatstica Bsica.

Utilize o software DidDest para uma simulao destas medidas.

Assita ao audiovisual AV02 - Medidas de Tendncia Central


e Medidas de Disperso (slide 33 em diante).

Faa o Estudo Dirigido ED02 - Medidas de Tendncia


Central e de Disperso (parte referente Medidas de
Disperso).

60 A. F. Beraldo
4 Estatstica em Grandes Conjuntos:
Distribuies de Frequncias
At agora, temos estudado conjuntos de tamanho pequeno, com poucos elementos.
So amostras que se prestam bem apresentao dos conceitos de Medidas de Tendncia
Central (mdia, moda, mediana) e de Disperso (varincia, desvio padro, etc.). No
entanto, em muitos dos nossos trabalhos feita a anlise estatstica de conjuntos bem
maiores, com 300, 400, 500 elementos - s vezes muito mais do que isso.

Grandes conjuntos so os que possuem mais de 30 elementos. Em termos prticos, a


diferena est na maneira de tratar matematicamente as duas categorias. obvio que,
medida que o conjunto aumenta de tamanho, teremos maior trabalho com os clculos
e com a organizao dos dados o que estudaremos nas pginas seguintes.

4.1 Frequncias Simples


Uma vez extrada a amostra de elementos do Universo, passamos a processar seus
dados, para obter as informaes que descrevem esta amostra. Estas informaes so
essencialmente numricas, ou seja, procuramos obter medidas estatsticas que iro
aumentar nosso nvel de conhecimento sobre a amostra (e, em um estgio posterior, nos
informar sobre o Universo).

Suponha que estamos fazendo uma pesquisa em um bairro da cidade, procurando


nos informar sobre a varivel renda familiar de seus moradores. Foram entrevistadas
aleatoriamente 120 pessoas, todas moradoras do bairro. As respostas foram anotadas
medida que se entrevistavam os moradores, e os resultados (chamados dados brutos)
esto a seguir (em Salrios Mnimos, ou SM):

A. F. Beraldo 61
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

8,2 3,2 4,1 5,1 5,1 5,3 9,5 11,2


1,2 1,1 1,7 2,8 4,3 3,5 3,5 4,0
5,7 7,0 7,0 5,9 6,0 7,0 8,4 8,4
8,2 3,4 3,2 3,2 3,4 3,8 13,7 14,2
21,4 15,9 5,2 5,7 6,5 7,8 7,8 7,5
2,0 2,2 12,6 12,7 19,3 20,7 24,2 4,4
4,0 3,9 3,8 6,2 6,7 6,8 6,4 6,2
6,3 7,8 7,7 7,4 8,3 8,0 7,2 7,3
9,2 10,4 10,1 9,4 12,0 11,4 11,2 12,0
11,6 9,9 9,1 11,0 10,6 10,6 1,6 1,1
3,0 2,8 1,6 2,4 1,5 4,2 4,1 3,8
3,9 1,7 2,4 2,0 3,3 3,3 4,1 4,2
15,0 14,7 13,5 8,4 11,0 16,4 16,8 16,2
1,5 5,5 6,3 3,3 2,7 3,4 2,0 2,0
2,8 3,7 5,7 5,6 4,0 3,0 2,0 4,0
Figura 4.1: Dados brutos

Os dados dispostos na figura 4.1 no apresentam qualquer organizao. Ainda no


temos ideia de qual ser a mdia ou a moda da renda familiar na amostra, ou como
est sua disperso. O passo seguinte aumentar o nvel de informao sobre a amostra,
dispondo os dados em ordem crescente, formando um conjunto chamado Rol:

1,1 1,1 1,2 1,5 1,5 1,6 1,6 1,7


1,7 2,0 2,0 2,0 2,0 2,0 2,2 2,4
2,4 2,7 2,8 2,8 2,8 3,0 3,0 3,2
3,2 3,2 3,3 3,3 3,3 3,4 3,4 3,4
3,5 3,5 3,7 3,8 3,8 3,8 3,9 3,9
4,0 4,0 4,0 4,0 4,1 4,1 4,1 4,2
4,2 4,3 4,4 5,1 5,1 5,2 5,3 5,5
5,6 5,7 5,7 5,7 5,9 6,0 6,2 6,2
6,3 6,3 6,4 6,5 6,7 6,8 7,0 7,0
7,0 7,2 7,3 7,4 7,5 7,7 7,8 7,8
7,8 8,0 8,2 8,2 8,3 8,4 8,4 8,4
9,1 9,2 9,4 9,5 9,9 10,1 10,4 10,6
10,6 11,0 11,0 11,2 11,2 11,4 11,6 12,0
12,0 12,6 12,7 13,5 13,7 14,2 14,7 15,0
15,9 16,2 16,4 16,8 19,3 20,7 21,4 24,2
Figura 4.2: Rol

Agora j podemos verificar qual o menor valor (1,1 SM) e o maior valor (24,2 SM).
No entanto, mesmo colocados em ordem, no rol, os dados ainda exigem um bom esforo
para entendermos o que se passa na amostra. O nvel de informao ainda est muito
baixo, e pode (e deve) ser melhorado se classificarmos estes dados, dividindo a amostra

62 A. F. Beraldo
4.1 Frequncias Simples

em faixas de renda. Numa primeira tentativa, vamos dividir os dados nas seguintes
faixas de renda: de 1 a 3 SM, de 3 a 5 SM, de 5 a 7 SM, e assim por diante, at uma
faixa de 23 a 25 SM. Esta diviso arbitrria, poderamos ter dividido as classes de
3 em 3 SM, de 5 em 5 SM, etc. Mas esta , como dissemos, uma primeira tentativa.
Comeamos a montar uma tabela, em que na primeira coluna colocamos a diviso que
adotamos (as faixas de renda):

Tabela 4.1: Diviso em faixas de renda


Faixas de Renda (*)
1a3
3a5
5a7
7a9
9 a 11
11 a 13
13 a 15
15 a 17
17 a 19
19 a 21
21 a 23
23 a 25
(*) em Salrios Mnimos (SM)

Na tabela 4.1, esto dispostos, na primeira coluna, os intervalos que identificam as


faixas de rendas. Estes intervalos so chamados classes, e so limitados esquerda e
direita. Cada classe possui ento dois limites: o Limite Inferior e o Limite Superior.
As classes so contadas de cima para baixo: 1a classe, de 1 a 3 SM (limite inferior 1,
limite superior 3); 2a classe, de 3 a 5 SM (limite inferior 3, limite superior 5), e assim por
diante, at a ltima classe (12a classe), de 23 a 25 SM (limite inferior 23, limite superior
25). Prosseguimos, ento, contando quantos elementos da amostra pertencem a
cada uma das faixas. Por exemplo, a primeira faixa:

Neste ponto, surge uma dvida: e se na amostra existir um elemento com renda
familiar exatamente igual a 3 SM? Este elemento pertence faixa 1 a 3 SM ou faixa
3 a 5 SM? Temos que adotar um critrio, uma condio de pertinncia. Este critrio
pode ser um dos seguintes:

1. Classes fechadas esquerda. a classe 1 a 3 conteria todos os elementos entre 1


e 3 SM, incluindo o elemento com 1 SM e excluindo o elemento com 3 SM.

A. F. Beraldo 63
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

1,1 1,1 1,2 1,5 1,5 1,6 1,6 1,7


1,7 2,0 2,0 2,0 2,0 2,0 2,2 2,4
2,4 2,7 2,8 2,8 2,8 3,0 3,0 3,2
3,2 3,2 3,3 3,3 3,3 3,4 3,4 3,4
3,5 3,5 3,7 3,8 3,8 3,8 3,9 3,9
4,0 4,0 4,0 4,0 4,1 4,1 4,1 4,2
4,2 4,3 4,4 5,1 5,1 5,2 5,3 5,5
5,6 5,7 5,7 5,7 5,9 6,0 6,2 6,2
6,3 6,3 6,4 6,5 6,7 6,8 7,0 7,0
7,0 7,2 7,3 7,4 7,5 7,7 7,8 7,8
7,8 8,0 8,2 8,2 8,3 8,4 8,4 8,4
9,1 9,2 9,4 9,5 9,9 10,1 10,4 10,6
10,6 11,0 11,0 11,2 11,2 11,4 11,6 12,0
12,0 12,6 12,7 13,5 13,7 14,2 14,7 15,0
15,9 16,2 16,4 16,8 19,3 20,7 21,4 24,2
Figura 4.3: Contagem dos elementos da primeira faixa de renda

2. Classes fechadas direita: a classe 1 a 3 conteria todos os elementos entre 1 e


3 SM, incluindo o elemento com 3 SM e excluindo o elemento com 1 SM foi o
critrio que adotamos, veja o Quadro 4.3.
A notao que empregamos, para indicar se as classes so fechadas esquerda ou
direita, a seguinte ( a e b so os limites inferiores e superiores das classes):

a ` b Classes fechadas esquerda: inclui todos os elementos entre a e b, exceto


os elementos iguais a b.
a a b Classes fechadas direita: inclui todos os elementos entre a e b, exceto
os elementos iguais a a.

A partir da adoo de um destes critrios, podemos partir para o passo seguinte,


que a contagem dos elementos pertencentes s classes. O resultado desta conta-
gem chamado de f, ou frequncia simples (ou, ainda, frequncia absoluta). As
frequncias das classes so colocadas na segunda coluna da tabela, que passa a se
chamar Distribuio de Frequncias da varivel:

64 A. F. Beraldo
4.1 Frequncias Simples

Tabela 4.2: Distribuio de Frequncias da Renda Familiar do Bairro X


Classes de Renda f
1 | 3 23
3 | 5 28
5 | 7 22
7 | 9 15
9 | 11 11
11 | 13 8
13 | 15 5
15 | 17 4
17 | 19 0
19 | 21 2
21 | 23 1
23 | 25 1
120

Note que adotamos o critrio de classes fechadas direita. Poderamos ter


adotado outro critrio, e as frequncias das classes poderiam ser diferentes.

Comentrios

1. Foi dito que a diviso em classes feita por tentativas. E isto verdade,
nas primeiras vezes que fazemos este trabalho. medida que se adquire certa
experincia, fica mais fcil determinar em quantas classes iremos dividir o conjunto
de dados coletados, se as classes tero tamanho igual ou diferente, etc.

2. Alguns autores adotam frmulas empricas para determinar em quantas classes


iremos dividir o conjunto de dados. O nmero de classes NC pode ser calculado
pelas seguintes expresses:

N C = 1 + 3, 3 log n
ou

NC = n

Onde n o tamanho do conjunto de dados. Voc pode escolher qualquer uma


destas frmulas, mas, voltando ao Comentrio 1, sua experincia que ir indicar
o melhor NC. Aqui se fazem duas recomendaes: no se deve dividir o rol em
menos de 5 classes. Assim, o nmero de classes deve ser maior ou igual a 5.
Outra: procure utilizar o maior nmero de classes possvel (sem exageros, claro
- na prtica, trabalhamos com no mximo 10 a 12 classes, na maioria das vezes).

A. F. Beraldo 65
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

3. As classes no precisam, necessariamente, possuir o mesmo tamanho. Caso seja


preciso, voc pode variar os tamanhos (amplitudes) das classes, atendendo a
alguma condio especial. A exigncia que se faz que o limite inferior de
uma classe tem que ser igual ao limite superior da classe anterior (com
uma exceo, como se ver nos exerccios resolvidos), ou seja, os intervalos de
classe se dispem de forma contnua.

4. H algum tempo atrs, havia uma preocupao em dividir a amostra de forma


a no deixar nenhuma classe com frequncia igual a 0. Atualmente, no h esta
preocupao, e at recomendvel que as classes tenham amplitudes iguais, no
importando se alguma classe no contm elementos amostrais (f = 0). De certa
forma, este procedimento auxilia a entender ainda melhor a amostra.

5. O mais importante que a tabela de Distribuio de Frequncias fornea uma boa


ideia do que est ocorrendo na amostra, para a varivel em estudo.

Recapitulando:

Um conjunto de 120 elementos, com os valores da varivel Renda Familiar, medida


em salrios mnimos (SM), foi dividido em classes (faixas) de renda, de amplitudes
(tamanhos) iguais. Adotou-se o critrio de fechada a direita(a a b). Contaram-se
quantos elementos (quantas rendas familiares) pertenciam a cada classe, colocando-se o
resultado na segunda coluna, das frequncias simples (f).

Tabela 4.3: Distribuio de Frequncias da Renda Familiar do Bairro X

66 A. F. Beraldo
4.2 Frequncias Relativas, o Histograma e os Polgonos de Frequncia

4.2 Frequncias Relativas, o Histograma e os


Polgonos de Frequncia
Em Estatstica, muito raramente se trabalha com as frequncias simples para descrever-
se a amostra. Prefere-se, e mais cmodo, trabalhar com as chamadas frequncias
relativas, f r, que exprimem o percentual de elementos dentro de cada classe.

Cada classe tem a sua frequncia relativa, que calculada pela frmula:

f
f r = P 100 (4.1)
f

que pode ser escrita desta forma:

f
fr = 100 (4.2)
n

Onde n = f , e n chamado tamanho da amostra ( o nmero de entrevistas


P

que foram feitas). No exemplo da Tabela 4.3, n = 120.

A frequncia relativa expressa em percentuais, como foi dito. Por exemplo,


a frequncia relativa da primeira classe (1a 3) calculada assim:

f 23
fr = 100 = 100 = 19, 2
n 120

O nmero 19,2 lido como 19,2 porcento. Em muitos livros e artigos, princi-
palmente de origem dos EUA ou da Europa, voc vai encontrar a frequncia relativa
expressa em decimais, e no em percentagem. Por exemplo, 19,2 (%) escrito 0,192. A
frmula de clculo das frequncias relativas escrita, ento, como:

f f
fr = P = (4.3)
f n

A. F. Beraldo 67
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

Calculando as frequncias relativas para todas as classes, temos:

Tabela 4.4: Distribuio de Frequncias da Renda Familiar do Bairro X


Classes de Renda f fr
1 | 3 23 19,2
3 | 5 28 23,3
5 | 7 22 18,3
7 | 9 15 12,5
9 | 11 11 9,2
11 | 13 8 6,7
13 | 15 5 4,2
15 | 17 4 3,3
17 | 19 0 0,0
19 | 21 2 1,7
21 | 23 1 0,8
23 | 25 1 0,8
120 100,0

Na prtica, no se coloca o smbolo % aps o valor das frequncias relativas, nem


as palavras explicando o que quer dizer cada coluna. A tabela da Distribuio de
Frequncias, como manda a norma, fica da forma da tabela 4.4.

Como se l este tipo de tabela?

Esta tabela chamada distribuio de frequncias. Na primeira coluna da


tabela esto, obrigatoriamente, as classes: 1 a 3, 3 a 5, 5 a 7, etc. Uma classe
sempre identificada por dois nmeros, significando um intervalo numrico. Por
exemplo, a classe 1 a 3 l-se intervalo de 1 a 3 salrios mnimos. Os nmeros
que identificam a classe so chamados limite inferior e limite superior da classe.
Na classe 1 a 3, o limite inferior 1, o limite superior 3; na classe 3 a 5, o limite
inferior 3, e o superior 5, e assim por diante.

Na segunda coluna esto as frequncias simples (f). Uma frequncia simples o


nmero de elementos da amostra pertencente a cada classe. o resultado de uma
contagem. Assim, na classe 1a 3, temos 23 elementos; na classe 3 a 5, temos 28
elementos; na classe 5 a 7, temos 22 elementos, e assim por diante.

Na terceira coluna esto as frequncias relativas (fr). Uma frequncia relativa


o percentual de cada classe em relao ao total da amostra. Assim, na classe
1 a 3, temos 23 elementos, que equivalem a 19, 2% da amostra; na classe 3 a 5,
temos 28 elementos, que representam 23, 3% da amostra; na classe 5 a 7, temos
22 elementos, que representam 18, 3% da amostra, e assim por diante.

68 A. F. Beraldo
4.2 Frequncias Relativas, o Histograma e os Polgonos de Frequncia

O nvel de informao sobre a amostra aumentou bastante: agora, j sabemos com


segurana muita coisa sobre a amostra (e at tabelamos nossos dados). Sabemos
qual a classe mais numerosa e a menos numerosa, e quanto cada classe representa
percentualmente, sobre o total da amostra.

Podemos aumentar ainda mais o conhecimento sobre a amostra, utilizando um


excelente recurso de representao de dados: os grficos. Um grfico bastante utilizado
para representar distribuies de frequncias o Histograma de Frequncias:

Figura 4.4: Histograma de frequncias

Figura 4.5: Histograma de frequncias

A. F. Beraldo 69
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

Outro tipo de histograma muito utilizado o Histograma de Frequncias Relativas.


A construo do grfico mesma, apenas mudando, no eixo vertical, de frequncias
absolutas (f ) para frequncias relativas (f r):

Figura 4.6: Histograma de frequncias relativas

Porm, um histograma mais completo apresenta dois eixos verticais: um para as


frequncias simples (f), outro para as frequncias relativas (fr). Veja a seguir:

Figura 4.7: Histograma de frequncias absolutas e relativas

70 A. F. Beraldo
4.2 Frequncias Relativas, o Histograma e os Polgonos de Frequncia

Outro tipo de grfico tambm muito utilizado para representar uma distribuio de
frequncias. Trata-se do Polgono de Frequncias Relativas, que traado unindo-se
por segmentos de reta (poligonais) os pontos mdios das bases superiores dos retngulos
do Histograma:

Figura 4.8: Polgono de frequncias

Ao final do processo, obtemos a poligonal fechada que a imagem da distribuio de


frequncia:

Figura 4.9: Polgono de frequncias relativas

A. F. Beraldo 71
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

Costuma-se, tambm, traar o Polgono de Frequncias Relativas sem o Histograma,


com os segmentos de reta unindo os pontos (x, y), onde x ponto mdio das classes e y
a frequncia relativa das classes:

Figura 4.10: Polgono de frequncias relativas

72 A. F. Beraldo
4.3 Frequncias Acumuladas

4.3 Frequncias Acumuladas


Aumentando mais o nvel de informaes sobre a amostra, introduzimos mais uma
estatstica: a Frequncia Acumulada (F). A Frequncia Acumulada de uma classe a
soma das frequncias absolutas, desde a primeira classe at aquela classe. Para montar
a coluna das Frequncias Acumuladas, proceda da seguinte forma:

1. Na primeira classe, repita a frequncia simples da classe:

Tabela 4.5: Distribuio de Frequncias da Renda Familiar do Bairro X

2. Em seguida, faa a soma deste valor com a frequncia absoluta da segunda classe:

Tabela 4.6: Distribuio de Frequncias da Renda Familiar do Bairro X

A. F. Beraldo 73
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

3. Repita a operao para as demais classes:

Tabela 4.7: Distribuio de Frequncias da Renda Familiar do Bairro X

Note que a ltima Frequncia Acumulada tem que ser igual ao tamanho da amostra.

Os valores na coluna das Frequncias Acumuladas nos do a seguinte informao: a


Frequncia Acumulada de uma classe a quantidade de elementos existentes na amostra,
desde o limite inferior da primeira classe at o limite superior da classe considerada.
Podemos escrever desta forma:

i=k
X
Fk = fi (4.4)
i=1

Ou seja, a Fk , frequncia acumulada da classe k a soma das frequncias simples


desde a primeira classe at a k-sima classe.

74 A. F. Beraldo
4.4 Frequncias Relativas Acumuladas e a Ogiva de Galton

4.4 Frequncias Relativas Acumuladas e a Ogiva de


Galton
De maneira anloga das Frequncias Acumuladas, montamos a coluna das Frequn-
cias Relativas Acumuladas F r, tendo por base a coluna das Frequncias Relativas:

1. Na primeira classe, repita a sua frequncia relativa:

Tabela 4.8: Distribuio de Frequncias da Renda Familiar do Bairro X

2. Em seguida, faa a soma deste valor com a frequncia relativa da segunda classe:

Tabela 4.9: Distribuio de Frequncias da Renda Familiar do Bairro X

A. F. Beraldo 75
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

3. Repita a operao para as demais classes:

Tabela 4.10: Distribuio de Frequncias da Renda Familiar do Bairro X

Note que a ltima Frequncia Relativa Acumulada tem que ser igual a 100%.
Os valores na coluna das Frequncias Relativas Acumuladas nos do a seguinte
informao: a Frequncia Relativa Acumulada de uma classe o percentual de
elementos existentes na amostra, desde o limite inferior da primeira classe at o
limite superior da classe considerada. Podemos escrever desta forma:

i=k
X
F rk = f ri (4.5)
i=1

Ou seja, a F rk , frequncia relativa acumulada da classe k a soma das frequncias


relativas desde a primeira classe at a k-sima classe.

Para representar os valores destas duas estatsticas (F e Fr), utilizamos o Polgono


de Frequncias Acumuladas (Ogiva de Galton), que se constri da seguinte forma:

1. Traam-se os eixos cartesianos, com dois eixos verticais. No primeiro eixo vertical,
esquerda, colocamos a escala para os valores de F, comeando obrigatoriamente
do zero e crescendo at n (tamanho do conjunto, neste exemplo igual a 120).
No segundo eixo vertical, direita, colocamos os valores percentuais, comeando
tambm do 0 e crescendo at 100% - com intervalos (escala) de 10% em 10%.

76 A. F. Beraldo
4.4 Frequncias Relativas Acumuladas e a Ogiva de Galton

2. No eixo horizontal colocamos os valores dos limites das classes. Neste eixo no
obrigatrio comear-se do valor zero, mas devemos colocar o sinal de quebra de
escala, se for o caso.

Figura 4.11: Eixos cartesianos para o traado do polgono de frequncias acumuladas

3. O Polgono de Frequncias Acumuladas uma linha suave, cujo ponto de


origem dado pelas coordenadas (x, y), sendo x o limite inferior da primeira
classe, e y igual a zero.

Figura 4.12: Marcao do primeiro ponto do polgono de frequncias acumuladas

A. F. Beraldo 77
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

4. O segundo ponto do polgono dado por: limite superior da primeira classe,


frequncia acumulada da primeira classe.

Figura 4.13: Marcao de pontos no polgono de frequncias acumuladas

5. Para os demais pontos, que representam os limites superiores das classes, a


ordenada a frequncia acumulada da classe.

Figura 4.14: Marcao de pontos no polgono de frequncias acumuladas

78 A. F. Beraldo
4.4 Frequncias Relativas Acumuladas e a Ogiva de Galton

Ao terminar de marcar os pontos, trace uma linha suave unindo-os:

Figura 4.15: Polgono de frequncias acumuladas (Ogiva de Galton)

A. F. Beraldo 79
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias

Alm deste Captulo, pratique:

Faa agora os exerccios da Lista 1.4 - Distribuies de


Frequncias.

Faa agora uma simulao destas medidas nos templates TP02 -


Distribuies de Frequncia I e TP03 - Distribuies de
Frequncia II.

Utilize o software DidDest para uma simulao destas medidas.

Assita ao audiovisual AV03 - Distribuies de Frequncias.

Faa o Estudo Dirigido ED03 - Distribuies de Frequn-


cias.

80 A. F. Beraldo
5 Estatstica em Grandes Conjuntos:
Medidas de Tendncia Central e Disperso
Em Estatstica, muitas vezes as amostras so bem maiores, formando conjuntos de
100, 300, 600 elementos ou mais, muito mais. Neste caso, utilizamos as Distribuies
de Frequncias, no s para o que foi explicado no Captulo 4, mas tambm para
calcular as Estatsticas de Tendncia Central e as demais estatsticas. Os conceitos
de Tendncia Central (mdia, moda e mediana) so os mesmos que foram apresentados
para as amostras de tamanho pequeno. Este captulo introduz novas frmulas, que so
adaptaes de clculo quando o tamanho maior dos conjuntos torna difcil ou trabalhoso
a utilizao das frmulas que foram estudadas no Captulo 2.

5.1 Clculo da Mdia:


Vamos exemplificar o clculo da mdia para grandes amostras utilizando a distri-
buio de frequncias a seguir (a mesma com que estamos trabalhando no Captulo
4).

Tabela 5.1: Classes de renda


Classes de Renda f
1 | 3 23
3 | 5 28
5 | 7 22
7 | 9 15
9 | 11 11
11 | 13 8
13 | 15 5
15 | 17 4
17 | 19 0
19 | 21 2
21 | 23 1
23 | 25 1
P
120

Montamos uma terceira coluna, onde esto os valores de uma estatstica chamada
pontos mdios da classe (x). Cada classe possui o seu ponto mdio, que calculado pela
frmula :

A. F. Beraldo 81
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

LI + LS
x= (5.1)
2

Onde x o ponto mdio da classe, LI o limite inferior da classe e LS o limite


superior da classe. O ponto mdio, portanto, a mdia dos limites das classes. A
tabela passa a ter, ento, mais esta coluna:

Tabela 5.2: Classes de renda


Classes de Renda f x
1 | 3 23 2
3 | 5 28 4
5 | 7 22 6
7 | 9 15 8
9 | 11 11 10
11 | 13 8 12
13 | 15 5 14
15 | 17 4 16
17 | 19 0 18
19 | 21 2 20
21 | 23 1 22
23 | 25 1 24
P
120

O conceito de ponto mdio o seguinte: aps a elaborao da distribuio


de frequncias, os dados originais da amostra so abandonados. Sabe-se quantos
elementos pertencem a cada classe (frequncias simples da classe), mas no se sabe mais
quais eram estes elementos. O ponto mdio representa toda a classe - imagina-se
que a classe est concentrada em seu ponto mdio, que o valor caracterstico da
classe. A partir disto, pode-se assumir que, no exemplo acima, todos os 23 elementos da
primeira classe so iguais a 2; todos os 28 elementos da segunda classe so iguais a 4, e
assim por diante. o mesmo que dizer que as 23 famlias da primeira classe, que tem
renda entre 1 e 3 SM, tem uma renda mdia de 2 SM; que as 28 famlias da segunda
classe, que tem renda entre 3 e 5 SM, tem renda mdia de 4 SM, e assim por diante.
claro que esta uma simplificao, um artifcio de clculo que fazemos para estimar,
primeiramente, a mdia de cada classe, e, depois, a mdia de todo o conjunto.

Esta uma das razes pelas quais se deve dividir uma amostra no maior nmero
de classes possvel, fazendo que a amplitude das classes seja a menor possvel -

82 A. F. Beraldo
5.1 Clculo da Mdia:

isto diminui o erro (impreciso) em tomar toda a classe pelo seu ponto mdio, que
a mdia dos limites.

A frmula da mdia para distribuies de frequncias (dados grupados) a seguinte:

Pi=k
i=1 f i xi
X= (5.2)
n

Onde X a mdia, fi e xi so as frequncias e os pontos mdios das classes e n o


tamanho da amostra, (n = i=n
P
i=1 fi ) , na qual k nmero de classes da distribuio de
frequncia.
P
Para obter o numerador da frmula fi .xi ,utilizamos uma quarta coluna, na qual
vo estar os resultados dos produtos frequncia vezes o ponto mdio das classes:

Tabela 5.3: Clculo dos produtos Frequncia ponto mdio

A. F. Beraldo 83
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

Finalmente, calculamos a mdia:

Pi=k
f i xi 836
X= i=l
= = 6, 97
= 7, 0
n 120

Comentrios

Esta frmula a frmula da mdia ponderada (veja Captulo 2). O que se fez
foi assumir que toda uma classe est concentrada no seu ponto mdio, e utilizar
as frequncias das classes como pesos, ou ponderaes dos pontos mdios. Veja a
semelhana entre as duas expresses:

P
xi p i
Xp = P
pi
Mdia ponderada

P
f i xi
X=
n
Mdia para distribuies de frequncia

No Histograma de Frequncia da distribuio, vemos a posio da mdia:

Figura 5.1: Histograma de Frequncias Absolutas e Relativas, mostrando a mdia


aritmtica da distribuio

84 A. F. Beraldo
5.1 Clculo da Mdia:

Outra frmula para o clculo da mdia utiliza as frequncias relativas, ao invs das
frequncias absolutas. A expresso :

i=k
X
X= f ri .xi (5.3)
i=1

Tabela 5.4: Clculo dos produtos Frequncia Relativa ponto mdio

A. F. Beraldo 85
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

5.2 Clculo da Moda


A moda de uma distribuio de frequncias pode ser calculada atravs de dois
mtodos. Um, o mtodo de King, que fornece uma moda grosseira, e outro, o
mtodo de Czuber, que fornece uma moda mais precisa. Ambos os mtodos se
referem a uma classe modal, que a classe de maior frequncia da distribuio.
Por exemplo, considere a distribuio a seguir:

Tabela 5.5: Determinao da classe modal

A classe modal a classe 3 a 5, que a que possui a maior frequncia.

Partimos do princpio de que as distribuies de frequncia que apresentam diferentes


frequncias de classes possuem pelo menos uma moda e que esta moda, pelo prprio
conceito da medida, deve pertencer classe modal, isto , deve ser um nmero entre o
limite inferior e o limite superior da classe modal.

Pelo mtodo de King, a moda de uma distribuio de frequncias o ponto mdio


da classe modal:

LIk + LSk
X king = (5.4)
c
2

Onde LIk e LSk so os limites inferior e superior da classe modal.

86 A. F. Beraldo
5.2 Clculo da Moda

Para a distribuio acima, a moda de King ser:

LIk + LSk 3+5


X king = = =4 (5.5)
c
2 2

Comentrios

A moda de King uma aproximao da moda verdadeira. chamada, por alguns


autores, de moda grosseira, no sendo muito utilizada. No entanto, fornece uma boa
indicao do valor da moda real.

A moda, segundo o mtodo de Czuber, calculada atravs da seguinte frmula:

DA
 
c = LI +
X Ampk (5.6)
k
DA + DP

Onde:

LIk o limite inferior da classe modal;

DA diferena entre a frequncia da classe modal e a frequncia da classe anterior;

DP diferena entre a frequncia da classe modal e a frequncia da classe posterior;

Ampk amplitude da classe modal.

A. F. Beraldo 87
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

Calculando a moda de Czuber para a distribuio dada, teremos:

Tabela 5.6: Clculo da moda de Czuber

Aplicando na frmula, temos:

DA 5
   
c=
X LIk + Ampk = 3 + .2 = 3, 9
DA + DP 5+6

Comentrios

1. Deve-se ter em mente que o clculo da moda, pelo mtodo de Czuber, s pode ser
aplicado a distribuies unimodais. Assume-se que a amostra possui uma, e
apenas uma moda e que esta moda pertence classe de maior frequncia.

2. No caso de nos depararmos com distribuies que aparentam possuir mais de uma
moda, no aplicamos o processo de Czuber.

88 A. F. Beraldo
5.3 Clculo da Mediana

5.3 Clculo da Mediana


A mediana, em distribuies de frequncias, calculada pela frmula:

!
f = LI + P os(X) Fant Amp
f
X m m (5.7)
f

Onde:

f o valor da mediana.
X

LIm Limite inferior da classe que contm a mediana.


f Posio da mediana.
P os(X)

Fant Frequncia acumulada da classe da posio anterior classe que contm a mediana.

Ampm Amplitude (tamanho) da classe que contm a mediana.

A posio ( P os(X))
f da mediana calculada atravs da frmula P os(X)
f = n/2, na
qual n o tamanho da amostra. Em alguns livros voc encontrar a seguinte frmula,
que tambm vlida:

f = (n + 1)
P os(X)
2

A. F. Beraldo 89
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

5.3.1 Roteiro para o clculo da mediana


Seja a distribuio de frequncias com a qual estamos trabalhando:

Tabela 5.7: Clculo da mediana


Classes de Renda f
1 | 3 23
3 | 5 28
5 | 7 22
7 | 9 15
9 | 11 11
11 | 13 8
13 | 15 5
15 | 17 4
17 | 19 0
19 | 21 2
21 | 23 1
23 | 25 1
P
120

1o passo O tamanho n da amostra 120. A partir deste valor, calculamos a posio


da mediana:
f = n/2 = 120/2 = 60
P os(X)
Note que no arredondamos os valores encontrados para as posies. As posies
para a mediana podem ser nmeros inteiros (quando n par), ou decimais (quando
n impar). Por exemplo, se n fosse igual a 121, teramos:

f = n/2 = 121/2 = 60, 5


P os(X)

No se deve arredondar este valor para 61.

90 A. F. Beraldo
5.3 Clculo da Mediana

2o passo Calcula-se a coluna das frequncias acumuladas (F):

Tabela 5.8: Clculo da mediana


Classes de Renda f F
1 | 3 23 23
3 | 5 28 51
5 | 7 22 73
7 | 9 15 88
9 | 11 11 99
11 | 13 8 107
13 | 15 5 112
15 | 17 4 116
17 | 19 0 116
19 | 21 2 118
21 | 23 1 119
23 | 25 1 120
P
120

3o passo Identifica-se a classe que contm a mediana. A classe que contm a mediana
aquela cuja a frequncia acumulada (F) a primeira frequncia acumulada maior
ou igual posio da mediana. Neste exemplo, a primeira frequncia acumulada
(F) maior ou igual posio da mediana (60,0) F = 73.

Tabela 5.9: Clculo da mediana

A frequncia acumulada F = 73, correspondente classe 5 a 7, a primeira frequncia


acumulada com valor igual a superior a 60,0, que a posio da mediana. Portanto, a
classe que contm a mediana ser classe 5 a 7. Em outras palavras, a mediana ter um
valor entre 5 e 7 (valor que calcularemos a seguir).

A. F. Beraldo 91
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

4o passo Uma vez encontrada a classe qual pertence a mediana, podemos aplicar os
dados na frmula para encontrar o valor da mediana:
!
f F
P os(X) 60 51
 
f= ant
X LIm + Ampm = 5 + 2 = 5, 8
f 22

Outra maneira de calcular a mediana seria atravs do polgono de frequncia acu-


mulada. A partir do valor de 50% no eixo dos percentuais, trace uma horizontal at
encontrar a curva. Do ponto que esta horizontal encontrou a curva, trace uma reta
vertical at encontrar o eixo das classes. Onde esta vertical encontrar o eixo ser o
ponto que contm o valor da mediana. Veja a figura a seguir:

Figura 5.2: Determinao grfica da mediana

92 A. F. Beraldo
5.3 Clculo da Mediana

Comentrios

Neste captulo foram apresentadas frmulas empricas para o clculo das Medidas
de Tendncia Central em distribuies de frequncia. Assim, fizemos suposies a priori
para o clculo destas medidas, uma vez que, como voc deve estar lembrando, no
dispomos mais dos dados originais e sim da distribuio de frequncias.

Para calcular a mdia, partimos da suposio que os valores pertencentes a cada


classe poderiam ser substitudos pelo ponto mdio x.

Para calcular a moda, a premissa foi de que a distribuio possua moda, e esta
pertencia classe de maior frequncia, chamada classe modal.

Para calcular a mediana, a suposio foi que os valores dentro da classe da mediana
distribuem-se linearmente. A frmula do clculo da mediana, na verdade, uma
espcie de regra de trs.
Assim, os valores que encontramos para estas medidas so valores estimados,
mas que se aproximam bastante dos valores reais, pelo menos no caso da mdia e
da mediana, como voc pode conferir no quadro a seguir:

Quadro 1: Comparao entre valores estimados e reais das Medidas de Tendncia Central
Medida Valor estimado Valor real
Mdia 6,97 6,92
Mediana 5,8 5,8
Moda 3,9 2,0

Para a mdia e a mediana, o erro foi desprezvel ou nulo. J no caso da moda, o


erro foi muito grande. As frmulas empricas funcionam muito bem tm uma
preciso muito boa quando:

No caso da mdia, quando o nmero de classes grande (mais de 10 classes,
p. ex.), o que acarreta intervalos de classe menores, com os pontos mdios
tornando-se valores caractersticos bem mais precisos das classes;

No caso da mediana, quando o tamanho do conjunto grande (mais de 100
elementos, p. ex.);

No caso da moda, quando a frequncia modal (frequncia da classe modal) for
elevada (mais de 50%, p. ex.).

A. F. Beraldo 93
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

5.4 Clculo da Varincia, do Desvio Padro e do


Coeficiente de Variao
O clculo das Medidas de Disperso para pequenos conjuntos muito fcil, como
vimos. Torna-se mais trabalhoso quando trabalhamos com amostras maiores, n > 30.
Vamos continuar com a nossa planilha de clculo, na qual estamos trabalhando desde o
clculo de Medidas de Tendncia Central para grandes conjuntos (em distribuies de
frequncias). A distribuio de frequncias com a qual estamos trabalhando a seguinte:

Tabela 5.10: Distribuio de Frequncias da Renda Familiar do Bairro X


Classes de Renda f
1 | 3 23
3 | 5 28
5 | 7 22
7 | 9 15
9 | 11 11
11 | 13 8
13 | 15 5
15 | 17 4
17 | 19 0
19 | 21 2
21 | 23 1
23 | 25 1
P
120
(*) em Salrios Mnimos (SM)

Para pequenos conjuntos, o processo de clculo da varincia consistia em calcular


os desvios di dos elementos xi dos conjuntos, para depois elev-los ao quadrado1 . A
varincia foi definida como uma espcie de mdia dos quadrados dos desvios:

Pi=n 2
2 d
i=1 i
s = (5.8)
n1

Para o clculo da varincia em distribuies de frequncia, assume-se que o ponto


mdio xi das classes representa (ou substitui) todos os valores originais da amostra,
pertencentes quela classe. Ento, para a tabela 5.10, convenciona-se que a primeira
1
Advertncia: no prossiga no estudo deste Captulo sem que o assunto Disperso em Pequenos
Conjuntos (Captulo 3) esteja muito bem compreendido!

94 A. F. Beraldo
5.4 Clculo da Varincia, do Desvio Padro e do Coeficiente de Variao

classe, de 1 a 3 SM,contendo 23 elementos, possui todos os seus elementos iguais a 2 SM


(ponto mdio da classe)2 .

Assim, na primeira classe teremos 23 elementos iguais a 2 SM, na segunda classe


teremos 28 elementos iguais a 4 SM, na terceira classe teremos 22 elementos iguais a 6
SM, e assim por diante. Dizendo de outra forma, assume-se que todos os 23 elementos
da primeira classe se concentram em torno do valor 2 SM, os 28 elementos da segunda
classe se concentram no valor 4 SM, etc.

A frequncia da classe , por assim dizer, o nmero de repeties do ponto mdio.


Lembrando da definio bsica de disperso, a estatstica desvio (di ) passa a se referir
no mais aos elementos do conjunto, mas aos pontos mdios das classes. Assim, o desvio
passa a ser definido como o Desvio da Classe distncia do ponto mdio da classe
mdia da distribuio de frequncia:

di = xi X (5.9)

Onde di o Desvio da Classe, xi o ponto mdio da classe e X a mdia da distribuio


de frequncia. Ento, os desvios dos elementos pertencentes a cada classe passam a ser
tantos quanto for a frequncia de cada classe. Por exemplo, na primeira classe teremos
23 elementos iguais a 2 SM, e 23 desvios iguais a 5 SM (di = xi X 3 ,di = 2 7 = 5
SM) na segunda classe teremos 28 elementos iguais a 4 SM, e 28 desvios iguais a 3 SM,
na terceira classe teremos 22 elementos iguais a 6 SM, e 22 desvios iguais a 1 SM, e
assim por diante.

Da, que a frmula da varincia, para distribuies de frequncia, adaptada para:

Pi=k
2 i=1 fi d2i
s = (5.10)
n

Onde di o Desvio da Classe, fi a frequncia da classe e n o tamanho do conjunto4 .


2
Esta mesma premissa usada no clculo da mdia em distribuies de frequncia. Como voc
deve estar lembrando, aps montarmos uma distribuio de frequncia para um coleo de dados, estes
dados originais so abandonados e passamos a trabalhar apenas com a imagem da amostra, que a
distribuio de frequncias.
3
Lembrar que a mdia desta distribuio de frequncias igual a 7 SM (aprox.) vide captulo
anterior.
4
P
Lembrando que n = fi

A. F. Beraldo 95
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

Comentrios

Note que o denominador da expresso de clculo das varincias n, e no


n1. Torna-se irrelevante, agora, uma vez que estamos trabalhando com conjuntos bem
maiores e tanto faz dividirmos o numerador, que ser um nmero bem grande, por n
ou por n 1.

O processo de clculo o seguinte:

1. Calculamos a mdia aritmtica da distribuio de frequncia, conforme descrito


no captulo anterior. Vamos adotar o valor de X = 7, 0.

2. Em seguida, montamos mais uma coluna, a dos desvios di :

Tabela 5.11: Clculo da varincia


Classes de Renda f xi di
1 | 3 23 2 5
3 | 5 28 4 3
5 | 7 22 6 1
7 | 9 15 8 1
9 | 11 11 10 3
11 | 13 8 12 5
13 | 15 5 14 7
15 | 17 4 16 9
17 | 19 0 18 11
19 | 21 2 20 13
21 | 23 1 22 15
23 | 25 1 24 17
P
120

96 A. F. Beraldo
5.4 Clculo da Varincia, do Desvio Padro e do Coeficiente de Variao

3. A seguir, montamos a coluna dos quadrados dos desvios, d2i :

Tabela 5.12: Clculo da varincia


Classes de Renda f xi di d2i
1 | 3 23 2 5 25
3 | 5 28 4 3 9
5 | 7 22 6 1 1
7 | 9 15 8 1 1
9 | 11 11 10 3 9
11 | 13 8 12 5 25
13 | 15 5 14 7 49
15 | 17 4 16 9 81
17 | 19 0 18 11 121
19 | 21 2 20 13 169
21 | 23 1 22 15 225
23 | 25 1 24 17 289
P
120

4. Finalmente, multiplicamos os valores desta ltima coluna pelas frequncias das


classes(f d2i ):

Tabela 5.13: Clculo da varincia


Classes de Renda f xi di d2i f d2i
1 | 3 23 2 5 25 575
3 | 5 28 4 3 9 252
5 | 7 22 6 1 1 22
7 | 9 15 8 1 1 15
9 | 11 11 10 3 9 99
11 | 13 8 12 5 25 200
13 | 15 5 14 7 49 245
15 | 17 4 16 9 81 324
17 | 19 0 18 11 121 0
19 | 21 2 20 13 169 338
21 | 23 1 22 15 225 225
23 | 25 1 24 17 289 289
P
120 2584

Note o valor 2.584, da ltima clula direita, embaixo, da tabela. Este valor
igual a f d2i . A frmula da varincia, como vimos, :
P

Pi=k
2 i=1 fi d2i
s =
n

A. F. Beraldo 97
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

J temos, portanto, o numerador da frmula. Completando o clculo, vem:

Pi=k
2 i=1 fi d2i 2584
s = = = 21, 5
n 120

O desvio padro a raiz quadrada da varincia:


s= s2 (5.11)


s= s2 = 21, 5 = 4, 6

O coeficiente de variao dado por:

s
CV = (5.12)
X

s 4, 6
CV = = = 0, 66 ou 66%
X 7

Comentrios

1. Voc deve ter notado que as frmulas para o clculo das Medidas de Disperso
mudaram muito pouco, de conjuntos pequenos para grandes conjuntos. Os
conceitos so exatamente os mesmos: procuramos caracterizar a disperso ou
concentrao dos elementos amostrais em torno da mdia. E estas Medidas de
Disperso vo nos informar sobre vrios aspectos da distribuio dos elementos
amostrais.

2. No clculo da varincia, o denominador da frmula mesmo n, uma vez que no


faz sentido o substituirmos por n 1, j que estamos trabalhando com grandes
amostras, com n > 30.

3. Nos livros mais antigos, voc encontrar uma srie de artifcios matemticos para
o clculo das Medidas de Tendncia Central e de disperso em distribuies de

98 A. F. Beraldo
5.5 Exemplos Comentados

frequncia. So bastante engenhosos e facilitam muito as operaes, mas, atual-


mente, com as planilhas de clculo e pacotes estatsticos em microcomputadores,
estes artifcios tornaram-se obsoletos. Por isso, no trataremos destes processos
nesta apostila.

5.5 Exemplos Comentados


Exemplo 5.1. Vamos utilizar as seguintes distribuies de frequncia para ilustrar e
comentar as Medidas de Disperso:
DF A DF B DF C
Classes f Classes f Classes f
0 | 2 6 0 | 2 1 0 | 2 0
2 | 4 12 2 | 4 10 2 | 4 3
4 | 6 22 4 | 6 20 4 | 6 12
6 | 8 35 6 | 8 30 6 | 8 25
8 | 10 50 8 | 10 78 8 | 10 120
10 | 12 35 10 | 12 30 10 | 12 25
12 | 14 22 12 | 14 20 12 | 14 12
14 | 16 12 14 | 16 10 14 | 16 3
16 | 18 6 16 | 18 1 16 | 18 0
P P P
200 200 200

Todas as DFs possuem um tamanho n = 200, e mdia X = 9.

A anlise ser feita a partir dos histogramas de frequncia, a seguir:

Figura 5.3: Histograma da distribuio A

A distribuio A possui frequncias em todas as classes. O desvio padro igual a


3,6, e o CV igual a 0,40, ou 40%.

A. F. Beraldo 99
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

Figura 5.4: Histograma da distribuio B

A distribuio B tambm possui frequncias em todas as classes, mas note que houve
um aumento na frequncia da classe central, de 50 para 78, e uma consequente diminuio
nas frequncias das outras classes. O desvio padro cai para 2,9 e o CV cai para 0,32
(ou 32%).

Aumentando ainda mais a frequncia da classe central, de 78 para 120, ocorre uma
concentrao maior de valores nesta classe, e uma diminuio das frequncias das classes
mais afastadas, tanto esquerda quanto direita da classe central. Isto acarreta uma
diminuio tanto no desvio padro quanto no CV:

Figura 5.5: Histograma da distribuio C

O desvio padro da distribuio C cai para 2,0, e o CV cai para 0,22.

Notar que o histograma da distribuio mostra a coluna da classe central com uma
diferena cada vez maior, na altura (frequncia da classe). Utilizando o polgono de
frequncia e colocando as trs distribuies no mesmo grfico, temos a figura seguinte:

100 A. F. Beraldo
5.5 Exemplos Comentados

Figura 5.6: Polgonos de Frequncia das distribuies A, B e C

Observar, na figura acima, que quanto maior a concentrao na classe central, menor
o desvio padro e o CV.

A. F. Beraldo 101
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso

Alm deste Captulo, pratique:

Faa agora os exerccios da Lista 1.5 - Medidas de Tendncia


Central e Disperso em Distribuies de Frequcias.

Faa agora uma simulao destas medidas no template TP03 -


Distribuies de Frequncia II.

Utilize o software DidDest para uma simulao destas medidas.

Assita ao audiovisual AV04 - Medidas de Tendncia Central


e Disperso em Distribuies de Frequncias.

Faa o Estudo Dirigido ED04 - Medidas em Distribuies de


Frequncias.

102 A. F. Beraldo
6 Estatstica em Grandes Conjuntos:
Medidas de Posio
No decorrer dos ltimos captulos, vimos como obter informaes sobre o conjunto,
a partir dos dados das suas medidas. J sabemos calcular as Medidas de Tendncia
Central (mdia, moda, mediana), j possumos uma boa ideia de como est a disperso
(varincia, desvio padro , coeficiente de variao) e aprofundamos nosso conhecimento
sobre grandes conjuntos, utilizando distribuies de frequncias e os grficos associados
(Histograma, Polgonos de frequncia simples e de frequncia acumulada). Estas
informaes so muito teis quando os dados esto concentrados em torno da mdia,
com baixos coeficientes de variao e quando a distribuio unimodal, o que torna as
Medidas de Tendncia Central boas caracterizadoras da amostra.

No entanto, algumas distribuies no seguem esta configurao: so distribuies


cujas amplitudes possuem intervalos muito extensos, o que produz mdias e as outras
Medidas de Tendncia Central no-caractersticas, alm de fornecer elevados Desvios
Padres e Coeficientes de Variao. Nosso conhecimento, diante destes tipos de distri-
buies, revela-se insatisfatrio. Precisamos de mais informaes sobre a amostra, para
poder tomar decises. o caso, por exemplo, de termos que lidar com a varivel IDADE
de uma populao. Pesquisando esta varivel de forma generalizada, em uma cidade,
iremos descobrir que as idades variam desde o valor zero ano (os recm-nascidos), at
os 90 ou 100 anos (em alguns lugares, at bem mais que isso). Ao tabularmos os valores
desta varivel, as idades coletadas iro pertencer s classes de 0 a 10 anos, 10 a 20 anos,
20 a 30 anos, e assim por diante, at uma ltima classe, digamos, dos 100 aos 110 anos.
Em seguida, calcularamos a mdia - por exemplo, 22,3 anos de idade. O que quer dizer
este nmero? Apenas isto: a mdia de idade de 22,3 anos. E mais nada. O desvio
padro e o coeficiente de variao, com certeza, iriam invalidar esta mdia como medida
caracterstica da populao. Mesmo a mediana e a moda seriam incuas - por ter a
populao uma gama de idades que vai do 0 aos 110 anos.

Outro exemplo: a varivel RENDA. Em um pas como o nosso, em que a distribuio


de renda era, em 2003, a segunda pior do mundo, falar-se de renda mdia ou de renda
mediana no acrescenta nada ao conjunto de informaes que necessitamos. No Brasil,
temos casos at de renda negativa, e uma forte concentrao de renda nas classes
econmicas mais abastadas.

A. F. Beraldo 103
6. Estatstica em Grandes Conjuntos: Medidas de Posio

Para muitas outras variveis, ocorre o mesmo problema. Variveis tais como as
estudadas em Educao Fsica, Economia, Cincias Sociais, Cincias Humanas, etc.,
carecem que estudemos com maior profundidade o seu comportamento. Em sntese, so
variveis cuja evoluo no regular e existe pouca concentrao de dados em torno
da mdia. Mais informaes sobre estas variveis podem ser obtidas com o clculo das
Separatrizes.

Uma Separatriz uma estatstica, ou seja, um nmero nico, que divide uma
distribuio de valores em duas partes. como se fosse um limite, uma fronteira. J
conhecemos uma separatriz, a mediana. A mediana o valor que separa um conjunto de
valores, dispostos em ordem crescente (ou decrescente) de forma que 50% da distribuio
estejam abaixo da mediana, e os outros 50% acima da mediana. Podemos dizer, ento,
que a mediana o valor que divide uma distribuio de valores numricos em duas
metades.

Existem outras separatrizes importantes para auxiliar a compreender e descrever o


comportamento de uma varivel. Neste captulo, estudaremos as separatrizes, a partir
da Distribuio de Frequncia da tabela 6.1 Notas de um Concurso, a seguir:

Tabela 6.1: Notas de um concurso


Classes de Notas f
0 | 10 21
10 | 20 36
20 | 30 50
30 | 40 30
40 | 50 28
50 | 60 26
60 | 70 20
70 | 80 17
80 | 90 12
90 | 100 10
250

A tabela acima mostra dados de uma prova a que foram submetidos 250 inscritos em
um concurso. Teoricamente, as notas vo de mais de zero at 100.

104 A. F. Beraldo
Calculando as Medidas de Tendncia Central e disperso, temos:

Tabela 6.2: Estatsticas


Estatstica
Mdia 40,7
Mediana 36,0
Moda 24,1
Desvio padro 24,9
CV 61%

Note que o desvio padro de quase 25 pontos e um coeficiente de variao de 61%


invalida a mdia como caracterizadora do conjunto. A frequncia da classe modal, em
torno de 20%, tambm insuficiente para adotarmos a moda como valor caracterstico.
Parece que ficamos no mesmo lugar, em termos de nvel de informao sobre esta varivel.
O Histograma de frequncia est na figura a seguir:

Figura 6.1: Histograma de Frequncias das Notas do Concurso

A. F. Beraldo 105
6. Estatstica em Grandes Conjuntos: Medidas de Posio

Continuando a nossa anlise, observando o grfico, verificamos que h uma regio de


concentrao em torno dos 25 pontos. Mas qual ser o nmero de pontos que delimita
as 25% piores notas? E qual foi a nota de corte dos 10% primeiros colocados?

Todas estas informaes so importantes para aumentarmos o nvel de conheci-


mento sobre este conjunto, e, em alguns conjuntos, informaes mais significativas do
que as medidas calculadas anteriormente. Estas estatsticas so as Separatrizes, cujo
conceito dado a seguir:

Uma Separatriz um valor que divide um conjunto numrico ordenado de forma


crescente, em duas partes complementares.

As Separatrizes mais utilizadas so os Quartis e os Percentis, que so definidos a


seguir:

Quartis um Quartil um valor que divide o conjunto de valores da amostra em


duas partes, sendo:

Quartil Nome Definio

Q1 Primeiro Quartil Divide os valores ordenados em duas partes: 25%


da amostra est abaixo do Q1 , 75% acima do Q1 .

Q2 Segundo Quartil Divide os valores ordenados em duas partes: 50%


da amostra est abaixo do Q2 , 50% acima do Q2 .

Q3 Terceiro Quartil Divide os valores ordenados em duas partes: 75%


da amostra est abaixo do Q3 , 25% est acima do
Q3 .

Veja a figura seguinte:

Figura 6.2: Quartis

106 A. F. Beraldo
Outra separatriz muito utilizada o Percentil. Percentis tambm dividem a amostra
em duas partes, segundo a seguinte proporo (percentis mais utilizados):

Percentil Nome Definio

P10 Dcimo Divide os valores ordenados em duas partes: 10%


Percentil da amostra est abaixo do P10 , 90% acima do P10 .

P90 Nonagsimo Divide os valores ordenados em duas partes: 90%


Percentil da amostra est abaixo do P90 , 10% acima do P90 .

Veja a figura abaixo:

Figura 6.3: Percentis

Por analogia, podemos definir qualquer percentil a partir do conceito:

Pn n-simo percentil: Divide a amostra ordenada em duas partes, n% da amostra


abaixo do Pn .

Comentrios

Voc pode entender a palavra quartil como quarta parte, assim como percentil
como centsima parte. Assim, o primeiro quartil, Q1 , pode ser considerado a primeira
quarta parte, o segundo quartil Q2 , a primeira mais a segunda quarta parte e o Q3
como a primeira mais a segunda mais a terceira quarta parte. O dcimo percentil P10 ,
seria as dez primeiras centsimas partes, e assim por diante.

A. F. Beraldo 107
6. Estatstica em Grandes Conjuntos: Medidas de Posio

As separatrizes tm uma frmula nica:

!
P OS(sep) Fant
SEP = LIsep + Ampsep (6.1)
fsep

Onde:

SEP Valor da separatriz

LIsep Limite inferior da classe que contm a separatriz

P OS(sep) Posio da separatriz

Fant Frequncia acumulada da classe anterior que contm a separatriz

fsep Frequncia simples da classe que contm a separatriz

Ampsep Amplitude da classe que contm a separatriz

Pela frmula acima, pode-se ver que o valor da separatriz depende da classe a que
pertence, e da sua posio P OS(sep). As posies das principais separatrizes so as
seguintes:

Separatriz Posio

Q1 n/4

Q2 n/2

Q3 3n/4

P1 0 n/10

P9 0 9n/10

P
Onde n, tamanho da amostra, n = f.

108 A. F. Beraldo
6.1 Clculo de Quartis e Percentis

6.1 Clculo de Quartis e Percentis


Vamos calcular o Q1 , primeiro quartil, das notas do concurso conforme a distribuio
da Tabela 6.3, que reproduzimos a seguir:

Tabela 6.3: Notas de um concurso


Classes de Notas f
0 | 10 21
10 | 20 36
20 | 30 50
30 | 40 30
40 | 50 28
50 | 60 26
60 | 70 20
70 | 80 17
80 | 90 12
90 | 100 10
250

O roteiro de clculo o seguinte:

1. Calcula-se a posio da separatriz:: a posio do Q1 n/4, onde n o tamanho


do conjunto (ou do total de candidatos). O valor de n 250, donde calculamos a
posio do Q1 como 250/4 = 62, 5

P OS(Q1 ) = 62, 5

Ateno: no arredondar o valor da posio da separatriz P OS(sep).

A. F. Beraldo 109
6. Estatstica em Grandes Conjuntos: Medidas de Posio

2. Montamos a coluna das Frequncias acumuladas (F):

Tabela 6.4: Notas de um concurso


Classes de Notas f F
0 | 10 21 21
10 | 20 36 57
20 | 30 50 107
30 | 40 30 137
40 | 50 28 165
50 | 60 26 191
60 | 70 20 211
70 | 80 17 228
80 | 90 12 240
90 | 100 10 250
250

3. Na coluna das frequncias acumuladas (F), localizamos a primeira frequncia


acumulada cujo valor seja maior ou igual ao da posio da separatriz:

Tabela 6.5: Notas de um concurso

110 A. F. Beraldo
6.1 Clculo de Quartis e Percentis

4. Localizada a classe que contm a separatriz, calculamos o seu valor, aplicando na


frmula:
!
P OS(sep) Fant
SEP = LIsep + Ampsep
fsep

Que, para o primeiro quartil, fica:


!
P OS(Q1 ) Fant
Q1 = LIQ1 + AmpQ1
fQ1

Em que, aplicando os valores dos termos da expresso, temos:

62, 5 57
 
Q1 = 20 + 10 = 21, 1
50
Efetuando os clculos, obtemos Q1 = 21, 1 anos.
O mesmo procedimento pode ser aplicado para as demais separatrizes. Calculamos
suas posies, sem arredondar os valores:

Separatriz Posio Clculo da posio Posio da separatriz

Q2 n/2 250/2 = 125, 0 P OS(Q2 ) = 125, 0

Q3 3n/4 3 250/4 = 187, 5 P OS(Q3 ) = 187, 5

P10 n/10 250/10 = 25, 0 P OS(P10 ) = 25, 0

P90 9n/10 9 250/10 = 225 P OS(P90 ) = 225, 0

As classes que contm as separatrizes so:

Tabela 6.6: Notas de um concurso

A. F. Beraldo 111
6. Estatstica em Grandes Conjuntos: Medidas de Posio

Em seguida, calculamos os valores estimados das separatrizes. Inicialmente, os


quartis Q2 e Q3 :

125 107
 
Q2 = 30 + 10 = 36, 0
30
187, 5 165
 
Q3 = 50 + 10 = 58, 7
26
Em seguida, os percentis P10 e P90 :

25 21
 
P10 = 10 + 10 = 11, 1
36
225 211
 
P90 = 70 + 10 = 78, 2
17

Os valores das separatrizes, portanto, so os seguintes:

Separatriz Valor

Q1 21,1

Q2 36,0

Q3 58,7

P10 11,1

P90 78,2

Assim, 10% dos candidatos conseguiram at 11,1 pontos no exame; 25% dos candida-
tos fizeram at 21,1 pontos; a metade dos candidatos conseguiu fazer at 36 pontos; 75%
dos candidatos fizeram at 58,7 pontos, e 90% dos candidatos fizeram at 78,2 pontos.
Veja a ilustrao a seguir:

112 A. F. Beraldo
6.1 Clculo de Quartis e Percentis

Figura 6.4: Quartis e Percentis do conjunto

A. F. Beraldo 113
6. Estatstica em Grandes Conjuntos: Medidas de Posio

6.2 Determinao Grfica das Separatrizes


Utilizando o polgono de frequncias acumuladas temos outra maneira de localizar a
posio e o valor de separatrizes. Veja a seguir:

No polgono de frequncia acumulada a seguir, temos dois eixos verticais. O primeiro,


esquerda, contm as frequncias acumuladas. O segundo eixo, direita, a diviso
percentual da populao acumulada o que pode ser entendido como percentis (diviso
por 100). Para se determinar o Q2 , por exemplo, procura-se, no eixo da direita, o valor
de 50%, que a posio do Q2 :

Figura 6.5: Determinao grfica do Q2

A partir da marca 50% no eixo das F r, traamos uma reta A que encontra a curva
(a ogiva do polgono de frequncias acumuladas) em P.

114 A. F. Beraldo
6.2 Determinao Grfica das Separatrizes

Figura 6.6: Determinao grfica do Q2 , ou mediana

Podemos ver que o valor determinado graficamente est bem prximo ao valor
calculado do Q2 (36,0). De forma anloga, determinamos os valores do Q1 e do Q3 ,
a partir das posies 25% e 75%. Veja a seguir:

A. F. Beraldo 115
6. Estatstica em Grandes Conjuntos: Medidas de Posio

Figura 6.7: Determinao dos quartis (Q1 e Q3 )

116 A. F. Beraldo
6.2 Determinao Grfica das Separatrizes

Os passos foram os seguintes:

A partir do eixo vertical direita (Fr) e das posies percentuais das separatrizes
(25% e 75%, respectivamente), traamos linhas paralelas ao eixo horizontal do
grfico;

Estas linhas encontram a ogiva nos pontos A e B;

A partir dos pontos A e B, traamos outras retas verticais, at o eixo das classes
(eixo horizontal). Onde estas retas encontrarem este eixo est os valores do Q1 e
Q3 .

A seguir, a determinao grfica das separatrizes para os dados deste exemplo:

Figura 6.8: Separatrizes determinadas graficamente

No exemplo acima, localizamos a posio e o valor de diversas separatrizes, utilizando


o mtodo descrito anteriormente. claro que a preciso da determinao do valor da

A. F. Beraldo 117
6. Estatstica em Grandes Conjuntos: Medidas de Posio

separatriz depende muito da acuidade do desenho e do traado das linhas. Embora no


se consiga uma preciso absoluta, esta determinao grfica fornece uma boa ideia dos
valores.

6.3 Determinao Grfica de intervalos


Na Ogiva de Galton encontramos outro recurso muito utilizado: a determinao
grfica de intervalos. Por exemplo, neste conjunto que estamos estudando, qual ser a
quantidade de candidatos que obteve notas abaixo de 45? E o nmero de candidatos
com notas acima de 85? Veja a seguir como determinar estes valores:

Para determinar o nmero de candidatos com notas abaixo de 45: no eixo horizontal
do grfico, a partir do valor 45, trace uma reta vertical at encontrar a curva:

Figura 6.9: Determinao Grfica de intervalos

118 A. F. Beraldo
6.3 Determinao Grfica de intervalos

Em seguida, pelo ponto P, trace uma reta paralela ao eixo horizontal:

Figura 6.10: Determinao Grfica de intervalos

Os valores encontrados so, aproximadamente, 148 candidatos, equivalentes a apro-


ximadamente 59% do total.

A. F. Beraldo 119
6. Estatstica em Grandes Conjuntos: Medidas de Posio

E quantos candidatos tiraram notas acima de 85? Primeiro, utilizando o mesmo


mtodo, encontre o nmero de candidatos com notas abaixo de 85:

Figura 6.11: Determinao Grfica de intervalos

So, aproximadamente, 235 candidatos, cerca de 94% do total. Ento, o nmero de


candidatos com notas acima de 85 igual a 250-235, ou seja, 15 candidatos.

120 A. F. Beraldo
6.3 Determinao Grfica de intervalos

Alm deste Captulo, pratique:

Faa agora os exerccios da Lista 1.6 - Medidas de Posio.

Faa agora uma simulao destas medidas no template TP02 -


Distribuies de Frequncia I.

Utilize o software DidDest para uma simulao destas medidas.

Assita ao audiovisual AV05 - Medidas de Posio em


Distribuies de Frequncias.

Faa o Estudo Dirigido ED05 - Medidas de Posio.

A. F. Beraldo 121
7 Estatstica em Grandes Conjuntos:
Medidas de Assimetria e Curtose
7.1 Simetria e Assimetria
As Distribuies de Frequncias podem ser analisadas tambm em relao sua
simetria, que pode ser entendida como a comparao da densidade de frequncia entre
as duas partes, quando dividimos a distribuio pela mdia. Seja, por exemplo, a
distribuio a seguir:

Tabela 7.1: Distribuio de Frequncias

Classes f
00 | 10 12
10 | 20 18
20 | 30 25
30 | 40 15
40 | 50 8
50 | 60 5
60 | 70 3
70 | 80 2
88

A. F. Beraldo 123
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

O Histograma de frequncia correspondente o seguinte:

Figura 7.1: Histograma

A mdia da distribuio X = 28. Se dividirmos a distribuio em duas partes, a


primeira abaixo da mdia e a segunda acima da mdia, podemos considerar a distribuio
desta forma:

Tabela 7.2: Notas de um concurso

Temos, portanto, uma densidade de frequncia maior na parte anterior mdia.


Ditos de outra forma existem mais elementos, na amostra, com valores inferiores
mdia. Veja a figura a seguir:

124 A. F. Beraldo
7.1 Simetria e Assimetria

Figura 7.2: Histograma

Nesta situao diz-se que a distribuio assimtrica positiva (mais elementos


amostrais inferiores mdia). Numa situao oposta, com mais elementos amostrais
superiores mdia, diremos que a distribuio assimtrica negativa. Podemos ter
uma situao de equilbrio, com o mesmo nmero de elementos amostrais acima e abaixo
da mdia: um caso de simetria.

A. F. Beraldo 125
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

Comentrios

Figura 7.3: Histograma de distribuio simtrica

Voc pode fazer uma analogia entre a assimetria de uma distribuio e o equilbrio
ou desequilbrio das densidades de frequncia representadas pelas barras do histograma
da distribuio. Na figura 7.3, acima, temos uma distribuio simtrica, que equilibra-
se perfeitamente sobre um balano, sem pender para nenhum dos lados. As massas se
distribuem igualmente nos lados direito e esquerdo do histograma, simtricas em relao
mdia.

Figura 7.4: Histograma de distribuio assimtrica positiva

Na figura 7.4, temos uma distribuio assimtrica positiva. O histograma pesa


mais do lado esquerdo do balano, e causa um desequilbrio, representado pela seta.

126 A. F. Beraldo
7.1 Simetria e Assimetria

Figura 7.5: Histograma de distribuio assimtrica negativa

Ocorre o contrrio, na 7.5. As massas esto mais pesadas na direita do histograma,


e o desequilbrio indicado pela seta. Temos ento uma distribuio assimtrica
negativa.

Na prtica, para sabermos a assimetria da distribuio, verificamos o sinal da seguinte


diferena:

Sinal(Assimetria) = X X
f (7.1)

As situaes que podemos encontrar so as seguintes:

X X
f>0 Mdia maior que a mediana Assimetria positiva

X X
f=0 Mdia igual mediana Simetria

X X
f<0 Mdia menor que a mediana Assimetria negativa

As situaes so ilustradas nas figuras a seguir (utilizamos os pontos mdios das


classes para a construo dos polgonos de frequncia):

A. F. Beraldo 127
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

Figura 7.6: Assimetria Positiva (mdia maior que mediana)

Figura 7.7: Assimetria Negativa (mdia menor que mediana)

Figura 7.8: Simetria (mdia igual mediana)

128 A. F. Beraldo
7.1 Simetria e Assimetria

No caso de simetria, h uma coincidncia entre mdia, moda e mediana. Para


distribuies unimodais, fortemente assimtricas, temos as seguintes relaes entre as
Medidas de Tendncia Central:

Figura 7.9: Distribuio assimtrica positiva: X


c<X
f<X

Figura 7.10: Distribuio assimtrica negativa: X


c>X
f>X

A. F. Beraldo 129
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

7.2 Medidas de Assimetria


A assimetria de uma distribuio pode ser medida, atravs de uma estatstica cha-
mada coeficiente de assimetria, CA. Existem vrias frmulas para o seu clculo. Na
que adotaremos nesta apostila, o CA chamado segundo coeficiente de assimetria
de Pearson, e a frmula a seguinte:

 
3 X X
f
CA = (7.2)
s

O resultado adimensional e assume o valor zero quando a distribuio simtrica


(X
f = X). Esta frmula permite comparar duas distribuies, verificando qual mais
assimtrica. O CA apresenta, mais comumente, valores entre 1. Valores mximos so:

3 CA 3

Outra frmula para calcular a assimetria de uma distribuio dada por:

Pn  3
m3 1 xi X
3 = =   (7.3)
s3 n 1 s3

Onde 3 (alfa-trs) o coeficiente de assimetria, m3 o Momento Centrado na mdia


de terceira ordem e s3 o cubo do desvio padro. No se preocupe, por enquanto, com o
que seja este momento de 3a ordem - momentos so explicados na apostila Estatstica
VI - Tpicos Especiais em Estatstica.

130 A. F. Beraldo
7.2 Medidas de Assimetria

Exemplo 7.1.

Classes f
0 | 2 3
2 | 4 7
4 | 6 12
6 | 8 17
8 | 10 27
10 | 12 24
12 | 14 20
110

Figura 7.11: Histograma

P
= 8, 82
f xi 970
Mdia = X = n
= 110 = 8, 8

Mediana = ?
 
f = n 110
P os X 2
= 2
= 55

Classe da mediana => 8 | 10

A. F. Beraldo 131
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

 
f F ant
P os X
f = LI +
X Amp
X
e
f X
e

55 39
 
=8+ 2
27
16
 
=8+ (2) = 8 + 1, 185 = 9, 185
= 9, 2
27

Clculo do desvio padro:

Classes f x d d2 f d2
0 | 2 3 1 7, 8 61,1 183,4
2 | 4 7 3 5, 8 33,9 237,0
4 | 6 12 5 3, 8 14,6 174,9
6 | 8 17 7 1, 8 3,3 56,2
8 | 10 27 9 0,2 0,0 0,9
10 | 12 24 11 2,2 4,8 114,2
12 | 14 20 13 4,2 17,5 349,8
110 1116,4
2
s = 10, 1
s = 3, 2
CV = 36, 1%

Clculo do Coeficiente de Assimetria:

     
3 X X
f 3 8, 8 9, 2 3 0, 4
CA = = = = 0, 375
S 3, 2 3, 2

132 A. F. Beraldo
7.2 Medidas de Assimetria

Exemplo 7.2.

Classes f
0 | 2 3
2 | 4 5
4 | 6 9
6 | 8 17
8 | 10 20
10 | 12 24
12 | 14 32
110

Figura 7.12: Histograma

P
= 9, 473
f xi 1042
Mdia = X = n
= 110 = 9, 5

Mediana = ?
 
f = n 110
P os X 2
= 2
= 55

Classe da mediana => 10 | 12

A. F. Beraldo 133
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

 
f F ant
P os X
f = LI +
X Amp
X
e
f X
e

55 54
 
= 10 + 2
24
1
 
= 10 + (2) = 10 + 0, 083 = 10, 083
= 10, 1
24

Clculo do desvio padro:

Classes f x d d2 f d2
0 | 2 3 1 8, 5 71,8 215,4
2 | 4 5 3 6, 5 41,9 209,5
4 | 6 9 5 4, 5 20,0 180,0
6 | 8 17 7 2, 5 6,1 103,9
8 | 10 20 9 0, 5 0,2 4,5
10 | 12 24 11 1,5 2,3 56,0
12 | 14 32 13 3,5 12,4 398,1
110 1167,4
2
s = 10, 6
s = 3, 3
CV = 34, 4%

Clculo do Coeficiente de Assimetria:

     
3 X X
f 3 9, 5 10, 1 3 0, 6
CA = = = = 0, 545
S 3, 3 3, 3

Conclumos, portanto, que sendo as duas distribuies assimtricas negativas, a DF


8.2 mais assimtrica do que a DF 8.1.

134 A. F. Beraldo
7.2 Medidas de Assimetria

Exemplo 7.3.

Classes F
0 | 2 6
2 | 4 16
4 | 6 20
6 | 8 26
8 | 10 20
10 | 12 16
12 | 14 6
110

Figura 7.13: Histograma

Pelo prprio formato do histograma, podemos perceber a simetria do conjunto. De


fato, calculando as medidas mdia e mediana, temos:
P
f xi 770
Mdia = X = n
= 110
= 7, 0

Mediana = ?
 
f = n 110
P os X 2
= 2
= 55

Classe da mediana => 6 | 8

A. F. Beraldo 135
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

 
f F ant
P os X
f = LI +
X Amp
X
e
f X
e

55 42
 
=6+ 2
26
13
 
=6+ (2) = 6 + 1, 0 = 7, 0
26

     
3 X X
f 3 7, 0 7, 0 3 0
CA = = = = 0, 0
S s s

O que confirma nossa percepo.

Exemplo 7.4.

Classes f
0 | 2 25
2 | 4 20
4 | 6 18
6 | 8 16
8 | 10 15
10 | 12 10
12 | 14 6
110

Figura 7.14: Histograma

136 A. F. Beraldo
7.3 Curtose

P
= 5, 545
f xi 610
Mdia =X = n
= 110 = 5, 5

Mediana = ?
 
f = n 110
P os X 2
= 2
= 55

Classe da mediana => 4 | 6

 
f F ant
P os X
f = LI +
X Amp
X
e
f X
e

55 45
 
=4+ 2
18
10
 
=4+ (2) = 4 + 1, 1111 = 5, 1111
= 5, 1
18

Clculo das Medidas de Disperso:

Classes f x d d2 f d2
0 | 2 25 1 4, 5 20,7 516,5
2 | 4 20 3 2, 5 6,5 129,6
4 | 6 18 5 0, 5 0,3 5,4
6 | 8 16 7 1, 5 2,1 33,9
8 | 10 15 9 3, 5 11,9 179,0
10 | 12 10 11 5,5 29,8 297,5
12 | 14 6 13 7,5 55,6 333,4
110 1495,3
2
s = 13, 6
s = 3, 7
CV = 66, 5%

Clculo do coeficiente de assimetria:

     
3 X X
f 3 5, 5 5, 1 3 0, 4
CA = = = = 0, 32
S 3, 7 3, 7
7.3 Curtose
Curtose o mesmo que achatamento de uma distribuio, representada pelo seu
polgono de Frequncia. As distribuies, quanto Curtose, podem ser leptocrticas,
mesocrticas ou platicrticas, como se v na figura a seguir:

A. F. Beraldo 137
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

Figura 7.15: Curtose

Como se pode ver na figura acima, dos polgonos de Frequncia que representam
trs distribuies, a mais achatada a platicrtica (do grego platys, largo, achatado). A
menos achatada, ou mais pontiaguda a leptocrtica (do grego leptos, fino, delgado).
Entre as duas, a distribuio mesocrtica.

A Curtose de uma distribuio tambm pode ser medida, atravs da estatstica


Coeficiente de Curtose, CC. Uma de suas frmulas a emprica:

Q3 Q1
CC =   (7.4)
2 P90 P10

Onde Q3 e Q1 so quartis e P90 e P10 so percentis. O CC tambm adimensional,


sendo que o valor de CC = 0,263 identifica uma distribuio mesocrtica. Valores
de CC menores que 0,263 identificam distribuies leptocrticas; valores de CC
maiores que 0,263 identificam distribuies platicrticas.

Uma frmula mais sofisticada para o clculo do Coeficiente de Curtose de uma


distribuio dada por:

Pn  4
m4 1 xi X
4 = =   (7.5)
s4 n 1 s4

138 A. F. Beraldo
7.3 Curtose

Onde 4 (alfa-quatro) o Coeficiente de Curtose, m4 o Momento de Quarta Ordem


4
e s o desvio padro, elevado quarta potncia. Como j foi dito, os momentos sero
explicados na apostila Estatstica VI. Veja os exemplos a seguir:

Exemplo 7.5.

Sejam as trs distribuies de Frequncia a seguir, calculadas sobre os conjuntos A, B e


C:

Classes fA fB fC
0 | 2 12 5 1
2 | 4 20 18 3
4 | 6 25 28 12
6 | 8 31 43 113
8 | 10 25 28 12
10 | 12 20 18 3
12 | 14 12 5 1
145 145 145

A. F. Beraldo 139
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

Os polgonos de Frequncia das distribuies so os seguintes:

Figura 7.16: Polgonos de frequncia

As posies das separatrizes so:

Separatriz Posio Posio


n
P10 P os(P10 ) = 10
14,5
n
Q1 P os(Q1 ) = 4
36,25
3n
Q3 P os(Q3 ) = 4
108,75
9n
P90 P os(P90 ) = 10
130,5

Montando as colunas das Frequncias acumuladas:

Classes fA FA fB FB fC FC
0 | 2 12 12 5 5 1 1
2 | 4 20 32 18 23 3 4
4 | 6 25 57 28 51 12 16
6 | 8 31 88 43 94 113 129
8 | 10 25 113 28 122 12 141
10 | 12 20 133 18 140 3 144
12 | 14 12 145 5 145 1 145
145 145 145

140 A. F. Beraldo
7.3 Curtose

Clculo das Separatrizes:

Conjunto A

14, 5 12
 
P10 =2+ 2 = 2, 25
20

36, 25 32
 
Q1 = 4 + 2 = 4, 34
25

108, 75 88
 
Q3 = 8 + 2 = 9, 66
25

130, 5 113
 
P90 = 10 + 2 = 11, 75
20

Conjunto B

14, 5 5
 
P10 =2+ 2 = 3, 1
18

36, 25 23
 
Q1 = 4 + 2 = 4, 95
28

108, 75 94
 
Q3 = 8 + 2 = 9, 05
28

130, 5 122
 
P90 = 10 + 2 = 10, 9
18

Conjunto C

14, 5 4
 
P10 =4+ 2 = 5, 75
12

36, 25 16
 
Q1 = 6 + 2 = 6, 4
113

108, 75 16
 
Q3 = 6 + 2 = 7, 6
113
A. F. Beraldo 141
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose

130, 5 129
 
P90 =8+ 2 = 8, 25
12

Coeficientes de Curtose

Conjunto A
Q3 Q1 9, 66 4, 34
CC = = = 0, 28 Platicrtica
2(P90 P10 ) 2(11, 75 2, 25)

Conjunto B

Q3 Q1 9, 05 4, 95
CC = = = 0, 263 Mesocrtica
2(P90 P10 ) 2(10, 9 3, 1)

Conjunto C

Q3 Q1 7, 6 6, 4
CC = = = 0, 24 Leptocrtica
2(P90 P10 ) 2(8, 25 5, 75)

142 A. F. Beraldo
7.3 Curtose

Alm deste Captulo, pratique:

Faa agora os exerccios da Lista 1.7 - Medidas de Assimetria


e Curtose.

Faa agora uma simulao destas medidas no template TP02 -


Distribuies de Frequncia I.

Utilize o software DidDest para uma simulao destas medidas.

Assita aos audiovisuais AV06A - Medidas de Assimetria em


Distribuies de Frequncias e AV06B - Medidas de
Curtose em Distribuies de Frequncias .

Faa o Estudo Dirigido ED06 - Medidas de Assimetria e


Curtose.

A. F. Beraldo 143
8 Introduo Anlise Exploratria de
Dados
8.1 Fundamentos da Anlise Exploratria
A Anlise Exploratria de Dados um conjunto de tcnicas estatsticas de descrio
de conjuntos e teste de hipteses1 , elaborada, entre outros, por John Tukey, em 1977
- da a associao que se faz com seu nome e esta parte da Estatstica. A Estatstica
Descritiva, ao lidar com os elementos amostrais, procura separar a amostra em faixas,
ou classes, e contar os valores que se encontram em cada classe, montando as tabelas
de Distribuio de Frequncias como foi estudado nos Captulos 4 a 7. A partir da
elaborao desta tabela, os dados amostrais originais so abandonados, e passamos a
estudar a amostra a partir de sua imagem organizada, a Distribuio de Frequncias.
Esta tcnica, apesar de bastante cmoda e eficiente, de alguma forma deixa escapar
informaes importantes que, numa anlise mais aprofundada, deveriam auxiliar em
nossas concluses. A proposta de Tukey, de larga utilizao na atualidade, supre estas
deficincias. A Anlise Exploratria de Dados, na parte da descrio de conjuntos, tem
as seguintes caractersticas:

1. Os dados amostrais coletados no so abandonados, mas sim dispostos em uma


nova forma de organizao, chamada Diagrama Ramo-Folha. Este diagrama
oferece muitas vantagens, como:

a Clculo preciso das modas, medianas e Medidas de Posio reais, sem necessitar
de frmulas empricas;
b Visualizao imediata do histograma de Frequncias da distribuio, apreen-
dendo mais rapidamente as situaes de Assimetria e Curtose;
c Maior clareza na redistribuio de dados nos intervalos de classes.

2. H uma nfase na apresentao visual das informaes, com a utilizao do Box-


Plot2 .
1
Veja a apostila Estatstica III
2
Utilizamos aqui a palavra na lngua inglesa, uma vez que sua traduo para Grfico-Caixa,
infelizmente, no conseguiu entrar para o jargo tcnico da Estatstica em nosso pas.

A. F. Beraldo 145
8. Introduo Anlise Exploratria de Dados

3. O enfoque sobre a mediana e as Medidas de Posio (quartis e percentis), em


detrimento da mdia, como Medidas de Tendncia Central.

4. Como Medidas de Disperso, utilizamos mais a distncia entre quartis, e outras,


que sero definidas neste captulo, ao invs da varincia e do desvio padro.

claro que no deve deixar de lado as tcnicas tradicionais da Estatstica Descritiva,


que continuam valiosas e indispensveis para o entendimento do conjunto, principal-
mente se este for de tamanho muito grande, com centenas e centenas de elementos.
Consideramos a Anlise Exploratria um formidvel avano na Estatstica, e voc deve
estar preparado para se valer de todas as tcnicas que puder dominar. Estudamos esta
nova tcnica atravs do exemplo seguinte:

Para estudar a distribuio de idades dos moradores de um bairro, foi feita uma
amostragem aleatria de 100 pessoas, e os resultados esto neste rol:

Figura 8.1: Rol

146 A. F. Beraldo
8.1 Fundamentos da Anlise Exploratria

Se fssemos tratar esta coleo de dados com tcnicas da Estatstica Descritiva,


iramos dividir a amostra em classes, estabelecer os critrios de incluso, computar as
ocorrncias e montar a tabela da distribuio de Frequncias. No o que se faz na
Anlise Exploratria. Aqui, o processo o seguinte:

1. Verifica-se o tipo de nmeros da distribuio: se so valores discretos ou contnuos,


se so expressos em dezenas, centenas ou milhares, se h decimais, etc. No nosso
exemplo, so variveis quantitativas no-contnuas, ou discretas (idade das
pessoas), podendo ser tratadas como dezenas: dezena 01, dezena 34, dezena 86,
etc.;

2. Identificamos o menor e o maior valor da distribuio. No exemplo, a menor idade


encontrada foi 1, a maior foi 94.

3. A partir dessas consideraes, montamos a seguinte tabela:

Figura 8.2: Diagrama Ramo-Folha

Estes valores 0, 10, 20, etc. significam o seguinte: na linha 0, colocaremos as


idades que vo de 0 a 9 anos; na linha 10, colocaremos as idades de 10 a 19, e
assim por diante. Este a construo de um Diagrama Ramo-Folha, e estes
valores 0, 10, 20, etc., so os Ramos.

A. F. Beraldo 147
8. Introduo Anlise Exploratria de Dados

4. Nas linhas dos ramos, colocaremos as idades constantes da amostra - no a


Frequncia, mas o prprio valor do conjunto, da seguinte forma: ao encontrarmos
na amostra a idade 45, iremos escrever o valor 5 no ramo 40, uma vez que 45
igual a 40+5. Se encontramos a idade 18, escrevemos no ramo 10 o valor 8
(18 = 10 + 8), e assim por diante. Estes valores so chamados de folhas, estando
ligados aos ramos. O diagrama Ramo-Folha fica desta maneira:

Figura 8.3: Diagrama Ramo-Folha

Os dados dispostos no Diagrama Ramo-Folha so dados reais, os mesmos exis-


tentes na amostra. No h a necessidade de clculo do ponto mdio, nem de supor
uma linearidade dos dados dentro das classes. Outra vantagem do diagrama ,
como dissemos, a visualizao imediata do histograma, cujas colunas so formadas
pelas folhas. Veja a figura a seguir:

Figura 8.4: Diagrama Ramo-Folha

Na Anlise Exploratria de Dados no h preocupao com mdias ou com as


Medidas de Disperso em torno da mdia, como a varincia e o desvio padro. As
medidas mais importantes so as medidas de posio - os quartis, que sero
calculadas a seguir.

148 A. F. Beraldo
8.2 Determinao dos Quartis:

8.2 Determinao dos Quartis:


Os quartis no so calculados, isto , no h uma frmula emprica para seu clculo,
como foi feito no Captulo 7. Os quartis so localizados no diagrama ramo-folha, a
partir da suas posies, que so dadas pelas expresses:

Quartil Posio
n+1
Primeiro Quartil P OS(Q1 ) = 4
n+1
Segundo Quartil P OS(Q2 ) =
2 
3 n+1
Terceiro Quartil P OS(Q3 ) = 4

Nas frmulas acima, n o tamanho do conjunto. No exemplo que estamos estudando,


as posies sero:

Primeiro Quartil:  
n+1 101
P OS(Q1 ) = = = 25, 25
4 4

Segundo Quartil:
n+1 101
P OS(Q2 ) = = = 50, 5
2 2

Terceiro Quartil:  
3 n+1 303
P OS(Q3 ) = = = 75, 75
4 4

As posies so fracionrias. Isto indica que tanto o Q1 quanto o Q2 e o Q3 sero


as mdias dos valores amostrais ocupando os postos anterior e posterior aos postos
calculados3 . Veja a figura a seguir:

3
Notar a preocupao no clculo de valores reais. Define-se exatamente a posio do primeiro
quartil como a metade da distncia entre a posio do primeiro elemento amostral (1o ) e a posio da
mediana que, por definio, ocupa a posio central do conjunto ordenado. Da mesma forma, a posio
do terceiro quartil a metade da distncia entre a posio da mediana e a posio do ltimo elemento
amostral.

A. F. Beraldo 149
8. Introduo Anlise Exploratria de Dados

Figura 8.5: Quartis

Calculando a mdia dos valores, temos:

17 + 17
Q1 = = 17, 0
2
31 + 32
Q2 = = 31, 5
2
50 + 50
Q3 = = 50, 0
2

Portanto, os valores das separatrizes so:

Q1 = 17, 0

Q2 = X
f = 31, 5

Q3 = 50, 0

Estes valores sero necessrios para a construo do Box-Plot, um grfico especfico


para este tipo de anlise.

150 A. F. Beraldo
8.2 Determinao dos Quartis:

Comentrios

1. Voc pode entender melhor o clculo das Separatrizes se visualizar a distribuio


desta forma: Imagine que os valores deste exemplo estejam colocados em ordem
crescente:

Figura 8.6: Postos

A mediana, tal como foi calculada, ocupa o 50,5o lugar, e tem o valor de 31,5. Tanto
esta posio quanto este valor da mediana no existem, isto so arbitrados em
funo da definio da mediana - valor que ocupa a posio central de um conjunto
ordenado. A mediana, portanto, divide o conjunto em dois subconjuntos, cada um
com 50 elementos:

Figura 8.7: Postos

Se voc imaginar que o Q1 seja uma espcie de mediana do subconjunto de


valores abaixo da mediana, e que o Q3 seja a mediana do subconjunto de valores
acima da mediana, as posies do Q1 e do Q3 so facilmente deduzidas:
 
n+1
Para o Q1, temos: P OS(Q1 ) = 2
= 50+1
2
= 25, 5 , ou seja, a posio do
Q1 tambm arbitrada, a mdia dos valores que ocupam o 25o e o 26o lugar:
Q1 = 17+17
2
= 17.
De forma anloga, encontramos a P OS(Q3 ), igual a 75,5. E o seu valor, Q3 = 50.

2. Pelo raciocnio acima, voc pode deduzir que:


Quando o conjunto possui um tamanho n par, as posies da mediana, do Q1 e do
Q2 so arbitradas.

A. F. Beraldo 151
8. Introduo Anlise Exploratria de Dados

Quando o tamanho n for mpar, a posio mediana real (e no arbitrada), uma


vez que n+1
2
inteiro e par, se n mpar. Da mesma forma, as posies dos quartis
sero reais.

8.3 Clculo das Cercas e o Box-Plot


Para completar a descrio do conjunto, e para o desenho do Box-Plot, precisaremos
calcular mais algumas medidas estatsticas:

AIQ: Amplitude interquartlica (Distncia entre quartis) = Q3 Q1

CEI: Cerca externa inferior = Q1 3AIQ

CII: Cerca interna inferior = Q1 1, 5AIQ

CIS: Cerca interna superior = Q3 + 1, 5AIQ

CES: Cerca externa superior = Q3 + 3AIQ

No exemplo que estudamos, temos:

AIQ = 50,0 - 17,0 = 33,0 anos

CII = 17 - 1,5x33 = -32,5, ou seja, 0 (j que no existe idade negativa)

CEI = 17 - 3x33 = -82, ou seja, 0.

CIS = 50 + 1,5x33 = 99,5 anos

CES = 50 + 3x33 = 149 anos

Precisaremos, tambm, das seguintes medidas:

VAI: Valor adjacente inferior : o menor valor do conjunto, que ainda maior
ou igual CII = 1 ano

VAS: Valor adjacente superior: o maior valor da amostra, que ainda menor
ou igual CIS = 94 anos

Verificamos se h valores discrepantes. Estes so os valores amostrais que


esto entre as cercas. No exemplo estudado, no h valores discrepantes.

152 A. F. Beraldo
8.3 Clculo das Cercas e o Box-Plot

Verificamos se h valores mais que discrepantes (outliers): so os valores


amostrais abaixo da CEI ou acima da CES. Em nosso exemplo no h valores
mais que discrepantes. (Veja exemplo comentado)

Calculados estes valores, traamos o box-plot, que tem o seguinte aspecto:

Figura 8.8: Box-Plot

A caixa limitada pelo Q1 e pelo Q3 . A linha da dentro caixa a mediana (Q2 ). Os


traos, superior e inferior, so ligados caixa por uma linha vertical - estes traos so as
marcas dos valores adjacentes (VAI e VAS). Se houvessem valores discrepantes ou
mais que discrepantes, seriam representados individualmente por pontos acima e abaixo
das marcas de valores adjacentes (veja o exemplo 8.1).

Com estas medidas, conseguimos descrever a disposio dos dados da amostra. A


tendncia central medida pela mediana e os quartis.

A Amplitude Interquartlica (AIQ) a distncia entre Q1 e Q3 , e indica a disperso


da amostra, na regio central da distribuio - contm 50% dos valores do conjunto.
Divide-se em duas regies: a primeira entre Q1 e a mediana, a segunda entre a mediana
e Q3 . Comparando-se a rea destas duas regies (a rea do box - retngulo) temos
outra boa indicao da disperso. Esta ideia complementada com a verificao da
existncia de valores discrepantes e muito discrepantes (outliers).

A. F. Beraldo 153
8. Introduo Anlise Exploratria de Dados

Valores discrepantes so os que pertencem regio entre a CEI e o VAI, ou entre


a VAS e a CES.

Valores mais que discrepantes esto abaixo da CEI ou acima da CES. (acima da
distncia Q3 + 3AIQ, ou abaixo de Q1 - 3AIQ).

As regies (intervalos de dados dentro do conjunto) so as seguintes:

Figura 8.9: Regies do Box-Plot

Regio Central: Entre o Q1 e o Q3 .

Regio dos Dados Regulares: Entre o VAI e o VAS.

Regio dos Dados Discrepantes: Entre a CEI e o VAI , e entre o VAS e a CES.

Regio dos Dados mais que discrepantes: abaixo da CEI ou acima da CES.

154 A. F. Beraldo
8.3 Clculo das Cercas e o Box-Plot

As informaes principais fornecidas pelo box plot so as seguintes:

Figura 8.10: Elementos do Box-Plot

Comentrios

Os sinais que representam Valores Discrepantes ou mais que Discrepantes variam


muito, de acordo com o software utilizado. Nesta apostila, adotamos a seguinte
conveno:

+ Valores Discrepantes (entre o VAI e a CEI, e entre o VAS e a CES).


Valores mais que Discrepantes (abaixo da CEI e acima da CES).

A. F. Beraldo 155
8. Introduo Anlise Exploratria de Dados

Exemplo 8.1. Seja o conjunto a seguir:

Figura 8.11: Diagrama Ramo-Folha

O diagrama Ramo-Folha o seguinte:

Figura 8.12: Diagrama Ramo-Folha

As posies dos quartis so as seguintes:

Primeiro Quartil:
n+1 99
P os(Q1 ) = = = 24, 75
4 4

Segundo Quartil:
n+1 99
P os(Q2 ) = = = 49, 5
2 2

Terceiro Quartil:
3(n + 1) 297
P os(Q3 ) = = = 74, 25
4 4

156 A. F. Beraldo
8.3 Clculo das Cercas e o Box-Plot

Localizando os quartis no diagrama Ramo-Folha, temos:

Figura 8.13: Quartis no Diagrama Ramo-Folha

Portanto, os valores dos Quartis e das demais estatsticas so:

Q1 = 39, 0 Q2 = X
f = 49, 0 Q3 = 59, 0

AIQ Amplitude Interquartlica Q3 Q1 = 59, 0 39, 0 = 20, 0

CII Cerca Interna Inferior Q1 1, 5AIQ = 39, 0 1, 5 20 = 39, 0 30 = 9

CIS Cerca Interna Superior Q3 + 1, 5AIQ = 59, 0 + 1, 5 20 = 59, 0 + 30, 0 = 89, 0

CEI Cerca Externa Inferior Q1 3AIQ = 39, 0 3, 0 20 = 39, 0 60, 0 = 21, 0

CES Cerca Externa Superior Q3 + 3AIQ = 59, 0 + 3 20 = 59, 0 + 60, 0 = 119, 0

VAI Valor adjacente inferior 12

VAS Valor adjacente superior 91

Outliers Valores discrepantes inferiores 1

Valores discrepantes superiores 91, 92, 95 e 100

A. F. Beraldo 157
8. Introduo Anlise Exploratria de Dados

O Box-Plot o seguinte:

Figura 8.14: Box-Plot

Notar o sinal + simbolizando os valores discrepantes (outliers).

158 A. F. Beraldo
8.3 Clculo das Cercas e o Box-Plot

Alm deste Captulo, pratique:

Faa agora os exerccios da Lista 1.8 - Anlise Exploratria


de Dados.

Faa agora uma simulao destas medidas no template TP02 -


Distribuies de Frequncia I.

Utilize o software DidDest para uma simulao destas medidas.

Assita ao audiovisual AV07 - Anlise Exploratria de


Dados.

Faa o Estudo Dirigido ED03 - Distribuies de Frequn-


cias.

A. F. Beraldo 159
Diagramao em LATEX, composta em Latin Modern.

Verso 7 (final) 2014


Gerado em 21 de agosto de 2014.

Вам также может понравиться