Академический Документы
Профессиональный Документы
Культура Документы
Beraldo
Estatstica I
Estatstica Descritiva
Compacta
Estatstica Descritiva
Antonio Fernando Beraldo
Departamento de Estatstica
ICE UFJF
Reviso e digitao:
Ana Darc da Silva
Bruno Alves Simes
Diego Augusto
Elisa Lancini Nogueira
Letcia Vale de Lima
Lucas Silva Novais
Marcelle Souza Pinto
Mirela Rigolon Valinote
Natlia Ferreira de Azevedo
Paula Bottoni
Ramon Goulart
Rosiany Grosman
Stfani Ferreira
Vanessa Castro Abreu
Victor Lopes Costa Serra
Willian Costa
Apresentao
Esta Apostila o primeiro volume de um conjunto de textos preparados para os
alunos dos cursos de Graduao e Ps-Graduao que possuem disciplinas de Estatstica
em sua grade curricular. Os textos abordam os seguintes temas:
Apostila Contedo
I Estatstica Descritiva
II Clculo de Probabilidades
III Teoria da Amostragem, Inferncia e Testes Estatsticos
http://www.ufjf.br/antonio_beraldo
A. F. Beraldo iii
Agradecimentos
Este um trabalho que reflete a experincia - e aprendizagem - do ensino de
Estatstica e a valiosssima contribuio dos alunos nestes 23 anos de atividades na
Universidade Federal de Juiz de Fora, como tambm a prtica da aplicao da Estatstica
em dezenas de dissertaes e teses de mestrandos e doutorandos de diversas IES do Pas.
Sem esta contribuio, este trabalho no existiria.
A todos os alunos que, com suas crticas e sugestes, me ensinaram o como, o quando
e o qu.
A. F. Beraldo v
Sumrio
Sumrio vi
1 Introduo Estatstica 1
1.1 O Mtodo Estatstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos . . . . . . . . . 21
vi A. F. Beraldo
SUMRIO
A. F. Beraldo vii
1 Introduo Estatstica
A Estatstica um conjunto de mtodos que, utilizando procedimentos matemti-
cos, visa conhecer e descrever a realidade que nos cerca, analisar seus fenmenos
naturais e sociais e organizar e fornecer informaes de apoio s Cincias. A
Estatstica uma das Matemticas, assim como a Geometria, a Trigonometria e o
Clculo Integral. E no h, na vida contempornea, praticamente nenhum setor de
atividade humana em que no faa uso da Estatstica.
Contar
Contar o processo matemtico mais primitivo para se conhecer a realidade.
Provavelmente o processo de contagem comeou h muitos milhares de anos atrs, junto
com a descoberta do fogo e com o desenvolvimento das primeiras habilidades de caa.
Segundo os especialistas1 , o homem primitivo contava at 2 acima desta quantidade,
deveria existir um gesto para significar muitos (at hoje, algumas tribos primitivas
contam no mximo at 3). Depois, talvez com auxlio dos dedos das mos, formou-se
aos poucos o sistema decimal. Com a evoluo cultural e tecnolgica, alguns povos
adotaram sistemas diferentes, como o vintesimal (mltiplos de vinte2 ) e o sexagesimal3 .
Em pinturas rupestres e inscries talhadas em pedras, vemos como nossos antepassados
enumeravam os objetos do seu mundo pedaos da sua realidade: membros do
grupo, produtos agrcolas, animais domesticados, a caa abatida, etc. Mas, quando esta
realidade se torna muito numerosa (muitas pessoas, muitos bens, rebanhos maiores),
a contagem de seus componentes passa a ser bem mais trabalhosa.
1
Ver Boyer, Histria da Matemtica, Ed. Edgar Blucher Ltda/USP, So Paulo, 1976.
2
Como os franceses dizem oitenta?
3
A contagem do tempo feita, at hoje, neste sistema. Veja tambm as medidas utilizadas na
trigonometria.
A. F. Beraldo 1
1. Introduo Estatstica
Romano (populao e extenso territorial)4 , das coletas de dados feitas pelos rabes
no sculo VIII. Ainda na Idade Mdia, Carlos Magno, rei dos francos e Imperador
do Ocidente, organizou o Estado a partir da contagem de seus sditos e de suas
propriedades. Guilherme, o Conquistador, ordenou a elaborao do Domesday Book,
um curioso catlogo dos bens do reino5 (Inglaterra, 1085-6) e de sua produo, para
fins de coleta de impostos. Como se pode ver, a Estatstica sempre foi associada ao
Estado (da seu nome). Ainda na Inglaterra, mas no sc. XVII temos o trabalho de
um dos primeiros demgrafos, John Graunt, (1620-1674) que pesquisou o crescimento
da populao de Londres, a proporo entre os sexos das crianas e dos adultos, e a
causa da morte de milhares de pessoas nas vrias tabelas do livro Natural and Political
Observations Made upon the Bills of Mortality (1662), que surpreende pela atualidade
e pela metodologia6 .
Censos demogrficos so realizados a cada 10 anos desde 1790 nos EUA, desde 1791
na Frana, e desde 1801 na Gr Bretanha. No Brasil em 1872, foi realizado o primeiro
recenseamento nacional no pas, o qual recebeu o nome de Recenseamento da Populao
do Imprio do Brasil. Depois deste e at 1940, novas operaes censitrias sucederam-se
em 1890, 1900 e 1920. Em 1910 e em 1930, no foram realizados os recenseamentos7
4
Os habitantes do Imprio Romano tinham que responder ao census na sua cidade de origem, e a
punio para quem fugisse ou no respondesse era a pena de morte. Segundo a Bblia, os pais de Jesus,
Maria e Jos, tiveram que empreender uma viagem de Nazar, na Galilia, at Belm, na Judia, para
responder ao Censo ordenado por Csar.
5
Est na Internet, transposto para o ingls de hoje: http://www.domesdaybook.co.uk/index.
html. Se voc l bem em ingls, divirta-se.
6
Veja o site http://www.edstephan.org/Graunt/graunt.html.
7
Veja: http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html
2 A. F. Beraldo
A seguir, um histograma de frequncia mostra a composio percentual da
populao brasileira segundo o Censo de 2010:
Figura 1.1: Populao Brasileira Urbana (2010) distribuio percentual por faixas etrias
Fonte: Pirmide Etria, disponvel em
http://www.ibge.gov.br/censo2010/piramide_etaria/index.php
A. F. Beraldo 3
1. Introduo Estatstica
Medir
Alguns fenmenos no so contveis so mensurveis. As tcnicas de medir, cuja
histria se confunde com a histria da Cincia, foram amplamente desenvolvidas pela
Estatstica. A Estatstica tem a sua maneira prpria de medir, e suas prprias medidas,
chamadas estatsticas: mdia, moda, varincia, desvio padro, nmeros-ndices ...
A Estatstica mede, por exemplo, a disperso (ou concentrao) de elementos de um
conjunto em torno de um elemento central; a probabilidade da ocorrncia de defeitos
em um produto industrial; a relao entre o nvel de renda de uma populao e seu
consumo de alimentos; a evoluo das taxas de mortalidade de indivduos acometidos de
doenas; a posio de um eltron em torno do ncleo do tomo; a classificao provvel de
determinado candidato num concurso vestibular (entre milhares de candidatos); o efeito
da propaganda nas vendas de um determinado produto; a audincia de um programa de
televiso; a inteno de votos em um candidato a prefeito...
Um bom exemplo do que seja calcular uma medida estatstica sobre uma grande
massa de dados o clculo do valor do PIB Produto Interno Bruto, soma das riquezas
produzidas pela indstria, agropecuria e servios, durante um determinado perodo.
um dos principais indicadores econmicos de um pas, e sua evoluo, ano a ano, revela
o comportamento de sua economia. O clculo do PIB, no entanto, no to simples.
Imagine que o IBGE queira calcular a riqueza gerada por um arteso. Ele cobra, por
uma escultura, de madeira, R$ 30. No entanto, no esta a contribuio dele para o
PIB. Para fazer a escultura, ele usou madeira e tinta. No o arteso, no entanto, que
produz esses produtos ele teve que adquiri-los da indstria. O preo de R$ 30 traz
embutido os custos para adquirir as matrias-primas para seu trabalho. Assim, se a
madeira e a tinta custaram R$ 20, a contribuio do arteso para o PIB foi de R$ 10,
no de R$ 30. Os R$ 10 foram a riqueza gerada por ele ao transformar um pedao de
madeira e um pouco de tinta em uma escultura. O IBGE precisa fazer esses clculos
para toda a cadeia produtiva brasileira. Ou seja, ele precisa excluir da produo total de
cada setor as matrias-primas que ele adquiriu de outros setores. Depois de fazer esses
clculos, o instituto soma a riqueza gerada por cada setor, chegando contribuio de
cada um para a gerao de riqueza e, portanto, para o crescimento econmico8 .
8
Adaptado de Folha On Line http://www1.folha.uol.com.br/folha/dinheiro/ult91u105544.
shtml
4 A. F. Beraldo
Figura 1.2: Evoluo percentual do Produto Interno Bruto Brasil
Fonte: Indicadores Econmicos do Banco Central do Brasil
O PIB (Produto Interno Bruto) do Brasil, em 2010, foi de 3,675 trilhes de reais,
um crescimento de cerca de 7,5%. O PIB per capita, foi de cerca de R$ 19 mil, um
crescimento de 6,5% sobre 20099 .
9
http://oglobo.globo.com/economia/mat/2011/03/03/pib-brasileiro-fecha-2010\
-com-crescimento-de-7-5-maior-desde-1986-aponta-ibge-923926837.asp
A. F. Beraldo 5
1. Introduo Estatstica
Classificar
Classificar quase uma decorrncia natural dos processos de contar e de medir.
Medidas estatsticas conduzem colocao dos fenmenos (e de suas variveis10 ) em
classes. Classificar pode ser entendido como categorizar (colocar em categorias - A,
B, C, D ...) ou ordenar (colocar em postos: 1o lugar, 2o lugar 3o lugar, etc.). A
Estatstica possui tambm suas medidas especiais de classificao, como as separatrizes
e os escores padronizados, entre outras. Estes processos vm desde o sculo XVII, com
os estudos de Estatstica Demogrfica, de John Graunt, at a Anlise Exploratria de
Tukey, com suas tcnicas modernas de anlise de dados numricos.
10
Variveis so os valores produzidos na ocorrncia de um fenmeno. Este um assunto importante,
que ser abordado muitas vezes durante este curso.
6 A. F. Beraldo
Segundo os critrios da ABEP, as classes econmicas, em termos de poder aquisitivo,
tm a seguinte renda mdia:
Relacionar
A Estatstica estuda os relacionamentos entre os fenmenos, no tempo e no espao.
Atravs de um conjunto de medidas estatsticas, procura-se determinar se existe uma
correlao (ou interdependncia) entre duas ou mais variveis e, se esta relao existir,
se forte ou fraca. Pode-se investigar, por exemplo, a relao existente entre a
escolaridade de uma populao e a incidncia de uma determinada doena; a correlao
entre o nmero de animais predadores em um lugar e os tipos de presas existentes nesta
regio; o rendimento escolar de alunos e seu quociente de inteligncia; o nmero de
acidentes de trnsito e a quantidade de veculos em circulao...
A. F. Beraldo 7
1. Introduo Estatstica
Figura 1.5: Curva de correlao entre os pesos e as estaturas mdias de 100 indivduos
do sexo masculino
Os dois grficos acima mostram o estudo da correlao entre pesos e estatura de 100
estudantes de um colgio da cidade. Na figura 1.4 esto os dados colocados no grfico,
e, na figura 1.5, a curva de correlao uma espcie de ajustamento ideal entre o peso
e estatura, a equao da curva de correlao e a estatstica R2 - r ao quadrado - que
mostra o grau de correlao linear entre as duas variveis. Quanto mais prximo de
R2 = 1, 0; melhor a correlao entre os valores das duas variveis.
8 A. F. Beraldo
Comparar
Comparar grandezas uma das reas onde mais se aplicam os processos estatsticos.
So as estatsticas chamadas nmeros-ndices, entre outras, de larga utilizao na
Economia, nas Cincias Sociais, na Medicina, na Administrao Pblica, etc. Ao
comparar valores destas grandezas entre diversos pases ou regies, em pocas diferentes,
procura-se, desta forma, medir a evoluo destas grandezas - o que fornece os parmetros
para o planejamento governamental das polticas sociais e econmicas, entre muitos
outros exemplos.
Figura 1.6: IDH-M das quatro melhores e quatro piores cidades, Brasil, 2000
Fonte: PNUD - Atlas do Desenvolvimento Humano, 2008.
11
http://g1.globo.com/brasil/noticia/2010/11/brasil-ocupa-73-posicao-entre-169\
-paises-no-idh-2010.html
A. F. Beraldo 9
1. Introduo Estatstica
Prever
As tcnicas de previso estatstica (forecasting), baseadas no Clculo de Probabilida-
des, constituem o ferramental bsico dos Sistemas de Apoio s Decises. Principalmente
a Anlise de Sries Temporais (onde os fenmenos se relacionam diretamente com o
passar do tempo), que talvez seja o ramo da Estatstica de maior desenvolvimento nos
ltimos anos. A previso estatstica, conjugada com as tcnicas de correlao e de
comparao, auxilia no planejamento das aes e no desenvolvimento das empresas, das
instituies governamentais e de tecnologia - de prognsticos do comportamento das
carteiras de aes na Bolsa de Valores ao lanamento de satlites espaciais. Uma parte
importante da previso estatstica a Aturia, ou Clculo Atuarial, que trata dos
clculos de seguros (de vida, de acidentes, de doenas, etc.), tendo por base o Clculo
de Probabilidades.
12
PNAD a abreviao de Pesquisa Nacional por Amostragem Domiciliar. uma pesquisa feita
pelo IBGE com periodicidade menor do que o Censo, e utilizada para acompanhar a evoluo de
algumas estatsticas.
10 A. F. Beraldo
Figura 1.8: Expectativa de Vida ao Nascer (Reta de Regresso)
A. F. Beraldo 11
1. Introduo Estatstica
Inferir
Inferir o processo estatstico em que se estima o valor de uma medida da populao
(chamada parmetro13 ) a partir do valor desta mesma medida, calculada sobre uma
Amostra retirada da populao. Por exemplo, queremos saber qual a taxa de
fertilidade (nmero de filhos por mulher) da populao do Brasil. Em outras palavras,
desejamos saber o parmetro nmero de filhos por mulher. Esta populao muito
numerosa (em torno de 60 milhes de mulheres). Sorteamos, ento, uma Amostra
de 2.400 mulheres desta populao e, com os dados desta amostra, calculamos duas
estatsticas14 : a mdia e o desvio-padro15 . A partir destas estatsticas, dizemos
(por exemplo) que a taxa de fertilidade atual no Brasil est em torno de 2,8 filhos
por mulher. Ou seja, estimamos o valor do parmetro de uma populao a partir de
estatsticas amostrais.
13
Parmetro: o valor de uma medida, referente a populao.
14
Estatstica: o valor de uma medida referente amostra.
15
Mdia e desvio-padro so medidas que estudamos no Captulo 2 desta Apostila.
12 A. F. Beraldo
Testar
Testes Estatsticos so processos de verificao da igualdade ou desigualdade entre
duas ou mais medidas - entre valores esperados (ou previstos) e valores ocorridos, por
exemplo, ou entre estatsticas de dois ou mais conjuntos, separados no tempo ou no
espao. Pode se testar estatisticamente a eficincia de um processo (uma dieta, por
exemplo), ou a eficcia de uma ao (um mtodo de aprendizagem), as diferenas entre
os resultados de dois ou mais tipos de tratamentos mdicos (a cura pela sugesto, pela
alopatia ou pela homeopatia). A seguir, uma ilustrao de uma pesquisa experimental
onde se testa a eficcia de um medicamento em um grupo de pessoas.
A. F. Beraldo 13
1. Introduo Estatstica
Modelar
O que faz um cliente do supermercado tomar a deciso de comprar um produto de
determinada marca, e no de outra? Quais so os fatores de risco de algum tornar-se
diabtico? Em crianas em processo de alfabetizao, o que facilita e o que dificulta a
aprendizagem? Tomada de decises, incidncia de doenas e processos de aprendizagem
so exemplos de fenmenos complexos que ocorrem, associados ou determinados
por vrios fatores. Saber quais so os fatores mais importantes, qual o impacto de
associao de fatores, e quais as consequncias de realarmos um ou mais fatores so
alguns aspectos da anlise de modelos multivariados.
14 A. F. Beraldo
Um modelo uma simplificao uma representao esquemtica -, de como
percebemos os fenmenos. Matematicamente, escrevemos
Y = B1 x1 + B2 x2 + B3 x3 + + Bn Xn
Considere, por fim, que podemos medir esta aprendizagem por meio de exames
(provas, testes) que, bem elaborados, pontuam (quantificam) esta aprendizagem. Os
valores obtidos nos testes so os valores de Y . Assim, podemos correlacionar Y com as
variveis, que no nosso modelo, favorecem ou so obstculos para a aprendizagem.
A. F. Beraldo 15
1. Introduo Estatstica
16
O conceito de varivel aleatria explicado em profundidade na Apostila II Clculo de
Probabilidades.
16 A. F. Beraldo
1.1 O Mtodo Estatstico
A. F. Beraldo 17
1. Introduo Estatstica
17
Para se ter uma ideia da magnitude do problema do Censo em um pas como o nosso, com seus 8,5
milhes de km2 , O Censo 2010 custou em torno de 1,4 bilho de reais. Os 240 mil recenseadores, com
seus GPS, visitaram 58 milhes de domiclios, em 5.565 cidades, e coletaram dados sobre os mais de
190 milhes de brasileiros. A coleta de dados foi feita no mais em formulrios de papel, mas por meio
de 220 mil palmtops e netbooks, em cerca de 314 mil setores censitrios. Os dados foram transmitidos
central do IBGE via web. Foram duas modalidades de questionrios: o bsico, com 16 perguntas,
e o amostra, com 81 perguntas, aplicados em 7 milhes de domiclios, sorteados dentro do universo.
Entre as novidades deste censo foi a incluso do item unio homossexual entre as 20 opes de grau
de parentesco com o responsvel pelo domiclio, e o mapeamento das cerca de 210 lnguas faladas no
pas (http://www.ibge.gov.br/censo2010/). Um censo uma espcie de corrida contra o tempo, em
termos de atualizao de nmeros. Por exemplo, desde que voc comeou a ler esta nota de rodap, j
nasceram mais de 6 brasileiros (o ritmo estimado de 4,2 nascimentos/minuto).
18
Veja http://www.ibge.gov.br/censo/divulgacao_impresso.shtm
18 A. F. Beraldo
1.1 O Mtodo Estatstico
A. F. Beraldo 19
1. Introduo Estatstica
Populao = Parmetro.
Amostra = Estatstica.
20 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos
Do tamanho da amostra, n;
A. F. Beraldo 21
1. Introduo Estatstica
civil, estatura, peso, naturalidade, classe social, classe econmica, nmero de matrcula,
pontuao no vestibular, tipo de moradia em Juiz de Fora, e muitas, muitas outras.
Estas caractersticas, daqui por diante, passam a se chamar variveis.
O domnio da varivel (tipo de valores que a varivel pode assumir) que determina
o tipo da varivel.
22 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos
Uma varivel quantitativa (ou numrica) contnua quando pode assumir valores
R
pertencentes ao conjunto dos Reais, (v ). Geralmente, estes valores so resultado de
uma medio.
A. F. Beraldo 23
1. Introduo Estatstica
Varivel nominal ordinal: uma varivel nominal politmica cujos valores podem
ser colocados em ordem de intensidade (ou de frequncia, ou de gravidade, entre outras
qualificaes). Por exemplo, as respostas questo:
Discorda totalmente;
Discorda;
No sei avaliar;
Concorda;
Concorda totalmente.
24 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos
Em casos que a evoluo dos valores linear, como por exemplo, as medidas
de comprimento (estatura, distncia), a unidade o metro, e, se dizemos que o
comprimento de uma sala de aula de 8m, estamos falando que o comprimento da
sala de 8 x 1m (oito vezes um metro). O mesmo vale para peso, tempo, volume, rea,
e outras.
20
Anders Celsius (1701-1744), astrnomo e cientista sueco. Curiosamente, quando foi inventada, a
escala Celsius era ao contrrio: 0 C correspondia ao ponto de ebulio e 100 C ao ponto do gelo
da gua. Depois de sua morte, a escala passou a ter o sentido e direo atual.
21
Charles Richter (1905-1985) e Beno Gutenberg, do California Institute of Technology, propuseram
em 1935 a escala de medida sismogrfica que, no comeo, tinha a finalidade de medir unicamente os
terremotos que se produziram na Califrnia (EUA). A escala Richter corresponde ao logaritmo da
amplitude das ondas a 100 km do epicentro. Era graduada de 1 a 9, mas, depois de tremores que
ultrapassam o grau 9, , uma escala aberta (sem limite superior).
A. F. Beraldo 25
1. Introduo Estatstica
Notar que as variveis dados de razo sempre se referem a uma base: o melhor
exemplo est no preo do carro, fornecido tanto em reais quanto em dlares.
Comentrios:
26 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos
dizer, a faixa de variao da mdia. Se a mdia foi de 290 fios de cabelo por
quadradinho, e o desvio padro de 50 fios de cabelo por quadradinho, dizemos que
o nmero de fios de cabelo, por quadradinho, est entre 240 e 340. Como so
1.000 quadradinhos, dizemos que a pessoa possui entre 240.000 e 340.000 fios de
cabelo. Note que nmero de fios de cabelo , a priori, uma varivel numrica
discreta. Quando seu valor se torna muito grande, d-se a ela um tratamento de
varivel numrica contnua.
3. Por outro lado, podemos substituir as categorias de uma varivel qualitativa por
nmeros, se esta varivel qualitativa possui um carter hierrquico ou ordinal, ou
mesmo de graduao em nvel ou intensidade. Por exemplo, em uma pesquisa de
opinio pblica a respeito do presidente da repblica, as respostas possveis so:
timo, bom, regular, ruim ou pssimo (variveis qualitativas). Devido
ao alto grau de subjetividade nesta conceituao, pode-se substituir a pergunta da
pesquisa por outra: Qual nota, numa escala de 0 a 10, voc daria ao Presidente
da Repblica?. Com este procedimento, tenta-se tornar a pesquisa mais objetiva,
com a utilizao de variveis quantitativas. O inverso pode tambm ser utilizado:
as famlias de um bairro podem ter uma classificao scio-econmica A, B, C, D
ou E (varivel qualitativa) conforme sua renda familiar (varivel quantitativa).
A. F. Beraldo 27
1. Introduo Estatstica
5. Atributos e Variveis: Tempos atrs, fazia uma distino entre atributos e vari-
veis. Atributo era uma espcie de caracterstica do elemento amostral que pouco
ou nada variava, como sexo, naturalidade, data de nascimento, e outras. J a
varivel seria uma caracterstica que se alterava mais frequentemente.
Variveis latentes
At agora, falamos apenas de variveis objetivas, como peso, estatura, sexo,
classe econmica. So variveis cujos valores podem ser diretamente apurados, seja
por questionrios e entrevistas, seja pela observao dos coletores de dados, seja por
instrumentos apropriados de medio. Existe, no entanto, um outro extenso grupo de
variveis que no so passveis de serem medidas direta e objetivamente, mas cujos
valores (ou estados) so estimados - so as chamadas variveis latentes, muito
comuns em Psicologia, Cincias Sociais, Educao, Economia e Administrao. Alguns
exemplos: Qualidade de Vida, Satisfao do Consumidor, Nvel de Participao Poltica,
Nvel de Aprendizagem, Inteligncia, Aptido Fsica...
Por exemplo, como medir algo que convencionamos chamar de Qualidade de Vida?
Deve-se, primeiro, definir o qu seja Qualidade Vida, e de quem: da populao em
geral, dos jovens, das mulheres, dos deficientes fsicos? O que seria Aptido Fsica?
Exemplo 1.2. Uma pesquisa dos alunos do curso de Cincias Sociais procurou medir o
Nvel de Satisfao dos moradores do Bairro Alfa. Nvel de Satisfao uma varivel
latente, como foi dito, e no pode ser medida direta e objetivamente.
Por exemplo, o fator Sade foi medida pela avaliao feita pelos respondentes, em
questes como:
28 A. F. Beraldo
1.2 Atributos e Variveis: a Natureza dos dados Estatsticos
Totalmente Insatisfeito
Insatisfeito
NSA No Sei Avaliar
Satisfeito
Totalmente Satisfeito
Veja um dos resultados da pesquisa no grfico a seguir. Avalie cada fator segundo o
critrio dado.
22
A mediana e demais medidas de tendncia central so estudadas no prximo captulo.
A. F. Beraldo 29
1. Introduo Estatstica
30 A. F. Beraldo
2 Medidas Estatsticas de Tendncia Central
Medidas de Tendncia Central procuram caracterizar um conjunto de n dados
numricos por apenas um valor. Esta parece ser uma tendncia natural das pessoas:
quando se tm uma srie de valores procura-se um valor mdio, pelo qual se identifica
o conjunto. muito comum se ouvirem frases do tipo os aluguis esto em torno de
R$ 250,00, ou so meninos na faixa de 12 anos, ou ainda o jogador faz cerca de 2
gols por partida. Expresses como em torno, cerca de, na faixa de, ou ainda em
mdia, traduzem esta tentativa de adotar-se um valor nico para identificar um
conjunto de valores.
2.1 Mdia
2.1.1 Mdia Aritmtica
A = {x1 , x2 , x3 , , xn }
A. F. Beraldo 31
2. Medidas Estatsticas de Tendncia Central
P
xi
X= (2.1)
n
P
xi 1+2+4+8+0+3 18
X= = = = 3, 0
n 6 6
82+5+64+2+21
P
xi 16
X= = = = 2, 0
n 8 8
P
xi 1+2+4+3+2+2+2+3+2+1+2 24
X= = = = 2, 18
n 11 11
Note que a mdia pode ser fracionria, ou seja, pode assumir um valor que, primeira
vista, pode parecer absurdo, como o caso de 1,3 filhos por casal, ou 0,96 gols por
partida.
Comentrios
32 A. F. Beraldo
2.1 Mdia
pela escola ou pelo curso que frequenta. Isto bem diferente do conceito que
acabamos de estudar.
2. A mdia de um conjunto nem sempre poder ser adotada como valor caracterstico
deste conjunto. Conjuntos muito irregulares (com valores extremos) tambm
possuem mdia, mas esta pode no caracterizar o conjunto. Por exemplo, se numa
prova aplicada a uma turma de alunos a metade dos alunos tirou nota 3 e a outra
metade tirou nota 7, a mdia ser 5. No entanto:
A = {1, 1, 5, 5, 5, 6, 6}
P
xi 1+1+5+5+5+6+6 29
X= = = = 4, 14
n 7 7
(1 2) + (5 3) + (6 2)
P
xi 29
X= = = = 4, 14
n 7 7
A. F. Beraldo 33
2. Medidas Estatsticas de Tendncia Central
utilizar-se a multiplicao dos elementos por seus pesos fica bem mais evidente. De uma
forma geral, introduzimos a mdia aritmtica ponderada X P , dada por:
Pj=k
xj p j
X P = Pj=1
j=k (2.2)
j=1 pj
xi p i (4 3) + (5 2) + (7 4) + (3 2) + (2 5) + (6 1)
P
XP = P =
pi 3+2+4+2+5+1
72
= = 4, 24
17
A = {x1 , x2 , x3 , , xn }
XG = n
x1 x2 x3 xn (2.3)
Por exemplo: seja o conjunto A = {1, 4, 5, 6, 3}. Sua mdia geomtrica dada por:
34 A. F. Beraldo
2.1 Mdia
5
XG = n
x1 .x2 .x3 . .xn = 5 1 4 5 6 3 = 360 = 3, 245
Lembre-se que:
1
X G = (x1 x2 x3 xn ) n
1
log X G = log x1 + log x2 + log x3 + ... + log xn
n
A = {x1 , x2 , x3 , , xn }
n
X H = Pi=n 1 (2.4)
i=1 xi
A. F. Beraldo 35
2. Medidas Estatsticas de Tendncia Central
Por exemplo, seja o conjunto A = {3, 4, 6, 2}. Sua mdia harmnica X H dada por
n 4 4
XH = P 1 = 1 = = 3, 20
xi 3
+ + 16 +
1
4
1
2
15
12
Nota: Como voc deve ter notado, ao analisar a frmula de clculo da mdia
harmnica, esta no existe no campo real se:
Nota: A partir deste ponto, iremos utilizar a notao X para as mdias aritmticas
Simples e Ponderadas, X G para a mdia geomtrica e X H para a mdia harmnica.
Comentrios
X XG XH
36 A. F. Beraldo
2.1 Mdia
3
3
XG = 124= 8=2
3 3 3
XH = = = = 1, 71
1 1 1 4+2+1 1, 75
+ +
1 2 4 4
3. Voc pode ver que as mdias Harmnicas e Geomtricas no so to afetadas
pela existncia de valores extremos no conjunto.
Como seu valor pode ser distorcido pela presena de elementos extremos no
conjunto, h de se fazer uma verificao na distribuio destes valores, para
julgar se a mdia boa ou ruim para caracterizar o conjunto.
A. F. Beraldo 37
2. Medidas Estatsticas de Tendncia Central
Propriedade I
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A .
Seja um conjunto B, definido como:
B = {x1 + k, x2 + k, x3 + k, , xn + k} = {xi + k}n , (sendo k uma constante) e
com mdia X B .
A mdia X B ser igual a X A + k.
Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores de um
conjunto, a nova mdia ser a mdia do conjunto original somada (ou diminuda)
a esta constante K.
Propriedade II
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A .
Seja um conjunto B, definido como:
A = {x1 k, x2 k, x3 k, , xn k} = {xi k}n , e com mdia X B .
(sendo k uma constante diferente de zero)
A mdia X B ser igual a X A k.
Propriedade III
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A .
Sejas as diferenas (ou desvios) di = xi X A (diferena entre cada elemento do
conjunto em relao mdia). Temos que:
i=n
X
di = 0
i=1
Ou seja, a soma algbrica dos valores das diferenas dos elementos em relao
mdia do conjunto sempre nula.
38 A. F. Beraldo
2.2 Moda
Propriedade IV
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A .
Sejam as diferenas (ou desvios) di = xi V (diferena de cada elemento do
conjunto em relao a um valor V qualquer.
Pi=n 2
Temos que d
i=1 i um mnimo quando V = X A .
2.2 Moda
Assim, um conjunto pode possuir uma moda apenas, ou pode possuir mais de uma
moda, ou pode no possuir moda. Para que um conjunto possua moda, necessrio
que:
A moda notada
por
X.
c A frequncia da moda, ou das modas, chamada
frequncia modal fk .
A. F. Beraldo 39
2. Medidas Estatsticas de Tendncia Central
Comentrios
1. A moda no muito considerada pelos estatsticos uma vez que ela pode no
ocorrer ou, o que pior, pode existir mais de uma moda na amostra. Desta forma,
ficaramos em dvida de qual dos valores da moda usar - lembre-se que uma medida
de tendncia central tem que ser um valor nico.
3. Outro erro muito comum , quando a distribuio possui duas modas, inventar-se
uma moda mdia, que seria o valor mdio entre as modas. Esta moda mdia
no existe.
4. Mesmo que a moda possa no ser utilizada como Medida de Tendncia Central (no
caso de duas ou mais modas, por exemplo), ela no perde sua utilidade. As modas
fornecem indcios que existem vrios pontos de concentrao na amostra, o que
pode caracterizar um conjunto formado por vrios subconjuntos - e assim que a
amostra deve ser analisada.
6. Vantagens da moda:
7. Desvantagens da moda:
40 A. F. Beraldo
2.3 Mediana
2.3 Mediana
Seja o conjunto A = {1, 4, 6, 3, 9}. Para calcular sua mediana, temos que ordenar o
conjunto (vide definio acima). Ordenado, o conjunto passa a ser:
A0 = {1, 3, 4, 6, 9}
A. F. Beraldo 41
2. Medidas Estatsticas de Tendncia Central
Neste caso, a mediana ser a mdia dos dois valores centrais. Por exemplo, seja
o conjunto B = {1, 0, 3, 5, 4, 9, 2, 1}. O conjunto ordenado ser:
B 0 = {0, 1, 1, 2, 3, 4, 5, 9}
Comentrios
3. Vantagens da mediana:
a A mediana, por ser independente dos valores do conjunto, pode ser calculada
mesmo para conjuntos abertos;
b Sua robustez.
4. Desvantagens da mediana:
1
No consideremos isto uma desvantagem. Mesmo que a mediana no pertena ao conjunto, sua
finalidade como medida de tendncia central ou de posio no se perde. Sempre saberemos que 50%
dos valores do conjunto esto abaixo da mediana, e 50% acima dela. isso que importa.
42 A. F. Beraldo
2.4 Ponto Mdio
Por exemplo, seja o conjunto A = {3, 8, 1, 9, 4}. Seu ponto mdio, x, dado por:
A. F. Beraldo 43
2. Medidas Estatsticas de Tendncia Central
44 A. F. Beraldo
3 Medidas Estatsticas de Disperso
At aqui estudamos as Medidas de Tendncia Central. Procuramos um valor nico
que represente todo um conjunto numrico. Com a determinao deste valor, seja ele
a mdia, a moda ou a mediana, aumentamos ainda mais o nvel de conhecimento que
possumos sobre a amostra. Prosseguindo nosso estudo; vamos adotar a Mdia como
Medida de Tendncia Central (por mais imperfeita que possa ser esta medida), e verificar
como os demais elementos do conjunto se dispem em torno da mdia.
A. F. Beraldo 45
3. Medidas Estatsticas de Disperso
3.1 Amplitude
Amplitude (R) simplesmente a distncia entre o maior valor e o menor valor de um
conjunto de dados. Por exemplo, a Amplitude do conjunto A = {1, 3, 5, 5, 5, 8} igual
a R = 8 1 = 7.
46 A. F. Beraldo
3.2 Desvios e Desvio Mdio
P
xi 0+3+2+7+8+4 24
X= = = = 4, 0
n 6 6
di = xi X (3.1)
A. F. Beraldo 47
3. Medidas Estatsticas de Disperso
Note que temos desvios negativos, positivos e nulos. Desvios negativos ocorrem
quando os elementos so menores que a mdia; desvios positivos acontecem quando os
elementos so maiores do que a mdia; desvios nulos ocorrem quando os elementos so
coincidentes com a mdia. Assim, podemos ter:
di > 0 o que indica que xi > X , ou que o elemento xi est acima da mdia X
di < 0 o que indica que xi < X, ou que o elemento xi est abaixo da mdia X
J temos uma ideia dos desvios dos elementos (ou de cada elemento), dentro do
conjunto. Ainda assim, pouco. Queremos ter uma ideia geral de como est a disperso,
como um todo, dentro da amostra. Uma ideia inicial calcular a mdia dos desvios,
ou desvio mdio. Uma frmula para o desvio mdio seria:
Pi=n
i=1| di |
d= (3.2)
n
48 A. F. Beraldo
3.3 Varincia e Desvio Padro
Pi=n
i=1 | di | 14
d= = = 2, 33
n 6
O que quer dizer este valor? Este desvio mdio, de 2, 33, indica que os elementos
da amostra se desviam, em mdia, de 2, 33 unidades (acima e abaixo da mdia). Este
desvio em relao mdia, lembre-se que pode ser tanto positivo quanto negativo. Este
um valor mdio, ou seja, sofre de todas as imperfeies desta medida: fortemente
afetada por valores extremos, no se aplica a conjuntos muito irregulares, etc. Estas
desvantagens, de certa forma, distorcem aquilo que seria uma boa medida da grandeza
disperso. necessrio, ento, melhorar a forma de medir a disperso dos elementos
da amostra em torno da mdia. Existem alguns procedimentos matemticos adotados
pela Estatstica, dentre os quais o mais utilizado o clculo de uma estatstica chamada
desvio padro.
1
Voc se lembra do que robustez, em Estatstica?
A. F. Beraldo 49
3. Medidas Estatsticas de Disperso
Pi=n 2
2 d
i=1 i
s = (3.3)
n1
s= s2 (3.4)
50 A. F. Beraldo
3.3 Varincia e Desvio Padro
Montamos mais uma coluna, direita, para conter os valores dos quadrados dos
desvios:
Pi=n 2
2 d
i=1 i 46
s = = = 9, 2
n1 5
s= s2 = 9, 2 = 3, 03
Comentrios
3. Voc deve estar perguntando: por que, afinal, no utilizamos a varincia, apenas,
sem mais esta medida do desvio padro? A resposta a seguinte:
Suponha que estamos analisando as notas de uma turma, em que foram atribudos
pontos aos alunos, numa escala de 0 a 10. Ento, podemos ter alunos com 0
ponto, 1, 2 ou 3 pontos, e assim por diante, at alunos com 10 pontos.
Ao calcularmos a mdia das notas dos alunos, encontramos, por exemplo, o valor
6,8. Isto quer dizer que a mdia da turma 6,8 pontos.
A. F. Beraldo 51
3. Medidas Estatsticas de Disperso
4. A maioria dos autores faz uma distino entre o clculo da varincia e do desvio
padro referindo-se a amostras ou aos elementos do conjunto Universo (ou popu-
lao). Adotam expresses de clculo ligeiramente diferentes para s2 (varincia de
amostras) e para 2 (varincia de populaes)2 . As frmulas so:
Para amostras:
P 2
2 d
s = (3.5)
n1
Para populaes:
P 2
2 d
= (3.6)
N
2
Os motivos tcnicos para esta distino sero discutidos na Apostila III, Amostragem, Inferncia
de Testes
52 A. F. Beraldo
3.4 Coeficiente de variao
Outra frmula para o clculo da varincia pode ser deduzida da expresso que
utilizamos. a seguinte:
Pi=n 2
2 i=1d i 2
s = X (3.7)
n
Voc pode utilizar qualquer uma das expresses, dependendo da sua comodidade.
s
CV = (3.8)
X
s 3, 03
CV = = = 0, 7575
X 4, 0
Comentrios
2. A Amplitude fornece uma ideia preliminar de como est a disperso, a grosso modo,
na amostra. Se a varivel estatura dos indivduos que est sendo medida, uma
amostra A com Amplitude R(A) = [1, 68m, 1, 72m] deve ter, teoricamente, uma
A. F. Beraldo 53
3. Medidas Estatsticas de Disperso
disperso de valores menor do que uma amostra B, com R(B) = [1, 60m, 1, 92m]
- a faixa de valores possveis em A menor do que em B. Mas este apenas o
comeo da nossa anlise.
4. Voc deve ter em mente que s o estudo de muitos conjuntos e muitas distribuies
de valores ir fornecer a voc uma boa ideia do que um desvio padro alto ou
baixo. Isto depende da varivel em estudo. As peas de um motor fabricado
em srie, por exemplo, saem da linha de montagem com as medidas praticamente
iguais, se a mquina estiver bem calibrada e lubrificada. Os desvios padres das
medidas tendem a zero, e s um exame muito minucioso ir apontar as diferenas
(mnimas) existentes entre elas. Quanto maior a regularidade e qualidade dos
processos de fabricao, menores sero os coeficientes de variao encontrados. A
regulamentao dos padres de qualidade, as normas ISO 9000 e outras, utilizam
os desvios padres e os escores padronizados para fixar os limites de tolerncia das
medidas dos produtos industriais.
5. Com outras variveis, principalmente as adotadas nas reas das Cincias Econ-
micas, Humanas e da Sade, devemos estar preparados para encontrar desvios
padres to altos que chegam a descaracterizar a mdia dos dados coletados. Mas
a Estatstica possui ferramentas que solucionam estes problemas. A Apostila III
traz algumas destas ferramentas.
54 A. F. Beraldo
3.4 Coeficiente de variao
A1 = {68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68}
A2 = {66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70}
A mdia e a mediana continuam iguais a 68, e agora, a moda pode ser calculada,
e tambm igual a 68. O conjunto no mais to regular, dada a introduo
de elementos iguais a 66 kg e 70 kg, que possuem desvios -2 kg e +2 kg,
respectivamente. O desvio padro, que reflete estas alteraes, passa a ser de
1,00 kg. O CV passa a ser de 1,5 %.
A3 = {64, 64, 66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70, 72, 72}
A. F. Beraldo 55
3. Medidas Estatsticas de Disperso
56 A. F. Beraldo
3.4 Coeficiente de variao
Na Figura 3.6, conjunto A6, os valores esto ainda mais dispersos. O coeficiente
de variao sobe para 7,1%.
As alteraes que fizemos no conjunto provocaram um aumento na disperso e,
consequentemente, nas suas medidas: desvio padro e coeficiente de variao.
A. F. Beraldo 57
3. Medidas Estatsticas de Disperso
7. Foi dito que a existncia de outliers acarreta uma grande elevao nas medidas de
disperso. Imagine que algum tivesse cometido um erro na coleta de dados do
conjunto do exemplo anterior, e que o ltimo elemento, ao invs de ter 78 kg, foi
anotado como se tivesse 128 kg4 . A representao do conjunto a seguinte:
Mdia 71
Moda 68
Mediana 68
Amplitude 70
Desvio padro 15,25
Coef.de Variao 21, 5%
Note que a mdia foi puxada para cima, mas a mediana permanece a mesma
(lembre-se que a mediana a Medida de Tendncia Central mais robusta). Mas o
desvio padro e o coeficiente de variao triplicaram de valor.
4
Na verdade, este elemento com 128 kg no to discrepante. Mais tarde, na parte de Anlise
Exploratria de Dados, voc ir aprender a identificar com maior preciso os outliers em uma
distribuio.
58 A. F. Beraldo
3.5 Propriedades da varincia
Propriedade II
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A e varincia SA2 .
Seja um conjunto B, definido como:
B = {x1 k, x2 k, x3 k, , xn k} = {xi k}n ,(sendo k uma constante diferente
de zero) e com mdia X B e varincia SB2 .
Propriedade III
Seja um conjunto A, de valores numricos, definido como:
A = {x1 , x2 , x3 , , xn } = {xi }n , e com mdia X A e varincia SA2 . Sejam um outro
conjunto B = {y1 , y2 , y3 , , yn } cujos valores so definidos como Y = aX + b .
Pelas Propriedades I e II, acima, temos que:
SB2 = a2 SA2
A. F. Beraldo 59
3. Medidas Estatsticas de Disperso
60 A. F. Beraldo
4 Estatstica em Grandes Conjuntos:
Distribuies de Frequncias
At agora, temos estudado conjuntos de tamanho pequeno, com poucos elementos.
So amostras que se prestam bem apresentao dos conceitos de Medidas de Tendncia
Central (mdia, moda, mediana) e de Disperso (varincia, desvio padro, etc.). No
entanto, em muitos dos nossos trabalhos feita a anlise estatstica de conjuntos bem
maiores, com 300, 400, 500 elementos - s vezes muito mais do que isso.
A. F. Beraldo 61
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
Agora j podemos verificar qual o menor valor (1,1 SM) e o maior valor (24,2 SM).
No entanto, mesmo colocados em ordem, no rol, os dados ainda exigem um bom esforo
para entendermos o que se passa na amostra. O nvel de informao ainda est muito
baixo, e pode (e deve) ser melhorado se classificarmos estes dados, dividindo a amostra
62 A. F. Beraldo
4.1 Frequncias Simples
em faixas de renda. Numa primeira tentativa, vamos dividir os dados nas seguintes
faixas de renda: de 1 a 3 SM, de 3 a 5 SM, de 5 a 7 SM, e assim por diante, at uma
faixa de 23 a 25 SM. Esta diviso arbitrria, poderamos ter dividido as classes de
3 em 3 SM, de 5 em 5 SM, etc. Mas esta , como dissemos, uma primeira tentativa.
Comeamos a montar uma tabela, em que na primeira coluna colocamos a diviso que
adotamos (as faixas de renda):
Neste ponto, surge uma dvida: e se na amostra existir um elemento com renda
familiar exatamente igual a 3 SM? Este elemento pertence faixa 1 a 3 SM ou faixa
3 a 5 SM? Temos que adotar um critrio, uma condio de pertinncia. Este critrio
pode ser um dos seguintes:
A. F. Beraldo 63
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
64 A. F. Beraldo
4.1 Frequncias Simples
Comentrios
1. Foi dito que a diviso em classes feita por tentativas. E isto verdade,
nas primeiras vezes que fazemos este trabalho. medida que se adquire certa
experincia, fica mais fcil determinar em quantas classes iremos dividir o conjunto
de dados coletados, se as classes tero tamanho igual ou diferente, etc.
N C = 1 + 3, 3 log n
ou
NC = n
A. F. Beraldo 65
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
Recapitulando:
66 A. F. Beraldo
4.2 Frequncias Relativas, o Histograma e os Polgonos de Frequncia
Cada classe tem a sua frequncia relativa, que calculada pela frmula:
f
f r = P 100 (4.1)
f
f
fr = 100 (4.2)
n
f 23
fr = 100 = 100 = 19, 2
n 120
O nmero 19,2 lido como 19,2 porcento. Em muitos livros e artigos, princi-
palmente de origem dos EUA ou da Europa, voc vai encontrar a frequncia relativa
expressa em decimais, e no em percentagem. Por exemplo, 19,2 (%) escrito 0,192. A
frmula de clculo das frequncias relativas escrita, ento, como:
f f
fr = P = (4.3)
f n
A. F. Beraldo 67
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
68 A. F. Beraldo
4.2 Frequncias Relativas, o Histograma e os Polgonos de Frequncia
A. F. Beraldo 69
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
70 A. F. Beraldo
4.2 Frequncias Relativas, o Histograma e os Polgonos de Frequncia
Outro tipo de grfico tambm muito utilizado para representar uma distribuio de
frequncias. Trata-se do Polgono de Frequncias Relativas, que traado unindo-se
por segmentos de reta (poligonais) os pontos mdios das bases superiores dos retngulos
do Histograma:
A. F. Beraldo 71
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
72 A. F. Beraldo
4.3 Frequncias Acumuladas
2. Em seguida, faa a soma deste valor com a frequncia absoluta da segunda classe:
A. F. Beraldo 73
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
Note que a ltima Frequncia Acumulada tem que ser igual ao tamanho da amostra.
i=k
X
Fk = fi (4.4)
i=1
74 A. F. Beraldo
4.4 Frequncias Relativas Acumuladas e a Ogiva de Galton
2. Em seguida, faa a soma deste valor com a frequncia relativa da segunda classe:
A. F. Beraldo 75
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
Note que a ltima Frequncia Relativa Acumulada tem que ser igual a 100%.
Os valores na coluna das Frequncias Relativas Acumuladas nos do a seguinte
informao: a Frequncia Relativa Acumulada de uma classe o percentual de
elementos existentes na amostra, desde o limite inferior da primeira classe at o
limite superior da classe considerada. Podemos escrever desta forma:
i=k
X
F rk = f ri (4.5)
i=1
1. Traam-se os eixos cartesianos, com dois eixos verticais. No primeiro eixo vertical,
esquerda, colocamos a escala para os valores de F, comeando obrigatoriamente
do zero e crescendo at n (tamanho do conjunto, neste exemplo igual a 120).
No segundo eixo vertical, direita, colocamos os valores percentuais, comeando
tambm do 0 e crescendo at 100% - com intervalos (escala) de 10% em 10%.
76 A. F. Beraldo
4.4 Frequncias Relativas Acumuladas e a Ogiva de Galton
2. No eixo horizontal colocamos os valores dos limites das classes. Neste eixo no
obrigatrio comear-se do valor zero, mas devemos colocar o sinal de quebra de
escala, se for o caso.
A. F. Beraldo 77
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
78 A. F. Beraldo
4.4 Frequncias Relativas Acumuladas e a Ogiva de Galton
A. F. Beraldo 79
4. Estatstica em Grandes Conjuntos: Distribuies de Frequncias
80 A. F. Beraldo
5 Estatstica em Grandes Conjuntos:
Medidas de Tendncia Central e Disperso
Em Estatstica, muitas vezes as amostras so bem maiores, formando conjuntos de
100, 300, 600 elementos ou mais, muito mais. Neste caso, utilizamos as Distribuies
de Frequncias, no s para o que foi explicado no Captulo 4, mas tambm para
calcular as Estatsticas de Tendncia Central e as demais estatsticas. Os conceitos
de Tendncia Central (mdia, moda e mediana) so os mesmos que foram apresentados
para as amostras de tamanho pequeno. Este captulo introduz novas frmulas, que so
adaptaes de clculo quando o tamanho maior dos conjuntos torna difcil ou trabalhoso
a utilizao das frmulas que foram estudadas no Captulo 2.
Montamos uma terceira coluna, onde esto os valores de uma estatstica chamada
pontos mdios da classe (x). Cada classe possui o seu ponto mdio, que calculado pela
frmula :
A. F. Beraldo 81
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
LI + LS
x= (5.1)
2
Esta uma das razes pelas quais se deve dividir uma amostra no maior nmero
de classes possvel, fazendo que a amplitude das classes seja a menor possvel -
82 A. F. Beraldo
5.1 Clculo da Mdia:
isto diminui o erro (impreciso) em tomar toda a classe pelo seu ponto mdio, que
a mdia dos limites.
Pi=k
i=1 f i xi
X= (5.2)
n
A. F. Beraldo 83
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
Pi=k
f i xi 836
X= i=l
= = 6, 97
= 7, 0
n 120
Comentrios
Esta frmula a frmula da mdia ponderada (veja Captulo 2). O que se fez
foi assumir que toda uma classe est concentrada no seu ponto mdio, e utilizar
as frequncias das classes como pesos, ou ponderaes dos pontos mdios. Veja a
semelhana entre as duas expresses:
P
xi p i
Xp = P
pi
Mdia ponderada
P
f i xi
X=
n
Mdia para distribuies de frequncia
84 A. F. Beraldo
5.1 Clculo da Mdia:
Outra frmula para o clculo da mdia utiliza as frequncias relativas, ao invs das
frequncias absolutas. A expresso :
i=k
X
X= f ri .xi (5.3)
i=1
A. F. Beraldo 85
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
LIk + LSk
X king = (5.4)
c
2
86 A. F. Beraldo
5.2 Clculo da Moda
Comentrios
DA
c = LI +
X Ampk (5.6)
k
DA + DP
Onde:
A. F. Beraldo 87
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
DA 5
c=
X LIk + Ampk = 3 + .2 = 3, 9
DA + DP 5+6
Comentrios
1. Deve-se ter em mente que o clculo da moda, pelo mtodo de Czuber, s pode ser
aplicado a distribuies unimodais. Assume-se que a amostra possui uma, e
apenas uma moda e que esta moda pertence classe de maior frequncia.
2. No caso de nos depararmos com distribuies que aparentam possuir mais de uma
moda, no aplicamos o processo de Czuber.
88 A. F. Beraldo
5.3 Clculo da Mediana
!
f = LI + P os(X) Fant Amp
f
X m m (5.7)
f
Onde:
f o valor da mediana.
X
Fant Frequncia acumulada da classe da posio anterior classe que contm a mediana.
A posio ( P os(X))
f da mediana calculada atravs da frmula P os(X)
f = n/2, na
qual n o tamanho da amostra. Em alguns livros voc encontrar a seguinte frmula,
que tambm vlida:
f = (n + 1)
P os(X)
2
A. F. Beraldo 89
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
90 A. F. Beraldo
5.3 Clculo da Mediana
3o passo Identifica-se a classe que contm a mediana. A classe que contm a mediana
aquela cuja a frequncia acumulada (F) a primeira frequncia acumulada maior
ou igual posio da mediana. Neste exemplo, a primeira frequncia acumulada
(F) maior ou igual posio da mediana (60,0) F = 73.
A. F. Beraldo 91
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
4o passo Uma vez encontrada a classe qual pertence a mediana, podemos aplicar os
dados na frmula para encontrar o valor da mediana:
!
f F
P os(X) 60 51
f= ant
X LIm + Ampm = 5 + 2 = 5, 8
f 22
92 A. F. Beraldo
5.3 Clculo da Mediana
Comentrios
Neste captulo foram apresentadas frmulas empricas para o clculo das Medidas
de Tendncia Central em distribuies de frequncia. Assim, fizemos suposies a priori
para o clculo destas medidas, uma vez que, como voc deve estar lembrando, no
dispomos mais dos dados originais e sim da distribuio de frequncias.
Para calcular a moda, a premissa foi de que a distribuio possua moda, e esta
pertencia classe de maior frequncia, chamada classe modal.
Para calcular a mediana, a suposio foi que os valores dentro da classe da mediana
distribuem-se linearmente. A frmula do clculo da mediana, na verdade, uma
espcie de regra de trs.
Assim, os valores que encontramos para estas medidas so valores estimados,
mas que se aproximam bastante dos valores reais, pelo menos no caso da mdia e
da mediana, como voc pode conferir no quadro a seguir:
Quadro 1: Comparao entre valores estimados e reais das Medidas de Tendncia Central
Medida Valor estimado Valor real
Mdia 6,97 6,92
Mediana 5,8 5,8
Moda 3,9 2,0
A. F. Beraldo 93
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
Pi=n 2
2 d
i=1 i
s = (5.8)
n1
94 A. F. Beraldo
5.4 Clculo da Varincia, do Desvio Padro e do Coeficiente de Variao
di = xi X (5.9)
Pi=k
2 i=1 fi d2i
s = (5.10)
n
A. F. Beraldo 95
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
Comentrios
96 A. F. Beraldo
5.4 Clculo da Varincia, do Desvio Padro e do Coeficiente de Variao
Note o valor 2.584, da ltima clula direita, embaixo, da tabela. Este valor
igual a f d2i . A frmula da varincia, como vimos, :
P
Pi=k
2 i=1 fi d2i
s =
n
A. F. Beraldo 97
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
Pi=k
2 i=1 fi d2i 2584
s = = = 21, 5
n 120
s= s2 (5.11)
s= s2 = 21, 5 = 4, 6
s
CV = (5.12)
X
s 4, 6
CV = = = 0, 66 ou 66%
X 7
Comentrios
1. Voc deve ter notado que as frmulas para o clculo das Medidas de Disperso
mudaram muito pouco, de conjuntos pequenos para grandes conjuntos. Os
conceitos so exatamente os mesmos: procuramos caracterizar a disperso ou
concentrao dos elementos amostrais em torno da mdia. E estas Medidas de
Disperso vo nos informar sobre vrios aspectos da distribuio dos elementos
amostrais.
3. Nos livros mais antigos, voc encontrar uma srie de artifcios matemticos para
o clculo das Medidas de Tendncia Central e de disperso em distribuies de
98 A. F. Beraldo
5.5 Exemplos Comentados
A. F. Beraldo 99
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
A distribuio B tambm possui frequncias em todas as classes, mas note que houve
um aumento na frequncia da classe central, de 50 para 78, e uma consequente diminuio
nas frequncias das outras classes. O desvio padro cai para 2,9 e o CV cai para 0,32
(ou 32%).
Aumentando ainda mais a frequncia da classe central, de 78 para 120, ocorre uma
concentrao maior de valores nesta classe, e uma diminuio das frequncias das classes
mais afastadas, tanto esquerda quanto direita da classe central. Isto acarreta uma
diminuio tanto no desvio padro quanto no CV:
Notar que o histograma da distribuio mostra a coluna da classe central com uma
diferena cada vez maior, na altura (frequncia da classe). Utilizando o polgono de
frequncia e colocando as trs distribuies no mesmo grfico, temos a figura seguinte:
100 A. F. Beraldo
5.5 Exemplos Comentados
Observar, na figura acima, que quanto maior a concentrao na classe central, menor
o desvio padro e o CV.
A. F. Beraldo 101
5. Estatstica em Grandes Conjuntos: Medidas de Tendncia Central e
Disperso
102 A. F. Beraldo
6 Estatstica em Grandes Conjuntos:
Medidas de Posio
No decorrer dos ltimos captulos, vimos como obter informaes sobre o conjunto,
a partir dos dados das suas medidas. J sabemos calcular as Medidas de Tendncia
Central (mdia, moda, mediana), j possumos uma boa ideia de como est a disperso
(varincia, desvio padro , coeficiente de variao) e aprofundamos nosso conhecimento
sobre grandes conjuntos, utilizando distribuies de frequncias e os grficos associados
(Histograma, Polgonos de frequncia simples e de frequncia acumulada). Estas
informaes so muito teis quando os dados esto concentrados em torno da mdia,
com baixos coeficientes de variao e quando a distribuio unimodal, o que torna as
Medidas de Tendncia Central boas caracterizadoras da amostra.
A. F. Beraldo 103
6. Estatstica em Grandes Conjuntos: Medidas de Posio
Para muitas outras variveis, ocorre o mesmo problema. Variveis tais como as
estudadas em Educao Fsica, Economia, Cincias Sociais, Cincias Humanas, etc.,
carecem que estudemos com maior profundidade o seu comportamento. Em sntese, so
variveis cuja evoluo no regular e existe pouca concentrao de dados em torno
da mdia. Mais informaes sobre estas variveis podem ser obtidas com o clculo das
Separatrizes.
Uma Separatriz uma estatstica, ou seja, um nmero nico, que divide uma
distribuio de valores em duas partes. como se fosse um limite, uma fronteira. J
conhecemos uma separatriz, a mediana. A mediana o valor que separa um conjunto de
valores, dispostos em ordem crescente (ou decrescente) de forma que 50% da distribuio
estejam abaixo da mediana, e os outros 50% acima da mediana. Podemos dizer, ento,
que a mediana o valor que divide uma distribuio de valores numricos em duas
metades.
A tabela acima mostra dados de uma prova a que foram submetidos 250 inscritos em
um concurso. Teoricamente, as notas vo de mais de zero at 100.
104 A. F. Beraldo
Calculando as Medidas de Tendncia Central e disperso, temos:
A. F. Beraldo 105
6. Estatstica em Grandes Conjuntos: Medidas de Posio
106 A. F. Beraldo
Outra separatriz muito utilizada o Percentil. Percentis tambm dividem a amostra
em duas partes, segundo a seguinte proporo (percentis mais utilizados):
Comentrios
Voc pode entender a palavra quartil como quarta parte, assim como percentil
como centsima parte. Assim, o primeiro quartil, Q1 , pode ser considerado a primeira
quarta parte, o segundo quartil Q2 , a primeira mais a segunda quarta parte e o Q3
como a primeira mais a segunda mais a terceira quarta parte. O dcimo percentil P10 ,
seria as dez primeiras centsimas partes, e assim por diante.
A. F. Beraldo 107
6. Estatstica em Grandes Conjuntos: Medidas de Posio
!
P OS(sep) Fant
SEP = LIsep + Ampsep (6.1)
fsep
Onde:
Pela frmula acima, pode-se ver que o valor da separatriz depende da classe a que
pertence, e da sua posio P OS(sep). As posies das principais separatrizes so as
seguintes:
Separatriz Posio
Q1 n/4
Q2 n/2
Q3 3n/4
P1 0 n/10
P9 0 9n/10
P
Onde n, tamanho da amostra, n = f.
108 A. F. Beraldo
6.1 Clculo de Quartis e Percentis
P OS(Q1 ) = 62, 5
A. F. Beraldo 109
6. Estatstica em Grandes Conjuntos: Medidas de Posio
110 A. F. Beraldo
6.1 Clculo de Quartis e Percentis
62, 5 57
Q1 = 20 + 10 = 21, 1
50
Efetuando os clculos, obtemos Q1 = 21, 1 anos.
O mesmo procedimento pode ser aplicado para as demais separatrizes. Calculamos
suas posies, sem arredondar os valores:
A. F. Beraldo 111
6. Estatstica em Grandes Conjuntos: Medidas de Posio
125 107
Q2 = 30 + 10 = 36, 0
30
187, 5 165
Q3 = 50 + 10 = 58, 7
26
Em seguida, os percentis P10 e P90 :
25 21
P10 = 10 + 10 = 11, 1
36
225 211
P90 = 70 + 10 = 78, 2
17
Separatriz Valor
Q1 21,1
Q2 36,0
Q3 58,7
P10 11,1
P90 78,2
Assim, 10% dos candidatos conseguiram at 11,1 pontos no exame; 25% dos candida-
tos fizeram at 21,1 pontos; a metade dos candidatos conseguiu fazer at 36 pontos; 75%
dos candidatos fizeram at 58,7 pontos, e 90% dos candidatos fizeram at 78,2 pontos.
Veja a ilustrao a seguir:
112 A. F. Beraldo
6.1 Clculo de Quartis e Percentis
A. F. Beraldo 113
6. Estatstica em Grandes Conjuntos: Medidas de Posio
A partir da marca 50% no eixo das F r, traamos uma reta A que encontra a curva
(a ogiva do polgono de frequncias acumuladas) em P.
114 A. F. Beraldo
6.2 Determinao Grfica das Separatrizes
Podemos ver que o valor determinado graficamente est bem prximo ao valor
calculado do Q2 (36,0). De forma anloga, determinamos os valores do Q1 e do Q3 ,
a partir das posies 25% e 75%. Veja a seguir:
A. F. Beraldo 115
6. Estatstica em Grandes Conjuntos: Medidas de Posio
116 A. F. Beraldo
6.2 Determinao Grfica das Separatrizes
A partir do eixo vertical direita (Fr) e das posies percentuais das separatrizes
(25% e 75%, respectivamente), traamos linhas paralelas ao eixo horizontal do
grfico;
A partir dos pontos A e B, traamos outras retas verticais, at o eixo das classes
(eixo horizontal). Onde estas retas encontrarem este eixo est os valores do Q1 e
Q3 .
A. F. Beraldo 117
6. Estatstica em Grandes Conjuntos: Medidas de Posio
Para determinar o nmero de candidatos com notas abaixo de 45: no eixo horizontal
do grfico, a partir do valor 45, trace uma reta vertical at encontrar a curva:
118 A. F. Beraldo
6.3 Determinao Grfica de intervalos
A. F. Beraldo 119
6. Estatstica em Grandes Conjuntos: Medidas de Posio
120 A. F. Beraldo
6.3 Determinao Grfica de intervalos
A. F. Beraldo 121
7 Estatstica em Grandes Conjuntos:
Medidas de Assimetria e Curtose
7.1 Simetria e Assimetria
As Distribuies de Frequncias podem ser analisadas tambm em relao sua
simetria, que pode ser entendida como a comparao da densidade de frequncia entre
as duas partes, quando dividimos a distribuio pela mdia. Seja, por exemplo, a
distribuio a seguir:
Classes f
00 | 10 12
10 | 20 18
20 | 30 25
30 | 40 15
40 | 50 8
50 | 60 5
60 | 70 3
70 | 80 2
88
A. F. Beraldo 123
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
124 A. F. Beraldo
7.1 Simetria e Assimetria
A. F. Beraldo 125
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
Comentrios
Voc pode fazer uma analogia entre a assimetria de uma distribuio e o equilbrio
ou desequilbrio das densidades de frequncia representadas pelas barras do histograma
da distribuio. Na figura 7.3, acima, temos uma distribuio simtrica, que equilibra-
se perfeitamente sobre um balano, sem pender para nenhum dos lados. As massas se
distribuem igualmente nos lados direito e esquerdo do histograma, simtricas em relao
mdia.
126 A. F. Beraldo
7.1 Simetria e Assimetria
Sinal(Assimetria) = X X
f (7.1)
X X
f>0 Mdia maior que a mediana Assimetria positiva
X X
f=0 Mdia igual mediana Simetria
X X
f<0 Mdia menor que a mediana Assimetria negativa
A. F. Beraldo 127
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
128 A. F. Beraldo
7.1 Simetria e Assimetria
A. F. Beraldo 129
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
3 X X
f
CA = (7.2)
s
3 CA 3
Pn 3
m3 1 xi X
3 = = (7.3)
s3 n 1 s3
130 A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.1.
Classes f
0 | 2 3
2 | 4 7
4 | 6 12
6 | 8 17
8 | 10 27
10 | 12 24
12 | 14 20
110
P
= 8, 82
f xi 970
Mdia = X = n
= 110 = 8, 8
Mediana = ?
f = n 110
P os X 2
= 2
= 55
A. F. Beraldo 131
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
f F ant
P os X
f = LI +
X Amp
X
e
f X
e
55 39
=8+ 2
27
16
=8+ (2) = 8 + 1, 185 = 9, 185
= 9, 2
27
Classes f x d d2 f d2
0 | 2 3 1 7, 8 61,1 183,4
2 | 4 7 3 5, 8 33,9 237,0
4 | 6 12 5 3, 8 14,6 174,9
6 | 8 17 7 1, 8 3,3 56,2
8 | 10 27 9 0,2 0,0 0,9
10 | 12 24 11 2,2 4,8 114,2
12 | 14 20 13 4,2 17,5 349,8
110 1116,4
2
s = 10, 1
s = 3, 2
CV = 36, 1%
3 X X
f 3 8, 8 9, 2 3 0, 4
CA = = = = 0, 375
S 3, 2 3, 2
132 A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.2.
Classes f
0 | 2 3
2 | 4 5
4 | 6 9
6 | 8 17
8 | 10 20
10 | 12 24
12 | 14 32
110
P
= 9, 473
f xi 1042
Mdia = X = n
= 110 = 9, 5
Mediana = ?
f = n 110
P os X 2
= 2
= 55
A. F. Beraldo 133
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
f F ant
P os X
f = LI +
X Amp
X
e
f X
e
55 54
= 10 + 2
24
1
= 10 + (2) = 10 + 0, 083 = 10, 083
= 10, 1
24
Classes f x d d2 f d2
0 | 2 3 1 8, 5 71,8 215,4
2 | 4 5 3 6, 5 41,9 209,5
4 | 6 9 5 4, 5 20,0 180,0
6 | 8 17 7 2, 5 6,1 103,9
8 | 10 20 9 0, 5 0,2 4,5
10 | 12 24 11 1,5 2,3 56,0
12 | 14 32 13 3,5 12,4 398,1
110 1167,4
2
s = 10, 6
s = 3, 3
CV = 34, 4%
3 X X
f 3 9, 5 10, 1 3 0, 6
CA = = = = 0, 545
S 3, 3 3, 3
134 A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.3.
Classes F
0 | 2 6
2 | 4 16
4 | 6 20
6 | 8 26
8 | 10 20
10 | 12 16
12 | 14 6
110
Mediana = ?
f = n 110
P os X 2
= 2
= 55
A. F. Beraldo 135
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
f F ant
P os X
f = LI +
X Amp
X
e
f X
e
55 42
=6+ 2
26
13
=6+ (2) = 6 + 1, 0 = 7, 0
26
3 X X
f 3 7, 0 7, 0 3 0
CA = = = = 0, 0
S s s
Exemplo 7.4.
Classes f
0 | 2 25
2 | 4 20
4 | 6 18
6 | 8 16
8 | 10 15
10 | 12 10
12 | 14 6
110
136 A. F. Beraldo
7.3 Curtose
P
= 5, 545
f xi 610
Mdia =X = n
= 110 = 5, 5
Mediana = ?
f = n 110
P os X 2
= 2
= 55
f F ant
P os X
f = LI +
X Amp
X
e
f X
e
55 45
=4+ 2
18
10
=4+ (2) = 4 + 1, 1111 = 5, 1111
= 5, 1
18
Classes f x d d2 f d2
0 | 2 25 1 4, 5 20,7 516,5
2 | 4 20 3 2, 5 6,5 129,6
4 | 6 18 5 0, 5 0,3 5,4
6 | 8 16 7 1, 5 2,1 33,9
8 | 10 15 9 3, 5 11,9 179,0
10 | 12 10 11 5,5 29,8 297,5
12 | 14 6 13 7,5 55,6 333,4
110 1495,3
2
s = 13, 6
s = 3, 7
CV = 66, 5%
3 X X
f 3 5, 5 5, 1 3 0, 4
CA = = = = 0, 32
S 3, 7 3, 7
7.3 Curtose
Curtose o mesmo que achatamento de uma distribuio, representada pelo seu
polgono de Frequncia. As distribuies, quanto Curtose, podem ser leptocrticas,
mesocrticas ou platicrticas, como se v na figura a seguir:
A. F. Beraldo 137
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
Como se pode ver na figura acima, dos polgonos de Frequncia que representam
trs distribuies, a mais achatada a platicrtica (do grego platys, largo, achatado). A
menos achatada, ou mais pontiaguda a leptocrtica (do grego leptos, fino, delgado).
Entre as duas, a distribuio mesocrtica.
Q3 Q1
CC = (7.4)
2 P90 P10
Pn 4
m4 1 xi X
4 = = (7.5)
s4 n 1 s4
138 A. F. Beraldo
7.3 Curtose
Exemplo 7.5.
Classes fA fB fC
0 | 2 12 5 1
2 | 4 20 18 3
4 | 6 25 28 12
6 | 8 31 43 113
8 | 10 25 28 12
10 | 12 20 18 3
12 | 14 12 5 1
145 145 145
A. F. Beraldo 139
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
Classes fA FA fB FB fC FC
0 | 2 12 12 5 5 1 1
2 | 4 20 32 18 23 3 4
4 | 6 25 57 28 51 12 16
6 | 8 31 88 43 94 113 129
8 | 10 25 113 28 122 12 141
10 | 12 20 133 18 140 3 144
12 | 14 12 145 5 145 1 145
145 145 145
140 A. F. Beraldo
7.3 Curtose
Conjunto A
14, 5 12
P10 =2+ 2 = 2, 25
20
36, 25 32
Q1 = 4 + 2 = 4, 34
25
108, 75 88
Q3 = 8 + 2 = 9, 66
25
130, 5 113
P90 = 10 + 2 = 11, 75
20
Conjunto B
14, 5 5
P10 =2+ 2 = 3, 1
18
36, 25 23
Q1 = 4 + 2 = 4, 95
28
108, 75 94
Q3 = 8 + 2 = 9, 05
28
130, 5 122
P90 = 10 + 2 = 10, 9
18
Conjunto C
14, 5 4
P10 =4+ 2 = 5, 75
12
36, 25 16
Q1 = 6 + 2 = 6, 4
113
108, 75 16
Q3 = 6 + 2 = 7, 6
113
A. F. Beraldo 141
7. Estatstica em Grandes Conjuntos: Medidas de Assimetria e Curtose
130, 5 129
P90 =8+ 2 = 8, 25
12
Coeficientes de Curtose
Conjunto A
Q3 Q1 9, 66 4, 34
CC = = = 0, 28 Platicrtica
2(P90 P10 ) 2(11, 75 2, 25)
Conjunto B
Q3 Q1 9, 05 4, 95
CC = = = 0, 263 Mesocrtica
2(P90 P10 ) 2(10, 9 3, 1)
Conjunto C
Q3 Q1 7, 6 6, 4
CC = = = 0, 24 Leptocrtica
2(P90 P10 ) 2(8, 25 5, 75)
142 A. F. Beraldo
7.3 Curtose
A. F. Beraldo 143
8 Introduo Anlise Exploratria de
Dados
8.1 Fundamentos da Anlise Exploratria
A Anlise Exploratria de Dados um conjunto de tcnicas estatsticas de descrio
de conjuntos e teste de hipteses1 , elaborada, entre outros, por John Tukey, em 1977
- da a associao que se faz com seu nome e esta parte da Estatstica. A Estatstica
Descritiva, ao lidar com os elementos amostrais, procura separar a amostra em faixas,
ou classes, e contar os valores que se encontram em cada classe, montando as tabelas
de Distribuio de Frequncias como foi estudado nos Captulos 4 a 7. A partir da
elaborao desta tabela, os dados amostrais originais so abandonados, e passamos a
estudar a amostra a partir de sua imagem organizada, a Distribuio de Frequncias.
Esta tcnica, apesar de bastante cmoda e eficiente, de alguma forma deixa escapar
informaes importantes que, numa anlise mais aprofundada, deveriam auxiliar em
nossas concluses. A proposta de Tukey, de larga utilizao na atualidade, supre estas
deficincias. A Anlise Exploratria de Dados, na parte da descrio de conjuntos, tem
as seguintes caractersticas:
a Clculo preciso das modas, medianas e Medidas de Posio reais, sem necessitar
de frmulas empricas;
b Visualizao imediata do histograma de Frequncias da distribuio, apreen-
dendo mais rapidamente as situaes de Assimetria e Curtose;
c Maior clareza na redistribuio de dados nos intervalos de classes.
A. F. Beraldo 145
8. Introduo Anlise Exploratria de Dados
Para estudar a distribuio de idades dos moradores de um bairro, foi feita uma
amostragem aleatria de 100 pessoas, e os resultados esto neste rol:
146 A. F. Beraldo
8.1 Fundamentos da Anlise Exploratria
A. F. Beraldo 147
8. Introduo Anlise Exploratria de Dados
148 A. F. Beraldo
8.2 Determinao dos Quartis:
Quartil Posio
n+1
Primeiro Quartil P OS(Q1 ) = 4
n+1
Segundo Quartil P OS(Q2 ) =
2
3 n+1
Terceiro Quartil P OS(Q3 ) = 4
Primeiro Quartil:
n+1 101
P OS(Q1 ) = = = 25, 25
4 4
Segundo Quartil:
n+1 101
P OS(Q2 ) = = = 50, 5
2 2
Terceiro Quartil:
3 n+1 303
P OS(Q3 ) = = = 75, 75
4 4
3
Notar a preocupao no clculo de valores reais. Define-se exatamente a posio do primeiro
quartil como a metade da distncia entre a posio do primeiro elemento amostral (1o ) e a posio da
mediana que, por definio, ocupa a posio central do conjunto ordenado. Da mesma forma, a posio
do terceiro quartil a metade da distncia entre a posio da mediana e a posio do ltimo elemento
amostral.
A. F. Beraldo 149
8. Introduo Anlise Exploratria de Dados
17 + 17
Q1 = = 17, 0
2
31 + 32
Q2 = = 31, 5
2
50 + 50
Q3 = = 50, 0
2
Q1 = 17, 0
Q2 = X
f = 31, 5
Q3 = 50, 0
150 A. F. Beraldo
8.2 Determinao dos Quartis:
Comentrios
A mediana, tal como foi calculada, ocupa o 50,5o lugar, e tem o valor de 31,5. Tanto
esta posio quanto este valor da mediana no existem, isto so arbitrados em
funo da definio da mediana - valor que ocupa a posio central de um conjunto
ordenado. A mediana, portanto, divide o conjunto em dois subconjuntos, cada um
com 50 elementos:
A. F. Beraldo 151
8. Introduo Anlise Exploratria de Dados
VAI: Valor adjacente inferior : o menor valor do conjunto, que ainda maior
ou igual CII = 1 ano
VAS: Valor adjacente superior: o maior valor da amostra, que ainda menor
ou igual CIS = 94 anos
152 A. F. Beraldo
8.3 Clculo das Cercas e o Box-Plot
A. F. Beraldo 153
8. Introduo Anlise Exploratria de Dados
Valores mais que discrepantes esto abaixo da CEI ou acima da CES. (acima da
distncia Q3 + 3AIQ, ou abaixo de Q1 - 3AIQ).
Regio dos Dados Discrepantes: Entre a CEI e o VAI , e entre o VAS e a CES.
Regio dos Dados mais que discrepantes: abaixo da CEI ou acima da CES.
154 A. F. Beraldo
8.3 Clculo das Cercas e o Box-Plot
Comentrios
A. F. Beraldo 155
8. Introduo Anlise Exploratria de Dados
Primeiro Quartil:
n+1 99
P os(Q1 ) = = = 24, 75
4 4
Segundo Quartil:
n+1 99
P os(Q2 ) = = = 49, 5
2 2
Terceiro Quartil:
3(n + 1) 297
P os(Q3 ) = = = 74, 25
4 4
156 A. F. Beraldo
8.3 Clculo das Cercas e o Box-Plot
Q1 = 39, 0 Q2 = X
f = 49, 0 Q3 = 59, 0
A. F. Beraldo 157
8. Introduo Anlise Exploratria de Dados
O Box-Plot o seguinte:
158 A. F. Beraldo
8.3 Clculo das Cercas e o Box-Plot
A. F. Beraldo 159
Diagramao em LATEX, composta em Latin Modern.