Вы находитесь на странице: 1из 79

Universidade Federal Fluminense

Instituto de Matemtica e Estatstica


Fundamentos de Estatstica Aplicada
Mdulo I: Estatstica Descritiva
Ana Maria Lima de Farias
Departamento de Estatstica
Contedo
1 Descrio de dados: tabelas e grcos 1
1.1 Pesquisa estatstica conceitos bsicos . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Populao e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Variveis qualitativas e quantitativas . . . . . . . . . . . . . . . . . . . . . 2
1.2 Apresentao de dados qualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Distribuies de frequncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Arredondamento de nmeros . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3 Grcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Apresentao de dados quantitativos discretos . . . . . . . . . . . . . . . . . . . 9
1.4 Apresentao de dados quantitativos contnuos . . . . . . . . . . . . . . . . . . . 11
1.4.1 Distribuies de frequncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Histogramas, polgonos e ogivas de frequncia . . . . . . . . . . . . . . . 14
1.4.3 Diagrama de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.4 Grcos temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Descrio de dados: resumos numricos 22
2.1 Medidas de posio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Mdia aritmtica simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.4 Mdia aritmtica ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . 27
i
CONTEDO
2.1.5 Propriedades das medidas de posio . . . . . . . . . . . . . . . . . . . . 30
2.2 Somatrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3 Medidas de disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.2 Desvio mdio absoluto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.3 Varincia e desvio-padro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.4 Amplitude interquartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.5 Propriedades das medidas de disperso . . . . . . . . . . . . . . . . . . . 43
2.4 Medidas relativas de posio e disperso . . . . . . . . . . . . . . . . . . . . . . 44
2.4.1 Escores padronizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.2 Coeciente de variao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.5 Medidas de assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5.1 O coeciente de assimetria de Pearson . . . . . . . . . . . . . . . . . . . 51
2.5.2 O coeciente de assimetria de Bowley . . . . . . . . . . . . . . . . . . . . 52
2.6 O boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.7 Medidas de posio e disperso para distribuies de frequncias agrupadas 56
2.7.1 Mdia aritmtica simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.7.2 Varincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.7.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.7.4 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3 Correlao 65
3.1 Diagramas de disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2 Covarincia e correlao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.1 Covarincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2.2 Coeciente de correlao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2.3 Propriedades da covarincia e do coeciente de correlao . . . . . . . 73
Departamento de Estatstica ii
Captulo 1
Descrio de dados: tabelas e grcos
De posse de um conjunto de dados, o primeiro passo em sua anlise descobrir o que
eles nos dizem. A anlise de dados ser o objeto de estudo na primeira parte do nosso
curso e comeamos com grcos e tabelas, que so ferramentas estatsticas importantes na
visualizao dos dados.
1.1 Pesquisa estatstica conceitos bsicos
1.1.1 Populao e amostra
Estatstica a cincia da aprendizagem a partir dos dados. Em geral, fazemos levantamentos
de dados para estudar e compreender caractersticas de uma populao. Por exemplo, um
grande banco, querendo lanar um novo produto, precisa conhecer o perl socioeconmico
dos seus clientes e, neste caso, a populao de interesse formada pelos clientes de todas
as agncias do banco. A Federao das Indstrias do Estado do Rio de Janeiro FIRJAN
mede o grau de conana dos empresrios industriais atravs de uma pesquisa junto s
indstrias, sendo a populao de interesse, aqui, o conjunto das empresas industriais do
estado do Rio de Janeiro.
Com esses dois exemplos apenas, j podemos ver que o conceito de populao de uma
pesquisa estatstica mais amplo, no se restringindo a seres humanos; ela denida
exatamente a partir dos objetivos da pesquisa.
Embora tenham populaes bastante distintas, essas duas pesquisas tm em comum o
fato de os resultados desejados serem obtidos a partir de dados levantados em um subcon-
junto da populao uma amostra. H vrias razes para se trabalhar com pesquisas por
amostragem custo e tempo, em geral, so as mais comuns. Mas, alm de serem mais bara-
tas e rpidas, as pesquisas por amostragem, se bem planejadas, podem fornecer resultados
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
quase to precisos quanto aqueles fornecidos por pesquisas censitrias, em que todos os
elementos da populao so investigados.
DEFINIO Populao
Populao o conjunto de elementos para os quais se deseja estudar
determinada(s) caracterstica(s).
Amostra um subconjunto da populao.
Exemplos clssicos de pesquisa censitria so os Censos Demogrcos realizados a
cada dez anos no Brasil e em outros pases. O objetivo desses censos levantar informaes
sobre toda a populao do pas, de modo a fornecer subsdios para os governantes denirem
as polticas pblicas. Como exemplos de pesquisa por amostragem, podemos citar tambm as
pesquisas de inteno de voto em eleies, a Pesquisa Nacional por Amostra de Domiclios
- PNAD - realizada pelo IBGE, dentre muitas outras.
1.1.2 Variveis qualitativas e quantitativas
Nas pesquisas estatsticas, as caractersticas sobre as quais queremos obter informao so
chamadas variveis.
Em uma pesquisa domiciliar sobre emprego e renda, algumas variveis de interesse so
sexo, raa, grau de instruo e valor dos rendimentos do morador. Em uma pesquisa sobre
o estado nutricional dos brasileiros, o peso e a altura dos moradores de cada domiclio da
amostra so medidos. Para o acompanhamento da atividade industrial no Rio de Janeiro,
a FIRJAN obtm informaes de empresas industriais sobre o tipo de atividade econmica,
nmero de empregados, nmero de horas trabalhadas, valor da folha de pagamento.
As variveis sexo, raa, religio de pessoas e atividade econmica de uma empresa
apenas classicam os elementos de uma populao ou amostra em diferentes categorias.
Assim, so exemplos de variveis qualitativas. J valor dos rendimentos, peso, altura, nmero
de empregados, valor da folha de pagamento so exemplos de variveis quantitativas, pois
elas medem diferentes caractersticas dos elementos.
Departamento de Estatstica 2
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
DEFINIO Variveis qualitativas e quantitativas
Variveis qualitativas descrevem caractersticas de elementos de uma po-
pulao.
Variveis quantitativas medem caractersticas de elementos de uma po-
pulao.
As variveis quantitativas, por sua vez, podem ser discretas ou contnuas.
Quando a varivel puder assumir qualquer valor numrico em um determinado inter-
valo de variao, ela ser uma varivel contnua. Essas variveis resultam normalmente de
medies, como peso, altura, dosagem de hemoglobina, renda etc. A interpretao desse tipo
de varivel leva noo de valor aproximado, pois no existe instrumento de medio capaz
de fornecer preciso absoluta na informao. Assim, quando uma balana mostra o peso de
uma pessoa como 65,5 kg, esse valor, na verdade, uma aproximao para qualquer valor
entre, digamos, 65,495 kg e 65,505 kg. Por outro lado, a varivel quantitativa discreta s
poder assumir valores pertencentes a um conjunto enumervel; os valores normalmente so
obtidos atravs de algum processo de contagem. Alguns exemplos so o nmero de lhos de
um casal, nmero de empregados de uma rma de contabilidade, etc.
DEFINIO Variveis discretas e contnuas
Variveis quantitativas discretas assumem valores pertencentes a um con-
junto enumervel; em geral, resultam de processos de contagem.
Variveis quantitativas contnuas assumem valores pertencentes a um
intervalo de nmeros reais; em geral resultam de processos de medio.
EXEMPLO 1.1 Populao e Amostra
Para cada uma das situaes listadas a seguir, identique a populao de interesse e
a amostra, se for o caso.
(a) A Pr-Reitoria de Assuntos Estudantis da UFF deseja saber a opinio dos calouros sobre
o programa de Acolhimento Estudantil. Sorteia, ento, uma amostra de 200 calouros de
todos os cursos da UFF, que so entrevistados pelos funcionrios.
(b) Uma grande empresa deseja saber a opinio de seus gerentes sobre uma nova proposta
de plano de carreira. Para isso, envia um questionrio para todos os seus 450 gerentes.
Departamento de Estatstica 3
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
(c) Uma loja de vesturio pretende enviar um questionrio de uma pesquisa de satisfao
para seus clientes. A partir de seus registros, o gerente de marketing constata que 4345
pessoas zeram compras com carto de crdito na loja no ltimo semestre. Ele sorteia
uma amostra de 200 desses clientes para os quais envia um questionrio.
Soluo
(a) A populao de interesse formada por todos os calouros da UFF no ano em questo e
a amostra o conjunto dos 200 alunos entrevistados.
(b) A populao o conjunto dos gerentes da empresa. Como foram entrevistados todos os
gerentes, essa uma pesquisa censitria e no uma pesquisa por amostragem.
(c) A populao de interesse formada por todos os clientes da loja, mas a populao de
referncia, ou seja, a populao de onde foi retirada a amostra, formada pelos clientes
que compraram com carto de crdito. Note que a no esto includos os clientes que
pagaram com dinheiro ou cheque.

EXEMPLO 1.2 Classicao de variveis
Classique as variveis abaixo como qualitativa ou quantitativa (discreta ou contnua).
(a) Altura dos alunos do curso de Administrao da UFF.
(b) Opinio de consumidores sobre determinado produto (Ruim, Bom ou Excelente).
(c) Nmero de sanduches Big Mac vendidos nos estados do Brasil pela rede McDonalds no
McDia Feliz.
(d) Temperatura mxima diria na cidade de Niteri no ms de agosto de 2012.
(e) Opinio dos empregados de uma empresa sobre obrigatoriedade do uso do crach (a
favor ou contra).
Soluo
(a) Altura uma varivel quantitativa contnua.
(b) A opinio uma varivel qualitativa. Como h uma ordem nas respostas, essa uma
varivel qualitativa ordinal.
(c) Nmero de sanduches uma varivel quantitativa discreta.
(d) Temperatura mxima uma varivel quantitativa contnua.
(e) A opinio, neste caso, uma varivel qualitativa nominal - no h qualquer ordem nas
respostas possveis.

Departamento de Estatstica 4
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
1.2 Apresentao de dados qualitativos
Vamos considerar o seguinte exemplo ctcio, mas verossmil. A direo de uma empresa est
estudando a possibilidade de fazer um seguro sade para seus funcionrios e respectivos
familiares. Para isso, ela faz um levantamento de seus 500 funcionrios, obtendo informao
sobre sexo, estado civil, idade, nmero de dependentes e salrio. Como so 500 funcionrios,
temos que achar uma forma de resumir os dados. Nesta seo, voc ir aprender a resumir
dados qualitativos em forma de uma distribuio (ou tabela) de frequncia e, tambm, em
forma grca. Voc ver que os grcos complementam a apresentao tabular.
1.2.1 Distribuies de frequncia
Consideremos, inicialmente, a varivel qualitativa gnero. O que nos interessa saber sobre
essa varivel no que Joo seja do sexo masculino e Maria do sexo feminino, mas sim quan-
tos funcionrios e quantas funcionrias h na empresa. Esse resultado pode ser resumido
em uma tabela ou distribuio de frequncias da seguinte forma:
Gnero Nmero de funcionrios
Masculino 270
Feminino 230
Total 500
Os nmeros 270 e 230 resultaram da contagem das frequncias de ocorrncia de cada
uma das categorias da varivel sexo. Essa contagem tambm chamada de frequncia
simples absoluta ou simplesmente frequncia. O total de 500 obtido somando-se o nmero
de homens e de mulheres.
interessante tambm expressar esses resultados em forma relativa, isto , considerar,
para cada classe, a frequncia relativa ao total:
270
500
= 0, 54
ou seja, 54% dos funcionrios da empresa so do sexo masculino.
comum apresentar as frequncias relativas em forma percentual. Note que:
270
500
= 0, 54 =
54
100
= 54%
Na Tabela 1.1, apresenta-se a verso completa da distribuio dos funcionrios por
gnero e por estado civil. Note que a soma das frequncias absolutas deve ser igual ao
nmero total de elementos sendo pesquisados, enquanto a soma das frequncias relativas
sempre 1 ou 100%.
Departamento de Estatstica 5
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Tabela 1.1 Nmero de funcionrios por gnero e por estado civil
Gnero Frequncia simples
absoluta relativa
Masculino 270 0,54
Feminino 230 0,46
Total 500 1,00
Estado civil Frequncia simples
absoluta relativa %
Solteiro 125 25,0
Casado 280 56,0
Divorciado 85 17,0
Vivo 10 2,0
Total 500 100,0
EXEMPLO 1.3 Dados dos funcionrios do Departamento de RH
Consideremos que, na situao descrita anteriormente, os dados tenham sido levanta-
dos por departamento, para depois serem totalizados. Para o Departamento de Recursos
Humanos, foram obtidas as seguintes informaes:
Nome Sexo Estado civil Nmero de dependentes
Joo da Silva M Casado 3
Pedro Fernandes M Vivo 1
Maria Freitas F Casada 0
Paula Gonalves F Solteira 0
Ana Freitas F Solteira 1
Luiz Costa M Casado 3
Andr Souza M Casado 4
Patrcia Silva F Divorciada 2
Regina Lima F Casada 2
Alfredo Souza M Casado 3
Margarete Cunha F Solteira 0
Pedro Barbosa M Divorciado 2
Ricardo Alves M Solteiro 0
Mrcio Rezende M Solteiro 1
Ana Carolina Chaves F Solteira 0
Para pequenos conjuntos de dados, podemos construir a tabela mo e, para isso,
precisamos contar o nmero de ocorrncias de cada categoria de cada uma das variveis.
Varrendo o conjunto de dados a partir da primeira linha, podemos marcar as ocorrncias da
seguinte forma:
Masculino [[[[[[[[ Solteiro [[[[[[
Feminino [[[[[[[ Casado [[[[[[
Divorciado [[
Vivo [
Departamento de Estatstica 6
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Obtemos, ento, as seguintes distribuies de frequncia:
Gnero Frequncia simples
absoluta relativa %
Masculino 8 53,33
Feminino 7 46,67
Total 15 100,0
Estado civil Frequncia simples
absoluta relativa %
Solteiro 6 40,00
Casado 6 40,00
Divorciado 2 13,33
Vivo 1 6,67
Total 15 100,00

1.2.2 Arredondamento de nmeros
No Exemplo 1.3, a diviso de algumas frequncias absolutas pelo total de 15 resultou em dzi-
mas. Nesses casos, torna-se necessrio arredondar os resultados, mas esse arredondamento
deve ser feito com cautela para se evitar que a soma no seja igual a 1 ou 100%.
A primeira etapa no processo de arredondamento consiste em decidir o nmero de casas
decimais desejado. Em geral, frequncias relativas percentuais so apresentadas com, no
mximo, 2 casas decimais. Isso signica que temos de descartar as demais casas decimais.
Existe a seguinte regra de arredondamento:
! Arredondamento de nmeros
Quando o primeiro algarismo a ser suprimido for menor ou igual a 4 (ou
seja, for igual a 0,1, 2, 3 ou 4), o ltimo algarismo a ser mantido permanece
inalterado. Quando o primeiro algarismo a ser suprimido for igual a 5, 6,
7, 8 ou 9, o ltimo algarismo a ser mantido acrescido de 1.
Na distribuio de frequncias da varivel gnero, temos os seguintes resultados:
8
15
100 = 53, 33333 . . .
7
15
100 = 46, 66666 . . .
No primeiro caso, o primeiro algarismo a ser suprimido 3; logo, o ltimo algarismo a
ser mantido, (3), no se altera e o resultado 53,33. No segundo caso, o primeiro algarismo
a ser suprimido 6. Logo, o ltimo algarismo a ser mantido, (6), deve ser acrescido de 1 e
Departamento de Estatstica 7
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
o resultado 46,67. Tente sempre usar essa regra em seus arredondamentos; com ela, voc
evitar erros grosseiros.
Na apresentao de tabelas de frequncias relativas, possvel que essas frequncias
no somem 100%, ou seja, possvel que, ao somarmos as frequncias relativas, obtenhamos
resultados como 99,9% ou 100,01%. Esses pequenos erros so devidos a arredondamentos
e nem sempre possvel evit-los; no entanto, aceita-se implicitamente que a soma das
frequncias seja 100%.
1.2.3 Grcos
As distribuies de frequncia para dados qualitativos tambm podem ser ilustradas gra-
camente atravs de grcos de colunas ou grcos de setores, tambm conhecidos como
grcos de pizza. Na Figura 1.1, temos os grcos de coluna e de setores para os dados da
Tabela 1.1, referentes ao estado civil dos funcionrios.
Figura 1.1 Distribuio do nmero de funcionrios por estado civil
No grco de colunas, a altura de cada coluna representa a frequncia da respectiva
classe e o grco pode ser construdo com base nas frequncias absolutas ou relativas. Para
diferenciar um do outro, coloca-se no ttulo do eixo o tipo de frequncia utilizada. Note que,
no eixo horizontal, no h escala, uma vez que a se representam as categorias da varivel,
que devem ser equiespaadas.
No grco de setores, a frequncia de cada categoria representada pelo tamanho
(ngulo) do setor (ou fatia da pizza). Para construir um grco de setores mo, voc
precisar de um compasso para fazer um crculo de raio arbitrrio e, em seguida, traar um
raio qualquer no crculo. A partir da, voc marcar os raios de acordo com os ngulos de
cada setor, utilizando um transferidor. Para determinar o ngulo de cada setor, voc dever
usar a seguinte regra de proporcionalidade: o ngulo total 360
o
corresponde ao nmero
total de observaes; o ngulo de cada setor corresponde frequncia da respectiva classe.
Dessa forma, voc obtm a seguinte regra de trs para os solteiros:
360
o
500
=

125
= 90
o
Departamento de Estatstica 8
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Esses grcos podem ser construdos facilmente com auxlio de programas de compu-
tador, como o programa de planilhas Excel da Microsoft R _.
1.3 Apresentao de dados quantitativos discretos
Quando uma varivel quantitativa discreta assume poucos valores distintos, possvel cons-
truir uma distribuio de frequncias da mesma forma que zemos para as variveis qua-
litativas. A diferena que, em vez de termos categorias nas linhas da tabela, teremos os
distintos valores da varivel. Continuando com o nosso exemplo, vamos trabalhar agora com a
varivel nmero de dependentes. Suponha que alguns funcionrios no tenham dependentes
e que o nmero mximo de dependentes seja 7. Obteramos, ento, a seguinte distribuio
de frequncias:
Nmero de Frequncia simples
dependentes absoluta relativa %
0 120 24,0
1 95 19,0
2 90 18,0
3 95 19,0
4 35 7,0
5 30 6,0
6 20 4,0
7 15 3,0
Total 500 100,0
O processo de construo absolutamente o mesmo, mas, dada a natureza quantitativa
da varivel, possvel acrescentar mais uma informao tabela.
Suponha, por exemplo, que a empresa esteja pensando em limitar o seu projeto a 4
dependentes, de modo que funcionrios com mais de 4 dependentes tero que arcar com as
despesas extras. Quantos funcionrios esto nessa situao?
Para responder a perguntas desse tipo, costume acrescentar tabela de frequncias
uma coluna com as frequncias acumuladas. Essas frequncias so calculadas da seguinte
forma: para cada valor da varivel (nmero de dependentes), contamos quantas ocorrncias
correspondem a valores menores ou iguais a esse valor.
Por exemplo, valores da varivel menores ou iguais a 0 correspondem aos funcionrios
sem dependentes. Logo, a frequncia acumulada para o valor 0 igual frequncia simples:
120. Analogamente, valores da varivel menores ou iguais a 1 correspondem aos funcionrios
sem dependentes mais os funcionrios com 1 dependente. Logo, a frequncia acumulada
para o valor 1 igual a 120 + 95 = 215. Para o valor 2, a frequncia acumulada igual a
120 + 95 + 90 = 215 + 90 = 305. Repetindo esse procedimento, obtemos a Tabela 1.2.
Departamento de Estatstica 9
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Tabela 1.2 Distribuio de frequncias para o nmero de dependentes
Nmero de Frequncia simples Frequncia acumulada
dependentes absoluta relativa % absoluta relativa %
0 120 24,0 120 24,0
1 95 19,0 215 43,0
2 90 18,0 305 61,0
3 95 19,0 400 80,0
4 35 7,0 435 87,0
5 30 6,0 465 93,0
6 20 4,0 485 97,0
7 15 3,0 500 100,0
Total 500 100,0
Note que a acrescentamos tambm as frequncias acumuladas em forma percentual.
Essas frequncias so calculadas como a proporo da frequncia acumulada em relao ao
total; por exemplo,
87, 0 =
435
500
100
A representao grca da distribuio de frequncias de uma varivel quantitativa
discreta pode ser feita atravs de um grco de colunas. A nica diferena, neste caso,
que, no eixo horizontal do grco, representada a escala da varivel quantitativa, que deve
ser denida cuidadosamente de modo a representar corretamente os valores.
Na Figura 1.2, temos o grco de colunas para o nmero de dependentes dos 500
funcionrios.
Figura 1.2 Distribuio do nmero de dependentes por funcionrio
Departamento de Estatstica 10
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
! Grco de setores para dados quantitativos
Embora nem sempre incorreto, no apropriado representar dados quan-
titativos discretos em um grco de setores, uma vez que, neste grco,
no possvel representar a escala dos dados.
Consideremos, agora, que se pergunte para cada um dos 500 funcionrios a sua idade,
em anos completos. Essa , tambm, uma varivel discreta, mas a diferena que a idade
pode assumir um nmero maior de valores, o que resultaria em uma tabela grande, caso
decidssemos relacionar todos os valores, da mesma forma que zemos para o nmero de
dependentes. Alm disso, em geral no necessrio apresentar a informao em tal nvel
de detalhamento.
Por exemplo, para as seguradoras de planos de sade, as faixas etrias importantes
aquelas em que h reajuste por idade so 0 a 18; 19 a 23; 24 a 28; 29 a 33; 34 a
38; 39 a 43; 44 a 48; 49 a 53; 54 a 58 e 59 ou mais. Sendo assim, podemos agrupar os
funcionrios segundo essas faixas etrias e construir uma tabela de frequncias agrupadas
em que cada frequncia corresponde ao nmero de funcionrios na respectiva faixa etria,
tal como a Tabela 1.3:
Tabela 1.3 Distribuio de frequncia das idades de 500 funcionrios
Faixa Frequncia Simples Frequncia Acumulada
Etria Absoluta Relativa % Absoluta Relativa %
19 23 1 0,2 1 0,2
24 28 23 4,6 24 4,8
29 33 103 20,6 127 25,4
34 38 246 49,2 373 74,6
39 43 52 10,4 425 85,0
44 48 50 10,0 475 95,0
49 53 25 5,0 500 100,0
Total 500 100,0
1.4 Apresentao de dados quantitativos contnuos
1.4.1 Distribuies de frequncia
Para as variveis quantitativas contnuas, devemos tambm trabalhar com distribuies de
frequncias agrupadas. O processo de construo idntico ao visto para as variveis dis-
cretas, mas aqui devemos tomar um cuidado especial na construo das classes. A escolha
Departamento de Estatstica 11
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
dos limites das classes deve ser feita com base na natureza, valores e unidade de medida
dos dados. As regras que devero ser seguidas so as seguintes:
! Classes em uma distribuio de frequncias agrupadas
1. As classes tm que ser exaustivas, isto , todos os elementos devem
pertencer a alguma classe.
2. As classes tm que ser mutuamente exclusivas, isto , cada elemento
tem que pertencer a uma nica classe.
O primeiro passo denir o nmero de classes desejado; esse nmero, de preferncia,
deve estar entre 5 e 25. Em seguida, devemos determinar a amplitude dos dados, ou seja, o
intervalo de variao dos valores observados da varivel em estudo.
DEFINIO Amplitude
A amplitude de um conjunto de dados, representada por
IcIu|
, denida
como a diferena entre os valores mximo e mnimo:

IcIu|
= V
Mx
V
Mn
(1.1)
Se quuisermos trabalhar com classes de mesmo comprimento (e essa uma opo
bastante comum), para determinar esse comprimento, necessrio dividir a amplitude total
pelo nmero de classes desejado. No entanto, para garantir a incluso dos valores mnimo
e mximo, podemos, como regra geral, usar o seguinte procedimento: considere o primeiro
mltiplo do nmero de classes maior que o valor da amplitude e use esse nmero como a
nova amplitude.
Por exemplo, se a amplitude for 28 e quisermos trabalhar com cinco classes, vamos
considerar 30 como a nova amplitude. Dividindo esse valor pelo nmero de classes, obte-
mos o comprimento de cada classe. Os limites de classe podem ser obtidos somando-se o
comprimento de classe a partir do valor mnimo dos dados.
Continuando com o nosso exemplo, o comprimento de classe 30 5 = 6; se o valor
mnimo dos dados for 4, ento os limites de classe sero:
Departamento de Estatstica 12
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
4
4 + 6 = 10
10 + 6 = 16
16 + 6 = 22
22 + 6 = 28
28 + 6 = 34
e as classes sero:
[4, 10) [10, 16) [16, 22) [22, 28) [28, 34)
Note o tipo de intervalo utilizado: para incluir o valor mnimo, 4, na primeira classe, o
intervalo deve ser fechado no extremo inferior: [4,.
Se fechssemos o intervalo no limite superior, o 10 estaria includo na primeira classe
e, portanto, no poderia estar na segunda classe. Isso resultaria em [4, 10] como a primeira
classe e (10, 16) como a segunda classe. Assim, as duas primeiras classes estariam denidas
de forma diferente, o que no conveniente, pois dicultaria a leitura da tabela. prefervel
incluir o 10 na segunda classe, o que resulta nas classes apresentadas anteriormente.
EXEMPLO 1.4 Salrios de 500 funcionrios
Suponha que, dentre os 500 funcionrios da nossa empresa, o menor salrio seja de
2800 e o maior salrio seja de 12400. Para agrupar os dados em cinco classes, devemos
fazer o seguinte:

IcIu|
= V
Mx
V
Mn
= 12400 2800 = 9600
Prximo mltiplo de 5 = 9605
Comprimento de classe =
9605
5
= 1921
Os limites de classe, ento, so:
2800
2800 + 1921 = 4721
4721 + 1921 = 6642
6642 + 1921 = 8563
8563 + 1921 = 10484
10484 1921 = 12405
Departamento de Estatstica 13
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
e as classes podem ser denidas como:
[2800, 4721) (2800 includo; 4721 excludo)
[4721, 6642) (4721 includo; 6642 excludo)
[6642, 8563) (6642 includo; 8563 excludo)
[8563, 10484) (8563 includo; 10484 excludo)
[10484, 12405) (10484 includo; 12405 excludo)
Essa uma regra que resulta em classes corretamente denidas, mas nem sempre
as classes resultantes so apropriadas ou convenientes. Neste exemplo, seria prefervel
trabalhar com classes de comprimento 2000, o que resultaria nas classes
[2800, 4800) [4800, 6800) [6800, 8800) [8800, 10800) [10800, 12800)
que so corretas e mais fceis de ler.
Fazendo a contagem do nmero de funcionrios em cada classe, a distribuio resul-
tante seria:
Tabela 1.4 Distribuio de frequncia dos salrios de 500 funcionrios
Salrio Frequncia Simples Frequncia Acumulada
(reais) Absoluta Relativa % Absoluta Relativa %
2800 | 4800 87 17, 4 87 17, 4
4800 | 6800 203 40, 6 290 58, 0
6800 | 8800 170 34, 0 460 92, 0
8800 | 10800 30 6, 0 490 98, 0
10800 | 12800 10 2, 0 500 100, 0

1.4.2 Histogramas, polgonos e ogivas de frequncia
O histograma e o polgono de frequncias so grcos usados para representar uma distri-
buio de frequncias simples de uma varivel quantitativa contnua. A ogiva de frequncia
representa gracamente a distribuio das frequncias acumuladas.
DEFINIO Histograma
Um histograma um grco formado por um conjunto de retngulos cont-
guos, com bases sobre um eixo horizontal, cuja escala denida de acordo
com as classes da distribuio da varivel de interesse. As bases desses
retngulos, construdas sobre o eixo horizontal, representam as classes e
as reas so proporcionais ou iguais s frequncias.
Departamento de Estatstica 14
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Vamos ilustrar a construo de um histograma usando como exemplo a distribuio de
frequncia dos dados sobre salrios dada na Tabela 1.4.
Comeamos construindo os eixos: no eixo horizontal, representamos os limites das
classes e, no eixo vertical, construmos a escala apropriada para representar as frequncias
absolutas. Veja a Figura 1.3. Poderamos, tambm, trabalhar com as frequncias relativas.
Figura 1.3 Construo do Histograma da Distribuio dos Salrios - Passo 1
Passamos, agora, a construir os retngulos, tendo em mente que a rea de cada um
representa a frequncia da respectiva classe. Como neste exemplo as classes tm o mesmo
comprimento, o histograma pode ser construdo de tal modo que as alturas dos retngulos
sejam iguais s frequncias das classes. Dessa forma, as reas sero proporcionais (e no
iguais) s frequncias, conforme ilustrado no histograma da Figura 1.4. Note que cada rea
igual frequncia da classe multiplicada por 2000, o comprimento de cada classe.
Para construir o histograma baseado em retnculos com reas exatamente iguais s
frequncias das classes, usa-se a frmula da rea de um retngulo com base igual ao com-
primento de classe e rea igual frequncia da classe. Por exemplo, para a classe [2800,
4800), a frequncia (rea) 87 e a base do retngulo (comprimento de classe) 2000. Logo,
a altura | do retngulo correspondente encontrada da seguinte forma:
87 = | 2000 =| =
87
2000
= 0, 0435
O resultado dessa diviso denominado densidade, uma vez que d a frequncia em
cada classe por unidade da varivel. Na Figura 1.5, temos o histograma em que a rea de
cada retngulo exatamente igual frequncia absoluta da classe.
Observe as Figuras 1.4 e 1.5. Em ambos os grcos, a forma dos retngulos a mesma;
o que muda a escala no eixo vertical.
Departamento de Estatstica 15
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Figura 1.4 Histograma dos salrios -
Altura = Frequncia
Figura 1.5 Histograma dos salrios -
rea = Frequncia
De modo geral, quando as classes tm o mesmo comprimento e essa a situao mais
comum , podemos representar as alturas dos retngulos pelas frequncias das classes, o
que facilita a interpretao do grco.
DEFINIO Polgono de frequncia
Um polgono de frequncias um grco de linha obtido quando so
unidos, por uma poligonal, os pontos correspondentes s frequncias
das diversas classes, centrados nos respectivos pontos mdios. Mais
precisamente, so plotados os pontos com coordenadas (ponto mdio,
frequncia simples).
Para obter as intersees da poligonal com o eixo, cria-se em cada extremo
uma classe com frequncia nula.
Na Figura 1.6, temos o polgono de frequncias para a distribuio dos salrios dos
500 funcionrios. comum apresentar-se o polgono de frequncias junto com o histograma,
o que facilita a visualizao dos resultados. Note que o polgono de frequncia d uma ideia
da forma da distribuio dos dados.
A ogiva de frequncia um grco de linha que representa a distribuio das frequn-
cias acumuladas. Sendo assim, os valores de interesse so os extremos das classes e suas
respectivas frequncias acumuladas.
Departamento de Estatstica 16
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Figura 1.6 Histograma e Polgono de Frequncias para a Distribuio dos Salrios
DEFINIO Ogiva de frequncia
A ogiva de frequncia um grco de linha que representa a distribuio
das frequncias acumuladas. Mais precisamente, na ogiva de frequncia,
so plotados os pontos (limite superior; frequncia acumulada) para cada
classe e unimos esses pontos por segmentos de reta.
Na Figura 1.7, temos a ogiva de frequncia para os dados sobre os salrios de 500
funcionrios apresentados na Tabela 1.4. A poligonal inicia-se no ponto (2800; 0), pois no
h salrios menores que 2800, ou seja, a frequncia acumulada em 2800 0. J a frequncia
acumulada em 4800 87 este o segundo ponto plotado. Na Figura 1.8, podemos ver que
o valor que divide a distribuio ao meio (isto , 250 salrios so menores que esse valor e
os 250 restantes so maiores) , aproximadamente, igual a 6400.
Figura 1.7 Distribuio dos salrios -
Ogiva de frequncia
Figura 1.8 Distribuio dos salrios -
Determinao do ponto do meio
Departamento de Estatstica 17
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
1.4.3 Diagrama de ramo-e-folhas
Um outro grco usado para mostrar a forma da distribuio de um conjunto de dados
quantitativos o diagrama de ramo-e-folhas, desenvolvido pelo estatstico John Tukey. Para
a construo desse grco, cada observao do conjunto de dados quebrada em duas
partes. Uma dessas partes a folha, que deve ser formada por apenas um algarismo, e os
algarismos restantes formam o galho. Como numa rvore, as folhas so penduradas no
galho apropriado.
Para construir o diagrama, traa-se uma linha vertical para separar os galhos das
folhas. esquerda dessa linha escrevem-se os diferentes ramos, um em cada linha horizontal,
e escrevem-se as folhas no respectivo galho.
EXEMPLO 1.5 Notas de 50 alunos
Considerando as notas dos 50 alunos, vamos construir o diagrama de ramo-e-folhas com
esses dados.
Tabela 1.5 Notas de 50 alunos
2,9 3,8 3,7 4,9 4,7 5,6 7,3 8,3 5,5 7,7 8,9 8,7 7,6
8,3 7,3 6,9 6,8 7,0 5,4 6,5 7,6 5,2 9,0 7,4 8,4 6,8
7,5 8,7 9,7 7,9 7,2 8,1 9,4 6,6 7,0 8,0 9,2 8,8
6,3 6,5 5,8 6,9 6,9 8,2 7,0 6,0 6,2 7,1 7,5 8,2
A quebra de cada observao em duas partes aqui bastante natural: a folha ser o
algarismo decimal, enquanto o ramo ser a parte inteira. As duas primeiras observaes so
quebradas da seguinte forma:
2 9
3 7
Por outro lado, a menor observao 2,9 e a maior 9,7; assim, os galhos vo de 2 a
9, e organizamos a nossa escala da seguinte forma:
2
3
4
5
6
7
8
9
Departamento de Estatstica 18
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Continuando o processo, penduramos as folhas no respectivo galho, obtendo o Diagrama
1.1:
Diagrama 1.1 Notas de 50 alunos
2 9
3 8 7
4 9 7
5 6 5 4 2 8
6 9 8 5 8 6 3 5 9 9 0 2
7 3 7 6 3 0 6 4 5 9 2 0 0 1 5
8 3 9 7 3 4 7 1 0 8 2 2
9 0 7 4 2
Para facilitar a leitura, as folhas em cada ramo so ordenadas. importante tambm
denir corretamente a escala. Como indicar no diagrama que a primeira observao 2,9 e
no 29? Veja uma forma de fazer isso no Diagrama 1.2:
Diagrama 1.2 Notas de 50 alunos - verso nal
Escala
1 0 1,0
2 9
3 7 8
4 7 9
5 2 4 5 6 8
6 0 2 3 5 5 6 8 8 9 9 9
7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
8 0 1 2 2 3 3 4 7 7 8 9
9 0 2 4 7

EXEMPLO 1.6 Notas de duas turmas
Suponha que, no Exemplo 1.5, a mesma prova tenha sido aplicada a duas turmas dife-
rentes. Para comparar os resultados, podemos construir o diagrama de ramo-e-folhas lado
a lado. Um conjunto representado no lado direito da escala e, o outro, no lado esquerdo.
Em ambas as partes, as folhas crescem da escala para as margens. Veja o Diagrama 1.3.

Departamento de Estatstica 19
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Diagrama 1.3 Notas dos alunos de 2 turmas
Escala
1 0 1,0
8 1
3 2 2 2 9
3 7 8
7 5 0 4 7 9
2 1 5 2 4 5 6 8
6 5 4 3 3 2 0 0 0 0 6 0 2 3 5 5 6 8 8 9 9 9
2 2 2 0 0 7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
4 3 3 2 1 0 0 8 0 1 2 2 3 3 4 7 7 8 9
5 9 0 2 4 7
1.4.4 Grcos temporais
O grco temporal um grco de linha, usado para representar observaes feitas ao longo
do tempo, isto , observaes de uma srie de tempo.
No eixo horizontal, colocam-se as datas em que foram realizadas as observaes e, no
eixo vertical, os valores observados. Os pontos assim obtidos so unidos por segmentos de
reta para facilitar a visualizao do comportamento dos dados ao longo do tempo.
Para efeitos de comparao, possvel tambm construir um grco temporal em que
duas sries so representadas conjuntamente. Use smbolos ou cores diferentes para iden-
ticar cada uma das sries.
EXEMPLO 1.7 Homicdios - RJ e SP
Na Tabela 1.6, temos dados sobre o nmero de homicdios e a taxa de homicdios por
100.000 habitantes nos estados do Rio de Janeiro e So Paulo no perodo de 1980 a 2009.
Nas Figuras 1.9 e 1.10, apresentamos os grcos. Observe a diferena entre eles. Quando
trabalhamos com nmeros absolutos, So Paulo tem mais homicdios que o Rio de Janeiro.
Mas So Paulo tem uma populao bem maior que a do Rio de Janeiro; assim, razovel que
ocorra um nmero maior de homicidios. Apresentar as taxas por 100.000 habitantes elimina
esse problema e nos permite ver mais claramente a real situao.
Departamento de Estatstica 20
CAPTULO 1. DESCRIO DE DADOS: TABELAS E GRFICOS
Tabela 1.6 Nmero e taxa de homicdios por 100.000 habitantes
Homicdios Homicdios
Nmero Taxa Nmero Taxa
Ano (100.000 hab) Ano (100.000 hab)
RJ SP RJ SP RJ SP RJ SP
1980 2.946 3.452 26,09 13,78 1995 8.183 11.566 61,54 34,32
1981 2.508 4.187 21,98 16,39 1996 8.049 12.350 60,04 36,20
1982 2.170 4.183 18,79 15,99 1997 7.966 12.552 58,77 36,12
1983 1.861 5.836 15,91 21,79 1998 7.569 14.001 55,32 39,68
1984 2.463 7.063 20,81 25,78 1999 7.249 15.810 52,50 44,14
1985 2.550 7.015 21,29 25,04 2000 7.337 15.631 50,98 42,21
1986 2.441 7.195 20,14 25,14 2001 7.352 15.745 50,50 41,84
1987 3.785 7.918 30,87 27,09 2002 8.321 14.494 56,51 37,96
1988 3.054 7.502 24,64 25,16 2003 7.840 13.903 52,69 35,92
1989 4.287 9.180 34,22 30,21 2004 7.391 11.216 49,16 28,58
1990 7.095 9.496 56,05 30,69 2005 7.098 8.727 46,14 21,58
1991 5.039 9.671 39,34 30,62 2006 7.122 8.166 45,77 19,89
1992 4.516 9.022 34,96 28,15 2007 6.313 6.234 40,11 14,96
1993 5.362 9.219 41,04 28,19 2008 5.395 6.117 33,99 14,92
1994 6.414 9.990 78,66 30,08 2009 4.198 6.319 26,22 15,27
Fonte: IPEADATA
Figura 1.9 Nmero de Homicdios -
RJ e SP - 1980-2009
Figura 1.10 Taxa de Homicdios
(100.000 habitantes) - RJ e SP - 1980-
2009

Departamento de Estatstica 21
Captulo 2
Descrio de dados: resumos numricos
A reduo dos dados atravs de tabelas de frequncias ou grcos um dos peocedimentos
disponveis para se ilustrar o comportamento de um conjunto de dados. No entanto, muitas
vezes, queremos resumir ainda mais esses dados, apresentando valores nicos que descre-
vam suas principais caractersticas. Estudaremos, neste captulo, medidas que descrevem a
tendncia central, a disperso e a assimetria das distribuies de dados.
2.1 Medidas de posio
As medidas de posio ou tendncia central, como o prprio nome indica, so medidas que
informam sobre a posio tpica dos dados.
Na Figura 2.1, podemos notar os seguintes fatos: em (a) e (b), as distribuies so idn-
ticas, exceto pelo fato de a segunda estar deslocada direita. Em (c), podemos ver que h
duas classes com a frequncia mxima e, em (d), h uma grande concentrao na cauda infe-
rior e alguns poucos valores na cauda superior. As medidas de posio que apresentaremos
a seguir iro evidenciar essas diferenas.
2.1.1 Mdia aritmtica simples
No nosso dia a dia, o conceito de mdia bastante comum, quando nos referimos, por
exemplo, altura mdia dos brasileiros, temperatura mdia dos ltimos anos, etc.
22
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Figura 2.1 Exemplos ilustrativos do conceito de medidas de posio
DEFINIO Mdia aritmtica simples
Dado um conjunto de a observaes
1
,
2
, . . . ,
a
, a mdia aritmtica sim-
ples denida como
=

1
+
2
+ +
a
a
=
1
a
a

|=1

|
(2.1)
A notao (l-se x barra), usada para indicar a mdia, bastante comum; em geral,
usa-se a mesma letra adotada para indicar os dados com a barra em cima.
Na denio anterior, fazemos uso do smbolo de somatrio, representado pela letra
grega sigma maiscula, . Mais adiante, voc aprender mais sobre essa notao e suas
propriedades. Por enquanto, entenda como a mdia aritmtica de um conjunto de dados
calculada. Observe, inicialmente, que ela s pode ser calculada para dados quantitativos.
(No faz sentido somar masculino + feminino!) O seu clculo feito somando-se todos os
valores e dividindo-se pelo nmero total de observaes.
Considere as idades dos funcionrios do Departamento de Recursos Humanos, apre-
sentadas no diagrama de ramo-e-folhas a seguir.
Departamento de Estatstica 23
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Diagrama 2.1 Idades de 15 Funcionrios do Departamento de Recursos Humanos
Escala
1 0 10
2 4 5 6 6 9 9
3 1 5 6 7 8
4 2 5
5 1 3
A idade mdia
=
24 + 25 + 26 + 26 + 29 + 29 + 31 + 35 + 36 + 37 + 38 + 42 + 45 + 51 + 53
15
=
527
15
= 35, 13
Como as idades esto em anos, a idade mdia tambm dada nessa unidade, ou seja, a
idade mdia 35,13 anos. Em geral, a mdia de um conjunto de dados tem a mesma unidade
dos dados originais.
Como interpretao fsica da mdia aritmtica, temos que ela representa o centro de
gravidade da distribuio. Nos quatro histogramas da Figura 2.1, ela o ponto de equilbrio,
indicado pela seta.
Note que o valor da mdia aritmtica um valor tal que, se substitussemos todos os
dados por ela, isto , se todas as observaes fossem iguais mdia aritmtica, a soma
total seria igual soma dos dados originais. Ento, a mdia aritmtica uma forma de se
distribuir o total observado por a elementos, de modo que todos tenham o mesmo valor.
Considere os seguintes dados ctcios referentes aos salrios de cinco funcionrios de
uma rma: 136, 210, 350, 360, 2500. O total da folha de pagamentos 3236, havendo um
salrio bastante alto, discrepante dos demais. A mdia para esses dados 647,20. Se todos
os cinco funcionrios ganhassem esse salrio, a folha de pagamentos seria a mesma, e todos
teriam o mesmo salrio.
2.1.2 Moda
No histograma (c) da Figura 2.1, duas classes apresentam a mesma frequncia mxima. Esse
o conceito de moda.
Departamento de Estatstica 24
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
DEFINIO Moda
A moda de uma distribuio ou conjunto de dados, que representaremos
por

, o valor que mais se repete, ou seja, o valor mais frequente.


Podemos ter distribuies amodais (todos os valores ocorrem o mesmo nmero de vezes),
unimodais (uma moda), bimodais (duas modas), etc. Para os dados do Diagrama 2.1, temos
as seguintes modas:

= 26 e

= 29 anos e, portanto, essa uma distribuio bimodal.


Assim como a mdia, a moda sempre tem a mesma unidade dos dados originais.
2.1.3 Mediana
Vamos analisar, novamente, os seguintes dados referentes aos salrios (em R$) de cinco
funcionrios de uma rma: 136, 210, 350, 360, 2500. Como visto, o salrio mdio R$ 647,20.
No entanto, esse valor no representa no representa, de forma adequada, os salrios mais
baixos e o salrio mais alto, isso porque o mais alto muito diferente dos demais.
Esse exemplo ilustra um fato geral sobre a mdia aritmtica: ela muito inuenciada por
valores discrepantes (em ingls, outliers), isto , valores muito grandes (ou muito pequenos)
que sejam distintos da maior parte dos dados. Nesses casos, necessrio utilizar outra
medida de posio para representar o conjunto. Uma medida possvel de ser utilizada a
mediana.
DEFINIO Mediana
Seja
1
,
2
, . . . ,
a
um conjunto de a observaes, e seja
(|)
, | = 1, . . . , a o
conjunto das observaes ordenadas, de modo que
(1)

(2)

(a)
.
Ento, a mediana
2
denida como o valor tal que 50% das observaes
so menores e 50% so maiores que ela. Para efeito de clculo, valem as
seguintes regras:
a mpar:
2
=
(
a+1
2
)
a par:
2
=

(
a
2
)
+
(
a
2
+1)
2
(2.2)
Dessa denio, podemos ver que a mediana o valor central dos dados e, para calcul-
la, necessrio ordenar os dados. Para as idades no Diagrama 2.1, o nmero total de obser-
Departamento de Estatstica 25
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
vaes a = 15. A mediana o valor central, que deixa sete observaes abaixo e sete
observaes acima. Logo, a mediana a oitava observao, uma vez que
a + 1
2
=
15 + 1
2
= 8.
Sendo assim, a idade mediana
2
= 35 anos. A unidade de medida da mediana a mesma
dos dados.
Note que, da denio de mediana, tem-se que sua posio sempre dada por
a+1
2
.
Quando esse clculo resultar em um nmero inteiro, a mediana ser a observao nessa
posio. Caso contrrio, a mediana ser a mdia dos dois valores centrais. Por exemplo,
se o resultado for 20,5, ento a mediana ser a mdia da vigsima e da vigsima primeira
observaes na lista ordenada. J se o resultado for 7,5, a mediana ser a mdia da stima
e da oitava observaes na lista ordenada. Se o resultado for 9, a mediana ser a nona
observao na lista ordenada dos dados.
EXEMPLO 2.1 Nmero de dependentes dos funcionrios do departamento de RH
Vamos calcular as medidas de posio para os dados referentes ao nmero de depen-
dentes dos funcionrios do Departamento de Recursos Humanos, apresentados na tabela
abaixo.
Nome Dependentes Nome Dependentes
Joo da Silva 3 Ana Freitas 1
Patrcia Silva 2 Pedro Barbosa 2
Pedro Fernandes 1 Luiz Costa 3
Regina Lima 2 Ricardo Alves 0
Maria Freitas 0 Andr Souza 4
Alfredo Souza 3 Mrcio Rezende 1
Paula Gonalves 0 Ana Carolina Chaves 0
Margarete Cunha 0
Os dados ordenados so
0 0 0 0 0 1 1 1 2 2 2 3 3 3 4
e a mdia
=
5 0 + 3 1 + 3 2 + 3 3 + 1 4
15
=
22
15
= 1, 47
Em mdia, temos 1,47 dependentes por funcionrio do Departamento de RH. A moda 0
dependente e a mediana (a = 15)

2
=
(
15+1
2
)
=
(8)
= 1 dependente.

Departamento de Estatstica 26
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
EXEMPLO 2.2 Notas de 50 alunos
No captulo anterior, obtivemos o diagrama de ramo-e-folhas a seguir para as notas de
50 alunos.
Diagrama 2.2 Notas de 50 alunos
Escala
1 0 1,0
2 9
3 7 8
4 7 9
5 2 4 5 6 8
6 0 2 3 5 5 6 8 8 9 9 9
7 0 0 0 1 2 3 3 4 5 5 6 6 7 9
8 0 1 2 2 3 3 4 7 7 8 9
9 0 2 4 7
Com a = 50, a posio da mediana
a + 1
2
=
51
2
= 25, 5 (2.3)
e, assim, a mediana a mdia das observaes nas posies 25 e 26, ou seja,

2
=
71 + 72
2
= 71, 5 (2.4)
Essa uma distribuio bimodal, com modas

= 69 e

= 70. A mdia
=
3529
50
= 70, 58 (2.5)

2.1.4 Mdia aritmtica ponderada


Vimos que a mdia aritmtica simples equivale a dividir o todo (soma dos valores) em
partes iguais, ou seja, estamos supondo que os nmeros que desejamos sintetizar tm o
mesmo grau de importncia. Entretanto, em algumas situaes no razovel atribuir a
mesma importncia a todos os dados.
Departamento de Estatstica 27
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Por exemplo, o ndice Nacional de Preos ao Consumidor (INPC) calculado com uma
mdia dos ndices de Preo ao Consumidor (IPC) de diversas regies metropolitanas do
Brasil, mas a importncia dessas regies diferente. Uma das variveis que as diferencia
a populao residente. Nesse tipo de situao, em vez de se usar a mdia aritmtica simples,
adota-se a mdia aritmtica ponderada, que ser representada por
p
.
DEFINIO Mdia aritmtica ponderada
A mdia aritmtica ponderada de nmeros
1
,
2
, . . . ,
a
com pesos

1
,
2
, . . . ,
a
denida como

p
=

1

1
+
2

2
+ +
a

1
+
2
+. . . +
a
=
a

|=1

|
a

|=1

|
(2.6)
Se denirmos

|
=

|
a

]=1

]
, (2.7)
ento, a mdia aritmtica ponderada poder ser reescrita como

p
=
a

|=1

|
, (2.8)
em que
a

|=1

|
= 1.
Note que a mdia aritmtica simples um caso particular da mdia aritmtica ponde-
rada, onde todas as observaes tm o mesmo peso
|
=
1
a
.
EXEMPLO 2.3 INPC
Para a construo do ndice Nacional de Preos ao Consumidor (INPC), o peso de
cada ndice regional denido pela populao residente urbana, conforme dados da Tabela
2.1. Os pesos, apresentados em porcentagem, representam a participao da populao
residente urbana da regio metropolitana no total da populao residente urbana das 11
regies metropolitanas pesquisadas.
Departamento de Estatstica 28
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Tabela 2.1 Estrutura bsica de ponderao regional para clculo do INPC - Agosto 2012
rea Geogrca Peso (%) IPC - Ago/12
Belm 6,9 0,74
Fortaleza 6,4 0,83
Recife 7,1 0,45
Salvador 10,6 0,29
Belo Horizonte 11,1 0,48
Rio de Janeiro 10,2 0,59
So Paulo 25,6 0,27
Curitiba 7,2 0,44
Porto Alegre 7,5 0,57
Goinia 5,1 0,36
Distrito Federal 2,2 0,31
INPC - Geral 0,45
Fonte: IBGE
O ndice geral, dado pela mdia ponderada, calculado como
INPC
08]12
= 0, 069 0, 74 + 0, 064 0, 83 + 0, 071 0, 45 +
0, 106 0, 29 + 0, 111 0, 48 + 0, 102 0, 59 +
0, 256 0, 27 + 0, 072 0, 44 + 0, 075 0, 57 +
0, 051 0, 36 + 0, 022 0, 31 = 0, 44906 0, 45

EXEMPLO 2.4 Nota Mdia
Segundo o critrio de avaliao adotado pelo Departamento de Estatstica, cada aluno
ser submetido a duas provas, a primeira tendo peso 2 e a segunda tendo peso 3. Para ser
aprovado sem precisar fazer prova nal, a mdia obtida nas duas provas deve ser, no mnimo,
6. Se um aluno tirar 5,5 na primeira prova, quanto dever tirar na segunda prova para no
precisar fazer prova nal?
Soluo
A mdia nas duas provas calculada como

p
=
2 ^
1
+ 3 ^
2
2 + 3
=
2 ^
1
+ 3 ^
2
5
O problema pede que
p
6. Ento necessrio ter
2 5, 5 + 3 ^
2
5
6 ^
2
6, 33
Departamento de Estatstica 29
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
O aluno deve tirar nota maior que 6,3 para que no precise fazer prova nal.

2.1.5 Propriedades das medidas de posio
Da interpretao fsica da mdia como centro de gravidade da distribuio, ca claro que
seu valor est sempre entre os valores mnimo e mximo dos dados. O mesmo resultado vale
para a mediana e a moda, o que imediato a partir das respectivas denies. Resumindo,
temos:
Propriedade 1

min

max

min

2

max
(2.9)

min


max
Iremos apresentar as outras duas propriedades atravs do seguinte exemplo:
Em uma turma de estatstica, os resultados de uma prova caram abaixo do que a
professora esperava. Como todos os alunos participavam ativamente de todas as atividades,
demonstrando interesse especial pela matria, a professora resolveu dar um ponto a mais na
prova para todos os alunos. Alm disso, ela deu os resultados com as notas variando de 0
a 10, mas a secretaria da faculdade exige que as notas sejam dadas em uma escala de 0 a
100. Sendo assim, a professora precisa multiplicar todas as notas por 10. O que acontecer
com a mdia, a moda e a mediana depois dessas alteraes?
Vamos ver o que ocorre, selecionando como exemplo o seguinte conjunto de cinco notas:
5, 4, 2, 3, 4.
As notas ordenadas so 2, 3, 4, 4, 5 e temos as seguintes medidas de posio:
=
5 + 4 + 2 + 3 + 4
5
=
18
5
= 3, 6

2
=

= 4
Somando 1 ponto, as notas passam a ser 3, 4, 5, 5, 6 com as seguintes medidas de
posio:
=
3 + 4 + 5 + 5 + 6
5
=
23
5
= 4, 6 = 3, 6 + 1

2,
=

= 5 = 4 + 1
Ao somar 1 ponto em todas as notas, o conjunto sofre uma translao, o que faz com
que o seu centro tambm que deslocado 1 ponto. Sendo assim, todas as trs medidas de
posio cam acrescidas de 1 ponto.
Departamento de Estatstica 30
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Multiplicando as novas notas por 10, obtemos 30, 40, 50, 50, 60 e
z =
30 + 40 + 50 + 50 + 60
5
=
230
5
= 46, 0 = 4, 6 10

2,z
= z

= 50 = 5 10,
ou seja, todas as medidas de posio cam multiplicadas por 10.
Esse exemplo ilustra as propriedades a seguir.
Propriedade 2
Somando-se um mesmo valor a cada observao
|
, obtemos um novo conjunto de dados

|
=
|
+|, para o qual temos as seguintes medidas de posio:

|
=
|
+|
_
_
_
= +|

2,
=
2,
+|

+|
(2.10)
Propriedade 3
Multiplicando cada observao
|
por uma mesma constante no nula |, obtemos um
novo conjunto de dados
|
= |
|
, para o qual temos as seguintes medidas de posio:

|
= |
|

_
_
_
= |

2,
= |
2,

= |

(2.11)
EXEMPLO 2.5 Temperaturas
A relao entre as escalas Celsius e Fahrenheit a seguinte:
C =
5
9
( 32)
Se a temperatura mdia em determinada localidade for de 45

, qual ser a temperatura


mdia em graus Celsius?
Soluo
Se cada observao for transformada de graus Fahrenheit para Celsius, a mdia sofrer
a mesma mudana, ou seja,
= 45

=
5
9
(45 32) = 7, 2

C

Departamento de Estatstica 31
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
2.2 Somatrio
A notao de somatrio bastante til na apresentao de frmulas, pois ela resume de
forma bastante compacta a operao de soma de vrias parcelas. Para compreender as
propriedades do somatrio, basta lembrar as propriedades da adio.
Para desenvolver um somatrio, temos de substituir o valor do ndice em cada uma das
parcelas e, em seguida realizar, a soma dessas parcelas. Por exemplo:
5

|=1
|
2
= 1
2
+ 2
2
+ 3
2
+ 4
2
+ 5
2
Em termos mais gerais, temos as seguintes propriedades:
a

|=1
(
|
+
|
) = (
1
+
1
) + (
2
+
2
) + + (
a
+
a
) =
= (
1
+
2
+ +
a
) + (
1
+
2
+ +
a
) = (2.12)
=
a

|=1

|
+
a

|=1

|
a

|=1
|
|
= |
1
+|
2
+ +|
a
= (2.13)
= |(
1
+
2
+ +
a
) =
= |
a

|=1

|
a

|=1
| = | +| + +| = a| (2.14)
importante salientar algumas diferenas:
a

|=1

2
|
=
_
a

|=1

|
_
2
uma vez que
Departamento de Estatstica 32
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
a

|=1

2
|
=
2
1
+
2
2
+ +
2
a
e
_
a

|=1

|
_
2
= (
1
+
2
+ +
a
)
2
Temos tambm que
a

|=1

|
=
_
a

|=1

|
__
a

|=1

|
_
pois
a

|=1

|
=
1

1
+
2

2
+ +
a

a
e
_
a

|=1

|
__
a

|=1

|
_
= (
1
+
2
+ +
a
)(
1
+
2
+ +
a
)
Conforme for necessrio, apresentaremos mais propriedades do somatrio.
EXEMPLO 2.6
Calcule as seguintes quantidades para os dados abaixo:
6

|=1

|
6

|=1

|
6

|=1

|
6

|=1

2
|
| 1 2 3 4 5 6

|
3 5 9 10 2 1

|
10 11 15 19 21 26
Soluo
6

|=1

|
= 10 + 11 + 15 + 19 + 21 + 26 = 102
6

|=1

|
= 3 + 5 + 9 + 10 + 2 + 1 = 30
Departamento de Estatstica 33
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
6

|=1

|
= 3 10 + 5 11 + 9 15 + 10 19 + 2 21 + 1 26 = 478
6

|=1

2
|
= 3 10
2
+ 5 11
2
+ 9 15
2
+ 10 19
2
+ 2 21
2
+ 1 26
2
= 8098

2.3 Medidas de disperso


Considere os conjuntos de dados representados por diagramas de pontos na Figura 2.2.
Nesses grcos, as pilhas de pontos representam as frequncias de cada valor. Podemos
ver facilmente que os trs conjuntos tm a mesma mdia (o centro de gravidade ou ponto de
equilbrio o mesmo), a mesma mediana e a mesma moda. No entanto, esses conjuntos tm
caractersticas diferentes, e ao sintetiz-los com base em apenas uma medida de posio
essas caractersticas se perdero. Tal caracterstica a disperso dos dados e iremos estudar
algumas medidas de disperso que nos permitiro diferenciar entre essas trs distribuies.
Figura 2.2 Exemplos ilustrativos do conceito de medidas de disperso
2.3.1 Amplitude
Analisando os diagramas da Figura 2.2, vemos que os valores se distribuem entre 4 e 8 na
distribuio (a) ao passo que, nas distribuies (b) e (c), eles se encontram mais dispersos,
variando de 2 a 10. Considerar, ento, a distncia entre o mnimo e o mximo nos permite
quanticar diferenas nas disperses. Como j visto, esse o conceito de amplitude.
Departamento de Estatstica 34
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
DEFINIO Amplitude
A amplitude de um conjunto de dados a distncia entre o maior valor e
o menor valor.

IcIu|
= V
max
V
min
. (2.15)
A amplitude tem a mesma unidade dos dados, mas, como medida de disperso, ela tem
algumas limitaes, conforme ilustrado nas distribuies (b) e (c) da Figura 2.2, que possuem
a mesma mdia, a mesma mediana e a mesma amplitude. No entanto, essas medidas no
conseguem caracterizar o fato de a distribuio dos valores entre o mnimo e o mximo ser
diferente nos dois conjuntos. A limitao da amplitude tambm ca patente pelo fato de ela
se basear em apenas duas observaes, independentemente do nmero total de observaes.
2.3.2 Desvio mdio absoluto
Uma maneira de se medir a disperso dos dados considerar os tamanhos dos desvios
|

de cada observao em relao mdia. Observe, nos exemplos da Figura 2.2, que quanto
mais disperso for o conjunto de dados, maiores sero os desvios. Para obter uma medida-
resumo, isto , um nico nmero, poderamos somar esses desvios, considerando a seguinte
medida:
D =
a

|=1
(
|
). (2.16)
Vamos desenvolver tal frmula, usando as propriedades de somatrio e a denio da
mdia.
D =
a

|=1
(
|
) =
a

|=1

|=1
=
a

|=1

|
a =
=
a

|=1

|
a
1
a
a

|=1

|
=
a

|=1

|=1

|
= 0.
Ou seja, essa medida, que representa a soma dos desvios em relao mdia, sempre
nula, no importa o conjunto de dados! Logo, ela no serve para diferenciar quaisquer
conjuntos!
Departamento de Estatstica 35
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Daremos uma explicao intuitiva para esse fato, que nos permitir obter correes
para tal frmula. Pela denio de mdia, sempre h valores inferiores e superiores mdia,
que resultam, respectivamente, em desvios negativos e positivos. Esses desvios positivos e
negativos, ao serem somados, se anulam.
Pois bem, se o problema est no fato de termos desvios positivos e negativos, por que
no trabalhar com o seu valor absoluto das diferenas? De fato, esse procedimento nos leva
denio de desvio mdio absoluto.
DEFINIO Desvio mdio absoluto
O desvio mdio absoluto de um conjunto de dados
1
,
2
, . . . ,
a
denido
por
DAA =
1
a
a

|=1
[
|
[ (2.17)
onde as barras verticais representam o valor absoluto ou mdulo.
Note que, nessa denio, estamos trabalhando com o desvio mdio, isto , tomamos a
mdia dos desvios absolutos. Isso evita interpretaes equivocadas, pois, se trabalhssemos
apenas com a soma dos desvios absolutos, um conjunto com um nmero maior de observaes
tenderia a apresentar um resultado maior para a soma, devido apenas ao fato de ter mais
observaes. Esta situao ilustrada com os seguintes conjuntos de dados:
Conjunto 1: |1, 3, 5|
Conjunto 2:
_
1,
5
3
, 3,
13
3
, 5
_
Para os dois conjuntos, = 3, e para o conjunto 1,
3

|=1
[
|
[ = [1 3[ +[3 3[ +[5 3[ = 4
J para o conjunto 2,
5

|=1
[
|
[ = [1 3[ +

5
3
3

+[3 3[ +

13
3
3

+[5 3[
=
20
3
= 6, 667.
Departamento de Estatstica 36
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Ento, o somatrio para o segundo conjunto maior, mas o desvio mdio absoluto o
mesmo para ambos. De fato, para o primeiro conjunto, temos
DAA =
4
3
e, para o segundo conjunto,
DAA =
20
3
5
=
4
3
Ao dividirmos o somatrio pelo nmero de observaes, compensamos o fato de o se-
gundo conjunto ter mais observaes do que o primeiro.
O desvio mdio absoluto tem a mesma unidade dos dados.
2.3.3 Varincia e desvio-padro
Considerar o valor absoluto das diferenas (
|
) uma das maneiras de se contornar o
fato de que
a

|=1
(
|
) = 0. Mas h uma outra possibilidade de correo, com propriedades
matemticas e estatsticas mais adequadas, que consiste em trabalhar com o quadrado dos
desvios. Isso nos leva denio de varincia.
DEFINIO Varincia
A varincia
a
de um conjunto de dados
1
,
2
, . . . ,
a
denida por

2
=
1
a
a

|=1
(
|
)
2
. (2.18)
a
possvel denir a varincia usando o divisor a1 no lugar de a. Essa a diferena
entre os conceitos de varincia populacional e varincia amostral, que ser mais relevante
na estudo da Inferncia Estatsitica.
Essa denio nos diz que a varincia a mdia dos desvios quadrticos.
Suponhamos que os valores
|
representem os pesos, em quilogramas, de um conjunto
de pessoas. Ento, o valor mdio representa o peso mdio dessas pessoas e sua unidade
tambm quilogramas, o mesmo acontecendo com as diferenas (
|
). Ao elevarmos essas
Departamento de Estatstica 37
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
diferenas ao quadrado, passamos a ter a varincia medida em quilogramas ao quadrado, uma
unidade que no tem interpretao fsica. Uma forma de se obter uma medida de disperso,
com a mesma unidade dos dados, consiste em tomar a raiz quadrada da varincia.
DEFINIO Desvio-padro
O desvio-padro de um conjunto de dados
1
,
2
, . . . ,
a
denido como a
raiz quadrada da varincia:
=

Varincia =

2
(2.19)
Consideremos a equao (2.18) que dene a varincia. Desenvolvendo o quadrado e
usando as propriedades de somatrio, obtemos:

2
=
1
a
a

|=1
_

2
|
2
|
+
2
_
=
1
a
a

|=1

2
|

1
a
a

|=1
2
|
+
1
a
a

|=1

2
=
=
1
a
a

|=1

2
|
2
_
1
a
a

|=1

|
_
+
1
a
a
2
=
1
a
a

|=1

2
|
2
2
+
2
ou seja

2
=
1
a
a

|=1

2
|

2
(2.20)
Essa forma de escrever a varincia facilita quando os clculos devem ser feitos mo ou
em calculadoras menos sosticadas, pois o nmero de clculos envolvidos menor. Podemos
ler essa frmula como a varincia a mdia dos quadrados menos o quadrado da mdia.
EXEMPLO 2.7 Idades de funcionrios
Novamente, vamos considerar os dados referentes s idades dos funcionrios do De-
partamento de Recursos Humanos. Essas idades so:
24 25 26 26 29 29 31 35 36 37 38 42 45 51 53
Departamento de Estatstica 38
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
e sua mdia
527
15
= 35, 13. Assim, a varincia, em anos
2
,

2
=
1
15
_
_
_
_
_
_
_
(24 35, 13)
2
+ (25 35, 13)
2
+ 2 (26 35, 13)
2
+
2 (29 35, 13)
2
+ (31 35, 13)
2
+ (35 35, 13)
2
+
(36 35, 13)
2
+ (37 35, 13)
2
+ (38 35, 13)
2
+
(42 35, 13)
2
+ (42 35, 13)
2
+ (45 35, 13)
2
+
(51 35, 13)
2
+ (53 35, 13)
2
_
_
_
_
_
_
_
=
=
1213, 73
15
= 80, 92
e o desvio-padro, em anos,
=
_
80, 92 = 8, 995
Usando a frmula 2.20, temos:

2
=
1
15
_
24
2
+ 25
2
+ 25
2
+ 2 26
2
+ 2 29
2
+ 31
2
+ 35
2
+ 36
2
_
+
+
1
15
_
37
2
+ 38
2
+ 39
2
+ 42
2
+ 45
2
+ 51
2
+ 53
2
_

_
527
15
_
2
=
=
19729
15

_
527
15
_
2
=
=
19729 15 527
2
15
2
=
295935 277729
225
=
18206
225
= 80, 916
Na comparao dos resultados obtidos pelas duas frmulas, pode haver alguma dife-
rena por causa dos arredondamentos, uma vez que a mdia uma dzima. Em geral, a
frmula 2.20 fornece resultados mais precisos e certamente requer menos clculos.

EXEMPLO 2.8 Nmero de dependentes dos funcionrios do departamento de RH
Consideremos, novamente, o nmero de dependentes dos funcionrios do Departamento
de Recursos Humanos, apresentados no Exemplo 2.1. Os dados so
3 2 1 2 0 3 0 0 1 2 3 0 4 1 0
Departamento de Estatstica 39
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Como o menor valor 0 e o maior 4, temos que a amplitude dos dados de 4
dependentes. A mdia calculada para esses dados foi =
22
15
= 1, 467. Vamos calcular a
soma dos desvios em torno da mdia, usando o fato de termos observaes repetidas.

(
|
) = 5
_
0
22
15
_
+ 3
_
1
22
15
_
+ 3
_
2
22
15
_
+
+ 3
_
3
22
15
_
+
_
4
22
15
_
=
=
110
15

21
15
+
24
15
+
69
15
+
38
15
=
131
15
+
131
15
= 0
Caso trabalhssemos com o valor aproximado 1, 467, o resultado aproximado seria
0, 005.
O desvio mdio absoluto
DAA =
1
a

[
|
[ =
=
1
15

_
5

0
22
15

+ 3

1
22
15

+ 3

2
22
15

_
+
+
_
3

3
22
15

4
22
15

_
=
=
1
15

_
110
15
+
21
15
+
24
15
+
69
15
+
38
15
_
=
=
1
15

_
131
15
+
131
15
_
=
262
225
= 1, 1644
A varincia

2
=
1
a

(
|
)
2
=
=
1
15

_
5
_
0
22
15
_
2
+ 3
_
1
22
15
_
2
+ 3
_
2
22
15
_
2
_
+
+
1
15

_
3
_
3
22
15
_
2
+
_
4
22
15
_
2
_
=
=
1
15

_
2420
225
+
147
225
+
192
225
+
1587
225
+
1444
225
_
=
=
5790
15 225
= 1, 715556
Departamento de Estatstica 40
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
e
=
_
5790
15 225
= 1, 3098
Vamos agora calcular a varincia usando a frmula alternativa:

2
=
1
15

_
5 0
2
+ 3 1
2
+ 3 2
2
+ 3 3
2
+ 4
2
_

_
22
15
_
2
=
=
3 + 12 + 27 + 16
15

484
225
=
58
15

484
225
=
58 15 484
225
=
=
386
225
= 1, 715556
Com essa frmula, os clculos cam bem mais simples, uma vez que necessrio fazer
menos conta!

2.3.4 Amplitude interquartil
Assim como a mdia, a varincia e o desvio-padro so muito afetados por valores discre-
pantes. Vamos, ento, apresentar uma outra medida de disperso que no se altera tanto
na presena de tais valores atpicos. Essa medida se baseia nos quartis.
Vimos que a mediana divide o conjunto de dados ao meio, deixando 50% das observaes
abaixo e 50% acima dela. De modo anlogo, podemos denir qualquer separatriz como sendo
um valor que deixa p% dos dados abaixo e o restante acima dele.
Aqui, iremos nos concentrar em um caso particular das separatrizes, que so os quartis.
DEFINIO Quartis
O primeiro quartil, que indicaremos por
1
, deixa 25% das observaes
abaixo e 75% acima dele.
O terceiro quartil,
3
, deixa 75% das observaes abaixo e 25% acima dele.
A mediana o segundo quartil.
Dessa denio resulta que, entre
1
e
3
, h sempre 50% dos dados, qualquer que
seja a distribuio. Assim, quanto maior for a distncia entre
1
e
3
, mais dispersos sero
os dados. Temos, assim, uma nova medida de disperso, a amplitude interquartil.
Departamento de Estatstica 41
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
DEFINIO Amplitude interquartil
A amplitude interquartil, que denotaremos por A, denida como a
distncia entre o primeiro e o terceiro quartis, isto :
A =
3

1
(2.21)
A amplitude interquartil tem a mesma unidade dos dados. A vantagem da amplitude
interquartil sobre o desvio-padro que, assim como a mediana, a A no muito inuen-
ciada por poucos valores discrepantes.
Para calcular os quartis, depois de calculada a mediana, considere as duas partes dos
dados, a parte abaixo e a parte acima da mediana, excluindo, em ambos os casos, a mediana.
Essas duas partes tm o mesmo nmero de observaes, pela denio de mediana.
O primeiro quartil, ento, ser calculado como a mediana da parte abaixo da mediana
original e o terceiro quartil ser calculado como a mediana da parte acima da mediana
original.
EXEMPLO 2.9 Nmero de dependentes dos funcionrios
Vamos calcular os quartis e a amplitude interquartil para o nmero de dependentes
dos funcionrios do Departamento de Recursos Humanos, cujos valores j ordenados so:
0 0 0 0 0 1 1 1 2 2 2 3 3 3 4
Como h 15 observaes, a mediana a oitava observao:
0 0 0 0 0 1 1 1 2 2 2 3 3 3 4
isto ,

2
=
(
a+1
2
)
=
(8)
= 1
Excluda a oitava observao, a parte inferior dos dados, com 7 observaes,
0 0 0 0 0 1 1
cuja mediana a observao marcada, ou seja:

1
=
(
7+1
2
)
=
(4)
= 0
A parte superior dos dados, excluda a mediana,
2 2 2 3 3 3 4
Departamento de Estatstica 42
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
e, portanto,

3
=
(4+8)
=
(12)
= 3
A amplitude interquartil calculada como
A =
3

1
= 3 0 = 3.

2.3.5 Propriedades das medidas de disperso


Como visto para as medidas de posio, vamos estudar as principais propriedades das me-
didas de disperso.
Propriedade 1
Todas as medidas de disperso so no negativas:
0
DAA 0

2
0
0
A 0
(2.22)
Propriedade 2
Somando-se uma mesma constante a todas as observaes, as medidas de disperso
no se alteram. Essa propriedade bastante intuitiva: note que, ao somar uma constante aos
dados, estamos simplesmente fazendo uma translao dos mesmos, sem alterar a disperso.

|
=
|
+|
_

DAA

= DAA

=
2

= A

(2.23)
Propriedade 3
Departamento de Estatstica 43
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Ao multiplicarmos todos os dados por uma constante no nula, temos:

|
= |
|

_

= [|[

DAA

= [|[ DAA

= |
2

= [|[

= [|[ A

(2.24)
Note que razovel aparecer o mdulo da constante, j que as medidas de disperso so
no negativas.
EXEMPLO 2.10 Temperaturas
Se o desvio-padro das temperaturas dirias de uma determinada localidade for de 5, 2

,
qual ser o desvio-padro em graus Celsius? Lembre-se de que a relao entre as duas
escalas
C =
5
9
( 32)
Soluo
Se cada observao for transformada de graus Fahrenheit para Celsius, a nica opera-
o que afetar o desvio-padro ser a multiplicao pelo fator 5]9, ou seja,

C
=
5
9

(2.25)

2.4 Medidas relativas de posio e disperso


2.4.1 Escores padronizados
Considere os dois conjuntos de dados abaixo, que representam as notas em Estatstica e
Clculo dos alunos de uma determinada turma.
Departamento de Estatstica 44
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Aluno 1 2 3 4 5 6 7 8 9
Estatstica 6 4 5 7 8 5 5 5 7
Clculo 6 8 9 10 7 7 8 9 3
As notas mdias nas duas disciplinas so:

=
6 + 4 + 5 + 7 + 8 + 5 + 5 + 5 + 7
9
=
52
9
= 5, 7778

C
=
6 + 8 + 9 + 10 + 7 + 7 + 8 + 9 + 3
9
=
67
9
= 7, 4444
As varincias so:

=
6
2
+ 4
2
+ 5
2
+ 7
2
+ 8
2
+ 5
2
+ 5
2
+ 5
2
+ 7
2
9

_
52
9
_
2
=
=
314
9

2704
81
=
314 9 2704
81
=
122
81
= 1, 506173

2
C
=
6
2
+ 8
2
+ 9
2
+ 10
2
+ 7
2
+ 7
2
+ 8
2
+ 9
2
+ 3
2
9

_
67
9
_
2
=
=
533
9

4489
81
=
533 9 4489
81
=
308
81
= 3, 802469
Os desvios-padro so:

=
_
122
81
= 1, 227262

C
=
_
308
81
= 1, 949992
Nas Figuras 2.3 e 2.4, temos os diagramas de pontos que representam as duas distri-
buies de notas. Nesses diagramas, a mdia est representada pela seta e podemos ver
que as notas de Clculo apresentam maior variabilidade.
Figura 2.3 Notas de Estatstica Figura 2.4 Notas de Clculo
Departamento de Estatstica 45
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Analisando os dois conjuntos de notas, pode-se ver que o aluno 1 tirou 6 em Estatstica
e em Clculo. Mas, analisando o desempenho do aluno em cada disciplina, pode-se ver que
essa nota 6 tem interpretaes diferentes. Em Estatstica, o aluno cou acima da mdia e
em Clculo, abaixo da mdia. Uma forma de medir essa diferena considerar os desvios em
torno da mdia (lembre-se de que esses desvios j apareceram nas denies de varincia
e desvio mdio absoluto).
DEFINIO Desvio
O desvio de uma observao
|
em torno da mdia denido como
u
|
=
|
(2.26)
No entanto, considerar apenas o desvio no leva em conta o fato de as distribuies
terem disperses diferentes. Observe que as notas de Clculo so mais dispersas. Assim,
um desvio de 0,1 por exemplo, tem uma importncia menor na distribuio das notas de
Clculo do que nas notas de Estatstica. Como medir isso? Temos que descontar o efeito da
disperso e isso feito dividindo-se o desvio pelo desvio-padro das observaes. Isso nos
leva denio de escore padronizado.
DEFINIO Escore padronizado
O escore padronizado de uma observao
|
denido como
z
|
=

|

. (2.27)
Ao dividirmos pelo desvio-padro, a escala passa a ser denida em termos de desvio-
padro e cada escore padronizado informa que a observao est abaixo (ou acima) da mdia
por determinado nmero de desvios-padro. Com isso, tira-se o efeito de as mdias e as
variabilidades serem diferentes.
Vamos analisar as notas de Estatstica e Clculo em termos dos escores padronizados,
que so apresentados na tabela a seguir.
Departamento de Estatstica 46
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Aluno 1 2 3 4 5 6 7 8 9
Estatstica
Nota 6 4 5 7 8 5 5 5 7
Escore 0,18 -1,45 -0,63 1,00 1,81 -0,63 -0,63 -0,63 1,00
Clculo
Nota 6 8 9 10 7 7 8 9 3
Escore -0,74 0,29 0,80 1,13 -0,23 -0,2 0,29 0,80 -3,28
Vemos a que a nota 6 em Clculo, alm de estar abaixo da mdia, est mais afastada
da mdia do que a nota 6 em Estatstica. Observe as notas 8 em Estatstica e 10 em Clculo:
o escore padronizado da primeira maior que o da segunda, ou seja, a nota 8 em Estatstica
mais surpreendente que a nota 10 em Clculo, embora, convenhamos, o efeito psicolgico
de um 10 seja sempre mais impactante do que o de um 8...
EXEMPLO 2.11 Propriedades dos escores padronizados
Podemos escrever o escore padronizado como
z
|
=
1

e, assim, vemos que esse escore obtido a partir dos dados originais por meio de uma
transformao linear: somamos uma constante
_

_
e multiplicamos por outra constante
_
1

_
. Das propriedades da mdia e do desvio-padro vistas nas sees anteriores, resulta
que a mdia e o desvio-padro dos escores padronizados podem ser obtidos a partir da
mdia e do desvio-padro dos dados originais:
z =
1

= 0

2
z
=
1

= 1
Logo, os escores padronizados tm sempre mdia zero e desvio-padro (ou varincia) 1.

No estudo da mdia e da mediana, vimos que a mdia fortemente afetada por valores
discrepantes, que so valores muito afastados das demais observaes. Algumas vezes, tais
valores podem ser resultados de erros, mas, muitas vezes, eles so valores legtimos e a
presena deles requer alguns cuidados na anlise estatstica. Sendo assim, importante ter
alguma forma de se identicarem valores discrepantes. Os escores padronizados podem ser
usados para esse m, graas ao Teorema de Chebyshev.
TEOREMA 2.1 Teorema de Chebyshev
Para qualquer distribuio de dados, pelo menos
_
1 1]z
2
_
dos dados esto dentro de
z desvios padres da mdia, onde z qualquer valor maior que 1. Dito de outra forma, pelo
menos
_
1 1]z
2
_
dos dados esto no intervalo [ z; +z] .
Departamento de Estatstica 47
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Vamos analisar esse teorema em termos dos escores padronizados. Suponha que
t
seja um valor do conjunto de dados dentro do intervalo [ z; +z] . Isso signica que
z <
t
< +z.
Subtraindo e dividindo por todos os termos dessa desigualdade, obtemos
z

<

t

<
+z


z <

t

< +z
O termo do meio nada mais do que o escore padronizado da observao
t
. Assim, o
teorema de Chebyshev pode ser estabelecido em termos dos escores padronizados como:
Para pelo menos
_
1 1]z
2
_
dos dados, os respectivos escores padronizados esto
no intervalo (z, +z), onde z qualquer valor maior que 1.
O fato interessante desse teorema que ele vale para qualquer distribuio de dados.
EXEMPLO 2.12 O Teorema de Chebyshev na prtica
Vamos aplicar o Teorema de Chebyshev para algumas escolhas comuns da constante z.
z = 2
Nesse caso, 1 1]z
2
= 3]4, ou seja, para pelo menos 75% dos dados, os escores
padronizados esto no intervalo (2, +2).
z = 3
Nesse caso, 1 1]z
2
= 8]9 = 0, 889, ou seja, para aproximadamente 89% dos dados, os
escores padronizados esto no intervalo (3, +3).
z = 4
Nesse caso, 1 1]z
2
= 15]16 = 0, 9375, ou seja, para 93,75% dos dados, os escores
padronizados esto no intervalo (4, +4).

Como regra de deteco de valores discrepantes, pode-se usar o Teorema de Chebyshev
para se estabelecer, por exemplo, que os dados cujos escores padronizados estiverem fora
do intervalo (4, +4) so valores discrepantes e, portanto, devero ser vericados cuidado-
samente para se identicar a causa de tal discrepncia.
Departamento de Estatstica 48
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
2.4.2 Coeciente de variao
Considere a seguinte situao: uma fbrica de ervilhas comercializa seu produto em embala-
gens de 300 gramas e em embalagens de um quilo ou 1000 gramas. Para efeitos de controle
do processo de enchimento das embalagens, sorteia-se uma amostra de 10 embalagens de
cada uma das mquinas e obtm-se os seguintes resultados:
300
_
= 296
= 5
1000
_
= 996
= 5
Vamos interpretar esses nmeros. Na primeira mquina, as embalagens deveriam fornecer
peso de 300g mas devido a erros de ajuste da mquina de enchimento, o peso mdio das 10
embalagens de apenas 296g. O desvio-padro de 5g signica que, em mdia, os pesos das
embalagens esto 5 gramas abaixo ou acima do peso mdio das 10 latas. Uma interpretao
anloga vale para a segunda mquina.
Em qual das duas situaes a variabilidade parece ser maior? Ou seja, em qual das
duas mquinas parece haver um problema mais srio? Observe que, em ambos os casos, h
uma disperso de 5g em torno da mdia, mas 5g em 1000g menos preocupante que 5g em
300g.
Como um exemplo mais extremo, um desvio-padro de 10 unidades, em um conjunto
cuja observao tpica 100, muito diferente de um desvio-padro de 10 unidades em um
conjunto cuja observao tpica 10000.
Surge, assim, a necessidade de uma medida de disperso relativa, que permita compa-
rar, por exemplo, esses dois conjuntos. Uma dessas medidas o coeciente de variao.
DEFINIO Coeciente de variao
Dado um conjunto de observaes
1
,
2
, . . . ,
a
, o coeciente de variao
(CV) denido como a razo entre o desvio-padro dos dados e sua mdia,
ou seja,
CV =

. (2.28)
Note que o coeciente de variao uma medida de disperso.
Como o desvio-padro e a mdia so ambos medidos na mesma unidade dos dados
originais, o coeciente de variao adimensional. Esse fato permite comparaes entre
conjuntos de dados diferentes, medidos em unidades diferentes. Em geral, o CV apresen-
tado em forma percentual, isto , multiplicado por 100.
Departamento de Estatstica 49
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
No exemplo das latas de ervilha, os coecientes de variao para as embalagens oriun-
das das duas mquinas so
300 CV =
5
300
100 = 1, 67%
1000 CV =
5
1000
100 = 0, 5%
Isso conrma a nossa observao anterior: a variabilidade na mquina de 300g relativa-
mente maior.
2.5 Medidas de assimetria
Considere os diagramas de pontos da Figura 2.5, onde a seta indica a mdia dos dados.
Analisando-os, podemos ver que a principal e mais marcante diferena entre eles diz respeito
simetria da distribuio. A distribuio do centro simtrica, enquanto as outras duas so
assimtricas.
Figura 2.5 Distribuies com diferentes tipos de assimetria
No diagrama esquerda, a assimetria tal que h maior concentrao na cauda inferior,
enquanto no diagrama direita, a concentrao maior na cauda superior. Visto de ou-
tra maneira, no diagrama direita, os dados se estendem para o lado positivo da escala,
enquanto no diagrama esquerda, os dados se estendem para o lado negativo da escala.
Dizemos que a distribuio ilustrada no diagrama esquerda apresenta uma assimetria
direita, ao passo que a do diagrama direita apresenta uma assimetria esquerda. No
diagrama do centro, temos uma simetria perfeita ou assimetria nula.
Departamento de Estatstica 50
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
DEFINIO Simetria e assimetria
Uma distribuio simtrica se os lados direito e esquerdo do histograma
(ou diagrama de pontos) so, aproximadamente, a imagem espelhada um
do outro.
Uma distribuio assimtrica direita se a cauda direita do histograma
se estende muito mais do que a cauda esquerda. Ela assimtrica
esquerda se a cauda esquerda do histograma se estende muito mais do
que a cauda direita.
2.5.1 O coeciente de assimetria de Pearson
Esses trs tipos de assimetria podem ser caracterizados pela posio da moda com relao
mdia dos dados. No primeiro tipo, a moda tende a estar esquerda da mdia, enquanto no
terceiro tipo, a moda tende a estar direita da mdia. (Lembre-se de que a mdia o centro
de gravidade ou ponto de equilbrio da distribuio). Para distribuies simtricas, a moda
coincide com a mdia. Temos, assim, a seguinte caracterizao dos trs tipos de assimetria:
se a mdia maior que a moda ( .

), dizemos que a distribuio assimtrica


direita ou tem assimetria positiva [diagrama esquerda na Figura 2.5];
se a mdia igual moda ( =

), dizemos que a distribuio simtrica ou tem


assimetria nula [diagrama central na Figura 2.5];
se a mdia menor que a moda ( <

), dizemos que a distribuio assimtrica


esquerda ou tem assimetria negativa [diagrama direita na Figura 2.5].
Essas denies, no entanto, no permitem medir diferentes graus de assimetria. Por
exemplo, considere os diagramas de pontos da Figura 2.6, ambos assimtricos direita. Uma
forma de medirmos essas diferentes assimetrias atravs do desvio

entre a mdia e
a moda. Mas como as distribuies podem ter graus de disperso diferentes, importante
considerarmos a diferena acima na mesma escala. Como visto na denio dos escores
padronizados, a forma de se fazer isso dividindo o desvio pelo desvio-padro, o que nos
leva ao coeciente de assimetria de Pearson.
Departamento de Estatstica 51
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Figura 2.6 Distribuies assimtricas direita
DEFINIO Coeciente de assimetria de Pearson
O coeciente de assimetria de Pearson denido como
c =

. (2.29)
Se o coeciente for negativo, a distribuio ter assimetria negativa; se for
positivo, assimetria positiva, e se for nulo, a distribuio ser simtrica.
Note que aqui, assim como nos escores padronizados, tiramos o efeito de escalas dife-
rentes ao dividirmos pelo desvio-padro, o que resulta na adimensionalidade do coeciente.
Para os dados do diagrama esquerda da Figura 2.6, temos

= 2, = 2, 7714 e
= 1, 6228, logo,
c =
2, 7714 2
1, 6228
= 0, 475351
Para o diagrama direita,

= 2, = 3, 6232 e = 2, 3350, logo,


c =
3, 6232 2
2, 3350
= 0, 6952
o que indica uma assimetria mais acentuada.
2.5.2 O coeciente de assimetria de Bowley
Da denio dos quartis, sabemos que entre
1
e
2
e entre
2
e
3
h sempre 25% dos
dados. Ento, a diferena entre as distncias
2

1
e
3

2
nos d informao sobre a
assimetria da distribuio.
Departamento de Estatstica 52
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Se
2

1
<
3

2
, isso signica que andamos mais rpido para cobrir os 25%
inferiores do que os 25% superiores, ou seja, a distribuio se arrasta para a direita.
Analogamente, se
2

1
.
3

2
, isso signica que andamos mais devagar para
cobrir os 25% inferiores do que os 25% superiores, ou seja, a distribuio se arrasta para a
esquerda. De forma mais precisa, temos o seguinte resultado:

1
<
3

2
= assimetria positiva

1
.
3

2
= assimetria negativa

1
=
3

2
= simetria ou assimetria nula
Podemos, ento, usar a diferena (
3

2
)
2

1
como uma medida de assimetria.
Mas, aqui, tambm necessrio tirar o efeito de escala e, para isso, temos de dividir por uma
medida de disperso lembre-se de que dividimos pelo desvio-padro quando trabalhamos
com as diferenas

. Para no termos efeito dos valores discrepantes, usaremos a


amplitude interquartil para gerar a seguinte medida de assimetria, que chamada coeciente
de assimetria de Bowley.
DEFINIO Coeciente de assimetria de Bowley
O coeciente de assimetria de Bowley denido como
B =
(
3

2
) (
2

1
)

1
(2.30)
que pode ser reescrito como
B =
(
3

2
) (
2

1
)
(
3

2
) + (
2

1
)
(2.31)
Analisando a expresso (2.31), percebemos que, quanto mais assimtrica direita for
uma distribuio, mais prximos sero
1
e
2
e, portanto, B se aproximar de +1. Analo-
gamente, quanto mais assimtrica esquerda, mais prximos sero
2
e
3
e, portanto, B
ir se aproximar de 1.
2.6 O boxplot
A partir dos quartis constri-se um grco chamado boxplot ou diagrama em caixa, que
ilustra os principais aspectos da distribuio e tambm muito til na comparao de dis-
Departamento de Estatstica 53
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
tribuies.
O boxplot formado basicamente por um retngulo vertical (ou horizontal). O com-
primento do lado vertical (ou horizontal) dado pela amplitude interquartil. Veja a Figura
2.7-(a), onde estamos trabalhando com um retngulo vertical. O tamanho do outro lado
indiferente, sugerindo-se apenas uma escala razovel. Na altura da mediana, traa-se uma
linha, dividindo o retngulo em duas partes. Veja a Figura 2.7-(b).
(a) (b)
Q
3
Q
1
Q
1
Q
2
Q
3
Figura 2.7 Construo do boxplot - Parte 1
Observe que, nesse momento, no s temos representados 50% da distribuio, como
tambm temos ideia da assimetria da mesma -? nessa gura, percebemos uma leve assimetria
direita, j que
2

1
<
3

2
. Para representar os 25% restantes em cada cauda
da distribuio, temos de cuidar, primeiro, da presena de possveis outliers ou valores
discrepantes, que, como j dito, so valores que se distanciam dos demais.
! Regra de valores discrepantes
Um dado ser considerado valor discrepante ou outlier se
<
1
1, 5 A
ou
.
3
+ 1, 5 A
Veja a Figura 2.8-(a). Qualquer valor para fora das linhas pontilhadas considerado
um valor discrepante.
Departamento de Estatstica 54
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
AIQ AIQ
1,5 AIQ
1,5 AIQ
1,5 AIQ
1,5 AIQ
Q
2
Q
1
Q
1
Q
2
Q
3
(a) (b)
Q
3
Figura 2.8 Construo do boxplot - Parte 2
Para representar o domnio de variao dos dados na cauda inferior que no so outli-
ers, traa-se, a partir do lado do retngulo denido por
1
, uma linha para baixo at o menor
valor que no seja outlier. Da mesma forma, na cauda superior, traa-se, a partir do lado do
retngulo denido por
3
, uma linha para cima at o maior valor que no seja outlier (veja
a Figura 2.8-(b)). Esses pontos so chamados juntas. Dito de outra forma, as juntas so os
valores mnimo e mximo do conjunto de dados formado pelos valores no discrepantes.
Quanto aos outliers, eles so representados individualmente por um X (ou algum outro
tipo de carcter), explicitando-se, de preferncia, os seus valores, mas com uma possvel
quebra de escala no eixo Figura 2.9).
Note que a construo do boxplot toda baseada nos quartis, que so medidas resis-
tentes contra valores discrepantes.
Departamento de Estatstica 55
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
X
X
Q
2
Q
1
Q
3
Figura 2.9 Construo do boxplot - Parte 3
EXEMPLO 2.13 Comprimento de ores tropicais
Na Tabela 2.2, temos dados referentes ao comprimento das ores de trs variedades
da heliconia e, na Figura 2.10, apresenta-se o diagrama em caixa ou boxplot para esses
dados. Pode-se ver que os comprimentos das trs variedades so bem diferentes, com a H.
bihai apresentando os maiores comprimentos. A variedade H. caribaea amarela apresenta
os menores comprimentos, enquanto a disperso dos comprimentos da H. caribaea vermelha
a maior de todas.
2.7 Medidas de posio e disperso para distribuies de
frequncias agrupadas
Considere a distribuio de frequncias do salrio dos 500 funcionrios reproduzida na Ta-
bela 2.3. Essa tabela foi construda a partir dos dados individuais dos funcionrios da nossa
empresa ctcia. Essas informaes esto disponveis para a empresa, mas, em geral, no
so divulgadas nesse nvel de detalhamento. Imagine, ento, que no dispomos dos dados
individuais (tambm chamados dados brutos) e temos acesso, somente, s informaes da
Tabela 2.3. Como poderamos calcular a mdia, a moda e a mediana? Isso o que voc
aprender nesta seo.
Departamento de Estatstica 56
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Tabela 2.2 Comprimento das ores de trs variedades da Heliconia
H.bihai
47,12 46,75 46,81 47,12 46,67 47,43 46,44 46,64
48,07 48,34 48,15 50,26 50,12 46,34 46,94 48,36
H.caribaea vermelha
41,90 42,01 41,93 43,09 41,47 41,69 39,78 40,57
39,63 42,18 40,66 37,87 39,16 37,40 38,20 38,07
38,10 37,97 38,79 38,23 38,87 37,78 38,01
H.caribaea amarela
36,78 37,02 36,52 36,11 36,03 35,45 38,13 37,10
35,17 36,82 36,66 35,68 36,03 34,57 34,63
Figura 2.10 Comprimentos de ores tropicais
2.7.1 Mdia aritmtica simples
Quando agrupamos os dados em uma distribuio de frequncias, estamos perdendo infor-
mao, uma vez que no apresentamos os valores individuais. Informar apenas que h 87
valores na classe 2800 | 4800 nos obriga a escolher um valor tpico, representante de tal
classe. Esse valor ser sempre o ponto mdio da classe.
Departamento de Estatstica 57
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Tabela 2.3 Distribuio de frequncia dos salrios de 500 funcionrios
Salrio Frequncia Simples Frequncia Acumulada
(reais) Absoluta Relativa % Absoluta Relativa %
2800 | 4800 87 17, 4 87 17, 4
4800 | 6800 203 40, 6 290 58, 0
6800 | 8800 170 34, 0 460 92, 0
8800 | 10800 30 6, 0 490 98, 0
10800 | 12800 10 2, 0 500 100, 0
DEFINIO Ponto mdio
Numa distribuio de frequncias agrupadas, o ponto mdio de cada classe
escolhido como o valor representativo de todas as observaes agrupa-
das na classe.
O ponto mdio o ponto do meio do intervalo de classe. Se a classe tiver
limites inferior e superior representados por | e respectivamente, ento
o ponto mdio ser calculado como
=
| +
2
(2.32)
Com essa conveno, o fato de haver 87 observaes na primeira classe interpretado
como a existncia de 87 valores iguais a 3800, que o ponto mdio dessa classe. Esta
a interpretao bsica da tabela de frequncias: todos os valores de uma classe so
considerados iguais ao ponto mdio da classe. Na Tabela 2.4, acrescentamos uma coluna
para informar o ponto mdio de cada classe.
Tabela 2.4 Distribuio de frequncia dos salrios de 500 funcionrios
Salrio Ponto Frequncia Simples Frequncia Acumulada
(reais) mdio Absoluta Relativa % Absoluta Relativa %
2800 | 4800 3800 87 17, 4 87 17, 4
4800 | 6800 5800 203 40, 6 290 58, 0
6800 | 8800 7800 170 34, 0 460 92, 0
8800 | 10800 9800 30 6, 0 490 98, 0
10800 | 12800 11800 10 2, 0 500 100, 0
A interpretao da tabela de frequncias nos diz que h 87 observaes iguais a 3800,
203 observaes iguais a 5800, e assim por diante. Ento, esses dados podem ser vistos
como o seguinte conjunto de observaes:
Departamento de Estatstica 58
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
3800
.
.
.
3800
_

_
87 ocorrncias do 3800
5800
.
.
.
5800
_

_
203 ocorrncias do 5800
7800
.
.
.
7800
_

_
170 ocorrncias do 7800
9800
.
.
.
9800
_

_
30 ocorrncias do 9800
11800
.
.
.
11800
_

_
10 ocorrncias do 11800
Para calcular a mdia desse novo conjunto de dados, temos de fazer:
=
87 3800 + 203 5800 + 170 7800 + 30 9800 + 10 11800
500
=
87
500
3800 +
203
500
5800 +
170
500
7800 +
30
500
9800 +
10
500
11800
= 0, 174 3800 + 0, 406 5800 + 0, 340 7800 + 0, 06 9800 + 0, 02 11800
= 6492
Note, na penltima linha da equao anterior, que os pontos mdios de cada classe so
multiplicados pela frequncia relativa da mesma. Dessa forma, a mdia dos dados agrupados
Departamento de Estatstica 59
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
uma mdia ponderada dos pontos mdios, onde os pesos so denidos pelas frequncias
das classes.
Representando o ponto mdio da classe por
|
e a frequncia relativa (no multiplicada
por 100) por
|
, temos que
=
|

|=1

|
(2.33)
Os pesos (frequncias) aparecem exatamente para compensar o fato de as classes pos-
suirem nmeros diferentes de observaes.
2.7.2 Varincia
No clculo da mdia para distribuies de frequncias agrupadas, vimos que todos os valores
que caem em uma determinada classe so representados pelo ponto mdio da mesma. Isso
transforma nosso conjunto de dados original, em geral desconhecido, em um conjunto de
blocos de valores iguais aos pontos mdios, onde o nmero de elementos de cada bloco
a frequncia da classe correspondente. Com isso, todas as medidas de posio e disperso
calculadas como alguma mdia passam a ser calculadas como mdias ponderadas baseadas
nos pontos mdios e pesos iguais frequncia da classe.
Vamos considerar, novamente, a distribuio de frequncias dada na Tabela 2.4, refe-
rente aos salrios de 500 funcionrios.
Vimos que a varincia a mdia dos desvios quadrticos em torno da mdia, que foi
calculada anteriormente como 6492. Os desvios quadrticos, agora, so desvios dos pontos
mdios das classes em torno de 6492 e a mdia dos desvios quadrticos , agora, uma mdia
ponderada pelas frequncias das classes. Assim,

2
= 0, 174 (3800 6492)
2
+ 0, 406 (5800 6492)
2
+ 0, 340 (7800 6492)
2
+ 0, 060 (9800 6492)
2
+ 0, 010 (11800 6492)
2
= 3257136
A expresso alternativa da varincia resultava no clculo da varincia como mdia dos
quadrados menos o quadrado da mdia. Novamente, a mdia dos quadrados uma mdia
ponderada dos pontos mdios, ou seja,

2
= (0, 174 3800
2
+ 0, 406 5800
2
+ 0, 340 7800
2
+ 0, 060 9800
2
+ 0, 010 11800
2
) 6492
2
= 3257136
Departamento de Estatstica 60
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Para generalizar os clculos, vamos estabelecer a notao indicada na tabela a seguir.
Tabela 2.5 Mdia e Varincia de Dados Agrupados
Classe Ponto Frequncia Simples Frequncia Acumulada
mdio Absoluta Relativa Absoluta Relativa
1
1
a
1

1
^
1

1
2
2
a
2

2
^
2

2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
|
|
a
|

|
^
|

|
Com essa notao, temos as seguintes fmulas:
=
|

|=1

|
(2.34)

2
=
|

|=1

|
(
|
)
2
(2.35)

2
=
|

|=1

2
|

2
(2.36)
DAA =
|

|=1

|
[
|
[ (2.37)
2.7.3 Moda
Embora haja mtodos geomtricos para se calcular a moda de dados agrupados, tais mtodos
no so muito utilizados na prtica. Sendo assim, estimaremos a moda de uma distribuio de
frequncias agrupadas pelo ponto mdio da classe modal, que a classe de maior frequncia.
No exemplo anterior, 4800 | 6800 a classe modal, de modo que a moda estimada
como

= 5800.
2.7.4 Quartis
Estando os dados agrupados em classes, h um mtodo geomtrico que produz uma estima-
tiva dos quartis. As ideias subjacentes a esse mtodo so a prpria denio dos quartis e
o fato de que, no histograma da distribuio, as reas dos retngulos so proporcionais s
frequncias relativas.
Considere o histograma da Figura 2.11, referente aos salrios dos 500 funcionrios da
Tabela 2.3. Na primeira classe, temos 17, 4% das observaes e, nas duas primeiras classes,
Departamento de Estatstica 61
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
temos 58, 0%. Logo, a mediana algum ponto da classe mediana 4800 | 6800 e, abaixo desse
ponto, devemos ter 50% da distribuio, ou seja, a soma da rea do primeiro retngulo com
a rea do retngulo sombreado representa 50% da frequncia total.
Figura 2.11 Clculo da mediana da distribuio dos salrios
Ento, para identicar a mediana, devemos notar que, na classe mediana, faltam 32, 6% =
50% 17, 4% da distribuio para completar 50%. Ento, a rea A
1
do retngulo sombreado
deve ser igual a 32, 6%, enquanto o retngulo da classe mediana tem rea A
n
= 40, 6%. Note
que o retngulo sombreado e o retngulo da classe mediana tm a mesma altura. Usando a
frmula da rea de um retngulo, obtm-se:
A
1
= 32, 6 = (
2
4800) |
A
n
= 40, 6 = (6800 4800) |
em que | a altura comum dos dois retngulos. Dividindo as duas igualdades, termo a
termo, obtm-se a seguinte regra de proporcionalidade:
32, 6
40, 6
=

2
4800
6800 4800

2
= 4800 + 2000
32, 6
40, 6

2
= 6405, 91
Seguindo o mesmo raciocnio, vemos que o primeiro quartil tambm est na segunda
classe 4800 | 6800. Como na primeira classe a frequncia 17,4%, faltam 7, 6% = 25%17, 4%
para completar os 25%. A regra de trs que fornece o primeiro quartil
7, 6
40, 6
=

1
4800
6800 4800

1
= 4800 + 2000
7, 6
40, 6

1
= 5174, 38
O terceiro quartil est na terceira classe 6800 | 8800. Como nas duas primeiras classes
a frequncia acumulada de 17, 4% +40, 6% = 58%, faltam 17% = 75% 58% para completar
os 75%. A regra de trs que fornece o terceiro quartil
17
34
=

3
6800
8800 6800

3
= 6800 + 2000
17
34

3
= 7800
Departamento de Estatstica 62
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
EXEMPLO 2.14 Medidas de posio e disperso de dados agrupados
Vamos calcular a mdia, a moda, a mediana, o desvio-padro e o desvio mdio absoluto da
seguinte distribuio:
Classes Frequncia Simples Frequncia Acumulada
Absoluta Relativa % Absoluta Relativa %
0 | 5 5 6, 25 5 6, 25
5 | 10 21 26, 25 20 32, 50
10 | 15 28 35, 00 42 67, 50
15 | 20 18 22, 50 60 90, 00
20 | 25 8 10, 00 80 100, 00
Os pontos mdios das classes so
0 + 5
2
= 2, 5
5 + 10
2
= 7, 5
20 + 25
2
= 22, 5
e a mdia calculada como
= 0, 0625 2, 5 + 0, 2625 7, 5 + 0, 3500 12, 5 + 0, 2250 17, 5 +
+0, 10 22, 5 = 12, 6875
Note que prefervel trabalhar com as frequncias relativas em forma decimal, pois,
se trabalhssemos com as frequncias relativas em forma percentual, teramos de dividir o
resultado por 100. Lembre-se de que a mdia tem de estar entre o valor mnimo 0 e o valor
mximo 25.
De maneira anloga, calculamos a varincia pela frmula simplicada da seguinte
forma:

2
= 0, 0625 2, 5
2
+ 0, 2625 7, 5
2
+ 0, 3500 12, 5
2
+ 0, 2250 17, 5
2
+
+0, 10 22, 5
2
12, 6875
2
= 28, 40234375
e, portanto, o desvio-padro =

28, 40234375 = 5, 329384932.


O desvio mdio absoluto calculado como
DAA = 0, 0625 [2, 5 12, 6875[ + 0, 2625 [7, 5 12, 6875[ + 0, 3500 [12, 5 12, 6875[
+0, 2250 [17, 5 12, 6875[ + 0, 10 [22, 5 12, 6875[ = 4, 959375
A classe modal 10 | 15 e, portanto, a moda

= 12, 5.
Da coluna de frequncias relativas acumuladas, vemos que a mediana est na terceira
classe, ou seja, 10 | 15 a classe mediana. Nas duas primeiras classes, temos 32,50% dos
dados, e faltam 17, 50% para completar 50% (veja a 2.12).
Departamento de Estatstica 63
CAPTULO 2. DESCRIO DE DADOS: RESUMOS NUMRICOS
Figura 2.12 Clculo da mediana da distribuio do Exemplo 2.14
A regra de trs resultante

2
10
17, 5
=
15 10
35, 0

2
= 12, 5
O primeiro quartil est na segunda classe 5 | 10. Como, na primeira classe, temos
6, 25%, faltam 25% 6, 25% = 18, 75% para completar 25%. A regra de trs que dene o
primeiro quartil

1
5
10 5
=
18, 75
26, 25

1
= 5 + 5
18, 75
26, 25
= 8, 57
O terceiro quartil est na quarta classe 15 | 20. Como, nas trs primeiras classes,
temos 67, 50%, faltam 75%67, 5% = 7, 5% para completar 75%. A regra de trs que dene o
terceiro quartil

3
15
20 15
=
7, 5
22, 5

3
= 15 + 5
7, 5
22, 5
= 16, 67

Departamento de Estatstica 64
Captulo 3
Correlao
At aqui, vimos como organizar e resumir informaes referentes a uma nica varivel. No
entanto, bastante frequente nos depararmos com situaes em que h interesse em se
estudar, conjuntamente, duas ou mais variveis. Num estudo sobre mortalidade infantil,
por exemplo, importante acompanhar, tambm, o tratamento pr-natal da me; espera-se,
neste caso, que haja uma diminuio da taxa de mortalidade infantil com o aumento dos
cuidados durante a gravidez. Da mesma forma, espera-se uma relao, ou associao, entre
peso e altura de uma pessoa. Neste captulo, estudaremos relaes entre duas variveis
quantitativas. Assim, para cada elemento da populao, medem-se as variveis de interesse,
que levam a pares de observaes (
1
,
1
), (
2
,
2
), , (
a
,
a
).
3.1 Diagramas de disperso
Quando as variveis envolvidas em uma anlise bidimensional so do tipo quantitativo (sa-
lrio, idade, altura etc.), um instrumento de anlise bastante til o diagrama de disperso.
DEFINIO Diagrama de disperso
O diagrama de disperso um grco bidmensional, em que os valores
das variveis envolvidas so representados como pares ordenados no plano
cartesiano. Essas variveis so variveis quantitativas, medidas sobre os
mesmos indivduos.
Nas Tabelas 3.1 a 3.3, apresentamos trs conjuntos de dados, cujos diagramas de dis-
perso se encontram nas Figuras 3.1 a 3.3. Nesses grcos, as linhas pontilhadas se cruzam
CAPTULO 3. CORRELAO
no ponto central do conjunto, isto , no ponto (, ).
Dia Variao percentual
Bovespa BVRJ
1 4,9935 6,9773
2 5,5899 6,1085
3 3,8520 2,4847
4 0,9984 -0,1044
7 2,4872 2,4942
8 0,0142 0,1239
9 -1,7535 -0,4221
11 8,1764 9,5148
14 0,6956 -1,7350
15 1,6164 2,2749
16 7,5829 15,4173
17 -4,6706 -6,2360
18 0,6629 2,6259
21 1,1651 0,8728
22 3,2213 4,8243
23 -2,7226 -4,7266
24 1,2508 -0,4985
25 7,1845 6,6798
28 2,5674 1,2299
29 -1,3235 -3,0375
30 1,6685 1,2303
Tabela 3.1 Bolsas
Figura 3.1 Bolsas de Valores
Departamento de Estatstica 66
CAPTULO 3. CORRELAO
Latitude Temperatura (
c
F)
34 56,4
32 51,0
39 36,7
39 37,8
41 36,7
45 18,2
41 30,1
33 55,9
34 46,6
47 13,3
44 34,0
39 36,3
41 34,0
32 49,1
40 34,5
Fonte: Dunn e Clark (1974) p. 250
Tabela 3.2 Latitude e tempera-
tura
Figura 3.2 Latitude e temperatura
Departamento de Estatstica 67
CAPTULO 3. CORRELAO
Idade Linha da Idade Linha da
(anos) vida(cm) (anos) vida(cm)
19 9,75 65 8,85
74 8,85 40 9,00
65 9,75 74 9,60
42 9,60 66 8,85
75 6,45 42 9,75
66 9,15 75 9,76
47 11,25 66 10,20
75 10,20 49 9,45
67 9,15 76 6,00
50 11,25 68 7,95
77 8,85 54 9,00
68 8,85 80 9,00
56 7,95 68 9,00
82 9,75 56 12,00
69 7,80 82 10,65
57 8,10 69 10,05
82 13,20 57 10,20
70 10,50 83 7,95
58 8,55 71 9,15
86 7,95 61 7,20
71 9,45 88 9,15
62 7,95 71 9,45
88 9,75 62 8,85
72 9,45 94 9,00
65 8,25 73 8,10
Tabela 3.3 Linha da vida
Figura 3.3 Linha da vida e idade ao morrer
3.2 Covarincia e correlao
Ao analisar os grcos anteriores, voc poder notar que as relaes entre as variveis
envolvidas mudam; na Figura 3.1, existe uma tendncia crescente entre as variveis, isto
, quando o ndice da Bovespa aumenta, o ndice da BVRJ tambm tende a aumentar. Na
Figura 3.2, essa relao se inverte, ou seja, aumentando a latitude, a temperatura tende a
diminuir. J na Figura 3.3, no possvel estabelecer nenhuma relao entre as variveis,
contrariando a superstio de que linhas da vida longas indicam maior longevidade.
Departamento de Estatstica 68
CAPTULO 3. CORRELAO
3.2.1 Covarincia
Vamos estudar, agora, uma medida de associao entre variveis, que est relacionada ao
tipo mais simples de associao: a linear. Ento, tal medida ir representar o quanto a
nuvem de pontos em um diagrama de disperso se aproxima de uma reta.
Para diferenciar as trs situaes ilustradas nos grcos anteriores, uma primeira ob-
servao o fato de as trs nuvens de pontos estarem centradas em pontos diferentes,
representados pela interseo dos eixos em linha pontilhada; note que este o ponto (, ).
Para facilitar comparaes, interessante uniformizar a origem, colocando as trs nuvens
centradas na origem (0, 0). Lembrando as propriedades da mdia aritmtica, voc deve saber
que a transformao
|
resulta em um conjunto de dados com mdia zero. Ento, para
quanticar as diferenas entre os grcos anteriores, a primeira coisa a fazer centralizar
a nuvem. Assim, em vez de trabalharmos com os dados originais (
|
,
|
), vamos trabalhar
com os dados transformados (
|
,
|
). Nas Figuras 3.4 a 3.6 esto representados os
diagramas de disperso para estas variveis transformadas, mantendo-se a mesma escala
anterior.
Figura 3.4 Bolsas de Valores dados cen-
trados na mdia)
Figura 3.5 Latitude e temperatura dados
centrados na mdia
Figura 3.6 Linha da vida e idade ao morrer
dados centrados na mdia
Analisando esses trs ltimos grcos, voc pode observar que, para o primeiro conjunto
de dados, onde a tendncia entre as variveis crescente, a maioria dos pontos est no
primeiro e terceiro quadrantes, enquanto no segundo grco, onde a relao decrescente,
a maioria dos pontos est no segundo e quarto quadrantes.
Departamento de Estatstica 69
CAPTULO 3. CORRELAO
O primeiro e terceiro quadrantes se caracterizam pelo fato de as abscissas e ordenadas
terem o mesmo sinal e, portanto, seu produto positivo; j no segundo e quarto quadrantes,
as abscissas e ordenadas tm sinais opostos e, portanto, seu produto negativo. Ento, para
diferenciar esses grcos, podemos usar uma medida baseada no produto das coordenadas

|
e
|
. Como no caso da varincia ou desvio mdio absoluto, para considerar todos
os pares possveis e descontar o nmero de observaes, vamos tomar o valor mdio desses
produtos.
DEFINIO Covarincia
A covarincia entre as variveis X e Y denida por
Cov(X, Y) =
1
a
a

|=1
(
|
)(
|
) (3.1)
onde
|
e
|
so os valores observados.
Na Figura 3.6, os pontos esto espalhados nos quatro quadrantes, assim, essa mdia
tende a ser prxima de zero.
De maneira anloga desenvolvida para a varincia, a frmula anterior no conve-
niente para fazer clculos em mquinas de calcular mais simples. Assim, vamos desenvolver
uma expresso alternativa. Note que:
a

|=1
(
|
)(
|
) =
a

|=1
(
|

|

|
+ ) =
=
a

|=1

|=1

|=1

|
+
a

|=1
=
=
a

|=1

|
a a +a =
=
a

|=1

|
a
Logo,
Cov(X, Y) =
1
a
_
a

|=1

|
a
_
=
1
a
a

|=1

|
(3.2)
Analisando a frmula (3.2) podemos ver que a covarincia a mdia dos produtos menos o
produto das mdias. Resulta tambm que a covarincia entre X e X a varincia de X, isto
: Cov(X, X) = Var(X).
Departamento de Estatstica 70
CAPTULO 3. CORRELAO
bastante importante salientar a interpretao da covarincia: ela mede o grau de
associao linear entre variveis. Considere os dados apresentados na Tabela 3.4, cujo
diagrama de disperso dado na Figura 3.7. Este diagrama exibe uma associao quadrtica
perfeita entre as variveis; no entanto, a covarincia entre elas nula. Note que = 0, assim
como
a

|=1

|
= 0.
X Y X Y
-3 9,00 0,2 0,04
-2,8 7,84 0,4 0,16
-2,6 6,76 0,6 0,36
-2,4 5,76 0,8 0,64
-2,2 4,84 1,0 1,00
-2,0 4,00 1,2 1,44
-1,8 3,24 1,4 1,96
-1,6 2,56 1,6 2,56
-1,4 1,96 1,8 3,24
-1,2 1,44 2,0 4,00
-1,0 1,00 2,2 4,84
-0,8 0,64 2,4 5,76
-0,6 0,36 2,6 6,76
-0,4 0,16 2,8 7,84
-0,2 0,04 3 9,00
0,0 0,00
Tabela 3.4 Covarincia nula
Figura 3.7 Associao quadrtica perfeita, covarincia nula
3.2.2 Coeciente de correlao
Um dos problemas da covarincia a sua dependncia da escala dos dados, o que faz com
que seus valores possam variar de a +. Observe que sua unidade de medida dada
pelo produto das unidades de medida das variveis X e Y envolvidas. Isso torna difcil a
comparao de situaes como as ilustradas nos grcos das Figuras 3.8 e 3.9. Esses dois
diagramas de disperso representam os dados sobre latitude e temperatura j analisados
anteriormente. Na Figura 3.8, as temperaturas esto medidas em graus Fahrenheit e na
Figura 3.9, em graus Celsius. Sendo assim, a informao que os dados nos trazem , basica-
mente, a mesma. Mas, para o primeiro conjunto, a covarincia 51, 816 e, para o segundo,
28, 7867.
Departamento de Estatstica 71
CAPTULO 3. CORRELAO
Figura 3.8 Latitude e temperatura (
c
F) Figura 3.9 Latitude e temperatura (
c
C)
Tal como vimos na denio dos escores padronizados, a maneira de se tirar o efeito
da escala dividir pelo desvio padro, ou seja, trabalhar com as variveis padronizadas
X
|
X

X
e
Y
|
Y

Y
. Nas Figuras 3.10 a 3.12, apresentam-se os diagramas de disperso para os dados
padronizados sobre as bolsas de valores, latitude e temperatura, linha da vida e idade ao
morrer.
Figura 3.10 Bolsas de Valores dados pa-
dronizados)
Figura 3.11 Latitude e temperatura da-
dos padronizados
Figura 3.12 Linha da vida e idade ao mor-
rer dados padronizados
A covarincia entre variveis padronizadas recebe o nome de coeciente de correlao.
Departamento de Estatstica 72
CAPTULO 3. CORRELAO
DEFINIO Coeciente de correlao
O coeciente de correlao entre as variveis X e Y denido como
Corr(X, Y) = (X, Y) =
1
a
a

|=1
_

__

_
=
Cov(X, Y)

(3.3)
Os dois conjuntos de dados das Figuras 3.8 e 3.9 tm, ambos, o mesmo coeciente de
correlao, igual a 0, 9229.
3.2.3 Propriedades da covarincia e do coeciente de correlao
Observe que o coeciente de correlao adimensional. Alm disso, ele tem uma propriedade
bastante interessante, que a seguinte:
1 (X, Y) 1 (3.4)
Assim, valores do coeciente de correlao prximos de 1 indicam uma forte associao linear
crescente entre as variveis, enquanto valores prximos de -1 indicam uma forte associao
linear decrescente. J valores prximos de zero indicam fraca associao linear (isso no
signica que no exista algum outro tipo de associao; veja o caso da Figura 3.7).
Vamos ver agora o que acontece com a covarincia e o coeciente de correlao, quando
somamos uma constante aos dados e/ou multiplicamos os dados por uma constante. Vamos
mostrar que
Cov(uX +|, tY +u) = ut Cov(X, Y) (3.5)
e
Corr(uX +|, tY +u) =
ut
[ut[
Corr(X, Y) (3.6)
De fato: fazendo U = uX +| e V = tY +u, sabemos que U = uX +| e V = tY +u e

U
= [u[
X
e
V
= [t[
Y
. Logo,
Departamento de Estatstica 73
CAPTULO 3. CORRELAO
Cov(uX +|, tY +u) = Cov(U, V) =
1
a
a

|=1
(u
|
u)(u
|
u) =
=
1
a
a

|=1
(u
|
+| u |)(t
|
+u t u) =
=
1
a
a

|=1
(u
|
u)(t
|
t) =
=
ut
a
a

|=1
(
|
)(
|
) =
= ut Cov(X, Y).
Para o coeciente de correlao, temos que
Corr(uX +|, tY +u) = Corr(U, V) =
Ccv(U, V)

v
=
=
ut Cov(X, Y)
[t[

. [u[

=
ut
[ut[
Corr(X, Y).
Logo,
Corr(uX +|, tY +u) =
_
Corr(X, Y) se ut . 0
Corr(X, Y) se ut < 0
.
EXEMPLO 3.1 Barcos registrados e mortes de peixes-bois
A Tabela 3.5 contm dados sobre o nmero de barcos registrados na Flrida (em milhares)
e o nmero de peixes-bois mortos por barcos, entre os anos de 1977 e 1996. Construa
o diagrama de disperso para esses dados e calcule o coeciente de correlao entre as
variveis.
Soluo
Na Figura 3.13, temos o diagrama de disperso, onde se v que, medida que aumenta
o nmero de barcos registrados, h um aumento do nmero de mortes de peixes-bois na
Flrida. A associao entre as variveis tem um forte padro linear crescente.
Departamento de Estatstica 74
CAPTULO 3. CORRELAO
Tabela 3.5 Barcos registrados e mortes de peixes-bois na Flrida
Ano Barcos (X) Mortes (Y) Ano Barcos (X) Mortes (Y)
1977 447 13 1987 645 39
1978 460 21 1988 675 43
1979 481 24 1989 711 50
1980 498 16 1990 719 47
1981 513 24 1991 681 53
1982 512 20 1992 679 38
1983 526 15 1993 678 35
1984 559 34 1994 696 49
1985 585 33 1995 713 42
1986 614 33 1996 732 60
Fonte: Moore, D. S. A Estatstica Bsica e Sua Prtica
5a. edio, LTC Editora: 2011, Exemplo 4.5
Figura 3.13 Barcos registrados e mortes de peixes-bois na Flrida
Departamento de Estatstica 75
CAPTULO 3. CORRELAO
Na tabela a seguir, temos os detalhes dos clculos a serem feitos, no caso de se estar
utilizando uma calculadora mais simples.
X Y X
2
Y
2
XY
447 13 199809 169 5811
460 21 211600 441 9660
481 24 231361 576 11544
498 16 248004 256 7968
513 24 263169 576 12312
512 20 262144 400 10240
526 15 276676 225 7890
559 34 312481 1156 19006
585 33 342225 1089 19305
614 33 376996 1089 20262
645 39 416025 1521 25155
675 43 455625 1849 29025
711 50 505521 2500 35550
719 47 516961 2209 33793
681 53 463761 2809 36093
679 38 461041 1444 25802
678 35 459684 1225 23730
696 49 484416 2401 34104
713 42 508369 1764 29946
732 60 535824 3600 43920
Soma 12124 689 7531692 27299 441116
A covarincia de X e Y a mdia dos produtos menos o produto das mdias, ou seja:
Cov(, ) =
441116
20

12124
20

689
20
= 1172, 21
A varincia de cada varivel a mdia dos quadrados menos o quadrado da mdia,
ou seja:
Var(X) =
7531692
20

_
12124
20
_
2
= 9106, 16
Var(Y) =
27299
20

_
689
20
_
2
= 178, 1475
O coeciente de correlao : Corr(X, Y) =
1172, 21

9106, 16 178, 1475


= 0, 920339
Esta alta correlao positiva conrma a forte relao linear crescente entre as variveis,
j vislumbrada no diagrama de disperso.

Departamento de Estatstica 76

Вам также может понравиться