Вы находитесь на странице: 1из 117

LLLLL

erna

Amaro, Ana; Silvestre, Cludia e Fernandes, Leonor


Estatstica Descritiva - O segredo dos dados, 1a edio
114 p.
2009
ISBN 978-1-4452-6376-2
www.lulu.com/content/paperback-book/estat%c3%adstica-descritiva-o-segredo-dos-dados/7679943

ESTATSTICA DESCRITIVA - O segredo dos dados

ndice
Sobre o livro e as autoras

Captulo I
Enquadramento, descrio do problema, apresentao dos dados

1.
2.

7
8

Introduo
Os Casos de estudo

Captulo II
Anlise grfica

11

1.
2.
3.
4.

15
15
16
18
18
18
20
21
23
25
27
27
28
29
29
30

Objectivo
Introduo
A natureza dos dados
Representao grfica da distribuio de dados
4.1
Os Dados Qualitativos
4.1.1 Nominais
4.1.2 Ordinais
4.2
Os Dados Quantitativos
4.2.1 Discretos
4.2.2
Contnuos
5. A evoluo dos valores de uma varivel
5.1
Quantitativa
5.2
Qualitativa
6. Sntese
6.1
Estatstica
6.2
Tcnica

Captulo III
Anlise numrica

31

1.
2.
3.
4.

35
35
36
39
39
43
47
47
50
54
58
59
59
61
61

Objectivo
Introduo
A organizao dos dados
Tabelas de frequncias
4.1
Dados quantitativos
4.2
Dados qualitativos
5.
Medidas de tendncia central
5.1
O valor mdio
5.2
Mediana
5.3
A Moda
5.4
Relao entre os trs indicadores de tendncia central
6.
Medidas de localizao (quantis)
6.1
Quartis
6.2
Decis
6.3
Percentis

Ana Amaro, Cludia Silvestre, Leonor Fernandes |

7.

Medidas de disperso
Amplitude
Distncia inter-quartis
Desvio mdio
Varincia e desvio padro
Coeficiente de variao
8.
Medidas de forma
8.1
Simetria
8.2
Achatamento
9.
Sntese
9.1
Estatstica
9.2
Tcnica
7.1
7.2
7.3
7.4
7.5

62
62
64
64
66
68
68
68
73
74
74
75

Captulo IV
A distribuio Normal
1.
2.
3.
4.
5.
6.

77

Objectivo
80
Introduo
80
Caractersticas da funo densidade de uma varivel aleatria com distribuio Normal 82
O Teorema do Limite Central (TLC)
86
Exemplificao da importncia do Teorema do Limite Central
88
Testes de Normalidade
91
6.1
O teste Quiquadrado
94
6.2
O teste de Wilk-Shapiro
96

Captulo V
Concluses e definio de necessidades analticas adicionais

99

1.
2.

101
101

Sntese
Necessidade adicionais

Referncias bibliogrficas

105

ANEXO

107

Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados

Sobre o livro e as autoras


Estatstica Descritiva - o segredo dos dados nasce de um desafio:
ensinamos Estatstica e Anlise de Dados h uns anos e diferente, sempre
diferente. Da experincia partilhada de ensino decidimos escrever um ensaio
/ livro sobre como fazer Estatstica e a Anlise de Dados.
Ana Amaro
(...) Ensino Estatstica, actualmente, no Instituto Superior de Gesto
em Lisboa ( Licenciatura em Gesto), tendo ensinado na Faculdade de
Cincias e Tecnologia (Engenharia do Ambiente) e como Consultora no
IDeiGest. Actualmente colaboro com a Universidade Lusfona (Economia e
Gesto)
e
o
ISLA
(Mestrados)
em
disciplinas
de
Estatstica
Multivariada, Econometria e Mtodos Matemticos de Previso.
A Estatstica que ensino foi a que aprendi durante 4 anos como
responsvel pelo sector de Estatstica e Investigao Operacional do
Centro de Investigao Florestal da Soporcel (CIF). No CIF trabalhei
com grande motivao num projecto pluridisciplinar que me empurrou
para um projecto de doutoramento subsequente e financiado pela FCT que
conclui em 1997. 0 exemplo de professores de escolas americanas como o
David Reed (Forest Resources and Environmental Sciences, Michigan Tech
University) e o Peter Bryant
(Management Science and Information
Systems, University of Colorado at Denver and Health Sciences Center),
com quem tive o privilgio de trabalhar, determinaram a minha postura
no ensino e aprendizagem da Estatstica. Desde ento o meu desafio tem
sido, todos os anos, aprender a ensinar Estatstica.
Tenho ensinado alunos com poucas bases, alunos com cabeas brilhantes,
alunos medianos, alunos de Mestrado provenientes de diferentes reas
da cincia, colegas professores... sozinha e em colaborao com outros
colegas, sempre em ar de desafio (...)

Cludia Silvestre
(...) Ensino Anlise de Dados e investigo na rea de Anlise
Agrupamento na Escola Superior de Comunicao Social em Lisboa.

de

Licenciei-me em Probabilidades e Estatstica na Faculdade de Cincias


da Universidade de Lisboa em 1997 e obtive o grau de mestre em
Probabilidades e Estatstica na mesma instituio em 2001, defendendo
a dissertao intitulada "Uma Aproximao Bayesiana para Projeces da
Epidemia da SIDA pelo Mtodo de Back-Calculation". Estagiei na
Cateringpor
desempenhando
funes
de
Controlo
Estatstico
de
Qualidade.
Desde ento tenho ensinado matemtica aplicada na Universidade da
Beira Interior; actualmente na Escola Superior de Comunicao Social
do Instituto Politcnico de Lisboa, contexto em que me propus doutorar
na rea de Mtodos Quantitativos no Instituto Superior de Cincias do
Trabalho e da Empresa.
O objectivo do projecto de investigao em Anlise de Agrupamento o
desenvolvimento de mtodos de seleco de grupos e de seleco de
variveis base para agrupamento. As suas reas de interesse so
Segmentao e Anlise de Contedos onde tm sido aplicados os novos
mtodos desenvolvidos. (...)

Ana Amaro, Cludia Silvestre, Leonor Fernandes |

Leonor Fernandes
(...) Ensino Matemtica e Estatistica no Instituto Superior de Gesto e
no IADE. Sou tambm analista de negcios na Euroatlantic Airways ,SA.
Licenciei me em economia no ISEG, em 1990, e paralelamente
actividade de economista fui desenvolvendo a minha carreira de docente
na rea de Estatistica e lgebra Linear. Surge em 2000 o mestrado em
Estatistica e Gesto de Informao no ISEGI da Universidade Nova de
Lisboa na rea de sondagens com uma tese intitulada: Avaliao do
custo da energia no fornecida: um plano de sondagens complexo.
A anlise de dados e o processamento de informao faz parte da minha
vida profissional de vrias formas na vertente empresarial, na
docncia e enquanto estudante.
Sou
doutoranda
no
Instituto
Superior
Tcnico,
doutoramento
de
Estatistica e Processos Estocsticos e penso desenvolver um trabalho
na rea de modelos de gesto de processos de manuteno.
Descobrir o que os nmeros pretendem transmitir e utilizar essa
informao no processo de deciso uma novidade todos os dias. (...)

Em 2006, a Ana e a Cludia trabalharam, em conjunto, num projecto muito


interessante: dados provenientes de um Observatrio de Publicidade foram
dissecados utilizando anlise estatstica multivariada. Um dos resultados
deste projecto conjunto foi a necessidade de comear a traduzir por escrito a
nossa postura perante o ensino e a aprendizagem de Anlise de Dados. A
Leonor que assistiu ao processo de perto, naturalmente, aderiu ao projecto.
Os
dados
que
suportam
este
livro
esto
disponveis
em
https://sites.google.com/site/anaairesamaro/Home/analise-descritiva-dedados e sero descritos mais frente.
Em Junho de 2009 decidimos divulgar este "nosso" livro e faz-lo chegar a
quem achar interessante partilhar a nossa experincia de ensino e de
aprendizagem da Estatstica.
Ana, Cludia e Leonor
Julho 2009

Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Captulo I
Enquadramento, descrio do problema, apresentao dos dados

Make it as simple as possibie but not simpler


Albert Einstein (1879-1955)

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

1. Introduo
Transformar a informao contida num inqurito em informao til ou legvel
um processo complexo que exige experincia e habilidade. Ronald Coase
(1910-), Prmio Nobel da Economia 1991, usou a expresso torturar os dados if you torture the data enough, it will confess -, mostrando assim que uma
tarefa rdua e que a sua activao promover resultados que ilustraro a
realidade escondida por trs dos dados. No devemos ficar por uma anlise
superficial, antes cruzar informao, procurar incongruncias, e caso as
identifiquemos, perceber a sua origem e elimin-las da anlise, de modo
sustentado.
Antes de iniciar a anlise dos dados resultantes de um inqurito ou de um
conjunto de dados que, de algum modo caracterizam uma realidade, existem
algumas questes que devem ser acauteladas.
Ter algum conhecimento sobre o contexto fundamental para o tratamento
eficiente da informao. No entanto, devemos ser cuidadosos para que esse
conhecimento prvio, ou que vamos adquirir ou adquirindo, no limite a nossa
anlise. Se por um lado, esse conhecimento nos ajuda a compreender melhor
a informao que se pode retirar da anlise dos dados, definindo assim
directrizes de investigao, por outro lado no nos deve impossibilitar a
identificao de novas linhas de investigao. O princpio de deixar os dados
falar deve ser seguido.
Depois de recolher informao sobre o assunto em anlise e enunciar, de
forma muito clara, o objectivo que norteou o seu delineamento e
implementao ou aquisio, fundamental conhecer o contexto em que foi
recolhida a informao: como foi coligida a informao? em que
circunstncias? A primeira questo pertinente pois condiciona as concluses
resultantes da anlise dos dados: se a recolha dos dados inadequada, no
representar a realidade, sendo a generalizao das concluses abusiva. Saber
qual o objectivo da realizao de um inqurito, ou porque foram recolhidos
aqueles dados, essencial para a definio dos objectivos da anlise a
efectuar. Estes objectivos devem ser claramente definidos, pois constituem a
espinha dorsal do relatrio final.
Resumindo, podemos identificar trs passos preliminares anlise dos dados:

obter o mximo de informao sobre o assunto envolvente / contexto

saber como e quando foi a informao recolhida

delinear os objectivos da anlise

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

2. Os Casos de estudo
A publicidade tem um papel preponderante no mercado, que cada vez mais
competitivo. Ela contribui para que as empresas conquistem o seu espao no
mercado, marcando a diferena e aumentado o nvel de notoriedade. Para os
consumidores, a publicidade aumenta o conhecimento sobre os produtos e
ajuda a distingui-los.
(...) Com o objectivo de lanar projectos de investigao de carcter
permanente, foi criado, em 2001, o Observatrio da Publicidade, resultando
de um protocolo entre o Instituto do Consumidor e a Escola Superior de
Comunicao Social. O Observatrio funciona como um Centro de Investigao
e tem como principais objectivos: estudar a publicidade nacional de modo a
identificar as tendncias discursivas; acompanhar a adaptao das
comunicaes comerciais aos novos meios tecnolgicos e identificar se as
regras do sector esto a ser aplicadas, de forma a assegurar o conhecimento,
em especial das empresas, das alteraes e correces de procedimento que
garantam a sua competitividade. Deste trabalho de investigao resultaram
j vrios estudos, cujos resultados so apresentados regularmente em
conferncias e seminrios. (...)
(http://www.escs.ipl.pt/index.php?conteudo=investiqa&id=220

[2007-05-21]).

No mbito do Observatrio da Publicidade foi lanado um projecto com o


objectivo de analisar a publicidade realizada para veculos automveis
(excluindo a que relativa a stands e a concessionrios), especificamente
para descodificar a mensagem publicitria dos anncios a analisar. Foi dada
especial ateno informao sobre os consumos e emisso de CO2.
O sector automvel tem vindo aumentar a informao que disponibiliza aos
consumidores, o que altera os comportamentos de compra. Consumidores
mais esclarecidos tornam-se mais exigentes e menos dependentes dos
concessionrios. Existe tambm uma tendncia para os consumidores serem
fiis marca. Para manter e aumentar esta tendncia, a transparncia da
informao e a confiana devem estar patentes na informao
disponibilizada, em particular na publicidade.
Os comportamentos de compra tambm diferem funo do escalo etrio do
consumidor. Segundo a sexta edio do estudo anual da Capgemini, Cars
Online 05/06 (2005), existem diferenas significativas entre os consumidores
mais jovens e os idosos:

Os jovens procuram informao na Internet, so exigentes e instveis.

Os consumidores mais idosos, raramente usam a Internet como fonte de


informao, so mais leais marca e ao concessionrio.
8

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Ao fazer esta breve considerao sobre o assunto a analisar, surgem algumas


questes que gostaramos de ver respondidas no relatrio final.

Haver diferenas entre os anncios das vrias marcas?

Quais as marcas que tm anncios mais semelhantes entre si?

Que informao transmitida na mensagem publicitria?

possvel diferenciar anncios destinados a jovens e a idosos? Em caso


afirmativo, o que os diferencia?

Os dados a analisar foram recolhidos pelo Observatrio de Publicidade, de um


inqurito efectuado durante o primeiro trimestre de 2006 atravs dos
seguintes suportes publicitrios: televiso, rdio, internet, outdoor e
imprensa.
Todas as perguntas so de resposta fechada, ou seja, a resposta escolhida
de entre um conjunto de respostas pr-definidas. Os dados so de natureza
qualitativa nominal.
O inqurito (ver Anexo), da responsabilidade do Observatrio da Publicidade,
pode ser dividido em seis partes:
1. Identificao da publicidade: quando foi recolhida a informao,
qual o meio de suporte e qual o produto;
2. Informao sobre a poluio, ou seja, se feita ou no referncia
ao consumo e emisso de CO2;
3. Caracterizao do anncio, onde se d especial ateno
caracterizao das personagens (caso existam), ao cenrio e s
cores dominantes;
4. Identificao do tipo de discurso usado e a existncia de informao
sobre o produto;
5. Estilos de vida e valores veiculados pelos anncios;
6. Se o suporte publicitrio usado foi a internet existem mais duas
questes especficas deste suporte.
Os dados referem-se a 248 anncios (projecto AOP) e esto armazenados no
ficheiro AOP.xis disponvel em
https://sites. g o o q l e . c o m / s i t e / a n a a i r e s a m a r o / H o m e / a n a l i s e - d e s c r i t i v a - d e - d a d o s .

Para complementar a informao recolhida sobre automveis e atendendo


preocupao do Observatrio da Publicidade sobre os consumos e emisses de
C0 2 utilizou-se, ainda, a informao coligida pela Vehicle Certification
Agency (projecto VCA), on New Car Fuel Consumption and Exhaust Emissions
Figures (http://www.vcacarfueldata.org.uk/index.asp) reportada a 1 de Maio de
2007, guardada no ficheiro VCA.xls, igualmente disponvel em
https://sites.gooqle.com/site/anaairesamaro/Home/analise-descritiva-de-dados.

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

10

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Captulo II
Anlise grfica

Observe Everything. Communicate Well. Draw, Draw, Draw.


Frank Thomas (1912-2004)

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

12

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

As mais antigas representaes grficas foram identificadas no


Paleoltico Superior, entre 40000 e 10000 anos A.C. (Fig. II-l) .
Acredita-se
que
estas
representaes
reproduzem
pormenores
relativos ao quotidiano, aos astros, ao tempo. Primeiro foram
gravadas na pedra e mais tarde em cermica. Alm do processo
natural de compor riscos ou traos com as mos, o objectivo era
o de reproduzir
fenmenos para os registar ou para poder
transmitir a informao.
O papiro foi utilizado pelos egpcios como suporte do desenho do
plano das pirmides, a par da madeira e da argila. O Teorema de
Pitgoras foi desenhado para ser explicado (Fig. II-2). Como
meio de transmisso de informao ou, de forma mais elaborada,
de
suporte

deciso,
as
representaes
grficas
so
desenvolvidas como meios fceis e simples de explicar.

FIG.

II-l

(a) Representao de um cavalo (Penascosa, V. N. de


Foz Ca) (b) Estilo II (Gravetense/Solutrense)
segundo A. Leroi-Gourhan
(http://www.uc.pt/fozcoa/qravuras.html [2007-06-13])

FIG.

II-2

Representao grfica do teorema


de Pitgoras (http://pitaqorasupt.tripod.com/ [2007-06-13])

Os grficos, tal como os designamos hoje, surgem no final do


sc. XVIII, tornando-se de uso corrente no princpio do sc.
XIX. H indcios de que apareceram em trs pontos diferentes,
porventura de modo independente:
Ana Amaro, Cludia Silvestre, Leonor Fernandes|Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

As invenes grficas de William Playfair (1759-1823), um


engenheiro e economista escocs que, com o intuito de
melhor
descrever
a
economia
britnica
(Fig.
II-3a),
investiu
em
tcnicas
grficas
inovadoras
para
melhor
explicar os conceitos que pretendia transmitir;
James Watt (1736 - 1818), engenheiro, tambm escocs e
responsvel pelo melhoramento da mquina a vapor, utilizou
diagramas (Fig. II-3b) para esquematizar o funcionamento
da mquina a vapor e as alteraes que, do seu ponto de
vista,
deveriam
ser
efectuadas
para
aumentar
a
sua
eficincia;
Johann Heinrich Lambert
(1728 - 1777), matemtico de
origem francesa que se radicou na Alemanha e que, entre
muitos
outros
feitos, demonstrou
que
um
nmero
irracional, tambm promoveu o desenvolvimento do grafismo
(Fig. II-3c e d).

Pressure

FIG.

II-3

Representaes esquemticas propostas por William Playfair (a) http: //dekstop. de/weblog/2006/01/visualization_of_numeric_clata/playfair_wheat. jpg,
James Watt (b) - http: //en. wikipedia.org/wiki/Image : Schematic .indicator diagram.png
e Joahann Heirich lambert (c) http://www.journalsuchicaqo.edu/Isis/iournal/demo/v000n000/000000/fq7.qif e (d)
http://www.uni-mannheim.de/fakul/psycho/irtel/colsys/Lambert.jpg [27-06-2007]

Assim, no final do sc. XVIII, havia descritos diferentes tipos


de grficos que poderiam ser utilizados por quem deles tivesse
necessidade.
Contudo,
somente a partir de 1830, quando a
14

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Estatstica se tornou mais meditica, que a utilizao


grficos para sistematizao - fcil percepo de quem tem
conhecer o contedo da informao - se comeou a generalizar.

de
de

A motivao do grfico foi e , sem dvida, tornar mais fcil o


processo de percepo. Foi este o argumento que gerou os
primeiros grficos e que promoveu
(e ainda promove) a sua
evoluo. H, portanto, algumas regras simples - decorrentes de
uma lei natural - que devem ser seguidas quando se pretende
transmitir
a
algum
o
contedo
de
uma
base
de
conhecimento/dados: a organizao, a simplicidade, a parcimnia,
a clareza e a autonomia.

1.

Objectivo

Atravs de mtodos grficos pretende-se caracterizar um conjunto de


variveis cujos dados foram recolhidos no decurso de dois projectos.
Relativamente ao projecto AOP caracterizam-se as seguintes variveis:
semana do ano em que o anncio foi observado, marca do automvel, meio de
publicidade utilizado, nmero de vezes que o anncio foi visualizado, grupo
etrio da personagem principal do anncio (se existente), forma de
transmisso de cada um dos 18 valores instrumentais transmitidos durante o
anncio.
Sobre o projecto VCA caracterizam-se as variveis concentrao das emisses
de monxido de carbono e de xidos de azoto.

2.

Introduo

Os 248 anncios foram caracterizados relativamente marca anunciada e ao


meio utilizado para anunciar (Fig. II-4).
Para caracterizar a distribuio das marcas utilizou-se um grfico de barras.
No primeiro caso (Fig. Il-4a) no se organizou a informao: torna-se difcil e
morosa a leitura das marcas mais representadas (ou menos representadas);
por outro lado assegurou-se a incluso da informao respeitante s
frequncias absolutas (nmero de observaes) e relativas (percentagens)
que, de algum modo redundante se conhecermos o nmero total de
anncios; incluiu-se ainda informao relativa a indicadores no pertinentes
(gerados automaticamente pelo software).
Para caracterizar a distribuio dos meios utilizou-se um grfico circular ou de
sectores. No primeiro caso (Fig. Il-4c) utilizou-se um conjunto de
possibilidades disponibilizadas pelo software (as trs dimenses e a separao
de uma fatia) fundamentado na motivao de um grfico bonito e diferente
do habitual mas que corre o risco de transmitir uma informao errada: a
rea tridimensional que se visualiza que bidimensionalmente processada

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

pelo crebro/olho humano e que transmite, afinal erradamente, o valor da


proporo relativamente ao total.
Neste captulo, depois de catalogar os diferentes tipos de dados que podemos
ter nossa disposio para processar, faremos uma incurso aos diferentes
mtodos de representao grfica da informao e dos seus objectivos.

A natureza dos dados


Os 248 anncios foram monitorizados entre a 2a e a 15a semana de 2006
(Fig. 11-5), as marcas de automveis mais observadas foram a Volkswagen e a
Citroen (Fig. Il-4b), tendo a grande maioria da fonte dos anncios sido a
imprensa (Fig. Il-4d) e a maioria dos anncios (o mesmo) foi visto poucas
vezes (nmero de registos) (Fig. 11-6).
Nmero e percentagem da anncios das diferente marcas

Percentagem de anncios com as diferentes marcas

iliniHJf5iissffiifitf.itifmi|
5
| MARCA:

N = 248; Mean = 12.97SS; StdDv = 8,4527; Max = 32; M i n ^ T ]

o mmmimmmmmnmmmmmmm
(a)

Distribuio dos Meios utilizados para anunciar

I
(b)

m
Distribuio dos Meios utilizados para anunciar

RMc H

T M . u k 21%

(C)

(d)

FIG. 11-4
Distribuio das marcas e meio atravs de grficos barras - (a) e (b) - e diagramas circulares - (c) e (d).

16

Medidasdel o c a l i z a o(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Capitulo II

Dever a escolha do grfico ser efectuada no decurso de uma anlise do tipo


de dados que se pretendem representar? Ser interessante representar a
distribuio das marcas de automveis mais observadas atravs de um grfico
circular ?
Identificam-se diferentes tipos de variveis. Pela sua capacidade intrnseca de
processamento estatstico (por ex. no possvel calcular um valor mdio da
marca dos automveis, sendo-o para o nmero de registos) e pela forma
como, naturalmente, se representa graficamente a distribuio dos valores
que as variveis assumem, criam-se duas categorias:
- as variveis qualitativas, que assumem "valores" que representam
categorias (neste caso o nmero da semana, a marca e a fonte do anncio) e
- as variveis quantitativas, que assumem "valores" numricos (neste caso o
nmero de registos e adicionalmente as concentraes das emisses de
dixido de carbono e xidos de azoto dos automveis).
Distribuio do nmero da semana

Distr&.j&o do nmero de registos

-5

10

15

20

25

30

35

40

45

50

55

Numero de registos

FIG. 11-5

FIG. 11-6

Distribuio do nmero da semana em que o anncio


foi caracterizado.

Distribuio do nmero de vezes que o anncio foi


visto

A diferena formal entre o nmero da semana e marca do automvel a


sequncia natural, a ordem que existe nos valores da primeira e que no
arbritria: a 3a semana depois da 2a. Para a marca do automvel os
diferentes valores ordenam-se, apenas, por critrios alfabticos: no h como
ordenar, naturalmente, as diferentes categorias.
Variveis qualitativas cujos valores se ordenam naturalmente denominam-se
ordinais (por ex. o nmero da semana). As restantes so nominais (por ex. a
marca do automvel e a fonte do anncio).
As variveis quantitativas alm de poderem ser contnuas ou discretas podem
ser classificadas em funo da escala de medida: de razo ou de intervalo.
Se puderem assumir, em teoria, um nmero de valores no finito e entre cada
dois valores se verificar esse princpio (por ex. a concentrao de dixido de
carbono e xidos de azoto) classificam-se como contnuas. Sero variveis
discretas se se identificarem dois valores sequenciais entre os quais nada se
pode observar (por ex. o nmero de registos).
Ana Amaro, Cludia Silvestre, Leonor Fernandes | A natureza dos dados

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo II

As variveis podem ser classificadas de acordo com a proximidade do


fenmeno que medem: pode ser necessrio criar uma escala para medir um
fenmeno ou, em alternativa, medir naturalmente. Por exemplo para medir o
conceito temperatura foi necessrio criar uma grandeza que, em
determinadas condies, assume o valor 0 (por ex. 0C ou 0 F); mas este
valor, 0, no significa ausncia. Em contrapartida 0 metros, 0 quilogramas e 0
registos significam ausncia de comprimento, peso e registos. comum
classificar as variveis quantitativas deste ltimo grupo (independentemente
de serem contnuas ou discretas) como medidas de razo e as primeiras como
medidas de intervalo: no razovel calcular o quociente entre duas
temperaturas; a diferena entre duas temperaturas j interessante.
Estas classificaes so, claro, arbitrrias. Outras poderiam existir. Neste
contexto queremos perceber que as variveis tm poderes explicativos
diferentes, visam diferentes objectivos, pelo que tm naturezas diferentes.
Foi isso que gerou estas (ou outras) classificaes e no o inverso. A sua
constatao apenas nos facilita a percepo de que, neste captulo em que
nos propomos representar graficamente a informao de que dispomos, se as
variveis tm poderes de sntese diferentes, as representaes grficas
tendero a adaptar-se sua natureza. Consideraremos os diferentes tipos de
variveis sempre que isso possa ajudar a diferenciar tcnicas e
procedimentos: so classificaes utilitrias.
A representao grfica de dados/variveis pode e deve ser sistematizada,
sempre recorrendo ao objectivo que a precede. Assim em face de um
conjunto de dados de uma varivel podemos pretender representar a sua
distribuio ou a evoluo dos dados ao longo do tempo ou relativamente a
outra varivel.

4.

Representao grfica da distribuio de dados


4.1

Os Dados Qualitativos

Os dados de natureza qualitativa so observaes de variveis que assumem


categorias como "valores". Estas categorias podero ser nominais, isto
caractersticas sem ordenao natural ou, em alternativa, ordinais
pressupondo uma ordem natural.

4.1.1 Nominais
As marcas dos automveis e dos meios utilizados para anunciar (Fig. II-4) so
variveis qualitativas nominais. Para representar a distribuio das suas
possveis categorias ou "valores" utilizou-se um grfico circular (ou de
sectores) e um grfico de barras. Sendo variveis do mesmo tipo diferem, em
tipologia, pelo nmero de categorias que podem assumir.
18

Representao grfica da distribuio de dados | Ana Amaro, Cludia Silvestre,

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo II

No caso do meio utilizado para efectuar o anncio, o nmero de categorias


reduzido (cinco), tornando possvel e interessante a descrio da distribuio
das categorias atravs da utilizao de um grfico circular.
No caso das marcas de automveis (que so muitas) a representao atravs
de um grfico circular no eficiente: muitas "fatias" e leitura difcil. Por
outro lado a representao, alternativa, atravs de um grfico de barras no
, tambm muito interessante (Fig. Il-4a): a leitura difcil e no se "retira"
com imediatez a informao que uma representao grfica prope quando se
efectua. Por outro lado ao ordenar as frequncias absolutas e/ou relativas
obtm-se um grfico de barras interessante (Fig. Il-4b). Outra hiptese
tambm til para, graficamente, mostrar a distribuio das marcas, seria
agrupar o conjunto de marcas menos relevantes numa classe geral
(reclassificar). Difcil seria depois a tarefa de definir a frequncia de quebra1,
uma vez que h uma certa cadncia na ordem pela qual deixam de ser to
importantes. 0 critrio sempre subjectivo e sempre dependente do
objectivo.
As sub-categorias mais comuns dos automveis caracterizados nos anncios
so a do pequeno utilitrio, pequeno familiar e o familiar (Fig. II-7).
O nmero elevado de categorias um argumento que impede que a utilizao
de um grfico circular (Fig. Il-7a) seja uma eficiente representao grfica da
distribuio: a sobreposio das categorias um primeiro indcio de que a
representao mais adequada no esta. Ao tentar a utilizao de um grfico
de barras, deparamo-nos com o mesmo fenmeno observado quando da
anlise da distribuio da marca, motivado pelo nmero elevado de
categorias: a difcil leitura do contedo (Fig. Il-7b). A ordenao das
frequncias resolve a dificuldade da leitura (Fig. Il-7c). Por outro lado, se o
importante for realar as sub-categorias mais frequentes poder ser, ento,
opo - e pela estrutura da distribuio ordenada que apresenta duas quebras
(as trs primeiras sub-categorias isolam-se, seguidas das trs seguintes) considerar as seis primeiras categorias sendo as restantes includas num grupo
no especfico designado por outros. A representao grfica da distribuio
das categorias mais importantes pode ser efectuada atravs de um grfico de
barras (Fig. Il-7d) ou de um grfico circular (Fig. Il-7e), talvez com
preferncia para este ltimo que mais eficiente na transmisso da
informao relativa distribuio.

Representao grfica da distribuio de variveis qualitativas nominais


Nominais com poucas categorias - grfieo circular
Nominais com muitas eategorias - grfico de barras ordenando as categorias por
frequncias

Considera-se frequncia de quebra a primeira frequncia que permite identificar,


visualmente, uma descontinuidade na cadncia das frequncias (absolutas ou relativas)
quando consideradas por ordem decrescente.
Ana Amaro, Cludia Silvestre, Leonor Fernandes | Representao grfica da

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo II

Distribuio da subcategoria da automveis

fa^rtrt]

City Car

Fimkar 19H
f^Hjueno Fimikir 19%

(a)

Distribuio da subcategoria da automveis

Pequeno Familiar

Ptqucno Utiktil 21*

Comerciai*. 2K
Luo. 1%
Grno Famlar 3 *

Paquano Utilitrio

MonoVoJum I H

Fu^in 3 *

Distribuio da subcategoria da auto m vais

P
i&

i
i
H

V/
1

|
- i
(b)

Kstriburlo da subcategoria da automveis

(c)

Paquano Utjhtirio
Familiar
Paquano Familiar

MonoVolume
City Car

Outros
TT

(d)

Distribuio da subcategoria da automveis

Paquano Utilitrio. 21 %

9
MonoVolume; 6%

Pequeno Familiar. 19%

(e)
FIG. II-7
Distribuio da sub-categoria de automveis atravs de diagramas circulares - (a) e (e) e grficos barras - (b) a (d).

4.1.2 Ordinais
Em 53% dos anncios identificou-se uma personagem principal (Fig. Il-8a).
Nestes anncios a personagem caracterizada relativamente ao grupo etrio
(Fig. Il-8b). Na lista de categorias identificam-se sete nveis ordinais e duas
categorias ("indeterminado" e "adulto(s) e criana(s)") que, para efeitos de
caracterizao, de facto no so grupos etrios. Caracterizar a varivel, tal
como ela se apresenta, significa que teremos de considerar a varivel como
nominal e que, pelo facto de ter muitas categorias, se poderia optar por
representar a sua distribuio atravs de um grfico de barras (Fig. Il-8c).

20

Representao grfica da distribuio de dados | Ana Amaro, Cludia Silvestre,

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo II

Por outro lado ser porventura mais interessante, eliminar a categoria


"indeterminado" registando-se de seguida, a proporo de anncios com
personagem principal em que no possvel determinar o grupo etrio (Fig. II8d).
Em alternativa, e se considerarmos que importante caracterizar o grupo
etrio, as categorias "indeterminado" e "adulto(s) e criana(s)" so
eliminadas sendo muito claro que a grande maioria dos anncios privilegiam por ordem - o adulto como personagem principal (Fig. Il-8e). Pode ser, ainda,
interessante mostrar que a proporo de anncios com personagem principal
identificada como indivduo ou no (neste caso "adulto(s) e criana(s)")
preponderante (Fig. Il-8f). Pode ser tambm desejvel realar que o grupo
etrio mais comum o adulto (Fig. Il-8g).
Foram considerados 18 valores instrumentais2 diferentes cuja relevncia foi
identificada no anncio segundo uma ordem: sem relevncia, o segundo mais
importante e o mais importante. Dos 18 valores h sete considerados no
relevantes (Fig. Il-9a). A representao grfica da distribuio da relevncia
associada a cada um dos 18 valores atravs de um grfico de barras de
acumulao (Fig. Il-9b) permite identificar os valores "independncia" e
"ambio" como os que so mais frequentes nos anncios, a par do "esprito
aberto", "controlo" e "o ser capaz".

Representao grfica da distribuio de variveis qualitativas ordinais

grfico de barras

4.2

'

grfico de barras de acumulao

Os Dados Quantitativos

Os dados de natureza quantitativa so observaes de variveis que assumem


valores numricos discretos ou contnuos. Os dados discretos representam
quantidades finitas ou, sendo infinitas, pelo menos enumerveis (isto
conseguindo designar sequencialmente valores). Os dados contnuos so
aqueles que, pelo menos teoricamente, so infinitos e no enumerveis (entre
cada dois valores h sempre uma infinidade de possibilidades).
A forma mais interessante de representar a distribuio de
quantitativos , naturalmente, diferente da dos dados qualitativos.

dados

Os 18 valores considerados no inqurito designam-se por valores instrumentais por


representarem conceitos e formatos que geram atitudes (neste caso perante a vida) que se
consideram valiosas.
Ana Amaro, Cludia Silvestre, Leonor Fernandes | Representao grfica da

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo II

Anncio com ou sem personagem principal

Grupo etrio
Beb
Criana
Adolescente
Jovem adulto
Adulto
Meia-idade
Idoso
Indeterminado
Adulto (s) e criana (s)

O)

(b)

Anncios com personagem principal cujo grupo etrio ou n i o determinvel

Distnbuio do grupo etrio da personagem principal

Indeterminad

"

Adulto

Jovem Adulto
Cnana
Indeterminado
Adulto(s) ecriana(s)

Beb

Grupo etno identificado 8?%

(c)

Distnbuilo do grupo etrio da personagem pnrapai

(d)
Anncios com personagem principal determinada individual o u n i o

Adutto) e criana(s); 7%

Um individuo; 0 3 *

Beb

Criana

Adolescente

Jovem Adulto

Adulto

(f)

Anncios com personagem principal determinada

(g)
FIG. 11-8
Distribuio do grupo etrio da personagem principal do anncio.

22

Representao grfica da distribuio de dados | Ana Amaro, Cludia Silvestre,

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo II

Vaiores veiculados
Instiumentafc
Distnbuio de relevncia dos vai ores considerados
O rrportite
> S 0 2* mportwle
u m rdevtnei*

(Escofria dois valores Instrumentais de modo hierartjafeado,)


Afectuoso
Alegre
Ambicioso
Capaz
Controlado
Corajoso

Espirito Aberto

Irrvaginstw
Independente

5 i

(a)

I
I '

(b)

FIG. 11-9
Distribuio da relevncia dos valores (a) transmitidos pelo anncio (b).

4.2.1 Discretos
0 nmero de registos (nmero de vezes que o anncio foi visualizado) segue
uma distribuio com o formato semelhante ao de uma funo exponencial
negativa (Fig. 11-1 Oa). Com o objectivo de desenhar a distribuio destes
valores, o muito elevado nmero de valores diferentes possveis que a varivel
pode assumir gera, naturalmente, a necessidade de agrupar valores diferentes
em classes (neste caso de amplitude igual a 5); contabilizam-se, de seguida,
as frequncias absolutas de cada classe (em vez de cada valor). A
representao da distribuio mais coesa, eliminando o rudo provocado
pelo nmero elevado de valores da varivel e a irrelevncia de conhecermos a
frequncia exacta de um valor ou do valor imediatamente a seguir (ou
anterior). O objectivo conseguir ver a distribuio da varivel (Fig. 11-1 Ob) e
no conhecer as frequncias absolutas de todas as observaes possveis.
A diferena entre aquelas duas formas de representar graficamente a
distribuio da varivel que a primeira um grfico de barras (Fig. II-9a) e a
segunda um histograma (Fig. 11-1 Ob). Neste ltimo caso pressupe-se uma
"continuidade" dentro da classe (por ex. irrelevante a quem correspondem
as cerca de 60 observaes referidas classe [5; 10[) e entre as classes.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Representao grfica da

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo II

Distribuifto do numero de regato*

Distribuio do numero de registos

i
I

BBaaGcn
1

13

17

21

25

29

33

37

41

45

49

(a)

-5

1
5

10

15

20

25

30

35

40

45

50

55

(b)

Distribuio do nmero de registos (< 6)

(c)
FIG. 11-10
Distribuio do nmero de registos atravs de um grfico de barras (a) (c) e de um histograma (b).

Considerando agora o nmero de registos inferiores a seis visualiza-se de uma


forma mais "limpa" que h, de facto, um decrscimo da frequncia (Fig. II10c) com o aumento do nmero de registos: o grfico de barras adequado
para representar a sua distribuio. 0 facto de no haver continuidade (os
dados so discretos) e termos poucas observaes possveis elimina a opo do
histograma: a separao das barras natural.
No interessante representar a distribuio de dados discretos atravs de
um grfico circular. Este tipo de representao grfica no pressupe uma
ordem que, aqui neste caso, existe.

Representao grfica da distribuio de variveis quantitativas discretas I


Com poucos* valores possveis - grfico de barras

Com muitos* valores possveis - histograma

* a percepo visual - a capacidade de ler bem o grfico - que define o limiar de pouco e / o u muito

i
i

24

Representao grfica da distribuio de dados | Ana Amaro, Cludia Silvestre,

ESTATSTICA DESCRITIVA - O segredo dos dados

4.2.2

Captulo II

Contnuos

A distribuio das emisses de monxido de carbono e de xidos de azoto


pelos automveis tem, no primeiro caso, a caracterstica de apresentar
maioritariamente concentraes reduzidas (Fig. 11-11a) e no segundo
concentraes mais frequentes reduzidas mas um conjunto de observaes,
relevantes, superiores (Fig. 11-11c).

Distribuio da concentrao de emisaes de CO

Distribuio da concentrao das emssfies de CO

Median = 0.26
25%-75%
= (0.145, 0,434)
X Non-Outiier Range
= (0.005.0.864)
o Outliers
* Extremes
-0.2

0,0

0,2

0.4

0.6

0.8

1.0

1.2

1.4

1,6

1.8

2,0

(b)

2.2

Distribuio das emisses de xidos da azoto

Distribuio da concentrao das emisses de xidos de azoto

n Median = 0 04
2 5%-7 5%
= (0,02,0,197)
X Non-Ouflier Range
= (0. 0,386)
o Outli era
* Extremes
-0.05

0,00

0.05

0 10

0,15

0,20

0.25

0.30

0,35

0,40

0,45

(d)

Distribuio das emisses de monxido de carbono (a) e (b) e de xidos de azoto (c) e (d) atravs de histogramas
(a) e (c) e de diagramas box-plot (b) e (d)

Cerca de 75% dos valores de emisses de monxido de carbono so inferiores a


aproximadamente 0.4 registando-se alguns valores de emisses muito
elevados e pouco esperados (Fig. 11-11b). No caso das emisses de xidos de
azoto interessante verificar que a disperso dos valores assumidos pela
varivel superior anterior (em termos relativos, claro) (Fig. 11-11d).
Surge, de imediato, a vontade de perceber porqu! A razo poder residir na
variao dos valores de outra varivel para a qual temos informao
disponvel3. 0 conhecimento que temos relativamente ao sistema que estamos
a analisar fundamental para efectuar uma anlise inteligente e sustentada:
3

O processo, que aqui se inicia, do mbito da anlise bivariada (se nos cingirmos a uma
nica varivel explicativa), ou multivariada (se utilizarmos mais do que uma).

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Representao grfica da

ESTATSTICA DESCRITIVA - 0 segredo dos dados

Capitulo II

o tipo de fuel utilizado pode ajudar a explicar a variabilidade e distribuio


que se observa rios dois tipos de emisses.
A responsabilidade das emisses de monxido de carbono repartida pelos
diferentes tipos de fuel utilizados na combusto (Fig. Il-12a). A
responsabilidade maioritria das emisses de xidos de azoto parece ser do
gasleo (Fig. 11-12b).
Muitas vezes, a utilizao de um histograma e de um diagrama box-plot
complementam-se no sendo substituveis, dependendo fortemente da prpria
distribuio da varivel. Um histograma interessante para representar a
forma da distribuio e o diagrama box-plot os casos particulares e a
arrumao dos quartos da distribuio (1o, 2o e 3o quartis4) dois aspectos
muito interessantes na aprendizagem do comportamento de variveis.

Distnbuio das emisses de monxido de carbono


2.2

2,0
1.8
1.8

1.4
1.2

1.0
0,8
0,6

0,4
0.2

0.0
-0.2
_
Petrol

Petrol Electric
D<esel

CNG
Petrol Hybrid

Median
25%-75%
I Non-Outiier Range

. Extremes

Tipo de fuel
Distribuifto das emsses de xidos de azoto
0.45
0.40
0,35
z
8

0.30

3
e

0.25

g 0,20
|

0.15

g 0,10

0,05

r,
0,00
-0,05

Petrol Electric
Diesel

(a)

1=53 cin
CNG
Petrol Hybnd

X
o
*

Median
25%-75%
Non-Outlier Range
Outliers
Extremes

Tipo de fuel

(b)

FIG. 11-12
Distribuio das emisses de monxido de carbono (a) e de xidos de azoto (b) relacionada com o tipo de fuel
atravs da utilizao de diagramas box-plot

......................................

| Representao grfica da distribuio de variveis quantitativas contnuas


|

Histograma

Diagrama box-plot

Ver Captulo III

26

Representao grfica da distribuio de dados | Ana Amaro, Cludia Silvestre,

ESTATSTICA DESCRITIVA - O segredo dos dados


Capitulo II

5.

A evoluo dos valores de uma varivel


5.1

Quantitativa

A evoluo no tempo do nmero de registos foi armazenada ao longo das


semanas de monitorizao: observa-se alguma disperso no nmero de
registos nas mesmas semanas (Fig. 11-13a) que, em termos mdios (Fig. II13b), no perceptvel. Ao comparar a disperso de valores no primeiro caso
com os valores mdios do segundo, ao utilizar tambm o nmero de registos
ao longo do tempo mas com recurso a um grfico de disperso que fornea
indicao relativa frequncia da observaes (Fig. 11-13c), compreende-se
melhor o desvio ligeiro que se observa entre os valores mdios registados (Fig.
11-13b) e os valores realmente observados (Fig. 11-13a). Para adicionar
informao grfica relativa representatividade dos valores mdios (mais
interessantes no que respeita a leitura da tendncia) pode acrescentar-se a
informao sobre a amplitude dos intervalos de confiana para aos valores
mdios (Fig. 11-13d): interessante verificar, desde logo, que na segunda
semana - em que o nmero de observaes reduzido - que o valor mdio
tem menos significado.
Evoiuio do nmero de ragtstoa por semana

EvoJuio do numero mdio de registos por semana

Evoiuio do numero de registo* pof semana

10

11

12

13

14

15

x S S ^ s s c c f W * ,

Semana

FIG. 11-13
Evoluo do nmero e nmero mdio de registos ao longo das semanas

Ana Amaro, Cludia Silvestre, Leonor Fernandes | A evoluo dos valores de uma

ESTATSTICA DESCRITIVA - 0 segredo dos dados


Captulo II

A varivel em causa uma varivel discreta com muitas observaes em cada


semana, com excepo da segunda semana.
Nestas circunstncias necessrio ter algum cuidado na medida em que a
representao grfica do intervalo de confiana pode ser desprovida de
sentido (o que, na prtica, sucede se o nmero de observaes associado a
cada momento no tempo for inferior a 305). 0 mesmo vlido quando nos
referimos a intervalos de confiana para valores mdios de variveis contnuas
que no se distribuam segundo uma lei Normal (ver Captulo IV).
Representao grfica da evoluo de variveis quantitativas
Grficos de disperso
Grficos de linhas (com valores mdios)
Grficos de linhas com indicao de erro

5.2

Qualitativa

A evoluo dos meios utilizados para anunciar (Fig. 11-14) ao longo das
semanas permite detectar, de imediato, trs semanas em que se analisaram
anncios exclusivamente publicados na imprensa. Somente em quatro das
semanas em observao se analisaram anncios na rdio.
Neste casos, em que a sntese recorre a um indicador percentual importante
assegurar a "qualidade" da percentagem: garantir que o nmero de
observaes em cada caso equivalente aos demais.

Representao grfica da evoluo de variveis qualitativas


Grficos circulares para cada momento do tempo

A determinao dos limites de um intervalo de confiana para um valor mdio pode


efectuar-se se a distribuio da varivel aleatria mdia for Normal. No Captulo III far-se-
referncia a esta questo.
28

A evoluo dos valores de uma varivel | Ana Amaro, Cludia Silvestre, Leonor

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Evoluo da distribuio dos meios utilizados pelos anncios ao longo das semanas
26%

lnt.m.t22*^Tfi>rv'

s ,

Outdoon

25%
1 3 % ^ ^ T Televisio.
<

OuMoor.26%^J yimprens.: 391


Imprensa

100%

Imprensa, 5 6 %

Imprensa, 4 6 %

SEMANA: 2

SEMANA: 3

SEMANA 5

Televiso, 4 %

Televiso 13%
^

Rdio;

f
L

-J

y ^ S ^ K
Internet; 8 %

Televiso
1

Dutdoor; 5 0 %

Internet; 8 % '
Outdoor;

Imprensa, 2 5 %
Imprensa. 2 0 %

Imprensa; 88%
SEMANA 8
SEMANA: 5

rT5elev
V yim.

Televiso. 2 0 %

Rdio; 12%

12%A I X

Imprensa; 100%

( 5 '
B0%^-

Imprensa; 5 4 %
SEMANA. 11
SEMANA: 10

fl

\Telev

Imprensa; 35%

Imprensa; 100%

SEMANA 14

SEMANA 15

FIG. 11-14
Evoluo do meio utilizado para anunciar ao longo das semanas

6.

Sntese
6.1

Estatstica

O tipo de grfico que deveremos seleccionar para sistematizar o contedo dos


dados deve ter em conta o objectivo de representao (distribuio ou
evoluo dos dados) e o tipo de dados. O grfico deve ser o mais simples e
claro que for possvel.
Como linha de orientao inicial pode considerar-se o resumo efectuado por
tipos diferentes no Quadro ll-l.
QUADRO ll-l
Linha de orientao para o tipo de representao grfica a adoptar
Tipo de dados
Tipo

Sub-tipo
Nominal

Qualitativo

Objectivo da representao grfica


Nmero

Distribuio

Evoluo

Poucas categorias

Grfico circular

Grfico circular

Muitas categorias

Grfico de barras (ordenado)


Grfico de barras (e de
acumulao)

Ordinal
Discreto
Quantitativo
Contnuo

Grfico de barras
(ordenado)

Poucos valores

Grfico de barras

Grficos de disperso

Muitos valores

Histograma

Grficos de linhas (c/


valores mdios e/ou
indicao de erro)

Histograma ou Box Plot

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

6.2

Tcnica

As concluses relevantes que decorrem da anlise das variveis efectuadas,


at ao momento, so:
.

So poucos os anncios que so visualizados muitas vezes.

As sub-categorias de automveis mais anunciadas so o pequeno


utilitrio, o pequeno familiar e o familiar.

Cerca de metade dos anncios tm uma personagem principal que em


80% dos casos um adulto.

Dos 18 valores instrumentais potencialmente veiculados pelos anncios


h

Sete que nunca o so: Educao, Honestidade, Intelectualidade,


Limpeza, Obedincia, Prestabilidade e Tolerncia

Cinco que o so:

realando-se a Independncia e Ambio

seguidos do Abertura de Esprito, Controlo e Ser Capaz

O gasleo tem maior responsabilidade nas emisses de xidos de azoto


que os restantes fuis.

30

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Captulo III
Anlise numrica

Maris mind, once expanded to encompass a new idea, never regains its
original dimensions
Oliver W. Holmes (1841 - 1935)
Statistics: The only science that enables different experts using the same
figures to draw different conclusions.
Evan Esar (1899 - 1995)

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

Capitulo III

32

ESTATSTICA DESCRITIVA - O segredo dos

Objectivo | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Desde muito cedo, e com o desenvolvimento


das
sociedades
primitivas, o homem comeou a ter necessidade de sistematizar.
Era importante saber que recursos havia disponveis para tomar
decises:
ficar aproveitando
os recursos ou partir sua
procura.
Mais tarde, j com as sociedades organizadas, e com objectivos
sobretudo
militares
e
tributrios,
os
governos
sentiram
necessidade
de
sistematizar
a
informao
sobre
as
suas
populaes e riquezas.
Parece
ter
acontecido
no
Egipto,
3050
A.C.,
o
primeiro
levantamento estatstico: com o objectivo de sistematizar as
riquezas e recursos humanos para a construo das pirmides
(Fig. III-l) .

FIG.

III-l

Pirmides de Giz http://www. geocities . com/Athens/Marbie/4 341/pL'amicies . htm


[2007-08-22])

Tambm os romanos fizeram o recenseamento dos cidados e dos


bens. Eram os censores, magistrados romanos, que asseguravam o
registo dos cidados.
muito interessante uma conveno da
Histria que nos faz utilizar a designao Antes de Cristo
(A.C.) e Depois de Cristo (D.C) e que parece referir-se ao ano
em que o imperador Csar Augusto ordenou que se fizesse o
recenseamento populacional no seu imprio. Cristo ter nascido
por volta dessa altura.
Guilherme, "O Conquistador", que reinou em Inglaterra entre 1066
e 1087, ordenou que se fizesse um levantamento estatstico em
Inglaterra que inclusse informao sobre terras, proprietrios,
a utilizao da terra e os animais.
Esta informao
foi
utilizada como base ao clculo de impostos.
Quase sempre com objectivos tributrios...
At ao incio do sc. XVII, a Estatstica limitou-se ao estudo
dos "assuntos de Estado". Usada pelas autoridades polticas na
inventariao
ou
arrolamento
dos
recursos
disponveis,
a
Estatstica limitava-se a uma simples tcnica de contagem,
Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

traduzindo numericamente factos ou fenmenos observados. esta


a primeira fase da Estatstica que servia, simplesmente, para
descrever.
0 termo, pelo qual conhecemos a cincia ou arte de sistematizar,
Estatstica, parece ter surgido, pela primeira vez, no sc.
XVIII, inventado pelo alemo Gottfried Achemmel
(1719-1772):
statistik de "statizein" do grego...
H quem defenda que o
termo tem a sua gnese em "statu", que quer dizer "estado" em
latim. o que nos contam mas teremos sempre dvidas!
Em Portugal, s em 1935 se fundou o Instituto Nacional de
Estatstica
(INE, http://www.ine.pt)
que centraliza,
at
actualidade, toda a actividade estatstica oficial. Actualmente
a informao do INE obtida a partir de recenseamentos
populao, habitao e agricultura, de amostragens, para
alm da que proveniente de fontes administrativas.
0 Banco de Portugal (http://www.bportugal.pt/) foi criado por
decreto rgio em 19 de Novembro de 1846 com a funo de banco
comercial
e de banco
emissor.
actualmente
o
organismo
responsvel
pela
estabilidade
dos
preos,
superviso
das
instituies
de
crdito
e
das
sociedades
financeiras,
elaborao, anlise e divulgao das estatsticas monetrias,
financeiras, cambiais e da balana de pagamentos.
A nvel internacional podemos considerar os seguintes organismos
oficiais
com
responsabilidade
na
recolha,
processamento
e
divulgao de informao da sociedade do mundo:
o

EUROSTAT
(http://epp.eurostat.ec.europa.eu),
o organismo
responsvel
pela
disponibilizao
da
informao
estatstica na Unio Europeia. A informao
fornecida
dever ser/ imparcial,
fivel e comparvel entre os
diferentes Estados-membros (15/25)

OCDE
(http://www.oecd.org)
Organizao
para
a
Cooperao
e
Desenvolvimento
Econmico,
o
organismo
responsvel pelo reforo da economia dos pases membros
(30) , melhoria da sua eficcia, promoo da economia de
mercado, desenvolvimento de um sistema de trocas livres e
contribuio para o desenvolvimento e industrializao dos
pases.

Banco
Mundial
(http://www.worldbank.org/),
o
organismo
fonte vital de financiamento e assistncia tcnica aos
pases em vias de desenvolvimento
(no um verdadeiro
banco).
Gera mais de
900 indicadores/estatsticas (208
pases)

FMI (http://www.imf.org/) - Fundo Monetrio Internacional,


uma organizao internacional que pretende assegurar o bom
funcionamento do sistema financeiro mundial monitorizando
as taxas de cmbio e a balana de pagamentos, atravs de
assistncia tcnica e financeira.

de indicadores, do seu significado e produo matemtica


falaremos neste captulo.
34

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

que

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

1.

Objectivo

Atravs de mtodos numricos pretende-se caracterizar um conjunto de


variveis cujos dados foram recolhidos no decurso dos mesmos dois projectos
utilizados anteriormente.
Relativamente ao projecto AOP caracterizam-se as mesmas variveis que no
captulo anterior: semana do ano em que o anncio foi observado, marca do
automvel, meio de publicidade utilizado, nmero de vezes que o anncio foi
visualizado, grupo etrio da personagem principal do anncio (se existente),
forma de transmisso de cada um dos 18 valores instrumentais transmitidos
durante o anncio.
Sobre o projecto VCA caracterizam-se, tambm, as variveis concentrao das
emisses de monxido de carbono e de xidos de azoto.

2.

Introduo

Os 248 anncios foram caracterizados relativamente marca anunciada, ao


meio utilizado para anunciar e ao nmero de registos (Fig. III-2). A
caracterizao grfica foi efectuada anteriormente (Figs. Ill-2a e lll-2b)
Para caracterizar as marcas e o meio utilizado para anunciar utilizaram-se
duas abordagens. No primeiro caso utilizou-se o software de uma forma cega,
sem procurar identificar que tipo de indicadores poderiam fazer sentido, mas
somente utilizando as opes sugeridas pelo prprio software: gera-se o
nmero de observaes na amostra, 248, o valor mdio, o mnimo , mximo e
o desvio padro (Fig. Ill-2c). No segundo caso seleccionou-se o nico indicador
que parece ter alguma utilidade para o utilizador: o valor mais frequente (ou
moda) (Fig. Ill-2d). Adicionalmente calculado o nmero de observaes que
lhe corresponde.
Para caracterizar numericamente o nmero de registos - cuja representao
grfica se conhece (Fig. Ill-2e) - de que indicadores dispomos para melhor
compreender o comportamento da varivel ? A interpretao/significado de
cada indicador e do seu valor fundamental para decidir sobre a sua
pertinncia e interesse.
Neste captulo, depois de identificar os dois formatos principais sob os quais a
informao nos pode ser fornecida, faremos uma incurso aos diferentes
mtodos de representao numrica da informao e dos seus objectivos.

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Percentagem de nncio* com a Aferente* mercas

tlliuj"

Di*ribu*o doefcfaioautilzedos para a

i5|!!!|]i!M?!l|
! j 0s i
:
(b)

(a)
Varivel

Mximo

Desvio padrSo

MARCA

248

12,98

32

8,45

MEIO

248

2,33

1,13

Valor mdio Mnimo

(c)

Frequncia da moda

Varivel

Modd

MARCA

248

Mltipla

18

MEIO

248

119

(d)

Dii*ribut4o do nmero de regulo*

S
eo

-5

10

15

20

25

30

35

40

45

50

55

Nmero de registos

FIG. III-2
C a r a c t e r i z a o g r f i c a - (a), (b) e (e) - e n u m r i c a das marcas, m e i o e n m e r o d e registos - (c) e (d).

3.

A organizao dos dados

A informao sobre o nmero de registos que temos nossa disposio diz


respeito, como j vimos, a 248 observaes/anncios analisados. A cada um
destes anncios, observaes, para a varivel "nmero de registos"
corresponde um valor (Quadro IIMa).
A informao relativa ao nmero de registos poderia, contudo, ter sido
fornecida de modo classificado (Quadro IIMb). Este tipo de representao dos
dados o resultado de um pr-processamento da responsabilidade de quem,
por ex., recolhe a informao e que, por diversas razes - entre elas a
necessidade de sistematizar -, a arruma numa tabela de frequncias.
A organizao dos dados | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

QUADRO 111-1
Dados relativos ao nmero de registos: informao em bruto (a) e classificada (b).

5
6

N_RGIST
18
8
12
1
2
21

248

1
2
3
4

(a)

N. de registos

N. de anncios

[0; 10[

210

[10; 20[

32

[20; 30[

[30; 40[

[40; 50 [

(b)

Tipicamente, os dados que nos so disponibilizados por instituies nacionais


ou internacionais responsveis pela recolha e sistematizao de dados sobre o
pas ou o mundo (por ex. INE, Banco de Portugal, OCDE, EUROSTAT, Banco
Mundial e FMI) so-no de modo classificado.
importante compreender que a natureza dos dados (bruto ou classificado) a
que temos acesso para gerar indicadores tem implicaes ao nvel da sua
qualidade:
o tendo acesso a dados em bruto (Quadro lll-1a) o nmero total de
anncios considerados 248 produzindo um nmero mdio de registos
igual a aproximadamente 5,8 registos/anncio (resultando da soma dos
registos para cada um dos 248 anncios e a sua diviso por 248).
o Se a nossa fonte de informao for uma tabela, os dados esto j
classificados (Quadro lll-1b), no havendo uma discriminao do
nmero de registos para cada um dos 248 anncios. Para conseguir ter
uma ideia do valor mdio para os 248 anncios teremos de encontrar
uma forma de, por ex., atribuir a cada um dos 210 anncios da classe
[0; 10[ um valor para o nmero de registos; talvez considerando que,
em mdia, os 210 anncios tiveram cinco registos cada um (o valor
mdio de zero e 10, os extremos da classe):
o claro que h anncios com mais e menos de cinco registos! O
princpio que os que aos quais correspondem menos de cinco
registos compensaram (na soma) os que tm mais.
o Estamos tambm a admitir que a distribuio no nmero de
registos na classe Uniforme, ou seja que h o mesmo nmero
de anncios com 0, 1, 2,...,9 registos.
o Ser, porventura, a melhor aproximao (mais razovel, que
corresponde utilizao de algum bom senso) que conseguimos
efectuar.
o O nmero mdio de registos , nestas
aproximadamente igual a 1,5 (Quadro III-2).

circunstncias,

Ana Amaro, Cludia Silvestre, Leonor Fernandes | A organizao dos dados

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

QUADRO 111-2
Clculo do valor mdio partindo de dados classificados com classes de amplitude 10
registos (pm - ponto mdio da classe).
N. de registos N, de anncios

pm

Soma parcial

[0; 10[

210

210x5

[10; 20[

32

15

32x15

[20; 30[

25

5x25

[30; 40[

35

0x35

[40; 50[

45

1x45

Soma

373

Valor mdio

373/248=

1,5

Naturalmente que os valores mdios resultantes da aplicao dos dois mtodos


so diferentes! Neste caso muito diferentes: o valor mdio calculado com os
dados reais , aproximadamente, igual a 5,8 registos e que resulta do
processamento dos dados classificados , aproximadamente, igual a 1,5 registos.
O primeiro, naturalmente, mais preciso que o segundo...
importante referir que quando aplicamos o segundo mtodo, fazmo-lo por
no dispormos de informao em bruto que nos permita chegar a um resultado
mais preciso. tambm importante referir que se dispusermos de informao
classificada mais detalhada (isto com mais classes) ser sempre essa a nossa
escolha. Se as classes tivessem uma amplitude mais reduzida o erro cometido na
aproximao referida anteriormente seria inferior: considerando classes de
amplitude 5 registos (Quadro 111-3> o valor mdio calculado , aproximadamente,
igual a 5,8 registos, tal como o valor mdio preciso (neste caso a aproximao
resulta num valor igual o que no garantidol).

QUADRO 111-3
Clculo do valor mdio partindo de dados classificados com classes de amplitude 5 registos
(pm - ponto mdio da classe).
N. de registos N. de anncios

pm

Soma parcial

[0; 5[

151

2,5

151x2,5

[5; 10[

59

7,5

59x7,5

[10; 15[
[15; 20[

23

12,5

23x12,5

9
4

17,5

9x17,5

22,5

4x22,5

[25; 30[

27,5

1x27,5

[30; 35[

32,5

0x32,5

[35; 40[

37,5

0x37,5

[40; 45[
[45; 50[

0
1

42,5

0x42,5

47,5

1x47,5

[20; 25[

38

Soma

1430

Valor mdio

1430/248-

5,8

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Dados em bruto
Indicadores precisos
Dados classificados
Indicadores aproximados.
Quanto menor a amplitude das classes melhor a aproximao.

4.

Tabelas de frequncias

Quando dispomos de dados que nos so fornecidos de modo exaustivo muitas


vezes interessante arrumar a informao de forma "apresentvel".
No mbito de um relatrio os dados podero ser sempre remetidos em anexo
e/ou em formato electrnico. Contudo pode ser desejvel ter uma
caracterizao visual dos dados, por exemplo atravs de uma tabela de
frequncias que nos d uma primeira aproximao da distribuio da varivel
em causa: corresponde quantificao de um histograma, de um grfico de
barras ou de um grfico circular.
4.1

Dados quantitativos

Consideremos a varivel nmero de registos. No total sabemos haver 248


observaes associadas a esta varivel discreta.
Considerando classes de amplitude 10 registos, geramos cinco classes com a
mesma amplitude. De seguida contabilizamos o nmero de observaes que se
encontram dentro de cada classe. A estes valores designamo-los por
frequncia absoluta (por ex. a frequncia absoluta da classes [0; 10[ 210.
Podemos, tambm, calcular a frequncia relativa que corresponde
percentagem ou proporo de observaes dentro de cada classe (Quadro III4).
A questo mais relevante, neste contexto, saber em quantas classes se
devem classificar os nossos dados. O software resolve, por omisso, esta
questo. Contudo importante compreender a razo da anlise desta
questo. O objectivo "ver" os dados, percepcionar a distribuio dos dados.
Com muitas classes tende a perder-se o efeito da "continuidade da
distribuio". Com poucas classes corre-se o risco de esconder a verdade
sobre a distribuio dos dados. E afinal uma questo de equilbrio entre o
nmero de observaes e a percepo da distribuio.

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

E S T A T S T I C A DESCRITIVA - O segredo dos dados

Captulo III

QUADRO III4
Tabela de frequncias corrente (a) e segundo a nomenclatura estatstica (b)
N. d s r e g i s t o s

N. de a n n c i o s

[0; 1 0 [

210

[10; 20[

32

[20; 30[

[30; 4 0 [

[40; 50[

N, de r e g i s t o s Frequncia a b s o l u t a

F r e q u n c i a relativa ( % )

[0; 10[

210

[10; 20[

32

15

[20; 30[

25

[30; 4 0 [

35

[40; 5 0 [

45

248

100

Sturges (1926) props uma regra emprica para determinar o nmero ptimo
de classes a considerar, em funo do nmero de observaes. A relao
logartmica (Quadro III-5). H algumas discusses interessantes sobre a
qualidade da regra de Sturges. Segundo Hyndman (1995) a regra de Sturges
conduz a propostas relativas ao nmero de classes razoveis quando a
distribuio dos dados Normal e quando o nmero de observaes inferior
a 200. Prope, em alternativa, as regras de Scott (1979) ou de Freedman e
Diaconis (1981) para clculo da amplitude das classes (H) que considera serem
mais apropriadas, sobretudo se a dimenso da amostra for elevada.
QUADRO III-5
Regras para o estabelecimento das classes de uma tabela de frequncias (K - nmero de classes, H amplitude das
classes, n - nmero de observaes, s - desvio padro da amostra e IQ distncia interquartis).
Autor

Regra

Sturges (1926)

K== 1 + l o g 2 n

Scott (1979)

H = 3 , 5 s n" 1 / 3

F r e e d m a n e Diaconis (1981)

H = 2 IQn'1/3

A grande maioria dos softwares utiliza a regra de Sturges. Contudo h


mecanismos que permitem alterar o nmero de classes e/ou a amplitude das
classes, de acordo com a deciso do utilizador.
varivel emisses de CO, uma varivel contnua com 2866 observaes,
corresponde-lhe um valor mnimo igual a 0,005 e mximo 1,972, um desvio
40

Medidas

d elocalizao( q u a n t i s )| A n a A m a r o , C l u d i a S i l v e s t r e , L e o n o r F e r n a n d e s

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

padro1 (s) igual a 0,2029 e uma distncia interquartis2 (IQ) igual a 0,289. As
trs regras propostas (Quadro III-5) sugerem a gerao de uma tabela de
frequncias com 13, 39 ou 48 classes, dependendo do autor (Quadro III-6).
A sugesto de cada um dos trs autores diferente (sobretudo comparando a
de Sturges com as duas outras sugestes). O facto de existir um valor mximo
extremo pode explicar esta to grande diferena (Figura III-3). Eliminando o
valor mximo (1,972, correspondente ao valor de emisses de CO para um
Cadillac Escalade 6.2 - V8 AUT com 6162 cm3) a sugesto de Sturges no se
altera (o que mostra a robustez da sua sugesto, a valores extremos) e as
outras duas reduzem-se de modo relevante (Quadro III-7): 28 e 34 classes.

QUADRO III-6
Regras para o estabelecimento das classes de uma tabela de frequncias (K - nmero de classes, H amplitude das
classes, n - nmero de observaes, s - desvio padro da amostra e IQ - distncia interquartis, Mini valor mnimo da
amostra, Max - valor mximo da amostra e A - amplitude).

Autor

Regra

Sturges (1926)

K = 1 + log 2 n
H = 3 , 5 s n"

Scott (1979)
Freedman e Diaconis (1981)

H = 2 IQ n '

1/3

1/3

0,158

12,5

0,050

39,3

0,041

48,3

n=

2866

Min=

0,005

s=

0,202964

Mx=

1,972

A=

1,967

IQ=

0,289

QUADRO III-7
Regras para o estabelecimento das classes de uma tabela de frequncias (K - nmero de classes, H - amplitude das
classes, n - nmero de observaes, s desvio padro da amostra e IQ - distncia interquartis, Mini - valor mnimo da
amostra, Max valor mximo da amostra e A amplitude).

Autor

Regra

Sturges (1926)

K= 1 + log2 n

Scott (1979)

H = 3 , 5 s n"

Freedman e Diaconis (1981)

H = 2 IQ n"

Ver 7.4
Ver 7.2

1/3

0,109

12,5

0,049

27,5

0,041

33,5

n=

2865

Min=

0,005

s=

0,200604

Mx=

1,362

A=

1,357

IQ=

1/3

0,288

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Tabelas de frequncias

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Classe

freq. abs. Freq. abs. ac. Freq. rei. Freq. rei. ac.

0<x<=,0869583

405

405

14,13

14,13

,0869583<x<-,2508750

860

1265

30,01

44,14

,2508750<x<-,4147917

826

2091

28,82

72,96

,4147917<x<-, 5787083

462

2553

16,12

89,08

,5787083<x<-,7426250

228

2781

7,96

97,03

,7426250<x<-,9065417

70

2851

2,44

99,48

,9065417<X<-1,070458

10

2861

0,35

99,83

1,070458<x<-1,234375

2863

0,07

99,90

1,234375<x<-1,398292

2865

0,07

99,97

1,398292<x<-1,562208

2865

0,00

99,97

1,562208<x<=1,726125

2865

0,00

99,97

1,726125<x<-1,890042

2865

0,00

99,97

1,890042<x<2,053958

2866

0,03

100,00

Classe

(a)
CtMM

Freq. abs. Freq. abs. ac. Freq. r e i Freq. rei. ac.

0<x<-,0308816

75

75

2,62

2,62

,0308816<x<=,0826447

314

389

10,96

13,57

,0826447<x<-, 1344079

261

650

9,11

22,68

,1344079<xc=, 1861711

260

910

9,07

31,75

,1861711<X<-,2379342

296

1206

10,33

42,08

(b)

CUiu [EmitM di COl

F w q . abs. Frq. abs. a c

Fr.*.ri

F f * q . rffL ac.

0 < x < - , 0 2 592 55

65

65

2,27

2,27

,0259255<x<-,0677766

246

311

8,58

10,85

,0677766<x<-, 109 4277

210

521

7,33

18,18

,1096277<x<-, 1514787

224

745

7,82

25,99

,1514787<x<-, 1933298

216

961

7,54

33,53

,1933298<x<-,2351809

238

1199

8,30

41,84

,2351809<x<-,2770319

214

1413

7,47

49,30
56,52

,2379342<x<",2896974

264

1470

9,21

51,29

,2770319<x<-,3188830

207

1620

7,22

,2896974<x<-, 3414605

264

1734

9,21

60,50

,3188830<x<-, 3607340

203

1823

7,08

63,61

,3414605<x<-,3932237

284

2018

9,91

70,41

,3607 340<x<-,4025851

224

2047

7,62

71,42

,3932237<x<,4449868

158

2176

5,51

75,92

,4025851 W . 4 4 4 4 3 6 2

129

2176

4,50

75,92

,4449868<x<-,4967500

211

2387

7,36

83,29

,4444362<x<-,4862872

188

2364

6,56

82,48

,4862872<x<-, 5281383

88

2452

3,07

85,55

<4967500<X<-,5485132

106

2493

3,70

86,99

,5281383<x<-,5699894

94

2546

3,28

88,83

,54851 32<x<, 6002763

97

2590

3,38

90,37

,5699894<x<-,6118404

56

2602

1,95

90.79

,6002763<x<-, 6520395

88

2678

3,07

93,44

,6118404<x<-,6536915

76

2678

2,65

93,44

,6520395<x<-, 7038026

70

2748

2,44

95,88

,6536915<x<-,6955426

55

2733

1,92

95,36

,6955426<x<-,7373936

37

2770

1,29

96,65

,7038026<x<-,7555658

37

2785

1,29

97,17

,7373936<x<-, 7792447

35

2805

1,22

97,87

,7555658<x<-,8073289

35

2820

1,22

98,39

,7792447<x<-,8210957

30

2835

1,05

98,92

,8073289<x<>, 8590921

27

2847

0,94

99,34

,8210957<x<-,8629468

12

2847

0,42

99,55

,8629468<x<-, 9047979

2851

0,14

99,48

,9047979<x<-,94 664 8 9

2858

0,24

99,72

,9466489<x<-, 9885000

2861

0,10

99,83

9885000<x<-1,030351

2861

0,00

99,83

,8590921<x<-,9108553

2853

0,21

99,34

,9108553<x<=,9626184

2860

0,24

99,79

,9626184<x<=1,014382

2861

0,03

99,83

1,014382<X<-1,066145

2861

0,00

99,83

1,030351 <x<-1,072202

2861

0,00

99,83

1,066145<x<1,117908

2861

0,00

99,83

1,072202<x<-1,114053

2861

0,00

99,83

1,117908<x<-1,169671

2863

0,07

99,90

1,114053<x<-1,155904

2863

0,07

99,90

1,155904<x<-1,1977 55

2863

0,00

99,90

1,169671<x<1,221434

2863

0,00

99,90

2864

0,03

99,93

1,221434<x<1,273197

2864

0,03

99,93

1,239606<x<-1,281457

2864

0,00

99,93

1,273197<x<=1,324961

2864

0,00

99,93

1,281457<x<-1,323309

2864

0,00

99,93

1,324961<x<-1,376724

2865

0,03

99,97

1,323309<x<-1,365160

2865

0,03

99,97

1,376724<x<-1,428487

2865

0,00

99,97

: 1,365160<x<1,407011

2865

0,00

99,97

1,407011<x<-1,448862

2865

0,00

99,97

1,428487<x<=1,480250

2865

0,00

99,97

;1,448862<x<-1,49071J

2865

O.CO

99,97

1,480250<x<c1,532013

2865

0,00

99,97

1,4907I3<X<-1,532564

2865

0,00

99,97

99,97

1,532564<x<-1,574415

2865

0,00

99.97

1,574415<x<"1,616266

2865

0,00

99,97

1,616266<x<-1,658117

2865

0,00

99,97

1,658117<x<-1,699968

2865

0,00

99,97

1,532013<x<=1,583776

2865

0,00

1,197755<x<-1,239606

1,583776<x<=1,635539

2865

0,00

99,97

1,635539<x<"1,687303

2865

0,00

99,97

1,687303<x<=1,739066

2865

0,00

99,97

1,699968<x<-1,741819

2865

0.00

99,97

1,739066<x<=1,790829

2865

0,00

99,97

1,741819<x<-1,7 83670

2865

0,00

99,97

1,790829<x<1,842592

2865

0,00

99,97

1,783670<X<-1,825521

2865

0,00

99,97

1,842592<x<=1,894355

2865

0,00

99,97

1,825521<x<-1,867372

1,894355<X<-1,946118

2865

0,00

99,97

1,946118<x<=1,997882

2866

0,03

100,00

(c)

2865

0,00

99,97

1,867372<x<-1,909223

2865

0,00

99,97

1,909223<x<-1,951074

2865

0,00

99,97

1,951074<x<-1,992926

2866

0,03

100,00

(d)

V*

O O O O O O O O O O O C o o o o o o o o C b t t c i (EmMei d CO)

OOOOOOOOOOOOOOOOOOOOOOOO'-'-'-^

(e)

CIIIMI (Emitte d* CO)

(f)

FIG. 1113
Tabela de frequncias para k=13 (a), k=39 (c) e k=48 (d) - Quadro III-2 e respectivos histogramas (b) (e) e (f)

42

Medidas

delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Poder sempre interessante tentar diferentes solues, adoptando sempre


uma atitude crtica relativa ao resultado (Fig. 111-4). A regra de Sturges parece
ser robusta existncia de valores extremos e as duas outras regras
promovem o nmero de classes quando o nmero de observaes muito
elevado, contrariamente de Sturges que sob o efeito logartmico "trava" o
aumento do nmero de classes. A soluo poder ser sempre de compromisso.
Atendendo ao nmero de observaes e s indicaes das regras de Scott e
Freedman e Diaconis poderamos gerar uma tabela de frequncias com um
nmero aproximado de 15 classes cujos extremos das classes sejam
arredondados de modo razovel (Fig. III-5). O resultado semelhante se o
objectivo for perceber como se distribuem os dados. Ao pretender gerar
algum indicador numrico a partir da classificao efectuada, sempre mais
interessante ter como base de trabalho um maior nmero de classes.

4.2

Dados qualitativos

A tabela de frequncias para as sub-categorias mais comuns dos automveis


caracterizados nos anncios (Quadro lll-8a), por se tratar de uma varivel
qualitativa, no est sujeita aplicao deste tipo de regras.
Neste caso, sendo uma varivel qualitativa nominal, pode ser interessante
arrumar a tabela de frequncias por forma a torn-la mais legvel: por ex.
ordenando as classes (neste caso as categorias que a varivel pode assumir)
por ordem decrescente de frequncia com que ocorrem (Quadro lll-8b).
As frequncias absoluta (nmero total de observaes) e relativa (proporo
relativamente ao total) - cujo clculo relativo classe - no so afectadas
pela reordenao das classes. J as frequncias absolutas ou relativas
acumuladas calculadas em funo dos respectivos valores para a classe
anterior e da frequncia da classe em causa so afectadas.
Aquele facto alerta-nos para o facto de estarmos a trabalhar com variveis
qualitativas nominais. A ordenao foi efectuada pelo facto de termos muitas
categorias e a varivel ser nominal (com outro tipo dificilmente seria
aceitvel a reordenao!). No , por isso, interessante calcular frequncias
acumuladas. Qual o seu significado?
Neste tipo de tabelas de frequncias, mesmo que o clculo das frequncias
acumuladas seja efectuado pelo software, no parece ser relevante, nem ter
significado, a sua demonstrao (Quadro lll-8c). Assim, no caso particular de
variveis qualitativas nominais as tabelas de frequncias devero apenas
conter informao relativa s frequncias absolutas e relativas simples. A
reordenao das categorias pode ser vantajosa.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Tabelas de frequncias

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Classe

Freq abs. Freq abs. ac. Freq. ml. Freq. rei. ac.
274

0<x<-,0615417

274

9,56

9,56
29,74

KC

,06!5417<x<-,1746250

578

852

20.17

, 1746250<J<<",2877083

614

1466

21,43

51,17

,2877083<x<-,4007917

578

2044

20,17

71,34

,4007917<x<>,5138750

385

2429

13,44

84,78

,5138750<x<-, 6269583

203

2632

7,09

91,87

,6269583<x<-,7400417

148

2780

5,17

97,03

,7400417<x<, 8531250

65

2845

2,27

99,

,8531250<x<-,9662083

16

2861

0,56

99,86

M.

,9662083<x<-1,079292

2861

0,00

99,86

100

1,079292<x<-1,192375

2863

0,07

99,93

1,192375<x<1,305458

2864

0,03

99,97

1,305458<x<=1,418542

2865

0,03

100,00

Classe

Fraq, abs, Freq, abs. ac. Freq, ral


75

75

2,62

2,62

,0301296<x<-,0803889

309

384

10,79

13,40

,0803889<X<-,1306481

255

639

8,90

22,30

,1306481 <X<, 1809074

246

885

8,59

30,89

, 1809074<x<=,2311667

285

1170

9,95

40,84

,2311667<X<-,2814259

267

1437

9,32

50,16

,2814259<x<,3316852

244

1681

8,52

58,67

,3316852<X<=,3819444

266

1947

9,28

67,96

,3819444<x<-,4322037

201

2148

7,02

74,97

,4322037<X<-, 4824630

209

2357

7,29

82,27

,4824630<x<-, 5327222

103

2460

3,60

85,86

,5327222<X<-,5829815

101

2561

3,53

89,39

, 5 8 2 9 8 1 5 < x < a , 6332407

78

2639

2,72

92,11

, 6 3 3 2 4 0 7 < x < - , 6835000

79

2718

2,76

94,87

,6835000<x<=,7337593

51

2769

1,78

96,65

,7337593<x<-,7840185

36

2805

1,26

97,91

,7840185<x<-,8342778

32

2837

1,12

99,02

,8342778<x<=,8845370

12

2849

0,42

99,44

, 8 8 4 5 3 7 0 < x < - , 9347963

2855

0,21

99,65

vx

S
! 0
MCI

<\)

2861

0,21

99,86

,9850556<x<=1,035315

2861

0,00

99,86

1,035315<X<-1,085574

2861

0,00

99,86

1,085574<x<1,135833

2862

0,03

99,90

1,135833<x<-1,186093

2863

0,03

99,93

1,186093<X<<1,236352

2863

0,00

99,93

1,236352<x<-1,286611

2864

0,03

99,97

1,286611<x<-1,336870

2864

0,00

99,97

1,336870<x<1,387130

2865

0,03

100,00

i | S; 5j ? s

.2722879<<<-, 3134091
,3134091<<<-,3545303
.3545303<<<-,3956515
,3956515<<<.,4367727
.4367727<<<-,4778939
,4778939<<<-,5190152
,5190152<<<-,5601364
,5601364<<<",6012576
,6012576<x<-,6423788
.6423788<<<-,6835000
.6835000<<<-,7246212
.7246212<<<-, 7657424
, 7657424<<<-, 8068636
,8068636<<<-,8479848
,8479848<x<-,8891061
,8891061<<<-,9302273
.9302273<<<-,97134 85
,9713485<<<-1,012470
1,012470<<<-!,053591
1,053591<-1,094712

lr)

1,094712<-1,135833
1,13S833<X<<1,176955
1,176955<<<-!,218076
1,218076<<<-!,259197
1,259197<<<-!, 300318
1,3003I8<<<-!, 341439
!,341439<-1,382561

3 o o o o o o O c

(b)

CLLL EMTTMI CT CS)

CiM
Fnq. abs. Fmq, abs. ac.
65
0<-,0255606
65
,0255606<x<-,0666818
236
301
519
,0666818<X<-, 1078030
218
209
728
,1078030<-,1489242
,1489242<x<-,1900455
207
935
, 1900<55<X<-, 2311667
235
1170

Freq. rei. ac.

0<X<-,0301296

,9347963<X<,9850556

235
160
256
126
164
116
95
60

1613
1773
2029
2155
2319
2435
2530
2590

66
62

2656
2718
2758
2788

40
30
32
25
6
4
6

0 I

2820
2845
2851
2855
2861
2861

1
1

2861
2861
2862
2863

0
1

2863
2864
2864
2864
2865

Fnq. ral. Frtq. rei. ac.


2,27
2,27
10,51
18,12
25,41
32,64

8.21
7,61
7,29
7,23
8,20

40,84

8,20
5,58

56,30
61,88
70,82
75,22
80,94
84,99
88,31
90,40
92,71
94,87

8,94
4,40
5,72
4,05
3,32
2,09
2,30
2,16
1,40

96,27
97,31
98,43
99,30

1,05
1,12
0,87

99,51
99,65
99,86
99,86

0,21
0,14
0,21
0,00
0,00
0,00

99,86
99,86
99,90
99,93

0,03
0,03
0,00
0,03
0,00
0,00

99,93
99,97
99,97
99,97
100,00

0,03

(d)

llgili.iBillllii.Miiii
j u w o o o' o" o - o" o" o" o" o' o
ClatM (Emiufes de CO)

(0

Tabela de frequncias (tendo eliminado o valor mximo,1.972) para k=13 (a), k=28 (c) e k=34 (d) - Quadro III-3 e
respectivos histogramas (b) (e) e (f)

44 Medidas

delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

CUs
0<x<",10

Freq.abs. Freq, abs. ac. Freq, r e i Freq. rei. ac.

Classe

Freq. b:. Freq. ai. . Freq. rei. Freq. rei. ac


494
17,24
17,24
494

,10<x<-,20

516

1010

18,01

35,25

,20<x<-,30

503

1513

17,56

52,81

,30<x<-,40

531

2044

18,53

71,34

,40<x<,50

357

2401

12,46

83,80

,50<x<-,60

189

2590

6,60

90,40

158

2748

5,51

95,92

,70<x<=,80

72

2820

2,51

98,43

0<x<=,20

1010

1010

35,25

35,25

,20<x<=,40

1034

2044

36,09

71,34

,40<X<=,60

546

2590

19,06

90,40

,80<x<-,90

31

2851

1,08

99,51

,60<X<=,80

230

2820

8,03

98,43

,90<x<1,00

10

2861

0,35

99,86

,80<X<=1,00

41

2861

1,43

99,86

1,00<x<-1,10

2861

99,86

1,00<X<=1,20

2863

0,07

99,93

1,10<x<-1,20

1,20<x<=1,40

2865

0,07

100,00

1,20<xe-1,30
1,30<x<*l ,40

1
1

2863
2864

0,00
0,07

(a)

0.0
Cteiae (Emues de CO)

(C)

0.1

02

0.3

0.4

0.5

2865

0.6

0.7

0,8

0,03

99,93
99,97

0,03

100,00

(b)

0.8

Ckilie (Emtse* de CO)

(d)

FIG. 111-5
Tabela de frequncias (tendo eliminado o valor mximo, 1.972) considerando indicaes aproximadas das trs regras
e arredondando de modo razovel os limites das classes.

A distribuio da personagem principal, quando existe, e considerando apenas


as categorias que se ordenam etariamente (eliminando a categoria
indeterminado e adulto e criana - para garantir uma varivel ordinal), pode
ser resumida atravs de uma tabela de frequncias que nos revela de
imediato haver uma preponderncia de Adultos (Quadro III-9). Poder ser
interessante reagrupar algumas classes, nomeadamente quando as suas
frequncias so irrelevantes relativamente s outras. Deve ter-se em ateno
que esse procedimento implica perda de informao e que dever ser
efectuado atendendo ao seguinte:
- se quisermos manter a ordinalidade da varivel, o agrupamento
dever ser efectuado em classes contguas; as frequncias acumuladas
podero ser recalculadas e existir na tabela de frequncias
- se no for importante manter a ordinalidade, o agrupamento pode
seguir qualquer critrio; as frequncias acumuladas no devem ser
calculadas.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Tabelas de frequncias

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Q U A D R O III-8
Tabela de frequncias - para as sub-categorias mais comuns dos automveis caracterizados nos anncios - corrente
sem a preocupao de ordenao (a) e ordenada por ordem decrescente de frequncias(b) mas com erro de
formalismo (frequncias acumuladas) e sem erro de formalismo (c)
F/eq

Ciasse
City Car

abs

17

r e q . a b s . IC. F r e q , r e i . F r e q r e i a .
17

16,04

16,04

P e q u e n o Utilitrio

22

39

20,75

36,79

Pequeno

25

64

23,58

60,38

Familiar

14

78

13,21

73,58

Grande Familiar

79

0,94

74,53
75,47

Familiar

Luxo

80

0,94

Comerciais

82

1,89

77,36

Furgon

83

0,94

78,30

MonoVolume

11

94

10,38

88,68

TT

101

6,60

95,28

Bicilindro

102

0,94

96,23

106

3,77

100,00

Instit
Classe
Pequeno Familiar

Freq, a&s.
WWiss
Pequeno Familiar
25

Frsq. abs, Freq, abs. ao, Fraq. ral Freq. rsl ac.
25
23,58
23,58
2S

Pequeno Utilitrio

22

20,75

City Car

17

16,04

73,58
83,96

Familiar

14

13,21

MonoVolume

11

10,38

90,57

TT

6,60

*4,34

Instit

3,77

96.23
97,17

Comerciais

1,89

Grande Familiar

0,94

98,11
95,06

Luxo

0,94

0,94

Furgon

0,94

0,94

100,00

Bicilindro

0,94

22

22

20,75

City Car

17

17

16,04

Familiar

14

14

13,21

MonoVolume

11

10,38

TT

11
7

Instit

Comerciais

Grande Familiar

2
i
1

Luxo

1
1

Bicilindro

6,60
3,77
1,89
0,94
0,94
f f

F^q^sJj
23,58

44,"
>

Pequeno Utilitrio

Furgon

(a)

(b)

(C)

QUADRO 111-9
Tabela de frequncias para a personagem principal (retirando as categorias nominais)
Classe

F r e q , a b s . F^req. a b s . a c , F r e q . rei, F r e q . rei. a c .

Beb

0,94

0,94

Criana

1,89

2,83

J o v e m Adulto

12

15

11,32

14,15

Adulto

91

106

85,85

100,00

Dados quantitativos e qualitativos ordinais


Tabela de frequncias absolutas relativas simples e acumula das
Dados qualitativos nominais
M l i M H
46

Medidas

Tabela de frequncias absolutas e relativas simples

d elocalizao( q u a n t i s )| A n a A m a r o , C l u d i a S i l v e s t r e , L e o n o r F e r n a n d e s

!
j

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

muitas categorias (em termos relativos) pode reclassifcar-se a varivel.


|
i
I

5.

Medidas de tendncia central

As emisses de CO e os nveis de rudo dos automveis tm diferentes tipos de


distribuies: no primeiro caso a grande maioria dos 2866 automveis com
registo desta varivel produz baixos nveis de CO (Fig. 111-1 la); no segundo a
maioria dos automveis produz elevados nveis de rudo (Fig. III-l 11> ou, de
um outro modo, so poucos os automveis que produzem baixos nveis de
rudo.
Naturalmente h a necessidade de quantificar.

5.1

O valor mdio

Podemos calcular o valor mdio das emisses de CO e o nvel mdio de rudo


dos automveis, somando todos os valores (2866 e 2865 respectivamente) e
dividindo pelo seu cardinal (Quadro 111-10): 0,308 g km"1 e 72,33 dB
respectivamente. Podemos, por curiosidade, calcular este mesmo indicador
para os carros a gasolina (Quadro 111-10) e os carros a gasleo (Quadro 111-10)
que para os nveis de rudo no parece ter comportamento diferente.
Contudo, relativamente s emisses de CO, os automveis a gasleo (valor
mdio igual a 0,147 g km'1) parecem ser menos agressivos que os a gasolina
(valor mdio igual a 0,407 g km"1).

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas de localizao (quantis)

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Nkl4*>uUodB<A)

0.0

02

0.4

0.6

00

IA

1.4

1.6

1,6

3.0
60

ErrtMMCO

Classe
0<x<=,20

67

Classe

Freq. abs, Freq. abs. ac. Freq. rei. Freq. ret, ac.
1010
35,24
1010
35,24

65<x<-66

00

70

71

T7

73

74

75

7.

77

0,21

0,24

67<x<-68

29

36

1,01

68<x<-69

72

108

2,51

1,26
3,77

69<x<-70

231

339

8,06

11,83

70<x<-71

519

858

18,12

29,95

576

1434

20,10

50,05

617

2051

21,54

71,59

73<x<"74

601

2652

20,98

92,57

74<x<-75

196

2848

6,84

99,41

75<x<-76

15

2863

0,52

99,93

76<x<-77

2865

0,07

100,00

77<x<78

2865

0,00

100,00

78<x<"79

2865

0,00

100,00

1034
546

2044
2590

36,08

71,32

19,05

90,37

,60<x<=,80

230

8,03

98,39

,80<x<=1,00

41

2820
2861

2863

1,43
0,07

99,83
99,90

71<x<-72

1,00<x<=1.20
1,20<x<=1,40

72<x<-73

1,40<x<=1,60

2
0

2865
2865

0,07
0,00

99,97
99,97

1,60<x<=1,80

1,80<x<=2,00

2865
2866

0,00
0,03

99,97
100,00

( b

Freq. abs. Freq, abs. ac. Freq. rei. Freq. rei. ac.
1
1
0,03
0,03

66<xc-67

,20<x<=,40
,40<x<= ,60

(C)

61

(d)

FIG. 111-11
Histogramas e tabelas de frequncias das emisses de CO (a) e (c), e do nivel de rudo (b) e (d)

QUADRO 111-10
Valor mdio do nivel de rudo e das emisses de CO (para todos os tipos de automveis) e considerando apenas os
automveis a gasolina e os a gasleo (diesel)

Varivel

Conjunto

Valor mdio

Rudo (dB)

Total

2865

72,32887

Gasolina

1771

72,37589

Diesel

1086

72,25378

Emisses de CO

Total

2866

0,30802

Gasolina

1772

0,40674

Diesel

1086

0,14688

0 nmero mdio de registos para os 248 anncios igual a 5,8 registos ou,
talvez, aproximadamente 6 registos. A melhor forma de transmitir este tipo
de informao no clara: trata-se de uma varivel discreta (o que quer dizer
que, por ex. no h 6,3 registos) mas um valor mdio uma medida
contnua...
Se a informao nos fosse disponibilizada sob forma de uma tabela de
frequncias (sem conhecimento da informao detalhada) (Quadro 111-4)
conseguiramos apenas ter uma ideia do valor mdio para os 248 anncios.
Atribuiramos a cada um dos 210 anncios da classe [0; 10[ o valor mdio da
mesma, isto , cinco registos: sabemos que h anncios com mais e menos de
cinco registos, sendo utilizado o princpio da compensao e o pressuposto (na
48

Medidas de localizao (quantis) | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

falta de informao adicional) de que a distribuio no nmero de registos na


classe Uniforme. 0 nmero mdio de registos , deste modo,
aproximadamente igual a 1,5 (Quadro III-2).
No mbito de inqurito so colocadas duas questes relativas poluio (Fig.
111-13). As duas variveis que da resultam, sendo qualitativas, so
particulares, na medida em que so binrias: a resposta s pode ser uma de
duas e encarada como "sucesso" e "insucesso" ou ainda reportando-nos
informtica a "1" e "0". A vantagem em considerar este tipo de variveis
(binrias) codificadas em binrio (0/1) muito grande (em detrimento de uma
outra qualquer codificao - por ex. 1 e 2 ou 101 e 102). No primeiro caso o
valor mdio no tem qualquer significado (Quadro 111-11); no segundo (Quadro
111-11) conseguimos deduzir, de imediato, que 31% dos anncios visualizados
contm informao sobre os consumos e sobre as emisses de CO.
INFORMAAO SOBRE A POLUIO
A mensagem contm informao sobre os consumas?
Sim
No
A mensagem contm informao sobre e emisso de 003?
Sim
No
FIG. 111-13
Questes colocadas no inqurito sobre a poluio

QUADRO 111-11
Valor mdio sobre o consumo e emisso de CO considerando codificao Sim-1; No-2 e Sim-1 e No -0
Varivel
Consumos
C02
Consumos
C02

Codificao
Sim - 1; No-2
Sim - 1 ; No-0

Valor mdio
1,37903
1,37903
0,30816
0,30816

A personagem principal (Fig. 111-1 -4a), quando existe, foi caracterizada. Sem
considerarmos as categorias "nominais" (isto "Indeterminado" e "Adulto e
criana") a varivel, tal como se encontra codificada (Fig. 111-14a), uma
varivel ordinal. Sabemos que os cdigos numricos no tm valor, apenas
ordenam, de forma arbitrria, as categorias (Fig. Ill-14b). Quando procedemos
a uma soma destes cdigos a divimos pelo nmero de cdigos, obtemos um
valor mdio de "cdigos". Neste caso 4,8 no tem significado. Para que serve?
Talvez como elemento a comparar com outra situao (por ex. o resultado
para um inqurito efectuado no Natal com o objectivo de avaliar a
possibilidade de uma "translao" no que respeita a personagem principal do
anncio: reduo do valor mdio?). Tem, sem dvida, uma utilidade discutvel
e muito limitada.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas delocalizao(quantis)

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

CHitnbiio do grvpo etirto d* ptom}m principal

Text Label
Numeric
Beb
1
Criana
2
Adolescente
3
Jovem Adulto
4
Adulto
5
Meia-ldade
6
Idoso
7
Indeterminado
8
Adulto(s) e criana(s)
9

1
1
p
p W-w
m %VAtm^

I =0

^gj

Matormlrado

Aduo{) crin()

Beb

FIG. 111-14
Codificao das categorias (a) que caracterizam a personagem principal.
Caracterizao (sem as categorias nominais - 8 e 9, ver Cap. II - 4.1.2) grfica (b). Valor mdio igual a 4,792453; e
n=106.

O valor mdio

calcula-se somando todos os valores e dividindo a soma peio seu cardinal.

1
I
|

X =

1 "

1,

n '
=-Sn<Pm
n
n w
(n - nmero de observaes; k - nmero de classes, pm( - ponto mdio da classe i)
.....,. ,.., ...... ........i,..............,,, .1.-....-..1....-..-...-.

_--_!

..x

Dados quantitativos e qualitativos nominais binrios (1/0)

O valor mdio pode ser calculado e tem significado.

Dados qualitativos ordinais

O valor mdio pode ser calculado, usando uma codificao ordinal.

|
|

O resultado deve ser utilizado de forma qualificada.


Dados qualitativos nominais

>

O valor mdio no tem qualquer significado.

5.2

Mediana

50% dos automveis produzem menos de 72 dB e emitem mais de 0,28 g km"1


de CO (Quadro 111-12). Considerando as emisses de CO volta a constatar-se
uma diferena de concentraes nos automveis a gasolina e a gasleo: 50%
dos automveis a gasolina tm emisses inferiores a 0,38 g km"1 e para os
carros a gasleo os mesmos 50% emitem menos de 0,12 g km"1. A este
indicador chama-se mediana. muito interessante compreender a sua
utilidade e constatar que, sendo menos comum que a mdia e tambm uma
medida de tendncia central da distribuio, mais fcil de interpretar.

50

Medidas de localizao (quantis) | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Neste caso particular interessante notar que os valores da mediana so


inferiores ao valor mdio.
Para o seu clculo ordenaram-se os valores, por ex. por ordem crescente, e
localizou-se o "valor do meio" (no caso de nmero mpar de observaes) - ou
"os dois valores do meio" (no caso de nmero par de observaes) com os
quais se calcula um valor mdio a que se chama mediana.
No caso de a informao estar apenas disponvel de modo classificado
possvel calcular a mediana aproximada. Assumindo que as emisses de CO
estivessem apenas caracterizadas atravs de uma tabela de frequncias
(Quadro 111-13) facilmente se identificaria a classe da mediana como ]0,20;
0,40]: de facto 35,24% dos automveis emitem menos de 0,20 g km"1 de CO e
por outro lado 71,32% dos automveis emitem menos de 0,40 g km"1, pelo que
a mediana est compreendida entre 0,20 e 0,40 g km"1.

QUADRO 111-12
Valor mdio e mediana do nvel de rudo e das emisses de CO (para todos os tipos de automveis) e considerando
apenas os automveis a gasolina e os a gasleo (diesel)

Varivel

eortjunto

Valor mdio

Mediana

Rudo (dB)

Total

2865

72,32887

72,00000

Gasolina

1771

72,37589

73,00000

Diesel

1086

72,25378

72,00000

Emisses de CO

Total

2866

0,30802

0,28000

Gasolina

1772

0,40674

0,38000

Diesel

1086

0,14688

0,12400

QUADRO 111-13
Tabela de frequncias para as emisses de CO (para todos os tipos de automveis)
Classe
0<x<=,20

Freq. abs, Freq. abs, ac. Freq. rei. Freq. rei. ac.
1010
1010
35,24
35,24

,20<x<=,40

1034

2044

36,08

71,32

,40<x<=,60
,60<x<=,80

546
230

2590

19,05

90,37

2820

8,03

98,39

I ,80<x<=1,00
1,00<x<=1,20

41
2

2861
2863

1,43
0,07

99,83

1,20<x<=1,40

2
0

2865
2865

0,07

99,97

0,00

99,97

2865
2866

0,00
0,03

99,97
100,00

! 1,40<x<=1,60
11,60<x<=1,80
t,80<x<=2,00

99,90

Apesar da informao estar classificada e sabermos que qualquer clculo


efectuado em cima da tabela conduzir apenas a indicares aproximados pode
ser interessante identificar o meio da distribuio (mesmo que de modo
aproximado).
At 0,20 g Km"1 temos 35,24% dos automveis. Para atingir os 50% faltam
14,76% que devero ser referidos ao tamanho da classe seguinte ]0,20; 0,40]
Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas de localizao (quantis)

ESTATSTICA DESCRITIVA - 0 segredo dos dados

Captulo III

(que contm 36,08% das observaes totais e cuja amplitude 0,20 Km'1).
Como desconhecemos a distribuio das observaes dentro das classes
podemos assumir - utilizando o bom senso - que se distribuem uniformemente.
A descrio do clculo da mediana poder ser efectuada da seguinte forma
Med = 0,20 + 0,20

0,50 - 0,3524
0,3608

= 0,2818

ou, de modo mais justificado, estabelecendo como 0,20 o limite inferior para
o valor que poder ser acrescido de um mximo de 0,20 (a amplitude da
classe da mediana) que ser afectado de uma proporo calculada como a
razo entre a distncia dos 50% aos 35,24% (da classe anterior classe da
mediana) e a dimenso em nmero de observaes da classe da mediana e
que 36,08%.
A mediana , assim, 0,2818 g Km'1.
Para caracterizar as sub-categorias mais comuns dos automveis
caracterizados nos anncios (Quadro III-8) no faz qualquer sentido calcular
uma mediana. De facto este indicador pressupe uma ordem natural e
contabilizao, por ex. atravs de uma tabela de frequncias e das
frequncias relativas acumuladas, para identificar o valor da varivel a que
correspondem 50% das observaes acumuladas.
O nmero mdio de registos para os 248 anncios igual a 5,8 registos ou,
talvez, aproximadamente 6 registos. A mediana igual a 4 registos ou seja
pelo menos 50% dos anncios tiveram menos de 5 registos! Importa realar o
significado ligeiramente diferente da mediana para este tipo de dados. De
facto por ser uma varivel discreta, a determinao da mediana, com base
nos dados exaustivos, localiza o valor 4 como o que divide o conjunto de
observaes em dois grupos de dimenso igual (os "inferiores a 4" e "os
superiores a 4") quando na verdade se nos reportarmos tabela de
frequncias que poderamos desenhar considerando todas as observaes
possveis (Quadro 111-14) verificamos que se registou 24 vezes o nmero de
registos igual a 4. Por esta razo, para este tipo de dados (discretos) pode no
ser muito interessante identificar a mediana. O mesmo se aplica a variveis
qualitativas ordinais (Quadro III-9).

Medidas de tendncia central | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

QUADRO 111-14
Tabela de frequncias para o nmero de registos associados a um anncio (considerando todas as observaes
possveis)
Classe
1
2
3
"4
5
6
7
8
9
10
11
12
13
14
15
17
18
19
20
21
22
23
29
49

Freq, abs, Ftjiq.


46
33
30
24
18
19
9
14
10
7
11
5
5
1
1
4
3
1
1
2
1
1
1
1

46
79
109
133
151
170
179
193
203
210
221
226
231
232
233
237
240
241
242
244
245
246
247
248

ac. jiosg. rei. Freq. rei. ac.


18,55
18,55
31,85
13,31
43,95
12,10
9,68
53,63
60,89
7,26
68,55
7,66
72,18
3,63
5,65
77,82
4,03
81,85
2,82
84,68
4,44
89,11
2,02
91,13
2,02
93,15
0,40
93,55
0,40
93,95
1,61
95,56
1,21
96,77
0,40
97,18
0,40
97,58
98,39
0,81
0,40
98,79
0,40
99,19
0,40
99,60
0,40
100,00

A mediana

Mm
calcula-se colocando as observaes ou as classes por ordem crescente.
Dalos exaustivos
A,

i+l)

+ x

n par: med = v

sggl
\

n impar:

im.

Dados classificados (tabela de frequncias)


n c
+

c
f

med

" "

i - valor mnimo; x(n) - valor mximo; n - nmero de observaes;


Xn>ed, fnf - p i f e inferior da classe da mediana; hmed -amplitude da classe da mediana;
Fmed-i - Frequncia relativa aeumulada da classe anterior da mediana;
ffned - frequncia relativa da classe da mediana)

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas delocalizao(quantis)

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Dados quantitativos contnuos

A mediana pode ser calculada e tem significado directo


(50% das observaes so inferiores - ou superiores mediana).

Dados quantitativos discretos e qualitativos ordinais

A mediana pode ser calculada, sendo o seu significado adaptado


(pelo menos 50% das observaes so inferiores mediana).
Dados qualitativos nominais
A mediana no pode ser calculada.

5.3

A Moda

A personagem mais frequente nos anncios o Adulto (Quadro 111-9) - 84,85%


dos anncios com personagem principal utilizam o Adulto -, a sub-categoria de
automveis mais comum o Pequeno Familiar (Quadro 111-8) - 23,58% das subcategorias de automveis utilizados nos anncios so pequenos familiares - e
um anncio maioritariamente visto apenas uma vez (Quadro 111-14) -18,55%
dos anncios foram vistos apenas uma vez.
Para determinar a concentrao de CO mais comum recorremos utilizao
de software que conduziu a um resultado correspondente ao valor que se
repete mais vezes (o algoritmo utilizado para determinar a moda para cada
uma das trs variveis consideradas no pargrafo anterior). De facto e para
esta varivel a moda igual a 0,04 g Km"1 (Quadro 111-15) valor que se repete
30 vezes (e que, neste caso, da responsabilidade de automveis a gasleo).
Observando o histograma desenhado para esta varivel (Fig. Ill-5d) muito
curioso constatar que a classe com maior frequncia a classe de
concentrao entre os 0,3 e 0,4 g Km"1 o que entra em conflito com a
constatao anterior!
As emisses de CO so uma varivel - em teoria pelo menos - de carcter
quantitativo contnuo. A repetio de valores , portanto, pouco provvel.
Contudo, neste caso especfico, afinal esta varivel no parece resultar de
medies mas sim de especificaes (na medida em que se verificam muitas
repeties). Temos uma situao em que, por um lado a varivel assume
valores discretos mas muitas possibilidades que, tambm pela sua natureza,
nos levam a consider-la contnua. No fcil.
Em resumo: a moda para a emisses de CO 0,04 g Km"1 e a classe modal
]0,3; 0,4] g Km"1. O conflito pode conduzir ao seguinte raciocnio: na
identificao da moda - do valor mais frequente - interessante localizar "o"
valor. Esta a situao que ocorre quando lidamos com variveis qualitativas
e at quantitativas discretas (por ex. o nmero de registos). Para variveis
contnuas ou com comportamentos de natureza contnua (por ex. emisses de
CO e nvel de rudo) porventura mais interessante localizar a zona da
distribuio dos valores mais frequente em detrimento de "o" valor.

54

Medidas de localizao (quantis) | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

QUADRO 111-15
Valor mdio, mediana e moda do nvel de rudo e das emisses de CO (para todos os tipos de automveis) e
considerando apenas os automveis a gasolina e os a gasleo (diesel) considerando a abordagem tradicional para o
clculo da moda (a) e a abordagem classificada e arredondamentos (b)

Conjunto

Rudo (dB)

Total

2865

72,32887

72,00000 73,00000

563

Gasolina

1771

72,37589

73,00000 74,00000

383

Diesel

1086

72,25378

72,00000 72,00000

201

Total

2866

0,30802

0,28000

0,04000

30

Gasolina

1772

0,40674

0,38000

0,26800

24

Diesel

1086

0,14688

0,12400

0,04000

30

Emisses de CO

Valor mdio Mediana

Moda

Freq. da moda

Varivel

Varivel

Conjunto

Valor mdio

Mediana

Moda

Rudo (dB)

Total

2865

72,33

72,00

72,51

Gasolina

1771

72,38

73,00

72,55

Diesel

1086

72,25

72,00

71,50

Emisses de CO

Total

2866

0,31

0,28

0,3415

Gasolina

1772

0,41

0,38

0,3510

Diesel

1086

0,15

0,12

0,0749

Para localizar a zona mais frequente - portanto a classe modal - temos como
obrigao classificar a varivel (de acordo com as orientaes j analisadas
anteriormente no ponto 4.) - a menos que tenhamos a informao j
classificada de origem. Apesar de identificarmos uma classe modal, com base
numa classificao, pode ser interessante indicar uma moda (valor) que,
sendo um mero indicador de localizao, dever - para garantir coerncia ser calculada a partir da classe.
Consideremos duas abordagens para o clculo da moda a partir de uma tabela
de frequncias3 (Fig. Ill-15e e f), depois de identificar a classe modal (neste
caso ]0,3; 0,4] g Km"1:
1) a moda igual semi-soma dos extremos da classe modal ou seja 0,35
g Km"1.
2) a moda est mais prxima da classe adjacente com maior frequncia ou
seja
mod = 0,3 + 0,1

^ ^
= 0,3415 gS Km"1
0,1246 + 0,1756

em que 0,1246 e 0,1756 so as frequncias relativas simples das classes a


seguir e antes da classe modal, respectivamente.
De um modo geral pode considerar-se mais apropriado a adopo deste ltimo
algoritmo uma vez que distingue duas distribuies com a mesma classe modal
mas frequncia relativas contguas diferentes.
3

Neste caso eliminmos a observao da emisso de CO igual a 1,972, permitindo maior


detalhe na distribuio das observaes por classes.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas de localizao (quantis)

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Se considerarmos apenas os automveis a gasolina (Fig. Ill-15a e b) a moda


calculada da seguinte forma:
mod = 0,3 + 0,1

01941
1
^ ^
= 0,3510 g5 Km 1
0,1941 + 0,1868

Para os automveis a gasleo (Fig. Ill-15c e d) o valor igual a


mod = 0,05 + 0,05

n 1RRR

^ ^
= 0,0749 g Km 1
0,1888 + 0,1906

Para o rudo promovido pelos automveis interessante verificar que 73 dB


o valor mais frequente (situao que se altera quando se consideram somente
os automveis a gasolina - 74 dB ou os a gasleo - 72 dB) (Quadro 111-15). Muito
curioso sobretudo porque os valores mdios no levariam a supor uma
diferena de comportamento para esta varivel no caso de automveis a
gasolina ou a diesel.
Calculando o indicador moda para cada uma das trs situaes, usando o
princpio descrito e os dados (Fig. II1-16),teramos ento para os automveis:
- a gasolina: mod = 72 + 1

Q>2286
= 72,5458 dB,
0,2286 + 0,1902

01934
- a diesel: mod = 71 + 1
^ ^
= 71,5036 dB e
0,1934 + 0,1906
- em geral: mod = 72 + 1
^ ^
= 72,5107 dB.
0,2098 + 0,2010

A moda

o valor da varivel que se repete mais vezes, com maior frequncia.


Dados qualitativos e quantitativos discretos
A leitura feita na tabela de frequncias
Dados quantitativos contnuos ou dados classificados
Requer a classificao da varivel e subsequente identificao da classe modal
mod
- xv ^
muu -

i p f

+ nhmod +

^mod+i
-

' mod+l

mod-1

(Xmod, mf - limite inferior da classe modal; hmod -amplitude da classe modal;


fmod+i - frequncia relativa simples da classe imediatamente a seguir da moda;
fmod-i - frequncia relativa simples da classe imediatamente antes da da moda)

A moda o nico indicador universal, isto pode - para qualquer tipo de dados sempre ser calculado.

fc

56

Medidas de localizao (quantis) | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Freq, abs. Freq, abs. ac. Freq, rei. Freq, rei. ac.

Classe
0<X<=,10

49

49

2,77

2,77

,10<x<=,20

150

199

8,49

11,26

,20<x<=,30

330

529

18,68

29,94

,30<x<=,40

433

962

24,50

54,44

,40<x<=,50

343

1305

19,41

73,85

,50<x<=,60

187

1492

10,58

84,44

,60<x<=,70

158

1650

8,94

93,38

,70<X<=,80

72

1722

4,07

97,45

,80<x<=,90

31

1753

1,75

99,21

,90<x<=1,00

10

1763

0,57

99,77

1,00<x<=1,10

1763

0,00

99,77

1,10<x<=1,20

1765

0,11

99,89

1,20<x<=1,30

1766

0,06

99,94

i 1,30<x<=1,40

1767

0,06

100,00

Classe

Freq, abs, Freq. abs. ac. Freq. rei. Freq. rei, ac.

0<X<=,05

207

207

19,06

19,06

,05<X<=,10

235

442

21,64

40,70

,10<x<=,15

205

647

18,88

59,58

,15<x<=,20

158

805

14,55

74,13

,20<X<=,25

96

901

8,84

82,97

,25<X<=,30

75

976

6,91

89,87

,30<x<=,35

58

1034

5,34

95,21

,35<x<=,40

40

1074

3,68

98,90

,40<x<=,45

1079

0,46

99,36

,45<x<=,50

1086

0,64

100,00

71,34
83,80

(e)

,50<x<=,60

2590

90,40

,60<x<=,70

2748

95.92

,70<x<=,80

2820

,80<x<=,90

2851

99,51

,90<x<=1,00

2861

99,86

1,00<x<-1,10

2861

99,86

1,10<x<=1,20

2863

99.93

i,2<x<=1,30

2864

99,97

1,30<x<=1,40

2865

100,00

98,43

FIG. 111-15
Distribuio da concentrao de CO (emisses) nos automveis a gasolina (a) e (b), a gasleo (c) e (d) e na
generalidade (e) e (f)

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas delocalizao(quantis)

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

AUomwlt a a oli na

rj
87

6S

1
Itf
II1

70

71

72

Ntold* ruWoMB)

73

74

IL
75

Classe
66<xo67

76

77

(a)

67<x<=68

12

15

0,68

68<x<=69

37

52

2,09

2,94

69<x<"70

152

204

8,60

11,54

70<x<-71

308

512

17,43

28,98

71<x<=72

336

848

19,02

47,99

72<x<-73

410

1258

23,20

71,19

73<x<=74

404

1662

22,86

94,06

74<x<=75

92

1754

5,21

99,26

75<x<*76

12

1766

0,68

99,94

1767

0,06

100,00

76<x<=77

Class8

Automv* a dt*el

(c)

Freq. abs. Freq. abs. ac. Freq. rei. Freq. rei. ac.
0,17
0,17
3
3
0,85

(b)

Freq. abs. Freq. abs. ac. Freq. rei, Freq. rei. ac,

65<x<-66

0,09

0,09

66<x<=67

0,28

0,37

67<x<=68

16

20

1,47

1,84

68<x<=69

34

54

3,13

4,97

69<x<=70

79

133

7,27

12,25

70<x<-71

210

343

19,34

31,58

71<x<=72

240

583

22,10

53,68

72<x<-73

207

790

19,06

72,74

73<x<=74

189

979

17,40

90,15

74<x<-75

103

1082

9,48

99,63

75<xo76

1085

0,28

99,91

76<x<=77

1086

0,09

100,00

Classe
65<x<=66

-(d)

Freq. abs, Freq. abs. ac. Freq. rei. Freq. rei. ac.
1

66<x<67

0,03

0,03

0,21

0,24
1,26

67<x<-68

29

36

1,01

68<x<=69

72

108

2,51

3,77

69<x<-70

231

339

8,06

11,83

70<x<=71

519

858

18,12

29,95

71<x<=72

576

1434

20,10

50,05

72<x<-73

617

2051

21,54

71,59

73<x<=74

601

2652

20,98

92,57

74<x<"75

196

2848

6,84

99,41

75<x<-76

15

2863

0,52

99,93

76<x<77

2865

0,07

100,00

77<x<-78

2865

0,00

100,00

78<x<-79

2865

0,00

100,00

(f)

FIG. 111-16
Distribuio do nvel de rudo nos automveis a gasolina (a) e (b), a gasleo (c) e (d) e na generalidade (e) e (f)

5.1

Relao entre os trs indicadores de tendncia central

muito interessante analisar as diferenas entre os trs indicadores de


localizao.
A distribuio das emisses de CO para os automveis a gasleo (Fig. Ill-17a)
concentra-se muito do lado das emisses reduzidas, isto , elevada a
proporo de automveis a gasleo com nveis de emisses de CO reduzidas,
havendo poucos automveis com elevadas concentraes nas emisses de CO.
A distribuio no simtrica, podendo consider-la assimtrica direita (a
cauda da distribuio fica do lado direito, ver 8.1). O mesmo se passa no caso
58

Medidas de localizao (quantis) | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

dos automveis a gasolina se bem que a proporo de automveis com


reduzidas emisses no to elevada (em termos relativos) no que respeita os
automveis com elevados nveis nas emisses (Fig. Ill-17b): esta distribuio
parece mais simtrica.
Quando as distribuies so simtricas, os trs indicadores sobrepem-se. De
um modo geral e para casos tpicos e bem comportados com distribuies
assimtricas direita a ordem pela qual surgem os trs indicadores Mod <
Med < x. fcil deduzir que se a distribuio for assimtrica esquerda (a
cauda da distribuio para a esquerda, maiores frequncias para elevados
valores da varivel) a ordem ser a contrria: x < Med < Mod.
muito importante referir que a verificao desta regra de ordenao dos
indicadores depende, como vimos, da forma da distribuio e igualmente da
sua contiguidade, isto uma sequncia de frequncias de livro sem oscilaes
relevantes.

Automveis a gasleo

0,00

0.05

0.10

0,15

0.20

0,25

0.30

Emitaes da CO

AUomveit a gasolina

0.35

0.40

0.45

0.50

0.5

(a)

0,6

0.7

0.8

0,9

EmissesdeCO

(b)

FIG. 111-17
Relao entre o valor mdio, a mediana e a moda

6.

Medidas de localizao (quantis)

"50% dos automveis produzem menos de 72 dB e emitem mais de 0,28 g km"1


de CO (Quadro 111-12)". Assim inicimos a abordagem mediana.

6.1

Quartis

Poderamos ter substitudo o valor 50% por 25% ou 75%: estaramos a referirnos ao 1o e 3o quartis (a mediana igualmente conhecida por 2o quartil).
A base de trabalho poder ser uma tabela de frequncias (Quadro 111-16).

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas de localizao (quantis)

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

QUADRO 111-16
Tabela de frequncias para emisses de CO (a) e nvel de rudo (dB) (b)

m/m Fred, rei c.

Freq. bs. *c.

Frq. ml, ao.

0<xo,10

494

494

17,24

17,24

65<x<-66

0,03

0,03

,10<x<-,20

516

1010

18,01

35,25

66<x<-67

0,21

0,24

,20<x<=,30

503

1513

17,56

52,81

67CXC-68

29

36

1,01

1,26

,30<x<=,40

531

2044

18,53

71,34

68<x<=69

72

108

2,51

3,77

,40<x<=,50

357

2401

12,46

83,80

69<x<-70

231

339

8,06

11,83

,50<x<=,60

189

2590

6,60

90,40

70<x<-71

519

858

18,12

29,95

,60<x<=,70

158

2748

5,51

95,92

71<x<-72

576

1434

20,10

50,05

,70<x<=,80

72

2820

2,51

98,43

72<x<-73

617

2051

21,54

71,59

,80<x<=,90

31

2851

1,08

99,51

73<x<=74

601

2652

20,98

92,57

,90<x<=1,00

10

2861

0,35

99,86

74<x<=75

196

2848

6,84

99,41

1,00<x<=1,10

2861

0,00

99,86

75<x<=76

15

2863

0,52

99,93

1,10<x<=1,20

2863

0,07

99,93

76<x<77

2865

0,07

100,00

1,20<x<=1,30

2864

0,03

99,97

77<x<78

2865

0,00

100,00

1,30<x<=1,40

2865

0,03

100,00

78<x<-79

2865

0,00

100,00

(a)

(b)

Detectam-se as classes dos 1o e 3o quartis:


- ]0,10; 0,20] e ]0,40; 0,50] g Km"1 para as emisses de CO:
Q.1 - 0,10 + 0,10 0 , 2 5 0 , 1 7 2 4 - 0,1431 g5 Km"1
0,1801
Q 33 = 0,40 + 0,10 0 , 7 5 ~ 0 / 7 1 3 4 = 0,4294 g5 Km'1
0,1246
- ]70; 71] e ]73; 74] dB para o nvel de rudo:
0,25-0,1183
1

0,1812

dB

Q - 73 + 1 0,75 - 0,7159 = ? 3
dg
3
0,2098
o
Relativamente ao 1 quartil poderemos afirmar que "25% dos automveis
produzem menos de 70,7 dB e emitem menos de 0,14 g km'1 de CO" ou "75%
dos automveis produzem mais de 70,7 dB e emitem mais de 0,14 g Km' 1 ".
No que respeita o 3o quartil poderemos garantir que "75% dos automveis
produzem menos de 73,2 dB e emitem menos de 0,423 g Km' 1 " ou ainda "25%
dos automveis produzem mais de 73,2 dB e emitem mais de 0,423 g Km"1".
O sentido da referncia (maior que ou menor que) a utilizar na interpretao
dos indicadores dever ser efectuada de acordo com o interesse do estudo em
causa.
O algoritmo aqui utilizado no o mesmo que utilizam os softwares
disponveis no mercado (estes funcionam por contagem sobre os dados
exaustivos)! O resultado para os dois quartis calculado atravs, por ex. do
STATISTICA, o que resumimos no Quadro 111-17. No muito importante a
diferena que se observa entre os valores obtidos com os diferentes
algoritmos. sim importante garantir que:
1 - conhecemos o algoritmo utilizado
2- se utiliza o mesmo algoritmo de modo transversal
60

Medidas de localizao (quantis) | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

6.2

Decis

Poderamos ter substitudo o valor 50% por 10% ou 70% ou mesmo 90%:
estaramos a referir-nos ao 1o, ao 7 e ao 9o decil (a mediana igualmente
conhecida por 5o decil) (Quadro 111-17).

6.3

Percentis

Poderamos ter substitudo o valor 50% por 10% ou 35 ou mesmo 95%:


estaramos a referir-nos aos percentis 10, 35 e 95 (a mediana igualmente
conhecida pelo percentil 50) (Quadro 111-17).
QUADRO 111-17
Quartis, Percentis e Decis para as emisses de CO e nivel de ruido

varivel

P10D1

P35

P70=D7

Q3-P75

2865

70,00

PIS

CU-P25

Rudo (dB)

71,00

71,00

72,00

73,00

74,00

74,00

75,00

Emisses de CO

2866

0,0640

0,0910

0,1450

0,2000

0,3920

0,4340

0,5950

0,6880

P9g?D9

Os percentis (P), quartis (Q) ou decis (D)


(Q.=P; Qa-Pzs; D,.p10; .,.; d^p*)
calculam-se a partir de tabelas de frequncias ou directamente por contagens
(software)
Dados exaustivos
devem ser classificados
Dados classificados (tabela de frequncias)
A-F^
P

A ^

+ h

(P - percentil; A - valor entre 0 e 100 que especifica o percentil; % in/ - limite


inferior da classe do percentil; hp -amplitude da classe do percentil;
Fp^ - Frequncia relativa acumulada da classe anterior do percentil;
fp - frequncia relativa da classe do percentil)

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas de localizao (quantis)

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Dados quantitativos contnuos


Os percentis, quartis e decis podem ser calculados e tem significado directo (x% das
observaes so inferiores - ou superiores, ao respectivo valor)
Dados quantitativos discretos e qualitativos ordinais
Os percentis, quartis e decis podem ser calculados, sendo o seu significado
adaptado.
Dados qualitativos nominais
0s percentis, quartis e decis no podem ser calculados.

7.

Medidas de disperso

As emisses de CO e o nvel mdio de rudo dos automveis variam


dependendo dos automveis. De facto, os valores mdios das 2866 e 2865
observaes so iguais a 0,308 g km"1 e 72,33 dB respectivamente (Quadro III10) no querendo isso significar que todos os automveis emitem as mesmas
concentraes de CO e fazem o mesmo rudo. H uma variao associada s
duas variveis.
Os valores mnimo e mximo para as emisses de CO e nvel de rudo foram j
referidos implicitamente. Os seus valores e os dos percentis, juntamente com
a anlise de um histograma ou grfico de barras, permite percepcionar a
existncia de variabilidade nos valores.

7.1

Amplitude

A amplitude de variao das emisses de CO igual a 1,967 g km"1 e dos nveis


de rudo dos automveis igual a 11 dB. Corresponde diferena entre os
valores mximo e mnimo observados.
Quando a informao se apresenta sobre a forma classificada, mais uma vez
podemos calcular este indicador de modo aproximado considerando o mnimo
e o mximo da primeira e da ltima classe.
Para caracterizar as sub-categorias mais comuns dos automveis
caracterizados nos anncios (Quadro lll-8c) no faz qualquer sentido calcular
uma amplitude. De facto este indicador, tal como nos quantis, pressupe uma
ordem natural.
Relativamente personagem principal dos anncios (Fig. Ill-14a), quando
existe, foi caracterizada. Como vimos anteriormente, no considerando as
categorias "nominais" (isto "Indeterminado" e "Adulto e criana") a
varivel, tal como se encontra codificada (Fig. Ill-14a) uma varivel ordinal.
Sabemos que os cdigos numricos no tm o prprio valor, apenas ordenam
as categorias (Fig. Ill-14b). Podemos considerar a categoria mais "baixa"
(beb) e a mais "alta" (idosos), identificando-se 7 categorias. A "diferena"
62

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

entre dois "valores" no tem valor numrico. Em vez de uma amplitude,


nestes casos e porque queremos caracterizar a disperso dos valores,
poderemos utilizar o nmero de categorias da varivel como um indicador da
amplitude. Consideremo-la "um significado adaptado" do conceito de
amplitude para variveis ordinais.
A amplitude, sendo um indicador de disperso, fcil de calcular, como
ilustrador da disperso dos dados , contudo, pobre e vulnervel:
independentemente da dimenso do conjunto de dados ele utiliza, apenas,
dois valores (os extremos) para aferir da variabilidade dos dados; por outro
lado muito importante garantir que os extremos (mximo e mnimo) no so
valores inesperados (outliers) que inflacionem o verdadeiro valor da
amplitude.
A amplitude pode, com alguma vantagem, ser utilizada numa primeira fase de
limpeza dos dados como uma sonda ajudando na identificao de valores
inesperados, que podero ocorrer devido a erros de registo (por ex. um valor
negativo sem sentido ou um valor 234% quando na verdade se refere a 23,4%)
ou existncia de observaes anormais mas reais que, por alguma razo, no
faa sentido incluir na anlise.
n

A amplitude (A)
a diferena entre o mximo (Max) e o mnimo (Min) da varivel.
Pados exaustivos

1 Determinam-se os valores mnimo e mximo e calcula-se a amplitude por diferena


A=Max-Min
Dados classificados (tabela de frequncias)
i
| Considera-se o mnimo e o mximo como os limites inferior e superior da primeira e
| ltima classe, respectivamente; calcula-se a amplitude por diferena A=Max-Min
i

i 'M

III

Dados quantitativos
A amplitude pode ser calculada e tem significado directo.
Dados qualitativos ordinais
A amplitude no pode ser calculada mas pode ser substituda pelo nmero de
Categorias ordinais.
Dadas qualitativos nominais
A amplitude no pode ser calculada.

Ana Amaro, Cludia Silvestre, Leonor Fernandes |T a b e l a sde frequncias

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

7.2

Distncia inter-quartis

50% das emisses de CO variam 0,289 g km"1 (P75=0,434- P25=0,145) e dos nveis
de rudo dos automveis variam 3dB (P75=74- P25=71), correspondendo esta
amplitude a metade dos valores observados no centro na sua distribuio
(Quadro 111-17).
A distncia inter-quartis (diQ) corresponde a uma amplitude robusta
existncia de valores inesperados e erros nos extremos da distribuio. O seu
clculo indicar a disperso nos dados considerando apenas o seu miolo neste caso os 50% de observaes do meio.
Se, em alternativa, a informao estivesse classificada (Quadro 111-16) o
clculo da distncia inter-quartis teria de ser efectuado depois do clculo dos
1o e 3o quartis como vimos anteriormente ( 6.1). Para as emisses de CO o
valor seria igual a 0, 286 g Km"1 (P75=0,143- P25=0,429) e 2 dB (P75=73- P25=71)
para o nvel de rudo.
Poder ser interessante, em casos muito pontuais, utilizar a distncia interquartis para caracterizar a disperso em dados qualitativos ordinais, sempre
com carcter indicativo e adaptado.
A distncia inter-quartis (dio)
a diferena entre o percentil 75 (P75) e o percentil 25 (P25).
Dados exaustivos e classificados (tabela de frequncias)
Determinam-se os P75e P25e calcula-se a distncia inter-quartis por diferena
diQ= P75 P25

Dados quantitativos
A distncia inter-quartis pode ser calculada e tem significado directo.
Dados qualitativos ordinais
A distncia inter-quartis, adaptada, no deve ser calculada.
Dados qualitativos nominais
A distncia inter-quartis no pode ser calculada.

7.3

Desvio mdio

Para medir a disperso das observaes, at agora, utilizmos a amplitude e a


distncia inter-quartis, o segundo indicador, mais robusto se existirem erros
ou valores pouco esperados, mas ambos pobres no cumprimento do objectivo
avaliao da disperso.
Para dotar um indicador de disperso de poder teramos de lhe proporcionar a
possibilidade de utilizar toda a informao no seu clculo.
64

Medidas delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

O objectivo diferenciar conjuntos de dados mais concentrados de conjuntos


de dados menos concentrados. Podemos admitir que uma boa referncia para
medir a concentrao relativa o prprio valor mdio. Assim o valor mdio da
distncia de cada uma das observaes ao valor mdio parece ser uma
indicador rico na medida em que utiliza todas as observaes, mas talvez
pouco robusto existncia de erros ou valores inesperados nos dados. por
outro lado um bom indicador para deteco destes mesmos valores (talvez em
parceria com a amplitude). A este indicador chamaremos desvio mdio.
Consideremos os desvios mdios das emisses de CO (1,357 g Km"1) e do nvel
de rudo (0,163 dB) para os automveis a Diesel e a gasolina (Quadro 111-18).
muito interessante constatar o seguinte:
1- per si o desvio mdio tem as mesmas unidades que a varivel (neste
caso g Km"1 e dB);
2- no tem uma interpretao fcil, se quisermos incluir o seu
significado numa frase corrente;
3- quando utilizado para comparar duas situaes, como neste caso os
automveis a diesel e a gasolina, parece intuitiva a concluso de
que: a gama de variao das emisses de CO inferior nos
automveis a diesel quando comparados com os a gasolina (sendo
que os valores mdios das emisses tambm so mais reduzidas) e
que em termos de rudo so os automveis a diesel os mais
heterogneos no que respeita os nveis de rudo (com nveis mdios
mais reduzidos).
Quando afirmamos que os nveis mdios de rudo nos automveis a gasolina
so mais elevados, perguntamos logo de seguida se a nossa afirmao faz
sentido, isto se a diferena constatada relevante. O mesmo vlido
relativo concluso intuitiva anterior. Ser a diferena que constatamos
relevante?

QUADRO 111-18
Desvio mdio do nvel de rudo e das emisses de CO (para todos os tipos de automveis) e considerando apenas os
automveis a gasolina e os a gasleo.

Varivel

Conjunto

Rudo (dB)

Total

2865

1,357

72,33

Gasolina

1771

1,335

72,38

Diesel

1086

1,377

72,25

Total

2866

0,163

0,31

Gasolina

1772

0,145

0,41

Diesel

1086

0,082

0,15

Emisses de CO

Desvio mdio Valor mdio

Ana Amaro, Cludia Silvestre, Leonor Fernandes |T a b e l a sde frequncias

ESTATSTICA D E S C R I T I V A - O segredo dos dados


Captulo III

MiHliThtriTlTitl

0 desvio mdio (dffl)

o valor mdio d$ distncias entre as observaes eo seu valor mdio (x),

(n - nmero de observaes; k - nmero de ciasses)


Dados quantitativos e qualitativos nominais binrios (1/0)
O desvio mdio pode ser calculado e tem significado.

SkIsS
WfrW

Dados qualitativos ordinais

i desvio mdio pode ser calculado, usando uma codificao ordinal


0 resultado deve ser utilizado de forma qualificada.
Dados qualitativos nominais
WM
'Wlfc

0 desvio mdio no i r n qualquer significado,

7.4

Varincia e desvio padro

A varincia da concentrao das emisses de CO e nvel de rudo dos


automveis igual a 0,041 g2 Km"2 e 2,653 dB2 (Quadro 111-19). Os desvios
padro correspondentes so respectivamente 0,203 g Km"1 e 1,629 dB.
A disperso parece ser superior no nvel de rudo dos automveis a gasleo
que nos a gasolina. Para as emisses de CO a situao inversa. Seria muito
interessante verificar se esta pretenso tem fundamento: atravs de um teste
de hipteses, por exemplo...
QUADRO 111-19
Valor mdio, varincia e desvio padro do nvel de rudo e das emisses de CO (para todos os tipos de automveis) e
considerando apenas os automveis a gasolina e os a gasleo (diesel)

R u d o (dB)

E m i s s e s de C O

Total

2865

72,33

2,653

1,629

Gasolina

1771

72,38

2,523

1,588

Diesel

1086

72,25

2,837

1,684

Total

2866

0,31

0,041

0,203

Gasolina

1772

0,41

0,033

0,182

Diesel

1086

0,15

0,010

0,102

Medidas de disperso | A n a Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

varincia (s )
o valor mdio do quadrado das distncias entre as observaes e o seu valor
mdio (x).
,

1 JSi ,

1 JL

(n - nmero de observaes: k - nmero de classes)


m
0 desvio padro (s)
a raiz quadrada do valor da varincia
S=

J - z f { X ,1 -Xfl

Vntfv

'

e s = . - > n,(Xi-x
Vnti

I R p

(n - nmero de observaes; k - nmero de classes)


.

Dados quantitativos e qualitativos nominais binrios (1/0)


A
I P e o desvio
A

AA
,
, .
.
.
A
vanancia
padrao
podem
ser calculadas
e tem significado.
Dados qualitativos
A varincia e o desvio padro ,no tem qualquer significado.
1

O clculo da varincia muito semelhante ao do desvio mdio, com a


diferena de considerarmos os quadrados das distncias entre os valores e a
sua mdia. esta a razo das unidades da varincia corresponderem ao
quadrado das unidades da varivel.
O desvio padro apenas a raiz quadrada do valor da varincia, com o
objectivo de devolver a unidade ao indicador e torn-lo mais facilmente
interpretvel.
A varincia, quando comparada com o desvio mdio, indicador muito natural
da disperso, penaliza as grandes distncias ao valor mdio ao considerar o
seu quadrado, reduzindo por outro lado a importncia das distncias inferiores
unidade que, ao quadrado, como parcelas do numerador da varincia so
inferiores ao valor real da distncia. As suas propriedades estatsticas
associadas mais intuitiva interpretao do desvio padro tornaram este par
de indicadores os usuais indicadores de disperso.
O desvio padro, se a distribuio dos valores seguir uma lei Normal4, tem um
significado muito interessante e de fcil interpretao e processamento:
nestas condies a grande maioria das observaes da varivel, alm de se
distriburem segundo uma curva de Gauss, esto na sua maioria
aproximadamente compreendidas entre o valor mdio menos trs vezes o
desvio padro e o valor mdio mais trs vezes o desvio padro (Fig. 111-18).
4

O captulo IV dedicar-se- ao estudo da distribuio Normal, o seu significado assim como a


razo da sua importncia.

Ana Amaro, Cludia Silvestre, Leonor Fernandes |T a b e l a sde frequncias

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

4,0 r - r

3.5

3.0

2,5

0.0

'
0,0

0,2

'
0,4

'
0.6

'
0.8

E m i s s e s de C O (g Km"')

FIG. 111-18
Sendo Normais, o formato das distribuies das emisses de CO para os automveis a Diesel (a tracejado) e a
gasolina (a cheio) e nesse caso o significado do desvio padro

7.5

Coeficiente de variao

O coeficiente de variao dos nveis de rudo provocados pelos automveis


aproximadamente 60% (Quadro III-20). De um modo geral o coeficiente de
variao das emisses de CO cerca de 500%.
A maior ou menos heterogeneidade nos valores das variveis que analisamos e
quantificamos expressa normalmente atravs do desvio padro. Contudo,
importante compreender que o valor relativo dessa maior ou menos
heterogeneidade depende da referncia inicial que a ordem de grandeza da
varivel. O coeficiente de variao um indicador que relativiza o valor da
disperso (avaliada atravs do desvio padro) referindo-o ao valor mdio.
importante compreender o significado do coeficiente de variao como
medida de disperso relativa de um conjunto de dados (Fig. 111-19). 0 valor do
desvio padro transformado no linearmente de acordo com o princpio de
que
.

valores mdios inferiores a um (1) produzem coeficientes de


variao muito sensveis a variaes no desvio padro;

valores mdios superiores a dois (2) produzem coeficientes de


variao pouco sensveis a variaes no desvio padro;

valores mdios entre um e dois constituem uma zona de


transio.

, assim, muito importante interpretar o resultado de um coeficiente de


variao de acordo com a ordem de grandeza (<1 ou >1/>2) do valor mdio
que, na funo de transformao surge no denominador. Devido forma
68

Medidas delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

funcional do coeficiente de variao e sob o pressuposto de que o calculamos


para caracterizar a disperso relativa de um conjunto de dados, no muito
interessante utilizar este indicador quando o valor mdio inferior unidade.

QUADRO 111-20
Valor mdio, varincia e desvio padro e coeficiente de variao do nivel de rudo e das emisses de CO (para todos
os tipos de automveis) e considerando apenas os automveis a gasolina e os a gasleo (diesel)
varivel

Conjunto

Rudo (dB)

Total

2865

72,33

2,653

1,629

61

Gasolina

1771

72,38

2,523

1,588

63

Diesel

1086

72,25

2,837

1,684

59

Emisses de CO

Valor mdio Varincia Desvio padro Coeficiente de variao (%)

Total

2866

0,31

0,041

0,203

493

Gasolina

1772

0,41

0,033

0,182

549

Diesel

1086

0,15

0,010

0,102

982

Desvio p a d r o 1

FIG. 111-19
Relao entre o valor do coeficiente de variao e o valor mdio

0 coeficiente de variao (cv)


a razo entre o desvio padro e o valor mdio, em percentagem.
cv

= 4 . 1 0 0
x

(x - valor mdio; s - desvio padro)


Dados quantitativos
O coeficiente de variao pode ser calculado e tm significado.
Dados qualitativos
O coeficiente de variao no tem qualquer significado.

A n a A m a r o , C l u d i a S i l v e s t r e , L e o n o r F e r n a n d e s |T a b e l a sd e frequncias

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

8.

Medidas de forma
8.1

Simetria

A distribuio das emisses de CO para os automveis a gasleo (Fig. Ill-17a)


concentra-se muito do lado das emisses reduzidas, isto , elevada a
proporo de automveis a gasleo com nveis de emisses de CO reduzidas,
havendo poucos automveis com elevadas concentraes nas emisses de CO.
A distribuio no simtrica, podendo consider-la assimtrica direita (a
cauda da distribuio fica do lado direito). 0 mesmo se passa no caso dos
automveis a gasolina se bem que a proporo de automveis com reduzidas
emisses no to elevada (em termos relativos) no que respeita os
automveis com elevados nveis nas emisses (Fig. Ill-17b): esta distribuio
parece mais simtrica, (em 5.4 - Relao entre os trs indicadores de tendncia
central, ps. 54).

0 conceito de simetria da distribuio (ou assimetria, skewness)


interessante para caracterizar os "locais" de concentrao dos dados numa
varivel.
Como foi referido anteriormente, se as distribuies so simtricas, de livro
(isto quase perfeitas), e com uma nica moda (unimodais), o valor mdio
igual ao valor da mediana e ao da moda. Do mesmo modo, para distribuies
assimtricas os trs indicadores tornam-se diferentes ordenado-se de acordo
com a natureza da assimetria: direita a ordem pela qual surgem os trs
indicadores Mod < Med < x, se for esquerda a ordem ser a contrria: x <
Med < Mod. Mas importante estar alerta para a situao em que a
distribuio no unimodal mas, apesar de tudo simtrica: a moda j no
poder ser utilizada como indicador para construir um outro indicador, neste
caso, de simetria.
A distribuio das emisses de CO assimtrica positiva ou direita (a cauda
est do lado direito, do lado positivo), correspondendo-lhe uma maior
concentrao de dados do lado esquerdo da distribuio (Fig.lll-20a). Esta
constatao grfica pode ser complementada atravs de um indicador de
assimetria que, neste caso, assume o valor gF=0,887 (positivo).
Este indicador - o coeficiente de assimetria de Fisher (StatSoft, 2007 e
Microsoft, 2003) assume o valor zero (0) se a distribuio dos dados
perfeitamente simtrica, sendo negativo se a assimetria for negativa, isto
com a maior concentrao dos dados do lado direito ou a cauda do lado
esquerdo (negativo).
No caso dos nveis de rudo a distribuio assimtrica negativa ou esquerda
sendo o valor gF =-0,342. So, certamente, valores interessantes se se
pretender estabelecer uma comparao entre distribuies. Os valores do
indicador so adimensionais, com elevado poder de comparao.

70

Medidas delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

0.0

0.1

0.2

0.3

0,4

0.5

0,6

0.7

0.8

Em**de* dCO

0,9

1.0

1,1

12

1.3

1,4

(a)

(b)

FIG. III-20
Assimetria da distribuio das emisses de CO (a) e de rudo (b)

H inmeros indicadores de assimetria de mais intuitiva interpretao mas de


menor abrangncia e aplicabilidade:
.

o grau de assimetria de Pearson foi proposto em 1895, em que se


comparam o valor mdio e a moda, com referncia ao desvio padro,
tambm para tornar o indicador adimensional
0 clculo da moda nem sempre simples, quando se trata de dados
quantitativos contnuos: considera-se a moda ou o indicador decorrente
do estabelecimento de uma classe modal? Por outro lado em face de
distribuies com mais de uma moda o indicador perde o seu sentido...
segundo Stuart e Ord (1994) a distncia entre o valor mdio e a moda
pode ser aproximada a trs vezes a distncia entre o valor mdio e a
mediana.

os coeficientes de assimetria de Pearson que comparam o valor mdio


com a mediana (pela razo apontada anteriormente) e que leva
considerao de um outro (menos referido na literatura) que compara
com a menos forma funcional o valor mdio com a moda.
Muitos estatsticos usam estes indicadores ignorando o valor trs: mais
importante que o valor absoluto gerado pelo indicador a sua
utilizao comparativa conhecendo o princpio de clculo (a lgica que
levou sua implementao e utilizao).

o coeficiente de assimetria de Bowley que compara distncias entre


quantis.

0 apuramento dos quatro indicadores de assimetria conduz a concluses,


aparentemente, contraditrias (Quadro 111-21). Analisando a distribuio dos
valores associados s emisses de CO produzidas pelos automveis (Fig. III20a) verifica-se a ocorrncia de maiores frequncias de emisses de CO
reduzidas que elevadas. Os coeficientes de Fisher, Bowley e Pearson - med
acompanham esta constatao produzindo valores positivos, uma vez que se
assiste a uma assimetria positiva na distribuio dos valores. J o grau de
Pearson e o coeficiente de Pearson - mod produz um valor incompatvel com a
constatao: os indicadores comparam o valor mdio com a moda que nesta
distribuio especfica inverte ligeiramente a sua posio relativa ao valor
mdio e mediana (ou seja superior ao dois indicadores).
Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas de forma

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Estas situaes ocorrem com muita frequncia mostrando ou que a assimetria


verificada de grau ligeiro, na medida em que h inconsistncia em alguns
valores dos parmetros, ou que a definio de assimetria complexa e que
muito importante que a utilizao dos indicadores seja, adequada ao
movimento que se observa nos dados. Neste caso, porque se verifica, de facto
uma assimetria positiva na distribuio dos dados, no se deveria utilizar o
grau de assimetria de Pearson ou o coeficiente de Pearson - mod como
indicador.
QUADRO 111-21

Valores de diferentes indicadores de assimetria para os nveis de rudo e emisses de CO.


feRufd

Lndjdprjd&a simetijt
grau pearson

-0,165

-0,111

coeficiente pearson - med

0,414

0,608

coeficiente pearson - mod

-0,495

-0,333

0,044

-0,045

0,887

-0,342

coeficiente Bowley
coeficiente Fisher

A distribuio dos nveis de rudo (Fig. Ill-20b) apresenta uma assimetria


negativa (a cauda apresenta-se do lado esquerdo) consonante com os valores
dos coeficientes de Bowley, Fisher, Pearson - mod e o grau de Pearson (todos
negativos) (Quadro 111-21). 0 coeficiente de assimetria de Pearson - med, igual
a 0,068 sugere uma assimetria positiva que, de facto, no se verifica: neste
caso particular, a mediana surge do lado esquerdo do valor mdio (situao
menos habitual em presena de uma assimetria positiva).
O coeficiente de assimetria de Fisher o mais disseminado e vulgarizado na
implementao de algoritmos de clculo em software.
Uma das aplicaes importantes da anlise dos indicadores de assimetria,
para alm da tarefa prpria de caracterizar, o de auxiliar na deteco de
valores pouco esperados nos dados (usualmente designados de outliers)

72

Medidas delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Os coeficientes de assimetria de Pearson <gP)


distncia entre o valor mdio e a mediana ou moda
n

_ 3(x~Med)

3(x-Mod)
desvio padro)
...

0 coeficie

isimetria de Bowley (gB)


e os percentis 25 e 75 e a mediana
H W W H W ' ' '"'Hl ' T I

' I ' fli'| i(i i l 1 III1, i 1 U f

i 11 i l l

jKg

itil 25 e P75 - percentil 75)

Dados quantitativos

Os indicadores de assimetria no tem qualquer significado.

8.2

Achatamento

0 coeficiente de achatamento, kurtosis, (k) da distribuio do rudo e das


emisses igual a -0,248 e 1,736, respectivamente. O conceito de
achatamento, introduzido por Pearson em 1905, muitas vezes enquadrado
no conceito de distribuio medindo-se a distncia a que estamos da
Normalidade5 considerando o achatamento relativo da distribuio dos nossos
dados. Pearson designou as distribuies semelhantes distribuio Normal
como distribuies mesocrticas (k aproximadamente igual a 0), distribuies
mais achatadas designou-as por platicrticas (k<0) e as leptocrticas (k>0). O
conceito de achatamento mais abrangente do que se enquadrado na
referncia da lei Normal. Considerando o comportamento da funo gerada
pelo indicador podemos concluir que: mais observaes nos extremos do que
no caso de uma lei Normal e estaremos em presena de uma distribuio
platicrtica (por ex. uma distribuio bimodal sendo as modas os extremos da
varivel); pelo contrrio se a distribuio se caracterizar por uma raridade de
observaes nos extremos estaremos em presena de uma distribuio
leptocrtica.

O captulo IV dedicar-se- ao estudo da distribuio Normal, o seu significado assim como a


razo da sua importncia. Talvez voltar a este tpico depois de ler e analisar o captulo IV.
Ana Amaro, Cludia Silvestre, Leonor Fernandes | Medidas de forma

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

coeficiente de achatamento de Pearson(k)


Mede o achatamento da distribuio relativamente de uma distribuio
Normal
1

n(n +1)

ffx,-5cV

(n-l)(ri-2X0-3)^1

3(n-l) 2
(n - 2)(n - 3)

(x - valor mdio; s - desvio padro, n - dimenso da amostra)


Dados quantitativos
0 coeficiente de achatamento pode ser calculado e tm significado.
Dados qualitativos
0 coeficiente de achatamento no tem qualquer significado.

9.

Sntese
9.1

Estatstica

Os dados relativos a um determinado contexto podem-nos ser fornecidos em


dois formatos diferentes:
.

exaustivamente ou em bruto, tal como so obtidos ou

de modo classificado, isto resultado de um pr-processamento.

0 processamento matemtico, com vista sua caracterizao, de modo


complementar sua representao grfica, tem o valor equivalente ao tipo de
dados a processar. Garbage in, garbage out (GIGO) uma expresso que surge
associada informtica, muita vezes atribuda a George Fuechsel um
formador IBM 305 RAMAC novaiorquino, que pretende ilustrar com muita
veemncia o facto de por melhores que sejam os instrumentos de anlise computadores, software ou mtodos analticos - se a infomao de base no
for fidedigna e correcta nada de interessante ser produzido resultado do seu
processamento.
Admitindo qualidade nos dados, h uma diferena entre dados exaustivos e
classificados no seu potencial de processamento: os primeiros produzem
indicadores, os segundos indicadores aproximados.
No Quadro 111-21 resume-se a pertinncia do clculo de cada um dos
indicadores numricos referidos.

74

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

QUADRO 111-21

Linha de orientao para o tipo de indicador a adoptar (NA - no aplicvel, OK


interpretao)
Tipo de dados

Tipo

Qualitativo

Quantitativo

9.2

pode ser calculado e tem

Indicadores

Sub-tipo

Valor mdio

Mediana e
Quantis

Moda

Amplitude

diQ

Desvio mdio,
varincia, desvio
padro, coeficiente de
variao, indicadores
de assimetria e
achatamento

Nominal

NA

NA

OK

NA

NA

NA

Ordinal

com
codificao
ordinal adaptada

com
codificao
ordinal adaptada

OK

Nmero de
categorias

NA

NA

Discreto

OK

adaptada

OK

OK

adaptada

OK

Continuo

OK

OK

OK de dados
classificados

OK

OK

OK

(adaptado)

Tcnica

As concluses relevantes que decorrem da anlise efectuada so:


.

H poucos automveis a gasleo com elevadas emisses de CO. A


grande maioria emite concentraes reduzidas.

Nos automveis a gasolina as emisses parecem ser, de um modo geral,


mais elevadas, sendo a sua distribuio mais equilibrada que no
respeitante aos automveis a gasleo.

As emisses de CO so mais elevadas e hetergeneas nos automveis a


gasolina.

Os nveis mdios de rudo provocados pelos automveis a gasleo e a


gasolina so semelhantes.

Nos automveis a gasleo os nveis de rudo variam mais do que nos


automveis a gasolina onde parece existir maior homogeneidade nos
nveis de rudo.

As questes geradas por alguns dos comentrios, nomeadamente quando


comparmos valores (neste caso valores mdios ou disperses) sugerem a
necessidade de testar a veracidade das nossas pretenses.

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

Captulo III

76

ESTATSTICA DESCRITIVA - O segredo dos dados

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Captulo IV
A distribuio Normal
God does arithmetic, Carl Friedrich Gauss (1777-1895)

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

Captulo III

78

ESTATSTICA DESCRITIVA - O segredo dos dados

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

A distribuio Normal uma das mais importantes distribuies


de variveis aleatrias continuas. Foi descrita matematicamente,
pela primeira vez, por De Moivre (1667-1754), em 1733, usada por
Laplace (1749-1827), em 1783, para descrever o comportamento do
erro e, mais tarde em 1809, por Gauss (1777-1895) para descrever
dados astronmicos. O trabalho de Gauss associado distribuio
Normal obteve tanta notoriedade que a curva usualmente
designada por curva de Gauss (Fig. Iv-1).

FIG.

I V - l

Cpia de uma nota de 10 marcos em homenagem a Gauss e distribuio Normal

http://www.pballew.net/tenmark.jpq [2008-03-19])

O primeiro a aplicar a distribuio Normal a dados de natureza


sociolgica foi Adolph Quetelet (1796-1874): recolheu informao
sobre a dimenso dos queixos de soldados escoceses
tendo
constatado aparentarem uma distribuio Normal. Concluiu que o
valor mdio correspondia dimenso ideal e que o desvio para
qualquer um dos lados do valor mdio correspondia a um desvio,
natural, do ideal.

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

1.

Objectivo

No possvel falar de estatstica ou de anlise de dados, sem falar da


distribuio Normal.
Neste captulo abriremos um parnteses no processamento dos nossos dados
para analisar um pouco o fundamento da distribuio Normal e a sua
importncia como instrumento analtico.

2.

Introduo

A distribuio Normal uma constatao e no uma inveno. Ao analisar o


formato da distribuio de diferentes conjuntos de dados associados a
diversas variveis aleatrias - e se o fizermos utilizando software com
funcionalidades grficas apropriadas - constatamos que, em muitos casos e
por omisso, desenhada uma curva complementar ao histograma desenhado
(Fig. IV-2): uma curva resultado grfico da funo densidade Normal
considerando o valor mdio dos dados e o seu desvio padro.

ftoiM Levei dB<A) 2e65TnofmS(x; 72.3289, 1.629)

64

65

66

67

70

71

72

73

74

Emiwiof* CO 2966*0,2* nofrmKx 0.306; 0,203)

75

76

77

78

79

0.2

Nhald* rudo dB(A)

0.0

0.2

0,4

0,6

(a)

0.8

1.0

12

1.4

1.6

1,8

2.0

Eni*.d.CO

Errisaior HC - 1794*0.02* normas 0,0522. 0.0194)

T\

1 I
-0,02

0.00

0,02

0.04

0,06

0.06

0,10

EmraaAet d HC

0.12

0.14

0,16

0.18

0.20
^j

FIG. IV-2
A distribuio do nvel de rudo (a), das emisses de CO (b) e de HC (c)

80

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

2,2
(ty

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Em alguns casos o ajustamento do histograma curva parecer mais evidente


que em outros casos menos prximos de, na verdade, aparentarem a
distribuio Normal:
o o nvel de rudo emitido pelos diferentes automveis (Fig. IV-2a), com
comportamento prximo do Normal tende, em mdia, a ser igual a
72,33 dB - o valor ideal do ponto de vista de Quetelet, neste caso o
valor mais caracterstico dos automveis em geral; para valores mais
reduzidos ou superiores h menos automveis:
com nveis de rudo reduzido uma vez que o esforo de reduo
aumenta e importa custos que vo rareando medida que aumenta
e
com nveis de rudo elevado uma vez que colidem com
preocupaes ambientais, transversais sociedade actual de
modo universal - ficam alguns extremos mas so poucos.
o as emisses de CO no parecem adoptar o mesmo tipo de
comportamento; h muitos automveis que conseguiram reduzir quase
a zero as emisses de CO - a grande maioria, tendo remanescido um
conjunto com emisses de CO elevadas que rareiam com o aumento da
concentrao.
o as emisses de HC tm uma distribuio mais prxima do Normal,
talvez por ser mais difcil, tcnica e financeiramente, reduzir
completamente as suas emisses: assim, e tal como o nvel de rudo,
identifica-se a concentrao mdia de 0,0522 g/km tpica com valores
superiores e inferiores a tenderem para o residual.
A distribuio Normal, visvel em muitos conjuntos de dados que ilustram o
comportamento de determinada varivel, parece ser o resultado da aplicao
de uma lei: a influncia de um conjunto de efeitos aleatrios e independentes
uns dos outros na sua construo.
O exemplo mais simples e claro sobre a gnese de uma varivel aleatria com
um comportamento Normal deve-se a Sir Galton (1822-1911). Consta que a
matemtica no era o seu "forte" mas Sir Galton demonstrou que um
conjunto de bolas, todas com a mesma dimenso e peso, deixadas cair do
topo de um conjunto de "pins" geometricamente arrumados, batendo em
cada nvel num deles assumindo de seguida um trajecto, se arrumam segundo
um formato familiar: o da curva Normal (Fig. IV-3). De facto a posio final de
cada uma das bolas determinada por acontecimentos - neste caso oito independentes e aleatrios relativos opo da bola em cada um dos nveis
(esquerda ou direita).

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

ESTATSTICA DESCRITIVA - 0 segredo dos dados

Captulo IV

B B V S S B U U B a a i l B
B a e a & u a a a a a a a a a a B B B t t

UUUUUUUUUUUBUUUUUUUSI

aBiaiinittiiagiigiinii
BiiniagiiagiiBiiBaa

a a B B B B a a u H f l B U H a a a a a a

B B B U u a a s u s a a a a s u c i n B

a a H a a a a a a w M t f w t a a

BiagaiiigagaiBBiiiaa

BBBBiaaiiuBBa w st a xi v u
a u u u a a a u a B a a u u u u B s a a

u u u a a u a a u a t t a a M u & i u u

B B a a a a a a i B i a a a a w u a u a

a a a a a w s a a u u u a a u
B B f l f l s a a B g a B a u u u u B B a a
B

B J B

B U V H B 9

u a a a a u a a a a a a u a a u u a a a
a a a a a a 1 a a U f a B
u a a a a w w a a a

'

S > H B B S B S

FIG. IV-3
A ilustrao simples, de autoria de Sir Galton (1822-1911), da gnese da distribuio Normal
http://www.ms.uky.edu/-mai/java/stat/GaltonMachine.html [2008-03-19]

Forma funcional da funo densidade de uma varivel aleatria com


distribuio Normal

(ja - valor mdio, a - desvio padro)

3.

Caractersticas da funo densidade de uma varivel aleatria com


distribuio Normal

A funo densidade de uma varivel aleatria (aqui designada por X) com


distribuio Normal uma funo cujo domnio R, isto todos os valores
reais (percorrendo-os de -oo a +oo). 0 formato da funo densidade o de um
sino: a sua localizao no eixo das abcissas funo do valor mdio n e a
maior ou menor concentrao da curva funo do desvio padro a
(Fig. IV-4). A moda e a mediana de uma varivel aleatria com distribuio
Normal so iguais a y. e os coeficientes de assimetria e achatamento (ver Cap.
111-8) so todos nulos. A funo densidade apresenta, portanto, o seu mximo
quando x=jj. e dois pontos de inflexo x = | a - a e x = n + a .
A uma varivel aleatria com distribuio Normal, valor mdio 0 e desvio
padro igual unidade, chama-se Normal padro ou Normal standard
(Fig. IV-4a) e designa-se, tipicamente, por Z.

82

Caractersticas da funo densidade de uma varivel aleatria com distribuio

ESTATSTICA DESCRITIVA - O segredo dos dados


Capitulo IV

0,20
0.(6

/
//
/

0,1?

0,10

0,08

\
\
V

0.06
0.04

'

0,14

\\
\

L
\

0,18

/
//

./--"X

V
\

\ \:i

0.02

/
-3

-2

(a)

000
6

10

11

12

13

14

(b)

FIG. IV-4
A funo densidade de uma varivel aleatria com distribuio Normal padro (a) e Normal com valor
mdio 10 e desvio padro 2 (b)

Em R, a rea que est representada sob a curva igual a 1. As reas que a


funo densidade delimita pretendem representar probabilidades de
ocorrncia dos valores compreendidos no respectivo intervalo. Por ex. o valor
da rea entre dois valores (10 e 11) sob a funo densidade de uma varivel
aleatria Normal com valor mdio 10 e desvio padro 2, uma probabilidade
P[10<X<11] que, certamente, ter um valor inferior a um (Fig. IV-5). 0 clculo
do integral da funo entre aqueles dois limites (10 e 11) proporcionaria o
resultado pretendido se a funo fosse integrvel analiticamente: no o !

FIG. IV-5
Representao da probabilidade da varivel aleatria (com distribuio Normal com valor mdio 10 e
desvio padro 2) assumir um valor entre 10 e 11.

Para ultrapassar esta questo e porque a necessidade de calcular


probabilidades associadas a variveis aleatrias com distribuio Normal
vulgar, integrou-se numericamente a funo densidade de uma varivel
aleatria com distribuio Normal padro. 0 resultado foi organizado numa
tabela que consultada para o efeito sob a designao de Funo distribuio
por representar a rea acumulada at um valor positivo da varivel aleatria
(Fig. IV-6). Para calcular reas (ou probabilidades) associadas a valores
Ana Amaro, Cludia Silvestre, Leonor Fernandes Caractersticas da funo

ESTATSTICA DESCRITIVA - 0 segredo dos dados

Captulo IV

negativos usa-se o facto da varivel aleatria ser simtrica em torno do seu


valor mdio, 0.
H inmeros formatos para este tipo de tabelas mas todas elas so
autosuficientes e permitem dar resposta s questes relacionadas.
-

...

Determinao de probabilidades associadas a uma varivel aleatria com


distribuio Normal padro (consulta directa tabela da Fig. IV-6)
P[Z < 1,04] = P[Z<a,04] = 0,8508
3

[Z > 1,04] = P[Z * 1,04] = 1 - m * 1/04] = 1 - 0 , 8 5 0 8 = 0,1492

PfZ < -1,04] ~ P[Z < -1,04"] ^ P[Z 1,04] = 1 - P|Z < 1,04] = 1 - 0 , 8 5 0 8 1 0,1492
:onverso de uma varivel aleatria Normal com distribuio Normal com
valor mdio g f | e desvio padro
(X) numa Normal padro (Z)
11 _ m

] = P[Z< 0,5] = 0,6915

mminao de probabilidades associadas a uma varivel aleatria com


distribuio Normal com valor mdio y-10 e desvio padro cr2
: X * 11] = P[X < 11]-P[X < 10] - P[Z < 0/5] - P[Z < 0] = 0,6915-0,5 = 0,1915

Em suma, para calcular probabilidades associadas a uma varivel aleatria


com distribuio Normal s precisamos de conhecer o seu valor mdio,
e
desvio padro, a. Com a ajuda dos resultados da integrao numrica de uma
varivel com distribuio Normal padro, organizados numa tabela (designada
correntemente por "tabela da Normal padro"), calculam-se todos os valores
de probabilidade necessrios.

84

Caractersticas da funo densidade de uma varivel aleatria com distribuio

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo IV

F u n o DISTRIBUIO
N O R M A L padro

Funo d cndade

Funo diribuio

P[Z < z]=xxxx

30

-1,75

O.DD

1.75

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.5000

0.5040

0.5080

0.5120

0.5160

0.5199

0.5239

0.5279

0.5319

0.5359

0.1

0.5398

0.5438

0.5478

0.5517

0.5557

0.5596

0.5636

0.5714

0.5753

0.5793

0.5832

0.5871

0.5910

0.5948

0.5987

0.6064

0.6103

0.6141

0.3
0.4
0.5

0.6026

0.5675

0.2

0.6179

0.6217

0.6255

0.6293

0.6331

0.6368

0.6406

0.6443

0.6480

0.6517

0.6554

0.6591

0.6628

0.6664

0.6700

0.6736

0.6772

0.6808

0.6844

0.6879

0.6915

0.6950

0.6985

0.7019

0.7054

0.7088

0.7123

0,7157

0,7190

0.7224

0.6

0.7257

0.7291

0.7324

0.7357

0.7389

0.7422

0.7454

0,7486

0,7517

0.7549 |

0.7

0.7580

0.7611

0.7642

0.7673

0,7704

0.7734 i 0.7764

0.7794

0.7823

0,7852

0.0

0.7881

0.7910

0.7939

0.7967

0.7995

0.8023

0.8051

0.8078

0.8106

0.8133

0.9

0.8159

0.8186

0.8212

0.8238

0.8264

0.8289

0.8315

0.8340

0.8365

0,8389

0.8413

0.8438

0.8461

0.8485

ft.8508 0.8531

0.8554

0.8577

0.8599

0.8621

1.1

0.8643

0.8665

0.8686

0.8708

0.8729

0.8749

0.8770

0.8790

0.8810

0.8830

1.2

0.8849

0.8869

O.i

0.8907

0.8925

0.8944

0.8962

0,8980

0.8997

0.9015

1.3
1.4
1.5

0.9032

0.9049

0.9066

0.9082

0.9099

0.9115

0.9131

0.9147

0.9162

0.9177

0.9192

0.9207

0.9222

0.9236

0.9251

0.9265

0.9279

0.9292

0.9306

0.9319

0.9332

0.9345

0.9357

0.9370

0.9382

0.9394

0,9406

0.9418

0.9429

0.9441

1.6

0.9452

0.9463

0.9474

0.9484

0.9495

0.9505

0.9515

0.9525

0.9535

0.9545

1.7

. 0.9554

0.9564

0.9573

0.9582

0.9591

0.9599

0.9608

0.9616

0.9625

0.9633

1.8

0.9641

0.9649

0.9656

0.9664

0.9671

0.9678 | 0.9686

0.9693

0.9699

0.9706

1.9

0.9713

0.9719

0.9726

0.9732

0.9738

0.9744

0.9750

0.9756

0.9761

0.9767

0.9772

0l9778_ 0.9783

0.9788

0,9793

0.9798

0.9803

0,9808

0.9812

0.9817

2.1

0.9821

0.9826

0.9830

0.9834

0.9838

0.9842

0.9846

0,9850

0.9854

0.9857

0.9861

0.9864

0.9868

0.9871

0.9875

0.9878

0.9881

0.9884

0.9887

0.9890

2.3
2.4
2.5

0.9893

0.9896

0.9898

0.9901

0.9904

0.9906

0.9909

0.9911

0.9913

0.9916

0.9918

0.9920

0.9922

0.9925

0.9927

0.9929

0.9931

0.9932

0.9934

0.9936

0.9938

0.9940

0.9941

0.9943

0.9945

0.9946

0.9948

0.9949

0.9951

0.9952

2.6

0.9953

0.9955

0.9956

0.9957

0.9959

0.9960

0.9961

0.9962

0.9963

0.9964

2.7

0.9965

0.9966

0.9967

0.9968

0.9969

0.9970

0.9971

0.9972

0.9973

0.9974

2.8

0.9974

0.9975

0.9976

0.9977

0.9977

0.9978

0.9979

0.9979

0.9980 i 0.9981

2.9
3
3.1
3.2
3.3
3.4
3.5

0.9981

0.9982

0.9982

0.9984

0.9985
0.9989 | 0.9989
0,9992
0.9992
0.9994
0.9994
0.9996
0.9996
0.9997
0.9997
0.9998
0.9998

0.9985

0.9986

0.9986

0.9989

0.9990

0.9990

0.9992

0.9993

0.9993

0.9995

0.9995

0.9995

0,9996

0,9996

0,9997

0,9997

0,9997

0,9998

0.9998

0.9998

0.9998

2^2

0.9983

0.9984

0.9987

0.9987 ; 0.9987 j 0.9988

0.9988

0.9990

0.9991 i 0.9991

0.9991

0.9992

0.9993

0.9993 ! 0.9994 0.9994

0.9994

0.9995

0.9995

0.9995 ' 0.9996

0.9996

0.9997

0.9997 I 0.9997
0.9998 0.9998

0.9998

0.9997

0.9997

0.9998

0.9998

FIG. IV-6
Resultado da integrao numrica da funo densidade de uma varivel aleatria Normal padro
(porex. P[Z<1,04]=0,8508 ou z0,,4,2=1,04)

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Caractersticas da funo

Captulo IV

4.

ESTATSTICA DESCRITIVA - 0 segredo dos dados

O Teorema do Limite Central (TLC)

Ao recolher uma amostra de uma populao estatstica (conjunto de valores


que a varivel aleatria pode assumir) associada a uma varivel aleatria,
com o objectivo de inferir sobre os seus parmetros - por ex. valor mdio ou
desvio padro, associando uma indicao de confiana aos resultados,
fundamental conhecer o comportamento - no que diz respeito sua
distribuio - das variveis aleatrias envolvidas.
Com o objectivo de estimar os parmetros (por ex. o valor mdio, p ou o
desvio padro, a) de uma varivel aleatria recolhemos uma amostra
representativa da populao estatstica. De seguida calculamos o seu valor
mdio (*) e o seu desvio padro (s). Podemos simular a repetio deste
procedimento e obter tantos valores mdios e desvios padro quantas as
amostras que recolhermos.
Consideremos a varivel aleatria nvel de rudo e o procedimento descrito.
Podemos definir dois nveis de conhecimento:
o o da varivel aleatria X - nvel de rudo, cujos valores correspondem
ao nvel de rudo de cada automvel; para esta varivel aleatria
recolhem-se diferentes amostras de dimenso n e com as quais se
calculam diferentes valores mdios (designados por x) e desvios padro
(designados por s).
o o da varivel aleatria X - nvel mdio de rudo para n automveis
seleccionados ao acaso do conjunto total de automveis. Os valores
desta varivel so os diferentes x referidos anteriormente.
H uma ligao entre estas duas variveis aleatrias:
o Os parmetros da varivel aleatria X - nvel de rudo, so p eCT,nestas
circunstncias de amostragem, desconhecidos.
Resultam do
processamento da populao estatstica, a que neste contexto, no
temos acesso.
o A distribuio da varivel aleatria X , tambm, desconhecida. A este
respeito interessam-nos duas situaes: ou a distribuio Normal ou
no o .
o 0 valor mdio da varivel aleatria X - nvel mdio de rudo para n
automveis , tambm, igual a p. Quanto ao seu desvio padro no
difcil compreender que as observaes desta varivel - os nveis
mdios de rudo de n automveis (designados por x) - so mais
semelhantes entre si que os nveis de rudo de cada automvel. O

86

O Teorema do Limite Central (TLC) | Ana Amaro, Cludia Silvestre, Leonor

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo IV

desvio padro desta varivel aleatria inferior a a e igual a /=, valor


Vn
tambm conhecido como erro padro,
o Quanto distribuio da varivel aleatria X constata-se que
. se a varivel aleatria - me (X) se distribuir segundo uma lei
Normal, X assume o mesmo comportamento.
. Se X no se distribuir segundo uma lei Normal, a varivel aleatria
X assume um comportamento aproximadamente Normal para
elevados valores de n; quando a dimenso da amostra reduzida a
distribuio de X no Normal nem igual distribuio de X. Na
prtica comum assumir-se o nmero 30 a 50 como o nmero de
observaes a considerar na amostra para que a varivel aleatria
X j possa considerar-se com comportamento aproximadamente
Normal. A aproximao distribuio Normal atinge-se tanto mais
rapidamente quanto mais "bem comportada" for a distribuio da
varivel aleatria - me (X) (Fig. IV-7).

Distribuio de X

t i

Btetap.

i i

Distribuio de X n=2

(a)

A * " *
W-J

"

(b)

FIG. IV-7
Exemplo de uma distribuio assimtrica positiva (no Normal) de uma varivel aleatria X e da mdia
( X ) calculada com duas observaes de X (a) e 25 observaes de X (b)
http://www.ruf.rice.edu/-lane/stat sim/samplin dist/ T19-03-20081

A este conjunto de resultados comum designar-se como o resultado prtico


do Teorema do Limite Central cujo enunciado e demonstrao pode ser
consultado por ex. em Murteira (1990).
As implicaes deste resultado so de extrema importncia na medida em que
conduzem possibilidade de efectuar um conjunto de testes (estatsticos)
partindo de um conjunto de suposies que parecem ser legtimas.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | O Teorema do Limite Central (TLC)

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo IV

5.

Exemplificao da importncia do Teorema do Limite Central

Consideremos a varivel aleatria nvel de rudo dos automveis


relativamente qual se recolheu uma amostra aleatria relativa a 30
automveis. Calculou-se x = 72,497 (Quadro IV-1).
Neste contexto - a impossiblidade de acesso populao estatstica pretende-se conhecer p e no x.
Ao abrigo do TLC, como a amostra tem uma dimenso (30) que nos permite

afirmar que X~N(p,-^==r), podemos concluir -de forma aproximada - que 95%
dos x (observaes desta varivel aleatria) estaro compreendidos entre
pl,96-^== (ver tabela da Normal padro, Fig. IV-6, em que zo,o25=1>96).
Como a nica pea de informao que temos x podemos inverter o ponto
de vista e afirmar que a probabilidade de o intervalo x 1,96-^== conter o p
0,95. Chamamos-lhe um intervalo de confiana para p.
Intervalo de confiana para p
(conhecendo a)
"h/2 ^J^
(x - valor mdio da amostra, a - desvio padro da populao estatstica de X,
n - dimenso da amostra, a - nvel de significncia e za/2 o valor de uma
varivel aleatria com distribuio Normal padro cuja rea sua direita e
sob a funo densidade igual a a/2)

Na prtica ao desconhecermos p, tambm desconhecemos a, tornando-se


assim impossvel calcular os limites de um intervalo de confiana para p, tal
como descrito. O que temos para subsituir o o o desvio padro da amostra,
Quando, no Cap. Ill - 7.4, analismos o conceito de desvio padro
considermo-lo uma raiz quadrada de um valor mdio de quadrados da
distncia entre os diferentes valores que a varivel assume e o seu valor
mdio. essa a sua definio.
Neste contexto de inferncia, porm, o valor mdio em causa o da
populao estatstica, p, o que limita o clculo do desvio padro na medida
88

Exemplificao da importncia do Teorema do Limite Central | Ana Amaro, Cludia

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo IV

em que desconhecido. De imediato se considera o valor mdio da amostra,


x, como o indicador relativamente ao qual se calculam as distncias para
cada uma das observaes da amostra.
0 resultado deste procedimento muito interessante na medida em que o
desvio padro da amostra, calculado como a raiz quadrada do valor mdio do
quadrado das distncias dos valores da amostra ao seu valor mdio, , em
mdia, inferior ao desvio padro, a, da populao estatstica (estimativa
enviesada - no centrada, Murteira (1990), Guimares e Cabral (2007)). Para
corrigir este ligeiro problema em vez de dividir a soma de quadrados pela
dimenso da amostra, n fazmo-lo pelo nmero de graus de liberdade1 (n-1).
Em suma no contexto da inferncia importante calcular estimativas com
propriedades adequadas aos objectivos. Neste caso especfico deveremos,
sempre, calcular a varincia ou o desvio padro corrigidos (dividindo pelo
nmero de graus de liberdade) para garantir que so estimativas centradas.
A varincia (corrigida) para efeitos de inferncia

(x - valor mdio da amostra, n - dimenso da amostra)

O desvio padro (corrigido) para efeitos de inferncia

(x - valor mdio da amostra^ n - dimenso da amostra)

Finalmente estaremos em condies de calcular um intervalo de confiana


para
usando s'=1,842 (Quadro IV-1).
importante relembrar que o TLC, pelo facto da amostra ter uma dimenso

<j

(30) compatvel, nos permitiu afirmar que X~H{\i,-j=).

V 30

A "conta" efectuada

para calcular os limites do intervalo de confiana ter de ser alterada por


fora da utilizao do s' em vez de CT.
A impreciso do valor de s' como estimativa de a, obriga, muito
naturalmente, a alargar o intervalo de confiana para lhe podermos afectar o
mesmo grau de confiana: para um grau de confiana de 95% em vez de
utilizar 1,96 como factor para a determinao da amplitude do intervalo de
confiana, utilizaremos um valor superior a 1,96 (devido impreciso)
dependente no nmero de graus de liberdade da soma de quadrados associada
1

O nmero de graus de liberdade um indicador associado a uma soma de quadrados e que


representa o nmero de parcelas independentes da mesma.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Exemplificao da importncia do

ESTATSTICA D E S C R I T I V A - O segredo dos dados


Captulo IV

ao clculo de s' (nota: quanto menor a dimenso da amostra maior a


impreciso associada estimativa de a).
Em causa est
correspondncias:

utilizao

de

um

resultado

com

as

seguintes

o Ao abrigo do TLC, X~N(p,-^=)o que implica --V3~N(0,1)


V30
o
o

Ao substituir a por s' em


X~N(p,a),

->/3~N(0,1), e com a restrio de

,^T3~t 29 isto em vez de uma varivel aleatria com

distribuio Normal padro passamos a estar na presena de uma


varivel aleatria com distribuio t-Student, neste caso, com 29 graus
de liberdade (Fig. IV-8).
Nestas novas circunstncias podemos concluir que aproximadamente 95% dos
s'
valores x estaro compreendidos entre p 2 , 0 4 5 - y = (ver tabela da tStudent, Fig. IV-8, em que t29;o,025=2,045). De novo, como a nica pea de
informao que temos x podemos afirmar que a probabilidade de o

s'

intervalo x 2,045 - 7 = conter o p e 0,95. Chamamos-lhe um intervalo de


V30
confiana para p e pode ser calculado: 72,50 2 , 0 4 5 ^ ^ ( Q u a d r o IV-1)

QUADRO IV-1
Estimativas dp valor mdio, n, do desvio padro, o, e limites de um intervalo de
confiana a 95%, calculados com base numa amostra aleatria de 30 valores de rudo
(dB) associados a automveis
Indicador

smbolo

Estimativas

valor m d i o

72,50

desvio padro

s'

1,842

IC95%

90

71,809 ; 73,185

Exemplificao da importncia do Teorema do Limite Central | Ana Amaro, Cludia

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

varivel aleatria com distribuio t-Student, com n-1 graus de liberdade,


cuja rea sua direita e sob a funo densidade igual a a/2)
"

'

...........

'

- .

Na prtica pode considerar-se que quando a dimenso da amostra


suficientemente grande - superior a 30 - que o desvio padro corrigido, s', j
uma "boa" aproximao de a. Nestas circunstncias deixa de ser necessrio
garantir que X se distribui segundo uma lei Normal e pode utilizar-se a
distribuio Normal padro como aproximao da t-Student.

Intervalo de confiana para y


..... m j g r B ^ m - f f ^

(desconhecendo o, com uma amostra de dimenso superior a 30)


xz

fflBSSi

i (x - valor mdio da amostra, s' - desvio padro (corrigido) da amostra de X,


n - dimenso da amostra, a - mvel de sigmficancia e z . - o valor de uma
' l i * ' j.
u ~ n
i J '
- & Jvariavel aleatria com distribuio Normal padrao cuja area a sua direita e
sob a funo densidade igual a a/2)
mjBSM

6.

Testes de Normalidade

A importncia da distribuio Normal inegvel: alm de caracterizar o


comportamento natural de um conjunto de variveis base de trabalho para
um conjunto de procedimentos tpicos na anlise de dados.
0 Teorema do Limite Central ajuda-nos a resolver um conjunto de problemas
se as nossas preocupaes se situarem depois da varivel X, isto j em X,
desde que a dimenso da amostra com que lidamos seja elevada (na prtica
superior a 30).
Pode, contudo, ser muito importante verificar se determinada varivel tem
um comportamento Normal: quando a amostra reduzida e se pretende
inferir, em alguns procedimentos que envolvem a avaliao do erro (por ex.
em regresso linear), ou quando se pretende inferir relativamente a outros
parmetros que no (a, como por exemplo a. Neste caso para calcular
Ana Amaro, Cludia Silvestre, Leonor Fernandes|Tabelas

de frequncias

Captulo III

ESTATSTICA DESCRITIVA - O segredo dos dados

intervalos de confiana ou testar hipteses relativas ao seu valor teremos de


ter uma garantia de que X se distribui segundo uma lei Normal.
Para verificar se uma varivel aleatria segue uma lei Normal podemos
utilizar mtodos grficos:
o Desenhar um histograma para visualmente apreciarmos a sua
proximidade ao comportamento de uma varivel aleatria com
distribuio Normal com os mesmos valores mdio e desvio padro (Fig.
IV-9a). Neste caso a distribuio amostrai no parece ajustar-se ao
modelo Normal (curva). No fcil apreciar o ajustamento de uma
distribuio amostrai ao comportamento Normal, sobretudo quando a
amostra reduzida.
o A alternativa - que funciona tambm como complemento - comparar
o valor observado com o correspondente ao de uma varivel aleatria
Normal padro, considerando para tal a ordenao dos valores
observados e a correspondncia atravs dos seus quantis. Este tipo de
grficos tem a designao de Normal probability-plot. No caso de se
verificar a Normalidade dos dados os dois conjuntos de pontos
desenham uma recta num grfico de disperso: a posio relativa dos
valores segue a lei Normal (Fig. IV-9b). Mais uma vez, no clara a
deciso: por um lado a recta no coincide com os pontos do grfico,
por outro o nmero de observaes reduzido.
Pela dificuldade inerente apreciao visual e consequente deciso, esta
anlise grfica , usualmente, complementada com um ou mais testes: h
inmeros, estudados e analisados, que permitem verificar a possibilidade de
uma determinada varivel seguir uma distribuio Normal: Quiquadrado, WilkShapiro, Kolmogorov-Smirnov, Jarque Bera, entre outros. Todos eles
pressupem, como hiptese de partida, que a amostra proveniente de uma
distribuio Normal. Consideraremos, em detalhe, o teste Quiquadrado
(adequado para amostras de grandes dimenses) e o de Wilk-Shapiro (muito
interessante para amostras de dimenso reduzida).

92

Medidas delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo IV

Funo DISTRIBUIO
t-Student

Funo distribuio

F u n o densidade
1.0
/
P[ti<1.753)=F(1.753)

P[tg, < t ] = x x x

0,125

0.000
-3,50

/
0.6

h V
1 \\
/

0,250

0,00

0.2

\
-1,75

0.4

/
/

/0.8

VA

0.375

0.95

1,75

3,50

u.u
-3.50

-1.75

0,00

1,75

3,50

gl \ XXX

0,999

0,995

0,990

0,975

0,950

0,900

0,350

0,800

0,700

0,b00

0, 500

318,3

63,656

31,821

12,706

6,314

3,078

1,963

1,376

0,727

0,325

0,000

22,328

9,925

6,965

4,303

2,920

1,886

1,386

1,061

0,617

0,289

0,000

3
4
5
6
7
8
9
10
11
12
13
14

10,214

5,841

4,541

3,182

2,353

1,638

1,250

0,978

0,584

0,277

0,000

7,173

4,604

3,747

2,776

2,132

1,533

1,190

0,941

0,569

0,271

0,000

5,894

4,032

3,365

2,571

2,015

1,476

1,156

0,920

0,559

0,267

0,000

5,208

3,707

3,143

2,447

1,943

1,440

1,134

0,906

0,553

0,265

0,000

4,785

3,499

2,998

2,365

1,895

1,415

1,119

0,896

0,549

0,263

0,000

4,501

3,355

2,896

2,306

1,860

1,397

1,108

0,889

0,546

0,262

0,000

4,297

3,250

2,821

2,262

1,833

1,383

1,100

0,883

0,543

0,261

0,000

4,144

3,169

2,764

2,228

1,812

1,372

1,093

0,879

0,542

0,260

0,000

4,025

3,106

2,718

2,201

1,796

1,363

1,0 88

0,876

0,540

0,260

3,930

3,055

2,681

2,179

1,782

1,356

1,0 83

0,873

0,539

0,259

3,852

3,012

2,650

2,160

1,771

1,350

1,079

0,870

0,538

0,259

3,787

2,977

2,624

2,145

1,761

1,345

1,076

0,868

0,537

0,258

0, DOO
0, 5 0 0
0, DOO
o, DOO

15
16
17
18
19
20
21
22
23
24

3,733

2,947

2,602

2,131

1,753

1,341

1,074

0,866

0,536

0,258

0,000

3,686

2,921

2,583

2,120

1,746

1,337

1,071

0,865

0,535

0,258

0,000

3,646

2,898

2,567

2,110

1,740

1,333

1,069

0,863

0,534

0,257

0,000

3,610

2,878

2,552

2,101

1,734

1,330

1,067

0,862

0,534

0,257

0,000

3,579

2,861

2,539

2,093

1,729

1,328

1,066

0,861

0,533

0,257

0,000

3,552

2,845

2,528

2,086

1,725

1,325

1,064

0,860

0,533

0,257

0,000

3,527

2,831

2,518

2,080

1,721

1,323

1,063

0,859

0,532

0,000

3,505

2,819

2,508

2,074

1,717

1,321

1,061

0,858

0,532

0, 2 5 7
0, 2 5 6

3,485

2,807

2,500

2,069

1,714

1,319

1,060

0,858

0,532

0,256

0,000

3,467

2,797

2,492

2,064

1,711

1,318

1,059

0,857

0,531

0,256

0,000

25

3,450

2,787

2,485

2,060

1,708

1,316

1,058

0,856

0,531

0,256

0,000

3,435

2,779

2,479

2,056

1,706

1,315

1,058

0,856

0,531

0,256

0,000

3,421

2,771

2,473

2,052

1,703

1,314

1,057

0,855

0,531

0,256

0,000

3,408

2,763

2,467

2,048

1,701

1,313

1,056

0,855

0,530

0,256

0,000

3,396

2,756

2,462

2,045

1,699

1,311

1,055

0,854

0,530

0,256

0,000

3,385

2,750

2,457

2,042

1,697

1,310

1,055

0,854

0,530

0,256

0,000

3,307

2,704

2,423

2,021

1,684

1,303

1,050

0,851

0,529

0,255

0,000

3,232

2,660

2,390

2,000

1,671

1,296

1,045

0,848

0,527

0,254

0,000

3,160

2,617

2,358

1,980

1,658

1,289

1,041

0,845

0,526

0,254

0,000

3,090

2,576

2,326

1,960

1,645

1,282

0,842

0,524

0,253

0,000

26
27
28
29
30
40

60
120
oo

1,036

0,000

FIG. IV-8
Resultado da integrao numrica da funo densidade de uma varivel aleatria t-Student com gl graus
de liberdade (porex. P[tl5<1,753]=0,95 ou t 1 5 ; 0 . 0 5 = 1 . 7 5 3)

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Testes de Normalidade

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Nom Lavai dB(A) 30'1'normal(x. 72.4967. 1.6423)

67

66

89

70

71

72

73

Normal

74

75

Probtbilify Plot para o Mivel d Ruido dB(A)

76

N v t l dt ruido dB(A)

FIG. IV-9
Mtodos grficos para apreciar a possibilidade de uma amostra de uma varivel aleatria ter distribuio Normal:
histograma (a) e Normal probability plot (b)

6.1

O teste Quiquadrado

0 teste Quiquadrado pressupe a classificao das observaes da amostra


com o objectivo de gerar uma tabela de frequncias (Quadro IV-2a). 0
objectivo o de comparar a distribuio da amostra com a que teramos se a
distribuio fosse Normal com o mesmo valor mdio e desvio padro da
amostra (neste caso o nmero de parmetros a estimar com base na amostra
igual a 2: p=2); poderia considerar-se um valor mdio e desvio padro
independentes da amostra o que aumenta a qualidade do teste (p=0). Este
teste exige um nmero de observaes elevado devido estrutura da sua
estatstica, tendo restries de validade que so funo do nmero de
classes/observaes.
No caso das 30 observaes de nvel de rudo dos automveis e das 17 classes
iniciais - de uma primeira anlise dos dados - constituiram-se, afinal, cinco
classes (k=5) - para evitar frequncias esperadas inferiores a 5 (Quadro IV-2).
O valor p=0,00888 transmite a informao de que o valor da estatstica
Q=9,44747 ultrapassa o valor q2,o,o5=5,991 (Fig. IV-10), no podendo validar a
possibilidade da distribuio ser Normal (com um grau de confiana de 95%).
Ao querer tomar decises com um grau de confiana 1-a (o mesmo que um
nvel de significncia a) se p<a (ou Q>qgi,a) rejeitamos a hiptese da amostra
em anlise ser proveniente de uma populao estatstica com distribuio
Normal. Se o contrrio se verificar no poderemos rejeitar a hiptese da
normalidade correspondendo, na prtica, a aceitar a hiptese da distribuio
ser Normal.

94

Medidas delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo IV

QUADRO IV-2
Teste Quiquadrado
Tabela de frequncias (a) gerada com o objectivo de efectuar o teste Quiquadrado para averiguar a possibilidade
da amostra ser proveniente de uma populao estatstica com distribuio Normal com valor mdio e desvio
padro iguais aos da amostra (dois parmetros, p=2). Valor da estatstica Qdepois de reclassificar a amostra
garantindo para todas as clulas (k=5) frequncias esperadas superiores a 5. gl=k-p-1=5-2-1=2
Classas Freq.et>s, Freq, esp.
<68
0
0,219840
1

[68; 68,5[
[68,5; 69[

0,230977
0,414675

[69; 69,5[

0,691914

[69,5; 70[

1,073003

[70; 70,5[

1
3
1

1,546519
2,071646

[70,5; 71 [
[71; 71,5[

2,579185
2,984395

3,209499

[73; 73,5[
[73,5; 74[
[74; 74,5[

5
1

3,207933
2,980029

10
0

2,572899
2,064581

[74,5; 75[

1,539741

[75; 75,5[
>=75,5

1,067258

1,545905

[71,5; 72[
[72; 72,5[
[72,5; 73[

Teste Quiquadrado
para averiguar a Normalidade de uma varivel aleatria
1. Classificar a amostra

2. Contabilizar o nmero de observaes em cada classe


3. Calcular o nmero de observaes que esperaramos encontrar se a distrbuio fosse
Normal com os parmetros indicados ou calculados conr base na amostra

k |f , - f ^ . f
4. Calcular o valor da estatstica de teste Q =
<
w
W .
5. Se a distrihuio for Normal a estatstica Q segue uma lei Quiquadrado com k-p-1
graus de liberdade (Fig. IV-10) (em que p o nmero de parmetros estimados com
base na amsotra para efectuar o teste),
6. Para um determinado grau de confiana (por ex. 95%) averiguar se o valor da
estatstica Q superior ao valor tabelado; se o for (p<0.05) rejeita-se a hiptese da
Varivel se distribuir segundo uma Normal com os parmetros considerados.
(k - nmero de classes, fesP,r frequncia absoluta esperada se a distribuio for Normal com
os parmetros n eCTe f ^ , - frequncia absoluta observada)
NOTA: a estatstica Q segue uma lei Quiquadrado, se a varivel aleatria se comportar segundo a lei
Normal; se o$ valores dos denominadores da estatstica (fp,i) forem suficientemente reduzidos
(tendendo para zero) fazendo tender Q para um valor muito elevado (devido estrutura matemtica
da estatstica e no pelo facto de no ser no Normal), para evitar erros de avaliao corrente, na
prtica, se as clulas da tabela de frequncias apresentarem valores para fesp.i inferiores a 5, proceder
reclassificao da amostra, para garantir a no ocorrncia de valores reduzidos nos denominadores
da estatstica de teste.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Testes de Normalidade

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

6.2

O teste de Wilk-Shapiro

0 teste de Wilk-Shapiro tem grande utilidade quando as amostras so de


dimenses reduzidas.
No caso das 30 observaes relativas ao nvel de rudo, W=0,8875 (Fig. IV-11).
O valor crtico para uma dimenso de amostra igual a 30 e um nvel de
significncia de 0.05 igual a Wc=0,985 (Fig. IV-12) e p=0,0042 (p<0,05)
significando assim que se rejeita a hiptese da amostra ser proveniente de
uma populao estatstica Normal.

fjppip

ira averiguar a Non

96

Medidas delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

Funo DISTRIBUIO
QUIQUADRADO

Funo diribuio

Funo densidade
0.975

P[qgl < q]=xxx

l
)(

/
0.044

/
0,00

12,50

18,75

25,00

0,00

6.25

12,50

18,75

25,00

0,995

0,010

0,025

0,050

0,100

0,250

0,500

0,750

0,900

0,950

0,975

0,990

0,000

0,000

0,001

0,004

0,016

0,102

0,455

1,323

2,706

3,841

5,024

6,635

7,879

0,010

0,020

0,051

0,103

0,211

0,575

1,386

2,773

4,605

5,991

7,378

9,210

10,597

g l \ XXX 0 , 0 0 5

6.25

0,072

0,115

0,216

0,352

0,584

1,213

2,366

4,108

6,251

7,815

9,348

11,345

12,838

0,207

0,297

0,484

0,711

1,064

1,923

3,357

5,385

7,779

9,488

11,143

13,277

14,860

0,412

0,554

0,831

1,145

1,610

2,675

4,351

6,626

9,236

11,070

12,832

15,086

16,750

1,237

1,635

2,204

3,455

5,348

7,841

10,645

12,592

14,449

16,812

18,548

0,676

0,872

0,989

1,239

1,690

2,167

2,833

4,255

6,346

9,037

12,017

14,067

16,013

18,475

20,278

1,344

1,647

2,180

2,733

3,490

5,071

7,344

10,219

13,362

15,507

17,535

20,090

21,955

1,735

2,088

2,700

3,325

4,168

5,899

8,343

11,389

14,684

16,919

19,023

21,666

23,589

10

2,156

2,558

3,247

3,940

4,865

6,737

9,342

12,549

15,987

18,307

20,483

23,209

25,188

11

2,603

3,053

3,816

4,575

5,578

7,584

10,341

13,701

17,275

19,675

21,920

24,725

26,757

3,074

3,571

4,404

5,226

6,304

8,438

11,340

14,845

18,549

21,026

23J337

26,217

28,300

13

3,565

4,107

5,009

5,892

7,041

9,299

12,340

15,984

19,812

22,362

24,736

27,688

29,819

14

4,075

4,660

5,629

6,571

7,790

10,165

13,339

17,117

21,064

23,685

26,119

29,141

31,319

15

4,601

5,229

6,262

7,261

8,547

11,037

14,339

18,245

22,307

24,996

27,488

30,578

32,801

16

5,142

5,812

6,908

7,962

9,312

11,912

15,338

19,369

23,542

26,296

28,845

32,000

34,267

17

5,697

6,408

7,564

8,672

10,085

12,792

16,338

20,489

24,769

27,587

30,191

33,409

35,718

10

6,265

7,015

8,231

9,390

10,865

13,675

17,338

21,605

25,989

28,869

31,526

34,805

37,156

19

6,844

7,633

8,907

10,117

11,651

14,562

18,338

22,718

27,204

30,144

32,852

36,191

38,582

20

7,434

8,260

9,591

10,851

12,443

15,452

19,337

23,828

28,412

31,410

34,170

37,566

39,997

21

8,034

8,897

10,283

11,591

13,240

16,344

20,337

24,935

29,615

32,671

35,479

38,932

41,401

22

8,643

9,542

10,982

12,338

14,041

17,240

21,337

26,039

30,813

33,924

36,781

40,289

42,796

23

9,260

10,196

11,689

13,091

14,848

18,137

22,337

27,141

32,007

35,172

38,076

41,638

44,181

24

9,886

10,856

12,401

13,848

15,659

19,037

23,337

28,241

33,196

36,415

39,364

42,980

45,558

25

10,520

11,524

13,120

14,611

16,473

19,939

24,337

29,339

34,382

37,652

40,646

44,314

46,928

26

11,160

12,198

13,844

15,379

17,292

20,843

25,336

30,435

35,563

38,885

41,923

45,642

48,290

27

11,808

12,878

14,573

16,151

18,114

21,749

26,336

31,528

36,741

40,113

43,195

46,963

49,645

28

12,461

13,565

15,308

16,928

18,939

22,657

27,336

32,620

37,916

41,337

44,461

48,278

50,994

29

13,121

14,256

16,047

17,708

19,768

23,567

28,336

33,711

39,087

42,557

45,722

49,588

52,335

30

13,787

14,953

16,791

18,493

20,599

24,478

29,336

34,800

40,256

43,773

46,979

50,892

53,672

40

20,707

22,164

24,433

26,509

29,051

33,660

39,335

45,616

51,805

55,758

59,342

63,691

66,766

60

35,534

37,485

40,482

43,188

46,459

52,294

59,335

66,981

74,397

79,082

83,298

88,379

91,952

12

FIG. IV-10
Resultado da integrao numrica da funo densidade de uma varivel aleatria Quiquadrado com gl
graus de liberdade (porex. P[q12<23,337]=0,975 ou q , 0 2 5 = 23 , 3 3 7)
12;0

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Tabelas

de frequncias

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Normal Probability Pfot para o Nivel d Riido dB(A)


2.5
2.0
1.5

1,0
0,5
0,0

-0,5
-1.0
-1.S
-2.0
2,5
67

66

69

70

71

72

73

74

75

76

Valof obaarvado

FIG. IV-11
Resultado do teste Wilk-Shapiro associado ao Normal probability plot
Nvel de significncia, a.

r
N

0,01

0,02

0,05

0,1

0,5

0,9

0,95

0,98

0,99

0,753

0,756

0,767

0,789

0,959

0,998

0,999

1,000

1,000

0,687

0,707

0,748

0,792

0,935

0,987

0,992

0,996

0,997

0,686

0,715

0,762

0,806

0,927

0,979

0,986

0,991

0,993

6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

0,713

0,743

0,788

0,826

0,927

0,974

0,981

0,986

0,989

0,730

0,760

0,803

0,838

0,928

0,972

0,979

0,985

0,988

0,749

0,778

0,818

0,851

0,932

0,972

0,978

0,984

0,987

0,764

0,791

0,829

0,859

0,935

0,972

0,978

0,984

0,986

0,781

0,806

0,842

0,869

0,938

0,972

0,978

0,983

0,986

0,792

0,817

0,850

0,876

0,940

0,973

0,979

0,984

0,986

0,805

0,828

0,859

0,883

0,943

0,973

0,979

0,984

0,986

0,814

0,837

0,866

0,889

0,945

0,974

0,979

0,984

0,986

0,825

0,846

0,874

0,895

0,947

0,975

0,980

0,984

0,986

0,835

0,855

0,881

0,901

0,950

0,975

0,980

0,984

0,987

0,844

0,863

0,887

0,906

0,952

0,976

0,981

0,985

0,987

0,851

0,869

0,892

0,910

0,954

0,977

0,981

0,985

0,987

0,858

0,874

0,897

0,914

0,956

0,978

0,982

0,986

0,988

0,863

0,879

0,901

0,917

0,957

0,978

0,982

0,986

0,988

0,868

0,884

0,905

0,920

0,959

0,979

0,983

0,986

0,988

0,873

0,888

0,908

0,923

0,960

0,980

0,983

0,987

0,989

0,878

0,892

0,911

0,926

0,961

0,980

0,984

0,987

0,989

0,881

0,895

0,914

0,928

0,961

0,981

0,984

0,987

0,989

0,884

0,898

0,916

0,930

0,963

0,981

0,984

0,987

0,989

0,888

0,901

0,918

0,931

0,964

0,981

0,985

0,988

0,989

0,891

0,904

0,920

0,965

0,965

0,982

0,985

0,988

0,989

0,894

0,906

0,923

0,965

0,965

0,982

0,985

0,988

0,990

0,896

0,908

0,924

0,966

0,966

0,982

0,985

0,988

0,990

0,898

0,910

0,926

0,966

0,966

0,982

0,985

0,988

0,990

0,900

0,912

0,927

0,967

0,967

0,983

0,985

0,988

0,900

FIG. IV-12
Estatstica W (teste Wilk-Shapiro) para dimenses de amostra entre 3 e 30.

98

Medidas delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados

Captulo III

Captulo V
Concluses e definio de necessidades analticas adicionais

A conclusion is the place where you got tired of thinking


Arthur Bloch (1948-)

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

Captulo

100

ESTATSTICA DESCRITIVA - O segredo dos dados

III

Medidasdelocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo III

1.

Sntese

0 segredo dos dados nasce de uma conversa entre as autoras, decorrente de


uma "aco de formao" que se baseou na necessidade de "espremer" um
conjunto de dados recolhidos na sequncia de um inqurito relativo s
percepes da populao portuguesa relativas ao mundo automvel. Nessa
altura o objectivo era transcrever todos os episdios de formao - ao nvel da
estatstica multivariada -, todas as discusses geradas volta de um objectivo
especfico e que se poderiam apelidar, de um modo geral, de brainstorming.
0 repto foi aceite e logo nas primeiras tentativas de redaco ficou claro que
antes de chegar ao nvel a que se referia o objectivo - a estatstica
multivariada - era necessrio definir a base.
As caractersticas de cada varivel, a sua contextualizao, a sua importncia
face ao cenrio que pretende ser caracterizado, o tipo de varivel, j do
ponto de vista operacional (qualitativo ou quantitativo), so peas
fundamentais para o "arranque" de um projecto de anlise de dados.
A caracterizao das variveis, utilizando mtodos grficos, essencial para
conseguir transmitir rapidamente o que a informao da varivel encerra na
sua lista de nmeros ou categorias; ou a caracterizao numrica, para uma
comparao rpida e eficiente com outras realidades sistematizadas e
trabalhadas anteriormente ou meramente de conceito e encerradas no nosso
raciocnio enquanto agentes de deciso, mais uma pea essencial para
alavancar o processo de deciso.
A necessidade natural de generalizar, de avaliar a qualidade da informao
que foi processada e dos indicadores gerados levar, naturalmente,
necessidade de utilizar instrumentos mais elaborados e do conceito de
distribuio. 0 natural conceito de distribuio Normal, em particular,
permite gerar um conjunto de procedimentos de anlise inferencial, para
aferir da qualidade da informao: os intervalos de confiana e os testes de
hipteses surgem assim, tambm, naturalmente.

2.

Necessidades adicionais

Toda a anlise discutida e analisada pertence a uma fase quase inicial da


anlise de um conjunto de dados: caracterizar a informao disponvel e
validar a sua qualidade e fiabilidade.
No decorrer desta fase de anlise muitas questes ocorreram naturalmente no
sentido de procurar resposta sobre a relao entre as variveis. Por exemplo:

A distribuio das emisses de monxido de carbono e de xidos de


azoto est relacionada com o tipo de fuel (Fig. 11-12) ? Se sim, como ?

Ana Amaro, Cludia Silvestre, Leonor Fernandes |Medidasdeforma

Captulo III

ESTATSTICA DESCRITIVA - O segredo dos dados

O nvel mdio das emisses de CO (Quadro 111-2) depende do tipo de


combustvel ? Se sim, como ?

O nvel de rudo emitido pelos automveis (Quadro 111-2 e Fig. IV-2a)


depende do tipo de combustvel ? Se sim, como ?

Estas questes e inmeras do mesmo tipo foram e so, naturalmente,


exploradas atravs de mtodos grficos: abordagens simples e que decorrem
da necessidade natural de encontrar a soluo de equaes que resultam de
uma anlise qualitativa dos processos em anlise.
Nascem ento as tcnicas mais sofisticadas para validar determinadas
pretenses que decorrem ou de meras conjecturas a propsito de um conjunto
de variveis ou de constataes grficas com algum suporte contextual ou
ainda s porque seria interessante verificar se h uma relao entre aquelas
variveis.
A Anlise de Regresso, a Anlise de Varincia, a Anlise de Contingncia so
trs tcnicas de anlise de dados que nos permitiro ir de encontro quelas
necessidades e investigar a relao entre variveis, variveis com diferentes
caractersticas.
A Anlise de Regresso Linear ou no Linear pretende dar uma ajuda na
identificao de relaes entre variveis quantitativas. 0 cenrio mais comum
ser aquele em que se pretende averiguar se os valores de uma varivel, por
ex. as emisses de CO podem ser explicadas pelo nvel de octanas ou chumbo
do combustvel. Havendo uma relao entre as variveis (que so
quantitativas) importante identificar o tipo de relao. A mais simples
linear e codifica-se atravs da equao de um recta, acrescentando termos
afectados de um coeficiente linear para cada varivel entendida como
potencialmente explicativa do comportamento da varivel que se pretende
explicar. Mais complexa ser uma relao entre variveis no passvel de ser
codificada ou defendida tecnicamente pelo cdigo correspondente equao
de uma recta: a relao poder ser exponencial, logartmica, sigmide, entre
inmeras possibilidades, todas elas devendo ter algum suporte contextual
defensvel.
A Anlise de Varincia permitir averiguar a possibilidade de uma varivel
quantitativa ter comportamentos diferentes em funo dos valores de
variveis qualitativas. Se pretendermos averiguar se as emisses de CO so
diferentes para os carros a gasolina e a gasleo, poderemos reduzir esta
pesquisa existncia de uma igualdade nos valores mdios das emisses de
CO para os carros a gasolina e a gasleo: a diferena entre os valores mdios
da emisses de CO e a variabilidade das emisses de CO em causa para cada
um dos tipos de carros permitir, atravs da Anlise de Varincia, validar a
existncia de uma relao entre as emisses de CO e o tipo de combustvel.
A Anlise de Contingncia pode ser interessante no caso de pretendermos
avaliar a existncia de uma relao entre a classe de automvel e o tipo de
personagem principal do anncio. Haver maior tendncia para que a
personagem principal seja um adulto quando o tipo de carro um
monovolume ou um pequeno familiar e, por ex. um pequeno utilitrio quando
a personagem principal um jovem adulto? Atravs da anlise da distribuio
102 M e d i d a s

delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Captulo V

de frequncias nas categorias cruzadas das duas variveis avaliam-se casos


destes.
Estas tcnicas, e outras que naturalmente decorram de necessidades de
apuramento de relaes entre variveis, sero alvo de anlise e estudo no 2o
livro sobre o segredo dos dados.
Muito mais, e sempre, haver a dizer sobre como se processa a informao
que temos para conseguir perceber como se articulam as diferentes variveis
cujos valores nos so disponibilizados e, afinal, ao adquirir um conhecimento
sustentado sobre o funcionamento dos sistemas em anlise, tomar decises.

Ana Amaro, Cludia Silvestre, Leonor Fernandes | Necessidades adicionais

Captulo

104 M e d i d a s

ESTATSTICA DESCRITIVA - O segredo dos dados

III

delocalizao(quantis)| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Referncias bibliogrficas

Referncias bibliogrficas

A great value of antiquity lies in the fact that its writings are the only ones
that modem men still read with exactriess
Friedrich Wilhelm Nietzsche (1844-1900)

Freedman, David e Diaconis, P. (1981). On the histogram as a density


estimator: Li theory. Zeitschrift fur Wahrscheinlichkeitstheorie und
verwandte Gebiete 57 (4): 453-476.
Guimares, Rui e Cabral, J. S. (2007) - Estatstica. McGraw-Hill. 2a ed.
Hyndman, Rob J. (1995) - The problem with Sturges's rule for constructing
histograms. Working paper at http://robjhyndman.com/papers/sturges.pdf
[2009-09-18]
Microsoft (2003) - 2003 Excel 2003 (version 11) included in Office 2003.
Murteira, Bento F. J. (1990) - Probabilidade e Estatstica. 2a ed. McGraw-Hill.
Scott, David W. (1979). On optimal and data-based histograms. Biometrika 66
(3): 605-610.
StatSoft, Inc. (2007). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB:
http://www.statsoft.com/textbook/stathome.html [2009-09-18]
Stuart, Alan e Ord, J.K. (1994) KendaWs Advanced Theory of Statistics,
Volume I: Distribution Theory, 6th edn, Edward Arnold.
Sturges, Herbert (1926) - The choice of a class-interval. J. Amer. Statist.
Assoe., 21, 65-66.

Ana Amaro, Cludia Silvestre, Leonor Fernandes |

| Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Anexo

ANEXO

Inqurito (Observatrio da Publicidade)

Ana Amaro, Cludia Silvestre, Leonor Fernandes |

ESTATSTICA DESCRITIVA - O segredo dos dados


Anexo

CARACTERIZAO DA PUBLICIDADE EFECTUADA AUTOMVEIS


Ano
Semana
Trimestre
Marca
Sub-marca
Sub-categoria de Produto
Tipo de produto/servio
Anunciante
Campanha
Meio publicitrio
Nome do suporte publicitrio
Nmero de registos
INFORMAO SOBRE A POLUIO
A mensagem contm informao sobre os consumos?
Sim
No
A mensagem contm informao sobre e emisso de C02?
Sim
No
CARACTERIZAO DO ANNCIO
Caracterizao das personagens
O anncio apresenta alguma personagem?
Sim
No
Se sim, que tipo de personagens?
S uma personagem
Homem e mulher
Casal (casados)
Famlia nuclear
Famlia alargada
Grupo de mulheres
Grupo de homens
Grupo de crianas
Grupo de jovens
Conjunto de pessoas no constitudas em grupo
Adulto(s) e criana(s)
Grupo de pessoas heterogneas
Conjunto de animais
Pessoa(s) e animal(is)
Personagem(s) animada(s)
Grupo de pessoas homogneas
Animal
Do conjunto anterior, qual o gnero dominante?
Masculino
Feminino
Ambos
Indeterminado
possvel identificar uma personagem principal?
Sim

108

CARACTERIZAO DO ANNCIO | Ana Amaro, Cludia Silvestre, Leonor Fernandes

ESTATSTICA DESCRITIVA - O segredo dos dados


Anexo

Caracterizao da personagem principal


Tipo de personagem principal? (Escolha apenas uma opo)
Pessoa comum
Pessoa ideal
Pessoa famosa
Outra
Actividades desenvolvidas (Escolha apenas uma opo)
Trabalho
Aco associada a luxo e fantasia
Lazer
Convvio
Alimentao
Seduo
Actividades educativas
Actividades desportivas
Viagens
Compras
Cuidados pessoais
Puericultura
Repouso
Actividades domsticas
Sem actividade / no identificada
Mltiplas actividades
Conduo
Papel da personagem
Testemunho
Perito
Apresentador/entrevista
Influenciador
Utilizador
Comprador
Significante do produto
Caracterizao sociodemogrfica da personagem
Sexo
Masculino
Feminino
Ambos
Indeterminado
Grupo etrio
Beb
Criana
Adolescente
Jovem adulto
Adulto
Meia-idade
Idoso
Indeterminado
Adulto(s) e criana(s)

Ana Amaro, Cludia Silvestre, Leonor Fernandes

| Caracterizao da personagem principal

ESTATSTICA DESCRITIVA - O segredo dos dados

Anexo

Classe social
A/B
C1
C2
D
Indeterminada
Origem da personagem
Rural
Urbano
Indeterminada
Descrio espacial
Local onde decorre a aco
Rural
Campo / floresta
Urbano
Rua / Exterior
Jardim
Estrada
Carro
Emprego
Recinto desportivo (excepto estdio de futebol)
Estdio de futebol
Espao comercial
Praia
Paisagem martima
Paisagem paradisaca
Paisagem de montanha/neve
Aeroportos/gares
Deserto
Boxes
Hotel
Discoteca
Pista de tart
Sala de aula
Garagem
Stand
Igreja
Museu
Restaurante
Indeterminado
Encenao
Entrevista
Situao do quotidiano
Seduo/sensualidade
Bizarro/excntrico
Misterioso
Musicais (cano e dana)
Animao
Brincadeira
Pedaggico
Aluso a personagem ideal/famosa/figura ilustre

110

Caracterizao da personagem principal | Ana Amaro, Cludia Silvestre, Leonor

ESTATSTICA DESCRITIVA - O segredo dos dados


Anexo

Composio cromtica
Primeira Cor
Metlicos, cinzas
Brancos, transparentes
Azuis
Verdes
Vermelhos
Amarelos
Castanhos
Cores fluorescentes
Preto
Rosa
Laranja
Preto e branco
Dourados
Bordeaux
Lils
Segunda Cor
Metlicos, cinzas
Brancos, transparentes
Azuis
Verdes
Vermelhos
Amarelos
Castanhos
Cores fluorescentes
Preto
Rosa
Laranja
Preto e branco
Dourados
Bordeaux
Lils
CARACTERIZAO DO DISCURSO
Tipo de discurso
Informacional
Transformacional
Se informacional (escolha apenas uma opo)
Resoluo de um problema
Evitar um problema
Satisfao incompleta
Desejo/receio
Se transformacional (escolha apenas uma opo)
Estimulao intelectual
Gratificao sensorial
Reconhecimento social
Informao sobre o produto
O discurso do anncio mostra o benefcio operativo do produto.
Expe o produto sem comentrios.
Compara com outros produtos.
O discurso apresenta provas de performance.
0 discurso apresenta o produto como objecto de moda.
O discurso mostra o produtocomo lder de mercado/o mais completo do mercado.
Ana Amaro, Cludia Silvestre, Leonor Fernandes|Caracterizao

da personagem principal

ESTATSTICA DESCRITIVA - O segredo dos dados


Anexo

Argumentos centrais/principais apelos/elementos facilitadores da compra


Produto
Test drive
Referncia ao Consumo de combustvel da viatura como apelo
Presena de outros modelos
Referncia a resultados obtidos em testes de segurana
Equipamento extra
Preo
Preo base - a partir de ...
Presena de sistemas de financiamento/crdito
Distribuio
Presena do site da marca/empresa/distribuidor
Presena de um n de telefone (linha azul/cliente, etc)
Morada de um representante
Promoo
Base no preo
reduo de preo/baixas prestaes
1as prestaes sem juros
sem entrada inicial
desconto em numerrio
Base no benefcio
oferta de extras como equipamento
oferta de viagens
telemvel
manuteno grtis durante x tempo
Valores do produto
Responsabilidade
Saudvel
Utilitrio, prtico e simples
Popular
Econmico
Eficcia
Simblico
Inovao
Sociabilidade
Ecolgico
Natural
Distintividade
Confiana
Segurana
Conforto
Acessibilidade
Afiliao
Rapidez
Qualidade de fabrico/origem
Bem-estar
Liberdade
Prazer
Versatilidade

112

Caracterizao da personagem principal | Ana Amaro, Cludia Silvestre, Leonor

ESTATSTICA DESCRITIVA - O segredo dos dados


Anexo

ESTILOS DE VIDA E VALORES VEICULADOS


Estilos de vida veiculados pelo anncio
(Escolha uma e s uma opo.)
Resignados
Inconformados
Integrados
Ambiciosos
Vencedores
Inquietos
Reformadores
Valores veiculados
Instrumentais
(Escolha dois valores instrumentais de modo hierarquizado.)
Afectuoso
Alegre
Ambicioso
Capaz
Controlado
Corajoso
Educado
Espirito Aberto
Honesto
Imaginativo
Independente
Intelectual
Limpo
Lgico
Obediente
Prestvel
Responsvel
Tolerante
Finais
(Escolha dois valores finais de modo hierarquizado.)
Amor adulto
Respeito por si prprio
Felicidade
Harmonia interior
Igualdade
Liberdade
Prazer
Reconhecimento social
Sabedoria
Salvao
Segurana familiar
Segurana nacional
Sentido de realizao
Um mundo de beleza
Um mundo de paz
Uma vida apaixonante
Uma vida confortvel
Verdadeira amizade

Ana Amaro, Cludia Silvestre, Leonor Fernandes

| Caracterizao da personagem principal

ESTATSTICA DESCRITIVA - O segredo dos dados


Anexo

ANNCIOS CUJO SUPORTE PUBLICITRIO A INTERNET


Indicar o tipo de anncio (quando aplicvel)
Banner
Boto
Floating Ads
Silhuetas
Pop- up
Cursores
Wallpaper ads
Skyscrapper
Ad Words
Indicar se remete para aco
O stio do anunciante
Teste drive
Simulao de crdito
Descrever as que encontrar

114

Caracterizao da personagem principal | Ana Amaro, Cludia Silvestre, Leonor

-t r

l-.m

2HII6,

Ana

a Claudia

trabalharam.

cm

conjunto,

p r o j e c t o m u i t o i n t e r e s s a n t e : d a d o s p r o v e n i e n t e s elo
de

Publicidade

Consumidor
Lisboa)

(resultado

de

Superior

Kseola

foram

um

dissecados

protocolo
dc

entre

( )bscrvatorio
o

Omiunicaeo

utilizando

num

Instituto

do

Social,

cm

analise

estatstica

multivariada.

I m

dos

resultai-los desse p r o j e c t o

coii|unto

foi a necessidade

dc

coniccav a traduzir p o r escrito a nossa postura perante o ensino c


a aprendizagem

dc

\nalise

dc

Dados.

I .coiior

assistindo

ao

processo dc perto, naturalmente, aderiu ao pvo|ecto.

I '. u m

livro onde

dados

utilizando tcnicas grficas e numricas

se e n s i n a

a trabalhar

informao,

processar

no mbito

da

d e s c r i o u n i v a r i a d a d a i n f o r m a o ; u t i l i z a n d o a estatstica tio
ponto

dc

vista

dc

c]ucm

\ ai

ler

e interpretar

resultado

desse

pr< i c e s s a m e i i t i >.

I in

livro

essencial

investigadores

alunos

de

licenciaturas

e ainda a c|uak]iicr analista

dc dados

mestrados,
em

i|uak|ticr

a r c a ela c i n c i a .

Mm

lu ro essencialmente pratico c o n d u z i d o

atravs dc dois

casos

ele e s t u d i > l e a i s .

I sem no, Liasicm-no c usufruam...

\ n a . ( Cludia c I ,c< >n< >r, 2( HIV

]mp://www.lulu.c >ni ei inlenl / papcrback-lx >< >k/cMat" nc3" ";uUlieadc^cnli\".i-o-seLJ,re(.l i-c.li

cladi >s/ (> W 4 >