A Descritiva Amostras Classes Texto

Estatística Descritiva
ESTATÍSTICA DESCRITIVA
Amostras com dados agrupados em classes
Nas próximas secções iremos abordar a análise estatística de uma amostra em que os
dados numéricos estão agrupados em classes, ou seja, em intervalos.
Este agrupamento em classes pode dever-se a diversos motivos:
• fonte de informação: os dados podem ter sido obtidos em fontes em que os

dados já estão no formato de classes, e não se dispõe dos dados individualizados
para todos os elementos da amostra. É o que acontece frequentemente em dados
recolhidos de publicações de diversas Instituições (por exemplo, Anuários do
Instituto Nacional de Estatística);
• no processo de recolha de informação, os dados foram recolhidos em classes, e

não individualizados. Imaginemos, por exemplo, a recolha de diâmetros de
árvores num povoamento florestal, em que se registaram o número de árvores
cujos diâmetros se encontram nos intervalos ]15 , 20], ]20 , 25], ]25, 30], etc, em
vez de se registarem os diâmetros individualmente;
• a dimensão da amostra é demasiado grande, agrupando-se os dados em classes, a

fim de facilitar a análise (esta vantagem actualmente é insignificante, face aos
meios de cálculo disponíveis).
Muitas das variáveis numéricas são de natureza contínua, em que o processo de

quantificação do valor dessa variável pressupõe de algum modo a discretização da
variável. Imaginemos, por exemplo, a recolha de pesos de uma amostra de borregos; a
característica “peso” é tipicamente de natureza contínua; porém, ao pesar cada um dos
borregos, o operador faz um registo que corresponde a um valor aproximado do peso
desse borrego, e não do seu peso exacto; os erros de arredondamento, ou aproximação,
que se fazem nestas situações, dependem fundamentalmente dos objectivos do estudo,
do material usado, etc.
Nesta perspectiva, ao falar-se de um valor de peso de borrego de 4.5 kg, rigorosamente

o que se está a fazer é arredondar para este valor toda a gama de pesos que com maior
precisão de pesagem poderão estar no intervalo ]4.45 , 4.55].
Isto é, muitas das amostras tratadas como amostras de valores discretos correspondem
na realidade a variáveis contínuas mas que são discretizadas (ou arredondadas) para o
valor da marca ou centro do intervalo, no acto de obtenção do valor da variável.
Quando o estatístico tem possibilidade de definir o número de classes (relativamente aos

três casos anteriormente referidos, o estatístico só não tem essa possibilidade no
primeiro dos casos; em ambos os outros, cabe ao estatístico definir as classes ou
intervalos nos quais vai agrupar os dados), um aspecto importante tem a ver com o
número de classes a formar.
Em muitas situações, esta definição é efectuada antes de se realizar a recolha de dados,

de modo que ao efectuar as medições ou o processo de recolha de informação, ao
ESA 2005/2006 1
estatístico apenas resta a liberdade de colocar no intervalo ou classe respectiva cada

uma das observações.
Numa situação deste género, as classes são de um modo geral estabelecidas de modo a
facilitar a obtenção e o registo das observações.
Se o estatístico dispõe do rol (ou listagem) de todas as observações individualizadas, e

pretende classificar ou agrupar os dados em intervalos (seja simplesmente para elaborar
o histograma, seja para cálculo dos parâmetros estatísticos), a primeira operação é
definir o número de classes.
Existem diversas propostas empíricas para a definição do número de classes k a definir;

uma regra consiste em definir um número de classes próximo à raiz quadrada do
número de observações:
k≈ N
Esta regra parece funcionar bastante bem, se o número de dados não é demasiado
grande (vejamos que, se na amostra existem 400 dados, esta regra sugere a realização de
20 classes de dados). Outra regra, também muito usual, consiste em usar um número de
classes definido por (em que log(.) representa o logaritmo decimal):
k = 1 + 3.3 × log ( N ) , arredondado ao inteiro superior
Em qualquer dos casos, devem definir-se classes com a mesma amplitude.
Estas regras têm um carácter meramente indicativo, devendo ser tomadas em conta as
vantagens de ordem prática que advêm da definição das classes cujos limites inferior e
superior coincidam com valores fáceis de manusear.
Exemplo:
Considere-se uma amostra de 100 dados de pesos, expressos em gramas, que tomam
valores desde xmin = 297.47 g e xmax = 305.13 g . As regras anteriores sugerem a
formação de 10 classes e 8 classes, respectivamente.
Combinando estas indicações com o aspecto prático, se fixarmos os limites do intervalo

de variação em ]279.00,306.00] , a amplitude deste intervalo é de 9.00 g, sugerindo a
realização de 9 classes, de amplitude 1.00 g, definidas como:
]297.00, 298.00] , ]298.00, 299.00] , ]299.00,300.00] ,..., ]305.00,306.00]

Repare-se que, de um modo geral se estão a respeitar as indicações teóricas do número
de classes a formar, em conjugação com o aspecto prático dos limites das classes
ficarem bem definidos.
Nota acerca dos limites das classes: subsiste sempre alguma confusão acerca dos limites
das classes, se deverão ser abertos no limite inferior e fechados no limite superior, isto
ESA 2005/2006 2
é, do tipo  Linf , Lsup  , ou se os limites devem ser ao contrário, isto é,  Linf , Lsup  . Vamos
adoptar a definição  Linf , Lsup  , já que desta maneira estamos a ser coerentes com a
definição da função cumulativa de probabilidades.
Pressupõe-se que em cada uma das classes, todas as observações dessa classe estão
concentradas no centro ou marca da classe.
Nas secções seguintes vamos usar, para além de outros exemplos esporádicos usados
para ilustrar as explicações de alguns conceitos, a seguinte amostra de pesos (em g) de
100 embalagens de manteiga (os pesos variam entre xmin = 297.47 g e xmax = 305.13 g ,
conforme anteriormente referido; não se registaram as observações individualizadas,
mas apenas se contaram o número de ocorrências em cada uma das classes); o número
de classes é k = 9 , e amplitude de cada classe é de 1 unidade:
Limites das classes (peso, em g) Nº de garrafas

]297.00 , 298.00] 8
]298.00 , 299.00] 21
]299.00 , 300.00] 28
]300.00 , 301.00] 15
]301.00 , 302.00] 11
]302.00 , 303.00] 10
]303.00 , 304.00] 5
]304.00 , 305.00] 1
]305.00 , 306.00] 1
TOTAL N = 100
Tabela de frequências e histograma
ni
A tabela de frequências e o histograma têm o seguinte aspecto, onde fi = é a
N
frequência relativa da observação xi , e Fac, fra são as frequências absolutas
acumuladas e as frequências relativas acumuladas:
Classes de peso (g) ni Fac fi fra

]297.00 , 298.00] 8 8 0.08 0.08
]298.00 , 299.00] 21 29 0.21 0.29
]299.00 , 300.00] 28 57 0.28 0.57
]300.00 , 301.00] 15 72 0.15 0.72
]301.00 , 302.00] 11 83 0.11 0.83
]302.00 , 303.00] 10 93 0.10 0.93
]303.00 , 304.00] 5 98 0.05 0.98
]304.00 , 305.00] 1 99 0.01 0.99
]305.00 , 306.00] 1 100 0.01 1.00
TOTAL 9 9
N = ∑ ni = 100 ∑f i =1
i =1 i =1
ESA 2005/2006 3
O histograma das frequências absolutas – que é uma estimativa da função de

distribuição de probabilidades da população de onde a amostra foi recolhida - tem o
seguinte aspecto (o histograma das frequências relativas tem exactamente o mesmo
aspecto, diferindo apenas a escala do eixo das ordenadas, que em vez de escala absoluta,
vem em escala relativa):
Histograma de frequências absolutas

30,0
20,0
Count
10,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Peso (g)
A escala do eixo das abcissas pode definir os limites das classe, como no exemplo, ou
então a marca da classe (isto é, o centro de cada uma das classes).
O histograma dá diversas informações acerca da distribuição das frequências,

nomeadamente em termos de valores mais frequentes (classe modal, que no caso é a
classe ]299.00 , 300.00], simetria (no exemplo, nota-se que a distribuição é assimétrica à
esquerda ou assimétrica positiva), regiões do intervalo de variação onde não existem
observações, bem como da representatividade de cada uma das classes.
O histograma das frequências relativas acumuladas (que constitui uma estimativa da

função cumulativa de probabilidades) apresenta-se em seguida.
Quanto maior for um degrau de um valor xi −1 (anterior) para o valor xi (actual), maior é
a frequência de observações do valor xi , e vice-versa. Note-se que nos primeiros
valores de x os degraus entre os diversos patamares são bastante elevados,
correspondendo a maiores frequências para os respectivos valores de x, enquanto que
para os últimos valores de x, os degraus são bastante pequenos, significando que as
respectivas frequências são baixas.
ESA 2005/2006 4
Histograma de frequências acumuladas

100,0
75,0
Percent
50,0
25,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Peso (g)
Repare-se por exemplo no seguinte histograma de frequências acumuladas,

correspondente a uma distribuição uniforme das frequências pelos diversos valores de x.
Num caso destes, os degraus entre os sucessivos valores de x têm todos a mesma altura:
Histograma de frequências acumuladas

100,0
75,0
Percent
50,0
25,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
x
Diagrama de pontos e diagrama de caule-e-folhas
ESA 2005/2006 5
Para grandes amostras, estes diagramas ficam muito pesados, e são de interpretação
mais difícil. Aliás, se estes tipos de gráficos ganham vantagem sobre o histograma, no
caso de pequenas amostras, para grandes amostras perdem essa vantagem, e deve usar-
se preferencialmente o histograma.
Quer o diagrama de pontos, quer o diagrama de caule-e-folhas, só podem ser elaborados

se dispusermos dos registos de todas as observações; se se dispuser apenas da tabela de
frequências, não se podem elaborar estes gráficos.
Admitindo que, afinal, sempre se dispunha de toda a amostra dos pesos das 100
embalagens de manteiga (anexo), e não apenas a tabela de frequências, estes diagramas
apresentam-se de seguida.
Diagrama de pontos:
Veja-se que este diagrama é agora, ao contrário do que acontecia para pequenas
amostras, pouco informativo, já que mostra a localização de uma nuvem enorme de
pontos sobre a escala da variável. Pode, inclusivamente, induzir a diversas análises
menos correctas, por exemplo, detectar diversas modas na amostra, considerar o valor
máximo como outlier, quando na realidade não o é, etc.
Diagrama de caule-e-folhas
Repare-se que, elaborando o diagrama com incremento de uma unidade na parte do

“caule” (diagrama no lado esquerdo), obtém-se o histograma deitado, não se ganhando
ESA 2005/2006 6
mais informação do que a obtida pelo histograma. Fazendo o incremento de 0.5

unidades (diagrama do lado direito), dá uma ideia mais precisa da distribuição, agora
em classes de 0.5 g de amplitude. Mas esta mesma informação se poderia também obter
no histograma, aumentando o número e diminuindo a amplitude das classes.
Para lá da informação que o histograma também fornece, obtém-se a indicação mais

imediata da classe mediana.
Parâmetros estatísticos
Parâmetros de localização
Moda
É o valor mais frequente (com maior frequência absoluta ou relativa) na amostra.
Da tabela de frequências apresentada anteriormente, do histograma, ou do diagrama de

caule-e-folhas, deduz-se a moda ocorre na classe ]299.00, 300] (classe modal).
Pretendendo um valor único, e não uma classe de valores, para a moda, este valor será
um ponto no interior da classe modal, desviado mais para o limite inferior limie
superior, de acordo com as frequências nas classes adjacentes.
O valor da moda é calculado pela seguinte expressão:
d1
Mod = Linf + .∆
d1 + d 2
onde:
Linf Limite inferior da classe modal;

d1 = nclasse modal − nclasseanterior ou d1 = f classe modal − f classeanterior
d 2 = nclasse modal − nclasseseguinte ou d1 = f classe modal − f classeseguinte
∆ Amplitude da classe modal.
No exemplo, temos:
Linf = 299.00
d1 = nclasse modal − nclasseanterior = 28 − 21 = 7
d 2 = nclasse modal − nclasseseguinte = 28 − 15 = 13
∆ =1
d1 7
Mod = Linf + .∆ = 299.00 + × 1.00 = 299.35
d1 + d 2 7 + 13
Repare-se que o valor da moda não está rigorosamente no centro da classe modal, mas
está mais deslocado para o lado do limite inferior da classe modal, pois a frequência da
ESA 2005/2006 7
classe anterior ( nclasseanterior = 28 ) é superior à frequência da classe seguinte à classe

modal ( nclasseseguinte = 15 ).
Mediana
A mediana é o valor xi tal que metade da amostra se localiza abaixo e a outra metade de
amostra se localiza acima desse valor.
Para amostras classificadas, a classe mediana deduz-se a partir da tabela de frequências

ou do histograma das frequências acumuladas (valor xi para o qual a frequência
absoluta acumulada é igual ou superior a metade da amostra), ou a partir do diagrama de
caule-e-folhas. O valor da mediana é um valor contido nesta classe, e é estimado pela
seguinte expressão, conforme se utilizem frequências absolutas acumuladas ou
frequências relativas acumuladas:
N
− Facclasse anterior 0.5 − fraclasse anterior
Med = Linf + 2 .∆ = Linf + .∆
nclasse mediana f classe mediana
em que Facclasse anterior , fraclasse anterior são, respectivamente, a frequência absoluta

acumulada ou a frequência relativa acumulada até à classe anterior à classe mediana,
nclasse mediana , f classe mediana são a frequência absoluta ou a frequência relativa da classe
mediana, Linf é o limite inferior da classe mediana e ∆ é a amplitude da classe mediana.
ESA 2005/2006 8
Para a amostra em estudo, a classe mediana é a classe ]299.00 , 300.00], Linf = 299.00 ,
Facclasse anterior = 29 , nclasse mediana = 28 e ∆ = 1.00 ; assim, a mediana é:
N
− Facclasse anterior
2 50 − 29
Med = Linf + .∆ = 299.00 + × 1.00 = 299.75
nclasse mediana 28
Quartis, decis, percentis
Tal como para o caso das amostras discretas ou de pequena dimensão, os quartis
dividem a amostra em quatro sub-amostras ou quatro intervalos quartílicos, definidos
respectivamente por [ xmin , Q1 ] ; [Q1 , Q2 ] ; [Q2 , Q3 ] ; [Q3 , xmax ] .
Para definir cada um dos quartis, localiza-se a classe quartílica respectiva (isto é, a
classe onde ocorrem 25%, 50% e 75% das observações), e de seguida determina-se qual
dos valores de cada uma dessas classes é teoricamente o respectivo quartil, usando a
seguinte expressão:
j. N j
− Facclasse anterior , j − fraclasse anterior , j
Q j = Linf, j + 4 .∆ = Linf, j + 4 .∆ j = 1, 2,3
nclasseQ j f classeQ j
1º quartil (j=1):
1ª classe quartílica: ]298.00 , 299.00]

Facclasse anterior = 8
nclasseQ1 = 21
N 100
− Facclasse anterior ,1 −8
Q1 = Linf,1 + 4 .∆ = 298.00 + 4 × 1.00 = 298.81
nclasseQ1 21
3º quartil (j=3):
3ª classe quartílica: ]301.00 , 302.00]

nclasseQ3 = 11
3.N 3 × 100
− Facclasse anterior ,3 − 72
Q3 = Linf,3 + 4 .∆ = 301.00 + 4 × 1.00 = 301.27
nclasseQ3 11
Naturalmente, o 2º quartil coincide com a mediana: Q2 ≡ Med = 299.75 .
ESA 2005/2006 9
A expressão anterior generaliza-se de uma maneira lógica para qualquer percentil:
j. N j
− Facclasse anterior , j − fraclasse anterior , j
Pj = Linf, j + 100 .∆ = Linf, j + 100 .∆ j = 1, 2,3,...,100
nclasse Pj f classe Pj
em que Facclasse anterior , fraclasse anterior são, respectivamente, a frequência absoluta

acumulada ou a frequência relativa acumulada até à classe anterior à classe do percentil
pretendido, nclasse Pj , f classe Pj são a frequência absoluta ou a frequência relativa da classe
do percentil pretendido, Linf é o limite inferior da classe do percentil e ∆ é a amplitude
da classe do percentil em consideração.
Para os decis, basta fazer j = 10, 20,30,...,90 na expressão anterior.
Vejamos, por exemplo, os percentis P5 , P10 , P90 , P95 :
Percentil 5% (j=5):
Classe do percentil 5%: ]297.00 , 298.00]

nclasse P5 = 8
5.N 5 ×100
P5 = Linf,5 + 100 .∆ = 297.00 + 100 × 1.00 = 297.625
nclasse P5 8
Percentil 10% (j=10):

nclasse P10 = 21
10.N 10 × 100
P10 = Linf,10 + 100 .∆ = 298.00 + 100 × 1.00 = 298.095
nclasse P10 21

nclasse P90 = 10
90.N 90 ×100
P90 = Linf,90 + 100 .∆ = 302.00 + 100 × 1.00 = 302.7
nclasse P90 10
ESA 2005/2006 10

nclasse P95 = 5
95.N 95 × 100
P95 = Linf,95 + 100 .∆ = 303.00 + 100 × 1.00 = 303.4
nclasse P95 5
Nota: de um modo geral há sempre interesse em calcular, para além da mediana e dos
quartis, os percentis P10 e P90 , pois entram no cálculo de coeficientes de assimetria e de
achatamento.
Média
Tal como no caso de amostras de pequena dimensão, mas onde existem dados repetidos,
k
sendo ni a frequência absoluta da i.ésima classe i = 1, 2,3,..., k , tal que ∑n
i =1
i =N, a
média de uma amostra agrupada em classes é calculada por:
∑ n .x i i
x= i =1
Nesta situação, o valor xi é a marca (ou valor central) da i.ésima classe i = 1, 2,3,..., k .
Para calcular a média, elabora-se a seguinte tabela como ferramenta de cálculo:
Classe xi ni ni .xi
]297.00 , 298.00] 297,5 8 2380,0
]298.00 , 299.00] 298,5 21 6268,5
]299.00 , 300.00] 299,5 28 8386,0
]300.00 , 301.00] 300,5 15 4507,5
]301.00 , 302.00] 301,5 11 3316,5
]302.00 , 303.00] 302,5 10 3025,0
]303.00 , 304.00] 303,5 5 1517,5
]304.00 , 305.00] 304,5 1 304,5
]305.00 , 306.00] 305,5 1 305,5
9
∑ n .x
i =1
i i = 30011.0
ESA 2005/2006 11
∑ n .x i i
30011
Logo, a média é x = i =1
= = 300.11
N 100
∑ n .x i i k
ni .xi k ni k
n
Nota: x = i =1
=∑ =∑ .xi =∑ f i .xi , em que fi = i é a frequência relativa
N i =1 N i =1 N i =1 N
da observação xi . Isto é:
Classe xi fi fi .xi
]297.00 , 298.00] 297,5 0,08 23,800
]298.00 , 299.00] 298,5 0,21 62,685
]299.00 , 300.00] 299,5 0,28 83,860
]300.00 , 301.00] 300,5 0,15 45,075
]301.00 , 302.00] 301,5 0,11 33,165
]302.00 , 303.00] 302,5 0,1 30,250
]303.00 , 304.00] 303,5 0,05 15,175
]304.00 , 305.00] 304,5 0,01 3,045
]305.00 , 306.00] 305,5 0,01 3,055
9
x = ∑ fi .xi = 300.11
i =1
No exemplo nota-se que Mod = 299.35 < Med = 299.75 < x = 300.11 , o que é um
sintoma de que a amostra tem uma cauda superior mais prolongada, isto é, a amostra
denota uma tendência de assimetria à direita, ou assimetria positiva.
Parâmetros de dispersão
Para além de caracterizar a distribuição de uma amostra pela sua tendência de

localização ou tendência central, temos de descrever igualmente a sua tendência de
dispersão ou variabilidade, que é um indicador da variabilidade das observações em
torno dos valores centrais.
Intervalo e amplitude de variação
O intervalo de variação da amostra é o intervalo definido por:
[ x1 , xN ]
isto é, o intervalo definido pelos valores mínimo e máximo da amostra. A Amplitude d
variação (“Range”) é a amplitude deste intervalo:
R = xN − x1
ESA 2005/2006 12
O intervalo de variação da amostra em análise é [297.47 , 305.13] e a amplitude de

variação é R = 305.13 − 297.47 = 7.66 .
Amplitude inter-quartílica
A amplitude inter-quartílica é definida como:
Q3 − Q1
Embora esta estimativa da variabilidade não seja tanto influenciada pelos valores
extremos e traduza melhor que a amplitude da amostra a maior ou menor tendência de
concentração dos valores em torno da média, ainda não leva em conta todas as
observações presentes na amostra.
Estas medidas de dispersão, amplitude e amplitude inter-quartílica, são mais úteis na

comparação da variabilidade de diversas amostras retiradas da mesma população do que
na descrição da dispersão de uma única amostra.
Para a amostra dos pesos das embalagens de manteiga, a amplitude inter-quartílica é de

Q3 − Q1 = 301.27 − 298.81 = 2.46 .
Diagrama de extremos-e-quartis
Este diagrama, também designado por caixa-com-bigodes (da tradução literal da sua
designação em Inglês, “boax-and-whiskers”) permite efectuar uma análise gráfica da
variabilidade de uma amostra, bem como analisar a distribuição da concentração nas
quatro sub-amostras definidas pelos quartis (intervalos quartílicos).
Esta representação gráfica consiste em desenhar um rectângulo, com a base na escala

das observações, e em que os dois lados laterais são respectivamente o 1º e 3º quartis;
ligam-se estes lados com um segmento de recta à escala, respectivamente ao valor
mínimo e ao valor máximo da amostra. O rectângulo, que representa a amplitude inter-
quartílica, é dividido pela mediana.
Pela amplitude de cada uma destas quatro sub-amostras, é possível ficar-se com uma
ideia bastante rigorosa de como é o comportamento da amostra, em termos de dispersão
ou concentração de valores, bem como deduzir acerca da sua simetria.
Na amostra em estudo, este diagrama tem o seguinte aspecto:
ESA 2005/2006 13
Repare-se que a amostra é mais concentrada no 2º intervalo quartílico. A zona de maior

dispersão de valores ocorre no 4º intervalo quartílico.
Nota-se a ocorrência de um valor (valor máximo) que deve ser considerado como
outlier moderado, já que:
xmax = 305.13 > Q3 + 1.5 × ( Q3 − Q1 ) = 301.27 + 1.5 × 2.46 = 304.96
Contudo, não é outlier extremo porque:
xmax = 305.13 < Q3 + 3 × ( Q3 − Q1 ) = 301.27 + 3 × 2.46 = 308.65
Desvio médio
Uma medida da dispersão em torno da média resulta da soma dos desvios de cada
observação para a média:
∑ x −x i
dm = i =1
Para dados agrupados em classes, o desvio médio calcula-se pela expressão seguinte,
em que xi é a marca de cada uma das k classes:
∑n . x − x
i i k
ni k
dm = i =1
=∑ . xi − x = ∑ fi . xi − x
N i =1 N i =1
ESA 2005/2006 14
Este parâmetro mede o afastamento médio de cada observação para a média: quanto
maior for (comparativamente com a média ou com os dados originais), mais dispersa
será a amostra, e consequentemente menos representativa é a média.
Na tabela de cálculo seguinte apresentam-se os cálculos do desvio médio da amostra em

análise:
Classe xi ni xi − x ni . xi − x
]297.00 , 298.00] 297,5 8 -2,61 20,88
]298.00 , 299.00] 298,5 21 -1,61 33,81
]299.00 , 300.00] 299,5 28 -0,61 17,08
]300.00 , 301.00] 300,5 15 0,39 5,85
]301.00 , 302.00] 301,5 11 1,39 15,29
]302.00 , 303.00] 302,5 10 2,39 23,9
]303.00 , 304.00] 303,5 5 3,39 16,95
]304.00 , 305.00] 304,5 1 4,39 4,39
]305.00 , 306.00] 305,5 1 5,39 5,39
9
∑n . x − x
i =1
i i = 143.54
∑n . x − x i i
143.54
O desvio médio é dm = i =1
= = 1.4354 .
N 100
O desvio médio também podia ser calculado usando as frequências relativas:
xi fi xi − x fi . xi − x
]297.00 , 298.00] 297,5 8 0,2088
]298.00 , 299.00] 298,5 21 0,3381
]299.00 , 300.00] 299,5 28 0,1708
]300.00 , 301.00] 300,5 15 0,0585
]301.00 , 302.00] 301,5 11 0,1529
]302.00 , 303.00] 302,5 10 0,2390
]303.00 , 304.00] 303,5 5 0,1695
]304.00 , 305.00] 304,5 1 0,0439
]305.00 , 306.00] 305,5 1 0,0539
9
dm = ∑ fi . xi − x = 1.4354
i =1
O desvio médio, quando comparado com os valores originais ou com o valor da média,
revela-se bastante pequeno o que traduz uma pequena tendência de dispersão, ou
equivalentemente, uma forte tendência de concentração em torno da média; uma
dm 1.4354
comparação mais objectiva poderá ser obtida pela proporção = = 0.0048 ,
x 300.11
isto é, o desvio médio é da ordem de 0.48% do valor da média.
ESA 2005/2006 15
Variância
A variância é o parâmetro de dispersão mais usual, e aquele que apresenta melhores

propriedades estatísticas.
A variância, tal como o desvio médio, é uma medida do afastamento médio de cada uma
das observações em torno da média. No caso do desvio médio, o módulo da diferença
para a média é, por definição, o afastamento de cada observação para a média. No caso
da variância, usa-se o quadrado da distância das observações para a média.
Para a população, a variância é, por definição:
∑(x − µ)
2
i
σ2 = i =1
Contudo, na Estatística não se tem a população, mas sim uma amostra de observações,
geralmente de muito menor dimensão que a população. Demonstra-se que a expressão
anterior, quando aplicada a amostras relativamente diminutas em comparação com a
população (e usando a média amostral x como estimativa da média da população µ )
sub-valoriza o valor da variância (isto é, o valor da variância amostral seria menor que o
valor da variância da população de onde a amostra foi retirada). Para evitar este
enviesamento, utiliza-se a seguinte expressão de cálculo da variância amostral, denotada
com o símbolo s 2 :
∑(x − x )
2
i
s2 = i =1
N −1
Isto é, para evitar a sub-valorização, o divisor é N − 1 .
Esta expressão, para cálculo manual, é de difícil manuseamento. Desenvolvendo

aritmeticamente a expressão anterior, e considerando existem k classe, cujas marcas são
genericamente xi , e as frequências absolutas são ni , obtém-se a seguinte expressão,
mais fácil de implementar numa tabela de cálculo:
  k  
2
  ∑ ni .xi  
1  k   = 1  n .x 2 − N .x 2 
k
 i =1
s =
2
∑i i
N − 1  i =1
n . x 2
−
N  N − 1  ∑
i =1
i i 

 
 
 
Repare-se que o valor da variância vem expresso numa escala quadrática, não podendo
portanto comparar-se com os valores originais. Para podermos comparar duas
quantidades, estas têm de estar nas mesmas unidades. Assim, calcula-se a variância, e
de seguida reduz-se para a escala em que estão as observações:
ESA 2005/2006 16
s = ss
Este indicador estatístico (s) designa-se por desvio padrão.
Para comparar o desvio padrão com os valores originais, calcula-se o seguinte

indicador, designado por coeficiente de variação:
s
cv =
x
Como regra de geral, alguns autores consideram a distribuição concentrada se cv ≤ 0.1 ,

e dispersa caso cv > 0.1 .
Para a amostra das embalagens de manteiga em análise, elabore-se a seguinte tabela de

cálculo:
Classe xi ni ni .xi2
]297.00 , 298.00] 297,5 8 708050,00
]298.00 , 299.00] 298,5 21 1871147,25
]299.00 , 300.00] 299,5 28 2511607,00
]300.00 , 301.00] 300,5 15 1354503,75
]301.00 , 302.00] 301,5 11 999924,75
]302.00 , 303.00] 302,5 10 915062,50
]303.00 , 304.00] 303,5 5 460561,25
]304.00 , 305.00] 304,5 1 92720,25
]305.00 , 306.00] 305,5 1 93330,25
9
∑ n .x
i =1
i
2
i = 9006907.0
Para calcular a variância, basta fazer:
1  k  1
s2 =  ∑ ni .xi2 − N .x 2  = ( 9006907 − 100 × 300.112 ) = 3.0888
N − 1  i =1  99
O desvio padrão é s = s 2 = 3.0888 = 1.7575 . O coeficiente de variação é

s 1.7575
cv = = = 0.0059 , isto é, o desvio padrão é da ordem de 0.59% do valor da
x 300.11
média, o que traduz, tal como o desvio médio, uma variabilidade bastante pequena das
observações em torno da média.
Parâmetros de assimetria
A assimetria (em inglês, skewness) é o grau de desvio ou afastamento da simetria de

uma distribuição. Se a curva de frequências de uma distribuição tem uma cauda mais
ESA 2005/2006 17
longa à direita, relativamente à ordenada máxima (moda), diz-se que a distribuição é

assimétrica para a direita, ou que tem assimetria positiva. Se a cauda mais longa é a
esquerda, a distribuição é assimétrica para a esquerda, ou assimétrica negativa.
Assimetria positiva S imétrica Assimetria negativa
Para distribuições assimétricas, a média tende a situar-se do mesmo lado da moda que a
cauda mais longa:
Assimetria positiva Assimetria negativa
M oda x x M oda
Assim, uma medida da assimetria é proporcionada pela diferença entre a média e a

moda, ponderada por uma medida de dispersão (desvio padrão):
x − moda
Assimetria = (primeiro coeficiente se assimetria de Pearson)
s
Para evitar o uso da moda, pode adoptar-se uma relação empírica entre a média, a
mediana e a moda: x − moda = 3 ( x − mediana ) e a assimetria é dada por:
3 ( x − mediana )
Assimetria = (segundo coeficiente se assimetria de Pearson)
s
Outros coeficientes de assimetria são definidos em termos dos quartis e decis; o

coeficiente quartílico de assimetria é definido como:
( Q3 − Q2 ) − ( Q2 − Q1 ) = ( Q3 − 2Q2 + Q1 )
( Q3 − Q1 ) ( Q3 − Q1 )
e o coeficiente percentílico de assimetria é:
( P90 − P50 ) − ( P50 − P10 ) = ( P90 − 2 P50 + P10 )

( P90 − P10 ) ( P90 − P10 )
ESA 2005/2006 18
Um outro coeficiente de assimetria é o coeficiente se assimetria de Fisher, que utiliza o

N
∑(x − x )
3
terceiro momento centrado na média ( m3 = 1
N i ):
i =1
∑(x − x )
1 3
N ( N − 1) m3 N ( N − 1) N i
g1 = × = × i =1
N −2 s3 N −2 s3
Este coeficiente é calculado em diversos programas estatísticos (SPSS, MINITAB,

STATGRAPHICS, etc), muito embora o seu cálculo manual seja algo moroso.
Está provado que para N>150 o coeficiente g1 é assintóticamente normal com média
zero e variância N6 ; o coeficiente de assimetria estandardizado é:
g1
gs =
6
N
Todos estes coeficientes são nulos quando a amostra é perfeitamente simétrica; são
positivos se a amostra é assimétrica positiva ou assimétrica à direita, e são negativos
para amostras assimétricas negativas.
Para a amostra de pesos das embalagens de manteiga, estes coeficientes são:
1º coeficiente de assimetria de Pearson:
x − moda 300.11 − 299.35

Assimetria = = = 0.4324
s 1.7575
2º coeficiente de assimetria de Pearson:
3 ( x − mediana ) 3 × ( 300.11 − 299.75 )

Assimetria = = = 0.2048
s 1.7575
Coeficiente quartílico de assimetria:
( Q3 − 2Q2 + Q1 ) = 301.27 − 2 × 299.75 + 298.81 = 0.2358

( Q3 − Q1 ) 301.27 − 298.81
Coeficiente percentílico de assimetria:
( P90 − 2 P50 + P10 ) = 302.7 − 2 × 299.75 + 298.095 = 0.2812

( P90 − P10 ) 302.7 − 298.095
O coeficiente de assimetria de Fisher é:
ESA 2005/2006 19
N
366.7062
∑(x − x )
1 3
N ( N − 1) m3 N ( N − 1) N i
100 × 99
g1 = × = × i =1
= × 100 3 = 0.6858
N −2 s3 N −2 s3 98 1.7575
Todos estes coeficientes indicam que a distribuição da amostra é ligeiramente enviezada

à direita, ou assimétrica positiva.
Parâmetros de forma
Além da simetria, as distribuições também se costumam caracterizar quanto à altura do

ponto máximo da curva de distribuição. Esta característica é designada por achatamento
ou curtose (em inglês, kurtosis).
Leptocúrtica
Platicúrtica Mesocúrtica
A distribuição chamada mesocúrtica tem no centro uma altura correspondente à curva

da função de densidade da distribuição normal.
A distribuição diz-se platicúrtica se tem altura inferior à da curva normal. Repare-se que
o facto de a distribuição ter altura menor no centro, significa maior proporção de
observações nas caudas, isto é, é sintoma de uma forte dispersão.
A distribuição diz-se leptocúrtica se tem altura superior à da curva normal. O facto de a

distribuição ter altura maior no centro, significa maior proporção de observações nas
proximidades dos valores centrais, isto é, é sintoma de uma forte concentração em torno
da média.
Um coeficiente numérico para caracterizar o achatamento é o coeficiente percentílico de

achatamento:
( Q3 − Q1 )
k= 2
P90 − P10
Para uma curva normal, o valor deste coeficiente é k = 0.263 . Um valor inferior é
sintoma de uma curva muito achatada, e um valor superior é sintoma de uma curva
demasiado alta.
ESA 2005/2006 20
Os programas estatísticos usam outro coeficiente de achatamento, designado por

coeficiente de achatamento de Fisher, que é baseado no 4º momento centrado na média
N
∑(x − x )
4
( m4 = 1
N i ):
i =1
g2 =
( N + 1)( N − 1) ×  m4 − 3 ( N − 1) 
( N − 2 )( N − 3)  s 4 N +1 

Para uma curva normal, o valor deste coeficiente é k = 0 . Um valor negativo é sintoma
de uma curva muito achatada, e um valor positivo é sintoma de uma curva demasiado
alta.
Para a amostra de borregos, o coeficiente percentílico de achatamento é:
( Q3 − Q1 ) 301.27 − 298.81
k= 2 = 2 = 0.2671
P90 − P10 302.7 − 298.095
indicando que a distribuição tem uma altura na classe modal muito semelhante à altura
de uma distribuição normal. O coeficiente baseado no 4º momento é g 2 = −0.0505 que,
tal como o coeficiente percentílico de achatamento, dá a informação de que a altura da
curva da distribuição é praticamente normal.
Considerações finais
1 . O facto de se agruparem os dados em classes, e estimar os parâmetros com base nas

marcas das classes, e não com todos os dados individualizados, conduz necessariamente
a umas estimativas dos parâmetros ligeiramente diferentes das que se obteriam
trabalhando com os N dados individualizados. Estas diferenças serão tanto mais graves
quanto mais distintos, em cada uma das classes, os valores nelas incluídos forem
diferentes da marca da classe.
Assim, de modo a minimizar o efeito de enviezamento nas estimativas dos parâmetros

estatísticos, as classes devem ser definidas de tal modo que as respectivas marcas
fiquem sensivelmente no centro das observações incluídas em cada uma das classes. Por
exemplo, se o processo de obtenção das observações conduz sistematicamente a valores
do tipo xx.8, xx.9, xx.1, xx.2, as classes devem ser definidas de modo a que a marca
seja do tipo xx.0. Repare-se que a definição de classes de modo que as marcas fossem
do tipo xx.5, os valores teriam tendência a estar mais afastados da marca, send maior o
enviezamento provocado pela organização da amostra em classes.
2 . Com os meios computacionais actualmente disponíveis, não há grande vantagem na

realização de classes. Um dos principais motivos para a organização da amostra em
classes, era a vantagem de cálculo resultante dessa organização, quando os cálculos
tinham de ser efectuados manualmente.
ESA 2005/2006 21
Com o incremento e divulgação dos programas estatísticos informáticos, essa vantagem

é desprezível, de modo que as estimativas são mais rigorosas se forem efectuadas com
todos os dados, e não com as marcas das classes.
A justificação para as metodologias de cálculo com os dados organizados em classes

prende-se com o facto de muita da informação disponível para tratamento e análise
estatística está por natureza agrupado em classes. Como exemplo, refiram-se as
informações socio-económicas que a cada dia se obtêm de anuários do Instituto
Nacional de Estatística, ou outras publicações do género, em que a quantidade de
informação a divulgar é de tal modo extensa que se tem de apresentar resumida em
classes.
3 . Para melhor nos apercebermos do enviezamento resultante da organização da

amostra em classes, consideremos a situação em que se tem acesso aos 100 valores
individualizados dos pesos da amostra de embalagens de manteiga (exemplo usado
neste texto). Esses valores são apresentados em anexo.
Estes valores foram introduzidos em dois programas estatísticos (MINITAB e

STATGRAPHICS). Os resultados obtidos apresentam-se de seguida.
- MINITAB:
- STATGRAPHICS
ESA 2005/2006 22
Como se pode constatar, alguns parâmetros diferem ligeiramente entre as estimativas

levadas a cabo com a amostra organizada em classes (cálculos no texto) e as estimativas
efectuadas pelos programas (sobre todos os valores). Por exemplo, a média calculada
com classes é x = 300.11 e a calculada sobre os valores individualizados é x = 300.125
e a variância é s 2 = 3.0888 e s 2 = 2.9885 , consoante foi estimada com classes ou com
os valores individualizados.
ESA 2005/2006 23

A Descritiva Amostras Classes Texto

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

A Descritiva Amostras Classes Texto

Загружено:

Авторское право:

Доступные форматы

Estatística Descritiva

Amostras com dados agrupados em classes

Este agrupamento em classes pode dever-se a diversos motivos:

• fonte de informação: os dados podem ter sido obtidos em fontes em que os

• no processo de recolha de informação, os dados foram recolhidos em classes, e

• a dimensão da amostra é demasiado grande, agrupando-se os dados em classes, a

Muitas das variáveis numéricas são de natureza contínua, em que o processo de

Nesta perspectiva, ao falar-se de um valor de peso de borrego de 4.5 kg, rigorosamente

Quando o estatístico tem possibilidade de definir o número de classes (relativamente aos

Em muitas situações, esta definição é efectuada antes de se realizar a recolha de dados,

estatístico apenas resta a liberdade de colocar no intervalo ou classe respectiva cada

Se o estatístico dispõe do rol (ou listagem) de todas as observações individualizadas, e

Existem diversas propostas empíricas para a definição do número de classes k a definir;

k = 1 + 3.3 × log ( N ) , arredondado ao inteiro superior

Em qualquer dos casos, devem definir-se classes com a mesma amplitude.

Combinando estas indicações com o aspecto prático, se fixarmos os limites do intervalo

]297.00, 298.00] , ]298.00, 299.00] , ]299.00,300.00] ,..., ]305.00,306.00]

Limites das classes (peso, em g) Nº de garrafas

Tabela de frequências e histograma

Classes de peso (g) ni Fac fi fra

O histograma das frequências absolutas – que é uma estimativa da função de

Histograma de frequências absolutas

O histograma dá diversas informações acerca da distribuição das frequências,

O histograma das frequências relativas acumuladas (que constitui uma estimativa da

Histograma de frequências acumuladas

Repare-se por exemplo no seguinte histograma de frequências acumuladas,

Histograma de frequências acumuladas

Diagrama de pontos e diagrama de caule-e-folhas

Quer o diagrama de pontos, quer o diagrama de caule-e-folhas, só podem ser elaborados

Repare-se que, elaborando o diagrama com incremento de uma unidade na parte do

mais informação do que a obtida pelo histograma. Fazendo o incremento de 0.5

Para lá da informação que o histograma também fornece, obtém-se a indicação mais

É o valor mais frequente (com maior frequência absoluta ou relativa) na amostra.

Da tabela de frequências apresentada anteriormente, do histograma, ou do diagrama de

O valor da moda é calculado pela seguinte expressão:

Linf Limite inferior da classe modal;

classe anterior ( nclasseanterior = 28 ) é superior à frequência da classe seguinte à classe

Para amostras classificadas, a classe mediana deduz-se a partir da tabela de frequências

em que Facclasse anterior , fraclasse anterior são, respectivamente, a frequência absoluta

Quartis, decis, percentis

1ª classe quartílica: ]298.00 , 299.00]

3ª classe quartílica: ]301.00 , 302.00]

Naturalmente, o 2º quartil coincide com a mediana: Q2 ≡ Med = 299.75 .

A expressão anterior generaliza-se de uma maneira lógica para qualquer percentil:

em que Facclasse anterior , fraclasse anterior são, respectivamente, a frequência absoluta

Para os decis, basta fazer j = 10, 20,30,...,90 na expressão anterior.

Vejamos, por exemplo, os percentis P5 , P10 , P90 , P95 :

Classe do percentil 5%: ]297.00 , 298.00]

Percentil 10% (j=10):

Classe do percentil 10%: ]298.00 , 299.00]

Percentil 90% (j=90):

Classe do percentil 90%: ]302.00 , 302.00]

Percentil 95% (j=95):

Classe do percentil 95%: ]303.00 , 304.00]

média de uma amostra agrupada em classes é calculada por:

Para calcular a média, elabora-se a seguinte tabela como ferramenta de cálculo:

Para além de caracterizar a distribuição de uma amostra pela sua tendência de

Intervalo e amplitude de variação

O intervalo de variação da amostra é o intervalo definido por:

O intervalo de variação da amostra em análise é [297.47 , 305.13] e a amplitude de

A amplitude inter-quartílica é definida como:

Estas medidas de dispersão, amplitude e amplitude inter-quartílica, são mais úteis na

Para a amostra dos pesos das embalagens de manteiga, a amplitude inter-quartílica é de