Вы находитесь на странице: 1из 23

Estatística Descritiva

ESTATÍSTICA DESCRITIVA

Amostras com dados agrupados em classes

Nas próximas secções iremos abordar a análise estatística de uma amostra em que os
dados numéricos estão agrupados em classes, ou seja, em intervalos.

Este agrupamento em classes pode dever-se a diversos motivos:

• fonte de informação: os dados podem ter sido obtidos em fontes em que os


dados já estão no formato de classes, e não se dispõe dos dados individualizados
para todos os elementos da amostra. É o que acontece frequentemente em dados
recolhidos de publicações de diversas Instituições (por exemplo, Anuários do
Instituto Nacional de Estatística);

• no processo de recolha de informação, os dados foram recolhidos em classes, e


não individualizados. Imaginemos, por exemplo, a recolha de diâmetros de
árvores num povoamento florestal, em que se registaram o número de árvores
cujos diâmetros se encontram nos intervalos ]15 , 20], ]20 , 25], ]25, 30], etc, em
vez de se registarem os diâmetros individualmente;

• a dimensão da amostra é demasiado grande, agrupando-se os dados em classes, a


fim de facilitar a análise (esta vantagem actualmente é insignificante, face aos
meios de cálculo disponíveis).

Muitas das variáveis numéricas são de natureza contínua, em que o processo de


quantificação do valor dessa variável pressupõe de algum modo a discretização da
variável. Imaginemos, por exemplo, a recolha de pesos de uma amostra de borregos; a
característica “peso” é tipicamente de natureza contínua; porém, ao pesar cada um dos
borregos, o operador faz um registo que corresponde a um valor aproximado do peso
desse borrego, e não do seu peso exacto; os erros de arredondamento, ou aproximação,
que se fazem nestas situações, dependem fundamentalmente dos objectivos do estudo,
do material usado, etc.

Nesta perspectiva, ao falar-se de um valor de peso de borrego de 4.5 kg, rigorosamente


o que se está a fazer é arredondar para este valor toda a gama de pesos que com maior
precisão de pesagem poderão estar no intervalo ]4.45 , 4.55].

Isto é, muitas das amostras tratadas como amostras de valores discretos correspondem
na realidade a variáveis contínuas mas que são discretizadas (ou arredondadas) para o
valor da marca ou centro do intervalo, no acto de obtenção do valor da variável.

Quando o estatístico tem possibilidade de definir o número de classes (relativamente aos


três casos anteriormente referidos, o estatístico só não tem essa possibilidade no
primeiro dos casos; em ambos os outros, cabe ao estatístico definir as classes ou
intervalos nos quais vai agrupar os dados), um aspecto importante tem a ver com o
número de classes a formar.

Em muitas situações, esta definição é efectuada antes de se realizar a recolha de dados,


de modo que ao efectuar as medições ou o processo de recolha de informação, ao

ESA 2005/2006 1
Estatística Descritiva

estatístico apenas resta a liberdade de colocar no intervalo ou classe respectiva cada


uma das observações.

Numa situação deste género, as classes são de um modo geral estabelecidas de modo a
facilitar a obtenção e o registo das observações.

Se o estatístico dispõe do rol (ou listagem) de todas as observações individualizadas, e


pretende classificar ou agrupar os dados em intervalos (seja simplesmente para elaborar
o histograma, seja para cálculo dos parâmetros estatísticos), a primeira operação é
definir o número de classes.

Existem diversas propostas empíricas para a definição do número de classes k a definir;


uma regra consiste em definir um número de classes próximo à raiz quadrada do
número de observações:

k≈ N

Esta regra parece funcionar bastante bem, se o número de dados não é demasiado
grande (vejamos que, se na amostra existem 400 dados, esta regra sugere a realização de
20 classes de dados). Outra regra, também muito usual, consiste em usar um número de
classes definido por (em que log(.) representa o logaritmo decimal):

k = 1 + 3.3 × log ( N ) , arredondado ao inteiro superior

Em qualquer dos casos, devem definir-se classes com a mesma amplitude.

Estas regras têm um carácter meramente indicativo, devendo ser tomadas em conta as
vantagens de ordem prática que advêm da definição das classes cujos limites inferior e
superior coincidam com valores fáceis de manusear.

Exemplo:

Considere-se uma amostra de 100 dados de pesos, expressos em gramas, que tomam
valores desde xmin = 297.47 g e xmax = 305.13 g . As regras anteriores sugerem a
formação de 10 classes e 8 classes, respectivamente.

Combinando estas indicações com o aspecto prático, se fixarmos os limites do intervalo


de variação em ]279.00,306.00] , a amplitude deste intervalo é de 9.00 g, sugerindo a
realização de 9 classes, de amplitude 1.00 g, definidas como:

]297.00, 298.00] , ]298.00, 299.00] , ]299.00,300.00] ,..., ]305.00,306.00]


Repare-se que, de um modo geral se estão a respeitar as indicações teóricas do número
de classes a formar, em conjugação com o aspecto prático dos limites das classes
ficarem bem definidos.

Nota acerca dos limites das classes: subsiste sempre alguma confusão acerca dos limites
das classes, se deverão ser abertos no limite inferior e fechados no limite superior, isto

ESA 2005/2006 2
Estatística Descritiva

é, do tipo  Linf , Lsup  , ou se os limites devem ser ao contrário, isto é,  Linf , Lsup  . Vamos
adoptar a definição  Linf , Lsup  , já que desta maneira estamos a ser coerentes com a
definição da função cumulativa de probabilidades.

Pressupõe-se que em cada uma das classes, todas as observações dessa classe estão
concentradas no centro ou marca da classe.

Nas secções seguintes vamos usar, para além de outros exemplos esporádicos usados
para ilustrar as explicações de alguns conceitos, a seguinte amostra de pesos (em g) de
100 embalagens de manteiga (os pesos variam entre xmin = 297.47 g e xmax = 305.13 g ,
conforme anteriormente referido; não se registaram as observações individualizadas,
mas apenas se contaram o número de ocorrências em cada uma das classes); o número
de classes é k = 9 , e amplitude de cada classe é de 1 unidade:

Limites das classes (peso, em g) Nº de garrafas


]297.00 , 298.00] 8
]298.00 , 299.00] 21
]299.00 , 300.00] 28
]300.00 , 301.00] 15
]301.00 , 302.00] 11
]302.00 , 303.00] 10
]303.00 , 304.00] 5
]304.00 , 305.00] 1
]305.00 , 306.00] 1
TOTAL N = 100

Tabela de frequências e histograma

ni
A tabela de frequências e o histograma têm o seguinte aspecto, onde fi = é a
N
frequência relativa da observação xi , e Fac, fra são as frequências absolutas
acumuladas e as frequências relativas acumuladas:

Classes de peso (g) ni Fac fi fra


]297.00 , 298.00] 8 8 0.08 0.08
]298.00 , 299.00] 21 29 0.21 0.29
]299.00 , 300.00] 28 57 0.28 0.57
]300.00 , 301.00] 15 72 0.15 0.72
]301.00 , 302.00] 11 83 0.11 0.83
]302.00 , 303.00] 10 93 0.10 0.93
]303.00 , 304.00] 5 98 0.05 0.98
]304.00 , 305.00] 1 99 0.01 0.99
]305.00 , 306.00] 1 100 0.01 1.00
TOTAL 9 9
N = ∑ ni = 100 ∑f i =1
i =1 i =1

ESA 2005/2006 3
Estatística Descritiva

O histograma das frequências absolutas – que é uma estimativa da função de


distribuição de probabilidades da população de onde a amostra foi recolhida - tem o
seguinte aspecto (o histograma das frequências relativas tem exactamente o mesmo
aspecto, diferindo apenas a escala do eixo das ordenadas, que em vez de escala absoluta,
vem em escala relativa):

Histograma de frequências absolutas


30,0

20,0
Count

10,0

0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Peso (g)

A escala do eixo das abcissas pode definir os limites das classe, como no exemplo, ou
então a marca da classe (isto é, o centro de cada uma das classes).

O histograma dá diversas informações acerca da distribuição das frequências,


nomeadamente em termos de valores mais frequentes (classe modal, que no caso é a
classe ]299.00 , 300.00], simetria (no exemplo, nota-se que a distribuição é assimétrica à
esquerda ou assimétrica positiva), regiões do intervalo de variação onde não existem
observações, bem como da representatividade de cada uma das classes.

O histograma das frequências relativas acumuladas (que constitui uma estimativa da


função cumulativa de probabilidades) apresenta-se em seguida.

Quanto maior for um degrau de um valor xi −1 (anterior) para o valor xi (actual), maior é
a frequência de observações do valor xi , e vice-versa. Note-se que nos primeiros
valores de x os degraus entre os diversos patamares são bastante elevados,
correspondendo a maiores frequências para os respectivos valores de x, enquanto que
para os últimos valores de x, os degraus são bastante pequenos, significando que as
respectivas frequências são baixas.

ESA 2005/2006 4
Estatística Descritiva

Histograma de frequências acumuladas


100,0

75,0
Percent

50,0

25,0

0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Peso (g)

Repare-se por exemplo no seguinte histograma de frequências acumuladas,


correspondente a uma distribuição uniforme das frequências pelos diversos valores de x.
Num caso destes, os degraus entre os sucessivos valores de x têm todos a mesma altura:

Histograma de frequências acumuladas


100,0

75,0
Percent

50,0

25,0

0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
x

Diagrama de pontos e diagrama de caule-e-folhas

ESA 2005/2006 5
Estatística Descritiva

Para grandes amostras, estes diagramas ficam muito pesados, e são de interpretação
mais difícil. Aliás, se estes tipos de gráficos ganham vantagem sobre o histograma, no
caso de pequenas amostras, para grandes amostras perdem essa vantagem, e deve usar-
se preferencialmente o histograma.

Quer o diagrama de pontos, quer o diagrama de caule-e-folhas, só podem ser elaborados


se dispusermos dos registos de todas as observações; se se dispuser apenas da tabela de
frequências, não se podem elaborar estes gráficos.

Admitindo que, afinal, sempre se dispunha de toda a amostra dos pesos das 100
embalagens de manteiga (anexo), e não apenas a tabela de frequências, estes diagramas
apresentam-se de seguida.

Diagrama de pontos:

Veja-se que este diagrama é agora, ao contrário do que acontecia para pequenas
amostras, pouco informativo, já que mostra a localização de uma nuvem enorme de
pontos sobre a escala da variável. Pode, inclusivamente, induzir a diversas análises
menos correctas, por exemplo, detectar diversas modas na amostra, considerar o valor
máximo como outlier, quando na realidade não o é, etc.

Diagrama de caule-e-folhas

Repare-se que, elaborando o diagrama com incremento de uma unidade na parte do


“caule” (diagrama no lado esquerdo), obtém-se o histograma deitado, não se ganhando

ESA 2005/2006 6
Estatística Descritiva

mais informação do que a obtida pelo histograma. Fazendo o incremento de 0.5


unidades (diagrama do lado direito), dá uma ideia mais precisa da distribuição, agora
em classes de 0.5 g de amplitude. Mas esta mesma informação se poderia também obter
no histograma, aumentando o número e diminuindo a amplitude das classes.

Para lá da informação que o histograma também fornece, obtém-se a indicação mais


imediata da classe mediana.

Parâmetros estatísticos

Parâmetros de localização

Moda

É o valor mais frequente (com maior frequência absoluta ou relativa) na amostra.

Da tabela de frequências apresentada anteriormente, do histograma, ou do diagrama de


caule-e-folhas, deduz-se a moda ocorre na classe ]299.00, 300] (classe modal).

Pretendendo um valor único, e não uma classe de valores, para a moda, este valor será
um ponto no interior da classe modal, desviado mais para o limite inferior limie
superior, de acordo com as frequências nas classes adjacentes.

O valor da moda é calculado pela seguinte expressão:

d1
Mod = Linf + .∆
d1 + d 2

onde:

Linf Limite inferior da classe modal;


d1 = nclasse modal − nclasseanterior ou d1 = f classe modal − f classeanterior
d 2 = nclasse modal − nclasseseguinte ou d1 = f classe modal − f classeseguinte
∆ Amplitude da classe modal.

No exemplo, temos:

Linf = 299.00
d1 = nclasse modal − nclasseanterior = 28 − 21 = 7
d 2 = nclasse modal − nclasseseguinte = 28 − 15 = 13
∆ =1

d1 7
Mod = Linf + .∆ = 299.00 + × 1.00 = 299.35
d1 + d 2 7 + 13
Repare-se que o valor da moda não está rigorosamente no centro da classe modal, mas
está mais deslocado para o lado do limite inferior da classe modal, pois a frequência da

ESA 2005/2006 7
Estatística Descritiva

classe anterior ( nclasseanterior = 28 ) é superior à frequência da classe seguinte à classe


modal ( nclasseseguinte = 15 ).

Mediana

A mediana é o valor xi tal que metade da amostra se localiza abaixo e a outra metade de
amostra se localiza acima desse valor.

Para amostras classificadas, a classe mediana deduz-se a partir da tabela de frequências


ou do histograma das frequências acumuladas (valor xi para o qual a frequência
absoluta acumulada é igual ou superior a metade da amostra), ou a partir do diagrama de
caule-e-folhas. O valor da mediana é um valor contido nesta classe, e é estimado pela
seguinte expressão, conforme se utilizem frequências absolutas acumuladas ou
frequências relativas acumuladas:

N
− Facclasse anterior 0.5 − fraclasse anterior
Med = Linf + 2 .∆ = Linf + .∆
nclasse mediana f classe mediana

em que Facclasse anterior , fraclasse anterior são, respectivamente, a frequência absoluta


acumulada ou a frequência relativa acumulada até à classe anterior à classe mediana,
nclasse mediana , f classe mediana são a frequência absoluta ou a frequência relativa da classe
mediana, Linf é o limite inferior da classe mediana e ∆ é a amplitude da classe mediana.

ESA 2005/2006 8
Estatística Descritiva

Para a amostra em estudo, a classe mediana é a classe ]299.00 , 300.00], Linf = 299.00 ,
Facclasse anterior = 29 , nclasse mediana = 28 e ∆ = 1.00 ; assim, a mediana é:

N
− Facclasse anterior
2 50 − 29
Med = Linf + .∆ = 299.00 + × 1.00 = 299.75
nclasse mediana 28

Quartis, decis, percentis

Tal como para o caso das amostras discretas ou de pequena dimensão, os quartis
dividem a amostra em quatro sub-amostras ou quatro intervalos quartílicos, definidos
respectivamente por [ xmin , Q1 ] ; [Q1 , Q2 ] ; [Q2 , Q3 ] ; [Q3 , xmax ] .

Para definir cada um dos quartis, localiza-se a classe quartílica respectiva (isto é, a
classe onde ocorrem 25%, 50% e 75% das observações), e de seguida determina-se qual
dos valores de cada uma dessas classes é teoricamente o respectivo quartil, usando a
seguinte expressão:

j. N j
− Facclasse anterior , j − fraclasse anterior , j
Q j = Linf, j + 4 .∆ = Linf, j + 4 .∆ j = 1, 2,3
nclasseQ j f classeQ j

1º quartil (j=1):

1ª classe quartílica: ]298.00 , 299.00]


Facclasse anterior = 8
nclasseQ1 = 21
N 100
− Facclasse anterior ,1 −8
Q1 = Linf,1 + 4 .∆ = 298.00 + 4 × 1.00 = 298.81
nclasseQ1 21

3º quartil (j=3):

3ª classe quartílica: ]301.00 , 302.00]


Facclasse anterior = 72
nclasseQ3 = 11
3.N 3 × 100
− Facclasse anterior ,3 − 72
Q3 = Linf,3 + 4 .∆ = 301.00 + 4 × 1.00 = 301.27
nclasseQ3 11

Naturalmente, o 2º quartil coincide com a mediana: Q2 ≡ Med = 299.75 .

ESA 2005/2006 9
Estatística Descritiva

A expressão anterior generaliza-se de uma maneira lógica para qualquer percentil:

j. N j
− Facclasse anterior , j − fraclasse anterior , j
Pj = Linf, j + 100 .∆ = Linf, j + 100 .∆ j = 1, 2,3,...,100
nclasse Pj f classe Pj

em que Facclasse anterior , fraclasse anterior são, respectivamente, a frequência absoluta


acumulada ou a frequência relativa acumulada até à classe anterior à classe do percentil
pretendido, nclasse Pj , f classe Pj são a frequência absoluta ou a frequência relativa da classe
do percentil pretendido, Linf é o limite inferior da classe do percentil e ∆ é a amplitude
da classe do percentil em consideração.

Para os decis, basta fazer j = 10, 20,30,...,90 na expressão anterior.

Vejamos, por exemplo, os percentis P5 , P10 , P90 , P95 :

Percentil 5% (j=5):

Classe do percentil 5%: ]297.00 , 298.00]


Facclasse anterior = 0
nclasse P5 = 8
5.N 5 ×100
− Facclasse anterior ,5 −0
P5 = Linf,5 + 100 .∆ = 297.00 + 100 × 1.00 = 297.625
nclasse P5 8

Percentil 10% (j=10):

Classe do percentil 10%: ]298.00 , 299.00]


Facclasse anterior = 8
nclasse P10 = 21
10.N 10 × 100
− Facclasse anterior ,10 −8
P10 = Linf,10 + 100 .∆ = 298.00 + 100 × 1.00 = 298.095
nclasse P10 21

Percentil 90% (j=90):

Classe do percentil 90%: ]302.00 , 302.00]


Facclasse anterior = 83
nclasse P90 = 10
90.N 90 ×100
− Facclasse anterior ,90 − 83
P90 = Linf,90 + 100 .∆ = 302.00 + 100 × 1.00 = 302.7
nclasse P90 10

ESA 2005/2006 10
Estatística Descritiva

Percentil 95% (j=95):

Classe do percentil 95%: ]303.00 , 304.00]


Facclasse anterior = 93
nclasse P95 = 5
95.N 95 × 100
− Facclasse anterior ,95 − 93
P95 = Linf,95 + 100 .∆ = 303.00 + 100 × 1.00 = 303.4
nclasse P95 5

Nota: de um modo geral há sempre interesse em calcular, para além da mediana e dos
quartis, os percentis P10 e P90 , pois entram no cálculo de coeficientes de assimetria e de
achatamento.

Média

Tal como no caso de amostras de pequena dimensão, mas onde existem dados repetidos,
k
sendo ni a frequência absoluta da i.ésima classe i = 1, 2,3,..., k , tal que ∑n
i =1
i =N, a

média de uma amostra agrupada em classes é calculada por:

∑ n .x i i
x= i =1

Nesta situação, o valor xi é a marca (ou valor central) da i.ésima classe i = 1, 2,3,..., k .

Para calcular a média, elabora-se a seguinte tabela como ferramenta de cálculo:

Classe xi ni ni .xi
]297.00 , 298.00] 297,5 8 2380,0
]298.00 , 299.00] 298,5 21 6268,5
]299.00 , 300.00] 299,5 28 8386,0
]300.00 , 301.00] 300,5 15 4507,5
]301.00 , 302.00] 301,5 11 3316,5
]302.00 , 303.00] 302,5 10 3025,0
]303.00 , 304.00] 303,5 5 1517,5
]304.00 , 305.00] 304,5 1 304,5
]305.00 , 306.00] 305,5 1 305,5
9

∑ n .x
i =1
i i = 30011.0

ESA 2005/2006 11
Estatística Descritiva

∑ n .x i i
30011
Logo, a média é x = i =1
= = 300.11
N 100

∑ n .x i i k
ni .xi k ni k
n
Nota: x = i =1
=∑ =∑ .xi =∑ f i .xi , em que fi = i é a frequência relativa
N i =1 N i =1 N i =1 N
da observação xi . Isto é:

Classe xi fi fi .xi
]297.00 , 298.00] 297,5 0,08 23,800
]298.00 , 299.00] 298,5 0,21 62,685
]299.00 , 300.00] 299,5 0,28 83,860
]300.00 , 301.00] 300,5 0,15 45,075
]301.00 , 302.00] 301,5 0,11 33,165
]302.00 , 303.00] 302,5 0,1 30,250
]303.00 , 304.00] 303,5 0,05 15,175
]304.00 , 305.00] 304,5 0,01 3,045
]305.00 , 306.00] 305,5 0,01 3,055
9
x = ∑ fi .xi = 300.11
i =1

No exemplo nota-se que Mod = 299.35 < Med = 299.75 < x = 300.11 , o que é um
sintoma de que a amostra tem uma cauda superior mais prolongada, isto é, a amostra
denota uma tendência de assimetria à direita, ou assimetria positiva.

Parâmetros de dispersão

Para além de caracterizar a distribuição de uma amostra pela sua tendência de


localização ou tendência central, temos de descrever igualmente a sua tendência de
dispersão ou variabilidade, que é um indicador da variabilidade das observações em
torno dos valores centrais.

Intervalo e amplitude de variação

O intervalo de variação da amostra é o intervalo definido por:

[ x1 , xN ]
isto é, o intervalo definido pelos valores mínimo e máximo da amostra. A Amplitude d
variação (“Range”) é a amplitude deste intervalo:

R = xN − x1

ESA 2005/2006 12
Estatística Descritiva

O intervalo de variação da amostra em análise é [297.47 , 305.13] e a amplitude de


variação é R = 305.13 − 297.47 = 7.66 .

Amplitude inter-quartílica

A amplitude inter-quartílica é definida como:

Q3 − Q1

Embora esta estimativa da variabilidade não seja tanto influenciada pelos valores
extremos e traduza melhor que a amplitude da amostra a maior ou menor tendência de
concentração dos valores em torno da média, ainda não leva em conta todas as
observações presentes na amostra.

Estas medidas de dispersão, amplitude e amplitude inter-quartílica, são mais úteis na


comparação da variabilidade de diversas amostras retiradas da mesma população do que
na descrição da dispersão de uma única amostra.

Para a amostra dos pesos das embalagens de manteiga, a amplitude inter-quartílica é de


Q3 − Q1 = 301.27 − 298.81 = 2.46 .

Diagrama de extremos-e-quartis

Este diagrama, também designado por caixa-com-bigodes (da tradução literal da sua
designação em Inglês, “boax-and-whiskers”) permite efectuar uma análise gráfica da
variabilidade de uma amostra, bem como analisar a distribuição da concentração nas
quatro sub-amostras definidas pelos quartis (intervalos quartílicos).

Esta representação gráfica consiste em desenhar um rectângulo, com a base na escala


das observações, e em que os dois lados laterais são respectivamente o 1º e 3º quartis;
ligam-se estes lados com um segmento de recta à escala, respectivamente ao valor
mínimo e ao valor máximo da amostra. O rectângulo, que representa a amplitude inter-
quartílica, é dividido pela mediana.

Pela amplitude de cada uma destas quatro sub-amostras, é possível ficar-se com uma
ideia bastante rigorosa de como é o comportamento da amostra, em termos de dispersão
ou concentração de valores, bem como deduzir acerca da sua simetria.

Na amostra em estudo, este diagrama tem o seguinte aspecto:

ESA 2005/2006 13
Estatística Descritiva

Repare-se que a amostra é mais concentrada no 2º intervalo quartílico. A zona de maior


dispersão de valores ocorre no 4º intervalo quartílico.

Nota-se a ocorrência de um valor (valor máximo) que deve ser considerado como
outlier moderado, já que:

xmax = 305.13 > Q3 + 1.5 × ( Q3 − Q1 ) = 301.27 + 1.5 × 2.46 = 304.96

Contudo, não é outlier extremo porque:

xmax = 305.13 < Q3 + 3 × ( Q3 − Q1 ) = 301.27 + 3 × 2.46 = 308.65

Desvio médio

Uma medida da dispersão em torno da média resulta da soma dos desvios de cada
observação para a média:

∑ x −x i
dm = i =1

Para dados agrupados em classes, o desvio médio calcula-se pela expressão seguinte,
em que xi é a marca de cada uma das k classes:

∑n . x − x
i i k
ni k
dm = i =1
=∑ . xi − x = ∑ fi . xi − x
N i =1 N i =1

ESA 2005/2006 14
Estatística Descritiva

Este parâmetro mede o afastamento médio de cada observação para a média: quanto
maior for (comparativamente com a média ou com os dados originais), mais dispersa
será a amostra, e consequentemente menos representativa é a média.

Na tabela de cálculo seguinte apresentam-se os cálculos do desvio médio da amostra em


análise:

Classe xi ni xi − x ni . xi − x
]297.00 , 298.00] 297,5 8 -2,61 20,88
]298.00 , 299.00] 298,5 21 -1,61 33,81
]299.00 , 300.00] 299,5 28 -0,61 17,08
]300.00 , 301.00] 300,5 15 0,39 5,85
]301.00 , 302.00] 301,5 11 1,39 15,29
]302.00 , 303.00] 302,5 10 2,39 23,9
]303.00 , 304.00] 303,5 5 3,39 16,95
]304.00 , 305.00] 304,5 1 4,39 4,39
]305.00 , 306.00] 305,5 1 5,39 5,39
9

∑n . x − x
i =1
i i = 143.54

∑n . x − x i i
143.54
O desvio médio é dm = i =1
= = 1.4354 .
N 100

O desvio médio também podia ser calculado usando as frequências relativas:

xi fi xi − x fi . xi − x
]297.00 , 298.00] 297,5 8 0,2088
]298.00 , 299.00] 298,5 21 0,3381
]299.00 , 300.00] 299,5 28 0,1708
]300.00 , 301.00] 300,5 15 0,0585
]301.00 , 302.00] 301,5 11 0,1529
]302.00 , 303.00] 302,5 10 0,2390
]303.00 , 304.00] 303,5 5 0,1695
]304.00 , 305.00] 304,5 1 0,0439
]305.00 , 306.00] 305,5 1 0,0539
9
dm = ∑ fi . xi − x = 1.4354
i =1

O desvio médio, quando comparado com os valores originais ou com o valor da média,
revela-se bastante pequeno o que traduz uma pequena tendência de dispersão, ou
equivalentemente, uma forte tendência de concentração em torno da média; uma
dm 1.4354
comparação mais objectiva poderá ser obtida pela proporção = = 0.0048 ,
x 300.11
isto é, o desvio médio é da ordem de 0.48% do valor da média.

ESA 2005/2006 15
Estatística Descritiva

Variância

A variância é o parâmetro de dispersão mais usual, e aquele que apresenta melhores


propriedades estatísticas.

A variância, tal como o desvio médio, é uma medida do afastamento médio de cada uma
das observações em torno da média. No caso do desvio médio, o módulo da diferença
para a média é, por definição, o afastamento de cada observação para a média. No caso
da variância, usa-se o quadrado da distância das observações para a média.

Para a população, a variância é, por definição:

∑(x − µ)
2
i
σ2 = i =1

Contudo, na Estatística não se tem a população, mas sim uma amostra de observações,
geralmente de muito menor dimensão que a população. Demonstra-se que a expressão
anterior, quando aplicada a amostras relativamente diminutas em comparação com a
população (e usando a média amostral x como estimativa da média da população µ )
sub-valoriza o valor da variância (isto é, o valor da variância amostral seria menor que o
valor da variância da população de onde a amostra foi retirada). Para evitar este
enviesamento, utiliza-se a seguinte expressão de cálculo da variância amostral, denotada
com o símbolo s 2 :

∑(x − x )
2
i
s2 = i =1

N −1

Isto é, para evitar a sub-valorização, o divisor é N − 1 .

Esta expressão, para cálculo manual, é de difícil manuseamento. Desenvolvendo


aritmeticamente a expressão anterior, e considerando existem k classe, cujas marcas são
genericamente xi , e as frequências absolutas são ni , obtém-se a seguinte expressão,
mais fácil de implementar numa tabela de cálculo:

  k  
2

  ∑ ni .xi  
1  k   = 1  n .x 2 − N .x 2 
k
 i =1
s =
2
∑i i
N − 1  i =1
n . x 2

N  N − 1  ∑
i =1
i i 

 
 
 

Repare-se que o valor da variância vem expresso numa escala quadrática, não podendo
portanto comparar-se com os valores originais. Para podermos comparar duas
quantidades, estas têm de estar nas mesmas unidades. Assim, calcula-se a variância, e
de seguida reduz-se para a escala em que estão as observações:

ESA 2005/2006 16
Estatística Descritiva

s = ss

Este indicador estatístico (s) designa-se por desvio padrão.

Para comparar o desvio padrão com os valores originais, calcula-se o seguinte


indicador, designado por coeficiente de variação:

s
cv =
x

Como regra de geral, alguns autores consideram a distribuição concentrada se cv ≤ 0.1 ,


e dispersa caso cv > 0.1 .

Para a amostra das embalagens de manteiga em análise, elabore-se a seguinte tabela de


cálculo:

Classe xi ni ni .xi2
]297.00 , 298.00] 297,5 8 708050,00
]298.00 , 299.00] 298,5 21 1871147,25
]299.00 , 300.00] 299,5 28 2511607,00
]300.00 , 301.00] 300,5 15 1354503,75
]301.00 , 302.00] 301,5 11 999924,75
]302.00 , 303.00] 302,5 10 915062,50
]303.00 , 304.00] 303,5 5 460561,25
]304.00 , 305.00] 304,5 1 92720,25
]305.00 , 306.00] 305,5 1 93330,25
9

∑ n .x
i =1
i
2
i = 9006907.0

Para calcular a variância, basta fazer:

1  k  1
s2 =  ∑ ni .xi2 − N .x 2  = ( 9006907 − 100 × 300.112 ) = 3.0888
N − 1  i =1  99

O desvio padrão é s = s 2 = 3.0888 = 1.7575 . O coeficiente de variação é


s 1.7575
cv = = = 0.0059 , isto é, o desvio padrão é da ordem de 0.59% do valor da
x 300.11
média, o que traduz, tal como o desvio médio, uma variabilidade bastante pequena das
observações em torno da média.

Parâmetros de assimetria

A assimetria (em inglês, skewness) é o grau de desvio ou afastamento da simetria de


uma distribuição. Se a curva de frequências de uma distribuição tem uma cauda mais

ESA 2005/2006 17
Estatística Descritiva

longa à direita, relativamente à ordenada máxima (moda), diz-se que a distribuição é


assimétrica para a direita, ou que tem assimetria positiva. Se a cauda mais longa é a
esquerda, a distribuição é assimétrica para a esquerda, ou assimétrica negativa.

Assimetria positiva S imétrica Assimetria negativa

Para distribuições assimétricas, a média tende a situar-se do mesmo lado da moda que a
cauda mais longa:

Assimetria positiva Assimetria negativa

M oda x x M oda

Assim, uma medida da assimetria é proporcionada pela diferença entre a média e a


moda, ponderada por uma medida de dispersão (desvio padrão):

x − moda
Assimetria = (primeiro coeficiente se assimetria de Pearson)
s

Para evitar o uso da moda, pode adoptar-se uma relação empírica entre a média, a
mediana e a moda: x − moda = 3 ( x − mediana ) e a assimetria é dada por:

3 ( x − mediana )
Assimetria = (segundo coeficiente se assimetria de Pearson)
s

Outros coeficientes de assimetria são definidos em termos dos quartis e decis; o


coeficiente quartílico de assimetria é definido como:

( Q3 − Q2 ) − ( Q2 − Q1 ) = ( Q3 − 2Q2 + Q1 )
( Q3 − Q1 ) ( Q3 − Q1 )
e o coeficiente percentílico de assimetria é:

( P90 − P50 ) − ( P50 − P10 ) = ( P90 − 2 P50 + P10 )


( P90 − P10 ) ( P90 − P10 )

ESA 2005/2006 18
Estatística Descritiva

Um outro coeficiente de assimetria é o coeficiente se assimetria de Fisher, que utiliza o


N

∑(x − x )
3
terceiro momento centrado na média ( m3 = 1
N i ):
i =1

∑(x − x )
1 3
N ( N − 1) m3 N ( N − 1) N i
g1 = × = × i =1

N −2 s3 N −2 s3

Este coeficiente é calculado em diversos programas estatísticos (SPSS, MINITAB,


STATGRAPHICS, etc), muito embora o seu cálculo manual seja algo moroso.

Está provado que para N>150 o coeficiente g1 é assintóticamente normal com média
zero e variância N6 ; o coeficiente de assimetria estandardizado é:

g1
gs =
6
N

Todos estes coeficientes são nulos quando a amostra é perfeitamente simétrica; são
positivos se a amostra é assimétrica positiva ou assimétrica à direita, e são negativos
para amostras assimétricas negativas.

Para a amostra de pesos das embalagens de manteiga, estes coeficientes são:

1º coeficiente de assimetria de Pearson:

x − moda 300.11 − 299.35


Assimetria = = = 0.4324
s 1.7575

2º coeficiente de assimetria de Pearson:

3 ( x − mediana ) 3 × ( 300.11 − 299.75 )


Assimetria = = = 0.2048
s 1.7575

Coeficiente quartílico de assimetria:

( Q3 − 2Q2 + Q1 ) = 301.27 − 2 × 299.75 + 298.81 = 0.2358


( Q3 − Q1 ) 301.27 − 298.81

Coeficiente percentílico de assimetria:

( P90 − 2 P50 + P10 ) = 302.7 − 2 × 299.75 + 298.095 = 0.2812


( P90 − P10 ) 302.7 − 298.095

O coeficiente de assimetria de Fisher é:

ESA 2005/2006 19
Estatística Descritiva

N
366.7062
∑(x − x )
1 3
N ( N − 1) m3 N ( N − 1) N i
100 × 99
g1 = × = × i =1
= × 100 3 = 0.6858
N −2 s3 N −2 s3 98 1.7575

Todos estes coeficientes indicam que a distribuição da amostra é ligeiramente enviezada


à direita, ou assimétrica positiva.

Parâmetros de forma

Além da simetria, as distribuições também se costumam caracterizar quanto à altura do


ponto máximo da curva de distribuição. Esta característica é designada por achatamento
ou curtose (em inglês, kurtosis).

Leptocúrtica

Platicúrtica Mesocúrtica

A distribuição chamada mesocúrtica tem no centro uma altura correspondente à curva


da função de densidade da distribuição normal.

A distribuição diz-se platicúrtica se tem altura inferior à da curva normal. Repare-se que
o facto de a distribuição ter altura menor no centro, significa maior proporção de
observações nas caudas, isto é, é sintoma de uma forte dispersão.

A distribuição diz-se leptocúrtica se tem altura superior à da curva normal. O facto de a


distribuição ter altura maior no centro, significa maior proporção de observações nas
proximidades dos valores centrais, isto é, é sintoma de uma forte concentração em torno
da média.

Um coeficiente numérico para caracterizar o achatamento é o coeficiente percentílico de


achatamento:

( Q3 − Q1 )
k= 2
P90 − P10

Para uma curva normal, o valor deste coeficiente é k = 0.263 . Um valor inferior é
sintoma de uma curva muito achatada, e um valor superior é sintoma de uma curva
demasiado alta.

ESA 2005/2006 20
Estatística Descritiva

Os programas estatísticos usam outro coeficiente de achatamento, designado por


coeficiente de achatamento de Fisher, que é baseado no 4º momento centrado na média
N

∑(x − x )
4
( m4 = 1
N i ):
i =1

g2 =
( N + 1)( N − 1) ×  m4 − 3 ( N − 1) 
( N − 2 )( N − 3)  s 4 N +1 

Para uma curva normal, o valor deste coeficiente é k = 0 . Um valor negativo é sintoma
de uma curva muito achatada, e um valor positivo é sintoma de uma curva demasiado
alta.

Para a amostra de borregos, o coeficiente percentílico de achatamento é:

( Q3 − Q1 ) 301.27 − 298.81
k= 2 = 2 = 0.2671
P90 − P10 302.7 − 298.095

indicando que a distribuição tem uma altura na classe modal muito semelhante à altura
de uma distribuição normal. O coeficiente baseado no 4º momento é g 2 = −0.0505 que,
tal como o coeficiente percentílico de achatamento, dá a informação de que a altura da
curva da distribuição é praticamente normal.

Considerações finais

1 . O facto de se agruparem os dados em classes, e estimar os parâmetros com base nas


marcas das classes, e não com todos os dados individualizados, conduz necessariamente
a umas estimativas dos parâmetros ligeiramente diferentes das que se obteriam
trabalhando com os N dados individualizados. Estas diferenças serão tanto mais graves
quanto mais distintos, em cada uma das classes, os valores nelas incluídos forem
diferentes da marca da classe.

Assim, de modo a minimizar o efeito de enviezamento nas estimativas dos parâmetros


estatísticos, as classes devem ser definidas de tal modo que as respectivas marcas
fiquem sensivelmente no centro das observações incluídas em cada uma das classes. Por
exemplo, se o processo de obtenção das observações conduz sistematicamente a valores
do tipo xx.8, xx.9, xx.1, xx.2, as classes devem ser definidas de modo a que a marca
seja do tipo xx.0. Repare-se que a definição de classes de modo que as marcas fossem
do tipo xx.5, os valores teriam tendência a estar mais afastados da marca, send maior o
enviezamento provocado pela organização da amostra em classes.

2 . Com os meios computacionais actualmente disponíveis, não há grande vantagem na


realização de classes. Um dos principais motivos para a organização da amostra em
classes, era a vantagem de cálculo resultante dessa organização, quando os cálculos
tinham de ser efectuados manualmente.

ESA 2005/2006 21
Estatística Descritiva

Com o incremento e divulgação dos programas estatísticos informáticos, essa vantagem


é desprezível, de modo que as estimativas são mais rigorosas se forem efectuadas com
todos os dados, e não com as marcas das classes.

A justificação para as metodologias de cálculo com os dados organizados em classes


prende-se com o facto de muita da informação disponível para tratamento e análise
estatística está por natureza agrupado em classes. Como exemplo, refiram-se as
informações socio-económicas que a cada dia se obtêm de anuários do Instituto
Nacional de Estatística, ou outras publicações do género, em que a quantidade de
informação a divulgar é de tal modo extensa que se tem de apresentar resumida em
classes.

3 . Para melhor nos apercebermos do enviezamento resultante da organização da


amostra em classes, consideremos a situação em que se tem acesso aos 100 valores
individualizados dos pesos da amostra de embalagens de manteiga (exemplo usado
neste texto). Esses valores são apresentados em anexo.

Estes valores foram introduzidos em dois programas estatísticos (MINITAB e


STATGRAPHICS). Os resultados obtidos apresentam-se de seguida.

- MINITAB:

- STATGRAPHICS

ESA 2005/2006 22
Estatística Descritiva

Como se pode constatar, alguns parâmetros diferem ligeiramente entre as estimativas


levadas a cabo com a amostra organizada em classes (cálculos no texto) e as estimativas
efectuadas pelos programas (sobre todos os valores). Por exemplo, a média calculada
com classes é x = 300.11 e a calculada sobre os valores individualizados é x = 300.125
e a variância é s 2 = 3.0888 e s 2 = 2.9885 , consoante foi estimada com classes ou com
os valores individualizados.

ESA 2005/2006 23

Вам также может понравиться