Академический Документы
Профессиональный Документы
Культура Документы
ESTATÍSTICA DESCRITIVA
Nas próximas secções iremos abordar a análise estatística de uma amostra em que os
dados numéricos estão agrupados em classes, ou seja, em intervalos.
Isto é, muitas das amostras tratadas como amostras de valores discretos correspondem
na realidade a variáveis contínuas mas que são discretizadas (ou arredondadas) para o
valor da marca ou centro do intervalo, no acto de obtenção do valor da variável.
ESA 2005/2006 1
Estatística Descritiva
Numa situação deste género, as classes são de um modo geral estabelecidas de modo a
facilitar a obtenção e o registo das observações.
k≈ N
Esta regra parece funcionar bastante bem, se o número de dados não é demasiado
grande (vejamos que, se na amostra existem 400 dados, esta regra sugere a realização de
20 classes de dados). Outra regra, também muito usual, consiste em usar um número de
classes definido por (em que log(.) representa o logaritmo decimal):
Estas regras têm um carácter meramente indicativo, devendo ser tomadas em conta as
vantagens de ordem prática que advêm da definição das classes cujos limites inferior e
superior coincidam com valores fáceis de manusear.
Exemplo:
Considere-se uma amostra de 100 dados de pesos, expressos em gramas, que tomam
valores desde xmin = 297.47 g e xmax = 305.13 g . As regras anteriores sugerem a
formação de 10 classes e 8 classes, respectivamente.
Nota acerca dos limites das classes: subsiste sempre alguma confusão acerca dos limites
das classes, se deverão ser abertos no limite inferior e fechados no limite superior, isto
ESA 2005/2006 2
Estatística Descritiva
é, do tipo Linf , Lsup , ou se os limites devem ser ao contrário, isto é, Linf , Lsup . Vamos
adoptar a definição Linf , Lsup , já que desta maneira estamos a ser coerentes com a
definição da função cumulativa de probabilidades.
Pressupõe-se que em cada uma das classes, todas as observações dessa classe estão
concentradas no centro ou marca da classe.
Nas secções seguintes vamos usar, para além de outros exemplos esporádicos usados
para ilustrar as explicações de alguns conceitos, a seguinte amostra de pesos (em g) de
100 embalagens de manteiga (os pesos variam entre xmin = 297.47 g e xmax = 305.13 g ,
conforme anteriormente referido; não se registaram as observações individualizadas,
mas apenas se contaram o número de ocorrências em cada uma das classes); o número
de classes é k = 9 , e amplitude de cada classe é de 1 unidade:
ni
A tabela de frequências e o histograma têm o seguinte aspecto, onde fi = é a
N
frequência relativa da observação xi , e Fac, fra são as frequências absolutas
acumuladas e as frequências relativas acumuladas:
ESA 2005/2006 3
Estatística Descritiva
20,0
Count
10,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Peso (g)
A escala do eixo das abcissas pode definir os limites das classe, como no exemplo, ou
então a marca da classe (isto é, o centro de cada uma das classes).
Quanto maior for um degrau de um valor xi −1 (anterior) para o valor xi (actual), maior é
a frequência de observações do valor xi , e vice-versa. Note-se que nos primeiros
valores de x os degraus entre os diversos patamares são bastante elevados,
correspondendo a maiores frequências para os respectivos valores de x, enquanto que
para os últimos valores de x, os degraus são bastante pequenos, significando que as
respectivas frequências são baixas.
ESA 2005/2006 4
Estatística Descritiva
75,0
Percent
50,0
25,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
Peso (g)
75,0
Percent
50,0
25,0
0,0
297,0 298,0 299,0 300,0 301,0 302,0 303,0 304,0 305,0 306,0
x
ESA 2005/2006 5
Estatística Descritiva
Para grandes amostras, estes diagramas ficam muito pesados, e são de interpretação
mais difícil. Aliás, se estes tipos de gráficos ganham vantagem sobre o histograma, no
caso de pequenas amostras, para grandes amostras perdem essa vantagem, e deve usar-
se preferencialmente o histograma.
Admitindo que, afinal, sempre se dispunha de toda a amostra dos pesos das 100
embalagens de manteiga (anexo), e não apenas a tabela de frequências, estes diagramas
apresentam-se de seguida.
Diagrama de pontos:
Veja-se que este diagrama é agora, ao contrário do que acontecia para pequenas
amostras, pouco informativo, já que mostra a localização de uma nuvem enorme de
pontos sobre a escala da variável. Pode, inclusivamente, induzir a diversas análises
menos correctas, por exemplo, detectar diversas modas na amostra, considerar o valor
máximo como outlier, quando na realidade não o é, etc.
Diagrama de caule-e-folhas
ESA 2005/2006 6
Estatística Descritiva
Parâmetros estatísticos
Parâmetros de localização
Moda
Pretendendo um valor único, e não uma classe de valores, para a moda, este valor será
um ponto no interior da classe modal, desviado mais para o limite inferior limie
superior, de acordo com as frequências nas classes adjacentes.
d1
Mod = Linf + .∆
d1 + d 2
onde:
No exemplo, temos:
Linf = 299.00
d1 = nclasse modal − nclasseanterior = 28 − 21 = 7
d 2 = nclasse modal − nclasseseguinte = 28 − 15 = 13
∆ =1
d1 7
Mod = Linf + .∆ = 299.00 + × 1.00 = 299.35
d1 + d 2 7 + 13
Repare-se que o valor da moda não está rigorosamente no centro da classe modal, mas
está mais deslocado para o lado do limite inferior da classe modal, pois a frequência da
ESA 2005/2006 7
Estatística Descritiva
Mediana
A mediana é o valor xi tal que metade da amostra se localiza abaixo e a outra metade de
amostra se localiza acima desse valor.
N
− Facclasse anterior 0.5 − fraclasse anterior
Med = Linf + 2 .∆ = Linf + .∆
nclasse mediana f classe mediana
ESA 2005/2006 8
Estatística Descritiva
Para a amostra em estudo, a classe mediana é a classe ]299.00 , 300.00], Linf = 299.00 ,
Facclasse anterior = 29 , nclasse mediana = 28 e ∆ = 1.00 ; assim, a mediana é:
N
− Facclasse anterior
2 50 − 29
Med = Linf + .∆ = 299.00 + × 1.00 = 299.75
nclasse mediana 28
Tal como para o caso das amostras discretas ou de pequena dimensão, os quartis
dividem a amostra em quatro sub-amostras ou quatro intervalos quartílicos, definidos
respectivamente por [ xmin , Q1 ] ; [Q1 , Q2 ] ; [Q2 , Q3 ] ; [Q3 , xmax ] .
Para definir cada um dos quartis, localiza-se a classe quartílica respectiva (isto é, a
classe onde ocorrem 25%, 50% e 75% das observações), e de seguida determina-se qual
dos valores de cada uma dessas classes é teoricamente o respectivo quartil, usando a
seguinte expressão:
j. N j
− Facclasse anterior , j − fraclasse anterior , j
Q j = Linf, j + 4 .∆ = Linf, j + 4 .∆ j = 1, 2,3
nclasseQ j f classeQ j
1º quartil (j=1):
3º quartil (j=3):
ESA 2005/2006 9
Estatística Descritiva
j. N j
− Facclasse anterior , j − fraclasse anterior , j
Pj = Linf, j + 100 .∆ = Linf, j + 100 .∆ j = 1, 2,3,...,100
nclasse Pj f classe Pj
Percentil 5% (j=5):
ESA 2005/2006 10
Estatística Descritiva
Nota: de um modo geral há sempre interesse em calcular, para além da mediana e dos
quartis, os percentis P10 e P90 , pois entram no cálculo de coeficientes de assimetria e de
achatamento.
Média
Tal como no caso de amostras de pequena dimensão, mas onde existem dados repetidos,
k
sendo ni a frequência absoluta da i.ésima classe i = 1, 2,3,..., k , tal que ∑n
i =1
i =N, a
∑ n .x i i
x= i =1
Nesta situação, o valor xi é a marca (ou valor central) da i.ésima classe i = 1, 2,3,..., k .
Classe xi ni ni .xi
]297.00 , 298.00] 297,5 8 2380,0
]298.00 , 299.00] 298,5 21 6268,5
]299.00 , 300.00] 299,5 28 8386,0
]300.00 , 301.00] 300,5 15 4507,5
]301.00 , 302.00] 301,5 11 3316,5
]302.00 , 303.00] 302,5 10 3025,0
]303.00 , 304.00] 303,5 5 1517,5
]304.00 , 305.00] 304,5 1 304,5
]305.00 , 306.00] 305,5 1 305,5
9
∑ n .x
i =1
i i = 30011.0
ESA 2005/2006 11
Estatística Descritiva
∑ n .x i i
30011
Logo, a média é x = i =1
= = 300.11
N 100
∑ n .x i i k
ni .xi k ni k
n
Nota: x = i =1
=∑ =∑ .xi =∑ f i .xi , em que fi = i é a frequência relativa
N i =1 N i =1 N i =1 N
da observação xi . Isto é:
Classe xi fi fi .xi
]297.00 , 298.00] 297,5 0,08 23,800
]298.00 , 299.00] 298,5 0,21 62,685
]299.00 , 300.00] 299,5 0,28 83,860
]300.00 , 301.00] 300,5 0,15 45,075
]301.00 , 302.00] 301,5 0,11 33,165
]302.00 , 303.00] 302,5 0,1 30,250
]303.00 , 304.00] 303,5 0,05 15,175
]304.00 , 305.00] 304,5 0,01 3,045
]305.00 , 306.00] 305,5 0,01 3,055
9
x = ∑ fi .xi = 300.11
i =1
No exemplo nota-se que Mod = 299.35 < Med = 299.75 < x = 300.11 , o que é um
sintoma de que a amostra tem uma cauda superior mais prolongada, isto é, a amostra
denota uma tendência de assimetria à direita, ou assimetria positiva.
Parâmetros de dispersão
[ x1 , xN ]
isto é, o intervalo definido pelos valores mínimo e máximo da amostra. A Amplitude d
variação (“Range”) é a amplitude deste intervalo:
R = xN − x1
ESA 2005/2006 12
Estatística Descritiva
Amplitude inter-quartílica
Q3 − Q1
Embora esta estimativa da variabilidade não seja tanto influenciada pelos valores
extremos e traduza melhor que a amplitude da amostra a maior ou menor tendência de
concentração dos valores em torno da média, ainda não leva em conta todas as
observações presentes na amostra.
Diagrama de extremos-e-quartis
Este diagrama, também designado por caixa-com-bigodes (da tradução literal da sua
designação em Inglês, “boax-and-whiskers”) permite efectuar uma análise gráfica da
variabilidade de uma amostra, bem como analisar a distribuição da concentração nas
quatro sub-amostras definidas pelos quartis (intervalos quartílicos).
Pela amplitude de cada uma destas quatro sub-amostras, é possível ficar-se com uma
ideia bastante rigorosa de como é o comportamento da amostra, em termos de dispersão
ou concentração de valores, bem como deduzir acerca da sua simetria.
ESA 2005/2006 13
Estatística Descritiva
Nota-se a ocorrência de um valor (valor máximo) que deve ser considerado como
outlier moderado, já que:
Desvio médio
Uma medida da dispersão em torno da média resulta da soma dos desvios de cada
observação para a média:
∑ x −x i
dm = i =1
Para dados agrupados em classes, o desvio médio calcula-se pela expressão seguinte,
em que xi é a marca de cada uma das k classes:
∑n . x − x
i i k
ni k
dm = i =1
=∑ . xi − x = ∑ fi . xi − x
N i =1 N i =1
ESA 2005/2006 14
Estatística Descritiva
Este parâmetro mede o afastamento médio de cada observação para a média: quanto
maior for (comparativamente com a média ou com os dados originais), mais dispersa
será a amostra, e consequentemente menos representativa é a média.
Classe xi ni xi − x ni . xi − x
]297.00 , 298.00] 297,5 8 -2,61 20,88
]298.00 , 299.00] 298,5 21 -1,61 33,81
]299.00 , 300.00] 299,5 28 -0,61 17,08
]300.00 , 301.00] 300,5 15 0,39 5,85
]301.00 , 302.00] 301,5 11 1,39 15,29
]302.00 , 303.00] 302,5 10 2,39 23,9
]303.00 , 304.00] 303,5 5 3,39 16,95
]304.00 , 305.00] 304,5 1 4,39 4,39
]305.00 , 306.00] 305,5 1 5,39 5,39
9
∑n . x − x
i =1
i i = 143.54
∑n . x − x i i
143.54
O desvio médio é dm = i =1
= = 1.4354 .
N 100
xi fi xi − x fi . xi − x
]297.00 , 298.00] 297,5 8 0,2088
]298.00 , 299.00] 298,5 21 0,3381
]299.00 , 300.00] 299,5 28 0,1708
]300.00 , 301.00] 300,5 15 0,0585
]301.00 , 302.00] 301,5 11 0,1529
]302.00 , 303.00] 302,5 10 0,2390
]303.00 , 304.00] 303,5 5 0,1695
]304.00 , 305.00] 304,5 1 0,0439
]305.00 , 306.00] 305,5 1 0,0539
9
dm = ∑ fi . xi − x = 1.4354
i =1
O desvio médio, quando comparado com os valores originais ou com o valor da média,
revela-se bastante pequeno o que traduz uma pequena tendência de dispersão, ou
equivalentemente, uma forte tendência de concentração em torno da média; uma
dm 1.4354
comparação mais objectiva poderá ser obtida pela proporção = = 0.0048 ,
x 300.11
isto é, o desvio médio é da ordem de 0.48% do valor da média.
ESA 2005/2006 15
Estatística Descritiva
Variância
A variância, tal como o desvio médio, é uma medida do afastamento médio de cada uma
das observações em torno da média. No caso do desvio médio, o módulo da diferença
para a média é, por definição, o afastamento de cada observação para a média. No caso
da variância, usa-se o quadrado da distância das observações para a média.
∑(x − µ)
2
i
σ2 = i =1
Contudo, na Estatística não se tem a população, mas sim uma amostra de observações,
geralmente de muito menor dimensão que a população. Demonstra-se que a expressão
anterior, quando aplicada a amostras relativamente diminutas em comparação com a
população (e usando a média amostral x como estimativa da média da população µ )
sub-valoriza o valor da variância (isto é, o valor da variância amostral seria menor que o
valor da variância da população de onde a amostra foi retirada). Para evitar este
enviesamento, utiliza-se a seguinte expressão de cálculo da variância amostral, denotada
com o símbolo s 2 :
∑(x − x )
2
i
s2 = i =1
N −1
k
2
∑ ni .xi
1 k = 1 n .x 2 − N .x 2
k
i =1
s =
2
∑i i
N − 1 i =1
n . x 2
−
N N − 1 ∑
i =1
i i
Repare-se que o valor da variância vem expresso numa escala quadrática, não podendo
portanto comparar-se com os valores originais. Para podermos comparar duas
quantidades, estas têm de estar nas mesmas unidades. Assim, calcula-se a variância, e
de seguida reduz-se para a escala em que estão as observações:
ESA 2005/2006 16
Estatística Descritiva
s = ss
s
cv =
x
Classe xi ni ni .xi2
]297.00 , 298.00] 297,5 8 708050,00
]298.00 , 299.00] 298,5 21 1871147,25
]299.00 , 300.00] 299,5 28 2511607,00
]300.00 , 301.00] 300,5 15 1354503,75
]301.00 , 302.00] 301,5 11 999924,75
]302.00 , 303.00] 302,5 10 915062,50
]303.00 , 304.00] 303,5 5 460561,25
]304.00 , 305.00] 304,5 1 92720,25
]305.00 , 306.00] 305,5 1 93330,25
9
∑ n .x
i =1
i
2
i = 9006907.0
1 k 1
s2 = ∑ ni .xi2 − N .x 2 = ( 9006907 − 100 × 300.112 ) = 3.0888
N − 1 i =1 99
Parâmetros de assimetria
ESA 2005/2006 17
Estatística Descritiva
Para distribuições assimétricas, a média tende a situar-se do mesmo lado da moda que a
cauda mais longa:
M oda x x M oda
x − moda
Assimetria = (primeiro coeficiente se assimetria de Pearson)
s
Para evitar o uso da moda, pode adoptar-se uma relação empírica entre a média, a
mediana e a moda: x − moda = 3 ( x − mediana ) e a assimetria é dada por:
3 ( x − mediana )
Assimetria = (segundo coeficiente se assimetria de Pearson)
s
( Q3 − Q2 ) − ( Q2 − Q1 ) = ( Q3 − 2Q2 + Q1 )
( Q3 − Q1 ) ( Q3 − Q1 )
e o coeficiente percentílico de assimetria é:
ESA 2005/2006 18
Estatística Descritiva
∑(x − x )
3
terceiro momento centrado na média ( m3 = 1
N i ):
i =1
∑(x − x )
1 3
N ( N − 1) m3 N ( N − 1) N i
g1 = × = × i =1
N −2 s3 N −2 s3
Está provado que para N>150 o coeficiente g1 é assintóticamente normal com média
zero e variância N6 ; o coeficiente de assimetria estandardizado é:
g1
gs =
6
N
Todos estes coeficientes são nulos quando a amostra é perfeitamente simétrica; são
positivos se a amostra é assimétrica positiva ou assimétrica à direita, e são negativos
para amostras assimétricas negativas.
ESA 2005/2006 19
Estatística Descritiva
N
366.7062
∑(x − x )
1 3
N ( N − 1) m3 N ( N − 1) N i
100 × 99
g1 = × = × i =1
= × 100 3 = 0.6858
N −2 s3 N −2 s3 98 1.7575
Parâmetros de forma
Leptocúrtica
Platicúrtica Mesocúrtica
A distribuição diz-se platicúrtica se tem altura inferior à da curva normal. Repare-se que
o facto de a distribuição ter altura menor no centro, significa maior proporção de
observações nas caudas, isto é, é sintoma de uma forte dispersão.
( Q3 − Q1 )
k= 2
P90 − P10
Para uma curva normal, o valor deste coeficiente é k = 0.263 . Um valor inferior é
sintoma de uma curva muito achatada, e um valor superior é sintoma de uma curva
demasiado alta.
ESA 2005/2006 20
Estatística Descritiva
∑(x − x )
4
( m4 = 1
N i ):
i =1
g2 =
( N + 1)( N − 1) × m4 − 3 ( N − 1)
( N − 2 )( N − 3) s 4 N +1
Para uma curva normal, o valor deste coeficiente é k = 0 . Um valor negativo é sintoma
de uma curva muito achatada, e um valor positivo é sintoma de uma curva demasiado
alta.
( Q3 − Q1 ) 301.27 − 298.81
k= 2 = 2 = 0.2671
P90 − P10 302.7 − 298.095
indicando que a distribuição tem uma altura na classe modal muito semelhante à altura
de uma distribuição normal. O coeficiente baseado no 4º momento é g 2 = −0.0505 que,
tal como o coeficiente percentílico de achatamento, dá a informação de que a altura da
curva da distribuição é praticamente normal.
Considerações finais
ESA 2005/2006 21
Estatística Descritiva
- MINITAB:
- STATGRAPHICS
ESA 2005/2006 22
Estatística Descritiva
ESA 2005/2006 23