Вы находитесь на странице: 1из 43

Apontamentos de Estatística Descritiva

• Unidade Curricular: Estatística Aplicada


• Área Científica: Matemática
• Ano
A L Lectivo:
ti 2007/2008
• Curso: Contabilidade e Finanças
• Regime: Diurno + Pós-Laboral
• Escola: Superior de Tecnologia e Gestão do Instituto
Politécnico de Leiria
• Docentes:
D t Mi
Miguel
lFFelgueiras,
l i JJosé
éMMartins,
ti R
Ruii P
Paiva
i

• Autores:
A F
Fernando
d Sebastião
S b i eH Helena
l Sil
Silva
Conteúdos Programáticos
g
Noções básicas:
População. Amostra. Unidade estatística.
Atributo Modalidades
Atributo. Modalidades.
Quadros de frequências:
Frequências absolutas.
Frequências relativas
relativas.
Frequências acumuladas.
Dados agrupados em classes.
Representação gráfica de frequências:
Diagrama de barras.
Diagrama de sectores.
Histograma.
P lí
Polígono de
d ffrequências.
ê i
Redução dos dados:
Medidas de tendência central.
M did d
Medidas de di
dispersão.
ã
Medidas de assimetria.
Medidas de achatamento.
Medidas de concentração.

Estatística Descritiva 2
Objectivos/resultados de aprendizagem
Gerais:
• Explorar a informação contida num conjunto de dados.
• Usar espírito crítico na análise dos resultados obtidos quer em
termos numéricos quer em termos computacionais
computacionais.

Específicos:
No fim deste capítulo da unidade curricular o estudante deverá saber:

Noções
ç básicas:
Identificar a população em estudo.
Identificar a amostra em análise.
Identificar a unidade estatística.
Identificar o atributo em estudo na população.
Distinguir atributos qualitativos e quantitativos.
Caracterizar as modalidades p para um determinado atributo.

Estatística Descritiva 3
Objectivos/resultados de aprendizagem
Específicos (continuação):
Quadros de frequências:
Determinar e interpretar as frequências absolutas.
p
Determinar e interpretar as frequências
q relativas.
Determinar e interpretar as frequências acumuladas.
Distinguir os vários tipos de frequências (absolutas, relativas e acumuladas).
Agrupar os dados em classes para um determinado atributo.

Representação gráfica de frequências:


Representar e interpretar o diagrama de barras para atributos qualitativos e
quantitativos.
quantitativos
Representar e interpretar o diagrama de sectores para atributos qualitativos e
quantitativos.
Representar e interpretar o histograma
histograma.
Distinguir as várias representações gráficas.
Identificar as representações gráficas mais adequadas a cada tipo de atributo.
Representar e interpretar o polígono de frequências
frequências.
Estatística Descritiva 4
Objectivos/resultados de aprendizagem
Específicos (continuação):
Redução dos dados:
Definir, determinar e interpretar as medidas de tendência central: média
aritmética, mediana e moda.
Definir, determinar e interpretar as medidas de dispersão, nomeadamente
amplitude total, amplitude interquartis, desvio padrão e variância.
Definir e determinar os percentis, nomeadamente os quartis.
Definir e identificar outliers.
outliers
Representar e interpretar diagramas de extremos e quartis.
Definir as medidas de assimetria.
Interpretar as medidas de assimetria através das medidas de tendência central
assim como através do coeficiente de assimetria.
Distinguir a simetria da assimetria negativa e da assimetria positiva.
Definir as medidas de achatamento.
Interpretar as medidas de achatamento através do coeficiente de achatamento.
Distinguir os tipos de achatamento (leptocúrtica, mesocúrtica e platicúrtica).
Definir as medidas de concentração.
Interpretar as medidas de concentração no contexto dos problemas em análise
análise.
Estatística Descritiva 5
Bibliografia
[1] Murteira
Murteira, B
B. (1993) Análise Exploratória de Dados –
Estatística Descritiva, McGraw Hill

[2] Murteira, B., Ribeiro, C., Silva, J. e Pimenta, C. (2002)


Introdução à Estatística, McGraw Hill

[3] Pereira, A. (2004) SPSS – Guia Prático de Utilização,


Edições Sílabo

[[4]] Reis, Elizabeth (2000)


( ) Estatística Descritiva, Edições
Sílabo

Estatística Descritiva 6
Noções básicas
Estatística

Descritiva Indutiva

Tem como objectivo


resumir a informação Tem como objectivo
T bj ti
mais importante tirar conclusões sobre
contida
tid num conjunto
j t as características da
de dados, permitindo população a partir da
assim facilitar a sua informação contida
compreensão e numa amostra.
interpretação
interpretação.
Estatística Descritiva 7
Noções básicas
Indivíduo ou unidade estatística
Unidade base sobre a qual o observador realiza as observações.

População ou universo
Conjunto formado por todos os indivíduos em estudo
estudo.

Amostra
Subconjunto finito da população que seja representativo desta.

A ib
Atributo ou variável
iá l
Característica em estudo na população.

Modalidades ou categorias
Resultados possíveis para um determinado atributo.
Estatística Descritiva 8
Noções básicas
Atributos ou Variáveis

Qualitativas
Q
Quando
d assumem um conjunto
j t ded categorias
t i que,
embora possam ser representadas por números, não
tem significado transformá-las através de operações
usuais, tais como, adições ou subtracções.

Quantitativas

Quando assumem um conjunto de valores numéricos.


Estatística Descritiva 9
Noções básicas
Variáveis Qualitativas

Nominais Ordinais
Pode-se
P d estabelecer
t b l uma
Não se pode
relação de ordem entre
estabelecer uma
as categorias.
categorias
relação
l ã d de ordem
d
entre as categorias. Exemplo:
o grau de satisfação
Exemplo: relativamente a um serviço,
o sexo, feminino ou
pode ser codificado por
masculino pode ser
masculino,
insatisfeito (1), pouco
codificado por 0 ou 1.
satisfeito (2), satisfeito (3)
ou muito satisfeito (4)
(4).
Estatística Descritiva 10
Noções básicas
Variáveis Quantitativas ou de Escala

Discretas Contínuas

As categorias definem-se As categorias definem-se


no conjunto dos números no conjunto dos números
i t i
inteiros. reais.
Exemplos: Exemplos:
p
• Nº de clientes; • Altura;
• Nº de animais de estimação; • Peso;
P
• Nº de livros editados. • Lucro anual.

Estatística Descritiva 11
Quadros de Frequências
Definição de Frequências

Seja p o número total de modalidades distintas, nas n


observações válidas.
Frequências absolutas - ni: número de observações
que p
q pertencem à modalidade i, com i = 1, 2, …, p
p.
p
Verifica-se que: ∑n
i=1
i=
i = n.

Frequências relativas - fi: percentagem de observações


que pertencem à modalidade ii, com i = 1,
1 22, …, p p.
p
ni
Verifica-se que: fi = × 100
n
e ∑
i 1
i=
fi = 100.

Estatística Descritiva 12
Quadros de Frequências
F
Frequências
ê i relativas
l ti acumuladas
l d - Fi: percentagem
t
de observações que pertencem à modalidade i e
anteriores,
t i com i = 1
1, 2
2, …, p.
i

Verifica-se que: Fi = ∑ f j e Fp = 100 .


j 1
j=

Notas:
Para o caso em que as variáveis são qualitativas nominais
q
não faz sentido determinar as frequências relativas
acumuladas, uma vez que as modalidades não são ordenáveis.
Para o caso em que as variáveis são qualitativas ordinais
pode fazer sentido determinar as frequências relativas
acumuladas uma vez que as modalidades são ordenáveis
acumuladas, ordenáveis.
Estatística Descritiva 13
Quadros de Frequências
Variáveis Qualitativas
O ficheiro SegSocial.sav
g contém informações
ç de algumas
g características
pessoais, profissionais, familiares, sociais, etc., que se obtiveram através
de um inquérito efectuado a 1500 indivíduos inscritos na Segurança
Social. Considere-se a seguinte variável:
Estado civil

Frequency (ni) Percent Valid Percent (fi)


Valid Casado 795 53,0 53,0
Viúvo 165 11 0
11,0 11 0
11,0
Divorciado 213 14,2 14,2
Separado 40 2,7 2,7
Solteiro 286 19 1
19,1 19 1
19,1
Total 1499 99,9 100,0
Missing NA 1 ,1
Total 1500 100 0
100,0
Estatística Descritiva 14
Quadros de Frequências
Variáveis Quantitativas - Dados Não Agrupados em Classes
As idades seguintes
g obtiveram-se através de um inquérito
q realizado a
alguns alunos inscritos no 2º ano de um determinado curso da ESTG.
Idade do indivíduo (em anos)

Cumulative
C l ti
Frequency Percent Valid Percent Percent
Valid 18 4 6,9 6,9 6,9
19 23 39,7 39,7 46,6
20 18 31,0 31,0 77,6
21 7 12,1 12,1 89,7
22 5 8,6 8,6 98,3
23 1 17
1,7 17
1,7 100 0
100,0
Total 58 100,0 100,0

Interpretação:
• 23 alunos dos 58 inquiridos têm 19 anos;
• 31% dos alunos inquiridos têm 20 anos;
• 89,7%
% dos alunos têm 21 anos ou menos.
Estatística Descritiva 15
Quadros de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes

Notas:

Para o caso em que as variáveis são quantitativas


discretas e o número de modalidades é relativamente
elevado, os dados são agrupados em classes.

Para o caso em que as variáveis são quantitativas


contínuas os dados são agrupados em classes.

Estatística Descritiva 16
Quadros de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes
Quantas classes deverão ser utilizadas?
O número de classes, p, a utilizar é o menor inteiro
tal que 2 ≥ n.
p

Nota: Sempre que possível o número de classes


d
deverá
á ser entre
t 5 e 20 iinclusive.
l i
Seja xi, (i = 1, ..., n) cada uma das observações da variável.
• Amplitude total dos dados: IT = max(xi) – min(xi)

P
Para o caso em que as classes
l tê
têm a mesma amplitude:
lit d
IT
• Amplitude de cada classe: I C =
p
Estatística Descritiva 17
Quadros de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes
No ficheiro SegSocial.sav, considere-se a variável quantitativa discreta
horas1 (Número de horas trabalhadas na semana passada) cujo número de
modalidades é relativamente elevado, pelo que as observações foram
agrupadas em classes e apresentadas no seguinte quadro de frequências:
Número de horas trabalhadas na semana passada (Binned)

ni fi (%) Fi (%)
Valid <10 20 2,2 2,2 Notas:
10 - 18 44 4,9 7,1
19 - 27
28 - 36
78 8,7 15,8 • n = 900 (válidos)
80 8,9 24,7
37 - 45
46 - 54
378
134
42,0
14 9
14,9
66,7
81 6
81,6
• p = 10 classes
55 - 63
64 - 72
107
37
11,9
4,1
93,4
97,6
• max(xi) = 89
73 - 81 20 2,2 99,8
82+ 2 ,2 100,0 • min(xi) = 2
Total 900 100,0
Missing NAP 592 • IT = 89 – 2 = 87
DK 2
NA 6 • IC = 87 / 10 = 8.7 ≈ 9
Total 600
Total 1500

Estatística Descritiva 18
Quadros de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes

Notas:

Se ao agrupar os dados em classes, existir alguma


classe que não contenha observações então não faz
sentido usar classes de igual amplitude!!!....

Neste caso usam-se classes de diferentes amplitudes!

Estatística Descritiva 19
Representação Gráfica de Frequências
Variáveis Qualitativas

Diagrama de Barras (“Bar Chart”)

Formado por
rectângulos separados
com a mesma largura e
com altura igual à
frequência (quer seja
absoluta ou relativa)
correspondente
p a cada
modalidade ou
categoria.
Estatística Descritiva 20
Representação Gráfica de Frequências
Variáveis Qualitativas

Diagrama de Sectores ou Circular (“Pie Chart”)

Círculo constituído
por sectores, cuja
área de cada sector
é proporcional à
frequência (quer seja
absoluta ou relativa)
de cada uma das
modalidades ou
categorias.
Estatística Descritiva 21
Representação Gráfica de Frequências
Variáveis Quantitativas - Dados Não Agrupados em Classes

Diagrama de Barras (“Bar Chart”)


Diagrama
g de Sectores ou Circular ((“Pie Chart”))

Estatística Descritiva 22
Representação Gráfica de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes

Histograma (“Histogram”)
( Histogram )

Formado p por 10 classes


1 → <10
rectângulos 2 → 10 - 18
adjacentes com 3 → 19 - 27
4 → 28 - 36
largura igual à 5 → 37 - 45
amplitude da classe 6 → 46 - 54
7 → 55 - 63
correspondente e 8 → 64 - 72
área proporcional à 9 → 73 - 81
10 → 82+
f
frequência
ê i d da
respectiva classe.

Estatística Descritiva 23
Representação Gráfica de Frequências
V iá i Q
Variáveis Quantitativas
tit ti
Polígono
g de Frequências
q
É a linha poligonal que une os pontos médios superiores de
cada rectângulo
g do diagrama
g de barras ou do histograma.
g

Estatística Descritiva 24
Representação Gráfica de Frequências
Variáveis Quantitativas

Notas:
P
Para o caso em que as variáveis
iá i são
ã discretas
di t eo
número de modalidades é relativamente elevado, os
dados são agrupados em classes e consequentemente
representados em histogramas.
Para o caso em que as variáveis são contínuas, os
dados também podem ser representados em diagramas
de sectores.

Estatística Descritiva 25
Redução dos Dados
A redução dos dados tem por objectivo resumir a
informação neles contida, isto é, representar as
observações através de alguns resultados numéricos
que analisam as características mais importantes.

Medidas de tendência central

Medidas de dispersão

M did d
Medidas de assimetria
i i

Medidas de achatamento

Medidas de concentração
Estatística Descritiva 26
Medidas de Tendência Central
As medidas de tendência Média Aritmética
central representam
p a
Mediana
localização do centro das
observações. Moda
oda

Média Aritmética (“Mean”)


Indica o valor em torno do qual se distribuem as observações.
Sejam xi, i = 1, 2, …, p, as diferentes modalidades do atributo.
p
Então, x= 1
n ∑n
i=1
i xi.
Interpretação:
A média indica o valor que cada observação deveria ter para
que a soma de todas as observações fosse igual à verificada.
Estatística Descritiva 27
Medidas de Tendência Central
Mediana (“Median”)
É o valor
alor q
que
e di
divide
ide as obser observações ações em d duas
as partes ig
iguais.
ais
Consideremos as observações ordenadas por ordem
crescente:
t x (1) ≤ x ( 2 ) ≤ x ( 3) ≤ ... ≤ x ( n−1) ≤ x ( n ) .

⎧ x ⎛ n+1 ⎞ , se n é ímpar
p
⎪ ⎜ ⎟
⎪ ⎝ 2 ⎠
Então, Me = ⎨ x ⎛ n ⎞ + x ⎛ n ⎞
⎜ +1 ⎟
⎪ ⎝⎜ 2 ⎠⎟ ⎝2 ⎠
⎪⎩ , se n é par
2
Interpretação:
50% das observações têm valor superior ou igual à mediana e
50% das obse
observações
ações tê
têm valor
a o inferior
e o ou igual
gua à mediana.
ed a a
Estatística Descritiva 28
Medidas de Tendência Central
Moda (“Mode”)
É a modalidade ou categoria mais frequente na amostra
e representa-se por Mo.
A moda não tem de ser única, pois pode haver mais do
que uma modalidade com igual frequência, sendo essa
frequência máxima. Nesse caso, o SPSS devolve o
menor valor da moda.

Observação:
Para variáveis
P iá i qualitativas
lit ti aúúnica
i medida
did d
de ttendência
dê i
central que faz sentido determinar é a moda.

Estatística Descritiva 29
Medidas de Tendência Central
E
Exemplo:
l
Idade do indivíduo (em anos) Statistics
Cumulative
Idade do indivíduo (em anos)
Frequency Percent Valid Percent Percent
Valid 18 4 6,9 6,9 6,9 N Valid 58
19 23 39,7 39,7 46,6 Missing 0
20 18 31,0
, 31,0
, 77,6
, Mean 19 81
19,81
21 7 12,1 12,1 89,7 Median 20,00
22 5 8,6 8,6 98,3
23
Mode 19
1 1,7 1,7 100,0
Total 58 100,0 100,0 Sum 1149

Se todos os indivíduos tivessem a mesma idade,


para q
p que a soma de todas as idades fosse igual
g
a 1149, essa idade teria que ser 19,81 anos.

50% dos indivíduos têm idade inferior A idade mais


ou igual a 20 anos e os restantes 50% frequente entre os
dos indivíduos têm idade superior ou indivíduos é 19
igual a 20 anos
anos. anos
anos.
Estatística Descritiva 30
Medidas de Dispersão
As medidas de dispersão analisam o grau de
variabilidade das observações de um conjunto de dados
em torno das medidas de tendência central.

Amplitude Total (“Range”)


É a diferença entre o valor observado mais elevado e o valor
observado mais baixo: IT = max (xi) – min (xi).

Quartis (“Quartiles”):
Os três
O t ê quartis
ti (q
( 1, q2 e q3) são
ã os valores
l que di
dividem
id os d
dados
d
em 4 partes iguais em termos de percentagem de observações.

25 % obs. 25 % obs. 25 % obs. 25 % obs.


min ((xi) q1 q2 q3 max (xi)

Estatística Descritiva 31
Medidas de Dispersão
Consideremos as observações ordenadas por ordem
crescente: x (1) ≤ x ( 2 ) ≤ ... ≤ x (n−1) ≤ x (n ) . Os valores dos 1º, 2º e
3º quartis com r = 1, 2 e 3, respectivamente, são dados por:
⎧ x⎛ r ⎞ + x⎛ r ⎞
⎪⎪ ⎝ 4 ⎠
⎜ ×n ⎟ ⎜ ×n + 1 ⎟

q =⎨
⎝4
, se r × n é natural

r 2 4

⎪⎩ x (m ) , se r × n não é natural
4
m é o menor número inteiro superior a r × n.
4

Nota:
Existem diferentes formas de definir os quartis
quartis, podendo surgir
valores ligeiramente diferentes para o mesmo quartil. Uma
possível definição
p ç é a apresentada
p anteriormente.
Estatística Descritiva 32
Medidas de Dispersão
Percentis ou Quantis
Q (”Percentiles”):
(” ”)
São os valores Qp tais que p% das observações da
amostra são inferiores ou iguais a Qp.
q1 - percentil 25 (Q25)
q2 - percentil 50 (Q50) - Mediana
q3 - p
percentil 75 ((Q75)
Amplitude Interquartis
É a amplitude do intervalo que contém 50% das
observações centrais: Iq = q3 – q1.
50 % de observações
min (xi) q1 q2 q3 max (xi)

Estatística Descritiva 33
Medidas de Dispersão
“Outliers”:
Se alguma observação ficar fora do intervalo
[ 1 – 1,5
[q 1 5 * Iq ; q3 + 1,5
1 5 * Iq]
considera-se uma observação “suspeita” e denomina-se por
li isto
outlier, i é
é, fifica ffora d
do suporte usuall d da didistribuição
ib i d
dos
dados, afastando-se portanto do padrão geral dos mesmos.
“Outliers” moderados:
Observações
ç pertencentes
p ao intervalo
[q1 – 3 * Iq ; q1 - 1,5 * Iq] ou [q3 + 1,5 * Iq ; q3 + 3 * Iq].
“Outliers”
Outliers severos ou valores extremos:
Observações inferiores a q1 – 3 * Iq ou superiores
a q3 + 3 * Iq.
Estatística Descritiva 34
Medidas de Dispersão
Diagrama de Extremos e Quartis ou Caixa de
Bigodes (“Boxplot”)
Sem outliers Outlier Com outliers
severo
max (xi)
Outlier
q3 moderado
Me
max (xi) não outlier
q1
min (xi) não outlier
min (xi)
Quanto menor for a distância entre 2 destas medidas
em relação às restantes, menor é a dispersão das
observações nesse intervalo e vice-versa.
vice versa
Estatística Descritiva 35
Medidas de Dispersão
Variância (“Variance”)
A variância é a média dos q
quadrados dos desvios das
observações em relação à média aritmética e é dada por:

( ⎛
) 2⎞
p p 2

s = n ∑ ni x i − x = ⎜⎜ n ∑ ni x i ⎟⎟ − x .
2
2 1 1

i =1 ⎝ i=1 ⎠
Alguns
g autores ((e o SPSS)) utilizam a variância corrigida
g
em vez da variância usual, que é dada por:

∑ n (x )
p 2

sc2 = 1
n-1 i i −x .
i=1
Quanto maior for o valor da variância mais afastadas
estão as observações da média e logo existe uma maior
dispersão das observações,
observações e vice-versa
vice-versa.
Estatística Descritiva 36
Medidas de Dispersão
Desvio Padrão (“Standard Deviation”)
O desvio p
padrão é a raiz q
quadrada da variância e é dado p
por:

s= s . 2

E o desvio padrão corrigido é dado por:

sc = s . 2
c

Quanto maior for o valor do desvio padrão mais


afastadas estão as observações da média e logo existe
uma maior dispersão das observações, e vice-versa.

Nota: sc2 = n
n-1
s2 e sc = n
n-1
s.
Estatística Descritiva 37
Medidas de Assimetria
As medidas
A did d de assimetria
i t i servem para analisar
li se as
frequências estão ou não distribuídas simetricamente em
torno das medidas de tendência central.
Comparação das Coeficiente
Tipo de
Exemplos medidas de de assimetria
assimetria
tendência central ((“Skewness”)
Skewness )
80
FR EQUENCY
60

Simétrica 40 Mo = Me = x Cs = 0
20

80
x < Me < Mo
Cs < 0
NCY

Assimétrica 60
FREQUEN

40
x = Me < Mo
negativa 20

0 x < Me = Mo
80
M < Me
Mo M <x
FREQUENCY

Assimétrica Cs > 0
60

40
Mo = Me < x
positiva 20

0 Mo < Me = x
Estatística Descritiva 38
Medidas de Achatamento
As medidas
A did dde achatamento
h t t servem para analisar
li a
intensidade das frequências em torno das medidas de
tendência central.

Exemplos

Tão achatada
Menos achatada que Mais achatada que a
Tipo de como a distribuição
a distribuição Normal distribuição Normal
Achatamento Normal
(Leptocúrtica) (Platicúrtica)
(M
(Mesocúrtica)
ú ti )
Coeficiente de
achatamento Ck > 0 Ck = 0 Ck < 0
(“K t i ”)
(“Kurtosis”)
Estatística Descritiva 39
Medidas de Concentração
As medidas de concentração analisam o modo como o
atributo está distribuído pelos indivíduos.

Curva de Lorenz Índice de Gini

Notas:
Só faz sentido analisar a concentração desde que possam
ocorrer as duas
d situações
it õ seguintes:
i t
• concentração máxima do atributo num só indivíduo;
• concentração mínima de igual distribuição do atributo
por todos os indivíduos.

Estatística Descritiva 40
Medidas de Concentração
Curva de Lorenz
É a linha poligonal que une os pontos da forma (Fi , F F’i)
i)
com i = 0, 1, …, p, onde:
Fi – frequências relativas acumuladas das observações
F’i – frequências relativas acumuladas do atributo.
100 100 100

80 80 80

60 60 60

F' i
F' i
F' i

40 40 40

20 20 20

0 0 0
0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100

Fi Fi Fi

Concentração fraca Concentração intermédia Concentração forte

Interpretação: Quanto mais afastada estiver a curva de Lorenz da


recta de ig
igual
al distrib
distribuição
ição maior será a concentração do atrib
atributo.
to
Estatística Descritiva 41
Medidas de Concentração
E
Exemplo:
l Cl
Classes
[400 ; 600[
nii
50
fi
10
Fi
10
xii
500
ni*xi
i* i
25000
f'i
4,31
F'i
4,31
Os dados referentes aos [600 ; 800[ 80 16 26 700 56000 9,66 13,97
[800 ; 1000[ 80 16 42 900 72000 12,41 26,38
salários
sa á os líquidos
qu dos mensais,
e sa s, e
em [1000 ; 1200[ 65 13 55 1100 71500 12 33
12,33 38 71
38,71
euros, dos trabalhadores de [1200 ; 1400[ 60 12 67 1300 78000 13,45 52,16
[1400 ; 1600[ 55 11 78 1500 82500 14,22 66,38
uma empresa encontram-se [1600 ; 1800[ 70 14 92 1700 119000 20,52 86,90
[1800 ; 2000] 40 8 100 1900 76000 13,10 100,00
resumidos na tabela
tabela. Total 500 100 580000 100

Vencimentos mensais (em euros) líquidos dos


trabalhadores de uma empresa

100 Interpretação:
80 Curva de A curva está p pouco
L
Lorenz
60
afastada da recta de
F' i

40 Recta de igual distribuição,


igual
20
distribuição logo a concentração
0
0 20 40 60 80 100
do atributo é fraca.
Fi
Estatística Descritiva 42
Medidas de Concentração
Índice de Gini
Mede o grau de concentração do atributo num conjunto
de dados e é dado por:
p−11
p Concentração mínima
∑F 'i (Fi = F’i)
IG = 1 − i=1 ; 0 ≤ IG ≤ 1
p −1
∑ Fi Concentração máxima
i=1
(F’ii = 0, i = 1, …, p
(F p-1)
1)
Exemplo:
Para os dados dos salários do exemplo anterior mostre que
o valor do Índice de Gini é aproximadamente igual a 0,22.

Estatística Descritiva 43

Вам также может понравиться