Академический Документы
Профессиональный Документы
Культура Документы
• Autores:
A F
Fernando
d Sebastião
S b i eH Helena
l Sil
Silva
Conteúdos Programáticos
g
Noções básicas:
População. Amostra. Unidade estatística.
Atributo Modalidades
Atributo. Modalidades.
Quadros de frequências:
Frequências absolutas.
Frequências relativas
relativas.
Frequências acumuladas.
Dados agrupados em classes.
Representação gráfica de frequências:
Diagrama de barras.
Diagrama de sectores.
Histograma.
P lí
Polígono de
d ffrequências.
ê i
Redução dos dados:
Medidas de tendência central.
M did d
Medidas de di
dispersão.
ã
Medidas de assimetria.
Medidas de achatamento.
Medidas de concentração.
Estatística Descritiva 2
Objectivos/resultados de aprendizagem
Gerais:
• Explorar a informação contida num conjunto de dados.
• Usar espírito crítico na análise dos resultados obtidos quer em
termos numéricos quer em termos computacionais
computacionais.
Específicos:
No fim deste capítulo da unidade curricular o estudante deverá saber:
Noções
ç básicas:
Identificar a população em estudo.
Identificar a amostra em análise.
Identificar a unidade estatística.
Identificar o atributo em estudo na população.
Distinguir atributos qualitativos e quantitativos.
Caracterizar as modalidades p para um determinado atributo.
Estatística Descritiva 3
Objectivos/resultados de aprendizagem
Específicos (continuação):
Quadros de frequências:
Determinar e interpretar as frequências absolutas.
p
Determinar e interpretar as frequências
q relativas.
Determinar e interpretar as frequências acumuladas.
Distinguir os vários tipos de frequências (absolutas, relativas e acumuladas).
Agrupar os dados em classes para um determinado atributo.
Estatística Descritiva 6
Noções básicas
Estatística
Descritiva Indutiva
População ou universo
Conjunto formado por todos os indivíduos em estudo
estudo.
Amostra
Subconjunto finito da população que seja representativo desta.
A ib
Atributo ou variável
iá l
Característica em estudo na população.
Modalidades ou categorias
Resultados possíveis para um determinado atributo.
Estatística Descritiva 8
Noções básicas
Atributos ou Variáveis
Qualitativas
Q
Quando
d assumem um conjunto
j t ded categorias
t i que,
embora possam ser representadas por números, não
tem significado transformá-las através de operações
usuais, tais como, adições ou subtracções.
Quantitativas
Nominais Ordinais
Pode-se
P d estabelecer
t b l uma
Não se pode
relação de ordem entre
estabelecer uma
as categorias.
categorias
relação
l ã d de ordem
d
entre as categorias. Exemplo:
o grau de satisfação
Exemplo: relativamente a um serviço,
o sexo, feminino ou
pode ser codificado por
masculino pode ser
masculino,
insatisfeito (1), pouco
codificado por 0 ou 1.
satisfeito (2), satisfeito (3)
ou muito satisfeito (4)
(4).
Estatística Descritiva 10
Noções básicas
Variáveis Quantitativas ou de Escala
Discretas Contínuas
Estatística Descritiva 11
Quadros de Frequências
Definição de Frequências
Estatística Descritiva 12
Quadros de Frequências
F
Frequências
ê i relativas
l ti acumuladas
l d - Fi: percentagem
t
de observações que pertencem à modalidade i e
anteriores,
t i com i = 1
1, 2
2, …, p.
i
Notas:
Para o caso em que as variáveis são qualitativas nominais
q
não faz sentido determinar as frequências relativas
acumuladas, uma vez que as modalidades não são ordenáveis.
Para o caso em que as variáveis são qualitativas ordinais
pode fazer sentido determinar as frequências relativas
acumuladas uma vez que as modalidades são ordenáveis
acumuladas, ordenáveis.
Estatística Descritiva 13
Quadros de Frequências
Variáveis Qualitativas
O ficheiro SegSocial.sav
g contém informações
ç de algumas
g características
pessoais, profissionais, familiares, sociais, etc., que se obtiveram através
de um inquérito efectuado a 1500 indivíduos inscritos na Segurança
Social. Considere-se a seguinte variável:
Estado civil
Cumulative
C l ti
Frequency Percent Valid Percent Percent
Valid 18 4 6,9 6,9 6,9
19 23 39,7 39,7 46,6
20 18 31,0 31,0 77,6
21 7 12,1 12,1 89,7
22 5 8,6 8,6 98,3
23 1 17
1,7 17
1,7 100 0
100,0
Total 58 100,0 100,0
Interpretação:
• 23 alunos dos 58 inquiridos têm 19 anos;
• 31% dos alunos inquiridos têm 20 anos;
• 89,7%
% dos alunos têm 21 anos ou menos.
Estatística Descritiva 15
Quadros de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes
Notas:
Estatística Descritiva 16
Quadros de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes
Quantas classes deverão ser utilizadas?
O número de classes, p, a utilizar é o menor inteiro
tal que 2 ≥ n.
p
P
Para o caso em que as classes
l tê
têm a mesma amplitude:
lit d
IT
• Amplitude de cada classe: I C =
p
Estatística Descritiva 17
Quadros de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes
No ficheiro SegSocial.sav, considere-se a variável quantitativa discreta
horas1 (Número de horas trabalhadas na semana passada) cujo número de
modalidades é relativamente elevado, pelo que as observações foram
agrupadas em classes e apresentadas no seguinte quadro de frequências:
Número de horas trabalhadas na semana passada (Binned)
ni fi (%) Fi (%)
Valid <10 20 2,2 2,2 Notas:
10 - 18 44 4,9 7,1
19 - 27
28 - 36
78 8,7 15,8 • n = 900 (válidos)
80 8,9 24,7
37 - 45
46 - 54
378
134
42,0
14 9
14,9
66,7
81 6
81,6
• p = 10 classes
55 - 63
64 - 72
107
37
11,9
4,1
93,4
97,6
• max(xi) = 89
73 - 81 20 2,2 99,8
82+ 2 ,2 100,0 • min(xi) = 2
Total 900 100,0
Missing NAP 592 • IT = 89 – 2 = 87
DK 2
NA 6 • IC = 87 / 10 = 8.7 ≈ 9
Total 600
Total 1500
Estatística Descritiva 18
Quadros de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes
Notas:
Estatística Descritiva 19
Representação Gráfica de Frequências
Variáveis Qualitativas
Formado por
rectângulos separados
com a mesma largura e
com altura igual à
frequência (quer seja
absoluta ou relativa)
correspondente
p a cada
modalidade ou
categoria.
Estatística Descritiva 20
Representação Gráfica de Frequências
Variáveis Qualitativas
Círculo constituído
por sectores, cuja
área de cada sector
é proporcional à
frequência (quer seja
absoluta ou relativa)
de cada uma das
modalidades ou
categorias.
Estatística Descritiva 21
Representação Gráfica de Frequências
Variáveis Quantitativas - Dados Não Agrupados em Classes
Estatística Descritiva 22
Representação Gráfica de Frequências
Variáveis Quantitativas - Dados Agrupados em Classes
Histograma (“Histogram”)
( Histogram )
Estatística Descritiva 23
Representação Gráfica de Frequências
V iá i Q
Variáveis Quantitativas
tit ti
Polígono
g de Frequências
q
É a linha poligonal que une os pontos médios superiores de
cada rectângulo
g do diagrama
g de barras ou do histograma.
g
Estatística Descritiva 24
Representação Gráfica de Frequências
Variáveis Quantitativas
Notas:
P
Para o caso em que as variáveis
iá i são
ã discretas
di t eo
número de modalidades é relativamente elevado, os
dados são agrupados em classes e consequentemente
representados em histogramas.
Para o caso em que as variáveis são contínuas, os
dados também podem ser representados em diagramas
de sectores.
Estatística Descritiva 25
Redução dos Dados
A redução dos dados tem por objectivo resumir a
informação neles contida, isto é, representar as
observações através de alguns resultados numéricos
que analisam as características mais importantes.
Medidas de dispersão
M did d
Medidas de assimetria
i i
Medidas de achatamento
Medidas de concentração
Estatística Descritiva 26
Medidas de Tendência Central
As medidas de tendência Média Aritmética
central representam
p a
Mediana
localização do centro das
observações. Moda
oda
⎧ x ⎛ n+1 ⎞ , se n é ímpar
p
⎪ ⎜ ⎟
⎪ ⎝ 2 ⎠
Então, Me = ⎨ x ⎛ n ⎞ + x ⎛ n ⎞
⎜ +1 ⎟
⎪ ⎝⎜ 2 ⎠⎟ ⎝2 ⎠
⎪⎩ , se n é par
2
Interpretação:
50% das observações têm valor superior ou igual à mediana e
50% das obse
observações
ações tê
têm valor
a o inferior
e o ou igual
gua à mediana.
ed a a
Estatística Descritiva 28
Medidas de Tendência Central
Moda (“Mode”)
É a modalidade ou categoria mais frequente na amostra
e representa-se por Mo.
A moda não tem de ser única, pois pode haver mais do
que uma modalidade com igual frequência, sendo essa
frequência máxima. Nesse caso, o SPSS devolve o
menor valor da moda.
Observação:
Para variáveis
P iá i qualitativas
lit ti aúúnica
i medida
did d
de ttendência
dê i
central que faz sentido determinar é a moda.
Estatística Descritiva 29
Medidas de Tendência Central
E
Exemplo:
l
Idade do indivíduo (em anos) Statistics
Cumulative
Idade do indivíduo (em anos)
Frequency Percent Valid Percent Percent
Valid 18 4 6,9 6,9 6,9 N Valid 58
19 23 39,7 39,7 46,6 Missing 0
20 18 31,0
, 31,0
, 77,6
, Mean 19 81
19,81
21 7 12,1 12,1 89,7 Median 20,00
22 5 8,6 8,6 98,3
23
Mode 19
1 1,7 1,7 100,0
Total 58 100,0 100,0 Sum 1149
Quartis (“Quartiles”):
Os três
O t ê quartis
ti (q
( 1, q2 e q3) são
ã os valores
l que di
dividem
id os d
dados
d
em 4 partes iguais em termos de percentagem de observações.
Estatística Descritiva 31
Medidas de Dispersão
Consideremos as observações ordenadas por ordem
crescente: x (1) ≤ x ( 2 ) ≤ ... ≤ x (n−1) ≤ x (n ) . Os valores dos 1º, 2º e
3º quartis com r = 1, 2 e 3, respectivamente, são dados por:
⎧ x⎛ r ⎞ + x⎛ r ⎞
⎪⎪ ⎝ 4 ⎠
⎜ ×n ⎟ ⎜ ×n + 1 ⎟
q =⎨
⎝4
, se r × n é natural
⎠
r 2 4
⎪
⎪⎩ x (m ) , se r × n não é natural
4
m é o menor número inteiro superior a r × n.
4
Nota:
Existem diferentes formas de definir os quartis
quartis, podendo surgir
valores ligeiramente diferentes para o mesmo quartil. Uma
possível definição
p ç é a apresentada
p anteriormente.
Estatística Descritiva 32
Medidas de Dispersão
Percentis ou Quantis
Q (”Percentiles”):
(” ”)
São os valores Qp tais que p% das observações da
amostra são inferiores ou iguais a Qp.
q1 - percentil 25 (Q25)
q2 - percentil 50 (Q50) - Mediana
q3 - p
percentil 75 ((Q75)
Amplitude Interquartis
É a amplitude do intervalo que contém 50% das
observações centrais: Iq = q3 – q1.
50 % de observações
min (xi) q1 q2 q3 max (xi)
Estatística Descritiva 33
Medidas de Dispersão
“Outliers”:
Se alguma observação ficar fora do intervalo
[ 1 – 1,5
[q 1 5 * Iq ; q3 + 1,5
1 5 * Iq]
considera-se uma observação “suspeita” e denomina-se por
li isto
outlier, i é
é, fifica ffora d
do suporte usuall d da didistribuição
ib i d
dos
dados, afastando-se portanto do padrão geral dos mesmos.
“Outliers” moderados:
Observações
ç pertencentes
p ao intervalo
[q1 – 3 * Iq ; q1 - 1,5 * Iq] ou [q3 + 1,5 * Iq ; q3 + 3 * Iq].
“Outliers”
Outliers severos ou valores extremos:
Observações inferiores a q1 – 3 * Iq ou superiores
a q3 + 3 * Iq.
Estatística Descritiva 34
Medidas de Dispersão
Diagrama de Extremos e Quartis ou Caixa de
Bigodes (“Boxplot”)
Sem outliers Outlier Com outliers
severo
max (xi)
Outlier
q3 moderado
Me
max (xi) não outlier
q1
min (xi) não outlier
min (xi)
Quanto menor for a distância entre 2 destas medidas
em relação às restantes, menor é a dispersão das
observações nesse intervalo e vice-versa.
vice versa
Estatística Descritiva 35
Medidas de Dispersão
Variância (“Variance”)
A variância é a média dos q
quadrados dos desvios das
observações em relação à média aritmética e é dada por:
( ⎛
) 2⎞
p p 2
s = n ∑ ni x i − x = ⎜⎜ n ∑ ni x i ⎟⎟ − x .
2
2 1 1
i =1 ⎝ i=1 ⎠
Alguns
g autores ((e o SPSS)) utilizam a variância corrigida
g
em vez da variância usual, que é dada por:
∑ n (x )
p 2
sc2 = 1
n-1 i i −x .
i=1
Quanto maior for o valor da variância mais afastadas
estão as observações da média e logo existe uma maior
dispersão das observações,
observações e vice-versa
vice-versa.
Estatística Descritiva 36
Medidas de Dispersão
Desvio Padrão (“Standard Deviation”)
O desvio p
padrão é a raiz q
quadrada da variância e é dado p
por:
s= s . 2
sc = s . 2
c
Nota: sc2 = n
n-1
s2 e sc = n
n-1
s.
Estatística Descritiva 37
Medidas de Assimetria
As medidas
A did d de assimetria
i t i servem para analisar
li se as
frequências estão ou não distribuídas simetricamente em
torno das medidas de tendência central.
Comparação das Coeficiente
Tipo de
Exemplos medidas de de assimetria
assimetria
tendência central ((“Skewness”)
Skewness )
80
FR EQUENCY
60
Simétrica 40 Mo = Me = x Cs = 0
20
80
x < Me < Mo
Cs < 0
NCY
Assimétrica 60
FREQUEN
40
x = Me < Mo
negativa 20
0 x < Me = Mo
80
M < Me
Mo M <x
FREQUENCY
Assimétrica Cs > 0
60
40
Mo = Me < x
positiva 20
0 Mo < Me = x
Estatística Descritiva 38
Medidas de Achatamento
As medidas
A did dde achatamento
h t t servem para analisar
li a
intensidade das frequências em torno das medidas de
tendência central.
Exemplos
Tão achatada
Menos achatada que Mais achatada que a
Tipo de como a distribuição
a distribuição Normal distribuição Normal
Achatamento Normal
(Leptocúrtica) (Platicúrtica)
(M
(Mesocúrtica)
ú ti )
Coeficiente de
achatamento Ck > 0 Ck = 0 Ck < 0
(“K t i ”)
(“Kurtosis”)
Estatística Descritiva 39
Medidas de Concentração
As medidas de concentração analisam o modo como o
atributo está distribuído pelos indivíduos.
Notas:
Só faz sentido analisar a concentração desde que possam
ocorrer as duas
d situações
it õ seguintes:
i t
• concentração máxima do atributo num só indivíduo;
• concentração mínima de igual distribuição do atributo
por todos os indivíduos.
Estatística Descritiva 40
Medidas de Concentração
Curva de Lorenz
É a linha poligonal que une os pontos da forma (Fi , F F’i)
i)
com i = 0, 1, …, p, onde:
Fi – frequências relativas acumuladas das observações
F’i – frequências relativas acumuladas do atributo.
100 100 100
80 80 80
60 60 60
F' i
F' i
F' i
40 40 40
20 20 20
0 0 0
0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100
Fi Fi Fi
100 Interpretação:
80 Curva de A curva está p pouco
L
Lorenz
60
afastada da recta de
F' i
Estatística Descritiva 43