Вы находитесь на странице: 1из 157

1

Anlise de Dados Univariados e


Multivariados
Programa da Cadeira
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Programa da cadeira
1. Testes de hipteses
a. Testes paramtricos
i. Teste de hipteses mdia populacional
ii. Teste de hipteses proporo populacional
iii. Teste de hipteses para a igualdade de duas mdias
populacionais (amostras independentes ou emparelhadas)
iv. Comparao de vrias mdias
1. Anlise de Varincia Simples
2. Teste de Kruskal-Wallis
3. Teste de Mann-Whitney

b. Testes no paramtricos
i. Teste de ajustamento do Qui-quadrado
ii. Teste de ajustamento do Kolmogorov-Smirnov
iii. Teste de Normalidade (Kolmogorov-Smirnov com a
correco de Lilliefors)
iv. Teste de Shapiro-Wilk

2
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Programa da cadeira
2. Anlise de dados categorizados
a. Introduo
b. Tabelas de contingncia
c. Teste de independncia do Qui-quadrado
d. Teste Exacto de Fisher

Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Programa da cadeira
3. Anlise de dados multivariados
a. Introduo
b. Conceitos fundamentais da estatstica multivariada
(Pressupostos, tipos de variveis/amostras, escalas de
medida, Potncia, etc)
c. Exemplos de aplicao (breve descrio das tcnicas
que sero abordadas e a sua aplicao)

4. Anlise inicial dos dados
a. Introduo
b. Anlise grfica
c. Anlise das no-respostas (missing data)
d. Anlise dos outliers
e. Ferramentas de validao de dados
3
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Programa da cadeira
5. Anlise Factorial e Anlise em
Componentes Principais
a. Extraco das componentes principais
b. Quantas componentes principais a reter
c. Rotao das componentes

6. Anlise Categrica de Componentes
Principais
a. CATPCA
b. Escolha do nmero de dimenses
c. Escolha das variveis a agrupar
d. Escolha das categorias a agrupar
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Programa da cadeira
7. Anlise de regresso
a. Introduo
b. Regresso Linear
i. Seleco do modelo
ii. Anlise do modelo
iii. Previso
c. Anlise Discriminante e Regresso Logstica
i. O problema de k-grupos
ii. Interpretao da discriminao
iii. Anlise das solues
d. Regresso Categrica
i. CATREG
ii. Seleco do modelo
iii. Anlise do modelo
4
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Bibliografia
ESTATSTICA

R. Ramos Pinto, Introduo Anlise de Dados,
Edies Slabo, Lisboa, 2009.

E. Reis, P. Melo, R. Andrade e T. Calapez,
Estatstica Aplicada (Vol. 2), 5 Edio, Edies
Slabo, 2007.

J. Hair, W. Black, B. Babin, R. Anderson e R.
Tatham, Multivariate Data Analysis, Pearson
Education Inc. (Prentice Hall), New Jersey, 2006.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Bibliografia
SPSS

R. Ramos Pinto, Introduo Anlise de Dados,
Edies Slabo, Lisboa, 2009.

J. Maroco, Anlise Estatstica Com utilizao do
SPSS, 3 Edio, Edies Slabo, Lisboa, 2007.

M. H. Pestana e J. N. Gageiro, Anlise de Dados
para as Cincias Sociais - A complementaridade
do SPSS, 4 edio, Edies Slabo, Lda, 2005.

5
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Bibliografia
Exerccios

E. Reis, P. Melo, R. Andrade e T. Calapez,
Exerccios de Estatstica Aplicada (Vol. 2),
Edies Slabo, Lisboa, 2001.

ANLISE DE DADOS MULTIVARIADOS

J. Hair, W. Black, B. Babin, R. Anderson e R.
Tatham, Multivariate Data Analysis, Pearson
Education Inc. (Prentice Hall), New Jersey, 2006.

J. Tacq, Multivariate Analysis Techniques in
Social Science Research, SAGE Publications,
London, 1997.

Anlise de Dados Univariados e
Multivariados
Testes de Hipteses
6
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes de Hipteses
Um dos maiores problemas de um gestor
ter que tomar decises em condies de
grande incerteza.

Os dados disponveis possuem eles
prprios uma elevada margem de erro.

A estatstica torna-se assim num precioso
instrumento na ajuda da tomada de
decises.

Os testes de hipteses permitem
escolher a hiptese cujo risco menor.


Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes de Hipteses
Hipteses
estatsticas
Paramtricas
(Incidem sobre os parmetros
desconhecidos)
No paramtricas
(Incidem sobre a prpria forma
da distribuio)
7
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Problema tpico
Considere que tem 50.000 para investir e
est a ponderar a construo de uma
bomba de combustvel num dado local.
Sabe-se que para a bomba ser rentvel o
n mdio de carros que passam por dia
ter que ser superior a 2000.

A deciso de investir ou no ter forosamente
que ser tomada com base nos dados de uma
amostra, porque invivel examinar o n de
veculos que passam todos os dias no local.

Este um problema clssico de teste de
hipteses.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Problema tpico
Para tomar uma deciso necessrio
saber qual a probabilidade de passarem
em mdia mais do que 2000 carros.

A hiptese estatstica que vamos testar
se menor do que 2000. A qual se
denomina Hiptese Nula (H
0
< 2000).

Existem dois tipos de erros possveis o de
rejeitar H
0
sendo esta verdadeira (erro
de tipo I) ou o de aceitar H
0
sendo esta
falsa (erro de tipo II).
8
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Nvel de significncia
A probabilidade de cometer um erro de
tipo I () tambm conhecida como nvel
de significncia.

As probabilidades e relacionam-se
inversamente, isto , quando uma diminui
a outra aumenta.

Todos os testes estatsticos forma
delineados para controlar o nvel de
significncia (), deixando variar
livremente.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Nvel de significncia
A formulao da hiptese nula deve assim
ser feita de forma a que o erro mais
preocupante seja o de tipo I.

O nvel de significncia fixado pelo
pesquisador.

convencional trabalhar-se com valores
entre 1% e 10%, sendo 5% o valor mais
utilizado.
9
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Postura cautelosa
Hiptese nula
H
0
: < 2000
Deciso
Hiptese H
0

verdadeira
Hiptese H
0

falsa
Aceitar H
0

(no construir
a bomba)
No constri a
bomba e no era
rentvel
Deciso correcta
(1-)
No constri a bomba
e era rentvel
Erro tipo II

Rejeitar H
0

(construir a
bomba)
Constri a bomba
e no rentvel
Erro tipo I

Constri a bomba e
rentvel
Deciso correcta
(1-)
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Postura destemida
Hiptese nula
H
0
: > 2000
Deciso
Hiptese H
0

verdadeira
Hiptese H
0

falsa
Aceitar H
0

(construir a
bomba)
Constri a bomba
e rentvel
Deciso correcta
(1-)
Constri a bomba e
no rentvel
Erro tipo II

Rejeitar H
0

(no construir
a bomba)
No constri a
bomba e era
rentvel
Erro tipo I

No constri a
bomba e no era
rentvel
Deciso correcta
(1-)
10
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Formulao das hipteses
Todo o processo decisrio ser efectuado
em funo de H
0
, ou seja, aceitar ou
rejeitar H
0
.

No caso de H
0
ser rejeitado necessrio
existir uma hiptese alternativa (H
1
) que
a negao da hiptese nula.

Por conveno usual colocar H
0
como
uma igualdade.
0
1
: 2000
: 2000
H
H

=
>
0
1
: 2000
: 2000
H
H

=
<
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Implementao do teste de
hipteses
Suponhamos que se seleccionou uma
amostra de 30 dias, em meses diferentes
(tendo cuidado de representar os dias da
semana, bem como os finais de semana) e,
que a mdia amostral obtida foi de 2052
veculos, com um desvio padro de 200.
11
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
1. Com base no tipo de deciso que ser
necessrio tomar escolhe-se a formulao
para a hiptese nula (H
0
) e alternativa (H
1
).
0
1
: 2000
: 2000
H
H

=
>
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
2. Escolher o teste a utilizar, a qual vai
depender do parmetro que est a ser
testado (ex: no caso da mdia populacional,
ser a mdia amostral).

A forma da distribuio do teste ser a
encontrada, pelo mtodo da var. fulcral.
( )
0
~ 0;1

=
s
n
X
Z N

12
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de Hipteses mdia
populacional
~ X Normal
( )
~ 0;1

n
X
N
o

1
~

n
s
n
X
t

( )
~ 0;1

s
n
X
N

30 n >
2
conhecida
o
30
. . .
n
T L C
>

30
. . .
n
T L C
>

( )
~ 0;1

n
X
N
o

( )
~ 0;1

s
n
X
N

2
conhecida
o
no

no

no

no

sim

sim

sim

sim

Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
3. Fixao do nvel de confiana ( =5%).
1 o
o
RA
RR
13
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
4. Determinao das regies de rejeio e
de aceitao.
( )
0
~ 0;1

=
s
n
X
Z N

95%
5%
RA
RR
5% o = Assumindo:
| |
| |
; 1, 645
1, 645;
=
= +
RA
RR
1, 645
RR
Z =
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
5. Determinao do valor da amostra (Z
Amostra
).
95%
5%
RA
RR
1, 645
RR
Z =
200
30
2052 2000
1, 42
Amostra
Z

= =
0
1, 42
Amostra
Z =
Como , ento aceita-se
H
0
, ou seja, no devemos investir
na construo da bomba de
combustvel.
e
Amostra
Z RA
14
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
1. Uma estao de rdio quer estimar o tempo
mdio que uma famlia dedica, por dia, a ouvir
essa rdio.
Foi escolhida uma amostra aleatria de 81
famlias, tendo sido calculados uma mdia de
audio de 2,4 h e um desvio-padro de 0,7 h.
Suponha que o grupo empresarial responsvel
por essa rdio tinha decidido o fecho dessa
estao se a mdia de audincia diria fosse
inferior a 2,5 h.
Para um nvel de significncia de 0,05, diga se o
grupo empresarial deve fechar a estao.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
2. Um fabricante produz dois tipos de baterias, A
e B cuja durao mdia de 25 e 30 meses,
respectivamente. O responsvel pelo inventrio
viu-se confrontado com um lote de 100
baterias cujo tipo se desconhece.
Embora seja sua convico que o lote do tipo
A, o responsvel decidiu proceder a um ensaio
com base numa amostra de 4 baterias cuja
durao mdia foi de 26,5 meses.
Supondo que a durao dos tipos de baterias
segue distribuio normal com varincia de 9
meses o que que se pode concluir ao nvel de
significncia de 1% ?
15
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
3. O Ministrio da Sade afirma que, com
os meios agora postos disposio dos
Hospitais Civis, o nmero mdio de dias
de internamento no mximo de 15.
Estas declaraes foram postas em
causa por alguns gestores hospitalares
que decidiram proceder recolha de uma
amostra de 225 doentes onde se
observou que o nmero mdio de dias de
internamento foi de 18.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Com base nestes dados e supondo que a
varivel em estudo segue uma
distribuio normal com desvio-padro de
15 dias:

a) Tero os gestores hospitalares razo?
Justifique a sua resposta, utilizando um teste
adequado a 1% de significncia.

b) Na deciso que tomou, qual a probabilidade de
estar a cometer um erro?
16
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
4. Uma empresa produz e comercializa um
conjunto de produtos de grande consumo.
Face aos dados previsionais sobre a
conjuntura do sector, um tcnico de
planeamento prev que a mdia diria de
vendas, para o presente ano, seja pelo menos
de 2000 u.m., e que a sua variabilidade no
se altere, continuando a registar-se uma
varincia de 1225 u.m.
2
Se esta previso
falhar, tal implicar um novo contrato com a
empresa transportadora, que coloca os
produtos nos locais de venda, decorrente da
diminuio da procura.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Ficou decidido que aps os primeiros 60 dias
se procederia recolha e anlise do volume
de vendas 2 meses, com vista a accionar ou
no os mecanismos necessrios negociao
de um novo contrato com a empresa
transportadora.

a) Sabendo que o volume total de vendas no
perodo de tempo referido foi de 119400 u.m.,
indique, justificando, se necessrio
renegociar o contrato com a empresa
transportadora.
17
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
5. Dos resultados de um exame de MECS I foi
retirada uma amostra de 31 alunos.
Considerando esta amostra como
representativa dos alunos avaliados nesta
cadeira e tendo em conta que, para esta
amostra, se obtiveram os seguintes
resultados:




Comente a seguinte afirmao:
A mdia dos resultados no difere
significativamente de 10.
( )
31 31
2
1 1
299 120
i i
i i
X X X
= =
= =

Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Usando o SPSS
Este procedimento bastante trabalhoso,
e implica a utilizao das tabelas da
distribuio da estatstica (normal, t-
student, etc.).

A mesma anlise pode ser efectuada de
forma muito mais simples, recorrendo ao
SPSS.

Vamos agora ver como se efectua um
teste de hiptese recorrendo ao SPSS.
18
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Retomemos o exemplo da bomba de
combustvel.

Os primeiros passos so idnticos aos
apresentados anteriormente:

1. Formulao das hiptese nula e alternativa;
2. Fixao do nvel de significncia;

Como alternativa ao clculo da regio de
rejeio e do valor crtico, o SPPS
fornece um p-valor, que basta comparar
com o valor de significncia assumido.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
p valor
o
menor

maior

0
Aceita H
o
0
1
Rejeita H
Aceita H

19
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Como calcular o p-valor
Se a zona de rejeio for a cauda
superior, temos:
0
1
: 2000
: 2000
H
H

=
>
( )
Amostra
p valor P Z Z = >
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Como calcular o p-valor
Se a zona de rejeio for a cauda
inferior, temos:
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
0
1
: 2000
: 2000
H
H

=
<
( )
Amostra
p valor P Z Z = <
20
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Como calcular o p-valor
Se a zona de rejeio for a cauda
superior e inferior, temos:
0
1
: 2000
: 2000
H
H

=
=
( )
( )
2
2
= >
= <
Amostra Amostra
Amostra Amostra
p valor P Z Z se Z for positivo
p valor P Z Z se Z for negativo
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Determinao do p-valor.
No caso do nosso exemplo temos, que o
p-valor :
( )
Amostra
p valor P Z Z = >
O p-valor corresponde ao valor que seria
necessrio a significncia assumir, para
que a hiptese H
0
fosse aceite.
21
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar o teste de hiptese de uma
mdia em SPSS, necessrio efectuar
os seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no submenu: Compare Means

3. Seleccionar: One-Sample T-Test ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Metodologia com o SPSS
Como o SPSS faz sempre os clculos
considerando uma regio de rejeio
bicaudal, temos:
1, 42 1, 42
O p-valor dado pelo SPSS (2-tail Sig)
corresponde ao somatrio das duas reas
a vermelho.
22
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como ns pretendemos a hiptese que
apenas considera a regio crtica da
cauda superior (H
1
: > 2000), ento
teremos que dividir o valor de 2-tail Sig
por 2 para obtermos o nosso p-valor.
2
2
0,167
2
0, 0835 8, 4%
tail Sig
p valor

=
=
= ~
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Quando se divide o 2-tail Sig por 2 para
obtermos o valor p-valor para apenas
uma cauda, no entanto preciso saber
se a cauda superior ou inferior. Isso
pode ser visto pelo valor do Z
Amostra
, que
fornecido pelo SPSS (designado por
t).
0
Amostra
Z Cauda Superior >
0
Amostra
Z Cauda Inferior <
NOTA: Este critrio s vlido para as distribuies
Normal Padro e t-Student.
23
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Metodologia com o SPSS
Como Z
Amostra
> 0, ento o Z
Amostra
estar na
metade direita do grfico. Logo, p-valor o
calculado corresponde cauda superior.
4. Tomada de deciso.
Z
Amostra
est algures aqui
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor maior do que
significncia escolhida (8,4% > 5%), ento
aceita-se H
0
, ou seja, no devemos
investir na construo da bomba de
combustvel.
4. Tomada de deciso (continuao).
24
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
1. O departamento de controlo de custos
de uma empresa tem vindo a admitir que
o preo mdio da principal matria prima
utilizada no fabrico do produto A de
16.

H razes para crer que o preo
ultimamente praticado no mercado
superior a este valor.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Com vista anlise da situao,
observaram-se os preos praticados
durante 16 semanas, tendo-se registado
os seguintes valores:

16, 18, 16, 20, 22, 18, 23, 21, 23, 24, 20,
21, 19 e 17

a) Se fosse responsvel por aquele
departamento, que deciso tomaria?
25
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
2. Considere que os 16 valores apresentados
so uma amostra representativa dos
ordenados pagos numa determinada
empresa A.

1066, 977, 975, 1037, 936, 1039, 1088,
1003, 932, 968, 1076, 1092, 1029, 1050,
1027, 914

Comente a seguinte afirmao:
Os trabalhadores da empresa A recebem
em mdia 1000 mensais
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de Hipteses para a
proporo populacional
O exemplo que abordamos anteriormente era um
teste de hipteses para a mdia populacional ().

Outro tipo de teste de hipteses muito utilizado
:
Quando a populao tem uma distribuio de
Bernoulli, possvel efectuar testes de hipteses
probabilidade de ocorrer um sucesso numa prova de
Bernoulli, isto , proporo populacional ()

De seguida vamos dar um exemplo tpico deste
tipo de teste.
26
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de Hipteses para a
proporo populacional
Suponha que um assessor de um grupo
financeiro forte e que est a ponderar se
deve ou no apoiar um dado candidato
numas eleies.

A atitude mais correcta, ser seleccionar
uma amostra e decidir com base nos
dados recolhidos dela. Desta forma ter
algo a sustentar a sua deciso.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Postura cautelosa
Hiptese nula
H
0
: > 0,5
Deciso
Hiptese H
0

verdadeira
Hiptese H
0

falsa
Aceitar H
0

(apoiar o
candidato)
Apoia o
candidato e este
eleito
Deciso correcta
(1-)
Apoia o candidato e
este no eleito
Erro tipo II

Rejeitar H
0

(no apoiar o
candidato)
No apoia o
candidato e este
eleito
Erro tipo I

No apoia o
candidato e este no
eleito
Deciso correcta
(1-)
27
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Postura destemida
Hiptese nula
H
0
: < 0,5
Deciso
Hiptese H
0

verdadeira
Hiptese H
0

falsa
Aceitar H
0

(mo apoiar o
candidato)
No apoia o
candidato e este
no eleito
Deciso correcta
(1-)
No apoia o
candidato e este
eleito
Erro tipo II

Rejeitar H
0

(apoiar o
candidato)
Apoia o
candidato e este
no eleito
Erro tipo I

Apoia o candidato e
este eleito
Deciso correcta
(1-)
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Recolha de dados
Seleccionou-se uma amostra de 400
indivduos e obteve-se um total de 204
votos favorveis.
204
0, 51
400
p = =
28
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
Considerando que o pior erro o de
investir num candidato que no seja
eleito, adopta-se a postura pessimista.

1. Formulao das hipteses nula (H
0
) e
alternativa (H
1
):

0
1
: 0, 5
: 0, 5
H
H
t
t
=
>
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
2. Escolher o teste a utilizar (neste caso da
proporo populacional, ser a proporo
amostral).

A forma da distribuio do teste ser:
( )
( )
0
0 0
~ 0;1
1

p
Z N
n
t
t t
Deve ter-se o cuidado de trabalhar com amostras
grande (n>30), para que a forma da distribuio siga
esta frmula.
29
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de Hiptese proporo
populacional
~ X Bernoulli
no

sim

no possvel
( )
( )
0
0 0
~ 0;1
1

p
N
n
t
t t
30
. . .
n
T L C
>

Instituto Superior de Cincias Sociais e Polticas


Universidade Tcnica de Lisboa
Metodologia
3. Fixao do nvel de confiana ( =5%).
1 o
o
RA
RR
30
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
4. Determinao das regies de rejeio e
de aceitao.
( )
( )
0
0 0
~ 0;1
1

p
Z N
n
t
t t
95%
5%
RA
RR
0, 05 o = Assumindo:
( )
( )
( )
0, 05
1 0, 05
0, 95
RR
RR
RR
P Z Z
P Z Z
P Z Z
> =
s =
s =
1, 645
RR
Z

=
1, 645
RR
Z =
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
5. Determinao do valor da amostra (Z
Amostra
).
95%
5%
RA
RR
1, 645
RR
Z =
( )
0, 51 0, 5
0, 4
0, 5 1 0, 5
400
Amostra
Z

= =

0
0, 4
Amostra
Z =
Como Z
Amostra
menor do que Z
RR
,
ento aceita-se H
0
, ou seja, no
devemos investir na campanha do
candidato.
31
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Os primeiros passos so idnticos aos
apresentados anteriormente:

1. Formulao das hiptese nula e alternativa;
2. Fixao do nvel de significncia;

Como alternativa ao clculo da regio de
rejeio e do valor crtico, o SPPS
fornece um p-valor, que basta comparar
com o valor de significncia assumido.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Determinao do p-valor.
No caso do nosso exemplo temos, que o
p-valor :
( )
Amostra
p valor P Z Z = >
O p-valor corresponde ao valor que seria
necessrio a significncia assumir, para
que a hiptese H
0
fosse aceite.
32
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar o teste de hiptese de uma
proporo em SPSS, necessrio
efectuar os seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no submenu: Nonparametric Tests

3. Seleccionar: Binomial ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Os teste de hipteses para a proporo
populacional, a nica excepo regra
de o SPSS fazer sempre os clculos
considerando uma regio de rejeio
bicaudal.

Neste caso o SPSS escolhe sozinho a
localizao da regio de rejeio, em
funo do valor que se testar para a
mdia populacional, ou seja, o valor que
aparece em H
0
e H
1
.
33
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
0 0
: H t t =
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
0
0, 5 t =
0
0, 5 t =
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Quando o SPSS efectua um
teste considerando H
1
: <
0
,
aparece escrito por baixo da
tabela.
1 0
: H t t =
1 0
: H t t <
1 0
: H t t >
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para que o SPSS faa o teste de hipteses
sem considerando a zona de rejeio na
unicaudal, temos que usar para o
0
no o
valor de 0,5, mas sim um valor ligeiramente
diferente (0,499 ou 0,501).

O SPSS fornece no um valor 2-tail Sig
como no caso anterior, mas sim uma valor
1-tail Sig indicando que o teste foi feito
considerando apenas uma das caudas.
34
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como na tabela de output nada dito
em relao hiptese alternativa,
ento porque esta H
1
: >
0
.

O valor de 1-tail Sig corresponder
assim ao nosso p-valor.
1
0, 378 37,8%
p valor tail Sig =
= ~
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor maior do que
significncia escolhida (37,8% > 5%),
ento aceita-se H
0
, ou seja, no devemos
apoiar o candidato.
4. Tomada de deciso.
35
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
3. Certo agricultor sabe que se em
determinado ano, no seu pomar, a
percentagem de laranjeiras com uma
produo superior a 50 kg for inferior a
70%, deve proceder a um tratamento das
rvores.

Tendo de tomar rapidamente uma deciso e
sendo-lhe impossvel, devido extenso do
pomar, proceder pesagem da produo de
cada rvore, seleccionou ao acaso 40
laranjeiras cuja produo foi avaliada,
tendo-se obtido a seguinte amostra:
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
20, 60, 46, 44, 70, 62, 45, 80, 45, 25,
60, 51, 65, 55, 50, 59, 62, 28, 80, 47,
52, 63, 60, 70, 41, 32, 81, 90, 49, 52,
44, 60, 64, 55, 40, 42, 52, 70, 49 e 60

Que deciso deve tomar o agricultor ?
(Considere um nvel de significncia de
1%)
36
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
4. Considere que os 31 valores apresentados
no ficheiro Exerccio 4 - Testes de
hipteses.sav, so uma amostra
representativa dos anos de trabalho, de
cada empregado, na empresa A.

Comente a seguinte afirmao:
20% dos empregados da empresa A,
trabalham na empresa no mximo 5 anos
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes no paramtricos
At agora temos falado sempre de testes
paramtricos, isto , testes que envolvem
parmetros de uma distribuio
conhecida.

Acontece que:

nem sempre a forma da distribuio conhecida;

Por vezes necessrio efectuar testes com vista
descoberta da distribuio terica mais
correcta para descrever os dados recolhidos.
37
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes no paramtricos
Como o prprio nome indica os testes no
paramtricos, so testes de hipteses
que no envolvem parmetros da
distribuio, mas sim a prpria
distribuio.

No se pretende testar se um parmetro em
particular.

Pretende-se testar uma dada distribuio
terica, adequada para descrever um dado
conjunto de dados.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste no paramtrico
Um teste no paramtrico consiste, em
testar as seguintes hipteses:
0
1
:
:
H X tem uma dada distribuio
H X no tem essa distribuio
38
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de ajustamento de
Kolmogorov-Smirnov

No teste de ajustamento de Kolmogorov-
Smirnov avaliam-se as discrepncias entre
a funo distribuio da amostra e a a
funo distribuio terica admitida no
teste.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Aplicabilidade e limitaes
O teste de ajustamento de Kolmogorov-
Smirnov, apresenta 3 limitaes que
importante ter em conta:

1. S se aplica a distribuies contnuas.

2. Este teste tem tendncia para ser menos
sensvel nas caudas das distribuies, isto , nos
valores extremos.

3. A maior limitao a de que a distribuio
testada, tem que ser totalmente conhecida (
necessrio conhecer os parmetros da
distribuio)
39
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Limitaes do SPSS
No caso de os parmetros serem
desconhecidos o mtodo admite a
utilizao de estimativas, mas estas no
devem ser obtidas usando a amostra
utilizada para aplicar o teste.

No caso de ser utilizada a mesma
amostra, as regies crticas do mtodo
ficam afectadas, aumentando
consideravelmente o risco de erro tipo .
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de Lilliefors
O teste de Lilliefors uma adaptao do
teste de Kolmogorof-Smirnoff, usado
para verificao de normalidade de um
conjunto de dados.

A diferena bsica entre os testes que
o primeiro testa a normalidade a partir de
mdia e desvio fornecidos, enquanto o
segundo usa a mdia e o desvio-padro,
calculados no prprio conjunto de dados.
40
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de Lilliefors
O teste de Lilliefors apresenta a
limitao de s ser aplicvel no caso de
estarmos a testar a distribuio normal.

Esta limitao atenuada pelo facto de a
distribuio normal ser a mais utilizada na
prtica.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exemplo
Suponha que se testaram 480 amostras
de 2 tipos de ligas cermicas (Premium e
Standard), de forma a determinar qual a
temperatura mxima que suportavam
sem se alterarem.

Pretende-se saber se temperatura mxima que
as amostras das ligas Premium e Standard
suportavam sem se alterarem pode ser
descrita por uma distribuio de Normal.
41
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exemplo
Considerando que X a v.a. que descreve
temperatura mxima que a amostras
suportou sem se alterar, temos:
0
1
:
:
H X tem distribuio Normal
H X no tem essa distribuio
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Para iniciar o teste de normalidade de
Lilliefors em SPSS, necessrio efectuar
os seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no submenu: Descriptive Statistics

3. Seleccionar: Explore ...
42
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Escolhendo nas opes dos grficos o
teste de normalidade, temos os seguinte
resultados:
Sig.
Premium 0,000
Standard 0,200
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Tomada de deciso:
Premium
Como Sig. menor do que
significncia escolhida (0 < 5%), ento
rejeita-se H
0
, ou seja a v.a. X no pode
ser descrita por uma distribuio
Normal.
Standard
Como Sig. maior do que significncia
escolhida (20 % > 5%), ento aceita-se
H
0
, ou seja a v.a. X pode ser descrita
por uma distribuio Normal.
43
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Limitaes do teste de K-S
Outra das limitaes do teste de
Kolmogorov-Smirnov o facto de ter
tendncia para ser menos sensvel nas
caudas das distribuies, isto , nos
valores extremos.

Como consequncia o teste de K-S torna-
se menos preciso para amostras de
pequena e mdia dimenso.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de Shapiro-Wilk
O teste de Shapiro-Wilk ao contrrio do
teste de K-S particularmente sensvel
s caudas da distribuio, o que o torna
mais indicado para amostras de pequena e
mdia dimenso.

O teste de Shapiro-Wilk apresenta
contudo a grande limitao de apenas ser
vlido para a distribuio normal.
44
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de Shapiro-Wilk vs K-S
No caso de um teste de normalidade, o
teste de Kolmogorov Smirnov deve ser
preterido em favor do teste de Shapiro-
Wilk sempre que a dimenso da amostra
estiver entre 3 e 50.
Dimenso da
Amostra
Teste de normalidade
recomendado
3 e 50 Teste de Shapiro-Wilk
> 50 Teste de Kolmogorov Smirnov
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exemplo
Suponha que foi efectuada uma auditoria a
uma empresa de taxis, durante a qual
foram registados os tempos de resposta a
20 chamadas de clientes escolhidas
aleatoriamente.

Pretende-se saber se o tempo de resposta
chamada de um cliente segue uma distribuio
Normal.
45
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exemplo
Considerando que X a v.a. que descreve o
tempo de resposta chamada de um cliente,
temos:
0
1
:
:
H X tem distribuio Normal
H X no tem essa distribuio
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Para iniciar o teste de normalidade
Shapiro-Wilk em SPSS, necessrio
efectuar os seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no submenu: Descriptive Statistics

3. Seleccionar: Explore ...
46
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Escolhendo nas opes dos grficos o
teste de normalidade, temos os seguinte
resultados:
Statistic Sig.
Tempo de
resposta
0,957 0,478
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Como o Sig maior do que significncia
escolhida (47,8 % > 5%), ento aceita-se
H
0
, ou seja a v.a. X descrita por uma
distribuio Normal.

O tempo de resposta chamada de um
cliente segue uma distribuio Normal.
Tomada de deciso.
47
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exerccio
1. Para uma determinada mquina de
produo de fio txtil era suposto que o
intervalo entre 2 defeitos consecutivos
seguisse uma distribuio normal.

Os dados para 100 medies aleatrias
encontram-se no ficheiro Exerccio 1 -
Testes de hipteses.sav

Pretende-se saber se estes dados so
consentneos com a distribuio esperada.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exerccio
2. O ficheiro Exerccio 2 - Testes de
hipteses.sav, contem uma amostra do
rendimento bruto de 121 empregados,
escolhidos aleatoriamente.

Pretende-se saber se estes dados so
consentneos com uma distribuio
Normal.
48
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de hipteses de
comparao de duas mdias
Ser que:
um dado novo mtodo de ensino mais eficaz
que o mtodo tradicional ?

os homens tem desempenho e atitudes mais
favorveis frente a Matemtica do que as
mulheres ?

Estes so alguns exemplos de situaes
em que necessrio saber se a diferena
entre as mdias de dois grupos de dados
estatisticamente significativa.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de hipteses de
comparao de duas mdias
Temos dois tipos possveis teste de
hipteses:

Teste para duas amostras independentes
(sempre que as amostras provm de populaes
independentes);

Teste para duas amostras emparelhadas
(sempre que tenhamos apenas uma amostra, que
avaliada antes e depois de uma dada
experincia).
49
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Condies de aplicao do teste
Para que se possa testar a hiptese das
mdias de dois grupos de dados serem
iguais, necessrio o seguinte:

Ambos os grupos de dados tm que provir de
populaes com distribuio normal

Saber se as varincias dos dois grupos de dados
so iguais ou no.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Condies de aplicao do teste
Como resultado condies de
aplicabilidade, o teste de comparao de
duas mdias tem sempre que ser
precedido de outros dois:

Teste de Normalidade

Teste de Homocedasticidade ou igualdade das
varincias
NOTA: A verificao da normalidade e da homocedasticidade so essenciais
a uma correcta aplicao do teste de hipteses de comparao de
duas mdias.

50
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Suponha que uma determinada marca de
roupa pretende comparar a qualidade do
servio em duas das suas lojas.

Para isso decide analisar as avaliaes
efectuadas pelos clientes qualidade do
atendimento.

Seleccionaram-se, aleatoriamente, 40
clientes em cada loja e pediu-se-lhes que
classificassem qualidade do servio
prestado numa escala de 1 a 10.

Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo

Verifica-se que a mdia das notas da loja
2 ligeiramente superior.

Para determinar se essa aparente
superioridade da loja 2
estatisticamente significativa, decide
comparar a diferena das mdias.
51
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
1. Formulao das hipteses nula (H
0
) e
alternativa (H
1
):

0 1 2
1 1 2
:
:


=
=
loja loja
loja loja
H
H
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
2. Fixao do nvel de confiana ( =5%).
1 o
RA
RR
2
o
RR
2
o
52
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade.

Teste de Normalidade
1
2
0,109
0,110
=
=
loja
loja
p valor
p valor
Como, em ambos os casos, o p-valor maior do
que significncia escolhida (0,05), ento
aceita-se H
0
, ou seja, ambas as amostras provm
de populaes com distribuio normal.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade.

Teste de Homocedasticidade
(O SPSS aplica o teste de Levene)
0, 745 = p valor
Como o p-valor maior do que significncia
escolhida (0,05), ento aceita-se H
0
, ou seja,
pode-se assumir que ambas as amostras provm
de populaes com igual varincia.
53
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar o teste de hiptese entre
duas mdias de amostras independentes
em SPSS, necessrio efectuar os
seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no sub-menu: Compare Means

3. Selecionar: I ndependent-Samples T Test ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Determinao do p-valor do teste de
comparao das mdias.

Como o facto de se poder ou no assumir a
igualdade das varincias influencia a forma
de realizao dos teste s mdias, o SPSS
apresenta na tabela de output os
resultados para as duas situaes,
cabendo ao utilizador a escolha do
resultado correcto.
54
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Determinao do p-valor do teste de
comparao das mdias.

Neste caso como se pode assumir a
igualdade das varincias, p-valor correcto
ser o da primeira linha.
0,117 = p valor
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor maior do que
significncia escolhida (11,7 % > 5%),
ento aceita-se H
0
, ou seja, a diferena
entre a nota mdia das loja 1 e 2, no
estatisticamente significativa.

Considera-se que a classificao mdia
igual em ambas as lojas.
5. Tomada de deciso.
55
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
9. O Pedro e o Joo discutem sobre a rapidez
de atendimento de um mesmo servio em
duas Lojas do Cidado distintas. O Pedro
afirma que na loja 1 as pessoas se
despacham, em mdia, mais depressa do que
na loja 2, mas o Joo duvida.

Para esclarecerem a esta situao,
resolveram acompanhar o atendimento
daquele servio num dia e numa mesma
janela horria, tendo seleccionado
aleatoriamente 10 clientes na loja 1 e 15 na
loja 2.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Os tempos de espera (em minutos) das
vrias pessoa seleccionadas foram:




Ser que o Pedro tem razo ?
Loja 1 15 20 15 10 5 20 30 10 15 40
Loja 2 10 15 15 15 20 20 25 20 30 20 25 35 30 35 30
56
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
10. Um nutricionista est convencido que a
nova dieta que prescreve aos seus
doentes eficaz no tratamento da
obesidade provocando perda de peso ao
fim de 4 semana e, contrariamente a
doutras dietas, reduz o estado de
ansiedade dos doentes.

Para uma amostra de 10 doentes
seleccionados ao acaso obtiveram-se os
seguintes resultados:
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Identificao do
Doente Obeso
Peso antes da
dieta
(kg)
Peso aps 4
semana de dieta
(kg)
1 90 86
2 85 85
3 95 92
4 95 90
5 105 100
6 102 95
7 83 80
8 85 81
9 93 90
10 94 88
57
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Com base na amostra recolhida e
constante do quadro anterior, considera
que o nutricionista tem razo ?
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Comparao de vrias mdias
So tambm frequentes os exemplos em
que se pretende comparar no apenas
duas, mas trs ou mais mdias.

Ser que:
os alunos do concelho de Lisboa tm um
desempenho e atitudes mais favorveis frente a
Matemtica do que os alunos dos restantes
concelhos da zona Metropolitana de Lisboa ?

A criminalidade na cidade de Lisboa maior do
que nas cidades do Porto, Aveiro e Coimbra ?

58
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Anlise de Varincia Simples
A Anlise de Varincia Simples, permite
testar a hiptese das mdias de vrios
grupos de dados serem iguais.

A Anlise de Varincia Simples tambm
vulgarmente conhecida por ANOVA, que
consiste na sigla resultante do nome em
ingls ANalysis Of VAriance).
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Condies de aplicao do teste
Para que se possa testar a hiptese das
mdias de vrios grupos de dados serem
iguais, assegurar o seguinte:

Todos os grupos de dados provm de populaes
com distribuio normal

As varincias dos vrios grupos de dados so
iguais, ou seja, ter que se verificar a
homocedasticidade.
59
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Condies de aplicao do teste
Como resultado das exigncias de
normalidade e de homocedasticidade
(igualdade das varincias), o teste de
comparao de duas mdias tem sempre
que ser precedido de outros dois:

Teste de Normalidade

Teste de Homocedasticidade ou igualdade das
varincias
NOTA: A verificao da normalidade e da homocedasticidade so condies
essenciais aplicao Anlise de Varincia Simples.

Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Suponha que a marca de roupa referida
anteriormente pretende agora comparar a
qualidade do servio nas 5 lojas que tem em
Lisboa

Para isso seleccionaram-se, aleatoriamente,
40 clientes em cada loja e pediu-se-lhes
que classificassem a qualidade do servio
prestado numa escala de 1 a 10.
60
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
1. Formulao das hipteses nula (H
0
) e
alternativa (H
1
):

0 1 2 3 4 5
1
:
:
= = = =
loja loja loja loja loja
H
H As mdias no so todas iguais
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
2. Fixao do nvel de confiana ( =5%).
1 o
RA
RR
2
o
RR
2
o
61
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade.
Teste de Normalidade
1
2
3
4
5
0,109
0,110
0,104
0, 067
0,137
=
=
=
=
=
loja
loja
loja
loja
loja
p valor
p valor
p valor
p valor
p valor
Para um nvel de significncia de 0,05, pode-se
assumir que todas as amostras provm de
populaes com distribuio normal.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade.

Teste de Homocedasticidade ou
Homogeneidade das varincias
0,339 = p valor
Para um nvel de significncia de 0,05, pode-se
assumir que todas as amostras provm de
populaes com igual varincia.
62
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar a Anlise de Varincia
Simples em SPSS, necessrio efectuar
os seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no sub-menu: Compare Means

3. Selecionar: One-Way ANOVA ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Determinao do p-valor do teste de
comparao das mdias.
0, 000 = p valor
63
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor menor do que
significncia escolhida (0 % < 5%), ento
rejeita-se H
0
e aceita-se H
1
, ou seja, as
mdias no so todas iguais.

Considera-se que a classificao mdia
no igual em todas as lojas.
5. Tomada de deciso.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Anlise de Varincia Simples
Quando se conclu que as mdias das 5
lojas no so todas iguais, levanta-se
automaticamente as seguintes questes:

Quais as mdias que so iguais?

Quais as mdias que so diferentes?

Para se obter a resposta a estas questes,
necessrio testar cada um dos pares
possveis.

64
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
O SPSS permite fazer, muito facilmente, a
comparao de todos os pares possveis,
bastando para isso seleccionar a opo.

1. Entrar no menu: Analyze

2. Entrar no sub-menu: Compare Means

3. Selecionar: One-Way ANOVA ...

4. Selecionar: Post - Hoc ...

Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
6. Comparao dos vrios pares possveis.

O SPSS tem vrios tipos de testes de
hipteses igualdade dos pares de
mdias, neste caso optou-se pelo Scheffe.

Para uma significncia de 0,05, os pares
que apresentam mdias diferentes so:


1 4 2 3
2 4 2 5
loja e loja loja e loja
loja e loja loja e loja
65
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
11. Pretende-se saber se as notas na disciplina
de Histria do 11 ano em 6 escolas
secundrias do concelho do Porto, so iguais
ou no.

Para esclarecer esta situao,
seleccionaram-se, aleatoriamente, as notas
na disciplina de Histria de 60 alunos em
cada uma das 6 escolas secundrias.

Os dados encontram-se no ficheiro
Exerccio 11 Testes de hipteses.sav
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes no paramtricos de
comparao de grupos de dados
Sempre que no se verificarem as
condies de aplicabilidade dos testes
paramtricos referidos anteriormente
(normalidade e homocedasticidade),
possvel aplicar testes no paramticos,
que embora no comparem directamente
as mdias, permitem saber se os grupos de
dados analisados provm todos da mesma
populao.
66
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes no paramtricos de
comparao de grupos de dados
Existem vrios testes no paramticos, de
comparao de grupos de dados, contudo
sero abordados apenas os seguintes:

Teste de Mann-Whitney
(Comparao de dois grupos de dados independentes)

Teste de Kruskal-Wallis
(Comparao de trs ou mais grupos de dados
independentes)
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Suponha que a marca de roupa referida
anteriormente pretende agora comparar as
a qualidade do servio nas 3 lojas que tem
no Porto.

Para isso seleccionaram-se, aleatoriamente,
40 clientes em cada loja e pediu-se-lhes
que classificassem a qualidade do servio
prestado numa escala de 1 a 10.
67
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
1. Formulao das hipteses nula (H
0
) e
alternativa (H
1
):

0
1
:
:
H Os grupos dedados provmtodos damesma populao
H Os grupos dedados no provmtodos damesma populao
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
2. Fixao do nvel de confiana ( =5%).
1 o
RA
RR
2
o
RR
2
o
68
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade
da Anlise de Varincia Simples.
Teste de Normalidade
1
2
3
0,110
0,104
0, 023
=
=
=
loja
loja
loja
p valor
p valor
p valor
Para um nvel de significncia de 0,05, a
classificao da loja 3, no segue uma distribuio
normal.

No se pode aplicar a Anlise de Varincia Simples
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar o teste de Kurskal Wallis em
SPSS, necessrio efectuar os
seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no sub-menu: Nonparametric Tests

3. Selecionar: k I ndependent Samples ...
69
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Determinao do p-valor do teste de
comparao dos grupos de dados.
0, 000 = p valor
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor menor do que
significncia escolhida (0% < 5%), ento
rejeita-se H
0
e aceita-se H
1
, ou seja, os
grupos de dados no provm todos da
mesma populao.

Considera-se que as 3 lojas no tm
todas a mesma classificao.
5. Tomada de deciso.
70
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para se fazer a comparao de todos os
pares possveis, ser necessrio:

1. Entrar no menu: Analyze

2. Entrar no sub-menu: Nonparametric Tests

3. Selecionar: 2 I ndependent Samples ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
6. Comparao dos vrios pares de grupos de
dados possveis.

Para uma significncia de 0,05, o nico par
que provem da mesma populao :


2 3 loja e loja
71
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccio
12. Pretende-se saber se o tempo de espera na
fila da cantina de 3 escolas secundrias do
concelho do Aveiro, ou no igual.

Para esclarecer esta situao, registaram-se
os tempos de espera na fila para almoar, as
de 52 alunos, escolhidos aleatoriamente, em
cada uma das 3 escolas secundrias.

Os dados encontram-se no ficheiro
Exerccio 12 Testes de hipteses.sav
Anlise de Dados Univariados e
Multivariados
Anlise de dados
Categorizados
72
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Muitas vezes torna-se necessrio saber
se as variaes que se verificam numa
dada varivel (qualitativa) com a variao
de uma outra so estatisticamente
significativas, isto , saber se as variveis
so independentes ou no.

Os testes de hipteses tambm podem
ser utilizados para saber se duas
variveis so independentes ou no
recorrendo-se s tabelas de contingncia.

Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
As tabelas de contingncia, so portanto,
utilizadas para estudar a relao entre
duas variveis qualitativas (ou
categricas), descrevendo a frequncia
das categorias de uma das variveis
relativamente s categorias de outra.

As tabelas de contingncia apresentam
genericamente o seguinte formato:


73
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Varivel 1
Varivel 2
Total da
linha
B
1
B
2
... B
m

A
1
f
11
f
12
... f
1m
f
l1
A
2
f
21
f
22
... f
2m
f
l2

... ...

... ... ... ...
A
n
f
n1
f
n2
... f
nm
f
ln
Total da
coluna
f
c1
f
c2
.... f
cm
Total de
resultados
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Suponha que se entrevistaram 489 mes,
sobre a sua idade e se haviam fumado no
incio da sua gravidez.

Pretende-se saber se existe alguma relao
entre o fumar no incio da gravidez e a idade
da mulher.
74
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia

Consideremos as seguintes v.a.:

X - grupo etrio da mulher;

Y se a mulher fumou ou no no incio da
gravidez.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Grupo
etrio
Fumou no incio da
sua gravidez ?
Total da
linha
No Sim
13 - 20 13 7

20

21 - 30

252

45

297
31 35 91

6 97
36 - 55

59 3 62
Total da
coluna
415

61

476
75
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes de independncia
Quando a anlise da tabela de
contingncia sugere a existncia de uma
relao entre as variveis, torna-se
necessrio verificar se isso se deve ao
acaso ou dependncia destas.

Os testes mais utilizados para testar a
independncia de duas variveis, so:

Teste do Qui-Quadrado;
Teste exacto de Fisher
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
O teste Qui-Quadrado (_
2
) pode ser
usado para avaliar se a relao
aparentemente observada entre duas
variveis qualitativas, se deve ao acaso ou
dependncia das variveis.

um teste no paramtrico, que muito
til, pois no precisa da suposio de
normalidade das variveis para analisar o
grau de associao entre as duas
variveis.
76
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
O teste Qui-Quadrado mede a diferena
entre as frequncias obtidas e as
esperadas assumindo que no existe
qualquer interferncia da segunda
varivel na primeira.

O clculo dos valores esperados
assumindo que as variveis so
independentes, efectuado, supondo que
a estrutura percentual global se mantm
em cada coluna.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado

Assumindo como hiptese que as variveis
so independentes, temos:
0
1
:
:
H X e Y so independentes
H X e Y so dependentes
77
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
Dos dados do exemplo anterior podemos
concluir que:
61
% 12, 8%
476
de sim = =
415
% 87, 2%
476
de no = =
Se as variveis forem independentes
espectvel que estas percentagens se
verifiquem para todos os grupos etrios.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
Para o grupo etrio 13 20, temos:
13 20
% %
12, 8% 20
2, 6
esperada de sim de sim f

=
=
=
13 20
% %
87, 2% 20
17, 4
esperada de no de no f

=
=
=
Fazendo o mesmo tipo de clculo para os
restantes grupos etrios, temos:
78
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Grupo
etrio
Fumou no incio da sua
gravidez ?
Total da
linha
No Sim
13 - 20 13 (17,4
*
) 7 (2,6
*
) 20

21 - 30

252 (259
*
) 45 (38
*
) 297
31 35 91 (85
*
) 6 (12
*
) 97
36 - 55

59 (54
*
) 3 (8
*
) 62
Total da
coluna
415

61

476
* - valores que se obtm assumindo que a segunda varivel no influencia a primeira
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
O valor do teste do Qui-Quadrado,
traduz a diferena existente entre os
valores observados e os esperados.
( )
2
2
. .
.
Freq observada Freq esperada
Freq esperada
_

=

79
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para se obter uma tabela de contingncia
em SPSS, necessrio efectuar os
seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no submenu: Descriptive Statistics

3. Seleccionar: Crosstabs ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS

4. Escolher a varivel para as linhas e para
as colunas;

5. Escolher de entre as vrias opes, qual
o tipo de informao que se pretende que
conste da tabela de contingncia;


80
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para efectuar o teste do Qui-Quadrado
em SPSS, necessrio efectuar os
mesmos passos que para obter a tabela
de contingncia e depois:

1. Escolher nas opes o teste do Qui-
Quadrado.

2. Para obter tambm o coeficiente de
contingncia, basta seleccionar tambm
esta opo.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
SPSS fornece os seguintes valores:

17, 607
. . 0, 001
Chi Square
Asymp Sig
=
=
Em que:
Chi-Square corresponde ao valor do teste
do Qui-Quadrado
Asymp. Sig. a significncia mnima
necessria, para que se rejeite H
0
.

81
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como Asymp. Sig menor do que
significncia escolhida (0,1 % < 5%),
ento rejeita-se H
0
, ou seja as variveis
so dependentes.

O idade da mulher e o ela ter fumado no
incio da gravidez esto relacionados.
Tomada de deciso.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Aplicabilidade e limitaes
O teste do Qui-Quadrado testa apenas a
hiptese geral de que as duas variveis
so independentes, no permitindo
concluir nada cerca do tipo de relao,
apenas se existe ou no.

semelhana do que foi referido
anteriormente para o teste de
ajustamento do Qui-Quadrado, este
teste, assume que todas as frequncias
esperadas considerando H
0
, verdadeiro
so superiores a 5.

82
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Aplicabilidade e limitaes
Sempre que existam frequncias
esperadas inferiores a 5, o resultado do
teste tem um certo grau de erro
associado.

Considera-se que o erro est minimamente
controlado se:

Nenhuma dos valores esperados for menor ou
igual a 1;

O total de valores esperados com valor inferior
ou igual a 5, represente menos de 20% do total.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste Exacto de Fisher
Sempre que pretendemos testar se
existe uma relao entre duas variveis
qualitativas que s podem tomar 2 valores
cada, recomendvel o uso do Teste
Exacto de Fisher.

Este teste deve assim ser utilizado
sempre que temos uma tabela de
contingncia 2x2, uma vez que, no tem as
mesmas limitaes que o Qui-Quadrado,
no que diz respeito ao valor das
frequncias esperadas.
83
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Coeficiente de contingncia
Muitas vezes ao se estudar a relao
entre duas variveis, no se pretende
apenas saber se existe ou no (Teste do
Qui-Quadrado ou Exacto de Fisher), mas
tambm obter informao sobre a sua
intensidade.

O grau de intensidade da relao entre
duas variveis pode ser avaliado pelo
coeficiente de contingncia, o qual se
baseia na estatstica do Qui-Quadrado.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Coeficiente de contingncia
O coeficiente de contingncia uma
medida do alcance da associao ou
relao entre dois conjuntos de atributos.

Ele calculado em funo do valor
calculado na tabela de contingncia e
independente de ordenao das
categorias das variveis:
2
2
C
N
_
_
=
+
N a dimenso
da amostra
84
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Coeficiente de contingncia
Como o coeficiente de contingncia se
baseia na estatstica do Qui-Quadrado, as
condies de aplicabilidade sero as
mesma do teste do Qui-Quadrado.

A um valor de 0 para o coeficiente de
contingncia corresponde a inexistncia
de qualquer relao entre as variveis.

Quanto maior o valor do coeficiente de
contingncia, maior a dependncia entre
as variveis.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Suponha que quando se entrevistaram as
489 mes, para alm da sua idade e se
haviam fumado no incio da sua gravidez,
tambm se recolheu informao sobre o
nmero de cigarros que fumavam antes de
engravidarem.

Pretende-se saber o que influencia mais o fumar
no incio da gravidez, se a idade da mulher se o
nmero de cigarros que esta fumava antes de
engravidar.

85
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
As variveis em causa so:

X - grupo etrio da mulher;

Y se a mulher fumou ou no no incio da
gravidez.

Z - nmero de cigarros que a mulher fumava
antes de engravidar.

Os pares de variveis em causa so:
X e Y Y e Z
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
O primeiro passo a tomar verificar se o
fumar no incio da gravidez
influenciado pela idade da mulher e pelo
nmero de cigarros que esta fumava
antes de engravidar.

Ser assim necessrio efectuar testes
de independncia aos 2 pares de
variveis em causa.
86
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Y e Z
p-valor= 0,02

As variveis
so
dependentes
( = 0,05)

Resultados do teste de
independncia
Efectuando o teste de independncia com o
SPSS, obtm-se os seguintes resultados:

X e Y
p-valor= 0,01

As variveis
so
dependentes
( = 0,05)

Instituto Superior de Cincias Sociais e Polticas


Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para determinar o coeficiente de
contingncia em SPSS, necessrio
efectuar os mesmos passos que para
obter a tabela de contingncia e depois:

1. Escolher nas opes o coeficiente de
contingncia.
2. O SPSS calcula tambm uma srie de
outros coeficientes, que embora menos
utilizados, podem ser teis em certos
casos.
87
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Resultados do coeficiente de
contingncia
SPSS fornece os seguintes valores:



Concluso

O valor do coeficiente de contingncia do
par Y e Z muito superior ao do par X e Y,
logo o o nmero de cigarros que a mulher
fumava antes de engravidar influencia mais o
fumar no incio da gravidez do que a idade.

X e Y
Coef. Cont. = 0,189
Y e Z
Coef. Cont. = 0,621
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Medidas de Associao
Para alm do coeficiente de contingncia,
existem mais alguns indicadores da
intensidade da dependncia de duas
variveis.

Apesar de no serem to utilizados como
o coeficiente de contingncia, no deixam
de ter a sua importncia.
88
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Medidas de Associao
A sua importncia deve-se essencialmente
a terem condies de aplicabilidade
diferentes do coeficiente de
contingncia.

sempre aconselhvel complementar a
informao obtida a partir do coeficiente
de contingncia com a determinao de
mais uma ou duas medidas de associao.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Medidas de Associao
Outras medidas de associao so:

V de Cramer
(Idntico ao coeficiente de contingncia, mas com a
vantagem de a uma dependncia total corresponder o
valor de 1)

Tau e Tau C de Kendall
(Aplicveis no caso de variveis ordinais, pois tomam em
considerao a ordem existente entre os valores
destas)
89
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
1. Num estudo de mercado sobre a audincia
dos jornais semanrios foram inquiridos
100 leitores de ambos os sexos sobre o
semanrio que compram
preferencialmente, os resultados esto
contidos no ficheiro Exerccio 1 -
Tabelas de contingncia.sav

Ser que a preferncia pelos vrios
semanrios influenciada pelo gnero dos
leitores ?
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
2. Um canal de televiso est interessado em
avaliar se o tempo que as pessoas passam a
ver televiso est ou no relacionado com a
dimenso da cidade onde residem.

Foram entrevistadas 200 pessoas e os dados
recolhidos esto contidos no ficheiro
Exerccio 2 - Tabelas de contingncia.sav

Que concluso retira dos dados da amostra ?
90
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
3. O gestor de recursos humanos de certa
empresa pretende averiguar se o nvel de
absentismo est ou no relacionado com o
facto do trabalhador ser do sexo masculino
ou feminino.

Recolheu-se uma amostra de 100 pessoas,
escolhidas aleatoriamente, cujos dados se
encontram no ficheiro Exerccio 3 Tabelas
de contingncia.sav

O que se pode concluir dos dados recolhidos ?
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
4. Utilizando o ficheiro Exerccio 4 Tabelas
de contingncia.sav

a) Crie uma varivel que separa os trabalhadores em 2
grupos: um que fuma menos de 20 cigarros por dia, e
outro que fuma 20 ou mais.

b) Verifique se existe uma relao entre esta varivel e
a varivel estado10.

c) Faa o mesmo colocando a separao nos 10 cigarros
por dia, quais as diferenas.
91
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
5. Numa determinada empresa, recolheu-se uma
amostra de 200 trabalhadores, escolhidas
aleatoriamente, cujos dados se encontram no
ficheiro Exerccio 5 Tabelas de
contingncia.sav

Verifique a veracidade das seguintes
afirmaes:

O desempenho dos trabalhadores
independente do seu estado civil
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
5. Verifique a veracidade das seguintes
afirmaes:

O desempenho dos trabalhadores
independente do seu gnero

O gnero dos trabalhadores afecta mais o
desempenho do que o estado civil

O estado civil dos trabalhadores afecta
mais o gnero do que o desempenho

92
Anlise de Dados Univariados e
Multivariados
Anlise de Dados
Multivariados
Introduo
Introduo
A complexidade dos contextos reais, faz
com que seja impossvel analisar os dados
apenas numa perspectiva univariada.

Em qualquer contexto real as diferentes
caractersticas das unidades estatsticas
interagem entre si, criando uma rede de
inter-relaes que no pode ser ignorada
sob pena de se obterem concluses
erradas e de se enviesarem os processos
de tomada de deciso.
93
Introduo
A anlise multivariada, ao permitir efectuar a
anlise de diversas caractersticas em simultneo,
tem em conta esta rede de inter-relaes das
diferentes variveis, permitindo obter informao
adicional que de extrema utilidade para o
processo de anlise de contextos reais.

A anlise multivariada no substitui a anlise
univariada, porque nunca consegue atingir o grau
de detalhe desta, mas fornece uma srie de
poderosas ferramentas de anlises essenciais e
complementares.

Introduo
A anlise multivariada composta por uma
panplia grande de testes, os quais tm objectivos
e condies de aplicabilidade diferentes.

O primeiro passo a identificao da natureza
das variveis (quantitativa ou qualitativa), uma vez
que esta informao determinante para o tipo
de teste a aplicar.

O segundo passo consiste na definio do
objectivo da anlise, isto , na definio da
natureza da informao que se pretende obter.
94
Introduo
Iremos abordar 3 tipos diferentes de ferramentas de anlise
multivariada:

1. Identificao de redundncia de informao, atravs da
anlise das relaes de interdependncia das variveis.

2. Construo de modelos de regresso, em que a partir do
conhecimento de algumas caractersticas se procuram
estimar caractersticas desconhecidas.

3. Identificao de afinidades entre unidades
estatsticas, em que se procura detectar a existncia
de grupos homogneos.

Anlise de Dados Univariados e
Multivariados
Anlise de Dados
Multivariados Anlise
Inicial dos Dados

95
Introduo
O processo de criao de uma base de dados, seja
ele qual for, tem sempre inerente um risco de
erro. A existncia de erros nos dados
obviamente motivo de preocupao, uma que
provoca enviesamentos nos resultados dos testes,
induzindo o analista em concluses erradas.

Torna-se portanto vital assegurar alguma
fidelidade dos dados, devendo-se proceder
sempre a uma anlise inicial dos dados contidos na
base, recorrendo essencialmente a ferramentas
de estatsticas descritiva.
Objectivos
A anlise descritiva da amostra tem como
objectivo identificar a existncia de:

Valores absurdos (outliers)

Tendncias ou padres estranhos

Possveis relaes de interferncia entre
variveis

No respostas e os seus padres de ocorrncia
nas diferentes variveis


96
Anlise Grfica
As grandes quantidades de dados com que
normalmente se trabalha, tornam pouco
operacional a anlise dos mesmos pela
observao das tabelas de frequncia.

As representaes grficas tm aqui um
papel bastante importante, pois permitem
muito maior facilidade identificar
comportamentos diferenciados e
identificar observaes aberrantes
(outliers).
Anlise Grfica
As principais representaes grficas utilizadas
na anlise inicial dos dados so:
Histograma
Representao grfica das frequncias dos diferentes
resultados
Permite facilmente identificar a existncia de cdigos
errados

Box-Plot
Representao grfica dos Quartis
Permite facilmente identificar potenciais outliers

Grfico de Disperso
Representao de uma varivel em funo de outra
Permite facilmente identificar padres de
interdependncia, que podem ser aceitveis ou no.

97
Box-Plot
Maior valor que no
outlier, i.e., valores
menores do que 1,5 vezes
o comprimento da caixa a
partir do 3 Quartil
3 Quartil ou Percentil 75
Mediana
1 Quartil ou Percentil 25
Menor valor que no
outlier
50% dos
valores esto
dentro da caixa
25% dos
valores esto
acima da caixa
25% dos
valores esto
abaixo da caixa Potencial Outlier
Anlise das no respostas
No caso da anlise das no respostas,
importa avaliar dois aspectos:

1. Se as no respostas esto aleatoriamente
distribudas pelas diversas variveis. Este
aspecto extremamente importante, porque
um pressuposto de quase todos os testes
multivariados.

2. Avaliar a reduo do nmero de casos vlidos
para anlise e, se esta for significativa,
ponderar a possvel estimao de algumas ou de
todas as no respostas.
98
Anlise das no respostas
com SPSS
O SPSS possu um pacote especfico para
se efectuar a anlise das no respostas.
Analyze Missing Value Analysis

Dentro do sub-menu Mising Value Analysis,
existem os seguintes grupos de opes:
Descriptives...
Patterns
Estimation...



Descriptives
Na janela Descriptives... as opes
existentes so:
Univariate Statistics...:
Permite ter uma ideia global no numero de respostas
vlidas, de no respostas, assim como de valores
extremos (potenciais outliers)

I ndicator Variable Statistics:
Por cada varivel criada uma varivel indicador, onde se
regista se cada ocorrncia uma resposta vlida ou uma
no resposta.
Para alm de cruzamentos do nmero de no respostas
nas diversas variveis, tambm possvel dividir os
resultados de uma varivel em dois grupos, consoante
seja uma resposta vlida ou no de uma segunda varivel,
e efectuar um teste de igualdade das mdias.
99
Patterns
Na janela Patterns... possvel seleccionar
uma srie de tabelas, de onde possvel
extrair a seguinte informao:

Onde que se localizam as no respostas

Identificao de padres de distribuio das no
respostas, isto , quais as variveis que tendem a
ter no respostas simultneas.

Onde que localizam os valores extremos
(potenciais outliers)
Validao de dados
No menu Data o SPSS possu
procedimentos que permitem efectuar a
validao dos dados, atravs da deteco
de valores e tendncias estranhas.

Data Validation Validate Data

Identify Duplicate Cases

Identify Unusual Cases

100
Exerccio
1. O ficheiro Exerccio Validao.sav,
contem informao sobre os 1084
trabalhadores de uma empresa.

Analise a base de dados com o objectivo de
detectar erros, outliers e no respostas.
Anlise de Dados Univariados e
Multivariados
Anlise de Dados
Multivariados Anlise
Exploratria
Multivarida


101
Introduo
A complexidade da realidade aliada ao desconhecimento
de quais as caractersticas mais relevantes para a anlise
em causa, levam a que se recolha uma grande quantidade
de dados, que muitas vezes excessiva.

A existncia de uma nmero excessivo de variveis torna o
processo de anlise muito complexo, o que prejudica a
obteno de resultados fiveis e com utilidade prtica.

A reduo da complexidade dos dados , portanto, uma
etapa crucial, que deve ser executada no incio de qualquer
anlise.
Introduo
O processo de reduo da complexidade dos
dados, usualmente designado por Anlise
Exploratria Multivariada e traduz-se na reduo
do nmero de variveis a utilizar na anlise. Desta
forma possvel reduzir a redundncia de
informao existente nos dados, que s prejudica
o processo de anlise.

As duas principais tcnicas de Anlise
Exploratria Multivariada, so:
Anlise de Componentes Principais (ACP)
Anlise Factorial Exploratria (AFE)
102
Introduo
Anlise de Componentes Principais (ACP)
Reduo do nmero de variveis a utilizar,
atravs da sua transformao em novas variveis,
resultantes da combinao lineares das variveis
originais e que se designam por componentes
principais.

Anlise Factorial Exploratria (AFE)
Identificao dos factores latentes que explicam
a intercorrelao das variveis originais.

A tcnica de ACP consiste em identificar as variveis que
esto correlacionadas entre si e agrup-las em
componentes principais.

As componentes principais, so variveis resultantes de
combinaes lineares de variveis correlacionadas, as quais
podero ser utilizadas em representao das variveis
originais.

Cada componente principal procura explicar ao mximo a
variabilidade das variveis que a constituem.
Anlise de Componentes
Principais
103
Anlise Factorial Exploratria
Com a Anlise Factorial Exploratria pretende-se
essencialmente analisar a relao de
interdependncia entre um conjunto de variveis
quantitativas de modo a:

Reduzir o nmero de variveis.
Examinar as relaes subjacentes ou latentes entre as
variveis

Os factores latentes que se obtm so uma
abstraco, no correspondendo a variveis
observveis, contudo, podem ser utilizados em
anlises subsquentes.

A aplicao da AFE divide-se em 6 etapas:

1. Excluso das variveis no relevantes

2. Verificao da adequabilidade da Anlise Factorial
Exploratria

3. Escolha do mtodo de extraco dos factores

4. Seleco do nmero de factores

5. Escolha do mtodo de rotao dos factores

6. Interpretao dos factores
Anlise Factorial Exploratria
104
Exemplo
O ficheiro Exemplo AFE.sav, contem alguns
indicadores demogrficos sobre 109 pases.

Pretende-se identificar e minorar potencial redundncia
existente na informao contida nesta base de dados.
Iniciar o AFE em SPSS
Para se iniciar o procedimento AFE em
SPSS, necessrio efectuar os
seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no submenu: Dimension Reduction


3. Seleccionar: Factor ...
105
Na janela Factor Analysis necessrio efectuar os
seguintes passos:

Seleccionar as variveis que se pretende analisar;

Na sub-janela Descriptives seleccionar as seguintes
opes:
+Initial Solution;
+Coefficients;
+Significance levels;
+KMO and Bartletts test of sphericity;
+Reproduced;
+Anti-image.

Opes a seleccionar no SPSS
Excluso das variveis no
relevantes
A estatstica de Kaiser-Meyer-Olkin (KMO) uma medida da
homogeneidade das variveis, indicando a proporo da
varincia das variveis que explicada pelos factores. O
valor de KMO deve ser superior a 0,5 para a varivel no ser
excluda.

No SPSS, a diagonal principal da matriz anti-image
correlation contm os valores de KMO para cada varivel.
Caso exista mais do que uma varivel com KMO < 0,5 exclui-
se a varivel com menor valor, repete-se o clculo e exclui-se
a varivel
com o valor de KMO mais baixo, e assim sucessivamente at
no
haver variveis com KMO < 0,5.
106
Excluso das variveis no
relevantes
NOTA: Para que a varivel seja relevante o seu valor de KMO tem que ser superior a 0,5.
Excluso das variveis no
relevantes
Da anlise dos valores de KMO das variveis
(diagonal da matriz anti-image correlation conlcu-
se o seguinte:

As variveis Populao em milhares, Casos de SIDA e
Nmero de casos de SIDA / 100000 pessoas, apresentam
valores de KMO inferiores a 0,5. Vamos comear por
retirar da anlise a varivel Populao em milhares, porque
apresenta o menor valor de KMO (0,341).

Todas as restantes variveis so relevantes para a anlise
factorial exploratria, uma vez que apresentam valores de
KMO superiores a 0,5.
107
Excluso das variveis no
relevantes
NOTA: Para que a varivel seja relevante o seu valor de KMO tem que ser superior a 0,5.
Verificao da aplicabilidade
da AFE
Excludas as variveis no relevantes, o recurso
Anlise Factorial s vlido se:

A estatstica de KMO aplicada totalidade das variveis
for superior a 0,5.
+Quanto mais prximo de 1 melhor.

For rejeitada a hiptese nula do teste de esferacidade de
Bartlett .
+A hiptese nula deste teste assume que as variveis esto muito pouco
intercorrelacionadas.

108
Aplicabilidade da AFE em
funo do KMO
Valor de KMO Aplicabilidade da AFE
> 0,9 Excelente
]0,8; 0,9] Boa
]0,7; 0,8] Mdia
]0,6; 0,7] Medocre
]0,5; 0,6] M mas ainda aceitvel
0,5 Inaceitvel
NOTA: Retirado da pgina 491 do livro M. H. Pestana e J. N. Gageiro, Anlise de Dados
para as Cincias Sociais - A complementaridade do SPSS, 4 edio, Edies
Slabo, Lda, 2005.

Verificao da aplicabilidade
da AFE
NOTA: Para que o a AFE seja aplicvel necessrio que o valor de KMO seja superior a 0,5 e que a
hiptese nula do teste de esfericidade de Bartletts seja rejeitada.

Neste caso verificam-se as condies de aplicabilidade da AFE
109
Escolha do mtodo de extraco dos factores

Os principais mtodos de extraco dos factores so:

Mtodo das componente principais
Aplica a metodologia descrita anteriormente.

Mtodo da factorizao do eixo principal
Assume que cada varivel constituda por uma parte comum
estrutura factorial e por uma parte especfica da varivel.

NOTA: Os resultados obtidos pelos dois mtodos so normalmente
semelhantes, contudo o mtodo das componentes principais o
mais utilizado.

Neste exemplo optou-se pelo mtodo das componentes principais.
Na janela Factor Analysis necessrio efectuar os
seguintes passos:

Na sub-janela Extraction seleccionar as seguintes opes:
+Todas as opes pr-definidas;
+Principal components;
+Scree Plot;

Opes a seleccionar no SPSS
110
Seleco do nmero de
factores
O objectivo explicar o mximo de varincia,
recorrendo ao menor nmero possvel de factores.

Uma boa estratgia consiste na conjugao dos
seguintes critrios:
Identificao do ponto de inflexo da curva resultante da
representao grfica dos eigenvalue em funo do
nmero de factores (Ponto de inflexo do Scree Plot ).

Escolher todos os factores cujo eigenvalue seja superior a
1 (Critrio de Kaiser).
Seleco do nmero de
factores
Mesmo com a conjugao dos dois critrios referidos
anteriormente no possvel ter garantias absolutas
relativamente ao nmero de factores a reter.
Com alguma frequncia torna-se necessrio experimentar
mais do que um valor para o nmero de factores a reter:
Se a varincia explicada for elevada e/ou surgirem
agrupamentos que no faam sentido no contexto em
causa, ento deve-se analisar a possibilidade de reduzir
o nmero de factores.
Se a varincia explicada for muito baixa ento deve-se
analisar a possibilidade de reduzir o nmero de
factores, desde que com eigenvalue superior a 1.
111
Anlise dos factores
Foram utilizados
apenas dois
factores
Anlise dos factores
Os dois primeiros factores conseguem explicar 70,6% da
variabilidade total.
A rotao dos factores no alterou significativamente a sua
capacidade explicativa individual.
Aceitam-se os dois factores seleccionados, no sendo
necessrio aumentar o seu nmero.
112
As comunalidades permitem avaliar a
capacidade dos factores de explicar a
variabilidade de cada uma das variveis.
Anlise dos factores
Todas as variveis
tm a sua
variabilidade bem
explicada pelos
factores
seleccionados
Anlise dos factores
Anlise dos pesos (loadings) das variveis antes da
rotao
A soma, em linha, dos
quadrados dos pesos das
componentes igual s
comunalidades.
(0,885)
2
+ (-0,032)
2
= 0,784 que
a comunalidade da
Pessoas que Lem (%).

A soma, em coluna, dos
quadrados dos pesos das
componentes igual ao
eigenvalue dos factores.
(0,811)
2
+ + (-0,236)
2
=
2,785
113
Escolha do mtodo de rotao dos
factores
O objectivo da rotao dos factores tentar que cada
varivel se associe apenas a um factor, ou seja, procuram
maximizar o peso de cada varivel num dos factores e
minimizar nos restantes.

O grau de associao de cada varivel com cada factor ser
tanto maior, quanto maior for o seu peso. Os valores so
apresentados no Output nas tabelas Component Matrix.

Os diferentes mtodos existentes consistem em
abordagens diferentes para atingir este objectivo geral.
Escolha do mtodo de rotao dos
factores
Os principais mtodos de rotao dos factores so:

Varimax
Minimiza o nmero de variveis com pesos (loadings) elevados em
cada factor. Este mtodo facilita a interpretao dos factores.

Quartimax
Minimiza o nmero de factores necessrios explicao de cada
varivel. Facilita a interpretao das variveis.

Equamax
Combinao do Varimax e do Quartimax.

Neste exemplo optou-se pelo mtodo Varimax.
114
Na janela Factor Analysis necessrio efectuar os
seguintes passos:

Na sub-janela Rotation seleccionar as seguintes opes:
+Varimax;
+Rotated solution;
+Loading plot.

Na sub-janela Scores seleccionar as seguintes opes:
+Save as variables;
+Anderson-Rubin;
+Display factor score coefficient matrix.

Opes a seleccionar no SPSS
Anlise dos factores
115
Interpretao dos factores
Analisando os dados da tabela anterior
temos:
Factor
Peso (loading)
Positivo Negativo
1
Pessoas que vivem em
cidades (%)
Pessoas que lem (%)
Produto interno bruto /
capita
Crescimento da
populao (% por ano)
2
Casos de SIDA
Nmero de casos de SIDA /
100000 pessoas
Interpretao dos factores
Factor 2
Factor 1
116
Representao grfica dos
scores dos factores
Concluses
Da anlise da composio dos factores e da representao grfica dos seus
scores, podemos concluir o seguinte:

A varivel Populao em Milhares no relevante para a anlise;

As 6 variveis relevantes podem ser agrupadas em 2 factores que so
capazes de explicar 70,6% da varincia destas;

O primeiro factor pode ser designado por Desenvolvimento Social.

O segundo factor pode ser designado por Incidncia de SIDA.

A diferentes regies em que foram divididos os pases demonstram ser
relativamente homogneas, com excepo de frica e da Amrica do
Sul.

117
Exerccio
1. O ficheiro Exerccio 01 AFE.sav, contem
informao sobre o desempenho escolar de 158
alunos de uma escola secundria.

Analise a existncia de interdependncia entre as notas
das vrias disciplinas de modo a poderem ser encontrados
os factores subjacentes que explicam aquelas notas.
Exerccio
2. O ficheiro Exerccio 02 AFE.sav, contem a
opinio de 230 consumidores sobre a importncia
que do a 7 caractersticas da cerveja.

Pretende-se identificar e minorar potencial redundncia
existente na informao contida nesta base de dados.

118
A aplicao da ACP a variveis categricas com o SPSS
efectuada utilizando o procedimento CATPAC (Categorical
Principal Components Analysis), o qual por sua vez se
socorre do modelo de quantificao de categorias optimal
scaling.

Apesar na natureza das variveis ser diferente, o objectivo
global continua a ser o agrupamento das variveis com
informao redundante, de forma a obtermos um nmero
mais reduzido de componentes principais que representem a
maior parte da informao contida nas variveis originais.
Anlise Categorizada de Componentes
Principais (CATPCA)
A aplicao da CATPCA divide-se em 4 etapas:

1. Escolha do nmero de dimenses a considerar

2. Excluso das variveis no relevantes

3. Identificao das variveis mais relevantes em cada
dimenso

4. Identificao das categorias que tm maior afinidade
entre si
Anlise Categorizada de Componentes
Principais (CATPCA)
119
Exemplo
O ficheiro Exemplo CATPCA.sav, contem dados
sobre os alunos de uma determinada escola.

Pretende-se saber se existe redundncia na informao
registada nas 6 variveis e caso exista, se possvel
agrup-las tendo em conta a sua afinidade.
Iniciar o CATPCA em SPSS
Para se iniciar o procedimento CATPCA em
SPSS, necessrio efectuar os seguintes
passos:

1. Entrar no menu: Analyze

2. Entrar no submenu: Data Reduction

3. Seleccionar: Optimal Scaling ...
120
Iniciar o CATPCA em SPSS
A janela Optimal Scaling ... d acesso a trs
procedimentos diferentes. Para executarmos o
CATPCA, necessrio escolher as seguintes
opes:

o Some variable(s) not multiple nominal

o One Set
Na janela Categorical Principal Components
necessrio efectuar os seguintes passos:

Seleccionar as variveis que se pretende analisar e definir
o seu tipo de escala e peso;

Indicar o nmero de dimenses a usar, ou seja, o nmero
de componentes principais a obter no final;

Na sub-janela Output seleccionar as seguintes opes:
+Todas as pr-definidas;
+Variance accounted for.
Opes a seleccionar no SPSS
121
Escolha do nmero de dimenses a
considerar
O nmero mximo de dimenses ser sempre igual
ao nmero de variveis em estudo.

A primeira vez que o procedimento CATPCA
executado dever ser seleccionado o nmero
mximo de dimenses.

No exemplo em questo o nmero mximo de
dimenses 6.

Aplicando o procedimento CATPCA para 6
dimenses, obtemos o seguinte output:
Model Summary
.735 2.581 43.023
.108 1.099 18.309
.057 1.050 17.503
-.250 .828 13.795
-2.018 .373 6.215
-16.110 .069 1.155
1.000
a
6.000 100.000
Dimension
1
2
3
4
5
6
Total
Cronbach's
Alpha
Total
(Eigenvalue) % of Variance
Variance Account ed For
Total Cronbach's Alpha is based on t he total Eigenvalue.
a.
Escolha do nmero de dimenses a
considerar
122
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0 1 2 3 4 5 6 7
Dimenses
E
i
g
e
n
v
a
l
u
e
Escolha do nmero de dimenses a
considerar
Aplicando o procedimento CATPCA para 6
dimenses, obtemos o seguinte output:
0
5
10
15
20
25
30
35
40
45
50
0 2 4 6 8
Dimenses
V
a
r
i

n
c
i
a

E
x
p
l
i
c
a
d
a
Escolha nmero de dimenses
adequado
Da anlise do output resultante da aplicao da CATPCA
com o mximo de dimenses possvel, retira-se a
informao necessria escolha do seu nmero adequado.

O nmero adequado de dimenses deve assegurar uma boa
explicao da variao dos dados e que no existem
eigenvalues inferiores a 1 ou Cronbachs Alpha negativos.

No caso deste exemplo o nmero de dimenses adequado
2.
123
Escolha nmero de dimenses
adequado
Depois de escolhido o nmero de dimenses
adequado necessrio correr novamente o
procedimento CATPCA.

Do output resultante da aplicao do CATPCA
utilizando o nmero adequado de dimenses
possvel extrair informao sobre a afinidade entre
as vrias variveis.
Varincia explicada
NOTA: A contribuio da de cada uma das variveis nas duas dimenses (vermelho) tem
que ser superior s respectivas % de varincia (verde).
Caso contrrio a varivel deve ser excluda da anlise (ex: varivel regio).
124
Excluso das variveis no
relevantes

A varivel regio deve ser excluda da anlise, uma
vez que, a sua contribuio em cada uma das
dimenses inferior respectiva % de varincia.

A varivel regio uma varivel no relevante.

necessrio correr novamente o procedimento
CATPCA, mas agora apenas com as 5 variveis
relevantes.
Varincia explicada
NOTA: A contribuio da de cada uma das variveis nas duas dimenses (vermelho) tem
que ser superior s respectivas % de varincia (verde).
Caso contrrio a varivel deve ser excluda da anlise (ex: varivel regio).
125
Component Loadings
NOTA: Em cada dimenso s se consideram relevantes as variveis que apresentarem
component loading superiores a 0,5 em valor absoluto.
A anlise dos component loadings permite confirmar as concluses obtidas a
partir da variance accounted for.

Concluses
Da anlise das varincias explicadas conclu-se o
seguinte:

Existe uma forte associao das variveis N de horas de
Estudo/semana, Estudo em Grupo e Nota final do curso com
a Dimenso 1;

Existe uma forte associao da varivel Estrato Social e
Sexo com a Dimenso 2;

A varivel Regio no est associada com nenhuma das
outras.

126
Component Loadings
Componente 1
Componente 2
Identificao das componentes
principais
Da anlise dos resultados obtm-se duas
componentes e duas variveis desagrupadas:
Componente Variveis
1
N de horas de Estudo/semana
Estudo em Grupo
Nota final do curso
2
Estrato Social
Sexo
127
Identificao das componentes
principais
Verifica-se uma redundncia de informao nas variveis:
N de horas de Estudo/semana, Estudo em Grupo e Nota
final do curso; Estrato Social e Sexo.

possvel resumir a informao contida nas 6 variveis
iniciais a apenas a 2 componentes e 1 varivel.

Componente 1
Componente 2
Regio
Anlise da afinidade entre
categorias
possvel refinar o estudo e tentar perceber como se
relacionam as categorias das variveis que pertencem
mesma componente.

Este refinamento conseguido atravs da anlise dos
resultados das quantificaes das categorias das variveis
relevantes em cada dimenso.

Ter que se analisar o sinal das coordenadas de cada uma
das categorias em cada uma das dimenses.
128
Na janela Categorical Principal Components
necessrio efectuar os seguintes passos:

Na sub-janela Output seleccionar todas as variveis em
anlise para o Category Quantification.

Na sub-janela Category seleccionar todas as variveis em
anlise para o Joint Category Plots.

Opes a seleccionar no SPSS
Dimenso 1
Quantificao das categorias da varivel
N de horas de estudo/semana.
129
Dimenso 1
Quantificao das categorias da varivel
Estudo em grupo.
Quantificao das categorias da varivel
Nota final do curso.
Dimenso 1
130
Quantificao das categorias da varivel
Estrato Social.
Dimenso 2
Quantificao das categorias da varivel
Sexo.
Dimenso 2
131
Agrupamento das categorias
As categorias devem assim ser agrupadas tendo
em conta o sinal do seu valor de vector coordinate.
Dimenso
Coordenada
Positiva Negativa
1
> 30
s vezes
Bastante
Bom
Muito Bom
20 a 30 (+ fraco)
< 10
10 a 20
Nunca
Suficiente
2
Alto
Mulher
Baixo
Mdio
Homem
Afinidade entre categorias
132
Concluses finais
A varivel Regio no est associada com nenhuma das
outras.

Existe uma forte associao das variveis N de horas de
Estudo/semana, Estudo em Grupo e Nota final do curso.
+Os alunos que estudam mais tempo, tendem a estudar em grupo e a ter
melhores notas.
+Os alunos que estudam menos tempo, tendem a estudar pouco em grupo e
a ter piores notas.

Existe uma forte associao da varivel Estrato Social e
Sexo.
+Os alunos do sexo masculino tendem a pertencer a um estrato social
mdio ou baixo.

Exerccio
3. O ficheiro Exerccio CATPCA.sav contem
informao sobre clientes de uma determinada
cadeia de lojas.

a) Existe redundncia de informao na base de dados?

b) Quais as variveis que tm informao redundante?

c) Como que se relacionam as variveis que apresentam
informao redundante?
133
Anlise de Dados Univariados e
Multivariados
Anlise de Dados
Multivariados Anlise
de Regresso


Uma das formas de se tentar prever o resultado
de uma determinada varivel, atravs da sua
relao com o resultado de outras variveis.

A varivel cujo resultado se pretende prever
designada por varivel dependente, sendo as
restantes variveis designadas por variveis
independentes.
Introduo
134
Para que seja possvel efectuar a estimao do
resultado da varivel dependente, necessrio
estabelecer um modelo matemtico que
quantifique a dependncia ou influncia de cada
uma das variveis independentes no resultado da
varivel dependente.

O modelo ter assim que ser capaz de explicar a
variabilidade da varivel dependente.
Introduo
A natureza das variveis envolvidas e o seu tipo de
relao so determinantes para a natureza e
forma de obteno do modelo matemtico.

Abordaremos os seguintes modelos de regresso:
Regresso linear (Todas as variveis so quantitativas)

Regresso logstica (VD Qualitativa,
VI Preferencialmente Quantitativa)

Anlise Discriminante (VD Qualitativa,
VI Preferencialmente Quantitativa)

Regresso Categrica (VD Qualitativa ou Quantitativa,
VI Preferencialmente Qualitativa)

Introduo
135
Regresso linear
A regresso linear um modelo estatstico usado para
relacionar, quantitativamente, o comportamento de uma
varivel dependente quantitativa com uma ou mais variveis
independentes quantitativas .

A regresso permite estimar os parmetros envolvidos na
relao.

No caso da regresso linear assume-se que a relao entre
as duas variveis em causa linear, mas outro tipo de
relaes podem ser assumidas.
Regresso linear
Assumindo que se pretende estimar Y, a partir das variveis
X
1
, X
2
, ., X
n
, temos:



Em que: i = 1,2, ..., n
Y - varivel dependente
X
n
- variveis independentes
e parmetros populacionais (constante e
coeficientes)

i
- erro da previso do valor de Y
i
(resduo)


1 1, 2 2, ,
... = + + + + +
i i i n n i i
Y X X X o | | | c
136
Avaliao da Qualidade
Uma regresso, consiste num modelo estatstico
que a partir do valor um conjunto de valores (X
1
,
, X
n
), fornece uma estimativa para o valor de Y.

A qualidade do modelo ajustado estar assim
intrinsecamente ligada ao erro de estimao de Y,
o qual depende da semelhana entre a verdadeira
relao entre as variveis independentes (X
n
) e a
varivel dependente (Y ) e a relao expressa pelo
modelo escolhido.
Avaliao da Qualidade
No caso da regresso linear, o modelo escolhido
uma recta, que traduz uma relao linear. A
qualidade do ajuste depender assim, da
linearidade da relao entre X
1
, , X
n
e Y.

O que est aqui em causa a qualidade da
estimativa de Y, quanto menor for a diferena
entre o valor estimado ( ) e o valor real de Y
(anteriormente designado por
i
).

Y
137
Coeficiente de Determinao
O critrio normalmente utilizado para aferir a
qualidade do ajuste de um determinado modelo, o
coeficiente de determinao (R
2
).

O coeficiente de determinao traduz a fraco
da variao total de Y, que explicada pelo modelo
escolhido (neste caso a recta).

Quanto maior for o R
2
, melhor ser a qualidade da
regresso.
Coeficiente de Determinao
A partir do valor do coeficiente de determinao,
possvel concluir o seguinte:
2
0 R =
2
0 1 R < <
2
1 R =
Pssimo ajuste
a variao de X no contribui em nada para
explicar a variao de Y, pssimo ajuste.

Ajuste intermdio
apenas uma fraco da variao total de Y,
explicada pelo modelo escolhido.

Ajuste Perfeito
a variao total de Y explicada totalmente
pela variao de X.
138
Coeficiente de Determinao
importante ter conscincia que um valor de zero
do coeficiente de determinao (R
2
), implica,
normalmente, um pssimo ajuste, contudo pode
tambm significar o seguinte:

O valor da varivel Y constante com o valor de X

As variveis X e Y tm uma relao de um tipo diferente
ao que se est a testar.

Coeficiente de Determinao
Ajustado
O coeficiente de determinao (R
2
), tende a ser
influenciado pela dimenso da amostra e pela
disperso existente nos dados, tornando-se uma
medida optimista da qualidade do ajuste
efectuado.

Como alternativa possvel utilizar o coeficiente
de determinao ajustado, onde o efeito destas
influncias descontado. As sua utilizao torna-
se crucial para avaliar modelos de regresso
mltipla (com mais do que uma varivel
independente).
139
Coeficientes de correlao
parcial
Na Regresso Linear Mltipla alm do Coeficiente de
Correlao, existem ainda o Coeficiente de Correlao
Parcial e o Coeficiente de Correlao Part:
Coeficiente de Correlao Parcial indica a intensidade da
relao entre uma varivel dependente e uma varivel
independente quando os efeitos das restantes variveis
independentes no modelo so mantidos constantes.

Coeficiente de Correlao Part indica a intensidade da
relao entre uma varivel dependente e uma varivel
independente quando os efeitos das restantes variveis do
modelo so eliminados.

A construo de um modelo de Regresso Linear
Mltipla (RLM) divide-se em 5 etapas:

1. Anlise inicial dos Dados

2. Escolha do mtodo de seleco das variveis independentes
a utilizar no modelo

3. Anlise do modelo

4. Validao dos pressupostos do modelo de regresso linear
mltipla

5. Utilizao do modelo para previso
Regresso Linear Mltipla
140
Exemplo
O ficheiro Exemplo RLM.sav, contem informao
sobre caractersticas e hbitos de um conjunto
de 158 pessoas representativas dos habitantes
de Cidadel.

Pretende-se saber se possvel prever a tenso arterial
de um habitante de Cidadel, com as seguintes
caractersticas/hbitos:

47 anos;
179 cm;
70 Kg
Pratica 5h de exerccio por semana
Fuma 145 cigarros por semana
Bebe 5 cervejas por semana
Anlise inicial dos Dados
Qualquer anlise de regresso deve ser precedida, de duas
etapas fundamentais:
Uma etapa de validao dos dados (outliers e no-
respostas)
Uma etapa de eliminao das redundncias de informao

Assumindo que estas duas etapas foram cumpridas, est-se
perante uma base de dados devidamente validada e composta
apenas pelas variveis essenciais. Assim, resta apenas
representar os grficos de disperso da varivel dependente
com cada uma das variveis independentes. Estes grficos
permitem ter uma primeira ideia das relaes em causa e
simultaneamente fazer uma nova verificao dos outliers.
141
Anlise inicial dos Dados
No se observam potenciais outliers
A recta parece ser o melhor tipo de ajustamento
Anlise inicial dos Dados
No se observam potenciais outliers
A recta parece ser o melhor tipo de ajustamento
142
Anlise inicial dos Dados
No se observam potenciais outliers
A recta parece ser o melhor tipo de ajustamento
Escolha do mtodo de seleco das variveis
independentes
Existem vrios mtodos de seleco das variveis
independentes a utilizar no modelo, que, a partir de
diferentes abordagens procuram chegar ao modelo
que melhor explique a variabilidade da varivel
dependente.

Todos os mtodos de seleco so falveis, sendo
recomendvel fazer-se, sempre que possvel, uma
de duas coisas:
Utilizar mais do que um mtodo de seleco
Testar o modelo com um conjunto de dados distinto do que
foi usado para efectuar o ajuste.


143
Escolha do mtodo de seleco das
variveis independentes
O SPSS apresenta 5 mtodo distintos de seleco das variveis
independentes:
ENTER - consiste em introduzir no modelo todas as variveis
seleccionadas

REMOVE - consiste em retirar do modelo todas as variveis
seleccionadas.

FORWARD comea-se por introduzir apenas a constante e depois as
variveis independentes so introduzidas por ordem decrescente do seu
poder explicativo, sendo estabelecido um patamar mnimo. O poder
explicativo avaliado atravs do valor parcial da estatstica F do teste
ANOVA, que calculada descontando o efeito das variveis que j esto
includas no modelo. O processo pra quando j no sobram mais variveis
ou quando as variveis que no esto no modelo tiverem valores parciais
de F abaixo do patamar mnimo.


Escolha do mtodo de seleco das
variveis independentes


BACKWARD corresponde ao processo inverso do mtodo FORWARD. Comea-se
por introduzir todas as variveis independentes no modelo, depois so
determinados, para cada varivel, os valores parciais da estatstica F da ANOVA,
calculados como se esta fosse a ltima a entrar no modelo. O menor valor de F
comparado com o patamar mnimo estabelecido e se for inferior a varivel
retirada do modelo. Cada vez que uma varivel retirada do modelo, so
recalculados todos os valores parciais de F. O processo pra quando j no
existirem mais variveis no modelo ou quando as variveis que esto no modelo
valores parciais de F acima do patamar mnimo.


144
Escolha do mtodo de seleco das
variveis independentes


STEPWISE a uma combinao dos mtodos FORWARD e BACKWARD.
As variveis independentes so introduzidas no modelo segundo o critrio do
mtodo FORWARD, mas depois de introduzidas todas as variveis do modelo so
testadas segundo o critrio do mtodo BACKWARD. A combinao dos dois
mtodo permite introduzir as variveis com maior poder explicativo, mas tambm
remover as variveis que pela adio de outras tenham perdido o seu poder
explicativo. Em situaes em que exista uma significativa correlao entre
algumas das variveis independentes, este mtodo d mais garantia de que no
final s esto no modelo as variveis com real poder explicativo. O processo pra
quando todas as variveis do modelo tiverem um F superior ao mnimo de sada e
todas as variveis que no esto no modelo tiverem um F inferior ao mnimo de
entrada.


Anlise do modelo
Anlise da qualidade do ajuste
Interpretao do valor do coeficiente de determinao ajustado.
Quanto mais prximo de 1 melhor a qualidade do ajuste.

Validao global do modelo atravs da ANOVA.
H
0
assume que todos os parmetros do modelo so iguais a 0 na
populao.
O modelo vlido se H
0
for rejeitado.

Validao dos parmetros do modelo atravs do teste t.
H
0
assume que o parmetro em causa igual a 0 na populao.
S tero significado os parmetros cujo H
0
seja rejeitado.
145
Iniciar a RLM em SPSS
Para se iniciar o procedimento RLM em SPSS,
necessrio efectuar os seguintes passos:

1. Entrar no menu: Analyze

2. Entrar no submenu: Regression

3. Seleccionar: Linear ...
Na janela Linear Regression necessrio efectuar
os seguintes passos:

Seleccionar a varivel dependente;

Seleccionar as variveis independentes que se pretende
considerar;

Seleccionar o mtodo de seleco da variveis para o
modelo.
+O mtodo Stepwise o mais verstil e foi o escolhido para este exemplo.
Opes a seleccionar no SPSS
146
Na sub-janela Satistics necessrio seleccionar as
seguintes opes:

Estimates;
Confidence intervals;
Model fit;
R squared change;
Part and parcial correlations;
Collinerity diagnostics
Durbin-Watson
Casewise diagnostics
Opes a seleccionar no SPSS
Na sub-janela Plots necessrio seleccionar as
seguintes opes:

Y: *ZRESID;
X: *ZPRED.

Na sub-janela Save necessrio seleccionar as
seguintes opes:

Predicted values: Unstandardized e Standardized;
Residuals: Standardized e Studentized
Prediction intervals: Mean, Individual e 95%.
Opes a seleccionar no SPSS
147
Anlise do modelo
Como o mtodo de seleco das
variveis foi o STEPWISE, so
apresentados os diferentes
modelos testados.

O ltimo modelo apresentado
(neste caso o quarto)
corresponde sempre ao melhor
ajuste, mas no
obrigatoriamente o melhor
modelo, porque pode no
respeitar algum dos
pressupostos da RLM.
Anlise do modelo
Todos os modelos apresentam valores elevados de
R
2
ajustado, indicando um excelente ajuste.

Como seria de esperar o modelo 4 corresponde ao
melhor ajuste, porque apresenta o maior valor R
2

ajustado (0,959).

148
Anlise do modelo
Todos os modelos
apresentam pelo
menos um
parmetro com
valor diferente de
0, logo tm
significado na
populao.
Anlise do modelo
Todos os
parmetros, em
todos os modelos,
apresentam um
valor diferente de
0 , logo todos tm
significado na
populao.
149
Anlise do modelo
Validao dos pressupostos do modelo
RLM
Inexistncia de multicolinearidade
VIF (Variance Inflation Factor). O valor deve ser inferior a 10.
Condition Index. O valor dever ser inferior a 30.
Variance proportion.

Normalidade dos resduos
Testes de Kolmogorov-Smirnov e de Shapiro-Wilk

Homocedasticidade dos resduos
Verificao grfica se a variao dos resduos no est relacionada
com os valores estimados da varivel dependente

Inexistncia de autocorrelao dos resduos
Teste de Durbin-Watson. O valor dever ser prximo de 2. Consultar
tabela.
150
Multicolinearidade
Para que exista multicolinearidade preocupante
necessrio que ocorra uma de duas coisas:

Existir pelo menos uma varivel com valor de VIF superior a
10.

Existir pelo menos uma dimenso que, simultaneamente,
apresente um valor de Condition Index superior a 30 e tenha
um Variance proportion superior a 90% em pelo menos duas
variveis.

Multicolinearidade
Todos os valores de VIF so claramente inferiores a 10, por isso
pode-se aceitar a inexistncia de multicolinearidade.
151
Multicolinearidade
Confirma-se a inexistncia de multicolinearidade.
Normalidade dos resduos
A normalidade dos resduos verificada
atravs da realizao de um teste de
normalidade aos resduos padronizados
(ZRE_1).






Os resduos tm claramente uma
distribuio normal.
152
Homocedasticidade dos resduos
A avaliao a homogeneidade da varincia das
variveis residuais, efectuada atravs da
anlise do grfico de disperso dos resduos
estudantizados (SRE_1) em funo dos valores
previstos padronizados (ZPR_1).
Os resduos mantm uma amplitude
aproximadamente constante em
torno do eixo 0, ou seja, no
mostram tendncias crescentes ou
decrescentes.

Aceita-se a existncia de
homocedasticidade.
Inexistncia de autocorrelao dos
resduos
A independncia das variveis residuais avaliada atravs do
teste de Durbin-Watson. O teste assume como H
0
a
inexistncia de autocorrelao dos resduos.

Para se interpretar o resultado do teste necessrio
recorrer s tabelas de valores crticos.

Os valores crticos dependem de trs factores: da dimenso
da amostra; do nvel de significncia e do nmero de
variveis independentes do modelo.
153
Interpretao do teste de
Durbin-Watson
0 d
L
d
U
4 d
U
4 d
L
4 2
Existe
Autocorrelao
positiva
Existe
Autocorrelao
positiva
No Existe
Autocorrelao
Sempre que a estatstica do teste
de Durbin-Watson se situa nas
zonas intermdias, o teste no
conclusivo.
Inexistncia de autocorrelao dos
resduos
No caso do exemplo em anlise a amostra tem dimenso 158
e o modelo tem 4 variveis independentes.

Assumindo uma significncia de 5% e consultando as
tabelas de valores crticos, obtem-se:
d
L
= 1,571
d
U
= 1,679

Na tabela Model Summary do output do SPSS, verifica-se
que a estatstica do teste de Durbin-Watson toma o valor
2,059.
154
Interpretao do teste de Durbin-Watson
para o exemplo em anlise
0
1,571

1,679

2,321

2,429
4 2
Existe
Autocorrelao
positiva
Existe
Autocorrelao
positiva
No Existe
Autocorrelao
2,059
Os resduos no esto autocorrelacionados
Utilizao do modelo para
previso
Quando se obtm um modelo de regresso
devidamente validado e com boa capacidade de
explicao, est-se em condies de efectuar
previses com um elevado nvel de confiana.

No exemplo em anlise pretendia-se prever a
tenso arterial de um habitante de Cidadel com 47
anos, 179 cm, 70 Kg, que pratica 5h de exerccio
por semana, que fuma 145 cigarros por semana e
que bebe 5 cervejas por semana.

155
Utilizao do modelo para
previso
Para se efectuar a previso da tenso arterial
necessrio introduzir os dados conhecidos na base
de dados, criando uma nova linha (neste caso a
linha 159)
Utilizao do modelo para
previso
Se os dados tiverem sido introduzidos logo no inicio, basta
ir ler o resultado s variveis PRE_1, LICI_1 e UICI_1.

Caso contrrio ter que se correr o procedimento
novamente e ler os resultados PRE_2, LICI_2 e UICI_2.

Para o exemplo em anlise obtm-se os seguinte valores:
PRE_1 = 145
LICI_1 = 130
UICI_1 = 160
156
Concluses
A tenso arterial de um habitante de Cidadel
explicada em 95,9% pela sua idade, altura, peso,
n de horas que pratica exerccio por semana e o
n de cigarros que fuma por semana.

O n de cervejas que bebe por semana no
relevante para explicar a sua tenso arterial.
70,291 0,402 _ 1,02
0,319 0,101
Tenso N Cigarros Exerccio
Idade Peso
= +
+ +
Concluses
Quando o Preo aumenta as Vendas tendem a diminuir.
Quando as outras 2 variveis aumentam, as vendas tendem
a aumentar.

O peso de cada um dos factores na variao da tenso
arterial est expresso nos coeficientes do modelo (ex: 1
hora de exerccio consegue anular o efeito de 2,5 cigarros).
70,291 0,402 _ 1,02
0,319 0,101
Tenso N Cigarros Exerccio
Idade Peso
= +
+ +
157
Concluses
Um habitante com 47 anos, 179 cm, 70 Kg, que pratique 5h
de exerccio por semana e que fume 145 cigarros por
semana, ser expectvel que tenha uma tenso arterial
entre 130 e 160, ou seja 145 15.

Os habitantes com estas caractersticas tero um tenso
arterial mdia entre 146,9 e 143,5, ou seja 145 1,7.

70,291 0,402 _ 1,02
0,319 0,101
Tenso N Cigarros Exerccio
Idade Peso
= +
+ +
Exerccio
1. O ficheiro Exerccio RLM.sav contem informao
sobre as notas de 158 alunos de uma escola
secundria em 7 disciplinas.

a) Existe redundncia de informao na base de dados?

b) Pretende-se saber se possvel prever a nota de Geometria
que um determinado aluno desta escola secundria ter,
sabendo que teve as seguintes notas noutras disciplinas:
Nota de Ingls = 12
Nota de Aritmtica = 10,3
Nota de Histria = 16,3
Nota de lgebra = 9,5
Nota de Portugus = 16