Вы находитесь на странице: 1из 285

NÍVEIS DE MENSURAÇÃO

Discreto e Contínuo: são os dois níveis básicos de mensuração de


variáveis em pesquisa quantitativa.
Variáveis Discretas: classificam pessoas, objetos ou eventos segundo
o tipo ou qualidade de seus atributos.
Dicotômica: o tipo mais simples de variável discreta define o objeto
apenas através da identificação da presença ou ausência de um
atributo.
ü  Morto/Não Morto
ü  Masculino/Feminino
ü  Branco/Não Branco
Multicategórica: é o tipo de variável discreta em que a classificação
ocorre em mais de duas categorias.
ü  País de origem
ü  Ocupação
ü  Etnia
ü  Religião
Variáveis Discretas Ordenadas: quando os valores ou categorias
podem ser dispostas em um ranking do menor para o maior ou vice-
versa.
ü  Avaliação de governo (ótimo/bom/regular/ruim)
ü  Satisfação com a vida (muito satisfeito/pouco/nada)
Variáveis Discretas Não Ordenadas: quando as categorias não
podem ser ordenadas.
ü  Etnia
ü  Religião
ü  Sexo
ü  Nação de origem
Variáveis Contínuas: são aquelas que classificam pessoas, objetos
ou eventos de acordo com a magnitude ou quantidade de seus
atributos.
Números fracionados: a principal diferença entre as variáveis
discretas e contínuas é que as últimas podem ter seus valores
fracionados numericamente.
Comuns nas Ciências Naturais: peso, altura, tempo, velocidade, etc.
Menos comuns nas Ciências Sociais: tais variáveis são menos
comuns entre nós, porém são igualmente desejáveis, pois
possuem uma precisão maior.
Abordagem clássica dos níveis de mensuração: outras abordagens
estatísticas e das ciências sociais adotam uma abordagem mais
clássica que divide os níveis de mensuração em
ü  Nominal: categorias não ordenadas
ü  Ordinal: categorias ordenadas
ü  Intervalar: quantidades ordenadas, sem fracionamento e zero
verdadeiro
ü  Escalas de Razão: quantidades fracionadas com zero verdadeiro
Pouca relevância prática: a abordagem que seguimos aqui entende
que essa divisão possui pouca relevância prática na escolha das
técnicas estatísticas.
Discretas e Contínuas: portanto, adotaremos aqui apenas a distinção
entre variáveis discretas e contínuas, com suas subdivisões internas.
ANÁLISE DESCRITIVA
A BASE DE DADOS
Transposição: uma base de dados é construída pela
transposição das informações obtidas com cada
questionário (ou outro instrumento) para uma plataforma.
Etapas Integradas: a estrutura da base de dados deve ser
pensada em conjunto com as questões teóricas e a etapa
de construção do instrumento.
Softwares: existem no mercado uma série de softwares úteis
para a criação, manipulação e análise de dados
quantitativos
Stata, Sphinx, SAS, R, SPSS, PSPP ...
CRIANDO UMA BASE DE DADOS NO SPSS
Abrindo o SPSS: clique no Menu Iniciar – Todos os Programas –
SPSS Inc – PASW Statistics 18 – PASW Statistics 18
MODOS DE INTERFACE
4 Modos: o SPSS oferece 4 formas de interface com o usuário
Visualização dos Dados: a primeira delas possibilita a visualização
da coleção dos dados.
Ø  Clicando em Data View a planilha exibe nas linhas os casos e
nas colunas as variáveis.
Ø  Visualização das Variáveis: clicando em Variable View a planilha
passa a exibir nas linhas as variáveis e nas colunas os seus
atributos que devem ser definidos.
Output: todos os comandos executados, as tabelas, gráficos e testes
solicitados são exibidos em outra janela.
Sintaxe: todas as solicitações podem ser realizadas por meio da
construção de linhas de comando na janela de sintaxes.
DEFININDO VARIÁVEIS
Variable View: clique em Variable View para começar a definir as
variáveis que irão compor seu banco de dados.
Campos:
Name: é o nome da sua variável (sem espaços, - ou outros
caracteres especiais) Sugestões: p1, v1, x1, q1, Id, Sex.
Type: é o tipo da variável. Ao clicar na célula para definir o
tipo é aberta a janela de diálogo com as opções
Numeric: variáveis numéricas.
Comma: os valores são separados por vírgulas (comma) a cada três
casas decimais.
Dot: semelhante ao Comma, porém com o ponto funcionando como
limitador decimal.
Scientific notation: variáveis numéricas que aceitam termos como E
e exponencial de 10.
Data: variáveis em diferentes formatos de tempo.
Dollar: variáveis com formatos monetários.
Custom currency: variáveis com formatos definidos pelo
pesquisador.
String: variáveis que não são numéricas.
Width: campo onde definimos a amplitude da variável
Na variável sexo a amplitude é de 1 dígito, em renda pode ser de
8.
Decimals: inserimos quantas casas decimais a variável possui.
Label: o rótulo da nossa variável, ou seja, uma descrição mais
extensa do que o nome. A variável p1 pode ter como Label
“Identificação” ou “Hora de Início da Entrevista”.
Values: clicando na célula Value e em seguida no box azul com ...
encontramos a caixa de diálogo para nela definirmos quais são
os valores possíveis para nossa variável.
Sexo: possui os valores
0=masculino
1=feminino
Missing: campo no qual a qualquer momento podemos definir
valores que não serão considerados em nossas análises.
Columns: onde estabelecemos qual será a largura da coluna da
variável no editor de dados.
Align: determina apenas o alinhamento do valor na célula
(esquerda, centro, direita).
Measure: campo em que determinamos qual o nível de mensuração
da variável com as opções Nominal, Ordinal e Escalar.

Denominação Denominação no SPSS


Discretas
Dicotômica sem ordenação Nominal
Dicotômica com ordenação Ordinal
Multicategórica sem ordenação Nominal
Multicategórica com ordenação Ordinal
Contínuas Escalar
Rule: campo de definição de regras para análise posterior com as
opções
Input: indica que a variável será usada como independente.
Target: indica que a variável será usada como dependente.
Both: indica que a variável será usada como independente e
dependente.
None: opção quando não são definidas regras.
Partition: indica que a variável será utilizada para dividir a base
de dados em amostras separadas.
Split: indica que a variável será utilizada para produzir outras
bases com o emprego de um modulo adicional do SPSS
(Modeler).
DICIONÁRIO OU LIVRO DE CÓDIGOS
Alimentação da base: uma vez definidos os níveis de mensuração
das variáveis é possível alimentarmos a base de dados criada.
Sumário das decisões: as decisões tomadas no processo de
codificação podem ser sumarizadas com o uso do SPSS.
Livro de Códigos: chamamos esse sumário ou guia de Livro de
Códigos.
Procedimento: File – Display Data File Information – Working File
Janela de Output: o livro aparece na janela de Output aberta pelo
programa.
ESTATÍSTICA DESCRITIVA
Descrição de Dados: procedimentos para sintetizar informações das variáveis
com o uso do SPSS
Tabelas de frequências, gráficos, medidas de tendência central e variabilidade.
Níveis de Mensuração: devemos ter clara percepção sobre os níveis de
mensuração de nossas variáveis
Ø  Discretas ou Contínuas?
Ø  Dicotômicas sem ordenação ou ordenadas?
Ø  Multicategóricas sem ordenação ou ordenadas?
Base 1: para todos os exercícios dessa seção iremos usar a “MQ UFSC 2011 1”.
Procedimento: File – Open – Data – MQ UFSC 2011 1
TABELAS DE DISTRIBUIÇÃO DE FREQUÊNCIAS
Aplicação para todos os níveis: a tabela de frequência é a primeira
ferramenta de descrição dos dados de variáveis com diferentes
níveis de mensuração.
Particularidade das variáveis discretas: ainda assim é preciso ter
em mente que no caso das discretas que não comportam
ordenação a disposição das categorias é arbitrária.
Procedimento: Analyze – Descriptive Statistics – Freqüências –
Estado Civil - OK
Output: todas as solicitações serão executadas na janela de Output.
Sintaxe: antes da tabela aparece uma linha de comandos (sintaxe)
da solicitação.
Tabela 1: N válido e Missing.
Tabela 2: a frequência de distribuição dos casos entre as categorias.
Atenção: cuidado na utilização do percentual cumulativo para
variáveis sem ordenação.
Tabela com Variáveis Discretas com Ordenação: o procedimento é o
mesmo, com a vantagem da utilização do percentual cumulativo.
Procedimento: Analyze – Descriptive Statistics – Frequências –
Educação – OK
Percentual Cumulativo: a tabela tem os mesmos elementos da
anterior, mas agora faz sentido utilizar a coluna dos percentuais
acumulados.
Edição: para editar qualquer tabela ou gráfico, basta clicar duas
vezes sobre o output.
GRÁFICO DE BARRAS
Variáveis nominais: quando trabalhamos com discretas não
ordenadas (nominais) não podemos utilizar gráficos que
conectam categorias adjacentes.
Falta de ordenação: isso porque as categorias não são ordenadas
ou dispostas em uma escala.
Barras: a melhor forma de descrição gráfica dessas variáveis é por
meio de colunas.
Procedimento: Graphs – Legacy Dialogs – Bar –Simple – Sumaries
for Groups of Cases – Define
Category Axis: Estado Civil.
Representação das Barras: acima da caixa você pode escolher o que as
barras representarão.
Title: clicando em Titles é possível já inserir título para o Gráfico.
Várias Linhas: esse título pode inclusive conter várias linhas,
subtítulos e notas de rodapé.
Edição de Gráfico: o SPSS oferece uma série de ferramentas de
edição de gráficos e tabelas. Para acessá-las basta um duplo
clique sobre o gráfico.
HISTOGRAMA
Barras sem intervalos: se diferencia de um gráfico de barras devido a falta
de espaço entre as barras, o que indica que os valores da variável são
teoricamente contínuos.
Utilização em variáveis discretas: entretanto, podem ser também utilizados
em medidas discretas, desde que ordenadas.
Procedimento: Graphs – Legacy Dialogs – Histogram – Idade para o campo
Variable.
Forma da Distribuição: o histograma fornece informação gráfica sobre a
forma da distribuição.
Simetria: observando o gráfico podemos identificar se ocorre simetria na
distribuição dos casos entre as duas metades da variável.
POLÍGONOS
Ordenação: umpolígono liga os pontos entre as categorias ou valores, sendo
mais aplicado para variáveis contínuas, entretanto, pode também ser
empregado para descrever medidas com alguma ordenação.
Procedimento: Graphs – Legacy Dialogs – Line – Simple – Sumaries Groups
of Cases – Define.
Índice de Interesse por Política para a caixa Category Axis
Titles: podemos ainda adicionar os títulos.
OK.
BOX E WHISKERS PLOT
Ordenação: serve para os dois níveis de mensuração, pois exige ao
menos um nível mínimo de ordenação.
Distinção da normalidade: é uma representação gráfica da
distribuição dos valores muito útil para distinguir variáveis com
distribuição normal.
Procedimento: Analyze – Descriptive Statistics – Explore – Simple –
Sumaries Guoups of Cases – Define.
Adicione Índice de Interesse por Política para Dependent List.
Statistics: clicando nessa caixa é possível solicitar medidas descritivas,
outliers, percentis e outras afirmações. Vamos marcar por enquanto
apenas outliers.
Plots: clicando em nessa caixa conseguimos definir que tipo de gráficos
queremos. Marquem apenas Boxplots Factor levels together.
Gráficos e Estatísticas: voltando a janela inicial é possível definir se serão rodadas
apenas gráficos ou estatísticas também. Marquem apenas Plots e cliquem em
OK.
Elementos do gráfico:
Ø  Caixa: o box representa 50% dos casos
Ø  Linha: a linha no centro do box representa a mediana
Ø  “Bigodes”: os whiskers representam os limites determinados pelos
valores maiores e menores.
Ø  Outliers: caso houvesse algum outlier ele estaria representado por um
círculo acima ou abaixo dos bigodes.
MEDIDAS DE TENDÊNCIA CENTRAL
Aplicações: as medidas de tendência central mais utilizadas são média,
mediana e moda, todas aplicáveis à variáveis contínuas.
Ordinais: para variáveis apenas ordinais a média não é recomendada.
Discretas sem ordenação: apenas a moda é viável.
Média: é a melhor medida de tendência quando a distribuição de frequência
se aproxima da simetria, sendo obtida pela soma de todos os valores e
divisão do resultado pelo número de valores.
Mediana: é o valor que ocupa o centro da escala de valores. É a melhor
medida de tendência para variáveis ordinais ou com distribuição oblíqua e
inclinada.
Moda: o valor com maior número de ocorrências em uma variável. Útil em
variáveis nominais.
Procedimento: podemos obter essas e outras medidas de tendência
central com
Análise – Descriptive Statistics – Freqüências – Idade para a
caixa Variable
Statistics: em seguida em Statistics para selecionar as opções.
Central Tendency: Reunidas nessa caixa estão todas as medidas
estudadas. Marque Mean, Median e Mode.
Continue – OK.
Tabela 2: não nos interessa agora, pois apresenta a frequência de idade.
Tabela 1: mostra as medidas de tendência central.
MEDIDAS DE VARIABILIDADE
Dispersão: medidas de variabilidade nos falam sobre a dispersão dos dados
de uma variável.
Desvio-padrão: medida usada para variáveis normais, mas também pode
ser aplicada para variáveis ordinais em alguns casos.
Definição: é baseado na distância de cada valor em relação à média. Essa
distância é elevada ao quadrado e somada, sendo o resultado dividido
pelo número de valores menos 1. Finalmente, é calculada a raiz
quadrada do resultado dessa divisão.
Procedimento: Análise – Descriptive Statistics – Descriptive – Idade para a
caixa Variables
Options : clicando em options vamos definir quais são as medidas
desejadas. Deixe marcada apenas a caixa de Std. Deviation
Continue – OK.
RESUMO
Discreta Discreta Contínua
sem com
ordenação ordenação
Distribuição de Freqüência Sim Sim OK

Gráfico de barras Sim Sim OK

Histograma Não Não Sim

Polígono de Freqüência Não Não Sim

Box e Whiskers Plot Não Não Sim

Média Não OK Sim

Mediana Não OK Sim

Moda Sim Sim OK

Desvio Padrão Não Não Sim


IDENTIFICAÇÃO DE NORMALIDADE
Distribuição Simétrica: vimos anteriormente que as distribuições de
frequência podem ser simétricas, quando distribuem os casos em
duas metades iguais, e assimétricas, quando ocorre concentração
em um dos lados.
Normal: a forma simétrica também é denominada de normal ou
sinoidal.
Ocorrência: muitas variáveis utilizadas em diferentes ciências possuem
uma distribuição que se aproxima de uma curva normal.
Ex.: altura, peso, coeficiente de inteligência.
Maioria no centro da curva: essas variáveis tem em comum o fato de
que a maior parte dos casos se localizarem próximo ao centro, com
poucas ocorrências nos extremos.
DISTRIBUIÇÃO DE PROBABILIDADE
Distribuição de probabilidade: a partir dessa distribuição é possível
identificar qual a probabilidade de ocorrência de um evento em
razão da sua distância em relação à média.

§ 68% entre -1 e 1 desvio-padrão


§ 95% entre -2 e 2 desvios-padrão
§ 97% entre -3 e 3 desvios-padrão
§ Valores que se situam a mais de 3 desvios possuem uma
probabilidade muito pequena de ocorrência.
PROPRIEDADES DA CURVA NORMAL
Uni modal: possui apenas um ponto de elevação, sendo esse no
centro da distribuição.
Média, mediana e moda são iguais.
Simetria: o lado direito e esquerdo da curva são iguais ou
simétricos, logo, a curva não é inclinada. Skewness é o termo
estatístico para designar essa característica. Uma curva normal
possui 0 de Skewness (Inclinação).
Kurtosis: a distribuição normal não é muito pontiaguda, nem muito
achatada, tendo caudas não muito curtas, nem muito longas.
Kurtosis é o termo estatístico para se referir a essa
característica. A normal possui valores de Kurtosis próximo de 0.
DISTRIBUIÇÕES ASSIMÉTRICAS
Skewness: se uma das caudas da distribuição de frequência é
maior que a outra e sua média é diferente da mediana a sua
curva é inclinada, oblíqua, enviesada ou assimétrica (skewed).
Importância: como a maioria das estatísticas inferenciais exigem
que as variáveis sejam normalmente distribuídas é fundamental
saber se as medidas envolvidas em suas análises são altamente
inclinadas ou possuem altos valores de Skewness.
Valores: uma curva perfeitamente normal tem valor 0,0, mas
podemos tomar como referência os valores +1 e -1 e a partir
deles tomar cuidado na utilização de estatísticas não-
paramétricas (como o teste t).
Procedimento: Análise – Descriptive Statistics – Freqüências –
Índice de Interesse em Política
Clique em Statistics –Mode e Skewness. Continue e na
Janela inicial OK.
Kurtosis: se uma distribuição possui picos mais elevados que os de
uma curva normal afirmamos que possui kurtose positivo. Caso
seja mais achatada afirmamos que possui kurtose negativo.
Procedimento: o mesmo para obter o Skewness, porém como essa
medida não afeta a maioria das estatísticas não é necessária
para a boa parte dos usuários.
MANIPULAÇÃO DE BANCO DE DADOS
RECODIFICAÇÕES E COMPUTAÇÕES
Transformações e computações: as variáveis originais de um banco
de dados em geral possibilitam uma série de transformações e
alterações.
Construção de novas variáveis: muitas vezes para responder nossas
questões de pesquisa precisamos criar novas variáveis e até
mesmo índices a partir das medidas originais.
Três técnicas principais: Count, Recode e Compute.
COUNT
Variável Somatória: Com essa técnica podemos criar uma nova
variável que será o somatório dos valores encontrados em um
conjunto de medidas originais.
Exemplo: temos na Análise de Dados CS 1 quatro variáveis sobre
participação em instituições/organizações e precisamos saber
em quantas delas cada entrevistado participa.
Procedimentos: Transform – Count Values within Cases
Target Variable : nome da variável criada
Target Label : rótulo da variável criada
Numeric variables: campo para definição de que variáveis serão
somadas
Define Values : define como será contada cada variável original
Define: ao clicar nesse ícone um novo box irá aparecer.
Value: como sabemos que nossas variáveis tem os valores 0 e 1,
defina o valor como 1, ou seja, para cada variável serão
contados apenas os valores igual a 1.
Clique em Add e Continue.
Retornando à janela inicial clique em OK.
No Data Editor clique em Variable View e digite 0 no campo Decimal
Places da variável criada.
Comando e Variável criada

Confiram a variável com a sua distribuição de frequência.


RECODIFICAÇÃO
Alteração de Valores: Procedimento útil quando precisamos alterar os
valores possíveis de uma variável, em geral com o objetivo de reduzir a
amplitude.
Redução indesejável: é preciso destacar que a redução de uma medida
ordinal não é desejável, pois reduzir o seu nível de mensuração.
Dicotomização necessária: a transformação de ordinais em dicotômicas
deve ser feita apenas quando estritamente necessário.
Exemplo: para serem utilizadas como variáveis preditoras em modelos de
regressão.
Procedimentos: Transform – Recode
Duas Opções: para recodificar temos duas opções Recode into same variable e
Recode into diferent variable. A primeira altera a variável original e a segunda
efetua as alterações em uma nova variável. Por segurança, selecione essa última
opção.
Na caixa aberta coloque a variável Interesse por Política no campo
Numeric Variable.
Nos campos relativos a Output Variable coloque o nome que deseja
para a nova variável recodificada e em Label qual a sua
descrição.
Em seguida clique em Change para efetivar essas operações.
Agora clique em Old and New Values para definirmos as regras de
recodificação.
Essa janela é dividida em duas partes, uma com os valores antigos
e outra com os novos valores.
A partir do conhecimento dos valores atuais insira a regra de
alteração e clique em Add.
Ao concluir, clique em Continue. Na janela inicial clique em OK.
Novos rótulos: como definimos novos valores é preciso alterar os rótulos.
Procedimentos: clique em Variable View – na linha da variável criada
clique na célula da coluna Values – Value (insira o 1) – Label (o que o
1 representa) Add - OK.
Alternativa: o procedimento de recodificação pode ser realizada por meio
da opção Range.
RECODIFICAÇÃO DE VARIÁVEL ESCALAR
Redução: Em muitos casos é necessário também reduzir uma variável
escalar que comporta muitos valores a um número reduzido de
grupos.
Exercício com a variável idade.
O caminho é o mesmo, ou seja, Transform – Recode into Diferente
Variable.
Introduza a variável Idade (x3), selecione o seu nome de Output e o Label.
Clique em Change e depois em Old e New Values.
Use o Range para definir grupos etários. Clique em Continue e OK.
Será necessário incluir os valores da variável criada no Data Editor.
Gere uma tabela de frequência para analisar essa variável.
COMPUTAÇÃO DE UM ÍNDICE
Computação: o SPSS fornece uma série de ferramentas para
computação de variáveis que possibilitam a construção de novas
medidas, inclusive índices somatórios.
Índice de confiança institucional: vamos construir uma variável que
seja o somatório de diferentes medidas de confiança nas
instituições.
Procedimentos: Transform – Compute Variable
CI: como essa variável será a junção de várias outras sobre confiança em
instituições podemos atribuir o nome CI (Confiança Institucional).
Clique em Type & Label para definir o seu tipo e nome.
Após clique em Continue.
Devemos agora no campo Numeric Expression determinar
Qual será a regra para criação da nova variável combinando
Confiança nos Sindicatos, Congresso e Partidos.
Resultado: O resultado desse procedimento é a criação de uma
variável com escala de 0 a 9 porque cada uma das variáveis
originais estavam codificados com valores de 0 (não confia) a 3
(confia muito).
SELEÇÃO DE CASOS
Redução da Base: em alguns casos trabalhamos com bases
relativamente grandes e pode ser interessante selecionar
apenas alguns casos.
Seleção das entrevistadas: tomando a variável sexo vamos
selecionar apenas as mulheres.
Procedimento: Data – Select Cases
Notem que inicialmente aparece
marcada a opção All Cases, ou seja,
sem seleção.
Clique If Condition (Se a condição), para estabelecer qual a regra de
seleção.
Como a opção “feminino” está codificada como 0, basta selecionar
a variável sexo (x1) adicionar o sinal de = e o código 0.
Clique em Continue
Opções de Seleção: na janela inicial existem três opções de Output
Filtrar: os casos não selecionados são marcados.
Copiar: os casos selecionados não copiados para outro arquivo.
Deletar: os casos não selecionados são apagados.
Selecione a opção filtrar.
DIVISÃO
Split File: é possível também dividir uma base de dados para que
seja possível comprara grupos divididos por uma variável.
Comparação entre Sexos: como exemplo podemos comparar o
interesse por política entre homens e mulheres.
Procedimento: Data – Split File
Clique em Compare Groups e
selecione qual variável será utilizada
como critério.
Com esse procedimento todas as análise solicitadas serão divididas
nos grupos determinados pelo critério.
ANÁLISE BIVARIADA
TESTES DE SIGNIFICÂNCIA ESTATÍSTICA
Inferências Seguras: para produzir a partir de dados amostrais
afirmações que sejam válidas para a população de onde essa
parte foi extraída precisamos entender e empregar o aparato
técnico envolvido nos testes de significância estatística.
Certeza Absoluta Impossível: desde já é preciso deixar claro que a
certeza absoluta sobre a validade da afirmação amostral é
impossível de ser alcançada.
Probabilidade Calculável: mas é possível identificar qual a
probabilidade desse tipo de afirmação estar correta.
Exigência – uma amostra aleatória: a exigência inicial para que isso
seja possível é a qualidade aleatória da amostra, o que já
estudamos nas aulas anteriores.
PROBABILIDADE E HIPÓTESE NULA
Questão Básica:
QUAL A PROBABILIDADE DO RELACIONAMENTO OBSERVADO NOS
DADOS AMOSTRAIS NÃO EXISTIR NA POPULAÇÃO DA QUAL FOI
EXTRAÍDA ESSA AMOSTRA?
Probabilidade Alta: ao encontrarmos probabilidades altas não
podemos aceitar o relacionamento encontrado nos dados amostrais
como válidos, ou seja, não podemos realizar inferência segura.
Probabilidade Baixa: apenas quando essa probabilidade é reduzida
podemos afirmar a ocorrência em termos populacionais do
relacionamento estudado.
TAMANHO AMOSTRAL E PROBABILIDADE
Amostras Pequenas e Grandes: a probabilidade de observarmos um
relacionamento na amostra que não existe na população de
onde ela foi extraída é maior em uma amostra pequena do que
em uma grande.
Exemplo: Se em uma população de 1.000 casos não existe
relacionamento entre duas variáveis e nós selecionamos uma
amostra de 900 a chance de encontrarmos tal relacionamento é
muito pequena. Se selecionarmos dessa mesma população uma
amostra de apenas 50 essa probabilidade será muito grande.
A HIPÓTESE NULA (H0)
H1: o sexo dos entrevistados está associado à posição favorável à
candidaturas femininas.
Inversamente: nos procedimentos inferenciais é comum realizar
esse tipo de teste propondo a hipótese inversa, ou seja, de que
as duas variáveis não estão relacionadas na população.
H0: essa hipótese invertida é chamada de Hipótese Nula e afirma
que as variáveis não estão relacionadas na população.
Hipótese contrária: a hipótese nula é sempre algo contrário aos
interesses da pesquisa que pretende afirmar a existência dos
relacionamentos.
H01: O sexo do entrevistados não está associado à disposição
favorável à candidaturas femininas.
Refutação: o interesse do pesquisador nesse exemplo será refutar
essas duas hipóteses nulas como afirmações válidas para a
população adulta norte-americana.
Probabilidade Reduzida: se a evidência de relacionamento
encontrada na amostra tem uma probabilidade pequena de ser
resultado da escolha aleatória de casos e também de não se
verificar na população, então podemos rejeitar a hipótese nula.
Probabilidade Elevada: se a evidência amostral tem grande
probabilidade de ser resultado do sorteio de casos e também de
não se verificar na população não podemos rejeitar a hipótese
nula.
O que é probabilidade pequena: é considerada como probabilidade
reduzida uma chance de 1 para 20
Ø  1/20=0.05
Igual ou Menor: Se temos probabilidade igual ou menor que 0.05 de
tomar um relacionamento amostral que não ocorre na população
como válido, podemos rejeitar a hipótese nula.
Maior: Se encontrarmos probabilidade maior que 0.05 não
podemos rejeitar a hipótese nula
Hipótese Alternativa: quando rejeitamos a hipótese nula aceitamos
Hipótese Alternativa (H1).
ANÁLISE BIVARIADA NO SPSS
Praticidade: a refutação da hipótese nula pode ser realizada de
maneira prática e rápida através de testes conduzidos com o uso
do SPSS.
MQ UFSC 2011 1: retornando a nossa Base 1 vamos identificar os
procedimentos para conduzir análises bivariadas com o uso do
software.
QUI-QUADRADO
Duas variáveis nominais ou dicotômicas: o teste do X2 é apropriado para
analisar o relacionamento entre duas variáveis nominais ou dicotômicas
sem ordenação.
Três valores ou ordenação: não é indicado, portanto, quando as variáveis em
estudo possuem três valores ou possuem alguma ordenação.
Amostras Grandes: requer amostras relativamente grandes e também que a
divisão dos sujeitos entre as níveis das variáveis seja relativamente igual.
Alternativa: quando a amostra é reduzida uma alternativa é utilizar o Fisher’s
exact test para tabelas 2x2.
Sem informação sobre a força: esses testes apenas indicam se o
relacionamento é estatisticamente significativo, não fornecendo qualquer
indicação sobre a direção ou força da associação.
EXIGÊNCIAS E CONDIÇÕES DO X2

1. Os dados de uma variável são independentes, ou seja, cada sujeito é


calculado uma única vez.

2. Os dados são tratados como nominais, ainda que sejam ordenados.

3. Para o X2 os sujeitos devem estar distribuídos entre os valores de


maneira aproximadamente igual. Pelo menos 80% das células deve ter
uma freqüência de pelo menos 5. Em uma tabela 2x2 todas as células
devem ter no mínimo 5 casos.
Procedimentos:
§ Abra a Análise de Dados CS1.sav
Analyze – Descriptive Statistics – Crosstabs
Na caixa das linhas (rows) introduza a variável Sexo
Na caixa das colunas (columns) introduza a Discussão sobre
Política

Essa variável é binária porque é resultado da seguinte pergunta:


Com que freqüência costuma conversar sobre política com seus
amigos ou familiares? 1) Nunca conversa; 2) As vezes conversa.
Clique em Statistics e marque o teste X2.
Continue.
Retorne para a caixa anterior e clique em Cells marcando Expected
e Observed.
Continue e OK.
Interpretação do Output

Sintaxe: antes das tabelas aparece a sintaxe contendo todos os


comandos que resultaram no teste.

Exigências: Primeiramente verifique que as exigências do X2 estão


satisfeitas comparando os valores observados e esperados em cada
célula da segunda tabela.
§ Informação semelhante pode ser encontrada na nota a da terceira
tabela.
Terceira Tabela: são apresentados os valores do teste e seu nível de
significância.
Primeira linha: a primeira linha corresponde ao X2
Interpretação: Verifique o valor de p de Pearson Chi-Square.
Não é preciso então consultar mais a tabela de distribuição dos valores do
X2
Conclusão: Nesse caso podemos verificar que existe uma associação
estatisticamente significativa entre sexo e a discussão sobre política.
Hipótese Nula: rejeitamos a hipótese nula da inexistência de associação
entre as variáveis no nível populacional.
Limitação do X2 : a grande limitação do X2 é a falta de informação
sobre força do relacionamento identificado como significativo, ou
seja, ele indica apenas se a associação ocorre em termos
populacionais.
Uma medida ideal: um teste ideal seria aquele que indicasse a
existência e também a força dessa associação em termos
populacionais.
Lambda: um dos testes que apresentam essas propriedades é o
Lambda.
LAMBDA (λ)
Redução Proporcional de Erro : o λ é um dos testes de associação que
emprega a abordagem da Redução Proporcional de Erro.
Previsão de uma variável dependente: essa abordagem considera sempre
uma das variáveis envolvidas no teste como dependente, ainda que em
termos teóricos isso não faça sentido.
Dois cenários: considerando uma variável como dependente o RPE desenha
um cenário de previsão em que não existe qualquer informação sobre
uma variável independente e compara com um cenário em que tais
informações estão disponíveis.
Impacto do conhecimento da independente: com essa comparação o RPE
identifica o quanto o conhecimento de uma variável independente auxilia
na compreensão de uma variável dependente.
λ no SPSS: não precisamos ficar nos ocupando dos procedimentos
matemáticos ou dos níveis de significância desse teste, pois o SPSS
nos fornece diretamente o seu valor e a pertinência da rejeição da
hipótese nula.
Exercício: na base MQ UFSC 2011 1 vamos realizar um exercício testando
o relacionamento entre nível de escolaridade e interesse por política.
Observação: essa variável sobre educação tem os valores “baixa”,
“média” e “alta”, desta forma podemos considera-la como ordinal em
alguns testes. Agora seremos um pouco mais rigorosos e a tomaremos
como discreta sem ordenação.
Procedimento: o caminho é o mesmo do usado para o X2.
Analyze – Descriptive Statistics - Crosstabs
Na caixa das linhas (rows) introduza a variável Educação
Recodificada e na caixa das colunas (columns) introduza a
Interesse por Política
Clique em Statistics e marque o teste !.
Continue. OK
Valores: o resultado desse teste varia de 0 (quando o conhecimento de X produz
uma previsão pobre da moda dos valores de Y) e 1 (quando o conhecimento
de X produz uma explicação perfeita da moda dos valores de x).
Coeficiente Assimétrico: é importante destacar também que ! é um coeficiente
assimétrico, ou seja, se refere a capacidade preditiva de Y sobre X ou X
sobre Y, sendo os seus resultados normalmente diferentes nesses dois
sentidos.
Simétrico e Assimétrico: no SPSS, entretanto, o ! é calculado na sua forma
simétrica e nas duas formas assimétricas.
Simétrica: sem considerar qualquer relação de dependência ou independência
entre as variáveis.
Assimétrica: considerando na segunda linha o sexo como variável dependente e
depois a discussão sobre política como dependente.
Passos para a interpretação:
1. Selecione qual das linhas irá utilizar a partir de seus
pressupostos teóricos.
2. Identifique o nível de significância para decidir se é possível
rejeitar a hipótese nula. Lembrem-se que rejeitamos H0 sempre
que o valore for igual ou menor que 0,05, o que representa a
chance de cometer erro de tipo I de 1/20.
3. Verifique o valor do teste para descobrir a intensidade do
relacionamento.
Considerando o Interesse como Dependente podemos verificar que
H0 pode ser rejeitada, mas a associação é fraca.
MEDIDAS ORDENADAS
Medidas apropriadas: o ! pode ser aplicado para variáveis discretas que
possuem algum ordenamento, entretanto, existem alguns outros testes
mais apropriados para esses casos.
Direção do Relacionamento: esses testes são mais poderosos porque são
capazes de indicar a direção da associação entre essas variáveis
ordenadas.
Gamma, Tau b, Tau c e d de Somer.
GAMMA (γ)
Mais utilizado: o coeficiente γ, o mais utilizando teste para variáveis
discretas ordenadas.
RPE: assim como o ! o γ também é uma estatística de Redução de Erro
Proporcional.
Simétrico: a diferença é que o γ é uma medida simétrica, ou seja, o seu
resultado considerando a variável Y como dependente e a X como
independente é idêntico se as posições forem invertidas.
Direção da Associação: o γ tem a desejável propriedade de indicar qual a
direção da associação
Valores: +1.00 = relacionamento positivo perfeito
0 = ausência de relacionamento
-1.00 = relacionamento negativo perfeito
Interesse por Política e Confiança: como exercício vamos testar a
associação entre o interesse por política dos entrevistados e o
seu nível de confiança no Congresso.
Ordinais: as duas variáveis possuem valores ordenados.
Procedimento: o mesmo utilizado anteriormente
Analyze – Descriptive Statistics - Crosstabs
Na caixa das linhas (rows) introduza a variável Interesse por Política
e na caixa das colunas (columns) introduza a Confiança
Institucional no Congresso
Clique em Statistics e marque a opção Gamma.
Continue e OK.
Passos para a interpretação:
1.  Identifique o nível de significância para decidir se é possível rejeitar a
hipótese nula. Lembrem-se que rejeitamos H0 sempre que o valore for igual
ou menor que 0,05, o que representa a chance de cometer erro de tipo I de
1/20.
Como verificamos sig.=.000, podemos rejeitar a hipótese nula da independência
entre as variáveis em termos populacionais.
2. Verifique o sinal do teste.
O sinal positivo indica que a associação é positiva, ou seja, elevações no
interesse por política são acompanhadas de elevações na escala de confiança no
Congresso.
3. Verifique o valor do teste para descobrir a intensidade do relacionamento.
TAU b (τb)
Pares de Observação: assim como o " o τb também considera os
pares de observações em um cruzamento.
Valores: os valores do τb vão de -1,00 a 1.00, sendo que o 0 indica
a ausência de associação entre as duas variáveis discretas
ordenadas.
Tabela Quadrada: esses valores ocorrem apenas quando o
cruzamento resulta em uma tabela quadrada, ou seja, L=C (linha
igual coluna).
τc: para tabelas que não possuem essa características o teste ideal
seria o τc .
Mesmo exercício: para usarmos o τb vamos testar novamente a
associação entre o interesse por política e a confiança no
congresso.
Tabela Quadrada: notem que as duas variáveis possuem 4 valores,
formando uma tabela L=C.
Procedimento: o mesmo utilizado anteriormente
Analyze – Descriptive Statistics - Crosstabs
Na caixa das linhas (rows) introduza a variável Interesse por Política
e na caixa das colunas (columns) introduza a Confiança
Institucional no Congresso
Clique em Statistics e marque a opção Kendall’s Tau-b.
Continue e OK.
Passos para a interpretação:
1.  Identifique o nível de significância para decidir se é possível rejeitar a
hipótese nula. Lembrem-se que rejeitamos H0 sempre que o valore for
igual ou menor que 0,05, o que representa a chance de cometer erro de
tipo I de 1/20.
Como verificamos sig.=.000, podemos rejeitar a hipótese nula da
independência entre as variáveis em termos populacionais.
2. Verifique o sinal do teste.
O sinal positivo indica que a associação é positiva, ou seja, elevações no
interesse por política são acompanhadas de elevações na escala de
confiança no Congresso.
3. Verifique o valor do teste para descobrir a intensidade do relacionamento.
TAU c (τc)
Diferença entre linhas e colunas: o Tau c é o equivalente ao Tau b
quando a tabela não possui o mesmo número de linhas e
colunas.
Procedimento: o mesmo utilizado anteriormente
Analyze – Descriptive Statistics - Crosstabs
Na caixa das linhas (rows) introduza a variável Sexo e na caixa das
colunas (columns) introduza a Confiança Institucional no
Congresso
Clique em Statistics e marque a opção Kendall’s Tau-b.
Continue e OK.
Passos para a interpretação:
1.  Identifique o nível de significância para decidir se é possível rejeitar a
hipótese nula. Lembrem-se que rejeitamos H0 sempre que o valore for
igual ou menor que 0,05, o que representa a chance de cometer erro
de tipo I de 1/20.
Como verificamos sig.=.000, podemos rejeitar a hipótese nula da
independência entre as variáveis em termos populacionais.
2. Verifique o sinal do teste.
O sinal positivo indica que a associação é positiva, ou seja, elevações no
interesse por política são acompanhadas de elevações na escala de
confiança no Congresso.
3. Verifique o valor do teste para descobrir a intensidade do
relacionamento.
D SOMER
Teste Assimétrico: diferentemente do γ e do τb, que não consideram
a questão da dependência ou independência, o teste d de Somer
fornece valores distintos para cada tipo de relacionamento.
Previsão de X por Y: em um teste de associação envolvendo duas
variáveis discretas multicategóricas com ordenação o d de
Somer indicará o quanto o conhecimento de X colabora na
previsão de Y, por isso é uma medida assimétrica.
Procedimento: o mesmo utilizado anteriormente
Analyze – Descriptive Statistics - Crosstabs
Na caixa das linhas (rows) introduza a variável Educação
Recodificada (x5r) e na das colunas (columns) introduza a
Importância da Política.
Clique em Statistics e marque a opção Somers’d.
Continue e OK.
Passos para a interpretação:
O d de Somer apresenta três valores:
§  Na primeira linha o valor simétrico, desconsiderando a independência, como o
Gamma.
§  Na segunda apresenta o valor tomando X como dependente
§  Na terceira tomando o Y como independente
1.  Decida qual dos valores será utilizado.
2.  Identifique o nível de significância para decidir se é possível rejeitar a hipótese nula.
Lembrem-se que rejeitamos H0 sempre que o valore for igual ou menor que 0,05, o que
representa a chance de cometer erro de tipo I de 1/20.
Como verificamos sig.=.000, podemos rejeitar a hipótese nula da independência entre as
variáveis em termos populacionais.
2. Verifique o sinal do teste.
O sinal positivo indica que a associação é positiva, ou seja, elevações no interesse por
política são acompanhadas de elevações na escala de confiança no Congresso.
3. Verifique o valor do teste para descobrir a intensidade do relacionamento.
COMPARANDO TESTES DE ASSOCIAÇÃO
RPE: todas as medidas de associação para variáveis discretas
multicategóricas ordenadas estudadas, com exceção do tau c, são
estatísticas de Redução Proporcional de Erro.
Como decidir? Isso pode tornar difícil a decisão sobre qual teste utilizar.
Simétrico X Assimétrico: a primeira pergunta relevante diz respeito ao
seu interesse em testar apenas a associação entre as variáveis ou
se também pretende entender a relação de dependência entre elas.
Dependência: se uma de suas variáveis é claramente dependente a
escolha é fácil, pois o d de Somer foi criado especificamente para
essas situações.
Simples Associação: se o seu interesse é testar apenas e existe associação,
sem certezas sobre a relação de dependência, tem três opções.
Exclusão dos pares amarrados em Gamma: como vimos o Gamma exclui do
seu cálculo todos os pares amarrados, ou seja, idênticos em X e Y.
Valores Maiores: esse procedimento faz com que os valores desse testes
sejam sempre mais elevados que os Taus.
Recomendação: pelo fato de levarem em consideração os pares
coincidentes em X e Y as medidas de Tau são recomendadas.
b ou c: lembrem-se que o tau b se aplica para tabelas quadradas (L=C) e o c
para tabelas com outros formatos (L≠C).
RHO DE SPEARMAN
Polêmica: todos os testes que estudamos até aqui foram
desenvolvidos para variáveis discretas ordenadas, mas existem
alguns pesquisadores que utilizam para esse tipo de variáveis
um teste desenvolvido para variáveis contínuas.
Variáveis Contínuas: algumas variáveis contínuas ao invés de
representarem valores fracionáveis, fornecem apenas indicações
sobre posições ordenadas
Tempo de um Corredor: 45’33’’
Posição de um Corredor: 3º lugar
Ordenamento: nesse último caso temos uma variável contínua que
oferece informações sobre uma ordem e não sobre quantidades.
Rho de Spearman (ρs): é a estatística mais indicada para esse tipo
de variável contínua ordenada.
Lógica do Teste: para cada observação temos dois grupos de
informações ordenadas (X e Y) que serão comparadas
1. tomando inicialmente a diferença no ordenamento (Di), ou
seja, qual a diferença em termos de ordem encontrado para o
indivíduo João na variável X e Y. Podemos considerar como
exemplo que em X ele ocupe a 10 posição e em Y a 1. Nesse
caso a diferença é igual a 9.
2. elevando ao quadrado a diferença entre os ordenamentos.
3. somando esses quadrados das diferenças.
RHO DE SPEARMAN NO SPSS
Variáveis Contínuas Ordenadas: vamos conduzir um exercício
fazendo uma interpretação mais flexível do que seria uma
variável dessa natureza.
Avaliações de Sistemas Políticos: vamos considerar duas medidas
que avaliam sistemas políticos nacionais com escalas que vão
de 0 a 9.
Procedimento: Analyze - Correlate - Bivariate
Na seguinte janela vamos introduzir as variáveis Avaliação do
Sistema Político Atual (p26) e Avaliação do Sistema Político daqui
a 10 anos (p28).
Nossa intenção é verificar se as pessoas que avaliam positivamente
a democracia atual manifestam expectativa positiva em relação
ao futuro político.
Marque a opção Spearman, Two-talled e Flag significant correlations
Passos para a interpretação:
Na tabela vemos duas linhas e duas colunas que cruzam variáveis
em questão.
A célula do cruzamento da primeira linha com a primeira coluna tem
coeficiente de 1.0, porque reflete a associação da avaliação do
sistema político atual com ela mesma.
A célula do cruzamento da segunda linha com a segunda coluna
tem coeficiente de 1.0, porque reflete a associação da avaliação
do sistema anterior atual com ela mesma.
1ª Linha e 2ª Coluna: só nos interessa o cruzamento de uma com a
outra, então é a célula gerada pelo encontro da 1ª linha e 2ª
coluna que devemos observar.
1.  Identifique o nível de significância para decidir se é possível rejeitar a
hipótese nula. Lembrem-se que rejeitamos H0 sempre que o valor for
igual ou menor que 0,05, o que representa a chance de cometer erro
de tipo I de 1/20.
Como verificamos sig.=.000, podemos rejeitar a hipótese nula da
independência entre as variáveis em termos populacionais.
** como marcamos a opção Flag, o SPSS marca com esse sinal as
correlações significativas.
2. Verifique o sinal do teste.
O sinal positivo indica que a associação é positiva, ou seja, elevações no
interesse por política são acompanhadas de elevações na escala de
confiança no Congresso.
3. Verifique o valor do teste para descobrir a intensidade do
relacionamento.
VARIÁVEIS NOMINAIS E ESCALARES
Cruzamentos mistos: em alguns casos nossas hipóteses exigem o
cruzamento entre variáveis com distintos níveis de mensuração.
ETA: é uma medida de associação empregada quando temos uma
variável nominal e outra escalar ou contínua.
Procedimentos: Analyze – Descriptive Statistics – Crosstabs
Na caixa das linhas (rows) introduza a variável Sexo
Na caixa das colunas (columns) introduza a variável Índice de
Participação Não-Convencional
Clique em Statistics e marque ETA.
Continue e OK.
INTERPRETAÇÃO DO OUTPUT
O ETA varia de -1,00 a 1,00. Quando mais distante de 0 maior é a
intensidade do relacionamento entre as variáveis.

Direcional: notem que essa medida também é direcional, ou seja,


pressupõe a definição de dependência e independência.
CORRELAÇÃO E REGRESSÃO
CORRELAÇÃO E REGRESSÃO
Relacionamento entre variáveis contínuas: os testes que iremos estudar a
partir de agora exigem que as variáveis possuam nível de mensuração
mais elevado.
Interpretação de valores: de forma parecida com alguns dos testes
anteriores a medida de correlação que veremos varia de -1,00 a 1,00,
passando por 0,00. Quando mais próximo de 0,00 menor é a
evidência de correlação. Valores próximo de -1,00 indicam correlação
negativa e próximos de 1,00 revelam correlação positiva.
Correlação de Pearson: é empregada quando as variáveis são contínuas.
CONDIÇÕES E EXIGÊNCIAS PARA A CORRELAÇÃO DE
PEARSON
Linearidade: as duas variáveis devem ter um relacionamento
linear, ou seja, percorrendo uma reta.
ü  Veremos como identificar se essa exigência é atendida com
diagramas de dispersão (Scatterplot).
Normalidade: os valores de uma variável são normalmente
distribuídos para cada valor da outra variável e vice-versa.
ü  Se os graus de liberdade (n-1) são maiores que 25 a violação
dessa regra não causa conseqüências relevantes.
Outliers: podem ter um grande efeito sobre a correlação.
DIAGRAMA DE DISPERSÃO (SCATTERPLOTS) PARA TESTE DE
EXIGÊNCIAS OU CONDIÇÕES
Diagrama de Dispersão: gráfico que mostra como os valores de um
indivíduo em duas variáveis se relacionam.
Correlação positiva alta: no caso de uma correlação altamente positiva os
pontos que representam cada um dos indivíduos ou casos deve estar
próximo de um linha reta que parte do canto inferior esquerdo para o
canto superior direito do gráfico.
Correlação negativa alta: quando esses pontos estão próximos de uma linha
reta que parte do canto esquerdo superior para o inferior direito do
gráfico.
Correlações próximas de 0: a linha é plana e existem muitos pontos
distantes dela.
Visualização gráfica: o que um scatterplots fornece, portanto, é uma
visualização gráfica da correlação Pearson de Produtos de Momentos.
Teste de duas exigências: esse gráfico indica se as duas exigências
fundamentais dessa medida são atendidas.
§ Inexistência de muitos outliers: basta verificar se existem muitos pontos
distantes da reta.
§ Linearidade: basta ver se a curva se aproxima de uma reta.
§ Se não existem muitos outliers e a curva se aproxima de uma linha reta
as exigências estão satisfeitas.
Procedimentos: Abrir a base MQ UFSC 2011 2.
Graphs Legacy Dialogs – Scatter
Clique em Simple – Define
Coloque a variável Salário Atual no eixo Y e Anos de Estudo no eixo
X.
Clique em Titles e escreva “Correlação entre Salário e Anos de
Estudo” – Continue – OK.
O gráfico foi construído, entretanto, precisamos introduzir a reta:
Duplo clique no gráfico para abrir o Chart Editor – Clique em
Elements e selecione a opção Fit Line at Total – Feche o editor.
Interpretando o Output
Cada um dos pontos incluídos no gráfico representa um participante da
pesquisa e a sua localização depende dos valores que ele possui em cada
variável.
A linha reta demonstra que existe linearidade e a sua inclinação em
trajetória ascendente informa sobre seu caráter positivo.
Ø Notem que apesar de existirem alguns pontos distantes da reta, a
maioria deles está próximo, indicando a existência de correlação
considerável.
Ø Essa mesma afirmação pode ser obtida pelo r2 que aparece no
interior o gráfico (canto superior direito).
Ø Para encontrar o r (Pearson) basta extrair a raiz quadrada do r2,
ou seja, a raiz de 0,436 é 0,66. Um valor bastante considerável
se lembrarmos que o Pearson vai de -1,00 a 1,00.
CORRELAÇÕES BIVARIADAS DE PEARSON
Pearson: a correlação de produtos de momentos de Pearson é uma
medida bivariada quando as duas variáveis envolvidas possuem
distribuição aproximadamente normal.
Base: abra agora a base MQ UFSC 2011 2
Procedimentos:
§ Analyze – Correlate – Bivariate.
Transfira Anos de Estudo e Salário Atual para a caixa Variables.
Marque as opções Pearson – em Teste of Sig, marque two-tailed –
marque Flag sig. Correlations.
Clique em Options e marque Means e s.d. e Exclude cases listwise
– continue – OK.
Interpretando o Output
São geradas três tabelas.
1. Tabela com as médias e desvios das duas variáveis.

2. Os coeficientes de Pearson.

Ø Inicialmente verifique o nível de significância.


Ø Em seguida verifique os valores do teste. Note que quando são significativos
o SPSS adiciona uma marcação solicitada pelo comando Flag.
MATRIZ DE CORRELAÇÃO
Mais de duas variáveis: muitas vezes nosso interesse é saber se
mais de duas variáveis ordinais ou escalares se correlacionam.
Matriz: o SPSS nesses casos fornece uma matriz de correlação que
nos informa sobre as relações entre cada par de variáveis.
Procedimento: Analyze – Correlate – Bivariate.
Transfira Salário Inicial, Tempo de serviço, Salário atual, Anos
de estudo, Experiência na função e Sexo.
A Variável sexo: notem que desta vez incluímos a variável
sexo, considerada como ordinal na medida em que 0 é
homem e 1 mulher.
Marque Pearson, Two-tailed e Flag significant correlations.
Em Options Means e S.D. e Exclude cases Listwise.
Interpretação do Output
Duas tabelas, a primeira com as médias e desvios.
e a segunda com a matriz de correlações.

Ø As correlações que alcançaram significância aparecem destacadas com **.


Ø Verifique os níveis de significância da correlação entre cada par de variáveis.
Ø Identifique os valores e a direção de cada correlação.
CONSIDERAÇÕES GERAIS SOBRE REGRESSÃO
Predições: para além da correlação algumas vezes os pesquisadores
podem estar interessados em prever ou explicar o comportamento de
uma variável (dependente) em razão de uma outra (independente).

Origem do termo: Francis Galton (1822-1911) a partir de estudos sobre


hereditariedade de medidas.

Variáveis Intervalares e Contínuas (quantitativas): nesse tipo de análise,


entretanto, são exigidas variáveis intervalares ou contínuas.
Simples: quando a regressão envolve apenas duas variáveis
consideramos o modelo como simples ou bivariado.

Múltipla: se mais de duas variáveis estão envolvida estamos diante


de uma regressão múltipla.

Combinações ou Hierarquia de Efeitos: se a regressão simples


apenas fornece informações sobre a intensidade do
relacionamento entre as variáveis, a múltipla informa qual
combinação de variáveis independentes explica melhor a
dependente e também indica qual das preditoras possui maior
capacidade explicativa.
APROXIMAÇÃO INICIAL
Abordagem intuitiva: a partir dos conteúdos abordados inicialmente é possível
realizar uma aproximação inicial intuitiva sobre a técnica de regressão.
Relação entre variáveis: partindo do pressuposto de que a regressão simples
é uma extensão da análise de correlação, vamos imaginar que nossa
intenção seja entender mais profundamente a relação entre escolaridade
e salário.
Plotagem dos dados: um bom começo pode ser a plotagem dos dados para a
visualização gráfica do relacionamento.
Procedimento: Graphs – Legacy Dialogs – Scatter/Dot – Simple.
Salário Atual no eixo Y e Anos de Estudo no X e OK.
O gráfico apresenta no eixo vertical o salário atual dos indivíduos
da amostra e no horizontal seus respectivos anos de estudo.
Cada ponto no gráfico representa a intersecção entre essas duas
informações para cada pessoa.
Apenas pela inspeção visual é possível constatar que elevações no salário
tendem a serem acompanhadas por elevações nos anos de estudo.
Esse comportamento revela a existência de um relacionamento positivo
entre as variáveis.
A EQUAÇÃO DA RETA
Para além do gráfico: a plotagem dos dados na forma de um
scatter possibilita a identificação do padrão geral de
relacionamento entre as variáveis, mas é algo muito vago
e impreciso.
Uma simples função matemática: para descrever com maior
precisão e detalhe esse relacionamento podemos utilizar
uma simples função matemática.
Uma reta: o ponto de partida para a identificação dessa
função é uma linha reta, cuja fórmula simples é y = a + bx
y = a + bx
Onde:
§ b é a inclinação, ou seja, a quantidade de salário alterada pela
mudança de um ponto em termos de anos de estudo
§ a é o intercepto, o salário esperado para uma pessoa com 0 anos
de estudo.
§ Com esses dois valores é possível estabelecer essa linha que
descreve o relacionamento entre as variáveis.
Felizmente não precisamos entrar em maiores detalhes sobre essa
função pois é possível introduzir a reta no gráfico.
§  Dê um duplo clique no gráfico para abrir o Editor.
§  Na aba Options selecione Reference Line from Equation e feche o
editor.
§  No centro do gráfico aparece a equação y=4.2857*+-34.2857, ou
seja,
§  Salário Atual=-34.28+4.28*Anos de Estudo
¢ Salário Atual=-34.28+4.28*Anos de Estudo
¢ O coeficiente b, que corresponde à inclinação da reta, indica que para
cada ano de estudo ocorre uma elevação de 4.285 no salário.
¢ Como a variável salário está medida em mil dólares anuais, cada ano de
estudo adicional eleva o salário em 4.285 mil dólares anuais.
¢ O intercepto a sugere que uma pessoa com 0 ano de escolaridade teria
um salário de -34.285 mil dólares anuais. Desta forma podemos concluir
que o intercepto fornece informações sobre o que aconteceria com a
extrapolação dos dados observados, possibilitando assim a previsão.
¢ A adição de casos reais de pessoas com 0 ano de estudo poderia
produzir interceptos mais plausíveis e uma equação com maior
capacidade preditiva.
GOODNESS OF FIT
Ajustamento imperfeito da equação aos dados: ao observamos o
scatter podemos identificar que vários pontos se afastam da
reta, o que revela que o ajuste entre a equação e os dados não
é perfeito.
R-quadrado: é a medida mais comum de ajustamento e serve para
identificarmos o quanto a equação da reta descreve bem o
relacionamento entre as variáveis.
0=inexistência de relacionamento: quando o valor dessa medida é
igual a 0 devemos entender que não existe relacionamento
linear entre as medidas.
1=os pontos descrevem uma linha reta: quando o valor é 1
devemos entender que os dados se colocam sobre uma linha
reta perfeita.
Capacidade explicativa/preditiva: o R-quadrado também indica
quanto o conhecimento sobre a variação de uma medida y é
melhorado quando se conhece o valor de uma segunda medida,
ou seja, quanto x explica y.
AJUSTANDO A LINHA AOS DADOS
Necessidade de ajustamento: o R-quadrado indica se uma equação (ou a
linha que a representa) se ajusta bem aos dados concretos, mas é
possível produzir melhores ajustamentos de diferentes maneiras.
A soma dos quadrados das distâncias: o método mais empregado para
encontrar a reta que melhor descreve os dados faz esse ajustamento
através da minimização da soma dos quadrados das distâncias
existentes entre cada ponto e a reta.
Distância como erro: em uma
outra forma de interpretação
essa distância pode ser
entendida como o
erro na previsão
sugerida pela equação ou
reta.
RESÍDUOS E PONTOS INFLUENTES
Cálculo do quadrado das distancias: todos os dados de uma base são
considerado no cálculo do quadrado das distâncias que indicará qual
reta descreve melhor o relacionamento entre as variáveis.
Contribuição desigual: mas a simples visualização de um scatter pode
revelar que os pontos não contribuem para esse cálculo da mesma
maneira.
Influencia desproporcional: pela sua distância acima da média
apresentada pelos demais, alguns desses pontos podem influenciar
de maneira mais intensa o cálculo.
Pontos com ajuste fraco: esses pontos distantes são pouco
ajustados a equação e a reta, sendo também pouco explicados
por ela.
Resíduos: esses pontos apresentam grande resíduo, que é a
diferença entre o ponto observado e aquele que deveria cair
sobre a reta.
Resíduos muito altos: geralmente indicam erros ou observações que
distanciam muito do padrão geral da população ou amostra.
Informações sobre resíduos: o SPSS fornece informações sobre a
quantidade de resíduos não explicados pela equação.
EXIGÊNCIAS E PRESSUPOSTOS
Componentes da equação de regressão: essa equação possui uma forma
específica que faz com que a variável dependente seja a soma de
suas partes, ou seja, a soma do intercepto, de uma combinação linear
de variáveis preditoras e do resíduo (erro).
Violações: algumas violações dessa forma básica provocam erros
§ Omissão de importantes variáveis independentes
§ Inclusão de variáveis independentes irrelevantes
§ Não linearidade entre as variáveis dependente e independente
Outras Exigências
§ Os erros são normalmente distribuídos.
§ A diferença entre os valores atuais e os previstos (os resíduos) é
constante.
§ Não ocorre a multicolinearidade, ou seja, não existe forte
correlação entre as variáveis preditoras. A existência de
multicolinearidade indica que provavelmente suas variáveis
medem a mesma coisa ou contém a mesma informação.
REGRESSÃO SIMPLES
Modelo bivariado: vamos inicialmente nos ocupar com um modelo que
comporta apenas uma variável dependente e uma independente, ou
seja, uma equação de regressão simples ou bivariada.
Procedimento: com a base MQ UFSC 2011 2 aberta clique em Análise –
Regression – Linear.
Mova a variável Salário Atual para a caixa Dependent e Anos de
Estudo para a Independent(s).
Certifique-se de que o método Enter está selecionado.
Equação: Salário Atual = a + b*Anos de Estudo + e
Clique em Statistics
Estimates e Model Fit: com essas duas opções previamente marcadas o
output exibirá os coeficientes b das variáveis dependentes e medidas
de ajuste da equação como o R-quadrado.
Confidence intervals: marque essa opção para que o output mostre
intervalos de confiança de 95% para os coeficientes de regressão.
Casewise diagnostics: ao marcar essa opção serão exibidas informações
dos casos que apresentam resíduos superiores a dois ou mais
desvios padrões da média de resíduos da amostra. Ou seja, serão
exibidas informações detalhadas daqueles casos que podem
influenciar desproporcionalmente a capacidade explicativa do
modelo.
Mude o Outliers outside de 3 para 2, para refinar um pouco mais esse
tipo de informação sobre os outliers.
Clique em Continue
Clique em Plots e marque a opção Histogram.
Mova *zresid para a caixa do eixo Y e *zpred para o eixo X.

Ao solicitarmos um histograma com os resíduos nossa intenção é avaliar a


normalidade dos resíduos, que é uma das exigências da regressão.
Clique em Continue e na janela inicial em OK para finalmente rodar o modelo.
Sintax:
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT sal_atua
/METHOD=ENTER anos_est
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HISTOGRAM(ZRESID)
/CASEWISE PLOT(ZRESID) OUTLIERS(2).
OUTPUT
Tabelas e gráficos: a análise de regressão produz uma série
de tabelas e gráficos com informações sobre o
relacionamento entre as variáveis, o ajuste da equação e
sua capacidade explicativa.
Tabela 1: exibe informações sobre as variáveis preditoras
adicionadas, método de regressão e nota com a variável
dependente.
Tabela 2: apresenta o coeficiente de múltipla correlação e o seu
quadrado, chamado aqui de R-quadrado.

Correlação: como em modelos de regressão simples temos apenas duas


variáveis (dependente e independente) o R-quadrado nada mais é
que o coeficiente de correlação entre as mesmas. No caso de
modelos com mais preditores esse coeficiente corresponde à
correlação entre todas as medidas.
Interpretação: o R-quadrado indica a proporção de variação na
variável dependente que pode ser explicada pela(s) variável(s)
independente(s).
Um bom preditor: o R-quadrado tem 1 como valor máximo, o que
significaria que a variável independente explica 100% da
variação da medida dependente.
Anos de estudo: desta forma, podemos concluir que a variável anos
de estudo é uma boa preditora do salário atual, pois explica
43,6% da variação salarial.
O R-quadrado ajustado: é uma medida que leva em consideração o
número de observações e o número de variáveis preditoras do
modelo.
Poucos dados e muitas variáveis: nesse caso o R-quadrado pode ser
espuriamente alto, sendo necessário esse ajustamento. Como no
caso em análise o número de observações é considerável não
existem diferenças significativas entre os dois valores.
Erro padrão: registra a variabilidade dos resíduos na escala original
e a relaciona com o desvio padrão dos pontos ao redor da linha
com melhor ajuste, desta forma, mede aquilo que não foi
explicado pela linha de regressão. Quando mais ajustada é uma
linha, menor será seu erro padrão.
Tabela 3: mostra um teste sobre a existência de relacionamento
significante entre a variável independente e a medida
dependente.
Sig.: o valor de sig. ou p de .000 indica a existência de
relacionamento significativo, ainda que a linha dos resíduos
demonstre que boa parte da variação não foi explicada pela
equação.
Tabela 4: apresenta os coeficientes da linha melhor ajustada aos dados.

Coluna B: exibe os coeficientes parciais de regressão que indicam o


quanto a mudança de uma unidade na variável independente provoca
de efeito na medida dependente.
Salário Atual=-7.332+1.564*Anos de Estudos
O acréscimo de um ano de estudo acrescenta 1.564 mil dólares de
salário anual.
Betas: são coeficientes parciais de regressão que foram
padronizados, ou seja, apresentam valores que seriam
encontrados se todas as variáveis do modelo tivessem as
mesmas medidas.
Comparação de efeitos: os Betas são fundamentais quando o
pesquisador precisa identificar qual das variáveis incluídas como
preditoras mais afeta a variável dependente em um modelo
múltiplo.
Teste T: é um teste aplicado a cada coeficiente parcial de regressão
para saber se o seu valor é diferente de zero na população, ou seja,
se é estatisticamente significativo.
Como temos apenas uma variável independente em nosso modelo o
resultado desse teste deve ser idêntico ao encontrado no teste F da
tabela 3 do output (com elevação ao quadrado).
T=19.1152=365,38 (o valor de F anterior).
Ambos indicam que os valores dos intercepto e da preditora são
diferentes de zero na população.
Intervalo de confiança: as duas últimas colunas trazem os valores
de B para o intercepto e para as variáveis preditoras
considerando 95% de intervalo de confiança.
Interpretação: se essa análise for repetida em amostras adicionais
os valores de B podem variar dentro dos limites apresentados
nas duas colunas. Vale lembrar que quanto menor for essa
variação, melhor é a explicação fornecida pela equação.
Resíduos: a partir da tabela 5 temos informações sobre os
resíduos que são importantes pois contribuem para a avaliação
sobre a precisão ou capacidade explicativa do modelo.
Melhorias na equação: além disso, analisar os casos onde se
constatam grandes resíduos pode ajudar o pesquisador a
melhorar sua equação através da inclusão de outras medidas
inicialmente desprezadas.
Teste de exigências: por fim, a análise dos resíduos leva a testes
sobre importantes exigências da técnica de regressão, como a
normalidade e a homogeneidade.
Tabela 5: mostra que dos 474 casos que compõem a amostra 18
apresentam resíduos maiores situados a mais de 2 desvios-
padrões da linha da regressão, tal como definimos anteriormente.
Indício de normalidade: esse número de pontos destacados
sugere que a exigência da normalidade na distribuição dos
resíduos foi atendida.
Uma distribuição normal: lembrem-se que a distribuição normal
possui forma de sino e que apenas 5 de cada 100 casos se
localizam para além de 2 desvios-padrões.

18 casos correspondem a 3,79% dos 474 casos da amostra.


Colunas:
§  Primeira: traz o número de identificação dos casos destacados.
§  Segunda: indica sua localização em termos de desvios-padrões em relação
a linha da equação.
§  Terceira: exibe os salários atuais de cada um dos 18 casos.
§  Quarta: apresenta os salários previstos pela equação para cada um deles.
§  Quinta: exibe a diferença entre o que havia sido previsto e o salário atual
observado.
§  A comparação desses valores pode indicar casos bastante distantes da
média de resíduos que merecem a atenção do pesquisador.
§  Esses casos que desafiam o modelo podem sugerir a inclusão de novas
variáveis que possam reduzir os resíduos não explicados pela equação.
§  Com esse procedimento problemas com dados errados também podem ser
identificados.
Tabela 6: fornece informações gerais sobre os resíduos, como o resíduo
mínimo, máximo, média e o padronizado.
Resíduo Padrão: é o mais relevante, pois indica a capacidade explicativa
do modelo. Resíduo padrão Mínimo negativo indica grande poder de
predição, enquanto valores positivos sugerem que a equação possui
baixo poder preditivo.
Histograma: fornece informações sobre a normalidade da distribuição
dos resíduos, uma das exigências da análise de regressão.
Normalidade: aqui podemos verificar que a distribuição se aproxima da
forma de um sino, o que indica uma distribuição aproximadamente
normal.
Scatter: uma outra exigência da análise de regressão é que os resíduos
devem ser independentes dos valores preditos.
Ausência de padrão: como podemos observar no diagrama de
dispersão não existe um padrão no relacionamento. Indício de
heterocedasticidade, ou seja, a diferença entre valores previsto e
observados (o resíduo) é constante.
REGRESSÃO MÚLTIPLA
REGRESSÃO MÚLTIPLA
Análise multivariada: um modelo de regressão múltipla é a extensão
multivariada da equação simples anterior.
Variáveis independentes: essa extensão ocorre pela introdução de outras
variáveis independentes que teoricamente podem aumentar a
capacidade explicativa ou preditiva da equação.
Mesmos métodos com equação ampliada:
§ De Y=a+b*X+e para Y=a+b1*X1+b2*X2+...+bi*Xi+e
Procedimento: na barra de ferramentas clique em Analize,Regression e
Linear.
Mova a variável Salário Atual para a caixa Dependent.
Coloque todas as demais na caixa Independents.
Certifique-se de que o método Enter está selecionado.
Clique em Statistics, marque a opção Descritives e clique em Continue.
Clique em Plots, marque a opção Histogram, Normal probability plot e
Produce all partial plots. Essa última opção irá gerar um plot sobre o
relacionamento entre cada variável independente e a dependente.
Mova *ZRESID para o eixo Y e *ZPRED para o X.
Continue.
Volte a caixa inicial e clique em OK.
OUTPUT
Tabela 1: oferece um sumário estatístico das variáveis introduzidas no
modelo (médias, desvios e N).
Tabela 2: exibe a matriz de correlações entre as variáveis do modelo.
Atenção para o coeficiente negativo de sexo e status de minoria e os
positivos de anos de estudo e categoria profissional.
Tabela 3: exibe a lista das variáveis do modelo e o método.
Tabela 4: mostra dados sobre o ajuste do modelo. Note que o acréscimo
de novas variáveis preditoras eleva consideravelmente a capacidade
explicativa da equação.
§  R2 do modelo simples= 0,436=43,6%
§  R2 do modelo múltiplo= 0,832=83,2%
§ As 8 variáveis explicam em conjunto 83,2% da variação salarial.

§ Conseqüentemente o erro de estimativa é reduzido


§  Erro do modelo simples=5.13342
§  Erro do modelo múltiplo=2.82539
§  O R2 é praticamente o mesmo que o ajustado.
Tabela 5: a tabela ANOVA, como já mencionamos, testa se existe
relacionamento linear entre as variáveis independentes e a medida
dependente
O sig. 0,000 indica a existência de linearidade no relacionamento.
Tabela 6: traz os coeficientes parciais de regressão na segunda coluna, que
indicam quanto a mudança de uma unidade na variável independente
provoca de efeito na medida dependente.

Equação Múltipla:
§ Salário Atual=-4.773+1.264*Salário Inicial+-1.027*Sexo+.068*Tempo
de Serviço+-.005*Idade+.228*Anos de Estudo+-.083*Experiência na
Função+1.001*Categoria Profissional+-.394*Status de Minoria+e
O acréscimo de mil dólares de salário anual inicial provoca um efeito de 1.364
mil dólares de salário anual atual.
O caso da variável sexo é particular, pois não se trata de uma variável escalar,
mas sim binária. Neste caso 0=homem e 1=mulher, o que conduz a
seguinte interpretação: ser mulher implica em uma redução de 1.027 mil
dólares de salário anual.
Cada mês de tempo de serviço eleva em .068 mil dólares no salário anual.
A idade é uma variável que não produz efeito significativo, pois o p é maior do
que o nível mínimo exigido de .005. O p=.818 indica que o coeficiente para
idade não se distancia de 0 na população.
Cada ano de estudo eleva .228 mil dólares no salário anual.
Cada mês de experiência na função reduz .083 mil dólares no
salário atual.
A elevação de um ponto na escala de categoria profissional eleva
em 1.001 mil dólares o salário atual.
O status de minoria étnica não produz efeito sobre o salário. O p=.
228 indica que o coeficiente desse preditor não se afasta de 0
na população.
Betas: como se trata de um modelo multivariado, os Betas servem para
comparar as medidas preditoras.
Comparação de efeitos positivos: em termos de coeficientes positivos,
como poderíamos antecipar, o Beta do salário inicial é o maior, seguido
pela categoria profissional. Tempo de serviço aparece na terceira
posição e na quarta anos de estudo.
Comparação de efeitos negativos: experiência na função produz o maior
impacto negativo, seguida por sexo.
Testes de significância: as duas últimas colunas apresentam os testes t para
cada preditor. Lembrem-se que essa estatística testa se o coeficiente B é
diferente de 0 na população.
Como já mencionamos o valor do t elevado ao quadrado é igual ao valor do F
na tabela ANOVA.
Conferindo os sig. podemos identificar que dois preditores não passaram no
teste (idade e status de minoria), logo, podem ser excluídos do modelo.
Análise de resíduos: todas as demais tabelas e gráficos se referem a
questão dos resíduos e sua análise serve principalmente para
confirmar a capacidade explicativa do modelo e também se as
exigências básicas da análise de regressão foram satisfeitas.
Tabela 7: fornece informações gerais sobre os resíduos, como o resíduo
mínimo, máximo, média e o padronizado.
Resíduo Padrão: é o mais relevante, pois indica a capacidade explicativa
do modelo. Resíduo padrão negativo indica grande poder de predição,
enquanto valores positivos sugerem que a equação possui baixo poder
preditivo.
Padronização: cada resíduo é dividido pelo desvio-padrão de todos os
resíduos, o que os coloca em uma escala padronizada.
Histograma dos resíduos: revela que a distribuição dos resíduos se
aproxima da forma de um sino, confirmando assim que a exigência da
normalidade foi atendida, inclusive com considerável equilíbrio entre o
campo negativo e o positivo.
Normal P-P Plot (Probabilidade-Probabilidade): trata-se de uma diagrama
no qual um eixo corresponde a distribuição esperada em termos de
uma distribuição normal e a distribuição realmente observada.
Podemos observar que os pontos se aproximam muito da reta, ou seja, a
distribuição dos resíduos se aproxima muito da reta da normalidade.
Plots parciais de regressão: todos os demais diagramas do output se
referem a relação entre cada variável dependente e a independente.
REGRESSÃO STEPWISE
Questões exploratórias: em algumas pesquisas precisamos explicar ou
prever o comportamento de uma variável, mas não temos uma
orientação teórica clara sobre quais seriam as melhores variáveis
independentes (ou preditoras) para essa tarefa.
Técnicas de seleção: existem algumas técnicas estatísticas desenvolvidas
para selecionar um subgrupo de medidas preditoras que produz uma
equação mais ajustada aos dados.
Critérios de significância estatística: é importante lembrar que essas
técnicas selecionam as variáveis preditoras a partir de critérios de
significância e não teóricos ou substantivos.
Erro de tipo I: esse método pode resultar em problemas envolvendo
erros de I (falsos positivos), quando a base de dados é muito
grande.
Efeitos significativos: em grandes amostras existe uma tendência de
serem encontrados efeitos estatisticamente significativos em
razão do número de casos.
Amostra da amostra: quando se trabalha com bases assim é
aconselhável inicialmente realizar a análise inicial com uma
amostra da base original.
Método Stepwise: é um dos métodos mais utilizados para produzir a
seleção de variáveis que resulta na equação com melhor ajuste.
Funcionamento: levando em consideração a lista de preditores indicada
pelo pesquisador o método introduz na equação primeiramente aquele
que, segundo algum critério estatístico, é a melhor. Então o próximo
melhor preditor é adicionado na seqüência. Essas adições continuam
até que o último preditor com algum efeito tenha sido introduzido.
Diferentes subgrupos: com esse procedimento são geradas diferentes
equações compostas por distintos subgrupos de variáveis.
Critérios de seleção: dentre esses diferentes subgrupos de variáveis
dependentes é escolhido aquele que resulta na melhor equação,
sempre levando em consideração critérios estatísticos. (R2 / R2
Ajustado / redução do erro padrão / correlações parciais.)

No SPSS: o critério para inclusão das variáveis é a correlação parcial


entre o preditor e a medida dependente, controlada por todas as
demais variáveis presentes no modelo.
RODANDO UMA REGRESSÃO STEPWISE
Na barra de ferramentas clique em Analize,Regression e Linear.
Mova a variável Salário Atual para a caixa Dependent.
Coloque todas as demais na caixa Independents.
Certifique-se de que o método Stepwise está selecionado.
Clique em Statistics e marque as opções, Estimates, Model fit, R square
change e Descriptives.
Clique em Continue e OK.
OUTPUT
Tabelas 1 e 2: apresentam as mesmas informações das tabelas iniciais do
modelo com método ENTER.
Tabela 3: mostra os passos que a regressão stepwise seguiu no processo
de seleção das variáveis que seriam introduzidas e removidas da
equação.
Notem que no primeiro passo Salário inicial foi introduzida primeiro. Nos
passos seguintes foram introduzidas as demais.
Idade e Status de Minoria não aparecem porque não seus coeficientes
parciais de regressão não atingiram o nível mínimo de significância (.
05).
Tabela 4: fornece informações sobre o ajuste dos 6 modelos criados em cada
passo do método Stepwise.
R2: comparando a terceira coluna verificamos que a cada passa ocorre um
ganho no R2 indicando crescente ganho na capacidade explicativa das
equações.
R2 Change: a sexta coluna mostra passo a passo quais os acréscimos no R2.
Erro padrão: inversamente, os erros (quinta coluna) decrescem.
Tabela 5: mostra a soma dos quadrados dos valores preditos e dos
resíduos (segunda coluna). Notem que a cada passo o valor da
regressão aumenta e o dos resíduos diminui.
F: na quinta coluna aparecem os valores do teste F, que verifica se o
relacionamento entre os preditores do grupo e a variável dependente
possuem um relacionamento linear na população.
Tabela 6: apresenta os coeficientes B, Beta, testes t e sig. As interpretações
de cada um dessas valores é idêntica a que realizamos no modelo com
método ENTER.
Tabela 7: mostra quais variáveis foram excluídas em cada passo e
estatísticas que justificam o procedimento.
Decisão sobre qual modelo usar: o Stepwise constrói os modelos seguindo
critérios estritamente estatísticos, mas outras questões podem ser
relevantes na decisão sobre qual modelo será escolhido pelo
pesquisador.
Magnitude dos ganhos: um elemento que deve ser considerado é a
magnitude dos ganhos que a inclusão de cada variável irá produzir.
Notem que entre o primeiro modelo e o último ocorre um acréscimo de
menos de 6%. Entretanto, empiricamente sabemos que não faz sentido
ficar apenas com a variável salário inicial, cuja correlação com o
salário atual é mais do que esperada.
Relevância da teoria e do conhecimento prévio: são elementos
fundamentais para realizar escolhas dessa natureza, que extrapolam a
lógica estritamente estatística.
MULTICOLINEARIDIADE
Definição: a perfeita colinearidade ocorre quando uma das variáveis
independentes possui uma relação linear perfeita com outra (s) variável(s)
independentes.
Problemas:
§  quando ocorre essa perfeita colinearidade um modelo de regressão
simplesmente não será rodado pelo programa.
§  No caso de colinearidade ou multicolinearidade alta o erro padrão aumenta
muito.
§  Os coeficientes de regressão se tornam muito instáveis e qualquer pequena
mudança na base de dados pode gerar alterações dramáticas nos coeficientes.
§  Medidas de ajuste do modelo (como o R2) permanecem corretas, mas nossa
capacidade de medir o efeito de um preditor é afetada.
§  Se as duas variáveis se relacionam intimamente provavelmente são redundantes,
ou seja, medem a mesma coisa, sendo impossível distinguir o efeito de uma e
outra.
Alta colinearidade: um os problemas envolvidos nessa questão é que não
existe um consenso sobre o que seria uma alta colinearidade, ou seja,
não existe acordo sobre qual a intensidade de relacionamento entre
preditores é tolerável.
Sinais de problemas: podemos mencionar alguns sinais de possíveis
problemas com multicolinearidade.
§  O teste F sobre o ajuste do modelo como um todo na Tabela ANOVA é significante,
porém nenhum dos coeficientes parciais de regressão são significantes no teste
T.
§  Os Betas explodem, atingindo valores superiores a 1.
§  Ocorrem reduzidos valores de tolerância. Tolerância indica a proporção de
variação em um preditor que é independente de qualquer outro na equação.
Tolerância de .01 indica que um determinado preditor compartilha 99% da sua
variação com outra variável independente, logo, é redundante.
§  A correlação de coeficientes estimados se torna muito alta.
§  Condition Index maior que 30.
§  Eigenvalues próximos de 0. A soma dos eigenvalues deve ser igual ao
número de preditores mais um (intercepto).
§  Variance Inflation Factors: uma medida do quanto a variança de cada
coeficiente de regressão aumenta por causa da multicolinearidade. É uma
ótima medida dos custos da multicolinearidade sobre a precisão do modelo.
§  Variance Decomposition Proportions.

Procedimentos: vamos agora solicitar essas informações para


identificarmos o problema no modelo anteriormente rodado.
Na barra de ferramentas clique em Analize,Regression e Linear.
Mova a variável Salário Atual para a caixa Dependent.
Coloque todas as demais na caixa Independents.
Certifique-se de que o método Enter está selecionado.
Clique em Statistics e marque as opções Estimates, Model Fit, Descritives e
Collinearity disgnostics.
Continue.
Clique em Save e marque as opções Unstandardized Predited Values,
Standardized Predited Values, Unstandardized Residuals, Standardized
Residuals, Cook’s, DfBeta(s), Standartized DfBeta(s), DfFit e Covariance
Ratio.
OUTPUT
Tabela 2: é a primeira a oferecer informações sobre o problema,
pois mostra a matriz de correlação entre todas as variáveis.

Precisamos aqui identificar se existem coeficientes elevados de


correlação entre os preditores.
Tabela 6:
§  nas penúltima coluna vemos que nenhuma das variáveis possui valores de
tolerância muito baixos (crítico de .01).
§  na última coluna os valores de VIF (Variance Inflation Factors) não são muito
elevados (não existe um padrão), indicando que erros não se devem a
correlação entre preditores.
§  Nenhum dos Betas “explodiu” com valores acima de 1.
Tabela 7:
§  Na primeira coluna aparecem os Eigenvalues. Notem que a soma dos valores
deve ser igual o número de preditores +1.
§  6.686+.835+.704+.521+.165+.043+.024+.016+.006=9.
§  Os eigenvalues não se referem diretamente a nenhuma das variáveis listadas
nas colunas da segunda metade da tabela.
§  Observe que pelo menos três eigenvalues se aproximam do 0, o que indica
multicolinearidade.
§  Para saber quais são as variáveis devemos verificar quais as maiores variações
proporcionais, ou seja, quais variáveis têm a maior proporção de sua variação
explicada por outros preditores.
§  Nas colunas das variáveis verificamos que as três (além do intercepto) com
maior variança proporcional são salário inicial (.71), idade (,71), experiência
na função (.69) e status de minoria (.68). Mas lembrem-se que idade e status
de minoria foram excluídos do modelo por não atingirem nível de sig. menor
que .05.
§  Na terceira coluna notamos que o valor do Condition Index de um preditor é
maior do que o limite de 30. Esse índice é calculado a partir dos eigenvalues,
portanto não identifica diretamente qual é a variável responsável por esse
valor acima do limite.
Estratégias: diante da constatação de que existe multicolinearidade
entre os preditores algumas estratégias podem ser adotadas.
§  Aumentar o tamanho da amostra nos casos em que existem poucos casos e
muitas variáveis no modelo.
§  Combinar preditores em alguma espécie de indicador ou índice. Aqui
podemos pensar em combinar idade com tempo de experiência.
§  Excluir variáveis redundantes. Talvez seja uma boa idéia excluir salário inicial
ou idade, mantendo experiência na função.
REGRESSÃO LOGÍSTICA
REGRESSÃO LOGÍSTICA
Variáveis dependentes dicotômicas: muitos problemas de pesquisa,
sobretudo nas ciências sociais, envolvem variáveis dependentes que
possuem apenas dois valores. Essas medidas são chamadas ainda de
binárias ou dummys.
Codificação: devido a sua natureza binária essas variáveis devem possuir a
codificação 0 (representando a ausência de um atributo ou a não
ocorrência de um evento) e 1 (representando a presença de um atributo
ou a ocorrência de um evento).
§  Exemplos:
§  participação em partidos (0=não participa/1=participa)
§  Democrata (0=não/1=sim)
§  Interessado em política (0=não/1=sim)
§  Em todos esses casos o investigador estaria interessado em identificar possíveis
preditores para explicar a presença do atributo ou a ocorrência do evento em
questão.
§  Que variáveis conduzem à participação em partidos políticos?
§  Que atributos fazem de um indivíduo alguém comprometido com a democracia?
§  Quais são as características que favorecem o interesse por política?
EQUAÇÃO LOGÍSTICA
Log Odds (Logaritmo das chances ou probabilidades): diferentemente dos
modelos lineares padrões o relacionamento entre as variáveis na
regressão logística não é linear em termos da escala de dados, mas sim
no logaritmo das chances ou probabilidades de um evento de interesse
ocorrer.
ln(Odds)=a +B1X1+B2X2+...+BkXk onde
§  os termos do lado direito são idênticos à equação do modelo linear padrão
§  termo do lado esquerdo [ln(Odds)] é o logaritmo natural da probabilidade.
§  a quantidade desse ln(Odds) é chamada de logit.

§  Observação: o valor aproximado do


Logaritmo Natural é = 2,718281828459045...
ELEMENTOS DE UMA REGRESSÃO LOGÍSTICA
Objetivos fundamentais:
§  Determinar o efeito de um grupo de variáveis sobre a probabilidade de um evento
§  Determinar o efeito de cada variável sobre essa probabilidade
§  Identificar qual o mais elevado grau de precisão na previsão do evento com um grupo de
variáveis

Apesar de não serem mutuamente excludentes, na prática


não caminham juntos.
Pesquisadores preocupados com causalidade tendem a buscar
os dois primeiros objetivos, enquanto aqueles que buscam
prever a ocorrência futura de eventos buscam o terceiro
objetivo.
EXIGÊNCIAS
Poucas condições: se comparado com o modelo linear baseado nos
mínimos quadrados que estudamos até aqui, o logit é bem menos
exigente.
§  as variáveis independentes devem ser intervalares, razão ou dicotômicas
§  todos os preditores relevantes são incluídos, os irrelevantes são excluídos e o
relacionamento é linear
§  o valor esperado do termo de erro é 0
§  não existe autocorrelação
§  não existe correlação entre o erro e as variáveis independentes
§  não existe perfeita multicolinearidade entre os preditores
Portanto, não são exigidas a normalidade dos erros e a homogeneidade da variança.
RODANDO UMA REGRESSÃO LOGÍSTICA BINÁRIA
Como exercício proponho uma investigação sobre quais os atributos ou
fatores individuais que impulsionam ou favorecem a participação
dos cidadãos em passeatas e manifestações pacíficas.
Abra a Base1_CursoUFSC
Clique em Análise, Regression, Binary Logistic.
Mova a variável Participação em Passeatas/Manifestações Bin (p15Bin) para a caixa Dependent.
Na caixa Covariates coloque:
§  Sexo (x1): dicotômica com 0=feminino e 1=homem.
§  Idade (x3): razão com o número inteiro de anos de vida.
§  Estado Civil_Casado (x4Casado): dicotômico com 0=não e 1=sim.
§  Educação Recodificada (x5r): intervalar com 3 níveis, sendo 1=baixa, 2=média e
3=alta.
§  Renda (x7): intervalar com 10 níveis, sendo 1=menor faixa de renda e 10=maior
faixa de renda.
§  Importância da Política (p1): intervalar com 4 níveis, sendo 0=sem importância,
1=pouco importante, 2=importante e 3=muito importante.
§  Confiança Interpessoal (p11): dicotômica com 0=precisamos ter bastante
cuidado ... e 1=pode-se confiar nas pessoas em geral.
§  Interesse por Política (p12): intervalar com 4 níveis, sendo 0=nenhum, 1=pouco,
2=algum e 3=muito.
§  Confiança no Congresso (p22): intervalar com 4 níveis, sendo 0=não confi0,
1=confio pouco, 2=confio em parte e 3=confio inteiramente.
§  Confiança no Governo (p23): idem.
§  Confiança nos Partidos (p24): idem.
§  Avaliação do Sist. Político Atual (p26): intervalar com 10 níveis, sendo 0=muito
mal e 9=muito bem.
§  Avaliação do Sist. Político Anterior (p27): idem.
§  Satisfação com o Atual Governo (p32): intervalar com 4 níveis, sendo 0=muito
insatisfeito, 1=pouco insatisfeito, 2=pouco satisfeito e 3=muito satisfeito.
Depois de adicionar todos os preditores selecione o método de regressão.
Como nos modelos anteriores é possível selecionar ENTER, STEPWISE,
dentre outros. Nesse exercício iremos usar o ENTER.
Clique em Save e marque as opções Probabilities e Group membership.
Notem que estatísticas adicionais podem ser salvas como medidas de
influência e sobre resíduos.
Clique em Continue.
Agora clique em Options e marque as opções Classification plots e Hosmer-
Lemeshow goodness-of-fit.
Clique em Continue e OK.
Tabelas 1 e 2: apresentam informações descritivas sobre o total de casos
considerados para a análise e também sobre a codificação da variável
dependente.
Block 0: Beginning Block: na seqüência o SPSS apresenta e tabelas que
levam em consideração um modelo inicial com apenas um intercepto.
Para o exercício que propomos essas informações não são úteis, mas
notem que na tabela 3 aparece a informação de que a capacidade
preditiva do modelo com esse único intercepto é de mais de 70%.
Ajuste do Modelo: as duas tabelas seguintes (6 e 7) apresentam informações
sobre o ajuste do modelo aos dados.
Redundância: na tabela 6 vemos a repetição dos valores em decorrência do
modelo gerado ter apenas um passo, uma vez que utilizamos o método
ENTER.

Qui-quadrado: temos nessa tabela o teste da hipótese nula de que os


coeficientes de todos os termos inseridos são 0. Trata-se de um teste
equivalente ao F da regressão linear.
Sig. : como não existe um padrão para avaliação do tamanho dessa medida
consideramos o sig. Nesse caso, podemos rejeitar a hipótese nula.
Pseudos R2: em regressão logística ao invés do R2 outras medidas de
ajuste são empregadas.
§ Cox & Snell e Nagelkerke

§ Na tabela 7 verificamos que o primeiro é .117 e o segundo .171. Porque


sempre retorna valores superiores o pseudo R2 mais utilizado é o
Nagelkerke. Ainda assim os resultados sugerem que o modelo explica
uma porção modesta da variação da medida dependente.
Hosmer e Lemeshow: as tabelas 8 e 9 também apresentam informações
sobre o ajuste do modelo, desta vez baseados no teste de Hosmer e
Lemeshow.
O teste é calculado através da divisão dos casos em 10 grupos com
tamanhos aproximadamente iguais baseados nas probabilidades
estimadas. Então são comparados os observados e preditos em cada
categoria da variável dependente. Um modelo ajustado deve
apresentar valores observados e preditos relativamente próximos.
Sig. Tabela 8: sig. iguais ou menores que 0.05 conduzem a rejeição da
hipótese nula de que os valores são diferentes. Devemos esperar
valores maiores ou não significativos para modelos com bom ajuste.

Aqui, portanto, temos um valor de sig. que sugere a refutação da


hipótese nula. Ou seja, os valores não são aproximados e o modelo
não possui um bom ajuste.
Problemas: existe dois potenciais problemas envolvendo esse teste que o tornam na prática
pouco relevante.
§  Amostras razoavelmente grandes: ele exige amostras nas quais a maioria dos grupos
divididos possuam mais de 5 eventos. Na tabela 9 vemos que essa exigência é atendida.

§  Amostras grandes: é muito fácil rejeitar a hipótese nula pois com grandes amostras o sig.
tende a ser significativo pois os valores de qui-quadrado são proporcionais ao tamanho da
amostra. Como nossa amostra é realmente grande devemos desconsiderar o teste.
Precisão: a tabela 10 apresenta uma medida bem menos problemática
sobre a precisão do modelo.
Apresenta o cruzamento entre os eventos previstos e observados
§ Dos 741 que não participaram de passeatas o modelo previu 711 =96%
§ Dos 264 que participaram o modelo previu 60 = 22,7%
§ O modelo explica muito melhor a não participação do que a participação.
§ O modelo explica o total de 76,7% da variação da participação.
Os coeficientes: a tabela 11 apresenta os coeficientes da regressão logística de
forma semelhante ao que vimos nos modelos lineares.
Componentes da tabela:
§  Uma linha para cada variável independente (+ a constante)
§  Coeficiente B e seu erro (2ª e 3ª coluna)
§  Teste Wald de significância (4ª, 5ª e 6ª coluna)
§  Exp(B), o valor exponencial de B (7ª coluna)
Interpretação do B: é o efeito que a mudança de uma unidade no preditor
provoca no logaritmo natural da razão de chance da variável
dependente.
Assim tomando a variável educação (x5r) temos que a elevação de um
nível (baixa, média e alta) eleva .502 o log da razão de chance da
participação em passeatas.
Mas o que isso significa em termos de probabilidades de ocorrência da
participação?
Para facilitar a interpretação temos o Exp(B)=e.502=1.652, que representa
o efeito produzido por cada elevação no nível de escolaridade em
termos de razão de chance de ocorrência do evento.
De forma mais simples: cada nível de escolaridade eleva a probabilidade
de participação em passeatas em 1.652 vezes.
Percentuais: é possível também interpretar a razão de chance em termos
do percentual de elevação na probabilidade de ocorrência
§  Exp(B)-1*100=1.652-1*100=65,2%
§  A elevação de um nível de escolaridade eleva em 65,2% a chance do indivíduo
participar em passeatas e manifestações.
Outros preditores: vejamos agora o modelo como um todo para identificarmos
quais os preditores significativos e quais os seus efeitos.
1º passo: identifique os níveis de sig. e considere como relevantes apenas
aqueles iguais ou inferiores à 0.05.
§  Educação Recodificada (x5r)= .000/Confiança Interpessoal (p11)= .001/ Interesse por
Política (p12)= .000/ Avaliação do Sist. Político Atual (p26)= .036/ Avaliação do Sist.
Político Anterior (p27)= .044.
Sem efeito estatisticamente significativo:
§  Sexo (x1); Idade (x3); Estado Civil_Casado (x4Casado); Renda (x7); Importância da
Política (p1); Confiança no Congresso (p22); Confiança no Governo (p23); Confiança
nos Partidos (p24); Satisfação com o Atual Governo (p32);
Escolaridade: B=.502 Exp(B)=1.652
Exp(B)-1*100=1.652-1*100=65.2%
Confiança Interpessoal: B=1.359 Exp(B)=3.892
Exp(B)-1*100=3.892-1*100=289.2%
Interesse por Política: B=.567 Exp(B)=1.762
Exp(B)-1*100=1.762-1*100=76.2%
Aval. Sist. Pol. Atual: B=-.076 Exp(B)=.927
Exp(B)-1*100=.927-1*100=-7.3%
Aval. Sist. Pol. Anterior: B=-.062 Exp(B)=.939
Exp(B)-1*100=.939-1*100=-6.1%
REGRESSÃO LOGÍSTICA MULTINOMIAL
Extensão do modelo Binário: quando a variável dependente possui mais de
dois valores é preciso utilizar uma extensão do modelo binário,
denominado de Multinomial.
Voto para presidente: iremos estudar esse modelo utilizando dados sobre o
voto em candidatos específicos que necessariamente são medidos no
nível nominal.
Eleição presidencial de 1992 nos EUA: a base de dados que iremos utilizar
foi produzida pelo General Social Survey e a principal variável diz
respeito candidato dos entrevistados nas eleições de 1992.
3 valores: essa variável (pres92) tem 3 possíveis valores
§  Bush=1
§  Perot=2
§  Clinton=3
§  Os números neste caso são apenas uma codificação, não representando
qualquer ordenamento ou quantidades.
§  Questão: quais atributos sócio-demográficos explicam o voto em cada candidato.
Um modelo simples: para iniciar propomos um modelo simples com
apenas uma variável como preditora.
Gênero: inicialmente queremos entender a relação entre o gênero dos
entrevistados e seu voto nos candidatos.
Procedimento: na barra de ferramentas clique em Análise, Regression e
Multinomial Logistic.
Mova a variável pres92 para Dependent e sex para Factor(s).
A forma de introdução das variáveis é distinta do modelo binário, pois variáveis categóricas
como sexo são colocadas na caixa Factors enquanto as intervalares ou contínuas são
colocadas na caixa Covariates.
Clique em Statistics.
O SPSS traz como configuração padrão uma série de estatísticas marcadas. Deixe tudo como
está clicando em Cancel.
Clique em OK.
Tabela 1: apresenta apenas informações descritivas sobre os casos
considerados na análise.

Ajuste do Modelo: a tabela 2 mostra o quanto o modelo é ajustado aos


dados. O Qui-quadrado testa se os coeficientes (neste caso apenas um)
são diferentes de 0 na população.
Observando a coluna no sig. podemos ver que o efeito da variável sexo é
estatisticamente significativo.
Pseudo R-quadrado: como já estudamos essa medida indica a força do
relacionamento entre as variáveis independentes e a medida
dependente.
Próximo de 0: para esse modelo inicial vemos na tabela 3 que o
Nagelkerke, que usualmente é o maior dos três, é muito próximo de 0.
Apesar de significativo essa medida indica que o relacionamento entre
sexo e escolha presidencial não é forte.
Tabela 4: ainda sobre o ajuste a tabela 4 mostra testes sobre os efeitos de
cada variável em separado. Como aqui temos apenas um preditor o
resultado aqui será o mesmo da tabela 2 que testou o modelo como um
todo.
Coeficientes: a interpretação dos coeficientes do modelo multinomial é
semelhante a que realizamos na regressão binária. A diferença é que
cada linha representa um logit diferente para cada categoria e que
essas devem ser comparadas com a de referência.
Clinton: a primeira linha corresponde ao logit para voto em Bush, a
segunda para voto em Perot e a categoria de referência é Clinton.
o  O intercepto: como a variável sexo codifica homem =1 e mulher=2, o
SPSS considera essa última como categoria de referência. Desta forma
o intercepto representa a chance de uma mulher votar em Bush (na
primeira linha) ou Perot (na segunda linha) em comparação com a
chance de votar em Clinton.
o  As terceiras linhas: representam a chance das mulheres (sex=2)
votarem em Bush ou Perot em comparação com a chance de votarem
em Clinton. Portanto, a mesma informação do intercepto.
o  Coeficientes de sex=1: essa é a informação mais importante, pois
informa qual o efeito de ser homem sobre a chance de votar em Bush e
Perot, em comparação com a chance de votar em Clinton.
o  Interpretação: em relação às mulheres os homens são 1,54 vez mais
propensos a escolherem Bush do que Clinton e 2.04 vezes mais
propensos a escolherem Perot.
o  Percentuais:
o  Logit para Bush: Exp(B)-1*100=1.543-1*100=54,3% ou
o  Logit para Perot: Exp(B)-1*100=2.044-1*100=104,4%
o  Conclusão: os homens são muito mais propensos a votarem em Bush
e Perot do que as mulheres.
o  Para outras comparações basta alterar a categoria de referência.
Adicionando uma variável escalar: vimos até aqui que o gênero é uma
variável relacionada à escolha dos candidatos. Agora iremos adicionar a
variável escalar anos de estudo ao modelo.
Procedimento: na barra de ferramentas clique em Análise, Regression e
Multinomial Logistic.
Mova a variável pres92 para Dependent, sex para Factor(s) e educ
para Covariate(s).

Para rodar clique em OK.


Ajuste do modelo: as tabelas 2 e 3 mostram que o modelo final contendo
gênero e o efeito linear de educação é significativo (sig.=.000), porém o
pseudo R-quadrado teve apenas uma leve mudança (de .021 para .022
no Nagelkerke).
Vale lembrar que esse teste verifica se todos os coeficientes são iguais a 0
na população. Sig. igual ou inferior que .05 indica que a hipótese nula
pode ser rejeitada, ou seja, os coeficientes não são igual a 0 e o modelo
é significativo.
Teste para cada coeficiente: na tabela 4 encontramos um teste
semelhante ao anterior, porém considerando cada coeficiente em
separado e não a totalidade do modelo.

Sex: a variável relativa ao gênero dos pesquisados continua sendo


significativa em um nível bem exigente (.000).
Educ: a variável sobre educação, entretanto, não passou no teste o que
sugere que seu efeito sobre a escolha do candidato não é significativo
(sig.=.479).
Coeficientes: a última tabela confirma que os logits com educação não são
significativos, pois além dos sig. para o teste Wald serem superiores a .
05, não alteraram o Exp(B) de sex na comparação com o modelo
simples anterior.

Educação é irrelevante? Não necessariamente, pois os testes indicam


apenas que não existe relacionamento linear. Uma estratégia para
confirmar os resultados seria tentar outras codificações para a variável,
talvez transformando a variável escalar em categórica (níveis de
escolaridade)
Substituindo anos de estudo por grau de escolaridade: na base de dados
existe uma variável categórica sobre os níveis ou graus de escolaridade
dos entrevistados que pode substituir os anos de estudo.
Codificação:
§  0=it high school (menos que o ensino médio)
§  1=high school (ensino médio)
§  2=junior college (fase inicial da formação superior)
§  3=bachelor (superior)
§  4=graduate degree (pós-graduação)
Procedimento: a barra de ferramentas clique em Análise, Regression e
Multinomial Logistic.
Mova pres92 para Dependent.
Sex e degree para Factor(s).
Lembrem-se que a caixa Covariate(s) é apenas para variáveis escalares e
contínuas.

Clique em OK.
Ajuste: nas tabelas 2 e 3 vemos que o modelo é significativo e o valor de
todos os coeficientes são diferentes de 0 na população.
Pseudo R-quadrado: apesar dessa medida continuar modesta (.046),
notem que ela dobra de valor na comparação com o modelo simples
contendo apenas o gênero dos entrevistados.
Sig. para cada preditor: na tabela 4 vemos que quando tomamos cada
preditor isoladamente o grau de escolaridade se mostra significativo em
um nível bem exigente (.000). Isso indica que seu valor é diferente de 0
na população, o que não ocorria com anos de estudo.
A 2ª coluna indica que o modelo vai ganhando capacidade explicativa com
o acréscimo das variáveis sex e degree (partindo do modelo contendo
apenas o intercepto).
A 3ª coluna leva a essa mesma conclusão, porém com a elevação do qui-
quadrado.
Coeficientes de regressão: analisando os níveis de significância e os
Exp(B) podemos verificar que os parâmetros estimados com a variável
degree assumem um padrão bem interessante
§  O primeiro parâmetro (degree=0) representa uma pessoa com escolaridade inferior
ao ensino médio comparado uma pessoa pós-graduada (sempre a última categoria
da variável).
§  Em ambos os logits (Bush e Perot) não podemos rejeitar a hipótese nula para esse
primeiro parâmetro, pois os sig. são maiores que .05.
§  Não temos evidências, portanto, de que esses dois grupos de pessoas votam
diferentemente.
Degree=1: representa pessoas com o ensino médio em comparação com
pós-graduados.
§ No logit para Bush o sig.=.027 indica efeito significativo.
§ O Exp(B) de 1.473 indica que uma pessoa com o ensino médio tem 1.47
vezes mais probabilidade de votar em Bush do que em Clinton se
comparado a um pós-graduado.
§ Logit para Bush: Exp(B)-1*100=1.473-1*100=47,3%
§ Quando comparado a um pós-graduado, uma pessoa que concluiu o
ensino médio tem 47,3% mais chance de votar em Bush do que em
Clinton.

§  No logit para Perot o sig.=.002 indica efeito significativo.


§ O Exp(B) de 2.299 indica que uma pessoa com o ensino médio tem 2.3
vezes mais probabilidade de votar em Perot do que em Clinton se
comparado a um pós-graduado.
§ Logit para Bush: Exp(B)-1*100=2.229-1*100=122,9%
§ Quando comparado a um pós-graduado, uma pessoa que concluiu o
ensino médio tem 122,9% mais chance de votar em Perot do que em
Clinton.
Degree=2: representa pessoas com a etapa inicial da formação superior
(junior college) concluída em comparação com pós-graduados.
§ No logit para Bush o sig.=.088 indica que o efeito não é significativo.
§ Não existe diferença no voto em Bush e Clinton entre esse grupo e os pós-
graduados

§  No logit para Perot o sig.=.002 indica efeito significativo.


§ O Exp(B) de 2.864 indica que uma pessoa com o Junior College tem 2.9
vezes mais probabilidade de votar em Perot do que em Clinton se
comparado a um pós-graduado.
§ Logit para Perot: Exp(B)-1*100=2.864-1*100=186,4%
§ Quando comparado a um pós-graduado, uma pessoa que concluiu o
ensino médio tem 186,4% mais chance de votar em Perot do que em
Clinton.
Degree=3: representa pessoas com o ensino superior comparação com
pós-graduados.
§ No logit para Bush o sig.=.029 indica efeito significativo.
§ O Exp(B) de 1.529 indica que uma pessoa com o ensino superior tem
1.5 vezes mais probabilidade de votar em Bush do que em Clinton se
comparado a um pós-graduado.
§ Logit para Bush: Exp(B)-1*100=1.529-1*100=52,9%
§ Quando comparado a um pós-graduado, uma pessoa que concluiu o
ensino superior tem 52,9% mais chance de votar em Bush do que em
Clinton.

§  No logit para Perot o sig.=.006 indica efeito significativo.


§ O Exp(B) de 2.233 indica que uma pessoa com o ensino superior tem
2.2 vezes mais probabilidade de votar em Perot do que em Clinton se
comparado a um pós-graduado.
§ Logit para Bush: Exp(B)-1*100=2.233-1*100=123,3%
§ Quando comparado a um pós-graduado, uma pessoa que concluiu o
ensino superior tem 123,3% mais chance de votar em Perot do que em
Clinton.
Conclusões gerais:
§ O relacionamento entre voto e educação não é linear, com os baixos e
altos níveis se comportando de maneira distinta dos intermediários.
§ Esse padrão de relacionamento explica porque anos de estudo não se
mostrou um preditor com efeito significativo. O relacionamento não era
linear.
§ Candidatos democratas são preferidos por aqueles grupos com menor e
maior escolaridade, enquanto os grupos médios tendem a preferir
candidatos republicanos ou independentes.

Вам также может понравиться