Академический Документы
Профессиональный Документы
Культура Документы
2. Os coeficientes de Pearson.
Equação Múltipla:
§ Salário Atual=-4.773+1.264*Salário Inicial+-1.027*Sexo+.068*Tempo
de Serviço+-.005*Idade+.228*Anos de Estudo+-.083*Experiência na
Função+1.001*Categoria Profissional+-.394*Status de Minoria+e
O acréscimo de mil dólares de salário anual inicial provoca um efeito de 1.364
mil dólares de salário anual atual.
O caso da variável sexo é particular, pois não se trata de uma variável escalar,
mas sim binária. Neste caso 0=homem e 1=mulher, o que conduz a
seguinte interpretação: ser mulher implica em uma redução de 1.027 mil
dólares de salário anual.
Cada mês de tempo de serviço eleva em .068 mil dólares no salário anual.
A idade é uma variável que não produz efeito significativo, pois o p é maior do
que o nível mínimo exigido de .005. O p=.818 indica que o coeficiente para
idade não se distancia de 0 na população.
Cada ano de estudo eleva .228 mil dólares no salário anual.
Cada mês de experiência na função reduz .083 mil dólares no
salário atual.
A elevação de um ponto na escala de categoria profissional eleva
em 1.001 mil dólares o salário atual.
O status de minoria étnica não produz efeito sobre o salário. O p=.
228 indica que o coeficiente desse preditor não se afasta de 0
na população.
Betas: como se trata de um modelo multivariado, os Betas servem para
comparar as medidas preditoras.
Comparação de efeitos positivos: em termos de coeficientes positivos,
como poderíamos antecipar, o Beta do salário inicial é o maior, seguido
pela categoria profissional. Tempo de serviço aparece na terceira
posição e na quarta anos de estudo.
Comparação de efeitos negativos: experiência na função produz o maior
impacto negativo, seguida por sexo.
Testes de significância: as duas últimas colunas apresentam os testes t para
cada preditor. Lembrem-se que essa estatística testa se o coeficiente B é
diferente de 0 na população.
Como já mencionamos o valor do t elevado ao quadrado é igual ao valor do F
na tabela ANOVA.
Conferindo os sig. podemos identificar que dois preditores não passaram no
teste (idade e status de minoria), logo, podem ser excluídos do modelo.
Análise de resíduos: todas as demais tabelas e gráficos se referem a
questão dos resíduos e sua análise serve principalmente para
confirmar a capacidade explicativa do modelo e também se as
exigências básicas da análise de regressão foram satisfeitas.
Tabela 7: fornece informações gerais sobre os resíduos, como o resíduo
mínimo, máximo, média e o padronizado.
Resíduo Padrão: é o mais relevante, pois indica a capacidade explicativa
do modelo. Resíduo padrão negativo indica grande poder de predição,
enquanto valores positivos sugerem que a equação possui baixo poder
preditivo.
Padronização: cada resíduo é dividido pelo desvio-padrão de todos os
resíduos, o que os coloca em uma escala padronizada.
Histograma dos resíduos: revela que a distribuição dos resíduos se
aproxima da forma de um sino, confirmando assim que a exigência da
normalidade foi atendida, inclusive com considerável equilíbrio entre o
campo negativo e o positivo.
Normal P-P Plot (Probabilidade-Probabilidade): trata-se de uma diagrama
no qual um eixo corresponde a distribuição esperada em termos de
uma distribuição normal e a distribuição realmente observada.
Podemos observar que os pontos se aproximam muito da reta, ou seja, a
distribuição dos resíduos se aproxima muito da reta da normalidade.
Plots parciais de regressão: todos os demais diagramas do output se
referem a relação entre cada variável dependente e a independente.
REGRESSÃO STEPWISE
Questões exploratórias: em algumas pesquisas precisamos explicar ou
prever o comportamento de uma variável, mas não temos uma
orientação teórica clara sobre quais seriam as melhores variáveis
independentes (ou preditoras) para essa tarefa.
Técnicas de seleção: existem algumas técnicas estatísticas desenvolvidas
para selecionar um subgrupo de medidas preditoras que produz uma
equação mais ajustada aos dados.
Critérios de significância estatística: é importante lembrar que essas
técnicas selecionam as variáveis preditoras a partir de critérios de
significância e não teóricos ou substantivos.
Erro de tipo I: esse método pode resultar em problemas envolvendo
erros de I (falsos positivos), quando a base de dados é muito
grande.
Efeitos significativos: em grandes amostras existe uma tendência de
serem encontrados efeitos estatisticamente significativos em
razão do número de casos.
Amostra da amostra: quando se trabalha com bases assim é
aconselhável inicialmente realizar a análise inicial com uma
amostra da base original.
Método Stepwise: é um dos métodos mais utilizados para produzir a
seleção de variáveis que resulta na equação com melhor ajuste.
Funcionamento: levando em consideração a lista de preditores indicada
pelo pesquisador o método introduz na equação primeiramente aquele
que, segundo algum critério estatístico, é a melhor. Então o próximo
melhor preditor é adicionado na seqüência. Essas adições continuam
até que o último preditor com algum efeito tenha sido introduzido.
Diferentes subgrupos: com esse procedimento são geradas diferentes
equações compostas por distintos subgrupos de variáveis.
Critérios de seleção: dentre esses diferentes subgrupos de variáveis
dependentes é escolhido aquele que resulta na melhor equação,
sempre levando em consideração critérios estatísticos. (R2 / R2
Ajustado / redução do erro padrão / correlações parciais.)
§ Amostras grandes: é muito fácil rejeitar a hipótese nula pois com grandes amostras o sig.
tende a ser significativo pois os valores de qui-quadrado são proporcionais ao tamanho da
amostra. Como nossa amostra é realmente grande devemos desconsiderar o teste.
Precisão: a tabela 10 apresenta uma medida bem menos problemática
sobre a precisão do modelo.
Apresenta o cruzamento entre os eventos previstos e observados
§ Dos 741 que não participaram de passeatas o modelo previu 711 =96%
§ Dos 264 que participaram o modelo previu 60 = 22,7%
§ O modelo explica muito melhor a não participação do que a participação.
§ O modelo explica o total de 76,7% da variação da participação.
Os coeficientes: a tabela 11 apresenta os coeficientes da regressão logística de
forma semelhante ao que vimos nos modelos lineares.
Componentes da tabela:
§ Uma linha para cada variável independente (+ a constante)
§ Coeficiente B e seu erro (2ª e 3ª coluna)
§ Teste Wald de significância (4ª, 5ª e 6ª coluna)
§ Exp(B), o valor exponencial de B (7ª coluna)
Interpretação do B: é o efeito que a mudança de uma unidade no preditor
provoca no logaritmo natural da razão de chance da variável
dependente.
Assim tomando a variável educação (x5r) temos que a elevação de um
nível (baixa, média e alta) eleva .502 o log da razão de chance da
participação em passeatas.
Mas o que isso significa em termos de probabilidades de ocorrência da
participação?
Para facilitar a interpretação temos o Exp(B)=e.502=1.652, que representa
o efeito produzido por cada elevação no nível de escolaridade em
termos de razão de chance de ocorrência do evento.
De forma mais simples: cada nível de escolaridade eleva a probabilidade
de participação em passeatas em 1.652 vezes.
Percentuais: é possível também interpretar a razão de chance em termos
do percentual de elevação na probabilidade de ocorrência
§ Exp(B)-1*100=1.652-1*100=65,2%
§ A elevação de um nível de escolaridade eleva em 65,2% a chance do indivíduo
participar em passeatas e manifestações.
Outros preditores: vejamos agora o modelo como um todo para identificarmos
quais os preditores significativos e quais os seus efeitos.
1º passo: identifique os níveis de sig. e considere como relevantes apenas
aqueles iguais ou inferiores à 0.05.
§ Educação Recodificada (x5r)= .000/Confiança Interpessoal (p11)= .001/ Interesse por
Política (p12)= .000/ Avaliação do Sist. Político Atual (p26)= .036/ Avaliação do Sist.
Político Anterior (p27)= .044.
Sem efeito estatisticamente significativo:
§ Sexo (x1); Idade (x3); Estado Civil_Casado (x4Casado); Renda (x7); Importância da
Política (p1); Confiança no Congresso (p22); Confiança no Governo (p23); Confiança
nos Partidos (p24); Satisfação com o Atual Governo (p32);
Escolaridade: B=.502 Exp(B)=1.652
Exp(B)-1*100=1.652-1*100=65.2%
Confiança Interpessoal: B=1.359 Exp(B)=3.892
Exp(B)-1*100=3.892-1*100=289.2%
Interesse por Política: B=.567 Exp(B)=1.762
Exp(B)-1*100=1.762-1*100=76.2%
Aval. Sist. Pol. Atual: B=-.076 Exp(B)=.927
Exp(B)-1*100=.927-1*100=-7.3%
Aval. Sist. Pol. Anterior: B=-.062 Exp(B)=.939
Exp(B)-1*100=.939-1*100=-6.1%
REGRESSÃO LOGÍSTICA MULTINOMIAL
Extensão do modelo Binário: quando a variável dependente possui mais de
dois valores é preciso utilizar uma extensão do modelo binário,
denominado de Multinomial.
Voto para presidente: iremos estudar esse modelo utilizando dados sobre o
voto em candidatos específicos que necessariamente são medidos no
nível nominal.
Eleição presidencial de 1992 nos EUA: a base de dados que iremos utilizar
foi produzida pelo General Social Survey e a principal variável diz
respeito candidato dos entrevistados nas eleições de 1992.
3 valores: essa variável (pres92) tem 3 possíveis valores
§ Bush=1
§ Perot=2
§ Clinton=3
§ Os números neste caso são apenas uma codificação, não representando
qualquer ordenamento ou quantidades.
§ Questão: quais atributos sócio-demográficos explicam o voto em cada candidato.
Um modelo simples: para iniciar propomos um modelo simples com
apenas uma variável como preditora.
Gênero: inicialmente queremos entender a relação entre o gênero dos
entrevistados e seu voto nos candidatos.
Procedimento: na barra de ferramentas clique em Análise, Regression e
Multinomial Logistic.
Mova a variável pres92 para Dependent e sex para Factor(s).
A forma de introdução das variáveis é distinta do modelo binário, pois variáveis categóricas
como sexo são colocadas na caixa Factors enquanto as intervalares ou contínuas são
colocadas na caixa Covariates.
Clique em Statistics.
O SPSS traz como configuração padrão uma série de estatísticas marcadas. Deixe tudo como
está clicando em Cancel.
Clique em OK.
Tabela 1: apresenta apenas informações descritivas sobre os casos
considerados na análise.
Clique em OK.
Ajuste: nas tabelas 2 e 3 vemos que o modelo é significativo e o valor de
todos os coeficientes são diferentes de 0 na população.
Pseudo R-quadrado: apesar dessa medida continuar modesta (.046),
notem que ela dobra de valor na comparação com o modelo simples
contendo apenas o gênero dos entrevistados.
Sig. para cada preditor: na tabela 4 vemos que quando tomamos cada
preditor isoladamente o grau de escolaridade se mostra significativo em
um nível bem exigente (.000). Isso indica que seu valor é diferente de 0
na população, o que não ocorria com anos de estudo.
A 2ª coluna indica que o modelo vai ganhando capacidade explicativa com
o acréscimo das variáveis sex e degree (partindo do modelo contendo
apenas o intercepto).
A 3ª coluna leva a essa mesma conclusão, porém com a elevação do qui-
quadrado.
Coeficientes de regressão: analisando os níveis de significância e os
Exp(B) podemos verificar que os parâmetros estimados com a variável
degree assumem um padrão bem interessante
§ O primeiro parâmetro (degree=0) representa uma pessoa com escolaridade inferior
ao ensino médio comparado uma pessoa pós-graduada (sempre a última categoria
da variável).
§ Em ambos os logits (Bush e Perot) não podemos rejeitar a hipótese nula para esse
primeiro parâmetro, pois os sig. são maiores que .05.
§ Não temos evidências, portanto, de que esses dois grupos de pessoas votam
diferentemente.
Degree=1: representa pessoas com o ensino médio em comparação com
pós-graduados.
§ No logit para Bush o sig.=.027 indica efeito significativo.
§ O Exp(B) de 1.473 indica que uma pessoa com o ensino médio tem 1.47
vezes mais probabilidade de votar em Bush do que em Clinton se
comparado a um pós-graduado.
§ Logit para Bush: Exp(B)-1*100=1.473-1*100=47,3%
§ Quando comparado a um pós-graduado, uma pessoa que concluiu o
ensino médio tem 47,3% mais chance de votar em Bush do que em
Clinton.