Вы находитесь на странице: 1из 25

Geometria do Modelos

Lineares
Fundamentos de Modelao Estatstica

O juntar de dois mundos a anlise algbrica e a geomtrica
dos Modelos Lineares e suas aplicaes

Carla Noronha
17-02-2013

1

ndice
Introduo ......................................................................................................................................................... 2
lgebra e teoria matricial .................................................................................................................................. 3
Conceito de espao linear, dependncia linear, base e gerador .................................................................. 3
Espao linear ou vetorial ........................................................................................................................... 3
Subespao vetorial .................................................................................................................................... 3
Combinao linear ..................................................................................................................................... 3
Conjunto gerador ...................................................................................................................................... 3
Dependncia linear .................................................................................................................................... 4
Base ........................................................................................................................................................... 4
Transformao linear ................................................................................................................................. 4
Produto Interno, norma, distncia, ngulo entre vetores, projees ....................................................... 5
Geometria vetorial ............................................................................................................................................ 6
Representao grfica ................................................................................................................................... 6
Adio de vetores .......................................................................................................................................... 7
Percurso histrico na Geometria dos modelos lineares ................................................................................... 8
O modelo linear ................................................................................................................................................. 9
Estimao pelo mtodo dos mnimos quadrados ....................................................................................... 10
O teorema de Pitgoras ........................................................................................................................... 11
Inferncia no Modelo Linear ....................................................................................................................... 12
Estimador de mxima verossimilhana ................................................................................................... 12
Distribuies das projeces ortogonais de ........................................................................................ 13
Resduos ................................................................................................................................................... 13
Intervalos de confiana ........................................................................................................................... 13
Testes de Hipteses ................................................................................................................................. 14
Exemplo de aplicao no R .............................................................................................................................. 15
O nosso exemplo analiticamente .................................................................................................................... 21
Concluso ........................................................................................................................................................ 22
Bibliografia e webgrafia ................................................................................................................................... 24


2

Introduo

Desde os tempos mais antigos que o Homem pretende entender o universo do qual faz parte. Esta uma
curiosidade que, juntamente com a necessidade de controlar tudo o que o rodeia, sempre foram as
caractersticas humanas mais bvias e constantes ao longo dos tempos. A necessidade de criar modelos que
permitam explicitar a extenso e percepo dos conhecimentos, explicar fenmenos e predizer
comportamentos, levaram a uma necessidade crescente de construir modelos que permitissem ao Homem
compreender o ambiente que o rodeia. As dificuldades tambm existem, bem como as deficincias que
justificam as crescentes tentativas da criao de modelos melhorados ou, por vezes, totalmente
modificados. Pensemos por exemplo, no prprio modelo de criao do Universo que tem sido amplamente
modificado com o passar dos sculos por cientistas que, mesmo sendo especialistas nas suas reas na altura,
acabou por ser modificado vezes sem conta , sinal da necessidade de novas concepes e novos desenhos. O
uso da Matemtica e tambm da Estatstica tambm evoluiu e hoje ningum contesta a importncia destas
cincias no auxlio a outras, nomeadamente a fsica e a engenharia. No mundo real em que vivemos a
linguagem matemtica tornou-se a forma de ligao entre diferentes mundos cientficos. Um bom modelo
leva a um melhor entendimento de uma determinada situao, mas nunca se pode esquecer que este deve
ser robusto, no contendo situaes fora dos limites da sua definio ou assentando em pressupostos que
possam levar a resultados inconsistentes. Deve ainda ser preditor, isto , ser capaz de antecipar resultados
que podem subsequentemente ser verificados atravs de observaes experimentais. A modelao
estatstica uma parte da Estatstica que se dedica ao estudo de modelos. Por modelo entende-se a
formulao duma relao entre uma varivel aleatria resposta (ou dependente) Y e uma ou mais variveis
preditoras (ou explicativas, ou independentes), X
1
,X
2
, ...,X
p
. Evidentemente tambm possvel construir
modelos com vrias variveis resposta, sendo essa uma abordagem muito mais complexa. Atendamos ao
fato de que a varivel-resposta poder ser quantitativa, ou qualitativa (categrica). No caso de ser
quantitativa, poder ser contnua ou discreta. De igual forma, as variveis preditoras podero ser todas de
cada um dos tipos atrs referidos, ou poder haver variveis preditoras de vrios tipos. Alm disso, as
variveis preditoras podero ser aleatrias ou no-aleatrias. A distinguir diferentes tipos de modelos estar
tambm a natureza da relao que se admite existir entre varivel-resposta e variveis preditoras. Ou ainda
a natureza da distribuio de probabilidades associada varivel aleatria resposta. Um determinado
modelo inclui geralmente parmetros constantes que concretizam um determinado tipo de relao
funcional ou distribuio de probabilidades. A estimao desses parmetros constitui parte importante do
estudo de um modelo estatstico.
No deixa de ser curioso como que a abordagem geomtrica dos modelos lineares se transforma numa
abordagem perfeitamente algbrica considerada em mltiplos artigos com inclinao geomtrica. A
introduo da geometria no estudo dos modelos lineares foi gradual e, uma vez mais, iniciou-se com R.A.
Fisher em 1915 e foi-se estendendo com Kruskal. Houve realmente a necessidade de ligar estas duas
abordagens , a geomtrica e a algbrica, para uma melhor compreenso do funcionamento dos modelos e
uma certa facilitao nos clculos envolvidos nos estudos que envolvem modelos. Ser uma iluso pensar-se
que se consegue trabalhar com modelos lineares sem a compreenso mnima de conceitos de lgebra e
geometria linear e euclidiana. No de todo possvel e, como tal, pensmos em traar uma rota por entre
estes conceitos , iniciando o nosso percurso numa leve abordagem histrica que nos permita perceber como
tudo comeou, depois a introduo dos conceitos algbricos e geomtricos que constituem os alicerces para
a compreenso desta incrvel ligao com os modelos lineares. Percorreremos estes conceitos e alargaremos
o nosso estudo aos modelos propriamente ditos e respetiva geometria. Por fim, terminaremos o nosso
trabalho com a apresentao de um exemplo de aplicao demonstrativo de todas estas tcnicas.
3

lgebra e teoria matricial

No ser possvel compreender a geometria dos modelos lineares sem adquirir alguns conceitos de lgebra
linear e geometria analtica. Por essa razo parece-nos evidente traar um breve percurso sobre estes
conceitos por forma a reavivar memrias que, para muitos, j se encontram distantes.
Conceito de espao linear, dependncia linear, base e gerador

Parte integrante da disciplina de lgebra linear em qualquer curso superior da rea das cincias exatas, os
espaos vetoriais abordam noes extremamente importantes para o estudo da geometria dos vetores.
Espao linear ou vetorial

Designamos por EspaoVetorial(oulinear) um conjunto L com duas operaes fechadas (soma e
multiplicao por um escalar) que verifica as seguintes condies :
1. Para a operao aditiva em L:
comutativa
associativa
Tem elemento nulo
Admite elementos inversos (opostos)
2. Para a operao multiplicao escalar em L:
quase associativa
Possui elemento identidade
distributiva em relao operao aditiva
Os elementos do espao vetorial so denominados vetores.
Subespao vetorial

Sejam (

espaos vetoriais sobre um corpo , dizemos que


um subespao vetorial de sse :


Combinao linear

Um vetor u diz-se combinao linear de dois vetores x e y sse, sendo x,y L, u= x + y
Conjunto gerador

Chamamos conjunto gerador de L se qualquer elemento de um subconjunto M de L se puder escrever como
combinao linear de elementos de M.
4

Dependncia linear

Um conjunto de vetores de L diz-se linearmente independentes sse


Base

Se um conjunto de vetores for gerador e linearmente independente ento constituir uma base de um
espao vetorial L.
Para se poder perceber a geometria dos espaos lineares preciso bem mais do que 1-2 pginas de revises
de conceitos de lgebra e, por isso mesmo, parece-nos ser de relevante interesse rever tambm o conceito
de transformao linear:
Transformao linear

Consideremos dois espaos lineares (vetoriais) L e M. Dizemos que f uma aplicao (transformao) linear
de L sobre M sse


Ora se tivermos L=

e M=

ento as matrizes correspondem a matrizes do tipo np


Conjunto imagem e ncleo de uma transformao linear

Se se considerar L e M dois espaos vetoriais e f uma transformao linear de L em M, ao conjunto dos
elementos de M que so imagens da transformao f designamos por Im(f) e, ao conjunto dos elementos de
L cuja imagem pela aplicao f o elemento nulo de L chamamos Nuc(f) conforme o esboo seguinte:



Figura 1 aplicao linear
5

Produto Interno, norma, distncia, ngulo entre vetores, projees

Produto interno

Considere-se o espao vetorial L. Designamos produto interno funo <,> definida da seguinte forma:
<,> : L . L e que possui as seguintes propriedades:
Simetria, i.e,
Bilinearidade, i.e,

Norma de um vetor

A norma de um vetor representa o seu comprimento. Assim, a norma de um vetor pode ser definida como
e verifica as seguintes condies:
1)
2) || sendo
3) sendo
Distncia

A distncia num espao vetorial L tambm uma funo d definida por:
em que
ngulo entre vetores

O ngulo entre 2 vetores definido como
(

)
A consequncia imediata desta definio a introduo do termo ortogonal. Dois vetores dizem-se
ortogonais se o seu produto interno for zero, e como tal se tiver que
Complemento Ortogonal

Seja Designamos complemento ortogonal de e representamos por

{}

{ | }
As principais consequncias desta definio so:

um subespao vetorial de V
6

Seja W um subespao vetorial de V e {

} uma base de W

subespao de W
Projees

Designamos projeo ortogonal de um vetor na sobre um vetor :


Trata-se portanto de um vetor
E projeo de um vetor sobre um subespao vetorial de , sendo

em que {

} uma
base ortogonal de expresso



Geometria vetorial

Percorremos aqui neste captulo as noes bsicas do clculo vetorial, quer em

quer em

, condio
necessria, mas no suficiente para compreender na totalidade os conceitos da geometria dos modelos
lineares.
Representao grfica

Figura 2 projeco do vetor y sobre o
subespao M gerado por dois vetores

. Este conceito ser importante no


clculo dos elementos do vetor


7


Figura 4 representao de um vetor num referencial Oxyz

Adio de vetores


Analiticamente, teremos



Figura 3 representao de um
vetor num referencial xOy
Figura 5 - nesta figura a representao
grfica da adio de vetores em


8

Percurso histrico na Geometria dos modelos lineares

No possvel separar a viso geomtrica da Estatstica pois esto ambas intimamente relacionadas com a
histria da Matemtica ele prpria. No surpresa para ningum que existe um dedo de Sir R.A. Fisher
(1890-1962) nesta abordagem. Fisher, que todos conhecemos como o Pai da Estatstica, foi o fundador da
Estatstica Matemtica e no foi por acaso que chegou a muitas das importantes concluses que tirou. A sua
viso geomtrica para isso muito contribuiu. O interesse de Fisher pela geometria estatstica surge atravs
de uma troca de correspondncia com Gosset (1837-1937). Gosset era um matemtico e qumico britnico
que, em 1908 quando publicou Student revelou que estava a tentar lidar com a distribuio

, ou
seja, a mdia da amostra de zero valor esperado dividido pelo desvio padro da amostra. Este problema
tinha sido totalmente ignorado at ento mas a vinda deste artigo viria a revolucionar a comunidade
cientfica, sendo que foi pelas mos de Fisher que tal aconteceu. Fisher debruou-se sobre este problema
com bastante interesse e acabou por conceber a noo da representao geomtrica da configurao
espacial da amostra no espao n-dimensional. Foi atravs desta noo que Fisher definiu quase de imediato
o conceito de graus de liberdade. Para nosso grande infortnio, no h grandes desenvolvimentos
geomtrico nos escritos de Fisher e, na realidade, s temos esta noo atravs de Gosset e da sua filha que o
relatam em inmeras obras [Box, 1978, 1981]. Apesar de no existirem grandes registos sobre a perspectiva
geomtrica de Fisher, o seu pensamento nunca parou, e, talvez devido sua falta de viso, Fisher continuou
a pensar geometricamente. Bartlett (1933) interessou-se com as implicaes de se pensar numa amostra de
n elementos como um vetor dedimenson. Pode denominar-se a abordagem geomtrica de Bartlett como
sendo uma geometria analtica uma vez que todas as suas ideias se traduziam por frmula apropriadas. Uma
das vertentes que mais foi trabalhada por Bartlett foi nos quadrados latinos, onde quer os tratamentos, quer
os erros eram representados na forma vetorial. Em 1951, Durbin e Kendall fizeram um estudo sobre a
geometria da estimao no qual se explorou a vertente mais geomtrica dos trabalhos de Fisher. J em
1961, Kruskal traou uma abordagem geomtrica estimao dos mnimos quadrados de Gauss Markov .
Com os seus trabalhos, Kruskal incentivou os outros estatsticos a adotarem uma abordagem mais
geomtrica nos modelos lineares. Em 1967, Zyskind referiu-se aos vetores prprios ortogonais da matriz da
varincia-covarincia. Tambm em 1967, Watson continuou os estudos de Zyskind e usou a decomposio
espectral da mesma matriz relacionando os modelos lineares com os processos estocsticos. Muitos outros
estatsticos se debruaram sobre a aplicabilidade geomtrica na estatstica e, principalmente nos modelos
lineares: Seber, Scheff, Seely e tantos, tantos outros. Esta razo por si s suficiente para justificar o nosso
interesse por esta questo. O que viram estes estatsticos nesta ligao modelos lineares e geometria?

9

O modelo linear

No modelo linear tentamos modelar uma varivel resposta Y em funo da utilizao de uma ou mais
variveis preditoras X
0
, X
1
,,X
p
. O modelo que pretendemos construir dado pela expresso


Em que

representam os parmetros do modelo. Desta forma podemos matematicamente afirmar que


este modelo representa uma combinao linear das variveis preditoras.
Como todos os modelos que so concebidos, h sempre a necessidade de contemplar a existncia de
desvios (erros) e esses devem ser tidos em conta na expresso anterior. Neste caso, o modelo assume a
forma


Em que representa a variao dos valores da varivel resposta relativamente combinao linear com as
variveis preditoras.
Para que um modelo possa ser linear, tem que verificar certos pressupostos. Assim sendo:

Pressupostos:
1.


2.


3. {

so variveis aleatrias independentes



Evidentemente quando falamos em combinao linear falamos de representao matricial, e, como tal
podemos reescrever o nosso modelo da seguinte forma:
[

] este o vetor das variveis resposta


[

] o vetor dos p+1 parmetros do modelo



[

] a matriz n(p+1)

[

] o nosso vetor dos erros aleatrios


10

E, se podemos escrever o nosso modelo linear na forma matricial ento os pressupostos do mesmo devem
acompanhar esta alterao:
Pressupostos da forma matricial do modelo linear:
Se Y e so variveis aleatrias, X uma matriz constante e um vetor constante, ento
1.
2.



Agora que j percebemos que existe uma abordagem geomtrica aos modelos lineares, uma vez que estes
tm uma forma matricial, temos que tentar compreender como estimar os parmetros do modelo. Ora,
se queremos estimar os valores dos parmetros, pressupe-se a utilizao de mtodos de estimao
adequados. Vamos introduzir a geometria nesta questo da seguinte forma: tal como visto anteriormente,
ser um vetor de

assim como as colunas da matriz . Assim, uma combinao linear das colunas de
. Ser sempre conveniente considerarmos que as colunas da nossa matriz so linearmente
independentes e, como tal se ter . de extrema importncia que consigamos ter sempre uma
base formada pelas colunas da nossa matriz e, como tal, as colunas tero que ser linearmente
independentes, caso contrrios, teremos que retirar colunas s colunas da referida matriz como forma
de atingir o nosso propsito.
Estimao pelo mtodo dos mnimos quadrados

Sendo o nosso objetivo estimar o vetor podemos faz-lo utilizando o subespao das colunas de ,
escolhendo um vetor que esteja o mais prximo possvel do vetor observado. Em

podemos recorrer ao
produto interno e norma como forma de determinar o vetor

que minimize em que

. A
forma mais simples de o fazer ser recorrer projeco ortogonal do vetor sobre o espao das colunas de
. Assim, temos que


Pressupostos que deve verificar-se:
A matriz

, de dimenso (p+1)(p+1) tem que ser invertvel tal pode ser assegurado quer pelo
determinante da referida matriz, quer pela caracterstica da mesma.
A partir do momento que estimamos o valor de podemos ento obter os valores previstos da nossa
varivel resposta pois



Designamos ento por resduo a diferena entre os valores previstos de e os valores observados:


Se pensarmos em termos matriciais, o vetor de n resduos a projeco do vetor de observaes no
complemento ortogonal do subespao gerado pelas colunas da nossa matriz .
11

Desta forma, vir


Assim podemos tentar alargar este clculo e relacion-lo com algo que nos seja familiar:
Se quisermos calcular a soma dos quadrados dos resduos (vulgo SQRE) minimizamos a norma
ou o seu equivalente

. Resumindo, o mtodo que utilizmos para calcular os


parmetros uma particularizao do denominado Mtodo dos Mnimos quadrados.
O teorema de Pitgoras


Esta uma bonita demonstrao do teorema de Pitgoras que no muito habitual surgir nos textos
geomtricos. O teorema de Pitgoras assegura que


Desta forma, a soma anterior pode ser representada por
SQT=SQM+SQRE
Em que
(

)

a soma de quadrados total
(

)

a soma de quadrados associada ao nosso modelo
(

)

a soma de quadrados residual (erro)
No estudo do modelo linear o clculo do coeficiente de determinao fundamental:


Veja-se uma imagem representativa da geometria do Modelo Linear e tentemos perceber estas relaes:
Figura 6
12


Inferncia no Modelo Linear

No incio deste trabalho referimos a necessidade de estimar os valores dos parmetros do Modelo Linear.
Nesta abordagem geomtrica dos modelos, surgem alguns pressupostos:
Num modelo linear, o estimador

deve :
Ser um estimador centrado, i.e, [

]
[


Assim, cada estimador

tem uma distribuio aproximadamente Normal com valor esperado

e varincia

. De um modo geral os estimadores dos parmetros

no so independentes e a covarincia
entre 2 desses estimadores dada por :
(


Deste modo podemos afirmar que s existem covarincias nulas (estimadores independentes) se o elemento

for no nulo. Tal s acontecer quando as colunas da matriz forem ortogonais entre si.
Estimador de mxima verossimilhana

Um dos processos mais utilizados para estimar o valor de parmetros, claramente a estimao de mxima
verossimilhana. Atravs de uma deduo relativamente simples podemos concluir que os estimadores de
mxima verossimilhana coincidem neste caso com os estimadores determinados pelo mtodo dos mnimos
quadrados. A funo de verossimilhana dada por

Para obter o mximo de verossimilhana temos que minimizar este somatrio ( do expoente), ou seja, temos
que minimizar

, o mesmo dizer, temos que minimizar

(Mtodo dos mnimos


quadrados)
Figura 7 Esta a geometria associada ao
Modelo Linear. O vetor

representa o vetor
das observaes centradas na varivel
resposta. O vetor

representa o vetor
centrado de valores de Y ajustados pelo
modelo. O vetor e o vetor dos resduos e o
subespao gerado pelas colunas da matriz X
(observaes das variveis preditoras). O
quadrado do coseno do ngulo o
coeficiente de determinao


13

Distribuies das projeces ortogonais de

Se P for a matriz de projeco ortogonal sobre um subespao de

verificam-se alguma igualdades


importantes:


O vetor segue uma distribuio


Resduos

Anteriormente j tnhamos referido que


Num Modelo Linear , o vetor aleatrio dos resduos verifica:


Os resduos so ento variveis aleatrias Normais, com mdia zero e varincia

, no entanto, no
so independentes pois os elemento no diagonais da matriz

no so habitualmente nulos. Desta


forma, podemos ento determinar uma distribuio baseada na soma dos quadrados dos resduos, SQRE :


Intervalos de confiana

Em inferncia estatstica usual recorrermos estimao por intervalos de confiana para alm da
estimao pontual.
Se

o vetor dos parmetros

e k

um vetor constante, teremos que


Desta forma, dado um vetor (p+1)-dimensional de constantes k, a combinao linear

dos parmetros
estimados do modelo linear verifica-se que

em que



A expresso que nos permite estimar um intervalo de confiana para a combinao linear

dada por






14

Neste universo, podemos tambm necessitar de estimar um intervalo de confiana para




Em que



Quando queremos estimar um intervalo de confiana para



Em que




E, finalmente, a expresso para o intervalo de confiana de




Em que e




Testes de Hipteses

possvel efetuar testes de hipteses sobre combinaes lineares dos valores dos parmetros do Modelo
Linear.
semelhana dos habituais testes de hipteses que figuram na inferncia estatstica, podemos
primeiramente formular as nossas hipteses:

H
0
:


H
1
:



A estatstica do teste ser dada por



O nvel de significncia dado por



E a regio critica ser bilateral dada por |
|

em que



E, se estas so as estatstica de teste para a bilateralidade, tambm ser possvel realizar testes unilaterais:

H
0
:


H
1
:



A estatstica do teste ser dada por



O nvel de significncia dado por



15

E a regio critica ser bilateral dada por

(teste lateral direito) ou

(teste lateral
esquerdo) em que



Estes testes so testes de hipteses para combinaes lineares de


Exemplo de aplicao no R

Na busca por um exemplo onde pudssemos mostrar a aplicabilidade geomtrica dos modelos lineares,
deparmo-nos com esta situao, de um caso em que se pretende saber se possvel estabelecer uma
relao entre a presso atmosfrica e a temperatura de ebulio da gua. Estes dados foram recolhidos em
localidades alpinas, onde x representa o ponto de ebulio em graus Farenheit e y indica o valor de

sendo que a presso est medida em mmHg. Os dados encontram-se no ficheiro


exemplo.csv.
Leitura dos dados para o R:
> A<-read.table("C:/Users/carlinha/desktop/exemplo.csv",sep=";",header=TRUE)
> ebulio<-A[,1]
> presso<-A[,2]
O traado do diagrama de disperso que nos permitir avaliar se existe correlao entre as variveis em
estudo:
> plot(ebulio,presso)

Aps a observao do referido diagrama, bvio que procuramos o ajuste por um modelo de regresso
simples:
> lm(presso~ebulio,data=A)
Os coeficientes obtidos so a ordenada na origem b
0
=-42.1309 e o declive da reta de regresso b
1
=0.8955
16


Coefficients:
(Intercept) ebulio
-42.1309 0.8955

> summary(lm(presso~ebulio,data=A) )

Residuals:
Min 1Q Median 3Q Max
-0.32261 -0.14530 -0.06750 0.02111 1.35924

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -42.13087 3.33895 -12.62 2.17e-09 ***
ebulio 0.89546 0.01645 54.45 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.3789 on 15 degrees of freedom
Multiple R-squared: 0.995, Adjusted R-squared: 0.9946
F-statistic: 2965 on 1 and 15 DF, p-value: < 2.2e-16

> B<-lm(presso~ebulio,data=A)
Clculo dos valores ajustados


> fitted(B)
132.0366 131.8575 135.0812 135.5289 136.4244 136.8721 137.7676 137.9466

138.2153
138.1257 140.1853 141.0808 145.4685 144.6626 146.5431 147.6176

147.8863



Estimativas para cada parmetro
Erro padro


Valores de R e R
2

17

Os resduos podem ser determinados com o comando
> residuals(B)

-0.246590305 -0.067497800 -0.061162889 0.021105848 0.035643323 -0.042087939
.. ..


Determinando um intervalo de confiana para o parmetro


> confint(B)
2.5 % 97.5 %
(Intercept) -49.2476789 -35.0140626
ebulio 0.8604095 0.9305155
> confint(B,level=0.90)
5 % 95 %
(Intercept) -47.9842221 -36.2775194
ebulio 0.8666325 0.9242925

E como estamos a falar de geometria nos modelos lineares, porque no calcular a matriz de covarincia
estimadas, correspondente a


> vcov(B)
(Intercept) ebulio
(Intercept) 11.14860178 -0.0548903472
ebulio -0.05489035 0.0002704585
Vamos evoluir no nosso modelo estabelecendo a matriz da projeco sobre o subespao coluna de :
> X<-model.matrix(B)
> Px <- X %*% solve(t(X) %*% X) %*% t(X)
> Px

Com dois nveis de significncia


18


1 2 3 4 5 6
1 0.19344032 0.19662540 0.139293828 0.131331109 0.115405672 0.107442953
2 0.19662540 0.19988585 0.141197788 0.133046668 0.116744428 0.108593308
3 0.13929383 0.14119779 0.106926512 0.102166613 0.092646814 0.087886915
4 0.13133111 0.13304667 0.102166613 0.097877717 0.089299924 0.085011027
5 0.11540567 0.11674443 0.092646814 0.089299924 0.082606142 0.079259251
6 0.10744295 0.10859331 0.087886915 0.085011027 0.079259251 0.076383363
7 0.09151752 0.09229107 0.078367116 0.076433234 0.072565469 0.070631587
..
O que permite gerar o nosso vetor


> Px %*% presso
[,1]
1 132.0366
2 131.8575
3 135.0812
4 135.5289
5 136.4244
6 136.8721
7 137.7676
. . .
A construo do vetor dos resduos (

)
> (diag(17)-Px) %% presso

1 2 3 4 5 6
1 0.80655968 131.59337460 1.316507e+02 1.316587e+02 1.316746e+02 131.6825570
2 131.59337460 0.80011415 1.316488e+02 1.316570e+02 1.316733e+02 131.6814067
3 134.88070617 134.87880221 8.930735e-01 1.349178e+02 1.349274e+02 134.9321131
.. .. ..
19

J tivemos a oportunidade de referir a importncia da anlise de varincia no estudo dos modelos lineares
noutras ocasies. Esta no exceo.
> anova(B)
Response: presso
Df Sum Sq Mean Sq F value Pr(>F)
ebulio 1 425.61 425.61 2964.8 < 2.2e-16 *** pvalue significativo

E o clculo de 3 formas de resduos possveis que permite estudar a qualidade do ajuste dos dados ao
modelo :
> residuals(B)
1 2 3 4 5 6
-0.246590305 -0.067497800 -0.061162889 0.021105848 0.035643323 -0.042087939
7 8 9 10 11 12
0.052449536 0.053357031 -0.155281726 -0.075735474 -0.145299281 1.359238194
13 14 15 16 17
0.001471823 -0.322611905 -0.243083207 -0.077638237 -0.086276994
> rstandard(B)
1 2 3 4 5 6
-0.724684865 -0.199161364 -0.170818870 0.058649127 0.098218144 -0.115585468
7 8 9 10 11 12
0.143297072 0.145661623 -0.423474326 -0.206607534 -0.395458989 3.707950211
13 14 15 16 17
0.004187856 -0.907110191 -0.705024141 -0.230491115 -0.257820456
> rstudent(B)
1 2 3 4 5 6
-0.712699486 -0.192663060 -0.165187452 0.056666937 0.094918269 -0.111715932
7 8 9 10 11 12
0.138532978 0.140822128 -0.411582776 -0.199886460 -0.384056986 12.403692530
13 14 15 16 17
20

0.004045855 -0.901424962 -0.692691672 -0.223070953 -0.249631950
O clculo dos efeitos alavanca e as distncias de Cook so uma mais valia na anlise do nosso modelo linear:
> hatvalues(B)

1 2 3 4 5 6 7
0.19344032 0.19988585 0.10692651 0.09787772 0.08260614 0.07638336 0.06676382
8 9 10 11 12 13 14
0.06529208 0.06336706 0.06397105 0.05961234 0.06393448 0.13957975 0.11890328
15 16 17
0.17189609 0.20963838 0.21992176
> cooks.distance(B)
1 2 3 4 5 6
6.297655e-02 4.954619e-03 1.746787e-03 1.866000e-04 4.343201e-04 5.524379e-04
7 8 9 10 11 12
7.345042e-04 7.410455e-04 6.066222e-03 1.458668e-03 4.956808e-03 4.695336e-01
13 14 15 16 17
1.422542e-06 5.552139e-02 5.158924e-02 7.045687e-03 9.369896e-03

A anlise grfica dos resduos de simples execuo:
> par(mfrow=c(2,4))
> plot(B)

> par(mfrow=c(2,4))
> plot(B,which=1:6,add.smooth=FALSE)
21



A observao do 1 grfico (fitted values) no regista qualquer padro pelo que est assegurada a
homogeneidade. A disposio da nuvem de pontos em torno de uma reta que se regista no grfico Q-Q
assegura a normalidade dos dados no ajuste. No existe qualquer registo de padro no grfico scale location
pelo que a heterocedasticidade est tambm garantida. No grfico Leverage, encontramos apenas um ponto
com efeito de alavancagem , o que no significativo. Caso houvessem outros, os coeficientes do modelo
estariam comprometidos. A distncia de Cook com valores elevados justificvel pelo tamanho reduzido da
nossa amostra.
O nosso exemplo analiticamente

Atendendo aos nossos dados procurmos ajustar um modelo de regresso linear do tipo


Dos dados do nosso exemplo formulao geomtrica do problema:
131.79=

+ 194.5


22

131.79=

+ 194.3



147.80=

+ 212.2


Ou seja,

] [



] [

] [

] [



] [

] [

]

[

] [

] [

[


] [



]
De um modo geral

] [

] [

] [

] [

]
Desta forma a estimativa para os parmetros do nosso modelo dada por


Dos procedimentos conduzidos no R retiramos :

=-42.1309 e

=0.8955 , pelo que o nosso modelo


assumir a forma :

sendo a logaritmo da presso e o ponto de ebulio


Concluso

Existe uma extrema riqueza geomtrica associada aos modelos lineares e que deve ser explorada. No incio
do sc XX ainda no se tinha bem a noo da interdisciplinaridade existente entre a geometria, a lgebra e os
modelos lineares. Com o avanar das investigaes e a necessidade de criar modelos preditivos
(principalmente), houve necessidade de evoluir e pensar em modelos de regresso sob o prisma vetorial . Os
23

parmetros dos modelos podem ser estimados atravs de operaes entre matrizes e vetores. Como em
tudo o resto, o software R continua na linha da frente na aplicabilidade geomtrica dos modelos lineares.
24

Bibliografia e webgrafia

1. Crawley, M.J. 2005. Statistics: An Introduction using R. John Wiley & Sons
2. http://www.stat.auckland.ac.nz/~lee/330/lects/762slides1.pdf
3. www.isa.utl.pt/dm/mestrado/mmacb/UCs/.../webMECap3.pdf
4. www.isa.utl.pt/dm/mestrado/mmacb/UCs/.../webMECap2.pdf
5. www.isa.utl.pt/dm/mestrado/mmacb/UCs/.../webMECap1.pdf
6. homepages.dcc.ufmg.br/~assuncao/an/regressao.ppt
7. http://www.stat.berkeley.edu/~nolan/stat135/HO/geometry2d.pdf
8. http://ceseephd.net/wp-content/uploads/2011/12/Projection1.pdf
9. http://www.uned.es/personal/rosuna/resources/papers/Herr80.pdf
10. http://www.statslab.cam.ac.uk/~pat/redwsheets.pdf

Вам также может понравиться