Академический Документы
Профессиональный Документы
Культура Документы
Multikollinearitt
4.1 Begriff der Multikollinearitt
- Naturwissenschaften:
Experimentator kann die Werte der unabhngigen Variablen festlegen
(Unabhngigkeit, keine Korrelation)
- Wirtschaftswissenschaften:
Werte der unabhngigen Variablen werden beobachtet (Abhngigkeit,
Korrelation)
Problematik in Wirtschaftswissenschaften:
Dadurch, dass die unabhngigen Variablen korreliert sind, wird die Messung
ihres isolierten Einflusses auf die abhngige Variable erschwert. Eine Variable,
die mit einer anderen Variablen korreliert ist, misst zum Teil den Einfluss der
anderen Variablen mit. Wenn die unabhngigen Variablen in einem Regressionsmodell miteinander korreliert sind, spricht man von Multikollinearitt.
Bei Multikollinearitt ist der Gesamteinfluss der unabhngigen Variablen auf
die abhngige Variable exakt erfassbar. Die Zurechenbarkeit des Gesamteinflusses der unabhngigen Variablen ist dagegen aufgrund ihrer wechselseitigen Abhngigkeit nicht eindeutig mglich.
y t 1x1t 2x 2t 3x3t u t
mit der Scheinvariablen x1t=1 und den beiden Einflussgren x2 und x3. Wenn nun
die beiden Regressoren x2 und x3 exakt linear miteinander verknpft sind,
(4.2)
x 3t x 2t
y t 1x1t 2 3 x 2t u t
die nun ohne weiteres mit der OLS-Methode geschtzt werden kann. Dabei kann
jedoch nur der Gesamteinfluss 2+3 der beiden Einflussgren x2 und x3 ermittelt
werden. Er kann nicht in die Einzeleinflsse 2 und 3 separiert werden, so dass
man diese beiden Parameter als nicht identifizierbar bezeichnet.
Schtztechnisch bedeutet dies, dass an Stelle einer Regressionsebene nur eine
Regressionsgerade im dreidimensionalen Raum bestimmt werden kann. Wenn zwischen den beiden Regressoren x2 und x3 anstelle von (4.2) eine lineare Abhngigkeit der Form
x 3t x 2t
(4.4)
bestehen wrde, dann wrde die schtzbare Regressionsgleichung
(4.5)
y t 1 3 x1t 2 3 x 2t u t
lauten. In diesem Fall wre auch der Achsenabschnitt 1 nicht mehr identifizierbar.
Auftreten exakter Multikollinearitt:
- aufgrund definitorischer Beziehungen
- bei fehllerhafter Definition von Dummy-Variablen
In der konometrischen Praxis tritt bei korrekter Modellierung in der Regel keine
exakte Multikollinearitt auf, sondern eine nicht perfekte Multikollinearitt, die
durch hohe, aber von +1 bzw. -1 verschiedene Korrelationen zwischen den unabhngigen Variablen zustande kommt.
x 3t x 2 t
x2
Die Schtzung der Regressionsebene in dem von den Variablen y, x2 und x3 aufgespannten Raum ist unsicher. Denn mit zunehmender Nhe der Projektionen der Beobachtungswerte zu der Geraden geht die Regressionsebene, die sich der dreidimensionalen Punktewolke optimal anpasst, immer mehr in eine Regressionsgerade im
dreidimensionalen Raum ber. Wenn alle projizierten Beobachtungen auf der Geraden (4.4) liegen, ist die Lage der Regressionsebene vollkommen unbestimmt. Je
mehr die projizierten Beobachtungen dagegen in der x2, x3-Ebene streuen (=strkere Tendenz zur Unabhngigkeit), umso breiter ist die Basis zur Bestimmung einer
Regressionsebene im dreidimensionalen Raum.
~
y t y t y, ~
x 2t x 2t x 2 und ~
x 3t x 3t x 3
x 21
~
~
~ x 22
X
~
x 2n
~
x 31
~
x 32
~
x 3n
x 22t
x 2t ~
x 3t
~ ~ ~
~
X' X
2
~
~
~
x 2 t x3t x3t
~ ~
X' X ~
x 22t ~
x32t ~
x 2t ~
x3t 2
x32t
~
x 2t ~
x 3t
~ ~ adj ~
X' X ~ ~
2
~
x 2 t x3t x 2 t
~ ~ 1 ~
X' X X' ~
y
~
y ~
y1~
y2 ~
yn
mit
die Varianz-Kovarianz-Matrix
(4.7)
Cov X' X
2 ~ ~ 1
2
~
x 3t
~
x 2t ~
x 3t
2
2
2
2
~
~
~
x 2t ~
x 3t ~
x 2t ~
x 3t x 2t x 3t x 2t
~
Var 2
2 ~
x 32t
x 22t ~
x 32t ~
x 2t ~
x 3t 2
~
2 ~
x 22t
und Var 3
x 22t ~
x 32t ~
x 2t ~
x 3t 2
~
Man erhlt eine geeignete Interpretation der Multikollinearitt, wenn man hierin
den Korrelationskoeffizienten r23 zwischen x2 und x3 einfhrt, der durch
x 2t ~
x 3t
~
r23
x 22t ~
x 32t
~
definiert ist.
23
2t
3t
(4.8)
Var 2
2
2
1 r23
x 2t
~
und
2
Var 3
(4.9)
2
2
1 r23
x3t
~
betrgt. Das bedeutet, dass eine berschtzung von 2 mit einer Unterschtzung von 3 einhergeht und umgekehrt.
C max / min
max: grter Eigenwert von XX, min: kleinster Eigenwert von XX
x 2 t 12 x1t 32 x 3t 2k x kt
x 3t 13 x1t 32 x 2 t 3k x kt
x kt 1k x1t k2 x 2 t kk 1x k 1,t .
2
Fr jede dieser Hilfsregressionen wird ein Bestimmtheitsma R j berechnet, bei
dem der Index j angibt, dass xj als abhngige Variable fungiert. Multikollinearitt
kann anhand von
- F-Tests oder
- Toleranzkoeffizienten und Varianzinflationsfaktoren
diagnostiziert werden.
Fj
R 2j k 2
1 R 2j
n k 1
, j 2,3,, k
lautet.
Testentscheidung:
Fj Fk 2;n k 1;1
Beispiel:
Mit der Geldnachfragefunktion (2.28) haben die logarithmierte Geldnachfrage
(ln m) durch die auf einer logarithmischen Skala gemessenen exogenen Variablen Einkommen (ln y) und Zinssatz (ln r) erklrt. Wir setzen jetzt die behandelten Verfahren zur Aufdeckung von Multikollinearitt ein.
Einfache und erweiterte Korrelationsanalyse
Korrelationskoeffizienten r23 zwischen ln y und ln r: -0.689
r23= 0,689 < 0,8 keine gravierende Multikollinearitt
ln y t ln rt
X'X det ln y t ln y t 2
2
3x 3
ln rt ln rt ln y t ln rt
0,689
1
2
R det
0
,
689
0,5253 >> 0 keine grav. Multikollinearitt
1
0,689
Verfahren der Hilfsregressionen
In dem Verfahren der Hilfsregressionen ist allein eine Regression durchzufhren, da es im Hinblick auf die Bestimmtheit gleichgltig ist, ob ln y auf ln r oder
ln r auf ln y regressiert wird.
^
R2 = 0,475
- F-Test
Prfgre (n=19, k=3):
F2
R 22 k 2
1 R 22 n k 1
0,475 /(3 2)
0,475
15,381
(1 0,475) /(19 3 1) 0,923 / 17
VIF2
1
1
1,904
tol2 0,525
Externe Informationen
Angenommen, es wird die Nachfrage nach einer Gtergruppe in Abhngigkeit vom
Einkommen und dem Preisniveau unter Verwendung von Zeitreihendaten konometrisch untersucht. Da das Einkommen hufig mit dem Preisniveau korreliert sein
wird, ist mit Multikollinearitt zu rechnen. Wenn nun die Grenordnung des Einflusses des Einkommens auf die Nachfrage der Gtergruppe z.B. aus einer Quer
schnittserhebung bekannt ist, knnte auf diese externe Information zurckgegriffen werden, um konometrisch den separaten Einfluss des Preises auf die Nachfrage zu schtzen.
Problematik:
Im Rahmen der Zeitreihenanalyse knnte ein langfristiger Reaktionskoeffizient
des Einkommens auf die Nachfrage gesucht sein, obwohl aus der Querschnittsanalyse nur ein kurzfristiger Reaktionskoeffizient bestimmbar ist.
Verfahren der Variablenunterdrckung
Wenn z.B. zwei Variablen hoch korreliert sind, erfasst eine der beiden Variablen
zugleich den grten Teil des Einflusses der anderen Variablen, so dass der Erklrungsgehalt" bei der Unterdrckung einer Variablen im Groen und Ganzen erhalten bleibt. Die Multikollinearitt wird dadurch nicht nur vermindert, sondern sogar
vllig ausgeschaltet.
Problematik:
Fehlspezifikation der Regressionsgleichung (Strvariable fngt die Systematik auf)
y t 1 2 x 2t 3 x 3t u t
Subtrahiert man hiervon die Regressionsgleichung fr die Vorperiode t-1,
y t 1 1 2 x 2,t 1 3 x 3,t 1 u t 1
so erhlt man das Regressionsmodell
(4.13) y t 2 x 2t 3x 3t u t
wobei z.B. yt = yt yt-1 bedeutet. In dem Mae, wie es gelingt, den Trend aus
den exogenen Variablen x2 und x3 auszuschalten, vermindert sich die Multikollinearitt gegenber dem ursprnglichen Modell mit den Niveauvariablen.
Problematik:
- Verringerung des Streubereichs der Regressoren durch Differenzenbildung;
- Autokorrelation der Strvariablen
Problematik:
- Die geschtzten Reressionskoeffizienten werden durch die Anzahl der verwendeten Hauptkomponenten beeinflusst.
- Die Rcktransformation ist mit einem Gewichtungsproblem verbunden, das sich
ebenfalls in den geschtzten Regressionskoeffizienten widerspiegelt.