Академический Документы
Профессиональный Документы
Культура Документы
Kurzskript zu Statistik I
Warnung: Die vorliegenden Seiten sind nur als kommentierte Formelsammlung zu verstehen. Sie sind
bewuÿt knapp gehalten und ersetzen keinesfalls ein umfangreicheres Skript oder Lehrbuch.
Inhaltsverzeichnis
1 Einführung 1
3 Wahrscheinlichkeitsrechnung 8
3.1 Zufallsvorgang und Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Verknüpfungen von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.4 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.5 Unabhängigkeit zweier Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5 Parameterschätzung 18
5.1 Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 Eigenschaften von Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.1 Erwartungstreue und Ezienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.2 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.3 Konstruktion von Schätzfunktionen (Momentenmethode) . . . . . . . . . . . . . . . . . . 21
6 Kondenzintervalle 21
6.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.2 Kondenzintervalle für den Erwartungswert µ bei Normalverteilung . . . . . . . . . . . . . 22
6.3 Kondenzintervalle für einen Anteilswert p . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
7 Statistische Tests 25
7.1 Prinzipien des Testens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2 Tests auf µ bei Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
7.3 Test auf einen Anteilswert p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7.4 Zweiseitige Tests und Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Literatur:
Bamberg, G., Baur, F., Statistik. 11. Au., Oldenbourg, 2000.
Bleymüller, J., Gehlert, G., Gülicher, H., Statistik für Wirtschaftswissenschaftler. 10. Au., Vahlen, 1996.
Fahrmeir, Künstler, Pigeot, Tutz, Statistik: Der Weg zur Datenanalyse. 2. Au., Springer, 1999.
Hartung, J., Statistik. Lehr- und Handbuch der angewandten Statistik. 11. Au., Oldenbourg, 1998.
Heike, H.-D., C. Tarcolea, Grundlagen der Statistik und Wahrscheinlichkeitsrechnung. Oldenbourg, 2000.
Krämer, W., So lügt man mit Statistik. Campus, 1997.
Lehn, J., Wegmann, H., Einführung in die Statistik. 3., überarbeitete Auage, Teubner, 2000.
Lehn, J., Wegmann, H., Rettig, S., Aufgabensammlung zur Einführung in die Statistik. 2. Au., Teubner,
1994.
Mittelhammer, R. C., Mathematical Statistics for Economics and Business. Springer, 1996.
Schlittgen, R., Einführung in die Statistik: Analyse und Modellierung von Daten. 9. Au., Oldenbourg,
1999.
1 Einführung
Die Statistik hat einen schlechten Ruf, den folgende Polemiken zum Ausdruck bringen:
• Glaube keiner Statistik, die du nicht selbst gefälscht hast. Volksmund,
• There are three kinds of lies: lies, damned lies, and statistics. Benjamin Disraeli.
Dies ist wohl darin begründet, daÿ wir Statistik häug nutzen wie Betrunkene einen Laternenpfahl: vor
allem zur Stütze unseres Standpunktes und weniger zum Beleuchten eines Sachverhalts, Andrew Lang.
Andererseits erfreut sich die Statistik auch von unvermuteter Seite groÿer Wertschätzung:
• Man hat behauptet, die Welt werde durch Zahlen regiert: das aber weiÿ ich, daÿ die Zahlen uns belehren,
ob sie gut oder schlecht regiert werde. Goethe, Gespräche mit Eckermann,
• A basic literacy in statistics will one day be as necessary for ecient citizenship as the ability to read
and write. H.G. Wells.
Tatsache ist, daÿ Statistik in vielen Bereichen des täglichen Lebens sowie der Wirtschaft und Wissenschaft
zur Anwendung kommt. Einige Beispiele sind:
• Mietspiegel
• Einschaltquote beim Fernsehen
• Wahlhochrechnungen
• Analyse von Finanzmärkten
• Marktforschung
• Prognose des Wirtschaftswachstums
• Wetter
Dabei gibt es den Begri Statistik in einem doppeltem Wortsinn. Er wird zum einen im Sinne der
Ansammlung quantitativer Informationen über bestimmte Sachverhalte verwendet, z.B. Arbeitslosensta-
tistik, zum anderen als Begri für Methoden zur Erhebung, Darstellung und Analyse von Daten. Diesen
Methoden sind die Lehrveranstaltungen Statistik I und II gewidmet. Im Prinzip haben wir
• beschreibende oder deskriptive Statistik: Darstellung von Daten,
• schlieÿende oder induktive Statistik: Statistische Schluÿfolgerungen auf der Basis von Modellen.
Diese Unterscheidung erscheint in der Praxis oft künstlich, weil es von der Deskription zur Indukiton
häug nur ein (gewagter?) Schritt ist.
2.1 Grundbegrie
Die Grundgesamtheit ist die Menge aller Personen, Einheiten oder Objekte, die im Hinblick auf ein
bestimmtes Untersuchungsziel relevant sind. Ein einzelnes Element dieser Grundgesamtheit heiÿt Merk-
malsträger, und die interessierenden Eigenschaften werden als Merkmale oder Variablen bezeichnet und
häug mit X notiert. Ein konkreter Wert eines Merkmals heiÿt Merkmalsausprägung oder Realisation.
Als Rohdaten bezeichnet man nicht geordnete, in der Erhebungsreihenfolge gegebene Daten (oder Beob-
achtungen ) x1 , . . . , xn . Die Anzahl der Daten n wird gern als Stichprobenumfang bezeichnet. Ein geord-
neter Datensatz beinhaltet der Gröÿe nach sortierte Beobachtungen, x(1) ≤ x(2) ≤ . . . ≤ x(n) .
Die Natur der Variablen bestimmt die statistischen Analysemöglichkeiten. Wir unterscheiden zwischen
diskreten und stetigen Variablen:
• diskret: endlich bzw. abzählbar viele Ausprägungen,
• stetig: alle Werte eines Intervalls möglich.
Überdies ist das Skalenniveau eines Merkmals maÿgeblich:
• nominal: reine Klasseneinteilung,
• ordinal: Ordnungsstruktur,
• metrisch: sinnvolle Abstände.
Schlieÿlich können Merkmale eindimensional (oder univariat, z.B. Gewicht einer Person) oder mehrdi-
mensional (z.B. bivariat, Gewicht und Körpergröÿe) sein.
2.2 Häugkeitsverteilungen
In diesem Abschnitt gehen wir von einem eindimensionalen Datensatz aus. Dieser kann in einer Häug-
keitstabelle oder auch in Form einer Graphik dargestellt werden. Die Vorgehensweise ist für diskrete und
stetige Variablen unterschiedlich, da man im diskreten Fall die Ausprägungen einzeln betrachten kann,
während im stetigen Fall die Ausprägungen in Klassen eingeteilt werden. Hat eine diskrete Variable sehr
viele einzelne Ausprägungen, so wird sie oft so behandelt, als wäre sie stetig. Genauso kann es auch sein,
daÿ aufgrund einer sehr groben Messung ein stetiges Merkmal als diskret interpretiert wird.
Wir betrachten ein diskretes Merkmal X mit den Ausprägungen1 x1 , . . . , xk , wobei k die Anzahl der
verschiedenen Realisationsmöglichkeiten ist, und einen dazu gehörigen Datensatz vom Umfang n.
Die Anzahl der vorkommenden xi ist die absolute Häugkeit. Sie wird mit n(X = xi ) oder ni bezeichnet.
Setzt man die absolute Häugkeit in Relation zum Umfang des Datensatzes, so erhält man die relative
Häugkeit oder den Anteil der xi . Bezeichnet wird die relative Häugkeit mit h(X = xi ) = hi = ni /n. Die
P
kumulierte, relative Häugkeit ist in der Form h(X ≤ xi ) = ij=1 hj deniert, für x1 < x2 < · · · < xk .
Zusammengefaÿt werden die Häugkeiten in einer Häugkeitstabelle, wobei der Ausdruck F̂ (xi ) erst
nachfolgend deniert wird:
Pi
i xi ni hi j=1 hj = F̂ (xi )
.. .. .. .. ..
. . . . .
Um sich schnell einen Überblick über die Häugkeitsverteilung eines Merkmals zu verschaen, ist die
graphische Darstellung der Daten sehr sinnvoll. Dabei gibt es eine Vielzahl von Möglichkeiten. Bei einem
Stab- bzw. Balkendiagramm werden auf der horizontalen Achse die Merkmalsausprägungen abgetragen
1 Es besteht die Gefahr, die k Realisationsmöglichkeiten mit den n Realisationen notationell zu verwechseln; trotzdem
schiene es etwas übertrieben, für die Ausprägungen ein eigenes Symbol einzuführen.
und auf der vertikalen Achse die relativen (oder absoluten) Häugkeiten in Form von Stäben oder Balken.
Beim Kreis- bzw. Tortendiagramm entsprechen die Flächen der Kreissektoren bzw. der Tortenstücke
den Häugkeiten.
Um die kumulierten, relativen Häugkeiten graphisch darzustellen, muÿ man h(X ≤ x) für jeden x-Wert
in ein Diagramm zeichnen. Das führt auf die empirische Verteilungsfunktion, die folgendermaÿen deniert
ist für x1 < x2 < . . . < xk :
0 für x < x1
Pi
F̂ (x) = h(X ≤ x) = hj für xi ≤ x < xi+1 , i = 1, . . . , k − 1
j=1
1 für x ≥ xk
Im diskreten Fall ist die empirische Verteilungsfunktion eine Treppenfunktion. Sie ist monoton steigend
und beschränkt zwischen 0 und 1.
Es werde nun ein stetiges Merkmal X betrachtet. Die Realisationen dieser Variablen sind in k Klassen
eingeteilt:
(x∗0 , x∗1 ], (x∗1 , x∗2 ], (x∗2 , x∗3 ], . . . , (x∗k−1 , x∗k ].
Die Anzahl der Realisationen in der i-ten Klasse (x∗i−1 , x∗i ] ist die absolute Häugkeit. Sie wird analog
zum diskreten Fall mit ni oder n(x∗i−1 < X ≤ x∗i ) bezeichnet. Die relative Häugkeit ergibt sich wiederum
aus der Division durch n, den Umfang des Datensatzes, und beschreibt den Anteil der Realisationen in
Pi
der i-ten Klasse: hi = ni /n. Die kumulierte, relative Häugkeit ist durch h(X ≤ x∗i ) = j=1 hj deniert.
Da bei unterschiedlichen Klassenbreiten relative Häugkeiten für die graphische Darstellung wenig aus-
ssagekräftig sind, werden beim Übergang zur Häugkeitsdichte fˆ die relativen Häugkeiten hi durch die
Klassenbreiten ∆i = x∗i − x∗i−1 dividiert. Die Häugkeitsdichte ist damit wie folgt deniert:
h(x∗ < X ≤ x∗ )/∆i für x∗ < x ≤ x∗ , i = 1, . . . , k
i−1 i i−1 i
fˆ(x) =
0 sonst
Pi
i x∗i−1 < X ≤ x∗i ni hi ∆i fˆ(x) j=1 hj = F̂ (x∗i )
.. .. .. .. .. .. ..
. . . . . . .
Das Histogramm ist die graphische Darstellung der Häugkeitsdichte fˆ, die auf der vertikalen Achse
abgetragen wird. Die x-Werte benden sich auf der horizontalen Achse des Koordinatensystems. Es
werden beim Histogramm Blöcke der Fläche hi und der Breite ∆i auf die Klassenmitten der Klassen
gestellt, in die die jeweiligen Beobachtungen fallen.
Die empirische Verteilungsfunktion bei klassierten Daten ist deniert durch:
0 für x ≤ x∗0
Pi−1 ˆ ∗
F̂ (x) = h(X ≤ x) = ∗ ∗ ∗
j=1 hj + (x − xi−1 ) · f (xi ) für xi−1 < x ≤ xi , i = 1, . . . , k
1 für x > x∗ k
Für die Klassenobergrenzen x∗i , i = 1, . . . , k , entspricht F̂ (x∗i ) den kumulierten, relativen Häugkeiten
Pi
j=1 hj , wie auch schon der Häugkeitstabelle zu entnehmen ist. Eine andere Darstellung der empirischen
Verteilungsfunktion ist
Die empirische Verteilungsfunktion ist eine stetige, aus Geradenstücken zusammengesetzte, monoton
wachsende Funktion mit Werten zwischen 0 und 1.
2.3 Maÿzahlen
Zur Beschreibung der Häugkeitsverteilung eines Merkmals sind aber nicht nur die Häugkeitstabel-
len und entsprechende graphische Darstellungen wichtig, sondern auch Maÿzahlen, die beschreiben, um
welchen Wert herum sich die Verteilung bendet (Lage) und wie die Werte schwanken (Streuung).
Weiterhin wird ein eindimensionales Merkmal unterstellt.
2.3.1 Lagemaÿe
Das arithmetisches Mittel x (Mittelwert oder Durchschnitt) ist die bekannteste Maÿzahl zur Beschreibung
der Lage einer Verteilung. Es wird je nach Datengrundlage auf folgende Weise berechnet:
n
1X
x= xi (aus Rohdaten)
n i=1
k
X
x≈ mi · hi (aus Häugkeitstabelle, stetig, approximativ),
i=1
x∗i−1 + x∗i
wobei mi die Klassenmitte der i-ten Klasse ist: mi = .
2
Für das arithmetische Mittel gelten folgende Regeln:
• Lineartransformation der Daten yi = a + b xi , i = 1, . . . , n : y = a + bx
• Summe von Daten in der Form zi = xi + yi , i = 1, . . . , n : z =x+y
Ein weiteres Lagemaÿ ist der Median oder 50%-Punkt, x0.50 . Er halbiert den geordneten Datensatz
x(1) , . . . , x(n) . Bei ungeradem Umfang n ist der Median der mittlere Wert im geordneten Datensatz und
bei geradem n der Mittelwert aus den beiden mittleren Werten.
x((n+1)/2) n ungerade
x0.5 =
1 (x
2 (n/2) + x(n/2+1) ) n gerade
Im Unterschied zum arithmetischen Mittel x ist der Median robuster gegenüber Ausreiÿern in den Daten
und für die Beschreibung der Lage einer Verteilung in vielen Fällen besser geeignet.
2.3.2 Streuungsmaÿe
Die mittlere quadratische Abweichung d2 ist ein Maÿ für die Streuung der Daten, wobei Streuung ein
relativer Begri ist und der numerische Wert von der Skalierung des Merkmals abhängt. Formal handelt
es sich um das arithmetische Mittel der quadrierten, um x zentrierten Daten. Je nach Datengrundlage
wird d2 gemäÿ folgender Formeln berechnet:
n
1X
d2 = (xi − x)2 (aus Rohdaten)
n i=1
k
X
d2 ≈ (mi − x)2 · hi (aus Häugkeitstabelle, stetig, approximativ),
i=1
2.4 Quantile
Betrachtet man nicht nur den Median oder 50%-Punkt, sondern beliebige Prozentpunkte oder Quantile,
so bendet man sich sowohl bei einer Lage- als auch zum Teil schon bei einer Streuungsbetrachtung der
Verteilung.
Für die Rohdaten seien an dieser Stelle nur der 25%-Punkt (unteres Quartil ) x0.25 und der 75%-Punkt
(oberes Quartil ) x0.75 erwähnt. Um diese Werte zu bestimmen, geht man folgendermaÿen vor. Der Daten-
satz wird halbiert, wobei im Falle eines ungeraden Stichprobenumfangs n, der Median der Daten sowohl
der untere Datenhälfte als auch der oberen Datenhälfte zugeschlagen wird. Das untere Quartil x0.25 ist
dann der Median der unteren Hälfte des Datensatzes und das obere Quartil x0.75 der Median der oberen
Hälfte.
Für klassierte Daten werden beliebige Prozentpunkte oder p-Quantile betrachtet. Für 0 < p ≤ 1 und
F̂ (x∗i−1 ) < p ≤ F̂ (x∗i ) ergibt sich das p-Quantil in der folgenden Form:
p − F̂ (x∗i−1 )
xp = x∗i−1 + .
fˆ(x∗ )
i
der wie auch schon der Median im Vergleich zum Mittelwert bei Ausreiÿern robuster als die mittlere
quadratische Abweichung ist.
Der Boxplot ist eine übersichtliche graphische Darstellungsform eines univariaten Datensatzes. Man be-
kommt unter anderem einen Eindruck über Lage, Streuung und Schiefe von Daten sowie insbesondere
beim Vergleich mehrerer Datensätze über Unterschiede hinsichtlich dieser Merkmale. Die grundlegen-
de Form des Boxplots basiert auf fünf Kennzahlen eines Datensatzes, dem Minimum x(1) , dem unteren
Quartil x0.25 , dem Median x0.50 , dem oberen Quartil x0.75 und dem Maximum x(n) . Diese Werte sind aus
einem geordneten Datensatz ohne groÿe Rechnung leicht zu bestimmen. Durch die Art der graphischen
Darstellung und die leichte Berechenbarkeit ermöglicht es einem der Boxplot, schnell einen eektiven
Überblick über die Daten zu bekommen. Das Grundschema eines Boxplots sieht folgendermaÿen aus:
Vom unteren bis zum oberen Quartil wird eine Schachtel (box) gezeichnet. Diese wird durch den Median
unterteilt. Vom unteren Quartil bis zum Minimum sowie vom oberen Quartil bis zum Maximum zeichnet
man Schnurrhaare (engl: whisker). Boxplot ist nämlich eigentlich die Kurzform von Box-and-Whisker-
Plot.
• absolute Häugkeit:
nij = n(X = xi , Y = yj )
• relative Häugkeit:
hij = h(X = xi , Y = yj ) = nij /n
• absolute Randhäugkeit:
Pm
ni• = n(X = xi ) = j=1 nij (i-te Zeile) und
Pk
n•j = n(Y = yj ) = i=1 nij (j-te Spalte)
• relative Randhäugkeit:
Pm
hi• = h(X = xi ) = j=1 hij (i-te Zeile) und
Pk
h•j = h(Y = yj ) = i=1 hij (j-te Spalte)
In der Kontingenztabelle sind noch einmal exemplarisch die absoluten Häugkeiten in allgemeiner Form
dargestellt.
Y
X\ y1 y2 ... ym Σ
x1 n11 n12 ... n1m n1•
x2 n21 n22 ... n2m n2•
.. .. .. .. .. ..
. . . . . .
xk nk1 nk2 ... nk
• −1 ≤ r ≤ 1 (Normierung),
• r=1:
Die Punkte liegen exakt auf einer steigenden Geraden (perfekter positiv linearer Zusammenhang),
• r = −1 :
Die Punkte liegen exakt auf einer fallenden Geraden (perfekter negativ linearer Zusammenhang),
• r=0:
Es besteht kein linearer Zusammenhang, aber möglicherweise trotzdem ein nicht-linearer Zusam-
menhang zwischen X und Y .
Je stärker der (positive oder negative) lineare Zusammenhang zwischen zwei Variablen ist, desto gröÿer ist
der Absolutbetrag des Korrelationskoezienten. Es sei nochmals betont, daÿ die Korrelation lediglich ein
Maÿ für den linearen Zusammenhang von zwei Merkmalen darstellt, und daÿ darüber hinaus Korrelation
und Kausalität nicht gleichgesetzt werden dürfen.
3 Wahrscheinlichkeitsrechnung
3.1 Zufallsvorgang und Ereignisse
Ein Zufallsvorgang führt zu einem von mehreren, sich gegenseitig ausschlieÿenden Ergebnissen. Vor der
Durchführung ist ungewiÿ, welches Ergebnis tatsächlich eintreten wird. Von einem Zufallsexperiment
spricht man, wenn der Vorgang unter gleichen Randbedingungen wiederholbar ist. Die Ergebnismenge
Ω = {ω1 , ω2 , . . .} ist die Menge aller möglichen Ergebnisse ωi eines Zufallsvorgangs. Teilmengen von Ω
heiÿen Ereignisse und die speziellen Teilmengen {ωi } Elementarereignisse.
Assoziativgesetz: (A ∩ B) ∩ C = A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ C)
Distributivgesetz: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
(A ∩ B) = A ∪ B
3.3 Wahrscheinlichkeiten
Vor der Durchführung eines Zufallsvorganges ist ungewiÿ, ob ein bestimmtes Ereignis eintreten wird oder
nicht. Allerdings möchte man in vielen Fällen etwas über die Chance für das Eintreten eines bestimmten
Ereignisses sagen können. Die Chance wird dabei mit einer Zahl bewertet. Diese Bewertung durch eine
Zahl bezeichnet man als Wahrscheinlichkeit, wenn sie bestimmten Anforderungen, den Axiomen von
Kolmogorov, genügt. Wir bezeichnen die Wahrscheinlichkeit für das Eintreten eines Ereignisses A mit
P(A).
Axiome von Kolmogorov:
1) P(A) ≥ 0,
2) P(Ω) = 1,
3) P(A ∪ B) = P(A) + P(B), falls A ∩ B = ∅.
Die Axiome von Kolmogorov lassen sich dadurch motivieren, daÿ man sich die Wahrscheinlichkeit für
das Eintreten eines Ereignisses A als die Zahl vorstellt, gegen welche die relative Häugkeit h(A) bei
wachsender Zahl von Wiederholungen eines Zufallsexperiments konvergiert.
b) P(A) = 1 − P(A)
Von besonderer Bedeutung in vielen Anwendungen ist ein Zufallsexperiment mit Ω = {ω1 , . . . , ωN },
1
bei dem alle Elementarereignisse gleichwahrscheinlich sind, d.h. P({ωi }) = N gilt. Es wird als Laplace-
Experiment oder auch als Gleichmöglichkeitsmodell bezeichnet. Für die Laplace-Wahrscheinlichkeit eines
Ereignisses A gilt:
|A| Anzahl der für A günstigen Ergebnisse
P(A) = = .
|Ω| Anzahl aller möglichen Ergebnisse (N )
Man spricht von einer disjunkten Zerlegung der Ergebnismenge Ω, wenn Ω = A1 ∪ A2 ∪ . . . ∪ Ak gilt,
wobei Ai ∩ Aj = ∅ für alle i 6= j , d.h. je zwei Mengen sind immer paarweise disjunkt.
Beim Satz der totalen Wahrscheinlichkeit geht man davon aus, daÿ A1 , . . . , Ak eine disjunkte Zerlegung
von Ω darstellt, wobei P(Ai ) > 0 für alle i ist. Dann gilt für B ⊂ Ω:
k
X
P(B) = P(B |Ai ) · P(Ai ).
i=1
In engem Zusammenhang mit dem Satz der totalen Wahrscheinlichkeit steht der Satz von Bayes, der wie
folgt lautet:
P(B |Aj )P(Aj ) P(B |Aj )P(Aj )
P(Aj |B) = Pk = , j = 1, . . . , k,
i=1 P(B |Ai )P(Ai )
P(B)
Analog lassen sich weitere Ereignisse wie {X ≤ x} darstellen. Als Verteilungsfunktion F der Zufallsvaria-
blen X bezeichnen wir die Abbildung, die jedem reellen x folgende Wahrscheinlichkeit zuordnet:
Durch die Wahrscheinlichkeitsfunktion läÿt sich die Verteilungsfunktion für eine diskrete Zufallsvariable
X berechnen als:
X
F (x) = P(X ≤ x) = f (xi ).
xi ≤x
Die Verteilungsfunktion einer diskreten Zufallsvariablen ist eine rechtsseitig stetige Treppenfunktion. Die
Höhe des Sprungs, den die Verteilungsfunktion F an der Stelle a macht, ist gleich der Wahrscheinlichkeit
P(X = a).
In Analogie zum Histogramm, bei dem die Fläche der einzelnen Blöcke die relativen Häugkeiten reprä-
sentiert, entspricht nun die Fläche unter der Dichtefunktion der Wahrscheinlichkeit.
Eigenschaften der Dichtefunktion:
a) f (x) ≥ 0
Z +∞
b) f (x) dx = 1
−∞
und
P(X = x) = 0 für jedes x ∈ R.
4.4.1 Lage
Der Erwartungswert E(X) bzw. µx einer Zufallsvariablen X , dessen empirisches Pendant das arithmetische
Mittel x ist, wird für den diskreten und stetigen Fall folgendermaÿen deniert:
k
X
E(X) = xi P(X = xi ) (diskret),
i=1
Z ∞
E(X) = xf (x) dx (stetig),
−∞
wobei im diskreten Fall durchaus k = ∞ sein kann. Der Erwartungswert hat folgende Eigenschaften:
• Lineartransformation Y = a + b X : E(Y ) = E(a + b X) = a + b E(X),
• Summe zweier Zufallsvariablen, Z = X + Y : E(Z) = E(X + Y ) = E(X) + E(Y ).
Als weiteres Lagemaÿ hatten wir in der Empirie den Median oder 50%-Punkt kennengelernt, der auch
in analoger Weise in der Theorie deniert ist. Allerdings betrachten wir an dieser Stelle gleich beliebige
Quantile oder Prozentpunkte xp , die in der Empirie ebenfalls existieren. Wir beschränken uns aber auf
stetige Zufallsvariablen: Z xp
F (xp ) = f (t) dt = p, 0 < p < 1.
−∞
Der Median ist demnach x0.50 , von unterem und oberem Quartil (25%- und 75%-Punkt) spricht man für
x0.25 und x0.75 .
4.4.2 Streuung
Die Varianz Var(X) bzw. σx2 einer Zufallsvariablen X als Maÿ für die Streuung ist für diskrete und stetige
Zufallsvariablen wie folgt deniert:
k
X
Var(X) = (xi − E(X))2 P(X = xi ) (diskret),
i=1
Z ∞
Var(X) = (x − E(X))2 f (x) dx (stetig),
−∞
wobei wieder k = ∞ zugelassen ist. Motivieren läÿt sich diese Denition genauso wie die der mittleren
quadratischen Abweichung d2x , die das empirische Analogon zur Varianz darstellt. Wie bei der mittleren
quadratischen Abweichung gilt der entsprechende Zerlegungssatz:
Um die Quadrierung in der Formel der Varianz zu relativieren und ein gut interpretierbares Maÿ für die
Streuung zu erhalten, ist es sinnvoll die Standardabweichung σx zu betrachen:
p
σx = Var(X).
Ein ebenfalls schon in Abschnitt 2 eingeführtes Streuungsmaÿ ist der Interquartilsabstand. Seine Denition
lautet: IQR = x0.75 − x0.25 .
Eine weitere Möglichkeit, die Sreuung einer speziell stetigen Zufallsvariablen zu messen, ist das zentrale
Schwankungsintervall zum Niveau 1 − α. In Worten ist dieses so deniert: mit Wahrscheinlichkeit α wer-
den Werte auÿerhalb des Schwankungsintervalls angenommen werden, und genauer: jeweils mit Wahr-
scheinlichkeit α/2 treten kleinere Werte als die untere Intervallgrenze und Werte oberhalb der oberen
Intervallgrenze auf. Mittels der Quantile xα/2 und x1−α/2 mit
4.5 Verteilungsmodelle
Es sollen nun einige wichtige, in der Praxis häug eingesetzte Verteilungsmodelle betrachtet werden. Die
Darstellung der Verteilungen enthält überblicksartig das Verteilungssymbol, die jeweilige Wahrscheinlichkeits-
oder Dichtefunktionen sowie Formeln für den zugehörigen Erwartungswert und die Varianz.
4.5.1 Diskrete Verteilungsmodelle
X ∼ DG(k)
1
P(X = x) = mit x = 1, 2, . . . k
k
k+1 k2 − 1
E(X) = und Var(X) =
2 12
Bernoulli-Verteilung (Grundbaustein der Binomialverteilung)
X ∼ Be(p)
Das bedeutet, X kann nur die Werte 0 und 1 annehmen, und zwar mit den Wahrscheinlichkeiten
P(X = 0) = 1 − p und P(X = 1) = p.
Binomialverteilung
Eine binomialverteilte Zufallsvariable X ergibt sich als Summe von n unabhängig, identisch verteilten
Bernoullivariablen (Xi ∼ Be(p)):
n
X
X= Xi ∼ Bi(n, p)
i=1
µ ¶
n x
P(X = x) = p (1 − p)(n−x) , x = 0, 1, . . . , n
x
E(X) = np und Var(X) = np(1 − p)
Poissonverteilung
X ∼ P o(λ), λ > 0
λx
P(X = x) = e−λ , x = 0, 1, . . .
x!
E(X) = λ und Var(X) = λ
X ∼ SG(a, b)
1
a≤x≤b
f (x) = b−a
0 sonst
a+b (b − a)2
E(X) = und Var(X) =
2 12
Exponentialverteilung
X ∼ Ex(λ), λ > 0
λe−λx x ≥ 0
f (x) =
0 sonst
1 1
E(X) = und Var(X) = 2
λ λ
Normalverteilung (C.F. Gauÿ)
X ∼ N (µ, σ 2 ), σ > 0
à µ ¶2 !
1 1 x−µ
f (x) = √ exp − , x∈R
2πσ 2 σ
X −µ
X ∼ N (µ, σ 2 ) ⇒ Z= ∼ N (0, 1).
σ
Die Verteilungsfunktion von Z hat die Bezeichung:
xp = µ + zp · σ.
In vielen Fällen ist man aber nicht nur an einzelnen Prozentpunkten, sondern an Schwankungsbereichen
für normalverteilte Zufallsvariablen interessiert.
Ein zentrales Schwankungsintervall (ZSI) der Länge 2 k σ ist bei der Normalverteilung folgendermaÿen
deniert:
ZSI = [µ − k · σ, µ + k · σ] , k > 0.
Dies gilt unabhängig von den konkreten Parameterwerten µ und σ . Es werden zwei Arten von zentralen
Schwankungsintervallen betrachtet:
Im ersten Fall a) spricht man für k = 1 von einem einfachen, für k = 2 von einem zweifachen und für
k = 3 von einem dreifachen zentralen Schwankungsintervall. Unabhängig von der Parameterkonstellation
der Normalverteilung enthalten diese drei Intervalle immer mit folgenden Wahrscheinlichkeiten Werte
einer normalverteilten Zufallsvariablen X .
k 1 2 3
P (X ∈ [µ ± k · σ]) 68,3% 95,4% 99,7%
Im zweiten Fall b) werden die zentralen Schwankungsintervalle so konstruiert, daÿ X mit einer Wahr-
scheinlichkeit von 1 − α Werte im ZSI annimmt und dementsprechend mit einer Wahrscheinlichkeit von
α nicht:
£ ¤
ZSI = µ − z1−α/2 · σ, µ + z1−α/2 · σ .
Entsprechende Formeln für Erwartungswert und Varianz beliebiger Zufallsvariablen (d.h. ohne die Annah-
me der Bernoulli-Verteilung) gelten allgemein für Summen von Stichprobenvariablen. Seien X1 , . . . , Xn
unabhängig und identisch verteilt mit Erwartungswert E(Xi ) = µ und Varianz V ar(Xi ) = σ 2 , so gilt:
à n ! à n !
X X
E Xi = nµ , V ar Xi = nσ 2 .
i=1 i=1
In der Praxis sind wir meist nicht an der Summe selbst, sondern an dem darauf basierenden arithmeti-
Pn
schen Mittel interessiert: X = n1 i=1 Xi . Speziell bei Bernoulli-verteilten Stichprobenvariablen hat X
folgende Bedeutung. Sei Xi gleich 1 genau dann, wenn ein Ereignis A eintritt. Dann zählt die Summe
Pn
i=1 Xi , wie oft das Ereignis bei einer Stichprobe vom Umfang n eintritt, d.h. diese Summe gleicht der
absoluten Häugkeit, mit der A (oder Xi = 1) eintritt. Daher gibt X gerade die relative Häugkeit des
Eintretens an, oder den Anteil der eingetretenen Fälle in Relation zu allen n Beobachtungen. Aber auch
bei anderen Problemstellungen wird das arithmetische Mittel eine zentrale Rolle spielen. Daher interes-
sieren wir uns für Erwartungswert und Varianz des Mittels von n unabhängig und identisch verteilten
Stichprobenvariablen mit Erwartungswert E(Xi ) = µ und Varianz V ar(Xi ) = σ 2 . Aus den Formeln für
Erwartungswert und Varianz von Summen folgt sofort:
σ2 σ √
E(X) = µ , V ar(X) = σx2 = bzw. σx = √ ( n-Gesetz) .
n n
Speziell eine Linearkombination normalverteilter Zufallsvariablen ist wiederum normalverteilt, so daÿ sich
für X bei Normalverteilung ergibt: µ ¶
σ2
X ∼ N µ, .
n
Durch entsprechende Standardisierung,
X −µ
Z= √ ∼ N (0, 1) ,
σ/ n
oder deren Umkehrung lassen sich Wahrscheinlichkeiten und Prozentpunkte von X wie bei einer ge-
wöhnlichen Normalverteilung unter Zuhilfenahme der entsprechenden Wahrscheinlichkeiten oder Prozent-
punkte der Standardnormalverteilung berechnen.
Pn
Die Bedeutung des zentralen Grenzwertsatzes besteht vor allem darin, daÿ für i=1 Xi und X einfache,
näherungsweise Berechnungen von Wahrscheinlichkeiten durchgeführt werden können, ohne die Vertei-
lung der Xi und die exakte Verteilung der Stichprobenfunktionen kennen zu müssen. Insbesondere für
stetige und symmetrische Verteilung sind Wahrscheinlichkeitsberechnungen über die Normalverteilung
im Rahmen des ZGS auch bei geringen Stichprobenumfängen schon erstaunlich genau.
Da auch X auf einer Summe von Stichprobenvariablen basiert, läÿt sich der ZGS entsprechend anwenden:
X −µ a
Zn = √ ∼ N (0, 1).
σ/ n
Wahrscheinlichkeiten für die betrachtete Stichprobenfunktion lassen sich mit Hilfe des ZGS wie folgt
näherungsweise berechnen:
à n ! µ ¶ µ ¶
X y − nµ w−µ
P Xi ≤ y ) ≈ Φ √ bzw. P (X ≤ w) ≈ Φ √ .
i=1
nσ σ/ n
Als eine wichtige spezielle Anwendung liefert der ZGS die Möglichkeit der approximativen Berechnung von
Binomialverteilungswahrscheinlichkeiten. Eine binomialverteilte Zufallsvariable X erfüllt die Vorausset-
zungen des ZGS. Der Erwartungswert lautet, wie oben wiederholt, np, und die Varianz beträgt np(1 − p).
Es gilt also: Pn
Xi − np X −p a
Zn = pi=1 =p ∼ N (0, 1).
np(1 − p) p(1 − p)/n
Als Faustregel für eine gute Approximation ist zu beachten, daÿ np ≥ 10 und n(1 − p) ≥ 10 sein sollten.
5 Parameterschätzung
Mit der Ziehung von Stichproben und der Bildung bestimmter Stichprobenfunktionen möchte man mög-
lichst gute Schlüsse über die Grundgesamtheit ziehen. Dabei unterstellt man für ein interessierendes
Merkmal eine Verteilungsannahme. Unbekannt ist hingegen der Wert der Parameter der Verteilung, z.B
das µ und σ bei Annahme der Normalverteilung, das λ bei einer Poissonverteilung. Der mit Unsicherheit
behaftete Schluÿ aus einer Stichprobe (Empirie) auf Parameter eines unterstellten Verteilungsmodells
der Grundgesamtheit (Theorie) macht das Wesen statistischen Schätzens aus. Wir geben hier nur eine
Einführung.
5.1 Schätzfunktionen
Eine Funktion g(X1 , . . . , Xn ) der Stichprobenvariablen, g: Rn → R, heiÿt Stichprobenfunktion oder Schätz-
funktion oder auch Statistik. Sie verdichtet die Information aus der Stichprobe vom Umfang n und soll
den Rückschluÿ auf einen unbekannten Parameter θ, θ ∈ R erlauben.
Theorie Empirie
Info
θ (unbek. Parameter) ←− g(X1 , . . . , Xn )
z.B. geeignete Funktion gesucht
Pn
µ bei Normalverteilung ←− X = n1 i=1 Xi
Pn
σ 2 bei Normalverteilung ←− D2 = n1 i=1 (Xi − X)2
Pn
p bei Bernoulliverteilung ←− X = n1 i=1 Xi
λ bei Poissonverteilung ←− ?
λ bei Exponentialverteilung ←− ?
Wir bezeichnen wieder mit Kleinbuchstaben xi die Realisationen (xi ∈ R) einer Zufallsvariablen Xi .
Der Zahlenwert g(x1 , . . . , xn ) fungiert dann als Schätzung für einen Parameter θ. Im Unterschied zum
Schätzwert g(x1 , . . . , xn ) ist die Schätzfunktion g(X1 , . . . , Xn ) eine Zufallsvariable. Alternativ schreibt
man häug für eine Funktion, die einen Parameter θ schätzen soll:
Dabei steht die Kurzschreibweise θ̂ sowohl für die Zufallsvariable θ̂(X1 , . . . , Xn ) als auch für den konkreten
Schätzwert θ̂(x1 , . . . , xn ). Bei der Schätzung unbekannter Parameter aus einer Stichprobe stellen sich zwei
wesentliche Fragen:
Eine Schätzfunktion θ̂ für den Parameter θ wird erwartungstreu oder auch unverzerrt genannt, wenn gilt
E(θ̂) = θ.
Die Dierenz zwischen dem Erwartungswert der Schätzfunktion und dem Parameter heiÿt Bias (Verzer-
rung):
b(θ̂) = E(θ̂) − θ.
Gilt für eine Schätzfunktion
lim E(θ̂) = θ,
n→∞
5.2.2 Konsistenz
Eine Schätzfunktion θ̂ für den Parameter θ wird (schwach) konsistent genannt, wenn für ein beliebiges
positives ε > 0 gilt: ³ ´
lim P |θ̂ − θ| ≤ ε = 1 .
n→∞
gilt. Eine stark konsistente Schätzfunktion ist also asymptotisch erwartungstreu, und ihre Varianz strebt
mit wachsendem Stichprobenumfang gegen Null.
Als Kriterium zur Beurteilung von Schätzfunktionen kann man auch den mittleren quadratischen Fehler
(MSE - mean squared error) heranziehen. Er ist folgendermaÿen deniert:
h i
M SE(θ̂) = E (θ̂ − θ)2
Damit kann man die Bedingungen für starke Konsistenz einer Schätzfunktion kompakt durch den M SE
formulieren:
lim M SE(θ̂) = 0.
n→∞
Einen Überblick über einige weit verbreitete Schätzfunktionen und ihre Eigenschaften bietet folgende
Tabelle.
Beispiele für Schätzfunktionen
Verteilung Parameter Schätzfunktion Erwartungstreue Konsistenz
Normalverteilung µ µ̂ = X ja ja
1
Pn
Normalverteilung σ2 σ̂12 = D2 = n i=1 (Xi − X)2 asympt. ja
1
Pn
σ̂22 = S 2 = n−1 i=1 (Xi − X)2 ja ja
Bernoulliverteilung p p̂ = X ja ja
Poissonverteilung λ λ̂ = X ja ja
1
Exponentialverteilung λ λ̂1 = asympt. ja
X
n−1
λ̂2 = Pn ja ja
i=1 Xi
Stet. Gleichvtlg. auf [0, b] b b̂ = 2 · X ja ja
Disk. Gleichverteilung k k̂ = 2 · X − 1 ja ja
Die in obiger Tabelle angegebenen Schätzfunktionen für k bei diskreter Gleichverteilung, b bei stetiger
Gleichverteilung und für λ bei Poissonverteilung sind alle nach der Momentenmethode konstruiert. Auch
λ̂1 bei der Exponentialverteilung ist ein solcher Momentenschätzer.
6 Kondenzintervalle
6.1 Einführung
Eine Schätzfunktion θ̂ für einen unbekannten Parameter θ liefert i.d.R. nicht exakt den wahren Parame-
terwert. Auch wenn θ̂ ein sehr guter Schätzer für θ ist, weiÿ man im allgemeinen nicht, wie weit die
Schätzung vom wahren Wert entfernt liegt. Nach dem Prinzip Man trit eine Fliege kaum mit einer
Stecknadel, sondern besser mit einer Fliegenklatsche erfolgt der Übergang von der Punktschätzung zur
Intervallschätzung. Die Konstruktion eines Kondenzintervalls basiert auf einer entsprechenden Punkt-
schätzung, um die dann ein Sicherheitsbereich gelegt wird. Dieser Sicherheitsbereich wird nicht belie-
big gewählt, sondern orientiert sich an der Standardabweichung und Verteilung der Schätzfunktion und
zwar so, daÿ das Konndenzintervall (KI) [θ̂u , θ̂o ] den unbekannten Parameter θ mit einer vorgegebenen
Wahrscheinlichkeit von 1 − α überdeckt:
P (θ̂u ≤ θ ≤ θ̂o ) = 1 − α .
Als Kondenzintervall für µ (σ 2 bekannt) ergibt sich damit zu einem Niveau von 1 − α:
· ¸
σ σ
KI1−α = X − z1− α2 √ ; X + z1− α2 √ .
n n
Insbesondere aus dem ersten Zusammenhang zwischen Stichprobenumfang n und Länge L läÿt sich die
Frage ableiten, wie groÿ der Stichprobenumfang mindestens sein muÿ, damit ein Kondenzintervall eine
vorgegebene Länge nicht überschreitet. Um diese Frage zu beantworten, wird die Gleichung für die Länge
des Kondenzintervalls nach n aufgelöst, so daÿ man folgendes Resultat erhält:
2 σ2
n ≥ 4z1− α .
2 L2
Kondenzintervall für µ (σ 2 unbekannt)
Wir haben zunächst einmal die Situation betrachtet, daÿ σ 2 bekannt ist. Das ist in der Praxis aber nur
sehr selten der Fall, so daÿ die Annahme σ 2 ist unbekannt sicher realistischer ist. Wenn σ 2 unbekannt ist,
1
Pn
muÿ es geschätzt werden, sinnvollerweise durch den erwartungstreuen Schätzer S 2 = n−1 2
i=1 (Xi −X) .
Die Ersetzung von σ durch S wirkt sich allerdings auf die Verteilung und damit auf die Gestalt des
Kondenzintervalls aus.
t-Verteilung
Es seien X1 , . . . , Xn normalverteilte Zufallsvariablen einer Zufallsstichprobe mit Xi ∼ N (µ, σ 2 ). Dann ist
aus Abschnitt 2.2 bekannt für das arithmetische Mittel:
√ X −µ
Z= n ∼ N (0, 1) .
σ
q Pn
1
Ersetzt man σ durch die erwartungstreue Schätzfunktion S = n−1 i=1 (Xi − X) ,
2
√ X −µ
T =
n ,
S
so schwankt die Zufallsvariable S naturgemäÿ um den wahren Wert σ . Diese durch die Schätung der
Standardabweichung verursachte Unsicherheit schlägt sich darin nieder, daÿ T stärker als Z um den
Erwartungswert 0 streut, d.h. T folgt keiner Normalverteilung, sondern einer sogenannten t-Verteilung
mit ν = n − 1 Freiheitsgraden:
√ X −µ
T =
n ∼ t(n − 1) .
S
Die hier nicht angegebene Dichtefunktion einer t(ν)-Verteilung hängt also von dem Parameter ν ab,
ν = 1, 2, . . .. Prinzipiell hat die t-Verteilung eine sehr ähnliche Gestalt wie die Standardnormalverteilung:
die Dichte ist symmetrisch um den Erwartungswert und Median Null und besitzt die charakteristische
Glockenform, hat allerdings im Vergleich zur Standardnormalverteilung mehr Wahrscheinlichkeitsmasse
an den Rändern (stärkere Streuung). Die Quantile sind in Abhängigkeit der Freiheitsgrade ν in Tabelle
E tabelliert. Wegen der Symmetrie gilt für das (1 − p) -Quantil
t(ν)1−p = −t(ν)p .
Durch Vergleich der Tabellen D und E sieht man weiterhin, daÿ für groÿe Anzahl an Freiheitsgraden gilt:
t(ν)p ≈ zp . Es stimmt in der Tat, daÿ die t-Verteilung mit wachsendem ν die Standardnormalverteilung
approximiert. Also gilt für obige Statistik T wie beim ZGS für groÿen Stichprobenumfang:
√ X −µ a
T =n ∼ N (0, 1) .
S
Damit haben wir ein allgemeines Prinzip aufgedeckt: Wann immer im folgenden die t(ν)-Verteilung einer
Statistik T auftaucht, basiert dies auf der Annahme einer normalverteilten Zufallsstichprobe; alternativ
kann man diese Annahme fallen lassen, bzw. durch die Annahme eines groÿen Stichprobenumfangs erset-
zen. Für groÿen Stichprobenumfang ist dann diese Statistik T näherungsweise standardnormalverteilt.
Zur Konstruktion eines Kondenzintervalls für µ bei unbekanntem σ verwendet man also die Prozent-
punkte t(n − 1)1− α2 der t-Verteilung:
· ¸
S S
KI1−α = X − t(n − 1)1−α/2 √ , X + t(n − 1)1−α/2 √ .
n n
Es sei noch einmal überblicksartig die Konstruktion eines KI für µ unter Normalverteilung dargestellt:
Kondenzintervall für µ
unter Normalverteilung
p̂ − E(p̂) p̂ − p a
p =q ∼ N (0, 1) .
Var(p̂) p(1−p)
n
Diese Approximation ist um so besser, je näher p bei 0.5 liegt und je gröÿer n ist. Als Faustregel werden
oft n ≥ 100 oder np ≥ 10 und n(1 − p) ≥ 10 angegeben. Da p in der Varianz von p̂ allerdings nicht
bekannt ist, wird es dort durch den konsistenten Schätzer p̂ ersetzt. Damit lautet das approximative
Kondenzintervall zum Niveau 1 − α:
" r r #
p̂(1 − p̂) p̂(1 − p̂)
KI1−α = p̂ − z1−α/2 , p̂ + z1−α/2 .
n n
Auch an dieser Stelle sei die Bestimmung eines KI für p noch einmal zusammengefaÿt:
Kondenzintervall für p
(Berechnung approximativ über die Normalverteilung)
a) Kondenzniveau 1 − α festlegen
b) z1− α2 bestimmen
c) p̂ berechnen
d) Kondenzintervall aufstellen:
· q q ¸
p̂(1−p̂) p̂(1−p̂)
p̂ − z1− α2 n ; p̂ + z1− α2 n
Wie auch schon im Falle des Konndenzintervalls für µ bei bekanntem σ 2 stellt sich die Frage, wie groÿ
der Stichprobenumfang mindestens sein muÿ, damit das Kondenzintervall für q p eine vorgebene Länge
nicht überschreitet. Die Länge des Kondenzintervalls für p ist L = 2z1− α2 p̂(1−
n
p̂)
. Der erforderliche
Stichprobenumfang ergibt sich durch Auösen nach n:
2 p̂(1 − p̂)
n ≥ 4z1− α .
2 L2
Die Schwierigkeit besteht nun darin, daÿ p̂ vor der Untersuchung nicht bekannt ist und damit der Ausdruck
p̂(1 − p̂) nicht zur Verfügung steht. Zwei Lösungsmöglichkeiten bieten sich an:
a) Verwendung von Kenntnissen über p̂ aus früheren Untersuchungen, sofern sie existieren,
b) p̂ so wählen, daÿ p̂(1 − p̂) maximal wird, um auf der sicheren Seite zu sein, d.h. p̂ = 0.5 wählen.
7 Statistische Tests
Die bisherige Betrachtung bezog sich auf die Schätzung von Parametern (Punktschätzung und Intervall-
schätzung). Nun sollen Vermutungen, Behauptungen oder Hypothesen über Verteilungen oder Parameter
anhand von Stichproben untersucht werden. Diesen Bereich der Statistik nennt man (statistisches) Testen.
Wir leisten hier nur eine kleine Einführung. Viele für die Praxis wichtige Tests werden erst in Statistik
II vorgestellt.
und die zugehörige Alternativ- oder Gegenhypothese G oder entsprechend H1 . Die Schwierigkeit besteht
in der Praxis oft in der sog. Operationalisierung, d.h. der Umsetzung der Hypothese, so daÿ sie mit
statistischen Methoden überprüft werden kann.
Ähnlich wie in einer Situation vor Gericht bestehen beim statistischen Testen zwei Ebenen, die der Realität
(die Hypothese H oder die Hypothese G trit zu) und die der Entscheidung (die Hypothese H wird
abgelehnt oder nicht). Im Falle des Gerichts bezöge sich die Realitätsebene auf die Frage Was passierte
wirklich? und die Entscheidungsebene auf das Urteil Schuldig oder unschuldig. Ein statistischer Test
ist eine Entscheidungsregel, bei der auf Basis einer Stichprobe unter bestimmten Verteilungsannahmen
mit Hilfe einer Teststatistik bzw. Prüfgröÿe eine Entscheidung über eine Hypothese getroen wird. Dabei
können Fehlentscheidungen auftreten, wie das folgende Diagramm zeigt:
Realität H G
Entscheidung ist richtig ist richtig
In der Praxis weiÿ man i.d.R. nicht, ob man richtig oder falsch entschieden hat. Man kann lediglich Wahr-
scheinlichkeitsaussagen über die Fehlentscheidungen treen. Das setzt voraus, daÿ man ein bestimmtes
Verteilungsmodell für die Zufallsstichprobe unterstellt. Auf Basis dieser Stichprobe wird eine spezielle
Stichprobenfunktion gebildet: die Teststatistik. Eine konkrete Stichprobe liefert damit einen Wert für die
Teststatistik. Dabei gibt es Werte, die für und andere die gegen die Hypothese H sprechen. Lediglich
die in bezug auf die Hypothese H extremsten Werte der Teststatistik werden zu einer Ablehnung von
H führen, da aufgrund von Zufallsschwankungen gewisse Abweichungen toleriert werden müssen. Wo
aber die Grenze zu diesem Ablehnbereich liegt, kann erst bestimmt werden, wenn man die Verteilung
der Teststatistik unter H kennt und wenn man den Anteil α der extremsten Werte, den man nicht mehr
bereit ist zu tolerieren, festlegt. Die Grenzen des Ablehnbereiches oder auch kritischen Bereiches lassen
sich auf Basis der Verteilung der Teststatistik und dem festgelegten α bestimmen. Fällt der Wert der
Teststatistik in diesen kritischen Bereich, wird die Hypothese H abgelehnt (oder verworfen), ansonsten
wird sie beibehalten. Damit ist α die Wahrscheinlichkeit, mit der der Fehler 1. Art (Entscheidung gegen
die Hypothese H , obwohl diese richtig ist) höchstens auftreten kann. Man nennt α auch das sog. Signi-
kanzniveau des Tests. Da die Wahrscheinlichkeit des α-Fehlers beim Testen im Vorfeld festgelegt wird,
sollte man die Hypothesen so wählen, daÿ die schlimmere der beiden Fehlentscheidungen dem Fehler 1.
Art entspricht. Allerdings führt eine Verringerung von α zu einer Erhöhung von β , der Wahrscheinlichkeit
für den Fehler 2. Art, die Hypothese H nicht abzulehnen, obwohl sie falsch ist. Es ist also nicht möglich,
beide Fehlerwahrscheinlichkeiten gleichzeitig zu minimieren. Durch das Festlegen des Signikanzniveaus
ist α bekannt, wohingegen β unbekannt ist. Angenommen der zu testende Parameter sei θ, so hängt die
Wahrscheinlichkeit für den Fehler 2. Art von θ in der Form β(θ) ab und kann auch nur in Abhängigkeit
von θ berechnet werden. Zur Beurteilung von Tests verwendet man i.d.R. aber nicht β(θ) sondern die sog.
Güte des Tests 1 − β(θ). Die Güte gibt in Abhängigkeit von θ die Wahrscheinlichkeit an, H abzulehnen,
wenn H auch falsch ist. Sie wird um so gröÿer, je weiter θ von der Hypothese H entfernt ist. Verschie-
dene Tests für ein Testproblem werden bei gegebenem Signikanzniveau nach ihrer Güte beurteilt. Man
ist daran interessiert einen Test mit möglichst hoher Güte zu verwenden.
Ein Testablaufschema sieht folgendermaÿen aus:
Die beiden folgenden Abschnitte behandeln nun Tests, bei denen sich die Hypothese auf die Parameter
eines Merkmals bezieht (Einstichprobenfall). Testet man aus einer Stichprobe auf einen unbekannten
Parameter θ, so unterscheiden wir zweiseitige von einseitigen Testproblemen:
Die Darstellungen für die Tests beschränken sich überwiegend auf das Testschema (Modell, Hypothesen,
Teststatistik, Verteilung unter H und Entscheidungsregel). Um das Signikanzniveau α kontrollieren zu
können, unterstellen wir für das folgende eine Zufallsstichprobe, d.h. X1 , . . . , Xn sind unabhängig und
identisch verteilt (i.i.d.).
Zur Überprüfung dieser Hypothesen verwenden wir als Teststatistik X bzw. die unter der Hypothese H
X−µ
standardisierte Variante Z = √0,
σ/ n
um eine einfache Entscheidungsregel zu erhalten. Gilt für den wahren
Parameterwert, daÿ er mit µ0 übereinstimmt, µ = µ0 , so ist die Teststatistik Z standardnormalverteilt,
was im Falle der zweiseitigen Hypothese bei gegebenem Signikanzniveau α zu folgender Entscheidungs-
regel für das Ablehnen von H führt: Z < −z1−α/2 oder Z > z1−α/2 . Inhaltlich bedeutet das, daÿ sowohl
zu kleine als auch zu groÿe Werte der Teststatistik zur Ablehnung von H führen, und zwar so, daÿ gera-
de mit Wahrscheinlichkeit α die Hypothese abgelehnt wird, wenn sie richtig ist. Wir sagen dann, X ist
signikant (zum Niveau α) kleiner (oder gröÿer) als der hypothetische Wert µ0 , weshalb die Hypothese
verworfen wird.
Alternativ kann die Testentscheidung auch über den sog. p -Wert (in Englisch p -value für probability
value) erfolgen. Der p -Wert ist dabei die Wahrscheinlichkeit, unter der (Null-)Hypothese H den beob-
achteten Wert der Teststatistik oder einen in Richtung der Gegenhypothese G noch extremeren Wert zu
erhalten. Groÿe p -Werte sprechen also dafür, daÿ die Empirie mit der Hypothese H vereinbar ist, weshalb
man diese nicht verwerfen sollte. Kleine p -Werte hingegen sagen, daÿ das Auftreten der beobachteten
Realisation x unwahrscheinlich ist, wenn die Hypothese H stimmt, weshalb man dann dazu neigt, sie zu
verwerfen. Die Entscheidungsregel lautet also:
p ≤ α ⇒ H ablehnen .
Computerprogramme geben im allgemeinen beim Testen den p -Wert an, da auf diese Art und Weise kein
kritischer Wert in Abhängigkeit von α berechnet werden muÿ, sondern eine Entscheidung durch einen
einfachen Vergleich des p -Wertes mit α getroen werden kann. Allerdings besteht darin auch die Gefahr
einer nachträglichen Korrektur des α in Richtung einer gewünschten Testentscheidung. Ein Vorteil in der
Angabe von p -Werten liegt in der Vergleichbarkeit mehrerer Tests für ein Testproblem. Grundsätzlich ist
aber immer darauf zu achten, wie in einem Computerprogramm die Hypothese speziziert ist (zweiseitig
bzw. einseitig mit Gröÿer- oder Kleiner-Relation), da möglicherweise der angegebene p -Wert für die
Testentscheidung gemäÿ der Hypothesenart entsprechend umgerechnet werden muÿ.
Nach dem unrealistischen Fall, daÿ σ 2 bekannt ist, soll nun der Test auf µ für Fall eines unbekannten σ 2
vorgestellt werden. Dieser Test wird als (Einstichproben-) t-Test bezeichnet. Dabei wird σ 2 analog zu der
Vorgehensweise bei Kondenzintervallen erwartungstreu durch S 2 geschätzt.
Testschema:
Ohne Annahme normalverteilter Stichprobenvariablen gilt für groÿes n wie oben ausgeführt, daÿ T unter
a
µ = µ0 approximativ standardnormalverteilt ist, T ∼ N (0, 1). Entsprechend kann die t-Statistik T für
einen approximativen Normalverteilungstest verwendet werden.
7.3 Test auf einen Anteilswert p
In Analogie zu den Kondenzintervallen für p basiert auch der Test für p auf einer Approximation der
Teststatistik mittels des zentralen Grenzwertsatzes. Wiederum unterscheiden wir zweiseitige und einseitige
Testprobleme. Die Prüfgröÿe basiert auf der relativen Häugkeit p̂, die gerade gleich dem arithmetischen
Mittel der Stichprobenvariablen ist.
Testschema:
Test auf p
Modell: Xi ∼ Be(p), i = 1, . . . , n
Hypothesen: a) H : p = p0 gegen G : p 6= p0
b) H : p ≤ p0 gegen G : p > p0
c) H : p ≥ p0 gegen G : p < p0
p̂ − p0 p̂ − p0 √ p̂ − p0
Teststatistik: Z= =q = np
σ̂p̂ p0 (1−p0 ) p0 (1 − p0 )
n
a
Verteilung unter H : Z ∼ N (0, 1)
Testentscheidung: a) |Z| > z1−α/2
H ablehnen, wenn b) Z > z1−α
c) Z < −z1−α