Skriptum für die Vorlesungen Statistik I und II im Studienjahr 2002/2003 Gerhard Arminger und Mitarbeiter
© 2002 bei de...
22 downloads
554 Views
907KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Skriptum für die Vorlesungen Statistik I und II im Studienjahr 2002/2003 Gerhard Arminger und Mitarbeiter
© 2002 bei den Verfassern, überarbeitete und neugesetzte Fassung
Vorwort Studiert man Sozial- oder Wirtschaftswissenschaften, stellt man sehr bald mit Erschrecken fest, daß das Fach Mathematik, dem man sich endgültig nach der Schule entronnen glaubte, in Mathematik- und Statistik-Lehrveranstaltungen der Hochschulen wieder auftaucht. Wenn man auch zunächst geneigt ist, dies der Böswilligkeit von Studienplanern und Hochschullehrern anzulasten, so überzeugt man sich durch einen Blick auf andere Fakultäten, daß neben den klassischen Naturwissenschaften auch andere Fächer, die von der Biologie und Medizin bis zu Geographie und Geschichtsforschung reichen, zunehmend von dieser Mathematisierung betroffen sind. Unter allen mathematischen Disziplinen, die in Substanzwissenschaften praktisch angewendet werden, zeichnen sich die Wahrscheinlichkeitstheorie und Statistik wohl durch die größte Verbreitung und Anwendungshäufigkeit aus. Was hat das für einen Grund? Man erkannte, daß die einfachen Wenn-Dann-Beziehungen, aus denen wissenschaftliche Erklärungen bestehen, meistens unzulässige Vereinfachungen darstellen: Beim Beobachten und Experimentieren erleben wir immer wieder, daß Vorgänge, die unter scheinbar gleichen Bedingungen ablaufen, zu verschiedenen, aber ähnlichen Resultaten führen. Der Schritt vom Wenn zum Dann ist mit Ungewißheit belastet; der Zufall verdeckt die Struktur von Wirkungszusammenhängen. An die Stelle von Wenn-Dann-Aussagen treten Aussagen über Wahrscheinlichkeiten von Ereignissen. Untersuchungsgegenstand der Statistik sind Vorgänge, deren Resultate nicht mit Sicherheit vorhersehbar sind und die man daher als Zufallsexperimente bezeichnet. In diesem Sinne ist jede Messung, deren Resultate streuen, z.B. die Ausbildung der individuellen Körpergröße oder das Steueraufkommen einer Region ein Zufallsexperiment. Bemerkenswert ist nun aber, daß die Ergebnisse solcher Zufallsexperimente nicht regellos (chaotisch) anfallen. Sie lassen vielmehr Gesetzmäßigkeiten erkennen, die freilich nicht als einfache Wenn-Dann-Aussagen darstellbar sind: Niemand weiß beispielsweise das Datum seines Todes. Eine Generation stirbt aber im Verlauf eines Jahrhunderts in ganz gesetzmäßiger Weise ab. Die Menschen sind verschieden groß, ihre Körpergrößen sind aber nicht regellos verteilt. Wir wissen, daß Zwerge und Riesen nicht häufiger sind als Mittelwüchsige. Extreme Resultate des Wachstumsvorganges sind seltener als Durchschnittsresultate. Die Gesetzmäßigkeiten zufälliger Ereignisse geben dem Unvorhersehbaren einen Rahmen, machen Unsicherheit kalkulierbar. Durch geeignete Maßnahmen kann man Unsicherheit verringern. Das Fachgebiet der Statistik umfaßt einen Großteil der dazu verwendeten Methoden. Dieses Skriptum ist als Hilfsmittel zum leichteren Studium gedacht. Es ersetzt nicht den Besuch der Vorlesung und die regelmäßige Vorbereitung auf die Übungen, indem man selbst die gestellten Übungsaufgaben durchrechnet. Schriftliches Üben ist die wichtigste Voraussetzung für das Erlernen statistischer Methoden wie auch anderer Wissenschaften. Dies wurde bereits von Christian Fürchtegott Gellert (1715 - 1769) erkannt. Er schreibt in seiner Vorlesung: Von den Fehlern der Studierenden bei der Erlernung der Wissenschaften, insbesonderheit der Akademien: „ Ja, meine Herren, daß wir unsere Kraft zu denken und unsere Gedanken ausdrücken, so wenig durch schriftliche Versuche stärken, dieses ist der letzte Fehler, den ich noch berühren will; ein unvergeblicher Fehler! “. Die jetzige Studentengeneration ist nicht die erste, die mit Statistik zu kämpfen hat. Im Lehrplan des Vereinigten Friedrichswerdener und Friedrichstädter Gymnasiums Berlin für die Prima im Jahre 1795/1796 findet man: Mittwoch: 10 - 11 Uhr: Geographie und Statistik. Zum Schluß sei Georg Christoph Lichtenberg mit der zeitlosen Klage eines Mathematikprofessors zitiert: „ Es ist unglaublich, wie unwissend die studierende Jugend auf Universitäten kommt. Wenn ich nur zehn Minuten rechne oder geometrisiere, so schläft ein viertel derselben sanft ein“.
ii
Inhaltsverzeichnis 1
. . . . .
1 1 3 5 6 8
. . . .
10 10 12 13 15
3
Diskrete Verteilungen 3.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17 17 20
4
Stetige Verteilungen 4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24 24 26
5
Mehrdimensionale Verteilungen 5.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29 29 32
6
Grenzwertsätze 6.1 Linearkombination von Zufallsvariablen 6.2 Stochastische Ungleichungen . . . . . . 6.3 Schwaches Gesetz der großen Zahlen . 6.4 Zentraler Grenzwertsatz . . . . . . . . .
. . . .
35 35 35 36 37
7
Grundbegriffe der mathematischen Statistik 7.1 Grundgesamtheit und Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Stichprobenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38 38 38
8
Punkt und Intervallschätzung 8.1 Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Intervallschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 41 42 44
9
Signifikanztests 9.1 Aufbau von Signifikanztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Fehler erster Art und zweiter Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Signifikanztests für spezielle Fragestellungen . . . . . . . . . . . . . . . . . . . . . . .
47 47 48 50
2
Deskriptive Statistik 1.1 Grundbegriffe . . . . . . . . . . . 1.2 Absolute und relative Häufigkeiten 1.3 Empirische Verteilungsfunktion . . 1.4 Deskriptive Lagemaße . . . . . . 1.5 Streuungsmaße . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Grundbegriffe der Wahrscheinlichkeitsrechnung 2.1 Zufällige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit . 2.4 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
10 Korrelation und Regression 10.1 Einfache Korrelation . . . . . . . . . . . . . . . . . . . 10.2 Klassisches Regressionsmodell . . . . . . . . . . . . . . 10.3 Einfache Zeitreihenanalyse . . . . . . . . . . . . . . . . 10.4 Verallgemeinerungen des klassischen Regressionsmodells 10.5 Varianz- und Kovarianzanalyse . . . . . . . . . . . . . .
iii
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
. . . .
. . . .
. . . . .
. . . . .
55 55 57 66 68 69
11 Abhängigkeit zwischen qualitativen und ordinalen Merkmalen 11.1 Assoziationsmaße für qualitative Merkmale . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Der χ 2 -Test auf statistische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Assoziationsmaße und Tests für ordinale Merkmale . . . . . . . . . . . . . . . . . . . .
73 73 76 76
12 Wirtschafts- und Sozialstatistik 12.1 Datenbasis . . . . . . . . . 12.2 Bevölkerungsstatistik . . . 12.3 Erwerbsstatistik . . . . . . 12.4 Indexrechnung . . . . . .
. . . .
79 79 79 85 86
. . . . . .
91 91 92 93 94 96 102
. . . .
. . . .
. . . .
Anhang Mengenlehre . . . . . . . . . . . . . Das Summenzeichen . . . . . . . . . Exponentialfunktion und Logarithmus Differential- und Integralrechnung . . Matrizenrechnung . . . . . . . . . . . Griechisches Alphabet . . . . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
. . . .
. . . . . .
Literatur Tabellen Die Standardnormalverteilung . . . . . . . Quantile der t-Verteilung . . . . . . . . . . Quantile der χ 2 -Verteilung . . . . . . . . . 95%-Quantile der Fn1,n2;0.95 -Verteilung . . . Verteilungsfunktion der Poisson-Verteilung
103
. . . . .
. . . . .
iv
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
104 104 105 106 107 109
v
1 1.1
Deskriptive Statistik Grundbegriffe
Bei statistischen Erhebungen (z.B. Volkszählung, Mikrozensus, Arbeitsstättenzählung, Einkommens- und Verbrauchsstichprobe) fallen in der Regel Tausende von Einzeldaten an. Diese im einzelnen unüberschaubare Datenmenge wird durch die Methoden der deskriptiven Statistik auf möglichst wenige, aber aussagefähige Zahlen reduziert. Wichtige Beispiele sind absolute und relative Häufigkeiten, empirische Verteilungsfunktionen, Mittelwerte und Indexzahlen. Die Darstellung der Daten durch Zahlen wird durch graphische Darstellungen und Tabellen unterstützt. Grundlage aller statistischen Überlegungen sind die statistischen Einheiten, die als Träger statistischer Merkmale fungieren. Die für eine Untersuchung relevanten Einheiten faßt man zu einer Grundgesamtheit zusammen. Eine ausgewählte Teilmenge der Grundgesamtheit bezeichnet man als Stichprobe. Eine Grundgesamtheit ist nach sachlichen, zeitlichen, räumlichen und inhaltlichen Kriterien abzugrenzen. Von jedem beliebigen Objekt muß entschieden werden können, ob es zur Grundgesamtheit gehört oder nicht. Beispiel: Die ’deutsche Bevölkerung’ ist keine wohldefinierte Grundgesamtheit. Hingegen ist die Menge ’Einwohner der Bundesrepublik Deutschland am 1.1.1990 um 12 Uhr MEZ eine sachlich, räumlich und zeitlich genau abgegrenzte Menge von Individuen und kann daher als Grundgesamtheit dienen. Statistische Mengen (Grundgesamtheiten oder Stichproben), die auf einen Zeitpunkt (z.B. auf einen Stichtag) bezogen sind, heißen Bestandsmassen (z.B. Einwohner der DDR am 1. Okt. 1990); Massen, die auf einen Zeitraum bezogen sind, heißen Bewegungsmassen (z.B. Geburten in der Bundesrepublik Deutschland vom 1.1.1989 bis zum 31.12.1989). An jeder statistischen Einheit werden Merkmale oder Variable festgestellt, z.B. bei Personen das Alter, das Einkommen, der Beruf, das Geschlecht etc. Merkmale sind nur dann für statistische Zwecke brauchbar, wenn die Ausprägungen eines Merkmals zwei Eigenschaften aufweisen. Erstens, die Merkmalsausprägungen schließen einander aus. Zweitens, jeder statistischen Einheit kann eine Merkmalsausprägung zugeordnet werden. Beispiel: Das Merkmal A Religionsbekenntnis mit den Ausprägungen {A1 = katholisch, A2 = protestantisch} ist kein statistisches Merkmal, da es die zweite Bedingung nicht erfüllt. Hingegen ist das Merkmal B Religionsbekenntnis mit {B1 = katholisch, B2 = protestantisch, B3 = sonstige} als statistisches Merkmal zu verwenden. Die Zuordnung von Merkmalsausprägungen zu statistischen Einheiten bezeichnet man als Messung. Die sorgfältige Durchführung einer Messung ist ein zentrales Problem jeder Wissenschaft. Die Messungen werden für jede statistische Einheit durchgeführt und auf einer Urliste notiert. Verwaltet werden diese Datensätze heute mit Hilfe von EDV-gestützten Datenbanken. Wir geben ein Beispiel für eine Urliste an. Es bezieht sich auf eine Stichprobe der Wohnbevölkerung in der Bundesrepublik Deutschland zum 1.1.2000. Nummer
Geschlecht
Beruf
Alter
Kinderzahl
1 2 3 4 .. .
weiblich weiblich männlich männlich .. .
Kauffrau Studentin Schlosser Beamter .. .
42 23 33 59 .. .
2 0 unbekannt 4 .. .
weiblich
unbekannt
29
0
n
An diesem Beispiel ist zu erkennen, daß der Begriff der Messung in der Statistik allgemeiner ist als in der Umgangssprache, in der als Messung die Zuordnung einer Zahl zu einer Untersuchungseinheit verstanden wird. In der Statistik wird ausgehend von der Urliste ebenfalls jeder Person für jede Variable eine Zahl zugeordnet. Diese Zahlen werden jedoch zunächst nur als Kodierungen verwendet und haben nur für bestimmte Variable eine numerische Bedeutung. Die Kodierung von Merkmalsausprägungen muß in einem Kodierungsschlüssel festgelegt werden. Bei dieser Kodierung können auch Zusammenfassungen der Merkmalsausprägungen erfolgen. Für das Beispiel verwenden wir folgende Kodierung:
1
Variable
Merkmalsausprägung
Kodierung
Geschlecht
männlich weiblich unbekannt
1 2 -9999
Beruf
Arbeiter Angestellter Sonstige unbekannt
1 2 3 -9999
Alter
x = Altersangabe in Jahren unbekannt
x -9999
Kinderzahl
x = Kinderzahl unbekannt
x -9999
Führt man diese Kodierung durch, erhält man die sogenannte Datenmatrix, bei der alle Messungen mit Zahlen angegeben sind und die fehlenden Werte mit -9999 gekennzeichnet sind. Nummer
Geschlecht
Beruf
Alter
Kinderzahl
1 2 3 4 .. .
2 2 1 1 .. .
2 3 1 3 .. .
42 23 33 59 .. .
2 0 -9999 4 .. .
2
-9999
29
0
n 1.1.1 Skalenniveau
Für die Verwendung statistischer Maßzahlen, die im nächsten Abschnitt diskutiert werden, ist die Unterscheidung von Merkmalen nach ihrem Meß– oder Skalenniveau von großer Bedeutung. • Nominales Meßniveau: Wenn sich die Merkmalsausprägungen eines statistischen Merkmals für eine statistische Untersuchung beliebig umordnen lassen, liegt ein nominal oder qualitativ skaliertes Merkmal vor. Typische Beispiele sind Geschlecht oder Beruf. Die Zahlen, die Merkmalsausprägungen dieser Variablen zugeordnet werden, haben keine inhaltliche Bedeutung, Rechnungen wie Addition und Subtraktion oder Vergleiche durch Ordnungsrelationen sind inhaltlich bedeutungslos. • Ordinales Meßniveau: Wenn sich die Merkmalsausprägungen eines statistischen Merkmals nach einem Kriterium ordnen lassen, die Abstände zwischen den Merkmalsausprägungen aber nicht bekannt sind, so liegt ein ordinales Merkmal vor. Die Zahlen, die als Kodierungen diesen Merkmalsausprägungen zugeordnet sind, müssen zwar die Rangfolge der Merkmalsausprägungen wiedergeben, die Abstände zwischen den Kodierungen können aber beliebig gewählt werden. Typische Beispiele sind Schulnoten mit den Merkmalsausprägungen ’sehr gut’, ’gut’, ’befriedigend’, ’ausreichend’ und ’mangelhaft’ oder Befragungen in den Sozial- und Wirtschaftswissenschaften, in denen Skalen mit Ausprägungen der Form ’stimme zu’, ’teils teils’, ’lehne ab’, den befragten Personen vorgelegt werden. Wiederum sind Rechnungen wie Addition und Subtraktion bedeutungslos. Am besten macht man sich dieses Faktum bei den Schulnoten klar, für deren Merkmalsausprägungen die Kodierung {1, 2, 3, 4, 5, 6} genauso zulässig ist wie die Kodierung {0, 2/3, 5, 99.9, 375, 1000}. Die Berechnung eines Mittelwertes führt jedoch zu völlig unterschiedlichen Ergebnissen. Aus dieser Überlegung folgt, daß die Durchschnittsnoten, die für die Zuweisung von Studienplätzen berechnet werden, aus der Sicht des Statistikers unsinnig sind. • Quantitatives Meßniveau: Wenn sich die Merkmalsausprägungen eines statistischen Merkmals sowohl ordnen lassen als auch die Abstände zwischen den Merkmalsausprägungen sich angeben lassen, spricht man von quantitativen oder metrischen Merkmalen. Weisen sie darüber hinaus einen 2
natürlichen Nullpunkt auf, liegt eine Ratio– oder Verhältnisskala vor. Die Kodierung dieser Merkmale muß sowohl die Ordnung als auch die Abstände zwischen den Merkmalen wiedergeben. Die Bildung von Summen und Differenzen ist inhaltlich bedeutungsvoll. Typische Beispiele metrisch skalierter Merkmale sind Häufigkeiten (z.B. Kinderzahl in einer Familie, Zahl der Autounfälle an einer Kreuzung) oder Variable mit beliebig feiner Einteilung der Merkmalsausprägungen wie Alter, Größe und Gewicht. Eine wichtige Unterscheidung ist die Unterteilung der metrischen Merkmale in stetige Merkmale (z.B. Alter, Größe, Gewicht), in denen die Merkmalsausprägungen beliebige Werte der reellen Zahlenachse annehmen können, und diskrete Merkmale, in denen nur bestimmte Merkmalsausprägungen in R (reelle Zahlen) angenommen werden können. Beispiele sind die oben genannten Häufigkeiten. Ist ein diskretes Merkmal sehr fein unterteilt (z. B. Geldbeträge in Cent), wird das diskrete Merkmal wie ein stetiges Merkmal behandelt und daher als quasistetig bezeichnet.
1.2 Absolute und relative Häufigkeiten Zur Analyse der Daten einer statistischen Erhebung faßt man zunächst für jedes einzelne Merkmal die Daten zusammen, indem aus jeweils einer Spalte der Datenmatrix die absoluten Häufigkeiten jeder Merkmalsausprägung berechnet werden. Früher erfolgte diese Berechnung durch Strichlisten, heute werden Computer für die Datenverarbeitung eingesetzt. Beispiel: Für die qualitative Variable A Religionsbekenntnis mit den Ausprägungen und Kodierungen {A1 = römisch-katholisch = 1, A2 = protestantisch = 2, A3 = konfessionslos = 3, A4 = sonstiges Bekenntnis = 4, A5 = unbekannt = −9999} liege folgende Kodierung der Urliste vor: 2 3 1 1 3 2 1 4 − 9999 − 9999 3 1 1 1 4 3 2 2 1 1 − 9999 1 2 4 3 2 Die Berechnung der absoluten Häufigkeiten hm für jede Merkmalsausprägung Am ergibt die Tabelle: Häufigkeitstabelle zum Religionsbekenntnis Merkmalsausprägung
Symbol
Kodierung
absolute Häufigkeit (hm )
relative Häufigkeit (p˜ m )
römisch katholisch protestantisch konfessionslos sonstiges Bekenntnis unbekannt
A1 A2 A3 A4 A5
1 2 3 4 -9999
9 6 5 3 3
0.346 0.231 0.192 0.115 0.115
26
1.000
m 1 2 3 4 5
Summe
Neben den absoluten Häufigkeiten hm , m = 1, . . . , 5 stehen die relativen Häufigkeiten p˜ m , die aus den hm für alle M Merkmalsausprägungen berechnet werden: p˜ m =
hm M hm
z.B.
p˜ 1 =
9 9 = = 0.34615 9+6+5+3+3 26
(1.1)
m=1
Die Gesamtzahl der Elemente wird mit N in der Grundgesamtheit und mit n in der Stichprobe bezeichnet, so daß gilt: h• =
M
hm = N
(in einer Grundgesamtheit)
(1.2)
m=1
h• =
M
hm = n
(in einer Stichprobe)
(1.3)
m=1
3
Die Summe der relativen Häufigkeiten muß 1 ergeben. Die Bedeutung der relativen Häufigkeiten liegt in der Tatsache, daß mit ihnen Grundgesamtheiten oder Stichproben unterschiedlicher Größe verglichen werden können. Die graphische Darstellung eines qualitativen oder ordinalen Merkmals oder eines metrischen Merkmals mit wenigen Ausprägungen erfolgt durch ein Stabdiagramm oder ein Kreisdiagramm. Im Stabdiagramm werden auf der Abszisse die Merkmalsausprägungen Am und auf der Ordinate die relativen Häufigkeiten p˜ m aufgetragen. Im Kreisdiagramm werden die Winkel αm (in Grad◦ ) der Kreissektoren proportional zu den relativen Häufigkeiten p˜ m gewählt: αm = p˜ m · 360
(1.4)
Beispiel: Auf die Frage nach ihrer Parteipräferenz gaben 50 Studenten Antworten, die sich in folgender Häufigkeitstabelle zusammenfassen lassen: Tabelle: Parteipräferenzen Merkmalsausprägung
Symbol
hi
p˜ i
αi
A1 A2 A3 A4
21 19 4 6
0.42 0.38 0.08 0.12
151.5 136.8 28.8 43.2
CDU/CSU SPD FDP GRÜNE
Im Unterschied zu qualitativen, ordinalen oder diskreten Merkmalen liegen bei stetigen oder quasistetigen metrischen Merkmalen häufig so viele verschiedene Merkmalsausprägungen vor, daß bei einer einfachen Häufigkeitsauszählung keine Reduktion der Datenfülle erreicht wird. In diesem Fall ist es erforderlich, die Merkmalsausprägungen zu Klassen zusammenzufassen, die ein neues metrisches Merkmal mit weniger Merkmalsausprägungen ergeben. Als Beispiel betrachten wir das Merkmal Brenndauer (in Stunden) an 200 Leuchtstoffröhren, für die z.B. folgende Werte auftreten: 127.53
144.27
443.17
99.40
...
207.89
Zur Berechnung der absoluten und relativen Häufigkeiten werden für jede Klasse k = 1, . . . , K eine untere Klassengrenze ak und eine obere Klassengrenze ak+1 bestimmt. Der realisierte Wert xi der Stichprobe oder der Grundgesamtheit wird der Klasse k zugewiesen, wenn xi ein Element des halboffenen Intervalls (ak , ak+1 ] ist. Tabelle: Brenndauer von Leuchtstoffröhren (in Stunden) ak 1 2 3 4 5
untere Klassengrenze
obere Klassengrenze
Klassenmitte
hk
p˜ k
f˜k
0 100 200 300 400
100 200 300 400 1000
50 150 250 350 700
27 49 37 28 59
0.135 0.245 0.185 0.140 0.295
0.00135 0.00245 0.00185 0.00140 0.00049
200
1.000
Man beachte, daß die Abstände zwischen den Klassengrenzen nicht gleich sind. Sie betragen jeweils 100 in den ersten 4 Klassen und 600 in der fünften Klasse. Durch diese Klassenbildung läßt sich die Brenndauer als neues statistisches Merkmal mit 5 Ausprägungen auffassen, dessen Merkmalsausprägungen die Klassenmitten ck sind, durch die das metrische Skalenniveau der Variablen Brenndauer beibehalten wird. (Die Klassenmitte wird als repräsentativer Wert einer Klasse gewählt.) Man beachte, daß das metrische Skalenniveau nur dann erhalten bleibt, wenn keine offenen Klassen (d.h. a1 = −∞ oder aK = +∞) verwendet werden. Offene Klassen sollten daher vermieden werden. Die Anzahl der Klassen sollte so gewählt werden, daß die Darstellung sowohl in tabellarischer- als auch in graphischer Form übersichtlich bleibt. 4
Die graphische Darstellung erfolgt wiederum durch Stabdiagramme, bei denen die Klassenmitten ck auf der Abszisse und die relativen Häufigkeiten p˜ k auf der Ordinate für k = 1, . . . , K aufgetragen werden. Eine zweite Möglichkeit ist die Darstellung durch Histogramme. Das Histogramm besteht aus Rechtecken, die über den Intervallen (ak , ak+1 ] errichtet werden. Die Fläche des Rechtecks entspricht der relativen Häufigkeit p˜ k . Da die Intervalle (ak , ak+1 ] der Länge nach variieren können, müssen die Höhen f˜k der Rechtecke wie folgt berechnet werden: f˜k =
p˜ k , ak+1 − ak
k = 1, . . . , K
(1.5)
Die Rechteckshöhe ist nicht identisch mit der relativen Häufigkeit, da die Breite der Klasse berücksichtigt wird. In der letzten Tabelle ist die Höhe der einzelnen Klassen angegeben, so daß unmittelbar das Histogramm erstellt werden kann. Liegt eine offene Klasse vor, kann kein Histogramm gezeichnet werden.
1.3
Empirische Verteilungsfunktion
Ist ein Merkmal metrisch, so läßt sich aus den relativen Häufigkeiten die empirische Verteilungsfunktion berechnen. Das metrische Merkmal werde mit X bezeichnet, der Wert x ist ein beliebiger Wert aus R. Die empirische Verteilungsfunktion F˜X (x) des Merkmals X an der Stelle x gibt an, wie groß die relative Häufigkeit ist, daß die Variable X einen Wert ≤ x annimmt. Die Verteilungsfunktion ist definiert durch: M 1 ˜ hm · Im (x) FX (x) = h• m=1
(1.6)
Die Funktion Im (x) ist die Indikatorfunktion. Sie nimmt den Wert 1 an, wenn der zu hm zugehörige Wert xi (i-te Merkmalsausprägung der Variablen X) ≤ x ist und nimmt den Wert 0 an, wenn xi > x ist. Wenn alle Meßwerte xi unterschiedlich sind, erhält man hm = 1 und M = h• = n . Daraus folgt: M 1 Im (x) F˜X (x) = M m=1
(1.7)
Für die empirische Verteilungsfunktion der Brenndauer von Leuchtstoffröhren erhält man: Tabelle: empirische Verteilungsfunktion der Brenndauer ak
untere Klassengrenze
obere Klassengrenze
Klassenmitte
p˜ k
F˜k (ak+1 )
1 2 3 4 5
0 100 200 300 400
100 200 300 400 1000
50 150 250 350 700
0.135 0.245 0.185 0.140 0.295
0.135 0.380 0.565 0.705 1.000
Man beachte, daß die empirische Verteilungsfunktion einer Klasse k immer an der oberen Klassengrenze ak+1 durch Summierung der relativen Häufigkeiten berechnet wird. Für die Werte der Klasse k, die unterhalb der oberen Klassengrenze ak+1 liegen, ist daher die Verteilungsfunktion zu groß. Für beliebige Werte x wird daher zwischen der unteren und der oberen Klassengrenze (unter der Annahme, daß die Werte innerhalb einer Klasse gleich verteilt sind) linear interpoliert. Wenn x in der Klasse k liegt, gilt: F˜X (ak+1 ) − F˜X (ak ) (1.8) · (x − ak ) F˜X (x) = F˜X (ak ) + (ak+1 − ak ) Man beachte, daß die empirische Verteilungsfunktion nur für metrische Variablen definiert ist. Liegt eine ordinale Variable vor, so lassen sich zwar die K Merkmalsausprägungen A1 < A2 < . . . < AK ordnen, die Lage dieser Merkmalsausprägungen auf R ist aber nicht bekannt. Trotzdem werden in manchen
5
Anwendungen die relativen Häufigkeiten auch für ordinale Häufigkeiten wie im letzten Beispiel kumuliert. Diese kumulierte Funktion H : {A1 , . . . , AM } −→ [0, 1] bezeichnet man als kumulierte relative Häufigkeit: H (Am ) =
m
p˜ j
für
m = 1, . . . , M
(1.9)
j =1
1.4
Deskriptive Lagemaße
Die gesamte statistische Information über ein Merkmal ist in den relativen Häufigkeiten enthalten. Dieser Informationsgehalt läßt sich jedoch häufig – ohne Informationsverlust – durch wenige Kennzahlen darstellen. Die wichtigsten dieser Kennzahlen sind Lage- und Streuungsmaße. Wir gehen zunächst auf die Lagemaße ein. 1.4.1 Der Modus Der Modus oder Modalwert ist die häufigste Ausprägung einer Verteilung. Er wird mit M bezeichnet. Liegt eine metrische Variable in gruppierter Form vor, ist die häufigste Ausprägung die Modalklasse. Im Beispiel zur Parteipräferenz ist der Modus die Ausprägung CDU/CSU. Der Modus kann sowohl für qualitative als auch für ordinale als auch für metrische Variable verwendet werden. 1.4.2 Der Median Als Median oder Zentralwert bezeichnet man den Wert x0.5 , für den gilt: F˜X (x0.5 ) = 0.5
(1.10)
Der Median teilt die Grundgesamtheit oder Stichprobe in zwei gleiche Hälften. Die erste Hälfte besitzt Merkmalsausprägungen ≤ x0.5 , die zweite Hälfte besitzt Merkmalsausprägungen ≥ x0.5 . Zur Berechnung von x0.5 werden die Werte x1 , . . . , xn einer metrischen Variablen zunächst geordnet, so daß gilt: x[1] ≤ x[2] ≤ . . . ≤ x[i] ≤ . . . ≤ x[n]
(1.11)
Ist die Zahl n ungerade, so ist x0.5 = x[(n+1)/2]
(1.12)
Ist die Zahl n gerade, so wird der Median definiert als: x0.5 =
1 x[n/2] + x[n/2+1] 2
(1.13)
Beispiel: Gegeben sei eine Stichprobe von monatlichen Einkommen (in EUR) von Studenten: 698 712 519 832 1316 497 781 1213 550 437 Die geordnete Liste der Einkommen ist: 437 497 519 550 698 712 781 832 1213 1316
(1.14)
Die Stichprobengröße n ist 10. Der Median ist daher: x0.5 = (x[5] + x[6] )/2 = (698 + 712)/2 = 705
(1.15)
Liegen die Daten nur in klassifizierter Form wie im Beispiel über die Brenndauer von Leuchtstoffröhren vor, so muß zunächst die Klasse k bestimmt werden, in der der Median liegt. Diese Klasse heißt Medianklasse. Für sie gilt: k ist Medianklasse ⇐⇒ F˜X (ak ) < 0.5 ≤ F˜X (ak+1 )
6
(1.16)
Hat man die Medianklasse k ermittelt, kann unter der Annahme der Gleichverteilung der Werte innerhalb dieser Klasse der Median linear interpoliert werden: (ak+1 − ak ) · (0.5 − F˜X (ak )) x0.5 = ak + (1.17) ˜ ˜ FX (ak+1 ) − FX (ak ) Beispiel: Aus der Häufigkeitstabelle der Brenndauer von Leuchtstoffröhren erhält man als Medianklasse k = 3, da gilt: F (a3 = 200) = 0.380 < 0.5 ≤ 0.565 = F (a4 = 300) Daraus läßt sich x0.5 berechnen: 300 − 200 x0.5 = 200 + · (0.500 − 0.380) = 264.864 0.565 − 0.380 Liegt eine ordinale Skala vor, so läßt sich nur eine Ausprägung bestimmen, für die gilt: H (Ak−1 ) < 0.5 ≤ H (Ak )
(1.18)
(1.19)
(1.20)
Diese Ausprägung Ak kann als Medianausprägung oder kurz als Median des ordinalen Merkmals A bezeichnet werden. 1.4.3 Quantile Der Begriff des Medians läßt sich auf den Begriff des α-Quantils verallgemeinern. Gibt man einen Wert α ∈ [0, 1] vor, so läßt sich für ein metrisches Merkmal X der Wert xα bestimmen, für den gilt: F˜X (xα ) = α
(1.21)
Wichtige Spezialfälle sind die Quartile {x0.25 , x0.75 } und die Dezile {x0.1 , x0.2 , . . . , x0.9 }. Die Quantile werden wie der Median durch Auszählen bei Vorliegen einer geordneten Liste {x[1] , . . . , x[n] } bestimmt. Das xα -Quantil ist für eine geordneten Liste {x[1] , . . . , x[n] } wie folgt definiert. , falls n · α keine ganze Zahl ist, gilt: k ist die auf n · α folgende x[k] xα = (1.22) ganze Zahl 1 x , falls n · α eine ganze Zahl ist, gilt: k = n · α + x [k] [k+1] 2 Bei klassifizierten Daten werden die Quantile durch lineare Interpolation bestimmt. Beispiel: Das Unternehmen, das die im letzten Beispiel untersuchten Leuchtstoffröhren herstellt, möchte die Garantiezeit für die Brenndauer der Leuchtstoffröhren so festsetzen, daß maximal 15% der Röhren ersetzt werden müssen. Dieser Wert ist das 0.15-Quantil der Verteilung. Die Klasse, in der dieses Quantil liegt, ist k = 2, da gilt: F (100) = 0.135 < 0.150 ≤ 0.380 = F (200) Das 0.15 Quantil wird durch lineare Interpolation ermittelt: 200 − 100 · (0.15 − 0.135) = 106.123 x0.15 = 100 + 0.380 − 0.135 Das Unternehmen kann daher als Garantiedauer einen Wert von 106 Stunden festsetzen.
(1.23)
(1.24)
1.4.4 Das arithmetische Mittel Das bekannteste Lagemaß für eine metrische Variable X ist das arithmetische Mittel x. ¯ Die Beobachtungen {x1 , . . . , xn } werden gemittelt, d.h.: n
x¯ =
1 xi n i=1
(ungewichtetes Mittel)
(1.25)
Treten bestimmte Merkmalsausprägungen häufiger als einmal auf, so läßt sich die Berechnung vereinfachen, indem die Merkmalsausprägungen xm mit hm multipliziert werden: M M 1 x¯ = xm · h m = xm · p˜ m h• m=1 m=1
(gewichtetes Mittel)
7
(1.26)
Auf die letzte Gleichung muß immer dann zurückgegriffen werden, wenn die Daten nur in klassifizierter Form vorliegen. Dann sind die Werte xm die Klassenmitten. Beispiel: Die mittlere Brenndauer der Leuchtstoffröhren läßt sich als gewichtetes arithmetisches Mittel berechnen: x¯ = 50 · 0.135 + 150 · 0.245 + 250 · 0.185 + 350 · 0.140 + 700 · 0.295 = 345.25
(1.27)
Das arithmetische Mittel kann nicht für ordinale und qualitative Merkmale berechnet werden, da für diese die Addition nicht definiert ist. Sowohl x0.5 als auch x¯ charakterisieren die Lage der Verteilung von X. Häufig sind x0.5 und x¯ die Werte, um die sich die meisten Werte der Verteilung anordnen. Das arithmetische Mittel ist zwar das gebräuchlichste Lagemaß; es empfiehlt sich aber, immer auch den Median zu berechnen, da dieser unempfindlicher gegenüber Ausreißern als das arithmetische Mittel ist.
1.5
Streuungsmaße
Zusätzlich zur Lage der Verteilung ist man an der Streuung der Verteilung interessiert. Die Streuung besagt, ob sich die Werte xi , i = 1, . . . , n einer metrischen Variablen X eng um einen Wert gruppieren, oder ob sie weit von diesem Wert entfernt liegen. 1.5.1 Die Spannweite Das einfachste Streuungsmaß ist die Spannweite R. Liegen die Daten als geordnete Liste {x[1] , . . . , x[n] } vor, so ist: R = x[n] − x[1]
(1.28)
Die Spannweite hat den Nachteil, daß nur zwei extreme Werte zur Berechnung der Streuung verwendet werden, so daß nur ein kleiner Teil der Information der Daten ausgenützt wird. 1.5.2 Varianz– und Standardabweichung Um alle Werte in die Berechnung der Streuung einzubeziehen, liegt es nahe, die Summe aller Differenzen zwischen xi , i = 1, . . . , n und x¯ zu bilden. Es gilt jedoch: n
(xi − x) ¯ =
i=1
n
xi − x¯ · n = 0
(1.29)
i=1
Dieser Nachteil läßt durch Verwendung von Absolutbeträgen oder Quadraten vermeiden. Als empirische Varianz s 2 wird die durchschnittliche quadrierte Abweichung vom Mittelwert verwendet, bei der große Abweichungen überproportional gewichtet werden. Liegt eine Grundgesamtheit vor, so gilt: s2 =
N 1 (xj − x) ¯ 2 N j =1
(1.30)
Für eine Stichprobe gilt: n
1 s = (xi − x) ¯ 2 n − 1 i=1 2
(1.31)
Die unterschiedlichen Definitionen werden in der statistischen Methodenlehre begründet. Sind die Daten gruppiert oder klassifiziert, müssen die obigen Formeln durch Gewichtung modifiziert werden: s = 2
K
(xk − x) ¯ 2 p˜ k
(für eine Grundgesamtheit)
k=1
8
(1.32)
K
n s = (xk − x) ¯ 2 p˜ k n − 1 k=1 2
(für eine Stichprobe)
(1.33)
Die Varianz ist immer positiv. Um auf die ursprüngliche Maßeinheit zu kommen, verwendet man die Standardabweichung: √ s = s2 (1.34) Beispiel: Die Varianz und die Standardabweichung der Brenndauer von Leuchtstoffröhren sind aus einer Stichprobe von n = 200 aus der angegebenen Häufigkeitstabelle zu berechnen. Das arithmetische Mittel ist gegeben mit: x¯ = 345.25, siehe Gleichung (1.27). Tabelle: Berechnung der Varianz xk
p˜ k
(xk − x) ¯ 2
(xk − x) ¯ 2 p˜ k
50 150 250 350 700
0.135 0.245 0.185 0.140 0.295
87172.563 38122.563 9072.563 22.563 125847.563
11768.296 9340.028 1678.424 3.159 37125.031
1.000
59914.937
Die empirische Varianz der Stichprobe beträgt: s2 =
200 · 59914.937 = 60216.018 [Stunden2 ] 199
(1.35)
Die Standardabweichung ist dann: s = 245.389 [Stunden] In diesem Beispiel findet man daher eine starke Streuung der Brenndauern um den Mittelwert. Man beachte, daß s 2 und s genauso wie x¯ nur für metrische Variablen definiert sind. 1.5.3 Der Variationskoeffizient Zum Zweck des Vergleichs von Streuungen aus verschiedenen Grundgesamtheiten oder Stichproben benötigt man ein dimensionsloses Maß der Streuung. Ein solches Maß ist der Variationskoeffizient für positive metrische Variable X. v=
s x¯
(für x¯ und s aus der Grundgesamtheit oder aus der Stichprobe)
(1.36)
Beispiel: Mittelwert und Standardabweichung des Brotpreises für ein kg Brot in der Bundesrepublik Deutschland betragen x¯ = 3.25 EUR, s 2 = 1.96 EUR2 , in der Schweiz x¯ = 5 CHF, s 2 = 4.6 CHF2 . In welchem Land streut der Brotpreis stärker? In beiden Ländern streut, gemessen am Durchschnitt, der Brotpreis ungefähr gleich, da gilt: √ √ 1.96 4.6 vD = = 0.431 ≈ vCH = = 0.429 (1.37) 3.25 5 1.5.4 Der Quartilsabstand Als Alternative zur Standardabweichung läßt sich auch der Quartilsabstand q verwenden: q = x0.75 − x0.25
(1.38)
Das Maß q gibt die Länge eines Intervalls an, auf dem die mittleren 50% der Verteilung liegen. Als Übung berechne man q für das Beispiel mit der Brenndauer der Leuchtstoffröhren. 9
2
Grundbegriffe der Wahrscheinlichkeitsrechnung
Die Wahrscheinlichkeitsrechnung ist ein Teilgebiet der Mathematik, das sich mit der Untersuchung der Gesetzmäßigkeiten von Ereignissen befaßt, deren Eintreffen vom Zufall abhängt. Zu den Grundbegriffen der Wahrscheinlichkeitsrechnung zählen Zufallsexperimente, Ereignisse und Wahrscheinlichkeit.
2.1
Zufällige Ereignisse
Untersuchungsgegenstand der Wahrscheinlichkeitsrechnung sind Zufallsexperimente. Unter einem Zufallsexperiment versteht man ein Experiment, das beliebig oft unter identischen Bedingungen wiederholt werden kann. Dieses Experiment hat eine bestimmte Anzahl unterschiedlicher Ergebnisse, die zufallsbedingt sind, d.h. im voraus nicht eindeutig bestimmt werden können. Beispiele: • Bei einem Würfelwurf ist nicht vorhersehbar, wieviele Augen {1, 2, . . . , 6} die Kopfseite des Würfels zeigen wird. Das Ergebnis eines Würfelwurfes – die oben liegende Augenzahl – bezeichnet man als zufälliges Ereignis. • Besteht das Zufallsexperiment aus der Ziehung einer Karte aus einem Skat-Kartenspiel (32 Karten), so kann das zufällige Ereignis durch ein zweidimensionales Merkmal beschrieben werden, nämlich durch die Farbe {Kreuz, Pik, Herz, Karo} und durch das Bild {7, 8, . . . , König, As}. • In einem Materiallager bilden die Abgänge der verschiedenen Produkte pro Monat ein Zufallsexperiment. Dieses Experiment wiederholt sich monatlich. Das zufällige Ereignis (Versuchsausgang) wird mehrdimensional durch die Höhe der Abgänge der einzelnen Produkte beschrieben. Allerdings ist anzumerken, daß gerade in den Sozial- und Wirtschaftswissenschaften auch nicht reproduzierbare Phänomene als Zufallsexperimente modelliert werden. Über die inhaltliche Bedeutung des zufälligen Ereignisses kommen wir jetzt zur mathematischen Begriffsbestimmung. Gegeben sei ein Zufallsexperiment, dessen Ausgang durch ein ein- bzw. mehrdimensionales Merkmal beschrieben wird. Definition: 1. Jeder Wert, den ein Merkmal annehmen kann, (jeder mögliche Ausgang eines Zufallsexperiments) heißt Elementarereignis (Symbol ω). 2. Die Menge aller Elementarereignisse heißt Ereignisraum (Merkmalsraum, Stichprobenraum; Symbol *). 3. Jede Teilmenge A des Ereignisraums * nennt man ein Ereignis. A ⊂ *. 4. Man spricht vom Eintreffen des Ereignisses A, wenn das bei einem Versuch realisierte Elementarereignis ω ein Element aus der Menge A ist (ω ∈ A). Ereignisse werden gewöhnlich mit großen lateinischen Buchstaben gekennzeichnet, die häufig noch mit einem Index versehen sind (A1 , A2 …), um die Ereignisse durchzunumerieren. Elementarereignisse werden dagegen mit kleinen griechischen Buchstaben gekennzeichnet, die auch indiziert sein können. ωi ∈ A heißt: das Elementarereignis ωi ist Element des Ereignisses A. Beispiel: Wir betrachten zunächst ein Experiment mit einem Würfel. Die 6 Elementarereignisse sind die Augenzahlen i = 1, . . . , 6. Der Ereignisraum * ist {1, 2, . . . , 6}. Wir definieren die Ereignisse: Ai : Es werden i Augen gewürfelt. Ai = {i} A : Es wird eine gerade Augenzahl gewürfelt. A = {2, 4, 6} B : Es wird eine ungerade Augenzahl gewürfelt. B = {1, 3, 5} A3 tritt also dann ein, wenn eine 3 gewürfelt wird, und A tritt ein, wenn eine 2, 4 oder 6 gewürfelt wird. Beispiel: Wird ein Experiment mit zwei Würfeln durchgeführt, so sind die 36 Elementarereignisse die Kombinationen der Augenzahlen der beiden Würfel. Zum Beispiel bedeutet ω = (2, 4), daß der erste Würfel 2 und der zweite Würfel 4 Augen zeigt. 10
Weitere Beispiele für Ereignisse sind: A : Mit dem ersten Würfel wurden 3 Augen gewürfelt, A = {(3, j )|j = 1, . . . , 6}. B : Mit beiden Würfeln werden gerade Augenzahlen geworfen, B = {(i, j )|i = 2, 4 oder 6, j = 2, 4 oder 6}. Beispiel: Bei der Untersuchung über die Lebensdauer einer Glühbirne besteht die Menge der möglichen Ausgänge aus allen nichtnegativen reellen Zahlen: * = {x|x ≥ 0}. A sei das Ereignis, daß eine Glühbirne mindestens 100 Stunden brennt: A = {x|x ≥ 100}. Wenn die Birne nach 90 Stunden ausfällt, so ist A nicht eingetroffen. 2.1.1 Verknüpfungsoperationen zwischen Ereignissen Im folgenden seien A, B, Ai ⊂ *, i ∈ N, ohne daß dies extra erwähnt wird. Definition: 1. Das Ereignis A ∪ B tritt genau dann ein, wenn entweder A oder B eintreten oder beide Ereignisse A und B gleichzeitig eintreten. A ∪ B heißt Vereinigungsereignis von A und B. 2. Das Ereignis A ∩ B tritt genau dann ein, wenn sowohl A als auch B eintritt. A ∩ B heißt Durchschnittsereignis von A und B. 3. Das Ereignis ∩∞ i=1 Ai = A1 ∩ A2 ∩ . . . tritt ein, wenn alle Ai eintreten (wenn das realisierte Elementarereignis Element aller Ai ist, für alle i ∈ N gilt: ω ∈ Ai ). Beispiel: In einem Würfelexperiment mit einem Würfel seien die Ereignisse A und C wie folgt definiert: A : Es wird eine gerade Augenzahl gewürfelt, C : Es wird eine 2 oder 3 gewürfelt. Dann ist A ∩ C = {2} und A ∪ C = {2, 3, 4, 6}. Definition: 1. Zwei Ereignisse A und B heißen gleich (in Zeichen A = B), wenn A genau dann realisiert wird, wenn B realisiert wird. Dies impliziert, daß A und B dieselben Elementarereignisse enthalten. 2. Tritt mit dem Ereignis A auch das Ereignis B ein, so zieht das Ereignis A das Ereignis B nach sich. In Zeichen A ⊂ B. Das Ereignis U1 , daß mit einem Würfel eineAugenzahl größer als 6 geworfen wird, kann ebenso unmöglich eintreten wie das Ereignis U2 , daß eine Zahl zwischen 1 und 2 gewürfelt wird. Nach Definition sind diese Ereignisse gleich. Es gibt nur ein unmögliches Ereignis. Definition: 1. Das Ereignis { } (oder auch ∅) heißt unmögliches Ereignis (es tritt nie ein). 2. * heißt das sichere Ereignis (es tritt immer ein). 3. Das Ereignis, das genau dann eintritt, wenn A nicht eintritt, heißt das zu A komplementäre Ereignis Ac . 4. Zwei Ereignisse A und B schließen einander aus (sind unverträglich oder disjunkt), wenn ihr gemeinsames Auftreten unmöglich ist, also wenn A ∩ B = ∅. 5. Die Ereignisse A1 , . . . , An heißen Zerlegung von *, wenn in einem Versuch genau eines dieser Ereignisse realisiert werden muß. A1 , . . . , An bilden eine Zerlegung, wenn gilt: a) A1 ∪ . . . ∪ An = * b) Ungleiche Ereignisse schließen einander paarweise aus, d.h. Ai ∩ Aj = ∅ für alle Paare i = j . Beispiel: Wir betrachten wieder ein Würfelexperiment mit A = {1, 3, 5} und B = {2, 4, 6}. Die Ereignisse A und B schließen einander aus, da es keine Augenzahl gibt, die sowohl gerade als auch ungerade ist. Da aber entweder eine gerade oder ungerade Augenzahl auftreten muß, gilt Ac = B und B c = A. Da zueinander komplementäre Ereignisse wegen A ∪ Ac = * immer eine Zerlegung bilden, sind A und B eine Zerlegung von *. A1 , . . . , A6 bilden eine weitere Zerlegung. 11
2.1.2 Potenzmenge Sind in einem Zufallsexperiment nur endlich viele Versuchsausgänge möglich, so besteht die Menge aller Ereignisse aus der Potenzmenge von *, d.h. aus der Menge aller möglichen Teilmengen von * (die leere Menge ∅ und die Menge * selbst sind auch Teilmengen von *). Besteht * aus n Elementarereignissen, so gibt es 2n verschiedene Ereignisse (Teilmengen). Für * = {1, 2, 3} ist die Potenzmenge gegeben mit: P(*) = {{∅}, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}.
2.2 Wahrscheinlichkeit Mit der Ausnahme des unmöglichen Ereignisses besteht für alle Ereignisse die Möglichkeit, in einem Zufallsexperiment aufzutreten. Die Ereignisse besitzen nun einen bestimmten Wahrscheinlichkeitsgrad der Realisierung, der durch eine Zahl zwischen 0 und 1 repräsentiert wird. So weist im fairen Würfelexperiment z.B. das Ereignis A (gerade Augenzahl) eine größere Wahrscheinlichkeit auf als das Ereignis C (Augenzahl 2 oder 3). Wenn man ein Zufallsexperiment mit einem Zehn-Pfennig-Stück durchführt, so unterstellt man für ’Zahl’und ’Wappen’dieselbe Wahrscheinlichkeit. Üblicherweise wird ein Wahrscheinlichkeitsmaß P so normiert, daß die Wahrscheinlichkeit P des sicheren Ereignisses gleich 1 ist. Daher wird in einem Zufallsexperiment mit einer Münze den Ausprägungen Zahl und Wappen die Wahrscheinlichkeit 0.5 zugewiesen. In der Umgangssprache ist der Wahrscheinlichkeitsbegriff subjektiv. Wenn man Student S zwei Wochen vor der Statistik-Klausur sagt, er werde wahrscheinlich die Klausur bestehen, so ist dies nur eine qualitative Aussage, da eine quantitative Aussage über die Wahrscheinlichkeit des Ereignisses {S besteht Statistik-Klausur} fehlt. Bevor wir zur mathematischen Definition der Wahrscheinlichkeit kommen, werden zwei Interpretationsmodelle der Wahrscheinlichkeit vorgestellt. 2.2.1 A-priori-Modelle A-priori-Modelle beruhen auf dem Prinzip vom unzureichenden Grund (auch Indifferenzprinzip): Hat man keine Veranlassung, einen bestimmten Ausgang eines Zufallsexperiments für wahrscheinlicher als einen anderen zu halten, so wird man alle Ausgänge für gleichmöglich ansehen. Besteht der Ereignisraum * aus N, N < ∞, Elementarereignissen, so ist die Wahrscheinlichkeit, daß ein bestimmtes Elementarereignis realisiert wird, gleich 1/N . Somit berechnet man die Wahrscheinlichkeit P (A) eines Ereignisses A durch P (A) = K/N , wobei K die Anzahl der in A enthaltenen Elementarereignisse ist. Der Vorteil der Apriori-Modelle besteht darin, daß man die Wahrscheinlichkeit durch Abzählen der Elementarereignisse ausrechnen kann. Der Nachteil liegt darin, daß es in den Wirtschafts- und Sozialwissenschaften selten Situationen gibt, auf die man das Indifferenzprinzip anwenden kann. 2.2.2 Die Häufigkeitsinterpretation Unter der (empirischen) Wahrschewinlichkeit eines Ereignisses versteht man die relative Häufigkeit dieses Ereignisses in einer (theoretisch unendlich) langen Versuchsreihe. Die relative Häufigkeit pn = m n ist der Quotient aus der Anzahl m des Eintreffens des Ereignisses in n Versuchen. Nach einer weiteren Durchführung des Experiments erhält man:
pn+1 =
m+1 n+1 m n+1
=
n n+1
=
n n+1
pn +
1 n+1
wenn das Ereignis eingetreten ist (2.1)
pn
wenn es nicht eingetreten ist
Man erkennt, daß dieÄnderung der relativen Häufigkeit durch denAusgang eines weiteren Experiments umso geringer ist, je größer n ist. Die Fluktuation der Folge p1 , p2 , . . . nimmt ab. Strebt die relative Häufigkeit eines Ereignisses mit wachsendem n zu einem Grenzwert, so bezeichnet man diesen Grenzwert als Wahrscheinlichkeit dieses Ereignisses. Münzversuch:pn (’Zahl’) → P (’Zahl’), wenn n → ∞
(2.2)
Diese Interpretation bietet den Vorteil, daß man die Wahrscheinlichkeit durch eine endliche Messung approximieren kann. Es wird kein A-priori-Modell benötigt. Die Genauigkeit der Messung läßt sich durch 12
Versuchswiederholungen beliebig heraufsetzen. Die Wahrscheinlichkeit kann auf diese Weise allerdings nur bestimmt werden, wenn das Zufallsexperiment beliebig oft wiederholbar ist. Darin besteht der Nachteil dieses Ansatzes. Zur formalen Behandlung wird der Wahrscheinlichkeitsbegriff axiomatisch (d.h. durch Festlegung) eingeführt. Die Axiomatisierung der Wahrscheinlichkeit wurde durch den russischen Mathematiker Kolmogoroff (1933) durchgeführt, der die Wahrscheinlichkeit indirekt durch Angabe gewünschter Eigenschaften und Relationen definiert hat. Definition:(Axiome von Kolmogoroff) Eine Funktion P (A), die jedem Ereignis A ⊂ * einen Wert P (A) so zuordnet, daß die folgenden Bedingungen gelten, heißt ein Wahrscheinlichkeitsmaß auf der Gesamtheit der zu einem Zufallsexperiment gehörenden Ereignisse. 1. 0 ≤ P (A) ≤ 1 für alle Ereignisse A 2. P (∅) = 0, P (*) = 1 3.
(a) Schließen A und B einander aus, so gilt: P (A ∪ B) = P (A) + P (B) (b) Sind die abzählbar unendlich vielen Ereignisse A1 , A2 , . . . paarweise disjunkt, so gilt: P
∪∞ i=1 Ai
= P (A1 ∪ A2 ∪ · · ·) =
∞
P (Ai )
i=1
Bemerkung: Gilt für das Ereignis P (A) = 0, so folgt daraus nicht, daß A das unmögliche Ereignis ist. Aus den Axiomen von Kolmogoroff lassen sich folgende Eigenschaften der Wahrscheinlichkeit herleiten: Satz: 1. Für das komplementäre Ereignis von A gilt: P (Ac ) = 1 − P (A) 2. Gilt für zwei Ereignisse A und B A ⊂ B, so ist P (A) ≤ P (B) 3. Für zwei beliebige Ereignisse A und B gilt: P (A∪B) = P (A)+P (B)−P (A∩B) (Additionssatz) 4. Bilden die Ereignisse A1 , . . . , An eine Zerlegung von *, so gilt: n
P (Ai ) = 1
i=1
Beispiel: Besitzt jede Augenzahl in einem Würfelexperiment die Wahrscheinlichkeit 1/6, und ist E das Ereignis, daß keine 6 gewürfelt wird, so ist P (E) = 1 − P (E c ) = 1 − 1/6; denn E c tritt ein, wenn eine 6 gewürfelt wird.
2.3
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
Bisher sind nur Wahrscheinlichkeiten von Ereignissen ohne Berücksichtigung weiterer Bedingungen behandelt worden. Oft interessiert man sich aber für die Wahrscheinlichkeit eines Ereignisses A unter der zusätzlichen Voraussetzung, daß ein bestimmtes Ereignis B eintritt oder schon eingetreten ist. Man möchte z.B. wissen, mit welcher Wahrscheinlichkeit ein Fernseher noch 2 Jahre funktioniert, wenn man weiß, daß er bereits 5 Jahre störungsfrei gelaufen ist. Ein zweites Beispiel ist die Berechnung der Wahrscheinlichkeit, daß von den Frauen der Belegschaft eines Unternehmens mindestens eine befördert wird. Das Ereignis A ist dann das Ereignis ’mindestens eine Person wird befördert’ und B ist das Ereignis ’weiblich’. Muß man also bei der Berechnung von P (A) eine Bedingung berücksichtigen, die einen Einfluß auf die Wahrscheinlichkeit von A ausübt, so spricht man von einer bedingten Wahrscheinlichkeit. Definition: P (A ∩ B) falls P (B) > 0 P (A|B) = (2.3) P (B) 0 falls P (B) = 0 heißt bedingte Wahrscheinlichkeit von A, gegeben, daß B eintrifft oder eingetroffen ist. 13
Beispiel: Wie groß ist die Wahrscheinlichkeit in einem Würfelexperiment, mit einem Würfel eine Augenzahl kleiner als 3 zu werfen, wenn bekannt ist, daß eine gerade Augenzahl gewürfelt worden ist? Es ist P (A|B) zu berechnen, wobei A = {1, 2} und B = {2, 4, 6} ist. Wegen P (A ∩ B) = P ({2}) = 1/6 und P (B) = 1/2 folgt P (A|B) = 1/3 . Beispiel: Im Würfelexperiment mit zwei Würfeln besitzt jede Kombination von Augenzahlen die Wahrscheinlichkeit 1/36. Es sei A das Ereignis, daß mit dem zweiten Würfel eine 1, und B, daß mit dem ersten Würfel eine ungerade Augenzahl gewürfelt wird, also A = {(i, j )|i = 1, . . . , 6, j = 1}, B = {(i, j )|i = 1, 3, 5, j = 1, . . . , 6, }. Es ist P (A) = 1/6 und P (B) = 1/2. Wegen A ∩ B = {(1, 1), (3, 1), (5, 1)} folgt: P (A|B) =
3/36 1 = 1/2 6
(2.4)
Das Ereignis B hat also keinen Einfluß auf die Wahrscheinlichkeit von A , was auch erwartet wird, da die Ereignisse A und B zwei verschiedene Würfel betreffen. Definition: Man bezeichnet zwei Ereignisse A, B eines Zufallsexperiments als stochastisch unabhängig, wenn das Eintreten des einen die Eintrittswahrscheinlichkeit des anderen nicht beeinflußt: P (A|B) = P (A), falls P (B) > 0
(2.5)
Aus dieser Definition und der Definition der bedingten Wahrscheinlichkeit folgt der nächste Satz. Satz: A und B sind genau dann stochastisch unabhängig, wenn gilt: P (A ∩ B) = P (A) · P (B)
(2.6)
Beweis: P (A|B) = P (A)
⇐⇒
P (A ∩ B) = P (A) P (B)
⇐⇒
P (A ∩ B) = P (A) · P (B)
(2.7)
Dieser Satz zeigt, daß bei stochastisch unabhängigen Ereignissen die Wahrscheinlichkeit des gemeinsamen Eintretens beider Ereignisse gleich dem Produkt der Einzelwahrscheinlichkeiten ist. Aus der allgemeinen Definition der bedingten Wahrscheinlichkeit kann die folgende Multiplikationsregel hergeleitet werden: P (A ∩ B) = P (A|B) · P (B)
(2.8)
Aus der Multiplikationsregel lassen sich die Formel für die vollständige Wahrscheinlichkeit und die Formel von Bayes herleiten. Satz von der vollständigen Wahrscheinlichkeit: Bilden die Ereignisse E1 , . . . En eine Zerlegung von *, so gilt für ein beliebiges Ereignis A: P (A) =
n
P (A|Ei ) · P (Ei )
(2.9)
i=1
Satz von Bayes: Bilden die Ereignisse E1 , . . . , En eine Zerlegung von *, so gilt für ein beliebiges Ereignis A mit P (A) > 0: P (Ei |A) =
P (A|Ei ) · P (Ei ) für i = 1, . . . , n n P (A|Ej ) · P (Ej )
(2.10)
j =1
Beweis: Nach der Multiplikationsregel ist P (A|Ei ) · P (Ei ) = P (A ∩ Ei ) und nach dem Satz der vollständigen Wahrscheinlichkeit ist nj=1 P (A|Ej ) · P (Ej ) = P (A). P (Ei ) wird als a-priori-Wahrscheinlichkeit des Ereignisses Ei und P (Ei |A) wird als a-posterioriWahrscheinlichkeit von Ei bezeichnet. Dieser Satz kann also dazu verwendet werden, ein unbekannte a-posteriori-Wahrscheinlichkeit mit Hilfe von a priori Wahrscheinlichkeiten und bedingten Wahrscheinlichkeiten zu berechnen. Beispiel: Eine Firma baut 3 verschiedene elektronische Bauteile. Durchschnittlich sind 2% der Bauteile des ersten Typs, 5% des zweiten und 3% des dritten Ausschuß. Wie groß ist die Wahrscheinlichkeit, daß 14
ein zufällig aus der Produktion ausgewähltes Bauteil Ausschuß ist, wenn der Anteil des ersten Typs an dem Produktionsausstoß 20%, der des zweiten 30% und der des dritten 50% beträgt? Steht A für das Ereignis, daß ein Bauteil defekt ist, und Ei dafür, daß das Teil vom Typ i ist, so ergibt der Satz für die totale Wahrscheinlichkeit: P (A) =
3
P (Ei ) · P (A|Ei ) = 0.2 · 0.02 + 0.3 · 0.05 + 0.5 · 0.03 = 0.034
(2.11)
i=1
Ein Kunde beschwert sich, daß das ihm gelieferte Bauteil defekt ist, ohne den Typ des Bauteils anzugeben. Wie groß ist die Wahrscheinlichkeit, daß das Bauteil eines des ersten Typs ist? Nach dem Satz von Bayes erhält man: P (E1 |A) =
P (A|E1 ) · P (E1 ) 3
=
P (A|Ei ) · P (Ei )
0.02 · 0.2 = 0.118 0.034
(2.12)
i=1
2.4
Zufallsvariable
Werden allen möglichen Ausgängen eines Zufallsexperiments (allen Elementarereignissen) durch eine Funktion Zahlen zugeordnet, spricht man von einer eindimensionalen Zufallsvariablen, die wir mit X, Y oder Z bezeichnen. Wird ein Zahlentupel (X1 , . . . , Xk ) zugeordnet, so sprechen wir von einer mehrdimensionalen Zufallsvariablen oder einem Zufallsvektor. Beispiel: Eine Münze wird dreimal geworfen. Die Menge der Elementarereignisse ist: * = {W W W, ZW W, W ZW, W W Z, ZZW, ZW Z, W ZZ, ZZZ}
(2.13)
wobei W für Wappen und Z für Zahl stehen. Nach dem Indifferenzprinzip hat jedes Elementarereignis die Wahrscheinlichkeit 1/8. Die Zufallsvariable X sei nun als die Häufigkeit von Wappen definiert. Der Wertebereich von X ist dann {0, 1, 2, 3}. Die Wahrscheinlichkeiten für die einzelnen Werte werden durch die Wahrscheinlichkeitsverteilung auf * induziert. Daher gilt: P (X = x) = P ({ω ∈ *|X(ω) = x}). x
0
1
2
3
1
P (X = x)
1 8
3 8
3 8
1 8
1
Weitere Beispiele für Zufallsvariable sind: • die Brenndauer einer Glühbirne (stetig) • die Anzahl der Auftragseingänge eines Betriebs während eines Monats (diskret) • die Dauer einer Reparatur in einer Werkstatt (stetig). • die Anzahl der abgeschlossenen Versicherungsverträge einer Agentur (diskret) Definition: 1. Eine Zufallsvariable heißt diskret, wenn ihr Wertebereich endlich oder abzählbar unendlich ist. 2. Eine Zufallsvariable heißt stetig, wenn ihre möglichen Werte wenigstens ein Intervall der reellen Zahlen R ausfüllen und kein Elementarereignis positive Wahrscheinlichkeit besitzt. Durch Zufallsvariable wird eine Wahrscheinlichkeit auf dem Wertebereich (üblicherweise Intervalle) induziert. Wir schreiben PX (I ) = P (X ∈ I ) = P ({ω|X(ω) ∈ I }).
(2.14)
für Teilmengen I von R. Falls keine Mißverständnisse auftreten können, schreibt man auch P (I ) statt PX (I ). 15
Beispiel: Beschreibt die Zufallsvariable X die Brenndauer einer Glühbirne in Std., so ist PX (100, ∞) die Wahrscheinlichkeit, daß die Glühbirne länger als 100 Stunden brennt. Man beachte, daß die Wahrscheinlichkeit auf dem beiderseitig offenen Intervall (100, ∞) berechnet wird. Beispiel: Eine Münze wird dreimal geworfen. X sei die Häufigkeit von Wappen und Y sei die Anzahl der Versuche, bevor das erste Wappen erscheint. Falls bei keinem Versuch Wappen geworfen wird, so soll Y gleich 3 gesetzt werden. Der Wertebereich des Zufallsvektors (X, Y ) ist: {(0,3), (1,0), (1,1), (1,2), (2,0), (2,1), (3,0)}. Das Paar (2,0) tritt bei W ZW und W W Z ein. (X, Y ) besitzt folgende Wahrscheinlichkeitsverteilung: y 0 1 2 3
0 1 8
x 1 1 8 1 8 1 8
-
16
2
3
1 4 1 8
1 8
-
-
3
Diskrete Verteilungen
3.1
Grundlagen
Der Wertebereich M einer diskreten Zufallsvariablen X ist abzählbar. Besitzt ein Zufallsexperiment als Menge der Ausgänge die Menge der ganzen Zahlen, so ist * = Z. Die Wahrscheinlichkeitsverteilung PX (A) auf M wird durch ihre diskrete Dichte (Wahrscheinlichkeitsfunktion) beschrieben: pj = PX ({j }) = P (X = j ) = P ({ω ∈ *|X(ω) = j })
für alle j ∈ M
(3.1)
pj ist die Wahrscheinlichkeit, daß die Zufallsvariable X die Ausprägung j annimmt. Ist A ⊂ M, dann gilt: pj (3.2) PX (A) = j ∈A
Für diskrete Dichten gilt (falls * = Z): pj ≥ 0 für alle j ∈ Z und
∞
pj = 1
(3.3)
j =−∞
Eine Verteilung wird durch die Verteilungsfunktion vollständig repräsentiert. Definition: Ist PX (A) die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X, so heißt: FX (x) = PX ((−∞, x]) = P (X ≤ x), x ∈ R
(3.4)
die Verteilungsfunktion von PX (A). Man beachte, daß FX (x) eine Stufenfunktion darstellt und auf R definiert ist. Im folgenden schreiben wir nur P (A) und F (x) statt PX (A) bzw. FX (x), da wir nur eine Zufallsvariable behandeln und daher Mißverständnisse ausgeschlossen sind. Satz: Die Verteilungsfunktion einer diskreten Zufallsvariablen wird durch folgende Eigenschaften charakterisiert: 1. 2.
F (x) steigt monoton pj F (x) = j ≤x
3. 4.
lim F (x) = 0, lim F (x) = 1
x→−∞
x→∞
F (j ) − F (j − 1) = pj für j ∈ Z
Beispiel: Die Verteilungsfunktion der Zufallsvariablen X, die die Anzahl der im dreifachen Münzwurf geworfenen Wappen beschreibt, ist: 0 für x < 0 1 für 0 ≤ x < 1 8 4 für 1 ≤ x < 2 (3.5) F (x) = 8 7 für 2 ≤ x < 3 8 1 für 3 ≤ x Zur Charakterisierung einer Zufallsvariablen genügen häufig einzelne Kennzahlen, sogenannte Verteilungsparameter. Definition: Es sei g(X) : R → R eine reellwertige Funktion. Dann ist der Erwartungswert von g(X) durch folgenden Ausdruck gegeben: g(j ) · pj (3.6) E(g(X)) = j ∈M
17
Beispiel: Eine Telefonvermittlung kann maximal 10 Gespräche pro Minute vermitteln. Wird die Anzahl der Anrufe durch die Zufallsvariable X beschrieben und ist g(x) = 0 falls x ≤ 10 und g(x) = 1 falls x > 10, so beschreibt g(X), ob die Vermittlung überlastet ist oder nicht. E(g(X)) ist in diesem Fall die Wahrscheinlichkeit, daß die Vermittlung mehr als 10 Anrufe erhält. Definition: 1. E(X) heißt Erwartungswert und wird mit dem Symbol µ bezeichnet. E(X) =
xj · p j
j ∈M
2. E((X − µ)2 ) heißt Varianz (Streuung) von X und wird mit V (X), σ 2 (X) oder σ 2 bezeichnet. E((X − µ)2 ) =
(xj − µ)2 · pj
j ∈M
3. σ (X) =
σ 2 (X) heißt Standardabweichung von X
Eine zusätzliche Charakterisierung der Verteilung einer Zufallsvariablen X läßt sich durch die sogenannten Momente vornehmen. Definition: E((X − a)k ) = (xj − a)k pj k = 1, 2, . . . heißt k-tes Moment um a (3.7) j ∈M k
E(X ) heißt k-tes gewöhnliches Moment (a = 0)
(3.8)
E((X − µ)k ) heißt k-tes zentrales Moment (a = µ)
(3.9)
Das erste gewöhnliche Moment E(X) ist der Erwartungswert. Das zweite zentrale Moment E((X − µ)2 ) ist die Varianz von X. Definition: Der Momentkoeffizient der Schiefe einer Zufallsvariablen X wird durch S(X) definiert: S(X) =
E((X − µ)3 ) E(X3 ) − 3E(X 2 )µ + 2µ3 = σ 3 (X) σ 3 (X)
(3.10)
Ist S(X) negativ (positiv), so ist die Verteilung der Zufallsvariablen linksschief (rechtsschief). Ist ihr Wert Null, so liegt eine symmetrische Verteilung vor. Der Momentkoeffizient der Wölbung wird durch W (X) definiert: W (X) =
E((X − µ)4 ) E(X 4 ) − 4µE(X 3 ) + 6µ2 E(X 2 ) − 3µ4 − 3 = −3 σ 4 (X) σ 4 (X)
(3.11)
Ist W (X) > 0, heißt die Verteilung leptokurtisch. Ist W (X) = 0, heißt sie mesokurtisch und ist W (X) < 0, heißt sie platykurtisch. Für Erwartungswerte und Varianzen gelten folgende Rechenregeln. Satz: Für reellwertige Zufallsfunktionen g1 (X) und g2 (X) gilt, sofern die Erwartungswerte existieren: 1. E(g1 (X) + g2 (X)) = E(g1 (X)) + E(g2 (X)) 2. E(c · g1 (X)) = c · E(g1 (X)) für jede Konstante c ∈ R Mit Hilfe des letzten Satzes lassen sich folgende Regeln für den Erwartungswert und die Varianz herleiten. Satz: Es seien a, b ∈ R. Dann gilt: 1. E(a + bX) = a + bE(X) (Linearitätsregel) 2. σ 2 (a + bX) = b2 · σ 2 (X) 3. σ 2 (X) = E(X 2 ) − µ2
(Verschiebungssatz)
18
Beweis: Der Beweis des ersten Teils des Satzes sei dem Leser überlassen. Wir beweisen den Verschiebungssatz: σ 2 (X) = E((X − µ)2 ) = E(X 2 − 2µX + µ2 ) = E(X 2 ) − 2µE(X) + µ2 = E(X 2 ) − 2µµ + µ2 = E(X ) − 2µ + µ 2
2
(3.12)
2
= E(X 2 ) − µ2 Beispiel: Im A-priori Modell, das auch Laplace-Modell genannt wird, gehen wir davon aus, daß der Ereignisraum endlich viele Elementarereignisse besitzt und jedes Elementarereignis dieselbe Chance des Eintretens besitzt. Ist die Anzahl der Elementarereignisse gleich N , so besitzt jedes Elementarereignis die Wahrscheinlichkeit N1 . Beispiele für Laplace-Modelle sind: Roulette mit N = 37, Würfelexperiment mit einem Würfel (N = 6), einfacher Münzwurf (N = 2) oder das zufällige Ziehen aus einer Menge mit N Elementen. Gehören die Elementarereignisse xj , j = 1, . . . , N zur Menge der ganzen Zahlen, so wird eine diskrete Zufallsvariable definiert, deren Verteilungsfunktion und Parameter folgendermaßen berechnet werden: F (x) =
1 · (Anzahl der xj ≤ x) N
(3.13)
N 1 xj E(X) = N j =1
(3.14)
N N 1 1 σ 2 (X) = (xj − µ)2 = x 2 − µ2 N j =1 N j =1 j
(3.15)
Im Würfelexperiment mit einem Würfel ist µ = 3.5 und σ 2 = 2.916. Zusätzlich zum Erwartungswert ist noch der Median als Lagemaß gebräuchlich, der mit x˜ oder x0.5 bezeichnet wird. Definition: Der Median (bezeichnet mit x˜ oder x0.5 ) teilt den Wertebereich von X in zwei Bereiche, die gleich wahrscheinlich sind, auf. Formal wird der Median x˜ dadurch definiert, daß folgende Gleichungen gleichzeitig erfüllt sind: P (X ≤ x) ˜ ≥ 0.5 und P (X ≥ x) ˜ ≥ 0.5
(3.16)
Beispiel: Gegeben sei X mit Verteilungsfunktion F (x): X=x F (x) = P (X ≤ x) P (X ≥ x)
1
2
3
4
5
0.15 1.0
0.25 0.85
0.45 0.75
0.85 0.55
1.0 0.15
Der einzige Wert, der beide Gleichungen erfüllt, ist 4. Daher gilt: x˜ = 4. Beispiel: Gegeben sei X mit Verteilungsfunktion F (x) (Würfelwurf): X F (x) = P (X ≤ x) P (X ≥ x)
1
2
3
4
5
6
1/6 1
2/6 5/6
3/6 4/6
4/6 3/6
5/6 2/6
1 1/6
Die obigen Gleichungen werden in diesem Beispiel durch alle Werte x˜ ∈ [3, 4] erfüllt. Man spricht daher von einer Medianklasse. Als charakteristischer Wert der Medianklasse wird das arithmetische Mittel aus Unter- und Obergrenze der Medianklasse ausgewählt und wiederum als Median bezeichnet. In diesem Beispiel gilt daher: x˜ =
1 (3 + 4) = 3.5 2
(3.17) 19
Definition: Sei α ∈ (0, 1). Das α-Quantil xα der Verteilung von X wird durch die folgenden Gleichungen definiert: P (X ≤ xα ) ≥ α und P (X ≥ xα ) ≥ 1 − α
(3.18)
Spezialfälle: Der Median (α = 0.5), das untere Quartil (α = 0.25), das obere Quartil (α = 0.75) sowie die Dezile (α = 0.1, α = 0.2 · · · , α = 0.9).
3.2
Spezialfälle
Zur Darstellung diskreter Verteilungen muß der Binomial-Koeffizient eingeführt werden. 3.2.1 Kombinatorik n Objekte lassen sich auf 1 · 2 · 3 · 4 . . . · (n − 1) · n = n! (n-Fakultät) Arten anordnen. Jede Anordnung der n Objekte oder von n Zahlen wird als Permutation bezeichnet. 0! wird durch 1 festgelegt. Beispiel: Es gibt 3! = 1 · 2 · 3 = 6 Permutationen von den 3 Objekten: 1, 2, 3. 1 2 3 4 5 6
1 1 1 2 2 3 3
2 2 3 1 3 1 2
3 3 2 3 1 2 1
Einen Spezialfall erhält man, wenn die Plätze ringförmig verteilt sind. Beispielsweise, wenn man alle Möglichkeiten sucht n Personen an einen runden Tisch zu setzen. Diesen Spezialfall nennt man Ringpermutation. Er wird durch (n − 1)! berechnet. Stehen weniger als n Plätze zur Verfügung, um die n Objekte anzuordnen, dann ergeben sich für k < n Plätze: n! (3.19) (n − k)! Permutationen. Man beachte, daß die Reihenfolge der Plätze dabei unterschieden wird. Wie man erkennen kann, ist die gewöhnliche Permutation (n!) lediglich ein Spezialfall mit n = k. Soll zusätzlich die Reihenfolge der Plätze nicht beachtet werden, dann spricht man von einer Kombination. Sie wird berechnet als: n n · (n − 1) . . . (n − k + 1) n! n = = n, k ≥ 0, = 0 für k > n (3.20) k k! k!(n − k)! k n wird als Binomialkoeffizient bezeichnet. Durch Einsetzen erhält man die Regeln: k n n 1. = (Symmetrie-Eigenschaft) k n−k n n n+1 2. + = (Pascal’sches Dreieck) k k+1 k+1 Beispiel: Wieviele Möglichkeiten gibt es, aus einem Verein mit 25 Mitgliedern einen Vorstand, der aus 3 Personen besteht, zu wählen (Ämterhäufung ausgeschlossen)? n 25 25 · 24 · 23 n = 25, k = 3, = = = 25 · 4 · 23 = 2300 (3.21) k 3 1·2·3 Sollen n Objekte auf n Plätzen verteilt werden, wobei k1 Objekte des Typs 1, k2 des Typs 2, ..., kp Objekte des Typs p, mit n = pi=1 ki , dann existieren: n! k1 ! · k2 ! · · · · · kp !
(3.22) 20
Permutationen. Man beachte, daß sich die Kombination als Spezialfall mit p = 2 darstellen läßt. Von einer Variation spricht man, wenn n Objekte auf k Plätzen verteilt werden sollen, wobei jedes Objekt mehrere Plätze einnehmen darf. Die Anzahl der Variationsmöglichkeiten sind nk . Beispielsweise beträgt die Anzahl der möglichen Ausgänge eines Wurfes mit zwei Würfeln nk = 62 = 36. 3.2.2 Die Bernoulli-Verteilung Modellexperiment: Ein Zufallsexperiment besteht aus einem einzigen Versuch, in dem ein bestimmtes Ereignis A eintritt oder nicht. Wir definieren die folgende Zufallsvariable: 0 falls ω ∈ A X(ω) = (3.23) 1 falls ω ∈ A Hat A die Wahrscheinlichkeit π , so besitzt X die Dichte: p0 = 1 − π, p1 = π
(3.24)
Die wichtigsten Parameter sind: µ = π,
σ 2 = π(1 − π ),
√ S(X) = (1 − 2π )/ π(1 − π )
3.2.3 Die Binomialverteilung Ein Bernoulli-Experiment wird n mal unabhängig und unter gleichen Bedingungen durchgeführt. Beispiel: Eine Urne enthält schwarze und weiße Kugeln im Verhältnis π : (1 − π ). Der Urne werden n Kugeln mit Zurücklegen entnommen. Die Anzahl X der dabei gezogenen schwarzen Kugeln ist Bn,π verteilt. Das Ziehen mit Zurücklegen sichert, daß jeder Versuch unter gleichen Bedingungen durchgeführt wird, d.h. bei jedem Versuch ist der Anteil an schwarzen Kugeln in der Urne konstant. Eine diskrete Zufallsvariable X ist binomialverteilt Bn,π mit den Parametern n und π , wenn die Wahrscheinlichkeitsfunktion definiert ist durch: n k π (1 − π )n−k , k = 0, . . . , n, n > 0, 0 ≤ π ≤ 1 (3.25) pk = P (X = k) = k Die wichtigsten Parameter sind: µ = nπ,
σ 2 = nπ(1 − π ),
S(x) = (1 − 2π )/
nπ(1 − π )
(3.26)
Wird ein Versuch n mal unabhängig unter gleichen Bedingungen durchgeführt und kann in jedem Versuch das Ereignis A mit der Wahrscheinlichkeit π eintreten, so ist die Anzahl X der Versuche mit dem Eintreten von A ∼ Bn,π verteilt. 3.2.4 Die hypergeometrische Verteilung Ein Bernoulli-Experiment wird n mal hintereinander durchgeführt wobei die Wahrscheinlichkeit π für das Eintreten eines Elementarereignisses A sich nach dem Schema des folgenden Modellexperimentes verändern kann: Eine Urne enthält N Kugeln, von denen A schwarz und N −A weiß sind. Der Urne werden ohne Zurücklegen n Kugeln entnommen. Die Anzahl X der dabei gezogenen schwarzen Kugeln ist HN,A,n verteilt. Das Ziehen ohne Zurücklegen bewirkt, daß jede Ziehung unter verschiedenen Bedingungen erfolgt. Die hypergeometrische Verteilung HN,A,n besitzt die Wahrscheinlichkeitsfunktion: A N −A k n−k pk = P (X = k) = , k = 0, . . . , n, mit n ≤ A und n ≤ N − A (3.27) N n Ihre wichtigsten Parameter sind: A A N −n N −n A A 2 1− = nπ(1 − π ) π = , E(X) = µ = n = nπ, V (X) = σ = n N N N N N −1 N −1
21
Man beachte, daß der Erwartungswert zu dem der Binomialverteilung identisch ist, sich die Varianz jedoch um die sogenannte Endlichkeitskorrektur (N − n)/(N − 1) unterscheidet. Beispiel: In der Schule beträgt die Anzahl der Schüler in der ersten Klasse 120, davon 70 Knaben und 50 Mädchen. Für einen Schulversuch werden 12 Kinder ausgewählt. Wie wahrscheinlich ist es, daß exakt das gleiche Verhältnis Jungen zu Mädchen wie in der ersten Klasse auftritt? Dieses Modell entspricht dem Ziehen ohne Zurücklegen. X sei Anzahl der Knaben im Schulversuch. X ist H120,70,12 verteilt. 70 50 1 · 1987745 · 109 · 2.118760 · 106 7 5 = = 0.2409 (3.28) P (X = 7) = 120 1.0542857 · 1016 12 3.2.5 Die Poisson-Verteilung Eine Zufallsvariable X besitzt eine Poissonverteilung Pλ , wenn sie die Wahrscheinlichkeitsfunktion λk , k = 0, 1, 2, . . . , n (3.29) k! mit einem Erwartungswert von λ > 0 besitzt. (λ√wird hier Intensitätsparameter genannt). Die Varianz ist λ und der Momentkoeffizient der Schiefe ist 1/ λ. Beispiel: Eine Brandschutzversicherung hat ermittelt, daß in einem bestimmten Gebiet im langjährigen Durchschnitt λ = 1.5 Schadensfälle über 100 000 DM auftreten. Um die notwendigen Reserven zu kalkulieren, möchte sie die Anzahl c der Schadensfälle berechnen, so daß P (X > c) ≤ 0.05 ist. pk = P (X = k) = e−λ ·
Es gilt: P (X > c) = 1 − P (X ≤ c) = 1 − F (c)
(3.30)
Daher muß c so bestimmt werden, daß F (c) ≥ 0.95 ist. Zu diesem Zweck bildet man die Verteilungsfunktion. c c c k 1.5k −λ λ F (c) = = (3.31) P (X = k) = e e−1.5 · k! k! k=0 k=0 k=0 Die Werte der Verteilungsfunktion der Poissonverteilung mit λ = 1.5 sind: k pk F (k)
0
1
2
3
4
0.223 0.223
0.334 0.557
0.251 0.808
0.125 0.933
0.047 0.980
F (4) = 0.98 ≥ 0.95 . Die Versicherung muß daher Reserven für 4 Schadensfälle aufbringen, um ihr Risiko unter 5% zu halten. Im folgenden wollen wir die ersten zwei gewöhnlichen Momente der Poissonverteilung herleiten, 2 x um daraus ∞ µx jund σ zu berechnen. Für diese Rechnung wird die Reihenentwicklung von e verwendet: x e = j =0 j ! E(X) = =
∞
j · pj
j =−∞ ∞
j · e−λ
j =0
= e−λ
∞
j·
j =1
=e
−λ
λj j! λj −1 λ j (j − 1)!
(3.32)
∞ λj −1 ·λ (j − 1)! j =1
E(X) = e−λ λ
∞ λj j =0
j!
= e−λ λeλ = λ
22
E(X 2 ) =
∞
j 2 e−λ
j =0
=e
−λ
∞
j
j =1
= e−λ
∞
λj j!
λj (j − 1)!
((j − 1) + 1))
j =1
∞ = e−λ (j − 1) j =1
∞ = e−λ
λj (j − 1)!
j
λ + (j − 1)!
∞ j =1
j
λ (j − 1)!
(3.33)
∞ λj λj −1 +λ (j − 2)! (j − 1)! j =2 j =1 ∞ j −2 λ = e−λ λ2 + λeλ = e−λ λ2 eλ + λeλ (j − 2)! j =2
E(X 2 ) = λ2 + λ Daraus folgt: σ 2 = λ2 + λ − λ2 = λ
(3.34)
Praktisch können die folgenden Näherungen verwendet werden: Verteilung
Näherung
HN,A,n
B
HN,A,n
P
Bn,π
Pnπ
n,
A N
n·
A N
Voraussetzung N 10 N A 1 n≤ und ≤ 10 N 10 1 π≤ 10 n≤
Beispiel: Da im Beispiel für die hypergeometrische Verteilung die Parameter n = 12, N = 120 der HN,A,n -Verteilung die Bedingung n ≤ N/10 erfüllen, können wir mit der Binomialverteilung die Wahrscheinlichkeit annähernd bestimmen. Mit n = 12 und π = A/N = 7/12 erhalten wir: 7 5 12 7 5 P (X = 7) = · · = 792 · 0.023 · 0.0126 = 0.2295 (3.35) 12 12 7
23
4
Stetige Verteilungen
4.1
Grundlagen
Der Wertebereich M einer stetigen Zufallsvariablen X ist gleich R (Menge der reellen Zahlen) oder ein Intervall von R. Die Wahrscheinlichkeitsverteilung PX (A) wird für das Ereignis A = (−∞, x] durch eine stetig differenzierbare Verteilungsfunktion beschrieben: x f(t) dt = PX (A) (4.1) FX (x) = −∞
Satz: Für die Verteilungsfunktion FX (x) einer stetigen Zufallsvariablen X und die dazu korrespondierende Dichtefunktion fX (x) gilt: 1. 2.
F (x) steigt monoton lim F (x) = 0, lim F (x) = 1
x→−∞
x→∞
∂F (x) = f(x) ∂x
3.
F (x) =
4.
f (x) ≥ 0 ∞ f(x) dx = 1
5.
−∞
Man beachte, daß die Dichtefunktion f(x) keine Wahrscheinlichkeitsfunktion ist, wie bei diskreten Verteilungen, und daß f(x) durchaus größer als 1 sein kann (z.B. bei der Dreiecksverteilung). Die Wahrscheinlichkeit P (X = x) ist außerdem bei stetigen Verteilungen immer 0. Ist ein Ereignis A ein Intervall A = (a, b], so ist: b f(x) dx (4.2) PX (A) = P (a < X ≤ b) = a
Dies entspricht dem Flächeninhalt unter der Funktion f(x) im Intervall (a, b]. Wir schreiben im folgenden nur P (A) und F (x) statt PX (A) und FX (x). Beispiel: Eine Zufallsvariable X mit der Dichte: 1 für x ∈ [0, 1] f(x) = (4.3) 0 sonst heißt über dem Intervall [0,1] gleichverteilt. Satz: Es sei g(x) : R −→ R eine reellwertige Funktion. Dann ist der Erwartungswert von g(X) definiert durch: ∞ E(g(X)) = g(x) f(x) dx (4.4) −∞
Wichtige Spezialfälle: 1. E(X) heißt Erwartungswert von X (Symbol µ). E(X) =
∞
−∞
x f(x) dx
2. E((X − µ)2 ) heißt Varianz von X (Symbole: V (X), σ 2 (X) und σ 2 ). E((X − µ) ) = 2
σ (X) =
∞
−∞
(x − µ)2 f(x) dx
σ 2 (X) heißt Standardabweichung von X 24
3. E((X − a)k ) heißt k-tes Moment um a. ∞ (x − a)k f(x) dx E((X − a)k ) = −∞
E(X k ) heißt k-tes gewöhnliches Moment (a = 0). E((X − µ)k ) heißt k-tes zentrales Moment (a = µ). Die Sätze über die Rechenregeln für Erwartungswerte von diskreten Zufallsvariablen gelten auch für stetige Zufallsvariablen. Beispiel: Für die Gleichverteilung über [0,1] wollen wir die ersten 4 Momente und die Momentenkoeffizienten der Schiefe und der Wölbung berechnen. ∞ 1 E(X) = xf(x) dx = x dx = 0.5 (4.5) −∞
0
1 x 3 1 E(X ) = x f(x) dx = x dx = = 3 0 3 −∞ 0 1 ∞ 1 x 4 1 3 3 3 E(X ) = x f(x) dx = x dx = = 4 0 4 −∞ 0 1 ∞ 1 x 5 1 4 4 4 x f(x) dx = x dx = = E(X ) = 5 0 5 −∞ 0
2
∞
1
2
2
E((X − µ)2 ) = E(X 2 ) − µ2 =
(4.6)
(4.7)
(4.8)
1 1 1 − = 3 4 12
(4.9)
1 1 E((X − µ) ) = E(X ) − 3E(X )µ + 2µ = − 3 · 4 3 1 1 1 4 1 1 5 4 x− dx = x− E((X − µ) ) = = 2 5 2 0 3
3
2
3
0
S(X) = 0, W (X) =
1 +2 2 1 5
3 1 =0 2
(4.10)
5 1 1 1 5 − = 0.0125 − 2 5 2
0.0125 − 3 = −1.2 0.08332
(4.11)
(4.12)
Die Verteilung ist symmetrisch und platykurtisch. Bemerkung: Quantile für stetige Variable werden analog zu Quantilen von diskreten Zufallsvariablen definiert. 4.1.1 Lineare Transformation stetiger Zufallsvariablen Satz: Die Zufallsvariable Y = aX + b mit a = 0 und b als Konstante besitzt die Verteilungsfunktion y−b FX , falls a > 0 a FY (y) = (4.13) y−b , falls a < 0 1 − FX a Beweis: 1. a > 0:
FY (y) = P (Y ≤ y) = P (aX + b ≤ y) = P 2. a < 0: FY (y) = P (aX + b ≤ y) = P
y−b X≥ a 25
X≤
y−b a
=P
= FX
y−b X> a
y−b a
= 1 − FX
y−b a
4.2
Spezialfälle
4.2.1 Die Gleichverteilung Wir haben bereits die Gleichverteilung über dem Intervall [0, 1] kennengelernt. Diese Definition kann auf beliebige endliche Intervalle übertragen werden. Eine Zufallsvariable X heißt gleichverteilt auf dem Intervall [a, b], wenn sie die Dichte besitzt: 1 für a ≤ x ≤ b b−a f (x) = (4.14) 0 sonst Die Dichte ist daher konstant. Die wichtigsten Momente sind: µ=
a+b , 2
σ2 =
(b − a)2 , 12
S(X) = 0
(4.15)
Um den Erwartungswert und die Varianz herzuleiten, transformieren wir X in Y = (X − a)/(b − a). Y ist dann über [0, 1] gleichverteilt. Da X = (b − a)Y + a ist, erhält man nach dem Satz über Dichten transformierter Zufallsvariablen: E(X) = (b − a)E(Y ) + a = σ 2 (X) = (b − a)2 σ 2 (Y ) =
(b − a) (a + b) +a = 2 2
1 (b − a)2 12
(4.16) (4.17)
Die Verteilungsfunktion ist somit: für x < a 0 (x − a)/(b − a) für a ≤ x ≤ b F (x) = 1 für x > b
(4.18)
Daher folgt für a ≤ a1 ≤ b1 ≤ b : P (a1 ≤ X ≤ b1 ) = (b1 − a1 )/(b − a)
(4.19)
Die Wahrscheinlichkeit in diesem Intervall wird somit in vollem Umfang durch die Intervallänge b1 − a1 determiniert. 4.2.2 Die Exponentialverteilung Eine Zufallsvariable besitzt eine Exponentialverteilung, wenn sie die folgende Dichte hat: λ · e−λx für x ≥ 0 f (x) = 0 für x < 0
(4.20)
Der Parameter λ > 0 beschreibt die ’Sterbe-’ oder allgemeiner die ’Übergangsrate’. Die Verteilungsfunktion ist gegeben durch: 1 − e−λx für x ≥ 0 (4.21) F (x) = 0 für x < 0 Die zentralen Parameter sind: µ=
1 1 2 , σ 2 = 2 , S(X) = 3 λ λ λ
(4.22)
Die Exponentialverteilung wird auch ’Verteilung ohne Gedächtnis’ genannt. Es gilt nämlich für s ≥ 0 und t ≥ 0: P (X ≤ s + t|X ≥ t) = P (X ≤ s)
(4.23)
26
4.2.3 Die Normal- oder Gaußverteilung Eine Zufallsvariable X genügt einer Normalverteilung N (µ, σ 2 ), wenn sie die Dichte: 1 (x − µ)2 für − ∞ < x < ∞ φ(x) = f (x) = √ exp − 2σ 2 2π σ
(4.24)
mit µ ∈ R und σ > 0 besitzt. Die Verteilung von X wird also durch 2 Parameter gekennzeichnet und zwar durch den Erwartungswert µ und die Varianz σ 2 . Die Momentkoeffizienten der Schiefe und Wölbung sind Null. Ist der Erwartungswert µ = 0 und die Varianz σ 2 = 1, so nennt man X standardnormalverteilt (N (0, 1)). Die Verteilungsfunktion der Standardnormalverteilung wird mit <(z) bezeichnet, die Dichte mit φ(z). 2 z z x 1 √ exp − <(z) = dx, − ∞ < z < ∞ (4.25) φ(z)dz = 2 2π −∞ −∞ Da <(z) analytisch nicht exakt bestimmt werden kann, sind die Funktionswerte auf Seite 104 für z ≥ 0 tabelliert. 0.40 0.36 0.32 0.28 0.24 0.20 0.16 0.12 0.08 0.04 0.00
Dichte einer N(0, 1)-Verteilung
φ(z)
.......................... ...... ..... ..... ..... ..... ... ... ... . . ... ... ... . . . ... . ... ... . ... .. . ... .. ... . . . ... . ... ... . ... .. . ... .. ... . .. ... . ... .. . ... .. . ... .. . ... .. ... . .. ... . ... .. . ... .. . ... .. . ... .. ... . .. ... . ... .. . ... .. . ... .. . ... .. ... . ... .. . ... .. . ... .. . ... .. ... . . . ... . ... ... . ... .. . ... . . ... . ... ... . . ... . . ... .. . . ... .. . ... . .. ... . . ... .. . ... . .. ..... . . . ..... .. . . . . ..... .... . ..... . . ... ..... . . . . ...... .... . . ...... . . ... . ....... . . . . . ........ ..... . . . . . .......... . . ...... . ............... . . . . . . . . . . . ....................................... ....... ............................... ...................................................................
-4
-3
-2
-1
0
Für negative z können die Symmetrieeigenschaften
z
1
2
1. f (z) = f (−z) 2. P (Z ≤ z) = P (Z ≥ −z) 3. <(−z) = 1 − <(z) zur Berechnung verwendet werden. Satz: Für die Verteilungsfunktion einer N (µ, σ 2 ) verteilten Zufallsvariablen gilt: µ = <(z) 1. F (x) = < x − σ 2. P (|X − µ| > c) = 2 1 − < σc , für c > 0 µ − < a − µ , für a < b 3. P (a ≤ X ≤ b) = < b − σ σ
27
3
4
Beweis: 1. Zu zeigen ist, daß <(z) ∼ N (0, 1) verteilt ist. Jede beliebige Normalverteilung X: X ∼ N (µ, σ 2 ) kann standardisiert werden: Z =
x µ 1 x−µ µ = − = x− σ σ σ σ σ
Z ist eine lineare Transformation von X, so daß gilt: Z = a + bX
a=−
b
a
1 µ b= σ σ
E(a + bX) = a + bE(X) =
1 −µ µ −µ + µ= + =0 σ σ σ σ
1 2 σ =1 σ2 Z ∼ N (0, 1)
V (a + bX) = b2 σ 2 (X) = ⇒
2. P (|X − µ| > c) = P (−c > X − µ) + P (X − µ > c) c c −c X−µ c −c X−µ ≤ +1−P ≤ =< +1−< =2 1−< =P σ σ σ σ σ σ σ 3. P (a ≤ X ≤ b) = P (X ≤ b) − P (X < a) b−µ X−µ a−µ b−µ a−µ X−µ ≤ −P < =< −< =P σ σ σ σ σ σ Für die α-Quantile gilt die folgende Regel: Ist zα das α-Quantil der N (0, 1) Verteilung, so ist x α = µ + zα · σ
(4.26)
das α-Quantil der N (µ, σ ) -Verteilung. Man beachte, daß die Berechnung des α-Quantils einer stetigen Verteilung der Berechnung der Umkehrfunktion der entsprechenden Verteilungsfunktion entspricht (α = F −1 (xα )). Die Multiplikation mit σ und die Addition von µ entspricht in diesem Fall der Umkehrung der Transformation ( x−µ ). σ Beispiel: X sei N (75, 36) verteilt. Gesucht ist P (X ≤ 87). Nach dem letzten Satz ist: 87 − 75 P (X ≤ 87) = F (87) = < = <(2) = 0.97725 (4.27) 6 Ferner ist das α = 0.99865 Quantil zu bestimmen. Anwendung der Rechenregel für Quantile ergibt: x0.99865 = µ + σ · z0.99865 = 75 + 6 · 3 = 93 . Beispiel: Der Durchmesser von bestimmten Drehteilen aus einer automatischen Fertigung muß zwischen 9.5 und 12 cm liegen. Andernfalls gehört das Drehteil zum Ausschuß. Wie groß ist die Wahrscheinlichkeit, daß ein Drehteil den gestellten Anforderungen genügt, wenn der Durchmesser mit µ = 10.27 und σ 2 = 1.44 normalverteilt ist. 12 − 10.27 9.5 − 10.27 P (9.5 ≤ X ≤ 12) = < −< (4.28) 1.2 1.2 = <(1.44) − <(−0.63) = 0.925 − (1 − 0.736) = 0.661 2
4.2.4 Näherung der Poisson- und Binomialverteilung durch die Normalverteilung Poisson: Pµ ∼ N (µ, µ), für µ ≥ 10. Binomial: Bn,π ∼ N (nπ, nπ(1 − π )) für alle nπ(1 − π ) ≥ 10. Beispiel: In einer Telefonzentrale eines Konzerns werden durchschnittlich 25 Anrufe pro Minute gezählt. Wie groß ist die Wahrscheinlichkeit, daß mehr als 30 Anrufe in einer Minute gezählt werden, wenn die Anzahl der Anrufe poissonverteilt ist? Da µ = 25 ist, ist die Anzahl X der Anrufe in der beobachteten Minute annähernd N (25, 25) verteilt. Man erhält: X − 25 30 − 25 P (X > 30) = P > = 1 − <(1) = 1 − 0.8413 = 0.1587 (4.29) 5 5 28
5
Mehrdimensionale Verteilungen
Bei vielen Fragestellungen der Statistik werden mehrere Zufallsvariablen als Ergebnis eines Zufallsexperiments betrachtet. So kann man etwa bei einer Untersuchung von Haushalten die Variablen Haushaltsgröße (X), Haushaltseinkommen (Y ), Konsumausgaben (Z) usw. untersuchen. Beispiel: Ein Verlag publiziert 6 Wochenzeitschriften. X1 , . . . , X6 seien die Anzahlen der verkauften Zeitschriften pro Woche. (X1 , . . . , X6 ) ist eine 6-dimensionale Zufallsvariable. Beispiel: Beschreibt X1 die Liegezeit und X2 die zu löschende Ladung eines Schiffes, so ist (X1 , X2 ) ein 2-dimensionaler stetiger Zufallsvektor. Der Vektor X = (X1 , . . . , Xk ) heißt k-dimensionale Zufallsvariable oder Zufallsvektor mit k Komponenten.
5.1
Diskrete Verteilungen
Betrachtet man den Ausgang eines Zufallsexperiments, der durch das k-dimensionale Merkmal (X1 , . . . Xk ) beschrieben wird, dann heißt die k-dimensionale Zufallsvariable (X1 , . . . , Xk ) diskret, falls ihr Wertebereich endlich oder abzählbar unendlich, z. B. gleich Zk oder einer Teilmenge von Zk ist. Die Zufallsvariable heißt stetig, falls ihr Wertebereich überabzählbar unendlich ist und kein Punkt aus dem Rk eine positive Wahrscheinlichkeit besitzt. Die Wahrscheinlichkeitsfunktion eines diskreten k-dimensionalen Zufallsvektors wird durch eine Dichte mit k Argumenten beschrieben. p(x1 , . . . , xk ) = P (X1 = x1 ∩ X2 = x2 ∩ · · · ∩ Xk = xk ) = P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) Für eine diskrete Dichte gelten folgende Eigenschaften: 1. 0 ≤ p(x1 , . . . , xk ) ≤ 1 2. ... p(x1 , . . . , xk ) = 1; mit xi ∈ Z xk
x1
3. P (A) = P ((X1 , . . . , Xk ) ∈ A) =
p(x1 , . . . , xk )
(x1 ...xk )∈A
Die Verteilungsfunktion ist gegeben durch: F (x1 , . . . , xk ) = P (X1 ≤ x1 , . . . , Xk ≤ xk ) =
Xk ≤xk
...
p(x1 , . . . , xk )
(5.1)
X1 ≤x1
5.1.1 Randverteilungen Wir beschränken uns auf den Fall k = 2; Randverteilungen höherer Ordnung werden analog gebildet. (X1 , X2 ) sei eine 2-dimensionale diskrete Zufallsvariable mit der Dichte p(x1 , x2 ) und der Verteilungsfunktion F (x1 , x2 ). Die eindimensionalen Randdichten und Randverteilungen sind definiert durch: p1 (x1 ) = P (X1 = x1 ) =
∞
p1 (x1 , x2i )
(5.2)
i=−∞
F1 (x1 ) = P (X1 ≤ x1 ) = F (x1 , ∞) ∞ p2 (x2 ) = P (X2 = x2 ) = p2 (x1j , x2 )
(5.3) (5.4)
j =−∞
F2 (x2 ) = P (X2 ≤ x2 ) = F (∞, x2 )
(5.5)
Sie entsprechen also den eindimensionalen Dichten und Verteilungen, wenn man die jeweils anderen Variablen unberücksichtigt läßt.
29
5.1.2 Bedingte Verteilungen und bedingte Dichten Als Folge der Definition der bedingten Wahrscheinlichkeit P (A|B) = P (A ∩ B)/P (B)
(5.6)
erhält man die Definition einer bedingten Verteilung (zweidimensionaler Fall): FX1 |X2 (x1 |x2 ) =
F (x1 , x2 ) F2 (x2 )
(5.7)
Die bedingte Dichte ist gegeben durch: pX1 |X2 (x1 |x2 ) =
p(x1 , x2 ) p2 (x2 )
(5.8)
Beispiel: Für einen psychologischen Test, der aus zwei Teilen mit 2 bzw. 3 Aufgaben besteht, werden die Wahrscheinlichkeiten, daß jeweils 0 bis 2 bzw. 0 bis 3 Aufgaben gemeinsam gelöst werden, wie folgt angegeben:
Y 0 1 2 pX (xi )
0 0.10 0.10 0.05 0.25
X 2 0.05 0.15 0.10 0.30
1 0.05 0.10 0.05 0.20
3 0.00 0.05 0.20 0.25
pY (yj ) 0.2 0.4 0.4 1.0
Die Verteilungsfunktion von (X, Y ) an der Stelle y1 = 0, x2 = 2 ist F (0, 2) = 0.1 + 0.05 + 0.05 = 0.2. 5.1.3 Unabhängigkeit Zwischen den Komponenten eines k-dimensionalen Zufallsvektors können Zusammenhänge bestehen. Ein wichtiger Spezialfall ist die stochastische Unabhängigkeit. Gilt für einen diskreten Zufallsvektor (X1 , . . . , Xk ) die Aussage: p(x1 , . . . , xk ) = p1 (x1 ) · . . . · pk (xk )
(5.9)
so heißen X1 , . . . , Xk stochastisch unabhängig. Satz: X1 , . . . , Xk sind genau dann stochastisch unabhängig, wenn gilt: F (x1 , . . . , xk ) = FX1 (x1 ) · . . . · FXk (xk )
(5.10)
Im letzten Beispiel sind X1 und X2 nicht stochastisch unabhängig, denn es gilt: F (0, 2) = 0.2 = F1 (0) · F2 (2) = 0.2 · 0.75 = 0.15
(5.11)
5.1.4 Kovarianz und Korrelation (X1 , . . . , Xk ) sei ein k-dimensionaler diskreter Zufallsvektor. Die Funktion: µi = E(Xi ) = ... xi · p(x1 , . . . , xk ) = xi · pi (xi ) xk
x1
(5.12)
xi ∈R
heißt Erwartungswert der Zufallsvariablen Xi , (i = 1, . . . , k), wobei pi (xi ) die marginale Wahrscheinlichkeitsfunktion ist. Die Funktion: σii = σ 2 (Xi ) = E((Xi − µi )2 ) = (xi − µi )2 pi (xi ) (5.13) xi ∈R
30
heißt Varianz von Xi . Die Funktion: σij = E((Xi − µi )(Xj − µj )) ... (xi − µi )(xj − µj ) · p(x1 , . . . , xk ) = xk ∈R
(5.14)
x1 ∈R
heißt Kovarianz der Zufallsvariablen Xi und Xj (i = j ). Die Matrix 1 = (σij )i,j =1,...,k heißt Kovarianzmatrix der Zufallsvariablen (X1 , . . . , Xk ). Für die Kovarianz gilt: σij = E[(Xi − E(Xi )) · (Xj − E(Xj ))] = E[(Xi Xj − Xi · E(Xj ) − E(Xi ) · Xj + E(Xi ) · E(Xj )] = E(Xi Xj ) − E(Xi ) · E(Xj ) − E(Xi ) · E(Xj ) + E(Xi ) · E(Xj )
(5.15)
= E(Xi Xj ) − E(Xi ) · E(Xj ) Damit ergibt sich die zur praktischen Berechnung einfachere Formel: n m xi xj p(xi , xj ) − µi · µj σij =
(5.16)
i=1 j =1
Der Wert der Kovarianz hängt von den Einheiten ab, in denen xi und xj gemessen werden. Zur Normierung verwendet man den Korrelationskoeffizienten: σij σij ρij = √ = (5.17) σii σjj σ2 σ2 i
j
Damit gilt: ρij ∈ [−1, 1] Satz: Sind Xi und Xj stochastisch unabhängig (und damit auch linear unabhängig), so gilt: σij = 0
!⇒
ρij = 0
(5.18)
Besteht eine exakte lineare Beziehung zwischen Xi und Xj , so gilt: |ρij | = 1
(5.19)
Ein positiver Korrelationskoeffizient nahe bei 1 weist auf einen starken positiven linearen Zusammenhang hin, während ein negativer Korrelationskoeffizient auf einen negativen linearen Zusammenhang deutet. Zur inhaltlichen Interpretation von Korrelationskoeffizienten beachte man die Ausführungen auf Seite 56. Für die beiden psychologischen Tests gilt: µ1 = 1.2, µ2 = 1.55, σ11 = 0.56, σ22 = 1.2475 und σ12 = E(X1 X2 ) − µ1 µ2 ⇒ 2.25 − 1.2 · 1.55 = 0.39 Kovarianzmatrix und Korrelationskoeffizient: σ11 σ12 0.56 0.39 1= = 0.39 1.2475 σ21 σ22 ρ12 = √
0.39 0.56 · 1.2475
(5.20)
(5.21)
= 0.4666
(5.22)
Die Kovarianzmatrix 1 enthält die Kovarianzen σij = Cov(Xi , Xj ), i = 1, . . . , k, j = 1, . . . , k. Die Hauptdiagonalelemente entsprechen dabei den Varianzen σii = σi2 . Daher ist die Kovarianzmatrix immer symmetrisch. 5.1.5 Die Multinomialverteilung Beispiel: Ein wichtiges Beispiel für eine k dimensionale diskrete Verteilung ist die Multinomialverteilung mit der Dichte: n! x x x p(x1 , . . . , xk ) = (5.23) π 1 π 2 . . . πk k x1 !x2 ! . . . xk ! 1 2 mit 0 ≤ xi ≤ n, x1 +. . .+xk = n, 0 < πi < 1 und π1 +. . .+πk = 1. Mit einem Erwartungswert: µi = nπi , einer Varianzen: σii = nπi (1−πi ) 1 ≤ i ≤ k und Kovarianzen: σij = −nπi πj i, j = 1, . . . , k und i = j . Als Spezialfall der Multinomialverteilung ergibt sich für k = 2 die Binomialverteilung. 31
5.2
Stetige Verteilungen
Die Wahrscheinlichkeitsverteilung einer stetigen k-dimensionalen Zufallsvariablen (X1 , . . . , Xk ) wird durch die Dichte f (x1 , . . . , xk ) beschrieben, für die gilt: bk b1 ... f(x1 , . . . , xk ) dx1 . . . dxk (5.24) P (a1 ≤ X1 ≤ b1 , . . . , ak ≤ Xk ≤ bk ) = ak
a1
Dabei seien ai ≤ bi , für alle ai , bi ∈ R, i = 1, . . . , n. Die Dichte f (x1 , . . . , xk ) erfüllt folgende Bedingungen: 1. f(x1 , . . . , xk ) ≥ 0 ∞ ∞ ... f(x1 , . . . , xk ) dx1 . . . dxk = 1 2. −∞
−∞
Die Verteilungsfunktion ist gegeben durch: F (x1 , . . . , xk ) = P (X1 ≤ x1 , . . . , Xk ≤ xk ) =
xk
−∞
...
x1
f(t1 , . . . , tk ) dt1 . . . dtk
(5.25)
−∞
5.2.1 Randverteilungen Wir beschränken uns wieder auf den Fall k = 2. Die Dichten und Verteilungsfunktionen der beiden Randverteilungen des stetigen Zufallsvektors (X1 , X2 ) sind gegeben durch: ∞ f(x1 , x2 ) dx2 , F1 (x1 ) = P (X1 ≤ x1 ) = F (x1 , ∞) (5.26) f1 (x1 ) = −∞
f2 (x2 ) =
∞
f(x1 , x2 ) dx1 ,
−∞
F2 (x2 ) = P (X2 ≤ x2 ) = F (∞, x2 )
(5.27)
5.2.2 Die zweidimensionale Gleichverteilung Die Dichte der 2-dimensionalen gleichverteilten Zufallsvariablen (X1 , X2 ) über dem Rechteck [a1 , b1 ] × [a2 , b2 ] ist wie folgt definiert: 1 für a1 ≤ x1 ≤ b1 und a2 ≤ x2 ≤ b2 (5.28) f (x1 , x2 ) = (b1 − a1 )(b2 − a2 ) 0 sonst Die Randdichten sind gegeben durch: b2 b2 1 1 1 1 dx2 = dx2 = f1 (x1 ) = (b1 − a1 )(b2 − a2 ) a2 b1 − a 1 a2 (b1 − a1 )(b2 − a2 )
(5.29)
1 . Die Randverteilungen sind also eindimensionale GleichverteilunAnalog erhält man f2 (x2 ) = b2 − a 2 gen. 5.2.3 Unabhängigkeit Die stetigen Zufallsvariablen X1 , . . . , Xk heißen stochastisch unabhängig, wenn gilt: f (x1 , . . . , xk ) = f1 (x1 ) · . . . · fk (xk )
(5.30)
Im letzten Beispiel sind X1 und X2 stochastisch unabhängig, da f (x1 , x2 ) = f1 (x1 ) · f2 (x2 ).
32
5.2.4 Kovarianz und Korrelation (X1 , . . . , Xk ) sei ein stetiger Zufallsvektor. Erwartungswert und Varianz der Komponente Xi sind gegeben durch: ∞ ∞ ∞ ... xi f(x1 , . . . , xk )dxk . . . dx1 = xi fi (xi ) dxi (5.31) µi = E(Xi ) = −∞
−∞
2 σii = E(Xi − µi ) =
−∞
∞ ∞ ∞ 2 . . . (xi − µi ) f(x1 , . . . , xk )dxk . . . dx1 = (xi − µi )2 fi (xi )dxi (5.32)
−∞
−∞
−∞
Die Kovarianz der beiden Variablen Xi , Xj ist gegeben durch: σij = E((Xi − µi )(Xj − µj )) ∞ ∞ = (xi − µi )(xj − µj )f(xi , xj ) dxi dxj −∞
(5.33) (5.34)
−∞
Die Kovarianzmatrix von (X1 , . . . , Xk ) ist gegeben durch: σ11 σ12 · · · σ1k σ21 σ22 · · · σ2k 1= . .. . . .. .. . . .
(5.35)
σk1 σk2 · · · σkk
Der Korrelationskoeffizient zwischen Xi und Xj ist definiert durch: ρij = √
σij σii σjj
(5.36)
5.2.5 Die k-dimensionale Normalverteilung Als Beispiel für eine k-dimensionale stetige Verteilung geben wir die Dichte der k-dimensionalen Normalverteilung an. Sei X ein k-dimensionaler Spaltenvektor mit Erwartungswert µ und Kovarianzmatrix 1. Die Determinante wird mit |1| und die Inverse der Kovarianzmatrix mit 1 −1 bezeichnet. Daher sei |1| > 0. σ11 σ12 · · · σ1k µ1 σ21 σ22 · · · σ2k .. µ = . , 1 = . (5.37) .. . . .. .. . . . µk σk1 σk2 · · · σkk Die Dichte der k-variaten Normalverteilung im Punkt x ist dann gegeben durch: 1 k 1 f (x1 , . . . , xk ) = (2π )− 2 · |1|− 2 · exp − (x − µ)T · 1 −1 · (x − µ) 2
(5.38)
Bemerkung: Wie aus der Dichte ersichtlich ist, gilt im Fall der Normalverteilung: σij = 0 für i = j ⇐⇒ Xi und Xj sind stochastisch unabhängig
(5.39)
1 wird in diesem Fall eine Diagonalmatrix, d.h. die Dichte kann als Produkt der marginalen Dichten geschrieben werden. f (x1 , . . . , xk ) = f1 (x1 ) · . . . · fk (xk )
(5.40)
Im Falle einer bivariaten Normalverteilung, also k = 2, erhält man mit ρ = ρ12 als Kovarianzmatrix: σ11 σ12 σ12 ρσ1 σ2 1= = (5.41) σ12 σ22 ρσ1 σ2 σ22
33
Determinante: |1| = σ12 σ22 · (1 − ρ 2 )
(5.42)
Inverse: 1
−1
1 · = 2 2 σ1 σ2 · (1 − ρ 2 )
σ22 −ρσ1 σ2 −ρσ1 σ2 σ12
(5.43)
σi2 bezeichnet die Varianzen von Xi , i = 1, 2. ρ ist der Korrelationskoeffizient von X1 und X2 . Als Dichte einer bivariaten Normalverteilung erhält man: f (x1 , x2 ) = (2π)−1 · |1|
2π σ1 σ2
1
−1 2
1 x 1 − µ1 = · exp − (x1 − µ1 , x2 − µ2 ) · 1 −1 x2 − µ 2 2
1 exp − 2 2(1 − ρ2) 1−ρ
x 1 − µ1 σ1
(5.44)
2 (x2 − µ2 ) x 2 − µ2 2 (x1 − µ1 ) + − 2ρ σ1 σ2 σ2
34
6
Grenzwertsätze
6.1
Linearkombination von Zufallsvariablen
Ein Zufallsexperiment wird n-mal unabhängig wiederholt. Diese Standardformulierung bedeutet, daß entweder ein Experiment n-mal durchgeführt wird oder n Experimente (ohne gegenseitige Beeinflussung) ein einziges Mal durchgeführt werden. Man kann zeigen, daß diese unterschiedlichen Auffassungen mathematisch identisch sind. Formal wird dieses Experiment durch eine Folge von n stochastisch unabhängigen Zufallsvariablen X1 , . . . , Xn beschrieben mit existierenden Erwartungswerten µi und Varianzen σi2 . Für die Linearkombination: Z = a1 X 1 + . . . + a n X n
(6.1)
gilt der folgende Satz: E(Z) =
1.
n
ai µ i
i=1
V (Z) =
2.
n
ai2 σi2
i=1
Beispiel: Seien X1 , . . . , Xn stochastisch unabhängig identisch verteilt. Sei x¯ das arithmetische Mittel: n
1 X¯ = Xi n i=1
(6.2)
1 , so ist: Setzen wir a1 = . . . = an = n 1 1 X¯ = X1 + . . . + Xn = a1 X1 + . . . + an Xn n n Also gelten die Aussagen: ¯ =µ· E(X)
n
ai = µ ·
i=1
6.2
n 1 i=1
n
= µ,
(6.3)
¯ = σ2 · σ 2 (X)
n
ai2 = σ 2 ·
i=1
n 1 1 = σ2 2 n n i=1
(6.4)
Stochastische Ungleichungen
6.2.1 Die Ungleichung von Markov Satz: Es sei X eine nicht-negative Zufallsvariable mit Erwartungswert E(X). Dann ist für jede positive Zahl A die folgende Ungleichung erfüllt: P (X ≥ A) ≤
E(X) A
(6.5)
Beweis: 1. X diskret E(X) =
∞
j · pj ≥
j · pj ≥
j ≥A
j =0
A · pj = A
j ≥A
pj = A · P (X ≥ A)
j ≥A
2. X stetig
∞
x · f (x) dx ≥
E(X) = 0
∞
A
x · f (x) dx ≥
A
∞
A · f (x) dx = A ·
A
∞
f (x) dx = A · P (X ≥ A)
Beispiel: Die durchschnittliche Anzahl von Anträgen bei einer Behörde ist 5. Wie groß ist eine obere Schranke der Wahrscheinlichkeit, daß 10 oder mehr Anträge eintreffen? P (X ≥ 10) ≤
E(X) 5 1 = = 10 10 2
(6.6)
35
6.2.2 Die Ungleichung von Tschebyscheff Satz: Existiert für eine Zufallsvariable X mit Erwartungswert E(X) zusätzlich die Varianz σ 2 (X), so folgt für alle A > 0 : σ 2 (X) (6.7) A2 Da die Ungleichung von Tschebyscheff eine Aussage über die Wahrscheinlichkeit einer Abweichung vom Mittelwert macht, muß für eine Abschätzung von P (X ≥ k) zuerst eine entsprechende Transformation durchgeführt werden. Da hier eine Maximalwahrscheinlichkeit berechnet wird, kann die Ungleichung von Tschebyscheff auch für einseitige Abweichungen vom Mittelwert verwendet werden. Beweis: Es gilt P (|X − µ| ≥ A) = P ((X − µ)2 ≥ A 2 ). Die Anwendung des Satzes von Markov auf die Zufallsvariable (X − µ)2 ergibt: P (|X − µ| ≥ A) ≤
E((X − µ)2 ) σ 2 (X) = (6.8) A2 A2 Beispiel: Der Bedarf an Teilen eines bestimmten Typs in einem Produktionsbetrieb wird durch die Zufallsvariable X beschrieben. Aus Erfahrung ist bekannt, daß E(X) gleich 45 und σ 2 (X) = 5 ist. Mit welcher Wahrscheinlichkeit liegt der Bedarf zwischen 40 und 50 Teilen? P ((X − µ)2 ≥ A 2 ) ≤
P (40 < X < 50) = P (|X − 45| < 5) = 1 − P (|X − 45| ≥ 5) 5 = P (|X − 45| ≥ 5) ≤ = 0.2 25 Die Wahrscheinlichkeit, daß der Bedarf zwischen 40 und 50 Teilen liegt, ist mindestens 0.8.
6.3
(6.9)
Schwaches Gesetz der großen Zahlen
Satz:(Schwaches Gesetz der großen Zahlen) Existiert für stochastisch unabhängige und identisch verteilte Zufallsvariablen Xi , i = 1, 2, . . . der Erwartungswert µ und die Varianz σ 2 , dann gilt für das arithmetische Mittel X und für beliebig kleine A > 0 die Aussage: lim P (|Xn − µ| ≥ A) = 0
(6.10)
n→∞
Für n → ∞ ist also die Wahrscheinlichkeit einer Abweichung des Wertes x¯ vom Mittelwert µ um mehr als eine Konstante A gleich Null. Man spricht von einer Konvergenz nach Wahrscheinlichkeit. Dieser Satz ist ein Spezialfall des folgenden allgemeinen Satzes: Xi , i ∈ N, seien stochastisch unabhängige und identisch verteilte Zufallsvariablen. g(x) sei eine reellwertige Funktion. µg = E(g(Xi )) und σg2 = σ 2 (g(Xi )) existieren. Es sei g¯ X der Mittelwert: g¯ X = n1 ni=1 g(Xi ). Dann gilt die folgende Aussage für beliebig kleine A > 0. lim P (|g¯ X − µg | ≥ A) = 0
(6.11)
n→∞
Beweis:
n 1 2 1 1 σ (g(Xi )) = 2 n · σg2 = σg2 σ (g¯ X ) = 2 n n i=1 n 2
(6.12)
Aus der Tschebyscheff-Ungleichung folgt: P (|g¯ X − µg )| ≥ A) ≤
σ 2 (g¯ X ) 1 = · σ2 A2 n · A2 g
(6.13)
Daraus folgt: lim P (|g¯ X − µg | ≥ A) = 0
(6.14)
n→∞
Ein Zufallsexperiment wird n mal unabhängig wiederholt. Tritt im i-ten Versuch das Ereignis A auf, nimmt die Zufallsvariable Xi den Wert 1 an, sonst den Wert 0. Sei Xi Bernoulli-verteilt mit µ = P (A) = π und σ 2 (Xi ) = π(1 − π ). Die relative Häufigkeit von A in n Versuchen ist gegeben durch: n
1 p˜ n = X¯ = Xi n i=1
(6.15)
36
Man beachte, daß p˜ n die relative Häufigkeit ist, die wir bereits in der deskriptiven Statistik kennengelernt haben. Satz:(Theorem von Bernoulli) Es sei p˜ n die relative Häufigkeit eines Ereignisses in n unabhängigen Wiederholungen eines Zufallsexperiments und π die Wahrscheinlichkeit des Ereignisses. Dann gilt: lim P (|p˜ n − π | ≥ A) = 0
(6.16)
n→∞
Dies bedeutet, daß die Wahrscheinlichkeit einer beliebig kleinen Abweichung der relativen Häufigkeit von der Wahrscheinlichkeit eines Ereignisses bei wachsendem n immer kleiner wird. Daher läßt sich im Fall unabhängiger Zufallsexperimente der formal eingeführte Wahrscheinlichkeitsbegriff inhaltlich erklären. Auch in der Praxis kann man die Ergebnisse sinnvoll verwenden, denn aufgrund der Gesetze kann man Parameter einer Verteilung (konsistent) schätzen.
6.4
Zentraler Grenzwertsatz
Das Gesetz der großen Zahl besagt, daß das arithmetische Mittel X¯ gegen den Mittelwert µ konvergiert. Der Zentrale Grenzwertsatz gibt nun Auskunft darüber, wie X¯ gegen µ konvergiert. Unter den gleichen Voraussetzungen wie im vorigen Abschnitt gilt nun: Satz: Zentraler Grenzwertsatz von Lindeberg - Levy Xi , i ∈ N, sei eine Folge von stochastisch unabhängigen und identisch verteilten Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 . Dann gilt für die Folge Sn der standardisierten Partialsummen der Zufallsvariablen Xi : n Xi − nµ √ X¯ − µ Sn = i=1√ = n· (6.17) nσ σ lim FSn (x) = <(x) für alle x ∈ R
(6.18)
n→∞
Hier bezeichnet FSn die Verteilungsfunktion von Sn und < die Standardnormalverteilung. Es folgt, daß X¯ ∼ N (µ, σ 2 /n) für n → ∞. Man spricht in solchen Fällen von einer Konvergenz nach Verteilung. Ab n ≥ 30 ist Sn in guter Näherung normalverteilt. Für die Anwendbarkeit des zentralen Grenzwertsatzes ist nur die Existenz von Erwartungswert und Varianz wichtig, die Gestalt der Verteilung spielt keine Rolle. Beispiel: Wir untersuchen die Wahrscheinlichkeitsverteilung der Anzahl X von Wappen in 10 Münzwürfen (Werfen mit einer fairen Münze). Da P (’Wappen’)= 1/2 ist, ist X ∼ B10;0.5 verteilt. Wir erhalten die folgende Verteilungsfunktion und vergleichen sie mit der N (5, 2.5) Verteilungsfunktion. j
0
1
2
3
4
5
6
7
8
9
F (j ) (j − 5) < √ 2.5
0
0.01
0.05
0.17
0.38
0.62
0.83
0.95
0.99
1.00
0
0.01
0.03
0.10
0.26
0.50
0.74
0.90
0.97
0.99
37
7
Grundbegriffe der mathematischen Statistik
7.1
Grundgesamtheit und Stichprobe
Als Grundgesamtheit bezeichnen wir die Gesamtheit aller Merkmalsträger, die in einer statistischen Untersuchung auftreten können. Beispiele für Grundgesamtheiten sind • die Zahl der Einwohner der Bundesrepublik Deutschland am 1.1.1990 (endliche Grundgesamtheit). • Ein Würfelexperiment mit einem Würfel läßt sich beliebig oft unter den gleichen Bedingungen wiederholen (unendliche Grundgesamtheit). Wird aus der Grundgesamtheit ein Element zufällig ausgewählt (d.h. jedes Element besitzt dieselbe Chance, ausgewählt zu werden) und der Wert des zu untersuchenden Merkmals gemessen, so kann der Wert x als Realisation einer Zufallsvariablen X aufgefaßt werden. Für ein Intervall I ist also P (X ∈ I ) die Wahrscheinlichkeit dafür, daß ein Element aus der Grundgesamtheit ausgewählt wird, dessen Merkmalswert in I liegt. Wir bezeichnen daher die Verteilung von X auch als Verteilung der Grundgesamtheit auf dem Merkmal X. Die Verteilungsparameter (Erwartungswert, Median, . . .) und die Verteilungsfunktion der Grundgesamtheit charakterisieren die Zufallsvariable X. In den meisten Fällen sind diese Parameter jedoch unbekannt. Unsere Aufgabe ist es, Aussagen über diese Parameter zu machen. Eine Möglichkeit zur Lösung dieser Aufgabe ist die Durchführung einer Totalerhebung, bei der bei jedem Objekt die Merkmalsausprägung gemessen wird. Allein aus finanziellen Gründen ist dies meistens nicht durchführbar. Eine Erhebung der Grundgesamtheit wird unsinnig, wenn mit der Untersuchung die Zerstörung des Objekts verbunden ist (Lebensdauer von Glühbirnen). Daher muß man sich oft damit begnügen, einige Objekte aus der Grundgesamtheit auszuwählen. Werden n Objekte herausgegriffen, so sprechen wir von einer Stichprobe vom Umfang n. Werden die n Objekte unabhängig voneinander gezogen, so daß jedes Element die gleiche Chance besitzt ausgewählt zu werden, sprechen wir von einer Zufallsstichprobe, die bei endlicher Grundgesamtheit einem Ziehen mit oder ohne Zurücklegen entspricht. In einer endlichen Grundgesamtheit ist bei einmaliger Ziehung die Wahrscheinlichkeit, daß das zufällig ausgewählte Element den Merkmalswert x besitzt, gleich der relativen Häufigkeit von x in der Grundgesamtheit. Weiter stimmt die aus allen N Werten der endlichen Grundgesamtheit gebildete empirische Verteilungsfunktion mit der Verteilungsfunktion der Grundgesamtheit überein.
7.2
Stichprobenfunktionen
Will man die durchschnittliche Kinderzahl der deutschen Familie feststellen, so kann man entweder eine Totalerhebung durchführen oder sich mit einer Stichprobe begnügen. In beiden Fällen wird das arithmetische Mittel berechnet. Dieses repräsentiert bei der Totalerhebung die mittlere Kinderzahl der Grundgesamtheit, bei der Stichprobe hingegen die mittlere Kinderzahl einer speziellen, aber zufällig ausgewählten Teilmenge der Grundgesamtheit. Der Stichprobenmittelwert kann sich deshalb vom Mittelwert der Grundgesamtheit unterscheiden. Bei wiederholter Stichprobenentnahme erhalten wir eine Verteilung von Stichprobenmittelwerten, die von der Verteilung der Grundgesamtheit abhängt. Die Analyse dieser Verteilung hilft uns, die Genauigkeit des Stichprobenverfahrens zu beurteilen bzw. Maßnahmen zur Verbesserung der Genauigkeit zu entwickeln. Maßzahlen wie Erwartungswert und Varianz, die die Grundgesamtheit charakterisieren, werden als Parameter bezeichnet. Eine Zufallsvariable Z = g(X1 , . . . , Xn ) (eine Funktion der Zufallsvariablen X1 , . . . , Xn der Stichprobe), heißt eine Stichprobenfunktion oder auch Statistik. Mit Hilfe von Statistiken kann auf die Parameter der Grundgesamtheit geschlossen werden. Dies ist Gegenstand der Inferenzstatistik. Man kann Statistiken zu folgenden Zwecken benutzen: 1. Zur Schätzung von Parametern der Grundgesamtheit. 2. Zur Schätzung eines Intervalls, das mit einer vorgegebenen Sicherheitswahrscheinlichkeit den wahren Parameter überdeckt. 3. Zur Überprüfung einer Hypothese, ob ein Parameter in einer bestimmten Region liegt. 4. Zur Prognose 38
7.2.1 Arithmetisches Mittel Der Mittelwert einer Zufallsstichprobe (arithmetisches Mittel) wird mit X¯ bezeichnet. Für X¯ gilt: n
1 X¯ = Xi , n i=1
¯ = µ, E(X)
¯ = 1 σ 2 (X) σ 2 (X) n
(7.1)
Beweis: Die Zufallsvariablen Xi einer Zufallsstichprobe (X1 . . . Xn ) sind unabhängig voneinander und wie das Merkmal X verteilt. Daher gilt die Behauptung: Ist die Grundgesamtheit ∼ N (µ, σ 2 ) verteilt, so ist X¯ ∼ N (µ, σ 2 /n) verteilt. Ist der Umfang n der Stichprobe hinreichend groß, so ist X¯ annähernd normalverteilt. Dies gilt auch dann, wenn die Zufallsvariable Xi nicht normalverteilt ist (Zentraler Grenzwertsatz). Ist eine Grundgesamtheit endlich, wird häufig eine Stichprobe ohne Zurücklegen erhoben. In diesem Fall sind die Zufallsvariablen Xi , die das Ergebnis der i-ten Ziehung repräsentieren, nicht voneinander unabhängig. Besitzt die Grundgesamtheit N Elemente, so ist beim Ziehen ohne Zurücklegen: ¯ = ¯ = µ, σ 2 (X) E(X)
σ 2 (X) N − n · n N −1
(7.2)
Wegen (N − n)/(N − 1) < 1 streut die Statistik X¯ beim Ziehen ohne Zurücklegen weniger stark als beim Ziehen mit Zurücklegen, jedoch geht dieser Vorteil für große N wegen limN→∞ (N − n)/(N − 1) = 1 verloren. Beispiel: Das Durchschnittseinkommen einer Gruppe von unselbständig Erwerbstätigen beträgt 1900 DM im Monat mit Standardabweichung σ = 200 DM. Man bestimme ein approximatives Intervall um µ, in dem mit Wahrscheinlichkeit 0.96 der Stichprobenmittelwert X¯ einer Zufallsstichprobe vom Umfang n = 400 liegt: Wegen n = 400 ≥ 30 ist X¯ annähernd N (1900, 40 000/400) = N (1900, 100) verteilt. Gesucht ist c mit P (1900 − c ≤ X¯ ≤ 1900 + c) = 0.96. c 1900 + c − µ 1900 − c − µ −c < −< = 0.96 ⇐⇒ < −< = 0.96 (7.3) ¯ ¯ 10 10 σ (X) σ (X) Aus der Normalverteilungstabelle erhält man <(2.06) = 0.98. Daraus folgt: <(2.06)−<(−2.06) = 0.96 und somit c = 10 · 2.06 = 20.6. Das gesuchte approximative Intervall ist daher [1879.4, 1920.6] . 7.2.2 Die relative Häufigkeit Interessiert uns nur die Wahrscheinlichkeit π eines Ereignisses A und setzen wir Xi = 1, falls A im i-ten Versuch realisiert wird, und Xi = 0 sonst, so erhält man als Spezialfall des arithmetischen Mittels die relative Häufigkeit eines Ereignisses A in einer Stichprobe vom Umfang n. n
1 p˜ n = Xi n i=1
(7.4)
Der Erwartungswert von p˜ n ist gleich der Wahrscheinlichkeit π von A: E(p˜ n ) = π
(7.5)
Da in einer Zufallsstichprobe jedes Xi die Varianz π(1 − π ) besitzt, gilt: π(1 − π ) n Für nπ(1 − π ) ≥ 10 ist p˜ n annähernd normalverteilt: π(1 − π ) p˜ n ∼ N π, n σ 2 (p˜ n ) =
(7.6)
(7.7)
In einer endlichen Grundgesamtheit besitzt p˜ n beim Ziehen ohne Zurücklegen den Erwartungswert π und die Varianz: π(1 − π ) N − n 2 σ (p˜ n ) = (7.8) n N −1 39
7.2.3 Stichprobenvarianz Die Varianz einer Zufallsvariablen X wird aus einer Zufallsstichprobe durch die Stichprobenvarianz geschätzt: n
1 ¯ 2 S = (Xi − X) n − 1 i=1 2
(7.9)
Die Stichprobenvarianz S 2 besitzt in einer Zufallsstichprobe den Erwartungswert σ 2 . E(S 2 ) = σ 2
(7.10)
Ist die Grundgesamtheit normalverteilt, so ist der Ausdruck: n S2 1 ¯ 2 (n − 1) · 2 = 2 (Xi − X) σ σ i=1
(7.11)
2 χ 2 -verteilt mit m = n − 1 Freiheitsgraden (kurz χn−1 verteilt). Die χ 2 -Verteilung besitzt eine positive Dichte f (x) über 0 ≤ x < ∞ und hängt von einem Parameter m, m = 1, 2, . . . (Freiheitsgrade) ab. Sie besitzt den Erwartungswert µ = m und die Varianz σ 2 = 2m. Für eine χm2 verteilte Zufallsvariable X ist ab m ≥ 30 der Ausdruck: √ √ 2X − 2m − 1 annähernd N (0, 1) verteilt. (7.12)
Und für das α-Quantil xα der Verteilung von X gilt in diesem Fall: xα ≈
√ 1 (zα + 2m − 1)2 2
(7.13)
Dabei ist zα das α-Quantil der N (0, 1) Verteilung. 7.2.4 Gewöhnliche Stichprobenmomente Die gewöhnlichen Stichprobenmomente um 0: n
1 k Mk = X n i=1 i
(7.14)
besitzen als Erwartungswert die gewöhnlichen Momente der Grundgesamtheit E(X k ).
40
8 8.1
Punkt und Intervallschätzung Punktschätzung
Eine Punktschätzung liegt vor, wenn aufgrund einer Stichprobe durch eine Statistik g(X1 , . . . , Xn ) ein Schätzer ϑˆ für einen unbekannten Parameter ϑ der Verteilung der Grundgesamtheit festgelegt wird. X¯ und S 2 sind Punktschätzer für µ bzw. σ 2 . Beispiel: Der Median x0.5 der Stichprobenwerte x1 , . . . , xn ist ein Punktschätzer für den Median der Grundgesamtheit x0.5 . Er wird folgendermaßen berechnet: Zunächst werden die n Stichprobenwerte der Größe nach geordnet. x[1] ≤ x[2] ≤ . . . ≤ x[n]
(8.1)
Dann ist x0.5 definiert durch: falls n ungerade ist (der Wert in der Mitte) x n+1 2 x0.5 = 1 (x + x[ n +1] ) falls n gerade ist (arithmetisches Mittel der mittleren Werte) 2 [n] 2
(8.2)
2
Ist die Verteilung einer Grundgesamtheit symmetrisch um µ, so ist x0.5 auch ein inhaltlich sinnvoller Punktschätzer für den Erwartungswert µ. Schätzer werden nach Gütekriterien, z. B. Erwartungstreue, Effizienz und Konsistenz, beurteilt. 8.1.1 Erwartungstreue (Unverzerrtheit) Ein Punktschätzer ϑˆ für einen Parameter ϑ heißt erwartungstreu, wenn gilt: ˆ =ϑ E(ϑ)
(8.3)
Beispiel: ϑˆ = X¯
(ist erwartungstreu für µ)
ϑˆ = S 2 =
ϑˆ =
(8.4)
n
1 ¯ 2 (Xi − X) n − 1 i=1
(ist erwartungstreu für σ 2 )
(8.5)
n
1 ¯ 2 (Xi − X) n i=1
(ist nicht erwartungstreu für σ 2 )
(8.6)
8.1.2 Effizienz Es seien ϑˆ 1 und ϑˆ 2 erwartungstreu für ϑ. ϑˆ 1 ist wirksamer (effizienter) als ϑˆ 2 , wenn er eine kleinere Varianz besitzt: V (ϑˆ 1 ) < V (ϑˆ 2 )
(8.7)
d.h. ein Schätzer ist umso wirksamer, je geringer seine Streuung ist. Beispiel: In einer N (µ, σ 2 ) verteilten Grundgesamtheit sind sowohl X¯ als auch X0.5 erwartungstreue Schätzer für µ. Es gilt: ¯ = V (X)
1 π 1 · σ 2 < V (X0.5 ) = · σ 2 n 2 n
(8.8)
Daher gilt: X¯ ist wirksamer als X0.5 Mit Hilfe der sogenannten Informationsungleichung von Rao-Cramér kann man berechnen, wie groß die Varianz des wirksamsten aller unverzerrten Schätzer ist.
41
8.1.3 Konsistenz ϑˆ ist konsistent für ϑ, wenn gilt: lim P (|ϑˆ n − ϑ| > A) = 0
n→∞
für alle A > 0
(8.9)
d.h. der Schätzer ϑˆ konvergiert für n → ∞ nach Wahrscheinlichkeit gegen den Wert ϑ.
8.2
Schätzverfahren
8.2.1 Momentenmethode Lassen sich die unbekannten Parameter ϑi als Funktionen gi (m1 , . . . , mr ) der (auch unbekannten) gewöhnlichen Momente mk = E(X k ) darstellen, so heißt die Stichprobenfunktion: ϑˆ i = gi (M1 , . . . , Mr )
(8.10)
Momentenschätzer für ϑi , wobei: n
Mk =
1 k X n i=1 i
(8.11)
die Stichprobenmomente sind. Die Momentenschätzer sind im allgemeinen nicht effizient. 8.2.2 Maximum-Likelihood-Methode Wird eine Grundgesamtheit durch einen unbekannten Parameter ϑ charakterisiert, so hängt die Dichte vom unbekannten Parameter ϑ ab: f (x|ϑ) im stetigen Fall (8.12) p(j |ϑ) = P (X = j |ϑ) im diskreten Fall Beispiel: Ist die Grundgesamtheit exponentialverteilt, so gilt: f (x|ϑ) = f (x|λ) = f (x) = λe−λx
für
x≥0
(8.13)
Ist die Grundgesamtheit poissonverteilt, so gilt: p(x|ϑ) = p(x|λ) = px = e−λ
λx , x∈N x!
(8.14)
Liegt eine unabhängige Zufallsstichprobe vom Umfang n vor, so besitzt (X1 , . . . , Xn ) die Dichte: f (x1 , . . . , xn ) = f (x1 ) · f (x2 ) · . . . · f (xn ) im stetigen Fall bzw.
(8.15)
p(x1 , . . . , xn ) = p(x1 ) · p(x2 ) · . . . · p(xn ) im diskreten Fall.
(8.16)
Bei der Likelihoodfunktion rückt der Parameter in den Vordergrund, die Werte der Stichprobe werden als gegeben aufgefaßt. Die Likelihoodfunktion stimmt mit der Dichte der Stichprobe überein. Im Gegensatz zur Dichte werden die Parameter als variabel und die Realisierungen xi als fest aufgefaßt. f (x1 |ϑ) · . . . · f (xn |ϑ) im stetigen Fall L(ϑ) = L(ϑ|x1 , . . . , xn ) = (8.17) p(x1 |ϑ) · . . . · p(xn |ϑ) im diskreten Fall Likelihoodprinzip nach Fisher: Für das Stichprobenergebnis (x1 , . . . , xn ) wählt man denjenigen Wert ϑˆ als Schätzwert für ϑ aus, für den die Likelihoodfunktion am größten ist. Der so konstruierte Schätzer heißt Maximum-Likelihood-Schätzer. Im diskreten Fall ist für den so berechneten Wert ϑˆ die Wahrscheinlichkeit für die Beobachtung x1 , . . . , xn am größten, im stetigen Fall ist für ϑˆ die Dichte f (x1 , . . . , xn ) an den beobachteten Werten am größten. 42
Beispiel: Eine Urne enthalte schwarze und weiße Kugeln mit Anteilen π und 1 − π . Bei einer Zufallsstichprobe von n Kugeln aus der Urne werden k schwarze Kugeln gezogen. Die Anzahl X der schwarzen Kugeln ist Bn,π verteilt. Daher ist die Likelihoodfunktion gegeben durch: n L(π) = · π k (1 − π )n−k (8.18) k Der Wert π ist nun so zu bestimmen, daß L(π ) ein Maximum annimmt. Man beachte, daß bei der Bestimmung der Likelihoodfunktion durch die Produktbildung der einzelnen Dichten der Zufallsvariablen die Unabhängigkeit vorausgesetzt wird. Bei der Bestimmung des Maximums geht man zweckmäßigerweise von der zur Basis e logarithmierten Likelihoodfunktion aus, um Produkte zu Summen zu transformieren, die einfacher differenziert werden können. Da der Logarithmus eine streng monotone Funktion ist, nimmt die logarithmierte Likelihoodfunktion an der gleichen Stelle wie die ursprüngliche Funktion das Maximum an. Man erhält: n (8.19) ln L(π ) = ln + ln π k + ln (1 − π )n−k k n = ln + k · ln π + (n − k) ln (1 − π ) (8.20) k Ableiten nach π und Nullsetzen der Ableitung ergibt: ∂ ln L(π ) 1 1 = 0 + k · + (n − k) · (−1) = 0 ∂π π 1−π
(8.21)
k . Die relative Häufigkeit p˜ = k ist daher der Maximum-Likelihood-Schätzer für π Daraus folgt: πˆ = n n n (es handelt sich tatsächlich um ein Maximum). L(π ) nimmt für n = 10 und k = 3 folgende Werte an: π L(π )
0.1 0.06
0.2 0.20
0.3 0.27
0.4 0.21
0.5 0.12
0.7 0.01
Beispiel: Der Maximum-Likelihood-Schätzer für den Parameter µ einer N (µ, σ 2 )-Verteilung soll bestimmt werden, wobei σ 2 als bekannt vorausgesetzt wird. Die Likelihood-Funktion ist aufgrund der Unabhängigkeit der Stichprobe: n ! (xi − µ)2 1 √ L(µ) = (8.22) · exp − 2σ 2 2π σ i=1 Die Log-Likelihood-Funktion (logarithmierte Likelihoodfunktion) ist: n 1 (xi − µ)2 ln √ ln L(µ) = − 2σ 2 2π σ i=1
(8.23)
Die erste Ableitung nach µ ist: n
n
xi − µ 1 ∂ ln L(µ) = − 2 · 2 · (xi − µ) · (−1) = ∂µ 2σ σ2 i=1 i=1
(8.24)
Nullsetzen und Auflösen nach µ ergibt: n 1 xi − µˆ = 0 2 σ i=1 " n # xi − nµˆ = 0 i=1
nµˆ =
n i=1
µˆ ML =
(8.25) xi n
1 xi = x¯ n i=1 43
8.2.3 Methode der kleinsten Quadrate Beispiel: Aus den Beobachtungswerten x1 , . . . , xn soll der Erwartungswert µ der Grundgesamtheit so geschätzt werden, daß die Summe der Quadrate der Abstände der Beobachtungen xi von µ durch: n
(xi − µ)2 → Min
(8.26)
i=1
minimiert wird. Ableiten der Summe nach µ und Nullsetzen der Ableitung ergibt: n
n
∂ (xi − µ)2 = 2(xi − µ) · (−1) = 0 ∂µ i=1 i=1
(8.27)
Daraus folgt: n
µˆ KQS =
1 xi n i=1
(8.28)
x¯ ist also der Kleinste-Quadrate-Schätzer für µ.
8.3
Intervallschätzung
Bei der Punktschätzung ist im allgemeinen die Wahrscheinlichkeit, daß der Schätzer ϑˆ mit dem wahren Parameter ϑ übereinstimmt, gleich Null. Daher konstruieren wir ein Intervall, das zu vorgegebener Wahrscheinlichkeit 1 − α den wahren, aber unbekannten Parameter ϑ einschließt. Definition: Unter einem Konfidenzintervall für ϑ zur Sicherheit S = 1 − α, 0 < α < 1, verstehen wir ein Intervall [ϑ, ϑ], dessen Grenzen ϑ und ϑ Zufallsvariablen sind, für die gilt: P (ϑ ≤ ϑ ≤ ϑ) = 1 − α
(8.29)
Die Sicherheit S = 1 − α heißt auch Konfidenzniveau oder Vertrauenswahrscheinlichkeit. Es gibt einund zweiseitige Konfidenzintervalle. Die Länge 2d = ϑ − ϑ heißt Genauigkeit der Konfidenzschätzung in einem zweiseitigen Konfidenzintervall. Unter einem einseitigen Konfidenzintervall zur Sicherheit S = 1 − α verstehen wir ein Zufallsintervall (−∞, ϑ] bzw. [ϑ, ∞) mit: P (ϑ ≤ ϑ) = 1 − α bzw. P (ϑ ≤ ϑ) = 1 − α.
(8.30)
Die Intervallgrenzen ϑ und ϑ sind also identisch mit den α- und 1 − α-Quantilen der zugrundeliegenden Verteilung. Bei zweiseitigen Konfidenzintervallen, entsprechen hingegen sie den α2 - und 1 − α2 -Quantilen. 8.3.1 Konfidenzintervall für µ bei normalverteilter Grundgesamtheit und bekannter Varianz σ 2 Ein symmetrisches Konfidenzintervall für µ zu S = 1 − α wird folgendermaßen konstruiert. Da jedes Element der Grundgesamtheit N (µ, σ 2 ) verteilt ist, ist X¯ ∼ N (µ, σ 2 /n) verteilt. Daher ist die Gaußstatistik: X¯ − µ √ · n ∼ N (0, 1) σ
(8.31)
normalverteilt. Somit gilt: X¯ − µ √ P zα ≤ · n ≤ z1− α = 1 − α, 2 2 σ
(8.32)
wobei zα/2 bzw. z1−α/2 die α/2 bzw. 1 − α/2 Quantile der N (0, 1) Verteilung sind. Daraus folgt: zα ≤ 2
x¯ − µ √ · n ≤ z1−α/2 σ
⇐⇒ z α ≤ 2
(8.33)
x¯ − µ √ x¯ − µ √ · n und · n ≤ z1− α 2 σ σ 44
(8.34)
σ σ ⇐⇒ µ ≤ x¯ − √ · z α und µ ≥ x¯ − √ · z1− α 2 2 n n Wegen zα/2 = −z1−α/2 erhält man das zweiseitige Konfidenzintervall zur Sicherheit S = 1 − α σ σ x¯ − √ · z1− α ≤ µ ≤ x¯ + √ · z1− α 2 2 n n Die einseitigen Konfidenzintervalle zur S = 1 − α sind: $ % σ σ x¯ − √ · z1−α , ∞ und −∞, x¯ + √ · z1−α n n
(8.35)
(8.36)
(8.37)
Beispiel: Um den durchschnittlichen Benzinverbrauch pro 100 km eines neuen Modells zu ermitteln, läßt eine Automobilfirma mit 25 Versuchswagen Testfahrten durchführen. Die Firma interessiert sich für das Konfidenzintervall zu S = 0.95 für den durchschnittlichen Benzinverbrauch µ pro 100 km. Es wird angenommen, daß der Verbrauch normalverteilt ist mit σ = 0.9F/100km. Der Durchschnittsverbrauch aller 25 Testwagen war 9.1F/100km. Daraus folgt: σ 0.9 µ = x¯ − z0.975 √ = 9.1 − 1.96 · = 8.75 n 5
(8.38)
0.9 σ = 9.45 µ = x¯ + z0.975 √ = 9.1 + 1.96 · n 5
(8.39)
8.3.2 Konfidenzintervall für µ bei normalverteilter Grundgesamtheit und unbekannter Varianz Die unbekannte Varianz σ 2 wird durch die Stichprobenvarianz: n
S2 =
1 ¯ 2 (Xi − X) n − 1 i=1
(8.40)
geschätzt. Bei normalverteilter Grundgesamtheit ist die t-Statistik: tG =
X¯ − µ √ · n S
(8.41)
t-verteilt mit n − 1 Freiheitsgraden. Die t-Verteilung (auch Student-Verteilung1 genannt) besitzt eine Dichte f (x) über −∞ < x < ∞ und einem Parameter m = 1, 2, . . ., der als Freiheitsgrad bezeichnet und durch df (degrees of freedom) abgekürzt wird. Die t-Verteilung ist symmetrisch um den Erwartungswert µ = 0 und besitzt die Varianz σ 2 = m/(m − 2). Ist m ≥ 30, so kann die t-Verteilung durch die Normalverteilung angenähert werden. Das Konfidenzintervall für µ zur Sicherheit S = 1 − α ist: s s (8.42) x¯ − t1− α ;n−1 · √ ≤ µ ≤ x¯ + t1− α ;n−1 · √ 2 2 n n t1− α ;n−1 ist das 1 − α/2 Quantil der t Verteilung mit n − 1 Freiheitsgraden. Die einseitigen Konfidenzin2 tervalle sind: s s x¯ − t1−α;n−1 · √ , ∞ bzw. −∞, x¯ + t1−α;n−1 · √ (8.43) n n 1 Unter dem Pseudonym Student veröffentlichte 1907/1908 William Sealy Gosset (∗ 13.6.1876, †16.10.1937) die t-Verteilung
45
8.3.3 Konfidenzintervall für µ bei großen Stichproben Ist der Umfang n der Stichprobe ≥ 30, so ist X¯ annähernd normalverteilt. Bei bekannter Varianz σ 2 lautet das Konfidenzintervall für µ zu S = 1 − α: σ σ x¯ − z1− α · √ ≤ µ ≤ x¯ + z1− α · √ (8.44) 2 2 n n wobei z1−α/2 das 1 − α/2 Quantil der N (0, 1) Verteilung ist. Ist die Varianz σ 2 unbekannt, so kann σ 2 durch s 2 geschätzt werden, da s 2 für σ 2 konsistent ist. In diesem Fall ist das Konfidenzintervall für µ zu S = 1 − α: s s x¯ − z1− α · √ ≤ µ ≤ x¯ + z1− α · √ (8.45) 2 2 n n 8.3.4 Konfidenzintervall für π eines Ereignisses A mit P (A) = π Ist π die Wahrscheinlichkeit eines Ereignisses A, so ist p˜ n (relative Häufigkeit von A in einer Stichprobe vom Umfang n) eine Statistik für π . Für nπ(1 − π ) ≥ 10 ist p˜ annähernd N (π, π(1 − π )/n) verteilt. Das Konfidenzintervall für π zur Sicherheit S = 1 − α ist: " # & & p(1 ˜ − p) ˜ p(1 ˜ − p) ˜ p˜ − z1− α · ≤ π ≤ p˜ + z1− α · (8.46) 2 2 n n Bemerkung: Wie an den vorangegangenen Beispielen zu sehen ist, steigt bei gleichbleibendem Konfidenzniveau die Präzision der Schätzung mit wachsendem Stichprobenumfang. Wenn der Stichprobenumfang vervierfacht wird, verdoppelt sich die Präzision. 8.3.5 Konfidenzintervall für σ 2 bei normalverteilter Grundgesamtheit Die Statistik: n
S2 =
1 ¯ 2 (Xi − X) n − 1 i=1
(8.47)
ist ein erwartungstreuer Schätzer für σ 2 . Der Ausdruck: (n − 1) · S 2 σ2
(8.48)
ist χ 2 -verteilt mit n − 1 Freiheitsgraden. Das zweiseitige Konfidenzintervall für σ 2 zu S = 1 − α ist: " # 2 (n − 1) · s 2 (n − 1) · s (8.49) ≤ σ2 ≤ 2 χ1− χ 2α ;n−1 α ;n−1 2
2
Beispiel: Ein Papierband wird von einer Maschine in ca. 24 cm lange Stücke geschnitten. Um die Streuung der Länge zu ermitteln, wurde an 24 zufällig ausgewählten Stücken die Länge nachgemessen. Man erhielt s 2 = 0.88 cm2 . Es soll das Konfidenzintervall für σ 2 zu S = 0.99 berechnet werden: σ2 =
(n − 1)s 2 23 · 0.88 = = 0.46 2 44.2 χ0.995;23
(8.50)
σ2 =
(n − 1)s 2 23 · 0.88 = 2.19 = 2 9.26 χ0.005;23
(8.51)
46
9
Signifikanztests
Bisher haben wir Schätzverfahren (Punkt- und Intervallschätzungen) für unbekannte Parameter einer Grundgesamtheit behandelt. In vielen konkreten Problemstellungen muß jedoch zwischen zwei Hypothesen entschieden werden. Beispiele: • Hypothese: Ein pharmazeutisches Präparat hat die beabsichtigte Wirkung. Gegenhypothese: Es hat nicht die gewünschte Wirkung. • Hypothese: Ein neues Verfahren zur Herstellung von Glühbirnen bewirkt eine Verlängerung der Lebensdauer gegenüber einem alten Verfahren. Gegenhypothese: Die nach dem neuen Verfahren hergestellten Birnen besitzen keine längere Lebensdauer.
9.1 Aufbau von Signifikanztests Eine statistische Hypothese ist eine Vermutung über die Wahrscheinlichkeitsverteilung der Grundgesamtheit, die in den meistenAnwendungen alsVermutung über einen unbekannten Parameter ϑ formuliert wird. Die zu untersuchende: H0 -Hypothese wird als Nullhypothese bezeichnet, während die relevante Alternative als Alternativhypothese H1 bezeichnet wird. Eine Entscheidungsvorschrift, die aufgrund der Werte einer Stichprobe angibt, wann für H0 bzw. H1 zu entscheiden ist, heißt Signifikanztest. Der Annahmebereich ist die Menge aller möglichen Datenkonstellationen, die zur Entscheidung für die Nullhypothese H0 führen. Der kritische Bereich oder Ablehnungsbereich ist die Menge der Datenkonstellationen, die zur Annahme von H1 führen. Es müssen zwei Hypothesen H0 und H1 , die sich durch disjunkte Parameterbereiche definieren, gegeneinander abgegrenzt werden. Die Nullhypothese H0 wird so gewählt, daß es im Interesse des Testenden liegt, diese mit kontrollierbarem Fehler α abzulehnen. Daraus folgt, daß in der Regel die Alternativhypothese H1 das belegende Ergebnis widerspiegelt. Beispiel: Ist der Parameter ϑ einer Grundgesamtheit unbekannt und sind die möglichen Werte von ϑ nur ϑ0 und ϑ1 , so lauten die Hypothesen: H0 : ϑ = ϑ0 , H1 : ϑ = ϑ1
(9.1)
In der folgenden Abbildung sind die Dichten einer Statistik ϑˆ für ϑ dargestellt (links die Dichte, wenn H0 wahr ist). ✻
ˆ f (ϑ)
.................. .... ... ... ... ... ... .. ... . .. ... . ... .. . ... .. . ... .. . ... .. ... . ... .... ... . . ... .... ... . . ... .... ... ... ... . ... ............................ . ..... ...... ... .... ..... ..... ... . ..... ..... . ... .... .... . . . .... ... ... . . . . ... . . ... .. ... . ... . .... ... .. . ... ... . ... .. . ... . . ... . ... ... ... .... . ... . ... . . . . ... ... .. . . .... ... ... . . . ... . . . ... .. ... . . .... ... ... ... ... ..... ... . . . . ... . ... .. ... .... ... ... ... . . . . . ... ..... .. . . . ... .. ... .... ... . . . ... ... .. . . . ... ... .. .. . . . ... ... .. .. . ... . . . ... .. .. ... . . . ... ... .. .. . . . . ... ... .. .. . ... . . . ... .. ... .. . . . ... ... .. . .. . . . .... ... .. . . . . ..... . . . . ... ... .. ..... . . . . . . . ... ..... .. .... . . . . ..... . . ... ... . ..... ... . . . . . .... ...... . ... . . . . . . . . . . ...... ..... ... .... . . . . ....... . . . . . . . ..... ... ........ ..... . . . . . . . . . . . . . . . .......... ....... ..... .... . . . . . . . . . .............. . . . . . . . . . . . . ............ ..... ......... . .............................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............................. .................. .......................................... ..............................
β
α
ϑ0
c
ϑ1
ϑˆ
✲
Um eine Entscheidungsvorschrift festzulegen, wird die Menge aller Datenkonstellationen in E0 und E1 zerlegt: ' ( ' ( ˆ 1 , . . . , xn ) < c ˆ 1 , . . . , xn ) ≥ c E1 = (x1 , . . . , xn )|ϑ(x (9.2) E0 = (x1 , . . . , xn )|ϑ(x 47
Die einfachste Entscheidungsregel lautet wie folgt: Wenn das Ereignis E0 eintritt, lehne die Nullhypothese H0 nicht ab. Wenn E1 eintritt, verwerfe H0 .
9.2
Fehler erster Art und zweiter Art
Die bei einem Test möglichen Fehler sind: • Fehler erster Art (α-Fehler): Man trifft eine Entscheidung für H1 , obwohl H0 richtig ist. • Fehler zweiter Art (β-Fehler): Man trifft eine Entscheidung für H0 , obwohl H1 richtig ist. Im obigen Beispiel ist die Wahrscheinlichkeit für einen Fehler erster Art gleich der Wahrscheinlichkeit des Eintreffens von E1 , wenn H0 wahr ist. α = P (E1 |H0 ) = P (ϑˆ ≥ c|H0 )
(9.3)
Die Wahrscheinlichkeit für einen Fehler zweiter Art ist gleich der Wahrscheinlichkeit des Eintreffens von E0 , wenn H1 wahr ist: β = P (E0 |H1 ) = P (ϑˆ < c|H1 )
(9.4)
Die Wahrscheinlichkeiten für richtige Entscheidungen sind: 1 − α = P (E0 |H0 ) = P (ϑˆ < c|H0 ), falls H0 wahr ist
(9.5)
1 − β = P (E1 |H1 ) = P (ϑˆ ≥ c|H1 ), falls H1 wahr ist
(9.6)
Die Größe c teilt die Verteilung von ϑˆ im Verhältnis (1 − α) zu α, wenn ϑ0 der wahre Parameter ist. Dies impliziert die Verwendung der Null-Hypothese zur Konstruktion der kritischen Schwelle c. Beispiel: Ein Unternehmen erhält eine große Warensendung vorgefertigter Teile, die entweder 5% oder 10% Ausschuß enthalten kann, je nachdem auf welcher Anlage des Zulieferers diese Teile hergestellt wurden. Die Frage ist, auf welcher Anlage die Warensendung produziert wurde. Daher muß zwischen H0 : π = 0.05 und H1 : π = 0.1 entschieden werden. Die Entscheidungsregel lautet: Ist der relative Anteil p˜ des Ausschusses in einer Stichprobe vom Umfang n größer/gleich c, so wird H0 abgelehnt; ist p˜ kleiner als c, so wird H0 beibehalten. Die Wahrscheinlichkeit für einen Fehler erster Art ist: n n α = P (p˜ ≥ c|π = 0.05) = 0.05k · 0.95n−k (9.7) k k≥n·c Die Wahrscheinlichkeit für einen Fehler zweiter Art ist: n 0.1k · 0.9n−k β = P (p˜ < c|π = 0.1) = k k
(9.8)
Entschließt sich das Unternehmen, die Lieferung zurückzuweisen, wenn in einer Stichprobe vom Umfang 20 der Ausschußanteil größer ist als 1/9, so erhält man: α = P (p˜ > 1/9 | π = 0.05) =
20 20 k=3
k
k
· 0.05 · 0.95
20−k
=1 −
2 20 k=0
k
· 0.05k · 0.9520−k
(9.9)
= 1 − 0.3585 − 20 · 0.05 · 0.3774 − 190 · 0.0025 · 0.3972 = 1 − 0.9245 = 0.0755 β = P (p˜ ≤ 1/9 | π = 0.1) =
2 20 k=0
k
0.1k · 0.920−k
= 0.1216 + 20 · 0.1 · 0.1351 + 190 · 0.01 · 0.1501 = 0.6769
48
(9.10)
Die Wahrscheinlichkeit, die Lieferung zurückzuweisen, obwohl π = 0.05 ist, ist gering, nämlich 0.0755. Hingegen ist die Wahrscheinlichkeit, die Lieferung anzunehmen, obwohl der relative Ausschußanteil 10% beträgt, relativ groß (0.6769). Bisher lag nur der Fall vor, daß sowohl H0 als auch H1 nur einen möglichen Wert des unbekannten Parameters umfassen. Gehören nun zu H0 und H1 mehrere mögliche Parameterwerte, so lassen sich die Wahrscheinlichkeiten für den Fehler erster und zweiter Art nicht mehr eindeutig bestimmen. Durchläuft a den Bereich der möglichen Parameterwerte ϑ, so heißt die Funktion: G(a) = P (E1 |ϑ = a) = P (Ablehnung von H0 | der wahre Wert von ϑ ist a)
(9.11)
Gütefunktion eines Tests. Die Gütefunktion gibt in Abhängigkeit von a die Wahrscheinlichkeit für die Annahme von H1 an. α = sup G(a)
(9.12)
a∈H0
ist die maximale Wahrscheinlichkeit, daß für H1 entschieden wird, obwohl H0 richtig ist. α heißt Signifikanzniveau oder Irrtumswahrscheinlichkeit des Tests. β = sup (1 − G(a))
(9.13)
a∈H1
ist die maximale Wahrscheinlichkeit, daß für H0 entschieden wird, obwohl H1 richtig ist. Wird eine Statistik ϑˆ zur Festlegung des Annahme- und des Ablehnungsbereichs benutzt, so heißt ϑˆ ˆ 1 , . . . , xn ) heißt signifikant auf dem Niveau eine Teststatistik oder auch Testfunktion. Eine Teststatistik ϑ(x α, wenn das Signifikanzniveau α ist und die beobachteten Werte aus der Stichprobe zur Ablehnung von H0 führen. ˆ 1 , . . . , xn ) keiMan beachte: Die Beibehaltung der Nullhypothese bedeutet, daß die Testgröße ϑ(x nen Hinweis auf die Gültigkeit der Alternativhypothese H1 liefert. Die Beibehaltung der Hypothese H0 bedeutet weder, daß H1 sicher falsch ist, noch daß H1 mit Wahrscheinlichkeit 1 − α falsch ist. Beispiel: Einer normalverteilten Grundgesamtheit mit bekannter Varianz σ 2 wird eine Stichprobe vom Umfang n entnommen. Es soll geprüft werden, ob der Mittelwert µ aus der Grundgesamtheit größer ist als µ0 . H0 : µ ≥ µ0 gegen H1 : µ < µ0
(9.14)
Als Statistik für den Test wird der Stichprobenmittelwert x¯ verwendet. Die Entscheidungsregel lautet: Ist x¯ < c, so wird H1 angenommen, andernfalls wird H0 beibehalten. Ist die Grundgesamtheit N (µa , σ 2 ) verteilt, so ist x¯ ∼ N (µa , σ 2 /n) verteilt. Daher ist: c − µa x¯ − µa c − µa a a a √ ≤ √ µ=µ =< √ (9.15) G(µ ) = P (x¯ ≤ c|µ = µ ) = P σ/ n σ/ n σ/ n Für alle µa > µ0 gilt:
c − µ0 c − µ0 c − µa c − µa √ ≤ √ und somit < √ √ ≥< , σ/ n σ/ n σ/ n σ/ n Daraus folgt: c − µ0 a √ α = max G(µ ) = < µa ≥µ0 σ/ n
(9.16)
(9.17)
Der Schwellenwert Signifikanzniveau ermittelt: c wird√zueinem vorgegebenem √ c − µ c − µ 0 0 · n ist · n gleich dem α-Quantil zα der N (0, 1) Verteilung. Wegen α = < σ σ zα =
c − µ0 √ σ σ · n !⇒ c = µ0 + √ · zα = µ − √ · z1−α σ n n
(9.18)
Die Entscheidungsregel im Test für H0 : µ ≥ µ0 gegen H1 : µ < µ0 zum Signifikanzniveau α lautet bei normalverteilter Grundgesamtheit: Gilt σ (9.19) x¯ ≤ µ0 − √ · z1−α , n so wird H0 abgelehnt, andernfalls wird H0 beibehalten. 49
Bemerkung: 1. Sinnvoll wird ein statistischer Test nur dann verwendet, wenn das Ergebnis der vorliegenden Stichprobe der Null-Hypothese widerspricht. In diesem Fall ist zu prüfen, ob der Widerspruch nur zufällig ist oder ob er hinreicht, um die Null-Hypothese bei vorgegebener Irrtumswahrscheinlichkeit zu verwerfen. 2. Mit wachsendem Stichprobenumfang sinkt der Fehler zweiter Art, d.h. die Schärfe des Tests nimmt zu. Auswahl der Hypothesen: Aufgrund von Bemerkung 1 sollte die für den Forscher zu überprüfende Hypothese die H1 -Hypothese sein. Im Zweifelsfalle sind beide möglichen Hypothesen gegeneinander abzuwägen und diejenige als H0 -Hypothese zu wählen, die im Falle einer falschen Entscheidung den größeren Schaden anrichten würde (worst-case-Prinzip). Beipiel: Es ist bekannt, daß eine bewährtes Medikament eine Krankheit in 90% aller Fälle zuverlässig bekämpft. Ein neues Medikament wird an 1000 Probanden getestet und schneidet mit einer Zuverlässigkeit von p˜ = 0.99 ab. Welcher Test sollte zu einem Signifikanzniveau von α = 0.05 gewählt werden? Um eine solche Aufgabenstellung adäquat beurteilen zu können, sollte die H0 -Hypothese H0 : π ≤ 0.9 lauten, da in diesem Falle das neue Medikament schlechtere Resultate hervorbrächte als das alte. Der α-Fehler (das neue Medikament wird als besser getestet, obwohl es in Wirklichkeit schlechter ist) kann so durch den Forscher kontrolliert werden, während der β-Fehler (das neue Medikament wird als schlechter getestet, obwohl es in Wirklichkeit besser ist) nicht kontrolliert werden kann. Definition: Eine statistische Fragestellung heißt einseitig, wenn sie die Form: 1. H0 : ϑ ≤ ϑ0 , H1 : ϑ > ϑ0 2. H0 : ϑ ≥ ϑ0 , H1 : ϑ < ϑ0 besitzt. Eine statistische Fragestellung heißt zweiseitig, wenn sie folgende Form besitzt: H0 : ϑ = ϑ0 , H1 : ϑ = ϑ0 .
9.3
Signifikanztests für spezielle Fragestellungen
9.3.1 Test für µ bei normalverteilter Grundgesamtheit und bekannter Varianz (Gaußtest) H0 : µ ≤ µ0 , H1 : µ > µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
n·
x¯ − µ0 ≥ z1−α σ
(9.20)
√
n Gütefunktion: G(a) = < (a − µ0 ) · − z1−α σ
(9.21)
H0 : µ ≥ µ0 , H1 : µ < µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
n·
x¯ − µ0 ≤ −z1−α σ
(9.22)
Gütefunktion: G(a) = < (µ0 − a) ·
√
n − z1−α σ
(9.23)
H0 : µ = µ0 , H1 : µ = µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
n·
|x¯ − µ0 | ≥ z1− α 2 σ
(9.24)
√
n Gütefunktion: G(a) = < (µ0 − a) · − z1− α 2 σ
50
√
n + < (a − µ0 ) · − z1− α 2 σ
(9.25)
9.3.2 Test für µ bei normalverteilter Grundgesamtheit und unbekannter Varianz (t-Test) H0 : µ ≤ µ0 , H1 : µ > µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
n·
x¯ − µ0 ≥ t1−α;n−1 . s
(9.26)
√
n Gütefunktion: G(a) = F (a − µ0 ) · − t1−α;n−1 s
(9.27)
Hier ist F (x) die Verteilungsfunktion der t-Verteilung. H0 : µ ≥ µ0 , H1 : µ < µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
x¯ − µ0 ≤ −t1−α;n−1 s √ n Gütefunktion: G(a) = F (µ0 − a) · − t1−α;n−1 s n·
(9.28)
(9.29)
H0 : µ = µ0 , H1 : µ = µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
|x¯ − µ0 | ≥ t1− α2 ;n−1 . s √ √ n n Gütefunktion: G(a) = F (µ0 − a) − t1− α2 ;n−1 + F (a − µ0 ) − t1− α2 ;n−1 s s n·
(9.30)
(9.31)
9.3.3 Test für µ bei großen Stichproben Gegeben sei eine Zufallsstichprobe xi , i = 1, . . . , n einer Zufallsvariablen mit einer beliebigen Verteilung und unbekannter Varianz σ 2 , so daß gilt X ∼ N (µ, σ 2 ). Ist die Stichprobe n ≥ 30, lassen sich approximative Signifikanztests wegen des zentralen Grenzwertsatzes analog zum Gaußtest durchführen: H0 : µ ≤ µ0 , H1 : µ > µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
n·
x¯ − µ0 ≥ z1−α s
(9.32)
√
n Gütefunktion: G(a) = < (a − µ0 ) · − z1−α s
(9.33)
H0 : µ ≥ µ0 , H1 : µ < µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
n·
x¯ − µ0 ≤ −z1−α s
(9.34)
√
n Gütefunktion: G(a) = < (µ0 − a) · − z1−α s
(9.35)
H0 : µ = µ0 , H1 : µ = µ0 . H0 wird zum Testniveau α verworfen, wenn gilt: √
n·
|x¯ − µ0 | ≥ z1−α/2 s
(9.36)
√ √ n n Gütefunktion: G(a) = < (µ0 − a) · − z1− α + < (a − µ0 ) · − z1− α 2 2 s s
51
(9.37)
9.3.4 Tests für Mittelwertunterschiede bei unabhängigen Stichproben Gegeben seien zwei voneinander unabhängig gezogene Stichproben xi , i = 1, . . . , n1 der Zufallsvariablen X ∼ N (µ1 , σ12 ) und yj , j = 1, . . . , n2 der Zufallsvariablen Y ∼ N (µ2 , σ22 ). Von Interesse ist die Hypothese H0 : µ1 = µ2 , d.h. die beiden Erwartungswerte sind gleich, gegen H1 : µ1 = µ2 . Je nach Annahmen über σ12 , σ22 und die Verteilungsfunktion von X und Y erhält man unterschiedliche Teststatistiken, die hier mit D bezeichnet werden. 1. X ∼ N (µ1 , σ12 ), Y ∼ N (µ2 , σ22 ), σ12 und σ22 bekannt. x¯ − y¯ D= , sp2
sp2 =
σ12 σ22 + n1 n2
(9.38)
Ist |D| ≥ z1−α/2 , wird H0 mit Irrtumswahrscheinlichkeit α verworfen. 2. X ∼ N(µ1 , σ12 ), Y ∼ N (µ2 , σ22 ), σ12 = σ22 aber unbekannt. Wir definieren zunächst die Hilfsgröße sp2 (p für pooled), die ein Schätzer für die Varianz von x¯ − y¯ ist. sp2 =
(n1 − 1)s12 + (n2 − 1)s22 n1 + n2 · n1 + n 2 − 2 n1 · n 2
x¯ − y¯ D= sp2
(9.39)
(9.40)
Ist |D| ≥ t1−α/2;n1 +n2 −2 , wird H0 mit Irrtumswahrscheinlichkeit α verworfen. 3. X ∼ N(µ1 , σ12 ), Y ∼ N (µ2 , σ22 ), σ12 und σ22 unbekannt, n1 ≥ 30, n2 ≥ 30. x¯ − y¯ D= , sp2
sp2 =
s12 s2 + 2 n1 n2
(9.41)
Ist |D| ≥ z1−α/2 , wird H0 mit Irrtumswahrscheinlichkeit α verworfen. Beispiel: Gegeben seien zwei Medikamente, die beide den Blutdruck senken. Zu prüfen ist, ob die beiden Medikamente gleichwertig sind, d.h. ob im Mittel der Unterschied 0 ist. Aus zwei unabhängigen klinischen Untersuchungen erhält man die Daten: • Erste Medikament: n1 = 35, x¯ = 147, s12 = 225 • Zweite Medikament: n2 = 42, y¯ = 137, s22 = 256 Die Varianz der Grundgesamtheit ist unbekannt. Die H0 : µ1 = µ2 wird mit der Teststatistik 147 − 137
D=
225/35 + 256/42
= 2.826 ≥ z1−0.025 = 1.96
(9.42)
überprüft und mit Irrtumswahrscheinlichkeit α = 0.05 zugunsten von H1 : µ1 = µ2 verworfen. 9.3.5 Test für σ 2 bei normalverteilter Grundgesamtheit Bei normalverteilter Grundgesamtheit ist: (n − 1)s 2 σ2
(9.43)
χ 2 -verteilt mit n − 1 Freiheitsgraden.
52
H0 : σ 2 ≤ σ02 , H1 : σ 2 > σ02 . H0 wird zum Testniveau α verworfen, wenn gilt: (n − 1)s 2 2 ≥ χ1−α;n−1 σ02
(9.44)
H0 : σ 2 ≥ σ02 , H1 : σ 2 < σ02 . H0 wird zum Testniveau α verworfen, wenn gilt: (n − 1)s 2 2 ≤ χα;n−1 σ02
(9.45)
H0 : σ 2 = σ02 , H1 : σ 2 = σ02 . H0 wird zum Testniveau α verworfen, wenn gilt: (n − 1)s 2 (n − 1)s 2 2 α ≤ χ 2α ;n−1 oder ≥ χ1− 2 2 2 ;n−1 σ0 σ02
(9.46)
Beispiel: Um die Streuung der Abfüllmengen der auf einer neuen Anlage gefüllten Flaschen zu überprüfen, soll eine Stichprobe vom Umfang n = 24 gezogen werden. Zum Signifikanzniveau α = 0.01 soll getestet werden, ob σ 2 < 3 cm6 ist. H0 : σ 2 ≥ 3 , H1 : σ 2 < 3 . Die Entscheidungsregel lautet: H0 wird abgelehnt, wenn gilt: 23 · s 2 2 ≤ χ0.01;23 3 In einer Stichprobe vom Umfang 24 erhält man für die Abfüllmenge die Statistiken: x¯ = 501cm3 , s 2 = 1.7cm6 2 = 10.2 , χ0.01;23
(9.47)
(9.48)
23 · s 2 = 13.03 3
(9.49)
2 = 10.2 kann H0 : σ 2 ≥ 3 mit der Irrtumswahrscheinlichkeit α = 0.01 nicht Wegen 13.03 > χ0.01;23 verworfen werden.
9.3.6 Test für eine unbekannte Wahrscheinlichkeit Die relative Häufigkeit p˜ eines Ereignisses mit Wahrscheinlichkeit π ist eine Statistik für π. Für nπ(1 − π ) ≥ 10 gilt annähernd: π(1 − π ) p˜ n ∼ N π, n
(9.50)
H0 : π ≤ π0 , H1 : π > π0 . H0 wird zum Testniveau α verworfen, wenn gilt: & π0 (1 − π0 ) p˜n ≥ π0 + z1−α · (9.51) n H0 : π ≥ π0 , H1 : π < π0 . H0 wird zum Testniveau α verworfen, wenn gilt: & π0 (1 − π0 ) p˜ n ≤ π0 − z1−α · (9.52) n H0 : π = π0 , H1 : π = π0 . H0 wird zum Testniveau α verworfen, wenn gilt: & π0 (1 − π0 ) |p˜ n − π0 | ≥ z1− α · (9.53) 2 n Beispiel: Um zu erfahren, ob die Partei A bei einer Wahl die 5% Hürde überspringt, werden 1490 zufällig ausgewählte Personen nach ihrer Parteipräferenz gefragt. Es soll die Entscheidungsregel für H0 : π ≤ 0.05 gegen H1 : π > 0.05 zum Niveau α ≥ 0.05 angegeben werden. π ist der Stimmanteil der Partei A bei der Wahl. Wegen nπ0 (1 − π0 ) = 1490 · 0.05 · 0.95 = 70.8 ≥ 10 kann der oben angeführte Test angewandt werden. H0 ist zu verwerfen, wenn & 0.05 · 0.95 = 0.05 + 0.0093 = 0.0593 (9.54) p˜ n ≥ 0.05 + z0.95 · 1490 Die Stichprobe ergab einen Prozentanteil für A von 5.47. Die Hypothese, daß A unter der 5% Hürde bleibt, kann daher zum Signifikanzniveau α = 0.05 nicht verworfen werden. 53
9.3.7
χ 2 -Anpassungstest
Zu überprüfen ist, ob die diskrete unbekannte Verteilung einer Grundgesamtheit mit einer gegebenen hypothetischen Verteilung übereinstimmt. πi = P0 (Ei ) seien die Wahrscheinlichkeiten für die durch Zerlegung gebildeten Ereignisse Ei , i = 1, . . . , r unter der Nullhypothese. Sind hi die absoluten Häufigkeiten der Ereignisse Ei in einer Stichprobe vom Umfang n, so wird die Hypothese H0 , daß die Grundgesamtheit die Verteilung P0 besitzt, mit der Irrtumswahrscheinlichkeit α abgelehnt, falls gilt: χ
2∗
r (hi − hei )2 2 = ≥ χ1−α;r−1 ; e h i i=1
mit hei = nπi , i = 1, . . . , r
(9.55)
Voraussetzung: hei ≥ 5 für alle i = 1, . . . , r . χ 2∗ ist ein Maß für die Abweichung der beobachteten Verteilung von der hypothetischen Verteilung. Ein hoher χ 2∗ -Wert weist daher darauf hin, daß die Verteilungen nicht übereinstimmen. Beispiel: Eine Lebensversicherung hat folgende Häufigkeit von Versicherungsfällen im Monat festgestellt: i hi
0 45
1 70
2 48
3 21
≥4 16
1 200
Wir untersuchen zum Signifikanzniveau α = 0.05, ob die Anzahl X der Versicherungsfälle pro Monat eine Poissonverteilung mit λ = 1.5 besitzt. i
0
1
2
3
≥4
1
πi hei = nπi
0.223 44.6
0.335 67
0.251 50.2
0.126 25.2
0.065 13
1 200
Die Werte für πi stammen aus der Tabelle der Poissonverteilung mit λ = 1.5. Die Testfunktion ist: χ 2∗ =
(hi − he )2 i = 0.0036 + 0.1343 + 0.0964 + 0.7 + 0.6923 = 1.626 e h i i
2 Für die Teststatistik gilt: χ 2∗ < χ0.95;4 . Daher wird H0 : λ = 1.5 beibehalten.
54
(9.56)
10 10.1
Korrelation und Regression Einfache Korrelation
Eine Hauptaufgabe jeder wissenschaftlichen Arbeit ist die Ermittlung von Zusammenhängen zwischen Variablen. Betrachtet man zunächst nur zwei metrische Merkmale, ist man an Richtung und Stärke des Zusammenhangs interessiert. Zu einer derartigen Charakterisierung läßt sich - unter später behandelten Beschränkungen - der Produktmomentkorrelationskoeffizient von Bravais-Pearson heranziehen. Der Korrelationskoeffizient in einer Grundgesamtheit wurde bereits behandelt. Im folgenden wird auf die Schätzung dieses Koeffizienten aus einer Zufallsstichprobe eingegangen. Beispiel zur Korrelation: Ein Verband von Handelsfirmen ermittelt von 10 der ihm angeschlossenen Firmen den jährlichen Lagerumschlag X und den durchschnittlichen Kalkulationsaufschlag Y (in % des Einkaufspreises). Firmen-Nr. X Y
1
2
3
4
5
6
7
8
9
10
8.5 18.0
7.8 20.0
7.5 20.0
6.2 25.0
6.5 29.0
6.0 31.0
5.6 33.0
4.6 37.0
4.0 43.0
3.3 44.0
n = 10 x¯ = 6.0 y¯ = 30.0
An den Firmen (den Elementen der Stichprobe) werden zwei Messungen vorgenommen. Der Betrachtung liegen also 10 Zahlenpaare {(xi , yi ) : i = 1, . . . , 10} zugrunde. Diese Zahlenpaare lassen sich als 10 stochastisch unabhängige Realisierungen der Zufallsvariablen (X, Y ) auffassen, für die eine gemeinsame Verteilung F (x, y) mit Erwartungswerten µx und µy , Varianzen σx2 und σy2 , Kovarianz σxy und Korrelation ρxy angenommen wird. Zur Erinnerung werden noch einmal die Definitionen von Kovarianz und Korrelationskoeffizient angegeben: σxy = E[(X − µx )(Y − µy )]
(10.1)
σxy ρxy = σx2 σy2
(10.2)
Erwartungstreue und konsistente Schätzer für σxy und ρxy sind: " n # n 1 1 (xi − x)(y ¯ i − y) ¯ = xi yi − nx¯ y¯ sxy = n − 1 i=1 n − 1 i=1
(10.3)
sxy rxy = sx2 sy2
(10.4)
Der Korrelationskoeffizient der Stichprobe wird anhand des folgenden Schemas berechnet: Nr.
x − x¯
y − y¯
(x − x) ¯ 2
(x − x)(y ¯ − y) ¯
(y − y) ¯ 2
1 2 3 4 5 6 7 8 9 10
2.5 1.8 1.5 0.2 0.5 0.0 -0.4 -1.4 -2.0 -2.7
-12.0 -10.0 -10.0 - 5.0 1.0 1.0 3.0 7.0 13.0 14.0
6.25 3.24 2.25 0.04 0.25 0.00 0.16 1.96 4.00 7.29
-30.0 -18.0 -15.0 - 1.0 - 0.5 0.0 -1.2 -9.8 -26.0 -37.8
144 100 100 25 1 1 9 49 169 196
0
25.44
-139.3
794
0
55
sxy = −15.444,
sx2 = 2.827,
sy2 = 88.222,
rxy = √
−139.3 25.44 · 794
= −0.980
(10.5)
Die Variablen Lagerumschlag und Kalkulationsaufschlag sind hoch negativ korreliert. Je öfter ein Lagerumschlag stattfindet, desto geringer ist der Kalkulationsaufschlag und umgekehrt. Man beachte, daß sich aus diesem Ergebnis keine Richtung eines kausalen Zusammenhanges ableiten läßt. Wichtig sind die folgenden Eigenschaften des Korrelationskoeffizienten: •
− 1 ≤ r ≤ +1 , d.h. r ist normiert
(10.6)
• Besteht zwischen y und x ein exakter linearer Zusammenhang (yi = a + bxi ), so gilt: 1 wenn b > 0 (gleichsinnig) r= −1 wenn b < 0 (gegensinnig)
(10.7)
• Sind x und y voneinander statistisch unabhängig, so ist ihre Kovarianz 0 und damit auch der Korrelationskoeffizient. Da der Korrelationskoeffizient eine Maßzahl des linearen Zusammenhangs ist, kann umgekehrt aus r = 0 nicht geschlossen werden, daß x und y statistisch unabhängig sind. • Ein durch Korrelation nachgewiesener statistischer Zusammenhang zwischen Merkmalen wird vielfach als ursächlicher Zusammenhang verstanden. Einfache Beispiele zeigen, daß dies nicht ohne weiteres sinnvoll ist: - zwischen der Anzahl besetzter Storchennester und der jährlichen Geburtenziffer hat man eine positive Korrelation festgestellt, - zwischen der Anzahl der in England verkauften Radiogeräte und der Länge des Vornamens des Präsidenten der USA wurde eine starke Korrelation festgestellt (Zeitraum: 1923 – 1942), - zwischen der Anzahl der Fernsehgenehmigungen und der Anzahl von hospitalisierten Geisteskranken hat man eine positive Korrelation festgestellt. Bei der Deutung eines Korrelationskoeffizienten als Hinweis auf kausale Zusammenhänge muß man mindestens folgende Interpretationsmodelle in Betracht ziehen: • Einseitige Steuerung: x wirkt auf y, d.h: x −→ y. Beispiel: Vererbung • Wechselseitige Steuerung: x ←→ y. Beispiele: Kontakt fördert die Sympathie, Sympathie fördert den Kontakt; Löhne beeinflussen die Preise, Preise die Löhne. • Drittseitige Steuerung: z −→ y und z −→ x. Beispiel: Bis zum 20. Lebensjahr nimmt sowohl das Körpergewicht x als auch die Intelligenz y zu. In einer hinsichtlich des Lebensalters heterogenen Stichprobe erscheinen die schwereren Individuen als die intelligenteren (Scheinkorrelation; mittels des partiellen Korrelationskoeffizienten versucht man, solche drittseitige Steuerungen aufzuklären). Die oben angeführten Beispiele sind typische Fälle von Scheinkorrelation. • Komplexe Steuerung: y hängt von p Variablen (x1 , . . . , xp ) ab. Abhängigkeiten dieser Art versucht man durch die multiple Korrelation zu erfassen. Unter der Annahme einer bivariaten Normalverteilung für (X, Y ) lassen sich verschiedene Tests für den Korrelationskoeffizienten der Grundgesamtheit konstruieren. • Test der speziellen Hypothesen H0 : ρ ≤ 0, H0 : ρ ≥ 0, und H0 : ρ = 0. Ist die jeweilige Entscheidungsregel erfüllt, wird H0 zum Testniveau α abgelehnt. √ r n−2 ≥ t1−α;n−2 (10.8) H0 : ρ ≤ 0 gegen H1 : ρ > 0 , Entscheidungsregel: 1 − r2 √ r n−2 ≤ −t1−α;n−2 (10.9) H0 : ρ ≥ 0 gegen H1 : ρ < 0 , Entscheidungsregel: 1 − r2 √ |r| n − 2 ≥ t1−α/2;n−2 (10.10) H0 : ρ = 0 gegen H1 : ρ = 0 , Entscheidungsregel: 1 − r2 56
• Test der allgemeinen Hypothesen H0 : ρ ≤ ρ0 , H0 : ρ ≥ ρ0 und H0 : ρ = ρ0 . Entwickle die Hilfsgrößen: % $ ρ0 1+r 1 + ρ0 1 1 + , z0 = ln z = ln 2 1−r 2 1 − ρ0 2(n − 1) H0 wird zum Testniveau α abgelehnt, wenn die jeweilige Entscheidungsregel zutrifft. √ H0 : ρ ≤ ρ0 gegen H1 : ρ > ρ0 , Entscheidungsregel: (z − z0 ) n − 3 ≥ z1−α
(10.11)
(10.12)
√ H0 : ρ ≥ ρ0 gegen H1 : ρ < ρ0 , Entscheidungsregel: (z − z0 ) n − 3 ≤ zα
(10.13)
√ H0 : ρ = ρ0 gegen H1 : ρ = ρ0 , Entscheidungsregel: |z − z0 | n − 3 ≥ z1−α/2
(10.14)
Beispiel: In einer Untersuchung an 67 Schülern wurde zwischen Intelligenzquotient und Mathematiknoten eine Korrelation von 0.38 festgestellt. Aus einer früheren Totalerhebung ist bekannt, daß der Korrelationskoeffizient ρ0 der Grundgesamtheit den Wert 0.45 besitzt. Es ist zu überprüfen, ob der Korrelationskoeffizient der vorliegenden Stichprobe mit der Hypothese H0 : ρ = 0.45 in Einklang steht (α = 0.05). Die Gegenhypothese ist H1 : ρ = 0.45. Die Hilfsgrößen sind: √ 1 1.38 1 1.45 0.45 ln + = 0.4881, z = ln = 0.4, zG = |z − z0 | n − 3 = 0.0881 · 8 = 0.7048 2 0.55 132 2 0.62 Da z1−α/2 = 1.96, wird H0 beibehalten. z0 =
10.2
Klassisches Regressionsmodell
Bei zahlreichen ökonomischen Fragestellungen untersuchen wir die Abhängigkeit einer Variablen Y von Kontroll- oder Einflußvariablen X1 , X2 . . . Xp . Ein klassisches, aber irreführendes Beispiel aus der Makroökonomie ist der vermutete Zusammenhang zwischen Konsum Ci und Volkseinkommen Yi , der in einer vereinfachten Form durch die lineare Beziehung Ci = a + bYi + ei , i = 1, . . . n mit i als Index der Beobachtungsperiode dargestellt wird. Allgemein beschreiben wir einen derartigen Zusammenhang durch: yi = f (xi1 , xi2 , . . . xip ) + ei , i = 1, . . . , n
(10.15)
ei bezeichnet die Abweichung oder Fehler zwischem dem Funktionswert f (xi1 , . . . , xip ) und der Realisation yi der abhängigen Variablen Y , die als Zufallsvariable interpretiert wird. Die parametrische Form der Regressionsfunktion wird durch ökonomische Überlegungen a priori festgelegt. Die Parameter sind dann direkt mit Hilfe der ökonomischen Theorie interpretierbar. Die Regressionsfunktion entspricht einer ex-ante-Gleichung der volkswirtschaftlichen Theorie, während die Koeffizienten (Parameter) der Regressionsfunktion ex-post aus Daten geschätzt werden. Beispiele sind: • Einfache lineare Funktion (eindimensionale Regression): f (xi ) = b0 + b1 xi
(10.16)
• Allgemeine lineare Funktion (mehrdimensionale Regression): f (xi1 . . . xip ) = b0 + b1 xi1 + . . . bp xip
(10.17)
• Einfache Cobb-Douglas-Produktionsfunktion, wobei Ai das Arbeitsvolumen, Ki den Kapitaleinsatz und α die Substitutionselastizität bedeutet. Die Cobb–Douglas Funktion ist eine homogene Funktion erster Ordnung mit konstanten Substitutionselastizitäten. f (Ai , Ki ) = Aαi Ki1−α ,
0 ≤ α ≤ 1.
(10.18) 57
• Verallgemeinerte Cobb–Douglas Produktionsfunktion. Die einfache Cobb-Douglas-Produktionsfunktion wird einerseits durch die Einführung eines Koeffizienten γ für nicht durch Arbeit und Kapital erfaßte Faktoren (z.B. Rationalisierungsgrad der Volkswirtschaft), andererseits durch die Aufgabe der Annahme der Homogenität ersten Grades erweitert (α + β = 1 ist zulässig). β
f (Ai , Ki ) = γ · Aαi Ki
(10.19)
• Rückführung der verallgemeinerten Cobb–Douglas Funktion auf ein lineares Modell: ln f (Ai , Ki ) = ln γ + α ln Ai + β ln Ki
(10.20)
Am letzten Beispiel erkennt man, daß sich nichtlineare Funktionen zum Teil durch Transformationen in lineare Funktionen überführen lassen. Ist dies nicht möglich, lassen sich die Parameterschätzer von nichtlinearen Modellen häufig durch wiederholte Anwendung transformierter linearer Regressionen berechnen. Dies erfordert Existenz und Stetigkeit der beiden ersten Ableitungen der nichtlinearen Regressionsfunktion bezüglich aller Parameter. 10.2.1 Einfache lineare Funktion Im Unterschied zur einfachen Korrelation, die lediglich die Stärke des linearen Zusammenhangs zwischen zwei Variablen X und Y untersucht, geht es bei der einfachen Regression um die quantitative, kausale Bestimmung des linearen Zusammenhangs. Dazu wird eine Regressionsfunktion der folgenden Form aufgestellt: y i = b0 + b 1 x i + e i
(10.21)
Die Variable Y wird durch eine Linearkombination der Variablen X beschrieben. Diese Regressionsgerade wird so bestimmt, daß die Summe der Abweichungsquadrate (Q) minimal ist.
b
Y q4
⊗
yˆi = b0 + b1 xi
⊗
b q2
q3 ⊗
b
⊗
bq1 = beobachtete Y -Werte (xi , yi ) ⊗ = geschätzte Yˆ -Werte (xi , yˆi ) X
Unter Abweichung ist die Differenz zwischen den tatsächlichen Werten für Y (yi ) und den aufgrund der Geradenbildung erwarteten Werten (yˆi ) zu verstehen. Es gilt: Q=
n
(yi − yˆi )2
(10.22)
i=1
58
Die Lage der Regressionsgeraden und damit Q wird durch die Regressionkoeffizienten b0 und b1 eindeutig bestimmt. Die Summe der Abweichungsquadrate ist somit eine Funktion der Koeffizienten b0 und b1 . Q(b0 , b1 ) =
n
(yi − yˆi )2
i=1
=
n
(yi − (b0 + b1 xi ))2
i=1
=
n
(yi − b0 − b1 xi )2
i=1
Zur Minimierung der Funktion Q(b0 , b1 ) ist es erforderlich, nach b0 und b1 abzuleiten. Es gilt: n ∂Q(b0 , b1 ) = 2(yi − b0 − b1 xi )(−1) ∂b0 i=1
=2 ∂Q(b0 , b1 ) = ∂b1
n
(−yi + b0 + b1 xi )
i=1 n
2(yi − b0 − b1 xi )(−xi )
i=1 n
=2
(−xi yi + b0 xi + b1 xi2 )
i=1
Die Ableitungen müssen nun gleich Null gesetzt werden und nach den Regressionskoeffizienten b0 und b1 aufgelöst werden. 0= n i=1 n
1 n
i=1 n i=1
yi =
n
(−yi + b0 + b1 xi )
i=1 n
b0 + b 1
i=1
n
xi
Erste Normalgleichung
i=1
yi = nb0 + b1 yi = b 0 + b 1
1 n
n
xi
i=1 n
y¯ = b0 + b1 x¯
(10.23)
xi
i=1
b0 = y¯ − b1 x¯
0= n
n i=1
xi yi = b 0
i=1
n i=1 n i=1
(−xi yi + b0 xi + b1 xi2 )
n
xi + b 1
i=1
xi yi = (y¯ − b1 x) ¯ xi yi = y¯
b0 n
n
nx¯
59
xi2
i=1
xi + b 1
i=1
xi −b1 x¯
i=1
n
Zweite Normalgleichung n
xi2
i=1 n i=1
xi +b1
nx¯
n i=1
xi2
(10.24)
n
xi yi = yn ¯ x¯ − b1 nx¯ 2 + b1
i=1 n
xi yi − nx¯ y¯ = b1
i=1
" n 1 n
i=1
= b1
σxy
i=1
xi2 − nx¯ 2
b1 =
" n 1 n
xi2
#
i=1
#
xi yi − nx¯ y¯
" n
n
i=1
# xi2 − nx¯ 2 σx2
σxy σx2
(10.25)
Da die Varianz σx2 und die Kovarianz σxy durch sx2 und sxy geschätzt werden müssen, erhält man als Schätzer für die Regressionkoeffizienten demnach: bˆ0 = y¯ − bˆ1 x¯
und
sxy bˆ1 = 2 . sx
(10.26)
10.2.2 Allgemeine lineare Funktion (mehrdimensionale Regression) Werden zur Beschreibung von Y mehrere Variablen X1 · · · Xp eingesetzt, hat die Regressionsfunktion folgende Form: yi = b0 + b1 xi1 + . . . bp xip + ei
(10.27)
StatistischeAufgabe ist die Schätzung von b0 , b1 , . . . bp und derVarianz σ 2 des Fehlers ei , die Überprüfung auf signifikanteAbweichungen von vorgegebenen Hypothesen über diese Parameter sowie die Beurteilung der Güte der Schätzung. Als Schätzverfahren verwenden wir den Kleinste-Quadrate-Schätzer und das Maximum-Likelihood-Schätzprinzip. Zur Vereinfachung der Notation stellen wir das Modell für i = 1, . . . , n in Matrixform dar: y = Xb + e
(10.28)
wobei y und e (n × 1)-Vektoren, b ein ((p + 1) × 1)-Vektor und X eine (n × (p + 1))-Matrix ist. Im einzelnen gilt: y T = (y1 , . . . , yn )
(10.29)
eT = (e1 , . . . , en )
(10.30)
bT = (b0 , b1 , . . . , bp ) 1 x11 . . . 1 x21 . . . X= . .. . . .. . .
(10.31) x1p x2p .. .
(10.32)
1 xn1 . . . xnp
Die Matrix X wird als Datenmatrix der unabhängigen oder exogenen Variablen bezeichnet. Zum Lösen der statistischen Aufgaben treffen wir zunächst folgende Annahmen (Klassisches Regressionsmodell): 1. X ist exogen und X ist nicht stochastisch. 2. Rang(X) = p + 1 für alle n ∈ N mit n ≥ p + 1, d.h. X hat vollen Spaltenrang. 3. Q := lim
n→∞
1 T X X existiert und ist regulär. n
4. E(e) = 0 60
5. V(e) = E(eeT ) = σ 2 In mit σ 2 > 0, wobei In die (n × n) Einheitsmatrix ist. 6. e ∼ N (0, σ 2 In ) Die explizite Verteilungsannahme 6 ist nur in Verbindung mit dem ML-Prinzip bzw. mit der Konstruktion exakter Tests und Konfidenzintervalle notwendig, während Annahme 3 die Grundlage für die Konsistenz der Schätzverfahren liefert. Zur Ableitung des Kleinsten-Quadrate-Schätzers genügt die Annahme 2. Der Kleinste-Quadrate-Schätzer der Parameter b ist erwartungstreu, wenn Annahme 4. zusätzlich erfüllt ist. Wir leiten zunächst den KQ-Schätzer ab. Um alle vorhin angeführten Aufgaben lösen zu können, werden alle Annahmen 1. bis 5. angenommen. Grundlage der KQ-Schätzung ist die Minimierung der Funktion: M(b) =
n
(yi − (b0 + b1 xi1 + . . . bp xip ))2 −→ min
b∈Rp+1
i=1
(10.33)
In Matrixschreibweise gilt: M(b) = (y − Xb)T (y − Xb) = eTe −→ min
(10.34)
b∈Rp+1
Notwendige Bedingung für ein Minimum von M(b) an der Stelle bˆ ist, daß der Vektor der ersten partiellen Ableitungen nach b gleich 0 ist: ∂M(b) =0 (10.35) ∂b b=bˆ Die einzelnen ersten Ableitungen von M(b) nach bj werden 0 gesetzt: n ∂M(b) = 2 (yi − (bˆ0 + bˆ1 xi1 . . . + bˆp xip )(−xij )) = 0 ∂bj b=bˆ i=1
(10.36)
Umformungen liefern die p + 1 Normalgleichungen NGj , j = 0, . . . , p: n
yi xij = bˆ0
i=1
n i=1
xij + bˆ1
n
xij xi1 . . . + bˆp
n
i=1
xij xip
(10.37)
i=1
In kompakter Matrixschreibweise lautet diese Gleichung: X Ty = (XTX)bˆ
(10.38)
Aus Annahme 2. folgt die Invertierbarkeit von X TX und somit: bˆ = (XTX)−1 X Ty
(10.39)
bˆ heißt Kleinster-Quadrate-Schätzer für b. Aus bˆ lassen sich folgende Größen berechnen: yˆ = Xbˆ eˆ = y − yˆ
(lineare Prädiktoren = geschätzte Werte) (Residuen = geschätzte Fehler)
(10.40) (10.41)
2 Als erwartungstreuer Varianzschätzer sKQ für σ 2 wird in Verbindung mit dem KQ-Schätzer der Ausdruck: 2 sKQ =
n 1 1 · eˆ Teˆ eˆi2 = n − (p + 1) i=1 n − (p + 1)
(10.42)
berechnet. Beispiel zur Regression: Abhängigkeit der Importmengen von Bruttsozialprodukt und Preisentwicklung in England. yi = Mengenindex der Importe nach England zu konstanten Preisen des Jahres 1948. xi1 = Bruttonationalprodukt zu konstanten Preisen von 1948. xi2 = Quotient des Preisindexes für Importe und des allgemeinen Preisindexes: yi = b0 + b1 xi1 + b2 xi2 + ei .
61
Jahr
yi
xi1
xi2
yˆi
eˆi
1948 1949 1950 1951 1952 1953 1954 1955 1956
100 106 107 120 110 116 123 133 137
100 104 106 111 111 115 120 124 126
100 99 110 126 113 103 102 103 98
98.47 103.81 107.79 116.44 114.96 119.28 125.98 131.55 133.71
1.53 2.19 -0.79 3.56 -4.96 -3.28 -2.98 1.45 3.29
Gesucht sind bˆ0 , bˆ1 und bˆ2 sowie ein Schätzwert für die Varianz des Fehlers. Die Matrix der exogenen Variablen ist nun gegeben durch: 1 100 100 1 104 99 1 106 110 1 111 126 (10.43) X= 1 111 113 1 115 103 1 120 102 1 124 103 1 126 98 Die inverse Matrix, die zur Auflösung der Normalgleichungen benötigt wird, ist dann: 44.79609 −0.20823 −0.19957 0.00159 0.00027 (X TX)−1 = −0.20823 −0.19957 0.00027 0.00159 Der Vektor der Schätzer bˆ = (X TX)−1 X Ty ist: bˆ0 −49.341 bˆ1 = 1.364 0.114 bˆ2
(10.44)
(10.45)
Die prognostizierten Werte für yi sind nun: yˆi = −49.329 + 1.364xi1 + 0.114xi2
(10.46)
Die Eigenschaften des KQ-Schätzers lassen sich bei Gültigkeit der obigen Annahmen (vgl. Seite 60) durch folgenden Satz zusammenfassen: ˆ 1. Erwartungstreue von b: ˆ =b E(b)
(10.47)
2 : 2. Erwartungstreue von sKQ 2 ) = σ2 E(sKQ
(10.48)
ˆ 3. Varianz-Kovarianzmatrix von b: ˆ = E(bˆ − b)(bˆ − b)T = σ 2 (X TX)−1 = σ 2 (cj k )j,k=0,...,p V (b) Dabei ist cj k das j, k-te Element von C = (X TX)−1 . 62
(10.49)
ˆ 4. Konsistenz von b: Für alle A > 0 gilt: lim P (|bˆj − bj | ≤ A) = 1 n→∞
(10.50)
2 : 5. Konsistenz von sKQ 2 Für alle A > 0 gilt: lim P (|sKQ − σ 2 | ≤ A) = 1 n→∞
(10.51)
6. Asymptotische Normalverteilung: (bˆj − bj ) 2 sKQ cjj
ist asymptotisch N (0, 1) verteilt.
(10.52)
7. Theorem von Gauß-Markov: Innerhalb der Klasse der erwartungstreuen und in Y linearen Schätzer ist der KQS effizient, d.h. er besitzt unter den Schätzern, die sich in der Form b˜ = Ly + d darstellen lassen, die kleinstmögliche Varianz: var(bˆj ) ≤ var(b˜j )
für alle b˜j mit E(b˜j ) = bj
(10.53)
Exemplarisch beweisen wir die Punkte 1, 3 und 4. Beweis zu 1: Da X nicht stochastisch ist, gilt: ) * ˆ = E (X TX)−1 X Ty E(b) * ) = E (X TX)−1 X T(Xb + e) * ) = E (X TX)−1 (X TX)b + (X TX)−1 X Te = b + (X TX)−1 X TE(e) =b
(10.54)
Beweis zu 3: E(bˆ − b)(bˆ − b)T = E(X TX)−1 X TeeT X(X TX)−1 = (X TX)−1 X TE(eeT )X(X TX)−1 = (X TX)−1 X Tσ 2 In X(X TX)−1
(10.55)
= σ 2 (X TX)−1 Beweis zu 4: E(bˆj − bj )2 = σ 2 cjj
(10.56)
Die Ungleichung von Tschebyscheff liefert: σ 2 cjj P (|bˆj − bj | > A) ≤ A2
(10.57)
1 Wegen Annahme 3 (vgl. Seite 60) ist lim ( X TX)−1 endlich. Daraus folgt: n→∞ n −1 σ2 1 T ˆ lim V (b) = lim (X X) = 0 · n→∞ n→∞ n n →0
(10.58)
<∞
Dies impliziert die obige Behauptung. Zur Bestimmung der Güte der Regression, d.h. wie gut die beobachteten Werte von y durch das Modell angepaßt werden, benötigt man ein auf [0, 1] normiertes Maß. Geeignet hierfür ist der quadrierte 63
Korrelationskoeffizient Ry2yˆ zwischen den beobachteten Werten yi und den aus der Regression geschätzten 2 Werten yˆi = xiT bˆ . Es kann gezeigt werden, daß Ry2yˆ = Ry·x (wenn xi0 = 1) identisch ist mit der 1 ...xp normierten Quadratsumme SSR/SST , die wir aus der folgenden Streuungszerlegung mit der Notation: SST =
n
(yi − y) ¯ 2
(Gesamtquadratsumme, sum of squares total),
(10.59)
(yi − yˆi )2
(Fehlerquadratsumme, sum of squares of error),
(10.60)
(yˆi − y) ¯ 2
(erklärte Quadratsumme, sum of squares of regression),
(10.61)
i=1
SSE =
n i=1
SSR =
n i=1
erhalten. Es gilt also: n
(yi − y) ¯ 2=
i=1
n
(yi − yˆi )2 +
i=1
n
(yˆi − y) ¯ 2 und damit SST = SSE + SSR
(10.62)
i=1
Die Berechnung von R 2 kann daher alternativ durch: R2 =
SSR SSE eˆ Teˆ =1− =1− SST SST SST
(10.63)
erfolgen. Der Beweis der Streuungszerlegung erfolgt in zwei Schritten. Zunächst zeigt man, daß eˆ TX = 0 ist, d.h. Residuen und Regressoren sind orthogonal. ˆ TX = y TX − y TX(X TX)−1 X TX = 0 eˆ TX = (y − Xb)
(10.64)
Aus eˆ TX = 0 und xi0 = 1 folgt die Behauptung: n
eˆi = 0
(10.65)
i=1
Im zweiten Schritt wird die Gesamtquadratsumme erweitert und das Ergebnis des ersten Schritts verwendet: n
(yi − y) ¯ = 2
n
((yi − yˆi ) + (yˆi − y)) ¯ 2
i=1
i=1
=
n
(yi − yˆi )2 +
i=1
n
(yˆi − y) ¯ 2+2
i=1
n
(yi − yˆi )(yˆi − y) ¯
i=1
Zu zeigen ist, daß der letzte Summand gleich 0 ist. n
(yi − yˆi )(yˆi − y) ¯ =
i=1
n
n
eˆi (yˆi − y) ¯ =
i=1
eˆi yˆi − y¯
i=1
n
eˆi
Wiederum ist zu zeigen, daß der erste Summand gleich 0 ist. " n # p p p n n eˆi yˆi = eˆi xij bj = bj eˆi xij = bj eˆ TXj = 0 i=1
i=1
j =0
j =0
i=1
(10.66)
i=1
(10.67)
j =0
Zur Konstruktion von Konfidenzintervallen und Tests benötigen wir (bei kleinen Stichproben) die Annahme der Normalverteilung der Fehler (Annahme 6.). Aus dieser Annahme folgt: • bˆj ∼ N (bj , σ 2 cjj ),
j = 0, . . . p
2 • Wird σ 2 durch sKQ ersetzt, gilt (bˆj − bj )/
2 sKQ · cjj ∼ t1− α2 ;n−(p+1)
64
Daher erhalten wir für den ersten Fall (σ 2 bekannt) das zweiseitige Konfidenzintervall: 2 2 ˆ ˆ P bj − z1− α σ · cjj ≤ bj ≤ bj + z1− α σ · cjj = 1 − α
(10.68)
2 Für den zweiten Fall (σ 2 durch sKQ geschätzt) lautet das Konfidenzintervall: 2 2 ˆ ˆ α α P bj − t1− 2 ;n−(p+1) sKQ · cjj ≤ bj ≤ bj + t1− 2 ;n−(p+1) sKQ · cjj = 1 − α
(10.69)
2
2
Die Konstruktion von einseitigen Konfidenzintervallen und allgemeinen Teststatistiken erfolgt in gleicher Weise wie beim Mittelwert x. ¯ Exemplarisch konstruieren wir einen einseitigen Signifikanztest für einen einzelnen Koeffizienten bj : H0 : bj ≤ bj 0 gegen H1 : bj > bj 0 . H0 wird zum Testniveau α abgelehnt, wenn für die Teststatistik t G gilt: bˆj − bj 0 > t1−α; n−(p+1) tG = 2 sKQ · cjj
(10.70)
H0 : bj ≥ bj 0 gegen H1 : bj < bj 0 . H0 wird zum Testniveau α abgelehnt, wenn für die Teststatistik t G gilt: bˆj − bj 0 < −t1−α; n−(p+1) tG = 2 sKQ · cjj
(10.71)
H0 : bj = bj 0 gegen H1 : bj = bj 0 . H0 wird zum Testniveau α abgelehnt, wenn für die Teststatistik t G gilt: |bˆj − bj 0 | > t1− α2 ; n−(p+1) tG = 2 sKQ · cjj
(10.72)
Da ein mehrdimensionales Modell vorliegt, ist es von Interesse, Hypothesen über Submodelle, definiert durch Teilmengen von {b0 . . . bp } zu testen. Ohne Beschränkung der Allgemeinheit seien bk+1 , . . . bp die zu testenden Parameter mit H0 : bk+1 = bk+2 = . . . = bp = 0 gegen H1 : bi = 0 mindestens für ein i ∈ {k + 1, . . . p}. Zur Berechnung der Teststatistik benutzen wir als Hilfsgrößen die Größen b, X, e, SST , SSE des ursprünglichen Modells, das b0 , . . . bp enthält. Die Größen b(1) , X (1) , e(1) , SSR (1) , SSE (1) sind analog den obigen Bezeichnungen definiert, aber sie enthalten nur die unabhängigen Variablen x0 , x1 , . . . xk . Der Superindex (1) bezeichnet das entsprechende Submodell mit Parametern b0 , . . . bk . Unter Gültigkeit von H0 sind folgende Größen χ 2 verteilt (Beweis in der mathematischen Statistik): SSE 2 ∼ χn−(p+1) (10.73) σ2 SSE (1) 2 ∼ χn−(k+1) (10.74) σ2 (SSE (1) − SSE) 2 ∼ χp−k (10.75) σ2 Es läßt sich zeigen, daß der erste und der dritte Term stochastisch unabhängig sind, so daß aus der Theorie der mathematischen Statistik folgt, daß die Teststatistik: FG =
(SSE (1) − SSE)/(p − k) ∼ F (p − k, n − (p + 1)) SSE/(n − (p + 1))
(10.76)
unter H0 einer F -Verteilung mit (p − k, n − (p + 1)) Freiheitsgraden folgt. Daraus läßt sich folgender zweiseitiger Test für H0 : bk+1 = . . . = bp = 0 konstruieren. H0 wird abgelehnt zum Niveau α, wenn F G > F (1 − α; p − k, n − (p + 1)). Die F -Werte sind den Tafelwerten der F -Verteilung zu entnehmen. Ein wichtiger Spezialfall ist der Test auf Signifikanz aller Regressoren x1 , . . . , xp . Einsetzen in die obige Formel mit Ry2yˆ als multiplem Bestimmtheitsmaß liefert die Teststatistik: FG =
R 2 (n − (p + 1)) ∼ F (p, n − (p + 1)) (1 − R 2 )p 65
,
(10.77)
die unter der H0 : b1 = b2 = . . . bp = 0 Hypothese F verteilt ist. Beispiel: Für die Daten des letzten Beispiels lassen sich jetzt sofort Konfidenzintervalle für die Regressionskoeffizienten bj berechnen. Als Sicherheitswahrscheinlichkeit wird 1 − α = 0.95 angenommen. √ b¯1 = bˆ1 + t1− α ;n−(p+1) · sKQ · c11 2 √ √ = 1.364 + 2.447 · 12.93 · 0.001586 (10.78) = 1.7146 √ b1 = bˆ1 − t1− α ;n−(p+1) · sKQ · c11 2 √ √ = 1.364 − 2.447 · 12.93 · 0.001586
(10.79)
= 1.0138 √ b¯2 = bˆ2 + t1− α ;n−(p+1) · sKQ · c22 2 √ √ = 0.114 + 2.447 · 12.93 · 0.001591
(10.80)
= 0.4648 √ b2 = bˆ2 − t1− α ;n−(p+1) · sKQ · c22 2 √ √ = 0.114 − 2.447 · 12.93 · 0.001591
(10.81)
= −0.2370 Die Annahme 6. (Normalverteilung) ist für die Konstruktion von Konfidenzintervallen und statistischen Tests nicht erforderlich, wenn eine große Stichprobe vorliegt. Der t-Test wird dann durch den z-Test ersetzt. Beispiel: Test auf Gleichheit von Regressionskoeffizienten. Die Nullhypothese lautet H0 : bj = bk gegen H1 : bj = bk . Als Teststatistik verwendet man die standardisierte Differenz: bˆj − bˆk DG = sD2
(10.82)
Die Statistik sD2 ist ein konsistenter Schätzer der Varianz σD2 der Differenz bˆj − bˆk : 2 (cjj + ckk − 2cj k ) sD2 = V (bˆj ) + V (bˆk ) − 2Cov(bˆj , bˆk ) = sKQ
(10.83)
Cov(bˆj , bˆk ) ist die geschätzte Kovarianz der Schätzer bˆj und bˆk . Die Hypothese H0 wird zum Testniveau α verworfen, wenn die Teststatistik |D G | ≥ z1− α2 ist. Bei Vorliegen einer kleinen Stichprobe (n − (p + 1) < 30) und unbekannter Fehlervarianz σ 2 wird die Hypothese H0 zum Testniveau α verworfen, wenn die Teststatistik |D G | ≥ t1− α2 ;n−(p+1) ist.
10.3
Einfache Zeitreihenanalyse
In einigen Untersuchungen sind nicht nur die Daten, sondern auch deren zeitliche Abfolge wichtig. Dies ist zum Beipiel notwendig, um Prozesse zu analysieren, und/oder um zukünftige Entwicklungen zu prognostizieren. Beispielsweise sind Regierungen daran interessiert, die Bevölkerungsentwicklung abzuschätzen, oder Banken sind daran interessiert, Aktienkurse zu prognostizieren. Ein weiteres Beispiel ist die Absatzprognose eines Händlers, um den Lagerbestand rechtzeitig aufstocken zu können. Ein Datensatz heißt Zeitreihe, wenn er Informationen über die Zeit, in der die Daten angefallen sind enthält. Es kann sich dabei sowohl um Zeitpunkte, als auch um Zeitperioden (z.B. Monat, Jahr) handeln. Diese Information kann auf unterschiedliche Art kodiert sein: • Explizite Zeitinformation: Die Zeitpunkte, bzw. Zeitperioden sind im Datensatz enthalten. Beispiel: Abverkaufszahlen eines Unternehmens für ein bestimmtes Produkt. 66
i
1
2
3
···
Monat Abverkauf (in Stück)
10/1996 17
09/1996 25
11/1996 20
··· ···
• Implizite Zeitinformation: Die Daten liegen in chronologischer Reihenfolge mit gleichen zeitlichen Abständen vor. Die Position i innerhalb des Datensatzes reicht dann als Zeitinformation aus. Beispiel: Die Abverkaufszahlen aus dem ersten Beispiel lassen sich auch in dieser Form darstellen, da alle zeitlichen Abstände gleich groß sind und keine Lücken enthalten: i
1
2
3
···
Abverkauf (in Stück)
25
17
20
···
Zur Zeitreihenanalyse verwendet man oft Regressionsmodelle der Form: yt = g(t, yt−1 , yt−2 , . . . , ϑ) + et
(10.84)
wobei t die Zeit, yt−1 den um eine Zeiteinheit verzögerten Wert und ϑ den zu schätzenden Parametervektor bezeichnet. Sehr oft kommen auch andere Verfahren zum Einsatz (z.B.: Exponentielle Glättung, Verfahren der bayesianischen Statistik, etc.), deren Darstellung jedoch den Rahmen dieses Skriptums sprengen würden. Hier wird die Zeitreihenanalyse exemplarisch mit Hilfe der Trendanalyse eingeführt. Andere Verfahren wie gleitende Mittelwerte oder autoregressive Prozesse werden hier nicht behandelt. 10.3.1 Linearer Trend Man betrachte eine Zeitreihe y1 , y2 , . . . , yT . Das einfachste trendanalytische Modell ist: y t = b0 + b 1 · t + e t ,
t = 1, . . . , T
(10.85)
Wie unschwer zu erkennen ist, ist dieses Model äquivalent zu einem klassischen Regressionsmodell, bei dem die erklärende Variable die Zeit t ist, daher erfolgt die Berechnung analog. Dieses Modell ist interessant, weil es die Möglichkeit bietet, zusätzliche Regressoren einzuführen. Weiß man zum Beispiel, daß durch die Urlaubszeit im August die Abverkaufszahlen deutlich niedriger sind als in den übrigen Monaten, könnte man eine Dummyvariable AUG einführen, die dann den Wert 1 annimmt, wenn der aktuelle Zeitpunkt der August ist, und ansonsten 0 ist. Damit kann die Anpassungsgüte des Modells verbessert werden. Solche Effekte, die wie in diesem Beispiel periodisch wiederkehren, nennt man saisonale Effekte. Die Regressionsfunktion wird Trendfunktion genannt und ist für das einfache Modell gegeben durch: yˆt = bˆ0 + bˆ1 · t
(10.86)
Die Prognose für den Zeitpunkt T + k erhält man durch Einsetzen der Zeit: yˆT +k = bˆ0 + bˆ1 · (T + k)
(10.87)
10.3.2 Nichtlinearer Trend In den meisten Fällen reicht die Verwendung eines linearen Modells nicht aus, da die meisten dynamischen Prozesse nichtlinear sind. Beispielsweise werden Analysen von ungebremsten Wachstumsprozessen in biologischen Populationen meist mit Hilfe exponentieller Modelle durchgeführt. Im Folgenden werden exemplarisch einige nichtlineare Trendmodelle vorgestellt. • Exponentialfunktion: yt = exp(b0 + b1 · t + et ),
t = 1, . . . , T ,
t >0
(10.88)
Diese Gleichung kann durch Logarithmieren in die lineare Form ln y = b0 + b1 · t transformiert werden, wodurch die Berechnung der Parameter vereinfacht wird. 67
• Zeitinverse Exponentialfunktion: yt = exp(b0 −
b1 + et ), t
t = 1, . . . , T ,
b > 0,
t >0
(10.89)
Die Trendfunktion hat einen S-förmigen Verlauf, und kann ebenfalls durch eine Logarithmierung in eine lineare Funktion überführt werden. • Logistische Funktion: yt =
s , 1 + exp(b0 − b1 · t + et )
t = 1, . . . , T ,
b > 0,
s > 0,
(10.90)
wobei s als Sättigungsniveau bezeichnet wird und ebenfalls geschätzt werden muß. Die Trendfunktion ist ebenfalls S-förmig, läßt sich jedoch nicht in eine lineare Form transformieren. Daher erfolgt die Schätzung mit Hilfe numerischer Verfahren der nichtlinearen Regression.
10.4 Verallgemeinerungen des klassischen Regressionsmodells Eine zentrale Annahme im klassischen Regressionsmodell ist die Annahme 5.: E(eeT ) = σ 2 I . Diese Annahme impliziert, daß die Varianzen aller Fehlerkomponenten identisch (Homoskedastizität) und die Fehler verschiedener Stichprobenelemente unkorreliert sind. Diese Annahme ist in vielen Fällen nicht haltbar, wie folgende Beispiele zeigen: Beispiel zur Heteroskedastizität: Wir untersuchen den Zusammenhang zwischen Einkommen Yi und Konsum Ci durch Befragung von Personen i = 1, . . . , T in einer Querschnittsuntersuchung. Der vermutete Zusammenhang ist gegeben durch die Regressionsgleichung: C i = b0 + b 1 Y i + e i
(10.91)
Bei dieser Gleichung ist zu beachten, daß aus Gründen der ökonomischen Tradition die abhängige Variable mit Ci und die unabhängige Variable mit Yi bezeichnet wird. Werden b0 und b1 durch die Methode der kleinsten Quadrate geschätzt, unterstellt man gleiche Varianzen E(ei2 ) = σ 2 für i = 1, . . . N. Die ökonomische Theorie vermutet jedoch, daß bei größeren Einkommen nicht nur der Konsum, sondern auch die Fehlervarianzen stärker ausgeprägt sind. Ein mögliches Modell ist gegeben durch E(ei2 ) = σ 2 Yi2 und E(ei ei ) = 0 für i = i . Trotz dieser neuen Spezifikation der Varianz des Fehlers ist der KQ-Schätzer für b zwar noch erwartungstreu und konsistent, die Aussagen des Satzes: Eigenschaften des KQ-Schätzers auf Seite 62, bezüglich Annahme 2, 3, 5, 6 und 7 gelten jedoch nicht mehr, wie durch Einsetzen von E(ei2 ) = σ 2 Yi2 in den Beweis des Satzes gezeigt werden kann. Einen Schätzer mit den gleichen Eigenschaften wie denen des KQ-Schätzers im homoskedastischen Fall erhält man durch folgende Transformationen: Ci 1 = b1 + b0 + eiG Yi Yi
mit
eiG = ei
1 Yi
(10.92)
Dieser Schätzer heißt Aitken-Schätzer. Dies entspricht einem Modell, in dem alle Variablen mit dem Faktor 1/Yi gewichtet werden. Nunmehr gilt: E(eiG2 ) = σ 2 für alle i. Daher erfüllt das transformierte Modell die Annahmen 1. bis 6. der klassischen Regression. Beispiel zur Autokorrelation: Wir untersuchen den gleichen Zusammenhang wie oben, aber an die Stelle von individuellen Querschnittsdaten treten aggregierte Jahresdaten der volkswirtschaftlichen Gesamtrechnung, so daß eine Längsschnittuntersuchung vorliegt. C t = b0 + b 1 Y t + e t ,
t = 1, . . . , T
(10.93)
Schätzt man mit KQS b0 und b1 sowie das Residuum eˆt = Ct − (bˆ0 + bˆ1 Yt ) und trägt das Residuum gegen die Zeitachse auf, erhält man häufig ein zyklisches Muster. Gründe für dieses Muster sind häufig: • Wichtige Variablen fehlen in der Regressionsgleichung (Fehlspezifikation).
68
• Die Fehler sind über die Zeit korreliert, d.h. E(et et+1 ) = 0. Im vorliegenden Beispiel spricht man von positiver Autokorrelation. Wir treffen folgende Annahme: et = ρet−1 + vt
(vt sind independent identically distributed (iid) )
(10.94)
In diesem Fall folgt et einem autoregressiven Prozeß erster Ordnung (AR(1)). Der Fehler vt erfüllt die Annahmen des klassischen Regressionsmodells. Im Fall der Autokorrelation wird angenommen, daß ρ entweder bereits bekannt ist oder durch ρˆ geschätzt wird. Der Schätzer ρˆ ist definiert durch: T
ρˆ =
eˆt eˆt−1 t=2 T eˆt2 t=1
(10.95)
Ist ρ bekannt oder durch ρˆ geschätzt, führt die nachfolgende Transformation der Bildung der ersten Differenzen wiederum zu Homoskedastizität und Unkorreliertheit des neuen Fehlers vt . Ct − Ct−1 = b0 + b1 Yt + et − ρb0 − ρb1 Yt−1 − ρet = (1 − ρ)b0 + b1 (Yt − ρYt−1 ) + et − ρet−1 = (1 − ρ)b0 + b1 (Yt − ρYt−1 ) + vt Die letzte Gleichung ist äquivalent einer Regressionsgleichung in den ersten Differenzen mit den Annahmen des klassischen Regressionsmodells. Das Vorliegen von Autokorrelation wird mit Hilfe der Durbin-Watson-Statistik getestet. Sowohl für Heteroskedastizität als auch für korrelierte Fehler werden in der Ökonometrie erheblich komplexere Modelle behandelt.
10.5 Varianz- und Kovarianzanalyse Eine spezielle Form der Regressionsanalyse tritt auf, wenn die Regressoren nur die Werte 0 oder 1 annehmen. Dies ist insbesondere dann der Fall, wenn die unabhängige Variable nominal skaliert ist. Die Umsetzung einer nominal skalierten Variablen in Dummy-Variable (d.h. 0, 1 Variable) wird an folgenden Beispielen deutlich. Beispiel: Sei A eine qualitative Variable mit Ausprägungen {A1 , A2 , . . . , AL }. Die Ausprägung der qualitativen Variablen wird durch L Dummy-Variable repräsentiert. Die l-te Dummy-Variable nimmt genau dann den Wert 1 an, wenn die l-te Ausprägung Al eintritt. Alle anderen Dummy-Variablen werden auf 0 gesetzt. Formal lautet das Regressionsmodell mit einer qualitativen unabhängigen Variablen dann: yi = b0 + b1 xi1 + b2 xi2 +, . . . , +bl xil + . . . , +bL xiL + ei
(10.96)
mit den Regressoren xil = 1, wenn i die Ausprägung Al hat, und xil = 0 sonst. Beispiel zur einfachen Varianzanalyse: Zur Verbesserung des Maisertrags wurden drei verschiedene Sorten Mais gezüchtet. Diese Sorten A, B, C wurden auf 5 bzw. 7 bzw. 4 gleich großen Feldern angebaut, wobei sich folgende Erträge ergaben (in 100 kg): Sorte A
Sorte B
Sorte C
13.3 11.8 10.7 9.1 12.0
8.3 10.3 9.1 10.2 8.8 12.5 11.9
11.2 10.9 13.4 12.7
69
Der Ertrag ist abhängig von der Maissorte. Dann nimmt xil jeweils den Wert 1 an, wenn der Ertrag yi von der Sorte l stammt, sonst ist xil = 0. Damit ist die Matrix der Regressoren (Designmatrix) X mit n = 16 und L = p = 3 gegeben durch: 13.3 1 1 0 0 11.8 1 1 0 0 10.7 1 1 0 0 9.1 1 1 0 0 12.0 1 1 0 0 8.3 1 0 1 0 10.3 1 0 1 0 9.1 1 0 1 0 (10.97) X= Y = 10.2 1 0 1 0 8.8 1 0 1 0 12.5 1 0 1 0 11.9 1 0 1 0 11.2 1 0 0 1 10.9 1 0 0 1 13.4 1 0 0 1 12.7 1 0 0 1 Unmittelbar einsichtig ist die Tatsache, daß die Matrix keinen vollen Spaltenrang besitzt, da xi1 = xi2 + xi3 + xi4 . Daher ist die Matrix (X TX) nicht invertierbar. Um in X vollen Spaltenrang zu erreichen, führen wir lineare Restriktionen ein, die auch als Reparametrisierungsbedingungen bezeichnet werden. Lineare Restriktionen können auf vielfältige Weise eingeführt werden. Wir beschränken uns hier auf die einfachste Restriktion, indem wir eine linear abhängige Spalte streichen und damit den dieser Spalte entsprechenden Parameter implizit auf 0 setzen. In unserem Beispiel führen wir dies für die erste Ausprägung, nämlich Sorte A, ein und streichen die zweite Spalte von X. Die neue Matrix der Regression X hat damit die Ordnung (n × 3) und ist von vollem Spaltenrang. Der Parameter b1 wird implizit auf 0 gesetzt, die Parameter b2 und b3 sind als Mittelwertsdifferenzen zur ersten Gruppe interpretierbar. Der Mittelwert der ersten Gruppe wird durch b0 geschätzt. yˆ ✻
Sorte B
✻
Sorte C
b1 ✻ b2 ❄❄ ✻
Sorte A
b0 ❄
✲
x
In den Anwendungen treten jedoch in der Regel sowohl nominal als auch metrisch skalierte Variable auf. Berücksichtigt man die oben angeführten Restriktion für nominale Variable, so läßt sich die gesamte Regressormatrix einfach durch Anfügen der Datenvektoren für die metrischen Variablen erzeugen. Im gemischten Fall spricht man von Kovarianzanalyse. Die Berechnungen erfolgen in genau gleicher Weise wie im klassischen Regressionsmodell. Beispiel zur Kovarianzanalyse: Wir untersuchen die Abhängigkeit der Größe von Schiffsbesatzungen Y der englischen Handelsmarine um 1870 von der Antriebsart mit den Kategorien P1 = unbekannt, P2 = Segel, P3 = Dampf und der Tonnage T eines Schiffes. Die Daten sind in Rohform: 70
P 1 1 1 2 3 3 3 3 3 2 3 3 3
T 44 144 150 236 739 970 2371 309 679 26 1272 3246 1904
Y 3 6 5 8 16 15 23 5 13 4 19 33 19
P 3 3 3 1 1 2 3 2 3 3 3 3
T 357 1080 1027 45 62 68 2507 138 502 1501 2750 192
Y 10 16 22 2 3 2 22 2 18 21 24 9
Entsprechend diesen Variablen wählen wir als Regressionsmodell: yi = b0 + b1 xi1 + b2 xi2 + b3 xi3 + b4 xi4 + ei
(10.98)
mit den Dummyvariablen xi1 = 1 für P = 1, xi2 = 1 für P = 2 und xi3 = 1 für P = 3 sowie der metrischen Variablen xi4 für Tonnage. Damit ist die Datenmatrix X gegeben durch: xi0
xi1
xi2
xi3
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0
0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0
0 0 0 0 1 1 1 1 1 0 1 1 1 1 1 1 0 0 0 1 0 1 1 1 1
xi4 44 144 150 236 739 970 2371 309 679 26 1272 3246 1904 357 1080 1027 45 62 68 2507 138 502 1501 2750 192
Um vollen Spaltenrang zu erreichen, führen wir als lineare Restriktion b1 = 0 ein und streichen somit die zweite Spalte der Datenmatrix und berechnen aus der reduzierten Matrix den KQ-Schätzer: bˆ T = (3.242, 0.024, 6.178, 0.0063)
(10.99)
2 Die Berechnung von sKQ , R 2 , Konfidenzintervallen und Tests bleibt als Übungsaufgabe dem Leser überlassen.
71
yˆ ✻
✭✭✭✭
✭✭ ✭✭✭ ✭✭✭
Dampf
✭✭✭ ✭✭✭
✭✭ ✭✭✭ ✭✭✭
✻
✭✭✭ Segel ✭✭✭ ✭ ✭ ✭ b2 ✭ ✭✭✭ unbekannt ✭✭✭ ✭✭✭ ✭✭✭ ✭ ✭ ✭ ✭ ✭ ✭✭ ✭✭ ✭✭✭ ✭✭✭ ✭✭✭ ✭✭✭ ✭ ✭ ✭ b✻ ✭✭✭ ❄1 ❄✭✭✭ ✻
b0
❄
✲
x4
72
11 Abhängigkeit zwischen qualitativen und ordinalen Merkmalen 11.1 Assoziationsmaße für qualitative Merkmale Liegen zwei oder mehr nominal skalierte Merkmale vor, wird zunächst - ähnlich der Korrelation - die Stärke des Zusammenhangs zwischen den Merkmalen analysiert. Ausgangspunkt der Analyse ist in der Regel eine zwei- oder höherdimensionale Kontingenztabelle. Wir beschränken uns auf zweidimensionale Kontingenztabellen mit empirischen Häufigkeiten hij , i = 1, . . . r, j = 1, . . . s. Um analoge Begriffe zur Korrelation bilden zu können, führen wir zunächst den Begriff vollständiger Abhängigkeit ein, der bei Kontingenztabellen jedoch nur für quadratische Tabellen definiert werden kann. Definition: Zwei Merkmale A, B mit jeweils r Merkmalsausprägungen heißen vollständig abhängig, wenn bei geeigneter Anordnung der Merkmalsausprägungen nur die Diagonalzellen der Verteilungstabelle besetzt sind, d.h. hij = 0
für i = j,
i, j = 1, 2, . . . , r
(11.1)
Im folgenden werden die Bezeichnungen hi• = hij ; h•j = hij ; n = hij j
i
i
(11.2)
j
verwendet. Beispiel: Wir betrachten zwei Merkmale A und B mit jeweils r = 2 Ausprägungen. Die linke Tabelle zeigt vollständige Abhängigkeit, die rechte zeigt Unabhängigkeit. B B A
0.70 0.00
0.00 0.30
0.70 0.30
0.70
0.30
1.00
A
0.49 0.21
0.21 0.09
0.70 0.30
0.70
0.30
1.00
Zur Analyse der allgemeinen Kontingenztabelle benützen wir folgende Bezeichnungen: hij heij =
hi• · h•j n
beobachtete Häufigkeit bei Unabhängigkeit erwartete Häufigkeit
Lij = hij − heij
Abweichungen
Die Abweichungen Lij sind die Grundlage der Messung von Abhängigkeit. Die Summe der Differenzen ergeben zeilen- und spaltenweise die Summe 0: n hi• (11.3) Lij = hij − h•j = hi• − hi• = 0 n j n j j
Lij =
i
hij −
i
n h•j hi• = h•j − h•j = 0 n i n
(11.4)
Die Abweichungen geben an, wie sehr man die Elemente der Grundgesamtheit (oder Stichprobe) umverteilen muß, damit aus der bei Unabhängigkeit erwarteten Verteilung die beobachtete Verteilung entsteht. Definition: Das Assoziationsmaß ’Chi-Quadrat’ (auch ’quadratische Kontingenz’) ist gegeben durch: χ2 =
L2ij i
j
heij
=
(hij − heij )2 i
j
(11.5)
heij
Folgende Umformungen sind für die praktische Rechnung bequemer: h2ij h2ij χ2 = − 1 e −n = n h h h i• •j ij i j i j 73
(11.6)
Beweis der Umformung: 1 1 ) * e 2 2 e e2 e (hij − hij ) = e hij − 2hij hij + hij hij hij i j i j =
h2ij i
j
heij
−2
i
hij +
j
i
heij
h2ij
=
j
i
j
heij
−n
(11.7)
(11.8)
Das χ 2 -Maß hängt von n, also dem Umfang der Grundgesamtheit oder Stichprobe ab. Aus diesem Grunde eignet es sich nicht zum Vergleich des Abhängigkeitsgrades bei verschieden großen Grundgesamtheiten oder Stichproben. Man hat daher Koeffizienten vorgeschlagen, die 1. von n nicht abhängen, 2. bei statistischer Unabhängigkeit null werden und 3. bei vollständiger Abhängigkeit den Wert 1 annehmen. Wir betrachten zunächst Vierfelderkoeffizienten für Merkmale mit jeweils r = 2 Merkmalsausprägungen. B1 B2 A1 A2
a c
b d
a+b c+d
a+c
b+d
h••
Für diese Tabelle gelten somit die Bezeichnungen: h11 = a,
h12 = b,
n = a + b + c + d, he21 =
h21 = c, he11 =
(a + c)(c + d) , n
h22 = d
(a + c)(a + b) , n
he22 =
he12 =
(a + b)(b + d) , n
(c + d)(b + d) n
Einsetzen ergibt nach einiger Rechnung: χ2 =
(ad − bc)2 n (a + b)(a + c)(b + d)(c + d)
(11.9)
Damit erhält man den Kontingenz- oder Phi-Koeffizienten: + |ad − bc| χ2 φ= = n (a + b)(a + c)(b + d)(c + d)
(11.10)
Es gilt 0 ≤ φ ≤ 1, d.h. dieser Koeffizient ist normiert. Zusätzlich definieren wir den Assoziationskoeffizienten κ, der auch Yule’sches Assoziationsmaß heißt: κ=
ad − bc ad + bc
(11.11)
In unserem Beispiel erhält man für die linke Vierfeldertafel: (0.7)(0.3) φ= =1 (0.7)(0.7)(0.3)(0.3) κ=
(0.7)(0.3) − 0 =1 (0.7)(0.3) + 0
(11.12)
,
(11.13)
also beide Male vollständige Abhängigkeit. Nun behandeln wir Maße für den Zusammenhang in einer allgemeinen Kontingenztabelle. Zu diesem Zweck geben wir vier Maße an:
74
• Der allgemeine Kontingenzkoeffizient C: + C=
χ2 n
(11.14)
• Das Maß C hat den Nachteil, daß es größer als 1 werden kann. Der korrigierte Kontingenzkoeffizient Ccor ist hingegen immer kleiner als 1: + Ccor =
χ2 n + χ2
(11.15)
• Zwei andere Wege der Normierung werden in den nächsten beiden Koeffizienten eingeschlagen. Der erste Koeffizient ist das Kontingenzmaß von Tschuprow: +
T =
n
χ2
(11.16)
(s − 1)(r − 1)
• Der zweite Koeffizient ist das Kontingenzmaß von Cramér: + V =
χ2 n · min{(s − 1), (r − 1)}
(11.17)
Der Größe nach sind diese Koeffizienten in der Regel nach der Reihenfolge C ≥ V ≥ T geordnet. Diese Maße sind 0, wenn die beiden Merkmale unabhängig sind. V ist T überlegen, weil der Koeffizient auch dann den Wert 1 annehmen kann, wenn s und r ungleich sind. Faßt man in einer Kontingenztafel Spalten und/oder Zeilen zusammen, vergröbert man also die Gruppen, so kann der χ 2 -Wert nicht größer werden. Bei der Interpretation weisen Werte unter 0.2 auf schwache, Werte zwischen 0.2 und 0.5 auf mittelstarke und Werte, die größer als 0.5 sind, auf starke Zusammenhänge hin. Die Art des Zusammenhangs ist jedoch nur durch Betrachtung der bedingten Verteilungen zu erfassen. Beispiel: Zusammenhang zwischen Religionsbekenntnis von Bräutigam und Braut bei allen Ehen, die 1957 vor Wiener Standesämtern geschlossen wurden.
Evangelisch (E) Katholisch (K) Sonstige (S) ohne Bekenntnis (O)
K
S
O
344 693 27 108
728 9916 248 812
22 97 134 31
44 293 22 197
1138 10999 431 1148
1172
11704
284
556
13716
Zunächst wird χ 2 und dann T berechnet: 1972 3442 +, . . . , + − 1 = 3223.7 χ 2 = 13716 · 1172 · 1138 556 · 1148 + T =
E
3223.7 = 0.279 13716 · (4 − 1)(4 − 1)
(11.18)
(11.19)
Das Resultat deutet auf einen mittelstarken Zusammenhang zwischen den Religionsbekenntnissen der Brautleute hin.
75
11.2
Der χ 2 -Test auf statistische Unabhängigkeit
Wir haben bereits den χ 2 -Test auf Übereinstimmung einer empirischen Verteilung mit einer theoretischen Verteilung kennengelernt. Bei der Analyse von Kontingenztabellen zweier Merkmale A und B richtet sich das Interesse auf die Überprüfung der H0 : A und B sind voneinander statistisch unabhängig gegen H1 : A und B sind statistisch abhängig. Als Teststatistik verwendet man das Kontingenzmaß χ 2 , das hier mit χ 2G bezeichnet wird. Unter der Nullhypothese folgt die Teststatistik χ 2G einer χ 2 Verteilung mit (r − 1)(s − 1) Freiheitsgraden. Als Beispiel überprüfen wir die Nullhypothese: Das Religionsbekenntnis der Brautleute ist statistisch unabhängig an den Daten des letzten Beispiels mit einem Irrtumsniveau von α = 0.01. Der 2 kritische Wert ist χ9,0.99 = 21.7, die Teststatistik beträgt χ 2G = 3223.7. Die Nullhypothese wird daher zum vorgegebenen Testniveau verworfen. Genauso wie im Fall von metrischen Variablen können bei qualitativen Merkmalen Scheinzusammenhänge auftreten, die durch dritte Variable verursacht werden. Man untersucht daher anstelle von zweidimensionalen häufig drei- und höherdimensionale Kontingenztabellen. Beispiel: Wir betrachten wir den Zusammenhang zwischen Rauchen, Lungenkrebs und Vogelhaltung. Die beiden folgenden Tabellen zeigen die Häufigkeitsverteilung von Lungenkrebs und Vogelhaltung nach Rauchern und Nichtrauchern getrennt. Nichtraucher VogelLungenkrebs haltung ja nein
Vogelhaltung
ja
6
36
42
ja
nein
5
162
167
11
198
209
nein
Raucher Lungenkrebs ja nein
93
67
160
119
179
298
212
246
458
Für die Nichtraucher erhält man χ 2G = 8.58 und den korrigierten Kontingenzkoeffizient Ccor = 0.2. Für die Raucher erhält man χ 2G = 13.86 und den korrigierten Kontingenzkoeffizient Ccor = 0.17. Die beiden korrigierten Kontingenzkoeffizienten zeigen einen schwachen bis mittelstarken Zusammenhang zwischen Lungenkrebs und Vogelhaltung, wobei der Zusammenhang bei den Nichtrauchern etwas stärker ausgeprägt ist. Die Hypothese, daß kein Zusammenhang zwischen Lungenkrebs und Vogelhaltung besteht, muß bei Rauchern wie bei Nichtrauchern sogar bei der sehr kleinen Irrtumswahrscheinlichkeit α = 0.005 2G verworfen werden (χ1,0.995 = 7, 88). Weiter läßt sich aus den Tabellen ablesen, daß nur ca. 5% der untersuchten Nichtraucher, aber ca. 46% der Raucher an Lungenkrebs erkrankt sind. Bezieht man jedoch zusätzlich die Variable Vogelhaltung in dieAnalyse mit ein, so stellt man fest, daß ca. 14% der Nichtraucher und ca. 59% der Raucher, die einen Vogel halten, unter Lungenkrebs leiden. Betrachtet man ausschließlich die an Krebs erkrankten Personen, stellt man fest, daß sogar ca. 55% der an Krebs erkrankten Nichtraucher und ca. 44% der Raucher einen Vogel besitzen. Man muß somit von der Möglichkeit ausgehen, daß neben Rauchen auch Vogelhaltung das Krebsrisiko erhöht.
11.3 Assoziationsmaße und Tests für ordinale Merkmale Als Maß der Stärke des Zusammenhangs zwischen ordinal skalierten Variablen X und Y werden folgende angeführten Koeffizienten verwendet. 11.3.1 Der Rangkorrelationskoeffizient von Kendall Die Beobachtungen (xi , yi ), i = 1, . . . , n werden so angeordnet, daß die x-Werte nach wachsender Größe geordnet sind. Danach stellt man fest, wieviele Paare rechts von i eine y-Komponente aufweisen, die größer ist als yi ; die Anzahl solcher Paare sei mit Si bezeichnet. Dann heißt der Koeffizient: n 4 Si τ=
i=1
n(n − 1)
− 1,
−1 ≤ τ ≤ 1
(11.20) 76
Schätzer für den Rangkorrelationskoeffizienten τ einer Grundgesamtheit, der nach dem Statistiker Kendall als Kendall’s τ bezeichnet wird. Beispiel: Wir betrachten n = 5 Paare von Rangdaten, die nach x geordnet sind.
Wegen n = 5 und
n
i
1
2
3
4
5
x y
1 2
3 1
4 5
8 3
9 4
Si
3
3
0
1
0
Si = 7 erhalten wir:
i=1
τ=
4·7 − 1 = 0.4 5·4
(11.21)
Der Kendall’sche Rangkorrelationskoeffizient verteilt sich bei Unabhängigkeit der beiden Merkmale und Vorliegen von mindestens 10 Beobachtungspaaren annähernd normal mit Mittelwert 0 und Varianz σ2 =
2(2n + 5) 9n(n − 1)
(11.22)
Damit lassen sich Teststatistiken zur Überprüfung der H0 : τ = 0 gegen H1 : τ = 0 formulieren. 11.3.2 Der Rangkorrelationskoeffizient von Spearman Ein weiterer Rangkorrelationskoeffizient wurde von Spearman vorgeschlagen und wird mit ρs in der Grundpopulation bezeichnet. Zur Schätzung aus einer Stichprobe schreibt man die Meßdaten ihrer Größe nach auf und ordnet ihnen die natürlichen Zahlen als Rangnummern zu. x(1) < x(2) <, . . . , < x(n) , r(x) = 1, 2, . . . n; y(1) < y(2) <, . . . , < y(n) , r(y) = 1, 2, . . . , n(11.23) Dem i-ten Paar mit den Komponenten (xi , yi ) ist nun das Rangnummernpaar (r(xi ), r(yi )) zugeordnet. Wir bilden die Rangnummerndifferenz di = r(xi ) − r(yi ). Die Größe: n
1 · 6 rs = 1 − di2 , n(n2 − 1) i=1
−1 ≤ rs ≤ 1
(11.24)
heißt Spearman’scher Rangkorrelationskoeffizient der Stichprobe. Beispiel: Bestimmung von rs aus den Daten des letzten Beispiels.
Aus n = 5,
n
i
1
2
3
4
5
di di2
-1 1
1 1
-2 4
1 1
1 1
di2 = 8 berechnet man:
i
rs = 1 −
6·8 = 0.6 5 · 24
(11.25)
Der Spearman’sche Rangkorrelationskoeffizient rs ist, falls ρs = 0 gilt, in Stichproben von mindestens 20 Beobachtungspaaren so verteilt, daß die Transformation: √ u = rs n − 2 ∼ N (0, 1) (11.26) asymptotisch standardnormalverteilt ist. Daraus lassen sich wieder Teststatistiken zur Überprüfung der H0 : ρs = 0 gegen die H1 : ρs = 0 berechnen. 77
Kendalls τ wird vor allem dann verwendet, wenn Bindungen auftreten, wenn also eine Merkmalsausprägung in x oder y nicht nur einmal vorkommt. Da in diesem Fall keine natürliche Ordnung hergestellt werden kann, ist die Verwendung von rs problematisch. Um in solchen Fällen dennoch rs berechnen zu können, werden bei gleichen Werten mittlere Ränge vergeben. Die Vorgehensweise ist dem folgenden Beispiel zu entnehmen. Beispiel: Wir betrachten folgende Rangdaten. i
1
2
3
4
5
6
7
8
x y
1 2
3 1
4 5
8 3
9 4
3 4
7 4
6 6
x nimmt zweimal den Wert 3 an und bei y kommt der Wert 4 sogar dreimal vor. Mit Hilfe von mittleren Rängen, kann eine modifizierte Rangtabelle erzeugt werden, wobei die mittleren Ränge hier fett dargestellt werden: i
1
2
3
4
5
6
7
8
r(x) r(y)
1 2
2.5 1
4 7
7 3
8 5
2.5 5
6 5
5 8
78
12 Wirtschafts- und Sozialstatistik 12.1
Datenbasis
Wirtschaftswissenschaft als Erfahrungswissenschaft ist auf umfangreiche Informationen angewiesen, die sowohl von der amtlichen Statistik als auch von öffentlichen und privaten Instituten gesammelt und zur Verfügung gestellt werden (verfügbare Daten). Da verfügbare Daten zur Beantwortung spezifischer Fragen oft nicht ausreichen, müssen eigene Daten im Forschungsprozeß erhoben werden (nicht verfügbare Daten). Einen Überblick über die verfügbaren Daten und deren Produzenten geben Hujer und Cremer (1978), die auch die internationale Statistik sowie Sozialindikatoren behandeln. Die genauesten Daten der allgemeinen Statistik liefern die in ca. 10-Jahres-Abständen durchgeführten Volkszählungen, in denen an einem Stichtag alle Haushalte der Bundesrepublik Deutschland erhoben und befragt werden (Totalerhebung). Die wesentlichen Merkmale, die dabei erhoben werden, sind Geschlecht, Alter, Familienstand, Staatsangehörigkeit, Beteiligung am Erwerbsleben, ausgeübter Beruf, Stellung im Beruf und Wirtschaftszweig. Volkszählungen werden nur alle 10 Jahre duchgeführt, da sie hohe Kosten verursachen, die Datenaufbereitung sehr lange dauert und die Belastung für die gesamte Bevölkerung sehr groß ist. Da jedoch aktuelle Daten über die Entwicklung der Wirtschaft, der Verkehrssituation usw. benötigt werden, wird jährlich eine Stichprobe, der Mikrozensus, erhoben, bei der ein kleiner Teil der Bevölkerung (1%, 0.25% bzw. 0.1%) befragt wird. Die Ergebnisse werden nach den Regeln der schließenden Statistik auf die Bevölkerung hochgerechnet. Beim Mikrozensus werden neben dem Grundprogramm, also den Fragen aus der Volkszählung, zusätzliche Fragen über aktuelle Probleme (Zusatzprogramm) gestellt (z. B. zum Pendlerproblem). Die Statistik der Bevölkerungsbewegung und Familienstandsänderung wird von den Standesämtern (Geburt, Tod, Eheschließung) sowie den Gerichten (Scheidung) erstellt, während die Wanderung der Bevölkerung durch die Einwohnerämter (Meldescheine) erfaßt wird. Die Arbeitsmarktstatistik obliegt Arbeitsämtern und der Bundesanstalt für Arbeit. Gleichzeitig mit den Volkszählungen werden Arbeitsstätten-, Gebäude- und Wohnungszählungen durchgeführt. Daher müßte man exakt von einer Volks-, Berufs-, Einkommens-, Wohnungs-, Arbeitsstätten- und Gebäudezählung sprechen.
12.2
Bevölkerungsstatistik
12.2.1 Grundbegriffe In der Bevölkerungsstatistik werden drei Konzepte des Bevölkerungsbegriffs unterschieden: • Konzept der Staatsangehörigkeit. • Konzept der Nation. Hier handelt es sich um historische und ideologische Konzepte. • Konzept der Wohnbevölkerung (Inlandsbevölkerung). In der amtlichen Statistik wird nur von der Wohnbevölkerung ausgegangen, um für infrastrukturelle Maßnahmen wie Wohnungsbau, Straßenbau, Krankenhäuser, Schulen usw. Plandaten zur Verfügung zu stellen. Die (Wohn-) Bevölkerung umfaßt alle natürliche Personen, die sich überwiegend in der Bundesrepublik Deutschland aufhalten und damit durch die Meldebehörden erfaßt sind. Permanent im Ausland lebende deutsche Staatsbürger gehören nicht zur Wohnbevölkerung. Nicht zur Bevölkerung gehören die Angehörigen der ausländischen Stationierungskräfte sowie der ausländischen diplomatischen und konsularischen Vertretungen mit ihren Familienangehörigen. Die wichtigste ökonomische Einheit ist der Haushalt. Als Haushalt gilt jede Personengemeinschaft, die zusammen wohnt und eine gemeinsame Hauswirtschaft führt (natürlich auch einzelne Personen, die alleine wohnen und wirtschaften). Dabei wird zwischen Privathaushalten und Anstaltshaushalten (z.B. Heime, Gemeinschaftsunterkünfte, Gefängnisse etc.) unterschieden. In der Bevölkerungsstatistik verwendet man Kennzahlen zur Charakterisierung der Bevölkerungsentwicklung, die als Raten und Ziffern (= Rate · 1000) bezeichnet werden. Alle Kennzahlen beziehen sich auf die Wohnbevölkerung. Wichtige Raten sind:
79
1. Rohe Geburtenrate: rj =
bj Lj
bj ist die Anzahl der Geburten im Jahr j , d. h. zwischen den Stichtagen des Jahres j und des Jahres j + 1. Lj ist der Durchschnittsbestand der Wohnbevölkerung im Jahr j . 2. Altersspezifische Sterberate: maj =
daj Laj
daj ist die Anzahl der Sterbefälle von Personen im Jahre j , die das Alter von a Jahren erreichten. Laj ist der durchschnittliche Bestand von a-jährigen im Jahr j . 3. Rohe Fruchtbarkeitsrate (Rohe Fertilitätsrate): fj =
bj Fj
Fj ist die durchschnittliche Anzahl der Frauen im gebärfähigen Alter im Jahre j . Das gebärfähige Alter ist statistisch durch die Untergrenze 15 und durch die Obergrenze 45 Jahre festgelegt. 4. Altersspezifische Fruchtbarkeitsrate: faj =
baj Faj
baj ist die Anzahl der Geburten im Erhebungszeitraum (j, j + 1), deren Mütter bei der Geburt a Jahre alt sind. Faj ist die durchschnittliche Anzahl der Frauen, die im Erhebungszeitraum das Alter von a Jahren erreicht haben. 5. Altersspezifische Rate von Mädchengeburten: fajw =
w baj
Faj
Mit diesen Raten läßt sich allerdings noch nicht feststellen, ob eine Bevölkerung langfristig wächst, stabil bleibt oder schrumpft. Zur Analyse der langfristigen Bevölkerungsentwicklung werden folgende Kennzahlen abgeleitet. Die rohe Fruchtbarkeitsrate fj läßt sich zerlegen in: baj baj Faj bj a = = · = faj πaj (12.1) fj = Fj Fj F F aj j a a faj ist die altersspezifische Fruchtbarkeitsrate. πaj ist der Anteil von Frauen im Alter a. Diese Zerlegung bildet die Grundlage der Definition der totalen Fruchtbarkeitsrate, die auch als Fertilitätsrate (TFR) bezeichnet wird: faj (12.2) TFRj = a
Bei der Berechnung der totalen Fertilitätsrate wird angenommen, daß sich die altersspezifischen Fruchtbarkeitsraten im Laufe der Zeit nicht ändern (unechte Längsschnittanalyse). Berücksichtigt man nur die Mädchengeburten, erhält man den Bruttoreproduktionsindex (BRI): BRIj =
a
1 fajw ≈ TFRj 2
(12.3)
80
Bei der Berechnung von TFR und BRI wird angenommen, daß eine Generation von Frauen in den 31 Jahren der Gebärfähigkeit zur Gänze erhalten bleibt. Diese Annahme ist unrealistisch. Daher wird w die Überlebensrate von gebärfähigen Frauen jeder Altersstufe (paj , a = 15, 16, . . . , 45), die aus den Sterbetafeln der amtlichen Statistik entnommen werden kann, berücksichtigt. Analog zu den konstanten altersspezifischen Fruchtbarkeitsraten werden konstante altersspezifische Mortalitätsraten angenommen. Die Korrektur des BRI durch Überlebensraten führt zur Definition des Nettoreproduktionsindex: w NRIj = fajw paj (12.4) a
Der NRI wird üblicherweise wie folgt interpretiert: Ist der NRI = 1, bleibt die Bevölkerung stabil. (In Wirklichkeit sinkt sie langsam, da der NRI die Sterberate der neugeborenen Mädchen nicht berücksichtigt.) Ist der NRI > 1, so wächst die Bevölkerung, andernfalls schrumpft sie. Die Richtigkeit dieser Interpretation hängt von dem Ausmaß ab, in dem die getroffenen Annahmen approximativ erfüllt sind. 12.2.2 Die Bevölkerungspyramide Die Geburtenzahl hängt neben dem Zeugungsverhalten auch von der Altersstruktur einer Bevölkerung ab. Dieser Effekt wird anhand einiger Bevölkerungspyramiden für Deutschland illustriert. Bei einer Bevölkerungspyramide ist auf der senkrechten Achse das Alter abgetragen: Unten stehen die Personen im ersten Lebensjahr; nach oben geht es bis zum Alter 100. Die Länge eines Balkens nach rechts entspricht der relativen Stärke der entsprechenden Frauenaltersgruppe in Promille, die Länge eines Balkens nach links der relativen Stärke der entsprechenden Männeraltersgruppe. Insgesamt kumuliert sich die Fläche zu 1000 Promille auf. Nach oben hin wird die Bevölkerungspyramide durch die Sterblichkeit allmählich dezimiert. Bei wachsenden Bevölkerungen ist die ’Pyramide’ pyramidenartig oder pfeilförmig. Bei Bevölkerungen mit konstant bleibendem Umfang ist die ’Pyramide’ glockenförmig, bei schrumpfenden urnenförmig. Die folgende Abbildung (vgl. Birg, Koch (1987), S. 160) repräsentiert die Altersstruktur der Bevölkerung im Deutschen Reich und in der Bundesrepublik Deutschland (ohne die neuen Länder) von 1910 bis 2030 (bis 1983 real, anschließend geschätzt).
Diese Abbildung enthält links den Altersaufbau der deutschen Bevölkerung von 1910, der durch ein starkes Wachstum und keine wesentlichen Störungen gekennzeichnet ist. Bei der danebenstehenden Bevölkerungspyramide von 1925 sind deutlich drei Effekte erkennbar: • Die gering besetzte Altersgruppe der 7 bis 10-jährigen Jungen und Mädchen. Dieser Effekt geht auf die Geburtenausfälle während des ersten Weltkriegs zurück. 81
• In der Altersgruppe der 25 bis 50-jährigen gibt es deutlich weniger Männer als Frauen. Dieser Effekt ist auf die Gefallenen des ersten Weltkriegs zurückzuführen. • In der Altersgruppe der über 70-jährigen gibt es weitaus mehr Frauen als Männer. Dieser Effekt geht auf die in etwa um 7 Jahre höhere Lebenserwartung der Frauen zurück. Im Altersaufbau von 1939 sind diese Effekte um 14 Jahre nach oben gewandert. Am Sockel der Pyramide sind zusätzlich die nach dem ersten Weltkrieg einsetzenden starken Geburtenrückgänge zu erkennen, die ihren Tiefpunkt während der Weltwirtschaftskrise erreichten. Die beiden folgenden Alterspyramiden zeigen den Aufbau der bundesdeutschen Bevölkerung 1961 mit einer starken Verbreiterung der Basis sowie den Geburtenrückgang ab 1968, der sich in der schrumpfenden Basis des Jahres 1983 ausdrückt. Die letzten beiden Pyramiden sind Prognosen für die bundesdeutsche Bevölkerung der Jahre 2000 und 2030 (ohne die Bevölkerung der Länder Mecklenburg-Vorpommern, Brandenburg, Sachsen–Anhalt, Sachsen, Thüringen und Berlin). Hier wird sowohl das Schrumpfen der Bevölkerung als auch die zunehmende Überalterung deutlich. Die fruchtbarste Phase der Frauen liegt zwischen dem zwanzigsten und dem dreißigsten Lebensjahr. Offensichtlich geht auch bei konstantem generativen Verhalten die Geburtenzahl zurück, wenn eine ’Beule’ in der Bevölkerungspyramide auftritt, d.h. wenn eine Altersgruppe von Frauen schwächer besetzt ist. Ein Teil der hohen Geburtenzahlen zu Beginn der sechziger Jahre ist durch die starke Besetzung der Frauenjahrgänge zu erklären, die am 31.12.1988 zwischen 45 und 55 Jahre alt waren. Andererseits ist ein Teil des Geburtenrückganges ab Mitte der sechziger Jahre darauf zurückzuführen, daß zu dieser Zeit die durch den zweiten Weltkrieg dezimierte Altersgruppe die fruchtbarste Phase durchwanderte. 12.2.3 Der Geburtenrückgang in der Bundesrepublik Deutschland Die Wohnbevölkerung in der BRD ist seit 1950 von 50,3 Mio. bis 1973 auf 62,1 Mio. gewachsen. Seitdem fällt sie, wenn auch sehr langsam. Bei der deutschen Bevölkerung setzt der Rückgang bereits 1971 ein. Er wird bis 1973 nur durch einen größeren Zuzug von Ausländern und deren höhere Geburtenzahl überdeckt. Der Geburtenrückgang setzt bereits viel früher ein, wie aus folgender Graphik (vgl. Birg, Koch (1987), S. 84) ersichtlich ist.
Die außerordentlich niedrige Fertilitätsrate TFR von 1916 bis 1919 ist auf den starken Geburtenausfall während des ersten Weltkriegs zurückzuführen. Die relativ hohe Fertilitätsrate TFR von 1955 bis 1968 ist sowohl auf die hohe Geburtenzahl zwischen 1934 und 1942 (Echoeffekt) als auch auf die relativ hohe 82
altersspezifische Fruchtbarkeitsrate dieser Frauengeneration zurückzuführen. Die rohe Geburtenziffer beträgt 18.3 Lebendgeborene pro 1000 Einwohner im Jahr 1963 und 9.6 im Jahr 1977. Von besonderem Interesse ist die Entwicklung der altersspezifischen Geburtenraten, die seit 1964 in allen Altersgruppen eine stark fallende Tendenz aufweisen, wobei in den letzten Jahren auch eine Verschiebung zu höherem Alter der Mütter festzustellen ist. Die totale Fertilitätsrate TFR ist von 2.54 im Jahr 1964 auf 1.45 im Jahr 1975 abgesunken. Zur langfristigen Bestandserhaltung der Bevölkerung ist unter Berücksichtigung der Sterblichkeit ein Wert der TFR von 2.2 erforderlich. Einen Vergleich mit anderen Ländern zeigt folgende Aufstellung: Totale Fertilitätsrate einiger ausgewählter Industrieländer Jahr
BRD
DDR
Öster– reich
Frank– reich
USA
UdSSR
1950 1955 1960 1965 1970 1975 1980 1985
2.10 2.14 2.37 2.50 2.01 1.45 1.45 1.31
2.35 2.38 2.35 2.48 2.19 1.54 1.94 1.80
— 2.22 2.59 2.68 2.32 1.84 1.68 1.51
2.93 2.68 2.73 2.84 2.47 1.93 1.96 1.80
3.09 3.58 3.65 2.91 2.48 1.77 1.82 1.80
— — 2.82 2.46 2.39 2.41 2.28
Als Indikatoren und Faktoren für den Geburtenrückgang lassen sich folgende Fakten angeben: • Reduktion der Familiengröße: Ehepaare (in Prozent) geordnet nach Anzahl der Kinder Jahr ohne Kinder mit 1 Kind mit 2 Kindern mit 3 Kindern mit 4 und mehr Kindern
1966
1972
1975
1982
1990
1998
1999
15 18 31 20 16
22 28 35 11 4
24 31 33 10 2
39 27 23 8 3
43 27 22 6 2
48 23 21 6 2
48 23 20 5 2
• Siedlungsweise: In den Großstädten liegt die Geburtenziffer traditionell niedriger als in kleinen Gemeinden. Hier findet allerdings zur Zeit eine Angleichung statt. • Allgemeine Säkularisierung: Schon 1970 wiesen diejenigen Ehen die höchste Kinderzahl auf, in denen beide Partner katholisch waren (2.132 Kinder), während für Ehen, in denen beide Partner keiner Konfession angehörten, ein Durchschnittswert von 1.593 Kindern festgestellt wurde. • Wandel der Berufsstruktur: Selbständige Landwirte wiesen 1970 im Durchschnitt 2.671 Kinder aus erster Ehe auf, während die Angestellten im Durchschnitt 1.622 Kinder hatten. 12.2.4 Auswirkungen des Geburtenrückgangs Unter der Annahme konstanter Fruchtbarkeitsraten läßt sich die Entwicklung der Bevölkerung aufgrund der bekannten Überlebenswahrscheinlichkeiten schätzen. Ergebnisse dieser Schätzungen wurden in einer der vorhergehenden Abbildungen gezeigt. Die voraussichtliche Zusammensetzung der Bevölkerung läßt sich auf spezielle Gruppen aufgliedern, die von besonderem gesellschaftspolitischen Interesse sind. Die Nachfrage nach den Dienstleistungen des Schul- und Ausbildungssystems wird wesentlich von der Anzahl der Jugendlichen in bestimmten Altersgruppen bestimmt. Insgesamt ist langfristig mit einer Abnahme des Bildungsbedarfs zu rechnen. Trotzdem kann es in den nächsten Jahren noch zu schweren Belastungen des Bildungssystems durch den Zustrom von Aus- und Übersiedlern mit einer hohen Anzahl schulpflichtiger und bildungswilliger Kinder kommen, wenn nicht die Ausbildungskapazitäten verstärkt werden. 83
Insbesondere im universitären Bereich zeichnet sich aufgrund der steigenden Anzahl von Abiturienten sowie des steigenden Anteils von Studierwilligen unter den Abiturienten keine Entlastung innerhalb des nächsten Jahrzehnts ab. Von zentraler Bedeutung für das Angebot an Arbeitskräften ist das Erwerbspotential der Bevölkerung, das parallel zum Sinken der Gesamtbevölkerung im Prognosezeitraum bis 2030 von ca. 30 Millionen im Jahr 1990 auf 20 Millionen im Jahr 2030 fällt. Insgesamt wird dem Zusammenhang zwischen demographischer Struktur und Arbeitsangebot in der gesamten Diskussion um Arbeitslosigkeit und Beschäftigung viel zu wenig Beachtung geschenkt. Die derzeitige seit Jahren anhaltende hohe Arbeitslosigkeit von ca. 2 Millionen Personen ist zu einem hohen Ausmaß auf das Anwachsen des Bevölkerungsanteils der 20 bis 60-jährigen von 30.9 Millionen im Jahre 1970 auf 34.5 Millionen im Jahre 1985 zurückzuführen. Diese Erhöhung des Erwerbspotentials konnte auch durch die zusätzliche Bereitstellung von Millionen von Arbeitsplätzen im letzten Jahrzehnt nicht vollständig aufgefangen werden. Zum Abschluß gehen wir auf einen wichtigen Faktor der ökonomischen Stabilität ein, nämlich auf das Verhältnis von ökonomisch abhängigen Personen (Jugendliche unter 20 und Personen über 60 Jahre) zu den Personen im erwerbsfähigen Alter (Erwerbsfähige). Die für diesen Vergleich wichtigen Kennzahlen sind: 1. Der Jugendquotient wird durch das Verhältnis zwischen der Zahl der Jugendlichen und der Zahl der Erwerbsfähigen definiert. 2. Der Altenquotient wird durch das Verhältnis zwischen der Zahl der Senioren und der Zahl der Erwerbsfähigen definiert. 3. Der Abhängigkeitsquotient wird durch das Verhältnis zwischen der Zahl der Jugendlichen und Senioren und der Zahl der Erwerbsfähigen definiert. Die nächste Abbildung (vgl. Birg, Koch (1987), S. 167) zeigt die Prognose der Entwicklung dieser drei Kennzahlen im Zeitraum 1983 bis 2030. Dem stagnierenden Jugendquotienten steht ein dramatisch anwachsender Altenquotient und damit ein steil ansteigender Abhängigkeitsquotient gegenüber. Die Konsequenzen für das System der sozialen Sicherung sind offensichtlich. Die Belastung der 20 bis 60-jährigen durch die Erfüllung des Generationenvertrages, auf dem das derzeitige System der sozialen Sicherung beruht, steigt erheblich oder die Zuwendungen an die über 60-jährigen sinken erheblich. Natürlich sind alle Formen des Kompromisses zwischen diesen beiden Extremen denkbar.
84
12.3
Erwerbsstatistik
In der Erwerbsstatistik unterscheidet man zwischen der Beteiligung am Erwerbsleben (Erwerbskonzept) und der Hauptquelle des Lebensunterhalts (Unterhaltskonzept). Erwerbspersonen sind alle Personen mit Wohnsitz im Bundesgebiet (Inländerkonzept), die eine unmittelbar oder mittelbar auf Erwerb gerichtete Tätigkeit ausüben oder suchen, unabhängig von der Bedeutung des Ertrags für ihren Lebensunterhalt und ohne Rücksicht auf die von ihnen tatsächlich geleistete oder vertragsmäßig zu leistende Arbeitszeit. Erwerbstätige sind Personen, die in einem Arbeitsverhältnis stehen (einschließlich Soldaten und mithelfender Familienangehöriger) oder selbständig ein Gewerbe oder eine Landwirtschaft betreiben oder einen freien Beruf ausüben. Erwerbslose sind Personen ohne Arbeitsverhältnis, die sich um eine Arbeitsstelle bemühen, unabhängig davon, ob sie beim Arbeitsamt gemeldet sind. Nichterwerbspersonen sind alle Personen, die keinerlei auf Erwerb gerichtete Tätigkeit ausüben oder suchen. (Dazu gehören auch Studenten und Rentner.) Das Unterhaltskonzept gliedert nach Unterhalt vor allem aus Erwerbstätigkeit, Arbeitslosengeld, Rente u. dgl. (Vermögenserträge) sowie durch Angehörige. Arbeitslose sind Personen, die sich als Arbeitssuchende beim Arbeitsamt gemeldet haben. Offene Stellen sind zu besetzende Arbeitsplätze, die durch Arbeitgeber beim Arbeitsamt gemeldet sind. Die Arbeitslosenquote ist die Anzahl der Arbeitslosen dividiert durch die Anzahl der abhängigen Erwerbstätigen (ohne Soldaten). Es gibt mehrere Definitionen für die Arbeitslosenquote. Die Zahl, die variiert, ist die, durch die dividiert wird. Man kann die Arbeitslosenquote z. B. verringern, indem man nicht durch die Anzahl der abhängigen Erwerbstätigen sondern aller Erwerbstätigen dividiert. Da diese Quote ein starkes politisches Mittel ist, sollte man immer beachten, wie sie definiert ist. Dieses muß man auch beim Vergleich zwischen verschiedenen Ländern tun. Die folgenden Tabellen fassen einige Ergebnisse der Erwerbs– und Beschäftigtenstatistik zusammen. Wohnbevölkerung nach dem Erwerbskonzept in 1000 (Durchschnittswerte)
Wohnbevölkerung Erwerbspersonen Erwerbslose Erwerbstätige Inländer insgesamt davon Arbeitnehmer Selbständige
1992
1993
1994
1995
1996
1997
1998
1999
80595 40449 2564
81180 40431 3075
81422 40598 3319
81661 40531 3201
81896 40700 3490
82053 41019 3888
82029 41166 3687
82087 41307 3428
37885
37356
37279
37330
37210
37131
37479
37879
34243 3642
33667 3689
33491 3788
33498 3832
33371 3839
33217 3914
33500 3979
33939 3940
Quelle: Statistisches Bundesamt, Wirtschaft und Statistik 9/2000 (S. 659)
Die Verlagerung der Erwerbstätigkeit vom primären und sekundären Sektor in den tertiären Sektor läßt sich an folgender Tabelle ablesen. Erwerbstätige nach Wirtschaftsbereichen in 1000 (Durchschnittswerte) Gesamtdeutschland 1994 1995 1996 1997 1998 1999 Land- und Forstwirtschaft und Fischerei Produzierendes Gewerbe ohne Baugewerbe Baugewerbe Handel, Gastgewerbe und Verkehr Finanzierung, Vermietung und Unternehmensdienstleister Öffentliche und private Dienstleister Erwerbstätige insgesamt
1172 9229 3165 9313
1115 9001 3227 9309
1008 8745 3126 9326
991 8586 2999 9344
994 8598 2901 9450
975 8542 2826 9554
4248 10177 37304
4404 10326 37382
4566 10499 37270
4728 10546 37194
4979 10618 37540
5268 10777 37942
Quelle: Statistisches Bundesamt, Wirtschaft und Statistik 9/2000 (S. 663)
Von besonderem Interesse sind die Statistiken der Arbeitsämter. Die Entwicklung der Arbeitslosenzahlen in den letzten Jahren läßt sich aus der folgenden Tabelle ablesen.
85
Arbeitslose Gesamtdeutschland Jahresdurchschnitt
Bundesgebiet insgesamt
Arbeitslosenquote
Männer
Frauen
1996 1997 1998 1999 2000
3 965 064 4 384 456 4 279 288 4 099 209 3 888 652
11.5 12.7 12.3 11.7 10.7
2 111 546 2 342 383 2 272 655 2 159 776 2 052 846
1 853 518 2 042 073 2 006 633 1 939 433 1 835 806
Arbeitslose alte Bundesländer Jahresdurchschnitt
alte Bundesländer insgesamt
Arbeitslosenquote
Männer
Frauen
1996 1997 1998 1999 2000
2 796 243 3 020 900 2 904 339 2 755 527 2 529 374
10.1 11.0 10.5 9.9 8.7
1 616 501 1 740 717 1 640 797 1 535 525 1 398 119
1 179 742 1 280 183 1 263 543 1 220 002 1 131 256
Am Ende dieses Abschnitts geben wir einen Überblick über die Bruttojahresverdienste von Angestellten an. Durchschnittliche Bruttojahresverdienste der Angestellten in DM für 1999 Neue Bundesländer Alte Bundesländer
Produzierendes Gewerbe Verarbeitendes Gewerbe Ernährungsgewerbe und Tabakverarbeitung Hoch- und Tiefbau Energie- und Wasserversorgung
12.4
Männer
Frauen
Männer
Frauen
67 620 66 972 60 840 67 308 68 952
50 724 49 452 40 764 47 592 55 776
87 864 88 440 79 728 84 504 81 324
62 256 62 664 57 528 55 500 60 672
Indexrechnung
Indizes sind Kennzahlen zur Charakterisierung der zeitlichen Entwicklung quantitativer Größen. Typische Beispiele sind Preis- und Umsatzindizes. 12.4.1 Einfache Indizes Gegeben ist eine Zeitreihe von Größen. Die Größe wird mit G bezeichnet, während die Zeitreihe durch die Folge G0 , G1 , . . . Gt repräsentiert wird. Definition: Das Verhältnis: I0−t (G) =
Gt G0
(12.5)
heißt Meßzahl oder einfacher Index von G auf Basis 0. Dabei werden die Bezeichnungen Gt für absolute Werte, 0 für den Basiszeitpunkt (Zeitraum) und t für den Berichtszeitpunkt (Zeitraum) verwendet. Meßzahlen werden häufig in Prozenten angegeben: I0−t (G) =
Gt · 100 G0
(12.6)
Ein zentrales Problem ist die Umstellung von Indizes auf einen neuen Basiszeitraum. Dieser Vorgang wird als Umbasierung von Meßzahlreihen bezeichnet. Gegeben seien die absoluten Werte G0 , G1 , . . . Gt . . . Gt und die Indizes 1, I0−1 (G), . . . , I0−t (G), . . . , I0−t (G) auf Basis 0. Ein Index kann ohne Kenntnis der absoluten Werte auf die neue Basis t umgestellt werden: It −t (G) =
I0−t (G) I0−t (G)
(12.7) 86
Die letzte Formel folgt aus der Identität: It −t (G) =
Gt Gt /G0 I0−t (G) = = Gt Gt /G0 I0−t (G)
(12.8)
Daraus ergibt sich die Kettenformel: I0−t (G) = I0−t (G)It −t (G)
(12.9)
12.4.2 Preis- und Mengenindexzahlen Zur Zusammenfassung der Entwicklung mehrerer Größen G(i) , i = 1, . . . m werden zusammengesetzte (gewichtete) Indizes benutzt. Folgende Bezeichnungen werden verwendet: Symbol p q u=p·q 0 1 pt(i) qt(i)
Bezeichnung Preis Menge Wert (Umsatz, Ausgaben) Basiszeitpunkt Berichtszeitpunkt Preis pro Einheit der i-ten Ware zum Zeitpunkt t Menge der i-ten Ware zum Zeitpunkt t
Ein Preisindex aller betrachteten Waren in einem Warenkorb {qt(1) , qt(2) , . . . qt(m) } zum Zeitpunkt t läßt sich auf folgende Arten konstruieren. 1. Arithmetisches Mittel der Preismeßzahlen: m
I0−1 (p) =
1 p1(i) m i=1 p0(i)
Problem: Keine Berücksichtigung der Mengen. 2. Index des mit den Mengen gewichteten arithmetischen Mittels der Preise: m
I0−1 (p) =
p1(i) q1(i) /
i
m
m i
p0(i) q0(i) /
i
m i
m
q1(i) = q0(i)
i
m
m
p1(i) q1(i) · p0(i) q0(i)
i
q0(i)
i
m
q1(i)
i
Problem: unterschiedliche Mengen werden berücksichtigt (Änderung des Konsumverhaltens). 3. Mengen werden konstant gehalten: Werden die Mengen der Basisperiode konstant gehalten, erhält man den Preisindex von Laspeyres: m L (p) = I0−1
p1(i) q0(i)
i
m
p0(i) q0(i)
i
Werden die Mengen der Berichtsperiode konstant gehalten, erhält man den Preisindex von Paasche: m P (p) = I0−1
p1(i) q1(i)
i
m
p0(i) q1(i)
i
87
Ähnlich wie bei der Konstruktion eines Preisindex kann bei der Konstruktion eines Mengenindex verfahren werden. 1. Outputmeßzahl: m
I0−1 (q) =
q1(i)
i
m
q0(i)
i
2. Umsatzmeßzahl: m i I0−1 (p · q) =
q1(i) p1(i) q0(i) p0(i)
i
3. Mengenindex nach Laspeyres: m L (q) = I0−1
p0(i) q1(i)
i
m
p0(i) q0(i)
i
4. Mengenindex nach Paasche: m P (q) = I0−1
p1(i) q1(i)
i
m
p1(i) q0(i)
i
Durch die beiden letzten Indizes wird die Änderung von Warenkörben zu konstanten Preisen gemessen. Beispiel zur Indexrechnung: Im Zeitraum von 4 Jahren hat man folgende Preis- und Mengenentwicklung beim durchschnittlichen Verbrauch von 3 Gütern gefunden: Zeitpunkt Zigaretten (Stück) Limonade (Liter) Kaffee (kg)
t =0 p0(i) 476 0.12 21 1.1 0.6 12 q0(i)
t =1 p1(i) 553 0.11 25 1.25 0.8 13 q1(i)
t =2 p2(i) 598 0.13 30 1.2 1.2 14 q2(i)
t =3 p3(i) 709 0.16 29 1.2 1.3 15 q3(i)
Preisindizes von Laspeyres für Basiszeitpunkt 0 und Berichtszeiten 2 und 3: 476 · 0.13 + 21 · 1.2 + 0.6 · 14 L I0−2 = 1.092 (p) = 476 · 0.12 + 21 · 1.1 + 0.6 · 12 476 · 0.16 + 21 · 1.2 + 0.6 · 15 L = 1.262 (p) = I0−3 476 · 0.12 + 21 · 1.1 + 0.6 · 12 Preisindex und Mengenindex von Paasche für Basiszeit 0 und Berichtszeit 1: 553 · 0.11 + 25 · 1.25 + 0.8 · 13 P (p) = = 0.9905 I0−1 553 · 0.12 + 25 · 1.1 + 0.8 · 12 553 · 0.11 + 25 · 1.25 + 0.8 · 13 P (q) = = 1.1859 I0−1 476 · 0.11 + 21 · 1.25 + 0.6 · 13 Umsatzmeßzahl für Basiszeitpunkt 1 und Berichtszeit 2: 598 · 0.13 + 30 · 1.2 + 1.2 · 14 = 1.2738 I1−2 (p · q) = 553 · 0.11 + 25 · 1.25 + 0.8 · 13 88
(12.10) (12.11)
(12.12) (12.13)
(12.14)
12.4.3 Erweiterung des Indexschemas Bei der Berechnung des Preisindex nach Laspeyres wird von der Annahme ausgegangen, daß die Warenkörbe zum Basiszeitpunkt und zum Berichtszeitpunkt qualitativ und mengenmäßig gleich sind. Problematisch ist daher die Berücksichtigung von Waren, die erst nach dem Basiszeitpunkt auf dem Markt eingeführt werden (z. B. CD–Player). Sei 0 der Basiszeitpunkt mit Warenkorb {q0(1) , q0(2) , . . . , q0(m) }. Sei 1 der Zeitpunkt der Einführung einer neuen Ware und 2 sei der Berichtszeitpunkt. Da die Ware m + 1 zu 0 noch nicht existiert hat, ist sie (aber nur sie) im Warenkorb mit der zum Zeitpunkt 1 gültigen Menge repräsentiert. Somit gilt zum Zeitpunkt 1 der Warenkorb {q0(1) , q0(2) , . . . , q0(m) , q1(m+1) }. Man berechnet einen Index I0−1 mit dem alten Warenkorb: m
I0−1 =
p1(i) q0(i)
i
m
(12.15) p0(i) q0(i)
i
sowie einen Index I1−2 mit dem um die neue Ware erweiterten Korb: m
I1−2 =
p2(i) q0(i) + p2(m+1) q1(m+1)
i
m
(12.16) p1(i) q0(i)
+
p1(m+1) q1(m+1)
i
Der gesuchte Index wird durch Verkettung ermittelt: v = I0−1 · I1−2 I0−2
(12.17)
Durch dieses Verfahren wird erstens gewährleistet, daß die Preisentwicklung der ursprünglichen m Waren normal nach Laspeyres berechnet wird. Zweitens wird für die zum Zeitpunkt 1 eingeführte Ware ein fiktiver Preis p0(m+1) ermittelt, für den gilt: p1(m+1) p0(m+1)
= I0−1
(12.18)
Damit wird angenommen, daß die (hypothetische) Preisentwicklung des Gutes m + 1 mit der durchschnittlichen Preisentwicklung der Waren 1 bis m übereinstimmt. Beispiel zur Erweiterung: Im vorigen Beispiel wird zum Zeitpunkt t = 2 ein neues Gut mit q2(4) = 2.2 L und p2(4) = 2.13 bzw. p3(4) = 2.29 eingeführt. Man berechne I0−3 (p) unter Berücksichtigung des neuen Gutes. L L L I0−3 (p) = I0−2 (p) · I2−3 (p) L (p) = I2−3
mit
L I0−2 (p) = 1.092
476 · 0.16 + 21 · 1.2 + 0.6 · 15 + 2.2 · 2.29 = 1.152 476 · 0.13 + 21 · 1.2 + 0.6 · 14 + 2.2 · 2.13
L (p) = 1.092 · 1.152 = 1.258 I0−3
(12.19) (12.20) (12.21)
12.4.4 Ausgewählte Indizes der wirtschaftlichen Entwicklung Die Indexrechnung dient vor allem der übersichtlichen Darstellung der Entwicklung der gesamten Volkswirtschaft sowie einzelner Sektoren bzw. Branchen im Hinblick auf eine Reihe von Variablen, deren wichtigste in folgenden Teilbereichen zusammengefaßt werden (vgl. Abels (1993)): 1. Preisentwicklung: Preisindizes für die Lebenshaltung - Indizes der Erzeugnisse industrieller Produkte. 2. Nachfrageentwicklung: Umsatzindizes des Auftragseinganges - Indizes des Auftragsbestandes. 89
3. Produktionsentwicklung: Industrielle Produktion und Produktionswerte - Indizes der industriellen Nettoproduktion - Indizes der industriellen Bruttoproduktion. 4. Einkommensentwicklung: Indizes der Effektivverdienste - Indizes der Tarifverdienste. 5. Arbeitsproduktivität: Produktivitätsindizes. 6. Außenhandel: Außenhandelswerte - Außenhandelsvolumen - Außenhandelsindizes. Als Indikator der (Verbraucher)-Preisentwicklung werden Preisindizes sowohl für den durchschnittlichen Haushalt (2.7 Personen, 0.7 Kinder unter 18 Jahren) als auch typische Haushalte wie Haushalte von Einzelpersonen, Vierpersonenhaushalte (Eltern, zwei Kinder), etc. berechnet. Grundlage dieser Indizes sind einerseits die Ergebnisse der im Abstand von 3 bis 5 Jahren durchgeführten Einkommens- und Verbrauchsstichprobe, andererseits aber auch laufende Wirtschaftsberechnungen ausgewählter privater Haushalte. Preisindex (Laspeyres) für die Lebenshaltung aller privaten Hauptgruppen (Basis 1995)
Lebenshaltung insgesamt Nahrungsmittel und alkoholfreie Getränke Alkoholische Getränke, Tabakwaren Bekleidung und Schuhe Wohnung, Wasser, Strom, Gas und andere Brennstoffe Einrichtungsgegenstände u.ä.für den Haushalt sowie deren Instandhaltung Gesundheitspflege Verkehr Nachrichtenübermittlung Freizeit, Unterhaltung und Kultur Bildungswesen Beherbergungs- und Gaststättendienstleistungen Andere Waren und Dienstleistungen
Gewichtung
1995
1996
1997
1998
1999
2000
1000.00
100.0
101.4
103.3
104.3
104.9
106.9
131.26 41.67 68.76
100.0 100.0 100.0
100.6 100.8 100.7
102.0 102.7 101.1
103.0 104.7 101.5
101.7 106.0 101.8
101.2 107.5 102.0
274.77
100.0
102.4
105.1
106.0
107.4
110.9
70.56 34.39 138.82 22.66 103.57 6.51
100.0 100.0 100.0 100.0 100.0 100.0
100.7 101.5 102.4 100.9 100.4 103.7
101.1 108.7 104.3 97.9 102.5 107.8
101.8 114.4 104.7 97.3 103.1 112.9
102.1 110.6 107.6 88.2 103.4 117.5
102.1 111.0 113.6 84.5 104.5 119.3
46.08 60.95
100.0 100.0
101.1 100.5
102.1 102.3
103.6 102.8
104.9 104.5
106.2 106.8
90
Anhang Mengenlehre Eine Menge ist eine Zusammenfassung von Objekten. Eine Menge ist definiert, wenn von jedem beliebigen Objekt feststeht, ob es zur Menge gehört oder nicht. Die zur Menge gehörenden Objekte heißen Elemente dieser Menge. a ∈ A bedeutet, daß a ein Element der Menge A ist. a ∈ A heißt, daß a kein Element der Menge A ist. Die Menge, die kein Element enthält, heißt leere Menge und wird mit { } oder ∅ bezeichnet. A = {a1 , . . . , an } bedeutet, daß A aus den Elementen a1 , . . . , an besteht. Ist eine Menge A dadurch bestimmt, daß ihre Elemente die Eigenschaft E besitzen, so schreibt man A = {a|E(a)}. Zwei Mengen A und B heißen gleich (A = B), wenn sie die selben Elemente enthalten. A heißt Teilmenge von B, A ⊂ B, wenn jedes Element von A auch zu B gehört. A ist genau dann gleich B, wenn gilt: A ⊂ B und B ⊂ A. Die Vereinigung von A und B ist die Menge der Elemente, die zu A oder B gehören: A ∪ B = {a|a ∈ A oder a ∈ B} Der Durchschnitt von A und B ist die Menge der Elemente, die sowohl zu A als auch zu B gehören. A ∩ B = {a|a ∈ A und a ∈ B} Die Vereinigung der Mengen An , n ∈ N, ist die Menge der Elemente, die mindestens zu einer An gehören. ∪n∈N An = {a|a ∈ An für mindestens ein n ∈ N} Der Durchschnitt der Mengen An , n ∈ N, ist die Menge der Elemente, die zu allen An gehören. ∩n∈N An = {a|a ∈ An für alle n ∈ N} A und B heißen disjunkt, wenn gilt:A ∩ B = ∅ Für beliebige Teilmengen A ⊂ * ist A¯ = {a|a ∈ A und a ∈ *} das Komplement von A. A1 , . . . , An bilden eine Zerlegung der Menge *, wenn gilt: 1. Ai ∩ Aj = ∅ für i = j 1 ≤ i, j ≤ n 2. A1 ∪ . . . ∪ An = *. Einige Rechenregeln für Mengen: A∪B=B ∪A (A ∪ B) ∪ C = A ∪ (B ∪ C) A∩B=B ∩A (A ∩ B) ∩ C = A ∩ (B ∩ C) A ∪ ∅= A A ∩ ∅= ∅ (A ∪ B)c = Ac ∩ B c ⇐⇒ A ∪ B = A ∩ B (A ∩ B)c = Ac ∪ B c ⇐⇒ A ∩ B = A ∪ B Produkte von Mengen: n nicht notwendig verschiedene Elemente a1 , . . . , an in einer bestimmten Reihenfolge bilden ein n-Tupel (a1 , . . . , an ). (a1 , a2 ) heißt ein Paar, (a1 , a2 , a3 ) ein Tripel. Ist a1 = a2 , so gilt (a1 , a2 ) = (a2 , a1 ), da das Tupel die Reihenfolge von a1 und a2 eindeutig festlegt. A × B = {(a, b)|a ∈ A und b ∈ B} heißt kartesisches Produkt der Mengen A und B. Für A = B ist A × B = B × A. Ist A1 ⊂ A2 und B1 ⊂ B2 , so ist A1 × B1 ⊂ A2 × B2 .
91
Das Summenzeichen Ein Hilfsmittel zur Vereinfachung umfangreicher Formeln ist das Summenzeichen 1. Man setzt: a 1 + a2 + . . . + a n =
n
ai
i=1
i heißt Summationsindex. Die Menge (1, 2, . . . , n,), über die der Summationsindex läuft, heißt Summationsbereich. Offenbar gilt dann: Die Summe ist unabhängig von der Wahl des Summationsindex. n
ai =
i=1
n
aj
j =1
Ein allen Summanden gemeinsamer Faktor c kann vor die Summe gezogen werden (Distributivgesetz). n
cai = c
n
i=1
ai
i=1
Summen mit gemeinsamen Summationsbereich können zusammengezogen werden. n
ai +
i=1
n
bj +
j =1
n
ck =
k=1
n
(ai + bi + ci )
i=1
Hat man alle Elemente des zweifachen indizierten Zahlenschemas (aij : i = 1 . . . m; j = 1 . . . n) : a11 a21 .. .
a12 a22 .. .
... ... .. .
a1n a2n .. .
am1 am2 . . . amn zu summieren, dann läßt sich das mit Hilfe einer Doppelsumme leicht formulieren. Die Summe S ist gegeben durch: " m # m n n aij = aij S= i=1
j =1
j =1
i=1
Im ersten Fall wird zuerst, bei festem Zeilenindex i, über den Spaltenindex j summiert, und dann die so gewonnenen Zeilensummen von i = 1 bis i = n aufsummiert. Im zweiten Fall geht man umgekehrt vor. Beide Formeln liefern aber offenbar das gleiche Resultat, nämlich die gewünschte Summe S aller aij . Es gilt die Regel: " m # m n n aij = aij i=1
j =1
j =1
i=1
Da es auf die Summationsreihenfolge nicht ankommt, läßt man die (überflüssigen) Klammern fort und schreibt: n m
aij
i=1 j =1
Selbstverständlich können diese Betrachtungen auf k-fach indizierte Summanden ausgedehnt werden. Man hat dann Summanden der Form: m1 m2 ji =1 j2 =1
...
mk
aj1 ,j2 ,...jk
jk =1
92
Hat man das Produkt der beiden Summen (Produktregel) verwendet: " m # n n m ai bj = ai bj i=1
j =1
m
i=1
ai und
n
j =1
bj zu bilden, so werden folgende Regeln
i=1 j =1
Hingegen gilt im allgemeinen (mit Ausnahme von Spezialfällen): " m # m m ai bj = ai bi i=1
j =1
i=1
Für Dreifachprodukte gilt: " " m # n # p p n m ai bj ck = ai b j ck i=1
j =1
k=1
i=1 j =1 k=1
Für Potenzen gilt: " m #2 " m # m m m ai = ai aj = ai aj i=1
i=1
j =1
i=1 j =1
Allgemein: " m #k m m ai = ... ai1 · · · aik i=1
i1 =1
ik =1
Exponentialfunktion und Logarithmus exp(x) = ex heißt Exponentialfunktion und ist definiert auf R. Es gilt: exp(1) = e = 2.718281 . . . x
e =
∞ xk k=0
k!
für − ∞ < x < ∞
Ableitung: (ex ) = ex . Dabei bezeichnet f (x) die erste Ableitung von f nach x. Additionstheorem: ex+y = ex ey . Der natürliche Logarithmus ln x ist definiert als die Umkehrfunktion der Exponentialfunktion, also durch: exp(ln x) = ln ex = x Da ex nur positive Werte annehmen kann, ist der Definitionsbereich von ln x die positive reelle Zahlengerade (0, ∞). Der natürliche Logarithmus besitzt die folgende Reihenentwicklung: ln(1 + x) =
∞ k=1
(−1)k+1
xk für − 1 < x ≤ 1 k
Ableitung: (ln x) = x1 . Rechenregel: ln(x · y) = ln x + ln y. Mit log x wird meistens die Umkehrfunktion von 10x bezeichnet.
93
Differential- und Integralrechnung Differentialrechnung f (x) sei eine stetige Funktion mit dem Definitionsbereich I = (a, b), (a, ∞), (−∞, b) oder R. Existiert f (x) − f (x0 ) x − x0
lim
x→x0 ;x=x0
so heißt f (x) an der Stelle x0 differenzierbar. f (x0 ) =
lim
x→x0 ;x=x0
f (x) − f (x0 ) x − x0
heißt Ableitung (oder Differentialquotient) von f (x) an der Stelle x0 . Ist f (x) in jedem Punkt x0 ∈ I d differenzierbar, so heißt f (x) differenzierbar in I und f (x) oder dx f (x) Ableitung von f (x) in I . Ly0 Anschaulich ist f (x0 ) die Steigung Lx0 der Tangente an der durch die Gleichung y = f (x) bestimmten Kurve im Punkt x0 . Einige wichtige Regeln sind: (c · f (x)) = c · f (x) , c ∈ R (f1 (x) + f2 (x)) = f1 (x) + f2 (x), (f1 (x) · f2 (x)) = f1 (x)f2 (x) + f1 (x)f2 (x)
f1 (x) f2 (x)
=
f1 (x)f2 (x) − f2 (x) · f1 (x) f22 (x)
für
f2 (x) = 0
Sind f1 und f2 zwei differenzierbare Funktionen, für die der Definitionsbereich von f2 den Wertebereich von f1 enthält, so gilt die Kettenregel: (f2 (f1 (x))) = f2 (f1 (x)) · f1 (x) Beispiele: f (x) c x x2 xn ex ln x ax 2 e−x
f (x) 0 1 2x n x n−1 ex 1 x
a x ln a 2 e−x · (−2x)
Definitionsbereich R R R R für n = 0 R R für x ∈ (0, ∞) R für a > 0 R
Integralrechnung
,b Zunächst sei f (x) eine positive stetige Funktion über dem Intervall [a, b]. a f (x)dx entspricht der Fläche unter der Kurve (x, f (x)) über dem Intervall [a, b]. f (x) sei nun eine beliebige Funktion. F (x) heißt Stammfunktion von f (x), falls in dem Definitionsbereich von f (x) gilt: F (x) = f (x) Jede stetige Funktion f (x) besitzt eine Stammfunktion F (x). Zwei Stammfunktionen einer Funktion f (x) unterscheiden sich nur um eine additive Konstante. Beispielsweise sind x 3 + x 2 /2 + 4 und x 3 + x 2 /2 Stammfunktionen von 3x 2 + x. Ist F (x) eine Stammfunktion von f (x) und liegt [a, b] im Definitionsbereich von F (x), so ist: b f (x) dx = F (b) − F (a) a
94
Existieren lim F (b) oder lim F (a) oder beide Grenzwerte, so gilt:
f (x) dx = lim F (b) − F (a) bzw. b→∞
a
a→−∞
b→∞
∞
b
f (x) dx = F (b) − lim F (a) bzw. a→−∞
−∞
∞
f (x) dx = lim F (b) − lim F (a) a→−∞
b→∞
−∞
,4 Beispiel: Das bestimmte Integral 2 x dx ist zu berechnen. F (x) = x 2 /2 ist eine Stammfunktion von f (x) = x. Daher gilt 4 42 2 2 x dx = F (4) − F (2) = − =6 2 2 2 Wichtige Regeln: Es seien F (x) und G(x) die Stammfunktionen von f (x) bzw. g(x) und a, b, c, d ∈ R b b b c · f (x) + d · g(x) dx = c f (x) dx + d · g(x) dx a
a
a
a
z
f (x) dx +
b
z
f (x) dx =
a
a
b
f (x) dx für a ≤ z ≤ b
b
f (x)g(x) dx = (F (b) · g(b) − F (a) · g(a)) − f (x)
F (x)
xn
x n+1 n+1
e
cx
ecx für c = 0 c
10
F (x)g (x) dx Beispiel
4
−1
a
b
x 3 dx =
3 44 (−1)4 − = 63 4 4 4
e−x dx = −e−10 − (−e0 ) = 1 − e10
0
Beispiele für partielle Integration: Zu berechnen ist: 3 x 2 e2x dx 0
Hier setzt man f (x) = e2x und g(x) = x 2 und erhält: 3 3 2·3 2·0 e2x 2 2x 2 e 2 e −0 · − dx x e dx = 3 · 2x · 2 2 2 0 0 3 = 4.5 · e6 − xe2x dx 0
Neuerliche Anwendung der partiellen Integration mit f (x) = e2x und g(x) = x ergibt: 3 3 e2·3 e2x e2·0 2x xe dx = 3 · −0· − 1· dx 2 2 2 0 0 2·3 e2·0 e 6 − = 1.5 · e − 4 4 6 6 = 1.5e − 0.25e + 0.25 Somit ist: 3 x 2 e2x dx = 3.25e6 − 0.25 0
95
Matrizenrechnung Begriff der Matrix Eine Matrix ist ein Rechteckschema von Zahlen; z.B.: 1 2 3 −1 3 5 oder 4 5 6 8 10 76 Matrizen werden mit großen Buchstaben bezeichnet A, B, 1 2 usw. Eine Matrix besitzt m Zeilen und n Spalten. Man schreibt auch, die Matrix hat die Ordnung (m × n). Allgemein wird die (m × n) Matrix A so dargestellt: a11 a12 a13 . . . a1n a21 a22 a23 . . . a2n A = a31 a32 a33 . . . a3n .. .. .. . .. .. . . . . am1 am2 am3 . . . amn
Ein einzelnes Element bezeichnet man mit aij , i bezeichnet die Zeile und j die Spalte, in der sich das Element befindet. 1 2 3 A = 4 5 6 !⇒ a11 = 1, a22 = 5, a23 = 6, a31 = 7 7 8 9 Wir nennen Matrizen, die nur aus einer Zeile oder einer Spalte bestehen, Zeilenvektoren bzw. Spaltenvektoren. Die in der i-ten Zeile von A stehenden Elemente ai1 , . . . , ain bilden somit den i-ten Zeilenvektor. ai• = (ai1 , . . . , ain ) von A. Die in der j -ten Spalte von A stehenden Elemente A1j , . . . , amj bilden den j-ten Spaltenvektor a1j a•j = ... amj Definition: Zwei (m × n) Matrizen A und B heißen gleich, wenn die einander entsprechenden Elemente gleich sind, d.h. A = B ⇐⇒ aij = bij (i = 1, . . . , m; j = 1, . . . , n). Definition: Eine Matrix, deren Elemente sämtlich gleich Null sind, heißt Nullmatrix 0. Definition: Eine quadratische Matrix, deren Elemente außerhalb der Hauptdiagonalen Null sind (aij = 0 für i = j ), wird Diagonalmatrix genannt: a11 0 · · · 0 0 a22 · · · 0 D= . .. . . .. . . . . . 0 0 · · · ann Die Elemente der Hauptdiagonale können ebenfalls gleich Null sein. Definition: Eine quadratische Matrix, deren Elemente außerhalb der Hauptdiagonalen Null und deren Diagonalelemente alle gleich 1 sind, heißt Einheitsmatrix I : 1 0 ··· 0 0 1 ··· 0 I = . . . .. . . . . . . . 0 0 ··· 1 Ist m = n = 1, d.h. A hat nur ein einziges Element, so ist a11 ein Skalar (eine reelle Zahl). Schreibweise: A11 = (a11 ) = (a) = a (Skalare werden mit kleinen Buchstaben bezeichnet.) 2 Da es sich bei allen im folgenden Kapitel auftretenden Variablen um Vektoren oder Matrizen handelt, wird von einer
besonderen typographischen Kennzeichnung abgesehen
96
Einfache Rechenregeln Für das allgemeine Rechnen mit Matrizen werden die folgenden Regeln gesetzt: Definition: Sind A = (aij ) und B = (bij ) zwei Matrizen von je m-Zeilen und n-Spalten, so wird als Summe (Differenz) von A, B die (m × n)-Matrix C = A ± B = (cij ) mit cij = aij ± bij erklärt. Bemerkung: Die Summe (Differenz) zweier Matrizen mit ungleicher Ordnung ist nicht definiert! c11 · · · c1n a11 · · · a1n b11 · · · b1n .. .. = .. .. ± .. .. .. .. .. . . . . . . . . . cm1 · · · cmn am1 · · · amn bm1 · · · bmn a11 ± b11 · · · a1n ± b1n .. .. .. = . . . am1 ± bm1 · · · amn ± bmn Die Addition ist kommutativ: A+B =B +A Die Addition ist assoziativ: A + (B + C) = (A + B) + C = A + B + C Setzt man in der Summendefinition B = A und schreibt, wie naheliegend, A + A = 2A, so kommt man verallgemeinernd zur nächsten Regel. Definition: Das Produkt kA oder Ak einer (m × n)-Matrix A mit einer Zahl k (einem Skalar) ist die (m × n)-Matrix, bei der jedes Element das k-fache des entsprechenden von A ist: ka11 · · · ka1n .. .. kA = Ak = ... . . kam1 · · · kamn
Für das Zahlenprodukt einer Matrix gilt: • kA + kB = k(A + B) • kA + lA = (k + l)A • k(lA) = (klA) = (lk)A = l(kA) Transponierte Matrix, symmetrische Matrix Für Operationen mit Matrizen ist es erforderlich, Zeilen und Spalten der Matrix zu vertauschen. Dazu führen wir die Transposition von Matrizen ein. Definition: Die Transponierte AT einer (m × n) Matrix A ist diejenige (n × m) Matrix, die aus A durch Vertauschen der Zeilen und Spalten hervorgeht. Bezeichnen wir die Elemente von AT mit aijT und die von A wie üblich mit aij so gilt: aij = (a T )j i (i = 1, . . . , n, k = 1, . . . , m) Offenbar besteht die Beziehung (AT )T = A a 1 a2 a 1 b 1 c1 , AT = b1 b2 A= a2 b2 c2 c1 c 2 Definition: Eine quadratische Matrix A heißt symmetrisch, wenn gilt AT = A, d.h. aij = aj i (i, j = 1, . . . , n). Die nächste Matrix ist ein Beispiel. −1 3 −1 5 = AT A= 3 4 −1 5 0 97
Matrizenmultiplikation Definition: Das Produkt AB der (m × n)-Matrix A mit der (n × p)-Matrix B ist diejenige (m × p)-Matrix C = (cil ), für die gilt: cil =
n
aij bj l (i = 1, . . . m; l = 1, . . . , p)
j =1
Damit sehen wir, daß eine Multiplikation nicht zwischen beliebigen Matrizen möglich ist, sondern daß die Spaltenzahl von A mit der Zeilenzahl von B übereinstimmen muß. −1 3 2 4 3 A= , B = 2 −4 −1 0 5 3 −2 A ist ein (2 × 3)-Matrix und B eine (3 × 2)-Matrix. Daher existiert AB, und zwar gilt: −1 3 2 4 3 AB = · 2 −4 −1 0 5 3 −2 = =
2 · (−1) + 4·2 + 3·3 (−1) · (−1) + 0 · 2 + 5 · 3 15 −16 16 −13
2·3 + 4 · (−4) + 3 · (−2) (−1) · 3 + 0 · (−4) + 5 · (−2)
Unter Verwendung der Zeilenvektoren von ai· von A und der Spaltenvektoren b·j von B kann man die Multiplikation auch in der Form cil = ai. · b.l =
n
aij · bj l
j =1
schreiben. Für die Matrizenmultiplikation gelten die folgenden Regeln: 1. A(BC) = (AB)C (Assoziativgesetz) 2. A(B + C) = AB + AC (Distributivgesetz) 3. (A + B)C = AC + BC (Distributivgesetz) 4. k(AB) = (kA) · B = A(kB) (Assoziativgesetz für die Skalarmultiplikation) Eine Matrix heißt idempotent, wenn gilt: A2 = A · A = A Für das Rechnen mit transponierten Matrizen gelten die folgenden Gesetze: T
1. AT = A
(zweimalige Transposition hebt sich auf)
2. (A + B)T = AT + B T 3. (kA)T = kAT , mit k als Skalar 4. (AB)T = B TAT Für jede beliebige Matrix A sind die Matrizen AAT und ATA stets definiert, quadratisch und symmetrisch. Der Beweis ergibt sich aus (1) und (4).
98
Spur einer Matrix Die Summe der Diagonalelemente einer quadratischen Matrix wird Spur (englisch trace) der Matrix genannt. Spur(A) = tr(A) =
n
aii
i=1
Die Spur eines Skalars ist der Skalar selbst. Für die Spur eines Produktes gilt : Spur(AB) = Spur(BA) Determinante einer Matrix Definition: Sei A = (aij ) eine quadratische Matrix der Ordnung n. Als Determinante von A bezeichnet man: 1. det(A) = a11 , falls n = 1 2. det(A) = a11 · a22 − a12 a21 , falls n = 2 n i+j 3. det (A) = aij det(Aij ) für beliebiges i = 1, 2 . . . , n, wobei die (n − 1 × n − j =1 (−1) 1)−Matrix Aij aus A durch Streichung der i-ten Zeile Ai. und der j-ten Spalte Aj. hervorgeht. Durch wiederholte Anwendung von (3) kann man rekursiv alle rechts stehenden Determinanten auf den Fall (2) zurückführen. Beispiel: Fall einer (3 × 3)-Matrix A; Entwicklung nach (3) für i = 1 a11 a12 a13 a22 a23 a21 a23 a21 a22 − a12 det + a13 det det a21 a22 a23 = a11 det a32 a33 a31 a33 a31 a32 a31 a32 a33 = a11 · a22 · a33 − a11 · a23 · a32 − a12 · a21 · a33 + a12 · a23 · a31 + a13 · a21 · a32 − a13 · a22 · a31 Eigenschaften von Determinanten: Sei A eine quadratische Matrix der Ordnung n und det(A) die Determinante von A. Dann gilt: 1. det(A) = det(AT ) 2. Vertauscht man in A zwei Zeilen (bzw. Spalten), so ändert det(A) das Vorzeichen. 3. Addiert man zu einer Zeile (bzw. Spalte) von A eine beliebige Linearkombination der anderen Zeilen (bzw. Spalten), so ändert sich det(A) nicht. 4. Multipliziert man die Elemente einer Zeile (bzw. Spalte) von A mit einem Skalar k, so wird det(A) mit k multipliziert. 5. Sind in A zwei Zeilen (bzw. Spalten) gleich, so gilt det(A) = 0. 6. det(I ) = 1 Lineare Unabhängigkeit von Vektoren und Rang einer Matrix Ein Vektor b heißt Linearkombination der Vektoren a1 , a2 , . . . , an , wenn es (reelle) Zahlen k1 , k2 , . . . , kn gibt, so daß gilt: b = k1 a 1 + k 2 a 2 + . . . + k n a n =
n
ki ai
i=1
99
1. Fall: Die Vektoren a1 , a2 , . . . , an heißen linear unabhängig, wenn n
ki · a i = 0
i=1
nur für ki = 0 für alle i = 1, 2, . . . , n gilt, d.h. kein ai läßt sich dann als Linearkombination der übrigen ai darstellen. 2. Fall: Ist dagegen mindestens ein ki = 0, so läßt sich schreiben: n kj aj k j =1,j =i i
ai = −
und ai ist als Linearkombination der übrigen aj von diesen linear abhängig. Es besteht dann also mindestens eine lineare Beziehung oder lineare Abhängigkeit zwischen a1 , a2 , . . . , an . Entsprechendes gilt für Zeilenvektoren. Die Maximalzahl der linear unabhängigen Spaltenvektoren heißt Spaltenrang von A und die Maximalzahl der linear unabhängigen Zeilenvektoren heißt Zeilenrang von A. Der Spaltenrang von A ist immer gleich dem Zeilenrang von A. Diese eindeutig bestimmte Zahl heißt Rang von A und wird mit rg(A) bezeichnet. Für eine n × m-Matrix gilt: rg(A) ≤ min{n, m}. Ist rg(A) = min{n, m}, so besitzt A vollen Rang. Eine quadratische Matrix mit vollem Rang heißt regulär (rg(A) = n), anderenfalls singulär (rg(A) < n). Wichtige Rechenregeln für den Rang von Matrizen sind: rg(A) = rg(AT ) rg(AB) ≤ min{rg(A), rg(B)} rg(ATA) = rg(A) = rg(AAT ) rg(BA) = rg(A) = rg(AC) für reguläre Matrizen B und C Lösen von linearen Gleichungssystemen und inverse Matrix Definition: Unter einem linearen Gleichungssystem verstehen wir ein System von n Gleichungen mit m Unbekannten: a11 x1 + a12 x2 + . . . + a1m xm = b1 a21 x1 + a22 x2 + . . . + a2m xm = b2 .. .. .. .. .. . . . . . an1 x1 + an2 x2 + . . . + anm xn = bn In Matrixnotation: A x = b (n × m) (m × 1) (n × 1) wobei gilt: A=
a11 a12 · · · a1m a21 a22 · · · a2m .. .. . . .. . . . . an1 an2 · · · anm
,
x=
x1 x2 .. .
xm
,
b=
b1 b2 .. .
bn
Der Vektor x heißt Lösung des linearen Gleichungssystems. Ist b = 0, so spricht man von einem homogenen linearen Gleichungssystem. Im Fall b = 0 spricht man von einem inhomogenen linearen Gleichungssystem. Das Lösen von linearen Gleichungssystemen erfolgt nach dem Gauß’schen Eliminationsverfahren. 1. Vertausche die Gleichungen (Zeilen) so, daß die erste Unbekannte x1 einen von Null verschiedenen Koeffizienten erhält. Damit gilt: a11 = 0 nach Vertauschung. 100
2. Für jedes i > 1 wird die i-te Gleichung Li durch −ai1 L1 + a11 Li ersetzt. Symbolisch: Li ← (−ai1 L1 + a11 Li ) Ergebnis: Die erste Gleichung bleibt erhalten, alle anderen Gleichungen enthalten die Variable x1 nicht mehr. Dieser Prozeß wird wiederholt. Dabei werden sukzessiv die Unbekannten eliminiert. Beispiel: Wir reduzieren das folgende System: x x 2x 2x
+ + + +
2y 3y 5y 6y
− 3z = 4 + z = 11 − 4z = 13 + 2z = 22
durch die Operationen L2 ← (−L1 +L2 ), L3 ← (−2L1 +L3 ) und L4 ← (−2L1 +L4), und anschließend durch die Operationen L3 ← (L2 − L3 ) und L4 ← (−2L2 + L4 ). x x 2x 2x
+ + + +
2y 3y 5y 6y
− 3z = 4 + z = 11 − 4z = 13 + 2z = 22
x + 2y − 3z y + 4z 2z 0
= 4 = 7 = 2 = 0
⇒
x + 2y y y 2y
− + + +
⇒
x + 2y − 3z = 4 y + 4z = 7
3z 4z 2z 8z
= 4 = 7 = 5 = 14
⇒
Existiert eine Lösung, so heißt das lineare Gleichungssystem konsistent, anderenfalls inkonsistent. Das System Ax = b ist genau dann konsistent, wenn rg(A, b) = rg(A). 1. Ist die Koeffizientenmatrix eines konsistenten Systems Ax = b quadratisch und besitzt sie vollen Rang, d.h. rg(A) = n, dann gilt: x = A−1 b ist die eindeutig bestimmte Lösung des Gleichungssystems ist Ax = b. Die Matrix A−1 heißt die inverse Matrix von A. Sie ist eindeutig bestimmt. 2. Gegeben sei eine (n × m) Koeffizientenmatrix A des konsistenten Systems Ax = b mit rg(A) = m und m ≤ n, d.h. die Anzahl der Unbekannten ist kleiner gleich der Anzahl der Gleichungen. Das System ist eindeutig lösbar, denn wegen (rg(A) = m) besitzt A vollen Spaltenrang. Da ATA regulär ist, existiert (ATA)−1 . Durch Multiplikation der Gleichung Ax = b von links mit AT erhält man: ATAx = ATb Daraus folgt die eindeutige Lösung: x = (ATA)−1ATb 3. Ist der rg(A) = r < m, dann besitzt das System unendlich viele Lösungen. Es können dann (m−r) Komponenten von x willkürlich bestimmt werden und die r verbleibenden Komponenten von x sind eindeutig festgelegt. 4. Ein homogenes lineares Gleichungssystem Ax = 0 ist konsistent, da es stets die triviale Lösung x = 0 besitzt. Für den Fall rg(A) = m hat Ax = 0 wegen der ersten beiden Punkte nur die Lösung x = 0. Damit Ax = 0 auch nichttrivial lösbar ist, muß wegen des dritten Punktes rg(A) < m erfüllt sein. Falls A quadratisch ist, bedeutet dies: det(A) = 0
101
Die Berechnung der inversen Matrix Definition: A sei eine quadratische Matrix von vollem Rang; dann existiert eine Matrix A−1 der gleichen Ordnung mit A−1A = AA−1 = I . A−1 heißt die zu A inverse Matrix oder Kehrmatrix. Satz: A und B seien quadratische Matrizen der gleichen Ordnung mit Inversen A−1 und B −1 . Dann gilt: 1.
(A−1 )−1 = A
2.
(AB)−1 = B −1 A−1
3.
(k · A)−1 = k −1 A−1 , mit k als Skalar
4.
(AT )−1 = (A−1 )T
Satz: Für quadratische Matrizen gelten unter den angegebenen Bedingungen die folgenden Äquivalenzen: 1. Die Matrix A ist regulär. 2. Die Matrix A besitzt eine Kehrmatrix A−1 . 3. det A = 0 Die Matrix A wird wie folgt invertiert: Der Gauß’sche Algorithmus wird auf das Gleichungssystem AX = I angewandt. An die Stelle von x im üblichen Gleichungssystem Ax = b tritt die j -te Spalte von A−1 , an die Stelle von b die j -te Spalte der Einheitsmatrix. Die notwendigen Zeilentransformationen werden simultan durchgeführt. Beispiel: 1 3 3 A= 1 4 3 1 3 4 gesucht ist A−1
1 3 3 : AI = 1 4 3 : 1 3 4 : 1 0 3 : 0 1 0 : 0 0 1 :
1 0 0 1 0 1 0 ⇒ 0 0 0 1 0 4 −3 0 −1 1 0 ⇒ −1 0 1
3 3 : 1 0 0 1 0 : −1 1 0 ⇒ 0 1 : −1 0 1
1 0 0 : 7 −3 −3 0 1 0 : −1 1 0 0 0 1 : −1 0 1
Daher gilt für die inverse Matrix: 7 −3 −3 1 0 A−1 = −1 −1 0 1
Griechisches Alphabet A B T L E Z H ] I K b M
α Alpha β Beta γ Gamma δ Delta A, ε Epsilon ζ Zeta η Eta θ, ϑ Theta ι Jota κ Kappa λ Lambda µ My
N R O V P 1 T Y < X c *
102
ν Ny ξ Xi o Omikron π, W Pi ρ, Y Rho σ, ς Sigma τ Tau υ Ypsilon φ, ϕ Phi χ Chi ψ Psi ω Omega
Literatur Demographie Birg, H.; Koch, H. (1987): Der Bevölkerungsrückgang in der Bundesrepublik Deutschland. Frankfurt/Main. Birg, H. (1989): Die demographische Zeitwende. Spektrum der Wissenschaft 1/89, 40-49. Findl, P.; Holzmann, R.; Münz, R. (1987): Bevölkerung und Sozialstaat. Szenarien bis 2050. Bd. 2, Wien. Teitelbaum, S.; Winter, M. (1985): The Fear of Population Decline. San Diego: Academic Press. Wattenberg, J. (1989): The Birth Dearth. New York.
Mathematik für Wirtschaftswissenschaftler Hamerle, A.; Kemény, P. (1994): Mathematik, Einführung für Wirtschafts- und Sozialwissenschaftler, München.
Statistische Methodenlehre Assenmacher, W. (2000): Deskriptive Statistik, 2. Auflage, Berlin, Heidelberg. Assenmacher, W. (2000): Induktive Statistik, Berlin, Heidelberg. Bamberg, B.; Baur, F. (2002): Statistik, 11. Auflage, München. Bleymüller, J.; Gehlert, G.; Gülicher, H. (2000): Statistik für Wirtschaftswissenschaftler, 12. Auflage, München. Fahrmeir, L.; Hamerle, A. (1996): Multivariate statistische Verfahren, 2.Auflage, Berlin. Green, W. (1999): Econometric Analysis., 4. Auflage, New York. Hübler, O. (1989): Ökonometrie, Stuttgart. Schlittgen, R. (2000): Einführung in die Statistik, 8. Auflage, München.
Wirtschafts– und Sozialstatistik Abels, H. (1993): Wirtschafts- und Bevölkerungsstatistik, 4. Auflage, Wiesbaden. Hujer, R.; Cremer, R. (1978): Methoden der empirischen Wirtschaftsforschung, München. Krug, W; Nourney, M. (1999): Wirtschaftsstatistik und Sozialstatistik, München, Wien. Lippe, Von der, P. (1996): Wirtschaftsstatistik, 5. Auflage, Stuttgart. Statistisches Bundesamt (1983): Fachserie 1, Reihe 1, Gebiet und Bevölkerung, Wiesbaden. Statistisches Bundesamt (1999): Statistisches Jahrbuch für die Bundesrepublik Deutschland, Wiesbaden. Statistisches Bundesamt (1999): Wirtschaft und Statistik 12/1989, Wiesbaden.
103
104
0.09 0.535856 0.575345 0.614092 0.651732 0.687933 0.722405 0.754903 0.785236 0.813267 0.838913 0.862143 0.882977 0.901475 0.917736 0.931888 0.944083 0.954486 0.963273 0.970621 0.976705 0.981691 0.985738 0.988989 0.991576 0.993613 0.995201 0.996427 0.997365 0.998074 0.998605
99.95% 3.290
0.08 0.531881 0.571424 0.610261 0.648027 0.684386 0.719043 0.751748 0.782305 0.810570 0.836457 0.859929 0.881000 0.899727 0.916207 0.930563 0.942947 0.953521 0.962462 0.969946 0.976148 0.981237 0.985371 0.988696 0.991344 0.993431 0.995060 0.996319 0.997282 0.998012 0.998559
99.90% 3.090
0.07 0.527903 0.567495 0.606420 0.644309 0.680822 0.715661 0.748571 0.779350 0.807850 0.833977 0.857690 0.878999 0.897958 0.914656 0.929219 0.941792 0.952540 0.961636 0.969258 0.975581 0.980774 0.984997 0.988396 0.991106 0.993244 0.994915 0.996207 0.997197 0.997948 0.998511
99.75% 2.807
0.06 0.523922 0.563559 0.602568 0.640576 0.677242 0.712260 0.745373 0.776373 0.805106 0.831472 0.855428 0.876976 0.896165 0.913085 0.927855 0.940620 0.951543 0.960796 0.968557 0.975002 0.980301 0.984614 0.988089 0.990863 0.993053 0.994766 0.996093 0.997110 0.997882 0.998462
wichtige Quantile der Standardnormlverteilung 80% 90% 95% 97.50% 99% 99.50% 0.842 1.282 1.645 1.960 2.326 2.576
0.05 0.519939 0.559618 0.598706 0.636831 0.673645 0.708840 0.742154 0.773373 0.802338 0.828944 0.853141 0.874928 0.894350 0.911492 0.926471 0.939429 0.950529 0.959941 0.967843 0.974412 0.979818 0.984222 0.987776 0.990613 0.992857 0.994614 0.995975 0.997020 0.997814 0.998411
70% 0.524
0.04 0.515953 0.555670 0.594835 0.633072 0.670031 0.705402 0.738914 0.770350 0.799546 0.826391 0.850830 0.872857 0.892512 0.909877 0.925066 0.938220 0.949497 0.959071 0.967116 0.973810 0.979325 0.983823 0.987455 0.990358 0.992656 0.994457 0.995855 0.996928 0.997744 0.998359
60% 0.253
0.03 0.511967 0.551717 0.590954 0.629300 0.666402 0.701944 0.735653 0.767305 0.796731 0.823814 0.848495 0.870762 0.890651 0.908241 0.923641 0.936992 0.948449 0.958185 0.966375 0.973197 0.978822 0.983414 0.987126 0.990097 0.992451 0.994297 0.995731 0.996833 0.997673 0.998305
50% 0
0.02 0.507978 0.547758 0.587064 0.625516 0.662757 0.698468 0.732371 0.764238 0.793892 0.821214 0.846136 0.868643 0.888767 0.906582 0.922196 0.935744 0.947384 0.957284 0.965621 0.972571 0.978308 0.982997 0.986791 0.989830 0.992240 0.994132 0.995603 0.996736 0.997599 0.998250
<(z) z
0.01 0.503989 0.543795 0.583166 0.621719 0.659097 0.694974 0.729069 0.761148 0.791030 0.818589 0.843752 0.866500 0.886860 0.904902 0.920730 0.934478 0.946301 0.956367 0.964852 0.971933 0.977784 0.982571 0.986447 0.989556 0.992024 0.993963 0.995473 0.996636 0.997523 0.998193
Erweiterung der Tafel: <(−z) = 1 − <(z)
0 0.500000 0.539828 0.579260 0.617911 0.655422 0.691462 0.725747 0.758036 0.788145 0.815940 0.841345 0.864334 0.884930 0.903199 0.919243 0.933193 0.945201 0.955435 0.964070 0.971284 0.977250 0.982136 0.986097 0.989276 0.991802 0.993790 0.995339 0.996533 0.997445 0.998134
Ablesebeispiel: <(2.36) = 0.990863,
Die Verteilungsfunktion der Standardnormalverteilung wird mit <(z) bezeichnet, die Dichte mit φ(z). 2 z z x 1 √ exp − <(z) = φ(z) dz = dx, − ∞ < z < ∞ 2 2π −∞ −∞
Die Standardnormalverteilung
Tabellen
z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
Quantile der t-Verteilung Freiheitsgrad n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 80 100 200 500 ∞
90% 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.299 1.296 1.292 1.290 1.286 1.283 1.282
95% 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.676 1.671 1.664 1.660 1.653 1.648 1.645
97.5% 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.009 2.000 1.990 1.984 1.972 1.965 1.960
Ablesebeispiel: t15;0.95 = 1.753 Erweiterung der Tafel: tn;1−α = −tn;α
105
99% 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.403 2.390 2.374 2.364 2.345 2.334 2.326
99.5% 63.656 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.678 2.660 2.639 2.626 2.601 2.586 2.576
99.9% 318.289 22.328 10.214 7.173 5.894 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.307 3.261 3.232 3.195 3.174 3.131 3.107 3.090
99.95% 636.578 31.600 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.768 3.745 3.725 3.707 3.689 3.674 3.660 3.646 3.551 3.496 3.460 3.416 3.390 3.340 3.310 3.290
0.5% 3.93−4 0.0100 0.0717 0.2070 0.4118 0.6757 0.9893 1.3444 1.7349 2.1558 2.6032 3.0738 3.5650 4.0747 4.6009 5.1422 5.6973 6.2648 6.8439 7.4338 8.0336 8.6427 9.2604 9.8862 10.5196 11.1602 11.8077 12.4613 13.1211 13.7867 20.7066 27.9908 35.5344 43.2753 51.1719 59.1963 67.3275
1% 1.57−3 0.0201 0.1148 0.2971 0.5543 0.8721 1.2390 1.6465 2.0879 2.5582 3.0535 3.5706 4.1069 4.6604 5.2294 5.8122 6.4077 7.0149 7.6327 8.2604 8.8972 9.5425 10.1957 10.8563 11.5240 12.1982 12.8785 13.5647 14.2564 14.9535 22.1642 29.7067 37.4848 45.4417 53.5400 61.7540 70.0650
2.5% 0.0982−3 0.0506 0.2158 0.4844 0.8312 1.2373 1.6899 2.1797 2.7004 3.2470 3.8157 4.4038 5.0087 5.6287 6.2621 6.9077 7.5642 8.2307 8.9065 9.5908 10.2829 10.9823 11.6885 12.4011 13.1197 13.8439 14.5734 15.3079 16.0471 16.7908 24.4331 32.3574 40.4817 48.7575 57.1532 65.6466 74.2219
5% 0.0039 0.1026 0.3518 0.7107 1.1455 1.6354 2.1673 2.7326 3.3251 3.9403 4.5748 5.2260 5.8919 6.5706 7.2609 7.9616 8.6718 9.3904 10.1170 10.8508 11.5913 12.3380 13.0905 13.8484 14.6114 15.3792 16.1514 16.9279 17.7084 18.4927 26.5093 34.7642 43.1880 51.7393 60.3915 69.1260 77.9294
10% 0.0158 0.2107 0.5844 1.0636 1.6103 2.2041 2.8331 3.4895 4.1682 4.8652 5.5778 6.3038 7.0415 7.7895 8.5468 9.3122 10.0852 10.8649 11.6509 12.4426 13.2396 14.0415 14.8480 15.6587 16.4734 17.2919 18.1139 18.9392 19.7677 20.5992 29.0505 37.6886 46.4589 55.3289 64.2778 73.2911 82.3581
30% 0.1485 0.7133 1.4237 2.1947 2.9999 3.8276 4.6713 5.5274 6.3933 7.2672 8.1479 9.0343 9.9257 10.8215 11.7212 12.6243 13.5307 14.4399 15.3517 16.2659 17.1823 18.1007 19.0211 19.9432 20.8670 21.7924 22.7192 23.6475 24.5770 25.5078 34.8719 44.3133 53.8091 63.3460 72.9153 82.5111 92.1290
50% 0.4549 1.3863 2.3660 3.3567 4.3515 5.3481 6.3458 7.3441 8.3428 9.3418 10.3410 11.3403 12.3398 13.3393 14.3389 15.3385 16.3382 17.3379 18.3376 19.3374 20.3372 21.3370 22.3369 23.3367 24.3366 25.3365 26.3363 27.3362 28.3361 29.3360 39.3353 49.3349 59.3347 69.3345 79.3343 89.3342 99.3341
70% 1.0742 2.4079 3.6649 4.8784 6.0644 7.2311 8.3834 9.5245 10.6564 11.7807 12.8987 14.0111 15.1187 16.2221 17.3217 18.4179 19.5110 20.6014 21.6891 22.7745 23.8578 24.9390 26.0184 27.0960 28.1719 29.2463 30.3193 31.3909 32.4612 33.5302 44.1649 54.7228 65.2265 75.6893 86.1197 96.5238 106.9058
90% 2.7055 4.6052 6.2514 7.7794 9.2363 10.6446 12.0170 13.3616 14.6837 15.9872 17.2750 18.5493 19.8119 21.0641 22.3071 23.5418 24.7690 25.9894 27.2036 28.4120 29.6151 30.8133 32.0069 33.1962 34.3816 35.5632 36.7412 37.9159 39.0875 40.2560 51.8050 63.1671 74.3970 85.5270 96.5782 107.5650 118.4980
95% 3.8415 5.9915 7.8147 9.4877 11.0705 12.5916 14.0671 15.5073 16.9190 18.3070 19.6752 21.0261 22.3620 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435 31.4104 32.6706 33.9245 35.1725 36.4150 37.6525 38.8851 40.1133 41.3372 42.5569 43.7730 55.7585 67.5048 79.0820 90.5313 101.8795 113.1452 124.3421
97.5% 5.0239 7.3778 9.3484 11.1433 12.8325 14.4494 16.0128 17.5345 19.0228 20.4832 21.9200 23.3367 24.7356 26.1189 27.4884 28.8453 30.1910 31.5264 32.8523 34.1696 35.4789 36.7807 38.0756 39.3641 40.6465 41.9231 43.1945 44.4608 45.7223 46.9792 59.3417 71.4202 83.2977 95.0231 106.6285 118.1359 129.5613
99% 6.6349 9.2104 11.3449 13.2767 15.0863 16.8119 18.4753 20.0902 21.6660 23.2093 24.7250 26.2170 27.6882 29.1412 30.5780 31.9999 33.4087 34.8052 36.1908 37.5663 38.9322 40.2894 41.6383 42.9798 44.3140 45.6416 46.9628 48.2782 49.5878 50.8922 63.6908 76.1538 88.3794 100.4251 112.3288 124.1162 135.8069
99.5% 7.8794 10.5965 12.8381 14.8602 16.7496 18.5475 20.2777 21.9549 23.5893 25.1881 26.7569 28.2997 29.8193 31.3194 32.8015 34.2671 35.7184 37.1564 38.5821 39.9969 41.4009 42.7957 44.1814 45.5584 46.9280 48.2898 49.6450 50.9936 52.3355 53.6719 66.7660 79.4898 91.9518 104.2148 116.3209 128.2987 140.1697
99.9% 10.8274 13.8150 16.2660 18.4662 20.5147 22.4575 24.3213 26.1239 27.8767 29.5879 31.2635 32.9092 34.5274 36.1239 37.6978 39.2518 40.7911 42.3119 43.8194 45.3142 46.7963 48.2676 49.7276 51.1790 52.6187 54.0511 55.4751 56.8918 58.3006 59.7022 73.4029 86.6603 99.6078 112.3167 124.8389 137.2082 149.4488
106
0.1% 1.57−5 0.0020 0.0243 0.0908 0.2102 0.3810 0.5985 0.8571 1.1519 1.4787 1.8338 2.2141 2.6172 3.0407 3.4825 3.9417 4.4162 4.9048 5.4067 5.9210 6.4467 6.9829 7.5291 8.0847 8.6494 9.2222 9.8029 10.3907 10.9861 11.5876 17.9166 24.6736 31.7381 39.0358 46.5197 54.1559 61.9182
2 = 28.8453 Ablesebeispiel: χ16;0.975
Quantile der χ 2 -Verteilung
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
1 161.4 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 4.30 4.26 4.23 4.20 4.17 4.15 4.13 4.11 4.10 4.08 4.03 4.00 3.98 3.96 3.94 3.89 3.87 3.86 3.85 3.84
2 199.5 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.44 3.40 3.37 3.34 3.32 3.29 3.28 3.26 3.24 3.23 3.18 3.15 3.13 3.11 3.09 3.04 3.03 3.01 3.00 3.00
3 215.7 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.05 3.01 2.98 2.95 2.92 2.90 2.88 2.87 2.85 2.84 2.79 2.76 2.74 2.72 2.70 2.65 2.63 2.62 2.61 2.60
4 224.5 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 2.82 2.78 2.74 2.71 2.69 2.67 2.65 2.63 2.62 2.61 2.56 2.53 2.50 2.49 2.46 2.42 2.40 2.39 2.38 2.37
5 230.1 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 2.66 2.62 2.59 2.56 2.53 2.51 2.49 2.48 2.46 2.45 2.40 2.37 2.35 2.33 2.31 2.26 2.24 2.23 2.22 2.21
6 233.9 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 2.55 2.51 2.47 2.45 2.42 2.40 2.38 2.36 2.35 2.34 2.29 2.25 2.23 2.21 2.19 2.14 2.13 2.12 2.11 2.10
7 236.7 19.35 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.46 2.42 2.39 2.36 2.33 2.31 2.29 2.28 2.26 2.25 2.20 2.17 2.14 2.13 2.10 2.06 2.04 2.03 2.02 2.01
8 238.8 19.37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.40 2.36 2.32 2.29 2.27 2.24 2.23 2.21 2.19 2.18 2.13 2.10 2.07 2.06 2.03 1.98 1.97 1.96 1.95 1.94
9 240.5 19.38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.34 2.30 2.27 2.24 2.21 2.19 2.17 2.15 2.14 2.12 2.07 2.04 2.02 2.00 1.97 1.93 1.91 1.90 1.89 1.88
10 241.8 19.40 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.30 2.25 2.22 2.19 2.16 2.14 2.12 2.11 2.09 2.08 2.03 1.99 1.97 1.95 1.93 1.88 1.86 1.85 1.84 1.83
11 242.9 19.40 8.76 5.94 4.70 4.03 3.60 3.31 3.10 2.94 2.82 2.72 2.63 2.57 2.51 2.46 2.41 2.37 2.34 2.31 2.26 2.22 2.18 2.15 2.13 2.10 2.08 2.07 2.05 2.04 1.99 1.95 1.93 1.91 1.89 1.84 1.82 1.81 1.80 1.79
12 243.9 19.41 8.74 5.91 4.68 4.00 3.57 3.28 3.07 2.91 2.79 2.69 2.60 2.53 2.48 2.42 2.38 2.34 2.31 2.28 2.23 2.18 2.15 2.12 2.09 2.07 2.05 2.03 2.02 2.00 1.95 1.92 1.89 1.88 1.85 1.80 1.78 1.77 1.76 1.75
13 244.6 19.42 8.73 5.89 4.66 3.98 3.55 3.26 3.05 2.89 2.76 2.66 2.58 2.51 2.45 2.40 2.35 2.31 2.28 2.25 2.20 2.15 2.12 2.09 2.06 2.04 2.02 2.00 1.99 1.97 1.92 1.89 1.86 1.84 1.82 1.77 1.75 1.74 1.73 1.72
14 245.3 19.42 8.71 5.87 4.64 3.96 3.53 3.24 3.03 2.86 2.74 2.64 2.55 2.48 2.42 2.37 2.33 2.29 2.26 2.22 2.17 2.13 2.09 2.06 2.04 2.01 1.99 1.98 1.96 1.95 1.89 1.86 1.84 1.82 1.79 1.74 1.72 1.71 1.70 1.69
15 245.9 19.43 8.70 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.40 2.35 2.31 2.27 2.23 2.20 2.15 2.11 2.07 2.04 2.01 1.99 1.97 1.95 1.94 1.92 1.87 1.84 1.81 1.79 1.77 1.72 1.70 1.69 1.68 1.67
16 246.4 19.43 8.69 5.84 4.60 3.92 3.49 3.20 2.99 2.83 2.70 2.60 2.51 2.44 2.38 2.33 2.29 2.25 2.21 2.18 2.13 2.09 2.05 2.02 1.99 1.97 1.95 1.93 1.92 1.90 1.85 1.82 1.79 1.77 1.75 1.69 1.68 1.66 1.65 1.64
17 246.9 19.44 8.68 5.83 4.59 3.91 3.48 3.19 2.97 2.81 2.69 2.58 2.50 2.43 2.37 2.32 2.27 2.23 2.20 2.17 2.11 2.07 2.03 2.00 1.98 1.95 1.93 1.92 1.90 1.89 1.83 1.80 1.77 1.75 1.73 1.67 1.66 1.64 1.63 1.62
18 247.3 19.44 8.67 5.82 4.58 3.90 3.47 3.17 2.96 2.80 2.67 2.57 2.48 2.41 2.35 2.30 2.26 2.22 2.18 2.15 2.10 2.05 2.02 1.99 1.96 1.94 1.92 1.90 1.88 1.87 1.81 1.78 1.75 1.73 1.71 1.66 1.64 1.62 1.61 1.60
19 247.6 19.44 8.67 5.81 4.57 3.88 3.46 3.16 2.95 2.79 2.66 2.56 2.47 2.40 2.34 2.29 2.24 2.20 2.17 2.14 2.08 2.04 2.00 1.97 1.95 1.92 1.90 1.88 1.87 1.85 1.80 1.76 1.74 1.72 1.69 1.64 1.62 1.61 1.60 1.59
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 24 26 28 30 32 34 36 38 40 50 60 70 80 100 200 300 500 1000 ∞
107
95%-Quantile der Fn1,n2;0.95 -Verteilung = P (Fn1,n2;0.95 ≤ x) = 0.95
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 24 26 28 30 32 34 36 38 40 50 60 70 80 100 200 300 500 1000 ∞
24 249.0 19.45 8.64 5.77 4.53 3.84 3.41 3.12 2.90 2.74 2.61 2.51 2.42 2.35 2.29 2.24 2.19 2.15 2.11 2.08 2.03 1.98 1.95 1.91 1.89 1.86 1.84 1.82 1.81 1.79 1.74 1.70 1.67 1.65 1.63 1.57 1.55 1.54 1.53 1.52
30 250.1 19.46 8.62 5.75 4.50 3.81 3.38 3.08 2.86 2.70 2.57 2.47 2.38 2.31 2.25 2.19 2.15 2.11 2.07 2.04 1.98 1.94 1.90 1.87 1.84 1.82 1.80 1.78 1.76 1.74 1.69 1.65 1.62 1.60 1.57 1.52 1.50 1.48 1.47 1.46
40 251.1 19.47 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.20 2.15 2.10 2.06 2.03 1.99 1.94 1.89 1.85 1.82 1.79 1.77 1.75 1.73 1.71 1.69 1.63 1.59 1.57 1.54 1.52 1.46 1.43 1.42 1.41 1.39
50 251.7 19.48 8.58 5.70 4.44 3.75 3.32 3.02 2.80 2.64 2.51 2.40 2.31 2.24 2.18 2.12 2.08 2.04 2.00 1.97 1.91 1.86 1.82 1.79 1.76 1.74 1.71 1.69 1.68 1.66 1.60 1.56 1.53 1.51 1.48 1.41 1.39 1.38 1.36 1.35
60 252.2 19.48 8.57 5.69 4.43 3.74 3.30 3.01 2.79 2.62 2.49 2.38 2.30 2.22 2.16 2.11 2.06 2.02 1.98 1.95 1.89 1.84 1.80 1.77 1.74 1.71 1.69 1.67 1.65 1.64 1.58 1.53 1.50 1.48 1.45 1.39 1.36 1.35 1.33 1.32
80 252.7 19.48 8.56 5.67 4.41 3.72 3.29 2.99 2.77 2.60 2.47 2.36 2.27 2.20 2.14 2.08 2.03 1.99 1.96 1.92 1.86 1.82 1.78 1.74 1.71 1.69 1.66 1.64 1.62 1.61 1.54 1.50 1.47 1.45 1.41 1.35 1.32 1.30 1.29 1.27
100 253.0 19.49 8.55 5.66 4.41 3.71 3.27 2.97 2.76 2.59 2.46 2.35 2.26 2.19 2.12 2.07 2.02 1.98 1.94 1.91 1.85 1.80 1.76 1.73 1.70 1.67 1.65 1.62 1.61 1.59 1.52 1.48 1.45 1.43 1.39 1.32 1.30 1.28 1.26 1.24
200 253.6 19.49 8.54 5.65 4.39 3.69 3.25 2.95 2.73 2.56 2.43 2.32 2.23 2.16 2.10 2.04 1.99 1.95 1.91 1.88 1.82 1.77 1.73 1.69 1.66 1.63 1.61 1.59 1.57 1.55 1.48 1.44 1.40 1.38 1.34 1.26 1.23 1.21 1.19 1.17
500 254.0 19.49 8.53 5.64 4.37 3.68 3.24 2.94 2.72 2.55 2.42 2.31 2.22 2.14 2.08 2.02 1.97 1.93 1.89 1.86 1.80 1.75 1.71 1.67 1.64 1.61 1.59 1.56 1.54 1.53 1.46 1.41 1.37 1.35 1.31 1.22 1.19 1.16 1.13 1.11
∞ 254.3 19.50 8.53 5.63 4.37 3.67 3.23 2.93 2.71 2.54 2.40 2.30 2.21 2.13 2.07 2.01 1.96 1.92 1.88 1.84 1.78 1.73 1.69 1.65 1.62 1.59 1.57 1.55 1.53 1.51 1.44 1.39 1.35 1.32 1.28 1.19 1.15 1.11 1.08 1.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 24 26 28 30 32 34 36 38 40 50 60 70 80 100 200 300 500 1000 ∞
108
20 248.0 19.45 8.66 5.80 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16 2.12 2.07 2.03 1.99 1.96 1.93 1.91 1.89 1.87 1.85 1.84 1.78 1.75 1.72 1.70 1.68 1.62 1.61 1.59 1.58 1.57
Ablesebeispiel: F7,20;0.95 = 3.44 Erweiterung der Tafel: Fn1,n2;1−α = F 1 n1,n2;α
95%-Quantile der Fn1,n2;0.95 -Verteilung = P (Fn1,n2;0.95 ≤ x) = 0.95-Fortsetzung
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 24 26 28 30 32 34 36 38 40 50 60 70 80 100 200 300 500 1000 ∞
Verteilungsfunktion der Poisson-Verteilung Pλ,k Die Verteilungsfunktion der Poissonverteilung ist gegeben mit: F (P(λ,k) ) = P (X ≤ k) =
k
P (X = k) =
i=0
0 1 2 3 4 5 6 7 8
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
k
e−λ
i=0
λk k!
0.05 0.95123 0.99879 0.99998 1.00000
0.1 0.90484 0.99532 0.99985 1.00000
0.2 0.81873 0.98248 0.99885 0.99994 1.00000
0.3 0.74082 0.96306 0.99640 0.99973 0.99998 1.00000
0.4 0.67032 0.93845 0.99207 0.99922 0.99994 1.00000
0.5 0.60653 0.90980 0.98561 0.99825 0.99983 0.99999 1.00000
0.6 0.54881 0.87810 0.97688 0.99664 0.99961 0.99996 1.00000
0.7 0.49659 0.84420 0.96586 0.99425 0.99921 0.99991 0.99999 1.00000
0.8 0.44933 0.80879 0.95258 0.99092 0.99859 0.99982 0.99998 1.00000
0.9 0.40657 0.77248 0.93714 0.98654 0.99766 0.99966 0.99996 1.00000
1.0 0.36788 0.73576 0.91970 0.98101 0.99634 0.99941 0.99992 0.99999 1.00000
0 1 2 3 4 5 6 7 8
1.5 0.22313 0.55783 0.80885 0.93436 0.98142 0.99554 0.99907 0.99983 0.99997 1.00000
2.0 0.13534 0.40601 0.67668 0.85712 0.94735 0.98344 0.99547 0.99890 0.99976 0.99995 0.99999 1.00000
3.0 0.04979 0.19915 0.42319 0.64723 0.81526 0.91608 0.96649 0.98810 0.99620 0.99890 0.99971 0.99993 0.99998 1.00000
4.0 0.01832 0.09158 0.23810 0.43347 0.62884 0.78513 0.88933 0.94887 0.97864 0.99187 0.99716 0.99908 0.99973 0.99992 0.99998 1.00000
5.0 0.00674 0.04043 0.12465 0.26503 0.44049 0.61596 0.76218 0.86663 0.93191 0.96817 0.98630 0.99455 0.99798 0.99930 0.99977 0.99993 0.99998 0.99999 1.00000
6.0 0.00248 0.01735 0.06197 0.15120 0.28506 0.44568 0.60630 0.74398 0.84724 0.91608 0.95738 0.97991 0.99117 0.99637 0.99860 0.99949 0.99983 0.99994 0.99998 0.99999 1.00000
7.0 0.00091 0.00730 0.02964 0.08177 0.17299 0.30071 0.44971 0.59871 0.72909 0.83050 0.90148 0.94665 0.97300 0.98719 0.99428 0.99759 0.99904 0.99964 0.99987 0.99996 0.99999 1.00000
8.0 0.00034 0.00302 0.01375 0.04238 0.09963 0.19124 0.31337 0.45296 0.59255 0.71662 0.81589 0.88808 0.93620 0.96582 0.98274 0.99177 0.99628 0.99841 0.99935 0.99975 0.99991 0.99997 0.99999 1.00000
9.0 0.00012 0.00123 0.00623 0.02123 0.05496 0.11569 0.20678 0.32390 0.45565 0.58741 0.70599 0.80301 0.87577 0.92615 0.95853 0.97796 0.98889 0.99468 0.99757 0.99894 0.99956 0.99983 0.99993 0.99998 0.99999 1.00000
10 0.00005 0.00050 0.00277 0.01034 0.02925 0.06709 0.13014 0.22022 0.33282 0.45793 0.58304 0.69678 0.79156 0.86446 0.91654 0.95126 0.97296 0.98572 0.99281 0.99655 0.99841 0.99930 0.99970 0.99988 0.99995 0.99998 0.99999 1.00000
15 0.00000 0.00000 0.00004 0.00021 0.00086 0.00279 0.00763 0.01800 0.03745 0.06985 0.11846 0.18475 0.26761 0.36322 0.46565 0.56809 0.66412 0.74886 0.81947 0.87522 0.91703 0.94689 0.96726 0.98054 0.98884 0.99382 0.99669 0.99828 0.99914 0.99958 0.99980 0.99991 0.99996 0.99998 0.99999 1.00000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Ablesebeispiel: F (P(1.5,4) ) = 0.98142 109