Springer-Lehrbuch
Ansgar Steland
Basiswissen Statistik Kompaktkurs für Anwender aus Wirtschaft, Informatik und Technik
Mit 15 Abbildungen
123
Professor Dr. Ansgar Steland RWTH Aachen Lehrstuhl für Stochastik und Institut für Statistik und Wirtschaftsmathematik 52056 Aachen
[email protected]
ISSN 0937-7433 ISBN 978-3-540-74204-3 Springer Berlin Heidelberg New York
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet ¨ uber http://dnb.d-nb.de abrufbar. Dieses Werk ist urheberrechtlich gesch¨ utzt. Die dadurch begr¨ undeten Rechte, insbesondere die der ¨ bersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der FunkU sendung, der Mikroverfilmung oder der Vervielf¨ altigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielf¨ altigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zul¨ assig. Sie ist grunds¨ atzlich verg¨ utungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de © Springer-Verlag Berlin Heidelberg 2007 Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten w¨ aren und daher von jedermann benutzt werden d¨ urften. Herstellung: LE-TEX Jelonek, Schmidt & V¨ ockler GbR, Leipzig Umschlaggestaltung: WMX Design GmbH, Heidelberg SPIN 12106042
154/3180YL - 5 4 3 2 1 0
Gedruckt auf s¨ aurefreiem Papier
F¨ ur Heike, Solveig und Adrian.
Vorwort
Modelle und Methoden der angewandten Wahrscheinlichkeitstheorie und Statistik sind aus den modernen Wissenschaften, aber auch aus Industrie und Gesellschaft, nicht mehr wegzudenken. Wirtschaftswissenschaftler, Informatiker und Ingenieure ben¨otigen heutzutage profunde Kenntnisse in diesen Bereichen. Zufallsbehaftete Ph¨anomene sind durch stochastische Ans¨atze zu modellieren und anfallende Daten durch statistische Methoden zu analysieren. Wahrscheinlichkeitstheorie und Statistik haben sich nicht nur bei klassischen Aufgaben wie der Modellierung und Auswertung von Umfragen, Experimenten oder Beobachtungsstudien bew¨ahrt. Sie spielen auch eine entscheidende Rolle f¨ ur das theoretische Verst¨andnis hochkomplexer Systeme. Dies ist wiederum oftmals die notwendige Grundlage f¨ ur die Entwicklung moderner Produkte und Dienstleistungen. Beispielhaft seien hier die modernen Finanzm¨arkte und der Datenverkehr im Internet genannt. Der in diesem Text behandelte Stoff umfasst haupts¨achlich die in der anwendungsorientierten Statistik-Ausbildung f¨ ur Informatiker, Wirtschaftswissenschaftler und Ingenieure allgemein u ¨blichen Themen. Insbesondere sind die Inhalte der zugeh¨origen Lehrveranstaltungen an der RWTH Aachen abgedeckt. In diesem Kompaktkurs bin ich sparsam - aber gezielt - mit illustrierenden Beispielen umgegangen. Viele sind so einfach wie m¨oglich gehalten, um das ber¨ uhmte Aha-Erlebnis zu erm¨oglichen. Andere wollen motivieren und zeigen daher Anwendungen auf. Ein ausf¨ uhrlicher mathematischer Anhang, Mathematik - kompakt, stellt die wichtigsten mathematischen Zusammenh¨ange, Formeln und Methoden aus Analysis und linearer Algebra zusammen. So ist ein schnelles und zielf¨ uhrendes Nachschlagen m¨oglich. Das zugrunde liegende didaktische Konzept wurde u ¨ber viele Jahre an mehreren deutschen Universit¨aten entwickelt. Studierende tun sich in den ersten Semestern oftmals mit mathematischen Formalismen schwer. Unter dem Motto: So wenig Formalismus wie m¨oglich, aber so viel wie n¨otig“ habe ich versucht, ” diesem Umstand Rechnung zu tragen. Die Erfahrung zeigt, dass hierdurch die eigentlichen mathematischen Inhalte - um die es ja geht - von den Stu-
VIII
Vorwort
dierenden schneller und leichter erfasst und verstanden werden. So manche Erkl¨arung eines mathematischen Sachverhalts lebt davon, dass der Lehrende seine Worte mit einer kleinen Skizze veranschaulicht oder in Schritten eine Formel entwickelt. Dies l¨asst sich in einem Buch nicht umsetzen. Ich habe mich aber bem¨ uht, m¨oglichst viele eing¨angige verbale Erkl¨arungen aufzunehmen, die sich im Lehralltag bew¨ahrt haben. Einige mit einem Sternchen gekennzeichneten Abschnitte sind etwas anspruchsvoller oder nur f¨ ur einen Teil der Leserschaft gedacht. Dort werden jedoch auch Themen angesprochen, die einen kleinen Einblick in wichtige Bereiche der modernen angewandten Stochastik und Statistik bieten und vielleicht den einen oder anderen Leser motivieren, in weiterf¨ uhrende Literatur zu schauen. Mein Dank gilt Barbara Giese, die weite Teile dieses Buchs mit großer Expertise und Sorgfalt getippt und das Layout verbessert hat. Dipl.-Math. Sabine Teller und Dipl.-Math. Andr´e Thrun haben das Manuskript sehr gewissenhaft durchgesehen, etliche Tippfehler und Ungenauigkeiten gefunden und Verbesserungsvorschl¨age gemacht. Frau Lilith Braun vom Springer-Verlag danke ich f¨ ur die angenehme und vertrauensvolle Zusammenarbeit bei diesem Buchprojekt.
Aachen, 15. Juli 2007
Ansgar Steland
Inhaltsverzeichnis
1
Deskriptive und explorative Statistik . . . . . . . . . . . . . . . . . . . . . .
1
1.1 Motivation und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3 Merkmale und ihre Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4 Studiendesigns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4.1 Experimente und Beobachtungsstudien . . . . . . . . . . . . . . .
7
1.4.2 Querschnittsstudie versus Longitudinalstudie . . . . . . . . . .
7
1.4.3 Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.5 Aufbereitung von univariaten Daten . . . . . . . . . . . . . . . . . . . . . . .
8
1.5.1 Nominale und ordinale Daten . . . . . . . . . . . . . . . . . . . . . . .
9
1.5.2 Metrische Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.6 Quantifizierung der Gestalt empirischer Verteilungen . . . . . . . . . 21 1.6.1 Lagemaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.6.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.6.3 Schiefe versus Symmetrie . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.6.4 Quantile und abgeleitete Kennzahlen . . . . . . . . . . . . . . . . . 35 1.6.5 F¨ unf–Punkte–Zusammenfassung und Boxplot . . . . . . . . . 37 1.6.6 QQ-Plot (Quantildiagramm) . . . . . . . . . . . . . . . . . . . . . . . . 39 1.7 Konzentrationsmessung* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.7.1 Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.7.2 Gini–Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1.7.3 Herfindahl-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
X
Inhaltsverzeichnis
1.8 Deskriptive Korrelations- und Regressionsanalyse . . . . . . . . . . . . 45 1.8.1 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 1.8.2 Grenzen der Korrelationsrechnung . . . . . . . . . . . . . . . . . . . 55 1.8.3 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . 55 1.8.4 Grenzen der Regressionsrechnung . . . . . . . . . . . . . . . . . . . . 60 1.9 Deskriptive Zeitreihenanalyse* . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 1.9.1 Indexzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 1.9.2 Zerlegung von Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 1.9.3 Bestimmung und Bereinigung der Trendkomponente . . . 65 1.9.4 Bestimmung einer periodischen Komponente . . . . . . . . . . 66 2
Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.1.1 Zufallsexperimente und Wahrscheinlichkeit . . . . . . . . . . . 70 2.1.2 Chancen (Odds)∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.1.3 Ereignis-Algebra∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 2.2.1 Begriff der bedingten Wahrscheinlichkeit . . . . . . . . . . . . . 79 2.2.2 Satz von totalen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . 81 2.2.3 Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 2.3 Mehrstufige Wahrscheinlichkeitsmodelle . . . . . . . . . . . . . . . . . . . . 83 2.4 Unabh¨ angige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 2.5 Zufallsvariablen und ihre Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 87 2.5.1 Die Verteilung einer Zufallsvariable . . . . . . . . . . . . . . . . . . 88 2.5.2 Die Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 2.5.3 Quantilfunktion und p-Quantile . . . . . . . . . . . . . . . . . . . . . 90 2.5.4 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 2.5.5 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 2.5.6 Unabh¨angigkeit von Zufallsvariablen und Zufallsstichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 2.5.7 Verteilung der Summe: Die Faltung . . . . . . . . . . . . . . . . . . 96 2.6 Erwartungswert, Varianz und Momente . . . . . . . . . . . . . . . . . . . . 97 2.6.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Inhaltsverzeichnis
XI
2.6.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 2.6.3 Momente und Transformationen von Zufallsvariablen . . 100 2.6.4 Entropie∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 2.7 Diskrete Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 2.7.1 Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 2.7.2 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 2.7.3 Geometrische Verteilung und negative Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 2.7.4 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 2.8 Stetige Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 2.8.1 Stetige Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 2.8.2 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 2.8.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 2.9 Erzeugung von Zufallszahlen∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2.10 Zufallsvektoren und ihre Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 110 2.10.1 Verteilungsfunktion und Produktverteilung . . . . . . . . . . . 111 2.10.2 Diskrete Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 2.10.3 Stetige Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 2.10.4 Bedingte Verteilung und Unabh¨angigkeit . . . . . . . . . . . . . 115 2.10.5 Bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 2.10.6 Erwartungswertvektor und Kovarianzmatrix . . . . . . . . . . 117 2.11 Grenzwerts¨atze und Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . 119 2.11.1 Das Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . 119 2.11.2 Der Hauptsatz der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 121 2.11.3 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . 122 2.11.4 Konvergenzbegriffe∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 2.12 Verteilungsmodelle f¨ ur Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . 125 2.12.1 Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 2.12.2 Multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 126 2.13 Erzeugende Funktionen, Laplace-Transformierte∗ . . . . . . . . . . . . 128 2.14 Markov-Ketten∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 2.14.1 Modell und Chapman-Kolmogorov-Gleichung . . . . . . . . . 131 2.14.2 Station¨are Verteilung und Ergodensatz . . . . . . . . . . . . . . . 133
XII
3
Inhaltsverzeichnis
Schließende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3.2 Sch¨atzprinzipien und G¨ utekriterien . . . . . . . . . . . . . . . . . . . . . . . . 137 3.2.1 Nichtparametrische Sch¨atzung . . . . . . . . . . . . . . . . . . . . . . 137 3.2.2 Dichtesch¨atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 3.2.3 Das Likelihood-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 3.2.4 G¨ utekriterien f¨ ur statistische Sch¨atzer . . . . . . . . . . . . . . . . 146 3.3 Testverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 3.3.1 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 3.3.2 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 3.3.3 F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 3.4 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 3.4.1 Konfidenzintervall f¨ ur µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 3.4.2 Konfidenzintervalle f¨ ur σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 154 3.4.3 Konfidenzintervall f¨ ur p . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 3.5 Einf¨ uhrung in die statistische Testtheorie . . . . . . . . . . . . . . . . . . . 155 3.6 1-Stichproben-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 3.6.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 3.6.2 Stichproben-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 3.6.3 Gauß- und t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 3.6.4 Vorzeichentest und Binomialtest . . . . . . . . . . . . . . . . . . . . . 169 3.7 2-Stichproben-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 3.7.1 Verbundene Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 3.7.2 Unverbundene Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . 173 3.7.3 Wilcoxon-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 3.7.4 2-Stichproben Binomialtest . . . . . . . . . . . . . . . . . . . . . . . . . 179 3.8 Korrelationstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 3.8.1 Test auf Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 3.8.2 Rangkorrelationstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 3.9 Lineares Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 3.9.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 3.9.2 Statistische Eigenschaften der KQ-Sch¨atzer . . . . . . . . . . . 184
Inhaltsverzeichnis
XIII
3.9.3 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 3.10 Multiple lineare Regression (Lineares Modell)∗ . . . . . . . . . . . . . . 187 3.10.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 3.10.2 KQ-Sch¨atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 3.10.3 Verteilungseigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 3.10.4 Anwendung: Funktionsapproximation . . . . . . . . . . . . . . . . 190 3.11 Analyse von Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 3.11.1 Vergleich diskreter Verteilungen . . . . . . . . . . . . . . . . . . . . . 192 3.11.2 Chiquadrat-Unabh¨angigkeitstest . . . . . . . . . . . . . . . . . . . . . 193 3.12 Elemente der Bayes-Statistik∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 3.12.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 3.12.2 Minimax-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 3.12.3 Bayes-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 A
Mathematik - kompakt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 A.1 Notationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 A.1.1 Griechische Buchstaben (Auswahl) . . . . . . . . . . . . . . . . . . 201 A.1.2 Mengen und Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 A.2 Punktfolgen und Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 A.2.1 Konvergenz von Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 A.2.2 Summen und Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 A.3 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 A.3.1 Spezielle Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 A.3.2 Grenzwert von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 207 A.3.3 Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 A.3.4 Potenzreihen∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 A.4 Differenzialrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 A.4.1 Ableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 A.4.2 H¨ohere Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 A.5 Taylorpolynom und Taylorentwicklung . . . . . . . . . . . . . . . . . . . . . 211 A.6 Optimierung von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 A.7 Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
XIV
Inhaltsverzeichnis
A.7.1 Stammfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 A.7.2 Integrationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 A.7.3 Uneigentliches Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 A.8 Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 A.8.1 Lineare Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 A.8.2 Skalarprodukt und Norm . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 A.9 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 A.10 L¨osung linearer Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . 222 A.10.1 Gauß-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 A.10.2 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 A.11 Funktionen mehrerer Ver¨anderlicher . . . . . . . . . . . . . . . . . . . . . . . 226 A.11.1 Partielle Differenzierbarkeit und Kettenregel . . . . . . . . . . 228 A.11.2 Lineare und quadratische Approximation, Hessematrix . 229 A.11.3 Optimierung von Funktionen . . . . . . . . . . . . . . . . . . . . . . . 230 A.11.4 Optimierung unter Nebenbedingungen . . . . . . . . . . . . . . . 232 A.12 Mehrdimensionale Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
1 Deskriptive und explorative Statistik
Die deskriptive (beschreibende) Statistik hat zum Ziel, empirische Daten durch Tabellen und Grafiken u ¨bersichtlich darzustellen und zu ordnen, sowie durch geeignete grundlegende Kenngr¨oßen zahlenm¨aßig zu beschreiben. Vor allem bei umfangreichem Datenmaterial ist es sinnvoll, sich einen ersten ¨ Uberblick zu verschaffen. Durch eine systematische Beschreibung der Daten mit Hilfsmitteln der deskriptiven Statistik k¨onnen mitunter auch Fehler in den Daten - beispielsweise durch Tippfehler bei der Dateneingabe oder fehlerhafte Ergebnisse von Texterkennungssystemen - erkannt werden. Die deskriptive Statistik verwendet keine stochastischen Modelle, so dass die dort getroffenen Aussagen nicht durch Fehlerwahrscheinlichkeiten abgesichert sind. Dies kann durch die Methoden der schließenden Statistik erfolgen, sofern die untersuchten Daten den dort unterstellten Modellannahmen gen¨ ugen. Die explorative (erkundende) Statistik hat dar¨ uber hinaus zum Ziel, bisher unbekannte Strukturen und Zusammenh¨ange in den Daten zu finden und hierdurch neue Hypothesen zu generieren. Diese auf Stichprobendaten beruhenden Hypothesen k¨ onnen dann im Rahmen der schließenden Statistik mittels wahrscheinlichkeitstheoretischer Methoden auf ihre Allgemeing¨ ultigkeit untersucht werden.
1.1 Motivation und Beispiele Beispiel 1.1.1. Moderne Photovoltaik-Anlagen bestehen aus verschalteten Modulen von Solarzellen, sogenannten PV-Modulen, in denen die Solarzellen vor Besch¨adigung durch ¨außere Einfl¨ uße gesch¨ utzt sind. F¨ ur die Stromgewinnung wesentlich ist die maximale Leistung (in Watt) unter normierten Bedingungen. Besteht eine Anlage aus n PV-Modulen mit Leistungen x1 , . . . , xn , so ist die Gesamtleistung gerade die Summe s = x1 +· · ·+xn . Die Leistung hochwertiger PV-Module sollte nur geringf¨ ugig von der Nennleistung abweichen. Zur Bewertung der Produktqualit¨at ist somit die Streuung der Messwerte zu
2
1 Deskriptive und explorative Statistik
bewerten. Die Analyse von 30 Modulen, die zuf¨allig aus einer anderen Produktionscharge ausgew¨ahlt wurden, ergab: 214.50 218.43 212.38 211.61
210.07 217.69 222.44 217.40
219.75 210.48 217.93 217.97 217.07 219.05 216.11 217.19 220.42 217.60 222.01 219.58 217.87 217.03 219.72 217.99 217.87 221.96 210.42 217.48 222.08 216.78
Es f¨allt auf, dass etliche Module mehr als 220 [W] leisten, andere hingegen deutlich weniger. Das Schlechteste leistet lediglich 212.8 [W]. Es ist also zu kl¨ aren, ob die Messungen die Herstellerangabe st¨ utzen, oder ob eine signifikante Abweichung (nach unten) vorliegt. Beispiel 1.1.2. Das US-Magazin Forbes ver¨offentlichte 1993 Daten von 59 Vorstandsvorsitzenden (CEOs) US-amerikanischer Unternehmen, deren Umsatzerl¨ose zwischen 5 und 350 Millionen USD lagen. In der folgenden Liste sind jeweils das Jahresgehalt und das Alter des CEOs aufgef¨ uhrt: (145,53) (291,36) (659,48) (298,53) (21,58) (808,40) (317,57) (250,52)
(621,43) (58,45) (234,62) (1103,57) (298,48) (543,61) (482,69) (396,62)
(262,33) (498,55) (396,45) (406,53) (350,38) (149,63) (155,44) (572,48)
(208,45) (643,50) (300,37) (254,61) (800,74) (350,56) (802,56)
(362,46) (390,49) (343,50) (862,47) (726,60) (242,45) (200,50)
(424,55) (332,47) (536,50) (204,56) (370,32) (198,61) (282,56)
(339,41) (750,69) (543,50) (206,44) (536,51) (213,70) (573,43)
(736,55) (368,51) (217,58) (250,46) (291,50) (296,59) (388,48)
Deuten diese Daten auf einen Zusammenhang zwischen Alter und Gehalt hin? Kann dieser Zusammenhang eventuell sogar n¨aherungsweise durch eine lineare Funktion beschrieben werden? Beispiel 1.1.3. F¨ ur das Jahr 2005 wurden von der European Automobile Manufactures Association (ACEA) folgende Daten u ¨ber Neuzulassungen (aufgeschl¨ usselt nach Herstellern bzw. Herstellergruppen) ver¨offentlicht: Hersteller (-gruppe) Neuzulassungen 2005 Anteil (ohne ANDERE in %) BMW 772744 4.6 DAIMLER-CHRYSLER 1146034 6.9 FIAT 1265670 7.6 FORD 1822925 10.9 GM 1677496 10.0 JAPAN 2219902 13.3 KOREA 616092 3.7 MG-ROVER 46202 0.3 PSA 2355505 14.1 RENAULT 1754086 10.5 VOLKSWAGEN 2934845 17.6 ANDERE 101345
1.2 Grundbegriffe
3
Diese Daten beschreiben, wie sich die Neuzulassungen auf dem Automobilmarkt auf die verschiedenen Anbieter verteilen. Ein wichtiger Aspekt der Analyse von M¨ arkten ist die Marktkonzentration. Wie kann die Konzentration gemessen und grafisch veranschaulicht werden?
Beispiel 1.1.4. Besteht ein Zusammenhang zwischen hohen Einnahmen aus ¨ Olexporten und einer hohen Wirtschaftsleistung? In der folgenden Tabelle sind ¨ f¨ ur einige erd¨olexportierende Staaten die Einnahmen aus Olexporten sowie das Pro-Kopf-Bruttoinlandsprodukt verzeichnet. Die Angaben beziehen sich auf das Jahr 2005. Staat Einnahmen (Mrd. USD) Pro-Kopf-BIP (USD) Saudi-Arabien 153 12800 Russland 122 11100 Norwegen 53 42300 V.A.E. 46 43400 Venezuela 38 6100 Nigeria 45 1400 Diese Angaben erschienen im Februar 2007 im National Geographic in einem Artikel u ¨ber die wirtschaftlichen N¨ote Nigerias. Ein genauer Blick auf die Zahlen zeigt, dass Nigeria zwar betr¨achtliche Einnahmen vorweisen kann, jedoch ein verschwindend geringes Pro-Kopf-BIP erzielt. Ist Nigeria ein Sonderfall ¨ oder besteht kein positiver Zusammenhang zwischen Oleinnahmen und dem Pro-Kopf-BIP f¨ ur die betrachteten Staaten?
1.2 Grundbegriffe Der erste Schritt zur Datenanalyse ist die Erhebung von Daten an ausgew¨ahlten Objekten, die statistische Einheiten, Untersuchungseinheiten oder auch Merkmalstr¨ ager genannt werden. Werden die Daten durch Experimente gewonnen, spricht man auch von Versuchseinheiten und im Kontext von Beobachtungsstudien von Beobachtungseinheiten. Die Menge der statistischen Einheiten, u ¨ber die eine Aussage getroffen werden soll, bildet die Grundgesamtheit, auch Population genannt. Der erste wichtige Schritt einer statistischen Untersuchung ist die pr¨azise Definition der relevanten statistischen Einheiten und der Grundgesamtheit. Beispiel 1.2.1. Im Rahmen einer Befragung soll die Wirtschaftskraft von kleinen IT-Unternehmen in der Euregio untersucht werden. Zun¨achst muss der Begriff des kleinen IT-Unternehmens im Sinne von Ein- und Ausschlusskriterien genau definiert werden. Hier bieten sich Kriterien an die Mitarbeiterzahl und/oder den Umsatz an. Die Grundgesamtheit besteht dann aus allen IT-Unternehmen der Euregio, welche diese Kriterien erf¨ ullen.
4
1 Deskriptive und explorative Statistik
In diesem Beispiel ist die Grundgesamtheit endlich. Dies muss nicht immer der Fall sein. In der Praxis ist eine Untersuchung aller Elemente einer Grundgesamtheit (Totalerhebung) aus Kosten- und Zeitgr¨ unden meist nicht m¨oglich. Somit muss sich eine Untersuchung auf eine repr¨ asentative Teilauswahl st¨ utzen. Eine Teilauswahl einer Grundgesamtheit nennt man Stichprobe. Es stellt sich die Frage, wann eine Stichprobe repr¨asentativ f¨ ur die Grundgesamtheit ist. Gemeinhin nennt man eine Teilauswahl repr¨ asentativ, wenn sie hinsichtlich wichtiger Charakteristika strukturgleich zur Grundgesamtheit ist oder ihr zumindest sehr ¨ahnelt. Bei einer Befragung von Studierenden einer Universit¨at sind nahe liegende Kriterien hierf¨ ur das Geschlecht, der Studiengang und das Fachsemester. Nur wenn hier keine u ¨berm¨aßig großen Abweichungen zwischen Stichprobe und Grundgesamtheit bestehen, kann man aussagekr¨aftige Ergebnisse erwarten. Mitunter werden explizit Quoten vorgegeben, welche die Stichprobe einhalten muss. Man spricht dann von einer quotierten Teilauswahl. Um eine getreues Abbild der Grundgesamtheit zu erhalten, sollte die Auswahl aus der Grundgesamtheit zuf¨ allig erfolgen. Man spricht von einer (einfachen) Zufallsstichprobe, wenn jede Teilmenge der Grundgesamtheit dieselbe Wahrscheinlichkeit besitzt, gezogen zu werden. Insbesondere hat dann jedes Element der Grundgesamtheit dieselbe Chance, in die Stichprobe zu gelangen. Der Begriff der Zufallsstichprobe wird sp¨ater noch pr¨azisiert. Im n¨achsten Schritt der Datenerhebung werden an den (ausgew¨ahlten) statistischen Einheiten die interessierenden Gr¨oßen erhoben, die Merkmale oder Variablen heißen. Der eigentliche Fachbegriff im Rahmen der deskriptiven Statistik ist Merkmal; Variable ist jedoch ein gebr¨auchliches und verbreitetes Synonym. Im Folgenden werden absichtlich beide verwendet. Die Werte, die von einem Merkmal angenommen werden k¨onnen, heißen Merkmalsauspr¨ agungen oder kurz (m¨ ogliche) Auspr¨ agungen. Mathematisch ist ein Merkmal eine Abbildung X : G → M , die jeder statistischen Einheit g ∈ G eine Auspr¨ agung X(g) ∈ M zuordnet.
1.3 Merkmale und ihre Klassifikation Die genaue Festlegung der relevanten Merkmale einer statistischen Untersuchung und der m¨oglichen Auspr¨agungen ist ein wichtiger Schritt in einer statistischen Untersuchung, da hierdurch die maximale Information in einer Erhebung festgelegt wird. Fehler, die hier erfolgen, k¨onnen meist nicht mehr - oder nur unter großen M¨ uhen und Kosten - korrigiert werden. Wird bei einer Befragung von Studierenden Geschlecht und Studienfach erhoben, um die Studierneigung der Geschlechter zu analysieren, so ist sorgf¨altig zu u ¨berlegen, wie detailliert das Studienfach abgefragt werden soll, beispielsweise ob
1.3 Merkmale und ihre Klassifikation
5
bei einem Studium des Wirtschaftsingenieurwesens die Fachrichtung (Bauingenieurwesen, Maschinenbau, ...) mit erfasst werden soll. Wir betrachten dazu einige Beispiele: statistische Einheit Merkmal Studierender Studienfach Geschlecht Alter IT-Unternehmen Mitarbeiterzahl Umsatz Gewinn/Verlust Arbeitnehmer Einkommen Bildungsniveau Arbeitszeit Regionen Arbeitslosenquote Wirtschaftskraft Ballungsr¨ aume Bev¨ olkerungsdichte politische Funktion Staaten
Merkmalsauspr¨ agungen BWL/Informatik/WiIng/... M/W R+ N R+ R R+ Abitur/Bachelor/Master/... R0+ [0,1] R+ Q oder R Mittelzentrum/Landeshauptstadt/ Hauptstadt Bruttoinlandsprodukt R+ Verschuldung [0,100] (in % des BIP)
Aus diesen Beispielen wird ersichtlich, dass ganz unterschiedliche Wertemengen und Informationsstrukturen f¨ ur die Merkmalsauspr¨agungen vorkommen k¨ onnen, die unterschiedliche Weiterverarbeitungsm¨oglichkeiten (insbesondere Rechenoperationen und Vergleiche) erlauben. W¨ahrend das Merkmal Geschlecht nur zwei Auspr¨agungen besitzt, die der reinen Unterscheidung dienen, besitzt die Variable Bildungsniveau mehrere Auspr¨agungen, die angeordnet werden k¨onnen. Die Mitarbeiterzahl eines Unternehmens ist eine Z¨ahlvariable mit unendlich vielen m¨oglichen Auspr¨agungen, die numerische Operationen wie das Addieren erlaubt. Das Betriebsergebnis (Gewinn/Verlust) kann jeden beliebigen nicht-negativen bzw. reellen Zahlenwert annehmen. In der Statistik werden Merkmale und ihre Auspr¨agungen wie folgt klassifiziert: Zun¨achst unterscheidet man stetige und diskrete Merkmale. Kann ein Merkmal nur endlich viele oder abz¨ahlbar unendlich viele Auspr¨agungen annehmen, dann spricht man von einem diskreten Merkmal. Beispiele hierf¨ ur sind die Anzahl defekter Dichtungen in einer Zehnerpackung oder die Wartezeit in Tagen bis zum ersten Absturz eines neuen Computers. Kann hingegen jeder beliebige Wert eines Intervalls (oder aus ganz R) angenommen werden, so spricht man von einem stetigen Merkmal. Umsatz und Gewinn eines Unternehmens, Aktienkurse und -renditen, oder die K¨orpergr¨oße sind typische stetige Merkmale. Man spricht mitunter von quasi-stetigen Merkmalen, wenn die Auspr¨agungen zwar diskret sind, aber die Aufl¨osung so fein ist, dass man
6
1 Deskriptive und explorative Statistik
sie wie stetige Variablen behandeln kann. Dies ist beispielsweise der Fall, wenn die Leistung eines Solarmoduls auf ganze Zehntelwatt gerundet wird. Stets kann man von stetigen Variablen durch Vergr¨oberung (Rundung oder Gruppierung) zu diskreten Variablen u ¨bergehen. So ist es etwa oftmals u ¨blich, das Einkommen nicht exakt zu erheben, sondern lediglich die Einkommensklasse oder -gruppe, da kaum jemand bereit ist, sein genaues Einkommen anzugeben. Sind beispielsweise die Intervalle [0,500], (500,1000], (1000,2000],(2000,3000], (3000,∞) als Klassen vorgegegeben, so wird nur vermerkt, welcher Einkommensklasse eine Beobachtung entspricht. Es ist zu beachten, dass mit solch einer Gruppierung stets ein Informationsverlust verbunden ist: Sowohl die Anordnung als auch die genauen Werte gehen verloren (Kompression der Daten). Eine genauere Klassifizierung erfolgt auf Grund der Skala, mit der eine Variable gemessen wird. Nominalskala: Bei einem nominal skalierten Merkmal sind die Auspr¨ agungen lediglich unterscheidbar und stehen in keiner Beziehung zueinander. Beispiele hierf¨ ur sind das Geschlecht oder die Religionszugeh¨origkeit einer Person. Gibt es nur zwei m¨ogliche Auspr¨agungen, so spricht man auch von einer dichotomen oder bin¨ aren Variable. In der Praxis werden die Auspr¨ agungen von nominal skalierten Variablen oft durch Zahlen kodiert. Es ist dann jedoch zu beachten, dass Rechenoperationen wie das Addieren oder Multiplizieren zwar formal durchgef¨ uhrt werden k¨onnen, aber inhaltlich sinnlos sind. Ordinalskala: Bei einer ordinal skalierten Variable k¨onnen die Auspr¨agungen miteinander verglichen werden. Beispiele hierf¨ ur sind der h¨ochste erreichte Bildungsabschluss oder Schulnoten. Letztere sind auch ein gutes Beispiel f¨ ur ein ordinales Merkmal, bei dem die Abst¨ande zwischen den Auspr¨agungen nicht interpretiert werden k¨onnen, auch wenn formal Differenzen berechnet und verglichen werden k¨onnten. Bei ordinal skalierten Merkmalen k¨onnen die Auspr¨agungen stets auf die Zahlen von 1 bis n oder ganz N abgebildet werden. Metrische Skalen: Viele Merkmale werden auf einer sogenannten metrischen Skala - auch Kardinalskala genannt - gemessen, die man sich als Mess-Stab anschaulich vorstellen kann, bei dem Vielfache einer Grundeinheit (Maßeinheit) abgetragen sind. Hier k¨onnen auch Teile und Vielfache der Maßeinheit betrachtet werden, so dass die Abst¨ande von Auspr¨agungen, also Intervalle, sinnvoll interpretiert werden k¨onnen. Eine metrische Skala heißt Intervallskala, wenn der Nullpunkt willk¨ urlich gew¨ahlt ist. Dann k¨onnen Quotienten nicht sinnvoll interpretiert werden. Dies ist beispielsweise bei der Temperaturmessung der Fall. 0◦ Celsius entsprechen 32◦ Fahrenheit. Die Umrechnung erfolgt nach der Formel y = 1.8 · c + 32. Die Formulierung, bei 20◦ Celsius sei es doppelt so warm wie bei 10◦ ist unsinnig. Ist der Nullpunkt
1.4 Studiendesigns
7
hingegen eindeutig bestimmt, wie es bei der L¨ angen- oder Gewichtsmessung aus physikalischen Gr¨ unden der Fall ist, spricht man von einer Verh¨ altnis-, Quotienten- oder auch Ratioskala. Bei einem ratioskalierten Merkmal sind Quotienten sinnvoll interpretierbar. Alle Geldgr¨oßen und Anzahlen sind ratioskaliert. Statistische Methoden, die f¨ ur ein gewisses Skalenniveau konzipiert sind, k¨ onnen generell auf Daten angewandt werden, die ein h¨oheres Skalenniveau besitzen: Man kann stets durch Vergr¨oberung zu einer niedrigeren Skala wechseln, wie wir bei der Gruppierung von Einkommensdaten gesehen hatten. Dies ist jedoch zwangsl¨aufig mit einem Informationsverlust verbunden, so dass die resultierende statistische Analyse suboptimal sein kann.
1.4 Studiendesigns 1.4.1 Experimente und Beobachtungsstudien Daten k¨onnen ganz unterschiedlich erhoben werden. Bei Experimenten werden (Ziel-) Merkmale von Versuchseinheiten erhoben, denen im Rahmen des Experiments bestimmte Auspr¨agungen anderer Merkmale (die Versuchsbedingungen) zugewiesen wurden. Sollen etwa zwei Schulungsmethoden A und B anhand der Ergebnisse eines normierten Tests verglichen werden, dann wird man die Versuchspersonen zuf¨allig in zwei Gruppen aufteilen, die mit der Methode A bzw. B geschult werden. Das interessierende (Ziel-) Merkmal ist hier die erreichte Punktzahl im Test, die Schulungsmethode hingegen das zugewiesene Merkmal. Im Gegensatz hierzu werden bei einer (reinen) Beobachtungsstudie alle Merkmale beobachtet, es werden keine Merkmalsauspr¨agungen zugewiesen. Bei Wirtschaftsstudien ist dies auch in der Regel gar nicht m¨oglich. Werden etwa Unternehmensgr¨oße und -rentabilit¨at erhoben, so ist dies eine Beobachtungsstudie, da keine der Auspr¨agungen einem Unternehmen zugewiesen werden kann. Im strengen Sinne erlauben lediglich experimentelle Studien R¨ uckschl¨ usse auf kausale Zusammenh¨ange. Sie sind daher Beobachtungsstudien vorzuziehen, wenn dies m¨oglich ist. Beobachtet man n¨amlich einen Zusammenhang zwischen zwei Variablen X und Y , so kann dieser durch eine dritte Variable Z f¨alschlicherweise hervorgerufen sein. Man spricht von einem Confounder. Typische Confounder sind Alter und Zeit (engl: to confound = vereiteln, verwechseln, durcheinander bringen). 1.4.2 Querschnittsstudie versus Longitudinalstudie Bei Beobachtungsstudien gibt es zwei wichtige Erhebungstypen: Bei einer Querschnittsstudie (cross-sectional study) werden an einem festen Zeitpunkt
8
1 Deskriptive und explorative Statistik
die interessierenden Merkmale an den statistischen Einheiten erhoben. Aus einer Querschnittsstudie k¨onnen Aussagen u ¨ber die Gesamtheit der untersuchten Einheiten oder – bei einer Zufallsstichprobe – u ¨ber die zugrunde liegende Grundgesamtheit gewonnen werden. Bei einer Longitudinalstudie werden an einem Kollektiv (Panel) von Versuchseinheiten Merkmale an mehreren Zeitpunkten erhoben. Das Kollektiv bleibt hierbei unver¨andert. Das prim¨are Ziel ist die Analyse von zeitlichen Entwicklungen. Wird das Kollektiv als Zufallsstichprobe aus einer Grundgesamtheit gezogen, so k¨onnen Aussagen u ¨ber die zeitliche Entwicklung der Grundgesamtheit gewonnen werden. Beispiel 1.4.1. Das sozio¨okonomische Panel (SOEP) ist eine seit 1984 laufende Longitudinalstudie privater Haushalte in der Bundesrepublik. Etwa 12000 ausgew¨ahlte Haushalte mit rund 20000 Menschen (deutschst¨ammige und mit Migrationshintergrund) werden j¨ahrlich befragt. Themenschwerpunkte sind Haushaltszusammensetzung, Familienbiografie, berufliche Mobilit¨at, Einkommensverl¨aufe, Gesundheit und Lebenszufriedenheit. 1.4.3 Zeitreihen Man spricht von einer Zeitreihe, wenn die interessierenden Merkmale an einer einzigen statistischen Einheit, jedoch zu verschiedenen Zeitpunkten erhoben werden. Zeitreihen werden im Abschnitt 1.9 gesondert betrachtet.
1.5 Aufbereitung von univariaten Daten Im Folgenden stellen wir nun einige grundlegende statistische Ans¨atze zur zahlenm¨aßigen (tabellarischen) Aufbereitung und visuellen (grafischen) Darstellung von Datenmaterial vor. Hierbei spielt es keine Rolle, ob eine Totalerhebung oder Stichprobe vorliegt. Ausgangspunkt sind die Rohdaten (Prim¨ ardaten, Urliste), welche nach der Erhebung vorliegen. Wurden p Merkmale an n statistischen Einheiten erhoben, so k¨onnen die erhobenen Auspr¨agungen in einer Tabelle (Matrix) dargestellt werden. Diese Tabelle heißt Datenmatrix. Es werden die an den Untersuchungseinheiten erhobenen Werte zeilenweise untereinander geschrieben. Beispielsweise: stat. Einheit Nr. Geschlecht Alter Gr¨oße Messwert 1 M 18 72.6 10.2 2 W 21 18.7 9.5 .. .. . . n W 19 15.6 5.6
1.5 Aufbereitung von univariaten Daten
9
In der i-ten Zeile der Datenmatrix stehen die p an der i-ten statistischen Einheit beobachteten Auspr¨agungen. In der j-ten Spalte stehen die n beobachteten Werte des j-ten Merkmals. n heißt Stichprobenumfang, p die Dimension der Daten. F¨ ur p = 1 spricht man von univariaten Daten, ansonsten von multivariaten Daten. Es ist oftmals u ¨blich, die Auspr¨agungen von nichtnumerischen Merkmalen durch Zahlen zu kodieren. Hiervon gehen wir im Folgenden aus. Die Datenerfassung und -speicherung geschieht in der Praxis direkt mit Hilfe geeigneter Statistik-Software oder durch Datenbankprogramme.1 Im Folgenden betrachten wir die Aufbereitung in Form von Tabellen und Grafiken von univariaten Daten, d.h. einer Spalte der Datenmatrix. Die n beobachteten Auspr¨agungen bilden den univariaten Datensatz x1 , . . . , xn , den wir auch als n-dimensionalen Vektor x = (x1 , . . . ,xn ) ∈ Rn
auffassen k¨onnen.2 x heißt Datenvektor. F¨ ur die Erstellung grafischer Darstellungen von Zahlenmaterial sollte eine Grundregel stets beachtet werden, die wir an dieser Stelle vorbereitend formulieren wollen: Prinzip der Fl¨ achentreue Sollen Zahlen grafisch durch Fl¨achenelemente visualisiert werden, so m¨ ussen die Fl¨achen proportional zu den Zahlen gew¨ahlt werden. Der Grund hierf¨ ur ist, dass unsere visuelle Wahrnehmung auf die Fl¨achen der verwendeten grafischen Elemente (Rechtecke, Kreise) anspricht, und nicht auf deren Breite oder H¨ohe bzw. den Radius. Zeichnet man beispielsweise Kreise, so wird der Kreis als groß empfunden, wenn seine Fl¨ache F = πr2 groß ist. Nach dem Prinzip der Fl¨achentreue ist daher der Radius proportional zur Quadratwurzel der darzustellenden Zahl zu w¨ ahlen. 1.5.1 Nominale und ordinale Daten Die Darstellung von nominalen und ordinalen Daten erfolgt durch Ermittlung der H¨aufigkeiten und Anteile, mit denen die Auspr¨agungen im Datensatz vorkommen, und einer geeigneten Visualisierung dieser Zahlen. 1
2
Es sei an dieser Stelle kurz darauf hingewiesen, dass die Sprache der Datenbanken eine andere Terminologie als die Statistik verwendet. Insbesondere bezeichnet Table eine Datentabelle und statt von Merkmalen oder Variablen spricht man von Attributen. Es ist u ¨blich, nicht streng zwischen Spalten- und Zeilenvektoren zu unterscheiden, wenn dies keine Rolle spielt.
10
1 Deskriptive und explorative Statistik
Liegt ein nominales Merkmal mit den Auspr¨agungen a1 , . . . , ak vor, so z¨ahlt man zun¨achst aus, wie oft jede m¨ogliche Auspr¨ agung im Datensatz vorkommt. Wir verwenden im Folgenden die Indikatorfunktion 1(A), die den Wert 1 annimmt, wenn der Ausdruck A zutrifft (wahr) ist, und sonst den Wert 0. Absolute H¨ aufigkeiten, absolute H¨ aufigkeitsverteilung Die absoluten H¨ aufigkeiten (engl.: frequencies, counts) h1 , . . . , hk , sind durch hj = Anzahl der xi mit xi = aj n = 1(xi = aj ), i=1
j = 1, . . . , k gegeben. Die (tabellarische) Zusammenstellung der absoluten aufigkeitsverteilung. H¨aufigkeiten h1 , . . . , hk heißt absolute H¨ Die Summe der absoluten H¨aufigkeiten ergibt den Stichprobenumfang: n = h1 + · · · + hk . Oftmals interessiert weniger die Anzahl als vielmehr der Anteil einer Auspr¨ agung im Datensatz, etwa der Anteil der Frauen in einer Befragung. Relative H¨ aufigkeiten, relative H¨ aufigkeitsverteilung Dividiert man die absoluten H¨aufigkeiten durch den Stichprobenumfang n, so erh¨alt man die relativen H¨ aufigkeiten f1 , . . . , fk . F¨ ur j = 1, . . . , k berechnet sich fj durch fj =
hj . n
fj ist der Anteil der Beobachtungen, die den Wert aj haben. Die (tabellariaufigkeitsverteische) Zusammenstellung der f1 , . . . , fk heißt relative H¨ lung. Die relativen H¨aufigkeiten summieren sich zu 1 auf: f1 + · · · + fk = 1.
Besitzt ein Merkmal sehr viele Auspr¨agungen (Kategorien), so kann es zweckm¨aßig sein, Kategorien geeignet zusammen zu fassen. Hierzu bieten sich insbesondere schwach besetzte Kategorien an. Nat¨ urlich sind auch inhaltliche Aspekte zu ber¨ ucksichtigen, z.B. die Zusammenfassung nach u ¨bergeordneten Kriterien. Bei ordinalem Skalenniveau sollten die Kategorien in der tabellarischen Zusammenfassung entsprechend angeordnet werden. Visualisierung: Stabdiagramm, Balkendiagramm, Kreisdiagramm
1.5 Aufbereitung von univariaten Daten
11
Bei einem Stabdiagramm zeichnet man u ¨ber den m¨oglichen Auspr¨agungen St¨abe, deren H¨ohe entweder den absoluten oder den relativen H¨aufigkeiten entspricht. Liegt ein ordinales Merkmal vor, besitzen also die Auspr¨agungen eine Anordnung, so ordnet man sinnvollerweise die Auspr¨agungen entsprechend von links nach rechts an. Bei einem Kreisdiagramm (Kuchendiagramm) wird die Winkelsumme von 360◦ (Gradmaß) bzw. 2π (Bogenmaß) entsprechend den absoluten oder relativen H¨aufigkeiten aufgeteilt. Zu einer relativen H¨aufigkeit fi geh¨ort also der Winkel ϕi = hi · 360◦ = 2πfi [rad].
F¨ ur einen Vergleich von empirischen Verteilungen mehrerer Vergleichsgruppen k¨ onnen diese einfach nebeneinander gesetzt werden. Alternativ kann man die St¨ abe gleicher Kategorien nebeneinander anordnen.
Beispiel 1.5.1. Abbildung 1.1 zeigt ein Kreisdiagramm der Marktanteile von PKW-Herstellern bzw. Herstellergruppen hinsichtlich der Neuzulassungen (vgl. Beispiel 1.1.3.) MG-ROVER wurde hierbei der Kategorie ANDERE zugeschlagen.
GM
Fiat Daiml.−Chry
Renault
BMW Korea Andere
Ford
VW
Japan PSA
Abb. 1.1. Kreisdiagramm der PKW-Marktanteile.
¨ Beispiel 1.5.2. Die Einnahmen aus Olexporten und die zugeh¨origen ProKopf-Bruttoinlandsprodukte aus Beispiel 1.1.4 sind in Abbildung 1.2 in Form
12
1 Deskriptive und explorative Statistik
von Balkendiagrammen gegen¨ ubergestellt. Hierzu wurden die Daten nach dem Pro-Kopf-BIP sortiert. Man erkennt, dass h¨ohere Pro-Kopf-BIPs nicht ¨ zwangsl¨aufig an h¨ohere Oleinnahmen gekoppelt sind.
Nigeria Venezuela Russland S.−Arabien Norwegen V.A.E.
BIP
Öleinnahmen
¨ Abb. 1.2. Pro-Kopf-BIP und Einnahmen aus Olexporten ausgew¨ ahlter Staaten.
Die Auspr¨agungen ordinaler Daten k¨onnen stets angeordnet werden, so dass man einen Datensatz x1 , . . . , xn immer sortieren kann. Besonders leicht ist dies, wenn die Auspr¨agungen des ordinalen Merkmals auf die Zahlen von 1 bis n bzw. auf N abgebildet wurden.
1.5 Aufbereitung von univariaten Daten
13
Ordnungsstatistik, Minimum, Maximum, Messbereich Die sortierten Beobachtungen werden mit x(1) , . . . , x(n) bezeichnet. Die Klammer um den Index deutet somit den Sortiervorgang an. Es gilt: x(1) ≤ x(2) ≤ · · · ≤ x(n) . x(i) heißt i-te Ordnungsstatistik, (x(1) , . . . , x(n) ) heißt Ordnungsstatistik der Stichprobe x1 , . . . , xn . Das Minimum x(1) wird auch mit xmin bezeichnet, das Maximum x(n) entsprechend mit xmax .
1.5.2 Metrische Daten Bei metrisch skalierten Daten ist es insbesondere bei kleinen Stichprobenumf¨angen sinnvoll und informativ, die Datenpunkte x1 , . . . , xn auf der Zahlengerade zu markieren. Hierdurch erh¨alt man sofort einen ersten Eindruck, in welchem Bereich die Daten liegen und wo sie sich h¨aufen. Da die Daten hierdurch automatisch sortiert werden, erh¨alt man so auch die Ordnungsstatistik. Das kleinste Intervall, welches alle Daten enth¨alt, ist durch [xmin , xmax ] gegeben und heißt Messbereich. ⊲ Gruppierung Insbesondere bei gr¨oßeren Datens¨atzen ist es sinnvoll, die Daten durch Gruppieren zun¨achst zu verdichten. Hierzu wird der Messbereich durch Intervalle u ¨berdeckt und ausgez¨ahlt, wieviele Punkte in den jeweiligen Intervallen liegen. Gruppierung von Daten Lege k Intervalle I1 = [g1 ,g2 ], I2 = (g2 , g3 ], . . . , Ik = (gk ,gk+1 ], fest, welche den Messbereich u ¨berdecken. Wir vereinbaren an dieser Stelle, dass alle Intervalle - bis auf das erste - von der Form (a,b] (links offen und rechts abgeschlossen) gew¨ahlt werden. Ij heißt j-te Gruppe oder Klasse und ist f¨ ur j = 2, . . . , k gegeben durch Ij = (gj , gj+1 ]. Die Zahlen uhren wir noch die g1 , . . . , gk+1 heißen Gruppengrenzen. Des Weiteren f¨ k Gruppenbreiten bj = gj+1 − gj ,
j = 1, . . . , k,
und die k Gruppenmitten mj = ein.
gj+1 + gj , 2
j = 1, . . . , k,
14
1 Deskriptive und explorative Statistik
⊲ Strichliste Im n¨achsten Schritt z¨ahlt man aus, wieviele Beobachtungen in den jeweiligen Klassen liegen, ermittelt also (per Strichliste) die absoluten H¨ aufigkeiten: hj = Anzahl der xi mit xi ∈ Ij n = 1(xi ∈ Ij ). i=1
Bei kleinen Datens¨atzen kann man hierzu nach Markieren der Beobachtungen auf der Zahlengerade die Gruppengrenzen durch Striche kennzeichnen und ausz¨ahlen, wie viele Beobachtungen jeweils zwischen den Strichen liegen. Diese Anzahl tr¨agt man dar¨ uber auf. ⊲ Stamm–Blatt–Diagramm Ein Stamm–Blatt–Diagramm ist eine verbesserte Strichliste und kann sinnvoll auf Zahlen anwendet werden, deren Dezimaldarstellung aus wenigen Ziffern besteht. Wie bei einer Strichliste ist auf einen Blick erkennbar, wie sich die Daten auf den Messbereich verteilen. Bei einer Strichliste geht jedoch die Information verloren, wo genau eine Beobachtung in ihrer zugeh¨origen Klasse liegt. Die Strichliste ist daher eine zwar u ¨bersichtliche, aber verlustbehaftete Darstellung. Im Gegensatz hierzu kann bei einem Stamm-Blatt-Diagramm die vollst¨andige Stichprobe rekonstruiert werden. Stamm-Blatt-Diagramm Bestehen die Zahlen aus d Ziffern, so schreibt man die ersten d − 1 Ziffern der kleinsten Beobachtung xmin auf. Nun wird die notierte Zahl in Einerschritten hochgez¨ahlt bis zu derjenigen Zahl, die den ersten d − 1 Ziffern des Maximums xmax entspricht. Diese Zahlen bilden geeignete Gruppengrenzen. Sie bilden den Stamm des Diagramms und werden untereinander aufgeschrieben. Statt wie bei einer Strichliste f¨ ur die Zahlen nur einen Strich in der jeweiligen Gruppe zu verzeichnen, wird die verbleibende letzte Ziffer rechts neben den zugeh¨origen Ziffern des Stamms aufgeschrieben. Beispiel 1.5.3. Die Messung des Durchmessers von n = 8 Dichtungen ergab: 4.10, 4.22, 4.03, 4.34, 4.39, 4.36, 4.43, 4.28 . Alle Zahlen werden durch 3 Dezimalstellen dargestellt. Die ersten beiden bilden den Stamm. Als Stamm-Blatt-Diagramm erh¨alt man: 4.0 4.1 4.2 4.3 4.4
3 0 28 469 3
1.5 Aufbereitung von univariaten Daten
15
⊲ Histogramm Das Histogramm ist eine grafische Darstellung der relativen H¨aufigkeitsverteilung, die dem Prinzip der Fl¨achentreue folgt. Hat man einen Datensatz x1 , . . . , xn eines intervall- oder ratioskalierten Merkmals geeignet in k Klassen mit Gruppengrenzen g1 < · · · < gk+1 gruppiert und die zugeh¨origen relativen H¨aufigkeiten f1 , . . . , fk ermittelt, dann ist es nahe liegend, u ¨ber den Gruppen Rechtecke zu zeichnen, die diese relativen H¨aufigkeiten visualisieren. Wir wollen uns u ¨berlegen, wie hoch die Rechtecke sein m¨ ussen, damit dem Prinzip der Fl¨achentreue Gen¨ uge getan ist. Hierzu bestimmen wir die H¨ohe lj des j-ten Rechtecks so, dass die Fl¨ache Fj = bj lj des Rechtecks der relativen H¨aufigkeit fj entspricht. Histogramm Zeichnet man u ¨ber den Klassen Rechtecke mit H¨ohen l1 , . . . , lk , wobei fj lj = , bj so erh¨alt man das Histogramm. Hierbei repr¨asentieren die Rechtecke die zugeh¨origen relativen H¨aufigkeiten.
Beispiel 1.5.4. Wir analysieren die n = 30 Leistungsdaten der Solarmodule aus Beispiel 1.1.1. Mit den k = 9 Gruppengrenzen g1 = 210, g2 = 212.5, . . . , g6 = 222.5 erh¨alt man folgende Arbeitstabelle: j 1 2 3 4 5
Ij [210.0,212.5] (212.5,215.0] (215.0,217.5] (217.5,220.0] (220.0,222.5]
hj 5 1 7 12 5
fj 0.167 0.033 0.233 0.400 0.167
lj 0.067 0.013 0.093 0.160 0.067
Abbildung 1.3 zeigt das resultierende Histogramm. Die empirische Verteilung ist zweigipfelig, d.h. es gibt zwei Klassen, die von schw¨acher besetzten Klassen benachbart sind. Die H¨ohen lj geben an, welcher Anteil der Beobachtungen in der j-ten Klasse liegt, bezogen auf eine Maßeinheit (Anteil pro x-Einheit). Sie geben also an, wie dicht die Daten in diesem Bereich liegen.
1 Deskriptive und explorative Statistik
0.00
0.05
0.10
0.15
16
205
210
215
220
225
Abb. 1.3. Histogramm der Leistungsdaten von n = 30 Solarmodulen.
H¨ aufigkeitsdichte Der obere Rand des Histogramms definiert eine Treppenfunktion f(x), die u ¨ber dem j-ten Intervall Ij der Gruppeneinteilung den konstanten Funktionswert lj annimmt. Außerhalb der Gruppeneinteilung setzt man f(x) auf 0. 0, l , 1 f(x) = lj , 0,
x < g1 , x ∈ [g1 ,g2 ], x ∈ (gj ,gj+1 ], j = 2, . . . , k, x > gk+1 .
f(x) heißt H¨ aufigkeitsdiche oder auch Dichtesch¨ atzer.
Zwischen der H¨aufigkeitsdichte und den Fl¨achen der Rechtecke u ¨ber den Gruppen besteht folgender Zusammenhang: gj+1 f(x) dx. fj = gj
Da sich die relativen H¨aufigkeiten zu 1 addieren, gilt:
1.5 Aufbereitung von univariaten Daten
∞
−∞
f(x) dx =
gk+1 g1
17
f(x) dx = 1.
∞ Allgemein heißt eine nicht-negative Funktion f (x) mit −∞ f (x) dx = 1 Dichtefunktion. Im Kapitel u ¨ber Wahrscheinlichkeitsrechnung werden wir sehen, dass die Verteilung von stetigen Merkmalen durch Dichtefunktionen festgelegt werden kann. Unter gewissen Annahmen kann die aus den Daten berechnete H¨ aufigkeitsdichte als Sch¨atzung dieser Dichtefunktion angesehen werden. Die Interpretation eines Histogramms bzw. der H¨aufigkeitsdichte l¨asst sich so zusammenfassen: • Die Fl¨ache repr¨asentiert die relative H¨aufigkeit.
• Die H¨ohe repr¨asentiert die Dichte der Daten.
⊲ Gleitendes Histogramm und Kerndichtesch¨ atzer Das Histogramm misst die Dichte der Daten an der Stelle x, indem die H¨ohe lj = fj /bj des Rechtecks der Fl¨ache fj u ¨ber der zugeh¨origen Klasse berechnet wird. Diese Klasse bildet gewissermaßen ein Fenster, durch das man auf den Datensatz schaut. Nur diejenigen xi , die durch das Fenster sichtbar sind, liefern einen positiven Beitrag zur Dichteberechnung. Es liegt nun nahe, f¨ ur ein vorgegebenes x nicht die zugeh¨orige Klasse einer festen Gruppeneinteilung als Fenster zu nehmen, sondern das Fenster symmetrisch um x zu w¨ahlen. Dies leistet das gleitende Histogramm, bei dem alle Beobachtungen xi in die Berechnung einfließen, deren Abstand von x einen vorgegebenen Wert h > 0 nicht u ¨berschreitet. Gleitendes Histogramm F¨ ur x ∈ R sei f (x) der Anteil der Beobachtungen xi mit xi ∈ [x − h,x + h], d.h. |x − xi | ≤ h, dividiert durch die Fensterbreite 2h. f (x) heißt gleitendes Histogramm und h Bandbreite. Es gilt: n
1 1(|xi − x| ≤ h) f (x) = 2nh i=1
f (x) misst die Dichte der Daten in dem Intervall [x − h,x + h]. Mit der Funktion 1 K(z) = 1(|z| ≤ 1) = 2
1 2,
0,
|z| ≤ 1, sonst,
die auch Gleichverteilungs-Kern genannt wird, hat f (x) die Darstellung:
18
1 Deskriptive und explorative Statistik n
Da
∞
1 f (x) = K nh i=1
x − xi h
x ∈ R.
,
K(z) dz = 1, ergibt sich mit Substitution z = ∞ x − xi dz = h, K h −∞ ∞ und somit −∞ f (x)dx = 1. −∞
x−xi h
⇒ dx = hdz, dass
Das gleitende Histogramm ist jedoch – wie das Histogramm – eine unstetige Treppenfunktion: Die Funktion K((x − xi )/h) wechselt genau an den Stellen xi ± h von 0 auf 1 bzw. von 1 auf 0. Eine stetige Dichtesch¨atzung erh¨alt man durch Verwendung von stetigen Funktionen K(z). Kerndichtesch¨ atzer Gegeben sei ein Datensatz x1 , . . . , xn . Ist K(z) eine stetige Funktion mit ∞ K(z) dz = 1, K(z) ≥ 0, −∞
die symmetrisch um 0 ist, dann heißt die Funktion n
1 fn (x) = K nh i=1
x − xi h
,
x ∈ R,
Kerndichtesch¨ atzer (nach Parzen-Rosenblatt) zur Bandbreite h. K(z) heißt Kernfunktion. Gebr¨auchliche Kernfunktionen sind der Gauß-Kern, 2 1 K(z) = √ e−z /2 , 2π
z ∈ R,
der Epanechnikov-Kern, K(z) =
3 (1 4
0,
− z 2 ),
|z| ≤ 1, sonst,
sowie der Gleichverteilungs-Kern. Beispiel 1.5.5. Abbildung 1.4 zeigt links das gleitende Histogramm (Bandbreite h = 5) und den Kerndichtesch¨atzer mit Gauß-Kern (Bandbreite h = 3) f¨ ur die Solarmodul-Daten aus Beispiel 1.1.1. Es ist deutlich erkennbar, dass der Gauß-Kern eine glattere Dichtesch¨atzung liefert als der GleichverteilungsKern. Die rechte Grafik in Abbildung 1.4 zeigt ein Histogramm der CEODaten und zum Vergleich eine Kerndichtesch¨atzung mit Gauß-Kern (Bandbreite h = 75).
19
205
210
215
220
225
230
235
0.0000
0.00
0.02
0.0005
0.0010
0.04
0.0015
0.06
0.0020
0.08
0.0025
1.5 Aufbereitung von univariaten Daten
0
200
400
600
800
1000
Abb. 1.4. Links: Gleitendes Histogramm und Kerndichtesch¨ atzung mit Gauß-Kern f¨ ur Leistungsmessungen von n = 30 Solarmodulen. Rechts: Histogramm der CEOGeh¨ alter und Kerndichtesch¨ atzer mit Gauß-Kern.
⊲ Kumulierte H¨ aufigkeitsverteilung, Empirische Verteilungsfunktion In praktischen Anwendungen tritt h¨aufig folgende Frage auf: Wie viele Beobachtungen sind kleiner oder gleich einem vorgegebenem Wert x? Angenommen, wir untersuchen den Umsatz von Unternehmen und interessieren uns f¨ ur die Anzahl der Unternehmen, deren Umsatz h¨ochstens x = 1 Million Euro betr¨agt.
20
1 Deskriptive und explorative Statistik
Kumulierte H¨ aufigkeitsverteilung Gegeben seien Rohdaten x1 , . . . , xn . Die kumulierte H¨ aufigkeitsverteilung H(x) ordnet jedem x ∈ R die Anzahl der Beobachtungen xi zu, die kleiner oder gleich x sind, d.h.: H(x) =
n i=1
1(xi ≤ x).
Sind a1 < · · · < ak die Merkmalsauspr¨agungen und h(aj ) die Anzahl der xi mit xi = aj , dann ist h(aj ). H(x) = j:aj ≤x
Hier werden also alle absoluten H¨aufigkeiten h(aj ) summiert, die zu Auspr¨agungen aj geh¨oren, die kleiner oder gleich x sind. H(x) ist eine monoton wachsende Treppenfunktion, die an den geordneten Werten (Ordnungsstatistiken) x(i) Sprungstellen besitzt. Die Sprungh¨ohe ist gerade die Anzahl der Beobachtungen, die gleich x(i) sind. Es ist u ¨blich, die kumulierte H¨aufigkeitsverteilung, die Werte zwischen 0 und n annimmt, mit ihrem Maximalwert zu normieren. Das heißt, dass statt der Anzahl der Anteil der Beobachtungen betrachtet wird, der kleiner oder gleich x ist. Empirische Verteilungsfunktion F¨ ur x ∈ R ist die empirische Verteilungsfunktion (relative kumulierte H¨ aufigkeitsverteilung) gegeben durch H(x) F(x) = = Anteil der xi mit xi ≤ x. n Sind a1 , . . . , ak die Merkmalsauspr¨agungen und f1 , . . . , fk die zugeh¨origen relativen H¨aufigkeiten, dann ist F(x) =
n
fj .
j:aj ≤x
Die empirische Verteilungsfunktion ist eine monoton wachsende Treppenfunktion mit Werten zwischen 0 und 1, die an den geordneten Werten x(i) Sprungstellen aufweist. Die Sprungh¨ohe an der Sprungstelle x(i) ist gerade der Anteil der Beobachtungen, die den Wert x(i) haben. Sind alle x1 , . . . , xn verschieden, so springt F(x) jeweils um den Wert 1/n.
1.6 Quantifizierung der Gestalt empirischer Verteilungen
21
An Hand des Grafen der empirischen Verteilungsfunktion kann man leicht den Anteil der Beobachtungen, die kleiner oder gleich einem gegebenem x sind, ablesen.
1.0 0.8 0.6 0.4 0.2 0.0
0.0
0.2
0.4
0.6
0.8
1.0
Beispiel 1.5.6. Abbildung 1.5 zeigt die Anwendung auf den SolarmodulDaten aus Beispiel 1.1.1. Links ist die Funktion Fn (x) f¨ ur den vollst¨andigen Datensatz (n = 30) dargestellt. Zudem wurde eine Stichprobe vom Umfang 5 aus diesem Datensatz gezogen: 218.8, 222.7, 217.5, 220.5, 223.0. Die zugeh¨orige empirische Verteilungsfunktion F5 (x) ist rechts dargestellt. Es gilt: F5 (220.5) = 3/5 = 0.6.
210
215
220
225
230
210
215
220
225
230
Abb. 1.5. Empirische Verteilungsfunktion der Leistungsdaten von n = 30 Solarmodulen (links) bzw. n = 5 Solarmodulen (rechts).
1.6 Quantifizierung der Gestalt empirischer Verteilungen Im vorigen Abschnitt haben wir behandelt, wie in Abh¨angigkeit vom Skalenniveau die Verteilung einer univariaten Stichprobe x1 , . . . , xn zahlenm¨aßig erfasst und grafisch dargestellt werden kann. Dies ist nat¨ urlich nur dann u ¨berhaupt von Belang, wenn nicht alle xi denselben Wert haben, also streuen. Oftmals kann diese Variation der Beobachtungen als Messfehler gedeutet werden. Werden etwa im Rahmen der Qualit¨atskontrolle die Maße von Kolben gemessen, so ist eine gewisse Variation auch bei einer einwandfreien Anlage technisch
22
1 Deskriptive und explorative Statistik
nicht zu vermeiden. Eine zu hohe Streuung k¨onnte jedoch auf Verschleiß der Fertigungsanlage oder eine Fehljustierung hindeuten. Beides h¨atte zur Folge, dass sich der Ausschussanteil erh¨oht. Folgende Fragen stellen sich jetzt: • Kann eine Zahl, ein Lagemaß, als Zentrum der Daten angegeben werden, um das die Daten streuen? • Kann das Ausmaß der Streuung der Daten um das Lagemaß durch eine Zahl, ein Streuungsmaß quantifiziert werden? • Wie kann die Gestalt der Streuung um das Zentrum zahlenm¨aßig erfasst werden? K¨ onnen wir f¨ ur einen Datensatz ein Lagemaß berechnen, also das Zentrum bestimmen, um das die Daten mehr oder weniger stark streuen, dann liegt der Gedanke nahe, dieses Lagemaß als Approximation f¨ ur den gesamten Datensatz zu nehmen. Der Datensatz wird also auf eine Kenngr¨oße verdichtet (komprimiert). Geeignete Streuungsmaße sollten dann eine Grundlage f¨ ur die Bewertung des Fehlers liefern, wenn der Datensatz auf das Lagemaß verdichtet wird. 1.6.1 Lagemaße Es gibt verschiedene Lagemaße. Welches wann verwendet werden sollte, h¨angt von folgenden Aspekten ab: • Skalenniveau des Merkmals.
• Erw¨ unschte statistische Eigenschaften.
• (Inhaltliche) Interpretation des Lagemaßes. Wir wollen an Hand des folgenden Datensatzes verschiedene Lagemaße betrachten. Beispiel 1.6.1. Die Messung der maximalen Ozonkonzentration (in 1000) [ppm]) an 13 aufeinander folgenden Tagen ergab: Tag 1 2 3 4 5 6 7 8 9 10 11 12 13 Wert 66 52 49 64 68 26 86 52 43 75 87 188 118
Die Messungen liegen also zwischen xmin = 26 und xmax = 188. (F¨ ur Ozon gilt: 0.1 [ppm] = 0.2 [mg/m3 ] = 0.0002 [g/m3 ].)
1.6 Quantifizierung der Gestalt empirischer Verteilungen
23
⊲ Ordinal skalierte Daten F¨ ur mindestens ordinal skalierte Daten ist der Median ein geeignetes Lagemaß der zentralen Lage. Median Eine Wert xmed ∈ {x1 , . . . , xn } heißt Median von x1 , . . . , xn , wenn • •
mindestens die H¨alfte der Daten kleiner oder gleich xmed ist und zugleich mindestens die H¨alfte der Daten gr¨oßer oder gleich xmed ist.
Sind x(1) ≤ · · · ≤ x(n) die geordneten Werte und ist n ungerade, so erf¨ ullt genau die mittlere Beobachtung x(k) , k = n+1 , beide Bedingungen. Ist n 2 ur drei Schulnoten gerade, so sind sowohl x(n/2) als auch x(n/2+1) Mediane. F¨ 4, 1, 3 ist somit der eindeutige Median 3, liegen hingegen die Noten 1, 5, 8, 4 vor, so sind 4 und 5 Mediane. Der Median ist ein Spezialfall der p-Quantile, die ebenfalls Lagemaße sind. Wir behandeln p-Quantile in einem gesonderten Abschnitt. Der Median vollzieht monotone Transformationen nach. Ist yi = f (xi ),
i = 1, . . . , n,
mit einer streng monotonen Funktion f , dann gilt: ymed = f (xmed ). ⊲ Metrisch skalierte Daten F¨ ur metrisch skalierte Daten gibt es neben dem Median eine Vielzahl von Lagemaßen. Die wichtigsten sollen im Folgenden vorgestellt werden. − Der Median F¨ ur metrisch skalierte Daten verwendet man ebenfalls oft den Median als Lagemaß. F¨ ur gerades n erf¨ ullt nun jede Zahl aus dem abgeschlossenem Intervall [x(n/2) , x(n/2+1) ] die Median-Eigenschaft. Die folgende Konvention ist u ¨blich: Konvention F¨ ur metrisch skalierte Daten ist es im Rahmen der deskriptiven Statistik u ¨blich, die Intervallmitte als Median festzulegen. Damit gilt:
x n+1 , n ungerade, 2 xmed =
1 2 x(n/2) + x(n/2+1) , n gerade.
24
1 Deskriptive und explorative Statistik
Verhalten unter Transformationen H¨aufig werden bei einer Auswertung die Beobachtungen noch in vielf¨altiger Weise transformiert. Zu den wichtigsten geh¨ort die Umrechnung von Einheiten ([mg] in [g], [EUR] in [USD], etc.) Dies sind i.d.R. affin-lineare Transformationen der Form i = 1, . . . , n. yi = a + b · xi , Werden die Daten einer solchen affin-linearen Transformation unterworfen, so vollzieht der Median diese Transformation nach: Der Median des transformierten Datensatzes ist ymed = a + b · xmed . Minimaleigenschaft Zu jedem potentiellen Zentrum m kann man die n Abst¨ande |x1 − m|, . . . , |xn − m| zu den Beobachtungen betrachten. Soll als Zentrum dasjenige m gew¨ahlt werden, welches diese Abst¨ande gleichm¨aßig klein macht, dann ist es nahe liegend, die Summe der Abst¨ande Q(m) =
n i=1
|xi − m|
zu minimieren. Als Minimalstelle ergibt sich der Median. Die Robustheit des Medians diskutieren wir im Zusammenhang mit dem arithmetischen Mittel. Beispiel 1.6.2. Wir sortieren die Daten aus Beispiel 1.6.1, gehen also von x1 , . . . , xn zur Ordnungsstatistik (x(1) , . . . , x(n) ) u ¨ber (Merke: Klammerung der Indizes heißt Sortierung): 26 43 49 52 52 64 66 68 75 86 87 118 188 Der Median dieser 13 Messungen ist der 7-te Wert, x(7) = 66, der sortierten Messungen. − Das arithmetische Mittel Betrachten wir zun¨achst die F¨alle n = 1 und n = 2. F¨ ur n = 1 gibt es keinen vern¨ unftigen Grund, nicht die einzige vorliegende Beobachtung als Lagemaß zu nehmen. Ist n = 2 und x1 = x2 , dann ist die kleinere Beobachtung das Minimum und die gr¨oßere das Maximum. Diese Situation liegt auch vor, wenn uns statt der Rohdaten ledglich der durch Minimum xmin und Maximum xmax gegebene Messbereich [xmin , xmax ] bekannt ist. Haben wir keine Kenntnis wie sich die Daten innerhalb des Messbereichs verteilen, dann legt der gesunde
1.6 Quantifizierung der Gestalt empirischer Verteilungen
25
Menschenverstand es nahe, als Lagemaß m die Mitte des Intervalls zu verwenden: xmin + xmax . m= 2 Wir gehen nun davon aus, dass eine Datenreihe x1 , . . . , xn gegeben ist. Arithmetisches Mittel Das arithmetische Mittel ist definiert als n
x=
1 1 xi = · (x1 + · · · + xn ) . n i=1 n
In die Berechnung gehen alle Beobachtungen mit gleichem Gewicht 1/n ein. Liegen die Daten in gruppierter Form vor, etwa bei einem Histogramm, so kann man das arithmetische Mittel nur n¨aherungsweise bestimmen. Sind f1 , . . . , fk die relativen H¨aufigkeiten der k Gruppen mit Gruppenmitten m1 , . . . , mk , dann verwendet man u ¨blicherweise die gewichtete Summe der Gruppenmitten, xg =
k i=1
fi · mi = f1 · m1 + · · · + fk · mk ,
wobei die relativen H¨aufigkeiten hi als Gewichte verwendet werden. F¨ ur (numerische) H¨aufigkeitsdaten mit Auspr¨agungen a1 , . . . , ak und relativen k H¨aufigkeiten f1 , . . . , fk berechnet man entsprechend: x = j=1 aj fj . Beispiel 1.6.3. F¨ ur die Ozondaten aus Beispiel 1.6.1 erhalten wir n
xi = 66 + 52 + 49 + 64 + 68 + 26 + 86 + 52 + 43 + 75 + 87 + 188 + 118 = 974
i=1
und hieraus x =
974 13
= 74.923.
Schwerpunkteigenschaft: Das arithmetische Mittel besitzt eine sehr anschauliche physikalische Interpretation: Wir stellen uns die Datenpunkte x1 , . . . , xn als Kugeln gleicher Masse vor und legen sie an den entsprechenden Stellen auf ein Lineal, das von xmin bis xmax reicht. Dann ist x genau die Stelle, an der sich das Lineal im Gleichgewicht balancieren l¨aßt.
26
1 Deskriptive und explorative Statistik
Hochrechnungen: K¨ onnen die xi als Bestandsgr¨oßen (Kosten, Ums¨atze, Anzahlen, Leistungen, ...) interpretiert werden, so ist der Gesamtbestand (Gesamtkosten, Gesamtumsatz, Gesamtanzahl, Gesamtleistung, ...) gerade die Summe x1 + · · · + xn . Sind nun das arithmetische Mittel x und der Stichprobenumfang n bekannt, so kann die Summe (also der Gesamtbestand) aus der Erhaltungsgleichung ermittelt werden: n · x = x1 + · · · + xn . Verhalten unter affin-linearen Transformationen: Wie der Median vollzieht auch das arithmetische Mittel affin-lineare Transformationen der Daten nach: Sind yi = a · xi + b,
i = 1, . . . , n,
so ist y = a + b · x. Robustheit: Median oder arithmetisches Mittel? Beispiel 1.6.4. Angenommen, das ’mittlere’ Einkommen eines kleinen Dorfes soll ermittelt werden, um es als arm oder reich zu klassifizieren. Wohnen in dem Dorf neun arme Bauern, die jeweils 1000 Euro verdienen, und ein zugezogener Reicher, der ein Einkommen von 20000 Euro erzielt, so erhalten wir als arithmetisches Mittel x = (9/10) · 1000 + (1/10) · 20000 = 2900. Verdichtet man den Datensatz auf diese eine Kennzahl, so erscheint das Dorf gut situiert. Doch offenkundig ist die Verwendung des arithmetischen Mittels nicht wirklich sinnvoll, da 90% der Dorfbewohner nicht mehr als 1000 Euro verdienen. Das Median-Einkommen betr¨agt 1000 Euro und bildet die tats¨achlichen Einkommensverh¨altnisse der u ¨berwiegenden Mehrheit der Dorfbewohner ab. An diesem Beispiel sehen wir, dass das arithmetische Mittel sehr empfindlich bei Vorliegen von Ausreißern reagiert. Ausreißer sind Beobachtungen, die in auff¨alliger Weise weit entfernt vom zentralen Bereich der Messungen ¨ liegen. Ausreißer k¨onnen durch Tippfehler, Ubertragungsfehler oder einfach ungew¨ohnlich starke Messfehler zustande kommen, also f¨ ur das zu untersuchende Ph¨anomen vollkommen uninformativ sein. Man spricht dann von einer Kontamination (Verschmutzung) der Daten. In anderen F¨allen steckt in Ausreißern gerade die interessante Information: Auff¨allige Messergebnisse, die ihren Ursprung in bisher unbekannten Effekten haben. Es ist daher wichtig zu wissen, ob die verwendeten Statistiken robust oder sensitiv bzgl. Ausreißer sind. In dem ersten Fall beeinflussen Ausreißer das Ergebnis nicht oder kaum. Robuste Verfahren sind also zur Datenanalyse von potentiell verschmutzten Daten geeignet. Sensitive Kenngr¨oßen k¨onnen hingegen bei Vorliegen von Ausreißern vollkommen verf¨alschte Ergebnisse liefern.
1.6 Quantifizierung der Gestalt empirischer Verteilungen
27
Der Grad der Robustheit kann wie folgt quantifiziert werden: Bruchpunkt Der kleinste Anteil der Daten, der ge¨andert werden muss, damit ein Lagemaß einen beliebig vorgegebenen Wert annimmt (also beliebig verf¨alscht werden kann), heißt Bruchpunkt. Von zwei Lagemaßen kann daher das mit dem gr¨oßeren Bruchpunkt als das robustere angesehen werden. Da beim arithmetischen Mittel jeder Werte mit gleichem Gewicht eingeht, x=
x1 x2 xn + + ··· + , n n n
kann der Wert von x jeden beliebigen Wert annehmen, wenn nur eine Beobachtung ge¨andert wird. Das arithmetische Mittel hat also den Bruchpunkt 1/n. Im Gegensatz hierzu m¨ ussen beim Median mindestens die H¨alfte (d.h. die Mehrheit) aller Beobachtungen ge¨andert werden, um ihn beliebig zu verf¨alschen. Der Median stellt daher ein sehr robustes Lagemaß dar. Zur explorativen Aufdeckung von Ausreißern ist es sinnvoll, die Ergebnisse einer robusten Analyse und einer nicht-robusten zu vergleichen. Große Unterschiede legen den Verdacht nahe, dass Ausreißer vorhanden sind. Bei den Ozondaten aus Beispiel 1.6.2 ist die Messung 188 ein m¨oglicher Ausreißer, der vielleicht mit einem Smog-Tag korrespondiert. Minimierungseigenschaft: Das arithmetische Mittel besitzt die folgende Minimierungseigenschaft: x minimiert die Summe der Abstandsquadrate Q(m) = (x1 − m)2 + (x2 − m)2 + · · · + (xn − m)2 . Wir werden diesen Sachverhalt sp¨ater verifizieren. Betrachtet man also den quadrierten Abstand eines Kandidaten m zu allen einzelnen Datenpunkten, so ist x der in diesem Sinne optimale Kandidat. − Geometrisches Mittel x1 , . . . , xn = 0 seien zeitlich geordnete Bestandsgr¨oßen, etwa Anzahlen, Ums¨atze, Preise oder Mengen, jeweils gemessen am Ende einer Periode. Die zeitliche Entwicklung (Zunahme/Abnahme) wird dann sinnvoll durch die folgenden Gr¨oßen beschrieben:
28
1 Deskriptive und explorative Statistik
Wachstumsfaktor, Wachstumsrate Sind x1 , . . . , xn Bestandsgr¨oßen, dann heißt i = 2, . . . , n, wi = xi /xi−1 , i-ter Wachstumsfaktor und ri = wi − 1
⇔
xi = (1 + ri )xi+1 .
i-te Wachstumsrate (bei monet¨aren Gr¨oßen: Zinssatz). Multiplikation des Bestands xi−1 mit dem Wachstumsfaktor wi der i-ten Periode liefert den Bestand xi = xi−1 wi am Periodenende. 100 · ri % ist die ¨ prozentuale Anderung w¨ahrend der i-ten Periode. Es gilt dann: xn = x 0
n
wi = x0
i=1
n
(1 + ri ).
i=1
Mittlerer Wachstumsfaktor, mittlere Wachstumsrate Der mittlere Wachstumsfaktor ist definiert als derjenige Wachstumsfaktor w, der bei Anwenuhrt. Die mittlere Wachstumsdung in allen n Perioden zum Wert xn f¨ rate (bei monet¨aren Gr¨oßen: effektiver Zinssatz) ist r = w − 1. Bei Geldgr¨oßen ist der effektive Zinssatz derjenige Zinssatz, der bei Anwendung in allen Perioden vom Anfangskapital x0 zum Endkapital xn f¨ uhrt. Allgemein berechnet sich der mittlere Wachstumsfaktor wie folgt: 1/n n n √ n xn = x0 w = x0 wi ⇔ w = wi = n w1 · . . . · wn . i=1
i=1
w stellt sich als geometrisches Mittel der wi heraus. Geometrisches Mittel Das geometrische Mittel von n nichtnegativen Zahlen x1 , . . . , xn ist gegeben durch xgeo = (x1 · · · xn )1/n . Es gilt die Ungleichung: xgeo ≤ x. Herleitung: Es ist ln(xgeo ) =
1 n
n i=1
ln(xi ) ≤
1 n
n i=1
xi , da ln(x) ≤ x.
− Harmonisches Mittel Der Vollst¨andigkeit halber sei an dieser Stelle auch das harmonische Mittel erw¨ahnt:
1.6 Quantifizierung der Gestalt empirischer Verteilungen
29
Harmonisches Mittel Das harmonische Mittel n Zahlen x1 , . . . , xn , von n 1 die alle ungleich null sind und die Bedingung ullen, ist i=1 xi = 0 erf¨ definiert durch 1 xhar = 1 n 1 . n
i=1 xi
− Getrimmte und winsorisierte Mittel* Vermutet man Ausreißer in den Daten, jedoch nicht mehr als 2a · 100%, so ist folgende Strategie nahe liegend: Man l¨aßt die kleinsten k = ⌊na⌋ und die k gr¨oßten Beobachtungen weg und berechnet von den verbliebenen n − 2k (zentralen) Beobachtungen das arithmetische Mittel. Hierbei ist [x] die gr¨oßte nat¨ urliche Zahl, die kleiner oder gleich x ist (Bsp: [2.45] = 2, [8.6] = 8). Als Formel: x(⌊k+1⌋) + · · · + x(⌊n−k⌋) xa = n − 2k ¨ Ubliche Werte f¨ ur a liegen zwischen 0.05 und 0.2. Beim winsorisierten Mittel werden die 2[nα] extremen Beobachtungen nicht weggelassen, sondern durch den n¨achst gelegenen der zentralen n−2⌊na⌋ Werte ersetzt. 1.6.2 Streuung In diesem Abschnitt besprechen wir die wichtigsten Maßzahlen, anhand derer sich die Streuung realer Daten quantifizieren l¨ asst. ⊲ Nominale und ordinale Merkmale Unsere Anschauung legt es nahe, die empirische H¨aufigkeitsverteilung eines Merkmals mit k m¨oglichen Auspr¨agungen als breit streuend zu charakterisieren, wenn sich die Beobachtungen (gleichm¨aßig) auf viele Kategorien verteilen. Ein sinnvolles Streuungsmaß sollte also die Anzahl der besetzten Kategorien erfassen, jedoch unter Ber¨ ucksichtigung der relativen H¨aufigkeiten. Ist hingegen nur eine Kategorie besetzt, so streuen die Daten nicht. Liegt eine Gleichverteilung auf r ≤ k Kategorien vor, beispielsweise den ersten r, d.h. fj = 1/r, j = 1, . . . , r, dann ist die Anzahl r ein geeignetes Streuungsmaß. Um die Zahl r in Bin¨ardarstellung darzustellen, werden b = log2 (r) Ziffern (Bits) ben¨otigt. Beispielsweise ist 101 die Bin¨ardarstellung der Zahl 5 = 1 · 22 + 0 · 21 + 1 · 20 . Nach den Rechenregeln des Logarithmus gilt: 1 b = log2 (r) = − log2 . r
30
1 Deskriptive und explorative Statistik
¨ Die Verwendung des Logarithmus zur Basis 2 kann auch durch folgende Uberlegung veranschaulicht werden: b = log2 (r) gibt die Anzahl der bin¨aren Entscheidungen an, die zu treffen sind, um eine Beobachtung in die richtige Kategorie einzuordnen. Die so gewonnene Maßzahl wird nun auf die r besetzten Kategorien umgelegt; jeder Kategorie wird also der Anteil 1 1 j ∈ {1, . . . , r}, − log2 = −fj log2 (fj ) , r r zugeordnet. In dieser Darstellung kann der Ansatz von der Gleichverteilung auf r Kategorien auf beliebige Verteilungen u ¨bertragen werden: Jeder besetzten Kategorie mit relativer H¨aufigkeit fj > 0 wird der Streuungsbeitrag ur die Gesamtstreuung verwenden wir die −fj log2 (fj ) zugeordnet. Als Maß f¨ Summe der einzelnen Streuungsbeitr¨age. Shannon-Wiener-Index, Entropie H=−
Die Maßzahl
k j=1
fj · log2 (fj )
heißt Shannon-Wiener-Index oder (Shannon) - Entropie. Statt des Logarithmus zur Basis 2 verwendet man h¨aufig auch den nat¨ urlichen Logarithmus ln oder den Logarithmus log10 zur Basis 10. Die ShannonEntropie h¨angt von der Wahl der Basis des Logarithmus ab. Da das Umrechnen von Logarithmen zu verschiedenen Basen nach der Formel loga (x) = loga (b) · logb (x) erfolgt, gehen die jeweiligen Maßzahlen durch Multiplikation mit dem entsprechenden Umrechnungsfaktor auseinander hervor. Weil die im Folgenden zu besprechenden Eigenschaften nicht von der Wahl des Logarithmus abh¨angen, schreiben wir kurz log(x). Die Entropie H misst sowohl die Anzahl der besetzten Kategorien als auch die Gleichheit der relativen H¨aufigkeiten. Je mehr Kategorien besetzt sind, und je ¨ahnlicher die H¨aufigkeitsverteilung der diskreten Gleichverteilung ist, desto gr¨oßer ist der Wert von H. Betrachten wir die Extremf¨alle: F¨ ur eine Einpunktverteilung, etwa f1 = 1 und f2 = 0, . . . , fk = 0, erh¨alt man den Minimalwert f1 · log(f1 ) = log(1) = 0. Der Maximalwert wird f¨ ur die empirische Gleichverteilung auf den Kategorien angenommen:
1.6 Quantifizierung der Gestalt empirischer Verteilungen
31
k 1 1 1 log = − log = log(k). − k k k i=1
Der Shannon-Wiener-Index hat zwei Nachteile: Sein Wert h¨angt vom verwendeten Logarithmus ab und er ist nicht normiert. Relative Entropie gegeben durch
Die relative Entropie oder normierte Entropie ist J=
H . log(k)
J h¨angt nicht von der Wahl des Logarithmus ab, da sich die Umrechnungsfaktoren herausk¨ urzen. Zudem k¨onnen nun Indexwerte von Verteilungen verglichen werden, die unterschiedlich viele Kategorien besitzen. ⊲ Metrische Merkmale Messen wir auf einer metrischen Skala, etwa Gewichte, L¨angen oder Geldgr¨oßen, dann k¨onnen wir Streuungsmaße betrachten, die auf den n Abst¨anden der Beobachtungen x1 , . . . , xn vom Lagemaß beruhen. Die Grundidee vieler Streuungsmaße f¨ ur metrische Daten ist es, diese Abst¨ande zun¨achst zu bewerten und dann zu einer Kennzahl zu verdichten. Je nachdem, welches Lagemaß man zugrunde legt und wie die Abst¨ande bewertet und verdichtet werden, gelangt man zu unterschiedlichen Streuungsmaßen. − Stichprobenvarianz und Standardabweichung W¨ ahlt man das arithmetische Mittel als Lagemaß, dann kann man die n quadrierten Abst¨ande (x1 − x)2 , (x2 − x)2 , . . . , (xn − x)2 , berechnen. Da alle Datenpunkte xi gleichberechtige Messungen desselben Merkmals sind, ist es nahe liegend, diese n Abstandsmaße zur Streuungsmessung zu mitteln, und zwar wieder durch das arithmetische Mittel.
32
1 Deskriptive und explorative Statistik
Empirische Varianz, Stichprobenvarianz, Standardabweichung Die Stichprobenvarianz oder empirische Varianz von x1 , . . . , xn ist gegeben durch n 1 s2 = (xi − x)2 . n i=1
Diese Gr¨oße ist eine Funktion des Datenvektors x = (x1 , . . . , xn ). Wir notieren s2 daher mitunter auch als var(x). Die Wurzel aus der Stichprobenvarianz, √ s = s2 = var(x) , heißt Standardabweichung.
Zur Formulierung der folgenden Rechenregeln vereinbaren wir: F¨ ur Zahlen a, b ∈ R und jeden Datenvektor x = (x1 , . . . , xn ) ist x + a = (x1 + a, . . . , xn + a),
Rechenregeln der Stichprobenvarianz und Zahlen a,b ∈ R gilt:
bx = (bx1 , . . . , bxn ). F¨ ur alle Datenvektoren x, y ∈ Rn
1) Invarianz unter Lage¨anderungen: var(a + x) = var(x) 2) Quadratische Reaktion auf Maßstabs¨anderungen var(bx) = b2 var(x) 3) Die Stichprobenvarianz ist ein Maß der paarweisen Abst¨ande aller Beobachtungen: s2 = var(x) =
n n 1 (xi − xj )2 2n2 i=1 j=1
Liegen die Daten in gruppierter Form vor, also als H¨aufigkeitsverteilung f1 , . . . , fk mit Gruppenmitten m1 , . . . , mk , dann verwendet man s2g =
k j=1
fj (mj − xg )2 .
F¨ ur H¨aufigkeitsdaten eines metrisch skalierten Merkmals mit Auspr¨ agungen a1 , . . . , ak und relativen H¨aufigkeiten f1 , . . . , fk ist analog: s2a = kj=1 fj (aj − x)2 .
1.6 Quantifizierung der Gestalt empirischer Verteilungen
33
s2 ist im folgenden Sinne das in nat¨ urlicher Weise zu x korrespondierende Streuungsmaß: Das arithmetische Mittel minimiert die Funktion n
Q(m) =
1 (xi − m)2 n i=1
und s2 ist gerade der Minimalwert: s2 = Q(x).
F¨ ur Handrechnungen f¨ uhrt folgende besonders wichtige Formel zu erheblichen Vereinfachungen: Verschiebungssatz Es gilt n i=1
und somit
n
2
(xi − x) =
i=1
x2i − n · (x)2 .
n
1 2 s = x − (x)2 . n i=1 i 2
F¨ ur gruppierte Daten gilt analog: s2g
=
n i=1
fj m2j − (xg )2 .
Herleitung: Nach Ausquadrieren (xi − x)2 = x2i − 2xi x + (x)2 erh¨ alt man durch Summation
x n
i=1
Ber¨ ucksichtigt man, dass
x + (x) . n
2 i
− 2x
i
2
i=1
alt man den Verschiebungssatz. i xi = n · x gilt, so erh¨
In der statistischen Praxis wird u ¨blicherweise die Berechnungsvorschrift n
s2 =
1 (xi − x)2 . n − 1 i=1
verwendet. Diese Formel ist durch das theoretische Konzept der Erwartungstreue begr¨ undet, das im Kapitel u ¨ber schließende Statistik behandelt wird. Wir verwenden in beiden F¨allen das selbe Symbol s2 und geben jeweils im Kontext an, ob der Vorfaktor 1/n oder 1/(n − 1) zu verwenden ist. − MAD∗ Verwendet man den Median zur Kennzeichnung der Lage der Daten, so werden die Abst¨ande zu den Beobachtungen durch den Absolutbetrag gemessen. Dies liefert n Abst¨ande
34
1 Deskriptive und explorative Statistik
|x1 − x med |, . . . , |xn − x med |,
deren Mittel ein nahe liegendes Streuungsmaß liefert. MAD Die mittlere absolute Abweichung (Mean Absolute Deviation, MAD) ist gegeben durch n
MAD =
1 |xi − x med |. n i=1
Die Dimension von MAD stimmt mit der Dimension der Beobachtungen u ¨berein. Im Gegensatz zum Median ist der MAD nicht robust bzgl. Ausreißer med . Daher verwendet man zur Mittelung der n Abst¨ande Abst¨anden xi − x h¨ aufig nicht das arithmetische Mittel, sondern wiederum den Median: med |, . . . , |xn − x med |). Med(|x1 − x
1.6.3 Schiefe versus Symmetrie
Die Schiefe einer empirischen Verteilung wollen wir versuchen anschaulich zu fassen. Symmetrie Eine Funktion f (x) heißt symmetrisch mit Symmetriezentrum m, wenn f¨ ur alle x ∈ R gilt: f (m + x) = f (m − x).
Eine empirische Verteilung ist symmetrisch, wenn die H¨aufigkeitsdichte fn (x) diese Eigenschaft hat. Dann ist m insbesondere der Median. F¨ ur den praktischen Gebrauch muss man die Gleichheitsbedingung jedoch aufweichen zu f (m + x) ≈ f (m − x).
Linksschiefe liegt vor, wenn f¨ ur alle a > 0 der Anteil der Beobachtungen mit xi > m + a gr¨oßer ist als der Anteil der Beobachtungen mit xi < m − a. Ist es genau umgekehrt, so spricht man von Rechtsschiefe. Eine Verteilung ist symmetrisch, wenn Gleichheit vorliegt. Zun¨achst verraten sich schiefe Verteilungen dadurch, dass arithmetisches Mittel und Median deutlich voneinander abweichen. Das bekannteste Schiefemaß ist das dritte standardisierte Moment 3 n 1 xi − x ∗ m3 = . n i=1 s
1.6 Quantifizierung der Gestalt empirischer Verteilungen
mit s2 =
1 n
n
i=1 (xi
35
− x)2 . Die standardisierten Variablen x∗i =
xi − x s
sind bereinigt um die Lage und die Streuung, d. h. ihr arithmetisches Mittel ist 0 und ihre Stichprobenvarianz 1. Ist die Verteilung rechtsschief, so gibt es viele xi f¨ ur die xi − x sehr groß ist. In diesem Fall wird das arithmetische Mittel der 2 xi − x xi − x ∗ 3 · (xi ) = s s positiv sein. Bei Linksschiefe sind hingegen sehr viele xi − x sehr klein (und negativ), so dass m∗3 tendenziell negativ ist. Somit zeigt m∗3 > 0 Rechtsschiefe und m∗3 < 0 Linksschiefe an. F¨ ur exakt symmetrische Daten ist m∗3 = 0. 1.6.4 Quantile und abgeleitete Kennzahlen Mitunter interessiert nicht nur die Lage des Zentrums einer Datenmenge, sondern die Lage der unteren oder oberen p · 100%. Man nennt solch einen Wert Quantil bzw. Perzentil. Ein konkretes Anwendungsbeispiel: Beispiel 1.6.5. Ein PC-H¨andler bestellt einmal im Monat TFT-Monitore, deren Absatz von Monat zu Monat variiert. Da er nur einen kleinen Lagerraum hat, m¨ochte er so viele Ger¨ate bevorraten, dass in 9 von 10 Monaten der Vorrat bis zum Monatsende reicht. Zur Bestimmung der gew¨ unschten Menge kann er auf seine Verkaufszahlen x1 , . . . ,xn der letzten n = 10 Monate zur¨ uckgreifen. Der PC-H¨andler im obigen Beispiel sucht die Absatzmenge, die ihm seine (potentiellen) Kunden in 9 von 10 Monaten bescheren, also das Quantil f¨ ur p = 0.9. Da die wahren Quantile der Grundgesamtheit nicht bekannt sind, berechnet man die entsprechenden Gr¨oßen aus Stichproben. Wir geben die Definition f¨ ur ordinal skalierte Daten: (Empirisches) p-Quantil Ein (empirisches) p-Quantil, p ∈ (0,1), eines p ∈ {x1 , . . . , xn }, so dass Datensatzes x1 , . . . , xn ist jeder Wert x •
mindestens 100 · p der Datenpunkte kleiner oder gleich x p sind und zugleich • mindestens 100 · (1 − p) der Datenpunkte gr¨oßer oder gleich x p sind.
Wie beim Median ist zwischen zwei F¨allen zu unterscheiden:
36
1 Deskriptive und explorative Statistik
1) Fall np ∈ N ganzzahlig: x(np) und x(np+1) sind p-Quantile.
2) Fall np ∈ N: x p = x⌊(np)⌋+1 ist das eindeutige p-Quantil, wobei ⌊x⌋ wieder die Abrundung von x ∈ R ist.
Bei metrischer Skalierung bezeichnet man im Fall np ∈ N jede Zahl des Intervals [x(np) , x(np+1) ] als p-Quantil. In der Praxis muss eine Festlegung getroffen werden, etwa in der Form, dass die Intervalmitte verwendet wird: x p = 12 (x(np) + x(np+1) ). Quartile Das 0.25-Quantil bezeichnet man auch als erstes Quartil oder auch unteres Quartil Q1 , das 0.75-Quantil als drittes Quartil bzw. oberes Quartil Q3 . Zusammen mit Median (Q2 ), Minimum und Maximum unterteilen die beiden Quartile einen Datensatz in vier Bereiche mit gleichen Anteilen.
Beispiel 1.6.6. Wir betrachten die Ozondaten aus Beispiel 1.6.2: 26 43 49 52 52 64 66 68 75 86 87 118 188 Als Median hatte sich ergeben: xmed = x0.5 = x(7) = 66. Zus¨atzlich sollen die p-Quantile f¨ ur p ∈ {0.1, 0.25, 0.75} berechnet werden. p 0.1 0.25 0.75 0.9
np 1.3 3.25 9.75 11.7
x p x(2) = 43 x(4) = 52 x(10) = 86 x(12) = 118
F¨ ur p = 0.1 gilt: 2/13 (≈ 15.4%) der Datenpunkte sind kleiner oder gleich x(2) = 43 und 12/13 (≈ 92.3%) der Datenpunkte sind gr¨oßer oder gleich 43. Aus den empirischen Quantilen lassen sich f¨ ur metrisch skalierte Merkmale auch Streuungsmaße ableiten. Quartilsabstand Die Kenngr¨oße IQR = Q3 − Q1 heißt Quartilsabstand (engl.: interquartile range). Das Intervall [Q1 , Q3 ] grenzt die zentralen 50% der Daten ab und der Quartilsabstand ist die L¨ange dieses Intervalls.
1.6 Quantifizierung der Gestalt empirischer Verteilungen
37
Beispiel 1.6.7. F¨ ur die Ozondaten ergibt sich als Quartilsabstand IQR = 86 − 52 = 34. Die zentralen 50% der Datenpunkte unterscheiden sich also um nicht mehr als 34 [ppm]. 1.6.5 F¨ unf–Punkte–Zusammenfassung und Boxplot
F¨ unf–Punkte–Zusammenfassung Die Zusammenstellung des Minimums 0.25 , des Medians Q2 = xmed , des dritten xmin , des ersten Quartils, Q1 = x Quartils Q3 sowie des Maximums xmax bezeichnet man als F¨ unf–Punkte– Zusammenfassung. Diese 5 Kennzahlen verraten schon vieles u ¨ber die Daten: Die Daten liegen innerhalb des Messbereichs [xmin , xmax ]; der Median ist ein robustes Lagemaß, das den Datensatz in zwei gleichgroße H¨alften teilt. Die Mitten dieser H¨alfunf–Punkte–Zusammenfassung liefert ten sind die Quartile Q1 und Q3 . Die F¨ somit bereits ein grobes Bild der Verteilung. Beispiel 1.6.8. F¨ ur die Ozondaten lautet die F¨ unf–Punkte–Zusammenfassung: xmin x 0.25 xmed x 0.75 xmax 26 52 66 86 188 Boxplot Der Boxplot ist eine graphische Darstellung der F¨ unf–Punkte– Zusammenfassung. Man zeichnet eine Box von Q1 bis Q3 , die einen vertikalen Strich beim Median erh¨alt. An die Box werden Striche – die sogenannten Whiskers (whiskers sind die Schnurrhaare einer Katze) – angesetzt, die bis zum Minimum bzw. Maximum reichen.
Beispiel 1.6.9. Der Boxplot der F¨ unf–Punkte–Zusammenfassung der Ozondaten ist in Abbildung 1.6 dargestellt. Der Boxplot ist nicht eindeutig definiert. Es gibt Varianten und vielf¨altige Erg¨anzungen. Wir wollen hier nur die wichtigsten Modifikationen kurz besprechen. In großen Stichproben k¨onnen Minimum und Maximum optisch ,,divergieren”, da in diesem Fall extreme Beobachtungen h¨aufiger beobachtet werden. Dann kann es sinnvoll sein, xmin und xmax durch geeignet gew¨ahlte Quantile, bspw.
1 Deskriptive und explorative Statistik
50
100
150
38
Abb. 1.6. Boxplot der Ozondaten.
durch x p/2 und x 1−p/2 , zu ersetzen, so dass zwischen den Whiskers (1 − p) · 100% der Daten liegen.
Die Whiskers markieren also den tats¨achlichen Messbereich oder einen Bereich, in dem die allermeisten Beobachtungen liegen. Die Box visualisiert den Bereich, in dem die zentralen 50% der Datenpunkte liegen. Der Mittelstrich markiert den Median, der die Verteilung teilt. Schiefe Verteilungen erkennt man daran, dass der Medianstrich deutlich von der Mittellage abweicht.
Zus¨atzlich werden h¨aufig extreme Beobachtungen eingezeichnet, z.B. die kleinsten und gr¨oßten f¨ unf Beobachtungen. Eine andere Konvention besagt, dass zur Aufdeckung von Ausreißern Beobachtungen eingezeichnet werden, die unterhalb der unteren Ausreißergrenze Q1 − 1.5 · (Q3 − Q1 ) bzw. oberhalb der oberen Ausreißergrenze Q3 + 1.5 · (Q3 − Q1 ) liegen. Diese Grenzen heißen auch innere Z¨ aune und Beobachtungen, die außerhalb der inneren Z¨aune liegen, werden ¨ außere Beobachtungen genannt. Verwendet man statt des Faktors 1.5 den Faktor 3, so erh¨alt man die ¨ außeren Z¨ aune.
1.6 Quantifizierung der Gestalt empirischer Verteilungen
39
Die Grund¨ uberlegung bei Verwendung solcher Ausreißerregeln ist es, verd¨achtige Beobachtungen aufzudecken, die darauf hindeuten, dass ein gewisser Teil der Beobachtungen ganz anders verteilt ist als die Masse der Daten. Diese Ausreißergrenzen sind jedoch mit Vorsicht zu genießen. Wir werden sp¨ater die Normalverteilung kennen lernen, von der viele elementare statistische Verfahren ausgehen. Hat man den Verdacht, dass eventuell ein Teil der zu untersuchenden Daten nicht normalverteilt ist (Kontamination), sondern von der Normalverteilung abweicht (z.B. st¨arker streut), so liegt es nahe, obige Ausreißerregeln anzuwenden. Wendet man die obigen Ausreißerregeln auf normalverteilte Datens¨atze an, so werden jedoch zu h¨aufig f¨alschlicherweise Beobachtungen als ’auff¨allig’ klassifiziert. Liegt n zwischen 10 und 20, so wird im Schnitt in jeder zweiten Stichprobe eine Beobachtung f¨alschlicherweise als auff¨allig klassifiziert, obwohl gar keine Kontamination vorliegt. Man schließt also viel zu h¨aufig auf ein Ausreißerproblem, da die Regeln sehr sensitiv sind. Beispiel 1.6.10. F¨ ur die Ozondaten ergeben sich folgende Ausreißergrenzen: Q1 − 1.5 · (Q3 − Q1 ) = 49 − 1.5 · 34 = −2 Q1 + 1.5 · (Q3 − Q1 ) = 49 + 1.5 · 34 = 100 Auff¨allige ¨außere Beobachtungen sind somit: 118 und 188. 1.6.6 QQ-Plot (Quantildiagramm) Der QQ-Plot ist ein n¨ utzliches grafisches Tool, um schnell erkennen zu k¨onnen, ob zwei Datens¨atze unterschiedliche empirische Verteilungen besitzen. Grundlage ist hierbei der Vergleich von empirischen Quantilen. W¨ahrend der Boxplot lediglich 3 (bzw. 5) Quantile visualisiert, werden beim QQ-Plot deutlich mehr Quantile verglichen. Konkret werden f¨ ur ausgew¨ahlte Anteile p die p-Quantile des y-Datensatzes gegen die p-Quantile des x-Datensatzes aufgetragen. Im Idealfall, dass die Verteilungen der Datens¨atze u ¨bereinstimmen, ergibt sich die Winkelhalbierende. Unterschiede schlagen sich in Abweichungen von der Winkelhalbierenden nieder. Gegeben seien also zwei Datens¨atze x1 , . . . , xn
und
y1 , . . . , ym .
Gilt n = m, so verwendet man die pi -Quantile mit pi = i/n,
i = 1, . . . , n,
welche gerade durch die Ordnungsstatistiken x(i) und y(i) gegeben sind. Man tr¨agt also lediglich die geordneten Werte gegeneinander auf. Bei ungleichen Stichprobenumf¨angen verwendet man die pi -Werte des kleineren Datensatzes und muss daher lediglich f¨ ur den gr¨oßeren Datensatz die zugeh¨origen Quantile berechnen. Zur Interpretation halten wir fest:
40
1 Deskriptive und explorative Statistik
• In Bereichen, in denen die Punkte unterhalb der Winkelhalbierenden liegen, sind die y-Quantile kleiner als die x-Quantile. Die y-Verteilung hat daher mehr Masse bei kleinen Werten als die x-Verteilung. • Liegen alle Punkte (nahezu) auf einer Geraden, so gehen die Datens¨atze durch eine lineare Transformation auseinander hervor: yi = axi + b (Lageund Skalen¨anderung).
1.7 Konzentrationsmessung* Eine wesentliche Fragestellung bei der Analyse von M¨arkten ist, wie stark die Marktanteile auf einzelne Marktteilnehmer konzentriert sind. Dies gilt insbesondere f¨ ur den Vergleich von M¨arkten. Der Marktanteil kann hierbei anhand ganz verschiedener Merkmale gemessen werden (z.B. verkaufte Autos, erzielte Umsatzerl¨ose oder die Anzahl der Kunden). Ein Markt ist stark konzentriert, wenn sich ein Großteil des Marktvolumens auf nur wenige Marktteilnehmer verteilt, also wenig streut. Bei schwacher Konzentration verteilt sich das Volumen gleichm¨aßig auf viele Anbieter. Wir wollen in diesem Abschnitt die wichtigsten Konzentrationsmaße sowie geeignete grafische Darstellungen kennen lernen. Ausgangspunkt ist die Modellierung eines Marktes durch n Merkmalstr¨ager 1, . . . , n, f¨ ur die n kardinalskalierte Merkmalsauspr¨agungen x1 , . . . , xn ≥ 0 gegeben sind. 1.7.1 Lorenzkurve Wir gehen im Folgenden davon aus, dass die Merkmalsauspr¨agungen sortiert sind: x1 ≤ x2 ≤ · · · ≤ xn . Die j kleinsten Marktteilnehmer vereinen die Merkmalssumme x1 +· · ·+xj auf sich. Jeweils in Anteilen ausgedr¨ uckt, bedeutet dies: Die j/n · 100% kleinsten Marktteilnehmer vereinen den (Markt-) Anteil aj =
x1 + · · · + xj x1 + · · · + xn
auf sich. Lorenzkurve Die Lorenzkurve L(t), t ∈ [0,1], ist die grafische Darstellung der n + 1 Punktepaare (0,0), (1/n, a1 ), . . . , (1, an ) durch einen Streckenzug. Man verbindet also diese Punktepaare durch Linien.
1.7 Konzentrationsmessung*
41
Es ist zu beachten, dass nur die Funktionswerte an den Stellen 0, 1/n, . . . , 1 sinnvoll interpretiert werden k¨onnen. Bei minimaler Konzentration verteilt sich die Merkmalssumme nach einer Gleichverteilung auf die n Merkmalstr¨ager. Es ist dann xj = s/n und aj = js/n = nj f¨ ur j = 1, . . . , n. Die Lorenzkurve f¨ allt mit der Diagonalen y = x s zusammen, die man daher zum Vergleich in die Grafik einzeichnen sollte. Bei maximaler Konzentration gilt: x1 = 0, . . . , xn−1 = 0 und somit a1 = 0, . . . , an−1 = 0 und an = 1. Die Lorenzkurve verl¨auft zun¨achst entlang der x-Achse bis zur Stelle (n − 1)/n und steigt dann linear auf den Wert 1 an. Bei wachsender Anzahl n der Merkmalstr¨ager n¨ahert sich die Lorenzkurve der Funktion an, die u ¨berall 0 ist und nur im Punkt x = 1 den Wert 1 annimmt. Dieser Grenzfall entspricht der Situation, dass ein Markt mit unendlich vielen Marktteilnehmern von einem Monopolisten vollst¨andig beherrscht wird. Die Lorenzkurve ist monoton steigend und konvex. Je st¨arker der Markt konzentriert ist, desto st¨arker ist die Lorenzkurve (nach unten) gekr¨ ummt. Wir betrachen ein einfaches Zahlenbeispiel, auf das wir auch im Folgenden zur¨ uckgreifen werden. Beispiel 1.7.1. Drei Anbieter A1 , A2 , A3 teilen in zwei L¨andern einen Markt unter sich auf:
j 1 2 3
X-Land A1 A2 A3 10% 20% 70%
Y-Land A1 A2 A3 5% 5% 90%
X-Land xj j/n aj 0.1 1/3 0.1 0.2 2/3 0.3 0.7 1 1
Y-Land xj j/n aj 0.05 1/3 0.05 0.05 2/3 0.10 0.90 1 1
Abbildung 1.7 zeigt die zugeh¨origen Lorenzkurven. Der Markt in Y-Land ist st¨arker konzentriert als in X-Land, die Lorenzkurve h¨angt entsprechend st¨arker durch. Beispiel 1.7.2. Wir betrachten die PKW–Zulassungszahlen aus Beispiel 1.1.3, um die Konzentration zu analysieren. Aus der Lorenzkurve aus Abbildung 1.8 liest man ab, dass die 50% kleinsten Hersteller lediglich 25% des Marktvolumens auf sich vereinen. Volkswagen als Marktf¨ uhrer erzielt allein bereits 17.6% des Absatzes.
1 Deskriptive und explorative Statistik
0.0
0.2
0.4
0.6
0.8
1.0
42
0.0
0.2
0.4
0.6
0.8
1.0
Abb. 1.7. Lorenzkurven von X-Land und Y-Land (gestrichelt).
1.7.2 Gini–Koeffizient Der Gini-Koeffizient verdichtet die Lorenzkurve auf eine Kennzahl. Ausgangspunkt ist die Beobachtung, dass die Fl¨ache zwischen der Diagonalen und der Lorenzkurve ein Maß f¨ ur die St¨arke der Konzentration ist. Auf einem Markt mit unendlich vielen Marktteilnehmern und einem Monopolisten nimmt diese Fl¨ ache den Maximalwert 1/2 an. Gini–Koeffizient Der Gini–Koeffizient G ist gegeben durch G = 2 · Fl¨ache zwischen Lorenzkurve und Diagonale.
Berechnungsformel f¨ ur den Gini–Koeffizienten Es gilt: G=
n+1−2
n
n
j=1
aj
.
Hieraus sieht man: Bei einer Gleichverteilung x1 = · · · = xn nimmt G den Wert 0 an, bei maximaler Konzentration gilt G = n−1 n .
43
0.0
0.2
0.4
0.6
0.8
1.0
1.7 Konzentrationsmessung*
0.0
0.2
0.4
0.6
0.8
1.0
Abb. 1.8. Lorenzkurve der Zulassungszahlen aus Beispiel 1.1.3. Herleitung: Wir leiten die Berechnungsformel f¨ ur G her: Die Fl¨ ache unterhalb der Lorenzkurve besteht aus n Fl¨ achenst¨ ucken. Das Erste ist ein Dreieck der Fl¨ ache 1 1 1 ¨ a . Die Ubrigen setzen sich jeweils aus einem Rechteck der Breite und der H¨ ohe 1 2n n aj−1 und einem aufgesetzten Dreieck zusammen, dessen achsenparallele Seiten die achenst¨ uck L¨ angen n1 und aj − aj−1 haben. Ist j ∈ {2, . . . , n}, dann hat das j-te Fl¨ die Fl¨ ache 11 1 (aj − aj−1 ) + aj−1 2n n 1 = (aj−1 + aj ). 2n
Fj =
Summation u ur die Gesamtfl¨ ache: ¨ber j liefert f¨
n
F =
11 1 a1 + (aj−1 + aj ) 2n 2n j=2
2 a
Da an = 1, ergibt sich F = der Lorenzkurve ist daher 2 1 − 2
2
j
− an
.
j=1
n j=1
aj −1
2n n j=1
n
1 = 2n
aj − 1
2n
. Die Fl¨ ache zwischen der Diagonalen und
=
n+1−2
n j=1
2n
und der Gini–Koeffizient ist gerade das Doppelte hiervon.
aj
,
44
1 Deskriptive und explorative Statistik
Beispiel 1.7.3. F¨ ur das Zahlenbeispiel 1.7.1 ergibt sich f¨ ur X–Land: n
aj = 0.1 + 0.3 + 1 = 1.4.
j=1
Der Gini–Koeffizient ist daher: GX = F¨ ur Y–Land erh¨alt man:
n
j=1
3 + 1 − 2 · 1.4 = 0.4. 3 aj = 1.15 und GY = 0.567.
Normierter Gini–Koeffizient Der normierte Gini-Koeffizient berechnet sich zu n G∗ = G n−1 und nimmt Werte zwischen 0 und 1 an. Beispiel 1.7.4. F¨ ur X–Land erh¨alt man G∗X = 0.4·3/2 = 0.6 und f¨ ur Y–Land ∗ GY = 0.85. Lorenzkurve und Gini-Koeffizient messen die relative Konzentration unter n Marktteilnehmern. Die Anzahl der Marktteilnehmer wird jedoch nicht ber¨ ucksichtigt. Insbesondere erh¨alt man bei gleichen Marktanteilen unter n Teilnehmer stets dieselbe Lorenzkurve, unabh¨angig von n. Dies ist ein Kritikpunkt, da in der Regel ein Markt mit gleichstarken Anbietern als umso konzentrierter angesehen wird, je weniger Anbieter vertreten sind. 1.7.3 Herfindahl-Index Ein einfach zu berechnendes und verbreitetes Konzentrationsmaß, welches die Anzahl der Merkmalstr¨ager ber¨ ucksichtigt, ist der Index nach Herfindahl. Er basiert auf den einzelnen Marktanteilen. Herfindahl-Index Der Herfindahl-Index ist gegeben durch H=
n
p2i ,
i=1
wobei pi =
xi x1 + · · · + x n
den Merkmalsanteil des i-ten Merkmalstr¨agers notiert.
1.8 Deskriptive Korrelations- und Regressionsanalyse
45
Bei Vorliegen eines Monopols gilt: p1 = · · · = pn−1 = 0 und pn = 1, so dass sich H = 1 ergibt. Bei gleichen Marktanteilen p1 = · · · = pn = 1/n erh¨alt man H = 1/n. Der Herfindahl-Index erh¨oht sich daher, wenn sich der Markt gleichm¨aßig auf weniger Teilnehmer verteilt. Beispiel 1.7.5. F¨ ur unser Rechenbeispiel 1.7.1 erhalten wir f¨ ur X–Land bzw. Y–Land: HX = 0.12 + 0.22 + 0.72 = 0.54,
HY = 0.052 + 0.052 + 0.92 = 0.815.
Wie erwartet, ist auch im Herfindahl–Sinn der Markt in Y–Land konzentrierter.
1.8 Deskriptive Korrelations- und Regressionsanalyse Werden zwei Merkmale X und Y an n statistischen Einheiten beobachtet, so stellt sich die Frage, ob zwischen den Merkmalen ein Zusammenhang besteht. Im Rahmen der Korrelationsrechnung sollen sogenannte ungerichtete Zusammenh¨ange untersucht und in Form von Kennzahlen quantifiziert werden. Dies meint, dass kein funktionaler Zusammenhang zwischen X und Y vorausgesetzt wird, etwa in der Form, dass Y eine (verrauschte) Funktion von X ist. Es geht lediglich darum, zu kl¨aren, ob gewisse Auspr¨agungskombinationen von X und Y geh¨auft beobachtet werden. Man spricht dann davon, dass X und Y korrelieren. Die Regressionsrechnung hingegen unterstellt, dass zwischen den Merkmalen ein linearer Zusammenhang besteht, der auf Grund von Zufallseinfl¨ ussen nur in gest¨orter Form beobachtet werden kann. Die Korrelation wird dann durch die zu Grunde liegende lineare Abh¨angigkeit induziert. Im Rahmen der Regressionsrechnung soll die wahre lineare Funktion bestm¨oglichst aus den Daten gesch¨atzt werden. 1.8.1 Korrelation Gegeben seien n Punktepaare (x1 , y1 ), . . . , (xn , yn ), generiert durch simultane Erhebung der Merkmale X und Y an n statistischen Einheiten. Wir sprechen auch von einer zweidimensionalen oder bivariaten Stichprobe. ⊲ Nominale Merkmale F¨ ur nominal skalierte Merkmale X und Y , die simultan an statistischen Einheiten beobachtet werden, geht man wie folgt vor: Die Merkmalsauspr¨agungen von X seien a1 , . . . , ar , diejenigen von Y notieren wir mit b1 , . . . ,bs . Das bivariate Merkmal (X,Y ) hat dann r · s m¨ogliche Auspr¨agungen, n¨amlich (a1 ,b1 ),(a1 ,b2 ), . . . ,(ar ,bs ). Liegt nun eine bivariate
46
1 Deskriptive und explorative Statistik
Stichprobe (x1 ,y1 ), . . . ,(xn ,yn ) vom Umfang n vor, so stimmt jedes Beobachtungspaar mit einer der Auspr¨agungen (ai ,bj ) u ¨berein. Z¨ahlt man aus, wie oft die Kombination (ai ,bj ) in der Stichprobe vorkommt, so erh¨alt man die zugeh¨orige absolute H¨aufigkeit hij . Die r · s absoluten H¨aufigkeiten werden in einem ersten Schritt u ¨bersichtlich in einer Tabelle mit r · s Feldern, die auch Zellen genannt werden, zusammengestellt. Diese Tabelle heißt Kontingenztafel. In der Praxis liegen Stichproben nominal skalierter Merkmale oftmals direkt in dieser Form vor; man spricht dann von Z¨ ahldaten. Dividiert man die absoluten H¨aufigkeiten hij durch n, so erh¨alt man die relativen H¨ aufigkeiten fij = hij /n der Zelle (i,j).
X
a1 .. . ar
Y b1 · · · bs h11 · · · h1s h1• .. .. .. . . . hr1 · · · hrs hr• h•1 · · · h•s h•• = n
¨ Der Ubergang zu den Zeilensummen resultiert in der absoluten H¨aufigkeitsverteilung von X; die Spaltensummen liefern entsprechend die absolute H¨aufigkeitsverteilung von Y . Man spricht auch von den Randverteilungen (kurz: R¨ andern) der Kontingenztafel. Wir verwenden die folgenden Schreibweisen: hi• = hi1 + · · · + his = h•j = h1j + · · · + hrj =
s
hij
j=1 r
hij
i=1
Division durch n ergibt die relativen H¨aufigkeitsverteilungen der Merkmale. Angenommen, wir interessieren uns lediglich f¨ ur die Z¨ahldaten hi1 , . . . ,his der i-ten Zeile der Kontingenztafel. Dies sind die Anzahlen der Auspr¨agungen ur die X den Wert ai hat. Dividieren wir durch die Zeilenb1 , . . . ,bs von Y , f¨ summen hi• , so erhalten wir eine relative H¨aufigkeitsverteilung.
1.8 Deskriptive Korrelations- und Regressionsanalyse
47
Bedingte H¨ aufigkeitsverteilung Die bedingte H¨ aufigkeitsverteilung von Y unter der Bedingung X = ai ist gegeben durch fY (bj | ai ) =
hij fij = , hi• fi•
j = 1, . . . ,s ,
sofern hi• > 0. Entsprechend heißt fX (ai | bj ) =
hij fij = , h•j f•j
i = 1, . . . ,r
bedingte H¨aufigkeitsverteilung von X unter der Bedingung Y = bj . Die bedingte H¨aufigkeitsverteilung ergibt sich aus denjenigen Z¨ahldaten (Beobachtungen), die wir durch Selektieren der i-ten Zeile bzw. der j-ten Spalte erhalten. Im ersten Fall werden alle Daten ausgew¨ahlt, die bei Vorliegen der Zusatzinformation X = ai“ noch relevant sind, der zweite Fall entspricht der ” Zusatzinformation Y = bj“. ” Besteht zwischen den Merkmalen X und Y kein Zusammenhang, so sollte es insbesondere keine Rolle spielen; auf welche Zeile wir bedingen. Dann stimmt die bedingte relative H¨aufigkeit fY (bj | ai ) mit fj u ¨berein: fY (bj | ai ) =
hij h•j = f•j = hi• n
¨ Diese Uberlegung f¨ uhrt auf die Formel hij =
hi• ·h•j . n
Empirische Unabh¨ angigkeit Die Merkmale einer Kontingenztafel heißen empirisch unabh¨ angig, falls hij =
hi• · h•j ⇔ fij = fi• · f•j n
f¨ ur alle i = 1, . . . ,r und j = 1, . . . ,s gilt. Sind die Merkmale X und Y empirisch unabh¨angig, dann ergeben sich alle Eintr¨age der Kontingenztafel als Produkt der jeweiligen Randsummen dividiert durch die Summe aller Eintr¨age. Die Randverteilungen legen dann bereits die gesamte Kontingenztafel fest. Aus der empirischen Unabh¨angigkeit folgt ferner, dass die bedingten H¨aufigkeitsverteilungen nicht von den Bedingungen abh¨angen: fX (ai | bj ) = und
hij hi• · h•j = = fi• , h•j n · h•j
i = 1, . . . ,r ,
48
1 Deskriptive und explorative Statistik
fY (ai | bj ) =
hij hi• · h•j = = f•j , hi• n · hi•
j = 1, . . . ,s .
Die Selektion einzelner Zeilen oder Spalten ¨andert die relativen H¨aufigkeiten nicht. In diesem Sinne ist die Information Y = bj“ bzw. X = ai“ nicht ” ” informativ f¨ ur die jeweils andere Variable, da sie die relativen H¨aufigkeiten nicht ¨andert, mit denen wir rechnen. Kontingenztafeln von realen Datens¨atzen sind nahezu nie empirisch unabh¨angig im Sinne obiger Definition. Oftmals ist die Verteilung jedoch gut durch die Produktverteilung approximierbar, d.h. hij ≈
hi• · h•j , n
fij ≈ fi• · f•j ,
f¨ ur alle i und j. Sind die hij gut durch die Zahlen hi• · h•j /n approximierbar, dann kann man die gemeinsame Verteilung von X und Y - also die Kontingenztafel der r · s Anzahlen hij - auf die Randverteilungen (h1• , . . . ,hr• ) und (h•1 , . . . ,h•s ) verdichten. Ben¨otigt man in Rechnungen die gemeinsame relative H¨aufigkeit fij , dann verwendet man fi• · f•j als N¨aherung.
Die Diskrepanz zwischen den beobachteten relativen H¨aufigkeiten und denjenigen Werten, die sich bei Annahme der empirischen Unabh¨angigkeit ergeben, k¨ onnen durch die folgende Kennzahl gemessen werden: Chiquadrat–Statistik, χ2 -Koeffizient Q=
Die Maßzahl
r s (hij − eij )2 , eij i=1 j=1
eij =
hi• · h•j , n
heißt Chiquadrat–Statistik (χ2 -Koeffizient) und wird auch mit dem Symbol χ2 bezeichnet. Es gilt: Q=n
s r (fij − fi• · f•j )2 . fi• · f•j i=1 j=1
F¨ ur eine (2 × 2)-Kontingenztafel gilt die einfache Formel: Q=n
(h11 h22 − h12 h21 )2 . h1• h2• h•1 h•2
Der χ2 -Koeffizient vergleicht die beobachtete Kontingenztafel mit derjenigen, die sich bei gleichen Randverteilungen im Falle der empirischen Unabh¨angigkeit einstellt. Q ist ein Maß f¨ ur die St¨arke des ungerichteten Zusammenhangs: Vertauschen von X und Y a¨ndert Q nicht. Die χ2 -Statistik kann sinnvoll ein-
1.8 Deskriptive Korrelations- und Regressionsanalyse
49
gesetzt werden, um Kontingenztafeln gleicher Dimension und gleichen Stichprobenumfangs zu vergleichen, aber die Interpretation einer einzelnen χ2 -Zahl ist mit den Mitteln der deskriptiven Statistik kaum m¨oglich. Ein formales Pr¨ ufverfahren, ob der erhaltene Wert f¨ ur oder gegen die Annahme spricht, dass zwischen X und Y kein Zusammenhang besteht, lernen wir in Kapitel u ¨ber schließende Statistik kennen. F¨ ur die Chiquadrat-Statistik gilt: 0 ≤ Q ≤ n · min(r − 1,s − 1) . Der Maximalwert wird genau dann angenommen, wenn in jeder Zeile und Spalte jeweils genau eine Zelle besetzt ist. Nimmt Q seinen Maximalwert an, dann gibt es zu jeder Auspr¨agung ai von X genau eine Auspr¨agung bj von Y (und umgekehrt), so dass nur die Kombination (ai ,bj ) in der Stichprobe vorkommt, jedoch nicht die Kombinationen (ai ,bk ), k ∈ {1, . . . ,s} mit k = j, und auch nicht die Kombinationen (al ,bj ), l ∈ {1, . . . ,r}, l = i. Somit kann von der Auspr¨agung ai von X direkt auf die Auspr¨agung bj von Y geschlossen werden (und umgekehrt). Man spricht in diesem Fall von einem vollst¨ andigen Zusammenhang. In der deskriptiven Statistik normiert man die χ2 -Statistik, so dass die resultierende Maßzahl nicht vom Stichprobenumfang und/oder der Dimension der Kontingenztafel abh¨angt. Kontingenzkoeffizient, normierter Kontingenzkoeffizient genzkoeffizient nach Pearson ist gegeben durch Q K= n+Q und nimmt Werte zwischen 0 und Kmax = Kontingenzkoeffizient ist definiert als K∗ =
min(r,s)−1 min(r,s)
Der Kontin-
an. Der normierte
K Kmax
und nimmt Werte zwischen 0 und 1 an. ⊲ Metrische Merkmale Ist (x1 , y1 ), . . . , (xn , yn ) eine bivariate Stichprobe vom Umfang n zweier metrisch skalierter Merkmale, dann kann man die Punktepaare in einem (x,y)– Koordinatensystem auftragen und erh¨alt eine Punktwolke. Der Korrelationskoeffizient, den wir im Folgenden einf¨ uhren wollen, ist in einem gewissen Sinne zugeschnitten auf ellipsenf¨ormige Punktwolken. Eine ellipsenf¨ormige Punktwolke kann mit ihrer gedachten Hauptachse parallel zur x–Achse liegen oder
50
1 Deskriptive und explorative Statistik
eine von links nach rechts aufsteigende oder absteigende Ausrichtung haben. Liegt etwa eine aufsteigende Form vor, dann korrespondieren im Schnitt große xi zu großen yi . Eine sinnvolle Maßzahl zur Quantifizierung der Korrelation sollte umso gr¨oßere Werte annehmen, je gestreckter die Punktwolke ist. Im Extremfall streut die Punktwolke nur geringf¨ ugig um eine Gerade, die Hauptachse der Ellipse. Ein sinnvoller Ausgangspunkt hierf¨ ur ist es, die Abst¨ande der Beobachtungen zum Schwerpunkt (x,y) der Punktwolke zu betrachten. Stellt man sich die Punkte (xi ,yi ) als Massepunkte und das (x,y)–Koordinatensystem als masseloses Blatt Papier vor, dann ist der Schwerpunkt gerade gegeben durch (x, y), wobei x und y die arithmetischen Mittelwerte sind: n
x=
1 xi , n i=1
n
y=
1 yi . n i=1
Legen wir ein Achsenkreuz durch diesen Schwerpunkt, so wird die Punktwolke in vier Quadranten zerlegt. In den diagonal aneinanderstoßenden Quadranten habe (xi − x) und (yi − y) das selbe Vorzeichen. Empirische Kovarianz Die empirische Kovarianz einer bivariaten Stichprobe (x1 ,y1 ), . . . , (xn ,yn ) ist definiert als n
sxy =
1 (xi − x)(yi − y). n i=1
Die empirische Kovarianz ist eine Funktion der beiden Datenvektoren x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ). Mitunter verwenden wir daher auch die Notation cov(x, y): sxy = cov(x,y).
Das Vorzeichen der empirischen Kovarianz sxy zeigt an, in welchen beiden Quadranten sich die Punktwolke haupts¨achlich befindet. Wir erinnern an die Vereinbarung, dass f¨ ur Datenvektoren x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ) sowie Zahlen a, b gilt: ax + by = (ax1 + by1 , . . . , axn + bxn ).
1.8 Deskriptive Korrelations- und Regressionsanalyse
51
Rechenregeln der empirischen Kovarianz F¨ ur Datenvektoren x, y, z ∈ Rn und Zahlen a, b ∈ R gilt: 1) Symmetrie: cov(x, y) = cov(y, x). 2) Konstante Faktoren k¨onnen ausgeklammert werden: cov(ax, by) = ab cov(x, y). 3) Additivit¨at: cov(x, y + z) = cov(x, y) + cov(x, z). 4) Zusammenhang zur Stichprobenvarianz: cov(x,x) = s2x . 5) Stichprobenvarianz einer Summe: var(x + y) = var(x) + var(y) + 2 cov(x, y).
Die empirische Kovarianz ist nicht dimensionslos. Somit ist nicht klar, ob ein berechneter Wert ,,groß” ist. Der maximale Wert ist jedoch bekannt: Die Cauchy–Schwarz–Ungleichung besagt, dass |sxy | ≤ sx sy mit Gleichheit, falls die Datenvektoren linear abh¨angig sind, d.h. wenn yi = a+bxi , i = 1, . . . , n, f¨ ur zwei Koeffizienten a, b ∈ R gilt. In Vektorschreibweise: y = a + b · x. Der Maximalwert sx sy wird also angenommen, wenn die Punktwolke perfekt auf einer Geraden liegt. Normieren wir sxy mit dem Maximalwert, so erhalten wir eine sinnvolle Maßzahl zur Messung des Zusammmenhangs. Korrelationskoeffizient nach Bravais–Pearson F¨ ur eine bivariate Stichprobe (x1 ,y1 ), . . . , (xn ,yn ) ist der Korrelationskoeffizient nach Bravais– Pearson gegeben durch n (xi − x)(yi − y) sxy rxy = ρ = cor(x, y) = , = n i=1 n 2 sx sy i=1 (xi − x) i=1 (yi − y) n n wobei s2x = n1 i=1 (xi − x)2 und s2y = n1 i=1 (yi − y)2 .
52
1 Deskriptive und explorative Statistik
Die vielen Bezeichnungen f¨ ur den Korrelationskoeffizienten m¨ogen verwirrend erscheinen, sind aber alle gebr¨auchlich. Eigenschaften des Korrelationskoeffizienten F¨ ur alle Datenvektoren x, y ∈ Rn und Zahlen a,b,c,d ∈ R gilt: 1) −1 ≤ rxy ≤ 1 2) cor(ax + b, cy + d) = cor(x, y) 3) |rxy | = 1 gilt genau dann, wenn y und x linear abh¨angig sind. Speziell: a) rxy = 1 genau dann, wenn y = a + bx mit b > 0. b) rxy = −1 genau dann, wenn y = a + bx mit b < 0.
Beispiel 1.8.1. Wir analysieren die Managergeh¨alter aus Beispiel 1.1.2 im Hinblick auf die Frage, ob ein Zusammenhang zwischen Alter (x) und Gehalt (y) existiert. Das Streudiagramm in Abbildung 1.9 zeigt keinerlei Auff¨alligkeiten, die Punktwolke erscheint regellos ohne Struktur. Dies best¨atigt die Berechnung des Korrelationskoeffizienten. Aus den Daten erh¨alt man zun¨achst die arithmetischen Mittelwerte, x = 51.54 und y = 27.61, sowie n
n
n
1 2 1 1 2 yi = 970.15, xi = 2735.88, xi yi = 1422.83. n i=1 n i=1 n i=1 F¨ ur die empirische Kovarianz folgt cov(x,y) = sxy − x · y = 1422.83 − 51.54 · 27.61 = −0.1894, Ferner sind s2x = 2735.88 − 51.542 = 79.51 und s2y = 970.15 − 27.612 = 207.84. Somit erhalten wir f¨ ur den Korrelationskoeffizienten rxy = √
−0.1894 √ = −0.00147, 79.51 · 207.84
also nahezu 0.
Geometrische Interpretation∗ Die statistischen Gr¨oßen Kovarianz, Varianz und Korrelation k¨onnen durch Gr¨oßen der Vektorrechnung ausgedr¨ uckt und geometrisch interpretiert werden. Sind x = (x1 , . . . , xn )′ und y = (y1 , . . . , yn )′ zwei Spaltenvektoren, dann ist das Skalarprodukt die reelle Zahl x′ y =
n i=1
xi y i .
53
0
200
400
Gehalt 600
800
1000
1.8 Deskriptive Korrelations- und Regressionsanalyse
40
50 Alter
60
70
Abb. 1.9. Streudiagramm des Alters (x-Achse) und des Gehalts (y-Achse) von Managam.
Die Norm von x ist definiert als
x = Der normierte Vektor
√
n ′ xx= x2 . i
i=1
x∗ =
x
x
hat dann Norm 1. Es gilt stets die als Cauchy–Schwarz–Ungleichung bekannte Absch¨atzung: |x′ y| ≤ x · y .
Sind x∗ und y∗ normiert, dann ist (x∗ )′ (y∗ ) eine Zahl zwischen −1 und 1. Daher gibt es einen Winkel α mit cos(α) = (x∗ )′ (y∗ ) . α heißt Winkel zwischen den Vektoren x und y.
Betrachtet man den zweidimensionalen Fall (n = 2), dann zeigt sich, dass die Begriffe Norm und Winkel mit der Anschauung u ¨bereinstimmen. So ist beispielsweise nach dem Satz des Phythagoras die L¨ange der Strecke vom Ur sprung zum Punkt (x1 ,x2 ) gerade x21 + x22 = x . x − x ist der Datenvektor
54
1 Deskriptive und explorative Statistik
mit den Eintr¨agen xi − x, i = 1, . . . , n und heißt zentrierter Datenvektor. Dann gilt n (xi − x)2 = n var(x).
x − x 2 = i=1
und
(x − x)′ (y − y) = Hieraus folgt:
n i=1
(xi − x)(yi − y) = n cov(x, y).
cov(x,y) (x − x)′ (y − y) = = cor(x, y).
x − x
y − y var(x) var(y)
Die standardisierten Vektoren x∗ =
x−x
x − x
und y∗ =
y−y
y − y
sind zentriert und ihre Stichprobenvarianz ist 1. Der Korrelationskoeffizient ist also gegeben durch das Skalarprodukt der standardisierten Datenvektoren. Dieses wiederum ist der Kosinus des Winkels α zwischen x und y: rxy = cor(x,y) = cos(α) . ⊲ Ordinale Merkmale Die der bivariaten Stichprobe (x1 ,y1 ), . . . , (xn ,yn ) zugrunde liegenden Merkmale X und Y seien nun ordinal skaliert. Dann k¨onnen wir den x- und y-Werten sogenannte Rangzahlen zuordnen: Die Beobachtung xi erh¨alt den Rang rX,i = k, wenn xi an der k-ten Stelle in der Ordnungsstatistik x(1) , . . . , x(n) steht: xi = x(k) . Ist die Position k nicht eindeutig, da es mehrere Beobachtungen mit dem Wert xi gibt, dann verwendet man das arithmetische Mittel dieser Positionen (Mittelr¨ange). Sind die xi Zahlen, so erh¨alt man die Rangzahlen leicht, indem man die xi auf der Zahlengeraden mit einem Punkt markiert und dar¨ uber ,,xi ” schreibt. Durchnummerieren von links nach rechts liefert nun die Zuordnung der xi zu ihren R¨angen. Genauso verfahren wir f¨ ur die y-Werte: yi erh¨alt den Rang rY,i = k, wenn yi an der k-ten Stelle in der Ordnungsstatistik y(1) , . . . , y(n) der y-Werte steht. Sind die Rangvektoren rX = (rX,1 , . . . , rX,n ) und rY = (rY,1 , . . . , rY,n ) identisch, so treten die xi und yi stets an denselben Stellen in der Ordnungsstatistik auf. Dann besteht ein perfekter monotoner Zusammenhang. In diesem Fall liegen die Punktepaare (rX,i , rY,i ), i = 1, . . . , n, auf der Geraden y = x. Bestehen Abweichungen, dann streuen diese Punktepaare mehr oder weniger um die Gerade y = x. Man kann daher die St¨arke des monotonen Zusammenhangs durch Anwendung des Korrelationskoeffizienten nach Bravais-Pearson
1.8 Deskriptive Korrelations- und Regressionsanalyse
55
auf die Rangzahlen messen. F¨ ur Stichprobenumf¨ange n ≥ 4 gibt es jedoch eine einfachere Formel, die auf den Differenzen di = rY,i − rX,i der Rangzahlen beruht. Rangkorrelationskoeffizient nach Spearman F¨ ur n ≥ 4 ist der Rangkorrelationskoeffizient nach Spearman gegeben durch n 6 i=1 d2i RSp = 1 − n(n + 1)(n − 1) mit di = rY,i − rX,i , i = 1, . . . , n. Beispiel 1.8.2. Es soll die Korrelation zwischen der Examensnote (X) und der Dauer des Studiums (Y ) untersucht werden. Wir betrachten beiden Merkmale als ordinal skaliert. Die Stichprobe sei (1,8), (2,12), (4,9), (3,10), so dass x = (1,2,4,3) und y = (8,12,9,10). Die zugeh¨origen Rangvektoren sind rX = (1,2,4,3) und rY = (1,4,2,3), woraus man sich d1 = 0, d2 = 2, d3 = −2 und d4 = 0 erh¨alt. Der Korrelationskoeffizient nach Spearman berechnet sich zu 6 · (0 + 4 + 4 + 0) RSp = 1 − = 1 − 0.8 = 0.2 4·5·3 1.8.2 Grenzen der Korrelationsrechnung Von einer ,,blinden” Berechnung von Korrelationskoeffizienten, was insbesondere bei der Analyse von großen Datens¨atzen mit vielen Variablen oftmals geschieht, ist dringend abzuraten. Weder kann in jedem Fall ein Zusammenhang zwischen den Merkmalen ausgeschlossen werden, wenn rxy klein ist, ur einen (linearen) Zusamnoch sprechen große Werte von rxy automatisch f¨ menhang. Abbildung 1.10 illustriert dies an vier Datens¨ atzen, die alle einen Korrelationskoeffizienten von 0.816 (gerundet) aufweisen. 3 Ein Blick auf die Streudiagramme zeigt jedoch, dass sich die Datens¨atze strukturell sehr unterscheiden. Die eingezeichneten Ausgleichsgeraden werden im n¨achsten Abschnitt besprochen. 1.8.3 Einfache lineare Regression Das Ziel der deskriptiven einfachen linearen Regression ist die Approximation einer zweidimensionalen Punktwolke (x1 ,y1 ), . . . , (xn ,yn ) durch eine Gerade. 3
Anscombe, F. J. (1973). Graphs in Statistical Analysis. The American Statistician, 27, 1, 17-21.
10 5 0
0
5
10
15
1 Deskriptive und explorative Statistik
15
56
8
10
14
4
6
8
10
14
4
6
8
10
8
10
14
10 5 0
0
5
10
15
6
15
4
14
18
Abb. 1.10. Vier Datens¨ atze, die zu identischen Korrelationskoeffizienten und Regressionsgeraden f¨ uhren.
Gesucht werden Koeffizienten a, b ∈ R, so dass die Gerade f (x) = a + bx, x ∈ R , den Datensatz bestm¨oglichst approximiert. F¨ ur ein Punktepaar (xi ,yi ) ist |yi − (a + bxi )| der Abstand zwischen yi und dem zugeh¨origen Wert auf der Geraden. Bei n Punktepaaren gibt es n Abst¨ande, die gleichm¨aßig klein sein sollen. Um Abst¨ande, die deutlich gr¨oßer als 1 sind, zu bestrafen, werden die quadrierten Abst¨ ande betrachtet.
1.8 Deskriptive Korrelations- und Regressionsanalyse
57
Kleinste–Quadrate–Methode (KQ–Methode) Bei der KQ–Methode wird die Zielfunktion Q(a,b) =
n i=1
(yi − (a + bxi ))2 , (a,b) ∈ R2 ,
minimiert. Die Minimalstelle ( a, b) ist gegeben durch: n (xi − x)(yi − y) b = sxy = i=1 , (xi − x)2 s2x a = y − b x . Herleitung: Q(a,b) ist stetig partiell differenzierbar und es gilt: lim|a|→∞ Q(a,b) = lim|b|→∞ Q(a,b) = ∞. Die partiellen Ableitungen von Q(a,b) nach a und b sind:
n
∂Q(a,b) (yi − a − bxi ) , = −2 ∂a i=1
n
∂Q(a,b) (yi − a − bxi )xi . = −2 ∂b i=1
Ist (a,b) eine Minimalstelle, dann gilt nach dem notwendigen Kriterium 1. Ordnung:
y + na + b x , n
0=−
n
i
i
y x + a x + b x . i=1 n
0=−
i=1
n
i i
i=1
n
2 i
i
i=1
i=1
Dies ist ein lineares Gleichungssystem mit zwei Gleichungen und zwei Unbekannten. alt man a = y − b x. Einsetzen in L¨ ost man die erste Gleichung nach a auf, so erh¨ die zweite Gleichung und anschließendes Aufl¨ osen nach b ergibt
b =
n i=1 yi xi − nx y n 2 2 i=1 xi − n(x)
.
Berechnet man die Hesse-Matrix, so stellt sich (a,b) als Minimalstelle heraus (vgl. Anhang).
Ausgleichsgerade, Regressionsgerade Sind a,b die KQ-Sch¨atzer f¨ ur a,b, dann ist die Ausgleichsgerade (gesch¨ atzte Regressionsgerade) gegeben durch f(x) = a + b · x, x ∈ [xmin ,xmax ] . utzbereich der Regression. Das Intervall [xmin ,xmax ] heißt St¨
58
1 Deskriptive und explorative Statistik
Im strengen Sinne ist die Verwendung der Ausgleichsgeraden nur f¨ ur Argumente aus dem St¨ utzbereich zul¨assig. Nur innerhalb dieses Intervalls liegen reale Beobachtungen vor. Wendet man f(x) auch f¨ ur andere Argumente an, so spricht man von Extrapolation. Die Werte
a + b · xi , yi =
i = 1, . . . , n,
heißen Prognosewerte oder auch Vorhersagewerte (engl.: predicted values). Die Differenzen zu den Zielgr¨oßen Yi , ǫi = yi − yi ,
i = 1, . . . , n,
sind die gesch¨ atzten Residuen (kurz: Residuen). Wir erhalten also zu jeder Beobachtung auch eine Sch¨atzung des Messfehlers. Ein guter Sch¨atzer f¨ ur den Modellfehler σ 2 ist n
1 2 ǫ . n − 2 i=1 i
s2n =
Beispiel 1.8.3. Gegeben seien die folgenden Daten: x 1 2 3 4 5 6 7 y 1.7 2.6 2.0 2.7 3.2 3.6 4.6 Hieraus berechnet man: 7
xi = 28,
i=1
sowie mit:
7
i=1
7 i=1
7
x2i = 140,
x = 4,
i=1
yi = 20.4,
7
yi2 = 65.3,
y = 2.91429 ,
i=1
yi xi = 93.5. Die gesch¨atzten Regressionskoeffizienten lauten so7 b = i=1 yi xi − n · x y 7 2 2 i=1 xi − n · x 93.5 − 7 · 4 · 2.91 = 140 − 7 · (4)2 12.02 ≈ 28 ≈ 0.4293.
a = y − b · x = 2.91 − 0.4293 · 4 = 1.1928.
Die Ausgleichsgerade ist somit gegeben durch: f(x) = 1.1928 + 0.4293 · x,
x ∈ [1,7].
1.8 Deskriptive Korrelations- und Regressionsanalyse
59
⊲ Anpassungsg¨ ute Als n¨achstes u ¨berlegen wir uns, wie gut die Ausgleichsgerade die realen Daten beschreibt und wie man diese Anpassungsg¨ ute messen kann. H¨atten wir keine Kenntnis von den x-Werten, so w¨ urden wir die Gesamtstreuung in den y-Werten letztlich mit der Stichprobenvarianz bewerten, also i.w. durch den Ausdruck n (yi − y)2 . SST = i=1
SST steht f¨ ur sum of squares total.
Berechnen wir hingegen eine Regression, so erkl¨art sich ein gewisser Teil dieser Gesamtstreuung schlichtweg durch die Regressionsgerade: Auch wenn alle Datenpunkte perfekt auf der Ausgleichsgerade liegen, messen wir eine Streuung in den y-Werten, die jedoch vollst¨andig durch den linearen Zusammenhang zu x und die Variation der x-Werte erkl¨art wird. Auch wenn die Punkte perfekt auf der Geraden liegen, wundern wir uns u ¨ber die Streuung der Prognosen yi um das arithmetische Mittel y, SSR =
n i=1
( yi − y)2 ,
nicht (SSR: sum of squares regression). Diese Streuung wird durch die Regression erkl¨art. Sorgen bereitet uns vielmehr die Reststreuung der Daten um die Gerade, also n SSE = ǫ2i i=1
(SSE: sum of squares error).
Streuungszerlegung, Bestimmtheitsmaß Die Gesamtstreuung SST in den y-Werten kann additiv in die Komponenten SSR und SSE zerlegt werden: SST = SSR + SSE . Der durch die Regression erkl¨arte Anteil R2 =
SSR SST
heißt Bestimmtheitsmaß. R2 ist der quadrierte Korrelationskoeffizient nach Bravais–Pearson: 2 R2 = rxy = cor(x,y)2 .
60
1 Deskriptive und explorative Statistik
⊲ Residuenplot Die G¨ ute der Modellanpassung sollte auch grafisch u uft werden. Hierzu ¨berpr¨ erstellt man einen Residuenplot, bei dem die Residuen ǫi gegen die Beobachtungsnummer oder (meist sinnvoller) gegen die Regressorwerte xi geplottet werden. Ist eine systematische Struktur in den Residuen zu erkennen, so deutet dies darauf hin, dass das Modell den wahren Zusammenhang zwischen den Variablen nur ungen¨ ugend erfasst. 1.8.4 Grenzen der Regressionsrechnung Eine ersch¨opfende Diskussion der Grenzen von Regressionen ist hier nicht m¨ oglich, aber einige wichtige Gefahrenquellen f¨ ur Fehlinterpretationen k¨onnen anhand der Beispiele aus dem letzten Abschnitt u ¨ber Korrelationsrechnung aufgezeigt werden. Die vier Datens¨atze aus Abbildung 1.10 f¨ uhren nicht nur zu identischen Korrelationskoeffizienten, sondern auch zur gleichen Regressionsgerade f(x) = 3 + 0.5 · x. W¨ahrend die Beobachtungen des linken oberen Datensatzes recht musterg¨ ultig um eine lineare Funktion streuen, liegt bei dem Datensatz rechts oben offenkundig ein nichtlinearer Zusammenhang vor, der nur in sehr grober N¨ aherung durch eine lineare Regression erfasst wird. Beim dritten Datensatz liegen alle Punkte, bis auf einen, sehr nahe an der Geraden y = 4 + 0.346 · x. Der Ausreißer liegt - verglichen mit den u ¨brigen Punkten - sehr weit entfernt von dieser Geraden. Der rechte untere Datensatz folgt zwar musterg¨ ultig dem linearen Modell, jedoch kann die Information u ¨ber die Steigung der Geraden lediglich aus einem Datenpunkt bezogen werden. Wird dieser aus dem Datensatz entfernt, so kann die Steigung nicht mehr gesch¨atzt werden. Dieser eine Datenpunkt u ¨bt einen sehr großen Einfluss auf das Ergebnis der Regression ¨ aus. Auch kleinste Anderungen f¨ uhren zu stark abweichenden Ergebnissen. Da in der Praxis die Beobachtungen als fehlerbehaftet angenommen werden m¨ ussen, ist es wichtig, solche einflussreichen Punkte zu erkennen. Mit Ausnahme eines Datensatzes sind somit die oben eingef¨ uhrten Mittel (Regressionsgerade und R2 ) f¨ ur eine angemessenen Beschreibung und Interpretation nicht ausreichend.
1.9 Deskriptive Zeitreihenanalyse* W¨ahrend bei einer Querschnittsstudie n statistische Einheiten an einem festen Zeitpunkt erhoben werden, sind Zeitreihen dadurch gekennzeichnet, dass den Beobachtungen verschiedene Zeitpunkte zugeordnet werden k¨onnen. Somit liegen n Paare (yi ,ti ), i = 1, . . . , n, von Beobachungen vor. Im Folgenden betrachten wir nur den Fall, dass ein Merkmal im Zeitablauf erhoben wird.
1.9 Deskriptive Zeitreihenanalyse*
61
Zeitreihe Ein Datensatz (y1 ,t1 ), . . . (yn ,tn ) heißt Zeitreihe, wenn die t1 , . . . , tn strikt geordnete Zeitpunkte sind, d.h. t1 < · · · < tn , und yi zur aquidistant, wenn Zeit ti erhoben wird, i = 1, . . . , n. Die Zeitpunkte heißen ¨ ti = ∆i f¨ ur i = 1, . . . , n und ein ∆ > 0 gilt. Sind die Zeitpunkte aus dem Kontext heraus klar oder spielen bei der Untersuchung keine ausgezeichnete Rolle, dann nimmt man zur Vereinfachung ur alle i = 1, . . . , n gilt. Um den Zeitcharakter zu veroftmals an, dass ti = i f¨ deutlichen, ist es u ¨blich, den Index mit t statt i und den Stichprobenumfang mit T statt n zu bezeichnen. Vereinbarung Man spricht von einer Zeitreihe y1 , . . . , yT , wenn yt am t-ten Zeitpunkt beobachtet wurde.
1.9.1 Indexzahlen Eine wichtige Fragestellung der deskriptiven Zeitreihenanalyse ist die Verdichtung der zeitlichen Entwicklung von einer oder mehreren Zeitreihen auf aussagekr¨aftige Indexzahlen. Das Statistische Bundesamt berechnet beispielsweise regelm¨aßig Preisindizes, um die Entwicklung der Kaufkraft abzubilden. Aktienindizes wie der DAX oder der Dow Jones Industrial Average Index haben zum Ziel, die Entwicklung des jeweiligen Aktienmarktes im Ganzen zu erfassen. Zu diesem Zweck werden die vorliegenden Einzelwerte durch Aggregation (meist: Mittelung) zu einer Indexzahl verdichtet. Oftmals wird hierbei ein Zeitpunkt bzw. eine Periode als Basis ausgew¨ahlt, so dass der Index die zeitliche Entwicklung bezogen auf diese Referenzgr¨oße beschreibt. Wir betrachten im Folgenden einige wichtige Ans¨atze zur Indexkonstruktion. Preisindizes Durch einen Preisindex soll die geldm¨aßige Wertentwicklung eines fiktiven Warenkorbs von I G¨ utern erfasst werden. Ausgangspunkt sind die Preise pi (t),
t = 1, . . . , T, i = 1, . . . , I,
% beschreibt die von I G¨ utern an T Zeitpunkten. Der Quotient 100 · pp10 (t) (t) prozentuale Ver¨anderung des Preises w¨ahrend der ersten Periode. Allgemein erfasst pp0i (t) anderung nach t Perioden bezogen auf die Basisperiode (t) die Preis¨ 0. Eine einfache Mittelung dieser Quotienten u uter ist jedoch nicht ¨ber alle G¨ sinnvoll, da zu ber¨ ucksichtigen ist, mit welchen Mengen die G¨ uter in den Warenkorb eingehen. x1 (0), . . . ,xI (0) seien die Mengen in der Basisperiode.
62
1 Deskriptive und explorative Statistik
Preisindex nach Laspeyres Der Preisindex nach Laspeyres ist gegeben durch das gewichtete Mittel PL (t) =
I i=1
wi
I pi (t)xi (0) pi (t) = Ii=1 pi (0) j=1 pj (0)xj (0)
der Preis¨anderungen mit den Gewichten
pi (0)xi (0) wi = I , j=1 pj (0)xj (0)
i = 1, . . . , I.
Die Gewichte wi entsprechen dem Ausgabenanteil des Guts i bei Kauf des Warenkorbs.
Beispiel 1.9.1. DAX Der DAX wird nach der Laspeyres-Formel berechnet, wobei Korrekturfaktoren hinzukommen. Die Kurse pi (t), i = 1, . . . ,I = 30, der wichtigsten deutschen Aktien werden mit den an der Frankfurter B¨orse zugelassenen und f¨ ur lieferbar erkl¨arten Aktienanzahlen xi (0) gewichtet. Dies ergibt die Marktkapitalisierungen ki (t) = pi (t) · xi (0),
i = 1, . . . ,30 ,
zur Zeit t, deren Summe ins Verh¨altnis zur Marktkapitalisierung der Basisperiode gesetzt wird: 30 i=1 pi (t)xi (0) · ci DAX = K · 1000 , 30 i=1 pi (0)xi (0)
wobei c1 , . . . ,c30 und K hierbei Korrekturfaktoren sind. Der Faktor ci dient dazu, marktfremde Ereignisse wie Zahlungen von Dividenden oder Kapitalmaßnahmen der Unternehmen zu ber¨ ucksichtigen, die zu Kursabschl¨agen f¨ uhren. Man setzt daher pi (t−) ci = , pi (t−) − Ai
wobei pi (t−) der Kurs vor dem Abschlag und Ai die H¨ohe des Abschlags ist. Die Korrekturfaktoren ci werden einmal im Jahr, jeweils am dritten Freitag ¨ im September, auf 1 zur¨ uckgesetzt und die Anderung durch Anpassen des Faktors K aufgehoben: Statt K verwendet man fortan K′ = K ·
DAXvorher . DAXnachher
¨ Eine solche Anpassung des Faktors erfolgt auch bei einer Anderung der Aktienauswahl. N¨aheres findet man auf Internetseiten der Deutschen B¨orse AG.
1.9 Deskriptive Zeitreihenanalyse*
63
Beim Preisindex nach Laspeyres wird die Zusammensetzung des Warenkorbs also f¨ ur die Basisperiode ermittelt und bleibt dann fest. Mitunter ist ¨ es jedoch sinnvoll, bei der Indexberechnung zeitliche Anderungen der mengenm¨aßigen Zusammensetzung des Warenkorbs zu ber¨ ucksichtigen. Hierzu uter des Warenkorbs zur Zeit t. seien x1 (t), . . . , xI (t) die Mengen der I G¨ Preisindex nach Paasche Der Preisindex nach Paasche mittelt die Preis¨anderungen in der Form PP (t) =
I pi (t) wi (t) pi (0) i=1
mit Gewichten wi (t) = I
pi (t)xi (t)
j=1
pj (t)xj (t)
,
i = 1, . . . , I.
Die Gewichte wi (t) entsprechen dem Wert des Guts i zur Zeit t bei jeweils angepasstem Warenkorb.
Beispiel 1.9.2. Der Warenkorb bestehe aus zwei G¨ utern. Preise und Mengen in t = 0 pi (0) 10 20 xi (0) 2 3 Preise in t = 1 und Mengen in t = 1 pi (1) 15 20 xi (1) 4 2 Werte der G¨ uter in t = 1 bezogen auf Warenkorb in t = 0: p1 (1) · x1 (0) = 15 · 2 = 30 p2 (1) · x2 (0) = 20 · 3 = 60 Summe 90 Gewichte w1 = 30 90 = Preis¨anderungen:
1 3
und w2 = 23 .
15 p1 (1) = = 1.5, p1 (0) 10
p2 (1) 20 = = 1. p2 (0) 20
64
1 Deskriptive und explorative Statistik
F¨ ur den Preisindex nach Laspeyres erh¨alt man: PL =
1 2 1 2 7 · 1.5 + · 1 = + = . 3 3 2 3 6
Werte der G¨ uter in t = 1 bezogen auf den Warenkorb in t = 1: p1 (1) · x1 (1) = 15 · 4 = 60 p2 (1) · x2 (1) = 20 · 2 = 40 Summe 100 Als Gewichte ergeben sich w1 (1) = 0.6 und w2 (1) = 0.4. Somit ist der Preisindex nach Paasche gegeben durch PP (1) = 0.6 · 1.5 + 0.4 · 1 = 1.3 . 1.9.2 Zerlegung von Zeitreihen Bei vielen Zeitreihen y1 , . . . , yT ist es nahe liegend anzunehmen, dass sie sich additiv aus mehreren Komponenten zusammensetzen: yt = mt + kt + st + ǫt ,
t = 1, . . . , T.
Die Trendkomponente mt soll l¨angerfristige, strukturelle Ver¨anderungen des Niveaus der Zeitreihe abbilden. Mehrj¨ahrige Konjunkturzyklen werden durch die Konjunkturkomponente kt erfasst, jahreszeitliche (periodische) Abweichungen (saisonale Einfl¨ usse) werden hingegen durch die Saisonkomponente st erfasst. Die Summe aus Trend-, Konjunktur- und Saisonkomponente bilden die systematische Komponente einer Zeitreihe, die auch glatte Komponente genannt wird. Die irregul¨ are Komponente ǫt erfasst Abweichungen von der systematischen Komponente, die sich aus Erhebungsund Messungenauigkeiten sowie sonstigen Zufallseinfl¨ ussen ergeben und meist eine regellose Gestalt aufweisen. Prinzipiell gibt es jeweils zwei Vorgehensweise zur Bestimmung von Trend-, Konjunktur- oder Saisonkomponente. Man kann wie bei der linearen Regressionsrechnung eine feste funktionale Form der Komponente unterstellen, die bis auf einige unbekannte Parameter festgelegt wird. Bei diesem parametrischen Modellierungsansatz m¨ ussen lediglich diese Parameter aus der Zeitreihe gesch¨atzt werden. Alternative Ans¨atze bestimmen eine Komponente unter lediglich qualitativen Annahmen aus den Daten, ohne eine feste Funktionsform bzw. -klasse zu unterstellen.
1.9 Deskriptive Zeitreihenanalyse*
65
1.9.3 Bestimmung und Bereinigung der Trendkomponente Viele Zeitreihen sind in offensichtlicher Weise trendbehaftet. Das g¨angigste und zugleich wichtigste parametrische Trendmodell unterstellt hierbei einen einfachen linearen Zeittrend in den Daten: Yt = a + b t + ǫt ,
t = 1, . . . , T.
Dieses Modell kann der linearen Regressionsrechnung untergeordnet werden, wenn man xi = i, i = 1, . . . , n = T , setzt. Die Sch¨atzung erfolgt in der Regel durch die Kleinste–Quadrate–Methode. Leichte Umformungen ergeben die folgenden einfachen Formeln: a = y − b t,
b = syt = s2t
T
t=1 (ti − t)(yi − T 2 t=1 (ti − t)
y)
.
¨ Die sogenannte Bereinigung um den linearen Trend erfolgt durch den Ubergang zu den gesch¨atzten Residuen ǫt = yt − a − b t,
t = 1, . . . , T.
Man spricht dann auch von trendbereinigten Daten. Wie im Abschnitt u ¨ber die deskriptive Regressionsrechnung dargestellt, kann dieser Ansatz auch auf nichtlineare Trendmodelle ausgeweitet werden. Mitunter ist die Annahme einer festen Struktur der Trendkomponente, etwa in Form eines Polynoms, nicht realistisch, zumal hierdurch eine zeitliche Ver¨anderung der Struktur des Trends nicht erfasst wird. Flexibler ist dann die Methode der gleitenden Durchschnitte. Gleitender Durchschnitt Bei einem gleitenden Durchschnitt der Ordnung 2q + 1 werden an jedem Zeitpunkt t die 2q zeitlich n¨ahesten Beobachtungen gemittelt: m t =
yt−q + · · · + yt + · · · + yt+q , 2q + 1
F¨ ur t ≤ q und t > n − q ist m t nicht definiert.
t = q + 1, . . . n − q.
Man schaut bei diesem Ansatz also durch ein Fenster der Breite 2q +1, das am Zeitpunkt t zentriert wird, auf die Zeitreihe und ber¨ ucksichtigt bei der Mittelung lediglich die Beobachtungen, deren Zeitindex im Fenster liegt. Werte, deren Zeitabstand gr¨oßer als q ist, werden nicht ber¨ ucksichtigt.
66
1 Deskriptive und explorative Statistik
1.9.4 Bestimmung einer periodischen Komponente Die parametrische Modellierung einer periodischen Komponente (Saison- oder Konjunkturkomponente) kann durch eine Sinus- oder Kosinusfunktion erfolgen, etwa in der Form st = b0 + c1 sin(2πt/L),
t = 1, . . . , T.
Allgemeiner kann man ein trigonometrisches Polynom der Ordnung 2K s t = b0 +
K
k=1
bk cos(2πt/L) +
K−1
ck sin(2πt/L)
k=1
verwenden. Hierbei ist L die Periode. Bei Monatsdaten hat man f¨ ur eine Saisonkomponente L = 12, bei Quartalsdaten f¨ ur eine Konjunkturkomponente mit einer Periode von 2 Jahren L = 8. Die Sch¨atzung der Koeffizienten b0 ,b1 ,c1 , . . . , bK ,cK erfolgt meist durch die KQ-Methode. Wird die Vorgabe einer funktionalen Form der periodischen Abweichungen vom Trend als zu starr angesehen, bietet sich alternativ folgende Variante der gleitenden Durchschitte an, die wir am Beispiel von Monatsdaten f¨ ur eine Saisonkomponente kurz erl¨autern wollen. Jede Beobachtung kann genau einem Monat zugeordnet werden. Man sch¨atzt nun den saisonal bedingten JanuarEffekt durch das arithmetische Mittel der Abweichungen der Januar-Werte vom zugeh¨origen gleitenden Durchschnitt zur Sch¨atzung des Trends. Analog verf¨ahrt man f¨ ur die anderen Monate. Beispiel 1.9.3. Zur Illustration betrachten wir die Arbeitslosenzahlen von 1965 bis 2004. Markant ist, dass konjunkturelle Einfl¨ usse zwar periodisch zu einer Senkung der Arbeitslosenzahlen f¨ uhren. Es gibt jedoch einen langfristigen Trend, so dass es zu keiner nachhaltigen Absenkung kommt. Die Arbeitslosenzahlen wurden zun¨achst um ihren linearen Trend mt = a + bt, bereinigt. Aus den Residuen wurde dann ein einfaches Konjunkturmodell der Form kt = sin(2πt/10), gesch¨atzt. Abbildung 1.11 zeigt die resultierende gesch¨atzte kt der Daten. Schon dieses einfache Modell zeigt gut glatte Komponente m t + die charakteristische Struktur in den Arbeitslosenzahlen auf.
0.5
1.0
1.5
2.0
2.5
3.0
1.9 Deskriptive Zeitreihenanalyse*
1970
1980
1990
2000
Abb. 1.11. Arbeitslosenzahlen (in Mio) mit gesch¨ atzter glatter Komponente.
67
2 Wahrscheinlichkeitsrechnung
2.1 Grundbegriffe Wir betrachten zwei Beispiele, um erste Grundbegriffe anschaulich einzuf¨ uhren. Beispiel 2.1.1. In einem Elektronikmarkt liegen 50 MP3-Player auf einem Tisch, von denen einer defekt ist. Wie wahrscheinlich ist es, dass der n¨achste K¨aufer den defekten Player greift? Der K¨aufer greift zuf¨allig eines der Ger¨ate heraus, die wir in Gedanken mit den Zahlen 1, . . . , 50 versehen. Das defekte Ger¨at habe die Nummer 1. Der Zufallsvorgang besteht nun darin, eine der Zahlen aus der Menge Ω = {1, . . . ,50} auszuw¨ahlen, wobei jede Zahl (jedes Ger¨at) mit derselben Wahrscheinlichkeit gezogen wird. Der gesunde Menschenverstand diktiert geradezu, die Wahrscheinlichkeit pk , dass der Player Nr. k gezogen wird, durch pk =
1 , 50
k = 1, . . . ,50 ,
festzulegen. Dieses Beispiel legt den Ansatz nahe, Zufallsvorg¨ange durch eine Menge Ω mit N Elementen ω1 , . . . ,ωN zu modellieren, denen wir N Wahrscheinlichkeiten p1 , . . . ,pN zuordnen, die sich zu 1 ( 100%) addieren. Beispiel 2.1.2. Ein Lottospieler beschließt, so lange Lotto zu spielen, bis er zweimal in Folge drei Richtige hat. Zun¨achst stellt sich die Frage, wie hier Ω anzusetzen ist. Das Ergebnis dieses zuf¨alligen Lotto-Experiments ist die Wartezeit (in Wochen) auf den zweiten Dreier. Somit ist in diesem Fall Ω = {0,1,2, . . .} = N0 . Ordnen wir jeder m¨oglichen Wartezeit k ∈ N0 eine Wahrscheinlichkeit pk zu, so ergeben sich unendlich viele Wahrscheinlichkeiten. Somit k¨onnen die pk nicht alle gleich groß sein.
70
2 Wahrscheinlichkeitsrechnung
Wir sehen, dass auch Zufallsvorg¨ange auftreten k¨onnen, bei denen die Menge Ω eine unendliche Menge ist. Ist Ω wie im Beispiel 2.1.2 abz¨ ahlbar unendlich, d.h. von der Form Ω = {ω1 ,ω2 ,ω3 , . . .} , dann k¨onnen wir jedem ωk eine Wahrscheinlichkeit pk zuordnen. Die Zahlen ussen sich zu 1 addieren: pk m¨ p 1 + p2 + · · · =
∞
pk = 1 .
k=1
2.1.1 Zufallsexperimente und Wahrscheinlichkeit In der Wahrscheinlichkeitsrechnung fasst man alle zuf¨alligen Ph¨anomene unter dem Begriff des Zufallsexperiments zusammen, auch wenn nicht im eigentlichen Wortsinne ein Experiment vorliegt. Zufallsexperiment Unter einem Zufallsexperiment versteht man einen zufallsbehafteten Vorgang, dessen Ausgang nicht deterministisch festgelegt ist.
Ergebnismenge, Grundmenge, Ausgang, Ergebnis Die Menge aller m¨oglichen Ausg¨ange eines Zufallsexperiments heißt Ergebnismenge (Grundmenge). Ein Element ω ∈ Ω heißt Ausgang (Ergebnis, Versuchsausgang).
Beispiel 2.1.3. Beim einfachen W¨ urfelwurf ist Ω = {1, . . . ,6}. Eine gerade Augenzahl entspricht den Ausg¨angen 2,4 und 6. Dieses (zuf¨allige) Ereignis wird also durch die Teilmenge A=
gerade Augenzahl“ = {2,4,6} ⊂ Ω ”
dargestellt. Es tritt ein, wenn der tats¨achliche Versuchsausgang ω in der Menge A liegt. W¨ urfelt man mit einem fairen W¨ urfel, so liegt es nahe, dem Ereignis A die Wahrscheinlichkeit 1/2 zu zuordnen. ¨ Geleitet durch die Uberlegungen aus dem Beispiel 2.1.3 definieren wir:
2.1 Grundbegriffe
71
Ereignis, Ereignisalgebra, Elementarereignis Ist Ω eine h¨ochstens abz¨ahlbar unendliche Grundmenge, dann heißt jede Teilmenge A ⊂ Ω Ereignis. Die Menge aller Ereignisse ist die Potenzmenge Pot(Ω) = {A | A ⊂ Ω} aller Teilmengen von Ω und heißt in diesem Kontext auch Ereignisalgebra. Man sagt, das Ereignis A tritt ein, wenn ω ∈ A gilt. Ein Ereignis von der Form A = {ω} f¨ ur ein ω ∈ Ω heißt Elementarereignis. Da zuf¨allige Ereignisse u ¨ber Teilmengen der Obermenge Ω dargestellt werden, kann man Ereignisse gem¨aß den Operatoren und Rechenregeln der Mengenlehre miteinander kombinieren. UND-/ODER-Ereignis, komplement¨ ares Ereignis A ⊂ Ω und B ⊂ Ω heißt die Schnittmenge
F¨ ur zwei Ereignisse
A ∩ B = {x | x ∈ A und x ∈ B} UND-Ereignis und A ∪ B = {x | x ∈ A oder x ∈ B} ODER-Ereignis. Das Komplement A = Ac = {x | x ∈ Ω und x ∈ / A} = Ω \ A heißt komplement¨ ares Ereignis und entspricht der logischen Negation. Hier einige wichtige Regeln f¨ ur das Kombinieren von Ereignissen: Sind A,B,C ⊂ Ω Ereignisse, dann gilt: 1) 2) 3) 4)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C),
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C), (A ∪ B) = A ∩ B, (A ∩ B) = A ∪ B.
1) und 2) sind die Distributivgesetze, 3) und 4) die Regeln von DeMorgan. Gelegentlich hat man es auch mit unendlich vielen Ereignissen A1 ,A2 , . . . zu tun. Beim Warten auf die erste Sechs beim Werfen eines W¨ urfels macht es etwa Sinn, das Ereignis
72
2 Wahrscheinlichkeitsrechnung
Ak = Die erste Sechs erscheint im k-ten Wurf“ ” zu betrachten. Jedes ω ∈ Ω ist dann in genau einer der Mengen Ak ⊂ Ω, so dass Ω die disjunkte Vereinigung aller (unendlich vielen) Ak ist. F¨ ur Ereignisse A1 ,A2 , . . . ist ∞
k=1
Ak = A1 ∪ A2 ∪ · · · = {ω ∈ Ω : ω ∈ Ak f¨ ur mind. ein k}
das Ereignis, dass mindestens eine der Mengen Ak eintritt. ∞
k=1
Ak = A1 ∩ A2 ∩ · · · = {ω ∈ Ω : ω ∈ Ak f¨ ur alle k = 1,2, . . .}
ist das Ereignis, dass alle Ak eintreten. Die Distributivgesetze und die Regeln von DeMorgan k¨onnen auf solche ∞ Mengen verallgemeinert werden. Beispielsweise gilt: ∪∞ i=1 Ai = ∩i=1 Ai und ∞ ∞ A ∩ ∪i=1 Bi = ∪i=1 (A ∩ Bi ).
Wir wollen nun Ereignissen A ⊂ Ω Wahrscheinlichkeiten P (A) zuordnen. Diese Zuordnung kann jedoch nicht v¨ollig beliebig geschehen, sondern muss gewissen Regeln folgen. In Beispiel 2.1.2 hatten wir etwa erkannt, dass f¨ ur eine abz¨ahlbar unendliche Grundmenge Ω die Ausg¨ange ω nicht alle dieselbe Wahrscheinlichkeit haben k¨onnen. Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsverteilung Eine Abbildung P , die jedem Ereignis A ⊂ Ω eine Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß oder Wahrscheinlichkeitsverteilung, wenn die so genannten Kolmogorov-Axiome gelten: 1) 0 ≤ P (A) ≤ 1 f¨ ur alle Ereignisse A, 2) P (Ω) = 1 (Normierung), 3) Sind A1 ,A2 , . . . disjunkte Mengen, dann gilt P (A1 ∪ A2 ∪ · · · ) = P (A1 ) + P (A2 ) + · · · =
∞
P (Ak ) .
k=1
Ein Zufallsexperiment ist erst durch Angabe einer Ergebnismenge Ω und eines Wahrscheinlichkeitsmaßes P vollst¨andig beschrieben. Beispiel 2.1.4. Ist Ω eine diskrete Ergebnismenge, Ω = {ω1 , ω2 , . . . }, und sind ∞ p1 , p2 , . . . Zahlen zwischen 0 und 1, die sich zu 1 addieren, dass heißt i=1 pi = 1, dann ist durch
2.1 Grundbegriffe
P ({ωi }) = pi
und P (A) =
ωi ∈A
pi ,
73
A ⊂ Ω,
ein Wahrscheinlichkeitsmaß gegeben. Es gilt f¨ ur die Elementarereignisse {ωi }: P ({ωi }) = pi . Ist Ω endlich mit N Elementen, d.h. Ω = {ω1 , . . . , ωN }, dann kann die Wahrscheinlichkeitsverteilung durch eine Tabelle angegeben werden: ω1 ω2 . . . ωN p1 p2 . . . pN Die Wahrscheinlichkeit eines Ereignisses A erh¨ alt man durch Addition derjenigen pi , die zu Elementen ωi geh¨oren, die in A liegen. Beispiel 2.1.5. In der deskriptiven Statistik hatten wir die relative H¨aufigkeitsverteilung eines Merkmals eingef¨ uhrt. Sind a1 , . . . , ak die m¨oglichen Auspr¨agungen des Merkmals und sind f1 , . . . , fk die zugeh¨origen relativen H¨aufigkeiten, so gilt: f1 + · · · + fk = 1. Setzen wir Ω = {a1 , . . . , ak } und definieren das Wahrscheinlichkeitsmaß P (A) = fj , A ⊂ Ω, j:aj ∈A
dann ist P eine Wahrscheinlichkeitsverteilung auf Ω. Es gilt insbesondere f¨ ur die Elementarereignisse {aj }: P ({aj }) = fj . Das zu Grunde liegende Zufallsexperiment besteht darin, zuf¨allig aus der Grundgesamtheit G ein Element g auszuw¨ahlen und den zugeh¨origen Merkmalswert X(g) ∈ {a1 , . . . , ak } = Ω zu berechnen. Jede relative H¨aufigkeitsverteilung der deskriptiven Statistik definiert also ein Wahrscheinlichkeitsmaß, und s¨amtliche Rechenregeln, die wir im Folgenden vorstellen, gelten insbesondere f¨ ur relative H¨aufigkeiten. Ist speziell fj = 1/n f¨ ur alle j = 1, . . . ,n, dann heißt P empirisches Wahrscheinlichkeitsmaß. Aus der Additivit¨at von P bei Vorliegen von disjunkten Vereinigungen ergeben sich die folgenden wichtigen Rechenregeln:
74
2 Wahrscheinlichkeitsrechnung
Rechenregeln F¨ ur Ereignisse A, B ⊂ Ω gelten die folgenden Regeln: 1) P (A) = 1 − P (A). 2) F¨ ur A ⊂ B gilt: P (B\A) = P (B) − P (A). 3) F¨ ur beliebige Ereignisse A, B gilt: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 4) F¨ ur beliebige Ereignisse A, B gilt: P (A ∩ B) = P (A) + P (B) − P (A ∪ B).
Herleitung: (i) Ω kann disjunkt in A und A zerlegt werden. Daher ist 1 = P (Ω) = P (A) + P (A) ⇒ P (A) = 1 − P (A). (ii) Gilt A ⊂ B, dann ist (B\A) ∪ A eine disjunkte Vereinigung von B in die Mengen B\A und A. Daher gilt: P (B) = P (B\A) + P (A). Umstellen liefert: P (B\A) = P (B) − P (A). (iii) Wir k¨ onnen A ∪ B disjunkt aus A und B\(A ∩ B) zusammensetzen. Daher gilt: P (A ∪ B) = P (A) + P (B\(A ∩ B)). F¨ ur den zweiten Term auf der rechten Seite wenden wir (ii) an (A ∩ B ist Teilmenge von B) und erhalten: P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
(iv) folgt aus (iii) durch Aufl¨ osen nach P (A ∩ B).
Wie wir schon in Beispiel 2.1.1 gesehen hatten, ist die Berechnung von Wahrscheinlichkeiten besonders einfach, wenn die Elementarereignisse von Ω gleichwahrscheinlich sind. Laplace-Raum Man spricht von einem Laplace-Raum (Ω,P ), wenn die Ergebnismenge Ω = {ω1 , . . . , ωK } endlich ist und das Wahrscheinlichkeitsmaß P auf Ω jedem Elementarereignis dieselbe Wahrscheinlichkeit zuordnet: P (ω) = P ({ω}) =
1 , K
ω ∈ Ω.
P heißt auch (diskrete) Gleichverteilung auf Ω.
2.1 Grundbegriffe
75
In Laplace’schen Wahrscheinlichkeitsr¨aumen erh¨alt man die Wahrscheinlichkeit eines Ereignisses A durch Abz¨ahlen. Regel Ist (Ω,P ) ein Laplace-Raum, dann gilt f¨ ur jedes Ereignis A: P (A) =
Anzahl der f¨ ur A g¨ unstigen F¨alle |A| = . |Ω| Anzahl aller F¨alle
Hierbei bezeichnet |A| die Anzahl der Elemente von A (Kardinalit¨at). Beispiel 2.1.6. (i) (Ziehen in Reihenfolge mit Zur¨ ucklegen) In einer Urne befinden sich N Kugeln mit den Nummern 1 bis N . Die Urne mit den N Kugeln kann etwa f¨ ur eine Grundgesamtheit mit N statistischen Einheiten stehen. Man greift n-mal in die Urne und zieht jeweils eine Kugel. Nach Notieren der Nummer wird die Kugel zur¨ uckgelegt. Ist ωi ∈ {1, . . . ,N } = A die Nummer der i-ten gezogenen Kugel, dann beschreibt das n-Tupel ω = (ω1 , . . . ,ωn ) das Ergebnis einer Stichprobenziehung. Hier ist Ω = {ω = (ω1 , . . . ,ωn ) | ω1 , . . . ,ωn ∈ A}. Da alle Stichproben gleichwahrscheinlich sind, liegt ein Laplace-Raum mit |Ω| = N n vor.
(ii) (Ziehen in Reihenfolge ohne Zur¨ ucklegen) Man geht wie in (i) vor, jedoch werden nun die gezogenen Kugeln nicht zur¨ uckgelegt. Alle ωi sind also verschieden. Man kann ur i = j} Ω = {(ω1 , . . . ,ωn ) : ω1 , . . . ,ωn ∈ A, ωi = ωj f¨ w¨ahlen. Es gilt |Ω| = N · (N − 1) · . . . · (N − n + 1). 2.1.2 Chancen (Odds)∗
Chancen (Odds) Die Chance (engl.: odds) o = o(A) eines Ereignisses A ist definiert als der Quotient der Wahrscheinlichkeit p = P (A) von A und der komplement¨aren Wahrscheinlickeit P (A) = 1 − p: o = o(A) =
p . 1−p
Durch Logarithmieren erh¨alt man die logarithmierten Chancen (engl.: log-odds): log(o) = log(p/(1 − p)) = log(p) − log(1 − p).
76
2 Wahrscheinlichkeitsrechnung
Die logarithmierten Chancen transformieren Wahrscheinlichkeiten, also Zahlen zwischen 0 und 1, in reelle Zahlen. Sie besitzen eine interessante Symmetrieeigenschaft: Die logarithmierte Chance des komplement¨aren Ereignisses A ist gerade das Negative der logarithmierten Chance von A: p 1−p = − log = − log o(A). log o(A) = log p 1−p Sind A und A gleichwahrscheinlich, d.h. p = P (A) = P (A) = 1/2, dann ergibt sich o = 1 und somit log(o) = 0. Chancenverh¨ altnis (Odds-Ratio) Die Chancen o(A) und o(B) von zwei Ereignissen A und B werden h¨aufig durch das Chancenverh¨ altnis (engl.: Odds Ratio) verglichen: r=
P (A)/(1 − P (A)) o(A) = . o(B) P (B)/(1 − P (B))
Das logarithmierte Odds Ratio ist gerade die Differenz der logarithmierten Odds. Tr¨agt man Wahrscheinlichkeiten auf der log-Odds-Skala auf, so ist ihre Differenz gleich dem logarithmierten Odds Ratio. Beispiel 2.1.7. Das Ereignis A, ein Spiel zu gewinnen, trete mit Wahrscheinlichkeit p = P (A) = 0.75 ein. Die Chancen stehen also 75 zu 25, so dass sich o = 0.75/0.25 = 3 ergibt. Zu gewinnen ist dreimal so wahrscheinlich wie zu verlieren. Gilt f¨ ur ein anderes Spiel p = 0.9, so ist es o = 0.9/0.1 = 9-mal wahrscheinlicher zu gewinnen als zu verlieren. Das Chancenverh¨altnis betr¨agt r = 9/3 = 3. Die Chancen sind beim zweiten Spiel um den Faktor 3 g¨ unstiger. Auf der logarithmischen Skala erhalten wir log(3) und log(9) mit Abstand log(9) − log(3) = log(r) = log(3). Siebformel∗ Mitunter muss man die Wahrscheinlichkeit von ODER-Ereignissen berechnen, bei denen mehr als zwei Ereignissen verkn¨ upft werden. Es gilt: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).
2.1 Grundbegriffe
77
Herleitung: Wir wenden die Formel P (A ∪ B) = P (A) + P (B) − P (A ∩ B) zweimal an und markieren durch Unterstreichen, welche Mengen A und B auf der linken Seite der Formel entsprechen. Zun¨ achst ist P (A ∪ B ∪ C) = P (A) + P (B ∪ C) − P (A ∩ (B ∪ C)) = P (A) + P (B) + P (C) − P (B ∩ C) − P (A ∩ (B ∪ C)). F¨ ur den letzten Term gilt: P (A ∩ (B ∪ C)) = P ((A ∩ B) ∪ (A ∩ C)) = P (A ∩ B) + P (A ∩ C) − P (A ∩ B ∩ C). Setzt man dies oben ein, so ergibt sich die gew¨ unschte Formel.
Die Formeln f¨ ur P (A∪B) und P (A∪B ∪C) sind Spezialf¨alle einer allgemeinen Formel: Siebformel Sind A1 , . . . , An ⊂ Ω Ereignisse, dann gilt: P (A1 ∪ · · · ∪ An ) = +
n i=1
P (Ai ) −
i<j
i<j
P (Ai ∩ Aj )
P (Ai ∩ Aj ∩ Ak ) ∓ · · · + (−1)n P (A1 ∩ · · · ∩ An ).
2.1.3 Ereignis-Algebra∗ In Anwendungen treten nicht nur Ergebnismengen auf, die abz¨ahlbar unendlich sind, wie die folgenden Beispiele zeigen. Beispiel 2.1.8. 1) Der Gewinn eines Unternehmens kann prinzipiell jeden beliebigen Wert annehmen. Hier ist Ω = R ein geeigneter Ergebnisraum. 2) F¨ ur den zuf¨alligen Zeitpunkt, an dem der Kurs eines Wertpapiers eine feste Schranke c u ¨bersteigt, ist Ω = [0,∞) ein geeigneter Ergebnisraum. In diesen beiden Beispielen interessieren uns Teilmengen A von R bzw. R+ als Ereignisse. Beispiel 2.1.9. Bei der Herstellung von CPUs werden feine Schaltstrukturen auf mit Silizium beschichtete Scheiben - sogenannte Wafer - aufgebracht. Wir modellieren den Wafer durch seine Oberfl¨ache Ω. Jede Verunreinigung der Beschichtung macht die entsprechende CPU unbrauchbar. Ein Staubpartikel falle zuf¨allig auf eine Stelle ω ∈ Ω des Wafers. Ist A ⊂ Ω eine Teilfl¨ache, etwa ein Rechteck, so ist diese nutzlos, wenn ω ∈ A gilt. Trifft ein Staubpartikel
78
2 Wahrscheinlichkeitsrechnung
an einer zuf¨alligen Stelle auf den Wafer, ohne dass bestimmte Regionen mit h¨ oherer Wahrscheinlichkeit getroffen werden als andere, so ist der Fl¨achenanteil |A|/|Ω| eine nahe liegende Festsetzung von P (A). Ein tiefliegendes Ergebnis der Mathematik zeigt, dass f¨ ur u ¨berabz¨ahlbare Ereignismengen nicht allen Teilmengen eine Wahrscheinlichkeit zugeordnet werden kann. Es gibt dann einfach zu viele Teilmengen. Als Ausweg betrachtet man nicht alle Teilmengen von Ω, sondern nur eine kleinere Auswahl A ⊂ Pot(Ω), so dass die gew¨ unschten Rechenregeln gelten. Hierbei geht man konstruktiv vor. Zun¨achst formuliert man Minimalforderungen, damit die Ereignisse sinnvoll kombiniert werden k¨onnen. Ereignisalgebra, Ereignis Ein Mengensystem A ⊂ Pot(Ω) von Teilmengen von Ω heißt Ereignisalgebra (σ-Algebra), wenn die folgenden Eigenschaften gelten: 1) Die Ergebnismenge Ω und die leere Menge ∅ geh¨oren zu A. 2) Mit A ist auch A Element von A. 3) Sind A1 , A2 , . . . Mengen aus A, dann ist auch ∪∞ i=1 Ai = A1 ∪ A2 ∪ . . . ein Element von A. Die Elemente von A heißen Ereignisse. Man kann zeigen, dass dann auch abz¨ahlbare Schnitte von Ereignissen wieder Ereignisse sind. Einfache Beispiele f¨ ur Ereignisalgebren, allerdings f¨ ur unsere Zwecke recht uninteressante, sind: A = {∅, Ω}, A = {∅, A, Ac , Ω} und A = Pot(Ω).
Ist E ⊂ Pot(Ω) irgendeine Menge von Teilmengen von Ω, dann gibt es eine kleinste Ereignisalgebra, notiert mit σ(E), die E umfasst, n¨amlich den Schnitt u ¨ber alle Ereignisalgebren, die E umfassen. E heißt Erzeuger. F¨ ur uns sind die folgenden F¨alle wichtig:
• Ω = R: Hier konstruiert man die sogenannte Borelsche Ereignisalgebra (Borel-σ-Algebra) B, indem man als Erzeuger die Menge aller endlichen Intervalle der Form (a,b], a ≤ b, a,b ∈ R, nimmt. Die Elemente von B heißen Borelsche Mengen. B umfasst insbesondere alle Intervalle (a,b), (a,b], [a,b), [a,b] und u ¨berhaupt alle Mengen, die in diesem Buch eine Rolle spielen. • Ω = X ⊂ R: Ereignisse sind hier alle Mengen der Form B ∩ X , wobei B eine Borelsche Teilmenge von R ist. Man w¨ahlt daher die Ereignisalgebra B(X ) = {B ∩ X : B ∈ B}. B(X ) heißt auch Spur-σ-Algebra.
• Ω = Rn : Im Rn verwendet man als Erzeuger die Menge aller Rechtecke der Form
2.2 Bedingte Wahrscheinlichkeiten
79
(a,b] = (a1 , b1 ] × (a2 , b2 ] × · · · × (an ,bn ],
wobei a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ Rn sind. Die erzeugte Ereignisalgebra heißt ebenfalls Borelsche Ereignisalgebra und wird mit Bn bezeichnet. • X ⊂ Rn : Wiederum nimmt man die Ereignisalgebra aller Mengen der Form B ∩ X , wobei B eine Borelsche Menge des Rn ist.
2.2 Bedingte Wahrscheinlichkeiten 2.2.1 Begriff der bedingten Wahrscheinlichkeit Der Wahrscheinlichkeitsbegriff steht in einem engen Zusammenhang zum Informationsbegriff: Solange wir nicht wissen, ob ein Ereignis A eingetreten ist oder nicht, bewerten wir das Ereignis mit der Eintrittswahrscheinlichkeit P (A). Sichere Fakten werden durch die 1 repr¨asentiert, Unm¨ogliches durch die 0. Die Kenntnis, dass ein anderes Ereignis B eingetreten ist, kann informativ f¨ ur das m¨ogliche Eintreten von A sein und seine Eintrittswahrscheinlichkeit andern. Wie ist die bedingte Wahrscheinlichkeit von A gegeben B, die wir ¨ mit P (A|B) notieren wollen, zu definieren? Haben wir das Vorwissen, dass B eingetreten ist, dann sind nur noch diejenigen Ausg¨ange ω ∈ A relevant, die auch in B liegen. Zu betrachten ist also das Schnittereignis A ∩ B und dessen Wahrscheinlichkeit P (A ∩ B). Bei Vorliegen der Information, dass B schon eingetreten ist, wird B zum sicheren Ereignis. Somit muss P (B|B) = 1 gelten. Dies ist durch die folgende Definition gew¨ahrleistet: Bedingte Wahrscheinlichkeit Es seien A, B ⊂ Ω Ereignisse mit P (B) > 0. Dann heißt P (A ∩ B) P (A|B) = P (B) bedingte Wahrscheinlichkeit von A gegeben B. Liegt speziell ein Laplace-Raum vor, dann ist P (A|B) der Anteil der f¨ ur das Ereignis A ∩ B g¨ unstigen F¨alle, bezogen auf die m¨oglichen F¨alle, welche die Menge B bilden: |A ∩ B| |Ω| |A ∩ B| P (A|B) = = . |Ω| |B| |B| F¨ ur festes B ist die Zuordnung A → P (A|B) tats¨achlich ein Wahrscheinlichkeitsmaß im Sinne der Kolmogorov-Axiome. L¨ ost man diese Definition nach P (A ∩ B) auf, so erh¨alt man:
80
2 Wahrscheinlichkeitsrechnung
Rechenregel Sind A, B ⊂ Ω Ereignisse mit P (B) > 0, dann gilt: P (A ∩ B) = P (A|B)P (B). Vertauschen von A und B in dieser Formel ergibt: P (A∩B) = P (B|A)P (A), sofern P (A) > 0. Soll die bedingte Wahrscheinlichkeit von C gegeben die Information, dass A und B eingetreten sind, berechnet werden, so ist auf das Schnittereignis A ∩ B zu bedingen: P (A ∩ B ∩ C) . P (C|A ∩ B) = P (A ∩ B)
Man verwendet oft die Abk¨ urzung: P (C|A,B) = P (C|A∩B). Umstellen liefert die n¨ utzliche Formel: P (A ∩ B ∩ C) = P (C|A ∩ B)P (A ∩ B)
Setzt man noch P (A ∩ B) = P (B|A)P (A) ein, so erh¨alt man: Rechenregel: ist
Sind A, B, C ⊂ Ω Ereignisse mit P (A ∩ B ∩ C) > 0, dann P (A ∩ B ∩ C) = P (C|A ∩ B)P (B|A)P (A).
Sind allgemeiner A1 , . . . , An Ereignisse mit P (A1 ∩ · · · ∩ An ) > 0, dann gilt: P (A1 ∩· · ·∩An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩A2 ) . . . P (An |A1 ∩· · ·∩An−1 ).
Beispiel 2.2.1. Betrachte die Ereignisse A = Server nicht u ¨berlastet“, ” B = Server antwortet sp¨atestens nach 5 [s]“, ” C = Download dauert nicht l¨anger als 20 [s]“. ” Der Server sei mit einer Wahrscheinlichkeit von 0.1 nicht u ¨berlastet. Wenn der Server nicht u ¨berlastet ist, erfolgt mit einer Wahrscheinlichkeit von 0.95 eine Antwort nach sp¨atestens 5 [s]. In diesem Fall dauert der Download in 8 von 10 F¨allen nicht l¨anger als 20[s]. Bekannt sind also: P (A) = 0.1, P (B|A) = 0.95 und P (C|A,B) = 0.8. Es folgt: P (A ∩ B ∩ C) = 0.1 · 0.95 · 0.8 = 0.076.
2.2 Bedingte Wahrscheinlichkeiten
81
2.2.2 Satz von totalen Wahrscheinlichkeit Beispiel 2.2.2. Die Produktion eines Unternehmens ist auf drei Standorte gem¨aß den folgenden Produktionsquoten verteilt: 1 2 3 Standort Wahrscheinlichkeit 0.2 0.7 0.1 Die Standorte produzieren mit unterschiedlichen Wahrscheinlichkeiten defekte Produkte: Standort 1 2 3 Ausfallquote 0.1 0.05 0.1 Ein zuf¨allig ausgew¨ahltes Produkt stammt mit einer gewissen Wahrscheinlichkeit pi vom Standort i, i = 1,2,3. Die pi sind in der ersten Tabelle angegeben. Sei Ai das Ereignis, dass das Produkt am Standort i hergestellt wurde. B sei das Ereignis, dass das Produkt defekt ist. In der zweiten Tabelle stehen nun die bedingten Wahrscheinlichkeiten P (B|Ai ), dass ein Produkt defekt ist, gegeben die Kenntnis Ai u ¨ber den Standort. Es stellt sich die Frage, wie man aus diesen Informationen folgende Wahrscheinlichkeiten berechnen kann: 1) Mit welcher Wahrscheinlichkeit P (B) ist ein zuf¨allig aus der Gesamtproduktion ausgew¨ahltes Produkt defekt? 2) Mit welcher Wahrscheinlichkeit P (A1 |B) wurde ein defektes Produkt an Standort 1 gefertigt? Wir wenden uns zun¨achst der ersten Frage zu.
Totale Wahrscheinlichkeit Es sei A1 , . . . , AK eine disjunkte Zerlegung von Ω: Ω = A1 ∪ · · · ∪ AK , Ai ∩ Aj = ∅, i = j. Dann gilt: P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + · · · + P (B|AK )P (AK ). In Summenschreibweise: P (B) =
K
P (B|Ai )P (Ai ).
i=1
Diese Formel gilt auch sinngem¨aß f¨ ur K = ∞.
82
2 Wahrscheinlichkeitsrechnung
Herleitung: Indem wir B mit allen Mengen Ak schneiden, erhalten wir eine disjunkte Zerlegung von B: B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ · · · ∪ (B ∩ AK ) mit (B ∩ Ai ) ∩ (B ∩ Aj ) = ∅, sofern i = j. Daher ist P (B) = P (B ∩ A1 ) + · · · + P (B ∩ AK ). ur i = 1, . . . , K liefert die gew¨ unschte Einsetzen von P (B ∩ Ai ) = P (B|Ai )P (Ai ) f¨ Formel.
Beispiel 2.2.3. Wir wenden den Satz von der totalen Wahrscheinlichkeit an, um die erste Frage aus Beispiel 2.2.2 zu beantworten. P (B) = P (B|A1 )p1 + P (B|A2 )p2 + P (B|A3 )p3 = 0.1 · 0.2 + 0.05 · 0.7 + 0.1 · 0.1 = 0.065.
2.2.3 Satz von Bayes Der Satz von Bayes beantwortet die in Beispiel 2.2.2 aufgeworfene zweite Frage, n¨amlich wie aus der Kenntnis der bedingten Wahrscheinlichkeiten P (B|Ai ) und der Wahrscheinlichkeiten P (Ai ) die bedingte Wahrscheinlichkeit P (Ai |B) berechnet werden kann. Satz von Bayes A1 , . . . , AK sei eine disjunkte Zerlegung von Ω mit P (Ai ) > 0 f¨ ur alle i = 1, . . . , K. Dann gilt f¨ ur jedes Ereignis B mit P (B) > 0 P (Ai |B) =
P (B|Ai )P (Ai ) P (B|Ai )P (Ai ) = K . P (B) k=1 P (B|Ak )P (Ak )
Diese Formel gilt sinngem¨aß auch f¨ ur den Fall K = ∞.
Herleitung: Zun¨ achst gilt nach Definition der bedingten Wahrscheinlichkeit P (Ai |B) =
P (Ai ∩ B) . P (B)
Nach der allgemeinen Formel f¨ ur die Wahrscheinlichkeit eines Schnittereignisses ist P (Ai ∩ B) = P (B|Ai )P (Ai ). i )P (Ai ) . Wenden wir auf den Nenner, P (B), Somit erhalten wir P (Ai |B) = P (B|A P (B) noch den Satz von der totalen Wahrscheinlichkeit an, dann ergibt sich:
P (B|Ai )P (Ai ) = P (B)
)P (A ) . P (B|A P (B|A )P (A ) i
K k=1
i
k
k
2.3 Mehrstufige Wahrscheinlichkeitsmodelle
83
Beispiel 2.2.4. (Bayessche Spamfilter). Ungef¨ahr 80% aller E-Mails sind unerw¨ unscht (Spam). Spam-Filter entscheiden aufgrund des Auftretens gewisser Worte, ob eine Email als Spam einzuordnen ist. Wir betrachten die Ereignisse: A = E-Mail ist Spam“, ” B1 = E-Mail enth¨alt das Wort Uni“, ” B2 = E-Mail enth¨alt das Wort win“. ” Es gelte P (A) = 0.8, P (B1 |A) = 0.05, P (B1 |A) = 0.4, P (B2 |A) = 0.4 und P (B2 |A) = 0.01. Die bedingten Wahrscheinlichkeiten k¨onnen n¨aherungsweise bestimmt werden, indem der Benutzer alte E-Mails klassifiziert. Dann kann man die relativen H¨aufigkeiten, mit denen die erw¨ unschten bzw. unerw¨ unschten E-Mails die Worte Uni bzw. win enhalten, bestimmen und als Sch¨atzungen verwenden. Kommt in der E-Mail das Wort Uni vor, so ist die E-Mail mit einer Wahrscheinlichkeit von P (B1 |A)P (A) P (B1 |A)P (A) + P (B1 |A)P (A) 0.05 · 0.8 1 = = 0.05 · 0.8 + 0.4 · 0.2 3
P (A|B1 ) =
unerw¨ unscht. Kommt hingegen das Wort win vor, so ist P (B2 |A)P (A) P (B2 |A)P (A) + P (B2 |A)P (A) 0.4 · 0.8 ≈ 0.9938. = 0.4 · 0.8 + 0.01 · 0.2
P (A|B2 ) =
Sortiert der Spam-Filter E-Mails, in denen das Wort win vorkommt, aus, so gehen jedoch auch 1% der erw¨ unschten E-Mails verloren.
2.3 Mehrstufige Wahrscheinlichkeitsmodelle Bedingte Wahrscheinlichkeiten treten insbesondere bei mehrstufigen Zufallsexperimenten auf, bei denen an verschiedenen Zeitpunkten jeweils mehrere zuf¨allige Ereignisse (Folgezust¨ande) eintreten k¨onnen. Dies ist oftmals gut durch einen Wahrscheinlichkeitsbaum darstellbar. Verzweigungen entsprechen hierbei m¨oglichen Folgezust¨anden einer Stufe. Die Endknoten stellen alle m¨ oglichen Ausg¨ange des Gesamtexperiments dar. Beispiel 2.3.1. Bei einem Produktionsprozess zur Herstellung von Nadellagern werden in Stufe 1 zun¨achst Rohlinge gefertigt, die mit einer Wahrscheinlichkeit von 0.02 nicht den Qualit¨atsanforderungen gen¨ ugen und aussortiert
84
2 Wahrscheinlichkeitsrechnung
werden. Die gelungenen Rohlinge werden in einer zweiten Stufe nachbearbeitet. Die fertigen Lager werden entsprechend der Einhaltung der Toleranzen in drei Klassen (Normal/P5/P6) sortiert. Man erh¨alt den folgenden Wahrscheinlichkeitsbaum: Stufe 1 0.02
0.98
Ausschuss
Stufe 2 0.1 Normal
0.6 Klasse P5
0.3 Klasse P6
Ein Rohling wird mit einer Wahrscheinlichkeit von 0.98·0.6 = 0.588 der Klasse P5 zugeordnet. Wir betrachten nun ein formales Modell f¨ ur solche Prozesse: Besteht ein Zufallsexperiment aus n Teilexperimenten (den sogenannten Stufen) mit Ergebnismengen Ω1 , . . . , Ωn , dann ist das kartesische Produkt Ω = Ω1 × · · · × Ω n aller n-Tupel ω = (ω1 , . . . , ωn ) mit ωi ∈ Ωi f¨ ur i = 1, . . . , n, ein geeigneter Grundraum. Sind alle Ωi diskret, dann k¨onnen wir wie folgt ein Wahrscheinlichkeitsmaß auf Ω festlegen: Die sogennante Startverteilung auf Ω1 , p(ω1 ),
ω1 ∈ Ω1
definiert die Wahrscheinlichkeiten von Ereignissen des ersten Teilexperiments. Gegeben den Ausgang ω1 des ersten Experiments sei p(ω2 |ω1 ) die bedingte Wahrscheinlichkeit, dass ω2 ∈ Ω2 eintritt. Gegeben die Ausg¨ange (ω1 , ω2 ) der ersten zwei Stufen, sei p(ω3 |ω1 , ω2 ) die Wahrscheinlichkeit, dass ω3 ∈ Ω3 eintritt. Allgemein sei p(ωj |ω1 , . . . , ωj−1 )
die bedingte Wahrscheinlichkeit, dass ωj eintritt, wenn in den Stufen 1 bis ur die Wahrscheinlichkeit j − 1 die Ausg¨ange ω1 , . . . , ωj−1 eingetreten sind. F¨ p(ω) = P ({ω}) des Gesamtexperiments ω = (ω1 , . . . , ωn ) erhalten wir nach der Multiplikationsregel f¨ ur bedingte Wahrscheinlichkeiten: Pfadregel Mit obigen Bezeichnungen gilt: p(ω) = p(ω1 )p(ω2 |ω1 ) · . . . · p(ωn |ω1 , . . . , ωn−1 ).
2.4 Unabh¨ angige Ereignisse
85
2.4 Unabh¨ angige Ereignisse Sind A, B Ereignisse mit P (B) > 0, dann hatten wir die bedingte Wahrscheinlichkeit von A gegeben B als P (A|B) = P (A ∩ B)/P (B) definiert. Im Allgemeinen gilt P (A|B) = P (A), d.h. die Information, dass B eingetreten ist, ¨andert die Wahrscheinlichkeit f¨ ur A. Gilt hingegen P (A|B) = P (A), dann ist das Ereignis B aus stochastischer Sicht nicht informativ f¨ ur A. Dann gilt: P (A|B) =
P (A ∩ B) = P (A) P (B)
⇔
P (A ∩ B) = P (A)P (B).
Die Wahrscheinlichkeit, dass A und B eintreten, ist in diesem wichtigen Spezialfall einfach durch das Produkt der einzelnen Wahrscheinlichkeiten gegeben: Unabh¨ angige Ereignisse, Produktsatz Zwei Ereignisse A und B heißen stochastisch unabh¨ angig (kurz: unabh¨angig), wenn P (A ∩ B) = P (A)P (B) gilt. Diese Identit¨at wird als Produktsatz bezeichnet.
Beispiel 2.4.1. Zwei Lampen L1 und L2 fallen unabh¨angig voneinander aus. Definiere die Ereignisse A : L1 brennt“, ” B : L2 brennt“. ” Dann sind A und B unabh¨angig. Sei p = P (A) und q = P (B). Bei einer Reihenschaltung fließt Strom, wenn beide Lampen brennen. Es gilt: P ( Strom fließt“) = P (A ∩ B) = P (A)P (B) = pq. ” Sind die Lampen parallel geschaltet, dann fließt Strom, wenn mindestens eine der Lampen brennt: P ( Strom fließt“) = P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = p + q − pq. ” A und B seien Ereignisse mit P (A) > 0 und P (B) > 0. Sind A und B unabh¨angig, dann gilt P (A∩B) > 0. Sind A und B disjunkt, dann ist hingegen P (A ∩ B) = P (∅) = 0. Disjunkte Ereignisse sind also stochastisch abh¨angig!
Wie u ¨bertr¨agt sich der Begriff der stochastischen Unabh¨angigkeit auf n Ereignisse? F¨ ur praktische Rechnungen ist es hilfreich, wenn die Produktformel P (A ∩ B) = P (A) · P (B) sinngem¨aß auch f¨ ur k herausgegriffene Ereignisse gilt.
86
2 Wahrscheinlichkeitsrechnung
Produktsatz k Ereignisse A1 , . . . , Ak ⊂ Ω erf¨ ullen den Produktsatz, wenn gilt: P (A1 ∩ A2 ∩ · · · ∩ Ak ) = P (A1 ) · . . . · P (Ak ).
Man definiert daher: Totale und paarweise Unabh¨ angigkeit n Ereignisse A1 , . . . , An ⊂ Ω heißen (total) stochastisch unabh¨ angig, wenn f¨ ur jede Teilauswahl Ai1 , . . . , Aik von k ∈ N Ereignissen der Produktsatz gilt. A1 , . . . , An heißen paarweise stochastisch unabh¨ angig, wenn alle Paare Ai , Aj (i = j) stochastisch unabh¨angig sind. Sind A,B,C (total) unabh¨angig, dann gelten die Gleichungen: P (A ∩ B) = P (A) · P (B), P (B ∩ C) = P (B) · P (C),
P (A ∩ C) = P (A) · P (C), P (A ∩ B ∩ C) = P (A) · P (B) · P (C). Die ersten drei Gleichungen liefern die paarweise Unabh¨angigkeit, aus denen jedoch nicht die vierte folgt, wie Gegenbeispiele zeigen. Allgemein gilt: Aus der totalen Unabh¨angigkeit folgt die paarweise Unabh¨angigkeit. F¨ ur praktische Berechnungen ist der folgende Zusammenhang wichtig: Eigenschaften unabh¨angiger Ereignisse Sind A1 , . . . , An ⊂ Ω unabh¨angig, dann sind auch die Ereignisse B1 , . . . , Bk , k ≤ n, unabh¨angig, wobei jedes Bi entweder Ai oder Ai ist, f¨ ur i = 1, . . . , k. Beispiel 2.4.2. n K¨ uhlpumpen sind parallel geschaltet. Die K¨ uhlung f¨allt aus, wenn alle Pumpen versagen. Die Pumpen fallen unabh¨angig voneinander mit Wahrscheinlichkeit p aus. Bezeichnet Ai das Ereignis, dass die i-te Pumpe ausf¨allt, dann sind A1 , . . . , An unabh¨angig mit P (Ai ) = p, i = 1, . . . , n. Sei B das Ereignis B = K¨ uhlung f¨allt aus“. Dann ist ” n B= Ai . i=1
Da A1 , . . . , An unabh¨angig sind, ergibt sich die Ausfallwahrscheinlichkeit des K¨ uhlsystems zu P (B) = P (A1 ) . . . P (An ) = pn .
2.5 Zufallsvariablen und ihre Verteilung
87
Setzt man beispielsweise vier Pumpen mit p = 0.01 ein, dann erh¨alt man P (B) = 0.014 = 10−8 . Die K¨ uhlleitung bestehe aus n Rohrst¨ ucken, die mit Dichtungen verbunden sind. Die Dichtungen werden unabh¨angig voneinander mit Wahrscheinlichkeit q undicht. Bezeichnet Ci das Ereignis, dass die i-te Dichtung undicht wird, und D das Ereignis D = Rohr undicht“, dann ist ” n n Ci , D= C i. D= i=1
i=1
Wir erhalten: P (D) = 1 − P (D) = 1 − P (C 1 ∩ · · · ∩ C n ). Da C1 , . . . , Cn unabh¨angig sind, sind auch die komplement¨aren Ereignisse C 1 , . . . , C n unabh¨angig. Somit ist: P (C 1 ∩ · · · ∩ C) = (1 − q)n . Die Rohrleitung ist daher mit einer Wahrscheinlichkeit von P (D) = 1−(1−q)n undicht. F¨ ur q = 0.01 und n = 10 erh¨alt man beispielsweise P (D) = 0.0956.
2.5 Zufallsvariablen und ihre Verteilung Oftmals interessiert nicht die komplette Beschreibung ω ∈ Ω des Ausgangs eines Zufallsexperiments, sondern lediglich ein Teilaspekt, etwa in Form eines numerischen Werts x, den man aus ω berechnen kann. Wir schreiben dann x = X(ω), wobei X die Berechnungsvorschrift angibt und x den konkreten Wert. Mathematisch ist X eine Abbildung vom Stichprobenraum Ω in die reellen Zahlen oder eine Teilmenge X ⊂ R. Zufallsvariable Eine Abbildung X : Ω → X ⊂ R,
ω → X(ω),
einer abz¨ahlbaren Ergebnismenge Ω in die reellen Zahlen heißt Zufallsvariable (mit Werten in X ). Wurde ω ∈ Ω gezogen, dann heißt x = X(ω) Realisation. Zusatz: Ist Ω u ¨berabz¨ahlbar und mit einer Ereignisalgebra A versehen, dann m¨ ussen alle Teilmengen der Form {ω ∈ Ω : X(ω) ∈ B}, wobei B eine Borelsche Menge von X ist, Ereignisse von Ω sein, d.h. (2.1)
{ω ∈ Ω : X(ω) ∈ B} ∈ A
f¨ ur alle Ereignisse B von X .
88
2 Wahrscheinlichkeitsrechnung
Zwei wichtige Spezialf¨alle stellen Zufallsvariablen dar, bei denen die Menge der m¨oglichen Realisationen X diskret (endlich oder abz¨ahlbar unendlich) ist. Diskrete Zufallsvariable Ist die Menge X = {X(ω) : ω ∈ Ω} diskret, dann heißt X diskrete Zufallsvariable. Ist die Ergebnismenge Ω diskret, so sind alle Zufallsvariablen X : Ω → X automatisch diskret. Einen weiteren wichtigen Spezialfall, den wir in einem eigenen Abschnitt behandeln, stellen Zufallsvariablen dar, bei denen X ein Intervall, R+ , R− oder ganz R ist. Dies ist nur bei u ¨berabz¨ahlbaren Ergebnismengen m¨oglich. Beispiel 2.5.1. Bei einer Befragung von n = 100 zuf¨allig ausgew¨ahlten Studierenden werden die folgenden Variablen erhoben: X: Alter, Y: Mieth¨ ohe, und Z: Einkommen. Ist G die Grundgesamtheit aller Studierenden, so ist der Stichprobenraum gegeben durch Ω = {ω = (ω1 , . . . , ω100 ) : ωi ∈ G, i = 1, . . . , 100}. Die Zufallsvariablen Xi , Yi , Zi sind nun definiert durch: Xi (ω) : Alter (in Jahren) des i-ten ausgew¨ahlten Studierenden ωi , Yi (ω) : Miete des i-ten ausgew¨ahlten Studierenden ωi , Zi (ω) : Einkommen des i-ten ausgew¨ahlten Studierenden ωi . Die Zufallsvariablen Xi sind diskret mit Werten in X = N, w¨ahrend die Zufallsvariablen Yi und Zi Werte in R+ annehmen. In der Regel gibt es einen Zeitpunkt t, an dem der eigentliche Zufallsvorgang stattfindet bzw. abgeschlossen ist, so dass ein Element ω der Ergebnismenge Ω ausgew¨ahlt wurde. Ab diesem Zeitpunkt k¨onnen wir nicht mehr von Wahrscheinlichkeiten reden. Ist A ein Ereignis, dann gilt entweder ω ∈ A oder ω ∈ A. Dann liegt auch der konkrete Wert x = X(ω) fest. Vor dem Zeitpunkt t hingegen wissen wir noch nicht, welchen Ausgang das Zufallsexperiment nimmt. Das Wahrscheinlichkeitsmaß P beschreibt, mit welchen Wahrscheinlichkeiten Ereignisse eintreten. Da der Versuchsausgang noch nicht feststeht, ist auch der interessierende numerische Wert noch unbestimmt. Dies wird durch die Verwendung von Großbuchstaben kenntlich gemacht: X symbolisiert also den numerischen Wert eines Zufallsvorgangs, der gedanklich in der Zukunft liegt, x symbolisiert einen Zufallsvorgang, der gedanklich abgeschlossen ist. 2.5.1 Die Verteilung einer Zufallsvariable Ist A ⊂ X ein Ereignis, dann k¨onnen wir das Ereignis betrachten, dass X Werte in der Menge A annimmt. Dieses Ereignis wird abk¨ urzend mit {X ∈ A}
2.5 Zufallsvariablen und ihre Verteilung
89
bezeichnet, {X ∈ A} = {ω ∈ Ω : X(ω) ∈ A}, und tritt mit der Wahrscheinlichkeit P (X ∈ A) = P ({ω ∈ Ω : X(ω) ∈ A}) ein. Als Funktion von A erhalten wir eine Wahrscheinlichkeitsverteilung: Verteilung von X Ordnet man jedem Ereignis A von X die Wahrscheinlichkeit P (X ∈ A) zu, dann ist hierdurch eine Wahrscheinlichkeitsverteilung auf X gegeben, die Verteilung von X heißt und auch mit PX bezeichnet wird. F¨ ur Ereignisse A von X gilt: PX (A) = P (X ∈ A).
Hat man die relevant Information eines Zufallsexperiments (Ω, A, P ) durch Einf¨ uhren einer Zufallsvariable X : Ω → X verdichtet, dann interessiert prim¨ar die Verteilung von X. F¨ ur Anwendungen fragt man hierbei meist nach der Wahrscheinlichkeit von punktf¨ormigen Ereignissen der Form {x}, x ∈ X , also nach PX ({x}) = P (X = x), bzw. von Intervallereignissen der Form A = (a,b] mit a < b, d.h. nach PX ((a,b]) = P (X ∈ (a,b]) = P (a < X ≤ b). Da (−∞,b] disjunkt in die Intervalle (−∞,a] und (a,b] zerlegt werden kann, gilt: P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b). Umstellen liefert: P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a). Intervallwahrscheinlichkeiten k¨ onnen also sehr leicht aus den Wahrscheinlichkeiten der Form P (X ≤ x), x ∈ R, berechnet werden. F¨ ur punktf¨ormige Ereignisse gilt: PX ({x}) = P (X = x) = P (X ≤ x) − P (X < x), da {X = x} = {X ≤ x}\{X < x}. 2.5.2 Die Verteilungsfunktion Die obigen Zusammenh¨ange motivieren die folgende Definition:
90
2 Wahrscheinlichkeitsrechnung
Verteilungsfunktion Die Funktion FX : R → [0,1], FX (x) = P (X ≤ x),
x ∈ R,
heißt Verteilungsfunktion von X. FX (x) ist monoton wachsend, rechtsstetig und es gilt: F (−∞) := lim FX (x) = 0, x→−∞
F (∞) := lim FX (x) = 1. x→∞
Ferner gilt: P (X < x) = F (x−) = lim F (z) z↑x
und P (X = x) = F (x) − F (x−). Allgemein heißt jede monoton wachsende und rechtsstetige Funktion F : R → [0,1] mit F (−∞) = 0 und F (∞) = 1 Verteilungsfunktion (auf R) und besitzt obige Eigenschaften.
Beispiel 2.5.2. Die Funktion F (x) =
0, x < 0, 1 − e−x , x ≥ 0,
hat die folgenden Eigenschaften: (1) 0 ≤ F (x) ≤ 1 f¨ ur alle x ∈ R, (2) F (−∞) = 0, und (3) F (∞) = 1. Ferner ist F (x) wegen F ′ (x) = e−x > 0 streng monoton wachsend, falls x > 0. Daher ist F (x) eine Verteilungsfunktion. Eine Funktion f (x) ist stetig in einem Punkt x, wenn links- und rechtsseitiger Grenzwert u ¨bereinstimmen. Da eine Verteilungsfunktion F (x) rechtsstetig ist, bedeutet Stetigkeit in x in diesem Fall, dass F (x) = F (x−) gilt. Daraus folgt, dass P (X = x) = 0. 2.5.3 Quantilfunktion und p-Quantile In der deskriptiven Statistik hatten wir die empirischen p-Quantile kennen gelernt, die grafisch aus der relativen H¨aufigkeitsfunktion bestimmt werden k¨ onnen. Das wahrscheinlichkeitstheoretische Pendant ist die Quantilfunktion:
2.5 Zufallsvariablen und ihre Verteilung
91
Quantilfunktion, Quantil Ist F (x) eine Verteilungsfunktion, dann heißt die Funktion F −1 : [0,1] → R, F −1 (p) = min{x ∈ R : F (x) ≥ p},
p ∈ (0,1),
Quantilfunktion von F . Ist F (x) stetig, dann ist F −1 (p) die Umkehrfunktion von F (x). F¨ ur ein festes p heißt F −1 (p) (theoretisches) p-Quantil.
Beispiel 2.5.3. Wir berechnen die Quantilfunktion der in Beispiel 2.5.2 beur x > 0 ist trachteten Verteilungsfunktion F (x) = 1 − e−x , x > 0. F¨ F (x) = 1 − e−x = p gleichbedeutend mit x = − ln(1 − p). Somit ist f¨ ur p ∈ (0,1): F −1 (p) = − ln(1 − p), die Quantilfunktion von F (x).
2.5.4 Diskrete Zufallsvariablen Wir hatten schon festgestellt, dass f¨ ur diskretes Ω auch X = {X(ω) : ω ∈ Ω} diskret ist. Sind x1 , x2 , . . . die m¨oglichen Werte von X, also X = {x1 , x2 , . . . }, dann ist die Verteilung von X durch Angabe der Wahrscheinlichkeiten pi = P (X = xi ) = P ({ω ∈ Ω : X(ω) = xi }),
i = 1,2, . . . ,
gegeben. Wahrscheinlichkeitsfunktion (Z¨ ahldichte) Ist X eine diskrete Zufallsvariable mit Werten in X = {x1 , x2 , . . . } ⊂ R, dann heißt die Funktion pX (x) = P (X = x),
x ∈ R,
Wahrscheinlichkeitsfunktion oder Z¨ ahldichte von X. Es gilt:
x∈X
pX (x) =
∞
pX (xi ) = 1.
i=1
Die Z¨ahldichte bestimmt eindeutig die Verteilung von X und ist durch Angabe der Punktwahrscheinlichkeiten pi = P (X = xi ),
i = 1,2, . . .
festgelegt: Es gilt pX (xi ) = pi und pX (x) = 0, wenn x ∈ X . Kann X nur endlich viele Werte x1 , . . . , xk annehmen, dann heißt (p1 , . . . , pk ) auch Wahrscheinlichkeitsvektor.
92
2 Wahrscheinlichkeitsrechnung
Beispiel 2.5.4. Sei Ω = {−2, −1, 0, 1, 2} und P die Gleichverteilung auf Ω. Betrachte die Zufallsvariable X : Ω → R, X(ω) = |ω|, ω ∈ Ω. Hier ist X = {0, 1, 2}. Es ist: P (X = 1) = P ({ω ∈ {−2, − 1,0,1,2} : |ω| = 1}) = P ({−1,1}) = 2/5, sowie P (X = 2) = P ({−2,2}) = 2/5 und P (X = 0) = P ({0}) = 1/5. Ferner ist: P (X = 0) + P (X = 1) + P (X = 2) = 1. Besitzt X die Z¨ahldichte p(x), dann schreibt man: X ∼ p(x). Die Wahrscheinlichkeit eines Ereignisses A berechnet sich dann durch Summierung aller p(x) mit x ∈ A: P (X ∈ A) = p(x) = p(xi ). x∈A
i:xi ∈A
Die Verteilungsfunktion von X ist p(xi ), FX (x) = i:xi ≤x
x ∈ R.
Dies ist eine Treppenfunktion: An den Sprungstellen xi betr¨agt die zugeh¨orige Sprungh¨ohen pi = p(xi ). Nimmt X nur endlich viele Werte an, dann kann die Verteilung einfach in tabellarischer Form angegeben werden: x1 x2 · · · xK p1 p2 · · · pK 2.5.5 Stetige Zufallsvariablen
Stetige Zufallsvariable, Dichtefunktion Eine Zufallsvariable X heißt stetig (verteilt), wenn es eine integrierbare, nicht-negative Funktion fX (x) gibt, so dass f¨ ur alle Intervalle (a,b] ⊂ R gilt: PX ((a,b]) = P (a < X ≤ b) =
b
f (x) dx. a
fX (x) heißt dann Dichtefunktion von X (kurz: Dichte).Allgemein heißt ∞ jede Funktion f : R → [0,∞) mit f (x) ≥ 0, x ∈ R, und −∞ f (x) dx = 1 Dichtefunktion.
2.5 Zufallsvariablen und ihre Verteilung
93
Die Dichtefunktion ist das wahrscheinlichkeitstheoretische Pendant zum Histogramm aus der deskriptiven Statistik. Es sei auch an die Anschauung des b Integrals erinnert: a f (x) dx ist das Maß der Fl¨ache unter dem Graphen von f (x) in den Grenzen a und b. F¨ ur kleine ∆x gilt: f (x) ≈ Beispiel 2.5.5. Sei
P (x < X ≤ x + ∆x) . ∆x
e−x , f (x) = 0,
x ≥ 0, x < 0.
Dann gilt f (x) ≥ 0 f¨ ur alle x ∈ R und
+∞
f (x)dx = lim −∞
a→∞
a −x
e 0
dx = lim −e
f (x) ist also eine Dichtefunktion.
a→∞
a −x
= 1. 0
Besitzt X die Dichtefunktion fX (x), dann schreibt man: X ∼ fX (x). Die Verteilungsfunktion von X berechnet sich aus der Dichte durch Integration: x FX (x) = P (X ≤ x) = fX (t)dt, x ∈ R. −∞
Besitzt umgekehrt X die Verteilungsfunktion F (x) und ist F (x) differenzierbar, dann gilt: ′ fX (x) = FX (x), x ∈ R. Wenn die Zuordnung einer Verteilungsfunktion bzw. Dichtefunktion zu einer Zufallsvariablen klar ist oder keine Rolle spielt, schreibt man einfach F (x) bzw. f (x). Oftmals werden Zufallsvariablen X transformiert; man betrachtet dann die Zufallsvariable Y = g(X) mit einer geeigneten Funktion g : R → R. Dichtetransformation X sei eine stetige Zufallsvariable mit Werten in X = (a,b), a < b, und Dichtefunktion fX (x). Ist y = g(x) eine stetig differenzierbare Funktion mit Umkehrfunktion x = g −1 (y), so dass g−1 (y) = 0 f¨ ur alle y gilt, dann hat die Zufallsvariable Y = g(X) die Dichtefunktion −1 dg (y) . fY (y) = fX (g −1 (y)) dy
94
2 Wahrscheinlichkeitsrechnung
Beispiel 2.5.6. X besitze die Dichte fX (x) = e−x , x > 0. Sei Y = g(X) mit g : (0,∞) → (0, ∞), g(x) = x2 . Die Funktion g(x) hat die Umkehrfunktion √ x = g −1 (y) = y, y > 0, mit Ableitung (g −1 )′ (y) =
dg −1 (y) 1 = √ . dy 2 y
ur alle y > 0. Somit hat Y die Dichte Es gilt (g −1 )′ (y) > 0 f¨ fY (y) = fX (g −1 (y))|(g −1 )′ (y)| =
√
e− y √ , 2 y
y > 0.
2.5.6 Unabh¨ angigkeit von Zufallsvariablen und Zufallsstichproben Zufallsvariablen sind unabh¨angig, wenn Wissen u ¨ber die Realisierung der einen Variablen keinen Einfluß auf die Wahrscheinlichkeitsverteilung der anderen Variable hat. Da alle Ereignisse, die vom Zufallsprozess nur u ¨ber X und Y abh¨angen, die Form {X ∈ A} bzw. {Y ∈ B} haben, k¨onnen wir die Definition der Unabh¨angigkeit von Ereignissen anwenden. Unabh¨ angige Zufallsvariablen 1) Zwei Zufallsvariablen X und Y mit Werten in X bzw. Y heißen (stochastisch) unabh¨ angig, wenn f¨ ur alle Ereignisse A ⊂ X und f¨ ur alle Ereignisse B ⊂ Y gilt: P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B). 2) Die Zufallsvariablen X1 , . . . , Xn mit Werten in X1 , . . . , Xn heißen (stochastisch) unabh¨ angig, wenn f¨ ur alle Ereignisse A1 ⊂ X1 , . . . , An ⊂ Xn die Ereignisse {X1 ∈ A1 }, . . . , {Xn ∈ An } (total) unabh¨angig sind. D.h.: F¨ ur alle i1 , . . . , ik ∈ {1, . . . , n}, 1 ≤ k ≤ n, gilt: P (Xi1 ∈ Ai1 , . . . , Xik ∈ Aik ) = P (Xi1 ∈ Ai1 ) · · · P (Xik ∈ Aik ).
Der zweite Teil der Definition besagt, dass X1 , . . . , Xn stochastisch unabh¨angig sind, wenn man stets zur Berechnung gemeinsamer Wahrscheinlichkeiten den Produktsatz anwenden darf. F¨ ur zwei diskrete Zufallsvariablen X und Y gilt speziell:
2.5 Zufallsvariablen und ihre Verteilung
95
Kriterium f¨ ur diskrete Zufallsvariablen Zwei diskrete Zufallsvariablen X und Y sind stochastisch unabh¨angig, wenn f¨ ur alle Realisationen xi von X und yj von Y die Ereignisse {X = xi } und {Y = yj } stochastisch unabh¨angig sind, d.h. P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ). Dann gilt ferner P (X = xi |Y = yj ) = P (X = xi ),
und P (Y = yj |X = xi ) = P (Y = yj ).
F¨ ur zwei stetige Zufallsvariablen X und Y ergibt sich folgendes Kriterium: Kriterium f¨ ur stetige Zufallsvariablen Zwei stetige Zufallsvariablen X und Y sind stochastisch unabh¨angig, wenn f¨ ur alle Intervalle (a, b] und (c,d] die Ereignisse {a < X ≤ b} und {c < Y ≤ d} unabh¨angig sind, d.h. P (a < X ≤ b, c < Y ≤ d) = =
b
fX (x) dx
a
b
a
d
fY (y) dy
c
d
fX (x)fY (y) dxdy. c
⊲ Zufallsstichprobe (Random Sample) Um stochastische Vorg¨ange zu untersuchen, werden in der Regel mehrere Beuhren. obachtungen erhoben, sagen wir n, die zu einer Stichprobe x1 , . . . , xn f¨ In vielen F¨allen werden diese n Werte unter identischen Bedingungen unabh¨angig voneinander erhoben. Mit den getroffenen Vorbereitungen sind wir nun in der Lage, ein wahrscheinlichkeitstheoretisch fundiertes Modell hierf¨ ur anzugeben. Das Gesamtexperiment bestehe also in der n-fachen Wiederholung eines Zufallsexperiments. Zur stochastischen Modellierung nehmen wir n Zufallsvariablen X1 , . . . , Xn . Xi beschreibe den zuf¨alligen Ausgang der i-ten Wiederholung, i = 1, . . . , n.
96
2 Wahrscheinlichkeitsrechnung
Zufallsstichprobe n Zufallsvariablen X1 , . . . , Xn bilden eine (einfache) Zufallsstichprobe, wenn sie unabh¨angig und identisch verteilt sind: • X1 , . . . , Xn sind stochastisch unabh¨angig und • X1 , . . . , Xn sind identisch verteilt, d.h. alle Xi besitzen dieselbe Verteilung: P (Xi ∈ A) = P (X1 ∈ A), i = 1, . . . , n. Bezeichnet F (x) = FX (x) die Verteilungsfunktion der Xi , so schreibt man kurz: i.i.d. X1 , . . . , Xn ∼ F (x). i.i.d. (engl.: independent and identically distributed) steht hierbei f¨ ur unabh¨ angig und identisch verteilt.
2.5.7 Verteilung der Summe: Die Faltung Sehr oft muss man die Verteilung der Summe von zwei (oder mehr) Zufallsvariablen berechnen. Wir betrachten zun¨achst den diskreten Fall: Diskrete Faltung Sind X und Y unabh¨angige Zufallsvariablen mit Wahrscheinlichkeitsfunktionen pX (x) bzw. pY (y), dann ist die Verteilung der Summenvariable Z = X + Y gegeben durch die diskrete Faltung pX (z − y)pY (y) = pY (z − x)pX (x) P (Z = z) = y∈Y
x∈X
f¨ ur z ∈ Z = {x + y : x ∈ X , y ∈ Y}. Herleitung: Sei X = {x1 , x2 , . . . } und Y = {y1 , y2 , . . . }. Das relevante Ereignis {X + Y = z} kann wie folgt disjunkt zerlegt werden: {X + Y = z} = {X = z − y1 , Y = y1 } ∪ {X = z − y2 , Y = y2 } ∪ · · · Somit ist P (Z = z) = ∞ angig sind, i=1 P (X = z − yi ,Y = yi ). Da X und Y unabh¨ gilt: P (X = z − yi ,Y = yi ) = P (X = z − yi )P (Y = yi ). Also ergibt sich:
p ∞
P (Z = z) =
X (z
− yi )pY (yi ).
i=1
Die G¨ ultigkeit der anderen Formel pr¨ uft man ¨ ahnlich nach.
F¨ ur stetig verteilte Zufallsvariablen gilt entsprechend:
2.6 Erwartungswert, Varianz und Momente
97
Stetige Faltung Sind X ∼ fX (x) und Y ∼ fY (y) unabh¨angige stetige Zufallsvariablen, dann hat die Summenvariable Z = X + Y die Dichtefunktion ∞ ∞ fZ (z) = fX (z − y)fY (y) dy = fY (z − x)fX (x) dx . −∞
−∞
fZ (z) heißt stetige Faltung von fX (x) und fY (y).
2.6 Erwartungswert, Varianz und Momente 2.6.1 Erwartungswert n In der deskriptiven Statistik hatten wir das arithmetische Mittel x = n1 i=1 xi von n reellen Zahlen x1 , . . . , xn als geeignetes Lagemaß kennengelernt. Der Erwartungswert stellt das wahrscheinlichkeitstheoretische Analogon dar. Erwartungswert einer diskreten Zufallsvariablen Ist X eine diskrete Zufallsvariable mit Werten in X und Wahrscheinlichkeitsfunktion (Z¨ahldichte) pX (x), x ∈ X , dann heißt die reelle Zahl x · pX (x) E(X) = x∈X
Erwartungswert von X, sofern x∈X |x|pX (x) < ∞ gilt. Im wichtigen Spezialfall, dass X = {x1 , . . . , xk } endlich, gilt: E(X) = x1 pX (x1 ) + x2 pX (x2 ) + · · · + xk pX (xk ).
Beispiel 2.6.1. Bei einem Spiel werden 150 Euro ausgezahlt, wenn beim Werfen einer fairen M¨ unze Kopf erscheint. Sonst verliert man seinen Einsatz, der 50 Euro betr¨agt. Der Gewinn G ist eine Zufallsvariable, die entweder den Wert −50 Euro oder +100 Euro annimmt. Der mittlere (erwartete) Gewinn betr¨agt: 1 1 E(X) = · (−50) + · 100 = 25. 2 2 F¨ ur stetig verteilte Zufallsvariablen wird die mit der Z¨ahldichte gewichtete Summation durch eine mit der Dichtefunktion gewichtete Integration ersetzt.
98
2 Wahrscheinlichkeitsrechnung
Erwartungswert einer stetigen Zufallsvariablen Ist X eine stetige Zufallsvariable mit Dichtefunktion fX (x), dann heißt ∞ xfX (x) dx E(X) = −∞
Erwartungswert von X (sofern
∞
−∞
|x|fX (x) dx < ∞).
Beispiel 2.6.2. Sei X ∼ f (x) mit
e−x , x ≥ 0, f (x) = 0, x < 0.
Dann liefert partielle Integration: ∞ ∞ ∞ xf (x) dx = xe−x dx = xe−x 0 − E(X) = −∞
0
∞
e−x dx = 1.
0
F¨ ur das Rechnen mit Erwartungswerten gelten die folgenden allgemeinen Regeln, unabh¨angig davon, ob man es mit diskreten oder stetigen Zufallsvariablen zu tun hat. Rechenregeln des Erwartungswerts a,b ∈ R.
Seien X und Y Zufallsvariablen und
1) E(X + Y ) = E(X) + E(Y ), 2) E(aX + b) = aE(X) + b, 3) E|X + Y | ≤ E|X| + E|Y |. 4) Jensen-Ungleichung: Ist g(x) konvex, dann gilt: E(g(X)) ≥ g(E(X)) und E(g(X)) > g(E(X)), falls g(x) strikt konvex ist. Ist g(x) konkav bzw. strikt konkav, dann kehren sich die Ungleichheitszeichen um.
Produkteigenschaft Sind X und Y stochastisch unabh¨angige Zufallsvariablen, dann gilt f¨ ur alle Funktionen f (x) und g(y) (mit E|f (X)| < ∞ und E|g(Y )| < ∞), E(f (X)g(Y )) = E(f (X)) · E(g(Y )). Daher gilt insbesondere E(XY ) = E(X) · E(Y ).
2.6 Erwartungswert, Varianz und Momente
99
2.6.2 Varianz Die Varianz einer Zufallsvariablen ist das wahrscheinlichkeitstheoretische Pendant zur Stichprobenvarianz. Varianz Sei X eine Zufallsvariable. Dann heißt
2 = Var(X) = E (X − E(X))2 σX
Varianz von X, sofern E(X 2 ) < ∞. Die Wurzel aus der Varianz, σX = Var(X), heißt Standardabweichung von X.
Die vielen Klammern in obiger Definition sind verwirrend. Bezeichnen wir
mit µ = E(X) den Erwartungswert von X, dann ist Var(X) = E (X − µ)2 . Man darf auch die ¨außeren Klammern weglassen und Var(X) = E(X − µ)2 schreiben. Der Zusammenhang zur Stichprobenvarianz ist wie folgt: Varianz und Stichprobenvarianz Ist X diskret verteilt mit Werten in der Menge X = {x1 , . . . , xn } und gilt P (X = xi ) = n1 f¨ ur alle i = 1, . . . , n (ist auf x1 , . . . , xn aus Beispiel also PX das empirische Wahrscheinlichkeitsmaß 2.1.5), dann gilt E(X) = n1 ni=1 xi und n
Var(X) =
1 (xi − x)2 . n i=1
In der deskriptiven Statistik hatten wir gesehen, dass der Verschiebungssatz hilfreich ist, um die Stichprobenvarianz per Hand zu berechnen. Dies gilt oftmals auch bei der Berechnung der Varianz. Verschiebungssatz Es gilt: Var(X) = E(X 2 ) − (E(X))2 . Herleitung: Zun¨ achst quadrieren wir (X − E(X))2 aus: (X − E(X))2 = X 2 − 2X · E(X) + (E(X))2 . Da der Erwartungswert additiv ist, erhalten wir:
100
2 Wahrscheinlichkeitsrechnung
Var(X) = E (X −E(X))2 = E(X 2 )−2E(X)·E(X)+(E(X))2 = E(X 2 )−(E(X))2
Beispiel 2.6.3. Sei X ∼ f (x) mit f (x) = e−x , x > 0 und f (x) = 0, wenn x < 0. Wir hatten schon in Beispiel 2.6.2 den Erwartungswert berechnet: E(X) = 1. Durch zweimalige partielle Integration erh¨alt man: ∞ E(X 2 ) = x2 e−x dx = 2. 0
Somit folgt: Var(X) = E(X 2 ) − (EX)2 = 2 − 12 = 1. F¨ ur die theoretische Varianz Var(X) gelten dieselben Rechenregeln wie f¨ ur die empirische Varianz Var(x). Rechenregeln Sind X, Y Zufallsvariablen mit existierenden Varianzen und ist a eine reelle Zahl, dann gelten die folgenden Regeln: 1) Var(aX) = a2 Var(X). 2) Falls E(X) = 0, dann gilt: Var(X) = E(X 2 ). 3) Sind X und Y stochastisch unabh¨angig, dann gilt: Var(X + Y ) = Var(X) + Var(Y ).
2.6.3 Momente und Transformationen von Zufallsvariablen Oftmals interessiert der Erwartungswert einer Transformation g(X), g : X → R, beispielsweise g(x) = |x|k f¨ ur ein k ∈ N. (zentrierte/absolute) Momente F¨ ur E|X|k < ∞ und eine Zahl a ∈ R seien mk (a) = E(X − a)k , mk = mk (0),
m∗k (a) = E|X − a|k , m∗k = m∗k (0).
mk (a) heißt Moment k-ter Ordnung von X bzgl. a, m∗k (a) zentriertes Moment k-ter Ordnung von X bzgl. a. µk = mk (E(X)) ist das zentrale Moment und µ∗k = µ∗k (E(X)) das zentrale absolute Moment. Es ist m1 = E(X), m2 = E(X 2 ) und µ2 = Var(X). Das vierte Moment X−E(X) , heißt Kurtosis und misst die , β2 = E(X ∗ )4 = mσ4 (X) von X ∗ = √ 4 Var(X)
X
W¨olbung der Wahrscheinlichkeitsverteilung. Ist X ∼ N (µ,σ2 ), dann ist β2 =
2.6 Erwartungswert, Varianz und Momente
101
3. γ2 = β2 − 3 heißt Exzess. X besitze eine Dichte fX (x). F¨ ur γ2 > 0 ist die Diche spitzer, f¨ ur γ2 < 0 flacher als die der entsprechenden Normalverteilung. Der Fall γ2 > 0 tritt oft bei Finanzmarktdaten auf. Transformationsformel f¨ ur den Erwartungswert Sei X eine Zufallsvariable und g : X → Y eine Funktion (mit E|g(X)| < ∞). F¨ ur den Erwartungswert der Zufallsvariablen Y = g(X) gelten die folgenden Formeln: 1) Sind X und Y = g(X) diskrete Zufallsvariablen mit Wahrscheinlichkeitsfunktionen pX (x) bzw. pY (y), dann gilt: g(x)pX (x) = ypY (y). E(Y ) = x∈X
y∈Y
2) Sind X und Y = g(X) stetig, mit den Dichtefunktionen fX (x) bzw. fY (y), dann gilt: ∞ ∞ g(x)fX (x) dx = yfY (y) dy. E(Y ) = −∞
−∞
2.6.4 Entropie∗ In der deskriptiven Statistik hatten wir schon die Entropie als Streuungsmaß f¨ ur nominal skalierte Daten kennen gelernt. Der Entropiebegriff spielt eine wichtige Rolle in der Informationstheorie. Sei X = {a1 , . . . , ak } ein Alphabet von k Symbolen und fj sei die relative H¨aufigkeit oder Wahrscheinlichkeit, mit der das Symbol aj in einem Text vorkommt bzw. beobachtet wird. Eine Nachricht ist dann eine Kette x1 x2 . . . xn mit xi ∈ X , die wir auch als Vektor (x1 , . . . , xn ) schreiben k¨onnen. Wie kann die Nachricht optimal durch Bitfolgen kodiert werden? F¨ ur Symbole, die h¨aufig vorkommen, sollten kurze Bitfolgen gew¨ahlt werden, f¨ ur seltene hingegen l¨angere. Um zu untersuchen, wie lang die Bitfolgen im Mittel sind, werden die Nachrichten als Realisationen von Zufallsvariablen aufgefasst. Die Entropie misst die minimale mittlere L¨ange der Bitfolgen, wenn man die f1 , . . . , fk kennt und ein optimales Kodierverfahren verwendet. Entropie Ist X eine diskrete Zufallsvariable mit m¨oglichen Realisationen X = {x1 , x2 , . . . } und zugeh¨origen Wahrscheinlichkeiten pi = P (X = xi ), dann heißt ∞ H(X) = − pi log2 (pi ) i=1
Entropie von X.
102
2 Wahrscheinlichkeitsrechnung
Da p log2 (p) → 0, f¨ ur p → 0, setzt man 0 log2 (0) = 0. Beispiel 2.6.4. Kann X die Werte 0 und 1 annehmen mit gleicher Wahrscheinlichkeit p = P (X = 1) = 1/2 annehmen (zwei gleichwahrscheinliche Symbole), dann ist H(X) = −0.5 log2 (0.5) − 0.5 log2 (0.5) = 1. Ist allgemeiner p = P (X = 1) = 1/2 (ein Symbol tritt h¨aufiger auf als das andere), dann ur betr¨agt die Entropie H(X) = −(p log2 (p) + q log2 (q)) mit q = 1 − p. F¨ p = 0 oder p = 1 tritt nur ein Symbol auf, die Nachricht ist somit vollst¨andig bekannt, d.h. H(X) = 0. Sind alle Symbole gleichwahrscheinlich, dann nimmt die Entropie ihren Maximalwert log2 (k) an.
2.7 Diskrete Verteilungsmodelle Wir stellen nun die wichtigsten Verteilungsmodelle f¨ ur diskrete Zufallsvorg¨ange zusammen. Da diese Verteilungen in den Anwendungen meist als Verteilungen f¨ ur Zufallsvariablen X mit Werten in X ⊂ R erscheinen, f¨ uhren wir sie als Wahrscheinlichkeitsverteilungen auf X ein. Setzt man Ω = X und X(ω) = ω, so kann man sie auch als Verteilungen auf Ω interpretieren. 2.7.1 Bernoulli-Verteilung Ein Bernoulli-Experiment liegt vor, wenn man lediglich beobachtet, ob ein Ereignis A eintritt oder nicht. Sei 1, A tritt ein X = 1A = 0, A tritt nicht ein. Sei p = P (X = 1) und q = 1 − p = P (X = 0). X heißt Bernoulli-verteilt mit Parameter p ∈ [0,1] und man schreibt: X ∼ Ber(p). Es gilt: Erwartungswert: E(X) = p, Varianz: Z¨ahldichte:
Var(X) = p(1 − p),
p(k) = pk (1 − p)1−k , k ∈ {0,1}.
2.7.2 Binomialverteilung Die Binomialverteilung geh¨ort zu den wichtigsten Wahrscheinlichkeitsverteilungen zur Beschreibung von realen zufallsbehafteten Situationen. Beispiel 2.7.1. 1) 50 zuf¨allig ausgew¨ahlte Studierende werden gefragt, ob sie mit der Qualit¨at der Mensa zufrieden sind (ja/nein). Wie wahrscheinlich ist es, dass mehr als 30 zufrieden sind?
2.7 Diskrete Verteilungsmodelle
103
2) Bei einem Belastungstest wird die Anzahl der Versuche bestimmt, bei denen der Werkstoff bei extremer Krafteinwirkung bricht. Insgesamt werden 5 Versuche durchgef¨ uhrt. Wie wahrscheinlich ist es, dass k Werkst¨ ucke brechen, wenn ein Bruch mit einer Wahrscheinlichkeit von 0.05 erfolgt? Beide Beispiele fallen in den folgenden Modellrahmen: Es werden unabh¨angig voneinander n Bernoulli-Experimente durchgef¨ uhrt und gez¨ahlt, wie oft das Ereignis eingetreten ist. Um eine einheitliche Sprache zu finden, ist es u ¨blich, von einem Erfolg zu reden, wenn eine 1 beobachtet wurde. Bezeichnet Xi das zuf¨allige Ergebnis des i-ten Bernoulli-Experiments, i = 1, . . . , n, dann ist X1 , . . . , Xn eine Zufallsstichprobe von Bernoulli-verteilten Zufallsvariablen, i.i.d.
X1 , . . . , Xn ∼ Ber(p). Die Anzahl der Erfolge berechnet sich dann durch: Y = X1 + · · · + Xn =
n
Xi .
i=1
Y nimmt Werte zwischen 0 und n an. Das Ereignis {Y = k} tritt genau dann ein, wenn exakt k der Xi den Wert 1 haben. P (Y = k) ergibt sich daher als Summe der Wahrscheinlichkeiten dieser Einzelf¨alle. So f¨ uhrt z.B. die Realisation (x1 , . . . ,xn ) = (1, . . . ,1 ,0, . . . ,0) zur Anzahl k. Aufgrund der Unabh¨angigkeit der Xi gilt
k
P (X1 = 1, . . . , Xk = 1, Xk+1 = 0, . . . , Xn = 0) = pk (1 − p)n−k . ¨ Uberhaupt stellt sich immer die Wahrscheinlichkeit pk (1 − p)n−k ein, wenn genau k der xi den Wert 1 haben. Betrachten wir die Menge {1, . . . , n} der m¨ oglichen Positionen, so stellt sich die Frage, wie viele M¨oglichkeiten es gibt, eine k-elementige Teilmenge auszuw¨ahlen. Binomialkoeffizient F¨ ur n ∈ N und k ∈ {0, . . . , n} gibt der Binomialkoeffizient n! n · (n − 1) . . . (n − k + 1) n = = k · (k − 1) . . . 2 · 1 k!(n − k)! k die Anzahl der M¨oglichkeiten an, aus einer n-elementigen Obermenge (aus n Objekten) eine k-elementige Teilmenge (k Objekte ohne Zur¨ ucklegen und ohne Ber¨ ucksichtigung der Reihenfolge) auszuw¨ahlen. Somit folgt: P (Y = k) =
n k p (1 − p)n−k , k
k = 0, . . . , n.
104
2 Wahrscheinlichkeitsrechnung
Y heißt binomialverteilt mit Parametern n ∈ N und p ∈ [0,1]. Notation: X ∼ Bin(n,p). Erwartungswert: E(Y ) = np, Var(Y ) = np(1 − p), n k p (1 − p)n−k , k ∈ {0, . . . ,n}. Z¨ahldichte: p(k) = k Varianz:
Sind X ∼ Bin(n1 , p) und Y ∼ Bin(n2 , p) unabh¨angig, dann ist die Summe wieder binomialverteilt: X + Y ∼ Bin(n1 + n2 , p). 2.7.3 Geometrische Verteilung und negative Binomialverteilung Beispiel 2.7.2. Bei der Fließbandproduktion von Autos wird bei der Endkontrolle gepr¨ uft, ob die T¨ uren richtig eingepasst sind. Wie ist die Wartezeit auf das erste Auto mit falsch eingepassten T¨ uren verteilt? Beobachtet wird eine Folge X1 , X2 , X3 , . . . von Bernoulli-Variablen, d.h. Xi ∼ Ber(p),
i = 1, 2, . . .
Sei T = min{k ∈ N : Xk = 1}
der zuf¨allig Index (Zeitpunkt), an dem zum ersten Mal eine 1 beobachtet wird. Die zugeh¨orige Wartezeit ist dann W = T − 1. T = n gilt genau dann, wenn die ersten n − 1 Xi den Wert 0 annehmen und Xn den Wert 1. Daher gilt: P (T = n) = p(1 − p)n−1 ,
n = 1, 2, . . .
T heißt geometrisch verteilt mit Parameter p ∈ (0,1]. Notation: T ∼ Geo(p). P (W = n) = p(1 − p)n ,
Erwartungswerte: Varianzen:
E(T ) =
1 , p
Var(T ) =
n = 0, 1, . . . 1 − 1, p 1−p Var(W ) = . p2 E(W ) =
1−p , p2
Die Verteilung der Summe Sk = T1 + · · · + Tk von k unabh¨angig und identisch Geo(p)-verteilten Zufallsvariablen heißt negativ-binomialverteilt. Sk ist die Anzahl der erforderlichen Versuche, um k Erfolge zu beobachten. Es gilt: n−1 k P (Sk = n) = p (1 − p)n−k , n = k, k + 1, . . . , k−1
da im n-ten Versuch ein Erfolg vorliegen muss und es genau n−1 oglichk−1 M¨ keiten gibt, die u ¨brigen k − 1 Erfolge auf die n − 1 restlichen Positionen zu verteilen. Es gilt: E(Sn ) = kp und Var(Sn ) = k(1−p) p2 .
2.7 Diskrete Verteilungsmodelle
105
2.7.4 Poisson-Verteilung Die Poisson-Verteilung eignet sich zur Modellierung der Anzahl von punktf¨ormigen Ereignissen in einem Kontinuum (Zeit, Fl¨ ache, Raum). Hier einige Beispiele: Beispiel 2.7.3. 1) Die Anzahl der Staubpartikel auf einem Wafer. 2) Die Anzahl der eingehenden Notrufe bei der Feuerwehr. 3) Die von einem Geigerz¨ahler erfasste Anzahl an Partikeln, die eine radioaktive Substanz emitiert. Wir beschr¨anken uns auf den Fall, dass punktf¨ormige Ereignisse w¨ahrend eines Zeitintervalls [0,T ] gez¨ahlt werden. F¨ ur jeden Zeitpunkt t ∈ [0,T ] f¨ uhren wir eine Zufallsvariable Xt ein:
1, Ereignis zur Zeit t, Xt = 0, kein Ereignis zur Zeit t. Es werden nun die folgenden Annahmen getroffen: 1) Die Xt sind unabh¨angig verteilt. ange, nicht 2) Ist I ⊂ [0,T ] ein Intervall, dann h¨angt P (Xt ∈ I) nur von der L¨ jedoch von der Lage des Intervalls I ab. Wir zerlegen das Intervall [0,T ] in n gleichbreite Teilintervalle und f¨ uhren die Zufallsvariablen 1, Ereignis im i-ten Teilintervall, Xni = 0, kein Ereignis im i-ten Teilintervall, ein. Die Xn1 , . . . , Xnn sind unabh¨angig und identisch Bernoulli-verteilt mit einer gemeinsamen Erfolgswahrscheinlichkeit pn , die proportional zur L¨ange der Teilintervalle ist. Daher gibt es eine Proportionalit¨atskonstante λ, so dass pn = λ ·
T . n
Folglich ist die Summe der Xni binomialverteilt, Yn = Xn1 + · · · + Xnn ∼ Bin(n,pn ). Wir k¨onnen den folgenden Grenzwertsatz mit λT anstatt λ anwenden:
106
2 Wahrscheinlichkeitsrechnung
Poisson-Grenzwertsatz Sind Yn ∼ Bin(n, pn ), n = 1, 2, . . . , binomialverteilte Zufallsvariablen mit npn → λ, n → ∞, dann gilt f¨ ur festes k: λk −λ e . k!
lim P (Yn = k) = pλ (k) =
n→∞
Die Zahlen pλ (k), k ∈ N0 , definieren eine Verteilung auf N0 . Herleitung: Wir verwenden ex = limn→∞ (1 + P (Yn = k) = =
n k
x n ) n
pkn (1 − pn )n−k
nn−1 n−k+1 1 ... · n n n k!
∞ xk k=0 k!
und ex =
.
np np 1− n n n
→λ
k
n
n−k
→e−λ
(λ)k −λ → e . k! Die Zahlen
λk k!
e−λ definieren eine Wahrscheinlichkeitsverteilung auf N0 :
λ e ∞
k=0
k
−λ
k!
λ ∞
= e−λ
k=0
k
k!
= 1.
Y heißt dann poissonverteilt mit Parameter λ. Notation: Y ∼ Poi(λ). Es gilt: Erwartungswert: E(Y ) = λ, Varianz:
Var(Y ) = λ,
Z¨ahldichte: p(k) = e−λ
λk , k ∈ N0 . k!
Es sei explizit bemerkt, dass der Poisson-Grenzwertsatz angewendet werden kann, um die Binomialverteilung Bin(n,p) f¨ ur sehr kleine Erfolgswahrscheink lichkeiten zu approximieren: F¨ ur Y ∼ Bin(n,p) gilt: P (Y = k) ≈ λk! e−λ mit λ = np. Beim Arbeiten mit der Poisson-Verteilung sind die folgenden Regeln n¨ utzlich: ur die Summe: 1) Sind X ∼ Poi(λ1 ) und Y ∼ Poi(λ2 ) unabh¨angig, dann gilt f¨ X + Y ∼ Poi(λ1 + λ2 ).
2) Ist X ∼ Poi(λ1 ) die Anzahl der Ereignisse in [0,T ] und Y die Anzahl der Ereignisse in dem Teilintervall [0,r · T ], so ist Y ∼ Poi(r · λ).
2.8 Stetige Verteilungsmodelle
107
2.8 Stetige Verteilungsmodelle Wir besprechen einige wichtige Verteilungsmodelle f¨ ur stetige Zufallsvariablen. Weitere Verteilungen, die insbesondere in der Statistik Anwendung finden, werden im Abschnitt 3.3 des Kapitels 3 behandelt. 2.8.1 Stetige Gleichverteilung Hat eine Zufallsvariable X die Eigenschaft, dass f¨ ur jedes Intervall I ⊂ [a,b] die Wahrscheinlichkeit des Ereignisses {X ∈ I} nur von der L¨ange des Intervalls I, nicht jedoch von der Lage innerhalb des Intervalls [a,b] abh¨angt, dann muss die Dichtefunktion f (x) von X konstant auf [a,b] sein:
1 , x ∈ [a,b], f (x) = b−a 0, x ∈ [a,b]. X heißt dann (stetig) gleichverteilt auf dem Intervall [a,b]. Notation: X ∼ U[a,b]. F¨ ur die Verteilungsfunktion ergibt sich: F (x) =
x , b−a
x ∈ [a,b],
sowie F (x) = 0, wenn x < a, und F (x) = 1, f¨ ur x > b. Es gilt: b−a , 2 (b − a)2 Var(X) = . 12
Erwartungswert: E(X) = Varianz:
2.8.2 Exponentialverteilung Folgt die Anzahl von Ereignissen w¨ahrend einer Zeiteinheit einer PoissonVerteilung mit Parameter λ, dann gilt f¨ ur die Wartezeit X auf das erste Ereignis: Es ist X > t genau dann, wenn die zuf¨ allige Anzahl Yt der Ereignisse w¨ahrend des Intervalls [0,t] den Wert 0 annimmt. Da Yt poissonverteilt mit Parameter λt ist, ergibt sich P (X > t) = P (Yt = 0) = eλt . Somit besitzt X die Verteilungsfunktion F (t) = 1 − eλt ,
t > 0.
F (t) ist differenzierbar, so dass die zugeh¨orige Dichtefunktion durch f (t) = F ′ (t) = λe−λt ,
t > 0,
108
2 Wahrscheinlichkeitsrechnung
gegeben ist. Y heißt exponentialverteilt mit Parameter λ. Notation: Y ∼ Exp(λ). Erwartungswert: E(X) = λ, Varianz:
Var(X) = λ2 .
2.8.3 Normalverteilung Die Normalverteilung ist die zentrale stetige Verteilung in der Wahrscheinlichkeitstheorie und Statistik. Recht h¨aufig kann beispielsweise angenommen werden, dass Messfehler normalverteilt sind. Die Normalverteilung ist gegeben durch die Dichtefunktion (Gauß’sche Glockenkurve), (x − µ)2 1 ϕ(µ,σ2 ) (x) = √ exp , x ∈ R, 2σ 2 2πσ 2 und besitzt zwei Parameter µ ∈ R und σ2 ∈ (0, ∞). Eine Kurvendiskussion zeigt, dass ϕ(µ,σ) (x) das Symmetriezentrum µ besitzt und an den Stellen µ−σ und µ + σ Wendepunkte vorliegen. F¨ ur µ = 0 und σ 2 = 1 spricht man von der Standardnormalverteilung. Notation: ϕ(x) = ϕ(0,1) (x), x ∈ R. F¨ ur die Verteilungsfunktion der N (0,1)-Verteilung, x Φ(x) = ϕ(t) dt, x ∈ R, −∞
gibt es keine explizite Formel. Sie steht in g¨angiger (Statistik-) Software zur Verf¨ ugung. In B¨ uchern findet man Tabellen f¨ ur Φ(z), jedoch nur f¨ ur nichtnegative Werte, da Φ(x) = 1 − Φ(−x) f¨ ur alle x ∈ R gilt. F¨ ur die p-Quantile zp = Φ−1 (p),
p ∈ (0,1),
der N (0, 1)-Verteilung gibt es ebenfalls keine explizite Formel. Zwischen der Verteilungsfunktion Φ(µ,σ) (x) der N (µ,σ 2 )-Verteilung und der N (0,1)-Verteilung besteht der Zusammenhang: x−µ 2 Φ(µ,σ ) (x) = Φ , x ∈ R. σ ). Die p-Quantile der N (µ,σ 2 )Differenzieren liefert ϕ(µ,σ2 ) (x) = σ1 ϕ( x−µ σ Verteilung berechnen sich aus den entsprechenden Quantilen der N (0,1)Verteilung: −1 Φ−1 (p), p ∈ (0,1). (µ,σ 2 ) (p) = µ + σΦ
2.8 Stetige Verteilungsmodelle
109
Eigenschaften von normalverteilten Zufallsvariablen 1) Sind X ∼ N (µ1 , σ12 ) und Y ∼ N (µ2 , σ22 ) unabh¨angig verteilt, dann ist die Summe wieder normalverteilt: X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ). 2) Ist X ∼ N (µ, σ 2 ) und sind a, b ∈ R, dann gilt: aX +b ∼ N (aµ+b, a2 σ 2 ). 3) Ist X normalverteilt mit Parametern µ und σ 2 , d.h. X ∼ N (µ, σ 2 ), dann gilt: X −µ X∗ = ∼ N (0,1). σ 4) Sind X1 , . . . , Xn ∼ N (µ,σ 2 ) unabh¨angig, dann ist das arithmetische Mittel normalverteilt mit Erwartungswert µ und Varianz σ 2 /n: X ∼ N (µ, σ 2 /n) ∗
5) Die standardisierte Version X = ∗
X−µ √ σ/ n
=
√ X−µ n σ ist standardnormal-
verteilt: X ∼ N (0,1). Beispiel 2.8.1. F¨ ur X ∼ N (1,4): P (X ≤ 4.3) = P ((X − 1)/2 ≤ 1.65) = 0.95. Es gibt eine Reihe weiterer stetiger Verteilungen, die sich aus der Normalverteilung ableiten und in der schließenden Statistik eine wichtige Rolle spielen. Wir werden sie im n¨achsten Kapitel besprechen. Betaverteilung∗ Die Betaverteilung ist ein parametrisches Verteilungsmodell f¨ ur Zufallsvariablen, die Werte im Einheitsintervall [0,1] annehmen. Sie besitzt die Dichtefunktion xp−1 (1 − x)q−1 , x ∈ [0,1], f(p,q) (x) = B(p,q) 1 p−1 wobei B(p,q) = 0 x (1 − x)q−1 dx, p,q ∈ [0,1], die Betafunktion ist. Nopq tation: X ∼ Beta(p,q). Es gilt: E(X) = p/(p+q) und Var(X) = (p+q+1)(p+q) 2. Gammaverteilung∗ Eine Zufallsvariable folgt einer Gammaverteilung mit Parametern a > 0 und λ > 0, wenn ihre Dichte durch λa a−1 −λx e , x > 0, f (x) = x Γ (a) gegeben ist. Notation: X ∼ Γ (a,λ). F¨ ur a = 1 erh¨alt man die Exponentialverteilung als Spezialfall. Hierbei ist Γ (x) die Gammafunktion. Es gilt: E(X) = a/λ und Var(X) = λa2 .
110
2 Wahrscheinlichkeitsrechnung
2.9 Erzeugung von Zufallszahlen∗ F¨ ur Computersimulationen werden Zufallszahlen ben¨otigt, die gewissen Verteilungen folgen. Durch Beobachten realer stochastischer Prozesse wie dem Zerfall einer radioaktiven Substanz k¨onnen echte Zufallszahlen gewonnen werden. Pseudo-Zufallszahlen, die nicht wirklich zuf¨allig sind, aber sich wie Zufallszahlen verhalten, erh¨alt man durch geeignete Algorithmen. Der gemischte lineare Kongruenzgenerator erzeugt Zufallszahlen mit maximaler Periodenl¨ange m, die in guter N¨aherung U[0,1]-verteilt sind: Basierend auf einem Startwert y1 ∈ {0, . . . , m − 1} wird die Folge yi = (ayi−1 + b) mod m mit a,b ∈ {1, . . . , m − 1} und a ∈ {1, . . . , m − 1} berechnet. Der Output ist yi /m. Gute Resultate erh¨alt man mit m = 235 , a = 27 + 1 und c = 1. F¨ ur kryptografische Zwecke ist dieser Algorithmus jedoch nicht sicher genug! Quantil-Transformation, Inversionsmethode Ist U ∼ U[0,1], dann besitzt die Zufallsvariable X = F −1 (U ) die Verteilungsfunktion F (x). Beispielsweise ist X = − ln(U )/λ Exp(λ)-verteilt. Bei der Implementierung muss der Fall U = 0 abgefangen werden. Sind Y1 , . . . , Yn unabh¨angig und identisch Exp(1)-verteilt, dann ist die nicht X+1 negative ganze Zahl X mit X i=1 Yi < λ ≤ i=1 Yi poissonverteilt mit Erwartungswert λ. F¨ ur N (0,1)-verteilte Zufallszahlen verwendet man oft das folgende Ergebnis:
Box-Muller-Methode identisch U[0,1]-verteilt, √ Sind U1 , U2 unabh¨angig und√ dann sind Z1 = −2 ln U1 cos(2πU2 ) und Z2 = −2 ln U2 sin(2πU2 ) unabh¨angig und identisch N (0,1)-verteilt.
2.10 Zufallsvektoren und ihre Verteilung Interessiert eine endliche Anzahl von nummerischen Werten, X1 (ω), X2 (ω), . . . , Xk (ω), dann fasst man diese zu einem Vektor zusammen. Zufallsvektor Ist Ω abz¨ahlbar, dann heißt jede Abbildung X : Ω → Rn ,
ω → X(ω) = (X1 (ω), . . . , Xn (ω))
in den n-dimensionalen Raum Rn Zufallsvektor. Zusatz: Ist Ω u ussen alle Xi , i = 1, . . . , n, die Bedin¨berabz¨ahlbar, dann m¨ gung (2.1) erf¨ ullen.
2.10 Zufallsvektoren und ihre Verteilung
111
Die Realisationen eines Zufallsvektors X = (X1 , . . . , Xn ) sind Vektoren x im Rn : x = (x1 , . . . , xn ) ∈ Rn . Verteilung Ist X = (X1 , . . . , Xn ) ein Zufallsvektor mit Werten in X ⊂ Rn , dann wird durch PX (A) = P (X ∈ A) = P ((X1 , . . . , Xn ) ∈ A) eine Wahrscheinlichkeitsverteilung auf X definiert, die jedem Ereignis A, A ⊂ X , die Wahrscheinlichkeit zuordnet, dass sich X in der Menge A realisiert. PX heißt Verteilung von X.
2.10.1 Verteilungsfunktion und Produktverteilung Wie bei eindimensionalen Zufallsvariablen kann man die Verteilungsfunkion einf¨ uhren, die nun eine Funktion von n Ver¨anderlichen wird. Verteilungsfunktion eines Zufallsvektors Ist X = (X1 , . . . , Xn ) ein Zufallsvektor mit Werten in X ⊂ Rn , dann heißt die Funktion F : Rn → [0,1], F (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ),
x1 , . . . , xn ∈ R,
Verteilungsfunktion von X. F ist in jedem Argument monoton wachsend mit folgenden Eigenschaften: Der Limes limxi →∞ F (x1 , . . . , xn ) liefert gerade die Verteilungsfunktion der Zufallsvariablen X1 , . . . , Xi−1 , Xi+1 , . . . , Xn , ist also gegeben durch: P (X1 ≤ x1 , . . . , Xi−1 ≤ xi−1 , Xi+1 ≤ xi+1 , . . . , Xn ≤ xn ). Ferner ist: lim F (x1 , . . . , xn ) = 0,
xi →−∞
lim
x1 ,...,xn →∞
F (x1 , . . . , xn ) = 1.
Eine Wahrscheinlichkeitsverteilung auf X = Rn ist eindeutig spezifiziert, wenn man die (f¨ ur Anwendungen) relevanten Wahrscheinlichkeiten von Intervallen der Form (a, b] = (a1 ,b1 ] × · · · × (an ,bn ], mit a = (a1 , . . . , an ) ∈ Rn und b = (b1 , . . . , bn ) ∈ Rn , vorgibt. Im n-dimensionalen Fall f¨ uhrt dies jedoch zu einer technischen Zusatzbedingung an eine nicht-negative Funktion F : Rn → [0,1] mit den obigen Eigenschaften, die mitunter schwer zu verifizieren ist. Ein einfacher und wichtiger Spezialfall liegt jedoch vor, wenn man F als Produkt von eindimensionalen Verteilungsfunktionen konstruiert.
112
2 Wahrscheinlichkeitsrechnung
Produktverteilung dann definiert
Sind F1 (x), . . . , Fn (x) Verteilungsfunktionen auf R,
F (x1 , . . . , xn ) = F1 (x1 ) · F2 (x2 ) · . . . · Fn (xn ) eine Verteilungsfunktion auf Rn . Die zugeh¨orige Wahrscheinlichkeitsverteilung heißt Produktverteilung. Ist X = (X1 , . . . , Xn ) ein Zufallsvektor mit Verteilungsfunktion F (x), dann gilt: 1) Xi ∼ Fi (x), d.h. P (Xi ≤ x) = Fi (x), x ∈ R, f¨ ur alle i = 1, . . . , n. 2) X1 , . . . , Xn sind stochastisch unabh¨angig.
Weitere M¨oglichkeiten, eine Produktverteilung zu spezifieren, besprechen wir in den n¨achsten beiden Unterabschnitten. 2.10.2 Diskrete Zufallsvektoren Diskreter Zufallsvektor Ein Zufallsvektor, der nur Werte in einer diskreten Menge annimmt, heißt diskreter Zufallsvektor. Die Verteilung eines diskreten Zufallsvektors mit m¨oglichen Realisierungen x1 , x2 , . . . ist durch die Punktwahrscheinlichkeiten p(xi ) = P (X = xi ) eindeutig festgelegt. Z¨ ahldichte Die Funktion pX : Rn → [0,1], pX (x) = P (X = x),
x ∈ Rn ,
heißt (multivariate) Z¨ ahldichte (Wahrscheinlichkeitsfunktion) von X. Ist umgekehrt X = {x1 , x2 , . . . } ⊂ Rn eine diskrete Punktemenge und sind p1 , p2 , . . . Zahlen aus dem Einheitsintervall [0,1], dann erh¨alt man wie ur ein i, und folgt eine Z¨ahldichte p: Definiere p(x) = pi , wenn x = xi f¨ p(x) = 0, wenn x ∈ X . Die Wahrscheinlichkeit eines Ereignisses A berechnet sich dann durch: P (X ∈ A) = pX (xi ). i:xi ∈A
F¨ ur die Verteilungsfunktion erh¨alt man: pX (xi ), x = (x1 , . . . , xn ) ∈ Rn . FX (x) = i:xi ≤x
2.10 Zufallsvektoren und ihre Verteilung
113
Hierbei ist die Summe u ur die ¨ber alle Werte xi = (xi1 , . . . , xin ) zu nehmen, f¨ gilt: xi ≤ x ⇔ xi1 ≤ x1 , . . . , xin ≤ xn . Sind n Wahrscheinlichkeitsfunktionen vorgegeben, so kann man stets eine ndimensionale Wahrscheinlichkeitsfunktion definieren, die zum Modell der Unabh¨angigkeit korrespondiert: Produkt-Z¨ ahldichte Sind p1 (x), . . . , pn (x) Z¨ahldichten auf den Mengen X1 , . . . , Xn , dann definiert p(x1 , . . . , xn ) = p1 (x1 ) · . . . · pn (xn ) ahldichte. Ist eine Z¨ahldichte auf X1 × · · · × Xn , genannt Produkt-Z¨ (X1 , . . . , Xn ) nach der Produkt-Z¨ahldichte verteilt, so sind die Koordinaten unabh¨angig mit Xi ∼ pi (x), i = 1, . . . , n.
2.10.3 Stetige Zufallsvektoren
Stetiger Zufallsvektor, Dichtefunktion Ein Zufallsvektor X = (X1 , . . . , Xn ) heißt stetig (verteilt), wenn es eine nichtnegative Funktion fX (x1 , . . . , xn ) gibt, so dass f¨ ur alle Intervalle (a, b] ⊂ Rn , n a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ R , gilt: P (X ∈ (a, b]) = P (a1 < X1 ≤ b1 , . . . , an < Xn ≤ bn ) b1 bn = ··· fX (x1 , . . . , xn ) dx1 . . . dxn . a1
an
Notation: X ∼ fX . Eine nicht-negative Funktion f (x1 , . . . , xn ) mit ∞ ∞ ··· f (x1 , . . . , xn ) dx1 . . . dxn = 1 −∞
−∞
heißt (multivariate) Dichtefunktion und definiert eindeutig eine Wahrscheinlichkeitsverteilung auf Rn . Gilt X ∼ f (x1 , . . . , xn ), so erh¨alt man die zugeh¨orige Verteilungsfunktion durch: x1 xn ··· f (t1 , . . . , tn ) dt1 . . . dtn . F (x1 , . . . , xn ) = −∞
−∞
114
2 Wahrscheinlichkeitsrechnung
Randdichte Gilt (X1 , . . . , Xn ) ∼ f (x1 , . . . , xn ), dann berechnet sich die Dichte von Xi , genannt i-te Randdichte, durch: ∞ ∞ fXi (xi ) = ··· f (x1 , . . . , xn ) dx1 . . . dxi−1 dxi+1 . . . dxn , −∞
−∞
also durch Integration der Dichte u ¨ber alle anderen Variablen. Die Randdichte eines Teilvektors erh¨alt man analog, indem die gemeinsame Dichte bzgl. der anderen Koordinaten integriert wird. Ein wichtiger Spezialfall f¨ ur eine multivariate Dichte ist die Produktdichte, die zum Modell unabh¨angiger Koordinaten korrespondiert. Produktdichte Sind f1 (x), . . . , fn (x) Dichtefunktionen auf R, dann definiert f (x1 , . . . , xn ) = f1 (x1 ) · . . . · fn (xn ) eine Dichte auf Rn , genannt Produktdichte. Ist (X1 , . . . , Xn ) verteilt nach der Produktdichte f1 (x1 )·. . .·fn (xn ), dann sind die Koordinaten unabh¨angig mit Xi ∼ fi (xi ), i = 1, . . . , n. Beispiel 2.10.1. Sei f (x,y) = Dann gilt f (x,y) ≥ 0. Wegen
∞ −∞
∞
−∞
e−x−y , 0,
∞ 0
x ≥ 0, y ≥ 0, sonst.
∞ e−x dx = −e−x 0 = 1 ist
f (x,y) dx dy =
∞
e−y dy = 1.
0
y Also ist f (x,y) eine Dichtefunktion (auf R2 ). Wegen 0 e−t dt = 1 − e−y ist die zugeh¨orige Verteilungsfunktion gegeben durch: x y x F (x,y) = f (x,y) dx dy = (1 − e−y ) e−x dx = (1 − e−x )(1 − e−y ), −∞
−∞
0
f¨ ur x,y ≥ 0. Ist (X,Y ) ∼ f (x,y), so berechnet sich die Randdichte von X zu: ∞ ∞ fX (x) = e−x−y dy = e−x e−y dy = e−x , 0
0
ur f¨ ur x > 0. Analog ergibt sich fY (y) = e−y , y > 0. Da f (x,y) = fX (x)fY (y) f¨ alle x,y ∈ R gilt, ist f (x,y) eine Produktdichte und X und Y sind unabh¨angig.
2.10 Zufallsvektoren und ihre Verteilung
115
2.10.4 Bedingte Verteilung und Unabh¨ angigkeit Sind X und Y diskrete Zufallsvektoren mit m¨oglichen Realisationen x1 , x2 , . . . bzw. y1 , y2 , . . . , dann sind {X = xi } und {Y = yj } Ereignisse mit positiver Wahrscheinlichkeit. Aus diesem Grund kann man die bedingte Wahrscheinlichkeit von X = xi gegeben Y = yj gem¨aß der elementaren Formel P (A|B) = P (A ∩ B)/P (B) berechnen: P (X = xi |Y = yj ) =
P (X = xi , Y = yj ) . P (Y = yj )
Entsprechend definiert man die bedingte Wahrscheinlichkeit von Y = yj gegeben X = xi : Bedingte Z¨ ahldichte f¨ ur diskrete Zufallsvektoren Ist (X,Y ) diskret verteilt mit Z¨ahldichte p(x,y), dann wird die bedingte Verteilung von X gegeben Y = y definiert durch die bedingte Z¨ ahldichte (Wahrscheinlichkeitsfunktion)
p(x,y) , y ∈ {y1 , y2 , . . . }, pY (y) pX|Y (x|y) = P (X = x|Y = y) = pX (x), y ∈ {y1 , y2 , . . . , }, aufgefasst als Funktion von x. Hierbei ist pX (x) = P (X = x) und pY (y) = P (Y = y). F¨ ur jedes feste y ist p(x|y) also eine Z¨ahldichte auf X = {x1 , x2 , . . . , }. Notation: X|Y = y ∼ pX|Y =y (x|y). Zur Abk¨ urzung verwendet man oft die Notation: p(x|y) = pX|Y (x|y). F¨ ur stetig verteilte Zufallsvariablen (X,Y ) ∼ f (x,y) besitzen die Ereignisse {X = x} und {Y = y} die Wahrscheinlichkeit 0, so dass obiger Ansatz versagt. Man betrachtet nun die Ereignisse A = {X ≤ x} und B = {y < Y ≤ y + ε}, ε > 0, die f¨ ur kleines ε > 0 positive Wahrscheinlichkeit haben, wenn fX (x) > 0 und fY (y) > 0 gilt. Anwenden der Formel P (A|B) = P (A ∩ B)/P (B) liefert die bedingte Verteilungsfunktion von X an der Stelle x gegeben Y ∈ (y,y + ε]. F¨ uhrt man den Grenz¨ ubergang ε → 0 durch und differenziert dann nach x, so erh¨alt man die bedingte Dichtefunktion von X gegeben Y = y: Bedingte Dichtefunktion Sind X und Y stetig verteilt mit der gemeinsamen Dichtefunktion f (x,y), dann heißt
f (x,y) fY (y) , fY (y) > 0, fX|Y (x|y) = fX (x), fY (y) = 0, aufgefasst als Funktion von x, bedingte Dichtefunktion von X gegeben Y = y. Wir verwenden die Notation: X|Y = y ∼ fX|Y (x|y).
116
2 Wahrscheinlichkeitsrechnung
Wiederum verwendet man oft die k¨ urzere Schreibweise f (x|y) = fX|Y (x|y). Die Verteilungsfunktion der bedingten Dichte von X|Y = y ist gerade x f (t|y) dt, x ∈ R. F (x|y) = FX|Y (x|y) = −∞
Faktorisierung Gilt X|Y = y ∼ f (x|y), dann ist die gemeinsame Dichtefunktion gegeben durch: f (x,y) = f (x|y)f (y) = f (y|x)f (x). In Anwendungen konstruiert man oft die gemeinsame Dichte durch den Faktorisierungssatz: Beispiel 2.10.2. Ein Spielautomat w¨ahlt zuf¨allig die Wartezeit Y auf das ur gegebenes n¨ achste Gewinnereignis gem¨aß der Dichte f (y) = e−y , y > 0. F¨ Y = y wird dann die Gewinnsumme gem¨aß einer Gleichverteilung auf [0,y] gew¨ahlt: X ∼ f (x|y) = y1 , x ∈ [0,y]. Dann ist das Paar (X,Y ) stetig verteilt mit gemeinsamer Dichte f (x,y) = f (x|y)f (y) =
e−x , y
x ∈ [0,y], y > 0,
f (x,y) = 0 sonst.
¨ Zur Uberpr¨ ufung der stochastische Unabh¨angigkeit von Zufallsvariablen sind die folgenden Kriterien n¨ utlich: Kriterium Sind X und Y diskret verteilt mit der gemeinsamen Z¨ahldichte p(X,Y ) (x,y), dann gilt: X und Y sind genau dann stochastisch unabh¨angig, wenn f¨ ur alle x und y gilt: pX|Y (x|y) = pX (x)
bzw.
pY |X (y|x) = pY (y).
Sind X und Y nach der gemeinsamen Dichte f (x,y) verteilt, dann sind X und Y genau dann stochastisch unabh¨angig, wenn f¨ ur alle x und y gilt: fX|Y (x) = fX (x)
bzw.
fY |X (y) = fY (y).
Zwei Zufallsvariablen sind genau dann unabh¨ angig, wenn die (Z¨ahl-) Dichte Produktgestalt hat. F¨ ur die Verteilungsfunktion lautet das Kriterium entsprechend: Produktkriterium Der Zufallsvektor (X,Y ) ist genau dann stochastisch unabh¨angig, wenn die gemeinsame Verteilungsfunktion F(X,Y ) (x,y) das Produkt der Verteilungsfunktionen FX (x) von X und FY (y) von Y ist, also wenn f¨ ur alle x,y ∈ R gilt: F(X,Y ) (x,y) = FX (x) · FY (y).
2.10 Zufallsvektoren und ihre Verteilung
117
In theoretischen Texten findet man oft folgende Definition: Zufallsvariablen X1 , . . . , Xn mit Verteilungsfunktionen F1 , . . . , Fn heißen (total) stochastisch unabh¨angig, wenn f¨ ur die gemeinsame Verteilungsfunktion F (x1 , . . . , xn ) gilt: F (x1 , . . . , xn ) = F1 (x1 ) · . . . · Fn (xn ) f¨ ur alle x1 , . . . , xn ∈ R. Diese Definition setzt nicht voraus, dass alle Xi entweder diskret oder stetig verteilt sind. Die obigen Eigenschaften und Formeln folgen dann hieraus. 2.10.5 Bedingte Erwartung Der Erwartungswert E(X) kann berechnet werden, sobald die Dichte bzw. Z¨ ahldichte von X bekannt ist. Ersetzt man die Dichte bzw. Z¨ahldichte durch eine bedingte Dichte bzw. Z¨ahldichte, dann erh¨ alt man den Begriff des bedingten Erwartungswertes. Die wichtigsten Rechenregeln u ¨bertragen sich dann. Bedingter Erwartungswert Ist der Zufallsvektor (X,Y ) nach der Z¨ahldichte p(x,y) verteilt, dann ist der bedingte Erwartungswert von X gegeben Y = y gegeben durch E(X|Y = y) = xpX|Y (x|y) dx. x∈X
Im stetigen Fall (X,Y ) ∼ f(X,Y ) (x,y) ist: E(X|Y = y) = xfX|Y (x|y) dx. Beachte, dass g(y) = E(X|Y = y) eine Funktion von y ist. Einsetzen der Zufallsvariable Y liefert bedingte Erwartung von X gegeben Y . Notation: E(X|Y ) := g(Y ).
Es gilt: E(X) = E(E(X|Y )) = E(X|Y = y)fY (y) dy. In der Tat erhalten im stetigen Fall wegen f (x,y) = f (x|y)f (y): E(X) = xf(X,Y ) (x,y) dx Y X|Y " (X,Y ) ! = xf (x|y) dx fY (y) dy. Das innere Integral ist E(X|Y = y). 2.10.6 Erwartungswertvektor und Kovarianzmatrix Erwartungswertvektor Sei X = (X1 , . . . , Xn )′ ein Zufallsvektor. Existieren die n Erwartungswerte µi = E(Xi ), i = 1, . . . , n, dann heißt der (Spalten-) Vektor µ = (E(X1 ), . . . , E(Xn ))′ Erwartungswertvektor von X. Die f¨ ur den Erwartungswert bekannten Rechenregeln u ¨bertragen sich auf Erwartungswertvektoren. Insbesondere gilt f¨ ur zwei Zufallsvektoren X und Y sowie Skalare a,b ∈ R:
118
2 Wahrscheinlichkeitsrechnung
E(a · X + b · Y) = a · E(X) + b · E(Y). X und Y seien zwei Zufallsvariablen mit existierenden Varianzen. sei µX = E(X) und µY = E(Y ). Es gilt: Var(X + Y ) = E((X − µX ) + (Y − µY ))2 . Ausquadrieren und Ausnutzen der Linearit¨at des Erwartungswertes liefert: Var(X + Y ) = Var(X) + 2E(X − µX )(Y − µY ) + Var(Y ). Sind X und Y stochastisch unabh¨angig, dann gilt f¨ ur den mittleren Term E(X − µX )(Y − µY ) = E(X − µX )E(Y − µY ) = 0. Kovarianz, Kovarianzmatrix Sind X und Y Zufallsvariablen mit existierenden Varianzen, dann heißt Cov(X, Y ) = E(X − µX )(Y − µY ) Kovarianz von X und Y . Ist X = (X1 , . . . , Xn ) ein Zufallsvektor, dann heißt die symmetrische (n × n)-Matrix Var(X) = (Cov(Xi ,Xj ))i,j der n2 Kovarianzen Kovarianzmatrix von X. Rechenregeln Sind X, Y und Z Zufallsvariablen mit endlichen Varianzen, dann gelten f¨ ur alle a, b ∈ R die folgenden Rechenregeln: 1) 2) 3) 4)
Cov(aX, bY ) = ab Cov(X,Y ). Cov(X,Y ) = Cov(Y,X). Cov(X,Y ) = 0, wenn X und Y unabh¨angig sind. Cov(X + Y,Z) = Cov(X,Z) + Cov(Y,Z)
Unkorreliertheit Zwei Zufallsvariablen X und Y heißen unkorreliert, wenn Cov(X,Y ) = 0. Nach obiger Regel (iii) sind unabh¨angige Zufallsvariablen unkorreliert. Die Umkehrung gilt i.A. nicht, jedoch dann, wenn X und Y (gemeinsam) normalverteilt sind (vgl. Abschnitt 2.12.2) Die Kovarianz ist ein Maß f¨ ur die Abh¨angigkeit von X und Y . Es stellt sich die Frage, welchen Wert die Kovarianz maximal annehmen kann. Cauchy-Schwarz-Ungleichung Sind X und Y Zufallsvariablen mit Varian2 ∈ (0,∞) und σY2 ∈ (0,∞), dann gilt: zen σX | Cov(X,Y )| ≤ Var(X) Var(Y ) = σX σY .
2.11 Grenzwerts¨ atze und Konvergenzbegriffe
119
Dividieren wir durch den Maximalwert, so erhalten wir eine Gr¨oße, die Werte zwischen −1 und 1 annimmt. Korrelation Sind X und Y Zufallsvariablen mit existierenden Varianzen 2 σX ∈ (0,∞) und σY2 ∈ (0,∞), dann heißt ρ = ρ(X,Y ) = Cor(X,Y ) =
Cov(X,Y ) σX σY
Korrelation oder Korrelationskoeffizient von X und Y . Eigenschaften der Korrelation Sind X und Y Zufallsvariablen, dann gelten die folgenden Aussagen: 1) Cor(X,Y ) = Cor(Y,X). 2) −1 ≤ Cor(X,Y ) ≤ 1. 3) | Cor(X,Y )| = 1 gilt genau dann, wenn X und Y linear abh¨angig sind. Speziell: a) Cov(X,Y ) = 1 genau dann, wenn Y = a + bX mit b > 0, a ∈ R. b) Cov(X,Y ) = −1 genau dann, wenn Y = a + bX mit b < 0, a ∈ R. Cor(X,Y ) ist das wahrscheinlichkeitstheoretische Analogon zum empirischen Korrelationskoeffizienten nach Bravais-Pearson.
2.11 Grenzwerts¨ atze und Konvergenzbegriffe Wir kommen nun zu den drei zentralen Ergebnissen der Wahrscheinlichkeitsrechnung, die insbesondere begr¨ unden, warum und in welchem Sinne die statistische Analyse von Datenmaterial funktioniert. 2.11.1 Das Gesetz der großen Zahlen Das Gesetz der großen Zahlen ist das erste fundamentale Theorem der Wahrscheinlichkeitsrechnung. Es rechtfertigt die Mittelung in Form des arithmetischen Mittelwerts zur Approximation des Erwartungswerts. X1 , . . . , Xn seinen unabh¨angig und identisch verteilte Zufallsvariablen mit Erwartungswert µ = E(X1 ) und Varianz σ 2 = Var(X1 ). Das arithmetische Mittel ist definiert als: n 1 Xn = Xi . n i=1
120
2 Wahrscheinlichkeitsrechnung
Da uns im Folgenden das Verhalten in Abh¨angigkeit vom Stichprobenumfang n interessiert, schreiben wir X n anstatt nur X. Es stellt sich die Frage, wie groß der Fehler ist, den man begeht, wenn man statt des (unbekannten) Erwartungswertes µ das arithmetische Mittel X n verwendet. Der absolute Fehler Fn ist: Fn = |X n − µ|. Dieser absolute Fehler ist als Funktion von X n ebenfalls eine Zufallsvariable. Wir geben nun eine Toleranz ε > 0 vor, mit der Interpretation, dass Abweichungen, die gr¨oßer als Fn sind, nur sehr selten vorkommen sollen. Das Ereignis {Fn > ε} soll also nur eine kleine Wahrscheinlichkeit besitzen. Die Fehlerwahrscheinlichkeit, P (Fn > ε) = P (|X n − µ| > ε), kann in der Regel nicht exakt berechnet werden. Sie kann jedoch abgesch¨atzt werden. Tschebyschow (Tschebyschev, Chebychev)-Ungleichung Sind X1 , . . . , Xn unabh¨angig und identisch verteilte Zufallsvariablen mit Varianz σ 2 ∈ (0,∞) und ur das arithmetische Mittel X n = nErwartungswert µ, dann gilt f¨ 1 X die Ungleichung: i i=1 n P (|X n − µ| > ε) ≤
σ2 nε2
2
σ Diese Ungleichung liefert also: P (Fn > ε) ≤ nε 2 . Durch Wahl eines hinreichend großen Stichprobenumfangs n kann gew¨ahrleistet werden, dass die Fehlerwahrscheinlichkeit beliebig klein wird. Dies gelingt immer, unabh¨angig davon, wie klein ε gew¨ahlt wurde. In großen Stichproben n¨ahert sich das arithmetische Mittel beliebig genau dem – in der Regel unbekannten – Erwartungswert µ an.
Schwaches Gesetz der großen Zahlen Sind X1 , . . . , Xn unabh¨angig und identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ2 , n 1 2 σ ∈ (0,∞), dann konvergiert das arithmetische Mittel X n = n i=1 Xi im stochastischen Sinne gegen den Erwartungswert µ, d.h. f¨ ur jede Toleranzabweichung ε > 0 gilt: P (|X n − µ| > ε) → 0, wenn n gegen ∞ strebt.
2.11 Grenzwerts¨ atze und Konvergenzbegriffe
121
F¨ ur einen festen Ausgang ω ∈ Ω der zu Grunde liegenden Ergebnismenge bilden die Realisationen x1 = X 1 (ω), x2 = X 2 (ω), . . . eine reelle Zahlenfolge. In Abh¨angigkeit von ω konvergiert diese Zahlenfolge gegen den Erwartungswert µ oder nicht. Das starke Gesetz der großen Zahlen besagt, dass die Menge aller ω, f¨ ur welche Konvergenz gegen µ eintritt, ein sicheres Ereignis ist. Starkes Gesetz der großen Zahlen Sind X1 , . . . , Xn unabh¨angig und identisch verteilt mit E|X1 | < ∞ und Erwartungswert µ, dann konvergiert das arithmetische Mittel mit Wahrscheinlichkeit 1 gegen µ, d.h. P (X n → µ) = P ({ω|X n (ω) konvergiert gegen µ}) = 1.
2.11.2 Der Hauptsatz der Statistik Die Verteilung einer Stichprobe X1 , . . . , Xn ∼ F (x) mit gemeinsamer Verteilungsfunktion F (x) ist durch die empirische Verteilungsfunktion n
Fn (x) =
1 1(−∞,x] (Xi ), n i=1
x ∈ R,
also den Anteil der Xi in der Stichprobe, die kleiner oder gleich x sind, eindeutig beschrieben: Die Sprungstellen liefern die beobachteten Werte xj , die Sprungh¨ohen die zugeh¨origen relativen H¨aufigkeiten fj . Die Statistik verwendet Fn (x) und hiervon abgeleitete Gr¨oßen (empirische Quantile, arithmetisches Mittel, etc.) anstatt der unbekannten Verteilungsfunktion F (x). Hauptsatz der Statistik Sind X1 , . . . , Xn ∼ F (x) unabh¨angig und identisch verteilt, dann konvergiert der (maximale) Abstand zwischen der empirischen Verteilungsfunktion Fn (x) und der wahren Verteilungsfunktion F (x) mit Wahrscheinlichkeit 1 gegen 0: P lim max |Fn (x) − F (x)| = 0 = 1. n→∞ x∈R
Herleitung: Da die Zufallsvariablen Z1 = 1(−∞,x] (X1 ), . . . , Zn = 1(−∞,x] (Xn ) unabh¨ angig und identisch verteilt sind mit E(Z1 ) = P (X1 ≤ x) = F (x), liefert das Gesetz der großen Zahlen die (stochastische bzw. fast sichere) Konvergenz von Fn (x) gegen F (x). F¨ ur monotone Funktionen folgt dann bereits, dass die Konvergenz gleichm¨ aßig in x erfolgt.
122
2 Wahrscheinlichkeitsrechnung
2.11.3 Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz (ZGWS) der Stochastik liefert eine Approximation f¨ ur die Verteilung von Mittelwerten. Hierdurch werden approximative Wahrscheinlichkeitsberechnungen auch dann m¨oglich, wenn nur minimale Kenntnisse u ¨ber das stochastiche Ph¨anomen vorliegen. Der ZGWS ist daher von fundamentaler Bedeutung f¨ ur Anwendungen. Beispiel 2.11.1. F¨ ur die n = 36 Leistungsmessungen der Fotovoltaik-Module aus Beispiel 1.1.1, erh¨alt man x = 217.3 und s2 = 11.69. Wie wahrscheinlich ist es, dass das arithmetische Mittel der Messungen 218.5 bzw. 219 unterschreitet, wenn die Herstellerangaben µ = 220 und σ 2 = 9 sind? Wir k¨onnen die gesuchte 30Wahrscheinlichkeit nicht berechnen, da wir die Verteilung von 1 X 30 = 30 i=1 Xi nicht kennen.
Sind X1 , . . . , Xn unabh¨angig und identisch normalverteilt mit Erwartungswert µ und Varianz σ 2 ∈ (0,∞), dann ist auch das arithmetische Mittel X n normalverteilt: X n ∼ N (µ, σ 2 /n). Die standardisierte Gr¨oße ist also standardnormalverteilt: ∗
Xn =
Xn − µ √ Xn − µ √ = n ∼ N (0,1). σ σ/ n
Somit berechnen sich die f¨ ur Anwendungen wichtigen Intervallwahrscheinlichkeiten durch: √ b−µ √ b−µ − Φ . P (a < X n ≤ b) = Φ n n σ σ In Anwendungen kann man jedoch h¨aufig nicht annehmen, dass die Xi normalverteilt sind - oft genug sind sie es nicht einmal n¨aherungsweise. Der zen∗ trale Grenzwertsatz besagt nun, dass die standardisierte Version X n jedoch f¨ ur großes n n¨ aherungsweise N (0,1)-verteilt ist, unabh¨ angig davon, wie die Xi verteilt sind. Die obige einfache Formel gilt dann nicht exakt, sondern approximativ: √ b−µ √ b−µ −Φ , P (a < X n ≤ b) ≈ Φ n n σ σ und es reicht v¨ollig, wenn dieses ≈ in dem Sinne zu verstehen ist, dass die Differenz zwischen linker und rechter Seite betragsm¨aßig gegen 0 konvergiert.
2.11 Grenzwerts¨ atze und Konvergenzbegriffe
123
ZGWS Seien X1 , . . . , Xn unabh¨angig und identisch verteilte Zufallsvariablen mit Erwartungswert µ = E(X1 ) und Varianz σ 2 = Var(X1 ) ∈ (0,∞). Dann ist X n asymptotisch N (µ, σ 2 /n)-verteilt, X n ∼approx N (µ, σ 2 /n), in dem Sinne, dass die Verteilungsfunktion der standardisierten Version gegen die Verteilungsfunktion der N (0,1)-Verteilung konvergiert: √ Xn − µ P ≤ x → Φ(x), n → ∞. n σ Diese Aussage bleibt richtig, wenn man σ durch eine Zufallsvariable sn ersetzt, f¨ ur gilt: limn→∞ P (|sn /σ − 1| > ε) = 0 f¨ ur alle ε > 0. Wie gut diese Approximation ist und wie groß n sein muss, h¨angt von der zugrunde liegenden Verteilungsfunktion F (x) der X1 , . . . , Xn ab. Eine Faustregel besagt, dass der ZWGS f¨ ur n ≥ 30 f¨ ur die meisten praktischen Belange genau genug ist. Beispiel 2.11.2. Wir wenden den zentralen Grenzwertsatz an, um die gesuchte Wahrscheinlichkeit aus Beispiel 2.11.1 n¨aherungsweise zu berechnen. Da X1 , . . . , Xn unabh¨angig und identisch verteilt sind mit Erwartungswert µ = 220 und Varianz σ 2 = 9, gilt nach dem ZGWS X 30 ∼approx N (220, 9/30). √ Also ist wegen 30 ≈ 5.478 f¨ ur x = 219: √ X 30 − 220 √ 219 − 220 < 30 30 P (X < 219) = P 3 3 −1 ≈ Φ 5.48 = Φ(−1.83) = 0.034. 3 √ F¨ ur x = 218.5 ist 30 218.5−220 ≈ −2.74. Damit erhalten wir die N¨aherung 3 P (X < 218.5) ≈ Φ(−2.74) ≈ 0.003. F¨ ur praktische Berechnungen kann man also so tun, als ob X n N (µ, σ 2 /n)∗ verteilt bzw. X n N (0,1)-verteilt ist. F¨ ur binomialverteilte Zufallsvariablen lautet der ZGWS wie folgt: i.i.d.
ZGWS f¨ ur Binomialverteilungen Seien X1 , . . . , Xn ∼ Ber(p) mit p ∈ n (0,1). Dann ist die Anzahl Yn = i=1 Xi der Erfolge Bin(n, p)-verteilt mit ur alle x ∈ R: E(Yn ) = np und Var(Yn ) = np(1 − p). Es gilt f¨ Yn − np P ≤ x → Φ(x), f¨ ur n → ∞. np(1 − p)
124
2 Wahrscheinlichkeitsrechnung
Also: P (Yn ≤ x) ≈ P (Zn ≤ x) mit Zn ∼ N (np, np(1 − p)). Ein grafischer Vergleich der Bin(n,p)-Z¨ahldichte mit der approximierenden N (np, np(1−p))Dichte zeigt, dass P (Zn ≤ x + 0.5) die Approximation verbessert. Genauso wird P (Yn ≥ x) genauer durch P (Zn ≥ x−1/2) angen¨ahert als durch P (Zn ≥ x). Beispiel 2.11.3. F¨ ur Y ∼ Bin(25, 0.6) ist P (Y ≤ 13) ≈ P (Z ≤ 13) = Φ(−0.82) = 0.206, wenn Z ∼ N (15, 6). Eine exakte Rechnung ergibt P (X ≤ 13) = 0.267. Mit der Stetigkeitskorrektur erhalten wir die Approximation P (X ≤ 13.5) ≈ P (Z ≤ 13.5) = Φ(−0.61) = 0.271. 2.11.4 Konvergenzbegriffe∗ Im Sinne des schwachen Gesetzes der großen Zahlen konvergiert X n gegen den Erwartungswert µ. Man spricht von stochastischer Konvergenz: Stochastische Konvergenz Sei X1 ,X2 , . . . eine Folge von Zufallsvariablen und a ∈ R eine Konstante. (Xn )n∈N konvergiert stochastisch gegen a, wenn f¨ ur alle ε > 0 gilt: lim P (|Xn − a| > ε) = 0.
n→∞ P
Notation: Xn → a, f¨ ur n → ∞. Ersetzt man a durch eine Zufallsvariable X, so spricht man von stochastischer Konvergenz der Folge Xn gegen X. Dem starken Gesetz der großen Zahlen liegt der folgende Konvergenzbegriff zu Grunde: Fast sichere Konvergenz Sei X1 ,X2 , . . . eine Folge von Zufallsvariablen und a ∈ R eine Konstante. (Xn )n∈N konvergiert fast sicher gegen a, wenn P (Xn → a) = P ( lim xn = a) = 1. n→∞
f.s.
Notation: Xn → a, n → ∞. Wieder kann man a durch eine Zufallsvariable X ersetzen. Der zentrale Grenzwertsatz macht eine Aussage u ¨ber die Konvergenz der Ver∗ teilungsfunktion von X n gegen die Verteilungsfunktion der N (0,1)-Verteilung. Man spricht von Verteilungskonvergenz:
2.12 Verteilungsmodelle f¨ ur Zufallsvektoren
125
Konvergenz in Verteilung Sei X1 , X2 , . . . eine Folge von Zufallsvariablen mit Xi ∼ Fi (x), i = 1, 2, . . . Xn konvergiert in Verteilung gegen X ∼ F (x), wenn n → ∞, Fn (x) → F (x), d
d
in allen Stetigkeitsstellen x von F (x) gilt. Notation: Xn → X, Xn → F d oder auch Fn → F . Es gelten die Implikationen: f.s.
Xn → X
⇒
P
Xn → X
⇒
d
Xn → X P
ur n → ∞ folgt Xn → X f¨ ur n → ∞. Die Ferner gilt: Aus E(Xn − X)2 → 0 f¨ Umkehrungen gelten nicht.
2.12 Verteilungsmodelle fu ¨ r Zufallsvektoren 2.12.1 Multinomialverteilung Die Multinomialverteilung ist ein geeignetes stochastisches Modell f¨ ur H¨ aufigkeitstabellen (allgemeiner Kontingenztafeln). Wir nehmen an, dass die H¨aufigkeitstabelle f¨ ur k Kategorien a1 , . . . , ak durch Ausz¨ahlen einer Zufallsstichprobe X1 , . . . , Xn vom Umfang n entsteht. Die Xi sind somit diskret verteilt mit m¨oglichen Realisationen a1 , . . . , ak ; Xi beschreibt (gedanklich) die Merkmalsauspr¨agung der i-ten zuf¨allig aus der Grundgesamtheit ausgew¨ahlten statistischen Einheit. Die in der deskriptiven Statistik eingef¨ uhrten absoluten H¨aufigkeiten Hj =
n
1(Xi = aj ),
j = 1, . . . , k,
i=1
sind nun Zufallsvariablen, die binomialverteilt sind mit Parametern n und pj = P (X1 = aj ). Fasst man die absoluten H¨aufigkeiten H1 , . . . , Hk zu einem Zufallsvektor H = (H1 , . . . , Hk ) zusammen, dann gilt: n px1 . . . pxkk , pH (x1 , . . . , xk ) = P ((H1 , . . . , Hk ) = (x1 , . . . , xk )) = x 1 · · · xk 1 sofern die x1 , . . . , xk nichtnegativ sind mit x1 + · · · + xk = n. Andernfalls ist P ((H1 , . . . , Hk ) = (x1 , . . . , xk )) = 0. Die hierduch definierte Wahrscheinlichkeitsverteilung auf der Menge X = {0, . . . , n} × · · · × {0, . . . , n} heißt Multinomialverteilung mit Parametern n und p = (p1 , . . . , pk ). Notation:
126
2 Wahrscheinlichkeitsrechnung
(H1 , . . . , Hk ) ∼ M (n; p1 , . . . , pk ). Herleitung: Wir wollen die Formel f¨ ur die Z¨ ahldichte begr¨ unden. Zun¨ achst ist pH (x1 , . . . , xk ) = 0, wenn nicht alle xi nichtnegativ sind und in der Summe n ergeben, da solch ein Ausz¨ ahlergebnis nicht m¨ oglich ist. Die Wahrscheinlichkeit, dass genau xj der Zufallsvariablen die Auspr¨ agung aj annehmen, j = 1, . . . , k, ist x
px1 1 · px2 2 . . . pkk ,
angig sind. Wir m¨ ussen ausz¨ ahlen, wieviele Stichproben es gibt, die da die Xi unabh¨ zu diesem Ergebnis f¨ uhren. Zun¨ achst gibt es xn1 M¨ oglichkeiten, x1 –mal die Aus1 M¨ oglichpr¨ agung a1 zu beobachten. Es verbleiben n − x1 Experimente mit n−x x2 keiten, x2 –mal die Auspr¨ agung a2 zu beobachten. Dies setzt sich so fort. Schließlich k−1 M¨ oglichverbleiben n − x1 − x2 − · · · − xk−1 Beobachtungen mit n−x1 −x2x−···−x k keiten, bei xk Experimenten die Auspr¨ agung ak zu beobachten. Insgesamt gibt es daher n n − x1 n − x1 − x2 − · · · − xk−1 · ... x1 x2 xk
Stichproben, die zur Ausz¨ ahlung (x1 , . . . , xk ) f¨ uhren. Dieses Produkt von Binomialkoeffizienten vereinfacht sich zu dem Ausdruck: n! . x1 ! · x2 ! · · · · · nk !
Multinomialkoeffizient Der Ausdruck
n x1 · · · xk
=
n! . x1 ! · x 2 ! · · · · · n k !
heißt Multinomialkoeffizient und gibt die Anzahl der M¨oglichkeiten an, eine n-elementige Obermenge in k Teilmengen der M¨achtigkeiten x1 , . . . , xk zu zerlegen. Erwartungswert und Varianz der einzelnen Anzahlen HJ ergeben sich aus deren Binomialverteilung. Sie sind somit gegeben durch E(Hj ) = n · pj
und
Var(Hj ) = n · pj · (1 − pj ).
2.12.2 Multivariate Normalverteilung Die Dichte der N (µ, σ 2 )-Verteilung ist gegeben durch (x − µ)2 1 ϕ(µ,σ2 ) (x) = √ exp , 2σ 2 2πσ 2
x ∈ R.
2.12 Verteilungsmodelle f¨ ur Zufallsvektoren
127
Wir notieren im Folgenden Zufallsvektoren als Spaltenvektoren Multivariate Standardnormalverteilung Sind X1 , . . . , Xn unabh¨angig und identisch N (0,1)-verteilte Zufallsvariablen, dann ist die gemeinsame Dichtefunktion des Zufallsvektors X = (X1 , . . . , Xn )′ gegeben durch n n 1 1 2 ϕ(x1 , . . . , xn ) = √ exp − xi , x1 , . . . , xn ∈ R. 2 2π i=1
X heißt multivariat oder n-dimensional standardnormalverteilt. Notation: X ∼ Nn (0, I). Die Notation X ∼ Nn (0, I) erkl¨art sich so: Ist X = (X1 , . . . , Xn )′ multivariat standardnormalverteilt, dann sind die Xi stochastisch unabh¨angig mit Erwartungswerten E(Xi ) = 0, Varianzen Var(Xi ) = 1 und Kovarianzen Cov(Xi ,Xj ) = 0, wenn i = j. Somit sind Erwartungswertvektor und Kovarianzmatrix von X gegeben durch 1 0 ··· 0 .. 0 . 0 ′ n . Σ = . µ = E(X) = 0 = (0, . . . , 0) ∈ R , . . .. .. . . 0 ··· 0 1 Ist X ∼ Nn (0, I) und µ ∈ Rn ein Vektor, dann gilt: Y = X + µ ∼ Nn (µ, I). Notation: Y ∼ Nn (µ, I). Ist a = (a1 , . . . , an )′ ∈ Rn ein Spaltenvektor und gilt X = (X1 , . . . ,Xn )′ ∼ Nn (µ, I) mit µ = (µ1 , . . . , µn )′ , dann ist die Linearkombination a′ X = a1 X1 + · · · + an Xn ebenfalls normalverteilt mit Erwartungswert E(a1 X1 + · · · + an Xn ) = a1 µ1 + · · · an µn = a′ µ und Varianz Var(a1 X1 + · · · + an Xn ) = Var(a1 X1 ) + · · · + Var(an Xn ) = a21 + · · · + a2n = a′ a. Ist X = (X1 , . . . , Xn )′ ∼ Nn (µ, I) und a = (a1 , . . . , an )′ ∈ Rn ein Spaltenvektor, dann gilt a′ X ∼ Nn (a′ µ, a′ a).
128
2 Wahrscheinlichkeitsrechnung
Seien nun a = (a1 , . . . , an )′ und b = (b1 , . . . , bn )′ Spaltenvektoren sowie U = a′ X = a1 X1 + · · · + an Xn , V = b′ X = b1 X1 + · · · + bn Xn , zwei Linearkombinationen der Zufallsvariablen X1 , . . . , Xn . Ist der Zufallsvektor X = (X1 , . . . , Xn )′ nun Nn (0, I)-verteilt, dann ist aufgrund der Unabh¨angigkeit der Xi Cov(U, V ) = Cov(a1 X1 + · · · + an Xn , b1 X1 + · · · bn Xn ) = Cov(a1 X1 , b1 X1 ) + · · · + Cov(an Xn , bn Xn ) = a1 b1 + · · · + an bn = a′ b. Somit sind die Zufallsvariablen U und V genau dann unkorreliert (also unabh¨angig), wenn a′ b = 0. Multivariate Normalverteilung Der Zufallsvektor X = (X1 , . . . , Xn )′ sei multivariat standardnormalverteilt. a1 , . . . , am seien m linear unabh¨angige Spaltenvektoren und Yi = a′i X,
i = 1, . . . , m,
die zugeh¨origen Linearkombinationen. Dann ist der Spaltenvektor Y = (Y1 , . . . , Ym )′ = (a′1 X, . . . , a′m X)′ = AX, wobei A die (m × n)-Matrix mit Zeilenvektoren a′1 , . . . , a′m ist, multivariat normalverteilt mit Erwartungswertvektor 0 ∈ Rm und (m × m)Kovarianzmatrix Σ = (Cov(Yi , Yj ))i,j = (a′i aj )i,j = AA′ . Die Matrix Σ hat maximalen Rang m. Notation: Y ∼ Nm (0, Σ). Der Zufallsvektor Y = AX+b, b ∈ Rm , ist dann multivariat normalverteilt mit Erwartungswertvektor b und Kovarianzmatrix Σ = AA′ . Notation: Y ∼ Nm (b,Σ).
2.13 Erzeugende Funktionen, Laplace-Transformierte∗ Die erzeugende Funktion kodiert die Verteilung einer diskreten Zufallsvariable sowie alle Momente. Sie ist ein wichtiges Instrument f¨ ur das Studium von Verzweigungsprozessen.
2.13 Erzeugende Funktionen, Laplace-Transformierte∗
129
Erzeugende Funktion X sei eine diskrete Zufallsvariable mit Werten in N0 und Wahrscheinlichkeitsfunktion p(k) = P (X = k), k ∈ N0 . Dann heißt die Funktion (Potenzreihe) gX (t) = EtX =
∞
pX (k)tk
k=0
erzeugende Funktion von X. gX (t) konvergiert sicher f¨ ur |t| ≤ 1. Die erzeugende Funktion charakterisiert eindeutig die Verteilung einer Zufallsvariablen mit Werten in N0 , da zwei Potenzreihen, die auf (−1,1) u ¨bereinstimmen, auf ihrem gesamten Konvergenzgebiet u bereinstimmen. Hieraus folgt ¨ Gleichheit der Koeffizienten. Aus gX (t) = k pX (k)tk = k pY (k)tk = gY (t) folgt somit pX (k) = pY (k) f¨ ur alle k. Also besitzen X und Y die gleiche Verteilung. Es gilt gX (0) = P (X = 0) und gX (1) = 1. Potenzreihen d¨ urfen im Inneren ihres Konvergenzgebiets beliebig oft differenziert werden. Beispielsweise ist ′ gX (t) = pX (1) +
∞
′′ kpX (k)tk−1 , gX (t)
= 2pX (2) +
k=2
∞
k=3
k(k − 1)pX (k)tk−2 .
′ ′′ (0) = pX (1) und gX (0) = 2pX (2). Allgemein ist: Also: gX (k)
gX (0) =
(k)
pX (0) (k) ⇒ pX (k) = k!gX (0). k!
Faltungseigenschaft Sind X und Y unabh¨angige Zufallsvariablen mit erzeugenden Funktionen gX (t) bzw. gY (t), dann hat X + Y die erzeugende Funktion gX+Y (t) = gX (t)gY (t). Herleitung: gX+Y (t) = E(tX+Y ) = E(tX tY ) = E(tX )E(tY ) = gX (t)gY (t).
Beispiel 2.13.1. 1) Sei X ∼ Ber(p). Dann ist gX (t) = 1 − p + pt. 2) Sei Y ∼ Ber(p). Dann folgt gY (t) = (1 − p + pt)n .
3) Sei X ∼ Poi(λ). Dann ergibt sich gX (t) = eλ(t−1) . (k)
Es gilt: gX (1) = E(X(X − 1) · . . . · (X − k + 1)). ′ ′′ Neben gX (1) = E(X) erh¨alt man wegen gX (t) = E(X 2 − X) = EX 2 − EX ′′ ′ ′ auch eine n¨ utzliche Formel f¨ ur die Varianz: Var(X) = gX (1)+gX (1)−(gX (1))2 .
130
2 Wahrscheinlichkeitsrechnung
F¨ ur Summen SN = X1 + · · · + XN mit einer zuf¨alligen Anzahl N von Summanden gilt: Seien X1 , X2 , . . . unabh¨angig und identisch verteilt mit erzeugender Funktion gX (t) und N eine von X1 , X2 , . . . unabh¨angige Zufallsvariable mit erzeugender Funktion gN (t). Dann hat SN = X1 + · · · + XN die erzeugende Funktion gSN (t) = gN (gX (t)). Beispiel 2.13.2. Eine Henne legt N ∼ Poi(λ) Eier. Jedes Ei br¨ utet sie uni.i.d.
abh¨angig voneinander mit Wahrscheinlichkeit p aus. Modell: Xi ∼ Ber(p). Die Anzahl der K¨ uken ist Y = X1 + · · · + XN . Es ist gN (t) = eλ(t−1) und gX (t) = 1 − p + pt. Daher folgt gY (t) = gN (gX (t)) = eλp(t−1) . Somit ist Y poissonverteilt mit Parameter λp. Momenterzeugende Funktion, Laplace-Transformierte Sei X eine Zufallsvariable. F¨ ur alle t ≥ 0, so dass mX (t) = E(etX ) (in R) existiert, heißt mX (t) momenterzeugende Funktion von X. Ist X stetig verteilt mit Dichte f (x), dann spricht man von der LaplaceTransformierten Lf (t) und es gilt: ∞ etx f (x) dx. Lf (t) = −∞
In dieser Form ist Lf nicht nur f¨ ur Dichtefunktionen definierbar. mX (t) ist auf jeden Fall f¨ ur t = 0 definiert. Existiert mX (t) f¨ ur ein t > 0, dann auf dem ganzen Intervall (−t,t). Beispiel 2.13.3. Ist U ∼ U[a,b], dann ist: 1 etx x=1 | mU (t) = etx dx = = et . t x=0 0 ∞ F¨ ur X ∼ N (0,1) ist mX (t) = (2π)−1 −∞ exp(tx − x2 /2) dx zu berechnen. Wegen (x − t)2 = x2 − 2tx + t2 ist tx − x2 /2 = t2 /2 − (x − t)2 . Also folgt: ∞ 2 2 2 e−(x−t) /2 dx = et /2 . mX (t) = et /2 (2π)−1 −∞
Ist X eine Zufallsvariable und sind a, b ∈ R, dann folgt aus den Rechenregeln des Erwartungswertes und der Exponentialfunktion, dass die momenterzeugende Funktion von a + bY gegeben ist durch
2.14 Markov-Ketten∗
131
ma+bX (t) = eat mX (bt), sofern bt im Definitionsbereich von mX liegt. Sind X und Y unabh¨angige Zufallsvariablen, dann gilt: mX+Y (t) = Eet(X+Y ) = EetX etY = mX (t)mY (t), sofern das Produkt auf der rechten Seite existiert. F¨ ur eine Summe Y = n X von unabh¨ a ngig und identisch verteilten Zufallsvariablen folgt: i i=1 mY = m
n i=1
Xi (t)
= (mX1 (t))n .
ur ein t > 0, dann legt die Funktion mX (t) eindeutig die Existiert mX (t) f¨ Verteilung von X fest. Ferner ist mX (t) in (−t,t) beliebig oft differenzierbar mit: (k) (k) mX (t) = E(X k etX ) ⇒ mX (0) = EX k , k = 1,2, . . .
2.14 Markov-Ketten∗ Markov-Ketten spielen eine wichtige Rolle in der Modellierung stochastischer Ph¨anomene, insbesondere in der Informatik und der Logistik. Beispielhaft seien hier als Anwendungsfelder Warteschlangen, k¨ unstliche Intelligenz und automatische Spracherkennung genannt. 2.14.1 Modell und Chapman-Kolmogorov-Gleichung Ausgangspunkt ist ein System, welches sich zu jedem Zeitpunkt in einem von m Zust¨anden befinden kann, die wir mit 1, . . . , m bezeichnen. S = {1, . . . , m} heißt Zustandsraum. X0 , . . . , XT seien Zufallsvariablen Xi : Ω → S, i = 0, . . . , T , welche den stochastischen Zustand des Systems beschreiben. Die Wahrscheinlichkeit P (X0 = x0 , . . . , XT = xT ), dass das System die Zustandsfolge (x0 , . . . , xT ) annimmt, kann nach dem Multiplikationssatz f¨ ur bedingte Wahrscheinlichkeiten durch: P (X0 = x0 )P (X1 = x1 |X0 = x0 )·. . .·P (XT = xt |X0 = x0 , . . . , XT −1 = xT −1 ) berechnet werden. Bei einer Markov-Kette h¨angen hierbei die Wahrscheinlichkeiten nur vom vorherigen (letzten) Zustand ab.
132
2 Wahrscheinlichkeitsrechnung
¨ Markov-Kette, Ubergangsmatrix, Startverteilung Eine endliche Folge von Zufallsvariablen X0 , . . . , XT heißt Markov-Kette mit Zustandsraum S ¨ und Ubergangsmatrix P = (p(xi , xj ))i,j∈S , falls gilt: P (Xn = xn |X0 = x0 , . . . , Xn−1 = xn−1 ) = P (Xn = xn |Xn−1 = xn−1 ) = p(xn−1 ,xn ) f¨ ur alle x0 , . . . , xn ∈ S und n = 1, . . . , T mit P (X0 = x0 , . . . , Xn−1 = xn−1 ) > 0. Der Zeilenvektor p0 = (p0 , . . . , pm ), lung.
pi = P (X0 = xi ), heißt Startvertei-
¨ In der i-ten Zeile (pi1 , . . . , pim )der Ubergangsmatrix P = (pij )i,j stehen die Wahrscheinlichkeiten, mit denen das System die Zust¨ande 1, . . . , m annimmt, ¨ wenn es sich zuvor im Zustand i befand. Die Ubergangsmatrix P einer MarkovKette besitzt Eintr¨age zwischen 0 und 1, die sich zeilenweise zu 1 addieren. Allgemein nennt man eine m × m-Matrix mit diesen Eigenschaften eine stochastische Matrix. Beispiel 2.14.1. Ein getakteter Router mit Warteschlange hat m − 1 Speicherpl¨atze. In jedem Takt kommt mit Wahrscheinlichkeit p ein Paket an und gelangt in die Warteschlange. Kommt kein Paket an, dann wird ein Paket aus der Warteschlange gesendet. Mit Wahrscheinlichkeit q misslingt dies. Modellierung durch eine Markov-Kette mit m Zust¨anden (m − 1 Pl¨atze, Zustand m: ,,buffer overflow”) und Start im Zustand 1. F¨ ur i = 1, . . . , m − 1: Bei Ankunft ¨ ucksprung nach i − 1, eines Paktes Ubergang in Zustand i + 1: pi,i+1 = p. R¨ falls Paket erfolgreich versendet: pi,i−1 = (1 − p)q =: r. Sonst Verharren im ¨ ur m = 3 lautet die Ubergangsmatrix: Zustand i: pii = (1 − p)(1 − q) =: s. F¨
1-p r P= 0 0
p 0 s p r s 0 1-q
0 0 p q
.
Bei der Behandlung von Markov-Ketten ist es u ¨blich, Verteilungen auf dem Zustandsraum S mit Zeilenvektoren zu identifizieren. Hierdurch vereinfachen sicht etliche der folgenden Formeln. Die Wahrscheinlichkeitsverteilung des Zufallsvektors (X0 , . . . , XT ) ist durch ¨ P festgelegt. die Startverteilung p0 und die Ubergangsmatrix Wir berechnen die Zustandsverteilung nach einem Schritt: Es ist f¨ ur j = 1, . . . , m (1)
pj
= P (X1 = j) =
m i=1
P (X1 = j|X0 = i)P (X0 = i) =
m i=1
p(i,j)pi .
2.14 Markov-Ketten∗ (1)
133 (1)
In Matrixschreibweise gilt somit f¨ ur den Zeilenvektor p(1) = (p1 , . . . , pm ):
(2)
Genauso: pj
p(1) = p0 P. m (1) (2) (2) = P (X2 = j) = i=1 p(i,j)pi , also mit p(2) = (p1 , . . . , pm ): p(2) = p(1) P = p0 PP = p0 P2 .
¨ Hierbei ist P2 = P · P. Die Matrix P2 beschreibt also die 2-Schritt-Ubergangswahrscheinlichkeiten. Allgemein definiert man die n-te Potenz einer Matrix A durch A0 := I und An := A · An−1 . Es gilt dann: An+m = An Am f¨ ur alle n,m ∈ N0 .
Durch Iteration der obigen Rechnung sieht man: Der Zeilenvektor p(n) = (n) (n) (n) (p1 , . . . , pm ) der Wahrscheinlichkeiten pi = P (Xn = i), dass sich das System nach n Schritten im Zustand i befindet, berechnet sich durch: p(n) = p0 Pn .
¨ Pn heißt n-Schritt-Ubergangsmatrix. Es gilt also: P (Xn = y|X0 = x) = p(n) (x,y), f¨ ur alle x,y ∈ S, wobei p(n) (x,y) die Eintr¨age der n-Schritt-Ubergangsmatrix Pn bezeichnen. Anwenden der Formel P(m+n) = Pm Pn liefert: Chapman-Kolmogorov-Gleichung Es gilt f¨ ur alle x,y ∈ S und n,m ∈ N0 : p(m+n) (x,y) =
p(m) (x,z)p(n) (z,y).
z∈S
Hi = min{j|Xi+j = Xi } heißt Verweilzeit im i-ten Zustand. Bedingt auf X0 stellt sich Hi als geometrisch verteilt heraus. Es gilt: Hi |X0 = i ∼ Geo(pii ).
Herleitung: Es ist P (Hi = 1|X0 = i) = P (X0 = i, X1 = i|X0 = i) = 1 − pii und f¨ ur k ≥ 2: P (Hi = k|X0 = i) = P (X1 = i, . . . , Xk−1 = i, Xk = i|X0 = i) = P (X1 = i|X0 = i) · . . . · P (Xk−1 = i|Xk−2 = i)P (Xk = i|Xk−1=i ) = pk−1 ii (1 − pii ).
2.14.2 Station¨ are Verteilung und Ergodensatz Kann ein System durch eine Markov-Kette beschrieben werden, dann sind die Wahrscheinlichkeiten, mit denen die Zust¨ande 1, . . . , m angenommen werden,
134
2 Wahrscheinlichkeitsrechnung
leicht berechenbar: p(n) = p0 P(n) . Es stellt sich die Frage, ob Konvergenz vorliegt. Man hat p(n+1) = p(n) P. Gilt π = limn→∞ p(n) , dann muss gelten: π = πP. Eine Verteilung π auf S mit dieser Eigenschaft heißt station¨ are Verteilung. Ist π station¨are Verteilung, dann ist π ′ (normierter!) Eigenvektor zum Eigenwert 1 der transponierten Matrix P′ . 1−r r , dann f¨ uhrt die Bedingung π = πP Ist beispielsweise P = s 1−s zusammen mit π ′ 1 = π1 + π2 = 1 auf die eindeutige L¨osung π1 = s/(r + s) und π2 = r/(r + s), sofern r + s > 0. Die stochastische Matrix P heißt irreduzibel, wenn es f¨ ur beliebige Zust¨ande x,y ∈ S ein n ∈ N0 gibt, so dass man ausgehend vom Zustand x den Zustand y nach n Schritten erreichen kann, d.h. wenn p(n) (x,y) > 0 gilt. Damit ist insbesondere ausgeschlossen, dass die Zustandsmenge in Teilmengen von Zust¨anden zerf¨allt, die sich nur untereinander ,,besuchen”. Es liegt Periodizit¨at vor, wenn das System alle k ≥ 2 Zust¨ande wieder in einen Zustand x zur¨ uckkehren kann, dass heißt wenn p(n) (x,x) > 0 f¨ ur n = kr mit r ∈ N gilt. Dann ist der gr¨oßte gemeinsame Teiler (ggT) der Menge N (x) = {n ∈ N : p(n) (x, x) > 0} gr¨ oßer als 1. P heißt aperiodisch, wenn f¨ ur jeden Zustand x ∈ S der ggT der Menge N (x) 1 ist. 01 die Potenzen Pn abBeispielsweise ist ergeben f¨ ur die Matrix P = 10 wechselnd I und P. Somit ist P irreduzibel, aber nicht aperiodisch. Schließlich heißt P ergodisch, wenn es ein k ∈N gibt, so dass alle Ein0.4 0.6 ergodisch. Eine tr¨age Pk = 0 positiv sind. Offensichtlich ist P = 0.6 0.4 stochastische Matrix P ist genau dann ergodisch, wenn sie irreduzibel und aperiodisch ist. Ergodensatz Eine ergodische stochastische Matrix P besitzt genau eine station¨are Verteilung π = (π1 , . . . , πm ). Die Eintr¨age πj sind positiv und die ¨ n-Schritt-Ubergangswahrscheinlichkeiten konvergieren gegen die station¨are Verteilung, unabh¨angig vom Startzustand, d.h. f¨ ur alle j = 1, . . . , m gilt: (n) lim p n→∞ ij
= πj ,
f¨ ur alle i = 1, . . . , m.
3 Schließende Statistik
Die Grundaufgabe der schließenden Statistik ist es, basierend auf Stichprobendaten Aussagen u ¨ber das zugrunde liegende Verteilungsmodell zu treffen. H¨ aufig ist das Verteilungsmodell durch einen Parameter ϑ eindeutig parametrisiert. Dann interessieren vor allem Sch¨atzungen f¨ ur ϑ, Aussagen u ¨ber die ¨ Sch¨atzgenauigkeit und das Testen (Uberpr¨ ufen) von Hypothesen u ¨ber ϑ. Machen wir uns diese abstrakten Aussagen an einem Beispiel klar: Bei einer Umfrage unter n = 500 zuf¨allig ausgew¨ahlten K¨aufern eines PKW stellt sich heraus, dass k = 400 mit dem Service zufrieden sind. Um zu kl¨aren, ob diese Zahlen belastbar“ sind, m¨ ussen Antworten f¨ ur die folgenden Fragen gefunden ” werden: 1. Ist der Anteil von k/n = 80% zufriedener K¨aufer in der Stichprobe eine gute Sch¨atzung f¨ ur den unbekannten wahren Anteil in der Grungesamtheit aller K¨aufer? 2. Wie stark streut das Stichprobenergebnis u ¨berhaupt? 3. Wie kann objektiv nachgewiesen werden, dass der wahre Anteil zufriedener K¨ aufer zumindest h¨oher als (z. B.) 75% ist? Zur Beantwortung dieser Fragen muss zun¨achst ein geeignetes Verteilungsmodell f¨ ur die Daten gefunden werden. Im eben diskutierten Beispiel ist dies die Binomialverteilung. Dann ist zu kl¨aren, wie im Rahmen des gew¨ahlten Verteilungsmodells geeignete Sch¨atzungen f¨ ur die interessierenden Gr¨oßen - in unserem Beispiel ist dies der wahre Anteil p - gewonnen und hinsichtlich ihrer G¨ ute (Qualit¨at) bewertet werden k¨onnen. Ferner wird ein geeignetes Konzept ¨ zur Uberpr¨ ufung von relevanten Hypothesen durch empirisches Datenmaterial ben¨otigt.
3.1 Grundbegriffe Daten werden durch Stichproben repr¨asentiert. Wir vereinbaren die folgenden Bezeichnungen.
136
3 Schließende Statistik
Stichprobe, Stichprobenumfang, Stichprobenraum, Realisierung X1 , . . . , Xn heißt Stichprobe vom Stichprobenumfang n, wenn X1 , . . . , Xn reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) sind. Der Zufallsvektor X = (X1 , . . . , Xn ) nimmt dann Werte im Stichprobenraum X = {X(ω) : ω ∈ Ω} ⊂ Rn an, dessen Elemente (x1 , . . . , xn ) Realisierungen heißen.
Verteilungsmodell, parametrisch, nichtparametrisch, Parameterraum Eine Menge P von (m¨oglichen) Verteilungen auf Rn (f¨ ur die Stichprobe (X1 , . . . ,Xn )) heißt Verteilungsmodell. Ist jede Verteilung P ∈ P durch Angabe eines Parametervektors ϑ aus einer Menge Θ ⊂ Rk m¨oglicher Vektoren spezifiziert, spricht man von einem parametrischen Verteilungsmodell. Θ heißt dann Parameterraum. Man spricht von einem nichtparametrischen Verteilungsmodell, wenn P nicht durch einen endlichdimensionalen Parameter parametrisiert werden kann. Sind X1 , . . . ,Xn unabh¨angig und identisch verteilt nach einer Verteilungsfunktion F (x), dann schreibt man i.i.d.
i.i.d.
X1 , . . . ,Xn ∼ F (x) oder auch Xi ∼ F (x). i.i.d. steht f¨ ur unabh¨angig und identisch verteilt (engl.: independent and identically distributed). Ist die Verteilung durch eine (Z¨ahl-) Dichte f (x) gegeben, i.i.d.
dann schreibt man Xi ∼ f (x). Beispiel 3.1.1. Parametrische Verteilungsmodelle: 1). P = {bin(n,p) : p ∈ (0,1)} f¨ ur ein festes n: ϑ = p ∈ Θ = (0,1).
2). P = {N (µ, σ2 ) : µ ∈ R, 0 < σ 2 < ∞}. ϑ = (µ,σ 2 ) ∈ Θ = R × (0,∞).
Nichtparametrische Verteilungsmodelle: 3). P = {F : R → [0,1] : F ist Verteilungsfunktion}
4). P = {f : R → R+ : f ist Dichtefunktion}
Statistik, Sch¨ atzfunktion, Sch¨ atzer Ist X1 , . . . , Xn eine Stichprobe und T : n d R → R mit d ∈ N (oft: d = 1) eine Abbildung, so heißt T (X1 , . . . , Xn ) Statistik. Bildet die Statistik in den Parameterraum ab, d.h. T : Rn → Θ, und m¨ochte man mit der Statistik T (X1 , . . . , Xn ) den Parameter ϑ sch¨atzen, so spricht man von einer Sch¨ atzfunktion oder einem Sch¨ atzer f¨ ur ϑ. Zur Sch¨atzung von Funktionen g(ϑ) eines Parameters verwendet man Statistiken T : Rn → Γ mit Γ = g(Θ) = {g(ϑ)|ϑ ∈ Θ}. T (X1 , . . . , Xn ) heißt dann Sch¨atzer f¨ ur g(ϑ).
3.2 Sch¨ atzprinzipien und G¨ utekriterien
137
Beispiel 3.1.2. Aus den ersten beiden Kapiteln sind bereits folgenden Statistiken bekannt: n 1 T2 (X1 , . . . , Xn ) = S 2 = (Xi − X)2 . T1 (X1 , . . . , Xn ) = X, n−1 i=1
Ist T : Rn → Θ ein Sch¨atzer f¨ ur ϑ, dann ist es u ¨blich ϑ = T (X1 , . . . , Xn )
zu schreiben. Ebenso verf¨ahrt man bei anderen unbekannten Gr¨oßen. So beur die Verteilungsfunktion F (x). zeichnet beispielsweise Fn (x) einen Sch¨atzer f¨
3.2 Sch¨ atzprinzipien und Gu ¨ tekriterien 3.2.1 Nichtparametrische Sch¨ atzung Im nichtparametrischen Verteilungsmodell (c) des Beispiels 3.1.1 wird keine Restriktion an die Verteilung der Beobachtungen gestellt. Sei X1 , . . . , Xn eine Stichprobe von unabh¨angigen und identisch verteilten Zufallsvariablen mit gemeinsamer Verteilungsfunktion F , d.h., F (x) = P (Xi ≤ x),
x ∈ R.
Es stellt sich die Frage, wie F (x) gesch¨atzt werden kann. Man verwendet die empirische Verteilungsfunktion, die bereits aus der deskriptiven Statistik bekannt ist: Empirische Verteilungsfunktion Ein nichtparametrischer Sch¨atzer f¨ ur die Verteilungsfunktion F (x) = P (Xi ≤ x), x ∈ R, ist die empirische Verteilungsfunktion n
1 1(−∞,x] (Xi ), Fn (x) = n i=1
x ∈ R.
Hierbei zeigt 1(−∞,x] (Xi ) = 1(Xi ≤ x) an, ob Xi ≤ x gilt. Fn (x) ist der Anteil der Beobachtungen, die kleiner oder gleich x sind. Die Anzahl nFn (x) der Beobachtungen, die kleiner oder gleich x sind, ist binomialverteilt mit Parametern n und p(x), so dass insbesondere gilt: E(Fn (x)) = P (Xi ≤ x) = F (x),
Var(Fn (x)) =
F (x)(1 − F (x)) . n
Nach dem Hauptsatz der Statistik (Abschnitt 2.11.2) konvergiert Fn (x) mit Wahrscheinlichkeit 1 gegen F (x) (gleichm¨aßig in x).
138
3 Schließende Statistik
angige Bernoulli-Variable Herleitung: Die Zufallsvariablen 1(−∞,x] (Xi ) sind unabh¨ mit Erfolgswahrscheinlichkeit p = p(x) = 1 · P (Xi ≤ x) + 0 · P (Xi > c) = F (x). Ihre Summe, nFn (x) = n i=1 1(−∞,x] (Xi ) ist daher binomialverteilt mit Parametern n und p = F (x). Da Erwartungswert und Varianz einer Bin(n,p)-Verteilung durch np bzw. np(1 − p) gegeben sind, ergeben sich die angegebenen Formeln f¨ ur E(Fn ) und Var(Fn (x)).
Die Verteilung von X ist durch die Verteilungsfunktion F (x) eindeutig spezifiziert. Hiervon leiten sich Erwartungswert µ = E(Xi ) und Varianz σ 2 = Var(Xi ) der Verteilung von X ab. Diese Gr¨oßen sind unbekannt. Sch¨atzer erh¨alt man, indem man statt F (x) die empirische Verteilungsfunktion Fn (x) betrachtet: Fn ist die Verteilungsfunktion der empirischen Verteilung, die den Punkten X1 , . . . , Xn jeweils die Wahrscheinlichkeit 1/n n zuordnet. Der Erwartungswert der empirischen Verteilung ist X = n1 i=1 Xi , ihre Varianz n 1 2 i=1 (Xi − X) . n
Es liegt also nahe, den unbekannten Erwartungswert µ durch den Erwartungswert der empirischen Verteilung, n
µ =
1 Xi , n i=1
und die unbekannte Varianz σ 2 durch die Varianz der empirischen Verteilung n
σ 2 =
1 (Xi − X)2 . n i=1
zu sch¨atzen. Genauso k¨onnen die p-Quantile der Verteilung von X durch die empirischen p-Quantile gesch¨atzt, die in der deskriptiven Statistik bereits besprochen wurden. Arithmetisches Mittel, Stichprobenvarianz und empirische p-Quantile sind diejenigen Sch¨atzer f¨ ur Erwartungswert, Varianz und theoretische Quantile, die man durch Substitution der Verteilungsfunktion F (x) durch die empirische Verteilungsfunktion Fn (x) erh¨alt. 3.2.2 Dichtesch¨ atzung Das nichtparametrische Verteilungsmodell P = {f : R → R+ | f ist eine Dichtefunktion} aus Beispiel 2.2.1 f¨ ur eine Beobachtung X schließt diskrete Verteilungen aus der Betrachtung aus. Relevant sind nur noch stetige Verteilungen, die durch eine Dichtefunktion f (x) charakterisiert sind:
3.2 Sch¨ atzprinzipien und G¨ utekriterien
P (a < X ≤ b) =
139
b
f (x) dx,
a < b.
a
In der deskriptiven Statistik wurden bereits das Histogramm und der Kerndichtesch¨ atzer eingef¨ uhrt. Wir erinnern an die Definition des Histogramms: Der Histogramm-Sch¨atzer zu Klassenh¨aufigkeiten f1 , . . . , fk von k Klassen K1 = [g1 ,g2 ], K2 = (g2 ,g3 ], . . . , Kk = (gk , gk+1 ] mit Klassenbreiten b1 , . . . , bk , ist gegeben durch
fj , wenn x ∈ Kj f¨ ur ein j = 1, . . . ,M , f(x) = 0, sonst. Histogramm Der Histogramm-Sch¨atzer sch¨atzt eine Vergr¨ oberung der Dichtefunktion f (x), n¨amlich die Funktion g(x), f¨ ur die gilt: gj+1 g(x) = f (x) dx = P (X1 ∈ (gj ,gj+1 ]), gj
ur festes x ∈ (gj ,gj+1 ] ist nf(x) binomialverteilt mit wenn x ∈ (gj ,gj+1 ]. F¨ Parametern n und p = p(x) = P (X1 ∈ (gj ,gj+1 ]). Der Kerndichtesch¨atzer nach Parzen-Rosenblatt ist ebenfalls ein Sch¨atzer f¨ ur die Dichtefunktion. Eine Diskussion seiner Verteilungseigenschaften ist jedoch im Rahmen dieses Buches nicht m¨oglich. Es sei auf die weiterf¨ uhrende Literatur verwiesen. 3.2.3 Das Likelihood-Prinzip ⊲ Motivation und Definition Ein Restaurant hat zwei K¨oche A und B. Koch A versalzt die Suppe mit einer Wahrscheinlichkeit von 0.1, Koch B mit einer Wahrscheinlichkeit von 0.3. Sie gehen ins Restaurant und bestellen eine Suppe. Die Suppe ist versalzen. Wer sch¨atzen Sie, war der Koch? Die meisten Menschen antworten mit ”Koch ¨ B”. Kann die dahinter stehende Uberlegung (Koch B versalzt h¨aufiger, also wird er es schon sein) formalisiert und einem allgemeinen Sch¨atzprinzip untergeordnet werden? Formalisierung: Wir beobachten x ∈ {0,1} (’0’: Suppe ok, ’1’: Suppe versalzen). Der Parameter ist ϑ ∈ Θ = {A,B}. (Koch A bzw. B). Das statistische Problem besteht in der Sch¨atzung von ϑ bei gegebener Beobachtung x. Jeder Koch ϑ erzeugt eine Verteilung pϑ : pϑ (x) Beobachtung ϑ 0 1 Summe A 0.9 0.1 1.0 B 0.7 0.3 1.0
140
3 Schließende Statistik
In den Zeilen stehen Wahrscheinlichkeitsverteilungen. In den Spalten stehen f¨ ur jede m¨ogliche Beobachtung (hier: 0 bzw. 1) die Wahrscheinlichkeiten pϑ (x), mit denen die jeweiligen Parameterwerte - die ja jeweils einem Verteilungsmodell entsprechen - die Beobachtung erzeugen. Es ist naheliegend, einen Parameterwert ϑ als umso plausibler anzusehen, je gr¨oßer diese Wahrscheinlichkeit ist. Likelihood-Funktion Sei pϑ (x) eine Z¨ahldichte (in x ∈ X ) und ϑ ∈ Θ ein Parameter. F¨ ur eine gegebene (feste) Beobachtung x ∈ X heißt die Funktion L(ϑ|x) = pϑ (x),
ϑ ∈ Θ,
Likelihood-Funktion. L(ϑ|x), ϑ ∈ Θ, entspricht gerade den Werten in der zu x geh¨origen Spalte. Es ist rational, bei gegebener Beobachtung x die zugeh¨orige Spalte zu betrachten und denjenigen Parameterwert als plausibel anzusehen, der zum h¨ochsten Tabelleneintrag f¨ uhrt, also zur maximalen Wahrscheinlichkeit, x zu beobachten. Likelihood-Prinzip Ein Verteilungsmodell ist bei gegebenen Daten plausibel, wenn es die Daten mit hoher Wahrscheinlichkeit erzeugt. Entscheide Dich f¨ ur das plausibelste Verteilungsmodell! Wir verallgemeinern nun das eingangs betrachtete Beispiel schrittweise auf komplexere F¨alle: Situation 1: Statt zwei m¨oglichen Parameterwerten und zwei Merkmalsauspr¨agungen betrachten wir jeweils endlich viele: Es liege ein diskreter Parameterraum Θ = {ϑ1 , . . . , ϑL } und ein diskreter Stichprobenraum X = {x1 , . . . , xK } vor. ϑ1 ϑ2 .. . ϑL
x1 ... xK Summe pϑ1 (x1 ) . . . pϑ1 (xK ) 1 pϑ2 (x1 ) . . . pϑ2 (xK ) 1 .. .. . . pϑL (x1 ) . . . pϑL (xK ) 1
In den Zeilen stehen wiederum f¨ ur jeden Parameterwert die zugeh¨origen Wahrscheinlichkeitsverteilungen, in den Spalten die zu jeder Beobachtung zugeh¨origen Likelihoods. Bei gegebener Beobachtung w¨ ahlen wir nach dem LikelihoodPrinzip denjenigen Parameterwert als Sch¨atzwert ϑ aus, der zu dem maximalen Spalteneintrag korrespondiert.
3.2 Sch¨ atzprinzipien und G¨ utekriterien
141
Beispiel 3.2.1. Y sei binominalverteilt mit Parametern n ∈ N (Stichprobenumfang) und Erfolgswahrscheinlichkeit p(ϑ), ϑ ∈ { 14 , 12 }. P1/4 (Y = k) =
k 3−k 1 3 3 , k 4 4
P1/2 (Y = k) =
k 3−k 1 1 3 . k 2 2
Der Stichprobenraum ist nun die Menge {0,1,2,3}, der Parameterraum Θ = {1/4,3/4}. y ϑ = 1/4 ϑ = 1/2
0 1 2 3 0.422 0.422 0.078 0.078 0.125 0.375 0.375 0.125
F¨ ur y ∈ {0,1} lautet der ML-Sch¨atzer ϑ = 1/4, bei Beobachtung von y ∈ {2,3} hingegen ϑ = 1/2.
Situation 2: Der Parameterraum Θ ⊂ R ist ein Intervall oder ganz R, der Stichprobenraum ist diskret: X = {x1 , x2 , . . . }.
Dies ist der Standardfall f¨ ur Modelle mit diskreten Beobachtungen. Man kann hier nicht mehr mit Tabellen arbeiten. Es ist an der Zeit, formal den Maximum-Likelihood-Sch¨atzer f¨ ur diskret verteilte Daten zu definieren: Maximum-Likelihood-Sch¨ atzer Ist pϑ (x) eine Z¨ahldichte (in x ∈ X ) und ϑ ∈ Θ ⊂ Rk , k ∈ N, dann heißt ϑ = ϑ(x) ∈ Θ Maximum-LikelihoodSch¨ atzer (ML-Sch¨ atzer), wenn f¨ ur festes x gilt: pϑ(x) ≥ pϑ (x)
f¨ ur alle ϑ ∈ Θ.
Hierdurch ist eine Funktion ϑ : X → Θ definiert.
Mathematisch betrachtet ist die Funktion pϑ (x) f¨ ur festes x in der Variablen ϑ ∈ Θ zu maximieren. Typischerweise ist pϑ (x) eine differenzierbare Funktion von ϑ. Dann k¨onnen die bekannten und im mathematischen Anhang dargestellten Methoden zur Maximierung von Funktionen einer oder mehrerer Ver¨anderlicher verwendet werden. Situation 3: Ist die Variable X stetig verteilt, so ist der Merkmalsraum X = R oder ein Intervall. Der Parameterraum sei diskret: Θ = {ϑ1 , . . . , ϑL }. ur jedes gegebene x ist Zu jedem ϑ ∈ Θ geh¨ort eine Dichtefunktion fϑ (x). F¨ jeweils eine der L Dichtefunktionen auszuw¨ahlen. Da im stetigen Fall einer Realisation x keine Wahrscheinlichkeit wie bei diskreten Verteilungsmodellen zugeordnet werden kann, stellt sich die Frage, wie der Begriff ,,plausibel” nun pr¨azisiert werden kann.
142
3 Schließende Statistik
Hierzu vergr¨obern wir die Information x f¨ ur kleines dx > 0 zu [x − dx,x + dx]. Dem Intervall [x − dx,x + dx] k¨onnen wir eine Wahrscheinlichkeit zuordnen, also eine Likelihood definieren und das Likelihood-Prinzip anwenden. x+dx L(ϑ|[x − dx,x + dx]) = fϑ (s) ds ≈ fϑ (x) · (2dx). x−dx
Die rechte Seite wird maximal, wenn ϑ die Dichte fϑ (x) maximiert.
R
ϑ1 ϑ2
ϑ3 ϑ4 ϑ5 ϑ6
ϑ7 Abb. 3.1. Dichten fϑ (x) f¨ ur ϑ ∈ {ϑ1 , . . . ,ϑ7 }. Der Parameter bestimmt die Lage x+dx ur ein dx > 0. der Verteilung. Hervorgehoben sind die Fl¨ achen x−dx fϑ (s)ds f¨
F¨ ur stetige Zufallsgr¨oßen definiert man daher die Likelihood-Funktion wie folgt: Likelihood-Funktion, Sei fϑ (x) eine Dichtefunktion (in x) und ϑ ∈ Θ ⊂ Rk , k ∈ N. F¨ ur festes x heißt die Funktion L(ϑ|x) = fϑ (x),
ϑ ∈ Θ,
Likelihood-Funktion. ϑ ∈ Θ heißt Maximum-Likelihood-Sch¨ atzer, wenn bei festem x gilt: fϑ(x) ≥ fϑ (x) f¨ ur alle ϑ ∈ Θ.
3.2 Sch¨ atzprinzipien und G¨ utekriterien
143
Situation 4: Seien nun schließlich Θ ⊂ R und X ⊂ R Intervalle.
µ
In diesem Fall erh¨alt man als Bild den Graphen der Funktion fϑ (x) u ¨ber (ϑ,x) ∈ Θ × X . Abbildung 3.2 illustriert dies anhand der Normalverteilungsdichten N (µ,1) f¨ ur µ ∈ [0,3].
x
Abb. 3.2. Normalverteilungsdichten f¨ ur ϑ = µ ∈ [0,3].
Beispiel 3.2.2. Beobachtet worden sei die Realisation x einer Zufallsvariablen X ∼ N (µ,σ2 ). Wir wollen ϑ = µ ∈ R anhand dieser einen Beobachtung sch¨atzen. Dann ist 1 (x − µ)2 exp fµ (x) = √ 2σ 2 2πσ 2 2
in µ zu maximieren. Da die Funktion e−z /2 in z = 0 ihr eindeutiges Maximum annimmt, ergibt sich wegen z = (x − µ)/σ = 0 ⇔ µ = x als ML-Sch¨atzer µ = x. ⊲ Die Likelihood einer Zufallsstichprobe ¨ Das Ergebnis der bisherigen Uberlegungen k¨onnen wir wie folgt zusammenfassen: Folgt eine zuf¨allige Beobachtung X einem parametrischen Verteilungsmodell X ∼ fϑ (x), ϑ ∈ Θ,
144
3 Schließende Statistik
wobei fϑ (x) eine (Z¨ahl-) Dichte ist, so k¨onnen wir bei gegebener Realisation x jedem Parameterwert ϑ eine Likelihood L(ϑ|x) = fϑ (x) zuordnen. In den betrachteten Beispielen war zwar stets x reell, aber diese Festsetzung macht auch Sinn, wenn x ein Vektor ist. Steht nun X nicht f¨ ur eine einzelne Beobachtung, sondern eine ganze Zufallsstichprobe X = (X1 , . . . , Xn ) von n unabh¨angigen und identisch verteilten Zufallsvariablen (Beobachtungen) mit zugeh¨origer Realisation x = (x1 , . . . , xn ), so gilt im diskreten Fall aufgrund der Unabh¨angigkeit der Xi mit x = (x1 , . . . , xn ) ∈ Rn : pϑ (x) = P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) · . . . · P (Xn = xn ). Bei stetig verteiltem X ist die (gemeinsame) Dichtefunktion fϑ (x) durch das Produkt der Randdichten gegeben: fϑ (x1 , . . . ,xn ) = fϑ (x1 ) · . . . · fϑ (xn ). Likelihood einer Stichprobe Ist X1 , . . . , Xn eine Stichprobe von unabh¨angig und identisch verteilten Zufallsvariablen und wurde x = (x1 , . . . , xn ) ∈ Rn beobachtet, dann ist die Likelihood gegeben durch L(ϑ|x) = L(ϑ|x1 ) · . . . · L(ϑ|xn ).
Mathematisch ist es oft einfacher die logarithmierte Likelihood zu maximieren, die aus dem Produkt eine Summe macht. Log-Likelihood Die Log-Likelihood ist gegeben durch l(ϑ|x) = ln L(ϑ|x) =
n
l(ϑ|xi ).
i=1
Hierbei ist l(ϑ|xi ) = ln fϑ (xi ) der Likelihood-Beitrag der i-ten Beobachtung. Wir betrachten drei Beispiele. Beispiel 3.2.3. Es sei x1 , . . . ,xn eine Realisation einer Stichprobe X1 , . . . , Xn von unabh¨angig und identisch Exp(λ)-verteilten Zufallsvariablen. Dann ist fλ (x) = λe−λx , x ≥ 0, und somit L(λ|x1 , . . . ,xn ) = λe−λx1 · · · λe−λxn
x n
n
−λ·
=λ e
i=1
i
.
3.2 Sch¨ atzprinzipien und G¨ utekriterien
145
f¨ Um den ML-Sch¨atzer λ ur λ zu bestimmen, untersucht man die log-Likelihood l(λ|x1 , . . . ,xn ) = n · ln(λ) − λ ·
= auf Maxima. Es ergibt sich λ
1 x
mit x =
1 n
n
i=1
n
xi
i=1
xi .
Beispiel 3.2.4. x1 , . . . ,xn sei eine Realisation von unabh¨angig und identisch Ber(p)-verteilten Zufallsvariablen X1 , . . . ,Xn . P (X1 = x) = px (1 − p)1−x , n Somit ist mit y = i=1 xi (Anzahl der Erfolge)
x = 0,1.
L(p|x1 , . . . ,xn ) = px1 (1 − p)1−x1 · . . . · pxn (1 − p)1−xn = py (1 − p)n−y
und l(p|x1 , . . . ,xn ) = y · ln(p) + (n − y) ln(1 − p). Als Maximalstelle erh¨alt man p = ny . Der Anteil der Erfolge in der Stichprobe erweist sich als ML-Sch¨atzer.
Beispiel 3.2.5. Sie sind zu Besuch in einer fremden Stadt und fahren dort jeden Morgen mit dem Bus. Die Wartezeit auf den n¨achsten Bus sei gleichverteilt im Intervall [0,ϑ], wobei ϑ ∈ (0,∞) der unbekannte Takt ist. Sind n Wartezeiten x1 , . . . , xn beobachtet worden, so k¨onnen wir ϑ durch die LikelihoodMethode sch¨atzen. Die Dichte der xi ist gerade 1 , 0 ≤ x ≤ ϑ, fϑ (x) = ϑ 0, x > ϑ. )n Die Likelihood L(ϑ|x1 , . . . , xn ) = i=1 fϑ (xi ) ist als Funktion von ϑ zu maximieren. Dieses Produkt ist 0, wenn mindestens ein xi gr¨oßer ist als ϑ. Gilt hingegen f¨ ur alle xi die Ungleichung xi ≤ ϑ, was gleichbedeutend mit maxi xi ≤ ϑ n ist, hat das Produkt den Wert ϑ1 . Diese Funktion ist streng monoton fallend in ϑ. Sie ist also maximal, wenn wir ϑ so klein wie m¨oglich w¨ahlen (aber noch gr¨oßer oder gleich maxi xi . Also ist der ML-Sch¨atzer ϑ = max xi i
im Einklang mit der Intuition.
F¨ ur eine Realisation x1 , . . . ,xn unabh¨angig und identisch N (µ,σ 2 )-verteilter Zufallsvariablen X1 , . . . ,Xn erh¨alt man: n
• •
µ =
1 Xi n i=1
σ 2 =
ist ML-Sch¨atzer f¨ ur µ = E(X1 ).
n
1 (Xi − X)2 n i=1
ist ML-Sch¨ atzer f¨ ur die Varianz σ 2 .
146
3 Schließende Statistik
Die Verwendung des arithmetischen Mittels und der empirischen Varianz k¨ onnen also durch das Likelihood-Prinzip gerechtfertigt werden. Das Likelihood-Prinzip stellt einen operationalen Ansatz zur Gewinnung von Sch¨atzfunktionen dar, die sich bei G¨ ultigkeit des verwendeten Verteilungsmodells auch als optimal (im Sinne minimaler Streuung der Sch¨atzung in sehr großen Stichproben) erweisen. Die Methode ist jedoch nicht anwendbar, wenn kein parametrisches Verteilungsmodell angegeben werden kann. 3.2.4 G¨ utekriterien f¨ ur statistische Sch¨ atzer M¨ ochte man einen Parameter ϑ anhand einer Stichprobe sch¨atzen, so hat man mitunter mehrere Kandidaten zur Auswahl. Es stellt sich die Frage, wie sich die G¨ ute von statistischen Sch¨atzern messen l¨aßt. Dann kann auch untersucht werden, welche Sch¨atzer optimal sind. Da jeder Sch¨atzer aus streuenden Daten ausgerechnet wird, streut auch der Sch¨atzer. Es ist daher nahe liegend, die zwei grundlegenden Konzepte zur Verdichtung dieses Sachverhalts auf Kennzahlen zu nutzen: Erwartungswert (Kennzeichnung der Lage) und Varianz (Quantifizierung der Streuung). ⊲ Konsistenz Sind X1 , . . . , Xn unabh¨angig und identisch verteilt N (µ, σ 2 ) mit Erwartungsn 1 wert µ, dann ist µ n = X n = n i=1 Xi ein geeigneter Sch¨atzer. Nach dem Gesetz der großen Zahlen konvergiert µ n im stochastischen Sinn gegen µ = E(X1 ) – auch ohne die Normalverteilungsannahme. Sch¨atzer, die solch ein Verhalten aufweisen, nennt man konsistent: Konsistenz Ein Sch¨atzer ϑn = T (X1 , . . . , Xn ) basierend auf einer Stichprobe vom Umfang n heißt (schwach) konsistent f¨ ur ϑ, falls P ϑn → ϑ,
n → ∞,
also wenn er ein schwaches Gesetz großer Zahlen erf¨ ullt. Gilt sogar fast sichere Konvergenz, dann heißt ϑn stark konsistent f¨ ur ϑ.
Ist ϑn konsistent f¨ ur ϑ und g : θ → Γ , d ∈ N, eine stetige Funktion, dann ist ur g(ϑ). g(ϑn ) konsistent f¨
Beispiel 3.2.6. Unter den oben genannten Annahmen ist µ n = X n konsistent f¨ ur µ. Hieraus folgt, dass g(X n ) = (X n )2 konsistent ist f¨ ur den abgeleiteten Parameter g(µ) = µ2 . GiltEX12 < ∞, dann ist nach dem (starken) Gesetz der großen Zahlen m 2,n = n1 ni=1 Xi2 (stark) konsistent f¨ ur das zweite Moment n2 = m 2,n − µ 2n = m2= E(X12 ). Damit folgt, dass die Stichprobenvarianz σ n 1 2 2 2 2 2 ur σ = E(X1 ) − (E(X1 )) = Var(X1 ) ist. i=1 Xi − (X n ) konsistent f¨ n
3.2 Sch¨ atzprinzipien und G¨ utekriterien
147
⊲ Erwartungstreue (Asymptotische) Erwartungstreue, Unverf¨ alschtheit Ein Sch¨atzer ϑn f¨ ur einen Parameter ϑ heißt erwartungstreu, unverf¨ alscht oder unverzerrt (engl.: unbiased ), wenn er um den unbekannten wahren Parameter ϑ streut:
Gilt lediglich f¨ ur alle ϑ
Eϑ (ϑn ) = ϑ,
f¨ ur alle ϑ.
Eϑ (ϑn ) → ϑ,
wenn n → ∞, dann heißt ϑ asymptotisch erwartungstreu f¨ ur ϑ.
Anschaulich bedeutet Erwartungstreue: Wendet man einen erwartungstreuen Sch¨atzer N -mal (z.B. t¨aglich) auf Stichproben vom Umfang n an, so konvergiert nach dem Gesetz der großen Zahl das arithmetische Mittel der N Sch¨atzungen gegen ϑ (in Wahrscheinlichkeit), egal wie groß oder klein n gew¨ahlt wurde, wenn N → ∞.
Ist ein Sch¨atzer nicht erwartungstreu, so liefert er verzerrte Ergebnisse, und zwar nicht aufgrund zufallsbedingter Schwankungen, sondern systematisch. Bei asymptotisch erwartungstreuen Sch¨atzern konvergiert dieser systematische Fehler gegen 0, wenn der Stichprobenumfang n gegen ∞ strebt. Verzerrung,Bias Die Verzerrung (engl.: bias) wird gemessen durch − ϑ. Bias(ϑn ; ϑ) = Eϑ (ϑ)
Wir betrachten drei Beispiele, die drei grundlegene Ph¨anomene deutlich machen. Das erste Beispiel verifiziert, dass arithmetische Mittel immer erwartungstreue Sch¨atzungen liefern. Dies hatten wir schon mehrfach gesehen, aber nicht so genannt. Beispiel 3.2.7. Sind X1 , . . . , Xn identisch verteilt mit Erwartungswert µ = n) E(X1 ), so gilt: Eµ (X) = E(X1 )+···+E(X = µ. Also ist X erwartungstreu f¨ ur n µ. Das folgende Beispiel zeigt, dass die Erwartungstreue verloren geht, sobald man nichtlineare Transformationen anwendet. ur ϑ = µ2 ? Dazu seien X1 , . . . , Xn Beispiel 3.2.8. Ist (X)2 erwartungstreu f¨ zus¨atzlich unabh¨ angig verteilt. Nach dem Verschiebungssatz gilt
148
3 Schließende Statistik
Var(X) = E((X)2 ) − (E(X))2 Zudem gilt: Var(X) =
σ2 n .
Einsetzen und Aufl¨osen nach E((X)2 ) liefert E((X)2 ) =
σ2 + µ2 . n
2 Also ist ϑ = X nicht erwartungstreu f¨ ur ϑ = µ2 , sondern lediglich asympto2 tisch erwartungstreu, da zumindest E(X ) → µ2 f¨ ur n → ∞ erf¨ ullt ist. Der Bias ergibt sich zu σ2 2 . Bias(X ; µ2 ) = n Er h¨angt nicht von µ, aber von σ 2 und n ab. Mit wachsendem Stichprobenumfang konvergiert der Bias zwar gegen 0, jedoch ist er immer positiv. Folglich 2 wird µ2 durch den Sch¨atzer X systematisch u ¨bersch¨atzt.
Das folgende Beispiel betrachtet die Gleichverteilung auf einem Intervall [0, ϑ], wobei ϑ unbekannt ist. Wir hatten gesehen, dass der ML-Sch¨atzer gerade das Maximum, ϑn = max(X1 , . . . , Xn ), ist. Ist ϑn auch erwartungstreu?
Beispiel 3.2.9. Es seien X1 , . . . , Xn unabh¨angig und identisch gleichverteilt auf dem Intervall [0, ϑ]. Dann gilt P (X1 ≤ x) = ϑx , wenn 0 ≤ x ≤ ϑ. Da P (max(X1 , . . . , Xn ) ≤ x) = P (X1 ≤ x, . . . , Xn ≤ x) = P (X1 ≤ x)n gilt f¨ ur die Verteilungsfunktion von ϑn : P (ϑ ≤ x) = ( ϑx )n , 0 ≤ x ≤ ϑ. Ableiten liefert die Dichte, f (x) = ϑnn xn−1 , wenn 0 ≤ x ≤ ϑ. Den Erwartungswert E(ϑn ) k¨onnen wir nun berechnen: ϑ ϑ n n ϑ. xf (x) dx = n xn dx = E(ϑn ) = ϑ n + 1 0 0 Somit ist der ML-Sch¨atzer verf¨alscht. Eine erwartungstreue Sch¨atzfunktion erh¨alt man durch Umnormieren: n+1 ϑ∗n = ϑn . n
Beispiel 3.2.10. Seien X1 , . . . , Xn unabh¨angig und identisch verteilt mit Erwartungswert µ = E(X1 ) und positiver Varianz σ 2 = Var(X). Wir wollen die Stichprobenvarianz auf Erwartungstreue untersuchen. Nach dem Verschiebungssatz ist n n (Xi − X)2 = Xi2 − n(X)2 . i=1
i=1
Wir wollen hiervon den Erwartungswert berechnen. Wegen σ 2 = Var(Xi ) = E(Xi2 ) − µ2 ist der Erwartungswert des ersten Terms auf der rechen Seite
3.2 Sch¨ atzprinzipien und G¨ utekriterien
E
n
Xi2
i=1
149
= n · E(Xi2 ) = n(σ 2 + µ2 ). 2
In Beispiel 3.2.8 hatten wir gesehen, dass E((X)2 ) = σn + µ2 . Damit erhalten wir: n 2 σ 2 2 (Xi − X) = n(σ + µ) − n E + µ2 = (n − 1)σ 2 n i=1
n Wir m¨ ussen also die Summe der Abstandsquadrate i=1 (Xi − X)2 mit n − 1 normieren, um eine erwartungstreue Sch¨atung f¨ ur σ 2 zu erhalten, nicht etwa mit n. Aus diesem Grund verwendet man u ¨blicherweise den Varianzsch¨atzer n
Sn2 =
1 (Xi − X)2 . n−1 i=1
n σn2 ) = n−1 σ2, F¨ ur die Stichprobenvarianz σ n2 = n1 i=1 (Xi − X)2 gilt E( n 2 σ 2 2 woraus die negative Verzerrung Bias( σn2 ; σ 2 ) = n−1 n σ − σ = − n resultiert. Die Varianz wird systematisch untersch¨atzt. ⊲ Effizienz Neben der Erwartungstreue eines Sch¨atzers spielt auch seine Varianz 2 Var(ϑn ) = Eϑ (ϑ − Eϑ (ϑ))
eine wichtige Rolle. Hat man mehrere erwartungstreue Sch¨atzer zur Auswahl, so ist es nahe liegend, diejenige zu verwenden, welche die kleinste Varianz hat. Effizienz Sind T1 und T2 zwei erwartungstreue Sch¨atzer f¨ ur ϑ und gilt Var(T1 ) < Var(T2 ), so heißt T1 effizienter als T2 . T1 ist effizient, wenn T1 effizienter als jede andere erwartungstreue Sch¨atzfunktion ist.
Beispiel 3.2.11. X1 , . . . , Xn seien unabh¨angig und identisch gleichverteilt im 2 Intervall [0, ϑ]. Es gilt: µ = E(X1 ) = ϑ2 und σ2 = Var(X1 ) = ϑ12 . Betrachte die Sch¨atzer T1 = 2X
und T2 =
n+1 max(X1 , . . . ,Xn ). n
Dann ist E(T1 ) = ϑ
und
Sei Z = max(X1 , . . . , Xn ). Es gilt
Var(T1 ) = 4
ϑ2 σ2 = . n 3n
150
3 Schließende Statistik
E(Z 2 ) =
n ϑn
ϑ
xn+1 dx =
0
n n ϑn+2 = ϑ2 , n ϑ n+2 n+2
und somit nach dem Verschiebungssatz (Var(Z) = E(Z 2 ) − (E(Z))2 ) Var(Z) = ϑ2 Es folgt Var(T2 ) =
n n2 n − ϑ2 . = ϑ2 2 n+2 (n + 1) (n + 1)2 (n + 2)
(n+1)2 n2
· Var(Z) =
Var(T2 ) =
ϑ n(n+2) .
Daher ist f¨ ur n > 1
ϑ2 ϑ2 < = Var(T1 ). n(n + 2) 3n
T2 ist effizienter als T1 ! ⊲ Mittlerer quadratischer Fehler Warum einen erwartungstreuen Sch¨atzer mit hoher Varianz nehmen, wenn es auch einen leicht verzerrten gibt, der deutlich weniger streut? Es scheint also einen trade-off zwischen Verzerrung und Varianz zu geben. Ein Konzept, dass sowohl Verzerrung als auch Varianz einer Sch¨atzung ber¨ ucksichtigt, ist der mittlere quadratische Fehler. MSE, mittlerer quadratischer Fehler Der mittlere quadratische Fehler (engl.: mean square error, MSE) misst nicht die erwartete quadratische Abweichung vom Erwartungswert, sondern vom wahren Parameter ϑ: *n ; ϑ) = Eϑ (ϑ *n − ϑ)2 MSE(ϑ Durch Ausquadrieren sieht man, dass sich der MSE additiv aus der Varianz und der quadrierten Verzerrung zusammen setzt. < ∞, dann gilt die additive Zerlegung Ist ϑ eine Sch¨atzfunktion mit Varϑ (ϑ) *n ; ϑ) = Varϑ (ϑ) + [Bias(ϑn ; ϑ)]2 . MSE(ϑ i.i.d.
Beispiel 3.2.12. Seien X1 , . . . , Xn ∼ N (µ, σ2 ), n > 1. Sn2 ist erwartungstreu f¨ ur σ 2 . Im n¨achsten Abschnitt betrachten wir die Verteilung der Sta2 (n−1)Sn . Ihre Varianz h¨angt nur von n ab: Var(Q) = 2(n − 1). tistik Q = σ2 2σ 4 Hieraus folgt: Var(Sn2 ) = n−1 = M SE(Sn2 ; σ 2 ). Die Stichprobenvarianz
3.3 Testverteilungen
151
2 n−1 2 Sn besitzt die Verzerrung Bias( σ 2 ; σ2 ) = − σn und die Varianz n 4 Var( σn2 ) = ( n−1 )2 Var(Sn2 ) = 2(n−1)σ . Hieraus erh¨alt man MSE( σn2 ; σ 2 ) = n n2 4 2n−1 4 2σ 2 2 n2 σ < n−1 = MSE(Sn ; σ ). Im Sinne des MSE ist also die Stichprobenva-
σ n2 =
rianz besser.
3.3 Testverteilungen Bei der Konstruktion von statistischen Konfidenzintervallen und Tests treten einige Verteilungen auf, die im Kapitel u ¨ber Wahrscheinlichkeitsrechnung ausgespart wurden: t-, χ2 - und F -Verteilung. Diese Verteilungen werden im Rahmen der Statistik u ur alle drei ¨blicherweise Testverteilungen genannt. F¨ Verteilungen gibt es keine expliziten Formeln zur Berechnung von Intervallwahrscheinlichkeiten. Sie werden in B¨ uchern tabelliert und sind in StatistikSoftware verf¨ ugbar. 3.3.1 t-Verteilung Sind X1 , . . . , Xn unabh¨angig und identisch N (µ, σ2 )-verteilt, dann ist die stann dardisierte Version des arithmetische Mittels X = n1 i=1 Xi , ∗
X =
X −µ √ X −µ √ = n σ σ/ n
standardnormalverteilt. Ist die Varianz σ 2 der Beobachtungen unbekannt, so ist es nahe liegend, den erwartungstreuen Sch¨atzer S 2 = n1 ni=1 (Xi − X)2 einzusetzen. Die Verteilung der resultierende Gr¨oße, T =
√ X −µ n S
heißt t-Verteilung mit n − 1 Freiheitsgraden und wird mit t(n − 1) bezeichnet. Das p-Quantil notieren wir mit t(n − 1)p .
Gilt T ∼ t(k), dann ist E(T ) = 0. F¨ ur k ≥ 3 ist Var(T ) =
k . k−2
3.3.2 χ2 -Verteilung Sind U1 , . . . , Uk unabh¨angig und identisch N (0,1)-verteilt, dann heißt die Verteilung der Statistik k Q= Ui2 i=1
152
3 Schließende Statistik
χ2 -Verteilung mit k Freiheitsgraden. Ist T eine Zufallsvariable und c ∈ R, so dass T /c ∼ χ2 (k) gilt, dann heißt T gestreckt χ2 -verteilt mit k Freiheitsgraden. Es gilt: E(Q) = k und Var(Q) = 2k. Sind X1 , . . . , Xn unabh¨angig und identisch N (µ,σ 2 )-verteilt, dann ist ein ern wartungstreuer Varianzsch¨atzer f¨ ur σ 2 durch σ 2 = n1 i=1 (Xi − µ)2 gegeben. Da die Zufallsvariablen (Xi − µ)/σ unabh¨angig und identisch N (0,1)-verteilt sind, folgt: n σ 2 /σ 2 ∼ χ2 (n). Ist µ unbekannt, so verwendet man den erwartungstreuen Sch¨atzer n
S2 =
1 (Xi − X)2 . n − 1 i=1
S 2 erweist sich ebenfalls als χ2 -verteilt, jedoch reduziert sich die Anzahl der Freiheitsgrade um 1: (n − 1)S 2 ∼ χ2 (n − 1). σ2 Dieses Ergebnis erlaubt es, f¨ ur normalverteilte Daten Wahrscheinlichkeitsberechnungen f¨ ur den Varianzsch¨atzer S 2 vorzunehmen. 3.3.3 F -Verteilung Sind Q1 ∼ χ2 (n1 ) und Q2 ∼ χ2 (n2 ) unabh¨angig χ2 -verteilt, dann heißt die Verteilung des Quotienten Q1 /n1 F = Q2 /n2 F -Verteilung mit n1 und n2 Freiheitsgraden und wird mit F (n1 ,n2 ) bezeichnet. Das p-Quantil wird mit F (n1 ,n2 )p bezeichnet. Erwartungswert: E(F ) =
n2 n2 −2 ,
Var(F ) =
2n21 (n1 +n2 −2) n2 (n1 −2)2 (n1 −4) .
i.i.d
i.i.d.
Es seien X11 , . . . , X1n1 ∼ N (µ1 ,σ12 ) und X21 , . . . , X2n2 ∼ N (µ2 , σ22 ) unabh¨angige Stichproben. Dann sind die stichprobenweise berechneten erni (Xij − X i )2 mit X i = wartungstreuen Varianzsch¨atzer Si2 = ni1−1 j=1 ni 1 angig. Es gilt f¨ ur i = 1,2: j=1 Xij unabh¨ ni Qi =
(ni − 1)Si2 ∼ χ2 (ni − 1) σi2
Q1 und Q2 sind unabh¨angig. Somit ist der Quotient F -verteilt: (n1 − 1)S12 σ22 Q1 = ∼ F (n1 − 1,n2 − 1). Q2 (n2 − 1)S2 σ12 Haben beide Stichproben die selbe Varianz (σ12 = σ22 ), dann h¨angt der Quotient nur von den Beobachtungen ab.
3.4 Konfidenzintervalle
153
3.4 Konfidenzintervalle √ Bei einem großen Standardfehler (z.B. S/ n = 5.45) t¨auscht die Angabe eines Punktsch¨atzers mit vielen Nachkommastellen (z.B. x ¯ = 11.34534) leicht eine Genauigkeit vor, die statistisch nicht gerechtfertigt ist. W¨are es nicht sinnvoller, ein Intervall [L,U ] f¨ ur den unbekannten Parameter ϑ anzugeben, das aus den Daten berechnet wird? Beim statistischen Konfidenzintervall (Vertrauensintervall) konstruiert man das Intervall so, dass es mit einer vorgegebenen Mindestwahrscheinlichkeit 1−α den wahren Parameter u ¨berdeckt und nur mit einer Restwahrscheinlichkeit α der Parameter nicht u ¨berdeckt wird. Konfidenzintervall, Konfidenzniveau Ein Intervall [L,U ] mit datenabh¨angigen Intervallgrenzen L = L(X1 , . . . , Xn ) und U = U (X1 , . . . , Xn ) heißt Konfidenzintervall (Vertrauensbereich) zum Konfidenzniveau 1 − α, wenn P ([L,U ] ∋ ϑ) ≥ 1 − α.
Die Aussage L ≤ ϑ ≤ U“ ist dann mit Wahrscheinlichkeit 1 − α richtig ” ¨ und mit Wahrscheinlichkeit α falsch. Ubliche Konfidenzniveaus sind 1 − α = 0.9, 0.95 und 0.99. Begrifflich abzugrenzen sind Konfidenzintervalle (f¨ ur einen Parameter ϑ) von Prognoseintervallen (f¨ ur eine Zufallsvariable X). Ein Prognoseintervall f¨ ur X ist ein Intervall [a,b] mit festen (deterministischen, also nicht von den Daten abh¨angigen) Grenzen a,b ∈ R. Soll die Prognose a ≤ X ≤ b“ mit einer ” Wahrscheinlichkeit von 1 − α gelten, so sind a und b als α/2- bzw. (1 − α/2)Quantile der Verteilung von X zu w¨ahlen. Viele Konfidenzintervalle k¨onnen jedoch aus Prognoseintervallen geeigneter Zufallsgr¨oßen abgeleitet werden. 3.4.1 Konfidenzintervall f¨ ur µ i.i.d.
Gegeben seien X1 , . . . ,Xn ∼ N (µ,σ 2 ), wobei wir ein Konfidenzintervall f¨ ur den Parameter µ angeben wollen. Ausgangspunkt ist ein Prognoseintervall √ f¨ ur die Statistik T = n(X − µ)/S, die einer t(n − 1)-Verteilung folgt. Die Aussage √ X −µ ≤ t(n − 1)1−α/2 −t(n − 1)1−α/2 ≤ n S ist mit einer Wahrscheinlichkeit von 1−α wahr. Diese Ungleichungskette kann nun ¨aquivalent so umgeformt werden, dass nur µ in der Mitte stehen bleibt. Dies ergibt
154
3 Schließende Statistik
S S X − t(n − 1)1−α/2 √ ≤ µ ≤ X + t(n − 1)1−α/2 √ . n n ¨ Da beide Ungleichungsketten durch Aquivalenzumformungen auseinander hervor gehen, haben beide Aussagen dieselbe Wahrscheinlichkeit. Somit ist + , S S √ √ X − z1−α/2 , X + z1−α/2 n n ein Konfidenzintervall zum Konfidenzniveau 1 − α. Ist σ bekannt, so ersetzt man in diesen Formeln S durch σ und das t(n−1)1−α/2 -Quantil durch das Normalverteilungsquantil z1−α/2 , damit die Wahrscheinlichkeitsaussage stimmt. Mitunter sind einseitige Vertauensbereiche relevant.
√ " 1) Einseitiges unteres Konfidenzintervall: −∞, X + t(n − 1)1−α · S/ n Mit einer √ Wahrscheinlichkeit von 1 − α ist die Aussage ”µ ≤ X + t(n − 1)1−α · S/ n“ richtig. ! √ 2) Einseitiges oberes Konfidenzintervall: X − t(n − 1)1−α · S/ n,∞ liefert analog eine untere Schranke. F¨ ur bekanntes σ ersetzt man wieder S durch σ und verwendet z1−α anstatt t(n − 1)1−α . 3.4.2 Konfidenzintervalle f¨ ur σ 2 i.i.d.
Gegeben seien X1 , . . . ,Xn ∼ N (µ,σ 2 ). Wir suchen nun Konfidenzinter2 = vallef¨ ur Varianz σ 2 der Daten. Ausgangspunkt ist der Sch¨atzer σ n 1 2 i=1 (Xi − X) . Ist σ bekannt, so tritt das Ereignis n−1 χ2 (n − 1)α/2 ≤
(n − 1) σ2 ≤ χ2 (n − 1)1−α/2 σ2
mit Wahrscheinlichkeit 1 − α ein. Umformen liefert ein zweiseitiges Konfidenzintervall f¨ ur σ 2 : + , n−1 n−1 2 2 σ , σ χ2 (n − 1)1−α/2 χ2 (n − 1)α/2
Analog erh¨alt man als einseitiges unteres Konfidenzintervall [0,(n−1) σ 2 /χ2 (n− 2 2 1)α ] sowie als einseitiges oberes Konfidenzintervall [(n−1) σ /χ (n−1)1−α ,∞).
3.5 Einf¨ uhrung in die statistische Testtheorie
155
3.4.3 Konfidenzintervall f¨ ur p Gegeben sei eine binomialverteilte Zufallsvariable Y ∼ Bin(n,p). Ein (approximatives) (1 − α)-Konfidenzintervall f¨ ur die Erfolgswahrscheinlichkeit p ist gegeben durch [L,U ] mit p(1 − p) L = p − z1−α/2 n p(1 − p) U = p + z1−α/2 n
Die Herleitung ist ganz ¨ahnlich wie bei dem Konfidenzintervall f¨ ur µ. Die ¨ Uberdeckungswahrscheinlichkeit wird jedoch nur n¨aherungsweise (in großen Stichproben) eingehalten, da man den Zentralen Grenzwertsatz anwendet: √ n( p − p)/ p(1 − p) ist in großen Stichproben n¨aherungsweise standardnormalverteilt. Insbesondere bei kleinen Stichprobenumf¨angen sind die Konfidenzintervalle [pL ,pU ] nach Pearson-Clopper besser: pL =
y · fα/2 , n − y + 1 + y · fα/2
pU =
(y + 1)f1−α/2 n − y + (y + 1)f1−α/2
mit den folgenden Quantilen der F -Verteilung: fα/2 = F (2y,2(n − y + 1))α/2 , f1−α/2 = F (2(y + 1),2(n − y))1−α/2 .
3.5 Einfu ¨ hrung in die statistische Testtheorie Experimente bzw. Beobachtungsstudien werden oft durchgef¨ uhrt, um bestimmte Hypothesen u ¨ber die Grundgesamtheit empirisch an einer Stichprobe zu u ufen. Wir betrachten in dieser Einf¨ uhrung den Fall, dass zwei Hy¨berpr¨ pothesen um die Erkl¨arung des zugrunde liegenden Verteilungsmodells f¨ ur die Daten konkurrieren. Testproblem, Nullhypothese, Alternative Sind f0 und f1 zwei m¨ogliche Verteilungen f¨ ur eine Zufallsvariable X, dann wird das Testproblem, zwischen X ∼ f0 und X ∼ f1 zu entscheiden, in der Form H0 : f = f0
gegen
H1 : f = f1
notiert, wobei f die wahre Verteilung von X bezeichnet. H0 heißt Nullhypothese und H1 Alternative.
156
3 Schließende Statistik
Meist kann das Datenmaterial X1 , . . . ,Xn durch eine aussagekr¨aftige Zahl T = T (X1 , . . . ,Xn ) (Statistik) verdichtet werden. Sofern T u ¨berhaupt zur Entscheidung zwischen H0 und H1 geeignet ist, k¨onnen wir in der Regel T so (um-) definieren, dass T tendenziell kleine Werte annimmt, wenn H0 gilt, und tendenziell große Werte, wenn H1 zutrifft. Das heißt, H0 und H1 implizieren unterschiedliche Verteilungsmodelle f¨ ur T . Wir wollen an dieser Stelle annehmen, dass T eine Dichte besitzt. Gilt H0 , so bezeichnen wir die Dichte von T mit fT,0 (x), gilt hingegen H1 , dann sei fT,1 (x) die Dichte von T . Statistischer Test Ein (statistischer) Test ist eine Entscheidungsregel, die basierend auf T entweder zugunsten von H0 (Notation: H0“) oder zu” gunsten von H1 ( H1“) entscheidet. ” In der betrachteten Beispielsituation ist das einzig sinnvolle Vorgehen, H0 zu akzeptieren, wenn T einen Schwellenwert ckrit - genannt: kritischer Wert - nicht u ¨berschreitet und ansonsten H0 abzulehnen (zu verwerfen). Also: H1“ ⇔ T > ckrit . ckrit zerlegt die Menge R der m¨oglichen Realisierungen ” von T in zwei Teilmengen A = (−∞,ckrit ] und Ac = (ckrit ,∞). A heißt Annahmebereich und Ac Ablehnbereich (Verwerfungsbereich). Wesentlich sind nun die folgenden Beobachtungen: • Auch wenn H0 gilt, werden große Werte von T beobachtet (allerdings selten). • Auch wenn H1 gilt, werden kleine Werte von T beobachtet (allerdings selten). Folglich besteht das Risiko, Fehlentscheidungen zu begehen. Man hat zwei Fehlerarten zu unterscheiden. Fehler 1. und 2. Art Eine Entscheidung f¨ ur H1 , obwohl H0 richtig ist, heißt Fehler 1. Art. H0 wird dann f¨alschlicherweise verworfen. Eine Entscheidung f¨ ur H0 , obwohl H1 richtig ist, heißt Fehler 2. Art. H0 wird f¨alschlicherweise akzeptiert. Insgesamt sind vier Konstellationen m¨oglich, die in der folgenden Tabelle zusammengefasst sind. H0 H1 √ Fehler√2. Art H0“ ” H “ Fehler 1. Art ” 1 Da H0 und H1 explizite Aussagen u ¨ber die Verteilung von T machen, ist es m¨ oglich, den Fehler 1. bzw. 2. Art zu quantifizieren. Die Fehlerwahrschein-
3.5 Einf¨ uhrung in die statistische Testtheorie
157
PH0 (T > ckrit ) =
0.0
0.1
0.2
0.3
0.4
lichkeit 1. Art ist die unter H0 berechnete Wahrscheinlichkeit, f¨alschlicherweise H0 abzulehnen,
0
2
4
6
8
10
=
∞
fT,0 (x) dx,
ckrit
PH1 (T ≤ ckrit ) =
0.0
0.1
0.2
0.3
0.4
und heißt auch Signifikanzniveau der Entscheidungsregel ”Verwerfe H0 , wenn T > ckrit ”. Die Fehlerwahrscheinlichkeit 2. Art ist die unter H1 berechnete Wahrscheinlichkeit, f¨alschlicherweise H0 zu akzeptieren:
0
2
4
6
8
10
=
ckrit
fT,1 (x) dx −∞
Aus statistischer Sicht sind dies die beiden relevanten Maßzahlen zur rationalen Beurteilung eines Entscheidungsverfahrens. Aus obigen Abbildungen wird ersichtlich, dass man in einem Dilemma steckt: Durch Ver¨andern des kritischen Wertes ckrit ¨andern sich sowohl die Wahrscheinlichkeit f¨ ur einen Fehler 1. als auch 2. Art, jedoch jeweils in gegens¨atzlicher Richtung. Vergr¨oßert man ckrit , so wird das Risiko eines Fehlers 1. Art kleiner, das Risiko eines Fehlers 2. Art jedoch gr¨oßer. Verkleinert man ckrit , so verh¨alt es sich genau umgekehrt. Signifikanzniveau, Test zum Niveau α Bezeichnet H1“ eine Annahme der ” Alternative und H0“ eine Annahme der Nullhypothese durch eine Entschei” ∧ dungsregel (im Beispiel: H1“ = T > ckrit ), dann ist durch diese Regel ein ” statistischer Test zum Signifikanzniveau (Niveau) α gegeben, wenn PH0 ( H1“) ≤ α . ” Genauer ist die linke Seite ist das tats¨achliche Signifikanzniveau des Tests und die rechte Seite das vorgegebene nominale Signifikanzniveau. Man fordert nur ≤ statt =, da es bei manchen Testproblemen nicht m¨oglich ist, den Test so zu konstruieren, dass das nominale Niveau exakt erreicht wird. Mathematisch ist ein Test eine Funktion φ : Rn → {0,1}, wobei H0 genau dann abgelehnt wird, wenn φ(x) = 1. Der Test φ operiert dann auf dem Niveau EH0 (φ) = PH0 (φ = 1). Ein statistischer Nachweis (der Alternative H1 ) zum Niveau α liegt vor, wenn der Nachweis lediglich mit einer Wahrscheinlichkeit von α · 100% irrt¨ umlich erfolgt. F¨ ur die obige Beispielsituation muss daher die kritische Grenze so gew¨ahlt werden, dass PH0 (X > ckrit ) ≤ α gilt.
158
3 Schließende Statistik
Sch¨ arfe (Power) Die Wahrscheinlichkeit eines Fehlers 2. Art wird u ¨blicherweise mit β bezeichnet. Die Gegenwahrscheinlichkeit, 1 − β = PH1 ( H1“) = EH1 (1 − φ), ” arfe dass der Test die Alternative H1 tats¨achlich aufdeckt, heißt Sch¨ (Power) des Testverfahrens. Nur wenn die Sch¨arfe eines Tests hinreichend groß ist, kann man erwarten, aus der Analyse von realen Daten auch etwas zu lernen. In der folgenden Tabelle sind noch einmal die vier Entscheidungskonstellationen und die zugeh¨origen Wahrscheinlichkeiten dargestellt.
H“ ” 0
H0 √
H1 Fehler 2. Art β √
1−α H1“ Fehler 1. Art ” α 1 − β: Sch¨arfe (Power)
In der betrachteten Beispielsituation, die uns auf diese Definitionen gef¨ uhrt hat, sind Nullhypothese und Alternative einelementig. Liegt allgemeiner ein Verteilungsmodell P vor, so ist ein Testproblem durch eine disjunkte Zerlegung von P in zwei Teilmengen P0 und P1 gegeben: Ist P die wahre Verteilung der Daten, dann ist zwischen H0 : P ∈ P0 und H1 : P ∈ P1 zu entscheiden.
Ist P = {Pϑ |ϑ ∈ Θ} ein parametrisches Verteilungsmodell, dann entsprechen P0 und P1 - und somit H0 und H1 - gewissen Teilmengen Θ0 bzw. Θ1 des Parameterraums. Das Testproblem nimmt dann die Gestalt H0 : ϑ ∈ Θ0
gegen
H1 : ϑ ∈ Θ1
an. Dann ist φ ein Test zum Niveau α, falls f¨ ur alle Verteilungen/Parameterwerte, die zur Nullhypothese geh¨oren, die Fehlerwahrscheinlichkeit 1. Art α nicht u ¨berschreitet. In Formeln: sup Eϑ φ = sup Pϑ ( H1“) ≤ α ” ϑ∈H0
gilt.
ϑ∈H0
F¨ ur jeden Parameterwert ϑ ∈ Θ betrachtet man dann die Ablehnwahrscheinlichkeit G(ϑ) = Pϑ ( H1“) = Eϑ (1 − φ), ϑ ∈ Θ. ” Diese Funktion heißt G¨ utefunktion des Tests.
3.6 1-Stichproben-Tests
159
3.6 1-Stichproben-Tests Eine Basissituation der Datenanalyse ist die Erhebung einer einfachen Zufallsstichprobe von Zufallsvariablen, um durch einen statistischen Test empirisch zu u ufen, ob gewisse Annahmen u ¨berpr¨ ¨ber die Verteilung der Zufallsvariablen stimmen. 3.6.1 Motivation Zur Motivation betrachten wir ein konkretes Beispiel: Beispiel 3.6.1. Die Sch¨atzung der mittleren Ozonkonzentration w¨ahrend der Sommermonate ergab f¨ ur eine Großstadt anhand von n = 26 Messungen die Sch¨atzung x = 244 (in [µg/m3 ]) bei einer Standardabweichung von s = 5.1. Der im Ozongesetz v. 1995 festgelegte verbindliche Warnwert betr¨agt 240 ¨ des Warnwerts [µg/m3 ]. Kann dieses Ergebnis als signifikante Uberschreitung gewertet werden (α = 0.01)? 3.6.2 Stichproben-Modell Bei 1-Stichproben-Problemen liegt eine einfache Stichprobe i.i.d.
X1 , . . . , Xn ∼ F (x) von n Zufallsvariablen vor, wobei Xi den zufallsbehafteten numerischen Ausgang des i-ten Experiments, der i-ten Messwiederholung bzw. Beobachtung repr¨asentiert. Es gelte: 1) X1 , . . . , Xn sind identisch verteilt nach einer gemeinsamen Verteilungsfunktion F (x) (Wiederholung unter identischen Bedingungen). 2) X1 , . . . , Xn sind stochastisch unabh¨angig (unabh¨angige Wiederholungen). Die im folgenden Abschnitt besprochenen Verfahren gehen von normalverteilten Daten aus. 3.6.3 Gauß- und t-Test Die n Beobachtungen X1 , . . . , Xn seien unabh¨angig und identisch normalverteilt, d.h. i.i.d. Xi ∼ N (µ, σ 2 ), i = 1, . . . , n,
160
3 Schließende Statistik
mit Erwartungswert µ und Varianz σ 2 . Wir behandeln mit dem Gauß- bzw. tTest die in dieser Situation u ¨blichen Testverfahren, um Hypothesen u ¨ber den Parameter µ zu u ufen. Der Gaußtest wird verwendet, wenn die Streuung ¨berpr¨ σ bekannt ist. Dem Fall unbekannter Streuung entspricht der t-Test. ⊲ Hypothesen Einseitiges Testproblem (Nachweis, dass µ0 u ¨berschritten wird) H0 : µ ≤ µ0
gegen
H1 : µ > µ0 ,
bzw. (Nachweis, dass µ0 unterschritten wird) H0 : µ ≥ µ0
gegen
H1 : µ < µ0 .
Das zweiseitige Testproblem stellt der Nullhypothese, dass µ = µ0 gilt (Einhaltung des Sollwertes“ µ0 ), die Alternative µ = µ0 gegen¨ uber, dass eine ” Abweichung nach unten oder oben vorliegt: H0 : µ = µ0
gegen
H1 : µ = µ0 .
⊲ Der Gaußtest Der µ = E(Xi ) wird durch das arithmetische Mittel µ =X = Lageparameter n 1 X gesch¨ a tzt, welches unter der Normalverteilungsannahme wiederum i i=1 n normalverteilt ist: X ∼ N (µ, σ 2 /n). √ X streut also um den wahren Erwartungswert µ mit Streuung σ/ n. F¨ ur einen einseitigen Test H0 : µ ≤ µ0 gegen H1 : µ > µ0 ist es daher nahe liegend, H0 zu verwerfen, wenn die Differenz zwischen unserem Sch¨atzer µ = X und dem Sollwert µ0 groß“ ist. ” Statistisch denken heißt, diese Differenz nicht f¨ ur bare M¨ unze zu nehmen. Da die Daten streuen, streut auch der Sch¨ a tzer. Die Differenz muss auf das √ Streuungsmaß σ/ n relativiert werden. Man betrachtet daher die Statistik T =
X − µ0 √ . σ/ n
T misst die Abweichung des Sch¨atzer vom Sollwert, ausgedr¨ uckt in Streuungseinheiten. Große positive Abweichungen sprechen gegen die Nullhypothese H0 : µ ≤ µ0 . Daher wird H0 verworfen, wenn T > ckrit , wobei ckrit ein noch zu bestimmender kritischer Wert ist. ckrit muss so gew¨ahlt werden, dass die unter H0 berechnete Wahrscheinlichkeit des Verwerfungsbereiches B = (ckrit , ∞) h¨ochstens α betr¨agt. Problematisch ist nun, dass
3.6 1-Stichproben-Tests
161
die Nullhypothese keine eindeutige Verteilung postuliert, sondern eine ganze Schar von Verteilungsmodellen, n¨amlich alle Normalverteilungen mit µ ≤ µ0 . Man nimmt daher diejenige, die am schwierigsten von den H1 –Verteilungen zu unterscheiden ist. Dies ist offensichtlich bei festgehaltenem σ die Normalverteiur den Moment tun wir daher so, als ob die Nullhypothese lung mit µ = µ0 . F¨ in der Form H0 : µ = µ0 formuliert sei. Unter H0 : µ = µ0 kennen wir die Verteilung von T . Es gilt T =
X − µ0 √ σ/ n
µ=µ0
∼ N (0, 1).
Als kritischer Wert ergibt sich das (1 − α)-Quantil z1−α der Standardnormalverteilung N (0,1) : ckrit = z1−α . Dann ist PH0 (T > ckrit ) = P (U > z1−α ), U ∼ N (0,1). Die Entscheidungsregel lautet daher: Einseitiger Gaußtest (1) Der einseitige Gaußtest verwirft die Nullhypothese H0 : µ ≤ µ0 auf dem Signifikanzniveau α zugunsten von H1 : µ > µ0 , wenn T > z1−α . Der Ablehnbereich des Tests ist das Intervall (z1−α , ∞). Man kann diese Entscheidungsregel (Ungleichung) nach X aufl¨osen: T > z1−α
⇔
σ X > µ0 + z1−α · √ n
Diese Formulierung zeigt, dass beim statistischen Test das Stichprobenmittel ¨ nicht in naiver Weise direkt mit µ0 verglichen wird. Ein Uberschreiten ist erst dann statistisch signifikant, wenn die Differenz auch einen Sicherheitszuschlag u ¨bersteigt. Dieser Sicherheitszuschlag besteht aus drei Faktoren: • dem Quantil z1−α (kontrolliert durch das Signifikanzniveau), • der Streuung σ des Merkmals in der Population und
• dem Stichprobenumfang n.
¨ Die Uberlegungen zum einseitigen Gaußtest f¨ ur das Testproblem H0 : µ ≥ µ0 gegen H1 : µ < µ0 (Nachweis des Unterschreitens) verlaufen ganz analog, wobei lediglich die Ungleichheitszeichen zu kippen sind. Die Entscheidungsregel lautet: Einseitiger Gaußtest (2) Der einseitige Gaußtest verwirft H0 : µ ≥ µ0 auf dem Signifikanzniveau α zugunsten von H1 : µ < µ0 , wenn T < zα . Aufl¨osen nach X liefert: σ T < zα ⇐⇒ X < µ0 − zα · √ . n
162
3 Schließende Statistik
In der folgenden Tabelle sind die zu den g¨angigsten Signifikanzniveaus geh¨origen kritischen Werte f¨ ur beide einseitigen Tests zusammengestellt. α zα z1−α
0.1 0.05 0.01 −1.282 −1.645 −2.326 1.282 1.645 2.326
F¨ ur das zweiseitige Testproblem H0 : µ = µ0 gegen H1 : µ = µ0 sprechen sowohl große Werte der Teststatistik T gegen H0 als auch sehr kleine. Der Ablehnbereich ist somit zweigeteilt und von der Form A = (−∞, c1 ) ∪ (c2 , ∞), wobei c1 und c2 so zu w¨ahlen sind, dass P0 (A) = α gilt. Die Fehlerwahrscheinlichkeit muss auf beide Teilbereiche von A aufgeteilt werden. Man geht hierbei symmetrisch vor und w¨ahlt c1 so, dass PH0 (T < c1 ) = α/2 gilt. Somit ist c1 = zα/2 = −z1−α/2 . c2 wird nun so bestimmt, dass PH0 (T > c2 ) = α/2 ist, also c2 = z1−α/2 . Insgesamt resultiert folgende Testprozedur: Zweiseitiger Gaußtest Der zweiseitige Gauß-Test verwirft die Nullhypothese H0 : µ = µ0 zugunsten der Alternative H1 : µ = µ0
(Abweichung vom Sollwertµ0 ),
wenn |T | > z1−α/2 . ⊲ Der t-Test: In aller Regel ist die Standardabweichung σ der Beobachtungen nicht bekannt, so dass die Teststatistik des Gaußtests nicht berechnet werden kann. Der Streuungsparamter σ der Normalverteilung tritt hier jedoch als sogenannte St¨orparameter (engl: nuisance parameter) auf, da wir keine Inferenz u ¨ber σ, sondern u ¨ber den Lageparameter µ betreiben wollen. Wir betrachten das zweiseitige Testproblem H0 : µ = µ0
gegen
H1 : µ = µ0 .
Man geht nun so vor, dass man den unbekannten σ in der TestSt¨orparameter n 1 statistik durch den konsistenten Sch¨atzer s = n−1 i=1 (Xi − X)2 ersetzt. Also: X − µ0 √ . T = s/ n Unter der Nullhypothese H0 : µ = µ0 gilt: T =
X − µ0 √ s/ n
µ=µ0
∼ t(n − 1).
3.6 1-Stichproben-Tests
163
Große Werte von |T | (also sowohl sehr kleine (negative) als auch sehr große (positive) Werte von T ) sprechen gegen die Nullhypothese. Die weitere Konstruktion verl¨auft nun ganz ¨ahnlich wie beim Gaußtest: Man hat im Grunde zwei kritische Werte c1 und c2 anzugeben: c1 soll so gew¨ahlt werden, dass Unterschreitungen von c1 durch T (d.h.: T < c1 ) als signifikant gewertet wer¨ den k¨onnen, c2 soll entsprechend so gew¨ahlt werden, dass Uberschreitungen von c2 durch T als signifikant gewertet werden k¨onnen. Der Verwerfungsbereich ist zweigeteilt und besteht aus den Intervallen (−∞, c1 ) und (c2 ,∞). Die kritischen Werte c1 und c2 werden so gew¨ahlt, dass !
PH0 (T < c1 ) = P (t(n − 1) < c1 ) = α/2 !
PH0 (T > c2 ) = P (t(n − 1) > c2 ) = α/2 Somit ergibt sich c1 = t(n − 1)α/2 und c2 = t(n − 1)1−α/2 . Da die t-Verteilung symmetrisch ist, gilt: c1 = −c2 . Wir erhalten die Entscheidungsregel: Zweiseitiger t-Test Der zweiseitige t-Test verwirft H0 : µ = µ0 zugunsten von H1 : µ = µ0 auf dem Signifikanzniveau α, wenn |T | > t(n − 1)1−α/2 . Der einseitige t-Test f¨ ur das Testproblem H0 : µ ≤ µ0 gegen H1 : µ > µ0 verwirft H0 , wenn T > t(n − 1)1−α . Die Nullhypothese H0 : µ ≥ µ0 wird zugunsten von H1 : µ < µ0 verworfen, wenn T < −t(n − 1)1−α . Beispiel 3.6.2. Wir wollen den t-Test auf die Daten aus Beispiel 3.7.1 anwenden. Zu testen ist H0 : µ ≤ 240 gegen H1 : µ > 240. Zun¨achst erhalten wir als beobachtete Teststatistik √ 244 − 240 t = Tobs = 26 = 3.999, 5.1 die mit dem kritischen Wert t(25)0.99 = 2.485 zu vergleichen ist. Da t > 2.485, ¨ k¨ onnen wir auf einem Signifikanzniveau von α = 0.01 auf eine Uberschreitung des Warnwerts schließen. ⊲ Der p-Wert Wir haben oben die einseitigen Gaußtests nach folgendem Schema konstruiert: Nach Festlegung des Signifikanzniveaus wird der Verwerfungsbereich des Tests durch Berechnung der entsprechenden Quantile bestimmt. F¨allt der beobachtete Wert tobs der Teststatistik in diesen Verwerfungsbereich, so wird H0 verworfen, ansonsten beibehalten. Alle gebr¨auchlichen Statistikprogramme gehen jedoch in aller Regel nicht nach diesem Schema vor, und der Grund ist sehr nahe liegend: Es ist in aller Regel sinnvoller, das Ergebnis einer statistischen Analyse so zu dokumentieren und kommunizieren, dass Dritte die Testentscheidung aufgrund ihres pers¨onlichen Signifikanzniveaus (neu) f¨allen k¨onnen.
3 Schließende Statistik
0.0
0.1
0.2
0.3
0.4
164
−3
−2
−1
0
1
2
3
Abb. 3.3. Zweiseitiger t-Test. Unterlegt ist der Verwerfungsbereich. Ferner ist eine Realisation tobs der Teststatistik T markiert, bei der H0 verworfen wird (p-Wert kleiner α).
Hierzu wird der sogenannte p-Wert berechnet. Dieser gibt an, wie wahrscheinlich es bei einer (gedanklichen) Wiederholung des Experiments ist, einen Teststatistik-Wert zu erhalten, der noch deutlicher gegen die Nullhypothese spricht, als es der tats¨achlich beobachtete Wert tut. Etwas laxer ausgedr¨ uckt: Der p–Wert ist die Wahrscheinlichkeit, noch signifikantere Abweichungen von der Nullhypothese zu erhalten. ¨ Aquivalent hierzu ist die Charakterisierung des p-Wertes als das maximale Signifikanzniveau, bei dem der Test noch nicht verwirft, bei dem also die Teststatistik mit dem kritischen Wert u ¨bereinstimmt. Zur Erl¨auterung bezeichne tobs = T (x1 , . . . , xn ) den realisierten (d.h. konkret beobachteten) Wert der Teststatistik und T ∗ die Teststatistik bei einer (gedanklichen) Wiederholung des Experiments. Der p-Wert f¨ ur das Testproblem H0 : µ ≤ µ0
gegen
H1 : µ > µ0
ist dann formal definiert durch p = PH0 (T ∗ > tobs ).
3.6 1-Stichproben-Tests
165
Dient tobs gedanklich als kritischer Wert, dann wird H0 abgelehnt, wenn man p als Signifikanzniveau w¨ahlt. Nun gilt (s. Abbildung 3.4) tobs > ckrit ⇔ PH0 (T ∗ > tobs ) < α.
0.0
0.1
0.2
0.3
0.4
Also wird H0 genau dann verworfen, wenn der p-Wert kleiner als α ist. Es ist zu beachten, dass prinzipiell der p-Wert von der Formulierung des Testproblems abh¨angt. F¨ ur das einseitige Testproblem H0 : µ ≥ µ0 gegen H1 : µ < µ0 sind extremere Werte als tobs durch T < tobs gegeben. Somit ist in diesem Fall der p-Wert durch p = PH0 (T < tobs ) gegeben.
−3
−2
−1
0
1
2
3
Abb. 3.4. Einseitiger Gaußtest. Markiert ist eine Realisation der Teststatistik, die zur Beibehaltung der Nullhypothese f¨ uhrt.
Beim zweiseitigen t-Test sprechen große Werte von |T | gegen die Nullhypothese. Der p-Wert ist daher gegeben durch pzweis. = PH0 (|T | > |t|obs ), wobei |t|obs den beobachteten Wert der Teststatistik |T | bezeichnet. Mitunter geben Statistik-Programme nur den zweiseitigen oder nur den einseitigen pWert aus. Ist die Verteilung von T symmetrisch, dann gilt: pzweis. = P (|T | > |t|obs ) = PH0 (T < −|t|obs ) + PH0 (T > |t|obs ) = 2 · peins.
166
3 Schließende Statistik
Hat man nur den zweiseitigen p-Wert zur Verf¨ ugung, so muss man pzweis. /2 mit α vergleichen und zus¨atzlich auf das Vorzeichen von tobs schauen: Beim einseitigen Test von H0 : µ ≤ µ0 gegen H1 : µ > µ0 wird H0 auf dem Niveau α verworfen, wenn pzweis. /2 < α und tobs > 0. Beispiel 3.6.3. Angenommen, wir f¨ uhren einen zweiseitigen Gaußtest durch und erhalten als beobachteten Wert der Teststatistik den Wert |t| = |Tobs | = 2.14. Der p-Wert ist p = P (|T | > |t|) = 2P (N (0,1) > 2.14). Es gilt: P (N (0,1) > 2.14) ≈ 0.0162. H0 wird daher auf dem 5%-Niveau abgelehnt. ⊲ G¨ utefunktion Es stellt sich die Frage nach der Sch¨arfe (G¨ ute, Power) des Gauß- bzw. tTests, also nach der Wahrscheinlichkeit mit der die Alternative tats¨achlich aufgedeckt wird. Diese Wahrscheinlichkeit h¨angt ab von den beiden Parameter µ und σ2 . Hier soll die Abh¨angigkeit von µ im Vordergrund stehen. Die G¨ utefunktion ist definiert als die Ablehnwahrscheinlichkeit des Tests, wenn der Erwartungswert der Beobachtungen gerade µ ist: G(µ) = P ( H1“|µ, σ 2 ) ” Geh¨ort µ zur Nullhypothese, so gilt G(µ) ≤ α. Ist µ ein H1 -Wert, so gibt G(µ) gerade die Power des Tests bei Vorliegen der Alternative µ an. Betrachten wir ein konkretes Beispiel: Wir wollen anhand von n = 25 unabh¨angig und identisch normalverteilten Messungen, deren Streuung σ = 10 sei, untersuchen, ob der Grenzwert µ0 = 150 u ¨berschritten ist. Das Testproblem lautet: H0 : µ ≤ µ0 = 150
(Grenzwert eingehalten)
versus H1 : µ > µ0 = 150
(Grenzwert u ¨berschritten)
W¨ ahlen wir das Niveau α = 0.01, so verwirft der einseitige Gaußtest genau √ . dann, wenn T > 2.3263, wobei T = X−150 10/ n Frage: Mit welcher Wahrscheinlichkeit lehnt der Test bei einem wahren Erwartungswert der Messungen von µ = 155 bzw. µ = 160 die Nullhypothese H0 tats¨achlich ab?
3.6 1-Stichproben-Tests
167
Zur Beantwortung berechnen wir die G¨ utefunktion G(µ) = Pµ (T > 2.3263). Wir werden hierbei den Stichprobenumfang zun¨achst nicht spezifizieren. Ist µ der wahre Erwartungswert der Messungen, so ist in der Teststatistik X nicht an seinem Erwartungswert µ zentriert. Um dies zu korrigieren, schreiben wir µ − 150 X − 150 X −µ √ = √ + √ . 10/ n 10/ n 10/ n Der erste Summand ist N (0,1)-verteilt, den zweiten k¨onnen wir ausrechnen, wenn n und µ bekannt sind. Wir k¨onnen nun die G¨ utefunktion aufstellen: X − 150 √ > 2.3263 G(µ) = Pµ 10/ n X −µ µ − 150 √ + √ > 2.3263 = Pµ 10/ n 10/ n X −µ µ − 150 √ > 2.3263 − √ = Pµ 10/ n 10/ n µ − 150 µ − 150 √ √ = Φ −2.3263 + = 1 − Φ 2.3263 − 10/ n 10/ n F¨ ur n = 25 und µ = 155 erhalten wir G(155) = Φ(−2.3263 + 2.5) = Φ(0.1737) ≈ 0.569. Genauso berechnet man G(160) = Φ(2.6737) ≈ 0.9962. Eine Abweichung von 10 Einheiten wird also mit sehr hoher Wahrscheinlichkeit entdeckt, 5 Einheiten jedoch lediglich mit Wahrscheinlichkeit ≈ 0.57.
Ersetzt man in der obigen Herleitung 2.3263 durch z1−α , 150 durch µ und 10 durch σ, so erh¨alt man die allgemeine Formel f¨ ur die G¨ ute des einseitigen Gaußtests: µ − µ0 √ G(µ) = Φ −z1−α + σ/ n ¨ Eine analoge Uberlegung liefert f¨ ur den zweiseitigen Test: µ − µ0 √ Gzweis. (µ) = 2Φ −z1−α/2 + σ/ n
Diese Formeln zeigen, dass die G¨ utefunktion differenzierbar in µ ist, monoton wachsend im Stichprobenumfang n, monoton wachsend in µ − µ0 (einseitiger Test) bzw. in |µ − µ0 | (zweiseitiger Test) sowie monoton fallend in σ 2 . F¨ ur den t-Test ist die Situation etwas schwieriger. Man ben¨otigt die Verteilung unter der Alternative, die sich nicht so elegant auf die Verteilung unter H0
168
3 Schließende Statistik
zur¨ uckf¨ uhren l¨aßt, jedoch in jedem besseren Statistik-Computer-Programm zu finden ist. In vielen praktischen Anwendungen reicht es, die obigen Formeln f¨ ur den Gaußtest als N¨aherungsformel anzuwenden, wobei man σ durch eine Sch¨atzung ersetzt. ⊲ Fallzahlplanung Ein statistischer Test zum Niveau α kontrolliert zun¨achst nur den Fehler 1. Art, dass die Nullhypothese f¨alschlicherweise verworfen wird. Der Fehler 2. Art, dass die Nullhypothese f¨alschlicherweise akzeptiert wird, ist zun¨achst nicht unter Kontrolle. Das zum Fehler 2. Art komplement¨are Ereignis ist das Aufdecken der tats¨achlich vorliegenden Alternative. Wir haben im vorigen Abschnitt gesehen, dass die Wahrscheinlichkeit, mit der die Alternative aufgedeckt wird, eine stetige Funktion von µ ist. Ist µ nahe dem H0 -Wert µ0 , so ist sie nur unwesentlich gr¨oßer als α, so dass die zugeh¨orige Wahrscheinlichkeit eines Fehlers 2. Art nahezu 1 − α ist.
Ein praktikables Vorgehen besteht nun darin, eine relevante Mindestabweichung d0 der Lage¨anderung d = µ − µ0 festzulegen und zu verlangen, dass diese mit einer Mindestwahrscheinlichkeit von 1 − β aufgedeckt werden kann. Machen wir uns das Prozedere am konkreten Beispiel des vorigen Abschnitts klar. Dort hatten wir die G¨ utefunktion µ − 150 √ G(µ) = Φ −2.3263 + 10/ n
erhalten. Wir wollen nun die Fallzahl n so bestimmen, dass eine Abweichung von 5 mit einer Wahrscheinlichkeit von 90% aufgedeckt wird. Dies ist gleichbedeutend mit der Forderung, dass die Wahrscheinlichkeit eines Fehlers 2. Art f¨ ur µ = 155 h¨ochstens 0.1 betr¨agt. Mit µ = 155 ist also n so zu w¨ahlen, dass gilt: µ − 150 √ Φ −2.3263 + ≥ 0.9. 10/ n Bezeichnen wir das Argument von Φ mit z, so sehen wir, dass die Gleichung Φ(z) ≥ 1 − β erf¨ ullt ist, wenn z ≥ z1−β ist, da Φ streng monoton wachsend ist. Hierbei ist z1−β das (1 − β)-Quantil der N (0,1)-Verteilung. Also: z = −2.3263 +
√ µ − 150 n ≥ z0.9 10
Aufl¨osen nach n liefert f¨ ur µ = 155 und z0.9 = 1.12816: n≥
102 (2.3263 + 1.2816)2 = 52.068 52
Die gew¨ unschte Sch¨arfe des Tests von mindestens 0.9 f¨ ur µ ≥ 155 ist also ab einem Stichprobenumfang von 53 gew¨ahrleistet.
3.6 1-Stichproben-Tests
169
Ersetzt man wieder die speziellen Werte durch ihre Platzhalter, so ergibt sich als Mindestfallzahl σ2 n≥ (z1−α + z1−β )2 . |µ − µ0 |2 F¨ ur den zweiseitigen Fall ergibt sich die Forderung n≥
σ2 (z1−α/2 + z1−β )2 , |µ − µ0 |2
damit Abweichungen gr¨oßer oder gleich ∆ = |µ − µ0 | mit einer Mindestwahrscheinlichkeit von 1 − β aufgedeckt werden.
F¨ ur den t-Test ist es meist ausreichend, die obigen Formeln als N¨aherungen zu verwenden, wobei σ2 geeignet zu sch¨atzen ist. Um auf der sicheren Seite zu liegen, sollten die Fallzahl (großz¨ ugig) aufgerundet werden. 3.6.4 Vorzeichentest und Binomialtest Nicht immer sind Daten normalverteilt. Der t-Test reagiert auf etliche Abweichungen von der Normalverteilungsannahme sehr empfindlich. Eine Einhaltung des vorgegebenen Niveaus ist dann nicht mehr gew¨ahrleistet. Ein Test, der immer anwendbar ist, solange die Daten unabh¨angig und identisch verteilt sind, ist der Vorzeichentest. Im Unterschied zum t-Test ist dies jedoch ein Test f¨ ur den Median der Verteilung. Der Median stimmt mit dem Erwartungswert u ¨berein, wenn die Verteilung symmetrisch ist. Es zeigt sich, dass dieses Testproblem auf den Binomialtest zur¨ uckgef¨ uhrt werden kann, mit dem Hypothesen u ¨ber die Erfolgswahrscheinlichkeit p einer Binomialverteilung u uft werden k¨onnen. Wir besprechen daher den ¨berpr¨ Binomialtest gleich an dieser Stelle. ⊲ Test f¨ ur den Median
Modell: X1 , . . . , Xn seien unabh¨angig und identisch verteilt mit eindeutigem Median m = x 0.5 , dass heißt: P (X1 ≤ m) = P (X1 ≥ m) = 1/2. Als einseitiges Testproblem formulieren wir H0 : m ≤ m0
versus
H1 : m > m0
Wir k¨onnen dieses Testproblem auf die Situation eines Binomialexperiments zur¨ uckf¨ uhren, indem wir z¨ahlen, wieviele Beobachtungen gr¨oßer als der maximale unter H0 postulierte Median m0 sind. Als Teststatistik verwendet man daher die Anzahl Y (Summe) der Beobachtungen, die gr¨oßer als m0 sind. Dann ist Y binomialverteilt mit Erfolgswahrscheinlichkeit p = P (X1 > m0 ).
170
3 Schließende Statistik
Ist m = m0 , so ist p gerade 1/2, da m0 der Median der Beobachtungen ist. Gilt H0 , so ist p ≤ 1/2, gilt hingegen H1 , so ist p > 1/2. Wir k¨onnen also das urspr¨ ungliche Testproblem auf einen Binomialtest zur¨ uckf¨ uhren. ⊲ Binomialtest Ist allgemein Y eine Bin(n,p)-verteilte Gr¨oße, so wird die Nullhypothese H0 : p ≤ p0 zugunsten der Alternative H1 : p > p0 verworfen, wenn die Anzahl Y der beobachteten Erfolge ,,groß genug” ist. Exakter Binomialtest Der exakte Binomialtest verwirft H0 : p ≤ p0 zugunsten von H1 : p > p0 , wenn Y > ckrit ist. Hierbei ist ckrit die kleinste ganze Zahl, so dass n
k=ckrit +1
n k p (1 − p0 )n−k ≤ α. k 0
In großen Stichproben kann man die Normalapproximation aufgrund des zentralen Grenzwertsatzes verwenden. Gilt p = p0 , so ist E(Y ) = np0 ,
Var(Y ) = np0 (1 − p0 )
und nach dem zentralen Grenzwertsatz gilt in großen Stichproben Y − np0 ∼approx N (0,1). T = np0 (1 − p0 ) Asymptotischer Binomialtest Der asymptotische Binomialtest verwirft H0 : p ≤ p0 auf dem Niveau α zugunsten von H1 : p > p0 , wenn Y − np0 > z1−α . np0 (1 − p0 ) Dies ist a¨quivalent zu Y > np0 + z1−α np0 (1 − p0 ). Beim einseitigen Testproblem H0 : p ≥ p0 gegen H1 : p < p0 wird H0 abgelehnt, wenn T < −z1−α . Der zugeh¨orige zweiseitige Test lehnt H0 : p = p0 zugunsten von H1 : p = p0 ab, wenn |T | > z1−α/2 . In diesen Regeln ist z1−α das (1 − α)-Quantil der N (0,1)-Verteilung. T =
F¨ ur den wichtigen Spezialfall p0 = 1/2 erh¨alt man die einfachere Formel Y − n/2 Y − n/2 =2 √ T = . n n/4
Die G¨ utefunktion des einseitigen Binomialtests berechnet sich zu
3.7 2-Stichproben-Tests
G(p) = Φ
√
p − p0 − n p(1 − p)
p0 (1 − p0 ) z1−α p(1 − p)
171
.
Soll im Rahmen einer Fallzahlplanung der Stichprobenumfang n bestimmt werden, so dass die Alternative p ( > p0 ) mit einer Mindestwahrscheinlichkeit von 1 − β aufgedeckt wird, so gilt n¨aherungsweise n≥
.
p(1 − p) p − p0
z1−β +
p0 (1 − p0 ) z1−α p(1 − p)
/2
.
Beispiel 3.6.4. Eine Bin(40,p)-verteilte Zufallsvariable realisiere sich zu y = 24. Spricht dies schon gegen die Nullhypothese H0 : p ≤ 1/2 und zugunsten H1 : p > 1/2? Wir w¨ahlen α = 0.05. Dann ist n/2 + z0.95 n/4 ≈ 25.2. Somit kann H0 nicht verworfen werden. Die Sch¨arfe des Tests, die Alternative p = 0.6 aufzudecken, betr¨agt n¨aherungsweise G(0.6) ≈ 0.35. Wie groß m¨ ußte der Stichprobenumfang gew¨ahlt werden, damit die Alternative p = 0.6 mit einer Wahrscheinlichkeit von 1 − β = 0.9 aufgedeckt wird? Wir erhalten durch obige N¨aherung n ≥ 211.
3.7 2-Stichproben-Tests Die statistische Analyse von Beobachtungen zweier Vergleichsgruppen mit dem Ziel, Unterschiede zwischen ihnen aufzudecken, ist vermutlich das am h¨ aufigsten eingesetzte Instrument der statistischen Methodenlehre. Es ist zwischen den folgenden Versuchsdesigns zu unterscheiden: • Verbundenes Design: Jeweils zwei Beobachtungen aus beiden Stichproben stammen von einer Versuchseinheit und sind daher stochastisch abh¨angig. (Beispiel: Vorher-Nachher-Studie). • Unverbundenes Design: Alle vorliegenden Beobachtungen stammen von verschiedenen statistischen Einheiten und sind daher voneinander stochastisch unabh¨angig. Im ersten Fall liegt eine Stichprobe von n Wertepaaren (Xi ,Yi ), i = 1, . . . , n, vor, die man erh¨alt, indem an n statistischen Einheiten jeweils zwei Beobachtungen erhoben werden. Im zweiten Fall liegen zwei unabh¨angige Stichproben mit einzelnen Stichprobenumf¨angen n1 und n2 vor, die von n = n1 + n2 verschiedenen statistischen Einheiten stammen.
172
3 Schließende Statistik
3.7.1 Verbundene Stichproben Mitunter ist der aufzudeckende Lageunterschied deutlich kleiner als die Streuung zwischen den statistischen Einheiten. Dann ben¨otigt man sehr große Stichproben, was nicht immer realisierbar ist. Man kann nun so vorgehen, dass man n statistische Einheiten jeweils beiden Versuchsbedingungen (Behandlungen) aussetzt und die Zielgr¨oße erhebt. Dann kann jede Versuchseinheit als seine eigene Kontrolle fungieren. Relevant ist nun nur noch die Streuung von Messungen an einer statistischen Einheit. Die typische Anwendungssituation ist die Vorher-Nachher-Studie. Modell: Es liegt eine Zufallsstichprobe (X1 ,Y1 ), . . . , (Xn ,Yn ) von bivariat normalverteilten Zufallsvariablen vor. Wir wollen durch einen statistischen Test untersuchen, ob sich die Erwartungswerte µX = E(Xi )
und
µY = E(Yi )
unterscheiden. Man berechnet f¨ ur die n statistischen Einheiten die Differenzen Di = Yi − Xi ,
i = 1, . . . , n.
Durch die Differenzenbildung ist das Problem auf die Auswertung einer Stichprobe reduziert. Erwartungswert und Varianz der Differenzen ergeben sich zu: δ = E(Di ) = µY − µX Var(Di ) = Var(X1 ) + Var(Y2 ) − 2 · Cov(X1 ,Y1 ).
δ ist genau dann 0, wenn µX = µY . Wir k¨onnen daher einen t-Test auf die Differenzen anwenden, um die Nullhypothese H0 : δ = 0 ⇔ µX = µY
(kein Effekt)
gegen die (zweiseitige) Alternative H1 : δ = 0 ⇔ µX = µY
(Effekt vorhanden)
zu testen. H0 wird auf einem Signifikanzniveau α verworfen, wenn f¨ ur die Teststatistik T =
D √ SD / n
n 1 2 2 gilt: |T | > t(n−1)1−α/2 . Hierbei ist SD = n−1 i=1 (Di −D) . Soll einseitig H0 : δ ≤ 0 gegen H1 : δ > 0 getestet werden, so schließt man auf einen signifikanten Lageunterschied, wenn T > t(n − 1)1−α . Entsprechend wird H0 : δ ≥ 0 zugunsten von H1 : δ < 0 verworfen, wenn T < t(n − 1)α .
3.7 2-Stichproben-Tests
173
3.7.2 Unverbundene Stichproben Wir besprechen nun den wichtigen Fall, dass zwei unabh¨angige normalverteilte Stichproben auf einen Lageunterschied untersucht werden sollen. ⊲ Motivation Beispiel 3.7.1. Die deskriptive Analyse von zwei Stichproben von n1 = 7 bzw. n2 = 6 Beobachtungen ergibt: Gruppe1 Gruppe2 x −30.71429 62.5 s 32.96824 44.6934 Zu kl¨aren ist einerseits, ob die beobachtete Differenz der Mittelwerte, d = 62.5−(−30.71429) = 93.21429, auf einen tats¨achlichen Unterschied hindeutet, oder ob sie ein stochastisches Artefakt auf Grund der Stichprobenziehung ist. Andererseits ist zu untersuchen, ob die unterschiedlichen Streuungssch¨atzungen auf einen tats¨achlichen Streuungseffekt hindeuten oder nicht. In der Praxis tritt h¨aufig das Problem auf, dass die Streuungen der zu vergleichenden Gruppen nicht identisch sind. Dieses Ph¨anomen bezeichnet man als Varianzinhomogenit¨ at oder Heteroskedastizit¨ at und spricht (ein wenig lax) von heteroskedastischen Daten. Stimmen die Varianzen u ¨berein - etwa weil eine Randomisierung (zuf¨allige Aufteilung) der statistischen Einheiten auf die beiden Gruppen vorgenommen wurde - so spricht man von Varianzhomogenit¨ at. Ist die Varianzhomogenit¨at verletzt, so ist der von Welch vorgeschlagene Test deutlich besser. Routinem¨aßig wird daher zun¨achst ein Test auf Varianzhomogenit¨at durchgef¨ uhrt und in Abh¨angigkeit vom Testergebnis der t-Test oder Welchs Test angewendet. Modell: Ausgangspunkt sind zwei unabh¨angige Stichproben i.i.d.
X11 , . . . , X1n1 ∼ N (µ1 ,σ12 ) i.i.d.
X21 , . . . , X2n2 ∼ N (µ2 ,σ22 ) ⊲ Test auf Varianzhomogenit¨ at Zu testen ist die Nullhypothese H0 : σ12 = σ22 der Varianzgleichheit (Homogenit¨at) in beiden Stichproben gegen die Alternative H1 : σ12 = σ22 , dass die Daten in einer der beiden Gruppen weniger streuen als in der anderen. Es ist nahe liegend, eine Teststatistik zu verwenden, welche die Varianzsch¨atzungen n
S12 =
1 1 (X1j − X 1 )2 n1 − 1 j=1
174
3 Schließende Statistik
und
n
S22 =
2 1 (X2j − X 2 )2 n2 − 1 j=1
der beiden Stichproben in Beziehung setzt. Unter der Normalverteilungsannahme sind die Varianzsch¨atzungen gestreckt χ2 -verteilt: (ni − 1)Si2 ∼ χ2 (ni − 1), σi2
i = 1,2.
Da beide Streuungsmaße aus verschiedenen und unabh¨angigen Stichproben berechnet werden, folgt der mit den reziproken Freiheitsgraden gewichtete σ2 S 2 Quotient σ22 S12 einer F (n1 − 1,n2 − 1)-Verteilung. Unter der Nullhypothese ist σ12 σ22
1
2
= 1, so dass die F -Teststatistik F =
S12 S22
mit den Quantilen der F (n1 − 1,n2 − 1)-Verteilung verglichen werden kann. Sowohl sehr kleine als auch sehr große Werte sprechen gegen die Nullhypothese. F -Test auf Varianzgleichheit Der F -Test auf Gleichheit der Varianzen verwirft H0 : σ1 = σ2 , wenn F < F (n1 − 1,n2 − 1)α/2 oder F > F (n1 − 1,n2 − 1)1−α/2 . Dies ist ¨aquivalent dazu, die Stichproben so zu nummerieren, dass S12 die kleinere Varianzsch¨atzung ist und H0 zu verwerfen, wenn F < F (n1 − 1,n2 − 1)α/2 . Beispiel 3.7.2. Wir wenden den Varianztest auf die Daten aus Beispiel 3.7.1 an. Zu testen sei also auf einem Niveau von α = 0.1, ob sich die Varianzparameter σ1 und σ2 der zugrunde liegenden Populationen unterscheiden. Es ist 32.9682 Fobs = = 0.544 44.6932 1 Wir ben¨otigen die Quantile F (6,5)0.95 = 4.950 und F (5,6)0.05 = F (6,5) = 0.95 0.2020. Der Annahmebereich ist also [0.2020, 4.950]. Da 0.544 ∈ [0.2020, 4.950], wird H0 beibehalten.
⊲ t-Test auf Lageunterschied Die statistische Formulierung des Testproblems, einen Lageunterschied zwischen den zwei Stichproben aufzudecken, lautet: H0 : µ1 = µ2
(kein Lageunterschied)
3.7 2-Stichproben-Tests
175
versus H1 : µ1 = µ2
(Lageunterschied)
Der Nachweis tendenziell gr¨oßerer Beobachtungen in Gruppe 2 erfolgt u ¨ber die einseitige Formulierung H0 : µ1 ≥ µ2
versus
H1 : µ1 < µ2 .
Entsprechend testet man H0 : µ1 ≤ µ2 gegen H1 : µ1 > µ2 , um tendenziell gr¨oßere Beobachtungen in Gruppe 1 nachzuweisen. Die Teststatistik des 2-Stichproben t-Tests schaut naheliegenderweise auf die Differenz der arithmetischen Mittelwerte X1 =
n1 1 X1j , n1 j=1
X2 =
n2 1 X2j . n2 j=1
Da die Mittelwerte X 1 und X 2 unabh¨angig sind, erhalten wir als Varianz der Differenz: σ2 σ2 v 2 = Var(X 2 − X 1 ) = + . n1 n2 Genauer gilt: Bei normalverteilten Daten ist die Differenz normalverteilt, 1 1 2 . X 2 − X 1 ∼ N µ2 − µ1 , σ + n1 n2 1 als TestIst σ 2 bekannt, so kann man die normalverteilte Gr¨oße T ′ = X 2 −X v statistik verwenden. Dies ist jedoch unrealistisch. Man ben¨otigt daher eine Sch¨atzung f¨ ur σ 2 . Eine erwartungstreue Sch¨atzung erh¨alt man durch das gewichtete Mittel der Sch¨atzer S12 und S22 , wobei man als Gewichte die Freiheitsgrade verwendet:
S2 =
n1 − 1 n2 − 1 S12 + S 2. n1 + n2 − 2 n1 + n2 − 2 2
Bei identischen Stichprobenumf¨angen (n1 = n2 ) mittelt man also einfach S12 und S22 . Als Summe von unabh¨angigen und gestreckt χ2 -verteilten Gr¨oßen ist (n1 + n2 − 2)S 2 ebenfalls wieder gestreckt χ2 -verteilt: (n1 + n2 − 2)S 2 /σ 2 ∼ χ2 (n1 + n2 − 2). Ersetzt man in T ′ die unbekannte Varianz σ 2 durch diesen Sch¨atzer, dann erh¨alt man die Teststatistik X2 − X1 T = -0 1 1 1 2 + n1 n2 S
176
3 Schließende Statistik
Unter der Nullhypothese folgt T einer t(n − 2)-Verteilung. 2-Stichproben t-Test Der 2-Stichproben t-Test verwirft H0 : µ1 = µ2 zugunsten von H1 : µ1 = µ2 , wenn |T | > t(n − 2)1−α/2 . Entsprechend wird beim einseitigen Test H0 : µ1 ≤ µ2 zugunsten von H1 : µ1 > µ2 verworfen, wenn T < t(n − 2)α , und H0 : µ1 ≥ µ2 zugunsten von H1 : µ1 < µ2 , falls T > t(n − 2)1−α . Beispiel 3.7.3. F¨ ur die Daten aus Beispiel 3.7.1 ergibt sich zun¨achst S2 =
6 5 32.9682 + 44.6932 = 1500.787, 11 11
also σ = S = 38.734. Die t-Teststatistik berechnet sich zu 62.5 − (−30.71) = 4.3249 Tobs = 1 1 1500.803 + 7 6
F¨ ur einen Test auf einem Niveau von α = 0.05 m¨ ussen wir |Tobs | = 4.3249 mit dem Quantil t(6 + 7 − 2)1−α/2 = t(11)0.975 = 2.201 vergleichen. Wir k¨onnen also die Nullhypothese auf dem 5%-Niveau verwerfen. ⊲ Welchs Test Bei Varianzinhomogenit¨at (σ1 = σ2 ) sollte Welchs Test verwendet werden. Dieser Test basiert auf der Teststatistik X2 − X1 T = 2 . S1 S22 + n1 n2
Der Ausdruck unter der Wurzel sch¨atzt hierbei die Varianz des Z¨ahlers. In großen Stichproben ist T n¨aherungsweise standardnormalverteilt. Jedoch ist die folgende Approximation durch eine t-Verteilung (nach Welch) wesentlich besser. Man verwirft H0 : µ1 = µ2 auf dem Niveau α, wenn |T | > t(df )1−α/2 , wobei sich die zu verwendenden Freiheitsgrade durch die Formel 12 0 2 S1 S22 n1 + n2 df = 0 2 12 0 2 12 S1 S1 1 1 n1 n1 −1 + n2 n2 −1
berechnen. Ist df nicht ganzzahlig (dies ist die Regel), dann rundet man die rechte Seite vorher ab. Welch-Test H0 : µ1 ≤ µ2 wird zugunsten H1 : µ1 > µ2 verworfen, wenn T < t(df )α · H0 : µ1 ≥ µ2 wird zugunsten H1 : µ1 < µ2 verworfen, wenn T > t(df )1−α .
3.7 2-Stichproben-Tests
177
⊲ Fallzahlplanung F¨ ur den Fall identischer Stichprobenumf¨ange (n1 = n2 = n) kann eine Fallzahlplanung anhand der folgenden N¨aherungsformeln erfolgen, die sich analog zum 1-Stichproben-Fall aus der Normalapproximation ergeben. Sei σ 2 = σ12 + σ22 . Zweiseitiger Test: W¨ahle n≥
σ2 (z1−α/2 + z1−β )2 , ∆2
um eine Sch¨arfe von 1 − β bei einer Abweichung von ∆ = |µA − µB | n¨aherungsweise zu erzielen. Einseitiger Test: W¨ahle n≥
σ2 (z1−α + z1−β )2 , ∆2
um eine Sch¨arfe von 1 − β bei einer Abweichung von ∆ = |µA − µB | n¨aherungsweise zu erzielen. 3.7.3 Wilcoxon-Test Oftmals ist die Normalverteilungsannahme des 2-Stichproben t-Tests nicht erf¨ ullt. Hierbei ist insbesondere an schiefe Verteilungen und Ausreißer in den Daten zu denken. In diesem Fall ist von einer Anwendung des t-Tests abzuraten, da nicht mehr sichergestellt ist, dass der Test tats¨achlich das vorgegebene Signifikanzniveau einh¨alt. Hinzu kommt, dass bei nicht normalverteilten Daten die t-Testverfahren ihre Optimalit¨atseigenschaften verlieren. Ein Ausweg ist der Wilcoxon-Rangsummentest. Dieser Test hat immer das vorgegebene Niveau, solange zwei unabh¨angige Stichproben vorliegen, deren Beobachtungen jeweils unabh¨angig und identisch nach einer Dichtefunktion verteilt sind. Er kann ebenfalls auf ordinal skalierte Daten angewendet werden. Wir beschr¨ anken uns hier auf den Fall stetig verteilter Daten. F¨ ur die Behandlung von ordinal skalierten Daten sei auf die weiterf¨ uhrende Literatur verwiesen. Modell: Es liegen zwei unabh¨angige Stichproben Xi1 , . . . , Xini ∼ Fi (x),
i = 1,2,
mit Stichprobenumf¨angen n1 und n2 vor. Die Beobachtungen der Stichprobe 1 sind nach der Verteilungsfunktion F1 (x) verteilt, diejenigen der Stichprobe 2 nach F2 (x).
178
3 Schließende Statistik
Nichtparametrisches Lokationsmodell (Shiftmodell) Im nichtparametrischen Lokationsmodell wird angenommen, dass nach Subtraktion des Lageunterschiedes ∆ Beobachtungen der zweiten Stichprobe genau so verteilt sind wie Beobachtungen der ersten Stichprobe. Dann gilt f¨ ur alle x ∈ R: P (X21 − ∆ ≤ x) = P (X11 ≤ x) Die linke Seite ist gerade F2 (x + ∆), die rechte hingegen F1 (x). Somit gilt: F2 (x + ∆) = F1 (x),
x ∈ R.
F¨ ur ∆ > 0 sind die Beobachtungen der zweiten Stichprobe tendenziell gr¨oßer als die der ersten, im Fall ∆ < 0 verh¨alt es sich genau umgekehrt. Kein Lageunterschied besteht, wenn ∆ = 0. Dies ist im Shiftmodell gleichbedeutend mit der Gleichheit der Verteilungsfunktionen: F1 (x) = F2 (x) f¨ ur alle x ∈ R. Als Testproblem formuliert man daher im zweiseitigen Fall H0 : ∆ = 0 ⇔ F1 = F2 versus H1 : ∆ = 0 ⇔ F1 = F2 Die Grundidee des Wilcoxon-Tests ist es, die Daten so zu transformieren, dass die Schiefe eliminiert und der Einfluss von Ausreißern begrenzt wird. Hierzu markiert man alle Beobachtungen auf der Zahlengerade und kennzeichnet ihre Zugeh¨origkeit zu den beiden Stichproben. Nun schreibt man von links nach rechts die Zahlen 1 bis n = n1 + n2 unter die Punkte. Auf diese Weise hat man den Beobachtungen ihre Rangzahlen in der GesamtStichprobe zugewiesen. Diese wollen wir mit Rij bezeichnen. In Formeln ausgedr¨ uckt: Ist W(1) , . . . , W(N ) die Ordnungsstatistik der Gesamtstichprobe X11 , . . . , X2n2 , dann wird der Beobachtung Xij der Rank Rij = k zugeordnet, wenn Xij = W(k) der k-te Wert in der Ordnungsstatistik der Gesamtstichprobe ist. Besteht nun ein Lageunterschied, so werden tendenziell die Beobachtungen der einen Stichprobe kleine Rangzahlen erhalten, die der anderen Stichprobe hingegen große Rangzahlen. Man verwendet daher die Summe der R¨ange der zweiten Stichprobe, ni T = R2j , j=1
als Teststatistik. Sowohl sehr große als auch sehr kleine Werte von T sprechen gegen die Nullhypothese. Unter der Nullhypothese ist die Teststatistik T verteilungsfrei, d.h. ihre Verteilung h¨angt nicht von der zugrunde liegenden
3.7 2-Stichproben-Tests
179
Verteilung F der Daten ab.1 Die kritischen Werte k¨onnen daher tabelliert werden und gelten unabh¨angig von der Verteilung der Daten. Eine weitere Konsequenz der Verteilungsfreiheit ist, dass der Wilcoxon-Test immer sein Niveau einh¨alt. Bei großen Stichproben kann man die Verteilung von T durch eine Normalverteilung approximieren, da auch f¨ ur T ein zentraler Grenzwertsatz gilt. Wegen EH0 (T ) =
n1 n 2 , 2
VarH0 (W ) =
n1 n2 (n + 1) , 12
gilt unter H0 n¨aherungsweise W − n1 n2 /2 ∼n N (0,1). n1 n2 (n + 1)/12 Wilcoxon-Test Der Wilcoxon-Test verwirft H0 auf dem Niveau α, wenn |T | > z1−α/2 bzw. wenn W >
n1 n2 + z1−α/2 n1 n2 (n + 1)/12. 2
W <
n1 n 2 − z1−α/2 n1 n2 (n + 1)/12. 2
oder
3.7.4 2-Stichproben Binomialtest Werden unter zwei Konstellationen Zufallsstichproben mit Umf¨angen n1 bzw. n2 erhoben, wobei die Zielgr¨oße bin¨ ar (Erfolg/Misserfolg) ist, so betrachtet man die Anzahl der Erfolge, Y1 und Y2 , in beiden Stichproben. Es liegen dann zwei unabh¨angige binomialverteilte Gr¨oßen vor: Y1 ∼ Bin(n1 , p1 ),
Y2 ∼ Bin(n2 ,p2 ),
mit Erfolgswahrscheinlichkeiten p1 und p2 . Das zugrunde liegende bin¨are Merkmal ist in beiden Gruppen identisch verteilt, wenn p1 = p2 gilt. Somit lautet das Testproblem ,,gleiche Erfolgschancen” formal: H0 : p1 = p2 1
versus
H1 : p1 = p2 .
Bei G¨ ultigkeit der Nullhypothese liegt eine Zufallsstichprobe vom Umfang n = n1 + n2 aus einer Population vor. Dann ist jede Permutation der n Stichprobenwerte gleichwahrscheinlich. Also ist jede Zuordnung von n2 Rangzahlen (aus der Menge ({1, . . . , n}) zu den Beobachtungen der zweiten Stichprobe gleichwahr scheinlich mit Wahrscheinlichkeit 1/ nn2 .
180
3 Schließende Statistik
M¨ochte man nachweisen, dass beispielsweise Gruppe 2 eine h¨ohere Erfolgschance besitzt, so formuliert man H0 : p1 ≥ p2 versus H1 : p1 < p2 . Man kann nun eine 2 × 2-Kontingenztafel mit den Eintr¨agen Y1 , n1 − Y1 sowie Y2 , n2 − Y2 aufstellen und das zweiseitige Testproblem durch einen χ2 -Test untersuchen. Dieser Ansatz wird im Abschnitt u ¨ber die Analyse von Kontingenztafeln vorgestellt. Die Erfolgswahrscheinlichkeiten werden durch Anteile in den Stichproben, p1 =
Y1 n1
und
p2 =
Y2 , n2
gesch¨atzt. Der zentrale Grenzwertsatz liefert die N¨aherung p2 − p1 ∼appr. N (p2 − p1 , σn2 )
p 2 ) p 1 ) + p1 (1− . Man verwendet daher als Teststatistik mit σn2 = p2 (1− n2 n1
T =
p2 − p1
p 2 (1−p2 ) n2
p 1 ) + p1 (1− n1
2-Stichproben-Binomialtest Die Nullhypothese H0 : p1 = p2 wird zugunsten der Alternative H1 : p1 = p2 auf dem Niveau α verworfen, wenn |T | > z1−α/2 . Entsprechend verwirft man H0 : p1 ≥ p2 zugunsten H1 : p1 < p2 , wenn T > z1−α , und H0 : p1 ≤ p2 wird zugunsten H1 : p1 > p2 verworfen, wenn T < zα .
3.8 Korrelationstests Situation: An n Untersuchungseinheiten werden zwei Merkmale X und Y simultan beobachtet. Es liegt also eine Stichprobe (X1 , Y1 ), . . . , (Xn ,Yn ) von Wertepaaren vor. Es soll anhand dieser Daten untersucht werden, ob zwischen den Merkmalen X und Y ein ungerichteter Zusammenhang besteht. Das heißt, uns interessiert, ob das gemeinsame Auftreten von X- und Y -Werten gewissen Regelm¨aßigkeiten unterliegt (etwa: große X-Werte treten stark geh¨auft zusammen mit kleinen Y -Werten auf), ohne dass ein kausaler Zusammenhang unterstellt wird. Keine der beiden Variablen soll als potentielle Einflussgr¨oße ausgezeichnet sein. Aus diesem Grund sollte eine geeignete Kenngr¨oße, die ’Zusammenhang’ (Korrelation) messen will, symmetrisch in den X- und Y Werten sein. Wir betrachten zwei Testverfahren. Das erste unterstellt, dass
3.8 Korrelationstests
181
die Stichprobe bivariat normalverteilt ist und basiert auf dem Korrelationskoeffizient nach Bravais-Pearson. Das zweite Verfahren unterstellt keine spezielle Verteilung der Paare (Xi ,Yi ) und nutzt lediglich die ordinale Information der Daten aus. Es beruht auf dem Rangkorrelationskoeffizienten von Spearman. 3.8.1 Test auf Korrelation Modell: Es liegt eine Stichprobe (X,Y ), (X1 ,Y1 ), . . . , (Xn ,Yn ) von unabh¨angig und identisch bivariat normalverteilten Paaren vor mit Korrelationskoeffizient ρ = ρ(X,Y ) = Cor(X,Y ). Testproblem: Um auf Korrelation zwischen den zuf¨alligen Variablen X und Y zu testen, formulieren wir: H0 : ρ = 0
versus
H1 : ρ = 0.
Die Teststatistik basiert auf dem empirischen Korrelationskoeffizienten nach Bravais-Pearson, n (Xi − X)(Yi − Y ) ρ = rXY = i=1 , n n 2 2 (X − X) (Y − Y ) i i i=1 i=1
der bereits im Kapitel u uhrlich besprochen wur¨ber deskriptiven Statistik ausf¨ de. Unter der Nullhypothese gilt: √ ρ n − 2 ∼ t(n − 2). T = 1 − ρ2 Der Korrelationstest f¨ ur normalverteilte bivariate Stichproben verwirft H0 wird auf einem Signifikanzniveau von α zugunsten von H1 , wenn |T | > t(n − 2)1−α/2 .
F¨ ur bivariat normalverteilte Daten ist dieser Test ein exakter Test auf Unabh¨angigkeit. Bei leichten Verletzung der Normalverteilungsannahme kann der Test als asymptotischer Test auf Unkorreliertheit angewendet werden. Im Zweifelsfall sollte das nun zu besprechende Testverfahren verwendet werden. 3.8.2 Rangkorrelationstest Als Assoziationsmaß, das lediglich die ordinale Information verwendet, war in Abschnitt 1.8.1 von Kapitel 1 der Rangkorrelationskoeffizient nach Spearman betrachtet worden. Der Rangkorrelationskoeffizient nach Spearman kann
182
3 Schließende Statistik
verwendet werden, um zu testen, ob in den Daten ein monotoner Zusammenhang zwischen den X- und Y -Messungen besteht. Unter der Nullhypothese H0 , dass kein monotoner Trend besteht, ist die Teststatistik √ RSp n − 2 T = 2 1 − RSp
n¨ aherungsweise t(n − 2)-verteilt. H0 wird auf dem Niveau α abgebildet, falls |T | > t(n − 2)1−α/2 .
3.9 Lineares Regressionsmodell Im ersten Kapitel u ¨ber deskriptive Statistik war die lineare Regressionsrechnung als Werkzeug zur Approximation einer Punktwolke durch eine Gerade bereits beschrieben worden. Wir gehen nun davon aus, dass die Punktepaare (yi ,xi ), i = 1, . . . , n, einem stochastischen Modell folgen. Hierdurch wird es m¨ oglich, Konfidenzintervalle und Tests f¨ ur die Modellparameter – insbesondere y-Achsenabschnitt und Steigung der Gerade – zu konstruieren. 3.9.1 Modell Beobachtet werden unabh¨angige Paare von Messwerten (Y1 , x1 ), (Y2 , x2 ), . . . , (Yn , xn ), wobei Yi den an der i-ten Versuchs- oder Beobachtungseinheit gemessenen Wert der Zielgr¨oße bezeichnet und xi den zugeh¨origen x-Wert. Tr¨agt man reale Datenpaare von Experimenten auf, bei denen die Theorie einen ,,perfekten” linearen Zusammenhang vorhersagt, so erkennt man typischerweise, dass die Messwerte nicht exakt auf einer Gerade liegen, sondern bestenfalls um eine Gerade streuen. Dies erkl¨art sich aus Messfehlern oder anderen zuf¨alligen Einfl¨ ussen, die in der Theorie nicht ber¨ ucksichtigt wurden. Die Tatsache, dass bei gegebenem xi nicht der zugeh¨orige Wert auf der wahren Geraden beobachtet wird, ber¨ ucksichtigen wir durch einen additiven stochastischen St¨orterm mit Erwartungswert 0: Yi = a + b · xi + ǫi ,
i = 1, . . . , n,
ur die gilt: mit St¨ortermen (Messfehlern) ǫ1 , . . . , ǫn , f¨ E(ǫi ) = 0,
Var(ǫi ) = σ 2 ∈ (0,∞),
i = 1, . . . , n.
3.9 Lineares Regressionsmodell
183
σ 2 heißt auch Modellfehler, da es den zuf¨ alligen Messfehler des Modells quantifiziert. Ob x einen Einfluss auf Y aus¨ ubt, erkennt man an dem Parameter b. Ist b = 0, so taucht x nicht in der Modellgleichung f¨ ur die Beobachtung Yi auf. Die Variable x hat dann keinen Einfluss auf Y . Das Modell der linearen Einfachregression unterstellt die G¨ ultigkeit der folgenden Annahmen: 1) Die St¨orterme ǫ1 , . . . , ǫn sind unabh¨angig und identisch normalverteilte Zufallsvariable mit E(ǫi ) = 0,
Var(ǫi ) = σ 2 > 0,
f¨ ur i = 1, . . . , n. 2) Die x1 , . . . , xn sind vorgegeben (deterministisch), beispielsweise durch festgelegte Messzeitpunkte. 3) a und b sind unbekannte Parameter, genannt Regressionskoeffizienten. Der Erwartungswert von Y h¨angt von x ab und berechnet sich zu: f (x) = a + b · x. Die Funktion f (x) heißt wahre Regressionsfunktion. Die lineare Funktion f (x) = a + b · x spezifiziert also den Erwartungswert von Y bei gegebenem x. a = f (0) ist der y-Achsenabschnitt (engl.: intercept), b = f ′ (x) ist das Steigungsmaß (engl.: slope). Die im ersten Kapitel ausf¨ uhrlich vorgestellte Kleinste–Quadrate–Methode liefert folgende Sch¨atzer: n Y i xi − n · Y x sxy b = i=1 = 2 , n 2 2 sx i=1 xi − n · (x) a = Y − b · x.
wobei
n
sxy =
1 xi Yi − xY , n i=1
n
s2x =
1 2 x − x2 . n i=1 i
Hierdurch erhalten wir die (gesch¨ atzte) Regressionsgerade (Ausgleichsgerade) f(x) = a + b · x, f¨ ur x ∈ [xmin , xmax ]. Die Differenzen zwischen Zielgr¨oßen Yi und ihren Prognosen Yi = f(xi ) = a + b · xi , i = 1, . . . , n, ǫi = Yi − Yi ,
sind die (gesch¨ atzten) Residuen. Wir erhalten also zu jeder Beobachtung auch eine Sch¨atzung des Messfehlers. Eine erwartungstreue Sch¨atzung des Modellfehlers σ 2 erh¨alt man durch n 1 2 1 σ 2 = s2n = Q( a,b). ǫ = n − 2 i=1 i n−2
184
3 Schließende Statistik
3.9.2 Statistische Eigenschaften der KQ-Sch¨ atzer Die Sch¨atzer a und b sind erwartungstreu und konsistent f¨ ur die Regressionskoeffizienten a bzw. b. Ihre Varianzen k¨onnen durch n 2 σ 2 2 i=1 xi σ b2 = sowie σ = ·σ 2 a 2 2 n · sx n · sx gesch¨atzt werden.
n i=1
Herleitung: Wegen n · Y x =
b =
n i=1
Yi · x ist b Linearkombination der Y1 , . . . ,Yn
(x − x) · Y . n
Yi xi − nY · x = n · s2x
i
i
n · s2x
i=1
Somit ist b normalverteilt: b ∼ N E(b), Var(b) . Einsetzen von EYi = a + b · xi und Ausnutzen von
(a + b · x )(x − x) = a · (x − x) + b · x (x − x) n
n
i
n
i
i
i=1
i
i=1
i
i=1
= b · n · s2x
liefert
E(b) = b.
Also ist b erwartungstreu f¨ ur b. Die Varianz σb2 = V ar(b) berechnet sich zu
(x − x) σ n
σb2 =
i n2
i=1
2
2
· s4x
=
σ2 → 0, n → ∞. n · s2x
Folglich ist b konsistenter Sch¨ atzer f¨ ur b. Der angegebenen Sch¨ azer ergibt sich durch Ersetzen des unbekannten Modellfehlers σ 2 durch σ 2 . a ist ebenfalls Linearkombination der Y1 , . . . ,Yn , n 1 (xi − x)x a= Yi , − n s2x i=1
also normalverteilt. Einsetzen von E(Y ) =
E(a) = E(Y − bx) =
1 n
n i=1 (a
1 n
+ b · xi ) liefert
(a + b · x ) − b · 1 x = a. n
n
i
n
i=1
i
i=1
Die Varianz berechnet sich zu
σa2 = V ar(a) =
n i=1
n·
x2i
s2x
σ2 .
alt man durch Einsetzen von σ 2 . Den angegebenen Sch¨ atzer σa2 erh¨
3.9 Lineares Regressionsmodell
185
3.9.3 Konfidenzintervalle Meist interessiert prim¨ar ein (zweiseitiges) Konfidenzintervall f¨ ur den Parameter b, der den Einfluss von x beschreibt, und f¨ ur den Modellfehler σ 2 . . / σ b − t(n − 2)1−α/2 σ , b + t(n − 2)1−α/2 n n 2 2 i=1 (xi − x) i=1 (xi − x) ist ein Konfidenzintervall f¨ ur b und + , (n − 2) σ2 (n − 2) σ2 , χ2 (n − 2)1−α/2 χ2 (n − 2)α/2
eins f¨ ur σ 2 , jeweils zum Konfidenzniveau 1 − α. Zieht man die Wurzel aus den Intervallgrenzen, so erh¨alt man ein Konfidenzintervall f¨ ur σ. Ein (1 − α)-Konfidenzbereich f¨ ur die gesamte Regressionsfunktion ist durch die eingrenzenden Funktionen (x − x)2 1 + l(x) = a+b·x−σ 2 · F (2,n − 2)1−α · n n · sxx 1 (x − x)2 u(x) = a + b · x + σ 2 · F (2,n − 2)1−α · + n n · sxx gegeben. Der so definierte Bereich u ¨berdeckt die wahre Regressionsfunktion m(x) = a + b · x mit Wahrscheinlichkeit 1 − α.
⊲ Hypothesentests Von Interesse sind Tests u ¨ber die Modellparameter a,b und σ 2 . Um einen Einfluss des Regressors x auf die Zielgr¨oße Y auf dem Signifikanzniveau α nachzuweisen, ist das Testproblem H0 : b = 0 versus H1 : b = 0 zu betrachten. Man geht hierbei wie beim Testen der Parameter µ und σ 2 einer normalverteilten Stichprobe vor. Ausgangspunkt sind die folgenden Verteilungsergebnisse: Sind ǫ1 , . . . , ǫn unabh¨angig und identisch N (0, σ 2 )-verteilte Zufallsvariablen, dann gilt: Tb =
b − b ∼ t(n−2), σ b
Ta =
a−a ∼ t(n−2), σ a
Q=
(n − 2) σ2 ∼ χ2 (n−2). 2 σ
186
3 Schließende Statistik
Test der Regressionskoeffizienten 1) H0 : b = b0 gegen H1 : b = b0 . H0 ablehnen, wenn |Tb | > t(n − 2)1−α/2 . 2) H0 : b ≤ b0 gegen H1 : b > b0 . H0 ablehnen, falls Tb > t(n − 1)1−α . 3) H0 : b ≥ b0 gegen H1 : b < b0 . H0 ablehnen, falls Tb < t(n − 1)1−α . Die entsprechenden Tests f¨ ur den Parameter a erh¨alt man durch Ersetzen von b durch a in den Hypothesen und Ersetzen von Tb durch Ta . Test des Modellfehlers 1) H0 : σ 2 = σ02 gegen H1 : σ 2 = σ02 . H0 ablehnen, wenn Q < χ2 (n − 2)α/2 oder Q > χ2 (n − 2)1−α/2 . 2) H0 : σ 2 ≤ σ02 gegen H1 : σ 2 > σ02 . H0 ablehnen, falls Q > χ2 (n − 2)1−α . 3) H0 : σ 2 ≥ σ02 gegen H1 : σ 2 < σ02 . H0 ablehnen, falls Q < t(n − 1)α .
Beispiel 3.9.1. Gegeben seien die folgenden Daten: x 1 2 3 4 5 6 7 y 1.7 2.6 2.0 2.7 3.2 3.6 4.6 Hieraus berechnet man: 7
7
xi = 28,
i=1
7
7
i=1
x=4
i=1
7
yi = 20.4,
i=1
sowie mit:
x2i = 140,
yi2 = 65.3,
y = 2.91429
i=1
yi xi = 93.5. Die gesch¨atzten Regressionskoeffizienten lauten so-
β1 =
7
Yi xi − n · xY
i=1 7
i=1
x2i − n · x2
93.5 − 7 · 4 · 2.91429 = 140 − 7 · (4)2 11.89988 ≈ 28 ≈ 0.425.
3.10 Multiple lineare Regression (Lineares Modell)∗
187
β0 = Y − β1 · x = 2.91 − 0.425 · 4 = 1.21.
Die Ausgleichsgerade ist somit gegeben durch: f(x) = 1.21 + 0.425 · x,
x ∈ [1,7].
Ferner ist s2 = 0.1582143
Um H0 : b = 0.5 gegen H1 : b = 0.5 zu testen, berechnet man s2x =
140 − 42 = 4, 7
und hieraus
s2b =
s2 = 0.00565 n · s2x
0.425 − 0.5 tb = √ ≈ −0.9978 . 0.00565
Da t(5)0.975 = 2.57, wird H0 auf dem 5%-Niveau akzeptiert. ⊲ Heteroskedastizit¨ at (Ungleiche Fehlervarianzen) In vielen Anwendungen tritt das Problem auf, dass die Varianzen der Fehlerterme ε1 , . . . ,εn nicht identisch sind. Dieses Ph¨anomen heißt Heteroskedastizit¨at. In diesem Fall liefert der Standardfehler von b, σ b2 , falsche Werte. Der Sch¨atzer σ b2
1 n−2
n
(Xi − X)2 · εi2 1 i=1 = · + ,2 n n 1 2 (Xi − X) n i=1
n
=
1 1 1 (Xi − X)2 · εi2 · n s2x n − 2 i=1
ist auch bei heteroskedastischen Fehlertermen konsistent. Bei den Hypothesentests ersetzt man die Quantile der t(n−2)-Verteilung durch die der N (0,1)Verteilung.
3.10 Multiple lineare Regression (Lineares Modell)∗ Die im letzten Abschnitt besprochene Inferenz f¨ ur das lineare Regressionsmodell mit nur einer erkl¨arenden Variablen greift in der Regel zu kurz. Typischerweise m¨ochte man den Einfluss von mehreren Regressoren auf den Erwartungswert einer Response-Variablen untersuchen. Diese nahe liegende Erweiterung f¨ uhrt zur multiplen linearen Regression, die aufgrund ihrer großen Flexibilit¨at zur Standardausr¨ ustung der Datenanalyse geh¨ort. Sie ist in g¨angiger Statistik-Software verf¨ ugbar.
188
3 Schließende Statistik
3.10.1 Modell Beobachtet werden eine zuf¨allige Zielgr¨oße Y und p deterministische erkl¨arende Variablen x1 , . . . , xp . In Regressionsmodellen wird angenommen, dass der Erwartungswert von Y eine Funktion von x1 , . . . , xp ist, die durch einen stochastischen Fehlerterm ǫ mit E(ǫ) = 0 u ¨berlagert wird: Y = f (x1 , . . . , xp ) + ǫ. f (x1 , . . . , xp ) heißt (wahre) Regressionsfunktion. Basierend auf einer Stichprobe soll einerseits f gesch¨atzt werden. Zudem soll durch statistische Tests untersucht werden, von welchen Variablen f tats¨achlich abh¨angt. Im linearen Modell wird angenommen, dass f eine lineare Funktion der Form f (x1 , . . . , xp ) = b0 + b1 · x1 + · · · + bp · xp ist. Hierbei sind b0 , . . . , bp unbekannte (feste) Parameter, die wir in einem Parametervektor b = (b0 , . . . , bp )′ ∈ Rp+1 zusammenfassen. f (x1 , . . . , xp ) ist das Skalarprodukt von x = (1,x1 , . . . , xp )′ und b: f (x1 , . . . , xp ) = b′ x heißt linearer Pr¨ adiktor. Wir gehen nun davon aus, dass n Beobachtungsvektoren (Yi , xi1 , . . . , xip ), i = 1, . . . , n vorliegen. Die Modellgleichung f¨ ur den i-ten Beobachtungsvektor lautet: i = 1, . . . , n. Yi = f (xi1 , . . . , xip ) + ǫi , Hierbei sind ǫ1 , . . . , ǫn unabh¨angige und identisch verteilte Zufallsvariablen mit E(ǫi ) = 0, Var(ǫi ) = σ 2 ∈ (0,∞), i = 1, . . . , n. Zur Vereinfachung der folgenden Formeln sei k = p + 1. Die in der i-ten Modellgleichung auftretende Summation f (xi1 , . . . , xip ) = b0 + b1 xi1 + . . . + bp xip ist das Skalarprodukt des Vektors xi = (1, xi1 , . . . , xip )′ ∈ Rk mit dem Parametervektor: Yi = x′i b + ǫi , i = 1, . . . , n. Es gilt E(Yi ) = x′i b. Um die Modellgleichung in Matrixschreibweise zu formulieren, setzen wir x11 · · · xik .. . Y = (Y1 , . . . , Yn )′ ∈ Rn , ǫ = (ǫ1 , . . . , ǫn )′ ∈ Rn , X = ... . xn1 · · · xnk
Die (n × k)-Matrix X heißt Designmatrix. Nun gilt: Y = Xb + ǫ.
3.10 Multiple lineare Regression (Lineares Modell)∗
189
3.10.2 KQ-Sch¨ atzung Die Modellsch¨atzung des Parametervektors b erfolgt meist mit Hilfe der Kleinste–Quadrate–Methode (KQ-Methode). Zu minimieren ist die Zielfunktion n (Yi − x′i b)2 , b ∈ Rk . Q(b) = i=1
= (β0 , . . . , βp )′ von Q(b) heißt KQ-Sch¨atzer f¨ Jedes Minimum b ur b. Die Regressionsfunktion wird dann durch f(x1 , . . . , xp ) = b0 + b1 x1 + . . . + bp xp
gesch¨atzt. Sch¨atzungen der Fehlerterme erh¨alt man durch die gesch¨atzten Residuen ǫi = Yi − x′i b. Der Modellǫn )′ berechnet sich durch ǫ = Y − Xb. Der Vektor ǫ = ( ǫ1 , . . . , 2 fehler σ wird schließlich durch n 1 2 ǫi σ 2 = n−k i=1
gesch¨atzt.
der KQ-Sch¨atzer f¨ KQ-Sch¨atzer, Normalgleichungen Ist b ur b, dann gelten die Normalgleichungen = X′ Y. X′ Xb
Hat X den (vollen) Rang k, dann ist = (X′ X)−1 X′ Y, b
ǫ = (I − X(X′ X)−1 X′ )Y.
Herleitung: Ist b ein KQ-Sch¨ atzer, dann gilt: grad Q(b) = 0. Es ist n
∂Q(b) = −2 (Yi − x′i b)xij bj i=1 Die auftretende Summe ist das Skalarprodukt des Vektors Y − Xb, dessen i-te Koordinate gerade Yi − x′i b ist, und der j-ten Zeile von X′ . Daher ist
grad Q(b) = −2X′ (Y − Xb) = −2(X′ Y − X′ X). F¨ ur den KQ-Sch¨ atzer gilt: X′ Y − X′ Xb = 0, d.h. ′
X Xb = X′ Y.
Dies ist ein lineares Gleichungssystem in den Variablen b0 , . . . , bp mit symmetrischer Koeffizientenmatrix X′ X und rechter Seite X′ Y. X′ X ist invertierbar, wenn X volosungsformel. len Rang k hat. Multiplikation von links mit (X′ X)−1 liefert die L¨ Schließlich ist ǫ = Y − Xb = Y − X(X′ X)−1 X′ Y = (I − X(X′ X)−1 X′ )Y.
190
3 Schließende Statistik
3.10.3 Verteilungseigenschaften Hat die Designmatrix vollen Rang, dann berechnet sich der KQ-Sch¨atzer durch Anwendung der Matrix (X′ X)−1 X′ auf den Datenvektor Y, ist also eine lineare Funktion von Y. Die Fehlerterme ǫ1 , . . . , ǫn seien unabh¨angig und identisch N (0, σ 2 )-verteilt. Dann gilt und Y ∼ N (Xb, σ 2 I). ǫ ∼ N (0, σ2 I) Hat X vollen Spaltenrang, dann gilt: 1) 2) 3) 4) 5)
∼ N (b, σ 2 (X′ X)−1 ) b ǫ ∼ N (0, (I − X(X′ X)−1 X′ )) n ǫ2i ∼ χ2 (n − k). i=1 2 ur σ 2 . σ ist erwartungstreu f¨ 2 b und σ sind unabh¨angig.
Herleitung: Alle Aussagen folgen aus den in Abschnitt 2.12.2 des Kapitels 2 dargestellten Regeln: Da ǫ ∼ N (0, σ 2 I), ist Y = Xb + ǫ ∼ N (Xb, σ 2 I). Damit gilt f¨ ur eine beliebige Matrix A mit n Spalten: AY ∼ N (AXb, σ 2 AA′ ). F¨ ur den KQ-Sch¨ atzer ist A = (X′ X)−1 X′ , also AXb = (X′ X)−1 X′ Xb = b und AA′ = (X′ X)−1 X′ X(X′ X)−1 = (X′ X)−1 . Der Vektor der gesch¨ atzten Residuen berechnet sich dann durch ǫ = BY mit B = I − X(X′ X)−1 X′ . Somit ist ǫ ∼ N (BXb, σ 2 BB′ ). Es ist BXb = 0 und BB′ = B.
Aus diesen Resultaten folgt insbesondere, dass die Statistik Tj =
βj − βj σ hi
t(n − k)-verteilt ist. Hierbei ist hi das i-te Diagonalelement der Matrix (X′ X)−1 . Die Konstruktion von Hypothesentests folgt dem u ¨blichen Schema. Wir formulieren den am h¨aufigsten verwendeten zweiseitigen Test, um zu testen, ob die j-te Variable in der Modellgleichung vorkommt. Test der Regressionskoeffizienten H0 : βj = 0 gegen H1 : βj = 0: H0 ablehnen, falls |Tj | > t(n − k)1−α/2 3.10.4 Anwendung: Funktionsapproximation In vielen Anwendungen wird angenommen werden, dass die Regressionsfunktion f (x), x ∈ R, eine Linearkombination von bekannten Funktionen f1 (x), . . . , fp (x) ist:
3.11 Analyse von Kontingenztafeln
f (x) =
p
191
bj fj (x).
j=1
Insbesondere kann f (x) nichtlinear sein. Bei einer polynomialen Regression ist fj (x) = xj . In diesem Fall kann f (x) als Taylorapproximation an verstanden werden. F¨ ur ein Beobachtungspaar (Y,x) gelte nun Y = f (x) + ǫ mit einem stochastischen St¨orterm ǫ mit E(ǫ) = 0. Basierend auf einer Stichprobe (Y1 ,xi ), . . . , (Yn ,xn ) soll die Funktion f (x) gesch¨atzt und der Einfluss der Komponenten f1 , . . . , fp analysiert werden. Die Modellgleichungen lauten nun: Yi = f (xi ) + ǫi =
p
bj fj (xi ) + ǫi ,
i = 1, . . . , n.
j=1
Wir k¨onnen dies als lineares Modell schreiben: Setze xi = (f1 (xi ), . . . , fp (xi ))′ . Dann gilt: Yi = x′i b + ǫi , i = 1, . . . , n, und in Matrixschreibweise: Y = Xb + ǫ mit der Designmatrix X = (fi (xj ))i,j .
3.11 Analyse von Kontingenztafeln Oftmals besteht das auszuwertende Datenmaterial aus kategorialen bzw. Z¨ahldaten. Hier gibt es nur endlich viele Auspr¨agungen f¨ ur jedes Merkmal und die Stichproben-Information besteht aus den Anzahlen der Beobachtungen, die in die verschiedenen Kategorien gefallen sind. Im Kapitel u ¨ber beschreibende Statistik wurde bereits die deskriptive Analyse von Kontingenztafeln diskutiert. Dort war insbesondere der Begriff der empirischen Unabh¨angigkeit eingef¨ uhrt worden, dessen theoretisches Gegenst¨ uck die stochastische Unabh¨angigkeit der betrachteten Merkmale ist. Was noch fehlt ist ein formaler statistischer Test. Kontingenztafeln k¨onnen nicht nur durch Kreuzklassifikation von Datenmaterial nach zwei (oder mehr) Merkmalen entstehen, sondern auch durch die Aneinanderreihung mehrerer Stichproben eines diskreten Merkmals. Werden bspw. auf p M¨arkten jeweils 100 Konsumenten u uhlte Einkaufs¨ber die gef¨ qualit¨at (schlecht/geht so/gut/weiß nicht) befragt, so k¨onnen die p H¨aufigkeitsverteilungen zu einer (p × 4)-Kontingenztafel zusammen gestellt werden. Dann ist es von Interesse zu testen, ob die p Verteilungen u ¨bereinstimmen oder nicht.
192
3 Schließende Statistik
3.11.1 Vergleich diskreter Verteilungen Die Kontingenztafel habe r Zeilen und s Spalten mit insgesamt N Beobachtungen. Sie habe folgende Struktur: Zeilenweise liegen diskrete Verteilungen einer Zielgr¨oße mit s Auspr¨agungen vor, deren Stichprobenumf¨ange fest vorgegeben sind. Bezeichnet Nij die Anzahl der Beobachtungen in Zeile i und , . . . , Nis ) die H¨aufigkeitsverteilung in Zeile i vom StichSpalte j, dann ist (Ni1 probenumfang Ni• = sj=1 Nij . Die relevante Nullhypothese H0 lautet: Alle Zeilenverteilungen stimmen u ¨berein. Unter H0 liegt also nur eine Verteilung (p1 , . . . , ps ) vor. Die Daten k¨onnen dann spaltenweise zusammen gefasst werr den zur Randverteilnug (N•1 , . . . , N•s ), wobei N•j = i=1 Nij die j-te Spaltensumme ist. Die pj werden durch pj =
N•j , N
j = 1, . . . , s,
gesch¨atzt. Unter H0 ist der Erwartungswert von Nij durch Eij = EH0 (Nij ) = Ni• · pj gegeben, da Nij Bin(Ni• , pj )-verteilt ist. Die erwarteten Anzahlen Eij werdern durch Einsetzen von pj gesch¨atzt: ij = Ni• · pj = Ni• · N•j . E N
ij werden nun mit den beobachteten Anzahlen Nij verglichen. Man Die E verwendet die Chiquadratstatistik aus der deskriptiven Statistik: Q=
s r (Nij − Ni• · N•j /N )2 . Ni• · N•j /N i=1 j=1
Unter H0 ist Q n¨aherungsweise χ2 -verteilt mit (r − 1)(s − 1) Freiheitsgraden. Chiquadrat-Test Der Chiquadrat-Test zum Vergleich diskreter Verteilungen verwirft die Nullhypothese H0 identischer Verteilungen, wenn Q > χ2 ((r − 1)(s − 1))1−α . F¨ ur den wichtigen Spezialfall einer 2×2 Tafel mit Eintr¨agen a,b,c,d vereinfacht sich die Pr¨ ufgr¨oße zu Q=
n(ad − bc)2 . (a + b)(c + d)(a + c)(b + d)
Die kritischen Werte zu den gebr¨auchlichsten Signifikanzniveaus sind f¨ ur diesen Fall in der folgenden Tabelle zusammengestellt. α 0.1 0.05 0.025 0.01 0.001 ckrit 2.706 3.842 5.024 6.635 10.83
3.12 Elemente der Bayes-Statistik∗
193
3.11.2 Chiquadrat-Unabh¨ angigkeitstest Die Kontingenztafel habe wieder r Zeilen und s Spalten, entstehe jedoch durch eine Kreuzklassifikation von N zuf¨allig ausgew¨ahlten statistischen Einheiten nach zwei nominal skalierten Merkmalen X und Y . X habe r Auspr¨agungen a1 , . . . ,ar , Y habe s Auspr¨agungen b1 , . . . ,bs . Man z¨ahlt nun aus, wie oft die Kombination (ai ,bj ) beobachtet wurde und erh¨alt so die Nij . Die relevante Nullhypothese H0 lautet: Zeilenvariable X und Spaltenvariable Y sind stochastisch unabh¨angig. Ist (p1 , . . . ,pr ) die Verteilung von X und (q1 , . . . ,qs ) die Verteilung von Y , so ist der Erwartungswert von Nij bei G¨ ultigkeit von H0 gerade Eij = EH0 (Nij ) = N · pi · qj , da die Nij Bin(N,pij )-verteilt H
sind mit pij =0 pi · qj . Die Eij werden durch
ij = N · Ni• · N•j = Ni• · N•j E N N N
gesch¨atzt. Ein Vergleich mit den beobachteten Anzahlen erfolgt wieder durch die Chiquadratstatistik Q=
s r (Nij − Ni• · N•j /N )2 . Ni• · N•j /N i=1 j=1
Unter H0 ist Q in großen Stichproben χ2 (df )-verteilt mit df = (r − 1)(s − 1).
Der formale Rechengang ist also wie bei dem Vergleich diskreter Verteilungen, jedoch wird das Ergebnis anders interpretiert, da sich die Datenmodelle unterscheiden.
3.12 Elemente der Bayes-Statistik∗ Die bisher betrachteten statistischen Verfahren geh¨oren zur frequentistischen Statistik, in der keinerlei subjektives Vorwissen verwendet wird. Die Information u ¨ber den relevanten Parameter wird allein aus der Stichprobe bezogen. Aus Sicht des Bayesianers ist dies suboptimal, da oftmals Vorwissen vorhanden ist. Wirft man z.B. eine frisch gepr¨agte M¨ unze f¨ unfmal und erh¨alt einmal Kopf, dann sch¨atzt der Frequentist die Wahrscheinlichkeit f¨ ur Kopf optimal“ mit ” 1/5. F¨ ur einen Bayesianer ist dies absurd, da wir wissen, dass der wahre Wert nahe bei 1/2 liegt. Wenn ein Wirtschaftsinstitut eine Prognose der Arbeitslosenquote erstellen soll, dann h¨angt diese Prognose sicherlich davon ab, welche Werte f¨ ur die Wahrscheinlichkeit p, dass sich die Konjunktur belebt, von dem Institut als glaubw¨ urdig angesehen werden. In diesem Fall liegt subjektives Vorwissen vor.
194
3 Schließende Statistik
Die Bayes’sche Statistik arbeitet daher mit subjektiven Wahrscheinlichkeiten, die das Ausmaß unseres Glaubens (degree of belief) zum Ausdruck bringen. Es stellt sich die Frage, wie solches (subjektives) Vorwissen modelliert und mit der Information aus den Daten verschmolzen werden kann. Wir k¨onnen an dieser Stelle nicht auf den Disput zwischen Frequentisten und Bayesianern eingehen, sondern beschr¨anken uns darauf, die wesentlichen Kernideen der Bayes’schen Statistik vorzustellen. 3.12.1 Grundbegriffe X1 , . . . ,Xn seien unabh¨angig und identisch verteilte Beobachtungen, d.h. i.i.d.
Xi ∼ fϑ (x). Hierbei sei fϑ eine Dichte bzw. Z¨ahldichte aus einer parametrischen Verteilungsfamilie F = {fϑ : ϑ ∈ Θ}. Θ ⊂ Rk bezeichnet den Parameterraum.
Das Ziel der Statistik ist es, anhand einer Stichprobe X = (X1 , . . . ,Xn ) eine Entscheidung zu treffen. A sei die Menge der m¨ oglichen Entscheidungen, auch Aktionsraum genannt. Entscheidungsfunktion Eine Entscheidungsfunktion δ ist eine Statistik δ : Rn → A mit Werten in A. Wird X = (x1 , . . . ,xn ) beobachtet, so trifft man die Entscheidung δ(x1 , . . . ,xn ). D sei die Menge der m¨oglichen Entscheidungsfunktionen.
Beispiel 3.12.1. Sei A = {a1 ,a2 }. Jede Entscheidungsregel zerlegt den Stichur x ∈ A entprobenraum Rn in zwei komplement¨are Mengen A und Ac . F¨ scheidet man sich f¨ ur a1 , sonst f¨ ur a2 . Dies ist die Situation des statistischen Hypothesentests (a1 = H0“, a2 = H1“). ” ” Beispiel 3.12.2. Ist A = Θ, dann kann δ(x) ∈ Θ als Punktsch¨atzer f¨ ur den Parameter ϑ interpretiert werden. Dies entspricht dem statistischen Sch¨atzproblem. Verlustfunktion Eine nicht-negative Funktion L : Θ×A → R heißt Verlust oder Verlustfunktion. Speziell heißt im Fall A = Θ L(ϑ,a) = (ϑ − a)2 quadratische Verlustfunktion. L(ϑ,a) ist der Verlust in Folge der Entscheidung a bei Vorliegen des wahren Parameters ϑ.
3.12 Elemente der Bayes-Statistik∗
195
Setzt man in das Argument a die Entscheidungsfunktion δ(X) ∈ A ein, so erh¨alt man eine zuf¨allige Variable L(ϑ,δ(X)). L(ϑ,δ(X)) heißt Verlust der Entscheidungsfunktion δ(X) im Punkt ϑ ∈ Θ. Risiko Die Risikofunktion R : Θ × D → R, R(ϑ,δ) = Eϑ L(ϑ,δ(X)) ist der erwartete Verlust der Entscheidungsfunktion δ(X) im Punkt ϑ. Beispiel 3.12.3. Sei A = Θ ⊂ R und L(ϑ,a) = (ϑ − a)2 . Dann ist R(ϑ,δ) = Eϑ L(ϑ,δ(X)) = Eϑ (ϑ − δ(X))2 der MSE von ϑ = δ(X) bzgl. ϑ. Betrachtet man nur unverzerrte Sch¨atzer, setzt also D = {δ : Rn → Θ | Eϑ δ(X) = ϑ}, dann ist das Risiko gerade die Varianz des Sch¨atzers. Es ist nun nahe liegend, Entscheidungsfunktionen δ ∈ D zu bestimmen, die das Risiko R(ϑ,δ) in einem geeigneten Sinne optimieren. 3.12.2 Minimax-Prinzip Minimax-Regel δ ∗ ∈ D heißt Minimax-Regel, wenn max R(ϑ,δ ∗ ) ≤ max R(ϑ,δ) f¨ ur alle δ ∈ D. ϑ∈Θ
ϑ∈Θ
Beispiel 3.12.4. Sei X ∼ Bin(1,p), p ∈ { 14 , 12 } und A = {a1 ,a2 }. Die Verlustfunktion sei gegeben durch a1 1 3
p = 1/4 p = 1/2
a2 4 2
Die vier m¨oglichen Entscheidungsfunktionen sind: x 0 1
δ1 a1 a1
δ2 a1 a2
δ3 a2 a1
δ4 a2 a2
196
3 Schließende Statistik
Das Risiko f¨ ur δ1 bei Vorliegen von p = 1/4 berechnet sich zu
1 L 4 ,δ1 (x) P1/4 (X = x) R(1/4,δ1 ) = EL 14 ,δ1 (X) = x
1
Man erh¨alt
= L 4 ,δ1 (0) · P1/4 (X = 0) + L 14 ,δ1 (1) · P1/4 (X = 1)
= L 14 ,a1 1 − 14 + L 14 ,a1 14 = 1 .
i R( 14 ,δi ) 1 2 3 4 =⇒
1 7/4 13/4 4
R( 12 ,δi ) 3 5/2 5/2 2
max
p∈{ 14 , 12 }
R(p,δi ) min max R(p,δi ) 1 1 i
3 5/2 13/4 4
p∈{ 4 , 2 }
5/2
δ2 ist Minimax-Regel f¨ ur dieses Problem!
3.12.3 Bayes-Prinzip In der bayesianischen Statistik nimmt man an, dass der Parameter eine Zufallsvariable mit (Z¨ahl-) Dichte π(ϑ) auf Θ ist: ϑ ∼ π(ϑ). π(ϑ) heißt a-priori-Verteilung oder kurz Prior. Wir verwenden hier die in der bayesianischen Welt u ¨bliche Konvention, dass Variablenbezeichner einen G¨ ultigkeitsbereich (engl.: scope) besitzen. Auf der rechten Seite des Ausdrucks ϑ ∼ π(ϑ) definiert die Formel π(ϑ) einen scope, innerhalb dessen ϑ das Argument der (Z¨ahl-) Dichte π bezeichnet. Auf der linken Seite bezeichnet ϑ den zuf¨alligen Parameter, dessen Verteilung spezifiziert wird. fϑ (x) wird nun als bedingte Dichte von X bei gegebenem Parameter ϑ interpretiert, und man schreibt stattdessen f (x|ϑ). Die gemeinsame Dichte von X und ϑ notieren wir mit f (x,ϑ). Es gilt: f (x,ϑ) = f (x|ϑ)π(ϑ). Die (Z¨ahl-) Dichte f (x) von X berechnet sich hieraus wie folgt: f (x) = f (x,ϑ) dϑ bzw. f (x) = f (x,ϑ) ϑ
Die bedingte (Z¨ahl)-Dichte von ϑ gegeben X = x schreiben wir als f (ϑ|x). Es ist:
3.12 Elemente der Bayes-Statistik∗
f (ϑ|x) =
197
f (x,ϑ) f (x)
Nach dem Satz von Bayes gilt: f (ϑ|x) =
f (x|ϑ)π(ϑ) f (x,ϑ) , = f (x) f (x|ϑ)π(ϑ) dϑ
f (ϑ|x) beschreibt, wie die Beobachtung x unsere Einsch¨atzung u ¨ber die Verteilung von ϑ ¨andert. π(ϑ) liefert die Verteilung des Parameters bevor x beobachtet wird, f (ϑ|x) ist die (neue) Verteilung von ϑ nach Beobachten von x. Die Bayes’sche Formel f (ϑ|x) = f (x|ϑ)π(ϑ)/f (x) stellt die Essenz der bayesianischen Statistik dar: F¨ ur den Bayesianer ist f (ϑ|x) die relevante Information u ¨ber den Parameter ϑ im Lichte der Beobachtung x. Sie besagt, dass als Funktion von ϑ die a posteriori-Dichte proportional zum Produkt aus a-priori-Dichte und Likelihood L(ϑ|x) = f (x|ϑ) ist: f (ϑ|x) ∝ π(ϑ)L(ϑ|x). f (ϑ|x) heißt a posteriori-Verteilung (Posterior-Verteilung) von ϑ. Die Risikofunktion R(ϑ,δ) wird als bedingter erwarteter Verlust interpretiert, R(ϑ,δ) = E(L(ϑ,δ(x))|ϑ). Ist X stetig verteilt, so ist R(ϑ,δ) =
L(ϑ,δ(x))f (x|ϑ) dx,
bei diskretem X berechnet man R(ϑ,δ) =
L(ϑ,δ(x))f (x|ϑ).
x
Bayes-Risiko Mittelt man das bedingte Risiko R(ϑ,δ) u ¨ber ϑ, so erh¨alt man das Bayes-Risiko von δ unter dem Prior π, R(π,δ) = Eπ R(ϑ,δ).
Ist π(ϑ) eine Dichte, so ist R(π,δ) =
R(ϑ,δ)π(ϑ) dϑ,
198
3 Schließende Statistik
bei diskretem Prior berechnet man R(π,δ) =
R(ϑ,δ)π(ϑ).
ϑ
Bayes-Regel Eine Entscheidungsfunktion δ ∗ ∈ D heißt Bayes-Regel, wenn sie das Bayes-Risiko minimiert R(π,δ ∗ ) = min R(π,δ). δ
Verwendet man den quadratischen Verlust, so kann der Bayes-Sch¨atzer direkt berechnet werden. Bei Vorliegen von Dichten erh¨alt man durch Ausnutzen von f (x|ϑ)π(ϑ) = f (ϑ|x)f (x) und Vertauschen der Integrationsreihenfolge , + 2 R(π,δ) = (δ(x) − ϑ) f (ϑ|x) dϑ f (x) dx. Das Bayes-Risiko wird also minimal, wenn das innere Integral minimiert wird, das als Funktion h(z), z = δ(x), aufgefasst werden kann. Aus h′ (z) = 2 (z − ϑ)f (ϑ|x) dϑ = 0 folgt, dass der Bayes-Sch¨atzer gegeben ist durch δ(x) = E(ϑ|x) = ϑf (ϑ|x) dx, also als Erwartungswert der Posterior-Verteilung. Beispiel 3.12.5. Gegeben p sei X Bin(n,p)-verteilt. Der Parameter p sei G[0,1]-verteilt. Also ist n x p (1 − p)n−x . f (x|p) = x Die gemeinsame Dichte ist n x p (1 − p)n−x 1[0,1] (p). f (x|p)f (p) = x Integrieren nach p liefert die Rand-Z¨ahldichte von X 1 n x n p (1 − p)n−x dp = B(x + 1,n − x + 1). f (x) = x x 0
3.12 Elemente der Bayes-Statistik∗
199
Die a posteriori-Dichte von p nach Beobachten von X = x ist f (p|x) =
px (1 − p)n−x f (x|p)f (p) = , f (x) B(x + 1,n − x + 1)
also eine B(x + 1, n − x + 1)-Dichte, deren Erwartungswert durch E(p|x) =
x+1 x+1 = n − x + 1 + (x + 1) n+2
gegeben ist. Also ist der Bayes-Sch¨atzer f¨ ur p pBayes =
x+1 . n+2
Oft l¨asst sich die a posteriori-Verteilung nicht explizit berechnen. Geh¨ort jedoch die posteriori-Verteilung wieder zur gew¨ahlten Familie der prioriVerteilungen, dann besteht der Update-Schritt von π(ϑ) auf f (ϑ|x) aus einer Transformation der Parameter. π(ϑ), ϑ ∈ Θ, heißt konjugierte Prior-Familie (kurz: π(ϑ) ist konjugierter Prior) zu einem bedingten Verteilungsmodell f (x|ϑ), wenn die a posterioriVerteilung ein Element der Prior-Familie ist.
f (x|ϑ)
π(ϑ)
f (ϑ|x)
bed. Stichprobenverteilung 2
2
N (ϑ,σ )
N (µ,τ )
Γ (ν,β)
Γ (α,β)
Bin(n,p)
Beta(α,β)
N
σ 2 µ + xτ 2 σ 2 τ 2 , σ2 + τ 2 σ 2 + τ 2 Γ (α + ν,β + x)
Beta(α + x,β + n − x)
Tabelle: Konjugierte Verteilungen.
A Mathematik - kompakt
A.1 Notationen A.1.1 Griechische Buchstaben (Auswahl) α: Alpha, β: Beta, γ, Γ : Gamma, δ, ∆: Delta, ǫ: Epsilon, µ: Mu, π, Π: Pi, ρ : Rho, σ, Σ: Sigma, τ : Tau, χ: Chi, ψ, Ψ : Psi, ω, Ω: Omega. A.1.2 Mengen und Zahlen N = {1, 2, 3, . . .} nat¨ urliche Zahlen, N0 = N ∪ {0}, Z = {. . . , −2, 1, 0, 1, 2, . . .} ganze Zahlen, Q = { pq |p ∈ Z, q ∈ N} rationale Zahlen, R : reelle Zahlen.
A.2 Punktfolgen und Konvergenz Folge Sei I ⊂ N0 eine Indexmenge (meist: I = N0 oder I = N). Eine Zuordnung, die jedem i ∈ I eine reelle Zahl an ∈ R zuordnet, heißt Folge. F¨ ur I = N0 : a 0 , a1 , a2 , . . . ur I = N oder I = N0 notiert man die Folai heißt i-tes Folgenglied. F¨ genglieder meist mit an . Notation einer Folge: (ai )i∈I , (ai : i ∈ I) oder auch (ai )i , wenn die Indexmenge aus dem Kontext heraus klar ist. Ist |I| = n < ∞, dann heißt (ai )i endliche Folge. Ansonsten spricht man von einer unendlichen Folge. In den folgenden Vereinbarungen notieren wir die Folge (an )n∈I kurz mit (an ) und schreiben stets ,,f¨ ur alle n” statt ausf¨ uhrlicher ,,f¨ ur alle n ∈ I”.
202
A Mathematik - kompakt
1) (an ) heißt monoton wachsend, wenn an ≤ an+1 f¨ ur alle n gilt und ur alle n gilt. streng monoton wachsend, wenn an < an+1 f¨ 2) (an ) heißt monoton fallend, wenn an ≥ an+1 f¨ ur alle n gilt und streng ur alle n gilt. monoton fallend, wenn an > an+1 f¨ 3) (an ) heißt alternierend, wenn f¨ ur alle n mit an = an+1 gilt: an < an+1 zieht an+1 > an+2 nach sich und umgekehrt. ankt, falls es eine Zahl (Konstante) K gibt, so dass 4) (an ) heißt beschr¨ |an | ≤ K f¨ ur alle n gilt. Gilt an ≥ K f¨ ur alle n und ein K ∈ R, dann heißt (an ) nach unten beschr¨ ankt. Gilt an ≤ K f¨ ur alle n und ein K ∈ R, ankt. dann heißt (an ) nach oben beschr¨ A.2.1 Konvergenz von Folgen
Konvergenz, Nullfolge Eine Folge (an )n∈I heißt konvergent gegen a ∈ R, wenn es zu jeder Toleranz ǫ > 0 einen Index n0 gibt, so dass f¨ ur alle n ≥ n0 gilt: |an − a| < ǫ. Eine Folge heißt Nullfolge, wenn (an )n∈I gegen a = 0 konvergiert. (an ) heißt konvergent gegen ∞ (bestimmt divergent gegen ∞), wenn zu jeder ur alle n ≥ n0 gilt: an > K. (an ) Schranke K > 0 ein n0 existiert, so dass f¨ heißt konvergent gegen −∞ (bestimmt divergent gegen −∞), wenn zu jeder Schranke K < 0 ein n0 existiert, so dass f¨ ur alle n ≥ n0 gilt: an < K. Man schreibt: an → a,
n → ∞,
oder
a = lim an . n→∞
Konvergiert (an )n∈I nicht gegen eine Zahl a ∈ R oder gegen ∞ oder −∞, dann heißt die Folge divergent. Beispiele: Die Folge an = 1/n ist eine Nullfolge (zu ε > 0 runde 1/ε nach oben auf, um n0 zu erhalten), an = 1 + 1/n konvergiert gegen a = 1, an = n gegen ∞ und an = −n gegen −∞. Kriterium Jede monoton wachsende (oder fallende) und beschr¨ankte Folge ist konvergent gegen eine Zahl a ∈ R. Ist die Folge (an )n konvergent gegen a ∈ R und die Folge (bn )n konvergent gegen b ∈ R und sind c,d reelle Zahlen, dann gelten die folgenden Rechenregeln:
A.2 Punktfolgen und Konvergenz
203
·
1) Die Differenz-, Summen- bzw. Produktfolge cn = an ± bn konvergiert und ·
hat den Grenzwert c = a ± b, d.h. ·
·
lim (an ± bn ) = lim an ± lim bn .
n→∞
n→∞
n→∞
Gilt bn = 0 f¨ ur alle n und ist b = 0, dann konvergiert auch die Quotientenfolge cn = an /bn mit Grenzwert c = a/b. ·
·
2) Die Folge c · an ± d · bn konvergiert und hat den Grenzwert ca ± db. A.2.2 Summen und Reihen Sind x1 , . . . , xn ∈ R reelle Zahlen, dann heißt n i=1
xi = x1 + · · · + xn
(endliche) Summe der xi oder auch endliche Reihe. i heißt Laufindex. n Es gilt: ni=1 i = n(n+1) , i=1 i2 = n(n+1)(2n+1) . 2 6 Endliche geometrische Reihe F¨ ur alle x ∈ R\{1} gilt: 1 + x + · · · + xn =
n
xi =
i=0
1 − xn+1 . 1−x
Reihe, Partialsumme Ist an , n ∈ N0 , eine Folge reeller Zahlen, dann heißt sn =
n
ak
k=0
n-te Partialsumme. ∞Die Folge sn , n ∈ N0 , der n-ten Partialsummen heißt Reihe. Notation: k=0 ak .
204
A Mathematik - kompakt
(Absolute) Konvergenz und Divergenz einer Reihe Die Reihe sn = n k=0 ak , n ∈ N0 , heißt konvergent gegen s ∈ R, wenn sie als reelle Folge gegen eine Zahl s ∈ R konvergiert. Dann schreibt man: ∞
ak = lim sn = s. n→∞
k=0
s heißt Grenzwert, Limes oder Wert der Reihe. Die Reihe sn heißt absolut konvergent, wenn nk=0 |ak | konvergiert.
Konvergiert eine Reihe gegen ∞ eine Zahl, ohne dass man diesen Limes kennt, so schreibt man mitunter k=0 ak < ∞.
Erg¨anzung: Die Reihe heißt uneigentlich konvergent gegen ∞ (−∞), wenn die Folge (sn ) gegen ∞ (−∞) uneigentlich konvergiert. Ansonsten heißt die Reihe divergent. ∞ k xk 1 Exponentialreihe: ∞ k=0 k! . Geometrische Reihe: k=0 q = 1−q , |q| < 1. ⊲ Konvergenzkriterien
Notwendiges Kriterium Konvergiert die Reihe sn = dann gilt: an → 0, n → ∞. Leibniz-Kriterium Die Reihe k → ∞.
n
k k=0 (−1) ak
n
k=0
ak gegen s ∈ R,
konvergiert, wenn ak → 0,
n Quotientenkriterium sn = k=0 ak sei eine Reihe, deren Summanden ak ab einem Index n0 ungleich 0 sind. Gibt es ein q ∈ (0,1), so dass ak+1 k ≥ n0 , ak ≤ q,
gegen eine Zahl s ∈ R. Gilt bzw. limk→∞ ak+1 ak = q, dann konvergiert sn |ak+1 /ak | ≥ 1, k ≥ n0 , dann konvergiert sn nicht gegen eine Zahl s ∈ R.
A.3 Funktionen Funktion Eine Zuordnung, die jedem Element x einer Menge D ⊂ R eine Zahl y = f (x) ∈ R zuordnet, heißt Funktion und wird mit f : D → R notiert. D heißt Definitionsbereich, die Menge W = {f (x)|x ∈ D} heißt Wertebereich.
A.3 Funktionen
205
Ist f : D → R eine Funktion mit Wertebereich W und ist g : E → R eine Funktion, so dass W Teilmenge von E ist, dann ist die Funktion y = g(f (x)) f¨ ur alle x ∈ D definiert und heißt Komposition (Verkettung) von f und g. Die Gleichung y = f (x), y vorgegeben, ist l¨osbar, wenn y ∈ W . Wann ist sie jedoch eindeutig l¨osbar? Umkehrfunktion Eine Funktion f (x), x ∈ D, mit Wertebereich W heißt umkehrbar, wenn es zu jedem y ∈ W genau ein x ∈ D gibt mit y = f (x). Durch f −1 (y) = x wird die Umkehrfunktion f −1 : W → D definiert. Es gelten dann die Gleichungen: f (f −1 (y)) = y
und
f −1 (f (x)) = x.
Achtung: Unterscheide f −1 (x) (Umkehrfunktion) und f (x)−1 = 1/f (x). Jede streng monotone Funktion f : D → R ist umkehrbar.
A.3.1 Spezielle Funktionen Sind a0 , . . . , an ∈ R, dann heißt die Funktion p : R → R, p(x) = a0 + a1 · x + a2 · x2 + . . . + an · xn ,
x ∈ R,
Polynom vom Grad n oder ganz-rationale Funktion und a0 , . . . , an heißen Koeffizienten. Zwei Polynome sind gleich, wenn ihre Koeffizienten gleich sind. Ist x1 eine Nullstelle von f (x), dann gilt: f (x) = (x − x1 )g(x) mit einem Polynom g(x) vom Grad n − 1. Sind p(x) und q(x) zwei Polynome und hat q(x) keine Nullstellen in der Menge D, dann ist p(x) , x ∈ D, f (x) = q(x)
definiert und heißt gebrochen-rationale Funktion. Die Nullstellen von q(x) sind Polstellen (senkrechte Asymptoten) von f (x). Ist n ∈ N, dann ist die Funktion f (x) = xn , x ∈ [0,∞), streng monoton wachsend mit Wertebereich [0,∞) und somit umkehrbar. Die Umkehrfunktion √ heißt n-te Wurzelfunktion: f −1 (y) = n y. Dies ist die eindeutige nichtnegative L¨osung der Gleichung y = xn . F¨ ur a = 0 heißt f (x) = xa Potenzfunktion. Der maximale Definitionsbereich ist [0,∞), falls a > 0, und (0,∞), falls a < 0.
206
A Mathematik - kompakt
Ist b > 0, dann heißt die Funktion f (x) = bx ,
x ∈ R,
allgemeine Exponentialfunktion zur Basis b. F¨ ur b = e0 ≈ 2.718282 x erh¨alt man die Exponentialfunktion e , deren Wertebereich R+ ist. ex ist streng monoton wachsend mit Umkehrfunktion y = ln(x), dem nat¨ urlichen Logarithmus, dessen Definitionsbereich (0,∞) ist. Es ist y = ex ⇔ x = ln(y). Es gilt f¨ ur b > 0 und x ∈ R: bx = ex·ln(b) . Daher hat y = bx die Umkehrfunktion x = logb (y) = ln(y)/ ln(b), y > 0, sofern b = 1. Die Rechenregeln der Potenzfunktion leiten sich daher aus den folgenden Rechenregeln f¨ ur die Exponentialfunktion ab: F¨ ur alle x, y ∈ R gilt: 1) e0 = 1 sowie: ex > 1, wenn x > 0, und 0 < ex < 1 wenn x < 0, 2) e−x = 1/ex , 3) ex+y = ex · ey , ex−y = ex /ey ,
4) (ex )y = ex·y .
F¨ ur den Logarithmus gelten die folgenden Rechenregeln: 1) ln(1) = 0, 2) Sind x, y > 0, dann ist ln(x · y) = ln(x) + ln(y), ln(x/y) = ln(x) − ln(y),
3) F¨ ur x > 0 und y ∈ R ist ln(xy ) = y ln(x).
Zu jeder Zahl t ∈ [0,2π] gibt es auf dem Einheitskreis im R2 einen Punkt (x,y), so dass der Kreisbogen vom Punkt (1,0) bis zum Punkt (x,y), gegen den Uhrzeigersinn aufgetragen, die L¨ange t hat. Die Koordinaten werden mit x = cos(t) und y = sin(t) bezeichnet. Die so definierten Funktionen sin(x) und cos(x) f¨ ur x ∈ [2,π], heißen Sinus und Kosinus und haben folgende Eigenschaften: 1) cos(x + 2π) = cos(x), sin(x + 2π) = sin(x) (Periode 2π), 2) cos(−x) = cos(x) (gerade), sin(−x) = sin(x) (ungerade), 3) cos(x + π) = − cos(x), sin(x + π) = − sin(x),
4) (sin(x))2 + (cos(x))2 = 1 (Satz des Pythagoras), 5) | sin(x)| ≤ 1, | cos(x)| ≤ 1,
6) (cos(x))2 = 12 (1 + cos(2x)), (sin(x))2 = 12 (1 − cos(2x)) (Halber Winkel),
7) cos(x + y) = cos(x) cos(y) − sin(x) sin(y),
A.3 Funktionen
207
8) cos(x − y) = cos(x) cos(y) + sin(x) sin(y),
9) sin(x + y) = sin(x) cos(y) + cos(x) sin(y),
10) sin(x − y) = sin(x) cos(y) − cos(x) sin(y), Die letzten vier Regeln sind die Additionstheoreme. A.3.2 Grenzwert von Funktionen Ist f : D → R eine Funktion und (xn ) eine Folge von Zahlen mit xn ∈ D f¨ ur alle n, dann kann man die Folge der Funktionswerte f (xn ) bilden. Was passiert mit dieser Folge der Funktionswerte, wenn die Folge xn gegen einen Wert x konvergiert? Grenzwert einer Funktion Sei f : D → R eine Funktion und a ∈ R. f (x) hat im Punkt a den Grenzwert c, wenn f¨ ur jede Folge (xn )n mit xn ∈ D f¨ ur alle n und limn→∞ xn = a gilt: limn→∞ f (xn ) = c. Notation: lim f (x) = c
x→a
c heißt linksseitiger Grenzwert im Punkt a und wird mit f (a−) beur alle n und zeichnet, wenn f¨ ur alle Folgen (xn )n mit xn ∈ D, xn ≤ a f¨ limn→∞ xn = a gilt: f (xn ) → c, n → ∞. c heißt rechtsseitiger Grenzwert im Punkt a und wird mit f (a+) beur alle n und zeichnet, wenn f¨ ur alle Folgen (xn )n mit xn ∈ D, xn ≥ a f¨ limn→∞ xn = a gilt: f (xn ) → c, n → ∞. Notationen: f (a−) = lim f (x)
und
x↑a
f (a+) = lim f (x). x↓a
In den Definitionen von f (a−) und f (a+) sind −∞ und ∞ als Grenzwerte zugelassen. Gilt f (a+) = f (a−)und sind f (a+) und f (a−) endlich, dann hat f (x) an der Stelle a einen Sprung der H¨ohe f (a+) − f (a−). Beispiele: limx→∞ limx→−∞ ex = 0.
1 x
= 0, limx↓0
1 x
= ∞, limx↑0
1 x
= −∞, limx→∞ ex = ∞,
Indikatorfunktion: Die Indikatorfunktion 1(A) eines Ausdrucks A, der wahr oder falsch sein kann, ist 1, wenn A wahr ist und 0, wenn A falsch ist. Die Indikatorfunktion, 1I (x), auf einer Menge I ist 1, x ∈ I, 1I (x) = 1(x ∈ I) = 0, x ∈ I.
Sie nimmt den Wert 1 an, wenn x in der Menge I ist, sonst den Wert 0 an. Ist I = [a,∞), dann hat f (x) = 1I (x) einen Sprung der H¨ohe 1 an der Stelle a. Es gilt f (a−) = 0 und f (a+) = 1.
208
A Mathematik - kompakt
A.3.3 Stetigkeit
Stetige Funktion Eine Funktion f : D → R heißt stetig im Punkt x ∈ D, wenn f¨ ur alle Folgen (xn )n mit xn → x, f¨ ur n → ∞, gilt: f (xn ) → f (x), n → ∞. Die ist gleichbedeutend mit f (x−) = f (x+). f (x) heißt stetig, wenn f (x) in allen Punkten x ∈ D stetig ist. F¨ ur die Funktion f (x) = x2 gilt nach den Regeln f¨ ur das Rechnen mit konvergenten Folgen: Aus xn → x, f¨ ur n → ∞, folgt f (xn ) = xn · xn → x · x = ur n → ∞. Also ist f (x) stetig in x. Dies gilt f¨ ur alle x ∈ R. x2 = f (x), f¨ f (x) ist genau dann stetig in x, wenn links- und rechtsseitiger Grenzwert endlich sind und u ¨bereinstimmen: f (x+) = f (x−) = f (x). Sind f (x) und g(x) stetige Funktionen mit Definitionsbereich D, dann auch f (x)±g(x), f (x)·g(x) und f (x)/g(x) (sofern g(x) = 0). Ist f (g(x)) definiert, dann ist mit f (x) und g(x) auch f (g(x)) stetig. Insbesondere sind alle Polynome, gebrochen-rationale Funktionen, |x|, ex und ln(x) stetig. Die Indikatorfunktion 1(a,b] (x) ist nicht stetig. Unstetigkeitsstellen sind bei x = a und x = b. A.3.4 Potenzreihen∗ Potenzreihe F¨ ur x ∈ R und Zahlen ak ∈ R, k ∈ N0 , heißt f (x) =
∞
k=0
ak (x − x0 )k
formale Potenzreihe mit Entwicklungspunkt x0 . f (x) konvergiert entweder nur f¨ ur x = 0, auf einem ganzen Intervall I ⊂ R, oder auf ganz R. Wenn es eine Zahl R > 0, so dass f (x) f¨ ur alle |x−x0 | < R absolut konvergiert und f¨ ur |x − x0 | > R divergiert, dann heißt R Konvergenzradius. Es gilt dann: an . R = lim n→∞ an+1
A.4 Differenzialrechnung
209
A.4 Differenzialrechnung A.4.1 Ableitung ¨ Ist f (x) eine Funktion, dann ist f (x + h) − f (x) die Anderung des Funktionswertes, wenn das Argument um h Einheiten ge¨andert wird. Umgerechnet auf (x) (relative eine Einheit ergibt dies den Differenzenquotienten f (x+h)−f h ¨ ¨ Anderung, Anderungsrate). Ableitung Eine Funktion f : D → R heißt im Punkt x ∈ D differenzierbar, wenn der Differenzenquotient f¨ ur h → 0 konvergiert und f ′ (x) =
f (x + h) − f (x) df (x) = lim h→0 dx h
eine reelle Zahl ist. Dann heißt der Grenzwert f ′ (x) Ableitung von f an der Stelle x. f (x) heißt differenzierbar, wenn f (x) an jeder Stelle x ∈ D differenzierbar ist. (x) Die linksseitige Ableitung ist definiert durch f ′ (x−) = limh↑0 f (x+h)−f , h f (x+h)−f (x) ′ die rechtsseitige Ableitung durch f (x+) = limh↑0 . h Beispiel: F¨ ur f (x) = |x| ist f ′ (0+) = 1 und f ′ (0−) = −1.
Geometrisch ist der Differenzenquotient die Steigung der Sekanten durch die Punkte (x,f (x)) und (x + h, f (x + h)). F¨ ur h → 0 erh¨alt man die Steigung der Tangenten, sofern f in x differenzierbar ist. Die Geradengleichung der Tangente lautet: y = f (x0 ) + f ′ (x0 )(x − x0 ). Eine lineare Approximation an f (x) im Punkt x0 ist somit gegeben durch: f (x) ≈ f (x0 ) + f ′ (x0 )(x − x0 ). Regel von L’Hospital Konvergieren f (x) und g(x) f¨ ur x → x0 beide gegen
0, ∞ oder −∞ und gilt x → x0 .
f ′ (x) g ′ (x)
→ c ∈ R f¨ ur x → x0 , dann folgt
f (x) g(x)
→ c, f¨ ur
210
A Mathematik - kompakt
Ableitungsregeln Sind f (x) und g(x) im Punkt x differenzierbar, dann auch f (x) ± g(x), f (x)g(x), sowie f (x)/g(x) (sofern g(x) = 0) und es gilt: ur alle c ∈ R, 1) (cf (x))′ = cf ′ (x) f¨ 2) Summenregel: (f (x) ± g(x))′ = f ′ (x) ± g ′ (x), 3) Produktregel: (f (x)g(x))′ = f ′ (x)g(x) + f (x)g′ (x), 0 1′ ′ (x) (x)g ′ (x) 4) Quotientenregel: fg(x) , = f (x)g(x)−f g(x)2 ′ ′ ′ 5) Kettenregel: (f (g(x))) = f (g(x))g (x), 1 1 = f (f −1 (y = f (x), x = f −1 (y)). 6) Umkehrfunktion: (f −1 (y))′ = f (x) (y))
Funktionf (x) ax + b
Ableitungf ′ (x) a
Stammfunktion f (x) dx ax2 /2 + bx
xn (n ∈ N, x ∈ R)
nxn−1
xn+1 n+1
xr (r ∈ R)
rxr−1
bx (b > 0, x ∈ R)
ln(b)bx
xr+1 r+1 bx ln(b)
a0 + a1 x + · · · + an xn
a1 + 2a2 x + · · · + nan xn−1
a0 x + a1 x2 + · · · + an xn+1
ex
ex
ex
ln(x) (x > 0)
1/x
x ln(x) − x
sin(x)
cos(x)
− cos(x)
cos(x)
− sin(x)
sin(x)
2
n+1
A.4.2 H¨ ohere Ableitungen Ist f (x) in x differenzierbar, dann kann man untersuchen, ob die Ableitung f ′ (x) wieder differenzierbar ist. H¨ohere Ableitungen Ist f ′ (x) in x differenzierbar, dann heißt f ′′ (x) = f (2) (x) =
d2 f (x) = (f ′ (x))′ dx2
zweite Ableitung von f (x) an der Stelle x. Ist f¨ ur n ≥ 3 die Funktion f (n−1) (x) an der Stelle x differenzierbar, dann heißt f (n) (x) = (f (n−1) (x))′ n-te Ableitung von f (x) an der Stelle x. f (x) sei in x0 zweimal stetig differenzierbar. Eine quadratische Approximation von f (x) f¨ ur x-Werte nahe x0 ist gegeben durch: 1 f (x) ≈ f (x0 ) + f ′ (x0 )(x − x0 ) + f ′′ (x0 )(x − x0 )2 . 2
A.6 Optimierung von Funktionen
211
A.5 Taylorpolynom und Taylorentwicklung Wir wollen eine n-mal differenzierbare Funktion f (x) durch ein Polynom p(x) approximieren, so dass der Funktionswert und die ersten n Ableitungen von p(x) an einer vorgegeben Stelle x0 mit Funktionswert und Ableitungen von f (x) u ¨bereinstimmt. Taylorpolynom, Restglied Ist f (x) n-mal differenzierbar in x0 , dann heißt Pn (f,x) = f (x0 ) + f ′ (x0 )(x − x0 ) +
f ′′ (x0 ) f (n) (x − x0 )2 + · · · + (x − x0 )n 2 n!
Taylorpolynom von f (x) an der Stelle x0 . Der Approximationsfehler Rn (f,x) = f (x) − Pn (f,x) heißt Restglied. Ist f (x) (n+1)-mal stetig differenzierbar, dann gilt f¨ ur x-Werte mit |x−x0 | ≤ c, c > 0, die Absch¨atzung: Rn (f,x) = |f (x) − Pn (f,x)| ≤
cn+1 |f (n+1) (t)|. max (n + 1)! t∈[x0 −c,x0 +c]
Taylorreihe Sei f : (a,b) → R gegeben. Falls f (x) darstellbar ist in der Form ∞ f (x) = ak (x − x0 )k k=0
f¨ ur alle x mit |x − x0 | < R (R > 0) gilt, dann heißt die rechts stehende Potenzreihe Taylorreihe von f (x) mit Entwicklungspunkt x0 . Es gilt dann: ak =
f (k) (x0 ) . k!
1 Wichtige Taylorreihen: Geometrische Reihe: 1−x = ∞ α k α ur |x| < 1. Binomialreihe: (1 + x) = k=0 k x f¨
∞
k=0
xn f¨ ur |x| < 1.
A.6 Optimierung von Funktionen Wir stellen uns den Graphen von f (x) als Gebirge vor: f (x) ist dann die H¨ohe am Ort x. Wir suchen T¨aler und Bergspitzen. F¨ ur die h¨ochste Bergspitze am Ort x∗ gilt: f (x) ≤ f (x∗ ) f¨ ur alle x. Betrachtet man f (x) nur auf einem (kleinen) Teilintervall (x0 − c, x0 + c) um x0 , dann gilt f¨ ur eine (kleine) Bergspitze ur alle x ∈ (x0 − c,x0 + c), wenn c > 0 klein an der Stelle x0 : f (x0 ) ≥ f (x) f¨ genug gew¨ahlt ist.
212
A Mathematik - kompakt
(Lokale/globale) Minima/Maxima/Extrema Sei f : (a,b) → R eine Funktion auf dem offenen Interval (a,b). f (x) besitzt an der Stelle x0 ∈ (a,b) ein lokales Minimum, wenn es ein c > 0 gibt, so dass f (x0 ) ≤ f (x) f¨ ur alle x mit |x − x0 | < c. x0 ∈ (a,b) ist ein lokales Maximum, wenn f (x) ≤ f (x0 ) f¨ ur alle x mit |x − x0 | < c. x0 ist ein globales Minimum, ur alle x ∈ (a,b). x0 ist ein globales Maximum, wenn wenn f (x0 ) ≤ f (x) f¨ f (x) ≤ f (x0 ) f¨ ur alle x ∈ (a,b). In einem lokalen Extremum verl¨auft die Tangente an f (x) parallel zur x-Achse. Notwendiges Kriterium Ist x0 ∈ (a,b) ein lokales Extremum, dann gilt: f ′ (x0 ) = 0 Punkte x mit f ′ (x) = 0 sind also Kandidaten f¨ ur die lokalen Extrema. Station¨ arer Punkt Ein Punkt x mit f ′ (x) = 0 heißt station¨ arer Punkt.
Hinreichendes Kriterium 1. Ordnung x0 ∈ (a,b) sei ein station¨arer Punkt von f (x). Bei einem Vorzeichenwechsel von f ′ (x) bei x0 . . . 1) von + nach − liegt ein lokales Maximum bei x0 , vor. 2) von − nach + liegt ein lokales Minimum bei x0 vor. Eine Funktion f (x) heißt konvex auf (a,b), wenn alle Verbindungsstrecken von zwei Punkten auf dem Graphen mit x-Koordinaten in (a,b) oberhalb der Kurve verlaufen. Verlaufen diese stets unterhalb, dann heißt f (x) konkav. Kriterium f¨ ur konvex/konkav Sei f (x) zweimal differenzierbar. Gilt ′′ ur alle x ∈ (a,b), dann ist f (x) in (a,b) konkav. Gilt f ′′ (x) > 0 f (x) < 0 f¨ f¨ ur alle (a,b), dann ist f (x) konvex in (a,b). Hinreichendes Kriterium 2. Ordnung x0 ∈ (a,b) sei ein station¨arer Punkt von f (x). 1) Gilt zus¨atzlich f ′′ (x0 ) < 0, dann ist x0 lokales Maximum. 2) Gilt zus¨atzlich f ′′ (x0 ) > 0, dann ist x0 lokales Maximum.
Beispiel: F¨ ur f (x) = x3 , x ∈ [−2,2], hat f ′ (x) = 3x2 = 0 die L¨osung x = 0. Da ′′ f (x) = 6x ist x = 0 Wendepunkt. An den R¨andern: f (−2) = −8, f (2) = 8, d.h. −2 ist globales Minimum, 2 globales Maximum.
A.7 Integration
213
A.7 Integration Sei f : [a,b] → R eine Funktion und a = x0 < x1 < · · · < xn = b eine Partition von [a,b]. dn = maxi=1,...,n |xi −xi−1 | heißt Feinheit der Partition. utzpunkt x∗i . Dann heißt W¨ahle in jedem Teilintervall (xi−1 ,xi ] einen St¨ Rn (f ) =
n i=1
f (x∗i )(xi − xi−1 )
Riemann-Summe von f (x) zu den St¨ utzstellen x∗1 , . . . , x∗n . W¨ahlt man alle ∗ xi als Minima von f (x) auf dem Intervall [xi−1 ,xi ], dann erh¨alt man die Untersumme Un (f ), w¨ahlt man die x∗i als Maxima von f (x) auf [xi−1 ,xi ], so erh¨alt man die Obersumme. (Riemann-) integrierbar Konvergiert Rn (f ) f¨ ur jede beliebige Wahl der St¨ utzstellen bzw. (gleichbedeutend hiermit) konvergieren Unter- und Obersumme gegen dieselbe Zahl I, sofern die Feinheit dn f¨ ur n → ∞ gegen 0 konvergiert, dann heißt f (x) (Riemann-) integrierbar auf [a,b]. Man setzt: b
f (x) dx = I.
a
Jede (st¨ uckweise) stetige Funktion f : [a,b] → R ist integrierbar.
A.7.1 Stammfunktion Stammfunktion Ist F (x) eine Funktion auf [a,b] mit F ′ (x) = f (x) f¨ ur alle x ∈ [a,b], dann heißt F (x) Stammfunktion von f (x). Insbesondere ist x F (x) = a f (t) dt eine Stammfunktion.
Stammfunktionen sind nicht eindeutig bestimmt: Gilt F ′ (x) = f (x) und ist G(x) = F (x) + c mit c ∈ R, dann ist auch G(x) eine Stammfunktion von f (x). Die Menge aller Stammfunktionen wird mit f (x) dx bezeichnet und heißt unbestimmtes Integral: f (x) dx = F (x) + c, c∈R c heißt Integrationskonstante. 1 2 Beispiel: xdx = x2 + c, c ∈ R. Also 0 x dx = ln(f (x)) + c, c ∈ R.
x2 1 2 |0
= 1/2.
f ′ (x) f (x)
dx =
214
A Mathematik - kompakt
In Abschnitt A.4.1 sind Stammfunkionen zu einigen elementaren Funktionen angegeben, jeweils zur Integrationskonstante c = 0. Ist F (x) eine Stammfunktion von f (x), dann gilt:
b
a
b f (x) dx = [F (x)]ba = F (x) = F (b) − F (a). a
A.7.2 Integrationsregeln
Integrationsregeln 1) Partielle Integration: 2) Substitutionsregel:
b
b a
a
f ′ (x)g(x) dx = f (x)g(x)|ba −
f (g(x))g ′ (x) dx =
g(b) g(a)
b a
f (x)g ′ (x) dx.
f (y) dy, (y = g(x)).
A.7.3 Uneigentliches Integral Sei f : [a,b) → R, b ∈ R oder b = +∞, auf jedem Teilintervall [a,c] ⊂ [a,b) integrierbar. f (x) heißt (uneigentlich) integrierbar auf [a,b), wenn der Grenzwert c I = lim c↑b
f (x) dx
a
existiert (oder ±∞ ist). I heißt uneigentliches Integral von f . Notation: ∞ b I = a f (x) dx. bzw. I = a f (x) dx, wenn b = ∞.
Genauso geht man am linken Rand vor: Sei a ∈ R oder a = −∞ und b ∈ R. f : (a,b] → R sei auf jedem Teilintervall [c,d] ⊂ (a,b] integrierbar. Dann definiert man: b b f (x) dx = lim f (x) dx. a
c↓a
c
A.8 Vektoren Wir bezeichnen die Punkte der zweidimensionalen Ebene (xy-Ebene) mit →
Großbuchstaben A,B, . . . . Ein Vektor AB ist ein Pfeil mit Anfangspunkt →
→
A und Endpunkt B. Zwei Vektoren AB und CD heißen gleich, wenn man durch eine Parallelverschiebung (parallel zu den Koordinatenachsen) eines der Vektoren erreichen kann, dass die Pfeile deckungsgleich sind, also Anfangs-
A.8 Vektoren
215
→
und Endpunkt aufeinanderfallen. Somit ist jeder Vektor AB gleich zu einem sogenannten Ortsvektor, dessen Anfangspunkt der Ursprung 0 ist. Auf diese Weise kann jeder Vektor mit einem Punkt, n¨amlich dem Endpunkt des zugeh¨origen Ortsvektors, identifiziert werden. Spalten- und Zeilenvektor, Rn , transponierter Vektor (Spalten-) Vektoren x1 .. x = . , x1 , . . . , xn ∈ R,
Die Menge aller
xn
heißt n-dimensionaler Vektorraum Rn . (x1 , . . . , xn ) heißt Zeilenvektor. Transposition: Ist x ∈ Rn der Spaltenvektor mit den Eintr¨agen x1 , . . . , xn , dann bezeichnet x′ den zugeh¨origen Zeilenvektor (x1 , . . . , xn ). Ist (x1 , . . . , xn ) ein Zeilenvektor, dann ist (x1 , . . . ,xn )′ der zugeh¨orige Spaltenvektor. x′ heißt transponierter Vektor. →
→
→
→
→
Zwei Vektoren x =AB und y =CD werden addiert, indem man y so ver→ schiebt, dass sein Anfangspunkt mit dem Endpunkt von x u ¨bereinstimmt. → → Der Endpunkt des so verschobenen Vektors sei E. Der Vektor x + y ist → → → dann derjenige Vektor mit Anfangspunkt D und Endpunkt E: x + y =DE . → → → → Identifiziert man die Vektoren x , y und x + y mit den Endpunkten (x1 ,x2 ), (y1 ,y2 ) und (z1 ,z2 ) ihrer zugeh¨origen Ortsvektoren, dann sieht man, dass gilt: z1 = x1 + y1 und z2 = x2 + y2 . Spezielle Vektoren: • 0 = 0n = (0, . . . , 0)′ ∈ Rn heißt Nullvektor. • Die Vektoren
0 1 0 1 0 .. e1 = . , e2 = 0 , . . . , en = . .. .. 0 . 0 1 0
heißen Einheitsvektoren. ei heißt i-ter Einheitsvektor.
216
A Mathematik - kompakt
Vektoraddition Sind x = (x1 , . . . , xn )′ und y = (y1 , . . . , yn )′ ndimensionale Vektoren, dann definiert man: x 1 + y1 .. x+y = . . xn + y n
Vektoren werden also koordinatenweise addiert.
Um Verwechselungen zu vermeiden, nennt man in der Vektorrechnung reelle Zahlen oftmals Skalare. Wir notieren Skalare mit normalen Buchstaben a,b,x,y, . . . und verwenden f¨ ur Vektoren Fettschrift.
.
Multiplikation mit einem Skalar Ist x ∈ Rn ein Vektor und c ∈ R ein Skalar, dann ist das skalare Vielfache c · x der Vektor (cx1 , . . . , cxn )′ (koordinatenweise Multiplikation).
F¨ ur Skalare c, d ∈ R und Vektoren x, y, z ∈ Rn gelten die Rechenregeln: 1) x + (y + z) = (x + y) + z, 2) c(x + y) = cx + cy, 3) (c + d)x = cx + dx. A.8.1 Lineare Unabh¨ angigkeit
Linearkombination Sind x1 , . . . , xk ∈ Rn Vektoren und c1 , . . . , ck ∈ R Skalare, dann heißt c1 x1 + . . . + ck xk Linearkombination von x1 , . . . , xk mit Koeffizienten c1 , . . . , ck . Ein Vektor y heißt linear kombinierbar aus x1 , . . . , xk , wenn es Zahlen c1 , . . . , ck gibt, so dass c1 x1 + . . . + ck xk = y.
Es gilt: (1,0)′ −(1,1)′ +(0,1)′ = (0,0). Somit ist der Nullvektor aus den Vektoren (1,0), (1,1), (0,1) linear kombinierbar (mit Koeffizienten +1, −1, +1).
A.8 Vektoren
217
Linear abh¨ angig, linear unabh¨ angig k Vektoren x1 , . . . , xk heißen linear abh¨ angig, wenn es Zahlen c1 , . . . , ck ∈ R gibt, die nicht alle 0 sind, so dass c1 x1 + . . . + ck xk = 0. angig. Ansonsten heißen x1 , . . . , xn linear unabh¨ Sind x1 , . . . , xk linear unabh¨angig, dann folgt aus c1 x1 + . . . + ck xk = 0 schon, dass alle Koeffizienten 0 sind: c1 = 0, . . . , ck = 0. A.8.2 Skalarprodukt und Norm
Skalarprodukt Sind x = (x1 , . . . , xn )′ und y = (y1 , . . . , yn )′ zwei ndimensionale Vektoren, dann heißt die Zahl ′
xy=
n
xi yi
i=1
Skalarprodukt von x und y. Insbesondere ist x′ x =
n
i=1
x2i .
F¨ ur das Skalarprodukt gelten die folgenden Rechenregeln: Sind x, y, z ∈ Rn Vektoren und ist c ∈ R ein Skalar, dann gilt: 1) x′ y = y′ x, 2) (x + y)′ z = x′ z + y′ z, 3) (c · x)′ y = c · x′ y = x′ (c · y). Orthogonale (senkrechte) Vektoren Zwei Vekoren x, y ∈ Rn heißen orthogonal (senkrecht), wenn ihr Skalarprodukt 0 ist, d.h. x′ y = 0. Ist x = (x1 ,x2 )′ ein (Orts-) Vektor, dann ist seine L¨ange nach dem Satz des Pythagoras gegeben durch: l = x21 + x22 . √ Wir k¨onnen l u ¨ber das Skalarprodukt darstellen: l = x′ x. Man nennt die L¨ ange eines Vektors auch Norm.
218
A Mathematik - kompakt
Norm, normierter Vektor Ist x ∈ Rn ein Vekor, dann heißt
x =
√
x′ x
(euklidische) Norm von x. Ein Vektor x heißt normiert, wenn seine Norm 1 ist: x = 1. Die Norm erf¨ ullt folgende Rechenregeln: F¨ ur Vektoren x, y ∈ Rn und c ∈ R gilt: 1) x = 0 gilt genau dann, wenn x der Nullvektor ist, d.h. x = 0, 2) x + y ≤ x + y (Dreiecksungleichung),
3) c · x = |c| · x .
Jede Abbildung · : Rn → R, welche diese Regeln erf¨ ullt heißt Norm. Eine weitere Norm ist etwa: x ∞ = maxi=1,...,n |xi |. Jeder Vektor x = 0 kann normiert werden: Der Vektor x∗ = 1.
x x
hat Norm
Cauchy-Schwarz-Ungleichung Sind x, y ∈ Rn n-dimensionale Vektoren, dann gilt: |x′ y| ≤ x · y . Aus der Cauchy-Schwarz-Ungleichung folgt, dass das Skalarprodukt der nory x und y∗ = y betragsm¨aßig kleiner oder gleich 1 mierten Vektoren x∗ = x ist: x′ y ≤ 1. |(x∗ )′ (y∗ )| =
x
y
Also ist (x∗ )′ (y∗ ) eine Zahl zwischen −1 und +1, so dass wir die Funktion arccos anwenden k¨onnen, um einen Winkel zu zu ordnen. Winkel zwischen zwei Vektoren Sind x, y ∈ Rn Vektoren, dann heißt y x , (x,y) = arccos
x y Winkel zwischen den Vektoren x und y.
Satz des Pythagoras Sind x, y ∈ Rn orthogonale Vektoren, dann gilt:
x + y 2 = x 2 + y 2 .
A.9 Matrizen
219
A.9 Matrizen Matrix Eine Anordnung von m · n Zahlen aij ∈ R, i = 1, . . . , m, j = 1, . . . , n, der Form
a a A= . ..
11 21
am1
a12 · · · a1n a22 · · · a2n .. . am2 · · · amn
heißt (m×n)-Matrix. (m,n) heißt Dimension. Ist die Dimension aus dem Kontext klar, dann schreibt man oft abk¨ urzend: A = (aij )i,j . Zwei Matrizen A = (aij )i,j und B = (bij )i,j gleicher Dimension (d.h.: mit gleicher Zeilen- und Spaltenanzahl) heißen gleich, wenn alle Elemente u ¨berur alle Zeilen i und alle Spalten j. einstimmen: aij = bij f¨ Einige spezielle Matrizen: • Nullmatrix: 0 = 0m×n ist die Matrix, deren Eintr¨age alle 0 sind. • A heißt Diagonalmatrix, wenn a11 0 0 a22 A = ... 0 ··· 0
... 0
...
0 0 .. .
0
0 an−1,n−1 ··· 0 ann
Nur die Diagonale ist belegt. Kurznotation: A = diag(a11 , . . . , ann ).
• Einheitsmatrix: I = In×n = diag(1, . . . ,1) ist die Diagonalmatrix mit Diagonalelementen 1. Sind A = (aij )i,j und B = (bij )i,j zwei Matrizen gleicher Dimension, dann ist C = A + B die Matrix mit den Eintr¨agen cij = aij + bij (elementweise Addition). F¨ ur ein c ∈ R ist cA die Matrix mit den Eintr¨agen c · aij (elementweise Multiplikation mit einen Skalar). F¨ ur Matrizen A, B, C gleicher Dimension und Skalare c,d ∈ R gelten dann die Rechenregeln: 1) (A + B) + C = A + (B + C), 2) c(A + B) = cA + cB, 3) (c + d)A = cA + dA.
220
A Mathematik - kompakt
Sei y = (y1 , . . . , ym )′ ∈ Rm ein Vektor, dessen Koordinaten sich aus x durch m Skalarprodukte yi = a′i x =
n
aij xj ,
i = 1, . . . , m,
j=1
mit Koeffizientenvektoren ai = (ai1 , . . . , ain )′ berechnen. Matrix–Vektor–Multiplikation Ist A = (aij )i,j eine (m × n)-Matrix und x = (x1 , . . . , xn )′ ∈ Rn ein Vektor, dann ist die Multiplikation von A mit x definiert als derjenige m-dimensionale Vektor y, dessen i-ter Eintrag das Skalarprodukt der i-ten Zeile von A mit x ist: ′ a1 x .. y = Ax = . . a′n x
Bei gegebener Matrix A wird durch diese Operation jedem Vektor x ∈ Rn ein Bildvektor y = Ax ∈ Rm zugeordnet. Die m Vektoren, welche die Zeilen einer Matrix A bilden, bezeichnen wir mit a1 , . . . , am . Die n Spaltenvektoren notieren wir mit a(1) , . . . , a(n) . Dann gilt: ′ a1 .. A = . = (a(1) , . . . , a(n) ). a′m
In den Spalten von A stehen die Bildvektoren der Einheitsvektoren ei : a(i) = Aei , i = 1, . . . , n. Sind A und B (m × n)-Matrizen, x, y ∈ Rn und ist c ∈ R, dann gelten die folgenden Regeln: 1) (A + B)x = Ax + Bx, 2) A(x + y) = Ax + Ay, 3) A(c · x) = c · Ax. Die letzten beiden Regeln besagen, dass die Abbildung x → Ax linear ist.
Ist x = (x1 , . . . , xn )′ ∈ Rn , dann ist y = Ax eine Linearkombination der n Spalten a(1) , . . . , a(n) von A. Aus x = x1 e1 + x2 e2 + · · · + xn en
A.9 Matrizen
221
und der Linearit¨ at folgt n¨amlich: Ax = x1 Ae1 + · · · + xn Aen = x1 a(1) + · · · + xn a(n) . Matrizenmultiplikation Ist A eine (m × n)-Matrix und B eine (n × r)Matrix, dann wird die Produktmatrix A · B definiert als (m × r)-Matrix C = AB = (cij )i,j ∈ Rm×r , deren Eintr¨age cij das Skalarprodukt der i-ten Zeile von A mit der j-ten Spalte von B sind: n aik bkj cij = k=1
Zwei Matrizen heißen multiplikations-kompatibel, wenn die Spaltenzahl von A mit der Zeilenzahl von B u ¨bereinstimmt, so dass die Produktmatrix gebildet werden kann.
Sind A, B, C Matrizen, so dass A und C sowie B und C multiplikationskompatibel sind, ist x ∈ Rn und c ∈ R, dann gelten die folgenden Regeln: 1) (A + B)C = AC + BC, 2) A(Bx) = (AB)x, 3) A(BC) = (AB)C, 4) Meist gilt: AB = BA. Die Produktmatrix C = AB beschreibt die Hintereinanderausf¨ uhrung der Abbildungen, die durch A und B beschrieben werden: B ordnet jedem Vektor x ∈ Rr einen Bildvektor y = Bx ∈ Rn zu, dem wir durch Anwenden der Matrix A einen Vektor z = Ay ∈ Rm zuordnen k¨onnen: x → y = Bx → z = Ay = A(Bx).
Die Produktmatrix ist nun genau diejenige Matrix, die x direkt auf z abbildet: z = Cx. In den Spalten von C stehen die Bildvektoren der Einheitsvektoren: c(i) = Cei . Es gilt: c(i) = (AB)ei = A(Be(i) ) = Ab(i) . In den Spalten von C stehen also die Bildvektoren der Spalten von B nach Anwendung der Matrix A. Rang einer Matrix Der Spaltenrang bzw. Zeilenrang einer Matrix ist die maximale Anzahl linear unabh¨angiger Spalten- bzw. Zeilenvektoren. Spalten- und Zeilenrang einer Matrix stimmen u ¨berein, so dass man vom Rang einer Matrix spricht. Notation: rg(A).
222
A Mathematik - kompakt
A.10 L¨ osung linearer Gleichungssysteme Seien A eine (m×n)-Matrix mit Zeilen a′i , i = 1, . . . , m, und b ∈ Rm . Gesucht sind L¨osungsvektoren x ∈ Rn der n Gleichungen: a′i x = bi ,
⇔
i = 1, . . . , m,
Ax = b.
Dies ist ein lineares Gleichungssystem (LGS) mit m Gleichungen und n Unbekannten x1 , . . . , xn . Ax = b besitzt genau dann eine L¨osung, wenn b als Linearkombination der Spalten von A darstellbar ist. Gilt n¨amlich: b = x1 a(1) + · · · + xn a(n) , dann ist x = (x1 , . . . , xn )′ ein L¨osungsvektor. Ist b als Linearkombination der Spalten von A darstellbar, dann besitzt die erweiterte Koeffizientenmatrix (A|b) den selben Rang wie A. Ansonsten sind die Vektoren a(1) , . . . , a(n) , b linear unabh¨angig, so dass rg(A|b) > rg(A). Das LGS Ax = b besitzt genau dann eine L¨osung, wenn rg(A) = rg(A|b). Ist A = (aij )ij eine (2 × 2)-Matrix, dann zeigt eine explizite Rechnung (s. Steland (2004), Abschnitt 7.6.5), dass das LGS Ax = b genau dann eine L¨ osung besitzt, wenn die Determinante det(A) = a11 a22 − a12 a21 ungleich 0 ist. Determinante einer (2 × 2)-Matrix −1
A
1 = det(A)
Gilt det(A) = 0, dann heißt
a22 −a12 −a21 a11
inverse Matrix von A. Das LGS Ax = b besitzt dann die eindeutig bestimmte L¨osung 1 b1 a22 −a12 −1 x=A b= . b2 det(A) −a21 a11 Ist allgemein A−1 eine Matrix mit A−1 A = I, dann k¨onnen wir Ax = b auf beiden Seiten von links mit der Matrix A−1 multiplizieren, also nach x aufl¨ osen: x = A−1 b.
A.10 L¨ osung linearer Gleichungssysteme
223
Inverse Matrix Sei A eine (n × n)-Matrix. Existiert eine Matrix B mit BA = I,
AB = I,
dann heißt B inverse Matrix von A und wird mit A−1 bezeichnet. Sei A eine invertierbare (n × n)-Matrix. Dann gilt: 1) Ist A · B = I oder B · A = I, dann folgt B = A−1 .
2) (A′ )−1 = (A−1 )′ .
3) Ist c ∈ R, dann gilt: (cA)−1 = 1c A−1 .
4) Ist A symmetrisch, d.h. A = A′ , dann ist auch A−1 symmetrisch. 5) Sind A und B invertierbar, dann auch die Produkte A · B und B · A: (AB)−1 = B−1 A−1 ,
(BA)−1 = A−1 B−1 .
A.10.1 Gauß-Verfahren Das Gauß-Verfahren ist ein bekanntes Verfahren zur L¨osung linearer Gleichungssysteme. Hierzu wird ein beliebiges LGS Ax = b durch sogenannte elementare Zeilenumformungen so umgeformt, dass die Koeffizientenmatrix Dreiecksgestalt hat. Ist A eine obere Dreiecksmatrix, dann kann das Gleichungssystem durch schrittweises R¨ uckw¨ artseinsetzen gel¨ost werden. F¨ ur m = n gilt dann: a11 x1 + a12 x2 + · · · + a1n xn = b1 , a22 x2 + · · · + a2n xn = b2 , .. .. . . ann xn = bn Die letzte Zeile liefert xn = bn /ann . Dies wird in die vorletzte Zeile eingesetzt, die dann nach xn−1 aufgel¨ost werden kann, usw. Die folgenden elementaren Zeilenumformungen ¨andern die L¨osungsmenge des Gleichungssystems Ax = b nicht: 1) Vertauschen zweier Zeilen. 2) Addition eines Vielfachen der i-ten Zeile zur j-ten Zeile. 3) Multiplikation einer Zeile mit einer Zahl c = 0. Durch Anwenden dieser Operationen auf die erweiterte Koeffizientenmatrix (A|b) erzeugt man nun Nullen unterhalb der Diagonalen von A und bringt (A|b) somit auf die Gestalt
224
A Mathematik - kompakt
Td 0 e
.
Hierbei ist T eine (k×n)-Matrix mit Stufengestalt. Ist e kein Nullvektor, dann ist das LGS widerspr¨ uchlich und besitzt keine L¨osung. Der Rang der Matrix A ist k. T habe an den Spalten mit Indizes s1 , . . . , sk Stufen. Das heißt, in der j-ten Zeile ist der Eintrag tj,sj in der sj -ten Spalte ungleich 0 und links davon stehen nur Nullen: (0, . . . , 0, tj,sj , ∗, . . . , ∗) mit tj,sj = 0. Hierbei steht ∗ f¨ ur eine beliebige Zahl. Durch weitere elementare Zeilenumformungen kann man noch Nullen oberhalb von tj,sj erzeugen. Davon gehen wir jetzt aus. Die Gleichungen k¨onnen dann nach den Variablen xs1 , . . . , xsk aufgel¨ost werden. Die u ¨brigen Variablen xj mit j ∈ {s1 , . . . , sk } bilden n − k freie Parameter: Man beginnt mit der k-ten Zeile des obigen Schemas, tk,sk xsk + tk,sk +1 · xsk +1 + · · · + tk,n · xn = dk . Diese Gleichung wird nach xsk aufgel¨ost: xs k =
tk,sk+1 tk,n dk − xsk +1 − · · · − xn . tk,sk tk,sk tk,sk
xsk ist nun eine Funktion der freien Variablen xsk +1 , . . . , xn , die beliebig gew¨ahlt werden k¨onnen. Da oberhalb von tk,sk Nullen erzeugt wurden, muss xsk nicht in die oberen Gleichungen eingesetzt werden. Man l¨ost nun schrittweise die Gleichungen (von unten nach oben) nach den Variablen xsk , xsk−1 , . . . , xs1 auf. Hierbei erscheinen die u ¨brigen Variablen als zus¨atzliche freie Parameter in den Formeln f¨ ur die xsj . ⊲ Das Gauß-Verfahren f¨ ur mehrere rechte Seiten Sind k Gleichungssysteme mit rechten Seiten b1 , . . . , bk zu l¨osen, Ax = b1 ,
Ax = b2 ,
...,
Ax = bk ,
dann kann das Gauß-Verfahren auf die erweiterte Matrix (A|b1 , . . . , bk ) angewendet werden: Erzeugt man durch elementare Zeilenumformungen die Gestalt (I|B), so stehen in der Matrix B spaltenweise die L¨osungsvektoren x 1 , . . . , xk . ⊲ Berechnung der inversen Matrix Sei A eine invertierbare (n × n)-Matrix. Betrachte die n linearen Gleichungssysteme i = 1, . . . , n, Ax = ei , bei denen die rechten Seiten die n Einheitsvektoren sind. Da A invertierbar ist, hat Ax = ei die eindeutige L¨osung x = A−1 ei . Dies ist die i-te Spalte der inversen Matrix A−1 . L¨ost man die n linearen Gleichungssysteme Ax = ei , so erh¨alt man also spaltenweise die inverse Matrix. Dies kann effizient durch das Gauß-Verfahren geschehen, indem man die erweiterte Matrix (A|I) durch elementare Zeilenumformungen auf die Gestalt (I|C) bringt. Dann ist C die inverse Matrix A−1 .
A.10 L¨ osung linearer Gleichungssysteme
225
A.10.2 Determinanten F¨ ur (2 × 2)-Matrizen wurde die Determinante bereits definiert. Determinante einer (3 × 3)-Matrix Ist A eine (3×3)-Matrix mit Eintr¨agen aij ∈ R, dann heißt die Zahl a22 a23 a21 a23 a21 a22 − a12 det + a13 det a11 det a32 a33 a31 a33 a31 a32 Determinante von A und wird mit det(A) notiert. Die Definition der Determinante einer (n × n)-Matrix ist etwas komplizierter: Eine Transposition von {1, . . . , n} ist eine Permutation, die genau zwei Elemente vertauscht und die anderen unver¨andert l¨aßt. Jede Permutation p kann als endliche Anzahl von hintereinander ausgef¨ uhrten Transpositionen geschrieben werden. Ist diese Anzahl gerade, so vergibt man das Vorzeichen sgn(p) = +1, sonst sgn(p) = −1. Beispiel: Die Permutation (2,1,3) der Zahlen 1,2,3 hat das Vorzeichen sgn(2,1,3) = −1, (2,3,1) hat das Vorzeichen +1. Ist A eine Matrix, dann kann man zu jeder Permutation p = (p1 , . . . , pn ) diejenige Matrix Ap betrachten, bei der die Zeilen entsprechend permutiert sind: In der i-ten Zeile von Ap steht die pi -te Zeile von A. Die Determinante von A ist jetzt definiert als sgn(p)ap1 ,1 · . . . · apn ,n . det(A) = p
Jeder Summand ist das Produkt der Diagonalelemente der Matrix Ap ; es wird u ur eine (2 × 2)-Matrix A = (aij )i,j ¨ber alle n! Permutationen summiert. F¨ gibt es nur zwei Permutation der Zeilenindizes {1, 2}, n¨amlich p = (1,2) und q = (2,1). Daher ist det(A) = ap(1),1 ap(2),2 − aq(1),1 aq(2),2 = a11 a22 − a21 a12 ; wie gehabt. Man berechnet Determinanten jedoch wie folgt: Entwicklungssatz A sei eine (n × n)-Matrix. Aij entstehe aus A durch Streichen der i-ten Zeile und j-ten Spalte. Dann berechnet sich die Determinante von A durch det(A) =
n
(−1)i+j aij det(Aij )
j=1
(Entwicklung nach der i-ten Zeile). Insbesondere gilt: det(A) = a11 det(A11 ) − a12 det(A12 ) ± · · · + (−1)n+1 det(A1n ).
226
A Mathematik - kompakt
n Es gilt auch: det(A) = i=1 (−1)i+j aij det(Aij ) (Entwicklung nach der j-ten Spalte), da det(A) = det(A′ ). Man entwickelt nach derjenigen Spalte oder Zeile, in der die meisten Nullen stehen. Sind A, B multiplikationskompatible Matrizen und ist c ∈ R, dann gilt: 1) Vertauschen zweier Zeilen (Spalten) ¨andert das Vorzeichen der Determinante. 2) det(AB) = det(A) det(B). 3) det(cA) = cn det(A). 4) det(A) = det(A′ ) 5) det(A) = 0 genau dann, wenn rg(A) < n. 6) det(A) = 0 genau dann, wenn die Zeilen (Spalten) von A linear unabh¨angig sind. 7) A ist genau dann invertierbar, wenn det(A) = 0.
8) Die Determinante ist linear in jeder Zeile bzw. Spalte. 9) Sind alle Elemente unterhalb der Hauptdiagonalen 0, dann erh¨alt man: det(A) = a11 a22 · . . . · ann . Sei A = (a(1) , . . . , a(n) ) die (n × n)-Matrix mit Spaltenvektoren a(j) . Die Determinate kann als Funktion der Spalten von A aufgefasst werden: det(A) = det(a(1) , . . . , a(n) ).
Cramer’sche Regel Ist A invertierbar, dann berechnet sich die i-te Koordinate xi des eindeutig bestimmten L¨osungsvektors des LGLs Ax = b durch det(a(1) , . . . , a(i−1) , b, a(i+1) , . . . , a(n) ) xi = . det(A)
A.11 Funktionen mehrerer Ver¨ anderlicher Funktion Eine Zuordnung f : D → R mit D ⊂ Rn , die jedem Punkt x = (x1 , . . . ,xn ) ∈ D genau eine Zahl y = f (x1 , . . . ,xn ) ∈ R zuordnet, heißt Funktion von x1 , . . . ,xn . D heißt Definitionsbereich von f , x1 , . . . , xn Argumentvariablen oder auch (unabh¨ angige, exogene) Variablen. y = f (x1 , . . . ,xn ) heißt mitunter auch endogene Variable. Die Menge W = {f (x) : x ∈ D} heißt Wertebereich.
A.11 Funktionen mehrerer Ver¨ anderlicher
227
Betrachtet man Funktionen von n = 2 Variablen, so ist es u ¨blich, die Variablen mit x,y zu bezeichnen und den Funktionswert mit z = f (x,y). Solche Funktionen kann man grafisch darstellen, indem man den Funktionswert z = f (x,y) u ¨ber dem Punkt (x,y) ∈ D auftr¨agt. Anschaulich ist der Funktionsgraph {(x,y,z) : z = f (x,y), (x,y) ∈ D} ein Gebirge. Konvergenz von Punktfolgen Eine Folge (xk )k∈N von Punkten des Rn , xk = (xk1 , . . . , xkn ), heißt konvergent gegen x, x = (x1 , . . . , xn ), wenn alle n Koordinatenfolgen gegen die zugeh¨origen Koordinaten von x = (x1 , . . . , xn ) konvergieren: xk = (xk1 , . . . , xkn ) ↓ ↓ x = (x1 , . . . , xn ).
Stetige Funktion Eine Funktion f (x) = f (x1 , . . . , xn ), x ∈ D, heißt stetig im Punkt a, wenn f¨ ur alle Folgen (xk )k , die gegen a konvergieren, auch die zugeh¨origen Funktionswerte f (xk ) gegen f (a) konvergieren, d.h. xk → a,
k → ∞,
⇒
f (xk ) → f (a),
k → ∞.
f (x) heißt stetig, wenn f (x) in allen Punkten a stetig ist. Insbesondere sind alle Polynome in n Variablen sowie alle Funktionen, die durch Addition, Subtraktion, Multiplikation oder Division aus stetigen Funktionen hervorgehen, stetig. Desgleichen ist eine Verkettung f (g1 (x), . . . , gn (x)) stetig, wenn f (x) und die reellwertigen Funktionen g1 (x), . . . , gn (x) stetig sind.
228
A Mathematik - kompakt
A.11.1 Partielle Differenzierbarkeit und Kettenregel
Partielle Ableitung 1) Ist f (x) = f (x1 , . . . , xn ) eine Funktion von n Variablen, dann ist die (i-te) partielle Ableitung nach xi im Punkt x, definiert durch ∂f (x) f (x + hei ) − f (x) , := lim h→0 ∂xi h sofern dieser Grenzwert (in R) existiert. 2) f heißt partiell differenzierbar (im Punkt x), wenn alle n partiellen Ableitungen (im Punkt x) existieren. 3) f heißt stetig partiell differenzierbar, wenn alle n partiellen Ableitungen stetig sind.
Die partielle Ableitung nach xi ist die ,,gew¨ohnliche” Ableitung, wobei alle anderen Variablen als Konstanten betrachtet werden. Gradient Der Vektor der n partiellen Ableitungen, grad f (x) =
heißt Gradient von f (x).
∂f (x) ∂x1
.. .
∂f (x) ∂xn
Die Funktion f (x,y) = |x| + y 2 ist in jedem Punkte (x,y) partiell nach y (x,y) = 2y. f (x,y) ist jedoch in allen Punkten (0,y) mit differenzierbar mit ∂f ∂y y ∈ R nicht nach x partiell differenzierbar. Ist die Funktion
∂f (x1 ,...,xn ) ∂xi
partiell differenzierbar nach xj , so notiert man
die resultierende partielle Ableitung mit
∂ 2 f (x1 ,...,xn ) . ∂xj ∂xi
In analoger Weise sind alle partielle Ableitungen k-ter Ordnung nach den k f (x1 ,...,xn ) Variablen xi1 , . . . , xik definiert und werden mit ∂x∂i ∂x ···∂xi notiert, wenn i k
die partielle Ableitung
∂ k−1 f (x1 ,...,xn ) ∂xik−1 ···∂xi1
k−1
1
nach xik partiell differenzierbar ist.
A.11 Funktionen mehrerer Ver¨ anderlicher
229
Vertauschbarkeitsregel Existieren alle partiellen Ableitungen 2. Ordnung, ∂ 2 f (x) ∂xi ∂xj ,
und sind dies stetige Funktionen von x = (x1 , . . . , xn ), dann kann die Reihenfolge vertauscht werden: ∂ ∂f (x) ∂f (x) ∂ ∂ 2 f (x) ∂ 2 f (x) = = = ∂xi ∂xj ∂xi ∂xj ∂xj ∂xi ∂xj ∂xi Ist f : D → R eine Funktion von x = (x1 , . . . , xn ) und sind xi (t), i = 1, . . . , n, n Funktionen mit Definitionsbereich I, so dass (x1 (t), . . . , xn (t)) ∈ D,
f¨ ur alle t ∈ I,
dann erh¨alt man durch Einsetzen der Funktionen xi (t) in die entsprechenden Argumente von f (x1 , . . . , xn ) eine Funktion von I nach R: z(t) = f (x1 (t), . . . , xn (t)). Die folgende Kettenregel liefert eine Formel f¨ ur die Ableitung von z(t): Kettenregel Ist f (x1 , . . . , xn ) differenzierbar und sind die Funktionen x1 (t), . . . , xn (t) alle differenzierbar, dann gilt
dz(t) = (grad f (x1 (t), . . . , xn (t)))′ dt
dx1 (t) dt
.. .
dxn (t) dt
.
A.11.2 Lineare und quadratische Approximation, Hessematrix Ist eine Funktion f (x) in einem Punkte x0 stetig partiell differenzierbar, dann kann f (x) f¨ ur Argumente x in der N¨ahe von x0 durch eine lineare bzw. quadratische Funktion angen¨ahert werden.
230
A Mathematik - kompakt
Lineare Approximation Die lineare Approximation von f (x,y) im Punkte (x0 ,y0 ) ist f (x,y) ≈ f (x0 ,y0 ) +
∂f (x0 ,y0 ) ∂f (x0 ,y0 ) (x − x0 ) + (y − y0 ). ∂x ∂y
Allgemein ist f¨ ur eine Funktion von n Variablen die lineare Approximation von f (x) im Punkt x0 gegeben durch: f (x) ≈ f (x0 ) + (grad f (x0 ))′ (x − x0 ).
Hesse-Matrix Ist f zweimal stetig partiell differenzierbar im Punkt x, dann heißt die symmetrische (n × n)-Matrix 2 ∂ f (x) Hf (x) = ∂xi ∂xj i,j Hesse-Matrix von f (x) an der Stelle x.
Quadratische Approximation Eine quadratische Approximation an f (x) in der N¨ahe von x0 ist gegeben durch: 1 Q(x) = f (x0 ) + grad f (x0 )′ (x − x0 ) + (x − x0 )′ Hf (x0 )(x − x0 ). 2 Die Funktion Q(x) bestimmt das Verhalten von f (x) in der N¨ahe von x0 . Aus der quadratischen Approximation folgt, dass das Verhalten von f (x) in der N¨ahe von x0 durch den Gradienten grad f (x0 ) und die Hesse-Matrix Hf (x0 ) bestimmt wird. A.11.3 Optimierung von Funktionen Lokale Extrema (Minimum/Maximum) Sei f : D → R, D ⊂ Rn , eine ur Funktion. Ein Punkt x0 heißt lokales Minimum, wenn f (x0 ) ≤ f (x) f¨ alle x mit x − x0 ≤ c f¨ ur ein c > 0 gilt. x0 heißt lokales Maximum, wenn x0 lokales Minimum von −f (x) ist. x0 heißt lokales Extremum, wenn f (x) lokales Minimum oder lokales Maximum ist. Anschaulich kann man sich eine Funktion f (x,y) als Gebirge vorstellen. Befindet man sich am Ort (x0 ,y0 ), dann zeigt der Gradient grad f (x0 ,y0 ) in Rich-
A.11 Funktionen mehrerer Ver¨ anderlicher
231
tung des steilsten Anstiegs. − grad f (x0 ,y0 ) zeigt in die Richtung des steilsten Abstiegs. Gibt es keine Aufstiegsrichtung, dann befindet man sich u.U. in einem lokalen Minimum oder lokalen Maximum. Station¨ are Punkte Ein Punkt x ∈ Rn heißt station¨ arer Punkt, wenn der Gradient in diesem Punkt der Nullvektor ist: grad f (x) = 0. Zur Bestimmung aller station¨aren Punkte ist also die Gleichung grad f (x) = 0 zu l¨osen. Innerer Punkt Ein Punkt x0 ∈ D des Definitionsbereichs D einer Funktion f : D → R heißt innerer Punkt, wenn es ein c > 0 gibt, so dass alle Punkte x, deren Abstand x − x0 kleiner als c ist, auch in D liegen. Notwendiges Kriterium 1. Ordnung Ist x0 ∈ D innerer Punkt von D und ein lokales Extremum von f (x), dann gilt: grad f (x0 ) = 0. Ist f (x) zweimal stetig partiell differenzierbar und ist x0 ein station¨arer Punkt, dann lautet die quadratische Approximation von f (x): 1 f (x) ≈ f (x0 ) + (x − x0 )′ Hf (x0 )(x − x0 ). 2 Somit entscheidet das Verhalten von q(x) = (x − x0 )′ Hf (x0 )(x − x0 ), ob x0 ein lokales Extremum ist. Nimmt q(x) nur positive (negative) Werte an, dann ist x0 ein lokales Minimum (Maximum). Man definiert daher: Positiv/negativ definit Sei A eine symmetrische (n × n)-Matrix. A heißt positiv definit, wenn x′ Ax > 0 ist f¨ ur alle x = 0. A heißt negativ definit, wenn −A positiv definit ist. Sonst heißt A indefinit. Kriterium f¨ ur positive Definitheit ab eine (2 × 2)-Matrix, dann ist A genau dann positiv 1) Ist A = cd definit, wenn a > 0 und ad − bc > 0 gilt. 2) Ist A eine (n × n)-Matrix, dann ist A positiv definit, wenn alle Determinanten det(Ai ) der Teilmatrizen Ai , die aus den ersten i Zeilen und Spalten von A bestehen, positiv sind.
232
A Mathematik - kompakt
Hinreichendes Kriterium 2. Ordnung, Sattelpunkt Ist f (x) zweimal stetig differenzierbar und ist x0 ein station¨arer Punkt, der innerer Punkt von D ist, dann gilt: 1) Ist Hf (x0 ) positiv definit, dann ist x0 lokales Minimum. 2) Ist Hf (x0 ) negativ definit, dann ist x0 lokales Maximum. 3) Ist Hf (x0 ) indefinit, dann heißt x0 Sattelpunkt.
Das Kriterium macht keine Aussage, wenn die Hesse-Matrix nur positiv semidefinit ist, d.h. x′ Hf x ≥ 0 f¨ ur alle x = 0 gilt, oder negativ semidefinit ur alle x = 0 gilt! ist, d.h. x′ Hf x ≥ 0 f¨ A.11.4 Optimierung unter Nebenbedingungen Problem: Bestimme die Extremalstellen einer Funktion f : D → R, D ⊂ Rn , unter den m Nebenbedingungen g1 (x) = 0, g2 (x) = 0, . . . , gm (x) = 0. Man spricht von einem restringierten Optimierungsproblem. Kann man diese m Gleichungen nach m Variablen, etwa nach xn−m+1 , . . . , xn , aufl¨osen, xn−m+1 = h1 (x1 , . . . , xn−m ), . . . xn = hm (x1 , . . . , xn−m ), dann erh¨alt man durch Einsetzen in f (x1 , . . . , xn ) ein unrestringiertes Optimierungsproblem: Minimiere f (x1 , . . . , xn−m , h1 (x1 , . . . , xn−m ), . . . , hm (x1 , . . . , xn−m )) in den n − m Variablen x1 , . . . , xn−m .
Beispiel: Minimiere f (x,y) = x2 + y 2 unter der Nebenbedingung x + y = 10. Die Nebenbedingung ist ¨aquivalent zu y = 10 − x. Einsetzen liefert: Minimiere f (x,10 − x) = x2 + (10 − x)2 in x ∈ R.
H¨aufig ist dieses Vorgehen jedoch nicht m¨oglich. Dann verwendet man die Lagrange-Methode:
A.12 Mehrdimensionale Integration
233
Lagrange-Ansatz, Lagrange-Funktion Seien die Zielfunktion f : D → R und die Funktionen g1 , . . . , gm : D → R stetig differenzierbar und x0 eine lokale Extremalstelle von f (x) unter den Nebenbedingungen gi (x) = 0, i = 1, . . . , m. Die (m × n)- Jakobi-Matrix ∂g1 (x0 ) 1 (x0 ) · · · ∂g∂x ∂x1 n .. .. g ′ (x0 ) = . . ∂gm (x0 ) ∂gm (x0 ) · · · ∂x1 ∂xn
der partiellen Ableitungen der gi nach x1 , . . . , xn habe vollen Rang m. Dann gibt es eindeutig bestimmte Zahlen λ1 , . . . , λn ∈ R, die LagrangeMultiplikatoren, so dass gilt: grad f (x0 ) +
m
λi grad gi (x0 ) = 0 .
i=1
Die Funktion F : D → Rn , F (x1 , . . . , xn , λ1 , . . . , λm ) = f (x) +
m
λi gi (x),
i=1
heißt Lagrange-Funktion. Die obige Bedingung besagt, dass ein lokales Extremum x0 von f (x) unter den Nebenbedingungen gi (x) = 0, i = 1, . . . , m, ein station¨ arer Punkt der Lagrange-Funktion ist.
A.12 Mehrdimensionale Integration Ist f (x,y) eine stetige Funktion f : R2 → R, dann ist auch die Funktion g(y) = f (x,y), y ∈ R, die man durch Fixieren von x erh¨alt, stetig. Somit kann man das Integral d d I(x) = g(y) dy = f (x,y) dy c
c
berechnen (Integration u ¨ber y). I(x) ist wieder stetig, so dass man I(x) u ¨ber ein Intervall (a,b] integrieren kann: b
b
d
I(x) dx =
I=
a
f (x,y) dy
a
dy .
c
Man berechnet also zun¨achst das sogenannte innere Integral I(x) und dann das ¨ außere Integral I. Die Intervalle (a,b] und (c,d] definieren ein Intervall im R2 : R = (a,b] × (c,d]. Man schreibt: R f (x,y) dx dy.
234
A Mathematik - kompakt
Mehrdimensionales Integral Ist f : D → R eine (st¨ uckweise) stetige Funktion und (a,b] = (a1 ,b1 ] × · · · × (ab ,bn ], a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ Rn , ein Intervall, dann existiert das Integral f (x1 , . . . , xn ) dx1 . . . dxn I= (a,b]
und wird durch schrittweise Integration von innen nach außen berechnet: b1
I=
a1
bn
···
f (x1 , . . . , xn ) dxn
an
· · · dx1 .
Hierbei darf die Reihenfolge der Variablen, nach denen integriert wird, vertauscht werden. F¨ ur eine Funktion f (x,y) gilt also: b
d
d
f (x,y) dy
a
c
b
dx =
f (x,y) dx
c
a
dy.
Literaturverzeichnis
[1] Bamberg G., Bauer F. (1998). Statistik. Oldenbourg, M¨ unchen. [2] Brunner E., Munzel U. (2002). Nichtparametrische Datenanalyse. Springer, Berlin. [3] Cramer E., Kamps U., Oltmanns E. (2007). Wirtschaftsmathematik (2. Aufl.). Oldenbourg, M¨ unchen. [4] Cramer E., Kamps U. (2001). Grundlagen der Wahrscheinlichkeitsrechnung und Statistik. Springer, Berlin. [5] Dehling H., Haupt B. (2004). Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik. Springer, Berlin. [6] Fahrmeir L., K¨ unstler R., Pigeot I., Tutz, G. (2004). Statistik - Der Weg zur Datenanalyse (5. Aufl.). Springer, Berlin. [7] H¨ardle W. (1990). Applied Nonparametric Regression. Cambridge University Press, Cambridge. [8] Hartung J., Elpelt B., Kl¨osener K.-H. (2002) Statistik (13. Aufl.). Oldenbourg, M¨ unchen. [9] Kockelkorn U. (1993). Statistik f¨ ur Anwender. Skript, Berlin. [10] Kockelkorn U. (2000). Lineare statistische Methoden. Oldenbourg, M¨ unchen. [11] Rohatgi V.K., Saleh E. (2001). An Introduction to Probability and Statistics. Wiley, New York. [12] Schlittgen R. (1996). Statistische Inferenz. Oldenbourg, M¨ unchen. [13] Schlittgen R. (2003). Einf¨ uhrung in die Statistik (10. Aufl.). Oldenbourg, M¨ unchen. [14] Steland A. (2004). Mathematische Grundlagen der empirischen Forschung. Springer, Berlin. [15] Stock J.H., Watson M.H. (2007). Introduction to Econometrics. Pearson International, Boston. [16] Sydsaeter K., Hammond P. (2006). Mathematik f¨ ur Wirtschaftswissenschaftler. Pearson-Studium.
Sachverzeichnis
Aktionsraum, 194 Alternative, 155 aperiodisch, 134 a posteriori-Verteilung, 197 a-priori-Verteilung, 196 Arithmetisches Mittel, 24 Asymptotischer Binomialtest, 170 Ausgang, 70 Ausgleichsgerade, 57 Auspr¨ agung, 4 Ausreißer, 26 Bayes, Satz von, 82 Bayes-Prinzip, 196 Bayes-Regel, 198 Bayes-Risiko, 197 bedingte Dichtefunktion, 115 bedingte Verteilung, 115 Beobachtungseinheit, 3 Beobachtungsstudie, 7 Bernoulli-Verteilung, 102 Bestimmtheitsmaß, 59 Betaverteilung, 109 Bias, 147 Binomialkoeffizient, 103 Binomialtest 1-Stichproben-Fall, 169 2-Stichproben-Fall, 179 asymptotischer, 170 exakt, 170 Binomialverteilung, 102 Konfidenzintervall, 155 Bivariate Stichprobe, 45
Box-Muller-Methode, 110 Boxplot, 37 Bruchpunkt, 27 Cauchy-Schwarz-Ungleichung, 118 Chancen, 75 Chancenverh¨ altnis, 76 Chapman-Kolmogorov-Gleichung, 133 Chiquadrat –Koeffizient, 48 –Statistik, 48 –Unabh¨ angigkeitstest, 193 χ2 -Verteilung, 151 Datenmatrix, 8 Datensatz multivariater, 9 univariater, 9 Datenvektor, 9 DAX, 62 Dichtefunktion, 92 bedingte, 115 Histogramm-Sch¨ atzung, 15 multivariate, 113 Dichtesch¨ atzung, 138 Dichtetransformation, 93 Durchschnitt gleitender, 65 Effizienz, 149 Einheit statistische, 3 Elementarereignis, 71 Empirische
238
Sachverzeichnis
Kovarianz, 50 Unabh¨ angigkeit, 47 Varianz, 32 Verteilung, 138 Verteilungsfunktion, 137 Entropie, 29, 101 relative, 30 Entscheidungsfunktion, 194 Ereignis, 71 komplement¨ ares, 71 ODER-, 71 unabh¨ angiges, 85 UND-, 71 Ereignisalgebra, 71 Borelsche, 78 Ergebnis, 70 Ergebnismenge, 70 Ergodensatz, 134 ergodisch, 134 Erwartungstreue, 147 (asymptotische, 147 Erwartungswert, 97 Erwartungswertvektor, 117 erzeugende Funktion, 128 Erzeuger, 78 Exakter Binomialtest, 170 Experiment, 7 Exponentialverteilung, 107 Extrapolation, 58 Exzess, 100 F -Test auf Varianzhomogenit¨ at, 173 F¨ unf-Punkte-Zusammenfassung, 37 Fallzahlplanung, 168 t-Test, 167 Binomialtest, 171 Gaußtest, 166 Faltung, 96 fast sichere Konvergenz, 124 Fehler 1. Art, 156 2. Art, 156 Fl¨ achentreue Prinzip der, 9 F -Verteilung, 152 G¨ utefunktion, 158 G¨ utekriterien, 137 Gammaverteilung, 109
Gauß-Test, 160 geometrische Verteilung, 104 Gesetz der großen Zahlen schwaches, 120 starkes, 121 Gini-Koeffizient, 42 normierter, 44 Gleichverteilung stetige, 107 Gleichverteilungs-Kern, 17 Gleitender Durchschnitt, 65 Grenzwerts¨ atze, 119 Grenzwertsatz Poisson-, 106 zentraler, 122 Grundgesamtheit, 3 Grundmenge, 70 Gruppierung, 13 von Daten, 13 Gutefunktion, 166 H¨ aufigkeit absolute, 10 relative, 10 H¨ aufigkeitsdichte, 16 H¨ aufigkeitstabelle, 125 H¨ aufigkeitsverteilung absolute, 10 bedingte, 47 kummulierte, 20 relative, 10 Hauptsatz der Statistik, 121 Herfindahl-Index, 44 Heteroskedastie, 173 Heteroskedastizit¨ at, 173 Histogramm, 15, 138 gleitendes, 17 Histogrammsch¨ atzer, 138 Indexzahl, 61 Indikatorfunktion, 10 Inversionsmethode, 110 irreduzibel, 134 Kerndichtesch¨ atzer, 18, 138 Kleinste–Quadrate–Methode, 57 Komponente irregul¨ are, 64 periodische, 66
Sachverzeichnis Konfidenzintervall, 153 f¨ ur µ, 153 f¨ ur p, 155 f¨ ur σ 2 , 154 Konfidenzniveau, 153 konjugierte Prior-Familie, 199 Konjunkturkomponente, 64 Konsistenz, 146 Kontamination, 26 Kontingenzkoeffizient, normierter, 49 Kontingenztafel, 45, 125 Konvention, 23 Konvergenz fast sichere, 124 in Verteilung, 124 stochastische, 124 Konvergenzbegriff, 119, 124 Konzentrationsmessung, 40 Korrelation, 119 Test auf, 181 Korrelationskoeffizient Bravais–Pearson, 51 Spearman, 181 Kovarianz, 118 empirische, 50 Kovarianzmatrix, 118 KQ–Methode, 57 Kurtosis, 100 Lagemaß, 22 Laplace-Raum, 74 Laplace-Transformierte, 128, 130 Laplace-Wahrscheinlichkeiten, 74 Likelihood, 139 Likelihood einer Stichprobe, 144 Likelihood-Funktion, 140, 142 Likelihood-Prinzip, 140 linearer Pr¨ adiktor, 188 Lineares Modell, 187 Log-Likelihood, 144 Lokationsmodell, 178 Longitudinalstudie, 7 Lorenzkurve, 40 MAD, 33 Markov-Kette, 131 aperiodische, 134 ergodische, 134
239
irreduzible, 134 Markov-Prozess, 131 Maximum, 13 Maximum-Likelihood-Sch¨ atzer, 141, 142 Median, 23, 169 Merkmal, 4 diskretes, 5 stetiges, 5 Merkmalsauspr¨ agung, 4 Merkmalstr¨ ager, 3 Messbereich, 13 Minimax-Regel, 195 Minimum, 13 Mittel arithmetisches, 25 gruppierte Daten, 25 geometrisches, 28 harmonisches, 29 mittlerer quadratischer Fehler (MSE), 150 Momente, 100 Momenterzeugende Funktion, 130 Multinomialkoeffizient, 126 Multinomialverteilung, 125 multivariate Normalverteilung, 126 negative Binomialverteilung, 104 Normalgleichung, 189 Normalverteilung, 108 Konfidenzintervall, 153 multivariate, 126 ¨ n-Schritt-Ubergangsmatrix, 133 Nullhypothese, 155 Odds, 75 Odds-Ratio, 76 Ordnungsstatistik, 13 p-Quantil, 35 p-Wert, 163 Parameterraum, 136 Pfadregel, 84 Poisson-Grenzwertsatz, 106 Poisson-Verteilung, 105 Population, 3 Posterior-Verteilung, 197 Power, 158 (stat. Test), 166
240
Sachverzeichnis
Preisindex nach Laspeyres, 62 nach Paasche, 63 Prior, 196 Produkt-Z¨ ahldichte, 113 Produktdichte, 114 Produktverteilung, 111 Prognoseintervall, 153 Prognosewert, 58 QQ-Plot, 39 Quantile, 35 Quantilfunktion, 90 Quantilsabstand, 36 Quantiltransformation, 110 Quartile, 36 Querschnittsstudie, 7 Randdichte, 114 Random Sample, 95 Randverteilung, 46 Rangkorrelation, 181 Rangtest Wilcoxon-, 177 Realisierung, 136 Regression lineare, 55, 182 Anpassungsg¨ ute, 59 Modell, 55, 182 multiple, 187 Regressionsfunktion, 188 Regressionsgerade, 57 Residuenplot, 60 Residuum, 58 Risiko, 195 Rohdaten, 8 Saisonkomponente, 64 Sch¨ arfe (stat. Test), 166 Sch¨ atzer, 136 Sch¨ atzfunktion, 136 Sch¨ atzprinzipien, 137 Schiefe, 34 Links-, 34 Rechts-, 34 Shannon-Wiener-Index, 30 Shiftmodell, 178 Siebformel, 76 Signifikanzniveau, 157
Skala Intervall-, 6 Kardinal-, 6 Metrische, 6 Nominal-, 6 Ordinal-, 6 Ratio-, 6 Verh¨ altnis-, 6 Spearman’s R, 181 Stamm–Blatt–Diagramm, 14 Standardabweichung, 31, 32 Standardnormalverteilung, 108 Startverteilung, 84, 131 station¨ are Verteilung, 134 Statistik, 136 statistische Einheit, 3 stetiges Verteilungsmodell, 107 Stichprobe, 4, 136 Stichprobenraum, 136 Stichprobenumfang, 136 Stichprobenvarianz, 31, 32 stochastisch unabh¨ angig, (total), 86 stochastische Konvergenz, 124 stochastische Matrix, 132 Streuungsmaß, 22 Streuungsmaße, 29 Streuungszerlegung, 59 Symmetrie, 34 t-Test, 162 Teilauswahl quotierte, 4 Test p-Wert, 163 t-, 162 t-Test, 174 Binomial-, 169 Chiquadrat–Unabh¨ angigkeits-, 193 Fallzahlplanung, 168 G¨ utefunktion, 166 Gauß-, 160 statistischer, 156 Varianzhomogenit¨ at, 173 Vorzeichen-, 169 Welch, 176 Testproblem, 155 Testverteilung, 151 Transformationsformel, 101 Trendbereinigung, 65
Sachverzeichnis Trendkomponente, 64 Tschebyschow-Ungleichung, 120 t-Test unverbunden, 173 verbunden, 172 t-Verteilung, 151 ¨ Ubergangsmatrix, 131 Unabh¨ angiges Ereignis, 85 Unabh¨ angigkeit, 94, 115, 118 empirische, 47 Ungleichung Cauchy-Schwarz-, 118 Jensen-, 98 Tschebyschow-, 120 unkorreliert, 118 Unkorreliertheit, 118 Untersuchungseinheit, 3 Unverf¨ alschtheit, 147 Urliste, 8 Variable, 4 Varianz, 31, 99 Varianzhomogenit¨ at, 173 Varianzinhomogenit¨ at, 173 Vergleich diskreter Verteilungen, 192 Verlustfunktion, 194 Verschiebungssatz, 33 Versuchseinheit, 3 Verteilung a posteriori, 197 bedingte, 115 Binomial-, 102 einer Zufallsvariable, 88 geometrische, 104 Multinomial-, 125 negativ binomiale, 104 Poisson-, 105 Posterior-, 197 station¨ are, 134 Verteilungsfunktion, 89 eines Zufallsvektors, 111 empirische, 20, 137 Verteilungskonvergenz, 124 Verteilungsmodell, 136 diskretes, 102 nichtparametrisches, 136 parametrisches, 136
stetiges, 107 Verzerrung, 147 Vorher-Nachher-Test, 172 Vorhersagewert, 58 Wachstumsfaktor, 28 mittlerer, 28 Wachstumsrate, 28 mittlere, 28 Wahrscheinlichkeit bedingte, 79 Satz von der totalen, 81 Wahrscheinlichkeitsbaum, 83 Wahrscheinlichkeitsfunktion, 91 Wahrscheinlichkeitsmaß empirisches, 73 Wahrscheinlichkeitsmaß, 72 Wahrscheinlichkeitsmodell mehrstufiges, 83 Wahrscheinlichkeitsraum Laplacescher, 74 Wahrscheinlichkeitsverteilung, 72 Welch-Test, 176 Wilcoxon-Test, 177 Z¨ ahldaten, 45 Z¨ ahldichte, 91, 112 (multivariate), 112 bedingte, 115 Produkt-, 113 Zeitreihe, 61 Zeitreihenanalyse, 60 Zelle, 45 Zentraler Grenzwertsatz, 122 ZGWS, 123 Zufallsexperiment, 70 Zufallsstichprobe, 95 (einfache), 4 Zufallsvariable, 87 diskrete, 88, 91 stetige, 92 unabh¨ angige, 94 Zufallsvektor, 110 diskreter, 112 stetiger, 113 Zufallszahl, 110 Zwei-Stichproben t-Test, 174
241