de Gruyter Lehrbuch Georgii · Stochastik
Hans-Otto Georgii
Stochastik Einführung in die Wahrscheinlichkeitstheorie und Statistik 2., bearbeitete Auflage
≥
Walter de Gruyter Berlin · New York
Prof. Dr. Hans-Otto Georgii Mathematisches Institut LMU München Theresienstr. 39 80333 München Mathematics Subject Classification 2000: 60-01; 62-01
P Gedruckt auf säurefreiem Papier, das die US-ANSI-Norm über Haltbarkeit erfüllt. E
ISBN 3-11-018282-3 Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.
Copyright 2004 by Walter de Gruyter GmbH & Co. KG, 10785 Berlin. Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Konvertierung von LATEX-Dateien des Autors: I. Zimmermann, Freiburg. Druck und Bindung: Hubert & Co. GmbH & Co. KG, Göttingen.
Vorwort
¨ Uberall herrscht Zufall – oder was wir daf¨ur halten. Und zwar keineswegs nur beim Lotto oder Roulette, wo er gezielt herausgefordert wird, sondern auch in wesentlichen Bereichen unseres Alltags. Wenn zum Beispiel Schadensh¨aufigkeiten zur Kalkulation von Versicherungspr¨amien genutzt werden oder aktuelle Aktien-Charts zur Depotumschichtung, wenn sich Fahrzeuge an einer Kreuzung oder Datenpakete in einem Internet-Router stauen, wenn Infektionen sich ausbreiten oder Bakterien resistente Mutanten bilden, wenn Schadstoffkonzentrationen gemessen oder politische Entscheidungen aufgrund von Meinungsumfragen getroffen werden – immer ist eine geh¨orige Portion Zufall im Spiel, und immer geht es darum, das Zufallsgeschehen zu analysieren und trotz Unsicherheit rationale Schlussfolgerungen zu ziehen. Genau dies ist die Zielsetzung der Stochastik, der Mathematik des Zufalls“. Die Stochastik ” ist daher eine h¨ochst angewandte Wissenschaft, die konkret vorgegebene Fragen zu beantworten sucht. Zugleich ist sie aber auch echte Mathematik – mit systematischem Aufbau, klaren Konzepten, tiefen Theoremen und manchmal u¨ berraschenden Querverbindungen. Dieses Zusammenspiel von Anwendungsn¨ahe und mathematischer Pr¨azision und Eleganz gibt der Stochastik ihren spezifischen Reiz, und eine Vielzahl nat¨urlicher Fragestellungen bestimmt ihre lebhafte und vielseitige Entwicklung. Dieses Lehrbuch gibt eine Einf¨uhrung in die typischen Denkweisen, Methoden und Ergebnisse der Stochastik. Es ist hervorgegangen aus einem zweisemestrigen Vorlesungszyklus, den ich wiederholt am Mathematischen Institut der Universit¨at M¨unchen gehalten habe. Es richtet sich an Studierende der Mathematik (Diplom oder Lehramt) ab dem dritten Semester und ebenso an Naturwissenschaftler und Informatiker, welche die Stochastik nicht nur anwenden, sondern auch von ihrer mathematischen Seite her verstehen wollen. Die beiden Teilbereiche der Stochastik – Wahrscheinlichkeitstheorie und Statistik – sind wegen ihrer jeweils eigenen Zielsetzung und Methodik in zwei separaten Teilen dargestellt, aber mit Absicht in einem Band gleichberechtigt vereinigt. Denn einerseits baut die Statistik auf den wahrscheinlichkeitstheoretischen Konzepten und Modellen auf, andrerseits braucht die Wahrscheinlichkeitstheorie die Statistik f¨ur den Br¨uckenschlag zur Realit¨at. Bei der Auswahl des Stoffes habe ich mich bewusst auf die zentralen Themen beschr¨ankt, die zum Standardkanon der entsprechenden mathematischen Vorlesungen geh¨oren. (Es ist unvermeidlich, dass deshalb mancher den ein oder anderen aktuellen Akzent vermissen wird, etwa die Resampling-Methoden der Statistik.) Die Standardthemen jedoch werden in der gebotenen Ausf¨uhrlichkeit behandelt. Statt eines Einstiegs mit diskreten Modellen, die bereits im Gymnasialunterricht einen breiten Raum einneh-
vi
Vorwort
men, wird gleich zu Beginn der allgemeine (maßtheoretische) Rahmen abgesteckt und motiviert, und auch sonst werden von Fall zu Fall einige eher theoretische Aspekte diskutiert. Insgesamt bleibt der maßtheoretische Apparat jedoch auf das absolut Notwendige beschr¨ankt, und im Vordergrund steht die Vermittlung der stochastischen Intuition. Der Stoff dieses Textes umfasst etwas mehr als zwei vierst¨undige Vorlesungen. Wer das Buch im Selbststudium liest, wird deshalb eine Auswahl treffen wollen. Vielerlei M¨oglichkeiten bieten sich an. Zur ersten Orientierung kann man sich ganz auf die Begriffsbildungen, S¨atze und Beispiele konzentrieren und die Beweise u¨ bergehen. Dies ist insbesondere ein gangbarer Weg f¨ur Nichtmathematiker. Zum tieferen Verst¨andnis geh¨ort nat¨urlich die Auseinandersetzung mit einer repr¨asentativen Auswahl von Beweisen. Wer sich mehr f¨ur die Theorie interessiert und schon konkrete Anwendungen im Kopf hat, kann umgekehrt einen Teil der Beispiele weglassen. Wer m¨oglichst schnell zur Statistik vordringen will, kann sich in Teil I auf die Kernaussagen der Anfangsabschnitte bis einschließlich 3.4 sowie 4.1, 4.3, 5.1.1 und 5.2 beschr¨anken. Das Herzst¨uck von Teil II sind die Abschnitte 7.1 – 5, 8.1 – 2, 9.2, Ka¨ pitel 10, sowie 11.2 und 12.1. Insgesamt kann es dem Uberblick dienlich sein, im Zweifelsfall eine Textpassage zu u¨ berspringen und erst bei Bedarf dorthin zur¨uckzukehren. Zur Kl¨arung der Bezeichnungskonventionen empfiehlt sich ein Blick auf Seite 357. ¨ Die Ubungsaufgaben sind jeweils am Kapitelende zusammengefasst. Wie u¨ blich dienen sie teils der Anwendung, teils der Abrundung und Erg¨anzung des Stoffes. Der Schwierigkeitsgrad variiert entsprechend, ist aber absichtlich nicht kenntlich gemacht. Am besten ist es, sich diejenigen Aufgaben herauszupicken, die am ehesten das Interesse wecken, und sich an einer L¨osung zumindest zu versuchen. Da es hierbei vor allem auf die eigeneAktivit¨at ankommt, habe ich keine Musterl¨osungen beigef¨ugt (und biete sie auch nicht im Internet an). Wie jedes Lehrbuch speist sich auch dieses aus mehr Quellen, als ich im Einzelnen zur¨uckverfolgen kann. Offenkundig ist aber, dass ich viele Anregungen den klassischen Texten von U. Krengel [37] sowie K. Krickeberg und H. Ziezold [38] verdanke, welche die Einf¨uhrungsvorlesungen in Stochastik an deutschen Universit¨aten nachhaltig gepr¨agt haben. Zahlreiche Anregungen erhielt ich ferner von meinen M¨unchner Stochastik-Kollegen Peter G¨anßler und Helmut Pruscha sowie von ¨ allen, welche im Laufe der Jahre als Assistenten die betreffenden Ubungen betreut haben: Peter Imkeller, Andreas Schief, Franz Strobl, Karin M¨unch-Berndl, Klaus Ziegler, Bernhard Emmer, und Stefan Adams. Ihnen allen gilt mein herzlicher Dank. Sicher wird es weitere Hinweise geben, sobald das Buch erschienen ist; diese erbitte ich an
[email protected]. Dem Walter de Gruyter Verlag und insbesondere Herrn Karbe danke ich f¨ur die a¨ ußerst angenehme und effiziente Zusammenarbeit. M¨unchen, im Februar 2002
Hans-Otto Georgii
Vorwort zur zweiten Auflage Trotz der erfreulich positiven Resonanz auf die erste Auflage war es mir ein Anlie¨ gen, den Text weiter zu optimieren. Das f¨uhrte zu zahlreichen kleineren Anderungen und Erg¨anzungen. Einige davon gehen zur¨uck auf Hinweise und Anregungen von Stochastik-Kollegen und Studenten, denen ich hierf¨ur herzlich danke. Der Gesamt¨ aufbau blieb allerdings unangetastet. Gr¨oßere Anderungen finden sich lediglich in den Abschnitten 5.2 bis 5.4, wo ich insbesondere einem anderen (klassischen) Beweis des zentralen Grenzwertsatzes den Vorzug gegeben habe. Ferner gibt es einige zus¨atzliche Aufgaben, und ein paar Abbildungen wurden verbessert und weitere hinzugef¨ugt. M¨unchen, im Mai 2004
Hans-Otto Georgii
Inhalt
Vorwort
v
Zufall und Mathematik
1
I Wahrscheinlichkeitstheorie
5
1
2
3
Mathematische Beschreibung von Zufallssituationen 1.1 Wahrscheinlichkeitsr¨aume . . . . . . . . . . . . . . . . . . . . 1.2 Eigenschaften und Konstruktion von Wahrscheinlichkeitsmaßen 1.3 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stochastische Standardmodelle 2.1 Die Gleichverteilungen . . . . . 2.2 Urnenmodelle mit Zur¨ucklegen . 2.3 Urnenmodelle ohne Zur¨ucklegen 2.4 Die Poisson-Verteilungen . . . . 2.5 Wartezeit-Verteilungen . . . . . 2.6 Die Normalverteilungen . . . . Aufgaben . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit 3.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . 3.2 Mehrstufige Modelle . . . . . . . . . . . . . . . . . . 3.3 Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . . 3.4 Existenz unabh¨angiger Zufallsvariablen, Produktmaße 3.5 Der Poisson-Prozess . . . . . . . . . . . . . . . . . . 3.6 Simulationsverfahren . . . . . . . . . . . . . . . . . . 3.7 Asymptotische Ereignisse . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . .
. . . . . . . .
. . . . . . .
. . . . . . . .
. . . .
. . . . . . .
. . . . . . . .
. . . .
7 7 14 20 24
. . . . . . .
27 27 31 35 38 40 45 47
. . . . . . . .
51 51 57 63 69 75 79 83 86
x 4
5
6
II 7
8
Inhalt
Erwartungswert und Varianz 4.1 Der Erwartungswert . . . . . . . . . . . . 4.2 Wartezeitparadox und fairer Optionspreis 4.3 Varianz und Kovarianz . . . . . . . . . . 4.4 Erzeugende Funktionen . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
92 92 100 107 110 113
Gesetz der großen Zahl und zentraler Grenzwertsatz 5.1 Das Gesetz der großen Zahl . . . . . . . . . . . . . . 5.2 Die Normalapproximation der Binomialverteilungen 5.3 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . 5.4 Normal- oder Poisson-Approximation? . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
118 118 129 137 141 143
. . . . .
149 149 153 157 168 176
Markov-Ketten 6.1 Die Markov-Eigenschaft . . . . 6.2 Absorptionswahrscheinlichkeiten 6.3 Asymptotische Stationarit¨at . . . 6.4 R¨uckkehr zum Startpunkt . . . . Aufgaben . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Statistik
185
Parametersch¨atzung 7.1 Der Ansatz der Statistik . . . . . . . . . . 7.2 Die Qual der Wahl . . . . . . . . . . . . 7.3 Das Maximum-Likelihood-Prinzip . . . . 7.4 Erwartungstreue und quadratischer Fehler 7.5 Beste Sch¨atzer . . . . . . . . . . . . . . . 7.6 Konsistenz von Sch¨atzern . . . . . . . . . 7.7 Bayes-Sch¨atzer . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
187 187 192 195 200 203 209 213 217
Konfidenzbereiche 8.1 Definition und Konstruktionsverfahren . 8.2 Konfidenzintervalle im Binomialmodell 8.3 Ordnungsintervalle . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
222 222 228 233 237
. . . .
xi
Inhalt
9
Rund um die Normalverteilung 240 9.1 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . 240 9.2 Die χ 2 -, F - und t-Verteilungen . . . . . . . . . . . . . . . . . . . . 244 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
10 Testen von Hypothesen 10.1 Entscheidungsprobleme . . . . . . . . . 10.2 Alternativtests . . . . . . . . . . . . . . 10.3 Beste einseitige Tests . . . . . . . . . . 10.4 Parametertests im Gauß-Produktmodell Aufgaben . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
253 253 258 264 267 277
11 Asymptotische Tests und Rangtests 11.1 Normalapproximation von Multinomialverteilungen 11.2 Der Chiquadrat-Anpassungstest . . . . . . . . . . 11.3 Der Chiquadrat-Test auf Unabh¨angigkeit . . . . . . 11.4 Ordnungs- und Rangtests . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
282 282 288 295 301 311
12 Regressions- und Varianzanalyse 12.1 Einfache lineare Regression . 12.2 Das lineare Modell . . . . . 12.3 Das lineare Gaußmodell . . 12.4 Varianzanalyse . . . . . . . Aufgaben . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
317 317 321 325 331 340
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Verteilungstabellen
347
Literatur
353
Symbolverzeichnis
357
Index
361
Zufall und Mathematik
Was ist Stochastik? Im altgriechischen Lexikon findet man σ τ oχ ´ oς σ τ oχασ τ ικ oς ´ σ τ oχ αζ ´ oµαι
(stóchos) (stochastikós) (stocházomai)
das Ziel, die Mutmaßung scharfsinnig im Vermuten etwas erraten, erkennen, beurteilen
Gem¨aß dem heutigen Sprachgebrauch kann man sagen: Stochastik ist die Lehre von den Gesetzm¨aßigkeiten des Zufalls. Das scheint zun¨achst ein Widerspruch in sich zu sein, denn im t¨aglichen Leben spricht man gerade dann von Zufall, wenn man keine Gesetzm¨aßigkeiten erkennen kann. Bei ¨ genauerer Uberlegung erkennt man jedoch, dass sich der Zufall durchaus an gewisse Regeln h¨alt: Wenn man zum Beispiel eine M¨unze sehr oft wirft, wird niemand daran zweifeln, dass sie in ungef¨ahr der H¨alfte der F¨alle Kopf “ zeigt. Dies ist offenbar eine ” Gesetzm¨aßigkeit im Zufall, die sogar als solche allgemein akzeptiert ist. Trotzdem ist die Meinung weit verbreitet, dass solche Gesetzm¨aßigkeiten zu vage sind, als dass sie pr¨azise, oder wom¨oglich sogar mathematisch, erfasst werden k¨onnten. Faszinierenderweise h¨alt die Mathematik aber auch f¨ur solche scheinbar regellosen Ph¨anomene eine exakte Sprache bereit, die es erlaubt, Gesetzm¨aßigkeiten im Zufall pr¨azise zu formulieren und zu beweisen. Die oben genannte Erfahrung, dass bei h¨aufigem M¨unzwurf Kopf“ in ungef¨ahr der H¨alfte der F¨alle erscheint, wird so ” zu einem mathematischen Theorem: dem Gesetz der großen Zahl. Die Stochastik ist das Teilgebiet der Mathematik, das die geeignete Sprache zur Behandlung zuf¨alliger Geschehnisse zur Verf¨ugung stellt und die Regeln in der scheinbaren Regellosigkeit aufsp¨urt. Dieses Lehrbuch soll ihre grundlegenden Prinzipien und wichtigsten Ergebnisse darstellen. ∗ Was ist eigentlich Zufall? Das ist eine philosophische Frage, die noch keineswegs gekl¨art ist: Ob Gott w¨urfelt“ oder gerade nicht (wie Albert Einstein apodiktisch ” feststellte), ob Zufall nur scheinbar ist und auf unserer Unkenntnis beruht, oder ob der Zufall doch ein der Natur inh¨arentes Ph¨anomen ist, darauf hat man noch keine definitiven Antworten.
2
Zufall und Mathematik
Es gibt aber gute Gr¨unde, die Frage nach dem Zufall an sich“ auszuklammern: ” Wir k¨onnen nie das Universum als Ganzes betrachten, sondern immer nur einen bestimmten, relativ kleinen Ausschnitt. Uns interessiert also immer nur ein ganz konkretes, spezielles Geschehen. Selbst wenn sich dieses Geschehen zum Teil aus den Rahmenbedingungen der vorgegebenen Situation erkl¨aren lassen sollte (so wie wir die Augenzahl beim W¨urfel bereits vorhersehen k¨onnten, wenn wir nur genau genug w¨ussten, wie der W¨urfel geworfen wird) – selbst dann ist es einfach viel praktischer, und einer Beschreibung des Geschehens aus menschlicher Erfahrungsperspektive viel angemessener, wenn wir uns auf den Standpunkt stellen, es werde vom Zufall gesteuert. Diese Art Zufall umschließt dann beides: sowohl eine m¨oglicherweise naturinh¨arente Indeterminiertheit, als auch unsere (eventuell prinzipielle) Unkenntnis u¨ ber die genauen Rahmenbedingungen der Situation. ∗ Wie kommt nun die Mathematik ins Spiel? Sobald klar ist, welche konkrete Situation, welcher Ausschnitt der Wirklichkeit untersucht werden soll, kann man versuchen, alle relevantenAspekte in einem mathematischen Modell zu erfassen. Typischerweise
Wirklichkeit Ausschnitt 6Vorhersage, Abstraktion, ¨ Uberpr¨ ufung Idealisierung und Korrektur ? Modell
geschieht dies durch Abstraktion von eventuellen schmutzigen“ Details, d. h. durch ge” ” dankliche Gl¨attung“ der Situation, und andererseits durch mathematische Idealisierung, d. h. durch eine Erweiterung der Situation mit Hilfe gedanklicher oder formaler Grenzprozesse, die es erlauben, die relevanten Ph¨anomene sch¨arfer herauszuarbeiten. Das fertige Modell kann dann mathematisch untersucht werden, und die Ergebnisse m¨ussen anschließend an der Wirklichkeit u¨ berpr¨uft werden. Dies kann gegebenfalls zu einer Korrektur des Modells f¨uhren. Die Bildung des richtigen Modells ist im
3
Zufall und Mathematik
Allgemeinen eine heikle Angelegenheit, die viel Fingerspitzengef¨uhl erfordert und außerhalb der eigentlichen Mathematik liegt. Es gibt aber einige Grundregeln, und diese sind ebenfalls Gegenstand dieses Textes. ∗ Die Stochastik gliedert sich in zwei gleichberechtigte Teilbereiche, die Wahrscheinlichkeitstheorie und die Statistik. Aufgabe der Wahrscheinlichkeitstheorie ist die Beschreibung und Untersuchung von konkret gegebenen Zufallssituationen. Die Statistik sucht Antworten auf die Frage, welche Schlussfolgerungen man aus zuf¨alligen Beobachtungen ziehen kann. Dazu ben¨otigt sie nat¨urlich die Modelle der Wahrscheinlichkeitstheorie. Umgekehrt braucht die Wahrscheinlichkeitstheorie die Best¨atigung durch den Vergleich von Modell und Realit¨at, der durch die Statistik erm¨oglicht wird. Teil I dieses Buches bietet eine Einf¨uhrung in die grundlegenden Konzepte und Resultate der Wahrscheinlichkeitstheorie. In Teil II folgt dann eine Einf¨uhrung in Theorie und Methoden der Mathematischen Statistik. Stochastik
A
A
Wahrscheinlichkeitstheorie
Statistik
Beschreibung zuf¨alliger Vorg¨ange, Untersuchung von Modellen
Umgang mit dem Zufall, Schlussfolgerungen aus Beobachtungen
Teil I
Wahrscheinlichkeitstheorie
1 Mathematische Beschreibung von Zufallssituationen
In diesem Kapitel geht es um einige Grundsatzfragen: Wie kann man ein konkret gegebenes Zufallsgeschehen mathematisch beschreiben? Was sind die allgemeinen Eigenschaften solch eines stochastischen Modells? Wie beschreibt man einen Teilaspekt eines gegebenen Modells? Diese Fragen f¨uhren zu den fundamentalen Begriffen Wahrscheinlichkeitsraum“ und Zufallsvariable“. In diesem Zusammenhang ” ” m¨ussen auch einige technische, anfangs vielleicht etwas unangenehme Fragen gekl¨art werden; dies hat jedoch den Vorteil, dass wir uns in den sp¨ateren Kapiteln auf das Wesentliche konzentrieren k¨onnen.
1.1 Wahrscheinlichkeitsr¨aume Die Konstruktion eines mathematischen Modells f¨ur eine konkrete Anwendungssituation geschieht in drei Schritten auf folgende Weise.
1.1.1
Festlegung eines Ergebnisraumes
Will man das Wirken des Zufalls beschreiben, so steht am Anfang die Frage: Was kann in der vorliegenden Situation passieren? Und was davon ist eigentlich von Interesse? All die M¨oglichkeiten, die man in Betracht ziehen will, werden dann in einer Menge - zusammengefasst. Diese Vorgehensweise versteht man am besten anhand von Beispielen. (1.1) Beispiel: Einmaliges W¨urfeln. Wirft man einen W¨urfel auf eine Tischplatte, so gibt es f¨ur ihn unendlich viele m¨ogliche Ruhelagen. Man ist aber nicht an seiner genauen Position, und erst recht nicht an der genauen Handbewegung beim Werfen interessiert, sondern nur an der gezeigten Augenzahl. Die interessanten Ergebnisse liegen daher in der Menge - = {1, . . . , 6}. Durch die Beschr¨ankung auf dieses wird der irrelevante Teil der Wirklichkeit ausgeblendet. (1.2) Beispiel: Mehrmaliges W¨urfeln. Wenn der W¨urfel n Mal geworfen wird und man an der Augenzahl bei jedem einzelnen Wurf interessiert ist, liegen die relevanten Ergebnisse im Produktraum - = {1, . . . , 6}n ; f¨ur ω = (ω1 , . . . ωn ) ∈ - und 1 ≤ i ≤ n ist ωi die Augenzahl beim i-ten Wurf.
8
1 Mathematische Beschreibung von Zufallssituationen
Vielleicht ist man aber gar nicht an der genauen Reihenfolge der W¨urfe interessiert, sondern nur an der H¨aufigkeit der einzelnen Augenzahlen. In diesem Fall w¨ahlt man die Ergebnismenge 6 5 6 ' 1 = (k1 , . . . , k6 ) ∈ Z6+ : ka = n . a=1
Dabei ist Z+ = {0, 1, 2, . . . } die Menge der nichtnegativen ganzen Zahlen, und ka steht f¨ur die Anzahl der W¨urfe, bei denen die Augenzahl a f¨allt. (1.3) Beispiel: Unendlich oft wiederholter M¨unzwurf. Bei n W¨urfen einer M¨unze w¨ahlt man analog zum vorigen Beispiel die Ergebnismenge - = {0, 1}n (sofern man an der Reihenfolge der Ergebnisse interessiert ist). Wenn man sich aber nun entschließt, die M¨unze noch ein weiteres Mal zu werfen: muss man dann wieder ein neues - betrachten? Das w¨are ziemlich unpraktisch; unser Modell sollte daher nicht von vornherein auf eine feste Zahl von W¨urfen beschr¨ankt sein. Außerdem interessiert man sich besonders f¨ur Gesetzm¨aßigkeiten, die erst f¨ur große n, also im Limes n → ∞ deutlich hervortreten. Deswegen ist es oft zweckm¨aßig, ein idealisiertes Modell zu w¨ahlen, in dem unendlich viele W¨urfe zugelassen sind. (Als ¨ Analogie denke man an den mathematisch nat¨urlichen Ubergang von den endlichen zu den unendlichen Dezimalbr¨uchen.) Als Menge aller m¨oglichen Ergebnisse w¨ahlt man dann den Raum - = {0, 1}N = ω = (ωi )i∈N : ωi ∈ {0, 1} aller unendlichen Folgen von Nullen und Einsen. Wie die Beispiele zeigen, muss man sich beim ersten Schritt der Modellbildung dar¨uber klar werden, welche Teilaspekte des zu beschreibenden Zufallsgeschehens man unterscheiden und beobachten will, und welche idealisierenden Annahmen eventuell zweckm¨aßig sein k¨onnen. Dementsprechend bestimmt man eine Menge von relevanten Ergebnissen. Dieses - nennt man den Ergebnisraum oder Stichprobenraum.
1.1.2
Festlegung einer Ereignis-σ -Algebra
Im Allgemeinen ist man nicht an dem genauen Ergebnis des Zufalls interessiert, sondern nur am Eintreten eines Ereignisses, das aus bestimmten Einzelergebnissen besteht. Solche Ereignisse entsprechen Teilmengen von -.
9
1.1 Wahrscheinlichkeitsr¨aume
(1.4) Beispiel: Ereignis als Menge von Ergebnissen. Das Ereignis Bei n W¨urfen ” einer M¨unze f¨allt mindestens k-mal Zahl“ wird beschrieben durch die Teilmenge 5 6 n ' A = ω = (ω1 , . . . , ωn ) ∈ - : ωi ≥ k i=1
des Ergebnisraums - = {0, 1}n . Unser Ziel ist die Festlegung eines Systems F von Ereignissen, so dass man jedem Ereignis A ∈ F in konsistenter Weise eine Wahrscheinlichkeit P (A) f¨ur das Eintreten von A zuordnen kann. Warum so vorsichtig: Kann man denn nicht allen Teilmengen von - eine Wahrscheinlichkeit zuordnen, also F mit der Potenzmenge P(-) (d. h. der Menge aller Teilmengen von -) gleichsetzen? Das ist in der Tat ohne Weiteres m¨oglich, solange - abz¨ahlbar ist, im allgemeinen Fall allerdings nicht mehr. Dies zeigt der folgende Unm¨oglichkeitssatz. (1.5) Satz: Die Potenzmenge ist zu groß, Vitali 1905. Sei - = {0, 1}N der Ergebnisraum des unendlich oft wiederholten M¨unzwurfes. Dann gibt es keine Abbildung P : P(-) → [0, 1] mit den Eigenschaften (N) Normierung: P (-) = 1. (A) σ -Additivit¨at: Sind A1 , A2 , · · · ⊂ - paarweise disjunkt, so gilt / , P Ai = P (Ai ) , i≥1
i≥1
d. h. bei unvereinbaren Ereignissen addieren sich die Wahrscheinlichkeiten. (I) Invarianz: F¨ur alle A ⊂ - und n ≥ 1 gilt P (Tn A) = P (A); dabei ist Tn : ω = (ω1 , ω2 , . . . ) → (ω1 , . . . , ωn−1 , 1 − ωn , ωn+1 , . . . ) die Abbildung von - auf sich, welche das Ergebnis des n-ten Wurfes umdreht, und Tn A = {Tn (ω) : ω ∈ A} das Bild von A unter Tn . (Dies dr¨uckt die Fairness der M¨unze und die Unabh¨angigkeit der W¨urfe aus.) Beim ersten Lesen ist nur dies Ergebnis wichtig. Den folgenden Beweis kann man zun¨achst u¨ berspringen. ¨ Beweis: Wir definieren eine Aquivalenzrelation ∼ auf - wie folgt: Es sei ω ∼ ω genau dann, wenn ωn = ωn f¨ur alle hinreichend großen n. Nach dem Auswahlaxiom existiert eine Menge ¨ A ⊂ -, die von jeder Aquivalenzklasse genau ein Element enth¨alt. Sei S = {S ⊂ N : |S| < ∞} die Menge aller endlichen Teilmengen von N. Als Vereinigung der abz¨ahlbar vielen endlichen Mengen({S ⊂ N : max S = m} mit m ∈ N ist S abz¨ahlbar. F¨ur S = {n1 , . . . , nk } ∈ S sei TS := n∈S Tn = Tn1 ◦ · · · ◦ Tnk der Flip zu allen Zeiten in S. Dann gilt:
10
1 Mathematische Beschreibung von Zufallssituationen * - = S∈ S TS A , denn zu jedem ω ∈ - existiert ein ω ∈ A mit ω ∼ ω , und also ein S ∈ S mit ω = TS ω ∈ TS A. Die Mengen (TS A)S∈ S sind paarweise disjunkt, denn wenn TS A ∩ TS A = ∅ f¨ur S, S ∈ S , so gibt es ω, ω ∈ A mit TS ω = TS ω und also ω ∼ TS ω = TS ω ∼ ω . Nach Wahl von A gilt dann ω = ω und daher S = S .
Wenden wir nacheinander die Eigenschaften (N), (A), (I) von P an, so ergibt sich hieraus , , P (TS A) = P (A) . 1 = P (-) = S∈S
S∈S
Dies ist unm¨oglich, denn unendliches Aufsummieren der gleichen Zahl ergibt entweder 0 oder ∞. 3
Was tun nach diesem negativen Resultat? An den Eigenschaften (N), (A) und (I) k¨onnen wir nicht r¨utteln, denn (N) und (A) sind unverzichtbare elementare Forderungen (bloß endliche Additivit¨at w¨are unzureichend, wie sich bald zeigen wird), und (I) ist charakteristisch f¨ur das M¨unzwurf-Modell. Nun hat aber der obige Beweis gezeigt, dass die Probleme offenbar nur entstehen bei ziemlich ausgefallenen, verr¨uckten“ ” Mengen A ⊂ -. Als einziger Ausweg bietet sich daher an, Wahrscheinlichkeiten nicht f¨ur s¨amtliche Mengen in P(-) zu definieren, sondern nur f¨ur die Mengen in einem geeigneten Teilsystem F ⊂ P(-), das die verr¨uckten“ Mengen ausschließt. ” Gl¨ucklicherweise zeigt sich, dass dies f¨ur Theorie und Praxis vollkommen ausreichend ist. Insbesondere werden wir in Beispiel (3.29) sehen, dass eine Funktion P mit den Eigenschaften (N), (A) und (I) auf einem geeigneten, ausreichend großen F tats¨achlich definiert werden kann. Welche Eigenschaften sollte das System F vern¨unftigerweise haben? Die Minimalforderungen sind offenbar die in folgender Definition: Sei - = ∅. Ein System F ⊂ P(-) mit den Eigenschaften (a) - ∈ F (b) A ∈ F ⇒ Ac := - \ A ∈ F ( logische Verneinung“) ” * (c) A1 , A2 , . . . ∈ F ⇒ i≥1 Ai ∈ F ( logisches Oder“) ” heißt eine σ -Algebra in -. Das Paar (-, F ) heißt dann ein Ereignisraum oder ein messbarer Raum. Aus diesen drei Eigenschaften ergibt sich sofort, dass sich auch weitere Mengenoperationen in einer σ -Algebra ausf¨uhren lassen: Wegen (a) und (b) ist ∅ ∈ F , also wegen (c) f¨ur A, B ∈ F auch A∪B = A∪B∪∅∪· · · ∈ F , A∩B = (Ac ∪B c )c ∈ F , und A \ B = A ∩ B c ∈ F . Ebenso geh¨oren abz¨ahlbare Durchschnitte von Mengen in F wieder zu F . Das σ im Namen σ -Algebra hat sich eingeb¨urgert als ein K¨urzel f¨ur die Tatsache, dass in (c) abz¨ahlbar unendliche (statt nur endliche) Vereinigungen betrachtet
11
1.1 Wahrscheinlichkeitsr¨aume
werden. Mit endlichen Vereinigungen ist man nicht zufrieden, weil man auch asymptotische Ereignisse betrachten will wie zum Beispiel {M¨unze zeigt Zahl“ f¨ur ” unendlich viele W¨urfe} oder {die relative H¨aufigkeit von Zahl“ strebt gegen 1/2, ” wenn die Anzahl der W¨urfe gegen ∞ strebt} . Solche Ereignisse lassen sich nicht durch endliche Vereinigungen, wohl aber durch abz¨ahlbar unendliche Vereinigungen (und Durchschnitte) ausdr¨ucken. Wie legt man eine σ -Algebra in - fest? Zun¨achst w¨ahlt man ein System G von guten“, d. h. besonders einfachen oder nat¨urlichen Mengen, deren Wahrscheinlich” keit man gut einsch¨atzen kann. Dieses System wird dann so weit vergr¨oßert, bis man eine σ -Algebra erh¨alt. Genauer verwendet man das folgende Konstruktionsprinzip. (1.6) Bemerkung und Definition: Erzeugung von σ -Algebren. Ist - = ∅ und G ⊂ P(-) beliebig, so gibt es genau eine kleinste σ -Algebra F = σ (G ) in mit F ⊃ G . Dieses F heißt die von G erzeugte σ -Algebra, und G heißt dann ein Erzeuger von F . Beweis: Sei Σ das System aller σ -Algebren A in -+ mit A ⊃ G . Σ ist nichtleer, denn es gilt P(-) ∈ Σ. Also k¨onnen wir setzen F := A ∈Σ A . Man verifiziert sofort, dass F die Eigenschaften (a) – (c) einer σ -Algebra besitzt. Nach Konstruktion ist F die kleinste σ -Algebra, welche G umfasst. 3 Hier sind drei Standardbeispiele f¨ur dieses Erzeugungsprinzip. (1.7) Beispiel: Potenzmenge. Sei - abz¨ahlbar und G = {ω} : ω ∈ - das System der ein-elementigen Teilmengen von -. Dann ist * σ (G ) = P(-). Denn jedes A ∈ P(-) ist abz¨ahlbar, nach Axiom (c) gilt also A = ω∈A {ω} ∈ σ (G ). (1.8) Beispiel und Definition: Borel’sche σ -Algebra. Sei - = Rn und G =
n 5-
[ai , bi ] : ai < bi , ai , bi ∈ Q
6
i=1
das System aller kompakten Quader in Rn mit rationalen Eckpunkten. Dann heißt B n := σ (G ) (zu Ehren von Émile Borel, 1871–1956) die Borel’sche σ -Algebra auf Rn und jedes A ∈ B n eine Borel-Menge; im Fall n = 1 schreiben wir einfach B statt B 1 . Die Borel’sche σ -Algebra ist sehr viel gr¨oßer als diese Definition zun¨achst erkennen l¨asst. Es gilt n¨amlich: ω ∈ A besitzt eine (a) Jede offene Menge A ⊂ Rn ist Borelsch. Denn jedes * Umgebung Q ∈ G ⊂ B n mit Q ⊂ A, es gilt also A = Q∈G , Q⊂A Q , und diese Vereinigung ist abz¨ahlbar. Die Behauptung folgt also aus Eigenschaft (c) einer σ -Algebra. (b) Jedes abgeschlossene A ⊂ Rn ist Borelsch, denn Ac ist ja offen und also nach (a) Borelsch.
12
1 Mathematische Beschreibung von Zufallssituationen
(c) B n l¨asst sich leider nicht konstruktiv beschreiben. Es besteht keineswegs nur aus abz¨ahlbaren Vereinigungen von Quadern und deren Komplementen. Um bei B n anzukommen, muss man vielmehr den Vorgang des Hinzunehmens von Komplementen und abz¨ahlbaren Vereinigungen so oft wiederholen wie es abz¨ahlbare Ordinalzahlen gibt, also u¨ berabz¨ahlbar oft; vgl. etwa Satz 4.9 in Michel [42]. Das macht aber nichts. Es gen¨ugt zu wissen, dass B n praktisch ” alle vorkommenden“ Mengen in Rn enth¨alt, aber nicht alle: Die Existenz nichtBorel’scher Mengen ergibt sich aus Satz (1.5) und dem Beweis von Satz (3.12). Wir ben¨otigen außerdem die folgenden beiden Fakten: (d) Die Borel’sche σ -Algebra B = B 1 auf R wird außer von dem System G der kompakten Intervalle auch erzeugt vom System G = ]−∞, c] : c ∈ R aller abgeschlossenen linksseitig unendlichen Intervalle. Denn wegen (b) gilt G ⊂ B und daher (infolge der Minimalit¨at von σ (G )) auch σ (G ) ⊂ B . Um]a, b] = ]−∞, b]\ ]−∞, a], gekehrt enth¨alt σ (G ) alle halboffenen Intervalle+ somit auch alle kompakten Intervalle [a, b] = n≥1 ]a− n1 , b], also auch die von diesen erzeugte σ -Algebra B . Ebenso wird B auch von den offenen linksseitig unendlichen Intervallen erzeugt, und in gleicher Weise auch von den rechtsseitig unendlichen abgeschlossenen oder offenen Intervallen. (e) F¨ur ∅ = - ⊂ Rn ist das System B-n = {A ∩ - : A ∈ B n } eine σ -Algebra auf -; sie heißt die Borel’sche σ -Algebra auf -. (1.9) Beispiel und Definition:(Produkt-σ -Algebra. Sei - ein kartesisches Produkt von Mengen Ei , d. h. - = i∈I Ei f¨ur eine Indexmenge I = ∅. Sei Ei eine σ -Algebra auf Ei , Xi : - → Ei die Projektion % auf die i-te Koordinate, und G = {Xi−1 Ai : i ∈ I, Ai ∈ Ei }. Dann heißt i∈I Ei := σ (G ) die Produkt-σ man auch E ⊗I Algebra % der Ei auf -. Im Fall Ei = E und Ei = E f¨ur alle i schreibt n statt i∈I Ei . Beispielsweise ist die Borel’sche σ -Algebra auf R gerade die n-fache Produkt-σ -Algebra der Borel-σ -Algebra B = B 1 auf R, d. h. es gilt B n = B ⊗n ; vgl. Aufgabe 1.3. Der zweite Schritt in der Modellbildung l¨asst sich nun folgendermaßen zusammenfassen: Satz (1.5) erzwingt die Einf¨uhrung einer σ -Algebra F von Ereignissen in -. Zum Gl¨uck ist die Wahl von F meistens kanonisch. In diesem Buch kommen nur die folgenden drei Standardf¨alle vor: Diskreter Fall: - ist h¨ochstens abz¨ahlbar. Dann setzt man F = P(-). Reeller Fall: - ⊂ Rn . Dann w¨ahlt man F = B-n . ( Produkt-Fall: = agt eine σ -Algebra Ei . Dann wird i∈I Ei , und jedes Ei tr¨ % F = i∈I Ei gesetzt.
13
1.1 Wahrscheinlichkeitsr¨aume
Ist eine σ -Algebra F in - festgelegt, so heißt jedes A ∈ F ein Ereignis oder eine messbare Menge.
1.1.3 Wahrscheinlichkeitsbewertung der Ereignisse Der entscheidende Punkt der Modellbildung kommt jetzt: Gesucht ist zu jedem A ∈ F eine Maßzahl P (A) ∈ [0, 1], die den Grad der Wahrscheinlichkeit von A angibt. Sinnvollerweise soll das so geschehen, dass gilt: (N) Normierung: P (-) = 1. (A) σ -Additivit¨at: F¨ur paarweise disjunkte Ereignisse A1 , A2 , . . . ∈ F gilt / , P Ai = P (Ai ) . i≥1
i≥1
(Paarweise Disjunktheit bedeutet, dass Ai ∩ Aj = ∅ f¨ur i = j .) Definition: Sei (-, F ) ein Ereignisraum. Eine Funktion P : F → [0, 1] mit den Eigenschaften (N) und (A) heißt dann ein Wahrscheinlichkeitsmaß oder auch eine Wahrscheinlichkeitsverteilung, kurz Verteilung (oder etwas altmodisch ein Wahrscheinlichkeitsgesetz) auf (-, F ). Das Tripel (-, F , P ) heißt dann ein Wahrscheinlichkeitsraum. Die Eigenschaften (N) und (A) sowie die Nichtnegativit¨at eines Wahrscheinlichkeitsmaßes heißen manchmal auch die Kolmogorov’schen Axiome, denn es war Andrej N. Kolmogorov (1903–1987), der 1933 den Nutzen des Maß-Begriffes f¨ur die mathematische Grundlegung der Wahrscheinlichkeitstheorie hervorhob und so einen entscheidenden Anstoß zur Entwicklung der modernen Wahrscheinlichkeitstheorie gab.
Zusammenfassend halten wir fest: Die Konstruktion eines mathematischen Modells f¨ur ein bestimmtes Zufallsgeschehen besteht in der Wahl eines geeigneten Wahrscheinlichkeitsraumes. Der heikelste Punkt dabei ist im Allgemeinen die Wahl des Wahrscheinlichkeitsmaßes P , denn dies enth¨alt die eigentlich relevante Information u¨ ber das Zufallsgeschehen. Wie man dabei vorgehen kann, werden wir in Kapitel 2 und auch sp¨ater an vielen Beispielen vorf¨uhren. An dieser Stelle erw¨ahnen wir nur noch das elementare aber ausgeartete Beispiel eines Wahrscheinlichkeitsmaßes, welches eine Zufallssituation ohne Zufall beschreibt. (1.10) Beispiel und Definition: Deterministischer Spezialfall. Ist (-, F ) ein beliebiger Ereignisraum und ξ ∈ -, so wird durch 1 falls ξ ∈ A , δξ (A) = 0 sonst ein Wahrscheinlichkeitsmaß δξ auf (-, F ) definiert. Es beschreibt ein Zufallsexperiment mit sicherem Ergebnis ξ und heißt die Dirac-Verteilung oder die Einheitsmasse im Punkte ξ .
14
1 Mathematische Beschreibung von Zufallssituationen
Wir beenden diesen Abschnitt mit ein paar Bemerkungen zur Interpretation von Wahrscheinlichkeitsmaßen: Das Konzept eines Wahrscheinlichkeitsraumes gibt keineAntwort auf die philosophische Frage, was Wahrscheinlichkeit ¨ eigentlich ist. Ublich sind (a) die naive Interpretation: Die Natur“ ist sich nicht sicher, was sie tut, und ” P (A) ist der Grad der Sicherheit, mit der sie sich f¨ur das Eintreten von A entscheidet. (b) die frequentistische Interpretation: P (A) ist die relative H¨aufigkeit, mit der A unter den gleichen a¨ ußeren Bedingungen einzutreten pflegt. (c) die subjektive Interpretation: P (A) ist der Grad der Sicherheit, mit dem ich aufgrund meiner pers¨onlichen Einsch¨atzung der Lage auf das Eintreten von A zu wetten bereit bin. (Die Interpretationen (a) und (c) sind dual zueinander, die Unsicherheit wechselt von der Natur zum Beobachter.) Welche Interpretation vorzuziehen ist, kann nicht generell gesagt werden, sondern h¨angt von der Problemstellung ab: Bei unabh¨angig wiederholbaren Experimenten bieten sich (a) und (b) an; der amerikanische Wetterbericht (mit Vorhersagewahrscheinlichkeiten) basiert offenbar auf (b), ebenso die Wahrscheinlichkeiten im Versicherungswesen. Die vor dem 23.3.2001 gestellte Frage Mit welcher Wahrschein” lichkeit wird durch den Absturz der Raumstation Mir‘ ein Mensch verletzt“ verwen’ det wegen der Einmaligkeit des Ereignisses offensichtlich die subjektive Interpretation (c). Eine umfassende, sehr anregend geschriebene historisch-philosophische Diskussion des Wahrscheinlichkeitsbegriffs findet sich bei Gigerenzer et al. [23]. Erfreulicherweise h¨angt die G¨ultigkeit der mathematischen Aussagen u¨ ber ein Wahrscheinlichkeitsmodell nicht von ihrer Interpretation ab. Die Mathematik wird nicht durch die Begrenztheiten menschlicher Interpretationen relativiert. Dies sollte allerdings nicht in der Weise missverstanden werden, dass die Mathematik sich in ihren Elfenbeinturm“ zur¨uckziehen d¨urfe. Die Stochastik lebt von der Auseinan” dersetzung mit konkret vorgegebenen Anwendungsproblemen.
1.2
Eigenschaften und Konstruktion von Wahrscheinlichkeitsmaßen
Zuerst diskutieren wir eine Reihe von Konsequenzen, die sich aus der σ -Additivit¨atseigenschaft (A) von Wahrscheinlichkeitsmaßen ergeben. (1.11) Satz: Rechenregeln f¨ur Wahrscheinlichkeitsmaße. Jedes Wahrscheinlichkeitsmaß P auf einem Ereignisraum (-, F ) hat f¨ur beliebige Ereignisse A, B, A1 , A2 , . . . ∈ F die Eigenschaften
15
1.2 Eigenschaften und Konstruktion von Wahrscheinlichkeitsmaßen
(a) P (∅) = 0 , (b) Endliche Additivit¨at: P (A ∪ B) + P (A ∩ B) = P (A) + P (B) , (c) Monotonie: A ⊂ B ⇒ P (A) ≤ P (B) , ' * (d) σ -Subadditivit¨at: P i≥1 Ai ≤ i≥1 P (Ai ) , (e) σ -Stetigkeit: Wenn An ↑ A (d. h. A1 ⊂ A2 ⊂ · · · und A = An ↓ A, so gilt P (An ) → P (A) f¨ur n → ∞.
*∞
n=1 An )
oder
Beweis: (a) Wegen der σ -Additivit¨atseigenschaft (A) gilt P (∅) = P (∅ ∪ ∅ ∪ · · · ) =
∞ '
P (∅) .
i=1
Diese Gleichung kann nur im Fall P (∅) = 0 erf¨ullt sein. (b) Im Fall A ∩ B = ∅ folgt aus (A) und der Aussage (a) P (A ∪ B) = P (A ∪ B ∪ ∅ ∪ ∅ ∪ · · · ) = P (A) + P (B) + 0 + 0 + · · · . Daraus ergibt sich im allgemeinen Fall, indem man A ∪ B in drei disjunkte Teile zerlegt, P (A ∪ B) + P (A ∩ B) = P (A \ B) + P (B \ A) + 2P (A ∩ B) = P (A) + P (B) . (c) F¨ur B ⊃ A gilt P (B) = P (A) + P (B \ A) ≥ P (A) wegen (b) und der Nichtnegativit¨at von Wahrscheinlichkeiten. * (d) Indem wir zun¨achst i≥1 Ai als Vereinigung disjunkter Mengen darstellen und dann (A) und (c) anwenden, erhalten wir , / , / * * Ai = P (Ai \ Aj ) = P Ai \ Aj ≤ P (Ai ) . P i≥1
j
i≥1
j
i≥1
i≥1
(e) Im Fall An ↑ A ergibt sich aus der σ -Additivit¨at (A) und der endlichen Additivit¨at (b) mit A0 := ∅ , / (Ai \ Ai−1 ) = P (Ai \ Ai−1 ) P (A) = P i≥1 n ,
= lim
n→∞
i=1
i≥1
P (Ai \ Ai−1 ) = lim P (An ) . n→∞
Der Fall An ↓ A folgt hieraus durch Komplementbildung. 3
16
1 Mathematische Beschreibung von Zufallssituationen
Eine weitere wichtige Folgerung aus der σ -Additivit¨at ist die Tatsache, dass ein Wahrscheinlichkeitsmaß bereits durch seine Werte auf einem Erzeuger der σ -Algebra festgelegt ist. (1.12) Satz: Eindeutigkeitssatz. Sei (-, F , P ) ein Wahrscheinlichkeitsraum, und es gelte F = σ (G ) f¨ur ein Erzeugendensystem G ⊂ P(-). Ist G ∩-stabil in dem Sinn, dass mit A, B ∈ G auch A ∩ B ∈ G , so ist P bereits durch seine Einschr¨ankung P |G auf G eindeutig bestimmt. Obwohl wir den Eindeutigkeitssatz wiederholt ben¨otigen werden, sollte man den folgenden Beweis wegen seiner indirekten Methodik beim ersten Lesen u¨ berspringen. Beweis: Sei Q ein beliebiges Wahrscheinlichkeitsmaß auf (-, F ) mit P |G = Q|G und D = {A ∈ F : P (A) = Q(A)}. Dann gilt: (a) - ∈ D (b) Sind A, B ∈ D und A ⊂ B, so gilt B \ A ∈ D
* (c) Sind A1 , A2 , . . . ∈ D paarweise disjunkt, so ist i≥1 Ai ∈ D Und zwar folgt (a) aus (N), (c) aus (A) und (b) daraus, dass P (B \ A) = P (B) − P (A) f¨ur A ⊂ B. Ein System D mit den Eigenschaften (a) – (c) heißt ein Dynkin-System. Nach Voraussetzung gilt D ⊃ G . Deshalb umfasst D auch das von G erzeugte Dynkin-System d(G ). Wie in Bemerkung (1.6) ist d(G ) definiert als das kleinste Dynkin-System, welches G umfasst; die Existenz solch eines kleinsten Dynkin-Systems ergibt sich genau wie dort. Das folgende Lemma wird zeigen, dass d(G ) = σ (G ) = F . Folglich gilt D = F und somit P = Q. 3 Zum Abschluss des Beweises fehlt noch folgendes (1.13) Lemma: Erzeugtes Dynkin-System. F¨ur ein ∩-stabiles Mengensystem G gilt d(G ) = σ (G ). Beweis: Da σ (G ) als σ -Algebra erst recht auch ein Dynkin-System ist und d(G ) minimal ist, gilt σ (G ) ⊃ d(G ). Wir zeigen, dass umgekehrt auch d(G ) eine σ -Algebra ist. Denn daraus folgt dann σ (G ) ⊂ d(G ) wegen der Minimalit¨at von σ (G ). 1. Schritt: d(G ) ist ∩-stabil. Denn D1 := {A ⊂ - : A ∩ B ∈ d(G ) f¨ur alle B ∈ G } ist offensichtlich ein Dynkin-System, und weil G ∩-stabil ist, gilt D1 ⊃ G . Wegen der Minimalit¨at von d(G ) folgt hieraus D1 ⊃ d(G ), d. h. es gilt A ∩ B ∈ d(G ) f¨ur alle A ∈ d(G ) und B ∈ G . Genauso ist auch D2 := {A ⊂ - : A∩B ∈ d(G ) f¨ur alle B ∈ d(G )} ein Dynkin-System, und nach dem soeben Gezeigten gilt D2 ⊃ G . Also gilt auch D2 ⊃ d(G ), d. h. A ∩ B ∈ d(G ) f¨ur alle A, B ∈ d(G ). 2. Schritt: d(G ) ist eine σ -Algebra. Denn seien A1 , A2 , . . . ∈ d(G ). Dann ist nach dem ersten Schritt f¨ur alle i ≥ 1 / 0 Bi := Ai \ Aj = Ai ∩ - \ Aj ∈ d(G ) , j
j
und die Bi sind paarweise disjunkt. Daher ist auch
*
i≥1 Ai =
*
i≥1 Bi ∈ d(G ). 3
1.2 Eigenschaften und Konstruktion von Wahrscheinlichkeitsmaßen
17
Wie konstruiert man ein Wahrscheinlichkeitsmaß auf einer σ -Algebra F ? Aufgrund des Eindeutigkeitssatzes stellt sich diese Frage so: Unter welchen Voraussetzungen kann eine Funktion P auf einem geeigneten Erzeugendensystem G zu einem Wahrscheinlichkeitsmaß auf der erzeugten σ -Algebra σ (G ) fortgesetzt werden? Eine befriedigende Antwort hierauf gibt ein Satz der Maßtheorie, der Fortsetzungssatz von Carathéodory, vgl. etwa [4, 12, 14, 22]; hier wollen wir jedoch nicht darauf eingehen. Um allerdings die Existenz von nichttrivialen Wahrscheinlichkeitsmaßen auch auf nicht-diskreten Ergebnisr¨aumen sicherstellen zu k¨onnen, m¨ussen und wollen wir die Existenz des Lebesgue-Integrals als bekannt voraussetzen. Was wir ben¨otigen, ist die folgende (1.14) Tatsache: Lebesgue-Integral. F¨ur jede Funktion f : Rn → [0, ∞[, welche die Messbarkeitseigenschaft (1.15)
{x ∈ Rn : f (x) ≤ c} ∈ B n
f¨ur alle c > 0
) erf¨ullt (mehr dazu in Beispiel (1.26) unten), kann das Lebesgue-Integral f (x) dx ∈ [0, ∞] so erkl¨art werden, dass folgendes gilt: ) (a) F¨ur jede Riemann-integrierbare Funktion f stimmt f (x) dx mit dem Riemann-Integral von f u¨ berein. (b) F¨ur jede Folge f1 , f2 , . . . von nichtnegativen messbaren Funktionen wie oben gilt . , ,. fn (x) dx = fn (x) dx . n≥1
n≥1
Ein Beweis dieser Aussagen findet sich in zahlreichen Analysis-B¨uchern wie z. B. Forster [20] oder K¨onigsberger [35]. Wie Aussage (a) zeigt, kommt man bei konkreten Berechnungen oft mit der Kenntnis des Riemann-Integrals aus. Das Riemann-Integral erf¨ullt jedoch nicht die (f¨ur uns essentielle) σ -Additivit¨atsaussage (b), welche a¨ quivalent ist zum Satz von der monotonen Konvergenz; man vergleiche dazu auch den sp¨ateren Satz (4.11c).
Das Lebesgue-Integral liefert insbesondere einen vern¨unftigen Volumenbegriff f¨ur Borelmengen in Rn . Bezeichne dazu 1 falls x ∈ A , (1.16) 1A (x) = 0 sonst die Indikatorfunktion einer Menge A. Dann definiert man das Integral u¨ ber A ∈ B n durch . . f (x) dx := 1A (x)f (x) dx , A
und speziell f¨ur f ≡ 1 folgt aus (1.14b):
18
1 Mathematische Beschreibung von Zufallssituationen
(1.17) Bemerkung und Definition: Lebesgue-Maß. Die Abbildung λn : B n → [0, ∞], die jedem A ∈ B n sein n-dimensionales Volumen . n λ (A) := 1A (x) dx zuordnet, erf¨ullt die σ -Additivit¨atseigenschaft (A), und es gilt λn (∅) = 0. Folglich ist λn ein Maß“ auf (Rn , B n ). Es heißt das (n-dimensionale) Lebesgue-Maß auf ” Rn . F¨ur - ∈ B n heißt die Einschr¨ankung λn- von λn auf B-n das Lebesgue-Maß auf -. Wir werden wiederholt sehen, dass aus der Existenz des Lebesgue-Maßes die Existenz von vielen interessanten Wahrscheinlichkeitsmaßen gefolgert werden kann. Hier wollen wir das Lebesgue-Maß nur benutzen, um das (im diskreten Fall evidente) Konstruktionsprinzip von Wahrscheinlichkeitsmaßen durch Dichten auf den stetigen Fall zu u¨ bertragen. Diskreter Fall
(ω)
Stetiger Fall
P (A) ω1 ω2 ω3
A
-
Abbildung 1.1: Links: Stabdiagramm einer Z¨ahldichte. Rechts: Dichtefunktion; deren Integral u¨ ber ein Ereignis A ergibt die Wahrscheinlichkeit P (A).
(1.18) Satz: Konstruktion von Wahrscheinlichkeitsmaßen durch Dichten. (a) Diskreter Fall: Ist - abz¨ahlbar, so bestimmt jede Folge = ((ω))ω∈- in ' [0, 1] mit ω∈- (ω) = 1 genau ein Wahrscheinlichkeitsmaß P auf (-, P(-)) verm¨oge , (ω) f¨ur A ∈ P(-) . P (A) = ω∈A
Jede solche Folge heißt eine Z¨ahldichte. (b) Stetiger Fall: Ist - ⊂ Rn Borelsch, so bestimmt jede Funktion : - → [0, ∞[ mit den Eigenschaften (i) {x ∈ - : (x) ≤ c} ∈ B-n f¨ur alle c > 0 (vgl. (1.15)) ) (ii) - (x) dx = 1
1.2 Eigenschaften und Konstruktion von Wahrscheinlichkeitsmaßen
19
genau ein Wahrscheinlichkeitsmaß P auf (-, B-n ) verm¨oge . P (A) = A
(x) dx f¨ur A ∈ B-n .
heißt dann die Dichtefunktion von P oder eine Wahrscheinlichkeitsdichte. Beweis: Der diskrete Fall liegt auf der Hand. Im stetigen Fall ergibt sich die Behauptung unmittelbar aus der obigen Tatsache (1.14b), denn f¨ur paarweise disjunkte ' Mengen Ai gilt ja 1*i≥1 Ai = i≥1 1Ai . 3 Als elementares Beispiel f¨ur die Konstruktion von Wahrscheinlichkeitsmaßen durch Dichten erw¨ahnen wir hier schon die Gleichverteilungen, die wir in Abschnitt 2.1 noch ausf¨uhrlicher diskutieren werden. (1.19) Beispiel und Definition: Die Gleichverteilungen. Ist - endlich, so heißt das Wahrscheinlichkeitsmaß zur konstanten Z¨ahldichte (ω) = 1/|-| (bei dem also alle ω ∈ - mit gleicher Wahrscheinlichkeit eintreten) die (diskrete) Gleichverteilung auf - und wird mit U- bezeichnet. Ist andrerseits - ⊂ Rn eine Borelmenge mit Volumen 0 < λn (-) < ∞, so heißt das Wahrscheinlichkeitsmaß auf (-, B- ) mit der konstanten Dichtefunktion (x) = 1/λn (-) die (stetige) Gleichverteilung auf -; sie wird ebenfalls mit Ubezeichnet. Wahrscheinlichkeitsmaße auf Teilmengen eines Rn lassen sich auch als Wahrscheinlichkeitsmaße auf ganz Rn auffassen. Genauer: Ist - ⊂ Rn eine Borelmenge und P ein Wahrscheinlichkeitsmaß auf (-, B-n ) mit Dichtefunktion , so l¨asst sich P offenbar identifizieren mit dem Wahrscheinlichkeitsmaß P¯ auf (Rn , B n ) zur Dichtefunktion ¯ mit (x) ¯ = (x) f¨ur x ∈ - und (x) ¯ = 0 sonst; denn es n n ¯ ¯ gilt P (R \ -) = 0, und auf B- stimmt P mit P u¨ berein. Diese Identifizierung werden wir oft stillschweigend vornehmen. Ein Analogon hat man auch im diskreten Fall: Ist - ⊂ Rn abz¨ahlbar und P ein Wahrscheinlichkeitsmaß auf (-, P(-)) mit Z¨ahldichte , so kann man P identifizieren mit dem Wahrscheinlichkeitsmaß ' n n n n ω∈- (ω) δω , welches auf (R , B ) (oder sogar (R , P(R ))) definiert ist; hier ist δω das Diracmaß aus (1.10). Nat¨urlich lassen sich diskrete und stetige Wahrscheinlichkeitsmaße auch miteinander kombinieren. Zum Beispiel wird durch (1.20)
P (A) =
2 3
U]0,1/2[ (A) +
1 3
δ1 (A) ,
A ∈ B,
ein Wahrscheinlichkeitsmaß auf (R, B ) definiert, welches zu zwei Dritteln auf dem Intervall ]0, 1/2[ gleichm¨aßig verschmiert“ ist und dem Punkt 1 noch die Extra” wahrscheinlichkeit 1/3 gibt.
20
1 Mathematische Beschreibung von Zufallssituationen
1.3
Zufallsvariablen
Kehren wir kurz zur¨uck zum ersten Schritt der Modellbildung in Abschnitt 1.1.1. Die Wahl des Ergebnisraums - h¨angt davon ab, welchen Ausschnitt des Zufallsgeschehens ich f¨ur relevant halte. Wie groß oder klein ich diesen Ausschnitt w¨ahle, ist eine Frage der Beobachtungstiefe. (1.21) Beispiel: n-maliger M¨unzwurf. Ich kann entweder das Ergebnis von jedem einzelnen Wurf registrieren; dann ist - = {0, 1}n der geeignete Ergebnisraum. Oder ich beobachte nur dieAnzahl, wie oft Zahl“ gefallen ist. Mein Ergebnisraum ist dann ” - = {0, 1, . . . , n}. Der zweite Fall entspricht einer geringeren Beobachtungstiefe. ¨ Der Ubergang von der gr¨oßeren zur geringeren Beobachtungstiefe wird beschrieben durch X : - → - , welche jedem ω = (ω1 , . . . , ωn ) ∈ - die Summe 'n die Abbildung i=1 ωi ∈ - , also die ”Anzahl der Erfolge“ zuordnet. ¨ Wir sehen daran: Der Ubergang von einem bestimmten Ereignisraum (-, F ) zu einem Modellausschnitt (- , F ) mit geringerem Informationsgehalt wird vermittelt durch eine Abbildung zwischen den Ergebnisr¨aumen - und - . Im allgemeinen Fall muss man von solch einer Abbildung fordern: A ∈ F ⇒ X−1 A ∈ F ,
(1.22)
d. h. alle Ereignisse bei der geringeren Beobachtungstiefe lassen sich durch die Urbildabbildung X −1 zur¨uckf¨uhren auf Ereignisse bei der gr¨oßeren Beobachtungstiefe. Die Situation wird durch Abbildung 1.2 veranschaulicht. X−1 A
-
X
A
-
Abbildung 1.2: Zur Definition von Zufallsvariablen. Das Urbild eines Ereignisses in - ist ein Ereignis in -.
Definition: Seien (-, F ) und (- , F ) zwei Ereignisr¨aume. Dann heißt jede Abbildung X : - → - mit der Eigenschaft (1.22) eine Zufallsvariable von (-, F ) nach (- , F ), oder auch ein Zufallselement von - oder messbar. Im Folgenden verwenden wir f¨ur Urbilder vorwiegend die suggestive Schreibweise (1.23)
{X ∈ A } := {ω ∈ - : X(ω) ∈ A } = X−1 A .
1.3 Zufallsvariablen
21
Als erstes wollen wir festhalten, dass Bedingung (1.22) im diskreten Fall keine Rolle spielt, weil sie automatisch erf¨ullt ist. (1.24) Beispiel: Zufallsvariablen auf diskreten R¨aumen. Ist F = P(-), so ist jede Abbildung X : - → - eine Zufallsvariable. Im allgemeinen Fall ist das folgende Kriterium n¨utzlich. (1.25) Bemerkung: Messbarkeitskriterium. In der Situation der Definition werde F erzeugt von einem Mengensystem G , d. h. es sei F = σ (G ). Dann ist X : - → - bereits dann eine Zufallsvariable, wenn die Bedingung X −1 A ∈ F nur f¨ur alle A ∈ G gilt. Beweis: Das System A := {A ⊂ - : X−1 A ∈ F } ist eine σ -Algebra, die nach Voraussetzung G umfasst. Da nach Voraussetzung F die kleinste solche σ -Algebra ist, gilt auch A ⊃ F , und das bedeutet, dass X die Bedingung (1.22) erf¨ullt. 3 (1.26) Beispiel: Reelle Zufallsvariablen. Sei (- , F ) = (R, B ). Dann ist eine Abbildung X : - → R bereits dann eine Zufallsvariable, wenn alle Mengen der Form {X ≤ c} := X−1 ]−∞, c ] zu F geh¨oren, und ebenfalls , wenn {X < c} := X−1 ]−∞, c[ ∈ F f¨ur alle c ∈ R. Dies folgt unmittelbar aus Bemerkung (1.25) und Aussage (1.8d). ¯ = Oft ist es praktisch, auch sogenannte numerische Funktionen mit Werten in R ¯ [−∞, ∞] zu betrachten. R wird versehen mit der von den Intervallen [−∞, c], c ∈ R, erzeugten σ -Algebra. (Man u¨ berlege sich, wie diese mit der Borel’schen ¯ ist daher σ -Algebra in R zusammenh¨angt.) Eine numerische Funktion X : - → R genau dann eine Zufallsvariable, wenn {X ≤ c} ∈ F f¨ur alle c ∈ R. (1.27) Beispiel: Stetige Funktionen. Sei - ⊂ Rn und F = B-n . Dann ist jede stetige Funktion X : - → R eine Zufallsvariable. Denn f¨ur jedes c ∈ R ist {X ≤ c} abgeschlossen in -, geh¨ort also gem¨aß Beispiel (1.8be) zu B-n . Die Behauptung folgt somit aus Beispiel (1.26). Der n¨achste Satz beschreibt ein wichtiges Prinzip zur Erzeugung neuer Wahrscheinlichkeitsmaße, welches wir wiederholt ausnutzen werden. (1.28) Satz: Verteilung einer Zufallsvariablen. Ist X eine Zufallsvariable von einem Wahrscheinlichkeitsraum (-, F , P ) in einen Ereignisraum (- , F ), so wird durch P (A ) := P (X−1 A ) = P ({X ∈ A }) f¨ur A ∈ F ein Wahrscheinlichkeitsmaß P auf (- , F ) definiert. Zur Vereinfachung der Schreibweise werden wir in Zukunft bei Ausdr¨ucken der Gestalt P ({X ∈ A }) die geschweiften Klammern weglassen und einfach P (X ∈ A ) schreiben.
Beweis: Wegen (1.22) ist die Definition von P sinnvoll. Ferner erf¨ullt P die Bedingungen (N) und (A), denn es ist P (- ) = P (X ∈ - ) = P (-) = 1, und sind
22
1 Mathematische Beschreibung von Zufallssituationen
A1 , A2 , . . . ∈ F paarweise disjunkt, so sind auch die Urbilder X−1 A1 , X−1 A2 , . . . paarweise disjunkt, und deshalb gilt * * * Ai ) = P ( X−1 Ai ) P ( Ai ) = P (X−1 i≥1
=
,
i≥1
i≥1
P (X −1 Ai ) =
i≥1
,
P (Ai ) .
i≥1
Also ist P ein Wahrscheinlichkeitsmaß. 3 Definition: (a) Das Wahrscheinlichkeitsmaß P in Satz (1.28) heißt die Verteilung von X bei P oder das Bild von P unter X und wird mit P ◦ X−1 bezeichnet. (In der Literatur findet man auch die Bezeichnungen PX oder L (X; P ). Das L steht f¨ur englisch law bzw. franz¨osisch loi.) (b) Zwei Zufallsvariablen heißen identisch verteilt, wenn sie dieselbe Verteilung haben. An dieser Stelle muss darauf hingewiesen werden, dass der Begriff Verteilung“ ” in der Stochastik in inflation¨arer Weise verwendet wird. Außer in dem eben eingef¨uhrten Sinn verwendet man ihn auch allgemein als ein Synonym f¨ur Wahrscheinlichkeitsmaß. (Denn jedes Wahrscheinlichkeitsmaß ist die Verteilung einer Zufallsvariablen, n¨amlich einfach der Identit¨atsabbildung des zugrunde liegenden -.) Davon unterschieden werden m¨ussen die beiden Begriffe Verteilungsfunktion“ und ” Verteilungsdichte“, die sich auf den Fall (- , F ) = (R, B ) beziehen und hier ” noch abschließend eingef¨uhrt werden sollen. Ist X eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (-, F , P ), so ist dieVerteilung von X bereits durch die Funktion FX (c) := P (X ≤ c) mit c ∈ R eindeutig festgelegt. Denn wegen Aussage (1.8d) und dem Eindeutigkeitssatz (1.12) stimmen zwei Wahrscheinlichkeitsmaße auf (R, B ) genau dann u¨ berein, wenn sie auf allen Intervallen ]−∞, c] u¨ bereinstimmen. Dies motiviert die folgende Definition: Ist X eine reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (-, F , P ), so heißt die Funktion FX (c) = P (X ≤ c) von R nach [0, 1] die (kumulative) Verteilungsfunktion von X. Im Fall (-, F ) = (R, B ) heißt die Verteilungsfunktion FP = FId : c → P (]−∞, c]) der Identit¨atsabbildung Id : x → x die Verteilungsfunktion von P . Definitionsgem¨aß gilt also stets FX = FP ◦X−1 . Jede Verteilungsfunktion F = FX ist monoton wachsend und rechtsstetig und hat das asymptotische Verhalten (1.29)
lim F (c) = 0
c→−∞
und
lim F (c) = 1 .
c→+∞
Dies folgt unmittelbar aus Satz (1.11); vgl. Aufgabe 1.14. Abbildung 1.3 zeigt ein Beispiel. Bemerkenswerterweise ist jede Funktion mit diesen Eigenschaften die Verteilungsfunktion einer Zufallsvariablen auf dem (mit der Gleichverteilung aus Beispiel (1.19) versehenen) Einheitsintervall. Der Begriff Quantil“ im Namen dieser ”
23
1.3 Zufallsvariablen
Zufallsvariablen wird in Teil II, der Statistik, eine wichtige Rolle spielen; siehe die Definition auf Seite 225. q
q
0
1/2
1
0
2/3
1
Abbildung 1.3: Verteilungsfunktion des Wahrscheinlichkeitsmaßes 23 U]0,1/2[ + 13 δ1 aus (1.20) (links) und die zugeh¨orige Quantil-Transformation (rechts).
(1.30) Proposition: Quantil-Transformation. Zu jeder monoton wachsenden, rechtsstetigen Funktion F auf R mit dem Grenzverhalten (1.29) existiert eine reelle Zufallsvariable X auf dem Wahrscheinlichkeitsraum (]0, 1[, B]0,1[ , U]0,1[ ) mit FX = F , n¨amlich die Quantil-Transformation“ ” X(u) = inf{c ∈ R : F (c) ≥ u} , u ∈ ]0, 1[. Beweis: Wegen (1.29) gilt −∞ < X(u) < ∞ f¨ur alle 0 < u < 1. De facto ist X eine linksstetige Umkehrabbildung von F ; vgl. Abbildung 1.3. Es gilt n¨amlich X(u) ≤ c genau dann, wenn u ≤ F (c); denn wegen der Rechtsstetigkeit von F ist das Infimum in der Definition von X de facto ein Minimum. Insbesondere gilt {X ≤ c} = ]0, F (c)] ∩ ]0, 1[ ∈ B]0,1[ . Zusammen mit Beispiel (1.26) zeigt dies einerseits, dass X eine Zufallsvariable ist. Andrerseits hat die Menge {X ≤ c} das Lebesgue-Maß F (c). Also besitzt X die Verteilungsfunktion F . 3 Weil jedes Wahrscheinlichkeitsmaß P auf (R, B ) durch seine Verteilungsfunktion eindeutig festgelegt ist, l¨asst sich die Proposition auch so aussprechen: Jedes P auf (R, B ) ist die Verteilung einer Zufallsvariablen auf dem Wahrscheinlichkeitsraum (]0, 1[, B]0,1[ , U]0,1[ ). Diese Tatsache wird sich f¨ur uns wiederholt als n¨utzlich erweisen. Der Zusammenhang zwischen Verteilungsfunktionen und Dichtefunktionen wird durch den Begriff der Verteilungsdichte hergestellt. (1.31) Bemerkung und Definition: Existenz einer Verteilungsdichte. Sei X eine reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (-, F , P ). Ihre Verteilung P ◦ X −1 besitzt genau dann eine Dichtefunktion , wenn . FX (c) =
c
−∞
(x) dx
f¨ur alle c ∈ R.
24
1 Mathematische Beschreibung von Zufallssituationen
Solch ein heißt eine Verteilungsdichte von X. Insbesondere besitzt P ◦ X−1 genau dann eine stetige Dichtefunktion , wenn FX stetig differenzierbar ist, und dann ist = FX . Dies folgt direkt aus (1.8d) und dem Eindeutigkeitssatz (1.12).
Aufgaben 1.1. Seien (-, F ) ein Ereignisraum, A1 , A2 , . . . ∈ F und A = {ω ∈ - : ω ∈ An f¨ur unendlich viele n}. + * Zeigen Sie: (a) A = N≥1 n≥N An , (b) 1A = lim supn→∞ 1An . 1.2. Sei - u¨ berabz¨ahlbar und G = {{ω} : ω ∈ -} das System der ein-elementigen Teilmengen von -. Zeigen Sie: σ (G ) = {A ⊂ - : A oder Ac ist abz¨ahlbar}. 1.3. Zeigen Sie: Die Borel’sche σ -Algebra B n auf Rn stimmt u¨ berein mit B ⊗n , dem n-fachen Produkt der Borel’schen σ -Algebra B auf R. 1.4. Zeigen Sie: F¨ur jedes h¨ochstens abz¨ahlbare - ⊂ Rn gilt B-n = P(-). ( 1.5. Seien Ei , i ∈ N, abz¨ahlbare Mengen und - = i≥1 Ei . Bezeichne Xi : - → Ei die Projektion auf die i-te Koordinate. Zeigen Sie: Das System G = {X1 = x1 , . . . , Xk = xk } : k ≥ 1, xi ∈ Ei ∪ {∅} % ist ein ∩-stabiler Erzeuger der Produkt-σ -Algebra i≥1 P(Ei ). 1.6. Einschluss-Ausschluss-Prinzip. Sei (-, F , P ) ein Wahrscheinlichkeitsraum und Ai ∈ F , i ∈ I = {1, . . . , n}. F¨ur J ⊂ I sei 0 0 BJ = Aj ∩ Acj ; j ∈J
j ∈I \J
dabei sei ein Durchschnitt mit leerer Indexmenge = -. Zeigen Sie: (a) F¨ur alle K ⊂ I gilt P
+
Ak =
k∈K
,
P (BJ ).
K⊂J ⊂I
(b) F¨ur alle J ⊂ I gilt P (BJ ) =
, J ⊂K⊂I
(−1)|K\J | P
+
Ak .
k∈K
Was bedeutet dies f¨ur J = ∅? 1.7. Ein gewisser Chevalier de Méré, der mit seinen Spielproblemen und deren L¨osungen durch Pascal in die Geschichte der Wahrscheinlichkeitstheorie eingegangen ist, wunderte sich einmal Pascal gegen¨uber, dass er beim Werfen mit 3 W¨urfeln die Augensumme 11 h¨aufiger beobachtet hatte als die Augensumme 12, obwohl doch 11 durch die Kombinationen 6-4-1,
25
Aufgaben
6-3-2, 5-5-1, 5-4-2, 5-3-3, 4-4-3 und die Augensumme 12 durch genauso viele Kombinationen (welche?) erzeugt w¨urde. Kann man die Beobachtung des Chevalier de Méré als vom Zufall ” bedingt“ ansehen oder steckt in seiner Argumentation ein Fehler? F¨uhren Sie zur L¨osung dieses Problems einen geeigneten Wahrscheinlichkeitsraum ein. 1.8. Im Sechserpack eines Kakaotrunks sollte an jeder Packung ein Trinkhalm sein, der jedoch mit Wahrscheinlichkeit 1/3 fehlt, mit Wahrscheinlichkeit 1/3 defekt ist und nur mit Wahrscheinlichkeit 1/3 gut ist. Sei A das Ereignis Mindestens ein Trinkhalm fehlt und min” destens einer ist gut“. Geben Sie einen geeigneten Wahrscheinlichkeitsraum an, formulieren Sie das Ereignis A mengentheoretisch, und bestimmen Sie seine Wahrscheinlichkeit. 1.9. Anton und Brigitte vereinbaren ein faires Spiel u¨ ber 7 Runden. Jeder zahlt €5 als Einsatz, und der Gewinner erh¨alt die gesamten €10. Beim Stand von 2 : 3 muss das Spiel abgebrochen werden. Anton schl¨agt vor, den Gewinn in diesem Verh¨altnis zu teilen. Soll Brigitte sich darauf einlassen? Stellen Sie dazu ein geeignetes Modell auf und berechnen Sie die Gewinnwahrscheinlichkeit von Brigitte! 1.10. Geburtstagsparadox. Sei pn die Wahrscheinlichkeit, dass in einer Klasse von n Kindern wenigstens zwei am gleichen Tag Geburtstag haben. Vereinfachend sei dabei angenommen, dass kein Kind am 29. Februar geboren ist und alle anderen Geburtstage gleich wahrscheinlich sind. Zeigen Sie (unter Verwendung der Ungleichung 1 − x ≤ e−x ) pn ≥ 1 − exp (−n(n − 1)/730) , und bestimmen Sie ein m¨oglichst kleines n mit pn ≥ 1/2. 1.11. Das Rencontre-Problem. Anton und Brigitte vereinbaren das folgende Spiel: Von zwei fabrikneuen identischen S¨atzen Spielkarten zu je 52 Karten wird einer gr¨undlich gemischt. Beide Stapel werden verdeckt nebeneinander gelegt. Anschließend wird immer die jeweils oberste Karte des einen Stapels zusammen mit derjenigen des anderen Stapels aufgedeckt. Brigitte wettet (um einen Einsatz von €10), dass bei diesem Verfahren mindestens einmal zwei identische Karten erscheinen werden. Anton dagegen meint, dies sei doch ganz unwahr” scheinlich“ und wettet dementsprechend dagegen. Wem gestehen Sie die besseren Chancen zu? Stellen Sie ein geeignetes Modell auf und berechnen Sie die Gewinnwahrscheinlichkeit von Anton. (Verwenden Sie Aufgabe 1.6; die dabei auftretende Summe d¨urfen Sie durch die entsprechende unendliche Reihe approximieren). 1.12. Seien X, Y, X1 , X2 , . . . reelle Zufallsvariablen auf einem Ereignisraum (-, F ). Zeigen Sie: (a) (X, Y ) : - → R2 ist eine Zufallsvariable. (b) X + Y und XY sind Zufallsvariablen. ¯ (c) supn∈N Xn und lim supn→∞ Xn sind Zufallsvariablen (mit Werten in R). (d) {X = Y } ∈ F , {limn→∞ Xn existiert} ∈ F , {X = limn→∞ Xn } ∈ F . 1.13. Sei (-, F ) = (R, B ) und X : - → R irgendeine reelle Funktion. Zeigen Sie: (a) Ist X st¨uckweise monoton (d. h. R zerf¨allt in h¨ochstens abz¨ahlbar viele Intervalle, auf denen X jeweils monoton w¨achst oder f¨allt), so ist X eine Zufallsvariable.
26
1 Mathematische Beschreibung von Zufallssituationen
(b) Ist X differenzierbar mit (nicht notwendig stetiger) Ableitung X , so ist X eine Zufallsvariable. 1.14. Eigenschaften einer Verteilungsfunktion. Sei P ein Wahrscheinlichkeitsmaß auf (R, B ) und F (c) = P (]−∞, c]) f¨ur c ∈ R seine Verteilungsfunktion. Zeigen Sie: F ist monoton wachsend und rechtsstetig, und es gilt (1.29). 1.15. Betrachten Sie die beiden F¨alle (a) - = [0, ∞[, (ω) = e−ω , X(ω) = (ω/α)1/β f¨ur ω ∈ - und α, β > 0, (b) - = ]−π/2, π/2[, (ω) = 1/π , X(ω) = sin2 ω f¨ur ω ∈ -. Zeigen Sie jeweils, dass eine Wahrscheinlichkeitsdichte und X eine Zufallsvariable auf (-, B- ) ist, und berechnen Sie die Verteilungsdichte von X bez¨uglich des Wahrscheinlichkeitsmaßes P mit Dichte . (Die Verteilung von X im Fall (a) heißt die Weibull-Verteilung zu α, β, im Fall (b) die Arcussinus-Verteilung.) 1.16. Verteilungstransformation. Beweisen Sie folgende Umkehrung von Proposition (1.30): Ist X eine reelle Zufallsvariable mit stetiger Verteilungsfunktion FX = F , so ist die Zufallsvariable F (X) auf [0, 1] gleichverteilt.
2 Stochastische Standardmodelle
Nach der Beschreibung der mathematischen Struktur stochastischer Modelle im vorigen Kapitel soll jetzt diskutiert werden, wie man in konkreten Zufallssituationen ein jeweils passendes Modell findet. Dies ist eine fundamentale und oft recht diffizile Frage, welche eine Gratwanderung zwischen Realit¨atsn¨ahe und mathematischer Analysierbarkeit erfordert. Hier allerdings wollen wir uns auf einige klassische Beispiele beschr¨anken, in denen das ad¨aquate Modell auf der Hand liegt. Gleichzeitig werden dabei einige grundlegende Wahrscheinlichkeitsverteilungen und ihre typischen Anwendungen vorgestellt. Diese Verteilungen bilden die Bausteine f¨ur viele der sp¨ater untersuchten komplexeren Modelle.
2.1
Die Gleichverteilungen
Es gibt zwei verschiedene Typen von Gleichverteilung: die diskreten Gleichverteilungen auf endlichen Mengen, und die stetigen Gleichverteilungen auf Borel’schen Teilmengen des Rn .
2.1.1
Diskrete Gleichverteilungen
Wir beginnen mit dem einfachsten Fall eines Zufallsexperiments mit nur endlich vielen m¨oglichen Ausg¨angen, d. h. mit einem endlichen Ergebnisraum -. Man denke etwa an den mehrmaligen Wurf einer M¨unze oder eines W¨urfels. In diesen und vielen anderen Beispielen ist es aus Symmetriegr¨unden naheliegend anzunehmen, dass alle einzelnen Ausg¨ange ω ∈ - gleichberechtigt, also gleich wahrscheinlich sind. Wegen Satz (1.18a) bedeutet dies, dass das Wahrscheinlichkeitsmaß P durch die konstante Z¨ahldichte (ω) = 1/|-| (mit ω ∈ -) definiert werden sollte. Dies f¨uhrt auf den Ansatz P = U- , wobei (2.1)
U- (A) =
Anzahl der g¨unstigen“ F¨alle |A| ” = |-| Anzahl der m¨oglichen F¨alle
f¨ur alle A ⊂ - .
Definition: Das durch (2.1) definierte Wahrscheinlichkeitsmaß U- auf (-, P(-)) heißt die (diskrete) Gleichverteilung auf -. (Die Bezeichnung U- erinnert an uni” form distribution“.) Manchmal nennt man (-, P(-), U- ) auch einen LaplaceRaum (nach Pierre Simon Laplace, 1749–1827).
28
2 Stochastische Standardmodelle
Klassische Beispiele f¨ur die Verwendung der Gleichverteilung sind der (mehrmalige) Wurf eines W¨urfels oder einer fairen M¨unze, das Zahlenlotto, die Nummer der obersten Karte in einem gut gemischten Kartenstapel, und vieles andere. Wir werden bald (insbesondere in den Abschnitten 2.2 und 2.3) eine Reihe dieser Beispiele behandeln. Ein weniger offensichtliches Beispiel ist das folgende. (2.2) Beispiel: Die Bose-Einstein-Verteilung. Gegeben sei ein System von n nicht unterscheidbaren Teilchen, die sich in N verschiedenen (gleichartigen, aber unterscheidbaren) Zellen“ befinden k¨onnen. Man kann sich zum Beispiel die Kugeln in ” den Mulden des syrischen Kalah-Spiels vorstellen, oder – und das war die Motivation von Bose und Einstein – physikalische Teilchen, deren Orts- und Impulsraum in endliche viele Zellen zerlegt ist. Ein (Makro-) Zustand des Systems wird dadurch festgelegt, dass man die Zahl der Teilchen in jeder Zelle angibt. Somit setzt man 6 5 N ' kj = n . - = (k1 , . . . , kN ) ∈ ZN + : j =1
Dieser Ergebnisraum hat die M¨achtigkeit |-| = n+Nn −1 , denn jedes (k1 , . . . , kN ) ∈ - ist eindeutig charakterisiert durch eine Folge der Form · · •> | · · · | =• ·<; · · •> , • · · •> | •= ·<; = ·<; k1
k2
kN
bei der jeweils k1 , . . . , kN Kugeln durch insgesamt N − 1 Trennstriche separiert werden. Zur Festlegung eines Zustands kommt es also nur darauf an, n Kugeln (bzw. N −1 Trennstriche) aus n+N −1 Pl¨atzen auszuw¨ ahlen. Die Gleichverteilung U- auf - ist somit gegeben durch U- ({ω}) = 1/ n+Nn −1 , ω ∈ -. Bose und Einstein haben gezeigt, dass die Annahme der Gleichverteilung im Fall der sogenannten Bosonen (d. h. Teilchen mit ganzzahligem Spin wie etwa Photonen und Mesonen) mit den experimentellen Ergebnissen in Einklang steht. In Physik-B¨uchern wird meist von der Bose-Einstein- Statistik“ gesprochen. In dieser ” traditionellen Terminologie bedeutet Statistik so viel wie Zufallsverteilung“ und hat nichts ” zu tun mit Statistik im heutigen mathematischen Sinn.
2.1.2
Gleichverteilung im Kontinuum
Wir beginnen mit einem Motivationsbeispiel. (2.3) Beispiel: Rein zuf¨allige Wahl einer Richtung. Ein Roulette-Rad werde gedreht. In welche Himmelsrichtung zeigt die Null, wenn das Rad zur Ruhe kommt? Der Winkel mit einer festen Richtung liegt im Intervall - = [0, 2π [, das mit der Borel’schen σ -Algebra F := B- versehen wird. Welches Wahrscheinlichkeitsmaß P
29
2.1 Die Gleichverteilungen
beschreibt die Situation? Aus Symmetriegr¨unden sollten f¨ur jedes n ≥ 1 die n Intervalle [ nk 2π, k+1 n 2π [ mit 0 ≤ k < n die gleiche Wahrscheinlichkeit bekommen, d. h. es sollte gelten P
3k
k + 1 3 1 2π, 2π = = n n n
.
k+1 n 2π k n 2π
1 dx 2π
f¨ur 0 ≤ k < n und verm¨oge Addition auch P
3k
l 3 2π, 2π = n n
.
l n 2π k n 2π
1 dx 2π
f¨ur 0 ≤ k < l ≤ n. Das Wahrscheinlichkeitsmaß P , welches die Situation nat¨urlicherweise beschreibt, ist daher das (gem¨aß Satz (1.18) eindeutige) Wahrscheinlichkeitsmaß mit der konstanten Dichtefunktion 1/2π auf [0, 2π [. Definition: Sei - ⊂ Rn eine Borelmenge mit n-dimensionalem Volumen 0 < λn (-) < ∞; vgl. (1.17). Das Wahrscheinlichkeitsmaß U- auf (-, B-n ) mit konstanter Dichtefunktion (x) = 1/λn (-), das gegeben ist durch . 1 λn (A) U- (A) = dx = , A ∈ B-n , n λn (-) A λ (-) heißt die (stetige) Gleichverteilung oder gleichf¨ormige Verteilung auf -. Man beachte, dass U- je nach Kontext f¨ur eine diskrete oder eine kontinuierliche Verteilung steht. Beide F¨alle sind allerdings vollkommen analog: im diskreten Fall (2.1) werden die M¨oglichkeiten gez¨ahlt, im stetigen Fall werden sie mit dem Lebesgue-Maß gemessen. Das folgende Beispiel f¨ur die Verwendung der stetigen Gleichverteilung ist von historischem Interesse und zugleich eine kleine Kostprobe aus der sogenannten stochastischen Geometrie. (2.4) Beispiel: Das Bertrand’sche Paradoxon (1889). In einem Kreis mit Radius r > 0 werde rein zuf¨allig“ eine Sehne gezogen. Mit welcher Wahrscheinlichkeit ” ist sie l¨anger als die Seiten des einbeschriebenen gleichseitigen Dreiecks? Die Antwort h¨angt davon ab, was man unter rein zuf¨allig“ versteht, d. h. nach ” welchem Verfahren die Sehne tats¨achlich gezogen wird. 1. Variante: Die Sehne ist durch ihren Mittelpunkt eindeutig bestimmt (solange dieser nicht gerade der Kreismittelpunkt ist, was vernachl¨assigt werden kann). Man kann deshalb den Ergebnisraum -1 = {x ∈ R2 : |x| ≤ r} w¨ahlen, und es liegt nahe, die reine Zuf¨alligkeit“ der Sehne so zu interpretieren, dass die Gleichverteilung ” U-1 das geeignete Wahrscheinlichkeitsmaß ist. Das Ereignis die Sehne ist l¨anger ”
30
2 Stochastische Standardmodelle
als die Seiten des einbeschriebenen gleichseitigen Dreiecks“ wird dann beschrieben durch die Menge A1 = {x ∈ -1 : |x| ≤ r/2}, vgl. Abbildung 2.1. Folglich gilt U-1 (A1 ) =
π (r/2)2 1 = . 2 πr 4
Abbildung 2.1: Zur Geometrie des Bertrand’schen Paradoxons. Der Inkreis des einbeschriebenen gleichseitigen Dreiecks hat den halben Radius.
2. Variante: Die Sehne ist auch durch ihre beiden Endpunkte eindeutig festgelegt. Wegen der Drehsymmetrie des Problems w¨ahlen wir einen Endpunkt fest. Der Winkel zwischen dem zweiten und dem ersten Endpunkt liegt dann in -2 = [0, 2π [. Das 4π , relevante Ereignis ist A2 = 2π . Legt man auch hier wieder die Gleichverteilung 3 3 zugrunde, so folgt 1 2π/3 = . U-2 (A2 ) = 2π 3 3. Variante: Die Sehne ist ebenfalls festgelegt durch ihren Abstand vom Mittelpunkt und die Richtung des Mittelpunkts; letztere ist wegen der Drehsymmetrie der Fragestellung wieder irrelevant. Also kann man auch -3 = [0, r[ als Ergebnisraum w¨ahlen. Dann ist A3 = [0, r/2[ das betrachtete Ereignis, und man erh¨alt U-3 (A3 ) = 1/2. Zu Bertrands Zeit s¨ate dies scheinbare Paradox Zweifel an der Rechtm¨aßigkeit nichtdiskreter Wahrscheinlichkeitsr¨aume. Heute ist klar, dass die drei Varianten unterschiedliche Zufallsmechanismen beim Ziehen der Sehne beschreiben, und es ist alles andere als u¨ berraschend, dass die gesuchte Wahrscheinlichkeit von der Wahl des Mechanismus abh¨angt. Manchem mag diese Aufl¨osung des Paradoxons als billiger Ausweg erscheinen, weil er denkt, dass es doch eine eindeutige nat¨urliche“ Interpretation von rein zuf¨allig“ geben ” ” m¨usste. Dies ist in der Tat (aber nur dann!) der Fall, wenn wir das Problem etwas anders formulieren: Rein zuf¨allig“ gezeichnet werde nicht eine Sehne, sondern eine Gerade, welche ” den Kreis trifft. Eine solche rein zuf¨allige Gerade wird am nat¨urlichsten durch die dritte Variante beschrieben, denn es l¨asst sich zeigen, dass nur in diesem Fall die Wahrscheinlichkeit,
2.2 Urnenmodelle mit Zur¨ucklegen
31
dass die zuf¨allige Gerade eine Menge A trifft, invariant ist unter euklidischen Bewegungen (d. h. Drehungen und Translationen) von A.
Als Fazit dieses Beispiels halten wir fest: Die Wahl eines zutreffenden Modells ist keineswegs trivial, selbst in einem so simplen Fall wie hier, wo intuitiverweise nur Gleichverteilungen in Frage kommen. Dies ist das zentrale Problem bei allen Anwendungen.
2.2
Urnenmodelle mit Zurucklegen ¨
Die sogenannten Urnenmodelle bilden die einfachste stochastische Modellklasse mit endlichem Ergebnisraum. Sie vergleichen die wiederholte Durchf¨uhrung eines Zufallsexperiments mit dem wiederholten Ziehen von verschiedenfarbigen Kugeln aus einem Beh¨alter, f¨ur den sich das Wort Urne“ eingeb¨urgert hat. In diesem Abschnitt ” betrachten wir den Fall, dass die Kugeln nach jedem Zug in die Urne zur¨uckgelegt werden. Der Fall ohne Zur¨ucklegen folgt im n¨achsten Abschnitt.
2.2.1
Geordnete Stichproben
Wir beginnen mit zwei Beispielen. (2.5) Beispiel: Untersuchung eines Biotops. In einem Teich leben verschiedene Fischarten, und zwar sei E die Menge der vorkommenden Arten. E sei endlich und mindestens zwei-elementig. ' Die Art a ∈ E bestehe aus Na Fischen, die Gesamtzahl aller Fische ist also a∈E Na = N. Es werde n Mal ein Fisch gefangen, z. B. auf Parasiten untersucht, und wieder zur¨uckgeworfen. Wie wahrscheinlich ist eine bestimmte Abfolge der Fischarten in der Stichprobe? (2.6) Beispiel: Meinungsbild. Ein Lokalsender befragt die Passanten in einer Fußg¨angerzone zu ihrer Meinung zu einer lokalpolitischen Frage wie etwa dem Bau eines Fußballstadions. Sei E die Menge der in der Diskussion befindlichen Standpunkte (m¨ogliche Standorte, grunds¨atzliche Ablehnung,…). Es werden n Personen befragt. Wie wahrscheinlich ist eine bestimmte Abfolge von Meinungs¨außerungen? Solche Probleme, bei denen zuf¨allige Stichproben aus einer vorgegebenen Grundgesamtheit gezogen werden, formuliert man gern abstrakt als ein Urnenmodell“: In ” einer Urne befinden sich Kugeln mit verschiedenen Farben, die ansonsten gleichartig sind. Die Menge der Farben sei E, wobei 2 ≤ |E| < ∞. Es werden n Stichproben aus der Urne mit Zur¨ucklegen durchgef¨uhrt, d. h. n Mal hintereinander wird eine Kugel der Urne entnommen und wieder zur¨uckgelegt. Uns interessiert die Farbe bei jedem Zug. Der Ergebnisraum ist somit - = E n , mit der σ -Algebra F = P(-). Welches Wahrscheinlichkeitsmaß P beschreibt die Situation? Dazu gehen wir wie folgt vor. Wir nummerieren die Kugeln (in Gedanken) mit den Nummern 1, . . . , N ; dabei bilden die Kugelnummern mit der Farbe a ∈ E die Menge
32
2 Stochastische Standardmodelle
Fa ⊂ {1, . . . , N}. Insbesondere gilt |Fa | = Na . Wenn wir die Nummern beobachten k¨onnten, w¨urden wir unser Experiment beschreiben durch den Ergebnisraum - = {1, . . . , N}n (mit der σ -Algebra F = P(-)), und wegen der Gleichartigkeit der Kugeln w¨urden wir die Gleichverteilung P¯ = U- als Wahrscheinlichkeitsmaß zugrunde legen. Die k¨unstliche Vergr¨oßerung der Beobachtungstiefe durch die Nummerierung der Kugeln liefert uns also ein plausibles stochastisches Modell. Wir gehen nun zum eigentlichen Ereignisraum - = E n u¨ ber. Wie wir in Abschnitt 1.3 gesehen haben, m¨ussen wir dazu eine geeignete Zufallsvariable X : - → - konstruieren. Die Farbe beim i-ten Zug wird beschrieben durch die Zufallsvariable Xi : - → E,
ω¯ = (ω¯ 1 , . . . , ω¯ n ) → a falls ω¯ i ∈ Fa .
Die Abfolge der Farben ist dann gegeben durch die n-stufige Zufallsvariable X = (X1 , . . . , Xn ) : - → -. Welche Verteilung hat X? F¨ur jedes ω = (ω1 , . . . , ωn ) ∈ E n gilt {X = ω} = Fω1 × · · · × Fωn und daher |Fω1 | . . . |Fωn | = (ωi ) ; P¯ ◦ X −1 ({ω}) = P¯ (X = ω) = |-| i=1 n
dabei ist (a) = |Fa |/N = Na /N der Anteil der Kugeln der Farbe a. Definition: F¨ur jede Z¨ahldichte auf E heißt die Z¨ahldichte ⊗n (ω) =
n -
(ωi )
i=1
auf E n die n-fache Produktdichte von , und das zugeh¨orige Wahrscheinlichkeitsmaß P auf E n das n-fache Produktmaß zu . (Wir f¨uhren f¨ur P keine gesonderte Bezeichnung ein und verwenden stattdessen die Schreibweise ⊗n ebenfalls f¨ur P .) Im Spezialfall E = {0, 1} und (1) = p ∈ [0, 1] erh¨alt man die Produkt-Z¨ahldichte 'n 'n ⊗n (ω) = p i=1 ωi (1 − p) i=1 (1−ωi ) auf {0, 1}n , und P heißt (nach Jakob Bernoulli, 1654–1705) das Bernoulli-Maß oder die Bernoulli-Verteilung f¨ur n Alternativ-Versuche mit Erfolgswahrschein” lichkeit“ p.
33
2.2 Urnenmodelle mit Zur¨ucklegen
2.2.2
Ungeordnete Stichproben
Im Urnenmodell interessiert man sich oft nicht so sehr f¨ur die (zeitliche) Reihenfolge, in der die Farben gezogen werden, sondern nur daf¨ur, wie viele Kugeln von jeder Farbe gezogen werden. (Das ist etwa in den Beispielen (2.5) und (2.6) der Fall.) Dieser (noch) geringeren Beobachtungstiefe entspricht die Ergebnismenge 5 6 ' 1 = k = (ka )a∈E ∈ ZE : k = n , a + a∈E
1 wird beschrieben durch die Zufallsvariable ¨ und der Ubergang nach 1 (2.7) S : - → -, ω = (ω1 , . . . , ωn ) → Sa (ω) a∈E ; 'n dabei ist Sa (ω) = aufigkeit, mit welcher die Farbe a in i=1 1{a} (ωi ) die H¨ der Stichprobe ω vorkommt. Man nennt S(ω) das Histogramm der Stichprobe ω ∈ E n . Es kann graphisch veranschaulicht werden, indem man u¨ ber jedem a ∈ E = {1, . . . , |E|} ein Rechteck der Breite 1 und H¨ohe Sa (ω) auftr¨agt; die Gesamtfl¨ache aller Rechtecke ist dann gerade n. 1 erhalten wir nun F¨ur P = ⊗n und k = (ka )a∈E ∈ = P (S = k)
,
n -
ω∈-: S(ω)=k i=1
n (ωi ) = (a)ka . k a∈E
Dabei schreiben wir
( ' n n! a∈E ka ! falls a∈E ka = n , (2.8) = 0 sonst k f¨ur den Multinomialkoeffizienten, welcher dieM¨ achtigkeit der Menge {S = k} angibt; n im Fall E = {0, 1}, k = (n − k, k) stimmt k mit dem Binomialkoeffizienten nk u¨ berein. Definition: F¨ur jede Z¨ahldichte auf E heißt das Wahrscheinlichkeitsmaß Mn, auf 1 P(-)) 1 mit Z¨ahldichte (-,
n Mn, ({k}) = (a)ka k a∈E
die Multinomialverteilung f¨ur n Stichproben mit Ergebniswahrscheinlichkeiten (a), a ∈ E. 1 durch die ErgebIm Spezialfall E = {0, 1}, (1) = p ∈ [0, 1] ersetzt man 1 nismenge {0, . . . , n}, indem man jedes k ∈ {0, . . . , n} mit dem Paar (n − k, k) ∈ -
34
2 Stochastische Standardmodelle
identifiziert. Die Multinomialverteilung Mn, reduziert sich dann auf die Binomialverteilung Bn,p auf {0, . . . , n} mit Z¨ahldichte
n k Bn,p ({k}) = p (1 − p)n−k . k ¨ Obige Uberlegung beschr¨ankt sich nicht auf den Fall, dass die Z¨ahldichte auf E rationale Komponenten hat, wie es im Urnenbeispiel in Abschnitt 2.2.1 der Fall war. Als Ergebnis dieses Abschnitts bekommen wir daher den (2.9) Satz: Multinomialverteilung des Stichproben-Histogramms. Ist E eine endliche Menge mit |E| ≥ 2, eine Z¨ahldichte auf E und P = ⊗n das zugeh¨orige n-fache Produktmaß auf - = E n , so hat die durch (2.7) definierte Zufallsvariable 1 die Verteilung P ◦ S −1 = Mn, . Im Fall E = {0, 1}, (1) = p bedeutet S:-→dies: F¨ur gegebenes 0 ≤ p ≤ 1 hat die Zufallsvariable S : {0, 1}n → {0, . . . , n},
ω→
n ' i=1
ωi ( Anzahl der Erfolge“) ”
bez¨uglich der Bernoulli-Verteilung zu p die Binomial-Verteilung Bn,p . (2.10) Beispiel: Kindergeburtstag. Zu einer Geburtstagsparty treffen sich 12 Kinder, von denen 3 aus A-Dorf, 4 aus B-Dorf und 5 aus C-Dorf stammen. Es wird viermal hintereinander ein Gl¨ucksspiel gespielt. Die Wahrscheinlichkeit, dass dabei je ein Kind aus A-Dorf und B-Dorf gewinnt und zwei Kinder aus C-Dorf, betr¨agt dann M4; 3 , 4 , 5 ({(1, 1, 2)}) = 12 12 12
4! 3 4 1!2 2! 12 12
5 12
2 =
25 ≈ 0.173 . 144
(2.11) Beispiel: Die Maxwell-Boltzmann-Verteilung. Wir betrachten wieder die Situation von Beispiel (2.2): n nicht unterscheidbare Teilchen werden auf N Zellen verteilt. Die Zellen geh¨oren zu endlich vielen verschiedenen Energieniveaus aus einer Menge E, und zwar gebe es Na Zellen vom Niveau a, a ∈ E. Es ist also ' N = a∈E Na . Wenn wir annehmen, dass die Ununterscheidbarkeit der Teilchen nur an unseren mangelhaften experimentellen M¨oglichkeiten liegt, die Teilchen aber in Wirklichkeit“ mit 1, . . . , n durchnummeriert werden k¨onnen, entspricht der Platz ” jedes Teilchens einer Stichprobe mit Zur¨ucklegen aus einer Urne mit N Platzkar” ten“, von denen Na auf einen Platz mit Energieniveau a verweisen. Die Gleichartigkeit der Teilchen und Zellen rechtfertigt die Gleichverteilungsannahme f¨ur die Mikrozust¨ande“ in - = {1, . . . , N}n . Wir k¨onnen aber de facto nur den jeweili” 1 beobachten, der f¨ur jedes a ∈ E die Anzahl der Teilchen gen Makrozustand in vom Niveau a angibt. Dieser Makrozustand ist gem¨aß Satz (2.9) Mn, -verteilt zu (a) = Na /N . Dies ist eine klassische Modellannahme der Statistischen Physik, die
35
2.3 Urnenmodelle ohne Zur¨ucklegen
auf Maxwell und Boltzmann zur¨uckgeht, aber nicht anwendbar ist, wenn Quanteneffekte ber¨ucksichtigt werden m¨ussen, siehe Beispiele (2.2) und (2.15). Das letzte Beispiel zeigt insbesondere, dass die Vorstellung vom Ziehen mit Zur¨ucklegen aus einer Urne mit gleichartigen Kugeln von verschiedenen Farben a¨ quivalent ist zur Vorstellung vom Verteilen von Objekten auf gleichberechtigte Pl¨atze mit gewissen Merkmalen, wobei Mehrfachbesetzungen erlaubt sind.
2.3
Urnenmodelle ohne Zurucklegen ¨
2.3.1
Nummerierte Kugeln
In einer Urne seien N nummerierte, ansonsten gleichartige Kugeln. Wir ziehen wieder n Mal, legen jetzt aber die gezogenen Kugeln nicht wieder zur¨uck. Wenn wir die Reihenfolge beachten, ist -= = ω¯ ∈ {1, . . . , N}n : ω¯ i = ω¯ j f¨ur i = j der geeignete Ergebnisraum. Wegen der Gleichartigkeit der Kugeln ist es dann nat¨urlich, auf -= die Gleichverteilung P¯= = U-= anzusetzen. Meist ist die Reihenfolge der Z¨uge aber irrelevant, und man beobachtet nur, welche Nummern gezogen wurden; man denke etwa an das Zahlenlotto. In dem Fall ist 2 = ω˜ ⊂ {1, . . . , N} : |ω| ˜ =n . 2 mit der Gleichverteilung die Menge der m¨oglichen Ergebnisse. Sollte man auch 2 ¨ versehen? Der Ubergang von -= nach - wird vermittelt durch die Zufallsvariable 2 Y : -= → -,
Y (ω¯ 1 , . . . , ω¯ n ) = {ω¯ 1 , . . . , ω¯ n } ,
welche ein n-Tupel in die zugeh¨orige (ungeordnete) Menge verwandelt. Tats¨achlich 2 denn f¨ur ω ∈ 2 gilt ist P¯= ◦ Y −1 die Gleichverteilung auf -, n(n − 1) . . . 1 |{Y = ω}| 1 1 P¯= (Y = ω) = = . = N = 2 N(N − 1) . . . (N − n + 1) |-| |-= | n Wir sehen also: Beim Ziehen ohne Zur¨ucklegen ohne Beachtung der Reihenfolge ist es egal, ob man sich die Kugeln nacheinander oder mit einem Griff gezogen denkt.
2.3.2
Gef¨arbte Kugeln
Jetzt nehmen wir wieder an, dass die Kugeln mit den Farben aus einer Menge E gef¨arbt sind, und registrieren nur noch die Kugelfarben, nicht die Nummern. Außerdem ignorieren wir die Reihenfolge. Dies f¨uhrt uns wie in Abschnitt 2.2.2 zum
36 Ergebnisraum
2 Stochastische Standardmodelle
5 6 ' 1 = k = (ka )a∈E ∈ ZE : k = n . a + a∈E
1 gr¨oßer als n¨otig, aber das (Wegen des Weglassens der Bedingung ka ≤ Na ist macht nichts. Gewisse Ergebnisse bekommen dann eben die Wahrscheinlichkeit 0.) 1 beschreibt die Situation? Welches Wahrscheinlichkeitsmaß auf Wie im letzten Abschnitt 2.3.1 gesehen, k¨onnen wir uns die Kugeln auf einmal 2 nach 1 geschieht durch die Zufallsvariable ¨ gezogen denken. Der Ubergang von 2 → -, 1 T :-
T (ω) ˜ := ( |ω˜ ∩ Fa | )a∈E
wobei Fa ⊂ {1, . . . , N} wieder die Menge der Kugelnummern der Farbe a bezeich1 die Menge {T = k} gleichm¨achtig mit der Menge net. Nun ist aber f¨ur jedes k ∈ {ω˜ a ⊂ Fa : |ω˜ a | = ka } , a∈E
denn die Abbildung ω˜ → (3ω˜ ∩ Fa )a∈E4 ist eine Bijektion zwischen beiden Mengen. Na N ( Folglich gilt P (T = k) = a∈E ka n . Definition: Sei E eine'endliche Menge (mit mindestens zwei Elementen), N = (Na )a∈E ∈ ZE +, N = a∈E Na , und n ≥ 1. Dann heißt das Wahrscheinlichkeits1 1 maß Hn,N auf (-, P(-)) mit der Z¨ahldichte ( = Hn,N ({k})
Na a∈E ka N n
,
1 k ∈ -,
die (allgemeine) hypergeometrische Verteilung zu n und N. 1 durch Im Spezialfall E = {0, 1} ersetzt man wieder (wie in Abschnitt 2.2.2) {0, . . . , n}, und die (klassische) hypergeometrische Verteilung hat dann die Gestalt N1 N0 n−k Hn;N1 ,N0 ({k}) = kN +N , 1 0
k ∈ {0, . . . , n} .
n
Zusammenfassend halten wir fest: Befinden sich in einer Urne Na Kugeln der Farbe a ∈ E, und werden daraus n Kugeln rein zuf¨allig entnommen (sukzessiv ohne Zur¨ucklegen oder mit einem Griff), so hat das Histogramm der gezogenen Kugelfarben die hypergeometrische Verteilung Hn,N . (2.12) Beispiel: Zahlenlotto. Beim Lotto betr¨agt die Wahrscheinlichkeit 49“ 6”643aus 49 f¨ur genau vier Richtige H6;6,43 ({4}) = 4 2 / 6 ≈ 9.686 × 10−4 .
37
2.3 Urnenmodelle ohne Zur¨ucklegen
(2.13) Beispiel: Gruppenvertretung. In einem 12-k¨opfigen Gremium sitzen 3 Vertreter/innen der Gruppierung A, 4 der Gruppierung B, und 5 der Gruppierung C. Durch ein Losverfahren wird ein 4-k¨opfiger Sonderausschuss gebildet. Die Wahrscheinlichkeit, dass dieser Ausschuss je ein Mitglied der Gruppen A und B und zwei der Gruppe C enth¨alt, betr¨agt dann 345 8 1 2 ≈ 0.242 . H4,(3,4,5) {(1, 1, 2)} = 1 12 = 33 4
Diese Wahrscheinlichkeit ist (nat¨urlich) verschieden von der Wahrscheinlichkeit im Fall von Beispiel (2.10), wo wir die gleiche Stichprobe aus einer gleichen Urne, aber mit Zur¨ucklegen, betrachtet haben. F¨ur eine große Anzahl N von Kugeln sollte es allerdings unerheblich sein, ob man die gezogenen Kugeln zur¨ucklegt oder nicht. Diese Vermutung wird best¨atigt durch folgenden (2.14) Satz: Multinomialapproximation der hypergeometrischen Verteilung. Sei n ≥ 1, E endlich mit |E| ≥ 2, und eine Z¨ahldichte auf E. Im Limes N → ∞, Na → ∞, Na /N → (a) f¨ur a ∈ E strebt dann Hn,N (punktweise) gegen Mn, . 1 fest. Im Limes Na → ∞ gilt dann Beweis: Sei k ∈
Na ka
=
Naka Na (Na − 1) . . . (Na − ka + 1) ka ! Naka
=
1 2 ka − 1 Naka 1 1− 1− ... 1 − ka ! Na Na Na
∼
Na →∞
Naka . ka !
Hier verwenden wir die Schreibweise a(+) ∼ b(+) f¨ur + → ∞“ f¨ur asymptotische ” ¨ Aquivalenz, d. h. f¨ur die Aussage a(+)/b(+) → 1 im Limes + → ∞“. Somit gilt ” - Na N - Naka N n = ∼ Hn,N ({k}) ka k ! n! n a∈E a∈E a
- ka Na n , → Mn, ({k}) = N k a∈E
wie behauptet. 3 (2.15) Beispiel: Die Fermi-Dirac-Verteilung. Wir betrachten ein drittes Mal die Teilchensituation von Beispiel (2.2) und (2.11): n ununterscheidbare Teilchen werden auf N Zellen verteilt, die zu verschiedenen Energieniveaus geh¨oren. Und zwar gebe es Na Zellen vom Niveau a ∈ E. Wir fordern jetzt das Pauli-Verbot“: In jeder ” Zelle darf h¨ochstens ein Teilchen sitzen, also ist insbesondere N ≥ n. Dies ist sinnvoll f¨ur die sogenannten Fermionen (Teilchen mit halbzahligem Spin), zu denen die
38
2 Stochastische Standardmodelle
Elektronen, Protonen und Neutronen geh¨oren. Die Zellenzuordnung aller Teilchen entspricht dann einem Griff ohne Zur¨ucklegen in eine Urne mit N Platzkarten, von ¨ zeigen denen Na auf das Niveau a verweisen. Die vorangehenden Uberlegungen also: Der Makrozustand des Systems, der f¨ur jedes a die Anzahl der Teilchen vom Energieniveau a angibt, ist Hn,N -verteilt mit N = (Na )a∈E . Und Satz (2.14) zeigt, dass das Pauli-Verbot im Limes großer Teilchenzahl und Zellenzahl, aber fester Zahl von Energieniveaus irrelevant wird. Am letzten Beispiel sehen wir insbesondere: Stichproben ohne Zur¨ucklegen von verschiedenfarbigen, aber ansonsten gleichen Kugeln entsprechen dem Verteilen von Objekten auf verschieden markierte, aber ansonsten gleichberechtigte Pl¨atze mit verbotener Mehrfachbesetzung. Diese Entsprechung wird in Abbildung 2.2 veranschaulicht. A B C
¨ Abbildung 2.2: Aquivalenz des Ziehens ohne Zur¨ucklegen mit dem Verteilen von Objekten ohne Mehrfachbesetzung. Die Situation entspricht der Urne aus Beispiel (2.13). Die besetzten Pl¨atze sind schwarz markiert (wegen der Ununterscheidbarkeit der Pl¨atze einer Zeile jeweils am Zeilenanfang).
2.4
Die Poisson-Verteilungen
Wir beginnen wieder mit einer konkreten Situation. (2.16) Beispiel: Versicherungen. Wie viele Schadensmeldungen erh¨alt z. B. eine KfzHaftpflichtversicherung in einem festen Zeitintervall ]0, t], t > 0? Der Ergebnisraum ist offenbar - = Z+ . Aber welches P ist vern¨unftig? Dazu machen wir folgende ¨ heuristische Uberlegung: Wir zerlegen das Intervall ]0, t] in n Teilintervalle der L¨ange t/n. Wenn n groß ist (und also die Teilintervalle kurz sind), ist anzunehmen, dass in jedem Teilintervall h¨ochstens ein Schaden eintritt. Die Wahrscheinlichkeit f¨ur solch einen Schadensfall sollte proportional zur L¨ange des Zeitintervalls sein; wir machen f¨ur sie daher den Ansatz αt/n mit einer Proportionalit¨atskonstanten α > 0. Außerdem ist es plausibel, dass das Auftreten eines Schadens in einem Teilintervall nicht davon abh¨angt, ob in einem anderen Teilintervall ein Schaden auftritt oder nicht. Man kann deshalb so tun, als ob die Schadensf¨alle in den n Teilintervallen durch n Stichproben mit Zur¨ucklegen aus einer Urne mit einem Anteil αt/n von Schadenskugeln“ ermittelt w¨urden. ”
39
2.4 Die Poisson-Verteilungen
Mit Satz (2.9) ergibt sich: Die Wahrscheinlichkeit f¨ur k Schadensf¨alle im Intervall ]0, t] ist bei großem n ungef¨ahr gleich Bn,αt/n ({k}). Das liefert den Ansatz P ({k}) := lim Bn,αt/n ({k}) , n→∞
k ∈ Z+ ,
f¨ur das gesuchte Wahrscheinlichkeitsmaß P . Dieser Limes existiert tats¨achlich: (2.17) Satz: Poisson-Approximation der Binomialverteilung. Sei λ > 0 und (pn )n≥1 eine Folge in [0, 1] mit npn → λ. Dann existiert f¨ur jedes k ≥ 0 lim Bn,pn ({k}) = e−λ
n→∞
λk . k!
Beweis: Genau wie im Beweis von Satz (2.14) erh¨alt man im Limes n → ∞ f¨ur jedes k ∈ Z+
nk k λk n pn (1 − pn )n−k ∼ (1 − pn )n pnk (1 − pn )n−k ∼ k! k! k =
npn n λk λk −λ (1 − ) → e . k! n k!
Die letzte Konvergenz folgt aus der bekannten Approximationsformel f¨ur die Exponentialfunktion. 3 In Satz (5.31) werden wir eine Absch¨atzung f¨ur die G¨ute der PoissonApproximation bekommen. Die Reihenentwicklung der Exponentialfunktion zeigt, dass der Limes in Satz (2.17) tats¨achlich eine Z¨ahldichte auf Z+ definiert. Das zugeh¨orige Wahrscheinlichkeitsmaß ist eine der fundamentalen Verteilungen der Stochastik. Definition: F¨ur λ > 0 heißt das Wahrscheinlichkeitsmaß Pλ auf (Z+ , P(Z+ )) mit Pλ ({k}) = e−λ λk /k! (nach Siméon-Denis Poisson, 1781–1840) die PoissonVerteilung zum Parameter λ. Als Ergebnis halten wir fest: Die Poisson-Verteilung Pλ auf Z+ ist ein nat¨urliches Modell f¨ur die Anzahl von rein zuf¨alligen Zeitpunkten in einem Zeitintervall. Typische Anwendungssituationen (außer den Versicherungsf¨allen) sind die Anzahl der in einer Telefonzentrale eingehenden Anrufe bzw. der u¨ ber einen Mail-Server geleiteten e-mails, die Anzahl der Atomzerfalls-Zeitpunkte einer radioaktiven Substanz oder der an einem Schalter ankommenden Kunden, die Anzahl der Fahrzeuge auf einem Straßenabschnitt, und so weiter. Wir werden uns in Abschnitt 3.5 mit dieser Situation noch detaillierter besch¨aftigen.
40
2 Stochastische Standardmodelle
2.5 Wartezeit-Verteilungen 2.5.1
Die negativen Binomial-Verteilungen
Wir betrachten ein Bernoulli-Experiment wie in Abschnitt 2.2.1: Eine Urne enthalte eine Anzahl weißer und schwarzer Kugeln, und zwar einen Bruchteil 0 < p < 1 von weißen Kugeln. Es wird wiederholt mit Zur¨ucklegen gezogen. Sei r ∈ N. Wir suchen ein Modell f¨ur die Wartezeit bis zum r-ten Erfolg, d. h. bis zum Ziehen der r-ten weißen Kugel. Da mindestens r Ziehungen notwendig sind, betrachten wir die restliche Wartezeit nach r Z¨ugen, oder a¨ quivalent: die Anzahl der Misserfolge vor dem r-ten Erfolg. Der Ergebnisraum ist dann - = Z+ . Welches P beschreibt die Situation? Auf dem unendlichen Raum {0, 1}N k¨onnten wir die Zufallsvariable 5 ' 6 k ωi = r − r Tr (ω) = min k : i=1
definieren und P als Verteilung von Tr erhalten. Die Existenz eines unendlichen Bernoulli-Maßes werden wir jedoch erst in Beispiel (3.29) zeigen. Deshalb gehen wir hier etwas heuristischer vor: F¨ur jedes k soll P ({k}) die Wahrscheinlichkeit f¨ur den r-ten Erfolg bei der (r + k)-ten Ziehung darstellen, also die Wahrscheinlichkeit f¨ur einen Erfolg zur Zeit k + r und genau r − 1 Erfolge vorher. Da es f¨ur die M¨ o glichkeiten gibt, liefert Zeitpunkte dieser fr¨uheren r − 1 Erfolge genau r+k−1 r−1 k+r das Bernoulli-Maß auf {0, 1} hierf¨ur die Wahrscheinlichkeit
r +k−1 r −r P ({k}) := p (1 − p)k = p r (p − 1)k . r −1 k Dabei ist
(2.18)
−r k
=
(−r)(−r − 1) . . . (−r − k + 1) k!
der allgemeine Binomial-Koeffizient, und die letzte Gleichung folgt aus der Identit¨at
r +k−1 k! = (r + k − 1) . . . (r + 1)r k = (−1)k (−r)(−r − 1) . . . (−r − k + 1) . Der gefundene Ausdruck f¨ur P liefert uns ein wohldefiniertes Wahrscheinlichkeitsmaß auf Z+ , das sogar f¨ur reelle Parameter r > 0 definiert werden kann. Denn f¨ur k r > 0 und k ∈ Z+ ist −r k (−1) ≥ 0, und nach dem allgemeinen binomischen Satz −r r ' gilt k≥0 k p (p − 1)k = pr (1 + p − 1)−r = 1.
41
2.5 Wartezeit-Verteilungen
Definition: F¨ur r > 0 und 0 < p < 1 heißt das Wahrscheinlichkeitsmaß B r,p auf (Z+ , P(Z+ )) mit Z¨ahldichte
−r B r,p ({k}) = p r (p − 1)k , k
k ∈ Z+ ,
die negative Binomialverteilung oder (nach Blaise Pascal, 1623–1662) die PascalVerteilung zu r, p. Insbesondere heißt Gp ({k}) = B 1,p ({k}) = p(1 − p)k die geometrische Verteilung zu p. Wir haben also gesehen: B r,p ist die Verteilung der (r u¨ bersteigenden) Wartezeit auf den r-ten Erfolg bei einem Bernoulli-Experiment zum Parameter p. Insbesondere ist die Wartezeit auf den ersten Erfolg geometrisch verteilt. (Man beachte: Manchmal wird statt Gp auch die um 1 verschobene Verteilung auf N = {1, 2, . . . } als geometrische Verteilung bezeichnet.)
2.5.2
Die Gamma-Verteilungen
Wir gehen jetzt u¨ ber zu kontinuierlicher Zeit. Wie in Abschnitt 2.4 betrachten wir rein zuf¨allige Zeitpunkte auf dem Zeitintervall ]0, ∞[; wir k¨onnen wieder an die Zeitpunkte von Schadensmeldungen bei einer Kfz-Versicherung denken. Die Heuristik in Beispiel (2.16) f¨uhrte uns zu der Annahme, dass f¨ur jedes t > 0 die Anzahl der Punkte in ]0, t] Poisson-verteilt ist zum Parameter αt. Dabei ist α > 0 eine feste Proportionalit¨atskonstante, welche als mittlere Anzahl der Punkte pro Zeit interpretiert werden kann. Wir suchen jetzt ein Modell f¨ur den r-ten Zufallszeitpunkt, in Beispiel (2.16) also den Zeitpunkt der r-ten Schadensmeldung. Offenbar ist (-, F ) = (]0, ∞[, B[0,∞[ ) ein geeigneter Ereignisraum. Welches Wahrscheinlichkeitsmaß P beschreibt die Verteilung des r-ten Zufallszeitpunkts? F¨ur dies P ist P (]0, t]) die Wahrscheinlichkeit, dass der r-te Schadensfall bis zur Zeit t eintritt, also die Wahrscheinlichkeit f¨ur mindestens r Schadensf¨alle in ]0, t]. Zusammen mit der Poisson-Annahme u¨ ber die Anzahl der Schadensf¨alle erhalten wir hieraus den Ansatz
(2.19)
P (]0, t]) = 1 − Pαt ({0, . . . , r − 1}) . t r−1 , (αt)k αr = 1 − e−αt = x r−1 e−αx dx ; k! (r − 1)! 0 k=0
die letzte Gleichung ergibt sich durch Differentiation nach t. Bemerkung (1.31) sagt uns deshalb: Das gesuchte P ist gerade das Wahrscheinlichkeitsmaß auf ]0, ∞[ mit der Dichtefunktion γα,r (x) = α r x r−1 e−αx /(r − 1)! .
42
2 Stochastische Standardmodelle
Dass γα,r wirklich eine Wahrscheinlichkeitsdichte ist, sieht man mit Hilfe der Euler’schen Gammafunktion . ∞ (r) = y r−1 e−y dy , r > 0 . 0
Offenbar ist (1) = 1, und durch partielle Integration erh¨alt man die bekannte Rekursionsformel (r + 1) = r (r). Insbesondere ist (r) = (r − 1)! und also (verm¨oge )∞ der Substitution αx = y) auch 0 γα,r (x) dx = 1. Eine analoge Wahrscheinlichkeitsdichte erh¨alt man auch f¨ur beliebiges reelles r > 0. Definition: F¨ur jedes α, r > 0 heißt das Wahrscheinlichkeitsmaß Γα,r auf (]0, ∞[, B]0,∞[ ) mit der Dichtefunktion (2.20)
γα,r (x) =
αr x r−1 e−αx , (r)
x ≥ 0,
die Gamma-Verteilung mit Skalenparameter α und Formparameter r. Insbesondere heißt das Wahrscheinlichkeitsmaß Eα = Γα,1 mit der Dichtefunktion γα,1 (x) = αe−αx die Exponential-Verteilung zu α. Wir sehen also: F¨ur r ∈ N beschreibt Γα,r die Verteilung des r-ten Zeitpunkts im Poisson-Modell f¨ur rein zuf¨allige Zeitpunkte. Insbesondere ist der erste Zeitpunkt exponentialverteilt zum Parameter α. Hierauf werden wir in Abschnitt 3.5 noch zur¨uckkommen.
2.5.3
Die Beta-Verteilungen
Wir wollen das Problem der rein zuf¨alligen Zeitpunkte und der Wartezeit auf den r-ten Zeitpunkt jetzt noch etwas anders angehen: Wir nehmen an, dieAnzahl der Zeitpunkte in einem vorgegebenen Intervall sei nicht zuf¨allig, sondern fest vorgegeben. Man denke etwa an einen Supermarkt, der an einem festen Tag durch n Großh¨andler beliefert wird. Zu welchem Zeitpunkt trifft die r-te Lieferung ein? Wir w¨ahlen die Zeiteinheit so, dass die n Lieferungen im offenen Einheitsintervall ]0, 1[ ankommen sollen. Wenn wir die Großh¨andler mit den Nummern 1, . . . , n versehen, erhalten wir den Ergebnisraum - = ]0, 1[n , den wir wie u¨ blich mit der Borel’schen σ -Algebra B-n versehen. F¨ur jedes 1 ≤ i ≤ n und ω = (ω1 , . . . , ωn ) ∈ - ist dann Ti (ω) := ωi der Zeitpunkt, zu dem Großh¨andler Nr. i den Supermarkt erreicht. Wir wollen annehmen, dass keinerlei Vorinformationen u¨ ber die genauen Lieferzeitpunkte vorliegen, und legen daher die Gleichverteilung P = U- als Wahrscheinlichkeitsmaß zugrunde. Wie lange dauert es typischerweise, bis der Supermarkt r verschiedene Lieferungen erhalten hat? Um diese Frage zu beantworten, m¨ussen wir zuerst die Ankunftszeiten der Großh¨andler der Reihe nach ordnen. Das ist m¨oglich, weil mit
43
2.5 Wartezeit-Verteilungen
Wahrscheinlichkeit 1 keine zwei Lieferungen zur gleichen Zeit ankommen. Genauer gilt * {Ti = Tj } = 0 , P i =j
denn das fragliche Ereignis ist eine endliche Vereinigung von Hyperebenen in - und hat daher das n-dimensionale Volumen 0. Die folgende Begriffsbildung ist daher mit Wahrscheinlichkeit 1 wohldefiniert. Definition: Die Ordnungsstatistiken T1:n , . . . , Tn:n der Zufallsvariablen T1 , . . . , Tn sind definiert durch die Eigenschaften T1:n < T2:n < · · · < Tn:n ,
{T1:n , . . . , Tn:n } = {T1 , . . . , Tn } .
Mit anderen Worten: Tr:n ist der r-kleinste unter den Zeitpunkten T1 , . . . , Tn . Wir bestimmen nun die Verteilung von Tr:n f¨ur festes r, n ∈ N. F¨ur alle 0 < c ≤ 1 gilt wegen der Vertauschbarkeit der Integrationsreihenfolge (Satz von Fubini, vgl. etwa [20, 35]) . 1 . 1 P (Tr:n ≤ c) = n! dt1 . . . dtn 1{t1
Dabei ist
.
.
s
a(r − 1, s) = 0
0
.
und
s
dt1 . . .
.
1
a(n − r, 1 − s) =
dtr−1 1{t1
dtr+1 . . . s
s
1
dtn 1{s
s r−1 (r − 1)!
(1 − s)n−r . (n − r)!
Insgesamt ergibt sich also P (Tr:n ≤ c) =
n! (r − 1)! (n − r)!
.
c
ds s r−1 (1 − s)n−r ,
0
und speziell f¨ur c = 1 folgt (r − 1)! (n − r)!/n! = B(r, n − r + 1). Dabei bezeichnet f¨ur a, b > 0 . 1 (2.21) B(a, b) = s a−1 (1 − s)b−1 ds 0
die Euler’sche Beta-Funktion. Gem¨aß Bemerkung (1.31) hat Tr:n also die Verteilungsdichte βr,n−r+1 (s) = B(r, n − r + 1)−1 s r−1 (1 − s)n−r auf ]0, 1[. Dichtefunktionen dieser Gestalt sind auch f¨ur nicht ganzzahlige r und n von Interesse:
44
2 Stochastische Standardmodelle
Definition: F¨ur a, b > 0 heißt das Wahrscheinlichkeitsmaß β a,b auf ]0, 1[ mit der Dichtefunktion (2.22)
βa,b (s) = B(a, b)−1 s a−1 (1 − s)b−1 ,
0 < s < 1,
die Beta-Verteilung zu a, b. Zusammenfassend halten wir fest: F¨ur r, n ∈ N beschreibt β r,n−r+1 die Verteilung des r-kleinsten unter n rein zuf¨alligen Zeitpunkten im Einheitsintervall. Insbesondere ist β1,n (s) = n(1 − s)n−1 die Verteilungsdichte des ersten Zeitpunkts, und es gilt β 1,1 = U]0,1[ . 5 4 3 2 1
0.2
0.4
0.6
0.8
1
Abbildung 2.3: βa,b f¨ur (a, b) = (1/2, 1/2), (3/2, 1/2), (2, 4), (20, 5).
Abbildung 2.3 zeigt die Dichtefunktionen der Beta-Verteilungen f¨ur verschiedene Parameterwerte. Man u¨ berlege sich, welche Parameterwerte zu welchem Graphen geh¨oren! Die Verteilung β 1/2,1/2 heißt die Arcussinus-Verteilung, vgl. Aufgabe 1.15. Wir erw¨ahnen hier noch eine charakteristische Eigenschaft der Beta-Funktion, die wir sp¨ater ben¨otigen werden. F¨ur a, b > 0 k¨onnen wir schreiben . 1 as a−1 (1 − s)b ds a B(a, b) − B(a + 1, b) = 0
. =
1
s a b(1 − s)b−1 ds = b B(a + 1, b) ;
0
die zweite Gleichung ergibt sich mit partieller Integration. Folglich gilt die Rekursionsgleichung (2.23)
B(a + 1, b) =
a B(a, b) . a+b
Hieraus l¨asst sich erahnen, dass die Beta-Funktion eng mit der Gamma-Funktion zusammenh¨angt, was in der Tat der Fall ist – siehe (9.8) sp¨ater. Außerdem bekommt
45
2.6 Die Normalverteilungen
man nochmals den oben hergeleiteten expliziten Ausdruck f¨ur die Beta-Funktion mit ganzzahligen Parametern.
2.6
Die Normalverteilungen
Unser Ausgangspunkt ist die Frage: Wie k¨onnte eine Gleichverteilung auf einer unendlich-dimensionalen Kugel mit unendlichem Radius aussehen? Sei dazu v > 0 und -N = {x ∈ RN : |x|2 ≤ vN} √ die N -dimensionale Kugel mit Mittelpunkt 0 und Radius vN. Es sei ferner PN = U-N die (stetige) Gleichverteilung auf (-N , B-NN ) und X1 : -N → R, x → x1 , die Projektion auf die erste Koordinate. Wir untersuchen die asymptotische Verteilung von X1 unter PN im Limes N → ∞. (2.24) Satz: Normalverteilung als Projektion einer unendlich-dimensionalen ” Gleichverteilung“, H. Poincaré 1912, E. Borel 1914. F¨ur alle a < b gilt . b 1 2 e−x /2v dx . lim PN (a ≤ X1 ≤ b) = √ N→∞ 2π v a In der Statistischen Mechanik liefert eine Versch¨arfung dieses Satzes die Begr¨undung f¨ur die Maxwell’sche Geschwindigkeitsverteilung“ der Teilchen eines ” idealen Gases. Wenn x ∈ RN der Vektor der Geschwindigkeiten aller Teilchen ist, ist n¨amlich |x|2 proportional zur kinetischen Energie und X1 (x) = x1 gerade die erste Geschwindigkeitskoordinate des ersten Teilchens. (Statt die kinetische Energie pro Teilchen nach oben durch v zu beschr¨anken, kann man sie auch konstant halten, also die Gleichverteilung auf der Kugeloberfl¨ache betrachten, und erh¨alt dasselbe Ergebnis.) Beweis des Satzes: Sei N so groß, dass Nv > max(a 2 , b2 ). Dann gilt gem¨aß der Definition (1.17) von λN und den Rechenregeln f¨ur mehrdimensionale Integrale (Satz von Fubini, vgl. [20, 35]) . . N −1 PN (a ≤ X1 ≤ b) = λ (-N ) ... 1 N dx1 . . . dxN ' a ≤ x1 ≤ b,
−1
.
= λ (-N ) N
i=1
b
a
= λN (-N )−1
.
a
b
xi2 ≤ vN
8 λN −1 BN −1 vN − x12 dx1
vN − x12
(N −1)/2
cN −1 dx1 .
Dabei bezeichnet BN−1 (r) die (N − 1)-dimensionale Kugel mit Radius r und cN−1 = λN−1 (BN−1 (1)) das Volumen der (N −1)-dimensionalen Einheitskugel; die
46
2 Stochastische Standardmodelle
zweite Gleichung entsteht durch Integration u¨ ber die Variablen x2 , . . . , xN . Genauso erh¨alt man . √vN (N −1)/2 N λ (-N ) = √ vN − x12 cN −1 dx1 . − vN
Durch K¨urzen der Konstanten cN−1 (vN )(N −1)/2 ergibt sich daher . PN (a ≤ X1 ≤ b) =
.
b
fN (x) dx a
√
vN
√ − vN
fN (x) dx
mit fN (x) = (1 − x 2 /vN)(N−1)/2 . Nun konvergiert aber fN (x) im Limes N → ∞ 2 lokal gleichm¨aßig in x gegen e−x /2v , und es gilt die Absch¨atzung 2 (N −1)/2 2 ≤ e−x /4v fN (x) ≤ e−x /vN
f¨ur N ≥ 2.
Also bekommen wir mit einem Konvergenzsatz der Lebesgue’schen Integrationstheorie ( dominierte oder majorisierte Konvergenz“, siehe etwa [20, 35]) oder, wegen ” der lokalen Gleichm¨aßigkeit der Konvergenz, auch der Riemann’schen Integrationstheorie . b . ∞ 2 −x 2 /2v e dx e−x /2v dx . PN (a ≤ X1 ≤ b) −→ N→∞
−∞
a
Der Satz ergibt sich daher aus dem folgenden √ )∞ 2 (2.25) Lemma: Gauß-Integral. Es gilt −∞ e−x /2v dx = 2π v. Beweis: Wir fassen das Quadrat des Integrals als zweidimensionales Integral auf und f¨uhren dann Polarkoordinaten ein: . ∞ 2 . ∞ . ∞ 2 2 −x 2 /2v e dx = dx dy e−(x +y )/2v −∞
−∞ 2π
−∞ ∞
. =
. dϕ
0
0
dr re−r
2 /2v
= −2π v e−r
2 /2v
∞ = 2π v . 3 r=0
Satz (2.24) besagt, dass sich bei der Projektion einer großen hochdimensionalen Kugel auf eine feste Koordinate als asymptotische Verteilungsdichte eine Funktion √ 2 der Form e−x /2v / 2π v ergibt. Diese Dichtefunktionen spielen in der Stochastik eine fundamentale Rolle. Grund daf¨ur ist ein anderer Grenzwertsatz, bei dem sie ebenfalls als asymptotische Verteilungsdichten auftauchen, n¨amlich der in den Abschnitten 5.2 und 5.3 diskutierte zentrale Grenzwertsatz. Wie wir sehen werden, ergibt sich hieraus insbesondere die maßgebliche Rolle dieser Verteilungen in der Statistik.
Aufgaben
47
Definition: Sei m ∈ R und v > 0. Das Wahrscheinlichkeitsmaß Nm,v auf (R, B ) mit der Dichtefunktion 1 2 e−(x−m) /2v , x ∈ R, φm,v (x) = √ 2πv heißt die Normalverteilung oder Gauß-Verteilung mit Erwartungswert m und Varianz v. (Die Rechtfertigung f¨ur die Benennung der Parameter m und v erfolgt in Kapitel 4.) N0,1 heißt die Standard-Normalverteilung, und φm,v heißt auch die Gauß’sche Glockenkurve. Sie war bis zum 31.12.2001 auf dem 10 DM-Schein abgebildet, siehe Abbildung 2.4.
Abbildung 2.4: Portr¨at von Carl Friedrich Gauß (1777–1855) und die Glockenkurve auf der 10 DM-Banknote.
Aufgaben 2.1. Auf einer Tombola soll ein Gl¨uckslos gezogen werden. Die “Gl¨ucksfee” soll ein “Sonntagskind” sein. Wieviele Damen m¨ussen mindestens anwesend sein, damit mit 99%iger Sicherheit eine an einem Sonntag geboren ist? Stellen Sie ein geeignetes Modell auf! 2.2. Gegeben sei ein System von n ununterscheidbaren Teilchen, die sich in N verschiedenen Zellen“ befinden k¨onnen, von denen Na zum Energieniveau a ∈ E geh¨oren, E eine endliche ” Menge. Bestimmen Sie unter der Annahme der Bose-Einstein-Verteilung die Wahrscheinlichkeit, mit der sich ein festes Energiehistogramm k = (ka )a∈E einstellt. 2.3. Betrachten Sie die Situation des Bertrand’schen Paradoxons und berechnen Sie die Verteilungsdichte des Abstands X der zuf¨alligen Sehne vom Kreismittelpunkt, falls (a) der Mittelpunkt der Sehne auf der Einheitskreisscheibe gleichverteilt ist, (b) der Winkel α, unter dem die Sehne vom Kreismittelpunkt aus erscheint, auf [0, π ] gleichverteilt ist.
48
2 Stochastische Standardmodelle
2.4. Buffon’sches Nadelproblem (von G.-L.L. Comte de Buffon 1733 formuliert und 1777 ausf¨uhrlich analysiert). Auf einer Ebene seien (unendlich viele) parallele Geraden im Abstand a gezogen. Auf die Ebene werde rein zuf¨allig eine Nadel der L¨ange l < a geworfen. Mit welcher Wahrscheinlichkeit trifft die Nadel eine Gerade? Stellen Sie ein geeignetes Modell auf! (Beschreiben Sie dazu die Lage der Nadel durch den Abstand ihres Mittelpunkts von der n¨achstgelegenen Geraden und einen geeigneten Winkel.) 2.5. Im Abstand a > 0 von einer Geraden befindet sich eine Gl¨uhbirne. Diese strahlt gleichm¨aßig in alle Richtungen, die die Gerade irgendwann treffen. X bezeichne den Auftreffpunkt eines Lichtstrahls auf der Geraden. Zeigen Sie: X hat die Verteilungsdichte ca (x) = a/(π(a 2 + x 2 )) auf R. (Die zugeh¨orige Verteilung heißt die Cauchy-Verteilung zum Parameter a.) 2.6. In der Umgebung von 10 Kernkraftwerken werden je 100 (unabh¨angig ausgew¨ahlte) Personen auf eine bestimmte Krankheit hin untersucht, die im Bundesdurchschnitt bei 1% der Bev¨olkerung vorkommt. Es wird vereinbart, ein Kraftwerk als auff¨allig zu bezeichnen, falls unter den 100 Personen mindestens 3 dieses Krankheitsbild zeigen. (a) Wie groß ist die Wahrscheinlichkeit, dass wenigstens ein Kraftwerk auff¨allig wird, obwohl die Erkrankungswahrscheinlichkeit in der Umgebung aller 10 Kraftwerke gleich groß wie im Bundesdurchschnitt ist? (b) Wie groß ist die Wahrscheinlichkeit, dass keines auff¨allig wird, obwohl die Erkrankungswahrscheinlichkeit in der Umgebung aller Kraftwerke 2% betr¨agt? 2.7. Einfache symmetrische Irrfahrt. AmAbend eines Wahltags werden die Stimmen f¨ur zwei konkurrierende Kandidaten A und B ausgez¨ahlt. Beide Kandidaten seien gleich beliebt, d. h. auf jedem Stimmzettel sei A oder B mit jeweils gleicher Wahrscheinlichkeit 1/2 angekreuzt; insgesamt gebe es 2N Stimmen. Sei Xi = 1 oder −1 je nachdem, ob die i-te Stimme f¨ur A oder 'j B ist. Die Summe Sj = i=1 Xi gibt dann an, wie weit A nach Ausz¨ahlung von j Stimmen vor B f¨uhrt (bzw. hinter B zur¨uckliegt). (Die Folge (Sj )j ≥1 heißt einfache symmetrische Irrfahrt.) Sei 1 ≤ n ≤ N und zur Abk¨urzung un := 2−2n 2n n . Pr¨azisieren Sie das Modell und zeigen Sie: (a) F¨ur das Ereignis Gn = {S2n = 0, S2k = 0 f¨ur 1 ≤ k < n} ( erster Gleichstand nach ” Ausz¨ahlung von 2n Stimmen“) gilt 2n−2 P (Gn ) = 2−2n+1 2n−2 = un−1 − un . n−1 − n Veranschaulichen Sie sich dazu die Folge (Sj )j ≤2n durch den Polygonzug durch die Punkte (j, Sj ), und stellen Sie eine Bijektion her zwischen den Polygonz¨ugen von (1, 1) nach (2n − 1, 1), welche die horizontale Achse treffen, und den Polygonz¨ugen von (1, −1) nach (2n − 1, 1). (b) F¨ur das Ereignis G>n = {S2k = 0 f¨ur 1 ≤ k ≤ n} ( kein Gleichstand w¨ahrend der ” ersten 2n Stimmen“) gilt P (G>n ) = un . 2.8. Das Intervall [0, 2] werde in zwei Teile zerlegt, indem in [0, 1] zuf¨allig (gem¨aß der Gleichverteilung) ein Punkt markiert wird. Sei X das L¨angenverh¨altnis l1 / l2 der k¨urzeren Teilstrecke l1 zur l¨angeren Teilstrecke l2 . Berechnen Sie die Verteilungsdichte von X.
49
Aufgaben
2.9. Das Genom der Taufliege Drosophila melanogaster gliedert sich in etwa m = 7000 Abschnitte (die anhand des F¨arbungsmusters der in den Speicheldr¨usen befindlichen Riesenchromosomen erkennbar sind). Zur Vereinfachung sei angenommen, dass sich in jedem Abschnitt gleich viele, n¨amlich M = 23000 Basenpaare befinden. Das Genom umfasst also N = mM Basenpaare. Durch hochenergetische Bestrahlung werden n = 1000 (rein zuf¨allig verteilte) Basenpaare zerst¨ort. Finden Sie ein stochastisches Modell f¨ur die Anzahl der zerst¨orten Basenpaare in allen Genomabschnitten. Berechnen Sie f¨ur jedes 1 ≤ i ≤ m die Verteilung der Anzahl Zi der zerst¨orten Basenpaare im Abschnitt i und begr¨unden Sie, dass Zi approximativ Poisson-verteilt ist. 2.10. Sei E eine endliche Menge, eine Z¨ahldichte auf E, n ∈ N,' und X = (Xa )a∈E 1 = {k = (ka )a∈E ∈ ZE : eine Zufallsvariable mit Werten in a∈E ka = n} und + Multinomialverteilung Mn, . Zeigen Sie: F¨ur jedes a ∈ E hat Xa die Binomialverteilung Bn,(a) . 2.11. Anzahl der Fixpunkte einer zuf¨alligen Permutation. An einer Theatergarderobe geben n Personen ihre M¨antel ab. Wegen Stromausfalls werden nach der Vorstellung die M¨antel im Dunkeln in rein zuf¨alliger Reihenfolge zur¨uckgegeben. Sei X die zuf¨allige Anzahl der Personen, die ihren eigenen Mantel zur¨uck erhalten. Berechnen Sie die Verteilung von X, d. h. P (X = k) f¨ur jedes k ≥ 0. Was geschieht im Limes n → ∞? (Der Fall k = 0 entspricht dem Rencontre-Problem aus Aufgabe 1.11. Verwenden Sie wieder Aufgabe 1.6.) 2.12. Banachs Streichholzproblem. Ein bekannter Mathematiker hatte in beiden Jackentaschen stets jeweils eine Schachtel mit Streichh¨olzern. Er bediente sich mit gleicher Wahrscheinlichkeit links oder rechts. Wenn er zum ersten Mal eine Schachtel leer vorfand, ersetzte er beide Schachteln durch volle. Berechnen Sie die Verteilung der u¨ brig gebliebenen Streichh¨olzer nach einem Durchgang (d. h. nach dem Vorfinden einer leeren Schachtel), wenn sich in jeder vollen Schachtel N Streichh¨olzer befinden. 2.13. Gamma- und negative Binomialverteilung. Seien r ∈ N, α > 0, t > 0, (pn )n≥1 eine Folge in ]0, 1[ mit npn → α und (tn )n≥1 eine Folge in Z+ mit tn /n → t. Zeigen Sie, dass Γα,r (]0, t]) = lim B r,pn ({0, . . . tn }) , n→∞ und interpretieren Sie dies Ergebnis mit Hilfe von Wartezeiten. (Zeigen Sie zuerst, dass B r,p ({0, 1, . . . , m}) = Br+m,p ({r, r + 1, . . . , r + m}) .) 2.14. Gamma- und Beta-Verteilung. In der Situation von Abschnitt 2.5.3 sei (sn )n≥1 eine Folge in ]0, ∞[ mit n/sn → α > 0. Zeigen Sie: F¨ur alle r ∈ N und t > 0 gilt Γα,r (]0, t]) = lim P (sn Tr:n ≤ t) . n→∞ Was bedeutet diese Aussage in Hinblick auf zuf¨allige Punkte auf der Zeitachse? 2.15. Affine Transformation von Normalverteilungen. Zeigen Sie: Ist X eine reelle Zufallsvariable mit Normalverteilung Nm,v und sind a, b ∈ R mit a = 0, so hat die Zufallsvariable aX + b die Verteilung Nam+b,a 2 v .
50
2 Stochastische Standardmodelle
2.16. Zum Satz von Poincaré–Borel. Beweisen Sie die folgende Versch¨arfung von Satz (2.24): Bezeichnet Xi : -N → R die Projektion auf die i-te Koordinate, so gilt f¨ur alle k ∈ N und alle ai , bi ∈ R mit ai < bi f¨ur 1 ≤ i ≤ k lim PN (Xi ∈ [ai , bi ] f¨ur 1 ≤ i ≤ k) =
N→∞
k -
N0,v ([ai , bi ]) ,
i=1
d. h. die Projektionen sind aymptotisch unabh¨angig (im Sinne der sp¨ateren Definition in Abschnitt 3.3) und normalverteilt.
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
In diesem Kapitel werden einige zentrale Begriffe der Stochastik entwickelt. Ausgehend vom fundamentalen Begriff der bedingten Wahrscheinlichkeit wird zun¨achst die Konstruktion mehrstufiger Wahrscheinlichkeitsmodelle mit vorgegebenen Abh¨angigkeitsverh¨altnissen erl¨autert. Von besonderem Interesse ist der Fall der Unabh¨angigkeit, den wir ausf¨uhrlich diskutieren. Es folgen ein konkretes Modell mit besonders viel Unabh¨angigkeit“, der Poisson-Prozess, sowie einige Algorith” men zur Simulation von unabh¨angigen Zufallsvariablen mit vorgegebenen Verteilungen. Abschließend untersuchen wir die Auswirkungen der Unabh¨angigkeit auf das Langzeit-Verhalten eines unendlich oft wiederholten Zufallsexperiments.
3.1
Bedingte Wahrscheinlichkeiten
Wir beginnen mit einem Motivationsbeispiel. (3.1) Beispiel: Stichproben ohne Zur¨ucklegen. Aus einer Urne mit w weißen und s schwarzen Kugeln werden nacheinander zwei Kugeln ohne Zur¨ucklegen gezogen. Wir denken uns die Kugeln als nummeriert und w¨ahlen deshalb als Modell - = {(k, l) : 1 ≤ k, l ≤ w + s, k = l} und P = U- , die Gleichverteilung. Dabei stehen die Nummern 1, . . . , w f¨ur weiße und w + 1, . . . , w + s f¨ur schwarze Kugeln. Wir betrachten die Ereignisse A = {die erste ist Kugel weiß} = {(k, l) ∈ - : k ≤ w} , B = {die zweite Kugel ist weiß} = {(k, l) ∈ - : l ≤ w} . Vor Beginn des Experiments rechnet man mit Wahrscheinlichkeit P (B) =
w w(w + s − 1) = (w + s)(w + s − 1) w+s
mit dem Eintreten von B. Wenn nun beim ersten Zug eine weiße Kugel gezogen wurde, rechnet man dann immer noch mit derselben Wahrscheinlichkeit w/(w + s) damit, dass auch die zweite Kugel weiß ist? Sicherlich nein! Intuitiv w¨urde man n¨amlich wie folgt argumentieren: Es befinden sich noch w − 1 weiße und s schwarze w−1 betragen. Das Kugeln in der Urne, also sollte die Wahrscheinlichkeit jetzt s+w−1
52
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
heißt: Durch das Eintreten von A sehen wir uns veranlaßt, unsere Wahrscheinlichkeitsbewertung der Ereignisse zu revidieren, also das Wahrscheinlichkeitsmaß P durch ein neues Wahrscheinlichkeitsmaß PA zu ersetzen. Vern¨unftigerweise sollte diese Neubewertung so durchgef¨uhrt werden, dass folgende Eigenschaften erf¨ullt sind: (a) PA (A) = 1, d. h. das Ereignis A ist jetzt sicher. (b) Die neue Bewertung der Teilereignisse von A ist proportional zu ihrer urspr¨unglichen Bewertung, d. h. es existiert eine Konstante cA > 0 mit PA (B) = cA P (B) f¨ur alle B ∈ F , B ⊂ A. Die folgende Proposition zeigt, dass PA durch diese beiden Eigenschaften bereits eindeutig festgelegt ist. (3.2) Proposition: Neubewertung von Ereignissen. Sei (-, F , P ) ein Wahrscheinlichkeitsraum und A ∈ F mit P (A) > 0. Dann gibt es genau ein Wahrscheinlichkeitsmaß PA auf (-, F ) mit den Eigenschaften (a) und (b), n¨amlich PA (B) :=
P (A ∩ B) P (A)
f¨ur B ∈ F .
Beweis: PA erf¨ulle (a) und (b). Dann gilt f¨ur alle B ∈ F PA (B) = PA (A ∩ B) + PA (B \ A) = cA P (A ∩ B) , denn wegen (a) ist PA (B \ A) = 0. F¨ur B = A folgt 1 = PA (A) = cA P (A), also cA = 1/P (A). Somit hat PA die angegebene Gestalt. Umgekehrt ist klar, dass das angegebene PA (a) und (b) erf¨ullt. 3 Definition: In der Situation von Proposition (3.2) heißt f¨ur jedes B ∈ F P (B|A) :=
P (A ∩ B) P (A)
die bedingte Wahrscheinlichkeit von B unter der Bedingung A bez¨uglich P . (Im Fall P (A) = 0 setzt man manchmal P (B|A) = 0.) Was bedeutet dies nun f¨ur Beispiel (3.1)? Nach Definition gilt P (B|A) =
|A ∩ B| w(w − 1) w−1 |B ∩ A| |A| = = = , |-| |-| |A| w(s + w − 1) s+w−1
d. h. die bedingte Wahrscheinlichkeit hat genau den der Intuition entsprechenden Wert. Betrachten wir nun die folgende umgekehrte Situation: Die erste Kugel werde blind gezogen, die zweite ist weiß. Mit welcher Sicherheit w¨urde man nun darauf
53
3.1 Bedingte Wahrscheinlichkeiten
tippen, dass die erste Kugel ebenfalls weiß war? Intuitiv w¨urde man folgendermaßen argumentieren: Weil das Eintreten von B bekannt ist, ist B die Menge der m¨oglichen F¨alle und A ∩ B die Menge der g¨unstigen F¨alle, also kann man mit der Sicherheit |A ∩ B| w(w − 1) w−1 = = |B| w(s + w − 1) s+w−1 darauf tippen, dass zuvor A eingetreten ist. Dies ist gerade der Wert von P (A|B) gem¨aß der Definition der bedingten Wahrscheinlichkeit. Wir sehen daran: Obgleich das Ereignis B sicher keinen Einfluss auf das Eintreten von A hat, veranlasst uns die Information u¨ ber das Eintreten von B zu einer Neubewertung von A, die ebenfalls gerade der bedingten Wahrscheinlichkeit entspricht. Diese Beobachtung f¨uhrt zu folgender Schlussfolgerung u¨ ber die Interpretation bedingter Wahrscheinlichkeiten: Die Berechnung bedingter Wahrscheinlichkeiten erlaubt keinen R¨uckschluss auf etwaige Kausalzusammenh¨ange zwischen den Ereignissen! Vielmehr bestehen die folgenden Interpretationsm¨oglichkeiten: (a) frequentistisch: Bei h¨aufiger Wiederholung des Zufallsexperiments ist P (B|A) der Bruchteil der F¨alle, in denen B eintritt, in der Gesamtheit aller F¨alle, in denen A eintritt. (b) subjektiv: Ist P meine Einsch¨atzung der Lage vor Beginn des Experiments, so ist P ( · |A) meine Einsch¨atzung (nicht: nach dem Eintreten von A, sondern:) nachdem ich u¨ ber das Eintreten von A informiert bin. Die naive Deutung ist hier ausgelassen, denn sie kommt gef¨ahrlich nahe an eine falsche Kausaldeutung. Zwei elementare Tatsachen u¨ ber bedingte Wahrscheinlichkeiten sind die folgenden. (3.3) Satz: Fallunterscheidungsund Bayes-Formel. Sei (-, F , P ) ein Wahrschein* lichkeitsraum und - = i∈I Bi eine h¨ochstens abz¨ahlbare Zerlegung von - in paarweise disjunkte Ereignisse Bi ∈ F . Dann gilt (a) die Fallunterscheidungsformel: F¨ur alle A ∈ F gilt , P (A) = P (Bi )P (A|Bi ) . i∈I
(b) die Formel von Bayes (1763): F¨ur alle A ∈ F mit P (A) > 0 und alle k ∈ I gilt P (Bk )P (A|Bk ) . P (Bk |A) = ' i∈I P (Bi )P (A|Bi )
54
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
Beweis: (a) Aus der Definition der bedingten'Wahrscheinlichkeit und der σ ' Additivit¨at von P folgt i∈I P (Bi ) P (A|Bi ) = i∈I P (A ∩ Bi ) = P (A) . (b) folgt aus (a) und der Definition. 3 Thomas Bayes (1702–1761) war presbyterianischer Geistlicher (und Mitglied der Royal Society) in England. Seine mathematischen Werke wurden erst 1763 posthum ver¨offentlicht. Damals sorgte die Bayes-Formel f¨ur Aufregung, weil man meinte, mit ihr aus Wirkungen auf Ursachen zur¨uckschließen zu k¨onnen. Wie oben festgestellt, ist dies jedoch keineswegs der Fall.
Eine typische (richtige) Anwendung zeigt folgendes Beispiel. (3.4) Beispiel: Bewertung medizinischer Verfahren. Eine Krankheit komme bei 4% der Bev¨olkerung vor (im Medizin-Jargon: die Pr¨avalenz der Krankheit betr¨agt 4%“). ” Ein diagnostisches Testverfahren spreche bei 90% der Kranken an ( Sensitivit¨at ” des Tests 90%“) und bei 20% der Gesunden ( Spezifit¨at 80%“). Wie groß ist der ” pr¨adikative Wert des positiven Testresultats, d. h. mit welcher Wahrscheinlichkeit ist eine zuf¨allige Person krank, wenn der Test anspricht? Zur Beantwortung dieser Frage verwenden wir das folgende stochastische Modell: - sei die endliche Menge der Bev¨olkerung und P = U- die Gleichverteilung auf -. B1 sei die Menge der Kranken und B2 = - \ B1 die Menge der Gesunden. Schließlich sei A die Menge der Testpositiven. Dann gilt nach Voraussetzung P (B1 ) = 0.04, P (B2 ) = 0.96, P (A|B1 ) = 0.9 und P (A|B2 ) = 0.2. Gem¨aß der Bayes-Formel ist also der pr¨adikative Wert gegeben durch P (B1 |A) =
1 0.04 · 0.9 ≈ . 0.04 · 0.9 + 0.96 · 0.2 6
Die positive Korrektheit des Tests ist also gering, da das hohe Verh¨altnis von Gesunden zu Kranken die Sensitivit¨at u¨ berlagert. Andrerseits gilt jedoch P (B1 )P (Ac |B1 ) P (B1 )P (Ac |B1 ) + P (B2 )P (Ac |B2 ) 0.04 · 0.1 ≈ 0.005 , = 0.04 · 0.1 + 0.96 · 0.8
P (B1 |Ac ) =
d. h. die Wahrscheinlichkeit, dass ein Testnegativer krank ist, ist sehr gering, die ne” gative Korrektheit“ also sehr hoch. Der Test ist also geeignet, um das Vorliegen einer Krankheit auszuschließen, w¨ahrend Testpositive weiter beobachtet werden m¨ussen. Das n¨achste Beispiel geh¨ort inzwischen zu den bekanntesten stochastischen Denksportaufgaben, und sein korrektes Verst¨andnis wird nach wie vor diskutiert. (3.5) Beispiel: Das T¨urenparadox (oder Ziegenproblem). Die amerikanische Journalistin Marilyn vos Savant (mit angeblich dem h¨ochsten IQ der Welt) bekam 1990 f¨ur ihre Denksport-Kolumne im Parade Magazine“ von einem Leser folgende Aufgabe: ”
55
3.1 Bedingte Wahrscheinlichkeiten
Suppose you’re on a game show, and you’re given the choice of three doors. Behind one door is a car, behind the others, goats. You pick a door, say #1, and the host, who knows what’s behind the doors, opens another door, say #3, which has a goat. He says to you, “Do you want to pick door #2?” Is it to your advantage to switch your choice of doors? Ihre Antwort lautete: Yes, you should switch. The first door has a 1/3 chance of ” winning, but the second door has a 2/3 chance“, und begr¨undete dies appellativ durch einen Hinweis auf das analoge Problem von einer Million T¨uren, von denen alle bis auf zwei vom Moderator ge¨offnet werden. Dies entfesselte eine lebhafte Diskussion ¨ des Problems in der Offentlichkeit. Vielfach wurde entgegen gehalten, nach dem ¨ Offnen von T¨ur 3 h¨atten die beiden anderen T¨uren die gleiche Gewinnchance 1/2. Was ist der Fall? Dazu m¨ussen wir den Sachverhalt pr¨azise interpretieren. Wir nummerieren die drei T¨uren mit den Zahlen 1, 2, 3. Da die T¨uren offenbar a¨ ußerlich gleich sind, k¨onnen wir der Gewinnt¨ur ohne Einschr¨ankung die Nummer 1 geben. Zwei T¨uren werden zuf¨allig ausgew¨ahlt: vom Spieler und vom Moderator. Diese werden beschrieben durch zwei Zufallsvariablen S und M mit Werten in {1, 2, 3}. Da der Spieler keinerlei Information u¨ ber die Gewinnt¨ur hat, wird er jede T¨ur mit gleicher Wahrscheinlichkeit ausw¨ahlen, also ist S gleichverteilt auf {1, 2, 3}. In der Aufgabe wird nun angenommen, dass das Ereignis A := {S = M = 1} = {M = S} ∩ {M = 1} eingetreten ist, und dem Spieler in dieser Situation die Chance gegeben, nochmals eine T¨ur zu w¨ahlen, entweder dieselbe wie vorher oder die verbliebene dritte T¨ur. Im ersten Fall betr¨agt seine bedingte Gewinnwahrscheinlichkeit P (S = 1|A). Um diese zu berechnen, braucht er Informationen u¨ ber A, also u¨ ber das Verhalten des Moderators. Welche Informationen stehen zur Verf¨ugung? Zun¨achst ist ziemlich klar, dass der Moderator mit Sicherheit niemals die Gewinnt¨ur o¨ ffnen wird, da sonst das Spiel schon beendet w¨are und f¨ur die Zuschauer ziemlich witzlos. Dies rechtfertigt die Annahme P (M = 1) = 1. Weiter l¨asst sich die Formulierung opens another door“ so interpretieren, dass der Moderator mit ” Sicherheit nicht die vom Spieler ausgew¨ahlte T¨ur o¨ ffnet. Dann ist P (M = S) = 1 und wegen Satz (1.11b) auch P (A) = 1, somit P (S = 1|A) = P (S = 1) =
1 . 3
Entsprechend betr¨agt die bedingte Gewinnwahrscheinlichkeit, wenn der Spieler bei seiner zweiten Wahl zur dritten T¨ur ( = S, M) wechselt, gerade P (S = 1|A) = 2/3. Dies ist genau die Antwort von Marilyn vos Savant, und die Begr¨undung ist u¨ berraschend simpel. Diese Trivialit¨at liegt daran, dass wir den Moderator auf eine feste Verhaltensweise festgelegt haben, dass er also das Spiel immer so durchf¨uhrt wie beschrieben, und daher das Ereignis A mit Sicherheit eintritt. Dies wiederum hat seinen tieferen Grund darin, dass wir implizit von der frequentistischen Interpretation der bedingten
56
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
Wahrscheinlichkeiten ausgegangen sind, welche die Wiederholbarkeit des Vorgangs und also feste Regeln voraussetzt. Nun wird der Moderator das Spiel aber nicht ¨ regelm¨aßig durchf¨uhren (dann g¨abe es f¨ur Spieler und Zuschauer keinen Uberraschungseffekt), sondern nur einmal. Unter diesem Gesichtspunkt ist die subjektive Interpretation angemessener. Also kommt es darauf an, wie der Spieler das Verhalten des Moderators einsch¨atzt. Der Spieler darf sicher wieder vermuten, dass der Moderator nicht die Gewinnt¨ur o¨ ffnen wird, und also den Ansatz P (M = 1) = 1 machen. Dann ist auch P (A|S = 1) = P (M = 1|S = 1) = 1 und somit gem¨aß der Bayes-Formel (3.3b) P (S = 1) P (A|S = 1) P (S = 1) P (A|S = 1) + P (S = 1) P (A|S = 1) 1/3 . = 1/3 + (2/3) P (A|S = 1) Es kommt also darauf an, wie der Spieler die bedingte Wahrscheinlichkeit P (A|S = 1) einsch¨atzt. Wie oben kann er durchaus zu dem Schluss kommen, dass P (M = S) = 1 und also P (A) = 1. Er kann aber auch zum Beispiel davon ausgehen, dass der Moderator jede der beiden Ziegent¨uren mit gleicher Wahrscheinlichkeit 1/2 o¨ ffnet, egal welchen Wert S der Spieler gew¨ahlt hat. (Im Fall M = S w¨urde der Moderator dann zum Beispiel sagen: Look! You had bad luck. But I give you a ” second chance, you may pick another door!“) Dann ist P (M = S|S = s) = 1/2 f¨ur s ∈ {2, 3} und daher nach der Fallunterscheidungsformel (3.3a) auch (3.6)
P (S = 1|A) =
P (M = S|S = 1) =
3 , 1 1 P (S = s|S = 1) = . 2 2 s=2
Infolge der Annahme P (M = 1) = 1 ergibt sich hieraus die Konsequenz 1 P (A|S = 1) = P (M = S|S = 1) = 2 und deshalb wegen (3.6) P (S = 1|A) = 1/2. Dies ist gerade die Antwort der Kritiker! ¨ Ahnlich wie beim Bertrand’schen Paradoxon beruhen die verschiedenen Antworten auf einer unterschiedlichen Interpretation einer unscharf gestellten Aufgabe. Die verschiedenen Standpunkte reduzieren sich auf die Frage, ob das Ereignis A Bestandteil einer festen Spielregel ist oder nicht. Die philosophische Unsicherheit u¨ ber die Bedeutung bedingter Wahrscheinlichkeiten kommt dabei erschwerend hinzu. Mehr zu diesem Thema findet man zum Beispiel in [43, 50, 29, 26, 57] sowie der dort angegebenen Literatur. Die zum Teil sehr unterschiedliche Darstellung in diesen Quellen zeigt, dass ein allgemeiner Konsens offenbar noch nicht erreicht ist. In unserer obigen Diskussion ist noch offen geblieben, ob Zufallsvariablen S und M mit den jeweils geforderten Eigenschaften u¨ berhaupt existieren. Dies wird sich direkt aus dem nun folgenden Abschnitt ergeben.
3.2 Mehrstufige Modelle
3.2
57
Mehrstufige Modelle
Wir betrachten ein Zufallsexperiment, das aus n nacheinander ausgef¨uhrten Teilexperimenten besteht. Gesucht sind ein Wahrscheinlichkeitsraum (-, F , P ) f¨ur das Gesamtexperiment sowie Zufallsvariablen (Xi )1≤i≤n auf -, welche die Ergebnisse der Teilexperimente beschreiben. Bekannt seien (a) die Verteilung von X1 , (b) f¨ur jedes 2 ≤ k ≤ n die bedingten Verteilungen von Xk , wenn die Werte von X1 , . . . , Xk−1 bereits bekannt sind. Mit anderen Worten: Man hat eine Beschreibung f¨ur das erste Teilexperiment so¨ wie zu jedem Zeitpunkt f¨ur den Ubergang zum n¨achsten Teilexperiment, wenn die Ergebnisse der fr¨uheren Teilexperimente bereits vorliegen. Einen Hinweis, wie das Problem angepackt werden kann, liefert folgende (3.7) Proposition: Multiplikationsformel. Sei (-, F , P ) ein Wahrscheinlichkeitsraum und A1 , . . . , An ∈ F . Dann gilt P (A1 ∩ · · · ∩ An ) = P (A1 ) P (A2 |A1 ) . . . P (An |A1 ∩ · · · ∩ An−1 ) . Beweis: Wenn die linke Seite verschwindet, dann ist auch der letzte Faktor rechts gleich Null. Andernfalls sind alle bedingten Wahrscheinlichkeiten auf der rechten Seite definiert und von Null verschieden. Sie bilden ein Teleskop-Produkt, bei dem sich die aufeinander folgenden Z¨ahler und Nenner gegenseitig wegheben und nur die linke Seite u¨ brig bleibt. 3 Der folgende Satz beschreibt die Konstruktion von Zufallsvariablen mit den Eigenschaften (a) und (b). Der Einfachheit halber setzen wir voraus, dass jedes Teilexperiment einen h¨ochstens abz¨ahlbaren Ergebnisraum hat. (3.8) Satz: Konstruktion von Wahrscheinlichkeitsmaßen durch bedingte Wahrscheinlichkeiten. Gegeben seien n abz¨ahlbare Ergebnisr¨aume -1 , . . . , -n = ∅, n ≥ 2. Sei ωi ∈ -i mit i < k sei 1 eine Z¨ahldichte auf -1 , und f¨ur k = 2, . . . , n und beliebige ( k|ω1 ,...,ωk−1 eine Z¨ahldichte auf -k . Sei ferner - = ni=1 -i der Produktraum und Xi : - → -i die i-te Projektion. Dann existiert genau ein Wahrscheinlichkeitsmaß P auf (-, P(-)) mit den Eigenschaften (a) F¨ur alle ω1 ∈ -1 gilt P (X1 = ω1 ) = 1 (ω1 ), (b) F¨ur alle k = 2, . . . , n und alle ωi ∈ -i gilt P (Xk = ωk |X1 = ω1 , . . . , Xk−1 = ωk−1 ) = k|ω1 ,...,ωk−1 (ωk ) , sofern P (X1 = ω1 , . . . , Xk−1 = ωk−1 ) > 0 .
58
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
P ist gegeben durch (3.9)
P ({ω}) = 1 (ω1 ) 2|ω1 (ω2 ) 3|ω1 ,ω2 (ω3 ) . . . n|ω1 ,...,ωn−1 (ωn )
f¨ur ω = (ω1 , . . . , ωn ) ∈ -. Gleichung (3.9) wird veranschaulicht durch das Baumdiagramm in Abbildung 3.1. -1 ×-2 ×-3 3|aa (a) aaa :
aa X * XXXXX 2|a (a) z aab (b) 3|aa
a H
HH 3|ab (a) aba : H
2|a (b) H j H XXX ab 1 (a)
XXX z abb 3|ab (b)
-1
u @
-1 ×-2
@ (b) @1 @ * 2|b (a) @ R @ HH
b H 2|b (b)HH j H
3|ba (a) : baa
X ba X
XXX z bab X
3|ba (b)
3|bb (a) : bba
X bb
X
XXX z bbb X 3|bb (b)
Abbildung 3.1: Baumdiagramm zur Konstruktion mehrstufiger Modelle, hier f¨ur n = 3 und -i = {a, b}. Die Wahrscheinlichkeit eines Tripels in - ist das Produkt der ¨ ¨ Ubergangswahrscheinlichkeiten f¨ur die Aste entlang des Weges zu diesem Tripel.
Beweis: P kann nicht anders als durch (3.9) definiert werden. Denn wegen {ω} = +n {X i = ωi } und den Annahmen (a) und (b) ist (3.9) identisch mit der Multiplii=1 kationsformel f¨ur die Ereignisse Ai = {Xi = ωi }. Dies beweist die Eindeutigkeit von P .
59
3.2 Mehrstufige Modelle
Sei nun also P durch (3.9) definiert. Dann folgt f¨ur alle 1 ≤ k ≤ n und ω1 , . . . , ωk durch Summation u¨ ber ωk+1 , . . . , ωn , P (X1 = ω1 , . . . ,Xk = ωk ) = P ({(ω1 , . . . , ωn )}) ωk+1 ∈-k+1 ,...,ωn ∈-n
= 1 (ω1 ) . . . k|ω1 ,...,ωk−1 (ωk ) , , k+1|ω1 ,...,ωk (ωk+1 ) . . . n|ω1 ,...,ωn−1 (ωn ) . · ωk+1 ∈-k+1
ωn ∈-n
Da n|ω1 ,...,ωn−1 eine Z¨ahldichte ist, hat die letzte Summe den Wert 1 und entf¨allt somit. Nun kann die vorletzte Summe ausgewertet werden und liefert ebenfalls 1. So fortfahrend sieht man, dass die gesamte Mehrfachsumme in der letzten Zeile gleich 1 ist. F¨ur k = 1 folgt (a), und eine weitere Summation u¨ ber ω1 zeigt, dass die rechte Seite von (3.9) tats¨achlich eine Z¨ahldichte ist. F¨ur k > 1 ergibt sich P (X1 = ω1 , . . . , Xk = ωk ) = P (X1 = ω1 , . . . , Xk−1 = ωk−1 ) k|ω1 ,...,ωk−1 (ωk ) und somit (b). 3 (3.10) Beispiel: Skatspiel. Mit welcher Wahrscheinlichkeit bekommt jeder der drei Spieler genau ein Ass? Wie in Abschnitt 2.3.1 festgestellt, k¨onnen wir uns vorstellen, dass (nach gutem Mischen) jeder Spieler zehn der 32 Karten auf einmal bekommt. (Die restlichen zwei Karten kommen in den Skat“.) Wir beobachten die Anzahl ” der Asse f¨ur jeden Spieler. Dementsprechend w¨ahlen wir die Einzel-Ergebnisr¨aume -1 = -2 = -3 = {0, . . . , 4} und f¨ur das Gesamtexperiment den Produktraum - = {0, . . . , 4}3 . Das Wahrscheinlichkeitsmaß P auf - werde gem¨aß Satz (3.8) ¨ konstruiert zu den (wegen Abschnitt 2.3.2 hypergeometrischen) Ubergangswahrscheinlichkeiten 28 32 1 (ω1 ) = H10;4,28 ({ω1 }) = ω41 10−ω 10 , 1 2|ω1 (ω2 ) = H10;4−ω1 ,18+ω1 ({ω2 }) , 3|ω1 ,ω2 (ω3 ) = H10;4−ω1 −ω2 ,8+ω1 +ω2 ({ω3 }) . F¨ur das Ereignis {(1, 1, 1)}, dass jeder Spieler genau ein Ass bekommt, ergibt sich dann P {(1, 1, 1)} = 1 (1) 2|1 (1) 3|1,1 (1) 428 319 210 2 · 4! = 1329 1229 1129 = 103 ≈ 0.0556 . 32 . . . 29 10
10
10
(3.11) Beispiel: Populationsgenetik. F¨ur ein Gen gebe es die beiden Allele A und a, also bei diploidem Chromosomensatz die Genotypen AA, Aa und aa. In einer
60
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
Population seien diese Genotypen jeweils mit den relativen H¨aufigkeiten u, 2v, w vertreten, wobei u+2v+w = 1. F¨ur das Gen gebe es weder Mutation noch Selektion, und es sei unerheblich f¨ur die Partnerwahl. Wie sieht dann die Genotypen-Verteilung in der Nachkommen-Generation aus? Wir konstruieren ein Wahrscheinlichkeitsmaß P gem¨aß Satz (3.8) auf dem Produktraum {AA, Aa, aa}3 , welcher alle m¨oglichen Genotypen von Mutter, Vater, und Nachkomme enth¨alt. Laut Annahme hat der Genotyp ω1 der Mutter die Verteilung 1 = (u, 2v, w), und der Genotyp ω2 des Vaters hat dieselbe (bedingte) Verteilung 2|ω1 = 1 , welche de facto nicht nicht von ω1 abh¨angt. Die bedingte Verteilung 3|ω1 ω2 (ω3 ) des Nachkommengenotyps ω3 ergibt sich aus der Tatsache, dass je ein Mutter- und Vatergen mit gleicher Wahrscheinlichkeit kombiniert wird; siehe Tabelle 3.1. ¨ Tabelle 3.1: Die Ubergangswahrscheinlichkeiten 3|ω1 ω2 (AA) f¨ur den Nachkommengenotyp AA in Abh¨angigkeit von den Genotypen ω1 , ω2 von Mutter und Vater. ω1
ω2
AA Aa AA Aa Aa sonst AA
3|ω1 ω2 (AA) 1 1/2 1/2 1/4 0
Wir berechnen nun die Verteilung P ◦ X3−1 des Nachkommengenotyps. Mit (3.9) ergibt sich durch Addition u¨ ber alle m¨oglichen Elterngenotypen u1 := P (X3 = AA) = u2 + 2uv/2 + 2vu/2 + 4v 2 /4 = (u + v)2 . Aus Symmetriegr¨unden folgt weiter w1 := P (X3 = aa) = (w + v)2 , also auch 2v1 := P (X3 = Aa) = 1 − u1 − w1 = ((u + v) + (w + v))2 − (u + v)2 − (w + v)2 = 2(u + v)(w + v) . Entsprechend erhalten wir f¨ur die Wahrscheinlichkeit u2 des Genotyps AA in der zweiten Generation 2 u2 = (u1 + v1 )2 = (u + v)2 + (u + v)(w + v) 2 = (u + v)2 (u + v) + (w + v) = (u + v)2 = u1 und analog w2 = w1 , v2 = v1 . Dies ist das ber¨uhmte Gesetz von Hardy-Weinberg (1908): Bei zuf¨alliger Partnerwahl bleiben die Genotypen-H¨aufigkeiten ab der ersten Nachkommen-Generation unver¨andert.
3.2 Mehrstufige Modelle
61
Wir wollen jetzt Satz (3.8) ausdehnen auf den Fall, dass unser Zufallsexperiment aus unendlich vielen Teilexperimenten besteht. Die Notwendigkeit daf¨ur tauchte bereits auf bei den Wartezeiten in Bernoulli-Experimenten, da es ja im Prinzip beliebig lange dauern kann, bis der erste Erfolg eintritt. (3.12) Satz: Konstruktion von Wahrscheinlichkeitsmaßen auf unendlichen Produktr¨aumen. Zu jedem i ∈ N sei -i = ∅ eine abz¨ahlbare Menge. Sei 1 eine Z¨ahldichte auf -1 , und f¨ur alle ( k ≥ 2 und ωi ∈ -i mit i < k sei k|ω1 ,...,ωk−1 eine Z¨ahldichte auf -k . Sei % - = i≥1 -i , Xi : - → -i die Projektion auf die i-te Koordinate, und F = i≥1 P(-i ) die Produkt-σ -Algebra auf -. Dann existiert genau ein Wahrscheinlichkeitsmaß P auf (-, F ) mit der Eigenschaft (3.13)
P (X1 = ω1 , . . . , Xk = ωk ) = 1 (ω1 ) 2|ω1 (ω2 ) . . . k|ω1 ,...,ωk−1 (ωk )
f¨ur alle k ≥ 1 und ωi ∈ -i . Gleichung (3.13) entspricht der Gleichung (3.9) in Satz (3.8) und ist a¨ quivalent zu den dortigen Bedingungen (a) und (b). Beweis: Die Eindeutigkeit folgt aus dem Eindeutigkeitssatz (1.12), da G = {X1 = ω1 , . . . , Xk = ωk } : k ≥ 1, ωi ∈ -i ∪ {∅} ein ∩-stabiler Erzeuger von F ist; vgl Aufgabe 1.5. F¨ur die Existenz machen wir Gebrauch von der Existenz des Lebesgue-Maßes λ = U[0,1[ auf dem halboffenen Einheitsintervall [0, 1[, vgl. Bemerkung (1.17). Wie in Abbildung 3.2 illustriert, zerlegen wir das Intervall [0, 1[ in halboffene Intervalle (Iω1 )ω1 ∈-1 der L¨ange 1 (ω1 ); wir nennen diese Intervalle die Intervalle der ersten Stufe. Jedes Iω1 zerlegen wir in halboffene Intervalle (Iω1 ω2 )ω2 ∈-2 der L¨ange 1 (ω1 )2|ω1 (ω2 ); dies sind die Intervalle der zweiten Stufe. So machen wir weiter, d. h. wenn das Intervall Iω1 ...ωk−1 der (k −1)-ten Stufe bereits definiert ist, so zerlegen wir es weiter in disjunkte Teilintervalle (Iω1 ...ωk )ωk ∈-k der k-ten Stufe mit der L¨ange λ(Iω1 ...ωk−1 ) k|ω1 ,...,ωk−1 (ωk ). F¨ur x ∈ [0, 1[ gibt es zu jedem k genau ein Intervall der k-ten Stufe, welches x enth¨alt, d. h. es gibt genau eine Folge Z(x) = (Z1 (x), Z2 (x), . . . ) ∈ - mit x ∈ IZ1 (x)...Zk (x) f¨ur alle k ≥ 1. Die Abbildung Z : [0, 1[ → - ist eine Zufallsvariable; f¨ur A = {X1 = ω1 , . . . , Xk = ωk } ∈ G ist n¨amlich Z −1 A = {x : Z1 (x) = ω1 , . . . , Zk (x) = ωk } = Iω1 ...ωk ∈ B[0,1[ , so dass die Behauptung aus Bemerkung (1.25) folgt. Nach Satz (1.28) ist daher P := λ ◦ Z −1 ein wohldefiniertes Wahrscheinlichkeitsmaß auf (-, F ), und dieses hat nach Konstruktion die verlangte Eigenschaft. 3
62
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit 1 I1
*
1 3
1
2 3
t HH
H j
8 9
I0
1 1 3
XX
I10
XXX z 2 3
4 9
I111 I110 I101 I100 16 I011 27 I010
26 27 22 27
I11
3
H H
2 3
: 3 X XXX X z 2
I01
.. .
I00
: 3 X XXX X z 2
1
8 27
I001 I000
3
0
Abbildung 3.2: Die Intervalle der ersten bis dritten Stufe im Fall -i = {0, 1}, k|ω1 ,...,ωk−1 (1) = 1/3, bei dem die Intervalle sukzessiv im Verh¨altnis 1:2 geteilt werden. Die Zerlegungspfeile entsprechen den Pfeilen im zugeh¨origen Baumdiagramm. Es ist Z(1/2) = (0, 1, 0, . . . ).
(3.14) Beispiel: Pólya’sches Urnenmodell. Das folgende Urnenmodell geht zur¨uck auf den ungarischen Mathematiker G. Pólya (1887–1985). Betrachtet werde eine Urne mit s schwarzen und w weißen Kugeln. Es wird unendlich oft in die Urne gegriffen, und bei jedem Zug wird die gezogene Kugel sowie c weitere Kugeln der gleichen Farbe wieder zur¨uckgelegt. Der Fall c = 0 entspricht also dem Ziehen mit Zur¨ucklegen. Wir sind interessiert an dem Fall c ∈ N, in dem ein Selbstverst¨arkungseffekt eintritt: Je gr¨oßer der Anteil der weißen Kugeln in der Urne ist, desto eher wird wieder eine weiße Kugel gezogen und dadurch der Anteil der weißen Kugeln noch weiter vergr¨oßert. Dies ist ein einfaches Modell f¨ur zwei konkurrierende Populationen (und vielleicht auch f¨ur die Karriere z. B. von Politikern). Welcher Wahrscheinlichkeitsraum beschreibt dies Urnenmodell? Wir k¨onnen genau wie in Satz (3.12) vorgehen. Schreiben wir 1 f¨ur schwarz“ und 0 f¨ur weiss“, ” ” so ist -i = {0, 1} und also - = {0, 1}N . F¨ur die Startverteilung 1 gilt offenbar 1 (0) = w/(s + w) und 1 (1) = s/(s + w) entsprechend den Anteilen der weißen ¨ und schwarzen Kugeln in der Urne. F¨ur die Ubergangsdichte zur Zeit k > 1 erhalten wir analog s+c+ s+w+c(k−1) k−1 ' 1 k|ω1 ,...,ωk−1 (ωk ) = falls ωi = + und ωk = 0. w+c(k−1−+) i=1 s+w+c(k−1)
Denn hat man bei den ersten k − 1 Mal + schwarze (und also k − 1 − + weiße) Kugeln gezogen, so befinden sich in der Urne s + c+ schwarze und w + c(k − 1 − +) weiße ¨ Kugeln. Bildet man nun das Produkt dieser Ubergangswahrscheinlichkeiten gem¨aß (3.9), so erh¨alt man zu den Zeiten k mit ωk = 1 im Z¨ahler nacheinander die Faktoren
63
3.3 Unabh¨angigkeit
s, s + c, s + 2c, . . . und zu den Zeiten k mit ωk = 0 jeweils die Faktoren w, w + c, w + 2c, . . . . Insgesamt ergibt sich daher f¨ur das Wahrscheinlichkeitsmaß P aus Satz (3.12) (n−+−1 (+−1 n ' i=0 (s + ci) j =0 (w + cj ) falls P (X1 = ω1 , . . . , Xn = ωn ) = ωk = + . (n−1 k=1 m=0 (s + w + cm) Bemerkenswerterweise h¨angen diese Wahrscheinlichkeiten nicht von der Reihenfolge der ωi ab, sondern nur von ihrer Summe. Man sagt daher, dass die Zufallsvariablen austauschbar verteilt sind. X1 , X2 , . . . bei P' Sei nun Sn = nk=1 Xi die Anzahl der schwarzen Kugeln nach n Z¨ugen. Da alle ω mit Sn (ω) = + die gleiche Wahrscheinlichkeit haben, erhalten wir (n−+−1
(+−1 n i=0 (s + ci) j =0 (w + cj ) . P (Sn = +) = (n−1 + m=0 (s + w + cm) ¨ F¨ur c = 0 ist dies gerade die Binomialverteilung, in Ubereinstimmung mit Satz (2.9). Im Fall c = 0 kann man den Bruch durch (−c)n k¨urzen und erh¨alt unter Verwendung des allgemeinen Binomialkoeffizienten (2.18) −s/c−w/c + n−+ P (Sn = +) = −(s+w)/c . n
Das durch die rechte Seite definierte Wahrscheinlichkeitsmaß auf {0, . . . , n} heißt die Pólya-Verteilung zu s, w, n. F¨ur c = −1 stimmt sie mit der hypergeometrischen Verteilung u¨ berein. F¨ur eine andere Darstellung der Pólya-Verteilung siehe Aufgabe 3.4, und f¨ur das Langzeitverhalten von Sn /n Aufgabe 5.9.
3.3
Unabh¨angigkeit
Intuitiv l¨asst sich die Unabh¨angigkeit zweier Ereignisse A und B folgendermaßen umschreiben: Die Einsch¨atzung der Wahrscheinlichkeit des Eintretens von A wird nicht beeinflusst durch die Information, dass B eingetreten ist, und umgekehrt gibt das Eintreten von A keine Veranlassung zu einer Neubewertung der Wahrscheinlichkeit von B. Das bedeutet explizit, dass P (A|B) = P (A) und P (B|A) = P (B), falls P (A), P (B) > 0. Schreibt man diese Gleichungen in symmetrischer Form, so erh¨alt man die folgende Definition: Sei (-, F , P ) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ F heißen (stochastisch) unabh¨angig bez¨uglich P , wenn P (A ∩ B) = P (A)P (B).
64
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
Wir erl¨autern diesen fundamentalen Begriff anhand von zwei Beispielen. (3.15) Beispiel: Stichproben mit und ohne Zur¨ucklegen. Wir ziehen zwei Stichproben mit Zur¨ucklegen aus einer Urne mit w weißen und s schwarzen (nummerierten) Kugeln. Ein geeignetes Modell ist - = {1, . . . , s +w}2 und P = U- , die Gleichverteilung. Wir betrachten die Ereignisse A = {die erste Kugel ist weiß} und B = {die zweite Kugel ist weiß}. Dann gilt P (A ∩ B) =
w2 = P (A) P (B) , (s + w)2
also sind A und B unabh¨angig bez¨uglich P . Bei anderen Wahrscheinlichkeitsmaßen sind A und B jedoch nicht unabh¨angig, etwa bei P = P ( · |-= ) = U-= , der Gleichverteilung auf -= = {(k, l) ∈ - : k = l}, die das Ziehen ohne Zur¨ucklegen beschreibt, vgl. Beispiel (3.1). Dann ist P (A ∩ B) =
w(w − 1) < P (A)P (B). (s + w)(s + w − 1)
Dies unterstreicht die eigentlich evidente, aber manchmal u¨ bersehene Tatsache, dass Unabh¨angigkeit nicht etwa nur eine Eigenschaft der Ereignisse ist, sondern auch vom zugrunde liegenden Wahrscheinlichkeitsmaß abh¨angt. (3.16) Beispiel: Unabh¨angigkeit trotz Kausalit¨at. Der Wurf von zwei unterscheidbaren W¨urfeln wird beschrieben durch - = {1, . . . , 6}2 mit der Gleichverteilung P = U- . Seien A = {Augensumme ist 7} = {(k, l) ∈ - : k + l = 7} , B = {erster W¨urfel zeigt 6} = {(k, l) ∈ - : k = 6} . Dann ist |A| = |B| = 6, |A ∩ B| = 1, also P (A ∩ B) =
1 = P (A) P (B), 62
obgleich die Augensumme kausal vom Ergebnis des ersten Wurfes abh¨angt. Dies folgt hier zwar daraus, dass wir 7 (statt z. B. 12) als Wert f¨ur die Augensumme verwendet haben. Trotzdem zeigt es: Unabh¨angigkeit darf nicht missverstanden werden als kausale Unabh¨angigkeit, obgleich etwa Beispiel (3.15) das zu suggerieren scheint. Vielmehr meint sie eine ¨ proportionale Uberschneidung der Wahrscheinlichkeiten, die nichts mit einem Kausalzusammenhang zu tun hat. Sie h¨angt wesentlich vom zugrunde liegenden Wahrscheinlichkeitsmaß ab. Man beachte auch: Im Fall P (A) ∈ {0, 1} ist A unabh¨angig von sich selbst.
65
3.3 Unabh¨angigkeit
Als n¨achstes betrachten wir die Unabh¨angigkeit von mehr als nur zwei Ereignissen. Definition: Sei (-, F , P ) ein Wahrscheinlichkeitsraum und I = ∅ eine beliebige Indexmenge. Eine Familie (Ai )i∈I von Ereignissen in F heißt unabh¨angig bez¨uglich P , wenn f¨ur jede endliche Teilmenge ∅ = J ⊂ I gilt: 0 P Ai = P (Ai ). i∈J
i∈J
(Der triviale Fall |J | = 1 ist hier nur der bequemeren Formulierung halber zugelassen.) Die Unabh¨angigkeit einer Familie von Ereignissen ist eine st¨arkere Forderung als die nur paarweise Unabh¨angigkeit von je zwei Ereignissen in der Familie, entspricht aber genau dem, was man intuitiv unter gemeinsamer Unabh¨angigkeit verstehen m¨ochte. Dies wird am folgenden Beispiel deutlich. (3.17) Beispiel: Abh¨angigkeit trotz paarweiser Unabh¨angigkeit. Im Modell f¨ur einen zweifachen M¨unzwurf (mit - = {0, 1}2 und P = U- ) betrachten wir die drei Ereignisse A = {1} × {0, 1} = {erster Wurf ergibt Zahl} , B = {0, 1} × {1} = {zweiter Wurf ergibt Zahl} , C = {(0, 0), (1, 1)} = {beide W¨urfe haben das gleiche Ergebnis} . Dann ist P (A ∩ B) = 1/4 = P (A) P (B) , P (A ∩ C) = 1/4 = P (A) P (C) , und P (B ∩ C) = 1/4 = P (B) P (C), also sind A, B, C paarweise unabh¨angig. Dagegen gilt 1 1 P (A ∩ B ∩ C) = = = P (A) P (B) P (C), 4 8 d. h. A, B, C sind abh¨angig im Sinne der Definition. Dies entspricht genau der Intuition. Wir gehen nun noch einen Schritt weiter in der Verallgemeinerung: Uns interessiert nicht nur die Unabh¨angigkeit von Ereignissen, sondern auch die Unabh¨angigkeit von ganzen Teilexperimenten, d. h. von Zufallsvariablen, die solche Teilexperimente beschreiben. Definition: Sei (-, F , P ) ein Wahrscheinlichkeitsraum, I = ∅ eine beliebige Indexmenge, und f¨ur jedes i ∈ I sei Yi : - → -i eine Zufallsvariable auf (-, F ) mit Werten in einem Ereignisraum (-i , Fi ). Die Familie (Yi )i∈I heißt unabh¨angig bez¨uglich P , wenn f¨ur beliebige Wahl von Ereignissen Bi ∈ Fi die Familie
66
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
({Yi ∈ Bi })i∈I unabh¨angig ist, d. h. wenn f¨ur beliebiges endliches ∅ = J ⊂ I und alle Bi ∈ Fi (mit i ∈ J ) gilt: 0 {Yi ∈ Bi } = P (Yi ∈ Bi ) . (3.18) P i∈J
i∈J
Wie kann man die Unabh¨angigkeit von Zufallsvariablen nachpr¨ufen? Muss man wirklich alle Bi ∈ Fi durchprobieren? Das ist kaum m¨oglich, da man von σ Algebren in der Regel nur einen Erzeuger explizit kennt. Das folgende Kriterium ist deshalb von essentieller Bedeutung. (Wer allerdings den Beweis des Eindeutigkeitssatzes (1.12) u¨ bersprungen hat, kann auch diesen Beweis u¨ bergehen und die anschließenden Ergebnisse nur zur Kenntnis nehmen.)
(3.19) Satz: Kriterium f¨ur Unabh¨angigkeit. In der Situation der Definition sei zu jedem i ∈ I ein ∩-stabiler Erzeuger Gi von Fi gegeben, d. h. es gelte σ (Gi ) = Fi . Zum Nachweis der Unabh¨angigkeit von (Yi )i∈I gen¨ugt es dann, die Gleichung (3.18) nur f¨ur Ereignisse Bi in Gi (statt in ganz Fi ) zu verifizieren. Beweis: Wir zeigen durch Induktion u¨ ber n: Gleichung (3.18) gilt f¨ur beliebiges endliches J ⊂ I und beliebige Bi ∈ Fi , sofern |{i ∈ J : Bi ∈ / Gi }| ≤ n. F¨ur n ≥ |J | ist diese Zusatzbedingung keine Einschr¨ankung und wir bekommen die Behauptung. Der Fall n = 0 entspricht gerade der Annahme, dass (3.18) f¨ur Bi ∈ Gi gilt. Der Induktionsschritt n ; n + 1 geht so: Sei J ⊂ I mit 2 ≤ |J | < ∞, und f¨ur i ∈ J seien Bi ∈ Fi mit |{i ∈ J : Bi ∈ / Gi }| = n + 1 gegeben. Wir w¨ahlen ein j ∈ J mit Bj ∈ / Gj und + setzen J (= J \ {j } sowie A = i∈J {Yi ∈ Bi }. Nach Induktionsannahme gilt P (A) = i∈J P (Yi ∈ Bi ), und wir k¨onnen annehmen, dass P (A) > 0 ist, da sonst beide Seiten von (3.18) gleich 0 sind. Wir betrachten die Wahrscheinlichkeitsmaße P (Yj ∈ · |A) := P (· |A) ◦ Yj−1 und P (Yj ∈ · ) := P ◦ Yj−1 auf Fj . Diese stimmen nach Induktionsannahme auf Gj u¨ berein, sind also nach dem Eindeutigkeitssatz (1.12) identisch auf ganz Fj . Nach Multiplikation mit P (A) sehen wir also, dass (3.18) f¨ur die vorgegebenen Mengen erf¨ullt ist, und der Induktionsschritt ist abgeschlossen. 3 Als erste Anwendung erhalten wir eine Beziehung zwischen der Unabh¨angigkeit von Ereignissen und ihrer zugeh¨origen Indikatorfunktionen; vgl. (1.16). (3.20) Korollar: Unabh¨angigkeit von Indikatorvariablen. Eine Familie (Ai )i∈I von Ereignissen ist genau dann unabh¨angig, wenn die zugeh¨orige Familie (1Ai )i∈I von Indikatorfunktionen unabh¨angig ist. Insbesondere gilt: Ist (Ai )i∈I unabh¨angig und zu jedem i ∈ I irgendein Ci ∈ {Ai , Aci , -, ∅} gew¨ahlt, so ist auch die Familie (Ci )i∈I unabh¨angig. Beweis: Jede Indikatorfunktion 1A ist eine Zufallsvariable mit Werten in dem Ereignisraum ({0, 1}, P({0, 1})), und P({0, 1}) hat den ∩-stabilen Erzeuger G = {{1}},
67
3.3 Unabh¨angigkeit
der als einziges Element die ein-elementige Menge {1} enth¨alt. Außerdem gilt {1A = 1} = A. Wenn also (Ai )i∈I unabh¨angig ist, so erf¨ullt (1Ai )i∈I die Voraussetzung von Satz (3.19). Ist umgekehrt (1Ai )i∈I unabh¨angig, dann sind nach Definition insbesondere die Ereignisse ({1Ai = 1})i∈I unabh¨angig. Obendrein ist dann f¨ur beliebige Bi ⊂ {0, 1} die Familie ({1Ai ∈ Bi })i∈I unabh¨angig. Dies ergibt die Zusatzaussage. 3 Als n¨achstes formulieren wir ein Kriterium f¨ur die Unabh¨angigkeit von endlichen Familien von Zufallsvariablen. (3.21) Korollar: Unabh¨angigkeit endlich vieler Zufallsvariablen. Sei (Yi )1≤i≤n eine endliche Familie von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (-, F , P ). Dann gilt: (a) Diskreter Fall: Hat jedes Yi einen abz¨ahlbaren Wertebereich -i , so ist (Yi )1≤i≤n genau dann unabh¨angig, wenn f¨ur beliebige ωi ∈ -i P (Y1 = ω1 , . . . , Yn = ωn ) =
n -
P (Yi = ωi ) .
i=1
(b) Reeller Fall: Ist jedes Yi reellwertig, so ist (Yi )1≤i≤n genau dann unabh¨angig, wenn f¨ur beliebige ci ∈ R P (Y1 ≤ c1 , . . . , Yn ≤ cn ) =
n -
P (Yi ≤ ci ) .
i=1
Beweis: Die Implikation nur dann“ ist in beiden F¨allen trivial, und die Richtung ” dann“ ergibt sich wie folgt: ” Im Fall (a) ist nach Beispiel (1.7) Gi = {ωi } : ωi ∈ -i ∪ {∅} ein ∩-stabiler Erzeuger von Fi = P(-i ), und die trivialen Ereignisse {Yi ∈ ∅} = ∅ brauchen nicht betrachtet zu werden, da sonst beide Seiten von (3.18) verschwinden. Unsere Annahme entspricht somit genau der Voraussetzung von Satz (3.19) im Fall J = I . Der Fall J I ergibt sich hieraus durch Summation u¨ ber ωj f¨ur j ∈ I \ J . Die Behauptung folgt daher aus Satz (3.19). Aussage (b) ergibt sich ebenso, denn nach Beispiel (1.8d) ist {]−∞, c] : c ∈ R} ein ∩-stabiler Erzeuger der Borel’schen σ -Algebra B . 3 Es sei angemerkt, dass die F¨alle (a) und (b) im Korollar keineswegs disjunkt sind: Jedes Yi kann einen abz¨ahlbaren Wertebereich -i ⊂ R haben. Wegen Aufgabe 1.4 macht es dann aber keinen Unterschied, ob man Yi als Zufallsvariable mit Werten im Ereignisraum (-i , P(-i )) oder im Ereignisraum (R, B ) auffasst, und die Kriterien in (a) und (b) k¨onnen beide verwendet werden.
68
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
(3.22) Beispiel: Produktmaße. Sei E eine endliche Menge, eine Z¨ahldichte auf E, n ≥ 2 und P = ⊗n das n-fache Produktmaß auf - = E n ; dies entspricht der Situation von geordneten Stichproben mit Zur¨ucklegen aus einer Urne, in der die Kugelfarben gem¨aß verteilt sind, siehe Abschnitt 2.2.1. Sei Xi : - → E die i-te Projektion. Definitionsgem¨aß gilt dann f¨ur beliebige ωi ∈ E n P X1 = ω1 , . . . , Xn = ωn = P {(ω1 , . . . , ωn )} = (ωi ) i=1
und daher auch (verm¨oge Summation u¨ ber ωj f¨ur j = i) P (Xi = ωi ) = (ωi ). Korollar (3.21a) liefert daher die Unabh¨angigkeit der (Xi )1≤i≤n bez¨uglich P = ⊗n , wie man es beim Ziehen mit Zur¨ucklegen auch intuitiv erwartet. (3.23) Beispiel: Polarkoordinaten eines zuf¨alligen Punktes der Kreisscheibe. Sei K = {x = (x1 , x2 ) ∈ R2 : |x| ≤ 1} die Einheitskreisscheibe und Z = (Z1 , Z2 ) eine K-wertige Zufallsvariable (auf einem beliebigen Wahrscheinlichkeitsraum 8 (-, F , P )) mit Gleichverteilung UK auf K. Seien R = |Z| = Z12 + Z22 und $ = arg(Z1 + iZ2 ) ∈ [0, 2π [ die Polarkoordinaten von Z. ($ ist das Argument der komplexen Zahl Z1 + iZ2 , also der Winkel zwischen der Strecke von 0 nach Z und der positiven Halbachse.) Dann gilt f¨ur 0 ≤ r ≤ 1, 0 ≤ ψ < 2π P (R ≤ r, $ ≤ ψ) =
πr 2 ψ = P (R ≤ r) P ($ ≤ ψ) . π 2π
Nach Korollar (3.21b) sind R und $ daher unabh¨angig. Man sieht insbesondere: $ ist gleichverteilt auf [0, 2π [, und R 2 ist gleichverteilt auf [0, 1]. Der n¨achste Satz zeigt, dass die Unabh¨angigkeit nicht verloren geht, wenn man unabh¨angige Zufallsvariablen in disjunkten Klassen zusammenfasst und zu neuen Zufallsvariablen kombiniert. Abbildung 3.3 verdeutlicht die Situation.
Y1
-1
Y2 1 2 - PP Y 3 @ PP q- 3 @ Y4@ @ R
ϕ1 - 2 -1
ϕ2 -
22 -
-4
Abbildung 3.3: Disjunkte Klassen von Zufallsvariablen werden zusammengefasst und weiter verarbeitet“. ”
69
3.4 Existenz unabh¨angiger Zufallsvariablen, Produktmaße
(3.24) Satz: Kombination von unabh¨angigen Zufallsvariablen. Sei (Yi )i∈I eine unabh¨angige Familie von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (-, F , P ) mit Werten in beliebigen Ereignisr¨aumen (-i , Fi ). Sei (Ik )k∈K eine Fa2k ) 2k , F milie von paarweise disjunkten Teilmengen von I , und f¨ur k ∈ K sei (2 ein beliebiger Ereignisraum und Yk = ϕk ◦ (Yi )i∈Ik f¨ur irgendeine Zufallsvariable ( % 2k ). Dann ist die Familie (Y 2k )k∈K unabh¨angig. 2k , F ϕk : ( i∈Ik -i , i∈Ik Fi ) → (( % 1k ) = ( 1 1k , F Beweis: F¨ur k ∈ K sei (i∈Ik -i , i∈Ik Fi ) und Yk := (Yi )i∈Ik : 1k hat den ∩-stabilen Er1k die zugeh¨orige vektorwertige Zufallsvariable. F -→zeuger 50 6 G1k = {Xk,i ∈ Bi } : ∅ = J endlich ⊂ Ik , Bi ∈ Fi , i∈J
1k → -i die i-te Projektion bezeichnet. F¨ur endliches ∅ = L ⊂ K wobei Xk,i : + 1 1k = und beliebiges B i∈Jk {Xk,i ∈ Bi } ∈ Gk (mit endlichem Jk ⊂ Ik und Bi ∈ Fi ) f¨ur k ∈ L gilt nach Voraussetzung 0 0 0 1k ∈ B 1k } = P {Y {Yi ∈ Bi } P k∈L
k∈L i∈Jk
=
--
P (Yi ∈ Bi ) =
k∈L i∈Jk
-
1k ∈ B 1k ). P (Y
k∈L
1k )k∈K daher unabh¨angig. Folglich ist auch (Y 2k )k∈K unNach Satz (3.19) ist (Y 2k ist ϕ −1 B 1k . Die Produktformel (3.18) 2k ∈ F 2k ∈ F abh¨angig, denn f¨ur beliebige B k 2k }. 3 2k } = {Y 1k ∈ ϕ −1 B 2k ∈ B gilt daher auch f¨ur die Ereignisse {Y k (3.25) Beispiel: Partielle Augensummen beim W¨urfeln. Seien M, N ≥ 2 sowie - = {1, . . . , 6}MN , P = U- die Gleichverteilung, und Xi : - → {1, . . . , 6} die i-te Projektion. Dann sind nach Beispiel (3.22) und Satz (3.24) die Zufallsvariablen 2k = X
kM ,
Xi ,
1 ≤ k ≤ N,
i=(k−1)M+1
unabh¨angig.
3.4
Existenz unabh¨angiger Zufallsvariablen, Produktmaße
Gibt es u¨ berhaupt unabh¨angige Zufallsvariablen? Und wenn ja: Wie konstruiert man sie? F¨ur endlich viele unabh¨angige Zufallsvariablen haben wir bereits Beispiele gefunden. Wie aber steht es mit der Existenz von unendlich vielen unabh¨angigen Zufallsvariablen? Diese Frage stellt sich zum Beispiel dann, wenn man ein Modell f¨ur den unendlich oft wiederholten M¨unzwurf bauen m¨ochte, siehe Beispiel (1.3). Nach
70
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
dem negativen Resultat in Satz (1.5) (welches zeigte, dass wir als σ -Algebra nicht einfach die Potenzmenge nehmen k¨onnen) bekommen wir hier (bei Verwendung der Produkt-σ -Algebra) ein positives Ergebnis. Wir beschr¨anken uns auf den Fall abz¨ahlbar vieler Zufallsvariablen. (3.26) Satz: Konstruktion unabh¨angiger Zufallsvariablen mit vorgegebenen Verteilungen. Sei I eine abz¨ahlbare Indexmenge, und f¨ur jedes i ∈ I sei (-i , Fi , Pi ) ein beliebiger Wahrscheinlichkeitsraum. Dann existieren ein Wahrscheinlichkeitsraum (-, F , P ) und unabh¨angige Zufallsvariablen Yi : - → -i mit P ◦ Yi−1 = Pi f¨ur alle i ∈ I . Beweis: Da jede Teilfamilie einer unabh¨angigen Familie von Zufallsvariablen definitionsgem¨aß wieder unabh¨angig ist, k¨onnen wir annehmen, dass I abz¨ahlbar unendlich ist, also (verm¨oge einer geeigneten Abz¨ahlung) I = N. Wir gehen schrittweise vor und unterscheiden dazu verschiedene F¨alle. 1. Fall: F¨ur alle i ∈ N sei -i abz¨ahlbar. Dann folgt die Behauptung aus ¨ Satz (3.12), angewandt auf die Ubergangsdichten k|ω1 ,...,ωk−1 (ωk ) = Pk ({ωk }), und Korollar (3.21a). (Gem¨ a ß dem Beweis von (3.12) k¨onnen wir - = [0, 1[ oder ( - = i≥1 -i w¨ahlen.) 2. Fall: F¨ur alle i ∈ N sei -i = [0, 1] und Pi = U[0,1] die (stetige) Gleichverteilung auf [0, 1]. Dann verschaffen wir uns zun¨achst gem¨aß dem ersten Fall eine (mit N × N indizierte) abz¨ahlbare Familie (Yi,j )i,j ≥1 von unabh¨angigen, {0, 1}-wertigen Zufallsvariablen auf einem geeigneten (-, F , P ) mit P (Yi,j = 1) = P (Yi,j = 0) = 1/2. F¨ur i ∈ N sei dann , Yi = Yi,j 2−j = ϕ ◦ (Yi,j )j ≥1 j ≥1
die Zahl mit Bin¨ar-Entwicklung (Yi,j )j ≥1 . Hierbei ist ϕ : {0, 1}N → [0, 1] mit ' −j ϕ(y1 , y2 , . . . ) = die Abbildung, welche jeder unendlichen Bin¨arj ≥1 yj 2 folge die zugeh¨orige reelle Zahl zuordnet. ϕ ist eine Zufallsvariable bez¨uglich der zugrunde gelegten σ -Algebren P({0, 1})⊗N und B[0,1] . Denn bezeichnet N Xi : {0, {0, 1} die i-te Projektion und hat 0 ≤ m < 2n die Bin¨ar-Darstellung 'n1} → n−k mit yk ∈ {0, 1}, so gilt m = k=1 yk 2 = {X1 = y1 , . . . , Xn = yn } ∈ P({0, 1})⊗N , ϕ −1 2mn , m+1 2n und dies impliziert wegen Bemerkung (1.25) die Behauptung. Weiter gilt in diesem Fall P Yi ∈ 2mn , m+1 = P (Yi,1 = y1 , . . . , Yi,n = yn ) = 2−n . n 2 Insbesondere folgt (wenn man die Intervalle auf einen Punkt schrumpfen l¨asst) P (Yi = m/2n ) = 0 f¨ur alle i, m, n und somit m m+1 −n = U P Yi ∈ 2mn , m+1 = 2 . , n n n [0,1] 2 2 2
71
3.4 Existenz unabh¨angiger Zufallsvariablen, Produktmaße
Der Eindeutigkeitssatz (1.12) ergibt daher die Identit¨at P ◦Yi−1 = U[0,1] . Schließlich impliziert Satz (3.24), dass die Folge (Yi )i≥1 unabh¨angig ist. 3. Fall: F¨ur alle i ∈ N sei -i = R. Gem¨aß dem zweiten Fall existieren unabh¨angige Zufallsvariablen (Yi )i≥1 auf einem Wahrscheinlichkeitsraum (-, F , P ) mit P ◦ Yi−1 = U[0,1] . Wegen U[0,1] (]0, 1[) = 1 gilt P (0 < Yi < 1 f¨ur alle i ≥ 1) = 1. In Proposition (1.30) haben wir gesehen, dass die Quantil-Transformation zu jedem Wahrscheinlichkeitsmaß Pi auf (R, B ) eine Zufallsvariable ϕi : ]0, 1[ → R mit Verteilung U]0,1[ ◦ ϕi−1 = Pi liefert. Die Familie (ϕi ◦ Yi )i≥1 hat dann die gew¨unschten Eigenschaften, denn sie ist nach Satz (3.24) unabh¨angig, und es gilt P ◦ (ϕi ◦ Yi )−1 = U]0,1[ ◦ ϕi−1 = Pi . Allgemeiner Fall: Wenn -i = Rd oder -i ein vollst¨andiger separabler metrischer Raum ist, l¨asst sich auf kompliziertere Weise noch ein ϕi wie im dritten Fall finden. Im allgemeinen Fall l¨asst sich das Existenzproblem jedoch nicht auf die Existenz des Lebesgue-Maßes zur¨uckf¨uhren, man braucht dazu mehr Maßtheorie. Darauf gehen wir hier nicht ein, da wir den Satz nur in den bewiesenen F¨allen ben¨otigen werden, und verweisen etwa auf Durrett [13], Section 1.4.c, und Dudley [12], Theorem 8.2.2. 3 (3.27) Korollar: Existenz unendlicher Produktmaße. Sei (-i , Fi , Pi ),(i ∈ I , eine abz¨ i∈I -i , %ahlbare Familie von Wahrscheinlichkeitsr¨aumen und - = F = F . Dann gibt es genau ein Wahrscheinlichkeitsmaß P auf (-, F ), i i∈I f¨ur welches die Projektionen Xi : - → -i unabh¨angig sind mit Verteilung Pi , d. h. welches die Produktformel P (Xi ∈ Ai f¨ur alle i ∈ J ) =
-
Pi (Ai )
i∈J
f¨ur alle endlichen ∅ = J ⊂ I und Ai ∈ Fi erf¨ullt. Definition: P heißt das Produkt der Pi und wird mit f¨ur alle i ∈ I , mit Q⊗I ) bezeichnet.
% i∈I
Pi oder, wenn Pi = Q
Beweis: Die Eindeutigkeit von P folgt aus dem Eindeutigkeitssatz (1.12), da die Mengen {Xi ∈ Ai f¨ur i ∈ J } mit endlichem ∅ = J ⊂ I und Ai ∈ Fi einen ∩-stabilen Erzeuger von F bilden. Zur Existenz: Seien (Yi )i∈I gem¨aß Satz (3.26) unabh¨angige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (- , F , P ) mit P ◦ Yi−1 = Pi . Dann ist Y = (Yi )i∈I : - → - eine Zufallsvariable, denn f¨ur alle endlichen ∅ = J ⊂ I und Ai ∈ Fi gilt Y −1 {Xi ∈ Ai f¨ur i ∈ J } = {Yi ∈ Ai f¨ur i ∈ J } ∈ F ,
72
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
woraus nach Bemerkung (1.25) die Behauptung folgt. Also ist die Verteilung P = P ◦ Y −1 von Y wohldefiniert, und es gilt P (Xi ∈ Ai f¨ur i ∈ J ) = P (Yi ∈ Ai f¨ur i ∈ J ) P (Yi ∈ Ai ) = Pi (Ai ) . = i∈J
i∈J
P hat also die verlangte Eigenschaft. 3 Der obige Beweis zeigt insbesondere den folgenden Zusammenhang zwischen den Begriffen Unabh¨angigkeit und Produktmaß. (3.28) Bemerkung: Unabh¨angigkeit als Verteilungseigenschaft. Eine abz¨ahlbare Familie (Yi )i∈I von Zufallsvariablen mit Werten in irgendwelchen Ereignisr¨aumen (-i , Fi ) ist genau dann unabh¨angig, wenn & P ◦ Yi−1 , P ◦ (Yi )−1 i∈I = i∈I
also wenn die gemeinsame Verteilung ( der (Yi )i∈I , d. h. die Verteilung des Zufallsvektors Y = (Yi )i∈I mit Werten in i∈I -i , gerade das Produkt der einzelnen Verteilungen P ◦ Yi−1 ist. Der folgende Spezialfall der erzielten Ergebnisse ist von besonderem Interesse. (3.29) Beispiel und Definition: Kanonisches Produktmodell und Bernoulli-Maß. Sei I = N und (-i , Fi , Pi ) = (E, E , Q) f¨ur alle i ∈ N. Nach Korollar (3.27) existiert dann der unendliche Produkt-Wahrscheinlichkeitsraum (E N , E ⊗N , Q⊗N ) als sogenanntes kanonisches Modell f¨ur die unendliche unabh¨angige Wiederholung eines Experiments, das durch (E, E , Q) beschrieben wird. (Dies verallgemeinert das in Abschnitt 2.2.1 eingef¨uhrte endliche Produkt von Wahrscheinlichkeitsmaßen auf endlichen Mengen auf unendliche Produkte und beliebige Ereignisr¨aume.) Im Fall E = {0, 1}, Q({1}) = p ∈ ]0, 1[ heißt Q⊗N das (unendliche) BernoulliMaß oder die unendliche Bernoulli-Verteilung auf {0, 1}N zur Erfolgswahrscheinlichkeit p. (Seine Existenz auf der Produkt-σ -Algebra P({0, 1})⊗N ist das positive Gegenst¨uck zu dem No go theorem“ (1.5).) Entsprechend heißt eine Folge (Yi )i≥1 ” von {0, 1}-wertigen Zufallsvariablen eine Bernoulli-Folge oder ein Bernoulli-Prozess zu p, wenn sie die gemeinsame Verteilung Q⊗N besitzt, also wenn P (Yi = xi f¨ur alle i ≤ n) = p
'n
i=1 xi
(1 − p)
'n
i=1 (1−xi )
f¨ur alle n ≥ 1 und xi ∈ {0, 1}. Die inAbschnitt 2.2.1 eingef¨uhrte Bernoulli-Verteilung auf dem endlichen Produkt {0, 1}n ist dann gerade die gemeinsame Verteilung von (Y1 , . . . , Yn ).
3.4 Existenz unabh¨angiger Zufallsvariablen, Produktmaße
73
Endliche Produktmaße besitzen genau dann eine Dichtefunktion, wenn alle Faktormaße eine Dichtefunktion besitzen. Genauer gilt das Folgende. (3.30) Beispiel: Produktdichten. F¨ur alle i sei -i =%R und Pi habe eine Dichtefunktion i . Dann ist das endliche Produktmaß P = ni=1 Pi auf (Rn , B n ) gerade das Wahrscheinlichkeitsmaß mit der Dichtefunktion (x) =
n -
i (xi )
f¨ur x = (x1 , . . . , xn ) ∈ Rn .
i=1
Denn f¨ur beliebige ci ∈ R gilt P (X1 ≤ c1 , . . . , Xn ≤ cn ) = =
n . -
Pi (]−∞, ci ])
i=1 ci
i=1 −∞
.
i (xi ) dxi =
. =
n -
{X1 ≤c1 ,...,Xn ≤cn }
.
c1
−∞
...
cn
−∞
1 (x1 ) . . . n (xn ) dx1 . . . dxn
(x) dx .
(Das dritte Gleichheitszeichen ergibt sich mit Hilfe des Satzes von Fubini f¨ur Mehrfach-Integrale, siehe etwa [20, 35].) Nach dem Eindeutigkeitssatz (1.12) ist ) daher auch P% (A) = A (x) dx f¨ur alle A ∈ B n . (Man beachte: Das unendliche Produktmaß i≥1 Pi hat keine Dichtefunktion mehr. Das ist schon allein deswegen klar, weil kein Lebesgue-Maß auf RN existiert.) Wir beenden diesen Abschnitt mit einem Begriff, der eng mit dem des Produktmaßes verkn¨upft ist, n¨amlich dem der Faltung. Zur Motivation seien Y1 , Y2 zwei unabh¨angige reellwertige Zufallsvariablen mit Verteilung Q1 bzw. Q2 auf R. Gem¨aß Bemerkung (3.28) hat dann das Paar (Y1 , Y2 ) die Verteilung Q1 ⊗ Q2 auf R2 . Andrerseits ist nach Aufgabe 1.12 Y1 + Y2 ebenfalls eine Zufallsvariable, und es gilt Y1 + Y2 = A ◦ (Y1 , Y2 ) f¨ur die Additionsabbildung A : (x1 , x2 ) → x1 + x2 von R2 nach R. Also hat Y1 + Y2 die Verteilung (Q1 ⊗ Q2 ) ◦ A−1 . Definition: Seien Q1 , Q2 zwei Wahrscheinlichkeitsmaße auf (R, B ). Dann heißt das Wahrscheinlichkeitsmaß Q1 % Q2 := (Q1 ⊗ Q2 ) ◦ A−1 auf (R, B ) die Faltung von Q1 und Q2 . Mit anderen Worten: Q1 % Q2 ist die Verteilung der Summe von zwei beliebigen unabh¨angigen Zufallsvariablen mit Verteilung Q1 bzw. Q2 . Im Fall von Wahrscheinlichkeitsmaßen mit Dichten besitzt die Faltung wieder eine Dichte:
74
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
(3.31) Bemerkung: Faltung von Dichten. In der Situation der Definition gilt: (a) Diskreter Fall: Sind Q1 und Q2 de facto Wahrscheinlichkeitsmaße auf (Z, P(Z)) mit Z¨ahldichten 1 bzw. 2 , so ist Q1 % Q2 das Wahrscheinlichkeitsmaß auf (Z, P(Z)) mit Z¨ahldichte , 1 % 2 (k) := 1 (l) 2 (k − l) , k ∈ Z. l∈Z
(b) Stetiger Fall: Haben Q1 und Q2 jeweils eine Dichtefunktion 1 bzw. 2 , so hat Q1 % Q2 die Dichtefunktion . 1 % 2 (x) := 1 (y) 2 (x − y) dy , x ∈ R. Beweis: Im Fall (a) k¨onnen wir f¨ur k ∈ Z schreiben , Q1 ⊗ Q2 (A = k) = 1 (l1 ) 2 (l2 ) = 1 % 2 (k) . l1 ,l2 ∈Z: l1 +l2 =k
Im Fall (b) erhalten wir mit Beispiel (3.30) und den Substitutionen x1 y, x2 x = y + x2 durch Vertauschung der Doppelintegrale . . . c 1 % 2 (x) dx Q1 ⊗ Q2 (A ≤ c) = dy 1 (y) dx 2 (x − y) 1{x≤c} = −∞
f¨ur beliebiges c ∈ R, und die Behauptung folgt aus Bemerkung (1.31). 3 In einigen wichtigen F¨allen bleibt der Typ der Verteilung bei der Bildung von Faltungen erhalten, so zum Beispiel bei den Normalverteilungen: (3.32) Beispiel: Faltung von Normalverteilungen. F¨ur alle m1 , m2 ∈ R, v1 , v2 > 0 gilt Nm1 ,v2 % Nm2 ,v2 = Nm1 +m2 ,v1 +v2 , d. h. bei der Faltung von Normalverteilungen addieren sich einfach die Parameter. Die Normalverteilungen bilden daher eine zweiparametrige Faltungshalbgruppe“. Zum Beweis setze man ohne Ein” schr¨ankung m1 = m2 = 0. Eine kurze Rechnung zeigt dann, dass f¨ur alle x, y ∈ R φ0,v1 (y) φ0,v2 (x − y) = φ0,v1 +v2 (x) φxu,v2 u (y) mit u = v1 /(v1 +v2 ). Durch Integration u¨ ber y ergibt sich zusammen mit Bemerkung (3.31b) die Behauptung. Weitere Beispiele folgen in Korollar (3.36), Aufgabe 3.12 und Abschnitt 4.4.
75
3.5 Der Poisson-Prozess
3.5
Der Poisson-Prozess
Die Existenz von unendlich vielen unabh¨angigen Zufallsvariablen mit vorgegebener Verteilung versetzt uns in die Lage, das in den Abschnitten 2.4 und 2.5.2 betrachtete Modell f¨ur rein zuf¨allige Zeitpunkte zu pr¨azisieren. Aus Abschnitt 2.5.2 wissen wir, dass die Wartezeit auf den ersten Zeitpunkt exponentialverteilt ist, und die Heuristik in Abschnitt 2.4 legt nahe, dass die Differenzen zwischen aufeinander folgenden Punkten unabh¨angig sind. Wir machen deshalb folgenden Ansatz: Sei α > 0 und (Li )i≥1 eine Folge von unabh¨angigen, gem¨aß α exponentialverteilten Zufallsvariablen auf einem geeigneten Wahrscheinlichkeitsraum (-, F , P ); Satz (3.26) garantiert die Existenz solch einer Folge. Wir interpretieren Li als L¨ucke zwischen dem (i − 1)-ten und i-ten Punkt; ' dann ist Tk = ki=1 Li der k-te zuf¨allige Zeitpunkt; vgl. Abbildung 3.4. Sei Nt =
(3.33)
,
1]0,t] (Tk )
k≥1
die Anzahl der Punkte im Intervall ]0, t]. F¨ur s < t ist dann Nt − Ns die Anzahl der Punkte in ]s, t]. 0 |=
<; L1
T1 T2 T3 > • =<;> • = <; > • = L2 L3
<; L4
T4 T5 T6 > • = <; > • =<;> • L6 L5
-
Abbildung 3.4: Zur Definition des Poisson-Prozesses Nt . Die Li sind unabh¨angig und exponentialverteilt. F¨ur t ∈ [Tk , Tk+1 [ ist Nt = k.
(3.34) Satz: Konstruktion des Poisson-Prozesses. Die Nt sind Zufallsvariablen, und f¨ur 0 = t0 < t1 < · · · < tn sind die Differenzen Nti − Nti−1 voneinander unabh¨angig und Poisson-verteilt zum Parameter α(ti − ti−1 ), 1 ≤ i ≤ n. Definition: Eine Familie (Nt )t≥0 von Zufallsvariablen mit den in Satz (3.34) genannten Eigenschaften heißt ein Poisson-Prozess zur Intensit¨at α > 0. Die Unabh¨angigkeit der Punkteanzahlen in disjunkten Intervallen zeigt, dass der Poisson-Prozess tats¨achlich rein zuf¨allige Zeitpunkte modelliert. Beweis: Da {Nt = k} = {Tk ≤ t < Tk+1 } und die Tk wegen Aufgabe 1.12 Zufallsvariablen sind, ist jedes Nt eine Zufallsvariable. Zum Hauptteil des Beweises beschr¨anken wir uns aus schreibtechnischen Gr¨unden auf den Fall n = 2; der allgemeine Fall folgt analog.
76
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
Sei also 0 < s < t, k, l ∈ Z+ . Wir zeigen (αs)k −α(t−s) (α(t − s))l e . P (Ns = k, Nt − Ns = l) = e−αs k! l!
(3.35)
Durch Summation u¨ ber l bzw. k sieht man dann insbesondere, dass Ns und Nt − Ns Poisson-verteilt sind, und ihre Unabh¨angigkeit folgt dann unmittelbar. Gem¨aß Beispiel (3.30) hat die Verteilung von (Lj )1≤j ≤k+l+1 die Produktdichte x = (x1 , . . . , xk+l+1 ) → α k+l+1 e−ατk+l+1 (x) , wobei τj (x) = x1 + · · · + xj gesetzt wurde. Somit ist im Fall l ≥ 1 P (Ns = k, Nt − Ns = l) = P (Tk ≤ s < Tk+1 ≤ Tk+l ≤ t < Tk+l+1 ) . ∞ . ∞ ... dx1 . . . dxk+l+1 α k+l+1 e−ατk+l+1 (x) = 0
0
· 1{τk (x) ≤ s < τk+1 (x) ≤ τk+l (x) ≤ t < τk+l+1 (x)} ,
und im Fall l = 0 ergibt sich eine analoge Formel. Wir integrieren schrittweise von innen nach außen. Bei festgehaltenem x1 , . . . , xk+l liefert die Substitution z = τk+l+1 (x) . ∞ . ∞ −ατk+l+1 (x) dxk+l+1 αe 1{τk+l+1 (x)>t} = dz αe−αz = e−αt . 0
t
Bei festgehaltenem x1 , . . . , xk liefert die Substitution y1 = τk+1 (x) − s, y2 = xk+2 , . . . , yl = xk+l . ∞ . ∞ ... dxk+1 . . . dxk+l 1{s<τk+1 (x)≤τk+l (x)≤t} 0
. =
0 ∞
.
∞
... 0
0
dy1 . . . dyl 1{y1 +···+yl ≤t−s} =
(t − s)l . l!
Die letzte Gleichung folgt zum Beispiel durch Induktion u¨ ber l. (Im Fall l = 0 tritt dieses Integral nicht auf und kann formal = 1 gesetzt werden.) F¨ur das restliche Integral folgt genauso . ∞ . ∞ sk ... dx1 . . . dxk 1{τk (x)≤s} = k! 0 0 Aus allem zusammen ergibt sich P (Ns = k, Nt − Ns = l) = e−αt α k+l und somit (3.35). 3
s k (t − s)l k! l!
77
3.5 Der Poisson-Prozess
Der Poisson-Prozess ist das prototypische stochastische Modell f¨ur zuf¨allige Zeitpunkte. Er pr¨azisiert den heuristischen Ansatz in Abschnitt 2.4 und liefert uns nebenbei die folgenden Faltungsaussagen. (3.36) Korollar: Faltung von Poisson- und Gammaverteilungen. F¨ur beliebige Parameter λ, µ > 0 gilt Pλ %Pµ = Pλ+µ , und f¨ur α > 0, r, s ∈ N ist Γα,r %Γα,s = Γα,r+s . Beweis: Sei (Nt )t≥0 der oben konstruierte Poisson-Prozess zum Parameter α > 0, und sei zun¨achst α = 1. Nach Satz (3.34) sind dann die Zufallsvariablen Nλ und Nλ+µ − Nλ unabh¨angig mit Verteilung Pλ bzw. Pµ , und ihre Summe Nλ+µ ist Pλ+µ -verteilt. Die erste Behauptung ' folgt daher aus der Definition der Faltung. Sei nun α beliebig und Tr = ri=1 Li der r-te Zeitpunkt des Poisson-Prozesses. Als Summe unabh¨angiger exponentialverteilter Zufallsvariablen hat Tr dieVerteilung Eα%r . Andrerseits gilt f¨ur jedes t > 0 P (Tr ≤ t) = P (Nt ≥ r) = 1 − Pαt ({0, . . . , r − 1}) = Γα,r (]0, t]) . Dabei folgt die erste Gleichung aus der Definition von Nt , die zweite aus Satz (3.34), und die dritte aus (2.19). Also ist Eα%r = Γα,r , und daraus folgt die zweite Behauptung. 3 Man rechnet u¨ brigens leicht nach, dass die Beziehung Γα,r % Γα,s = Γα,r+s auch f¨ur nicht ganzzahlige r, s gilt, siehe Aufgabe 3.12 und Korollar (9.9).
Als eines der fundamentalen Modelle der Stochastik ist der Poisson-Prozess ein Ausgangspunkt f¨ur vielf¨altige Modifikationen und Verallgemeinerungen. Wir erw¨ahnen hier nur zwei Beispiele. (3.37) Beispiel: Der Compound-Poisson Prozess. Sei (Nt )t≥0 ein Poisson-Prozess zu einer Intensit¨at α > 0. F¨ur jedes festes ω ∈ - ist der Pfad“ t → Nt (ω) eine ” st¨uckweise konstante Funktion, welche zu den Zeiten Tk (ω) einen Sprung der H¨ohe 1 macht. Wir ver¨andern diesen Prozess jetzt in der Weise, dass auch die Sprungh¨ohen zuf¨allig werden. Sei (Zi )i≥1 eine Folge von unabh¨angigen reellen Zufallsvariablen, welche ebenfalls von (Nt )t≥0 unabh¨angig sind und alle dieselbe Verteilung Q auf (R, B ) haben. (Solche Zufallsvariablen existieren wegen Satz (3.26).) Dann heißt die Folge (St )t≥0 mit Nt , Zi , t ≥ 0, St = i=0
der zusammengesetzte (oder einpr¨agsamer auf Englisch: Compound-) PoissonProzess zur Sprungverteilung Q und Intensit¨at α. Sind alle Zi ≥ 0, so modelliert dieser Prozess zum Beispiel den Verlauf der Schadensforderungen an eine Versicherungsgesellschaft: Die Forderungen werden geltend gemacht zu den Sprungzeitpunkten des Poisson-Prozesses (Nt ), und Zi ist die H¨ohe des i-ten Schadens. Ber¨ucksichtigt man noch die regelm¨aßigen Beitragszahlungen der Versicherungsnehmer in Form
78
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
eines stetigen Kapitalzuwachses mit Rate c > 0, so wird der Nettoverlust der Versicherungsgesellschaft im Intervall [0, t] beschrieben durch den Prozess Vt = St − ct, t ≥ 0. Dies ist ein Grundmodell des Versicherungswesens. Von Interesse ist die Ruinwahrscheinlichkeit“ r(a) = P (supt≥0 Vt > a) daf¨ur, dass der Gesamtverlust ” irgendwann die Kapitalreserve a > 0 u¨ bersteigt. Da bei der Bildung des Supremums u¨ ber Vt nur die Sprungzeitpunkte Tk ber¨ucksichtigt werden m¨ussen, kann man mit Hilfe der Li aus Abbildung 3.4 auch schreiben r(a) = P
k , (Zi − cLi ) > a . sup k≥1 i=1
Mehr dazu findet man z. B. in [16], Sections VI.5 und XII.5. Abbildung 3.5 zeigt eine Simulation von (Vt )t≥0 .
0
5
10
15
20
25
Abbildung 3.5: Simulation des Verlustprozesses (Vt ) f¨ur Q = U]0,1[ , α = 2, c = 1.1.
(3.38) Beispiel: Der Poisson’sche Punktprozess in R2 . Bisher haben wir den PoissonProzess als ein Modell f¨ur zuf¨allige Zeitpunkte in [0, ∞[ betrachtet. In vielen Anwendungen interessiert man sich aber auch f¨ur zuf¨allige Punkte im Raum. Man denke etwa an die Teilchenpositionen eines idealen Gases oder die Lage der Poren in einem Fl¨ussigkeitsfilm. Wir beschr¨anken uns hier auf zuf¨allige Punkte in einem Fenster“ = [0, L]2 ” der Ebene. Sei α > 0 und (Nt )t≥0 ein Poisson-Prozess zur Intensit¨at αL mit Sprungzeiten (Tk )k≥1 , sowie (Zi )i≥1 eine davon unabh¨angige Folge von unabh¨angigen Zufallsvariablen jeweils mit Gleichverteilung U[0,L] auf [0, L]. Dann heißt die zuf¨allige Punktmenge ξ = (Tk , Zk ) : 1 ≤ k ≤ NL der Poisson’sche Punktprozess auf zur Intensit¨at α. (F¨ur eine andere Konstruktion von ξ siehe Aufgabe 3.20.) Zeichnet man um jeden Punkt (Tk , Zk ) ∈ ξ einen Kreis mit zuf¨alligem Radius Rk > 0, so erh¨alt man eine zuf¨allige Menge , welche Boole’sches Modell heißt und in der stochastischen Geometrie als Basismodell zuf¨alliger Strukturen dient. Weiteres dazu findet man z. B. in [41, 58]. Zwei simulierte Realisierungen von mit konstantem Rk = 1 und verschiedenem α sind in Abbildung 3.6 dargestellt.
3.6 Simulationsverfahren
79
Abbildung 3.6: Simulationen des Boole-Modells: L = 15, α = 0.4 und 1.4.
3.6
Simulationsverfahren
Hat man f¨ur eine konkrete Anwendungssitutation ein stochastisches Modell entwickelt, so m¨ochte man sich oft einen ersten Eindruck davon verschaffen, wie sich das Modell verh¨alt und ob die erwarteten Ph¨anomene sich in diesem Modell wirklich zeigen. Dazu ist die experimentelle Stochastik“ durch die sogenannte Monte-Carlo ” Simulation ein n¨utzliches Hilfsmittel; zwei Beispiele daf¨ur haben wir in den Abbildungen 3.5 und 3.6 gesehen. Im Folgenden sollen ein paar grundlegende Simulationsverfahren vorgestellt werden. Vergegenw¨artigen wir uns noch einmal den Beweis von Satz (3.26). Dieser lieferte uns mehr als die bloße Existenz unabh¨angiger Zufallsvariablen: im zweiten Fall haben wir gesehen, wie man aus einer Bernoulli-Folge (mit Hilfe der bin¨aren Entwicklung) unabh¨angige U[0,1] -verteilte Zufallsvariablen konstruieren kann, und im dritten Fall, wie man aus letzteren mit Hilfe der Quantil-Transformation (1.30) solche mit beliebiger Verteilung in R erzeugen kann. Dies waren zwei Beispiele f¨ur die allgemeine Frage: Wie beschafft man sich mit Hilfe von bekannten Zufallsvariablen neue Zufallsvariablen mit bestimmten Eigenschaften? Diese Frage ist auch das Grundprinzip bei der Computersimulation, bei der man von unabh¨angigen, auf [0, 1] gleichverteilten Zufallsvariablen ausgeht und sich daraus neue Zufallsvariablen mit den gew¨unschten Eigenschaften konstruiert. Wir f¨uhren dies anhand einiger Beispiele vor. Zuerst zwei einfache Anwendungen der Quantil-Transformation, die in diesem Zusammenhang auch Inversionsmethode genannt wird. (3.39) Beispiel: Simulation von Binomial-Verteilungen. F¨ur 0 < p < 1 und unabh¨angige U[0,1] -verteilte Zufallsvariablen U1 , . . . , Un bilden die Zufallsvariablen Xi = 1{Ui ≤p} ' wegen Satz (3.24) eine Bernoulli-Folge zu p. Nach Satz (2.9) hat daher S = ni=1 Xi die Binomial-Verteilung Bn,p . (Man u¨ berlege sich, dass die Konstruktion von Xi ein Spezialfall der Quantil-Transformation ist.)
80
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
(3.40) Beispiel: Simulation von Exponential-Verteilungen. Seien Ui , i ≥ 1, unabh¨angige U[0,1] -verteilte Zufallsvariablen und α > 0. Dann sind die Zufallsvariablen Xi = −(log Ui )/α (wegen Satz (3.24) ebenfalls unabh¨angig und) zum Parameter α exponentialverteilt, denn f¨ur alle c > 0 gilt P (Xi ≥ c) = P (Ui ≤ e−αc ) = e−αc . (Man u¨ berzeuge sich wieder, dass auch dies eine leichte Modifikation der Quantil-Transformation ist.) Kombiniert man das letzte Beispiel mit der Konstruktion des Poisson-Prozesses in Satz (3.34), so erh¨alt man ein bequemes Verfahren zur Simulation von Poissonverteilten Zufallsvariablen: (3.41) Beispiel: Simulation von Poisson-Verteilungen. Seien Ui , i ≥ 1, unabh¨angige U[0,1] -verteilte Zufallsvariablen. Dann sind die Zufallsvariablen Li = − log Ui nach dem letzten Beispiel 'unabh¨angig und zum Parameter 1 exponentialverteilt. Bezeichnet man mit Tk = ki=1 Li die k-te Partialsumme, so ist nach Satz (3.34) f¨ur jedes λ > 0 die Zufallsvariable Nλ = min{k ≥ 1 : Tk > λ} − 1 = min{k ≥ 1 : U1 . . . Uk < e−λ } − 1 (welche mit der in (3.33) u¨ bereinstimmt!) Pλ -verteilt. Dies liefert den folgenden Algorithmus zur Simulation einer Poisson-verteilten Zufallsvariablen Nλ , den wir in Pseudo-Code angeben: v ← 1, k ← −1 repeat v ← U v , k ← k + 1 until v < e−λ Nλ ← k
(Hierbei steht U f¨ur eine jeweils neu erzeugte Zufallszahl in [0, 1].)
Leider ist die Inversionsmethode nicht immer praktikabel, und zwar dann, wenn die gew¨unschte Verteilungsfunktion numerisch nicht ohne Weiteres zug¨anglich ist. Eine Alternative bietet dann das folgende allgemeine Prinzip, das auf J. von Neumann (1903–1957) zur¨uckgeht. (3.42) Beispiel: Verwerfungsmethode und bedingte Verteilungen. Sei (Zn )n≥1 eine Folge von unabh¨angigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (-, F , P ) mit Werten in einem beliebigen Ereignisraum (E, E ) und identischer Verteilung Q, d. h. es sei P ◦ Zn−1 = Q f¨ur alle n. Sei B ∈ E ein Ereignis mit Q(B) > 0. Wie k¨onnen wir aus den Zn eine Zufallsvariable Z ∗ mit der bedingten Verteilung Q( · | B) konstruieren? Die Idee ist die folgende: Wir beobachten die Zn der Reihe nach, ignorieren alle n mit Zn ∈ B, und setzen Z ∗ = Zn f¨ur das erste n mit Zn ∈ B. Genauer: Sei τ = inf{n ≥ 1 : Zn ∈ B} der Zeitpunkt des ersten Treffers. Gem¨aß Abschnitt 2.5.1 ist τ geometrisch verteilt zum Parameter p = Q(B). Insbesondere ist P (τ < ∞) = 1, d. h. der theoretische
81
3.6 Simulationsverfahren
Fall, dass Zn ∈ B f¨ur alle n und daher τ = ∞, tritt nur mit Wahrscheinlichkeit 0 ein. Setze Z ∗ = Zτ , d. h. Z ∗ (ω) = Zτ (ω) (ω) f¨ur alle ω mit τ (ω) < ∞, und (zum Beispiel) Z ∗ (ω) = Z1 (ω) f¨ur die restlichen ω (die de facto keine Rolle spielen). Dann gilt in der Tat f¨ur alle A ∈ E P (Z ∗ ∈ A) =
∞ , P Zn ∈ A, τ = n n=1
∞ , P Z1 ∈ B, . . . , Zn−1 ∈ B, Zn ∈ A ∩ B =
=
n=1 ∞ ,
(1 − Q(B))n−1 Q(A ∩ B) = Q(A|B) ,
n=1
wie behauptet. Die Verwerfungsmethode l¨asst sich wie folgt zur Computersimulation von Zufallsvariablen mit existierender Verteilungsdichte verwenden. (3.43) Beispiel: Monte-Carlo Simulation mit der Verwerfungsmethode. Sei [a, b] ein kompaktes Intervall und eine Wahrscheinlichkeitsdichte auf [a, b]. sei beschr¨ankt, d. h. es gebe ein c > 0 mit 0 ≤ (x) ≤ c f¨ur alle x ∈ [a, b]. Seien Un , Vn , n ≥ 1, unabh¨angige Zufallsvariablen mit Gleichverteilung U[0,1] auf dem Einheitsintervall. Dann sind die Zufallsvariablen Zn = (Xn , Yn ) := (a + (b − a)Un , cVn ) unabh¨angig mit Gleichverteilung U[a,b]×[0,c] . Sei τ = inf n ≥ 1 : Yn ≤ (Xn ) und Z ∗ = (X∗ , Y ∗ ) = (Xτ , Yτ ). Nach Beispiel (3.42) ist dann Z ∗ gleichverteilt auf B = {(x, y) : a ≤ x ≤ b, y ≤ (x)}. Folglich gilt f¨ur alle A ∈ B[a,b] . ∗ P (X ∈ A) = UB (x, y) : x ∈ A, y ≤ (x) = (x) dx , A
X∗
hat die Verteilungsdichte . Die Konstruktion von X ∗ entspricht dem fold. h. genden simplen, in Pseudo-Code notierten Algorithmus: repeat u ← U , v ← V until cv ≤ (a + (b − a)u) X∗ ← cv
(U, V ∈ [0, 1] werden bei jedem Aufruf neu zuf¨allig erzeugt gem¨aß U[0,1] , unabh¨angig voneinander und von allem Bisherigen.)
(Im Fall einer Z¨ahldichte auf einer endlichen Menge {0, . . . , N − 1} bekommt man einen analogen Algorithmus, indem man die Dichtefunktion x → (&x') auf dem Intervall [0, N [ betrachtet.)
82
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
Zur Simulation von normalverteilten Zufallsvariablen kann man die folgende Kombination der Verwerfungsmethode mit einer geeigneten Transformation verwenden. (3.44) Beispiel: Polarmethode zur Simulation von Normalverteilungen. Sei K = {x ∈ R2 : |x| ≤ 1} die Einheitskreisscheibe und Z = (Z1 , Z2 ) eine K-wertige Zufallsvariable mit Gleichverteilung UK auf K; Z kann zum Beispiel mit Hilfe der Verwerfungsmethode in Beispiel (3.42) aus einer Folge von Zufallsvariablen mit Gleichverteilung auf [−1, 1]2 gewonnen werden. Sei 7 Z . X = (X1 , X2 ) = 2 − log |Z| |Z| Dann sind die Koordinatenvariablen X1 und X2 unabh¨angig und N0,1 -verteilt. Um dies zu zeigen, betrachten wir wie in Beispiel (3.23) die Polarkoordinaten 2 R, $ von Z. Wie wir dort gesehen 7 haben, sind R und $ unabh¨angig mit Verteilung 2 U[0,1] und U[0,2π [ . Sei S = −2 log R . Dann sind nach Satz (3.24) S und $ 2 unabh¨angig, und S hat die Verteilungsdichte s → s e−s /2 auf [0, ∞[, denn f¨ur alle c > 0 gilt . c 2 2 −c2 /2 −c2 /2 )=1−e = s e−s /2 ds . P (S ≤ c) = P (R ≥ e 0
Nun ist offenbar X = (S cos $, S sin $), also f¨ur alle A ∈ B 2 verm¨oge der Transformation zweidimensionaler Integrale in Polarkoordinaten . 2π . ∞ 1 2 P (X ∈ A) = dϕ ds s e−s /2 1A (s cos ϕ, s sin ϕ) 2π 0 . . 0 1 2 2 dx1 dx2 e−(x1 +x2 )/2 1A (x1 , x2 ) = N0,1 ⊗ N0,1 (A) ; = 2π die letzte Gleichung ergibt sich aus Beispiel (3.30). Die Unabh¨angigkeit von X1 und X2 folgt somit aus Bemerkung (3.28). Die obige Konstruktion liefert uns den folgenden Algorithmus zur Erzeugung von zwei unabh¨angigen N0,1 -verteilten Zufallsvariablen X1 , X2 , den wir wieder in Pseudo-Code notieren: repeat u ← 2U − 1, v ← 2V − 1, w ← u2 + v 2 until w≤1 7 a ← (−2 log w)/w , X1 ← au, X2 ← av
(U, V ∈ [0, 1] werden bei jedem Aufruf neu und unabh¨angig erzeugt gem¨aß U[0,1] .)
In den vorangegangenen Beispielen haben wir jeweils ein Verfahren gefunden, das uns aus unabh¨angigen U[0,1] -verteilten Zufallsvariablen neue Zufallsvariablen
3.7 Asymptotische Ereignisse
83
mit einer gew¨unschten Verteilungsdichte beschert. All diese Verfahren reduzieren das Problem der Simulation von Zufallsvariablen mit einer vorgegebenen Verteilung auf das der Simulation von unabh¨angigen U[0,1] -Variablen. Wie kann dies geschehen? Dazu die folgende (3.45) Bemerkung: Zufallszahlen. Zuf¨allige Realisierungen von unabh¨angigen U[0,1] -verteilten Zufallsvariablen heißen Zufallszahlen. Sie lassen sich in Tabellen oder im Internet finden. Zum Teil sind diese durch wirklichen Zufall erzeugt, siehe z. B. unter http://www.rand.org/publications/classics/randomdigits/ In der Praxis benutzt man allerdings meist als Ersatz so genannte PseudoZufallszahlen, die alles andere als zuf¨allig, n¨amlich deterministisch errechnet sind. Ein Standardschema zur Erzeugung von Pseudo-Zufallszahlen ist die folgende lineare Kongruenzmethode: Man w¨ahlt einen Modul“ m (zum Beispiel m = 232 ) sowie (mit viel Geschick) ” einen Faktor a ∈ N und ein Inkrement b ∈ N. Dann w¨ahlt man willk¨urlich eine Saat“ ” k0 ∈ {0, . . . , m − 1} (z. B. in Abh¨angigkeit vom internen Takt des Prozessors) und setzt iterativ ki+1 = a ki +b mod m. Die Pseudo-Zufallszahlen bestehen dann aus der Folge ui = ki /m, i ≥ 1. Bei geeigneter Wahl von a, b hat die Folge (ki ) genau die Periode m (wiederholt sich also nicht schon nach weniger Iterationen), und besteht außerdem einige statistische Tests auf Unabh¨angigkeit. (Das ist zum Beispiel der Fall f¨ur a = 69069, b = 1; Marsaglia 1972.) Pseudo-Zufallszahlen stehen in g¨angigen Programmen bereits standardm¨aßig zur Verf¨ugung – was einen aber nicht von der Aufgabe befreit zu u¨ berpr¨ufen, ob sie im konkreten Fall auch geeignet sind. (Zum Beispiel hatte der in den 1960er Jahren recht verbreitete Zufallsgenerator randu von IBM (mit a = 65539, b = 0, m = 231 und Periode 229 ) die Eigenschaft, dass die aufeinanderfolgenden Tripel (ui , ui+1 , ui+2 ) in nur 15 verschiedenen parallelen Ebenen des R3 liegen, was sicher nicht gerade ein Kennzeichen von Zuf¨alligkeit ist! Dass allerdings solche Gitterstrukturen auftreten, liegt in der Natur der linearen Kongruenzmethode. Es kommt nur darauf an, diese Gitterstruktur m¨oglichst fein zu gestalten.) Ein Standardwerk zum Thema Pseudo-Zufallszahlen ist Knuth [33].
3.7 Asymptotische Ereignisse Die Existenz von unendlichen Modellen, wie wir sie in den S¨atzen (3.12) und (3.26) sichergestellt haben, ist nicht etwa nur von theoretischem Interesse, sondern er¨offnet uns eine ganz neue Perspektive: Es ist jetzt m¨oglich, Ereignisse zu definieren und zu untersuchen, welche das Langzeit-Verhalten eines Zufallsprozesses betreffen. Sei (-, F , P ) ein Wahrscheinlichkeitsraum und (Yk )k≥1 eine Folge von Zufallsvariablen auf (-, F ) mit Werten in irgendwelchen Ereignisr¨aumen (-k , Fk ).
84
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
Definition: Ein Ereignis A ∈ F heißt asymptotisch f¨ur (Yk )k≥1 , wenn% f¨ur alle n ≥ 0 gilt: A h¨angt nur von (Yk )k>n ab, d. h. es existiert ein Ereignis Bn ∈ k>n Fk mit A = {(Yk )k>n ∈ Bn } .
(3.46)
Sei A (Yk : k ≥ 1) das System aller asymptotischen Ereignisse. Man stellt sofort fest, dass A (Yk : k ≥ 1) eine Unter-σ -Algebra von F ist; sie heißt die asymptotische σ -Algebra der Folge (Yk )k≥1 . Man k¨onnte nun meinen: Da ein Ereignis A ∈ A (Yk : k ≥ 1) nicht von Y1 , . . . , Yn abh¨angen darf, und zwar f¨ur alle n, darf A von gar nichts abh¨angen“, und also muss entweder A = - oder ” A = ∅ sein. Das aber stimmt keineswegs! A (Yk : k ≥ 1) enth¨alt alle Ereignisse, die das asymptotische Verhalten von (Yk )k≥1 betreffen. Dies wird in den folgenden Beispielen deutlich. (3.47) Beispiel: Limes Superior von Ereignissen. F¨ur beliebige Ak ∈ Fk sei 0 / A = {Yk ∈ Ak f¨ur unendlich viele k } = {Yk ∈ Ak } . m≥1 k≥m
Man schreibt auch A = lim supk→∞ {Yk ∈ Ak }, denn f¨ur die Indikatorfunktion gilt ein asymptotisches Ereignis f¨ur 1A = lim supk→∞ 1{Yk ∈Ak } . Jedes solche A ist ( (Yk )k≥1 . Sei n¨amlich n ≥ 0 beliebig und Xi : k>n -k → -i die Projektion auf die Koordinate Nr. i. Dann geh¨ort das Ereignis 0 / Bn = {Xk ∈ Ak } zu
%
m>n k≥m k>n Fk ,
und es gilt (3.46).
(3.48) Beispiel: Existenz von Langzeit-Mittelwerten. Sei (-k , Fk ) = (R, B ) f¨ur alle k. Dann ist f¨ur beliebige a < b das Ereignis A=
5
N 6 1 , Yk existiert und liegt in [a, b] N→∞ N
lim
k=1
asymptotisch f¨ur (Yk )k≥1 . Denn da die Existenz und der Wert eines Langzeitmittels nicht von einer Verschiebung der Indizes abh¨angt, gilt f¨ur beliebiges n ≥ 0 die Gleichung (3.46) mit Bn = (
5
N 6 1 , Xn+k existiert und liegt in [a, b] ; N→∞ N
lim
k=1
hier wieder die i-te Projektion. Da jedes solche Xi Xi : k>n R → R bezeichnet % eine Zufallsvariable bez¨uglich k>n B ist, geh¨ort nach Aufgabe 1.12 auch Bn zu dieser σ -Algebra.
85
3.7 Asymptotische Ereignisse
Das Bemerkenswerte ist nun, dass f¨ur unabh¨angige Zufallsvariablen (Yk )k≥1 die Ereignisse in A (Yk : k ≥ 1) (obgleich im Allgemeinen keineswegs trivial) trotzdem fast trivial“ sind. ” (3.49) Satz: Null-Eins Gesetz von Kolmogorov. Seien (Yk )k≥1 unabh¨angige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (-, F , P ) mit beliebigen Wertebereichen. Dann gilt f¨ur alle A ∈ A (Yk : k ≥ 1) entweder P (A) = 0 oder P (A) = 1. Beweis: ( Sei A ∈ A (Yk : k ≥ 1) fest gew¨ahlt und G das System aller Mengen C ⊂ k≥1 -k von der Form C = {X1 ∈ C1 , . . . , Xn ∈ Cn } , n ≥ 1, Ck ∈ Fk . % G ist ein ∩-stabiler Erzeuger von k≥1 Fk ; siehe das analoge Resultat in Aufgabe , . . . , Xn ∈ Cn } ∈ G ist nach Satz (3.24) die Indikator1.5. F¨ur C = {X1 ∈ C1( funktion 1{(Yk )k≥1 ∈C} = nk=1 1Ck (Yk ) unabh¨angig von 1A = 1{(Yk )k>n ∈Bn } . Wegen Satz (3.19) ist daher (Yk )k≥1 unabh¨angig von 1A . Also ist auch A = {(Yk )k≥1 ∈ B0 } unabh¨angig von A = {1A = 1}, d. h. es gilt P (A ∩ A) = P (A)P (A) und daher P (A) = P (A)2 . Die Gleichung x = x 2 hat aber nur die L¨osungen 0 und 1. 3 Man m¨ochte nun entscheiden, welcher der beiden F¨alle eintritt. Das ist meist nur im konkreten Einzelfall m¨oglich. F¨ur Ereignisse wie in Beispiel (3.47) gibt es jedoch ein bequemes Kriterium. (3.50) Satz: Lemma von Borel-Cantelli, 1909/1917. Sei (Ak )k≥1 eine Folge von Ereignissen in einem Wahrscheinlichkeitsraum (-, F , P ) und A := {ω ∈ - : ω ∈ Ak f¨ur unendlich viele k} = lim sup Ak . k→∞
(a) Ist (b) Ist
' '
k≥1 P (Ak )
< ∞, so ist P (A) = 0.
k≥1 P (Ak )
= ∞ und (Ak )k≥1 unabh¨angig, so ist P (A) = 1.
Man beachte, dass Aussage (a) keine Unabh¨angigkeitsannahme ben¨otigt. * ' Beweis: (a) Es gilt A ⊂ k≥m Ak und daher P (A) ' ≤ k≥m P (Ak ) f¨ur alle m. Im Limes m → ∞ strebt*diese+ Summe gegen 0, wenn k≥1 P (Ak ) < ∞. c (b) Es gilt A = m≥1 k≥m Ack und daher + n , + , P (Ac ) ≤ P Ack = lim P Ack m≥1
=
, m≥1
≤
,
m≥1
k≥m
lim
n→∞
n -
m≥1
n→∞
k=m
[1 − P (Ak )]
k=m
3 ' 4 , n lim exp − P (Ak ) = 0 = 0,
n→∞
k=m
m≥1
86
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
' falls k≥1 P (Ak ) = ∞. Dabei haben wir ausgenutzt, dass wegen Korollar (3.20) auch die Ereignisse (Ack )k≥1 unabh¨angig sind, und dass stets 1 − x ≤ e−x . 3 Das Lemma von Borel-Cantelli wird sp¨ater in den Abschnitten 5.1.3 und 6.4 f¨ur uns wichtig werden. An dieser Stelle begn¨ugen wir uns mit einer einfachen Anwendung auf die Zahlentheorie: (3.51) Beispiel: Teilbarkeit durch Primzahlen. F¨ur jede Primzahl p sei Ap die Menge aller Vielfachen von p. Dann gibt es kein Wahrscheinlichkeitsmaß P auf (N, P(N)), ' f¨ur welches die Ereignisse Ap unabh¨angig sind mit P (Ap ) = 1/p. Denn da p Primzahl 1/p = ∞ , h¨atte dann das unm¨ogliche Ereignis A = {n ∈ N : n ist Vielfaches von unendlich vielen Primzahlen} Wahrscheinlichkeit 1 .
Aufgaben 3.1. In einem Laden ist eine Alarmanlage eingebaut, die im Falle eines Einbruchs mit Wahrscheinlichkeit 0.99 die Polizei alarmiert. In einer Nacht ohne Einbruch wird mit Wahrscheinlichkeit 0.002 Fehlalarm ausgel¨ost (z. B. durch eine Maus). Die Einbruchswahrscheinlichkeit f¨ur eine Nacht betr¨agt 0.0005. Die Anlage hat gerade Alarm gegeben. Mit welcher Wahrscheinlichkeit ist ein Einbruch im Gange? 3.2. Gefangenenparadox. In einem Gef¨angnis sitzen drei zum Tode verurteilte Gefangene Anton, Brigitte und Clemens. Mit Hilfe eines Losentscheids, bei dem alle drei die gleiche Chance hatten, wurde eine(r) der Gefangenen begnadigt. Der Gefangene Anton, der also eine ¨ Uberlebenswahrscheinlichkeit von 1/3 hat, bittet den W¨arter, der das Ergebnis des Losentscheids kennt, ihm einen seiner Leidensgenossen Brigitte und Clemens zu nennen, der oder die sterben muss. Der W¨arter antwortet Brigitte“. Nun kalkuliert Anton: Da entweder ich oder ” ” ¨ Clemens u¨ berleben werden, habe ich eine Uberlebenswahrscheinlichkeit von 50%.” W¨urden Sie dem zustimmen? (Nehmen Sie bei der Konstruktion des Wahrscheinlichkeitsraumes an, dass der W¨arter mit gleicher Wahrscheinlichkeit Brigitte“ oder Clemens“ antwortet, falls er ” ” weiß, dass Anton der Begnadigte ist.) 3.3. Sie fliegen von M¨unchen nach Los Angeles und steigen dabei in London und New York um. An jedem Flughafen, inklusive M¨unchen, muss Ihr Koffer verladen werden. Dabei wird er mit Wahrscheinlichkeit p fehlgeleitet. In Los Angeles stellen Sie fest, dass Ihr Koffer nicht angekommen ist. Berechnen Sie die bedingten Wahrscheinlichkeiten daf¨ur, dass er in M¨unchen bzw. London bzw. New York fehlgeleitet wurde. (Wie immer: Zur vollst¨andigen L¨osung geh¨ort die Angabe des Wahrscheinlichkeitsmodells.) 3.4. Beta-Binomial-Darstellung der Pólya-Verteilung. Betrachten Sie das Pólya’sche Urnenmodell zu den Parametern s, w, c ∈ N. Sei Sn die Anzahl der gezogenen schwarzen Kugeln nach n Ziehungen. Zeigen Sie mit Hilfe der Rekursionsgleichung (2.23): . 1 P (Sn = +) = dp βs/c,w/c (p) Bn,p ({+}) 0
87
Aufgaben
f¨ur alle 0 ≤ + ≤ n. (Das Pólya-Modell ist also a¨ quivalent zu einem Urnenmodell mit Zur¨ucklegen, bei dem das Verh¨altnis von schwarzen und weißen Kugeln zuvor vom Schicksal“ gem¨aß ” einer Beta-Verteilung festgelegt wurde.) 3.5. Sei (-, F , P ) ein Wahrscheinlichkeitsraum und A, B, C ∈ F . Zeigen Sie: (a) Sind A, B unabh¨angig, so auch A, B c . (b) Sind A, B, C unabh¨angig, so auch A ∪ B, C. 3.6. In der Zahlentheorie bezeichnet man als Euler’sche ϕ-Funktion die Abbildung ϕ : N → N mit ϕ(1) = 1 und ϕ(n) = Anzahl der zu n teilerfremden Zahlen in -n = {1, . . . , n}, k falls n ≥ 2. Zeigen Sie: Ist n = p1k1 · · · · · pmm die Primfaktorzerlegung von n in paarweise verschiedene Primzahlen p1 , . . . , pm und Potenzen ki ∈ N, so gilt
1 1 ϕ(n) = n 1 − ... 1 − . p1 pm (Betrachten Sie die Ereignisse Ai = {pi , 2pi , 3pi , . . . , n}, 1 ≤ i ≤ m in -.) 3.7. Ein System besteht aus vier gleichartigen, voneinander unabh¨angigen Komponenten. Es funktioniert, wenn (A und B) oder (C und D) funktionieren. A
B
C
D
Die Funktionsdauer des Gesamtsystems werde mit T , die der einzelnen Komponenten mit Tk , k ∈ {A, B, C, D} bezeichnet. Tk sei exponentialverteilt zum Parameter α. Zeigen Sie, dass 2 P (T < t) = 1 − e−2αt . 3.8. Beim zweimaligen Wurf mit einem fairen Tetraeder-W¨urfel, dessen Fl¨achen mit 1, 2, 3, 4 beschriftet seien, bezeichne X die Summe und Y das Maximum der jeweils unten liegenden Augenzahl. (a) Bestimmen Sie die gemeinsame Verteilung P ◦ (X, Y )−1 von X und Y . (b) Konstruieren Sie zwei Zufallsvariablen X und Y u¨ ber einem geeigneten Wahrscheinlichkeitsraum (- , F , P ) mit denselben Verteilungen wie X und Y (d. h. P ◦ X −1 = P ◦ X −1 , P ◦ Y −1 = P ◦ Y −1 ), f¨ur die jedoch X + Y eine andere Verteilung besitzt als X + Y . 3.9. Seien X, Y unabh¨angige, identisch verteilte Zufallsvariablen mit Werten in Z+ . Es gelte entweder (a) P (X = k|X + Y = n) = 1/(n + 1) f¨ur alle 0 ≤ k ≤ n, oder (b) P (X = k|X + Y = n) = nk 2−n f¨ur alle 0 ≤ k ≤ n. Bestimmen Sie die Verteilung von X (und also auch Y ). 3.10. M¨unzwurfparadox. Anton sagt zu Brigitte: Du denkst dir zwei zuf¨allige ganze Zahlen ” X, Y ∈ Z mit X < Y . Dann wirfst du eine faire M¨unze. Wenn sie Zahl zeigt, nennst du mir
88
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
Y , andernfalls X. Ich muss dann raten, ob die M¨unze Zahl oder Wappen gezeigt hat. Wenn ich richtig rate, zahlst du mir €100, sonst kriegst du €100 von mir.“ Soll sich Brigitte auf das Spiel einlassen? (Immerhin steht es ihr ja frei, gem¨aß welcher Verteilung β sie (X, Y ) w¨ahlen will, und die Chancen, das Ergebnis des M¨unzwurfs richtig zu erraten, stehen doch wohl bestenfalls 50:50.) Betrachten Sie dazu folgende Ratestrategie von Anton: Anton w¨ahlt eine Z¨ahldichte α auf Z mit α(k) > 0 f¨ur alle k ∈ Z und denkt sich eine zuf¨allige Zahl Z ∈ Z mit Verteilung α. Er tippt auf M¨unze hat Zahl gezeigt“, wenn die von Brigitte genannte Zahl ” gr¨oßer oder gleich Z ist, sonst auf Wappen“. Pr¨azisieren Sie das stochastische Modell und ” berechnen Sie die Gewinnwahrscheinlichkeit von Anton bei gegebenem α und β. 3.11. W¨urfelparadox. Zwei W¨urfel W1 und W2 seien wie folgt beschriftet: W1 : 6 3 3 3 3 3 , W2 : 5 5 5 2 2 2 . Anton und Brigitte w¨urfeln mit W1 bzw. W2 . Wer die h¨ohere Augenzahl erzielt, hat gewonnen. (a) Zeigen Sie, dass Anton die besseren Gewinnchancen hat; wir schreiben daf¨ur W1 W2 . (b) Brigitte bemerkt dies und schl¨agt Anton vor: Ich beschrifte jetzt einen dritten W¨urfel. ” Du darfst dir dann einen beliebigen W¨urfel aussuchen, ich w¨ahle mir einen der beiden anderen.“ Kann Brigitte den dritten W¨urfel so beschriften, dass sie in jedem Fall die besseren Gewinnchancen hat (d. h. so dass W1 W2 W3 W1 , also die Relation nicht transitiv ist)? 3.12. Faltung von Gamma- und negativen Binomialverteilungen. Zeigen Sie: (a) F¨ur α, r, s > 0 gilt Γα,r % Γα,s = Γα,r+s . (b) F¨ur p ∈ ]0, 1[ und r, s > 0 gilt B r,p % B s,p = B r+s,p . (Die Pólya-Verteilung liefert eine n¨utzliche Identit¨at f¨ur negative Binomialkoeffizienten.) 3.13. Faltung von Cauchy-Verteilungen (Huygens-Prinzip). Betrachten Sie die Situation von Aufgabe 2.5 und zeigen Sie: F¨ur a, b > 0 gilt ca % cb = ca+b . M.a.W.: Die Verteilung des Lichts auf einer Geraden im Abstand a+b von der Gl¨uhbirne ist dieselbe, wie wenn jeder Lichtpunkt auf der Geraden im Abstand a als neue, gleichm¨aßig in alle Richtungen strahlende Lichtquelle aufgefasst wird. b
7
HH H
HH j : s a
¨ (Uberzeugen Sie sich zuerst von der G¨ultigkeit der Partialbruchzerlegung b x 2 +b2 −a 2 +2xy c (y) + a x 2 +a 2 −b2 +2x(x−y) c (x−y) ca (y)cb (x−y)/ca+b (x) = a+b a b 2 2 2 2 a+b x +(a−b)
) x+n
x +(a−b)
und benutzen Sie, dass limn→∞ x−n z ca (z) dz = 0 f¨ur alle x.) 3.14. Ausd¨unnung einer Poisson-Verteilung. Die Anzahl der Eier, die ein Insekt legt, sei Poisson-verteilt zum Parameter λ. Aus jedem der sich unabh¨angig voneinander entwickelnden
89
Aufgaben
Eier schl¨upfe mit Wahrscheinlichkeit p eine Larve. Berechnen Sie die Verteilung der Anzahl der Larven. 3.15. Ausd¨unnung eines Poisson-Prozesses. Sei α > 0, (Li )i≥1 eine Folge von unabh¨angi' gen, zum Parameter α exponentialverteilten Zufallsvariablen, sowie Tk = ki=1 Li , k ≥ 1. Sei ferner (Xk )k≥1 eine (von den Li unabh¨angige) Bernoulli-Folge zum Parameter p ∈ ]0, 1[. Zeigen Sie: Die Zufallsvariablen , Xk 1]0,t] (Tk ) , t ≥ 0, NtX := k≥1
bilden einen Poisson-Prozess zum Parameter pα. Insbesondere ist T1X := inf{t > 0 : NtX ≥ 1} exponentialverteilt zum Parameter pα. 3.16. Bernoulli-Folge als diskretes Analogon des Poisson-Prozesses. (a) Sei (Xn )n≥1 eine Bernoulli-Folge zu p ∈ ]0, 1[ sowie T0 = 0,
Tk = inf{n > Tk−1 : Xn = 1},
Lk = Tk − Tk−1 − 1
f¨ur k ≥ 1. (Tk ist der Zeitpunkt des k-ten Erfolgs, und Lk ist die Wartezeit zwischen dem (k − 1)-ten und dem k-ten Erfolg.) Zeigen Sie: Die Zufallsvariablen (Lk )k≥1 sind unabh¨angig und geometrisch verteilt zum Parameter p. (b) Seien (Li )i≥1 unabh¨angige, zum Parameter p ∈ ]0, 1[ geometrisch verteilte Zufalls' variablen. F¨ur k ≥ 1 sei Tk = ki=1 Li + k sowie f¨ur n ≥ 1 1 falls n = Tk f¨ur ein k ≥ 1 , Xn = 0 sonst. Zeigen Sie: Die Zufallsvariablen (Xn )n≥1 bilden eine Bernoulli-Folge zu p. 3.17. Seien X, Y unabh¨angige, zu einem Parameter α > 0 exponentialverteilte Zufallsvariablen. Bestimmen Sie die Verteilungsdichte von X/(X + Y ). 3.18. Telegrafenprozess. Sei (Nt )t≥0 ein Poisson-Prozess zur Intensit¨at α > 0 sowie Zt = (−1)Nt . Zeigen Sie: P (Zs = Zt ) = (1 + e−2α(t−s) )/2 f¨ur 0 ≤ s < t. 3.19. Sei (St )t≥0 der Compound-Poisson-Prozess zu einer Sprungverteilung Q und Intensit¨at α > 0. Zeigen Sie: F¨ur festes t > 0 hat St die Verteilung , (αt)n Q%n . Qt := e−αt n! n≥0
Dabei sei Q%0 = δ0 die Dirac-Verteilung im Punkte 0. 3.20. Konstruktion des Poisson-Punktprozesses in Rd . Sei ⊂ Rd eine Borelmenge mit 0 < λd () < ∞ und α > 0. N sei Poisson-verteilt zum Parameter αλd (), und (Xk )k≥1 seien gleichverteilt auf . Die Familie (N , X1 , X2 , . . . ) sei unabh¨angig. F¨ur jede Borelmenge B ⊂ bezeichne NB die Anzahl der i ≤ N mit Xi ∈ B: NB =
N , i=1
1B (Xi ).
90
3 Bedingte Wahrscheinlichkeiten und Unabh¨angigkeit
* Zeigen Sie: NB ist eine Zufallsvariable, und f¨ur jede Zerlegung = ni=1 Bi von in disjunkte Borelmengen Bi ∈ Bd sind die Zufallsvariablen (NBj )1≤j ≤n unabh¨angig und Poisson-verteilt zum Parameter αλ(Bj ). Verwenden Sie entweder die obige Konstruktion oder die aus Beispiel (3.38) zur Simulation des Poisson-Punktprozesses in einem Rechteck ⊂ R2 . 3.21. Box-Muller Methode zur Simulation normalverteilter Zufallsvariabler. Seien U, V √ −2 log U , X = unabh¨angige, auf ]0, 1[ gleichverteilte Zufallsvariablen, sowie R = R cos(2π V ), Y = R sin(2π V ). Zeigen Sie: X, Y sind unabh¨angig N0,1 -verteilt. (Berechnen Sie zuerst die Verteilungsdichte von R und benutzen Sie dann die PolarkoordinatenTransformation von Doppelintegralen.) 3.22. Ausfallzeiten. Bestimmen Sie wie folgt die zuf¨allige Funktionsdauer eines Drahtseils (oder irgendeines anderen technischen Ger¨ats). F¨ur t > 0 sei F (t) := P (]0, t]) die Wahrscheinlichkeit, dass das Seil im Zeitintervall ]0, t] reißt. P besitze eine Dichtefunktion ρ. Die bedingte Wahrscheinlichkeit f¨ur einen Seilriss im (differentiellen) Zeitintervall [t, t+dt[, wenn es vorher noch nicht gerissen ist, betrage r(t) dt f¨ur eine stetige Funktion r : [0, ∞[ → [0, ∞[. r heißt die Ausfallratenfunktion. Leiten Sie aus diesem Ansatz eine Differentialgleichung zur Bestimmung von ρ her. Welche Verteilung ergibt sich im Fall konstanter Ausfallrate r? Im Fall r(t) = αβt β−1 mit Konstanten α, β > 0 ergibt sich die sogenannte Weibull-Verteilung mit Dichtefunktion (t) = αβ t β−1 exp[−α t β ] , t > 0 . 3.23. Bestimmen Sie alle Wahrscheinlichkeitsmaße P auf [0, ∞[ mit folgender Eigenschaft: Ist n ∈ N beliebig und sind X1 , . . . , Xn unabh¨angige Zufallsvariablen mit identischer Verteilung P , so hat die Zufallsvariable n min(X1 , . . . , Xn ) ebenfalls die Verteilung P . Stellen Sie dazu als erstes eine Gleichung f¨ur F (t) := P (]t, ∞[) auf. 3.24. Seien Yk , k ≥ 1, [0, ∞[-wertige Zufallsvariablen u¨ ber einem Wahrscheinlichkeitsraum (-, F , P ). Entscheiden Sie (mit Begr¨undung), welche der folgenden Ereignisse in der asymptotischen σ -Algebra A (Yk : k ≥ 1) liegen: ' ' A1 = { k≥1 Yk < ∞} , A2 = { k≥1 Yk < 1} , A3 = {inf k≥1 Yk < 1} ,
A4 = {lim inf k→∞ Yk < 1} .
3.25. Sei (Xk )k≥1 eine Bernoulli-Folge zu p ∈ ]0, 1[. F¨ur n, l ∈ N bezeichne Aln das Ereignis {Xn = Xn+1 = · · · = Xn+l−1 = 1}. Zeigen Sie: Die Folge (Xk )k≥1 enth¨alt mit Wahrscheinlichkeit 1 unendlich viele Einser-Serien der L¨ange ≥ l, d. h. P (Al ) = 1 f¨ur Al = lim supn→∞ Aln . Folgern Sie hieraus, dass mit Wahrscheinlichkeit 1 sogar jeweils + unendlich viele Einser-Serien beliebiger L¨ange vorkommen: P ( l∈N Al ) = 1. 3.26. Oszillationen der einfachen symmetrischen Irrfahrt, vgl. Aufgabe ' 2.7. Seien (Xi )i≥1 unabh¨angige, auf {−1, 1} gleichverteilte Zufallsvariablen und Sn = ni=1 Xi , n ≥ 1. Zeigen Sie, dass f¨ur alle k ∈ N P |Sn+k − Sn | ≥ k f¨ur unendlich viele n = 1.
91
Aufgaben
Schließen Sie hieraus, dass P (|Sn | ≤ m f¨ur alle n) = 0 f¨ur jedes m, und weiter (unter Verwendung der Symmetrie der Xi ), dass P sup Sn = ∞, inf Sn = −∞ = 1. n≥1
n≥1
4 Erwartungswert und Varianz
Reellwertige Zufallsvariablen besitzen zwei fundamentale Kenngr¨oßen: den Erwartungswert, der den mittleren“ oder typischen“ Wert der Zufallsvariablen angibt, ” ” und die Varianz, welche als Maß daf¨ur dient, wie stark die Werte der Zufallsvariablen typischerweise vom Erwartungswert abweichen. Diese Gr¨oßen und ihre Eigenschaften sind Gegenstand dieses Kapitels. Als erste Anwendungen des Begriffs des Erwartungswerts behandeln wir das Wartezeitparadox und – als kleine Kostprobe aus der Finanzmathematik – die Optionspreistheorie. Ferner betrachten wir erzeugende Funktionen von ganzzahligen Zufallsvariablen, mit deren Hilfe man (unter anderem) Erwartungswert und Varianz manchmal bequem berechnen kann.
4.1
Der Erwartungswert
Zur Einf¨uhrung des Erwartungswerts f¨ur reellwertige Zufallsvariablen beginnen wir mit dem einfacheren Fall von Zufallsvariablen mit h¨ochstens abz¨ahlbar vielen Werten.
4.1.1
Der diskrete Fall
Sei (-, F , P ) ein Wahrscheinlichkeitsraum und X : - → R eine reelle Zufallsvariable. X heißt diskret, wenn die Wertemenge X(-) = {X(ω) : ω ∈ -} h¨ochstens abz¨ahlbar ist. Definition: Sei X eine diskrete Zufallsvariable. Man sagt, X besitzt einen Erwartungswert, wenn , |x| P (X = x) < ∞. x∈X(-)
In dem Fall ist die Summe E(X) = EP (X) :=
,
x P (X = x)
x∈X(-)
wohldefiniert und heißt der Erwartungswert von X. Man schreibt dann X ∈ L 1 (P ) oder, wenn P nicht hervorgehoben zu werden braucht, X ∈ L 1 .
93
4.1 Der Erwartungswert
Es folgen zwei grundlegende Beobachtungen zu dieser Definition. (4.1) Bemerkung: Verteilungsabh¨angigkeit des Erwartungswerts. Der Erwartungswert h¨angt ausschließlich von der Verteilung P ◦ X −1 von X ab. Definitionsgem¨aß ist n¨amlich X ∈ L 1 (P ) genau dann, wenn die Identit¨at IdX(-) auf X(-) zu L 1 (P ◦ X −1 ) geh¨ort, und in dem Fall gilt EP (X) = EP ◦X−1 (IdX(-) ). Wenn wir P ◦ X −1 als diskrete Massenverteilung (mit Gesamtmasse 1) auf R auffassen, ergibt sich hieraus die folgende physikalische“ Deutung: der Erwartungswert E(X) ist ” gerade der Schwerpunkt von P ◦ X −1 . (4.2) Bemerkung: Erwartung von nichtnegativen Zufallsvariablen. Ist X diskret und ' nichtnegativ, so ist die Summe E(X) = x∈X(-) x P (X = x) stets wohldefiniert, aber eventuell = +∞. Mit anderen Worten: Nichtnegative Zufallsvariablen besitzen immer einen Erwartungswert, sofern man f¨ur diesen auch den Wert +∞ zul¨asst. Dies gilt sogar noch dann, wenn X den Wert +∞ annehmen darf. Die Bedingung f¨ur die Existenz des Erwartungswerts einer beliebigen diskreten Zufallsvariablen l¨asst sich deshalb kurz so formulieren: Es ist X ∈ L 1 (P ) genau dann, wenn E(|X|) < ∞. Wir berechnen den Erwartungswert in einigen speziellen F¨allen. (4.3) Beispiel: Indikatorfunktion. F¨ur A ∈ F ist 1A ∈ L 1 (P ) und E(1A ) = 0 · P (1A = 0) + 1 · P (1A = 1) = P (A) . Diese Beziehung verkn¨upft die Begriffe Erwartungswert und Wahrscheinlichkeit. (4.4) Beispiel: Abz¨ahlbarer Definitionsbereich. Sei - abz¨ahlbar. Dann ist jede Zufallsvariable X : - → R diskret, und es gilt , , , , |X(ω)| P ({ω}) = |x| P ({ω}) = |x| P (X = x) . ω∈-
x∈X(-)
ω∈{X=x}
'
x∈X(-)
genau dann, wenn ω∈- |X(ω)| P ({ω}) < ∞. In diesem Folglich ist X ∈ Fall kann man wegen der absoluten Konvergenz der Reihe die gleiche Rechnung ohne Betragsstriche wiederholen und erh¨alt die Gleichung , E(X) = X(ω) P ({ω}) . L 1 (P )
ω∈-
(4.5) Beispiel: Erwartete Anzahl der Erfolge in einem Bernoulli-Experiment. Sei X1 , .' . . , Xn eine endliche Bernoulli-Folge zur Erfolgswahrscheinlichkeit p sowie S = ni=1 Xi . Dann ist nach Satz (2.9) P ◦ S −1 = Bn,p , also
n n , , n k n − 1 k−1 n−k k p (1 − p) = np p (1 − p)n−k E(S) = k k−1 k=0
= np
k=1
n , k=1
Bn−1,p ({k − 1}) = np .
94
4 Erwartungswert und Varianz
(4.6) Beispiel: Mittlere Wartezeit auf den ersten Erfolg. Sei (Xn )n≥1 eine BernoulliFolge zur Erfolgswahrscheinlichkeit p sowie T = inf{n ≥ 1 : Xn = 1} die Wartezeit auf den ersten Erfolg. Gem¨aß Abschnitt 2.5.1 ist T − 1 geometrisch verteilt, also gilt mit q = 1 − p , d , k d 1 1 1 kpq k−1 = p s =p =p = . E(T ) = 2 s=q ds ds 1 − s s=q (1 − q) p k≥1
k≥0
Im zweiten Schritt haben wir hierbei ausgenutzt, dass Potenzreihen innerhalb ihres Konvergenzbereichs gliedweise differenziert werden d¨urfen. Die wichtigsten Eigenschaften des Erwartungswerts sind im folgenden Satz zusammengefasst. Sie sind der Einfachheit halber nur f¨ur Zufallsvariablen in L 1 (P ) formuliert, gelten aber analog auch f¨ur nichtnegative Zufallsvariablen, die auch den Wert +∞ annehmen d¨urfen, vgl. Bemerkung (4.2). (4.7) Satz: Rechenregeln f¨ur Erwartungswerte. Seien X, Y, Xn , Yn : - → R diskrete Zufallsvariablen in L 1 . Dann gilt: (a) Monotonie: Ist X ≤ Y , so gilt E(X) ≤ E(Y ) . (b) Linearit¨at: F¨ur alle c ∈ R ist cX ∈ L 1 mit E(cX) = c E(X). Außerdem gilt X + Y ∈ L 1 , und E(X + Y ) = E(X) + E(Y ) . (c) ' σ -Additivit¨at bzw. monotone 'Konvergenz: Sind alle Xn ≥ 0 und ist X = ur n ↑ ∞, so folgt n≥1 Xn , so gilt E(X) = n≥1 E(Xn ). Wenn Yn ↑ Y f¨ E(Y ) = limn→∞ E(Yn ) . (d) Produktregel bei Unabh¨angigkeit: Sind X, Y unabh¨angig, so ist XY ∈ L 1 , und es gilt E(XY ) = E(X) E(Y ) . Beweis: (a) Aus der Definition des Erwartungswerts und der σ -Additivit¨at von P ergibt sich die Gleichung , x P (X = x, Y = y) , E(X) = x∈X(-), y∈Y (-)
wobei die Summationsreihenfolge wegen der absoluten Konvergenz der Reihe keine Rolle spielt. Da nach Voraussetzung P (X = x, Y = y) = 0 außer wenn x ≤ y, ist diese Summe nicht gr¨oßer als , y P (X = x, Y = y) = E(Y ) . x∈X(-), y∈Y (-)
(b) Die erste Aussage folgt direkt aus der Definition. Die Summe X + Y ist nach Aufgabe 1.12 eine Zufallsvariable und auch diskret, denn ihre Wertemenge ist enthalten im Bild der abz¨ahlbaren Menge X(-) × Y (-) unter der Additionsabbildung.
95
4.1 Der Erwartungswert
Ferner ist X + Y ∈ L 1 , denn durch Zerlegung in die m¨oglichen Werte von X ergibt sich aus der Dreiecksungleichung , , |z| P (X + Y = z) = |z| P (X = x, Y = z − x) z
z,x
≤
,
(|x| + |z − x|) P (X = x, Y = z − x) .
z,x
Nun substituieren wir y f¨ur z − x, zerlegen die Summe in die zwei Teile mit |x| und |y|, und f¨uhren im ersten Teil die Summation u¨ ber y und im zweiten die u¨ ber x aus. So landen wir bei der Summe , , |x| P (X = x) + |y| P (Y = y) = E(|X|) + E(|Y |) , x
y
welche nach Voraussetzung endlich ist. Insbesondere sind alle obigen Summen absolut konvergent. Also kann man die gleiche Rechnung ohne Betragsstriche wiederholen und erh¨alt die Additivit¨at des Erwartungswerts. (c) Wir zeigen die erste Behauptung; die zweite Aussage erh¨alt man, indem man X = Y − Y1 anwendet. die erste auf Xn = Yn+1 − Yn und' (a) und (b) auch E(X) ≥ F¨ur alle N gilt X ≥ SN := N n=1 Xn , also wegen 'N ' n≥1 E(Xn ). Zum Beweis der n=1 E(Xn ). Im Limes N → ∞ folgt E(X) ≥ umgekehrten Ungleichung w¨ahlen wir ein beliebiges 0 < c < 1 und betrachten die Zufallsvariable τ = inf{N ≥' 1 : SN ≥ cX}. Wegen SN ↑ X < ∞ ist τ < ∞. τ Die zuf¨allige Summe Sτ = n=1 Xn ist eine diskrete Zufallsvariable, * denn ihr Wertebereich Sτ (-) ist offenbar enthalten in der Vereinigung S(-) := N ≥1 SN (-) der Wertebereiche aller SN , welche gem¨aß (b) diskret sind. Mit Hilfe von (a), der Definition des Erwartungswerts und der σ -Additivit¨at von P erhalten wir , , , c E(X) ≤ E(Sτ ) = x P (τ = N, SN = x) = E 1{τ =N} SN . x∈S(-)
N ≥1
N≥1
Die Summenvertauschung im letzten Schritt ist wegen der Nichtnegativit¨at aller Terme erlaubt. F¨ur den letzten Ausdruck ergibt sich mit (b) und erneuter Summenvertauschung N ,, ,, E 1{τ =N} Xn = N≥1 n=1
=
, , n≥1 x∈Xn (-)
,
x P (τ = N, Xn = x)
n≥1 N ≥n x∈Xn (-)
x P (τ ≥ n, Xn = x) ≤
,
E(Xn ) .
n≥1
Im Limes c → 1 erhalten wir die gew¨unschte Ungleichung. (Gelegentlich werden wir Eigenschaft (c) auch dann verwenden, wenn X den Wert +∞ annehmen darf.
96
4 Erwartungswert und Varianz
Dass das erlaubt ist, kann man folgendermaßen einsehen. Im Fall P (X = ∞) = 0 hat X den gleichen Erwartungswert wie die endliche Zufallsvariable X 1{X<∞} , und wir k¨onnen das obige Argument auf die letztere anwenden. Im Fall P (X = ∞) = a > 0 ist einerseits definitionsgem¨aß E(X) = ∞. Andrerseits gibt es zu jedem K > 0 wegen der σ -Stetigkeit von P ein N = N(K) mit P (SN ≥ K) ≥ a/2. Dies impliziert wegen (a) , E(Xn ) ≥ E(SN ) ≥ K P (SN ≥ K) ≥ Ka/2 . n≥1
' Da K beliebig ist, folgt auch n≥1 E(Xn ) = ∞ und damit die gew¨unschte Gleichung.) (d) Nach dem gleichen Argument wie in (b) ist XY eine diskrete Zufallsvariable. Sie liegt in L 1 wegen , , , |z| P (XY = z) = |z| P (X = x, Y = z/x) z
=
,
z =0
x=0
|x| |y| P (X = x)P (Y = y) = E(|X|) E(|Y |) < ∞ .
x =0, y =0
Im zweiten Schritt haben wir die Unabh¨angigkeit von X und Y ausgenutzt. Wegen der absoluten Konvergenz aller Reihen kann man nun wieder die gleiche Rechnung ohne Betragsstriche wiederholen. 3 Die Linearit¨at des Erwartungswerts erm¨oglicht eine einfache alternative Berechnung des Erwartungswerts einer binomialverteilten Zufallsvariablen. (4.8) Beispiel: Erwartete Anzahl der Erfolge in einem Bernoulli-Experiment. In der Situation von Beispiel (4.5) ergibt sich aus Satz (4.7b) und Beispiel (4.3) E(S) =
n , i=1
4.1.2
E(Xi ) =
n ,
P (Xi = 1) = np .
i=1
Der allgemeine Fall
Man m¨ochte nat¨urlich auch f¨ur nicht-diskrete Zufallsvariablen einen Erwartungswert definieren. Der kann allerdings nicht mehr direkt als Summe hingeschrieben werden. Deshalb approximiert man eine gegebene Zufallsvariable X durch diskrete Zufallsvariablen X(n) und definiert den Erwartungswert von X als den Limes der Erwartungswerte von X(n) . F¨ur eine reelle Zufallsvariable X : - → R und beliebiges n ∈ N betrachten wir die 1/n-Diskretisierung X(n) := &nX'/n
97
4.1 Der Erwartungswert
von X; hier steht &x' f¨ur die gr¨oßte ganze Zahl ≤ x. Es ist also X(n) (ω) = k k+1 n ≤ X(ω) < n , k ∈ Z. X(n) ist offenbar eine diskrete Zufallsvariable.
k n
falls
(4.9) Lemma: Diskrete Approximation des Erwartungswerts. (a) F¨ur alle n ≥ 1 gilt X(n) ≤ X ≤ X(n) +
1 n
.
(b) Ist X(n) ∈ L 1 f¨ur ein n, so ist X(n) ∈ L 1 f¨ur alle n, und in diesem Fall ist E(X(n) ) eine Cauchy-Folge. Beweis: Aussage (a) ist offensichtlich. Sie impliziert insbesondere f¨ur alle m, n ≥ 1 sowohl die Ungleichung X(m) ≤ X(n) + n1 als auch die umgekehrte Beziehung X(n) ≤ X(m) + m1 . Hieraus folgt zun¨achst, dass |X(n) | ≤ |X(m) | + max m1 , n1 . Wenn also X(m) ∈ L 1 f¨ur ein m, dann ist wegen Satz (4.7a) sogar X(n) ∈ L 1 f¨ur alle n. Weiter ergibt sich E(X(m) ) ≤ E(X(n) ) + n1 und genauso mit vertauschtem m und n, und daher |E(X(n) ) − E(X(m) )| ≤ max m1 , n1 . Dies beweist (b). 3 Das Lemma erlaubt uns folgendes Vorgehen im allgemeinen Fall. Definition: Sei X : - → R eine beliebige reelle Zufallsvariable. Man sagt, X besitzt einen Erwartungswert, wenn X(n) ∈ L 1 (P ) f¨ur ein (bzw. alle) n ≥ 1. In dem Fall heißt E(X) = lim E(X(n) ) n→∞
der Erwartungswert von X, und man schreibt X ∈ L 1 (P ) bzw. X ∈ L 1 . In der Integrationstheorie nennt man den so definierten Erwartungswert das In) tegral von X bez¨uglich P und bezeichnet ihn mit X dP . Wie in Bemerkung (4.1) ergibt sich: (4.10) Bemerkung: Verteilungsabh¨angigkeit des Erwartungswerts. Es gilt X ∈ L 1 (P ) genau dann, wenn IdR ∈ L 1 (P ◦X −1 ), und dann ist EP (X) = EP ◦X−1 (IdR ), d. h. der Erwartungswert h¨angt nur von der Verteilung P ◦ X −1 ab und kann als Schwerpunkt von P ◦ X−1 gedeutet werden. Zum Beweis gen¨ugt es, in der Gleichung , k k+1 k = EP ◦X−1 (IdR )(n) E(X(n) ) = n P n ≤X < n k∈Z
zum Limes n → ∞ u¨ berzugehen. Wesentlich ist nun, dass f¨ur den allgemeinen Erwartungswert die gleichen Rechenregeln gelten wie im diskreten Fall. (4.11) Satz: Rechenregeln f¨ur den Erwartungswert. Die Rechenregeln (a) – (d) in Satz (4.7) gelten auch f¨ur nicht-diskrete Zufallsvariablen.
98
4 Erwartungswert und Varianz
Beweis: (a) Die Monotonie des Erwartungswerts ist evident, denn wegen X ≤ Y ist X(n) ≤ Y(n) f¨ur alle n. (b) F¨ur c ∈ R gilt sowohl |(cX)(n) − cX| ≤ n1 als auch |cX(n) − cX| ≤ |c| n , also nach Dreiecksungleichung |(cX)(n) − cX(n) | ≤
1+|c| n .
Mit Satz (4.7a) folgt
|E((cX)(n) ) − cE(X(n) )| < (1 + |c|)/n , und f¨ur n → ∞ folgt die erste Behauptung. Die zweite folgt analog durch diskrete Approximation. (c) Es 'gen¨ugt wieder, die erste Behauptung zu beweisen. Die Ungleichung E(X) ≥ n≥1 E(Xn ) ergibt sich genau wie im diskreten Fall aus (b). Zum Beweis der umgekehrten Ungleichung w¨ahlen wir ein beliebiges k ≥ 1 und betrachten die diskreten Zufallsvariablen Yn,k = (Xn )(2n+k ) . Dann gilt Yn,k ≤ Xn < Yn,k + 2−n−k und daher 4 , ,3 , E(Yn,k + 2−n−k ) ≤ E(Xn ) + 2−k . Yn,k + 2−n−k = E(X) ≤ E n≥1
n≥1
n≥1
Hier haben wir zuerst die Monotonieeigenschaft (a) im allgemeinen Fall ausgenutzt, dann die σ' -Additivit¨atseigenschaft (c) im diskreten Fall (wobei es keine Rolle mehr spielt, ob n≥1 Yn,k diskret ist, denn der Beweis von Satz (4.7c) kommt wegen der inzwischen bereit gestellten Mittel auch ohne diese Annahme aus), und dann wieder (a) und (b) verwendet. Im Limes k → ∞ ergibt sich die gew¨unschte Ungleichung. (d) Da |(XY )(n) −X(n) Y(n) | ≤ n1 + n1 (|X|+|Y |+ n1 ) gem¨aß Dreiecksungleichung, folgt die Behauptung im Limes n → ∞. 3 Hat P eine Dichtefunktion, so l¨asst sich EP (X) direkt durch das LebesgueIntegral in (1.14) ausdr¨ucken, und zwar in unmittelbarer Analogie zur Summe in Beispiel (4.4). (4.12) Satz: Erwartungswert bei existierender Dichtefunktion. Sei - ⊂ Rd Borelsch, P das Wahrscheinlichkeitsmaß auf (-, B-d ) zu einer Dichtefunktion , und 1 )X eine reelle Zufallsvariable auf -. Dann gilt X ∈ L (P ) genau dann, wenn - |X(ω)|(ω) dω < ∞, und dann ist . E(X) = X(ω)(ω) dω . -
Beweis: F¨ur alle n ist X(n) ∈ L 1 (P ) genau dann, wenn der Ausdruck , , . (ω) dω nk P X(n) = nk = nk k k+1 ≤ X < } { k∈Z k∈Z n n . = |X(n) (ω)| (ω) dω -
99
4.1 Der Erwartungswert
endlich ist, und wegen |X − X(n) | ≤ n1 ist dies genau dann der Fall, wenn ) - |X(ω)|(ω) dω < ∞. Ferner gilt dann . . X(n) (ω)(ω) dω → X(ω)(ω) dω , E(X(n) ) = denn es ist 3
)
- X(n) (ω)(ω) dω
≤
)
- X(ω)(ω) dω
<
)
- X(n) (ω)(ω) dω
+ 1/n.
(4.13) Korollar: Zufallsvariablen mit Verteilungsdichte. Sei X eine Rd -wertige Zufallsvariable mit Verteilungsdichte , d. h. P ◦ X −1 habe die Dichtefunktion auf Rd . F¨u)r jede weitere Zufallsvariable f : Rd → R ist dann f ◦ X ∈ L 1 genau dann, wenn Rd |f (x)| (x) dx < ∞ , und in dem Fall gilt . f (x)(x) dx . E(f ◦ X) = Rd
Beweis: Ist f ≥ 0 oder f ◦ X ∈ L 1 , so liefert eine zweimalige Anwendung von Bemerkung (4.10) zusammen mit Satz (4.12) . f (x)(x) dx . EP (f ◦ X) = EP ◦(f ◦X)−1 (IdR ) = EP ◦X−1 (f ) = Rd
Im allgemeinen Fall wende man dies Ergebnis auf |f | an. 3 (4.14) Beispiel: Gamma-Verteilung. Sei X : - → [0, ∞[ Gamma-verteilt zu den Parametern α, r > 0, d. h. P ◦ X −1 habe die Verteilungsdichte γα,r (x) = α r x r−1 e−αx / (r) auf [0, ∞[. Dann folgt aus Korollar (4.13) (mit f (x) = x) . . ∞ (r + 1) ∞ r x γα,r (x) dx = γα,r+1 (x) dx = , E(X) = α(r) 0 α 0 denn es gilt (r + 1) = r (r), und γα,r+1 hat das Integral 1. Da X ≥ 0, zeigt die Rechnung insbesondere, dass X ∈ L 1 . Wir wollen diesen Abschnitt nicht beenden, ohne noch einen anderen Begriff zu erw¨ahnen, der genau wie der Erwartungswert als der mittlere Wert“ einer reellen ” Zufallsvariablen X aufgefasst werden kann. Im Unterschied zum Erwartungswert hat dieser Begriff den Vorteil, dass er stets definiert ist und nicht so sehr durch sehr große oder sehr stark negative Werte von X beeinflusst wird. Definition: Sei X eine reelle Zufallsvariable mit Verteilung Q auf (R, B ). Eine Zahl µ ∈ R heißt ein Median oder Zentralwert von X bzw. Q, wenn P (X ≥ µ) ≥ 1/2 und P (X ≤ µ) ≥ 1/2.
100
4 Erwartungswert und Varianz
Durch einen Median wird die Verteilung Q von X also in zwei H¨alften zerlegt. Anders ausgedr¨uckt: Ein Median µ ist eine Stelle, an der die Verteilungsfunktion FX von X das Niveau 1/2 u¨ berschreitet (oder u¨ berspringt). Die Existenz eines Medians folgt daher unmittelbar aus (1.29). Da FX zwar wachsend aber nicht unbedingt strikt wachsend ist, ist µ im Allgemeinen nicht eindeutig bestimmt. Seine Bedeutung wird in dem folgenden Zusammenhang besonders anschaulich. (4.15) Beispiel: Radioaktiver Zerfall. Die Zerfallszeit eines radioaktiven Teilchens wird (in guter N¨aherung) durch eine exponentialverteilte Zufallsvariable X beschrieben. Es gilt also P (X ≥ c) = e−αc f¨ur eine Konstante α > 0. Der Median von X ist also dasjenige µ mit e−αµ = 1/2, also µ = α −1 log 2. Wenn wir auf das Gesetz (5.6) der großen Zahl vorgreifen, ergibt sich daher µ als die Zeit, nach der eine radioaktive Substanz aus sehr vielen (unabh¨angig voneinander zerfallenden) Teilchen ungef¨ahr zur H¨alfte zerfallen ist. µ heißt daher auch die Halbwertszeit.
4.2 Wartezeitparadox und fairer Optionspreis Anschaulich beschreibt der Erwartungswert einer Zufallsvariablen X ihren mittle” ren Wert“, d. h. den Preis, den man im Voraus f¨ur eine Auszahlung X zu zahlen bereit w¨are. Die folgenden zwei Beispiele best¨atigen diese Auffassung, zeigen aber auch, ¨ dass man Uberraschungen erleben kann, wenn man zu naiv vorgeht. (4.16) Beispiel: Das Wartezeit- bzw. Inspektionsparadox. An einer Haltestelle treffen Busse zu rein zuf¨alligen Zeitpunkten ein mit mittlerem zeitlichem Abstand 1/α, zur Zeit 0 f¨ahrt ein Bus. Dies modellieren wir durch folgende Annahmen: (a) T0 = 0, und die Abst¨ande Lk := Tk − Tk−1 , k ≥ 1, sind unabh¨angig. (b) F¨ur alle k ≥ 1, s, t ≥ 0 gelte P (Lk > s + t | Lk > s) = P (Lk > t) ( Ged¨achtnislosigkeit von Lk“) und E(Lk ) = 1/α. ” Wir fragen: Wie lange muss ein Fahrgast voraussichtlich warten, der zur Zeit t > 0 an der Haltestelle ankommt? Zwei intuitive Antworten bieten sich an: (A) Wegen der Ged¨achtnislosigkeit von Lk spielt es keine Rolle, wann der letzte Bus vor t gefahren ist, daher ist die mittlere Wartezeit gerade der mittlere Abstand der Busse, also 1/α. (B) Die Ankunftszeit t ist gleichm¨aßig verteilt im Zeitintervall vom letzten Bus vor t und dem ersten nach t, also ist die mittlere Wartezeit nur halb so lang wie der Abstand zwischen zwei Bussen, also 1/2α. Welche Antwort stimmt? Annahme (b) impliziert: Lk ist exponentialverteilt zu α. (Denn die Funktion a(t) = P (Lk > t) ist monoton fallend und erf¨ullt die Funktionalgleichung a(t + s) = a(t)a(s). Somit ist a(t) = a(1)t f¨ur alle t ≥ 0 und daher
101
4.2 Wartezeitparadox und fairer Optionspreis
T0 = 0 •
T1 •
t T2 • = <; > | = Vt
<; Wt
T3 >•
T4 •
T5 •
-
Abbildung 4.1: Vorlaufzeit Vt und Wartezeit Wt .
Lk exponentialverteilt. Beispiel (4.14) zeigt, dass der zugeh¨orige Parameter gerade α ist.) Gem¨aß Satz (3.34) ist also , 1]0,s] (Tk ) Ns = k≥1
der Poisson-Prozess zu α. Sei Wt = min{Tk − t : k ≥ 1, Tk ≥ t} die Wartezeit nach t. Dann gilt f¨ur alle s P (Wt > s) = P (Nt+s − Nt = 0) = e−αs , d. h. Wt ist exponentialverteilt zu α, also E(Wt ) = 1/α. Somit ist Antwort (A) richtig. Was ist falsch an Antwort (B)? Das Zeitintervall zwischen dem letzten Bus vor t und dem ersten nach t hat die L¨ange L(t) := Vt + Wt , wobei Vt := min{t − Tk : k ≥ 0, Tk < t} ≤ t − T0 = t die Vorlaufzeit vor t bezeichnet, siehe Abbildung 4.1. F¨ur s < t ist P (Vt > s) = P (Nt − Nt−s = 0) = e−αs , und genauso P (Vt = t) = e−αt . Nach dem Eindeutigkeitssatz (1.12) stimmt also die Verteilung von Vt u¨ berein mit der Verteilung von U ∧ t := min(U, t), wenn U die Exponentialverteilung Eα hat. Mit Korollar (4.13), angewendet auf die Funktion f (x) = x ∧ t, ergibt sich . ∞ E(Vt ) = E(U ∧ t) = x ∧ t αe−αx dx 0 . ∞ . ∞ −αx xα e dx − (x − t)α e−αx dx = 0 t . ∞ 1 1 1 yα e−α(y+t) dy = − e−αt . = − α α α 0 Folglich ist E(L(t) ) = E(Vt ) + E(Wt ) = α2 − α1 e−αt . F¨ur großes t, wenn der Effekt der Startbedingung T0 = 0 weitgehend abgeklungen ist, ist also E(L(t) ) ≈ 2/α. Falsch an Antwort (B) ist also nicht etwa die Intuition, dass der Quotient Vt /L(t) in ]0, 1[ gleichverteilt ist (dies ist f¨ur großes t approximativ richtig), sondern die
102
4 Erwartungswert und Varianz
stillschweigende Annahme, dass L(t) den Erwartungswert 1/α hat. Denn die Tatsache, dass das betrachtete Intervall zwischen zwei Bussen den festen Zeitpunkt t enth¨alt, beg¨unstigt l¨angere Intervalle und vergr¨oßert deshalb seine erwartete L¨ange auf ungef¨ahr das Doppelte! Dieses Ph¨anomen ist ebenfalls von Bedeutung, wenn die Zeitpunkte Tk (statt Bus-Ankunftszeiten) die Zeitpunkte beschreiben, zu denen ein technisches Ger¨at defekt wird und durch ein gleichartiges neues ersetzt wird. Dann ist E(L(t) ) die mittlere Funktionsdauer des Ger¨ats, das zur Zeit t arbeitet bzw. inspiziert wird. Bei Beobachtung von L(t) wird dem Inspekteur also eine nahezu doppelte Funktionsdauer vorgegaukelt, als es den Tatsachen entspricht. Deshalb sollte man nicht die Funktionsdauer des zur Zeit t arbeitenden Ger¨ats, sondern z. B. des ersten nach der Zeit t neu eingesetzten Ger¨ats beobachten. (4.17) Beispiel: Optionspreistheorie. Hier geben wir eine kleine Kostprobe aus der Finanzmathematik, und zwar berechnen wir den fairen Preis“ einer Option in ei” nem einfachen (sicherlich zu einfachen) Marktmodell. Sei Xn der (zuf¨allige) Kurs einer gewissen Aktie zur Zeit n. Eine europ¨aische Kaufoption ( European Call“) zur ” Laufzeit N mit Aus¨ubungspreis“ K ist das zur Zeit 0 von einem Investor (dem so ” genannten Stillhalter, z. B. einer Bank) verkaufte Recht, diese Aktie zur Zeit N ≥ 1 (nicht vorher!) zum Preis K pro St¨uck zu erwerben. Welchen Preis darf bzw. sollte der Stillhalter f¨ur dieses Recht fairerweise verlangen? Außer von den zuf¨alligen Kursschwankungen der Aktie h¨angt dies nat¨urlich von der Marktsituation ab. Wir nehmen an, dass außer der Aktie noch eine risikofreie, nicht vom Zufall abh¨angige Anlage, ein Bond“, frei erh¨altlich ist, und dass der ” Wert dieses Bonds zeitlich konstant ist. (Das bedeutet nicht etwa, dass dessen Zinssatz gleich Null ist, sondern nur, dass wir zu abgezinsten Einheiten u¨ bergehen, die an die Wertentwicklung des Bonds angepasst sind.) Außerdem ignorieren wir der Einfachheit halber alle Reibungsverluste“ (wie Steuern und Transaktionskosten) ” und zus¨atzliche Gewinne (wie Dividenden) und setzen voraus, dass Aktie und Bond in beliebigen Mengen und beliebig oft gehandelt werden k¨onnen. Der Gewinn f¨ur den K¨aufer zur Zeit N betr¨agt dann XN − K falls XN > K , (XN − K)+ = 0 sonst. Denn im Fall XN > K macht der K¨aufer von seinem Recht Gebrauch und gewinnt die Differenz zwischen Kurswert und Aus¨ubungspreis. Andernfalls verzichtet er auf sein Recht und gewinnt und verliert nichts. Der vom K¨aufer zu erwartende Gewinn ist somit ! := E (XN − K)+ . Folglich darf der Stillhalter vom K¨aufer den Preis ! verlangen. So denkt man, aber das ist falsch! Dies wurde zuerst von F. Black und M. Scholes (1973) bemerkt, und sie fanden die inzwischen ber¨uhmte Black-Scholes Formel f¨ur
103
4.2 Wartezeitparadox und fairer Optionspreis
den richtigen Preis, siehe (5.26) unten. Scholes erhielt daf¨ur 1997 (zusammen mit R. Merton, der ebenfalls wesentliche Beitr¨age dazu geleistet hat) den Nobelpreis f¨ur ¨ Okonomie (Black war kurz zuvor gestorben). Um den Irrtum zu verstehen, betrachten wir ein einfaches Beispiel: Sei N = 1, X0 = K = 1 und X1 = 2 oder 1/2 jeweils mit Wahrscheinlichkeit 1/2. Dann ist ! = (2 − 1)/2 = 1/2. Wenn der K¨aufer dumm genug ist, die Option zum Preis ! zu erwerben, kann der Stillhalter folgendes machen: Zur Zeit 0 kauft er eine 2/3-Aktie zum Kurs 1 und verkauft aus seinem Bestand 1/6 vom Bond. Zusammen mit der Einnahme 1/2 durch den Verkauf der Option ist seine Bilanz dann ausgeglichen. Zur Zeit 1 kauft der Stillhalter sein 1/6-Bond zur¨uck und verf¨ahrt wie folgt mit der Aktie: Im Fall X1 = 2 kauft er vom freien Markt eine 1/3-Aktie zum Kurs X1 = 2 dazu und verkauft die so erhaltene ganze Aktie an den K¨aufer zum vereinbarten Preis K = 1; seine Bilanz betr¨agt dann − 61 − 13 2+1 = 16 . Im Fall X1 = 1/2 verkauft er seine 2/3-Aktie auf dem freien Markt (da der K¨aufer kein Interesse daran hat, die Option auszu¨uben), und die Bilanz betr¨agt wieder − 16 + 23 21 = 16 . Das heißt, der Stillhalter hat dann wieder denselben Wertpapierbestand ( Portfolio“) wie vor dem Verkauf der Option ” und kann trotzdem den riskolosen Gewinn 1/6 einstreichen! Diese Arbitrage-M¨oglichkeit“ ” zeigt, dass der Preis ! = 1/2 nicht fair ist.
Was ist nun der richtige Preis f¨ur die Option? Und wie findet der Stillhalter eine geeignete Strategie, um sein Risiko abzusichern? Dazu betrachten wir das folgende Binomial-Modell von Cox-Ross-Rubinstein (1979) f¨ur die Entwicklung des Aktienkurses. (Dies CRR-Modell ist zwar weit von der Realit¨at entfernt, aber es lassen sich an ihm ein paar n¨utzliche Begriffe demonstrieren.) Sei - = {0, 1}N , Pp die Bernoulli-Verteilung auf - zum Parameter 0 < p < 1, und Zk : - → {0, 1} die k-te Projektion. Der Kurs der Aktie zur Zeit n sei dann gegeben durch die Rekursion X0 = 1,
Xn = Xn−1 exp[ 2σ Zn − µ ]
f¨ur 1 ≤ n ≤ N;
der Parameter σ > 0, die Volatilit¨at“, bestimmt hierbei die Amplitude der Kurs” schwankung pro Zeiteinheit, und µ h¨angt von den gew¨ahlten Rechnungseinheiten (also der Wertentwicklung des Bonds) ab. Wir nehmen an, dass 0 < µ < 2σ , d. h. die Aktienkurse Xn k¨onnen sowohl steigen als auch fallen. Von besonderem Interesse ist der Fall µ = σ , in dem jeder Kursgewinn durch einen nachfolgenden Kursverlust wieder zunichte gemacht werden kann. (Xn ) heißt dann eine geometrische Irrfahrt. Abbildung 4.2 zeigt zwei zuf¨allige Realisierungen, die mit den Mathematica-Befehlen GeomIrr[n_, s_] :=NestList[(#Exp[s(-1)ˆRandom[Integer]]) &, 1, n] ListPlot[GeomIrr[500, 0.05], PlotJoined -> True, AxesOrigin ->{0,0}]
erzeugt wurden. Betrachten wir nun die m¨oglichen Strategien f¨ur einen Marktteilnehmer. Er kann sich f¨ur jedes 1 ≤ n ≤ N entscheiden, wieviel St¨uck von derAktie (etwa αn ) und wieviel vom Bond (etwa βn ) er w¨ahrend des Zeitintervalls ]n−1, n] in seinem Portfolio halten will. Dabei d¨urfen αn und βn zuf¨allig sein, aber nur von den vorhergehenden
104
4 Erwartungswert und Varianz
6 3 5 2.5 4
2
3
1.5
2
1
1
0.5 100
200
300
400
500
100
200
300
400
500
Abbildung 4.2: Zwei Simulationen der geometrischen Irrfahrt.
Kursst¨anden ω1 = Z1 (ω),…, ωn−1 = Zn−1 (ω) abh¨angen; insbesondere sind α1 und β1 konstant. Eine Strategie besteht aus genau solchen Abbildungen αn , βn : - → R; sie werde mit dem K¨urzel αβ bezeichnet. Das Anfangskapital im Portfolio ist dann αβ W0 := α1 + β1 , und der Wert des Portfolios zur Zeit 1 ≤ n ≤ N betr¨agt Wnαβ = αn Xn + βn . Eine Strategie αβ heißt selbstfinanzierend, wenn die Umschichtung des Portfolios zu jedem Zeitpunkt n wertneutral verl¨auft, d. h. wenn (αn+1 − αn )Xn + (βn+1 − βn ) = 0
(4.18)
f¨ur alle 1 ≤ n < N . Insbesondere ergibt sich dann βn+1 automatisch aus den anderen αβ Gr¨oßen, und es ist Wn = αn+1 Xn + βn+1 . Eine selbstfinanzierende Strategie αβ heißt eine Hedge- (d. h. Absicherungs-) Strategie (f¨ur den Stillhalter) zum Startwert w, wenn (4.19)
αβ
W0 = w,
Wnαβ ≥ 0 f¨ur 1 ≤ n < N,
αβ
WN ≥ (XN − K)+ ;
d. h. der Wert des Portfolios soll nie negativ werden und zur Zeit N den f¨ur den Stillhalter m¨oglicherweise entstehenden Verlust ausgleichen. Ein marktgerechter Preis f¨ur die Option ist nun offenbar gegeben durch !∗ = inf{w > 0 : es gibt eine selbstfinanzierende Hedge-Strategie zu w} . Dieser so genannte Black-Scholes-Preis !∗ l¨asst sich explizit berechnen: (4.20) Proposition: Black-Scholes-Preis einer Option im CRR-Modell. F¨ur den Black-Scholes-Preis !∗ einer Option im obigen CRR-Modell gilt !∗ = E∗ (XN − K)+ .
4.2 Wartezeitparadox und fairer Optionspreis
105
Dabei ist E∗ der Erwartungswert bez¨uglich der Bernoulli-Verteilung P ∗ := Pp∗ zum Parameter eµ − 1 . p ∗ = 2σ e −1 Ferner existiert eine selbstfinanzierende Hedge-Strategie zum Startwert !∗ . Der faire Preis ist also nach wie vor der erwartete Gewinn, aber bez¨uglich eines geeignet modifizierten Parameters! Bemerkenswerterweise h¨angt der faire Preis also nur von der Gr¨oße der Auf- und Abbewegungen des Aktienkurses und nicht vom Trend p ab. Der Parameter p ∗ ist dadurch charakterisiert, dass f¨ur ihn gilt: E∗ (Xn ) = 1 f¨ur alle n, d. h. der mittlere Wert der Aktie bleibt konstant, entwickelt sich also genau so wie der Wert des Bond. Beweis: Sei αβ eine beliebige selbstfinanzierende Hedge-Strategie zu einem Startwert w > 0. Dann gilt wegen (4.18) (4.21)
αβ Wnαβ − Wn−1 = αn (Xn − Xn−1 ) = αn Xn−1 e2σ Zn −µ − 1 .
Nun sind zwei Dinge zu beachten: Erstens h¨angt αn Xn−1 nur von Z1 , . . . ,Zn−1 ab und ist daher (wegen Satz (3.24)) unabh¨angig von e2σ Zn −µ − 1. Ferner ist p∗ gerade so gew¨ahlt, dass E∗ (e2σ Zn −µ − 1) = p∗ e2σ −µ + (1 − p ∗ )e−µ − 1 = 0 . Also folgt aus Satz (4.7d) E∗ (Wnαβ − Wn−1 ) = E∗ (αn Xn−1 ) E∗ (e2σ Zn −µ − 1) = 0 αβ
und daher insbesondere wegen (4.19) und Satz (4.7a) w = E∗ (W0 ) = E∗ (WN ) ≥ E∗ ((XN − K)+ ) =: w∗ . αβ
αβ
Wir erhalten also die Ungleichung !∗ ≥ w∗ . Zum Beweis der umgekehrten Ungleichung und der Zusatzaussage konstruieren wir eine selbstfinanzierende Hedge-Strategie αβ zum Startwert w∗ . Dazu definieren αβ wir zuerst geeignete Kandidaten Wn∗ f¨ur Wn . F¨ur 1 ≤ n ≤ N und ω ∈ - sei ω≤n = (ω1 , . . . , ωn ) die Folge der ersten n Kursschwankungen, und ω>n und Z>n seien analog definiert; formal lassen wir auch die leere Folge ω≤0 zu. Wir setzen Wn∗ (ω≤n ) = E∗ XN (ω≤n , Z>n ) − K + , XN (ω≤n , ω>n ) − K + P ∗ (Z>n = ω>n ) = ω>n ∈{0,1}N −n
106
4 Erwartungswert und Varianz
f¨ur 0 ≤ n ≤ N. Wn∗ (ω≤n ) ist also der (beim Parameter p ∗ ) erwartete Gewinn des K¨aufers, wenn ω≤n bereits bekannt ist. Insbesondere gilt W0∗ = w ∗ und WN∗ (ω) = (XN (ω) − K)+ . (Wir werden Wn∗ manchmal als Funktion auf ganz - auffassen, die aber de facto nur von den ersten n Koordinaten abh¨angt.) Wegen der Produktstruktur der Bernoulli-Verteilung gilt f¨ur alle 1 ≤ n ≤ N ∗ Wn−1 (ω
(Diese Gleichung besagt, dass die Folge (Wn∗ )0≤n≤N ein Martingal“ ist; auf diesen zentralen ” Begriff der Wahrscheinlichkeitstheorie wollen wir hier aber nicht n¨aher eingehen.) Hieraus
ergibt sich durch Unterscheidung der F¨alle ωn = 0 und ωn = 1: ∗ γn (ω) := Wn∗ (ω≤n ) − Wn−1 (ω
αβ
Man beachte, dass der obige Beweis konstruktiv ist: Er liefert nicht nur die Formel f¨ur !∗ , sondern gleichzeitig eine optimale Strategie. Auf diese Weise erh¨alt man insbesondere die Strategie im Beispiel auf Seite 103, siehe Aufgabe 4.11. Wir leiten noch einen alternativen Ausdruck f¨ur !∗ her. Mit den ' Abk¨urzungen onnen aN = (log K + µN)/2σ , p◦ = e2σ −µ p ∗ , P ◦ = Pp◦ , und SN = N k=1 Zk k¨ wir schreiben !∗ = E∗ (XN − K) 1{XN >K} = E∗ exp[2σ SN − µN] 1{SN >aN } − K P ∗ (SN > aN ) ◦ S 1−p ◦ N −SN 1{SN >aN } − K P ∗ (SN > aN ) = E∗ pp∗ N 1−p ∗ (4.22)
= P ◦ (SN > aN ) − K P ∗ (SN > aN ) .
In der letzten Gleichung wird ausgenutzt, dass SN unter P ∗ gem¨aß Satz (2.9) Bn,p∗ ◦ 1−p ◦ N−k verteilt ist, und dass ( pp∗ )k ( 1−p = BN,p◦ ({k})/BN,p∗ ({k}). Von hier aus ist es ∗) nun nicht mehr weit zur Black-Scholes-Formel, die wir in Beispiel (5.25) herleiten werden.
107
4.3 Varianz und Kovarianz
4.3 Varianz und Kovarianz Sei (-, F , P ) ein Wahrscheinlichkeitsraum und X : - → R eine reelle Zufallsvariable. Ist X r ∈ L 1 (P ) f¨ur ein r ∈ N, so nennt man E(X r ) das r-te Moment von X und schreibt X ∈ L r = L r (P ). Es ist L s ⊂ L r f¨ur r < s, denn dann gilt die Ungleichung |X|r ≤ 1 + |X|s . Wir interessieren uns vor allem f¨ur den Fall r = 2. Definition: F¨ur X, Y ∈ L 2 heißt (a) V(X) = VP (X) := E [X − E(X)]2 = E(X2 ) − E(X)2 die Varianz von √ X und V(X) die Streuung oder Standardabweichung von X bez¨uglich P , sowie (b) Cov(X, Y ) = E [X − E(X)][Y − E(Y )] = E(XY ) − E(X) E(Y ) die Kovarianz von X und Y . (Sie existiert wegen |XY | ≤ X 2 + Y 2 .) (c) Ist Cov(X, Y ) = 0, so heißen X und Y unkorreliert. Die Varianz ist ein Maß daf¨ur, wie weit die Werte von X im Schnitt auseinander fallen. Ist zum Beispiel X gleichverteilt auf {x1 , . . . , xn } ⊂ R, so ist 1, xi n n
E(X) = x¯ :=
1, (xi − x) ¯ 2, n n
und
i=1
V(X) =
i=1
d. h. die Varianz ist gerade die mittlere quadratische Abweichung vom Mittelwert. Physikalisch entspricht die Varianz dem Tr¨agheitsmoment eines Stabs mit Massenverteilung P ◦ X −1 bei Drehung um (eine zu R senkrechte Achse durch) den Schwerpunkt. Der folgende Satz fasst die wichtigsten Rechenregeln f¨ur Varianz und Kovarianz zusammen. (4.23) Satz: Rechenregeln f¨ur Varianz und Kovarianz. Seien X, Y, Xi ∈ L 2 und a, b, c, d ∈ R. Dann gilt: (a) aX + b, cY + d ∈ L 2 und Cov(aX + b, cY + d) = ac Cov(X, Y ). Insbesondere gilt V(aX + b) = a 2 V(X). (b) Cov(X, Y )2 ≤ V(X) V(Y ) . ' ' n n n ' ' Xi ∈ L 2 und V Xi = V(Xi ) + Cov(Xi , Xj ). (c) i=1
i=1
i=1
i=j
Sind insbesondere X1 , . . . , Xn paarweise unkorreliert, so gilt ' ' n n V Xi = V(Xi ) (Gleichung von Bienaymé). i=1
i=1
(d) Sind X, Y unabh¨angig, so sind X, Y auch unkorreliert.
108
4 Erwartungswert und Varianz
Beweis: (a) ergibt sich durch Ausmultiplizieren mit Hilfe von Satz (4.11b). (b) Wegen (a) kann man ohne Einschr¨ankung annehmen, dass E(X) = E(Y ) = 0. F¨ur diskrete X, Y liefert die Cauchy-Schwarz-Ungleichung , 2 xy P (X = x, Y = y) Cov(X, Y )2 = E(XY )2 = ≤
,
x,y
,
x 2 P (X = x, Y = y)
x,y
y 2 P (X = x, Y = y) = V(X) V(Y ) .
x,y
Der allgemeine Fall folgt hieraus durch diskrete Approximation wie in (4.9). (c) Wegen (a) ist ohne Einschr¨ankung E(Xi ) = 0. Dann folgt aus Satz (4.11b) ' ' 2 ' n n n V Xi = E Xi Xi Xj =E i=1
i=1
=
n ,
E(Xi Xj ) =
i,j =1
i,j =1 n ,
,
i=1
i=j
V(Xi ) +
Cov(Xi , Xj ) .
(d) ergibt sich direkt aus Satz (4.11d). 3 Unmittelbar aus Aussage (a) erh¨alt man das folgende (4.24) Korollar: Standardisierung. Ist X ∈ L 2 mit V(X) > 0, so ist die Zufallsvariable X − E(X) X∗ := √ V(X) ∗ standardisiert“, d. h. es gilt E(X ) = 0 und V(X∗ ) = 1. ” Es ist wichtig, die Begriffe Unabh¨angigkeit und Unkorreliertheit auseinander zu halten. Zwar sind beide durch eine Produktformel charakterisiert; diese betrifft aber im Fall der Unkorreliertheit nur die Erwartungswerte, dagegen im Fall der Unabh¨angigkeit die gesamte gemeinsame Verteilung der Zufallsvariablen. Das best¨atigt sich im folgenden Gegenbeispiel. (4.25) Beispiel: Unkorrelierte, aber abh¨angige Zufallsvariablen. Sei - = {1, 2, 3} und P = U- die Gleichverteilung. Die Zufallsvariable X sei definiert durch ihre drei Werte (1, 0, −1) auf -, und Y habe die Werte (0, 1, 0). Dann ist XY = 0 und E(X) = 0, also Cov(X, Y ) = E(XY ) − E(X) E(Y ) = 0 , aber P (X = 1, Y = 1) = 0 =
1 9
= P (X = 1) P (Y = 1) .
X und Y sind also nicht unabh¨angig, d. h. die Umkehrung von Satz (4.23d) ist falsch. Da der Erwartungswert einer Zufallsvariablen nur von ihrer Verteilung abh¨angt (vgl. Bemerkung (4.10)), spricht man auch von Erwartungswert und Varianz eines Wahrscheinlichkeitsmaßes auf R.
109
4.3 Varianz und Kovarianz
Definition: Ist P ein Wahrscheinlichkeitsmaß auf (R, B ), so nennt man E(P ) := EP (IdR ) und V(P ) = VP (IdR ) auch einfach den Erwartungswert und die Varianz von P (sofern sie existieren). Dabei ist IdR : x → x die Identit¨atsabbildung auf R. Bemerkung (4.10) bekommt dann folgende Form. (4.26) Bemerkung: Verteilungsabh¨angigkeit von Erwartungswert und Varianz. F¨ur X ∈ L 1 (P ) ist E(X) = E(P ◦ X−1 ), und f¨ur X ∈ L 2 (P ) ist V(X) = V(P ◦ X−1 ). Erwartungswert und Varianz einer reellen Zufallsvariablen X stimmen also gerade u¨ berein mit dem Erwartungswert und der Varianz der Verteilung P ◦ X −1 von X. Wir berechnen nun die Varianz einiger spezieller Verteilungen. (4.27) Beispiel: Binomialverteilung. F¨ur alle n, p gilt' V(Bn,p ) = np(1 − p). Denn gem¨aß Satz (2.9) ist Bn,p = P ◦ Sn−1 , wenn Sn = ni=1 Xi und (Xi )1≤i≤n eine Bernoulli-Folge zu p ist. Offenbar gilt E(Xi ) = E(Xi2 ) = p und daher V(Xi ) = p(1 − p). Also liefert Satz (4.23cd) V(Bn,p ) = V(Sn ) =
n ,
V(Xi ) = np(1 − p).
i=1
(4.28) Beispiel: Normalverteilung. Sei Nm,v die Normalverteilung zu den Parametern m ∈ R, v > 0. Gem¨aß Korollar (4.13) existiert das zweite Moment von Nm,v ) 2 genau dann, wenn x 2 e−(x−m) /2v dx < ∞. Letzteres ist offensichtlich der Fall. Insbesondere ergibt sich . 1 2 x e−(x−m) /2v dx E(Nm,v ) = √ 2π v . √ 1 2 (m + vy) e−y /2 dy = m = √ 2π √ mit der Substitution y = (x − m)/ v und wegen der y ↔ −y Symmetrie, und . . 1 v 2 2 −(x−m)2 /2v (x − m) e y 2 e−y /2 dy dx = √ V(Nm,v ) = √ 2π v 2π
3 . 4 ∞ v 2 2 −ye−y /2 + e−y /2 dy = v = √ −∞ 2π mit partieller Integration und Lemma (2.25). Die Parameter der Normalverteilung sind also gerade Erwartungswert und Varianz. (4.29) Beispiel: Beta-Verteilung. F¨ur die Beta-Verteilung β a,b zu a, b > 0 erh¨alt man mit Korollar (4.13) und der Rekursionsformel (2.23) . 1 a B(a + 1, b) = s βa,b (s) ds = E(β a,b ) = B(a, b) a + b 0
110
4 Erwartungswert und Varianz
.
und V(β a,b ) =
1
0
s 2 βa,b (s) ds − E(β a,b )2
B(a + 2, b) a 2 ab = = − . B(a, b) a+b (a + b)2 (a + b + 1)
4.4
Erzeugende Funktionen
Wir betrachten jetzt Wahrscheinlichkeitsmaße P auf dem speziellen Ereignisraum (Z+ , P(Z+ )). Jedes solche P ist durch seine Z¨ahldichte (k) = P ({k}) eindeutig festgelegt, und diese ihrerseits durch die Potenzreihe mit Koeffizienten (k). Definition: Ist P ein Wahrscheinlichkeitsmaß auf (Z+ , P(Z+ )) mit Z¨ahldichte , so heißt die Funktion , ϕP (s) = (k) s k , 0 ≤ s ≤ 1, k≥0
die erzeugende ' Funktion von P bzw. . Wegen ¨ berall wohldefiniert k≥0 (k) = 1 ist die erzeugende Funktion u und (zumindest) auf [0, 1[ unendlich oft differenzierbar. Im Fall einiger StandardVerteilungen l¨asst sie sich explizit berechnen. (4.30) Beispiel: Binomialverteilung. F¨ur n ∈ N und 0 < p < 1 ist die erzeugende Funktion der Binomialverteilung Bn,p gegeben durch ϕBn,p (s) =
n , n k=0
k
pk q n−k s k = (q + ps)n ,
wobei q := 1 − p. (4.31) Beispiel: Negative Binomialverteilung. F¨ur die erzeugende Funktion der negativen Binomialverteilung B r,p zu den Parametern r > 0, 0 < p < 1 ergibt sich aus dem allgemeinen binomischen Satz r
, −r p r k ϕB r,p (s) = p . (−qs) = 1 − qs k k≥0
(4.32) Beispiel: Poisson-Verteilung. Ist Pλ die Poisson-Verteilung zu λ > 0, so gilt ϕPλ (s) =
, k≥0
e−λ
λk k s = e−λ(1−s) . k!
111
4.4 Erzeugende Funktionen
Der Nutzen der erzeugenden Funktionen zeigt sich unter anderem in folgendem Satz. (Weitere Anwendungen folgen in Kapitel 6.) Es bezeichne ϕP(k) (0) die k-te Ableitung von ϕP an der Stelle 0. (4.33) Satz: Momentenberechnung mit der erzeugenden Funktion. Sei P ein Wahrscheinlichkeitsmaß auf Z+ mit Z¨ahldichte . Dann gilt: (a) F¨ur alle k gilt (k) = ϕP(k) (0)/k! , also ist P durch ϕP eindeutig bestimmt. (b) E(P ) existiert genau dann, wenn ϕP (1) (= lims↑1 ϕP (s)) existiert, und dann gilt E(P ) = ϕP (1) = lims↑1 ϕP (s). (c) V(P ) existiert genau dann, wenn ϕP (1) (= lims↑1 ϕP (s)) existiert, und dann gilt V(P ) = ϕP (1) − E(P )2 + E(P ). Beweis: (a) folgt aus dem Satz von Taylor. (b) Alle folgenden Ausdr¨ucke existieren in [0, ∞]: , , , 1 − sk ϕ(1) − ϕ(s) = lim = lim (k) (k) sj s↑1 s↑1 1−s 1−s k−1
lim s↑1
k≥0
= sup sup
n ,
s<1 n≥1 k=0
(k)
k−1 ,
j =0
k≥0
sj =
j =0
,
(k) k = lim
k≥0
s↑1
,
(k) ks k−1 = lim ϕ (s).
k≥0
s↑1
Dabei haben wir ausgenutzt, dass aus Monotoniegr¨unden die Suprema u¨ ber s und n vertauschbar sind. E(P ) existiert genau dann, wenn alle diese Ausdr¨ucke endlich sind. (c) Wie in (b) ergibt sich lim s↑1
ϕ (1) − ϕ (s) , = (k) k(k − 1) ∈ [0, ∞] , 1−s k≥0
und die Behauptung folgt sofort. 3 Wenden wir den Satz auf die oben betrachteten speziellen Verteilungen an, so erhalten wir die folgenden Beispiele. (4.34) Beispiel: Binomialverteilung. Aus Beispiel (4.30) ergibt sich d (q + ps)n = np , E(Bn,p ) = s=1 ds d2 n V(Bn,p ) = (q + ps) − (np)2 + np = npq , s=1 ds 2 ¨ in Ubereinstimmung mit den Beispielen (4.5) und (4.27).
112
4 Erwartungswert und Varianz
(4.35) Beispiel: Negative Binomialverteilung. Zusammen mit Beispiel (4.31) liefert Satz (4.33bc) d p r rq E(B r,p ) = , = pr rq(1 − q)−r−1 = ds 1 − qs s=1 p d 2 p r r 2q 2 rq V(B r,p ) = − 2 + 2 ds 1 − qs s=1 p p 2 2 r q rq rq = p r r(r + 1)q 2 p −r−2 − 2 + = 2. p p p (4.36) Beispiel: Poisson-Verteilung. Aus Beispiel (4.32) erh¨alt man d −λ+λs e = λ, E(Pλ ) = s=1 ds d 2 −λ+λs V(Pλ ) = e − λ2 + λ = λ . s=1 ds 2 Der Parameter einer Poisson-Verteilung kennzeichnet also sowohl den Erwartungswert als auch die Varianz! Die erzeugende Funktion einer Zufallsvariablen ist definiert als die erzeugende Funktion ihrer Verteilung: Definition: Sei X eine Z+ -wertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (-, F , P ). Dann heißt die Funktion , ϕX (s) := ϕP ◦X−1 (s) = s k P (X = k) = E(s X ) , 0 ≤ s ≤ 1, k≥0
die erzeugende Funktion von X. (4.37) Satz: Erzeugende Funktion einer Summe unabh¨angiger Zufallsvariablen. Sind X, Y unabh¨angige Z+ -wertige Zufallsvariablen, so gilt ϕX+Y (s) = ϕX (s) ϕY (s) ,
0 ≤ s ≤ 1.
Beweis: Gem¨aß Satz (3.24) sind s X und s Y unabh¨angig, also folgt die Behauptung aus Satz (4.7d). 3 Mit dem Begriff der Faltung (siehe Seite 73) bekommt Satz (4.37) die folgende Gestalt. (4.38) Satz: Produktregel f¨ur die erzeugende Funktion einer Faltung. F¨ur je zwei Wahrscheinlichkeitsmaße P1 , P2 auf (Z+ , P(Z+ )) gilt ϕP1 %P2 (s) = ϕP1 (s) ϕP2 (s) ,
0 ≤ s ≤ 1.
113
Aufgaben
Dieser Satz erlaubt uns, die oben betrachteten speziellen Verteilungen als Faltungen zu identifizieren. (4.39) Beispiel: Binomialverteilung. Sei 0 < p < 1 und B1,p die Binomialverteilung auf {0, 1}, d. h. B1,p ({1}) = p, B1,p ({0}) = q := 1 − p. Dann gilt f¨ur jedes n ≥ 2 %n := B1,p % · · · % B1,p . Bn,p = B1,p = <; > n Mal
Wir wissen dies bereits seit Satz (2.9): Es ist Bn,p = P ◦ (X1 + · · · + Xn )−1 f¨ur eine Bernoulli-Folge (Xi )1≤i≤n . Man kann aber auch Satz (4.38) benutzen. Gem¨aß Beispiel (4.30) gilt n¨amlich %n (s) , ϕBn,p (s) = (q + ps)n = ϕB1,p (s)n = ϕB1,p
0 ≤ s ≤ 1.
%n uberSomit m¨ussen nach Satz (4.33a) die Wahrscheinlichkeitsmaße Bn,p und B1,p ¨ einstimmen.
(4.40) Beispiel: Negative Binomialverteilung. F¨ur 0 < p < 1, r ∈ N gilt B r,p = G%r p , d. h. B r,p ist die r-fache Faltung der geometrischen Verteilung. Dies folgt wie im letzten Beispiel aus der Beziehung p r ϕB r,p (s) = = ϕGp (s)r = ϕG%r (s) . p 1 − qs F¨ur beliebige reelle a, b > 0 ergibt sich genauso B a+b,p = B a,p % B b,p , d. h. die negativen Binomialverteilungen bilden eine Faltungshalbgruppe. (4.41) Beispiel: Poisson-Verteilung. F¨ur beliebige Parameter λ, µ > 0 gilt ϕPλ+µ (s) = e(λ+µ)(s−1) = ϕPλ (s) ϕPµ (s) = ϕPλ %Pµ (s) f¨ur alle s, und daher Pλ+µ = Pλ %Pµ . Die Poisson-Verteilungen bilden also ebenfalls eine Faltungshalbgruppe, wie wir bereits aus Korollar (3.36) wissen.
Aufgaben 4.1. Sei X eine Zufallsvariable mit Werten in [0, ∞]. Zeigen Sie: (a) Ist E(X) < ∞, so gilt P (X < ∞) = 1. (b) Ist E(X) = 0, so gilt P (X = 0) = 1. (Betrachten Sie zuerst den Fall, dass X diskret ist.) 4.2. Beweisen oder widerlegen Sie die folgenden Aussagen u¨ ber zwei Zufallsvariablen X, Y ∈ L 1 .
114
4 Erwartungswert und Varianz
(a) E(X) = E(Y ) ⇒ P (X = Y ) = 1. (b) E(|X − Y |) = 0 ⇒ P (X = Y ) = 1. 4.3. Einschluss-Ausschluss-Prinzip. Geben Sie einen alternativen Beweis der EinschlussAusschluss-Formel aus Aufgabe 1.6b, indem Sie den Erwartungswert des Produkts -
-
1Ai
i∈J
(1 − 1Ai )
i∈I \J
berechnen. 4.4. Jensen’sche Ungleichung. Es sei ϕ : R → R eine konvexe Funktion, X ∈ L 1 und ϕ ◦ X ∈ L 1 . Zeigen Sie, dass ϕ E(X) ≤ E ϕ(X) . (Legen Sie im Punkte E(X) eine Tangente an ϕ an.) 4.5. (a) Sei X eine Zufallsvariable mit Werten in Z+ . Zeigen Sie: E(X) =
,
P (X ≥ k) .
k≥1
(Eventuell sind beide Seiten +∞.) (b) Sei X eine beliebige Zufallsvariable mit Werten in [0, ∞[. Zeigen Sie: . ∞ E(X) = P (X ≥ s) ds . 0
(Wieder k¨onnen beide Seiten +∞ sein. Hinweis: Diskrete Approximation.) 4.6. Sei (-, F , P ) ein Wahrscheinlichkeitsraum 'und An ∈ F , n ≥ 1. Definieren und interpretieren Sie eine Zufallsvariable X mit E(X) = n≥1 P (An ). Diskutieren Sie insbesondere den Spezialfall, dass die An paarweise disjunkt sind. 4.7. Seien X, Y, X1 , X2 , . . . ∈ L 1 . Zeigen Sie: (a) Lemma von Fatou. Ist Xn ≥ 0 f¨ur alle n und X = lim inf n→∞ Xn , so gilt E(X) ≤ lim inf n→∞ E(Xn ). (Hinweis: Yn = inf k≥n Xk ist nach Aufgabe 1.12 eine Zufallsvariable, und es gilt Yn ↑ X.) (b) Satz von der dominierten Konvergenz. Ist |Xn | ≤ Y f¨ur alle n und X = limn→∞ Xn , so gilt E(X) = limn→∞ E(Xn ). (Wenden Sie (a) auf die Zufallsvariablen Y ± Xn an.) 4.8. Satz von Fubini. Seien X1 , X2 unabh¨angige Zufallsvariablen mit Werten in irgendwelchen Ereignisr¨aumen (E1 , E1 ) bzw. (E2 ,E2 ) und f : E1 × E2 → R eine beschr¨ankte Zufallsvariable. F¨ur x1 ∈ E1 sei f1 (x1 ) = E f (x1 , X2 ) . Zeigen Sie: f (x1 , ·) (mit beliebigem x1 ∈ E1 ) und f1 sind Zufallsvariablen, und es gilt E f (X1 , X2 ) = E f1 (X1 ) , d.h. der Erwartungswert von f (X1 , X2 ) kann schrittweise gebildet werden. (Zeigen Sie die Behauptung zuerst im Fall f = 1A f¨ur A = A1 × A2 mit Ai ∈ Ei , dann mit Hilfe von Satz (1.12) f¨ur beliebiges A ∈ E1 ⊗ E2 , und schließlich f¨ur beliebiges f .)
115
Aufgaben
4.9. In der Zeitschrift der Stiftung Warentest ist bei den Tests auch ein mittlerer Preis“ ” des getesteten Produkts angegeben; dabei handelt es sich oft um den Stichprobenmedian, ' d. h. den Median der empirischen Verteilung n1 ni=1 δxi der in n L¨aden angetroffenen Preise x1 , . . . , xn . Warum kann f¨ur den Leser die Angabe des Medians (statt des arithmetischen Mittels) von Vorteil sein? Zeigen Sie an einem Beispiel, dass Median und Erwartungswert wesentlich voneinander abweichen k¨onnen. 4.10. Wald’sche Identit¨at. Seien (Xi )i≥1 unabh¨angige, identisch verteilte reelle Zufallsvariablen in L 1 und τ eine Z+ -wertige Zufallsvariable mit E(τ ) < ∞. F¨ur alle ' n ∈ N sei das Ereignis {τ ≥ n} unabh¨angig von Xn . Zeigen Sie: Die Zufallsvariable Sτ = τi=1 Xi besitzt einen Erwartungswert, und es gilt E(Sτ ) = E(τ ) E(X1 ). 4.11. Betrachten Sie das Cox-Ross-Rubinstein-Modell zu den Parametern X0 = K = 1, σ = µ = log 2. Bestimmen Sie f¨ur die Laufzeiten N = 1, 2, 3 den Black-Scholes-Preis !∗ und die optimale selbstfinanzierende Hedge-Strategie αβ. 4.12. Sei !∗ (N ) = E∗ ((XN − K)+ ) der Black-Scholes-Preis im Cox-Ross-RubinsteinModell zu den Parametern µ, σ > 0 zur Laufzeit N, siehe Beispiel (4.17). Beweisen Sie: !∗ (N) ≤ !∗ (N + 1). (Zeigen Sie etwa mit Hilfe von Aufgabe 4.4, dass jede optimale selbstfinanzierende HedgeStrategie u¨ ber die Laufzeit N + 1 auch eine Hedge-Strategie u¨ ber die Laufzeit N ist.) ¨ 4.13. Es sei X eine reelle Zufallsvariable. Uberpr¨ ufen Sie in den F¨allen (a) X ist U[0,1] -verteilt, (b) X hat die Cauchy-Verteilungsdichte ρ(x) = π1
1 , 1+x 2
(c) X = eY f¨ur eine N0,1 -verteilte Zufallsvariable Y , ob der Erwartungswert E(X) und die Varianz V(X) existieren, und berechnen Sie sie gegebenenfalls. 4.14. Es seien X1 , . . . , Xn ∈ L 2 unabh¨angige identisch verteilte Zufallsvariablen und M = 1 'n X ihr Mittelwert. Berechnen Sie i=1 i n ' n (Xi − M)2 . E i=1
4.15. Zeigen Sie f¨ur eine reelle Zufallsvariable X: (a) Der Erwartungswert minimiert die quadratische Abweichung. Ist X ∈ L 2 mit Erwartungswert m, so gilt f¨ur alle a ∈ R E((X − a)2 ) ≥ V(X) mit Gleichheit genau dann, wenn a = m.
116
4 Erwartungswert und Varianz
(b) Jeder Median minimiert die absolute Abweichung. Ist X ∈ L 1 und µ ein Median von X, so gilt f¨ur alle a ∈ R E(|X − a|) ≥ E(|X − µ|) mit Gleichheit genau dann, wenn auch a ein Median ist. Hinweis: Nehmen Sie ohne Einschr¨ankung an, dass a < µ, und verifizieren Sie die Gleichung |X − a| − |X − µ| = (µ − a) (2 1{X≥µ} − 1) + 2(X − a) 1{a<X<µ} . 4.16. Beste lineare Vorhersage. Seien X, Y ∈ L 2 und (ohne Einschr¨ankung) V(X) = 1. Zeigen Sie: Die quadratische Abweichung E (Y − a − bX)2 zwischen Y und der affinen Funktion a + bX von X wird minimiert f¨ur b = Cov(X, Y ) und a = E(Y − bX). Was bedeutet dies im Fall, wenn X, Y unkorreliert sind? 4.17. Sei X eine N0,1 -verteilte Zufallsvariable. Zeigen Sie: F¨ur alle k ≥ 1 gilt E(X 2k ) = 2k (k + 21 )/ ( 21 ). Berechnen Sie dies explizit f¨ur k = 1, 2, 3. 4.18. Sei - = Sn die Menge der Permutationen von {1, . . . , n} und P = U- die Gleichverteilung auf -. F¨ur jede Permutation ω ∈ - sei X(ω) die Anzahl der Fixpunkte von ω. Berechnen Sie E(X) und V(X) (ohne Verwendung von Aufgabe 2.11). 4.19. Positive Korrelation monotoner Zufallsvariablen. Sei (-, F , P ) ein Wahrscheinlichkeitsraum und f, g ∈ L 2 . Zeigen Sie: Sind X, Y unabh¨angige --wertige Zufallsvariablen mit Verteilung P , so gilt Cov(f, g) = 21 E [f (X) − f (Y )][g(X) − g(Y )] . Folgern Sie, dass Cov(f, g) ≥ 0, wenn (-, F ) = (R, B ) und f, g beide monoton wachsend sind. 4.20. Sammelbilder-Problem (coupon collector’s problem). Eine Firma legt ihrem Produkt die Bilder der Spieler der deutschen Fußball-Nationalmannschaft bei. Wieviele Produkte m¨ussen Sie im Mittel kaufen, um alle N = 20 Bilder zu erhalten? Sei dazu (Xi )i≥1 eine Folge von unabh¨angigen, auf E = {1, ..., N} gleichverteilten Zufallsvariablen. Xi steht f¨ur das beim i-ten Kauf vorgefundene Bild. Sei n := {X1 , ..., Xn } die zuf¨allige Menge der bei den ersten n K¨aufen erhaltenen verschiedenen Bilder, und f¨ur 1 ≤ r ≤ N sei Tr = inf{n ≥ 1 : | n | = r} der Kauf, bei dem Sie erstmals r verschiedene Bilder besitzen. Schließlich sei Dr = Tr −Tr−1 , wobei T0 := 0. Zeigen Sie: (a) F¨ur r, d1 , ..., dr , d ∈ N, I ⊂ E mit |I | = r und n := d1 + ... + dr gilt P Tr+1 = n + d, Xn+d = i Dj = dj f¨ur 1 ≤ j ≤ r,
r d−1 1I c (i) N1 . n=I = N
117
Aufgaben
(b) Die Zufallsvariablen D1 , ..., DN sind unabh¨angig, und Dr − 1 ist geometrisch verteilt zum Parameter 1 − r−1 N . (c) Bestimmen Sie E(TN ) und V(TN ). 4.21. Sammelbilder-Problem (alternativer Zugang). Beweisen Sie in der Situation von Aufgabe 4.20 die Rekursionsformel n , P (Tr = n + 1) = 1 − r−1 P (Tr−1 = k) − P (Tr = k) . N k=1
Berechnen Sie daraus die erzeugenden Funktionen der Tr und folgern Sie: TN hat alsVerteilung N
die Faltung δN %
% Gr/N . Bestimmen Sie Erwartungswert und Varianz von TN . r=1
4.22. Seien τ, X1 , X2 , . . . ∈ L 1 unabh¨angige Zufallsvariablen mit Werten in Z+ , und X1 , X2 , . . . seien identisch verteilt. Es sei Sτ wie in Aufgabe 4.10 definiert. Zeigen Sie, dass Sτ die erzeugende Funktion ϕSτ = ϕτ ◦ ϕX1 hat, und leiten Sie daraus nochmals die Wald’sche Identit¨at her. Berechnen Sie ferner die Varianz V(Sτ ) und dr¨ucken Sie diese durch die Erwartungswerte und Varianzen von X1 und τ aus. 4.23. Bestimmen Sie in der Situation von Aufgabe 4.22 zu gegebenem 0 < p < 1 eine Z¨ahldichte p auf Z+ , so dass f¨ur alle r > 0 das Folgende gilt: Ist τ Poisson-verteilt zum Parameter −r log p und haben die Xi die Verteilungsdichte p , so hat Sτ die negative Binomialverteilung B r,p . (p heißt die logarithmische Verteilung zu p.) 4.24. Bestimmen Sie in der Situation von Aufgabe 3.14 mit Hilfe von Aufgabe 4.22 die erzeugende Funktion der Anzahl der Larven und schließen Sie daraus auf deren Verteilung. 4.25. Einfache symmetrische Irrfahrt. In der Situation von Aufgabe 2.7 sei τ = inf{2n ≥ 2 : S2n = 0} der Zeitpunkt des ersten Gleichstands bei der Ausz¨ahlung. Bestimmen Sie die erzeugende Funktion sowie den Erwartungswert von τ .
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
In diesem Kapitel besch¨aftigen wir uns mit zwei fundamentalen Grenzwerts¨atzen f¨ur Langzeit-Mittelwerte von unabh¨angigen, identisch verteilten reellwertigen Zufallsvariablen. Der erste ist das Gesetz der großen Zahl, das die Konvergenz der Mittelwerte gegen den gemeinsamen Erwartungswert zum Gegenstand hat. Je nach dem verwendeten Konvergenzbegriff spricht man vom schwachen oder starken Gesetz der großen Zahl. Der zweite Satz, der zentrale Grenzwertsatz, beschreibt die asymptotische Gr¨oßenordnung der Abweichungen der Mittelwerte vom Erwartungswert; hier zeigt sich die universelle Bedeutung der Normalverteilung.
5.1 5.1.1
Das Gesetz der großen Zahl Das schwache Gesetz der großen Zahl
Die Erfahrung zeigt: Werden n unabh¨angige, aber ansonsten gleichartige Versuche durchgef¨uhrt, zum Beispiel physikalische Messungen, und bezeichnet Xi das Ergebnis der Messung beim i-ten Versuch, so liegt bei großem n der Mittelwert 1 'n ahe einer festen Zahl, die man intuitiv als den Erwartungswert i=1 Xi in der N¨ n der Xi bezeichnen m¨ochte. Darauf beruht auch die H¨aufigkeitsinterpretation von Wahrscheinlichkeiten, welche sagt: 1, P (A) ≈ 1{Xi ∈A} , n n
i=1
d. h. die Wahrscheinlichkeit eines Ereignisses A entspricht gerade der relativen H¨aufigkeit des Eintretens von A bei einer sehr großen Anzahl von unabh¨angigen, identisch verteilten Beobachtungen X1 , . . . , Xn . Spiegelt unser mathematisches Modell diese Erfahrung wider? Dazu m¨ussen wir zuerst die Frage kl¨aren: In welchem Sinn w¨urde man denn eine Konvergenz gegen den ¨ Mittelwert erwarten? Das n¨achste Beispiel zeigt, dass genaue Ubereinstimmung des Mittelwerts mit dem Erwartungswert selbst nach langer Zeit nur mit vernachl¨assigbarer Wahrscheinlichkeit eintritt. Zuvor erinnern wir an die aus der Analysis (siehe etwa [34]) bekannte Stirling-Formel: √ 1 (5.1) n! = 2π n nn e−n+η(n) mit 0 < η(n) < . 12n
119
5.1 Das Gesetz der großen Zahl
√ Insbesondere gilt also n! ∼ 2π n nn e−n f¨ur n → ∞; dabei steht das Zeichen ∼“ ” ¨ wie im Beweis von Satz (2.14) f¨ur asymptotische Aquivalenz in dem Sinne, dass der Quotient beider Seiten gegen 1 strebt. (5.2) Beispiel: Bernoulli-Experiment. Sei (Xi )i≥1 eine Bernoulli-Folge zur Erfolgswahrscheinlichkeit p = 1/2; als konkretes Beispiel kann man an den wiederholten M¨unzwurf denken. Mit welcher Wahrscheinlichkeit erscheint die Zahl mit genau der relativen H¨aufigkeit 1/2? Offensichtlich ist dies ohnehin nur bei einer geraden Anzahl von W¨urfen m¨oglich. In dem Fall ergibt sich aber mit Hilfe der Stirling-Formel
2n 1 , 1 2n −2n Xi = 2 = B2n, 1 ({n}) = P 2 n 2n 2 i=1 √ 1 (2n)2n 2π2n −2n ∼ 2 =√ −→ 0 , √ n→∞ π n n→∞ (nn 2π n)2 d. h. die relative H¨aufigkeit liegt bei großem n nur mit sehr geringer Wahrscheinlichkeit pr¨azise bei 1/2. In der Tat zeigt die Erfahrung, dass sie sich bestenfalls ungef¨ahr ” bei 1/2“ einpendelt. Aufgrund des Beispiels gelangen wir zu der abgeschw¨achten Vermutung, dass (5.3)
n 1 , P Xi − E(X1 ) ≤ ε −→ 1 n→∞ n i=1
f¨ur alle ε > 0, dass also der Mittelwert mit großer Wahrscheinlichkeit nahe beim Erwartungswert liegt. Der entsprechende Konvergenzbegriff f¨ur Zufallsvariablen hat einen Namen: Definition: Seien Y, Y1 , Y2 , . . . beliebige reelle Zufallsvariablen auf einem Wahrscheinlichkeitsraum (-, F , P ). Man sagt, Yn konvergiert stochastisch (oder in WahrP
scheinlichkeit) gegen Y , und schreibt Yn −→ Y , wenn P (|Yn − Y | ≤ ε) −→ 1 n→∞
f¨ur alle ε > 0.
Die Vermutung (5.3) erweist sich nun in der Tat als richtig. Zur Vorbereitung dient folgende (5.4) Proposition: Markov-Ungleichung. Sei Y eine reelle Zufallsvariable und f : [0, ∞[ → [0, ∞[ eine monoton wachsende Funktion mit f (x) > 0 f¨ur x > 0. Dann gilt f¨ur alle ε > 0 E(f ◦ |Y |) . P (|Y | ≥ ε) ≤ f (ε)
120
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
Beweis: Da {f ≤ c} f¨ur jedes c ein Intervall ist, ist f und daher auch f ◦ |Y | eine Zufallsvariable. Weil letztere nichtnegativ ist, ist ihr Erwartungswert nach Bemerkung (4.2) wohldefiniert. Aus Satz (4.11ab) folgt daher f (ε) P (|Y | ≥ ε) = E(f (ε) 1{|Y |≥ε} ) ≤ E(f ◦ |Y |) , denn es ist f (ε) 1{|Y |≥ε} ≤ f ◦ |Y |. 3 ˇ (5.5) Korollar: Cebyšev-Ungleichung, 1867. F¨ur Y ∈ L 2 und ε > 0 gilt P (|Y − E(Y )| ≥ ε) ≤
V(Y ) . ε2
ˇ Neben der Schreibweise Cebyšev f¨ur den russischen Mathematiker P.L. Qebyxev (1821 – 1894) sind auch die Transskriptionen Tschebyscheff und Tschebyschow verbreitet. De facto wurde die Ungleichung schon 1853 von I.-J. Bienaymé entdeckt.
Beweis: Man wende Proposition (5.4) an auf Y = Y − E(Y ) und f (x) = x 2 . 3 Eine Antwort auf die eingangs gestellte Frage gibt nun der folgende Satz. (5.6) Satz: Schwaches Gesetz der großen Zahl, L 2 -Version. Seien (Xi )i≥1 paarweise unkorrelierte (z. B. unabh¨angige) Zufallsvariablen in L 2 mit beschr¨ankter Varianz, d. h. es sei v := supi≥1 V(Xi ) < ∞. Dann gilt f¨ur alle ε > 0 n 1 , v P (Xi − E(Xi )) ≥ ε ≤ 2 −→ 0 , n nε n→∞ i=1
' P also n1 ni=1 (Xi − E(Xi )) −→ 0. Im Fall wenn E(Xi ) = E(X1 ) f¨ur alle i folgt insbesondere n 1, P Xi −→ E(X1 ) . n i=1
Beweis: Wir setzen Yn = (4.11b) gilt
1 n
'n
i=1 (Xi
− E(Xi )). Dann ist Yn ∈ L 2 , und nach Satz
1, E(Yn ) = E(Xi − E(Xi )) = 0 , n n
i=1
sowie nach Satz (4.23ac) V(Yn ) =
n 1 , v V(Xi ) ≤ . n2 n i=1
Satz (5.6) folgt somit aus Korollar (5.5). 3
121
5.1 Das Gesetz der großen Zahl
Wir stellen noch eine zweite Version des schwachen Gesetzes der großen Zahl vor. Diese ben¨otigt nicht die Existenz der Varianzen; zum Ausgleich wird statt der paarweisen Unkorreliertheit sogar die paarweise Unabh¨angigkeit und die identische Verteilung der Zufallsvariablen gefordert. Sie kann beim ersten Lesen u¨ bersprungen werden. (5.7) Satz: Schwaches Gesetz der großen Zahl, L 1 -Version. Seien (Xi )i≥1 paarweise unabh¨angige, identisch verteilte Zufallsvariablen in L 1 . Dann gilt 1, P Xi −→ E(X1 ) . n n
i=1
Beweis: Wir betrachten die gestutzten Zufallsvariablen '
Xi = Xi 1{|Xi |≤i 1/4 } sowie die abgeschnittenen Reste *
'n
'
Xi = Xi − Xi = Xi 1{|Xi |>i 1/4 }
∗ ∗ ur ∗ i=1 (Xi − E(Xi )) f¨ ' P * P Yn −→ 0 als auch Yn −→ 0. Die Behauptung ' * Lemma (5.8a), denn es ist ja E(Xi ) + E(Xi ) =
und setzen Yn∗ =
1 n
∈ {', *}. Wir zeigen, dass sowohl
folgt dann aus dem nachfolgenden E(Xi ) = E(X1 ) f¨ur alle i. ' Zuerst halten wir fest, dass die Zufallsvariablen Xi nach Satz (3.24) ebenfalls paarweise unabh¨angig sind. Aus der Gleichung (4.23c) von Bienaymé und der Un' ' gleichung V(Xi ) ≤ E((Xi )2 ) ≤ i 1/2 ergibt sich daher die Absch¨atzung V(Yn' ) =
n 1 , ' V(Xi ) ≤ n−1/2 . n2 i=1
ˇ Mit der Cebyšev-Ungleichung (5.5) folgt hieraus die stochastische Konvergenz '
P
Yn −→ 0. F¨ur die abgeschnittenen Reste erhalten wir *
E(|Xi |) = E(|X1 | 1{|X1 |>i 1/4 } ) = E(|X1 |) − E(|X1 | 1{|X1 |≤i 1/4 } ) −→ 0 . i→∞
Im ersten Schritt haben wir ausgenutzt, dass Xi und X1 identisch verteilt sind; die Konvergenz folgt aus Satz (4.11c) von der monotonen Konvergenz. Folglich gilt auch 2, * E(|Xi |) −→ 0 , n→∞ n n
E(|Yn* |) ≤
i=1
*
P
und zusammen mit der Markov-Ungleichung (5.4) folgt Yn −→ 0. 3
122
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
Wir m¨ussen noch ein Lemma u¨ ber die stochastische Konvergenz nachtragen. Bei dessen Formulierung ist ohne Einschr¨ankung die Limesvariable gleich Null gesetzt, P
P
denn es gilt ja Yn −→ Y genau dann, wenn Yn − Y −→ 0. (5.8) Lemma: Stabilit¨atseigenschaften der stochastischen Konvergenz. Seien Yn , Zn reelle Zufallsvariablen und an ∈ R. Dann gilt: P
P
P
(a) Aus Yn −→ 0 und Zn −→ 0 folgt Yn + Zn −→ 0. P
P
(b) Gilt Yn −→ 0 und ist (an )n≥1 beschr¨ankt, so gilt auch an Yn −→ 0. Beweis: F¨ur beliebiges ε > 0 ist einerseits P (|Yn + Zn | > ε) ≤ P (|Yn | > ε/2) + P (|Zn | > ε/2) und andrerseits, wenn etwa |an | < c, P (|an Yn | > ε) ≤ P (|Yn | > ε/c) . Hieraus folgen die beiden Aussagen unmittelbar. 3 Abschließend halten wir fest, dass das Gesetz der großen Zahl im Allgemeinen nicht mehr gilt, wenn die Zufallsvariablen (Xi )i≥1 keinen Erwartungswert besitzen. Seien die Xi etwa unabh¨angig und Cauchy-verteilt zum Parameter a >'0, vgl. Aufgabe 2.5. Dann ist nach Aufgabe 3.13 f¨ur jedes n der Mittelwert n1 ni=1 Xi wieder Cauchy-verteilt zu a, konvergiert also keineswegs gegen eine Konstante.
5.1.2 Anwendungsbeispiele Wir diskutieren nun eine Reihe von Anwendungen des schwachen Gesetzes der großen Zahl. (5.9) Beispiel: Das Ehrenfest-Modell im Gleichgewicht (Paul und Tatiana Ehrenfest 1907). In einem Gef¨aß seien n = 0.25 · 1023 Gas-Molek¨ule. Wegen der Irregularit¨at der Bewegung wird jedes Molek¨ul mit Wahrscheinlichkeit 1/2 in der linken bzw. rechten H¨alfte sein, unabh¨angig von allen anderen. Mit welcher Wahrscheinlichkeit ist der Anteil der Molek¨ule in der linken H¨alfte geringf¨ugig gr¨oßer als in der rechten H¨alfte, etwa ≥ (1 + 10−8 )/2 ? Seien X1 , . . . , Xn Bernoulli-Variablen zum Parameter p = 1/2. Dann gilt aus Symmetriegr¨unden und nach Satz (5.6) P
n 1 ,
n
i=1
1 + 10−8 1 1 1 , Xi − ≥ 5 · 10−9 = P 2 2 n 2 n
Xi ≥
i=1
1 1/4 1 1 ≤ = = 2 · 10−7 . 2 n(5 · 10−9 )2 2 n · 10−16
123
5.1 Das Gesetz der großen Zahl
Diese geringe Wahrscheinlichkeit erkl¨art, warum solche Abweichungen nicht beobachtet werden. (Ein Modell f¨ur die zeitliche Entwicklung der Molek¨ule folgt in Beispiel (6.22).) (5.10) Beispiel: Die Bernstein-Polynome. Sei f : [0, 1] → R stetig und n k n , pk (1 − p)n−k f fn (p) = n k
f¨ur p ∈ [0, 1]
k=0
das zugeh¨orige Bernstein-Polynom n-ten Grades. Nach Satz (2.9) gilt n 1 , Xi , fn (p) = Ep f n i=1
wobei X1 , . . . , Xn Bernoulli’sche Zufallsvariablen zum Parameter p sind. (Der Index p am Erwartungswert soll die p-Abh¨angigkeit des stochastischen Modells andeuten; entsprechend schreiben wir Pp f¨ur das zugrunde liegende Wahrscheinlichkeitsmaß.) Sei ε > 0 beliebig gew¨ahlt. Weil f auf dem kompakten Intervall [0, 1] sogar gleichm¨aßig stetig ist, existiert ein δ > 0 mit |f (x) − f (y)| ≤ ε f¨ur |x − y| ≤ δ. Bezeichnen wir mit *f * die Supremumsnorm von f , so folgt n 1 , X − f (p) f ≤ ε + 2 *f * 1 ' n i n 1 Xi − p ≥ δ i=1 n i=1
und daher mit den S¨atzen (4.7) und (5.6) n 1 , Xi − f (p) |fn (p) − f (p)| ≤ Ep f n i=1
n 1 , ≤ ε + 2 *f * Pp Xi − p ≥ δ n i=1
2 *f * p(1 − p) *f * ≤ ε+ ≤ ε+ 2 nδ 2nδ 2 f¨ur alle p ∈ [0, 1]. Also konvergiert fn gleichm¨aßig gegen f . Dies ist eine konstruktive Version des Weierstraß’schen Approximationssatzes. (5.11) Beispiel: Monte-Carlo Integration. Sei f : [0, 1] → [0, c] messbar. Wir )1 wollen einen numerischen Wert f¨ur das Lebesgue-Integral 0 f (x) dx bestimmen (etwa weil uns keine expliziten Berechnungsmethoden zur Verf¨ugung stehen). Wegen Satz (5.6) k¨onnen wir uns dabei den Zufall zunutze machen.
124
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
Seien X1 , . . . , Xn unabh¨angige, auf [0, 1] gleichverteilte Zufallsvariablen. Dann folgt aus Korollar (4.13) und Satz (5.6) . 1 n V(f ◦ X ) 1 , c2 1 f (Xi ) − f (x) dx ≥ ε ≤ ≤ , P n nε2 nε2 0 i=1
d. h. bei zuf¨alliger Wahl der Argumente und hinreichend großem n ist der Mittelwert der Funktionswerte mit großer Wahrscheinlichkeit nahe beim gesuchten Integral. Die Simulation von X1 , . . . , Xn kann wie in Bemerkung (3.45) erfolgen. (Analog kann man vorgehen, wenn f auf einer beschr¨ankten Teilmenge des Rd definiert ist; im Fall f = 1A l¨asst sich so das Volumen von A bestimmen.) (5.12) Beispiel: Asymptotische Gleichverteilung und Entropie. Wir betrachten eine Nachrichtenquelle, welche zuf¨allige Signale X1 , X2 , . . . aus einem Alphabet A sendet. (Die Zuf¨alligkeit ist eine vereinfachende Annahme, solange nichts Genaueres u¨ ber die Art der Nachrichten bekannt ist.) Im mathematischen Modell sind also A eine endliche Menge und X1 , X2 , . . . unabh¨angige A-wertige Zufallsvariablen mit P (Xi = a) = (a), a ∈ A, wobei eine Z¨ahldichte auf A ist. '$ An
C
1-1
l - : C ⊂ {0, 1} irgendwie ≤&% ε
Abbildung 5.1: Codierung der W¨orter in An mit Irrtumswahrscheinlichkeit ε.
Wie kann man den Informationsgehalt der Quelle angeben? Wir betrachten dazu einen Nachrichtenblock“ Xn = (X1 , . . . , Xn ). Wieviele Ja/Nein-Fragen braucht ” man, um Xn bis auf eine Irrtumswahrscheinlichkeit ε eindeutig ermitteln zu k¨onnen? Dazu w¨ahlt man sich eine m¨oglichst kleine Menge C in der Menge An aller m¨oglichen W¨orter der L¨ange n, so dass P (X n ∈ C) ≥ 1 − ε , und bestimmt das kleinste l mit |C| ≤ 2l . Dann existiert eine Bijektion ϕ von C auf eine Teilmenge C von {0, 1}l . ϕ codiert jedes Wort w ∈ C in ein bin¨ares Codewort ϕ(w) ∈ C , aus dem w durch Anwendung der Inversen ψ = ϕ −1 eindeutig zur¨uckgewonnen werden kann. Den W¨ortern in An \ C weisen wir ein beliebiges Codewort in C zu, d. h. wir setzen ϕ zu irgendeiner (nicht mehr injektiven) Abbildung An → C fort. Abbildung 5.1 verdeutlicht die Situation. Nach Konstruktion gilt dann P (Xn = ψ ◦ ϕ(X n )) = P (Xn ∈ C) ≤ ε , d. h. das von der Quelle gesendete Wort Xn kann mit einer Irrtumswahrscheinlichkeit ≤ ε aus dem Codewort ϕ(Xn ) ermittelt werden. Letzteres besteht aus h¨ochstens l bits,
125
5.1 Das Gesetz der großen Zahl
kann also durch l Ja/Nein-Fragen identifiziert werden. Das n¨achste Korollar – eine kleine Kostprobe aus der Informationstheorie – gibt Auskunft dar¨uber, wieviele bits mindestens gebraucht werden. Wir schreiben log2 f¨ur den Logarithmus zur Basis 2. (5.13) Korollar: Quellencodierungssatz, Shannon 1948. In der obigen Situation sei L(n, ε) = min{l ≥ 0 : es gibt ein C ⊂ An mit |C| ≤ 2l , P (Xn ∈ C) ≥ 1 − ε} die kleinste L¨ange eines Bin¨arcodes, in den ein Nachrichtenblock der L¨ange n codiert werden kann mit einer Irrtumswahrscheinlichkeit ≤ ε bei der Decodierung. Dann existiert , L(n, ε) (a) log2 (a) . = H () := − lim n→∞ n a∈A
Definition: H () heißt die Entropie der Z¨ahldichte . Sie misst den von aller Redundanz befreiten Informationsgehalt der Quelle pro gesendetem Signal. Beweis: Ohne Einschr¨ankung kann man annehmen, dass (a) > 0 f¨ur alle a ∈ A. Denn andernfalls kann man einfach A verkleinern. 1. Schritt: Man betrachte die Zufallsvariablen Yi = − log2 (Xi ), i ≥ 1. Die Yi sind unabh¨angig und nehmen nur endlich viele Werte an. Es ist E(Yi ) = H (), und v := V(Yi ) existiert. F¨ur beliebiges δ > 0 gilt also nach Satz (5.6) f¨ur hinreichend großes n n 1 , P Yi − H () > δ ≤ δ . n i=1
Wegen Menge
1 n
'n
i=1 Yi
⊗n bedeutet dies: F¨ = − n1 log2 ⊗n (Xn ) und P ◦ X −1 ur die n =
Bn = w ∈ An : 2−n(H ()+δ) ≤ ⊗n (w) ≤ 2−n(H ()−δ)
gilt P (X n ∈ Bn ) ≥ 1 − δ. Diese Eigenschaft heißt die asymptotische Gleichverteilungseigenschaft, denn sie besagt: Die typischerweise auftretenden n-Blocks haben (auf exponentieller Skala) ungef¨ahr die gleiche Wahrscheinlichkeit. 2. Schritt: Ist δ ≤ ε und Bn wie oben, so kommt C = Bn unter den Mengen in der Definition von L(n, ε) vor. Folglich gilt L(n, ε) ≤ min{l : |Bn | ≤ 2l }. Wegen der Ungleichung 1=
, w∈An
⊗n (w) ≥
,
2−n(H ()+δ) = |Bn | 2−n(H ()+δ)
w∈Bn
bedeutet dies, dass L(n, ε) ≤ n(H () + δ) + 1. Da δ > 0 beliebig gew¨ahlt ist, erh¨alt man lim supn→∞ L(n, ε)/n ≤ H ().
126
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
Andererseits existiert zu l = L(n, ε) eine Menge C ⊂ An mit |C| ≤ 2l und P (X n ∈ C) ≥ 1 − ε. Da außerdem ⊗n (w) 2n(H ()−δ) ≤ 1 f¨ur w ∈ Bn , ergibt sich , ⊗n (w) 2n(H ()−δ) 2L(n,ε) ≥ |C| ≥ |C ∩ Bn | ≥ w∈C∩Bn
= P (Xn ∈ C ∩ Bn ) 2n(H ()−δ) ≥ (1−ε−δ) 2n(H ()−δ) , also L(n, ε) ≥ log2 (1−ε−δ) + n(H ()−δ) und daher lim inf n→∞ L(n, ε)/n ≥ H (). 3 Statistische Anwendungen des schwachen Gesetzes der großen Zahl folgen u. a. in den Abschnitten 7.6, 8.2 und 10.2.
5.1.3
Das starke Gesetz der großen Zahl
Mit dem schwachen Gesetz der großen Zahl ist man noch nicht ganz zufrieden. Wenn man zum Beispiel eine faire M¨unze 100 mal wirft, kann es zwar mit geringer Wahrscheinlichkeit vorkommen, dass die relative H¨aufigkeit stark von 1/2 abweicht, aber diese Abweichung sollte nach und nach verschwinden, wenn man lange genug weiter wirft. Dieser Intuition liegt ein anderer Konvergenzbegriff zugrunde. Definition: Seien Y, Y1 , Y2 , . . . reelle Zufallsvariablen auf (-, F , P ). Man sagt, Yn konvergiert gegen Y P -fast sicher, wenn P ω ∈ - : Yn (ω) → Y (ω) = 1 . (Allgemein sagt man, eine Aussage gelte fast sicher, wenn sie mit Wahrscheinlichkeit 1 zutrifft.) Das Ereignis {Yn → Y } liegt tats¨achlich in F , vgl. Aufgabe 1.12; seine Wahrscheinlichkeit ist also definiert. Wir halten außerdem fest: (5.14) Bemerkung: fast sicher“ ⇒ stochastisch“. Fast sichere Konvergenz im” ” pliziert stochastische Konvergenz, aber nicht umgekehrt. Beweisskizze: Fast sichere Konvergenz hat wegen Satz (1.11e) zur Folge (und ist de facto sogar gleichwertig damit), dass P (supk≥n |Yk − Y | ≥ ε) → 0 f¨ur n → ∞ und jedes ε > 0. Umgekehrt ist z. B. die (auf [0, 1] mit der Gleichverteilung U[0,1] definierte) Folge Yk = 1[m2−n ,(m+1)2−n ] , falls k = 2n + m mit 0 ≤ m < 2n , stochastisch konvergent gegen 0, aber nicht fast sicher konvergent. 3 Unsere oben geschilderte Intuition sagt also: F¨ur unabh¨angige, identisch verteilte Zufallsvariablen (Xi )i≥1 in L 2 gilt 1, Xi → E(X1 ) n n
i=1
fast sicher.
127
5.1 Das Gesetz der großen Zahl
Wir wissen aus Satz (3.49) (dem Null-Eins-Gesetz von Kolmogorov), dass P
n 1 ,
n
Xi → E(X1 ) = 0 oder 1 .
i=1
Ist die Wahrscheinlichkeit wirklich 1, wie wir es intuitiv vermuten? In der Tat gilt: (5.15) Satz: Starkes Gesetz der großen Zahl. Seien (Xi )i≥1 paarweise unkorrelierte Zufallsvariablen in L 2 mit v := supi≥1 V(Xi ) < ∞. Dann gilt 1, (Xi − E(Xi )) → 0 fast sicher. n n
i=1
Ohne Beweis sei erw¨ahnt, dass das starke Gesetz der großen Zahl auch unter den Voraussetzungen von Satz (5.7) g¨ultig ist, siehe etwa Durrett [13]. Beweis: Ohne Einschr¨ankung k¨onnen wir annehmen, dass ' E(Xi ) = 0 f¨ur alle i; sonst betrachten wir Xi := Xi − E(Xi ). Wir setzen Yn = n1 ni=1 Xi . 1. Schritt: Wir zeigen zuerst, dass Yn2 → 0 fast sicher. Satz (5.6) liefert f¨ur alle ε > 0 die Ungleichung P (|Yn2 | ≥ ε) ≤ v/n2 ε2 . Folglich bilden diese Wahrscheinlichkeiten eine konvergente Reihe, und aus dem Lemma (3.50a) von Borel-Cantelli folgt P |Yn2 | ≥ ε f¨ur unendlich viele n = 0 . Also gilt auch
P es gibt ein k ≥ 1 mit |Yn2 | ≥ 1/k f¨ur unendlich viele n , P |Yn2 | ≥ 1/k f¨ur unendlich viele n = 0 , ≤ k≥1
und das bedeutet P (Yn2 → 0) = 0. 2. Schritt: F¨ur m ∈ N sei n = n(m) so gew¨ahlt,'dass n2 ≤ m < (n + 1)2 . Wir vergleichen Ym mit Yn2 und setzen Sk = k Yk = ki=1 Xi . Dann folgt aus der ˇ Cebyšev-Ungleichung (5.5) ' v(m − n2 ) Xi ≤ P |Sm − Sn2 | ≥ εn2 ≤ ε−2 n−4 V ε2 n4 n2
P |Sm − Sn(m)2 | ≥ ε n(m)
2
m≥1
(n+1) −1 v , , m − n2 ≤ 2 ε n4 2 2
n≥1
=
v ε2
2n ,, n≥1 k=1
m=n
v , (2n)(2n + 1) k = 2 < ∞, 4 n ε 2n4 n≥1
128
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
also wieder nach Borel-Cantelli wie im ersten Schritt S m P − Y 0 = 1. −→ 2 n(m) m→∞ n(m)2 Da der Durchschnitt zweier Mengen von Wahrscheinlichkeit 1 wieder Wahrscheinlichkeit 1 hat, ergibt sich daher zusammen mit dem ersten Schritt P
S m −→ 0 = 1. n(m)2 m→∞
Wegen |Ym | = |Sm |/m ≤ |Sm |/n(m)2 folgt P (Ym → 0) = 1. 3 Eine klassischeAnwendung des starken Gesetzes der großen Zahl ist dieAussage, dass die meisten“ reellen Zahlen normal sind in dem Sinne, dass jede Ziffer in ihrer ” Dezimalentwicklung mit der relativen H¨aufigkeit 1/10 auftritt. Etwas st¨arker gilt sogar das Folgende. (5.16) Korollar: Borel’s Gesetz u¨ ber normale Zahlen, 1909. W¨ahlt man eine Zahl x ∈ [0, 1] zuf¨allig gem¨aß der Gleichverteilung U[0,1] , so ist x mit Wahrscheinlichkeit 1 normal in folgendem Sinn: ' F¨ur alle q ≥ 2 und k ≥ 1 kommt in der q-adischen Entwicklung x = i≥1 xi q −i jede Ziffernfolge a = (a1 , . . . , ak ) ∈ {0, . . . , q − 1}k mit relativer H¨aufigkeit q −k vor, d. h. 1, 1{(xi , . . . , xi+k−1 ) = a} = q −k . n→∞ n n
(5.17)
lim
i=1
Beweis: Seien q ≥ 2, k ≥ 1, und a ∈ {0, . . . , q − 1}k fest gew¨ahlt. Es gen¨ugt zu zeigen, dass U[0,1] x ∈ [0, 1] : (5.17) gilt f¨ur q, k, a = 1 , denn der Durchschnitt von abz¨ahlbar vielen Ereignissen der Wahrscheinlichkeit 1 hat wieder Wahrscheinlichkeit 1 (man bilde Komplemente und verwende Satz (1.11d)). Sei dazu (Xn )n≥1 eine Folge von unabh¨ ' angigen, auf {0, . . . , q − 1} gleichverteilten Zufallsvariablen. Dann hat X = n≥1 Xn q −n die Gleichverteilung U[0,1] . Dies haben wir f¨ur q = 2 im Beweis von Satz (3.26) gezeigt, und der Beweis f¨ur beliebiges q ist analog. Somit ist U[0,1] x ∈ [0, 1] : (5.17) gilt f¨ur q, k, a = P lim Rn = q −k , n→∞
wobei Rn =
1 n
'n
i=1 1{Xi =a}
mit Xi := (Xi , . . . , Xi+k−1 ).
5.2 Die Normalapproximation der Binomialverteilungen
129
F¨ur jedes j ist die Folge (X ik+j )i≥0 unabh¨angig mit P (Xik+j = a) = q −k . Nach Satz (5.15) hat daher das Ereignis C=
k 5 0 j =1
m−1 6 1 , 1{X ik+j = a} = q −k m→∞ m
lim
i=0
die Wahrscheinlichkeit 1. Wegen Rmk
k m−1 1, 1 , = 1{Xik+j = a} k m j =1
i=0
ist aber C ⊂ {limm→∞ Rmk = q −k }, und infolge der Ungleichung m m+1 Rmk ≤ Rn ≤ R(m+1)k m+1 m
f¨ur mk ≤ n ≤ (m + 1)k
stimmt das letzte Ereignis mit dem Ereignis {limn→∞ Rn = q −k } u¨ berein. Somit hat auch dies die Wahrscheinlichkeit 1, und das war zu zeigen. 3
5.2
Die Normalapproximation der Binomialverteilungen
Sei (Xi )i≥1 eine Bernoulli-Folge zum Parameter 0 < p < 1; im Fall p = 1/2 kann man etwa an den wiederholten Wurf einer fairen M¨unze denken, und f¨ur beliebiges p an das wiederholte Ziehen mit Zur¨ucklegen aus einer Urne'mit schwarzen und weißen Kugeln. Wir betrachten die Summenvariablen Sn = ni=1 Xi , welche die Anzahl der Erfolge“ bei n Versuchen angeben, und fragen: Wie stark fluktuieren die ” Summen Sn um ihren Erwartungswert np, d. h. in welcher Gr¨oßenordnung liegen die Abweichungen Sn − np im Limes n → ∞? Bisher wissen wir nur, dass Sn − np von kleinerer Gr¨oßenordnung ist als n, denn das ist gerade die Aussage des Gesetzes der großen Zahl. Die Frage nach der korrekten Gr¨oßenordnung l¨asst sich wie folgt pr¨azisieren: F¨ur welche Folgen (an ) in R+ bleiben die Wahrscheinlichkeiten P |Sn − np| ≤ an nichttrivial, streben also weder gegen 0 noch gegen 1? Die folgende Bemerkung gibt Auskunft dar¨uber, wie schnell (an ) wachsen muss bzw. darf. (5.18) Bemerkung: Gr¨oßenordnung der Fluktuationen. In obiger Situation gilt
P |Sn − np| ≤ an
−→
n→∞
1 0
√ falls an / n → ∞ , √ falls an / n → 0 .
130
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
ˇ Beweis: Die fragliche Wahrscheinlichkeit betr¨agt wegen der Cebyšev-Ungleichung mindestens 1 − np(1 − p)an−2 , und dies strebt im ersten Fall gegen 1. Andererseits stimmt sie nach Satz (2.9) u¨ berein mit , Bn,p ({k}) , k: |k−np|≤an
und dies l¨asst sich absch¨atzen durch (2an +1) Bn,p ({kn,p }) mit kn,p = &(n+1)p'. Denn f¨ur jedes k ≥ 1 gilt genau dann Bn,p ({k}) > Bn,p ({k−1}), wenn (n−k+1)p > k(1−p), also k < (n+1)p; Bn,p ({k}) ist also maximal f¨ur k = kn,p . Nun folgt aber aus der Stirling-Formel (5.1) Bn,p ({kn,p })
∼
n→∞
1 √ 2πp(1−p)n
np kn,p
kn,p
n(1−p) n−kn,p
n−kn,p ,
√ und wegen |kn,p − np| ≤ 1 ist der letzte Ausdruck beschr¨ankt durch C/ n f¨ur eine Konstante C. Also strebt (2an +1) Bn,p ({kn,p }) im zweiten Fall gegen 0. 3 von ihrem jeweiDie Bemerkung zeigt, dass die Abweichungen der Summen Sn√ Un- ligen Erwartungswert np typischerweise mit der Geschwindigkeit n wachsen.√ sere Frage lautet somit: Konvergieren die Wahrscheinlichkeiten P |Sn −np| ≤ c n f¨ur fest gew¨ahltes c > 0 tats¨achlich gegen einen nichttrivialen Limes, und wenn ja, wie sieht der Limes aus? Da Sn nach Satz (2.9) Bn,p -verteilt √ ist, analysieren wir dazu die Wahrscheinlichkeiten Bn,p ({k}) f¨ur |k − np| ≤ c n. Mit Hilfe der Stirling-Formel (5.1) erhalten wir gleichm¨aßig f¨ur alle diese k
n k n−k Bn,p ({k}) = p q k 9 np k nq n−k 1 n ∼ √ n→∞ n−k 2π k(n − k) k 1 ∼ √ e−n h(k/n) , n→∞ 2πnpq wobei wir q = 1 − p und h(s) = s log
s 1−s + (1 − s) log , p q
0 < s < 1,
gesetzt haben. (Dieses h taucht auch in Aufgabe 5.4 auf und ist√ein Spezialfall der relativen Entropie, vgl. (7.31) sp¨ater.) Wegen |k/n − p| ≤ c/ n interessiert uns die Funktion h in der N¨ahe von p. Offenbar ist h(p) = 0, und es existieren die
5.2 Die Normalapproximation der Binomialverteilungen
131
1 Ableitungen h (s) = log ps − log 1−s q und h (s) = s(1−s) . Insbesondere gilt h (p) = 0 und h (p) = 1/(pq). Hieraus ergibt sich die Taylor-Entwicklung
h(k/n) =
(k/n − p)2 + O(n−3/2 ) 2pq
gleichm¨aßig f¨ur alle betrachteten k. (Das Landau-Symbol O(f (n)) steht hier wie u¨ blich f¨ur eine Gr¨oße mit der Eigenschaft |O(f (n))| ≤ Kf (n) f¨ur alle n und eine Konstante K < ∞.) Mit Hilfe der standardisierten Gr¨oßen k − np xn (k) = √ npq schreibt sich dies in der Form n h(k/n) = xn (k)2 /2 + O(n−1/2 ) , und insgesamt erhalten wir 1 1 2 e−xn (k) /2 √ √ npq 2π √ gleichm¨aßig f¨ur alle k mit |xn (k)| ≤ c = c/ pq. Die Binomialwahrscheinlichkeiten schmiegen sich also nach geeigneter Reskalierung an die Gauß’sche Glockenkurve 1 2 e−x /2 , φ(x) = √ 2π d. h. an die Dichtefunktion der Standardnormalverteilung N0,1 an. Wir haben damit bewiesen: Bn,p ({k})
∼
n→∞
(5.19) Satz: Lokale Normalapproximation der Binomialverteilung, de Moivre-Laplace 1733/1812. Sei 0 < p < 1 und q = 1 − p. Dann gilt bei beliebigem c > 0 √ mit xn (k) = (k − np)/ npq √ npq B {k} n,p − 1 = 0 . max lim n→∞ k: |xn (k)|≤c φ xn (k) Korrekterweise m¨usste die Glockenkurve nach de Moivre und Laplace statt nach Gauß ¨ benannt werden; siehe etwa Dudley [12], p. 259, und die dort zitierte Literatur. Ubrigens kann die Bedingung |x (k)| ≤ c abgeschw¨ a cht werden zu |x (k)| ≤ c , wobei (c ) eine Folge ist n n n n √ mit cn3 / n → 0; das sieht man leicht am obigen Beweis.
Die lokale Normalapproximation wird anschaulich durch die Betrachtung der Histogramme der Binomialverteilungen in Abbildung 5.2. Das eigentliche Histogramm
132
5 Gesetz der großen Zahl und zentraler Grenzwertsatz 0.5
n=4 -2
-1
1
2
n = 16
n = 64
n = 256
Abbildung 5.2: Histogramme standardisierter Binomialverteilungen f¨ur p = 1/2 (links) und p = 1/6 (rechts).
von Bn,p besteht aus Rechtecken der H¨ohe Bn,p ({k}) und Breite 1 u¨ ber den Inter vallen k − 21 , k + 21 , k = 0, . . . , n. F¨ur große n ist es wenig aussagekr¨aftig, da es aus sehr vielen Rechtecken sehr geringer H¨ohe besteht und die Rechtecke maximaler H¨ohe sehr weit rechts“ um np herum liegen. Deshalb wird das Histogramm stan” dardisiert, d. h. es wird um np nach links verschoben, dann in der Breite gestaucht √ verm¨oge Division durch σn := npq, und in der H¨ohe um den Faktor σn gestreckt. Die Fl¨ache der einzelnen Rechtecke und die Gesamtfl¨ache erhalten. 1 bleiben dabei Mit anderen Worten: Das Rechteck mit der Basis k − 21 , k + 21 und H¨ohe Bn,p ({k}) im Histogramm der Binomialverteilung wird bei der Standardisierung
5.2 Die Normalapproximation der Binomialverteilungen
133
ersetzt durch das Rechteck mit der Basis xn (k − 21 ), xn (k + 21 ) und der H¨ohe σn Bn,p ({k}). Die lokale Normalapproximation besagt nun gerade, dass sich der obere Rand“ des so standardisierten Histogramms f¨ur n → ∞ lokal gleichm¨aßig ” an die Gauß’sche Glockenkurve ann¨ahert. Dies zeigt sich deutlich in Abbildung 5.2. Es ist anschaulich klar, dass sich auch die Fl¨ache des standardisierten Histogramms u¨ ber einem Intervall [a, b] an die entsprechende Fl¨ache unter der Gauß’schen Glockenkurve ann¨ahert. Dies ist der Inhalt des folgenden Korollars. F¨ur c ∈ R sei . c (5.20) #(c) := φ(x) dx = N0,1 (]−∞, c]) −∞
die Verteilungsfunktion der Standardnormalverteilung N0,1 . (5.21) Korollar: Integrale Normalapproximation der Binomialverteilung, de Moivre-Laplace. Sei 0 < p < 1 und q = 1 − p. Dann gilt f¨ur alle 0 ≤ k ≤ l ≤ n
k − 21 − np l + 21 − np (5.22) Bn,p {k, . . . , l} = # −# + δn (k, l) √ √ npq npq mit max0≤k≤l≤n δn (k, l) → 0 f¨ur n → ∞. Die Terme ± 21 auf der rechten Seite von (5.22) sind – je nach Perspektive – als Diskretheits-“ oder Stetigkeitskorrektur“ bekannt. Wie aus Abbildung 5.2 und dem fol” ” genden Beweis ersichtlich, ber¨ucksichtigen sie die Breite der S¨aulen im standardisierten Binomialhistogramm. Sie tragen zu einer sp¨urbaren Verbesserung der Approximation bei. Im Limes n → ∞ sind sie wegen der gleichm¨aßigen Stetigkeit von # nat¨urlich vernachl¨assigbar, und wir werden sie deshalb bei sp¨ateren Anwendungen aus Bequemlichkeit oft weglassen.
√ Beweis: ZurAbk¨urzung setzen wir σn = npq und δn = 1/(2σn ). Sei ε > 0 beliebig gew¨ahlt und c > 0 so groß, dass #(c − δ1 ) > 1 − ε und also auch #(−c + δ1 ) < ε. F¨ur j ∈ Z sei j # = # xn (j + 21 ) − # xn (j − 21 ) das Gauß-Integral u¨ ber das Teilintervall xn (j − 21 ), xn (j + 21 ) der L¨ange 2δn . Dann gilt j # max −1 − 1 −→ 0 , n→∞ j :|xn (j )|≤c σn φ xn (j ) denn es ist ja j # 1 = −1 2δn σn φ xn (j )
.
xn (j )+δn
e(xn (j )+x)(xn (j )−x)/2 dx ,
xn (j )−δn
und f¨ur alle j mit |xn (j )| ≤ c und alle x im Integrationsbereich ist der Exponent im Integranden beschr¨ankt durch (2c + δn )δn /2 → 0. Zusammen mit Satz (5.19) ergibt
134
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
sich daher f¨ur alle hinreichend großen n die Ungleichung Bn,p {j } − 1 < ε . max j : |xn (j )|≤c j # Seien nun 0 ≤ k ≤ l ≤ n und δn (k, l) durch (5.22) definiert. Im Fall |xn (k)|, |xn (l)| ≤ c erhalten wir dann die Absch¨atzung l l , , δn (k, l) ≤ Bn,p ({j }) − j # < ε j # < ε , j =k
j =k
denn die letzte Summe hat den Wert # xn (l+ 21 ) − # xn (k− 21 ) < 1. Infolge der Wahl von c gilt also insbesondere f¨ur kc = (np − cσn ) und lc = &np + cσn ' Bn,p {kc , . . . , lc } > # xn (lc + 21 ) − # xn (kc − 21 ) − ε > 1 − 3ε , d. h. die Schw¨anze“ der Binomialverteilung links von kc und rechts von lc haben ins” gesamt h¨ochstens die Wahrscheinlichkeit 3ε und sind daher bis auf einen Fehler von h¨ochstens 3ε vernachl¨assigbar. Genauso sind die Schw¨anze der Normalverteilung links von −c und rechts von c bis auf einen Fehler von h¨ochstens 2ε vernachl¨assigbar. Folglich gilt f¨ur alle hinreichend großen n und beliebige 0 ≤ k ≤ l ≤ n die Ungleichung |δn (k, l)| < 6ε. 3 Korollar (5.21) hat den praktischen Nutzen, dass l¨astige Rechenarbeit u¨ berfl¨ussig wird: Man braucht die Binomial-Wahrscheinlichkeiten Bn,p ({k, . . . , l}) nicht explizit zu berechnen (was bei großem n wegen der auftretenden Binomialkoeffizienten etwas m¨uhsam ist), wenn man stattdessen die Verteilungsfunktion # kennt. Diese ist zwar auch nicht geschlossen darstellbar, aber numerisch gut bekannt. Und weil sie nicht mehr von den Parametern n, p abh¨angt, kann man ihre Werte leicht in einer Tabelle zusammenfassen, siehe Tabelle A im Anhang. Eine generelle, allerdings oft zu grobe Schranke f¨ur den Approximationsfehler wird in Bemerkung (5.29) angegeben. Man mag einwenden, dass Approximationen und Tabellen im Zeitalter effektiver Computerprogramme an Bedeutung verloren haben. So kann man etwa in Mathematica zun¨achst durch Statistics‘ContinousDistributions‘ das einschl¨agige Zusatzpaket aufrufen und dann mit dem Befehl CDF[NormalDistribution[0,1],c] den gesuchten Wert #(c) in jeder gew¨unschten Genauigkeit erhalten. Entsprechend kann man mit den Befehlen Statistics‘DiscreteDistributions‘ und CDF[BinomialDistribution[n,p],k] die Wahrscheinlichkeit Bn,p ({0, . . . , k}) direkt bestimmen. Trotzdem ist die Normalapproximation von fundamentaler Bedeutung, und zwar wegen ihrer Universalit¨at. Wie Satz (5.28) zeigen wird, ist sie keineswegs auf den Bernoulli-Fall beschr¨ankt, sondern gilt f¨ur eine große Klasse von Verteilungen. Und kein Computerprogramm kann Berechnungsalgorithmen f¨ur alle potentiellen Verteilungen bereitstellen.
5.2 Die Normalapproximation der Binomialverteilungen
135
Um die Antwort auf die Eingangsfrage dieses Abschnitts zu geben, brauchen wir jetzt Korollar (5.21) nur noch in die Sprache der Zufallsvariablen zu u¨ bertragen. Wir erhalten damit einen Spezialfall des zentralen Grenzwertsatzes, der sp¨ater in (5.28) formuliert wird. (5.23) Korollar: Zentraler Grenzwertsatz f¨ur Bernoulli-Folgen. Sei (Xi )i≥1 eine Bernoulli-Folge zum Parameter p ∈ ]0, 1[ und q = 1 − p. F¨ur jedes n ≥ 1 sei Sn =
n ,
Xi
und
i=1
Sn − np . Sn∗ = √ npq
Dann existiert f¨ur alle a < b lim P (a ≤ Sn∗ ≤ b) =
n→∞
.
b
φ(x) dx = #(b) − #(a) ,
a
und die Konvergenz ist sogar gleichm¨aßig in a, b. Insbesondere gilt (5.24)
lim P (Sn∗ ≤ b) = #(b)
n→∞
gleichm¨aßig in b ∈ R.
Beweis: Wegen Satz (2.9) gilt P (a ≤ Sn∗ ≤ b) = Bn,p {kn,a , . . . , ln,b } mit kn,a = √ (np+σn a), ln,b = &np+σn b', σn = npq. Außerdem gilt |xn (kn,a − 21 )−a| ≤ 1/σn √ und analog f¨ur b, und die Funktion # ist wegen # = φ ≤ 1/ 2π gleichm¨aßig stetig. Die Behauptung folgt daher unmittelbar aus Korollar (5.21). 3 Wir beenden diesen Abschnitt mit einer finanzmathematischen Anwendung der Normalapproximation. Einige statistische Anwendungen folgen in Teil II, u. a. in Abschnitt 8.2 und Kapitel 11. (5.25) Beispiel: Die Black-Scholes-Formel. Wir kehren zur¨uck zum Problem des fairen Preises einer europ¨aischen Kaufoption, siehe Beispiel (4.17). Dort hatten wir die Vorstellung, dass sich der Kurs in diskreten Zeiteinheiten a¨ ndert. In einer globalen Wirtschaft, in der immer an irgendeiner B¨orse gehandelt wird, ist aber die Vorstellung von kontinuierlicher Zeit ad¨aquater. Wir betrachten daher ein Zeitintervall [0, t] und machen (¨ahnlich wie in Abschnitt 2.4) eine diskrete Approximation, indem wir [0, t] in N Teilintervalle der L¨ange t/N einteilen. Wir setzen voraus, dass die Kursentwicklung in den diskreten Teilintervallen durch eine geometrische Irrfahrt mit Parametern σN = µN beschrieben werden kann. Infolge der Gleichung von Bienaymé ist es sinnvoll anzunehmen, dass die Varianzen der Kursschwankungen proportional √ zur Zeitdauer sind. Das bedeutet, dass die Volatilit¨at pro Teilintervall mit σN = σ t/N anzusetzen ist, wobei das neue σ wieder als Volatilit¨at pro Zeit
136
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
interpretiert werden kann. Der Black-Scholes-Parameter p ∗ = p ∗ (N ) aus Proposition (4.20) f¨ur die zeitdiskrete Approximation ist dann gegeben durch ∗
p (N) =
√
t/N − 1 √ e2σ t/N − 1
eσ
.
Entsprechend erhalten wir f¨ur den Parameter p ◦ = p ◦ (N ) in Formel (4.22) den Ausdruck √ √ e2σ t/N − eσ t/N ◦ √ p (N) = = 1 − p ∗ (N ) . e2σ t/N − 1 √ log K √ . Mit diesen Werten gehen wir nun in Formel (4.22). Ferner ist aN = N2 + N 2σ t Außerdem ersetzen wir gem¨aß Korollar (5.23) √ das binomialverteilte SN durch die • = (S −Np • )/ Np • (1 − p • ), • ∈ {∗, ◦}. Wir erhalten standardisierten Gr¨oßen SN N dann f¨ur den fairen Preis !∗ = !∗ (N ) in der N-Teilintervall-Approximation !∗ (N) = P ◦ (SN > aN ) − K P ∗ (SN > aN ) ◦ ◦ ∗ ∗ = P ◦ (SN > aN ) − K P ∗ (SN > aN ), wobei • = aN
√ N√
1 2
− p • (N )
p• (N)(1 − p • (N ))
+
log K √ • 2σ t p (N )(1 − p • (N ))
f¨ur • ∈ {∗, ◦}. Nun erh¨alt man mit Hilfe der Taylor-Approximation √N cosh σ √t/N − 1 √ 1 ∗ N − p (N) = √ 2 2 sinh σ t/N √ N σ 2 t/2N + O(N −2 ) = √ 2 σ t/N + O(N −3/2 ) √ −→ σ t/4 N →∞
√ Setzen wir zur Abk¨urzung h √ = (log K)/σ t, und insbesondere p ∗ (N) → 1/2. √ ∗ → h + σ t/2 und analog a ◦ → h − σ t/2. Wegen der so ergibt sich also aN N gleichm¨aßigen Konvergenz in (5.24) (und der Stetigkeit von #) erhalten wir hieraus √ √ !∗ (N) −→ 1 − #(h − σ t/2) − K (1 − #(h + σ t/2)) N→∞ √ √ (5.26) = #(−h + σ t/2) − K #(−h − σ t/2) . Der letzte Ausdruck (5.26) ist die ber¨uhmte, in Bankrechnern fest implementierte Black-Scholes-Formel f¨ur den fairen Preis einer Option. (Hier ist die W¨ahrungseinheit
137
5.3 Der zentrale Grenzwertsatz
so gew¨ahlt, dass der Aktienkurs X0 zur Zeit 0 gerade 1 betr¨agt; im allgemeinen Fall muss man in der Formel K durch K/X0 ersetzen und den gesamten Ausdruck mit X0 multiplizieren. Wenn der Wert des Bonds nicht zeitkonstant ist, sondern mit der Zinsrate r > 0 w¨achst, muss man K durch den entsprechend abgezinsten Preis Ke−rt ersetzen.) Unsere Herleitung der Black-Scholes-Formel durch Grenz¨ubergang im Binomialmodell liefert leider nicht die zuh¨origen Hedge-Strategien; dazu m¨usste man direkt im zeitstetigen Modell arbeiten. Die Black-Scholes Formel sollte nat¨urlich nicht zum leichtfertigen Umgang mit Optionen verleiten. Zum einen ist das zugrunde liegende Modell f¨ur die Kursentwicklung, der stetige Limes der geometrischen Irrfahrt (die so genannte geometrische Brown’sche Bewegung) nur bedingt realistisch, wie ein Vergleich der Simulation auf Seite 104 mit realen Kursverl¨aufen zeigt. Zum anderen hat der Zusammenbruch des LTCM (Long Term Capital Management) Hedge-Fonds im September 1998 gezeigt, wie selbst der geballte finanzmathematische Sachverstand der dort als Berater t¨atigen Nobelpreistr¨ager Merton und Scholes versagen kann, wenn das Marktgeschehen unvorhergesehenen Einfl¨ussen folgt.
5.3
Der zentrale Grenzwertsatz
Das Thema dieses Abschnitts ist die Universalit¨at der Normalapproximation. Es wird gezeigt, dass die Konvergenzaussage von Korollar (5.23) nicht nur f¨ur BernoulliFolgen, sondern in großer Allgemeinheit gilt. Dazu untersuchen wir zun¨achst den Konvergenzbegriff in Korollar (5.23). Aussage (5.24) kann wie folgt ausgesprochen werden: Die Verteilungsfunktion von Sn∗ konvergiert gleichm¨aßig gegen die von N0,1 . Dabei ist die Gleichm¨aßigkeit der Konvergenz eine automatische Folge der Stetigkeit des Limes # und der Monotonie der Verteilungsfunktionen FSn∗ , siehe Aussage (5.27c) unten. Im Fall einer unstetigen Limesfunktion muss man allerdings auf die Gleichm¨aßigkeit der Konvergenz verzichten, und der gute Konvergenzbegriff lautet wie folgt. Definition: Sei (Yn )n≥1 eine Folge von reellen Zufallsvariablen auf irgendwelchen Wahrscheinlichkeitsr¨aumen. Man sagt, Yn konvergiert in Verteilung gegen eine reelle Zufallsvariable Y bzw. gegen deren Verteilung Q auf (R, B ), wenn FYn (c) −→ FY (c) = FQ (c) n→∞
L
f¨ur alle Stellen c ∈ R, an denen FY stetig ist. Man schreibt dann Yn −→ Y bzw. Q d
oder Yn −→ Y bzw. Q. (Das L erinnert an law“ oder loi“, das d an distribution“.) ” ” ” Die folgende Charakterisierung der Verteilungskonvergenz zeigt, warum es sinnvoll ist, die Konvergenz der Verteilungsfunktionen nur an den Stetigkeitsstellen der Limesfunktion zu verlangen. Insbesondere zeigt Aussage (5.27b), wie der Begriff
138
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
der Verteilungskonvergenz auf Zufallsvariablen mit Werten in beliebigen topologischen R¨aumen verallgemeinert werden kann. (Eine weitere Charakterisierung wird sich aus Bemerkung (11.1) ergeben.) Wir schreiben * · * f¨ur die Supremumsnorm. (5.27) Bemerkung: Charakterisierung der Verteilungskonvergenz. In der Situation der obigen Definition sind die folgenden Aussagen a¨ quivalent: L
(a) Yn −→ Y . (b) E(f ◦ Yn ) → E(f ◦ Y ) f¨ur alle stetigen beschr¨ankten Funktionen f : R → R. Ist FY stetig, so ist ferner a¨ quivalent (c) FYn konvergiert gleichm¨aßig gegen FY , d. h. *FYn − FY * → 0. Beweis: (a) ⇒ (b): Zu ε > 0 w¨ahle man Stetigkeitsstellen c1 < · · · < ck von FY derart, dass FY (c1 ) < ε, FY (ck ) > 1 − ε und |f (x) − f (ci )| < ε f¨ur ci−1 ≤ x ≤ ci , 1 < i ≤ k. Das ist m¨oglich, da FY die Limesbeziehungen (1.29) erf¨ullt und aus Monotoniegr¨unden nur abz¨ahlbar viele Unstetigkeitsstellen hat, und da außerdem f auf jedem kompakten Intervall sogar gleichm¨aßig stetig ist. Dann gilt E(f ◦ Yn ) =
k , E f ◦ Yn 1{ci−1
ck } i=2
≤
k ,
f (ci ) + ε FYn (ci ) − FYn (ci−1 ) + 2ε *f * ,
i=2
und der letzte Ausdruck strebt f¨ur n → ∞ gegen einen Limes, der bis auf 2ε(1 + 2*f *) mit E(f ◦ Y ) u¨ bereinstimmt. F¨ur ε → 0 folgt lim supn→∞ E(f ◦ Yn ) ≤ E(f ◦ Y ), und mit derselben Ungleichung f¨ur −f ergibt sich Aussage (b). (b) ⇒ (a): Zu c ∈ R und δ > 0 w¨ahle man ein stetiges beschr¨anktes f mit 1]−∞,c] ≤ f ≤ 1]−∞,c+δ] . Dann gilt lim sup FYn (c) ≤ lim E(f ◦ Yn ) = E(f ◦ Y ) ≤ FY (c + δ) . n→∞
n→∞
Ist c eine Stetigkeitsstelle von FY , so strebt der letzte Term f¨ur δ → 0 gegen FY (c), und es folgt lim supn→∞ FYn (c) ≤ FY (c). Genauso sch¨atzt man den lim inf nach unten ab. (a) ⇒ (c): Sei k ∈ N beliebig und ε = 1/k. Wenn FY stetig ist, gibt es nach dem Zwischenwertsatz gewisse ci ∈ R mit FY (ci ) = i/k, 0 < i < k. Die ci zerlegen R in k Intervalle, auf denen FY genau um ε w¨achst. Da FYn ebenfalls monoton wachsend ist, gilt dann *FYn − FY * ≤ ε + max |FYn (ci ) − FY (ci )| , 0
139
5.3 Der zentrale Grenzwertsatz
und das Maximum strebt f¨ur n → ∞ gegen 0. (c) ⇒ (a) gilt trivialerweise. 3 Der folgende Satz ist die angek¨undigte Verallgemeinerung von Korollar (5.23) und begr¨undet die zentrale Rolle der Normalverteilungen in der Stochastik. (5.28) Satz: Zentraler Grenzwertsatz, Lyapunov 1901, Lindeberg, Feller, Turing, Lévy. Sei (Xi )i≥1 eine Folge von unabh¨angigen, identisch verteilten Zufallsvariablen in L 2 mit E(Xi ) = m, V(Xi ) = v > 0. Dann gilt Sn∗
1 , Xi − m L := √ −→ N0,1 , √ n v n
i=1
d. h. *FSn∗ − #* → 0 f¨ur n → ∞. Vor dem Beweis zun¨achst ein paar erg¨anzende Bemerkungen: (5.29) Bemerkung: Diskussion des zentralen Grenzwertsatzes. (a) Warum tritt ausgerechnet die Standard-Normalverteilung N0,1 als Verteilungslimes auf? Dies wird plausibel durch die folgende Stabilit¨atseigenschaft der Normalverteilungen: Sind die (Xi ) unabh¨angig und N0,1 -verteilt, so ist Sn∗ f¨ur beliebiges n ebenfalls N0,1 -verteilt; dies folgt aus Aufgabe 2.15 und Beispiel (3.32). Man kann zeigen, dass die Normalverteilungen die einzigen Wahrscheinlichkeitsmaße auf R mit dieser Eigenschaft sind. (b) Ohne die Voraussetzung Xi ∈ L 2 gilt der zentrale Grenzwertsatz im Allgemeinen nicht mehr. In drastischer Weise wird dies deutlich,' wenn die√ Xi Cauchyverteilt sind√zu einem Parameter a > 0. Dann ist n¨amlich ni=1 Xi / n Cauchyverteilt zu a n, verliert sich also im Limes n → ∞ bei ±∞; vgl. dazu die Diskussion am Ende von Abschnitt 5.1.1. Im Unterschied zum Gesetz der großen Zahl reicht auch nicht die Voraussetzung Xi ∈ L 1 , und ebenfalls kann die Voraussetzung der Unabh¨angigkeit nicht durch paarweise Unabh¨angigkeit oder gar paarweise Unkorreliertheit ersetzt werden. Gegenbeispiele finden sich etwa bei Stoyanov [59]. (c) Besitzen die Xi sogar ein drittes Moment (d. h. Xi ∈ L 3 ), so l¨asst sich die Konvergenzgeschwindigkeit wie folgt absch¨atzen: *FSn∗ − #* ≤ 0.8
E(|X1 − E(X1 )|3 ) 1 √ . v 3/2 n
Dies ist der Satz von Berry-Esséen; ein Beweis findet sich z. B. in [13, 22]. Beweis von Satz (5.28): Ohne Einschr¨ankung sei m = 0, v = 1; sonst betrachte man √ Xi = (Xi − m)/ v . Gem¨aß Bemerkung (5.27) gen¨ugt zu zeigen, dass E(f ◦Sn∗ ) → EN0,1 (f ) f¨ur jede stetige beschr¨ankte Funktion f : R → R. De facto d¨urfen wir sogar zus¨atzlich annehmen, dass f zweimal stetig differenzierbar ist mit beschr¨ankten und gleichm¨aßig stetigen Ableitungen f und f . Denn im Beweis der Implikation (5.27b) ⇒ (5.27a) kann man 1]−∞,c] auch durch solche f approximieren.
140
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
Sei nun (Yi )i≥1 eine Folge von unabh¨angigen, standardnormalverteilten Zufallsvariablen, welche ebenfalls von (Xi )i≥1 unabh¨angig sind. (Wegen Satz (3.26) kann ¨ man durch eventuellen Ubergang zu einem neuen Wahrscheinlichkeitsraum errei'n √ ∗ chen, dass es solche Yi gibt.) Gem¨aß Bemerkung (5.29b) ist dann Tn := i=1 Yi / n ebenfalls N0,1 -verteilt, und die angestrebte Konvergenzaussage bekommt die Gestalt |E(f ◦ Sn∗ − f ◦ Tn∗ )| → 0. Der Vorteil dieser Darstellung ist, dass die Differenz f ◦ Sn∗ − f ◦ Tn∗√als Teleskopsumme dargestellt werden kann. Mit den Abk¨urzungen Xi,n = Xi / n, ' 'n √ amlich Yi,n = Yi / n und Wi,n = i−1 j =i+1 Xj,n gilt n¨ j =1 Yj,n + f ◦ Sn∗ − f ◦ Tn∗ =
(5.30)
n ,
f (Wi,n + Xi,n ) − f (Wi,n + Yi,n ) ,
i=1
denn es ist Wi,n + Xi,n = Wi−1,n + Yi−1,n f¨ur 1 < i ≤ n. Da Xi,n und Yi,n klein sind und f glatt ist, liegt nun eine Taylor-Approximation nahe: Es gilt 2 +R f (Wi,n + Xi,n ) = f (Wi,n ) + f (Wi,n ) Xi,n + 21 f (Wi,n ) Xi,n X,i,n ,
2 f (W +ϑX ) − f (W ) mit irgendeinem 0 ≤ ϑ ≤ 1. wobei RX,i,n = 21 Xi,n i,n i,n i,n 2 *f *, und wegen der gleichm¨ Insbesondere gilt |RX,i,n | ≤ Xi,n aßigen Stetigkeit von 2 ε f¨ f existiert zu vorgegebenem ε > 0 ein δ > 0 mit |RX,i,n | ≤ Xi,n ur |Xi,n | ≤ δ. Zusammen liefert dies die Absch¨atzung 2 ε 1{|Xi,n |≤δ} + *f * 1{|Xi,n |>δ} . |RX,i,n | ≤ Xi,n Eine analoge Taylor-Approximation erh¨alt man f¨ur f (Wi,n + Yi,n ). Setzt man diese Taylor-Approximationen in (5.30) ein und bildet den Erwartungswert, so verschwinden alle Terme bis auf die Restglieder. Denn einerseits ist 2 ) = 1 = E(Y 2 ), und andrerseits sind X E(Xi,n ) = E(Yi,n ) = 0 und E(Xi,n i,n und i,n n Yi,n nach Satz (3.24) unabh¨angig von Wi,n , so dass man Satz (4.11d) anwenden kann; so ist z. B. 2 2 2 2 − Yi,n ] = E f (Wi,n ) E Xi,n − Yi,n = 0. E f (Wi,n ) [Xi,n Folglich gilt n , E(f ◦ S ∗ − f ◦ T ∗ ) ≤ E |RX,i,n | + |RY,i,n | n n i=1
≤
2 4 2 2 2 + Yi,n ) + *f * E Xi,n 1{|Xi,n |>δ} + Yi,n 1{|Yi,n |>δ} ε E(Xi,n
n 3 , i=1
= 2ε + *f * E X12 1{|X1 |>δ √n} + Y12 1{|Y1 |>δ √n} .
141
5.4 Normal- oder Poisson-Approximation?
2 und Y 2 aus dem Erwartungswert Im letzten Schritt wurde der Faktor 1/n von Xi,n i,n herausgezogen und die identische Verteilung der Xi sowie der Yi ausgenutzt. Nach Satz (4.11c) gilt nun aber
E(X12 1{|X1 |>δ √n} ) = 1 − E(X12 1{|X1 |≤δ √n} ) → 0
f¨ur n → ∞
und ebenso E(Y12 1{|Y1 |>δ √n} ) → 0. Es folgt lim supn→∞ |E(f ◦ Sn∗ − f ◦ Tn∗ )| ≤ 2ε, und da ε beliebig gew¨ahlt war, ergibt sich die Behauptung. 3 Es gibt zahlreiche andere Beweismethoden, z. B. mit Fourier-Transformierten; siehe etwa [3, 13, 22]. Besitzen die Xi ein drittes Moment und ist f sogar dreimal stetig differenzierbar, so hat man im obigen Beweis die st¨arkere Absch¨atzung |RX,i,n | ≤ *f * |Xi,n |3 /6 und daher √ E(f ◦ S ∗ ) − EN (f ) ≤ C*f */ n n 0,1 mit C = E |X1 |3 + |Y1 |3 /6 (im Fall m = 0, v = 1). Der Satz von Berry-Esséen in Bemerkung (5.29c) wird dadurch bereits plausibel. Allerdings l¨asst sich diese Absch¨atzung der Konvergenzgeschwindigkeit nicht durch den Beweis der Implikation (5.27b) ⇒ (5.27a) hindurchziehen, weil sich bei der Approximation von 1]−∞,c] durch glatte f die Supremumsnorm *f * notwendigerweise aufbl¨aht; der Satz von Berry-Esséen wird daher anders bewiesen.
5.4
Normal- oder Poisson-Approximation?
In den Abschnitten 2.4 und 5.2 haben wir zwei verschiedene Approximationen f¨ur die Binomialverteilungen diskutiert, die Poisson- und die Normalapproximation. Um beide Approximationen voneinander abzugrenzen, formulieren wir sie wie folgt. Korollar (5.23) sagt aus: Ist (Xi )1≤i≤n eine Bernoulli-Folge zu p und (n)
Yi
Xi − p = √ , npq
' so ist f¨ur großes n die Summe ni=1 Yi(n) ungef¨ahr N0,1 -verteilt. Hier sind die Summanden alle dem Betrag nach klein. Dagegen besagt die Poisson-Approximation in Satz (2.17): Ist (Yi(n) )1≤i≤n eine Bernoulli-Folge zu pn mit pn → 0 f¨ur n → ∞, ' (n) so ist ni=1 Yi ungef¨ahr Pnpn -verteilt. Hier sind nicht die Werte der Summan(n) den klein, sondern nur die Wahrscheinlichkeiten pn = P (Yi = 1) daf¨ur, dass die Summanden nicht klein sind. Dies ist der wesentliche Unterschied der beiden Approximationen. Wir wollen bei dieser Gelegenheit einen alternativen Beweis der Poisson-Approximation angeben, der uns eine explizite Fehlerschranke liefert. (5.31) Satz: Poisson-Approximation der Binomialverteilung. F¨ur 0 < p < 1 und n ∈ N gilt , Bn,p ({k}) − Pnp ({k}) ≤ 2np2 . (5.32) *Bn,p − Pnp * := k≥0
142
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
Beweis: Wir stellen die Wahrscheinlichkeitsmaße Bn,p und Pnp als Verteilungen von geeignet gew¨ahlten Zufallsvariablen auf dem gleichen Wahrscheinlichkeitsraum dar. (Solche Kopplungsargumente“ sind typisch f¨ur die moderne Stochastik.) Sei ” zum Parameter p. Gem¨aß Satz (2.9) bzw. Beispiel X1 , . . . , Xn eine Bernoulli-Folge' (4.39) hat dann die Summe S := ni=1 Xi die Binomialverteilung Bn,p . Seien ferner Y1 , . . . , Yn unabh¨angige Zufallsvariablen mit Poisson-Verteilung'Pp . Aufgrund der Faltungseigenschaft (4.41) der Poisson-Verteilungen hat T := ni=1 Yi die Verteilung Pnp . Die Idee des Kopplungsarguments besteht nun darin, dass wir die Xi und Yi nicht unabh¨angig voneinander w¨ahlen, sondern abh¨angig, und zwar so, dass sie m¨oglichst genau u¨ bereinstimmen. Seien dazu Z1 , . . . , Zn unabh¨angige Zufallsvariablen mit Werten in {−1, 0, 1, . . .}, und zwar gelte P (Zi = k) = Pp ({k}) f¨ur k ≥ 1, P (Zi = 0) = 1−p, und P (Zi = −1) = e−p − (1−p) f¨ur i = 1, . . . , n. (Man beachte, dass Bn,p ({0}) = 1−p ≤ e−p = Pp ({0}). Der u¨ bersch¨ussige Anteil von Pp ({0}) wird also an die Stelle −1 geschoben.) Wir setzen nun Xi = 1{Zi =0} ,
Yi = max(Zi , 0) .
Nach Satz (3.24) sind dann X1 , . . . , Xn unabh¨angig, und ebenfalls sind Y1 , . . . , Yn unabh¨angig. Außerdem haben alle Xi und Yi die oben gew¨unschten Verteilungen. Schließlich betrachten wir noch das Ereignis / Zi ∈ / {0, 1} . D = es gibt ein i mit Xi = Yi = 1≤i≤n
Dann gilt S = T auf D c , und f¨ur die linke Seite in (5.32) k¨onnen wir schreiben , P (S = k) − P (T = k) *Bn,p − Pµ * = k≥0
, P ({S = k} ∩ D) − P ({T = k} ∩ D) = k≥0
≤ 2 P (D) ≤ 2
= 2n 1 − e
,
P Zi ∈ / {0, 1}
1≤i≤n
−p
p − (1 − p) ≤ 2n p 2 .
Die erste Ungleichung ergibt sich durch Anwendung der Dreiecksungleichung, und die letzte aus der Absch¨atzung 1−e−p ≤ p. 3 Im Limes n → ∞, p = pn → 0, npn → λ > 0 liefert Satz (5.31) unmittelbar den fr¨uheren Satz (2.17), und zwar sogar in der st¨arkeren Form *Bn,pn − Pλ * → 0; vgl. dazu die nachfolgende Bemerkung (5.33). Die Konvergenz bez¨uglich des sogenannten Variationsabstands *·* ist im vorliegenden diskreten Fall von Wahrscheinlichkeitsmaßen auf Z+ a¨ quivalent
143
Aufgaben
zur Verteilungskonvergenz, siehe Aufgabe 5.21. Schließlich sei noch angemerkt, dass der vorstehende Beweis sich unmittelbar verallgemeinern l¨asst auf den Fall, dass die'Xi Bernoullisch sind zu unterschiedlichen Erfolgswahrscheinlichkeiten pi . Die Summe S = ni=1 Xi ist dann nicht mehr binomialverteilt, aber ihre Verteilung l¨asst sich immer noch mit einem Fehler von ' h¨ochstens 2 i pi2 durch die Poisson-Verteilung P' pi approximieren. i
(5.33) Bemerkung: Variierung des Poisson-Parameters. F¨ur λ, δ > 0 gilt *Pλ+δ − Pλ * ≤ 2δ . Denn sind X, Y unabh¨angig mit Verteilung Pλ bzw. Pδ , so hat X + Y die Verteilung Pλ+δ , und wie im vorstehenden Beweis sieht man, dass *Pλ+δ − Pλ * nicht gr¨oßer ist als 2 P (Y ≥ 1) ≤ 2(1 − e−δ ) ≤ 2δ.
Wann sollte man eine Binomialverteilung durch eine Poisson-Verteilung und wann durch eine Normalverteilung approximieren? Wegen (5.32) ist die PoissonApproximation gut, wenn np2 klein ist. Nach dem Satz von Berry-Esséen aus Bemerkung (5.29c) ist dagegen die Normalapproximation gut, wenn p2 + (1 − p)2 p(1 − p)3 + (1 − p)p 3 1 = √ √ (p(1 − p))3/2 n np(1 − p) klein ist, und wegen 1/2 ≤ p2 + (1 − p)2 ≤ 1 ist dies genau dann der Fall, wenn np(1 − p) groß ist. Wenn p sehr nahe bei 1 liegt, sind beide Approximationen schlecht. Jedoch liefert dann eine Vertauschung von p mit 1−p und k mit n−k, dass Bn,p (n−k) = Pn(1−p) ({k}) + O n(1−p)2 .
Aufgaben 5.1. Die Ky Fan Metrik f¨ur stochastische Konvergenz. F¨ur zwei reelle Zufallsvariablen X, Y auf einem beliebigen Wahrscheinlichkeitsraum sei d(X, Y ) = min{ε ≥ 0 : P (|X − Y | > ε) ≤ ε}. Zeigen Sie: (a) Das Minimum wird wirklich angenommen, und d ist eine Metrik auf dem Raum aller reellen Zufallsvariablen. P
(b) F¨ur jede Folge reeller Zufallsvariablen auf - gilt Yn −→ Y genau dann, wenn d(Yn , Y ) → 0. 5.2. Sammelbilder. Betrachten Sie das Sammelbilder-Problem aus Aufgabe 4.20. Wieviele Produkte m¨ussen Sie mindestens kaufen, damit Sie mit Wahrscheinlichkeit ≥ 0.95 die komˇ plette Serie von N = 20 Bildern bekommen? Geben Sie mit Hilfe der Cebyšev-Ungleichung eine m¨oglichst gute untere Schranke an.
144
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
5.3. (a) Ein Tierchen bewegt sich auf folgende Weise zuf¨allig in einer Ebene: Es l¨auft eine Streckeneinheit weit in einer zuf¨alligen Richtung $1 , sucht sich dann eine neue Richtung $2 und l¨auft wieder eine Streckeneinheit weit, usw. Hierbei seien die Winkel $i unabh¨angig und gleichverteilt auf [0, 2π]. Es sei Dn der Abstand zwischen dem Ausgangspunkt und dem Aufenthaltsort nach dem n-ten Schritt. Berechnen Sie den Erwartungswert E(Dn2 ). (b) In der Mitte einer großen Ebene befinden sich zur Zeit t = 0 genau 30 Tierchen, die sich auf die in (a) beschriebene Weise unabh¨angig voneinander fortbewegen. Die Tierchen ben¨otigen f¨ur jeden Schritt eine Zeiteinheit. Bestimmen Sie zu jedem n ≥ 1 ein (m¨oglichst kleines) rn > 0 mit folgender Eigenschaft: Mit Wahrscheinlichkeit ≥ 0.9 befinden sich zur Zeit t = n mehr als 15 Tierchen in dem Kreis mit Radius rn um den Mittelpunkt der Ebene. (Bestimmen Sie zun¨achst ein δ > 0 mit der'Eigenschaft: Ist Z1 , . . . , Z30 eine Bernoulli-Folge zu einem Parameter p ≥ 21 + δ, so ist P ( 30 i=1 Zi > 15) ≥ 0.9.) 5.4. Große Abweichungen“ des empirischen Mittelwerts. Sei (Xi )i≥1 eine Bernoulli-Folge ” zu 0 < p < 1. Zeigen Sie, dass f¨ur alle p < a < 1 gilt: n ' Xi ≥ a ≤ e−nh(a;p) , P n1 i=1
1−a . Zeigen Sie dazu zuerst, dass f¨ur alle s ≥ 0 wobei h(a; p) = a log pa + (1 − a) log 1−p n ' P n1 Xi ≥ a ≤ e−nas E(esX1 )n . i=1
5.5. Gesetz der großen Zahl f¨ur Zufallsvariablen ohne Erwartungswert. Seien (Xi )i≥1 unabh¨angige identisch verteilte reellwertige Zufallsvariablen. Ihr Erwartungswert existiere nicht, d. h. Xi ∈ L 1 . Sei a ∈ N beliebig. Zeigen Sie: (a) P (|Xn | > an unendlich oft) = 1. (Hinweis: Aufgabe 4.5.) ' (b) F¨ur die Summen Sn = ni=1 Xi gilt P (|Sn | > an unendlich oft) = 1 und deshalb lim supn→∞ |Sn |/n = ∞ fast sicher. (c) Sind alle Xi ≥ 0, so gilt sogar Sn /n → ∞ fast sicher. 5.6. Erneuerung etwa von Gl¨uhbirnen. Seien (Li )i≥1 unabh¨angige, identisch verteilte, nichtnegative Zufallsvariablen (mit endlichem oder unendlichem Erwartungswert). Li werde interpretiert als die Lebensdauer“ der i-ten Gl¨uhbirne (die beim Durchbrennen sofort durch ” eine neue ersetzt wird). F¨ur t > 0 sei N ' Nt = max N ≥ 1 : Li ≤ t i=1
die Anzahl der bis zur Zeit t verbrauchten Gl¨uhbirnen. Zeigen Sie: Es gilt limt→∞ Nt /t = 1/E(L1 ) fast sicher; dabei sei 1/∞ = 0. (Im Fall E(L1 ) = ∞ brauchen Sie die vorige Aufgabe.) Was bedeutet dies Resultat im Fall des Poisson-Prozesses? 5.7. Sei (Xn )n≥1 eine Folge unabh¨angiger, zu einem Parameter α > 0 exponentialverteilter Zufallsvariablen. Zeigen Sie: Fast sicher gilt lim sup Xn /log n = 1/α n→∞
und
lim inf Xn /log n = 0. n→∞
Aufgaben
145
5.8. Anton schl¨agt Brigitte das folgende Spiel vor: Hier habe ich eine unfaire M¨unze, die ” Kopf mit Wahrscheinlichkeit p ∈ ]1/3, 1/2[ zeigt. Du brauchst nur €100 Startkapital; jedes Mal, wenn die M¨unze Kopf zeigt, verdoppele ich dein Kapital, andernfalls musst du mir die H¨alfte deines Kapitals zahlen. Xn bezeichne dein Kapital nach dem n-ten M¨unzwurf. Wie du leicht sehen kannst, gilt dann limn→∞ E(Xn ) = ∞.“ Soll sich Brigitte auf dieses Spiel ¨ einlassen? Uberpr¨ ufen Sie dazu die Behauptung von Anton und zeigen Sie: limn→∞ Xn = 0 fast sicher. 5.9. Asymptotik des Pólya-Modells. Betrachten Sie das Pólya’sche Urnenmodell aus Beispiel (3.14) zu den Parametern s, w, c ∈ N. Sei Sn die Anzahl der gezogenen schwarzen Kugeln nach n Ziehungen. Zeigen Sie mit Hilfe von Aufgabe 3.4 und dem Gesetz der großen Zahl: (a) Sn /n konvergiert in Verteilung gegen die Beta-Verteilung β s/c,w/c . (b) Was bedeutet dies f¨ur das Langzeitverhalten der konkurrierenden Populationen? Betrachten Sie dazu die F¨alle (i) s < c > w, (ii) s > c < w, (iii) w < c < s, (iv) s = w = c. 5.10. Geben Sie eine Folge von Zufallsvariablen in L 2 an, f¨ur welche weder das (schwache oder starke) Gesetz der großen Zahl noch der zentrale Grenzwertsatz gilt. 5.11. Macht entschlossener Minderheiten. An einer Wahl zwischen zwei Kandidaten A und B nehmen 1 000 000 W¨ahler teil. Davon kennen 2000 W¨ahler den Kandidaten A aus Wahlkampfveranstaltungen und stimmen geschlossen f¨ur ihn. Die u¨ brigen 998 000 W¨ahler sind mehr oder weniger unentschlossen und treffen ihre Entscheidung unabh¨angig voneinander durch Werfen einer fairen M¨unze. Wie groß ist die Wahrscheinlichkeit pA f¨ur einen Sieg von Kandidat A? 5.12. Lokale √ Normalapproximation von Poisson-Verteilungen. Sei λ > 0 und xn (k) = (k − λn)/ λn. Zeigen Sie: F¨ur jedes c > 0 gilt √λn P ({k}) λn − 1 = 0 . max lim n→∞ k∈Z+ :|xn (k)|≤c φ(xn (k)) 5.13. Asymptotik von #. Zeigen Sie: F¨ur alle x > 0 gilt die Absch¨atzung
1 1 1 − 3 ≤ 1 − #(x) ≤ φ(x) , φ(x) x x x und daher die Asymptotik 1 − #(x) ∼ φ(x)/x f¨ur x → ∞. (Vergleichen Sie die Ableitungen der Funktionen auf der linken und rechten Seite mit φ.) 5.14. No-Shows“. H¨aufig ist die Zahl der zu einem Flug erschienenen Passagiere geringer ” als die Zahl der Buchungen f¨ur diesen Flug. Die Fluggesellschaft praktiziert daher das so ¨ genannte Uberbuchen (d. h. sie verkauft mehr Tickets als Sitze vorhanden sind) mit dem Risiko, eventuell u¨ berz¨ahlige Passagiere mit Geld entsch¨adigen zu m¨ussen. Nehmen Sie an, die Fluggesellschaft hat bei jedem mitfliegendem Fluggast Einnahmen von a = 300 €, f¨ur jede u¨ berz¨ahlige Person jedoch einen Verlust von b = 500 €; nehmen Sie ferner an, dass jede Person, die einen Platz gebucht hat, unabh¨angig mit Wahrscheinlichkeit p = 0.95 zum Flug erscheint. Wieviele Pl¨atze w¨urden Sie bei einem
146
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
(a) Airbus 319 mit S = 124 Sitzpl¨atzen, (b) Airbus 380 mit S = 555 Sitzpl¨atzen verkaufen, um den zu erwartenden Gewinn zu maximieren? ' (Zeigen Sie zuerst: Ist (Xn )n≥1 eine Bernoulli-Folge zu p, SN = N k=1 Xk sowie GN der Gewinn bei N verkauften Pl¨atzen, so gilt GN+1 − GN = a 1{SN <S} XN +1 − b 1{SN ≥S} XN +1 . Folgern Sie, dass E(GN+1 ) ≥ E(GN ) genau dann, wenn P (SN < S) ≥ b/(a + b), und verwenden Sie dann die Normalapproximation.) 5.15. Sch¨atzen Sie wie folgt den Fehler einer Summe von gerundeten Zahlen ab. Die Zahlen R1 , . . . , Rn ∈ R werden auf ganze Zahlen gerundet, d. h. dargestellt als Ri = Zi + Ui mit 'n Zi ∈ Z und Ui ∈ [−1/2, 1/2[. 'n Die Abweichung 'n der Summe der gerundeten Zahlen i=1 Zi von der wahren Summe i=1 Ri ist Sn = i=1 Ui . Nehmen Sie an, die (Ui )1≤i≤n seien unabh¨angige, auf [−1/2, 1/2[ gleichverteilte Zufallsvariablen. Bestimmen Sie mit Hilfe des zentralen Grenzwertsatzes f¨ur n = 100 eine Schranke k > 0 mit der Eigenschaft P (|Sn | < k) ≈ 0.95. 5.16. Bei einer Werbeaktion eines Versandhauses sollen die ersten 1000 Einsender einer Bestellung eine Damen- bzw. Herrenarmbanduhr als Geschenk erhalten. Nehmen Sie an, dass sich beide Geschlechter gleichermaßen von dem Angebot angesprochen f¨uhlen. Wieviele Damen- und wieviele Herrenarmbanduhren sollte das Kaufhaus vorr¨atig halten, so dass mit Wahrscheinlichkeit von mindestens 98% alle 1000 Einsender eine passende Uhr erhalten? ˇ Verwenden Sie (a) die Cebyšev-Ungleichung, (b) die Normalapproximation. 5.17. Ein Unternehmen hat insgesamt n = 1000 Aktien ausgegeben. Ihre Besitzer entscheiden sich bei jeder Aktie mit Wahrscheinlichkeit 0 < p < 1 zum Verkauf der Aktie. Diese Entscheidung findet bei jeder Aktie unabh¨angig statt. Der Markt kann s = 50 Aktien aufnehmen, ohne daß der Kurs f¨allt. Wie groß darf p h¨ochstens sein, damit der Kurs mit einer Wahrscheinlichkeit von 90% nicht f¨allt? 5.18. Fehlerfortpflanzung bei transformierten Beobachtungen. Sei (Xi )i≥1 eine Folge von unabh¨angigen, identisch verteilten Zufallsvariablen mit Werten in einem Intervall I ⊂ R und existierender Varianz v = V(Xi ) > 0. Sei m = E(Xi ) und f : I → R zweimal stetig differenzierbar mit f (m) = 0 und beschr¨anktem f . Zeigen Sie: F¨ur n → ∞ gilt √ n L n/v 1 ' f(n Xi ) − f (m) −→ N0,1 . f (m) i=1 (Verwenden Sie die Taylor-Entwicklung von f im Punkt m und sch¨atzen Sie das Restglied ˇ mit der Cebyšev-Ungleichung ab.) 5.19. Brown’sche Molekularbewegung. Ein schweres Teilchen erfahre durch zuf¨allige St¨oße von leichten Teilchen pro Zeiteinheit eine zuf¨allige Geschwindigkeitsumkehr, d. h. f¨ur seine '&t' Ortskoordinate (in einer vorgegebenen Richtung) zur Zeit t gelte Xt = i=1 Vi mit unabh¨angigen Geschwindigkeiten Vi , wobei P (Vi = ±v) = 1/2 f¨ur ein v > 0. Geht man zu makroskopischen Skalen u¨ ber, so wird das Teilchen zur Zeit t beschrieben durch die Zufalls√ (ε) (ε) variable Bt = εXt/ε , wobei ε > 0. Bestimmen Sie den Verteilungslimes Bt von Bt
147
Aufgaben
f¨ur ε → 0 sowie dessen Verteilungsdichte t . Verifizieren Sie, dass diese Dichten mit einer geeigneten Diffusionskonstanten D > 0 die W¨armeleitungsgleichung ∂t (x) D ∂ 2 t (x) =− ∂t 2 ∂x 2 erf¨ullen. 5.20. Stochastische versus Verteilungskonvergenz. Seien X und Xn , n ≥ 1, reelle Zufallsvariablen auf einem Wahrscheinlichkeitsraum. Zeigen Sie: L
P
(a) Xn −→ X impliziert Xn −→ X. (b) Die Umkehrung von (a) gilt imAllgemeinen nicht, wohl aber wenn X fast sicher konstant ist. 5.21. Verteilungskonvergenz diskreter Zufallvariabler. Seien X und Xn , n ≥ 1, Zufallsvariablen auf einem gemeinsamen Wahrscheinlichkeitsraum mit Werten in Z. Zeigen Sie die ¨ Aquivalenz der folgenden Aussagen: L
(a) Xn −→ X f¨ur n → ∞. (b) P (Xn = k) → P (X = k) f¨ur n → ∞ und alle k ∈ Z. ' (c) k∈Z |P (Xn = k) − P (X = k)| → 0 f¨ur n → ∞. 5.22. Arcussinus-Gesetz. Betrachten Sie f¨ur festes N ∈ N die einfache symmetrische Irrfahrt (Sj )j ≤2N aus Aufgabe 2.7. Sei L2N = max{2n ≤ 2N : S2n = 0} der Zeitpunkt des letzten Gleichstands beider Kandidaten vor Ende der Ausz¨ahlung. (Im allgemeinen Kontext spricht man vom letzten Besuch der Irrfahrt in 0 vor der Zeit 2N .) Zeigen Sie: (a) F¨ur alle 0 ≤ n ≤ N gilt P (L2N = 2n) = un uN −n , wobei wieder uk = 2−2k 2k k . (b) F¨ur alle 0 < a < b < 1 gilt lim P (a ≤ L2N /2N ≤ b) =
N→∞
. b
1 dx , √ a π x(1 − x)
d. h. L2N /2N strebt in Verteilung gegen die Arcussinus-Verteilung aus Aufgabe 1.15. (Die Arcussinus-Verteilung gibt den Werten in der N¨ahe von 0 und 1 die gr¨oßte Wahrscheinlichkeit, siehe Abbildung 2.3 auf Seite 44. Es ist also relativ wahrscheinlich, dass ein Kandidat gleich am Anfang oder erst ganz am Schluss der Ausz¨ahlung in F¨uhrung geht.) 5.23. Seien (Xi )i≥1 unabh¨angige standardnormalverteilte Zufallsvariablen und 7 Mn = max(X1 , . . . , Xn ) , an = 2 log n − log(log n) − log(4π) . Zeigen Sie: Die Folge an Mn −an2 konvergiert in Verteilung gegen das Wahrscheinlichkeitsmaß Q auf R mit Verteilungsfunktion FQ (c) = exp(−e−c ) ,
c ∈ R.
Q heißt die Doppelexponential-Verteilung und ist (als asymptotische Verteilung eines reskalierten Maximums) eine sogenannte Extremwert-Verteilung.
148
5 Gesetz der großen Zahl und zentraler Grenzwertsatz
5.24. Seien (Xi )i≥1 unabh¨angig und Cauchy-verteilt zum Parameter a > 0 (vgl. Aufgabe 2.5), sowie Mn = max(X1 , . . . , Xn ). Zeigen Sie: Mn /n konvergiert in Verteilung gegen eine Zufallsvariable Y > 0, und Y −1 hat eine (welche?) Weibull-Verteilung, siehe Aufgabe 3.22. (Die inversen Weibull-Verteilungen bilden eine zweite Klasse von typischen ExtremwertVerteilungen.)
6 Markov-Ketten
Unabh¨angigkeit ist zwar die einfachste Annahme u¨ ber das gemeinsame Verhalten von Zufallsvariablen und nimmt deshalb am Anfang einer Einf¨uhrung in die Stochastik breiten Raum ein. Jedoch sollte nicht der Eindruck entstehen, die Stochastik w¨urde sich nur mit diesem einfachen Fall besch¨aftigen; das Gegenteil ist richtig. Hier werden wir allerdings nur einen besonders einfachen Fall von Abh¨angigkeit untersuchen: Eine Markov-Kette ist eine Folge von Zufallsvariablen mit kurzem Ged¨achtnis; das Verhalten zum jeweils n¨achsten Zeitpunkt h¨angt nur vom jeweils aktuellen Wert ab und nicht davon, welche Werte vorher angenommen wurden. Von besonderem Interesse ist das Langzeit-Verhalten solch einer Folge – z. B. Absorption in einer Falle“ oder Konvergenz ins Gleichgewicht. ”
6.1
Die Markov-Eigenschaft
Sei E = ∅ eine h¨ochstens abz¨ahlbare Menge und ! = (!(x, y))x,y∈E eine stochastische Matrix, d. h. eine Matrix, von der jede Zeile !(x, · ) eine Z¨ahldichte auf E ist. Wir betrachten einen Zufallsprozess in E, der bei jedem Schritt mit Wahrscheinlichkeit !(x, y) von x nach y springt. Definition: Eine Folge X0 , X1 , . . . von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (-, F , P ) mit Werten in E heißt (nach A.A. Markov, 1856–1922) eine ¨ Markov-Kette mit Zustandsraum E und Ubergangsmatrix !, wenn f¨ur alle n ≥ 0 und alle x0 , . . . , xn+1 ∈ E gilt: (6.1)
P (Xn+1 = xn+1 |X0 = x0 , . . . , Xn = xn ) = !(xn , xn+1 ) ,
sofern P (X0 = x0 , . . . , Xn = xn ) > 0. Die Verteilung α = P ◦ X0−1 von X0 heißt die Startverteilung der Markov-Kette. Wir geben eine Reihe von Erl¨auterungen zu dieser Definition. (6.2) Bemerkung: Existenz und Veranschaulichung von Markov-Ketten. (a) Gleichung (6.1) besteht aus zwei Teilaussagen, n¨amlich erstens: Die bedingte Verteilung von Xn+1 bei bekannter Vorgeschichte x0 , . . . , xn h¨angt nur von der Gegenwart xn ab und nicht von der Vergangenheit; diese so genannte MarkovEigenschaft ist die entscheidende Annahme. Und zweitens: Diese bedingten Vertei-
150
6 Markov-Ketten
¨ lungen h¨angen nicht von dem Zeitpunkt n ab. Diese Zeitinvarianz des Ubergangs¨ gesetzes ! bezeichnet man als den Fall der station¨aren Ubergangswahrscheinlichkeiten; sie ist eine Zusatzannahme, die wir hier der Einfachheit halber machen. Mit anderen Worten: Eine Markov-Kette (Xn )n≥0 ist ein stochastischer Prozess mit kurzem Ged¨achtnis von genau einer Zeiteinheit und ohne innere Uhr. (b) Setzt man in Satz (3.8) k|ω0 ,...,ωk−1 (ωk ) = !(ωk−1 , ωk ), so sieht man, dass (6.1) ein Spezialfall der dortigen Bedingung (b) ist. Gem¨aß Satz (3.12) existiert genau ein% Wahrscheinlichkeitsmaß P α somit zu jeder Startverteilung 1 = α auf E ( auf dem Produkt-Ereignisraum (-, F ) := ( k≥0 E, k≥0 P(E)) derart, dass die Projektionen Xn : (ωk )k≥0 → ωn von - nach E eine Markov-Kette zu ! und α bilden. Im Folgenden betrachten wir ohne Einschr¨ankung nur solche, sogenannte kanonische, Markov-Ketten. Ist α = δx f¨ur ein x ∈ E ( sicherer Start in x“), so schreibt man kurz P x statt ” α P . Es gilt dann in Analogie zu Gleichung (3.9) (6.3)
P x (X1 = x1 , . . . , Xn = xn ) = !(x, x1 )!(x1 , x2 ) . . . !(xn−1 , xn )
f¨ur beliebige n ≥ 1 und x1 , . . . , xn ∈ E, und deshalb insbesondere (verm¨oge Summation u¨ ber x1 , . . . , xn−1 ∈ E) (6.4)
P x (Xn = y) = !n (x, y)
f¨ur alle x, y ∈ E ;
hier bezeichnet !n die n-te Matrixpotenz von !. Mit anderen Worten: Die Potenzen ¨ der Ubergangsmatrix ! spielen eine entscheidende Rolle, da sie die Wahrscheinlichkeiten angeben, mit der sich die Markov-Kette bei Start in einem festen Punkt zu einer bestimmten Zeit in einem bestimmten Zustand befindet. (c) Da nur noch der gegenw¨artige Zustand f¨ur die Zukunft relevant ist, kann eine Markov-Kette statt durch das Baumdiagramm in Abbildung 3.1 durch einen ¨ Ubergangsgraphen veranschaulicht werden. F¨ur E = {1, 2, 3} und 1/2 1/2 0 ! = 1/3 1/3 1/3 1 0 0 ¨ hat man zum Beispiel den Ubergangsgraphen aus Abbildung 6.1. ¨ (d) Der Ubergangsgraph einer Markov-Kette (Xn )n≥0 suggeriert die Vorstellung, dass Xn+1 aus Xn durch Anwendung einer zuf¨alligen Abbildung hervorgeht. Diese Vorstellung ist richtig und kann in der folgenden Weise%pr¨azisiert werden. Sei E E die Menge aller Abbildungen von E nach E, und Q = x∈E !(x, ·) das durch die ¨ Zeilen der Ubergangsmatrix ! induzierte Produktmaß auf (E E , P(E)⊗E ). Seien ϕ1 , ϕ2 , . . . unabh¨angige zuf¨allige Abbildungen mit Verteilung Q auf E E . Definiere (Xn )n≥0 rekursiv durch X0 = x ∈ E und Xn = ϕn (Xn−1 ) f¨ur n ≥ 1. Dann ist ¨ ! mit Startpunkt x. Zum Beweis (Xn )n≥0 eine Markov-Kette zur Ubergangsmatrix
151
6.1 Die Markov-Eigenschaft
1/2 1/2
2
1
1/3
1/3 1/3
1
3 ¨ Abbildung 6.1: Beispiel eines Ubergangsgraphen.
gen¨ugt es, Gleichung (6.3) zu verifizieren. Die Produktstruktur von deren rechter Seite entspricht aber genau der Unabh¨angigkeit der zuf¨alligen Abbildungen (ϕn )n≥1 . Wir sehen also, dass in einer Markov-Kette noch sehr viel Unabh¨angigkeit steckt. Diese Beobachtung benutzt man auch zur Simulation von Markov-Ketten. Indem man die Elemente von E irgendwie abz¨ahlt, entsteht eine Ordnung auf E. F¨ur ' x ∈ E und u ∈ ]0, 1[ sei dann f (x, u) das kleinste z ∈ E mit y≤z !(x, y) ≥ u. M.a.W.: f (x, ·) ist die Quantil-Transformation von !(x, ·), vgl. (1.30). Sind dann U1 , U2 , . . . unabh¨angige, auf ]0, 1[ gleichverteilte Zufallsvariablen (die man durch Pseudozufallszahlen simulieren kann), so sind die Zufallsabbildungen ϕn : x → f (x, Un ) (von E auf sich) unabh¨angig mit identischer Verteilung Q, und so¨ mit liefert die Rekursion Xn = f (Xn−1 , Un ) eine Markov-Kette mit Ubergangsmatrix !. Zwei klassische Beispiele f¨ur Markov-Ketten sind die folgenden. (6.5) Beispiel: Irrfahrten auf E = Z. Seien (Zi )i≥1 unabh¨angige'Z-wertige Zufallsvariablen mit identischer Verteilung , und sei X0 = 0, Xn = ni=1 Zi f¨ur n ≥ 1. (Solche Summen unabh¨angiger Zufallsvariablen haben wir bereits beim Gesetz der großen Zahl und beim zentralen Grenzwertsatz betrachtet.) Dann ist (Xn )n≥0 eine ¨ Markov-Kette zur Ubergangsmatrix !(x, y) = (y − x), x, y ∈ Z. Denn die linke Seite von (6.1) stimmt in diesem Fall u¨ berein mit P (Zn+1 = xn+1 − xn |X0 = x0 , . . . , Xn = xn ) = (xn+1 − xn ) , da Zn+1 von X0 , . . . , Xn unabh¨angig ist. Eine Markov-Kette dieser Gestalt heißt eine Irrfahrt (in der englischsprachigen Literatur: random walk). (6.6) Beispiel: Das M¨unzwurfspiel (Irrfahrt mit Absorption am Rand ). Zwei Spieler A und B seien jeweils im Besitz von a bzw. b Euro. Sie werfen wiederholt eine faire M¨unze, und je nach Ergebnis zahlt einer an den anderen €1. Das Spiel ist beendet, sobald ein Spieler sein Kapital verloren hat. Sei Xn der Gewinn von Spieler A (und somit Verlust von Spieler B) nach den Spielen 1, . . . , n. Die Zufallsvariablen Xn ha-
152
6 Markov-Ketten
¨ ben Werte in E = {−a, . . . , b} und bilden eine Markov-Kette mit Ubergangsmatrix 1/2 falls − a < x < b, |y − x| = 1 , 1 falls x = y ∈ {−a, b} , !(x, y) = 0 sonst. ¨ Der Ubergangsgraph in Abbildung 6.2 veranschaulicht den Sachverhalt. Von Inter1/2 1
-2
1/2
-1
1/2
0 1/2
1 1/2
1/2 1/2
2
11
¨ Abbildung 6.2: Ubergangsgraph des M¨unzwurfspiels im Fall a = b = 2.
esse ist das Ruinproblem: Mit welcher Wahrscheinlichkeit endet das Spiel mit dem Ruin von Spieler A? Diese Frage werden wir in Beispiel (6.10) beantworten. Weitere Beispiele folgen sp¨ater. Die Markov-Eigenschaft (6.1) l¨asst sich zu der folgenden allgemeineren Aussage versch¨arfen, die sich nicht nur auf den jeweils folgenden Zeitpunkt n+1 bezieht, sondern auf die gesamte Zukunft nach der Zeit n: Bei bekanntem gegenw¨artigen Zustand vergisst“ die Markov-Kette die Vergangenheit ” und die Zeit und startet neugeboren“. ” (6.7) Satz: Markov-Eigenschaft. Ist (Xn )n≥0 eine Markov-Kette zu ! und α, so gilt f¨ur alle n ≥ 0, A ∈ F = P(E)⊗Z+ , B ⊂ E n , und x ∈ E P α ((Xn , Xn+1 , . . . ) ∈ A|(X0 , . . . , Xn−1 ) ∈ B, Xn = x) = P x (A) , sofern P α ((X0 , . . . , Xn−1 ) ∈ B, Xn = x) > 0. Beweis: Wie in Bemerkung (6.2b) vereinbart, ist ohne Einschr¨ankung der Allgemeinheit (-, F ) = (E Z+ , P(E)⊗Z+ ) und Xn die n-te Projektion. F¨ur beliebige k ≥ 0 und x0 , . . . , xk ∈ E ergibt die Multiplikationsformel (6.3) P α ((X0 , . . . , Xn−1 ) ∈ B, Xn = x, Xn+i = xi f¨ur 0 ≤ i ≤ k) , = α(y0 )!(y0 , y1 ) . . . !(yn−1 , x)δx,x0 !(x0 , x1 ) . . . !(xk−1 , xk ) (y0 ,...,yn−1 )∈B
= P α ((X0 , . . . , Xn−1 ) ∈ B, Xn = x) P x (Xi = xi f¨ur 0 ≤ i ≤ k) . Daraus folgt die Behauptung f¨ur A = {Xi = xi f¨ur 0 ≤ i ≤ k}. Der allgemeine Fall ergibt sich aus dem Eindeutigkeitssatz (1.12), da die Mengen A dieser speziellen Form (zusammen mit ∅) einen ∩-stabilen Erzeuger von F bilden; vgl. Aufgabe 1.5. 3 Wie der obige Beweis gezeigt hat, ist es f¨ur die G¨ultigkeit von Satz (6.7) entscheidend, dass die Markov-Kette zur Zeit n auf einen pr¨azisen Zustand x bedingt wird.
153
6.2 Absorptionswahrscheinlichkeiten
6.2 Absorptionswahrscheinlichkeiten Beim M¨unzwurf-Spiel (6.6) k¨onnen die Zust¨ande −a und b nicht verlassen werden, d. h. sie sind absorbierend im folgenden Sinn. ¨ Definition: Ein Zustand z ∈ E heißt absorbierend bez¨uglich der Ubergangsmatrix !, wenn !(z, z) = 1. In dem Fall heißt / 0 {Xn = z} hz (x) := P x (Xn = z schließlich) = P x N ≥0 n≥N
die Absorptionswahrscheinlichkeit in z bei Start in x ∈ E. Ein absorbierender Zustand ist somit eine Falle“, aus welcher die Markov-Kette ” nicht mehr entkommen kann. Es ist intuitiv klar, dass die Absorptionswahrscheinlichkeit mit der Eintrittswahrscheinlichkeit in die Falle u¨ bereinstimmt. Dazu zun¨achst folgende (6.8) Bemerkung und Definition: Eintritts- und Stoppzeiten. F¨ur beliebiges (nicht notwendig absorbierendes) z ∈ E heißt τz = inf{n ≥ 1 : Xn = z} (mit der Vereinbarung inf ∅ := ∞) die Eintrittszeit in den Zustand z. Bei Start in z spricht man von der R¨uckkehrzeit nach z. F¨ur alle n ≥ 1 gilt offenbar {τz = n} = {(X0 , . . . , Xn−1 ) ∈ B, Xn = z}
mit B = E × (E \ {z})n−1 ,
d. h. {τz = n} h¨angt nur von (X0 , . . . , Xn ) ab. Eine Abbildung τ : - → Z+ ∪ {∞} mit dieser Eigenschaft des nicht in die Zukunft Blickens“ heißt eine Stoppzeit oder ” Optionszeit bez¨uglich (Xn )n≥0 . Stoppzeiten spielen generell eine große Rolle in der Stochastik. Hier werden aber außer den Eintrittszeiten keine anderen Stoppzeiten vorkommen. Der folgende Satz wird uns unter anderem erlauben, die Ruinwahrscheinlichkeiten im M¨unzwurfspiel (6.6) zu bestimmen. (6.9) Satz: Charakterisierung von Absorptionswahrscheinlichkeiten. F¨ur absorbierendes z ∈ E und alle x ∈ E gilt hz (x) = P x (τz < ∞) = lim P x (Xn = z) , n→∞
und hz ist die kleinste nichtnegative Funktion mit hz (z) = 1 und , !(x, y) hz (y) = hz (x) f¨ur alle x ∈ E . y∈E
154
6 Markov-Ketten
Fasst man die Funktion hz als Spaltenvektor auf, so l¨asst sich die letzte Gleichung in der knappen Form !hz = hz schreiben. hz ist also ein rechter Eigenvektor von ! zum Eigenwert 1. Beweis: Infolge der σ -Stetigkeit von P z und Gleichung (6.3) gilt P z (Xi = z f¨ur alle i ≥ 1) = lim P z (Xi = z f¨ur alle i ≤ k) k→∞
= lim !(z, z)k = 1 . k→∞
F¨ur jeden Startpunkt x ∈ E erh¨alt man daher mit Satz (6.7) P x (Xn = z) = P x (Xn = z) P z (Xi = z f¨ur alle i ≥ 1) = P x (Xn+i = z f¨ur alle i ≥ 0) / 0 {Xi = z} = hz (x) . −→ P x n→∞
n≥1 i≥n
Andererseits gilt nach Satz (6.7) und Bemerkung (6.8) P x (Xn = z|τz = k) = P z (Xn−k = z) = 1 f¨ur jedes k ≤ n, und daher mit der Fallunterscheidungsformel (3.3a) P x (Xn = z) =
n ,
P x (τz = k) P x (Xn = z|τz = k)
k=1
= P x (τz ≤ n) −→ P x (τz < ∞) . n→∞
Damit sind die ersten beiden Gleichungen bewiesen. Zum Beweis der zweiten Aussage stellen wir zun¨achst fest, dass offenbar hz ≥ 0 und hz (z) = 1. F¨ur jedes x ∈ E ergibt sich mit Satz (6.7) und der Fallunterscheidungsformel (3.3a) , !(x, y) hz (y) y∈E , P x (X1 = y) P y (Xi = z schließlich) = y∈E
=
,
P x (X1 = y) P x (Xi+1 = z schließlich | X1 = y) = hz (x) ,
y∈E
d. h. es gilt !hz = hz . F¨ur jede weitere Funktion h ≥ 0 mit !h = h und h(z) = 1 gilt h(x) = !n h(x) ≥ !n (x, z) = P x (Xn = z) , und f¨ur n → ∞ folgt h(x) ≥ hz (x). 3
155
6.2 Absorptionswahrscheinlichkeiten
Am Rande sei erw¨ahnt, dass eine Funktion h auf E mit !h = h harmonisch (bez¨uglich !) genannt wird. Denn in der Situation des folgenden Beispiels erf¨ullen solche Funktionen ein diskretes Analogon zur Mittelwerteigenschaft, welche die klassischen harmonischen Funktionen charakterisiert.
(6.10) Beispiel: Das Ruinproblem. Im M¨unzwurf-Spiel von Beispiel (6.6) interessiert uns die Ruinwahrscheinlichkeit“ (sicher ein zu drastisches Wort) rA := h−a (0) von ” Spieler A, also die Wahrscheinlichkeit, mit der Spieler A verliert. Gem¨aß Satz (6.9) gilt f¨ur −a < x < b h−a (x) = !h−a (x) =
1 2
h−a (x − 1) +
1 2
h−a (x + 1) .
Die Differenz c := h−a (x + 1) − h−a (x) h¨angt daher nicht von x ab. Somit gilt h−a (x) − h−a (−a) = (x + a)c. Wegen h−a (−a) = 1, h−a (b) = 0 folgt c = −1/(a + b) und somit rA = 1 −
a b = . a+b a+b
F¨ur die Ruinwahrscheinlichkeit von Spieler B erh¨alt man genauso rB = a/(a + b). Insbesondere gilt rA +rB = 1, d. h. das Spiel endet mit Sicherheit mit dem Ruin eines Spielers (und dem Gewinn des anderen Spielers) zu einer endlichen (zuf¨alligen) Zeit und kann nicht unendlich lang fortdauern. (6.11) Beispiel: Verzweigungsprozesse. Wir betrachten eine Population von Lebewesen, die sich zu diskreten Zeitpunkten unabh¨angig voneinander ungeschlechtlich vermehren. Jedes Individuum der n-ten Generation wird unabh¨angig von allen anderen in der folgenden Generation mit Wahrscheinlichkeit (k) durch k ≥ 0 Nachkommen ersetzt. Mit welcher Wahrscheinlichkeit stirbt die Nachkommenschaft eines Stammvaters aus? Erstmalig untersucht wurde diese Frage von Galton und Watson 1889 in Hinblick auf das Aussterben der ausschließlich m¨annlich vererbten englischen Adelstitel. Von diesem eher kuriosen historischen Aspekt abgesehen, ist das Modell nach wie vor von biologischem Interesse als besonders einfaches, prototypisches Modell einer Populationsdynamik. Außerdem l¨asst es sich einigermaßen realistisch anwenden auf Zell- oder Bakterienkolonien. (Von dem Galton-Watson-Prozess der Escherichia coli in unserem Darm leben wir!) Sei Xn die Anzahl der Individuen in der n-ten Generation. Wir modellieren ¨ (Xn )n≥0 als Markov-Kette auf E = Z+ zur Ubergangsmatrix !(n, k) = %n (k) =
,
(k1 ) . . . (kn ) ,
k1 +···+kn =k
d. h. wenn in einer Generation n Individuen leben, dann ist die Verteilung !(n, ·) der Anzahl der Nachkommen in der n¨achsten Generation gerade die n-fache Faltung
156
6 Markov-Ketten
von . (Diese Annahme ber¨ucksichtigt, dass sich die Individuen unabh¨angig voneinander vermehren. F¨ur den Fall n = 0 treffen wir die Vereinbarung %0 (k) = δ0,k , das Kronecker-Delta.) Nur der Fall 0 < (0) < 1 ist interessant, da andernfalls die Population entweder sofort ausstirbt oder stets w¨achst. Offenbar ist 0 der einzige absorbierende Zustand. Unser Ziel ist die Berechnung der Aussterbewahrscheinlichkeit q := h0 (1) f¨ur die Nachkommenschaft eines einzelnen Individuums. Dazu machen wir folgende Beobachtungen: F¨ur alle k, n ≥ 0 ist P k (Xn = 0) = P 1 (Xn = 0)k . Dies gilt n¨amlich f¨ur n = 0, da dann beide Seiten mit δk,0 u¨ bereinstimmen. Der Induktionsschritt folgt aus der Gleichungskette , P k (Xn+1 = 0) = !(k, l) P l (Xn = 0) l≥0
=
,
(l1 ) . . . (lk ) P 1 (Xn = 0)l1 +···+lk
l1 ,...,lk ≥0
=
,
k
!(1, l) P l (Xn = 0)
= P 1 (Xn+1 = 0)k ;
l≥0
im ersten und letzten Schritt haben wir wieder die Fallunterscheidungsformel (3.3a) und Satz (6.7) verwendet. Mit Satz (6.9) folgt hieraus h0 (k) = q k f¨ur alle k ≥ 0. q = h0 (1) ist der kleinste Fixpunkt der erzeugenden Funktion , ϕ (s) = (k) s k k≥0
von . Dies ergibt sich aus Satz ' (6.9). Denn einerseits gilt nach der vorigen Beobachtung q = !h0 (1) = k≥0 (k)h0 (k) = ϕ (q). Ist andrerseits s ein beliebiger Fixpunkt von ϕ , so erf¨ullt die Funktion h(k) := s k die Gleichung !h = h, so dass nach Satz (6.9) s = h(1) ≥ h0 (1) = q. ϕ ist entweder linear (n¨amlich wenn (0) + (1) = 1) oder strikt konvex, und es gilt ϕ (0) = (0) < 1, ϕ (1) = 1, und wegen Satz (4.33b) ϕ (1) = E(). Im Fall E() ≤ 1 besitzt ϕ also nur den Fixpunkt 1, andernfalls jedoch noch einen weiteren Fixpunkt in ]0, 1[; siehe Abbildung 6.3. Als Ergebnis erhalten wir: Im Fall E() ≤ 1 stirbt die Population mit Sicherheit irgendwann aus. F¨ur E() > 1 liegt die Aussterbewahrscheinlichkeit q echt zwischen 0 und 1 und ist gerade der kleinste Fixpunkt der erzeugenden Funktion ϕ ¨ der Nachkommenverteilung . Die Population hat also genau dann positive Uberlebenschancen, wenn jedes Individuum im Mittel mehr als einen Nachkommen hat.
157
6.3 Asymptotische Stationarit¨at
Zum Beispiel gilt im Fall (0) = 1/4, (2) = 3/4, wenn jedes Individuum 0 oder 2 Nachkommen hat, ϕ (s) = (1 + 3s 2 )/4 und daher q = 1/3.
ϕ (s)
ϕ (1) ≤ 1
6
0
ϕ (1) > 1
ϕ (s) 6
-s 1
0
q
-s 1
Abbildung 6.3: Aussterbewahrscheinlichkeit q des Galton-Watson-Prozesses als kleinster Fixpunkt der erzeugenden Funktion ϕ der Nachkommenverteilung.
Zum Schluss dieses Abschnitts halten wir noch fest, dass Satz (6.9) auch auf die Eintrittswahrscheinlichkeit in nicht absorbierende Zust¨ande angewendet werden kann: (6.12) Bemerkung: Eintrittswahrscheinlichkeiten. Sei z ∈ E ein beliebiger Zustand und hz (x) = P x (τz < ∞) f¨ur x = z und hz (z) = 1. Dann ist hz die kleinste nichtnegative Funktion mit !h(x) = h(x) f¨ur alle x = z. Denn sei X˜ n = Xmin(n,τz ) , n ≥ 0, die zur Zeit τz gestoppte Markov-Kette“. Man ” ¨ pr¨uft leicht nach, dass (X˜ n ) eine Markov-Kette ist zur modifizierten Ubergangsmatrix !(x, y) falls x = z, 2 1 falls x = y = z, !(x, y) = 0 sonst, bei der der Zustand z absorbierend gemacht wurde. F¨ur x = z ist hz (x) offenbar gerade die Wahrscheinlichkeit, dass die Markov-Kette (X˜ n ) bei Start in x in z absorbiert wird. Die Behauptung folgt somit aus Satz (6.9).
6.3 Asymptotische Stationarit¨at Wie wir gesehen haben, existiert limn→∞ P x (Xn = z) f¨ur jeden absorbierenden Zustand z ∈ E. Wir fragen jetzt nach der Existenz des Limes im diametral entgegengesetzten Fall einer a¨ ußerst kommunikativen“ Markov-Kette, welche von jedem ” Zustand in jeden anderen gelangen kann, und zwar in einer festgelegten Anzahl von Schritten. Wir beschr¨anken uns auf den Fall eines endlichen Zustandsraumes E; f¨ur unendliches E gelten entsprechende Aussagen nur dann, wenn die Markov-Kette positiv rekurrent ist im Sinn von Abschnitt 6.4.2 unten.
158
6.3.1
6 Markov-Ketten
Der Ergodensatz
F¨ur eine kommunikative“ Markov-Kette pendelt sich die Verteilung nach langer ” Zeit bei einer zeitinvarianten Gleichgewichtsverteilung ein. Dies ist die Aussage des folgenden sogenannten Ergodensatzes. Der Name Ergodensatz geht zur¨uck auf die ber¨uhmte Ergodenhypothese von L. Boltzmann (1887) u¨ ber das Langzeit-Verhalten eines durch einen Punkt im Phasenraum beschriebenen mechanischen Systems; er pr¨agte das (griechisch inspirierte) Kunstwort Ergode f¨ur die Gleichgewichtsverteilung eines Systems fester Energie; siehe [21] f¨ur eine historische Analyse. Der folgende Ergodensatz sollte nicht verwechselt werden mit dem Birkhoff’schen Ergodensatz, einer Verallgemeinerung des starken Gesetzes der großen Zahl auf den Fall station¨arer Folgen von Zufallsvariablen, welcher auf die Boltzmannsche Situation unmittelbar anwendbar ist. Dass der gleiche Begriff auch f¨ur den folgenden Satz verwendet wird, hat sich eingeb¨urgert, ist aber nur in einem allgemeinen Sinn gerechtfertigt.
(6.13) Satz: Ergodensatz f¨ur Markov-Ketten. Sei E endlich, und es gebe ein k ≥ 1 mit !k (x, y) > 0 f¨ur alle x, y ∈ E. Dann existiert f¨ur alle y ∈ E der Limes lim !n (x, y) = α(y) > 0
n→∞
unabh¨angig von der Wahl des Startpunkts x ∈ E, und der Limes α ist die einzige Z¨ahldichte auf E mit , α(x) !(x, y) = α(y) f¨ur alle y ∈ E . (6.14) x∈E
Vor dem Beweis wollen wir die Aussage des Satzes noch etwas kommentieren und zwei Folgerungen herleiten. Zuerst erinnern wir an Gleichung (6.4), die sich kurz so schreiben l¨asst: Es ist !n (x, ·) = P x ◦ Xn−1 , d. h. die x-te Zeile von !n ist gerade die Verteilung von Xn , dem Wert der Markov-Kette zur Zeit n, bei Start in x. Der Ergodensatz besagt also, dass P x ◦ Xn−1 f¨ur n → ∞ gegen einen Limes α strebt, der nicht vom Startpunkt x abh¨angt und durch die Invarianzeigenschaft (6.14) charakterisiert ist. Was bedeutet diese Eigenschaft? (6.15) Bemerkung und Definition: Station¨are Verteilungen. Fasst man α als Zeilenvektor auf, so kann man Gleichung (6.14) (¨ahnlich wie in Satz (6.9)) in der Form α! = α schreiben; die Limesverteilung in Satz (6.13) ist also ein linker Eigenvektor von ! zum Eigenwert 1. Verwendet man solch ein α als Startverteilung, so ist die zugeh¨orige Markov-Kette zeitlich invariant ( station¨ar“) in dem Sinn, dass ” (6.16)
P α ((Xn , Xn+1 , . . . ) ∈ A) = P α (A) .
f¨ur alle A ∈ F = P(E)⊗Z+ und n ≥ 0. Eine Z¨ahldichte α mit α! = α heißt deshalb eine station¨are (Start-)Verteilung.
159
6.3 Asymptotische Stationarit¨at
Beweis: Aus der Fallunterscheidungsformel (3.3a) und Satz (6.7) folgt , P α (Xn = x) P x (A) . P α ((Xn , Xn+1 , . . . ) ∈ A) = x∈E
Die rechte Seite h¨angt jedoch nicht von n ab, denn gem¨aß (6.4) gilt , α(x0 )!n (x0 , x) = α!n (x) = α(x) . P α (Xn = x) = x0 ∈E
Gleichung (6.16) ist somit evident. 3 Die n¨achste Aussage zeigt, dass im Limes n → ∞ nicht nur die Verteilung der Markov-Kette zur festen Zeit n gegen α konvergiert, sondern dass sogar der gesamte Prozess ab der Zeit n sich an den station¨aren Prozess mit Startverteilung α anschmiegt. In physikalischer Terminologie ist dies eine Konvergenz ins ” Gleichgewicht“. (6.17) Korollar: Asymptotische Stationarit¨at. In der Situation von Satz (6.13) gilt f¨ur alle x ∈ E sup P x ((Xn , Xn+1 , . . . ) ∈ A) − P α (A) −→ 0 , n→∞
A∈ F
d. h. unabh¨angig von der Wahl des Startpunkts x ist die Markov-Kette nach langer Zeit nahezu station¨ar. Beweis: F¨ur jedes A ∈ F folgt aus Satz (6.7) , x P ((Xn , Xn+1 , . . . ) ∈ A) − P α (A) = P x (Xn = y) − α(y) P y (A) y∈E
≤
,
|P x (Xn = y) − α(y)| ,
y∈E
und der letzte Ausdruck strebt wegen Satz (6.13) f¨ur n → ∞ gegen 0. 3 Aus der asymptotischen Stationarit¨at ergibt sich als weitere interessante Konsequenz ein Null-Eins Gesetz f¨ur asymptotische Ereignisse der Markov-Kette. Nach dem Null-Eins Gesetz von Kolmogorov (Satz (3.49)) f¨ur den Fall der Unabh¨angigkeit, also der v¨olligen Vergesslichkeit, bekommen wir somit eine analoge Aussage f¨ur den Markov’schen Fall eines kurzen Ged¨achtnisses. (6.18) Korollar: Null-Eins Gesetz von Orey. In der Situation von Satz (6.13) gilt P x (A) = P α (A) = 0 oder 1 f¨ur alle A in der asymptotischen σ -Algebra A (Xn : n ≥ 0) und alle x ∈ E.
160
6 Markov-Ketten
Beweis: Sei A ∈ A := A (Xn : n ≥ 0). Definitionsgem¨aß existiert dann zu jedem n ≥ 0 ein Bn ∈ F mit A = {(Xn , Xn+1 , . . . ) ∈ Bn } = E n ×Bn ; die letzte Gleichung beruht darauf, dass wir vereinbarungsgem¨aß das kanonische Modell zugrunde legen. Insbesondere gilt dann Bn = E k × Bn+k f¨ur alle k ≥ 0, und daher Bn ∈ A . Ein Blick auf Gleichung (6.16) zeigt nun zun¨achst, dass P α (A) = P α (Bn ). Korollar (6.17) liefert daher, dass |P x (A) − P α (A)| = |P x ((Xn , Xn+1 , . . . ) ∈ Bn ) − P α (Bn )| → 0 f¨ur n → ∞, also P x (A) = P α (A) f¨ur alle A ∈ A und x ∈ E. Da auch Bn ∈ A , folgt insbesondere P x (Bn ) = P α (Bn ) f¨ur alle n und x. Nach Satz (6.7) bedeutet dies, dass P α (A) = P xn (Bn ) = P α (A|X0 = x0 , . . . , Xn = xn ) f¨ur alle x0 , . . . , xn ∈ E. Also ist A bez¨uglich P α unabh¨angig von X0 , . . . , Xn f¨ur alle n, nach Satz (3.19) also auch unabh¨angig von der gesamten Folge (Xi )i≥0 und somit von A selbst. Also gilt P (A) = P (A)2 , und die Behauptung folgt. 3 Wir kommen nun zum Beweis des Ergodensatzes. Beweis von Satz (6.13): 1. Schritt: Kontraktivit¨at von !. Wir messen den Abstand zweier Z¨ahldichten 1 und 2 mit der Summen-Norm , *1 − 2 * = |1 (z) − 2 (z)| , z∈E
welche in Stochastik und Maßtheorie der Variationsabstand von 1 und 2 genannt wird. Stets gilt ,, (6.19) *1 ! − 2 !* ≤ |1 (x) − 2 (x)| !(x, y) = *1 − 2 * . x∈E y∈E
Wir werden nun zeigen, dass sich diese Ungleichung zu einer strikten Ungleichung versch¨arfen l¨asst, wenn wir ! durch !k ersetzen. Nach Voraussetzung existiert ein δ > 0 mit !k (x, y) ≥ δ/|E| f¨ur alle x, y ∈ E. (Summation u¨ ber y ∈ E zeigt dann, dass notwendigerweise δ ≤ 1. Wir k¨onnen annehmen, dass sogar δ < 1.) Sei U die stochastische Matrix, in deren Zeilen jeweils die Gleichverteilung steht: U (x, y) = |E|−1 f¨ur alle x, y ∈ E. Nach Wahl von δ gilt dann !k ≥ δ U elementweise. Folglich ist die Matrix V = (1 − δ)−1 (!k − δU ) ebenfalls stochastisch, und es gilt !k = δU + (1 − δ)V . Wegen der Linearit¨at der Matrizenmultiplikation und den Normeigenschaften von * · * erhalten wir hieraus die Ungleichung *1 !k − 2 !k * ≤ δ *1 U − 2 U * + (1 − δ) *1 V − 2 V * .
161
6.3 Asymptotische Stationarit¨at
Nun ist aber 1 U = 2 U , denn f¨ur alle y ∈ E gilt , 1 U (y) = 1 (x) |E|−1 = |E|−1 = 2 U (y) . x∈E
Zusammen mit der Ungleichung (6.19) f¨ur V anstelle von ! erhalten wir also *1 !k − 2 !k * ≤ (1 − δ) *1 − 2 * , und durch Iteration (6.20)
*1 !n − 2 !n * ≤ *1 !km − 2 !km * ≤ 2(1 − δ)m ;
hier ist m = &n/k' der ganzzahlige Anteil von n/k, und wir haben (6.19) auf !n−km angewendet und außerdem ausgenutzt, dass *1 − 2 * ≤ 2 . 2. Schritt: Konvergenz und Charakterisierung des Limes. F¨ur eine beliebige Z¨ahldichte betrachten wir die Folge (!n ). Da die Menge aller Z¨ahldichten eine abgeschlossene Teilmenge der kompakten Menge [0, 1]E bildet, existiert eine Teilfolge (nk ), f¨ur welche !nk gegen eine Z¨ahldichte α konvergiert. Wegen (6.20), angewendet auf 1 = und 2 = !, gilt dann α = lim !nk = lim !nk +1 = α! . k→∞
k→∞
α ist somit eine station¨are Verteilung, und es gilt α(y) = α!k (y) ≥ δ/|E| f¨ur alle y ∈ E. Nochmalige Anwendung von (6.20) (jetzt mit 2 = α) zeigt weiter, dass !n → α f¨ur n → ∞. Ist insbesondere eine station¨are Verteilung, so gilt → α, also = α, d. h. α ist die einzige station¨are Verteilung. Ist speziell = δx f¨ur ein x ∈ E, so gilt !n = !n (x, ·) und folglich !n (x, ·) → α im Limes n → ∞. 3 Wie die Ungleichung (6.20) zeigt, erfolgt die Konvergenz !n (x, ·) → α sogar mir exponentieller Geschwindigkeit. Es gilt n¨amlich *!n (x, ·) − α* ≤ C e−cn mit C = 2eδ und c = δ/k > 0.
6.3.2 Anwendungen Wir illustrieren die gezeigte Konvergenz ins Gleichgewicht anhand von Beispielen. Zun¨achst ein Rechenbeispiel zum Aufw¨armen: (6.21) Beispiel: Die Matrix aus Bemerkung (6.2c). Sei E = {1, 2, 3} und 1/2 1/2 0 ! = 1/3 1/3 1/3 ; 1 0 0 ¨ Abbildung 6.1 zeigt den zugeh¨origen Ubergangsgraphen. Man sieht am Graphen 3 (und rechnet sofort nach), dass ! lauter positive Eintr¨age hat. Ferner hat die lineare
162
6 Markov-Ketten
Gleichung α! = α die L¨osung α = (1/2, 3/8, 1/8). Satz (6.13) zufolge ist α die einzige station¨are Verteilung, und es gilt
n 1/2 1/2 0 1/2 3/8 1/8 1/3 1/3 1/3 −→ 1/2 3/8 1/8 . n→∞ 1 0 0 1/2 3/8 1/8 Nun zu interessanteren Beispielen. (6.22) Beispiel: Das Urnenmodell von P. und T. Ehrenfest. Wir betrachten wieder das Ehrenfest-Modell aus Beispiel (5.9) f¨ur den Austausch von Gasmolek¨ulen zwischen zwei benachbarten Beh¨altern. Jetzt wollen wir eine Zeitentwicklung des Modells untersuchen. N nummerierte Kugeln sind auf zwei Urnen verteilt. Zu jedem Zeitpunkt werde eine Nummer zuf¨allig ausgew¨ahlt und die zugeh¨orige Kugel mit Wahrscheinlichkeit p ∈ ]0, 1[ in die andere Urne gelegt bzw. mit Wahrscheinlichkeit 1−p an ihrem Platz gelassen. (Dies ist eine Variante des Originalmodells; dort war p = 1.) Sei Xn die Anzahl der Kugeln in Urne 1 zur Zeit n. Die Folge (Xn )n≥0 wird dann modelliert ¨ durch die Markov-Kette auf E = {0, . . . , N} zur Ubergangsmatrix
p x/N 1−p !(x, y) = p (1 − x/N) 0
falls y = x − 1, falls y = x, falls y = x + 1, sonst.
Wie ist Xn f¨ur großes n verteilt? F¨ur alle x, y ∈ E mit x ≤ y gilt !N (x, y) ≥ !(x, x)N−|x−y| !(x, x + 1)!(x + 1, x + 2) . . . !(y − 1, y) > 0 , und eine analoge Ungleichung gilt im Fall x ≥ y. ! erf¨ullt daher die Voraussetzung von Satz (6.13) mit k = N. F¨ur alle x, y ∈ E existiert daher limn→∞ !n (x, y) = α(y), und α ist die einzige L¨osung von α! = α. Man kann α erraten: Nach langer Zeit wird jede Kugel mit Wahrscheinlichkeit 1/2 in Urne 1 liegen, also ist vermutlich α = β := BN,1/2 . In der Tat gilt im Fall x > 0, y = x − 1
(N − 1)! N x β(x) !(x, y) = 2 = p 2−N p N (x − 1)!(N − x)! x
N x − 1 = β(y) !(y, x) p 1− = 2−N N x−1 −N
und daher auch β(x)!(x, y) = β(y)!(y, x) f¨ur alle x, y ∈ E. Diese SymmetrieGleichung f¨ur β wird als detailed balance“ Gleichung bezeichnet, und β heißt auch ”
163
6.3 Asymptotische Stationarit¨at
eine reversible Verteilung, denn f¨ur jedes n ist die Verteilung von (Xi )0≤i≤n unter P β invariant unter Zeitumkehr. In der Tat gilt n¨amlich f¨ur beliebige x0 , . . . , xn ∈ E P β (Xi = xi f¨ur 0 ≤ i ≤ n) = β(x0 )!(x0 , x1 ) . . . !(xn−1 , xn ) = β(xn )!(xn , xn−1 ) . . . !(x1 , x0 ) = P β (Xn−i = xi f¨ur 0 ≤ i ≤ n) . Summieren wir in der detailed balance Gleichung u¨ ber x, so folgt β! = β. Wegen der Eindeutigkeit der station¨aren Verteilung ist also α = β. Wenn wir dies Ergebnis mit Beispiel (5.9) kombinieren, so sehen wir: Ist N in der realistischen Gr¨oßenordnung 1023 , so befindet sich nach hinreichend langer Zeit mit u¨ berwiegender Wahrscheinlichkeit ungef¨ahr die H¨alfte der Kugeln in Urne 1, und zwar unabh¨angig davon, wieviele Kugeln zur Zeit 0 in Urne 1 liegen. Dies stimmt mit der physikalischen Erfahrung u¨ berein. (6.23) Beispiel: Mischen von Spielkarten. Gegeben sei ein Stapel von N ≥ 3 Spielkarten, die wir uns durchnummeriert denken. Die Reihenfolge der Karten ist dann beschrieben durch eine Permutation π in der Permutationsgruppe E := SN von {1, . . . , N}. Die u¨ blichen Mischverfahren haben die Form π0 → X1 = ξ1 ◦ π0 → X2 = ξ2 ◦ X1 → X3 = ξ3 ◦ X2 → · · · , wobei π0 die Anfangsreihenfolge ist und (ξi )i≥1 unabh¨angige, identisch verteilte zuf¨allige Permutationen (d. h. SN -wertige Zufallsvariablen) sind. Im Vergleich zu Irrfahrten auf Z wird hier also die Addition durch die Gruppenoperation ◦ ersetzt. Somit ist (Xn )n≥0 eine Irrfahrt auf der endlichen Gruppe E = SN . Der Kartenstapel ist zur Zeit n gut gemischt, wenn Xn nahezu gleichverteilt ist. Ist das irgendwann der Fall, und wie lange dauert es bis dahin? Sei (π ) = P (ξi = π ) die Verteilungsz¨ahldichte der ξi . F¨ur beliebige n ≥ 1, π1 , . . . , πn ∈ E gilt dann −1 ), P (X1 = π1 , . . . , Xn = πn ) = (π1 ◦ π0−1 ) . . . (πn ◦ πn−1
¨ d. h. (Xn )n≥0 ist eine Markov-Kette zur Ubergangsmatrix !(π, π ) = (π ◦ π −1 ), π, π ∈ E. Die Matrix ! ist doppeltstochastisch, d. h. es gilt nicht nur , , !(π, π ) = (π ◦ π −1 ) = 1 π ∈E
π ∈E
bei festem π ∈ E (da π → π ◦ π −1 eine Bijektion von E auf sich ist), sondern auch , , !(π, π ) = (π ◦ π −1 ) = 1 π ∈E
π∈E
164
6 Markov-Ketten
bei festem π ∈ E, da π → π ◦ π −1 eine Bijektion von E auf sich ist. Es folgt: Die Gleichverteilung α = USN ist eine station¨are Verteilung f¨ur !, denn ,
α(π)!(π, π ) =
π ∈E
1 = α(π ) N!
f¨ur alle π ∈ E .
Also gilt 1 f¨ur alle π, π0 ∈ E , N! sofern ! die Voraussetzung von Satz (6.13) erf¨ullt. Dies ist zum Beispiel der Fall beim beliebten Mischverfahren, bei dem ein Teil der Karten von oben abgehoben und irgendwo zwischengeschoben wird. Dies entspricht einer (zuf¨allig ausgew¨ahlten) Permutation der Form lim P π0 (Xn = π) =
n→∞
πi,j : (1, . . . , N) → (i + 1, . . . , j, 1, . . . , i, j + 1, . . . , N) ,
1≤i<j ≤N.
F¨ur die Transposition (i, i + 1), die i und i + 1 vertauscht, gilt π1,2 i = 1, (i, i + 1) = falls π1,i ◦ πi,i+1 i > 1. Folglich kann jede Permutation als Komposition von endlich vielen πi,j ’s darge2 und π 3 gerade die identische Permutation sind, k¨ onnen wir stellt werden. Da π1,2 1,3 diese nach Bedarf hinzuf¨ugen und dadurch erreichen, dass jede Permutation durch eine gleiche Anzahl k von πi,j ’s dargestellt wird. Wenn also (πi,j ) > 0 f¨ur alle 1 ≤ i < j ≤ N, so folgt !k (π, π ) > 0 f¨ur alle π, π ∈ E, und Satz (6.13) ist anwendbar. Wir erhalten also eine exponentielle Ann¨aherung der Kartenverteilung an die Gleichverteilung. (6.24) Beispiel: Die Markov chain Monte Carlo“-Methode (MCMC). Sei α ei” ne Z¨ahldichte auf einer endlichen, aber sehr großen Menge E. Wie kann man eine Zufallsvariable mit Verteilung α simulieren? Die Verwerfungsmethode aus Beispiel (3.43) ist dazu wenig geeignet. Betrachten wir etwa zur Illustration das Problem der Bildverarbeitung. Ein (Schwarz-Weiß-) Bild ist eine Konfiguration von weißen und schwarzen Pixeln, die in einer Matrix angeordnet sind. Der Zustandsraum ist daher E = {−1, 1} , wobei −1 und 1 f¨ur die Farben weiß “ und schwarz“ ” ” stehen. Selbst bei relativ kleinen Abmessungen von , etwa 1000 × 1000 Pixeln, hat E eine M¨achtigkeit von der astronomischen Gr¨oßenordnung 21000×1000 ≈ 10301030 . Um ein zuf¨allig entstandenes (etwa von einem Satelliten aufgenommenes und durch rauschenden Funk u¨ bertragenes) Bild zu rekonstruieren, erweist sich vielfach eine Z¨ahldichte α der Gestalt 3 , 4 , α(x) = Z −1 exp J (i, j ) xi xj + h(i) xi f¨ur x = (xi )i∈ ∈ E i,j ∈:i =j
i∈
165
6.3 Asymptotische Stationarit¨at
als hilfreich. Hierbei sind J (die Kopplung zwischen verschiedenen, z. B. jeweils benachbarten Pixeln) und h (die lokale Tendenz zu schwarz“) geeignete Funktionen, ” welche von dem empfangenen Bild abh¨angen, und die Normierungskonstante Z ist ' so definiert, dass x∈E α(x) = 1. (Dieser Ansatz ist de facto aus der Statistischen Mechanik u¨ bernommen; er entspricht gerade dem ber¨uhmten Ising-Modell f¨ur eine ferromagnetische Substanz wie z. B. Eisen oder Nickel. Die Werte ±1 beschreiben dort den Spin“ eines Elementarmagneten.) ” W¨urde man α mit der Verwerfungsmethode aus Beispiel (3.43) simulieren wollen, so m¨usste man dabei insbesondere α(x) f¨ur gegebenes x ∈ E berechnen, und dazu m¨usste man Z kennen, die Summe u¨ ber astronomisch viele Summanden. Das ist numerisch aussichtslos, und direkte Methoden vom Typ der Verwerfungsmethode kommen daher nicht in Frage. Zum Gl¨uck ist es nun aber sehr leicht, die Quotienten α(x)/α(y) zu bestimmen, wenn sich die Konfigurationen x = (xi )i∈ und y = (yi )i∈ nur an einer Stelle j ∈ unterscheiden. ¨ Dies f¨uhrt auf die Idee, eine Markov-Kette zu simulieren, deren Ubergangsmatrix nur von diesen leicht zu berechnenden α-Quotienten abh¨angt, α als eindeutige station¨are Verteilung besitzt, und die Voraussetzung von Satz (6.13) erf¨ullt. Da die Konvergenz in Satz (6.13) gem¨aß (6.20) sogar mit exponentieller Geschwindigkeit erfolgt, kann man deshalb annehmen, nach gen¨ugend langer Zeit eine Realisierung zu erhalten, die f¨ur α typisch ist. ¨ F¨ur die Wahl der Ubergangsmatrix ! gibt es im Allgemeinen viele M¨oglichkeiten. Eine klassische Wahl ist der folgende Algorithmus von N. Metropolis (1953): Man w¨ahle ein c > 0 mit c || < 1 und setze
(6.25)
1) c min(α(y)/α(x), ' !(x, y) = 1 − j ∈ !(x, Tj x) 0
falls y = Tj x f¨ur ein j ∈ , falls y = x, sonst.
Dabei schreiben wir y = Tj x falls yi = xi f¨ur i = j und yj = −xj , d. h. Tj ver¨andert das Pixel j ins Gegenteil. ! ist offenbar eine stochastische Matrix, und wie in Beispiel (6.22) ergibt sich leicht die detailed balance Gleichung α(x)!(x, y) = α(y)!(y, x) f¨ur alle x, y ∈ E; durch Summation u¨ ber y folgt hieraus die Stationarit¨atsgleichung α! = α. Außerdem kann jedes y ∈ E von jedem x ∈ E in || erlaubten Schritten erreicht werden, indem man nacheinander alle Pixel ver¨andert, in denen sich y von x unterscheidet, und in den restlichen Schritten das Bild unver¨andert l¨asst; letzteres ist erlaubt, da c so gew¨ahlt wurde, dass !(x, x) > 0 f¨ur alle x. Es gilt also !|| (x, y) > 0 f¨ur alle x, y ∈ E. Somit erf¨ullt ! die Voraussetzung von Satz (6.13), und die Verteilung der zugeh¨origen Markov-Kette konvergiert im Langzeit-Limes gegen α. Der Metropolis-Algorithmus mit n Iterationsschritten kann z. B. folgendermaßen in Pseudo-Code formuliert werden:
166
6 Markov-Ketten
k ← 0, x ← a repeat j ← Y, k ← k + 1 if U < c min(α(Tj x)/α(x), 1) then xj ← −xj until k > n Xn ← x
(a ∈ E ist irgendeine Anfangskonfiguration; Y ∈ und U ∈ [0, 1] werden bei jedem Schritt mit Pseudo-Zufallszahlen gem¨aß der jeweiligen Gleichverteilung erzeugt.)
Wenn n groß genug gew¨ahlt wurde, hat das Resultat Xn ungef¨ahr die Verteilung α. Das gleiche Verfahren kann auch in anderen Situationen angewendet werden, wenn E nicht von der Form E = {−1, 1} ist. Man ersetzt dann die implizit in (6.25) auftauchende Matrix M mit M(x, y) = c falls y = Tj x f¨ur ein j ∈ , M(x, y) = 0 sonst, durch eine geeignete andere symmetrische Matrix.
6.3.3 Wiederkehrzeiten und Erneuerungssatz Wir wenden uns nun der station¨aren Verteilung α zu, auf die wir beim Ergodensatz (6.13) gestoßen sind. Diese steht n¨amlich in einem bemerkenswerten Zusammenhang mit den R¨uckkehrzeiten τx aus Bemerkung (6.8). Daf¨ur braucht der Zustandsraum E nicht mehr endlich zu sein, und die Voraussetzung von Satz (6.13) kann in der folgenden Weise abgeschw¨acht werden. ¨ Definition: Eine Ubergangsmatrix ! heißt irreduzibel, wenn zu beliebigen x, y ∈ E ein k = k(x, y) ≥ 0 existiert mit !k (x, y) > 0. Irreduzibilit¨at bedeutet also, dass jeder Zustand von jedem anderen mit positiver Wahrscheinlichkeit in einer endlichen Anzahl von Schritten erreicht werden kann. (Zum Vergleich mit der Voraussetzung von Satz (6.13) siehe Aufgabe 6.11.) Wir schreiben Ex bzw. Eα f¨ur den Erwartungswert bez¨uglich P x bzw. P α . (6.26) Satz: Stationarit¨at und Wiederkehrzeiten. Sei E eine beliebige abz¨ahlbare ¨ Menge und ! eine irreduzible Ubergangsmatrix. Wenn ! eine station¨are Verteilung α besitzt, so ist diese eindeutig bestimmt, und es gilt 0 < α(x) = 1/Ex (τx )
f¨ur alle x ∈ E.
Die station¨are Aufenthaltswahrscheinlichkeit in einem Zustand stimmt also u¨ berein mit der reziproken mittleren R¨uckkehrzeit. Mehr dazu folgt in (und nach) Satz (6.33). Beweis: 1. Schritt: Wir zeigen zuerst ein allgemeineres Resultat, den Wiederkehrsatz von Mark Kac (1947): Ist α eine station¨are Verteilung, so gilt f¨ur alle x ∈ E (6.27)
α(x) Ex (τx ) = P α (τx < ∞) .
167
6.3 Asymptotische Stationarit¨at
Dies ergibt sich aus der Stationarit¨at der Folge (Xn )n≥0 bez¨uglich P α , vgl. Bemerkung (6.15). Es gilt n¨amlich ' 1{τx >k} α(x) Ex (τx ) = Eα 1{X0 =x} τx = Eα 1{X0 =x} =
,
P
α
X0 = x, τx > k
k≥0
k≥0
= lim
n→∞
= lim
n→∞
n−1 , k=0 n−1 ,
P α X0 = x, Xi = x f¨ur 1 ≤ i ≤ k P α Xn−k = x, Xi = x f¨ur n−k+1 ≤ i ≤ n .
k=0
Der dritte Schritt beruht auf der σ -Additivit¨at des Erwartungswerts (siehe Satz (4.7c)), und die letzte Gleichung folgt aus der Stationarit¨at von (Xn )n≥0 durch Zeitverschiebung um n−k Zeitpunkte. Das Ereignis in der letzten Summe besagt nun aber: n−k ist der letzte Zeitpunkt vor der Zeit n, zu dem sich die Markov-Kette ” im Zustand x befindet“. F¨ur verschiedene k ∈ {0, . . . , n−1} sind diese Ereignisse disjunkt, und ihre Vereinigung ist gerade das Ereignis {τx ≤ n}, dass der Zustand x im Zeitintervall {1, . . . , n} u¨ berhaupt besucht wird. Wir erhalten also α(x) Ex (τx ) = lim P α (τx ≤ n) = P α (τx < ∞) . n→∞
2. Schritt: Es bleibt zu zeigen, dass α(x) > 0 und P α (τx < ∞) = 1 f¨ur alle x ∈ E. Da α eine Z¨ahldichte ist, gibt es mindestens ein x0 ∈ E mit α(x0 ) > 0. F¨ur beliebiges x ∈ E existiert dann wegen der Irreduzibilit¨at von ! ein k ≥ 0 mit !k (x0 , x) > 0, und es folgt α(x) = α!k (x) ≥ α(x0 )!k (x0 , x) > 0. Zusammen mit Gleichung (6.27) folgt insbesondere, dass Ex (τx ) ≤ 1/α(x) < ∞ und also erst recht P x (τx < ∞) = 1. Im nachfolgenden Satz (6.29) werden wir sehen, dass dann sogar P x (Xn = x f¨ur unendlich viele n) = 1 gilt. Kombiniert man dies mit der Fallunterscheidungsformel (3.3a) sowie der Markov-Eigenschaft (6.7), so erh¨alt man f¨ur beliebiges k ≥ 1 , k ! (x, y) P y (τx = ∞) 0 = P x Xn = x f¨ur alle n > k = y∈E
und somit P y (τx = ∞) = 0 wenn immer !k (x, y) > 0. Die Irreduzibilit¨at von ! impliziert daher, dass P y (τx < ∞) = 1 f¨ur alle y ∈ E. Es folgt P α (τx < ∞) = ' y y∈E α(y)P (τx < ∞) = 1, und der Satz ist bewiesen. 3 Zusammen mit dem Ergodensatz erhalten wir das folgende Anwendungsbeispiel. (6.28) Beispiel: Erneuerung von technischen Ger¨aten. Wir betrachten technische Ger¨ate (z. B. Gl¨uhbirnen, Maschinen, und a¨ hnliches), die zum Zeitpunkt ihres Defekts
168
6 Markov-Ketten
sofort durch ein gleichwertiges neues Ger¨at ersetzt werden. Ihre Funktionsdauer sei gegeben durch unabh¨angige, identisch verteilte Zufallsvariablen (Li )i≥1 mit Werten in {1, . . . , N}, wobei N die maximale Funktionsdauer ist. Der Einfachheit halber setzen wir voraus: P (L1 = l) > 0 f¨ur alle 1 ≤ l ≤ N, d. h. die Ger¨ate k¨onnen in jedem Alter defekt ' werden. Sei Tk = ki=1 Li der Zeitpunkt, zu dem das k-te Ger¨at ersetzt wird, T0 = 0, und Xn = n − max{Tk : k ≥ 1, Tk ≤ n} , n ≥ 0 , das Alter des zur Zeit n benutzten Ger¨ats. Man kann leicht nachpr¨ufen, dass (Xn )n≥0 ¨ eine Markov-Kette auf E = {0, . . . , N − 1} ist mit Ubergangsmatrix falls y = x + 1 < N , P (L1 > y|L1 > x) !(x, y) = P (L1 = x + 1|L1 > x) falls y = 0 , 0 sonst. (Diese Markov-Kette, die eine zuf¨allige Zeit lang jeweils um einen Schritt w¨achst und dann wieder auf Null zusammenf¨allt, wird auch als Kartenhaus-Prozess bezeichnet.) Da !(x, y) > 0 falls y = x +1 < N oder y = 0, ist !N (x, y) > 0 f¨ur alle x, y ∈ E. Die S¨atze (6.13) und (6.26) liefern daher ' k Li = n f¨ur ein k ≥ 1 = lim P 0 (Xn = 0) = 1/E(L1 ) , lim P n→∞
n→∞
i=1
d. h. die Wahrscheinlichkeit einer Erneuerung zur Zeit n ist asymptotisch reziprok zur mittleren Funktionsdauer. Dies ist der sogenannte Erneuerungssatz (in einer vereinfachten Fassung).
6.4
Ruckkehr zum Startpunkt ¨
Wir betrachten die allgemeine Situation einer Markov-Kette mit beliebigem, ¨ h¨ochstens abz¨ahlbarem Zustandsraum E und gegebener Ubergangsmatrix !. Angeregt durch Satz (6.26) fragen wir nach dem Wiederkehrverhalten in einen festen Zustand x ∈ E. Kehrt die Markov-Kette mit Sicherheit wieder zur¨uck, und wenn ja, wie lange dauert es im Mittel bis zur ersten R¨uckkehr? Zun¨achst zur ersten Frage.
6.4.1
Rekurrenz und Transienz
F¨ur gegebenes x ∈ E sei F1 (x, x) = P x (τx < ∞) die Wahrscheinlichkeit einer R¨uckkehr nach x zu irgendeiner (zuf¨alligen) endlichen Zeit, F∞ (x, x) = P x (Xn = x f¨ur unendlich viele n)
169
6.4 R¨uckkehr zum Startpunkt
die Wahrscheinlichkeit, unendlich oft zur¨uckzukehren, und ' , , G(x, x) = !n (x, x) = P x (Xn = x) = Ex 1{Xn =x} n≥0
n≥0
n≥0
die erwartete Anzahl der R¨uckkehrzeiten nach x. Die letzte Gleichung folgt hierbei aus Satz (4.7c), und Ex bezeichnet wieder den Erwartungswert bez¨uglich P x . (6.29) Satz: Wiederkehr von Markov-Ketten. F¨ur jedes x ∈ E besteht die Alternative (a) F1 (x, x) = 1. Dann ist F∞ (x, x) = 1 und G(x, x) = ∞. (b) F1 (x, x) < 1. Dann ist F∞ (x, x) = 0 und G(x, x) = (1 − F1 (x, x))−1 < ∞. Definition: Im Fall (a) heißt x rekurrent, im Fall (b) transient bez¨uglich !. Beweis: Sei σ = sup{n ≥ 0 : Xn = x} der Zeitpunkt des letzten Aufenthalts in x. (Wegen X0 = x ist σ wohldefiniert, eventuell = ∞.) Dann gilt erstens 1 − F∞ (x, x) = P x (σ < ∞) . F¨ur jedes n ≥ 0 folgt zweitens aus Satz (6.7) P x (σ = n) = P x (Xn = x) P x (Xi = x f¨ur alle i ≥ 1) = !n (x, x) (1 − F1 (x, x)). Durch Summation u¨ ber n ergibt sich hieraus und aus der ersten Gleichung 1 − F∞ (x, x) = G(x, x) (1 − F1 (x, x)) . Im Fall (a) folgt aus der zweiten Gleichung P x (σ = n) = 0 f¨ur alle n, und daher aus der ersten Gleichung F∞ (x, x) = 1. Das Borel-Cantelli Lemma (3.50a) liefert dann G(x, x) = ∞. Im Fall (b) folgt aus der dritten Gleichung G(x, x) < ∞, und daher aus dem Borel-Cantelli Lemma F∞ (x, x) = 0. Nochmalige Anwendung der dritten Gleichung ergibt die Beziehung zwischen G und F1 . 3 (6.30) Beispiel: Die einfache symmetrische Irrfahrt auf Zd . Hierunter versteht man ¨ die Markov-Kette auf E = Zd zur Ubergangsmatrix 1/2d falls |x − y| = 1, !(x, y) = 0 sonst. Man verbindet mit dieser Irrfahrt die Vorstellung von einem ziellosen Spazierg¨anger (oder einem Betrunkenen), der sich (f¨ur d = 1) auf einer (unendlich) langen Allee von Baum zu Baum, oder (f¨ur d = 2) in einem großen, schachbrettartig angelegten Park oder Straßennetz von Kreuzung zu Kreuzung bewegt. F¨ur d = 3 mag man an
170
6 Markov-Ketten
ein Kind in einem kubischen Kletterger¨ust denken. Wie groß ist die Wahrscheinlichkeit einer schließlichen R¨uckkehr an den Ausgangspunkt? Zun¨achst ist festzustellen, dass die R¨uckkehrwahrscheinlichkeit F1 (x, x) wegen der Homogenit¨at von ! nicht von x abh¨angt. Alle x ∈ Zd sind also von demselben Rekurrenztyp. Von welchem? Das h¨angt von der Dimension d ab! Es gilt n¨amlich: F¨ur d = 1 ist jedes x ∈ Zd rekurrent. Da n¨amlich eine R¨uckkehr nur zu geraden Zeiten m¨oglich ist und man dazu gleich oft nach rechts und links laufen muss, gilt
, , 2n −2n 2n G(x, x) = = ∞. ! (x, x) = 2 n n≥0
n≥0
Die letzte Gleichung beruht√auf der in Beispiel (5.2) bewiesenen 'asymptotischen √ ¨ ∼ 1/ π n und der Divergenz der Reihe Aquivalenz 2−2n 2n n≥1 1/ n. Der n Betrunkene in der langen Allee wird sich also irgendwann an seinem Startpunkt wiederfinden. (Allerdings kann das recht lange dauern, siehe Beispiel (6.34) unten.) Genauso gilt: F¨ur d = 2 ist jedes x ∈ Zd rekurrent. Denn f¨ur eine R¨uckkehr in 2n Schritten muss man gleich oft (etwa k Mal) nach rechts und nach links und gleich oft (also n − k Mal) nach oben und unten laufen. Also gilt ! (x, x) = 4 2n
−2n
n , k=0
= 4−2n
, n (2n)! n n −2n 2n =4 k!2 (n − k)!2 n k n−k k=0
n
2 2n 2 , −2n 2n Hn;n,n ({k}) = 2 n n
k=0
∼
n→∞
1 , πn
' genau wie oben im Fall d = 1. Da n≥1 1/n = ∞, folgt G(x, x) = ∞ . Also auch in Manhattan kehrt der Betrunkene mit Sicherheit nach endlicher (wenn auch sehr langer, siehe (6.34)) Zeit wieder an seinen Ausgangspunkt zur¨uck. Ist das auch in h¨oheren Dimensionen der Fall? Nein! Wie erstmals 1921 von G. Pólya bemerkt, gilt: F¨ur d ≥ 3 ist jedes x ∈ Zd transient. F¨ur alle n ≥ 1 ergibt sich n¨amlich a¨ hnlich wie oben !2n (x, x) = (2d)−2n = 2−2n
, k
(2n)! k1 !2 . . . kd !2
2n , −n n 2 ; d n k k
171
6.4 R¨uckkehr zum Startpunkt
' ki = n, hier erstreckt sich die Summe u¨ ber alle k = (k1 , . . . , kd ) ∈ Zd+ mit und wir haben wieder die Notation (2.8) benutzt. Weiter zeigt ein Vergleich mit der ' Multinomialverteilung, dass k d −n nk = 1. Es folgt ! (x, x) ≤ 2 2n
−2n
2n −n n max d . n k k
Das Maximum wird erreicht, wenn |ki −n/d| ≤ 1 f¨ur alle i; denn sonst ist ki ≥ kj +2 f¨ur gewisse i, j , und die Ersetzung ki ; ki − 1, kj ; kj + 1 vergr¨oßert den Multinomialkoeffizienten. Aus der Stirling-Formel (5.1) folgt daher
−n n ∼ d d/2 (2π n)(d−1)/2 max d n→∞ k k ' und somit !2n (x, x) ≤ c n−d/2 f¨ur ein c < ∞. Nun ist aber n≥1 n−d/2 < ∞ f¨ur d ≥ 3, also folgt G(x, x) < ∞. Ein Kind in einem unendlich großen Kletterger¨ust wird also mit positiver Wahrscheinlichkeit niemals an seinen Ausgangspunkt zur¨uckkehren (und sollte deshalb nicht unbeaufsichtigt gelassen werden)! (6.31) Beispiel: Ein Warteschlangen-Modell. An einem Schalter kommen zuf¨allig Kunden an und wollen bedient werden, zum Beispiel an der Supermarkt-Kasse, am Sessellift, bei der Telefon-Auskunft, an einem Internet-Knoten, usw. Der Einfachheit halber legen wir diskrete Zeit zugrunde und nehmen an, dass ein Kunde genau eine Zeiteinheit zur Bedienung braucht; das ist zum Beispiel beim Sessellift der Fall. Sei Xn die Zahl der wartenden Kunden zur Zeit n (d. h. beim Sessellift: unmittelbar bevor Sessel Nr. n bestiegen werden kann). Wir modellieren die Folge (Xn )n≥0 durch die Markov-Kette auf E = Z+ zur Matrix (y) falls x = 0 , !(x, y) = (y − x + 1) falls x ≥ 1, y ≥ x − 1 , 0 sonst. Dabei ist eine Z¨ahldichte auf E, n¨amlich die Verteilung der pro Zeiteinheit neu ankommenden Kunden. Zum besseren Verst¨andnis ist es hilfreich, den Kundenstrom explizit einzuf¨uhren. Sei Zn der Kundenzuwachs in der n-ten Zeiteinheit. Zwischen den Folgen (Xn )n≥0 und (Zn )n≥0 besteht dann offenbar die Beziehung Zn − 1 falls Xn−1 ≥ 1 , Xn − Xn−1 = falls Xn−1 = 0 , Zn durch die sie sich gegenseitig definieren. Man sieht nun leicht, dass (Xn )n≥0 genau ¨ dann eine Markov-Kette zur Ubergangsmatrix ! ist, wenn die Zufallsvariablen Zn unabh¨angig sind mit identischer Verteilung . Mit anderen Worten: Bis auf einen Randeffekt bei 0 ( Schubs um 1 nach oben“, damit der Prozess nicht negativ wird) ”
172
6 Markov-Ketten
ist (Xn )n≥0 gerade eine Irrfahrt; vgl. Beispiel ' (6.5). Dieser Randeffekt l¨asst sich noch genauer beschreiben: Sei Sn = X0 + nk=1 (Zk − 1) die Irrfahrt auf Z ohne den Randeffekt. Dann gilt Xn = Sn + Vn ,
(6.32)
' wobei Vn = nk=1 1{Xk =0} die Leerzeit bis n bezeichnet. (Vn l¨asst sich auch durch die Sk ausdr¨ucken. Es gilt Vn = min(0, min1≤k 1. (Da auf' Z+ lebt, ist E() stets wohldefiniert, eventuell = +∞.) Dann existiert ein c ∈ N mit ck=1 k (k) > 1, also E( min(Zn , c)−1 ) > 0 f¨ur alle n ≥ 1. Nach (6.32) und dem starken Gesetz der großen Zahl (Satz (5.15)) gilt dann P 0 lim Xn = ∞ ≥ P 0 lim Sn = ∞ n→∞ n→∞ n 1 ' min(Zk , c) − 1 > 0 = 1 ≥ P 0 lim n→∞ n k=1 und somit F∞ (0, 0) = 0. Im Fall E() > 1 ist somit 0 transient. Im umgekehrten Fall E() ≤ 1 ist 0 rekurrent. Zum Beweis beachten wir zun¨achst, dass nach der Fallunterscheidungsformel (3.3a) und Satz (6.7) , (y) P y (τ0 < ∞). F1 (0, 0) = (0) + y≥1
Also gen¨ugt es zu zeigen, dass h(y) := P y (τ0 < ∞) = 1 f¨ur alle y ≥ 1. Dazu zeigen wir zwei Gleichungen: ' h(1) = (0) + y≥1 (y) h(y). Dies ist nichts anderes als die Gleichung h(1) = !h(1) (mit der Vereinbarung h(0) = 1), welche aufgrund von Bemerkung (6.12) gilt. h(y) = h(1)y f¨ur alle y ≥ 1. Denn um von y nach 0 zu gelangen, muss (Xn )n≥0 vorher y − 1 passieren, also gilt h(y) = P y (τy−1 < ∞, τ0 < ∞). Satz (6.7) und Bemerkung (6.8) implizieren daher , P y (τy−1 = k) h(y − 1) = P y (τy−1 < ∞) h(y − 1) . h(y) = k≥1
173
6.4 R¨uckkehr zum Startpunkt
Obendrein gilt aus Homogenit¨atsgr¨unden P y (τy−1 < ∞) = h(1), denn wegen (6.32) stimmt Xn f¨ur n ≤ τ0 mit der Irrfahrt Sn u¨ berein. Somit gilt h(y) = h(1) h(y − 1), woraus induktiv die Behauptung folgt. Beide Aussagen zusammen liefern die Gleichung h(1) =
,
(y) h(1)y = ϕ (h(1)) ,
y≥0
d. h. h(1) ist ein Fixpunkt der erzeugenden Funktion ϕ von . Im Fall E() = ϕ (1) ≤ 1 hat ϕ aber nur den Fixpunkt 1; vgl. Beispiel (6.11). (Die hier zutage tretende Analogie zu den Verzweigungsprozessen kommt nicht von ungef¨ahr, vergleiche Aufgabe 6.25.) Hieraus folgt, dass h ≡ 1 und daher F1 (0, 0) = 1. Insgesamt haben wir also das (intuitiv einleuchtende) Ergebnis: 0 ist genau dann rekurrent, wenn E() ≤ 1, d. h. wenn im Mittel nicht mehr Kunden ankommen als bedient werden k¨onnen. Das oben betrachtete Warteschlangenmodell ist im Wesentlichen identisch mit dem sogenannten M/G/1-Modell der Warteschlangentheorie, das in stetiger Zeit formuliert wird. Die 1“ besagt, dass es nur einen Schalter gibt, an dem die Kunden abgefertigt werden. Das ” M“ steht f¨ur Markov“ und bedeutet, dass die Kunden zu den Zeitpunkten eines Poisson” ” Prozesses ankommen. (Die Ged¨achtnislosigkeit der dem Poisson-Prozess zugrunde liegenden Exponential-Verteilung impliziert, dass der Poisson-Prozess ein Markov-Prozess mit stetiger Zeit ist.) Das G“ steht f¨ur general“ und meint, dass die als unabh¨angig und identisch verteilt ” ” vorausgesetzten Bedienzeiten der Kunden eine ganz beliebige Verteilung β auf [0, ∞[ haben d¨urfen. Sei nun Xn die L¨ange der Warteschlange zu dem zuf¨alligen Zeitpunkt, an dem der n-te Kunde gerade fertig bedient ist und die Schlange soeben verlassen hat, und Zn die Anzahl der w¨ahrend seiner Bedienzeit neu eingetroffenen Kunden. Aufgrund der Unabh¨angigkeitseigenschaften des Poisson’schen Ankunftsprozesses sind dann die Zn unabh¨angig und identisch verteilt mit Verteilung (k) :=
. ∞ 0
β(dt) Pαt ({k}) =
. ∞ 0
β(dt) e−αt (αt)k /k! ;
dabei sei α > 0 die Intensit¨at des Ankunftsprozesses. Solange die Warteschlange nicht abreißt, stimmt daher Xn mit der oben betrachteten zeitdiskreten Markov-Kette u¨ berein, und deren Rekurrenzeigenschaften u¨ bertragen sich auf das zeitstetige Modell. Rekurrenz liegt somit genau dann vor, wenn E() = α E(β) ≤ 1.
6.4.2
Positive Rekurrenz und Nullrekurrenz
Wir stellen jetzt die Frage: Wie lange dauert es im Mittel, bis die Markov-Kette zu ihrem Startpunkt zur¨uckkehrt?
174
6 Markov-Ketten
Definition: Ein rekurrenter Zustand x ∈ E heißt positiv rekurrent, wenn die mittlere R¨uckkehrzeit endlich ist, d. h. wenn Ex (τx ) < ∞. Andernfalls heißt x nullrekurrent. In Satz (6.26) haben wir bereits gesehen, dass sich eine station¨are Verteilung durch die erwartete R¨uckkehrzeit ausdr¨ucken l¨asst. Diesen Zusammenhang wollen wir jetzt weiter pr¨azisieren. (6.33) Satz: Positive Rekurrenz und Existenz station¨arer Verteilungen. Ist x ∈ E positiv rekurrent, so existiert eine station¨are Verteilung α mit α(x) = 1/Ex (τx ) > 0. Ist umgekehrt α(x) > 0 f¨ur eine station¨are Verteilung α, so ist x positiv rekurrent. Beweis: Sei zuerst α(x) > 0 f¨ur ein α mit α! = α. Dann ergibt sich aus dem Wiederkehrsatz von Kac (Gleichung (6.27)) sofort Ex (τx ) ≤ 1/α(x) < ∞, also ist x positiv rekurrent. Sei nun umgekehrt x positiv rekurrent, also Ex (τx ) < ∞. Wir betrachten β(y) :=
,
P x (Xn = y, n ≤ τx ) = Ex
' τx n=1
n≥1
1{Xn =y} ,
die erwartete Anzahl der Besuche in y auf einem Ausflug“ von x. Es gilt ebenfalls ” , P x (Xn = y, n < τx ) , β(y) = n≥0
denn P x (Xτx = y) = δx,y = P x (X0 = y). F¨ur alle z ∈ E gilt weiter β!(z) =
,,
P x (τx > n, Xn = y) !(y, z)
y∈E n≥0
=
,,
P x (τx > n, Xn = y, Xn+1 = z)
n≥0 y∈E
=
,
P x (τx > n, Xn+1 = z)
n≥0
= β(z) ; im zweiten ' Schritt haben wir wieder Bemerkung (6.8) und Satz (6.7) angewandt. Wegen y β(y) = Ex (τx ) ist also α := Ex (τx )−1 β eine station¨are Startverteilung mit α(x) = 1/Ex (τx ) > 0. 3 Die Formel α(x) = 1/Ex (τx ) kann man sich wie folgt plausibel machen: Sei x positiv rekurrent, T0 = 0 und Tk = inf{n > Tk−1 : Xn = x} der Zeitpunkt des k-ten Besuchs in x. Dann ist Lk = Tk − Tk−1 die Dauer des k-ten Ausflugs von x. Gem¨aß Aufgabe 6.24 ist die
175
6.4 R¨uckkehr zum Startpunkt
Folge (Lk )k≥1 unabh¨angig und identisch verteilt. Aufgrund des starken Gesetzes der großen Zahl gilt daher 1/Ex (τx ) = lim k
' k
k→∞
j =1
N k 1 , = lim 1{Xn =x} k→∞ Tk N →∞ N
Lj = lim
n=1
fast sicher, denn die letzte Summe hat im Fall Tk ≤ N < Tk+1 den Wert k. Folglich ist 1/Ex (τx ) gerade die relative H¨aufigkeit der Besuche in x. Analog ist β(y)/Ex (τx ) fast sicher die relative H¨aufigkeit der Besuche in y.
(6.34) Beispiel: Die einfache symmetrische Irrfahrt auf Zd , vgl. Beispiel (6.30). F¨ur positiv rekurrent, d ≤ 2 ist jedes x ∈ Zd nullrekurrent. Denn w¨are irgendein x ∈ Zd ' so g¨abe es nach Satz (6.33) eine station¨are Verteilung α. Wegen y∈Zd α(y) = 1 existiert dann ein z ∈ Zd mit α(z) = m := maxy∈Zd α(y) > 0. Wegen m = α(z) = α!(z) =
1 2d
,
α(y)
y: |y−z|=1
ist dann auch α(y) = m f¨ur alle y mit |y '− z| = 1. Induktiv fortfahrend erhalten wir α(y) = m f¨ur alle y ∈ Zd , was wegen y∈Zd α(y) = 1 unm¨oglich ist. (6.35) Beispiel: Das Warteschlangen-Modell, vgl. Beispiel (6.31). Wir zeigen: Der Zustand 0 ist genau dann positiv rekurrent, wenn E() < 1, d. h. wenn pro Zeiteinheit im Mittel weniger Kunden kommen als abgefertigt werden. Zum Beweis m¨ussen wir E0 (τ0 ) untersuchen. Wir behaupten zun¨achst, dass E0 (τ0 ) = 1 + E() E1 (τ0 ) .
(6.36)
Denn durch Unterscheidung des Wertes von X1 folgt aus Satz (6.7) f¨ur alle k ≥ 1 P 0 (τ0 > k) = P 0 (X1 ≥ 1, . . . , Xk ≥ 1) , (y) P y (X1 ≥ 1, . . . , Xk−1 ≥ 1) = y≥1
=
,
(y) P y (τ0 > k − 1)
y≥1
und daher wegen Satz (4.7c) , , , E0 (τ0 ) = P 0 (τ0 > k) = 1 + (y) P y (τ0 > k − 1) k≥0
(6.37)
= 1+
, y≥1
y≥1
(y) Ey (τ0 ) .
k≥1
176
6 Markov-Ketten
Da sich die Warteschlange immer nur um h¨ochstens einen Kunden verk¨urzen kann, ergibt sich weiter f¨ur y ≥ 2 wieder aus Satz (6.7) ,, (n + k) P y (τy−1 = n, τ0 = n + k) Ey (τ0 ) = n≥1 k≥1
=
, n≥1 y
n P y (τy−1 = n) +
, , k P y (τy−1 = n) P y−1 (τ0 = k) k≥1
= E (τy−1 ) + E
y−1
n≥1
(τ0 ) .
Ferner ist aus Homogenit¨atsgr¨unden Ey (τy−1 ) = E1 (τ0 ), denn wegen (6.32) gilt Xn = Sn f¨ur n ≤ τ0 . Es folgt Ey (τ0 ) = y E1 (τ0 ) f¨ur y ≥ 1. Wenn wir dies in (6.37) einsetzen, erhalten wir Gleichung (6.36). Wir nehmen nun an, dass 0 positiv rekurrent ist. Dann gilt wegen (6.32) τ0 ' (Zk − 1) 0 = E1 (Xτ0 ) = E1 1 + = 1+
,
k=1
E Zk 1{τ0 ≥k} − E1 (τ0 ) 1
k≥1
= 1+
,
E() P 1 (τ0 ≥ k) − E1 (τ0 )
k≥1
= 1 + (E() − 1) E1 (τ0 ) . Der dritte Schritt ergibt sich daraus, dass E1 (τ0 ) < ∞ wegen (6.36), und dass wegen der Nichtnegativit¨at der Zk Satz (4.7c) anwendbar ist. Die vierte Gleichung benutzt, dass das Ereignis {τ0 ≥ k} durch Z1 , . . . , Zk−1 ausgedr¨uckt werden kann, also nach Satz (3.24) von Zk unabh¨angig ist. Die bewiesene Gleichung zeigt nun, dass E() < 1 ist. Insbesondere ergibt sich E1 (τ0 ) = 1/(1 − E()) und wegen (6.36) auch E0 (τ0 ) = 1/(1 − E()), d. h. die Besch¨aftigungsphase ( busy period“) ist im ” Mittel umso l¨anger, je n¨aher der mittlere Kundenzuwachs bei der Bedienzeit 1 liegt. Sei nun umgekehrt E() < 1. Dann zeigt dieselbe Rechnung wie eben mit τ0 ∧ n := min(τ0 , n) statt τ0 , dass 0 ≤ E1 (Xτ0 ∧n ) = 1 + (E() − 1) E1 (τ0 ∧ n) ,
' also nk=1 k P 1 (τ0 = k) ≤ E1 (τ0 ∧ n) ≤ 1/(1 − E()). F¨ur n → ∞ folgt E1 (τ0 ) ≤ 1/(1 − E()) < ∞ und somit wegen (6.36), dass 0 positiv rekurrent ist.
Aufgaben 6.1. Iterierte Zufallsabbildungen. Sei E eine abz¨ahlbare Menge, (F, F ) irgendein Ereignisraum, f : E × F → E eine messbare Abbildung, und (Ui )i≥1 eine Folge von unabh¨angigen,
177
Aufgaben
identisch verteilten Zufallsvariablen mit Werten in (F, F ). Sei (Xn )n≥0 rekursiv definiert durch X0 = x ∈ E, Xn+1 = f (Xn , Un+1 ) f¨ur n ≥ 0. Zeigen Sie: (Xn )n≥0 ist eine Markov¨ Kette, und bestimmen Sie die Ubergangsmatrix. ¨ 6.2. Sei (Xn )n≥0 eine Markov-Kette mit abz¨ahlbarem Zustandsraum E und Ubergangsmatrix !. Sei ferner ϕ : E → F eine Abbildung von E in eine weitere abz¨ahlbare Menge F . (a) Zeigen Sie durch ein Beispiel, das (ϕ ◦ Xn )n≥0 keine Markov-Kette zu sein braucht. (b) Unter welcher (nicht trivialen) Bedingung an ϕ und P ist (ϕ ◦ Xn )n≥0 eine MarkovKette? 6.3. Eingebettete Sprungkette. Sei E abz¨ahlbar und (Xn )n≥0 eine Markov-Kette auf E ¨ zu einer Ubergangsmatrix !. Sei T0 = 0 und Tk = inf{n > Tk−1 : Xn = Xn−1 } der Zeitpunkt des k-ten Sprungs von (Xn )n≥0 . Zeigen Sie: Die Folge Xk∗ := XTk , k ≥ 0, ist eine ¨ Markov-Kette zur Ubergangsmatrix !∗ (x, y) =
!(x, y)/(1 − !(x, x)) 0
falls y = x, sonst,
und bedingt auf (Xk∗ )k≥0 sind die Differenzen Tk+1 − Tk − 1 unabh¨angig und geometrisch verteilt zum Parameter 1 − !(Xk∗ , Xk∗ ). 6.4. Ein Pflanzen-Gen besitze die beiden Allele A und a. Ein klassisches Verfahren zur Z¨uchtung reinrassiger (d. h. homozygoter) Pflanzen vom Genotyp AA bzw. aa ist die Selbst¨ ¨ befruchtung. Der Ubergang von einer Generation zur n¨achsten wird dabei durch den Ubergangsgraphen 1
AA
1/4
Aa
1/4
aa
1
1/2
beschrieben. Sei (Xn )n≥0 die zugeh¨orige Markov-Kette. Berechnen Sie f¨ur beliebiges n die Wahrscheinlichkeit pn = P Aa (Xn = Aa). 6.5. Das Wright-Fisher-Modell der Populationsgenetik. Ein Gen besitze die beiden Allele A und a. In einer Population von N Lebewesen mit diploidem Chromosomensatz kommt das Gen also 2N Mal vor. Jede Generation bestehe aus N Individuen und entstehe aus der vorhergehenden durch Zufallspaarung: Jedes Gen der Nachkommengeneration sucht sich“ ” unabh¨angig von allen anderen ein Eltern-Gen und nimmt dessen Auspr¨agung an. Sei Xn die Anzahl der A-Gene in der n-ten Generation. Xn ist offenbar eine Markov-Kette auf ¨ E = {0, . . . , 2N}. Bestimmen Sie die Ubergangsmatrix und berechnen Sie f¨ur beliebiges x∈E h2N (x) := P x (Xn = 2N f¨ur alle hinreichend großen n). ¨ ! auf einer abz¨ahlbaren 6.6. Sei (Xn )n≥0 eine Markov-Kette zu einer Ubergangsmatrix x Menge E, und f¨ur alle x, y ∈ E gelte P (τy < ∞) = 1. Zeigen Sie: Ist h : E → [0, ∞[ eine Funktion mit !h = h, so ist h konstant.
178
6 Markov-Ketten
6.7. Das asymmetrische Ruinproblem“. Bei einem Geschicklichkeitsspiel befindet sich ” eine Kugel in einem Labyrinth“ von N konzentrischen (von innen nach außen nummerierten) ” ¨ Ringen, die jeweils abwechselnd auf einer Seite eine Offnung zum n¨achsten Ring besitzen. Die Aufgabe besteht darin, durch geeignetes Kippen des Spielbretts die Kugel in die Mitte (den Ring Nr. 0“) zu bringen. Nehmen Sie an, dass sich die Kugel am Anfang im m-ten ” Ring befindet (0 < m < N), und dass es dem Spieler jeweils mit Wahrscheinlichkeit 0 < p < 1 gelingt, die Kugel vom k-ten in den (k − 1)-ten Ring zu bef¨ordern, w¨ahrend sie mit Wahrscheinlichkeit 1 − p in den (k + 1)-ten Ring zur¨uckrollt. Der Spieler h¨ort auf, wenn sich die Kugel im 0-ten Ring (Ziel) oder im N -ten Ring (Entmutigung) befindet. Beschreiben Sie diese Situation als Markov-Kette und berechnen Sie die Wahrscheinlichkeit, dass der Spieler das Ziel erreicht! 6.8. Berechnen Sie die Aussterbewahrscheinlichkeit f¨ur einen Galton-Watson-Prozess mit Nachkommenverteilung in den F¨allen (a) (k) = 0 f¨ur alle k > 2, (b) (k) = ba k−1 f¨ur alle k ≥ 1 und a, b ∈ ]0, 1[ mit b ≤ 1 − a. (Nach empirischen Untersuchungen von Lotka in den 1930’er Jahren beschreibt dieses f¨ur a = 0.5893 und b = 0.2126 recht gut die Verteilung der Anzahl der S¨ohne von amerikanischen M¨annern, w¨ahrend f¨ur die T¨ochterzahl japanischer Frauen laut Keyfitz [32] die Parameter a = 0.5533 und b = 0.3666 am besten zutreffen.) 6.9. Sei (Xn )n≥0 ein Galton-Watson-Prozess zu einer Nachkommenverteilung mit ' E() ≤ 1 und einem einzigen Stammvater“ (d. h. X0 = 1). Sei T = n≥0 Xn dessen ” totale Nachkommenzahl. (Beachten Sie, dass T < ∞ fast sicher.) Zeigen Sie, dass die erzeugende Funktion ϕT von T die Funktionalgleichung ϕT (s) = s ϕ ◦ ϕT (s) erf¨ullt, und bestimmen Sie die erwartete gesamte Nachkommenzahl E1 (T ). 6.10. Verzweigungsprozess mit Wanderung und Vernichtung. Betrachten Sie folgende Modifikation des Galton-Watson-Prozesses. Sei N ∈ N gegeben. An jeder Stelle n ∈ {1, . . . , N} sitze eine gewisseAnzahl von Tierchen“, die sich unabh¨angig voneinander in einer Zeiteinheit ” wie folgt verhalten: Ein Tierchen an der Stelle n wandert zun¨achst jeweils mit Wahrscheinlichkeit 1/2 nach n − 1 oder n + 1. Dort stirbt es und erzeugt zugleich k Nachkommen mit Wahrscheinlichkeit (k), k ∈ Z+ . Im Fall n − 1 = 0 bzw. n ' + 1 = N + 1 wird das Tierchen vernichtet und erzeugt keine Nachkommen. Sei ϕ(s) = k≥0 (k)s k die erzeugende Funktion von = ((k))k≥0 und f¨ur 1 ≤ n ≤ N sei q(n) die Wahrscheinlichkeit, dass schließlich alle Nachkommen eines in n startenden Tierchens vernichtet sind. Sei außerdem q(0) = q(N + 1) = 1. (a) Beschreiben Sie das Verhalten aller Tierchen durch eine Markov-Kette auf ZN + und ¨ geben Sie die Ubergangsmatrix an. (b) Begr¨unden Sie die Gleichung q(n) = 21 ϕ(q(n − 1)) + 21 ϕ(q(n + 1)), 1 ≤ n ≤ N . (c) Sei speziell ϕ (1) ≤ 1. Zeigen Sie, dass q(n) = 1 f¨ur alle 1 ≤ n ≤ N. (d) Sei speziell ϕ(s) = (1 + s 3 )/2. Zeigen Sie: F¨ur N = 2 gilt q(1) = q(2) = 1, f¨ur N = 3 jedoch q(n) < 1 f¨ur alle 1 ≤ n ≤ 3.
179
Aufgaben
6.11. Sei E endlich und ! eine stochastische Matrix auf E. Zeigen Sie: Genau dann erf¨ullt ! die Voraussetzungen des Ergodensatzes (6.13), wenn ! irreduzibel ist und aperiodisch in dem Sinn, dass f¨ur ein (und daher alle) x ∈ E die Menge {k ≥ 1 : !k (x, x) > 0} den gr¨oßten gemeinsamen Teiler 1 hat. 6.12. Gegeben sei eine Urne mit insgesamt h¨ochstens N Kugeln. Sei Xn die Anzahl der Kugeln in der Urne nach n-maliger Durchf¨uhrung des folgenden Verfahrens: Falls die Urne nicht leer ist, wird eine Kugel zuf¨allig entnommen und durch M¨unzwurf entschieden, ob sie zur¨uckgelegt wird oder nicht; falls die Urne leer ist, wird durch M¨unzwurf entschieden, ob sie leer bleibt oder mit N Kugeln neu gef¨ullt wird. Beschreiben Sie diese Situation als ¨ Markov-Kette und geben Sie die Ubergangsmatrix an! Wie ist Xn f¨ur große n verteilt? 6.13. Gegeben sei wie in der vorigen Aufgabe eine Urne mit insgesamt h¨ochstens N Kugeln, jetzt aber in den zwei Farben weiß und schwarz. Falls die Urne nicht leer ist, wird eine Kugel zuf¨allig entnommen und durch M¨unzwurf entschieden, ob sie zur¨uckgelegt wird oder nicht; wenn sie leer ist, wird zun¨achst durch M’nzwurf entschieden, ob die Urne wieder gef¨ullt werden soll. Wenn ja, wird N Mal eine M¨unze geworfen und je nach Ergebnis eine weiße oder eine schwarze Kugel in die Urne gelegt. Seien Wn und Sn die Anzahl der weißen bzw. schwarzen Kugeln nach n-maliger Durchf¨uhrung dieses Verfahrens. Zeigen Sie, dass Xn = (Wn , Sn ) als Markov-Kette aufgefasst werden kann! Wie ist Xn f¨ur große n verteilt? 6.14. Eine Variante des Pólya’schen Urnenmodells. Gegeben sei nochmals eine Urne mit maximal N > 2 Kugeln in den Farben weiß und schwarz; von jeder Farbe gebe es mindestens eine Kugel. Befinden sich weniger als N Kugeln in der Urne, so wird zuf¨allig eine Kugel ausgew¨ahlt und zusammen mit einer weiteren Kugel der gleichen Farbe (aus einem externen Vorrat) wieder zur¨uckgelegt. Sind schon N Kugeln in der Urne, so wird durch M¨unzwurf entschieden, ob die Urne ver¨andert werden soll. Wenn ja, werden alle Kugeln bis auf jeweils eine von jeder Farbe entfernt. Seien Wn und Sn jeweils die Anzahl der weißen bzw. schwarzen Kugeln nach n-maliger Durchf¨uhrung dieses Verfahrens. Zeigen Sie: (a) Die Gesamtzahl Yn := Wn + Sn der Kugeln ist eine Markov-Kette. Bestimmen Sie die ¨ Ubergangsmatrix. Stellt sich ein asymptotisches Gleichgewicht ein? Wenn ja, welches? ¨ und (b) Auch Xn := (Wn , Sn ) ist eine Markov-Kette. Bestimmen Sie die Ubergangsmatrix gegebenenfalls die asymptotische Verteilung. 6.15. Zeigen Sie unter den Voraussetzungen des Ergodensatzes (6.13): Genau dann besitzt ! eine reversible Verteilung, wenn f¨ur alle n ≥ 1, x0 , . . . xn−1 ∈ E und xn = x0 gilt: !(x0 , x1 ) . . . !(xn−1 , xn ) = !(xn , xn−1 ) . . . !(x1 , x0 ). ¨ Uberpr¨ ufen Sie dies f¨ur den Fall des Kartenhaus-Prozesses in Beispiel (6.28). 6.16. Betrachten Sie in Beispiel (6.28) außer dem Altersprozess (Xn ) auch den Prozess Yn = min{Tk − n : k ≥ 1, Tk ≥ n}, der die Restlebensdauer des zur Zeit n benutzten Ger¨ates angibt. ¨ (a) Zeigen Sie, dass auch (Yn ) eine Markov-Kette ist, bestimmen Sie die Ubergangsmatrix ˜ und leiten Sie nochmals den Erneuerungssatz her. ! (b) Bestimmen Sie die die station¨are Verteilung α von (Xn ) und zeigen Sie, dass α auch eine station¨are Verteilung von (Yn ) ist.
180
6 Markov-Ketten
¨ ˜ von (Xn ) und (c) Welche Beziehung stellt α zwischen den Ubergangsmatrizen ! und ! (Yn ) her? 6.17. (a) Irrfahrt auf einem endlichen Graphen. Sei E eine endliche Menge und ∼ eine symmetrische Relation auf E. Dabei werde E als die Eckenmenge eines Graphen interpretiert, und die Beziehung x ∼ y bedeute, dass x und y durch eine Kante verbunden sind. Sei d(x) = |{y ∈ E : x ∼ y}| der Grad der Ecke x ∈ E, sowie !(x, y) = 1/d(x) falls x ∼ y, ¨ und !(x, y) = 0 sonst. Die Markov-Kette zur Ubergangsmatrix ! heißt die Irrfahrt auf dem Graphen (E, ∼). Unter welcher Voraussetzung an den Graphen (E, ∼) ist ! irreduzibel? Bestimmen Sie eine reversible Verteilung f¨ur !. (b) Irrfahrt eines Springers. Betrachten Sie einen Springer auf einem (ansonsten leeren) Schachbrett, der jeden m¨oglichen Zug mit gleicher Wahrscheinlichkeit w¨ahlt. Er starte (i) in einer Ecke, (ii) in einem der 16 Mittelfelder. Wieviel Z¨uge braucht er im Mittel, um wieder an seinen Ausgangspunkt zur¨uckzukehren? 6.18. Sei 0 < p < 1 und eine stochastische Matrix ! auf E = Z+ definiert durch !(x, y) = Bx,p ({y}),
x, y ∈ Z+ .
¨ Sie sich eine m¨ogliche AnwendungssituaBerechnen Sie !n f¨ur beliebiges n ≥ 1. Uberlegen tion. 6.19. Irreduzible Klassen. Sei E abz¨ahlbar, ! eine stochastische Matrix auf E, und Erek die Menge aller rekurrenten Zust¨ande. Man sagt y ist von x aus erreichbar“ und schreibt ” x → y, wenn ein k ≥ 0 existiert mit !k (x, y) > 0. Zeigen Sie: ¨ ¨ (a) Die Relation →“ ist eine Aquivalenzrelation auf Erek . Die zugeh¨origen Aquivalenz” klassen heißen irreduzible Klassen. (b) Ist x positiv rekurrent und x → y, so ist auch y positiv rekurrent, und es gilt Ex
τx ' n=1
1{Xn =y} = Ex (τx )/Ey (τy ) .
Insbesondere sind alle Zust¨ande innerhalb einer irreduziblen Klasse vom selben Rekurrenztyp. 6.20. Betrachten Sie einen Galton-Watson-Prozess (Xn )n≥0 mit superkritischer Nachkommenverteilung , d. h. es sei E() > 1. Zeigen Sie: Alle Zust¨ande k = 0 sind transient, und es gilt P k Xn → 0 oder Xn → ∞ f¨ur n → ∞ = 1 . 6.21. Geburts- und Todesprozess. Sei ! eine stochastische Matrix auf E = Z+ . Es sei !(x, y) > 0 genau dann, wenn entweder x ≥ 1 und |x − y| = 1, oder x = 0 und y ≤ 1. Unter welcher (notwendigen und hinreichenden) Voraussetzung an ! besitzt ! eine station¨are Verteilung, und wie sieht diese dann aus? 6.22. Ein Migrationsmodell. Betrachten Sie folgendes simple Modell f¨ur eine Tierpopulation in einem offenen Habitat. Jedes dort lebende Tier verl¨asst das Habitat, unabh¨angig von allen anderen, mit Wahrscheinlichkeit p, und bleibt mit Wahrscheinlichkeit 1 − p dort. Gleichzeitig wandert eine Poisson’sche Anzahl (mit Parameter a > 0) von Tieren von außen zu.
181
Aufgaben
(a) Beschreiben Sie die Anzahl Xn der Tiere im Habitat durch eine Markov-Kette und geben ¨ Sie die Ubergangsmatrix ! an. (b) Berechnen Sie die Verteilung von Xn bei Poisson’scher Startverteilung α = Pλ , λ > 0. (c) Bestimmen Sie eine reversible Verteilung α. x 6.23. Verallgemeinern Sie Satz (6.29) wie folgt. F¨ur x, y ∈ E sei F1 (x, y) ' = P (τy < ∞) die Wahrscheinlichkeit, dass y irgendwann von x aus erreicht wird, Ny = n≥1 1{Xn =y} die Anzahl der Besuche in y (ab der Zeit 1), F∞ (x, y) = P x (Ny = ∞) die Wahrscheinlichkeit f¨ur unendlich viele Besuche, und G(x, y) = δxy + Ex (Ny ) die erwartete Anzahl der Besuche (einschließlich der Zeit 0), die sogenannte Green-Funktion. Zeigen Sie: F¨ur alle k ≥ 0 gilt
P x (Ny ≥ k + 1) = F1 (x, y) P y (Ny ≥ k) = F1 (x, y) F1 (y, y)k und deshalb F∞ (x, y) = F1 (x, y) F∞ (y, y),
G(x, y) = δxy + F1 (x, y) G(y, y).
Was bedeutet dies f¨ur rekurrentes bzw. transientes y? ¨ 6.24. Betrachten Sie eine Markov-Kette mit abz¨ahlbarem Zustandsraum E, Ubergangsmatrix ! und Start in einem rekurrenten Zustand x ∈ E. Sei T0 = 0 und, f¨ur k ≥ 1, Tk = inf{n > Tk−1 : Xn = x} der Zeitpunkt der k-ten R¨uckkehr nach x sowie Lk = Tk − Tk−1 die Dauer des k-ten Ausflugs“ von x. Zeigen Sie: Die Zufallsvariablen Lk ” sind unter P x (fast sicher wohldefiniert und) unabh¨angig und identisch verteilt. 6.25. Besch¨aftigungsphase einer Warteschlange als Verzweigungsprozess. Betrachten Sie Beispiel (6.31) und die dort definierten Zufallsvariablen Xn und Zn . Fassen Sie die Warteschlange als ein Populationsmodell auf, indem Sie die zur Zeit n neu ankommenden Kunden als Kinder des ganz vorne in der Schlange Wartenden auffassen. Definieren Sie dementsprechend ' 0 Zn , und allgemein f¨ur k ≥ 1 Y0 = X0 , Y1 = Yn=1 Yk+1 =
, n≥1
15 k−1 ' i=0
Yi < n ≤
k '
6
Zn .
Yi
i=0
Zeigen Sie: (a) (Yk ) ist ein Galton-Watson-Prozess mit Nachkommenverteilung . (b) F¨ur alle x ≥ 1 gilt P x -fast sicher Yk+1 = XTk f¨ur alle k ≥ 0, und daher {Xn = 0 f¨ur ein n ≥ 1} = {Yk = 0 f¨ur alle hinreichend großen k} . Dabei seien die zuf¨alligen Zeiten Tk rekursiv definiert durch T0 = X0 , Tk+1 = Tk +XTk . ¨ (Uberlegen Sie sich zuerst, warum diese Zeiten nicht gr¨oßer sind als der erste Zeitpunkt τ0 , zu dem kein Kunde mehr wartet.) Folgern Sie (ohne Benutzung des Resultats von Beispiel (6.31)), dass die Warteschlange genau dann rekurrent ist, wenn E() ≤ 1. (Aufgabe 6.9 liefert dann die mittlere Anzahl von Kunden, die w¨ahrend einer Besch¨aftigungsphase bedient werden, und damit einen alternativen Beweis f¨ur das Ergebnis von Beispiel (6.35).)
182
6 Markov-Ketten
6.26. Markov-Ketten mit stetiger Zeit. Sei E abz¨ahlbar und G = (G(x, y))x,y∈E eine Matrix mit den Eigenschaften (i) G(x, y) ≥ 0 f¨ur x = y, (ii) −a(x) := G(x, x) < 0,
'
y∈E G(x, y) = 0 f¨ur alle x, und
(iii) a := supx∈E a(x) < ∞. Wir konstruieren einen Markovschen Prozess (Xt )t≥0 , welcher mit der Rate G(x, y) von x ” nach y springt“, und verwenden dazu die stochastische Matrix !(x, y) = δxy + G(x, y)/a ,
x, y ∈ E.
Zu x ∈ E seien auf einem geeigneten Wahrscheinlichkeitsraum (-, F , P x ) definiert ¨ eine Markov-Kette (Zk )k≥0 auf E mit Startpunkt x und Ubergangsmatrix !, und ein davon unabh¨angiger Poisson-Prozess (Nt )t≥0 zur Intensit¨at a. Sei Xt = ZNt , t ≥ 0. Zeigen Sie: (a) F¨ur alle t ≥ 0 ist Xt eine Zufallsvariable, und f¨ur x, y ∈ E gilt , P x (Xt = y) = etG (x, y) := t n Gn (x, y)/n! , n≥0
(b)
wobei die rechte Seite wegen |Gn (x, y)| ≤ (2a)n wohldefiniert ist. Insbesondere gilt d x dt P (Xt = y)|t=0 = G(x, y). ¨ !t := etG , t ≥ 0, d.h. f¨ur (Xt )t≥0 ist ein Markov-Prozess zur Ubergangshalbgruppe alle n ≥ 1, 0 = t0 < t1 < . . . < tn und x0 = x, x1 , . . . , xn ∈ E gilt P x (Xt1 = x1 , . . . , Xtn = xn ) =
n -
!tk −tk−1 (xk−1 , xk ) .
k=1 ∗ ∗ } der (c) Sei T0∗ = 0, Z0∗ = x und, rekursiv f¨ur n ≥ 1, Tn∗ = inf{t > Tn−1 : Xt = Zn−1 ∗ ∗ Zeitpunkt sowie Zn = XTn das Ziel des n-ten Sprunges von (Xt )t≥0 . Dann gilt: ¨ (Zn∗ )n≥0 ist eine Markov-Kette auf E mit Startpunkt x und Ubergangsmatrix !∗ (x, y) = δxy + G(x, y)/a(x), ∗ − T ∗ im Zustand Z ∗ , n ≥ 0, bedingt auf (Zn∗ )n≥0 , sind die Verweilzeiten Tn+1 n n unabh¨angig und exponentialverteilt jeweils zum Parameter a(Zn∗ ).
(Erinnern Sie sich an die Konstruktion (3.33) und kombinieren Sie die Aufgaben 6.3, 3.16 und 3.15.) (Xt )t≥0 heißt die Markov-Kette auf E mit stetiger Zeit zum infinitesimalen Generator G, und (Zn∗ )n≥0 die eingebettete diskrete Sprungkette. 6.27. Explosion in endlicher Zeit. Ohne die Voraussetzung (iii) in Aufgabe 6.26 existiert eine Markov-Kette mit Generator G im Allgemeinen nicht mehr. Sei etwa E = N und G(x, x + 1) = −G(x, x) = x 2 f¨ur alle x ∈ N. Bestimmen Sie die diskrete Sprungkette (Zn∗ )n≥0 zum Startpunkt 0 sowie die Sprungzeitpunkte (Tn∗ )n≥1 wie in 6.26(c) und zeigen Sie: E0 (supn≥1 Tn∗ ) < ∞, d.h. die Markov-Kette (Xt )t≥0 explodiert“ zu der fast sicher ” endlichen Zeit supn≥1 Tn∗ .
Aufgaben
183
6.28. Ergodensatz f¨ur Markov-Ketten mit stetiger Zeit. In der Situation von Aufgabe 6.26 sei E endlich und G irreduzibel, d.h. f¨ur alle x, y ∈ E gebe es ein k ∈ N und x0 , . . . , xk ∈ E mit ( x0 = x, xk = y und ki=1 G(xi−1 , xi ) = 0. Zeigen Sie: (a) F¨ur geeignetes k ∈ Z+ gilt limt→0 !t (x, y)/t k > 0. Folglich hat !t f¨ur hinreichend kleines t > 0 lauter positive Eintr¨age. (b) Es gilt limt→∞ !t (x, y) = α(y) f¨ur die einzige Z¨ahldichte α auf E, welche eine der a¨ quivalenten Bedingungen αG = 0 bzw. α!s = α f¨ur alle s > 0 erf¨ullt.
Teil II
Statistik
7 Parametersch¨atzung
Die zentrale Aufgabe der Statistik besteht in der Entwicklung von Methoden, mit denen man aus zufallsgesteuerten Beobachtungen auf die zugrunde liegenden Gesetzm¨aßigkeiten schließen kann. Die in Frage kommenden Gesetzm¨aßigkeiten werden durch eine Familie von geeigneten Wahrscheinlichkeitsmaßen beschrieben, und man m¨ochte anhand der Beobachtungen das richtige Wahrscheinlichkeitsmaß ermit¨ teln. Wir geben zun¨achst einen Uberblick u¨ ber die grundlegenden Vorgehensweisen und behandeln dann die einfachste von diesen, n¨amlich die Sch¨atzung. Hierbei handelt es sich darum, einen m¨oglichst geschickten Tipp abzugeben f¨ur das Wahrscheinlichkeitsmaß, welches den Beobachtungen zugrunde liegt.
7.1
Der Ansatz der Statistik
Wie kann man in einer zuf¨alligen Situation aus einzelnen Beobachtungen Schlussfolgerungen ziehen u¨ ber die Art und die Eigenschaften eines Zufallsmechanismus? Wir wollen dies an einem Beispiel erl¨autern. (7.1) Beispiel: Qualit¨atskontrolle. Ein Apfelsinen-Importeur erh¨alt eine Lieferung von N = 10 000 Orangen. Nat¨urlich m¨ochte er wissen, wieviele von diesen faul sind. Um Anhaltspunkte daf¨ur zu bekommen, nimmt er eine Stichprobe von z. B. n = 50 Orangen. Von diesen ist eine zuf¨allige Anzahl x faul. Welche R¨uckschl¨usse auf die wahre Anzahl w der faulen Orangen kann der Importeur dann ziehen? Die folgenden drei Vorgehensweisen bieten sich an. Jede von diesen entspricht einer grundlegenden statistischen Methode. ¨ 1. Ansatz: Naive Sch¨atzung. Uber den Daumen gepeilt wird man vermuten, dass der Anteil der faulen Orangen in der Stichprobe in etwa dem Gesamtanteil der faulen Orangen in der Lieferung entspricht, dass also x/n ≈ w/N. Demzufolge wird der Importeur darauf tippen, dass ungef¨ahr W (x) := N x/n Orangen faul sind, d. h. W (x) = N x/n (oder genauer: die n¨achstgelegene ganze Zahl) ist ein aus dem Beobachtungsergebnis x resultierender Sch¨atzwert f¨ur w. Wir haben damit auf intuitive Weise eine Abbildung gefunden, die dem Beobachtungsergebnis x einen Sch¨atzwert W (x) zuordnet. Solch eine Abbildung heißt ein Sch¨atzer. Der Sch¨atzwert W (x) ist offensichtlich vom Zufall abh¨angig. Wenn der Importeur eine zweite Stichprobe zieht, bekommt er im Allgemeinen ein anderes Ergebnis x ,
188
7 Parametersch¨atzung
und damit ver¨andert sich auch der Sch¨atzwert W (x ). Welchem Sch¨atzwert soll er dann mehr vertrauen? Dieses Problem macht deutlich, dass man die Launen des Zufalls besser ber¨ucksichtigen muss, und f¨uhrt zu folgendem 2. Ansatz: Sch¨atzung mit Fehlerangabe. Beim Beobachtungsergebnis x tippt man nicht auf einen genauen Wert W (x), sondern gibt nur ein von x abh¨angiges Intervall C(x) an, in dem der wahre Wert w mit hinreichender Sicherheit liegt. Da x vom Zufall bestimmt wird, ist nat¨urlich auch C(x) zufallsabh¨angig. Man m¨ochte, dass es mit großer Wahrscheinlichkeit den wahren Wert w enth¨alt. Dies bedeutet: Pw (x : C(x) w) ≈ 1 f¨ur das wahre w und das richtige Wahrscheinlichkeitsmaß Pw . Nun entspricht die Stichprobe des Orangen-Importeurs offenbar dem Ziehen ohne Zur¨ucklegen von n Kugeln aus einer Urne mit w weißen und N − w schwarzen Kugeln; die Anzahl der faulen Orangen in der Stichprobe ist daher hypergeometrisch verteilt. Das richtige Pw ist also Pw = Hn;w,N−w . Der wahre Wert w allerdings (die Anzahl der faulen Orangen) ist unbekannt; er soll ja erst aus der Stichprobe x ermittelt werden! Die Eigenschaften von C(x) d¨urfen daher nicht von w abh¨angen. Dies f¨uhrt zu der Forderung, dass Hn;w,N−w (C(·) w) ≥ 1 − α f¨ur alle w ∈ {0, . . . , N} und ein (kleines) α > 0. Solch ein vom Beobachtungswert x abh¨angiges Intervall C(x) heißt ein Konfidenzintervall zum Irrtumsniveau α. 3. Ansatz: Entscheidungsfindung. Dem Orangen-Importeur kommt es nicht nur auf die reine Kenntnis von w an, sondern aufs Geld. Er hat z. B. einen Vertrag mit dem Lieferanten, welcher besagt: Der vereinbarte Preis muss nur gezahlt werden, wenn weniger als 5% der Orangen faul sind. Aufgrund der Stichprobe x muss er sich entscheiden: Stimmt die Qualit¨at oder nicht? Er hat die Wahl zwischen der Hypothese“ H0 : w ∈ {0, . . . , 500} ” und der Alternative“ H1 : w ∈ {501, . . . , 10 000} ” und braucht dazu ein Entscheidungsverfahren, etwa der Art x ≤ c ⇒ Entscheidung f¨ur die Hypothese, x > c ⇒ Entscheidung f¨ur die Alternative. Dabei soll c so bestimmt werden, dass Hn;w,N −w (x : x > c) f¨ur w ≤ 500 klein ist, und f¨ur w > 500 m¨oglichst groß ist. Die erste Forderung bedeutet, dass ein f¨ur den Importeur peinlicher Irrtum sehr unwahrscheinlich sein soll, und die zweite, dass der Importeur zu seinem Recht kommt – er m¨ochte ja unbedingt erkennen, wenn die Qualit¨at der Orangen nicht ausreichend ist. Eine Entscheidungsregel dieser Art heißt ein Test.
189
7.1 Der Ansatz der Statistik
Wir werden uns mit allen drei Methoden besch¨aftigen, in diesem Kapitel mit der ersten. Wir betrachten noch ein zweites Beispiel. (7.2) Beispiel: Materialpr¨ufung. Es soll z. B. die Spr¨odigkeit eines K¨uhlwasserrohres in einem Kernkraftwerk u¨ berpr¨uft werden. Dazu werden n unabh¨angige Messungen durchgef¨uhrt, mit (zuf¨alligen) Ergebnissen x1 , . . . , xn . Da sich bei den Messungen viele kleine zuf¨allige St¨orungen aufsummieren k¨onnen, kann man angesichts des zentralen Grenzwertsatzes (in erster N¨aherung) annehmen, dass die Messwerte x1 , . . . , xn von einer Normalverteilung gesteuert werden. Dabei sei die Varianz v > 0 bekannt (sie entspricht der G¨ute des Messinstruments und ist also hoffentlich recht klein!), aber der Erwartungswert m ∈ R, der die wirkliche Spr¨odigkeit des Rohres angibt, ist unbekannt. Dieses m soll nun aus dem Datensatz x = (x1 , . . . , xn ) ∈ Rn ermittelt werden. Der Statistiker kann nun wieder auf dreierlei Weise vorgehen: 1) Sch¨atzung. Man gibt einfach eine Zahl an, die aufgrund des Messergebnisses x am plausibelsten ist. Das erste, was sich daf¨ur anbietet, ist nat¨urlich der Mittelwert 1, M(x) = x¯ := xi . n n
i=1
Wegen der Zufallsabh¨angigkeit dieses Wertes ist solch eine Sch¨atzung aber nur bedingt vertrauensw¨urdig. 2) Konfidenzintervall. Man bestimmt ein von x abh¨angiges Intervall C(x), z. B. der Gestalt C(x) = ]M(x)−ε, M(x)+ε[, in dem der wahre Wert m mit hinreichender Sicherheit liegt. Letzteres bedeutet aufgrund unserer Normalverteilungsannahme, dass Nm,v ⊗n C(·) m ≥ 1 − α f¨ur ein vorgegebenes α > 0 und alle in Frage kommenden m. 3) Test. Wenn entschieden werden muss, ob die Spr¨odigkeit des Rohres unterhalb eines zul¨assigen Grenzwertes m0 liegt, ist ein Konfidenzintervall jedoch noch nicht der richtige Ansatz. Man braucht dann eine Entscheidungsregel. Diese hat sinnvollerweise die Gestalt M(x) ≤ c ⇒ Entscheidung f¨ur die Hypothese H0 : m ≤ m0 M(x) > c ⇒ Entscheidung f¨ur die Alternative H1 : m > m0 f¨ur einen geeigneten Schwellenwert c. Letzterer sollte so gew¨ahlt werden, dass Nm,v ⊗n (M > c) ≤ α f¨ur m ≤ m0 und
Nm,v ⊗n (M > c) m¨oglichst groß f¨ur m > m0 ;
d. h. einerseits soll mit Sicherheit 1 − α vermieden werden, das Rohr als schlecht zu deklarieren, wenn es in Wirklichkeit noch in Ordnung ist, und andrerseits soll
190
7 Parametersch¨atzung
ein zu spr¨odes Rohr mit gr¨oßtm¨oglicher Sicherheit als solches erkannt werden. Man beachte, dass die Entscheidungsregel nicht symmetrisch ist in H0 und H1 . Wenn die Sicherheit h¨ohere Priorit¨at hat als die Kosten, wird man die Rolle von Hypothese und Alternative vertauschen. Was ist die allgemeine Struktur hinter den obigen Beispielen? Die m¨oglichen Beobachtungsergebnisse x bilden eine gewisse Menge X, den Stichprobenraum. Aus X wird durch Beobachtung ein zuf¨alliges Element ausgew¨ahlt. (In Beispiel (7.1) war X = {0, . . . , n}, und in (7.2) X = Rn .) Die Bezeichnung mit X statt - beruht auf der Vorstellung, dass die Beobachtung durch eine Zufallsvariable X : - → X gegeben ist, wobei - eine detaillierte Beschreibung des Zufalls liefert, w¨ahrend X nur die wirklich beobachtbaren Ergebnisse enth¨alt. Da jedoch nicht X selbst, sondern nur die Verteilung von X eine Rolle spielt, taucht nicht mehr explizit auf.
Das Wahrscheinlichkeitsmaß auf X, das die Verteilung der Beobachtung beschreibt, ist nicht bekannt, sondern soll erst aus den Beobachtungswerten ermittelt werden. Also muss man nicht mehr nur ein Wahrscheinlichkeitsmaß auf X betrachten, sondern eine ganze Klasse von in Frage kommenden Wahrscheinlichkeitsmaßen. (In Beispiel (7.1) war dies die Klasse der hypergeometrischen Verteilungen Hn;w,N−w mit w ≤ N, und in (7.2) die Klasse der Normalverteilungsprodukte Nm,v ⊗n mit m im relevanten Bereich.) Diese beiden Feststellungen f¨uhren zur folgenden allgemeinen Definition. Definition: Ein statistisches Modell ist ein Tripel (X, F , Pϑ : ϑ ∈ ) bestehend aus einem Stichprobenraum X, einer σ -Algebra F auf X, und einer mindestens zweielementigen Klasse {Pϑ : ϑ ∈ } von Wahrscheinlichkeitsmaßen auf (X, F ), die mit einer gewissen Indexmenge indiziert sind. Da wir es nun mit vielen (oder zumindest zwei) verschiedenen Wahrscheinlichkeitsmaßen zu tun haben, m¨ussen wir bei der Bildung von Erwartungswerten das jeweils zugrunde liegende Wahrscheinlichkeitsmaß angeben. Wir schreiben daher Eϑ f¨ur den Erwartungswert und Vϑ f¨ur die Varianz bez¨uglich Pϑ . Eine Selbstverst¨andlichkeit soll hier noch betont werden: Die erste Grundaufgabe des Statistikers besteht in der Wahl des richtigen Modells! Denn jedes statistische Verfahren macht nur dann Sinn, wenn die zugrunde gelegte Klasse von Wahrscheinlichkeitsmaßen die betrachtete Anwendungssituation (zumindest einigermaßen) zutreffend beschreibt. Die meisten von uns betrachteten Modelle haben noch gewisse Zusatzeigenschaften, die wir hier gleich definieren wollen. Definition: (a) Ein statistisches Modell M = (X, F , Pϑ : ϑ ∈ ) heißt ein parametrisches Modell, wenn ⊂ Rd f¨ur ein d ∈ N. Ist d = 1, so heißt M ein einparametriges Modell.
7.1 Der Ansatz der Statistik
191
(b) M heißt ein diskretes Modell, wenn X diskret, also h¨ochstens abz¨ahlbar ist und F = P(X); dann besitzt jedes Pϑ eine Z¨ahldichte, n¨amlich ϑ : x → Pϑ ({x}). M heißt ein stetiges Modell, wenn X eine Borel’sche Teilmenge eines Rn ist, n die auf X eingeschr¨ F = BX ankte Borel’sche σ -Algebra, und jedes Pϑ eine Dichtefunktion ϑ besitzt. Tritt einer dieser beiden F¨alle ein, so heiße M ein Standardmodell. Zum Verst¨andnis dieser Definition beachte man das Folgende. (a) Der Fall einer h¨ochstens abz¨ahlbaren Indexmenge ist im parametrischen Fall mit eingeschlossen, denn dann kann ja mit einer Teilmenge von R identifiziert werden. Typischerweise denkt man aber an den Fall, dass ein Intervall oder, im mehrdimensionalen Fall, eine offene oder abgeschlossene konvexe Menge ist. (b) Das Wesentliche am Begriff des Standardmodells ist die Existenz einer Dichtefunktion bez¨uglich eines sogenannten dominierenden Maßes. Im diskreten Fall ist dies dominierende Maß das Z¨ahlmaß, das jedem Punkt von X die Masse 1 gibt, und im stetigen Fall das Lebesguemaß λn auf Rn . Diese beiden F¨alle sind offenbar v¨ollig analog zueinander, nur dass man im diskreten Fall Summen schreiben ' muss und im stetigen Fall Integrale. Zum Beispiel ist f¨ur A ∈ F entweder Pϑ (A) = x∈A ϑ (x) ) oder Pϑ (A) = A ϑ (x) dx. Wir werden im Folgenden nicht beide F¨alle gesondert behandeln, sondern einfach immer Integrale schreiben, die im diskreten Fall durch Summen zu ersetzen sind. Oft werden wir statistische Modelle betrachten, die die unabh¨angige Wiederholung von identischen Einzelexperimenten beschreiben. Dies war bereits in Beispiel (7.2) der Fall. Zu diesem Zweck f¨uhren wir noch den folgenden Begriff ein. Definition: Ist (E, E , Qϑ : ϑ ∈ ) ein statistisches Modell und n ≥ 2 eine ganze Zahl, so heißt (X, F , Pϑ : ϑ ∈ ) = (E n , E ⊗n , Q⊗n ϑ : ϑ ∈ ) das zugeh¨orige n-fache Produktmodell. In dem Fall bezeichnen wir mit Xi : X → E die Projektion auf die i-te Koordinate. Sie beschreibt den Ausgang des i-ten Teilexperiments. Insbesondere sind dann X1 , . . . , Xn bez¨uglich jedes Pϑ unabh¨angig und identisch verteilt mit Verteilung Qϑ , ϑ ∈ . Offenbar ist das Produktmodell eines parametrischen Modells wieder parametrisch, denn es hat ja dasselbe . Außerdem ist das Produktmodell eines Standardmodells wieder ein Standardmodell; vergleiche Beispiel (3.30). Zum Schluss des Abschnitts noch eine Bemerkung zur Begrifflichkeit und Terminologie. Der Vorgang des Beobachtens, der ein zuf¨alliges Ergebnis liefert, wird beschrieben durch gewisse Zufallsvariablen, die wir mit X oder (wie oben im Produktmodell) mit Xi bezeichnen. Um diese Interpretation der Zufallsvariablen zu betonen, nennen wir jede solche Zufallsvariable kurz eine (zuf¨allige) Beobachtung,
192
7 Parametersch¨atzung
Messung oder Stichprobe. Dagegen bezeichnen wir eine Realisierung von X oder Xi , d. h. einen konkreten Wert x, der sich bei einer Beobachtung eingestellt hat, als Beobachtungs- oder Messwert bzw. als Beobachtungs- oder Messergebnis.
7.2
Die Qual der Wahl
Wir wenden uns jetzt dem Sch¨atzproblem zu. Nach der obigen informellen Einf¨uhrung von Sch¨atzern beginnen wir mit der allgemeinen Definition. Definition: Sei (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell und (Σ, S ) ein weiterer Ereignisraum. (a) Eine beliebige Zufallsvariable S von (X, F ) nach (Σ, S ) heißt eine Statistik. (b) Sei τ : → Σ eine Abbildung, die jedem ϑ ∈ eine gewisse Kenngr¨oße τ (ϑ) ∈ Σ zuordnet. (Im parametrischen Fall sei z. B. (Σ, S ) = (R, B ) und τ (ϑ) = ϑ1 die erste Koordinate von ϑ.) Eine Statistik T : X → Σ heißt dann ein Sch¨atzer f¨ur τ . ¨ Diese Definition enth¨alt zwei Uberraschungen: Warum f¨uhrt man den Begriff der Statistik ein, wenn eine Statistik nichts anderes ist als eine Zufallsvariable? Der Grund ist der, dass diese beiden Begriffe zwar mathematisch identisch sind, aber verschieden interpretiert werden. Eine Zufallsvariable beschreibt in unserer Vorstellung die unvorhersehbaren Ergebnisse, die uns der Zufall pr¨asentiert. Eine Statistik jedoch ist eine vom Statistiker wohlkonstruierte Abbildung, die aus den Beobachtungsdaten eine essentielle Gr¨oße extrahiert, aus der sich Schl¨usse ziehen lassen. Warum f¨uhrt man den Begriff des Sch¨atzers ein, wenn ein Sch¨atzer nichts anderes ist als eine Statistik? Und warum sagt die Definition eines Sch¨atzers nichts dar¨uber aus, ob T etwas mit τ zu tun hat? Wieder liegt das an der Interpretation: Ein Sch¨atzer ist eine Statistik, die speziell auf die Aufgabe des Sch¨atzens von τ zugeschnitten sein soll. Dies wird aber nicht weiter formalisiert, da sonst der Begriff des Sch¨atzers zu sehr eingeengt w¨urde. Ein Sch¨atzer wird oft auch ein Punktsch¨atzer genannt, um zu betonen, dass f¨ur jedes x ∈ X nur ein einzelner Sch¨atzwert statt eines ganzen Konfidenzbereiches angegeben wird. In den Beispielen (7.1) und (7.2) schien die Konstruktion eines guten Sch¨atzers Routine zu sein. Das ist jedoch keineswegs immer der Fall. Das folgende Beispiel soll dazu dienen, ein Problembewusstsein zu schaffen. (7.3) Beispiel: Erraten des Bereichs von Zufallszahlen. In einer Fernsehshow f¨uhrt der Moderator einen Apparat vor, der Zufallszahlen im Intervall [0, ϑ] ausspuckt, wenn er vom Moderator auf den Wert ϑ > 0 eingestellt wurde. Zwei Spieler d¨urfen den Apparat n = 10 Mal bedienen und sollen dann ϑ m¨oglichst gut erraten. Wer besser r¨at, hat gewonnen.
193
7.2 Die Qual der Wahl
Zun¨achst einmal m¨ussen wir fragen: Welches statistische Modell soll zugrunde gelegt werden? Da n nichtnegative Zufallszahlen erzeugt werden sollen, ist der Ergebnisraum offenbar der Produktraum X = [0, ∞[n . Der vom Moderator gesteuerte Parameter ϑ liegt in der Parametermenge = ]0, ∞[, und die in Frage kommenden Wahrscheinlichkeitsmaße sind – wegen der impliziten Annahme der Unabh¨angigkeit und Gleichverteilung der erzeugten Zufallszahlen – die Produktmaße Pϑ = U[0,ϑ] ⊗n . Wir haben somit das n-fache Produktmodell (X, F , Pϑ : ϑ ∈ ) = [0, ∞[n , B[0,∞[ ⊗n , U[0,ϑ] ⊗n : ϑ > 0 . Wir betrachten nun zwei Ratestrategien f¨ur die beiden Spieler. Spieler A erinnert sich ans Gesetz der großen ' Zahl. Wegen E(U[0,ϑ] ) = ϑ/2 gilt f¨ur den doppelten Mittelwert Tn := 2 M = n2 nk=1 Xk Pϑ |Tn − ϑ| > ε −→ 0 n→∞
f¨ur alle ε > 0 ,
d. h. Tn konvergiert Pϑ -stochastisch gegen ϑ. (Da auch das zugrunde liegende Modell von der Beobachtungszahl n abh¨angt, wird hier der Begriff der stochastischen Konvergenz in einem etwas allgemeineren Sinne als bisher verwendet.) Spieler A w¨ahlt deshalb Tn als Sch¨atzer und hofft, dass dies bereits f¨ur n = 10 vern¨unftig ist. Spieler B denkt sich: Das Beobachtungsmaximum T2n := max(X1 , . . . , Xn ) ist zwar stets kleiner als ϑ, wird aber f¨ur großes n nahe bei ϑ liegen. In der Tat gilt f¨ur alle ε > 0 n Pϑ T2n ≤ ϑ − ε = Pϑ X1 ≤ ϑ − ε, . . . , Xn ≤ ϑ − ε = ϑ−ε −→ 0 , ϑ n→∞
d. h. auch T2n konvergiert Pϑ -stochastisch gegen ϑ, und T2n ist ebenfalls ein vern¨unftiger Sch¨atzer f¨ur ϑ. Welcher Spieler hat bessere Gewinnchancen, d. h. welcher der beiden Sch¨atzer ist besser? Dazu m¨ussen wir geeignete G¨utekriterien festlegen. Wir haben bereits gesehen: Beide Sch¨atzer sind konsistent im dem Sinne, dass Pϑ
Tn −→ ϑ
und
Pϑ T2n −→ ϑ
f¨ur n → ∞.
Dies betrifft aber nur das asymptotische Verhalten. Welche Kriterien sind schon f¨ur kleines n, etwa n = 10 relevant? Tn ist erwartungstreu im Sinne von 2, Eϑ (Xi ) = ϑ n n
Eϑ (Tn ) =
i=1
f¨ur alle ϑ ∈ .
194
7 Parametersch¨atzung
Dagegen gilt T2n ≤ ϑ, also ist T2n sicher nicht erwartungstreu. Bei großem n ist T2n aber ziemlich“ erwartungstreu. In der Tat gilt Pϑ (T2n ≤ c) = (c/ϑ)n f¨ur alle c ∈ [0, ϑ], ” d also hat T2n unter Pϑ die Verteilungsdichte dx (x/ϑ)n = n x n−1 ϑ −n auf [0, ϑ]. Mit Korollar (4.13) ergibt sich daher Eϑ (T2n ) =
.
ϑ
x n x n−1 ϑ −n dx = nϑ −n
0
.
ϑ
x n dx =
0
n ϑ n+1
f¨ur alle ϑ ∈ . T2n ist also asymptotisch erwartungstreu im Sinne von Eϑ (T2n ) → ϑ f¨ur alle ϑ ∈ . Spieler B w¨are allerdings gut beraten, statt T2n den geringf¨ugig modi∗ 2 fizierten Sch¨atzer Tn∗ := n+1 n Tn zu verwenden. Denn Tn ist offenbar erwartungstreu, vermeidet also eine systematische Untersch¨atzung von ϑ, und ist nat¨urlich ebenfalls konsistent. Erwartungstreue allein ist noch nicht sehr aussagekr¨aftig, wenn der Sch¨atzwert sehr stark um den Erwartungswert streuen kann. Deshalb fragen wir: Welcher Sch¨atzer streut mehr? Gem¨aß Satz (4.23) und Korollar (4.13) gilt f¨ur die Varianz des Sch¨atzers von Spieler A 2 2
4 Xk = Vϑ (X1 ) n n k=1 . ϑ 2 ϑ2 ϑ 4 dx = x− . = nϑ 0 2 3n
Vϑ (Tn ) =
Vϑ
' n
Dagegen betr¨agt die Varianz des Sch¨atzers von Spieler B Vϑ (T2n ) = Eϑ (T2n2 ) − Eϑ (T2n )2
. ϑ nϑ 2 2 n−1 −n = x nx ϑ dx − n+1 0
2 n n n ϑ2 2 − , ϑ = = n + 2 (n + 1)2 (n + 1)2 (n + 2) und f¨ur seine erwartungstreue Modifikation gilt Vϑ (Tn∗ ) = ϑ 2 /n(n + 2) . Diese Varianzen streben sogar wie 1/n2 gegen 0. Der Sch¨atzer T2n streut zwar sogar noch n etwas weniger als Tn∗ , aber leider um den falschen Wert n+1 ϑ. Der gesamte mittlere quadratische Fehler f¨ur T2n betr¨agt daher 2 Eϑ (T2n − ϑ)2 = Vϑ (T2n ) + Eϑ (T2n ) − ϑ =
2 ϑ2 , (n + 1)(n + 2)
ist also (bei großem n) ungef¨ahr doppelt so groß wie der quadratische Fehler Vϑ (Tn∗ ) von Tn∗ . F¨ur n = 10 haben wir insbesondere Vϑ (T10 ) = ϑ 2 /30, Eϑ ((T210 − ϑ)2 ) =
195
7.3 Das Maximum-Likelihood-Prinzip
∗ ) = ϑ 2 /120. Beide Spieler haben also nicht die optimale Strateϑ 2 /66, und Vϑ (T10 gie, und Sie w¨urden an deren Stelle nat¨urlich den Sch¨atzer Tn∗ verwenden.
Als Fazit des Beispiels ergibt sich: Der naive, auf dem Mittelwert beruhende Sch¨atzer ist offenbar nicht optimal. Ob aber der Sch¨atzer Tn∗ der beste ist, und ob es u¨ berhaupt einen besten Sch¨atzer gibt, ist damit noch nicht gekl¨art, und im Allgemeinen l¨asst sich das auch nicht kl¨aren. Unterschiedliche G¨utekriterien sind nicht immer miteinander vereinbar, und in verschiedenen Situationen k¨onnen verschiedene Sch¨atzer zweckm¨aßig sein. Die Wahl eines angemessenen Sch¨atzers verlangt deshalb stets einiges Fingerspitzengef¨uhl. Die oben angef¨uhrten G¨utekriterien werden wir sp¨ater noch n¨aher untersuchen.
7.3
Das Maximum-Likelihood-Prinzip
Trotz der soeben diskutierten Schwierigkeiten gibt es ein universelles und intuitiv plausibles Prinzip f¨ur die Auswahl eines Sch¨atzers. Die resultierenden Sch¨atzer erf¨ullen in vielen F¨allen die oben genannten G¨utekriterien, manchmal allerdings nur ungef¨ahr. Zur Motivation betrachten wir wieder unser Eingangsbeispiel. (7.4) Beispiel: Qualit¨atskontrolle, vgl. (7.1). Erinnern wir uns an den Orangen-Importeur, der aufgrund einer Stichprobe vom Umfang n die Qualit¨at einer Lieferung von N Apfelsinen beurteilen will. Das statistische Modell ist das hypergeometrische Modell mit X = {0, . . . , n}, = {0, . . . , N}, und Pϑ = Hn;ϑ,N −ϑ . Gesucht ist ein Sch¨atzer T : X → f¨ur ϑ. Im Unterschied zu der naiven Vorgehensweise in Beispiel (7.1) wollen wir jetzt unsere Intuition von den Eigenschaften des statistischen Modells leiten lassen. Wenn wir x beobachten, k¨onnen wir die Wahrscheinlichkeit ϑ (x) = Pϑ ({x}) berechnen, mit der dies Ergebnis eintritt, wenn ϑ der richtige Parameter ist. Wir k¨onnen dann folgendermaßen argumentieren: Ein ϑ mit sehr kleinem ϑ (x) kann nicht der wahre Parameter sein, denn sonst w¨are unsere Beobachtungsergebnis ein ausgesprochener Ausnahmefall gewesen, und wieso sollte der Zufall uns ausgerechnet einen untypischen Ausnahmefall angedreht haben? Viel eher sind wir bereit, auf ein ϑ zu tippen, bei dem unser Ergebnis x mit ganz plausibler Wahrscheinlichkeit eintritt. ¨ Diese Uberlegung f¨uhrt zu folgender Sch¨atzregel: Man bestimme den Sch¨atzwert T (x) zu x so, dass T (x) (x) = max ϑ (x) , ϑ∈
d. h. man tippe auf solche Parameter, bei denen das Beobachtungsergebnis x die gr¨oßte Wahrscheinlichkeit hat.
196
7 Parametersch¨atzung
Was bedeutet das in unserem Fall? Sei x ∈ X = {0, . . . , n} gegeben. F¨ur welches ϑ ist die Z¨ahldichte ϑ N −ϑ ϑ (x) =
x
n−x
N n
maximal? F¨ur ϑ ∈ N gilt ϑ N −ϑ ϑ (x) ϑ(N − ϑ + 1 − n + x) n−x x = ϑ−1 , N−ϑ+1 = ϑ−1 (x) (ϑ − x)(N − ϑ + 1) x
n−x
und dieser Quotient ist genau dann mindestens 1, wenn ϑn ≤ (N + 1)x, also wenn ϑ ≤ N+1 n x. Die Funktion x : ϑ → ϑ (x) ist somit wachsend auf der Menge ur gr¨oßere Werte von ϑ. (Hier schreiben wir &s' f¨ur {0, . . . , & N+1 n x'} und fallend f¨ den ganzzahligen Anteil einer reellen Zahl s.) Im Fall x < n ist also T (x) = N n+1 x eine Maximalstelle von x (und zwar die einzige, solange nicht N n+1 x ∈ N); im Fall x = n erh¨alt man die Maximalstelle T (x) = N. Das so bestimmte T ist also der ¨ Sch¨atzer, der sich aus der obigen Uberlegung ergibt, und er stimmt im Wesentlichen mit dem naiven Sch¨atzer aus Beispiel (7.1) u¨ berein. F¨ur n = 1 (nur eine Stichprobe) ist T (x) = 0 oder N je nachdem, ob x = 0 oder 1. Dieser alles oder nichts“-Sch¨atzer ist nat¨urlich f¨ur die Praxis v¨ollig unbrauchbar. ” Das liegt daran, dass man zu wenig Information zur Verf¨ugung hat. Eine Sch¨atzung, die auf zu wenig Beobachtungen beruht, kann nat¨urlich nicht gut sein – man k¨onnte dann genauso gut ganz auf Beobachtungen verzichten und auf gut Gl¨uck raten. Wir wollen nun die oben verwendete Sch¨atzregel allgemein definieren. Man erinnere sich an den auf Seite 191 eingef¨uhrten Begriff des Standardmodells. Definition: Ist (X, F , Pϑ : ϑ ∈ ) ein statistisches Standardmodell, so heißt die Funktion : X × → [0, ∞[ mit (x, ϑ) = ϑ (x) die zugeh¨orige Likelihood(oder Plausibilit¨ats-) Funktion, und die Abbildung x = (x, ·) : → [0, ∞[, ϑ → (x, ϑ) heißt die Likelihood-Funktion zum Beobachtungswert x ∈ X. Die im Beispiel verwendete Sch¨atzregel bekommt daher den folgenden Namen. Definition: Ein Sch¨atzer T : X → f¨ur ϑ heißt ein Maximum-Likelihood-Sch¨atzer, wenn (x, T (x)) = max (x, ϑ) ϑ∈
f¨ur jedes x ∈ X, d. h. wenn der Sch¨atzwert T (x) eine Maximalstelle der Funktion x auf ist. Man schreibt daf¨ur auch T (x) = argmax x . (In der englischsprachigen Literatur verbreitet ist die Abk¨urzung MLE f¨ur maximum likelihood estimator“.) ”
197
7.3 Das Maximum-Likelihood-Prinzip
Wir untersuchen diesen Begriff in einigen weiteren Beispielen. (7.5) Beispiel: Sch¨atzung eines Fischbestandes. Ein Teich ( Urne“) enth¨alt ei” ne unbekannte Anzahl ϑ von Karpfen ( Kugeln“). Zur Sch¨atzung von ϑ werden ” zun¨achst w Fische gefangen, markiert ( weiß angemalt“) und wieder freigelassen ” ( zur¨uckgelegt“). Wenn sich die markierten Fische wieder gut verteilt haben, werden ” n Fische gefangen, von denen x markiert sind. Das statistische Modell ist offenbar X = {0, . . . , n}, = {w, w + 1, . . . }, Pϑ = Hn;w,ϑ−w , und die Likelihood-Funktion ist wϑ−w x (ϑ) =
x
n−x
ϑ
.
n
Welches T (x) maximiert x ? Analog wie im letzten Beispiel ergibt sich: F¨ur x = 0 ist x wachsend auf {w, . . . , &nw/x'} und fallend f¨ur gr¨oßere Werte von ϑ. Also ist ¨ T (x) = &nw/x' ein Maximum-Likelihood-Sch¨atzer f¨ur ϑ, in Ubereinstimmung mit der Intuition w/ϑ ≈ x/n. F¨ur x = 0 ist x wachsend auf ganz ; man wird also T (0) = ∞ setzen. Dann ist zwar T (0) ∈ / , aber dieser formale Mangel l¨asst sich leicht beheben, indem man ∞ zu mit hinzunimmt und P∞ := δ0 setzt. Schwerer wiegt der Einwand, dass der Sch¨atzwert T (x) bei kleinem x sehr stark davon abh¨angt, ob man einen markierten Fisch mehr oder weniger f¨angt. Der Sch¨atzer T ist in dem Fall wenig glaubw¨urdig, und man sollte das Experiment besser mit sehr viel mehr markierten Fischen wiederholen. (7.6) Beispiel: Sch¨atzung der Erfolgswahrscheinlichkeit. Ein Reißnagel kann auf die Spitze oder den R¨ucken fallen, und zwar falle er auf die Spitze mit Wahrscheinlichkeit ϑ. Gesucht ist ein Sch¨atzer f¨ur das unbekannte ϑ bei Beobachtung von n W¨urfen. Dies ist nat¨urlich eine triviale Modellsituation; das gleiche Problem tritt immer dann auf, wenn in unabh¨angigen Beobachtungen eine unbekannte Wahrscheinlichkeit ϑ f¨ur des Eintreten eines Erfolgs“ bestimmt werden soll, wie etwa die Heilwirkung ” eines Medikaments, oder die Favorisierung eines Wahlkandidaten. Als statistisches Modell w¨ahlen wir das Binomialmodell ({0, . . . , n}, P({0, . . . , n}), Bn,ϑ : ϑ ∈ [0, 1]) mit der Likelihood-Funktion x (ϑ) = xn ϑ x (1 − ϑ)n−x . Zur Bestimmung eines Maximum-Likelihood Sch¨atzers betrachteten wir die Log-Likelihood-Funktion log x , mit der sich besser rechnen l¨asst. Offenbar gilt f¨ur 0 < ϑ < 1 d d x n−x log x (ϑ) = x log ϑ + (n − x) log(1 − ϑ) = − , dϑ dϑ ϑ 1−ϑ und der letzte Ausdruck ist fallend in ϑ und verschwindet genau f¨ur ϑ = x/n. Also ist T (x) = x/n der (einzige) Maximum-Likelihood-Sch¨atzer f¨ur ϑ. Auch hier ist also der Maximum-Likelihood-Sch¨atzer der intuitiv offensichtliche Sch¨atzer.
198
7 Parametersch¨atzung
(7.7) Beispiel: Sch¨atzung der Zusammensetzung einer Urne. Eine Urne enthalte eine gewisse Anzahl gleichartiger Kugeln in verschiedenen Farben, und zwar sei E die endliche Menge der verschiedenen Farben. (Das vorige Beispiel (7.6) entspricht gerade dem Fall |E| = 2.) Es werde n Mal mit Zur¨ucklegen gezogen. Es soll (simultan f¨ur alle Farben a ∈ E) der Anteil der Kugeln der Farbe a gesch¨atzt werden. Gem¨aß Abschnitt 2.2.1 w¨ahlen' wir den Stichprobenraum X = E n , die PaE ahldichten auf E, rametermenge = {ϑ ∈ [0, 1] : a∈E ϑ(a) = 1} aller Z¨ sowie die ( Produktmaße Pϑ = ϑ ⊗n , ϑ ∈ . Die Likelihood-Funktion ist somit ρx (ϑ) = a∈E ϑ(a)nL(a,x) ; dabei sei L(a, x) = |{1 ≤ i ≤ n : xi = a}|/n die relative H¨ aufigkeit, mit der die Farbe a in der Stichprobe x auftaucht. Die Z¨ahldichte L(x) = L(a, x) a∈E ∈ heißt das Histogramm oder die empirische Verteilung von x. In Analogie zu Beispiel (7.6) liegt es nahe zu vermuten, dass die Abbildung L : X → sich als Maximum-Likelihood-Sch¨atzer erweist. Statt das Maximum der Likelihood-Funktion wieder durch Differentiation zu bestimmen (wozu man im hier interessierenden Fall |E| > 2 die Lagrange-Multiplikatorenmethode verwenden m¨usste), ist es einfacher, diese Vermutung direkt zu verifizieren: F¨ur beliebige x und ϑ gilt - ϑ(a) n L(a,x) , ρx (ϑ) = ρx L(x) L(a, x) a ( wobei sich a u¨ ber alle a ∈ E mit L(a, x) > 0 erstreckt; wegen s 0 = 1 f¨ur s ≥ 0 k¨onnen wir n¨amlich die anderen Faktoren ignorieren. Infolge der Ungleichung s ≤ es−1 l¨asst sich das gestrichene Produkt aber nun absch¨atzen durch - exp n L(a, x) ϑ(a)/L(a, x) − 1 ≤ exp n (1 − 1) = 1 . a
Dies liefert die vermutete Ungleichung ρx (ϑ) ≤ ρx L(x) , und wegen s < es−1 f¨ur s = 1 gilt im Fall ϑ = L(x) sogar die strikte Ungleichung. Also ist L der einzige Maximum-Likelihood-Sch¨atzer. (7.8) Beispiel: Bereich von Zufallszahlen, vgl. (7.3). Betrachten wir wieder das Beispiel vom Zufallszahlautomaten in der Fernsehshow. Als statistisches Modell haben wir das Produktmodell [0, ∞[n , B[0,∞[ ⊗n , U[0,ϑ] ⊗n : ϑ > 0 gew¨ahlt. Die Likelihoodfunktion ist somit −n falls x1 , . . . , xn ≤ ϑ , ϑ x (ϑ) = 0 sonst; x = (x1 , . . . , xn ) ∈ [0, ∞[n , ϑ > 0. Der Sch¨atzer T2n (x) = max(x1 , . . . , xn ) aus Beispiel (7.3) ist also gerade der Maximum-Likelihood-Sch¨atzer.
199
7.3 Das Maximum-Likelihood-Prinzip
(7.9) Beispiel: Physikalische Messungen. Wir messen z. B. die Stromst¨arke in einem Draht unter gewissen a¨ ußeren Bedingungen. Der Zeigerausschlag des Amperemeters ist nicht nur durch die Stromst¨arke bestimmt, sondern auch durch kleine Ungenauigkeiten des Messinstruments und der Versuchsbedingungen gest¨ort. Analog zu Beispiel (7.2) nehmen wir daher an, dass der Zeigerausschlag eine normalverteilte Zufallsvariable ist mit unbekanntem Erwartungswert m (der uns interessiert) und einer Varianz v > 0, von der wir diesmal annehmen wollen, dass sie ebenfalls unbekannt ist. Wir machen n unabh¨angige Experimente. Folglich w¨ahlen wir als statistisches Modell das Produktmodell (X, F , Pϑ : ϑ ∈ ) = Rn , B n , Nm,v ⊗n : m ∈ R, v > 0 . Wir nennen dies das n-fache normalverteilte (oder Gauß’sche) Produktmodell. Die zugeh¨orige Likelihood-Funktion hat gem¨aß Beispiel (3.30) die Form x (ϑ) =
n i=1
n 3 , (xi − m)2 4 ; φm,v (xi ) = (2π v)−n/2 exp − 2v i=1
Rn
und ϑ = (m, v) ∈ . Um diesen Ausdruck zu dabei ist x = (x1 , . . . , xn ) ∈ maximieren, m¨ussen wir zun¨achst ' m so w¨ahlen, dass die quadratische Abweichung ni=1 (xi −m)2 minimal wird. ' Dies ist der Fall f¨ur m = M(x) = n1 ni=1 xi , den Stichprobenmittelwert. Dies ergibt sich unmittelbar aus der (leicht nachzurechnenden) Verschiebungsformel (7.10)
2 2 1, 1 , xi − M(x) + M(x) − m . (xi − m)2 = n n n
n
i=1
i=1
(Als Nebenergebnis sollte man sich merken: Der Mittelwert minimiert die quadratische Abweichung!) Weiter m¨ussen wir
1 'n 2 v so w¨ahlen, dass (2π v)−n/2 exp[− 2v i=1 (xi − M(x)) ] maximal wird. Differenzieren wir den Logarithmus dieses Ausdrucks nach v, so erhalten wir
−
n n 2 2 d n 1 , 1 , n log v + xi − M(x) xi − M(x) . =− + 2 dv 2 2v 2v 2v i=1
i=1
Der letzte Term verschwindet genau dann, wenn 2 1 , xi − M(x) , n n
v = V (x) :=
i=1
und man u¨ berzeugt sich leicht, dass v = V (x) tats¨achlich eine Maximalstelle ist.
200
7 Parametersch¨atzung
Wir formulieren das Ergebnis wie folgt. (Wie generell in Produktmodellen bezeichne Xi die i-te Projektion.) (7.11) Satz: Maximum-Likelihood-Sch¨atzer im Gaußmodell. Der MaximumLikelihood-Sch¨ ' atzer im n-fachen Gauß’schen Produktmodell ist T = (M, V ). Dabei ist M = n1 ni=1 Xi das Stichprobenmittel und 1, (Xi − M)2 n n
V =
i=1
die Stichprobenvarianz. Zum Schluss diesesAbschnitts erw¨ahnen wir noch eine nat¨urlicheVerallgemeinerung des Maximum-Likelihood-Prinzips: Wenn nicht der Parameter ϑ selbst, sondern nur eine Kenngr¨oße τ (ϑ) gesch¨atzt werden soll, und T ein Maximum-LikelihoodSch¨atzer f¨ur ϑ ist, so heißt τ (T ) ein Maximum-Likelihood-Sch¨atzer f¨ur τ (ϑ). (7.12) Beispiel: Ausfallwahrscheinlichkeit von Ger¨aten. Wir betrachten die Lebensdauer eines technischen Produkts. Es werde angenommen, dass die Lebensdauer exponentialverteilt ist mit unbekanntem Parameter ϑ > 0. Es werden n Ger¨ate aus verschiedenen Produktionsserien untersucht. Das statistische Modell ist somit das nfache Produkt des Exponentialverteilungsmodells ([0, ∞[, B[0,∞[ , Eϑ : ϑ > 0). Es 'n n hat die Dichtefunktion ϑ = ϑ exp[−ϑ i=1 Xi ]. Durch Aufl¨osen der Gleichung d nach ϑ erhalten wir den Maximum-Likelihood-Sch¨atzer T = 1/M, dϑ log ϑ = 0 ' 1 wobei M = n ni=1 Xi wieder das Stichprobenmittel bezeichnet. Mehr als der Parameter ϑ interessiert uns aber vielleicht die Wahrscheinlichkeit, mit der ein Ger¨at vor Ablauf der Garantiefrist t defekt wird. Ist ϑ der wahre Parameter, so betr¨agt diese Ausfallwahrscheinlichkeit f¨ur jedes einzelne Ger¨at τ (ϑ) := 1 − e−ϑ t . Der Maximum-Likelihood Sch¨atzer f¨ur die Ausfallwahrscheinlichkeit innerhalb der Garantiefrist ist daher τ (T ) = 1 − e−t/M .
7.4
Erwartungstreue und quadratischer Fehler
Wir wollen jetzt die Qualit¨at von Sch¨atzern n¨aher untersuchen. Ein elementares G¨utekriterium ist das folgende. Definition: Sei (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell und τ : → R eine reelle Kenngr¨oße. Ein Sch¨atzer T : X → R f¨ur τ heißt erwartungstreu oder unverzerrt (Englisch: unbiased), wenn Eϑ (T ) = τ (ϑ)
f¨ur alle ϑ ∈ .
Andernfalls heißt Bϑ (T ) = Eϑ (T ) − τ (ϑ) der Bias, die Verzerrung oder der systematische Fehler von T . (Die Existenz der Erwartungswerte wird hier stillschweigend ebenfalls vorausgesetzt.)
201
7.4 Erwartungstreue und quadratischer Fehler
Erwartungstreue ist offenbar ein vern¨unftiges Kriterium, aber es ist nicht automatisch vereinbar mit dem Maximum-Likelihood Prinzip. Wie wir in Beispiel (7.3) und (7.8) u¨ ber das Erraten des Bereichs von Zufallszahlen gesehen haben, ist der Sch¨atzer von Spieler B, der Maximum-Likelihood-Sch¨atzer T2n , nicht erwartungs¨ treu, aber immerhin asymptotisch erwartungstreu. Ahnlich verh¨alt es sich auch mit der Stichprobenvarianz V aus Satz (7.11), wie der folgende Satz zeigt. (7.13) Satz: Sch¨atzung von Erwartungswert und Varianz bei reellen Produktmodellen. Sei n ≥ 2 und (Rn , B n , Qϑ ⊗n : ϑ ∈ ) ein reelles n-faches Produktmodell. Dabei sei f¨ur jedes ϑ ∈ sowohl der Erwartungswert m(ϑ) = E(Qϑ ) als auch die Varianz ' v(ϑ) = V(Qϑ ) von Qϑ definiert. Dann sind der Stichprobenmittelwert M = n1 ni=1 Xi und die korrigierte Stichprobenvarianz V∗ =
1 , (Xi − M)2 n−1 n
i=1
erwartungstreue Sch¨atzer f¨ur m bzw. v. Beweis: Sei ϑ gilt dann ' ∈ fest. Wegen der Linearit¨at des Erwartungswerts ∗ bekommen wir wegen Eϑ (M) = n1 ni=1 Eϑ (Xi ) = m(ϑ), und f¨ur V = n−1 V n Eϑ (Xi − M) = 0 aus Symmetriegr¨unden 1, Vϑ (Xi − M) = Vϑ (X1 − M) n i=1 n 1 ' X − X = Vϑ n−1 1 j n n n
Eϑ (V ) =
=
j =2
2 ( n−1 n )
+ (n − 1) n12 v(ϑ) =
n−1 n
v(ϑ) .
Im vierten Schritt haben wir die Gleichung (4.23c) von Bienaymé angewandt, denn die Projektionen Xi sind bez¨uglich des Produktmaßes Qϑ ⊗n unabh¨angig und folglich n folgt Eϑ (V ∗ ) = v(ϑ). 3 unkorreliert. Durch Multiplikation mit n−1 Wie der obige Beweis zeigt, ist der Maximum-Likelihood Sch¨atzer V nicht erwartungstreu, wenngleich der Bias f¨ur großes n nur unerheblich ist. Aus diesem Grund √ ist bei den statistischen Funktionen von Taschenrechnern oft nur V ∗ bzw. σ ∗ := V ∗ und nicht V einprogrammiert. Erwartungstreue – also die Vermeidung eines systematischen Sch¨atzfehlers – ist zwar eine w¨unschenswerte Eigenschaft, wird aber erst dann relevant, wenn die Wahrscheinlichkeit f¨ur gr¨oßere Abweichungen zwischen Sch¨atzwert und wahrem Wert ziemlich klein ist. Ein brauchbares Maß f¨ur die G¨ute eines Sch¨atzers T f¨ur τ ist der mittlere quadratische Fehler Fϑ (T ) := Eϑ (T − τ (ϑ))2 = Vϑ (T ) + Bϑ (T )2 ;
202
7 Parametersch¨atzung
die zweite Gleichung ist analog zur Verschiebungsformel (7.10). Um Fϑ (T ) m¨oglichst klein zu halten, m¨ussen also Varianz und Bias gleichzeitig minimiert werden. Wie das folgende Beispiel zeigt, kann es dabei zweckm¨aßig sein, einen Bias zuzulassen, um den Gesamtfehler zu minimieren. (7.14) Beispiel: Ein guter Sch¨atzer mit Bias. Wir betrachten wieder das Binomialmodell. Es sei also X = {0, . . . , n}, = [0, 1], Pϑ = Bn,ϑ . Der MaximumLikelihood-Sch¨atzer f¨ur ϑ ist T (x) = x/n, und er ist auch erwartungstreu. Er hat sogar unter allen erwartungstreuen Sch¨atzern die kleinste Varianz, wie wir bald sehen werden. Sein quadratischer Fehler ist Fϑ (T ) = n−2 V(Bn,ϑ ) = ϑ(1 − ϑ)/n. Es gibt aber einen Sch¨atzer S f¨ur ϑ, dessen quadratischer Fehler f¨ur gewisse ϑ geringer ist, n¨amlich x+1 . S(x) = n+2 Es gilt S(x) ≥ T (x) genau dann, wenn T (x) ≤ 1/2 , d. h. S(x) bevorzugt etwas zentralere Werte. Der Bias von S ist Bϑ (S) =
1 − 2ϑ nϑ + 1 −ϑ = , n+2 n+2
und der quadratische Fehler von S betr¨agt Fϑ (S) = Vϑ (S) + Bϑ (S)2 =
nϑ(1 − ϑ) + (1 − 2ϑ)2 . (n + 2)2
Wie Abbildung 7.1 zeigt, ist f¨ur ϑ nahe bei 1/2 der quadratische Fehler Fϑ (S) von 0.025 0.02 0.015 0.01 0.005 0.2
0.4
0.6
0.8
1
Abbildung 7.1: Fϑ (S) und Fϑ (T ) (gestrichelt) f¨ur n = 10.
S kleiner als der quadratische Fehler Fϑ (T ) = ϑ(1 − ϑ)/n von T . Genauer gilt: Es ist Fϑ (S) ≤ Fϑ (T ) genau dann, wenn |ϑ − 21 |2 1 ≤1+ , ϑ(1 − ϑ) n
203
7.5 Beste Sch¨atzer
√ und das ist bei beliebigem n der Fall, wenn |ϑ − 1/2| ≤ 1/ 8 ≈ 0.35. Wenn also aufgrund der Umst¨ande nur zentrale Werte von ϑ als m¨oglich erscheinen, sollte man besser mit S statt T arbeiten. Das Beispiel zeigt, dass man Erwartungstreue nicht zum Fetisch erheben sollte. Trotzdem wollen wir uns im folgenden bei der Minimierung des quadratischen Fehlers auf erwartungstreue Sch¨atzer beschr¨anken. Unser Ziel ist dann die Minimierung der Varianz.
7.5
Beste Sch¨atzer
Wir fragen nun nach Sch¨atzern, welche zwei G¨utekriterien zugleich erf¨ullen: Sie sollen erwartungstreu sein, d. h. die Sch¨atzwerte sollen um den korrekten Wert herum streuen, und sie sollen optimal sein in dem Sinne, dass sie weniger streuen als alle anderen erwartungstreuen Sch¨atzer. Definition: Sei (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell. Ein erwartungstreuer Sch¨atzer T f¨ur eine reelle Kenngr¨oße τ (ϑ) heißt varianzminimierend bzw. (gleichm¨aßig) bester Sch¨atzer, wenn f¨ur jeden weiteren erwartungstreuen Sch¨atzer S gilt: Vϑ (T ) ≤ Vϑ (S) f¨ur alle ϑ ∈ . Hier und im Folgenden wird stillschweigend vorausgesetzt, dass die Varianzen aller auftretenden Sch¨atzer existieren. Um beste Sch¨atzer zu finden, beschr¨anken wir uns auf den Fall von einparametrigen Standardmodellen mit besonders sch¨onen Eigenschaften; den mehrparametrigen Fall findet man z. B. in [48]. F¨ur diese Modelle werden wir eine untere Schranke f¨ur die Varianzen von Sch¨atzern angeben und dann untersuchen, f¨ur welche Sch¨atzer diese untere Schranke angenommen wird. Am Schluss werden wir ein bequemes Kriterium f¨ur die Existenz bester Sch¨atzer erhalten. Definition: Ein einparametriges Standardmodell (X, F , Pϑ : ϑ ∈ ) heißt regul¨ar, wenn die folgenden Eigenschaften erf¨ullt sind: ist ein offenes Intervall in R. Die Likelihood-Funktion ist auf X × strikt positiv und nach ϑ stetig differenzierbar. Insbesondere existiert somit die Scorefunktion“ ” Uϑ (x) :=
(ϑ) d log (x, ϑ) = x . dϑ x (ϑ)
204
7 Parametersch¨atzung
F¨ur jedes ϑ ∈ existiert die Varianz I (ϑ) := Vϑ (Uϑ ) und ist nicht 0, und es gilt die Vertauschungsrelation . . d d (x, ϑ) dx = (x, ϑ) dx . (7.15) dϑ dϑ (F¨ur diskretes X ist das Integral wie u¨ blich durch eine Summe zu ersetzen.) Die Funktion I : ϑ → I (ϑ) heißt dann die Fisher-Information des Modells (nach dem britischen Statistiker Sir Ronald A. Fisher, 1880 – 1962). Diese Definition erfordert ein paar Kommentare. Zun¨achst zur Vertauschungsrelation (7.15). Im stetigen Fall gilt sie nach dem Satz u¨ ber Vertauschbarkeit von Differentiation und Integration (vgl. etwa [20]) sicher dann, wenn jedes ϑ0 ∈ eine Umgebung N (ϑ0 ) besitzt mit . d sup (x, ϑ) dx < ∞ . X ϑ∈N(ϑ0 ) dϑ Im Fall eines abz¨ahlbar unendlichen X erh¨alt man eine a¨ hnliche Bedingung, und f¨ur endliches X ist (7.15) trivialerweise erf¨ullt. Als Konsequenz von (7.15) ergibt sich die Beziehung . . d d d (x, ϑ) dx = (x, ϑ) dx = 1 = 0, (7.16) Eϑ (Uϑ ) = dϑ dϑ dϑ d. h. die Scorefunktion zu ϑ ist bez¨uglich Pϑ zentriert. Insbesondere gilt also I (ϑ) = Eϑ (Uϑ2 ). Nun zur Fisher-Information. Warum der Begriff Information? Dazu zwei Feststellungen. Erstens: Genau dann ist I ≡ 0 auf einem Intervall 0 ⊂ , wenn Uϑ (x) = 0 f¨ur alle ϑ ∈ 0 und (fast) alle x ∈ X, also wenn x f¨ur (fast) alle x ∈ X auf 0 konstant ist und somit keine Beobachtung die Parameter in 0 unterscheiden kann. (Diesen Fall haben wir daher in der Definition ausgeschlossen.) Zweitens zeigt die folgende Bemerkung, dass sich die Fisher-Information bei unabh¨angigen Beobachtungen additiv verh¨alt. (7.17) Bemerkung: Additivit¨at der Fisher-Information. Ist M = (X, F , Pϑ : ϑ ∈ ) ein regul¨ares Modell mit Fisher-Information I , so hat das Produktmodell M ⊗n = (Xn , F ⊗n , Pϑ⊗n : ϑ ∈ ) die Fisher-Information I ⊗n = nI . ( Beweis: M ⊗n hat die Likelihood-Funktion ϑ⊗n = nk=1 ϑ ◦ Xk und also die Scorefunktion n , Uϑ⊗n = Uϑ ◦ X k , k=1
205
7.5 Beste Sch¨atzer
wobei Xk wieder die k-te Projektion von Xn nach X bezeichnet. Da die Projektionen bei Pϑ⊗n unabh¨angig sind, folgt nach der Gleichung von Bienaymé (Satz (4.23c)) I ⊗n (ϑ) = Vϑ (Uϑ⊗n ) =
n ,
Vϑ (Uϑ ◦ Xk ) = n I (ϑ) .
k=1
Dies ist gerade die Behauptung. 3 Die folgende Informationsungleichung zeigt die Bedeutung der Fisher-Information. Wir nennen einen erwartungstreuen Sch¨atzer T f¨ur ϑ regul¨ar, wenn f¨ur jedes ϑ die Vertauschungsrelation . . d d (x, ϑ) dx = T (x) (x, ϑ) dx (7.18) T (x) dϑ dϑ erf¨ullt ist. (7.19) Satz: Informationsungleichung; Fréchet, Cramér-Rao 1943. Gegeben seien ein regul¨ares statistisches Modell (X, F , Pϑ : ϑ ∈ ), eine zu sch¨atzende stetig differenzierbare Funktion τ : → R mit τ = 0 und ein regul¨arer erwartungstreuer Sch¨atzer T f¨ur τ . Dann gilt (7.20)
Vϑ (T ) ≥ τ (ϑ)2 /I (ϑ) f¨ur alle ϑ ∈ .
Gleichheit f¨ur alle ϑ gilt genau dann, wenn T − τ (ϑ) = τ (ϑ) Uϑ /I (ϑ) f¨ur alle ϑ ∈ , d. h. wenn das Modell die Likelihoodfunktion (7.21) (x, ϑ) = exp a(ϑ) T (x) − b(ϑ) h(x) besitzt; dabei ist a : → R eine Stammfunktion von I /τ , h : X → ]0, ∞[ ) a(ϑ) T (x) h(x) dx eine Normieirgendeine messbare Funktion, und b(ϑ) = log X e rungsfunktion. Beweis: Aus der Zentriertheit (7.16) von Uϑ und der Regularit¨at und Erwartungstreue von T erhalten wir zun¨achst, dass . d Covϑ (T , Uϑ ) = Eϑ (T Uϑ ) = T (x) (x, ϑ) dx dϑ X . d d Eϑ (T ) = τ (ϑ) (7.22) T (x) (x, ϑ) dx = = dϑ X dϑ f¨ur alle ϑ ∈ . Hieraus ergibt sich mit c(ϑ) = τ (ϑ)/I (ϑ) 0 ≤ Vϑ (T − c(ϑ) Uϑ ) = Vϑ (T ) + c(ϑ)2 Vϑ (Uϑ ) − 2c(ϑ) Covϑ (T , Uϑ ) = Vϑ (T ) − τ (ϑ)2 /I (ϑ) ,
206
7 Parametersch¨atzung
also gerade die behauptete Ungleichung. Gleichheit gilt genau dann, wenn die Zufallsgr¨oße T − c(ϑ) Uϑ Pϑ -fast sicher konstant ist, und diese Konstante muss nat¨urlich gerade ihr Erwartungswert τ (ϑ) sein. Da Pϑ eine positive Dichte bez¨uglich des Lebesgue- bzw. Z¨ahlmaßes µ auf X hat, ist letzteres gleichbedeutend mit der Aussage µ(T − τ (ϑ) = c(ϑ) Uϑ = 0. Wenn dies nun f¨ur alle ϑ gilt, so folgt sogar µ (T − τ (ϑ))/c(ϑ) = Uϑ f¨ur ein ϑ ∈ = 0 , denn aus Stetigkeitsgr¨unden kann man sich auf rationale ϑ beschr¨anken, und die abz¨ahlbare Vereinigung von Ereignissen vom Maß 0 hat ebenfalls Maß 0. (7.21) folgt dann f¨ur µ-fast alle x durch unbestimmte Integration bez¨uglich ϑ, und die umgekehrte Richtung ist evident. 3 Aus Satz (7.19) lassen sich zwei Schl¨usse ziehen: Bei n-facher unabh¨angiger Wiederholung eines regul¨aren Experiments ist die Varianz eines erwartungstreuen Sch¨atzers f¨ur τ mindestens von der Gr¨oßenordnung 1/n. Dies folgt aus der Informationsungleichung (7.20) zusammen mit Bemerkung (7.17). (In Beispiel (7.3) haben wir Sch¨atzer T2n gefunden, deren Varianz quadratisch mit n f¨allt. Dies ist jedoch kein Widerspruch, denn das dort zugrunde liegende Modell war nicht regul¨ar.) Wenn sich ein regul¨arer erwartungstreuer Sch¨atzer T f¨ur τ finden l¨asst, f¨ur den die Gleichheit in (7.20) gilt (solch ein T heißt Cramér-Rao-effizient), so ist T offenbar ein bester Sch¨atzer (wenn auch zun¨achst nur in der Klasse aller regul¨aren Sch¨atzer f¨ur τ ). Solch ein Cramér-Rao-effizienter Sch¨atzer existiert allerdings nur dann, wenn (7.21) gilt. Diese letzte Bedingung definiert daher eine besonders interessante Klasse von statistischen Modellen, die wir nun n¨aher untersuchen wollen. Definition: Sei M = (X, F , Pϑ : ϑ ∈ ) ein einparametriges Standardmodell, dessen Parametermenge ein offenes Intervall ist. M heißt ein exponentielles Modell und {Pϑ : ϑ ∈ } eine exponentielle Familie bez¨uglich einer Statistik T : X → R, wenn die Likelihood-Funktion die Gestalt (7.21) hat mit einer stetig differenzierbaren Funktion a : → R mit a = 0 und einer messbaren Funktion h : X → ]0, ∞[. (Die Normierungsfunktion b ist durch a und h eindeutig festgelegt.) Beispiele f¨ur exponentielle Familien folgen ab (7.25). Zun¨achst untersuchen wir deren Eigenschaften. (7.23) Bemerkung: Eigenschaften exponentieller Familien. F¨ur jedes exponentielle Modell M gilt: (a) Die Normierungsfunktion b ist auf stetig differenzierbar mit Ableitung b (ϑ) = a (ϑ) Eϑ (T ) f¨ur ϑ ∈ .
207
7.5 Beste Sch¨atzer
(b) Jede Statistik S : X → R mit existierenden Varianzen Vϑ (S) ist regul¨ar. Insbesondere sind M und T regul¨ar, und τ (ϑ) := Eϑ (T ) ist stetig differenzierbar mit Ableitung τ (ϑ) = a (ϑ) Vϑ (T ) = 0, ϑ ∈ . (c) F¨ur die Fisher-Information gilt I (ϑ) = a (ϑ) τ (ϑ) f¨ur alle ϑ ∈ . Beweis: Wir k¨onnen ohne Einschr¨ankung annehmen, dass a(ϑ) := ϑ f¨ur alle ϑ ∈ ; der allgemeine Fall ergibt sich durch Reparametrisierung und Anwendung der Kettenregel zur Berechnung der Ableitungen. ) Betrachte die Funktion u(ϑ) = eb(ϑ) = X eϑ T (x) h(x) dx auf . u ist beliebig oft differenzierbar, denn ist ϑ ∈ und t so klein, dass auch ϑ ± t ∈ , so gilt nach Satz (4.11c) .
, |t|k . k≥0
k! ≤
.
X
X
|T (x)|k eϑ T (x) h(x) dx =
X
eϑ T (x)+|t T (x)| h(x) dx
e(ϑ+t) T (x) + e(ϑ−t)T (x) h(x) dx = u(ϑ + t) + u(ϑ − t) < ∞ .
Also ist die Reihe
, tk . k≥0
k!
X
T (x)k eϑ T (x) h(x) dx
absolut konvergent, und Summation und Integration k¨onnen vertauscht werden. Die Reihe hat daher den Wert u(ϑ + t). Insbesondere ergibt sich u (ϑ) = u(ϑ) Eϑ (T ) und u (ϑ) = u(ϑ) Eϑ (T 2 ), und f¨ur b = log u folgt b (ϑ) = Eϑ (T ) und b (ϑ) = u (ϑ)/u(ϑ) − (u (ϑ)/u(ϑ))2 = Vϑ (T ) . Somit gilt (a), und es ist T ∈ L 2 (Pϑ ) f¨ur alle ϑ. Sei nun S wie in (b) angegeben. Dann existiert . S(x) T (x) − b (ϑ) eϑ T (x)−b(ϑ) h(x) dx ; s(ϑ) := Eϑ (SUϑ ) = X
die zweite Gleichung gilt wegen Uϑ = T − b (ϑ) und (7.21). Aus dem Satz von der dominierten Konvergenz (Aufgabe 4.7) folgt, dass s(ϑ) stetig in ϑ ist. Folglich gilt mit beliebigem ϑ0 ∈ d s(ϑ) = dϑ
.
ϑ
ϑ0
d dt s(t) = dϑ
. X
.
ϑ
dx S(x) ϑ0
dt x (t) =
d Eϑ (S) . dϑ
F¨ur die zweite Gleichung haben wir den Satz von Fubini (vgl. [20]) u¨ ber die Vertauschbarkeit der Integrationsreihenfolge verwendet; das ist erlaubt, weil S(x) x (t)
208
7 Parametersch¨atzung
als Funktion von (x, t) integrierbar ist. Man kann daher die Gleichung (7.22) in anderer Reihenfolge hinschreiben und erh¨alt die Regularit¨at von S und insbesondere von T . Speziell f¨ur S ≡ 1 ergibt sich die Regularit¨at von M . Wegen Uϑ = T − b (ϑ) folgt schließlich auch I (ϑ) = Vϑ (Uϑ ) = Vϑ (T ), also (c). 3 Zusammen mit Satz (7.19) liefert uns die obige Bemerkung das folgende handliche Ergebnis u¨ ber die Existenz varianzminimierender Sch¨atzer. (7.24) Korollar: Existenz von besten Sch¨atzern. F¨ur jedes exponentielle Modell ist die zugrunde liegende Statistik T ein bester Sch¨atzer f¨ur τ (ϑ) = Eϑ (T ) = b (ϑ)/a (ϑ). In dem Fall gilt I (ϑ) = a (ϑ) τ (ϑ) und Vϑ (T ) = τ (ϑ)/a (ϑ) f¨ur alle ϑ ∈ . Beweis: Gem¨aß Bemerkung (7.23b) ist sowohl das exponentielle Modell als auch jeder erwartungstreue Sch¨atzer S f¨ur τ regul¨ar. Satz (7.19) liefert daher die gew¨unschte Ungleichung Vϑ (S) ≥ Vϑ (T ). Die Formeln f¨ur I (ϑ) und Vϑ (T ) folgen ebenfalls aus Bemerkung (7.23). 3 Wir stellen jetzt ein paar Standardbeispiele exponentieller Familien vor. (7.25) Beispiel: Binomialverteilungen. F¨ur festes n ∈ N bilden die Binomialverteilungen {Bn,ϑ : 0 < ϑ < 1} eine exponentielle Familie auf X = {0, . . . , n}, denn die zugeh¨orige Likelihood-Funktion (x, ϑ) = xn ϑ x (1 − ϑ)n−x hat die Gestalt ϑ , (7.21) mit dem erwartungstreuen Sch¨atzer T (x) = x/n f¨ur ϑ, a(ϑ) = n log 1−ϑ n b(ϑ) = −n log(1−ϑ), und h(x) = x . Insbesondere ist T ein bester Sch¨atzer f¨ur ϑ. Es gilt
1 n 1 + = a (ϑ) = n ϑ 1−ϑ ϑ(1 − ϑ) und daher die aus (4.27) und (4.34) bekannte Beziehung Vϑ (T ) = 1/a (ϑ) = ϑ(1 − ϑ)/n. (7.26) Beispiel: Poisson-Verteilungen. Auch die Poisson-Verteilungen {Pϑ : ϑ > 0} bilden eine exponentielle Familie, denn die zugeh¨orige Likelihood-Funktion lautet (x, ϑ) = e−ϑ
1 ϑx = exp (log ϑ)x − ϑ . x! x!
Somit gilt (7.21) mit T (x) = x und a(ϑ) = log ϑ. T ist ein erwartungstreuer Sch¨atzer f¨ur ϑ und somit nach Korollar (7.24) sogar ein bester Sch¨atzer f¨ur ϑ. Insbesondere erhalten wir nochmals die bekannte Gleichung V(Pϑ ) = Vϑ (T ) = 1/ ϑ1 = ϑ, vgl. Beispiel (4.36). (7.27) Beispiel: Normalverteilungen. (a) Sch¨atzung des Erwartungswerts. Bei fester Varianz v > 0 hat die Familie {Nϑ,v : ϑ ∈ R} der zugeh¨origen Normalverteilungen auf X = R die Likelihood-Funktion (x, ϑ) = (2π v)−1/2 exp − (x − ϑ)2 /2v
209
7.6 Konsistenz von Sch¨atzern
und bildet somit eine exponentielle Familie mit T (x) = x, a(ϑ) = ϑ/v, b(ϑ) = ϑ 2 /2v + 21 log(2π v), und h(x) = exp[−x 2 /2v]. Also ist T (x) = x ein bester Sch¨atzer f¨ur ϑ, und es ist Vϑ (T ) = v, wie bereits aus (4.28) bekannt ist. Da die Optimalit¨atsungleichung Vϑ (T ) ≤ Vϑ (S) f¨ur beliebiges v erf¨ullt ist, ist T sogar ein bester Sch¨atzer f¨ur den Erwartungswert in der Klasse aller Normalverteilungen (mit beliebigem v). (b) Sch¨atzung der Varianz bei bekanntem Erwartungswert. Bei festem Erwartungswert m ∈ R hat die Familie {Nm,ϑ : ϑ > 0} der zugeh¨origen Normalverteilungen auf X = R die Likelihood-Funktion 3 4 1 1 (x, ϑ) = exp − T (x) − log(2π ϑ) 2ϑ 2 mit T (x) = (x −m)2 . T ist ein erwartungstreuer Sch¨atzer f¨ur die unbekannte Varianz ϑ und daher nach Korollar (7.24) sogar ein bester Sch¨atzer f¨ur ϑ. Durch Differentiation des Koeffizienten von T ergibt sich Vϑ (T ) = 2ϑ 2 und somit f¨ur das vierte Moment der zentrierten Normalverteilung . x 4 φ0,ϑ (x) dx = Vϑ (T ) + Eϑ (T )2 = 3ϑ 2 . Diese Formel kann man nat¨urlich auch direkt (durch partielle Integration) erhalten; vgl. Aufgabe 4.17. Die letzten Beispiele u¨ bertragen sich auf die entsprechenden Produktmodelle f¨ur unabh¨angig wiederholte Beobachtungen. Dies zeigt die folgende Bemerkung. (7.28) Bemerkung: Exponentielle Produktmodelle. Ist M = (X, F , Pϑ : ϑ ∈ ) ein exponentielles Modell bez¨uglich einer Statistik T : X → R, so ist auch das n-fache Produktmodell M ⊗n = (Xn , F ⊗n , Pϑ⊗n : ϑ ∈ ) exponentiell mit zu' grunde liegender Statistik Tn = n1 ni=1 T ◦ Xi . Insbesondere ist dann Tn ein bester Sch¨atzer f¨ur τ (ϑ) = Eϑ (T ). Beweis: Die Likelihood-Funktion von M habe die Gestalt (7.21). Dann hat die Likelihood-Funktion ⊗n von M ⊗n gem¨aß Beispiel (3.30) die Produktgestalt ⊗n ( · , ϑ) =
n -
n (Xi , ϑ) = exp na(ϑ) Tn − nb(ϑ) h(Xi ) .
i=1
i=1
Dies liefert die Behauptung unmittelbar. 3
7.6
Konsistenz von Sch¨atzern
Ein weiteres G¨utekriterium f¨ur Sch¨atzer ist die Konsistenz. Sie betrifft das LangzeitVerhalten bei unabh¨angig wiederholten Beobachtungen. Man konstruiert zu jeder
210
7 Parametersch¨atzung
Anzahl n von Beobachtungen einen Sch¨atzer Tn und w¨unscht sich, dass dieser f¨ur großes n mit großer Wahrscheinlichkeit nur wenig vom wahren Wert der zu sch¨atzenden Kenngr¨oße abweicht. Wie kann man diese Vorstellung pr¨azisieren? Sei (E, E , Qϑ : ϑ ∈ ) ein statistisches Modell und τ : → R eine zu sch¨atzende Kenngr¨oße. F¨ur jedes n ≥ 1 sei Tn : E n → R ein Sch¨atzer f¨ur τ , der auf n unabh¨angigen Beobachtungen des Ausgangsmodells beruht und daher im n-fachen Produktmodell (E n , E ⊗n , Q⊗n ϑ : ϑ ∈ ) definiert ist. Uns interessiert das Verhalten im Limes n → ∞. Dies kann etwas bequemer formuliert werden, von Tn unter Q⊗n ϑ wenn man das unendliche Produktmodell (X, F , Pϑ : ϑ ∈ ) = E N , E ⊗N , Q⊗N ϑ :ϑ ∈ (im Sinne von Beispiel (3.29)) einf¨uhrt und Tn mit der Statistik Tn (X1 , . . . , Xn ) auf E N identifiziert. (Wie stets in Produktmodellen bezeichne hier Xi : E N → R die i-te Projektion.) Dann liegt n¨amlich allen Tn das gleiche statistische Modell zugrunde. Definition: Die Sch¨atzfolge (Tn )n≥1 f¨ur τ heißt konsistent, wenn Pϑ (|Tn − τ (ϑ)| ≤ ε) −→ 1 n→∞
Pϑ
f¨ur alle ε > 0 und ϑ ∈ , also Tn −→ τ (ϑ) f¨ur n → ∞ und beliebiges ϑ ∈ . Es ist klar, dass sich die Konsistenz von Sch¨atzfolgen in nat¨urlicher Weise aus dem (schwachen) Gesetz der großen Zahl ergibt. Ein erstes Beispiel daf¨ur liefert der folgende Satz u¨ ber die Konsistenz von Stichprobenmittel und Stichprobenvarianz in der Situation von Satz (7.13). (7.29) Satz: Konsistenz von Stichprobenmittel und -varianz. Sei (E, E ) = (R, B ), und f¨ur jedes ϑ ∈ existiere sowohl der Erwartungswert m(ϑ) = E(Qϑ ) als ) von Qϑ . Im unendlichen Produktmodell seien auch die' Varianz v(ϑ) = V(Qϑ ' n 1 2 atzer Mn = n1 ni=1 Xi und Vn∗ = n−1 i=1 (Xi − Mn ) die erwartungstreuen Sch¨ f¨ur m bzw. v nach n unabh¨angigen Beobachtungen. Dann sind die Folgen (Mn )n≥1 und (Vn∗ )n≥2 konsistent. Beweis: Die Konsistenz der Folge (Mn ) folgt unmittelbar aus Satz (5.7). (Daf¨ur wird ausschließlich die Existenz der Erwartungswerte m(ϑ) ben¨otigt.) Zum Beweis der Konsistenz von (Vn∗ ) fixieren wir ein ϑ und betrachten , 2n = 1 (Xi − m(ϑ))2 . V n n
i=1
Gem¨aß der Verschiebungsformel (7.10) gilt dann f¨ur Vn = 2n − (Mn − m(ϑ))2 . Vn = V
n−1 n
Vn∗
7.6 Konsistenz von Sch¨atzern
211
Pϑ Pϑ 2n −→ Nach Satz (5.7) gilt nun aber V v(ϑ) und (Mn − m(ϑ))2 −→ 0. Zusammen mit Lemma (5.8a) folgt hieraus die Behauptung. 3
Auch Maximum-Likelihood-Sch¨atzer sind im Allgemeinen konsistent. Im folgenden Satz machen wir die vereinfachende Annahme der Unimodalit¨at. (7.30) Satz: Konsistenz von Maximum-Likelihood-Sch¨atzern. Sei (E, E , Qϑ : ϑ ∈ ) ein einparametriges Standardmodell mit Likelihood-Funktion . Es gelte (a) ist ein offenes Intervall in R, und f¨ur ϑ = ϑ ist Qϑ = Qϑ . (b) F¨ur alle n ≥(1 und x ∈ E n ist die n-fache Produkt-Likelihood-Funktion ⊗n (x, ϑ) = ni=1 (xi , ϑ) unimodal in ϑ, d. h. f¨ur einen gewissen MaximumLikelihood Sch¨atzer Tn : E n → R ist die Funktion ϑ → ⊗n (x, ϑ) f¨ur ϑ < Tn (x) wachsend und f¨ur ϑ > Tn (x) fallend. Dann ist die Sch¨atzfolge (Tn )n≥1 f¨ur ϑ konsistent. Die Unimodalit¨atsvoraussetzung (b) ist insbesondere dann erf¨ullt, wenn log (xi , ·) f¨ur jedes xi ∈ E konkav ist mit zun¨achst positiver und dann negativer Steigung. Denn dann gilt dasselbe auch f¨ur log ⊗n (x, ·) bei beliebigem x ∈ E n , und die Unimodalit¨at folgt unmittelbar. Im nachfolgenden Beweis treffen wir erstmalig auf eine Gr¨oße, die von eigenem Interesse ist und uns auch in der Testtheorie wieder begegnen wird. (7.31) Bemerkung und Definition: Relative Entropie. F¨ur je zwei Wahrscheinlichkeitsmaße P , Q auf einem diskreten oder stetigen Ereignisraum (E, E ) mit existierenden Dichtefunktionen bzw. σ sei . (x) H (P ; Q) := EP log = dx (x) log σ σ (x) E falls P (σ = 0) = 0 , und H (P ; Q) := ∞ sonst. (Hierbei sei 0 log 0 = 0; im diskreten Fall ist das Integral durch eine Summe zu ersetzen.) Dann ist H (P ; Q) wohldefiniert, eventuell = ∞. Es gilt H (P ; Q) ≥ 0 und H (P ; Q) = 0 genau dann, wenn P = Q. H (P ; Q) heißt die relative Entropie oder Kullback-LeiblerInformation von P bez¨uglich Q. Beweis: Zum Beweis der Wohldefiniertheit von H (P ; Q) m¨ussen wir zeigen, dass im Fall P (σ = 0) = 0 der Erwartungswert EP (log σ ) wohldefiniert ist. F¨ur x ∈ E sei f (x) = (x)/σ (x), falls σ (x) > 0, und f (x) = 1 sonst. Dann ist auch σf eine Dichtefunktion von P , und wir k¨onnen daher ohne Einschr¨ankung annehmen, dass = σf . F¨ur s ≥ 0 sei ψ(s) = 1 − s + s log s. Die Funktion ψ ist strikt konvex und nimmt ihr Minimum 0 genau an der Stelle 1 an. Insbesondere ist ψ ≥) 0, und aus Nichtnegativit¨atsgr¨unden existiert der Erwartungswert EQ (ψ ◦ f ) = E ψ(f (x)) σ (x) dx ∈
212
7 Parametersch¨atzung
[0, ∞]. Ferner existiert der Erwartungswert EQ (1 − f ) = 1 − EP (1) = 0. Durch Differenzbildung erhalten wir hieraus die Existenz von . EQ (f log f ) = σ (x) f (x) log f (x) dx ∈ [0, ∞] . E
Wegen σf = zeigt dies die Existenz von H (P ; Q) ∈ [0, ∞]. Ist H (P ; Q) = 0, so gilt nach dem Vorherigen auch EQ (ψ ◦ f ) = 0. Da ψ ≥ 0, folgt weiter (etwa mit Hilfe der Markov-Ungleichung), dass Q(ψ ◦ f = 0) = 1. Da ψ nur die Nullstelle 1 hat, ergibt sich die Beziehung Q(f = 1) = 1, und das bedeutet, dass Q = P . 3 Beweis von Satz (7.30): Sei ϑ ∈ fest gew¨ahlt und ε > 0 so klein, dass ϑ ± ε ∈ . Nach Voraussetzung (a) und Bemerkung (7.31) existiert ein δ mit 0 < δ < H (Qϑ ; Qϑ±ε ). Es gen¨ugt zu zeigen, dass 1 ϑ⊗n log ⊗n >δ →1 (7.32) Pϑ n ϑ±ε f¨ur n → ∞. Denn die Voraussetzung (b) der Unimodalit¨at hat zur Folge, dass 6 0 51 ϑ⊗n ⊗n ⊗n log ⊗n ⊂ ϑ − ε < Tn < ϑ + ε . > δ ⊂ ϑ−ε < ϑ⊗n > ϑ+ε n ϑ+σ ε σ =±1 Zum Beweis von (7.32) beschr¨anken wir uns auf den Fall des positiven Vorzeichens von ε. Sei zun¨achst H (Qϑ ; Qϑ+ε ) < ∞. Dann ist f = ϑ /ϑ+ε wie im Beweis von (7.31) wohldefiniert und log f ∈ L 1 (Qϑ ). Also gilt nach Satz (5.7) ϑ⊗n 1 1, Pϑ log ⊗n = log f (Xi ) −→ Eϑ (log f ) = H (Qϑ ; Qϑ+ε ) n n ϑ+ε n
i=1
und somit (7.32). Nun betrachten wir den Fall, dass H (Qϑ ; Qϑ+ε ) = ∞, aber noch Qϑ (ϑ+ε = 0) = 0. Dann ist f immer noch wohldefiniert, und f¨ur jedes c > 1 ist hc = log min(f, c) ∈ L 1 (Qϑ ). Nach Satz (4.11c) gilt Eϑ (hc ) ↑ H (Qϑ ; Qϑ+ε ) = ∞ f¨ur c ↑ ∞. Es gibt daher ein c mit Eϑ (hc ) > δ. Wie im ersten Fall folgt dann aus Satz (5.7) n 1 1 , ϑ⊗n Pϑ log ⊗n > δ ≥ Pϑ hc (Xi ) > δ → 1 n n ϑ+ε i=1
f¨ur n → ∞. Im verbleibenden Fall ist Qϑ (ϑ+ε = 0) =: a > 0. Dann gilt wegen Qϑ (ϑ > 0) = 1 1 ϑ⊗n log ⊗n = ∞ = 1 − (1 − a)n → 1 , Pϑ n ϑ+ε woraus wiederum (7.32) folgt. 3
213
7.7 Bayes-Sch¨atzer
Hier sind ein paar Beispiele f¨ur den obigen Konsistenzsatz. (7.33) Beispiel: Poisson-Parametersch¨atzung. Wie groß ist die mittlere Anzahl von Versicherungsf¨allen bei einer Kfz-Versicherung pro Jahr, oder die mittlere Anzahl der Benutzer des Wochenendtickets der Bahn? Da diese Gr¨oßen als Poissonverteilt angesehen werden k¨onnen, betrachten wir das Poisson-Modell E = Z+ , = ]0, ∞[, Qϑ = Pϑ mit der Likelihood-Funktion (x, ϑ) = e−ϑ ϑ x /x!. Offenbar ist log (x, ϑ) = x log ϑ − ϑ − log x! konkav' in ϑ. Voraussetzung (b) des Satzes ist daher erf¨ullt, und zwar mit Tn = Mn := n1 ni=1 Xi , dem Stichprobenmittelwert. Die Folge (Tn ) ist daher konsistent. Das gleiche Ergebnis erh¨alt man auch mit Satz (7.29). (7.34) Beispiel: Exponentialparametersch¨atzung. Wie lange dauert es typischerweise, bis an einem Schalter der erste Kunde ankommt? Oder in einer Telefonzentrale der erste Anruf eingeht? Da solche Wartezeiten in erster N¨aherung als exponentialverteilt angenommen werden k¨onnen, ben¨otigt man hierf¨ur einen Sch¨atzer des Parameters der Exponentialverteilung. Die Likelihood-Funktion des zugeh¨origen Modells hat die Gestalt (x, ϑ) = ϑe−ϑx , wobei x ∈ E = [0, ∞[ und ϑ ∈ = ]0, ∞[. Offenbar ist log (x, ϑ) = −ϑx + log ϑ f¨ur jedes x konkav in ϑ, die Unimodalit¨atsvoraussetzung (b) des Satzes ist somit erf¨ullt. Wegen n d d , 1 ⊗n (−ϑXi + log ϑ) = −n Mn + log ϑ = dϑ dϑ ϑ i=1
ist Tn := 1/Mn der auf n unabh¨angigen Beobachtungen basierende MaximumLikelihood-Sch¨atzer, und sowohl Satz (7.29) als auch Satz (7.30) liefern uns dessen Konsistenz. (7.35) Beispiel: Sch¨atzung der Gleichverteilungsskala. Wir betrachten wieder die Situation des Beispiels (7.3) von der Fernsehshow, in dem der Bereich von Zufallszahlen gesch¨atzt werden soll. Gem¨aß Beispiel (7.8) ist T2n = max(X1 , . . . , Xn ) der Maximum-Likelihood-Sch¨atzer nach n unabh¨angigen Beobachtungen, und die n-fache Produkt-Likelihoodfunktion hat die offensichtlich unimodale Gestalt ϑ −n 1[T2n ,∞[ (ϑ). Satz (7.30) liefert daher nochmals die Konsistenz der Folge (T2n ), die in Beispiel (7.3) bereits direkt gezeigt wurde.
7.7
Bayes-Sch¨atzer
Zum Schluss soll noch ein anderer Zugang zum Sch¨atzproblem vorgestellt werden: die Bayes’sche Statistik. Deren Ziel ist nicht die gleichm¨aßige Minimierung des quadratischen Fehlers f¨ur alle ϑ, sondern die Minimierung eines geeignet u¨ ber ϑ gemittelten quadratischen Fehlers.Als Motivation kann das folgende Beispiel dienen.
214
7 Parametersch¨atzung
(7.36) Beispiel: Kraftfahrzeug-Versicherung. Zu einer Versicherungsgesellschaft kommt ein Kunde, um eine Kfz-Versicherung abzuschließen. Der Kunde hat einen speziellen Fahrstil, der mit Wahrscheinlichkeit ϑ ∈ [0, 1] zu mindestens einem Schaden pro Jahr f¨uhrt. Der Versicherungsvertreter kennt zwar ϑ nicht, aber er hat nat¨urlich Statistiken u¨ ber die Schadensh¨aufigkeiten in der Gesamtbev¨olkerung. Diese liefern ihm eine gewisse Vorbewertung des Risikos, d. h. ein Wahrscheinlichkeitsmaß α auf = [0, 1]. Wir wollen annehmen, dass α glatt“ ist, d. h. eine Dichtefunktion ” α besitzt. Die vom Versicherungsvertreter erwartete (also subjektive) Wahrscheinlichkeit, dass der Kunde in k von n Jahren einen Schaden hat, betr¨agt dann .
1
dϑ α(ϑ) Bn,ϑ ({k}) .
0
(Dies entspricht der Schadensh¨aufigkeit in einem zweistufigen Modell, in dem zuerst eine zuf¨allige Schadenswahrscheinlichkeit ϑ gem¨aß α bestimmt wird und dann n Bernoulli-Experimente mit Schadenswahrscheinlichkeit ϑ durchgef¨uhrt werden.) Gesetzt nun den Fall, der Kunde w¨unscht nach n Jahren einen neuen Vertrag, und der Versicherungsvertreter muss das Risiko neu einsch¨atzen. Er weiß dann, dass etwa in x ∈ {0, . . . , n} Jahren ein Schaden eingetreten ist. Wie wird er seine Vorbewertung α aufgrund dieser Information ver¨andern? Naheliegend ist ein Ansatz in Analogie zur Bayes-Formel (3.3b): Die a priori Dichte α wird ersetzt durch die a posteriori Dichte α(ϑ) Bn,ϑ ({x}) , πx (ϑ) = ) 1 0 dp α(p) Bn,p ({x}) d. h. durch die bedingte Verteilung von ϑ gegeben die Anzahl x der Schadensf¨alle. dDefinition: Sei (X, F , Pϑ : ϑ ∈ ) ein parametrisches Standardmodell mit F ⊗B messbarer Likelihood-Funktion : X × → [0, ∞[. (Letzteres ist automatisch der Fall, wenn diskret ist und somit Bd = P().) Dann heißt jede Dichtefunktion (bzw., wenn diskret ist, Z¨ahldichte) α auf (, Bd ) eine a priori Dichte und das zugeh¨orige Wahrscheinlichkeitsmaß α auf (, Bd ) eine a priori Verteilung oder Vorbewertung. Ferner heißt f¨ur jedes x ∈ X die Dichtefunktion (bzw. Z¨ahldichte)
α(ϑ) (x, ϑ) dt α(t) (x, t)
πx (ϑ) = )
auf die a posteriori Dichte und das zugeh¨orige Wahrscheinlichkeitsmaß π x die a posteriori Verteilung oder Nachbewertung zum Beobachtungsergebnis x und der Vorbewertung α. (Im Fall, dass diskret ist, muss das Integral durch eine Summe u¨ ber ersetzt werden.) In der sogenannten Bayesianischen oder subjektiven Schule der Statistik wird die Vorbewertung α u¨ blicherweise interpretiert als eine subjektive Einsch¨atzung der Situation. Dies
215
7.7 Bayes-Sch¨atzer
ist sicher immer dann sinnvoll, wenn auch die Wahrscheinlichkeitsmaße Pϑ eher subjektiv als frequentistisch zu interpretieren sind. Subjektiv“ ist hier aber nicht gleichbedeutend ” mit willk¨urlich“. Der Versicherungsvertreter in Beispiel (7.36) wird nat¨urlich seine Scha” densh¨aufigkeitsstatistiken in seine Vorbewertung einfließen lassen.
Was ergibt sich nun f¨ur unser Beispiel (7.36)? Wir betrachten den Fall absoluter Unkenntnis u¨ ber ϑ und w¨ahlen daher die a priori Verteilung α = U[0,1] . Dann ist α(ϑ) = 1 f¨ur ϑ ∈ [0, 1], also f¨ur x ∈ {0, . . . , n} n x ϑ (1 − ϑ)n−x ϑ x (1 − ϑ)n−x ; = πx (ϑ) = ) 1 xn B(x + 1, n − x + 1) s x (1 − s)n−x ds 0
x
hier haben wir die Definition (2.21) der Beta-Funktion benutzt. πx (ϑ) ist also gerade die Dichte der Beta-Verteilung zu den Parametern x + 1, n − x + 1, und es gilt π x = β x+1,n−x+1 . Welche Eigenschaften hat π x bei großer Beobachtungsanzahl n? Um die n-Abh¨angigkeit von π x deutlich zu machen, schreiben wir jetzt π (n) achst zeigt x . Zun¨ Beispiel (4.29), dass E(π (n) x ) = Sn (x) :=
x+1 , n+2
V(π (n) x )=
(x + 1)(n − x + 1) 1 ≤ 2 (n + 2) (n + 3) n
f¨ur alle x. Der Erwartungswert ist also gerade der aus Beispiel (7.14) bekannte Sch¨atzer f¨ur ϑ, und die Varianzen konvergieren im Limes n → ∞ gegen 0. Zusamˇ men mit der Cebyšev-Ungleichung (5.5) zeigt dies, dass sich π (n) x mit wachsender Beobachtungszahl n immer st¨arker um Sn (x) herum konzentriert, d. h. mit zunehmender Beobachtungsdauer verschwindet die zun¨achst bestehende Unsicherheit, und Bn,ϑ
der Mittelwert wird immer plausibler. Da andrerseits nat¨urlich auch Sn −→ ϑ, ergibt sich hieraus die Konsistenzaussage (7.37) Bn,ϑ x : π (n) −→ 1 x ([ϑ − ε, ϑ + ε]) ≥ 1 − ε n→∞
f¨ur alle ε > 0 und ϑ ∈ [0, 1]. Damit noch nicht beantwortet ist allerdings die Frage: Auf welchen Sch¨atzwert f¨ur die unbekannte Schadenswahrscheinlichkeit ϑ wird der Versicherungsvertreter aufgrund der Kenntnis von x Schadensf¨allen tippen? Naheliegendes Ziel ist wieder die Minimierung des quadratischen Fehlers. Definition: Es sei (X, F , Pϑ : ϑ ∈ ) ein parametrisches Standardmodell mit (in beiden Variablen) messbarer Likelihood-Funktion , sowie α eine Vorbewertung auf mit Dichte α. Sei ferner τ : → R eine messbare reelle Kenngr¨oße mit
216
7 Parametersch¨atzung
Eα (τ 2 ) < ∞. Ein Sch¨atzer T : X → R f¨ur τ heißt ein Bayes-Sch¨atzer zur Vorbewertung α, wenn der erwartete quadratische Fehler . . 2 dϑ α(ϑ) dx (x, ϑ) T (x) − τ (ϑ) FT (α) := Eα (FT ) = X
minimal ist unter allen Sch¨atzern f¨ur τ . Statt des quadratischen Fehlers k¨onnte man nat¨urlich auch irgendeine andere Risikofunktion zugrunde legen. Diese M¨oglichkeit wollen wir hier nicht weiter verfolgen.
Der folgende Satz zeigt, dass Bayes-Sch¨atzer sich direkt aus der ) a posteriori Verteilung gewinnen lassen. Zur Abk¨urzung setzen wir Pα = dϑ α(ϑ) Pϑ . Das ) heißt, Pα ist das Wahrscheinlichkeitsmaß auf X mit Dichtefunktion α (x) := ϑ (x) α(ϑ) dϑ. (7.38) Satz: Bayes-Sch¨atzer und a posteriori-Verteilung. Der Bayes-Sch¨atzer zu einer a priori Dichte α ist Pα -fast sicher eindeutig bestimmt und gegeben durch . πx (ϑ) τ (ϑ) dϑ , x ∈ X. T (x) = Eπ x (τ ) =
Dabei ist π x die a posteriori Verteilung zu α und x. (F¨ur diskretes ist wieder das Integral durch eine Summe zu ersetzen). Beweis: Definitionsgem¨aß gilt die Gleichung α(ϑ)ϑ (x) = α (x)πx (ϑ). Ist nun T wie angegeben und S ein beliebiger Sch¨atzer, so erh¨alt man durch Vertauschung der Integrale (Satz von Fubini, siehe z. B. [20, 35]) FS (α) − FT (α) . . dx α (x) dϑ πx (ϑ) S(x)2 − 2 S(x) τ (ϑ) − T (x)2 + 2 T (x) τ (ϑ) = .X dx α (x) S(x)2 − 2 S(x) T (x) − T (x)2 + 2 T (x)2 = .X 2 dx α (x) S(x) − T (x) ≥ 0. = X
Dies liefert die Behauptung. 3 In Beispiel (7.36) ergibt sich also: Der aus Beispiel (7.14) bekannte Sch¨atzer S(x) = (x + 1)/(n + 2) ist der eindeutige Bayes-Sch¨atzer zur Vorbewertung α = U[0,1] . Wir geben noch ein zweites Beispiel. (7.39) Beispiel: Bayes-Sch¨atzung des Erwartungswerts einer Normalverteilung bei bekannter Varianz. Sei (Rn , B n , Nϑ,v ⊗n : ϑ ∈ R) das n-fache Gauß’sche Produktmodell mit bekannter Varianz v > 0. Die Likelihood-Funktion ist n 3 4 1 , (x, ϑ) = (2π v)−n/2 exp − (xi − ϑ)2 . 2v i=1
217
Aufgaben
Als a priori Verteilung w¨ahlen wir ebenfalls eine Normalverteilung, d. h. wir setzen α' = Nm,u mit m ∈ R und u > 0. Mit dem Maximum-Likelihood-Sch¨atzer M(x) = n 1 onnen wir dann schreiben i=1 xi und geeigneten Konstanten cx , cx > 0 k¨ n 3
n 4 1 1 , 2 πx (ϑ) = cx exp − (ϑ − m) − (xi − ϑ)2 2u 2v i=1
3
m n 4 ϑ2 1 n + +ϑ + M(x) = cx exp − 2 u v u v = φT (x),u∗ (ϑ) ; dabei ist u∗ = 1/ u1 + nv und T (x) =
1 u
m+ 1 u
n v
+
M(x) n v
.
(Da πx und φT (x),u∗ beide Wahrscheinlichkeitsdichten sind, ist der im letzten Schritt zun¨achst auftauchende Vorfaktor cx notwendig = 1.) Wir erhalten also π x = NT (x),u∗ und insbesondere T (x) = E(π x ). Nach Satz (7.38) erweist sich also T als der Bayes-Sch¨atzer zur a priori-Verteilung α = Nm,u . Man beachte, dass T eine konvexe Kombination von m und M ist, welche M bei wachsender Beobachtungszahl n und ebenfalls bei wachsender a priori Unsicherheit u zunehmend gewichtet. Insbesondere erh¨alt man im Limes n → ∞ eine a¨ hnliche Konsistenzaussage wie in (7.37); siehe auch Aufgabe 7.26.
Aufgaben 7.1. Die Strahlenbelastung von Waldpilzen soll u¨ berpr¨uft werden. Dazu wird bei n unabh¨angigen Pilzproben die Anzahl der Geigerz¨ahler-Impulse jeweils w¨ahrend einer Zeiteinheit gemessen. Stellen Sie ein geeignetes statistisches Modell auf und geben Sie einen erwartungstreuen Sch¨atzer f¨ur die Strahlenbelastung an. 7.2. Gegeben sei das n-fache Produktmodell (Rn , B n , Uϑ ⊗n : ϑ ∈ R), wobei Uϑ die 1 Gleichverteilung auf dem Intervall ϑ − 2 , ϑ + 21 sei. Zeigen Sie: 1, Xi n n
M=
i=1
und
T =
1 max Xi + min Xi 2 1≤i≤n 1≤i≤n
sind erwartungstreue Sch¨atzer f¨ur ϑ. (Beachten Sie die Verteilungssymmetrie der Xi .) 7.3. In einer Lostrommel befinden sich N Lose mit den Nummern 1, 2, . . . , N; N ist unbekannt. Der kleine Fritz will wissen, wieviele Lose sich in der Trommel befinden und entnimmt in einem unbeobachteten Augenblick ein Los, merkt sich die aufgedruckte Nummer und legt es wieder in die Trommel zur¨uck. Das macht er n Mal.
218
7 Parametersch¨atzung
(a) Berechnen Sie aus den gemerkten Nummern X1 , . . . , Xn einen Maximum-LikelihoodSch¨atzer T f¨ur N. Ist dieser erwartungstreu? (Hinweis: Aufgabe 4.5) (b) Berechnen Sie approximativ f¨ur großes N den relativen Erwartungswert EN (T )/N. (Fassen Sie einen geeigneten Ausdruck als Riemann-Summe auf.) 7.4. Betrachten Sie die Situation von Aufgabe 7.3. Diesmal zieht der kleine Fritz die n Lose ohne Zur¨ucklegen. Bestimmen Sie den Maximum-Likelihood-Sch¨atzer T f¨ur N, berechnen Sie EN (T ) und geben Sie einen erwartungstreuen Sch¨atzer f¨ur N an. 7.5. Bestimmen Sie einen Maximum-Likelihood-Sch¨atzer (a) in der Situation von Aufgabe 7.1, (b) im reellen Produktmodell (Rn , B n , Q⊗n ϑ : ϑ > 0), wobei Qϑ = β ϑ,1 das Wahrscheinlichkeitsmaß auf (R, B ) mit der Dichte ρϑ (x) = ϑx ϑ−1 1]0,1[ (x) sei, und u¨ berpr¨ufen Sie, ob dieser eindeutig bestimmt ist. 7.6. Phylogenie. Wann lebte der letzte gemeinsame Vorfahr V von zwei Organismen A und B? Im infinite-sites Mutationsmodell“ wird dazu angenommen, dass die Mutationen entlang ” der Stammbaumlinien von A nach V und B nach V zu den Zeitpunkten von unabh¨angigen Poisson-Prozessen mit bekannter Intensit¨at (= Mutationsrate) µ > 0 erfolgt sind und jeweils ein anderes Nukleotid in der Gensequenz ver¨andert haben. Sei x die beobachtete Anzahl der unterschiedlichen Nukleotide in den Sequenzen von A und B. Wie lautet Ihre MaximumLikelihood-Sch¨atzung f¨ur das Alter von V ? Pr¨azisieren Sie dazu das statistische Modell! 7.7. Von einer Schmetterlingsart gebe es drei Varianten 1, 2 und 3 in den genotypischen Proportionen p1 (ϑ) = ϑ 2 , p2 (ϑ) = 2ϑ(1 − ϑ) und p3 (ϑ) = (1 − ϑ)2 , 0 ≤ ϑ ≤ 1. Unter n gefangenen Schmetterlingen dieser Art beobachten Sie ni Exemplare der Variante i. Bestimmen Sie einen Maximum-Likelihood-Sch¨atzer T f¨ur ϑ. (Vergessen Sie nicht, die Grenzf¨alle n1 = n und n3 = n zu betrachten.) 7.8. Beim Sommerfest des Kaninchenz¨uchtervereins sollen K Kaninchen verlost werden. Dazu werden N ≥ K Lose gedruckt, davon K Gewinne, der Rest Nieten. Der kleine Fritz bringt – zum Entsetzen seiner Mutter – x Kaninchen mit nach Hause, 1 ≤ x ≤ K. Wieviel Lose hat er wohl gekauft? Geben Sie eine Sch¨atzung mittels der Maximum-Likelihood-Methode! 7.9. Gegeben sei das geometrische Modell (Z+ , P(Z+ ), Gϑ : ϑ ∈ ]0, 1]). Bestimmen Sie einen Maximum-Likelihood-Sch¨atzer f¨ur den unbekannten Parameter ϑ! Ist dieser erwartungstreu? 7.10. Gegeben sei das statistische Produktmodell (Rn , B n , Q⊗n ϑ : ϑ ∈ R). Dabei sei Qϑ die sogenannte zweiseitige Exponential-Verteilung oder Laplace-Verteilung mit Zentrum ϑ, d. h. das Wahrscheinlichkeitsmaß auf (R, B ) mit Dichtefunktion ϑ (x) = 21 e−|x−ϑ| ,
x ∈ R.
Bestimmen Sie einen Maximum-Likelihood-Sch¨atzer f¨ur ϑ und zeigen Sie, dass dieser nur f¨ur ungerades n eindeutig bestimmt ist. (Hinweis: Aufgabe 4.15) 7.11. Sei X0 , . . . , Xn eine Markov-Kette mit endlichem Zustandsraum E, bekannter Start¨ verteilung α und unbekannter Ubergangsmatrix !. F¨ur a, b ∈ E sei L(2) (a, b) =
219
Aufgaben
|{1 ≤ i ≤ n : Xi−1 = a, Xi = b}|/n die relative H¨aufigkeit, mit der das Buchstabenpaar (a, b) in dem Zufallswort“ (X0 , . . . , Xn ) auftritt. Die zuf¨allige Matrix L(2) = L(2) (a, b) a,b∈E ” ¨ heißt die empirische Paarverteilung. Die empirische Ubergangsmatrix T auf E sei definiert durch , T (a, b) = L(2) (a, b)/L(a) falls L(a) := L(2) (a, c) > 0, c∈E
und beliebig sonst. Pr¨azisieren Sie das statistische Modell und zeigen Sie: T ist ein MaximumLikelihood-Sch¨atzer f¨ur !. (Hinweis: Sie k¨onnen a¨ hnlich wie in Beispiel (7.7) rechnen.) 7.12. Bestimmen Sie im Binomialmodell aus Beispiel (7.14) einen Sch¨atzer f¨ur ϑ, dessen quadratischer Fehler nicht von ϑ abh¨angt. 7.13. Gegeben sei das bedingte Poisson-Modell (N, P(N), Pϑ : ϑ > 0) mit Pϑ ({n}) = Pϑ ({n}|N) =
ϑn , n! (eϑ − 1)
n ∈ N.
Zeigen Sie: Der einzige erwartungstreue Sch¨atzer f¨ur τ (ϑ) = 1 − e−ϑ ist der (sinnlose) Sch¨atzer T (n) = 1 + (−1)n , n ∈ N. 7.14. Randomized Response. Um bei Umfragen zu heiklen Themen ( Nehmen Sie harte ” Drogen?“) die Privatsph¨are der befragten Personen zu sch¨utzen und zuverl¨assige Antworten zu bekommen, wurde das folgende Unrelated Question“-Befragungsmodell vorgeschlagen: ” Ein Stapel Fragekarten ist zur H¨alfte mit der heiklen Frage A und zur anderen H¨alfte mit einer harmlosen Frage B beschriftet, welche nichts mit Frage A zu tun hat ( Waren Sie letzte Woche ” im Kino?“). Der Interviewer l¨asst den Befragten die Karten mischen, eine Karte verdeckt ziehen und die darauf gestellte Frage beantworten. Die untersuchte Personengruppe enthalte einen bekannten Anteil pB der Personen, welche Frage B bejahen (Kinog¨anger). Sei ϑ = pA die Wahrscheinlichkeit, mit der die heikle Frage A bejaht wird. Es werden n Personen unabh¨angig befragt. Pr¨azisieren Sie das statistische Modell, geben Sie einen erwartungstreuen Sch¨atzer f¨ur ϑ an, und bestimmen Sie dessen Varianz. 7.15. Eindeutigkeit bester Sch¨atzer. In einem statistischen Modell (X, F , Pϑ : ϑ ∈ ) seien S, T zwei beste erwartungstreue Sch¨atzer f¨ur eine reelle Kenngr¨oße τ (ϑ). Zeigen Sie: F¨ur alle ϑ gilt Pϑ (S = T ) = 1. (Betrachten Sie die Sch¨atzer S + c (T − S) f¨ur c ≈ 0.) 7.16. Betrachten Sie zu einem gegebenen Mittelwert m ∈ R das n-fache Gauß’sche Produktmodell (Rn , B n , Nm,ϑ ⊗n : ϑ > 0). Zeigen Sie: Die Statistik 9 T =
π 1, |Xi − m| 2 n n
i=1
auf Rn ist ein erwartungstreuer Sch¨atzer f¨ur τ (ϑ) = ϑ die Cramér-Rao-Schranke τ (ϑ)2 /I (ϑ).
√ ϑ, jedoch erreicht ihre Varianz f¨ur kein
7.17. Betrachten Sie zu gegebenem r > 0 das negative Binomialmodell (Z+ , P(Z+ ), B r,ϑ : 0 < ϑ < 1).
220
7 Parametersch¨atzung
Bestimmen Sie einen besten Sch¨atzer f¨ur τ (ϑ) = 1/ϑ und geben Sie dessen Varianz f¨ur jedes ϑ explizit an. 7.18. Berechnen Sie in der Situation von Aufgabe 7.2 die Varianzen Vϑ (M) und Vϑ (T ). Welchen Sch¨atzer w¨urden Sie zur Benutzung empfehlen? (Hinweis: Bestimmen Sie f¨ur n ≥ 3 und ϑ = 1/2 zun¨achst die gemeinsame Verteilungsdichte von min1≤i≤n Xi und max1≤i≤n Xi und anschließend die Verteilungsdichte von T , und benutzen Sie (2.23).) 7.19. Suffizienz und Vollst¨andigkeit. Sei (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell und T : X → Σ eine Statistik mit (der Einfachheit halber) abz¨ahlbarem Wertebereich Σ. T heißt suffizient, wenn (nicht von ϑ abh¨angende) Wahrscheinlichkeitsmaße Qs , s ∈ Σ, auf (X, F ) existieren mit Pϑ ( · |T = s) = Qs , wenn immer Pϑ (T = s) > 0. T heißt vollst¨andig, wenn g ≡ 0 die einzige Funktion g : Σ → R ist mit Eϑ (g ◦ T ) = 0 f¨ur alle ϑ ∈ . Sei τ eine reelle Kenngr¨oße. Zeigen Sie: (a) Rao-Blackwell. Ist T suffizient, so l¨asst sich jeder erwartungstreue Sch¨atzer S f¨ur τ wie folgt verbessern: Ist gS (s) := EQs (S) f¨ur s ∈ Σ, so ist gS ◦ T erwartungstreu und Vϑ (gS ◦ T ) ≤ Vϑ (S) f¨ur alle ϑ ∈ . (b) Lehmann-Scheffé. Ist T suffizient und vollst¨andig und ist S irgendein erwartungstreuer Sch¨atzer f¨ur τ , so ist gS ◦T sogar ein bester Sch¨atzer f¨ur τ . (Argumentieren Sie indirekt!) 7.20. Sei (X, F , Pϑ : ϑ ∈ ) ein exponentielles Modell bez¨uglich einer Statistik T . Nehmen Sie zur Vereinfachung an, dass T nur Werte in Σ := Z+ annimmt. Zeigen Sie: T ist suffizient und vollst¨andig. 7.21. Betrachten Sie die Situation von Aufgabe 7.3 und zeigen Sie: Der dort bestimmte Maximum-Likelihood-Sch¨atzer T ist suffizient und vollst¨andig. 7.22. Relative Entropie und Fisher-Information. Sei (X, F , Pϑ : ϑ ∈ ) ein regul¨ares statistisches Modell mit endlichem Ergebnisraum X . Zeigen Sie: F¨ur jedes ϑ ∈ gilt lim ε−2 H (Pϑ+ε ; Pϑ ) = I (ϑ)/2.
ε→0
7.23. Sch¨atzung mit der Momentenmethode. Sei (R, B , Qϑ : ϑ ∈ ) ein reellwertiges statistisches Modell und r ∈ N. Zu jedem ϑ ∈ und jedem k ∈ {1, . . . , r} existiere das k-te Moment mk (ϑ) := Eϑ (IdkR ) von Qϑ . Sei ferner g : Rr → R stetig und τ (ϑ) := g(m1 (ϑ), . . . , mr (ϑ)). Im zugeh¨origen unendlichen Produktmodell (RN , B ⊗N , Q⊗N ϑ :ϑ ∈ ) ist dann bei beliebigem n Tn := g
n 1 ,
n
i=1
Xi ,
1, 2 1 , r Xi , . . . , Xi n n n
n
i=1
i=1
ein Sch¨atzer f¨ur τ . Zeigen Sie: Die Folge (Tn ) ist konsistent. 7.24. Betrachten Sie das zweiseitige Exponentialmodell aus Aufgabe 7.10. F¨ur jedes n ≥ 1 sei Tn ein beliebiger Maximum-Likelihood-Sch¨atzer aufgrund von n unabh¨angigen Beobachtungen. Zeigen Sie: Die Folge (Tn ) ist konsistent. 7.25. Verifizieren Sie die Konsistenzaussage (7.37) f¨ur die a posteriori Verteilungen im Binomialmodell von Beispiel (7.36).
Aufgaben
221
7.26. Angleichung der Restunsicherheit bei wachsender Information. Betrachten Sie Beispiel (7.39) im Limes n → ∞. Sei x = (x1 , x2 , . . . ) eine Folge von Beobachtungswerten ' (n) in R, f¨ur welche die Folge der Mittelwerte Mn (x) = n1 ni=1 xi beschr¨ankt bleibt, und πx die a posteriori Dichte zu den Ergebnissen (x1 , . . . , xn ) und der a priori Verteilung Nm,u . Sei (n) θn,x eine Zufallsvariable mit Verteilung πx . Zeigen Sie: Die reskalierten Zufallsvariablen √ n/v (θn,x − Mn (x)) konvergieren in Verteilung gegen N0,1 . 7.27. Betrachten Sie das n-fache Poisson-Produktmodell (Zn+ , P(Zn+ ), Pϑ⊗n : ϑ > 0) sowie die a priori Verteilung α = Γa,r , die Gamma-Verteilung zu den Parametern a, r > 0. Berechnen Sie zu jedem x ∈ Zn+ die a posteriori Dichte πx und bestimmen Sie den Bayes-Sch¨atzer f¨ur ϑ.
8 Konfidenzbereiche
Ein Sch¨atzwert f¨ur eine unbekannte Kenngr¨oße liefert zwar einen ersten Anhaltspunkt f¨ur deren wahren Wert, ist aber insofern unbefriedigend, als man nicht weiß, wie zuverl¨assig der angegebene Sch¨atzwert ist. Besser werden die Launen des Zufalls ber¨ucksichtigt, wenn man statt eines einzelnen Sch¨atzwerts nur einen gewissen, von der Beobachtung abh¨angigen Bereich angibt, in dem die Kenngr¨oße mit hinreichend großer Sicherheit erwartet werden kann. Solche sogenannten Konfidenz- oder Vertrauensbereiche sind der Gegenstand dieses Kapitels.
8.1
Definition und Konstruktionsverfahren
Zur Motivation betrachten wir wieder das Beispiel (7.6) vom Reißnagel. (Dies ist unser toy model“ f¨ur ein unabh¨angig wiederholtes Alternativ-Experiment mit un” bekannter Erfolgswahrscheinlichkeit ϑ.) Ein Reißnagel werde mehrmals geworfen. Mit welcher Wahrscheinlichkeit ϑ ∈ [0, 1] f¨allt er auf die Spitze? Zuerst wirft Anton n = 100 Mal, wobei der Reißnagel etwa x = 40 Mal auf die Spitze falle, danach Brigitte, wobei er vielleicht nur x = 30 Mal auf die Spitze f¨allt. Anton sch¨atzt dann ϑ = x/n = 0.4, Brigitte jedoch ϑ = x /n = 0.3. Wer von beiden hat recht? Nat¨urlich keiner! Denn selbst wenn sich herausstellen sollte, dass wirklich ϑ = 0.4 ist, w¨are das nur ein Zufallstreffer von Anton gewesen. Zu seri¨oseren Aussagen kann man erst gelangen, wenn man Abweichungen vom Sch¨atzwert zul¨asst und Irrtumswahrscheinlichkeiten angibt. Dies geschieht durch Aussagen der Form Mit einer ” Sicherheit von 95% liegt ϑ im (zuf¨alligen) Intervall ]T − ε, T + ε[“. Dabei ist T ein geeigneter Sch¨atzer und ε eine passende Fehlerschranke. Definition: Sei (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell, Σ eine beliebige Menge, τ : → Σ eine zu ermittelnde Kenngr¨oße f¨ur den Parameter, und 0 < α < 1. Eine Abbildung C : X → P(Σ), die jedem m¨oglichen Beobachtungsergebnis x ∈ X eine Menge C(x) ⊂ Σ zuordnet, heißt ein Konfidenz- oder Vertrauensbereich f¨ur τ zum Irrtumsniveau α (bzw. Sicherheitsniveau 1 − α), wenn (8.1) inf Pϑ x ∈ X : C(x) τ (ϑ) ≥ 1 − α . ϑ∈
(Damit diese Wahrscheinlichkeiten definiert sind, muss man nat¨urlich auch verlangen, dass die Mengen {C(·) s} := {x ∈ X : C(x) s} f¨ur beliebige s ∈ Σ zur
8.1 Definition und Konstruktionsverfahren
223
σ -Algebra F geh¨oren.) Ist Σ = R und jedes C(x) ein Intervall, so spricht man von einem Konfidenzintervall. Gelegentlich nennt man C(·) auch einen Bereichsch¨atzer. Diese Definition erfordert zwei Kommentare. Formal sind die Bedingungen der Definition erf¨ullt, wenn f¨ur jedes x einfach C(x) = Σ gesetzt wird. Aber damit w¨are nichts gewonnen! Wir wollen ja m¨oglichst genaue Information u¨ ber τ (ϑ) haben, und dazu m¨ussen die Mengen C(x) m¨oglichst klein sein. Andrerseits soll auch die Irrtumswahrscheinlichkeit m¨oglichst klein sein. Das sind jedoch zwei widerstreitende Ziele: Man kann nicht α und die Mengen C(·) gleichzeitig klein machen. Je kleiner α, desto gr¨oßer m¨ussen wegen (8.1) die Mengen C(·) sein. Also muss man jeweils im konkreten Einzelfall entscheiden, wie man die Irrtumswahrscheinlichkeit α und den gesch¨atzten Bereich C(·) ausbalancieren will. Die Bedingung (8.1) wird gelegentlich missverstanden. Wenn beim Reißnagel das Experiment den Sch¨atzwert T (x) = 0.4 f¨ur τ (ϑ) := ϑ ergeben hat und Anton deshalb z. B. das Konfidenzintervall ]0.3, 0.5[ zum Sicherheitsniveau 95% angibt, so bedeutet das nicht, dass ϑ in 95% aller F¨alle im Intervall ]0.3, 0.5[ liegt. Denn damit w¨urde man unterstellen, dass ϑ zuf¨allig w¨are. Nun ist ϑ zwar unbekannt, hat aber trotzdem einen bestimmten Wert (der das Verhalten des Reißnagels charakterisiert und durch das Experiment zu ermitteln ist), und ist keineswegs zuf¨allig. Zuf¨allig sind vielmehr der Beobachtungswert x und das sich daraus ergebende C(x). Korrekt ist die folgende Formulierung: In 95% aller Beobachtungen enth¨alt das durch unser Verfahren bestimmte Zufallsintervall C(·) den wahren Wert ϑ (ganz egal, was dieser Wert ist). Wie kann man Konfidenzbereiche konstruieren? Dazu gibt es ein allgemeines Prinzip, das wir nun vorstellen wollen. Der Einfachheit halber beschr¨anken wir uns auf den wichtigsten Fall, dass der Parameter ϑ selbst identifiziert werden soll, dass also Σ = und τ die Identit¨at ist; den allgemeinen Fall werden wir in Beispiel (8.4) illustrieren. Sei also (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell. Jeder Konfidenzbereich C : x → C(x) f¨ur ϑ wird offenbar eindeutig beschrieben durch seinen (wieder mit C bezeichneten) Graphen C = {(x, ϑ) ∈ X × : ϑ ∈ C(x)} , siehe Abbildung 8.1. F¨ur jedes x ∈ X ist C(x) gerade der vertikale x-Schnitt durch C, und Cϑ := {C(·) ϑ} = {x ∈ X : (x, ϑ) ∈ C} ∈ F ist der horizontale ϑ-Schnitt durch C. In dieser Beschreibung bedeutet die Niveaubedingung (8.1) nichts anderes, als dass alle horizontalen Schnitte mindestens die Wahrscheinlichkeit 1 − α haben sollen: inf Pϑ (Cϑ ) ≥ 1 − α .
ϑ∈
224
8 Konfidenzbereiche
C(x) C ϑ
Cϑ
x
X
Abbildung 8.1: Zur Konstruktion von Konfidenzbereichen.
Daraus ergibt sich das folgende (8.2) Konstruktionsverfahren fur ¨ Konfidenzbereiche: Zu einem vorgegebenen Irrtumsniveau 0 < α < 1 f¨uhre man die folgenden beiden Schritte durch. Zu jedem ϑ ∈ bestimme man ein m¨oglichst kleines Cϑ ∈ F mit Pϑ (Cϑ ) ≥ 1 − α. Im Fall eines Standardmodells w¨ahlt man gerne (in Analogie zu Maximum-Likelihood Sch¨atzern) ein Cϑ der Gestalt Cϑ = {x ∈ X : ϑ (x) ≥ cϑ } , wobei cϑ > 0 so bestimmt wird, dass die Bedingung (8.1) m¨oglichst knapp erf¨ullt ist. Mit anderen Worten, man versammelt in Cϑ die x mit der gr¨oßten Likelihood, solange bis das Sicherheitsniveau 1 − α erreicht wird. Wie in Abbildung 8.1 setze man dann C = {(x, ϑ) ∈ X × : x ∈ Cϑ } und C(x) = {ϑ ∈ : Cϑ x} . Das so konstruierte C ist dann ein Konfidenzbereich f¨ur ϑ zum Irrtumsniveau α. Wir erl¨autern das Verfahren an einem Beispiel. (8.3) Beispiel: Emissionskontrolle. Von N = 10 Heizkraftwerken werden (wegen der hohen Inspektionskosten nur) n = 4 zuf¨allig ausgew¨ahlt und auf ihre Emissionswerte u¨ berpr¨uft. Gesucht ist ein Konfidenzbereich f¨ur die Anzahl ϑ der Kraftwerke mit zu hohen Schadstoffwerten. Dies entspricht einer Stichprobe vom Umfang 4 ohne Zur¨ucklegen aus einer Urne mit 10 Kugeln, von denen eine unbekannte Zahl ϑ
225
8.1 Definition und Konstruktionsverfahren
Tabelle 8.1: Konstruktion eines Konfidenzbereichs (unterstrichen) im hypergeometrischen Modell. Die Werte f¨ur ϑ > 5 ergeben sich durch Symmetrie.
10 ϑ 5 4 3 2 1 0
4
H4;ϑ,10−ϑ ({x})
5 15 35 70 126 210
50 80 105 112 84 0
100 90 63 28 0 0
50 24 7 0 0 0
5 1 0 0 0 0
0
1
2
3
4
x
schwarz ist. Das Modell ist also X = {0, . . . , 4}, = {0, . . . , 10}, Pϑ = H4;ϑ,10−ϑ . Die zugeh¨orige Likelihood-Funktion ist in Tabelle 8.1 aufgef¨uhrt. Sei nun etwa α = 0.2. Nach der Konstruktionsvorschrift (8.2) m¨ussen wir dann in jeder Zeile der Tabelle 8.1 so viele der gr¨oßten Werte finden, bis deren Summe mindestens 168 betr¨agt. Dies sind die unterstrichenen Werte. Sie definieren einen Konfidenzbereich C mit C(0) = {0, 1, 2},
C(4) = {8, 9, 10},
C(1) = {1, . . . , 5},
C(3) = {5, . . . , 9},
C(2) = {3, . . . , 7}. Wegen der geringen Stichprobenzahl sind die Mengen C(x) ziemlich groß, obgleich wir auch α recht groß gew¨ahlt haben. Man sollte also trotz der Kosten weitere Heizkraftwerke untersuchen! Wie oben betont, besteht die Hauptaufgabe bei der Konstruktion von Konfidenzbereichen darin, zu jedem ϑ ∈ eine Menge Cϑ von wahrscheinlichsten Ergebnis” sen“ zu konstruieren. Sei z.B. X = R, und Pϑ habe eine Dichtefunktion ϑ , welche unimodal ist in dem Sinne, dass sie bis zu einer Maximalstelle monoton w¨achst und danach monoton f¨allt. Dann wird man Cϑ als Intervall um die Maximalstelle herum“ ” w¨ahlen, welches gerade so groß ist, dass die Schw¨anze“ links und rechts von Cϑ ” insgesamt nur die Wahrscheinlichkeit α besitzen. In diesem Kontext ist der Begriff des Quantils n¨utzlich. Definition: Sei Q ein Wahrscheinlichkeitsmaß auf (R, B ) und 0 < α < 1. Dann heißt jede Zahl q ∈ R mit Q(]−∞, q]) ≥ α und Q([q, ∞[) ≥ 1 − α ein α-Quantil von Q. Ein 1/2-Quantil von Q ist gerade ein Median, und ein (1 − α)-Quantil heißt auch ein α-Fraktil von Q. Die 1/4- und 3/4-Quantile heißen auch das untere und obere Quartil. Man spricht auch von den Quantilen einer reellen Zufallsvariablen X; diese sind definiert als die Quantile der Verteilung von X.
226
8 Konfidenzbereiche
Die Definition erkl¨art den Namen der Quantil-Transformation in Proposition (1.30). Wie aus Abbildung 8.2 ersichtlich, ist ein α-Quantil gerade eine Stelle q, an der die Verteilungsfunktion FQ von Q das Niveau α u¨ berquert. Die Existenz eines α-Quantils ergibt sich daher direkt aus (1.29). Das α-Quantil ist immer dann eindeutig bestimmt, wenn FQ strikt monoton w¨achst, also insbesondere dann, wenn Q eine Verteilungsdichte besitzt, deren Tr¨ager { > 0} ein Intervall ist. Der Begriff des Quantils wird vorwiegend in diesem letzteren Fall auftreten. Das α-Quantil ist )q dann der eindeutig bestimmte Wert q mit −∞ (x) dx = α, vgl. Abbildung 8.2.
1 FQ α
α 0
q
R
q
R
Abbildung 8.2: Definition des α-Quantils q als die bzw. eine Stelle, an der die Verteilungsfunktion FQ den Wert α u¨ berschreitet (links), bzw. f¨ur welche die Fl¨ache unter der Dichtefunktion von Q links von q den Wert α hat (rechts).
Die Quantile der wichtigsten Verteilungen findet man entweder im TabellenAnhang oder in anderen Tabellenwerken wie z. B. [49]. Oder man verwendet geeignete Software wie etwa Mathematica (mit dem Befehl Quantile[dist,a] f¨ur das a-Quantil einer speziellen Verteilung dist). Das folgende Beispiel demonstriert einerseits die nat¨urliche Rolle des QuantilBegriffs bei der Konstruktion von Konfidenzintervallen.Andrerseits zeigt es, wie man das Konstruktionsverfahren (8.2) zu verallgemeinern hat, wenn nur eine Koordinate des Parameters ϑ identifiziert werden soll. (8.4) Beispiel: Konfidenzintervall f¨ur den Mittelwert im Gauß’schen Produktmodell. Wir betrachten das n-fache Gauß’sche Produktmodell (X, F , Pϑ : ϑ ∈ ) = Rn , B n , Nm,v ⊗n : m ∈ R, v > 0 . Gesucht ist ein Konfidenzintervall f¨ur die Erwartungswert-Koordinate m(ϑ) = m des Parameters ϑ = (m, v). In offensichtlicher Verallgemeinerung des Verfahrens (8.2) m¨ussen wir dazu f¨ur jedes m ∈ R eine (m¨oglichst kleine) Menge Cm ∈ B bestimmen mit Pϑ (Cm(ϑ) ) ≥ 1−α; der gesuchte Konfidenzbereich f¨ur m(ϑ) hat dann die Gestalt C(x) = {m ∈ R : Cm x}. Diese Arbeit l¨asst sich entscheidend vereinfachen, wenn man die Skalierungseigenschaften der Normalverteilungen ausnutzt. Man betrachte n¨amlich zu jedem m ∈ R die Statistik 7 Tm = (M − m) n/V ∗
227
8.1 Definition und Konstruktionsverfahren
' von Rn nach R; dabei sei wie bisher M = n1 ni=1 Xi das Stichprobenmittel 1 'n 2 und V ∗ = n−1 i=1 (Xi − M) die korrigierte Stichprobenvarianz. Wir zeigen: −1 Die Verteilung Q := Pϑ ◦ Tm(ϑ) h¨angt nicht vom Parameter ϑ ab; deshalb heißt (Q; Tm : m ∈ R) auch ein Pivot (d. h. Dreh- oder Angelpunkt) f¨ur m(ϑ). Zum Beweis betrachten wir zu jedem ϑ = (m, v) die Standardisierungsabbildung i −m Sϑ = X√ v 1≤i≤n
Rn
Rn .
von nach Aus den Skalierungseigenschaften der Normalverteilungen (vgl. −1 ⊗n Aufgabe 2.15) ergibt sich √ dann die Gleichung Pϑ ◦ Sϑ = N0,1 . Andererseits gilt M ◦ Sϑ = (M − m)/ v und V ∗ ◦ Sϑ =
1 , Xi −m √ − v n−1 n
M−m √ v
2
= V ∗ /v ,
i=1
also Tm(ϑ) = T0 ◦ Sϑ . Somit erhalten wir −1 = Pϑ ◦ Sϑ−1 ◦ T0−1 = N0,1 ⊗n ◦ T0−1 =: Q . Pϑ ◦ Tm(ϑ)
Die Verteilung Q wird in Satz (9.17) explizit berechnet: Q ist die sogenannte t-Verteilung mit n − 1 Freiheitsgraden. Aufgrund der Symmetrie von N0,1 und T0 ist auch Q symmetrisch. Es wird sich außerdem zeigen, dass Q eine Dichtefunktion besitzt, welche auf [0, ∞[ monoton f¨allt. In Analogie zu (8.2) geht man nun folgendermaßen vor. Zu einem gegebenen Irrtumsniveau α bestimmt man das k¨urzeste Intervall I mit Q(I ) ≥ 1 − α. Aufgrund der genannten Eigenschaften von Q liegt dieses I symmetrisch um den Ursprung, und zwar ist I = ]−t, t[ f¨ur das α/2-Fraktil t > 0 von Q. Setzt man nun Cm = Tm−1 ]−t, t[, so folgt Pϑ (Cm(ϑ) ) = 1 − α f¨ur alle ϑ = (m, v), und man erh¨alt den folgenden Satz. (8.5) Satz: Konfidenzintervall f¨ur den Mittelwert im Gaußmodell. Betrachtet werde das n-fache Gauß’sche Produktmodell f¨ur n unabh¨angige, normalverteilte Experimente mit unbekannter Erwartung m und unbekannter Varianz. Zu 0 < α < 1 sei −1 (1 − α/2) das α/2-Fraktil der tn−1 -Verteilung. Dann ist t := FQ 7 7 C(·) = M − t V ∗ /n , M + t V ∗ /n ein Konfidenzintervall f¨ur m zum Irrtumsniveau α. Eine weitreichende Verallgemeinerung dieses Satzes liefert das sp¨atere Korollar (12.19). Eine typische Anwendungssituation ist die folgende. (8.6) Beispiel: Vergleich zweier Schlafmittel. Die Wirkung von zwei Schlafmitteln A und B soll verglichen werden. Dazu werden n = 10 Patienten in zwei aufeinander
228
8 Konfidenzbereiche
folgenden N¨achten die Medikamente A bzw. B verabreicht und die jeweilige Schlafdauer gemessen. (In solch einer Situation spricht man auch von gepaarten Stichproben.) In einem klassischen Experiment ergaben sich die Daten aus Tabelle 8.2 f¨ur Tabelle 8.2: Differenz der Schlafdauer bei Einnahme von Schlafmittel A oder B, nach [6], p. 215. Patient Differenz
1
2
3
4
5
6
7
8
9
10
1.2
2.4
1.3
1.3
0.0
1.0
1.8
0.8
4.6
1.4
die Differenz der Schlafdauer. Ein erster Blick zeigt, dass das zweite Medikament offenbar wirkungsvoller ist, da die Schlafdauerdifferenz in allen F¨allen positiv ist. Genauer ergeben sich f¨ur den vorliegenden Datensatz x die Werte M(x) = 1.58 und V ∗ (x) = 1.513. Wenn man davon ausgeht, dass die Schlafdauer sich aus vielen kleinen unabh¨angigen Einfl¨ussen additiv zusammensetzt, kann man aufgrund des zentralen Grenzwertsatzes annehmen, dass sie (n¨aherungsweise) normalverteilt ist mit unbekannten Parametern. Man befindet sich dann in der Situation von Satz (8.5); der Parameter m beschreibt die mittlere Schlafdauerdifferenz. W¨ahlt man etwa das Irrtumsniveau α = 0.025, so ergibt sich aus Tabelle D im Anhang durch lineare Interpolation der Wert t = 2.72, und man erh¨alt das Konfidenzintervall C(x) = ]0.52, 2.64[ f¨ur m.
8.2
Konfidenzintervalle im Binomialmodell
Wir betrachten nun das Binomialmodell X = {0, . . . , n},
= ]0, 1[ ,
Pϑ = Bn,ϑ .
Als konkrete Anwendungssituation kann man sich wieder das n-malige Werfen eines Reißnagels vorstellen, oder die Befragung von n zuf¨allig ausgew¨ahlten Personen zu zwei B¨urgermeisterkandidaten, oder irgendein anderes unabh¨angig wiederholtes Alternativ-Experiment. Gesucht ist ein Konfidenzintervall f¨ur die unbekannte Erfolgswahrscheinlichkeit“ ϑ. Wir stellen drei verschiedene Methoden vor. ” ˇ 1. Methode: Anwendung der Cebyšev-Ungleichung. Der beste Sch¨atzer f¨ur ϑ ist T (x) = x/n, deshalb machen wir den Ansatz 3 4x x −ε, +ε , (8.7) C(x) = n n wobei ε > 0 geeignet zu bestimmen ist. Die Bedingung (8.1) bekommt dann die Form x Bn,ϑ x : − ϑ ≥ ε ≤ α n
8.2 Konfidenzintervalle im Binomialmodell
229
ˇ Diese Wahrscheinlichkeiten besitzen infolge der Cebyšev-Ungleichung (5.5) die obere Schranke ϑ(1 − ϑ) V(Bn,ϑ ) = . 2 2 n ε nε 2 2 Da wir ϑ nicht kennen, sch¨atzen wir dies weiter ab durch √ 1/(4nε ). Bedingung (8.1) 2 ≥ 1/ 4nα. Zum Beispiel bekommt gilt also sicher dann, wenn 1/(4nε ) ≤ α, also ε √ man f¨ur n = 1000, α = 0.025 den Wert ε = 1/ 100 = 0.1. Diese Methode hat den Vorteil, rechnerisch leicht zu sein und eine sichere ˇ Absch¨atzung zu liefern. Ihr Nachteil besteht darin, dass die Cebyšev-Ungleichung nicht an die Binomialverteilung angepasst ist und daher viel zu grob ist; das errechnete ε ist deshalb unn¨otig groß. 2. Methode: Anwendung der Normalapproximation. Wir machen wieder den Ansatz (8.7) f¨ur C wie oben, nehmen nun aber an, dass n hinreichend groß ist, um den zentralen Grenzwertsatz (5.23) anwenden zu k¨onnen. Wir schreiben 8 x−nϑ n Bn,ϑ x : xn − ϑ < ε = Bn,ϑ x : √nϑ(1−ϑ) < ε ϑ(1−ϑ) 8 8 n n − # − ε ϑ(1−ϑ) ≈ # ε ϑ(1−ϑ) 8 n −1 = 2 # ε ϑ(1−ϑ) mit # aus (5.20). Setzen wir speziell n = 1000 und α = 0.025 und f¨uhren noch eine Sicherheitsmarge von 0.02 f¨ur den Approximationsfehler ein, so ist die Bedin8 n ) − 1 ≥ 0.975 + 0.02, also gung (8.1) sicher dann erf¨ullt, wenn 2 #(ε ϑ(1−ϑ) 8 ε
n ϑ(1−ϑ)
≥ #−1 (0.9975) = 2.82 .
Der letzte Wert stammt aus Tabelle A im Anhang. Wegen ϑ(1−ϑ) ≤ 1/4 bekommen wir somit f¨ur n = 1000 und α = 0.025 die hinreichende Bedingung √ ε ≥ 2.82/ 4000 ≈ 0.0446 . Gegen¨uber der ersten Methode ist also das Konfidenzintervall mehr als halbiert, trotz (allerdings pauschaler) Ber¨ucksichtigung des Approximationsfehlers. Wenn das resultierende Konfidenzintervall noch zu groß ist f¨ur die angestrebte Genauigkeit der Sch¨atzung, muss man mehr Beobachtungen machen, also den Reißnagel h¨aufiger werfen. Wie oft man werfen muss, um ein Konfidenzintervall vorgegebener L¨ange zu einem vorgegebenen Niveau angeben zu k¨onnen, kann man leicht anhand der obigen Rechnung (oder der in der ersten Methode) ermitteln. F¨ur die dritte und genaueste Methode ben¨otigen wir die folgenden Eigenschaften der Binomialverteilung.
230
8 Konfidenzbereiche
(8.8) Lemma: Monotonie-Eigenschaften der Binomialverteilung. Sei n ≥ 1 und X = {0, . . . , n}. Dann gilt: (a) F¨ur jedes 0 < ϑ < 1 ist die Funktion X x → Bn,ϑ ({x}) strikt wachsend f¨ur x < &(n + 1)ϑ' und strikt fallend f¨ur x > &(n + 1)ϑ', also maximal f¨ur x = &(n + 1)ϑ'. (b) F¨ur jedes 0 = x ∈ X ist die Funktion ϑ → Bn,ϑ ({x, . . . , n}) auf [0, 1] stetig und strikt wachsend. Genauer besteht die folgende Beziehung zur BetaVerteilung: Bn,ϑ ({x, . . . , n}) = β x,n−x+1 ([0, ϑ]) . Beweis: (a) F¨ur jedes x ≥ 1 gilt (n − x + 1)ϑ Bn,ϑ ({x}) = , Bn,ϑ ({x − 1}) x(1 − ϑ) und dieser Quotient ist genau dann gr¨oßer als 1, wenn x < (n + 1)ϑ. (b) Seien U1 , . . . , Un unabh¨angige und auf [0,1] gleichm¨aßig verteilte Zufallsvariablen. Nach Satz (3.24) sind dann 1[0,ϑ] ◦ U1 , . . . , 1[0,ϑ] ◦ Un Bernoulli’sche Zufallsvariablen zum Parameter ϑ, und wegen Satz (2.9) hat daher die Summe ' Sϑ = ni=1 1[0,ϑ] ◦ Ui die Binomialverteilung Bn,ϑ , d. h. es gilt Bn,ϑ ({x, . . . , n}) = P (Sϑ ≥ x) . Nun besagt aber die Bedingung Sϑ ≥ x, dass mindestens x der Zufallszahlen U1 , . . . , Un unterhalb von ϑ liegen. Dies ist genau dann der Fall, wenn Ux:n ≤ ϑ f¨ur die x-te Ordnungsstatistik Ux:n (also den x-kleinsten der Werte U1 , . . . , Un ). Wie in Abschnitt 2.5.3 gezeigt, tritt dies mit Wahrscheinlichkeit β x,n−x+1 ([0, ϑ]) ein. Dies beweist die behauptete Beziehung zwischen Binomial- und Beta-Verteilung. Da die Beta-Verteilung eine strikt positive Dichte hat, ergibt sich insbesondere die behauptete Stetigkeit und strikte Monotonie in ϑ. (F¨ur einen alternativen, rein formalen Beweis siehe Aufgabe 8.8.) 3 Jetzt sind wir vorbereitet f¨ur die 3. Methode: Verwendung der Binomial- und Beta-Quantile. Im Unterschied zu den vorigen beiden Verfahren machen wir jetzt nicht mehr den symmetrischen, in der relativen H¨aufigkeit x/n zentrierten Ansatz (8.7), sondern verwenden direkt das Verfahren (8.2). Wir m¨ussen dann zu jedem ϑ ∈ ]0, 1[ ein Cϑ mit Bn,ϑ (Cϑ ) ≥ 1 − α finden. Lemma (8.8a) zeigt, dass Cϑ ein geeignetes Mittelst¨uck“ von ” X = {0, . . . , n} sein sollte, und da uns Abweichungen nach oben und nach unten gleich unwillkommen sind, schneiden wir links und rechts die gleiche Wahrscheinlichkeit α/2 ab. Wir setzen also Cϑ = {x− (ϑ), . . . , x+ (ϑ)}
8.2 Konfidenzintervalle im Binomialmodell
231
mit x− (ϑ) = max x ∈ X : Bn,ϑ ({0, . . . , x − 1}) ≤ α/2 , x+ (ϑ) = min x ∈ X : Bn,ϑ ({x + 1, . . . , n}) ≤ α/2 . Mit anderen Worten: x− (ϑ) ist das gr¨oßte α/2-Quantil von Bn,ϑ und x+ (ϑ) das kleinste α/2-Fraktil. Um das zu einem Beobachtungswert x geh¨orende Konfidenzintervall C(x) zu finden, m¨ussen wir die Bedingung x ∈ Cϑ nach ϑ aufl¨osen. Dies ¨ gelingt mit Hilfe von Lemma (8.8b): F¨ur x = 0 liefert uns dies die Aquivalenz (8.9)
x ≤ x+ (ϑ) ⇔ β x,n−x+1 ([0, ϑ]) = Bn,ϑ ({x, . . . , n}) > α/2 ⇔ ϑ > p− (x) := das α/2-Quantil von β x,n−x+1 .
Setzen wir p− (0) = 0, so gilt die Beziehung x ≤ x+ (ϑ) ⇔ ϑ > p− (x) ebenfalls f¨ur x = 0. Genauso erhalten wir x ≥ x− (ϑ) ⇔ ϑ < p+ (x), wobei f¨ur x < n (8.10)
p+ (x) := das α/2-Fraktil von β x+1,n−x = 1 − p− (n − x) ,
und p+ (x) = 1 f¨ur x = n. Die Bedingung x ∈ Cϑ ist also gleichbedeutend mit der Bedingung p− (x) < ϑ < p+ (x). Das Verfahren (8.2) liefert uns daher das folgende Ergebnis. (8.11) Satz: Konfidenzintervalle im Binomialmodell. Im Binomialmodell ({0, . . . , n}, Bn,ϑ : 0 < ϑ < 1) seien zu 0 < α < 1 die Funktionen p− und p+ durch (8.9) und (8.10) definiert. Dann ist die Abbildung x → ]p− (x), p+ (x)[ ein Konfidenzintervall f¨ur ϑ zum Irrtumsniveau α. Die Funktionen p− und p+ sind u¨ brigens auch f¨ur nicht ganzzahlige x definiert. Abbildung 8.1 zeigt gerade diese stetigen Interpolationen f¨ur die Parameterwerte n = 20, α = 0.1.
Wie bestimmt man p− und p+ ? F¨ur kleine n kann man Tafeln der Binomialverteilung benutzen (wie z. B. in [49]) oder auch die Tabelle C der F -Verteilungen, die uns im n¨achsten Kapitel begegnen werden und eng mit den Beta-Verteilungen zusammenh¨angen; siehe Bemerkung (9.14) dort. Alternativ kann man den Mathematica-Befehl Quantile[BetaDistribution[a,b],q] f¨ur das q-Quantil von β a,b benutzen. F¨ur verschiedene Werte von n und α erh¨alt man zum Beispiel die Tabelle 8.3. Vergleicht man diese mit den Ergebnissen der ersten beiden Methoden, so sieht man, dass die hier hergeleiteten Konfidenzintervalle am k¨urzesten sind. Dies gilt insbesondere, wenn x/n nahe bei 0 oder 1 liegt, und in dem Fall ist auch die Asymmetrie bez¨uglich des Sch¨atzwerts x/n besonders augenf¨allig. F¨ur großes n kann man auch hier die Normalapproximation x − nϑ Bn,ϑ ({0, . . . , x}) ≈ # √ nϑ(1 − ϑ)
232
8 Konfidenzbereiche
Tabelle 8.3: Konfidenzintervalle im Binomialmodell. Die Intervallgrenzen p− (x) und p+ (x) sind ab- bzw. aufgerundet. δ(x) = p+ (x) − p− (x) ist die Intervall-L¨ange. Aus Symmetriegr¨unden braucht nur der Fall x ≤ n/2 betrachtet zu werden.
x/n
.05
.1
.15
.2
n = 20, α = .2 .25 .3 .35
.4
.45
.5
p− (x) p+ (x)
.0052 .0269 .0564 .0902 .1269 .1658 .2066 .2490 .2929 .3381 .1810 .2448 .3042 .3607 .4149 .4673 .5181 .5674 .6153 .6619
δ(x)
.1758 .2179 .2478 .2705 .2880 .3015 .3115 .3184 .3224 .3238
x/n
.05
.1
.15
n = 100, α = .1 .2 .25 .3 .35
.4
.45
.5
p− (x) p+ (x)
.0199 .0552 .0947 .1366 .1801 .2249 .2707 .3175 .3651 .4136 .1023 .1638 .2216 .2772 .3314 .3843 .4361 .4871 .5372 .5864
δ(x)
.0824 .1086 .1269 .1406 .1513 .1594 .1654 .1696 .1721 .1728
x/n
.05
.1
.15
n = 1000, α = .02 .2 .25 .3 .35
.4
.45
.5
p− (x) p+ (x)
.0352 .0790 .1246 .1713 .2186 .2666 .3150 .3639 .4131 .4627 .0684 .1242 .1782 .2311 .2834 .3350 .3862 .4369 .4873 .5373
δ(x)
.0332 .0452 .0536 .0598 .0648 .0684 .0712 .0730 .0742 .0746
benutzen. (Wer auf gr¨oßere Genauigkeit Wert legt, sollte die Approximation (5.22) mit Diskretheitskorrektur verwenden, auf die wir hier der Einfachheit halber verzichten.) Dann bestimmt man p+ (x) als L¨osung der Gleichung
α x − nϑ = # √ 2 nϑ(1 − ϑ) (in der Variablen ϑ), die durch Anwendung von #−1 und Quadrieren in (8.12)
(x − nϑ)2 = nϑ(1 − ϑ) #−1 (α/2)2
u¨ bergeht. Das α/2-Quantil #−1 (α/2) der Standardnormalverteilung N0,1 entnimmt man dann der Tabelle A und l¨ost die quadratische Gleichung (8.12) f¨ur ϑ. Wegen #−1 (α/2) < 0 ist p+ (x) die gr¨oßere der beiden L¨osungen von (8.12). Analog bestimmt man p− (x) als L¨osung der Gleichung
α x − nϑ = , 1−# √ 2 nϑ(1 − ϑ) welche infolge der Antisymmetrie von # ebenfalls auf (8.12) f¨uhrt. Folglich ergibt sich p− (x) als die kleinere L¨osung von (8.12). Vergleicht man die so hergeleiteten
233
8.3 Ordnungsintervalle
Konfidenzintervalle f¨ur n = 1000, α = 0.02 mit denen in Tabelle 8.3, so findet man noch Abweichungen in der Gr¨oßenordnung 10−3 . Der Approximationsfehler ist also zwar gering, aber durchaus noch bemerkbar.
8.3
Ordnungsintervalle
In vielen Anwendungssituationen ist es nicht von vornherein klar, dass nur eine bestimmte Klasse {Pϑ : ϑ ∈ } von Wahrscheinlichkeitsmaßen bei der Modellbildung in Betracht gezogen werden muss. Man denke etwa an Beispiel (8.6) vom Vergleich zweier Schlafmittel: Ist die Normalverteilungsannahme dort wirklich gerechtfertigt? Man interessiert sich daher f¨ur Methoden, die nur geringf¨ugige Annahmen an die Wahrscheinlichkeitsmaße ben¨otigen und nicht die besonderen Eigenschaften eines speziellen Modells ausnutzen, sondern ziemlich universell“ g¨ultig sind. Solche Me” thoden heißen nichtparametrisch, weil die Klasse der Wahrscheinlichkeitsmaße dann nicht mehr durch eine endlichdimensionale Parametermenge indiziert werden kann. Hier soll eine solche Methode vorgestellt werden, welche die Ordnungsstruktur der reellen Zahlen ausnutzt (und deren lineare Struktur ignoriert). Gegeben seien n unabh¨angige Beobachtungen X1 , . . . , Xn mit Werten in R und einer unbekannten Verteilung Q. Welche Information u¨ ber Q k¨onnen wir aus den ¨ Beobachtungen erschließen? Um einen Uberblick zu bekommen, wird man als erstes die erhaltenen Beobachtungswerte x1 , . . . , xn auf der reellen Achse markieren. Wenn nicht gerade zwei von ihnen u¨ bereinstimmen, werden diese Werte dadurch automatisch der Gr¨oße nach geordnet. Dies f¨uhrt uns auf den Begriff der Ordnungsstatistik, dem wir schon in Abschnitt 2.5.3 begegnet sind und den wir jetzt allgemein einf¨uhren wollen. Um zu vermeiden, dass zwei verschiedene Beobachtungen den gleichen Wert annehmen k¨onnen, wollen wir im Folgenden der Einfachheit halber annehmen, dass die Verteilung Q der Einzelbeobachtungen Xi die Bedingung Q({x}) = 0
(8.13)
f¨ur alle x ∈ R
erf¨ullt. Ein Wahrscheinlichkeitsmaß Q auf (R, B ) mit der Eigenschaft (8.13) heißt stetig, diffus oder atomfrei. Die Bedingung (8.13) ist gleichbedeutend mit der Stetigkeit der Verteilungsfunktion FQ und insbesondere immer dann erf¨ullt, wenn Q eine Dichtefunktion besitzt. Sie stellt sicher, dass (8.14) P Xi = Xj f¨ur alle i = j = 1 . Sind n¨amlich i = j und + ≥ 2 beliebig gegeben, t0 = −∞, t+ = ∞ sowie tk ein k/+-Quantil von Q f¨ur 0 < k < +, so gilt Q(]tk−1 , tk ]) = 1/+ f¨ur 1 ≤ k ≤ + und daher + + / , P (Xi = Xj ) ≤ P Q(]tk−1 , tk ])2 = 1/+ . Xi , Xj ∈ ]tk−1 , tk ] ≤ k=1
k=1
234
8 Konfidenzbereiche
F¨ur + → ∞ folgt P (Xi = Xj ) = 0. Wir brauchen uns im Folgenden daher nicht um m¨ogliche Bindungen“ Xi = Xj zu k¨ummern. ” Definition: Die Ordnungsstatistiken X1:n , . . . , Xn:n der Zufallsvariablen X1 , . . . , Xn sind definiert durch die Rekursion X1:n = min Xi , Xj :n = min Xi : Xi ≥ Xj −1:n f¨ur 1 < j ≤ n. 1≤i≤n
Wegen (8.14) gilt dann fast sicher X1:n < X2:n < · · · < Xn:n ,
{X1:n , . . . , Xn:n } = {X1 , . . . , Xn } .
Kurz: F¨ur jede Realisierung von X1 , . . . , Xn ist Xj :n der j -kleinste unter den realisierten Werten. Die Situation wird in Abbildung 8.3 illustriert. X6 X3 • • X1:8 X2:8
X5 • X3:8
X1 • X4:8
X8 X4 • • X5:8 X6:8
X2 • X7:8
X7 • X8:8
Abbildung 8.3: Die Zuordnung zwischen den Beobachtungen X1 , . . . , X8 und den zugeh¨origen Ordnungsstatistiken X1:8 , . . . , X8:8 .
Die folgende Bemerkung liefert eine weitere Charakterisierung der Ordnungsstatistiken. (8.15) Bemerkung: Empirische Verteilung. Die Ordnungsstatistiken Xj :n stehen in ' eineindeutiger Beziehung zur empirischen Verteilung L = n1 nj=1 δXj der Zufallsvariablen X1 , . . . , Xn , also dem (zuf¨alligen) Wahrscheinlichkeitsmaß auf R, das jeder der (zuf¨alligen) Beobachtungen Xi das Gewicht 1/n gibt. Einerseits ist n¨amlich Xj :n = min{c ∈ R : L(]−∞, c]) ≥ j/n} das kleinste j/n-Quantil von L, und umgekehrt gilt L =
1 n
'n
j =1 δXj :n .
Wieviel Information enthalten die Ordnungsstatistiken u¨ ber die wahre Verteilung Q der einzelnen Beobachtungen? Zum Beispiel interessiert man sich f¨ur den mitt” leren Wert“ von Q. Im gegenw¨artigen Kontext w¨are es allerdings problematisch, den mittleren Wert“ mit Erwartungswert“ gleichzusetzen, denn die zugelassene ” ” Klasse der stetigen Q enth¨alt auch die langschw¨anzigen“ Wahrscheinlichkeitsma” ße, deren Erwartungswert gar nicht existiert, und das empirische Mittel M kann stark durch Ausreißer (also große absolute Beobachtungswerte) beeinflusst werden. Denn sowohl der Erwartungswert als auch das empirische Mittel basieren auf der linearen Struktur von R. Andrerseits ignorieren sie die Ordnungsstruktur von R, die von den Ordnungsstatistiken ausgenutzt wird. Der mittlere Wert“ von Q im Sinne der ”
235
8.3 Ordnungsintervalle
Ordnungsstruktur von R ist nun gerade der auf Seite 99 definierte Median. (Dieser h¨angt wirklich nur von der Ordnungsstruktur ab, denn ist µ ein Median von Q und T : R → R ordnungstreu, also monoton wachsend, so ist T (µ) ein Median von Q ◦ T −1 .) In der Tat lassen sich nun mit Hilfe der Ordnungsstatistiken Konfidenzintervalle f¨ur den Median konstruieren. F¨ur ein stetiges Wahrscheinlichkeitsmaß Q bezeichnen wir mit µ(Q) einen beliebigen Median von Q. Wegen (8.13) gilt dann (8.16)
Q(]−∞, µ(Q)]) = Q([µ(Q), ∞[) = 1/2 .
Zur Abk¨urzung schreiben wir (8.17)
bn (α) = max{1 ≤ m ≤ n : Bn,1/2 ({0, . . . , m − 1}) ≤ α}
f¨ur das gr¨oßte α-Quantil der Binomialverteilung Bn,1/2 . (8.18) Satz: Ordnungsintervalle f¨ur den Median. Seien X1 , . . . , Xn unabh¨angige reelle Zufallsvariablen mit unbekannter, als stetig angenommener Verteilung Q. Ist 0 < α < 1 und k = bn (α/2), so ist [Xk:n , Xn−k+1:n ] ein Konfidenzintervall f¨ur µ(Q) zum Irrtumsniveau α. Beweis: Wir legen ohne Einschr¨ankung das kanonische statistische Modell (Rn , B n , Q⊗n : Q stetig) zugrunde und identifizieren die Einzelbeobachtungen X1 , . . . , Xn mit den Projektionen von Rn auf R. F¨ur jedes stetige Q gilt dann Q⊗n (Xk:n > µ(Q)) = Q⊗n
' n i=1
1{Xi ≤ µ(Q)} < k
= Bn,1/2 ({0, . . . , k − 1}) ≤ α/2 , denn die Indikatorvariablen 1{Xi ≤µ(Q)} bilden wegen (8.16) eine Bernoulli-Folge zum Parameter 1/2. Genauso gilt Q⊗n (Xn−k+1:n < µ(Q)) = Bn,1/2 ({0, . . . , k − 1}) ≤ α/2 . Beide Ungleichungen zusammen liefern die Ungleichung Q⊗n (µ(Q) ∈ [Xk:n , Xn−k+1:n ]) ≥ 1 − α , und das ist gerade die Behauptung. 3 Als Anwendung kehren wir zu Beispiel (8.6) zur¨uck. (8.19) Beispiel: Vergleich zweier Schlafmittel. Wie kann man die unterschiedliche Wirkung der beiden Schlafmittel quantifizieren, wenn man die Normalverteilungsannahme in (8.6) f¨ur wenig plausibel h¨alt? Die Differenz der Schlafdauer eines
236
8 Konfidenzbereiche
Patienten hat irgendeine Verteilung Q auf R, die wir idealisierend als stetig annehmen k¨onnen, auch wenn de facto nur gerundete Minutenwerte gemessen werden. Der Median von Q ist ein plausibles Maß f¨ur die mittlere Schlafdauerdifferenz. (Im Fall der Normalverteilungsannahme Q = Nm,v ist µ(Q) = m.) W¨ahlt man wieder das Niveau α = 0.025, so erh¨alt man (etwa mit Hilfe der Binomialtabelle in [49]) in Satz (8.18) den Wert k = b10 (0.0125) = 2 und also aus den Daten in Beispiel (8.6) das Konfidenzintervall [0.8, 2.4]. Bemerkenswerterweise ist dies Intervall (bei diesen Daten) sogar k¨urzer als dasjenige, das wir in Beispiel (8.6) unter der st¨arkeren Normalverteilungsannahme hergeleitet haben. Wenden wir uns abschließend noch einmal der Bemerkung (8.15) zu. Dort haben wir gesehen, dass die j -te Ordnungsstatistik Xj :n gerade als das kleinste j/n-Quantil (bzw. das eindeutige j − 21 /n-Quantil) der empirischen Verteilung ' L = n1 nj=1 δXj aufgefasst werden kann. Allgemein heißen die Quantile von L die Stichprobenquantile. Von besonderem Interesse ist der Median falls n = 2k + 1, Xk+1:n µ(L) = (Xk:n + Xk+1:n )/2 falls n = 2k. von L, der sogenannte Stichprobenmedian. (Dies ist offenbar der einzige Median, wenn n ungerade ist, und andernfalls der zentral gelegene.) In a¨ hnlicher Weise definiert man auch die Stichprobenquartile. ¨ Diese Gr¨oßen werden gerne verwendet, wenn immer man sich einen ersten Uberblick u¨ ber einen vorliegenden Datensatz verschaffen will, und in dem sogenannten Box-Plot oder Kisten-Diagramm graphisch dargestellt, siehe Abbildung 8.4. Gem¨aß — gr¨oßte Beobachtung
— oberes Stichproben-Quartil — Stichproben-Median — unteres Stichproben-Quartil — kleinste Beobachtung Abbildung 8.4: Gestalt eines Box-Plot.
Satz (8.18) definiert die Kiste im Box-Plot ein Konfidenzintervall f¨ur den wahren Median zum Irrtumsniveau√α = 2Bn,1/2 ({0, . . . , &n/4'}), welches f¨ur großes n n¨aherungsweise mit 2#(− n/2) u¨ bereinstimmt. (Es gibt Varianten des Box-Plot, in denen die Ausreißer, d. h. die untypisch großen oder kleinen Beobachtungen, in bestimmter Weise definiert und gesondert dargestellt werden.)
Aufgaben
237
Aufgaben 8.1. Gegeben sei das statistische Modell (R, B , Pϑ : ϑ ∈ R), wobei Pϑ das Wahrscheinlichkeitsmaß mit Dichtefunktion ρϑ (x) = e−(x−ϑ) 1[ϑ,∞[ (x) sei. Konstruieren Sie ein minimales Konfidenzintervall f¨ur ϑ zum Irrtumsniveau α. 8.2. Betrachten Sie die Situation von Aufgabe 7.3. Sei T der dort gefundene MaximumLikelihood-Sch¨atzer f¨ur N . Bestimmen Sie einen kleinstm¨oglichen Konfidenzbereich f¨ur N zum Niveau α von der Gestalt C(x) = {T (x), . . . , c(T (x))}. 8.3. Kombination von Konfidenzintervallen. Seien (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell und τ1 (ϑ), τ2 (ϑ) zwei reelle Kenngr¨oßen f¨ur ϑ. Nehmen Sie an, Sie h¨atten zu beliebig gew¨ahlten Irrtumsniveaus α1 bzw. α2 bereits Konfidenzintervalle C1 (·) bzw. C2 (·) f¨ur τ1 bzw. τ2 zur Verf¨ugung. Konstruieren Sie hieraus ein Konfidenzrechteck f¨ur τ = (τ1 , τ2 ) zu einem vorgegebenen Irrtumsniveau α. 8.4. Betrachten Sie das n-fache Produktmodell (Rn , B n , U[ϑ,2ϑ] ⊗n : ϑ > 0), wobei U[ϑ,2ϑ] die Gleichverteilung auf [ϑ, 2ϑ] sei. F¨ur ϑ > 0 sei Tϑ = max1≤i≤n Xi /ϑ . (a) F¨ur welches Wahrscheinlichkeitsmaß Q auf (R, B ) ist (Q; Tϑ : ϑ > 0) ein Pivot? (b) Konstruieren Sie mit Hilfe dieses Pivots zu gegebenem Irrtumsniveau α ein Konfidenzintervall minimaler L¨ange f¨ur ϑ. 8.5. Sei (Rn , B n , Q⊗n ϑ : ϑ ∈ ) ein reelles n-faches ' Produktmodell mit stetigen Verteilungsfunktionen Fϑ = FQϑ . Sei ferner Tϑ = − ni=1 log Fϑ (Xi ), ϑ ∈ . F¨ur welches Wahrscheinlichkeitsmaß Q auf (R, B ) ist (Q; Tϑ : ϑ ∈ ) ein Pivot? Hinweis: Aufgabe 1.16, Korollar (3.36). 8.6. Ein Experimentator macht n unabh¨angige normalverteilte Messungen mit unbekanntem Erwartungswert m. Die Varianz v > 0 meint er zu kennen. (a) Welches Konfidenzintervall f¨ur m wird er zu einem vorgegebenen Irrtumsniveau α angeben? (b) Welches Irrtumsniveau hat dies Konfidenzintervall, wenn die Varianz in Wirklichkeit beliebige positive Werte annehmen kann? (Hinweis: Verwenden Sie Beispiel (3.32).) 8.7. Im Jahr 1879 machte der amerikanische Physiker (und Nobel-Preistr¨ager von 1907) Albert Abraham Michelson f¨unf Messreihen zu je 20 Messungen zur Bestimmung der Lichtgeschwindigkeit; die Ergebnisse finden Sie unter http://lib.stat.cmu.edu/DASL/Datafiles/Michelson.html. Nehmen Sie an, dass die Messergebnisse normalverteilt sind mit unbekanntem m und v, und bestimmen Sie f¨ur jede einzelne Messreihe sowie f¨ur alle Messungen zusammen ein Konfidenzintervall f¨ur die Lichtgeschwindigkeit zum Irrtumsniveau 0.02. 8.8. Beta-Darstellung der Binomialverteilung. Zeigen Sie durch Differentiation nach p: F¨ur alle 0 < p < 1, n ∈ N und k ∈ {0, 1, . . . , n − 1} gilt . p n Bn,p ({k + 1, k + 2, . . . , n}) = (n − k) t k (1 − t)n−k−1 dt = β k+1,n−k ([0, p]). k 0
238
8 Konfidenzbereiche
8.9. Konfidenzpunkte. Gegeben sei das Produktmodell (Rn , B n , Pϑ : ϑ ∈ Z) mit Pϑ = Nϑ,v ⊗n f¨ur eine bekannte Varianz v > 0. Sei ni : R → Z die nearest-integer-Funktion“, d. h. ” f¨ur x ∈ R sei ni(x) ∈ Z die ganze Zahl mit kleinstem Abstand von x, mit der Vereinbarung ni z − 21 = z f¨ur z ∈ Z. Zeigen Sie: 2 = ni(M) ist ein Maximum-Likelihood-Sch¨atzer f¨ur ϑ. (a) M 2 besitzt unter Pϑ die diskrete Verteilung Pϑ (M 2 = k) = #(a+ (k)) − #(a− (k)) mit (b) M √ a± (k) = (k − ϑ ± 21 ) n/v, und ist erwartungstreu. 2 = ϑ) ≥ 1 − α f¨ur alle (c) Zu jedem α gibt es ein kleinstes n ∈ N (welches?) mit Pϑ (M ϑ ∈ Z. 8.10. Zur Geschichte der EU: Die FAZ vom 23.06.1992 berichtete, dass 26% der Deutschen mit einer einheitlichen europ¨aischen W¨ahrung einverstanden w¨aren; ferner seien 50% f¨ur eine ¨ Offnung der EU nach Osten. Die Zahlenwerte basierten auf einer Allensbach-Umfrage unter rund 2200 Personen. W¨aren genauere Prozentangaben (also z. B. mit einer Stelle nach dem Komma) sinnvoll gewesen? Betrachten Sie hierzu die L¨ange der approximativen Konfidenzintervalle zum Irrtumsniveau 0.05! ¨ 8.11. Im Abwasserbereich eines Chemiewerkes werden n Fische gehalten. Aus deren Uberlebenswahrscheinlichkeit ϑ kann auf den Verschmutzungsgrad des Wassers geschlossen werden. Wie groß muss n sein, damit man ϑ aus der Anzahl der toten Fische mit 95%iger Sicherheit ˇ bis auf eine Abweichung von ± 0.05 erschließen kann? Verwenden Sie (a) die CebyševUngleichung, (b) die Normalapproximation. 8.12. Gegeben sei das Binomialmodell ({0, . . . , n}, P({0, . . . , n}), Bn,ϑ : 0 < ϑ < 1). Bestimmen Sie f¨ur großes n mit Hilfe des zentralen Grenzwertsatzes ein approximatives Konfidenzintervall f¨ur ϑ zum Irrtumsniveau α = 0.02. Verwenden Sie dabei die Methode der Binomialquantile. Welche Intervallgrenzen ergeben sich f¨ur n = 1000 und x/n = 0.05, 0.15, 0.25, 0.5? 8.13. Mehrdeutigkeit von Quantilen. Sei Q ein Wahrscheinlichkeitsmaß auf (R, B ), 0 < α < 1, q ein α-Quantil von Q, und q > q. Zeigen Sie: Genau dann ist auch q ein α-Quantil von Q, wenn Q(]q, q [) = 0. 8.14. Mediantreue Sch¨atzer. Betrachten Sie das nichtparametrische Produktmodell (Rn , B n , Q⊗n : Q stetig). Ein Sch¨atzer T f¨ur eine reelle Kenngr¨oße τ (Q) heißt mediantreu, wenn f¨ur jedes stetige Q gilt: τ (Q) ist ein Median von Q⊗n ◦ T −1 . Zeigen Sie: (a) Ist T ein mediantreuer Sch¨atzer f¨ur τ (Q) und f : R → R monoton, so ist f ◦ T ein mediantreuer Sch¨atzer f¨ur f ◦ τ (Q). Unter welcher Voraussetzung an f gilt die analoge Aussage f¨ur erwartungstreue Sch¨atzer? (b) Ist T der Stichprobenmedian, so ist der Median µ(U]0,1[ ) = 1/2 der Gleichverteilung auf ]0, 1[ auch ein Median von U]0,1[ ⊗n ◦ T −1 . (c) Der Stichprobenmedian ist ein mediantreuer Sch¨atzer f¨ur den Median µ(Q). (Hinweis: Proposition (1.30).) 8.15. Zeichnen Sie f¨ur die Daten aus Beispiel (8.6) die empirische Verteilungsfunktion, d. h. die Verteilungsfunktion FL der empirischen Verteilung L. Bestimmen Sie den StichprobenMedian und die Stichproben-Quartile und zeichnen Sie den zugeh¨origen Box-Plot.
239
Aufgaben
8.16. Sensitivit¨at von Stichprobenmittel, -median und getrimmten Mitteln. Sei Tn : Rn → R eine Statistik, welche n reellen Beobachtungswerten einen Mittelwert“ zuordnet. Wie stark ” Tn bei gegebenen Werten x1 , . . . , xn−1 ∈ R von einer Einzelbeobachtung x ∈ R abh¨angt, wird beschrieben durch die Sensitivit¨atsfunktion Sn (x) = n Tn (x1 , . . . , xn−1 , x) − Tn−1 (x1 , . . . , xn−1 ) . Bestimmen und zeichnen Sie Sn in den F¨allen, wenn Tn (a) der Stichprobenmittelwert, (b) der Stichprobenmedian, und (c) das α-getrimmte Mittel (x&nα'+1:n + · · · + xn−&nα':n )/(n − 2&nα') zu einem Trimm-Niveau 0 ≤ α < 1/2 ist. Hier bezeichnet xk:n die k-te Ordnungsstatistik von x1 , . . . , xn . 8.17. Verteilungsdichte von Ordnungsstatistiken. Seien X1 , . . . , Xn unabh¨angige, identisch verteilte reelle Zufallsvariablen mit Verteilungsdichte , und die Menge X := { > 0} sei ein Intervall. Bestimmen Sie die Verteilungsdichte der k-ten Ordnungsstatistik Xk:n . Hinweis: Aufgabe 1.16, Abschnitt 2.5.3. 8.18. Normalapproximation von Ordnungsstatistiken. Seien Xi , i ≥ 1, unabh¨angige, identisch verteilte Zufallsvariablen. Die Verteilungsfunktion F = FXi sei differenzierbar mit Ableitung = F ; die zugeh¨orige Quantiltransformation sei F −1 , vgl. (1.30). Sei 0 < p < 1 mit (F −1 (p)) > 0 und jn = &pn' f¨ur n ∈ N. Zeigen Sie: Im Limes n → ∞ gilt √ L n(Xjn :n − F −1 (p)) −→ N0,v mit v = p(1 − p)/(F −1 (p))2 . (Benutzen Sie dazu die Tatsache, dass Korollar (5.23) auch dann noch gilt, wenn die zugrunde liegende Erfolgswahrscheinlichkeit nicht fest ist, sondern von n abh¨angt und gegen p konvergiert.) 8.19. Betrachten Sie die Messdaten von Michelson zur Bestimmung der Lichtgeschwindigkeit, siehe Aufgabe 8.7. Welche Konfidenzintervalle f¨ur die Lichtgeschwindigkeit k¨onnen Sie f¨ur jede einzelne Versuchsreihe sowie aus allen Messungen zusammen angeben, wenn auf eine Verteilungsannahme u¨ ber die Messungen verzichtet werden soll? Legen Sie das gleiche Irrtumsniveau α = 0.02 wie in Aufgabe 8.7 zugrunde, und vergleichen Sie die Ergebnisse.
9 Rund um die Normalverteilung
Gegenstand dieses kurzen Kapitels sind einige zentrale Verteilungen der Statistik. Und zwar die Verteilungen von Zufallsvariablen, die durch bestimmte Transformationen aus unabh¨angigen standardnormalverteilten Zufallsvariablen hervorgehen. Bei linearen Transformationen entstehen die allgemeinen mehrdimensionalen Normaloder Gauß-Verteilungen, und gewisse quadratische oder gebrochen quadratische Abbildungen f¨uhren auf die Chiquadrat-, F - und t-Verteilungen, die bei der Konstruktion von Konfidenzintervallen und Tests in normalverteilten oder asymptotisch normalverteilten Modellen eine große Rolle spielen.
9.1
Die mehrdimensionale Normalverteilung
Wir beginnen mit einem grundlegenden Hilfsmittel aus der Analysis, welches das Transformationsverhalten von Wahrscheinlichkeitsdichten beschreibt. (9.1) Proposition: Transformation von Dichtefunktionen. Sei X ⊂ Rn offen und P n ) mit Dichtefunktion . Sei ferner Y ⊂ Rn ein Wahrscheinlichkeitsmaß auf (X, BX offen und T : X → Y ein Diffeomorphismus, d. h. eine stetig differenzierbare Bijektion mit Jacobi-Determinante det DT (x) = 0 f¨ur alle x ∈ X. Dann hat die Verteilung P ◦ T −1 von T auf Y die Dichtefunktion T (y) = (T −1 (y)) | det DT −1 (y)| ,
y ∈ Y.
Beweis: F¨ur jedes offene A ⊂ Y gilt nach dem Transformationssatz f¨ur mehrdimensionale Lebesgue-Integrale (vgl. etwa [20, 35]) . . (x) dx = (T −1 (y)) | det DT −1 (y)| dy . P ◦ T −1 (A) = T −1 A
A
Nach dem Eindeutigkeitssatz (1.12) gilt dieselbe Gleichung dann auch f¨ur alle A ∈ n , und dies ist gerade die Behauptung. 3 BY Wir wenden dies Ergebnis an auf affine Transformationen von Zufallsvektoren, die aus unabh¨angigen, standardnormalverteilten Zufallsvariablen bestehen. F¨ur eine beliebige Matrix B bezeichnen wir mit Bij den Eintrag in der i-ten Zeile und j -ten
241
9.1 Die mehrdimensionale Normalverteilung
Spalte und mit B die transponierte Matrix. Wir schreiben E = (δij )1≤i,j ≤n f¨ur die Einheitsmatrix in der jeweils vorliegenden Dimension n. (9.2) Satz: Multivariate Normalverteilungen. Seien X1 , . . . , Xn unabh¨angige, nach N0,1 verteilte Zufallsvariablen, X = (X1 , . . . , Xn ) der zugeh¨orige zuf¨allige Spaltenvektor, B ∈ Rn×n eine regul¨are reelle n × n-Matrix, und m ∈ Rn ein fester Spaltenvektor. Dann hat Y := BX + m die Verteilungsdichte (9.3) φm,C (y) = (2π )−n/2 | det C|−1/2 exp − 21 (y − m)C−1 (y − m) , y ∈ Rn . Dabei ist C = BB, und f¨ur die Koordinaten Yi von Y gilt E(Yi ) = mi und Cov(Yi , Yj ) = Cij , 1 ≤ i, j ≤ n. Beweis: Da die Koordinaten Xi von X untereinander unabh¨angig sind, hat X gem¨aß Beispiel (3.30) die Produktverteilungsdichte n -
φ0,1 (xi ) = (2π )−n/2 exp −
1 2x x
= φ0,E (x) ,
i=1
x ∈ Rn . Nach Proposition (9.1) hat somit Y die Verteilungsdichte φ0,E (B−1 (y − m)) |det B−1 | = (2π )−n/2 |det B|−1 exp − 21 (y − m)C−1 (y − m) . Der letzte Ausdruck ist aber nichts anderes als φm,C (y), denn es ist ja |det C| = |det B|2 . Weiter gilt n ,
E(Yi ) = E
Bij Xj + mi =
j =1
n ,
Bij E(Xj ) + mi = mi
j =1
und n ,
Cov(Yi , Yj ) = Cov
k=1
=
n , k,l=1
Bik Xk ,
n ,
Bj l Xl
l=1
Bik Bj l Cov(Xk , Xl ) =
n ,
Bik Bj k = Cij ,
k=1
denn es ist ja Cov(Xk , Xl ) = δkl wegen der Unabh¨angigkeit der Xi . 3 Sei nun C ∈ Rn×n irgendeine positiv definite symmetrische n × n-Matrix. Nach dem Satz von der Hauptachsentransformation aus der linearen Algebra [18, 31] existieren dann eine orthogonale Matrix O und eine Diagonalmatrix D mit Diagonal D1/2 die Diagonalmatrix elementen Dii > 0, so dass √ C = ODO . Bezeichnet dann mit Diagonalelementen Dii und setzt man B = OD1/2 , so ist B regul¨ar, und es
242
9 Rund um die Normalverteilung
gilt C = BB. Folglich ist die Funktion φm,C in (9.3) die Verteilungsdichte eines Zufallsvektors und somit eine Wahrscheinlichkeitsdichte. Sie definiert daher ein Wahrscheinlichkeitsmaß Nn (m, C) auf Rn .Aufgrund des Satzes hat dies Wahrscheinlichkeitsmaß den Erwartungswertvektor m und die Kovarianzmatrix C. Definition: F¨ur jede positiv definite symmetrische Matrix C ∈ Rn×n und jedes m ∈ Rn heißt das Wahrscheinlichkeitsmaß Nn (m, C) auf (Rn , B n ) mit der Dichtefunktion φm,C aus (9.3) die n-dimensionale oder multivariate Normal- oder GaußVerteilung mit Erwartungswertvektor m und Kovarianzmatrix C. Insbesondere gilt Nn (0, E) = N0,1 ⊗n ; dies ist die multivariate Standardnormalverteilung.
0.1
0.05
0 -2 -1 0 1 2
-2
-1
0
1
2
Abbildung 9.1: Dichte der zentrierten bivariaten Normalverteilung mit Kovarianzmatrix 2 0 0 1 . Die (nicht gezeigten) Linien konstanter H¨ohe sind Ellipsen.
Satz (9.2) liefert nebenbei die folgende Invarianzeigenschaft von Nn (0, E) . (9.4) Korollar: Rotationsinvarianz der multivariaten Standardnormalverteilung. Die Verteilung Nn (0, E) = N0,1 ⊗n ist invariant unter allen orthogonalen Transformationen (also den Drehspiegelungen) von Rn . Beweis: Sei O eine orthogonale n × n-Matrix und X ein Nn (0, E)-verteilter Zufallsvektor. (Wir identifizieren O mit der Drehspiegelung x → Ox von Rn .) Dann ist Nn (0, E) ◦ O−1 gerade die Verteilung von OX. Nach Satz (9.2) ist letztere aber Nn (0, C) mit C = OO = E. 3 Wie verhalten sich die multivariaten Normalverteilungen unter allgemeinen affinen Transformationen? (9.5) Satz: Transformation multivariater Normalverteilungen. Sei Y ein Nn (m, C)verteilter Zufallsvektor in Rn , k ≤ n, A ∈ Rk×n eine reelle k × n-Matrix mit vollem Rang, und a ∈ Rk . Dann hat der Zufallsvektor Z = AY + a die k-dimensionale Normalverteilung Nk (Am + a, ACA) .
9.1 Die mehrdimensionale Normalverteilung
243
Beweis: Ohne Einschr¨ankung setzen wir a = 0 und m = 0, denn der allgemeine Fall kann hierauf durch Koordinatenverschiebung zur¨uckgef¨uhrt werden. Ferner k¨onnen wir nach Satz (9.2) ohne Einschr¨ankung annehmen, dass Y = BX f¨ur einen Nn (0, E)-verteilten Zufallsvektor X und eine regul¨are Matrix B mit BB = C. Sei L der von den Zeilenvektoren der k×n-Matrix AB aufgespannte Teilraum von Rn . Da A vollen Rang hat, hat L die Dimension k. Nach dem Gram-Schmidt’schen Orthonormierungsverfahren [18, 31] existiert eine Orthonormalbasis u1 , . . . , uk von L, die sich zu einer Orthonormalbasis u1 , . . . , un von Rn erg¨anzen l¨asst. Sei O die orthogonale Matrix mit Zeilenvektoren u1 , . . . , un . Dann gilt AB = (R|0) O f¨ur die regul¨are k × k-Matrix R, welche den Basiswechsel von L beschreibt; (R|0) bezeichnet die durch Nullen erg¨anzte k × n-Matrix. Nach Korollar (9.4) ist der Zufallsvektor X˜ = OX wieder Nn (0, E)-verteilt, d. h. seine Koordinaten X˜ 1 , . . . , X˜ n sind unabh¨angig und N0,1 -verteilt.Also sind erst recht die Koordinaten des gek¨urzten Zufallsvektors Xˆ = (X˜ 1 , . . . , X˜ k ) unabh¨angig und N0,1 -verteilt. Nach Satz (9.2) hat daher AY = ABX = (R|0)X˜ = RXˆ die Verteilung Nk (0, RR). Da nun aber RR = (R|0)(R|0) = (R|0) OO(R|0) = ACA ,
ist dies gerade die Behauptung. 3
Im Spezialfall n = 2, k = 1, C = v01 v02 und A = (1, 1) liefert uns der Satz nochmals die Faltungsaussage aus Beispiel (3.32).
Manchmal ist es n¨utzlich, die mehrdimensionalen Normalverteilungen auch f¨ur solche symmetrische Matrizen C zu definieren, welche nur nichtnegativ definit sind und nicht positiv definit. Mit Hilfe der (bis auf Koordinatenpermutation und Spiegelung eindeutigen) Hauptachsendarstellung C = ODO mit einer orthogonalen Matrix O und einer nichtnegativen Diagonalmatrix D kann dies in der folgenden Weise geschehen. Definition: Sei C ∈ Rn×n eine nichtnegativ definite symmetrische Matrix, und seien eine zugeh¨orige Orthogonalmatrix O und Diagonalmatrix D durch die Hauptachmultivariate Normalsentransformation gegeben. F¨ur jedes m ∈ Rn ist dann die% verteilung Nn (m, C) auf (Rn , B n ) definiert als das Bild von ni=1 N0,Dii unter der affinen Abbildung x → Ox + m. Dabei setzen wir N0,0 = δ0 , die Dirac-Verteilung im Punkte 0 ∈ R. Wegen Satz (9.5) stimmt diese Definition im positiv definiten Fall mit der zuvor gegebenen u¨ berein. Im allgemeinen Fall, wenn 0 ein Eigenwert von C ist mit Vielfachheit k, besitzt Nn (m, C) jedoch keine Dichtefunktion, sondern lebt“ auf einem ” (n − k)-dimensionalen affinen Teilraum von Rn , n¨amlich dem Bild des Kerns ker D von D unter der Bewegung x → Ox + m.
244
9.2
9 Rund um die Normalverteilung
Die χ 2 -, F - und t-Verteilungen
Wenn man die Stichprobenvarianzen von unabh¨angigen normalverteilten Zufallsvariablen kontrollieren m¨ochte, muss man die Verteilung ihrer Quadratsummen kennen. Diese Quadratsummen sind Gamma-verteilt mit ganz bestimmten Parametern. Die grundlegende Beobachtung ist die folgende. (9.6) Bemerkung: Das Quadrat einer Standardnormalvariablen. Ist X eine N0,1 verteilte Zufallsvariable, so hat X 2 die Gamma-Verteilung Γ1/2,1/2 . Beweis: Aus Symmetriegr¨unden hat |X| die Verteilungsdichte 2 φ0,1 auf X = ]0, ∞[. (Den Fall X = 0, der nur mit Wahrscheinlichkeit 0 eintritt, k¨onnen wir ignorieren.) Weiter ist T : x → x 2 ein Diffeomorphismus von X auf sich mit Umkehrfunktion √ T −1 (y) = y. Nach Proposition (9.1) hat also X2 = T (|X|) die Dichtefunktion 1 (1/2) √ T (y) = 2 φ0,1 ( y) 21 y −1/2 = √ e−y/2 y −1/2 = √ γ1/2,1/2 (y) ; π 2π die letzte Gleichung folgt aus der Definition (2.20) der Gamma-Dichten. √Da sich T und γ1/2,1/2 beide zu 1 integrieren, ist notwendigerweise (1/2) = π , und die Behauptung folgt. 3 Aufgrund der Bemerkung besch¨aftigen wir uns etwas genauer mit den GammaVerteilungen. (9.7) Proposition: Zusammenhang zwischen Beta- und Gamma-Verteilungen. Seien α, r, s > 0 und X, Y unabh¨angige Zufallsvariablen mit Gamma-Verteilung Γα,r bzw. Γα,s . Dann sind X + Y und X/(X + Y ) unabh¨angig mit Verteilung Γα,r+s bzw. β r,s . Beweis: Die gemeinsame Verteilung von (X, Y ) ist nach (3.28) und (3.30) das Produktmaß Γα,r ⊗ Γα,s auf X = ]0, ∞[2 mit Dichtefunktion (x, y) = γα,r (x) γα,s (y) =
α r+s x r−1 y s−1 e−α(x+y) , (r) (s)
Wir betrachten den Diffeomorphismus T (x, y) = x + y,
x x+y
von X nach Y := ]0, ∞[ × ]0, 1[. T hat die Umkehrfunktion T −1 (u, v) = (uv, u(1 − v)) mit Funktionalmatrix DT −1 (u, v) =
v u 1 − v −u
.
(x, y) ∈ X .
9.2 Die χ 2 -, F - und t-Verteilungen
245
Es gilt also | det DT −1 (u, v)| = u. Gem¨aß Proposition (9.1) hat also der Zufallsvektor X = T (X, Y ) X + Y, X+Y die Verteilungsdichte T (u, v) = (uv, u(1 − v)) u α r+s = ur+s−1 e−αu v r−1 (1 − v)s−1 (r) (s) (r + s) = B(r, s) γα,r+s (u) βr,s (v) , (u, v) ∈ Y ; (r) (s) im letzten Schritt haben wir die Definitionen (2.20) und (2.22) der Gamma- und Beta-Dichten eingesetzt. Da sich T sowie γα,r+s und βr,s zu 1 integrieren, ist der Vorfaktor notwendigerweise gleich 1, d. h. es gilt (9.8)
B(r, s) =
(r)(s) (r + s)
f¨ur r, s > 0,
und T ist eine Produktdichte mit den behaupteten Faktoren. 3 Die aus der Analysis bekannte Beziehung (9.8) zwischen Beta- und GammaFunktion ist ein h¨ubsches Nebenergebnis des obigen Beweises. Die Verteilungsaussage u¨ ber X + Y ist gleichbedeutend mit der folgenden Faltungseigenschaft, welche das fr¨uhere Korollar (3.36) verallgemeinert. (9.9) Korollar: Faltung von Gamma-Verteilungen. F¨ur alle α, r, s > 0 gilt Γα,r ∗ Γα,s = Γα,r+s , d. h. bei festem Skalenparameter α bilden die Gamma-Verteilungen eine Faltungshalbgruppe. Kombinieren wir dies Korollar mit Bemerkung (9.6), so erhalten wir die folgende Verteilungsaussage f¨ur Quadratsummen von unabh¨angigen, standardnormalverteilten Zufallsvariablen. (9.10) Satz: Die Chiquadrat-Verteilung. X1 , . . . , Xn unabh¨angige N0,1 'n Seien 2 verteilte Zufallsvariablen. Dann hat i=1 Xi die Gamma-Verteilung Γ1/2,n/2 . Definition: F¨ur jedes n ≥ 1 heißt die Gamma-Verteilung χ 2n := Γ1/2,n/2 zu den Parametern 1/2, n/2 mit Dichtefunktion (9.11)
χn2 (x) := γ1/2,n/2 (x) =
x n/2−1 e−x/2 , (n/2) 2n/2
x > 0,
auch die Chiquadrat-Verteilung mit n Freiheitsgraden bzw. kurz die χn2 -Verteilung.
246
9 Rund um die Normalverteilung
Abbildung 9.2 zeigt die Dichtefunktionen χn2 f¨ur einige n. Wie sich zeigen wird, spielen die Chiquadrat-Verteilungen eine zentrale Rolle in der Testtheorie. Zum Beispiel hat die erwartungstreue Stichprobenvarianz V ∗ im Gauß’schen Produktmodell 0.5 0.4 0.3 0.2 0.1
4
2
6
8
Abbildung 9.2: Dichtefunktionen der χn2 -Verteilungen f¨ur n = 1, 2, 3, 4, 7.
eine Chiquadrat-Verteilung, siehe Satz (9.17) unten. Als n¨achstes betrachten wir Quotienten von Quadratsummen standardnormalverteilter Zufallsvariablen. (9.12) Satz: Die Fisher-Verteilungen. Seien X1 , . . . , Xm , Y1 , . . . , Yn unabh¨angige und N0,1 -verteilte Zufallsvariablen. Dann hat der Quotient Fm,n
1 , 2 1 , 2 := Xi Yj m n m
n
i=1
j =1
die Verteilungsdichte x m/2−1 mm/2 nn/2 , x > 0. B(m/2, n/2) (n + mx)(m+n)/2 ' 2 2 Beweis: Nach Satz (9.10) hat X := m i=1 Xi die Gamma-Verteilung χ m = Γ1/2,m/2 'n und Y := j =1 Yj2 die Gamma-Verteilung χ 2n = Γ1/2,n/2 . Außerdem sind X und Y unabh¨angig. Nach Proposition (9.7) hat also Z = X/(X + Y ) die Beta-Verteilung β m/2,n/2 . Nun ist aber (9.13)
fm,n (x) =
Fm.n =
n Z n X = = T (Z) m Y m 1−Z
n x f¨ur den Diffeomorphismus T (x) = m 1−x von ]0, 1[ nach ]0, ∞[. Die Umkehrabbilmy −1 dung ist T (y) = n+my . Nach Proposition (9.1) hat also Fm,n die Verteilungsdichte my mn = fm,n (y) , βm/2,n/2 n+my (n+my)2
wie behauptet. 3
9.2 Die χ 2 -, F - und t-Verteilungen
247
Definition: Die Verteilung Fm,n auf ]0, ∞[ mit Dichtefunktion fm,n gem¨aß (9.13) heißt (nach R.A. Fisher) die Fisher-Verteilung mit m und n Freiheitsgraden, bzw. kurz die Fm,n -Verteilung. Die F -Verteilungen spielen eine Rolle als Verteilungen gewisser Testgr¨oßen in Kapitel 12. Die im vorangegangenen Beweis von Satz (9.12) festgestellte Beziehung zwischen F - und Beta-Verteilungen wird noch einmal in der folgenden Bemerkung festgehalten. (9.14) Bemerkung: Beziehung zwischen Fisher- und Beta-Verteilung. F¨ur alle n x m, n ∈ N gilt Fm,n = β m/2,n/2 ◦ T −1 mit T (x) = m 1−x , d. h. es gilt mc Fm,n (]0, c]) = β m/2,n/2 0, n+mc mc f¨ur alle c > 0. Ist also c das α-Quantil von Fm,n , so ist n+mc das α-Quantil von β m/2,n/2 . Somit bekommt man die Quantile der Beta-Verteilungen mit halbzahligen Parametern aus denen der F -Verteilungen.
Wie sich zeigen wird, spielt die symmetrisch signierte Wurzel aus F1,n“ eine ” besondere Rolle. (9.15) Korollar: Die Student-Verteilungen. Seien X, Y1 , . . . , Yn unabh¨angige, N0,1 -verteilte Zufallsvariablen. Dann hat T =X
: n 1 ' n
j =1
Yj2
die Verteilungsdichte (9.16)
n+1
√ x2 − 2 B(1/2, n/2) n , τn (x) = 1 + n
x ∈ R.
Beweis: Gem¨√ aß Satz (9.12) hat T 2 die Verteilung F1,n . Wegen Proposition (9.1) hat daher |T | = T 2 die Dichtefunktion f1,n (y 2 ) 2y, y > 0. Nun ist T aber offenbar (wegen der Symmetrie von N0,1 ) symmetrisch verteilt, d. h. T und −T haben die gleiche Verteilung. Also hat T die Verteilungsdichte f1,n (y 2 ) |y| = τn (y). 3 Definition: Das Wahrscheinlichkeitsmaß t n auf (R, B ) mit Dichtefunktion τn gem¨aß (9.16) heißt die Student’sche t-Verteilung mit n Freiheitsgraden, oder kurz die tn -Verteilung. F¨ur n = 1 erh¨alt man die Cauchy-Verteilung mit Dichte τ1 (x) = bereits in Aufgabe 2.5 aufgetaucht ist.
1 1 π 1+x 2 , welche
248
9 Rund um die Normalverteilung
Die t-Verteilung wurde 1908 von dem Statistiker W.S. Gosset, der damals bei der Guinness Brauerei arbeitete, unter dem Pseudonym Student“ ver¨offentlicht, da die Brauerei ihren ” Mitarbeitern die Publikation von wissenschaftlichen Arbeiten verbot.
Die Dichtefunktionen τn der tn -Verteilungen f¨ur verschiedene Werte von n finden sich in Abbildung 9.3. Wie man direkt aus (9.16) sieht, streben die τn im Limes n → ∞ gegen φ0,1 , die Dichte der Standardnormalverteilung; vgl. auch Aufgabe 9.10. Allerdings f¨allt τn (x) bei festem n f¨ur |x| → ∞ sehr viel langsamer ab als φ0,1 (x). 0.4
0.3
0.2
0.1
1
2
3
4
Abbildung 9.3: Dichtefunktionen der tn -Verteilungen f¨ur n = 1, 2, 4, 16. Zum Vergleich die Dichte der Standardnormalverteilung (gepunktet).
Die Bedeutung der t-Verteilungen zeigt sich in dem folgenden Satz, der auf der Rotationsinvarianz der multivariaten Standardnormalverteilung beruht. Er beantwortet insbesondere die Frage nach der Verteilung Q in Beispiel (8.4); dort ging es um die Bestimmung eines Konfidenzintervalls f¨ur den Erwartungswert einer Normalverteilung mit unbekannter Varianz. Wie dort betrachten wir das Gauß’sche Produktmodell sowie die erwartungstreuen Sch¨atzer 1, Xi , n n
M=
i=1
V∗ =
1 , (Xi − M)2 n−1 n
i=1
f¨ur Erwartungswert und Varianz. (9.17) Satz: Student 1908. Im n-fachen Gauß’schen Produktmodell (Rn , B n , Nm,v ⊗n : m ∈ R, v > 0) gelten f¨ur alle ϑ = (m, v) ∈ R × ]0, ∞[ bez¨uglich Pϑ = Nm,v ⊗n die folgenden Aussagen:
9.2 Die χ 2 -, F - und t-Verteilungen
249
(a) M und V ∗ sind unabh¨angig. 2 ∗ (b) M hat die Verteilung Nm,v/n und n−1 v V die Verteilung χ n−1 . √ n (M − m) hat die Verteilung t n−1 . (c) Tm := √ V∗
Die Unabh¨angigkeitsaussage (a) mag zun¨achst verwundern, da M in der Definition von V ∗ auftaucht. Zur Erkl¨arung erinnere man sich daran, dass Unabh¨angigkeit ¨ nichts mit kausaler Unabh¨angigkeit zu tun hat, sondern eine proportionale Uberschneidung der zugrunde liegenden Wahrscheinlichkeiten beschreibt. In diesem Fall ist sie eine Folge der Rotationsinvarianz der multivariaten Standardnormalverteilung; bei anderen Wahrscheinlichkeitsmaßen w¨urde sie nicht gelten. Aussage (c) besagt, dass die Verteilung Q in Beispiel (8.4) gerade die tn−1 -Verteilung ist. Beweis: Wir schreiben wieder X = (X1 , . . . , Xn ) f¨ur die Identit¨atsabbildung auf Rn , und 1 = (1, . . . , 1) f¨ur den Diagonalvektor in Rn . Sei O eine orthogonale n × n-Matrix der Form √1 . . . √1 n ; n O= beliebig
solch eine Matrix kann konstruiert werden, indem man den Vektor √1n 1 vom Betrag 1 zu einer Orthonormalbasis erg¨anzt. Sei Y = OX und Yi die i-te Koordinate von Y . Gem¨aß Satz (9.5) hat Y unter Nn (m1, v E) = Nm,v ⊗n die Verteilung Nn (m O1, v E) = Nm√n,v ⊗ N0,v ⊗(n−1) ; f¨ur die letzte Gleichung haben wir aus√ genutzt, dass O1 = (m n, 0, . . . , 0), denn nach Konstruktion von O stehen die Zeilenvektoren der zweiten bis n-ten Zeile von O senkrecht auf 1. Nach Bemerkung (3.28) besagt die Produktform ' der Verteilung von Y , dass Y1 , . . . , Yn unabh¨angig sind. Ferner gilt M = √1n ni=1 √1n Xi = √1n Y1 und daher, wegen |Y | = |X|, (n − 1) V ∗ =
n n , , (Xi − M)2 = Xi2 − n M 2 i=1
= |Y |2 − Y12 =
i=1 n ,
Yi2 .
i=2
Die Unabh¨angigkeit der Yi impliziert daher Aussage (a). Behauptung (b) folgt aus der Skalierungseigenschaft der Normalverteilungen (vgl. Aufgabe 2.15) und Satz (9.10), und Aussage (c) aus (a), (b) und Korollar (9.15). 3 Wie in Beispiel (8.4) festgestellt, werden zur Konstruktion von Konfidenzintervallen im Gaußmodell die Quantile bzw. Fraktile der tn -Verteilungen ben¨otigt.
250
9 Rund um die Normalverteilung
Diese Quantile gehen auch in einige Testverfahren ein, die in den n¨achsten Kapiteln diskutiert werden. Gleichfalls gebraucht werden dort die Quantile der χ 2 und F -Verteilungen. Eine Auswahl dieser Quantile findet sich im Tabellenanhang auf Seite 348 ff. Fehlende Quantile kann man teils durch Interpolation, teils durch die Approximationen aus den Aufgaben 9.8 und 9.10 bekommen. Oder man beschafft sie sich mit Hilfe geeigneter Computerprogramme wie etwa Maple, Mathematica oder SciLab.
Aufgaben 9.1. Sei X eine Nm,v -verteilte Zufallsvariable und Y = eX . Bestimmen Sie die Verteilungsdichte von Y . (Die Verteilung von Y heißt die Lognormal-Verteilung zu m und v.) 9.2. Beste lineare Vorhersage. Die gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn sei eine n-dimensionale Normalverteilung. Zeigen Sie: (a) X1 , . . . , Xn sind genau dann unabh¨angig, wenn sie paarweise unkorreliert sind. ' (b) Es gibt Konstanten a, a1 , . . . , an−1 ∈ R, so dass f¨ur Xˆ n := a + n−1 i=1 ai Xi gilt: ˆ ˆ Xn − Xn ist unabh¨angig von X1 , . . . , Xn−1 , und E(Xn − Xn ) = 0. (Hinweis: Minimieren Sie die quadratische Abweichung E((Xˆ n − Xn )2 ) und verwenden Sie (a).) 9.3. Sei C = cv1vc2 mit v1 v2 > c2 und φ0,C die Dichtefunktion der zugeh¨origen bivariaten zentrierten Normalverteilung. Zeigen Sie: 7 −1 (a) Die H¨ohenlinien {x ∈ R2 : φ0,C (x) = h} (mit 0 < h < 2π v1 v2 − c2 ) sind Ellipsen. Bestimmen Sie die Hauptachsen. (b) Die Schnitte R t → φ0,C (a + tb) (mit a, b ∈ R2 , b = 0) sind proportional zu eindimensionalen Gauß’schen Dichten φm,v . 9.4. Sei X ein Nn (0, E)-verteilter n-dimensionaler Zufallsvektor und A, B zwei k × n- bzw. l × n-Matrizen vom Rang k bzw. l. Zeigen Sie: AX und BX sind genau dann unabh¨angig, wenn AB = 0. (Zeigen Sie, dass ohne Einschr¨ankung k + l ≤ n, und verifizieren Sie beim A
Beweis der dann“-Richtung zuerst, dass die (k + l) × n-Matrix C := den Rang k + l ” B hat und CX eine Nk+l (0, CC)-Verteilung besitzt.) 9.5. Normalverteilung als Maximum-Entropie-Verteilung. Sei C eine positiv definite symmetrische n × n Matrix und WC die Klasse aller Wahrscheinlichkeitsmaße P auf (Rn , B n ) mit den Eigenschaften P ist zentriert mit Kovarianzmatrix C, d. h. f¨ur die Projektionen Xi : Rn → R gilt E(Xi ) = 0 und Cov(Xi , Xj ) = Cij f¨ur alle 1 ≤ i, j ≤ n, und P besitzt eine Dichtefunktion , und es existiert die differentielle Entropie . H (P ) = − dx (x) log (x) . Rn
251
Aufgaben Zeigen Sie: H (Nn (0, C)) =
n log[2πe(det C)1/n ] = max H (P ) . 2 P ∈ WC
(Hinweis: Betrachten Sie die relative Entropie H (P ; Nn (0, C)); vgl. Bemerkung (7.31).) 9.6. Seien Y, Z reelle Zufallsvariablen mit Verteilung χ 2n bzw. t n . (a) Zeigen Sie: F¨ur k < n gilt E(Y −k/2 ) = ((n − k)/2)/[(n/2) 2k/2 ]. (b) Bestimmen Sie die Momente von Z bis zur Ordnung n − 1 und zeigen Sie, dass das n-te Moment von Z nicht existiert. (Verwenden Sie Aufgabe 4.17.) 9.7. Nichtzentrale Chiquadrat-Verteilungen. Seien X, X1 , X2 , . . . unabh¨angige N0,1 -verteilte Zufallsvariablen und δ ∈ R. Zeigen Sie: (a) Y = (X + δ)2 hat auf ]0, ∞[ die Verteilungsdichte 2 √ (y) = (2πy)−1/2 e−(y+δ )/2 cosh(δ y) .
(b) Ist Z eine von den Xi unabh¨angige, Pδ 2 /2 -verteilte Zufallsvariable, so ist ebenfalls ' 2 die Verteilungsdichte von 2Z+1 i=1 Xi . (Hinweis: Reihenentwicklung von cosh.) (c) Ist n ≥ 1 und Z eine von den Xi unabh¨angige, Pnδ 2 /2 -verteilte Zufallsvariable, so ' ' 2 hat ni=1 (Xi + δ)2 dieselbe Verteilung wie 2Z+n i=1 Xi . Diese Verteilung heißt die 2 nichtzentrale χn -Verteilung mit Nichtzentralit¨atsparameter nδ 2 . 2 9.8. Normalapproximation der Chiquadrat-Quantile. F¨ur 0 < α < 1 und n ∈ N sei χn;α
das α-Quantil der 2 Zeigen Sie: (χn;α Beispiel (7.27b).)
und #−1 (α) das α-Quantil der Standardnormalverteilung. χn2 -Verteilung √ − n)/ 2n → #−1 (α) f¨ur n → ∞. (Verwenden Sie Aufgabe 4.17 oder
9.9. Fisher’s Approximation. Zeigen Sie mit Hilfe von Aufgabe 5.18: 8 Hat Sn√die Chiquadrat√ √ L 2 − 2n → #−1 (α) Verteilung χ 2n , so gilt 2Sn − 2n −→ N0,1 . Folgern Sie, dass 2χn;α f¨ur n → ∞. Vergleichen Sie diese Approximation mit der aus der vorigen Aufgabe anhand der Tabellen im Anhang f¨ur α = 0.9 und 0.99 sowie n = 10, 25, 50. 9.10. Approximation von t- und F -Verteilungen. Zeigen Sie: Im Limes n → ∞ gilt f¨ur jedes c ∈ R, 0 < α < 1 und m ∈ N (a) t n (]−∞, c]) → #(c) und tn;α → #−1 (α), 2 /m (b) Fm,n ([0, c]) → χ 2m ([0, mc]) und fm,n;α → χm;α 2 , #−1 (α) jeweils die α-Quantile von t , F 2 Dabei sind tn;α , fm,n;α , χm;α n m,n , χ m , N0,1 .
9.11. Nichtzentrale Student-Verteilung. Die nichtzentrale t-Verteilung t n,δ mit n Freiheitsgraden und Nichtzentralit¨ atsparameter δ > 0 ist definiert als die Verteilung der Zufallsvaria√ blen T = Z/ S/n f¨ur unabh¨angige Zufallsvariablen Z und S mit Verteilung Nδ,1 bzw. χ 2n .
252
9 Rund um die Normalverteilung
Zeigen Sie: t n,δ hat die Verteilungsdichte . ∞ 7 1 τn,δ (x) = √ ds s (n−1)/2 exp[−s/2 − (x s/n − δ)2 /2] . (n+1)/2 π n (n/2) 2 0 (Bestimmen Sie zuerst die gemeinsame Verteilung von Z und S.) 9.12. Konfidenzbereich im Gauß’schen Produktmodell. Betrachten Sie das n-fache Gauß’sche Produktmodell mit dem unbekannten Parameter ϑ = (m, v) ∈ R × ]0, ∞[. Zu √ gegebenem α ∈ ]0, 1[ seien β± = (1 ± 1 − α)/2, u = #−1 (β− ) das β− -Quantil von N0,1 2 sowie c± = χn−1;β die β± -Quantile von χ 2n−1 . Zeigen Sie: ±
C(·) = {(m, v) : (m − M)2 ≤ vu2 /n, (n − 1)V ∗ /c+ ≤ v ≤ (n − 1)V ∗ /c− } ist eine Konfidenzbereich f¨ur ϑ zum Irrtumsniveau α. Machen Sie eine Skizze von C(·). 9.13. Zweistichproben-Problem mit bekannter Varianz. Seien X1 , . . . , Xn , Y1 , . . . , Yn unabh¨angige Zufallsvariablen. Jedes Xi habe die Verteilung Nm,v und jedes Yj die Verteilung Nm ,v ; dabei seien die Erwartungswerte m, m unbekannt, aber v > 0 bekannt. Konstruieren Sie zu einem vorgegebenen Irrtumsniveau α einen Konfidenzkreis f¨ur (m, m ). 9.14. (a) Seien X1 , . . . , Xn unabh¨angige, Nm,v -verteilte Zufallsvariablen mit bekanntem m und unbekanntem v. Bestimmen Sie ein Konfidenzintervall f¨ur v zum Irrtumsniveau α. (b) Zweistichproben-Problem mit bekannten Erwartungswerten. Seien X1 , . . . , Xk , Y1 , . . . , Yl unabh¨angige Zufallsvariablen. Die Xi seien Nm,v -verteilt mit bekanntem m, und die Yj seien Nm ,v -verteilt mit bekanntem m . Die Varianzen v, v > 0 seien unbekannt. Bestimmen Sie ein Konfidenzintervall f¨ur v/v zum Irrtumsniveau α. 9.15. Sequentielle Konfidenzintervalle vorgegebener Maximall¨ange, C. Stein 1945. Seien X1 , X2 , . . . unabh¨angige, Nm,v -verteilte Zufallsvariablen mit unbekannten Parametern m, v. Seien ferner n ≥ 2, 0 < α < 1 und ε > 0 beliebig gew¨ahlt und t = tn−1;1−α/2 ' das α/2Fraktil der tn−1 -Verteilung. Betrachten Sie die erwartungstreuen Sch¨atzer Mn = ni=1 Xi /n ' und Vn∗ = ni=1 (Xi − Mn )2 /(n − 1) f¨ur m und v nach n Versuchen, die zuf¨allige Stichprobenanzahl N = max{n, ((t/ε)2 Vn∗ )} (wobei (x) die kleinste ganze Zahl ≥ x bezeichnet), ' sowie den Mittelwertsch¨atzer MN = N i=1 Xi /N nach N Versuchen. Zeigen Sie: √ (a) (MN − m) N/v ist unabh¨angig von Vn∗ und N0,1 -verteilt, 7 (b) (MN − m) N/Vn∗ ist t n−1 -verteilt, 7 7 (c) ]MN − t Vn∗ /N , MN + t Vn∗ /N[ ist ein Konfidenzintervall f¨ur m zum Irrtumsniveau α der L¨ange ≤ 2ε.
10 Testen von Hypothesen
W¨ahrend man in der Sch¨atztheorie die Beobachtungen nur dazu nutzt, den zugrunde liegenden Zufallsmechanismus m¨oglichst zutreffend zu beurteilen, geht es in der Testtheorie um das rationale Verhalten in (eventuell folgenschweren) Entscheidungssituationen. Man formuliert eine Hypothese u¨ ber den wahren Zufallsmechanismus, der die Beobachtungen steuert, und muss sich anhand der Beobachtungsergebnisse entscheiden, ob man die Hypothese f¨ur zutreffend h¨alt oder nicht. Dabei kann man sich nat¨urlich irren. Deshalb m¨ochte man Entscheidungsregeln entwickeln, f¨ur welche die Irrtumswahrscheinlichkeit m¨oglichst klein ist – egal welche Situation in Wahrheit vorliegt.
10.1
Entscheidungsprobleme
Zur Motivation erinnern wir an Beispiel (7.1). (10.1) Beispiel: Qualit¨atskontrolle. Ein Orangen-Importeur bekommt eine Lieferung von N = 10 000 St¨uck. Den vereinbarten Preis muss er nur zahlen, wenn h¨ochstens 5% faul sind. Um festzustellen, ob das der Fall ist, entnimmt er eine Stichprobe von n = 50 Orangen und setzt sich eine Grenze c, wie viele faule Orangen in der Stichprobe er bereit ist zu akzeptieren. Er verwendet dann die folgende Entscheidungsregel: h¨ochstens c Orangen faul ⇒ Lieferung akzeptieren, mehr als c Orangen faul ⇒ Preisnachlass fordern. Offenbar kommt alles auf die richtige Wahl der Schranke c an. Wie soll diese geschehen? Allgemein geht man in solchen Entscheidungssituationen folgendermaßen vor. Statistisches Entscheidungsverfahren: 1. Schritt: Formulierung des statistischen Modells. Wie immer muss zuerst das statistische Modell formuliert werden. Im vorliegenden konkreten Fall ist dies X = {0, . . . , n}, = {0, . . . , N}, und Pϑ = Hn;ϑ,N −ϑ f¨ur ϑ ∈ . 2. Schritt: Formulierung von Nullhypothese und Alternative. Man zerlegt die Parametermenge in zwei Teilmengen 0 und 1 gem¨aß dem folgenden Prinzip:
254
10 Testen von Hypothesen
ϑ ∈ 0
⇔
ϑ ist f¨ur mich akzeptabel, d. h. der gew¨unschte Normalfall liegt vor.
ϑ ∈ 1
⇔
ϑ ist f¨ur mich problematisch, d. h. es liegt eine Abweichung vom Normalfall vor, die ich m¨oglichst aufdecken m¨ochte, wenn immer sie vorliegt.
Man sagt dann, dass die (Null-) Hypothese H0 : ϑ ∈ 0 gegen die Alternative H1 : ϑ ∈ 1 getestet werden soll. In unserem Beispiel sind f¨ur den Orangen-Importeur akzeptabel: problematisch:
alle ϑ ∈ 0 = {0, . . . , 500} alle ϑ ∈ 1 = {501, . . . , 10 000}
(Qualit¨at stimmt), (Qualit¨at zu schlecht).
Die Interessenlage eines skrupellosen Lieferanten ist gegebenenfalls genau umgekehrt; er w¨urde die Indizes 0 und 1 vertauschen. 3. Schritt: Wahl eines Irrtumsniveaus. Man w¨ahlt ein 0 < α < 1, zum Beispiel α = 0.05, und fordert von dem (noch zu formulierenden) Entscheidungsverfahren: Die Wahrscheinlichkeit eines peinlichen Irrtums“, d. h. einer Entscheidung f¨ur die ” Alternative, obgleich die Nullhypothese vorliegt ( Fehler erster Art“) soll h¨ochstens ” α betragen. 4. Schritt: Wahl der Entscheidungsregel. Man w¨ahlt eine Statistik ϕ : X → [0, 1] wie folgt: Wird x ∈ X beobachtet, so ist ϕ(x) der Grad, mit dem ich aufgrund von x zur Entscheidung f¨ur die Alternative tendiere. Also: ϕ(x) = 0
⇔
Ich halte an der Nullhypothese fest, d. h. mein Verdacht auf Vorliegen der Alternative l¨asst sich durch das Beobachtungsergebnis x nicht rechtfertigen.
ϕ(x) = 1
⇔
Ich verwerfe die Nullhypothese und nehme aufgrund von x an, dass die Alternative vorliegt.
0 < ϕ(x) < 1
⇔
Ich bin mir nicht definitiv klar u¨ ber die richtige Entscheidung und f¨uhre deshalb ein Zufallsexperiment durch, das mir mit Wahrscheinlichkeit ϕ(x) sagt: Entscheide dich f¨ur die Alternative.
Im Beispiel wird der Importeur z. B. die Entscheidungsregel x>c 1 ϕ(x) = 1/2 falls x = c 0 x
10.1 Entscheidungsprobleme
255
5. Schritt: Durchf¨uhrung des Experiments. Warum erst jetzt und nicht schon fr¨uher? Weil sonst T¨auschung und Selbstt¨auschung fast unvermeidbar sind! Gesetzt den Fall, ich habe eine Vermutung, die ich verifizieren m¨ochte, und mache die entsprechenden Beobachtungen gleich zu Anfang. Dann kann ich in den Daten schnuppern“ und ” Nullhypothese und Alternative an die Daten anpassen, Niveau und Entscheidungsregel geeignet ausw¨ahlen, und notfalls st¨orende Ausreißer“ eliminieren, ” bis die Entscheidungsregel zum gew¨unschten Ergebnis f¨uhrt. Wenn so vorgegangen wird (wozu die menschliche Natur leider neigt!), kann von Wahrscheinlichkeiten keine Rede mehr sein, und das Ergebnis ist fest vorprogrammiert. Der Test dient dann einzig dazu, einer vorgefassten Meinung einen pseudowissenschaftlichen Anstrich zu geben! Was ist der mathematische Kern des obigen Verfahrens? Definition: Sei (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell und = 0 ∪ 1 eine Zerlegung von in Nullhypothese und Alternative. (a) Jede Statistik ϕ : X → [0, 1] (die als Entscheidungsregel interpretiert wird) heißt ein Test von 0 gegen 1 . Ein Test ϕ heißt nichtrandomisiert, falls ϕ(x) = 0 oder 1 f¨ur alle x ∈ X, andernfalls randomisiert. Im ersten Fall heißt {x ∈ X : ϕ(x) = 1} der Ablehnungsbereich, Verwerfungsbereich oder kritische Bereich des Tests ϕ. (b) Die im ung¨unstigsten Fall vorliegende Wahrscheinlichkeit f¨ur einen Fehler erster Art ist supϑ∈0 Eϑ (ϕ); sie heißt der Umfang oder das effektive Niveau von ϕ. Ein Test ϕ heißt ein Test zum (Irrtums-) Niveau α, wenn supϑ∈0 Eϑ (ϕ) ≤ α. (c) Die Funktion Gϕ : → [0, 1], Gϕ (ϑ) = Eϑ (ϕ) heißt die G¨utefunktion des Tests ϕ. F¨ur ϑ ∈ 1 heißt Gϕ (ϑ) die Macht, St¨arke oder Sch¨arfe von ϕ bei ϑ. Die Macht ist also die Wahrscheinlichkeit, mit der die Alternative erkannt wird, wenn sie vorliegt, und βϕ (ϑ) = 1 − Gϕ (ϑ) ist die Wahrscheinlichkeit f¨ur einen Fehler zweiter Art: dass n¨amlich das Vorliegen der Alternative nicht erkannt wird und deshalb die Nullhypothese f¨alschlich akzeptiert wird. Aus der vorangegangenen Diskussion ergeben sich folgende zwei Forderungen an einen Test ϕ: Gϕ (ϑ) ≤ α f¨ur alle ϑ ∈ 0 ; d. h. ϕ soll das Niveau α einhalten, die Irrtumswahrscheinlichkeit erster Art also h¨ochstens α betragen. !
Gϕ (ϑ) = max f¨ur alle ϑ ∈ 1 ; d. h. die Macht soll m¨oglichst groß, ein Fehler zweiter Art also m¨oglichst unwahrscheinlich sein.
256
10 Testen von Hypothesen
Diese Forderungen f¨uhren zu folgendem Begriff. Definition: Ein Test ϕ von 0 gegen 1 heißt ein (gleichm¨aßig) bester Test zum Niveau α, wenn er vom Niveau α ist und f¨ur jeden anderen Test ψ zum Niveau α gilt: Gϕ (ϑ) ≥ Gψ (ϑ) f¨ur alle ϑ ∈ 1 . Unser Ziel wird es also sein, beste Tests zu finden. Zuerst wollen wir jedoch anhand eines Beispiels diskutieren, welche Probleme bei unsachgem¨aßem Vorgehen auftreten k¨onnen. (10.2) Beispiel: Außersinnliche Wahrnehmungen. Ein Medium behauptet, mittels seiner außersinnlichen F¨ahigkeiten verdeckt aufliegende Spielkarten identifizieren zu k¨onnen. Um diese Behauptung zu u¨ berpr¨ufen, werden dem Medium n = 20 Mal die Herz-Dame und der Herz-K¨onig eines fabrikneuen Spiels in zuf¨alliger Anordnung verdeckt vorgelegt. Das Medium soll jeweils die Herz-Dame aufdecken. Der Versuchsleiter geht nun (ganz lehrbuchm¨aßig) folgendermaßen vor: Ein geeignetes Modell ist offenbar das Binomialmodell mit X = {0, . . . , n}, Pϑ = Bn,ϑ und = 21 , 1 (denn durch bloßes Raten kann das Medium ja mindestens die Erfolgswahrscheinlichkeit 21 erreichen). Getestet werden muss die Nullhypothese 0 = 21 gegen die Alternative 1 = ] 21 , 1]; denn der peinliche Irrtum w¨are es ja, einer Person mediale F¨ahigkeiten zu bescheinigen, obgleich diese in Wirklichkeit auf bloßes Raten angewiesen ist. Ein solides Irrtumsniveau ist α = 0.05; das ist klein genug, um ein positives Testergebnis u¨ berzeugend gegen Skeptiker vertreten zu k¨onnen. Genau wie in Beispiel (10.1) bietet sich an, einen Test der Gestalt ϕ = 1{c,...,n} zu w¨ahlen, mit geeignetem c ∈ X; eine n¨ahere Begr¨undung folgt unten. (Im Anschluss an Satz (10.10) werden wir sogar sehen, dass ϕ f¨ur sein effektives Niveau optimal ist.) Ein Blick in eine Tabelle der Binomialquantile lehrt den Versuchsleiter, dass er c = 15 w¨ahlen muss, wenn er das Niveau α einhalten will. Dann gilt allerdings sogar Gϕ ( 21 ) = Bn,1/2 ({15, . . . , n}) ≈ 0.0207. Umso besser“, denkt er sich, das effektive Niveau ist also noch kleiner, und ” ” das Testergebnis daher umso u¨ berzeugender.“ Der Test wird durchgef¨uhrt, und das Medium erzielt x = 14 Treffer. Es ist also ¨ ϕ(x) = 0, und der Versuchsleiter muss dem Medium (und der Offentlichkeit) mitteilen, dass die medialen F¨ahigkeiten durch den Versuch nicht best¨atigt werden konnten.
257
10.1 Entscheidungsprobleme
Mit diesem Ergebnis will sich der Versuchsleiter aber nicht zufrieden geben. Er ist durch die Zahl der Treffer (und die Aura des Mediums) beeindruckt und u¨ berlegt sich das Folgende: Das Ergebnis ist nur die Schuld meiner Versuchsplanung. H¨atte ich den Test ” ψ = 1{14,...,n} gew¨ahlt, h¨atte ich dem Medium seine medialen F¨ahigkeiten zugesprochen, und ψ hat doch immerhin noch das Niveau Bn,1/2 ({14, . . . , n}) ≈ 0.0577 – kaum mehr, als ich mir urspr¨unglich vorgenommen habe. Außerdem: wenn das Medium nun wirklich die Trefferwahrscheinlichkeit 0.7 hat, l¨asst mein Test ihm nur eine Chance von 41%, diese F¨ahigkeit zu erkennen, denn es gilt ja Gϕ (0.7) = Bn,0.7 ({15, . . . , n}) ≈ 0.4164. Dagegen ist Gψ (0.7) ≈ 0.6080.“ Diese Behauptungen u¨ ber ψ w¨aren richtig, wenn die Schranke c = 14 schon vor dem Versuch festgelegt worden w¨are. Nun, im Nachhinein, wurde aber genau genommen nicht 14 als Schranke gew¨ahlt, sondern der Beobachtungswert x; insofern ist ψ in Wirklichkeit durch die Gleichung ψ(x) = 1{x,...,n} (x) definiert, also konstant gleich 1, d. h. bei Verwendung von ψ entscheidet man sich mit Sicherheit f¨ur die Alternative, und somit sind insbesondere das Niveau Gψ 21 = 1 und f¨ur jedes ϑ ∈ 1 die Macht Gψ (ϑ) = 1! Das Argument u¨ ber die geringe Macht von ϕ ist im Prinzip zutreffend, aber das war ja schon bei der Versuchsplanung bekannt. Wenn diese Macht als nicht ausreichend erscheint, h¨atte man von vornherein die Anzahl n der Versuche erh¨ohen m¨ussen – bei festgehaltenem Niveau und entsprechender Wahl von c h¨atte dies die Macht von ϕ entsprechend erh¨oht. Wie Abbildung 10.1 zeigt, erh¨alt man eine deutlich bessere G¨utefunktion, wenn das Medium in 40 Versuchen 27 Treffer erzielen muss, obwohl 27/40 < 15/20. 1 0.8 0.6 0.4 0.2
0.5
0.6
0.7
0.8
0.9
Abbildung 10.1: G¨utefunktionen der Tests mit Ablehnungsbereich {15, . . . , 20} (durchgezogen) bzw. {14, . . . , 20} (gepunktet) f¨ur n = 20, sowie {27, . . . , 40} f¨ur n = 40 (gestrichelt). Die Werte an der Stelle 1/2 entsprechen dem jeweiligen Testumfang; sie betragen 0.0207, 0.0577, 0.0192.
Warum sollte der Test die Gestalt ϕ = 1{c,...,n} haben? H¨atten wir nicht auch einen Test der Form χ = 1{c,...,d} mit d < n w¨ahlen k¨onnen? Da χ offenbar ein kleineres
258
10 Testen von Hypothesen
Niveau hat als ϕ, k¨onnte dies attraktiv erscheinen. Allerdings: Wenn das Medium gut in Form ist und mehr als d Treffer erzielt, muss die Hypothese der medialen F¨ahigkeiten bei χ abgelehnt werden! Dementsprechend steigt die Macht von χ bei m¨aßiger Begabung zwar an, f¨allt jedoch wieder bei starker Begabung. Insbesondere gilt Gχ (1) = 0 < Gχ (1/2). Im Fall starker Begabung wird eine mediale F¨ahigkeit bei Verwendung von χ daher mit geringerer Wahrscheinlichkeit akzeptiert als im Fall des bloßen Ratens. Um solche Absurdit¨aten auszuschließen, f¨uhrt man den folgenden Begriff ein. Definition: Ein Test ϕ heißt unverf¨alscht zum Niveau α, wenn Gϕ (ϑ0 ) ≤ α ≤ Gϕ (ϑ1 )
f¨ur alle ϑ0 ∈ 0 und ϑ1 ∈ 1 ,
d. h. wenn man sich mit gr¨oßerer Wahrscheinlichkeit f¨ur die Alternative entscheidet, wenn sie richtig ist, als wenn sie falsch ist. Im Folgenden widmen wir uns vorrangig dem Problem der Existenz und Konstruktion von besten Tests. Wie sich herausstellen wird, spielt die Unverf¨alschtheit dabei manchmal eine Rolle.
10.2 Alternativtests Wir betrachten hier die besonders u¨ bersichtliche Situation, dass man sich nur zwischen zwei Wahrscheinlichkeitsmaßen P0 und P1 zu entscheiden hat. Wir legen also ein statistisches Modell der Form (X, F ; P0 , P1 ) mit = {0, 1} zugrunde, und die Nullhypothese 0 = {0} und die Alternative 1 = {1} sind einfach, d. h. einelementig. Wir setzen außerdem voraus, dass das Modell ein Standardmodell ist, dass also P0 und P1 durch geeignete Z¨ahldichten bzw. Dichtefunktionen 0 und 1 auf X gegeben sind. Ohne Einschr¨ankung sei 0 + 1 > 0; andernfalls k¨onnen wir X entsprechend verkleinern. Wir suchen einen besten Test ϕ von P0 gegen P1 zu einem vorgegebenen Niveau α. Betrachten wir dazu die Dichten 0 und 1 , vgl. Abbildung 10.2. Gem¨aß dem Maximum-Likelihood-Prinzip wird man sich immer dann f¨ur die Alternative entscheiden, wenn f¨ur das beobachtete x die Dichtefunktion 1 (x) hinreichend stark u¨ ber 0 (x) dominiert. Der Grad der Dominanz von 1 u¨ ber 0 wird in nat¨urlicher Weise beschrieben durch den Likelihood-Quotienten falls 0 (x) > 0 , 1 (x)/0 (x) R(x) = ∞ falls 0 (x) = 0 < 1 (x) . (Den Fall 0 = 1 = 0 haben wir schon am Anfang ausgeschlossen.) Hinrei” chend starke“ Dominanz bedeutet dementsprechend, dass der Likelihood-Quotient R(x) einen geeignet gew¨ahlten Schwellenwert c u¨ bersteigt. Der folgende, f¨ur die
259
10.2 Alternativtests 0
1
α ϕ=0
ϕ=1
Abbildung 10.2: Zur Konstruktion von Neyman-Pearson Tests.
Testtheorie grundlegende Satz zeigt, dass diese Intuition zu einem optimalen Testverfahren f¨uhrt. (10.3) Satz: Neyman-Pearson-Lemma, 1932. In einem Standardmodell (X, F ; P0 , P1 ) mit einfacher Hypothese und Alternative gilt f¨ur jedes Niveau 0 < α < 1: (a) Ein bester Test ψ von 0 = {0} gegen 1 = {1} zum Niveau α hat notwendigerweise die Gestalt 1 falls R(x) > c , ψ(x) = 0 falls R(x) < c f¨ur ein geeignetes c = c(α) ≥ 0. Jeder solche Test heißt ein Neyman-PearsonTest. (b) Es gibt einen Neyman-Pearson-Test ϕ mit E0 (ϕ) = α (der also das Niveau α voll aussch¨opft ). (c) Jeder Neyman-Pearson-Test ϕ mit E0 (ϕ) = α ist ein bester Test zum Niveau α. Beweis: (a) Obgleich sich Aussage (a) unmittelbar aus dem Beweis von (c) ergeben wird, geben wir hier zur Motivation ein davon unabh¨angiges geometrisches Argument. F¨ur 0 < α ≤ 1 sei G∗ (α) := sup E1 (ϕ) : ϕ Test mit E0 (ϕ) ≤ α die beim Niveau α bestenfalls zu erreichende Macht. G∗ ist offenbar monoton wachsend und außerdem konkav. Denn seien 0 < α < α ≤ 1 und 0 < s < 1 gegeben und ψ, ψ beliebige Tests zum Niveau α bzw. α . Dann ist ψs = sψ + (1 − s)ψ ein Test mit E0 (ψs ) ≤ sα + (1 − s)α , also G∗ (sα + (1 − s)α ) ≥ E1 (ψs ) = s E1 (ψ) + (1 − s) E1 (ψ ) .
260
10 Testen von Hypothesen
Durch Supremumsbildung u¨ ber alle ψ, ψ folgt G∗ (sα + (1 − s)α ) ≥ s G∗ (α) + (1 − s) G∗ (α ) , also die Konkavit¨at von G∗ . Sei nun ψ ein bester Test zum Niveau α. Dann gilt a := E0 (ψ) ≤ α und E1 (ψ) = G∗ (α). Die konkave und monotone Funktion G∗ besitzt an der Stelle a eine aufsteigende Tangente, d. h. es existiert ein c ≥ 0 mit G∗ (a) + c (s − a) ≥ G∗ (s) ,
0 ≤ s ≤ 1.
Wir zeigen: ψ stimmt im Wesentlichen u¨ berein mit dem Test ϕ = 1{R>c} . Dazu setzen wir in die obige Ungleichung den Wert s = E0 (ϕ) ein. Es ergibt sich 0 ≥ G∗ (E0 (ϕ)) − G∗ (a) − c [E0 (ϕ) − a] ≥ E1 (ϕ) − E1 (ψ) − c [E0 (ϕ) − E0 (ψ)] ) = E1 (ϕ − ψ) − c E0 (ϕ − ψ) = X f (x) dx mit f := (1 − c0 )(ϕ − ψ); im diskreten Fall ist das Integral durch eine Summe u¨ ber X zu ersetzen. Nun ist aber f ≥ 0, denn nach Konstruktion gilt ϕ ≤ ψ auf {R ≤ c} ,
)
ϕ ≥ ψ auf {R > c} .
Wegen f (x) dx ≤ 0 muss also f (Lebesgue-fast u¨ berall) verschwinden, und folglich ist ψ(x) = ϕ(x) f¨ur (fast) alle x ∈ X mit R(x) = c. Das ist gerade die Behauptung. (Die Ausnahmemenge vom Lebesgue-Maß 0 im stetigen Fall hat auch unter P0 und P1 Wahrscheinlichkeit 0, tritt also in keiner Beobachtung auf und kann daher ignoriert werden.) (b) Sei c ein beliebiges α-Fraktil von P0 ◦ R −1 . Dann gilt P0 (R ≥ c) ≥ α, P0 (R > c) ≤ α, und also α − P0 (R > c) ≤ P0 (R ≥ c) − P0 (R > c) = P0 (R = c). Setzen wir nun 0 falls P0 (R = c) = 0 , γ = α − P0 (R > c) falls P0 (R = c) > 0 , P0 (R = c) 1 ϕ(x) = γ 0
so ist der Test
R(x) > c , falls R(x) = c , R(x) < c
ein Neyman-Pearson Test mit E0 (ϕ) = P0 (R > c) + γ P0 (R = c) = α. (c) Sei ϕ ein Neyman-Pearson-Test mit E0 (ϕ) = α und Schwellenwert c sowie ψ ein beliebiger Test zum Niveau α. F¨ur die Funktion f aus dem Beweis von (a) gilt dann wieder f ≥ 0, also . f (x) dx = E1 (ϕ − ψ) − c E0 (ϕ − ψ) ≤ E1 (ϕ) − E1 (ψ) ; 0≤ X
261
10.2 Alternativtests
die letzte Ungleichung ergibt sich aus der Beziehung E0 (ϕ − ψ) = α − E0 (ψ) ≥ 0. Es folgt E1 (ϕ) ≥ E1 (ψ), wie gew¨unscht. (a) Wir geben nun noch ein zweites Argument f¨ur die Eindeutigkeitsaussage (a). Sei ψ im Beweis von (c) ein beliebiger bester Test zum ) Niveau α. Dann gilt ¨ f (x) dx = 0 . Hieraus E1 (ϕ) = E1 (ψ) und also nach der dortigen Uberlegung folgt wie im ersten Beweis von (a), dass ψ = ϕ fast u¨ berall auf {R = c}. 3 Neyman-Pearson Tests sind also optimal, zumindest im Fall von einfacher Hypothese und einfacher Alternative. Sind sie aber auch gut? Das h¨angt davon ab, wie groß ihre Macht ist. Letztere verbessert sich nat¨urlich, je mehr Information vorliegt. Wir fragen also: Wie rasch verbessert sich die Macht bei unabh¨angig wiederholten Beobachtungen? Daf¨ur ist es wieder bequem, wie in Abschnitt 7.6 im Rahmen eines unendlichen Produktmodells zu arbeiten. Sei also (E, E , Q0 , Q1 ) ein statistisches Standardmodell mit einfacher Hypothese 0 = {0} und einfacher Alternative 1 = {1}, und sei (X, F , Pϑ : ϑ ∈ {0, 1}) = (E N , E ⊗N , Q⊗N ϑ : ϑ ∈ {0, 1}) das zugeh¨orige unendliche Produktmodell. Der Einfachheit halber verlangen wir, dass die Dichten 0 und 1 von Q0 und Q1 beide strikt positiv sind. Wir bezeichnen wieder mit Xi : X → E die i-te Projektion und erinnern an die Definition der relativen Entropie in (7.31). Da Q0 und Q1 nat¨urlich verschieden sein sollen, gilt H (Q0 ; Q1 ) > 0. (10.4) Satz: Lemma von C. Stein, 1952. In der obigen Situation betrachten wir zu jedem n ≥ 1 einen Neyman-Pearson Test ϕn mit E0 (ϕn ) = α, der nur von den Beobachtungen X1 , . . . , Xn abh¨angt. Dann strebt die Macht E1 (ϕn ) f¨ur n → ∞ mit exponentieller Geschwindigkeit gegen 1. Genauer gilt: lim
n→∞
1 log[1 − E1 (ϕn )] = −H (Q0 ; Q1 ) , n
d. h. E1 (ϕn ) ≈ 1 − e−n H (Q0 ;Q1 ) f¨ur großes n. ( Beweis: F¨ur n ≥ 1 und ϑ ∈ {0, 1} sei ϑ⊗n = ni=1 ϑ (Xi ) die n-fache Produktdichte sowie Rn = 1⊗n /0⊗n der Likelihood-Quotient nach den ersten n Beobachtungen. Sei h = log(0 /1 ) und 1 1, h(Xi ) . hn = − log Rn = n n n
i=1
Definitionsgem¨aß gilt dann E0 (h) = H (Q0 ; Q1 ), und die Tests ϕn haben die Gestalt 1 h < an , falls n ϕn = hn > an 0
262
10 Testen von Hypothesen
mit geeigneten Konstanten an ∈ R. Wir zeigen zuerst, dass lim supn→∞ n1 log[1 − E1 (ϕn )] ≤ −E0 (h). Aus der Definition von ϕn folgt: Ist 1 − ϕn > 0, so gilt hn ≥ an und daher 0⊗n ≥ en an 1⊗n . Dies liefert die Absch¨atzung 1 ≥ E0 (1 − ϕn ) ≥ en an E1 (1 − ϕn ) . Also gen¨ugt zu zeigen, dass an > a f¨ur beliebiges a < E0 (h) und alle hinreichend großen n. Wegen P0 (hn ≤ an ) ≥ E0 (ϕn ) = α > 0 ist dies sicher dann der Fall, wenn P0 (hn ≤ a) → 0 f¨ur n → ∞. Wie im Beweis von (7.32) folgt dies jedoch aus dem schwachen Gesetz der großen Zahl, und zwar sowohl wenn h ∈ L 1 (P0 ) als auch wenn E0 (h) = H (Q0 ; Q1 ) = ∞. Umgekehrt zeigen wir nun, dass lim inf n→∞ n1 log[1−E1 (ϕn )] ≥ −E0 (h). Ohne Einschr¨ankung ist dazu E0 (h) < ∞, also h ∈ L 1 (P0 ). F¨ur a > E0 (h) folgt wieder aus Satz (5.7), dem schwachen Gesetz der großen Zahl, dass P0 (1⊗n ≥ e−na 0⊗n ) = P0 (hn ≤ a) ≥ P0 |hn − E0 (h)| ≤ a − E0 (h) ≥
1+α 2
f¨ur alle hinreichend großen n, also E1 (1 − ϕn ) = E0 (1 − ϕn )1⊗n /0⊗n
≥ E0 (e−na (1 − ϕn )1{hn ≤a} )
≥ e−na E0 (1{hn ≤a} − ϕn )
−na ≥ e−na ( 1+α 2 − α) = e
1−α 2
schließlich. Hieraus ergibt sich unmittelbar die Behauptung. 3 Das Stein’sche Lemma zeigt die statistische Bedeutung der relativen Entropie: Je gr¨oßer die relative Entropie zwischen zwei Wahrscheinlichkeitsmaßen Q0 und Q1 , desto schneller w¨achst die Macht der optimalen Tests von Q0 gegen Q1 mit der Anzahl der Beobachtungen, d. h. umso leichter lassen sich Q0 und Q1 aufgrund von Beobachtungen unterscheiden. Die relative Entropie ist also ein Maß f¨ur die statistische Unterscheidbarkeit zweier Wahrscheinlichkeitsmaße. (10.5) Beispiel: Test f¨ur den Erwartungswert zweier Normalverteilungen. Sei E = R und Q0 = Nm0 ,v , Q1 = Nm1 ,v f¨ur festes m0 < m1 und v > 0. Es soll aufgrund von n Beobachtungen die Nullhypothese H0 : m = m0 gegen die Alternative H1 : m = m1 getestet werden. Als Anwendungssituation kann man sich etwa die Funktionspr¨ufung f¨ur eine Satellitenkomponente vorstellen. Dabei wird ein Testsignal zum Satelliten geschickt, das im Fall einwandfreien Funktionierens n Sekunden lang ein Antwortsignal ausl¨ost. Letzteres ist allerdings durch ein allgemeines Rauschen u¨ berlagert. Die auf der Erde in jeweils einer Sekunde
263
10.2 Alternativtests
ankommende mittlere Signalintensit¨at kann daher als normalverteilt angesehen werden mit Erwartungswert entweder m0 = 0 (wenn die Komponente ausgefallen ist) oder m1 > 0 (im einwandfreien Fall). Der peinliche Irrtum erster Art besteht offenbar darin, die Komponente f¨ur funktionst¨uchtig zu halten, obgleich sie ausgefallen ist.
Wie oben betrachten wir das zugeh¨orige unendliche Produktmodell. Der Likelihood-Quotient f¨ur die ersten n Beobachtungen ist gegeben durch n 3 4 1 , (Xi − m1 )2 − (Xi − m0 )2 Rn = exp − 2v i=1 4 3 n 2(m0 − m1 ) Mn + m21 − m20 ; = exp − 2v 1 'n hier ist wieder Mn = n i=1 Xi das Stichprobenmittel. Mit der Bezeichnung des letzten Beweises gilt also
(10.6)
hn =
m0 −m1 v
Mn +
m21 −m20 2v
.
Als Neyman-Pearson Test von m0 gegen m1 nach n Beobachtungen zu einem gegebenen Niveau α bekommt man also ϕn = 1{Mn >bn } , wobei die Konstante bn sich aus der Bedingung 7 α = P0 (Mn > bn ) = Nm0 ,v/n (]bn , ∞[) = 1 − # (bn − m0 ) n/v ergibt. Folglich gilt (10.7)
bn = m0 +
7
v/n #−1 (1 − α) .
Was l¨asst sich u¨ ber die Macht von ϕn sagen? Man errechnet H (P0 ; P1 ) = E0 (hn ) = m0
m0 −m1 v
+
m21 −m20 2v
= (m0 − m1 )2 /2v ;
im Fall von Normalverteilungen mit gleicher Varianz ist die relative Entropie also (bis auf den Faktor 1/2v) gerade die quadratische Abweichung der Erwartungswerte. Satz (10.4) liefert also E1 (1 − ϕn ) ≈ exp[−n (m0 − m1 )2 /2v] . Dies Ergebnis l¨asst sich noch versch¨arfen: Aus (10.7) und der Definition von ϕn folgt E1 (1 − ϕn ) = P1 (Mn ≤ bn ) = Nm1 ,v/n (]−∞, bn ]) √ √ = # (bn − m1 ) n/v = # #−1 (1 − α) + (m0 − m1 ) n/v . Gem¨aß Aufgabe 5.13 gilt nun aber #(c) ∼ φ(c)/|c| f¨ur c → −∞, also 9 √ 1 v exp[−n (m0 − m1 )2 /2v + O( n)] E1 (1 − ϕn ) ∼ n→∞ m1 − m0 2πn √ mit einem α-abh¨angigen Fehlerterm O( n). Damit haben wir das genaue asymptotische Verhalten der Macht bestimmt.
264
10.3
10 Testen von Hypothesen
Beste einseitige Tests
Aufgrund des Neyman-Pearson Lemmas wissen wir im Fall einfacher Nullhypothesen und einfacher Alternativen, wie optimale Tests aussehen. Darauf aufbauend suchen wir nun beste Tests bei zusammengesetzten Nullhypothesen und Alternativen. Diese Aufgabe erweist sich als relativ leicht, wenn geeignete Monotonieeigenschaften zur Verf¨ugung stehen. Wir erl¨autern dies zun¨achst f¨ur unser Standardbeispiel (10.1). (10.8) Beispiel: Qualit¨atskontrolle. Wir betrachten die bereits bekannte Situation des Orangen-Importeurs. Zugrunde liegt das hypergeometrische Modell: X = {0, . . . , n}, = {0, . . . , N}, Pϑ = Hn;ϑ,N −ϑ f¨ur ϑ ∈ , wobei n < N. Es soll die Nullhypothese 0 = {0, . . . , ϑ0 } gegen die Alternative 1 = {ϑ0 + 1, . . . , N} getestet werden. (Fr¨uher haben wir die Beispielwerte n = 50, N = 10 000, ϑ0 = 500 betrachtet.) Sei 0 < α < 1 und ϕ ein Neyman-Pearson Test von ϑ0 gegen irgendein ϑ1 ∈ 1 mit Eϑ0 (ϕ) = α. Wir zeigen: ϕ ist sogar ein gleichm¨aßig bester Test der gesamten Nullhypothese 0 gegen die gesamte Alternative 1 zum Niveau α. Der Beweis beruht auf folgender Tatsache: F¨ur ϑ > ϑ ist der LikelihoodQuotient Rϑ :ϑ (x) := ϑ (x)/ϑ (x) wachsend in x, und zwar strikt, solange er endlich ist. In der Tat gilt R
ϑ :ϑ
(x) =
−1 ϑ-
k=ϑ
ϑ−1 k+1 (x) (k + 1)(N − k − n + x) = k (x) (N − k)(k + 1 − x) k=ϑ
f¨ur x ≤ ϑ, und Rϑ :ϑ (x) = ∞ f¨ur x > ϑ. Infolgedessen hat der Neyman-Pearson Test ϕ die Gestalt x > c, 1 f¨ur x = c , ϕ(x) = γ 0 x < c. Die Konstanten c und γ ergeben sich dabei aus der Niveaubedingung Hn;ϑ0 ,N−ϑ0 ({c+1, . . . , n}) + γ Hn;ϑ0 ,N −ϑ0 ({c}) = Gϕ (ϑ0 ) = α . ϕ h¨angt deshalb nicht von der Wahl von ϑ1 ab, und Satz (10.3) impliziert: ϕ ist ein bester Test von ϑ0 gegen jedes ϑ1 ∈ 1 zum Niveau α, also ein gleichm¨aßig bester Test von ϑ0 gegen die gesamte Alternative 1 . Es bleibt zu zeigen: ϕ hat auch als Test von ganz 0 gegen 1 das Niveau α, d. h. es gilt Gϕ (ϑ) ≤ α f¨ur alle ϑ ∈ 0 . Sei dazu ϑ < ϑ0 . Wegen der strikten Monotonie von Rϑ0 :ϑ ist ϕ auch ein Neyman-Pearson Test von ϑ gegen ϑ0 , also gem¨aß Satz (10.3) ein bester Test zum Niveau β := Gϕ (ϑ). Insbesondere ist er besser als der konstante Test ψ ≡ β. Somit gilt α = Gϕ (ϑ0 ) ≥ Gψ (ϑ0 ) = β. Das ist gerade die Behauptung.
10.3 Beste einseitige Tests
265
Insgesamt ergibt sich also: Das intuitiv selbstverst¨andliche Testverfahren ist im Fall des hypergeometrischen Modells wirklich optimal; man braucht also nicht nach besseren Verfahren zu suchen. Das einzige, was der Importeur noch zu tun hat, ist es, zum gegebenen Niveau die Konstanten c und γ passend zu bestimmen. F¨ur α = 0.025 und die angegebenen Beispielwerte von N, n, ϑ0 ergeben sich etwa mit Mathematica die Werte c = 6 und γ = 0.52. Da N sehr groß ist, kann man auch die hypergeometrische Verteilung durch die Binomialverteilung und diese durch die Normalverteilung (oder auch die Poisson-Verteilung) approximieren. Man bekommt dann ebenfalls c = 6 und ein leicht ver¨andertes γ . Die Essenz des Optimalit¨atsbeweises im obigen Beispiel war die Monotonie der Likelihood-Quotienten. Diese wollen wir deshalb jetzt allgemein definieren. Definition: Ein statistisches Standardmodell (X, F , Pϑ : ϑ ∈ ) mit ⊂ R hat wachsende Likelihood-Quotienten bez¨uglich einer Statistik T : X → R, wenn f¨ur alle ϑ < ϑ der Dichtequotient Rϑ :ϑ := ϑ /ϑ eine wachsende Funktion von T ist: Rϑ :ϑ = fϑ :ϑ ◦ T f¨ur eine wachsende Funktion fϑ :ϑ . (10.9) Beispiel: Exponentielle Modelle. Jedes (einparametrige) exponentielle Modell hat wachsende Likelihood-Quotienten. Denn aus der definierenden Gleichung (7.21) f¨ur die Likelihood-Funktion folgt f¨ur ϑ < ϑ Rϑ :ϑ = exp a(ϑ ) − a(ϑ) T + b(ϑ) − b(ϑ ) , und die Koeffizientenfunktion ϑ → a(ϑ) ist nach Voraussetzung entweder strikt wachsend oder strikt fallend. Im ersten Fall ist a(ϑ ) − a(ϑ) > 0 und daher Rϑ :ϑ eine wachsende Funktion von T ; im zweiten Fall ist Rϑ :ϑ eine wachsende Funktion der Statistik −T . DieAussage von Beispiel (10.8) l¨asst sich sofort auf alle Modelle mit wachsenden Likelihood-Quotienten verallgemeinern. (10.10) Satz: Einseitiger Test bei monotonen Likelihood-Quotienten. Sei (X, F , Pϑ : ϑ ∈ ) mit ⊂ R ein statistisches Standardmodell mit wachsenden Likelihood-Quotienten bez¨uglich T , ϑ0 ∈ , und 0 < α < 1. Dann existiert ein gleichm¨aßig bester Test ϕ zum Niveau α f¨ur das einseitige Testproblem H0 : ϑ ≤ ϑ0 gegen H1 : ϑ > ϑ0 . Dieser hat die Gestalt T (x) > c , 1 (10.11) ϕ(x) = γ falls T (x) = c , 0 T (x) < c , wobei sich c und γ aus der Bedingung Gϕ (ϑ0 ) = α ergeben. Ferner gilt: Die G¨utefunktion Gϕ ist monoton wachsend.
266
10 Testen von Hypothesen
Beweis: Sind die Likelihood-Quotienten sogar strikt monoton in T , so u¨ bertr¨agt sich der Beweis aus Beispiel (10.8) sofort. Im Fall der einfachen Monotonie argumentiert man wie folgt. Man konstruiert zun¨achst einen Test ϕ der Form (10.11) mit Gϕ (ϑ0 ) = α. Dies geschieht genau wie im Beweis von Satz (10.3b); man w¨ahlt c einfach als α-Fraktil von Pϑ0 ◦T −1 . Wegen der Monotonie der Likelihood-Quotienten gilt dann bei beliebigem ϑ < ϑ : Ist Rϑ :ϑ = fϑ :ϑ ◦ T > fϑ :ϑ (c), so folgt T > c und also ϕ = 1. Analog gilt im Fall Rϑ :ϑ < fϑ :ϑ (c) notwendig ϕ = 0. Somit ist ϕ ein Neyman-Pearson Test von ϑ gegen ϑ , und man kann wieder wie im Beispiel argumentieren. 3 Im Fall einer rechtsseitigen Hypothese H0 : ϑ ≥ ϑ0 gegen eine linksseitige Alternative H1 : ϑ < ϑ0 braucht man nur ϑ und T mit −1 zu multiplizieren, um wieder in der Situation von Satz (10.10) zu sein. Der beste Test hat dann die analoge Gestalt, nur dass < und > vertauscht sind. Wie in Abschnitt 7.5 gezeigt, geh¨oren viele der klassischen statistischen Modelle zur Klasse der exponentiellen Modelle und haben daher wachsende LikelihoodQuotienten. Ein Beispiel ist das Binomialmodell, siehe (7.25). Insbesondere ist der Test ϕ im Beispiel (10.2) von der außersinnlichen Wahrnehmung ein bester Test f¨ur das dort vorliegende Testproblem H0 : ϑ = 1/2 gegen H1 : ϑ > 1/2. Ein weiteres prominentes Beispiel ist das Gaußmodell, das wir in zwei Varianten diskutieren. (10.12) Beispiel: Einseitiger Gaußtest (bekannte Varianz). Wir betrachten wieder die Situation von Beispiel (7.2): Aufgrund n unabh¨angiger Messungen soll getestet werden, ob die Spr¨odigkeit eines K¨uhlwasserrohres unterhalb eines zul¨assigen Grenzwertes m0 liegt. Als Modell w¨ahlen wir wie fr¨uher das n-fache Gauß’sche Produktmodell (Rn , B n , Nm,v ⊗n : m ∈ R) mit bekannter Varianz v > 0. Gem¨aß Beispiel (7.27a) und Bemerkung (7.28) ist das Gaußmodell mit festgehaltener Varianz ein exponentielles Modell bez¨uglich des Stichprobenmittels M mit wachsendem Koeffizienten a(ϑ) = nϑ/v. Wegen Beispiel (10.9), Satz (10.10) und Gleichung (10.7) hat der beste Test von H0 : m ≤ m0 gegen H1 : m > m0 zum Niveau α somit den Ablehnungsbereich 7 M > m0 + v/n #−1 (1 − α) . Dieser Test heißt einseitiger Gaußtest. (10.13) Beispiel: Einseitiger Chiquadrat-Test (bekannter Erwartungswert). Um die genetische Variabilit¨at einer Getreidesorte zu ermitteln, soll aufgrund von n unabh¨angigen Beobachtungen getestet werden, ob die Varianz einer Kenngr¨oße wie z. B. der Halml¨ange einen Mindestwert v0 u¨ berschreitet. Wir machen die Modellannahme, dass die logarithmierten Halml¨angen der einzelnen Pflanzen normalverteilt sind mit einem bekannten Erwartungswert m (der mittleren logarithmischen Halml¨ange) und einer unbekannten Varianz v > 0. (Es ist n¨amlich plausibel anzunehmen, dass die genetischen Einfl¨usse sich multiplikativ auf die Halml¨ange auswirken, und daher additiv auf den Logarithmus der Halml¨ange. Infolge des zentralen
10.4 Parametertests im Gauß-Produktmodell
267
Grenzwertsatzes kann man daher die logarithmischen Halml¨angen n¨aherungsweise als normalverteilt ansehen.) Als Modell w¨ahlen wir deshalb das n-fache Gauß’sche Produktmodell (Rn , B n , Nm,v ⊗n : v > 0) mit bekanntem Erwartungswert m. Es soll die Hypothese H0 : v ≥ v0 gegen die Alternative H1 : v < v0 getestet werden. Nun wissen wir aus Beispiel (7.27b) und Bemerkung (7.28), dass die Produktnormalverteilungen mit festem ' Erwartungswert m eine exponentielle Familie bilden bez¨uglich der Statistik T = ni=1 (Xi − m)2 . Satz (10.10) ist also anwendbar, und der beste Test ϕ zu gegebenem Niveau α hat den Verwerfungsbereich 5' n
6 2 ; (Xi − m)2 < v0 χn;α
i=1
2 das α-Quantil der χ 2 -Verteilung. Denn mit Satz (9.10) erh¨ dabei ist χn;α alt man n 2 2 2 Ev0 (ϕ) = χ n ([0, χn;α ]) = α. Der Test ϕ heißt daher ein einseitiger χ -Test.
10.4
Parametertests im Gauß-Produktmodell
In den letzten beiden Beispielen haben wir im Gauß’schen Produktmodell jeweils einen Parameter als bekannt vorausgesetzt und beste einseitige Tests f¨ur den freien Parameter hergeleitet. Wir wollen nun den zweiparametrigen Fall betrachten, in dem sowohl der Erwartungswert als auch die Varianz der Normalverteilungen unbekannt sind. Wir betrachten also das zweiparametrige Gauß’sche Produktmodell (X, F , Pϑ : ϑ ∈ ) = (Rn , B n , Nm,v ⊗n : m ∈ R, v > 0) . In dieser Situation ist es nat¨urlich, die Tests in den Beispielen (10.12) und (10.13) in der Weise zu modifizieren, dass der unbekannte St¨orparameter, der nicht getestet werden soll, einfach durch seinen Sch¨atzwert ersetzt wird. Sind die so entstehenden Tests aber auch optimal? Nun, wir werden sehen. Wir betrachten zuerst Tests f¨ur die Varianz und dann f¨ur den Erwartungswert.
10.4.1
Chiquadrat-Tests fur ¨ die Varianz
Wir beginnen mit dem linksseitigen Testproblem (V−)
H0 : v ≤ v0 gegen H1 : v > v0
f¨ur die Varianz; dabei sind v0 > 0 und ein Niveau α fest vorgegeben. Es ist also 0 = R × ]0, v0 ] und 1 = R × ]v0 , ∞[. Als Anwendungssituation k¨onnen wir uns vorstellen, dass ein Messinstrument ¨ auf seine Qualit¨at getestet werden soll. Ahnlich wie fr¨uher ist es dann nat¨urlich anzunehmen, dass die Messwerte unabh¨angig und normalverteilt sind. Bei einem guten Messinstrument soll die Varianz unter einem Toleranzwert v0 liegen.
268
10 Testen von Hypothesen
W¨are m bekannt, h¨atte der beste Test in Analogie zu Beispiel (10.13) den Ablehnungsbereich 5' 6 n 2 (Xi − m)2 > v0 χn;1−α , i=1
2 χn;1−α
wobei das α-Fraktil der χn2 -Verteilung ist. Deshalb liegt es nahe, das unbekannte m durch seinen erwartungstreuen Sch¨atzer M zu ersetzen. Die entstehende Testgr¨oße (n − 1)V ∗ /v0 ist nach Satz (9.17) beim Schwellenparameter v0 zwar immer noch χ 2 -verteilt, aber mit nur (n − 1) Freiheitsgraden. Also muss das Fraktil 2 2 durch χn−1;1−α ersetzt werden. So gelangen wir zu der Vermutung, dass der χn;1−α Test mit dem Ablehnungsbereich 2 (10.14) (n − 1) V ∗ > v0 χn−1;1−α optimal ist. Ist dies der Fall? Bevor wir uns dieser Frage zuwenden, wollen wir eine andere, sorgf¨altigere Heuristik anstellen, die auf dem Maximum-Likelihood-Prinzip beruht. Betrachten wir wieder Abbildung 10.2. Im Fall von zusammengesetzten Hypothesen und Alternativen wird man sich bei einem Beobachtungsergebnis x sicher dann f¨ur die Alternative entscheiden, wenn die maximale Likelihood derAlternative, n¨amlich supϑ∈1 ϑ (x), hinreichend stark u¨ ber die maximale Likelihood supϑ∈0 ϑ (x) der Hypothese dominiert, d. h. wenn der (verallgemeinerte) Likelihood-Quotient R(x) =
(10.15)
supϑ∈1 ϑ (x) supϑ∈0 ϑ (x)
einen Schwellenwert a u¨ berschreitet. Solch ein Verfahren wird beschrieben durch Tests der Form 1 R > a, (10.16) ϕ= falls 0 R v0 R =
⊗n supm∈R, v>v0 φm,v
=
supv>v0 v −n/2 exp[−n V /2v] supv≤v0 v −n/2 exp[−n V /2v]
⊗n supm∈R, v≤v0 φm,v 4 3n V V − log −1 , = exp 2 v0 v0
269
10.4 Parametertests im Gauß-Produktmodell
w¨ahrend man im alternativen Fall den Kehrwert des letzten Ausdrucks erh¨alt. Somit ist R eine strikt wachsende Funktion von V und daher auch von V ∗ . Ein LikelihoodQuotienten-Test f¨ur das Testproblem (V−) hat daher den Ablehnungsbereich (10.14). Die Pointe ist nun, dass solch ein Test tats¨achlich optimal ist. Es gilt n¨amlich folgender (10.17) Satz: Linksseitiger χ 2 -Test f¨ur die Varianz einer Normalverteilung. Im n-fachen Gauß’schen Produktmodell ist der Test mit dem Ablehnungsbereich 5' n
2 (Xi − M)2 > v0 χn−1;1−α
6
i=1
ein gleichm¨aßig bester Test der Nullhypothese H0 : v ≤ v0 gegen die Alternative 2 H1 : v > v0 zum Niveau α. Dabei ist M das Stichprobenmittel und χn−1;1−α das 2 α-Fraktil der χn−1 -Verteilung. F¨uhren wir wieder den Zufallsvektor X = (X1 , . . . , Xn ) ein sowie den Diagonalvektor 1 = (1, . . . ,' 1), so l¨asst sich die Testgr¨oße im vorstehenden Satz auch in der suggestiven Form ni=1 (Xi − M)2 = |X − M1|2 schreiben. Den nachfolgenden Beweis sollte man beim ersten Lesen u¨ bergehen. Beweis: Die Idee besteht in einer Reduktion des vorliegenden Zweiparameter-Problems auf ein Einparameter-Problem, indem u¨ ber den St¨orparameter m mit einer geeignet gew¨ahlten a priori Verteilung gemittelt wird. Wir fixieren einen Parameter ϑ1 = (m1 , v1 ) ∈ 1 in der Alternative und betrachten eine Familie von Wahrscheinlichkeitsmaßen der Form . P¯v = wv (dm) Pm,v , 0 < v ≤ v1 . Dabei soll das Wahrscheinlichkeitsmaß wv auf (R, B ) so gew¨ahlt werden, dass P¯v m¨oglichst nah bei Pϑ1 liegt, d. h. m¨oglichst schwer von Pϑ1 unterscheidbar ist. Man spricht deshalb auch von einer ung¨unstigsten a priori Verteilung. Da wir nur Normalverteilungen vorliegen haben, liegt es nahe, auch wv als Normalverteilung zu w¨ahlen. Konkret setzen wir wv = Nm1 ,(v1 −v)/n f¨ur v < v1 und wv1 = δm1 . (Dies ist in der Tat ein ung¨unstiger Fall, denn aus Beispiel (3.32) folgt dann P¯v ◦ M −1 =
. Nm1 ,(v1 −v)/n (dm) Nm,v/n
= Nm1 ,(v1 −v)/n % N0,v/n = Nm1 ,v1 /n = Pϑ1 ◦ M −1 , d. h. allein durch Beobachtung des empirischen Mittelwerts kann man P¯v nicht von Pϑ1 unterscheiden.)
270
10 Testen von Hypothesen
Die Dichtefunktion ¯ v von P¯v ergibt sich durch Integration der Dichtefunktion von Pm,v mit wv . Wir erhalten also f¨ur v < v1 . n ¯ v = dm φm1 ,(v1 −v)/n (m) φm,v (Xi ) . = c1 (v)
i=1
, (Xi − m)2 (m − m1 )2 dm exp − − 2(v1 − v)/n 2v n
i=1
mit einer geeigneten Konstanten c1 (v). Zusammen mit der Verschiebungsformel (7.10) ergibt sich hieraus . n−1 ∗ (m − M)2 (m1 − m)2 ¯ v = c1 (v) exp − V . − dm exp − 2v 2(v1 − v)/n 2v/n Das letzte Integral ist nun aber gerade (bis auf einen konstanten Faktor) die gefaltete Dichte φ0,(v1 −v)/n % φM,v/n (m1 ), welche gem¨aß Beispiel (3.32) mit φM,v1 /n (m1 ) u¨ bereinstimmt. Wir bekommen also mit einer geeigneten Konstanten c2 (v) n − 1 ∗ (m1 − M)2 ¯ v = c2 (v) exp − . V − 2v 2v1 /n Dies gilt ebenfalls f¨ur v = v1 , wenn wir P¯v1 := Pϑ1 = Nm1 ,v1 ⊗n setzen. Mit anderen Worten: die Wahrscheinlichkeitsmaße {P¯v : 0 < v ≤ v1 } bilden eine exponentielle Familie bez¨uglich der Statistik T = V ∗ mit wachsender Koeffizientenfunktion aßig besten a(v) = − n−1 2v . Satz (10.10) impliziert daher die Existenz eines gleichm¨ Tests ϕ der Nullhypothese {P¯v : v ≤ v0 } gegen die Alternative {P¯v1 } zum vorgegebenen Niveau α. Dieser hat die Gestalt ϕ = 1{V ∗ >c} ; dabei ergibt sich c aus der ¯ ϕ (v0 ) = P¯v0 (V ∗ > c). Insbesondere h¨angt c ausschließlich von Bedingung α = G v0 (und n) ab. Genauer liefert Satz (9.17b) f¨ur jedes v ≤ v1 die Beziehung . ∗ ¯ Pv (V > c) = Nm1 ,(v1 −v)/n (dm) Pm,v (V ∗ > c) = χ 2n−1 (] n−1 v c, ∞[) . Speziell f¨ur v = v0 ergibt sich die Gleichung c = ϑ = (m, v) ∈ 0 folgt
v0 n−1
2 χn−1;1−α . Und f¨ur beliebiges
Gϕ (ϑ) = χ 2n−1 ([ n−1 v c, ∞[) ≤ α . Also hat ϕ auch als Test von 0 gegen ϑ1 das Niveau α. Schließlich ist ϕ sogar ein gleichm¨aßig bester Test von 0 gegen 1 zum Niveau α. Ist n¨amlich ψ ein beliebiger Test von 0 gegen 1 zu α, so gilt f¨ur v ≤ v0 . ¯ Gψ (v) = wv (dm) Gψ (m, v) ≤ α ,
10.4 Parametertests im Gauß-Produktmodell
271
d. h. ψ hat auch als Test von {P¯v : v ≤ v0 } gegen {P¯v1 } = {Pϑ1 } das Niveau α. F¨ur dies Testproblem ist ϕ aber optimal; also gilt Gψ (ϑ1 ) ≤ Gϕ (ϑ1 ). Da ϑ1 ∈ 1 beliebig gew¨ahlt war, folgt die behauptete Optimalit¨at. 3 Wie steht es nun mit dem (umgekehrten) rechtsseitigen Testproblem (V+)
H0 : v ≥ v0 gegen H1 : v < v0
f¨ur die Varianz? Braucht man dazu im obigen Satz nur die Relationen > und < 2 2 durch χn−1;α zu ersetzen), um einen besten Test zu zu vertauschen (und χn−1;1−α erhalten? Leider nein! Zun¨achst einmal zeigt sich, dass das Argument einer ung¨unstigsten a priori Verteilung nicht mehr m¨oglich ist. W¨ahlt man n¨amlich wieder ein festen Alternativ-Parameter (m, v) mit v < v0 , so hat die zugeh¨orige Normalverteilung Pm,v = Nn (m1, v E) einen sch¨arferen peak“ als die Normalverteilungen in der ” Hypothese, und durch Mittelung werden die peaks der letzteren nur noch flacher. Eine Ann¨aherung an Pm,v durch die Verteilungen in der Hypothese ist daher nicht m¨oglich. Aber nicht nur das Argument bricht zusammen, sondern auch die Aussage! F¨ur m ∈ R sei n¨amlich ϕm der Test mit Ablehnungsbereich {|X − m1|2 < v0 c}, wobei 2 . ϕ hat auf der gesamten Hypothese = R × [v , ∞[ das Niveau α, c = χn;α m 0 0 denn f¨ur beliebiges (m , v) ∈ 0 gilt wegen der Glockengestalt der Normalverteilungsdichten Gϕm (m , v) = Nn (m 1, v E) |X − m1|2 < v0 c ≤ Nn (m1, v E) |X − m1|2 < v0 c = χ 2n ([0, v0 c/v]) ≤ α . Nun zeigt aber Beispiel (10.13), dass ϕm unter allen Tests ψ mit Em,v0 (ψ) ≤ α an allen Stellen (m, v) mit v < v0 die gr¨oßte Macht hat. Das heißt, an verschiedenen Stellen haben jeweils verschiedene Tests zum Niveau α die gr¨oßte Macht. Es gibt daher keinen besten Niveau-α Test! Die f¨ur gegebenes m besten Tests ϕm haben aber einen gravierenden Nachteil: Sie sind verf¨alscht. Denn f¨ur beliebige m, m ∈ R und v < v0 gilt Gϕm (m , v) = Nn (0, v E) |X − (m − m )1|2 < v0 c → 0 f¨ur |m | → ∞ . Dagegen ist der in Analogie zu Satz (10.17) gebildete Test ϕ mit Ablehnungsbereich 2 } unverf¨alscht zum Niveau α; denn f¨ur m ∈ R und v < v0 {|X − M1|2 < v0 χn−1;α 2 gilt wegen des Student’schen Satzes (9.17) Gϕ (m, v) = χ 2n−1 ([0, vv0 χn−1;α ]) > α . Ist also ϕ vielleicht der beste unter allen unverf¨alschten Tests zum Niveau α? Das ist in der Tat der Fall:
272
10 Testen von Hypothesen
(10.18) Satz: Rechtsseitiger χ 2 -Test f¨ur die Varianz einer Normalverteilung. Im n-fachen Gauß’schen Produktmodell ist der Test mit dem Verwerfungsbereich 5' 6 n 2 (Xi − M)2 < v0 χn−1;α i=1
ein bester unverf¨alschter Niveau-α Test von H0 : v ≥ v0 gegen H1 : v < v0 . Dabei 2 das α-Quantil von χ 2n−1 . ist χn−1;α Wir sparen uns den Beweis, weil wir im n¨achsten Satz ein ganz a¨ hnliches Argument geben werden. Das zweiseitige Testproblem f¨ur die Varianz ist Gegenstand von Aufgabe 10.17.
10.4.2
t-Tests fur ¨ den Erwartungswert
Wir kommen jetzt zu Tests f¨ur den Erwartungswert und betrachten zuerst das einseitige Testproblem H0 : m ≤ m0 gegen H1 : m > m0 .
(M−)
(In diesem Fall gibt es keinen Unterschied zwischen dem betrachteten linksseitigen Testproblem und dem analogen rechtsseitigen Problem.) Anders als beim Gaußtest in Beispiel (10.12) ist die Varianz jetzt unbekannt. Es gilt also 0 = ]−∞, m0 ] × ]0, ∞[ und 1 = ]m0 , ∞[ × ]0, ∞[. Welches Testverfahren wird durch das Maximum-Likelihood-Prinzip suggeriert? ⊗n an der Stelle V 2m = |X − m1|2 /n erreicht wird, Da das Maximum u¨ ber v von φm,v hat der Likelihood-Quotient (10.15) die Gestalt R =
⊗n supm>m0 , v>0 φm,v
−n/2
=
2m supm>m0 V 2m−n/2 supm≤m V
⊗n supm≤m0 , v>0 φm,v 0 2m0 )n/2 (V /V M ≤ m0 , = falls n/2 2 M ≥ m0 . (Vm0 /V )
2m0 /V = 1 + Tm2 /(n − 1) mit Weiter folgt aus der Verschiebungsformel (7.10) V 0 7 Tm0 = (M − m0 ) n/V ∗ . Also ist R eine strikt wachsende Funktion von Tm0 . Jeder Likelihood-Quotienten-Test f¨ur das Testproblem (M−) hat daher einenAblehnungsbereich der Gestalt Tm0 > t . Da Tm0 nach Satz (9.17) unter jedem Pm0 ,v die t-Verteilung t n−1 hat, wird ein vorgegebenes Niveau α genau dann ausgesch¨opft, wenn man t = tn−1;1−α (das α-Fraktil der tn−1 -Verteilung) setzt. Der so gebildete Test heißt einseitiger Student’scher t-Test. Wie im Fall des rechtsseitigen Varianz-Testproblems (V+) ergibt sich aus Beispiel (10.12), dass ein gleichm¨aßig bester Test nicht existiert, aber dass die f¨ur eine
10.4 Parametertests im Gauß-Produktmodell
273
feste Varianz besten Gauß-Tests verf¨alscht sind. Der t-Test erweist sich dagegen als der beste unverf¨alschte Test. (10.19) Satz: Einseitiger t-Test f¨ur den Erwartungswert. Im n-fachen Gauß’schen Produktmodell ist der Test ϕ mit dem Ablehnungsbereich 7 (M − m0 ) n/V ∗ > tn−1;1−α . ein bester unverf¨alschter Niveau-α Test von H0 : m ≤ m0 gegen H1 : m > m0 . Dabei ist tn−1;1−α das α-Fraktil der tn−1 -Verteilung. Beweis: 1. Schritt: Vorbereitung. Ohne Einschr¨ankung setzen wir m0 = 0, denn andernfalls brauchen wir nur die Koordinaten von R zu verschieben. Weiter schreiben wir die Likelihood-Funktion in der Form 3 ' 4 n 2 −ηS µ,η = (2π v)−n/2 exp − (Xi − m)2 /2v = c(µ, η) exp µ M i=1
' √ 2 = √n M, S = |X|2 = n X2 , und der passenden mit µ = m n/v, η = 1/2v, M i=1 i Normierungskonstanten c(µ, η). In den neuen Variablen (µ, η) nimmt das Testproblem (M−) die Gestalt H0 : µ ≤ 0 gegen H1 : µ > 0 an, und die Testgr¨oße T0 des t-Tests schreibt sich in der Form √
7 2 S−M 22 . T0 = n−1 M Der t-Test ϕ hat also den Ablehnungsbereich
2 M
2 > f (S) ; >r = M 7 22 S−M 7 √ dabei ist r = tn−1;1−α / n−1 und f (S) = r S/(1 + r 2 ). 2. Schritt: Testverhalten auf der Grenzgeraden µ = 0. Sei ψ ein beliebiger unverf¨alschter Test. Dann gilt aus Stetigkeitsgr¨unden E0,η (ψ) = α f¨ur µ = 0 und jedes η > 0. Infolge des Satzes (9.17) von Student gilt ebenfalls E0,η (ϕ) = P0,η (T0 > tn−1;1−α ) = α und daher E0,η (ϕ −ψ) = 0 f¨ur alle η > 0. Diese Aussage l¨asst sich noch betr¨achtlich versch¨arfen. Wir setzen zun¨achst η = γ + k mit γ > 0 und k ∈ Z+ . Da sich E0,γ +k (ϕ − ψ) von E0,γ (e−kS [ϕ − ψ]) nur durch einen anderen Normierungsfaktor unterscheidet, gilt dann (10.20)
E0,γ g(e−S ) [ϕ − ψ] = 0
274
10 Testen von Hypothesen
f¨ur jedes Monom g(p) = p k . Aus Linearit¨atsgr¨unden u¨ bertr¨agt sich diese Aussage auf beliebige Polynome g, und wegen des (in Beispiel (5.10) bewiesenen) Weierstraß’schen Approximationssatzes auf beliebige stetige Funktionen g : [0, 1] → R. Dies hat zur Folge, dass auch (10.21) E0,η h(S) [ϕ − ψ] = 0 f¨ur alle η > 0 und alle stetigen Funktionen h : [0, ∞[ → R mit h(u)e−δu → 0 f¨ur u → ∞ und alle δ > 0. In der Tat: Ist 0 < δ < η fest gew¨ahlt, γ = η − δ, und g : [0, 1] → R definiert durch g(p) = h(log p1 ) pδ f¨ur 0 < p ≤ 1 und g(0) = 0, so ist g stetig, und definitionsgem¨aß gilt g(e−S ) = h(S)e−δS . Eingesetzt in (10.20) ergibt dies (10.21). 3. Schritt: Das Neyman-Pearson Argument. Sei (µ, η) ∈ 1 = ]0, ∞[2 beliebig vorgegeben. Dann ist der Likelihood-Quotient 2 Rµ:0,η := µ,η /0,η = c exp[µ M] 2 Also l¨asst sich mit c = c(µ, η)/c(0, η) eine strikt wachsende Funktion von M. der Verwerfungsbereich von ϕ auch in der Form {Rµ:0,η > h(S)} schreiben, wobei h = c exp[µf ]. Zusammen mit (10.21) ergibt sich daher Eµ,η (ϕ − ψ) = E0,η [Rµ:0,η − h(S)] [ϕ − ψ] . Der letzte Erwartungswert ist jedoch nichtnegativ, denn nach Wahl von h(S) haben die beiden eckigen Klammern stets dasselbe Vorzeichen. Also gilt Eµ,η (ϕ) ≥ Eµ,η (ψ), d. h. ϕ hat eine mindestens so große Macht wie ψ. 3 Schließlich betrachten wir noch das zweiseitige Testproblem (M±)
H0 : m = m0 gegen H1 : m = m0
f¨ur den Mittelwert m. Es ist also 0 = {m0 } × ]0, ∞[. Zur Motivation denke man sich etwa einen Physiker, der eine physikalische Theorie testen will. Die Theorie sage bei einem bestimmten Experiment den Messwert m0 ∈ R voraus. Zur ¨ Uberpr¨ ufung werden n unabh¨angige Messungen durchgef¨uhrt. Die Ergebnisse werden wieder als Realisierungen von normalverteilten Zufallsvariablen interpretiert, von denen nicht nur der Erwartungswert (der gew¨unschte Messwert), sondern auch die Varianz (die Pr¨azision der Versuchsanordnung) unbekannt ist.
Hinweise auf ein plausibles Verfahren liefert wieder der Likelihood-Quotient. Wie beim einseitigen Testproblem (M−) findet man die Gleichung
|Tm0 |2 n/2 R = 1+ , n−1
10.4 Parametertests im Gauß-Produktmodell
275
d. h. R ist eine strikt wachsende Funktion von |Tm0 |. Ein Likelihood-Quotienten-Test ϕ f¨ur das zweiseitige Testproblem (M±) hat daher einenAblehnungsbereich der Form {|Tm0 | > t}. Gem¨aß Satz (9.17) muss t als das α/2-Fraktil von t n−1 gew¨ahlt werden, wenn ϕ das Niveau α aussch¨opfen soll. Dieser sogenannte zweiseitige Student’sche t-Test erweist sich wieder als bester unverf¨alschter Test. (10.22) Satz: Zweiseitiger t-Test f¨ur den Erwartungswert. Im n-fachen Gauß’schen Produktmodell ist der Test ϕ mit dem Ablehnungsbereich 7 |M − m0 | n/V ∗ > tn−1;1−α/2 ein bester unverf¨alschter Niveau-α Test von H0 : m = m0 gegen H1 : m = m0 . Dabei ist tn−1;1−α/2 das α/2-Fraktil der tn−1 -Verteilung. Beweis: Wir gehen genau wie im Beweis von Satz (10.19) vor und verwenden wieder die gleichen Bezeichnungen. 1. Schritt: Wir f¨uhren wieder die neuen Variablen µ, η ein. Das Testproblem gegen H1 : µ = 0, und der Ablehnungsbereich von ϕ lautet dann H0 : µ = 0 7 2 2 > r = {|M| 2 > f (S)}. 2 bekommt die Form |M|/ S − M 2. Schritt: Sei ψ ein beliebiger unverf¨alschter Niveau-α Test. Wie im einseitigen Fall ist dann die G¨utefunktion von ψ auf der Hypothese H0 : µ = 0 konstant gleich α. Dasselbe gilt nach Konstruktion auch f¨ur ϕ. Hieraus ergibt sich wieder Gleichung (10.21). Wir machen jetzt noch eine zus¨atzliche Feststellung: F¨ur alle η > 0 hat die Funktion µ → Eµ,η (ψ) an der Stelle µ = 0 ein globales ∂ 2 ψ); zur Minimum. Somit verschwindet ihre Ableitung ∂µ Eµ,η (ψ)|µ=0 = E0,η (M Existenz der Ableitung siehe Bemerkung (7.23) und die Gestalt von µ,η . F¨ur ϕ erhalten wir entsprechend . 2 2 ϕ) = c(0, η) ϕ(x) = 0 , dx e−η S(x) M(x) E0,η (M Rn
2 antisymmetrisch unter der Spiegelung denn ϕ und S sind symmetrisch und M x → −x. Genau wie in (10.21) ergibt sich hieraus, dass auch 2 [ϕ − ψ] = 0 (10.23) E0,η h(S) M f¨ur alle η > 0 und alle stetigen und h¨ochstens subexponentiell wachsenden Funktionen h. 3. Schritt: Seien µ = 0 und η > 0 beliebig vorgegeben. Dann ist der Likelihood2 eine strikt konvexe Funktion von M. 2 Wie AbbilQuotient Rµ:0,η = c exp[µ M] 2 dung 10.3 zeigt, l¨asst sich daher der Verwerfungsbereich {|M| > f (S)} in der Form 2 {Rµ:0,η > a(S) + b(S) M}
276
10 Testen von Hypothesen Rµ:0,η 2 a(S) + b(S) M
−f (S)
f (S)
0
2 M
Abbildung 10.3: Charakterisierung eines Intervalls durch die Sekante einer konvexen Funktion.
schreiben; dabei sind a(S) und b(S) so gew¨ahlt, dass die Gerade u → a(S) + b(S) u die Exponentialfunktion u → c exp[µ u] genau in den Punkten u = ±f (S) schneidet, d. h. a = c cosh(µf ) und b = c sinh(µf )/f . Aus (10.21) und (10.23) folgt nun aber 2 [ϕ − ψ] = 0 E0,η [a(S) + b(S)M] und daher 2 [ϕ − ψ] ≥ 0 , Eµ,η (ϕ − ψ) = E0,η [Rµ:0,η − a(S) − b(S)M] denn nach Konstruktion haben die beiden eckigen Klammern stets dasselbe Vorzeichen. 3 Die G¨utefunktionen von ein- und zweiseitigen t-Tests lassen sich explizit berechnen, indem man ausnutzt, dass die Teststatistik Tm0 f¨ur m = m0 eine nichtzentrale tn−1 -Verteilung hat, wie sie in Aufgabe 9.11 eingef¨uhrt wurde. F¨ur große n hat man außerdem eine Normalapproximation zur Verf¨ugung. Siehe dazu die Aufgaben 10.20 und 10.21. Das typische Aussehen dieser G¨utefunktionen zeigt Abbildung 10.4.
1
v 2
-1
0
m
1
v
1
2 -1
m
0
1
Abbildung 10.4: G¨utefunktionen des einseitigen (links) und des zweiseitigen (rechts) t-Tests f¨ur m0 = 0, n = 12 und α = 0.1.
Aufgaben
277
Unser abschließendes Beispiel demonstriert eineAnwendung des t-Tests im Kontext gepaarter Stichproben. (10.24) Beispiel: Vergleich zweier Schlafmittel. Wir betrachten wieder die Situation aus Beispiel (8.6): Zwei Schlafmittel A und B werden an n = 10 Patienten verabreicht und bei jedem Patienten die Differenz der Schlafdauer gemessen; letztere wird als normalverteilt angenommen mit unbekannten Parametern m und v. Wir testen die Nullhypothese H0 : m = 0, dass beide Schlafmittel gleich wirksam sind, zum Niveau √ α = 0.01. F¨ur den Datenvektor x aus Beispiel (8.6) ergibt sich T0 (x) = 1.58 10/1.513 = 4.06, und dieser Wert ist gr¨oßer als das Quantil t9;0.995 = 3.25. Also wird die Nullhypothese aufgrund von x abgelehnt, d. h. die Wirkung beider Schlafmittel ist unterschiedlich, und wegen T0 (x) > 0 ist B offenbar wirksamer.
Aufgaben 10.1. Zusammenhang von Konfidenzbereichen und Tests. Sei (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell. Zeigen Sie: (a) Ist C : X → P() ein Konfidenzbereich zum Irrtumsniveau α und ϑ0 ∈ , so ist {ϑ0 ∈ C(·)} der Ablehnungsbereich eines Tests von H0 : ϑ = ϑ0 gegen H1 : ϑ = ϑ0 zum Niveau α. (b) Ist umgekehrt f¨ur jedes ϑ0 ∈ ein nichtrandomisierter Test f¨ur H0 : ϑ = ϑ0 gegen H1 : ϑ = ϑ0 zum Niveau α gegeben, so l¨asst sich daraus ein Konfidenzbereich zum Irrtumsniveau α gewinnen. 10.2. Bestimmen Sie im statistischen Produktmodell (Rn , B n , U[0,ϑ] ⊗n : ϑ > 0) die G¨utefunktion des Tests mit Annahmebereich 21 < max{X1 , . . . , Xn } ≤ 1 f¨ur das Testproblem H0 : ϑ = 1 gegen H1 : ϑ = 1. 10.3. In einer Sendung von 10 Ger¨aten befindet sich eine unbekannte Anzahl fehlerhafter Ger¨ate, wobei der Fehler jeweils nur durch eine sehr kostspielige Qualit¨atskontrolle festgestellt werden kann. Ein Abnehmer, der nur an einer v¨ollig einwandfreien Lieferung interessiert ist, f¨uhrt folgende Eingangskontrolle durch: Er pr¨uft 5 Ger¨ate. Sind diese alle einwandfrei, so nimmt er die Sendung an, sonst l¨asst er sie zur¨uckgehen. Beschreiben Sie das Vorgehen testtheoretisch und ermitteln Sie das effektive Niveau des Testverfahrens. Wieviele Ger¨ate m¨ussen u¨ berpr¨uft werden, wenn die Wahrscheinlichkeit f¨ur eine irrt¨umliche Annahme der Sendung kleiner gleich 0.1 sein soll? 10.4. Geben Sie in den beiden folgenden F¨allen einen besten Test f¨ur H0 : P = P0 gegen H1 : P = P1 zum Niveau α ∈ ]0, 1/2[ an: (a) P0 = U]0,2[ , P1 = U]1,3[ . (b) P0 = U]0,2[ , P1 hat die Dichtefunktion 1 (x) = x 1]0,1] (x) + 21 1[1,2[ (x). 10.5. Bei einer Razzia findet die Polizei bei einem Gl¨ucksspieler eine M¨unze, von der ein anderer Spieler behauptet, dass Zahl“ mit einer Wahrscheinlichkeit von p = 0.75 statt mit ”
278
10 Testen von Hypothesen
p = 0.5 erscheint. Aus Zeitgr¨unden kann die M¨unze nur n = 10 Mal u¨ berpr¨uft werden. W¨ahlen Sie Nullhypothese und Alternative gem¨aß dem Rechtsgrundsatz In dubio pro reo“ ” und geben Sie einen zugeh¨origen besten Test zum Irrtumsniveau α = 0.01 an. (Taschenrechner verwenden!) 10.6. Anhand von n Ziehungen des Samstagslottos 6 aus 49“ soll getestet werden, ob die ” 13“ eine Ungl¨uckszahl ist, weil sie seltener gezogen wird als zu erwarten w¨are. Formulieren ” Sie das Testproblem und geben Sie (mit Hilfe der Normalapproximation der Binomialverteilung) einen besten Test zum approximativen Niveau α = 0.1 an. Wie lautet Ihre Entscheidung f¨ur die 2539 Ziehungen vom 9.10.1955 bis zum 5.6.2004, bei denen die 13“ nur 252 Mal ” gezogen wurde und mit Abstand am unteren Ende der H¨aufigkeitsskala stand? 10.7. Minimax-Tests. Betrachten Sie ein einfaches Alternativ-Standardmodell (X, F ; P0 , P1 ). Ein Test ϕ von P0 gegen P1 heißt ein Minimax-Test, wenn das Maximum der Irrtumswahrscheinlichkeiten erster und zweiter Art minimal ist. Zeigen Sie: Es gibt einen Neyman-Pearson Test ϕ mit E0 (ϕ) = E1 (1 − ϕ), und dieser ist ein Minimax-Test. 10.8. Bayes-Tests. Sei ϕ ein Test von P0 gegen P1 in einem einfachen Alternativ-Standardmodell (X, F ; P0 , P1 ), und seien α0 , α1 > 0. Zeigen Sie: Genau dann minimiert ϕ die gewichtete Irrtumswahrscheinlichkeit α0 E0 (ϕ)+α1 E1 (ϕ), wenn ϕ ein Neyman-Pearson Test zum Schwellenwert c = α0 /α1 ist. ϕ heißt dann ein Bayes-Test zur Vorbewertung (α0 , α1 ). 10.9. Unter 3000 Geburten wurden in einer Klinik 1578 Knaben gez¨ahlt. W¨urden Sie aufgrund dieses Ergebnisses mit einer Sicherheit von 95% an der Hypothese festhalten wollen, dass die Wahrscheinlichkeit f¨ur eine Knabengeburt gleich 1/2 ist? ¨ 10.10. Betrachten Sie die Situation von Beispiel (10.5) von der Satelliten-Uberpr¨ ufung. Der Satelliten-Hersteller hat die Wahl zwischen zwei Systemen A und B. Bei System A betr¨agt (A) √ das Verh¨altnis des Signals zum Rauschen m1 / v = 2, und es kostet €105 . System B mit (B) √ dem Verh¨altnis m1 / v = 1 kostet dagegen nur €104 . Bei beiden Systemen kostet jede Sendesekunde €102 , und der Satellit soll insgesamt 100 Mal gepr¨uft werden. Bei jeder einzelnen Pr¨ufung soll die Zahl n der Sendesekunden jeweils so groß sein, dass die Irrtumswahrscheinlichkeiten erster und zweiter Art beide ≤ 0.025 sind. Welches System soll der Hersteller verwenden? 10.11. Sei (E, E ; Q0 , Q1 ) ein statistisches Standardmodell mit einfacher Hypothese und Alternative und strikt positiven Dichten 0 , 1 . F¨ur den Log-Likelihood-Quotienten h = log 1 /0 existiere die Varianz v0 = V0 (h). Im zugeh¨origen unendlichen Produktmodell sei Rn der Likelihood-Quotient nach n Beobachtungen. Zeigen Sie: Der Neyman-Pearson Test zu einem vorgegebenen 0 < α < 1 hat einen Ablehnungsbereich der Gestalt √ log Rn > −n H (Q0 ; Q1 ) + nv0 #−1 (1 − α)(1 + δn ) mit δn → 0 f¨ur n → ∞. (Hinweis: Bestimmen Sie das asymptotische Niveau der Tests mit konstantem δn = δ = 0.) 10.12. Bestimmen Sie in der Situation von Aufgabe 7.1 einen besten Test zum Niveau α = 0.05 f¨ur die Nullhypothese, dass die Strahlenbelastung h¨ochstens 1 betr¨agt, aufgrund von n = 20 unabh¨angigen Beobachtungen. Plotten Sie die G¨utefunktion (z. B. mit Mathematica).
279
Aufgaben
10.13. Optimalit¨at der G¨utefunktion auf der Hypothese. Sei ⊂ R und (X, F , Pϑ : ϑ ∈ ) ein statistisches Modell mit wachsenden Likelihood-Quotienten bez¨uglich T . F¨ur ϑ0 ∈ sei ϕ ein gleichm¨aßig bester Niveau-α Test der Hypothese H0 : ϑ ≤ ϑ0 gegen die Alternative H1 : ϑ > ϑ0 . Zeigen Sie: Die G¨utefunktion von ϕ ist auf der Hypothese minimal, d. h. f¨ur jeden Test ψ mit Eϑ0 (ψ) = α gilt Gϕ (ϑ) ≤ Gψ (ϑ) f¨ur alle ϑ ≤ ϑ0 . 10.14. Test der Funktionsdauer von Ger¨aten. Betrachten Sie das n-fache Produkt des Modells ([0, ∞[, B[0,∞[ , Qϑ : ϑ > 0); dabei sei Qϑ die Weibull-Verteilung mit bekannter Potenz β > 0 und unbekanntem Skalenparameter ϑ > 0, d. h. Qϑ habe die Dichtefunktion ϑ (x) = ϑβ x β−1 exp[−ϑ x β ] . (Dies Modell beschreibt die zuf¨allige Funktionsdauer von technischen Produkten, vgl.Aufgabe 3.22.) 'n β (a) Zeigen Sie: Unter Q⊗n i=1 Xi die Gamma-Verteilung Γ1,n . (Hinweis: ϑ hat T = ϑ Korollar (9.9).) (b) Bestimmen Sie einen besten Niveau-α Test ϕ f¨ur die Nullhypothese H0 : ϑ ≤ ϑ0 ( mittlere Lebensdauer u¨ berschreitet Minimalwert“) gegen H1 : ϑ > ϑ0 . ” (c) Sei ϑ0 = 1 und α = 0.01. Wie groß muss n sein, damit Gϕ (2) ≥ 0.95 ist? Verwenden Sie den zentralen Grenzwertsatz. 10.15. Bei einem Preisr¨atsel wird der Gewinner dadurch ermittelt, dass aus der Menge aller eingegangenen Postkarten solange (mit Zur¨ucklegen) gezogen wird, bis man eine Karte mit der richtigen L¨osung in der Hand h¨alt. Da bei der letzten Auslosung dazu 7 Karten gezogen werden mussten, argw¨ohnt der verantwortliche Redakteur, dass derAnteil p der eingegangenen richtigen L¨osungen weniger als 50% betragen habe, die Quizfrage also zu schwierig gewesen sei. Liegt er mit dieser Entscheidung richtig? F¨uhren Sie anhand des vorliegenden Ergebnisses in einem geeigneten statistischen Modell einen Test f¨ur H0 : p ≥ 0.5 gegen H1 : p < 0.5 zum Niveau α = 0.05 durch. 10.16. Konstruieren Sie einen zweiseitigen Binomialtest zum Niveau α, d. h. einen Test im Binomialmodell f¨ur die Nullhypothese H0 : ϑ = ϑ0 gegen die Alternative H1 : ϑ = ϑ0 , 0 < ϑ0 < 1. Leiten Sie außerdem mit Hilfe des Satzes von de Moivre-Laplace eine asymptotische Version des Tests her. 10.17. Zweiseitiger Chiquadrat-Test. Betrachten Sie im zweiparametrigen Gauß’schen Produktmodell das zweiseitige Testproblem H0 : v = v0 gegen H1 : v = v0 mit folgender ∗ Entscheidungsvorschrift: H0 werde akzeptiert, falls c1 ≤ n−1 v0 V ≤ c2 . (a) Berechnen Sie die G¨utefunktion G dieses Tests und zeigen Sie: Es gilt c (n−1)/2 ∂G 2 (m, v0 ) 0 je nachdem, ob e(c2 −c1 )/2 . ∂v c1 (b) Naiv w¨urde man c1 , c2 ja so w¨ahlen, dass n−1 ∗ ∗ Pm,vo n−1 v0 V < c1 = Pm,v0 v0 V > c2 = α/2 . Zeigen Sie im Fall α = 0.02, n = 3, dass dieser Test verf¨alscht ist, und skizzieren Sie G.
280
10 Testen von Hypothesen
(c) Wie kann man einen unverf¨alschten Test der obigen Bauart konstruieren? (d) Welche Gestalt hat der zugeh¨orige Likelihood-Quotienten-Test? 10.18. Zeigen Sie, dass im zweiparametrigen Gauß’schen Produktmodell kein gleichm¨aßig bester Test f¨ur das einseitige Testproblem H0 : m ≤ 0 gegen H1 : m > 0 existiert. 10.19. Zeigen Sie direkt (d. h. ohne Benutzung von Satz (10.19)), dass der einseitige t-Test im zweiparametrigen Gauß’schen Produktmodell unverf¨alscht ist. Benutzen Sie dazu den Satz (9.17) von Student. 10.20. Sei ϕ ein ein- oder zweiseitiger t-Test f¨ur den Erwartungswert im zweiparametrigen Gauß’schen Produktmodell. Dr¨ucken Sie die G¨utefunktion Gϕ (m, v) von ϕ durch die nichtzentralen t-Verteilungen aus Aufgabe 9.11 aus. 10.21. Approximative G¨utefunktion des t-Tests. Betrachten Sie im zweiparametrigen nfachen Gauß’schen Produktmodell den t-Test ϕn f¨ur das einseitige Testproblem H0 : m ≤ 0 gegen H1 : m > 0 zu einem gegebenen Niveau α. Zeigen Sie: (a) F¨ur großes n besitzt die G¨utefunktion von ϕn die Normalapproximation 7 Gϕn (m, v) ≈ #(#−1 (α) + m n/v) . (Verwenden Sie die S¨atze (7.29) und (9.17b).) (b) Wie groß muss n sein, damit ϕn im Fall α = 0.01 f¨ur m = 0.95 hat?
√
v/2 ungef¨ahr die Macht
10.22. Eine Lehrmittelfirma liefert physikalische Widerst¨ande und behauptet, deren Widerst¨ande seien normalverteilt mit Mittelwert 50 und Standardabweichung 5 (jeweils in Ohm). Geben Sie je einen Test f¨ur die beiden Testprobleme (a) H0 : m ≤ 55 gegen H1 : m > 55 (b) H0 : v ≤ 25 gegen H1 : v > 25 zum Niveau α = 0.05 an (bei Vorliegen von 10 Messungen unter Normalverteilungsannahme; m und v beide unbekannt). Wie lautet die Entscheidung bei folgenden Messergebnissen f¨ur 10 Widerst¨ande: 45.9 68.5 56.8 60.0 57.7 63.0 48.2 59.0 55.2 50.6 10.23. Zweistichproben-Problem. Seien X1 , . . . , Xk , Y1 , . . . , Yl unabh¨angige Zufallsvariablen mit Verteilung Nm,v bzw. Nm ,v ; m, m und v seien unbekannt. Zeigen Sie: Jeder Likelihood-Quotienten-Test f¨ur das Testproblem H0 : m ≤ m gegen H1 : m > m hat einen Ablehnungsbereich der Form {T > c} mit der Zweistichproben-t-Statistik 9 T =
Dabei ist X = k1
k ' i=1
Xi , Y = 1l
l ' j =1
kl X − Y . √ k+l V∗
1 Yj , V ∗ = k+l−2
k '
(Xi − X)2 +
i=1
l '
(Yj − Y )2 .
j =1
Aufgaben
281
10.24. p-Wert und Kombination von Tests. Betrachten Sie alle Tests mit einem Ablehnungsbereich der Form {T > c} f¨ur eine vorgegebene reellwertige Statistik T , welche auf der Nullhypothese 0 eine nicht von ϑ abh¨angige Verteilung hat: Pϑ (T ≤ c) = F (c) f¨ur alle ϑ ∈ 0 und c ∈ R. Insbesondere hat der Test mit Ablehnungsbereich {T > c} das Niveau 1 − F (c). Der p-Wert p(x) zu einem Beobachtungsergebnis x ∈ X ist dann definiert als das kleinste Niveau α, bei dem x noch zur Annahme der Nullhypothese f¨uhrt: p(x) = 1−F ◦T (x). Setzen Sie voraus, dass F stetig und auf dem Intervall {0 < F < 1} strikt monoton ist, und zeigen Sie: (a) Unter der Nullhypothese hat p(·) die Verteilung U]0,1[ . (Hinweis: Aufgabe 1.16.) (b) Der Test mitAblehnungsbereich {p(·) < α} ist a¨ quivalent zum Niveau-α Test der Gestalt {T > c}. (c) Sind p1 (·), . . . , pn (·) die p-Werte bei 'n unabh¨angigen Untersuchungen bei Verwendung der Teststatistik T , so ist S = −2 ni=1 log pi (·) auf der Nullhypothese χ 2n -verteilt, 2 und durch den Ablehnungsbereich {S > χn;1−α } wird ein (die verschiedenen Untersuchungen kombinierender) Test zum Niveau α definiert.
11 Asymptotische Tests und Rangtests
Wie testet man, ob ein W¨urfel fair ist? Und wie u¨ berpr¨uft man, ob zum Beispiel die Milchleistung von K¨uhen von dem verwendeten Futter abh¨angt? Die in solchen Zusammenh¨angen verwendeten Chiquadrat-Tests f¨ur diskrete Daten sind asymptotische Tests in dem Sinne, dass ihr Niveau nur approximativ im Limes großer Beobachtungszahl bestimmt werden kann. Sie basieren auf dem zentralen Grenzwertsatz. Ganz andere Testverfahren dagegen bieten sich an, wenn man etwa entscheiden will, ob ein Medikament wirkungsvoller ist als ein anderes. Diese sogenannten Ordnungsund Rangtests werden im letzten Abschnitt diskutiert.
11.1
Normalapproximation von Multinomialverteilungen
W¨ahrend im letzten Abschnitt 10.4 die Normalverteilung der zuf¨alligen Beobachtungen einfach vorausgesetzt wurde, sollen in den folgenden beiden Abschnitten zwei asymptotische Testverfahren beschrieben werden, bei denen sich eine Normalverteilung erst approximativ bei einer großen Anzahl von Beobachtungen einstellt. Hier wird daf¨ur die theoretische Grundlage bereitgestellt: ein zentraler Grenzwertsatz f¨ur multinomialverteilte Zufallsvektoren. Daf¨ur muss zuerst der Begriff der Verteilungskonvergenz auch auf vektorwertige Zufallsvariablen ausgedehnt werden. Definition: Sei s ∈ N, (Yn )n≥1 eine Folge von Rs -wertigen Zufallsvektoren und Y ein Zufallsvektor mit Verteilung Q auf Rs . Man sagt, Yn konvergiert in Verteilung L L gegen Y bzw. Q, und schreibt Yn −→ Y oder Yn −→ Q, wenn f¨ur alle A ∈ B s mit Q(∂A) = 0 gilt: P (Yn ∈ A) → Q(A) f¨ur n → ∞. Hier bezeichnet ∂A den topologischen Rand von A. Im Prinzip d¨urfen Y und alle Yn auf jeweils unterschiedlichen Wahrscheinlichkeitsr¨aumen definiert sein. Bei geeigneter Modellwahl l¨asst sich jedoch stets erreichen, dass sie allesamt auf dem gleichen Wahrscheinlichkeitsraum definiert sind; das wollen wir deshalb hier voraussetzen.
(11.1) Bemerkung: Charakterisierung der Verteilungskonvergenz. In der Situation L der Definition gilt Yn −→ Q bereits ( dann, wenn P (Yn ∈ A) → Q(A) nur f¨ur alle Oktanten“ A der Gestalt A = si=1 ]−∞, ai ] gilt, wobei die ai ∈ ]−∞, ∞] so ” gew¨ahlt sind, dass Q(∂A) = 0.
283
11.1 Normalapproximation von Multinomialverteilungen
Beweisskizze: Wegen der Additivit¨at von Wahrscheinlichkeitsmaßen ist die Menge aller A mit P (Yn ∈ A) → Q(A) abgeschlossen unter der Bildung von echten Differenzen und endlichen disjunkten Vereinigungen. Da man aber aus Oktanten durch sukzessive Differenzbildung beliebige halboffene Quader erh¨alt (die auch halbseitig unendlich sein d¨urfen, da wir ai = ∞ zugelassen haben), u¨ bertragt sich die Konvergenzaussage von Oktanten auf endliche disjunkte Vereinigungen von halboffenen Quadern. Ist nun ein beliebiges A ∈ B s gegeben, so existieren Mengen Bk mit Q(∂Bk ) = 0, welche als disjunkte Vereinigung endlich vieler halboffener Quader darstellbar sind und gegen den Abschluss A¯ von A absteigen. (Denn ist Wε (a) ⊂ Rs der halboffene W¨urfel mit Mittelpunkt a ∈ Rs und Kantenl¨ange ε > 0, so ist die Funktion ε → Q(Wε (a)) wachsend und beschr¨ankt und hat daher h¨ochstens abz¨ahlbar viele Sprungstellen. F¨ur jede Stetigkeitsstelle ε gilt aber Q(Wε (a)) = 0. Man w¨ahle deshalb Bk als geeignete Vereinigung solcher Wε (a).) Es folgt ¯ . lim sup P (Yn ∈ A) ≤ inf lim P (Yn ∈ Bk ) = inf Q(Bk ) = Q(A) n→∞
k≥1 n→∞
k≥1
Wendet man dies Ergebnis auf das Komplement Ac an, so ergibt sich umgekehrt lim inf n→∞ P (Yn ∈ A) ≥ Q(Ao ), wobei Ao das Innere von A bezeichnet. Ist nun ¯ = Q(Ao ) = Q(A), und man erh¨alt die Konvergenz Q(∂A) = 0, so gilt Q(A) P (Yn ∈ A) → Q(A). 3 Die Bemerkung zeigt insbesondere, dass die obige Definition der Verteilungskonvergenz im Fall s = 1 mit der bisher definierten Verteilungskonvergenz u¨ bereinL stimmt: Es gilt Yn −→ Q genau dann, wenn P (Yn ≤ a) → Q(]−∞, a]) f¨ur alle a ∈ R mit Q({a}) = 0, also wenn die Verteilungsfunktion von Yn gegen die von Q konvergiert an allen Stellen, an denen die letztere stetig ist. Wir stellen noch ein paar allgemeine Eigenschaften der Verteilungskonvergenz bereit, die wir sp¨ater zum Beweis von Satz (11.18) ben¨otigen werden; Aussage (a) ist als continuous mapping theorem“ und (b) und (c) als Satz von Cramér-Slutsky ” bekannt. (11.2) Proposition: Stabilit¨atseigenschaften der Verteilungskonvergenz. Seien s, r ∈ L N sowie X und Xn , n ≥ 1, Rs -wertige Zufallsvektoren mit Xn −→ X. Dann gelten die folgenden Aussagen: L
(a) Ist f : Rs → Rr stetig, so gilt f (Xn ) −→ f (X). P
(b) Ist (Yn )n≥1 eine Folge von Zufallsvektoren in Rs mit |Yn | −→ 0, so folgt L Xn + Yn −→ X. (c) Sei M eine feste r × s Matrix und (Mn )n≥1 eine Folge zuf¨alliger Matrizen in P
L
Rr×s . Gilt dann *Mn − M* −→ 0, so folgt Mn Xn −→ M X.
284
11 Asymptotische Tests und Rangtests
Beweis: (a) Sei A ∈ B r mit P (f (X) ∈ ∂A) = 0 gegeben. Wegen der Stetigkeit von f gilt dann ∂(f −1 A) ⊂ f −1 (∂A), also auch P (X ∈ ∂(f −1 A)) = 0. Die L Verteilungskonvergenz Xn −→ X impliziert daher P (f (Xn ) ∈ A) = P (Xn ∈ f −1 A) −→ P (X ∈ f −1 A) = P (f (X) ∈ A) . n→∞
(b) F¨ur A ∈ B s mit P (X ∈ ∂A) = 0 und ε > 0 sei Aε die ε-Umgebung von A. Die Funktion ε → P (X ∈ Aε ) ist wachsend und daher an h¨ochstens abz¨ahlbar vielen Stellen unstetig. Ist ε eine Stetigkeitsstelle, so gilt P (X ∈ ∂Aε ) = 0 und daher P (Xn + Yn ∈ A) ≤ P (|Yn | ≥ ε) + P (Xn ∈ Aε ) → P (X ∈ Aε ) , also im Limes ε → 0 ¯ . lim sup P (Xn + Yn ∈ A) ≤ P (X ∈ A) n→∞
Wendet man dieses Ergebnis auf Ac an, so folgt lim inf P (Xn + Yn ∈ A) ≥ P (X ∈ Ao ) . n→∞
¯ = P (X ∈ A), folgt hieraus die Da nach Voraussetzung P (X ∈ Ao ) = P (X ∈ A) Behauptung. L (c) Wegen Aussage (a) gilt MXn −→ MX. Infolge von (b) gen¨ugt es daher zu P
zeigen, dass |(Mn − M)Xn | −→ 0. Sei also ε > 0 beliebig vorgegeben. Dann k¨onnen wir schreiben P (|(Mn − M)Xn | ≥ ε) ≤ P (*Mn − M* ≥ δ) + P (|Xn | ≥ ε/δ) , wobei δ > 0 beliebig gew¨ahlt ist. Nach dem gleichen Argument wie in (b) gilt P (|X| = ε/δ) = 0 f¨ur alle bis auf h¨ochstens abz¨ahlbar viele δ > 0. F¨ur diese δ erhalten wir lim sup P (|(Mn − M)Xn | ≥ ε) ≤ P (|X| ≥ ε/δ) . n→∞
Im Limes δ → 0 folgt hieraus die Behauptung. 3 Nach diesen Vorbereitungen k¨onnen wir uns nun dem Approximationsproblem zuwenden. Sei E = {1, . . . , s} eine endliche Menge, eine Z¨ahldichte auf E, und X1 , X2 , . . . eine Folge von unabh¨angigen E-wertigen Zufallsvariablen mit Verteilungsdichte , d. h. P (Xk = i) = (i) f¨ur alle i ∈ E und k ∈ N. (Zum Beispiel kann man sich vorstellen, dass unendlich viele Stichproben mit Zur¨ucklegen aus einer Urne gezogen werden; E ist dann die Menge der Farben, (i) der Anteil der Kugeln
11.1 Normalapproximation von Multinomialverteilungen
285
mit Farbe i ∈ E, und Xk die Farbe der k-ten Kugel.) Wir betrachten die absoluten H¨aufigkeiten hn (i) = |{1 ≤ k ≤ n : Xk = i}| , mit denen die einzelnen Ergebnisse i ∈ E bis zur Zeit n eingetreten sind. Der Zufallsvektor hn = (hn (i))i∈E hat dann nach Satz (2.9) die Multinomialverteilung Mn, auf Zs+ . Um einen zentralen Grenzwertsatz f¨ur hn beweisen zu k¨onnen, m¨ussen wir den Zufallsvektor hn geeignet standardisieren. Jedes einzelne hn (i) hat nach Beispiel (4.27) den Erwartungswert n (i) und 7 die Varianz n (i)(1 − (i)). Die zugeh¨orige Standardisierung (hn (i) − n (i))/ n (i)(1 − (i)) ist jedoch nicht geeignet, wie sich gleich zeigen wird. Und zwar liegt dies daran, dass die hn (i), i ∈ E, nicht unabh¨angig voneinander sind. Die richtige Standardisierung hat vielmehr der Zufallsvektor
hn (i) − n(i) . (11.3) h∗n, = 7 n(i) 1≤i≤s Man beachte zun¨achst, dass h∗n, stets in der Hyperebene s 7 5 6 , (i) xi = 0 H = x ∈ Rs : i=1 liegt. Der folgende Satz wird zeigen, dass h∗n, in Verteilung gegen die multivariate ” Standardnormalverteilung auf H “ strebt. Genauer sei O eine orthogonale Matrix, 7
in deren letzter Spalte der Einheitsvektor u = ( (i))1≤i≤s steht. O beschreibt also eine Drehung, welche die Hyperebene {x ∈ Rs : xs = 0} in die Hyperebene H dreht. Sei ferner Es−1 die Diagonalmatrix mit Eintrag 1 in den ersten s − 1 Diagonalelementen und 0 sonst. Dann beschreibt die Matrix Π = O Es−1 O die Projektion auf die Hyperebene H , und es gilt Π = Π = Π Π . Wir definieren nun (11.4)
N := Ns (0, Π ) = Ns (0, E) ◦ Π−1 ,
d. h. N ist das Bild der s-dimensionalen Standardnormalverteilung Ns (0, E) unter der Projektion von Rs auf H . Wie die Gestalt von Π und Satz (9.5) zeigen, ist N ebenfalls das Bild von Ns (0, Es−1 ) = N0,1 ⊗(s−1) ⊗ δ0 unter der Drehung O . Es gilt dann der folgende zentrale Grenzwertsatz. (11.5) Satz: Normalapproximation von Multinomialverteilungen. Seien (Xi )i≥1 unabh¨angige E-wertige Zufallsvariablen mit identischer Verteilungsdichte und h∗n, wie in (11.3) das zugeh¨orige standardisierte Histogramm nach n Beobachtungen. Dann gilt L h∗n, −→ N f¨ur n → ∞.
286
11 Asymptotische Tests und Rangtests
Dem Beweis schicken wir ein Lemma voraus, das auch von eigenem Interesse ist. Dies wird es uns erlauben, die abh¨angigen Zufallsvariablen h∗n, (i), i ∈ E, durch unabh¨angige Zufallsvariablen zu ersetzen und den zentralen Grenzwertsatz anzuwenden. (11.6) Lemma: Poisson-Darstellung von Multinomialverteilungen. Seien und Z (i) habe die Poisson(Zk (i))k≥1,1≤i≤s unabh¨angige Zufallsvariablen, k 'n Verteilung P . Seien ferner S (i) = Z (i), S = (Sn (i))1≤i≤s , und n k n (i) k=1 ' = si=1 Sn (i). Dann gilt f¨ur alle m, n ≥ 1 und alle + = (+(i))1≤i≤s ∈ Zs+ Nn ' mit si=1 +(i) = m P (Sn = +|Nn = m) = Mm, ({+}) = P (hm = +) . Beweis: Nach der Faltungsformel (4.41) f¨ur Poisson-Verteilungen hat Sn (i) die Poisson-Verteilung Pn(i) und Nn die Poisson-Verteilung Pn . Somit gilt (mit dem Multinomialkoeffizienten m+ aus (2.8)) P (Sn = +|Nn = m) =
s -
e
−n(i) (n(i))
e−n
+(i)!
i=1
=
+(i)
nm m!
s m (i)+(i) = Mm, ({+}) , + i=1
und dies ist gerade die Behauptung. 3 Aus dem Lemma ergibt sich die folgende Beweisidee f¨ur Satz (11.5). Man betrachte die standardisierten Zufallsvariablen Sn∗ (i) =
Sn (i) − n(i) , 7 n(i)
Nn∗ =
Nn − n , 7 (i) Sn∗ (i) , = √ n s
i=1
∗ und die Vektoren Sn∗ = (Sn∗ (i))1≤i≤s und Yn∗ = O Sn . Nach Definition der Matrix ∗ ∗ O gilt dann Yn (s) = Nn und daher ∗ P (h∗n ∈ A) = P (Sn∗ ∈ A|Nn∗ = 0) = P (Yn∗ ∈ O−1 A|Yn (s) = 0) .
Aus dem zentralen Grenzwertsatz (5.28) ergibt sich (11.7)
L
Sn∗ −→ N0,1 ⊗s = Ns (0, E) ,
also mit Proposition (11.2a) und Korollar (9.4) auch (11.8)
L
Yn∗ −→ Ns (0, E) ◦ O = Ns (0, E) .
287
11.1 Normalapproximation von Multinomialverteilungen
Es ist daher plausibel zu vermuten, dass ∗ −1 s P (Yn∗ ∈ O−1 A|Yn (s) = 0) −→ Ns (0, E)(O A|{x ∈ R : xs = 0}) . n→∞
Diese letzte bedingte Wahrscheinlichkeit ist zwar nicht definiert, da die Bedingung Wahrscheinlichkeit 0 hat, kann aber in nat¨urlicher Weise mit Ns (0, Es−1 )(O−1 A) = N (A) identifiziert werden. Wir erhalten somit genau die Behauptung des Satzes. Der ben¨otigte bedingte zentrale Grenzwertsatz erfordert allerdings etwas Arbeit. Wir werden dazu von Monotonieeigenschaften der Multinomialverteilungen Gebrauch machen. Beweis von Satz (11.5): Wir betrachten wieder die in Lemma (11.6) eingef¨uhrten Zufallsvariablen. ¨ 1. Schritt: Ubergang zu weichen“ Bedingungen an Nn∗ . Sei A ein Oktant wie ” in Bemerkung (11.1). Die entscheidende Eigenschaft f¨ur uns ist, dass A fallend ist bez¨uglich der nat¨urlichen Halbordnung auf Rs : Ist x ∈ A und y ≤ x (koordinatenweise), so gilt auch y ∈ A. F¨ur beliebige m, n ≥ 1 betrachten wir nun 7 h∗m,n := (hm (i) − n(i))/ n(i) 1≤i≤s und
qm,n := P (h∗m,n ∈ A) = P (Sn∗ ∈ A|Nn = m) ;
die letzte Gleichung folgt dabei aus Lemma (11.6). Wegen h∗n,n = h∗n sind wir eigentlich nur an dem Fall m = n interessiert, aber zur Aufweichung der harten“ ” Bedingung m = n wollen jetzt mit m ein wenig von n abweichen. Da hm ≤ hm+1 koordinatenweise, gilt {h∗m,n ∈ A} ⊃ {h∗m+1,n ∈ A}, d. h. qm,n ist fallend in m. Folglich ergibt sich f¨ur alle ε > 0 aus der Fallunterscheidungsformel (3.3a) die Ungleichung √ &n+ε n'
qn,n ≥
,
qm,n P (Nn = m|Nn∗ ∈ [0, ε]) = P (Sn∗ ∈ A|Nn∗ ∈ [0, ε])
m=n
und analog qn,n ≤ P (Sn∗ ∈ A|Nn∗ ∈ [−ε, 0]). (s 2. Schritt: Anwendung des zentralen Grenzwertsatzes. F¨ur jeden Oktanten A = angigkeit i=1 ]∞, ai ] folgt aus dem zentralen Grenzwertsatz (5.28) und der Unabh¨ der Koordinaten von Sn∗ die Konvergenz P (Sn∗ ∈ A) =
s i=1
P (Sn∗ (i) ≤ ai ) −→
n→∞
s -
#(ai ) = Ns (0, E)(A) .
i=1
Wegen Bemerkung (11.1) ist dies gleichbedeutend mit der Verteilungskonvergenz (11.7), und hieraus folgt Aussage (11.8). Also gilt f¨ur jeden Oktanten A und
288
11 Asymptotische Tests und Rangtests
Uε = {x ∈ Rs : xs ∈ [0, ε]} P (Sn∗ ∈ A|Nn∗ ∈ [0, ε]) =
P (Yn∗ ∈ O−1 A ∩ Uε ) P (Yn∗ ∈ Uε )
→ Ns (0, E)(O−1 A|Uε ) =: qε .
Nun gilt aber nach dem Satz von Fubini (vgl. [20, 35]) . ε −1 dt φ(t) Ns−1 (0, E) x ∈ Rs−1 : (x, t) ∈ O−1 qε = N0,1 ([0, ε]) A 0
und der Integrand ist stetig in t. Somit folgt qε → N (A) f¨ur ε → 0, und zusammen mit dem ersten Schritt ergibt sich lim inf qn,n ≥ sup qε ≥ N (A) . n→∞
ε>0
Analog erh¨alt man mit Hilfe der oberen Absch¨atzung im ersten Schritt die umgekehrte Ungleichung lim supn→∞ qn,n ≤ N (A), und daher mit Bemerkung (11.1) die Behauptung des Satzes. 3
11.2
Der Chiquadrat-Anpassungstest
Wie testet man die Korrektheit eines W¨urfels? Oder die Zuf¨alligkeit eines Algorithmus f¨ur Pseudozufallszahlen? Oder die Richtigkeit einer Vererbungstheorie, die f¨ur die verschiedenen Auspr¨agungen eines Merkmals gewisse H¨aufigkeiten vorhersagt? Dazu f¨uhrt man n unabh¨angige Experimente durch, deren Ergebnisse in einer endlichen Menge E = {1, . . . , s} liegen, und beobachtet die relativen H¨aufigkeiten der einzelnen Ergebnisse i ∈ {1, . . . , s}. Wenn diese nahe genug bei den erwarteten Wahrscheinlichkeiten (beim W¨urfel also bei 1/6) liegen, wird man diese akzeptieren, andernfalls verwerfen. Aber was bedeutet nahe genug“? Dazu m¨ussen wir zun¨achst ” einmal das statistische Modell formulieren. Da wir die Anzahl n der unabh¨angigen Beobachtungen gegen ∞ streben lassen wollen, ist es wieder bequem, in einem unendlichen Produktmodell zu arbeiten. Da jede Einzelbeobachtung Werte in E = {1, . . . , s} hat, ist der Ergebnisraum dann X = E N , versehen mit der Produkt-σ -Algebra F = P(E)⊗N . F¨ur jedes Einzelexperiment wollen wir alle im Prinzip denkbaren Verteilungen in Betracht ziehen, aber nur solche, bei denen jedes Ergebnis positive Wahrscheinlichkeit bekommt. Wir setzen daher gleich der Menge aller strikt positiven Z¨ahldichten auf {1, . . . , s}, d. h. s 5 6 , s = ϑ = (ϑ(i))1≤i≤s ∈ ]0, 1[ : ϑ(i) = 1 . i=1
Jedes ϑ ∈ soll auch als Wahrscheinlichkeitsmaß auf E = {1, . . . , s} aufgefasst werden, d. h. wir wollen nicht zwischen Wahrscheinlichkeitsmaßen und ihren Z¨ahldichten unterscheiden. F¨ur ϑ ∈ sei dann Pϑ = ϑ ⊗N das unendliche Produkt von
289
11.2 Der Chiquadrat-Anpassungstest
ϑ auf E N . Unser statistisches Modell ist somit das unendliche Produktmodell (X, F , Pϑ : ϑ ∈ ) = (E N , P(E)⊗N , ϑ ⊗N : ϑ ∈ ) . Die k-te Beobachtung wird wieder durch die k-te Projektion Xk : X → E beschrieben. Die zu Beginn formulierten Testprobleme reduzieren sich nun alle auf die Frage: Haben die Beobachtungen Xk eine bestimmte (theoretisch vermutete) Verteilung = ((i))1≤i≤s ? (Beim W¨urfel und den Pseudozufallszahlen ist die Gleichverteilung, beim genetischen Problem die theoretische H¨aufigkeitsverteilung der verschiedenen Auspr¨agungen des Merkmals.) Getestet werden soll also die Nullhypothese H0 : ϑ = gegen die Alternative H1 : ϑ = , d. h. wir setzen 0 = {} und 1 = \ {}. F¨ur jedes n ≥ 1 betrachten wir dazu die (absoluten) H¨aufigkeiten hn (i) = |{1 ≤ k ≤ n : Xk = i}| , mit denen die Ergebnisse 1 ≤ i ≤ s bis zur Zeit n beobachtet werden. Der zugeh¨orige (Zufalls-) Vektor der relativen H¨aufigkeiten
hn (s) hn (1) Ln = ,..., n n beschreibt das empirische Histogramm (oder die empirische Verteilung) nach n Beobachtungen. Wie soll man entscheiden, ob Ln nahe genug bei liegt, um die Nullhypothese zu akzeptieren? Dazu lassen wir uns vom Maximum-Likelihood-Prinzip inspirieren und fragen, wie denn ein Likelihood-Quotienten-Test f¨ur unser Problem aussieht. Der Likelihood-Quotient nach n Beobachtungen hat die Form ( supϑ∈1 si=1 ϑ(i)hn (i) (s . Rn = hn (i) i=1 (i) Da 1 in dicht liegt, stimmt das Supremum im Z¨ahler aus Stetigkeitsgr¨unden mit dem Supremum u¨ ber ganz u¨ berein. Gem¨aß Beispiel (7.7) wird letzteres aber genau f¨ur ϑ = Ln angenommen, denn Ln ist gerade der Maximum-Likelihood-Sch¨atzer f¨ur ϑ. Wir erhalten also (11.9)
log Rn = n
s , i=1
Ln (i) log
Ln (i) = n H (Ln ; ) ; (i)
dabei ist H ( · ; · ) die in (7.31) eingef¨uhrte relative Entropie. Der logarithmische Likelihood-Quotient ist also gerade (bis auf den Faktor n) die relative Entropie der empirischen Verteilung Ln bez¨uglich des bei der Nullhypothese zugrunde liegen-
290
11 Asymptotische Tests und Rangtests
den . Ein auf n unabh¨angigen Beobachtungen basierender Likelihood-QuotientenTest hat daher die Gestalt 1 n H (Ln ; ) > c , falls ϕn = n H (Ln ; ) ≤ c 0 mit einer (m¨oglicherweise von n abh¨angigen) Konstanten c, die in Abh¨angigkeit vom Niveau α gew¨ahlt werden muss. Daf¨ur erweist es sich als hilfreich, dass die relative Entropie im Limes n → ∞ (unter der Nullhypothese P ) durch eine quadratische Taylor-Approximation ersetzt werden kann: (11.10) Proposition: Quadratische Approximation der Entropie. Sei 2
s s , , Ln (i) (hn (i) − n(i))2 =n −1 . (i) (11.11) Dn, = n(i) (i) i=1
i=1
Dann gilt im Limes n → ∞ die stochastische Konvergenz P
n H (Ln ; ) − Dn, /2 −→ 0 . Beweis: Wir setzen zun¨achst voraus, dass Dn, ≤ c f¨ur ein vorgegebenes c > 0. n (i) Setzen wir zur Abk¨urzung a(i) = L(i) − 1, so ist n
s ,
(i) a(i)2 = Dn, ≤ c ,
i=1
also a(i)2 ≤ c/n(i). Mit dem Landau-Symbol k¨onnen wir also schreiben a(i) = O(n−1/2 ). Nach Bemerkung (7.31) gilt andrerseits n H (Ln ; ) = n
s ,
(i) ψ(1 + a(i))
i=1
mit der Funktion ψ(u) = 1 − u + u log u. ψ erreicht an der Stelle u = 1 seinen Minimalwert 0 und hat dort die Taylor-Approximation ψ(u) = (u − 1)2 /2 + O(|u − 1|3 ). Also gilt n H (Ln ; ) = n
s ,
(i) a(i)2 /2 + O(n−3/2 )
i=1
= Dn, /2 + O(n−1/2 ) . Zum Beweis der stochastischen Konvergenz sei nun ε > 0 beliebig gegeben. Aus dem soeben Gezeigten ergibt sich dann f¨ur jedes c > 0 und alle hinreichend großen n die Inklusion An := { |n H (Ln ; ) − Dn, /2| > ε } ⊂ { Dn, > c } .
291
11.2 Der Chiquadrat-Anpassungstest
Da jedes hn (i) gem¨aß Satz (2.9) binomialverteilt ist, folgt weiter mit Beispiel (4.27) E (Dn, ) =
s , V (hn (i)) i=1
n(i)
=
s , (1 − (i)) = s − 1 . i=1
Mit der Markov-Ungleichung (5.4) folgt P (An ) ≤ (s − 1)/c f¨ur alle hinreichend großen n bei beliebig vorgegebenem c, und also P (An ) → 0. Das war zu zeigen. 3 Die Proposition besagt, dass ein Likelihood-Quotienten-Test auf der Nullhypothese im Wesentlichen mit dem folgendem Test u¨ bereinstimmt. Definition: Sei Dn, wie in (11.10) definiert. Ein Test f¨ur das Testproblem H0 : ϑ = gegen H1 : ϑ = mit einem Ablehnungsbereich der Gestalt {Dn, > c} f¨ur ein c > 0 heißt dann ein Chiquadrat-Anpassungstest nach n Beobachtungen (oder kurz ein χ 2 -Anpassungstest). Bei einem χ 2 -Anpassungstest wird also die Funktion Dn, als Maß f¨ur die Abweichung des beobachteten Histogramms Ln von der hypothetischen Verteilung verwendet. Warum der Name χ 2 -Test? Das ergibt sich aus dem folgenden Satz, welcher sagt: Die asymptotische Verteilung von Dn, f¨ur n → ∞ ist gerade eine χ 2 -Verteilung. Sein Entdecker Karl Pearson (1857 – 1936) ist der Vater des Egon Pearson (1895 – 1980) aus dem Neyman-Pearson Lemma. (11.12) Satz: K. Pearson 1900. Im Limes n → ∞ gilt unter der Nullhypothese P L
die Verteilungskonvergenz Dn, −→ χ 2s−1 , d. h. f¨ur alle c > 0 gilt lim P (Dn, ≤ c) = χ 2s−1 ([0, c]) .
n→∞
Aus den Propositionen (11.10) und (11.2b) ergibt sich ebenfalls die VerteilungsL konvergenz 2n H (Ln ; ) −→ χ 2s−1 . Beweis: Wir betrachten den standardisierten H¨aufigkeitsvektor h∗n, aus (11.3). Offenbar gilt Dn, = |h∗n, |2 . Gem¨aß Satz (11.5) konvergiert h∗n, unter P in Verteilung gegen die multivariate Gaußverteilung N , die durch eine Drehung O aus N0,1 ⊗(s−1) ⊗ δ0 hervorgeht. Speziell f¨ur die drehinvariante Menge A = {| · |2 ≤ c} erhalten wir daher mit Satz (9.10) P (Dn, ≤ c) = P (h∗n, ∈ A) −→ N (A) = N0,1
⊗(s−1)
n→∞ s−1
(x ∈ R
: |x|2 ≤ c) = χ 2s−1 ([0, c]) .
Dies ist gerade die Behauptung. 3 Der Satz von Pearson erm¨oglicht uns, die Konstante c in der Definition des χ 2 Anpassungstests so zu w¨ahlen, dass ein vorgegebenes Niveau α zumindest approxi2 , mativ bei großem n eingehalten wird. In der Tat: Man setze einfach c = χs−1;1−α
292
11 Asymptotische Tests und Rangtests
das α-Fraktil der χ 2 -Verteilung mit s − 1 Freiheitsgraden. Definitionsgem¨aß gilt dann χ 2s−1 (]c, ∞[) = α. Nach Satz (11.12) hat daher der χ 2 -Anpassungstest zum Schwellenwert c bei hinreichend großem n ungef¨ahr das Niveau α. Man verwendet gelegentlich die Faustregel, dass die Approximation im Fall n ≥ 5/ min1≤i≤s (i) ausreichend gut ist. F¨ur kleinere n m¨usste man die exakte Verteilung von Dn, benutzen, die sich aus der Multinomialverteilung ableiten l¨asst – wie wir im Beweis von Satz (11.12) gesehen haben. Bei der praktischen Berechnung von Dn, f¨ur eine konkrete Stichprobe erweist sich die Formel Dn, = n
s , Ln (i)2 i=1
(i)
−n
als besonders bequem, welche sich aus (11.11) durch Ausquadrieren ergibt. Es folgen zwei Beispiele f¨ur die Anwendung des χ 2 -Anpassungstests. (11.13) Beispiel: Mendels Erbsen. Eines der klassischen Versuchsergebnisse, die Gregor Mendel 1865 zur Untermauerung seiner Vererbungslehre publizierte, ist das folgende. Er beobachtete bei Erbsen die beiden Merkmale Form“ und Farbe“ ” ” mit den jeweiligen Auspr¨agungen rund“ (A) oder kantig“ (a) bzw. gelb“ (B) ” ” ” oder gr¨un“ (b). Das Merkmal rund“ ist dominant, d. h. die drei Genotypen AA, ” ” Aa und aA f¨uhren alle zum runden Ph¨anotyp, und nur die Erbsen vom Genotyp aa sind kantig. Ebenso ist gelb“ dominant. Betrachtet man daher die Nachkommen ” einer Pflanze vom heterozygoten Genotyp AaBb, so sollten nach Mendels Theorie die vier m¨oglichen Ph¨anotypen im H¨aufigkeitsverh¨altnis 9 : 3 : 3 : 1 auftreten. Tabelle 11.1 enth¨alt Mendels experimentelle Daten. Wird die Theorie durch dieses Tabelle 11.1: Mendels H¨aufigkeitsbeobachtungen bei n = 556 Erbsen.
rund kantig
gelb 315 101
gr¨un 108 32
Ergebnis gest¨utzt? Das heißt: Kann die Nullhypothese, dass den Beobachtungen die H¨aufigkeitsverteilung = (9/16, 3/16, 3/16, 1/16) zugrunde liegt, best¨atigt werden? Mit dem χ 2 -Anpassungstest l¨asst sich diese Frage wie folgt beantworten. Wir w¨ahlen das relativ große Niveau α = 0.1, um die Macht des Tests m¨oglichst groß zu machen, also um eine Abweichung von der Theorie m¨oglichst sicher aufzudecken. Es ist s = 4, also ben¨otigen wir das 0.9-Quantil der χ 2 -Verteilung mit 3 Freiheits2 = 6.3. F¨ur das Beobachtungsergebnis x graden. Tabelle B auf Seite 348 liefert χ3;0.9 aus Tabelle 11.1 bekommt man
1082 + 1012 16 3152 + + 322 − 556 = 0.470 < 6.3 . Dn, (x) = 556 9 3
293
11.2 Der Chiquadrat-Anpassungstest
Also kann Mendels Theorie aus dieser Stichprobe in der Tat best¨atigt werden. Verbl¨uffend ist allerdings der geringe Wert von Dn, (x). Laut Tabelle B ist χ 23 ([0, 0.5]) < 0.1, die Wahrscheinlichkeit f¨ur eine so geringe Abweichung also geringer als 10%! Es ist deshalb vielfach der Verdacht ge¨außert worden, dass Mendel die Zahlen manipuliert habe, um seine Theorie glaubw¨urdiger zu machen. Wie dem auch sei: Da Pearson seinen Satz erst 35 Jahre sp¨ater bewies, konnte Mendel nicht einsch¨atzen, in welcher Gr¨oßenordnung sich die stochastischen Fluktuationen normalerweise bewegen. (11.14) Beispiel: M¨unchner Sonntagsfrage. Die S¨uddeutsche Zeitung vom 10. 5. 2001 ver¨offentlichte die Ergebnisse einer Umfrage unter n = 783 M¨unchner B¨urgern mit der Fragestellung: Wenn am n¨achsten Sonntag Kommunalwahl w¨are, welche ” Partei w¨urden Sie w¨ahlen?“; siehe Tabelle 11.2. Sie stellte heraus, dass damit erstmalig seit den vorangegangenen Stadtratswahlen die SPD in F¨uhrung liege. Best¨atigen die Umfrageergebnisse eine Verschiebung der W¨ahlergunst? Tabelle 11.2: Ergebnisse der Umfrage vom 10.5.2001 und der M¨unchner Stadtratswahlen vom 10.3.1996, in Prozent.
Umfrage Stadtratswahl
CSU 38.0 37.9
SPD 38.7 37.4
Gr¨une 11.7 9.6
Sonstige 11.6 15.1
Oder genauer: Wenn die Prozentverteilung bei den letzten Stadtratswahlen bezeichnet, liegt dieses auch noch der Stichprobe in der Umfrage zugrunde? Das ist genau die Nullhypothese eines χ 2 -Anpassungstests. Beim Irrtumsniveau α = 0.02 2 = 9.837, und f¨ur die Stichprobe aus der liefert uns Tabelle B das Fraktil χ3;0.98 Umfrage erh¨alt man den Wert Dn, = 10.3. Der χ 2 -Test f¨uhrt also zur Ablehnung der Nullhypothese: Die Umfrage deutet auf eine Ver¨anderung der W¨ahlermeinung. Allerdings ist die Entscheidung a¨ ußerst knapp. Beim Irrtumsniveau α = 0.01 m¨usste 2 = 11.34. die Nullhypothese akzeptiert werden, denn es ist χ3;0.99 Der χ 2 -Anpassungstest ist so angelegt, dass sein Niveau im Limes n → ∞ gegen den vorgegebenen Wert α konvergiert. Wegen Satz (10.4) von Stein konvergiert dann die Macht an jeder Stelle ϑ = mit exponentieller Geschwindigkeit gegen 1, d. h. die Wahrscheinlichkeit f¨ur einen Fehler zweiter Art verschwindet exponentiell schnell. Kann man dann nicht auch die Wahrscheinlichkeit eines Fehlers erster Art mit exponentieller Geschwindigkeit gegen 0 streben lassen? Wenn man das m¨ochte, darf man allerdings nicht mehr die relative Entropie durch ihre quadratische Approximation ersetzen, sondern muss sie selbst als Kriterium f¨ur die Abweichung des empirischen Histogramms Ln von der Hypothese verwenden. Es zeigt sich, dass dann die Irrtumswahrscheinlichkeiten sowohl erster als auch zweiter Art exponentiell gegen 0 streben. Die genaue Aussage ist die folgende.
294
11 Asymptotische Tests und Rangtests
(11.15) Satz: Hoeffding’s Entropietest, 1965. F¨ur gegebenes a > 0 sei ϕn der Test mit Ablehnungsbereich {H (Ln ; ) > a}. Dann gilt: (a) ϕn hat ein exponentiell mit Rate a abfallendes Niveau, d. h. lim
n→∞
1 log E (ϕn ) = −a . n
(b) Die Macht von ϕn erf¨ullt f¨ur jedes ϑ = die Absch¨atzung Eϑ (ϕn ) ≥ 1 − exp − n min H (ν; ϑ) , ν:H (ν;)≤a
und es gibt keine Testfolge mit asymptotisch gr¨oßerer Macht. Das Minimum in Aussage (b) ist im Fall H (ϑ; ) > a gem¨aß Bemerkung (7.31) strikt positiv; in diesem Fall konvergiert die Macht also mit exponentieller Geschwin¨ digkeit gegen 1. Uber den alternativen Fall wird keine Aussage gemacht. Beweis: Wir beweisen hier nur einen Teil des Satzes, n¨amlich den behaupteten exponentiellen Abfall; f¨ur die Optimalit¨at der erhaltenen Schranken verweisen wir z. B. auf [9], p. 44. Die entscheidende Ungleichung ist die folgende: Ist ∈ und A ¯ der Menge aller (nicht notwendig strikt positiven) eine beliebige Teilmenge von , Z¨ahldichten auf E, so gilt (11.16)
1 log P Ln ∈ A ≤ − inf H (ν; ) + δn , ν∈A n
¯ n die Menge aller ν ∈ ¯ wobei δn = ns log(n+1) → 0 f¨ur n → ∞. Sei n¨amlich mit n ν(i) ∈ Z+ f¨ur alle 1 ≤ i ≤ s. Da jedes solche ν(i) h¨ochstens n+1 verschiedene ¯ n | ≤ (n+1)s = enδn . F¨ur ν ∈ ¯ n ergibt sich, Werte annehmen kann, gilt dann | indem man P durch Pν ersetzt, - (i) hn (i) P Ln = ν = Eν 1{Ln =ν} ν(i) i∈E: ν(i)>0 = Eν 1{Ln =ν} e−n H (ν;) ≤ e−n H (ν;) , und durch Summation u¨ ber alle m¨oglichen ν ∈ A folgt ¯ n ≤ | ¯ n | exp − n inf H (ν; ) P Ln ∈ A = P Ln ∈ A ∩ ν∈A
und somit (11.16). ¯ : H (ν; ) > a}, so hat der AblehnungsbeSetzt man nun speziell A = {ν ∈ reich von ϕn gerade die Form {Ln ∈ A}, und (11.16) liefert die Ungleichung 1 log E (ϕn ) ≤ −a + δn , n
295
11.3 Der Chiquadrat-Test auf Unabh¨angigkeit
also die f¨ur Anwendungen entscheidende H¨alfte von Aussage (a). Genauso ergibt sich aus (11.16) (mit ϑ anstelle von ) 3 4 1 − Eϑ (ϕn ) = Pϑ Ln ∈ Ac ≤ exp n − minc H (ν; ϑ) + δn . ν∈A
Bis auf den Fehlerterm δn ist das gerade die Absch¨atzung in Aussage (b). (Dass δn hier de facto u¨ berfl¨ussig ist, folgt aus der Konvexit¨at von Ac ; siehe [9].) 3
11.3
Der Chiquadrat-Test auf Unabh¨angigkeit
Wir beginnen wieder mit einem Motivationsbeispiel. (11.17) Beispiel: Umweltbewusstsein und Bildungsstand. Hat die Schulbildung einen Einfluss auf das Umweltbewusstsein? In einer einschl¨agigen EMNID-Umfrage wurde dazu n = 2004 zuf¨allig ausgew¨ahlten Personen die Frage vorgelegt, wie sehr sie sich durch Umweltschadstoffe beeintr¨achtigt f¨uhlten (mit a = 4 m¨oglichen Antworten von u¨ berhaupt nicht“ bis sehr“), und andrerseits der Schulabschluss der befrag” ” ten Personen ermittelt (in b = 5 Stufen von ungelernt“ bis Hochschulabschluss“). ” ” Die Ergebnisse sind zusammengefasst in Tabelle 11.3, einer sogenannten Kontingenztafel, die f¨ur jedes Merkmalspaar (i, j ) ∈ {1, . . . , a} × {1, . . . , b} die Anzahl der befragten Personen angibt, welche diese beiden Merkmale aufweisen (zusammen mit den entsprechenden Zeilen- und Spaltensummen). Es f¨allt auf, dass in den Spalten 1 bis 3 die Antwort u¨ berhaupt nicht“ deutlich ” dominiert, w¨ahrend in den Spalten 4 und 5 das Maximum bei etwas“ liegt. Sind ” diese Unterschiede aber so signifikant, dass man die These einer Korrelation zwischen Umweltbewusstsein und Bildungsstand f¨ur erh¨artet ansehen kann? Tabelle 11.3: Kontingenztafel zur Umweltumfrage; nach [56].
Beeintr¨achtigung u¨ berhaupt nicht etwas ziemlich sehr "
1 212 85 38 20 355
Schulbildung 2 3 4 434 169 79 245 146 93 85 74 56 35 30 21 799 419 249
5 45 69 48 20 182
" 939 638 301 126 2004
¨ Ahnliche Fragen nach der Korrelation zweier Merkmale tauchen in vielerlei Zusammenh¨angen auf: der Abh¨angigkeit der Wirkung eines Medikaments von der Darreichungsform, der Reaktionsgeschwindigkeit einer Person vom Geschlecht oder von der Einnahme eines Medikamentes, dem Zusammenhang von Musikalit¨at und
296
11 Asymptotische Tests und Rangtests
mathematischer Begabung, der Beziehung zwischen Wochentag und Fehlerquote bei der Herstellung eines Produkts, der Milchleistung von K¨uhen in Abh¨angigkeit vom verwendeten Futter, und so weiter. Das allgemeine Testproblem lautet folgendermaßen. Seien A = {1, . . . , a} und B = {1, . . . , b} die Mengen der jeweils m¨oglichen Auspr¨agungen der beiden Merkmale, die auf Unabh¨angigkeit getestet werden sollen, a, b ≥ 2. Jede Einzelbeobachtung hat dann Werte in E = A × B; die Elemente von E bezeichnen wir der K¨urze halber mit ij , i ∈ A, j ∈ B. Der unbekannte Parameter ist die Wahrscheinlichkeitsverteilung der Einzelbeobachtungen, wobei wir davon ausgehen, dass jeder Wert in E vorkommen kann. Wir definieren daher als die Menge aller strikt positiven Z¨ahldichten auf E, d. h. 5 6 , = E := ϑ = (ϑ(ij ))ij ∈E ∈ ]0, 1[E : ϑ(ij ) = 1 . ij ∈E
Wir identifizieren wieder jedes ϑ ∈ mit dem zugeh¨origen Wahrscheinlichkeitsmaß auf E. Unser statistisches Modell ist dann das unendliche Produktmodell (X, F , Pϑ : ϑ ∈ ) = (E N , P(E)⊗N , ϑ ⊗N : ϑ ∈ ) . F¨ur jedes ϑ ∈ bezeichnen wir mit ϑ A = (ϑ A (i))i∈A , ϑ A (i) =
,
ϑ(ij ) ,
j ∈B
ϑ B = (ϑ B (j ))j ∈B , ϑ B (j ) =
,
ϑ(ij ) ,
i∈A
die beiden Randverteilungen von ϑ auf A bzw. B. Wie lauten die Nullhypothese und die Alternative? Die beiden Merkmale sind nach Bemerkung (3.28) genau dann unabh¨angig, wenn das zugrunde liegende ϑ Produktgestalt hat, d. h. wenn ϑ = α ⊗ β f¨ur zwei Z¨ahldichten α und β auf A bzw. B. In dem Fall ist notwendigerweise α = ϑ A und β = ϑ B . Die Nullhypothese hat daher die Gestalt H0 : ϑ = ϑ A ⊗ ϑ B . Entsprechend w¨ahlen wir 0 = {α ⊗ β = (α(i) β(j ))ij ∈E : α ∈ A , β ∈ B } und 1 = \ 0 . Wie k¨onnen wir nun vern¨unftigerweise 0 gegen 1 testen? Nach n Beobachtungen X1 , . . . , Xn erhalten wir die Kontingenztafel hn (ij ) = |{1 ≤ k ≤ n : Xk = ij }| ,
ij ∈ E .
297
11.3 Der Chiquadrat-Test auf Unabh¨angigkeit
Die zuf¨allige Matrix Ln = (Ln (ij ))ij ∈E := (hn (ij )/n)ij ∈E beschreibt die empirische gemeinsame Verteilung der beiden Merkmale, und ihre B aufigkeiten Randverteilungen LA n und Ln beschreiben die empirischen relativen H¨ der Einzelmerkmale jeweils f¨ur sich; die entsprechenden absoluten H¨aufigkeiten sind ' ' A B B hA n (i) = j ∈B hn (ij ) = n Ln (i) und hn (j ) = i∈A hn (ij ) = n Ln (j ). Man wird sich immer dann f¨ur die Nullhypothese H0 entscheiden, wenn Ln hinreichend nah B bei der Produktverteilung LA n ⊗ Ln liegt. Aber was heißt hier ” hinreichend nah“? Um ein vern¨unftiges Abstandsmaß zu bekommen, betrachten wir wieder den Likelihood-Quotienten Rn nach n Beobachtungen. Zur Vereinfachung der Schreibweise lassen wir u¨ berall den Index n weg. Da 1 in dicht liegt, ergibt sich genau wie beim Beweis von (11.9) ( maxϑ∈ ij ∈E ϑ(ij )h(ij ) R = ( ( A B maxα⊗β∈0 i∈A α(i)h (i) j ∈B β(j )h (j ) 3 4 A B = L(ij )h(ij ) LA (i)h (i) LB (j )h (j ) ij ∈E
=
i∈A
-
ij ∈E
L(ij ) LA (i) LB (j )
n L(ij )
j ∈B
= exp n H (L; LA ⊗ LB ) .
Die relative Entropie H (L; LA ⊗ LB ) heißt auch die wechselseitige Information von LA und LB . Wie in Proposition (11.10) gewinnt man f¨ur diese relative Entropie (unter der Nullhypothese) die quadratische Approximation
2 , L(ij ) A B 2 L (i) L (j ) −1 , Dn = n LA (i) LB (j ) ij ∈E
welche auch in den Varianten
, , (h(ij ) − hA (i) hB (j )/n)2 L(ij )2 2 =n −1 Dn = hA (i) hB (j )/n LA (i) LB (j ) ij ∈E
ij ∈E
2n l¨asst sich aus Satz geschrieben werden kann. Die asymptotische Verteilung von D (11.5) herleiten: (11.18) Satz: Verallgemeinerter Satz von Pearson. F¨ur jedes = α ⊗ β in der 2n f¨ur n → ∞ in Verteilung bez¨uglich P gegen Nullhypothese 0 konvergiert D 2 χ (a−1)(b−1) , d. h. f¨ur alle c > 0 gilt 2n ≤ c) = χ 2 lim Pα⊗β (D (a−1)(b−1) ([0, c]) .
n→∞
298
11 Asymptotische Tests und Rangtests
Warum betr¨agt die Zahl der Freiheitsgrade (a − 1)(b − 1) und nicht ab − 1? Wie wir schon im Satz (9.17) von Student gesehen haben, wird durch das Sch¨atzen von unbekannten Parametern die Zahl der Freiheitsgrade ' verringert. Das Sch¨atzen der Z¨ahldichte α verbraucht“ wegen der Beziehung i∈A α(i) = 1 genau a − 1 ” Freiheitsgrade, und das Sch¨atzen von β ben¨otigt b−1 Freiheitsgrade. Die Gesamtzahl ab−1 der Freiheitsgrade verringert sich daher um (a−1)+(b−1), und es bleiben nur (a−1)(b−1) Freiheitsgrade u¨ brig. Der nachfolgende Beweis zeigt dies noch genauer. Zuvor formulieren wir aber noch die praktische Anwendung von Satz (11.18). Chiquadrat-Test auf Unabh¨angigkeit: Zu einem vorgegebenen Irrtumsniveau α sei 2 das α-Fraktil der Chiquadrat-Verteilung mit (a − 1)(b − 1) c = χ(a−1)(b−1);1−α 2n > c} f¨ur die HypoFreiheitsgraden. Dann hat der Test mit Ablehnungsbereich {D A B these H0 : ϑ = ϑ ⊗ ϑ gegen die Alternative H1 : ϑ = ϑ A ⊗ ϑ B bei großem n ungef¨ahr das Niveau α. Welches Resultat liefert dieses Testverfahren im Fall von Beispiel (11.17), der Umweltumfrage? Dort ist a = 4 und b = 5, die Zahl der Freiheitsgrade betr¨agt also 12. Wenn wir uns das Irrtumsniveau 1% vorgeben, erhalten wir aus Tabelle B das 2 = 26.22. Der zugeh¨orige χ 2 -Test hat also den Ablehnungsbereich Fraktil χ12;0.99 2n > 26.22}. F¨ur die Daten x mit dem Histogramm hn (x) aus Tabelle 11.3 erh¨alt {D 2n (x) = 125.01. Die Nullhypothese der Unabh¨angigkeit wird also man den Wert D deutlich abgelehnt. (Man sollte jedoch nicht voreilig auf einen Kausalzusammenhang zwischen Schulbildung und Umweltbewusstsein schließen. Zum Beispiel k¨onnte ja beides von einem dritten Einflussfaktor abh¨angen, den wir hier ignoriert haben. Außerdem erinnere man sich an die Bemerkungen nach Beispiel (3.16).) Der nachfolgende Beweis von Satz (11.18) wird etwas durchsichtiger im Spezialfall a = b = 2 von 2 × 2 Kontingenztafeln; siehe hierzu Aufgabe 11.8. Beweis von Satz (11.18): Zur Abk¨urzung setzen wir im Folgenden s = ab und r = (a − 1)(b − 1). Sei = α ⊗ β ∈ 0 eine feste Produktverteilung auf E. Wir L 2n −→ χ 2r bez¨uglich P . Analog zu Satz (11.5) betrachten wir m¨ussen zeigen, dass D dazu die standardisierte Zufallsmatrix
hn (ij ) − n α(i)β(j ) ∗ . hn,αβ = √ n α(i)β(j ) ij ∈E Es ist bequem, h∗n,αβ als Zufallsvektor in Rs aufzufassen. Aufgrund von Satz (11.5) kennen wir die asymptotische Verteilung von h∗n,αβ , aber dies ist offenbar nicht der 2n eingeht. Relevant f¨ur uns ist vielmehr das Vektor, der in die Definition von D asymptotische Verhalten des Zufallsvektors
B ) − n LA n (i)Ln (j ) ˜hn = hn (ij , 7 B n LA ij ∈E n (i)Ln (j )
299
11.3 Der Chiquadrat-Test auf Unabh¨angigkeit
2n = |h˜ n |2 . Es zeigt sich, dass h˜ n bei großem n ungef¨ahr u¨ bereinstimmt denn es gilt D mit der Projektion von h∗n,αβ auf einen geeigneten Unterraum L ⊂ Rs . Wir gehen dazu in drei Schritten vor. 1. Schritt: Definition des Unterraums L. Wir betrachten den im Nenner modifizierten Zufallsvektor
B hn (ij ) − n LA n (i)Ln (j ) ◦ hn = . √ n α(i)β(j ) ij ∈E Die im Z¨ahler stehenden Ausdr¨ucke ergeben jeweils Null, wenn man sie u¨ ber i ∈ A oder j ∈ B summiert. Formal l¨asst sich das so ausdr¨ucken, dass der Vektor h◦n in Rs auf den Vektoren 7 7 α(i) δj + ij ∈E , bk = δki β(j ) ij ∈E a+ = mit k ∈ A, + ∈ B senkrecht steht; dabei ist δki das Kronecker-Delta (also = 1 f¨ur k = i, und sonst 0). In der Tat ist zum Beispiel , , 7 h◦n (ij ) a+ (ij ) = h◦n (i+) α(i) = 0 . h◦n · a+ := ij ∈E
Sei daher
i∈A
L⊥ = span a+ , bk : k ∈ A, + ∈ B
der von diesen Vektoren aufgespannte Teilraum von Rs , sowie L das orthogonale Komplement von L⊥ . Definitionsgem¨aß gilt dann h◦n ∈ L. L⊥ hat die Dimension a + b − 1, denn wegen ,7 ,7 7 β(+) a+ = α(k) bk = α(i) β(j ) ij ∈E (11.19) +∈B
k∈A
dim L⊥
ist ≤ a + b − 1, √ und aus den Orthogonalit¨atsrelationen a+ · a+ = δ++ , bk · bk = δkk , a+ · bk = α(k)β(+) folgt nach kurzer Rechnung, dass je a + b − 1 der Vektoren a+ , bk linear unabh¨angig sind. Sei nun us der durch die rechte Seite von (11.19) definierte Vektor in L⊥ . Nach dem Gram-Schmidt Verfahren (vgl. etwa [18, 31]) k¨onnen wir us zu einer Orthonormalbasis ur+1 , . . . , us von L⊥ erg¨anzen, und diese zu einer Orthonormalbasis u1 , . . . , us von Rs . Dann ist L = span(u1 , . . . , ur ). Bezeichne Oαβ die Orthogonalmatrix mit Spalten u1 , . . . , us sowie Er die Diagonalmatrix, in deren ersten r Diagonalelementen eine 1 steht und sonst u¨ berall 0. Dann beschreibt die Matrix Παβ = Oαβ Er O αβ gerade die orthogonale Projektion auf den Unterraum L. 2. Schritt: Die Abweichung von der Projektion. Als n¨achstes zeigen wir: h◦n stimmt ungef¨ahr mit Παβ h∗n,αβ u¨ berein. Man berechnet n¨amlich f¨ur ij ∈ E Παβ h∗n,αβ (ij ) =
A hn (ij ) + n α(i)β(j ) − α(i)hB n (j ) − hn (i)β(j ) ; √ n α(i)β(j )
300
11 Asymptotische Tests und Rangtests
denn in der Tat steht der durch die rechte Seite definierte Vektor senkrecht auf den a+ und bk und geh¨ort daher zu L, und seine Differenz mit h∗n,αβ ist Element von L⊥ . Nun gilt aber h◦n (ij ) = Παβ h∗n,αβ (ij ) + ηnA (i) ηnB (j ) mit n1/4 A Ln (i) − α(i) , ηnA (i) = √ α(i)
n1/4 B Ln (j ) − β(j ) . ηnB (j ) = √ β(j )
ˇ Weiter zeigt die Cebyšev-Ungleichung, dass f¨ur jedes i ∈ A und ε > 0 1 − α(i) Pα⊗β (|ηnA (i)| ≥ ε) ≤ √ 2 , nε denn unter Pα⊗β ist hA n (i) ja Bn,α(i) -verteilt. Dies impliziert die stochastische KonPα⊗β
Pα⊗β
vergenz |ηnA | −→ 0. Ebenso folgt |ηnB | −→ 0 und daher Pα⊗β
|h◦n − Παβ h∗n,αβ | = |ηnA | |ηnB | −→ 0 . 3. Schritt: Anwendung des zentralen Grenzwertsatzes. Nach Satz (11.5) gilt L
h∗n,αβ −→ Nα⊗β := Ns (0, Es−1 ) ◦ O−1 αβ . Zusammen mit Proposition (11.2a) und der Gleichung Παβ Oαβ = Oαβ Er ergibt sich hieraus L 2α⊗β := Nα⊗β ◦ Π−1 Παβ h∗n,αβ −→ N αβ
= Ns (0, Es−1 ) ◦ (Oαβ Er )−1 = Ns (0, Er ) ◦ O−1 αβ . L 2α⊗β Aus dem 2. Schritt und Proposition (11.2bc) folgt daher, dass auch h◦n −→ N L 2α⊗β . Schließlich erhalten wir wegen der Drehinvarianz der und ebenfalls h˜ n −→ N
Kugel A = {x ∈ Rs : |x|2 ≤ c} 2n ≤ c) = Pα⊗β (h˜ n ∈ A) −→ N 2α⊗β (A) Pα⊗β (D n→∞
= Ns (0, Er )(A) = χ 2r ([0, c]) . Die letzte Gleichung folgt wegen Ns (0, Er ) = N0,1 ⊗r ⊗ δ0⊗(s−r) aus Satz (9.10). 3
301
11.4 Ordnungs- und Rangtests
11.4
Ordnungs- und Rangtests
In diesem Abschnitt sollen einige nichtparametrische Testverfahren diskutiert werden. Wir erinnern daran, dass die nichtparametrischen Verfahren sich zum Ziel setzen, anstelle der besonderen Eigenschaften eines speziellen statistischen Modells nur ganz allgemeine Struktureigenschaften auszunutzen. Wie wir bereits inAbschnitt 8.3 gesehen haben, kann man im Fall reellwertiger Beobachtungen versuchen, ausschließlich die Ordnungsstruktur von R zu benutzen. Das wollen wir auch hier tun. Wie in Abschnitt 8.3 seien unabh¨angige reellwertige Beobachtungen X1 , . . . , Xn mit unbekannter Verteilung Q gegeben, und wie dort soll von Q nichts weiter als die Stetigkeitseigenschaft Q({x}) = 0 f¨ur alle x ∈ R
(11.20)
verlangt werden. Wir k¨onnen dann wieder die Ordnungsstatistiken X1:n , . . . , Xn:n betrachten, und diese liefern uns ein- und zweiseitige Tests f¨ur den Median µ(Q). Weiter werden wir die zugeh¨origen Rangstatistiken einf¨uhren und zur Konstruktion von Tests zum Vergleich zweier Verteilungen P und Q verwenden.
11.4.1
Median-Tests
Wir beginnen wieder mit einer Anwendungssituation. (11.21) Beispiel: Reifenprofile. Eine Reifenfirma m¨ochte ein neuentwickeltes Profil (A) mit einem bew¨ahrten Profil (B) vergleichen. Dazu werden n Fahrzeuge jeweils zuerst mit Reifen des Typs A und dann des Typs B best¨uckt und unter gleichen Bedingungen abgebremst. Es wird jeweils die Differenz der Bremswege gemessen. (Wie in Beispiel (8.6) liegen somit gepaarte Stichproben vor.) In einem konkreten Fall ergaben sich die Messwerte aus Tabelle 11.4. Tabelle 11.4: Bremswegmessungen, nach [39]. Fahrzeug Bremswegdifferenz B−A
1 2 3 4 5 6 7 8 9 10 0.4 −0.2 3.1 5.0 10.3 1.6 0.9 −1.4 1.7 1.5
Wie kann man aus diesen Messwerten schließen, ob Typ A sich anders verh¨alt als Typ B? Oder ob Typ A sogar besser ist als Typ B? Bezeichne Q die Verteilung der Differenz Bremsweg(B) − Bremsweg(A). Sind beide Profile gleich gut, so ist Q symmetrisch bez¨uglich 0 und hat somit den Median µ(Q) = 0. Ist dagegen A besser als B (mit typischerweise k¨urzeren Bremswegen), so ist µ(Q) > 0. Die erste Frage f¨uhrt also auf das zweiseitige Testproblem H0 : µ(Q) = 0 gegen H1 : µ(Q) = 0, und die zweite Frage auf das einseitige Testproblem H0 : µ(Q) ≤ 0 gegen H1 : µ(Q) > 0.
302
11 Asymptotische Tests und Rangtests
In Satz (8.18) haben wir bereits Konfidenzintervalle f¨ur den Median erhalten, die auf den Ordnungsstatistiken beruhen. Aufgrund des allgemeinen Zusammenhangs zwischen Konfidenzintervallen und Tests (vgl. Aufgabe 10.1) erh¨alt man daher den folgenden Satz; wie in (8.17) schreiben wir dabei bn (α) f¨ur das gr¨oßte α-Quantil der Binomialverteilung Bn,1/2 . (11.22) Satz: Vorzeichentests f¨ur den Median. Sei 0 < α < 1 ein vorgegebenes Niveau und µ0 ∈ R. Dann gilt: (a) Ein Niveau-α Test f¨ur das zweiseitige Testproblem H0 : µ(Q) = µ0 gegen H1 : µ(Q) = µ0 ist gegeben durch den Ablehnungsbereich {Xk:n > µ0 } ∪ {Xn−k+1:n < µ0 } , wobei k := bn (α/2). (b) Ein Niveau-α Test f¨ur das einseitige Testproblem H0 : µ(Q) ≤ µ0 gegen H1 : µ(Q) > µ0 wird definiert durch den Ablehnungsbereich {Xk:n > µ0 } mit k := bn (α). Die zugeh¨orige G¨utefunktion ist eine strikt wachsende Funktion von p(Q) := Q(]µ0 , ∞[). Beweis: Aussage (a) folgt unmittelbar aus Satz (8.18) und Aufgabe 10.1, und der Beweis von (b) ist ganz a¨ hnlich: Wie dort beobachten wir, dass Xk:n > µ0 genau dann, wenn h¨ ochstens k − 1 Beobachtungen in das Intervall ]−∞, µ0 ] fallen. Bezeichnet ' Sn− = ni=1 1{Xi ≤µ0 } die Anzahl der Beobachtungen in diesem Intervall, so gilt nach Satz (2.9) Q⊗n (Xk:n > µ0 ) = Q⊗n (Sn− < k) = Bn,1−p(Q) ({0, . . . , k − 1}) . Gem¨aß Lemma (8.8b) ist die letzte Wahrscheinlichkeit eine wachsende Funktion von p(Q). Unter der Nullhypothese µ(Q) ≤ µ0 gilt nun aber p(Q) ≤ 1/2, so dass diese Wahrscheinlichkeit nach Wahl von k h¨ochstens α betr¨agt. Der angegebene Test hat daher das Niveau α. 3 Der Name Vorzeichentests beruht auf der Tatsache, dass die Teststatistik Sn− ja gerade z¨ahlt, wie oft die Differenz Xi −µ0 ein negatives Vorzeichen hat. (Wir haben uns hier der Einfachheit halber auf den nichtrandomisierten Fall beschr¨ankt. Da Sn− diskret ist, kann man ein vorgegebenes Niveau allerdings nur dann voll aussch¨opfen, wenn man randomisierte Tests zul¨asst. F¨ur das einseitige Testproblem erweist sich der randomisierte Vorzeichentest sogar als optimal, siehe Aufgabe 11.10.) Welches Ergebnis liefert der Vorzeichen-Test im Fall von Beispiel (11.21)? Dort ist n = 10. F¨ur das Niveau α = 0.025 erhalten wir dann das Binomialquantil b10 (0.0125) = 2; vgl. Beispiel (8.19). F¨ur den Datenvektor x aus Tabelle 11.4 stellt man fest, dass X2:10 (x) = −0.2 < 0 und X9:10 (x) = 5.0 > 0. Also kann die Nullhypothese H0 : µ(Q) = 0 im zweiseitigen Testproblem (trotz des entgegengesetzten Augenscheins) nicht abgelehnt werden. (Zum einseitigen Testproblem siehe Aufgabe 11.11.) Die Vorzeichentests f¨ur den Median haben den Vorteil, dass ihr Niveau α ohne genaue Kenntnis von Q bestimmt werden kann. Allerdings haben sie auch den
11.4 Ordnungs- und Rangtests
303
Nachteil, dass nur gez¨ahlt wird, wie viele Stichprobenwerte oberhalb bzw. unterhalb von µ0 liegen, und nicht beachtet wird, wie weit sie von µ0 entfernt sind. Um diesen Nachteil aufzuheben, sollte man die Information u¨ ber die relative Lage der Stichprobenwerte besser ber¨ucksichtigen. Diese Information steckt in den Rangstatistiken, die wir nun betrachten wollen. (F¨ur eine entsprechende Modifikation der Vorzeichentests siehe Aufgabe 11.16.)
11.4.2
Rangstatistiken und Zweistichproben-Problem
Haben Nichtraucher im Schnitt eine h¨ohere Fingerspitzentemperatur als Raucher? Leben Patienten bei einer neu entwickelten Behandlungsmethode 1 im Schnitt l¨anger als bei der klassischen Behandlungsmethode 2? Ist der Benzinverbrauch bei Verwendung der Sorte 1 im Schnitt gr¨oßer als der bei Sorte 2? Ist die Gewichtszunahme von K¨albern bei der F¨utterungsmethode 1 im Schnitt gr¨oßer als bei der F¨utterungsmethode 2? Wie wir sehen werden, lassen sich solche Fragen beantworten, ohne dass man irgendwelche Annahmen u¨ ber die Natur der zugrunde liegenden Verteilungen machen m¨usste. (Die beliebte Normalverteilungsannahme etwa w¨are in den genannten Beispielen nicht ohne weiteres zu rechtfertigen.) Dazu m¨ussen wir zuerst kl¨aren, wie die Formulierung im Schnitt h¨oher, l¨anger, gr¨oßer“ pr¨azisiert werden kann. Dies ” geschieht durch die folgende stochastische Halbordnung. Definition: Seien P , Q zwei Wahrscheinlichkeitsmaße auf (R, B). Man sagt, P ist stochastisch kleiner als Q, oder P wird durch Q stochastisch dominiert, geschrieben P Q, wenn P (]c, ∞[) ≤ Q(]c, ∞[) f¨ur alle c ∈ R. Gilt obendrein P = Q, so schreibt man P ≺ Q. Die Relation P Q besagt also, dass Realisierungen von Q typischerweise gr¨oßer sind als Realisierungen von P ; vgl. auch Aufgabe 11.12. (11.23) Beispiel: Stochastische Monotonie in Exponentialfamilien. Im Fall p < p gilt Bn,p ≺ Bn,p ; dies folgt unmittelbar aus Lemma (8.8b). Genauso zeigt ein simples Translationsargument, dass Nm,v ≺ Nm ,v f¨ur m < m . Aus (2.19) ergibt sich Γα,r ≺ Γα,r+1 f¨ur r ∈ N, und Korollar (9.9) zeigt, dass sogar Γα,r ≺ Γα,r f¨ur reelle 0 < r < r . Dies sind Spezialf¨alle der folgenden allgemeinen Tatsache: Ist {Pϑ : ϑ ∈ } eine (einparametrige) exponentielle Familie auf R, f¨ur welche sowohl die zugrunde liegende Statistik T als auch die Koeffizientenfunktion a(ϑ) strikt wachsen, so gilt Pϑ ≺ Pϑ f¨ur ϑ < ϑ . Denn dann ist Pϑ (]c, ∞[) gerade die G¨utefunktion des Tests mit Ablehnungsbereich {T > T (c)}, und diese ist nach Satz (10.10) und Beispiel (10.9) wachsend in ϑ. Wir betrachten nun das folgende Zweistichproben-Problem: Gegeben seien n = k + l unabh¨angige Beobachtungen X1 , . . . , Xn . Dabei sei X1 , . . . , Xk eine Stichprobe aus einer unbekannten stetigen Verteilung P und Xk+1 , . . . , Xk+l eine
304
11 Asymptotische Tests und Rangtests
Stichprobe aus einer zweiten stetigen, ebenfalls unbekannten Verteilung Q. Legen wir das kanonische Modell (Rk+l , B k+l , P ⊗k ⊗ Q⊗l : P , Q stetig) zugrunde, so ist Xi einfach die Projektion von Rk+l auf die i-te Koordinate. Unser Testproblem lautet H0 : P = Q
gegen
H1 : P ≺ Q .
Diese Formulierung des Testproblems bedeutet nicht etwa, dass man schon im Voraus w¨usste, dass P Q ist – dann brauchte man ja gar keinen Test mehr durchzuf¨uhren! Es ist vielmehr so, dass man die Nullhypothese P = Q nur im Fall P ≺ Q ablehnen m¨ochte (und zwar genau genommen nur dann, wenn Q signifikant gr¨oßer“ als P ” ist); siehe (11.27) unten f¨ur ein typisches Beispiel. Die Grundidee des Tests wird es folglich sein, die Hypothese H0 immer dann abzulehnen, wenn die Beobachtungen X1 , . . . , Xk mit Verteilung P mehrheitlich kleiner ausfallen als die zu Q geh¨origen Beobachtungen Xk+1 , . . . , Xk+l . Wie kann man dies pr¨azisieren? Wir betrachten dazu die Gesamtstichprobe X1 , . . . , Xk , Xk+1 , . . . , Xn sowie deren Ordnungsstatistiken X1:n , . . . , Xn:n . An welcher Stelle erscheint eine Beobachtung Xi in den Ordnungsstatistiken? Dies wird beschrieben durch die folgenden Rangstatistiken. Definition: Als Rangstatistiken der Beobachtungsfolge X1 , . . . , Xn bezeichnet man die Zufallsvariablen R1 , . . . , Rn mit Ri = |{1 ≤ j ≤ n : Xj ≤ Xi }. Ri gibt also die Platzziffer“ von Xi unter den Beobachtungen X1 , . . . , Xn an, und es gilt ” Xi = XRi :n . Wegen der Bindungsfreiheit (8.14) sind die Rangstatistiken fast sicher unzweideutig definiert. Die Abbildung i → Ri bildet daher eine zuf¨allige Permutation der Menge {1, . . . , n}. Der Sachverhalt wird durch Abbildung 11.1 illustriert. X6 X3 • • R1 4
X5 • R2 7
X1 • R3 2
X8 X 4 • • R4 6
R5 3
X2 • R6 1
R7 8
X7 • R8 5
Abbildung 11.1: Eine Realisierung von X1 , . . . , X8 und die zugeh¨orige Realisierung der Rangstatistiken R1 , . . . , R8 .
Um zu ber¨ucksichtigen, dass die Beobachtungen aus zwei verschiedenen Gruppen stammen, bei denen jeweils die Verteilung P bzw. Q zugrunde liegt, definiert
305
11.4 Ordnungs- und Rangtests
man die Gruppen-Rangsummen WP := R1 + · · · + Rk
WQ = Rk+1 + · · · + Rk+l .
und
WP ist also die Summe der Platzziffern der Beobachtungen mit Verteilung P , und entsprechend WQ die Summe der Platzziffern der Beobachtungen mit Verteilung Q. Die Rangsummen liefern eine griffige Information u¨ ber die relative Lage der beiden Beobachtungsgruppen zueinander. Wenn WP kleiner ist als WQ , so liegen die Beobachtungen mit Verteilung P mehrheitlich weiter links auf der reellen Achse als die mit Verteilung Q, und man m¨ochte schließen, dass dann P ≺ Q. Aber wieviel kleiner als WQ muss WP sein, damit diese Schlussfolgerung stichhaltig ist? Zun¨achst einmal sei festgestellt, dass W P + WQ =
n ,
Ri =
i=1
n ,
i=
i=1
n(n + 1) . 2
Es gen¨ugt also, W := WP zu betrachten. Zur Berechnung der Rangsummen markiere man die Beobachtungswerte auf der Zahlengeraden (das entspricht der Ermittlung der Ordnungsstatistiken), wobei man f¨ur die Beobachtungen aus den verschiedenen Gruppen verschiedene Marken verwende. Die Rangsummen WP und WQ ergeben sich dann einfach als Summen der Platzziffern der Beobachtungen aus der jeweiligen Gruppe, siehe Abbildung 11.2.
WP =
X6 X3 X5 X1 | • | • +4
2
WQ = 1
+3
X8 X4 | •
X2 •
+6
X7 |
+7
+5
= 19
+8 = 17
Abbildung 11.2: Zur Berechnung der Rangsummen im Fall k = l = 4.
Das folgende Lemma liefert eine Darstellung der Rangsummen mit Hilfe sogenannter U-Statistiken. Die Statistik U z¨ahlt, wie oft eine Beobachtung aus der ersten Gruppe gr¨oßer ist als eine Beobachtung aus der zweiten Gruppe. (11.24) Lemma: Rangsumme und U-Statistik. Es gilt W =U+
k(k + 1) 2
mit U = Uk,l :=
k+l k , ,
1{Xi >Xj } ,
i=1 j =k+1
und WQ besitzt eine analoge Darstellung durch UQ = kl − U . Beweis: W und U sind invariant unter Permutationen von X1 , . . . , Xk . Also brauchen wir nur den Fall zu betrachten, dass X1 < X2 < · · · < Xk . F¨ur die zugeh¨origen
306
11 Asymptotische Tests und Rangtests
R¨ange R1 < R2 < · · · < Rk (in der Gesamtfolge X1 , . . . , Xn ) gilt dann Ri = i + |{j > k : Xj < Xi }|. Hieraus folgt die Behauptung durch Summation u¨ ber i. 3 Wie das Lemma best¨atigt, eignen sich die Statistiken W und U als gute Indikatoren f¨ur die relative Lage der Beobachtungswerte aus beiden Gruppen. Das folgende Testverfahren ist daher plausibel. Definition: Ein Test der Nullhypothese H0 : P = Q gegen die Alternative H1 : P ≺ Q mit einem Ablehnungsbereich der Gestalt {U < c} = {W < c + k(k + 1)/2} mit 0 < c ≤ kl heißt ein (einseitiger) Mann-Whitney U -Test oder auch Wilcoxon Zweistichproben-Rangsummentest. Die auf der Rangsumme W beruhende Variante geht zur¨uck auf F. Wilcoxon (1945) und die U -Variante, unabh¨angig davon, auf Mann-Whitney (1947).
Nat¨urlich soll der Schwellenwert c so gew¨ahlt werden, dass ein vorgegebenes Niveau α eingehalten wird. Das wird erm¨oglicht durch den folgenden Satz, der es nicht nur erlaubt, die Verteilung von U unter der Nullhypothese zu berechnen, sondern dar¨uber hinaus die bemerkenswerte Aussage macht, dass die Statistik U verteilungsfrei ist in folgendem Sinn: Wenn die Hypothese P = Q zutrifft und P stetig ist, ist die Verteilung von U bereits festgelegt und h¨angt nicht von dem konkret vorliegenden P ab. (11.25) Satz: U-Verteilung unter der Nullhypothese. F¨ur jedes stetige P und m = 0, . . . , kl gilt
n ⊗n . P (U = m) = N(m; k, l) k ' Dabei bezeichnet N (m; k, l) die Anzahl aller Partitionen ki=1 mi = m von m in k aufsteigend geordnete Zahlen m1 ≤ m2 ≤ · · · ≤ mk aus der Menge {0, . . . , l}. Insbesondere gilt P ⊗n (U = m) = P ⊗n (U = kl − m). Beweis: Der Zufallsvektor (R1 , . . . , Rn ) ist unter P ⊗n gleichverteilt auf der Menge Sn aller Permutationen von {1, . . . , n}. In der Tat gilt n¨amlich f¨ur jede Permutation π ∈ Sn und ihre Inverse π −1 P ⊗n (R1 , . . . , Rn ) = π −1 = P ⊗n (Xπ(1) < · · · < Xπ(n) ) = 1/n! . In der letzten Gleichung verwenden wir die Permutationsinvarianz (11.26) P ⊗n (Xπ(1) , . . . , Xπ(n) ) ∈ A = P ⊗n (A) , welche trivialerweise f¨ur Mengen der Produktgestalt A = A1 × · · · × An erf¨ullt ist und daher nach dem Eindeutigkeitssatz (1.12) auch f¨ur beliebige A ∈ B n gilt.
307
11.4 Ordnungs- und Rangtests
Als Konsequenz ergibt sich, dass die Zufallsmenge {R1 , . . . , Rk } gleichverteilt ist auf dem System R aller k-elementigen Mengen r ⊂ {1, . . . , n}. Jedes r ∈ R l¨asst sich in der Form r = {r1 , . . . , rk } mit r1 < · · · < rk schreiben; es ist daher eindeutig charakterisiert durch den aufsteigend geordneten Vektor (r1 −1, . . . , rk −k). Dessen . . . , ri } \ r| gibt an, wieviele Elemente von r c i-te Koordinate mi (r) = ri −i = |{1,' kleiner sind als ri . Folglich gilt U = ki=1 mi ({R1 , . . . , Rk }). Insgesamt erh¨alt man also , P ⊗n {R1 , . . . , Rk } = r , P ⊗n (U = m) = k ' r∈R :
mi (r)=m
i=1
und dies liefert die Behauptung. 3 F¨ur kleine Werte von k, l lassen sich die Partitionszahlen N(m; k, l) leicht mit ' kombinatorischen Methoden ermitteln. Jede Partition ki=1 mi = m mit 0 ≤ m1 ≤ m2 ≤ · · · ≤ mk ≤ l l¨asst sich n¨amlich veranschaulichen durch ein Partitionsbild wie in Abbildung 11.3. Durch Umklappen in der Diagonalen erh¨alt man die Symmetrie m1 m2 m3 m4
: : : :
◦ • • •
◦ ◦ • •
◦ ◦ • •
◦ ◦ ◦ ◦
◦ ◦ ◦ ◦
Abbildung 11.3: Partitionsbild f¨ur die Partition (0, 1, 3, 3) von m = 7 im Fall k = 4, l = 5.
N (m; k, l) = N (m; l, k), durch Vertauschen von • und ◦ und vertikales Umklappen ergibt sich die Symmetrie N (m; k, l) = N(kl − m; k, l), und durch Entfernen der ersten Spalte und Unterscheidung der Anzahl j der • in dieser Spalte gewinnt man die Rekursionsformel N (m; k, l) =
k ,
N(m − j ; j, l − 1) ,
j =0
wobei N (m; k, l) := 0 f¨ur m < 0. Einige der resultierenden Quantile der UVerteilung sind in Tabelle E im Anhang zusammengestellt. Wir demonstrieren die Verwendung des U-Tests anhand eines Beispiels. (11.27) Beispiel: Altersabh¨angigkeit von Cholesterinwerten. Anhand der Cholesterinwerte im Blut von M¨annern verschiedenen Alters soll untersucht werden, ob der Cholesterinspiegel mit dem Alter zunimmt. Dazu werden jeweils 11 M¨anner in den Altersgruppen 20–30 und 40–50 zuf¨allig ausgew¨ahlt und ihre Cholesterinwerte bestimmt. Getestet werden soll die Nullhypothese H0 : Der Cholesterinspiegel ist in ” beiden Altersgruppen gleich verteilt“ gegen die Alternative H1 : Der Cholesterin” spiegel steigt mit dem Alter“. Dies ist eine typische Situation f¨ur den nichtparametrischen U-Test; denn eine Normalverteilungsannahme w¨are schwer zu rechtfertigen,
308
11 Asymptotische Tests und Rangtests
w¨ahrend die Annahme einer stetigen Verteilung der Cholesterinwerte in jeder Gruppe unproblematisch erscheint. Der U-Test zum Niveau α = 0.05 f¨ur k = l = 11 hat nach Tabelle E den Ablehnungsbereich {U < 35}. Eine klassische Untersuchung ergab den Datensatz aus Tabelle 11.5. Die Rangsumme W in der Altersgruppe 20–30 Tabelle 11.5: Blutcholesterinwerte von M¨annern in zwei Altersgruppen, nach [6]. Daten R¨ange Daten 40–50 Jahre: R¨ange 20–30 Jahre:
135 1 294 17
222 6 311 18
251 9 286 16
260 12 264 13
269 14 277 15
235 7 336 19
386 22 208 5
252 10 346 20
352 21 239 8
173 4 172 3
156 2 254 11
hat den Wert 108, und somit U den Wert 42. Also kann die Vermutung, dass der Cholesterinspiegel mit dem Alter steigt, bei diesen Daten und diesem Niveau nicht best¨atigt werden. Bei der Anwendung des U-Tests ist es wichtig zu beachten, dass die Stichproben aus den beiden Vergleichsgruppen unabh¨angig voneinander sind. Bei gepaarten Stichproben wie etwa in den Beispielen (8.6) und (11.21) ist das nicht der Fall. Ein geeigneter nichtparametrischer Test ist dann der Vorzeichen-Rangsummen-Test aus Aufgabe 11.16. F¨ur große Werte von k, l erweist sich die Berechnung der U-Verteilung als u¨ berfl¨ussig, denn es steht eine Normalapproximation zu Verf¨ugung. Der folgende Satz zeigt, dass der U-Test mit Ablehnungsbereich 5 U<
6 7 kl + #−1 (α) kl(n + 1)/12 2
auf der Hypothese H0 : P = Q f¨ur große k, l approximativ das Niveau α hat. (11.28) Satz: W. Hoeffding 1948. Seien X1 , X2 , . . . unabh¨angige Zufallsvariablen mit einer identischen stetigen Verteilung P , und f¨ur k, l ≥ 1 sei Uk,l :=
k+l k , ,
1{Xi >Xj }
i=1 j =k+1
und vk,l := kl(k + l + 1)/12. Dann gilt ∗ := Uk,l
f¨ur k, l → ∞.
Uk,l − kl/2 L −→ N0,1 7 vk,l
309
11.4 Ordnungs- und Rangtests
Beweis: Wegen Satz (11.25) h¨angt die Verteilung von Uk,l nicht von der Verteilung P der Xi ab. Wir k¨onnen daher annehmen, dass P = U[0,1] , d. h. dass die Xi auf [0, 1] gleichverteilt sind. Da die Summanden von Uk,l nicht unabh¨angig voneinander sind, ist der zentrale Grenzwertsatz nicht direkt anwendbar. Die entscheidende Idee des Beweises besteht darin, Uk,l durch eine Summe unabh¨angiger Zufallsvariablen zu approximieren. Und zwar in der Weise, dass die Funktionen (1{Xi >Xj } − 1/2) (die in ∗ aufsummiert werden und nichtlinear von den Beobachtungen abh¨ Uk,l angen) durch die (linearen) Differenzen Xi − Xj approximiert werden. Wir definieren also Zk,l =
k+l k , ,
(Xi − Xj ) = l
i=1 j =k+1
k ,
Xi − k
k+l ,
Xj
j =k+1
i=1
7 ∗ = Z / v . Im zweiten Schritt wird gezeigt, dass und Zk,l k,l k,l ∗ ∗ − Zk,l →0 Uk,l
(11.29)
stochastisch ,
und im dritten Schritt wird aus dem zentralen Grenzwertsatz gefolgert, dass L
∗ −→ N0,1 . Zk,l
(11.30)
Die Behauptung des Satzes ergibt sich dann aus Proposition (11.2b). 1. Schritt: Wir berechnen zuerst die Varianz von Uk,l . Zun¨achst einmal folgt aus (8.14) und der Permutationsinvarianz (11.26), dass P (Xi > Xj ) = 1/2 f¨ur i = j und daher E(Uk,l ) = kl/2. Weiter ergibt sich f¨ur i = j , i = j Cov(1{Xi >Xj } , 1{Xi >Xj } ) = P (Xi > Xj , Xi > Xj ) − 1/4 falls i = i , j = j , 0 1/4 falls i = i , j = j , = 1/12 sonst, und daher ,
V(Uk,l ) =
1≤i,i ≤k<j,j ≤k+l
Cov(1{Xi >Xj } , 1{Xi >Xj } ) = vk,l .
∗ ist also standardisiert. Die Zufallsgr¨oße Uk,l 2. Schritt: Es gilt V(Uk,l − Zk,l ) = kl/12. Dazu rechnet man zuerst nach, dass V(Xi ) = 1/12. Zusammen mit Satz (4.23) ergibt sich hieraus
V(Zk,l ) =
k , i=1
V(lXi ) +
k+l , j =k+1
V(kXj ) =
kl(k + l) . 12
310
11 Asymptotische Tests und Rangtests
Andrerseits gilt f¨ur alle i < j wegen Beispiel (3.30) und Korollar (4.13) . 1 . 1 dx1 dx2 1{x1 >x2 } x1 − 1/4 = 1/12 Cov(1{Xi >Xj } , Xi ) = 0
0
und daher (unter Benutzung der Unkorreliertheit unabh¨angiger Zufallsvariabler, Satz (4.23d)) k+l ,
Cov(Uk,l , Xi ) =
Cov(1{Xi >Xj } , Xi ) = l/12 .
j =k+1
Wegen Cov(1{Xi >Xj } , Xj ) = −Cov(1{Xi >Xj } , Xi ) = −1/12 ergibt sich insgesamt Cov(Uk,l , Zk,l ) = l
k ,
k+l ,
Cov(Uk,l , Xi ) − k
Cov(Uk,l , Xj )
j =k+1
i=1
= kl(k + l)/12 = V(Zk,l ) und somit V(Uk,l − Zk,l ) = V(Uk,l ) − 2 Cov(Uk,l , Zk,l ) + V(Zk,l ) = V(Uk,l ) − V(Zk,l ) = kl/12 , wie behauptet. Insbesondere gilt ∗ ∗ V Uk,l − Zk,l =
1 k+l+1
−→
k, l→∞
0.
ˇ Zusammen mit der Cebyšev-Ungleichung (5.5) ergibt dies die Aussage (11.29). 3. Schritt: Zum Beweis von (11.30) schreiben wir 7 7 ∗ Zk,l = ak,l Sk∗ + bk,l Tl∗ mit ak,l = l/(k + l + 1), bk,l = k/(k + l + 1), und Sk∗ =
k , Xi − 1/2 , √ k/12 i=1
Tl∗ =
k+l , 1/2 − Xj . √ l/12 j =k+1
Der zentrale Grenzwertsatz liefert uns dann die Verteilungskonvergenz L
Sk∗ −→ S ,
L
Tl∗ −→ T
f¨ur k, l → ∞;
dabei seien S, T unabh¨angige, N0,1 -verteilte Zufallsvariablen. Aus einer beliebigen Folge von Paaren (k, l) mit k, l → ∞ k¨onnen wir nun eine Teilfolge so ausw¨ahlen,
311
Aufgaben
dass ak,l → a ∈ [0, 1] und also bk,l → b = 1 − a entlang dieser Teilfolge. Wegen Proposition (11.2c) gilt dann (entlang der gew¨ahlten Teilfolge) √ 7 7 L √ L ak,l Sk∗ −→ a S , bk,l Tl∗ −→ b T . Wegen der Unabh¨angigkeit von Sk∗ und Tl∗ und Bemerkung (11.1) impliziert dies (wie im zweiten Beweisschritt von Satz (11.5)) die Verteilungskonvergenz der Zufallspaare √ 7 L √ 7 ak,l Sk∗ , bk,l Tl∗ −→ a S, b T . Da die Addition stetig ist, ergibt sich hieraus mit Proposition (11.2a) die Verteilungskonvergenz √ L √ ∗ Zk,l −→ a S + b T . Nun zeigt aber Satz (9.5), dass die letzte Zufallsvariable N0,1 -verteilt ist. Mit anderen Worten, es gilt L ∗ −→ N0,1 Zk,l f¨ur eine geeignete Teilfolge einer beliebig gew¨ahlten Folge von Paaren (k, l) mit k, l → ∞. Dies impliziert das gew¨unschte Resultat (11.30). 3 Wir haben uns bisher auf das einseitige Testproblem H0 : P = Q gegen H1 : P ≺ Q konzentriert. Wenn aber etwa beim Vergleich von zwei medizinischen Behandlungsmethoden nicht von vornherein klar ist, welcher Methode die g¨unstigeren Heilungschancen zugebilligt werden k¨onnen, muss man ein zweiseitiges Testproblem betrachten. Zu einem allgemein gefassten Testproblem der Form H0 : P = Q gegen H1 : P = Q kann man allerdings keine Aussagen machen; dazu ist die Alternative zu umfangreich, und kein Testverfahren wird u¨ berall auf der Alternative ein große Macht haben k¨onnen. Wenn man aber davon ausgeht, dass die Behandlungsmethoden in jedem Fall miteinander vergleichbar sind ( eine Methode ” ist die bessere“), gelangt man zu dem zweiseitigen Testproblem H0 : P = Q
gegen
H1 : P ≺ Q oder P Q .
Ein effektives Entscheidungsverfahren hierf¨ur ist der zweiseitige U-Test mit einem Ablehnungsbereich der Gestalt {UP < c} ∪ {UQ < c}. Dieser ist insbesondere geeignet zum Testen des sogenannten Lokationsproblems, ob P mit Q u¨ bereinstimmt oder aber aus Q durch Verschiebung um ein ϑ = 0 hervorgeht, d. h. bei dem H1 reduziert wird auf die kleinere Alternative H1 : P = Q( · − ϑ) f¨ur ein ϑ = 0.
Aufgaben L
11.1. Charakterisierung der Verteilungskonvergenz. Zeigen Sie: Genau dann gilt Yn −→ Q, wenn lim sup P (Yn ∈ F ) ≤ Q(F ), lim inf P (Yn ∈ G) ≥ Q(G) n→∞
n→∞
312
11 Asymptotische Tests und Rangtests
¨ Sie f¨ur alle abgeschlossenen Mengen F ⊂ Rs und alle offenen Mengen G ⊂ Rs . Uberlegen sich dazu: Ist Gε = {x ∈ Rs : d(x, F ) < ε} die offene ε-Umgebung von F , so ist Q(∂Gε ) nur f¨ur h¨ochstens abz¨ahlbar viele ε von Null verschieden. 11.2. Sei E = {1, 2, 3} und die Z¨ahldichte der Gleichverteilung auf E. Bestimmen Sie f¨ur c1 , c2 ∈ R und großes n eine Normalapproximation der Multinomialwahrscheinlichkeit 7 7 Mn, + ∈ ZE + : +(1) − +(2) ≤ c1 n/3, +(1) + +(2) − 2 +(3) ≤ c2 n/3 . 11.3. Ein Algorithmus zur Erzeugung von Pseudozufallsziffern soll getestet werden. Dazu l¨asst man ihn etwa n = 10000 Ziffern ∈ {0, . . . , 9} erzeugen. Ein Versuch ergab die folgenden H¨aufigkeiten: Ziffer H¨aufigkeit
0 1 2 3 4 5 6 7 8 9 1007 987 928 986 1010 1029 987 1006 1034 1026
F¨uhren Sie zu einem geeigneten Niveau einen χ 2 -Anpassungstest auf Gleichverteilung durch. 11.4. Tendenz zur Mitte. Bei der Notengebung wird Lehrern manchmal vorgeworfen, sie neigten dazu, Extremurteile zu vermeiden. In einem Kurs erzielten 17 Sch¨uler folgende Durchschnittsnoten: 1.58 2.84 3.52 4.16 5.36 2.01 3.03 3.56 4.19 2.35 3.16 3.75 4.60 2.64 3.40 3.99 4.75 Nehmen Sie der Einfachheit halber an, dass sich diese Durchschnittsnoten aus so vielen Einzelnoten ergeben haben, dass sie als kontinuierlich verteilt angesehen werden k¨onnen. Pr¨ufen Sie zum Niveau α = 0.1 mit dem χ 2 -Anpassungstest die Nullhypothese, dass obige Daten N3.5,1 -verteilt sind. Teilen Sie hierzu die relativen H¨aufigkeiten in die sechs Gruppen ]−∞, 1.5], ]1.5, 2.5], ]2.5, 3.5], ]3.5, 4.5], ]4.5, 5.5], ]5.5, ∞[ ein. 11.5. Test gegen fallenden Trend. Betrachten Sie das unendliche Produktmodell f¨ur den χ 2 -Anpassungstest, und sei die Gleichverteilung auf E = {1, . . . , s}. Wenn die Hypothese H0 : ϑ = nicht gegen ganz H1 : ϑ = getestet werden soll, sondern nur gegen H1 : ϑ1 > ϑ2 > · · · > ϑs ( fallender Trend“), ist der χ 2 -Test nicht besonders geeignet ” (warum?). Besser ist die Verwendung der Teststatistik 's Tn =
i=1 i hn (i) − n(s + 1)/2 . 7 n(s 2 − 1)/12 L
Berechnen Sie Eϑ (Tn ) und Vϑ (Tn ) und zeigen Sie: Tn −→ N0,1 . (Stellen Sie dazu Tn als Summe unabh¨angiger Zufallsvariabler dar.) Entwickeln Sie hieraus ein vern¨unftiges Testverfahren f¨ur H0 gegen H1 . 11.6. Es wird vermutet, dass bei Pferderennen auf einer kreisf¨ormigen Rennbahn die Startposition einen Einfluss auf die Gewinnchancen aus¨ubt. Die folgende Tabelle gliedert 144 Sieger
313
Aufgaben
nach der Nummer ihrer Startposition auf (wobei die Startpositionen von innen nach außen nummeriert sind). Startposition H¨aufigkeit
1 29
2 19
3 18
4 25
5 17
6 10
7 15
8 11
Testen Sie die Hypothese gleiche Gewinnchancen“ gegen die Alternative abnehmende ” ” Gewinnchancen“ zum Niveau α = 0.01 2 (a) mit dem χ -Anpassungstest, (b) mit dem Test aus Aufgabe 11.5. 11.7. Der Einfluss von Vitamin C auf die Erk¨altungsh¨aufigkeit soll getestet werden. Dazu werden 200 Versuchspersonen zuf¨allig in zwei Gruppen eingeteilt, von denen die eine jeweils eine bestimmte Dosis Vitamin C und die andere ein Placebo erh¨alt. Es ergeben sich die folgenden Daten: Erk¨altungsh¨aufigkeit Kontrollgruppe Behandlungsgruppe
geringer 39 51
gr¨oßer 21 20
unver¨andert 40 29
Testen Sie zum Niveau 0.05 die Nullhypothese, dass Vitamin-Einnahme und Erkrankungsh¨aufigkeit nicht voneinander abh¨angen. 11.8. Satz von Pearson f¨ur 2 × 2-Kontingenztafeln Betrachten Sie die Situation von Satz (11.18) im Fall a = b = 2 und zeigen Sie: B 2 (a) Die Quadrate (Ln (ij ) − LA n (i)Ln (j )) h¨angen nicht von der Wahl von ij ∈ E ab. 2 2 Deshalb gilt Dn = Zn mit
Zn =
8 √ B (1)) LA (1)LB (1)LA (2)LB (2). n(Ln (11) − LA (1)L n n n n n n
(b) Sei XkA = 1 falls die A-Koordinate von Xk gleich 1 ist, und XkA = 0 sonst, und sei XkB analog definiert. (Unter Pα⊗β ist dann die Familie {XkA , XkB : k ≥ 1} unabh¨angig.) Dann gilt einerseits B Ln (11) − LA n (1)Ln (1) =
n 1, A B B (Xk − LA n (1))(Xk − Ln (1)) n k=1
und andrerseits bez¨uglich Pα⊗β n ,
7 L (XkA − α(1))(XkB − β(1)) n α(1)β(1)α(2)β(2) −→ N0,1 .
k=1
(c) Folgern Sie mit Hilfe von Proposition (11.2) (im eindimensionalen Fall): Bez¨uglich L L 2n −→ χ 2. Pα⊗β gilt Zn −→ N0,1 und daher D 1
314
11 Asymptotische Tests und Rangtests
11.9. Fishers exakter Test auf Unabh¨angigkeit. Betrachten Sie die Situation aus Abschnitt 11.3 mit A = B = {1, 2}. (Zum Beispiel k¨onnte A f¨ur zwei medizinische Therapien stehen und B daf¨ur, ob ein Heilerfolg eintritt oder nicht.) Zeigen Sie: (a) Genau dann gilt ϑ = ϑ A ⊗ ϑ B , wenn ϑ(11) = ϑ A (1) ϑ B (1). (b) F¨ur alle n ∈ N, k, nA , nB ∈ Z+ und ϑ ∈ 0 gilt B Pϑ hn (11) = k hA n (1) = nA , hn (1) = nB = HnB ;nA ,n−nA ({k}) = HnA ;nB ,n−nB ({k}) . Wie w¨urden Sie nun vorgehen, um zu einem vorgegebenen Niveau α einen Test der Hypothese H0 : ϑ = ϑ A ⊗ ϑ B gegen die Alternative H1 : ϑ = ϑ A ⊗ ϑ B zu entwickeln? Und wie, wenn die Alternative H1 durch die (kleinere) Alternative H1 : ϑ(11) > ϑ A (1) ϑ B (1) ( Therapie 1 ” hat gr¨oßeren Heilerfolg“) ersetzt wird? 11.10. Optimalit¨at des einseitigen Vorzeichentests. Betrachten Sie das einseitige Testproblem H0 : µ(Q) ≤ 0 gegen H1 : µ(Q) > 0 f¨ur den Median, und zwar (der Einfachheit halber) in der Klasse aller Wahrscheinlichkeitsmaße Q auf R mit existierender Dichtefunktion. Sei α ein gegebenes Irrtumsniveau und Q1 ein beliebig gew¨ ) ahltes Wahrscheinlichkeitsmaß in der Alternative mit Dichtefunktion 1 ; es ist also p1 := 0∞ 1 (x) dx > 1/2. Sei ferner Q0 das Wahrscheinlichkeitsmaß in der Nullhypothese mit Dichtefunktion 0 = 1]−∞,0]
1 1 + 1]0,∞[ 2(1 − p1 ) 2p1
sowie ϕ ein (auf n unabh¨angigen Beobachtungen beruhender) Neyman-Pearson-Test von Q⊗n 0 'n − gegen Q⊗n i=1 1{Xi ≤0} 1 mit E0 (ϕ) = α. Zeigen Sie: ϕ h¨angt nur von der Teststatistik Sn = und nicht von Q1 ab, h¨alt auf ganz H0 das Niveau α ein, und ist folglich ein gleichm¨aßig bester Test von H0 gegen H1 . 11.11. Betrachten Sie die Situation von Beispiel (11.21) und die dort angegebenen Daten. F¨uhren Sie zum Niveau α = 0.06 sowohl den einseitigen als auch den zweiseitigen Vorzeichentest f¨ur den Median durch und interpretieren Sie den scheinbaren Widerspruch. 11.12. Charakterisierung der stochastischen Halbordnung. Seien Q1 , Q2 zwei Wahrschein¨ lichkeitsmaße auf (R, B ). Zeigen Sie die Aquivalenz der Aussagen (a) Q1 Q2 . (b) Es existieren Zufallsvariablen X1 , X2 auf einem geeigneten Wahrscheinlichkeitsraum (-, F , P ) mit P ◦ X1−1 = Q1 , P ◦ X2−1 = Q2 , und P (X1 ≤ X2 ) = 1. (c) F¨ur jede beschr¨ankte, monoton wachsende Funktion Y : R → R gilt EQ1 (Y ) ≤ EQ2 (Y ). Hinweis f¨ur (a)⇒(b): Proposition (1.30). 11.13. Sei G(P , Q) = P ⊗k ⊗ Q⊗l (Uk,l < c) die G¨utefunktion eines einseitigen U-Tests zum Schwellenwert c. Zeigen Sie: G(P , Q) ist bez¨uglich der stochastischen Halbordnung fallend in P und wachsend in Q, d. h. f¨ur P P und Q Q gilt G(P , Q) ≤ G(P , Q ). (Verwenden Sie Aufgabe 11.12.)
315
Aufgaben
11.14. Um die Verl¨angerung der Reaktionszeit durch ein bestimmtes Medikament zu untersuchen, wurden 20 Personen einem Reaktionstest unterzogen, von denen 10 zuvor das Medikament eingenommen hatten und die anderen 10 eine Kontrollgruppe bildeten. Es ergaben sich folgende Reaktionszeiten (in Sekunden): behandelte Gruppe .83 .66 .94 .78 .81 .60 .88 .90 .79 .86 Kontrollgruppe .64 .70 .69 .80 .71 .82 .62 .91 .59 .63 Testen Sie mit einem U-Test zum Niveau α = 0.05 die Hypothese, dass die Reaktionszeit durch das Medikament nicht beeinflusst wird, gegen die Alternative einer verl¨angerten Reaktionszeit, und zwar (a) exakt, (b) unter Verwendung der Normalapproximation. 11.15. U-Test als t-Test in Rangdarstellung. Betrachten Sie die Zweistichproben-t-Statistik T aus Aufgabe 10.23 und ersetzen Sie darin die Gesamtstichprobe X1 , . . . , Xk , Y1 , . . . , Yl durch die entsprechenden R¨ange R1 , . . . , Rk+l . Zeigen Sie, dass sich sich die entstehende Teststatistik nur durch Konstanten von der Wilcoxon-Statistik W unterscheidet. 11.16. Vorzeichen-Rangsummen-Test von Wilcoxon. Seien X1 , . . . , Xn unabh¨angige reelle Zufallsvariablen mit identischer Verteilung Q auf (R, B ). Q sei stetig und bez¨uglich 0 symmetrisch, d. h. es gelte FQ (−c) = 1 − FQ (c) f¨ur alle c ∈ R. F¨ur jedes 1 ≤ i ≤ n sei Zi = 1{Xi >0} und Ri+ der Rang von |Xi | in der absolut genommenen Beobachtungs'n + folge |X1 |, . . . , |Xn |. Sei W + = i=1 Zi Ri die zugeh¨orige Vorzeichen-Rangsumme. Zeigen Sie: (a) F¨ur jedes i sind Zi und |Xi | unabh¨angig. (b) Der Zufallsvektor R + = (R1+ , . . . , Rn+ ) ist unabh¨angig von der zuf¨alligen Menge Z = {1 ≤ i ≤ n : Zi = 1}. (c) Z ist gleichverteilt auf der Potenzmenge Pn von {1, . . . , n}, und R + ist gleichverteilt auf der Permutationsmenge Sn . (d) F¨ur jedes 0 ≤ l ≤ n(n + 1)/2 gilt P (W + = l) = 2−n N(l; n) mit 5 6 ' i = l . N(l; n) = A ⊂ {1, . . . , n} : i∈A
(Die N(l; n) lassen sich kombinatorisch bestimmen, und es gilt ein Analogon zum Grenzwertsatz (11.28). W + eignet sich daher als Teststatistik f¨ur die Hypothese H0 : Q ist symmetrisch.) 11.17. Verwenden Sie den Vorzeichen-Rangsummen-Test aus Aufgabe 11.16 in der Situation von Beispiel (11.21) mit den Daten aus Tabelle 11.4. Legen Sie das Niveau α = 0.025 zugrunde. Vergleichen Sie Ihr Ergebnis mit dem Ergebnis des Vorzeichentests aus Satz (11.22). (Hinweis: Die Zahlen N(l; 10) lassen sich f¨ur kleines l durch direktes Abz¨ahlen bestimmen.) 11.18. Kolmogorov-Smirnov Test. Seien X1 , . . . , Xn unabh¨angige reelle Zufallsvariablen mit stetiger Verteilungsfunktion F (c) = P (Xi ≤ c), 1, 1{Xi ≤c} n n
Fn (c) =
i=1
die zugeh¨orige empirische Verteilungsfunktion, und n = supc∈R |Fn (c) − F (c)| . Zeigen Sie:
316
11 Asymptotische Tests und Rangtests
. (a) n = max max ni − F (Xi:n ), F (Xi:n ) − i−1 n 1≤i≤n (b) Die Verteilung von n h¨angt nicht von F ab. (Hinweis: Aufgabe 1.16.) (Da sich eben diese Verteilung bestimmen l¨asst, kann man die Nullhypothese F ist die wahre ” Verteilungsfunktion“ durch einen Test mit Ablehnungsbereich {n > c} u¨ berpr¨ufen; eine Tabelle findet man z. B. in [49].) 11.19. Betrachten Sie die Situation von Aufgabe 11.4 u¨ ber die Tendenz zur Mitte bei der Notengebung. (a) Zeichnen Sie die empirische Verteilungsfunktion f¨ur die dort angegebenen Daten! (b) Testen Sie mit dem Kolmogorov-Smirnov-Test aus Aufgabe 11.18 zum Niveau α = 0.1 die Nullhypothese, dass den Daten die Normalverteilung N3.5,1 zugrunde liegt. (Es ist P (17 ≤ 0.286) = 0.9.)
12 Regressions- und Varianzanalyse
Oft kann man davon ausgehen, dass die Beobachtungswerte in linearer Weise von gewissen Kontrollparametern abh¨angen, die beim Experiment nach Belieben eingestellt werden k¨onnen. Diese lineare Abh¨angigkeit wird allerdings durch zuf¨allige Beobachtungsfehler gest¨ort, und die zugeh¨origen Koeffizienten sind nicht bekannt. Wie kann man sie trotzdem aus den Beobachtungen ermitteln? Dies ist der Gegenstand der linearen Regression, d. h. des Zur¨uckschließens aus den zuf¨allig gest¨orten Beobachtungen auf die zugrunde liegende lineare Abh¨angigkeit. Im einfachsten Fall wird dabei eine Reihe von Messpunkten in der Ebene bestm¨oglich durch eine Gerade angen¨ahert. Den guten theoretischen Rahmen f¨ur solche Aufgabenstellungen bietet das sogenannte lineare Modell. Wenn die Fehlervariablen unabh¨angig und normalverteilt sind, l¨asst sich die Verteilung aller relevanten Sch¨atz- und Testgr¨oßen explizit angeben, und man gelangt zu geeigneten Verallgemeinerungen der im Gauß’schen Produktmodell entwickelten Konfidenzintervalle und Tests. Ein wichtiger Spezialfall hiervon ist die Varianzanalyse, bei welcher die Daten aus verschiedenen Stichprobengruppen miteinander verglichen werden.
12.1
Einfache lineare Regression
Wir beschreiben das Problem der linearen Regression anhand eines konkreten Beispiels. (12.1) Beispiel: W¨armeausdehnung eines Metalls. Die L¨ange eines Metallstabs h¨angt (innerhalb eines bestimmten Bereiches) linear von der Temperatur ab. Um den Ausdehnungskoeffizienten zu bestimmen, w¨ahlt man n Temperaturen t1 , . . . , tn , von denen mindestens zwei verschieden sind, und misst die L¨ange des Stabs bei jeder dieser Temperaturen. Aufgrund zuf¨alliger Messfehler ist das Messergebnis Xk bei der Temperatur tk zufallsabh¨angig. Und zwar besteht Xk aus einem deterministischen Anteil, der wirklichen Stabl¨ange, und einem zuf¨alligen Fehleranteil. Demgem¨aß beschreibt man Xk durch eine lineare Regressionsgleichung der Form √ (12.2) Xk = γ0 + γ1 tk + v ξk , 1 ≤ k ≤ n ; dabei sind γ0 , γ1 ∈ R zwei unbekannte Koeffizienten, die ermittelt werden sollen (γ1 ist der zu bestimmende W¨armeausdehnungskoeffizient), v > 0 ist ein ebenfalls
318
12 Regressions- und Varianzanalyse
unbekannter Streuparameter f¨ur die Gr¨oße des Messfehlers, und ξ1 , . . . , ξn sind geeignete Zufallsvariablen, welche die zuf¨alligen Messfehler beschreiben. Man nimmt an, dass die ξk standardisiert sind, d. h. dass E(ξk ) = 0 und V(ξk ) = 1; erst dadurch werden die Parameter γ0 und v eindeutig festgelegt. Die deterministische Variable Temperatur“ mit den bekannten Werten t1 , . . . , tn heißt die Ausgangs- oder Regres” sorvariable, die Variable Stabl¨ange“ mit den zuf¨alligen Messwerten X1 , . . . Xn ” heißt abh¨angige oder Zielvariable. γ = (γ0 , γ1 ) ist der sogenannte Verschiebungsparameter. Dagegen ist v ein Skalenparameter, welcher die Streuung der Messwerte bestimmt. Im Folgenden schreiben wir die Regressionsgleichung (12.2) in der vektoriellen Form X = γ0 1 + γ1 t +
(12.3)
√
vξ
mit den (vorgegebenen) Vektoren 1 = (1, . . . , 1) und t = (t1 , . . . , tn ), dem zuf¨alligen Beobachtungsvektor X = (X1 , . . . , Xn ), und dem zuf¨alligen Fehlervektor ξ = (ξ1 , . . . , ξn ). Da die tk nicht alle gleich sein sollen, sind 1 und t linear unabh¨angig. Die Parameter γ0 und γ1 sind also beide √ relevant. Bezeichnen wir mit Pγ ,v die Verteilung des Zufallsvektors γ0 1 + γ1 t + v ξ , so f¨uhren unsere Modellannahmen auf das statistische Modell (Rn , B n , Pγ ,v : (γ , v) ∈ R2 × ]0, ∞[) . In diesem Modell ist Xk : Rn → R einfach die k-te Projektion und X = IdRn die Identit¨at auf Rn . Wie kann man die unbekannten Parameter γ0 , γ1 aus den Messungen X1 , . . . , Xn ermitteln? Da eine lineare Abh¨angigkeit der Stabl¨ange von der Temperatur vorausgesetzt wird, besteht die Aufgabe darin, auf m¨oglichst geschickte Weise eine Gerade durch“ die zuf¨allig erhaltenen Messpunkte (t1 , X1 ), . . . , (tn , Xn ) zu legen. Solch ”
•
•
!!
! !! t1
!! •
!•! • ! ! •
! !! ! ! •
•
t2 t3 t4 t5 t6 =t7
t8
Abbildung 12.1: Messpunkte und zugeh¨orige Regressionsgerade.
319
12.1 Einfache lineare Regression
eine Gerade heißt eine Ausgleichsgerade oder Regressionsgerade. Ein praktisches Verfahren hierf¨ur liefert das (auf Gauß und Legendre zur¨uckgehende) Prinzip der kleinsten Quadrate: In Abh¨angigkeit vom Beobachtungsvektor X bestimme man γˆ = (γˆ0 , γˆ1 ) ∈ R2 so, dass der mittlere quadratische Fehler 2 1 , Xk − (γ0 + γ1 tk ) = |X − γ0 1 − γ1 t|2 /n n n
Fγ :=
k=1
f¨ur γ = γˆ minimal wird. F¨ur welches γˆ ist das der Fall? Zun¨achst einmal ist klar, dass die Funktion γ → Fγ bei einem gegebenen Wert von X aus Kompaktheitsgr¨unden ein globales Minimum besitzt. An solch einer globalen Minimalstelle verschwindet der Gradient, d. h. es gilt 2, ∂ Fγ = − (Xk − γ0 − γ1 tk ) , ∂γ0 n n
0=
k=1
n 2, ∂ Fγ = − tk (Xk − γ0 − γ1 tk ) . 0= ∂γ1 n k=1
Dies f¨uhrt auf die Normalgleichungen (12.4)
γ0 + γ1 M(t) = M(X) ,
γ0 M(t) + γ1
1, 1, 2 tk = tk Xk , n n n
n
k=1
k=1
'n
wobei wir wieder M(x) = ur den Mittelwert eines Vektors x ∈ Rn i=1 xi f¨ schreiben. Die zweite Gleichung l¨asst sich noch vereinfachen. Mit Hilfe der Varianz 1 n
1, 2 tk − M(t)2 n n
V (t) =
k=1
und der Kovarianz 1, tk Xk − M(t) M(X) n n
c(t, X) :=
k=1
bekommt sie n¨amlich die Gestalt γ0 M(t) + γ1 (V (t) + M(t)2 ) = c(t, X) + M(t) M(X) . Ersetzt man hierin M(X) durch γ0 + γ1 M(t) gem¨aß der ersten Normalgleichung, so folgt γ1 V (t) = c(t, X). Da nach Voraussetzung nicht alle tk u¨ bereinstimmen, ist V (t) > 0, und man erh¨alt das folgende Ergebnis.
320
12 Regressions- und Varianzanalyse
(12.5) Satz: Regressionsgerade. Die Statistiken γˆ0 = M(X) −
M(t) c(t, X) , V (t)
γˆ1 =
c(t, X) V (t)
sind die eindeutig bestimmten kleinste-Quadrate-Sch¨atzer f¨ur γ0 , γ1 . Sie sind beide erwartungstreu. Beweis: Nur die Erwartungstreue ist noch zu zeigen. F¨ur alle ϑ = (γ , v) gilt wegen der Linearit¨at von c(t, ·) Eϑ (γˆ1 ) = Eϑ (c(t, X))/V (t) = c(t, Eϑ (X))/V (t) ; dabei ist Eϑ (X) := (Eϑ (X1 ), . . . , Eϑ (Xn )). Wegen (12.3), der Zentriertheit von ξ und der Rechenregel (4.23a) f¨ur die Kovarianz ist der letzte Ausdruck gleich c(t, γ0 1 + γ1 t)/V (t) = γ1 c(t, t)/V (t) = γ1 . Genauso folgt aus der Linearit¨at von M Eϑ (γˆ0 ) = Eϑ M(X) − γˆ1 M(t) = M(Eϑ (X)) − γ1 M(t) = M(γ0 1 + γ1 t) − γ1 M(t) = γ0 . Dies beweist die behauptete Erwartungstreue. 3 Die bisherigen Ergebnisse lassen sich so zusammenfassen: Gem¨aß dem Prinzip der kleinsten Quadrate hat die Regressionsgerade zur Beobachtung X die Steigung γˆ1 und den Achsen-Abschnitt γˆ0 . Die erste Normalgleichung in (12.4) besagt, dass diese Gerade durch den Schwerpunkt (M(t), M(X)) der Messpunkte (tk , Xk ) verl¨auft. Sie wird offensichtlich eindeutig beschrieben durch den Regressionsvektor γˆ0 1+ γˆ1 t ihrer Werte an den Stellen t1 , . . . , tn , und dieser kann wie folgt geometrisch interpretiert werden. (12.6) Bemerkung: Regressionsgerade als Projektion. Der Regressionsvektor γˆ0 1 + γˆ1 t ist gerade die Projektion des Beobachtungsvektors X ∈ Rn auf den von den Vektoren 1 und t aufgespannten Teilraum L = L(1, t) := {γ0 1 + γ1 t : γ0 , γ1 ∈ R} , d. h. mit der Projektion ΠL von Rn auf L gilt ΠL X = γˆ0 1 + γˆ1 t. Das Prinzip der kleinsten Quadrate besagt n¨amlich nichts anderes, als dass γˆ0 1 + γˆ1 t gerade der Vektor in L ist, welcher von X den kleinsten euklidischen Abstand hat. Die Regressionsgerade beschreibt die aufgrund der Beobachtung X vermutete Abh¨angigkeit zwischen Stabl¨ange und Temperatur. Man kann daher Vorhersagen machen u¨ ber die Stabl¨ange τ (γ ) = γ0 + γ1 u bei einer Temperatur u ∈ {t1 , . . . , tn },
12.2 Das lineare Modell
321
f¨ur die noch keine Messung vorgenommen wurde. Dies wollen wir jedoch gleich in einem sehr viel allgemeineren Rahmen durchf¨uhren; siehe den Satz (12.15b) von Gauß-Markov unten. Hier geben wir noch zwei erg¨anzende Hinweise. (12.7) Bemerkung: Zuf¨allige Regressorvariable. In Beispiel (12.1) sind wir davon ausgegangen, dass die Temperaturen tk fest eingestellt werden k¨onnen und nicht vom Zufall abh¨angen. Die Methode der kleinsten Quadrate kann aber genauso im Fall einer zuf¨alligen Regressorvariablen verwendet werden. Sie erm¨oglicht dann die Bestimmung eines (approximativ) linearen Zusammenhangs zwischen zwei Zufallsvariablen wie z. B. Luftdruck und Luftfeuchtigkeit. Formal betrachtet man dann Paare (Xk , Tk ) von reellen Zufallsvariablen (die den Beobachtungen an verschiedenen ¨ Tagen entsprechen) und ersetzt in den obigen Uberlegungen den deterministischen Vektor t durch den Zufallsvektor (T1 , . . . , Tn ) . (12.8) Bemerkung: Versteckte Einflussgr¨oßen. Ein h¨aufige Quelle von Fehlschl¨ussen besteht darin, wesentliche Einflussfaktoren außer Acht zu lassen. Wenn die Zielvariable X nicht nur von der betrachteten Ausgangsvariablen t abh¨angt, sondern auch noch von einer weiteren Einflussgr¨oße s, so kann z. B. der Fall eintreten, dass die Regressionsgerade f¨ur X in Abh¨angigkeit von t steigt, wenn die Werte von s nicht unterschieden werden, w¨ahrend die Regressionsgeraden bei festgehaltenen Werten von s jeweils fallen. Mit anderen Worten: Wird s ignoriert, so scheint t einen verst¨arkenden Einfluss auf X auszu¨uben, obgleich in Wirklichkeit das Gegenteil der Fall ist. Ein konkretes Beispiel f¨ur dieses sogenannte Simpson-Paradox folgt in Aufgabe 12.5.
12.2
Das lineare Modell
Die lineare Regressionsgleichung (12.3) besagt abstrakt gesehen nichts anderes, als dass der zuf¨allige Beobachtungsvektor X aus dem √ zuf¨alligen Fehlervektor ξ durch zwei Operationen hervorgeht: eine Skalierung mit v und eine anschließende Verschiebung um einen Vektor, der linear von dem unbekannten Parameter γ abh¨angt. Diese Modellvorstellung soll jetzt allgemein formuliert werden. Definition: Seien s, n ∈ N mit s < n. Ein lineares Modell f¨ur n reellwertige Beobachtungen mit unbekanntem s-dimensionalem Verschiebungsparameter γ = (γ1 , . . . , γs ) ∈ Rs und unbekanntem Skalenparameter v > 0 besteht aus einer reellen n×s-Matrix A von vollem Rang s von bekannten Kontrollgr¨oßen, der sogenannten Designmatrix, und einem Zufallsvektor ξ = (ξ1 , . . . , ξn ) von n standardisierten Zufallsvariablen ξk ∈ L 2 , den Fehler- oder St¨orgr¨oßen. Der n-dimensionale Beobachtungsvektor X = (X1 , . . . , Xn ) ergibt sich aus diesen Gr¨oßen durch die lineare Gleichung √ (12.9) X = Aγ + v ξ .
322
12 Regressions- und Varianzanalyse
Das zugeh¨orige statistische Modell ist somit (X, F , Pϑ : ϑ ∈ ) = (Rn , B n , Pγ ,v : γ ∈ Rs , v > 0) , s wobei wir f¨ur ϑ = (γ √, v) ∈ := R × ]0, ∞[ mit Pϑ = Pγ ,v die Verteilung des Zufallsvektors Aγ + v ξ bezeichnen. (In diesem kanonischen Modell ist X einfach die Identit¨at auf Rn und Xk die k-te Projektion.)
Die Aufgabe des Statistikers besteht darin, aufgrund einer Realisierung von X zur¨uckzuschließen auf die unbekannten Parameter γ , v, d. h. diese Parameter zu sch¨atzen oder Hypothesen u¨ ber sie zu testen. Als besonders zug¨anglich wird sich das lineare Gaußmodell erweisen. Dort hat ξ die n-dimensionale Standardnormalverteilung Nn (0, E), und somit ist Pγ ,v = Nn (Aγ , v E) ; der Gauß’sche Fall ist Gegenstand des n¨achsten Abschnitts. Hier diskutieren wir zun¨achst eine Reihe von Beispielen mit spezieller Wahl der Designmatrix A. (12.10) Beispiel: Gauß’sches Produktmodell. Sei s = 1, A = 1, γ = m ∈ R, und ξ habe die Standardnormalverteilung Nn (0, E). Dann ist Pγ ,v = Nn (m1, v E) = Nm,v ⊗n . Dies ist gerade das fr¨uher diskutierte Gauß’sche Produktmodell f¨ur n unabh¨angige normalverteilte Beobachtungen mit jeweils gleichem (unbekanntem) Erwartungswert und gleicher (unbekannter) Varianz. (12.11) Beispiel: Einfache lineare Regression. Sei s = 2, A = (1t) f¨ur einen Regressorvektor t = (t1 , . . . , tn ) ∈ Rn mit mindestens zwei verschiedenen Koordinaten, und γ = (γ0 , γ1 ). Dann ist die Gleichung (12.9) des linearen Modells identisch mit der linearen Regressionsgleichung (12.3). (12.12) Beispiel: Polynomiale Regression. Sei t = (t1 , . . . , tn ) ein nicht konstanter Vektor von bekannten Regressorwerten. Wenn man im Unterschied zu Beispiel (12.1) nicht von einem linearen Zusammenhang zwischen der Ausgangsvariablen und der Zielvariablen ausgehen kann, wird man die Regressionsgleichung (12.2) zu der polynomialen Regressionsgleichung √ Xk = γ0 + γ1 tk + γ2 tk2 + · · · + γd tkd + v ξk , 1 ≤ k ≤ n , verallgemeinern. Dabei ist d ∈ N der maximal in Frage kommende Polynomgrad. Auch dies ist ein Spezialfall von (12.9), wenn man s = d + 1, γ = (γ0 , . . . , γd ), und 1 t1 t12 · · · t1d . . . .. A = .. .. .. . 1 tn tn2 · · · tnd setzt. (12.13) Beispiel: Mehrfache lineare Regression. Bei der einfachen linearen Regression und der polynomialen Regression wird angenommen, dass die Beobachtungsgr¨oße nur von einem Parameter beeinflusst wird. In vielen F¨allen wird es jedoch
323
12.2 Das lineare Modell
n¨otig sein, mehrere Einflussgr¨oßen in Betracht zu ziehen. Wenn der Einfluss von jeder dieser Gr¨oßen als linear angenommen werden kann, gelangt man zur multiplen linearen Regressionsgleichung √ Xk = γ0 + γ1 tk,1 + · · · + γd tk,d + v ξk , 1 ≤ k ≤ n . Dabei ist d die Anzahl der relevanten Einflussgr¨oßen und tk,i der bei der k-ten Beobachtung verwendete Wert der i-ten Einflussgr¨oße. Wenn man sinnvolle Schl¨usse u¨ ber alle unbekannten Faktoren γ0 , . . . , γd ziehen will, muss man nat¨urlich die Beobachtung so einrichten, dass n > d und die Matrix 1 t1,1 · · · t1,d . . .. A = .. .. . 1 tn,1 · · · tn,d vollen Rang s = d + 1 hat. Mit γ = (γ0 , . . . , γd ) bekommen wir dann wieder Gleichung (12.9). Wie in Bemerkung (12.6) betrachten wir nun den linearen Teilraum L = L(A) := {Aγ : γ ∈ Rs } ⊂ Rn , der von den s Spaltenvektoren von A aufgespannt wird. Sei ΠL : Rn → L die orthogonale Projektion auf L; ΠL wird charakterisiert durch jede der folgenden Eigenschaften: (a) ΠL x ∈ L, |x − ΠL x| = minu∈L |x − u| f¨ur alle x ∈ Rn ; (b) ΠL x ∈ L, x − ΠL x ⊥ L f¨ur alle x ∈ Rn . Die Orthogonalit¨atsaussage in (b) entspricht den Normalgleichungen (12.4) und ist gleichbedeutend damit, dass (x − ΠL x) · u = 0 f¨ur alle u in einer Basis von L, also mit der Gleichung A(x − ΠL x) = 0 f¨ur alle x ∈ Rn . (12.14) Bemerkung: Darstellung der Projektionsmatrix. Die s × s-Matrix AA ist invertierbar, und die Projektion ΠL von Rn auf L = L(A) besitzt die Darstellung ΠL = A(AA)−1 A . Insbesondere ist γˆ := (AA)−1 AX die einzige L¨osung der Gleichung ΠL X = Aγˆ . Beweis: W¨are AAc = 0 f¨ur ein 0 = c ∈ Rs , so w¨are auch |Ac|2 = cAAc = 0, also Ac = 0 im Widerspruch zur Annahme, dass A vollen Rang hat. Also ist AA invertierbar. Weiter ist f¨ur jedes x ∈ Rn offensichtlich A(AA)−1 Ax ∈ L und A(x − A(AA)−1 Ax) = Ax − Ax = 0 .
Aus Eigenschaft (b) folgt daher ΠL x = A(AA)−1 Ax. 3
324
12 Regressions- und Varianzanalyse
Der folgende Satz liefert nat¨urliche Sch¨atzer f¨ur die Parameter γ und v sowie f¨ur lineare Funktionen von γ . (12.15) Satz: Sch¨atzer im linearen Modell. Im linearen Modell mit unkorrelierten Fehlergr¨oßen ξ1 , . . . , ξn gelten die folgenden Aussagen. (a) γˆ := (AA)−1 AX ist ein erwartungstreuer Sch¨atzer f¨ur γ . (b) Satz von Gauß-Markov. Sei τ : Rs → R eine lineare zu sch¨atzende Kenngr¨oße f¨ur γ , d. h. es gelte τ (γ ) = c · γ f¨ur ein c ∈ Rs und alle γ ∈ Rs . Dann ist T := c · γˆ ein erwartungstreuer Sch¨atzer f¨ur τ , der als einziger unter allen linearen erwartungstreuen Sch¨atzern f¨ur τ die kleinste Varianz hat. (c) Die Stichprobenvarianz V∗ =
|X − ΠL X|2 |X − Aγˆ |2 |X|2 − |ΠL X|2 = = n−s n−s n−s
ist ein erwartungstreuer Sch¨atzer f¨ur v. Ein Sch¨atzer T wie in Aussage (b) heißt ein bester linearer Sch¨atzer. Aussage (c) verallgemeinert Satz (7.13). Da hier der s-dimensionale Parameter γ und nicht nur der eindimensionale Parameter m gesch¨atzt wird, gehen s Freiheitsgrade verloren. Dies erkl¨art die Division durch n − s. Beweis: (a) F¨ur alle ϑ = (γ , v) folgt aus der Linearit¨at des Erwartungswerts Eϑ (γˆ ) = (AA)−1 A Eϑ (X) = (AA)−1 AAγ = γ . Dabei ist der Erwartungswert eines Zufallsvektors wieder koordinatenweise definiert als der Vektor der Erwartungswerte der Koordinatenvariablen. (b) Wegen Aussage (a) ist T erwartungstreu. Wir wollen zeigen, dass T unter allen linearen erwartungstreuen Sch¨atzern f¨ur τ die kleinste Varianz hat. Dazu betrachten wir den Vektor a = A(AA)−1 c ∈ L. Es gilt einerseits ΠL a = a und daher auch aΠL = a. Andrerseits gilt Aa = c, also c = aA und somit τ (γ ) = cγ = aAγ . Insgesamt erhalten wir daher T = cγˆ = aΠL X = aX. Sei nun S : Rn → R ein beliebiger linearer erwartungstreuer Sch¨atzer f¨ur τ . Wegen der Linearit¨at von S existiert ein b ∈ Rn mit S = b · X. Wegen der Erwartungstreue von S gilt f¨ur alle ϑ = (γ , v) b · Aγ = Eϑ (b · X) = Eϑ (S) = τ (γ ) = a · Aγ , also b · u = a · u f¨ur alle u ∈ L. Somit steht b − a senkrecht auf L, d. h. es ist a = ΠL b und daher insbesondere |a| ≤ |b|. Wir schreiben nun Vϑ (S) − Vϑ (T ) = Eϑ |b(X − Aγ )|2 − |a(X − Aγ )|2 = v E bξ ξb − aξ ξa = v b E(ξ ξ)b − a E(ξ ξ)a .
325
12.3 Das lineare Gaußmodell
Hier verwenden wir die Vektornotation ξ ξ f¨ur die Matrix (ξk ξl )1≤k,l≤n , und der Erwartungswert E(ξ ξ) ist gliedweise definiert. Wegen der Unkorreliertheit der ξk gilt nun aber E(ξ ξ) = E, die Einheitsmatrix. Es folgt Vϑ (S) − Vϑ (T ) = v (|b|2 − |a|2 ) ≥ 0 , und dies beweist die Optimalit¨at und Eindeutigkeit von T . (c) Die verschiedenen Ausdr¨ucke f¨ur V ∗ ergeben sich aus dem Satz von Pythagoras und Bemerkung (12.14). Sei nun u1 , . . . , un eine Orthonormalbasis von Rn mit L = span(u1 , . . . , us ), und O die orthogonale Matrix mit Spaltenvektoren u1 , . . . , un . Die Matrix O bildet den linearen Teilraum H = {x ∈ Rn : xs+1 = · · · = xn = 0} auf L ab. Die Projektion auf H wird beschrieben durch die Diagonalmatrix Es mit Einsen auf den Diagonalpl¨atzen 1, . . . , s und Nullen sonst. Definitionsgem¨aß gilt daher ΠL = OEs O. Wegen der Rotationsinvarianz der euklidischen Norm ergibt sich somit ' (12.16) (n − s) V ∗ = v |ξ − ΠL ξ |2 = v |η − Es η|2 = v nk=s+1 ηk2 ; ' dabei ist η := Oξ und ηk = nj=1 Oj k ξj die k-te Koordinate von η. Da die ξj als unkorreliert und standardisiert vorausgesetzt sind, gilt schließlich E(ηk2 ) = E
' 1≤i,j ≤n
Oik Oj k ξi ξj
=
n ' i=1
O2ik = 1
f¨ur jedes k. Zusammen mit (12.16) liefert dies die Erwartungstreue von V ∗ . 3 Wenn man nicht nur sch¨atzen, sondern auch Konfidenzbereiche angeben oder Hypothesen testen m¨ochte, braucht man zur Berechnung der Irrtumswahrscheinlichkeiten genauere Angaben u¨ ber die zugrunde liegenden Verteilungen. Deshalb betrachten wir im folgenden Abschnitt den Standardfall, dass die Fehlergr¨oßen ξk unabh¨angig und standardnormalverteilt sind.
12.3
Das lineare Gaußmodell
In diesem Abschnitt machen wir die Annahme, dass der Fehlervektor ξ die multivariate Standardnormalverteilung Nn (0, E) besitzt, und daher Pϑ = Nn (Aγ , v E) f¨ur alle ϑ = (γ , v) ∈ Rn × ]0, ∞[. Insbesondere sind die Beobachtungen X1 , . . . , Xn dann unter jedem Pϑ unabh¨angig. Das zugeh¨orige lineare Modell heißt dann das normalverteilte lineare Modell oder lineare Gaußmodell. (12.17) Satz: Verallgemeinerter Satz von Student. Im linearen Gaußmodell gelten bei beliebigem (γ , v) bez¨uglich Pγ ,v die folgenden Aussagen. (a) γˆ ist Nn (γ , v(AA)−1 )-verteilt.
326
12 Regressions- und Varianzanalyse
(b)
n−s v
V ∗ ist χ 2n−s -verteilt.
(c) |A(γˆ − γ )|2 /v = |ΠL X − Eγ ,v (X)|2 /v ist χ 2s -verteilt und unabh¨angig von V ∗ . Somit hat |A(γˆ − γ )|2 /(sV ∗ ) die F -Verteilung Fs,n−s . (d) Ist H ⊂ L ein linearer Teilraum mit dim H = r < s und Aγ ∈ H , so hat |ΠL X − ΠH X|2 /v die Verteilung χ 2s−r und ist unabh¨angig von V ∗ . Somit ist die Fisher-Statistik FH ,L :=
(12.18)
n − s |ΠL X − ΠH X|2 |Aγˆ − ΠH X|2 = s − r |X − ΠL X|2 (s − r) V ∗
Fs−r,n−s -verteilt. Aus dem Satz von Pythagoras ergeben sich die alternativen Darstellungen FH ,L =
n − s |ΠL X|2 − |ΠH X|2 n − s |X − ΠH X|2 − |X − ΠL X|2 = , s − r |X|2 − |ΠL X|2 s−r |X − ΠL X|2
siehe Abbildung 12.2. X
H
ΠL X
0
ΠH X
L
Abbildung 12.2: Die Seiten des von den Projektionsstrahlen gebildeten Tetraeders sind rechtwinklige Dreiecke.
Beweis: (a) Wegen der S¨atze (9.5) und (12.15a) ist γˆ = (AA)−1 AX normalverteilt mit Erwartungswert γ und Kovarianzmatrix (AA)−1 A(v E)A(AA)−1 = v (AA)−1 . (b) – (d) Sei H ⊂ L und u1 , . . . , un eine Orthonormalbasis von Rn mit span(u1 , . . . , ur ) = H ,
span(u1 , . . . , us ) = L .
327
12.3 Das lineare Gaußmodell
Sei O die orthogonale Matrix mit Spalten u1 , . . . , un . Wir betrachten zun¨achst den Nn (0, E)-verteilten Fehlervektor ξ . Nach Korollar (9.4) ist der Vektor η := Oξ wieder Nn (0, E)-verteilt, also seine Koordinaten η1 , . . . , ηn unabh¨angig und N0,1 -verteilt. Aussage (b) folgt daher unmittelbar aus der Gleichung (12.16) und Satz (9.10). Weiter kann man schreiben |ΠL ξ − ΠH ξ |2 = |(Es − Er )η|2 =
s ' k=r+1
ηk2 .
|ΠL ξ − ΠH ξ |2 ist deshalb χ 2s−r -verteilt und wegen (12.16) und Satz (3.24) auch unabh¨angig von V ∗ . F¨ur H = {0}, r = 0 bedeutet dies: |ΠL ξ |2 ist χ 2s -verteilt und unabh¨angig von V ∗ . Geht man nun zum Beobachtungsvektor X beim Parameter (γ , v) u¨ ber, so gilt einerseits √ A(γˆ − γ ) = ΠL (X − Aγ ) = v ΠL ξ , und im Fall Aγ ∈ H andrerseits ΠL X − ΠH X =
√ v (ΠL ξ − ΠH ξ ) .
Zusammen mit Satz (9.12) ergeben sich hieraus die Aussagen (c) und (d). 3 Satz (12.17) legt die Grundlage f¨ur die Konstruktion von Konfidenzbereichen und Tests in einer ganzen Reihe von Problemstellungen. (12.19) Korollar: Konfidenzbereiche im linearen Gaußmodell. F¨ur jedes vorgegebene Irrtumsniveau 0 < α < 1 gilt: (a) Konfidenzbereich f¨ur γ . Ist fs,n−s;1−α das α-Fraktil von Fs,n−s , so ist die zuf¨allige Menge C(·) = γ ∈ Rs : |A(γ − γˆ )|2 < s fs,n−s;1−α V ∗ ein Konfidenzellipsoid f¨ur γ zum Irrtumsniveau α. (b) Konfidenzintervall f¨ur eine lineare Sch¨atzgr¨oße τ (γ ) = c · γ . Ist tn−s;1−α/2 7 das α/2-Fraktil von t n−s und δ = tn−s;1−α/2 c(AA)−1 c, so ist √ √ C(·) = c · γˆ − δ V ∗ , c · γˆ + δ V ∗ ein Konfidenzintervall f¨ur τ (γ ) zum Niveau α. 2 2 und q+ = χn−s;1−α/2 (c) Konfidenzintervall f¨ur die Varianz. Sind q− = χn−s;α/2 2 das α/2-Quantil und α/2-Fraktil von χ n−s , so ist C(·) = (n − s) V ∗ /q+ , (n − s) V ∗ /q− ein Konfidenzintervall f¨ur v zum Irrtumsniveau α.
328
12 Regressions- und Varianzanalyse
Beweis: Aussage (a) folgt direkt aus Satz (12.17c). Zum Beweis von (b) beachte man, dass Z := c · γˆ gem¨aß Satz (12.17a) und Satz (9.5) normalverteilt ist mit Erwartungswert c · γ und Varianz vc(AA)−1 c. Somit ist Z−c·γ Z ∗ := 7 vc(AA)−1 c N0,1 -verteilt. Nach dem Beweis von Satz (12.15b) ist Z ∗ eine Funktion von Aγˆ und daher nach Satz (12.17c) unabh¨angig von (n − s)V ∗ /v, das seiner√ seits χ 2n−s -verteilt ist. Die Statistik T = Z ∗ v/V ∗ ist daher nach Satz (9.17) t n−s -verteilt. Hieraus ergibt sich Behauptung (b) unmittelbar. Aussage (c) folgt in gleicher Weise aus Satz (12.17b). 3 (12.20) Korollar: Tests im linearen Gaußmodell. F¨ur jedes vorgegebene Irrtumsniveau 0 < α < 1 gilt: (a) t-Test der Hypothese c · γ = m0 . Seien c ∈ Rs und m0 ∈ R beliebig vorgegeben. Ist dann tn−s;1−α/2 das α/2-Fraktil von t n−s , so wird durch den Ablehnungsbereich 6 5 7 |c · γˆ − m0 | > tn−s;1−α/2 c(AA)−1 c V ∗ ein Niveau-α Test f¨ur das zweiseitige Testproblem H0 : c ·γ = m0 gegen H1 : c ·γ = m0 definiert. Tests der einseitigen Hypothesen c · γ ≤ m0 bzw. c · γ ≥ m0 konstruiert man analog. (b) F -Test der linearen Hypothese Aγ ∈ H . Sei H ⊂ L ein linearer Raum der Dimension dim H =: r < s und fs−r,n−s;1−α das α-Fraktil von Fs−r,n−s . Ist dann FH ,L wie in (12.18) definiert, so bestimmt der Ablehnungsbereich FH ,L > fs−r,n−s;1−α einen Niveau-α Test f¨ur das Testproblem H0 : Aγ ∈ H gegen H1 : Aγ ∈ H . (c) χ 2 -Test f¨ur die Varianz. F¨ur v0 > 0 definiert der Ablehnungsbereich 2 (n − s) V ∗ > v0 χn−s;1−α einen Niveau-α Test f¨ur das linksseitige Testproblem H0 : v ≤ v0 gegen H1 : v > v0 . 2 2 -Verteilung. Das rechtsseitige und das das α-Fraktil der χn−s Dabei ist χn−s;1−α zweiseitige Testproblem kann man entsprechend behandeln. Beweis: Aussage (a) ergibt sich genauso wie die analoge Aussage in Korollar (12.19b). Behauptung (b) folgt unmittelbar aus Satz (12.17d), und (c) entsprechend aus Satz (12.17b). 3 Wenn die G¨utefunktion eines F -Tests wie oben explizit berechnet werden soll, ben¨otigt man die Verteilung der Testgr¨oße FH ,L auch im Fall Aγˆ ∈ / H . Wie der Beweis von Satz
329
12.3 Das lineare Gaußmodell
2 -Verteilung mit (12.17) zeigt, ergibt sich f¨ur |ΠL X − ΠH X|2 dann eine nichtzentrale χn−s Nichtzentralit¨atsparameter |Aγ −ΠH Aγ /2 |/v, vgl. Aufgabe 9.7, und f¨ur FH ,L (dessen Z¨ahler und Nenner auch dann noch unabh¨angig voneinander sind) entsprechend eine nichtzentrale Fs−r,n−s -Verteilung. Ebenso hat 8 Tm0 := (c · γˆ − m0 )/ V ∗ c(AA)−1 c
f¨ur m = m0 eine nichtzentrale tn−s -Verteilung im Sinne von Aufgabe 9.11. Man kann zeigen, dass die Familie der nichtzentralen Fs−r,n−s -Verteilungen mit variierendem Nichtzentralit¨atsparameter wachsende Likelihood-Quotienten hat. Hieraus kann man (¨ahnlich wie in Satz (10.10)) schließen, dass der F -Test der beste Test ist in der Klasse aller Tests, welche invariant sind unter all den linearen Transformationen von Rn , welche die Unterr¨aume L und H invariant lassen. Details findet man etwa in Ferguson [17].
Wir wenden die vorstehenden Korollare nun auf die in Abschnitt 12.2 diskutierten Spezialf¨alle des linearen Modells an. (12.21) Beispiel: Gauß’sches Produktmodell, siehe (12.10). Sei s = 1, A = 1 sowie γ = m ∈ R, also Pm,v = Nm,v ⊗n . Dann ist AA = n. Also ist der t-Test in Korollar (12.20a) f¨ur c = 1 nichts anderes als der zweiseitige t-Test der Hypothese H0 : m = m0 in Satz (10.22). (12.22) Beispiel: Einfache lineare Regression, siehe (12.11). Sei s = 2 und A = (1t) f¨ur einen Regressorvektor t = (t1 , . . . , tn ) ∈ Rn mit V (t) > 0. Dann gilt 'n n 1 tk AA = 'n 'n 2 , 1 tk 1 tk also det AA = n2 V (t) und daher
(A A )
−1
1 = nV (t)
'n
2 1 tk /n
−M(t)
−M(t)
Somit erhalten wir
1
'n
γˆ = (A A)
−1
A X = (A A)
−1
1 Xk 'n 1 tk Xk
.
' ' M(X) n1 tk2 /n − M(t) n1 tk Xk /n 1 = ' V (t) −M(X)M(t) + n1 tk Xk /n
M(X) − c(t, X) M(t)/V (t) γˆ0 = = γˆ1 c(t, X)/V (t)
330
12 Regressions- und Varianzanalyse
¨ in Ubereinstimmung mit Satz (12.5). Insbesondere ergibt sich V ∗ = |X − γˆ0 1 − γˆ1 t|2 /(n − 2) . Wenn man diese Ergebnisse in die Korollare (12.19b) und (12.20a) einsetzt, erh¨alt man Konfidenzintervalle und Tests f¨ur lineare Sch¨atzgr¨oßen wie zum Beispiel den Steigungsparameter γ1 oder einen Interpolationswert γ0 + γ1 u, d. h. den Wert der Zielvariablen an einer Stelle u. (In Beispiel (12.1) ist γ1 der W¨armeausdehnungskoeffizient und γ0 + γ1 u die L¨ange des Metallstabs bei einer Normtemperatur u. Alternativ denke man z. B. an die Leistung eines Motors in Abh¨angigkeit von der Drehzahl; dann ist γ0 + γ1 u die Leistung bei einer Normumdrehungszahl u.) Der Steigungsparameter. F¨ur c = (0, 1) folgt aus (12.19b) und (12.20a): Das Zufallsintervall 7 7 γˆ1 − tn−2;1−α/2 V ∗ /nV (t) , γˆ1 + tn−2;1−α/2 V ∗ /nV (t) ist ein Konfidenzintervall f¨ur γ1 zum Irrtumsniveau α, und 7 |γˆ1 − m0 | > tn−2;1−α/2 V ∗ /nV (t) ist der Ablehnungsbereich eines Niveau-α Tests der Hypothese H0 : γ1 = m0 . Interpolationswerte. F¨ur u ∈ R ergibt sich mit c = (1, u)
'n 2 2 nV (t) c(AA)−1 c = 1 tk /n − 2uM(t) + u
= V (t) + M(t)2 − 2uM(t) + u2 nV (t) =
1 (M(t) − u)2 + . n nV (t)
Somit ist |γˆ0 + γˆ1 u − m0 | > tn−2;1−α/2
√ 81 V∗ n +
(M(t)−u)2 nV (t)
der Ablehnungsbereich eines Niveau-α Tests der Hypothese H0 : γ0 + γ1 u = m0 . (12.23) Beispiel: Mehrfache lineare und polynomiale Regression, siehe (12.12) und (12.13). Bei polynomialer Regression ist man daran interessiert, ob der Grad + des Regressionspolynoms de facto kleiner gew¨ahlt werden kann als der maximal ber¨ucksichtigte Grad d. Genauso fragt man sich im Fall mehrfacher linearer Regression, ob einige der Einflussgr¨oßen (etwa die mit Index i > +) de facto keine Rolle spielen. Solch eine Vermutung f¨uhrt auf die Nullhypothese H0 : γ++1 = γ++2 = · · · = γd = 0
331
12.4 Varianzanalyse
mit + < d. Diese Hypothese kann mit dem F -Test gepr¨uft werden. Setze dazu H = {Aγ : γ = (γ0 , . . . , γ+ , 0, . . . , 0), γ0 , . . . , γ+ ∈ R} . Dann hat die Nullhypothese die Form H0 : Aγ ∈ H . F¨ur 1 t1,1 · · · t1,+ . . .. B = .. .. . 1 tn,1 · · · tn,+ ist H = {Bβ : β ∈ R++1 }, also ΠH X = B(BB)−1 BX. Diesen Ausdruck kann man in die Definition (12.18) von FH ,L einsetzen. Alles Weitere ergibt sich aus Korollar (12.20b).
12.4 Varianzanalyse Ziel der Varianzanalyse ist es, den Einfluss gewisser Kausalfaktoren auf ein Zufallsgeschehen zu bestimmen. Wir erl¨autern dies an einem klassischen Beispiel. (12.24) Beispiel: Einfluss der D¨ungung auf den Ernteertrag. Wie stark wirkt sich die Verwendung eines bestimmten D¨ungemittels auf den Ernteertrag aus, verglichen mit anderen D¨ungemethoden? Sei G die endliche Menge der D¨ungemethoden, die miteinander verglichen werden sollen, etwa G = {1, . . . , s}. Um statistisch verwertbare Aussagen zu bekommen, wird jedes D¨ungemittel i ∈ G auf ni ≥ 2 verschiedene Fl¨achen Fi1 , . . . , Fini Ackerboden ausgebracht. F¨ur den (zuf¨alligen) Ernteertrag Xik auf Fl¨ache Fik macht man den Ansatz √ Xik = mi + v ξik , i ∈ G, 1 ≤ k ≤ ni . ungemittels Dabei ist m√ i der unbekannte mittlere Ernteertrag bei Verwendung des D¨ i ∈ G und v ξik die zuf¨allige St¨orung dieses Ertrags durch Witterung und andere Einfl¨usse. Abstrakt l¨asst sich die Vorgehensweise wie folgt beschreiben. F¨ur den Faktor “D¨ungung” werden s = |G| verschiedene M¨oglichkeiten (auch Stufen genannt) betrachtet. Auf der Stufe i ∈ G f¨uhrt der Faktor zu einem gewissen Effekt mi ∈ R, der jedoch durch zuf¨allige St¨orungen u¨ berlagert ist. Zur Bestimmung dieses Effekts werden ni Beobachtungen Xik mit Erwartungswert mi gemacht. Diese Beobachtungen bilden die i-te Beobachtungsgruppe. Schematisch l¨asst sich solch ein s-Stichprobenproblem wie folgt darstellen: Gruppe 1 2 .. .
Beobachtungen X11 , . . . , X1n1 X21 , . . . , X2n2 .. .
Erwartungswert m1 m2 .. .
s
Xs1 , . . . , Xsns
ms
332
12 Regressions- und Varianzanalyse
Der gesamte Beobachtungsvektor ist somit X = (Xik )ik∈B
mit B = {ik : i ∈ G, 1 ≤ k ≤ ni } ,
den wir uns auch in der Form X = (X11 , . . . , X1n1 , X21 , . . . , X2n2 , . . . ) ' angeordnet denken, also als zuf¨alligen Spaltenvektor im Rn , n = i∈G ni . Die unbekannten Parameter sind γ = (mi )i∈G ∈ Rs und v > 0. Der Erwartungswertvektor (12.25)
E(X) = (m1 , . . . , m1 , m2 , . . . , m2 , . . . , ms , . . . , ms ) = <; > = <; > = <; > n1
n2
ns
von X l¨asst sich kurz in der Form E(X) = Aγ schreiben mit der Null-Eins-Matrix A = (δij )ik∈B, j ∈G ,
also explizit
(12.26)
1.
.. 1 A =
1. . .
1 ..
.
n 1 n 2 . .. 1. . ns . 1
mit Nullen an allen u¨ brigen Stellen. Unser Modell zur Untersuchung des Effekts der verschiedenen D¨ungemittel entpuppt sich somit als ein lineares Modell mit einer speziellen Designmatrix A. Definition: Das Modell der Varianzanalyse besteht aus einer endlichen Menge G von s := |G| verschiedenen Beobachtungsgruppen, einer Anzahl ni von Beobachtungen f¨ur jede Gruppe i ∈ G und der entsprechenden Beobachtungsmenge B = {ik : i ∈ G, 1 ≤ k ≤ ni } mit M¨achtigkeit ' n = |B| = i∈G ni , einem unbekannten Vektor γ = (mi )i∈G von Beobachtungsmittelwerten mi in Gruppe i ∈ G, sowie einem unbekannten Skalenparameter v > 0 und paarweise unkorrelierten standardisierten St¨orgr¨oßen ξik , ik ∈ B.
333
12.4 Varianzanalyse
Es ist gegeben durch das lineare Modell mit der n × s Designmatrix A wie in (12.26). (Verbreitet ist das Akronym ANOVA f¨ur analysis of variance“.) ” Um die im linearen Modell gewonnenen allgemeinen Ergebnisse anzuwenden, m¨ussen wir also die Matrix A aus (12.26) untersuchen. Wir beginnen mit einer Reihe von Feststellungen. (a) Der lineare Raum L = L(A) := {Aγ : γ ∈ Rs } ist gegeben durch L = {x ∈ Rn : x1 = · · · = xn1 , xn1 +1 = · · · = xn1 +n2 , . . . , xn1 +···+ns−1 +1 = · · · = xn } .
(b) Es gilt AA =
n1
..
.
ns
mit Nullen außerhalb der Diagonale. (c) F¨ur den Beobachtungsvektor X = (Xik )ik∈B gilt AX = (n1 M1 , . . . , ns Ms ) ;
dabei ist Mi =
ni 1 , Xik ni k=1
das Beobachtungsmittel innerhalb der Gruppe i. (d) Der erwartungstreue Sch¨atzer γˆ f¨ur γ = (mi )i∈G ist gegeben durch γˆ = (AA)−1 AX =
1/n1
n1 M1 M1 .. ... = ... , . ns Ms Ms 1/ns
also denVektor der empirischen Mittelwerte innerhalb der Gruppen. (Das ist nat¨urlich alles andere als u¨ berraschend!)
334
12 Regressions- und Varianzanalyse
(e) F¨ur den erwartungstreuen Varianzsch¨atzer V ∗ ergibt sich 2 2 1 1 X − ΠL X = X − A(M1 , . . . , Ms ) n−s n−s 2 1 = X − (M1 , . . . , M1 , M2 , . . . , M2 , . . . ) = <; > = <; > n−s
V∗ =
n1
n2
, 1 = (Xik − Mi )2 . n−s ik∈B
Mit der Bezeichnung i 1 , (Xik − Mi )2 ni − 1
n
Vi∗ =
k=1
f¨ur den erwartungstreuen Sch¨atzer der Varianz innerhalb von Gruppe i erhalten wir also ∗ := V ∗ = ViG
(12.27)
1 , (ni − 1) Vi∗ . n−s i∈G
∗ heißt die mittlere Stichprobenvarianz innerhalb der Gruppen. ViG
∗ muss unterschieden werden von der totalen empirischen Varianz (f) ViG ∗ Vtot =
1 , (Xik − M)2 = |X − M 1|2 /(n − 1) , n−1 ik∈B
' ' wobei M = n1 ik∈G Xik = n1 i∈G ni Mi das totale empirische Mittel bezeichnet. Aus dem Satz von Pythagoras ergibt sich die Gleichung |X − M 1|2 = |X − ΠL X|2 + |ΠL X − M 1|2 , vgl. Abbildung 12.2. M.a.W., es gilt die Streuungszerlegung ∗ ∗ ∗ = (n − s) ViG + (s − 1) VzG . (n − 1) Vtot
Hier ist (12.28)
∗ = VzG
1 , ni (Mi − M)2 = |ΠL X − M 1|2 /(s − 1) s−1 i∈G
die Stichprobenvarianz zwischen den Gruppen, d. h. die empirische Varianz der Gruppenmittelwerte. (Man beachte die Gewichtung mit der Beobachtungszahl ni
335
12.4 Varianzanalyse Gruppe 1 M3 M1 M2
• •
•
•
Gruppe 2
Gruppe 3 • • • • •
•
M •
•
• •
•
Abbildung 12.3: Vergleich der Gruppenmittel Mi und des Gesamtmittels M.
in Gruppe i ∈ G.) Abbildung 12.3 veranschaulicht die Bedeutung der verschiede∗ . Wenn die wahren Gruppenmittel m , . . . , m verschieden sind nen Anteile von Vtot 1 s (wie etwa in Abbildung 12.3), kommt zu den normalen, durch die St¨orgr¨oßen ξik verursachten Schwankungen noch die zus¨atzliche Schwankung zwischen den Grup∗ kein pen durch die unterschiedlichen Mittelwerte hinzu. Dementsprechend ist Vtot erwartungstreuer Sch¨atzer f¨ur v. Es gilt n¨amlich (12.29) Bemerkung: Erwartete Stichproben-Totalvarianz. F¨ur alle ϑ = (γ , v) mit γ = (mi )i∈G und v > 0 gilt 1 , ∗ Eϑ (Vtot )=v+ ni (mi − m)2 , n−1 '
i∈G
∗ ) = v genau dann, wenn alle Grupwobei m = n1 i∈G ni mi . Folglich gilt Eϑ (Vtot penmittel mi u¨ bereinstimmen.
Beweis: Sei H = {x ∈ Rn : x1 = · · · = xn } der vom Diagonalvektor 1 erzeugte Teilraum des Rn und H ⊥ sein orthogonales Komplement. Dann gilt M1 = ΠH X, also nach (12.9) ∗ (n − 1) Vtot = |X − ΠH X|2 = |ΠH ⊥ X|2
√ = |ΠH ⊥ Aγ |2 + v |ΠH ⊥ ξ |2 + 2 v γ AΠH ⊥ ξ
und daher wegen Satz (12.15c) (f¨ur H statt L) und E(ξ ) = 0 ∗ (n − 1) Eϑ (Vtot ) = |ΠH ⊥ Aγ |2 + v(n − 1) .
Da Aγ mit dem Vektor (12.25) u¨ bereinstimmt, folgt hieraus die Behauptung. 3 Die vorangehenden Feststellungen erlauben nun eine unmittelbare Anwendung unserer Ergebnisse f¨ur das lineare Modell. Wir beschr¨anken uns auf den Fall, dass die St¨orgr¨oßen ξik unabh¨angig und standardnormalverteilt sind. Wir befinden uns dann im linearen Gaußmodell und k¨onnen die Korollare (12.19) und (12.20) anwenden. Statt einer Wiederholung aller Aussagen formulieren wir ein paar typische Spezialf¨alle als Beispiele.
336
12 Regressions- und Varianzanalyse
(12.30) Beispiel: Konfidenzellipsoid f¨ur den Mittelwertvektor. Da Aγ durch (12.25) gegeben ist und Aγˆ durch den analogen Vektor der empirischen Gruppenmittelwerte, gilt , ni (Mi − mi )2 . |A(γˆ − γ )|2 = i∈G
Gem¨aß Korollar (12.19a) ist daher das zuf¨allige Ellipsoid C(·) = {(mi )i∈G ∈ Rs :
1, ∗ ni (mi − Mi )2 < fs,n−s;1−α ViG } s i∈G
∗ gem¨ aß (12.27) ein Konfimit der gruppenintern gebildeten Stichprobenvarianz ViG denzbereich f¨ur γ = (mi )i∈G zum Irrtumsniveau α.
(12.31) Beispiel: t-Test im Zweistichprobenproblem. Wenn die Gleichwertigkeit etwa von zwei D¨ungern verglichen werden soll, muss die Nullhypothese H0 : m1 = m2 gegen die Alternative H1 : m1 = m2 getestet werden. Es ist also s = 2. Setzen wir c = (1, −1), so ist H0 gleichwertig mit der Nullhypothese H0 : c · γ = 0. Gem¨aß Korollar (12.20a) liefert uns daher der Ablehnungsbereich 8 6 5 ∗ |M1 − M2 | > tn−2;1−α/2 ( n11 + n12 ) ViG einen geeigneten Niveau-α Test. (12.32) Beispiel: F -Test im Mehrstichprobenproblem. Wenn mehr als zwei (etwa s) D¨ungersorten sollen, ist es im Allgemeinen nicht miteinander verglichen werden ratsam, die 2s Tests f¨ur die Hypothesen H0ii : mi = mi mit i = i durchzuf¨uhren, da sich dabei die Irrtumswahrscheinlichkeiten addieren (und daher, wenn α zum Ausgleich klein gew¨ahlt wird, die Macht zu klein wird). Stattdessen betrachte man den linearen Teilraum H = {m1 : m ∈ R} von Rn . Wegen Feststellung (a) ist H ein Teilraum von L, und die Nullhypothese H0 : m1 = · · · = ms ist gleichwertig mit H0 : Aγ ∈ H . Gem¨aß Feststellung (f) stimmt die zugeh¨orige Fisher-Statistik FH ,L ∗ /V ∗ u aus (12.18) mit dem Quotienten VzG iG ¨ berein. Korollar (12.20b) zeigt daher, dass der Test der Hypothese H0 : m1 = · · · = ms mit Ablehnungsbereich ∗ ∗ VzG > fs−1,n−s;1−α ViG das Niveau α hat. Wenn man dies Verfahren auf konkrete Daten anwenden will, ist es bequem, alle relevanten Gr¨oßen in einer sogenannten ANOVA-Tafel wie in Tabelle 12.1 zusammenzufassen. (12.33) Beispiel: Zweifaktorielle Varianzanalyse. Wie h¨angt der Ernteertrag vom Einfluss mehrerer Faktoren ab wie etwa D¨ungung, Saattermin und Bodenfeuchtigkeit? Diese Frage f¨uhrt zur zwei- bzw. mehrfaktoriellen Varianzanalyse. Wir beschr¨anken uns der Einfachheit halber auf den Fall von nur zwei Faktoren. F¨ur Faktor 1 und 2
337
12.4 Varianzanalyse Tabelle 12.1: ANOVA-Tafel. Fg“ steht f¨ur Freiheitsgrade“. ” ” Fg zwischen
s−1
innerhalb n−s
Quadratsummen ' SzG = ni (Mi − M)2 i∈G ' SiG = (ni − 1) Vi∗ i∈G
total
n−1
Stot =
'
(Xik − M)2
ik∈B
Quadratmittel
F -Quotient
∗ = S /(s−1) VzG zG ∗ = S /(n−s) ViG iG
∗ /V ∗ VzG iG
∗ = S /(n−1) Vtot tot
werden jeweils endlich viele Stufen unterschieden; diese Stufen bilden zwei Mengen G1 und G2 mit M¨achtigkeiten |G1 | = s1 , |G2 | = s2 . Zum Beispiel ist G1 die Menge der betrachteten D¨ungemethoden und G2 die Menge der Kalenderwochen, in denen jeweils ein Teil des Saatguts ausgebracht werden soll. Dann ist G = G1 × G2 = {ij : i ∈ G1 , j ∈ G2 } die Menge aller verschiedenen Beobachtungsgruppen; deren Anzahl ist s = |G| = s1 s2 . Mit diesem G kann man nun arbeiten wie zuvor. Das heißt: F¨ur jede Zelle“ ” ij ∈ G f¨uhrt man nij ≥ 2 Beobachtungen ' durch. Insbesondere setzt man B = {ij k : ij ∈ G, 1 ≤ k ≤ nij } und n = |B| = ij ∈G nij . Der gesamte Beobachtungsvektor ist dann X = (Xij k )ij k∈B . Der Punkt ist nun, dass sich durch die Produktstruktur von G neue Testhypothesen ergeben, welche die Einzeleffekte und Interaktion der beiden Faktoren betreffen. Um dies deutlich zu machen, setzen wir 1 , 1 , 1 , m= mij , mi• = mij , m•j = mij . s s2 s1 ij ∈G
j ∈G2
i∈G1
αi := mi• − m ist der i-te Zeileneffekt, d. h. der Einfluss, den Faktor 1 auf den Ernteertrag aus¨ubt, wenn er sich im Zustand i ∈ G1 befindet. Entsprechend ist βj := m•j − m der j -te Spalteneffekt, also der Einfluss von Faktor 2, wenn er sich im Zustand j ∈ G2 befindet. Schließlich ist γij := (mij − m) − αi − βj = mij − mi• − m•j + m der Wechselwirkungseffekt zwischen beiden Faktoren im gemeinsamen Zustand ij . Diese drei Effekte zusammen ergeben den Gesamteffekt der Faktoren, denn es gilt mij = m + αi + βj + γij f¨ur alle ij ∈ G. Von Interesse sind nun die Hypothesen H01 : αi = 0
f¨ur alle i ∈ G1 ,
338
12 Regressions- und Varianzanalyse
dass der Faktor 1 de facto keinen Einfluss auf den Ernteertrag hat, die analoge Hypothese f¨ur Faktor 2, und vor allem die Hypothese 20 : γij = 0 H
f¨ur alle ij ∈ G ,
dass sich die Effekte der beiden Faktoren additiv u¨ berlagern und daher keine Wechselwirkung zwischen den Faktoren besteht. Wie kann man diese Hypothesen testen? Setzt man m = (mij )ij ∈G , so ist die Hypothese H01 von der Form Am ∈ H f¨ur + 1. (Man beachte, dass einen Teilraum H von L der Dimension dim H = s − s 1 ' wegen i∈G1 αi = 0 eine der Gleichungen in H01 redundant ist.) Wir m¨ussen also die zugeh¨orige F -Statistik FH ,L bestimmen. Wie bisher ist ΠL X = (Mij )ij k∈B mit nij 1 , Xij k . Mij = nij k=1
Andrerseits u¨ berzeugt man sich leicht, dass ΠH X = (Mij − Mi• + M)ij k∈B mit Mi• =
(12.34)
1 , 1 nij Mij = ni• ni• j ∈G2
wobei ni• =
'
j ∈G2
,
Xij k ,
j ∈G2 , 1≤k≤nij
nij . Folglich erhalten wir
∗ := |ΠL X − ΠH X|2 = (s1 − 1) VzG1
,
nij (Mi• − M)2 .
ij ∈G ∗ die empirische Varianz zwischen den Gruppen von In Analogie zu (12.28) ist VzG1 Faktor 1. Die empirische Varianz innerhalb der Gruppen ist wie in (12.27) gegeben durch , 1 ∗ = (Xij k − Mij )2 ViG n − s 1 s2 ij k∈B
∗ /V ∗ , und unter der Gaußannahme hat Aus (12.18) ergibt sich nun FH ,L = VzG1 iG FH ,L die Fisher-Verteilung Fs1 −1,n−s1 s2 . Der Ablehnungsbereich ∗ ∗ VzG1 > fs1 −1,n−s1 s2 ;1−α ViG
definiert daher einen Niveau-α Test der Nullhypothese H01 : Der Ernteertrag h¨angt ” nur von Faktor 2 ab“. 2 von L be20 wird ebenfalls durch einen linearen Teilraum H Die Hypothese H 2 = s − (s1 −1)(s2 −1) = s1 + s2 − 1. F¨ur die schrieben; dessen Dimension ist dim H ∗ ∗ zugeh¨orige F -Statistik (12.18) gilt FH 2 ,L = VzG1-2 /ViG mit , ∗ VzG1-2 = nij (Mij − Mi• − M•j + M)2 ; ij ∈G
339
12.4 Varianzanalyse
dabei ist M•j in offensichtlicher Analogie zu (12.34) definiert. Unter der Gaußannahme f¨ur die Fehlergr¨oßen ist daher ∗ ∗ VzG1-2 > f(s1 −1)(s2 −1),n−s1 s2 ;1−α ViG 20 : In Hinblick der Ablehnungsbereich eines Niveau-α Tests der Nullhypothese H ” auf den Ernteertrag u¨ ben die Faktoren 1 und 2 keinen Einfluss aufeinander aus“. Die konkrete Anwendung der zweifaktoriellen Varianzanalyse wird durch das folgende abschließende Beispiel illustriert. (12.35) Beispiel: Einfluss eines Medikaments in Kombination mit Alkohol auf die Reaktionszeit. Bei einem bestimmten Medikament soll untersucht werden, ob es allein oder in Kombination mit Alkohol die Fahrt¨uchtigkeit beeintr¨achtigt. Daf¨ur werden 24 Personen in Vierergruppen eingeteilt, nach Tabletteneinnahme (Faktor 1) und Blutalkoholwert (Faktor 2) klassifiziert, und anschließend einem Reaktionstest unterzogen. Dabei ergeben sich etwa die Werte in Tabelle 12.2. Was l¨asst sich daraus Tabelle 12.2: Reaktionszeiten (in Hundertstelsekunden) bei 24 Versuchspersonen, klassifiziert nach Medikamenteinnahme und Blutalkoholwert. Tablette ohne mit
0.0 23, 21, 20, 19 22, 19, 18, 20
Promille 0.5 22, 25, 24, 25 23, 21, 24, 28
1.0 24, 25, 22, 26 25, 28, 32, 29
¨ schließen? Um sich einen ersten Uberblick zu verschaffen, berechnet man die Gruppenmittelwerte und Faktormittelwerte; diese sind in Tabelle 12.3 angegeben. Die Tabelle 12.3: Gruppen- und Faktormittelwerte der Daten aus Tabelle 12.2.
Tablette ohne mit M•j
0.0 20.75 19.75 20.25
Promille 0.5 1.0 24 24.25 24 28.5 24 26.38
Mi• 23.0 24.08 M=23.54
letzte Spalte mit den u¨ ber den Faktor 2 gemittelten Werten scheint einen sp¨urbaren Einfluss des Medikaments anzudeuten, und die letzte Zeile einen deutlichen Einfluss von Alkohol. Welche dieser Unterschiede sind aber signifikant? Um dies festzustellen, berechnet man die Kenngr¨oßen der zweifaktoriellen Varianzanalyse aus Beispiel (12.33). F¨ur die vorliegenden Daten erh¨alt man die zur ANOVA-Tafel 12.1
340
12 Regressions- und Varianzanalyse
analoge Tabelle 12.4. (In der Praxis benutzt man zur Berechnung solcher Tabellen geeignete Statistik-Software wie etwa S-Plus, SPSS, oder XPloRe.) Man sieht: Tabelle 12.4: Zweifaktorielle ANOVA-Tafel f¨ur die Daten aus Tabelle 12.2.
zG1 zG2 zG1-2 iG
Fg
Summen S
Varianzen V ∗
F -Werte
5%-F -Fraktile
1 2 2 18
7.00 152.58 31.08 83.25
7.00 76.29 15.54 4.63
1.51 16.49 6.72
4.41 3.55 3.55
Geht man von der Annahme normalverteilter Messwerte aus (die in dieser Situation einigermaßen plausibel ist), so hat das Medikament beim Niveau 0.05 nach den vorliegenden Daten keinen signifikanten Einfluss auf die Reaktionsf¨ahigkeit. Der Einfluss von Alkohol dagegen ist hoch signifikant, und es besteht ebenfalls eine signifikante Wechselwirkung zwischen Medikament und Alkohol. Tabelle 12.3 zeigt, dass sich beide Wirkungen gegenseitig verst¨arken.
Aufgaben 12.1. Zur Bestimmung der Abh¨angigkeit der durch maligne Melanome verursachten Mortalit¨at von der Intensit¨at der Sonneneinstrahlung wurden f¨ur jeden Staat der USA die Mortalit¨at (Todesf¨alle pro 10 Mio der weißen Bev¨olkerung von 1950 bis 1969) und der Breitengrad erfasst. Folgende Tabelle enth¨alt die Daten f¨ur 7 Staaten: Staat Delaware Iowa Michigan New Hampshire Oklahoma Texas Wyoming Mortalit¨at 200 128 117 129 182 229 134 Breite 39 42 44 44 35 31 43 Bestimmen Sie die zugeh¨orige Regressionsgerade. Welche Mortalit¨at w¨urden Sie in Ohio (Breite 40◦ ) erwarten? 12.2. Autoregressives Modell. Zur Beschreibung zeitlicher Entwicklungen mit deterministischer Wachstumstendenz und zuf¨alligen St¨orungen verwendet man oft das folgende autoregressive Modell (der Ordnung 1): √ Xk = γ Xk−1 + v ξk , 1 ≤ k ≤ n . Dabei sind γ ∈ R und v > 0 unbekannte Parameter, X0 , . . . , Xn die Beobachtungen und ξ1 , . . . , ξn unabh¨angige zuf¨allige St¨orungen mit E(ξk ) = 0, V(ξk ) = 1. Machen Sie einen Ansatz f¨ur den quadratischen Fehler und bestimmen Sie den kleinste-Quadrate-Sch¨atzer f¨ur γ . Ist dieser Sch¨atzer erwartungstreu? 12.3. Likelihood-Quotienten-Test im autoregressiven Modell. Betrachten Sie das autoregressive Modell aus Aufgabe 12.2 im Fall von standardnormalverteilten Fehlervariablen ξk und verschwindender Startvariablen X0 = 0. Zeigen Sie:
341
Aufgaben (a) Die Likelihood-Funktion des Modells lautet n ' (Xk − γ Xk−1 )2 /2v . γ ,v = (2π v)−n/2 exp − k=1
(b) Der Likelihood-Quotient f¨ur das Testproblem H0 : γ = 0 ( keine Abh¨angigkeit“) ” gegen H1 : γ = 0 ist eine monotone Funktion der Statistik n
' Xk Xk−1 S= k=2
:
n−1 ' k=1
Xk2 .
√ 12.4. Betrachten Sie das Modell der einfachen linearen Regression Xk = γ0 +γ1 tk + v ξk , k = 1, . . . , n; die Varianz v > 0 sei bekannt. Zeigen Sie: (a) Besitzt der Fehlervektor ξ eine multivariate Standardnormalverteilung, so ist der kleinste-Quadrate-Sch¨atzer γˆ = (γˆ0 , γˆ1 ) auch ein Maximum-Likelihood-Sch¨atzer f¨ur γ = (γ0 , γ1 ). (b) Mit der Residuen- bzw. Regressionsvarianz ∗ Vresid = V∗ =
n n , 1 , ∗ = (Xk − γˆ0 − γˆ1 tk )2 und Vregr (γˆ0 + γˆ1 tk − M)2 n−2 k=1
k=1
gilt die Streuungszerlegung ∗ := (n − 1) Vtot
n ,
∗ ∗ . (Xk − M)2 = (n − 2) Vresid + Vregr
k=1
(c) Die Statistik T = γˆ1
8
∗ nV (t)/Vresid (welche sich zum Testen der Hypothese H0 : γ1 =
∗ /V ∗ 0 eignet) l¨asst sich in der Form T 2 = Vregr resid schreiben.
12.5. Simpson-Paradox. Langzeitstudent Anton hat bei 8 ehemaligen Mitstudenten die Studiendauer (in Semestern) und das Anfangsgehalt (in €1000) ermittelt: Studiendauer Anfangsgehalt
10 35
9 35
11 34
9 36
11 41
12 39
10 40
11 38
Er zeichnet die Regressionsgerade f¨ur das Anfangsgehalt in Abh¨angigkeit von der Studiendauer und verk¨undet triumphierend: L¨angeres Studium f¨uhrt zu einem h¨oheren Anfangsgehalt!“ ” Seine Freundin Brigitte bezweifelt dies und stellt fest, dass die ersten Vier in der Tabelle ein anderes Schwerpunktgebiet gew¨ahlt haben als die restlichen Vier. Sie zeichnet die Regressionsgeraden f¨ur jede dieser Vierergruppen und stellt fest: Studiendauer und Anfangsgehalt ” sind negativ korreliert!“ Bestimmen und zeichnen Sie die genannten Regressionsgeraden!
342
12 Regressions- und Varianzanalyse
12.6. Ein r¨aumlich homogenes Kraftfeld mit bekannter Richtung und unbekannter St¨arke f soll untersucht werden. Dazu wird (zur Zeit 0) ein Testk¨orper der Masse 1 in das Feld gebracht und zu den Zeitpunkten 0 < t1 < t2 < · · · < tn seine Ortskoordinate (in Richtung des Feldes) gemessen. Machen Sie einen Ansatz f¨ur den quadratischen Fehler und bestimmen Sie den kleinste-Quadrate Sch¨atzer f¨ur f , wenn Anfangsort und -geschwindigkeit des Testk¨orpers (a) bekannt, also ohne Einschr¨ankung = 0 sind, (b) beide unbekannt sind. √ 12.7. Autoregressive Fehler. Betrachten Sie das Modell Xk = m + v ξk , k = 1, . . . , n, f¨ur n reellwertige Beobachtungen mit unbekanntem Mittelwert m ∈ R und unbekanntem v > 0. F¨ur die Fehler gelte ξk = γ ξk−1 + ηk ; dabei seien γ > 0 bekannt, ξ0 = 0, und η1 , . . . , ηn unkorrelierte und standardisierte Zufallsvariablen in L 2 . Zeigen Sie: (a) Außer dem Stichprobenmittel M ist auch ' S := X1 + (1 − γ ) nk=2 (Xk − γ Xk−1 ) 1 + (n − 1)(1 − γ )2 ein erwartungstreuer Sch¨atzer f¨ur m. (b) F¨ur alle m, v gilt Vm,v (S) ≤ Vm,v (M), und f¨ur γ = 1 ist die Ungleichung strikt. (Hinweis: Schreiben Sie ξ = Bη f¨ur eine geeignete Matrix B, und stellen Sie f¨ur Y := BX ein lineares Modell auf.) 12.8. F-Test als Likelihood-Quotienten-Test. Betrachten Sie im linearen Gaußmodell einen r-dimensionalen Hypothesenraum H . Zeigen Sie, dass sich der Likelihood-Quotient R=
sup
γ ,v: Aγ ∈H
φAγ ,v E /
sup
γ ,v: Aγ ∈H
φAγ ,v E
als monotone Funktion der Fisher-Statistik FH ,L aus (12.18) darstellen l¨asst, n¨amlich r F n/2 . R = (1 + n−s H ,L ) 12.9. Aus Messwerten u¨ ber den prozentualen Gehalt an Silizium in je 7 Gesteinsproben von Mond- und Pazifik-Basaltgestein ergaben sich die Mittelwerte und Streuungen Mond Pazifik M 19.6571 23.0429 √ V ∗ 1.0861 1.4775 F¨uhren Sie unter der Annahme normalverteilter Messwerte das folgende statistischen Verfahren durch. Verwenden Sie als Vorschalttest“ einen Varianzquotienten-Test zum Niveau ” 0.10 zur Pr¨ufung der Hypothese vMond = vPazifik . Testen Sie anschließend die Hypothese mMond = mPazifik zum Niveau 0.05. 12.10. Ein Gleichstrom-Motor erbrachte bei n = 8 Messungen die folgenden Werte f¨ur die Leistung [PS] in Abh¨angigkeit vom Drehmoment [1000 U/min]: tk Xk
0.8 12
1.5 20
2.5 31
3.5 40
4.2 52
4.7 60
5.0 65
5.5 70
Legen Sie das lineare Gaußmodell zugrunde. (a) Berechnen Sie die empirische Regressionsgerade und hieraus den Interpolationswert (Sch¨atzwert) f¨ur den fehlenden Drehmoment-Wert 4000 U/min.
343
Aufgaben (b) F¨uhren Sie einen Test auf H0 : γ1 = 10 zum Niveau α = 0.05 durch. (c) Bestimmen Sie ein Konfidenzintervall f¨ur γ1 zum Irrtumsniveau α = 0.05.
12.11. Die Wasserdurchl¨assigkeit von Fassadenplatten zweier verschiedener Hersteller soll getestet werden. Aus fr¨uheren Messungen sei bekannt, dass die logarithmische Wasserdurchl¨assigkeit ungef¨ahr normalverteilt ist und bei beiden Herstellern gleich stark variiert. Die Messungen ergeben Hersteller A Hersteller B
1.845 1.583
1.790 1.627
2.042 1.282
Testen Sie zum Niveau α = 0.01, ob die Wasserdurchl¨assigkeit der Fassadenplatten bei beiden Herstellern gleich groß ist. 12.12. Bauer Kurt baut Kartoffeln an. Er teilt seinen Acker in 18 (einigermaßen) gleichartige Parzellen ein und d¨ungt sie jeweils mit einem der drei D¨ungemittel Elite, Elite-plus, Elite-extra. Die folgende Tabelle zeigt die logarithmierten Ernteertr¨age in jeder einzelnen Parzelle: D¨unger Elite Elite-plus Elite-extra
2.89 2.73 2.84
2.81 2.88 2.81
2.78 2.98 2.80
Ertrag 2.89 2.82 2.66
2.77 2.90 2.83
2.85 2.58
2.80
Stellen Sie die zu diesen Daten geh¨orige ANOVA-Tafel auf und testen Sie unter der GaußAnnahme die Nullhypothese, dass alle drei D¨unger den gleichen Einfluss auf den Ertrag haben, zum Niveau 0.1. 12.13. Kuckucke kehren jedes Jahr in ihr Heimatterritorium zur¨uck und legen ihre Eier in die Nester einer bestimmten Wirtsspezies. Dadurch entstehen regionale Unterarten, die sich an die Stiefeltern-Populationen anpassen k¨onnen. In einer Untersuchung von O.M. Latter (1902) wurde die Gr¨oße von 115 Kuckuckseiern bei 6 verschiedenen Wirtsvogelarten gemessen. Besorgen Sie sich die Messdaten unter http://lib.stat.cmu.edu/DASL/Datafiles/cuckoodat.html und testen Sie (unter der Gaußannahme) zu einem geeigneten Niveau die Nullhypothese Die ” Kuckuckseigr¨oße h¨angt nicht von der Wirtsspezies ab“ gegen die Alternative Die Eigr¨oße ” ist an die Wirtseltern-Spezies angepasst“. 12.14. Betrachten Sie das Modell der Varianzanalyse f¨ur s Gruppen mit jeweiligen Mittelwer' ten mi und Stichprobenumf¨angen ni . Betrachten Sie die Gr¨oßen m = 1s si=1 mi ( mittlerer ” Effekt u¨ ber alle Gruppen“) und αi = mi − m ( Zusatzeffekt der i-ten Gruppe“). Zeigen Sie: ” ' (a) Der (i.Allg. von M verschiedene) Sch¨atzer M = 1s si=1 Mi ist ein bester linearer Sch¨atzer f¨ur m, und αˆ i = Mi − M ist ein bester linearer Sch¨atzer f¨ur αi . (b) Beim Parameter (m, v) ∈ Rs × ]0, ∞[ gilt
s v , 1 v (s − 1)2 , 1 und Vm,v (αˆ i ) = 2 + . Vm,v (M) = 2 ni ni nj s s i=1
j =i
344
12 Regressions- und Varianzanalyse
(c) Ist k ∈ N und n = sk, so ist Vm,v (M) minimal f¨ur n1 = · · · = ns = k, und ist n = 2(s − 1)k, so ist Vm,v (αˆ i ) minimal im Fall ni = (s − 1)k, nj = k f¨ur j = i. 12.15. Zweifaktorielle Varianzanalyse bei nur einer Beobachtung pro Zelle. Betrachten Sie ∗ = 0, die Situation von Beispiel (12.33) im Fall, dass nij = 1 f¨ur alle ij ∈ G. Dann ist ViG und die Ergebnisse aus (12.33) sind nicht anwendbar. Dies experimentelle Design ist daher nur dann sinnvoll, wenn a priori klar ist, dass keine Wechselwirkung zwischen den Faktoren besteht und also das additive Modell“ ” √ Xij = µ + αi + βj + v ξij , ij ∈ G, ' ' vorliegt; µ, αi , βj seien unbekannte Parameter mit i∈G1 αi = 0, j ∈G2 βj = 0. Charakterisieren Sie den linearen Raum L aller Vektoren der Gestalt (µ + αi + βj )ij ∈G durch ein Gleichungssystem, bestimmen Sie die Projektion des Beobachtungsvektors X auf L, und entwerfen Sie einen F -Test f¨ur die Nullhypothese H0 : Faktor 1 hat keinen Einfluss. 12.16. Kovarianzanalyse. Das Modell der einfaktoriellen Kovarianzanalyse mit d Beobachtungsgruppen vom Umfang n1 , . . . , nd lautet √ Xik = mi + β tik + v ξik , k = 1, . . . , ni , i = 1, . . . , d mit unbekannten Gruppenmittelwerten m1 , . . . , md und unbekanntem Regressionskoeffizienten β, welcher die Abh¨angigkeit von einem Regressorvektor t = (tik ) angibt. (Dieses Modell ist zum Beispiel geeignet zur Untersuchung der Wirkung verschiedener Behandlungsmethoden unter gleichzeitiger Ber¨ucksichtigung des jeweiligen Patientenalters.) (a) Bestimmen Sie die Definitionsparameter des zugeh¨origen linearen Modells und stellen Sie durch eine (notwendige und hinreichende) Bedingung an t sicher, dass die Designmatrix A vollen Rang besitzt. ˆ (b) Bestimmen Sie den kleinste-Quadrate-Sch¨atzer γˆ = (m ˆ 1, . . . , m ˆ d , β). (c) Verifizieren Sie die Streuungszerlegung ∗ = (n − 1) Vtot
d , ˆ (ni − 1) Vi∗ (X − βt) i=1
+
d , i=1
ni (Mi (X) − M(X))2 + βˆ 2
d , (ni − 1) Vi∗ (t) i=1
in eine Residuenvarianz innerhalb der Gruppen, eine Stichprobenvarianz zwischen den Gruppen, und eine Regressionsvarianz, und bestimmen Sie die Fisher-Statistik f¨ur einen Test der Hypothese H0 : m1 = · · · = md . 12.17. Nichtparametrische Varianzanalyse. Seien G = {1, . . . , s}, B = {ik : i ∈ G, 1 ≤ k ≤ ni } f¨ur gewisse ni ∈ N, n = |B|, und X = (Xik )ik∈B ein Vektor von unabh¨angigen reellwertigen Beobachtungen Xik mit unbekannten stetigen Verteilungen Qi . Sei ferner Rik der Rang von Xik in X und R = (Rik )ik∈B . Testen Sie die Hypothese H0 : Q1 = · · · = Qs =: Q gegen die Alternative H1 : Qi ≺ Qj f¨ur ein Paar (i, j ) ∈ G2 , indem Sie den F -Test aus Beispiel (12.32) auf R statt X anwenden. Verifizieren Sie dazu:
345
Aufgaben ∗ (R) = n(n + 1)/12. (a) M(R) = (n + 1)/2 und Vtot
∗ (R)/V ∗ (R) ist eine wachsende Funktion der Kruskal-Wallis Test(b) Die F -Statistik VzG iG statistik , 12 n + 1 2 T = ni Mi (R) − . n(n + 1) 2 i∈G
(Un1 ,n2 − n12n2 )2 mit der U-Statistik Un1 ,n2 aus (c) Im Fall s = 2 gilt T = n n 12 1 2 (n+1) Lemma (11.24). Ein Kruskal-Wallis Test mit Ablehnungsbereich {T > c} von H0 gegen H1 ist dann also a¨ quivalent zum zweiseitigen Mann-Whitney U-Test. (d) Unter der Hypothese H0 gilt E(T ) = s − 1, und die Verteilung von T h¨angt nicht von Q ab. (Beachten Sie die Beweise der S¨atze (11.25) und (11.28).) L
(e) Machen Sie sich plausibel, dass unter H0 gilt: T −→ χ 2s−1 im Limes ni → ∞ f¨ur alle i ∈ G.
Verteilungstabellen
A
Normalverteilung
Verteilungsfunktion #(c) = N0,1 (]−∞, c]) = 1 − #(−c) der Standardnormalverteilung. Den Wert etwa f¨ur c = 1.16 findet man in der Zeile 1.1 und Spalte .06: #(1.16) = 0.8770. Das α-Quantil von N0,1 findet man, indem man den Wert α in der Tabelle lokalisiert und Zeilen- und Spaltenwert addiert: #−1 (0.975) = 1.96; einige Quantile stehen auch in Tabelle D. F¨ur große Werte von c siehe Aufgabe 5.13. c 0.0 0.1 0.2 0.3 0.4
.00 .5000 .5398 .5793 .6179 .6554
.01 .5040 .5438 .5832 .6217 .6591
.02 .5080 .5478 .5871 .6255 .6628
.03 .5120 .5517 .5910 .6293 .6664
.04 .5160 .5557 .5948 .6331 .6700
.05 .5199 .5596 .5987 .6368 .6736
.06 .5239 .5636 .6026 .6406 .6772
.07 .5279 .5675 .6064 .6443 .6808
.08 .5319 .5714 .6103 .6480 .6844
.09 .5359 .5753 .6141 .6517 .6879
0.5 0.6 0.7 0.8 0.9
.6915 .7257 .7580 .7881 .8159
.6950 .7291 .7611 .7910 .8186
.6985 .7324 .7642 .7939 .8212
.7019 .7357 .7673 .7967 .8238
.7054 .7389 .7704 .7995 .8264
.7088 .7422 .7734 .8023 .8289
.7123 .7454 .7764 .8051 .8315
.7157 .7486 .7794 .8078 .8340
.7190 .7517 .7823 .8106 .8365
.7224 .7549 .7852 .8133 .8389
1.0 1.1 1.2 1.3 1.4
.8413 .8643 .8849 .9032 .9192
.8438 .8665 .8869 .9049 .9207
.8461 .8686 .8888 .9066 .9222
.8485 .8708 .8907 .9082 .9236
.8508 .8729 .8925 .9099 .9251
.8531 .8749 .8944 .9115 .9265
.8554 .8770 .8962 .9131 .9279
.8577 .8790 .8980 .9147 .9292
.8599 .8810 .8997 .9162 .9306
.8621 .8830 .9015 .9177 .9319
1.5 1.6 1.7 1.8 1.9
.9332 .9452 .9554 .9641 .9713
.9345 .9463 .9564 .9649 .9719
.9357 .9474 .9573 .9656 .9726
.9370 .9484 .9582 .9664 .9732
.9382 .9495 .9591 .9671 .9738
.9394 .9505 .9599 .9678 .9744
.9406 .9515 .9608 .9686 .9750
.9418 .9525 .9616 .9693 .9756
.9429 .9535 .9625 .9699 .9761
.9441 .9545 .9633 .9706 .9767
2.0 2.1 2.2 2.3 2.4
.9772 .9821 .9861 .9893 .9918
.9778 .9826 .9864 .9896 .9920
.9783 .9830 .9868 .9898 .9922
.9788 .9834 .9871 .9901 .9925
.9793 .9838 .9875 .9904 .9927
.9798 .9842 .9878 .9906 .9929
.9803 .9846 .9881 .9909 .9931
.9808 .9850 .9884 .9911 .9932
.9812 .9854 .9887 .9913 .9934
.9817 .9857 .9890 .9916 .9936
2.5 2.6 2.7 2.8 2.9
.9938 .9953 .9965 .9974 .9981
.9940 .9955 .9966 .9975 .9982
.9941 .9956 .9967 .9976 .9982
.9943 .9957 .9968 .9977 .9983
.9945 .9959 .9969 .9977 .9984
.9946 .9960 .9970 .9978 .9984
.9948 .9961 .9971 .9979 .9985
.9949 .9962 .9972 .9979 .9985
.9951 .9963 .9973 .9980 .9986
.9952 .9964 .9974 .9981 .9986
3.0
.9987
.9987
.9987
.9988
.9988
.9989
.9989
.9989
.9990
.9990
348
B
Verteilungstabellen
Chiquadrat- und Gamma-Verteilungen
2 der Chiquadrat-Verteilungen χ 2 = Γ 2 α-Quantile χn;α 1/2,n/2 mit n Freiheitsgraden. χn;α ist n
der Wert c > 0 mit χ 2n ([0, c]) = α. Durch Skalierung erh¨alt man die Quantile der GammaVerteilungen Γλ,r mit λ > 0 und 2r ∈ N. F¨ur große n verwende man die Approximationen aus den Aufgaben 9.8 und 9.9. Notation: −5 3.9 = 3.9 · 10−5 . α= n=1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 70 80 90 100
0.005 −5 3.9 .0100 .0717 .2070 .4117 .6757 .9893 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.52 11.16 11.81 12.46 13.12 13.79 17.19 20.71 24.31 27.99 31.73 35.53 43.28 51.17 59.20 67.33
0.01 −4 1.6 .0201 .1148 .2971 .5543 .8721 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95 18.51 22.16 25.90 29.71 33.57 37.48 45.44 53.54 61.75 70.06
0.02 −4 6.3 .0404 .1848 .4294 .7519 1.134 1.564 2.032 2.532 3.059 3.609 4.178 4.765 5.368 5.985 6.614 7.255 7.906 8.567 9.237 9.915 10.60 11.29 11.99 12.70 13.41 14.13 14.85 15.57 16.31 20.03 23.84 27.72 31.66 35.66 39.70 47.89 56.21 64.63 73.14
0.05 −3 3.9 .1026 .3518 .7107 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 22.47 26.51 30.61 34.76 38.96 43.19 51.74 60.39 69.13 77.93
0.1 .0158 .2107 .5844 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.09 10.86 11.65 12.44 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60 24.80 29.05 33.35 37.69 42.06 46.46 55.33 64.28 73.29 82.36
0.9 2.706 4.605 6.251 7.779 9.236 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26 46.06 51.81 57.51 63.17 68.80 74.40 85.53 96.58 107.6 118.5
0.95 3.841 5.991 7.815 9.488 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 49.80 55.76 61.66 67.50 73.31 79.08 90.53 101.9 113.1 124.3
0.98 5.412 7.824 9.837 11.67 13.39 15.03 16.62 18.17 19.68 21.16 22.62 24.05 25.47 26.87 28.26 29.63 31.00 32.35 33.69 35.02 36.34 37.66 38.97 40.27 41.57 42.86 44.14 45.42 46.69 47.96 54.24 60.44 66.56 72.61 78.62 84.58 96.39 108.1 119.6 131.1
0.99 6.635 9.210 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 57.34 63.69 69.96 76.15 82.29 88.38 100.4 112.3 124.1 135.8
0.995 7.879 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.64 50.99 52.34 53.67 60.27 66.77 73.17 79.49 85.75 91.95 104.2 116.3 128.3 140.2
349
Verteilungstabellen
C
Fisher- und Beta-Verteilungen
α-Quantile fm,n;α der Fm,n -Verteilungen mit m Freiheitsgraden im Z¨ahler und n Freiheitsgraden im Nenner. fm,n;α ist der Wert c > 0 mit Fm,n ([0, c]) = α. Mit Hilfe von Bemerkung (9.14) bekommt man die entsprechenden Quantile der Beta-Verteilungen. Der Wert f¨ur n = ∞ 2 /m, vgl. Aufgabe 9.10. ist der Grenzwert limn→∞ fm,n;α = χm;α
95%-Quantile fm,n;0.95 m= n=1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 ∞
1 161. 18.5 10.1 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.30 4.28 4.26 4.24 4.23 4.21 4.20 4.18 4.17 4.12 4.08 4.06 4.03 4.00 3.98 3.96 3.95 3.94 3.84
2 199. 19.0 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.27 3.23 3.20 3.18 3.15 3.13 3.11 3.10 3.09 3.00
3 216. 19.2 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.87 2.84 2.81 2.79 2.76 2.74 2.72 2.71 2.70 2.60
4 225. 19.2 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.73 2.71 2.70 2.69 2.64 2.61 2.58 2.56 2.53 2.50 2.49 2.47 2.46 2.37
5 230. 19.3 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.49 2.45 2.42 2.40 2.37 2.35 2.33 2.32 2.31 2.21
6 234. 19.3 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.37 2.34 2.31 2.29 2.25 2.23 2.21 2.20 2.19 2.10
7 237. 19.4 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.49 2.46 2.44 2.42 2.40 2.39 2.37 2.36 2.35 2.33 2.29 2.25 2.22 2.20 2.17 2.14 2.13 2.11 2.10 2.01
8 239. 19.4 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.40 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.22 2.18 2.15 2.13 2.10 2.07 2.06 2.04 2.03 1.94
9 241. 19.4 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.37 2.34 2.32 2.30 2.28 2.27 2.25 2.24 2.22 2.21 2.16 2.12 2.10 2.07 2.04 2.02 2.00 1.99 1.97 1.88
10 242. 19.4 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.30 2.27 2.25 2.24 2.22 2.20 2.19 2.18 2.16 2.11 2.08 2.05 2.03 1.99 1.97 1.95 1.94 1.93 1.83
350
Verteilungstabellen
99%-Quantile fm,n;0.99 m= n=6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 40 45 50 55 60 70 80 90 100 120 150 200 300 400 500 ∞
1 13.7 12.2 11.3 10.6 10.0 9.65 9.33 9.07 8.86 8.68 8.53 8.40 8.29 8.18 8.10 8.02 7.95 7.88 7.82 7.77 7.72 7.68 7.64 7.60 7.56 7.53 7.50 7.47 7.44 7.42 7.42 7.31 7.23 7.17 7.08 7.01 6.96 6.93 6.90 6.85 6.81 6.76 6.72 6.70 6.69 6.63
2 10.9 9.55 8.65 8.02 7.56 7.21 6.93 6.70 6.51 6.36 6.23 6.11 6.01 5.93 5.85 5.78 5.72 5.66 5.61 5.57 5.53 5.49 5.45 5.42 5.39 5.36 5.34 5.31 5.29 5.27 5.27 5.18 5.11 5.06 4.98 4.92 4.88 4.85 4.82 4.79 4.75 4.71 4.68 4.66 4.65 4.61
3 9.78 8.45 7.59 6.99 6.55 6.22 5.95 5.74 5.56 5.42 5.29 5.18 5.09 5.01 4.94 4.87 4.82 4.76 4.72 4.68 4.64 4.06 4.57 4.54 4.51 4.48 4.46 4.44 4.42 4.40 4.40 4.31 4.25 4.20 4.13 4.07 4.04 4.01 3.98 3.95 3.91 3.88 3.85 3.83 3.82 3.78
4 9.15 7.85 7.01 6.42 5.99 5.67 5.41 5.21 5.04 4.89 4.77 4.67 4.58 4.50 4.43 4.37 4.31 4.26 4.22 4.18 4.14 4.11 4.07 4.04 4.02 3.99 3.97 3.95 3.93 3.91 3.91 3.83 3.77 3.72 3.65 3.60 3.56 3.53 3.51 3.48 3.45 3.41 3.38 3.37 3.36 3.32
5 8.75 7.46 6.63 6.06 5.64 5.32 5.06 4.86 4.69 4.56 4.44 4.34 4.25 4.17 4.10 4.04 3.99 3.94 3.90 3.85 3.82 3.78 3.75 3.73 3.70 3.67 3.65 3.63 3.61 3.59 3.59 3.51 3.45 3.41 3.34 3.29 3.26 3.23 3.21 3.17 3.14 3.11 3.08 3.06 3.05 3.02
6 8.47 7.19 6.37 5.80 5.39 5.07 4.82 4.62 4.46 4.32 4.20 4.10 4.01 3.94 3.87 3.81 3.76 3.71 3.67 3.63 3.59 3.56 3.53 3.50 3.47 3.45 3.43 3.41 3.39 3.37 3.37 3.29 3.23 3.19 3.12 3.07 3.04 3.01 2.99 2.96 2.92 2.89 2.86 2.85 2.84 2.80
7 8.26 6.99 6.18 5.61 5.20 4.89 4.64 4.44 4.28 4.14 4.03 3.93 3.84 3.77 3.70 3.64 3.59 3.54 3.50 3.46 3.42 3.39 3.36 3.33 3.30 3.28 3.26 3.24 3.22 3.20 3.20 3.12 3.07 3.02 2.95 2.91 2.87 2.84 2.82 2.79 2.76 2.73 2.70 2.68 2.68 2.64
8 8.10 6.84 6.03 5.47 5.06 4.74 4.50 4.30 4.14 4.00 3.89 3.79 3.71 3.63 3.56 3.51 3.45 3.41 3.36 3.32 3.29 3.26 3.23 3.20 3.17 3.15 3.13 3.11 3.09 3.07 3.07 2.99 2.94 2.89 2.82 2.78 2.74 2.72 2.69 2.66 2.63 2.60 2.57 2.56 2.55 2.51
9 7.98 6.72 5.91 5.35 4.94 4.63 4.39 4.19 4.03 3.89 3.78 3.68 3.60 3.52 3.46 3.40 3.35 3.30 3.26 3.22 3.18 3.15 3.12 3.09 3.07 3.04 3.02 3.00 2.98 2.96 2.96 2.89 2.83 2.78 2.72 2.67 2.64 2.61 2.59 2.56 2.53 2.50 2.47 2.45 2.44 2.41
10 7.87 6.62 5.81 5.26 4.85 4.54 4.30 4.10 3.94 3.80 3.69 3.59 3.51 3.43 3.37 3.31 3.26 3.21 3.17 3.13 3.09 3.06 3.03 3.00 2.98 2.96 2.93 2.91 2.89 2.88 2.88 2.80 2.74 2.70 2.63 2.59 2.55 2.52 2.50 2.47 2.44 2.41 2.38 2.37 2.36 2.32
351
Verteilungstabellen
D
Student-Verteilungen
α-Quantile tn;α der t-Verteilungen t n mit n Freiheitsgraden. tn;α ist der Wert c > 0 mit t n (]−∞, c]) = α. F¨ur n = ∞ sind die Quantile limn→∞ tn;α = #−1 (α) der Standardnormalverteilung angegeben, siehe Aufgabe 9.10. α= n=1 2 3 4 5
0.9 3.078 1.886 1.638 1.533 1.476
0.95 6.314 2.920 2.353 2.132 2.015
0.98 15.89 4.849 3.482 2.999 2.757
0.99 31.82 6.965 4.541 3.747 3.365
0.995 63.66 9.925 5.841 4.604 4.032
6 7 8 9 10
1.440 1.415 1.397 1.383 1.372
1.943 1.895 1.860 1.833 1.812
2.612 2.517 2.449 2.398 2.359
3.143 2.998 2.896 2.821 2.764
3.707 3.499 3.355 3.250 3.169
11 12 13 14 15
1.363 1.356 1.350 1.345 1.341
1.796 1.782 1.771 1.761 1.753
2.328 2.303 2.282 2.264 2.249
2.718 2.681 2.650 2.624 2.602
3.106 3.055 3.012 2.977 2.947
16 17 18 19 20
1.337 1.333 1.330 1.328 1.325
1.746 1.740 1.734 1.729 1.725
2.235 2.224 2.214 2.205 2.197
2.583 2.567 2.552 2.539 2.528
2.921 2.898 2.878 2.861 2.845
21 22 23 24 25
1.323 1.321 1.319 1.318 1.316
1.721 1.717 1.714 1.711 1.708
2.189 2.183 2.177 2.172 2.167
2.518 2.508 2.500 2.492 2.485
2.831 2.819 2.807 2.797 2.787
29 34 39 49 59
1.311 1.307 1.304 1.299 1.296
1.699 1.691 1.685 1.677 1.671
2.150 2.136 2.125 2.110 2.100
2.462 2.441 2.426 2.405 2.391
2.756 2.728 2.708 2.680 2.662
69 79 89 99 149
1.294 1.292 1.291 1.290 1.287
1.667 1.664 1.662 1.660 1.655
2.093 2.088 2.084 2.081 2.072
2.382 2.374 2.369 2.365 2.352
2.649 2.640 2.632 2.626 2.609
199 299 ∞
1.286 1.284 1.282
1.653 1.650 1.645
2.067 2.063 2.054
2.345 2.339 2.326
2.601 2.592 2.576
352
Verteilungstabellen
E Wilcoxon-Mann-Whitney U-Verteilungen α-Quantile uk;α der Verteilungen der U-Statistik Uk,k unter der Nullhypothese. uk;α ist die gr¨oßte ganze Zahl c mit P ⊗2k (Uk,k < c) ≤ α. Die tats¨achlichen Wahrscheinlichkeiten pk−;α = P ⊗2k (Uk,k < uk;α ) und pk+;α = P ⊗2k (Uk,k ≤ uk;α ) sind zum Vergleich angegeben. Wegen der Symmetrie P ⊗2k (Uk,k < c) = P ⊗2k (Uk,k > k 2 − c) ist k 2 − uk;α das α-Fraktil der Uk,k -Verteilung. F¨ur große k siehe Satz (11.28).
5%-Quantile k uk;0.05 pk−;0.05 pk+;0.05
4 2 .0286 .0571
5 5 .0476 .0754
6 8 .0465 .0660
7 12 .0487 .0641
8 16 .0415 .0525
9 21 .0470 .0568
10 28 .0446 .0526
11 35 .0440 .0507
12 43 .0444 .0567
5 3 .0159 .0278
6 6 .0206 .0325
7 9 .0189 .0265
8 14 .0249 .0325
9 18 .0200 .0252
10 24 .0216 .0262
11 31 .0236 .0278
12 38 .0224 .0259
6 4 .0076 .0130
7 7 .0087 .0131
8 10 .0074 .0103
9 15 .0094 .0122
10 20 .0093 .0116
11 26 .0096 .0117
12 32 .0086 .0102
13 40 .0095 .0111
2.5%-Quantile k uk;0.025 pk−;0.025 pk+;0.025
4 1 .0143 .0286
1%-Quantile k uk;0.01 pk−;0.01 pk+;0.01
5 2 .0079 .0159
Literatur
Neben der im Text zitierten Literatur ist hier eine Auswahl von Lehrb¨uchern aufgef¨uhrt, die zur Erg¨anzung oder f¨ur das vertiefende Studium der Stochastik geeignet sind. 1. R.B. Ash. Basic probability theory. J. Wiley & Sons, Chichester, 1970. 2. F. Barth und R. Haller. Stochastik, Leistungskurs. Oldenbourg, M¨unchen, 12. Auflage, 1998. 3. H. Bauer. Wahrscheinlichkeitstheorie. Walter de Gruyter, Berlin – New York, 5. Auflage, 2002. 4. H. Bauer. Maß- und Integrationstheorie. Walter de Gruyter, Berlin – NewYork, 2. Auflage, 1992. 5. K. Behnen und G. Neuhaus. Grundkurs Stochastik. PD-Verlag, Heidenau, 4. Auflage, 2003. 6. P.J. Bickel and K.J. Doksum. Mathematical Statistics, Basic Ideas and Selected Topics. Prentice Hall, 2. edition, 2000. 7. P. Brémaud. An introduction to probabilistic modeling. Springer, Berlin etc., 2. printing, 1994. 8. K.L. Chung. Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse. Springer, Berlin etc., 1978. 9. I. Csiszár and J. K¨orner. Information Theory. Coding Theorems for Discrete Memeoryless Systems. Akadémiai Kiadó, Budapest, and Academic Press, New York, 1981. 10. H. Dehling und B. Haupt. Einf¨uhrung in die Wahrscheinlichkeitstheorie und Statistik. Springer, Berlin etc., 2. Auflage, 2004. 11. H. Dinges und H. Rost. Prinzipien der Stochastik. B.G. Teubner, Stuttgart, 1982. 12. R.M. Dudley. Real Analysis and Probability. Wadsworth & Brooks/Cole, 1989. 13. R. Durrett. Probability: Theory and Examples. Duxbury Press, 2. edition,1996. 14. J. Elstrodt. Maß- und Integrationstheorie. Springer, Berlin etc., 3. Auflage, 2002. 15. W. Feller. An introduction to probability theory and its applications, Vol. I. J.Wiley & Sons, Chichester, 3. ed., 1968. 16. W. Feller. An introduction to probability theory and its applications, Vol. II. J.Wiley & Sons, Chichester, 2. ed., 1971. 17. T.S. Ferguson. Mathematical Statistics. Academic Press, New York – London, 1967. 18. G. Fischer. Lineare Algebra. Vieweg, Braunschweig, 14. Auflage, 2003. 19. D. Foata und A. Fuchs. Wahrscheinlichkeitsrechnung. Birkh¨auser, Basel, 1999. 20. O. Forster. Analysis 3. Integralrechnung im Rn mit Anwendungen. Vieweg, Braunschweig, 3. Auflage, 1999.
354
Literatur
21. G. Gallavotti. Ergodicity, ensembles, irreversibility in Boltzmann and beyond. J. Statist. Phys.. 78 (1995), 1571–1589. 22. P. G¨anßler und W. Stute. Wahrscheinlichkeitstheorie. Springer, Berlin etc., 1977. 23. G. Gigerenzer, Z. Swijtink, Th. Porter, L. Daston, J. Beatty und L. Kr¨uger. Das Reich des Zufalls, Wissen zwischen Wahrscheinlichkeiten, H¨aufigkeiten und Unsch¨arfen. Spektrum Akad. Verlag, 1999. 24. G.R. Grimmett and D.R. Stirzaker. Probability and random processes. Oxford University Press, 3. edition, 2001. 25. O. H¨aggstr¨om. Finite Markov Chains and Algorithmic Applications. Cambridge Univeristy Press, Cambridge, 2002. 26. N. Henze. Stochastik f¨ur Einsteiger. Vieweg, Braunschweig, 4. Auflage, 2003. 27. C. Hesse. Angewandte Wahrscheinlichkeitstheorie. Vieweg, Braunschweig, 2003. 28. A. Irle. Wahrscheinlichkeitstheorie und Statistik. B.G. Teubner, Stuttgart etc., 2000. 29. R. Isaac. The pleasures of probability. Springer, Berlin etc., 1995. 30. K. Jacobs. Discrete stochastics. Birkh¨auser, Basel, 1992. 31. K. J¨anich. Lineare Algebra. Springer, Berlin etc., 10. Auflage, 2003. 32. N. Keyfitz. Introduction to the Mathematics of Population. Addison-Wesley, Reading Mass., rev. print., 1977. 33. D.E. Knuth. The art of computer programming, Vol. 2 / Seminumerical algorithms. Addison Wesley, Reading, Mass., 3. Auflage, 1997. 34. K. K¨onigsberger. Analysis 1. Springer, Berlin etc., 6. Auflage, 2004. 35. K. K¨onigsberger. Analysis 2. Springer, Berlin etc., 5. Auflage, 2004. 36. W. Kr¨amer. So l¨ugt man mit Statistik. Campus Verlag, Frankfurt, 7. Auflage, 1997. Taschenbuchausgabe: Piper Verlag, M¨unchen, 3. Auflage, 2002. 37. U. Krengel. Einf¨uhrung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, Braunschweig, 7. Auflage, 2003. 38. K. Krickeberg und H. Ziezold. Stochastische Methoden. Springer, Berlin etc., 4. Auflage, 1995. 39. J. Lehn und H. Wegmann. Einf¨uhrung in die Statistik. B.G. Teubner, Stuttgart etc., 3. Auflage, 2000. 40. J. Lehn, H. Wegmann und S. Rettig. Aufgabensammlung zur Einf¨uhrung in die Statistik. B.G. Teubner, Stuttgart etc., 3. Auflage, 2001. 41. R. Meester and R. Roy. Continuum Percolation. Cambridge University Press, 1996. 42. H. Michel. Maß- und Integrationstheorie I. VEB Deutscher Verlag der Wissenschaften, Berlin, 1978. 43. J.P. Morgan, N.R. Chaganty, R.C. Dahiya, and M.J. Doviak. Let’s Make a Deal: The Player’s Dilemma. Amer. Statist. 45 (1991), 284–287. 44. M. Overbeck-Larisch und W. Dolejsky. Stochastik mit Mathematica. Vieweg, Braunschweig, 1998. 45. W.R. Pestman. Mathematical Statistics. Walter de Gruyter, Berlin – New York, 1998. 46. J. Pfanzagl. Elementare Wahrscheinlichkeitsrechnung. Walter de Gruyter, 2. Auflage, 1991. 47. J. Pitman. Probability. Springer, Berlin etc., 7. printing, 1999.
Literatur
355
48. H. Pruscha. Vorlesungen u¨ ber Mathematische Statistik. B.G. Teubner, Stuttgart etc., 2000. 49. L. Rade und B. Westergren. Springers Mathematische Formeln. Springer, Berlin etc., 3. Auflage, 2000. 50. G. von Randow. Das Ziegenproblem. Denken in Wahrscheinlichkeiten. Rowohlt, 1992. 51. I. Schneider (Hrsg.). Die Entwicklung der Wahrscheinlichkeitstheorie von den Anf¨angen bis 1933. Wiss. Buchgesellschaft, Darmstadt, 1988. 52. K. Sch¨urger. Wahrscheinlichkeitstheorie. Oldenbourg, M¨unchen, 1998. 53. A.N. Shiryayev. Probability. Springer, New York etc., 1984. 54. Y.G. Sinai. Probability theory, an introductory course. Springer, Berlin etc., 1992. 55. J.L. Snell. Introduction to probability. Random House, 1988. 56. W.A. Stahel. Statistische Datenanalyse. Eine Einf¨uhrung f¨ur Naturwissenschaftler. Vieweg, Braunschweig, 4. Auflage, 2002. 57. M.C. Steinbach. Autos, Ziegen und Streith¨ahne. Math. Semesterber. 47 (2000), 107–117. 58. D. Stoyan, W.S. Kendall, J. Mecke. Stochastic geometry and its applications. J.Wiley & Sons, Chichester, 1995. 59. J.M. Stoyanov. Counterexamples in probability. J.Wiley & Sons, Chichester, 1987. 60. F. Topsoe. Spontane Ph¨anomene. Vieweg, Braunschweig, 1990. 61. R. Viertl. Einf¨uhrung in die Stochastik. Mit Elementen der Bayes-Statistik und der Analyse unscharfer Information. Springer, Wien, 3. Auflage, 2003. 62. E. Warmuth und W. Warmuth. Elementare Wahrscheinlichkeitsrechnung. Vom Umgang mit dem Zufall. B.G. Teubner, Stuttgart etc., 1998. 63. H. Witting. Mathematische Statistik I. B.G. Teubner, Stuttgart etc., 1985. 64. H. Witting, U. M¨uller-Funk. Mathematische Statistik II. B.G. Teubner, Stuttgart etc., 1995.
Symbolverzeichnis
Allgemeine Bezeichnungen := N := {1, 2, . . .} Z := {. . . , −1, 0, 1, . . .} Z+ := {0, 1, 2, . . .} Q R [a, b] ]a, b[ [a, b[, ]a, b] P(-) := {A : A ⊂ -} ∅ A⊂B Ac ¯ Ao , ∂A A, |A| T A = {T (ω) : ω ∈ A} {X ∈ A} = X−1 A ( A × B, i∈I Ai An ↑ A An ↓ A &x' f¨ur x ∈ R (x) f¨ur x ∈ R |x| xi ' x · y = ni=1 xi yi x⊥y *f *
definierende Gleichung Menge der nat¨urlichen Zahlen Menge der ganzen Zahlen Menge der nichtnegativen ganzen Zahlen Menge der rationalen Zahlen Menge der reellen Zahlen abgeschlossenes Intervall offenes Intervall halboffene Intervalle Potenzmenge von leere Menge A ist (nicht notwendig echte!) Teilmenge von B Komplement einer Menge A Abschluss, Inneres, Rand einer Menge A ⊂ Rn M¨achtigkeit einer Menge A Bildmenge unter einer Punktabbildung T Urbild von A bei der Abbildung X kartesisches Produkt von Mengen * A1 ⊂ A2 ⊂ · · · und A = ∞ A +n=1 n A1 ⊃ A2 ⊃ · · · und A = ∞ n=1 An gr¨oßte ganze Zahl ≤ x kleinste ganze Zahl ≥ x Betrag von x ∈ R, euklidische Norm von x ∈ Rn i-te Koordinate eines n-Tupels x ∈ E n euklidisches Skalarprodukt von x, y ∈ Rn x · y = 0, d. h. x, y ∈ Rn sind orthogonal Supremumsnorm einer reellwertigen Funktion f
358
Symbolverzeichnis
log δij E = (δij )1≤i,j ≤n M
1 = (1, . . . , 1) a(k) ∼ b(k) O(·)
nat¨urlicher Logarithmus Kronecker-Delta, δij = 1 wenn i = j , sonst 0 Einheitsmatrix (mit der jeweils passenden Dimension n) Transponierte einer Matrix (oder eines Vektors) M Diagonalvektor in Rn ¨ asymptotische Aquivalenz: a(k)/b(k) → 1 f¨ur k → ∞ Landau-Symbol, 131
σ -Algebren, Wahrscheinlichkeitsmaße, Zufallsvariablen, Statistiken B, B n n B- , B% ⊗I i∈I Ei , E P ⊗Q ⊗n , P ⊗n P % Q, P %n P ≺Q P ◦ X −1 F X , FP E(X) E(P ) V(X), V(P ) Cov(X, Y ) L m , L m (P ) Yn ↑ Y P
Yn −→ Y L
Yn −→ Y bzw. Q 1A IdE L M V V∗ Xk:n Gϕ (ϑ) = Eϑ (ϕ)
Borel’sche σ -Algebra auf R bzw. Rn , 11 Einschr¨ankung von B bzw. B n auf -, 12 Produkt-σ -Algebra, 12 Produkt von zwei W’maßen, 71 n-faches Produkt von W’maßen, 32, 71 Faltung, n-fache Faltung von W’maßen, 73 stochastische Halbordnung, 303 Verteilung einer Zufallsvariablen X, 22 Verteilungsfunktion von X bzw. P , 22 Erwartungswert einer reellen Zufallsvariablen X, 92, 97 Erwartungswert eines Wahrscheinlichkeitsmaßes P auf R,109 Varianz, 107, 109 Kovarianz, 107 Raum der reellen Zufallsvariablen mit m-tem Moment, 107 Y1 ≤ Y2 ≤ · · · und Yn → Y stochastische Konvergenz bez¨uglich P , 119 Verteilungskonvergenz, 137, 282 Indikatorfunktion einer Menge A, 17 die Identit¨atsabbildung x → x auf E empirische Verteilung, 234 Stichprobenmittelwert, 200 Stichprobenvarianz, 200 korrigierte Stichprobenvarianz, 201, 324 k-te Ordnungsstatistik, 43, 234 G¨utefunktion eines Tests ϕ, 255
359
Symbolverzeichnis
Spezielle Verteilungen und ihre Dichten Bn,p B r,p β a,b χ 2n δξ Eα Fm,n Γα,r Gp Hn,N , Hn;N1 ,N2 Mn, Nm,v φ, # Nn (m, C) Pα tn U-
Binomialverteilung, 34 negative Binomialverteilung, 41 Beta-Verteilung mit Dichte βa,b , 44 Chiquadrat-Verteilung mit Dichte χn2 , 245 Dirac-Verteilung im Punkt ξ , 13 Exponential-Verteilung, 42 Fisher-Verteilung mit Dichte fm,n , 247 Gamma-Verteilung mit Dichte γα,r , 42 geometrische Verteilung, 41 hypergeometrische Verteilung, 36 Multinomialverteilung, 33 Normalverteilung mit Dichte φm,v , 47 Dichte und Verteilungsfunktion von N0,1 , 133 multivariate Normalverteilung mit Dichte φm,C , 242 Poisson-Verteilung, 39 Student-Verteilung mit Dichte tn , 247 (diskrete oder stetige) Gleichverteilung auf -, 27, 29
Index
Ablehnungsbereich, 255 absorbierend, 153 Alternative, 188, 254 ANOVA, 333 -Tafel, 336 aperiodisch, 179 ArcussinusGesetz, 147 Verteilung, 26, 44 asymptotische Gleichverteilung, 125 σ -Algebra, 84 Stationarit¨at, 159 Ausfallzeit, siehe Funktionsdauer Ausgleichsgerade, 319 austauschbar, 63 Autoregression, 340, 342 Banachs Streichholzproblem, 49 Baumdiagramm, 58 Bayes, 54 -Formel, 53 -Sch¨atzer, 216 -Test, 278 bedingte Wahrscheinlichkeit, 52, 57, 61, 80 Beobachtung, 191 Beobachtungswert, 192 Bernoulli, 32 -Folge, 72 -Verteilung, 32, 72 Bernstein-Polynome, 123
Bertrand, 29 BetaFunktion, 43 Verteilung, 44, 87, 109, 145, 230, 244, 247 Quantiltabelle, 349 Bias, 200 Bienaymé, 107, 120 Bildverarbeitung, 164 Binomialverteilung, 34, 110, 113, 230 Erwartungswert, 93, 96, 109, 111 negative, 41, 110, 112, 113 Black-Scholes, 102, 104, 136 Boltzmann, 34 Boole-Modell, 78 Borel, 11, 45 -Menge, 11 -σ -Algebra, 11 Borel-Cantelli, 85 Bose-Einstein, 28 Box-Muller, 90 Box-Plot, 236 Brown’sche Molekularbewegung, 146 Buffon’sches Nadelproblem, 48 Cauchy-Verteilung, 48, 88, 247 ˇ Cebyšev-Ungleichung, 120 ChiquadratAnpassungstest, 288–293 Unabh¨angigkeitstest, 298 Varianztest, 266–272
362 Verteilung, 245 nichtzentrale, 251, 329 Quantiltabelle, 348 Compound-Poisson Prozess, 77 coupon collector, siehe Sammelbilder Cox-Ross-Rubinstein, 103 Cramér-Slutsky, 283 Cramér-Rao, 205, 206 Designmatrix, 321 detailed balance, 162, 165 Dichte -funktion, 19 Produkt-, 73 Verteilungs-, 24, 99 Wahrscheinlichkeits-, 19 Z¨ahl-, 18 Dirac-Verteilung, 13 Diskretheitskorrektur, 133 durchschnittsstabil, 16 Dynkin-System, 16 Ehrenfest-Modell, 122, 162 Eindeutigkeitssatz, 16 Einschluss-Ausschluss-Formel, 24, 114 Eintrittswahrscheinlichkeit, 157 Eintrittszeit, 153 Entropie, 125 differentielle, 250 relative, 130, 211, 220, 261, 262, 290, 294 Entscheidungsverfahren, 253 Ereignis, 8, 13 asymptotisches, 11, 84 Ereignisraum, 10 Ergebnisraum, 8 Ergodensatz, 158, 179, 183 Erneuerungssatz, 168 erwartungstreu, 193, 200 asymptotisch, 194
Index Erwartungswert, 92, 97 bei existierender Dichte, 98 Rechenregeln, 94, 97 von Wahrscheinlichkeitsmaßen, 109 erzeugende Funktion, 110 Erzeuger einer σ -Algebra, 11 ∩-stabiler, 16 Euler, 42, 43, 87 Explosion, 182 Exponential-Verteilung, 42 Doppel-, 147 zweiseitige, 218 exponentielle Familie, 206, 265 Extremwert-Verteilung, 147, 148 F -, siehe FisherFallunterscheidungsformel, 53 Faltung, 73 Binomialverteilungen, 113 Cauchy-Verteilungen, 88 Gamma-Verteilungen, 77, 88, 245 negative Binomialverteilungen, 88, 113 Normalverteilungen, 74 Poissonverteilungen, 77, 113 fast sicher, 126 Fatou-Lemma, 114 Fehler erster Art, 254 quadratischer, 194, 201, 216, 319 zweiter Art, 255 Fehlerfortpflanzung, 146 Fermi-Dirac, 37 Fisher, 251, 314 -Information, 204, 220 -Statistik, 326 -Test, 328, 331, 336, 338, 339 -Verteilung, 247 nichtzentrale, 329 Quantiltabelle, 349–350
363
Index Fréchet, 205 Fraktil, 225 Fubini, Satz von, 114 Funktionsdauer, 90, 102, 168, 279 G¨utefunktion, 255 Galton-Watson, 155, 178 GammaFunktion, 42 Verteilung, 42, 77, 99, 244, 245 Quantiltabelle, 348 Gauß, 47, 131, 319 -Glockenkurve, 47, 131 -Integral, 46 -Markov, Satz von, 324 -Produktmodell, 199, 322, 329 -Test, 266 -Verteilung, 47, 242 -modell, lineares, 325–331 Geburts- und Todesprozess, 180 geometrische Verteilung, 41, 94 Gesetz der großen Zahl schwaches, 120, 121 starkes, 127 Gleichverteilung asymptotische, 125 diskrete, 19, 27 stetige, 19, 29 Gosset, 248 Green-Funktion, 181 große Abweichungen, 144 Halbwertszeit, 100 Hardy-Weinberg-Gesetz, 60 harmonisch, 155 Hedge-Strategie, 104 Histogramm, 33, 198 der Binomialverteilung, 131–133 empirisches, 289 Hoeffding, 294, 308
Huygens-Prinzip, 88 hypergeometrische Verteilung, 36 Hypothese, 188, 254 identisch verteilt, 22 Indikatorfunktion, 17 Information einer Nachrichtenquelle, 124 Fisher-, 204 wechselseitige, 297 Informationsungleichung, 205 Integral allgemeines, 97 Lebesgue-, 17, 98 Interpretation von bedingten Wahrscheinlichkeiten, 53 Wahrscheinlichkeiten, 14 irreduzibel, 166, 179, 180 Irrfahrt, 151, 163 auf einem Graphen, 180 einfache symmetrische, 48, 90, 117, 147, 169, 175 geometrische, 103 mit Absorption, 151, 155 Irrtumsniveau, 188, 222, 254, 255 Ising-Modell, 165 Jensen’sche Ungleichung, 114 Kac, 166 Kartenhaus-Prozess, 168 Kisten-Diagramm, 236 Kolmogorov, 13, 85 Kolmogorov-Smirnov, 315 Konfidenzbereich, 222–224, 277 im Gaußmodell, 252 ellipsoid, 327, 336 intervall, 188, 223 im Binomialmodell, 228–233
364 im Gaußmodell, 226, 327 konsistente Sch¨atzfolge, 193, 210 Konstruktion mehrstufiger Modelle, 57, 61 unabh¨angiger Zufallsvariablen, 70 von Wahrscheinlichkeitsmaßen, 18 Kontingenztafel, 295, 296 Konvergenz dominierte, 114 fast sichere, 126 in Verteilung, 137, 147, 282, 283, 311 stochastische, 119, 126, 143, 147 Kovarianz, 107 -analyse, 344 Rechenregeln, 107 Kruskal-Wallis, 345 Kullback-Leibler, siehe Entropie, relative Ky Fan, 143 Laplace, 27, 131, 133, 218 Lebesgue-Maß, 18 Lehmann-Scheffé, 220 LikelihoodFunktion, 196 Quotient, 258, 268 Quotienten, wachsende, 265 Quotienten-Test, 268 limsup von Ereignissen, 84 lineare Kongruenzmethode, 83 Log-Likelihood-Funktion, 197 logarithmische Verteilung, 117 Lognormal-Verteilung, 250 Lokationsproblem, 311 Macht, 255 Mann-Whitney, 306, 345 Markov, 149 -Eigenschaft, 149, 152 -Kette, 149
Index kanonische, 150 mit stetiger Zeit, 182 -Sprungkette, 177, 182 -Ungleichung, 119 Mathematica, 103, 134, 226 Matrix doppeltstochastische, 163 stochastische, 149 Maximum-Likelihood, 196 Maxwell, 34, 45 MCMC, 164 Median, 99, 116, 225 -Test, 302, 314 Stichproben-, 115 Mehrstichprobenproblem, 331 Mendel, 292 messbare Funktion, 17, 20 Menge, 13 messbarer Raum, 10 Messung, 192 Messwert, 192 Metropolis-Algorithmus, 165 Minimax-Test, 278 Mischen von Karten, 163 Modell -bildung, 2, 7–14 exponentielles, 206 kanonisches, 72 lineares, 321–331 lineares Gauß-, 325–331 statistisches, 190 Binomial-, 197 diskretes, 191 einparametriges, 190 Gauß’sches Produkt-, 199, 322, 329 parametrisches, 190 Produkt-, 191, 210
365
Index regul¨ares, 203 Standard-, 191 stetiges, 191 de Moivre-Laplace, 131, 133 Moment, 107 Monte-Carlo Simulation, siehe Simulation M¨unzwurfspiel, 151, 155 Multinomialapproximation, 37 verteilung, 33, 286 Multiplikationsformel, 57 Neumann, von, 80 Neyman-Pearson, 259 Niveau, 255 effektives, 255 Irrtums-, 188, 222, 254, 255 Sicherheits-, 222 No Shows, 145 Normalapproximation, 135, 143, 229, 232, 280 integrale, 133 lokale, 131, 145 von Multinomialverteilungen, 285 von Ordnungsstatistiken, 239 von U-Statistiken, 308 normale Zahlen, 128 Normalgleichungen, 319, 323 Normalverteilung, 47, 109 mehrdimensionale, 242, 243 Standard-, 47, 242 Quantiltabelle, 351 Tabelle, 347 Verteilungsfunktion, 133 Null-Eins Gesetz von Kolmogorov, 85 von Orey, 159 Nullhypothese, 254 Optionspreise, 102–106, 135–137
Ordnungsstatistik, 43, 234, 239 Paradox Bertrand’sches, 29 Geburtstags-, 25 Gefangenen-, 86 Inspektions-, 102 M¨unzwurf-, 87 Simpson-, 321, 341 T¨uren-, 54 W¨urfel-, 88 Wartezeit-, 100 Partitionszahlen, 307 Pascal, 24, 41 Pearson, 291, 297 Permutation, zuf¨allige, 25, 49, 116, 163, 304, 306, 315 Phylogenie, 218 Pivot, 227 Poincaré, 45 Poisson, 39 -Approximation, 39, 141 -Prozess, 75, 101 Compound-, 77 -Punktprozess, 89 -Verteilung, 39, 77, 110, 112, 113 Polarmethode, 82 Pólya, 62, 170 -Urnenmodell, 62, 87, 145, 179 Populationsbiologie, 59, 155, 177 Potenzmenge, 9 als σ -Algebra, 11 Produktdichte, 32, 73 maß, 32, 68, 71 modell, statistisches, 191, 210 σ -Algebra, 12 Projektionsmatrix, 323 Pseudo-Zufallszahlen, 83 Punktsch¨atzer, 192
366 p-Wert, 281 Quantil, 225 -Tabellen, 348–352 -Transformation, 23, 79 Quartil, 225 Quellencodierung, 125 R¨uckkehrzeit, 166 random walk, siehe Irrfahrt randomized response, 219 Rangstatistik, 304 Rao-Blackwell, 220 Regression lineare, 317–322, 329 mehrfache lineare, 322, 330 polynomiale, 322, 330 Regressionsgerade, 319 rekurrent, 169 null-, 174 positiv, 174 Rencontre-Problem, 25, 49 R¨uckkehrzeit, 153 Ruinproblem, 152, 155, 178 σ -Additivit¨at, 9, 13 σ -Algebra, 10 Borel’sche, 11–12 erzeugte, 11 kanonische Wahl, 12 Produkt-, 12 σ -Stetigkeit, 15 Sammelbilder, 116, 117, 143 Sch¨atzer, 187, 192 Bayes-, 216 Bereich-, 223 bester, 203 linearer, 324 erwartungstreuer, 193, 200, 320, 324 konsistenter, 193, 210
Index Maximum-Likelihood-, 196, 211 mediantreuer, 238 Momenten-, 220 unverzerrter, siehe erwartungstreuer varianzminimierender, 203 Scorefunktion, 203 Sensitivit¨atsfunktion, 239 Shannon, 125 Simulation, 79–83 Inversionsmethode, 79 Markov chain Monte Carlo, 164 Verwerfungsmethode, 81 von Binomial-Verteilungen, 79 von Exponential-Verteilungen, 80 von Markov-Ketten, 151 von Normalverteilungen, 82, 90 von Poisson-Verteilungen, 80 zur Integralberechnung, 123 Standardabweichung, 107 standardisierte Zufallsvariable, 108 Startverteilung, 149 station¨ar, 158, 167 Statistik, 192 Ordnungs-, 43, 234 Rang-, 304 suffiziente, 220 U-, 305, 308 vollst¨andige, 220 statistisches Modell, siehe Modell Stein, 252, 261 Stetigkeitskorrektur, 133 Stichproben geordnete, 31–32, 35 mit Zur¨ucklegen, 31–35 ohne Zur¨ucklegen, 35–38, 51 ungeordnete, 33–37 Stichprobenmedian, 115, 236, 238, 239 mittel, 200, 210, 239
367
Index getrimmte, 239 quantil, 236 varianz, 200, 201, 210, 324, 335 Stichprobenraum, 8 Stirling-Formel, 118 stochastische Halbordnung, 303, 314 Stoppzeit, 153 Streuung, 107 Streuungszerlegung, 334, 341, 344 Student, 248, 325 -Test, 272–277, 280, 328–330, 336 -Verteilung, 247 nichtzentrale, 251, 276, 329 Quantiltabelle, 351 t-, siehe Student Telegrafenprozess, 89 Test, 188, 255, 277 auf Unabh¨angigkeit, 295–298, 314 Bayes-, 278 bester, 256 Chiquadrat-, 266–272, 298, 328 Anpassungs-, 288–293 Entropie-, 294 F - von Fisher, 328, 331, 336, 338, 339 f¨ur m im Gaußmodell, 262, 266, 272–277 f¨ur v im Gaußmodell, 266–272, 328 f¨ur den Median, 302, 314 Kolmogorov-Smirnov-, 315 Kruskal-Wallis-, 345 Likelihood-Quotienten-, 268, 340, 342 Mehrstichproben-, 336 Minimax-, 278 Neyman-Pearson, 259 nichtrandomisierter, 255 randomisierter, 255 t-, 272–277, 280, 328–330, 336
U-, 306, 345 unverf¨alschter, 258 Vorzeichen-, 302, 314 Vorzeichen-Rangsummen, 308, 315 zum Niveau α, 255 Zweistichproben-, 306, 336 transient, 169 ¨ Ubergangsgraph, 150 ¨ Ubergangsmatrix, 149 Unabh¨angigkeit Interpretation, 64 paarweise, 65 von Ereignissen, 63, 65 von Zufallsvariablen, 66 unimodal, 211, 225 unkorreliert, 107 Urnenmodell mit Zur¨ucklegen, 31–35 ohne Zur¨ucklegen, 35–38, 51 von Pólya, 62, 87, 145, 179 U-Verteilung, 306 Quantile, 352 Varianz, 107 Rechenregeln, 107 Stichproben-, 324, 335 innerhalb der Gruppen, 334 zwischen den Gruppen, 334 von Wahrscheinlichkeitsmaßen, 109 Varianzanalyse, 331–340 nichtparametrische, 344 zweifaktorielle, 336, 344 Variationsabstand, 142, 147, 160 Verschiebungsformel, 199 Verschiebungsparameter, 318 Versicherungen, 38, 77, 214 Verteilung a posteriori, 214 a priori, 214
368 ung¨unstigste, 269 einer Zufallsvariablen, 22 empirische, 198, 234, 289, 297 empirische Paar-, 219 gemeinsame, 72 reversible, 162, 179 Start-, 149 station¨are, 158 stetige, 233 Wahrscheinlichkeits-, 13 Verteilungsdichte, 24, 99 funktion, 22 konvergenz, 137, 282, 283, 311 transformation, 26 verteilungsfrei, 306 Vertrauensbereich, 222 Verwerfungsbereich, 255 methode, 80 Verzweigungsprozess, siehe Galton-Watson Vitali, 9 Vorhersage, lineare, 116, 250
Index Wahrscheinlichkeitsmaß, 13 Rechenregeln, 14 stetiges, 233 raum, 13 verteilung, 13 Wald’sche Identit¨at, 115, 117 W¨armeleitungsgleichung, 147 Warteschlangen, 171, 175, 181 Weibull-Verteilung, 26, 90, 148 Weierstraß-Approximation, 123 Wiederkehrsatz von Kac, 166 Wilcoxon, 306, 315 Wright-Fisher, 177 W¨urfel, nichttransitive, 88 Z¨ahldichte, 18 zentraler Grenzwertsatz, 135, 139 Zentralwert, siehe Median Ziegenproblem, 54 Zufallsvariable, 20 Zufallszahlen, 83 Zweistichproben-Problem, 252, 280, 303–311, 315, 336