Elementare Stochastik
Mathematik Primarstufe und Sekundarstufe I + II Herausgegeben von Prof. Dr. Friedhelm Padberg Universität Bielefeld
Bisher erschienene Bände (Auswahl):
Didaktik der Mathematik P. Bardy: Mathematisch begabte Grundschulkinder - Diagnostik und Förderung (P) M. Franke: Didaktik der Geometrie (P) M. Franke/S. Ruwisch: Didaktik des Sachrechnens in der Grundschule (P) K. Hasemann: Anfangsunterricht Mathematik (P) K. Heckmann/F. Padberg: Unterrichtsentwürfe Mathematik Primarstufe (P) G. Krauthausen/P. Scherer: Einführung in die Mathematikdidaktik (P) G. Krummheuer/M. Fetzer: Der Alltag im Mathematikunterricht (P) F. Padberg: Didaktik der Arithmetik (P) P. Scherer/E. Moser Opitz: Fördern im Mathematikunterricht der Primarstufe (P) G. Hinrichs: Modellierung im Mathematikunterricht (P/S) R. Danckwerts/D. Vogel: Analysis verständlich unterrichten (S) G. Greefrath: Didaktik des Sachrechnens in der Sekundarstufe (S) F. Padberg: Didaktik der Bruchrechnung (S) H.-J. Vollrath/H.-G. Weigand: Algebra in der Sekundarstufe (S) H.-J. Vollrath: Grundlagen des Mathematikunterrichts in der Sekundarstufe (S) H.-G. Weigand/T. Weth: Computer im Mathematikunterricht (S) H.-G. Weigand et al.: Didaktik der Geometrie für die Sekundarstufe I (S)
Mathematik F. Padberg: Einführung in die Mathematik I – Arithmetik (P) F. Padberg: Zahlentheorie und Arithmetik (P) K. Appell/J. Appell: Mengen – Zahlen – Zahlbereiche (P/S) A. Filler: Elementare Lineare Algebra (P/S) S. Krauter: Erlebnis Elementargeometrie (P/S) H. Kütting/M. Sauer: Elementare Stochastik (P/S) T. Leuders: Erlebnis Arithmetik (P/S) F. Padberg: Elementare Zahlentheorie (P/S) F. Padberg/R. Danckwerts/M. Stein: Zahlbereiche (P/S) A. Büchter/H.-W. Henn: Elementare Analysis (S) G. Wittmann: Elementare Funktionen und ihre Anwendungen (S) P: Schwerpunkt Primarstufe S: Schwerpunkt Sekundarstufe
Weitere Bände in Vorbereitung
Herbert Kütting
Martin J. Sauer
Elementare Stochastik Mathematische Grundlagen und didaktische Konzepte
3., stark erweiterte Auflage
Univ.-Prof. Herbert Kütting Dr. rer. nat. Martin J. Sauer Fachbereich Mathematik und Informatik Universität Münster
Wichtiger Hinweis für den Benutzer Der Verlag, die Autoren und der Herausgeber haben alle Sorgfalt walten lassen, um vollständige und akkurate Informationen in diesem Buch zu publizieren. Der Verlag übernimmt weder Garantie noch die juristische Verantwortung oder irgendeine Haftung für die Nutzung dieser Informationen, für deren Wirtschaftlichkeit oder fehlerfreie Funktion für einen bestimmten Zweck. Der Verlag übernimmt keine Gewähr dafür, dass die beschriebenen Verfahren, Programme usw. frei von Schutzrechten Dritter sind. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Buch berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Der Verlag hat sich bemüht, sämtliche Rechteinhaber von Abbildungen zu ermitteln. Sollte dem Verlag gegenüber dennoch der Nachweis der Rechtsinhaberschaft geführt werden, wird das branchenübliche Honorar gezahlt. %LEOLRJUD¿VFKH,QIRUPDWLRQGHU'HXWVFKHQ1DWLRQDOELEOLRWKHN 'LH'HXWVFKH1DWLRQDOELEOLRWKHNYHU]HLFKQHWGLHVH3XEOLNDWLRQLQGHU'HXWVFKHQ1DWLRQDOELEOLRJUD¿H GHWDLOOLHUWHELEOLRJUD¿VFKH'DWHQVLQGLP,QWHUQHWEHUKWWSGQEGQEGHDEUXIEDU Springer ist ein Unternehmen von Springer Science+Business Media springer.de $XÀDJH 6SHNWUXP$NDGHPLVFKHU9HUODJ+HLGHOEHUJ Spektrum Akademischer Verlag ist ein Imprint von Springer
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und VWUDIEDU'DVJLOWLQVEHVRQGHUHIU9HUYLHOIlOWLJXQJHQhEHUVHW]XQJHQ0LNURYHU¿OPXQJHQXQGGLH Einspeicherung und Verarbeitung in elektronischen Systemen.
Planung und Lektorat: Dr. Andreas Rüdinger, Dr. Meike Barth Herstellung: ZRUNIRUPHGLD_))0 Umschlaggestaltung: SpieszDesign, Neu-Ulm Satz: Autorensatz ,6%1
Vorwort Aus dem Vorwort zur 1. Auflage Bei der Abfassung des Buches konnte der Autor auf langj¨ ahrige Erfahrungen ¨ aus Vorlesungen, Ubungen und Seminaren zur Stochastik zur¨ uckgreifen, die ihn nachhaltig darin best¨ arkten, dass noch so ausf¨ uhrliche Erl¨ auterungen nie die ¨ Wirksamkeit von Beispielen erreichen. Und so nehmen Beispiele und Ubungsaufgaben – beide f¨ ur das Verstehen von Mathematik von eminenter Bedeutung – in unserer Darstellung der Theorie einen breiten Raum ein. Beispiele erleichtern die Erarbeitung und die Anwendung der Begriffe und Regeln und erzeugen ¨ Motivation, Aufgaben dienen daneben der Uberpr¨ ufung des erreichten Kenntnisstandes und der Vertiefung des Stoffes. Sie f¨ ordern selbst¨ andiges Tun. Da der Autor davon u ¨ berzeugt ist, dass ein Blick in die Entstehungsgeschichte einer mathematischen Disziplin den Zugang zu dieser Disziplin sehr erleichtern kann, werden im vorliegenden Buch auch Aspekte der Entwicklungsgeschichte der Stochastik mit ihren faszinierenden Problemen und Paradoxien ber¨ ucksichtigt. Das Werden von Wissenschaft wird gleichsam miterlebt. Das gibt auch wiederum Gelegenheit zur didaktischen Reflexion. Auswahl und Umfang der Themenkreise waren unter Ber¨ ucksichtigung unterschiedlicher Vorgaben zu treffen, die sich aus der Sache und dem Adressatenkreis ergeben. Die Sache selbst, also das Stoffgebiet Stochastik, verlangt auch bei einer elementaren Einf¨ uhrung eine Darstellung in einem Umfang, der sichtbar machen kann, was Stochastik meint. Andererseits d¨ urfen die durch die Zielgruppe festgelegten Vorgaben, die wesentlich durch zeitliche Beschr¨ ankungen gekennzeichnet sind, nicht u ¨bersehen werden. Es muß also davon ausgegangen werden, dass nicht in jedem Kurs alle hier angesprochenen Themenkreise behandelt werden k¨ onnen. Der Aufbau des Buches l¨ asst dem Dozenten die Freiheit, durch eine Auswahl Schwerpunkte zu setzen. In Kapitel I geht es um eine kurze Betrachtung u altnis zwischen ¨ ber das Verh¨ Zufall und Wahrscheinlichkeit und um eine Beschreibung der Zielvorstellung. Der Zufall soll dem mathematischen Denken unterworfen und soweit wie m¨ oglich entschl¨ usselt werden. Das sehr umfangreiche Kapitel II beleuchtet die Urspr¨ unge der Wahrscheinlichkeitsrechnung und l¨ asst die spannende Diskussion, die die ber¨ uhmten Beispiele ausl¨ osten, aufleben. Bevor dann die Stochastik axiomatisch aufgebaut wird, werden zun¨ achst erste Schritte des Modellbildungsprozesses behandelt. Da die Laplace-Wahrscheinlichkeit, die in den axiomatischen Aufbau eingebetussen Strategien tet ist, zu ihrer Berechnung Anzahlbestimmungen verlangt, m¨ f¨ ur geschicktes Z¨ ahlen entwickelt werden. Hier nimmt das Fundamentalprinzip des Z¨ ahlens eine beherrschende Rolle ein. Besondere Auswahlsituationen f¨ uhren
vi
Vorwort
dann auf spezifische kombinatorische Figuren wie geordnete bzw. ungeordnete Proben. Nach diesem Exkurs in die Kombinatorik wird das Geb¨ aude der Stochastik durch die Einf¨ uhrung der bedingten Wahrscheinlichkeit, der totalen Wahrscheinlichkeit und des Begriffs der stochastischen Unabh¨ angigkeit von Ereignissen erweitert. Kapitel III unterbricht den Theorieausbau der Stochastik und widmet sich dem reizvollen Thema der Simulation, einem Thema, das heute weite Bereiche in den Wissenschaften und in der Praxis beherrscht. Die dargelegten grunds¨ atz¨ lichen Uberlegungen und die L¨ osung von Problemen mit Hilfe von Zufallszahlen (Monte-Carlo-Methode) k¨ onnen einen Eindruck von der Kraft der Methode vermitteln, insbesondere dann, wenn rechenstarke Computer eingesetzt werden. In Kapitel IV werden mit den Begriffen Zufallsvariable und Wahrscheinlichkeitsverteilung einer Zufallsvariablen zentrale Begriffe f¨ ur die Stochastik eingef¨ uhrt. Es erfolgt eine Abstraktion vom Besonderen einer Ergebnismenge und damit eine wichtige Erweiterung der Theorie. Kapitel V greift spezielle diskrete Wahrscheinlichkeitsverteilungen heraus, die wir als geeignete Modelle zur L¨ osung von realen Problemen h¨ aufig verwenden. In Kapitel VI wird mit Hilfe der Tschbyscheffschen Ungleichung das Schwache Gesetz der großen Zahlen bewiesen, das eine Beziehung zwischen der Wahrscheinlichkeit und der relativen H¨ aufigkeit aufzeigt.
M¨ unster, im Januar 1999
Herbert K¨ utting
Vorwort
vii
Vorwort zur 3. Auflage Die ¨ außerst freundliche Aufnahme der 2. Auflage macht schon eine weitere Auflage erforderlich. Wir danken dem Verlag, dass er unseren Wunsch unterst¨ utzte und der Aufnahme von weiteren Themenkreisen, die uns aus dem Leserkreis angetragen worden waren und ver¨ anderten Studieng¨ angen Rechnung tragen, zustimmte. Die u ¨ berarbeitete und wiederum stark erweiterte 3. Auflage richtet sich vornehmlich an Lehramtsstudierende, die Mathematik als eines ihrer F¨ acher haben, an Studierende in den Bachelor- und Masterstudieng¨ angen und an Lehrer mit dem Fach Mathematik. ¨ Die Uberarbeitung verbessert zur Verst¨ andniserleichterung einige Formulierungen und legt insbesondere im Kapitel 4 Zufallsvariable, Erwartungswert ” und Varianz“ eine noch breitere sorgf¨ altige mathematische Fundierung dieser Begriffe. Hatten wir schon in der zweiten Auflage einen neuen Abschnitt Geome” trische Wahrscheinlichkeiten“ und im Abschnitt Kombinatorisches Z¨ ahlen“ ” drei neue Themenbereiche (k-stellige Sequenzen; Rencontre-Probleme; VierSchritte-Modell) aufgenommen und in zwei weiteren Kapiteln (Allgemeine Wahrscheinlichkeitsr¨ aume; Wahrscheinlichkeitsmaße auf (IR, B(I)) die Thematik auf abz¨ ahlbar-unendliche und u ahlber-unendliche Wahrscheinlich¨ berabz¨ keitsr¨ aume ausgeweitet, so haben wir jetzt in der 3. Auflage drei weitere Kapitel hinzugef¨ ugt. In Kapitel 1 wird die Beschreibende Statistik“ (einschließlich der ” historischen Entwicklung), im Kapitel 9 Sch¨ atzen“ und im Kapitel 10 Testen“ ” ” werden Themen der induktiven Statistik ausf¨ uhrlich behandelt. Bei der Neugestaltung leitete uns wie bisher der didaktische Grundsatz, dass Beispiele und Aufgaben das Verstehen von Mathematik erleichtern, und so bilden sie auch in der erweiterten dritten Auflage das R¨ uckgrat der Darstellung. Die ann¨ ahernd 100 nummerierten, ausf¨ uhrlich dargestellten Beispiele und eine große Anzahl weiterer Beispiele aus Theorie und Praxis erf¨ ullen zwei Funkuhren behutsam in die neutionen. Sie dienen einerseits der Motivation und f¨ en Begriffe und S¨ atze ein, und sie zeigen andererseits nach der Erarbeitung der Theorie erste Anwendungsbereiche auf. Die dadurch sich ergebende breitere Darstellung kommt dem in das Sachgebiet Einsteigenden entgegen und regt zum Selbststudium an. In vielen Themenbereichen heben Anmerkungen und Hinweise zur Didaktik einzelne Gesichtspunkte hervor (Modellbildungsprozese, Einsatz von Baumdiagrammen und Feldertafeln, verschiedene L¨ osungswege, Aufgabenvarianten), so dass unterschiedliche Sichtweisen deutlich werden und sich ein Beziehungsgeflecht aufbauen kann. ¨ Zur Uberpr¨ ufung der erarbeiteten Themenbereiche bieten die u ¨ ber 150 Aufgaben mit zahlreichen Unterpunkten ein reiches Bet¨ atigungsfeld. Die Angabe
viii
Vorwort
von Ergebnissen und L¨ osungshinweisen im Kapitel 11 gibt die M¨ oglichkeit der raschen Kontrolle und Best¨ atigung. Frau Anita Kollwitz (M¨ unster) danken wir an dieser Stelle sehr herzlich f¨ ur die nicht immer leichte Arbeit, ein druckfertiges Manuskript sorgf¨ altig mit den ¨ vielen Anderungen und Erg¨ anzungen zu erstellen. Ferner danken wir dem Herausgeber dieser Reihe, Herrn Prof. Dr. F. Padberg (Bielefeld) und dem Verlag f¨ ur die freundliche Unterst¨ utzung bei der Verwirklichung dieser dritten, stark erweiterten Auflage.
M¨ unster, im Februar 2011
Herbert K¨ utting und Martin J. Sauer
Inhaltsverzeichnis 1 1.1
1.2
2 2.1 2.2 2.3
2.4 2.5
2.6
2.7
2.8
Beschreibende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die historische Entwicklung der Statistik – ein kurzer Abriss . . . . . . 1.1.1 Die Amtliche Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Die Politische Arithmetik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Die Universit¨ atsstatistik und ihre Weiterentwicklung . . . . . . . Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Statistische Erhebung, Daten, Merkmale, Merkmalsauspr¨ agungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Graphische Darstellungen der Daten . . . . . . . . . . . . . . . . . . . . . 1.2.3 Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4 Streuungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.6 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.7 Fehler und Manipulationsm¨ oglichkeiten . . . . . . . . . . . . . . . . . . . 1.2.8 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zufall und Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mathematik des Zufalls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Entwicklung der klassischen Wahrscheinlichkeit . . . . . . . . . . . . . . . . . 2.3.1 Ber¨ uhmte historische Beispiele und einige interessante Briefwechsel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zur geschichtlichen Entwicklung der Stochastik . . . . . . . . . . . . . . . . . Schritte zur Mathematisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Zum Modellbildungsprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Endliche Wahrscheinlichkeitsr¨ aume (Teil 1) . . . . . . . . . . . . . . . . . . . . . 2.6.1 Das Axiomensystem von Kolmogoroff . . . . . . . . . . . . . . . . . . . . 2.6.2 Folgerungen aus dem Axiomensystem – Rechnen mit Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.3 Ein zum Axiomensystem von Kolmogoroff ¨ aquivalentes Axiomensystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4 Die Laplace-Verteilung (Gleichverteilung) . . . . . . . . . . . . . . . . . 2.6.5 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Geometrische Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7.1 Vier Beispiele: Gl¨ ucksrad, Zielscheibe, Paradoxon von Bertrand, Nadelproblem von Buffon . . . . . . . . 2.7.2 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kombinatorisches Z¨ ahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 2 5 5 8 8 14 29 45 53 63 67 68 71 71 72 76 76 84 85 89 89 96 97 97 103 112 115 119 121 121 128 129
x
Inhaltsverzeichnis 2.8.1 2.8.2 2.8.3 2.8.4 2.8.5
2.9
Abz¨ ahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Allgemeines Z¨ ahlprinzip der Kombinatorik . . . . . . . . . . . . . . . . Kombinatorische Figuren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anwendungen der kombinatorischen Figuren . . . . . . . . . . . . . . Vier-Schritt-Modell zur L¨ osung von Kombinatorikaufgaben – Ein didaktischer Aspekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8.6 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Endliche Wahrscheinlichkeitsr¨ aume (Teil 2) . . . . . . . . . . . . . . . . . . . . . 2.9.1 Bedingte Wahrscheinlichkeit – Stochastische Unabh¨ angigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . 2.9.2 Bernoulli-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9.3 Totale Wahrscheinlichkeit und Satz von Bayes . . . . . . . . . . . . . 2.9.4 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
129 131 137 153 162 165 168 168 187 194 207
3 3.1 3.2
Simulation und Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 Begriffserkl¨ arungen und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
4 4.1 4.2 4.3
4.5
Zufallsvariable, Erwartungswert und Varianz . . . . . . . . . . . . . . Zufallsvariable und Wahrscheinlichkeitsverteilung . . . . . . . . . . . . . . . . Kumulative Verteilungsfunktion einer Zufallsvariablen . . . . . . . . . . . Erwartungswert und Varianz diskreter Zufallsvariablen . . . . . . . . . . . 4.3.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mehrere Zufallsvariable auf einem Wahrscheinlichkeitsraum . . . . . . . 4.4.1 Unabh¨ angigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 4.4.2 Erwartungswert einer Summe diskreter Zufallsvariabler . . . . . 4.4.3 Varianz einer Summe diskreter Zufallsvariabler . . . . . . . . . . . . Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
229 229 237 239 239 245 250 250 252 253 255
5 5.1 5.2 5.3 5.4 5.5
Spezielle diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zusammenhang zwischen Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . Geometrische Verteilung (Pascal-Verteilung) . . . . . . . . . . . . . . . . . . . . Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
259 259 263 267 269 273
6 6.1 6.2 6.3
Ungleichung von Tschebyscheff, Schwaches Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ungleichung von Tschebyscheff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schwaches Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
275 275 279 282
7 7.1 7.2
Allgemeine Wahrscheinlichkeitsr¨ aume . . . . . . . . . . . . . . . . . . . . . 283 Abz¨ ahlbar-unendliche Wahrscheinlichkeitsr¨ aume . . . . . . . . . . . . . . . . 284 ¨ Uberabz¨ ahlbar-unendliche Wahrscheinlichkeitsr¨ aume . . . . . . . . . . . . . 286
4.4
Inhaltsverzeichnis
7.3 8 8.1 8.2
8.3 8.4 8.5
8.6 8.7
8.8
xi
7.2.1 Die Menge IR und das System der Borelmengen auf IR . . . . . 286 7.2.2 Abstrakte Wahrscheinlichkeitsr¨ aume . . . . . . . . . . . . . . . . . . . . . 290 Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 Wahrscheinlichkeitsmaße auf (IR, B(I)) . . . . . . . . . . . . . . . . . . . . Verteilungsfunktionen und Dichtefunktionen . . . . . . . . . . . . . . . . . . . . Verteilungsfunktionen zu vorgegebenen Dichtefunktionen . . . . . . . . . 8.2.1 Konstruktion einer stetigen Verteilungsfunktion zu einer Dichtefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.2 Die Berechnung von Wahrscheinlichkeiten durch Integrale u ¨ ber eine Dichtefunktion . . . . . . . . . . . . . . . . . . . . . . . Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Normalverteilung (Gauß-Verteilung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.1 Eigenschaften der Dichtefunktion . . . . . . . . . . . . . . . . . . . . . . . . 8.5.2 Die Standard-Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.3 Approximation der Binomialverteilung mittels der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.4 Die Sigma-Regeln f¨ ur die Normalverteilung . . . . . . . . . . . . . . . Erwartungswert und Varianz f¨ ur Verteilungsfunktionen . . . . . . . . . . . Ausblick: Abstrakte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.1 Messbare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.2 Zufallsvariable mit Werten in IR . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
293 295 300 300 301 303 304 308 309 311 316 318 319 325 325 326 327 331 331 337 342
9.4
Sch¨ atzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sch¨ atzen von Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Konfidenzintervall f¨ ur die Wahrscheinlichkeit bei einer binomialverteilten Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 9.3.2 Konfidenzintervalle bei N (μ, σ 2 )-verteilten Funktionen . . . . . Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10 10.1 10.2 10.3 10.4 10.5 10.6
Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einseitige Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zweiseitige Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testen unter Verwendung der Normalverteilung . . . . . . . . . . . . . . . . . Zusammenfassung zum Thema Hypothesentest“ . . . . . . . . . . . . . . . . ” Qualit¨ atskontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben und Erg¨ anzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
349 349 353 356 360 361 372
11 11.1 11.2
L¨ osungshinweise zu den Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . 375 Aufgaben aus Kapitel 1, Abschnitt 1.2.8 . . . . . . . . . . . . . . . . . . . . . . . 375 Aufgaben aus Kapitel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
9 9.1 9.2 9.3
342 345 347
xii
Inhaltsverzeichnis
11.2.1 Abschnitt 2.3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.2 Abschnitt 2.5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.3 Abschnitt 2.6.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.4 Abschnitt 2.7.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.5 Abschnitt 2.8.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.6 Abschnitt 2.9.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Aufgaben aus Kapitel 3, Abschnitt 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Aufgaben aus Kapitel 4, Abschnitt 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Aufgaben aus Kapitel 5, Abschnitt 5.5 . . . . . . . . . . . . . . . . . . . . . . . . . 11.6 Aufgaben aus Kapitel 6, Abschnitt 6.3 . . . . . . . . . . . . . . . . . . . . . . . . . 11.7 Aufgaben aus Kapitel 7, Abschnitt 7.3 . . . . . . . . . . . . . . . . . . . . . . . . . 11.8 Aufgaben aus Kapitel 8, Abschnitt 8.8 . . . . . . . . . . . . . . . . . . . . . . . . . 11.9 Aufgaben aus Kapitel 9, Abschnitt 9.4 . . . . . . . . . . . . . . . . . . . . . . . . . 11.10 Aufgaben aus Kapitel 10, Abschnitt 10.6 . . . . . . . . . . . . . . . . . . . . . . . Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
379 379 380 380 381 382 385 387 390 391 392 393 395 398 403
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
1 Beschreibende Statistik
Umgangssprachlich und auch inhaltlich sind mit dem Wort Statistik zwei Bedeutungen verbunden. Es geht einmal um die (mathematische) Disziplin Statistik, also um die Wissenschaft Statistik. Dann geht es auch um Statistiken, z. B. um Statistiken von Kosten, um Statistiken in der Bev¨ olkerungspolitik, also um Zahlenmaterial aus Erhebungen. Hier stellt sich die Statistik als Ergebnis einer T¨ atigkeit dar. In der beschreibenden Statistik geht es um eine Beschreibung des Ist-Zustandes. Nach Ferschel ist Statistik das Bestreben, die Dinge so zu sehen, wie sie wirklich sind ([53]). Doch das ist offenbar recht schwer, wie Fehldeutungen und Manipulationen in Wirtschaft, Wissenschaft und Politik belegen (K¨ utting [102], [104], Kr¨ amer [85]). Es verwundert nicht, dass das Ansehen der ¨ Statistik in der Offentlichkeit gering ist: Es gibt die gew¨ ohnliche L¨ uge, die Notl¨ uge und die Statistik. Trauen Sie keiner Statistik, die Sie nicht selbst gef¨ alscht haben. Zahlen k¨ onnen l¨ ugen, L¨ ugner k¨ onnen z¨ ahlen. Mit Zahlen kann man alles, und daher nichts beweisen. Statistik ist die Kunst, mit richtigen Zahlen etwas Falsches zu beweisen. Statistik ist das Umgraben von Datenfriedh¨ ofen. Diese unr¨ uhmlichen Einsch¨ atzungen sollten positive Impulse f¨ ur eine sachgerechte Information freisetzen. Denn nicht die Sprache der Statistik – das sind die Zahlen und Graphiken – l¨ ugt, sondern es l¨ ugen“ allenfalls die Menschen, ” die mit den Zahlen und Graphiken umgehen.
1.1
Die historische Entwicklung der Statistik – ein kurzer Abriss
Die Urspr¨ unge der Statistik liegen weit zur¨ uck. F¨ ur die beschreibende (deskriptive) Statistik gibt man im Allgemeinen drei Quellen an: die Amtliche Statistik, die Politische Arithmetik und die Universit¨ atsstatistik.
H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
2
1 Beschreibende Statistik
1.1.1
Die Amtliche Statistik
Der Sinn einer Amtlichen Statistik liegt darin, Informationen dar¨ uber zu gewinnen, wie die organisierte Gesellschaft am besten verwaltet“ wer” den kann. Man m¨ ochte Kenntnisse haben z. B. u ¨ ber die Anzahl der Bewohner, u atze, u ¨ ber den Landbesitz, u ¨ ber die Bodensch¨ ¨ ber den Viehbestand usw. Einfache statistische Erhebungen wurden bereits vor Jahrtausen¨ den durchgef¨ uhrt, z. B. in Agypten, China, Indien, Griechenland, Rom. Schon ¨ 3000 v. Chr. nahmen die Pharaonen in Agypten Volksz¨ ahlungen, Landvermessungen und Viehbestandsz¨ ahlungen vor. Neben steuerlichen Zwecken dienten solche Volksz¨ ahlungen auch zur Erstellung von Verzeichnissen f¨ ur den Frondienst und Milit¨ ardienst“. ” Auch in der Bibel werden Volksz¨ ahlungen erw¨ ahnt. Vgl. f¨ ur die folgenden Ausf¨ uhrungen: ¨ a) Die Heilige Schrift des Alten und Neuen Testaments (Ubersetzung von Hamp, V./Stengel, M./K¨ urzinger, J.). Aschaffenburg 197525 . b) Sch¨ urer, E.: Geschichte des j¨ udischen Volkes im Zeitalter Jesu Christi. Band 1. Hildesheim - New York 1970. c) Schneider, G.: Das Evangelium nach Lukas, Kapitel 1 – 10. W¨ urzburg 1977. d) Scharbert, J.: Numeri. W¨ urzburg 1992. e) Cornfeld, G./Botterweck, G. J. (Hrsg.): Die Bibel und ihre Welt (2 B¨ ande). Herrsching 1991. Im Alten Testament verweisen wir auf die Stellen Exodus (2. Buch Moses) Kap. 30, Verse 11–16; Kap. 38, Vers 25f.; Numeri (4. Buch Moses) Kap. 1, Verse 1–54; Kap. 26, Verse 1–51 und Verse 57–65; 2. Buch Samuel Kap. 24, Vers 1f. (Parallelbericht im 1. Buch der Chronik, Kap. 21, Verse 1–5). Im Neuen Testament nennen wir die Stellen Apostelgeschichte Kap. 5, Vers 37 und Lukas Kap. 2, Verse 1ff. Im Folgenden gehen wir auf einige Stellen ein. In Exodus, 30. Kap., 11. Vers und folgende heißt es: 11 Der Herr sprach zu ” Moses: 12 Wenn du die Kopfzahl der Israeliten bei ihrer Musterung feststellst, dann soll jeder ein L¨ osegeld f¨ ur sein Leben anl¨ aßlich der Musterung an den Herrn entrichten, damit nicht eine Plage sie bei ihrer Musterung treffe. 13 Dieses soll ein jeder, der zur Musterung kommt, entrichten: Ein halbes Silberst¨ uck nach heiligem Gewicht, 20 Gera das Silberst¨ uck, ein halbes Silberst¨ uck also als Weihegabe an den Herrn. 14 Jeder, der zur Musterung kommt, von 20 Jahren an und dar¨ uber, soll die Weihegabe an den Herrn entrichten.“ Anmerkungen: ¨ Nach Uberlieferung musste jeder Israelit jedes Jahr zum Unterhalt des Heiligtums ein als S¨ uhnegeld bezeichnetes halbes Silberst¨ uck (einen halben Schekel) zahlen. Die Anzahl der halben Schekel ergab auch die Anzahl der M¨ anner
1.1 Die historische Entwicklung der Statistik – ein kurzer Abriss
3
u ¨ ber 20 Jahre, d. h. der Wehrdienstpflichtigen (vgl. Exodus, Kap. 38, Vers 25f.). Der Gedanke der Ents¨ uhnungen aus Anlass einer Volksz¨ ahlung wird in Beziehung gebracht mit der ersten k¨ oniglichen Volksz¨ ahlung durch David (2. Buch Samuel, 24. Kap., Vers 1f.). Denn die nach Durchf¨ uhrung der Volksz¨ ahlung u ur Davids ¨ ber das Volk Israel hereinbrechende Pest wurde als Strafe f¨ Volksz¨ ahlung angesehen (2. Buch Samuel, 24. Kap., Verse 10–15). Das Buch Numeri (Zahlen) verdankt sogar seinen Namen einer Volksz¨ ahlung. Es beginnt mit Z¨ ahlungen und Musterungen der wehrf¨ ahigen M¨ anner Israels. 1 Der Herr redete zu Moses in der W¨ uste am Sinai im Offenbarungszelt am ” ersten Tage des zweiten Monats im zweiten Jahr nach dem Auszug aus dem ¨ Lande Agyptens folgendes: 2 Nehmt die Gesamtzahl der ganzen Gemeinde der Israeliten auf, und zwar nach ihren Sippen und Familien mit Z¨ ahlung der ein3 zelnen Namen; alles, das m¨ annlich ist, nach seiner Kopfzahl! Von 20 Jahren und dar¨ uber sollt ihr alle Kriegst¨ uchtigen in Israel scharenweise mustern, du und Aaron!“ (Numeri, 1. Kap., Verse 1–3). Diese erste Z¨ ahlung durch Moses fand nach dieser Tradition w¨ ahrend des Exodus am Sinai statt. Gez¨ ahlt wurden 603 550 (Numeri, 2. Kap., Vers 32). Eine zweite Volksz¨ ahlung fand nach dieser Tradition durch Moses vor dem Einzug in das Gelobte Land statt: 1 Nach dieser ” Heimsuchung sprach der Herr zu Moses und Eleasar, dem Sohn des Priesters Aaron: 2 Nehmt die Gesamtzahl der Israelitengemeinde auf, von 20 Jahren an nach ihren Familien geordnet, alle die heerespflichtig sind in Israel!“ (Numeri, 26. Kap., Vers 1f.). Gez¨ ahlt wurden 601 730 Gemusterte. 53 An diese werde das ” Land als Erbbesitz nach dem Verh¨ altnis der Namenszahl verteilt.“ (Numeri, 26. Kap., Vers 53). 55 Doch soll man das Land durch das Los verteilen; . . .“ ” (Numeri, 26. Kap., Vers 55). Anmerkungen: (vgl. auch Scharbert, a.a.O., S. 18f, S. 109) Die Zahlen selbst sind mit Sicherheit unhistorisch. Denn wenn man Frauen, Kinder und Greise einbezieht, m¨ ussten ungef¨ ahr 2 Millionen Menschen auf der Wanderung gewesen sein. Die Probleme einer solchen V¨ olkerwanderung (Verpflegung etc.) d¨ urften kaum zu l¨ osen gewesen sein. Denkbar ist, dass man bei den Zahlen an eine endzeitliche F¨ ulle dachte. Bemerkenswert ist, dass schon nach Kategorien (Sippen, Familien) getrennt gez¨ ahlt wurde. Auch das Verfahren der Landverteilung ist interessant. Es werden zwei sich gegenseitig behindernde Verfahren genannt. Der Widerspruch kann aufgel¨ ost werden, wenn man annimmt, dass Gott (Jahwe) die Verteilung durch Los (also durch Zufall) so lenken wird, dass eine gerechte Verteilung nach der Gr¨ oße der St¨ amme erfolgt. ¨ Uberblickt man diese Volksz¨ ahlungen und Prozeduren, so wird verst¨ andlich, dass Volksz¨ ahlungen nicht beliebt waren: Furcht vor Heeresdienst, Angst vor
4
1 Beschreibende Statistik
Besteuerung, Einschr¨ ankung der Pers¨ onlichkeit, Offenlegung der Privatsph¨ are, Angst vor Strafen. Die Unbeliebtheit von Volksz¨ ahlungen hat sich bis heute erhalten. Die wohl bekannteste Volksz¨ ahlung aus der Bibel ist die aus dem Neuen Testament bei Lukas, Kap. 2, Verse 1ff. Es handelt sich um das Weihnachtsevangelium nach Lukas. 1 In jenen Tagen geschah es, dass vom Kaiser Augustus der Befehl ” erging, das ganze Reich zu beschreiben und einzutragen. 2 Diese erste Eintragung geschah, als Quirinius Statthalter von Syrien war. 3 Alle gingen hin, sich aa, eintragen zu lassen, ein jeder in seine Stadt. 4 Auch Joseph ging von Galil¨ aus der Stadt Nazaret, hinauf nach Jud¨ aa in die Stadt Davids, die Bethlehem heißt – weil er aus dem Haus und Geschlecht Davids war – 5 um sich eintragen zu lassen zusammen mit Maria, seiner Verm¨ ahlten, die gesegneten Leibes war.“ Nach diesem Bericht des Lukas wurde Jesus dann in Bethlehem geboren. Anmerkungen: Bei der Eintragung handelte es sich um eine Volksz¨ ahlung (einen Zensus) haupts¨ achlich f¨ ur steuerliche Zwecke. Aus historischer Sicht ist aber der bei Lukas erw¨ ahnte Zensus nicht unumstritten. Mit großer Sicherheit weiß man n¨ amlich, dass Quirinius die in der Apostelgeschichte (Kap. 5, Vers 37) erw¨ ahnte Volksz¨ ahlung durchgef¨ uhrt hat. Das war aber im Jahre 6 oder 7 nach Christus. Andererseits ist nach heutigem Kenntnisstand ein Zensus im gesamten Reich (Reichszensus) unter Augustus nicht bezeugt. Wegen Einzelheiten dieser wissenschaftlichen Diskussion verweisen wir auf entsprechende Literatur (s. Sch¨ urer, a.a.O., S. 508 – 543; Schneider, a.a.O., S. 68f). Der r¨ omische Census, der auf Servius Tullius (um 550 v. Chr.) zur¨ uckgeht, war eine sich regelm¨ aßig alle 5 Jahre wiederholende Erhebung der Bev¨ olkerung. Seine Bezeichnung hat sich in einigen L¨ andern wie z. B. in den USA f¨ ur regelm¨ aßig stattfindende Bestandsaufnahmen bis heute erhalten. Auch in der Bundesrepublik Deutschland findet seit 1957 j¨ ahrlich ein Mikrozensus statt, bei dem 1 % aller Haushalte erfasst werden. Interessant ist nun, dass diese kleine Z¨ ahlung“ durch Interviewer vorgenommen wird. Dadurch ” k¨ onnen R¨ uckfragen bei komplexen Sachverhalten sofort gekl¨ art werden, so dass die Ergebnisse zuverl¨ assiger erscheinen m¨ ogen und vielleicht auch sind als bei einer reinen Z¨ ahlung. Zur Amtlichen Statistik z¨ ahlen auch die Inventarien, die Karl der Große anfertigen ließ, und das sogenannte Domesday Book um ca. 1084/85, das Wilhelm der Eroberer anlegen ließ. Letzteres enth¨ alt die Z¨ ahlungen der Einwohner, die auch nach St¨ anden statistisch aufgegliedert waren, und Z¨ ahlungen ihres Grundund Viehbesitzes. Ferner erw¨ ahnen wir die sog. Populationslisten (f¨ ur Geburten, Trauungen und Todesf¨ alle) unter dem Kurf¨ ursten Friedrich Wilhelm um 1683. Die letzten Stufen in dieser Entwicklung sind bei uns die Statistischen Jahrb¨ ucher f¨ ur die Bundesrepublik Deutschland, die vom Statistischen Bun-
1.1 Die historische Entwicklung der Statistik – ein kurzer Abriss
5
desamt herausgegeben werden, und die Publikationen der Statistischen Landes¨ amter und Kommunen. Der Hintergrund solcher Erhebungen ist in seiner praktischen Bedeutung f¨ ur Regierungen und Verwaltungen zu sehen.
1.1.2
Die Politische Arithmetik
Im 17. und 18. Jahrhundert traten international zwei neue Aspekte hinzu: die sog. Politische Arithmetik und die sog. Universit¨ atsstatistik. Als Begr¨ under der in England aufgekommenen Politischen Arithmetik gelten John Graunt (1620 – 1674) und Sir William Petty (1623 – 1687). Durch Vergleich von Geburtenh¨ aufigkeiten und Sterbezahlen versuchte man Bev¨ olkerungsentwicklungen zu beobachten. Nicht Einzelerscheinungen waren wichtig, sondern zu (homogenen) Klassen zusammengefasste Massenerscheinungen. Man fragte nach Ursachen und Regelm¨ aßigkeiten. (Vgl. hierzu auch Biehler [18].) J. Graunt war von Haus aus Tuchkleinh¨ andler, sp¨ ater war er Kommissar f¨ ur die Wasserversorgung Londons. Das Material fand Graunt in Geburts- und Todeslisten, in Tauf- und Sterberegistern. Seine grundlegende Schrift erschien 1662: Nat¨ urliche und politische Beobachtungen ¨ uber die Totenlisten der Stadt London, f¨ uhrnehmlich ihre Regierung, Religion, Gewerbe, Luft, Krankheiten und besondere Ver¨ anderungen betreffend . . .. W. Petty war nach dem Medizinstudium Professor f¨ ur Anatomie in Oxford, war aber sehr vielseitig interessiert. Sein Werk Political Arithmetic gab der Str¨ omung ihren Namen. Als weitere Vertreter der Politischen Arithmetik erw¨ ahnen wir noch E. Halley und J. P. S¨ ußmilch. Der Astronom Edmond Halley (1656 – 1742) – nach ihm ist der von ihm vorausgesagte Halley-Komet benannt – verfasste aufgrund von Kirchenb¨ uchern der Stadt Breslau die ersten Sterbetafeln mit Sterbewahrscheinlichkeiten. Vertreter der Politischen Arithmetik war in Deutschland der preußische Prediger und nachmalige Oberkonsistorialrat Johann Peter S¨ ußmilch (1707 – 1767) mit seinem Buch Die g¨ ottliche Ordnung in den Ver¨ anderungen des menschlichen Geschlechts aus der Geburt, Tod und Fortpflanzung desselben erwiesen von Johann Peter S¨ ußmilch, Prediger beim hochl¨ oblichen Kalksteinischen Regiment (1741). Wie der Titel schon andeutet, betrachtete S¨ ußmilch die Gesetzm¨ aßigkeiten als der g¨ ottlichen Ordnung zugeh¨ orig.
1.1.3
Die Universit¨ atsstatistik und ihre Weiterentwicklung
Mit dem Terminus Universit¨ atsstatistik ist die an Universit¨ aten vertretene bzw. etablierte wissenschaftliche Disziplin gemeint. Es geht also nicht um Statistiken an den Universit¨ aten. Da man f¨ ur die zentrale Verwaltung von Staaten Ausbildungsm¨ oglichkeiten brauchte, entstand an den Universit¨ aten im 17. Jahrhundert ein erweitertes Lehr- und Ausbildungsangebot. Es betraf die Lehre von den Staatsmerkw¨ urdigkeiten. Es ging um Staatsbeschreibungen. Schon
6
1 Beschreibende Statistik
1660 k¨ undigte der Rechtshistoriker Hermann Conring (1606 – 1681), Professor an der ehemaligen Universit¨ at Helmstedt, eine Vorlesung zu Notitia rerum pu” blicarum“ oder Staatenkunde“ an und behandelte Staatsbeschreibungen unter ” den Gesichtspunkten Bev¨ olkerung, Staatsform, Verwaltung, Finanzen. Gottfried Achenwall (1719 – 1772), Professor in Marburg und sp¨ ater in G¨ ottingen, f¨ uhrte den Namen Statistik f¨ ur diese neue Disziplin ein. Der Name geht zur¨ uck auf das italienische Wort statista, was Staatsmann bedeutet, oder auf das lateinische Wort status (rei publicae) was Zustand (des Staates) bedeutet. Die moderne Staatswissenschaft pr¨ agte also den wissenschaftlichen Charakter der Statistik. Wenn auch der Ursprung des Namens Statistik mit Achenwall untrennbar verbunden ist, kann man aber nicht sagen, dass er der Begr¨ under der Statistik ist. Das folgt auch schon aus unseren fr¨ uheren Darlegungen. Mittelpunkt war bei ihm noch nicht die zahlenm¨ aßige Erforschung von Massenerscheinungen. Dieser Gesichtspunkt wurde von Karl Knies (1821 – 1898) hervorgehoben. Von den deutschen Universit¨ aten breitete sich die Statistik auf andere L¨ ander ¨ aus: Osterreich, Ungarn, Italien (Venetien), Belgien, Frankreich, England, USA. Dabei ist interessant, dass die Statistik in den USA um 1845 eingef¨ uhrt wurde, und zwar an der Universit¨ at Virginia im Department of Moral Philosophy. Diese Verbindung von Philosophie mit Statistik ist bemerkenswert. Mit dem Entstehen der Wahrscheinlichkeitstheorie machte sich der Ein¨ fluss wahrscheinlichkeitstheoretischer Uberlegungen auf die Statistik bemerkbar. Schon Jakob Bernoulli (1654 – 1705) hatte den Zusammenhang der mathematischen Wahrscheinlichkeit und der statistischen Wahrscheinlichkeit (Gesetz der großen Zahlen) gesehen, wie seiner Ars conjectandi, die acht Jahre nach seinem Tode erschien, zu entnehmen ist. Auch f¨ ur den belgischen Astronomen und Statistiker Lambert Adolph Jacob Quetelet (1796 – 1874) war die Wahrscheinlichkeitsrechnung ein wichtiger Bezugspunkt f¨ ur seine Forschungen. Er war u ¨ berzeugt, dass soziale und gesellschaftliche Erscheinungen auf Gesetzm¨ aßigkeiten verweisen, die man durch stauhrte er – vielleicht tistische Erhebungen entdecken und erforschen k¨ onnte. 1846 f¨ ahlung in Belgien durch. Bekannt die erste – wissenschaftlich fundierte Volksz¨ geworden ist er auch durch seinen aus Erhebungen am Menschen errechneten mittleren Menschen“ (homme moyen) als Idealtyp des Menschen. Diese Theorie ” war und ist heftig umstritten. Quetelet kann aber als Begr¨ under der Anthropometrie angesehen werden. 1853 organisierte Quetelet den ersten Internationalen Statistikkongress in Br¨ ussel. Das bedeutete eine St¨ arkung und F¨ orderung der internationalen Zusammenarbeit, die dann 1885 zur Gr¨ undung des Internationalen Statistischen Instituts (ISI) f¨ uhrte. Zu erw¨ ahnen ist in diesem Zusammenhang auch der in der Wahrscheinlichkeitsrechung bekannte Sir Francis Galton (1822 – 1911), der u ¨brigens ein Vetter von Charles Darwin war. Er entwickelte das nach ihm benannte Galtonbrett, das der Demonstration der Binomialverteilung dient. Ferner entwickelte er die Korrelationsrechnung zur Auswertung seiner Daten (vornehmlich zur Vererbungs-
1.1 Die historische Entwicklung der Statistik – ein kurzer Abriss
7
lehre). Sein Sch¨ uler Karl Pearson (1857 – 1936) war Mitbegr¨ under der Zeitschrift Biometrika, einer statistischen Zeitschrift (1900). Im 20. Jahrhundert entwickelten sich mit den Methoden der Wahrscheinlichkeitstheorie neue Verfahren und M¨ oglichkeiten, es ist der Beginn der mathematischen Statistik. War lange Zeit die Gesamterhebung das Mittel der Statistik zur Beschreibung der Umwelt, wird jetzt eine repr¨ asentative Teilerhebung (Teiluntersuchung) durchgef¨ uhrt (Stichprobenverfahren) und aus den Ergebnissen der Teilerhebung durch mathematische Verfahren auf die Gesamtheit zur¨ uckgeschlossen. So ist neben der rein deskriptiven (beschreibenden) Statistik die induktive (schließende) Statistik getreten. Als mathematische Statistik hat sie sich zu einem selbstst¨ andigen Zweig der Mathematik entwickelt. Es ist ein Verdienst von Sir Ronald Aylmer Fisher (1890 – 1962) die Versuchsplanung eingef¨ uhrt zu haben, und damit den großen Anwendungsbereich der Statistik in Wirtschafts- und Sozialstatistik begr¨ undet zu haben. Egon Sharpe Pearson (1895 – 1980), Sohn von Karl Pearson, ist zusammen mit dem in Russland geborenen Jerzy Neymann (1894 – 1981) besonders auf dem Gebiet des Testens von Hypothesen bekannt geworden (Neymann-Pearsonsche Theorie des Pr¨ ufens von Hypothesen). Statistische Hypothesen (Annahmen) werden mit Hilfe statistischer Tests u uft, d. h. aufgrund einer Stichprobe wird eine Entscheidung ¨berpr¨ u uhrt. Unter dem Ein¨ ber Annahme oder Ablehnung der Hypothese herbeigef¨ satz mathematischer Methoden gibt es inzwischen eine F¨ ulle von Verfahren zur ¨ Uberpr¨ ufung von Hypothesen. Ganz allgemein kann man sagen, dass es heute in der Statistik nicht nur um eine Beschreibung, sondern auch um eine Auswertung und kritische Beurteilung von erhobenen Daten geht. Statistik und Wahrscheinlichkeit sind heute miteinander verkettet. Die historisch entstandene Gliederung der Statistik in Deskriptive Statistik und Induktive Statistik wird heutzutage unter dem Einfluss des Anwendungsgedankens infrage gestellt. Auch unter dem Einfluss der von Tukey 1977 eingef¨ uhrten Explorativen Datenanalyse (EDA) ist man geneigt, Ideen und Methoden der induktiven (schließenden) Statistik schon in heuristischer Form fr¨ uhzeitig einzusetzen (vgl. Tukey [172]). So unterwirft man in der EDA u. a. die Datenmenge auch systematischen und probierenden Reduktionen und Umgestaltungen – die modell¨ armer als in der induktiven Statistik sind – in der Erwartung, dass einfache Zusammenh¨ ange als Muster sichtbar werden und so evtl. zu begr¨ undeten Vermutungen f¨ uhren k¨ onnen.
8
1 Beschreibende Statistik
1.2
Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
1.2.1
Statistische Erhebung, Daten, Merkmale, Merkmalsauspr¨ agungen
In der beschreibenden Statistik geht es um eine Datenerfassung in Sachsituationen, um die Datenaufbereitung und um eine erste vorsichtige Dateninterpretation. Didaktische Vorbemerkungen Grunds¨ atzlich gibt es verschiedene Vorgehensm¨ oglichkeiten zur Einf¨ uhrung in die beschreibende Statistik: Man kann Datenlisten oder graphische Darstellungen von Daten vorgeben. Zeitungen, B¨ ucher und statistische Jahrb¨ ucher liefern f¨ ur alle Altersstufen interessantes Datenmaterial (siehe auch die Tabellen und Graphiken in den nachfolgenden Kapiteln). Die Aufgabe kann dann darin bestehen, dieses Datenmaterial richtig zu lesen und zu verstehen und evtl. weiter aufzubereiten. So k¨ onnen beispielsweise Fragen nach anderen graphischen Darstellungen oder Fragen nach Kennzahlen wie Mittelwerte und Streuungswerte gestellt werden. Man kann durch eine statistische Erhebung das Datenmaterial finden lassen, das dann aufbereitet wird. Wegen der damit verbundenen hohen Motivation heben Richtlinien und Lehrpl¨ ane f¨ ur den Mathematikunterricht diesen Weg besonders hervor. Planung, Durchf¨ uhrung und anschließende Auswertung einer selbst durchgef¨ uhrten Erhebung k¨ onnen die Sch¨ uler tats¨ achlich st¨ arker motivieren als eine von außen an sie herangetragene Fragestellung durch Vorgabe von irgendwelchen Daten. Die Sch¨ uler k¨ onnen so eigene Erfahrungen sammeln und m¨ ussen zudem stets im Gespr¨ ach mit ihren Mitsch¨ ulern bleiben. Allerdings wird man ber¨ ucksichtigen m¨ ussen, dass die Planung, Durchf¨ uhrung und Auswertung einer eigenen Erhebung mehr Zeit beansprucht als die Auswertung stets neu vorgegebener Daten. In Praktika mit Studenten haben wir mehrfach mit beiden Wegen unterrichtliche Erfahrungen sammeln k¨ onnen. Es kann best¨ atigt werden, dass der Motivationsschub zu Beginn einer selbst durchgef¨ uhrten Erhebung sehr stark ist, es muss aber auch eingestanden werden, dass die Aufbereitung immer wieder desselben Datenmaterials unter neuen Fragestellungen schnell das Interesse der Sch¨ uler abflachen l¨ asst: Schon wieder diese Daten!“ Schließlich muss man auch ” damit rechnen, dass sich die erhobenen Daten nicht immer zur Vorbereitung neuer Fragestellungen (wie z. B. zur Motivation der Frage nach Streuungsmaßen) eignen. Geht man den anderen Weg, so kann man mit Vorteil die M¨ oglichkeit
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
9
ausnutzen, f¨ ur jede neue Fragestellung neue Datenmengen aus neuen aktuellen Sachproblemen w¨ ahlen zu k¨ onnen. Diese Varianz der Sachgebiete bewirkt aufgrund unserer Erfahrung ebenfalls eine hohe intrinsische Motivation. ¨ Unter Ber¨ ucksichtigung dieser Uberlegungen empfiehlt sich ein Mittelweg als Mischung aus beiden Wegen. In jedem Fall sollte aber zumindest eine im Umfang kleine realisierbare Erhebung etwa im Umfeld der Schule von den Sch¨ ulern durchgef¨ uhrt werden. M¨ ogliche Themen w¨ aren etwa: Erhebung zum Fernsehverhalten der Mitsch¨ uler einer bestimmten Klassenstufe, Erhebung u uler einer Schule, ¨ ber aktiv betriebene Sportarten der Sch¨ Erhebung zu Berufs- und Studienw¨ unschen der Sch¨ uler der Abgangsklassen, Erhebung u ulern in Jugendverb¨ anden. ¨ ber Mitgliedschaften von Sch¨ Es ist wichtig, dass die Sch¨ uler das Thema der Erhebung selbst bestimmen. Dieses Vorgehen ist besonders zu Beginn einer unterrichtlichen Behandlung von großem Vorteil. Sch¨ uler lernen so unmittelbar die Schwierigkeiten einer Datenerhebung kennen, und sie sind motiviert, die Daten aufzubereiten und auszuwerten, da sie ja das Thema interessiert und die Daten evtl. interessante Informationen u ¨ ber die Fragestellung liefern. Welchen Weg man auch beschreitet, stets m¨ ussen dabei einige Grundbegriffe der beschreibenden Statistik eingef¨ uhrt werden, wie z. B. Erhebung, statistische Einheit, Merkmal, Mermalsauspr¨ agung und H¨ aufigkeit. Die Vermittlung einer fachspezifischen Sprache erleichtert dann sp¨ ater das Unterrichtsgespr¨ ach. Grundlegende Begriffe der Statistik Unter einer statistischen Masse (empirischen Grundgesamtheit) versteht man die durch die Identifikationsmerkmale (z. B. weibliche und m¨ annliche Bev¨ olkerung in Nordrhein-Westfalen im Jahre 2010 unter 18 Jahre) ausgezeichnete und abgegrenzte Menge von Einheiten, in der eine statistische Erhebung zur Untersuchung eines oder mehrerer Merkmale (z. B. Alter, Staatsangeh¨ origkeit) durchgef¨ uhrt wird. Unter einer statistischen Einheit (Beobachtungseinheit, Merkmalstr¨ ager) versteht man das Einzelobjekt (den Informationstr¨ ager) einer statistischen Untersuchung. Jede statistische Einheit muss wie die statistische Masse eindeutig identifizierbar bzw. abgrenzbar sein. Dieses geschieht durch die Identifikationsmerkmale. Bei den Identifikationsmerkmalen unterscheidet man – sachliche Identifikationsmerkmale (z. B. weibliche Bev¨ olkerung unter 18 Jahren), – r¨ aumliche Identifikationsmerkmale (z. B. in Nordrhein-Westfalen), – zeitliche Identifikationsmerkmale (z. B. im Jahre 2010). Deckt sich die Menge der untersuchten statistischen Einheiten (Merkmalstr¨ ager) mit der statistischen Masse (der empirischen Grundgesamtheit), so
10
1 Beschreibende Statistik spricht man von einer Totalerhebung (z. B. Volksz¨ ahlung), wird nur ein Teil der statistischen Einheiten untersucht, spricht man von einer Teilerhebung oder Stichprobe (z. B. Mikrozensus). Eine Totalerhebung ist aufwendig, teuer und nicht immer durchf¨ uhrbar. Will man beispielsweise mittels einer Totalerhebung die Lebensdauer von Gl¨ uhlampen (Kerzenbirne, 40 Watt, klar, bestimmtes Fabrikat, bestimmter Produktionszeitraum) feststellen, so f¨ uhrt das zwangsl¨ aufig zu einer Zerst¨ orung aller Gl¨ uhbirnen dieses Typs. Deshalb f¨ uhrt man Stichproben durch. Sie sparen Kosten und sind bei den heutigen Methoden (Repr¨ asentativerhebung) ¨ außerst zuverl¨ assig. Auch Volksz¨ ahlungen (Totalerhebung) werden aus den genannten Gr¨ unden deshalb in der Bundesrepublik Deutschland in der Regel nur alle 10 Jahre durchgef¨ uhrt. Durch den schon erw¨ ahnten Mikrozensus, der seit 1957 eingef¨ uhrt ist, wird die Zeitspanne u berbr¨ u ckt. ¨ Unter einem Merkmal versteht man eine bei einer statistischen Untersuchung interessierende Eigenschaft der statistischen Einheiten. Die statistischen Einheiten heißen deshalb Merkmalstr¨ ager und sind es auch. Die m¨ oglichen Werte (Kategorien), die ein Merkmal annehmen kann, nennt man Merkmalsauspr¨ agungen (Modalit¨ aten). Beispiel: Merkmal Ge” schlecht“, Modalit¨ aten m¨ annlich“ bzw. weiblich“. ” ” Registrierte Merkmalsauspr¨ agungen werden als statistische Daten bezeichnet. Sie sind also beobachtete Werte eines bestimmten Merkmals in einer bestimmten Grundgesamtheit. Die Beobachtung“ erfolgt nach einem festge” legten Verfahren. Die Daten werden in einer Liste, die als Urliste bezeichnet wird, angegeben. Ein Merkmal heißt ersch¨ opfend bez¨ uglich der Grundgesamtheit (bzgl. der statistischen Masse), wenn sich jedem Merkmalstr¨ ager aus der Grundgesamtheit eine Merkmalsauspr¨ agung des Merkmals zuordnen l¨ asst. So ist das Merkmal Staatsangeh¨ origkeit“ in der Grundgesamtheit Europa mit den ” vier Auspr¨ agungen deutsch“, franz¨ osisch“, griechisch“, italienisch“ sicher ” ” ” ” nicht ersch¨ opfend. Durch Hinzuf¨ ugung der Modalit¨ at sonstige“ ist es aber ” ersch¨ opfend. Anmerkung: Durch Hinzuf¨ ugen der Modalit¨ at sonstige“ kann man ein Merkmal stets zu ” einem ersch¨ opfenden Merkmal machen. Man betrachte einmal unter diesem Aspekt Frageb¨ ogen und Statistiken. Von Bedeutung ist die Unterscheidung verschiedener Merkmalstypen. Denn um statistische Methoden anwenden zu k¨ onnen, muss feststehen, ob und in welchem Umfang mit registrierten Merkmalsauspr¨ agungen (den Daten) gerechnet werden darf. Es geht ja stets um eine Beschreibung der Wirklichkeit. Dazu ist eine Analyse der Sachsituation erforderlich, die zu einem ad¨ aquaten mathematischen Modell f¨ uhrt. Damit sind dann auch m¨ ogliche Rechenoperationen festgelegt. Die Unterscheidung verschiedener Merkmalstypen liefert in dieser Hinsicht einen ersten Beitrag. Wir unterscheiden:
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
11
qualitative Merkmale (lateinisch qualitas: Beschaffenheit, Eigenschaft), Rangmerkmale und quantitative Merkmale (lateinisch quantus: wie groß). – Die qualitativen Merkmale werden auch nominalskalierte Merkmale genannt (lateinisch nomen: Benennung, Wort). Bei ihnen sind die Merkmalsauspr¨ agungen nur Beschreibungen, sind also nicht messbar. Die Merkmalsauspr¨ agungen lassen sich in keine Reihenfolge bringen, sie stehen gleichberechtigt nebeneinfander. Man kann nur feststellen, ob sie bei einer statistischen Einheit zutreffen oder nicht. Beispiele f¨ ur nominalskalierte Merkmale sind: Haarfarbe (z. B. mit den Auspr¨ agungen rot, blond, schwarz, sonstige), Beruf (z. B. mit den Auspr¨ agungen Schlosser, Maurer, Elektriker, Kaufmann, Lehrer, Richter), Staatsangeh¨ origkeit (z. B. mit den Merkmalsauspr¨ agungen deutsch, italienisch, spanisch, franz¨ osisch), Familienstand (z. B. mit den Auspr¨ agungen ledig, verheiratet, verwitwet, geschieden), Geschlecht (mit den Merkmalsauspr¨ agungen weiblich, m¨ annlich). Qualitative Merkmale erlauben nur Vergleiche der Art gleich“ bzw. un” ” gleich“, z. B. Staatsangeh¨ origkeit von Person A ist gleich der Staatsangeh¨ origkeit von Person B. Auch bei einer Codierung der Merkmalsauspr¨ agungen durch Zahlen folgt daraus nicht, dass sie sich anordnen lassen. Codiert man z. B. beim Geschlecht weiblich“ durch 1“ und m¨ ann” ” ” lich“ durch 0“, so macht die Aussage 0 < 1 doch keinen Sinn. ” – Die Rangmerkmale werden auch ordinalskalierte Merkmale genannt agungen der ordi(lateinisch ordo: Reihe, Ordnung). Die Merkmalsauspr¨ nalskalierten Merkmale lassen sich in eine Reihenfolge bringen. Beispiel: Leistungsnoten mit den Auspr¨ agungen sehr gut, gut, befriedigend, ausreichend, mangelhaft, ungen¨ ugend. Die Abst¨ ande zwischen verschiedenen Auspr¨ agungen sind aber nicht gleich und nicht mathematisch interpretierbar (siehe didaktischen Hinweis 3, S. 13). Bei ordinalskalierten Merkmalen sind aber Vergleiche der Art folgt vor“, ist gr¨ oßer“, ist besser“ m¨ oglich ” ” ” und erlaubt. Weitere Beispiele f¨ ur Rangmerkmale sind die Handelsklassen bei Obst (1. Qualit¨ at, 2. Qualit¨ at usw. oder Handelsklasse A, Handelsklasse B usw.). Auch nach einer Codierung z. B. der G¨ uteklassen bei Obst durch Zahlen ergeben arithmetische Operationen aber keinen Sinn. Wenn bei Obst etwa Qualit¨ at 1“ durch 1“, Qualit¨ at 2“ durch 2“ co” ” ” ” diert wird, so macht eine Aussage 1 + 2 = 3“ vor diesem Hintergrund ” keinen Sinn. – Die quantitativen Merkmale werden auch als metrischskalierte Merkmale bezeichnet. Bei den metrischskalierten Merkmalen sind ihre Auspr¨ agungen angeordnet (eine Reihenfolge liegt fest) und die Abst¨ ande zwischen den Merkmalsauspr¨ agungen sind mathematisch interpretierbar. Die quantitativen Merkmale haben als Auspr¨ agungen reelle Zahlen. Bei-
12
1 Beschreibende Statistik spiele: Anzahl der Autos mit Katalysator in den EURO-L¨ andern im Jahre 2010, K¨ orpergr¨ oße von bestimmten Personen, Alter von Sch¨ ulern einer bestimmten Klasse, Gewicht von Personen, Einkommen einer festgelegten Personengruppe. Erst die metrischskalierten Merkmale erlauben Vergleiche, Summen- und Differenzenbildungen, sowie die Berechnung des arithmetischen Mittels. Es ist z. B. sinnvoll zu sagen und interpretierbar: Person A hat dreimal so viel verdient wie Person B.
Z¨ ahlt man bei den Merkmalsauspr¨ agungen f¨ ur jede Auspr¨ agung aus, wie oft sie auftritt, so erh¨ alt man die absolute H¨ aufigkeit dieser Merkmalsauspr¨ agung. Definition 1.1 (Absolute H¨ aufigkeit, relative H¨ aufigkeit) Es sei n die Anzahl der statistischen Einheiten, und es seien xi (i = 1, 2, . . . , N ) m¨ ogliche Merkmalsauspr¨ agungen. Dann heißt die Anzahl der statistischen Einheiten mit der Merkmalsauspr¨ agung xi die absolute H¨ aufigkeit Hn (xi ) der aufigkeitsverteilung. Merkmalsauspr¨ agung xi . Es entsteht eine H¨ Der Anteil der statistischen Einheiten mit der Merkmalsauspr¨ agung xi an der Gesamtzahl n der statistischen Einheiten heißt relative H¨ aufigkeit (syn.: Quoagung xi , also: hn (xi ) := Hnn(xi ) . te) hn (xi ) der Merkmalsauspr¨ Die Summe aller relativen H¨ aufigkeiten ist 1. Didaktische Hinweise 1.
Welche Begriffe und welche der genannten Bezeichnungen f¨ ur die drei Merkmalstypen man im Unterricht verwendet, h¨ angt von der Schulform und der Klassenstufe ab. Wichtiger als die Bezeichnungen sind allerdings die mit ihnen verbundenen Sachinhalte, die der Sch¨ uler schon durchschauen sollte. Die Bezeichnungen qualitativ und quantitativ sind griffig, doch das Wort qualitativ kann auch falsche Assoziationen hervorrufen. Denn das Wort qualitativ bezeichnet etwas hinsichtlich der Qualit¨ at, und Qualit¨ at bedeutet in der Umgangssprache nicht nur Beschaffenheit, sondern beinhaltet auch G¨ ute und Wert. Diese mit dem Wort qualitativ evtl. verbundene Wertung kann bei Sch¨ ulern dann leicht Irritationen hervorrufen, wenn Merkmalsauspr¨ agungen bei qualitativen Merkmalen genannt werden. Die Aufz¨ ahlung der Berufe Schlosser, Maurer, Lehrer und Richter k¨ onnte als Wertung gesehen werden und als Diskriminierung verstanden werden. Die Bezeichnung nominalskaliertes Merkmal“ scheint in diesem Sinne treffender zu sein. ” Die Terminologie -skaliertes Merkmal“ f¨ ur die drei Merkmalsarten ist f¨ ur ” Sch¨ uler nicht einfach. Dazu folgende Anmerkung: Jedes Merkmal hat Auspr¨ agungen. Um diese messen“ zu k¨ onnen, ist eine Skala notwendig. Je nach ” Art des Merkmals lassen sich seine Auspr¨ agungen durch die folgenden Skalen messen: Nominalskala, Ordinalskala, Metrische Skala. Daraus ergeben sich die genannten Bezeichnungen f¨ ur die Merkmale.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
2.
3.
13
Nach Abw¨ agen der Vor- und Nachteile w¨ urden wir f¨ ur den Unterricht in der Sekundarstufe I die Verwendung der Benennungen qualitatives Merkmal, Rangmerkmal und quantitatives Merkmal empfehlen. Im Zusammenhang mit quantitativen Merkmalen unterscheidet man h¨ aufig zwischen diskreten und stetigen Merkmalen. Bei den quantitativ diskreten Merkmalen k¨ onnen die Auspr¨ agungen nur isolierte Werte annehmen. Beispiel: Die an einer Kreuzung zu einer bestimmten Zeit vorbeifahrenden Autos. Bei den quantitativ stetigen Merkmalen k¨ onnen die Auspr¨ agungen die Werte eines Intervalls (Kontinuums) annehmen. Beispiel: K¨ orpergr¨ oße, F¨ ullgewicht. Eine weitere Verfeinerung der metrischskalierten Merkmale in intervallskalierte und proportionalskalierte Merkmale halten wir f¨ ur den Schulunterricht f¨ ur nicht erforderlich. Das klassische Beispiel f¨ ur ein intervallskaliertes Merkmal ist die Temperatur, die ja z. B. in ◦ Celsius oder ◦ Fahrenheit oder ◦ R´eaumur oder ◦ Kelvin gemessen werden kann. Eine Aussage 6 Grad ist ” doppelt so warm wie 3 Grad“ ist nur sinnvoll, wenn dieselbe Einheit zugrundegelegt wird. L¨ angen und Gewichte sind Beispiele f¨ ur proportionalskalierte Merkmale. H¨ aufig werden Leistungsnoten f¨ ur die einzelnen F¨ acher wie quantitative Merkmale behandelt. Man bildet z. B. die Durchschnittsnote als arithmetisches Mittel der Noten. Das ist sicher nicht korrekt, denn die Noten sind nur Rangmerkmale. So ist der Unterschied zwischen 1 sehr gut“ und 2 gut“ ” ” sicher anders als der Unterschied zwischen 2 gut“ und 3 befriedigend“. ” ” Und wie steht zu diesen Unterschieden der Noten der Unterschied zwischen 4 ausreichend“ und 5 mangelhaft“? Die Unterschiede zwischen den Noten ” ” sind nicht gleich. Das erkennt man ganz deutlich, wenn man bedenkt, dass die Noten verbal festgelegt sind. Beispielhaft sei die Bewertung von Pr¨ ufungsleistungen gem¨ aß der Lehramtspr¨ ufungsordnung – LPO vom 27.03.2003, zuletzt ge¨ andert durch Gesetz vom 27.06.2006 (nach dem Stand vom 01.07.2009) in NRW – angegeben. Man erkennt in dem nachfolgenden Zitat, dass die verbale Beschreibung der Noten Fragen unbeantwortet l¨ asst. Was bedeutet durchschnittliche ” Anforderung“ (befriedigend), was bedeutet gen¨ ugt trotz ihrer M¨ angel noch ” den Anforderungen“ (ausreichend) usw.? Die Zuordnung Note → Zahl ist ziemlich willk¨ urlich. Die Problematik der arithmetischen Durchschnittsbildung wird besonders deutlich, wenn man andere Zuordnungen Note → Zahl als die oben angegebenen, weithin u ¨blichen w¨ ahlt.
14
1 Beschreibende Statistik (1) Die einzelnen Pr¨ ufungsleistungen sind mit einer der folgenden Noten zu ” bewerten: 1
=
sehr gut
=
eine ausgezeichnete Leistung
2
=
gut
=
eine Leistung, die erheblich u ¨ ber den durchschnittlichen Anforderungen liegt
3
=
befriedigend
=
eine Leistung, die durchschnittlichen Anforderungen entspricht
4
=
ausreichend
=
eine Leistung, die trotz ihrer M¨ angel noch den Anforderungen gen¨ ugt
5
=
mangelhaft
=
eine Leistung, die wegen erheblicher M¨ angel den Anforderungen nicht mehr gen¨ ugt
6
=
ungen¨ ugend
=
eine Leistung, die in keiner Hinsicht den Anforderungen entspricht
(2) Die Note der Pr¨ ufungsleistung wird aus dem arithmetischen Mittel der Einzelnoten der Pr¨ ufenden gebildet.“
1.2.2
Graphische Darstellungen der Daten
In diesem Abschnitt und in den n¨ achsten Abschnitten geht es um eine Beschreibung und Strukturierung des Datenmaterials. Man spricht von einer Aufbereitung der Daten. Die Bezeichnung Aufbereitung stammt von dem preußischen Statistiker E. Engel (1821 – 1896), der sie aus der Bergmannssprache u ¨ bernahm. Ziel einer Aufbereitung der Daten ist es, wesentliche Informationen einer Erhebung u ¨bersichtlich zu vermitteln. Wir behandeln zun¨ achst die graphischen Darstellungsm¨ oglichkeiten wie Tabelle, Stabdiagramm, Kreisdiagramm, Blockdiagramm, Histogramm, Stengel-BlattDiagramm und die empirische Verteilungsfunktion. Diese Graphiken werden im Abschnitt 1.2.4 noch erg¨ anzt durch die F¨ unf-Zahlen-Zusammenfassung“ (Five” digit-Display) und das Kastenschaubild“ (Box-Plot-Diagramm). ” In den folgenden Abschnitten 1.2.3 bis 1.2.5 werden dann Lageparameter, Streuungsparameter und Lineare Regression und Korrelation besprochen. Generell gilt: Zur sachgem¨ aßen Interpretation der Daten muss das den Daten zugrundeliegende Begriffsfeld bekannt sein. Das kann nicht immer vorausgesetzt werden und muss gegebenenfalls erarbeitet werden (siehe sp¨ atere Beispiele Verurteilte wegen Vergehen und Verbrechen“ und L¨ ange der Grenzen Deutsch” ” lands“).
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
15
Urliste, Tabelle Bei der Aufbereitung von Daten geht man von der Urliste aus. Die Urliste ist eine Aufstellung aller ermittelten Daten x1 , x1 , x3 , . . . , xn . Diese sind entweder in der Reihenfolge der Erhebung oder schon nach anderen Kriterien (etwa Gr¨ oße oder H¨ aufigkeit) aneinandergereiht. Im folgenden geben wir die Urliste in Form einer Tabelle an. Urliste bei einem registrierten Merkmal Merkmalstr¨ ager i
Merkmalsauspr¨ agung xi
1
x1
2
x2
3
x3
4
x4
5
x5
Hat man weitere Merkmale registriert, so hat die Urliste weitere Spalten f¨ ur die Merkmalsauspr¨ agungen yi , zi usw. H¨ aufig erstellt man die Urliste tabellarisch in Form einer Strichliste (z. B. bei Verkehrsz¨ ahlungen an einer Kreuzung). Dabei b¨ undelt man je f¨ unf Striche zu einer Einheit“: |||| — und gibt die absolute H¨ aufigkeit Hn (xi ) an: 31 Fahrradfah” rer, 22 Personenkraftwagen, 6 Lastwagen, 15 Fußg¨ anger. aufigNeben den absoluten H¨ aufigkeiten Hn (xi ) sind auch die relativen H¨ keiten hn (xi ) von Interesse. Die relativen H¨ aufigkeiten werden h¨ aufig als prozentualer Anteil angegeben. Durch Rundungen kann die Summe der relativen H¨ aufigkeiten geringf¨ ugig von 100 % (bzw. 1) abweichen. Im folgenden Beispiel 1.1 (L¨ ange der Grenzen Deutschlands mit den Nachbarl¨ andern nach dem Stand vom 31.12.2000) ergeben die gerundeten Anteile 100 %. Im Beispiel 1.4 (Personalkosten der Krankenh¨ auer 2007) ergibt sich 100,1 %. Im Beispiel 1.5 (Gestorbene in der Bundesrepublik Deutschland) ergibt die Summe der relativen Klassenh¨ aufigkeiten der zu acht Klassen zusammengefassten Ausgangsdaten den Wert 1.
16
1 Beschreibende Statistik
Beispiel 1.1 (L¨ ange der Grenzen Deutschlands 2000) L¨ ange der Grenzen mit den Nachbarl¨ andern der Bundesrepublik Deutschland (Stand: 31.12.2000) Gemeinsame Grenze mit (Land)
km
Anteil in %
671)
D¨ anemark
2)
1,8
Niederlande
567
15,1
Belgien
156
4,1
Luxemburg
135
3,6
Frankreich
448
11,9
Schweiz
3)
316
4)
8,4
¨ Osterreich
815
21,7
Tschechische Republik
811
21,6
Polen
442
11,8
3757
100,0
1) Landgrenze, Seegrenze nicht endg¨ ultig festgelegt. 2) Festlandgrenze (ohne Dollart und Außenbereich der Ems) 3) Vom Dreil¨ andereck Deutschland - Frankreich - Schweiz bis einschließlich Konstanzer Bucht (mit Exklave B¨ usingen, aber ohne Obersee des Bodensees) 4) Ohne Bodensee (Quelle der Daten: Statistisches Jahrbuch 2009 f¨ ur die Bundesrepublik Deutschland. Wiesbaden 2009, S. 21)
Beispiel 1.2 (Verurteilte Personen) Im diesem Beispiel wird die statistische Masse nach zwei Merkmalen untersucht. Das Merkmal Verurteilte Person“ hat die Merk” malsauspr¨ agungen Jugendlicher, Heranwachsender, Erwachsener, das Merkmal Verurteilter wegen Vergehen im Straßenverkehr“ hat die Merkmalsauspr¨ agun” gen ohne Trunkenheit“ und in Trunkenheit“. Das f¨ uhrt zu einer erweiterten ” ” Form der Tabelle. Die Tabelle erh¨ alt zwei Eing¨ ange: den Spalteneingang und den Zeileneingang. Die Tabelle enth¨ alt ferner eine Spalte bzw. Zeile f¨ ur Zeilen- bzw. Spaltenzusammenfassungen. Sie werden Randspalte bzw. Randzeile genannt. Die Schnittstelle von Randspalte und Randzeile gibt die Summe der statistischen Einheiten an oder (bei Prozentangaben) 100 % (siehe Beispiel 1.1).
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
17
Wegen Vergehen im Straßenverkehr im Jahre 2007 Verurteilte in der Bundesrepublik Deutschland Jugendliche
Heranwachsende
Erwachsene
5516
8832
80652
95000
1424
9394
106028
116846
6940
18226
186680
211846
Verurteilte mit Vergehen ohne Trunkenheit Verurteilte mit Vergehen in Trunkenheit
(Quelle der Daten: Statistisches Jahrbuch 2009 f¨ ur die Bundesrepublik Deutschland. Wiesbaden 2009, S. 275.)
Anmerkungen zu diesem Beispiel: Auch wenn die Daten an sich schon beeindruckend sind, muss man zur sachgem¨ aßen Beurteilung der Daten zus¨ atzlich Sachkenntnisse u ¨ ber die in der Tabelle genannten Begriffe aus der Rechtskunde besitzen: Vergehen sind von Verbrechen zu unterscheiden. Nach § 12 Verbrechen und Vergehen des Strafgesetzbuches (StGB) gilt: (1) Verbrechen sind rechtswidrige Taten, die im Mindestmaß mit Freiheits” strafe von einem Jahr oder dar¨ uber bedroht sind. (2) Vergehen sind rechtswidrige Taten, die im Mindestmaß mit einer geringeren Freiheitsstrafe oder die mit einer Geldstrafe bedroht sind.“ Jugendlicher ist, wer zur Zeit der Tat 14, aber nocht nicht 18 Jahre alt ist (Jugendgerichtsgesetz (JGG)). Heranwachsende im Sinne des Strafrechts sind Personen von 18 bis einschließlich 20 Jahre (JGG). Erwachsene sind 21 Jahre und ¨ alter. Erwachsene unterliegen ausschließlich den Vorschriften des allgemeinen Strafrechts, Jugendliche werden nach Jugendstrafrecht behandelt. Heranwachsende nehmen bei Anwendung des Strafrechts eine Sonderstellung ein. Bei ihnen kann allgemeines Strafrecht oder Jugendstrafrecht zur Anwendung kommen. Ein wesentliches Entscheidungskriterium ist hierf¨ ur zum Beispiel die Rei” fe“ des Heranwachsenden, d. h. die sittliche und geistige Entwicklung des Heranwachsenden. Verurteilte sind Straff¨ allige, gegen die entweder nach allgemeinem Strafrecht eine Freiheitsstrafe, Strafarrest und/oder Geldstrafe verh¨ angt worden ist, oder deren Straftat nach Jugendstrafrecht mit Jugendstrafe und/oder Maßnahmen geahndet worden ist. Die Jugendstrafe betr¨ agt mindestens 6 Monate. Maßnahmen sind Zuchtmittel (z. B. Verwarnung, Auferlegung besonde-
18
1 Beschreibende Statistik rer Pflichten, Freizeitarrest) und Erziehungsmaßregeln (z. B. Schutzaufsicht, F¨ ursorgeerziehung). Im Strafrecht gibt es auch noch den Begriff Kind. Kinder sind Personen, die noch keine 14 Jahre alt sind. Sie sind strafunm¨ undig/schuldunf¨ ahig (§ 19 StGB). Welcher Gruppe ein Mensch zugeordnet wird, h¨ angt von seinem Alter zur Tatzeit ab.
Anmerkung: ¨ Eine Tabelle soll eine kurze zutreffende Uberschrift tragen, die den Leser u ¨ ber das Untersuchungsobjekt informiert. Die Eingangszeilen und Eingangsspalten sollen pr¨ azise Benennungen tragen.
Stabdiagramm Einen hohen Grad an Anschaulichkeit gewinnt man, wenn man die absoluten und relativen H¨ aufigkeiten graphisch darstellt. Um H¨ aufigkeiten darzustellen, gibt es verschiedene M¨ oglichkeiten wie Stabdiagramm, Kreisdiagramm, Blockdiagramm und Histogramm. Dabei kann es sein, dass man einen Informationsverlust in Kauf nehmen muss, insbesondere dann, wenn die Zahlen nicht gleichzeitig im Diagramm u oglichst ¨bermittelt werden. Anschaulichkeit und m¨ umfassende Informationen sollten aber stets im Blick bleiben. Deshalb erhalten die genannten Diagramme h¨ aufig auch die realen Zahlen. Das Stabdiagramm verwendet St¨ abe in einem rechtwinkligen Koordinatensystem. Auf der y-Achse werden die H¨ aufigkeiten abgetragen, und auf der x-Achse werden die Merkmalsauspr¨ agungen notiert. Bei qualitativen Merkmalen ist die Einteilung auf der Achse f¨ ur die Merkmalsauspr¨ agungen willk¨ urlich (Nominalskala). Die Abst¨ ande zwischen den Auspr¨ agungen k¨ onnen beliebig gew¨ ahlt werden. Aus optischen Gr¨ unden sollten auch bei nominalskalierten Daten die Abst¨ ande zwischen den Merkmalsauspr¨ agungen gleich gew¨ ahlt werden. Die Anordnung der Merkmalsauspr¨ agungen ist bei qualitativen (nominalskalierten) Merkmalen beliebig. Bei Rangmerkmalen hat die Einteilung jedoch der Anordnung der Merkmalsauspr¨ agungen zu folgen. Die Stabl¨ ange gibt die absolute bzw. relative H¨ aufigkeit der Merkmalsauspr¨ agungen an. Wenn man Vergleiche anstellen m¨ ochte, ist die Verwendung der relativen H¨ aufigkeiten statt der absoluten H¨ aufigkeiten zu empfehlen. Die Summe der L¨ angen s¨ amtlicher St¨ abe ergibt bei der Verwendung relativer H¨ aufigkeiten Eins.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
19
Beispiel 1.3 (Klausurnoten) Ein Sch¨ uler hat seine Klausurnoten aus den letzten Jahren im Fach Mathematik aufgeschrieben: 3, 4, 3, 2, 5, 4, 2, 3, 2, 1, 2, 1, 4, 3, 2, 3, 4, 3. Darstellung der Daten im Stabdiagramm:
Ist der Stichprobenraum sehr groß, k¨ onnen große absolute H¨ aufigkeiten auftreten. Das f¨ uhrt zu Schwierigkeiten, wenn man im Stabdiagramm die absoluten H¨ aufigkeiten darstellen m¨ ochte. Man hilft“ sich dann h¨ aufig so, dass das Stab” diagramm durchtrennte“ St¨ abe oder abgeknickte“ St¨ abe enth¨ alt. ” ” Nicht sachgem¨ aß ist es, die Endpunkte der St¨ abe bei qualitativen und diskreten Merkmalen durch Strecken miteinander zu verbinden. H¨ aufig verwendet man bei Stabdiagrammen zur optischen Aufbesserung“ ” Rechtecke als St¨ abe. Nach wie vor soll aber die H¨ ohe der Rechtecke ein Maß f¨ ur die absolute bzw. f¨ ur die relative H¨ aufigkeit der Merkmalsauspr¨ agungen sein. Da das Auge aber die Gr¨ oße der Fl¨ ache wahrnimmt, m¨ ussen die Rechtecke eine gemeinsame Breite haben, wenn die H¨ ohe der Rechtecke ein Maß f¨ ur die H¨ aufigkeit ist. Anderenfalls sind Fehlinterpretationen nicht auszuschließen.
20
1 Beschreibende Statistik
Stabdiagramm f¨ ur Beispiel 1.3 (Klausurnoten) mit Rechtecken als St¨ abe:
Bei graphischen Darstellungen in Zeitungen und Zeitschriften befinden sich die St¨ abe h¨ aufig in horizontaler Lage. Solche Stabdiagramme nennt man auch Balkendiagramme.
Kreisdiagramm Verwendet man Kreis- und Blockdiagramme und Histogramme, um H¨ aufigkeiten darzustellen, so wird die Fl¨ ache als Mittel der Veranschaulichung herangezogen. Beim Kreisdiagramm wird jeder Merkmalsauspr¨ agung ein Kreissektor zuaufigkeit der Merkmalsauspr¨ agung xi , geordnet. Bezeichnet hn (xi ) die relative H¨ origen Kreissektors bestimmt durch so ist der Mittelpunktswinkel αi des zugeh¨ αi = hn (xi ) · 360◦ . Die relative H¨ aufigkeit 1 bzw. 100 % entspricht dem Winkel 360◦ . Im nachstehenden Kreisdiagramm f¨ ur das Beispiel 1.1 (L¨ ange der Grenzen Deutschlands) erleichtern die zus¨ atzlich angegebenen Prozentzahlen das richtige Lesen. Der zugeh¨ orige Kreissektor unterst¨ utzt also das Einpr¨ agen der Zahlen. Fehlen die Anteilsangaben, so erh¨ alt man durch das Kreisdiagramm optisch nur eine Vorstellung von den Gr¨ oßenverh¨ altnissen. Zur exakten rechnerischen Bestimmung der relativen H¨ aufigkeit hn (xi ) m¨ usste in diesem Fall zuerst der zugeh¨ orige Winkel αi gemessen werden. Im Kreisdiagramm findet man gelegentlich Angaben zur Datenmenge. Stichprobenumfang, Einheitenangaben, Prozentangaben oder Jahreszahlen sind h¨ aufige Angaben. (Siehe das nachfolgende Kreisdiagramm f¨ ur das Beispiel 1.4. Die Summe der Prozentangaben ergeben durch Rundungen 100,1 %.)
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
21
Kreisdiagramm f¨ ur das Beispiel 1.1 (Deutsche L¨ andergrenzen) Tschechische Republik 21,60%
Österreich 21,70%
Polen 11,80%
Schweiz 8,40%
Frankreich 11,90% Luxemburg 3,60%
Dänemark 1,80% Niederlande 15,10%
Belgien 4,10%
Beispiel 1.4 (Personalkosten der Krankenh¨ auser 2007) Personalkosten der Krankenh¨ auser 2007 in der Bundesrepublik Deutschland Wirtschafts- und VersorgungsÜbrige dienst 4,1%
Personalkosten 12,5%
Funktionsdienst 9,7%
Pflegedienst 33,2%
42 Mrd. EUR
Medizinischtechnischer Dienst 13,4% Ärztlicher Dienst 27,2%
(Abbildung entnommen: Statistisches Jahrbuch 2009 f¨ ur die Bundesrepublik Deutschland. Wiesbaden 2009, Seite 243. Die noch spezifizierteren genauen Daten sind a.a.O. auf Seite 252 angegeben.)
22
1 Beschreibende Statistik
Blockdiagramm Auch Blockdiagramme benutzen Fl¨ achen zur Darstellung der H¨ aufigkeitsverteilungen. Man unterteilt ein Rechteck mit der Breite b und der L¨ ange a in Teilrechtecke f¨ ur die relativen H¨ aufigkeiten der Merkmalsauspr¨ agungen xi , i = 1, . . . , n. Die Wahl von a und b ist beliebig. Die Teilrechtecke f¨ ur die Merkmalsauspr¨ agungen xi haben dieselbe Breite b. Die L¨ ange li des Rechtecks f¨ ur das Merkmal xi berechnet sich nach li = hn (xi ) · a. Blockdiagramm f¨ ur das Beispiel 1.4 (Personalkosten der Krankenh¨ auser)
Pflegedienst 33,2 %
Ärztlicher Dienst 27,2 % a
Medizinisch-technischer Dienst 13,4 % Funktionsdienst 9,7 % Wirtschafts-und Versorgungsdienst 4,1 % Übrige Personalkosten 12,5% b
Hinweis: H¨ aufig werden durch die moderne Computergraphik auch dreidimensionale Darstellungen in der beschreibenden Statistik u ur den Be¨blich. Da dann f¨ trachter das Volumen das bestimmende optische Element ist, kann das bei oberfl¨ achlicher Betrachtung leicht zu Fehlinterpretationen f¨ uhren. Besonders h¨ aufig treten sog. quaderf¨ ormige S¨ aulendiagramme und Tortendiagramme auf. Der optisch gef¨ allige Eindruck kann nicht dar¨ uber hinwegt¨ auschen, dass die Ablesegenauigkeit evtl. erschwert ist, wenn Zahlenangaben fehlen.
Histogramm F¨ ur die Darstellung von H¨ aufigkeitsverteilungen quantitativer Merkmale sind grunds¨ atzlich alle bisher genannten Graphiken geeignet.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
23
In der Praxis hat man es bei quantitativen Merkmalen h¨ aufig mit einer großen Anzahl von Merkmalsauspr¨ agungen zu tun, so dass man sie aus Gr¨ unden der ¨ Ubersichtlichkeit zu Klassen zusammenfasst. Bei stetigen quantitativen Merkmalen findet eine solche Klassenbildung h¨ aufig schon bei der Datenerhebung statt. Die graphische Darstellung von Klassenh¨ aufigkeiten f¨ uhrt zu Histogrammen. Am folgenden Beispiel aus der Praxis erl¨ autern wir das Vorgehen.
Beispiel 1.5 (Gestorbene in der Bundesrepublik Deutschland) Gestorbene in der Bundesrepublik Deutschland im Jahr 2007 m¨ annlichen Geschlechts nach Altersgruppen (ohne Totgeborene, nachtr¨ aglich beurkundete Kriegssterbef¨ alle und gerichtliche Todeserkl¨ arungen; einschließlich Ausl¨ ander) Alter von . . . bis
Gestorbene
Alter von . . . bis
Gestorbene
unter . . . Jahren
2007
unter . . . Jahren
2007
0– 1
1 518
45 – 50
10 931
1– 5
301
50 – 55
15 460
5 – 10
220
55 – 60
20 949
10 – 15
223
60 – 65
26 431
15 – 20
990
65 – 70
48 440
20 – 25
1 503
70 – 75
56 006
25 – 30
1 575
75 – 80
65 827
30 – 35
1 755
80 – 85
59 926
35 – 40
3 257
85 – 90
42 055
40 – 45
6 535
90 und mehr
27 237
Insgesamt
391 139
(Quelle der Daten: Statistisches Jahrbuch 2009 f¨ ur die Bundesrepublik Deutschland. Wiesbaden 2009, S. 59)
Wie man erkennt, w¨ ahlt man in der beschreibenden Statistik bei der Klasseneinteilung generell halboffene (meistens rechtsoffene) Intervalle (Klassen). Die erste bzw. letzte Klasse kann zudem links bzw. rechts unbeschr¨ ankt sein. Gene¨ rell soll die Anzahl der Klassen aus Gr¨ unden der Ubersichtlichkeit nicht zu groß sein (≤ 20). Im Beispiel 1.5 ver¨ andern wir im Folgenden die vorgegebene kleinschrittige Klasseneinteilung und w¨ ahlen eine Einteilung in acht Klassen. Ferner haben wir die letzte unbeschr¨ ankte Altersklasse 90 und mehr“ nach oben durch 105 ”
24
1 Beschreibende Statistik
abgeschlossen (siehe nachfolgende Tabelle). Die relativen Klassenh¨ aufigkeiten stellen wir in einem Histogramm dar. Gestorbene in der Bundesrepublik Deutschland im Jahr 2007 m¨ annlichen Geschlechts nach Altersgruppen Alter von . . . bis unter . . . Jahren
absolute Klassenh¨ aufigkeit
relative Klassenh¨ aufigkeit
Klassenbreite Δi
H¨ aufigkeitsdichte fi
0 – 15
2262
0,00578
15
0,000386
15 – 25
2493
0,00637
10
0,000637
25 – 45
13122
0,03355
20
0,001678
45 – 65
73771
0,18861
20
0,009431
65 – 75
104446
0,26703
10
0,026703
75 – 85
125753
0,32150
10
0,032150
85 – 90
42055
0,10752
5
0,021504
90 – 105
27237
0,06964
15
0,004643
391139
1
Bei einem Histogramm werden in einem rechtwinkligen Koordinatensystem u ur die absolute bzw. ¨ ber den einzelnen Klassen Rechtecke gezeichnet. Als Maß f¨ relative Klassenh¨ aufigkeit ist die Fl¨ ache der Rechtecke (und nicht ihre H¨ ohe) festgelegt. Auf der horizontalen Achse werden die Klassenbreiten dargestellt. Seien allgemein n Klassen [x1 , x2 [, [x2 , x3 [, . . . , [xn , xn+1 ] mit x1 < x2 < . . . < xn+1 gegeben, so versteht man unter der Klassenbreite Δi der i-ten Klasse die Differenz Δi = xi+1 − xi , i = 1, 2, . . . , n. Die Klassenbreite legt eine Seite des Rechtecks fest. Auf der vertikalen Achse werden nicht die absoluten bzw. relativen Klassenh¨ aufigkeiten abgetragen, sonaufigkeitsdichte fi (also die Rechtdern die sog. H¨ aufigkeitsdichten fi . Die H¨ ecksh¨ ohe) ist f¨ ur relative Klassenh¨ aufigkeiten der Quotient fi =
relative Klassenh¨ aufigkeit der Klasse i . Klassenbreite Δi
aufigkeitsdichte fi“ ist also die Maßzahl des Das Produkt Klassenbreite Δi · H¨ ” Fl¨ acheninhalts des Rechtecks und gibt damit die relative Klassenh¨ aufigkeit der Klasse i an. Sind alle Klassen gleich breit, k¨ onnen die H¨ ohen der Rechtecke unmittelbar als Maß f¨ ur die Klassenh¨ aufigkeit angesehen werden. Analog wird auch die H¨ aufigkeitsdichte f¨ ur die absolute Klassenh¨ aufigkeit bestimmt.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
25
Histogramm f¨ ur Beispiel 1.5 (Gestorbene in der Bundesrepublik Deutschland) gem¨ aß obiger Klasseneinteilung
0,030
0,025
0,020
0,015
0,010
0,005
15
25
45
65
75
855 90
105 Alter
Didaktischer Hinweis: Es sei darauf hingewiesen, dass durch die Festlegung der Klassenbreiten und Klassenanzahl die Gefahr fahrl¨ assiger oder sogar gewollter T¨ auschung besteht.
26
1 Beschreibende Statistik
Wir empfehlen deshalb dem Leser zur Herstellung eines Histogramms ausgehend von der urspr¨ unglichen Klasseneinteilung im Statistischen Jahrbuch 2009 eine solche Klassenunterteilung vorzunehmen, die sich von unserer deutlich unterscheidet, und das dazu geh¨ orige Histogramm zu erstellen, f¨ ur die urspr¨ unglich vorgegebene Klasseneinteilung im Statistischen Jahrbuch 2009 das Histogramm zu erstellen. Was kann man hier beobachten? Ferner m¨ ochten wir in diesem Zusammenhang auch hinweisen auf Beispiel 1.7 (Gehaltsstatistik eines Betriebes).
Stengel-Blatt-Diagramm Um auf elementarer Ebene Daten u ¨ bersichtlich anzuordnen und gleichzeitig Klassenh¨ aufigkeitsverteilungen deutlich zu machen, kann man das StengelBlatt-Diagramm (stem-and-leaf-display) einsetzen. Es geh¨ ort zu den Methoden der Explorativen Datenanalyse (abgek¨ urzt heute als EDA), die Tukey 1977 in seinem Buch Exploratory Data Analysis dargestellt hat. Beim Stengel-Blatt-Diagramm werden nur die f¨ uhrenden“ Ziffern der Daten ” ber¨ ucksichtigt und nach einem bestimmten Schema notiert. Die erste bzw. die ersten (zwei) Ziffern der Daten werden links von einem senkrecht“ zur Heftseite ” gezogenen Strich, die zweite bzw. die dritte Ziffer (allgemeiner: die direkt auf sie folgende Ziffer) rechts vom Strich in der gleichen Zeile aufgeschrieben. Die anderen nachfolgenden Ziffern der Daten bleiben unber¨ ucksichtigt. Die links vom Trennstrich geschriebene Ziffernfolge bildet den Stengel (Stamm), die rechts geschriebenen Ziffern sind die Bl¨ atter. Die im Stamm untereinanderstehenden Zahlen markieren also die Klassen, die rechts vom Strich in der Zeile hinter einer Stammzahl“ stehenden Ziffern geben die Beobachtungswerte innerhalb ” der Klasse an. Diese Ziffern werden der Gr¨ oße nach geordnet.
Beispiel 1.6 (K¨ orpergewicht von Kindern) Bei einer medizinischen Untersuchung einer Schulklasse wurden bei den 30 Kindern folgende K¨ orpergewichte (in kg) notiert (Urliste): 35
27
36
42
50
32
35
29
44
40
36
38
45
40
42
34
38
43
45
42
37
45
51
48
31
34
46
30
38
35
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
27
Stem-and-leaf-display (dieser Daten): 2
7
9
3
0
1
2
4
4
5
5
5
6
6
7
8
4
0
0
2
2
2
3
4
5
5
5
6
8
5
0
1
8
8
Man erkennt, dass das Stengel-Blatt-Diagramm einer Strichliste und auch einem Balkendiagramm (Rechtecks¨ aulen) ¨ ahnelt. Es wird eine Klasseneinteilung vorgenommen. Klassen, in denen sich Daten konzentrieren, werden sch¨ on hervorgehoben. Am Stengel-Blatt-Diagramm k¨ onnen auch leicht Kennzahlen (z. B. Quantile) f¨ ur die Daten abgelesen werden (siehe Abschnitt 1.2.3). H¨ aufig entzerrt man das Stengel-Blatt-Diagramm durch Verfeinerungen, indem man f¨ ur die Bl¨ atter einer Klasse zwei Zeilen verwendet. Im obigen Beispiel 1.6 k¨ onnte man beispielsweise getrennte Zeilen f¨ ur die Einer von 0 bis 4 und f¨ ur die Einer von 5 bis 9 vorsehen: 2
7
9
3
0
1
2
4
4
3
5
5
5
6
6
7
8
4
0
0
2
2
2
3
4
4
5
5
5
6
8
5
0
1
8
8
Hinweise: 1. 2.
In der Regel gibt man das Stengel-Blatt-Diagramm mit geordneten“ ” Bl¨ attern an wie im Beispiel 1.6. Es gibt noch weitere Darstellungsformen f¨ ur Daten. Wir erw¨ ahnen noch die Piktogramme und die Gesichter.
Die empirische Verteilungsfunktion Zur Datenbeschreibung bietet sich bei speziellen Fragestellungen eine weitere M¨ oglichkeit an: die empirische Verteilungsfunktion. Denn h¨ aufig interessieren nicht so sehr die einzelnen H¨ aufigkeiten einer Merkmalsauspr¨ agung, als vielmehr Fragen wie: Wieviele Kinder der Klasse haben ein Gewicht unter 40 kg? Wie groß ist die Anzahl der in einer Stadt zugelassenen Autos unter 1500 ccm? Diese Fragen zielen auf Summen von H¨ aufigkeiten bei ordinalen oder quantitativen Merkmalen, deren Merkmalsauspr¨ agungen der Gr¨ oße nach geordnet werden k¨ onnen. Man addiert die relativen H¨ aufigkeiten bis zu der durch die Frage
28
1 Beschreibende Statistik
bestimmten Stelle auf. Durch die Folge der Summen der relativen H¨ aufigkeiten kann eine Funktion bestimmt werden, die als die (kumulative) empirische Verteilungsfunktion H bezeichnet wird. H wird f¨ ur alle x ∈ IR definiert und nimmt nat¨ urlich nur Werte aus [0, 1] an. Bei der Gr¨ oße nach geordneten Merkmalsauspr¨ agungen a1 , a2 , . . . , as definiert man H(x) durch ⎧ ⎪ f¨ u r x < a1 ⎪ ⎨ 0 r H(x) := ur ar ≤ x < ar+1 , r + 1 < s . i=1 hn (ai ) f¨ ⎪ ⎪ ⎩ 1 f¨ ur x ≥ as Die empirische Verteilungsfunktion f¨ ur das Beispiel 1.3 (Klausurnoten) ist gegeben durch: ⎧ ⎪ 0 f¨ ur x < 1 ⎪ ⎪ ⎪ ⎪ 2 ⎪ f¨ ur 1 ≤ x < 2 ⎪ ⎪ 18 ⎪ ⎪ 7 ⎨ f¨ ur 2 ≤ x < 3 18 . H(x) = 13 ⎪ f¨ ur 3 ≤ x < 4 ⎪ 18 ⎪ ⎪ ⎪ 17 ⎪ ⎪ f¨ ur 4 ≤ x < 5 ⎪ 18 ⎪ ⎪ ⎩ 1 f¨ ur x ≥ 5 Die empirische Verteilungsfunktion ist bei diskreten Merkmalen (wie in diesem Beispiel) eine Treppenfunktion. Im folgenden Graphen bedeutet der Punkt •, dass der Funktionswert bei x = ar angenommen wird. Die empirische Verteilungsfunktion ist rechtsseitig stetig. Graph der empirischen Verteilungsfunktion f¨ ur Beispiel 1.3
In der Regel hat man es bei den angesprochenen Fragen mit klassierten Daten zu tun. Hier sind entsprechend die Klassenh¨ aufigkeiten aufzuaddieren (zu kumulieren). Hat man eine Klasseneinteilung mit den Klassen k1 , k2 , . . . , ks mit
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
29
ki = [xi−1 , xi [, und bedeutet hn (ki ) die relative H¨ aufigkeit der Klasse ki , so nimmt man als N¨ aherung der empirischen Verteilungsfunktion die Funktion H : IR → [0, 1] mit ⎧ ⎪ f¨ ur x < x 0 ⎪ ⎨ 0 r H(x) := ur x ∈ kr , also xr−1 ≤ x < xr , 1 ≤ r < s . i=1 hn (ki ) f¨ ⎪ ⎪ ⎩ 1 f¨ u r x ≥ xs F¨ ur die empirische Verteilungsfunktion des Beispiels 1.6 (K¨ orpergewicht von Kindern) erhalten wir, wenn wir die vier Klassen [20, 30[,
[30, 40[,
[40, 50[,
[50, 60[
bilden, das folgende Bild:
1.2.3
Lageparameter
Zur Beschreibung der Daten, insbesondere wenn die Daten sehr umfangreich sind, gibt man geeignet gew¨ ahlte Kennziffern (statistische Maßzahlen, auch Parameter genannt) an. Sie sollen die Daten gut repr¨ asentieren, u ¨ berschaubar und mit Daten aus ¨ ahnlichen Erhebungen vergleichbar machen. Man unterscheidet zwischen Lageparametern und Streuungsparametern. Die Lageparameter wie z. B. arithmetisches Mittel, Median usw. geben Aufschluss u ¨ber das Zentrum einer Verteilung. Die Streuungsparameter wie z. B. Spannweite, empirische Standardabweichung geben Aufschluss u ¨ber die Streuung der Werte einer Verteilung. Lageparameter und Streuungsparameter erg¨ anzen also einander und geh¨ oren zur genaueren Beschreibung einer Verteilung zusammen. Wir besprechen zun¨ achst die Lageparameter arithmetisches Mittel, geometrisches Mittel, harmonisches Mittel, Median (allgemeiner: Quantile) und den Modalwert.
30
1 Beschreibende Statistik
Dass eine Besch¨ aftigung mit Mittelwerten dringend geboten erscheint, ergibt sich aus Erfahrungsberichten: 1975 fand der National Assessment of Educational Progress, dass nur 69 % der Erwachsenen richtig einen einfachen Mittelwert berechnen konnten, und dass 45 % der Erwachsenen Schwierigkeiten hatten, eine Steuertabelle zu gebrauchen (vgl. Goodmann [60]). Untersuchungen von Barr [8] zeigten, dass Studenten (69 % studierten Ingenieurwissenschaften, 31 % Naturwissenschaften) nur oberfl¨ achliche Vorstellungen von Median und Modalwert hatten. Aufgrund einer Analyse der verwirrten Ansichten kann man annehmen, dass die Studenten zum Teil nicht wussten, wie eine H¨ aufigkeitstabelle konstruiert ist. Shahani [161] zeigt an einigen eindrucksvollen Beispielen, wie die falsche Verwendung von Mittelwerten in bestimmten Sachzusammenh¨ angen u ¨berraschend falsche Aussagen liefern kann. H.-J. Schmidt [151] berichtet u uler aufgrund ¨ ber einen Test, bei dem Sch¨ von 4 Versuchen die Formel f¨ ur Quecksilberoxid herleiten sollten. 57,7 % der Sch¨ uler benutzten bei der L¨ osung lediglich Einzelwerte, sie tun so, als ob nur 1 Versuch vorliegt. Wird eine Mittelwertbildung aus den 4 Versuchen vorgenommen, so ist sie in 16,3 % prinzipiell falsch. Die S¨ uddeutsche Zeitung berichtet in ihrem Magazin vom 21.08.1998 u ¨ ber eine EMNID-Umfrage. Befragt wurden 1000 Deutsche: Was bedeutet 40 %? Es war eine von den drei Antwortm¨ oglichkeiten a) ein Viertel, b) 4 von 10, c) jeder Vierzigste auszuw¨ ahlen. Ein Drittel der Befragten gab eine falsche Antwort.
Arithmetisches Mittel Das arithmetische Mittel ist der wohl bekannteste und am h¨ aufigsten gebrauchte Mittelwert.
Definition 1.2 (Arithmetisches Mittel) Es seien x1 , x2 , . . . , xn Daten eines quantitativen Merkmals. Dann heißt 1 x 1 + x 2 + x 3 + . . . + xn xi = n n n
x ¯ :=
(1.1)
i=1
arithmetisches Mittel dieser Daten.
Man bildet also die Summe aller Daten und dividiert die Summe durch die Anzahl der Daten.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
31
Didaktische Hinweise und Erg¨ anzungen 1.
2.
Das arithmetische Mittel kann nur bei quantitativen Merkmalen benutzt werden, denn nur diese Merkmale gestatten die Durchf¨ uhrung der zur Berechnung des arithmetischen Mittels notwendigen Operationen. Aus der obigen Definitionsgleichung (1.1) f¨ ur das arithmetische Mittel folgt durch eine elementare Umformung n·x ¯ = (x1 + x2 + x2 + . . . + xn ) =
n
xi ,
i=1
3.
d. h. die Summe aller n Einzelwerte kann man sich ersetzt denken durch das Produkt n · x ¯, also durch die Summe von n gleich großen (errechneten) Werten x ¯. Das arithmetische Mittel x ¯ nimmt also eine Ersatzfunktion wahr. Wenn man die Summe von n realen Daten unterschiedlicher Gr¨ oße gem¨ aß Punkt 2. durch die Summe von n gleich großen Daten der Gr¨ oße x ¯ ersetzen kann, ergibt sich daraus durch einfache Rechnung n
(xi − x ¯) = 0.
i=1
4.
5.
Das bedeutet: Die algebraische Summe der Abweichungen (nach oben und nach unten) aller Daten xi (i = 1, 2, 3, . . . , n) von ihrem arithmetischen Mittel x ¯ ist Null. Diese Eigenschaft k¨ onnte man auch als definierende Eigenschaft f¨ ur die Definition des arithmetischen Mittels w¨ ahlen. Das hat aber den Nachteil, dass dann die Definition nicht unmittelbar eine Berechnungsvorschrift f¨ ur das arithmetische Mittel liefert. Das arithmetische Mittel wird von einzelnen Daten, die extrem von den anderen Daten abweichen, stark beeinflusst. Wir betrachten ein Beispiel: F¨ unf Sch¨ uler wollen das restliche Geld von einer Fahrt, das jeder noch hat, unter sich aufteilen, so dass jeder gleich viel hat. A besitzt 3 Euro, B 2 Euro, C noch 5 Euro, D 1 Euro, E noch 4 Euro. Es betr¨ agt x ¯ = 3 Euro. Hat Sch¨ uler E statt 4 Euro noch 15 Euro, so ist der neue Mittelwert x ¯ = 26 : 5 = 5, 2 [Euro]. F¨ ur eine Berechnung des arithmetischen Mittels kann die unter Punkt 3. genannte Beziehung einen interessanten Weg er¨ offnen. Man geht von einem angenommenen Wert als arithmetisches Mittel aus und versucht durch Ausnutzen der Eigenschaft 3. das exakte arithmetische Mittel zu bestimmen. Wir erl¨ autern das Verfahren zur Bestimmung des arithmetischen ” Mittels durch Korrektur eines gesch¨ atzten arithmetischen Mittels“ zun¨ achst am Beispiel unter Punkt 4 (Geldbetr¨ age von 5 Sch¨ ulern). Wir gehen aus von einem beliebigen Wert als Sch¨ atzwert f¨ ur x ¯. F¨ ur das konkrete Beispiel w¨ ahlen wir die Zahl 2,3. Jetzt bestimmen wir alle Abweichungen der realen Daten von 2, 3. Wir erhalten: 3 − 2, 3 = 0, 7; 2 − 2, 3 =
32
1 Beschreibende Statistik −0, 3; 5 − 2, 3 = 2, 7; 1 − 2, 3 = −1, 3; 4 − 2, 3 = 1, 7. Die Summe der Abweichungen betr¨ agt: 0, 7 − 0, 3 + 2, 7 − 1, 3 + 1, 7 = 3, 5. Jeder der f¨ unf realen Werte weicht also im Mittel um 3, 5 : 5 = 0, 7 vom gesch¨ atzten arithmetischen Mittel 2,3 ab. Deshalb addieren wir 0,7 zu 2,3. Wir erhalten 3, diese Zahl ist das arithmetische Mittel im Beispiel. In Aufgabe 1 des Abschnitts 1.2.8 ist das Verfahren allgemein zu beschreiben und zu begr¨ unden.
Gewogenes arithmetisches Mittel Treten Daten mehrfach auf, kann man sie als Summe gleicher Summanden zu einem Produkt zusammenfassen. Wir formulieren den Sachverhalt allgemein: Sind x1 , x2 , x3 , . . . , xn Daten eines quantitativen Merkmals und kommt xi insur das arithmetische Mittel gesamt gi mal vor, so gilt f¨ n gi xi g1 x1 + g2 x2 + . . . + gn xn = i=1 . (1.2) x ¯= n g1 + g2 + . . . + gn i=1 gi Die Faktoren gi in Gleichung (1.2) dr¨ ucken also aus, wie oft die Daten xi jeweils in der Liste vorkommen. Gleichung (1.2) kann aber auch so gedeutet werden, dass einige Daten ein anderes (vielleicht ein h¨ oheres) Gewicht“ haben als andere. In Verallgemeine” rung f¨ uhrt das zu folgender
Definition 1.3 (Gewogenes arithmetisches Mittel) Sind x1 , x2 , x3 , . . . , xn Daten eines quantitativen Merkmals, so heißt n gi xi g1 x1 + g2 x2 + . . . + gn xn = i=1 x ¯ := n g1 + g2 + . . . + gn i=1 gi n mit gi ≥ 0 f¨ ur i = 1, 2, 3, . . . , n, und i=1 gi > 0 gewogenes arithmetisches Mittel der Daten. Die nichtnegativen Zahlen gi heißen Gewichtungsfakto ren oder kurz Gewichtsfaktoren. Das gewogene arithmetische Mittel kommt in der Praxis h¨ aufig vor, beispielsweise zur Berechnung der Tagesdurchschnittstemperatur: Zur Berechnung der Tagesdurchschnittstemperatur benutzt man vier Messwerte. Sie werden in 2 m H¨ ohe u ¨ ber dem Erdboden gemessen, und zwar um 7 Uhr, 14 Uhr und 21 Uhr. Die Temperatur um 21 Uhr geht mit dem Gewichtsfaktor 2 ein. Die Tagesmittel werden also berechnet nach der Formel 7h + 14h + 2 · 21h . 4 (Quelle: Statistisches Jahrbuch 2009 f¨ ur die Bundesrepublik Deutschland. Wiesbaden 2009, S. 26.)
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
33
Hat man Daten in gruppierter Form vorliegen (klassierte Daten), so ist das arithmetische Mittel aller Beobachtungen leicht zu berechnen, wenn die arithmetischen Mittel in jeder Klasse bekannt sind oder berechnet werden k¨ onnen. Sind n Beobachtungswerte x1 , x2 , . . . , xn gegeben und liegen s Klassen k1 , k2 , . . . , ks vor, und bezeichnet Hn (i) die Anzahl der Merkmale in der i-ten Klasse, so ist: 1 x ¯i · Hn (i) n
1 · xi , Hn (i)
s
x ¯=
mit
x ¯i
=
falls Hn (i) = 0,
xi ∈ki
i=1
sonst x ¯i = 0. aufig nicht x ¯i ist also das arithmetische Mittel der i-ten Klasse. Dieses ist aber h¨ bekannt. Als N¨ aherung f¨ ur das arithmetische Mittel kann dann der Wert 1 ∗ xi · Hn (i) n s
x ¯=
i=1
genommen werden. Hierbei sind x∗i die Klassenmitte und Hn (i) die Klassenh¨ aufigkeit der i-ten Klasse. Didaktischer Hinweis Die Wahl der Klassen kann die Gr¨ oße des arithmetischen Mittels ganz entscheidend beeinflussen wie das folgende Beispiel zeigt. Beispiel 1.7 (Gehaltsstatistik eines Betriebes (Monatlicher Bruttolohn) Gehaltsklassen (in Euro)
Anzahl der Mitarbeiter Hn (i)
von 1000 bis unter 1400
8
von 1400 bis unter 1600
10
von 1600 bis unter 1800
10
von 1800 bis unter 2000
10
von 2000 bis unter 3000
2
8 10 10 10 2 + 1500 · + 1700 · + 1900 · + 2500 · = 1640 [Euro]. 40 40 40 40 40 Fasst man die letzten zwei Klassen zusammen, so erh¨ alt man unter Beibehaltung der anderen Klassen f¨ ur dieselbe Gehaltsstatistik die folgende Tabelle: x ¯ = 1200 ·
Gehaltsklassen (in Euro)
Anzahl der Mitarbeiter Hn (i)
von 1000 bis unter 1400
8
von 1400 bis unter 1600
10
von 1600 bis unter 1800
10
von 1800 bis unter 3000
12
34
1 Beschreibende Statistik
Bei dieser Klasseneinteilung betr¨ agt das arithmetische Mittel x ¯ = 1760 [Euro]. Man erkennt, dass man durch geschickte“ Wahl der Klassen g¨ unstigere Er” gebnisse erzielen kann. Das ist eine h¨ aufig genutzte Manipulationsm¨ oglichkeit.
Geometrisches Mittel Wir zeigen zun¨ achst, dass das arithmetische Mittel f¨ ur den im folgenden Beispiel angesprochenen Sachzusammenhang kein angemessener Mittelwert zur Charakterisierung der Daten ist. Aufgrund dieser Erkenntnis stellt sich dann die Frage nach einem anderen Mittelwert als Kennzahl, der die Situation besser beschreibt. ¨ Diese Uberlegungen f¨ uhren zum geometrischen Mittel. Beispiel 1.8 (Bev¨ olkerungsentwicklung) Die folgende Tabelle gibt einen fiktiv angenommenen Wachstumsprozess der Bev¨ olkerung einer Stadt in vier aufeinanderfolgenden Jahren wieder. Jahr
Anzahl der Bewohner
Zuwachsrate in %
2000
100 000
–
2001
150 000
50
2002
195 000
30
2003
214 500
10
2004
257 400
20
Wie die Tabelle erkennen l¨ asst, beziehen sich die angegebenen prozentualen Zuwachsraten stets auf das vorangegangene Jahr als Basisjahr. Wir fragen, um wieviel Prozent die Bev¨ olkerung im Durchschnitt“ in jedem der vier Jahre ” zugenommen hat. Bildet man als L¨ osung das arithmetische Mittel der Zuwachsraten, so erh¨ alt man (50 + 30 + 10 + 20) : 4 = 27, 5 [%]. Berechnet man bei Zugrundelegung eines j¨ ahrlichen Zuwachses von 27,5 % die Anzahl der Bewohner f¨ ur das Jahr 2004, erh¨ alt man (ausgehend von 100 000) sukzessive f¨ ur die Anzahl der Bewohner 2001: 127500, 2002: 162562, 2003: 207266, 2004: 264264. Durch diese Berechnung erh¨ alt man f¨ ur das Jahr 2004 also 6864 Bewohner mehr als tats¨ achlich gez¨ ahlt wurden. Das arithmetische Mittel 27,5 % ist zu groß. Ergebnis: Das arithmetische Mittel ist in diesem Sachzusammenhang (Wachstumsraten) offenbar nicht der angemessene Mittelwert. Denn man m¨ ochte ja bei Anwendung des Mittelwertes, also bei Anwendung ein und derselben Zahl, auf alle Bezugseinheiten dasselbe Gesamtergebnis erhalten (im Beispiel 257400) wie bei der
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
35
Anwendung der jeweils konkreten Zuwachsraten auf die einzelnen Einheiten. Im obigen L¨ osungsweg wurde nicht beachtet, dass die angegebenen Wachstumsraten verschiedene Bezugspunkte haben: Unter Ber¨ ucksichtigung der verschiedenen Bezugspunkte f¨ uhrt das zu der Gleichung 1, 5 · 1, 3 · 1, 1 · 1, 2 · 100000 = 257400. Der gesamte Wachstumsprozess wird also durch das Produkt der 4 Zahlen 1, 5 · 1, 3 · 1, 1 · 1, 2 = 2, 574 ad¨ aquat beschrieben. Wir suchen jetzt eine mit Hilfe der Zahlen 1,5; 1,3; 1,1 und 1,2 gebildete Zahl g, die als Ersatz f¨ ur die vier verschiedenen Zahlen dasselbe Ergebnis 2,574 liefert. Das f¨ uhrt zum Ansatz g·g·g·g g
4
g
=
1, 5 · 1, 3 · 1, 1 · 1, 2
=
2, 574 4 2, 574 = 1, 26664.
=
Aus den vier gegebenen Wachstumsfaktoren 1,5; 1,3; 1,1 und 1,2 haben wir einen neuen Wachstumsfaktor 1,26664 f¨ ur alle vier Jahre gefunden. Der in obiger Rechnung als Ersatz gefundene Wachstumsfaktor g = 1, 26664 bedeutet also eine durchschnittliche Wachstumsrate (einen durchschnittlichen Zuwachs) von 0,26664 bzw. 26,664 %. Eine Probe hat f¨ ur Lernende eine große ¨ Uberzeugungskraft: (((100000 · 1, 26664) · 1, 26664) · 1, 26664) · 1, 26664 = 257402, 5. Der mit Hilfe der mittleren Zuwachsrate 0,26664 errechnete Endzustand der Anzahl der Bewohner im Jahr 2004 stimmt also mit der in der Tabelle angegebenen Zahl fast u ahrliche mittlere prozentuale ¨ berein. Die Zahl 26,664 % als j¨ Zuwachsrate beschreibt also den Sachzusammenhang wesentlich besser als das arithmetische Mittel 27,5 %. √ Die Zahl g = 4 1, 5 · 1, 3 · 1, 1 · 1, 2 heißt das geometrische Mittel der Zahlen 1,5; 1,3; 1,1; 1,2. Aus den Wachstumsfaktoren xi lassen sich nat¨ urlich sofort auch die Wachstumsraten ri berechnen: ri = xi − 1. Konkret f¨ ur das Beispiel erhalten wir: r1 = 1, 5−1 = 0, 5 = 50 %; r2 = 1, 3−1 = 0, 3 = 30 % usw.
36
1 Beschreibende Statistik
Wir fassen die dem Beispiel inneliegende Struktur allgemein zusammen: Gegeben sind zeitliche Beobachtungswerte (Wachstumsraten): Gegeben ist eine Gr¨ oße A, die in den Zeitpunkten t0 , t1 , t2 , . . . , tn mit t0 < t1 < t2 < . . . < tn die Werte A0 , A1 , A2 , . . . , An annimmt. Ferner gilt Ai = xi · Ai−1 mit einem Wachstumsfaktor xi f¨ ur i = 1, 2, . . . , n. F¨ ur An erh¨ alt man dann An = (x1 · x2 · . . . · xn )A0 . Der Gesamtwachstumsfaktor f¨ ur den letzten Wert An bezogen auf A0 ist also x1 · x2 · . . . · xn . Ein aus x1 , x2 , . . . , xn gebildetes Mittel dient als Ersatz f¨ ur die xi . Man setzt: An = g n · A 0 Die Zahl g = x 1 , x2 , . . . , x n .
√ n
mit
g n = x1 · x2 · . . . · xn .
x1 · x2 · . . . · xn heißt das geometrische Mittel der Zahlen
Definition 1.4 (Geometrisches Mittel) Es seien x1 , x2 , . . . , xn n Daten eines quantitativen Merkmals mit xi > 0 f¨ ur i = 1, 2, . . . , n. Dann heißt die Zahl x ¯g :=
√ n x 1 · x2 · . . . · xn
das geometrische Mittel dieser Daten. Analog zum gewogenen arithmetischen Mittel l¨ asst sich auch hier das gewogene geometrische Mittel definieren: x ¯g :=
G
xg11 · xg22 · . . . · xgnn
mit
G=
n
gi .
i=1
Harmonisches Mittel Das harmonische Mittel ist wie das arithmetische und geometrische Mittel ein errechneter Wert und f¨ ur quantitative Merkmale definiert. Es ist ein selten gebrauchter Lageparameter und ergibt sich – wie wir in den folgenden zwei Beispielen zeigen – auch aus dem L¨ osungsweg zur Bestimmung eines angemessenen Mittelwerts bei bestimmten Sachproblemen, ohne dass Kenntnisse u ¨ ber das harmonische Mittel vorausgesetzt werden m¨ ussen. Das l¨ asst sich bei Kenntnis der Definition auch erahnen.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
37
Definition 1.5 (Harmonisches Mittel) Es seien n Daten x1 , x2 , . . . , xn eines quantitativen Merkmals mit xi > 0 f¨ ur i = 1, 2, . . . , n gegeben. Dann heißt die Zahl x ¯h =
1 1 n ( x1
+
1 x2
1 + ... +
1 xn )
n = n
1 i=1 xi
das harmonische Mittel der Daten x1 , x2 , . . . , xn .
(1.3)
Hinweis: Wie beim arithmetischen und geometrischen Mittel l¨ asst sich auch analog das gewogene harmonische Mittel definieren. Didaktischer Hinweis Die Berechnung des harmonischen Mittels erfolgt, indem man den Stichprobenumfang n durch die Summe aller Kehrwerte x1i dividiert. Man kann also vermuten, dass man den Durchschnittswert der Daten eines konkreten Sachproblems, f¨ ur das das harmonische Mittel ein ad¨ aquater Durchschnittswert ist, auch ohne Kenntnis der Definition bestimmen kann. Wir betrachten dazu das folgende Beispiel Durchschnittsgeschwindig” keit“: Ein Zug f¨ ahrt die ersten 100 km mit einer konstanten Geschwindigkeit von 70 km/h, die zweiten 100 km mit einer konstanten Geschwindigkeit von 110 km/h. Wie groß ist seine Durchschnittsgeschwindigkeit? Zur L¨ osung berechnen wir zun¨ achst die Gesamtfahrtzeit des Zuges f¨ ur 200 km. 100 10 Die ersten 100 km legt der Zug in 70 h = 7 h zur¨ uck, die zweiten 100 km in 100 10 10 h. Die Gesamtfahrzeit betr¨ a gt also: h + h = 180 ur die 110 7 11 77 h = 2, 34 h. F¨ gesuchte Durchschnittsgeschwindigkeit erh¨ alt man dann: 200 :
180 km/h ≈ 85, 56 km/h. 77
Die alleinige Anwendung der Definition 1.5 liefert aber kaum einen Beitrag zur Einsicht, dass der richtige“ Mittelwert f¨ ur das Sachproblem bestimmt wurde. ” Das Beispiel Durchschnittsgeschwindigkeit spricht ein typisches Problem an, bei dem zur L¨ osung das harmonische Mittel der angemessene Lageparameter ist. Es handelt sich um eine Mittelung von Geschwindigkeiten auf gleichlangen Wegstrecken. Eine andere Situation liegt bei folgender Aufgabenstellung vor: Ein Zug f¨ ahrt eine Stunde mit konstanter Geschwindigkeit von 70 km/h und eine zweite Stunde mit konstanter Geschwindigkeit von 110 km/h. Wie groß ist seine Durchschnittsgeschwindigkeit? Jetzt ist das arithmetische Mittel der angemessene = 90 [km/h]. Mittelwert: 70+110 2 Ein weiteres typisches Problem f¨ ur die Verwendung des harmonischen Mittels ist die Berechnung des Durchschnittspreises bei vorgegebenem gleichen Kapitalaufwand.
38
1 Beschreibende Statistik
Gr¨ oßenvergleich dieser drei Mittelwerte Zwischen arithmetischem, geometrischem und harmonischem Mittel besteht eine interessante Gr¨ oßenrelation. Es gilt:
Satz 1.1 ur alle i = 1, 2, . . . , n, dann Seien x1 , x2 , . . . , xn metrische Daten mit xi > 0 f¨ gilt stets x ¯h ≤ x ¯g ≤ x ¯. Das Gleichheitszeichen gilt nur dann, wenn x1 = x2 = . . . = xn ist.
Didaktische Hinweise 1. 2.
3.
In Aufgabe 7 des Abschnitts 1.2.8 ist Satz 1.1 f¨ ur den Fall n = 2 zu beweisen. F¨ ur den allgemeinen Fall gibt es eine Reihe von unterschiedlichen Beweisen, die aber alle nicht ganz trivial sind. Ausgehend von der Aussage in Aufgabe 7 kann man einen Beweis durch vollst¨ andige Induktion f¨ uhren. ¯. Zweckm¨ aßig beweist man zun¨ achst die rechte Ungleichung x ¯g ≤ x Im Werk von Mangoldt/Knopp [120], S. 128ff ist ein besonders kurzer Beweis f¨ ur Satz 1.1 angegeben. Wir weisen ferner hin auf Ostrowski [126], S. 35ff und auf Dallmann/Elster [36], S. 33. Hat man x ¯g ≤ x ¯ bewiesen, folgt leicht x ¯h ≤ x ¯g . Zun¨ achst gilt: 1 1 1 1 n · · ... · = √ , n x 1 x2 xn x1 · x 2 · . . . · x n d. h. das geometrische Mittel der Zahlen x11 , x12 , . . . , x1n ist gleich dem reziproken Wert des geometrischen Mittels der Werte x1 , x2 , . . . , xn . Wir betrachten jetzt die Zahlen yi = x1i (1 ≤ i ≤ n) und wenden jetzt das bewiesene Ergebnis y¯g ≤ y¯ an: y¯g √ n y1 · y2 · . . . · yn
≤
1 1 1 · · ... · x1 x2 xn
≤ ≤
⇔
1 √ n x1 · x 2 · . . . · x n √ n x1 · x 2 · . . . · x n
d. h.
x ¯g
≥
⇔ ⇔
n
≤
≥
y¯ 1 (y1 + y2 + . . . + yn ) n
1 1 1 1 + + ... + n x1 x2 xn
1 1 1 1 + + ... + n x1 x2 xn n 1 + x12 + . . . + x1n x1 x ¯h .
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten 4.
39
F¨ ur die Sekundarstufe I ist ein geometrischer Beweis f¨ ur eine Teilaussage des obigen Satzes 1.1 interessant: Seien a und b zwei quantitative Daten mit a > 0 und b > 0 und a = b. Dann gilt 2·a·b √ a+b < a·b< , a+b 2 d. h. das geometrische Mittel zweier positiver, ungleicher Zahlen ist kleiner als das arithmetische, aber gr¨ oßer als das harmonische Mittel dieser Zahlen.
Der Beweis kann auf geometrischem Wege gef¨ uhrt werden. Man betrachte folgende Zeichnung:
albkreis uber gew¨ a m verbinAuf dem Halbkreis u ¨ ber der Strecke AB wird ein Punkt C gewahlt; ¨hlt; man telpunkt M von AB mit C. Von C aus wird das Lot auf die d Strecke det den Mittelpunkt AB gef¨ allt, der Lotfußpunkt sei D. Von D aus wird das Lot auf die Strecke St MC (ma wendet gef¨ allt, der Lotfußpunkt sei E. Sei a = AD, b = DB. Dann gilt (man uber u. a. S¨ atze u ¨ber rechtwinklige Dreiecke an): M C = 12 (a + b), √ CD = a · b, 2 CE = 2·a·b a+b = 1 + 1 . a
b
Man erkennt nun an der Zeichnung a+b 2·a·b √ < a·b< . a+b 2 Die folgenden zwei Mittelwerte k¨ onnte man im Vergleich zu dem arithmetischen, geometrischen und harmonischen Mittel, die wir als errechnete Mittelwerte bezeichneten, als Mittelwerte der Lage bezeichnen: Median (allgemeiner Quantile) und Modalwert.
40
1 Beschreibende Statistik
Median Der Median (Zentralwert, englisch: median) ist dadurch bestimmt, dass er in der Mitte“ der Reihe einer der Gr¨ oße nach geordneten Datenmenge liegt. Min” destens 50 % der Daten sind kleiner oder gleich und mindestens 50 % der Daten sind gr¨ oßer oder gleich der Daten (50-%-Punkt der Daten). Zur Bestimmung des Medians werden keine quantitativen Merkmale ben¨ otigt, es gen¨ ugen Rangmerkmale. oße nach geordnet sind, durch Es ist u ¨ blich, Daten x1 , x2 , . . . , xn , die der Gr¨ runde Klammern in den Indizes zu kennzeichnen. Das wird in der folgenden Definition benutzt.
Definition 1.6 (Median) oße nach geordnete n Daten. Als Seien x(1) ≤ x(2) ≤ x(3) ≤ . . . ≤ x(n) der Gr¨ ahlt man Median, den man mit x0,5 bezeichnet, w¨ 1.
bei Daten von Rangmerkmalen die Zahl
x0,5 := 2.
x( n+1 )
bei ungeradem n
2
x( n2 ) oder x( n2 +1)
bei geradem n
bei quantitativen nicht gruppierten Daten die Zahl
x0,5 :=
x( n+1 )
bei ungeradem n
2
1 n 2 (x( 2 )
+ x( n2 +1) )
bei geradem n
Anmerkung zu 1. F¨ ur eine gerade Anzahl n von Daten hat sich bei Rangmerkmalen keine einheitliche Festlegung des Medians durchgesetzt. Gelegentlich w¨ ahlt man auch wie bei quantitativen Merkmalen das arithmetische Mittel aus x( n2 )
und
x( n2 +1) .
Bei gruppierten Daten kann man nur die Klasse angeben, in der der Median liegt, denn man kennt ja in der Regel nicht die einzelnen Daten in der Klasse. Bei geometrischer Interpretation kann man mit Bezug auf die empirische Verteilungsfunktion sagen, dass der Median in der Klasse liegt, in der die empirische Verteilungsfunktion den Wert 0,5 erreicht. Bei quantitativ gruppierten Daten bestimmt man h¨ aufig den Median approximativ. Ist [xr−1 , xr [ die Medianklasse, so berechnet man den Median durch x0,5 = xr−1 + Hierbei bedeuten
0, 5 −
r−1
hn (ki ) · Δkr . hn (kr ) i=1
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
41
r−1
hn (ki ) die aufaddierten (kumulierten) relativen H¨ aufigkeiten aller Klassen, die kleiner als die Klasse sind, in der der Median liegt, hn (kr ) die relative H¨ aufigkeit der Klasse kr , in der der Median liegt, Δkr die Breite der Klasse kr . i=1
Die Bestimmung des Medians ist also recht einfach, wenn man von der Approximation bei gruppierten Daten absieht. Der Median kann durch Abz¨ ahlen oder durch einfache Rechnung (arithmetisches Mittel zweier Werte) bestimmt werden. Wird der Median als arithmetisches Mittel zweier benachbarter Daten, die voneinander verschieden sind, berechnet, so entspricht dem Median nat¨ urlich kein konkreter Datenwert. Im Beispiel 1.7 (Gehaltsstatistik eines Betriebes) liegt der Median x0,5 in der Klasse von 1600 bis unter 1800 Euro“. Rechnerische Bestimmung: ” 8 0, 5 − ( 40 +
10 40 )
· 200
x0,5
=
1600 +
x0,5
=
1600 + 40 = 1640 [Euro].
10 40
Der Median stimmt in diesem Beispiel mit dem arithmetischen Mittel u ¨ berein. F¨ ur quantitative Merkmale besitzt der Median eine wichtige Eigenschaft, die sogenannte Minimumseigenschaft des Medians.
Satz 1.2 (Minimumseigenschaft des Medians) Seien x1 , x2 , . . . , xn quantitative Daten. Die Summe der absoluten Abweichungen aller Daten xi von ihrem Median ist kleiner oder gleich der Summe aller absoluten Abweichungen der Daten xi von irgendeinem anderen Wert c, ist also ein Minimum. Es gilt: n i=1
|xi − x0,5 | ≤
n
|xi − c|
f¨ ur beliebiges c ∈ R.
i=1
Der arithmetische Nachweis dieser Eigenschaft erfordert einigen Rechenaufwand. Man macht zweckm¨ aßigerweise eine Fallunterscheidung und betrachtet die F¨ alle, dass die Anzahl der Daten gerade bzw. ungerade ist. (Siehe L¨ osung von Aufgabe 9 des Abschnitts 1.2.8.) Einen sch¨ onen graphischen Nachweis findet man in Bentz [15] und in Bentz/Borovcnik [16]. Dieser Beweis ist auch in der Sekundarstufe I m¨ oglich. Diese Eigenschaft des Medians ist der Hintergrund f¨ ur eine klassische“ An” wendung des Medians, die auch in Schulb¨ uchern zu finden ist. Es handelt sich darum, ein Standortproblem“ zu l¨ osen. ”
42
1 Beschreibende Statistik
Beispiel 1.9 (Standortproblem) Ein Unternehmen muss entlang einer Straße sieben Gesch¨ afte w¨ ochentlich einmal beliefern. Wo ist an dieser Straße der Standort des Unternehmens mit Lager einzurichten damit die Gesamtstrecke zu allen Gesch¨ aften m¨ oglichst kurz ist? afte, L¨ osung: Bezeichnet man mit xi (i = 1, 2, . . . , 7) die Lage der sieben Gesch¨ so ist eine Zahl a gesucht, so dass 7i=1 |xi − a| minimal ist. Nach obigem Satz besitzt der Median diese lineare Minimumseigenschaft. F¨ ur konkrete Situationen und f¨ ur eine spezielle Fragestellung l¨ asst sich das Standortproblem im Unterricht der Sekundarstufe I elementar behandeln. Die Lage der sieben Gesch¨ afte 1, 2, 3, 4, 5, 6, 7 an der Straße sei so wie in nachfolgender Skizze angegeben. Zwischen den Positionen der Gesch¨ afte sind die Entfernungen benachbarter Gesch¨ afte in km angegeben. Wir fragen jetzt speziell, bei welchem Gesch¨ aft das Lager einzurichten ist, damit die Gesamtstrecke zur Belieferung aller Gesch¨ afte minimal ist. 20 1
10
30
2 3
20 4
30
20
5
7
6
Nach der Minimumseigenschaft des Medians ist das Lager bei Gesch¨ aft Nr. 4 einzurichten. Sch¨ uler k¨ onnen das Ergebnis bei unserer speziellen Fragestellung konkret u ufen, indem sie eine Entfernungstabelle f¨ ur die Gesch¨ afte auf¨ berpr¨ stellen: 1
2
3
4
5
6
7
Summe
1
–
20
30
60
80
110
130
430
2
20
–
10
40
60
90
110
330
3
30
10
–
30
50
80
100
300
4
60
40
30
–
20
50
70
270
5
80
60
50
20
–
30
50
290
6
110
90
80
50
30
–
20
380
7
130
110
100
70
50
20
–
480
Summe
430
330
300
270
290
380
480
Aus der Tabelle liest man ab, dass f¨ ur den Standort des Lagers bei Gesch¨ aft Nr. 4 die Summe der Entfernungskilometer kleiner ist als bei den anderen Gesch¨ aften.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
43
Modalwert Geht es bei Untersuchungen um Krankheiten bzw. Warenfehler, so kann ein Interesse daran bestehen, die h¨ aufigste Krankheit bzw. den h¨ aufigsten Fehler einer Ware zu kennen. Der hierf¨ ur geeignete Lageparameter ist der Modalwert (im Franz¨ osischen: valeur normale, im Englischen: mode): agung, die am h¨ aufigsten vorDer Modalwert xM od ist die Merkmalsauspr¨ kommt. Der Modalwert heißt auch Modus oder dichtester Wert. Der Modalwert ist sehr einfach zu bestimmen und sehr wirklichkeitsnah. Der Modalwert braucht jedoch nicht eindeutig zu sein. Bei mehrgipfligen Verteilungen k¨ onnen zwei oder mehrere lokale H¨ aufigkeitsstellen als lokale Modalwerte vorhanden sein. Bei gruppierten Daten nimmt man als Modalwert den Repr¨ asentanten (die Klassenmitte) der Klasse mit der gr¨ oßten H¨ aufigkeit.
p-Quantil Definition 1.7 (p-Quantil) Sei x(1) ≤ x(2) ≤ x(3) ≤ . . . ≤ x(n) eine geordnete Messreihe. Dann heißt die Zahl xp , f¨ ur die gilt: mindestens p·100 % der Daten liegen vor xp und mindestens (1 − p) · 100 % der Daten liegen nach der Zahl xp das p-Quantil. Das p-Quantil wird berechnet durch: xp := x([np]+1) , 1 xp := (x(np) + x(np+1) ), 2
falls np nicht ganzzahlig ist, falls np ganzzahlig ist.
Hinweise: 1. 2.
oßte ganze Zahl, die Unter dem Symbol [np] in x([np]+1) versteht man die gr¨ kleiner oder gleich np ist. F¨ ur p = 0, 5 erh¨ alt man den Median. In der Praxis treten p-Quantile h¨ aufig auf. Es sind die folgenden Bezeichnungen u ¨ blich (Auswahl): x0,25
heißt erstes Quartil (auch unteres Quartil),
x0,5
heißt zweites Quartil (Median),
x0,75
heißt drittes Quartil (auch oberes Quartil),
x0,1
heißt erstes Dezil,
heißt neuntes Dezil. x0,9 Das untere Quartil x0,25 , der Median x0,5 und das obere Quartil x0,75 spielen im box-plot-Diagramm (graphische Darstellung einer Datenmenge) eine große Rolle.
44
1 Beschreibende Statistik
Abschließende Bemerkungen 1.
Die verschiedenen Mittelwerte besitzen unterschiedliche sachlogische Bedeutungen. Zun¨ achst ist die Wahl unter Ber¨ ucksichtigung der vorliegenden Merkmalsart zu treffen: – Der Modalwert ist der einzige Mittelwert, der bei allen Typen von Merkmalen anwendbar ist. Bei qualitativen Merkmalen ist er auch der einzige. – Der Median und die Quantile sind Kennziffern f¨ ur Rangmerkmale und quantitative Merkmale. – Arithmetisches Mittel, geometrisches Mittel und harmonisches Mittel sind bei quantitativen Merkmalen anwendbare Mittelwerte. Sie sollten nicht f¨ ur Rangmerkmale benutzt werden. Gibt es bei einer Merkmalsart mehrere M¨ oglichkeiten, so ist f¨ ur die rich” tige“ Entscheidung dann das konkrete Sachproblem heranzuziehen. Wir nennen einige typische Anwendungen f¨ ur die verschiedenen Mittelwerte: – Modalwert: Gr¨ oßtes Verkehrsaufkommen an einem Verkehrsknotenpunkt, gr¨ oßte Besucherzahl einer Einrichtung, h¨ aufigster Fehler einer Ware, h¨ aufigste Todesursache in einem bestimmten Alter, h¨ aufigste Krankheit in einem Land. – Median: Der Median kann als mittlerer Wert von Bedeutung sein bei Einkommensvergleichen, z. B. oberhalb und unterhalb liegen gleich viele Einkommensempf¨ anger. Besonders seit 1995 ( Jahr der Armut“) steht ” die wachsende Armut“ im Brennpunkt ¨ offentlichen Interesses. Gemeint ” ist stets die relative (nicht die absolute) Armut. Galt fr¨ uher als arm, wer weniger als die H¨ alfte des durchschnittlichen Einkommens der Vollzeitbesch¨ aftigten erhielt (arithmetisches Mittel), so wird heute der Median als Maßstab benutzt. In der EU gilt z. Zt. als arm, wer weniger als 60 % des Medians des Einkommens aller Vollzeitbesch¨ aftigen eines Landes zur Verf¨ ugung hat. – Geometrisches Mittel: Das geometrische Mittel wird angewandt, um die durchschnittliche relative Ver¨ anderung zu bestimmen, z. B.: durchschnittliche Wachstumsrate des Bruttosozialproduktes oder eiohungen. Bei ner Bev¨ olkerungsentwicklung oder prozentualer Lohnerh¨ ¨ ist es nicht sinnvoll, das arithmetische solchen relativen Anderungen Mittel zu berechnen. Man beachte, dass die Daten bei Anwendung des geometrischen Mittels nicht Null oder negativ sein d¨ urfen. – Harmonisches Mittel: Das harmonische Mittel dient z. B. zur Bestimmung der durchschnittlichen Geschwindigkeit bei Angaben der Geschwindigkeit f¨ ur gleichlange Teilstrecken und zur Ermittlung des Durchschnittspreises einer Ware mit verschiedenen Preisen aber mit gleichem Kostenaufwand.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
45
– Arithmetisches Mittel: Das arithmetische Mittel wird in der Praxis wohl am h¨ aufigsten benutzt. Warum besitzt das arithmetische Mittel eine solche Vorrangstelle? ∗ Es ist leicht zu berechnen, und die Reihenfolge der Daten spielt keine Rolle. Die Daten m¨ ussen also nicht der Gr¨ oße nach geordnet werden. ∗ Wenn man an die Berechnung des arithmetischen Mittels denkt, so erkennt man, dass man aus dem Mittelwert und der Anzahl der Daten die Summe der Daten berechnen kann (n · x ¯= n i=1 xi ) oder aus der Summe der Daten und dem Mittelwert die Anzahl der Daten. Hier liegen Vorteile gegen¨ uber dem Median und Modalwert. ∗ Das arithmetische Mittel ist der Mittelwert, der sp¨ ater zur weiteren Charakterisierung der Datenmenge durch Streuungsmaße eine wichtige Rolle spielt. 2.
3.
Ein weiterer Gesichtspunkt soll noch angesprochen werden: Das Problem der Ausreißer. Es handelt sich bei Ausreißern um Daten, die (extrem) weit weg isoliert von der Mehrzahl der Daten liegen. Beispiel: Wenn die monatlichen Einkommen (in Euro) von 9 Personen 1600, 1700, 1500, 2000, 2100, 1800, 1900, 1650, 7000 betragen, so k¨ onnen 7000 Euro als Ausreißer angesehen werden. Soll man solche Ausreißer u ucksichtigen? Wenn ¨ berhaupt ber¨ man begr¨ undet annehmen kann, dass ein Erhebungsfehler oder Schreibfehler vorliegt, wird man Ausreißer gegebenenfalls unber¨ ucksichtigt lassen. Dieses muss aber bei der Auswertung der Daten in jedem Fall angegeben werden. Wie wirken sich Ausreißer auf die Mittelwerte aus? Modalwert und Median reagieren auf Ausreißer u ¨ berhaupt nicht. Man sagt, sie sind unempfindlich gegen¨ uber Ausreißern. Das kann nat¨ urlich als Nachteil angesehen werden. Arithmetisches Mittel, geometrisches Mittel und harmonisches Mittel werden aufgrund des Rechenvorgangs von jedem Einzelwert beeinflusst, also auch von Ausreißern. Das arithmetische Mittel reagiert st¨ arker auf Ausreißer als das geometrische Mittel. Diese Empfindlichkeit hat jedoch auch einen Vorteil: Ein ungew¨ ohnlicher“ Mittelwert gibt Veranlassung, kritisch ” auf die Daten selbst zu schauen. Wir beschließen diesen Abschnitt mit einem Hinweis auf ein interessantes Beispiel (Kundeneinzugsbereich) bei Bahrenberg/Giese [4], S. 14ff. Siehe auch K¨ utting [102], S. 101.
1.2.4
Streuungsparameter
Es gibt keine allgemeinen Richtlinien f¨ ur die Verwendung von Mittelwerten. Oberstes Gebot sollte immer sein: Der gew¨ ahlte Mittelwert sollte repr¨ asentativ f¨ ur die Datenmenge sein. Das kann er allein nicht leisten. Man ben¨ otigt noch eine Beschreibung der Streuung der Daten um den angegebenen Mittelwert. Ein
46
1 Beschreibende Statistik
klassisches“ Beispiel kann das Problem bewusst machen: Der Vergleich von ” Jahresdurchschnittstemperaturen von Quito und Peking. In Quito (in Ecuador ¨ am Aquator gelegen) herrscht ewiger Fr¨ uhling“ mit einer Temperatur stets um ” etwa 13 ◦ C durch das ganze Jahr, wohingegen in Peking die Temperaturen in der Jahreszeit schwanken zwischen fast 30 ◦ C und -6 ◦ C. Aber auch hier betr¨ agt die Jahresdurchschnittstemperatur etwa 13 ◦ C. ¨ Anmerkung: Das Aquatordenkmal in der Umgebung von Quito verfehlt um etwa ¨ 8 km den Aquator. Ganz allgemein bedeutet Streuung in einer Datenmenge die Abweichung der Messwerte voneinander, oder auch spezieller die Abweichung der Messwerte einer Datenmenge von einem Mittelwert der Datenmenge als Bezugspunkt. Beide Gesichtspunkte f¨ uhren zu spezifischen Streuungsmaßen. Der erste Gesichtspunkt (keine Ber¨ ucksichtigung von Mittelwerten als Bezugswerte) f¨ uhrt zu Begriffen wie Spannweite und Quartilabstand. Der zweite Gesichtspunkt findet in der mittleren absoluten Abweichung, der empirischen Varianz und der empirischen Standardabweichung seine Ber¨ ucksichtigung. Es sind mindestens Rangmerkmale vorausgesetzt, in der Regel quantitative Merkmale. Nominalskalierte Merkmale entziehen sich hier der Aufbereitung.
Spannweite Die Spannweite SW (englisch: range) ist das einfachste und wohl auch anschaulichste Streuungsmaß f¨ ur Daten. Es ber¨ ucksichtigt noch nicht Mittelwerte als Bezugspunkte f¨ ur die Berechnung der Streuung. Definition 1.8 (Spannweite) oßten x(max) und dem Die Differenz SW := x(max) − x(min) zwischen dem gr¨ kleinsten x(min) Merkmalswert einer geordneten Datenmenge heißt Spannweite SW . Die Spannweite wird auch Variationsbreite genannt. Im Beispiel Kundeneinzugsbereich“ betrug die Spannweite 67,6 km − 0,1 km ” = 67,5 km. Der Begriff der Spannweite ist leicht verst¨ andlich, und die Spannweite ist ohne großen Rechenaufwand bestimmbar. Diesen Vorteilen stehen aber auch Nachteile gegen¨ uber: Die Aussagekraft der Spannweite ist gering, denn die Spannweite wird nur durch den gr¨ oßten und kleinsten Wert bestimmt, wird also stark durch Extremwerte (Ausreißer) beeinflusst Die Spannweite gibt keine Auskunft dar¨ uber, wie sich die Daten innerhalb des Intervalls [x(min) , x(max) ] verteilen. Die Spannweite ¨ andert sich in der Messreihe nur, wenn ein Wert auftritt, der kleiner als der bisher kleinste oder gr¨ oßer als der bisher gr¨ oßte Wert ist.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
47
Quartilabstand W¨ ahrend durch die Spannweite ein Bereich festgelegt ist, in dem 100 % der Merkmalswerte liegen, wird durch den Quartilabstand ein Bereich definiert, in dem 50 % aller Messwerte liegen, und in dem auch der Median x0,5 liegt. Definition 1.9 (Quartilabstand) Es seien x(1) , x(2) , x(3) , . . . , x(n) geordnete Daten. Dann heißt die Differenz QA := x0,75 − x0,25 zwischen dem oberen (dritten) Quartil x0,75 und dem unteren (ersten) Quartil x0,25 der Daten der Quartilabstand QA. Der Quartilabstand ist also ¨ ahnlich einfach zu bestimmen wie die Spannweite. aß Definition in dem Bereich, der durch Der Median x0,5 liegt zwar immer gem¨ den Quartilabstand festgelegt ist, bei asymmetrischen Verteilungen liegt der Median aber nicht in der Mitte des Quartilsintervalls [x0,25 , x0,75 ]. Durch den Quartilabstand werden die Daten praktisch in drei Bereiche eingeteilt: 1. 2. 3.
25 % der Werte, die kleiner als das untere Quartil sind; 50 % der Werte, die im Quartilintervall [x0,25 , x0,75 ] liegen; 25 % der Werte, die gr¨ oßer als das obere Quartil sind. Erg¨ anzungen zu graphischen Darstellungen
1.
F¨ unf-Zahlen-Zusammenfassung Eine gegebene Datenmenge wird gelegentlich durch die f¨ unf Kennzahlen x0,5 , x0,25 , x0,75 , x(min) und x(max) beschrieben. Man spricht von einer F¨ unf-Zahlen-Zusammenfassung. Man ordnet die f¨ unf Zahlen im Schema folgendermaßen an: x0,5
2.
x0,25
x0,75
x(min)
x(max)
Box-plot-Diagramm Das box-plot-Diagramm (Kastenschaubild), das die F¨ unf-Zahlen-Zusammenfassung aufgreift und den Quartilabstand benutzt, gewinnt in wissenschaftlichen Publikationen immer mehr an Bedeutung. Wir beschreiben diese Darstellung an einem Beispiel.
Beispiel 1.10 (K¨ orpergr¨ oße) Aus den im folgenden Stengel-Blatt-Diagramm fiktiven Daten u ber die K¨ o rpergr¨ oße (in cm) von 62 Personen berechnen wir zun¨ achst einige ¨ wichtige Werte, die wir f¨ ur die Konstruktion des box-plot-Diagramms ben¨ otigen.
48
1 Beschreibende Statistik
stem-leaf-Diagramm 8
1
5
9
9
9
1
2
4
5
6
10
0
2
2
2
2
3
3
6
7
7
8
8
11
2
3
3
4
4
5
5
5
6
7
7
8
12
0
0
1
2
2
3
3
3
3
5
5
5
13
0
0
1
2
3
14
0
0
4
4
7
15
3
16
3
8
9
9
9
9
Es ergibt sich aus den Daten: 1QA = x0,75 − x0,25 = 20;
x0,25 = 103;
x0,75 = 123;
x0,5 = 117;
x(min) = 81;
x(max) = 163;
x0,75 + 1QA = 143;
x0,75 + 1, 5QA = 153;
x0,25 − 1QA = 83;
x0,25 − 1, 5QA = 73.
Das nachfolgende Bild gibt das box-plot-Diagramm f¨ ur obige Daten wieder, dessen Konstruktion wir anschließend beschreiben.
ɯ0,75 ɯ0,25
ɯ0,25–1QA
80
90
ɯ0,5
100 110
unteres Quartil
ɯ0,75+1,5QA ɯ0,75+1QA
120 130 140 150
Median
160
170
oberes Quartil
Das box-plot-Diagramm besteht aus einem rechteckigen Kasten. Die eine Begrenzungslinie des Kastens ist das untere (erste) Quartil x0,25 = 103, die andere das obere (dritte) Quartil x0,75 = 123. Die L¨ ange des Kastens reicht also von agt einen Quartilabstand (im Beispiel: 1QA = 20). x0,25 bis x0,75 und betr¨ Die Breite des Kastens ist willk¨ urlich. An der Stelle des Medians x0,5 wird der Kasten durch einen Strich geteilt (im Beispiel x0,5 = 117). An den Kasten werden whiskers (F¨ uhrer, eigentlich Schnurrhaare bei der Katze) angesetzt.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
49
Sie reichen bis zum kleinsten bzw. gr¨ oßten beobachteten Wert innerhalb eines Quartilsabstandes QA, jeweils gemessen von den Enden des Kastens aus (im Beispiel: links bis 83, rechts bis 143). Die F¨ uhlerenden sind die Grenzen eines sogenannten inneren Zaunes, nach links bis maximal x0,25 − 1QA, nach rechts bis maximal x0,75 + 1QA. Außerhalb der F¨ uhlerenden jeweils bis 1,5QA (gemessen jeweils von den Kastenenden) liegende Werte werden als Kreise ◦ eingezeichnet (im Beispiel bedeuten die zwei untereinandergesetzten Kreise ◦◦ , dass der Wert 144 zweimal auftritt). Weiter als 1,5QA vom Kasten entfernt liegende Werte werden als fette • Punkte eingetragen (im Beispiel 163). Diese Werte liegen unter x0,25 − 1, 5QA onnte sie als Ausreißer bezeichnen. bzw. u ¨ ber x0,75 + 1, 5QA. Man k¨ Didaktische Hinweise: 1. 2.
3.
Innerhalb des Kastens, also zwischen dem unteren Quartil x0,25 und dem oberen Quartil x0,75 liegen 50 % der Daten. Die Festlegung der maximalen L¨ ange der F¨ uhler ist nicht einheitlich. Statt 1QA w¨ ahlt man h¨ aufig auch 1,5QA, dann werden Werte, die mehr als anderthalb Kastenl¨ angen außerhalb liegen, mit ◦ bezeichnet. Werte, die um mehr als drei Kastenl¨ angen außerhalb liegen (Extremwerte), werden durch einen fetten Punkt gekennzeichnet. In keinem Fall sollten aber die F¨ uhlerenden jeweils bis x(min) bzw. x(max) reichen. Denn dadurch geht viel an Informationen u ¨ber die Daten verloren (Ausreißer, Streuungen). Denn die Visualisierung der Daten durch das box-plot-Diagramm l¨ asst gut Ausreißer, Symmetrien und auch Streuungen erkennen. ¨ Box-plot-Diagramme geben einen sehr guten Uberblick u ¨ ber die Verteilung der Daten und erm¨ oglichen in der empirischen Forschung einen zuverl¨ assigen Vergleich zwischen verschiedenen Datenmengen.
Mittlere absolute Abweichung Bei diesem Streuungsmaß handelt es sich um ein Maß f¨ ur die Abweichungen der Daten von einem Mittelwert als Bezugswert. Bezugswert ist meistens das arithmetische Mittel. Didaktische Vorbemerkung Wenn in Schulversuchen ein Streuungsmaß f¨ ur die Abweichungen der Daten vom arithmetischen Mittel gefunden werden sollte, schlugen die Sch¨ uler wiederholt vor, die (algebraische) Summe aller Abweichungen vom Mittelwert zu bilden und dann diese Summe durch die Anzahl der Daten zu dividieren. Denn man ¨ will ja einen Mittelwert f¨ ur die Abweichungen bestimmen. Zur Uberraschung der Sch¨ uler ergab sich bei verschiedenen Datenmengen stets Null als Ergebnis.
50
1 Beschreibende Statistik
Die inhaltiche Bedeutung des arithmetischen Mittels musste den Sch¨ ulern erst n ¯) = 0. Man schlug vor, wieder pr¨ asent werden. Es gilt ja stets i=1 (xi − x die Abweichungen der Daten vom arithmetischen Mittel absolut zu w¨ ahlen. Das f¨ uhrte dann zur Definition der mittleren (linearen) absoluten Abweichung vom arithmetischen Mittel.
Definition 1.10 (Mittlere (lineare) absolute Abweichung) Seien x1 , x2 , x3 , . . . , xn Merkmalsauspr¨ agungen eines quantitativen Merkmals. Sei x ¯ das arithmetische Mittel dieser Daten. Dann heißt dx¯ :=
n 1 1 · |xi − x ¯| = (|x1 − x ¯| + . . . + |xn − x ¯|) n n i=1
die mittlere (lineare) absolute Abweichung vom arithmetischen Mittel x ¯. Hinweis: Analog kann man auch die mittlere absolute Abweichung vom Median einf¨ uhren: 1 1 |xi − x0,5 | = (|x1 − x0,5 | + . . . + |xn − x0,5 |). n n n
dx0,5 :=
i=1
Empirische Varianz, empirische Standardabweichung Auch bei der Berechnung dieses Streuungsmaßes ist das arithmetische Mittel der Daten die Bezugsgr¨ oße. W¨ ahrend bei der Bildung der mittleren absoluten Abweichung die positiven und negativen Abweichungen durch die Betragsbildung zu absoluten Abweichungen wurden (sie konnten sich so nicht mehr insgesamt wechselseitig aufheben), erreicht man dieses bei der Bildung der empirischen Varianz durch Quadratbildung der jeweiligen Differenz. Die Summe dieser Quadrate teilt man zur Mittelwertbildung aber nicht durch die Anzahl n der Daten (Summanden), sondern durch n − 1 (vgl. hierzu die sp¨ ateren Anmerkungen). Definition 1.11 (Empirische Varianz) agungen eines quantitativen Bezeichnen x1 , x2 , x3 , . . . , xn die Merkmalsauspr¨ Merkmals, und bezeichnet x ¯ das arithmetische Mittel dieser Daten, so bezeichnet man als empirische Varianz s2 die Zahl 1 (xi − x ¯)2 , n−1 n
s2 :=
n ≥ 2.
i=1
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
51
Es handelt sich bei der empirischen Varianz um ein quadratisches Abstandsmaß. Man kann in Ann¨ aherung sagen, dass die Varianz das arithmetische Mittel der Abweichungsquadrate ist. Wie bei der mittleren absoluten Abweichung vom arithmetischen Mittel werden auch hier bei der empirischen Varianz die Abweichungen aller Daten vom arithmetischen Mittel ber¨ ucksichtigt. Durch das Quadrieren werden gr¨ oßere Abweichungen vom arithmetischen Mittel in starkem Maße ber¨ ucksichtigt. Die empirische Varianz hat als Streuungsparameter wegen der Quadrate eine andere Einheit als die Merkmalsauspr¨ agungen. Sind z. B. die Merkmalsauspr¨ agungen in kg gemessen, so wird s2 in (kg)2 gemessen. Man definiert deshalb als weiters Maß die empirische Standardabweichung s (englisch: standard deviation), indem man die Quadratwurzel aus s2 zieht. Definition 1.12 (Standardabweichung) Die Zahl s mit
n 1 s := (xi − x ¯)2 , n−1
n≥2
i=1
heißt empirische Standardabweichung.
Dadurch hat das Streuungsmaß wieder die urspr¨ ungliche Einheit. Empirische 2 Standardabweichung s und empirische Varianz s werden in den Anwendungen am h¨ aufigsten gebraucht. Didaktische Anmerkungen: 1.
2.
3. 4.
Die Frage, warum man bei der empirischen Varianz bei der Mittelwertbildung der quadratischen Abweichungen durch n − 1 und nicht durch n dividiert, kann in der Sekundarstufe I nicht u ¨ berzeugend beantwortet werden. In der Sekundarstufe II kann im Rahmen der Sch¨ atztheorie die Begr¨ undung f¨ ur die Division durch n−1 statt durch n gegeben werden Die empirische Va1 n rianz s2 = n−1 x)2 ist ein sogenannter erwartungstreuer Sch¨ atzer i=1 (xi −¯ n 2 2 2 1 ahrend s = n i=1 (xi − x ¯) kein erwartungstreuer f¨ ur die Varianz σ , w¨ Sch¨ atzer w¨ are (siehe P¨ oppelmann [133]). In der (didaktischen) Literatur findet man bei obigen Definitionen auch die Division durch n statt durch n − 1. Auf Taschenrechnern sind h¨ aufig beide Implementationen gebr¨ auchlich. Deshalb sollte vorher u uft werden, ob ¨ berpr¨ durch n oder durch n − 1 dividiert wird. Bei großem Stichprobenumfang n ist der Unterschied zwischen der Division ” durch n“ und der Division durch n − 1“ jedoch unerheblich. ” Bei Anwendungen (insbesondere in den Naturwissenschaften) gibt man arithmetisches Mittel x ¯ und Standardabweichung s h¨ aufig nicht getrennt an, sondern in der Form x ¯ ± s.
52
1 Beschreibende Statistik Hat man ann¨ ahernd normalverteilte Daten, dann gilt: a) Ca. 68 % der Daten liegen im Bereich x ¯ ± s, also im Intervall zwischen x ¯ − s und x ¯ + s. b) Ca. 96 % der Daten liegen im Bereich x ¯ ± 2s. c) Ca. 99 % der Daten liegen im Bereich x ¯ ± 3s. Das bedeutet, dass im Druchschnitt etwa 68 % bzw. 96 % bzw. 99 % um h¨ ochstens eine Standardabweichung bzw. zwei Standardabweichungen bzw. drei Standardabweichungen vom Mittelwert abweichen. Diese anschauliche Interpretation der empirischen Standardabweichung steht in Korrespondenz zu den drei Sigma-Regeln bei der Normalverteilung. Die Begriffe Normalverteilung und Sigma-Regeln werden im Kapitel 8, Abschnitte 8.5 und 8.5.4, erkl¨ art.
Beispiel 1.11 (K¨ orpergewicht von Kindern) Bei einer medizinischen Untersuchung wurden bei 30 Kindern folgende K¨ orpergewichte (in kg) notiert (Urliste): 35 36 37 1.
27 38 45
36 45 51
42 40 48
50 42 31
32 34 34
35 38 46
29 43 30
44 45 38
40 42 35
n = 30, x ¯ = 38, 93 [kg]. Bei der Berechnung von s2 und s mittels Division durch n − 1 = 29 erh¨ alt man: s2
=
1 (xi − 38, 93)2 = 39, 09 [kg]2 ; 29
s
≈
6, 25 [kg];
x ¯±s
=
38, 93 ± 6, 25 [kg].
30
i=1
2.
n = 30, x ¯ = 38, 93 [kg]. Bei der Berechnung von s2 und s dividieren wir jetzt durch n = 30: s2
=
1 (xi − 38, 93)2 ≈ 37, 79 [kg2 ]; 30
s
≈
6, 15 [kg];
x ¯±s
=
38, 93 ± 6, 15 [kg].
30
i=1
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
53
Abschließende didaktische Bemerkungen 1.
2.
Da Mittelwerte allein nicht aussagekr¨ aftig sind, bed¨ urfen sie zur sachgem¨ aßen Interpretation als Erg¨ anzung der Streuungsmaße. Denn wenn ein See eine durchschnittliche Tiefe von 0,80 m hat, so ist es dennoch nicht ratsam zu versuchen, den See aufrecht gehend zu durchqueren. Der See k¨ onnte ja an einer zu durchquerenden Stelle 3 m tief sein. Die Konstruktion der Streuungsparameter erfolgte nach zwei unterschiedlichen Prinzipien: – Die Maßzahl wird durch den Abstand zweier Rangmerkmale bestimmt (vgl. Spannweite, Quartilabstand). – Die Maßzahl wird durch die Abst¨ ande der Daten von einem Lageparameter bestimmt (vgl. mittlere absolute Abweichung, empirische Varianz).
3.
4.
5.
Die Aussagekraft des Quartilabstandes ist gr¨ oßer als die der Spannweite, da sich der Quartilabstand nicht nur auf den gr¨ oßten und kleinsten Wert st¨ utzt. Durch den Quartilabstand werden die Daten in drei Bereiche aufgeteilt. Im Zusammenhang mit der Behandlung der Quadratwurzel sollte auch die Behandlung der empirischen Standardabweichung in jedem Falle angestrebt werden. St¨ arker als bisher sollte auch die F¨ unf-Punkte-Darstellung f¨ ur Daten in der Schule genutzt werden.
1.2.5
Lineare Regression
Bisher haben wir uns ausschließlich mit der Datenaufbereitung eines Merkmals befasst. Von Interesse und von Bedeutung f¨ ur die Praxis sind aber auch Erkenntnisse u ange zwischen zwei oder mehr Merk¨ ber statistische Zusammenh¨ malen innerhalb derselben statistischen Masse. Es geht also in diesem Abschnitt um das Entdecken von Zusammenh¨ angen. Wir beschr¨ anken uns auf bivariate (zweidimensionale) Verteilungen. Wir beobachten und vergleichen also Daten von zwei Merkmalen, die gleichzeitig an einer statistischen Einheit erhoben worden sind, z. B. K¨ orpergr¨ oße und K¨ orpergewicht bei Personen, Bruttoeinkommen und Kapitalverm¨ ogen bei Familien, Geschwindigkeit und Bremsweg bei Autos, Nettoeinkommen und Mietkosten f¨ ur das Wohnen, Alter von M¨ annern und Alter von Frauen bei Ehepaaren usw. Wir beschreiben den Zusammenhang der zwei Variablen X und Y zun¨ achst durch eine Funktion und beschr¨ anken uns auf den einfachen Fall des linearen Zusammenhangs und bestimmen die Regressionsgeraden. Dabei ist zu bedenken, dass der errechnete funktionale Zusammenhang zwischen den zwei Gr¨ oßen nat¨ urlich nur eine mathematische Modellbeschreibung f¨ ur ein gegebenes Sach-
54
1 Beschreibende Statistik
problem ist. Eine eventuell tats¨ achlich vorhandene kausale Abh¨ angigkeit der zwei Gr¨ oßen voneinander kann nicht aus dem mathematischen Modell gefolgert werden. Hier ist der Fachmann f¨ ur das jeweilige Sachproblem gefordert. Das gilt auch f¨ ur den anschließend behandelten Korrelationskoeffizienten. Dieser ist ein Maß f¨ ur die St¨ arke des linearen Zusammenhangs. Das Wort Regression (lateinisch regressus: R¨ uckkehr, R¨ uckzug) ist von seinem Wortsinn her eine zun¨ achst durchaus merkw¨ urdig erscheinende Bezeichnung f¨ ur den durch die Bezeichnung heute in der beschreibenden Statistik gemeinten Sachverhalt. Grob gesagt geht es in der beschreibenden Statistik bei der Regression um eine Beschreibung einer Variablen als Funktion einer anderen Variablen. Es sollen also stochastische Zusammenh¨ ange (Abh¨ angigkeiten) zweier Variablen beschrieben werden. Die Bezeichnung Regression ist historisch bedingt und geht auf Sir Francis Galton (1822 – 1911) zur¨ uck. In seinen Studien zur Vererbungslehre stellte Galton fest, dass einerseits große V¨ ater h¨ aufig große Nachkommen haben, dass aber andererseits die durchschnittliche Gr¨ oße der Nachkommen kleiner ist als die der V¨ ater. Analog verhielt es sich mit der Kleinheit. Kleinere V¨ ater hatten h¨ aufig kleine Nachkommen, aber die Durchschnittsgr¨ oße der Nachkommen war gr¨ oßer als die der V¨ ater. Es ist insgesamt eine Tendenz zur Durchschnittsgr¨ oße der Nachkommen gegeben, d. h. es liegt ein Zur¨ uckgehen (eine Regression) bez¨ uglich der Gr¨ oße der Nachkommen auf den Durchschnitt vor. Allgemeiner formuliert: Eine Eigenschaft des Menschen wird von den Nachkommen zwar u uglich der ¨bernommen, aber nur in einem geringeren Maße. Bez¨ Eigenschaft tritt also eine (langsame) R¨ uckbildung ein. Galton sprach von einer Regression. Die Merkmalsauspr¨ agung aller Individuen einer Art schwankt um einen Mittelwert. Doch lassen wir Galton selbst zu Wort kommen. In der Einleitung zu der zweiten Ausgabe von 1892 seines Werkes Heriditary Genius schreibt Galton: In der ” Nat¨ urlichen Vererbung habe ich gezeigt, daß die Verteilung von Eigenschaften in einer Bev¨ olkerung nicht konstant bleiben kann, wenn durchschnittlich die Kinder ihren Eltern ¨ ahnlich sehen. Ist dies der Fall so w¨ urden die Riesen (in bezug auf irgend eine geistige oder physische Eigent¨ umlichkeit) in jeder folgenden Generation noch riesiger und die Zwerge noch zwerghafter werden. Die gegenwirkende Tendenz ist die, welche ich ‘Regression’ nenne.“ (Siehe: Galton, F.: Genie und ¨ Vererbung. Autorisierte Ubersetzung von O. Neurath und A. Schapire-Neurath. Leipzig 1910. S. XVIII. Die 1. Auflage von Heriditary Genius erschien 1869. – Die Nat¨ urliche Vererbung hat im Original den Titel Natural Inheritance. Die 1. Auflage dieses Werkes erschien 1889.) Bei Galton wird also eine Denkweise deutlich, die an Quetelet (siehe Abschnitt 1.1.3) erinnert, n¨ amlich das Bem¨ uhen, Durchschnittstypen zu erkennen und aufzustellen.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
55
Wie schon in der Einf¨ uhrung bemerkt, beschr¨ anken wir uns im Folgenden auf die Behandlung zweier Variablen. Sind zweidimensionale Verteilungen (X, Y ) gegeben, z. B. die gemeinsame Verteilung der Merkmale K¨ orpergr¨ oße X und K¨ orpergewicht Y bei n Personen, so k¨ onnen die Beobachtungswerte dargestellt werden durch Paare von reellen Zahlen (x1 , y1 ), (x2 , y2 ), (x3 , y3 ), . . . , (xn , yn ). Dieses ist die Urliste. Stellt man diese Datenpaare in einem Koordinatensystem dar, so erh¨ alt man eine Punktwolke (Scatter-Diagramm, Streudiagramm). Die Punktwolke kann ganz unterschiedlich aussehen.
Man versucht, die Punktwolken durch mathematische Funktionen n¨ aherungsweise zu beschreiben. Es interessiert die Art (Form) des Zusammenhangs zwischen den beiden Variablen X und Y , falls u ¨ berhaupt eine Zusammenhangsbeziehung durch die Punktwolke nahegelegt wird. So k¨ onnte man bei den Punktwolken in den Abbildungen a und c je einen linearen Zusammenhang, bei der
56
1 Beschreibende Statistik
Punktwolke in Abbildung d einen quadratischen Zusammenhang vermuten. Dass alle Messwerte exakt auf einer Geraden liegen wie in Abbildung e wird man nicht erwarten k¨ onnen. Dagegen sind auch andere Zusammenhangsbeziehungen, wie z. B. ein exponentieller Zusammenhang, denkbar. Die Punktwolke in Abbildung b l¨ asst keinen Zusammenhang erkennen. In den folgenden Ausf¨ uhrungen beschr¨ anken wir uns auf den linearen Fall. Das f¨ uhrt zur Aufstellung der sogenannten Regressionsgeraden. Wir gehen von einem Beispiel aus.
Beispiel 1.12 (K¨ orpergr¨ oße/K¨ orpergewicht) Gegeben sei die gemeinsame Verteilung der Merkmale K¨ orpergr¨ oße X (in cm) und K¨ orpergewicht Y (in kg) von 10 Personen. Es handelt sich um fiktive Daten. Die Urliste besteht aus 10 Datenpaaren (xi ; yi ): (188; 88,5), (177,5; 86,5), (183; 102), (182; 93), (170; 81,5), (185,5; 83,5), (175,5; 82,5), (175,5; 69), (183; 87,5), (173; 79,5). Bei Darstellung dieser Paare in einem Koordinatensystem erh¨ alt man die folgende Punktwolke (das folgende Scatter-Diagramm):
105 95
Körpergerwicht Y
(ɯࢾ; \ࢾ
(ɯࢾ; ǔࢾ
85
(ɯࢾ; \ࢾ
75 65
165 170
175 180
185 190
Körpergröße X
Wir versuchen, zu dieser Punktwolke eine Gerade, die sogenannte Regressionsgerade, zu bestimmen, die sich der Punktwolke, also den Paaren (x1 , y1 ), (x2 , y2 ), (x3 , y3 ), . . . , (x10 , y10 ), besonders gut anpasst“. Mathematisch bedeutet dieses ” das Aufstellen einer Geradengleichung. Je nachdem, ob wir x bzw. y als unabh¨ angige Variable ansehen, m¨ ussen wir die Geradengleichung y = a + bx bzw. x = c + dy bestimmen. Statt von unabh¨ angiger Variable und abh¨ angiger Va-
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
57
riable zu sprechen, sollte man besser von Einflussgr¨ oße und Zielgr¨ oße sprechen. Diese Bezeichnungen treffen die Sache und vermeiden Missverst¨ andnisse.
Bei der mathematischen Berechnung der Regressionsgeraden muss man zun¨ achst kl¨ aren, was es bedeuten soll, wenn man sagt, die Regressionsgerade hat sich der Punktwolke besonders gut“ anzupassen. Bezeichnen wir den zu xi ” tats¨ achlich gemessenen Wert mit yi und den gem¨ aß y = a + bx f¨ ur xi theoretisch errechneten Wert mit yˆi , so sollte die Abweichung der theoretisch berechneten oglichst klein sein. Diese angestrebte Werte yˆi von den gemessenen Werten yi m¨ Minimierung kann auf verschiedenen Wegen erfolgen. Wir nennen zwei M¨ oglichkeiten:
n yi − yi |, Die Summe der absoluten Abweichungen, also die Summe i=1 |ˆ soll minimiert werden. b) Die Summe der Quadrate der Abweichungen der yˆi von den yi , also die Summe n yi − yi )2 , soll minimiert werden. i=1 (ˆ
a)
Zur Bestimmung der Regressionsgeraden ist die unter Punkt b) genannte M¨ oglichkeit die g¨ unstigste. Sie wird als Methode der kleinsten Quadrate“ be” zeichnet und geht auf Carl Friedrich Gauß (1777 – 1855) zur¨ uck. Die Methode bestimmt eindeutig die Variablen a und b, legt also rechnerisch eindeutig die Regressionsgerade fest. Didaktische Hinweise: 1.
2.
H¨ aufig spricht man bei der Methode der kleinsten Quadrate“ statt von Ab” weichungen auch von Abst¨ anden. Dann ist zu beachten, dass die Abst¨ ande“ ” der Messpunkte parallel zur y-Achse genommen werden und nicht – wie man beim Wort Abstand meinen k¨ onnte – die L¨ ange des Lotes vom gemessenen Punkt auf die Regressionsgerade. W¨ ahlt man y als Einflussgr¨ oße (unabh¨ angige Variable), so hat man analog zur Bestimmung der Geraden x = c + dy die Abst¨ ande der Messpunkte parallel zur x-Achse zu nehmen.
Sei also jetzt (xi , yi ) das gemessene Paar, und sei das Paar (xi , yˆi ) das Paar, das den Punkt auf der Regressionsgeraden kennzeichnet. Wir suchen die Gerade yi − yi )2 minimal ist y = a + bx zu bestimmen unter der Bedingung, dass n i=1 (ˆ (siehe Abbildung). Da yˆi = a + bxi ist, folgt yˆi − yi = a + bxi − yi . F¨ ur die Summe S der Quadrate erhalten wir S(a, b) =
n i=1
(ˆ yi − yi )2 =
n i=1
(a + bxi − yi )2 .
(1.4)
58
1 Beschreibende Statistik
Die zu minimierende Funktion S ist also eine Funktion der zwei Variablen a und b. Mit Hilfe der Differentialrechnung zweier Variablen sind die Variablen a und b so zu bestimmen, dass die Funktion S minimal wird. Im folgenden hinreichenden Kriterium f¨ ur den Nachweis der Existenz eines relativen Minimums treten partielle Ableitungen auf. Wir geben deshalb vorab einige formale Hinweise. Im Gegensatz zum geraden d bei der Differentiation von Funktionen einer Ver¨ anderlichen benutzt man bei der Differentiation von Funktionen zweier (oder mehrerer) Ver¨ anderlichen ein rundes geschwungenes ∂. Die erste partielle Ableitung nach x (man betrachtet dabei y als fest) einer Funktion f (x, y) mit ur die erste partielle den zwei Variablen x und y schreibt man als ∂f ∂x , und f¨ Ableitung der Funktion f nach y (man betrachtet x als konstant) schreibt man 2 ∂f . Bei den partiellen Ableitungen zweiter Ordnung schreibt man analog ∂∂xf2 ∂y 2
∂ f (zweimaliges differenzieren nach x bei festgehaltenem y). Das Symbol ∂x∂y steht f¨ ur die gemischte zweite partielle Ableitung, in der zun¨ achst nach x (bei festgehaltenem y) und anschließend nach y (bei festgehaltenem x) differenziert ∂ 2f wird. Analog besagt das Symbol ∂y∂x , dass zun¨ achst f partiell nach y und
anschließend partiell nach x differenziert wird. Statt ∂f ∂x schreibt man auch fx ∂2f und entsprechend auch f¨ ur die anderen F¨ alle, z. B. ∂x∂y = fxy . Nun das hinreichende Kriterium f¨ ur den Nachweis der Existenz eines relativen Minimums, das wir ohne Beweis der Analysis entnehmen: Kriterium f¨ ur relatives Minimum Falls die Funktion f (x, y) mit zwei Variablen zweimal stetig partiell differenzierbar in einer Umgebung von (x0 , y0 ) ist, dann besitzt f (x, y) in (x0 , y0 ) ein relatives Minimum, wenn gilt: a) b) c) d)
∂f (x0 , y0 ) = 0; ∂x ∂f (x0 , y0 ) = 0; ∂y 2 ∂ f (x0 , y0 ) > 0; ∂x2
2 2 2 ∂ f ∂2f ∂ f · − > 0 in (x0 , y0 ). ∂x2 ∂y 2 ∂x∂y
Die Gleichungen unter a) und b) formulieren notwendige Bedingungen. Bestimmung des relativen Minimums f¨ ur die Funktion S mittels des obigen Kriteriums: Notwendig f¨ ur die Existenz eines Minimums der Funktion S ist also, dass die beiden ersten partiellen Ableitungen der Funktion S eine gemeinsame Nullstelle (a0 , b0 ) haben:
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
59
Partielle Differentiation von S nach a (b wird als Konstante angesehen) ergibt
∂S (yi − a − bxi ). = −2 · ∂a n
i=1
Partielle Differentiation nach b (a wird als Konstante angesehen) ergibt
∂S xi (yi − a − bxi ). = −2 · ∂b n
i=1
Wir ermitteln die Werte a0 und b0 , f¨ ur die die beiden partiellen Ableitungen Null werden: n
(yi − a0 − b0 xi )
=
0
(1.5)
n (yi xi − a0 xi − b0 x2i )
=
0.
(1.6)
i=1
i=1
Wir erhalten aus (1.5) n
yi − na0 − b0 ·
xi
=
0
n¯ y − na0 − nb0 x ¯
=
0.
i=1
⇔
n i=1
Also: ¯, y¯ = a0 + b0 x
(1.7)
d. h. (¯ x, y¯) liegt auf der Regressionsgeraden. Das ist ein interessantes Zwischenergebnis. Der Punkt (¯ x, y¯) heißt Schwerpunkt. Aus (1.6) erhalten wir n i=1
⇔
n
xi yi −
n
a0 xi −
n
i=1
xi yi − na0 x ¯ − b0 ·
i=1
b0 x2i = 0
i=1 n
x2i = 0.
i=1
¯ (Gleichung (1.7)) liefert Einsetzen von a0 = y¯ − b0 x n
xi yi − n¯ x(¯ y − b0 x ¯) = b0 ·
i=1
⇔
n i=1
also
n
x2i
i=1
xi yi − n¯ xy¯ = b0 (
n
x2i − n¯ x2 ),
i=1
n xi yi − n¯ xy¯ . b0 = i=1 n 2 2 x − n¯ x i=1 i
60
1 Beschreibende Statistik
Man erh¨ alt also insgesamt: a0
=
b0
=
y¯ − b0 x ¯ n xi yi − n¯ xy¯ i=1 . n 2 x2 i=1 xi − n¯
(1.8)
Wir k¨ onnen diese beiden Gleichungen k¨ urzer schreiben. Dazu beachten wir, dass f¨ ur die empirische Varianz der xi -Werte gilt (siehe Aufgabe 6 in Abschnitt 1.2.8) n 1 x2i − n¯ x2 , f¨ ur n ≥ 2. s2x = n−1 i=1
Erweitert man in (1.8) den Bruch f¨ ur b0 mit
1 n−1 ,
erh¨ alt man
n 1 xi yi − n¯ xy¯) n−1 ( i=1 b0 = . n 1 2 x2 ) i=1 xi − n¯ n−1 ( Definieren wir außerdem 1 (xi − x ¯)(yi − y¯) n−1 n
sxy := cov(x, y) =
i=1
als die empirische Kovarianz der x- und y-Werte und zeigen, dass n 1 sxy = xi yi − n¯ xy¯ n−1 i=1
gilt, so erh¨ alt man b0 =
sxy s2x
a0 = y¯ −
und
sxy ·x ¯ s2x
f¨ ur s2x = 0. Um zu beweisen, dass S in (a0 , b0 ) tats¨ achlich ein Minimum hat, ist noch zu zeigen, dass ∂ 2S an der Stelle (a0 , b0 ) positiv ist (1.9) ∂a2 und
2 2 ∂ S ∂2S ∂2S · − an der Stelle (a0 , b0 ) positiv ist (1.10) 2 2 ∂a ∂b ∂a∂b Beweis zu (1.9):
∂2S = −2 · (−1) = 2n, ∂a2 n
i=1
d. h.
∂2S ∂a2
> 0 f¨ ur alle a, b, da unabh¨ angig von a und b.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
61
Beweis zu (1.10): ∂2S ∂b2
=
2
∂ S ∂a∂b
=
−2 · −2 ·
n
(−x2i ) = 2 ·
n
i=1
i=1
n
n
(−xi ) = 2 ·
i=1
x2i , xi = 2n¯ x.
i=1
Also: ∂ 2 S ∂ 2S · − ∂a2 ∂b2
∂2S ∂a∂b
2 =
4n ·
n
x2i − 4n2 x ¯2
i=1 n
=
4n
x2i
− n¯ x
2
= 4n(n − 1)s2x ,
i=1
d. h.
∂2S ∂2S · − ∂a2 ∂b2
∂2S ∂a∂b
2 >0
f¨ ur alle a und b.
Damit ist der Nachweis erbracht, dass die Funktion S(a, b) in (a0 , b0 ) ein Minimum hat. Analog kann man auch die Regressionsgerade bei einer vermuteten Abh¨ angigkeit der x-Werte von den y-Werten herleiten und zeigen, dass auch diese Regressionsgerade x = c + dy durch den Schwerpunkt (¯ x, y¯) geht. F¨ ur das Beispiel 1.12 (K¨ orpergr¨ oße/K¨ orpergewicht) erh¨ alt man f¨ ur den Schwerpunkt (¯ x, y¯) die Werte x ¯ = 179, 3 und y¯ = 85, 3; f¨ ur die Regressionsgerade y = a + bx die Gleichung y = 40, 53 + 0, 25x.
Didaktische Hinweise und Erg¨ anzungen 1.
Eine einfachere – vor allem f¨ ur die Schule geeignete – Bestimmung der Regressionskoeffizienten, die ohne die partielle Differentiation auskommt, erh¨ alt man, wenn man von der Voraussetzung ausgeht, dass der Schwerpunkt (¯ x, y¯), das Paar der arithmetischen Mittel, auf der Regressionsgeraden liegen soll. (Man beachte, dass wir diese Forderung oben als Ergebnis erhielten.) Unter dieser Annahme l¨ asst sich die gesuchte Regressionsgerade in der Punkt-Steigungs-Form durch die Gleichung y − y¯ = b(x − x ¯) bei zu optimierendem Steigungskoeffizienten b beschreiben, falls nicht alle xi -Werte in der Urliste gleich sind.
62
1 Beschreibende Statistik Man bestimmt den Steigungskoeffizienten b wiederum derart, dass die Summe der Quadrate der Abweichungen der theoretischen (berechneten) Werte yˆi = f (xi ) von den empirischen Werten yi n
(ˆ yi − yi )2 =
i=1
n
(b(xi − x ¯) + y¯ − yi )2
i=1
minimal ist. D. h. wenn wir die Summe der Fehlerquadrate als Funktion von b betrachten, suchen wir das Minimum der Funktion S einer Variablen mit n S(b) = (b(xi − x ¯) + y¯ − yi )2 . i=1
2.
Der folgende kurz angedeutete Weg kann ebenfalls im Unterricht vertreten werden. Man setzt voraus, dass die Summe aller Differenzen der theoretischen von den erhobenen Daten Null ist: n
(ˆ yi − yi ) = 0.
i=1
3. 4.
5.
Man sagt: Die Summe aller Residuen ei = yˆi − yi ist Null. (Der Beweis dieser Annahme ist in Aufgabe 13 a) im Abschnitt 1.2.8 zu f¨ uhren.) Mit dieser Aussage zeigt man, dass (¯ x, y¯) auf der gesuchten Geraden liegt und errechnet die Regressionsgerade wie unter Punkt 1. Die Regressionsgeraden werden auch Ausgleichsgeraden genannt. Befasst man sich mit Zeitreihen (man beobachtet die Entwicklung einer Gr¨ oße u angere Zeitspannen: Geburtenentwicklung, Produktionsent¨ ber l¨ wicklung, Entwicklung der Zahl der Arbeitslosen etc.), kann die Regressionsgerade (Ausgleichsgerade) zur Beschreibung eines Trends herangezogen werden. Bei der Interpretation der Regressionsgeraden ist Vorsicht geboten. Es ist zun¨ achst zu beachten, dass sich die Regressionsgeraden immer bestimmen lassen, also auch dann, wenn die Punktwolke die Annahme eines linearen Zusammenhangs eigentlich verbietet. Bei der mathematischen Modellbildung darf man also nie die empirischen Daten aus dem Blick verlieren. Ferner ist auch beim mathematischen Umgang mit einer konkreten Regressionsgeraden Vorsicht geboten. Aus der Regressionsgeraden y = 40, 53 + 0, 25x f¨ ur das Beispiel K¨ orpergr¨ oße/K¨ orpergewicht“ kann ” nicht geschlossen werden, dass sich das K¨ orpergewicht y f¨ ur eine vorgegebene K¨ orpergr¨ oße x exakt nach der Gleichung y = 40, 53 + 0, 25x berechnen l¨ asst. Wenn das so w¨ are, h¨ atten ja alle 1 m großen Personen dasselbe K¨ orpergewicht von 65,53 kg, und eine Person der Gr¨ oße 0 cm h¨ atte ein Gewicht von 40,53 kg. Man erkennt, dass diese Interpretation der Regressionsgeraden sinnlos und unzul¨ assig ist. Ausgangspunkt f¨ ur das Aufstellen
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
6. 7.
63
der Regressionsgeraden waren gegebene Punktepaare aus einem bestimmten Bereich, z. B. K¨ orpergr¨ oßen von 170 cm bis 188 cm. Nur f¨ ur diesen Bereich kann die Regressionsgerade als zusammenfassende Beschreibung des Zusammenhangs zwischen den Gr¨ oßen X und Y angesehen werden. Die Regressionsgerade k¨ onnte eine andere Lage haben, wenn weitere Daten zur Verf¨ ugung stehen w¨ urden. Mit Vorhersagen muss man also sehr vorsichtig sein. Die beiden Regressionsgeraden y = a0 + b0 x und x = a1 + b1 y fallen zusammen genau dann, wenn b0 = b11 gilt (siehe Aufgabe 14 im Abschnitt 1.2.8). In der didaktischen Literatur werden zahlreiche Vorschl¨ age gemacht, die lineare Regression und Korrelation auf Schulniveau zu behandeln. Zur ausf¨ uhrlichen Diskussion dieses Themenkreises verweisen wir an dieser Stelle auf weitere Literatur. Hingewiesen sei insbesondere auf die Kommentierte Bibliographie zum Thema Regression und Korrelation“ von Borovcnik ” und K¨ onig ([24]). Weiter weisen wir hin auf: Borovcnik [23], [25], Engel/ Sedlmeier [50], Heilmann [65], Hui [70], Ineichen/Stocker [75], Koßwig [82], v. Pape/Wirths [128], Reichel [136], Vohmann [176], Wirths [185], [186], Wolf [188].
1.2.6
Korrelation
Mit dem Aufstellen der Regressionsgeraden ist die einfache Beschreibung des linearen Zusammenhangs der Variablen X und Y erreicht. Das Beispiel K¨ orper” gr¨ oße/K¨ orpergewicht“ und seine weitere Bearbeitung zeigen jedoch, dass die Beschreibung eine Vereinfachung mit Informationsverlust bedeutet. Wir hatten ein lineares Modell zugrundegelegt, und unter dieser Modellannahme ist die gefundene Geradengleichung die beste. Insgesamt kann aber das Sachproblem durch die Geradengleichung immer noch sehr schlecht beschrieben sein – denn die Geradengleichung kann ja immer bestimmt werden. Wir suchen deshalb nach einem Maß der Korrelation, also nach einem Maß f¨ ur die St¨ arke (G¨ ute) des linearen Zusammenhangs der beiden Merkmale. Diese wird durch eine Zahl, den Korrelationskoeffizienten, beschrieben. Wir besprechen nur den Korrelationskoeffizient nach Bravais-Pearson (August Bravais (1811 – 1863), Karl Pearson (1857 – 1936). Um ein Maß f¨ ur die St¨ arke des linearen Zusammenhangs zu finden, ber¨ ucksichtigt man die Streuung der Punkte um die Regressionsgeraden. Genauer: Man vergleicht die Varianz der yˆi -Werte (auf der Regressionsgeraden) mit der Varianz der tats¨ achlichen yi -Werte aus der Erhebung. Bei einem starken linearen Zusammenhang m¨ ussten beide Varianzen in etwa u ¨ bereinstimmen.
64
1 Beschreibende Statistik
Gegeben seien also n Datenpaare (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). Wir wissen, dass die Regressionsgerade y = a+bx durch den Schwerpunkt (¯ x, y¯) geht. Hierbei 1 n ist x ¯ = n1 n x und y ¯ = y . Bezeichnen wir wieder die y-Werte auf i i i=1 i=1 n der Regressionsgeraden mit yˆi , so gilt yˆi − y¯ = =
yˆi
b(xi − x ¯), b(xi − x ¯) + y¯ = bxi − b¯ x + y¯.
(1.11)
1 · n yi − y¯ˆ)2 der yˆi -Werte bezogen auf ihr Wir betrachten die Varianz n−1 i=1 (ˆ arithmetisches Mittel y¯ˆ. Bevor wir diese Varianz umformen, versuchen wir y¯ˆ durch y¯ auszudr¨ ucken. Es gilt gem¨ aß (1.11): 1 (bxi − b¯ x + y¯), und es folgt n i=1 n 1 bxi − n · b¯ x + n¯ y , · n i=1 n n 1 1 · bxi − nb · xi − n¯ y , n n n
y¯ˆ = y¯ˆ
=
y¯ˆ
=
i=1
y¯ˆ
=
y¯ˆ
=
i=1
1 · n¯ y, n y¯,
d. h. das arithmetische Mittel y¯ der beobachteten Werte yi ist gleich dem arithmetischen Mittel y¯ˆ der mittels der Regressionsgeraden errechneten Werte yˆi . Mit diesem interessanten Ergebnis erhalten wir: n 1 (ˆ yi − y¯ˆ)2 · n−1
=
1 (ˆ yi − y¯)2 n−1
=
1 (bxi − b¯ x + y¯ − y¯)2 n−1
n
i=1
i=1 n
i=1
2
= =
b n−1 2
b ·
n
(xi − x ¯)2
i=1 2 sx .
Hierbei bedeutet s2x die empirische Varianz der x-Werte. Ber¨ ucksichtigen wir, dass gem¨ aß Abschnitt 1.2.5 f¨ ur die empirische Kovarianz sxy der x- und y-Werte die Beziehung sxy = b · s2x gilt, so folgt s2xy · s2x s2xy 1 (ˆ yi − y¯ˆ)2 = b2 · s2x = = 2 . 4 n−1 sx sx n
i=1
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
65
Diese Varianz vergleichen wir mit der Varianz der y-Werte. Wir bezeichnen letztere analog mit s2y . Wir berechnen den Quotienten und erhalten: s2xy s2xy 2 : s = . y s2x s2x · s2y Diese Zahl ist ein Maß f¨ ur die St¨ arke der linearen Abh¨ angigkeit der beiden Verteilungen.
Definition 1.13 (Korrelationskoeffizient nach Bravais-Pearson) s Die Zahl r := sxxy mit sx = 0 und sy = 0 heißt der Korrelationskoeffizient ·sy nach Bravais-Pearson. Durch Einsetzen der Werte f¨ ur sxy , sx und sy erhalten wir n 1 ¯) · (yi − y¯) i=1 (xi − x n−1 . r= n 1 1 · i=1 (xi − x ¯)2 · n−1 · n ¯)2 i=1 (yi − y n−1 Der Z¨ ahler sxy bestimmt das Vorzeichen von r. Ist beispielsweise xi gr¨ oßer oßer (bzw. kleiner) als (bzw. kleiner) als das arithmetische Mittel x ¯, und ist yi gr¨ das arithmetische Mittel y¯, dann sind die Abweichungen (xi − x ¯) und (yi − y¯) ¯)(yi − y¯) positiv. beide positiv (bzw. negativ), und folglich ist ihr Produkt (xi − x ¯) und (yi − y¯) entgeIn den anderen F¨ allen, wenn also die Abweichungen (xi − x gengesetzte Vorzeichen haben, ist das Produkt (xi − x ¯)(yi − y¯) negativ. Die Zahl ¯)(yi − y¯) r ist also dann positiv, wenn die positiven Werte der Produkte (xi − x in den n Messwerten u ¨ berwiegen. Man kann zeigen, dass stets gilt: −1 ≤ r ≤ +1. Dieser Nachweis ist in Aufgabe 15 im Abschnitt 1.2.8 zu erbringen. Die Messdaten (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) liegen genau dann auf einer Geraden, wenn der zugeh¨ orige Korrelationskoeffizient r gleich 1 oder gleich -1 ist. Wie wir schon fr¨ uher bemerkten, wird das bei realen Daten wohl nie eintreten.
66
1 Beschreibende Statistik
Zur Interpretation des Korrelationskoeffizienten r ist folgende Sprechweise geeignet: r
Korrelation
0
keine (lineare) Korrelation; es kann andere Zusammenh¨ ange geben
1
perfekte Korrelation; steigende Werte der unabh¨ angigen Variablen entsprechen steigenden Werten der abh¨ angigen Variablen
-1
perfekte Korrelation, allerdings negative lineare Abh¨ angigkeit; steigende Werte der unabh¨ angigen Variablen entsprechen fallenden Werten der abh¨ angigen Variablen
0 bis 0,5
schwache (positive) Korrelation
0,8 bis 1
starke Korreation
0 bis -0,5
schwache (negative) Korrelation
Eine quantitative Interpretation ist grunds¨ atzlich schwierig. Denn bei einer Korrelation von 0,95 wissen wir ohne Kenntnis des Scatterdiagramms oder der Regressionsgeraden nicht, ob die Zunahme“ steil oder flach verl¨ auft (Steigung!). ” Im Beispiel K¨ orpergr¨ oße/K¨ orpergewicht“ betr¨ agt der Korrelationskoeffi” zient r 27, 25 r= ≈ 0, 54. 5, 84 · 8, 69 Anmerkungen und Erg¨ anzungen: 1. 2.
3. 4. 5.
Der Korrelationskoeffizient r ist nur auf lineare Zusammenh¨ ange bezogen. Das macht auch seine Herleitung deutlich. Beim Korrelationskoeffizienten r nach Bravais-Pearson wird nicht zwischen Einflussgr¨ oße (unabh¨ angiger Variable) und Zielgr¨ oße (abh¨ angiger Variable) unterschieden. Man schaue sich unter diesem Aspekt noch einmal die Definition von r an! Der Korrelationskoeffizient nach Bravais-Pearson ist das geometrische Mittel der Steigungen der beiden Regressionsgeraden. Der Korrelationskoeffizient r nach Bravais-Pearson ist nicht definiert, wenn die empirische Standardabweichung sx oder sy gleich Null ist. Das Vorzeichen des Korrelationskoeffizienten r nach Bravais-Pearson dr¨ uckt die Richtung des linearen Zusammenhangs aus, der absolute Betrag von r dr¨ uckt die St¨ arke des linearen Zusammenhangs aus.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten 6.
67
Bei der Interpretation ist ¨ außerste Vorsicht geboten. Der lineare funktionale Zusammenhang zwischen den zwei Gr¨ oßen ist eine mathematische Modellbeschreibung eines Sachproblems, nicht mehr. Scatterdiagramm und Regressionsgerade sagen nichts aus u arke des Zusammenhangs. ¨ber die St¨ Das macht der Korrelationskoeffizient. Aber auch bei einer starken Korrelation darf daraus nicht auf eine kausale Abh¨ angigkeit der zwei Gr¨ oßen geschlossen werden. Der Nachweis einer kausalen Beziehung kann nicht aus dem mathematischen Modell gefolgert werden, sondern nur aus der Sache selbst. Es ist ein Sachproblem. Ein Beispiel kann dieses verdeutlichen: In schwedischen Landkreisen beobachtete man eine Abnahme der St¨ orche und gleichzeitig eine Abnahme der Geburten. Ein kausaler Zusammenhang ist aber trotz hoher Korrelation auszuschließen. Das ist das klassische“ ” Beispiel einer nonsense“ Korrelation. Perfekte Korrelation sagt nur, dass ” sich Daten zweier Gr¨ oßen (linear) gleichzeitig ver¨ andern, aber nicht, dass sie urs¨ achlich miteinander gekoppelt sind. W. Kr¨ amer ([83], S. 145) nennt ein anderes interessantes Beispiel: In den 1960er- und 1970er-Jahren hat man eine erstaunliche negative Korrelation zwischen Rockl¨ ange in der ” Damenwelt und dem Dow-Jones-Aktienindex festgestellt, wof¨ ur wohl nur der Zufall als Erkl¨ arung bleibt.“ (Siehe auch W. Kr¨ amer [85], Kapitel 14.) Neben den sinnlosen Korrelationen gibt es auch noch die scheinbaren“ ” Korrelationen zwischen zwei Datenmengen, bei der die Korrelation nur mittelbar (also indirekt) u ¨ ber eine dritte Variable gegeben ist. So glauben z. B. auch einige Forscher nicht ausschließen zu k¨ onnen, dass die unsin” nige“ Korrelation St¨ orche/Geburten“ in Wirklichkeit vielleicht doch eine ” scheinbare“ Korrelation ist, indem n¨ amlich ein drittes Merkmal zuneh” ” mende Industrialisierung“ sowohl die Abnahme der St¨ orche als auch die Abnahme der Geburten bedingt.
Im Rahmen dieses Buches k¨ onnen wir weitere interessante Themen aus der Beschreibenden Statistik wie z. B. Konzentrationsph¨ anomene im wirtschaftlichen Bereich (Monopolbildung) nicht behandeln. Wir verweisen auf entsprechende Literatur. Einen guten Einstieg liefern Lehn u. a. [115].
1.2.7
Fehler und Manipulationsm¨ oglichkeiten
Da es in der Statistik um die Erhebung, Aufbereitung und Interpretation von Daten geht, k¨ onnen auf jeder dieser Stufen Fehler gemacht werden. Zu dieser Thematik gibt es zahlreiche Literatur. Auch wir haben uns dazu ge¨ außert, so dass wir uns an dieser Stelle auf Literaturhinweise beschr¨ anken: K¨ utting [102] (Kapitel VII), [104], [99], W. Kr¨ amer [85]. In den genannten Publikationen befinden sich zahlreiche weitere Literaturhinweise zu dieser Thematik.
68
1 Beschreibende Statistik
1.2.8 1.
2.
Aufgaben und Erg¨ anzungen
Formulieren Sie das in Abschnitt 1.2.3 an einem Beispiel beschriebene Ver” fahren zur Berechnung des arithmetischen Mittels durch Korrektur eines gesch¨ atzten arithmetischen Mittels“ allgemein und begr¨ unden Sie dieses. Die folgenden Daten geben die (fiktiven) K¨ orpergr¨ oßen von Neugeborenen in einer Klinik an: 40 46 51 54
41 51 50
48 49 53
52 51 52
52 51 53
49 48 50
49 52 51
50 49 50
a) Stellen Sie die Daten in einem Stengel-Blatt-Diagramm dar. b) Berechnen Sie das arithmetische Mittel und den Median der Daten. c) Berechnen Sie die empirische Standardabweichung und den Quartilabstand. d) Stellen Sie die Verteilung der absoluten H¨ aufigkeiten der Daten in einem Histogramm mit jeweils der Klassenbreite 3 (cm) dar. 3.
Bei einem Sportfest wurden die folgenden Weitsprungleistungen (in cm) gemessen: 340 553 420
417 373 505
525 450 495
495 485 407
530 510 482
340 492 533
430 387 447
530
a) Stellen Sie die Daten in einem Stengel-Blatt-Diagramm dar. b) Stellen Sie die Verteilung der Daten in einem Kasten-Schaubild (boxplot-Diagramm) dar. 4.
Die Preissteigerungen f¨ ur ein elektronisches Ger¨ at betrugen in f¨ unf aufeinanderfolgenden Jahren 5 %, 7 %, 12 %, 6 % und 4 %. a) Geben Sie mit kurzer Begr¨ undung an, welcher Mittelwert die durchschnittliche Preissteigerung f¨ ur den angegebenen Zeitraum am besten beschreibt. b) Wie groß ist die durchschnittliche Preissteigerung?
5.
Bei einer medizinischen Untersuchung einer Schulklasse wurden u. a. folgende K¨ orpergewichte (in kg) festgestellt: 35 36 37
27 38 45
36 45 52
42 40 48
50 42 31
32 34 34
35 38 46
29 43 30
44 45 38
40 42 35
a) Bilden Sie Klassen der Breite 3 beginnend mit der Klasse K1 = [27, 30[ f¨ ur die Merkmalsauspr¨ agungen und bestimmen Sie die kumulierten relativen H¨ aufigkeiten.
1.2 Grundbegriffe der beschreibenden Statistik und Aufbereitung der Daten
69
b) Stellen Sie die empirische Verteilungsfunktion der klassierten Daten graphisch dar. 6.
Zeigen Sie: F¨ ur die empirische Varianz s2 gilt: n 2 1 2 2 s = xi − n¯ x , n−1
n ≥ 2.
i=1
7.
Gegeben seien zwei reelle Zahlen a > 0, b > 0. Seien x ¯h das harmonische, x ¯g das geometrische und x ¯ das arithmetische Mittel dieser Daten. a) Zeigen Sie: ¯g ≤ x ¯. x ¯h ≤ x b) Wann gilt das Gleichheitszeichen?
8.
Gegeben seien die quantitativen Daten x1 , x2 , . . . , xn . Beweisen Sie: Die Summe der Quadrate der Abweichungen aller n Daten von ihrem arithmetischen Mittel x ¯ ist kleiner als die Summe der Quadrate der Abweichungen aller Messwerte von einem beliebigen anderen reellen Wert c: n
2
(xi − x ¯) <
i=1
9.
n
(xi − c)2 ,
c ∈ IR, c = x ¯.
i=1
(Minimumseigenschaft des arithmetischen Mittels) Beweisen Sie die Minimumseigenschaft des Medians (Satz 1.2): F¨ ur beliebiges c ∈ IR gilt: n n |xi − x0,5 | ≤ |xi − c|. i=1
i=1
10. Gegeben seien n Daten x1 , x2 , . . . , xn eines quantitativen Merkmals mit dem arithmetischen Mittel x ¯. Zeigen Sie: Unterwirft man alle diese Daten xi (i = 1, 2, . . . , n) einer linearen Transformation xi → a + b · xi (a, b ∈ IR, b = 0), so erh¨ alt man das arithmetische Mittel x ¯t der transformierten Daten durch dieselbe lineare Transformation aus dem arithmetischen Mittel x ¯ der urspr¨ unglichen Daten. 11. Gegeben seien n quantitative Daten x1 , x2 , . . . , xn mit dem arithmetischen Mittel x ¯. a) Zeigen Sie (ohne Verwendung der Differentialrechnung): Die Funktion 2 ¯ ein Minif : IR → IR mit f (X) = n i=1 (xi − x) hat an der Stelle x mum. b) Beweisen Sie a) mit Methoden der Differentialrechnung. 12. Sei dx¯ die mittlere absolute Abweichung vom arithmetischen Mittel x ¯, sei dx0,5 die mittlere absolute Abweichung vom Median (siehe Definition 1.10) und sei s die Standardabweichung der Daten (siehe Definition 1.12). Dann gilt dx0,5 ≤ dx¯ ≤ s.
70
1 Beschreibende Statistik
13. Gegeben seien n Datenpaare (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). Es sei x ¯ das arithmetische Mittel der xi -Werte (i = 1, 2, . . . , n), und es sei y¯ das arithmetische Mitel der yi -Werte (i = 1, 2, . . . , n). Die y-Werte auf der Regressionsgeraden werden mit yˆi (i = 1, 2, . . . , n) bezeichnet. Mit y¯ˆ wird das arithmetische Mittel der yˆi -Werte bezeichnet. Als Residuen ei werden die Differenzen ei := yˆi − yi (i = 1, 2, . . . , n) bezeichnet. a) Beweisen Sie: Die Summe aller Residuen ist Null. b) Beweisen Sie (auf einem anderen Weg als in Abschnitt 1.2.6) die G¨ ultigkeit der Gleichung y¯ˆ = y¯. 14. Beweisen Sie: Die beiden Regressionsgeraden y = ax +bx x und x = ay +by y fallen genau dann zusammen, wenn gilt: bx = b1y . 15. Beweisen Sie: Der Korrelationskoeffizient r nach Bravais-Pearson (s. Definition 1.13) nimmt nur Werte aus dem Intervall [−1, +1] an.
2 Wahrscheinlichkeit
Einer der großen Vorteile der Wahrscheinlichkeitsrechnung ist der, ” daß man lernt, dem ersten Anschein zu mißtrauen.“ P. S. Laplace ([110], 127)
2.1
Zufall und Wahrscheinlichkeit
Sicherheit im menschlichen Leben Die Erfahrung zeigt, im menschlichen Leben gibt es keine Sicherheit: Eine unfallfreie Fahrt von M¨ unster nach Bielefeld ist nur wahrscheinlich, aber keineswegs sicher, wie Unfallstatistiken im Straßenverkehr belegen, Statistiken der Gesundheitsbeh¨ orden zeigen, dass der Einzelne ein potentielles Risiko besitzt, an einer b¨ osartigen Krankheit zu leiden, Lebensmittelvergiftungen aufgrund des heutigen Abendessens k¨ onnen nicht vollst¨ andig ausgeschlossen werden, Reaktorunf¨ alle sind (wie die Erfahrung gezeigt hat) m¨ oglich. Niemand aber kann sagen, ob und wann sich ein neuer Reaktorunfall oder gar ein GAU(gr¨ oßter anzunehmender Unfall) ereignen wird. Es kann in einigen Jahrzehnten, es kann aber auch schon morgen sein. Zufall in der Natur – Naturgesetze steuern den Zufall“ (M. Eigen) ” Gesetzm¨ aßigkeiten in der Natur k¨ onnen als statistische Gesetzm¨ aßigkeiten betrachtet werden. Zwar liegt f¨ ur die G¨ ultigkeit ein hoher Grad an Wahrscheinlichkeit vor (mit an Sicherheit grenzender Wahrscheinlichkeit), doch Ausnahmen sind prinzipiell m¨ oglich. Das Zusammenwirken vieler Einzelvorg¨ ange im Kleinen legt die beobachteten Gesetzm¨ aßigkeiten fest. So ist z. B. die Lebensdauer eines einzelnen radioaktiven Atoms nicht abzusch¨ atzen, es kann schon in der n¨ achsten Sekunde zerfallen, es kann aber auch noch Millionen von Jahren leben. Trotzdem besteht das radioaktive Zerfallsgesetz f¨ ur den Zerfall einer sehr großen Zahl gleichartiger radioaktiver Atome. Hinweis: Im Abschnitt 2.6.4 leiten wir das radioaktive Zerfallsgesetz mit Hilfe der Wahrscheinlichkeitstheorie her. Ungewissheit im Spiel Bei einem nicht gef¨ alschten Spielw¨ urfel haben wir keinen Grund zu der AnnahH. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
72
2 Wahrscheinlichkeit
me, dass irgendeine Seite des W¨ urfels vor den anderen Seiten ausgezeichnet ist. Wir k¨ onnen beim Ausspielen eines W¨ urfels aber nicht mit Sicherheit vorhersagen, welche Seite nach dem Wurf oben liegt. Das Spiel Lotto 6 aus 49“ ist ein in der Gesellschaft beliebtes Gl¨ ucksspiel. Auch ” wenn clevere Gesch¨ aftsleute zum Spielen mit System“ auffordern, Sicherheit ” f¨ ur Gewinne gibt es nicht. Johann Wolfgang von Goethe (1749 – 1832) bemerkte einmal: Achte hatte ich gesetzt, nun ist die Neune gezogen. – Sieh wie nah ich ” schon war! N¨ achstens treff ich die Zahl. – Und so klagen die Menschen, die sich dem Zufall vertrauen.“ Exaktheit“ bei Massenproduktionen ” Bei technischen Massenproduktionen ist man nicht sicher, dass jedes gefertigte Produkt in allen Bereichen die verlangten Normen erf¨ ullt. Viele Einzelfaktoren, wie falsche Justierung, Temperaturschwankungen, Ersch¨ utterungen, menschliches Versagen usw. machen Qualit¨ atskontrollen notwendig, die einerseits die Herstellung von Produkten u ¨berwachen, andererseits aber auch hilfreich sind, wenn u ¨ ber Annahme oder Ablehnung von Warenkontingenten zu entscheiden ist. Auch der Gesetzgeber achtet auf die Einhaltung der Qualit¨ at: Wir verweisen auf die Eichgesetze und die Fertigpackungsverordnungen. So d¨ urfen z. B. Fertigpackungen gleicher Nennf¨ ullmenge ganz bestimmte zul¨ assige Minusabweichungen nicht u ullmengen unterhalb der ¨ berschreiten. Fertigpackungen, deren F¨ Toleranzgrenze liegen, d¨ urfen nicht in den Verkehr gebracht werden. Die entsprechenden Verordnungen regeln sowohl die betrieblichen Pr¨ ufungen zur Kontrolle des Produktionsvorganges als auch die Verfahren zur Pr¨ ufung der F¨ ullmenge nach Gewicht oder Volumen durch die zust¨ andigen Beh¨ orden. So haben z. B. die Beh¨ orden zur Kontrolle Zufallsstichproben festgelegten Umfangs zu entnehmen. Messgenauigkeit Bei Messungen und Auswertung von Experimenten entstehen zuf¨ allige Fehler (z. B. Ablesefehler, Beobachtungsfehler, Fehler durch zuf¨ allige Schwankungen außerer Bedingungen). Diese Fehler k¨ onnen mathematisch erfasst und ber¨ uck¨ sichtigt werden unter Zugrundelegung einer großen Zahl von Messungen durch den Einsatz der Fehlerrechnung, die auf Carl Friedrich Gauß (1777 – 1855) zur¨ uckgeht. Die Fehlergesetze beschreiben z. B., wie beobachtete Werte um ihren Mittelwert streuen und erlauben, die Wahrscheinlichkeit eines Fehlers einer vorgegebenen Gr¨ oße abzusch¨ atzen.
2.2
Mathematik des Zufalls
Diese knappen Ausf¨ uhrungen lassen die Weite des Zufalls erkennen. Wir versuchen, uns darauf einzustellen. Aber wie? Novalis (Pseudonym f¨ ur Friedrich
2.2 Mathematik des Zufalls
73
Leopold Freiherr von Hardenberg, 1772 – 1801) sagte: Auch der Zufall ist nicht ” unergr¨ undlich, er hat seine Regelm¨ aßigkeit.“ Wir fragen: Welche? Unser Ziel in diesem Buch ist es, den Zufall mathematisch erfassbar zu machen. Werfen wir zuerst einen Blick auf die Etymologie des Wortes Zufall. Im Etymologischen W¨ orterbuch der deutschen Sprache von F. Kluge und A. G¨ otze (Berlin 1951) heißt es: Zufall M. mhd. zuoval, mnd. toval,nl. (sei 1598) toeval: ” Lehn¨ ubersetzung des gleichbed. lat. accidens N., Part. von accidere (aus ad ‘zu’ und cadere ‘fallen’).“ Mit den Mystikern des 14. Jahrhunderts Tauber, Vetter und Seuse beginnt der Gebrauch des mhd. zuoval. Zufall ist also das, was jemandem zuf¨ allt. Carl Friedrich von Weizs¨ acker schreibt: Zufall ist ein eigent¨ umliches Wort. ” Es ist immer sehr schwer zu wissen, wie weit es das deckt, was wir nicht wissen, oder wie weit es eine legitime Anwendung hat.“ (Zitiert nach Basieux [12], 133.) In der Umgangssprache ist der Zufallsbegriff schillernd. Redeweisen wie dummer Zufall, reiner Zufall, gl¨ ucklicher Zufall, echter Zufall, scheinbarer Zufall, a rgerlicher Zufall, blinder Zufall, sch¨ opferischer Zufall, himmlischer Zufall, der ¨ Zufall kam uns zu Hilfe best¨ atigen diesen Eindruck. Im Reich der Spiele hat der Zufall zwei Namen: Gl¨ uck und Pech. Man spricht auch von Schicksal. Andere meinen: Der Zufall ist der Gott der Dummk¨ opfe. Im philosophischen Sprachgebrauch ist der Zufall u. a. als das nicht notwendige oder das unbeabsichtigte Ereignis gekennzeichnet, im Rechtssinn meint man mit Zufall ein unabh¨ angiges, daher nicht zu vertretendes Ereignis, in den Naturwissenschaften spricht man von prinzipiell nicht oder nur ungenau vorauszusagenden Ereignissen. Auch um viele Entdeckungen ranken sich Geschichten, wo der Zufall bei der Entdeckung eine Rolle gespielt haben soll (z. B. Penicillin, Teflon, R¨ ontgenstrahlen, Radioaktivit¨ at, Porzellan). Hier ist jedoch der Ausspruch von Louis Pasteur (1822 – 1895) in besonderer Weise zu beachten: Der Zufall beg¨ unstigt ” nur einen vorbereiteten Geist“ (zitiert nach Schneider [155], 3). Man spricht in der Forschung h¨ aufig von random screening (zuf¨ alliges Durchmustern), und von Paul Ehrlich (1854 – 1915) stammt das Wort: Wissenschaft” liche Entdeckungen h¨ angen von den vier Gs ab: Geld, Geduld, Geschick und Gl¨ uck“ (zitiert nach Schneider [155], 203). Heute besch¨ aftigt das Begriffspaar Zufall und Notwendigkeit“ Philosophen, ” Theologen und Naturwissenschaftler in gleicher Weise, und je nach Ausgangslage und je nach der Blickrichtung kann es zu unterschiedlichen Bewertungen kommen. In der Wahrscheinlichkeitstheorie wird Zufall nicht explizit erkl¨ art, gleichwohl geht es um eine wissenschaftliche Betrachtung des Zufalls, in der dann Zufallsexperimente, zuf¨ allige Prozesse, Zufallsgr¨ oßen, Zufallsvektoren, Zufallszahlen, Wahrscheinlichkeitsr¨ aume, etc. eine Rolle spielen. Die Wahrscheinlich-
74
2 Wahrscheinlichkeit
keitstheorie (heute spricht man allgemeiner von Stochastik) unterwirft den Zufall soweit wie m¨ oglich dem mathematischen Denken, sie versucht, den Zufall durch mathematisches Denken soweit wie m¨ oglich zu entschl¨ usseln“. ” Was ist Stochastik? Unter Stochastik wird ganz allgemein der durch die Wahrscheinlichkeitsrech” nung und Mathematische Statistik sowie deren Anwendungsgebiete (s. S. X) gekennzeichnete Wissenschaftsbereich verstanden, der sich mit Zufallserscheinungen befaßt (griech. στ oχαστ ικ´ oς, jemand, der im Vermuten geschickt ist).“(M¨ uller [124], 401.) ¨ Auf den Seiten X – XIII dieses Lexikons findet sich eine Ubersicht mit Erl¨ auterungen u ¨ber die drei Gebiete Wahrscheinlichkeitsrechnung, Mathematische Statistik und Anwendungsgebiete einschließlich Spezialdisziplinen. Nach diesen einleitenden Ausf¨ uhrungen kann die folgende Aussage von A. N. Kolmogoroff (1903 – 1987, Begr¨ under der axiomatischen Wahrscheinlichkeitstheorie) nicht mehr verwundern: F¨ ur jeden gebildeten Menschen ist es ganz unerl¨ aßlich, daß er ele” mentare Kenntnisse dar¨ uber hat, wie die Wissenschaft mit der Erforschung ‘zuf¨ alliger’ Massenerscheinungen fertig wird.“ (Zitiert nach: Mathematik in der Schule, 5. Jhrg. 1967, S. 828.) Genau das ist unser Ziel: Wir geben eine elementare Einf¨ uhrung in die Stochastik. In der Stochastik geht es einerseits um den Erwerb von Fachkenntnissen in der Theorie, andererseits um die Anwendung der erworbenen Kenntnisse auf reale Situationen. Im Rahmen dieser Einf¨ uhrung k¨ onnen wir die großen realen Anwendungsgebiete wie Spieltheorie, Entscheidungstheorie, Informationstheorie, Stochastische Automaten, Lagerhaltungstheorie, Versuchsplanung, Statistische Qualit¨ atskontrolle usw. nicht behandeln. Sie erfordern zur Behandlung tiefergehende Kenntnisse. Aber f¨ ur alle Anwendungen, auch z. B. f¨ ur einfache Gl¨ ucksspiele gilt generell: Will man zufallsbestimmte Ph¨ anomene und Situationen des t¨ aglichen Lebens mathematisch beschreiben, so m¨ ussen sie erst durch ein System mathematischer Begriffe und Beziehungen, also durch Mathematisierung (Modellbildung) erfassbar und berechenbar gemacht werden. Bei stochastischen Situationen bildet die Wahrscheinlichkeitstheorie die Grundlage f¨ ur solche Modelle. Die Modelle erm¨ oglichen es, Probleme der Realit¨ at, bei denen der Zufall osen. eine Rolle spielt, als mathematische Fragestellung zu formulieren und zu l¨ osung erfolgt also zun¨ Die L¨ achst im zugrundeliegenden Modell und muss dann mit Blick auf das reale Problem interpretiert werden.
2.2 Mathematik des Zufalls
Reales stochastisches Problem
75
Modellbildung
Stochastisches Modell
stochastische Theorie (Kalkül) Losung des ¨ realen stochastischen Problems
Interpretation
L¨osung des stochastischen Problems
Ausgehend vom Sachproblem ist jede Modellannahme so weit wie m¨ oglich aus dem Sachzusammenhang zu begr¨ unden. Auf einer unteren Ebene k¨ onnen solche Modellannahmen z. B. die Festlegung der Ergebnismenge Ω, die Festlegung und Beschreibung von Ereignissen und die Wahl der Wahrscheinlichkeitsfunktion P sein. Weitere Modellannahmen k¨ onnten die Annahme einer Binomialverteilung oder der stochastischen Unabh¨ angigkeit bei Ereignissen sein. (Zur Erkl¨ arung der Begriffe siehe die n¨ achsten Kapitel.) Dabei ist zu beachten, dass Modellannahmen f¨ ur das anstehende Sachproblem Verengungen und Vereinfachungen bedeuten k¨ onnen. Modelle sind nie die Sache selbst, sondern nur mehr oder weniger genaue Abbilder. Eine L¨ osung des Problems stellt sich zun¨ achst nur dar als eine L¨ osung im zugrundegelegten stochastischen Modell und muss und kann nur so interpretiert werden. Deutlich wird das hohe Anspruchsniveau. Man muss sozusagen Fachmann mit doppelter Kompetenz sein: Man muss Fachmann in der stochastischen Theorie sein, und man muss Fachmann im anstehenden Sachproblem sein. Denn nur die genaue Kenntnis und Analyse des Sachproblems und die umfassende Kenntnis in der stochastischen Theorie bieten die Gew¨ ahr, ein ad¨ aquates stochastisches Modell w¨ ahlen zu k¨ onnen. Das richtige Verstehen des Sachproblems ist eine unbedingte Voraussetzung zur L¨ osung. Wir werden sp¨ ater im Abschnitt 2.5.1 auf Modellbildungsprozesse zur¨ uckkommen.
76
2.3
2 Wahrscheinlichkeit
Entwicklung der klassischen Wahrscheinlichkeit
2.3.1 Ber¨ uhmte historische Beispiele und einige interessante Briefwechsel Den Ursprung der Wahrscheinlichkeitsrechnung finden wir bei Gl¨ ucksspielen im 17. Jahrhundert. Die Stochastik entstand wie viele mathematische Theorien aus Anwendungsfragen. Dietrich Morgenstern schreibt hierzu: . . ., daß ” diese Anwendungen in den gl¨ ucklichen Zeiten, da die Mathematik hof- und gesellschaftsf¨ ahig war, sich auf Gl¨ ucks- und Kartenspiele bezogen, ist keinesfalls besch¨ amend, ist doch auch etwa die Mechanik (außer durch gewiß nicht r¨ uhmlicheren Kriegsmaschinenbau) durch die Freude am Spielzeug wesentlich gef¨ ordert worden.“ (Morgenstern [122], 7.)
Beispiel 2.1 (Das Drei-W¨ urfel-Problem) Chevalier de M´ er´e (1607 – 1684) vermutete ¨ aufgrund theoretischer Uberlegungen, dass beim gleichzeitigen Werfen dreier symmetrischer (unterscheidbarer) Spielw¨ urfel die Chancen f¨ ur das Auftreten der Augensumme 11 und der Augensumme 12 gleich groß sein m¨ ussen, denn sowohl f¨ ur die Augensumme 11 als auch f¨ ur die Augensumme 12 gibt es jeweils sechs verschiedene M¨ oglichkeiten: Augensumme 12
Augensumme 11 6
−
4
−
1
6
−
5
−
1
•
6
−
3
−
2
6
−
4
−
2
•
5
−
5
−
1
6
−
3
−
3
5
−
4
−
2
5
−
5
−
2
5
−
3
−
3
5
−
4
−
3
4
−
4
−
3
4
−
4
−
4
•
er´ e beobachtete aber in der Spielpraxis, dass die Augensumme Chevalier de M´ 11 h¨ aufiger auftrat als die Augensumme 12. Blaise Pascal (1623 – 1662) wurde mit diesem Widerspruch“ befasst und l¨ oste ” das Problem folgendermaßen: Man darf nicht nur die Gesamtsumme 11 bzw. 12 betrachten, sondern muss auch die Verteilung der einzelnen Zahlen (Augen) einer bestimmten additiven Zerlegung der Summe 11 bzw. 12 auf die drei unterscheidbaren W¨ urfel ber¨ ucksichtigen. Zur Erl¨ auterung betrachten wir die durch • hervorgehobenen Zerlegungen der Zahlen 11 und 12 und denken uns die drei W¨ urfel verschieden gef¨ arbt.
2.3 Entwicklung der klassischen Wahrscheinlichkeit
77
F¨ ur die Augensumme 11 wird die Konstellation 6-3-2 realisiert durch sechs verschiedene (geordnete) Tripel, wobei jeweils die erste Zahl durch den ersten W¨ urfel, die zweite Zahl durch den zweiten W¨ urfel und die dritte Zahl durch den dritten W¨ urfel erzeugt wird: 6-3-2: (6,3,2),(6,2,3),(3,2,6),(3,6,2),(2,6,3),(2,3,6). Analog ergeben sich aber z. B. f¨ ur die Konstellation 5-5-1 bei der Augensumme 11 nur drei Tripel: 5-5-1: (5,5,1),(5,1,5),(1,5,5). F¨ ur die Augensumme 12 kann die Konstellation 4-4-4 sogar nur durch ein Tripel realisiert werden: 4-4-4: (4,4,4). Man erkennt: Treten in einer Zerlegung drei verschiedene Zahlen auf, gibt es zur Realisierung sechs Tripel, treten in der Zerlegung genau zwei verschiedene Zahlen auf, dann gibt es nur drei Tripel f¨ ur die Realisierung, und sind alle drei Zahlen gleich, dann gibt es nur eine M¨ oglichkeit zur Realisierung. ¨ Unter Ber¨ ucksichtigung dieser Uberlegungen gibt es dann insgesamt 27 M¨ oglichkeiten f¨ ur das Auftreten der Augensumme 11, aber es gibt nur 25 M¨ oglichkeiten f¨ ur das Auftreten der Augensumme 12. Damit ist der Fehler im theoretischen Ansatz von Chevalier de M´ er´e aufgekl¨ art. ¨ Wir halten fest: Die theoretischen Uberlegungen des Chevalier de M´ er´e stimmen nicht mit der erlebten Praxis, n¨ amlich der Durchf¨ uhrung von Spielen und ¨ dem Beobachten der Ergebnisse, u k¨ onnen ¨ berein. Theoretische Uberlegungen anhand erlebter Praxis u berpr¨ u ft“ werden und k¨ o nnen so zu Modifikationen ¨ ” der Theorie f¨ uhren. Um in einem mathematischen Modell die Wahrscheinlichkeiten f¨ ur das Auftre¨ ten der Augensumme 11 bzw. 12 festlegen zu k¨ onnen, sind weitere Uberlegungen erforderlich. Wir bereiten diese an einfachen Zufallsexperimenten vor. Wirft der Schiedsrichter vor Beginn des Fußballspiels eine M¨ unze in die Luft, um zu entscheiden, welche Mannschaft die Seitenwahl auf dem Spielfeld hat, so sagen wir umgangssprachlich h¨ aufig, die Chancen f¨ ur Zahl“ (Z) oder Wap” ” pen“ (W) stehen 1 zu 1. Im mathematischen Modell sagen wir, es kann einer der zwei gleichm¨ oglichen F¨ alle Z, W beim Werfen realisiert werden, die wir zu einer Menge Ω = {Z, W } zusammenfassen (Ω griechischer Buchstabe, gelesen: Omega). Die Menge Ω nennen wir Ergebnismenge. Das Ereignis Auftreten von ” Zahl“ schreiben wir als Menge {Z}. F¨ ur dieses Ereignis ist ein Fall von zwei gleichm¨ oglichen F¨ allen g¨ unstig. Dann sagen wir im mathematischen Modell, die Wahrscheinlichkeit f¨ ur das Auftreten des Ereignisses {Z} ist gleich dem Bruch 1 . 2
78
2 Wahrscheinlichkeit
Werfen wir einen symmetrischen W¨ urfel aus homogenem Material, dessen Seiten von 1 bis 6 durchnumeriert sind, in die Luft, dann kann eine der sechs Zahlen 1, 2, 3, 4, 5, 6 nach dem Wurf oben liegen. Die Ergebnismenge Ω hat 6 Elemente: Ω = {1, 2, 3, 4, 5, 6}. Sehen wir die sechs m¨ oglichen F¨ alle als gleichm¨ oglich an, dann sagen wir z. B., die Wahrscheinlichkeit f¨ ur das Ereignis Auftreten der 6“ ” – wir bezeichnen es mit {6} – ist gleich dem Bruch 16 , denn einer von den 6 gleichm¨ oglichen F¨ allen ist g¨ unstig f¨ ur das Ereignis {6}. Beim Drei-W¨ urfel-Problem“, zu dem wir jetzt zur¨ uckkehren, ist die Situati” on etwas komplizierter. Die Anzahl der g¨ unstigen F¨ alle f¨ ur das Ereignis Auf” treten der Augensumme 11“ bzw. f¨ ur das Ereignis Auftreten der Augensumme ” 12“ wurde bereits bestimmt. Es ist noch die Gesamtzahl aller m¨ oglichen Spielausg¨ ange zu bestimmen. Da jeder der 6 m¨ oglichen Spielausg¨ ange des ersten W¨ urfels mit jedem der 6 m¨ oglichen Ausg¨ ange des zweiten W¨ urfels zusammentreffen kann, und diese 6 · 6 = 36 M¨ oglichkeiten wiederum mit jeder der 6 M¨ oglichkeiten des dritten W¨ urfels zusammentreffen k¨ onnen, gibt es insgesamt 6 · 36 = 216 m¨ ogliche Spielausg¨ ange. Diese 216 Tripel bilden die Ergebnismenge Ω. Das Ereignis Augensumme 11“ wird durch die Teilmenge von Ω beschrieben, ” die genau aus den 27 Zahlentripel besteht, deren Zahlen die Summe 11 ergeben. Die Teilmenge von Ω, die das Ereignis Augensumme 12“ beschreibt, besteht ” genau aus den 25 Zahlentripel von Ω als Elemente, bei denen die Summe der drei Zahlen im Tripel 12 ergibt. Da es sich um ideale Spielw¨ urfel handeln soll, nimmt man an, dass alle 216 m¨ oglichen Spielausg¨ ange mit der gleichen Wahrscheinlichkeit auftreten. Unter dieser Annahme bildet man dann als Wahrscheinlichkeit f¨ ur die betrachteten Ereignisse in einem letzten Schritt des Modellbildungsprozesses jeweils den Quotienten unstigen F¨ alle ur das Ereignis A g¨ Anzahl g(A) der f¨ . Anzahl m der m¨ oglichen F¨ alle Diese Wahrscheinlichkeit nennt man klassische Wahrscheinlichkeit. Man erh¨ alt also, wenn P die Wahrscheinlichkeit bezeichnet: 27 P (Augensumme 11) = = 0, 125, 216 25 ≈ 0, 116. P (Augensumme 12) = 216 Die mathematische Behandlung dieses ersten Beispiels l¨ asst deutlich drei Aspekte erkennen. Es handelt sich um Anzahlbestimmungen – ein Aspekt der Kombinatorik, um ein Erheben von Daten (hier Durchf¨ uhrung von Spielen und Beobachten (Notieren) der Ergebnisse durch Chevalier de M´ er´e) – ein Aspekt der Beschreibenden Statistik, um eine Zuordnung (unter gewissen Annahmen) von rationalen Zahlen zu den beobachteten Ereignissen als deren Wahrscheinlichkeit – klassische Wahrscheinlichkeit als ein Aspekt der Wahrscheinlichkeitstheorie.
2.3 Entwicklung der klassischen Wahrscheinlichkeit
79
Beispiel 2.2 (Force majeure - Ein Teilungsproblem) Eine entscheidende Rolle in der Entwicklungsgeschichte der Wahrscheinlichkeitsrechnung spielten sogenannte Teilungsprobleme, die bereits lange vor dem noch zu erw¨ ahnenden Briefwechsel zwischen Blaise Pascal und Pierre de Fermat diskutiert wurden. Bei diesen Problemen musste nach einer Reihe von Gl¨ ucksspielen das Spiel aufgrund h¨ oherer Gewalt abgebrochen werden, ohne dass ein Sieger feststand. Man fragte, wie die Eins¨ atze zu verteilen waren. Im Folgenden gehen wir f¨ ur alle angegebenen L¨ osungsvorschl¨ age von einer einheitlichen Situation aus: Zwei Spieler A und B haben eine Reihe von Gl¨ ucksspielen (Partien) verabredet. Jede Partie endet mit Gewinn oder Verlust. Es gibt kein Remis. Die Chancen sind f¨ ur beide Spieler gleich. Wer zuerst insgesamt 5 Partien gewonnen hat, erh¨ alt die Eins¨ atze. Durch h¨ ohere Gewalt m¨ ussen die Spieler beim Stand von 4 : 3 f¨ ur Spieler A gegen B ihr Spiel abbrechen. Wie sind die Eins¨ atze zu verteilen?
L¨ osungsvorschl¨ age Fra Luca Pacioli (1445 – 1514), Franziskanerm¨ onch und Lehrer f¨ ur Mathematik an verschiedenen italienischen Universit¨ aten, geht vom realisierten Spielergebnis aus und sagt, es sei im Verh¨ altnis 4:3 aufzuteilen. b) Niccol` o Tartaglia (1499 – 1557), Mathematiklehrer in Venedig, h¨ alt von Paciolis Weg nichts: Diese seine Regel scheint mir weder sch¨ on noch gut ” zu sein. Denn wenn zuf¨ allig eine der Parteien . . ..“ (Zitiert nach Schneider [154], 18f.) Etwas sp¨ ater f¨ ahrt er fort: Und deshalb sage ich, daß ein solches ” Problem eher juristisch als durch die Vernunft gel¨ ost wird; denn egal, auf welche Art und Weise man es l¨ ost, es gibt immer einen Grund zu streiten. Nichtsdestotrotz erscheint mir als am wenigsten anfechtbare L¨ osung die folgende . . .“ (Schneider [154], 18.) In unserem Fall heißt die L¨ osung: Man teile die Eins¨ atze im Verh¨ altnis (5 + 4 − 3) : (5 + 3 − 4) = 3 : 2 auf. c) Blaise Pascal (1623 – 1662), franz¨ osischer Mathematiker, stand in Briefverbindung zu Pierre de Fermat und Christiaan Huygens. Pascal schreibt an Fermat (29. Juli 1654), dass ihm Chevalier de M´er´e das Teilungsproblem vorgelegt habe und dass Herr de M´er´e niemals den richtigen Wert beim Spielabbruch und auch keinen Ansatz, um dahin zu gelangen, gefunden habe. Pascals L¨ osung ist nun die folgende: Wenn B die n¨ achste Partie gewinnen w¨ urde, w¨ are Gleichstand, und B m¨ usste die H¨ alfte des Einsatzes bekommen. Da die Chance zu gewinnen nur 12 ist, geb¨ uhrt ihm die H¨ alfte der atze, d. h. es ist im Verh¨ altnis 3:1 zu teilen. H¨ alfte, also 14 der Eins¨ Das Neue an Pascals Weg ist, dass er seine Berechnungen nicht auf beobachtete Ergebnisse, sondern auf zuk¨ unftige st¨ utzt. Er schreibt: . . ., so daß ” a)
80
2 Wahrscheinlichkeit
man richtigerweise nur die Anzahl der Spiele betrachten darf, die von jedem Einzelnen noch zu gewinnen sind und nicht die Anzahl derer, die sie bereits gewonnen haben.“ (Zitiert nach Kockelkorn [80], 72.) Gem¨ aß diesem Vorgehen erfolgt die gerechte Aufteilung des Einsatzes entsprechend den Gewinnchancen der zwei Spieler. Nach heutiger Sprechweise wird also in diesem L¨ osungsweg ein Aspekt der Stochastik sichtbar. d) Pierre de Fermat (1607 – 1665) (Neuere Forschungen weisen darauf hin, dass das Geburtsdatum von Pierre de Fermat nicht 1601 (wie bisher angenommen), sondern vermutlich 1607 ist (Barner [7])), franz¨ osischer Mathematiker, kommt unabh¨ angig von Pascal zum selben Ergebnis wie Pascal. Sein Weg bezieht ebenfalls die zuk¨ unftigen Partien ein und enth¨ alt wahrscheinlichkeitstheoretische Aspekte. Fermat argumentiert so: Nach sp¨ atestens zwei weiteren Partien ist entschieden, welcher der beiden Spieler Sieger ist. Es gibt dann vier verschiedene Anordnungen f¨ ur die Ausg¨ ange der zwei noch zu spielenden Partien. Wir stellen diese u ¨ bersichtlich in einer Tabelle und einem Baumdiagramm dar. Die vier m¨ oglichen Resultate werden als gleich wahrscheinlich angesehen. 1. Partie
2. Partie
Sieger (Ausgangssituation 4:3 f¨ ur A)
A gewinnt
A gewinnt
Sieger ist A
A gewinnt
B gewinnt
Sieger ist A
B gewinnt
A gewinnt
Sieger ist A
B gewinnt
B gewinnt
Sieger ist B
In 3 F¨ allen gewinnt also A, in einem Fall B. Also ist im Verh¨ altnis 3:1 zu teilen. ¨ Ubertr¨ agt man die Ergebnisse der Tabelle in ein Baumdiagramm, so erh¨ alt man folgendes Bild:
A Sieger
A Sieger
A Sieger
B Sieger
A
B
A
B Gewinner der 2. Partie
A
B Gewinner der 1. Partie
2.3 Entwicklung der klassischen Wahrscheinlichkeit
81
Fermat teilte Pascal seine L¨ osung, die kombinatorische Elemente enth¨ alt, mit. In seinem Brief vom 29. Juli 1654 an den in Toulouse lebenden Fermat dr¨ uckt Pascal seine Freude u osung aus: Je vois bien, que ¨ ber die u ¨ bereinstimmende L¨ ” la v´erit´e est la mˆeme ` a Toulouse et ` a Paris“ (Ich sehe (mit Freude), dass die Wahrheit in Toulouse und Paris dieselbe ist) (zitiert nach Schneider [154], 27).
Beispiel 2.3 (Das Paradoxon des Chevalier de M´ er´ e) Es wird berichtet, dass Chevalier de M´er´e anl¨ asslich eines Zusammentreffens mit Pascal auf einer Reise Pascal zwei Probleme vorgelegt habe. Das eine ist das soeben besprochene Teilungsproblem, das andere lernen wir jetzt kennen. Bei diesem sog. Paradoxon treten zwei Gl¨ ucksspiele in Konkurrenz zueinander. Es geht einmal um ein Gl¨ ucksspiel mit einem W¨ urfel, der viermal ausgespielt wurde. Man wusste, dass es sich lohnt, darauf zu setzen, dass dabei mindestens einmal die 6 auftritt. (Hinweis: Die Wahrscheinlichkeit ist gr¨ oßer als 12 ). Dann geht es im Paradoxon um ein zweites Gl¨ ucksspiel mit zwei W¨ urfeln. Hierbei stand die Frage im Mittelpunkt des Interesses, ob es sich lohnt, darauf zu wetten, dass beim 24-maligen Ausspielen der zwei W¨ urfel mindestens einmal eine Doppelsechs (Sechser-Pasch) auftritt. Man wusste aus Erfahrung, dass es sich nicht lohnt. (Hinweis: Die Wahrscheinlichkeit ist kleiner als 12 ). Doch das stand im Widerspruch zu einer Proportionalit¨ atsregel der kritischen ” Werte“. Man argumentierte etwa so (aus heutiger Sichtweise): Beim Werfen eines W¨ urfels gibt es sechs (gleichm¨ ogliche) Ergebnisse. F¨ ur die Ergebnismenge Ω gilt: Ω = {1, 2, 3, 4, 5, 6}. Die Chance, dass beim einmaligen Werfen die 6 auftritt ist 16 . Beim viermaligen Werfen wird dann die Chance mit 4 oßer als 12 . 6 angegeben, die Chance ist gr¨ Beim Werfen von zwei W¨ urfeln gibt es 6 · 6 = 36 (gleichm¨ ogliche) Ergebnisse. Die Ergebnismenge Ω hat also 36 Elemente. Das sind sechsmal so viele m¨ ogliche Ergebnisse wie beim Werfen eines W¨ urfels. Wenn man also jetzt auch sechsmal so viele Spiele macht wie beim Werfen eines W¨ urfels, also 6 · 4 = 24 Spiele, dann sollte es sich lohnen, auf das Auftreten mindestens einer Doppelsechs zu setzen. 2 Denn es gilt: 46 = 24 36 = 3 . Mit diesem Ergebnis standen aber die Spielerfahrungen im Widerspruch. Lohnend“ war es nur, das Spiel mit einem W¨ urfel zu ” betreiben. ¨ In der Tat: Die theoretischen Uberlegungen sind fehlerhaft. Die Grundidee dieser falschen Denkweise wird im Allgemeinen G. Cardano angelastet. Mit heutigem Kenntnisstand ist der entscheidende Fehler leicht zu erkennen. Denn w¨ urde man beispielsweise den W¨ urfel zehnmal werfen, dann w¨ are die ¨ Wahrscheinlichkeit, nach obigen Uberlegungen gleich 10 , also gr¨ o ßer als 1. Das 6
82
2 Wahrscheinlichkeit
geht aber nicht, denn in dem Bruch, mit dem die klassische Wahrscheinlichkeit berechnet wird, Anzahl g(A) der f¨ ur das Ereignis A g¨ unstigen F¨ alle Anzahl m der m¨ oglichen F¨ alle kann die Anzahl der f¨ ur ein Ereignis g¨ unstigen F¨ alle (Z¨ ahler) nie gr¨ oßer sein als die Anzahl aller m¨ oglichen F¨ alle (Nenner). Pascal l¨ oste das Problem, er berichtete aber auch, dass Chevalier de M´er´e die L¨ osung selbst fand. Er schreibt am 29. Juli 1654 an Fermat: J’avais vu ” plusieurs personnes trouver celle des d´es, comme M. le Chevalier de M´er´e, qui est celui qui m’a propos´e ces questions.“ (Zitiert nach Kockelkorn [80], 70.) (Ich hatte mehrere Personen getroffen, die die L¨ osung des W¨ urfelproblems gefunden hatten, so den Chevalier de M´er´e. Dieser ist auch derjenige, der mir diese Fragen stellte.) Zur exakten rechnerischen L¨ osung, die z. T. in Aufgabe 6 verlangt wird, u ¨ berlegt man sich, wie viele gleichm¨ ogliche F¨ alle es jeweils gibt, und dann wie viele f¨ ur das jeweilige Ereignis g¨ unstige F¨ alle. Die Kernfrage dieses Problems ist jedoch die Frage, wie viele W¨ urfe mit einem W¨ urfel (bzw. mit zwei W¨ urfeln) muss man mindestens machen (kritischer Wert), damit die Wahrscheinlichkeit des Ereignisses Auftreten der 6 mindestens ” einmal“ (bzw. Auftreten der Doppelsechs mindestens einmal“) gr¨ oßer als 12 ist. ” Dieser kritische Wert liegt bei dem Gl¨ ucksspiel mit einem W¨ urfel tats¨ achlich bei 4, bei dem Gl¨ ucksspiel mit zwei W¨ urfeln allerdings bei 25. Die gew¨ ahlten 24 Versuche reichen also nicht aus. Diese kritischen Werte lassen sich leicht best¨ atigen, wenn das Problem rechnerisch gel¨ ost ist.
Historische und didaktische Anmerkungen 1.
2.
3.
Die genannten historischen Aufgaben sollten in einem Stochastikunterricht nicht fehlen. Es gibt keine Mathematik ohne ihre Geschichte. Eingeblendete historische Akzente machen Mathematiklernen lebendiger und vielleicht auch einsichtiger. Eine ahistorisch vermittelte Mathematik f¨ uhrt zu einem Zerrbild eines unattraktiven Fertigprodukts (Hans Freudenthal, 1905 – 1990). Heute k¨ onnen die drei historischen Probleme von Anf¨ angern gel¨ ost werden. Man muss sich aber in die damalige Zeit versetzt denken. Im Hinblick auf das Paradoxon des Chevalier de M´er´e“ schreibt K. L. Chung ([32], 148): ” Dieses ber¨ uhmte Problem war [. . .] eine geistige Herausforderung f¨ ur die ” besten K¨ opfe der damaligen Zeit.“ Verallgemeinerungen und Varianten von Beispielen und Aufgaben k¨ onnen vertiefte Einsichten vermitteln. Auf eine Verallgemeinerung des Teilungsproblems sei hingewiesen: Spieler A fehlen noch m Partien zum Sieg, Spieler B fehlen noch n Partien zum Sieg. F¨ ur Spieler A sei f¨ ur jede Partie die Ge-
2.3 Entwicklung der klassischen Wahrscheinlichkeit
4.
5.
6.
83
winnchance p, f¨ ur Spieler B sei f¨ ur jede Partie die Gewinnchance q mit p + q = 1. (Siehe Aufgabe 28, Abschnitt 2.9.4.) Die Beispiele zeigen, dass Widerspr¨ uche zwischen Theorie und Erfahrung und theoretische Fehlschl¨ usse die Entwicklung einer Wissenschaft vorantreiben k¨ onnen. In seinem Brief vom 29. Juli 1654 an Fermat ¨ außerte sich Pascal u ¨ ber Chevalier de M´er´e. Abgesehen von einigen Einschr¨ ankungen in Bezug auf das Mathematikverst¨ andnis des Chevalier de M´er´e, spricht er voller Hochachtung von de M´er´e: . . . denn er ist ein sehr t¨ uchtiger Kopf, aber er ist kein ” Mathematiker (das ist, wie Sie wissen, ein großer Mangel), und er begreift nicht einmal, daß eine mathematische Linie bis ins Unendliche teilbar ist und ist zutiefst davon u ¨berzeugt, daß sie sich aus einer endlichen Zahl von Punkten zusammensetzt; ich habe ihn niemals davon abbringen k¨ onnen. Wenn Sie das zustande br¨ achten, w¨ urden Sie ihn vollkommen machen.“ (Zitiert nach Schneider [154], 30.) W¨ urfelspiele finden sich schon im Altertum. Sogenannte Astragale (Kn¨ ochelchen aus der Hinterfußwurzel von Schaf oder Ziege, vgl. Abbildung) wurden
Abb.: Astragale. Jeder der vier Astragale zeigt eine andere Seite: oben links chion, rechts pranes; unten links koon, rechts hyption. -Rechts: Hinterbeine eines Schafes. Der Pfeil bezeichnet die Lage des Astragalos (Talus, Sprungbein) in der Fußwurzel (Tarsus). Entnommen: Ineichen, R. ([76], 27).
¨ f¨ ur Agypten schon ca. 3000 v. Chr. nachgewiesen. Auch Griechen und R¨ omer benutzten sie. Aristoteles (348 – 322 v. Chr.) beschreibt sie. Es sind vier verschiedene Lagen m¨ oglich. Meistens waren die Seiten unbeschriftet, weil man die vier Lagen auch ohne Beschriftung unterscheiden konnte: konkav - konvex; schmal - breit. Wegen vieler interessanter Einzelheiten und weiterer W¨ urfel“ verweisen wir auf das lesenswerte Buch von Robert ” Ineichen: W¨ urfel und Wahrscheinlichkeit, Spektrum Akademischer Verlag Heidelberg 1996.
84
2 Wahrscheinlichkeit
2.3.2 1.
Aufgaben und Erg¨ anzungen
Schon Girolamo Cardano (1501 – 1576) besch¨ aftigte sich in seinem posthum erschienenen Buch Liber de ludo aleae (1663) mit W¨ urfelspielen, u. a. mit dem Wurf von zwei W¨ urfeln. a) Wie viele und welche Augensummen k¨ onnen bei einem Wurf mit zwei W¨ urfeln auftreten? b) G. Cardano bestimmte (gem¨ aß unserer Sprechweise) die Wahrschein1 . lichkeit f¨ ur das Auftreten des Ereignisses Augensumme 10“ mit 12 ” Begr¨ unden Sie ausf¨ uhrlich dieses Ergebnis.
2.
3.
4.
5. 6.
Galileo Galilei (1564 – 1642) wurde einmal gefragt, warum beim Wurf dreier W¨ urfel die Augensumme 10 ¨ ofter auftritt als die Augensumme 9, obwohl f¨ ur beide Summen sechs Arten der Konstellation m¨ oglich sind. Galilei kannte die L¨ osung des Problems. L¨ osen auch Sie die Aufgabe. Hinweis: Beachten Sie die Ausf¨ uhrungen zum Drei-W¨ urfel-Problem“. ” Wie wir bei den L¨ osungsvorschl¨ agen des Teilungsproblems“ ausf¨ uhrten, ” lehnte Tartaglia die L¨ osung von Pacioli ab. Seine Ablehnungsgr¨ unde teilten wir nicht mit. Versuchen Sie eine m¨ ogliche Begr¨ undung f¨ ur die Ablehnung anzugeben. Hinweis: Betrachten Sie bei Spielabbruch andere Spielst¨ ande. Pascal berichtet in seinem Brief vom 24.08.1654 an Fermat u ber einen Ein¨ wand des Herrn de Roberval (1602 – 1675) gegen die (kombinatorische) Methode, die Fermat zur L¨ osung des Teilungsproblems benutzt (der Text bezieht sich auf eine Spielsituation, bei der A zwei und B drei Gewinne fehlen): Es sei irrig, sich des Kunstgriffs zu bedienen, die Teilung unter ” der Voraussetzung vorzunehmen, man spiele vier Partien, weil man ja nicht notwendig vier spielen m¨ usse, wenn dem ersten zwei und dem anderen drei fehlen, da man m¨ oglicherweise nur zwei oder drei oder vielleicht wirklich vier Partien spielte. Er sehe auch nicht ein, warum man vorgebe, eine gerechte Teilung unter der erk¨ unstelten Voraussetzung vorzunehmen, man spiele vier Partien, weil es ja eine nat¨ urliche Spielregel sei, nicht weiterzuspielen, sobald einer der Spieler gewonnen habe, . . .“ (Zitiert nach Schneider [154], 33). ¨ Ubertragen Sie den Einwand auf die Spielsituation, wie sie in unserem Teilungsproblem gegeben ist: Es waren 5 Partien zu gewinnen, um Sieger zu werden, der Spielabbruch erfolgte beim Stande von 4:3. Pascal selbst hat den Einwand von Roberval widerlegt. Zeigen auch Sie, dass Robervals Einwand unberechtigt ist. ur das Teilungsproblem weitere L¨ osungen mit Erl¨ auterungen Geben Sie f¨ an. Der folgende Auszug aus einem Brief von Pascal an Fermat vom 29. Juli 1654 bezieht sich auf das Paradoxon des Chevalier de M´er´e: Er (de M´er´e) ” sagte mir also, daß er aus folgendem Grund einen Fehler in den Zahlen
2.4 Zur geschichtlichen Entwicklung der Stochastik
85
gefunden habe: Wenn man versucht, mit dem W¨ urfel eine Sechs zu werfen, dann ist es von Vorteil, dies mit vier W¨ urfen zu tun, und zwar wie 671 zu 625. Wenn man versucht, mit zwei W¨ urfeln eine Doppelsechs zu werfen, ist es von Nachteil, dies mit 24 W¨ urfen zu tun. Dennoch verh¨ alt sich 24 zu 36 (was die Anzahl der Kombinationsm¨ oglichkeiten der Seiten von zwei W¨ urfeln ist) wie 4 zu 6 (was die Anzahl der Seiten eines W¨ urfels ist). Das ist es, woran er so großen Anstoß nahm und was ihn dazu veranlaßte, ¨ offentlich zu behaupten, daß die Aussagen der Mathematik unsicher seien und dass die Arithmetik sich widerspreche: . . .“ (Zitiert nach Schneider [154], 30). Berechnen Sie die (klassische) Wahrscheinlichkeit daf¨ ur, dass beim viermaligen Werfen eines idealen W¨ urfels mindestens einmal die 6 auftritt, und best¨ atigen Sie hiermit die im zitierten Briefausschnitt angegebenen Zahlen 671 und 625. Hinweis: Vgl. auch K¨ utting ([101], 31 – 34).
2.4
Zur geschichtlichen Entwicklung der Stochastik
Aufgrund des angegebenen Briefwechsels zwischen Pascal und Fermat wird vielfach das Jahr 1654 als das Geburtsjahr der Stochastik angesehen. Doch schon G. Cardano (1501 – 1576) befasste sich mit Problemen bei W¨ urfelspielen und dem Teilungsproblem (probl`eme des partis). Pascal und Fermat selbst haben keine Abhandlungen zur Wahrscheinlichkeit verfasst. Sie sprechen auch nicht vom Begriff Wahrscheinlichkeit (la probabilit´ e), sondern vom Zufall (le hasard). (Man beachte: Wir selbst benutzten bei der Er¨ orterung der historischen Beispiele z. T. schon heutige Begriffsbildungen und Sprachregelungen.) Der Holl¨ ander Christiaan Huygens (1629 – 1695) kannte die Korrespondenz zwischen Pascal und Fermat. Das veranlasste ihn zu seinem Traktat u ¨ber Gl¨ ucksspiele. Auch er benutzte nicht den Begriff der Wahrscheinlichkeit, sondern ¨ er sprach vom Wert der Hoffnung“ (in der lat. Ubersetzung des Traktats: valor ” expectationis; Erwartungswert). Diese Abhandlung inspirierte wiederum Jakob Bernoulli (1654 – 1705, bedeutendes Mitglied der schweizer Mathematikerdynastie der Bernoullis), sich mit wahrscheinlichkeitstheoretischen Problemen zu befassen. In seiner Ars conjectandi (Kunst des Vermutens), die erst 1713 acht Jahre nach seinem Tode erschien, findet man kombinatorische Abhandlungen, ¨ ferner Uberlegungen zur Wahrscheinlichkeit (probabilitas), die wir heute als klassische Wahrscheinlichkeit bezeichnen, und auch Bez¨ uge zwischen der relativen H¨ aufigkeit und der Wahrscheinlichkeit (Gesetz der Großen Zahlen). Wichtige Beitr¨ age lieferte Abraham de Moivre (1667 – 1754; er entstammte einer Hugenottenfamilie in der Champagne und emigrierte 1688 nach England)
86
2 Wahrscheinlichkeit
insbesondere mit seinem Buch The Doctrine of chances (1718). Er spricht von probability und legte bereits vor Laplace in der zweiten Auflage seines Buches (1738) als Maß f¨ ur die Wahrscheinlichkeit den Quotienten Anzahl g(A) der f¨ ur das Ereignis A g¨ unstigen F¨ alle Anzahl m der m¨ oglichen F¨ alle fest. Pierre Simon Laplace (1749 – 1827, franz¨ osischer Mathematiker und Physiker, er war auch politisch t¨ atig) verdanken wir eine umfassende Darstellung der damaligen wahrscheinlichkeitstheoretischen Kenntnisse durch sein 1812 erschienenes Buch Th´ eorie analytique des probabilit´ es und durch sein Essai philosophique sur les probabilit´ es aus dem Jahre 1814. Letzteres ist eine popul¨ arwissenschaftliche Zusammenfassung der Hauptresultate seiner Theorie“. Auch hier finden ” wir das bereits oben angegebene Maß f¨ ur die Wahrscheinlichkeit eines Ereignisses, wobei ausdr¨ ucklich die stets zu beachtende Gleichm¨ oglichkeit aller F¨ alle betont wird: Die Theorie des Zufalls ermittelt die gesuchte Wahrscheinlichkeit ” eines Ereignisses durch Zur¨ uckf¨ uhrung aller Ereignisse derselben Art auf eine gewisse Anzahl gleich m¨ oglicher F¨ alle, d. h. solcher, u ¨ ber deren Existenz wir in gleicher Weise unschl¨ ussig sind, und durch Bestimmung der dem Ereignis g¨ unstigen F¨ alle. Das Verh¨ altnis dieser Zahl zu der aller m¨ oglichen F¨ alle ist das Maß dieser Wahrscheinlichkeit, die also nichts anderes als ein Bruch ist, dessen Z¨ ahler die Zahl der g¨ unstigen F¨ alle und dessen Nenner die Zahl aller m¨ oglichen F¨ alle ist.“ (Laplace [110], 4) Heute bezeichnen wir dieses Maß als klassische Wahrscheinlichkeit oder als Laplace-Wahrscheinlichkeit f¨ ur sogenannte Laplace-Experimente, bei denen die Gleichwahrscheinlichkeit f¨ ur alle m¨ oglichen F¨ alle angenommen wird. Die f¨ ur solche Experimente benutzten Zufallsgeneratoren nennt man dann h¨ aufig Laplaceurfel), Laplace-M¨ unze (L-M¨ unze) usw. Es sei daran W¨ urfel (abgek¨ urzt: L-W¨ erinnert, dass die Diskussion der historischen Beispiele im Abschnitt 2.3.1 unter Beachtung der Laplace-Wahrscheinlichkeit gef¨ uhrt wurde. Laplace versucht in seinem Essai, einem breiten Publikum die Ideen der Wahrscheinlichkeitstheorie nahe zu bringen und es f¨ ur die Theorie zu begeistern: Betrachtet man die analytischen Methoden, die durch diese Theo” rie entstanden, die Wahrheit der Prinzipien, die ihr zur Grundlage dienen, die scharfe und feine Logik, welche ihre Anwendung bei der L¨ osung von Problemen erfordert, die gemeinn¨ utzigen Anstalten, die sich auf sie gr¨ unden, sowie die Ausdehnung, die sie schon erlangt hat und durch ihre Anwendung auf die wichtigsten Fragen der Naturphilosophie und der moralischen Wissenschaft noch erhalten kann;
2.4 Zur geschichtlichen Entwicklung der Stochastik
87
bemerkt man sodann, wie sie selbst in den Dingen, die der Berechnung nicht unterworfen werden k¨ onnen, die verl¨ aßlichsten Winke gibt, die uns bei unseren Urteilen leiten k¨ onnen, und wie sie vor irref¨ uhrenden T¨ auschungen sich in acht zu nehmen lehrt, so wird man einsehen, daß es keine Wissenschaft gibt, die unseres Nachdenkens w¨ urdiger w¨ are, und die mit gr¨ oßerem Nutzen in das System des ¨ offentlichen Unterrichts aufgenommen werden k¨ onnte.“ (Laplace [110], 171) Obwohl es sich bei der Laplace-Wahrscheinlichkeit eigentlich gar nicht um eine Definition handelt, sondern nur um eine Vorschrift zur Berechnung der Wahrscheinlichkeit, wurde sie doch h¨ aufig als Definition verstanden, gegen die dann Einw¨ ande geltend gemacht wurden. Ein wesentlicher Einwand bestand dann darin, zu sagen, die Definition enthalte einen Circulus vitiosus. Man argumentierte in etwa so: Die Definition st¨ utzt sich auf die Voraussetzung von gleichm¨ oglichen, d. h. aber von gleichwahrscheinlichen F¨ allen. Die Definition des Wahrscheinlichkeitsbegriffs enth¨ alt also den zu erkl¨ arenden Begriff. Das ist nicht zul¨ assig. Diesem Einwand ist widersprochen worden: Es wird darauf hingewiesen, dass die Festlegung gleicher Wahrscheinlichkeit nicht mittels des festzulegenden Begriffs, sondern aufgrund geometrischer Eigenschaften und physikalischer Beschaffenheit der Zufallsgeneratoren erfolgt (Symmetrie, Homogenit¨ at u. a.). P. Finsler weist 1947 darauf hin, dass a priori mindestens eine Annahme u ¨ ber Wahrscheinlichkeiten oder u ¨ ber Gleichheit von solchen gemacht werden muss, wenn man f¨ ur Wahrscheinlichkeiten bestimmte Zahlen erhalten will (Finsler [54], 109). A. R´enyi schreibt 1969: Der Mangel dieser Definition besteht in Wirklichkeit ” nicht darin, daß ihr ein Circulus vitiosus, eine <
> innewohnt (was auch heute noch oft behauptet wird), sondern vielmehr darin, daß sie im Grunde keine Definition ist. Auf die Frage, was die Wahrscheinlichkeit wirklich ist, gibt sie n¨ amlich keine Antwort, sie gibt nur eine praktische Anweisung, wie man die Wahrscheinlichkeit in gewissen einfachen F¨ allen (in moderner Terminologie: in <>) berechnen kann. Die Sch¨ opfer der Wahrscheinlichkeitsrechnung haben den Sachverhalt auch in diesem Sinne aufgefaßt, . . .“ (R´enyi [137], 82). Es handelt sich in der Tat nur um eine Berechnungsm¨ oglichkeit der Wahrscheinlichkeit unter einschr¨ ankender Annahme (Gleichm¨ oglichkeit der F¨ alle), so dass der Anwendungsbereich nat¨ urlich auch eingeschr¨ ankt ist. Beispielsweise kann beim Werfen von unsymmetrischen Objekten (Reißzwecken, Streichholzschachteln) die Frage nach der Wahrscheinlichkeit f¨ ur das Auftreten einer bestimmten Lagebeziehung nicht mit Hilfe der klassischen Wahrscheinlichkeitsrechnung beantwortet werden. Ein angemessener L¨ osungsversuch besteht darin,
88
2 Wahrscheinlichkeit
zun¨ achst Wurfversuche durchzuf¨ uhren, das Auftreten der Ereignisse tabellarisch festzuhalten und dann mit Hilfe dieses Erkenntnisstandes eine Aussage u ¨ber die gefragte Wahrscheinlichkeit zu machen und zu verantworten. In diesem Zusammenhang ist der Begriff der relativen H¨ aufigkeit von Bedeutung. Die relative H¨ aufigkeit hn (A) f¨ ur ein Ereignis A bezeichnet in der Versuchsfolge von n Versuchen den Quotienten hn (A) =
Anzahl Hn (A) der Versuche mit dem Ereignis A . Gesamtzahl n der Versuche
Die relative H¨ aufigkeit gewinnt um so mehr an Aussagekraft je mehr Versuche gemacht werden. Bei vielen Zufallsexperimenten zeigt sich eine Stabilisierung der relativen H¨ aufigkeiten. Diese Erfahrungstatsache f¨ uhrte zu einer Grenzwertdefinition der Wahrscheinlichkeit. Lange Zeit hat hier der Ansatz von Richard Edler von Mises (1883 – 1953) große Beachtung gefunden. Die Wahrscheinlichkeit P(A) eines Ereignisses A wird von ihm als Grenzwert der Folge der relativen H¨ aufigkeiten hn (A) f¨ ur das Ereignis A definiert, wobei aber einschr¨ ankende Bedingungen zu beachten sind. Die Definition bezieht sich nur auf Ereignisfolgen, die die Forderung der sog. Regellosigkeit“ erf¨ ullen – eine komplizierte Forde” rung. Der Ansatz setzte sich nicht durch. B. L. van der Waerden wies 1951 darauf hin, dass eine Limesdefinition der Wahrscheinlichkeit im Widerspruch zu den S¨ atzen der Wahrscheinlichkeit selbst steht (van der Waerden [174], 60). Der von Misessche Weg besitzt nur noch historische Bedeutung. Relative H¨ aufigkeiten sind aber im Geb¨ aude der Stochastik nach wie vor von Bedeutung. Die relative H¨ aufigkeit f¨ ur ein Ereignis A aus langen Versuchsreihen kann als Sch¨ atzwert f¨ ur die Wahrscheinlichkeit P (A) des Ereignisses A benutzt werden. Wir werden im n¨ achsten Abschnitt darauf zur¨ uckkommen. Die den bisher aufgezeigten Erkl¨ arungsversuchen anhaftenden Unzul¨ anglichkeiten st¨ arkten das Bem¨ uhen um eine allgemeine L¨ osung. Diese wurde durch den axiomatischen Aufbau der Wahrscheinlichkeitstheorie erbracht, den David Hilbert (1862 – 1943) bereits in seinem ber¨ uhmten Vortrag am 8. August 1900 u ¨ ber Mathematische Probleme“ auf dem 2. Internationalen Mathematikerkon” gress zu Paris gefordert hatte. Hilbert, der 1899 mit seinem Werk Grundlagen der Geometrie ein vollst¨ andiges Axiomensystem der euklidischen Geometrie vorgelegt hatte, hatte in seinem Vortrag in die Liste der 23 wichtigsten ungel¨ osten Probleme der Mathematik weitsichtig auch das Problem einer mathematisch exakten Begr¨ undung der Wahrscheinlichkeitsrechnung aufgenommen. Wir zitieren ¨ Hilbert anhand des ver¨ offentlichten Vortrages. In Problem Nr. 6 mit der Uberschrift Mathematische Behandlung der Axiome der Physik“ heißt es: Durch ” ” die Untersuchungen u ¨ ber die Grundlagen der Geometrie wird uns die Aufgabe nahegelegt, nach diesem Vorbilde diejenigen physikalischen Disziplinen axiomatisch zu behandeln, in denen schon heute die Mathematik eine hervorragende Rolle spielt: dies sind in erster Linie die Wahrscheinlichkeitsrechnung und die
2.5 Schritte zur Mathematisierung
89
Mechanik. Was die Axiome der Wahrscheinlichkeitsrechnung angeht1 , so scheint es mir w¨ unschenswert, daß mit der logischen Untersuchung derselben zugleich eine strenge und befriedigende Entwicklung der Methode der mittleren Werte in der mathematischen Physik, speziell in der kinetischen Gastheorie Hand in Hand gehe.“ (Zitiert nach Hilbert [68], 306.) Das Zitat l¨ asst ferner erkennen, dass f¨ ur David Hilbert die Wahrscheinlichkeitsrechnung keine mathematische Disziplin war. F¨ ur Hilbert geh¨ orte die Wahrscheinlichkeitsrechnung zur Physik. Das Problem wurde erst 1933 durch den russischen Mathematiker Alexander Nikolajewitsch Kolmogoroff (1903 – 1987) gel¨ ost. Sein Axiomensystem umfasst nur drei Axiome (siehe [81]). Der Begriff Wahrscheinlichkeit wird mathematisch abstrakt ohne Bezug zu irgendwelchen Anwendungen beschrieben, sein Gebrauch wird durch die Axiome (als Spielregeln) geregelt. Im u achsten ¨bern¨ Abschnitt werden wir uns mit diesem Axiomensystem besch¨ aftigen.
2.5
Schritte zur Mathematisierung
2.5.1
Zum Modellbildungsprozess
Zufallsbestimmte Ph¨ anomene und Situationen des t¨ aglichen Lebens m¨ ussen durch Mathematisierung (Modellbildung) erst erfassbar und berechenbar gemacht werden. Dazu braucht man ein System mathematischer Begriffe und Beziehungen. Bei stochastischen Situationen bildet die Wahrscheinlichkeitstheorie die Grundlage solcher Modelle. Diese Modelle erm¨ oglichen es, Probleme der Realit¨ at, bei denen der Zufall eine Rolle spielt, als mathematische Fragestellungen zu formulieren und zu l¨ osen. Wichtige mathematische Anfangsbegriffe f¨ ur die mathematische Modellbildung sind Ergebnismenge (auch Grundraum oder Beobachtungsraum genannt), Ereignis und Wahrscheinlichkeit. Der (vorgeschaltete) Begriff des Zufallsexperimentes entzieht sich einer exakten Beschreibung. Er ist aber unter didaktischen Gesichtspunkten beim Aufbau eines elementaren Zugangs hilfreich. Zufallsexperiment, Ergebnismenge Unter einem Zufallsexperiment in der Stochastik versteht man reale Vorg¨ ange (Versuche) unter exakt festgelegten Bedingungen, wobei die m¨ oglichen Ausg¨ ange (Ergebnisse) des Versuches feststehen, nicht jedoch, welchen Ausgang der Ver-
1 Vgl. Bohlmann: Uber ¨ ¨ Versicherungsmathematik. 2. Vorlesung aus Klein und Riecke: Uber angewandte Mathematik und Physik. Leipzig und Berlin 1900. (Hinweis: Diese Fußnote ist Bestandteil des Zitats).
90
2 Wahrscheinlichkeit
such nimmt. Ferner wird angenommen, dass der reale Vorgang (im Prinzip) unter gleichen Bedingungen (beliebig oft) wiederholt werden kann. Es sei angemerkt, dass die im letzten Satz ausgesprochene Kennzeichnung eines Zufallsexperimentes in der Realit¨ at nicht verifizierbar ist. Bei sehr h¨ aufiger Wiederholung eines Zufallsexperimentes k¨ onnen sich Versuchsbedingungen andern (z. B. Abnutzung des W¨ urfels oder der M¨ unze), und eine unendliche ¨ Folge von Versuchen gibt es in der Realit¨ at nicht. Wir haben deshalb in der umgangssprachlichen Beschreibung des Begriffs Zufallsexperiment“ diese kriti” schen Punkte durch Klammern gekennzeichnet. Andererseits erwartet man von einem Experiment seine Wiederholbarkeit, und dieser Gesichtspunkt bekommt bei dem Ansatz, relative H¨ aufigkeiten als Sch¨ atzwerte f¨ ur Wahrscheinlichkeiten zu benutzen, Gewicht. Die m¨ oglichen Ergebnisse (Ausg¨ ange) des Zufallsexperimentes werden zu einer Menge zusammengefasst, die Ergebnismenge (Grundraum, Beobachtungsraum) genannt wird und mit Ω (gelesen: Omega) bezeichnet wird. F¨ ur die Bezeichnung der Elemente der Ergebnismenge Ω benutzt man den kleinen Buchstaben ω. Hat die Ergebnismenge Ω n Elemente, dann kennzeichnet man die Elemente wie folgt durch Indizierung: Ω = {ω1 , ω2 , ω3 , . . . , ωn }. Die Ergebnismenge Ω sei stets nichtleer, d. h. die Menge Ω enth¨ alt wenigstens ein Element. Die Menge Ω kann endlich viele oder unendlich viele Elemente enthalten. Beispiele 1.
2.
Das Zufallsexperiment bestehe im einmaligen Werfen eines regelm¨ aßigen Spielw¨ urfels mit den Augen 1 bis 6. Dann kann Ω = {1, 2, 3, 4, 5, 6} gew¨ ahlt werden. Beim Zufallsexperiment zweimaliges Ausspielen eines W¨ urfels ist die Menge {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} eine geeignete Ergebnismenge, wenn man sich f¨ ur die Augensumme interessiert; interessiert man sich f¨ ur das Produkt der gew¨ urfelten Augenzahlen, so ist eine geeignete Ergebnismenge die Menge Ω = {1, 2, 3, 4, 5, 6, 8, 9, 10, 12, 15, 16, 18, 20, 24, 25, 30, 36}. Unterscheidet man die Augenzahl x beim 1. Wurf von der Augenzahl y beim 2. Wurf, so ist die Menge aller Paare {(x, y) |1 ≤ x ≤ 6, 1 ≤ y ≤ 6; x, y ∈ IN}
3.
eine geeignete Ergebnismenge. Das Zufallsexperiment bestehe im Drehen des Zeigers des abgebildeten Gl¨ ucksrades mit zehn gleichverteilten Ziffern 0,1,2,3,4,5,6,7,8,9 bis zum erstmaligen Auftreten der 9. Beobachtet wird also die Anzahl k der notwendigen Drehungen. Ein Pessimist k¨ onnte verzweifeln, da er die Zahl in unendliche
2.5 Schritte zur Mathematisierung
4.
5.
91
Ferne verschwinden sieht. Man kann f¨ ur die notwendige Anzahl der Drehungen keine feste nat¨ urliche Zahl angeben, von der man mit Sicherheit weiß, dass sie nie u ¨ berschritten wird. Das heißt, f¨ ur dieses Zufallsexperiment ist die Menge Ω von nat¨ urlichen Zahlen eine geeignete Ergebnismenge: Ω = {1, 2, 3, 4, 5, . . .}. Im Beispiel 1 (Werfen eines regelm¨ aßigen Spielw¨ urfels) ist es jedoch nicht zwingend, als Ergebnismenge die Menge {1, 2, 3, 4, 5, 6} zu w¨ ahlen. Man k¨ onnte auch die Unterscheidung gerade Zahlen G“ und ungerade Zahlen ” ” U“ als hinreichend ansehen und als Ergebnismenge die Menge {U, G} angeben. Man k¨ onnte ferner Kipplagen des W¨ urfels ber¨ ucksichtigen und durch das Symbol 0 kennzeichnen. Dann w¨ are die Menge {0, 1, 2, 3, 4, 5, 6} eine geeignete Ergebnismenge Ω f¨ ur das einmalige Werfen des W¨ urfels. Das Zufallsexperiment sei blindes Ziehen einer Kugel aus einer Urne mit 7 gleichen Kugeln, die sich nur in der Farbe unterscheiden (sonst von gleicher Gr¨ oße und Beschaffenheit sind). Von den 7 Kugeln seien 3 Kugeln rot und 4 blau. Dann ist eine geeignete Ergebnismenge Ω = {r, b}. Dieselbe Ergebnismenge Ω = {r, b} wie in diesem Zufallsexperiment w¨ urde man auch angeben k¨ onnen, wenn sich in einer Urne 1001 gleiche Kugeln befinden, von denen eine rot und 1000 blau sind. Das macht Folgendes deutlich: Kennt man das Verh¨ altnis der roten zu den blauen Kugeln in einer Urne, dann sind in der Angabe von Ω als Menge {r, b} noch nicht alle Informationen ber¨ ucksichtigt worden. Die Ber¨ ucksichtigung der Anzahl der roten Kugeln und der Anzahl der blauen Kugeln erfolgt beim Zuordnen des Wahrscheinlichkeitsmaßes f¨ ur die interessierenden Ereignisse. Es ist unmittelbar einsichtig, dass es der Wirklichkeit entspricht, wenn man bei den zwei genannten Urnen mit Ω = {r, b} den Ereignissen rote Kugel“ bzw. blaue Kugel“ nicht gleiche Wahrschein” ” lichkeiten zuordnet. Es ist auch klar, dass im Vergleich der beiden Urnen miteinander bei der Urne mit 1001 Kugeln die Chance, eine blaue Kugel zu ziehen, gr¨ oßer ist als bei der anderen Urne. Will man schon in der Ergebnismenge die faktischen Gegebenheiten“ in ” einer Urne ber¨ ucksichtigen, so muss man gleiche Kugeln ein und derselben Farbe unterscheidbar machen. Dieses kann durch Nummerierung (Indizierung) geschehen. Nehmen wir eine Urne mit 3 roten und 4 blauen Kugeln, so k¨ onnte man dann als Ergebnismenge Ω = {r1 , r2 , r3 , b1 , b2 , b3 , b4 } angeben.
Im Folgenden sei die Ergebnismenge Ω stets eine nichtleere Menge, die zun¨ achst nur endlich viele Elemente enth¨ alt. Die leere Menge wird mit ∅ bezeichnet.
92
2 Wahrscheinlichkeit
Definition 2.1 (Ereignis, sicheres Ereignis, unm¨ ogliches Ereignis) Bezeichne Ω = ∅, Ω endlich, die Ergebnismenge. 1. 2. 3. 4.
Jede Teilmenge A von Ω (in Zeichen: A ⊆ Ω) heißt ein Ereignis. Die einelementigen Teilmengen von Ω, also die Teilmengen, die genau ein Ergebnis enthalten, bezeichnet man als Elementarereignisse. Die sog. uneigentliche Teilmenge Ω von Ω, also die Ergebnismenge selbst, heißt sicheres Ereignis. Die leere Menge ∅ – ebenfalls eine uneigentliche Teilmenge von Ω – heißt unm¨ ogliches Ereignis. Anmerkungen
1.
2.
3.
Ereignisse werden mit großen lateinischen Buchstaben bezeichnet, vornehmlich aus dem Anfang des Alphabets: A, B, C, E. Voneinander verschiedene Ereignisse k¨ onnen auch durch einen Buchstaben mit unterschiedlichen Indizes gekennzeichnet werden: A1 , A2 , A3 ; C1 , C2 . Die Menge aller Teilmengen einer Menge Ω heißt Potenzmenge von Ω, sie wird mit P (Ω) bezeichnet. Ein Ereignis ist also ein Element der Potenzmenge P (Ω). Wir sagen ein Ereignis A ist eingetreten“ genau dann, wenn das beobach” tete Ergebnis ω des Zufallsexperimentes in der Teilmenge A von Ω liegt, also falls ω ∈ A. Beim Werfen eines W¨ urfels ist das Ereignis Primzahl“ ein” getreten, wenn der W¨ urfel beispielsweise 5 zeigt, denn es gilt 5 ∈ {2, 3, 5}. Beispiele
1.
2.
3. 4.
Fragt man beim einmaligen Werfen eines W¨ urfels, dessen Ergebnismenge Ω = {1, 2, 3, 4, 5, 6} ist, nach dem Ereignis ungerade Zahl“, so ist die” ses Ereignis beschrieben durch die Menge {1, 3, 5}. Das Ereignis ungerade ” Zahl“ ist realisiert, wenn ein Element der Menge {1, 3, 5} beim Werfen des W¨ urfels auftritt. Im Zufallsexperiment zweimaliges Werfen eines W¨ urfels mit der Ergebnismenge Ω = {(x, y) |x, y ∈ IN, 1 ≤ x ≤ 6, 1 ≤ y ≤ 6} bezeichnet die Teilmenge {(1, 1) , (2, 2) , (3, 3) , (4, 4) , (5, 5) , (6, 6)} das Ereignis Pasch“, d. h. ” erster und zweiter Wurf zeigen dieselbe Zahl. Sei Ω = {Z, W }. Dann sind {Z} und {W } Elementarereignisse. Das sichere Ereignis ist Ω = {Z, W }. Sei Ω = {1, 2, 3, 4, 5, 6}. Die Menge Ω selbst stellt das sichere Ereignis dar. Elementarereignisse sind: {1}, {2}, {3}, {4}, {5}, {6}.
Aufgrund der Definition 2.1 werden Ereignisse als Mengen identifiziert. Beziehungen zwischen Ereignissen und Verkn¨ upfungen von Ereignissen k¨ onnen daher auf Beziehungen und S¨ atze der Mengenalgebra zur¨ uckgef¨ uhrt werden. In
2.5 Schritte zur Mathematisierung
93
einem knappen Exkurs erinnern wir deshalb zun¨ achst an wichtige Beziehungen zwischen Mengen. Exkurs - Definition 1 Es seien A und B zwei Mengen. Die Menge A heißt genau dann Teilmenge von B, in Zeichen: A ⊆ B, wenn jedes Element x von A auch Element von B ist. Exkurs - Definition 2 Es seien A und B zwei Mengen. Dann versteht man unter der Schnittmenge (oder dem Durchschnitt) A ∩ B die Menge aller Elemente x, die zu A und zu B geh¨ oren: A ∩ B = {x|x ∈ A und x ∈ B} = {x|x ∈ A ∧ x ∈ B}, der Vereinigungsmenge (oder der Vereinigung) A ∪ B die Menge aller Elemente x, die zu A oder zu B geh¨ oren: A ∪ B = {x|x ∈ A oder x ∈ B} = {x|x ∈ A ∨ x ∈ B}. Hinweis: In der Formulierung A oder B“ ist oder“ im nicht ausschließendem ” ” Sinn gemeint (lat. vel): Wenigstens eine der beiden Bedingungen x ∈ A, x ∈ B muss erf¨ ullt sein, damit x ∈ A ∪ B gilt. der Differenz (oder der Differenzmenge) A \ B (gelesen: A ohne B) die Menge aller Elemente x, die zu A und nicht zu B geh¨ oren: A \ B = {x|x ∈ A und x ∈ / B} = {x|x ∈ A ∧ x ∈ / B}. Ist B Teilmenge von A, gilt also B ⊆ A, so nennt man die Differenzmenge A\B auch Komplement¨ armenge von B in Bezug auf A und schreibt daf¨ ur ¯ (gelesen: B quer). B Exkurs - Definition 3 Zwei Mengen A und B heißen disjunkt (elementfremd) genau dann, wenn ihr Durchschnitt leer ist, wenn also gilt A ∩ B = ∅. N¨ utzlich f¨ ur die sp¨ ateren Ausf¨ uhrungen ist auch die Erinnerung an folgende Regeln der Mengenalgebra, die durch Venndiagramme oder Zugeh¨ origkeitstafeln leicht einsichtig gemacht werden k¨ onnen. Es seien A, B und C Mengen. Dann gelten: Kommutativgesetze:
A ∩ B = B ∩ A, A ∪ B = B ∪ A.
Assoziativgesetze:
A ∩ (B ∩ C) = (A ∩ B) ∩ C, A ∪ (B ∪ C) = (A ∪ B) ∪ C.
Distributivgesetze:
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) , A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) .
94
2 Wahrscheinlichkeit Gesetze von de Morgan:
¯∩B ¯ , A∪B =A ¯∪B ¯ . A∩B =A
Ferner gilt:
A ∪ ∅ = A, A ∩ ∅ = ∅. ¯ die Komplement¨ Ist B armenge zu B in Bezug auf die Menge A, so gilt: ¯ ∪ B = A und B ¯ ∩ B = ∅. B
Nach diesem Exkurs in die Mengensprache, wenden wir uns wieder den Ereignissen zu, die ja durch Mengen beschrieben werden. Wenn A und B Ereignisse sind, wenn also A ⊆ Ω und B ⊆ Ω gilt, dann sind auch A ∩ B und A ∪ B Ereignisse (d. h. es gilt: A ∩ B ⊆ Ω und A ∪ B ⊆ Ω). Ist A ein Ereignis, dann ¯ := Ω \ A. auch A In einem W¨ orterbuch“ stellen wir die einander entsprechenden Sprachrege” ¨ lungen der Mengensprache und der Ereignissprache gegen¨ uber. Folgende Ubersetzungen sind zu beachten: Durchschnitt der Mengen A und B: Ereignis A ∩ B, gelesen: Ω Ereignis ”A und B“. Es tritt genau dann ein, wenn jedes der Ereignisse A und B eintritt.
A
B A∩B
Vereinigung der Mengen A und B:
A
B A∪B
Ereignis A ∪ B, gelesen: Ω Ereignis ”A oder B“. Es tritt genau dann ein, wenn das Ereignis A eintritt oder das Ereignis B eintritt oder beide Ereignisse eintreten.
2.5 Schritte zur Mathematisierung
95
Differenz der Mengen Ω und A:
A A¯
Ω\A
Ereignis Ω \ A, gelesen: Ω Ereignis ”Ω ohne A“. Es tritt genau dann ein, wenn das Ereignis Ω eintritt, aber nicht das Ereignis A. ¯ F¨ ur Ω \ A schreibt man A. ¯ Das Ereignis A heißt Gegenereignis (Komplement¨ arereignis) zu A.
Teilmengenbeziehung A ⊆ B: B
Die Beziehung A ⊆ B zwischen Ω den Ereignissen A und B bedeutet: Das Ereignis A zieht das Ereignis B nach sich. Jedesmal, wenn A eintritt, tritt B ein. Aus A folgt B.
A
A⊆B
Gleichheit der Mengen A und B: A=B
Die Ereignisse A und B sind gleich.
Elementfremde (disjunkte) Mengen A und B: Ist der Durchschnitt der Mengen Ω A und B die leere Menge, B A so heißen die Ereignisse A und B unvereinbare Ereignisse.
A∩B =∅
Wahrscheinlichkeit In einem weiteren Schritt wird ein Wahrscheinlichkeitsmaß eingef¨ uhrt: Den Ereignissen werden reelle Zahlen als Wahrscheinlichkeit zugeordnet.
96
2 Wahrscheinlichkeit Im Modell der Laplace-Verteilung (Gleichverteilung) wird dem Ereignis A die rationale Zahl Anzahl g(A) der f¨ ur das Ereignis A g¨ unstigen F¨ alle Anzahl m der m¨ oglichen F¨ alle als seine Wahrscheinlichkeit zugeordnet. Kann die Gleichverteilung nicht angenommen werden (z. B. aufgrund einer Asymmetrie des Zufallsgenerators), so kann man die relative H¨ aufigkeit f¨ ur das Ereignis A Anzahl der Versuche mit dem Ereignis A Gesamtanzahl n der Versuche aus einer langen Versuchsserie als Sch¨ atzwert f¨ ur die Wahrscheinlichkeit dieses Ereignisses A w¨ ahlen. Auch diese sogenannte frequentistische (oder statistische Wahrscheinlichkeit) ist stets eine rationale Zahl. Im Abschnitt 2.6.1 wird f¨ ur endliche Ergebnismengen das Wahrscheinlichkeitsmaß axiomatisch eingef¨ uhrt. Die Wahrscheinlichkeit eines Ereignisses A ist stets eine nichtnegative reelle Zahl zwischen 0 und 1 (einschließlich der Grenzen 0 und 1). (Bez¨ uglich der Zahlbereiche nat¨ urliche Zahlen“, rationa” ” le Zahlen“ und reelle Zahlen“ verweisen wir auf Padberg/Dankwerts/Stein ” [127].)
2.5.2 1.
Aufgaben und Erg¨ anzungen
Geben Sie zu folgenden Experimenten geeignete Ergebnismengen an:
a) Einmaliges Drehen des Zeigers des abgebildeten Gl¨ ucksrades.
b) Ermittlung der Kundenanzahl in einem Lebensmittelmarkt am Freitag zwischen 15 und 16 Uhr. c) Zweimaliges Werfen eines W¨ urfels und Beobachtung des Ereignisses Produkt der geworfenen Augenzahlen ergibt 12 oder 18“. ” d) Zuf¨ allige Auswahl von 6 Kugeln aus 49 gleichartigen Kugeln, die von 1 bis 49 durchnumeriert sind. (Zahlenlotto 6 aus 49“.) ” e) Bestimmung der Lebensdauer der durch einen bestimmten Prozess hergestellten Gl¨ uhbirne. 2. 3.
Sei die Ergebnismenge Ω = {Z, W }. Geben Sie alle Ereignisse an und kennzeichnen Sie die Elementarereignisse. Wie viele Ereignisse gibt es, wenn die Ergebnismenge Ω genau 4 (genau n) Elemente enth¨ alt?
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1) 4.
97
Gegeben seien die Ergebnismenge Ω. Seien A, B und C Ereignisse. Beschreiben Sie die folgenden Aussagen im stochastischen Modell: a) Alle drei Ereignisse A, B und C treten ein, b) mindestens zwei der drei Ereignisse A, B und C treten ein, c) genau eines der drei Ereignisse A, B und C tritt ein.
5.
Verbalisieren Sie die durch die folgenden Mengen vorgegebenen Ereignisse: a) M¨ unze zweimal werfen: Ω = {(Z, Z) , (Z, W ) , (W, Z) , (W, W )}. A = {(Z, W ) , (W, Z)}; B = {(Z, Z) , (W, W )}; C = {(Z, Z) , (Z, W ) , (W, Z)}. b) W¨ urfel einmal werfen: Ω = {1, 2, 3, 4, 5, 6}. E1 = {2}; E2 = {1, 2, 3, 4}; E3 = {3, 6}; E4 = {5, 6}; E5 = Ω.
6.
Beim abgebildeten Gl¨ ucksrad darf der Zeiger einmal gedreht werden. Sei Ω = {r, b, g, s}. Seien A = {r} und B = {g} Ereignisse. Geben Sie die ¯ Ereignisse A ∪ B, A ∩ B, Ω\(A ∪ B), A ∩ B, A¯ ∪ B mit Hilfe von A, B und Ω konkret an.
7.
Zwei Laplace-W¨ urfel werden einmal gleichzeitig geworfen. Wie groß ist die Wahrscheinlichkeit, dass wenigstens eine der beiden Augenzahlen gerade ist? Aus einer Urne mit einer roten, einer blauen und einer schwarzen Kugel wird dreimal nacheinander eine Kugel gezogen. Nach jeder Ziehung wird die gezogene Kugel wieder in die Urne zur¨ uckgelegt, so dass der Urneninhalt vor jeder Ziehung gleich ist. Es bezeichne Kr das Ereignis Auftreten einer ” roten Kugel bei der r-ten Ziehung“ (r = 1, 2, 3). Beschreiben Sie mit Hilfe der Ereignisse K1 , K2 , K3 die folgenden Ereignisse:
8.
a) Ereignis A: Ziehung von mindestens einer roten Kugel, b) Ereignis B: Ziehung von genau einer roten Kugel, c) Ereignis C: Ziehung von genau drei roten Kugeln.
2.6
Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
2.6.1
Das Axiomensystem von Kolmogoroff
Unter Verwendung der eingef¨ uhrten Begriffe definieren wir axiomatisch ein Wahrscheinlichkeitsmaß. Das folgende auf A. N. Kolmogoroff zur¨ uckgehende Axiomensystem ist Grundlage des weiteren Aufbaus.
98
2 Wahrscheinlichkeit
Definition 2.2 (Endlicher Wahrscheinlichkeitsraum) Sei Ω eine nichtleere, endliche Ergebnismenge und sei P : P (Ω) −→ IR eine Abbildung (Funktion) P der Potenzmenge P (Ω) in die Menge der reellen Zahlen IR. Dann heißt die Abbildung P ein Wahrscheinlichkeitsmaß (eine Wahrscheinlichkeitsverteilung) genau dann, wenn gilt: 1.
2. 3.
P (A) ≥ 0 f¨ ur alle A ∈ P (Ω). [Nichtnegativit¨ at] In Worten: Jedem Ereignis A wird durch die Abbildung P eindeutig eine nichtnegative reelle Zahl P (A) zugeordnet. P (Ω) = 1. [Normierung] In Worten: Dem sicheren Ereignis Ω wird die Zahl 1 zugeordnet. P (A ∪ B) = P (A) + P (B) f¨ ur alle A, B ∈ P (Ω) mit A ∩ B = ∅. [Additivit¨ at] In Worten: Sind A und B unvereinbare Ereignisse, so ist P (A oder B) = P (A ∪ B) gleich der Summe aus P (A) und P (B).
Der Funktionswert von P (A) heißt die Wahrscheinlichkeit des Ereignisses A. Das Tripel (Ω, P (Ω) , P ) oder auch das Paar (Ω, P ) heißt endlicher Wahrscheinlichkeitsraum. Anmerkungen 1.
2.
Die Zielmenge der Funktion P ist die Menge der reellen Zahlen IR. Dadurch √ 2 k¨ onnen auch irrationale Zahlen wie z. B. 2 oder π4 (siehe Didaktische Anmerkungen zu den Beispielen 2.9 und 2.10) als Wahrscheinlichkeiten auftreten. Das ist bei der klassischen Wahrscheinlichkeit und bei der frequentistischen Wahrscheinlichkeit nicht m¨ oglich, hier sind die Wahrscheinlichkeiten stets rationale Zahlen (siehe auch die folgenden Anmerkungen). Wir zeigen, dass die klassische Wahrscheinlichkeit und auch die relative H¨ aufigkeit (frequentistische Wahrscheinlichkeit) die drei Axiome erf¨ ullen und somit Modelle f¨ ur das Axiomensystem sind. Diese Einsicht erleichtert ein erstes Verst¨ andnis f¨ ur das Axiomensystem. – Klassische Wahrscheinlichkeit Sei Ω eine nichtleere, endliche Ergebnismenge, sei P (Ω) die Potenzmenge von Ω, und sei A ∈ P (Ω) ein beliebiges Ereignis. Sei ferner die Abbildung P wie folgt definiert: P
:
mit P (A)
=
P (Ω) −→ IR Anzahl der f¨ ur das Ereignis A g¨ unstigen F¨ alle , Anzahl m der m¨ oglichen F¨ alle
wobei vorausgesetzt wird, dass alle m¨ oglichen F¨ alle gleichwahrscheinlich sind. Dann gilt:
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
99
P (A) ≥ 0 f¨ ur jedes Ereignis A, denn die Anzahl der f¨ ur das Ereignis A g¨ unstigen F¨ alle ist stets gr¨ oßer oder gleich Null (Null dann, wenn das Ereignis unm¨ oglich ist). ii. P (Ω) = 1, denn ist das Ereignis A = Ω, dann tritt das Ereignis stets mit Sicherheit auf, und die Anzahl der g¨ unstigen F¨ alle ist gleich der Anzahl der m¨ oglichen F¨ alle. iii. P (A ∪ B) = P (A) + P (B), wenn A ∩ B = ∅, denn gem¨ aß der Festlegung ist i.
P (A ∪ B)
=
Anzahl der f¨ ur A ∪ B g¨ unstigen F¨ alle g (A ∪ B) , Anzahl der m¨ oglichen F¨ alle m
und da A und B unvereinbar sind, ist die Anzahl der g¨ unstigen F¨ alle g (A ∪ B) f¨ ur das Ereignis A ∪ B (gelesen: A oder B) gleich der Summe der Anzahl der g¨ unstigen F¨ alle f¨ ur A und der f¨ ur B: g (A ∪ B) = g (A) + g (B). Es folgt: P (A ∪ B)
=
g (A) g (B) g (A) + g (B) = + = P (A) + P (B) . m m m
Diese drei Aussagen entsprechen den Axiomen 1 bis 3 f¨ ur endliche Ergebnisr¨ aume. Hinweis: In Abschnitt 2.6.4 wird die klassische Wahrscheinlichkeit (Laplace-Wahrscheinlichkeit) im Rahmen unserer Theorie des axiomatischen Aufbaus als Spezialfall eingef¨ uhrt. – Relative H¨ aufigkeit Sei wieder Ω eine nichtleere, endliche Ergebnismenge, sei P (Ω) die Potenzmenge von Ω, und sei A ein beliebiges Ereignis, also A ⊆ Ω. Die Funktion hn sei definiert durch (n fest gew¨ ahlt):
mit
hn
:
hn (A)
=
P (Ω) −→ IR Anzahl Hn (A) der Versuche mit dem Ereignis A . Gesamtanzahl n der Versuche
Die Zahl Hn (A) im Z¨ ahler heißt die absolute H¨ aufigkeit des Ereignisaufigkeit des ses A bei n Versuchen, die Zahl hn (A) heißt die relative H¨ Ereignisses A bei n Versuchen. Ist die Anzahl der Versuche sehr groß, dann kann hn (A) als Sch¨ atzwert f¨ ur die Wahrscheinlichkeit P (A) benutzt werden. Bei den folgenden Schl¨ ussen ist zu beachten, dass sie sich nur in ein und derselben Versuchsreihe vollziehen lassen. F¨ ur die relative H¨ aufigkeit eines Ergebnisses gilt: i.
hn (A) ≥ 0 f¨ ur jedes Ereignis A, denn f¨ ur die absolute H¨ aufigkeit Hn (A) eines Ereignisses gilt stets Hn (A) ≥ 0.
100
2 Wahrscheinlichkeit hn (Ω) = 1, denn das sichere Ereignis tritt immer ein, also gilt Hn (A) = n. iii. hn (A ∪ B) = hn (A)+hn (B), falls A∩B = ∅. Begr¨ undung: Da nach Voraussetzung die Ereignisse A und B unvereinbar sind, k¨ onnen in der Versuchsreihe die Ereignisse A und B nicht gleichzeitig auftreten, und die absolute H¨ aufigkeit f¨ ur das Ereignis (A ∪ B) (gelesen: A oder B) ist gleich der Summe aus der absoluten H¨ aufigkeit f¨ ur A und der absoluten H¨ aufigkeit f¨ ur B, also Hn (A ∪ B) = Hn (A)+Hn (B). Damit ist die Eigenschaft (c) begr¨ undet. ii.
Die relativen H¨ aufigkeiten erf¨ ullen also die Axiome 1 bis 3 f¨ ur endliche Ergebnismengen. 3.
Es sei darauf hingewiesen, dass schon Kolmogoroff in seiner grundlegenden Arbeit zur Wahrscheinlichkeitsrechnung unmittelbar nach der Formulierung der Axiome (§1) in §2 das Verh¨ altnis zur Erfahrungswelt“ und damit die ” Anwendung der Wahrscheinlichkeitsrechnung auf die reelle Erfahrungswelt anspricht. Kolmogoroff formuliert zwei Regeln ([81], 4), die eine Verbindung zwischen Theorie und Praxis herstellen. In der ersten Regel wird ausgesagt, dass man praktisch sicher sein kann, dass bei einer großen Anzahl n von Versuchen, bei denen m-mal das Ereignis A stattgefunden hat, das Verh¨ altsich von P (A) nur wenig unterscheidet. Die zweite Regel besagt, dass nis m n man bei sehr kleinem P (A) praktisch sicher sein kann, dass bei einer einmaligen Realisation der Bedingungen das Ereignis A nicht stattfindet.
Die im Axiomensystem geforderten Eigenschaften liefern erste Berechnungsm¨ oglichkeiten f¨ ur Wahrscheinlichkeiten. Beispiele 1.
2.
Ein gezinkter Spielw¨ urfel mit den Augenzahlen 1 bis 6 wird einmal ausgespielt. Aufgrund von Spielerfahrungen mit diesem W¨ urfel erscheinen die folgenden Wahrscheinlichkeitsannahmen berechtigt zu sein: P ({1}) = P ({6}) = 14 , P ({2}) = P ({3}) = P ({4}) = P ({5}) = 18 . Wie groß ist die Wahrscheinlichkeit, eine 3 oder eine 6 zu werfen? L¨ osung: Da die Ereignisse {3} und {6} unvereinbar sind, ergibt sich nach Axiom 3 (Additivit¨ at): P ({3} ∪ {6}) = P ({3}) + P ({6}) = 18 + 14 = 38 . Ein Laplace-W¨ urfel mit den Augenzahlen 1 bis 6 wird einmal geworfen. Wie groß ist die Wahrscheinlichkeit a) eine 3 oder eine 6 zu werfen, b) eine gerade Zahl oder eine ungerade Zahl zu werfen?
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
101
L¨ osung: a) Es kann die Additivit¨ at im Axiom 3 benutzt werden: P ({3} ∪ {6}) = 1 P ({3}) + P ({6}) = 6 + 16 = 13 . b) Das Ereignis gerade Zahl wird angegeben durch die Menge {2, 4, 6}, das Ereignis ungerade Zahl wird angegeben durch die Menge {1, 3, 5}. Es gilt: {2, 4, 6} ∪ {1, 3, 5} = {1, 2, 3, 4, 5, 6} = Ω. Somit: P ({2, 4, 6} ∪ {1, 3, 5}) = P (Ω) = 1 (nach Axiom 2). 3.
Eine M¨ unze wird zweimal nacheinander geworfen. (Es handelt sich um ein sogenanntes zweistufiges Zufallsexperiment.) Wir nehmen an, dass bei jedem Wurf Zahl Z und Wappen W mit der gleichen Wahrscheinlichkeit 12 auftreten. Wie groß ist die Wahrscheinlichkeit, dass bei beiden W¨ urfen die M¨ unzbilder u bereinstimmen? ¨ L¨ osung: Es ist Ω = {(Z, Z) , (Z, W ) , (W, Z) , (W, W )}. Gesucht ist P ({(Z, Z) , (W, W )}) = P ({(Z, Z)} ∪ {(W, W )}). Die Elementarereignisse in Ω haben alle die gleiche Wahrscheinlichkeit 14 . Da die Ereignisse {(Z, Z)} und {(W, W )} unvereinbar sind, folgt P ({(Z, Z)} ∪ {(W, W )}) = P ({(Z, Z)}) + P ({(W, W )}) = 14 + 14 = 12 .
Didaktischer Hinweis f¨ ur Baumdiagramme Zur L¨ osung von einfachen Aufgaben werden h¨ aufig Baumdiagramme eingesetzt. Man schreibt dabei an die Knoten (Ecken) des Baumes die Ereignisse (h¨ aufig in kleine Kreise) und an die Kanten (Wegstrecken) die Wahrscheinlichkeiten, die bestehen, um von einem Knoten zu einem n¨ achsten Knoten zu gelangen. An den Enden der Wege eines Baumdiagramms k¨ onnen die dem Zufallsexperiment zugeordneten Ergebnisse angegeben werden. Diese bilden also die Ergebnismenge Ω. Verschiedene Wege im Baumdiagramm beschreiben stets unvereinbare Ereignisse, die am Ende eines Weges abgelesen werden k¨ onnen. F¨ ur die genannten Beispiele 2. und 3. und erh¨ alt man die Baumdiagramme:
102
2 Wahrscheinlichkeit
Beispiel 2 (Werfen eines W¨ urfels) (Ω) 1 6
1
1 6
2
1 6 1 6 1 6 1 6
3 4
Um das Ereignis {3} ∪ {5} zu erhalten, sind zwei Wege zu durchlaufen. Zur Bestimmung der gesuchten Wahrscheinlichkeit P ({3} ∪ {5}) sind die Wahrscheinlichkeiten an den zwei Wegen zu addieren (die Wege sind hervorgehoben): 16 + 16 = 13 .
5 6
Beispiel 3 (Ω = {Z, W }): (Ω) 1 2 1 2
1 2
W
(Z, W )
Z
(W, Z)
W
(W, W )
W 1 2
1. Wurf
(Z, Z)
Z 1 2
1 2
Z
Die zu den Ereignissen {(Z, Z)} und {(W, W )} f¨ uhrenden zwei Wege sind auch hier hervorgehoben. Um die Wahrscheinlichkeit des Ereignisses ({(Z, Z)} ∪ {(W, W )}) zu bestimmen, sind die Wegwahrscheinlichkeiten zu addieren: 14 + 14 = 12 .
2. Wurf
Auf dem Hintergrund des Baumdiagramms formuliert man dann in Verallgemeinerung h¨ aufig eine sogenannte Additionspfadregel. Additionspfadregel Geh¨ oren zu einem Ereignis eines Zufallsversuchs verschiedene Pfade (Wege), so erh¨ alt man die Wahrscheinlichkeit des Ereignisses durch Addition der zugeh¨ origen einzelnen Pfadwahrscheinlichkeiten.
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
2.6.2
103
Folgerungen aus dem Axiomensystem – Rechnen mit Wahrscheinlichkeiten
Aus dem Axiomensystem leiten wir als Folgerungen weitere Ergebnisse und Rechenregeln f¨ ur Wahrscheinlichkeiten ab. Um das Verst¨ andnis der S¨ atze und ihrer Beweise zu erleichtern, schalten wir jeweils allgemeine Hinweise und Beispiele vor, die z. T. auch auf die uns schon vertrauten Begriffe der Laplace-Wahrscheinlichkeit (der klassischen Wahrscheinlichkeit) und der relativen H¨ aufigkeit zur¨ uckgreifen. Die Beweise der S¨ atze werden dann streng formal mit Hilfe der Axiome und schon bekannter S¨ atze gef¨ uhrt.
Folgerung 2.1 ¯ Wir betrachten nur zwei Ereignisse, ein Ereignis A und sein Gegenereignis A. ¯ = Ω. Welche Beziehung Nach der Definition des Gegenereignisses gilt A ∪ A besteht zwischen den Wahrscheinlichkeiten P (A) und P A¯ , wenn man ber¨ ucksichtigt, dass stets P (Ω) = 1 gilt (Axiom 1)?
Beispiel 2.4 Sei A das Ereignis, mit einem Laplace-W¨ urfel die Zahl 6 zu werfen. Nach der klassischen Wahrscheinlichkeit ist P (A) = 16 . Dann ist A¯ = Ω\A = {1, 2, 3, 4, 5} das Ereignis, dass der Wurf keine 6 zeigt, und es gilt P A¯ = 56 . Also gilt:
P (A) + P A¯ P A¯
= =
1 5 + = 1, 6 6 1 − P (A) .
Beispiel 2.5 Sei A das Ereignis mit einem Laplace-W¨ urfel eine Zahl gr¨ oßer als 4 zu werfen. ¯ = Ω \ A = {1, 2, 3, 4} Dann gilt A = {5, 6} und P (A) = 26 . Die Menge A beschreibt das Ereignis, eine Zahl kleiner oder gleich 4 zu werfen. Es gilt P A¯ = 4 6 und somit
P (A) + P A¯ P A¯
= =
2 4 + = 1, 6 6 1 − P (A) .
Benutzt man ein Baumdiagramm zur Veranschaulichung des letzten Beispiels, so ergibt sich das folgende Bild:
104
2 Wahrscheinlichkeit (Ω) 2 6 4 6
A ¯ A
Allgemein beweisen wir als Folgerung aus dem Axiomensystem den
Satz 2.1 Die Summe der Wahrscheinlichkeiten eines Ereignisses A und seines Gegenereignisses A¯ ist Eins:
P (A) + P A¯ P A¯
=
1,
=
1 − P (A) .
Beweis: Da A und A¯ unvereinbare Ereignisse sind, gilt nach Axiom 3 ¯ . (1) P A ∪ A¯ = P (A) + P A ¯ Andererseits ist A ∪ A = Ω, und nach Axiom 2 gilt P (Ω) = 1. Also gilt (2) P A ∪ A¯ = P (Ω) = 1. ¯ = 1. Aus den Gleichungen (1) und (2) folgt: P (A) + P (A)
Folgerung 2.2 Wir wissen bereits: Sowohl die klassische Wahrscheinlichkeit als Quotient Anzahl g(A) der f¨ ur das Ereignis A g¨ unstigen F¨ alle Anzahl m der m¨ oglichen F¨ alle als auch die relative H¨ aufigkeit (als Sch¨ atzwert f¨ ur die Wahrscheinlichkeit) ebenfalls als Quotient hn (A) =
Anzahl Hn (A) der Versuche mit dem Ereignis A Gesamtanzahl n der Versuche
nehmen nur Werte an, f¨ ur die gilt 0 ≤ P (A) ≤ 1 bzw. 0 ≤ hn (A) ≤ 1. Diese Eigenschaft folgt auch aus dem Axiomensystem. Satz 2.2 Die Wahrscheinlichkeit P (A) eines Ereignisses A nimmt nur Werte zwischen Null und Eins (einschließlich dieser Grenzen) an: 0 ≤ P (A) ≤ 1 f¨ ur alle A ⊆ Ω. Beweis: Nach Axiom 1 gilt P (A) ≥ 0 f¨ ur alle Ereignisse A aus P (Ω). Ferner gilt nach Satz 1: P A¯ = 1 − P (A), das heißt P (A) ≤ 1. Insgesamt also 0 ≤ P (A) ≤ 1.
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
105
Folgerung 2.3 Ist A das unm¨ ogliche Ereignis, so sind die Z¨ ahler bei der klassischen Wahrscheinlichkeit P (A) und bei der relativen H¨ aufigkeit hn (A) stets Null, also gilt P (A) = 0 und hn (A) = 0. Aus dem Axiomensystem folgt als
Satz 2.3 Die Wahrscheinlichkeit des unm¨ oglichen Ereignisses ist Null: P (∅) = 0. ¯ zu Ω ist das unm¨ ¯ = ∅. Beweis: Das Gegenereignis Ω ogliche Ereignis ∅: Ω In Verbindung mit Satz 1 folgt hieraus: P (∅) = 1 − P (Ω) = 1 − 1 = 0.
Folgerung 2.4 Die Additivit¨ at in Axiom 3 bezieht sich auf zwei unvereinbare Ereignisse. Wir wollen diese Aussage auf mehr als zwei Ereignisse verallgemeinern und betrachten im allgemeinen Fall n Ereignisse A1 , A2 , A3 , . . . , An . Dabei wird vorausgesetzt, dass die Ereignisse A1 , A2 , A3 , . . . , An paarweise unvereinbar sind, d. h. ur f¨ ur je zwei beliebige Ereignisse Ai und Ak mit i = k gilt Ai ∩ Ak = ∅ f¨ i = 1, 2, . . . , n und k = 1, 2, . . . , n.
Beispiel 2.6 (Schere-Papier-Stein) Bei Kindern ist das Knobelspiel Schere-Papier-Stein“ ” beliebt. Zwei Kinder m¨ ussen gleichzeitig mit der Hand einen der Begriffe Schere Sch (gespreizter Daumen und Zeigefinger), Papier P (flache Hand), Stein St (Faust) anzeigen. Es gewinnt Schere gegen Papier ( Schere schneidet Papier“), ” Papier gegen Stein ( Papier wickelt Stein ein“), Stein gegen Schere ( Stein zer” ” schl¨ agt Schere“). Das Spiel ist unentschieden, wenn beide Spieler denselben Begriff anzeigen. Mit welcher Wahrscheinlichkeit endet das Spiel unentschieden? L¨ osung: Wir sehen das Spiel als ein Zufallsexperiment an, und gehen davon aus, dass keines der beiden Kinder ein System“ spielt, sondern rein zuf¨ allig ” einen der Begriffe anzeigt. Wir nehmen an, dass alle 9 Spielausg¨ ange (siehe Baumdiagramm) gleichwahrscheinlich sind. Gefragt ist nach der Wahrscheinlichkeit des Ereignisses {(Sch, Sch), (P, P ), (St, St)} Die Wahrscheinlichkeit betr¨ agt 39 , denn von den 9 gleichwahrscheinlichen F¨ allen sind 3 F¨ alle f¨ ur das Ereignis g¨ unstig. Wir beschreiben jetzt noch einen anderen L¨ osungsweg, der auf Axiom 3 und Gesetze der Mengenalgebra zur¨ uckgreift.
106
2 Wahrscheinlichkeit
Es gilt: P ({(Sch, Sch), (P, P ), (St, St)})
=
P ({(Sch, Sch)} ∪ {(P, P )} ∪ {(St, St)})
=
P ({(Sch, Sch)} ∪ {(P, P )} ∪ {(St, St)}) A
P ({(Sch, Sch), (P, P ), (St, St)})
=
P (A) + P (B)
Axiom3
=
P ({(Sch, Sch)}) + P ({(P, P )}) + P ({(St, St)})
=
1 1 3 1 1 + + = = . 9 9 9 9 3
Axiom3
Sch
Sch
P
St
Sch
P
P
St
Sch
St
P
St
B
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
107
Durch Anwenden des Assoziativgesetzes der Mengenalgebra f¨ ur ∪ und durch zweimaliges Anwenden des Axioms 3 f¨ ur zwei unvereinbare Ereignisse gewinnt man eine Additionsregel f¨ ur drei paarweise unvereinbare Ereignisse: P ({(Sch, Sch)} ∪ {(P, P )} ∪ {(St, St)}) =
P ({(Sch, Sch)}) + P ({(P, P )}) + P ({(St, St)}).
Der allgemeine Gesichtspunkt wird deutlich: Die Erweiterung von zwei auf mehr als zwei Ereignisse geschieht schrittweise. Durch Hinzuf¨ ugen jeweils eines weiteren Ereignisses und durch zweimaliges Anwenden von Axiom 3 kann die entsprechende Regel f¨ ur drei (vier, f¨ unf, usw.) paarweise unvereinbare Ereignisse gewonnen werden. So kann man sukzessive fortfahren. Dieses Vorgehen f¨ uhrt f¨ ur den allgemeinen Fall von n paarweise unvereinbaren Ereignissen auf das Beweisverfahren durch vollst¨ andige Induktion. Dabei wird die am Beispiel erl¨ auterte Idee wesentlich benutzt. Wir formulieren den Satz 2.4 (Verallgemeinerte Fassung von Axiom 3) ur i = 1, 2, . . . , n paarSeien die n Ereignisse A1 , A2 , . . . , An mit Ai ∈ P(Ω) f¨ weise unvereinbar, d. h. ist Ai ∩ Ak = ∅ f¨ ur i = k und i, k ∈ {1, 2, . . . , n}, dann gilt: P (A1 ∪ A2 ∪ A3 ∪ . . . ∪ An ) = P (A1 ) + P (A2 ) + P (A3 ) + . . . + P (An ). Hinweis: Veranschaulichung der paarweisen Unvereinbarkeit:
Ω
Ai
Ak
Ai ∩ Ak = ∅ f¨ ur i = k
Beweis: Der Beweis wird durch vollst¨ andige Induktion gef¨ uhrt. Induktionsanfang: Die Aussage ist f¨ ur n = 2 wahr, denn es gilt Axiom 3. Induktionsschritt: Wir haben zu zeigen: Gilt die Aussage f¨ ur n (Induktionshypothese), dann gilt sie auch f¨ ur n + 1 (Induktionsbehauptung). Es seien A1 , A2 , . . . , An , An+1 paarweise unvereinbare Ereignisse bez¨ uglich der Ergebnismenge Ω. Wir fassen die Vereinigung der n Ereignisse A1 , A2 , . . . , An zu einem Ereignis zusammen. Dieses nennen wir A. Also: A := A1 ∪A2 ∪. . .∪An . Dann gilt A ∩ An+1 = ∅, d. h. A und An+1 sind unvereinbare Ereignisse (folgt sofort aus der Voraussetzung der paarweisen Unvereinbarkeit). Nach Axiom 3 folgt P (A ∪ An+1 ) = P (A) + P (An+1 ).
108
2 Wahrscheinlichkeit
Mit der Induktionshypothese P (A1 ∪ A2 ∪ A3 ∪ . . . ∪ An ) = P (A1 ) + P (A2 ) + P (A3 ) + . . . + P (An ) folgt P (A ∪ An+1 )
=
P (A1 ∪ A2 ∪ . . . ∪ An ∪ An+1 ) = P (A) + P (An+1 )
=
P (A1 ) + P (A2 ) + . . . + P (An ) + P (An+1 ).
Folgerung 2.5 Axiom 3 und die in Satz 4 bewiesene Verallgemeinerung formulieren Additi” onss¨ atze“ unter der Voraussetzung, dass die Ereignisse paarweise unvereinbar sind. Wir lassen jetzt diese Voraussetzung fallen und betrachten beliebige Ereignisse.
Beispiel 2.7 Ein gezinkter Spielw¨ urfel mit den Augenzahlen 1, 2, 3, 4, 5 und 6 wird einmal ausgespielt. Aufgrund von Spielerfahrungen mit diesem W¨ urfel hat man f¨ ur die Elementarereignisse folgende Wahrscheinlichkeiten angenommen: 1 , 4
P ({1})
=
P ({6}) =
P ({2})
=
P ({3}) = P ({4}) = P ({5}) =
1 . 8
Wie groß ist die Wahrscheinlichkeit, eine Primzahl oder eine ungerade Zahl zu werfen? L¨ osung: Das gesuchte Ereignis wird mit C bezeichnet, also C = {1, 2, 3, 5}. Da gilt {1, 2, 3, 5} = {1} ∪ {2} ∪ {3} ∪ {5} und die vier Elementarereignisse paarweise unvereinbar sind, erhalten wir durch Anwendung von Satz 4 P (C) = P ({1}) + P ({2}) + P ({3}) + P ({5}) =
1 1 1 1 5 + + + = . 4 8 8 8 8
Wir versuchen jetzt, durch R¨ uckgriff auf die Ereignisse Primzahl“ und unge” ” rade Zahl“ eine neue Beziehung zu finden. Bezeichnen wir das Ereignis Prim” zahl“ mit A und das Ereignis ungerade Zahl“ mit B, so gilt: A = {2, 3, 5} und ” B = {1, 3, 5}. ¨ Analog den Uberlegungen zum Ereignis C folgt: P (A) =
1 1 1 3 + + = ; 8 8 8 8
P (B) =
1 1 1 4 + + = . 4 8 8 8
Damit erhalten wir insgesamt: P (C) = P (A oder B) = P (A ∪ B) =
5 8
und
P (A) + P (B) =
7 , 8
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
109
also die Ungleichheit: P (A ∪ B) = P (A) + P (B). Woran liegt das? Das liegt nicht daran, dass wir einen gezinkten Spielw¨ urfel benutzt haben. Denn benutzen wir einen Laplace-W¨ urfel, dann ergibt sich bei gleicher Bezeichnung und Fragestellung: P (C) = P (A ∪ B) = also: P (A ∪ B) =
4 6
=
6 6
4 ; 6
P (A) =
3 ; 6
P (B) =
3 ; 6
= P (A) + P (B).
Der Grund f¨ ur die Ungleichheit liegt darin, dass die Zahlen 3 und 5 zugleich Primzahlen und ungerade Zahlen sind. Der Durchschnitt der Ereignisse A und B ist nicht leer, die Ereignisse A und B sind nicht unvereinbar. Die Voraussetzung f¨ ur die Anwendung von Axiom 3 ist nicht erf¨ ullt. Um eine Regel (hier Gleichheit“) zu erhalten, m¨ ussen in der Ungleichung Kor” rekturen vorgenommen werden. Da die Zahlen 3 und 5 sowohl in der Menge A = {2, 3, 5} also auch in der Menge B = {1, 3, 5} liegen, werden sie sowohl bei der Bestimmung von P (A) als auch bei der von P (B) ber¨ ucksichtigt, also zweimal. Das gesuchte Ereignis C ist die Vereinigungsmenge A ∪ B = {1, 2, 3, 5}, in der die Zahlen 3 und 5 nat¨ urlich nur einmal auftreten. Damit wird der L¨ osungsweg deutlich: Wir betrachten das Ereignis A ∩ B = {3, 5} und seine Wahrscheinlichkeit P (A ∩ B) = P ({3, 5}) = P ({3}) + P ({5}) =
1 1 2 + = 8 8 8
und ziehen diese Wahrscheinlichkeit von der Summe P (A) + P (B) ab. Dann erhalten wir 3 4 2 5 P (A) + P (B) − P (A ∩ B) = + − = , 8 8 8 8 und 58 war auch gerade die Wahrscheinlichkeit P (A ∪ B). Wir vermuten also: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Im Venndiagramm wird der L¨ osungsweg anschaulich. Punkte markieren die Elementarereignisse, die gem¨ aß Aufgabe nicht gleichwahrscheinlich sind.
Ω
A
B
P (A)
=
P (B)
=
P (A ∪ B)
=
P (A ∩ B)
=
3 ; 8 4 ; 8 5 ; 8 2 . 8
110
2 Wahrscheinlichkeit
Also: P (A ∪ B)
=
P (A ∪ B)
=
3 4 2 5 = + − 8 8 8 8 P (A) + P (B) − P (A ∩ B).
Hinweis: Bei der Benutzung eines Laplace-W¨ urfels ergibt sich bei gleicher Fragestellung und gleichen Bezeichnungen ganz analog ebenfalls diese Beziehung zwischen den Wahrscheinlichkeiten, nur mit anderen numerischen Werten: P (A ∪ B) =
3 3 2 4 = + − = P (A) + P (B) − P (A ∩ B). 6 6 6 6
Im Folgenden beweisen wir diese Aussage deduktiv aus dem Axiomensystem und schon bekannten Gesetzen.
Satz 2.5 (Allgemeine Additionsregel/Zerlegungssatz) F¨ ur beliebige Ereignisse A und B eines Wahrscheinlichkeitsraumes (Ω, P(Ω), P ) gilt: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Beweis: Wir zerlegen das Ereignis (A ∪ B) auf drei verschiedene Arten in jeweils paarweise unvereinbare Ereignisse. Hierauf wenden wir dann das Axiom 3 und seine Verallgemeinerung (Satz 4) an.
Ω
A
B
Man mache sich die drei Zerlegungen auch an obiger Abbildung klar. Es gilt: (1)
A∪B
=
(2)
A∪B
=
¯ A ∪ (B \ A) = A ∪ (B ∩ A), ¯ B ∪ (A \ B) = B ∪ (A ∩ B),
(3)
A∪B
=
¯ ∪ (A ∩ B) ¯ ∪ (A ∩ B). (B \ A) ∪ (A \ B) ∪ (A ∩ B) = (B ∩ A)
Dann gilt (man u ¨ berzeuge sich, dass die jeweiligen Ereignisse paarweise unvereinbar sind) (1*)
P (A ∪ B)
=
(2*)
P (A ∪ B)
=
¯ P (A) + P (B ∩ A), ¯ P (B) + P (A ∩ B),
(3*)
P (A ∪ B)
=
¯ + P (A ∩ B) ¯ + P (A ∩ B). P (B ∩ A)
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
111
Durch Addition von (1*) und (2*) und durch Subtraktion der Gleichung (3*) von der Summe aus (1*) und (2*) erh¨ alt man: P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Anmerkung Sind A und B unvereinbare Ereignisse, gilt also A ∩ B = ∅, so ist (wegen Satz 3) P (A ∩ B) = 0. Die allgemeine Additionsregel reduziert sich also auf die Aussage von Axiom 3.
Folgerung 2.6 Gilt f¨ ur zwei Ereignisse A und B die Beziehung A ⊆ B, so hatten wir hierf¨ ur die Sprachregelung das Ereignis A zieht das Ereignis B nach sich“ eingef¨ uhrt. ” In welcher Gr¨ oßenbeziehung stehen P (A) und P (B) zueinander?
Beispiel 2.8 Ein Laplace-W¨ urfel wird einmal geworfen: Ω = {1, 2, 3, 4, 5, 6}, alle Elementarereignisse sind gleichwahrscheinlich. Sei A das Ereignis gerade Zahl“, ” A = {2, 4, 6}, und sei B das durch die Menge B = {2, 4, 5, 6} beschriebene Ereignis. Immer dann, wenn das Ereignis A eingetreten ist, ist auch das Ereignis B eingetreten. Es ist P (A)
=
P (A)
<
3 4 < = P (B) : 6 6 P (B).
Wenn die Ereignisse A und B identisch sind, gilt nat¨ urlich P (A) = P (B). Wir vermuten: Wenn A ⊆ B, dann P (A) ≤ P (B). In der Tat: Wenn A echte oder unechte Teilmenge von B ist (A ⊆ B), dann kann die Anzahl der f¨ ur A g¨ unstigen F¨ alle (klassische Wahrscheinlichkeit) bzw. die absolute H¨ aufigkeit f¨ ur das Ereignis A (statistische Wahrscheinlichkeit) h¨ ochstens gleich der Anzahl der f¨ ur B g¨ unstigen F¨ alle bzw. h¨ ochstens gleich der absoluten H¨ aufigkeit f¨ ur das Ereignis B sein. Also ist: P (A) ≤ P (B).
112
2 Wahrscheinlichkeit Ω
B
A
A⊆B
F¨ ur einen endlichen Wahrscheinlichkeitsraum (Ω, P(Ω), P ) formulieren wir allgemein den Satz 2.6 Zieht das Ereignis A das Ereignis B nach sich, so ist die Wahrscheinlichkeit P (A) f¨ ur das Ereignis A kleiner oder gleich der Wahrscheinlichkeit P (B) f¨ ur das Ereignis B. In Kurzform: Gilt A ⊆ B, so ist P (A) ≤ P (B). Beweis: Aus A ⊆ B folgt, dass sich B darstellen l¨ asst als Vereinigung der beiden Mengen A und B \ A (siehe obiges Bild). Also folgt: ¯ B = A ∪ (B \ A) = A ∪ (B ∩ A). ¯ sind unvereinbare Ereignisse, es gilt A∩(B∩A) ¯ = ∅. Die Ereignisse A und (B∩A) Nach Axiom 3 folgt f¨ ur P (B): ¯ ¯ = P (A) + P (B ∩ A). P (B) = P (A ∪ (B ∩ A)) Da nach Axiom 1 gilt, dass alle Wahrscheinlichkeiten gr¨ oßer oder gleich 0 sind, folgt P (A) ≤ P (B).
2.6.3
Ein zum Axiomensystem von Kolmogoroff ¨ aquivalentes Axiomensystem
F¨ ur endliche Ergebnismengen formulieren wir im n¨ achsten Satz 2.7 ein zum Axiomensystem von Kolmogoroff ¨ aquivalentes Axiomensystem. Dieses verteilt“ ” die insgesamt zur Verf¨ ugung stehende Wahrscheinlichkeitsmasse von der Gr¨ oße 1 auf die Elementarereignisse. Ausgangspunkt sind also die Wahrscheinlichkeiten der Elementarereignisse. Hinweis: Im folgenden Satz 2.7 ist ω der kleine griechische Buchstabe omega.
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
113
Satz 2.7 Es sei Ω = {ω1 , ω2 , . . . , ωn } eine nichtleere, endliche Ergebnismenge, und seien ur i = 1, 2, . . . , n die Elementarereignisse. Die Abbildung {ωn } f¨ P : P(Ω) −→ IR ist genau dann ein Wahrscheinlichkeitsmaß, wenn gilt: (A) Alle Elementarereignisse besitzen eine nichtnegative Wahrscheinlichkeit: ur alle i ∈ {1, 2, 3, . . . , n}. P ({ωi }) ≥ 0 f¨ (B) Die Summe der Wahrscheinlichkeiten aller Elementarereignisse ist gleich Eins: n P ({ωi }) = P ({ω1 }) + P ({ω2 }) + . . . + P ({ωn }) = 1. i=1
(C) Die Wahrscheinlichkeit eines beliebigen Ereignisses A = ∅ ist gleich der Summe der Wahrscheinlichkeiten aller Elementarereignisse {ωi }, die zu A geh¨ oren: P ({ωi }) f¨ ur alle A ∈ P(Ω), A = ∅. P (A) = ωi ∈A
(D) Das unm¨ ogliche Ereignis ∅ hat die Wahrscheinlichkeit Null: P (∅) = 0. Bevor wir den Beweis dieses Satzes f¨ uhren geben wir einige Hinweise. 1.
2.
aufig einAus schreibtechnischen Gr¨ unden schreibt man z. B. f¨ ur P ({ωi }) h¨ ur die Wahrscheinlichkeit eines Elementarereignisses ωi . Man fach P (ωi ) f¨ l¨ asst die geschweiften Klammern der Mengenkennzeichnung fort. Wir behalten aber vorerst die ausf¨ uhrliche Schreibweise bei. Zur Erl¨ auterung von (C) betrachten wir ein Beispiel. Ein gezinkter W¨ urfel wird einmal geworfen. Es sei Ω = {1, 2, 3, 4, 5, 6}. Wir nehmen aufgrund von Versuchen an: 1 P ({1}) = P ({6}) = , 4 1 P ({2}) = P ({3}) = P ({4}) = P ({5}) = . 8 Es sei A = {1, 3, 5, 6}. Nach (C) folgt dann: P (A)
=
P (A)
=
P ({1}) + P ({3}) + P ({5}) + P ({6}) 1 3 1 1 1 + + + = , 4 8 8 4 4
denn zu A geh¨ oren die Elemente der Elementarereignisse {1}, {3}, {5}, {6}.
114 3.
2 Wahrscheinlichkeit Im Satz tritt die Formulierung genau dann, wenn“ auf. Der Beweis eines ” solchen genau dann, wenn“-Satzes muss in zwei Richtungen erfolgen, denn ” es liegen ja zwei S¨ atze vor: a) Aus der G¨ ultigkeit der Axiome 1, 2 und 3 aus dem Kolmogoroffschen Axiomensystem folgt die G¨ ultigkeit von (A), (B), (C) und (D) des Satzes. b) Aus der G¨ ultigkeit von (A), (B), (C) und (D) des Satzes folgt die G¨ ultigkeit der Axiome 1, 2 und 3 des Kolmogoroffschen Axiomensystems. ¨ Beide S¨ atze ergeben zusammen dann die Aquivalenz.
Nun der Beweis: a) Aus den Axiomen 1, 2 und 3 folgen (A), (B), (C) und (D): Die Aussage (A) folgt unmittelbar aus 1, denn wenn jedes Ereignis A eine Wahrscheinlichkeit gr¨ oßer oder gleich Null besitzt, dann auch jedes Elementarereignis {ωi }. Also gilt P ({ωi }) ≥ 0. Zum Nachweis von B: Die Menge andige Zerlegung von Ω, aller Elementarereignisse {ωi } bildet eine vollst¨ d. h. die Vereinigung aller {ω1 }, {ω2 }, . . . , {ωn } ergibt die Ergebnismenge Ω, und die {ωi }, i = 1, 2, . . . , n, sind n paarweise unvereinbare Elementarereignisse. Also gilt unter Ber¨ ucksichtigung von Axiom 2: P ({ω1 } ∪ {ω2 } ∪ . . . ∪ {ωn }) = P ({Ω}) = 1. Andererseits gilt auch unter Beachtung von Satz 4 der Folgerungen: P ({ω1 } ∪ {ω2 } ∪ . . . ∪ {ωn }) = P ({ω1 }) + P ({ω2 }) + . . . + P ({ωn }). Die zwei letzten Gleichungen f¨ uhren zusammengenommen zur Aussage (B). Die Aussage (C) ergibt sich sofort aus Satz 2.4: An die Stelle der n paarweise unvereinbaren Ereignisse Ai treten alle die paarweise unvereinbaren oren. Die Elementarereignisse {ωi }, deren Elemente zum Ereignis A geh¨ Aussage (D) ist identisch mit dem aus dem Axiomensystem gewonnenen Satz 2.3. Damit ist auch die G¨ ultigkeit von (D) nachgewiesen. b) Wir zeigen jetzt: Aus den Aussagen (A), (B), (C) und (D) folgen die Axiome 1, 2 und 3: Das Axiom 1 folgt aus (C) in Verbindung mit (A), wenn f¨ ur das Ereignis A gilt A = ∅. Nach (C) ist die Wahrscheinlichkeit eines jeden Ereignisses A = ∅ gleich der Summe der Wahrscheinlichkeiten all der Elementarereignisse {ωi }, deren Elemente ωi zum Ereignis A geh¨ oren. Da ur alle Summanden P ({ωi }) nach (A) nichtnegativ sind, gilt dieses auch f¨ die Summe. Ist A = ∅, so gilt nach (D) P (A) = 0. Also insgesamt: P (A) ≥ 0 f¨ ur alle Ereignisse A. Axiom 2 folgt aus (B) und (C) wie folgt: Da die Ergebnismenge Ω = {ω1 , ω2 , . . . , ωn } selbst ein Ereignis ist, und Ω = ∅ gilt,
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
115
kann (C) auf Ω angewandt werden. Man ersetzt in (C) das Ereignis A durch das Ereignis Ω und erh¨ alt P (Ω) =
P ({ωi }) = P ({ω1 }) + P ({ω2 }) + . . . + P ({ωn }).
ωi ∈Ω
Letzteres ist aber die Summe der Wahrscheinlichkeiten aller Elementarereignisse, die nach (B) gleich Eins ist. Also folgt: P (Ω) = 1. Zum Nachweis von 3 betrachten wir zwei unvereinbare Ereignisse A und B. Es gilt A ∩ B = ∅. Das Ereignis A ∪ B besteht aus der Vereinigung all der ωi ∈ Ω, die Elemente von A ∪ B sind. In kurzer Notierung schreiben wir daf¨ ur: {ωi }. A∪B = ωi ∈A∪B
Mit (C) folgt P (A ∪ B) = P (
{ωi }) =
ωi ∈A∪B
P ({ωi }).
ωi ∈A∪B
Da kein ωi sowohl zu A als auch zu B geh¨ ort, k¨ onnen wir die ωi von A ∪ B auf A und B gem¨ aß ihrer Herkunft aufteilen: P (A ∪ B) =
ωi ∈A∪B
P ({ωi }) =
P ({ωi }) +
ωi ∈A
P ({ωi }).
ωi ∈B
Die letzten Summanden sind nach (C) gleich P (A) bzw. P (B). Also P (A ∪ B) = P (A) + P (B), falls A ∩ B = ∅. Damit ist auch die Aussage von Axiom 3 bewiesen. Durch a) und b) ist der Beweis zu Satz 2.7 vollst¨ andig erbracht.
2.6.4
Die Laplace-Verteilung (Gleichverteilung)
Im L¨ osungsprozess unserer Aufgaben und Beispiele spielte die Laplace-Verteilung eine große Rolle, und wir hatten diese sogenannte klassische Wahrscheinlichkeit (Laplace-Wahrscheinlichkeit) P (A) =
Anzahl g (A) der f¨ ur das Ereignis A g¨ unstigen F¨ alle , Anzahl m der m¨ oglichen F¨ alle
bei der die Gleichwahrscheinlichkeit aller m¨ oglichen F¨ alle vorausgesetzt wird, als ein Modell f¨ ur das Axiomensystem von Kolmogoroff erkannt.
116
2 Wahrscheinlichkeit
Satz 2.7 sagt aus, dass bei endlichem Ω auf der Potenzmenge P(Ω) von Ω ein Wahrscheinlichkeitsmaß festgelegt werden kann, wenn gesagt ist, wie sich die gesamte Wahrscheinlichkeitsmasse 1 auf die Elementarereignisse verteilt. Davon machen wir jetzt Gebrauch und definieren den Laplace-Wahrscheinlichkeitsraum, indem jedem Elementarereignis die gleiche Wahrscheinlichkeit zugeordnet wird. Der anschließende Satz 2.8 enth¨ alt dann die uns bekannte Berechnungsm¨ oglichkeit“ der Wahrscheinlichkeit bei gleichwahrscheinlichen ” Elementarereignissen. Im Folgenden bezeichnet das Symbol |M | die M¨ achtigkeit einer Menge M . Bei endlichen Mengen bedeutet |M | die Anzahl der Elemente von M . Definition 2.3 (Laplace-Wahrscheinlichkeitsraum) Sei Ω eine endliche Ergebnismenge mit m Elementen, sei also |Ω| = m. Dann heißt die durch 1 1 P ({ω}) = = f¨ ur alle ω ∈ Ω |Ω| m definierte Wahrscheinlichkeitsverteilung Laplace-Verteilung oder Gleichver teilung. (Ω, P(Ω), P ) heißt Laplace-Wahrscheinlichkeitsraum. Beispiele 1.
Roulettspiel: Ω = {0, 1, 2, 3, . . . , 36} mit P ({0}) = P ({1}) = P ({2}) = P ({3}) = . . . = P ({36}) =
2.
1 . 37
Idealer Spielw¨ urfel Ω = {1, 2, 3, 4, 5, 6} mit P ({1}) = P ({2}) = P ({3}) = P ({4}) = P ({5}) = P ({6}) =
1 . 6
Satz 2.8 Sei Ω die Ergebnismenge eines Laplace-Wahrscheinlichkeitsraumes mit m Elementen und A ein Ereignis aus P(Ω) mit |A| = g Elementen. Dann gilt P (A) =
g |A| = , |Ω| m
d. h.: Die Wahrscheinlichkeit eines Ereignisses A in einem Laplace-Wahrscheinlichkeitsraum ist gleich dem Quotienten Anzahl g(A) der f¨ ur das Ereignis A g¨ unstigen F¨ alle . Anzahl m der m¨ oglichen F¨ alle Diese Wahrscheinlichkeit heißt Laplace-Wahrscheinlichkeit des Ereignisses A.
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
117
Beweis: Der Beweis folgt unmittelbar aus Satz 2.7 u ¨ ber Wahrscheinlichkeitsverteilungen und unter Ber¨ ucksichtigung der Definition 2.3. Beispiele 1.
Ein Spieler w¨ urfelt einmal mit zwei unterscheidbaren W¨ urfeln und gewinnt, wenn er als Augensumme 6 erh¨ alt. Wie groß ist seine Wahrscheinlichkeit zu gewinnen? Die Ergebnismenge Ω hat 6 · 6 = 36 Elemente: |Ω| = 36. Es bezeichne A das Ereignis Augensumme 6“. Dann gilt: ” A = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}, also |A| = 5. Unter Annahme der Laplace-Wahrscheinlichkeit folgt: P (A) =
5 . 36
2.
Lotto 6 aus 49“ ” Wie groß ist die Wahrscheinlichkeit beim Lotto 6 aus 49“, ohne Zusatzzahl ” mit einem Sechser-Tip Sechs Richtige“ zu haben? ” Zur L¨ osung: Machen wir die Laplace-Annahme, dass jeder Tip die gleiche Wahrscheinlichkeit hat gezogen zu werden, dann m¨ ussen wir wieder die Anzahl der Elemente von Ω berechnen, d. h. die Frage beantworten: Wie viele M¨ oglichkeiten gibt es, aus einer Urne mit 49 Kugeln 6 Kugeln ohne Zur¨ ucklegen zu ziehen, wobei die Reihenfolge der gezogenen Kugeln ohne Bedeutung ist? Mit der Beantwortung solcher – f¨ ur die Berechnung von Laplace-Wahrscheinlichkeiten unverzichtbaren – Fragen der Anzahlbestimmung befasst sich ein eigenst¨ andiges Gebiet der Mathematik: Die Kombinatorik. Im Abschnitt 2.8 werden wir das kombinatorische Z¨ ahlen behandeln.
3.
Das radioaktive Zerfallsgesetz Wir leiten das radioaktive Zerfallsgesetz mit Hilfe der Wahrscheinlichkeitsrechnung her. Dieses Beispiel eignet sich gut, da es sowohl Modellannahmen (Mod An) der Stochastik betont (an vier Stellen gehen wesentlich stochas¨ tische Uberlegungen ein) als auch mathematische Techniken ein¨ ubt und ein physikalisches Gesetz deutlich als ein statistisches Gesetz zu erkennen gibt. Die Wahrscheinlichkeit P , dass ein Atom das Alter t erreicht, ist lediglich eine Funktion von t (Mod An): (a) P = P (t). P (t + T ) ist also die Wahrscheinlichkeit, die Lebensdauer t + T zu erreichen. Die Lebensdauer t + T kann als zusammengesetztes Ereignis betrachtet werden: Sowohl w¨ ahrend der Zeit von 0 bis t als auch von t bis t + T muss das Atom bestehen. Die Wahrscheinlichkeit eines solchen Ereignisses ist das Produkt der Einzelwahrscheinlichkeiten (Mod An):
118
2 Wahrscheinlichkeit (b) P (t + T ) = P (t) · P (T ). Man w¨ ahlt t als Variable und T als Konstante. Dann folgt durch Differentiation nach t: (c) P (t + T ) = P (T ) · P (t). Aus (b) und (c) folgt: P (t+T ) P (t) P (t+T ) = P (t) . T kann eine beliebige Konstante sein. Somit folgt: P (t) (d) P (t) = C. Da die Wahrscheinlichkeit P (t) mit wachsendem t abnimmt, ist die Konstante C eine negative Zahl: P (t) k > 0. P (t) = −k, Also: P (t) = ec1 · e−kt . Mit der Anfangsbedingung P (0) = 1 (Mod An) folgt C1 = 0, also P (t) = e−kt . Wenn also die Wahrscheinlichkeit f¨ ur ein Atom, das Alter t zu erreichen, gleich e−kt ist, dann bleiben von N0 Atomen, die zur Zeit t = 0 vorhanden waren, zur Zeit t durchschnittlich Nt = N0 e−kt ¨ nichtzerfallene Atome u ist eine Konsequenz des Ge¨brig. Diese Uberlegung setzes der großen Zahlen. Man erwartet, dass der Anteil N der nichtzerfalNt lenen Atome an der Gesamtzahl N0 , also die relative H¨ aufigkeit N , un0 −kt gef¨ ahr gleich der Wahrscheinlichkeit e ist, dass ein Atom nicht zerfallen ist (Mod An).
Didaktische Hinweise 1.
Baumdiagramme: Als Hilfsmittel f¨ ur die Berechnung von Wahrscheinlichkeiten setzten wir in einfachen F¨ allen das Baumdiagramm ein und formulierten eine sog. Additionspfadregel zur Berechnung von Wahrscheinlichkeiten f¨ ur Oder-Verkn¨ upfte-Ereignisse. Aufgrund der uns jetzt zur Verf¨ ugung stehenden Erkenntnisse ist bei der Verwendung von Baumdiagrammen darauf zu achten, dass sich die Teilwahrscheinlichkeiten an den Pfaden, die von einem Punkt (Knoten) ausgehen, zu Eins addieren m¨ ussen. Denn an jedem Punkt wird die Ergebnismenge Ω in disjunkte Teilmengen aufgespalten, die als Vereinigungsmenge wieder die Ergebnismenge Ω ergeben, und die Wahrscheinlichkeit f¨ ur das Ereignis Ω ist 1. Im einfachsten Fall liegt eine Zerlegung von Ω in ein Ereignis A und sein Gegenereignis A¯ vor. Diese f¨ ur die ikonische Ebene wichtigen Erkenntnisse formuliert man h¨ aufig als Satz: In einem Baumdiagramm haben die Teilwahrscheinlichkeiten (Zahlen), die an den Pfadstrecken (Kanten) stehen, die von einem Knoten (Punkt, Kreis) ausgehen, stets die Summe 1.
2.6 Endliche Wahrscheinlichkeitsr¨ aume (Teil 1)
119
Betrachten wir das Gesamtexperiment, so stehen an den Enden des Baumdiagramms alle die dem Zufallsexperiment zugeordneten Elemente der Ergebnismenge Ω. Das bedeutet, dass die Summe ihrer Wahrscheinlichkeiten gleich 1 ist. Also gilt der Satz: In einem Baumdiagramm betr¨ agt die Summe der Wahrscheinlichkeiten aller Ergebnisse (Ereignisse) an den Enden aller Pfade 1. 2.
Gewissheitsgrad: Setzt man umgangssprachliche qualitative Beschreibungen der Wahrscheinlichkeit eines Ereignisses wie z. B. unm¨ oglich“, sicher“, ” ” sehr wahrscheinlich“, mit an Sicherheit grenzender Wahrscheinlichkeit“ ” ” usw. in Beziehung zu der mathematisch festgelegten quantitativen Beschreibung der Wahrscheinlichkeit, so kann man einen gewissen (evtl. subjektiven) Gewissheitsgrad (Vertrauensgrad) f¨ ur das Eintreten eines Ereignisses gewinnen. Die Endpunkte der Skala sind durch 0 und 1 vorgegeben. Jede reelle Zahl x mit 0 ≤ x ≤ 1 charakterisiert einen solchen Gewissheitsgrad. Zahlenwerte, die nahe bei Null liegen, signalisieren einen Gewissheitsgrad von sehr unwahrscheinlich“, Zahlenwerte nahe bei Eins signalisieren einen ” Gewissheitsgrad von sehr wahrscheinlich“. Der Zahlenwert 1 bedeutet in ” der allgemeinen Theorie aber keineswegs sicher“, ebenso wie 0 nicht ab” ” solut unm¨ oglich“ signalisiert. Zahlenwerte unter 0,5 signalisieren einen Gewissheitsgrad von unwahrscheinlich“. ”
2.6.5 1. 2.
Aufgaben und Erg¨ anzungen
Sei (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Zeigen Sie: F¨ ur ¯ beliebige Ereignisse A und B gilt: P (A) = P (A ∩ B) + P (A ∩ B). Sei (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum, und seien A und ¯ = 1 und P (B) = 1 . Wie groß B Ereignisse. Es seien P (A ∩ B) = 14 , P (A) 3 2 ist die Wahrscheinlichkeit, a) dass A oder B eintreten, b) dass weder A noch B eintreten?
3.
4. 5.
Seien A, B und C Ereignisse im endlichen Wahrscheinlichkeitsraum (Ω, P(Ω, P ). Das gleichzeitige Eintreten der Ereignisse A und B ziehe das Eintreten des Ereignisses C nach sich. Zeigen Sie: P (C) ≥ P (A)+P (B)−1. Beweisen oder widerlegen Sie: F¨ ur alle Ω und alle A, B ∈ P(Ω) gilt: P (A ∩ B) ≤ P (A) · P (B). Ein Zufallsexperiment bestehe im gleichzeitigen Werfen zweier unterscheidbarer Laplace-W¨ urfel und Beobachten der Augensumme aus den auftretenden Augenzahlen der beiden W¨ urfel. a) Geben Sie einen geeigneten Ergebnisraum Ω an. b) Welches Ereignis ist wahrscheinlicher, die Augensumme ist gerade oder die Augensumme ist gr¨ oßer als 7?
120 6.
7.
2 Wahrscheinlichkeit a) Welches der folgenden Ereignisse ist wahrscheinlicher? Ereignis A: Zwei zuf¨ allig ausgew¨ ahlte Personen haben am gleichen Tag Geburtstag. Ereignis B: Eine zuf¨ allig ausgew¨ ahlte Person hat am 3.8. Geburtstag. b) Formulieren Sie zu (a) ein isomorphes“ Problem, d. h. ein struktur” gleiches Gegenst¨ uck in einem anderen Sachzusammenhang. Sei Ω eine nichtleere, endliche Menge, und sei (Ω, ℘(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A, B und C Ereignisse. a) Zeigen Sie: P (A ∪ B ∪ C)
=
P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) −P (B ∩ C) + P (A ∩ B ∩ C).
¯ + P (B)). ¯ (Bonferroni-Ungleichung) b) Zeigen Sie: P (A ∪ B) ≥ 1 − (P (A) ¯ + P (B)). ¯ ¨ c) Uberpr¨ ufen Sie, ob auch gilt: P (A ∩ B) ≥ 1 − (P (A) 8.
usse richtig sind. Gew¨ urfelt wird Untersuchen Sie, ob die folgenden drei Schl¨ jeweils mit einem Laplace-W¨ urfel. a) Die Wahrscheinlichkeit, eine 3 zu w¨ urfeln, betr¨ agt 16 ; die Wahrschein1 lichkeit, eine 2 zu w¨ urfeln, betr¨ agt 6 . Also betr¨ agt die Wahrscheinlichkeit, eine 2 oder 3 zu w¨ urfeln, 13 . b) Die Wahrscheinlichkeit, eine ungerade Zahl zu w¨ urfeln, betr¨ agt 12 ; die 1 Wahrscheinlichkeit, eine Zweierpotenz zu w¨ urfeln, betr¨ agt 2 . Also ist es sicher, eine ungerade Zahl oder eine Zweierpotenz zu w¨ urfeln. c) Ein L-W¨ urfel wird zweimal geworfen. Die Wahrscheinlichkeit, im ersten Wurf eine 3 zu w¨ urfeln, betr¨ agt 16 . Die Wahrscheinlichkeit, im zweiten agt die WahrscheinWurf eine 3 zu w¨ urfeln, ist ebenfalls 16 . Also betr¨ lichkeit, im ersten oder zweiten Wurf eine 3 zu w¨ urfeln, 13 .
9.
Man zerlege einen W¨ urfel, dessen Seitenfl¨ achen rot gef¨ arbt sind, in 1000 gleichgroße W¨ urfel. Man mische diese sorgf¨ altig und lege sie in eine Urne. a) Wie groß ist die Wahrscheinlichkeit, dass beim zuf¨ alligen Ziehen eines W¨ urfels aus der Urne der gezogene W¨ urfel genau zwei rote Seitenfl¨ achen besitzt? b) Wie groß ist die Wahrscheinlichkeit, dass beim zuf¨ alligen Ziehen eines W¨ urfels aus der Urne der W¨ urfel eine oder zwei rote Seitenfl¨ achen besitzt?
10. Sei (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum, seien A, B ⊆ Ω mit P (A) = 38 , P (B) = 12 und P (A ∩ B) = 14 . Berechnen Sie: a) b) c) d)
P (A ∪ B) ¯ P (A) ¯ ¯ P (A ∩ B) ¯ P (A ∩ B)
2.7 Geometrische Wahrscheinlichkeiten e)
121
¯ P (B ∩ A).
11. Ein W¨ urfel wird einmal geworfen. Sei Ω = {1, 2, 3, 4, 5, 6} die Ergebnismen¨ ge. Uberpr¨ ufen Sie, ob durch die Abbildung P ∗ : P (Ω) −→ IR ∗
mit 1 4
P ({1})
=
P ∗ ({6}) =
P ∗ ({2})
=
P ∗ ({3}) = P ∗ ({4}) = P ∗ ({5}) =
1 8
ein Wahrscheinlichkeitsraum definiert ist.
2.7
Geometrische Wahrscheinlichkeiten
2.7.1
Vier Beispiele: Gl¨ ucksrad, Zielscheibe, Paradoxon von Bertrand, Nadelproblem von Buffon
¨ Der Plural in der Uberschrift Geometrische Wahrscheinlichkeiten“ l¨ asst aufhor” chen. Dieser Abschnitt greift einerseits auf historische Beispiele aus der Wahrscheinlichkeitstheorie zur¨ uck, sprengt aber andererseits streng genommen den Rahmen der endlichen Wahrscheinlichkeitsr¨ aume und weist schon auf stetige (kontinuierliche) Verteilungen hin, die wir sp¨ ater behandeln. Die folgenden vier speziellen Probleme zeigen, wie man auch beim Vorliegen ¨ u ahlbarer Versuchsergebnisse mit Hilfe von geometrischen Uberlegun¨ berabz¨ gen eine Gleichwahrscheinlichkeit“ gewisser Ereignisse (zuf¨ allige Auswahl von ” Punkten, L¨ angen, Fl¨ achen) erzeugen und dann ¨ ahnlich wie im Laplace-Modell Wahrscheinlichkeiten berechnen kann. Zugleich tritt dabei auch der Modellbildungsprozess beim L¨ osen eines Problems in den Vordergrund.
Beispiel 2.9 (Gl¨ ucksrad) Wie groß ist die Wahrscheinlichkeit, dass beim Drehen des abgebildeten Gl¨ ucksrades der Zeiger auf dem roten Feld stehen bleibt?
Modell 1: Wir legen ein diskretes Modell zugrunde und unterteilen den Vollkreis in 360 gleiche Grade. Der Zufallsversuch wird durch den Winkel α beschrieben. Durch
122
2 Wahrscheinlichkeit
Ausmessen des Mittelpunktswinkels α = 160◦ und Zur¨ uckf¨ uhrung auf den klassischen Fall durch Annahme der Gleichwahrscheinlichkeit f¨ ur alle Winkel folgt P (rot) =
160 4 = . 360 9
Modell 2: Das Versuchsergebnis wird jetzt durch die L¨ ange L des Kreisbogens auf der Peripherie des Gl¨ ucksrades beschrieben, der zum roten Feld geh¨ ort. Da der Zeiger u ¨ ber jedem Punkt des Kreisbogens stehen bleiben kann, hat der Zufallsversuch unendlich viele Versuchsausg¨ ange: Es kann jede reelle Zahl zwischen 0 und 2rπ auftreten und zwar einschließlich der Grenze 0. Das Intervall [0, 2rπ[ hat u ahlbar unendlich viele Elemente, das Intervall [0, 2rπ[ ist n¨ amlich eine ¨ berabz¨ Menge von der M¨ achtigkeit des Kontinuums. Wir haben es also nicht mit einer diskreten Wahrscheinlichkeit mit endlich vielen Versuchsausg¨ angen zu tun, sondern mit einer kontinuierlichen Wahrscheinlichkeit“. Man nimmt nun an, ” dass die Wahrscheinlichkeit daf¨ ur, dass der Zeiger auf dem Bogen L stehenbleibt, proportional zu seiner L¨ ange ist, und dass f¨ ur alle B¨ ogen gleicher L¨ ange Gleichm¨ oglichkeit, d. h. Gleichwahrscheinlichkeit besteht. Als Wahrscheinlichder L¨ ange des Kreisbogens L keit berechnet man dann den Quotienten Maßzahl Maßzahl des Umfangs des Kreises . In unserem Beispiel hat der Bogen L die L¨ ange 2rπ·160 = 360 Wahrscheinlichkeit das uns schon bekannte Ergebnis P (rot) =
8 9 rπ
2rπ
=
8rπ 9 .
Wir erhalten als
8 4 = . 18 9
Didaktische Anmerkung Habe der Radius des Gl¨ ucksrades 1 L¨ angeneinheit und habe der Kreisbogen √ zu einem zugeh¨ origen Mittelpunktswinkel die L¨ ange 2 · π, dann erhalten wir √ √ P (rot)= π2π2 = 22 , also eine irrationale Zahl. (Siehe Anmerkung 1 nach Definition 2.2.) Bei der geometrischen Wahrscheinlichkeit kann man also im Gegensatz zur klassischen Wahrscheinlichkeit auch irrationale Zahlen (und nicht nur rationale Zahlen) als Wahrscheinlichkeit erhalten. Beispiel 2.10 (Zielscheibe) Gegeben sei eine quadratische Zielscheibe mit der Seitenl¨ ange a. Wir fragen nach der Wahrscheinlichkeit, dass ein zuf¨ allig abgegebener Schuss in das punktierte Feld A trifft. Wir ber¨ ucksichtigen dabei nur Sch¨ usse, die die
2.7 Geometrische Wahrscheinlichkeiten
123
Zielscheibe treffen und nehmen an, dass die Wahrscheinlichkeit daf¨ ur, dass ein Schuss auf einen Fl¨ achenanteil der Zeilscheibe trifft, proportional der Gr¨ oße der Fl¨ ache ist. Ferner machen wir die Annahme, dass alle Fl¨ achenst¨ ucke mit gleichem Fl¨ acheninhalt dieselbe Wahrscheinlichkeit haben, dass der zuf¨ allig abgegebene Schuss in ihnen liegt. Unter diesen Modellannahmen ist dann die gesuchte Wahrscheinlichkeit: P (A) =
1 2 a Maßzahl des Fl¨ acheninhalts vonA 1 = 82 = . Maßzahl des Fl¨ acheninhalts der Zielscheibe a 8
Didaktische Anmerkungen 1.
Man kann mit Recht fragen, wie im Experiment die Annahmen realisiert werden k¨ onnen.
2.
Fragen wir nach der Wahrscheinlichkeit daf¨ ur, dass der Schuss den einbeschriebenen Kreis trifft, so erhalten wir als Wahrscheinlichkeit eine nicht rationale Zahl: a2 π π P (K) = 4 2 = . a 4 (Siehe auch Anmerkung 1 nach Definition 2.2.)
Beispiel 2.11 (Das Paradoxon von Bertrand) Vorgegeben sei ein Kreis mit dem Radius r. Wie groß ist die Wahrscheinlichkeit, dass eine willk¨ urlich (zuf¨ allig) in diesem Kreis gezogene Sehne l¨ anger als die Seite des dem Kreis einbeschriebenen gleichseitigen Dreiecks ist? Diese von Joseph L. F. Bertrand (1822 – 1900) in seinem Werk Calcul des probabilit´ es (1889) formulierte Aufgabe wird heute als Paradoxon von Bertrand bezeichnet. Beim L¨ osungsversuch zur Modellierung f¨ allt sofort auf, dass in der gestellten Aufgabe die Frage offen gelassen wird, wie die zuf¨ allige Auswahl der Sehne experimentell“ zu erfolgen hat. Bertrand gab in seinem genannten Werk die ” folgenden drei L¨ osungen an, die wir kurz beschreiben.
124
2 Wahrscheinlichkeit
Vorbemerkung: Im gleichseitigen Dreieck sind die drei H¨ ohen zugleich Winkelhalbierende und Seitenhalbierende. Sie schneiden sich im Punkt M. Einfache Rechnungen zeigen, dass gilt: √ a = r · 3 und M D = r2 . Modell 1: Man w¨ ahlt willk¨ urlich einen Punkt aus dem Inneren des Kreises aus. Dieser Punkt soll Mittelpunkt der Sehne sein. Damit sind Lage und L¨ ange der zuf¨ allig ausgew¨ ahlten Sehne festgelegt. Wenn die Sehne l¨ anger sein soll als die Seite a des einbeschriebenen regelm¨ aßigen Dreiecks, muss der Mittelpunkt der Sehne in dem zum vorgegebenen Kreis konzentrischen Kreis mit dem Radius r2 liegen. Nehmen wir wieder an, dass alle Fl¨ achen gleichen Inhalts die gleiche Wahrscheinlichkeit haben, so erhalten wir f¨ ur die gesuchte Wahrscheinlichkeit P =
( r2 )2 · π 1 = . r2 · π 4
Modell 2: Unter allen Punkten auf der Peripherie des Kreises w¨ ahlt man durch Zufall einen Punkt A aus. Dieser Punkt A wird als ein Endpunkt der Sehne angesehen. Gleichzeitig w¨ ahlt man Punkt A als Eckpunkt des gleichseitigen Dreiecks ABC. Soll die Sehne gr¨ oßer als die Dreieckseite sein, so muss der zweite Endpunkt D der liegen. Da Sehne auf dem Kreisbogen BC die B¨ ogen AB, BC und AC gleich lang sind, ist also f¨ ur die Wahl von D nur 13 des Kreisumfangs g¨ unstig. Also ist die gesuchte Wahrscheinlichkeit
P =
1 3
· 2rπ 1 = . 2rπ 3
2.7 Geometrische Wahrscheinlichkeiten
125
Hinweis Bei dieser Modellierung f¨ uhrt eine etwas andere Betrachtung zu demselben Ergebnis. Die Tangente an dem Kreis im Punkt A bildet mit den zwei Seiten des einbeschriebenen Dreiecks mit der Spitze im Punkt A ebenfalls zwei Winkel von 60◦ . Nur die Sehnen sind g¨ unstige F¨ alle, die in den Winkelraum zwischen den beiden Dreieckseiten fallen. F¨ ur die gesuchte Wahrscheinlichkeit folgt P =
1 π 1 60 = = 3 . 180 3 π
Modell 3: Es sei AE ein beliebiger Durchmesser des Kreises. Das ist keine Einschr¨ ankung, ¨ da keine Richtung besonders ausgezeichnet ist. Die nachfolgenden Uberlegungen gelten f¨ ur jeden Durchmesser. Man betrachtet alle Sehnen, die senkrecht zum Durchmesser AE verlaufen. Der Mittelpunkt jeder Sehne liegt auf dem Durchange der Sehne ist durch den Abstand ihres Mittelpunktes messer AE, und die L¨ vom Kreismittelpunkt bestimmt. Da M D = r2 ist, ist auch DE = r2 . Eine Sehne im Bereich M E ist also genau dann l¨ anger als die Seite des einbeschriebenen regelm¨ aßigen Dreiecks, wenn die Sehne im Bereich M D durch den Durchmesser AE verl¨ auft. D. h., die Sehne ist l¨ anger als die Seite a, wenn die Entfernung des Mittelpunktes der Sehne vom Kreismittelpunkt unden kleiner als r2 ist. Aus Symmetriegr¨ gilt das auch f¨ ur AM . Nimmt man wieder an, dass gleichlange Intervalle des Durchmessers mit derselben Wahrscheinlichkeit von einer zuf¨ allig gezeichneten Sehne getroffen werden, erhalten wir f¨ ur die gesuchte Wahrscheinlichkeit jetzt den Quotienten P =
Maßzahl der L¨ ange des g¨ unstigen Intervalls r 1 = = . Maßzahl der L¨ ange des Durchmessers 2r 2
Didaktische Diskussion der drei Modellierungen: Die drei L¨ osungswege f¨ ullen die in der gestellten Aufgabe offen gelassene Frage, wie die zuf¨ allige Wahl der Sehne zu erfolgen hat, in verschiedener Weise aus. Alle drei vorgestellten M¨ oglichkeiten zur Auswahl sind realisierbar und begr¨ undet. Die drei L¨ osungen sind also nicht drei L¨ osungen einer Aufgabe, sondern L¨ osungen von drei verschiedenen Aufgaben. Versuchsobjekt ist die Sehne, es fehlt aber in der urspr¨ unglichen Aufgabe eine Beschreibung der experimentellen Bedingungen f¨ ur die Auswahl der Sehne.
126
2 Wahrscheinlichkeit
Man finde selbst noch weitere Modellierungen f¨ ur das Paradoxon von Bert rand. Beispiel 2.12 (Nadelproblem von Buffon) Vorgegeben seien in der Ebene parallele Geraden mit dem Abstand d voneinander. Auf diese Ebene wird (zuf¨ allig) eine Nadel der L¨ ange a geworfen. Es sei a < d. Wie groß ist die Wahrscheinlichkeit, dass die Nadel eine Gerade schneidet? Da a < d ist, kann die Nadel h¨ ochstens eine Gerade schneiden. Dieses Problem aus dem Jahre 1777 des Grafen George-Louis L. Buffon (1707 – 1788) ist das erste Problem einer geometrischen Wahrscheinlichkeit. Es ist deshalb auch so interessant, weil es eine experimentelle Bestimmung der Zahl π erm¨ oglicht. Dieses Problem ist somit auch ein Beispiel f¨ ur Simulationen (vgl. Kapitel 3). Zur Modellierung des Problems machen wir die Annahme, dass alle Streifen v¨ ollig gleichberechtigt sind und dass deshalb ein beliebiger Streifen zuf¨ allig ausgew¨ ahlt werden kann. Mit x bezeichnen wir den Abstand des Mittelpunkts der Nadel von der n¨ achstgelegenen Geraden, mit α den Winkel, den die Nadel und diese Gerade einschließen. Wird die Nadel zuf¨ allig auf die Parallelenschar geworfen, so sollten x und α gleichverteilt und unabh¨ angig sein (Annahmen).
6 d a
?
α x
Durch die zwei Parameter α und x kann jede Lage der Nadel beschrieben werden. Durch obige Festlegung gilt jeweils 0≤x≤
d 2
und
0 ≤ α ≤ π.
Wenn die Nadel die Parallele schneiden soll, muss gelten (siehe Bild) x≤
a · sin α. 2
In einem α, x-Koordinatensystem lassen sich die m¨ oglichen Punkte darstellen als d {(α|x)|0 ≤ α ≤ π ∧ 0 ≤ x ≤ }, 2 ur das d. h. die m¨ ogliche Fl¨ ache A ist das Rechteck mit den Seiten π und d2 . Die f¨ Ereignis Nadel schneidet Parallele“ g¨ unstigen Punkte bilden die Fl¨ ache π ” F = 0 a2 sin αdα = a (siehe Skizze).
2.7 Geometrische Wahrscheinlichkeiten
127
F¨ ur die gesuchte Wahrscheinlichkeit erh¨ alt man P =
Maßzahl von F a 2a = d = . Maßzahl von A dπ π 2
Didaktische Hinweise zum Nadelproblem von Buffon 1.
2.
Man kann auf experimentellem Weg so die Zahl π n¨ aherungsweise bestimmen, indem man in einer langen Versuchsreihe von n Versuchen die relative H¨ aufigkeit f¨ ur das Eintreten des Ereignisses Nadel schneidet Parallele“ ” bestimmt. Sei dieses Ereignis bei n Versuchen z mal aufgetreten, so ist atzwert f¨ ur die theoretisch errechnete Wahrscheinlichhn (S) = nz ein Sch¨ keit: 2a z . hn (S) = ≈ n πd Aufl¨ osen nach π bringt 2a · n π≈ . z·d Man kann die Versuche im Freien ausf¨ uhren und nutzt parallel verlaufende Fugen einer Pflasterung aus. Dann k¨ onnte das Projekt unter dem Namen π liegt auf der Straße“ stattfinden. ” Bekannt geworden sind die folgenden Versuche (Gnedenko, B. W. [59], 32). Anzahl der W¨ urfe
gefundener Sch¨ atzwert f¨ ur π
Wolf (1850)
5 000
3,1596
Smith (1855)
3 204
3,1553
Fox (1894)
1 120
3,1419
Lazzarini (1901)
3 408
3,1415929
Gnedenko schenkt aber den Ergebnissen von Fox und Lazzarini wenig Vertrauen. Denn f¨ ur das auf sechs Stellen hinter dem Komma genaue Resultat von Lazzarini ist die Wahrscheinlichkeit kleiner als 13 (Gnedenko [59], 33). Auch Pfanzagl meldet Bedenken an, denn die Fehler sind verd¨ achtig klein:
128
2 Wahrscheinlichkeit Das muß nicht unbedingt darauf zur¨ uckzuf¨ uhren sein, daß die Autoren ” dieser Untersuchungen gemogelt haben. Es gen¨ ugt, wenn sie die Untersuchungen zu einem Zeitpunkt abgebrochen haben, zu dem der Sch¨ atzwert zuf¨ allig besonders genau war.“ (Pfanzagl [130], 97.) Es lohnt sich, dieser Idee nachzugehen, denn die Anzahl der W¨ urfe (z. B. 3408 oder 1120) und der auf sechs Stellen nach dem Komma genaue Sch¨ atzwert von Lazzarini erzeugen Misstrauen. Barth und Haller haben den Sch¨ atzwert f¨ ur π von Lazzarini u uft f¨ ur den Fall, dass der n¨ achste Wurf keinen Schnitt bringt ¨ berpr¨ (Barth/Haller [9], 387): π≈
3.
2a(n + 1) 2an 2a · n 1 = + · . z·d z·d z·d n
alt man π ≈ Setzt man f¨ ur 2a·n z·d den Wert von Lazzarini ein, so erh¨ 3, 1425147. Es sind nur noch zwei Stellen nach dem Komma genau! ¨ Da Pfanzagl auch die Zahl der Uberschneidungen angibt, k¨ onnen wir leicht auch den Sch¨ atzwert f¨ ur π berechnen f¨ ur den Fall, dass der n¨ achste Wurf ¨ eine Uberschneidung ist. Nach Pfanzagl hatte Lazzarini bei 3408 W¨ urfen ¨ 1808 Uberschneidungen (a.a.O. S. 97). Es gilt also: (1)
2a · 3408 = 3, 1415929. 1808 · d
Wir m¨ ussen aber den Ausdruck 2a·3409 1809·d bestimmen. Da wir a und d nicht kennen, berechnen wir aus (1) den Ausdruck ad . Es ist ad = 0, 833333327. Dann gilt: (2)
2a · 3409 = 3, 1407775. 1809 · d
¨ D. h.: Auch im Fall ein weiterer Wurf bringt Uberschneidung“ sind im ” Sch¨ atzwert f¨ ur π nur noch zwei Stellen nach dem Komma genau! H¨ atten wir das erwartet? Lazzarini tat also gut daran, seine Versuchsreihe mit n = 3408 zu beenden. Das Ergebnis von Barth/Haller unter Punkt 2 kann u ¨ brigens auch auf diesem Weg best¨ atigt werden. Es gilt n¨ amlich (3)
2.7.2 1.
2a · 3409 = 3, 1425147. 1808 · d
Aufgaben und Erg¨ anzungen
Aus dem Intervall [0, 1] werden unabh¨ angig und zuf¨ allig zwei reelle Zahlen x und y markiert. Wie groß ist die Wahrscheinlichkeit, dass man aus den Strecken 0x, xy, y1 ein Dreieck konstruieren kann?
2.8 Kombinatorisches Z¨ ahlen 2.
129
Rendezvous-Aufgabe: Birgitta und Liselotte verabreden, sich vor dem Caf´e zwischen 15 und 16 Uhr zu treffen. Beide versprechen fest, in der Zeit zwischen 15.00 und 16.00 Uhr zum Treffpunkt zu kommen, aber keine kann den genauen Zeitpunkt angeben. Die zuerst Eintreffende wartet auf die andere genau 15 Minuten und geht dann fort. Kommt eine erst nach 15.45 Uhr, so geht sie um 16.00 Uhr fort. Jede kommt auf gut Gl¨ uck, und die Ankunftszeit der einen beeinflusst in keiner Weise die der anderen. Wie groß ist die Wahrscheinlichkeit, dass Birgitta und Liselotte sich treffen?
2.8
Kombinatorisches Z¨ ahlen
Im Laplace-Modell wird die Wahrscheinlichkeit P (A) eines Ereignisses A berechnet durch den Quotienten P (A) =
Anzahl der f¨ ur das Ereignis A g¨ unstigen F¨ alle , Anzahl aller m¨ oglichen F¨ alle
wenn alle m¨ oglichen F¨ alle als gleichwahrscheinlich angenommen werden. Zur Berechnung der Wahrscheinlichkeit sind also in diesem Fall Anzahlen im Z¨ ahler und im Nenner des Bruches zu bestimmen. Dazu ben¨ otigt man die nat¨ urlichen Zahlen als Z¨ ahlzahlen. Die Anzahlbestimmungen sind eine Aufgabe der Kombinatorik, und so konnte Hans Freudenthal 1973 sagen, dass einfache Kombinatorik das R¨ uckgrat elementarer Wahrscheinlichkeitsrechnung ist (Freudenthal, H. [57], Bd. 2, 540). Was Kombinatorik als mathematische Disziplin zum Inhalt hat, l¨ asst sich nur schwer mit wenigen Worten beschreiben, f¨ ur uns geht es in der Kombinatorik fast immer um zwei Fragen: 1. 2.
Welche M¨ oglichkeiten gibt es? Wie viele M¨ oglichkeiten gibt es?
Hat man die erste Frage durch Angabe der M¨ oglichkeiten beantwortet, so ist im Prinzip auch die zweite Frage beantwortet. Man braucht ja nur noch die M¨ oglichkeiten abzuz¨ ahlen. Anhand eines Baumdiagramms k¨ onnen beide Fragen oft direkt beantwortet werden.
2.8.1
Abz¨ ahlen
Der ganz gew¨ ohnliche Weg zur Anzahlbestimmung ist der des Abz¨ ahlens, den wir zun¨ achst an drei Beispielen verdeutlichen:
130
2 Wahrscheinlichkeit
Beispiel 2.13 (Z¨ ahlwerk) In einem Supermarkt muss jeder Kunde durch eine Sperre gehen. Beim Durchgang einer Person durch die Sperre geht ein eingebautes Z¨ ahlwerk stets um eins weiter. Das rechte Bild zeigt das Z¨ ahlwerk um 12.00 Uhr. Bei der ¨ Offnung des Supermarktes am Morgen zeigten alle Felder des Z¨ ahlwerks eine Null.
0
0
0
0
0
0
0
0
0
4
1
5
Beispiel 2.14 (Heftzwecken) Hans z¨ ahlt, wie viele Heftzwecken in der Schachtel sind. Er nimmt nacheinander jeweils eine Heftzwecke, legt sie zur Seite und spricht: eins, zwei, drei, vier, . . . , so lange, bis keine Heftzwecke mehr in der Schachtel ist. Hans hat schon sieben herausgenommen (siehe Bild). Wie viele Heftzwecken waren insgesamt in der Schachtel?
Beispiel 2.15 (Verkehrsz¨ ahlung) An einer Straße wird eine Verkehrsz¨ ahlung in der Zeit von 9 bis 10 Uhr durchgef¨ uhrt und eine Strichliste erstellt: F¨ ur jeden vorbeifahrenden Personenkraftwagen (Pkw), Lastkraftwagen (Lkw) und Fahrradfahrer wird in der Tabelle jedesmal ein Strich (Z¨ ahlstrich) gemacht. Je f¨ unf Striche werden zu einem B¨ undel zusammengefasst. Jeder f¨ unfte Strich wird als Schr¨ agstrich durch vier Striche gezeichnet. Pkw Lkw Fahrradfahrer
2.8 Kombinatorisches Z¨ ahlen
131
In der angegebenen Zeit von 9 bis 10 Uhr wurden beispielsweise 37 Fahrrad fahrer gez¨ ahlt. Das an den Beispielen vorgef¨ uhrte Verfahren kann wie folgt allgemein beschrieben werden: Um die Anzahl einer endlichen Menge zu bestimmen, z¨ ahlt man die Elemente der Menge durch: Man ordnet einem Element die Zahl 1 zu, einem anderen die Zahl 2, wieder einem anderen die Zahl 3 usw. Kein Element darf mehrfach gez¨ ahlt werden, es darf aber auch kein Element vergessen werden. Schließlich h¨ ort dieses Verfahren auf. Die zuletzt erreichte Zahl n gibt die Anzahl der Elemente an. Jede andere Aufz¨ ahlung mit einer anderen Reihenfolge der Elemente ergibt dieselbe Zahl. Mathematisch bedeutet das: Eine Menge A hat n Elemente genau dann, wenn es eine bijektive Abbildung der Menge A auf die Menge der nat¨ urlichen Zahlen {x|x ∈ IN, x ≤ n} gibt. Man schreibt |A| = n (gelesen: M¨ achtigkeit der Menge A gleich n), oder man schreibt auch card(A) = n (gelesen: Kardinalzahl der Menge A gleich n). Zus¨ atzlich legt man fest: Ist A = ∅, so ist |A| = card(A) = 0.
2.8.2
Allgemeines Z¨ ahlprinzip der Kombinatorik
Das Abz¨ ahlen ist oft zu aufwendig. Es geht darum, Strategien f¨ ur geschicktes Z¨ ahlen zu entwickeln. Eine solche Strategie ist uns von der Fl¨ acheninhaltsberechnung bei Rechtecken bekannt. Beispiel 2.16 (Plattierung) Eine Sitzecke im Garten ist mit Platten ausgelegt (siehe Abbildung). In jeder Reihe liegen 5 Platten. Es gibt 6 Reihen. Die Gesamtzahl der Platten betr¨ agt 6 · 5 Platten = 30 Platten.
6 Reihen
5 Platten in der untersten Reihe
132
2 Wahrscheinlichkeit
Diese Z¨ ahlregel gilt auch in bestimmten F¨ allen bei nicht-rechteckigen Figuren, wie im folgenden Beispiel 2.17 In der Abbildung sind in jeder Reihe 10 kleine Dreiecke. Es gibt 3 Reihen. Berechnung der Gesamtzahl Z der kleinen Dreiecke:
Haben n Reihen dieselbe Anzahl a von Elementen, so erh¨ alt man die Gesamtzahl Z der Elemente durch Multiplikation der Zahlen n und a: Z = a · n.
Ein sehr geschicktes Z¨ ahlverfahren ist das allgemeine Z¨ ahlprinzip der Kombinatorik, das wir an drei Beispielen erl¨ autern. Beispiel 2.18 (Speisekarte) Die Abbildung zeigt eine Speisekarte. Ein Essen bestehe aus einer Vorspeise, einem Hauptgericht und einer Nachspeise. Wie viele verschiedene Essen kann man zusammenstellen? Im folgenden Baumdiagramm bezeichnet jeder Weg ein Essen. Die Buchstaben im Baumdiagramm sind die Anfangsbuchstaben der Speisen.
Speisekarte Vorspeisen Tomatensuppe Rindfleischsuppe Hauptgerichte H¨ ahnchen auf Reis Bratwurst mit pommes frites Schnitzel mit Salzkartoffeln Nachspeisen Eis Pudding
2.8 Kombinatorisches Z¨ ahlen
133
F¨ ur Vorspeise, Hauptgericht und Nachspeise muss jeweils eine Entscheidung getroffen werden. F¨ ur die Vorspeise gibt es zwei Wahlm¨ oglichkeiten T oder R (zwei Aste). ¨ Jede Wahl der Vorspeise kann mit jeder der drei M¨ oglichkeiten H , B , S f¨ ¨ ur das Hauptgereicht kombiniert werden (drei Aste). Damit ergeben sich zun¨ achst 2 · 3 = 6 M¨ oglichkeiten f¨ ur ein Essen“ aus Vorspeise ” und Hauptgericht. F¨ ur die Nachspeise gibt es zwei weitere Wahlm¨ oglichkeiten E oder P (zwei Aste). ¨ Jede der sechs M¨ oglichkeiten f¨ ur Vorspeise und Hauptgericht kann mit jeder der zwei Nachspeisen kombiniert werden. Also gibt es (siehe auch Baumdiagramm) insgesamt 2 · 3 · 2 = 12 verschiedene Men¨ us. Am Baumdiagramm k¨ onnen zudem auch alle Essen konkret angegeben werden, B E oder R H P oder . . . beispielsweise T
E
P
E
H
P
E
B
P
E
S
P
H
T
E
P
B
E
P
S
R
¨ Aus diesen anschaulichen Uberlegungen am Baumdiagramm isolieren wir das Wesentliche. Im Beispiel waren 3 Entscheidungen zu treffen, die wir als K¨ astchen andeuten. In das linke K¨ astchen schreiben wir die Zahl 2 f¨ ur die zwei Wahlm¨ oglichkeiten bei der Vorspeise, in das n¨ achste K¨ astchen eine 3 f¨ ur die drei Wahlm¨ oglichkeiten des Hauptgerichts, in das dritte K¨ astchen eine 2 f¨ ur die zwei Wahlm¨ oglichkeiten der Nachspeise:
2
3
2 . Um die Gesamtzahl der
verschiedenen Men¨ us zu erhalten, bildet man das Produkt aus den drei Zahlen in den K¨ astchen:
2 ·
3 ·
2 =12 oder einfacher geschrieben 2 · 3 · 2.
Die hier am Baumdiagramm und am K¨ astchenmodell entwickelte Strategie ist nichts anderes als das noch zu formulierende Fundamentalprinzip des Z¨ ahlens, das auch das allgemeine Z¨ ahlprinzip der Kombinatorik genannt wird.
134 Beispiel 2.19 (Turmbau) Aus weißen, schwarzen und roten Legosteinen sollen m¨ oglichst viele verschiedene T¨ urme mit drei Etagen gebaut werden. In jedem Turm soll jede der drei Farben vorkommen. Die Abbildung zeigt einen solchen Turm. Wie viele verschiedene T¨ urme gibt es?
2 Wahrscheinlichkeit
3. Etage rot 2. Etage weiß 1. Etage schwarz
Ein Baumdiagramm veranschaulicht die Rechnung. Es gibt 6 (= 3 · 2 · 1) T¨ urme.
3. Etage
2. Etage
1. Etage
Beispiel 2.20 (Ziffernschloss) Hans hat zu seinem Geburtstag ein Fahrrad bekommen. Er m¨ ochte es zus¨ atzlich mit einem Ziffernschloss sichern. Im Fahrradgesch¨ aft zeigt ihm der Verk¨ aufer zwei verschiedene Schl¨ osser. Die Qualit¨ at des Materials und der Verarbeitung ist bei beiden Schl¨ ossern gleich gut.
2.8 Kombinatorisches Z¨ ahlen
135
Eines der Schl¨ osser hat vier Ringe, jeder mit den sechs verschiedenen Ziffern 1, 2, 3, 4, 5, 6. Das andere Schloss hat drei Ringe. Hier tr¨ agt jeder Ring die acht verschiedenen Ziffern 1, 2, 3, 4, 5, 6, 7, 8. Hans m¨ ochte das sicherste Schloss kaufen. Da die Qualit¨ at der Schl¨ osser gleich ist, kommt es auf die Anzahl der verschiedenen Einstellm¨ oglichkeiten bei den Schl¨ ossern an. Bei dem Schloss mit den vier Ringen sind 4 Teilexperimente durchzuf¨ uhren: Jeder der vier Ringe muss eingestellt werden: . 1. Ring
2. Ring
3. Ring
4. Ring
Bei jedem Ring gibt es 6 Einstellungen (m¨ ogliche Ergebnisse). Dann gibt es insgesamt 6 · 6 · 6 · 6 = 64 = 1296 verschiedene Ziffernkombinationen. F¨ ur das Schloss mit den 3 Ringen und je Ring mit 8 Einstellungen gibt es analog 8 · 8 · 8 = 83 = 512 verschiedene Ziffernkombinationen. Das Schloss mit den vier Ringen hat deutlich mehr Ziffernkombinationen (Einstellm¨ oglichkeiten) als das mit den drei Ringen. Das an den Beispielen vorgef¨ uhrte Verfahren soll in allgemeiner Form als Fundamentalprinzip des Z¨ ahlens in der Kombinatorik formuliert werden. Wir geben zwei miteinander konkurrierende Formulierungen an, die von unterschiedlichen Vorstellungen ausgehen. Beide zu kennen, ist f¨ ur den verst¨ andigen Umgang mit dem Fundamentalprinzip hilfreich. Im Beispiel Speisekarte“ wurde nach der Anzahl von 3-gliedrigen Sequenzen ” ur Vorspeise, eines a1 a2 a3 gefragt, wobei eines der drei Zeichen a1 , a2 , a3 f¨ f¨ ur Hauptgericht und eines f¨ ur Nachspeise steht. Wir fragten nach den Besetzungsm¨ oglichkeiten (Belegungsm¨ oglichkeiten) f¨ ur jede dieser drei Stellen. Im Beispiel Ziffernschloss“ wurde bei dem Schloss mit vier Ringen nach ” der Anzahl 4-gliedriger Sequenzen a1 a2 a3 a4 gefragt, wobei hier die Besetzungsm¨ oglichkeiten (Belegungsm¨ oglichkeiten) f¨ ur jede dieser vier Stellen gleich
136
2 Wahrscheinlichkeit
sind, n¨ amlich sechs M¨ oglichkeiten durch die Ziffern 1, 2, 3, 4, 5, 6. Das Fundamentalprinzip des Z¨ ahlens lautet dann allgemein: Sind n-gliedrige Sequenzen a1 a2 a3 ... an zu bilden, und gibt es ur die 1. Stelle a1 , k1 Besetzungen f¨ ur die 2. Stelle a2 , k2 Besetzungen f¨ .. . kn Besetzungen f¨ ur die n-te Stelle an , so gibt es insgesamt k1 · k2 · k3 · . . . · kn verschiedene n-gliedrige Sequenzen. Die andere Sichtweise: Die 3-gliedrigen Sequenzen a1 a2 a3 aus dem Beispiel Speisekarte“ k¨ onnen als Ergebnis eines Versuchs (Experiments) Men¨ uzusam” ” menstellung“ gedeutet werden und in drei Teilversuche zerlegt gedacht werden: Vorspeisenwahl, Hauptgerichtwahl, Nachspeisenwahl. Die Teilversuche haben in der aufgef¨ uhrten Reihenfolge 2, 3, 2 m¨ ogliche Ergebnisse. Im Beispiel Ziffernschloss“ mit den vier Ringen k¨ onnen die 4-gliedrigen Sequen” zen a1 a2 a3 a4 als Ergebnis des Versuchs (Experiments) Ziffernschlosseinstel” lung“ angesehen werden. Hier wird der Versuch in vier Teilversuche (entsprechend der Anzahl der Ringe) zerlegt. Jeder dieser Teilversuche hat in diesem Beispiel sechs m¨ ogliche Ergebnisse. Unter dieser Sichtweise lautet das Fundamentalprinzip des Z¨ ahlens: Besteht ein Experiment aus n einfachen Teilversuchen, die unabh¨ angig voneinander auszuf¨ uhren sind, und gibt es ogliche Ergebnisse f¨ ur den 1. Teilversuch, k1 m¨ ogliche Ergebnisse f¨ ur den 2. Teilversuch, k2 m¨ .. . ogliche Ergebnisse f¨ ur den n-ten Teilversuch, kn m¨ dann hat das zusammengesetzte Experiment insgesamt k1 · k2 · k3 · . . . · kn verschiedene m¨ ogliche Ergebnisse. Der Beweis des Fundamentalprinzips des Z¨ ahlens wird u andige In¨ ber vollst¨ duktion gef¨ uhrt (Aufgabe 24 im Abschnitt 2.8.6).
2.8 Kombinatorisches Z¨ ahlen
137
Didaktische Anmerkungen 1.
2.
3.
Das Fundamentalprinzip des Z¨ ahlens heißt auch Allgemeines Z¨ ahlprin” zip der Kombinatorik“ oder Produktregel“ oder Multiplikationsregel“ der ” ” Kombinatorik. Bei Anwendung des Fundamentalprinzips des Z¨ ahlens spielt die Reihenfolge der Besetzung der Stellen bzw. der Teilexperimente keine Rolle. Die Pl¨ atze k¨ onnen in beliebiger Reihenfolge besetzt bzw. die Teilexperimente in beliebiger Reihenfolge durchgef¨ uhrt werden. Im Beispiel Speisekarte“ kann ” man z. B. auch zuerst die Nachspeise, dann die Vorspeise und dann erst das Hauptgericht ausw¨ ahlen, und im Beispiel Ziffernschloss“ ist es v¨ ollig egal, ” welchen der vier Ringe ich als ersten, zweiten, dritten oder vierten einstelle. Die Beispiele Turmbau“ und Ziffernschloss“ weisen schon auf Unterschie” ” de bez¨ uglich der Auswahl hin, die im n¨ achsten Abschnitt ausf¨ uhrlich behandelt werden. Bezeichnen wir beim Turmbau“ die schwarzen, weißen, ” roten Legosteine mit s, w und r, so k¨ onnen sich in den 3-gliedrigen Sequenzen (als Symbol f¨ ur einen Turm) die drei Zeichen s, w und r nicht wiederholen. In jeder 3-gliedrigen Sequenz tritt jedes Zeichen genau einmal auf (vgl. sp¨ ater: Permutationen ohne Wiederholung). Beim Ziffernschloss“ ” mit den vier Ringen kann an jeder Stelle einer 4-gliedrigen Sequenz a 1 a2 a3 a4 (zur Kennzeichnung der Zifferneinstellungen bei den vier Ringen) eine der Ziffern 1, 2, 3, 4, 5 oder 6 stehen. In einer 4-gliedrigen Sequenz k¨ onnen hier also die Zeichen 1, 2, 3, 4, 5, 6 mehrfach auftreten, z. B.: 1 1 1 1 oder 2 1 6 6 (vgl. sp¨ ater: Permutationen mit Wiederholung).
2.8.3
Kombinatorische Figuren
Im Folgenden wenden wir das allgemeine Z¨ ahlprinzip auf besondere Auswahlsituationen an, f¨ ur die spezifische Ausdr¨ ucke verwendet werden. Man spricht von Permutationen und Kombinationen (gelegentlich auch noch von Variationen) jeweils mit bzw. ohne Wiederholungen oder auch (auf dem Hintergrund des Urnenmodells) von geordneten bzw. ungeordneten (Stich-)Proben jeweils mit bzw. ohne Zur¨ ucklegen der gezogenen Kugeln. Ganz allgemein spricht man von kombinatorischen Figuren. Verschiedene Sichtweisen f¨ uhren zu unterschiedlichen Sprachregelungen. Am Beispiel der Permutationen ohne Wiederholungen werden wir einige erl¨ autern.
138
2 Wahrscheinlichkeit
Permutationen ohne Wiederholung – Geordnete (Stich-)Proben ohne Zur¨ ucklegen Fall 1: n-Permutationen ohne Wiederholung aus n Zeichen (Elementen) Beispiel 2.21 achst Gegeben sind drei Objekte a1 , a2 und a3 , die wir zun¨ als Zeichen eines Alphabets a1 , a2 , a3 oder als Elemente einer Menge {a1 , a2 , a3 } auffassen. Wir fragen, wie viele verschiedene Anordnungen (Zusammenstellungen) der drei Objekte a1 , a2 , a3 es gibt, wenn in jeder Anordnung jedes Objekt genau einmal vorkommt, d. h. jedes Objekt muss vorkommen, und es darf sich aber nicht wiederholen. Es ergeben sich die folgenden sechs M¨ oglichkeiten der Anordnung (Reihenfolge): a1
a2
a3
a2
a3
a1
a1
a3
a2
a3
a1
a2
a2
a1
a3
a3
a2
a1
Jede der angegebenen sechs Zusammenstellungen (Anordnungen) nennt man eine geordnete 3-gliedrige Sequenz aus den drei Zeichen a1 , a2 , a3 ohne Wiederholung oder ein Wort der L¨ ange 3 aus den drei Zeichen a1 , a2 , a3 ohne Wiederholung oder eine 3-Permutation ohne Wiederholung aus den drei Zeichen a1 , a2 , a3 . Da jedes Zeichen/Element genau einmal auftreten muss, spricht man auch kurz von Permutation ohne Wiederholung (permutare lat.: vertauschen, umstellen). Man kann auch jede der sechs M¨ oglichkeiten des Beispiels als Tripel (3-Tupel) schreiben, z. B. (a1 , a2 , a3 ) oder (a3 , a2 , a1 ). Diese Schreibweise betont besonders die Beachtung der Reihenfolge. Eine andere Sprechweise ergibt sich bei Zugrundelegung des Urnenmodells: Die drei Objekte werden als drei unterscheidbare Kugeln in einer Urne angesehen. Jede obige 3-Permutation ohne Wiederholung l¨ asst sich dann folgendermaßen beschreiben: Nacheinander erfolgendes dreimaliges Ziehen von je einer Kugel aus der Urne mit drei unterscheidbaren Kugeln (z. B. hinsichtlich der Farbe) ohne Zur¨ ucklegen der jeweils gezogenen Kugel und unter Beobachtung der Reihenfolge der gezogenen Kugeln. Man sagt dann, es handelt sich um eine geordnete (Stich-)Probe vom Umfang 3 ohne Zur¨ ucklegen aus einer Urne mit drei unterscheidbaren Kugeln.
2.8 Kombinatorisches Z¨ ahlen
139
Ein weiterer Gesichtspunkt ergibt sich bei der Verwendung des Funktionenbegriffs (Abbildungen). Dann handelt es sich bei der 3-Permutation der drei Objekte a1 , a2 , a3 um eine bijektive Abbildung der Menge {a1 , a2 , a3 } auf sich. Jede der genannten Sichtweisen (Anordnungen von n Zeichen, n-Tupel, Urnenmodell, Abbildungsgedanke) kann konsequent f¨ ur alle in Betracht kommenden kombinatorischen Figuren durchgezogen werden. Wir bevorzugen im Folgenden die Anordnung von Zeichen und das Urnenmodell. Die Anzahl der 3-Permutationen ohne Wiederholung aus den drei Zeichen a1 , a2 , a3 bestimmten wir oben durch systematisches Aufschreiben aller sechs M¨ oglichkeiten. Bei einer beliebigen Anzahl von n Zeichen ist dieses Verfahren nicht immer praktikabel. Wir betrachten das Beispiel 2.22 (Turmbau) Anhand des Baumdiagramms und des K¨ astchenmodells (es handelt sich um das allgemeine Z¨ ahlprinzip der Kombinatorik) bestimmten wir multiplikativ die Anzahl der M¨ oglichkeiten, einen Dreierturm mit drei verschiedenen vorgegebenen Farben zu bauen, als 3 · 2 · 1 = 6. Die sechs verschiedenen M¨ oglichkeiten brauchen wir dabei explizit nicht zu ken nen. Dieses Verfahren l¨ asst sich auf n Zeichen (Elemente) u achst ¨bertragen. Zun¨ geben wir die
Definition 2.4 (n-Permutation ohne Wiederholung aus n Zeichen) Unter einer n-Permutation ohne Wiederholung aus einer Menge von n Zeichen (Elementen), versteht man jede Anordnung, die s¨ amtliche n Zeichen (Elemente) in irgendeiner Reihenfolge genau einmal enth¨ alt (Kurzsprechweise: Permutation ohne Wiederholung). Eine Permutation ohne Wiederholung aus einer Menge von n Zeichen bedeutet im Urnenmodell eine geordnete (Stich-)Probe ohne Zur¨ ucklegen vom Umfang n aus einer Urne mit n unterscheidbaren Kugeln. Der folgende Satz gibt Auskunft u ¨ ber die Anzahl aller Permutationen ohne Wiederholung.
140
2 Wahrscheinlichkeit
Satz 2.9 (n-Permutation ohne Wiederholung aus n Zeichen) Aus einer Menge von n Zeichen (Elementen) a1 , a2 , . . . , an kann man auf n · (n − 1) · (n − 2) · . . . · 3 · 2 · 1 = n! verschiedene Arten geordnete n-gliedrige Sequenzen, in denen jedes der Zeichen a1 , a2 , . . . , an genau einmal vorkommt, bilden. Im Urnenmodell lautet der Satz: Aus einer Urne mit n unterscheidbaren Kugeln kann man auf n · (n − 1) · (n − 2) · . . . · 3 · 2 · 1 = n! verschiedene Arten geordnete Proben ohne Zur¨ ucklegen vom Umfang n entnehmen.
Beweis: Der Beweis ergibt sich leicht mit Hilfe der allgemeinen Z¨ ahlregel. F¨ ur n Elemente hat man n K¨ astchen zu zeichnen. F¨ ur das erste K¨ astchen gibt es n Belegungsm¨ oglichkeiten, da ja noch n Elemente da sind. F¨ ur das zweite K¨ astchen gibt es dann nur noch n − 1 M¨ oglichkeiten, da nach der Belegung des ersten K¨ astchens nur noch n − 1 Elemente vorhanden sind. So f¨ ahrt man fort, bis man das letzte K¨ astchen erreicht hat. Hierf¨ ur gibt es dann nur noch eine Belegungsm¨ oglichkeit durch das verbliebene Element. F¨ ur die Gesamtzahl der M¨ oglichkeiten ergibt sich nach der allgemeinen Z¨ ahlregel das Produkt n · (n − 1) · (n − 2) · . . . · 3 · 2 · 1 . F¨ ur das Produkt n · (n − 1) · (n − 2) · . . . · 3 · 2 · 1 der ersten n nat¨ urlichen Zahlen schreibt man abk¨ urzend n! und liest diesen Ausdruck n Fakult¨ at“. ” Fall 2: k-Permutationen ohne Wiederholung aus n Zeichen / Elementen Wir modifizieren die Fragestellung. Wir gehen wieder von n Zeichen / Elementen a1 , a2 , . . . , an aus und fragen jetzt nach der Anzahl der geordneten k-gliedrigen ochstens Sequenzen mit k < n, in denen jedes der n Zeichen a1 , a2 , . . . , an h¨ einmal vorkommt. Wir legen fest:
Definition 2.5 (k-Permutation ohne Wiederholung aus n Zeichen) Gegeben seien n Zeichen. Jede geordnete k-gliedrige Sequenz (k < n), in der jedes der n Zeichen h¨ ochstens einmal vorkommt, und bei denen Sequenzen als verschieden angesehen werden, die sich nur in der Reihenfolge der Anordnung ihrer Zeichen (Elemente) unterscheiden, heißt k-Permutation ohne Wiederholung unter Beobachtung der Reihenfolge aus einer Menge von n Zeichen (Elementen).
2.8 Kombinatorisches Z¨ ahlen
141
Im Urnenmodell spricht man in diesem Fall von geordneter (Stich-)Probe ohne Zur¨ ucklegen vom Umfang k aus einer Urne mit n unterscheidbaren Kugeln (k < n). Zur Berechnung der Anzahl aller k-Permutationen betrachten wir zun¨ achst ein Beispiel. Beispiel 2.23 (Geburtstagsproblem) Wie viele verschiedene M¨ oglichkeiten gibt es, dass f¨ unf aus einer Großstadt zuf¨ allig ausgew¨ ahlte Personen an verschiedenen Wochentagen Geburtstag haben? L¨ osung: Da die Aufgabe keine einschr¨ ankenden Angaben enth¨ alt, gehen wir von sieben oglichkeiten, f¨ ur Wochentagen aus. F¨ ur die Person P1 gibt es dann sieben M¨ oglichkeiten (es sollen ja verschiedene die Person P2 gibt es nur noch sechs M¨ Wochentage sein), f¨ ur die Person P3 gibt es noch f¨ unf M¨ oglichkeiten, f¨ ur die oglichkeiten und f¨ ur die Person P5 gibt es noch Person P4 gibt es noch vier M¨ drei M¨ oglichkeiten. Nach dem allgemeinen Z¨ ahlprinzip gibt es dann insgesamt 7 · 6 · 5 · 4 · 3 = 2520 M¨ oglichkeiten, dass f¨ unf Personen an verschiedenen Tagen Geburtstag haben. Diese beispielgebundene Strategie u agt sich auf den allgemeinen Fall. Es ¨bertr¨ gilt:
Satz 2.10 (k-Permutation ohne Wiederholung aus n Zeichen) Aus einer Menge von n Zeichen (Elementen) a1 , a2 , . . . , an kann man auf n · (n − 1) · (n − 2) · . . . · (n − (k − 1)) =
n! (n − k)!
verschiedene Arten geordnete k-gliedrige Sequenzen bilden, in denen jedes der Zeichen a1 , a2 , . . . , an h¨ ochstens einmal vorkommt. Im Urnenmodell lautet der Satz: Aus einer Urne mit n unterscheidbaren Kugeln kann man auf n · (n − 1) · (n − 2) · . . . · (n − (k − 1)) =
n! (n − k)!
ucklegen vom Umfang k entnehverschiedene Arten geordnete Proben ohne Zur¨ men. Beweis: Unter Ber¨ ucksichtigung der Vorgaben Reihenfolge beachten“ und ” keine Wiederholungen“ von Zeichen (Elementen) gibt es f¨ ur die erste Stelle n ” M¨ oglichkeiten, f¨ ur die zweite nur noch n − 1 Belegungsm¨ oglichkeiten, . . . , f¨ ur
142
2 Wahrscheinlichkeit
die k-te Stelle n − (k − 1) M¨ oglichkeiten. Nach dem allgemeinen Z¨ ahlprinzip gibt es dann insgesamt n · (n − 1) · (n − 2) · . . . · n − (k − 1) M¨ oglichkeiten. Durch Erweitern mit (n − k)! erh¨ alt man n · (n − 1) · (n − 2) · . . . · (n − (k − 1)) · (n − k) · . . . · 2 · 1 n! = (n − k)! (n − k)! als leicht merkbaren Bruch f¨ ur die gesuchte Anzahl.
Didaktischer Hinweis Im Prinzip ist die Unterscheidung zwischen n-Permutationen und k-Permutationen ohne Wiederholung nicht zwingend. Man braucht bei der Definition der k-Permutationen nur k = n zuzulassen, dann erh¨ alt man die n-Permutationen. n! Bez¨ uglich der Anzahlbestimmung steht f¨ ur n = k im Nenner des Bruches (n−k)! der Ausdruck 0! (gelesen: Null Fakult¨ at). Da per definitionem 0! gleich 1 gesetzt wird, erh¨ alt man auch auf diesem Wege f¨ ur die Anzahl der n-Permutationen die Zahl n!. Mit diesen Hinweisen fassen wir die Ergebnisse der S¨ atze 1 und 2 u ¨ ber nPermutationen und k-Permutationen ohne Wiederholung in der Sprache des Urnenmodells zusammen.
Satz 2.11 (Geordnete Probe ohne Zur¨ ucklegen) Aus einer Urne mit n unterscheidbaren Kugeln kann man auf n · (n − 1) · (n − 2) · . . . · (n − (k − 1)) =
n! (n − k)!
verschiedene Arten geordnete Proben ohne Zur¨ ucklegen vom Umfang k mit k ≤ n entnehmen.
Permutationen mit Wiederholung – Geordnete (Stich-)Proben mit Zur¨ ucklegen In den bislang behandelten n-Permutationen trat jedes Element genau einmal auf, und in den k-Permutationen mit k < n konnte jedes Element h¨ ochstens einmal auftreten. Die Wiederholung eines Elementes war jeweils unzul¨ assig. Diese Einschr¨ ankung lassen wir jetzt fallen. Im Folgenden handelt es sich um Anzahlbestimmungen bei geordneten Proben (die Reihenfolge der Elemente wird ber¨ ucksichtigt) mit Zur¨ ucklegen (die Elemente d¨ urfen wiederholt auftreten).
2.8 Kombinatorisches Z¨ ahlen
143
Beispiel 2.24 (TOTO 13er Ergebniswette) Bei der 13er Wette im Fußballtoto sind Voraussagen u ur jedes der 13 Spiele gibt es drei M¨ oglich¨ ber 13 Spiele zu machen. F¨ keiten zur Entscheidung, d. h. 3 Belegungsm¨ oglichkeiten, n¨ amlich: Heimsieg 1, Unentschieden 0 und Ausw¨ artssieg 2 (siehe den folgenden Ausschnitt aus einem Toto-Zettel). Gegeben sind die drei Zahlen 1, 0, 2. Bei jedem der 13 Spiele muss genau eines dieser drei Zeichen angekreuzt werden. Das ist dann ein Tip. Die Tippreihe 1 im abgebildeten Totoschein heißt als 13-Tupel geschrieben (0, 2, 0, 0, 1, 2, 1, 1, 2, 1, 0, 1, 0). Schreiben wir die Tippreihe als 13-gliedrige Sequenz, so erhalten wir die Zeichenfolge 0 2 0 0 1 2 1 1 2 1 0 1 0. Jedes der drei Zeichen 1, 0, 2 kann mehrfach auftreten, es kann aber auch gar nicht auftreten. Die M¨ oglichkeit der Wiederholung ist also gegeben. Ferner spielt die Reihenfolge (Anordnung) der Zeichen eine Rolle. Denn die Reihenfolge der Spiele von 1 bis 13 entspricht genau vorher festgelegten Spielpaarungen. Wie viele M¨ oglichkeiten gibt es, einen Tip abzugeben? Hinweis: Toto ist ein Wettspiel, kein Gl¨ ucksspiel wie z. B. Lotto.
F¨ ur jedes der 13 Spiele gibt es 3 Entscheidungen (Belegungsm¨ oglichkeiten), also nach der allgemeinen Z¨ ahlregel insgesamt 1 594 323 M¨ oglichkeiten: 3 · 3 · 3 · 3 · 3 · 3 · 3 · 3 · 3 · 3 · 3 · 3 · 3 = 313 = 1594323.
Im allgemeinen Fall sind n Zeichen a1 , a2 , . . . , an gegeben, und es werden k-gliedrige Sequenzen beobachtet, bei denen an jeder Stelle irgendeines der n Zeichen steht. Da jedes der n Zeichen mehrfach in der Sequenz auftreten kann, kann k gr¨ oßer als n sein, d. h. die Sequenz kann mehr Glieder haben als es Zeichen gibt.
Definition 2.6 (Permutation mit Wiederholung) Gegeben seien n Zeichen a1 , a2 , . . . , an . Jede k-gliedrige Sequenz, bei der an jeder Stelle irgendeines der n Zeichen steht, und bei denen Sequenzen als verschieden angesehen werden, die dieselben Zeichen in unterschiedlicher Reihenfolge enthalten, heißt
144
2 Wahrscheinlichkeit
geordnete Sequenz (Wort) mit Wiederholung der L¨ ange k aus n Zeichen oder kurz Permutation mit Wiederholung. Im Urnenmodell (Urne mit n Kugeln) entspricht einer Permutation mit Wiederholung eine geordnete (Stich-)Probe mit Zur¨ ucklegen vom Umfang k aus einer Urne mit n unterscheidbaren Kugeln. Anmerkung zum Urnenmodell In der Urne befinden sich n unterscheidbare Kugeln. Es wird k-mal je eine Kugel gezogen mit der Maßgabe, dass die jeweils gezogene Kugel vor der n¨ achsten Ziehung in die Urne zur¨ uckgelegt wird. Die Urne enth¨ alt also bei jeder Ziehung alle n Kugeln. F¨ ur die Anzahl der Permutationen mit Wiederholung gilt in der Sprache des Urnenmodells
Satz 2.12 (Geordnete Probe mit Zur¨ ucklegen) Aus einer Urne mit n unterscheidbaren Kugeln kann man auf nk verschiedene Arten geordnete (Stich-)Proben mit Zur¨ ucklegen vom Umfang k entnehmen. Beweis: F¨ ur jeden der k Pl¨ atze (Stellen), die die k gezogenen Kugeln einnehmen, gibt es n Belegungsm¨ oglichkeiten, da jede der n unterscheidbaren Kugeln jeden Platz einnehmen kann. Nach der allgemeinen Z¨ ahlregel folgt: Es gibt insgesamt k n · n · n · n· n · . . . · n = n k Faktoren M¨ oglichkeiten.
Kombinationen ohne Wiederholung – Ungeordnete (Stich-)Proben ohne Zur¨ ucklegen Bei dieser kombinatorischen Figur spielt die Reihenfolge in der Anordnung der Elemente keine Rolle. Beispiel 2.25 (Personenauswahl) Aus f¨ unf Personen sollen drei Personen ausgew¨ ahlt werden. Wie viele M¨ oglichkeiten gibt es?
2.8 Kombinatorisches Z¨ ahlen
145
L¨ osungsweg 1 Bezeichnen wir die Personen mit a1 , a2 , a3 , a4 und a5 , so k¨ onnen wir (in diesem einfachen Fall) sofort durch systematisches Vorgehen die gesuchten dreigliedrigen Sequenzen explizit hinschreiben: a1 a 2 a 3 , a2 a 3 a 4 ,
a1 a 2 a 4 , a2 a 3 a 5 ,
a1 a 2 a 5 , a2 a 4 a 5 ,
a1 a3 a4 , a3 a4 a5 .
a1 a 3 a 5 ,
a1 a4 a5 ,
Es gibt also zehn M¨ oglichkeiten. L¨ osungsweg 2 Wir suchen einen eleganteren Weg unter Ausnutzung unserer bisherigen kombinatorischen Kenntnisse. Wir bestimmen zun¨ achst die Anzahl der Permutationen ohne Wiederholung. Wir ber¨ ucksichtigen also noch die Anordnung. Unter diesem Aspekt gibt es 5! = 5 · 4 · 3 = 60 (5 − 3)! M¨ oglichkeiten der Auswahl von drei aus f¨ unf Personen. Diese Z¨ ahlung ber¨ ucksichtigt aber die Reihenfolge. Beispielsweise werden die sechs 3-gliedrigen Sequenzen a1 a 2 a 3 , a1 a 3 a 2 , a2 a 1 a 3 , a2 a 3 a 1 , a3 a 1 a 2 , a3 a 2 a 1 , die sich durch Permutation aus den drei Zeichen a1 , a2 , a3 ergeben, als verschieden angesehen. Sinngem¨ aß ist es aber eine Auswahl, denn es handelt sich immer um dieselben drei Personen a1 , a2 und a3 . Diese 3! = 6 M¨ oglichkeiten fallen also zu einer zusammen“, wenn die Anordnung nicht ber¨ ucksichtigt wird. ” Als Stellvertreter f¨ ur diese sechs M¨ oglichkeiten haben wir im L¨ osungsweg 1 die 3-gliedrige Sequenz a1 a2 a3 (mit aufsteigenden Indizes) angegeben. Analog gilt das f¨ ur die anderen geordneten Auswahlen von drei Personen. Da man drei Elemente auf 3! = 6 verschiedene Arten permutieren kann, fallen bei der ungeordneten (Stich-)Probe je 3! Sequenzen der geordneten (Stich-)Probe zu einer zusammen. Wir haben also die Anzahl 5! = 60 (5 − 3)! der 3-gliedrigen Sequenzen, die die Reihenfolge der Zeichen ber¨ ucksichtigen, durch 3! = 6 zu teilen, um die Anzahl der 3-gliedrigen Sequenzen zu erhalten, die nicht mehr die Reihenfolge der Zeichen ber¨ ucksichtigen: 5! = 10. (5 − 3)! · 3!
146
2 Wahrscheinlichkeit
F¨ ur den allgemeinen Fall mit n Zeichen legen wir fest:
Definition 2.7 (Kombination ohne Wiederholung) Gegeben seien n Zeichen a1 , a2 , . . . , an . Jede k-gliedrige Sequenz mit den Bedingungen, – dass Sequenzen/Zusammenstellungen als gleich angesehen werden, die die gleichen Zeichen in verschiedener Anordnung enthalten, und – dass s¨ amtliche Zeichen in den Sequenzen voneinander verschieden sind (ohne Wiederholung) heißt ungeordnete Sequenz ohne Wiederholung der L¨ ange k aus n Zeichen/n Elementen. Kurz nennt man eine solche Sequenz Kombination ohne Wiederholung (combinare (lat.): zusammenstellen, verbinden). Im Urnenmodell entspricht einer Kombination ohne Wiederholung eine ungeordnete (Stich-)Probe ohne Zur¨ ucklegen vom Umfang k aus einer Urne mit n unterscheidbaren Kugeln. Didaktische Anmerkung zum Urnenmodell In einer Urne liegen n unterscheidbare Kugeln. Es wird k-mal nacheinander eine Kugel gezogen, ohne dass die jeweils gezogene Kugel in die Urne zur¨ uckgelegt wird. Da die Reihenfolge der gezogenen Kugeln keine Rolle spielt, kann man die k Kugeln auch gleichzeitig in einem Griff ziehen. F¨ ur die Anzahl der Kombinationen ohne Wiederholung gilt in der Sprache des Urnenmodells
Satz 2.13 (Ungeordnete Probe ohne Zur¨ ucklegen) Aus einer Urne mit n unterscheidbaren Kugeln kann man auf n n! =: k (n − k)! · k! verschiedene Arten ungeordnete (Stich-) Proben ohne Zur¨ ucklegen (ohne Wiederholung) vom Umfang k mit k ≤ n entnehmen.
Bevor wir den Satz beweisen, geben wir eine Erl¨ auterung der Symbole: n! per definitionem Sind n, k ∈ IN, so schreibt man f¨ ur den Ausdruck (n−k)!·k! n , und man liest dieses Symbol als n u ber k“. Die Ausdr¨ ucke n ¨ k k heißen ” Binomialkoeffizienten (siehe K¨ utting [100], Bd. 1, 105 – 108).
2.8 Kombinatorisches Z¨ ahlen
147
F¨ ur n, k ∈ IN und 0 ≤ k ≤ n gilt: n n n = ; = 1; k n−k 0 F¨ ur k > n ist per definitionem Abschnitt 2.8.6).
n k
n = n; 1
n = 1. n
gleich 0. (Siehe auch Aufgabe 27 im
Nun der Beweis des Satzes. Wir geben zwei Beweise an, die sich geringf¨ ugig (n¨ amlich in der Blickrichtung) voneinander unterscheiden. Beweis 1: Dieser Beweis ist dem L¨ osungsweg des einf¨ uhrenden Beispiels nachgebildet. Aus einer Menge von n unterscheidbaren Kugeln k¨ onnen auf n! (n − k)! verschiedene Arten geordnete (Stich-)Proben ohne Wiederholung vom Umfang k gezogen werden (siehe Permutationen ohne Wiederholung). Da es aber auf die Reihenfolge nicht ankommt, fallen je k! der Stichproben zu einer zusammen. Es gibt also n! n! : k! = (n − k)! (n − k)! · k! verschiedene Arten f¨ ur ungeordnete Stichproben ohne Wiederholung vom Umfang k. Beweis 2: Wir bezeichnen die gesuchte Anzahl der ungeordneten (Stich-) Proben ohne Wiederholung vom Umfang k mit Z. Jede ungeordnete Stichprobe ohne Wiederholung vom Umfang k kann man gem¨ aß der Formel f¨ ur Permutationen ohne Wiederholung auf k! verschieden Arten anordnen (k-Permutationen von k Elementen). Das Produkt Z · k! beschreibt also die Anzahl der geordneten Stichproben ohne Wiederholung vom Umfang k, die wir schon gem¨ aß n! (n − k)! berechnen k¨ onnen. Also gilt Z · k! =
n! ; (n − k)!
Z=
n! . (n − k)! · k!
148
2 Wahrscheinlichkeit
Das klassische Beispiel f¨ ur ungeordnete (Stich-)Proben ohne Zur¨ ucklegen ist das Beispiel 2.26 (Zahlenlotto 6 aus 49) Lotto ist das popul¨ arste Gl¨ ucksspiel, weil das Spiel sehr einfach ist (Kreuze machen), weil geringe Eins¨ atze außerordentlich hohe Gewinne erm¨ oglichen, weil bei den (meisten) Spielern eine v¨ ollige Fehleinsch¨ atzung ihrer Gewinnchancen vorliegt. Im Lotto 6 aus 49“gibt es ” 49 = 13 983 816 6 M¨ oglichkeiten, 6 Kugeln aus 49 Kugeln zu ziehen. Die Kugeln, die sich in der Lostrommel (Urne) befinden, sind je mit einer der Zahlen von 1 bis 49 beschriftet. Die beschrifteten Kugeln entsprechen den 49 Zahlen auf dem Lottoschein (Spielschein). F¨ ur jeden Tip sind 6 Zahlen auf dem Spielschein anzukreuzen. ¨ Jede Ubereinstimmung einer auf dem Lottoschein angekreuzten Zahl mit einer Zahl auf einer der 6 gezogenen Kugeln z¨ ahlt als richtig. Auch wenn nach jeder Ziehung die Lottozahlen in aufsteigender Reihenfolge publiziert werden, so handelt es sich doch um eine ungeordnete Stichprobe. F¨ ur 6 Richtige (ohne Zusatzzahl) ist eine von den 13 983 816 M¨ oglichkeiten g¨ unstig, d. h. die Wahrscheinlichkeit f¨ ur 6 Richtige“ betr¨ agt ” 1 ≈ 0, 0000000715. 13983816 Die Gewinnklasse 1 ist z. Zt. festgelegt durch 6 Richtige und (richtige) Su” perzahl“. Dabei ist die Superzahl, die 1991 eingef¨ uhrt wurde, eine auf dem Spielschein aufgedruckte einstellige Ziffer von 0 bis 9. Durch diese Maßnahme verringert sich die Chance f¨ ur einen Spitzengewinn (Gewinnklasse 1) auf ein Zehntel der Chancen f¨ ur 6 Richtige“ (das war die fr¨ uhere Gewinnklasse 1), ” also auf fast 1:139 838 160. Der Spieler nimmt das nicht wahr und hofft auf sein Gl¨ uck. Der Vorsitzende des Westlotto-Beirats K. D. Leister sagte anl¨ asslich des 40. Geburtstages von Westlotto: Lotto ist ein Gl¨ ucksspiel. Seinen Erfolg ” verdankt es jedoch dem Umstand, dass Unz¨ ahlige genau das bezweifeln“ (zitiert nach Westf¨ alische Nachrichten vom 09.10.1995). Durch die Einf¨ uhrung der Superzahl sammeln sich im Lotto-Jackpot h¨ aufig nahezu astronomische Geldsummen, z. B. 20,4 Millionen Euro am Spieltag 12.03.2005. Das erh¨ oht nat¨ urlich das Spielfieber. Zu wenig wird neben den geringen Gewinnchancen auch beachtet, dass beim Lotto die H¨ ohe des evtl. Gewinns abh¨ angig ist vom gesamten Spieleinsatz aller Spieler und von den jeweiligen Mitgewinnern in einer Gewinnklasse, mit denen geteilt werden muss. Jeder Spieler spielt gegen den Zufall und gegen alle anderen Mitspieler.
2.8 Kombinatorisches Z¨ ahlen
149
Durch Werbeschriften f¨ ur das Lotto wie Das Einmaleins des Gl¨ ucks“, Wer ” ” Lotto kann, kann auch Lotto mit System“, Mit System spielen und gewinnen“ ” werden unberechtigte Hoffnungen f¨ ur das Gl¨ ucksspiel Lotto geweckt. Das Wort System signalisiert ja planvolles Vorgehen, in Wirklichkeit hat man beim Lotto ” mit System“ durch das Ankreuzen von mehr als 6 Zahlen lediglich einen mathematischen Befehl erteilt. So hat man z. B. beim sog. Vollsystem 013 durch das Ankreuzen von 13 Zahlen 13 6 = 1716 verschiedene Tipps abgegeben mit einem Spieleinsatz von zur Zeit 1287,00 Euro. Ber¨ ucksichtigt man noch die vielen anderen Gl¨ ucksspiele wie z. B. Rubbellos, Spiel 77, Gl¨ ucksspirale, Super 6, Roulett etc. und bedenkt, dass der Staat j¨ ahrlich zwischen 4 und 5 Milliarden Euro (mit steigenden Tendenzen) durch Abgaben aus dem Gl¨ ucksspiel einnimmt, so kann man sich vorstellen, dass die Spielleidenschaft des Publikums außer Kontrolle geraten ist und Maßnahmen gegen die Krankheit Gl¨ ucksspielsucht“ einzufordern sind. Der Mathematikun” terricht k¨ onnte durch Vermittlung der Realit¨ at des Gl¨ ucksspiels eine wirkungsvolle Therapie sein. Der Aufdruck Gl¨ ucksspiel kann s¨ uchtig machen!“ auf den ” z. Zt. g¨ ultigen Lottoscheinen gen¨ ugt nicht. Im Rahmen dieser Darstellung m¨ ussen wir uns auf diese Anmerkungen zum Lottospiel 6 aus 49“ beschr¨ anken. Wir verweisen aber auf die Aufgaben 17, 18, ” 20 und 25 im Abschnitt 2.8.6, ferner auf die Aufgaben 9 und 10 zu Kapitel 5, Abschnitt 5.4 und auf die zahlreiche Literatur zu diesem Thema. Ausf¨ uhrungen zur historischen Entwicklung des Zahlenlottos und zahlreiche Fragestellungen zum Zahlenlotto 6 aus 49“ mit L¨ osungen findet man in [37], AS 1. ”
Kombinationen mit Wiederholung – Ungeordnete (Stich-)Proben mit Zur¨ ucklegen Die letzte kombinatorische Figur f¨ uhren wir an einem Beispiel ein, das zwar kaum der Realit¨ at entspricht, das aber die Z¨ ahlstruktur f¨ ur diese kombinatorische Figur sehr klar hervortreten l¨ asst. Beispiel 2.27 (Hotelzimmerbelegung) In einem Hotel sind noch 5 Zimmer frei. Jedes der Zimmer ist ein Dreibettzimmer. Am Abend kommen noch drei Wanderburschen A, B und C. Wie viele M¨ oglichkeiten hat der Hotelier, die G¨ aste unterzubringen, wenn jedem Gast per Zufall eines der 5 Dreibettzimmer zugewiesen wird und zugelassen wird, dass in einem Zimmer evtl. zwei oder gar drei Personen schlafen? Der Hotelier will nur wissen, welche Zimmer mit wie vielen Personen belegt sind. L¨ osung In einer Urne denken wir uns 5 unterscheidbare Kugeln, die mit den Ziffern
150
2 Wahrscheinlichkeit
1, 2, 3, 4, 5 (f¨ ur die 5 Zimmer) beschriftet sind. Es wird dreimal eine Kugel gezogen, die jeweils gezogene Kugel wird jeweils vor der n¨ achsten Ziehung in die Urne zur¨ uckgelegt. In einer Tabelle notieren wir jeweils eine 1 unter die jeweilige gezogene Zimmernummer: Zimmer Nr. 1
2
3
1
1
1 1
4
5 1
11 11
In Zeile 1 ist jeweils ein Gast in den Zimmern 2, 3, 5 untergebracht. Zeile 3 bedeutet: In Zimmer 1 ist ein Gast, in Zimmer 2 sind zwei G¨ aste. Wir k¨ onnten versuchen, systematisch alle M¨ oglichkeiten aufzuschreiben. (Es gibt 35 M¨ oglichkeiten.) Wir wollen einen Weg beschreiben, der unter R¨ uckf¨ uhrung auf eine schon bekannte kombinatorische Figur zu einer Formel f¨ ur die Anzahlbestimmung f¨ uhrt. Wir l¨ osen uns von der Tabelle. Das geht aber nicht ohne weiteres, da dann in jeder Zeile dieselbe Sequenz aus drei Einsen steht: 111. Man kann so nicht erkennen, welche Zimmer belegt sind. Die in der Tabelle durch ¨ Striche voneinander getrennten Zimmer m¨ ussen erkennbar bleiben. Als Ubergangsmarkierung w¨ ahlen wir das Zeichen 0 (wir k¨ onnten auch Striche | setzen). Zur Trennung der f¨ unf Zimmer (Kugeln, Zeichen) sind 5−1 = 4 Trennungen, also vier Nullen erforderlich. Mit den drei Einsen zusammen entstehen also (4 + 3) 7-gliedrige Sequenzen. Die in der Tabelle angegebenen Belegungen sind also durch folgende Zeichenfolgen eindeutig beschrieben: 0101001 1000110 1 0 1 1 0 0 0. Umgekehrt liegt auch Eindeutigkeit vor. Sei etwa z. B. 0 1 1 1 0 0 0 gegeben. Das bedeutet: Alle drei Personen sind in Zimmer 2 untergebracht. Durch diesen Trick“ ist die L¨ osung gefunden. Wir brauchen nur noch zu fragen, ” an welchen Stellen die 4 Zeichen 0 stehen k¨ onnen. Das geht gem¨ aß der letzten kombinatorischen Figur (Kombination ohne Wiederholung) auf 7 7 7! = = = 35 4! · 3! 4 3 verschiedene Arten. F¨ ur den allgemeinen Fall legen wir fest:
2.8 Kombinatorisches Z¨ ahlen
151
Definition 2.8 (Kombination mit Wiederholung) Gegeben seien n Zeichen a1 , a2 , . . ., an . Jede k-gliedrige Zusammenstellung aus diesen Zeichen mit den Bedingungen, – dass Zusammenstellungen als gleich angesehen werden, die die gleichen Zeichen in verschiedener Anordnung enthalten, und – dass in einer Zusammenstellung die einzelnen Zeichen (Elemente) wiederholt auftreten k¨ onnen, heißt ungeordnete Sequenz mit Wiederholung der L¨ ange k aus n Zeichen (Elementen). Man spricht kurz von Kombination mit Wiederholung. Im Urnenmodell liegt eine Urne mit n unterscheidbaren Kugeln vor. Einer Kombination mit Wiederholung entspricht dann eine ungeordnete (Stich-)Probe mit Zur¨ ucklegen vom Umfang k aus einer Urne mit n unterscheidbaren Kugeln. Anmerkung zum Urnenmodell Es handelt sich um das k-malige Ziehen je einer Kugel ohne Ber¨ ucksichtigung, in welcher Reihenfolge die Kugeln gezogen werden, aber mit Zur¨ ucklegen der jeweils gezogenen Kugel in die Urne, bevor eine weitere Kugel gezogen wird. F¨ ur die Anzahlbestimmung gilt:
Satz 2.14 (Ungeordnete Probe mit Zur¨ ucklegen) Aus einer Urne mit n unterscheidbaren Kugeln kann man auf
n+k−1 k
verschiedene Arten ungeordnete (Stich-)Proben mit Zur¨ ucklegen vom Umfang k entnehmen. Beweis: Der Beweis greift das Verfahren im Beispiel auf. Durch den Trick“, ” in die (n − 1) L¨ ucken der n Elemente (unterscheidbaren Kugeln) das Zeichen 0 zu setzen, entsteht eine andere Kombinationsaufgabe. Da jede Stichprobe vom Umfang k das Zeichen 1 k-mal liefert, entsteht eine Zeichenfolge aus n + k − 1 Zeichen. Jede dieser Zeichenfolge ist festgelegt durch die (n − 1) Zeichen 0. Also gibt es
n+k−1 n−1
verschiedene Arten.
(n + k − 1)! = = (n − 1)! · k!
n+k−1 k
152
2 Wahrscheinlichkeit
Hinweis: Man kann den Beweis auch durch vollst¨ andige Induktion u ¨ber k f¨ uhren.
¨ Die kombinatorischen Figuren im Uberblick Im Urnenmodell stellen wir abschließend die verschiedenen kombinatorischen Figuren einheitlich zusammen: Zusammenstellung der kombinatorischen Figuren/Anzahlen: Ziehen von k Kugeln aus
ohne Zur¨ ucklegen
mit Zur¨ ucklegen
mit
Geordnete Stichprobe
Geordnete Stichprobe
Ber¨ ucksich-
ohne Zur¨ ucklegen vom
mit Zur¨ ucklegen vom
tigung der
Umfang k aus n
Umfang k aus n
Reihenfolge
Elementen:
Elementen:
n Kugeln
n! (n−k)! ;
k≤n
M¨ oglichkeiten.
nk M¨ oglichkeiten.
Sonderfall: k = n Permutation ohne Wiederholung von n Elementen: Pn = n! M¨ oglichkeiten. ohne
Ungeordnete Stichprobe
Ungeordnete Stichprobe
Ber¨ ucksich-
ohne Zur¨ ucklegen vom
mit Zur¨ ucklegen vom
tigung der
Umfang k aus
Umfang k aus
Reihenfolge
n Elementen: n k ; k ≤ n
n Elementen: n+k−1
M¨ oglichkeiten.
M¨ oglichkeiten.
k
Das Fundamentalprinzip des Z¨ ahlens und die Z¨ ahlregeln f¨ ur die vier kombinatorischen Figuren gestatten in vielen F¨ allen, Laplace-Wahrscheinlichkeiten zu bestimmen.
2.8 Kombinatorisches Z¨ ahlen
2.8.4
153
Anwendungen der kombinatorischen Figuren
H¨ aufig treten in der Kombinatorik spezielle Fragestellungen auf, die durch R¨ uckgriff auf die bereits hergeleiteten kombinatorischen Figuren gel¨ ost werden. Zwei spezielle Probleme sind in der Literatur unter dem Namen Permutationen mit ” Wiederholung“ bzw. Permutationen mit Fixpunkten“ bekannt. Zur Bestim” mung der gesuchten Anzahlen werden geschlossene Ausdr¨ ucke hergeleitet. Diesen Fragen wenden wir uns im Folgenden zu. Da in unserer Darstellung der Begriff Permutationen mit Wiederholung“ ” bereits belegt ist f¨ ur Geordnete Stichproben mit Zur¨ ucklegen“, w¨ ahlen wir ” f¨ ur diese Fragestellung die Bezeichnung k-stellige Sequenzen bei vorgegebenen ” Vielfachheiten“.
k-stellige Sequenzen bei vorgegebenen Vielfachheiten Beispiel 2.28 Gegeben seien die zwei Zeichen 7, 8. Wie viele 4-stellige Sequenzen, in denen das Zeichen 7 dreimal und das Zeichen 8 einmal auftritt, gibt es? L¨ osungsweg 1 Durch einfaches Notieren findet man hier sofort die vier Sequenzen: 7778, 7787, 7877, 8777. Um einen geschlossenen Ausdruck zur Bestimmung der Anzahl der gesuchten Sequenzen zu finden, macht man die 3 gleichen Zeichen 7 k¨ unstlich durch Anf¨ ugen von Indizes verschieden: 71 , 72 , 73 . Die 4 jetzt unterscheidbaren Zeichen 71 , 72 , 73 , 8 k¨ onnen auf 4! verschiedene Arten angeordnet werden (Permutationen ohne Wiederholung). Macht man jetzt die k¨ unstlich erzeugte Unterscheidbarkeit wieder r¨ uckg¨ angig, so fallen je 3! = 6 Sequenzen zu einer zusammen, denn die Sequenzen, die sich nur durch die Indizes unterscheiden, fallen zu einer Sequenz zusammen. Beispiel: 71 72 73 8, 71 73 72 8, 72 71 73 8, 72 73 71 8, 73 71 72 8, 73 72 71 8} → 7778. Es muss also durch 3! geteilt werden. Man erh¨ alt als L¨ osung 4! = 4. 3! · 1! L¨ osungsweg 2 Die 4-stellige Sequenz stellt man sich als 4 Pl¨ atze (K¨ astchen) vor. Aus den 4 oglichkeiten. Es Pl¨ atzen w¨ ahlt man 3 f¨ ur die Zahl 7 aus. Das geht auf 43 M¨ 1 bleibt ein Platz u ur die Zahl 8. Daf¨ ur gibt es 1 = 1 M¨ oglichkeit der ¨ brig f¨ Belegung. Also insgesamt 43 · 11 = 4. F¨ ur den allgemeinen Fall legen wir fest
154
2 Wahrscheinlichkeit
Definition 2.9 (k-stellige Sequenz bei vorgegebenen Vielfachheiten) Gegeben seien n Zeichen a1 , a2 , . . . , an . Jede k-stellige Sequenz mit k ∈ IN, k ≥ 2, in der das Zeichen ai genau ki mal (ki ≥ 1) vorkommt (1 ≤ i ≤ n) und f¨ ur die gilt k1 + k2 + k3 + . . . + kn = k, heißt k-stellige Sequenz bei vorgegebenen Vielfachheiten. Satz 2.15 (k-stellige Sequenz bei vorgegebenen Vielfachheiten) Aus einer Menge von n Zeichen (Elementen) a1 , a2 , a3 , . . . , an kann man k! k 1 ! · k 2 ! · k3 ! · . . . · k n ! k-stellige Sequenzen bilden, f¨ ur die gilt: Das Zeichen ai kommt genau ki mal ur alle 1 ≤ i ≤ n und vor (ki ≥ 1) f¨
n i=1
ki = k.
Beweis: Der Beweis kann auf den Grundideen der beiden L¨ osungswege des Beispiels gef¨ uhrt werden. Der Beweis nach dem L¨ osungsweg 1: ur jedes i ∈ {1, 2, . . . , n}. Macht man die Jedes Zeichen ai ist ki -mal vorhanden f¨ jeweils ki nicht unterscheidbaren Zeichen k¨ unstlich unterscheidbar, so lassen sich die k unterscheidbaren Zeichen auf k! Weisen anordnen. Da in der Ausgangssituation das Zeichen ai aber ki -mal vorhanden ist (die Zeichen ai sind nicht unterscheidbar), m¨ ussen alle im Term k! mitgez¨ ahlten ki ! M¨ oglichkeiten der Zeioglichkeit identifiziert werden, d. h. f¨ ur jedes i ∈ {1, 2, . . . , n} chen ai als eine M¨ muss k! durch ki ! dividiert werden: k! . k 1 ! · k 2 ! · k 3 ! · . . . · kn ! Es sei auch der Beweis nach dem L¨ osungsweg 2 skizziert: F¨ ur die k-stellige Permutation sind k Pl¨ atze zu belegen. Aus den k Pl¨ atzen w¨ ahlt man k1 Pl¨ atze aus, die mit den Zeichen a1 belegt werden. Es gibt kk1 M¨ oglichkeiten. Dann w¨ ahlt man aus den restlichen k − k1 Pl¨ atzen k2 Pl¨ atze aus, 1 die mit dem Element a2 belegt werden. Es gibt k−k M¨ o glichkeiten. Dieses k2 atze f¨ ur die kn Zeichen Verfahren setzt man fort. Schließlich bleiben noch kn Pl¨ alt man f¨ ur alle M¨ oglichkeiten an u ¨ brig. Insgesamt erh¨ k k − k1 k − k 1 − k2 k − k1 − k2 − . . . − kn−1 · · · ... · . k2 k3 kn k1 Durch Ausrechnen (vgl. Definition der Binomialkoeffizienten S. 146) erh¨ alt man k! . k 1 ! · k 2 ! · k 3 ! · . . . · kn !
2.8 Kombinatorisches Z¨ ahlen
155
Permutationen mit Fixpunkten – Rencontre-Problem Beispiel 2.29 (Treize-Spiel) Gegeben sind 13 Karten, die mit den Zahlen 1, 2, 3, . . . , 13 durchnummeriert sind. Die Karten werden gut gemischt, und ein Spieler hebt eine Karte nach der anderen ab. Stimmt keine Kartenzahl mit der Ziehungsnummer u ¨ berein, so gewinnt der Spieler, anderenfalls die Bank. Ist das Spiel fair? Dieses Spiel wurde 1708 von Pierre de Montmort (1678 – 1719) vorgestellt. Es geh¨ ort zu den probl`emes des rencontres (zuf¨ alliges Zusammentreffen), die seit dem 18. Jahrhundert in verschiedenen Versionen bekannt sind: Problem der vertauschten Briefe (nach Johann Heinrich Lambert, 1728 – 1777), Problem der vertauschten Jockeys, Problem der vertauschten H¨ ute, Paradoxa der Geschenke usw. Beim Paradoxon der Geschenke nimmt man an, dass n Personen einer Party einander beschenken wollen und bringen je ein Geschenk mit. Diese Geschenke werden eingesammelt, dann (gut) vermischt. Jede Person erh¨ alt dann rein zuf¨ allig ein Geschenk zur¨ uck. Wie groß ist die Wahrscheinlichkeit, dass niemand sein eigenes Geschenk erh¨ alt? Urspr¨ unglich hatte man wohl danach gefragt, wie groß die Wahrscheinlichkeit ist, dass wenigstens eine Person das eigene Geschenk erh¨ alt. Bei den anderen Einkleidungen dieses Problems hat man n Briefe – n Briefumschl¨ age, n Jockeys – n Pferde, n Herren – n H¨ ute, n Ehepaare. Man fragt dann z. B. nach der Wahrscheinlichkeit, dass bei zuf¨ alligem Zuordnen kein Brief (mindestens ein Brief) in den richtigen Briefumschlag kommt, dass bei Losentscheid kein Jockey (mindestens ein Jockey) sein eigenes Pferd reitet, dass bei zuf¨ alliger R¨ uckgabe der H¨ ute durch die Garderobenfrau kein Herr (mindestens ein Herr) seinen eigenen Hut erh¨ alt, dass auf einer Tanzparty bei zuf¨ alliger Zuordnung der Herren zu den Damen keine Dame (mindestens eine Dame) mit ihrem Ehemann tanzt. Beim Nachgehen dieser Fragen werden interessante Beziehungsgeflechte innerhalb der Mathematik sichtbar. Stimmt beim Treize-Spiel die Ziehungsnummer mit der Zahl auf der Karte u ¨ berein, so spricht man von einem rencontre. In der mathematischen Behandlung (es geht dabei um Permutationen) spricht man dann von einem Fixpunkt. Zur Beantwortung der Frage im Treize-Spiel muss die Wahrscheinlichkeit berechnet werden, dass keine Kartenzahl mit der Ziehungszahl u ¨bereinstimmt, also kein rencontre vorliegt. Nur dann gewinnt ja der Spieler.
156
2 Wahrscheinlichkeit
Wir wollen die Problemstellung sofort f¨ ur beliebiges n ∈ IN l¨ osen, betrachten also beispielsweise n Karten und n Ziehungen bzw. n Personen und n Geschenke. Wir betrachten n Elemente 1, 2, 3, . . . , n und fragen nach der Wahrscheinlichkeit, dass bei der Permutation dieser n Elemente kein Element an seiner urspr¨ unglichen Stelle steht (die Permutation also fixpunktfrei ist). Wir beschreiben zwei unterschiedliche L¨ osungswege. L¨ osungweg 1 f¨ ur das Rencontre-Problem Wir legen das Laplace-Modell zugrunde. Die n Elemente (Zahlen) k¨ onnen auf n! verschiedene M¨ oglichkeiten angeordnet werden (n-Permutation ohne Wiederholung aus n Zeichen). Die Zahl n! ist die Gesamtzahl der m¨ oglichen F¨ alle. Sei D(n) die Anzahl der Permutationen, bei denen kein Element an seiner urspr¨ unglichen Stelle steht. Die Anzahl D(n) bezeichnet also die Anzahl der f¨ ur unser Ereignis g¨ unstigen F¨ alle. Leonhard Euler (1707 – 1783) gab zur Bestimmung von D(n) folgende Rekursionsformel an:
Satz 2.16 (Fixpunktfreie Permutationen I) Sei D(n) die Anzahl der fixpunktfreien Permutationen von n Elementen. Dann gilt: D(1) = 0, D(2) = 1, D(n) = (n − 1) · (D(n − 2) + D(n − 1)), n ≥ 3. Beweis: Platz n sei durch eine Zahl k = n belegt. Hierf¨ ur stehen n − 1 Zahlen oglichkeiten. Es sind (Elemente) zur Verf¨ ugung, es gibt also hierf¨ ur n − 1 M¨ noch die fixpunktfreien M¨ oglichkeiten f¨ ur die restlichen n − 1 Pl¨ atze zu bestimmen. Eine Klasseneinteilung l¨ ost diese Frage. In Klasse 1 wird Platz k mit der Zahl n belegt. Es verbleiben noch n − 2 Pl¨ atze, die ungleich n und ungleich k sind. Gem¨ aß der Bedeutung des Symbols D(n) gibt es f¨ ur diese n − 2 Pl¨ atze oglichkeiten zur Belegung. In Klasse 2 darf Platz k D(n − 2) fixpunktfreie M¨ nicht mit n belegt werden. Es sind also n − 1 Pl¨ atze fixpunktfrei zu belegen. Hierf¨ ur gibt es D(n − 1) M¨ oglichkeiten. F¨ ur die Gesamtzahl erh¨ alt man dann gem¨ aß des Fundamentalprinzips des Z¨ ahlens in der Kombinatorik D(n) = (n − 1) · (D(n − 1) + D(n − 2)).
F¨ ur die gesuchte Wahrscheinlichkeit fixpunktfreier Permutationen von n Elementen erh¨ alt man dann D(n) P = . n!
2.8 Kombinatorisches Z¨ ahlen
157
F¨ ur n = 13 (Treize-Spiel) folgt D(13) 2 290 792 932 = ≈ 0, 367879. 13! 6 227 020 800
P =
Die zu Anfang gestellte Frage, ob das Treize-Spiel fair ist, muss verneint werden, denn die Bank ist im Vorteil. Die Wahrscheinlichkeit f¨ ur einen Gewinn betr¨ agt f¨ ur den Spieler nur ≈ 0, 368, f¨ ur die Bank dagegen ≈ 0, 632 (= 1 − 0, 368). Hinweis: In Aufgabe 11, Kapitel 5, Abschnitt 5.4, ist der Erwartungswert f¨ ur die Anzahl der Fixpunkte f¨ ur das Treize-Spiel zu bestimmen. Die obige Notierung der Wahrscheinlichkeit mit sechs Stellen nach dem Komma mag den Leser an dieser Stelle zun¨ achst u offnet ¨ berraschen. Doch bald er¨ sich der Sinn dieser Angabe. Diesen verborgenen Zusammenhang erkennt man leicht, wenn man f¨ ur D(n) eine weitere Rekursionsformel herleitet. Aus der Rekursionsformel f¨ ur D(n) von Euler l¨ asst sich leicht eine weitere Rekursionsformel f¨ ur D(n) gewinnen.
Satz 2.17 (Fixpunktfreie Permutationen II) Sei D(n) die Anzahl der fixpunktfreien Permutationen von n Elementen. Dann gilt: D(1)
=
0
D(n)
=
n · D(n − 1) + (−1)n ,
n ≥ 2.
Beweis: Aus der Gleichung D(n) = (n − 1) · (D(n − 1) + D(n − 2)) von Euler folgt D(n) − n · D(n − 1) = −(D(n − 1) − (n − 1) · D(n − 2)). (2.1) F¨ ur die linke Seite der Gleichung (1) schreiben wir abk¨ urzend d(n), f¨ ur die rechte Seite entsprechend −d(n − 1). Also folgt d(n)
=
−d(n − 1) = (−1) · d(n − 1)
d(n)
=
(−1) · (−1) · d(n − 2) = (−1)2 · d(n − 2)
d(n)
= .. .
(−1)3 · d(n − 3)
d(n)
=
(−1)n−2 · (d(n − (n − 2)) = (−1)n−2 · d(2).
Nun ist d(2) = D(2) − 2 · D(2 − 1) = 1 − 2 · 0 = 1 = (−1)2 . Durch Einsetzen in die letzte Gleichung erh¨ alt man d(n) = (−1)n−2 · (−1)2 = (−1)n .
(2.2)
158
2 Wahrscheinlichkeit
Nach obigen Ausf¨ uhrungen gilt: D(n) − n · D(n − 1) = d(n). Also folgt durch Einsetzen von (2) in diese Gleichung die Behauptung D(n) = n · D(n − 1) + (−1)n .
Mit Hilfe von Satz 9 lassen sich leicht einzelne Werte Ergebnisse f¨ uhren zu einer interessanten Vermutung. Da D(n) = n · D(n − 1) + (−1)n , gilt
D(n) n!
berechnen. Die
D(n) n · D(n − 1) (−1)n = + . n! n! n! Konkret erh¨ alt man zum Beispiel 1 D(5) 1 1 1 1 D(2) = ; = − + − 2! 2! 5! 2! 3! 4! 5! und kann die Vermutung aufstellen D(n) 1 1 1 1 (−1)n = − + − + ... + n! 2! 3! 4! 5! n! Der n¨ achste Satz best¨ atigt die Vermutung.
f¨ ur
n ≥ 2.
Satz 2.18 (Fixpunktfreie Permutationen III) Bezeichne D(n) die Anzahl der fixpunktfreien Permutationen von n Elementen, so gilt D(n)
=
n!
n (−1)k k!
(∗)
k=0
=
n! · (1 −
1 1 1 (−1)n + − + ... + ). 1! 2! 3! n!
(Der Beweis erfolgt durch vollst¨ andige Induktion.) n (−1)k ¨ in (∗) stellt die ersten n + 1 SumDie Uberraschung: Der Ausdruck k! k=0
manden der Reihenentwicklung der Exponentialfunktion ex :=
∞ k=0
xk k!
an der
Stelle x = −1 dar: 1 1 1 1 1 (−1)n 1 + − + − + ... + ± ... e−1 = = 1 − e 1! 2! 3! 4! 5! n! (siehe K¨ utting [100], Bd. 2, 135ff). Die mit e bezeichnete Zahl heißt Eulersche Zahl, e = 2, 7182818 . . . Die Zahl e ist eine transzendente Zahl. Die Transzendenz von e bewies 1873 Ch. Hermite (1822 – 1901). Das bedeutet: Die gesuchte Wahrscheinlichkeit P = D(n) n! konvergiert mit wach1 sendem n schnell gegen e = 0, 3678794 . . . Das erkl¨ art, warum wir die gesuchte Wahrscheinlichkeit f¨ ur fixpunktfreie Permutationen im Treize-Spiel so genau angegeben haben: P = D(13) 13! = 0, 367879. Es sind exakt die ersten sechs Nach1 kommastellen von e .
2.8 Kombinatorisches Z¨ ahlen
159
Die Wahrscheinlichkeit, dass bei den Rencontre-Problemen mit n Elementen mindestens ein Fixpunkt auftritt, ist dann P =1−
D(n) 1 . F¨ ur n ≥ 6 hat man die gute Ann¨ aherung P ≈ 1 − ≈ 0, 632. n! e
Fragt man beim Paradoxon der Geschenke dagegen nach der Wahrscheinlichkeit, dass beim zuf¨ alligen Verteilen der n Geschenke unter den n Personen eine ganz bestimmte Person ihr eigenes Geschenk zur¨ uckerh¨ alt, so ist diese Wahr1 scheinlichkeit n . Mit n → ∞ geht dieser Ausdruck gegen Null. G. J. Sz´ekely kommentierte die zwei letzten Ergebnisse so: Wie dieses Para” doxon zeigt, wird aus ‘kleinen B¨ achen ein Fluß’: Obwohl die Wahrscheinlichkeit f¨ ur eine gegebene Person jeweils nur n1 betr¨ agt, ist sie f¨ ur das Eintreten bei mindestens einer Person etwa 23 .“ (Sz´ekely [169], S. 31.) ¨ Durch folgende Uberlegungen gewinnen wir eine weitere Darstellung f¨ ur D(n). Es bezeichne D(n, k) die Anzahl der Permutationen von n Elementen, bei denen k Elemente Fixpunkte sind, also nicht versetzt sind. Man erkennt sofort, dass gilt D(n) = D(n, 0).
Satz 2.19 (Permutationen mit k Fixpunkten) Bezeichne D(n, k) die Anzahl der Permutationen von n Elementen mit k Fixpunkten. Dann gilt n−k n! (−1)r D(n, k) = . k! r! r=0
n
oglichkeiten aus den Beweis: Die k Fixelemente k¨ onnen auf k verschiedene M¨ n Elementen ausgew¨ ahlt werden. Die restlichen n − k Elemente sind vertauscht. Die Anzahl der M¨ oglichkeiten, aus n − k Elementen fixpunktfreie Permutation herzustellen, betr¨ agt D(n − k). Nach dem Fundamentalprinzip des Z¨ ahlens folgt n D(n, k) = · D(n − k). k Mit Satz 2.18 ergibt sich D(n, k)
n−k (−1)r n · (n − k)! = r! k r=0
D(n, k)
Hinweis: Es gilt
n k=0
=
n! k!
n−k r=0
(−1)r . r!
D(n, k) = n!.
Die Zahlen D(n, k) nennt man allgemein Rencontre-Zahlen:
160
2 Wahrscheinlichkeit n
1
2
3
4
0
0
1
2
9
44
265
1
1
0
3
8
45
264
1
0
6
20
135
1
0
10
40
1
0
15
1
0
k
2 3 4
5
5
6
6 n
1
D(n, k)
1
2
6
24
120
720
k=0
L¨ osungsweg 2 f¨ ur das Rencontre-Problem Wir wollen jetzt einen weiteren L¨ osungsweg f¨ ur das Rencontre-Problem vorschlagen, der vom Additionssatz der Wahrscheinlichkeitsrechnung ausgeht. In Abschnitt 2.6.2, Satz 2.5 formulierten wir die Allgemeine Additionsregel f¨ ur zwei beliebige Ereignisse A1 und A2 : P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ). Aufgabe 7a in Abschnitt 2.6.5, erweiterte den Satz auf drei beliebige Ereignisse A1 , A2 , A3 : P (A1 ∪ A2 ∪ A3 )
=
P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) −P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ).
Diese letzte Gleichung kann man k¨ urzer schreiben als P(
3
Ar ) =
r=1
3
P (Ar ) −
r=1
P (Ai ∩ Aj ) + P (A1 ∩ A2 ∩ A3 ).
i<j i,j∈{1,2,3}
Eine Verallgemeinerung auf n Ereignisse ist der nachfolgende Satz, der Ausgangspunkt des L¨ osungswegs 2 ist. Satz 2.20 (Allg. Additionssatz, Formel des Ein- und Ausschließens) Es seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und A1 , A2 , A3 , . . . , An (n ≥ 2) beliebige Ereignisse. Dann gilt P(
n
r=1
Ar )
=
n r=1
P (Ar ) −
P (Ai ∩ Aj ) +
i<j
P (Ai ∩ Aj ∩ Ak ) − + . . .
i<j
. . . + (−1)n−1 · P (A1 ∩ A2 ∩ A3 ∩ . . . ∩ An ). Die Indizes laufen in jeder Summe von 1 bis n.
2.8 Kombinatorisches Z¨ ahlen
161
An dieser Stelle verzichten wir auf einen Beweis des Satzes und verweisen auf die Literatur, wo er auch als Satz von Sylvester oder als Satz von Poincar´e oder als Siebformel bezeichnet wird. Wir wenden uns direkt der L¨ osung unseres Problems zu. Sei Ar das Ereignis, dass das Element mit der Nummer r fix ist (Fixelement) – ohne R¨ ucksicht darauf, was mit den anderen Elementen ist. Durch nachfolgende Anwendung des Allgemeinen Additionssatzes wird die Wahrscheinlichkeit bestimmt, dass mindestens ein Fixelement vorliegt (man beachte die Oder” Verkn¨ upfung“ n r=1 Ar der Ereignisse Ar ). Wir berechnen die einzelnen Summanden im Additionssatz 1.
n
P (Ar ).
r=1
Bei n Elementen gibt es n! Permutationen. Ist das Element mit der Nummer r fix, dann gibt es f¨ ur die u ¨ brigen Elemente (n − 1)! Permutationen. Also n (n−1)! 1 P (Ar ) hat n = n1 Summanden ist P (Ar ) = n! = n . Die Summe 1 . n
2.
Also gilt
n r=1
P (Ar ) =
n 1
r=1
·
1 . n
P (Ai ∩ Aj ).
i<j
3.
Wenn die Elemente i und j, i = j, Fixelemente sind, gibt es noch (n−2)! (n−2)! Permutationen f¨ ur die u ¨brigen Elemente, also P (Ai ∩Aj ) = n! = 1 P (Ai ∩ Aj ) besteht aus n2 Summanden. Also gilt (n−1)·n . Die Summe i<j 1 P (Ai ∩ Aj ) = n2 · n·(n−1) . i<j P (Ai ∩ Aj ∩ Ak ) i<j<j
Wenn die drei verschiedenen Elemente i, j und k Fixelemente sind, dann gibt es noch (n − 3)! Permutationen f¨ ur die u ¨ brigen Elemente, und es ist 1 = . Die Summe P (Ai ∩Aj ∩Ak ) P (Ai ∩Aj ∩Ak ) = (n−3)! n! n(n−1)·(n−2) i<j
4. 5.
Analog verf¨ ahrt man mit den anderen Summanden. Der letzte Summand P (A1 ∩ A2 ∩ A3 ∩ . . . ∩ An ) ist gleich
1 . n!
Dann gilt insgesamt f¨ ur die Wahrscheinlichkeit, dass mindestens ein Fixelement existiert n 1 1 1 n n n P( Ar ) = · − · · + − +... n n(n − 1) n(n − 1) · (n − 2) 1 2 3 r=1
. . . + (−1)n−1 · P(
n r=1
Ar )
=
1−
1 n!
1 1 1 + − + . . . + (−1)n−1 · , 2! 3! n!
162
2 Wahrscheinlichkeit
also erhalten wir das uns schon bekannte Ergebnis P(
n
r=1
2.8.5
Ar ) ≈ 1 −
1 ≈ 0, 6321. e
Vier-Schritt-Modell zur L¨ osung von Kombinatorikaufgaben – Ein didaktischer Aspekt
Kombinatorische Fragestellungen wie z. B. Anzahlbestimmungen, die bei Verwendung des Laplace-Modells in der Stochastik stets auftreten, bereiten erfahrungsgem¨ aß dem Lernenden große Probleme bei den notwendigen Entscheidungen, welche kombinatorische Figur vorliegt und welche Belegungen f¨ ur die Parameter in den Formeln vorzunehmen sind. Das nachfolgende Vier-SchrittModell kann hier eine Hilfe sein. Es sei vorweg gesagt, dass wir im Folgenden f¨ ur die Kombinatorik-Figuren inhaltsbezogene Bezeichnungen verwenden. Wir sprechen von Sequenzen, bei denen sich die Elemente nicht wiederholen d¨ urfen und die Reihenfolge der Elemente zu beachten ist. [K¨ urzel (oW|Rb)] Sequenzen, bei denen sich Elemente wiederholen und die Reihenfolge der Elemente zu beachten ist. [K¨ urzel (mW|Rb)] Sequenzen, bei denen sich die Elemente nicht wiederholen d¨ urfen und die Reihenfolge der Elemente nicht zu beachten ist. [K¨ urzel (oW|Rnb)] Sequenzen, bei denen sich die Elemente wiederholen und die Reihenfolge der Elemente nicht zu beachten ist. [K¨ urzel (mW|Rnb)] Sequenzen, bei denen sich die Elemente mit vorgegebenen Anzahlen wiederholen m¨ ussen. [K¨ urzel (mW|vA)] Eine Zuordnung dieser Sprechweisen zu den fr¨ uher angef¨ uhrten Sprechweisen ist unproblematisch: (oW|Rb) entspricht Geordnete Proben ohne Zur¨ ucklegen (mW|Rb)
entspricht
Geordnete Proben mit Zur¨ ucklegen
(oW|Rnb)
entspricht
Ungeordnete Proben ohne Zur¨ ucklegen
(mW|Rnb)
entspricht
Ungeordnete Proben mit Zur¨ ucklegen
(mW|vA)
entspricht
Sequenzen bei vorgegebenen Vielfachheiten
Beispiel 2.30 (Supermarkt) Im Supermarkt Kaufrausch“ gibt es folgendes Sonderangebot: ” Beim Kauf von sechs Joghurts der Firma Joghuretta“ bekommt man einen Son” derpreis, welcher deutlich unter dem sechsfachen Preis eines einzelnen Joghurts liegt. Bei der Wahl der sechs Joghurts kann man zwischen zehn vorhandenen Sorten frei w¨ ahlen. Jede Sorte hat denselben Einzelpreis. Auf wie viele Arten ist die Nutzung dieses Sonderangebots m¨ oglich?
2.8 Kombinatorisches Z¨ ahlen
163
Die vier Schritte des Modells erl¨ autern wir jeweils sofort am vorstehenden Beispiel. Schritt 1 Es geht darum, f¨ ur die konkret gegebene Aufgabe passende Sequenzen anzugeben, die als spezielle L¨ osungen m¨ oglich sind. Dieses ist ein nicht zu untersch¨ atzender Schritt f¨ ur das Verst¨ andnis und die L¨ osung der Aufgabe. Werden im Beispiel die zehn Sorten mit S1, S2, S3, S4, S5, S6, S7, S8, S9, S10 bezeichnet, so sind m¨ ogliche Eink¨ aufe Einkaufsbeispiel 1:
S1
S3
S5
S6
S7
S9
Einkaufsbeispiel 2:
S1
S2
S5
S8
S9
S10
Einkaufsbeispiel 3:
S3
S3
S6
S6
S8
S8
Einkaufsbeispiel 4:
S2
S2
S4
S4
S8
S8
Einkaufsbeispiel 5:
S4
S4
S4
S4
S4
S4
Einkaufsbeispiel 6:
S9
S7
S6
S5
S3
S1
Schritt 2 Es geht darum, entscheidende Grundfragen korrekt zu beantworten: (K1) Sind in der Sequenz Wiederholungen von Elementen m¨ oglich? (ja/nein) (K2) Ist die Reihenfolge der Elemente in der Sequenz zu beachten? (ja/nein) (K3) Sind Vielfachheiten von Elementen vorgegeben? (ja/nein) Mit Hilfe dieser drei Grundfragen kann man den folgenden Entscheidungsbaum durchlaufen, der so angelegt ist, dass man zu der kombinatorischen Figur gef¨ uhrt wird, mit deren Hilfe die Aufgabe zu l¨ osen ist.
164
2 Wahrscheinlichkeit
Frage (K1)
ja
nein
R
Frage (K2)
ja
(oW|Rb)
Frage (K3)
ja
nein
R (oW|Rnb)
nein
R
(mW|vA)
Frage (K2)
ja
(mW|Rb)
nein
R (mW|Rnb)
Im Beispiel ist Frage (K1) mit ja zu beantworten. Wiederholungen k¨ onnen auftreten. Man kommt im Flussdiagramm zu Frage (K3). Die Antwort auf diese Frage ist nein, denn Vielfachheiten einer Joghurtsorte sind nicht vorgegeben, sondern kommen zuf¨ allig zustande (evtl. durch pers¨ onliche Vorlieben des K¨ aufers). Jetzt stellt sich Frage (K2). Diese Frage ist mit nein zu beantworten, denn es kommt nur darauf an, welche Joghurtsorten im Einkaufswagen sind, die Reihenfolge ist unwichtig. Es handelt sich also um die kombinatorische Figur mW|Rnb . Schritt 3 ¨ Hier geht es um die Ubertragung in ein Modell, um die Parameter n, k und gegebenenfalls die vorgegebenen Vielfachheiten ki zu bestimmen. Im konkreten Beispiel sind n und k zu bestimmen, um die Anzahl A gem¨ aß der Formel A = n+k−1 berechnen zu k¨ o nnen. k F¨ ur das vorgegebene Beispiel ist das Urnenmodell ein ad¨ aquates Modell. In der Urne befinden sich zehn Kugeln S1, S2, . . . , S10. Das bedeutet n = 10. Es wird sechsmal eine Kugel gezogen, wobei die jeweils gezogene Kugel vor der n¨ achsten Ziehung in die Urne zur¨ uckgelegt wird. Also k = 6.
2.8 Kombinatorisches Z¨ ahlen
165
Schritt 4 liefert die gesuchte Anzahl Die Benutzung der Formel A = n+k−1 k
10 + 6 − 1 = 5005. 6 Die Schritte 2 und 3 sind die wesentlichen Schritte. Der Modellbildungsprozess in Schritt 3 ist nicht zu untersch¨ atzen. Bei anderen Aufgaben k¨ onnen bei Schritt 3 andere Modelle geeignet sein. So bietet sich in Aufgabe 14 a (rechtwinkliges Straßensystem) des folgenden Abschnitts 2.8.6 das K¨ astchenmodell an. Der Leser l¨ ose Aufabe 14 a nach dem Vier-Schritt-Modell.
2.8.6 1. 2. 3. 4.
5.
6. 7.
Aufgaben und Erg¨ anzungen
Wie groß ist die Wahrscheinlichkeit, dass f¨ unf aus einer Großstadt zuf¨ allig ausgew¨ ahlte Personen an verschiedenen Wochentagen Geburtstag haben? Mit welcher Wahrscheinlichkeit zeigen sechs gleichzeitig geworfene LaplaceW¨ urfel lauter verschiedene Ziffern? Wie viele dreistellige Zahlen mit lauter verschiedenen Ziffern kann man aus den Ziffern 1, 2, 3 und 4 bilden? a) Wie viele Diagonalen hat ein regelm¨ aßiges n-Eck? b) Welches regelm¨ aßige n-Eck hat dieselbe Anzahl von Diagonalen und Seiten? Wie groß ist die Anzahl der Gebiete, in welche eine Ebene durch n Geraden zerlegt wird, wenn je zwei Geraden einen Schnittpunkt haben und keine drei der Geraden durch einen Punkt gehen? (Zerlegungsproblem von Jacob Steiner, 1796 – 1863, Schweizer Mathematiker). Wie viele Teiler hat die Zahl 360? Die Orte A und B sind durch vier verschiedene Wege verbunden, ferner f¨ uhren vom Ort B drei Wege zum Ort C. a) Wie viele verschiedene Wege von Ort A u ¨ ber B nach C gibt es? b) Jemand m¨ ochte einen Rundweg“ machen: Von A u ¨ ber B nach C und ” von C u uckweg von C u ¨ber B nach A. Der R¨ ¨ ber B nach A“ soll ” aber in allen Teilabschnitten verschieden sein vom Hinweg von A u ¨ber ” B nach C“. Zwei Rundwege werden als verschieden angesehen, wenn sie dieselben Teilabschnitte in unterschiedlicher Reihenfolge enthalten. Wie viele Rundwege gibt es?
8.
Im Dezimalsystem sind aus den Ziffern 1, 2, 3, 7, 8 f¨ unfstellige Zahlw¨ orter zu bilden. a) Wie viele f¨ unfstellige Zahlw¨ orter gibt es? b) Wie viele Zahlw¨ orter beginnen mit 781?
166
2 Wahrscheinlichkeit c)
9.
Wie viele der Zahlw¨ orter haben lauter verschiedene Ziffern?
Die in vielen L¨ andern eingef¨ uhrte Blindenschrift (1825 von dem Franzosen Louis Braille, der seit dem 3. Lebensjahr selbst blind war, erfunden) benutzt f¨ ur die Darstellung der Buchstaben und f¨ ur die Abk¨ urzung von Wortteilen bzw. W¨ ortern die bekannte Punktschrift. Die Zeicheneinheit im Blindenalphabet ist ein Punkte-Sextett“: Jede der sechs Stellen kann als ” erhabener Punkt (im Bild schwarz markiert) bzw. nicht erhabener Punkt dargestellt werden.
H
¨ A
N
D
E
L
E
S
E
N
Wie viele Zeichen/Wortteile k¨ onnen (theoretisch) dargestellt werden? 10. Wie oft kann man in der Abbildung das Wort Zufall lesen, wenn man aus jeder Zeile von der obersten bis zur untersten Zeile genau einen Buchstaben ausw¨ ahlt, der unmittelbar schr¨ ag“ unter dem aus der vorhergehenden ” Zeile gew¨ ahlten Buchstaben steht? (Hinweis: In der Abbildung sind zwei M¨ oglichkeiten angegeben.)
11. Wie groß ist die Wahrscheinlichkeit daf¨ ur, dass in einer Gruppe von 25 Personen mindestens zwei am gleichen Tage des Jahres Geburtstag haben? 12. Ein Autofahrer verursacht einen Unfall und begeht Fahrerflucht. Heinz, der den Unfall beobachtet, will sich die Nummer des PKWs merken. Doch als er bei der Polizei aussagen will, weiß er mit Sicherheit nur noch, dass das Ortskennzeichen ST war, und dass ferner in dem Kennzeichen ein zweistelliges Wort“ aus den Buchstaben A und U und eine dreistellige Zahl ” aus den Ziffern 4, 5 und 9 vorkamen. Heinz ist sicher, dass jeder der zwei Buchstaben und jede der drei Ziffern genau einmal auftraten. Er weiß aber
2.8 Kombinatorisches Z¨ ahlen
167
weder bei den Buchstaben noch bei den Ziffern die Reihenfolge. Wie viele Wagen muss die Polizei u ufen? ¨ berpr¨ 13. Auf wie vielen verschiedenen Wegen kann man in der Gartenanlage des Loire-Schlosses Villandry in Richtung der Pfeile von A nach S gehen?
14. In R-Stadt kreuzen sich die Straßen rechtwinklig. Alle Straßen sind Einbahnstraßen. Diese verlaufen von Westen nach Osten und von S¨ uden nach Norden. N a) Wie viele Wege f¨ uhren von S nach D? b) Bestimmen Sie die Gesamtzahl der Wege von S nach A oder B oder C oder D oder E oder F. c) Zu welchem der sechs Punkte A, B, C, D, E und F f¨ uhren von S aus die meisten Wege?
F E
W
D
O C B
S
S
A
15. In einer Urne befinden sich neun gleichartige Kugeln. Jede Kugel ist mit genau einer der Ziffern 1, 2, 3, 4, 5, 6, 7, 8, 9 beschriftet. Man zieht gleichzeitig zwei Kugeln. a) Wie groß ist die Wahrscheinlichkeit, dass beide Kugeln eine ungerade Ziffer tragen? b) Es sei jetzt vorausgesetzt, dass die Summe der Ziffern der beiden gezogenen Kugeln gerade ist. Wie groß ist dann die Wahrscheinlichkeit daf¨ ur, dass beide gezogenen Kugeln eine ungerade Ziffer tragen? oglichkeiten, 16. Beim Totospiel (siehe Beispiel 2.24) gibt es 313 = 1 594 323 M¨ eine Tippreihe auszuf¨ ullen. Genau eine dieser M¨ oglichkeiten hat f¨ ur alle 13 Spiele die richtige Voraussage. Wir fragen, wie viele von den 1 594 323 Tippreihen enthalten k Fehler (k = 1, 2, . . . , 13)? 17. Wie groß ist die Wahrscheinlichkeit, im Lotto 6 aus 49“ genau r Richtige ” zu haben? Ausf¨ uhrlicher formuliert: Wie groß ist die Wahrscheinlichkeit ¨ daf¨ ur, dass bei einer Lottoziehung am Ende genau r Ubereinstimmungen mit einer vorliegenden Tippreihe vorhanden sind? Die Zusatzzahl und die Superzahl werden nicht ber¨ ucksichtigt.
168
2 Wahrscheinlichkeit
18. Wie groß ist die Wahrscheinlichkeit, dass beim Lotto 6 aus 49“ ohne ” Ber¨ ucksichtigung der Zusatzzahl und der Superzahl (also beim Ziehen von 6 Kugeln aus den 49 Kugeln) a) sechs gerade Zahlen, b) vier gerade und zwei ungerade Zahlen, c) wenigstens zwei benachbarte Zahlen (Zwillinge) gezogen werden? 19. Auf wie viele Arten kann das Pr¨ ufungsamt acht Klausuren auf drei Pr¨ ufer A, B und C als Zweitgutachter verteilen, wenn der Pr¨ ufer A zwei Klausuren, die Pr¨ ufer B und C je drei Klausuren erhalten sollen? 20. Wie groß ist beim Lotto 6 aus 49“ die Wahrscheinlichkeit, dass eine vor” gegebene Zahl an dritter Stelle gezogen wird? 21. In einem Test sind acht von elf Fragen zu beantworten. Wie viele Wahlm¨ oglichkeiten hat ein Student, wenn er die ersten drei Fragen beantworten muss? 22. Gegeben sei eine Menge M mit n Elementen: |M | = n. a) Wie viele Teilmengen mit k Elementen gibt es f¨ ur k = 0, 1, 2, . . . , n? b) Wie viele Teilmengen gibt es insgesamt? 23. Auf wie viele Arten kann man sieben M¨ unzen von verschiedenen Werten auf zwei Geldb¨ orsen verteilen? 24. Beweisen Sie mit Hilfe der vollst¨ andigen Induktion das Fundamentalprinzip des Z¨ ahlens. 25. Wie viele M¨ oglichkeiten gibt es im Lotto 6 aus 49“ bei einer Ziehung ” a) f¨ unf richtige Gewinnzahlen und die richtige Zusatzzahl zu haben, b) f¨ unf richtige Gewinnzahlen ohne auch die richtige Zusatzzahl zu haben? 26. Beweisen Sie n n n n a) n k = n−k ; b) 0 = 1; c) 1 = n; d) n = 1. 27. Gegeben sind n Punkte in der Ebene, von denen keine drei auf einer Geraden liegen. Wie viele Verbindungsgeraden gibt es zwischen diesen n Punkten?
2.9
Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
2.9.1
Bedingte Wahrscheinlichkeit – Stochastische Unabh¨ angigkeit von Ereignissen
Uns ist schon bekannt, wie man die Wahrscheinlichkeit eines Ereignisses berechnen kann, das durch die Oder-Verkn¨ upfung“ aus anderen Ereig” nissen gebildet wird. Aussagen dar¨ uber machen Axiom 3, Satz 2.4 und Satz 2.5. Bei der Berechnung P (A ∪ B) = P (A oder B) gem¨ aß Satz 2.5
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
169
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)“ muss aber die Wahrscheinlichkeit ” P (A ∩ B) bekannt sein. Wir fragen: Wie kann P (A ∩ B) berechnet werden, wenn die Wahrscheinlichkeit P (A ∩ B) nicht eo ipso bekannt ist? Unser Weg zur Beantwortung dieser Frage f¨ uhrt uns u ¨ ber den Begriff der bedingten Wahrscheinlichkeit zu einer ersten Regel zur Berechnung von P (A ∩ B). Mit Hilfe des Begriffs der Stochastischen Unabh¨ angigkeit von Ereignissen“ finden wir eine ” zweite Regel zur Berechnung von P (A ∩ B). Bedingte Wahrscheinlichkeit Zur Motivation der Definition der bedingten Wahrscheinlichkeit gehen wir von Beispielen aus. Wir betrachten sowohl Beispiele im Sinne der klassischen als auch der frequentistischen Wahrscheinlichkeit. Beispiel 2.31 (Laplace-Modell) Zwei unterscheidbare Laplace-Spielw¨ urfel werden einmal gleichzeitig geworfen. Der eine W¨ urfel sei gr¨ un, der andere rot. Wie groß ist die Wahrscheinlichkeit, dass die Augensumme aus den Augenzahlen beider Spielw¨ urfel gr¨ oßer als 9 ist? b) Wie groß ist die Wahrscheinlichkeit, dass die Augensumme gr¨ oßer als 9 ist, wenn man schon weiß, dass der gr¨ une W¨ urfel eine Augenzahl kleiner als 6 zeigt? a)
L¨ osung zu a): In den folgenden beiden Tabellen ist die Ergebnismenge Ω dargestellt. In der Tabelle links sind die Elemente von Ω als geordnete Paare aufgezeichnet, rechts sind die gebildeten Augensummen angegeben.
Sei A das Ereignis die Augensumme ist gr¨ oßer als 9“. Dann ergibt sich un” ter der Laplace-Annahme wegen A = {(4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6), }, = |A| = 6 und |Ω| = 36 f¨ ur das Ereignis A die Wahrscheinlichkeit P (A) = |A| |Ω| 6 1 = . 36 6
170
2 Wahrscheinlichkeit
L¨ osung zu b) Die Bedingung B der gr¨ une ” W¨ urfel zeigt eine Augenzahl kleiner als 6“ reduziert die Anzahl der m¨ oglichen F¨ alle von urspr¨ unglich 36 auf 30, denn es werden sinnvollerweise nur noch F¨ alle betrachtet, bei denen der gr¨ une W¨ urfel 1, 2, 3, 4 oder 5 zeigt. Von diesen 30 F¨ allen sind 3 F¨ alle g¨ unstig, n¨ amlich (4,6), (5,5) und (5,6). (Siehe Tabellen unter a) und das unter b) angegebene Punktgitter).
3 1 Also ist die gesuchte Wahrscheinlichkeit 30 = 10 . Man nennt diese Wahrscheinlichkeit bedingte Wahrscheinlichkeit und schreibt daf¨ ur P (A|B) bzw. PB (A). Der Ausdruck P (A|B) bzw. PB (A) wird gelesen als P von A unter 1 . der Bedingung B. Also: P (A|B) = 10
Der folgende Vergleich f¨ uhrt zu einer interessanten Feststellung. Im letzten 3 . Ferner ist Beispiel ist (A ∩ B) = {(4, 6), (5, 5), (5, 6)}, also P (A ∩ B) = 36 B = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (2, 6), (3, 1), (3, 2), . . . , (3, 6), (4, 1), (4, 2), . . . , (4, 6), (5, 1), (5, 2), . . . , (5, 6)} und damit |B| = 30. Also P (B) = 30 36 . Man stellt fest: P (A∩B) P (B)
=
3 1 3 30 : = = = P (A|B) , 36 36 30 10
d. h. die bedingte Wahrscheinlichkeit l¨ asst sich als Quotient zweier Wahrscheinlichkeiten darstellen. Der Hintergrund des Vorgehens wird deutlich: Ist eine Bedingung (ein Er¯ geh¨ eignis) B ⊆ Ω gegeben, so besitzt jedes Ereignis ω ∈ Ω, das zu B ort, die ¯ unter der BeWahrscheinlichkeit P ({ω}|B) = 0. Insgesamt ordnen wir also B dingung B die Wahrscheinlichkeit 0 zu. Die Wahrscheinlichkeitsverteilung ist also auf B konzentriert, d. h. P (B|B) = 1. Da die Ergebnisse in Ω als gleichwahrscheinlich angesehen worden waren, liegt es nahe, auch die Ergebnisse aus B als gleichwahrscheinlich unter der bedingten Wahrscheinlichkeit anzusehen. und durch Vergleich Dadurch ergab sich P (A|B) = |A∩B| |B| P (A|B) =
P (A ∩ B) , wenn |B| = 0. P (B)
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
171
Etwas abstrakter l¨ asst sich der Weg im Beispiel so beschreiben: Sei Ω die Ergebnismenge in einem Laplace-Wahrscheinlichkeitsraum und seien A und B Ereignisse mit |B| = 0. Dann gilt:
P (A)
=
P (B)
=
P (A ∩ B)
=
Ω
A
B
Ferner ist P (A|B)
=
|A| , |Ω| |B| und |Ω| |A ∩ B| . |Ω| |A ∩ B| , |B|
denn wenn das Ereignis B vorausgesetzt wird, ist die Anzahl der m¨ oglichen F¨ alle gleich der Anzahl der f¨ ur B g¨ unstigen F¨ alle, n¨ amlich |B|. Und g¨ unstig sind die F¨ alle von A, die in B liegen. Insgesamt folgt P (A|B) =
|Ω| · P (A ∩ B) P (A ∩ B) = . |Ω| · P (B) P (B)
Im Laplace-Modell scheint also der Begriff der bedingten Wahrscheinlichkeit sinnvoll zu sein: Sei (Ω, P(Ω), P ) ein Laplace-Wahrscheinlichkeitsraum und B ∈ P(Ω) ein Ereignis mit P (B) > 0, dann heißt P (A|B) =
P (A ∩ B) P (B)
f¨ ur jedes A ∈ P(Ω)
die bedingte Laplace-Wahrscheinlichkeit von A unter der Bedingung B. Statt P (A|B) schreibt man auch PB (A). Dass auch ein Zugang zur bedingten Wahrscheinlichkeit mittels der relativen H¨ aufigkeit m¨ oglich ist, wird am folgenden Beispiel verdeutlicht. Beispiel 2.32 (Modell Relative H¨ aufigkeit“) Wir greifen zur¨ uck auf das Beispiel 1.2 ” (Wegen Vergehen im Straßenverkehr im Jahre 2007 in der Bundesrepublik Deutschland Verurteile, s. Abschnitt 1.2.2) und erg¨ anzen die dort in der Tabelle angegebenen absoluten H¨ aufigkeiten durch ihre relativen H¨ aufigkeiten.
172
2 Wahrscheinlichkeit Wegen Vergehen im Straßenverkehr im Jahre 2007 Verurteilte in der Bundesrepublik Deutschland Jugendliche
Heranwachsende
Erwachsene
Vergehen
5516
8832
80652
95000
ohne Trunkenheit
2,6 %
4,2 %
39,1 %
44,8 %
Vergehen
1424
9394
106028
116846
in Trunkenheit
0,7 %
4,4 %
50,0 %
55,2 %
6940
18226
186680
211846
3,3 %
8,6 %
88,1 %
100 %
Verurteilte mit
Verurteilte mit
Die relativen H¨ aufigkeiten beziehen sich jeweils auf die Gesamtanzahl 211 846. Die relativen H¨ aufigkeiten ¨ andern sich, wenn man zus¨ atzliche Bedingungen“ ” voraussetzt. Betr¨ agt der Anteil der verurteilten Erwachsenen wegen Vergehen im Straßenverkehr in Trunkenheit bezogen auf das Gesamtkolletiv 106028 ≈ 50 %, 211846 so ¨ andert sich die Anteilsangabe, wenn man als Kollektiv nur die Erwachsenen betrachtet (letzte Spalte): 106028 ≈ 56, 8 %. 186680 Untersucht man das Sachumfeld nur unter der Bedingung Verurteilte mit Ver” gehen im Straßenverkehr ohne Trunkenheit“ (erste Zeile) und fragt nach dem Anteil der Erwachsenen, dann ¨ andert sich der Stichprobenraum von urspr¨ unglich 211 846 auf 95 000, und die relative H¨ aufigkeit verurteilter Erwachsener mit Vergehen im Straßenverkehr ohne Trunkenheit betr¨ agt unter diesem Aspekt (unter dieser Bedingung) nicht mehr 38,1 %, sondern 84,9 % ( 80652 95000 ). ¨ Ahnlich wie bei der Laplace-Wahrscheinlichkeit von der bedingten LaplaceWahrscheinlichkeit gesprochen wird, kann man hier von der bedingten relativen H¨ aufigkeit sprechen, die wir mit hn (A|B) bezeichnen. Am Beispiel erkennt man, dass auch hier formal gilt: hn (A|B) =
hn (A ∩ B) hn (B)
mit
hn (B) = 0.
Denn unter der Bedingung B Verurteilte mit Vergehen ohne Trunkenheit“ be” tr¨ agt die relative H¨ aufigkeit f¨ ur das Ereignis A Erwachsener“ ” 80652 80652 95000 hn (A ∩ B) hn (A|B) = = : = . 95000 211846 211846 hn (B)
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
173
Man kann sich vom konkreten Beispiel l¨ osen: Eine Versuchsserie bestehe aus n Versuchen. Hierbei m¨ oge das Ereignis A genau Hn (A)-mal aufgetreten sein, das Ereignis B genau Hn (B)-mal und das Ereignis (A ∩ B) genau Hn (A ∩ B)-mal. aufigkeiDie Zahlen Hn (A), Hn (B) und Hn (A ∩ B) sind also die absoluten H¨ ten der Ereignisse A, B und A ∩ B in der Versuchsserie mit n Versuchen. Es sei Hn (B) = 0. Wir fragen nach dem Eintreten des Ereignisses A in der Teilversuchsserie der Hn (B) Versuche, in denen B eingetreten ist. Das Ereignis A tritt in den Hn (B) Versuchen genau dann auf, wenn der Durchschnitt A ∩ B eingetreten ist. D. h. f¨ ur die bedingte relative H¨ aufigkeit hn (A|B) gilt
A
A∩B
B hn (A|B) =
N
Hn (A ∩ B) . Hn (B)
Es folgt (Division von Z¨ ahler und Nenner durch n): hn (A|B)
=
hn (A|B)
=
Hn (A ∩ B) Hn (B) : , n n hn (A ∩ B) . hn (B)
¨ Diese Uberlegungen machen deutlich, dass der Begriff der bedingten relativen H¨ aufigkeit sinnvoll ist: Unter der bedingten relativen H¨ aufigkeit eines Ereignisses A unter der Bedingung B verstehen wir die relative H¨ aufigkeit f¨ ur A unter der Bedingung, dass das Ereignis B eingetreten ist. Hierf¨ ur schreiben wir hn (A|B). Es gilt: hn (A|B) =
hn (A ∩ B) , wenn hn (B) = 0. hn (B)
Aufgrund von Erfahrungen (Empirisches Gesetz der großen Zahlen) stabi” lisiert“ sich die relative H¨ aufigkeit hn (K) eines Ereignisses K bei wachsender Anzahl von Versuchen n um einen bestimmten (unbekannten) Wert, den wir als die Wahrscheinlichkeit P (K) des Ereignisses bezeichnen. Wir sehen also hn (A ∩ B) als Sch¨ atzwert f¨ ur P (A ∩ B) an, ebenso hn (B) als Sch¨ atzwert f¨ ur P (B). Dann kann im Falle P (B) > 0 auch die bedingte relative H¨ aufigkeit hn (A|B) = hnh(A∩B) als Sch¨ atzwert f¨ ur P P(A∩B) (B) angesehen werden. Diesen Quon (B) nennt man die bedingte Wahrscheinlichkeit von A unter der tienten P P(A∩B) (B) Bedingung B und schreibt daf¨ ur P (A|B) bzw. PB (A).
Nach diesen Motivationen definieren wir die bedingte Wahrscheinlichkeit f¨ ur endliche Wahrscheinlichkeitsr¨ aume ganz analog.
174
2 Wahrscheinlichkeit
Definition 2.10 (Bedingte Wahrscheinlichkeit) Ist (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum und B ein Ereignis mit P (B) > 0, so heißt P (A|B) :=
P (A ∩ B) f¨ ur jedes A ∈ P(Ω) P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B. Statt P (A|B) schreibt man auch PB (A). Bei einem axiomatischen Aufbau der Stochastik gem¨ aß den Axiomen von Kolmogoroff ist im weiteren Aufbau jetzt zu zeigen, dass die oben definierte bedingte Wahrscheinlichkeit auch eine Wahrscheinlichkeit im Sinne der Axiome ist. Man hat folgenden Satz zu beweisen.
Satz 2.21 Sei (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum, und sei B ein Ereignis mit P (B) > 0. Dann ist die Funktion P (∗|B) : P(Ω) −→ IR≥0 mit P (A|B) :=
P (A ∩ B) , P (B)
die also jedem Ereignis A ∈ P(Ω) die Wahrscheinlichkeit P (A|B) zuordnet, ein Wahrscheinlichkeitsmaß auf P(Ω). Der Beweis ergibt sich, indem man zeigt, dass die Funktion P (∗|B) die drei Axiome von Kolmogoroff erf¨ ullt (siehe Aufgabe 8, Abschnitt 2.9.4). Didaktische Hinweise erleichtern das Verst¨ andnis des neuen Begriffs: 1.
Es gilt P (A|Ω) =
2.
P (A ∩ Ω) P (A) = = P (A) f¨ ur alle A ∈ P(Ω), P (Ω) 1
d. h. die urspr¨ unglichen Wahrscheinlichkeiten P (A) sind auch bedingte Wahrscheinlichkeiten. Man spricht jedoch nur dann von bedingten Wahrscheinlichkeiten, wenn außer den f¨ ur alle Ereignisse gemeinsamen Bedingungen noch weitere Bedingungen neu hinzutreten. Die bedingte Wahrscheinlichkeit zeigt auf, wie man mit neuen Informationen ad¨ aquat umgehen kann. A|B beschreibt keine Teilmenge von Ω, ist also kein Ereignis. A|B tritt nie selbstst¨ andig, sondern nur in Verbindung von P (A|B), der bedingten Wahrscheinlichkeit von A unter der Bedingung von B, auf. Die in der Schreibweise P (A|B) verborgene Interpretationsschwierigkeit tritt bei der Schreibweise PB (A) nicht auf.
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2) 3.
4. 5.
6.
175
F¨ ur alle Ereignisse A = ∅ mit P (A) > 0 gilt P (A|A) = 1. Begr¨ undung: P (A|A)
=
Es folgt: P (A|A)
=
P (A ∩ A) (gem¨ aß Definition). P (A) P (A) = 1. P (A)
Da in der Definition f¨ ur P (A|B) im Nenner P (B) steht, ergibt P (A|B) f¨ ur P (B) = 0 keinen Sinn. Wenn f¨ ur die Ereignisse A und B mit P (B) > 0 gilt, dass P (A ∩ B) = 0 ist, so ist P (A|B) = 0. (Folgt sofort aus der Definition der bedingten Wahrscheinlichkeit.) Aus der Definitionsgleichung f¨ ur die bedingte Wahrscheinlichkeit P (A|B) =
P (A ∩ B) P (B)
f¨ ur
P (B) > 0
erh¨ alt man durch Multiplikation mit P (B) eine Multiplikationsregel zur Berechnung der Wahrscheinlichkeit eines Ereignisses A ∩ B: P (A ∩ B) = P (B) · P (A|B)
f¨ ur
P (B) > 0.
Da (A ∩ B) = (B ∩ A) ist, gilt wegen der Symmetrie auch P (A ∩ B) = P (A) · P (B|A)
7.
f¨ ur
P (A) > 0.
In Problemen kennt man h¨ aufig P (B) und P (A|B) bzw. P (A) und P (B|A). Die Multiplikationsregeln bieten also dann die M¨ oglichkeit, die Wahrscheinlichkeit f¨ ur das Ereignis A ∩ B, dass sowohl A als auch B eintritt, zu berechnen. Gem¨ aß Hinweis 4 hat die bedingte Wahrscheinlichkeit P (A|B) f¨ ur P (B) = 0 keinen Sinn und entsprechend auch die bedingte Wahrscheinlichkeit P (B|A) ¨ f¨ ur P (A) = 0. Die folgende Uberlegung zeigt, dass es dennoch sinnvoll ist, in den zwei Formen der Multiplikationsregel zu vereinbaren, dass P (A ∩ B) gleich 0 ist, falls P (A) oder P (B) gleich 0 ist. Wir w¨ ahlen als Ausgangspunkt die Multiplikationsregel in der Form P (A ∩ B) = P (A) · P (B|A). Es gilt n¨ amlich: A ∩ B ⊆ A, also P (A ∩ B) ≤ P (A). Andererseits ist P (A ∩ B) ≥ 0. Mit P (A) = 0 folgt 0 ≤ P (A ∩ B) ≤ 0, d. h. P (A ∩ B) = 0.
176
2 Wahrscheinlichkeit Analog vollzieht man die Schritte bei der Multiplikationsregel P (A ∩ B) = P (B) · P (A|B) mit P (B) = 0. Mit dieser Vereinbarung gilt also die Multiplikationsregel (M)
P (A ∩ B) = P (A) · P (B|A) = P (B) · P (A|B)
f¨ ur beliebige Ereignisse A und B. Aus der Regel (M) f¨ ur zwei Ereignisse erh¨ alt man durch sukzessives Hinzuf¨ ugen jeweils eines weiteren Ereignisses die Multiplikationsregel f¨ ur endlich viele Ereignisse A1 , A2 , . . . , An : (M)
P (A1 ∩ . . . ∩ An )
= P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · . . . · P (An |A1 ∩ A2 ∩ . . . ∩ An−1 ). Beispielsweise erh¨ alt man durch Hinzuf¨ ugen von einem weiteren Ereignis zu zwei Ereignissen (es liegt der Fall n = 3 vor): P (A1 ∩ A2 ∩ A3 )
=
P ((A1 ∩ A2 ) ∩ A3 )
=
P (A1 ∩ A2 ) · P (A3 |A1 ∩ A2 )
=
P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ).
Stochastische Unabh¨ angigkeit Es kann sein, dass P (A|B) = P (A) ist. Beispiel 2.33 Zwei unterscheidbare Laplace-W¨ urfel (einer ist rot, einer ist gr¨ un) werden gleichzeitig einmal geworfen. a) Wie groß ist die Wahrscheinlichkeit, dass die Augensumme gr¨ oßer als 9 ist? b) Wie groß ist die Wahrscheinlichkeit, dass die Augensumme gr¨ oßer als 9 ist unter der Bedingung, dass der gr¨ une W¨ urfel 4 zeigt? L¨ osung zu a): Sei A das Ereignis die Augensumme ist gr¨ oßer als 9“. Dann ist ” P (A) = 61 (siehe Beispiel 2.31 a)). L¨ osung zu b): Das Ereignis gr¨ uner W¨ urfel zeigt 4“ (also die Bedingung) be” zeichnen wir mit B. Dann gilt, wenn A wieder das Ereignis die Augensumme ” ist gr¨ oßer als 9“ bezeichnet, P (A|B) =
1 6 1 P (A ∩ B) = : = . P (B) 36 36 6
¨ Das Ereignis B bewirkt keine Anderung der Wahrscheinlichkeit f¨ ur das Eintreten des Ereignisses A. Es gilt n¨ amlich P (A) = P (A|B) = 16 .
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
177
Anmerkung: Im Beispiel 2.31 (Laplace-Modell b)) ist das nicht der Fall. Dort ist: 1 1 P (A) = = = P (A|B). 6 10 Immer dann, wenn P (A|B) = P (A) gilt, geht die Multiplikationsregel (M) f¨ ur zwei Ereignisse P (A ∩ B) = P (B) · P (A|B) u ¨ ber in P (A ∩ B) = P (B) · P (A). Das gibt Veranlassung, diese letzte Gleichung zur Definition der stochastischen Unabh¨ angigkeit von zwei Ereignissen zu verwenden.
Definition 2.11 (Stochastische Unabh¨ angigkeit von zwei Ereignissen) Es sei (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Die Ereignisse A, B ∈ P(Ω) heißen stochastisch unabh¨ angig genau dann, wenn gilt: P (A ∩ B) = P (A) · P (B).
Diese Definition macht deutlich, dass stochastische Unabh¨ angigkeit ein symmetrischer Begriff ist: Wenn das Ereignis A vom Ereignis B unabh¨ angig ist, dann auch das Ereignis B vom Ereignis A. ¨ Beim Ubertragen des Begriffs der stochastischen Unabh¨ angigkeit auf mehr als zwei Ereignisse fordert man, dass f¨ ur jede Auswahl von mindestens zwei Ereignissen die Wahrscheinlichkeit des Durchschnitts dieser Ereignisse gleich dem Produkt ihrer Einzelwahrscheinlichkeiten ist.
Definition 2.12 (Stochastische Unabh¨ angigkeit von n Ereignissen) Die n Ereignisse A1 , A2 , A3 , . . ., An eines endlichen Wahrscheinlichkeitsraumes (Ω, P(Ω), P ) heißen genau dann stochastisch unabh¨ angig, wenn f¨ ur jede Auswahl von k Ereignissen Ai1 , Ai2 , Ai3 , . . ., Aik aus der Menge {A1 , A2 , A3 , . . . , An } der gegebenen n Ereignisse die Gleichung P (Ai1 ∩ Ai2 ∩ Ai3 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · P (Ai3 ) · . . . · P (Aik ) erf¨ ullt ist. Hierbei ist k jede nat¨ urliche Zahl mit 1 < k ≤ n.
Beispiel 2.34 aß Definition ist jede TeilGegeben seien drei Ereignisse A1 , A2 und A3 . Gem¨ menge von mindestens zwei Ereignissen der Menge {A1 , A2 , A3 } zu beachten. Die folgenden vier Gleichungen m¨ ussen bei stochastischer Unabh¨ angigkeit der drei Ereignisse erf¨ ullt sein:
178
2 Wahrscheinlichkeit
P (A1 ∩ A2 )
=
P (A1 ) · P (A2 ),
P (A1 ∩ A3 )
=
P (A1 ) · P (A3 ),
P (A2 ∩ A3 )
=
P (A2 ) · P (A3 ),
P (A1 ∩ A2 ∩ A3 )
=
P (A1 ) · P (A2 ) · P (A3 ).
Didaktische Hinweise erleichtern das Verst¨ andnis der Definition. 1.
Allein aus der G¨ ultigkeit der einen Gleichung P (A1 ∩ A2 ∩ A3 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · P (A3 ) · . . . · P (An ) braucht nicht die stochastische Unabh¨ angigkeit dieser Ereignisse A1 , A2 , A3 , . . ., An zu folgen. Das zeigt das folgende Beispiel: Einmaliges W¨ urfeln mit zwei Laplace-W¨ urfeln, von denen der eine rot und der andere gr¨ un ist. Wir definieren drei Ereignisse: A := die Augenzahl auf dem roten W¨ urfel ist gr¨ oßer als 4; B := die Augensumme ist durch 3 teilbar; C := die Augensumme ist durch 4 teilbar. Mit (x, y) werden die Ergebnisse beschrieben, x bezeichnet die Augenzahl des roten W¨ urfels, y die des gr¨ unen W¨ urfels. Es gilt: A = {(5, i)|i ∈ {1, . . . , 6}} ∪ {(6, i)|i ∈ {1, . . . , 6}}, 1 also |A| = 12 und somit P (A) = 12 36 = 3 . B = {(1, 2), (1, 5), (2, 1), (2, 4), (3, 3), (3, 6), (4, 2), (4, 5), (5, 1), (5, 4), (6, 3), (6, 6)}, also |B| = 12 und somit P (B) = 13 . C = {(1, 3), (2, 2), (2, 6), (3, 1), (3, 5), (4, 4), (5, 3), (6, 2), (6, 6)}, 9 also |C| = 9 und somit P (C) = 36 = 14 . Außerdem gilt A ∩ B ∩ C = {(6, 6)}, also P (A ∩ B ∩ C) =
1 . 36
Es gilt dann P (A) · P (B) · P (C) =
1 1 1 1 · · = = P (A ∩ B ∩ C). 3 3 4 36
Aber wegen B ∩ C = {(6, 6)}, also P (B ∩ C) =
1 , 36
gilt 1 1 1 1 · = = = P (B ∩ C), 3 4 12 36 d. h. B und C sind nicht stochastisch unabh¨ angig. Damit sind die Ereignisse A, B und C nicht stochastisch unabh¨ angig. P (B) · P (C) =
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2) 2.
179
Die stochastische Unabh¨ angigkeit von n Ereignissen impliziert die stochastische Unabh¨ angigkeit jedes Ereignispaares. Umgekehrt kann man aber nicht von der paarweisen stochastischen Unabh¨ angigkeit von n Ereignissen auf die stochastische Unabh¨ angigkeit der n Ereignisse schließen. Das auf Bernstein (Serge Netanowitsch Bernstein, russischer Mathematiker, 1880 – 1968) zur¨ uckgehende Beispiel des gef¨ arbten Tetraeders macht dies leicht einsichtig. Von den vier Fl¨ achen eines Tetraeders sei eine rot, eine blau, eine gr¨ un und die vierte Fl¨ ache mit allen drei Farben bemalt. Es seien A: das Tetraeder f¨ allt auf eine Fl¨ ache mit roter Farbe, B: das Tetraeder f¨ allt auf eine Fl¨ ache mit blauer Farbe, C: das Tetraeder f¨ allt auf eine Fl¨ ache mit gr¨ uner Farbe. Dann ist P (A) = 12 , denn von den vier m¨ oglichen F¨ allen tragen zwei rote Farbe (Anwendung der Laplace-Wahrscheinlichkeit). Ebenso findet man sofort P (A) = P (B) = P (C) =
1 , 2
P (A ∩ B) = P (A ∩ C) = P (B ∩ C) =
1 . 4
Die Ereignisse A, B und C sind also paarweise stochastisch unabh¨ angig. achen tr¨ agt Ferner gilt P (A ∩ B ∩ C) = 14 , denn nur eine von den vier Fl¨ alle drei Farben. Es gilt aber nicht P (A ∩ B ∩ C) = P (A) · P (B) · P (C), denn
1 1 1 1 · · = = 2 2 2 8 Die Ereignisse A, B und C sind also nicht stochastisch P (A) · P (B) · P (C) =
1 . 4 unabh¨ angig.
3.
Bei n Ereignissen A1 , A2 , . . ., An sind zum Nachweis ihrer stochastischen ultigkeit Unabh¨ angigkeit gem¨ aß Definition 2n −1−n Gleichungen auf ihre G¨ zu u ufen (siehe Aufgabe 10 in Abschnitt 7.4). ¨ berpr¨
4.
Der Begriff der stochastischen Unabh¨ angigkeit darf nicht mit dem Begriff der Unvereinbarkeit verwechselt werden. Die Unvereinbarkeit von Ereignissen ist rein mengentheoretisch definiert: So heißen z. B. zwei Ereignisse A und B unvereinbar genau dann, wenn A ∩ B = ∅ (d. h. die den Ereignissen A und B entsprechenden Mengen sind disjunkt). Bei der Definition der stochastischen Unabh¨ angigkeit geht dagegen wesentlich das zugrundeliegende Wahrscheinlichkeitsmaß ein: So heißen z. B. zwei Ereignisse A und B stochastisch unabh¨ angig genau dann, wenn gilt P (A ∩ B) = P (A) · P (B).
180 5.
2 Wahrscheinlichkeit Stochastische Unabh¨ angigkeit ist ein theoretischer Begriff. Wenn man davon spricht, dass ein Ereignis (eine Bedingung“) B keinen wahrschein” ” lichkeitstheoretischen“ Einfluss auf ein Ereignis A hat, so sollte das in der Wirklichkeit nicht mit keinen realen“ Einfluss indentifiziert werden. Ande” rerseits kann man umgekehrt h¨ aufig aufgrund der Aufgabenstruktur oder inhaltlichen Bedeutung bei Anwendungen Ereignisse als stochastisch unabh¨ angig ansehen und z. B. bei zwei Ereignissen A und B zur Berechnung von P (A ∩ B) die Gleichung P (A ∩ B) = P (A) · P (B) verwenden. Im Modellbildungsprozess macht man dann die Annahme der stochastischen Unabh¨ angigkeit der Ereignisse. So wird man beispielsweise bei einer ge” trennten“ Wiederholung eines Versuches die sich ergebenden Ereignisse als stochastisch unabh¨ angig voneinander ansehen, wie z. B. beim mehrmaligen Drehen eines Gl¨ ucksrades oder beim mehrfachen Werfen eines W¨ urfels. Statt von getrennten“ Experimenten spricht man h¨ aufig auch von un” ” abh¨ angigen“ Experimenten. Dietrich Morgenstern schlug vor, bei wirklichen Experimenten in diesem Zusammenhang besser von getrennten“ Ex” perimenten zu sprechen. Als Handhabungsregel k¨ onnte etwa die Formulierung dienen: Getrennten“ Experimenten der Wirklichkeit entsprechen ” unabh¨ angige“ Wahrscheinlichkeitsbelegungen (Morgenstern, D. [122], 36). ”
Die unter Punkt 5 angesprochene Thematik greifen wir im n¨ achsten Abschnitt u ¨ ber Bernoulli-Ketten wieder auf. Didaktische Hinweise f¨ ur Baumdiagramme 1.
aufig aus TeilIn Aufgaben zur Stochastik besteht das Zufallsexperiment h¨ experimenten, oder man kann sich ein Zufallsexperiment aus Teilexperimenten zusammengesetzt denken. Diese Teilexperimente bezeichnet man auch als Stufen im Gesamtexperiment. Man spricht dann allgemein von mehrstufigen Experimenten, im Grenzfall auch von einstufigen Experimenten. Beispiele: Bei der Behandlung der Additionspfadregel lernten wir ein- und zweistufige Experimente kennen – Ein W¨ urfel wird einmal geworfen (einstufiges Experiment), – Eine L-M¨ unze wird zweimal nacheinander geworfen (zweistufiges Experiment), – das Knobelspiel Schere-Papier-Stein“ kann ad¨ aquat in zwei Teilexperi” mente (1. Kind und 2. Kind) zerlegt werden (zweistufiges Experiment). Weitere Beispiele – Dreimaliges Werfen einer M¨ unze (dreistufiges Experiment), – Auswahl einer Urne und nachfolgend einmalige Ziehung einer Kugel aus der ausgew¨ ahlten Urne (zweistufiges Experiment),
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
181
– gleichzeitiges Werfen einer M¨ unze und eines W¨ urfels (zweistufiges Experiment durch gedankliches Hintereinanderausf¨ uhren: 1. Stufe M¨ unzwurf, 2. Stufe W¨ urfelwurf).
2.
Bei der Verwendung von Baumdiagrammen zur Darstellung der Experimente auf ikonischer Ebene ergeben sich dann einstufige oder mehrstufige Baumdiagramme. Bei jeder Verzweigung beginnt eine neue Stufe. Im Folgenden erl¨ autern wir kurz, wie im Zusammenhang mit der Multiplikationsregel und der bedingten Wahrscheinlichkeit in einfachen F¨ allen das Baumdiagramm Verwendung finden kann. Beispiel 2.35 (Urnenwahl – Kugelziehung) Drei gleichartige Urnen (Gef¨ aße) A, B und C enthalten gleichgroße Holzkugeln, und zwar enth¨ alt Urne A sechs weiße (W) und vier schwarze (S) Kugeln, Urne B f¨ unf weiße (W) und zwei schwarze (S) Kugeln, Urne C acht weiße (W) und drei schwarze (S) Kugeln. Durch Zufall wird eine Urne ausgew¨ ahlt und dann aus der ausgew¨ ahlten Urne durch Zufall eine Kugel gezogen. a) Wie groß ist die Wahrscheinlichkeit, Urne A auszuw¨ ahlen und daraus eine schwarze Kugel zu ziehen? b) Wie groß ist (generell) die Wahrscheinlichkeit P (S), ein schwarze Kugel zu ziehen? L¨ osung: Es handelt sich um einen zweistufigen Versuch: 1. Urnenwahl, 2. Wahl der Kugel. Aufgrund der Angaben in der Aufgabe ist die Annahme einer Laplaceverteilung gerechtfertigt. Die an den Wegstrecken stehenden Zahlen sind die so berechneten Wahrscheinlichkeiten. L¨ osung zu a): Das gefragte Ereignis A ∩ S (gelesen: A und S) ist durch den obersten Weg − A − S im Baumdiagramm realisiert. Man muss u ¨ ber A nach S. Da 3 Urnen zur Wahl stehen, kommt man mit der Wahr4 kommt man von A scheinlichkeit 13 nach A. Mit der Wahrscheinlichkeit 10 nach S. (4 von 10 Kugeln sind n¨ amlich schwarz.) Insgesamt kommt man 4 nach S u von 13 , d. h. mit der Wahr¨ ber A mit der Wahrscheinlichkeit 10 4 1 4 scheinlichkeit 10 · 3 = 30 . Um die Wahrscheinlichkeit eines Ereignisses am Ende eines Weges (im Bsp.: − A − S ) zu erhalten, multipliziert man also die Wahrscheinlichkeiten an den Kanten (Streckenz¨ ugen) des Weges miteinander: 4 2 1 4 = = . P (A ∩ S) = · 3 10 30 15 Wir zeichnen ein Baumdiagramm.
182
2 Wahrscheinlichkeit
A∩S 4 10
S
6 10
W
1 3
·
4 10
A
B∩S
1 3
1 3
2 7
S
5 7
W
1 3
·
2 7
+
B
C∩S
1 3 3 11
S
8 11
W
1 3
·
3 11
C
L¨ osung zu b): Fragt man in der Aufgabe generell nach der Wahrscheinlichkeit P (S), eine schwarze Kugel zu ziehen, so hat man die Wegwahrscheinlichkeiten f¨ ur die Wege − A − S , − B − S und − C
− S zu berechnen (jeweils durch Multiplikation der Kantenwahrscheinlichkeiten) und dann die erhaltenen drei Wahrscheinlichkeiten nach der Additionspfadregel zu addieren. Also: P (S) =
1 4 1 2 1 3 2 2 1 · + · + · = + + ≈ 0, 32. 3 10 3 7 3 11 15 21 11
Beispiel 2.36 (Gewinnlos) In einem Hut befinden sich 5 Lose, von denen genau 1 Los ein Gewinnlos ist. 5 Kinder sollen nacheinander je ein Los ziehen. Die gezogenen Lose werden nicht zur¨ uckgelegt. Die Kinder k¨ onnen sich nicht u ¨ ber die Reihenfolge, in der sie ein Los aus dem Hut ziehen, einigen. Was halten Sie von diesem Streit?
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
183
L¨ osungsweg 1: Wir zeichnen ein Baumdiagramm. Mit Gk wird das Ereignis bezeichnet, ¯ k sei das Gegenereignis dass beim k-ten Zug der Gewinn gezogen wird. G zu Gk . An die Kanten (Strecken) schreiben wir jeweils die Wahrscheinlichkeiten. Es entsteht ein f¨ unfstufiges Baumdiagramm.
1 5
G1 1 4
4 5
G2 1 3
¯1 G 3 4
G3 1 2
¯2 G 2 3
¯3 G 1 2
1. Zug
2. Zug
3. Zug
G4
4. Zug
1
G5
0
¯5 G
¯4 G
5. Zug
Die Wahrscheinlichkeit, dass beim 1. Zug der Gewinn gezogen wird, ist 15 . Entsprechend ist die Wahrscheinlichkeit, keinen Gewinn zu ziehen, 45 . Nach dem 1. Zug befinden sich noch 4 Lose im Hut. Wurde im 1. Zug nicht der Gewinn gezogen, dann ist unter dieser Bedingung beim 2. Zug die Wahrur eine Niete 34 . Analog berechnet scheinlichkeit f¨ ur einen Gewinn 14 und f¨ man die entsprechenden Wahrscheinlichkeiten bei den anderen Z¨ ugen. Sie sind im obigen Baumdiagramm an die Kanten geschrieben. Um nach G2 zu gelangen, muss man im Baumdiagramm den Weg von der Wurzel u ¨ber 4 ¯ G1 nach G2 gehen, d. h. die Wahrscheinlichkeit 5 f¨ ur das Eintreten von ¯ 1 und die Wahrscheinlichkeit 1 f¨ u r das Ereignis G unter der Bedingung G 2 4 ¯ 1 sind zu ber¨ ucksichtigen. Im Baumdiagramm gelangt man mit der von G ¯ 1 und von dort mit der Wahrscheinlichkeit 1 zu Wahrscheinlichkeit 45 zu G 4 G2 . Insgesamt kommt man also mit der Wahrscheinlichkeit
1 1 4 4 1 = · = von 4 5 4 5 5
184
2 Wahrscheinlichkeit ¨ zu G2 . Nach derselben Uberlegung berechnet man die Wahrscheinlichkeiten f¨ ur G3 , G4 und G5 . Man verfolgt jeweils den Weg am Baumdiagramm und multipliziert die an den Kanten (Strecken) stehenden Wahrscheinlichkeiten miteinander. Also: 1 , P (G1 ) = 5 ¯ 1 ∩ G2 ) = 4 · 1 = 1 , P (G 5 4 5 4 3 1 1 ¯ ¯ P (G1 ∩ G2 ∩ G3 ) = · · = , 5 4 3 5 ¯2 ∩ G ¯ 3 ∩ G4 ) = 4 · 3 · 2 · 1 = 1 , ¯1 ∩ G P (G 5 4 3 2 5 3 2 1 1 4 ¯2 ∩ G ¯3 ∩ G ¯ 4 ∩ G5 ) = ¯1 ∩ G · · · ·1= . P (G 5 4 3 2 5 Ein u undet. Alle Kinder ha¨berraschendes Ergebnis. Der Streit ist unbegr¨ ben dieselbe Chance, sie ziehen mit der gleichen Wahrscheinlichkeit 15 das Gewinnlos. ¨ Diese Uberlegungen und dieses Vorgehen lassen sich als eine Multiplikationspfadregel zur Bestimmung der Wahrscheinlichkeit eines Ereignisses, das durch die Und-Verkn¨ upfung“ aus anderen Ereignissen gebildet wird, ” formulieren. Multiplikationspfadregel Bei einem mehrstufigen Zufallsexperiment erh¨ alt man die Wahrscheinlichkeiten der einzelnen Ergebnisse, indem man die Wahrscheinlichkeiten l¨ angs eines Pfades, der zu einem Ergebnis geh¨ ort, miteinander multipliziert. L¨ osungsweg 2: Dieser L¨ osungsweg ist eleganter. Man betrachte alle 5-Tupel der f¨ unf Lose A, B, C, D und G, da die Reihenfolge der gezogenen Lose eine Rolle spielt. G bezeichne das Gewinnlos. Nun gibt es genau so viele 5-Tupel mit G an i-ter Stelle (i = 2, 3, 4, 5) wie mit G an erster Stelle. Die Wahrscheinlichkeit, angig von dass G an einer bestimmten Stelle gezogen wird, ist also 15 , unabh¨ der Nummer dieser Stelle. Varianten zum Beispiel Gewinnlos“ ” Wie groß ist die Wahrscheinlichkeit, dass beim Lotto 6 aus 49“ eine vorge” gebene Zahl an erster Stelle, an zweiter Stelle, . . . an sechster Stelle gezogen 1 wird? (L¨ osung: Stets ist die Wahrscheinlichkeit 49 ). Eine weitere Variante wird in Aufgabe 27, Abschnitt 2.9.4, formuliert. Die beobachtete große Fehlerh¨ aufigkeit beim L¨ osen derartiger Aufgaben liegt vielleicht darin begr¨ undet, dass die a-priori-Einsch¨ atzung der Chancen verwechselt wird mit der Chancen-Neuverteilung im Laufe der Zie-
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
3.
185
¨ hungen. Man sollte sich also nicht von vordergr¨ undigen Uberlegungen zu Fehlschl¨ ussen verleiten lassen. In bestimmten Situationen erscheint es g¨ unstig, das Baumdiagramm zu erg¨ anzen“ oder zu verk¨ urzen“. So kann man bei der Ziehung ohne ” ” ” Zur¨ ucklegen“ von Kugeln aus einer Urne die Urnen, aus denen jeweils auf der vorliegenden Stufe eine Kugel gezogen wird, zum besseren Verst¨ andnis in das Baummdiagramm einzeichnen. Beispiel 2.37 In einer Urne befinden sich acht gleichartige Kugeln, davon sind f¨ unf schwarz (S) und drei rot (R). Man zieht blind eine Kugel aus der Urne und legt die gezogene Kugel nicht in die Urne zur¨ uck. Dann zieht man noch einmal eine Kugel. Wie groß ist die Wahrscheinlichkeit, zwei rote Kugeln zu ziehen? L¨ osung: In das zweistufige Baumdiagramm wird zur Unterst¨ utzung des L¨ osungsweges die Urne mit ihrem jeweiligen Inhalt eingezeichnet.
4 7
S
3 7
R
5 7
S
2 7
R
S 5 8
3 8
R
Das gefragte Ereignis ist durch den untersten Weg − R − R realisiert: P (R ∩ R) =
3 3 2 · = . 8 7 28
186
2 Wahrscheinlichkeit Man kann sich bei der L¨ osung von Aufgaben auch auf die Wiedergabe des jeweils in Frage kommenden Teils des Baumdiagramms beschr¨ anken. Man erh¨ alt ein verk¨ urztes“ Baumdiagramm, im einfachsten Fall ein ” Wegdiagramm wie f¨ ur obiges Beispiel (zwei rote Kugeln): Man zeichnet nur den untersten Weg des Baumdiagramms. Im Zusammenhang mit der Multiplikationsregel P (A ∩ B) = P (A) · P (B|A) l¨ asst sich am Baumdiagramm eine interessante Beziehung aufzeigen.
P (X) = P (B|A) P (A)
¯ P (A)
B
A ¯ P (B|A)
¯ B
¯ P (B|A)
B
¯ A) ¯ P (B|
¯ B
A¯
Der oberste Pfad − A − B kennzeichnet an seinem Ende das Ereignis (A ∩ B). Nach der Multiplikationspfadregel ergibt sich P (A ∩ B) = P (A) · P (X). Zieht man die Multiplikationsregel P (A ∩ B) = P (A) · P (B|A) hinzu, so folgt P (X) = P (B|A)
4.
(siehe obiges Baumdiagramm), d. h. im zweistufigen (allgemein: mehrstufigen) Baumdiagramm treten bereits bedingte Wahrscheinlichkeiten auf. Der unter Punkt 3 herausgearbeitete Aspekt gibt Veranlassung, noch einmal auf zwei der Beispiele zur Multiplikationspfadregel zur¨ uckzuschauen: – Im Beispiel 2.35 (Urnenwahl – Kugelziehung) ist die Wahrscheinlichkeit, eine schwarze Kugel zu ziehen, unter der Bedingung, dass man die Urne 4 4 . Das heißt, es gilt 10 = P (S|A). Entsprechend ist A gew¨ ahlt hat, 10 6 2 = P (W |A) und = P (S|B) usw. 10 7
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
187
– Im Beispiel 2.36 (Gewinnlos) ist das Ereignis, dass das Gewinnlos erst im 2. Zug gezogen wird, nur unter der Bedingung realisierbar, dass das ¯ 1 bezeichnet Gewinnlos nicht im 1. Zug gezogen wurde. Das Ereignis G das Ereignis, dass das Gewinnlos nicht im 1. Zug gezogen wird. Es ist ¯ 1 ) = 4 . Bezeichnet G2 das Ereignis Gewinnlos im 2. Zug gezogen“, P (G 5 ” ¯ 1 ). Entsprechend so bezeichnet die Zahl 14 die Wahrscheinlichkeit P (G2 |G 1 ¯1 ∩ G ¯ 2 ) und gilt: 3 = P (G3 |G ¯1 ∩ G ¯ 2 ∩ G3 ) = P (G ¯ 1 ) · P (G ¯ 2 |G ¯ 1 ) · P (G3 |G ¯1 ∩ G ¯2) = 4 · 3 · 1 = 1 . P (G 5 4 3 5 Ein Baumdiagramm mit den Pfadwahrscheinlichkeiten in allgemeiner Form hebt diesen Gesichtspunkt hervor. Man erkennt so am Baumdiagramm gut, dass die bedingte Wahrscheinlichkeit ein Quotient ist (siehe Angaben zum obersten Weg): P (C|A)
P (A)
A
P (D|A)
P (E|A)
P (B) B
P (F |B)
P (F¯ |B)
2.9.2
C
A∩C P (A ∩ C) = P (A) · P (C|A)
D
E
F
F¯
P (G|A ∩ E)
P (H|B ∩ F )
P (K|B ∩ F¯ )
G
H
K
Bernoulli-Ketten
Wir wenden uns einfachen Zufallsexperimenten zu und fragen nur, ob ein Ereignis eingetreten ist oder nicht. Solche Fragestellungen sind uns nicht unvertraut: Bei W¨ urfelspielen darf ein Spieler z. B. erst dann einen Spielstein zum Einsatz bringen, wenn er eine Sechs“ gew¨ urfelt hat. Beim Werfen des W¨ urfels ” beobachtet man unter diesem Aspekt nur das Auftreten von Sechs“ und das ” Auftreten von Nicht-Sechs“ als Ereignisse. Auch bei einfachen Qualit¨ atskon” trollen (der hergestellte Artikel wird durch eine Zufallsauswahl der Produktion entnommen) unterscheidet man h¨ aufig nur, ob das Produkt einwandfrei funktioniert oder nicht, ob z. B. eine Gl¨ uhbirne brennt oder nicht, ob z. B. eine Batterie arbeitet oder nicht, ob z. B. ein Schalter funktioniert oder nicht.
188
2 Wahrscheinlichkeit
Man betrachtet also jedesmal ausschließlich die Alternative, ob ein interessie¯ Die im Modell zugrundegelegte rendes Ereignis A eintritt oder nicht eintritt (A). ¯ : Ω = {A, A}. ¯ AllgeErgebnismenge Ω hat also nur die zwei Elemente A und A mein geben wir die
Definition 2.13 (Bernoulli-Experiment) Ein Zufallsexperiment, dessen Ergebnismenge aus genau zwei Elementen besteht, heißt Bernoulli-Experiment. Es ist u ¨ blich, bei Bernoulli-Experimenten die beiden Ergebnisse als Treffer (das interessierende Ereignis A ist eingetreten) bzw. als Niete (das Ereignis A ist nicht eingetreten) zu bezeichnen. Die beiden Ereignisse werden oft durch 1“ (f¨ ur Treffer) und durch 0“ (f¨ ur Niete) codiert. Das Ereignis A wird also ” ” durch {1} und das Ereignis A¯ durch {0} codiert. Dann gilt P (A) = P ({1}) und ¯ = P ({0}). P (A) Bei dem Eingangs gew¨ ahlten Beispiel Werfen eines Laplace-W¨ urfels und be” obachten, ob eine Sechs gew¨ urfelt wird oder nicht“ wird das Ereignis Sechs“ ” durch {1} und das Ereignis {1, 2, 3, 4, 5} durch {0} codiert, und es gilt P ({1}) = 1 5 6 und P ({0}) = 6 . Im allgemeinen Fall bezeichnet man die Wahrscheinlichkeit f¨ ur Treffer“ ” P ({1}) h¨ aufig kurz mit p, und die Wahrscheinlichkeit f¨ ur Niete“ P ({0}) mit q. ” F¨ ur q gilt nat¨ urlich q = 1 − p. Wir betrachten jetzt n-fache unabh¨ angige (getrennte) Wiederholungen eines Zufallsexperiments, z. B. das n-fache Werfen einer M¨ unze oder das n-fache Werfen eines W¨ urfels, interessieren uns aber auch jetzt nur bei jedem Wurf daf¨ ur, ob ein bestimmtes Ereignis A eintritt (Treffer) oder nicht (Niete). Beim n-fachen M¨ unzwurf k¨ onnte das Ereignis A bedeuten Auftreten von Zahl“ und ” das Ereignis A¯ Auftreten von Nicht-Zahl“. Beim n-fachen W¨ urfelwurf k¨ onnte ” man jeweils die zwei Ereignisse Auftreten der Sechs“ und Auftreten von 1 ” ” oder 2 oder 3 oder 4 oder 5“ betrachten. Beispiel 2.38 (Verbogene M¨ unze) Eine verbogene M¨ unze mit Ω = {Z, W } wird viermal geworfen. Aufgrund von langen Versuchsreihen mit dieser M¨ unze legte man 2 die folgenden Wahrscheinlichkeiten fest: P ({Z}) = 3 und P ({W }) = 13 . Wir beobachten bei den vier W¨ urfen jeweils als Ereignis A das Auftreten von Zahl ” Z“ und fragen nach der Wahrscheinlichkeit, dass Zahl beim 1. Wurf und beim 2. Wurf und beim 3. Wurf und beim 4.Wurf eintritt. L¨ osung: Es handelt sich um ein vierstufiges Zufallsexperiment. Das Ergebnis eines jeden Wurfes wird in keiner Weise von den Ergebnissen der vorangegangenen
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
189
W¨ urfe beeinflusst. Bei jedem Wurf betr¨ agt die Wahrscheinlichkeit f¨ ur das Er2 eignis Zahl“ bei dieser verbogenen M¨ unze 3 . ” Wir bezeichnen mit A das Ereignis Auftreten von Zahl“ und mit A1 das Er” eignis, dass Zahl beim 1. Wurf“ eintritt. Entsprechend bezeichnen A2 , A3 , A4 ” das Auftreten des Ereignisses Zahl beim zweiten, dritten, vierten Wurf. Da derselbe Versuch viermal nacheinander ausgef¨ uhrt wird, k¨ onnen wir die Modellannahme machen, dass bei jedem Wurf die Wahrscheinlichkeit P (Ak ) mit k = 1, 2, 3, 4 gleich der Wahrscheinlichkeit P (A) = 23 ist. Also P (A1 ) = P (A2 ) = angige) Versuche P (A3 ) = P (A4 ) = 23 . Da es sich ferner um getrennte (unabh¨ handelt, machen wir die weitere Modellannahme, dass die Ereignisse A1 , A2 , A3 und A4 stochastisch unabh¨ angig sind. Dann ergibt sich f¨ ur die gesuchte Wahraß der Multiplikationsregel f¨ ur unabh¨ angischeinlichkeit P (A1 ∩A2 ∩A3 ∩A4 ) gem¨ ge Ereignisse sofort:
4 2 2 2 2 2 P (A1 ∩ A2 ∩ A3 ∩ A4 ) = P (A1 ) · P (A2 ) · P (A3 ) · P (A4 ) = · · · = . 3 3 3 3 3
Anmerkung Bei einem L¨ osungsweg mit Hilfe eines Baumdiagramms ergibt sich ein vierstufiges Baumdiagramm mit 16 verschiedenen Pfaden. Das Zeichnen eines solchen Baumdiagramms ist recht m¨ uhsam und aufwendig. Da jedoch im Beispiel nur nach der Wahrscheinlichkeit des Ereignisses A1 ∩ A2 ∩ A3 ∩ A4 (d. h. beim ersten Wurf Zahl und beim zweiten Wurf Zahl und beim dritten Wurf Zahl und beim vierten Wurf Zahl) gefragt wird, gen¨ ugt es, ein verk¨ urztes Baumdiagramm zu zeichnen, welches nur aus dem entsprechenden Pfad besteht (siehe Beispiel 2.37):
2 3
2 3
2 3
2 3
Z
Z
Z
Z
Nach der Multiplikationspfadregel ergibt sich das Ergebnis
4 2 2 2 2 2 . · · · = 3 3 3 3 3 Das soeben explizit durchgerechnete Beispiel vierfaches Werfen derselben ” M¨ unze“ ist ein Beispiel f¨ ur eine Bernoulli-Kette der L¨ ange 4. Das Experiment besteht n¨ amlich aus vier getrennten (unabh¨ angigen) Durchf¨ uhrungen des Bernoulli-Experiments: Eine M¨ unze wird einmal geworfen, und man beobachtet die Ereignisse Auftreten von Zahl“ und von Nicht-Zahl“. ” ”
190
2 Wahrscheinlichkeit
Allgemein legt man fest: Definition 2.14 (Bernoulli-Kette der L¨ ange n) Ein Zufallsexperiment, das aus n getrennten (unabh¨ angigen) Durchf¨ uhrungen gleichartiger“ Bernoulli-Experimente besteht, heißt Bernoulli-Kette der ” L¨ ange n. Didaktische Hinweise 1.
2.
Bei einer Bernoulli-Kette der L¨ ange n muss es sich nicht um eine n-fache Durchf¨ uhrung identischer“ Einzelversuche handeln, sondern (aus stochas” tischer Sicht) nur um gleichartige“. Das besagt Folgendes: bei jedem Ein” zelversuch muss die gleiche Trefferwahrscheinlichkeit vorliegen: P ({1}) = p und P ({0}) = 1 − p. Jeder Versuch wird also durch dasselbe Modell beschrieben. Wirft man z. B. einen Laplace-W¨ urfel viermal und erkl¨ art als Treffer Zahl ist durch 3 teilbar“ und zieht anschließend einmal aus einer ” Urne mit vier schwarzen und acht roten Kugeln eine Kugel und erkl¨ art Ziehen einer schwarzen Kugel“ als Treffer, dann liegt eine Bernoulli-Kette ” der L¨ ange 5 vor. F¨ ur jeden Einzelversuch gilt: Ω = {0, 1} und P ({1}) = 13 . Aus dem Zufallsexperiment M¨ unzwurf mit der Ergebnismenge Ω = {Z, W } entsteht bei 4-maliger unabh¨ angiger Durchf¨ uhrung des M¨ unzwurfes (siehe das vorherige Beispiel) ein Zufallsexperiment mit einer neuen Ergebnismenge Ω∗ , deren Elementarereignisse 4-Tupel (a, b, c, d) sind, wobei a, b, c, d jeweils Z oder W bedeuten kann, je nachdem was die M¨ unze im ersten, zweiten, dritten oder vierten Wurf oben zeigt. Beispiele: {(Z, Z, Z, Z)}, {(W, W, W, Z)}. Im obigen Beispiel wurde P ({(Z, Z, Z, Z)}) berechnet: P ({(Z, Z, Z, Z)}) = P ({Z}) · P ({Z}) · P ({Z}) · P ({Z}). Man erh¨ alt f¨ ur {(W, W, W, Z)} analog: P ({(W, W, W, Z)}) = P ({W }) · P ({W }) · P ({W }) · P ({Z}). Hierbei bedeutet das Ereignis {(W, W, W, Z)}, dass Zahl zum erstenmal im vierten Versuch auftritt. angigen Durchf¨ uhrung Die neue Ergebnismenge Ω∗ , die bei der 4-maligen unabh¨ eines Zufallsexperiments mit der Ergebnismenge Ω entsteht, ist nichts anderes als das 4-fache kartesische Produkt von Ω: Ω∗ = Ω × Ω × Ω × Ω = Ω 4 . Allgemein: Wird ein Zufallsexperiment mit der Ergebnismenge Ω n-mal unabh¨ angig durchgef¨ uhrt, so entsteht dadurch ein Zufallsexperiment mit der Ergebnismenge Ω∗ , die sich als n-faches kartesisches Produkt von Ω ergibt: Ω∗ = Ω × Ω × Ω × . . . × Ω = Ωn . n−mal
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
191
Die Elementarereignisse sind hier also n-Tupel.
Beispiele f¨ ur Bernoulli-Ketten 1.
Das Ergebnis eines Roulett-Spieles ist eine der Zahlen zwischen 1 bis 36 oder die Null, die alle mit gleicher Wahrscheinlichkeit auftreten. Bei den sog. einfachen (Gewinn-)Chancen wird auf Rouge (Rot, 18 rote Zahlen) oder Noir (Schwarz, 18 schwarze Zahlen), Impair (Ungerade) oder Pair (Gerade), Manque (1 – 18) oder Passe (19 – 36) in den gekennzeichneten Feldern gesetzt. Bei diesen einfachen (Gewinn-) Chancen wird der Einsatz und zus¨ atzlich derselbe Betrag ausgezahlt. Wenn jemand 15-mal nacheinander auf Rot setzt, kann das als Bernoulli-Kette der L¨ ange 15 angesehen werden. Das Bernoulli-Experiment ist das einmalige Setzen auf Rot R mit ¯ Ω = {R, R}.
2.
Erfahrungsgem¨ aß keimt eine Zwiebel einer bestimmten Blumenzwiebelsorte mit einer Wahrscheinlichkeit von 0,05 nicht. Diese Zwiebelsorte wird in Zehnerpackungen verkauft. Jemand setzt 10 Zwiebeln. Man kann dieses als Zufallsexperiment ansehen, das 10-mal wiederholt wird. Beobachtet werden die Ereignisse Keimen“ und Nicht-Keimen“. Obwohl die Zwiebeln nicht ” ” identisch sind, kann man im Modell von einer Bernoulli-Kette der L¨ ange 10 sprechen. Das Setzen einer einzelnen Zwiebel mit den interessierenden Ereignissen Keimen“ und Nicht-Keimen“ ist das Bernoulli-Experiment. ” ” Eine Maschine stanzt in Metallblech bestimmte Formen. Die Wahrscheinlichkeit, dass bei einem derartigen Stanzvorgang das Stanzwerkzeug stumpf und somit unbrauchbar wird, sei p = 0, 1. Ein einzelner Stanzvorgang kann als Bernoulli-Experiment mit den Ereignissen Stanzwerkzeug stumpf“ und ” Stanzwerkzeug nicht-stumpf“ angesehen werden. F¨ uhrt man n Stanz” vorg¨ ange durch, kann man von einer Bernoulli-Kette der L¨ ange n sprechen. Zieht man aus einer Urne mit m roten Kugeln, m schwarzen Kugeln und einer blauen Kugel 5-mal nacheinander eine Kugel, legt die jeweils gezogene Kugel vor der n¨ achsten Ziehung wieder in die Urne zur¨ uck und interessiert sich z. B. nur daf¨ ur, ob die blaue Kugel gezogen wird (Treffer) oder nicht, so k¨ onnen wir im Modell von einer Bernoulli-Kette der L¨ ange 5 sprechen. Legt man die jeweils gezogene Kugel vor der n¨ achsten Ziehung nicht wieder in die Urne zur¨ uck, so liegt keine Bernoulli-Kette vor, denn der Urneninhalt (also die Trefferwahrscheinlichkeit) ¨ andert sich von Ziehung zu Ziehung.
3.
4.
Man erkennt, viele Anwendungen f¨ uhren beim Modellbildungsprozess auf aufig treten dabei die folgenden GrundFragestellungen zu Bernoulli-Ketten. H¨ aufgaben auf, die wir zun¨ achst allgemein formulieren und l¨ osen. Anschließend werden wir sie auf Beispiele anwenden. Man f¨ uhrt einen Versuch n-mal nacheinander aus und beobachtet jedesmal nur das Auftreten eines interessierenden Ereignisses A oder sein Nicht-Auftreten
192
2 Wahrscheinlichkeit
¯ Sei die Wahrscheinlichkeit P (A) f¨ A. ur das Ereignis A gleich p, und die f¨ ur das ¯ Ereignis A gleich q = 1 − p. Sei nun Ak das Ereignis, dass A beim k-ten Versuch in der Bernoulli-Kette der L¨ ange n eingetreten ist. Da derselbe Versuch n-mal nacheinander ausgef¨ uhrt wird, kann man die Modellannahme P (Ak ) = P (A) = p f¨ ur k = 1, 2, . . . , n machen. Alle Wahrscheinlichkeiten P (Ak ) sind also gleich. Da es sich um getrennte Versuche handelt, wird man annehmen, dass die Ereignisse angig sind. A1 , A2 , . . ., An stochastisch unabh¨ 1. Grundaufgabe ( Warten auf den ersten Erfolg“) ” Wie groß ist die Wahrscheinlichkeit, dass das Ereignis A beim k-ten Versuch zum erstenmal eintritt, dass also beim k-ten Versuch der erste Treffer erzielt wird? ¯ = 1 − p. L¨ osung: Die ersten k − 1 Versuche f¨ uhren alle zum Ereignis A¯ mit P (A) Der k-te Versuch f¨ uhrt zu A. Es ist P (Ak ) = P (A) = p. Nach der Multiplikationsregel f¨ ur unabh¨ angige Ereignisse folgt f¨ ur die gesuchte Wahrscheinlichkeit ¯ A, ¯ A, ¯ ...,A ¯, A)}) = (1 − p) · (1 − p) · . . . · (1 − p) ·p = (1 − p)k−1 · p. P ({(A, (k−1)−mal k−1 Faktoren Hinweis: Vgl. sp¨ ater Geometrische Verteilung“ (Kapitel 5, Abschnitt 5.4). ” Beispiel 2.39 Beim schon erw¨ ahnten Roulett ist es sinnvoll, die Laplace-Verteilung anzunehmen. Die Ereignisse Rot (R) und Schwarz (S) haben also dieselbe Wahrschein1 lichkeit 18 37 ; das Ereignis Null (N) hat die Wahrscheinlichkeit 37 . Die Wahrscheinlichkeit, dass Rot zum erstenmal beim 6. Spiel auftritt, betr¨ agt
5 18 ¯ R, ¯ R, ¯ R, ¯ R, ¯ R}) = 19 P ({R, · , 37 37 und sie ist genauso groß wie die Wahrscheinlichkeit, dass Schwarz zum erstenmal beim 6. Spiel auftritt:
5 18 ¯ S, ¯ S, ¯ S, ¯ S, ¯ S}) = 19 · . P ({S, 37 37 Man erkennt auch, dass alle gleichlangen Versuchsserien mit R und S dieselben Wahrscheinlichkeiten haben. Also z. B.:
5 18 . P ({(R, S, R, S, R)}) = P ({(R, R, R, R, R)}) = P ({(R, R, R, S, S)}) = 37 Beachte: Die Roulett-Maschine hat kein Ged¨ achtnis.
2. Grundaufgabe ( Wenigstens ein Treffer“) ” Wie groß ist die Wahrscheinlichkeit, dass unter n Versuchen das Ereignis A wenigstens einmal auftritt? Anders formuliert: Wie groß ist die Wahrscheinlichkeit,
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
193
dass unter n Versuchen wenigstens ein Treffer erzielt wird? ¯ A, ¯ . . . , A¯)}), dass das Ereignis A bei alL¨ osung: Die Wahrscheinlichkeit P ({(A, n−mal
len n Versuchen nicht eintritt, ist nach der Multiplikationsregel f¨ ur die Wahrscheinlichkeiten (1 − p)n . Das Ereignis wenigstens ein Treffer in n Versuchen“ ” ist das Gegenereignis zu kein Treffer in n Versuchen“. F¨ ur die gesuchte Wahr” scheinlichkeit P gilt: ¯ A, ¯ . . . , A¯)}) = 1 − (1 − p)n . P = 1 − P ({(A, n−mal
Beispiel 2.40 Wie groß ist die Wahrscheinlichkeit, dass beim viermaligen Ausspielen eines Laplace-W¨ urfels aus einem Becher mindestens eine 6 f¨ allt? (Vgl. Beispiel 2.3 (Das Paradoxon von de M´er´e)). Das Ereignis Auftreten von mindestens einer ” 6 bei 4-maligem W¨ urfeln“ ist die Negation des Ereignisses Auftreten keiner ” 6 bei 4-maligem W¨ urfeln“. Die Wahrscheinlichkeit des Ereignisses keine 6 bei 5 4 ” agt die gesuchte Wahrscheinlichkeit 4-maligem W¨ urfeln“ ist 6 . Also betr¨
4 5 P (mindestens eine 6 beim 4-maligen Werfen) = 1 − ≈ 0, 5177. 6
3. Grundaufgabe ( Genau k Treffer“) ” Wie groß ist die Wahrscheinlichkeit Pn,k , dass unter n Versuchen das Ereignis A genau k-mal, 0 ≤ k ≤ n, eintritt? L¨ osung: Die Wahrscheinlichkeit, dass das Ereignis A bei einer Serie von n Versuchen an genau k bestimmten Stellen eintritt, ist pk ·(1−p)n−k . Ein solcher Fall w¨ are z. B. der, dass A genau bei den ersten k Versuchen eintritt und dann nicht mehr, oder der, dass A nur bei den letzten k Versuchen eintritt. In einer Serie von n Versuchen gibt es aber f¨ ur das k-malige Auftreten des Ereignisses A insgesamt n verschiedene M¨ o glichkeiten (Kombinationen ohne Wiederholung: Aus n Elek n menten kann man auf k verschiedene Arten k Elemente ausw¨ ahlen). Diese n k M¨ oglichkeiten f¨ uhren gem¨ aß der Multiplikationsregel alle auf die Wahrscheinur die gesuchte Wahrscheinlichkeit erh¨ alt man dann lichkeit pk · (1 − p)n−k . F¨ (Additionsregel): n Pk,n = · pk · (1 − p)n−k , 0 ≤ k ≤ n. k Hinweis: Vgl. Binomialverteilung“ (Kapitel 5, Abschnitt 5.1). ”
194
2 Wahrscheinlichkeit
Beispiel 2.41 Wie groß ist die Wahrscheinlichkeit, beim 5-maligen Werfen einer gezinkten M¨ unze mit P ({Z}) = 23 und P ({W }) = 13 genau 2-mal Zahl zu erzielen? Als L¨ osung ergibt sich: 2 3 40 5 2 1 4 1 = . P5,2 = · · = 10 · · 3 3 9 27 243 2 2 3 Das Produkt 23 · 13 gibt die Wahrscheinlichkeit an, dass bei einem Versuch in irgendeiner bestimmten Reihenfolge genau 2-mal Zahl Z und 3-mal Wappen W auftritt, z. B.: (W, Z, Z, W, W ). Es gibt aber insgesamt zehn solcher 5-Tupel mit 2-mal Z und 3-mal W : (Z, Z, W, W, W )
(W, Z, W, Z, W )
(Z, W, Z, W, W )
(W, Z, W, W, Z)
(Z, W, W, Z, W )
(W, W, Z, Z, W )
(Z, W, W, W, Z)
(W, W, Z, W, Z)
(W, Z, Z, W, W )
(W, W, W, Z, Z)
5 = 10. Die zehn verschiedenen 5-Tupel haben 2 3 2 2 alle dieselbe Wahrscheinlichkeit 3 · 13 . Die Addition dieser zehn Summanden schreiben wir verk¨ urzt als Multiplikation: 2 3 5 2 1 · · . 3 3 2
Das ber¨ ucksichtigt der Faktor
2.9.3
Totale Wahrscheinlichkeit und Satz von Bayes
In diesem Abschnitt steht nochmals die bedingte Wahrscheinlichkeit im Mittel¨ punkt der Uberlegungen. Es werden zwei f¨ ur den Anwendungsbereich wichtige Fragestellungen thematisiert. Beispiel 2.42 (Defekte Gl¨ uhbirne) angig voneinander 60 %, 25 % Drei Maschinen M1 , M2 , M3 produzieren unabh¨ bzw. 15 % der in einem Betrieb hergestellten Gl¨ uhbirnen. Erfahrungsgem¨ aß betr¨ agt der Anteil der defekten Gl¨ uhbirnen bei der Maschine M1 2 %, der Anteil der defekten Gl¨ uhbirnen bei Maschine M2 3 % und der Anteil der defekten Gl¨ uhbirnen bei Maschine M3 5 %. Wie groß ist die Wahrscheinlichkeit, dass eine zuf¨ allig der Tagesproduktion entnommene Gl¨ uhbirne defekt ist?
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
195
L¨ osungsweg 1: Wir versuchen zun¨ achst, dieses Problem mit dem gesunden Menschenverstand“ ” zu l¨ osen. Wir nehmen an, die zuf¨ allige Auswahl erfolgt so, dass die Tagesproduktion der Gl¨ uhbirnen der drei Maschinen gut durchmischt in einem Beh¨ alter vorliegt und blind eine Gl¨ uhbirne gezogen wird. Wir machen also die Annahme der Laplace-Wahrscheinlichkeit und berechnen den entsprechenden Quotienten f¨ ur das Ereignis defekte Gl¨ uhbirne“. Da nur prozentuale Angaben zur ” Verf¨ ugung stehen, k¨ onnen wir auch nur prozentuale Angaben f¨ ur das Ereignis defekte Gl¨ uhbirne“ bestimmen, also Angaben jeweils bezogen auf 100 Gl¨ uhbir” nen. Dieser prozentuale Anteil gibt dann die gesuchte Wahrscheinlichkeit an. Die Maschine M1 stellt 60 % der Gl¨ uhbirnen her, davon sind 2 % defekt, d. h. es sind bezogen auf die Gesamtproduktion defekter Gl¨ uhbirnen 0, 60 · 0, 02 = 0, 012 = 1, 2 % defekt. Entsprechend produziert Maschine M2 einen Gesamtanteil defekter Gl¨ uhbirnen von 0, 25 · 0, 03 = 0, 0075 = 0, 75 %, und Maschine M3 einen Gesamtanteil defekter Gl¨ uhbirnen von 0, 15 · 0, 05 = 0, 0075 = 0, 75 %. Eine defekte Gl¨ uhbirne kann Produkt der ersten oder zweiten oder dritten Maschine sein. Wir haben also die drei Defektanteile zu addieren und erhalten (1, 2 + 0, 75 + 0, 75)% = 2, 7 %. Das heißt, die Wahrscheinlichkeit, dass die zuf¨ allig entnommene Gl¨ uhbirne defekt ist, betr¨ agt 0,027. L¨ osungsweg 2: Dieser 2. L¨ osungsweg bereitet die Modellbildung f¨ ur den allgemeinen Fall vor. Die Ergebnismenge Ω besteht genau aus den produzierten Gl¨ uhbirnen. Jede Gl¨ uhbirne wird genau von einer der drei Maschinen hergestellt. Wir nehmen uhbirnen, Maschine M2 produziert B2 Gl¨ uhan, Maschine M1 produziert B1 Gl¨ birnen, und Maschine M3 produziert B3 Gl¨ uhbirnen. Die Vereinigung von B1 , B2 und B3 liefert also Ω, und die Mengen B1 , B2 und B3 sind paarweise unvereinbar. Das Ereignis Gl¨ uhbirne defekt“ bezeichnen wir mit A, es kann nur ” zusammen mit B1 , B2 oder B3 auftreten. Gesucht ist die Wahrscheinlichkeit P (A).
196
2 Wahrscheinlichkeit A ∩ B3
B2
:
B3
A ∩ B2
Ω
A
A ∩ B1 B1
F¨ ur A gilt: A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ (A ∩ B3 ), denn das Ereignis A Gl¨ uhbirne defekt“, kann nur zusammen mit einem Ereignis ” ur k = 1, 2, 3 auftreten. Wie Bk Gl¨ uhbirne produziert von Maschine Mk“ f¨ ” oben schon ausgef¨ uhrt sind die Ereignisse B1 , B2 , B3 paarweise unvereinbar und damit auch die Ereignisse A ∩ B1 , A ∩ B2 und A ∩ B3 . Also folgt nach der Additionsregel P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + P (A ∩ B3 ). Keine dieser Wahrscheinlichkeiten P (A ∩ Bk ), k = 1, 2, 3, kennen wir; wir kennen aber P (B1 ) = 0, 6 (entsprechend 60 % in der Aufgabenstellung) und ebenso P (B2 ) = 0, 25 und P (B3 ) = 0, 15. Ferner kennen wir die bedingten Wahrscheinlichkeiten f¨ ur das Ereignis A defekte Gl¨ uhbirne“ unter der Bedingung ” uhbirne produziert von Maschine Mk“: Es gilt n¨ Bk Gl¨ amlich P (A|B1 ) = 0, 02, ” onnen wir die unbekannten P (A|B2 ) = 0, 03 und P (A|B3 ) = 0, 05. Damit k¨ ur k = 1, 2, 3 gem¨ aß der Wahrscheinlichkeiten P (A und Bk ) = P (A ∩ Bk ), f¨ Multiplikationsregel P (A ∩ Bk ) = P (Bk ) · P (A|Bk ) durch die entsprechenden Produkte ersetzen. Aus P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + P (A ∩ B3 ) folgt also P (A) = P (B1 ) · P (A|B1 ) + P (B2 ) · P (A|B2 ) + P (B3 ) · P (A|B3 ), P (A) = 0, 6 · 0, 02 + 0, 25 · 0, 03 + 0, 15 · 0, 05 = 0, 027. Das ist auch das Ergebnis des ersten L¨ osungsweges.
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
197
Aus den Wahrscheinlichkeiten eines Ereignisses A unter den verschiedenen Bedingungen B1 , B2 und B3 haben wir die Wahrscheinlichkeit des Ereignisses A ohne Bedingung“ berechnet. Dabei haben wir ausgenutzt, dass die den ” Ereignissen B1 , B2 und B3 entsprechenden nichtleeren Teilmengen von Ω eine Zerlegung von Ω bilden. Das ist bereits die Aussage des Satzes von der totalen Wahrscheinlichkeit.
Satz 2.22 (Totale Wahrscheinlichkeit) Ist (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum und bilden die Ereignisse B1 , B2 , . . ., Bn von Ω mit P (Bk ) > 0 f¨ ur alle k = 1, 2, . . . , n eine Zerlegung von Ω, d. h. ist: B1 ∪ B2 ∪ . . . ∪ Bn = Ω und ur alle i = j, Bi ∩ Bj = ∅ f¨ so gilt f¨ ur jedes Ereignis A ∈ P(Ω) P (A)
=
P (A)
=
P (B1 ) · P (A|B1 ) + P (B2 ) · P (A|B2 ) + . . . + P (Bn ) · P (A|Bn ), n P (Bk ) · P (A|Bk ). k=1
Sonderfall n = 2: ¯ Ω = B ∪ B. ¯ In diesem Fall gilt Die Ergebnismenge Ω zerf¨ allt nur in B und B: ¯ bei P (B) > 0 und P (B) > 0: ¯ · P (A|B). ¯ P (A) = P (B) · P (A|B) + P (B) Beweis: Der Beweis folgt dem zweiten L¨ osungsweg des Beispiels. Es gilt B1 ∪ B2 ∪ . . . ∪ Bn = Ω, und es gilt A = (B1 ∩ A) ∪ (B2 ∩ A) ∪ . . . ∪ (Bn ∩ A). ur k = 1, 2, . . . , n sind paarweise unvereinbar, weil die Die Ereignisse Bk ∩ A, f¨ Bk eine Zerlegung von Ω bilden. Es gilt also: (Bi ∩ A) ∩ (Bk ∩ A) = ∅
f¨ ur alle i = k.
Nach der Additionsregel (Satz 4 als Folgerung aus dem Axiomensystem) folgt P (A) = P (B1 ∩ A) + P (B2 ∩ A) + . . . + P (Bn ∩ A) und wegen der Multiplikationsregel P (Bk ∩ A) = P (Bk ) · P (A|Bk )
f¨ ur alle k = 1, 2, . . . , n
198
2 Wahrscheinlichkeit
folgt P (A)
=
P (A)
=
P (B1 ) · P (A|B1 ) + P (B2 ) · P (A|B2 ) + . . . + P (Bn ) · P (A|Bn ), n P (Bk ) · P (A|Bk ). k=1
Wir kn¨ upfen eine zweite Fragestellung an. Wir fragen mit Blick auf das letzte Beispiel 2.42: Beispiel 2.43 Wie groß ist die Wahrscheinlichkeit, dass eine zuf¨ allig ausgew¨ ahlte Gl¨ uhbirne, die sich als defekt erwies, von der Maschine M3 produziert wurde? L¨ osung: Gesucht ist (mit den eingef¨ uhrten Bezeichnungen) die Wahrscheinlichkeit P (B3 |A). Nach der Definition der bedingten Wahrscheinlichkeit gilt P (B3 |A) =
P (B3 ∩ A) P (B3 ) · P (A|B3 ) = , P (B3 ) = 0, P (A) = 0. P (A) P (A)
Die Wahrscheinlichkeiten P (B3 ) und P (A|B3 ) sind gegeben, die totale Wahrscheinlichkeit P (A) haben wir soeben berechnet. Einsetzen der Werte liefert P (B3 |A) =
0, 15 · 0, 05 ≈ 0, 278. 0, 027
Die zweite Fragestellung beinhaltet mit ihrer L¨ osung den Satz von Bayes (Thomas Bayes, 1702 – 1761, englischer presbyterianischer Geistlicher mit Interesse f¨ ur Mathematik).
Satz 2.23 (Satz von Bayes) Es seien (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum und A ein Ereignis mit P (A) > 0. Bilden die Ereignisse B1 , B2 , . . ., Bn eine Zerlegung von Ω und ist P (Bk ) > 0 f¨ ur alle k = 1, 2, . . . , n, so gilt f¨ ur jedes k = 1, 2, . . . , n P (Bk |A) =
P (Bk ) · P (A|Bk ) P (Bk ) · P (A|Bk ) = n . P (A) i=1 P (Bi ) · P (A|Bi )
Sonderfall n = 2: ¯ Ω = B ∪ B. ¯ In diesem Fall gilt Die Ergebnismenge Ω zerf¨ allt nur in B und B: ¯ bei P (A) > 0 und P (B) > 0 und P (B) > 0: P (B|A) =
P (B) · P (A|B) ¯ · P (A|B) ¯ . P (B) · P (A|B) + P (B)
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
199
Beweis: Wie schon das oben durchgerechnete Beispiel zeigt, besteht der Beweis im Wesentlichen im zweimaligen Anwenden der Definition der bedingten Wahrscheinlichkeit. Nach der Definition der bedingten Wahrscheinlichkeit gilt bei P (A) = 0 und bei P (Bk ) = 0: P (Bk |A) =
P (Bk ) · P (A|Bk ) P (Bk ∩ A) = . P (A) P (A)
Ersetzt man P (A) gem¨ aß dem Satz von der totalen Wahrscheinlichkeit, so erh¨ alt man P (Bk ) · P (A|Bk ) . P (Bk |A) = n i=1 P (Bi ) · P (A|Bi )
Didaktische Hinweise 1.
2.
Der Beweis des Satzes von Bayes l¨ asst erkennen, dass sich die Formel von Bayes lediglich aus Umformungen der Definitionsgleichung der bedingten Wahrscheinlichkeit ergibt. Man braucht sie deshalb nicht auswendig zu lernen, da man sie jederzeit bei Kenntnis der bedingten Wahrscheinlichkeit sofort herleiten kann. Im Sonderfall n = 2, bei dem die Ergebnismenge Ω nur in die Ereignisse B ¯ zerf¨ ¯ l¨ und B allt (Ω = B ∪ B), asst sich die totale Wahrscheinlichkeit P (A) f¨ ur ein Ereignis A gut aus einem Baumdiagramm bestimmen: P (A|B)
A
¯ P (A|B)
A¯
¯ P (A|B)
A
¯ B) ¯ P (A|
A¯
B P (B)
¯ P (B) ¯ B
Man hat die bei A endenden zwei Pfade im Baumdiagramm zu ber¨ ucksichtigen und die Multiplikations- und Additionsregel anzuwenden: ¯ · P (A|B). ¯ P (A) = P (B) · P (A|B) + P (B)
200 3.
2 Wahrscheinlichkeit Wendet man die Formel von Bayes an, braucht man zur Berechnung von P (Bk |A) auch die Kenntnis von P (Bk ). Man nennt P (Bk ) die a-prioriWahrscheinlichkeit f¨ ur das Ereignis Bk und P (Bk |A) die a-posteriori-Wahrscheinlichkeit f¨ ur das Ereignis Bk . Davon macht man z. B. Gebrauch in der Medizin, Rechtsprechung etc. Beispiel 2.44 (Mordprozess) In einem Mordfall liegen gewisse Indizien vor, die f¨ ur die T¨ aterschaft einer gewissen Person sprechen. Ein solches Indiz (wir be¨ zeichnen es als Ereignis A) k¨ onnte z. B. sein: die Ubereinstimmung der ” Blutgruppenformel bei Blutspuren an der Kleidung der verd¨ achtigen Person ¨ mit der bei dem Toten“ oder die Ubereinstimmung von Textilfaserspuren ” an der Kleidung der verd¨ achtigen Person mit einer Textilfaser beim Toten“. Ferner bezeichnen wir mit B das Ereignis, dass der Verd¨ achtige Kontakt mit dem Toten hatte. Von Interesse ist dann die Frage nach der Wahrscheinlichkeit P (B|A), dass also die verd¨ achtige Person Kontakt mit dem Toten hatte, unter der Bedingung, dass ein Indiz A erf¨ ullt ist. Die Formel von Bayes liefert eine Berechnungsm¨ oglichkeit. Allerdings muss man P (A|B), P (A) und vor allem auch P (B) kennen. Gerade u ¨ ber diese letzte a-priori-Wahrscheinlichkeit P (B) weiß man aber h¨ aufig wenig. Man muss Annahmen machen. F¨ ur P (A|B) k¨ onnte man ann¨ ahernd 1 ansetzen, denn es ist mit an Sicherheit grenzender Wahrscheinlichkeit anzunehmen, dass sich unter der Hypothese eines Kontaktes B Indizien der oben beschriebenen Art ergeben. Bei der Bestimmung von P (A) braucht man auch ¯ (vgl. Punkt 2). F¨ ur diese Wahrscheinlichkeit k¨ P (A|B) onnte man beim Indiz Blutspuren“ als Sch¨ atzwert die prozentuale H¨ aufigkeit der Blutgruppe des ” Toten in der Bev¨ olkerung annehmen. Was aber ist mit der a-priori-Wahrscheinlichkeit P (B) f¨ ur das Ereignis Verd¨ achtige Person hatte Kontakt mit ” dem Toten“? In einem Mordprozess im Jahre 1973/74 (Wuppertal) entschied sich ein Gutachter sinngem¨ aß so: Ich nehme eine a-priori-Wahrscheinlichkeit von ” 50 % f¨ ur die T¨ aterschaft des Beklagten an. Das bedeutet, daß ich dem Beklagten gegen¨ uber unvoreingenommen bin, da ich davon ausgehe, daß er ebensogut schuldig wie unschuldig sein kann“ (Schrage [156], S. 92). Diese außerst gewagte Hypothese ist zu verwerfen. Schrage, der dar¨ uber berichte¨ te, schreibt dazu: Ein analoges Vorgehen k¨ onnte in einem Vaterschaftspro” zess akzeptiert werden, in dem einer von zwei in Frage kommenden Kandidaten mit Sicherheit der gesuchte Vater ist. Dass aber im vorliegenden Fall die Annahme einer a-priori-Wahrscheinlichkeit von 50 % zu einem v¨ ollig unangemessenen mathematischen Modell f¨ uhrt, bedarf wohl keiner weiteren Erl¨ auterung“ (Schrage [156], S. 92).
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
201
Angemessener w¨ are die Annahme einer wesentlich kleineren a-priori-Wahr scheinlichkeit. Anmerkung zum Beispiel: Der Gutachter hatte eine u ¨ber 90 %ige Wahrscheinlichkeit f¨ ur die T¨ aterschaft des Beklagten errechnet. Aufgrund eines Alibis wurde der Prozess abgebrochen und der Beklagte freigesprochen. Man erkennt, dass Modellannahmen ins Spiel kommen k¨ onnen, die zu Fehlbeurteilungen f¨ uhren k¨ onnen. Eine typische Fragestellung aus dem Themenkreis dieses Abschnitts illustriert auch das folgende Beispiel. Beispiel 2.45 (Medizinischer Test) Eine medizinische Untersuchungsmethode zur Fr¨ uherkennung einer bestimmten Krankheit liefert bei erkrankten Personen einen positiven Krankheitsbefund in 96 % der F¨ alle. Andererseits liefert die Methode auch bei gesunden Personen einen positiven Krankheitsbefund in 3 % der F¨ alle (falsch-positiv). Ferner wird angenommen, dass die betreffende Krankheit in der zugrundeliegenden Population (Grundgesamtheit) bei 2 % der Personen vorliegt. F¨ ur eine Person der Population ist es nat¨ urlich von erheblichem Interesse zu wissen, mit welcher Wahrscheinlichkeit sie trotz eines positiven Befundes gesund ist (siehe Frage c)), sie bei positivem Befund tats¨ achlich Tr¨ ager der Krankheit ist (siehe Frage b)). Ferner ist generell die Frage nach der Wahrscheinlichkeit eines positiven Testbefundes von Bedeutung (siehe Frage a)). Wie groß ist die Wahrscheinlichkeit, dass eine zuf¨ allig aus der Grundgesamtheit herausgegriffene Person aufgrund der Untersuchungsmethode einen positiven Krankheitsbefund liefert? b) Berechnen Sie die Wahrscheinlichkeit, dass eine zuf¨ allig aus der Menge der Personen mit positivem Krankheitsbefund“ herausgegriffene Person tat” s¨ achlich Tr¨ ager der Krankheit ist. c) Wie groß ist die Wahrscheinlichkeit daf¨ ur, dass eine zuf¨ allig ausgew¨ ahlte Person mit positivem Befund gesund ist?
a)
L¨ osung: Wir bezeichnen mit K das Ereignis Person ist krank“, ” ¯ das Ereignis Person ist gesund“, mit K ” mit T das Ereignis Ergebnis der Untersuchungsmethode ist positiv“, ” mit T¯ das Ereignis Ergebnis der Untersuchungsmethode ist negativ“. ” Mit den in der Aufgabe gemachten Modellannahmen folgt: P (K) = 0, 02 ;
P (T |K) = 0, 96 ;
¯ = 0, 03. P (T |K)
202
2 Wahrscheinlichkeit
a) Gesucht ist die totale Wahrscheinlichkeit P (T ): P (T )
=
¯ · P (T |K), ¯ P (K) · P (T |K) + P (K)
=
0, 02 · 0, 96 + (1 − 0, 02) · 0, 03 = 0, 0486.
b) Gesucht ist die bedingte Wahrscheinlichkeit P (K|T ), die nach der Formel von Bayes berechnet wird: P (K|T ) =
P (K ∩ T ) P (K) · P (T |K) = . P (T ) P (T )
Unter Verwendung des Ergebnisses aus a) folgt: P (K|T ) = c)
0, 02 · 0, 96 ≈ 0, 3951. 0, 0486
¯ ). Es gilt: Gesucht ist die bedingte Wahrscheinlichkeit P (K|T ¯ )= P (K|T
¯ · P (T |K) ¯ 0, 98 · 0, 03 P (K) = ≈ 0, 6049. P (T ) 0, 0486
Die L¨ osung von c) l¨ asst sich einfacher bestimmen durch ¯ ) = 1 − P (K|T ) = 1 − 0, 3951 = 0, 6049. P (K|T
Anmerkungen zur L¨ osung 1.
2.
Eine der Modellannahmen war, dass die betreffende Krankheit in der zugrundegelegten Grundgesamtheit bei 2 % der Personen auftritt, das f¨ uhrte zu P (K) = 0, 02. In den L¨ osungen zu a), b) und c) geht diese Wahrscheinlichkeit P (K) wesentlich ein, so z. B. in Teil b) bei der Berechnung der a-posteriori-Wahrscheinlichkeit P (K|T ). Die a-priori-Wahrscheinlichkeit wurde sicherlich als Sch¨ atzwert mittels relativer H¨ aufigkeit gefunden. Es entstehen Fragen: Wie groß war das Untersuchungskollektiv? Wie homogen/inhomogen war es? Wurden Personen aus Risikogruppen ber¨ ucksichtigt? Es wird deutlich, dass die L¨ osung im Beispiel nur eine L¨ osung unter bestimmten Modellannahmen ist. Eine geeignete Ergebnismenge Ω ergibt sich mit obigen Bezeichungen als ¯ T ), (K, ¯ T¯ )}. Das Ereignis {(K, ¯ T ), (K, ¯ T¯ )} bedeuΩ = {(K, T ), (K, T¯ ), (K, tet Person ist gesund“. ”
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
203
Didaktische Hinweise zur Vierfeldertafel und zum Baumdiagramm 1.
Ein den Rechenweg wirkungsvoll unterst¨ utzendes Mittel ist die Vierfeldertafel. An der Situation des letzten Beispiels Medizinischer Test“ gehen wir ” kurz auf die Vierfeldertafel ein. Das Untersuchungskollektiv ist nach zwei Merkmalen klassifiziert: Gesundheitszustand und Testergebnis. Das Merkmal Gesundheitszustand hat die ¯ das MerkAuspr¨ agungen Person ist krank K“ und Person ist gesund K“, ” ” mal Testergebnis hat die zwei Auspr¨ agungen Testergebnis ist positiv T“ ” ¯ In die Felder (im Inneren und an den und Testergebnis ist negativ T“. ” R¨ andern) tr¨ agt man die entsprechenden Wahrscheinlichkeiten ein. Zum besseren Verst¨ andnis haben wir auch die Wahrscheinlichkeiten in allgemeine Symbolik angegeben. K
¯ K
Person ist krank
P (T )
T
P (T ∩ K)
Person ist gesund ¯ P (T ∩ K)
Testergebnis
0,0192
0,0294
0,0486
ist positiv T¯
P (T¯ ∩ K)
¯ P (T¯ ∩ K)
P (T¯ )
Testergebnis
0,0008
0,9506
0,9514
P (K)
¯ P (K)
P (Ω)
0,02
0,98
1
ist negativ
2.
In der Randzeile bzw. Randspalte k¨ onnen die totalen Wahrscheinlichkeiten ¯ ¯ P (K), P (K) bzw. P (T ), P (T ) abgelesen werden. Es handelt sich um die Summen der Wahrscheinlichkeiten der jeweiligen Spalte bzw. Zeile. Zum Beispiel: ¯ P (T ) = P (T ∩ K) + P (T ∩ K).
3.
Die bedingten Wahrscheinlichkeiten k¨ onnen mit Hilfe der in der Vierfeldertafel angegebenen Wahrscheinlichkeiten berechnet werden; z. B.: ¯ ¯ P (K ∩ T ) ¯ T¯ ) = P (K ∩ T ) . P (K|T ) = oder P (K| P (T ) P (T¯)
4. 5.
¯ = P (T ) + P (T¯ ). Es gilt: P (Ω) = P (K) + P (K) Mit Hilfe der Vierfeldertafel kann leicht die allgemeine Additionsregel (Satz 2.5, Abschnitt 4.2 in diesem Kapitel) gefunden werden (siehe Aufgabe 25 in Abschnitt 2.9.4). Nehmen wir an, das Untersuchungskollektiv Ω im letzten Beispiel bestehe aus 10000 Personen. Dann ergibt sich f¨ ur die im Beispiel vorgegebenen Situationen folgende absolute Verteilung, die sehr hilfreich f¨ ur das Verst¨ andnis der Aufgabe sein kann:
6.
204
2 Wahrscheinlichkeit
T T¯
K
¯ K
192
294
486
8
9506
9514
200
9800
10000 (= |Ω|)
7.
Aus einer Vierfeldertafel k¨ onnen zwei Baumdiagramme gewonnen werden, je nachdem, ob man Ω zuerst nach dem einen Merkmal zerlegt oder zuerst nach dem anderen Merkmal. Die Zerlegungen von Ω seien m¨ annlich (M), alt man: weiblich (W) bzw. krank (K), gesund (K). Dann erh¨
Die Vierfeldertafel hat statischen Charakter. Man kann eine Vierfeldertafel auf verschiedene Weisen gestuft interpretieren (siehe obige Abbildung). 9. Im Baumdiagramm k¨ onnen die der Stufung entsprechenden bedingten Wahrscheinlichkeiten unmittelbar abgelesen werden. In der Vierfeldertafel m¨ ussen sie aus den Daten der Tafel berechnet werden. 10. Das Baumdiagramm legt durch die Stufung eine Orientierung oder Richtung in der Reihenfolge der Ereignisse fest. Dieser dynamische Charakter des Baumdiagramms kann die L¨ osung einer Aufgabe unter Umst¨ anden erschweren. So kann man im linken obigen Baumdiagramm die bedingte Wahrscheinlichkeit P (W |K) ablesen, nicht aber die bedingte Wahrscheinlichkeit P (K|W ). 8.
Beispiel 2.46 (Ziegenproblem/Drei-T¨ uren-Problem) Ein Kandidat soll in einer Spielshow im Fernsehen eine von drei verschlossenen T¨ uren ausw¨ ahlen. Hinter einer T¨ ur steht als Gewinn ein Auto, hinter den beiden anderen steht jeweils eine Ziege. Der Kandidat w¨ ahlt eine T¨ ur, nehmen wir an, T¨ ur Nummer 1. Diese gew¨ ahlte T¨ ur bleibt aber vorerst verschlossen. Der Moderator weiß, hinter welcher T¨ ur das Auto steht. Mit den Worten Ich zeige Ihnen mal etwas“ o ¨ffnet ” der Moderator eine andere T¨ ur als der Kandidat gew¨ ahlt hat, zum Beispiel T¨ ur
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
205
Nummer 3. Und siehe da: Eine meckernde Ziege schaut ins Publikum. Nun fragt der Moderator den Kandidaten: Bleiben Sie bei Ihrer Wahl oder w¨ ahlen Sie ” jetzt T¨ ur Nummer 2?“ Die amerikanische Journalistin Marylin vos Savant hatte in ihrer Kolumne Fragen Sie Marylin“ in der Zeitschrift Parade“ die L¨ osung dieser Aufgabe ” ” publiziert und als Ergebnis mitgeteilt: Es ist besser zu wechseln, T¨ ur Nummer 2 hat bessere Chancen als die gew¨ ahlte T¨ ur Nummer 1. ¨ Dieses Ergebnis wurde von der breiten Offentlichkeit nicht akzeptiert, und Marylin erhielt in der Folgezeit emp¨ orte Leserbriefe. Ein h¨ aufiges Gegenargument war: Es gibt noch zwei T¨ uren, hinter einer steht das Auto. Dann sollte es doch gleich sein, welche T¨ ur gew¨ ahlt wird. Die Chancen sind gleich, n¨ amlich jeweils 12 . Hier wird die Aufgabe unzul¨ assig in eine andere Aufgabe umgewandelt, die praktisch nur den Endzustand betrachtet und die Vorgeschichte des Problems nicht angemessen ber¨ ucksichtigt. Nun Gedanken zur L¨ osung: 1.
2.
3.
Wir zitieren zun¨ achst die Argumentation eines Lesers der Zeitschrift: Die Wahrscheinlichkeit, daß der Wagen hinter der erstgew¨ ahlten T¨ ur ist, ” betr¨ agt 13 . Die Wahrscheinlichkeit, daß er hinter einer der beiden anderen T¨ uren ist, betr¨ agt somit 23 . Wenn ich nun erfahre, hinter welcher der beiden anderen T¨ uren er nicht ist, weiß ich sofort die T¨ ur, hinter der er mit der Wahrscheinlichkeit 23 ist.“ (Zitiert nach von Randow [135], S. 9.) Man macht Experimente und spielt zwei Fragestellungen jeweils mehrere hundertmal durch, n¨ amlich einmal ohne Wechseln der T¨ ur, einmal mit Wechseln der T¨ ur und vergleicht die erhaltenen relativen H¨ aufigkeiten (als Sch¨ atzwerte f¨ ur die gesuchten Wahrscheinlichkeiten) miteinander. Bei diesem Weg wird man gezwungen, die Vorgaben und Annahmen in der Aufgabe genau zu sehen und bei der Durchf¨ uhrung der Experimente umzusetzen. Hierbei tritt der Modellbildungsprozess deutlich hervor. Zur rechnerischen L¨ osung machen wir aufgrund der Aufgabenstellung folgende Annahmen: Der Kandidat w¨ ahlt zuf¨ allig eine T¨ ur aus. Das Auto wurde zuf¨ allig hinter eine der drei T¨ uren plaziert. Der Moderator w¨ ahlt zur ¨ Offnung immer eine Ziegent¨ ur, und zwar eine vom Kandidaten nicht gew¨ ahlte Ziegent¨ ur. Der Kandidat kann ja auch schon eine Ziegent¨ ur gew¨ ahlt haben. Der Moderator ¨ offnet nie die T¨ ur, die der Kandidat zuerst gew¨ ahlt hat. Versuchen Sie diese wichtigen und zur folgenden L¨ osung wesentlichen Annahmen mit Hilfe des Aufgabentextes zu begr¨ unden. Macht man andere Annahmen, z. B. die Annahme, dass der Moderator auch rein zuf¨ allig eine der drei T¨ uren o ¨ffnet, hat man eine andere Situation. Wieder andere Situationen ergeben sich, wenn der Moderator nur dann eine Ziegent¨ ur ¨ offnet, wenn der Kandidat die T¨ ur mit dem Auto gew¨ ahlt hatte. Mit den bei unserem Modellbildungsprozess gemachten Annahmen ergibt sich folgende L¨ osung. Um die Frage zu beantworten, ob der Kandidat von
206
2 Wahrscheinlichkeit der gew¨ ahlten T¨ ur 1 zur T¨ ur 2 wechseln soll (T¨ ur 3 hat der Moderator ja bereits ge¨ offnet), muss die bedingte Wahrscheinlichkeit, dass hinter der T¨ ur 2 das Auto steht unter der Bedingung der Moderator hat die T¨ ur ” 3 ge¨ offnet“ verglichen werden mit der bedingten Wahrscheinlichkeit, dass hinter der T¨ ur 1 das Auto steht unter der Bedingung der Moderator hat ” die T¨ ur 3 ge¨ offnet“. Sei G1 das Ereignis Autogewinn hinter T¨ ur 1“, ” sei G2 das Ereignis Autogewinn hinter T¨ ur 2“, ” sei G3 das Ereignis Autogewinn hinter T¨ ur 3“. ” Sei ferner M 1 das Ereignis der Moderator o ur 1“, ¨ffnet T¨ ” sei M 2 das Ereignis “der Moderator ¨ offnet T¨ ur 2“, und sei M 3 das Ereignis der Moderator ¨ offnet T¨ ur 3“. ” Unter Verwendung dieser Bezeichnungen sind miteinander P (G2|M 3) und P (G1|M 3) zu vergleichen. Ist P (G2|M 3) gr¨ oßer als P (G1|M 3), so sollte der Kandidat von T¨ ur 1 zur T¨ ur 2 wechseln. Mit Hilfe der Formel von Bayes berechnen wir P (G2|M 3) und P (G1|M 3). P (G2|M 3) =
P (G2) · P (M 3|G2) . P (M 3)
Es gilt: P (G2) = 13 , denn das Auto wird zuf¨ allig verteilt, und der Kandidat w¨ ahlt zuf¨ allig eine T¨ ur aus (Annahme eines Laplace-Modells). Ebenso gilt: P (G1) = 13 und P (G3) = 13 . P (M 3|G2) = 1, denn bei unseren Annahmen und Vorgaben der Aufgabe muss der Moderator die T¨ ur 3 ¨ offnen: Denn T¨ ur 1 hat der Kandidat gew¨ ahlt und hinter T¨ ur 2 steht das Auto. Beide T¨ uren darf der Moderator nicht ¨ offnen. P (M 3) ergibt sich als totale Wahrscheinlichkeit: P (M 3) = P (M 3|G1) · P (G1) + P (M 3|G2) · P (G2) + P (M 3|G3) · P (G3). Es ergibt sich: aß Aufgabenstellung und AnP (M 3|G1) = 12 , der Moderator kann gem¨ nahmen nur zwischen T¨ ur 2 und T¨ ur 3 w¨ ahlen. P (M 3|G3) = 0, da der Moderator nur Ziegent¨ uren ¨ offnen darf. Die T¨ ur, hinter der das Auto steht, darf er nicht ¨ offnen. Durch Einsetzen der Werte folgt P (G2|M 3) =
1 2
·
1 3
1 3
·1
+1·
1 3
+0·
1 3
=
2 , 3
und analog ergibt sich P (G1|M 3) =
P (G1) · P (M 3|G1) = P (M 3)
1 1 3 · 2 1 1 6 + 3
=
1 . 3
Ergebnis: Der Kandidat verdoppelt seine Chance, das Auto zu gewinnen, von 13 auf 23 , wenn er von T¨ ur 1 zu T¨ ur 2 wechselt. Also sollte der Kandidat wechseln.
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
207
(Siehe auch Aufgabe 26 in diesem Kapitel, Abschnitt 2.9.4, und Aufgabe 12 in Kapitel 3, Abschnitt 3.2.) Erg¨ anzender Hinweis zur Didaktik der Stochastik In diesem Kapitel verzichteten wir darauf, auf empirische Untersuchungen zur Entwicklung des Zufalls- und Wahrscheinlichkeitsbegriffs beim heranwachsenden Kind und Jugendlichen einzugehen, und wir sind nur gelegentlich auf das Verhalten der Menschen in konkreten stochastischen Situationen eingegangen. Zu diesen Themenkreisen verweisen wir daher auf das Kapitel III Empirische Untersuchungen zur Entwicklung des Zufalls- und Wahrscheinlichkeitsbegriffs in K¨ utting [101], 76 – 107.
2.9.4 1.
2.
Aufgaben und Erg¨ anzungen
In einer Gruppe befinden sich vier Jungen und ein M¨ adchen. Berechnen Sie anhand eines geeigneten Baumdiagramms mit Hilfe von Pfadregeln die Wahrscheinlichkeit, dass zwei zuf¨ allig aus der Gruppe ausgew¨ ahlte Personen Jungen sind. In einer Urne befinden sich f¨ unf Lose, von denen genau ein Los ein Gewinnlos ist. Die Lose werden nacheinander gezogen, die jeweils gezogenen Lose werden nicht in die Urne zur¨ uckgelegt. a) Wie groß ist die Wahrscheinlichkeit, beim 5. Zug eine Niete zu ziehen? b) Wie groß ist die Wahrscheinlichkeit, dass im 3. Zug eine Niete gezogen wird? c) Wie groß ist die Wahrscheinlichkeit, dass sowohl im 3. Zug als auch im 4. Zug eine Niete gezogen wird? d) Wie groß ist P (N2 ∪ N3 ∪ N4 )? Nk bedeutet: Beim k-ten Zug wurde eine Niete gezogen.
3.
4.
5.
In einer Klasse mit 30 Kindern sind 12 M¨ adchen und 18 Jungen. Sowohl 1 1 der M¨ a dchen als auch der Jungen sind in einem Sportverein. Aus 3 3 dieser Klasse soll durch Zufall eine Person als Kontaktperson zur bestehenden Schulsportgruppe ausgew¨ ahlt werden. Mit welcher Wahrscheinlichkeit wird ein Kind ausgew¨ ahlt, das einem Sportverein angeh¨ ort? Geben Sie zwei L¨ osungswege an. Veranschaulichen Sie einen der L¨ osungswege mit Hilfe eines Baumdiagramms. Aus einer Urne mit zwei schwarzen und zwei roten Kugeln wird zweimal eine Kugel ohne Zur¨ ucklegen gezogen. Die erste gezogene Kugel wird beiseite gelegt. Man erkennt nicht ihre Farbe. Die zweite gezogene Kugel ist schwarz. Wie groß ist die Wahrscheinlichkeit, dass auch die erste gezogene Kugel schwarz ist? L¨ osen Sie die Aufgabe mit Hilfe eines Baumdiagramms. In einer Klasse sind die Kinder gem¨ aß den Angaben in der Vierfeldertafel klassifiziert.
208
2 Wahrscheinlichkeit Mitglieder in einem
6. 7. 8. 9.
10. 11. 12.
13.
Sportverein (A)
Nicht Mitglieder in ¯ einem Sportverein (A)
Jungen (J)
6
10
16
M¨ adchen (M )
4
10
14
10
20
30
Aus der Klasse soll durch Los ein Kind ausgew¨ ahlt werden. Nach der Auslosung ist durchgesickert, dass die ausgeloste Person in einem Sportverein ist. Mit welcher Wahrscheinlichkeit wurde ein Junge ausgelost? Zeichnen Sie auch ein geeignetes Baumdiagramm. L¨ osen Sie die Aufgabe 4 mit Hilfe des Begriffs der bedingten Wahrscheinlichkeit. Sei (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A und B Ereignisse und P (B) = 0. Zeigen Sie: F¨ ur B ⊆ A gilt P (A|B) = 1. Zeigen Sie, dass die bedingte Wahrscheinlichkeit den drei Axiomen des Kolmogoroffschen Systems f¨ ur endliche Wahrscheinlichkeitsr¨ aume gen¨ ugt. Ein Tier werde mit einer Wahrscheinlichkeit 0,07 von einer bestimmten Krankheit befallen. Die Krankheit verlaufe in 20 % der F¨ alle t¨ odlich. Wie groß ist die Wahrscheinlichkeit, dass das Tier von dieser Krankheit befallen wird und daran stirbt? Beweisen Sie: Zum Nachweis der stochastischen Unabh¨ angigkeit von n Ereignissen sind 2n − 1 − n Gleichungen auf ihre G¨ ultigkeit zu u ufen. ¨ berpr¨ Zeigen Sie: Besitzen die unvereinbaren Ereignisse A und B je positive Wahrscheinlichkeiten, so sind diese Ereignisse nicht stochastisch unabh¨ angig. Sei (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Zeigen Sie: Wenn A und B unabh¨ angige Ereignisse sind, so sind auch ¯ (b) A¯ und B, (c) A¯ und B ¯ unabh¨ (a) A und B, angige Ereignisse. Ein idealer W¨ urfel werde zweimal geworfen. A sei das Ereignis, dass die erste gew¨ urfelte Augenzahl gerade ist. B sei das Ereignis, dass die zweite gew¨ urfelte Augenzahl ungerade ist, und C das Ereignis, dass die Summe der Augenzahlen aus beiden W¨ urfen gerade ist. a) Untersuchen Sie, ob die Ereignisse A, B und C paarweise stochastisch unabh¨ angig sind. b) Untersuchen Sie, ob die Ereignisse A, B und C stochastisch unabh¨ angig sind.
14. In einer G¨ artnerei verwendet man Samenk¨ orner einer Pflanzenart, die mit einer Wahrscheinlichkeit von 95 % keimen. Wie groß ist die Wahrscheinornern lichkeit, dass von sieben ausges¨ aten Samenk¨ a) genau drei K¨ orner keimen, b) mehr als die H¨ alfte keimen?
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
209
15. In dieser Aufgabe wird eine in der Literatur h¨ aufig angesprochene Fragestellung vorgestellt. In der folgenden Vierfeldertafel ist die Grundgesamtheit von 100000 Erwachsenen einer Stadt nach zwei Merkmalen (Raucher und Lungenkrebskranker) zerlegt.
Lungenkrebskranke
nicht Lungenkrebskranke
Raucher
1000
39600
40600
Nichtraucher
60
59340
59400
1060
98940
100000
a) Geben Sie die entsprechende Vierfeldertafel f¨ ur die zugeh¨ origen Wahrscheinlichkeiten an. b) Sind die Ereignisse zuf¨ allig ausgew¨ ahlter Erwachsener hat Lungen” krebs“ und zuf¨ allig ausgew¨ ahlter Erwachsener ist Raucher“ vonein” ander unabh¨ angig? c) Wie groß ist die Wahrscheinlichkeit, dass ein zuf¨ allig ausgew¨ ahlter Erwachsener dieser Stadt i. ii.
Lungenkrebs hat oder Raucher ist, entweder Lungenkrebs hat oder Raucher ist?
d) Mit welcher Wahrscheinlichkeit hat ein Raucher Lungenkrebs? e) Mit welcher Wahrscheinlichkeit ist ein Lungenkrebskranker Raucher? f ) Mit welcher Wahrscheinlichkeit hat ein Nichtraucher Lungenkrebs? 16. In Verbindung mit der zweiten Grundaufgabe bei Bernoulli-Ketten kann folgende Aufgabe gestellt werden: Wie viele Versuche m¨ ussen gemacht werden, damit die Wahrscheinlichkeit f¨ ur das mindestens einmalige Eintreten eines Ereignisses A mit P (A) = p einen vorgeschriebenen Wert w erreicht oder u ¨ berschreitet? (Siehe auch Aufgabe 17). 17. Zufallsziffern (auch Zufallszahlen genannt) sind Ziffern, die durch einen Zufallsprozess erzeugt und in dieser Reihenfolge aufgeschrieben werden. Es entstehen riesige Tabellen, in der die Ziffern des Dezimalsystems 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 in zuf¨ alliger Aufeinanderfolge auftreten. Die Tabelle der Zufallszahlen in Abschnitt 3.1 liefert einen Eindruck von solchen Listen. ¨ Die Aufteilung der Spalten in F¨ unferkolonnen dient nur der Ubersichtlichkeit. Nun die Aufgabe: Wie lang muss eine Zufallsziffernfolge sein, damit mindestens einmal die Ziffer 7 mit einer Wahrscheinlichkeit von mehr als 60 % auftritt?
210
2 Wahrscheinlichkeit
18. Ein Gl¨ ucksrad ist in vier Fl¨ achen im Verh¨ altnis 16:9:7:4 unterteilt. Das gr¨ oßte Feld ist rot, das zweitgr¨ oßte Feld ist gr¨ un. Das Gl¨ ucksrad wird 6-mal gedreht.
a) Wie groß ist die Wahrscheinlichkeit, dass der Zeiger genau 4-mal auf dem roten Feld stehen bleibt? b) Wie groß ist die Wahrscheinlichkeit, dass der Zeiger h¨ ochstens 2-mal auf dem roten Feld stehen bleibt? c) Wie groß ist die Wahrscheinlichkeit f¨ ur das Ereignis 4-mal rot und ” 2-mal gr¨ un“?
19.
20.
21.
22.
Hinweis: Teilen Sie den Kreis in 360 gleiche Kreisausschnitte und beschreiben Sie das Ergebnis des Zufallsversuchs durch die Maßzahl der Winkel. – Es handelt sich um die sog. Geometrische Wahrscheinlichkeit“. ” Wie oft wird man zwei Laplace-W¨ urfel werfen m¨ ussen, um mit einer Wahrscheinlichkeit von mehr als 99 % mindestens einmal die Augensumme 8 zu erzielen? In einer Urne liegen Lose, die mit den Zahlen 1 bis 105 durchnummeriert sind. Ein Gewinn wird erzielt, wenn die Losnummer des gezogenen Loses zu einer der folgenden Mengen A,B,C geh¨ ort: A: die Losnummer ist durch 3 teilbar, B: die Losnummer ist durch 5 teilbar, C: die Losnummer ist durch 7 teilbar. Wie groß ist die Wahrscheinlichkeit f¨ ur ein Gewinnlos? ur die Hinterradachse Zwei Maschinen M1 und M2 stellen Schrauben f¨ von Fahrr¨ adern her. Maschine M1 produziert st¨ undlich 200, Maschine M2 st¨ undlich 250 Schrauben. Bei Maschine M1 betr¨ agt der nicht der Norm entsprechende Ausschuss 2 %, bei M2 dagegen 3 %. Wie groß ist die Wahrscheinlichkeit, dass eine zuf¨ allig der Gesamtproduktion entnommene, der Norm nicht entsprechende Schraube von der Maschine M2 stammt? Einem Studenten wird w¨ ahrend der Pr¨ ufung eine Frage vorgelegt, zu der es n m¨ ogliche Antworten gibt, von denen genau eine richtig ist (MultipleChoice-Verfahren). Hat der Student sich gr¨ undlich auf die Pr¨ ufung vorbereitet (die Wahrscheinlichkeit hierf¨ ur sei 0,8), so kann er die Frage richtig beantworten, anderenfalls w¨ ahlt er eine der n Antworten willk¨ urlich aus.
2.9 Endliche Wahrscheinlichkeitsr¨ aume (Teil 2)
211
a) Wie groß ist die Wahrscheinlichkeit (in Abh¨ angigkeit von n), dass der Student sich auf die Pr¨ ufung gr¨ undlich vorbereitet hat, wenn die Frage von ihm richtig beantwortet wurde? b) Wie groß muss n sein, damit die unter (a) errechnete Wahrscheinlichkeit gr¨ oßer oder gleich 0,95 ist? (Aufgabe in Anlehnung an Plachky, D./Baringhaus, L./Schmitz, N.: Stochastik I. Wiesbaden 1978, S. 85.) 23. Sei (Ω, P(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Zeigen Sie: Die Ereignisse A, B ∈ P(Ω) mit P (A) > 0 und P (B) > 0 sind stochastisch unabh¨ angig genau dann, wenn P (A|B) = P (A) gilt. 24. Wie groß ist die Wahrscheinlichkeit, a) dass beim 4-maligen Ausspielen eines Laplace-W¨ urfels mindestens einmal eine Sechs auftritt, b) dass beim 24-maligen Ausspielen von zwei Laplace-W¨ urfeln mindestens einmal eine Doppelsechs auftritt? 25. Leiten Sie mit Hilfe einer Vierfeldertafel die allgemeine Additionsregel“ ” her: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 26. L¨ osen Sie das Beispiel 2.46 (Ziegenproblem/Drei-T¨ uren-Problem) mit Hilfe eines Baumdiagramms. 27. Unter n Personen werden m ≤ n Gewinne ausgelost. Wann ist es am g¨ unstigsten, ein Los zu ziehen? Sind die Chancen f¨ ur jeden Spieler gleich, einen Gewinn zu erhalten? 28. Wir beziehen uns auf Anmerkung 3 in Abschnitt 2.3.1 (Verallgemeinerung des Teilungsproblems): a) Wie viele Partien m¨ ussen h¨ ochstens gespielt werden, bis ein Sieger feststeht? b) Wie groß ist die Gewinnwahrscheinlichkeit f¨ ur Spieler A bzw. f¨ ur Spieler B?
3 Simulation und Zufallszahlen
3.1
Begriffserkl¨ arungen und Beispiele
Im Fremdw¨ orterbuch (Duden) findet man unter Simulation: 1. Verstellung, 2. Vort¨ auschung (von Krankheiten), 3. Nachahmung (in Bezug auf technische Vorg¨ ange). Die Etymologie des Wortes Simulation f¨ uhrt in das Lateinische (simulare: a hnlich machen, nachbilden, nachahmen.) Diese vertrauten umgangssprachli¨ chen Vorstellungen sind zugleich hilfreich f¨ ur den Simulationsbegriff in der Wissenschaft. Es wird versucht, ein Erscheinungsbild k¨ unstlich zu erzeugen (ohne es ” real auszuf¨ ullen), um damit Effekte der Realit¨ at zu erreichen.“ (Exner/Schmitz [51], S. 1) Durch den Einzug des Computers sind Simulationen heute in Technik, Industrie und Erforschung der Wissenschaften weit verbreitet und nicht mehr wegzudenken. Bekannt sind Simulationen zum Flugverhalten von Flugzeugen in Luftkan¨ alen, von Auffahrunf¨ allen, in der Klimaforschung, bei der Entwicklung neuer Autokarosserien mit CAD-Werkzeugen (CAD bedeutet Computer Aided Design) zur Minimierung von Lagerhaltung, von Warteschlangen bei Bedienungssystemen (Verkehrsampeln, Kassen im Supermarkt, Fahrkartenschalter der Deutschen Bahn etc.), bei der Erforschung der Alterungsprozesse bei Sternen, zur Sicherheit von Betriebssystemen (z. B. in Kernkraftwerken) bei Annahme bestimmter Ausfallwahrscheinlichkeiten f¨ ur bestimmte Komponenten/Einheiten im Betriebssystem, usw. Aufsehen erregte im Jahr 1993 eine Simulation in einem besonders sensiblen Bereich. In einem Kernforschungsinstitut in Frankreich wurde unter internationaler Beteiligung im Labor ein GAU (gr¨ oßter anzunehmender Unfall in einem Kernkraftwerk) simuliert. Das allgemeine Vorgehen bei Simulationsverfahren in der Stochastik l¨ asst sich nach M¨ uller ([124], S. 273) wie folgt beschreiben: H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
214 1. 2.
3.
3 Simulation und Zufallszahlen Man stellt zun¨ achst ein dem vorliegenden Problem angepasstes stochastisches Modell auf (Modellierungsprozess). Man f¨ uhrt dann anhand dieses Modells wiederholt Zufallsexperimente durch: Nachspielen des Modells unter direkter Benutzung des Modells als Zufallsgenerator wie z. B. M¨ unzwurf, Wurf eines Spielw¨ urfels, Ziehen von Kugeln aus einer Urne oder aber mit Hilfe von Zufallszahlen, insbesondere unter dem Einsatz von Computern und Rechnern (Simulation). Man wertet schließlich die Ergebnisse des Zufallsexperiments in Bezug auf das vorliegende Problem aus, beispielsweise durch die Berechnung der relativen H¨ aufigkeit eines Ereignisses als Sch¨ atzwert f¨ ur die Wahrscheinlichkeit dieses Ereignisses, oder durch die Berechnung des arithmetischen Mittels als Sch¨ atzwert f¨ ur den Erwartungswert (siehe Beispiel 4.7) und interpretiert den jeweils erhaltenen Wert als Sch¨ atzwert f¨ ur die L¨ osung des vorliegenden Problems.
Der mathematische Hintergrund der Simulation ist durch das Gesetz der großen Zahlen gegeben (vgl. Kapitel 6, Abschnitt 6.2). Ein konstitutives Moment der Simulation ist demnach die Modellbildung, die wir schon wiederholt angesprochen haben. Modelle sind Abbilder der Realit¨ at, sie sind Stellvertreter f¨ ur reale Ph¨ anomene, sie sind nicht die Realit¨ at selbst. Ein Modell soll die f¨ ur wesentlich erachteten Eigenschaften hervorheben. Dabei k¨ onnen als unwichtig angesehene Eigenschaften vernachl¨ assigt werden. Ein Modell kann idealisieren durch Vereinfachen und durch Hinzuf¨ ugen, insbesondere unter Verfolgung eines besonderen Simulationszwecks. Die Schl¨ usse, die aus den Modellen (Abbildungen) gezogen werden k¨ onnen, sollen der Wirklichkeit entsprechen. Tun sie das nicht, dann hat man (korrekte Schl¨ usse vorausgesetzt) bei der Modellbildung evtl. wesentliche Eigenschaften u bersehen und/oder die Wirklichkeit unangemessen beschrieben. Dann gilt: ¨ Man hat das falsche Problem gel¨ ost. (Siehe auch Beispiel 3.4 (Das andere Kind)) Unter diesem Aspekt ist die Forderung verst¨ andlich, dass man m¨ oglichst umfangreiche mathematische Kenntnisse haben sollte, um ein optimales Modell zu finden. Oft ist es schwierig, die erforderliche große Anzahl von Zufallsexperimenten in der Praxis durchzuspielen. Man f¨ uhrt dann (wie unter Punkt 2 formuliert wurde) die Simulation mit Hilfe von Zufallszahlen (synonym: Zufallsziffern) aus. Das Nachahmen von Zufallsexperimenten mit Hilfe von Zufallsziffern heißt MonteCarlo-Methode. Die Zahlen (Ziffern) werden durch einen Zufallsprozess z. B. ange wie Beobachten des urfelwurf oder durch physikalische Vorg¨ M¨ unzwurf, W¨ Rauschens von Elektronenr¨ ohren gewonnen. Ein Buch mit einer Million Zufallsziffern ver¨ offentlichte die Rand Corporation: A Million Random Digits with 100 000 Normale Deviates. Glencoe Illinois: Free press 1955. Die Zahlen wurden durch ein elektronisches Roulett erzeugt. Es handelt sich dabei um eine riesige Tabelle, in der die Ziffern 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 des Dezimalsystems
3.1 Begriffserkl¨ arungen und Beispiele
215
in zuf¨ alliger Aufeinanderfolge auftreten. Jede Seite des Buches enth¨ alt also im Wesentlichen nur Zahlen. Die folgende Tabelle gibt einen Eindruck von diesem Buch (entnommen: Wallis/Roberts [177], S. 523). Die Aufteilung in F¨ unferko¨ lonnen dient nur der Ubersichtlichkeit.
Zufallszahlen Zeile
Spalte Nr.
Nr.
1~5
6 - 10
11 - 15
16 - 20
21 - 25
26 - 30
31 - 35
36 - 40
41 - 45
46 - 50
0 1 2 3 4
10097 37542 08422 99019 12807
32533 04805 68953 02529 99970
76520 64894 19645 09376 80157
13586 74296 09303 70615 36147
34673 24805 23209 38311 64032
54876 24037 02560 31165 36653
80959 20636 15953 88676 98951
09117 10402 34764 74397 16877
39292 00822 35080 04436 12171
74945 91665 33606 27659 76833
5 6 7 8 9
66065 31060 85269 63573 73796
74717 10805 77602 32135 45753
34072 45571 02051 05325 03529
76850 82406 65692 47048 64778
36697 35303 68665 90553 35808
36170 42614 74818 57548 34282
65813 86799 73053 28468 60935
39885 07439 85247 28709 20344
11199 23403 18623 83491 35273
29170 09732 88579 25624 88435
10 11 12 13 14
98520 11805 83452 88685 99594
17767 05431 99634 40200 67348
14905 39808 06288 86507 87517
68607 27732 98083 58401 64969
22109 50725 13746 36766 91826
40558 68248 70078 67951 08928
60970 29405 18475 90364 93785
93433 24201 40610 76493 61368
50500 52775 68711 29609 23478
73998 67851 77817 11062 34113
15 16 17 18 19
65481 80124 74350 69916 09893
17674 35635 99817 26803 20505
17468 17727 77402 66252 14225
50950 08015 77214 29148 68514
58047 45318 43236 36936 46427
76974 22374 00210 87203 56788
73039 21115 45521 76621 96297
57186 78253 64237 13990 78822
40218 14385 96286 94400 54382
16544 53763 02655 56418 14598
20 21 22 23 24
91499 80336 44104 12550 63606
14523 94598 81949 73742 49329
68479 26940 85157 11100 16505
27686 36858 47954 02040 34484
46162 70297 32979 12860 40219
83554 34135 26575 74697 52563
94750 53140 57600 96644 43651
89923 33340 40881 89439 77082
37089 42050 22222 28707 07207
20048 82341 06413 25815 31790
25 26 27 28 29
61196 15474 94557 42481 23523
90446 45266 28573 16213 78317
26457 95270 67897 97344 73208
47774 79953 54387 08721 89837
51924 59367 54622 16868 68935
33729 83848 44431 48767 91416
65394 82396 91190 03071 26252
59593 10118 42592 12059 29663
42582 33211 92927 25701 05522
60527 59466 45973 46670 82562
30 31 32 33 34
04493 00549 35963 59808 46058
52494 97654 15307 08391 85236
75246 64051 26898 45427 01390
33824 88159 09354 26842 92286
45862 96119 33351 83609 77281
51025 63896 35462 49700 44077
61962 54692 77974 13021 93910
79335 82391 50024 24892 83647
65337 23287 90103 78565 70617
12472 29529 39333 20106 42941
35 36 37 38 39
32179 69234 19565 45155 94864
00597 61406 41430 14938 31994
87379 20117 01758 19476 36168
25241 45204 75379 07246 10851
05567 15956 40419 43667 34888
07007 60000 21585 94543 81553
86743 18743 66674 59047 01540
17157 92423 36806 90033 35456
85394 97118 84962 20826 05014
11838 96338 85207 69541 51176
40 41 42 43 44
98086 33185 80951 79752 18633
24826 16232 00446 49140 32537
45240 41941 96382 71961 98145
28404 50949 70774 28296 06571
44999 89435 20151 69861 31010
08896 48581 23387 02591 24674
39094 88695 25016 74852 05455
73407 41994 25298 20539 61427
35441 37548 24624 00387 77938
31880 73043 61171 59579 91936
45 46 47 48 49
74029 54178 11664 48324 69074
43902 45611 49883 77928 94138
77557 80993 52079 31249 87637
32270 37143 84827 64710 91976
97790 05335 59381 02295 35584
17119 12969 71539 36870 04401
52527 56127 09973 32307 10518
58021 19255 33440 57546 21615
80814 36040 88461 15020 01848
51748 90324 23356 09994 76938
216
3 Simulation und Zufallszahlen
Die Bezeichnung dieses numerischen Verfahrens als Monte-Carlo-Methode bringt zum Ausdruck, dass durch die Ergebnisse von Roulettspielen – wie sie im ber¨ uhmten Casino der Stadt Monte-Carlo u ¨ blich sind – Tabellen von Zufallsziffern geliefert werden. Die Namensgebung f¨ ur die beschriebene Methode ist also nicht zuf¨ allig erfolgt. Die Monte-Carlo-Methode ist allerdings keine Strategie f¨ ur erfolgreiches Spielen in Spielcasinos. Die Benutzung von Zufallszahlen ist heute in den Wissenschaften von eminenter Bedeutung. Etwas u ¨berspitzt formulierte ein Mathematiker: Die Erstellung ” von Zufallszahlen ist zu wichtig, als daß man sie dem Zufall u urfe“ ¨ berlassen d¨ (Robert R. Coveyou; zitiert nach M. Gardner: Mathematischer Karneval. Frankfurt 1978, S. 174). Computer k¨ onnen Zufallszahlen selbst erzeugen und zur L¨ osung eines Problems sofort weiterverarbeiten. Die durch einen Computer erzeugten Zufallszahlen sind aber keine echten Zufallszahlen, denn sie werden nach streng deterministischen Algorithmen (Rechenverfahren) erzeugt. Solche Algorithmen aus den fr¨ uhen Anf¨ angen sind die Middle-Square-Methode und der Fibonacci-Algorithmus. Es zeigte sich aber, dass beide Algorithmen hinsichtlich der Qualit¨ at“ der von ihnen erzeugten Zu” fallszahlen erhebliche M¨ angel aufwiesen. Sie gelten daher heute als untaugliche Methoden. Der heutzutage in Rechnern wohl am h¨ aufigsten benutzte Algorithmus zur Erzeugung von Zufallszahlen ist der mit Hilfe der linearen Kongruenzmethode. Doch f¨ ur alle durch deterministische Algorithmen erzeugten Zufallszahlen gilt: Diese Zahlen selbst sind determiniert. Sie heißen deshalb Pseudo” zufallszahlen“. Diesen Rohstoff Zufallszahlen“ f¨ ur stochastische Simulationen meinen Lehn ” und Rettig, wenn sie sagen: Der Zufall aus dem Computer ist also kein wirkli” cher Zufall, sondern deterministischer Zufall“ (Lehn/Rettig [111], S, 57). Der Determinismus zeigt sich u. a. darin, dass sich die erzeugten Zahlen nach einer mehr oder weniger langen Phase (Schleife) in regelm¨ aßiger Reihenfolge wiederholen oder darin, dass aufeinanderfolgende Zufallszahlen, wenn man sie zu Paaren (geometrisch gedeutet als Punkte in der Ebene) oder zu Tripel (geometrisch gedeutet als Punkte im Raum) zusammenfasst, eine Gitterstruktur zeigen: Die Punkte liegen in der Ebene (Paare) auf ganz bestimmten Geraden bzw. im Raum (Tripel) auf ganz bestimmten Ebenen. Sie liegen also nicht gleichm¨ aßig verteilt in der Ebene bzw. im Raum. Die Regelm¨ aßigkeit ist nicht ohne weiteres wahrzunehmen, das Auge sieht eine zuf¨ allige, gleichverteilte Punktwolke in der Ebene bzw. im Raum. Der in Kauf genommene Verlust an Zuf¨ alligkeit bei den Pseudozufallszahlen ahigkeit, wenn die Pseudozufallszahlen gewismindert aber nicht ihre Einsatzf¨ sen Tests hinsichtlich ihrer Qualit¨ at“ gen¨ ugen, z. B. keine kurzen Schleifen mit ” st¨ andiger Wiederholung derselben Zahlenfolgen aufweisen, eine m¨ oglichst gute Gleichverteilung auch h¨ oherdimensional zeigen usw.
3.1 Begriffserkl¨ arungen und Beispiele
217
Ein einfaches Beispiel (entnommen Lehn/Rettig [111], S. 64ff) diene der Illustration. Die angegebenen zwei Serien von je 120 ganzen Zahlen von 1 bis 6 k¨ onnten Protokolle von 120 W¨ urfen mit einem Laplace-W¨ urfel sein: Serie 1: 1 3 2 4 3 1
3 2 4 3 2 4
4 2 1 3 1 6
2 4 1 2 4 5
5 5 2 1 6 3
6 3 4 6 5 2
6 3 3 6 3 1
3 1 6 5 2 4
2 1 6 4 1 6
1 4 1 1 4 5
4 1 4 3 6 3
4 5 5 2 5 2
5 3 5 2 3 1
3 2 2 4 2 4
2 1 3 3 1 6
1 6 4 2 4 5
1 6 1 1 6 3
4 5 1 4 5 2
3 4 2 6 3 1
6 3 6 5 2 4
1 6 3 4 3 4
2 5 4 2 6 5
3 6 6 6 3 1
2 3 2 1 1 3
4 2 4 6 3 1
1 5 2 1 2 6
1 6 1 2 4 1
2 1 5 4 3 3
5 5 3 3 5 2
2 1 5 4 3 1
6 3 4 2 6 6
3 1 6 5 2 1
4 4 4 4 2 3
6 1 5 5 1 4
3 4 6 3 5 5
4 6 5 5 1 4
2 5 3 2 5 5
4 6 3 3 6 3
3 6 5 4 3 2
4 2 6 2 6 5
Serie 2:
Folgende Erscheinungen sind jedoch nicht vereinbar mit dem echten Zufall: In Serie 1 wiederholt sich ab einer Stelle stets die Zahlenfolge 3, 2, 1, 4, 6, 5. Auch Serie 2 zeigt M¨ angel, wenn es sich um einen echten Zufall handeln soll. Da der W¨ urfel kein Ged¨ achtnis hat, sollte etwa in einem Sechstel der F¨ alle eine Zahl mit ihrem Vorg¨ anger u bereinstimmen. Denn jede Zahl erscheint bei einem ¨ 1 Laplace-W¨ urfel mit derselben Wahrscheinlichkeit 6 . Statt etwa 20 solcher zu erwartenden Zwillinge“ (aufeinanderfolgende Zahlen stimmen u ¨berein) gibt es ” nur 4. Es sind also bei beiden Serien Zweifel angebracht, ob es sich tats¨ achlich um Zufallszahlen aus der Menge der Zahlen 1, 2, 3, 4, 5 und 6 handelt. Es gibt weitere einfache Verfahren zum Testen von Zufallszahlen. Wir nennen den sog. Pokertest und den Maximum-Test und verweisen auf die Aufgaben 1 und 2 und auf Literatur (Engel [47], Bd. 1, S. 67ff, Hauptfleisch [63], 35). Folgende Beispiele sollen das Prinzip der Simulation mit Zufallszahlen bzw. mit Hilfe anderer Zufallsgeneratoren wie Urne und W¨ urfel verdeutlichen.
Beispiel 3.1 (Rosinenbr¨ otchen-Aufgabe) In 5 kg Teig befinden sich 150 Rosinen. Aus dem Teig werden 100 Br¨ otchen zu je 50 g gebacken. Der Teig wird sorgf¨ altig durchgeknetet. Die Anzahl der Rosinen in den einzelnen Br¨ otchen wird jedoch
218
3 Simulation und Zufallszahlen
nicht gleich, sondern unterschiedlich sein. Wir fragen nach der Wahrscheinlichkeit, dass ein zuf¨ allig ausgew¨ ahltes Br¨ otchen a) mindestens eine Rosine enth¨ alt, b) genau zwei Rosinen enth¨ alt? L¨ osung Der Vorgang der Zubereitung der Rosinenbr¨ otchen kann als zuf¨ allige“ Vertei” lung von 150 Rosinen auf 100 Br¨ otchen aufgefasst werden, wobei jede der 150 Rosinen jeweils die gleiche Chance besitzt (der Teig wird sorgf¨ altig durchgeknetet), in eines der 100 Br¨ otchen zu gelangen. Denkt man sich eines der Br¨ otchen (in Form einer Teigmenge von 50 g) ausgezeichnet, dann gelangt eine bestimmte Rosine mit der Wahrscheinlichkeit 1 p = 100 in dieses Br¨ otchen. Das Mischen von Rosinen und Teig wird zu einer Abfolge von Experimenten, wenn man sich vorstellt, dass die Rosinen nacheinander der Teigmasse beigemischt werden. Wir k¨ onnen also annehmen, dass sich die Rosinen nicht gegenseitig beein1 in jedes Br¨ otchen flussen und eine Rosine mit gleicher Wahrscheinlichkeit 100 gelangen kann. In der folgenden Abbildung bedeutet jedes einzelne Quadrat ein Br¨ otchen. F¨ ur jede Rosine w¨ ahlen wir ein Paar von Zufallszahlen. Wir w¨ ahlen 150 Paare von Zufallsziffern aus der angegebenen Tabelle. 0 0
1
2
3
4
5
//
//
/
/
//
6
7
8
9
//
//
/
1
//
/
//
///
/
//
2
//
/
/
///
//
/
3
/
///
/
//
///
//////
////
4
///
/
/
////
/
//
//
5
/
//
/
/
//
/
//
/
//
///
6
///
/
////
//
///
//
7
//
/
//
/
/
//
/
//
8
//
//
//
/
//
/
9
///
///
//
//
/
/ /
//
/
//
//// //
//
//
/
Man kann die Tabelle zeilenweise lesen, aber auch spaltenweise. Das einmal gew¨ ahlte Schema beh¨ alt man bei der L¨ osung einer Aufgabe allerdings bei. Wir gehen aus von den Spalten 21/22, dann gehen wir zu den Spalten 23/24, dann zu 25/26. Wir erhalten 34, 24, 23 usw. Das bedeutet: Rosine 1 gelangt in Br¨ otchen Nr. 34, Rosine 2 in Br¨ otchen Nr. 24, Rosine 3 in Br¨ otchen Nr. 23 usw. In das entsprechende Br¨ otchenfeld machen wir jeweils einen Strich.
3.1 Begriffserkl¨ arungen und Beispiele
219
F¨ ur die L¨ osungen erhalten wir durch Ausz¨ ahlen als Sch¨ atzwerte f¨ ur: a) P ≈
79 = 0, 79; 100
d. h. die Wahrscheinlichkeit, dass ein zuf¨ allig ausgew¨ ahltes Br¨ otchen mindestens eine Rosine enth¨ alt, betr¨ agt 0,79. b) P (2 Rosinen) ≈
34 = 0, 34; 100
d. h. die Wahrscheinlichkeit, dass ein zuf¨ allig ausgew¨ ahltes Br¨ otchen genau zwei Rosinen enth¨ alt, betr¨ agt 0,34. Diese Sch¨ atzwerte k¨ onnen schon mit den exakten L¨ osungen verglichen werden (siehe Aufgabe 3, Abschnitt 3.2). Doch ist unbedingt zu beachten, dass die Simulation mehrfach durchgef¨ uhrt wird, z. B. durch Weiterschreiten in den gew¨ ahlten Spalten oder durch Wahl anderer Spalten oder durch zeilenweises Vorgehen (bei Zusammenfassung von zwei aufeinanderfolgenden Zahlen zu einem Paar). Beispiel: Start in Zeile 0: 10, 09, 73, . . . Erst eine große Anzahl von Versuchen liefert verl¨ assliche Sch¨ atzwerte.
Beispiel 3.2 (Ein Geburtstagsproblem – Der gesunde Menschenverstand) Wie groß ist die Wahrscheinlichkeit, dass bei n zuf¨ allig ausgew¨ ahlten Personen einer Großstadt mindestens zwei am selben Tag Geburtstag haben? (Siehe Aufgabe 11, Abschnitt 2.8.6 und die rechnerische L¨ osung.) L¨ osung Wir simulieren das Problem durch verschiedene Zufallsexperimente. Wie bei der rechnerischen L¨ osung im Abschnitt Kombinatorisches Z¨ ahlen“ nehmen wir an, ” das Jahr habe 365 Tage und n sei kleiner oder gleich 365. In einer Urne befinden sich 365 gleichartige Kugeln mit den Zahlen 1 bis 365 f¨ ur die einzelnen Tage des Jahres. Man zieht blind eine Kugel, schreibt die Ziffer auf, legt die Kugel in die Urne zur¨ uck und wiederholt diesen Vorgang n-mal, da n Personen ausgew¨ ahlt wurden. b) Man nimmt zwei Urnen, in der ersten befinden sich 12 Kugeln mit den Monatsnamen, in der zweiten Urne 31 Kugeln mit den Zahlen 1 bis 31 f¨ ur die Tage. F¨ ur jede der n Personen wird aus jeder Urne je eine Kugel gezogen. Nach jeder Ziehung werden die Kugeln wieder in die entsprechenden Urnen zur¨ uckgelegt. Ein Ergebnis wie z. B. 31. Juni l¨ asst man unber¨ ucksichtigt. a)
220 c)
3 Simulation und Zufallszahlen Man denkt sich die Tage wieder durchnummeriert und entnimmt der Zufallszifferntabelle Dreierbl¨ ocke. Wir w¨ ahlen die 11. Zeile als Start und lesen zeilenweise weiter: Die erste Zahl ist 118, dann folgt 050. Der dritte Dreierblock 543 ist gr¨ oßer als 365, deshalb streichen wir ihn. Der n¨ achste (3.) Dreierblock ist also 139. Der n¨ achste Dreierblock in der Tabelle ist 808, er ist ebenfalls zu streichen. So f¨ ahrt man fort und erh¨ alt: 277, 325, 072, 248, 294, 052 usw. Es sind n Dreierbl¨ ocke f¨ ur eine Versuchsserie zu bestimmen. Um mehr Zufallsziffern zu ber¨ ucksichtigen, kann man auch so verfahren: Wir gehen wieder von Zeile 11 aus. Der dritte Dreierblock heißt 543, er wird jetzt nicht ganz gestrichen. Wir streichen nur die Ziffern, die zu Zahlen u uhren w¨ urden. Das sind die Ziffern 5 und 4. Also heißt ¨ber 365 f¨ der n¨ achste Dreierblock 313. Dann sind 9 und 8 zu streichen. Also ergibt sich 082 usw. Um m¨ oglichst viele dreistellige Zufallszahlenbl¨ ocke als Geburtstagszahlen benutzen zu k¨ onnen, kann man sich weitere M¨ oglichkeiten ausdenken.
Man f¨ uhre auf einem der Wege mehrere Simulationen f¨ ur etwa 25, 45, 60 Perso¨ nen durch. Zur besseren Ubersichtlichkeit empfiehlt es sich, eine Strichliste in Form einer Tabelle zu f¨ uhren.
0 1 2 3 4 5 6 7 8 9 00 01 .. .
35 36
Beispiel 3.3 (Treibjagdproblem) Acht J¨ ager schießen gleichzeitig auf zehn Enten. Die J¨ ager treffen stets, aber sie vereinbaren vorher nicht, wer auf welche Ente schießt. Wie viele Enten werden wahrscheinlich geschossen? L¨ osung Aufgrund der Aufgabenstellung weiß man mit Sicherheit: Mindestens eine Ente wird getroffen, h¨ ochstens acht Enten k¨ onnen erlegt werden. Die L¨ osung wird also eine der Zahlen 1, 2, 3, 4, 5, 6, 7 oder 8 sein. Wir geben zwei Simulationen an. (In Aufgabe 4 des Abschnitts 3.2 ist das Beispiel rechnerisch zu l¨ osen.) a) Man zieht achtmal 1 Kugel mit Zur¨ ucklegen aus einer Urne mit 10 Kugeln, die mit den Ziffern 0 bis 9 f¨ ur die 10 Enten beschriftet sind. Dieses Zufallsexperiment wird mehrfach wiederholt. b) Aus einer Zufallszahlentabelle w¨ ahlt man Achterbl¨ ocke“ aus. Wir lesen zei” lenweise und w¨ ahlen Zeile 11 unserer Tabelle von Seite 215 als Startpunkt. Die Ziffern von 0 bis 9 repr¨ asentieren die 10 Enten. Der erste Achterblock heißt
3.1 Begriffserkl¨ arungen und Beispiele
221
1 1 8 0 5 0 5 4. Das bedeutet: Ente Nr. 1 wurde zweimal getroffen, ebenso wurden die Enten Nr. 0 und Nr. 5 zweimal getroffen. Ferner wurden die Enten Nr. 8 und Nr. 4 einmal getroffen. Geschossen wurden also die 5 Enten Nr. 0, 1, 4, 5, und 8. Wir f¨ uhren vier weitere Simulationen durch: 3 1 3 9 8 0 8 2 = (6 Enten wurden getroffen), 7 7 3 2 5 0 7 2 = (5 Enten wurden getroffen), 5 6 8 2 4 8 2 9 = (6 Enten wurden erlegt), 4 0 5 2 4 2 0 1 = (5 Enten wurden erlegt). Es werden also bei diesen Simulationen f¨ unf oder sechs Enten erlegt. Fassen wir die f¨ unf Simulationen zu einem Experiment zusammen, so werden 27 : 5 = 5,4 Enten geschossen. Um mehr Sicherheit zu haben, muss nat¨ urlich eine große Anzahl von Simulationen durchgef¨ uhrt werden. Uns geht es hier darum, das Prinzip deutlich zu machen. Vgl. Sie die rechnerische L¨ osung (Aufgabe 4) mit obigem Sch¨ atzwert.
Didaktischer Hinweis: In einem sehr lesenswerten Aufsatz von H. Trauerstein ([171], 2 – 27) werden Varianten dieses Beispiels durchgespielt: Ver¨ anderung der Anzahlen der Enten und der J¨ ager und Ver¨ anderung der Trefferwahrscheinlichkeit (statt 100 % nur noch 65 %). Dieses Beispiel und weitere Beispiele werden ausf¨ uhrlich unter jeweiliger Betonung der verschiedenen Ebenen Realit¨ at – Modell behandelt. Beispiel 3.4 (Das andere Kind) Man weiß: Eine Familie hat zwei Kinder, eines davon ist ein Junge. Wie groß ist die Wahrscheinlichkeit, dass die Familie auch ein M¨ adchen hat? b) Man weiß: Eine Familie hat zwei Kinder. Das a ltere von beiden ist ein Junge. ¨ Wie groß ist die Wahrscheinlichkeit, dass die Familie auch ein M¨ adchen hat? a)
Sind das zwei verschiedene Aufgaben oder handelt es sich um ein und dieselbe Aufgabe? L¨ osung Eine genaue Modellbildung macht Unterschiede deutlich, die dann auch bei den Simulationen zu beachten sind. Zu a): H¨ aufig wird so argumentiert: Das andere Kind ist entweder ein Junge oder ein M¨ adchen. Unter der Annahme, dass die Wahrscheinlichkeiten f¨ ur 1 Jungen- und M¨ adchengeburten gleich sind, n¨ amlich 2 , wird die Frage in a) mit 1 beantwortet. Als Grundraum Ω wird also angenommen Ω = {J, M } und als 2 Wahrscheinlichkeit die Gleichverteilung. Das ist aber kein angemessener Grundraum. Sieht man von Mehrlingsgeburten ab, so ist eines der Kinder ¨ alter als das andere, und Ω = {JJ, JM, M J, M M }
222
3 Simulation und Zufallszahlen
gibt die Situation angemessen wieder. Hierbei bedeuten J bzw. M an erster Stelle, dass das ¨ altere Kind ein Junge bzw. ein M¨ adchen ist. Legt man ein LaplaceModell (Gleichverteilung) zugrunde, so sind alle 4 F¨ alle gleichwahrscheinlich. Der Fall MM scheidet aus (mindestens ein Kind ist ja ein Junge), es bleiben also 3 F¨ alle, und davon sind zwei g¨ unstig. Also P = 23 . In Aufgabe 8 des Abschnitts 3.2 wird eine approximative L¨ osung durch Simulation verlangt. Zu b): Ein angemessener Grundraum ist auch hier Ω = {JJ, JM, M J, M M } mit der Interpretation wie in a). Die zwei F¨ alle M J und M M scheiden wegen der vorgegebenen Bedingung aus. Von den verbleibenden zwei F¨ allen ist einer 1 g¨ unstig (JM ) Also: P = 2 . In Aufgabe 8 des Abschnitts 3.2 ist eine N¨ aherungsl¨ osung durch Simulation anzugeben.
Die Anwendung von Zufallszahlen beschr¨ ankt sich nicht auf die L¨ osung stochastischer Probleme, sondern sie gestattet es auch, mathematische Probleme zu l¨ osen, wo man den Zufall nicht vermutet. Klassische Beispiele hierf¨ ur sind Fl¨ acheninhalts- und Rauminhaltsbestimmungen, also deterministische Probleme. Beispiel 3.5 (Kreisfl¨ achenberechnung, von π)
Monte-Carlo-Integration,
y 6
y1
r=1 y x x1 1
x
Bestimmung
Nebenstehende Figur enth¨ alt ein Einheitsquadrat mit einbeschriebenem Viertelkreis mit dem Radius 1. Die Fl¨ ache dieses Viertelkreises betr¨ agt π . Durch Simulation soll 4 die Fl¨ ache des Viertelkreises n¨ aherungsweise bestimmt werden. Dazu u ¨ berdecken wir das Quadrat mit einer Wolke von Zufallspunkten ( Zufalls” regen“). Diese k¨ onnen wir z. B. mit Hilfe einer Tabelle von Zufallszahlen gewinnen.
Wir benutzen die angegebene Tabelle der Zufallszahlen, lesen zeilenweise und beginnen in Zeile 13. Wir w¨ ahlen Gruppen von vier Ziffern abrs zur Festlegung der Koordinaten x, y eines Punktes im Einheitsquadrat. Wir setzen x = 0, ab und y = 0, rs, d. h. die ersten zwei Ziffern des Viererblocks sind die Hundertstel
3.1 Begriffserkl¨ arungen und Beispiele
223
der x-Koordinate, die letzten zwei Ziffern die Hundertstel der y-Koordinate. Beispiele (Zeile 13): 8868
:
x = 0, 88, y = 0, 68,
5402
:
x = 0, 54, y = 0, 02.
Man w¨ ahlt eine große Anzahl N von Punkten und z¨ ahlt die Anzahl V der PunkV te, die im Viertelkreis liegen. Dann ist der Quotient N ein N¨ aherungswert f¨ ur osung die Maßzahl der Fl¨ ache des Viertelkreises, also auch f¨ ur die Zahl π4 . Die L¨ geht von der Annahme aus, dass jeder Punkt des Quadrats mit der gleichen Wahrscheinlichkeit getroffen wird, und dass alle Fl¨ achen gleicher Gr¨ oße auch gleiche Wahrscheinlichkeit besitzen. Bezogen auf einen Kreis mit dem Radius r und das umschriebene Quadrat mit der Seite 2r gilt: Fl¨ ache Kreis r2 · π π = = . Fl¨ ache Quadrat 2r · 2r 4 Da die Kreisfl¨ ache des Einheitskreises mit dem Mittelpunkt im Koordinatenursprung mathematisch beschrieben werden kann als die Menge K aller Punkte (x, y) mit K = {(x, y)|x2 + y 2 ≤ 1}, kann ein Computer, der Zufallszahlen selbst erzeugt, leicht durch ein geeignetes Programm mehrere Hundert Punkte im Quadrat erzeugen und sofort den Anteil der Punkte z¨ ahlen, die im Inneren oder auf dem Rand des Kreises liegen. In einer Simulation mit 500 Punkten ergab sich π 4 π
≈ ≈
384 = 0, 768 500 3, 072.
(Zum Vergleich geben wir die ersten exakten Stellen von π an: π = 3, 141592 . . .)
y 6 Hinweis Nach diesem Verfahren des Zufalls” regens“ k¨ onnen auch Fl¨ acheninhalte beliebiger Fl¨ achen im Prinzip approximativ bestimmt werden (siehe Abbildung).
A
x
224
3 Simulation und Zufallszahlen
Die bisherigen Beispiele betrafen Fragestellungen, die wir mit unseren Mitteln der Stochastik auf rein analytisch-rechnerischem Wege l¨ osen konnten, ohne dass eine Simulation notwendig erschien. F¨ ur das folgende (in der Fragestellung sehr einfache) Beispiel reichen die bislang behandelten Themenkreise der Stochastik noch nicht aus. Es ist ein Mittelwert zu berechnen, der in der Stochastik als Erwartungswert bezeichnet wird, und den wir im n¨ achsten Abschnitt erarbeiten werden. Wir beantworten deshalb die Frage im folgenden Beispiel durch eine Simulation.
Beispiel 3.6 (Warten auf Erfolg) Wie lange muss man im Mittel warten bis zum Auftreten einer 9 beim Drehen des nachfolgend abgebildeten Gl¨ ucksrades mit den 10 gleichverteilten Ziffern 0, 1, 2, . . . , 9?
L¨ osung Man kann das Problem leicht simulieren, entweder f¨ uhrt man Experimente am Gl¨ ucksrad selbst durch (es erzeugt ja Zufallszahlen) oder man arbeitet mit Hilfe gegebener Zufallszifferntabellen. Wir f¨ uhren Simulationen mit der Zufallszahlentabelle auf S. 215 durch. Wir w¨ ahlen zwei verschiedene Schemata beim Lesen der Zufallszahlentabelle. Schema 1: Wir beginnen in Zeile 0 und Spalte 1 und lesen und z¨ ahlen die Zufallszahlen zeilenweise. Immer wenn eine 9 aufgetreten ist, springen wir in die n¨ achste Zeile (Spalte 1) und beginnen neu zu z¨ ahlen. Also: Die 9 tritt zum erstenmal an 4-ter Stelle auf, dann an 14-ter Stelle, dann an 8-ter Stelle usw. F¨ ur 25 Simulationen erhalten wir dann die folgenden Zahlen f¨ ur das Ereignis 9 ” tritt zu erstenmal an x-ter Stelle auf“: 4, 14, 8, 1, 6, 24, 34, 5, 21, 4, 1, 12, 6, 28, 1, 18, 56, 2, 2, 1, 6, 8, 29, 7, 4. Die Summe der Zahlen ergibt 302. Da es 25 Simulationen waren, ergibt sich als Mittel m: m = 302 : 25 = 12, 08. Schema 2: Wir beginnen wieder in Zeile 0, Spalte 1, springen aber nicht nach dem Auftreten einer 9 in die n¨ achste Zeile, sondern lesen und z¨ ahlen fortlaufend weiter bis zum n¨ achsten Auftreten einer 9. Bei wieder 25 Simulationen erhalten
3.1 Begriffserkl¨ arungen und Beispiele
225
wir jetzt die Zahlenfolge: 4, 29, 2, 2, 5, 2, 4, 16, 5, 27, 12, 4, 5, 8, 8, 18, 1, 3, 5, 2, 27, 11, 6, 1, 1. Es folgt m = 208 : 25 = 8, 32. Bei beiden Verfahren haben wir nur eine relativ geringe Anzahl von Simulationen (n¨ amlich 25) durchgef¨ uhrt. Es sollte nur das Vorgehen erl¨ autert werden. W¨ urde man beide Verfahren (trotz unterschiedlichen Vorgehens) als einen Versuch ansehen, so h¨ atte man 50 Simulationen mit dem Mittelwert 10,2. Um einen Vergleich dieser L¨ osungen mit dem rein rechnerisch ermittelten Wert zu erm¨ oglichen, geben wir hier einige knappe Vorabinformationen: Mit der Wahrscheinlich1 keit 10 bekommt man im ersten Versuch die 9, mit der Wahrscheinlichkeit 9 1 · 10 bekommt man die 10 9 zum erstenmal erst im zweiten Versuch, und mit der Wahrscheinlichkeit 9 9 1 · · 10 10 10 bekommt man die 9 zum erstenmal erst im dritten Versuch (siehe Baumdiagramm.)
1 10
9 1 10
9 10
9
¯ 9 9 10
1 10
9
9 10
¯ 9
¯ 9 ...
Allgemein: Mit der Wahrscheinlichkeit
9 10
k−1 ·
1 10
erh¨ alt man die 9 zum erstenmal erst im k-ten Versuch. Das ist genau das Bildungsgesetz einer geometrisch verteilten Zufallsvariablen. In der Aufgabe ist nach ihrem Erwartungswert gefragt, und dieser berechnet sich als p1 . Hierbei ist p die Wahrscheinlichkeit f¨ ur das Auftreten der 9 beim einmaligen Drehen des 1 Gl¨ ucksrades. Diese betr¨ agt 10 . Also ist der Erwartungswert gleich 10. (Siehe Kapitel 5, Abschnitt 5.3, Beispiele.)
Im R¨ uckblick formulieren wir einige zusammenfassende Gesichtspunkte zur didaktischen Bedeutung und zum Wert von Simulationsverfahren: 1.
2.
Simulationen f¨ ordern die Modellbildung und f¨ ordern insbesondere auch das stochastische Denken, da das wiederholt durchgef¨ uhrte Zufallsexperiment Daten zur Einsch¨ atzung probabilistischer Begriffe (wie z. B. Wahrscheinlichkeit und Erwartungswert) liefert. Durch Simulation kann man evtl. Aufgaben l¨ osen“, die auf dem erreichten ” Niveau rechnerisch nicht l¨ osbar sind, weil die Mittel dazu noch nicht zur Verf¨ ugung stehen.
226 3. 4.
3 Simulation und Zufallszahlen Bei Aufgaben, die man rechnerisch gel¨ ost hat, kann man durch Simulation eine experimentelle Best¨ atigung“ der L¨ osung erhalten. ” Das eigentliche Anwendungsgebiet der Simulationsverfahren ist freilich die L¨ osung stochastischer Probleme, deren Komplexit¨ at eine rechnerische L¨ osung nicht zul¨ asst.
Zur Thematik dieses Abschnitts weisen wir erg¨ anzend auf [37], SR 2, hin.
3.2 1.
Aufgaben und Erg¨ anzungen
In der Tabelle der Zufallszahlen in Abschnitt 3.1 sind die Zahlen in F¨ unferbl¨ ocke eingeteilt. a) Wie groß ist die Wahrscheinlichkeit f¨ ur einen F¨ unferblock mit f¨ unf verschiedenen Ziffern? b) Wie groß ist die Wahrscheinlichkeit f¨ ur einen F¨ unferblock mit einem Paar gleicher Ziffern? c) Wie groß ist die Wahrscheinlichkeit f¨ ur einen F¨ unferblock mit f¨ unf gleichen Ziffern?
2.
3.
¨ Hinweis: Es handelt sich um Fragen zum sog. Pokertest zur Uberpr¨ ufung der Zuverl¨ assigkeit von Zufallszahlen. Formulieren Sie weitere Fragen zum Pokertest! Man vergleicht dann die errechneten Wahrscheinlichkeiten mit den relativen H¨ aufigkeiten in der Zufallszahlenreihe. ¨ Beim Maximum-Test bildet man zur Uberpr¨ ufung von Zufallszahlen Dreierbl¨ ocke. Man spricht von einem Maximum, wenn die mittlere Ziffer gr¨ oßer ist als ihre beiden Nachbarn, z. B. 0 2 1. Wie groß ist die Wahrscheinlichkeit f¨ ur ein Maximum in einem Dreierblock? In 5 kg Teig befinden sich 150 Rosinen. Aus dem Teig werden 100 Br¨ otchen zu je 50 g gebacken. Der Teig wird sorgf¨ altig durchgeknetet. Die Anzahl der Rosinen in den einzelnen Br¨ otchen wird jedoch nicht gleich, sondern unterschiedlich sein. Bestimmen Sie rechnerisch die Wahrscheinlichkeit, dass ein zuf¨ allig ausgew¨ ahltes Br¨ otchen a) mindestens eine Rosine enth¨ alt, b) genau zwei Rosinen enth¨ alt.
4.
5.
(Vgl. Simulation dieser Aufgabe in Beispiel 3.1.) Acht J¨ ager schießen gleichzeitig auf zehn Enten. Die J¨ ager treffen stets, ager vereinbaren also aber jeder J¨ ager w¨ ahlt zuf¨ allig eine Ente als Ziel. Die J¨ vorher nicht, wer auf welche Ente schießt. Ermitteln Sie auf rechnerischem Wege, wie viele Enten wahrscheinlich geschossen werden. (Vgl. Simulation dieser Aufgabe in Beispiel 3.3.) In der Schulk¨ uche gibt es zum Nachtisch Quark mit Kirschen. Insgesamt wurden 30 Kirschen unter den Quark ger¨ uhrt, der dann in 20 gleichgroße
3.2 Aufgaben und Erg¨ anzungen
6.
7.
8. 9.
10.
11.
12. 13.
227
Portionen aufgeteilt wurde. Bestimmen Sie durch Simulationen mit Zufallszahlen Sch¨ atzwerte f¨ ur die folgenden Wahrscheinlichkeiten: Mit welcher Wahrscheinlichkeit enth¨ alt ein zuf¨ allig ausgew¨ ahltes Quarksch¨ alchen (a) keine Kirsche, (b) genau zwei Kirschen? Auf einem Tisch stehen 10 Sammelb¨ uchsen f¨ ur verschiedene karitative Zwecke. 15 Personen stecken je einen Geldbetrag zuf¨ allig in eine der B¨ uchsen. Beschreiben Sie eine Simulation mit Hilfe von Zufallsziffern um festzustellen, wie viele B¨ uchsen wohl leer bleiben. F¨ uhren Sie die Simulation mehrfach durch. Geben Sie andere Simulationsm¨ oglichkeiten an. Bei einem Turnier starten zehn Jockeys, deren zehn Pferde unter ihnen ausgelost werden. Wie groß ist die Wahrscheinlichkeit dass keiner der zehn Jockeys sein Pferd reitet? Geben Sie Simulationen f¨ ur dieses Problem an! (Rencontre-Problem) Beschreiben Sie eine geeignete Simulation mit Zufallszahlen f¨ ur das Beispiel 3.4 (Das andere Kind) f¨ ur die beiden F¨ alle a) und b). Variante zum Beispiel 3.4 (Das andere Kind). Man weiß: Eine Familie hat zwei Kinder. Man sieht (zus¨ atzliche Information): Die Mutter verl¨ asst mit einem Jungen das Haus, der – wie wir annehmen – ihr Sohn ist. Wie groß ist die Wahrscheinlichkeit, dass die Familie auch ein M¨ adchen hat? Aus einer Klasse mit 32 Sch¨ ulern sollen zwei Sch¨ uler, die eine bestimmte Aufgabe u allig ausgew¨ ahlt werden. Beschreiben ¨ bernehmen sollen, rein zuf¨ Sie die zuf¨ allige Auswahl der zwei Sch¨ uler durch verschiedene Simulationen. Beantworten Sie durch eine Simulation mit Zufallszahlen die Frage nach der Wahrscheinlichkeit f¨ ur das Ereignis, dass beim Werfen von drei LaplaceW¨ urfeln die Augensumme 11 auftritt. Beschreiben Sie eine Simulation zur L¨ osung des Ziegenproblems“ (Bei” spiel 2.46 in Abschnitt 2.9.3). unf Enten. Jeder der drei J¨ ager trifft Drei J¨ ager schießen gleichzeitig auf f¨ mit einer Wahrscheinlichkeit von 25 %, und jeder J¨ ager w¨ ahlt sein Ziel zuf¨ allig. a) Wie groß ist die Wahrscheinlichkeit, dass eine bestimmte Ente nicht getroffen wird? b) Wie viele Enten werden im Durchschnitt u ¨ berleben? Geben Sie zur L¨ osung eine Simulation mit Zufallszahlen an.
4 Zufallsvariable, Erwartungswert und Varianz
Durch Einf¨ uhrung des in der Stochastik zentralen Begriffs Zufallsvariable (auch Zufallsgr¨ oße genannt) erfolgt eine Abstraktion vom Besonderen einer Ergebnismenge Ω. Das f¨ uhrt zu neuen Schreib- und Sprechweisen. Zusammen mit den einzuf¨ uhrenden Begriffen der Wahrscheinlichkeitsverteilung, des Erwartungswerts und der Varianz ergibt sich eine wichtige Erweiterung der Theorie.
4.1
Zufallsvariable und die Wahrscheinlichkeitsverteilung einer Zufallsvariablen
Bei vielen Zufallsexperimenten und Fragestellungen sind die Ergebnisse Zahlen, z. B. beim W¨ urfeln mit einem regul¨ aren W¨ urfel mit den Zahlen 1, 2, 3, 4, 5 und 6. Zahlenwerte sind auch die Anzahlen der in einem bestimmten Zeitintervall eingehenden Telefonanrufe in einem B¨ uro. Aber bei anderen Zufallsexperimenten treten als Ergebnisse keine Zahlen auf. So treten beim M¨ unzwurf als Ergebnisse Zahl (Kopf) und Wappen auf. Auch beim Werfen zweier unterscheidbarer W¨ urfel treten als Ergebnisse zun¨ achst Zahlenpaare auf. Die Ergebnismenge Ω = {(x, y)|x und y ∈ {1, 2, 3, 4, 5, 6}} hat 36 Elemente. Interessiert man sich f¨ ur die Augensumme oder f¨ ur das Produkt der geworfenen Augenzahlen, treten statt der Zahlenpaare Zahlen in den Mittelpunkt der Betrachtung. F¨ ur das Rechnen mit Wahrscheinlichkeiten ist aber im Allgemeinen das Besondere der Ergebnismenge ohne Bedeutung, entscheidend ist in der Regel die Zuordnung der Wahrscheinlichkeiten zu den Ereignissen. Beispiele 1.
F¨ ur die Berechnung von Wahrscheinlichkeiten beim Werfen eines (idealen) W¨ urfels ist die Kennzeichnung der einzelnen W¨ urfelseiten (Zahlen von 1 bis 6 oder Farben: weiß, gelb, rot, gr¨ un, blau, schwarz) ohne Bedeutung; beide Zufallsexperimente lassen sich durch ein einheitliches Modell beschreiben.
H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
230 2.
4 Zufallsvariable, Erwartungswert und Varianz Beim Werfen einer M¨ unze und beim Werfen eines Reißnagels ist aus mathematischer Sicht nicht der geworfene Gegenstand von Bedeutung, sondern die jeweils anderen Wahrscheinlichkeiten der (Elementar-)Ereignisse Kopf/Zahl“ bzw. ⊥ \ λ“. ” ”
Man abstrahiert daher vom Besonderen (Konkreten) der Ergebnismenge, indem man die einzelnen Ergebnisse durch reelle Zahlen codiert und sich dann nur noch interessiert f¨ ur die einzelnen reellen Zahlen oder f¨ ur die den Intervallen von reellen Zahlen zugeordneten Wahrscheinlichkeiten. Die Codierung erreicht man, indem man die Ergebnisse ω der Ergebnismenge Ω durch eine Funktion X in die Menge der reellen Zahlen abbildet. Es interessiert dann weiterhin nicht so sehr das konkrete Ergebnis ω aus der Ergebnismenge Ω, sondern es interessieren der durch die Funktion X gebildete Funktionswert X(ω) und die ihm zugeordnete Wahrscheinlichkeit. Beispiel 4.1 (Dreimaliger M¨ unzwurf ) Eine faire“ M¨ unze wird dreimal nacheinander ge” worfen. Liegt Wappen oben, so erh¨ alt man 1 Euro, liegt Zahl oben, so muss man 1 Euro bezahlen. a) Welches sind die m¨ oglichen Gewinne? (Verluste werden als negative Gewinne angesehen.) b) Mit welcher Wahrscheinlichkeit gewinnt man 1 Euro? L¨ osung a) Die Ergebnismenge Ω enth¨ alt acht Elemente, die im folgenden Bild als Tripel konkret angegeben sind. In der Graphik haben wir jedem ω (z, z, z) −3 von Ω durch die - −1 (z, z, w) Funktion X den - −1 (z, w, z) Gewinn X (ω) (ei- +1 (z, w, w) ne reelle Zahl) zu- −1 (w, z, z) geordnet. Wir be- +1 (w, w, z) trachten also eine - +1 (w, z, w) Funktion, die wir - +3 (w, w, w) mit X bezeichnen: Ω
X
- IR
X : Ω −→ IR.
Durch Betrachten der Abbildung X : Ω −→ IR erkennt man, dass die Gewinne −3, −1, +1, +3 [EURO] sein k¨ onnen.
4.1 Zufallsvariable und Wahrscheinlichkeitsverteilung
231
b) Den vier Funktionswerten x1 = −3, x2 = −1, x3 = +1 und x4 = +3 werden nun Wahrscheinlichkeiten zugeordnet. Gem¨ aß der Aufgabe ist explizit nach der Wahrscheinlichkeit gefragt, wann die Funktion (die Zufallsvariable) X den Wert +1 annimmt. Bezeichnen wir das gesuchte Ereignis mit {X = 1}, so ist P ({X = 1}) gesucht. Wir beantworten diese Frage ausf¨ uhrlich, die anderen M¨ oglichkeiten lassen sich nach demselben Verfahren sofort erschließen. Wir suchen die Menge der Urbilder in Ω, die durch die Funktion X auf +1 in IR abgebildet werden. Formal: Wir suchen die Menge {ω ∈ Ω|X (ω) = 1}. Diese Menge kann auch mit Hilfe der Urbildfunktion X −1 beschrieben werden: X −1 ({1}) = {ω ∈ Ω|X (ω) = 1}. (Die Urbildfunktion darf nicht verwechselt werden mit der Umkehrfunktion (einer bijektiven Abbildung), die mit demselben Symbol bezeichnet wird.) Mit obiger Notation beschreibt diese Menge das gesuchte Ereignis {X = 1}. Also k¨ onnen wir schreiben {X = 1} = {ω ∈ Ω|X (ω) = 1}. Es sind drei Elemente (z, w, w), (w, w, z) und (w, z, w) aus der Ergebnismenge Ω, f¨ ur die gilt X (ω) = 1. Nach diesen Erkenntnissen k¨ onnen wir die gesuchte Wahrscheinlichkeit P ({X = 1}) = P ({ω ∈ Ω|X (ω) = 1}) berechnen. Da in der Aufgabe die Gleichverteilung f¨ ur die Ergebnismenge Ω angenommen wird ( faire“ M¨ unze), betr¨ agt die Einzelwahrscheinlichkeit ” ur alle ω ∈ Ω. Nach der Additionsregel ergibt sich dann durch P (ω) = 18 f¨ Aufsummieren der drei Einzelwahrscheinlichkeiten P ({X = 1}) =
1 3 1 1 + + = . 8 8 8 8
Analog findet man auch f¨ ur die anderen Gewinne die Wahrscheinlichkeiten durch R¨ uckgriff auf die jeweilige Urbildmenge f¨ ur die einzelnen Gewinne und durch R¨ uckbezug auf das auf Ω eingef¨ uhrte Wahrscheinlichkeitsmaß: Werte xi von X
−3
−1
+1
+3
Wahrscheinlichkeiten P (X = xi )
1 8
3 8
3 8
1 8
W¨ ahrend die Werte ω ∈ Ω alle gleichwahrscheinlich sind, sind die Werte der Zufallsvariablen X nicht gleichwahrscheinlich.
232
4 Zufallsvariable, Erwartungswert und Varianz
Wir pr¨ azisieren die im Beispiel schon benutzten Begriffe: Funktionen (Abbildungen), die den Ergebnissen eines Zufallsexperiments reelle Zahlen zuordnen, nennt man Zufallsvariable oder Zufallsgr¨ oßen (englisch: random variables, franz¨ osisch: variables al´etoire). Definition 4.1 (Diskrete Zufallsvariable) Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit endlicher oder abz¨ ahlbarunendlicher Ergebnismenge Ω. Dann heißt jede Funktion (Abbildung) X: Ω −→ IR
mit
ω −→ X (ω)
eine diskrete Zufallsvariable oder diskrete Zufallsgr¨ oße auf Ω.
Didaktische Hinweise 1.
2.
3.
4.
5.
Bisher hatten wir nur den Begriff des Wahrscheinlichkeitsraumes mit einer endlichen Ergebnismenge. In obiger Definition kann nun die Ergebnismenge auch abz¨ ahlbar-unendlich sein. Die genaue Definition eines abz¨ ahlbarunendlichen Wahrscheinlichkeitsraumes erfolgt in Abschnitt 7.1. Hier sei nur Folgendes gesagt: Nach Definition heißt eine Menge M abz¨ ahlbar, wenn sie entweder endlich viele Elemente enth¨ alt oder ihre M¨ achtigkeit |M | gleich der M¨ achtigkeit der Menge der nat¨ urlichen Zahlen ist. In Abweichung von der u ur Funktionen bezeichnet ¨ blichen Schreibweise f¨ man Zufallsvariable mit großen lateinischen Buchstaben X, Y , Z, . . . vom Ende des Alphabets. Kleine Buchstaben x, y, z, . . . (in der Tabelle auf ur die (Funktions-)Werte, Seite 231 mit xi bezeichnet) verwendet man f¨ welche die Zufallsvariable annimmt. Jedem Element ω von der Ergebnismenge Ω wird also durch die Zuordnungsvorschrift genau eine reelle Zahl X (ω) zugeordnet. Da die Bezeichnung Zufallsvariable (Zufallsgr¨ oße) f¨ ur Funktionen etwas ungew¨ ohnlich erscheint, sei betont: Das, was zuf¨ allig ist, ist das Ergebnis ω des Zufallsexperiments, dadurch ist X (ω) ebenfalls zuf¨ allig. Andererseits liegt der Wert X (ω) fest, wenn ω festliegt, denn X ist eine Funktion (eindeutige Zuordnung). Bei der Wahl der Funktion X (Wahl der Zuordnungsvorschrift) hat man nat¨ urlich den Gegebenheiten der Aufgabe Rechnung zu tragen. Da verschiedene Elemente von Ω durch die Funktion (Abbildung) X auf dieselbe reelle Zahl abgebildet werden k¨ onnen, kann der Wertebereich der Funktion X weniger Elemente als Ω enthalten. Im Beispiel erfolgte eine Reduktion von acht Elementen auf vier Elemente. Immer dann, wenn die Ergebnismenge Ω, die ja die Definitionsmenge der Funktion X ist, endlich ist, ist auch der Wertebereich X (Ω) endlich (siehe Beispiel). Ist aber Ω abz¨ ahlbar unendlich, so kann der Wertebereich X (Ω) auch abz¨ ahlbar unendlich sein. In beiden F¨ allen spricht man von einer diskreten Zufallsvariablen.
4.1 Zufallsvariable und Wahrscheinlichkeitsverteilung
233
Beispiel 4.2 Beim Laplace-Farbenw¨ urfel mit den Farben weiß, gelb, rot, gr¨ un, blau und schwarz wird man die Abbildung X : { weiß, gelb, rot, gr¨ un, blau, schwarz } −→ {1, 2, 3, 4, 5, 6} mit der durch folgende Tabelle gegebenen Zuordnung ω
weiß
gelb
rot
gr¨ un
blau
schwarz
X (ω)
1
2
3
4
5
6
als Zufallsvariable w¨ ahlen oder eine beliebige andere Zuordnung Farbe −→ reelle Zahl aus der Menge {1, 2, 3, 4, 5, 6}. Wegen der vorausgesetzten Gleichwahrscheinlichkeit folgt P (X = x) =
1 6
f¨ ur x = 1, 2, 3, 4, 5, 6.
Im Stabdiagramm dargestellt:
P (X = x)
6
1 6
1 2 3 4 5 6
x
Beispiel 4.3 Beim Werfen einer M¨ unze mit Ω = {Z, W } kann die Zufallsvariable X : {Z, W } −→ {0, 1} mit Z −→ 0, W −→ 1 gew¨ ahlt werden. Bei einer fairen“ M¨ unze h¨ atte man ” 1 1 P (X = 0) = und P (X = 1) = . 2 2
Die Zufallsvariablen in diesen drei einf¨ uhrenden Beispielen 4.1, 4.2, 4.3 sind diskret. Die Lebensdauer einer Gl¨ uhlampe oder die Lebensdauer eines einzelnen Atoms sind dagegen Beispiele, bei denen man stetige Verteilungsfunktionen zugrunde legen muss (siehe Kapitel 8).
234
4 Zufallsvariable, Erwartungswert und Varianz
Wenn X und Y diskrete Zufallsvariablen auf derselben Ergebnismenge Ω ur alle sind, dann sind auch X + Y , X − Y , X · Y und X Y (falls Y (ω) = 0 f¨ ω ∈ Ω) diskrete Zufallsvariablen. Das folgt unmittelbar aus der Definition einer Zufallsvariablen als Funktion. Wir definieren f¨ ur eine diskrete Zufallsvariable ihre Wahrscheinlichkeitsverteilung. Definition 4.2 (Wahrscheinlichkeitsverteilung) Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit endlicher oder abz¨ ahlbarunendlicher Ergebnismenge Ω, sei X : Ω −→ IR eine diskrete Zufallsvariable auf Ω und sei X(Ω) = {X(ω)|ω ∈ Ω} ⊂ IR die Wertemenge von X in IR. F¨ ur einen Wert u ∈ X(Ω) setzen wir PX (u) := P (X −1 (u)) = P ({ω ∈ Ω|X(ω) = u}) und nennen die Gesamtheit der Werte PX (u) mit u ∈ X(Ω) die Wahrscheinlichkeitsverteilung der Zufallsvariablen X. Hinweis: Wir benutzen hier den Begriff Wahrscheinlichkeitsverteilung in einem speziellen Sinn: Es wird n¨ amlich die Wahrscheinlichkeit f¨ ur ein Element u des Wertebereichs X(Ω) angegeben. Der Begriff Wahrscheinlichkeitsverteilung ” der Zufallsvariablen X“ wird dann in Definition 4.3 im allgemeinen (und u ¨ blichen) Sinn gebracht. Eine Graphik verdeutlicht die Definition:
4.1 Zufallsvariable und Wahrscheinlichkeitsverteilung
235
Didaktische Hinweise 1.
2.
3.
In der Definition h¨ atten wir zur Bezeichnung eines Elementes der Wertemenge X(Ω) statt des Buchstabens u auch den Buchstaben x nehmen k¨ onnen. Wir haben u bewusst gew¨ ahlt, um zu Beginn eine Verwechslung zwischen x und X zu vermeiden. In Kapitel 5 betrachten wir Zufallsvariable, deren Wertebereich X(Ω) ganz in IN liegt. Dann schreibt man u ¨blicherweise P (X = k) bzw. P (X −1 (k)) ur k ∈ X(Ω) ⊂ IN. bzw. PX (k) f¨ Das Ereignis {ω ∈ Ω|X(ω) = u} bedingt zwei gleichwertige Sprechweisen: Die Zufallsvariable X hat den ” Wert u angenommen“ und das Ereignis {ω ∈ Ω|X (ω) = u} ist eingetre” ten“. In den Beispielen 4.1, 4.2, 4.3 haben wir f¨ ur P ({ω ∈ Ω|X(ω) = u}) schon die sehr suggestive Schreibweise P (X = u) benutzt. Damit haben wir nun drei gleichbedeutende Schreibweisen f¨ ur die Wahrscheinlichkeit des Ereignisses {ω ∈ Ω|X(ω) = u}: a) P (X = u). In Worten: Wahrscheinlichkeit, dass die Zufallsvariable X den Wert u annimmt. b) P (X −1 (u)). In Worten: Wahrscheinlickeit des Urbildes von u unter der Abbildung X. c) Kurzschreibweise: PX (u). In Worten: Wahrscheinlichkeit f¨ ur ein Element u des Wertebereichs der Zufallsvariablen X.
Unser n¨ achstes Ziel ist es, die Wertemenge einer diskreten Zufallsvariablen zu einem Wahrscheinlichkeitsraum zu machen.
Definition 4.3 (Wahrscheinlichkeitsverteilung – allgemeine Definition) Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit endlicher oder abz¨ ahlbarunendlicher Ergebnismenge Ω. Sei X : Ω → IR eine diskrete Zufallsvariable auf Ω und sei X(Ω) die Wertemenge von X. 1.
Sei A ⊂ X(Ω). Durch die Zuordnung A → PX (A) := P (X −1 (A))
2.
wird eine Abbildung PX : P(X(Ω)) → IR definiert. Die Abbildung PX : P(X(Ω)) → IR heißt Wahrscheinlichkeitsverteilung von X.
236
4 Zufallsvariable, Erwartungswert und Varianz
Bemerkung: Die Berechnung von PX (A) ist einfach: PX (A)
=
P (X −1 (A))
=
P ({ω ∈ Ω|X(ω) ∈ A}) P( {ω ∈ Ω|X(ω) = u})
=
u∈A
=
P ({ω ∈ Ω|X(ω) = u})
u∈A
=
P (X −1 (u)).
u∈A
Um PX (A) zu ermitteln, muss man also nur diejenigen Werte der Zufallsvariablen, die in A liegen, nehmen und dann die Summe der Wahrscheinlichkeiten der Urbilder dieser Werte bilden. In der folgenden Skizze sei beispielhaft die Situation verdeutlicht, dass A drei Elemente (u1 , u2 , u3 ) hat:
Beispiel 4.4 Man wirft zwei unterscheidbare W¨ urfel und notiert die Augensumme. Hier ist Ω = {(x1 , x2 )|x1 , x2 ∈ {1, . . . , 6}} und X ist die Zufallsvariable, die die Augensumme angibt. Man hat X(Ω) = {2, . . . , 12}. Folgende Tabelle gibt die Verteilung PX an:
4.2 Kumulative Verteilungsfunktion einer Zufallsvariablen
237
u
2
3
4
5
6
7
8
9
10
11
12
P (X = u)
1 36
2 36
3 36
4 36
5 36
6 36
5 36
4 36
3 36
2 36
1 36
Fragt man nun nach der Wahrscheinlichkeit f¨ ur das Ereignis Die Augensum” me ist Primzahl“, so hat man A = {2, 3, 5, 7, 11} und man erh¨ alt: PX ({2, 3, 5, 7, 11}) = = = = =
P (X −1 ({2, 3, 5, 7, 11})) P X −1 (2) ∪ X −1 (3) ∪ X −1 (5) ∪ X −1 (7) ∪ X −1 (11) P (X −1 (2)) + P (X −1 (3)) + P (X −1 (5)) + P (X −1 (7)) + P (X −1 (11)) 1 2 4 6 2 + + + + 36 36 36 36 36 15 . 36
Wie angek¨ undigt, wollen wir X(Ω) zu einem Wahrscheinlichkeitsraum machen. Das wird durch folgende Aussage gew¨ ahrleistet.
Satz 4.1 Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit endlicher oder abz¨ ahlbarunendlicher Ergebnismenge Ω. Sei X eine diskrete Zufallsvariable auf Ω und sei X(Ω) die Wertemenge von X. Dann gilt: Die Abbildung PX : P(X(Ω)) → IR mit A → PX (A) ist ein Wahrscheinlichkeitsmaß auf (X(Ω), P(X(Ω)), P ). ¨ Beweis: Der Beweis wird als Ubungsaufgabe gestellt. Dieser Beweis soll allerdings erst in Aufgabe 2 des Abschnitts 7.3 erbracht werden, wenn der Begriff abz¨ ahlbar-unendlicher Wahrscheinlichkeitsraum“ zur Verf¨ ugung steht. ” Bemerkung: Als Fazit halten wir fest: (X(Ω), P(X(Ω)), PX ) ist ein Wahrscheinlichkeitsraum.
4.2
Kumulative Verteilungsfunktion einer Zufallsvariablen
Oftmals interessiert man sich f¨ ur die Wahrscheinlichkeit, dass eine Zufallsvariable X einen Wert annimmt, der nicht gr¨ oßer ist als ein bestimmter Wert x.
238
4 Zufallsvariable, Erwartungswert und Varianz
Man fragt (in Kurzschreibweise) nach der Wahrscheinlichkeit P (X ≤ x). Es ist daher zweckm¨ aßig – wie bei H¨ aufigkeitsverteilungen in der beschreibenden Statistik – auch Wahrscheinlichkeitsverteilungen zu kumulieren. Beispiel 4.5 Wir gehen aus von Beispiel 4.1 (Dreimaliger M¨ unzwurf) und fragen nach der Wahrscheinlichkeit, in einem Spiel h¨ ochstens 1 Euro zu gewinnen. Beachte: H¨ ochstens 1 Euro Gewinn bedeutet auch, dass man Geld verlieren kann. Wir fragen also nach der Wahrscheinlichkeit, dass die Zufallsvariable X Werte kleiner oder gleich 1 annimmt: P (X ≤ 1). Es liegt nahe, die Wahrscheinlichkeiten der Zufallsvariablen X f¨ ur Werte kleiner oder gleich 1 zu addieren: P (X ≤ +1)
= =
P (X = −3) + P (X = −1) + P (X = +1) 3 3 7 1 + + = . 8 8 8 8
Aus Anlass solcher Fragestellungen definiert man zweckm¨ aßig eine zur Wahrorige kumulative Verscheinlichkeitsverteilung PX der Zufallsvariablen X geh¨ teilungsfunktion FX . Zur Vereinfachung lassen wir in der folgenden Definition den Index X, der auf die Abh¨ angigkeit zur Zufallsvariablen X hinweist, weg. Definition 4.4 (Verteilungsfunktion) Sei X eine diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Sei {xi |i ∈ I} die Wertemenge von X (wobei I = {1, . . . , n} oder I = IN ist). Dann heißt die Funktion F : IR −→ [0, 1] mit F (x) := P (X ≤ x) := P (X = xi ) xi ≤x
die (kumulative) Verteilungsfunktion der Zufallsvariablen X.
Anmerkung: Die Klammern um kumulative“ deuten an, dass die Funktion ” F auch kurz Verteilungsfunktion genannt wird. Die Funktion F ist f¨ ur alle x ∈ IR definiert. In der graphischen Darstellung ist die kumulative Verteilungsfunktion f¨ ur diskrete Zufallsvariablen eine Treppenfunktion. Sprungstellen von F sind die Werte x mit positiver Wahrscheinlichkeit P (X = x), also x-Werte, f¨ ur die gilt P (X = x) > 0. F¨ ur das Beispiel Dreimaliger M¨ unzwurf“ gilt u. a.: ” 1 4 F (−1) = P (X ≤ −1) = ; F (−1, 1) = ; 8 8 4 F (+0, 5) = P (X ≤ +0, 5) = ; 8 7 P (X ≤ 2) = P (X ≤ 2, 9) = P (X ≤ 1, 1) = . 8
4.3 Erwartungswert und Varianz diskreter Zufallsvariablen
239
Insgesamt erh¨ alt man das folgende Schaubild f¨ ur die Verteilungsfunktion F im Beispiel Dreimaliger M¨ unzwurf“: ”
F (x) 1
6
7 8
4 8
1 8
−3
−1
0
-
1
3
5
x
Im folgenden Satz formulieren wir einige Eigenschaften der Verteilungsfunktion.
Satz 4.2 (Eigenschaften der Verteilungsfunktion) Sei F die Verteilungsfunktion einer diskreten Zufallsvariablen X : Ω → IR. Dann gilt: 1. 2. 3. 4.
0 ≤ F (x) ≤ 1 f¨ ur alle x ∈ IR. Sind a, b beliebige reelle Zahlen mit a < b, dann gilt: P (a < X ≤ b) = F (b) − F (a). F ist eine monoton steigende Funktion. F ist rechtsseitig stetig.
Der Beweis ist in Aufgabe 3 von Abschnitt 4.5 zu erbringen.
4.3
Erwartungswert und Varianz diskreter Zufallsvariablen
4.3.1
Erwartungswert
Wenn man an einem Spiel teilnehmen will, wird man danach fragen, ob dieses Spiel fair ist, d. h. ob sich in einer l¨ angeren Spielserie Gewinn und Verlust ausgleichen. Man fragt danach, was man im Mittel bei vielen Spielen erwarten darf. Als Einstieg betrachten wir die Verlustchancen und die Gewinnchancen eines Spielers im Beispiel 4.1 ( Dreimaliger M¨ unzwurf“). Mit der Wahrscheinlichkeit ”
240
4 Zufallsvariable, Erwartungswert und Varianz
P (X = −3) = P (X = −1) =
1 8 3 8
verliert der Spieler 3 Euro, mit der Wahrscheinlichkeit verliert er 1 Euro. Also betragen die wahrscheinlichen Verluste (−3) · P (X = −3) + (−1) · P (X = −1).
Entsprechend betragen die wahrscheinlichen Gewinne 3 · P (X = 3) + 1 · P (X = 1). Die Frage ist, ob die Summe der wahrscheinlichen Gewinne und Verluste gleich Null ist. Das ist der Fall:
=
(−3) · P (X = −3) + (−1) · P (X = −1) + 3 · P (X = 3) + 1 · P (X = 1) 3 3 3 3 − − + + = 0. 8 8 8 8
Der zu erwartende Gewinn“ ist Null. Es ist ein faires Spiel. ” Wir reflektieren das Vorgehen und gelangen durch Abstraktion zum Begriff Erwartungswert. Die Zufallsvariable X, die im Beispiel die m¨ oglichen Gewinne bezeichnet, nimmt die vier Werte −3, −1, +1, +3 an. Wir haben dann alle Produkte der Gestalt (Zahlenwert der Zufallsvariablen) mal (Wahrscheinlichkeit f¨ ur diesen Zahlenwert) gebildet und diese Produkte aufaddiert. Das ist der Erwartungswert.
Definition 4.5 (Erwartungswert) Sei X eine diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). 1.
Falls X endlich viele Werte x1 , . . . , xn annimmt, heißt E(X) =
n
xi · P (X = xi )
i=1
2.
der Erwartungswert von X. Falls X abz¨ ahlbar-unendlich viele Werte xi (i ∈ IN) annimmt und falls ∞
|xi | · P (X = xi )
(4.1)
i=1
konvergiert, heißt E(X) =
∞
xi · P (X = xi )
i=1
der Erwartungswert von X.
4.3 Erwartungswert und Varianz diskreter Zufallsvariablen
241
Didaktische Bemerkungen: 1. 2. 3. 4.
Der Erwartungswert E(X) einer diskreten Zufallsvariablen wird auch mit μ bezeichnet (griechischer Buchstabe μ, gelesen: my). ∞ Ist eine Reihe ∞ i=1 ai konvergent, schreiben wir kurz i=1 ai < ∞. Diskrete Zufallsvariable mit abz¨ ahlbar-unendlich vielen Werten werden wir in Abschnitt 5.4 kennen lernen. Hat die Zufallsvariable X abz¨ ahlbar-unendlich viele Werte, so muss man zun¨ achst schauen, ob die Reihe ∞ i=1 xi · P (X = xi ) absolut konvergiert, ob also ∞ |xi | · P (X = xi ) < ∞ (4.1) i=1
gilt. Erst wenn das der Fall ist, gilt E(X) =
∞
xi · P (X = xi ).
i=1
5.
Die mit der Bedingung (4.1) ausgesprochene Konvergenz der Reihe ∞ i=1 |xi | · P (X = xi ) ist eine wichtige mathematische Bedingung: Nur bei Erf¨ ulltsein dieser Bedingung n¨ amlich kann der Erwartungswert u ¨berhaupt eindeutig definiert werden. Zur Erkl¨ arung des Begriffs absolut konvergente ” unendliche Reihe“ siehe: K¨ utting ([100], Bd. 1, 175). Der Nachweis dieser Bedingung (4.1) kommt in der Praxis eher selten vor: Im Allgemeinen sind die in konkreten Anwendungen vorkommenden Reihen h¨ aufig schon bekannt als absolut konvergent, so dass (4.1) nicht nachgepr¨ uft ∞ werden muss und somit direkt E(X) = x · P (X = x ) berechnet i i i=1 werden kann. (Insbesondere bei den Beispielen und Aufgaben in diesem Buch muss (4.1) niemals gepr¨ uft werden.) Wir k¨ onnen die Aussagen 1. und 2. der obigen Definition 4.5 zusammenfassen und Folgendes sagen: Sei I eine Teilmenge von IN (also insbesondere etwa die endliche Menge I = {1, . . . , n} oder die ganze Menge IN). Dann lautet die Definition des Erwartungswertes folgendermaßen: Gilt |xi | · P (X = xi ) < ∞, i∈I
so heißt E(X) =
xi · P (X = xi )
i∈I
der Erwartungswert von X. Wir werden noch des ¨ ofteren mit dieser die Aussagen 1. und 2. vereinigenden Definition des Erwartungswertes arbeiten.
242
4 Zufallsvariable, Erwartungswert und Varianz
Beispiel 4.6 (Nachtw¨ achter) Ein Nachtw¨ achter hat einen Schl¨ usselbund mit f¨ unf ¨ ahnlich aussehenden Schl¨ usseln. Er will eine T¨ ur aufschließen, in deren Schloss genau einer der Schl¨ ussel passt. Er probiert alle Schl¨ ussel nacheinander durch, bis er den richtigen findet. Wie viele Versuche wird der Nachtw¨ achter im Mittel machen m¨ ussen, um den richtigen Schl¨ ussel zu finden? L¨ osung Sp¨ atestens beim f¨ unften Versuch hat der Nachtw¨ achter den richtigen Schl¨ ussel. Gefragt ist aber nach dem Erwartungswert E(X) der Zufallszahlen X, welche die Anzahl der Versuche angibt, bis der richtige Schl¨ ussel gefunden ist. Die Zufallsvariable X nimmt die Werte 1, 2, 3, 4, 5 an. Die Wahrscheinlichkeit P (X = k), dass beim k-ten Versuch der richtige Schl¨ ussel (Ereignis (R)) 1 gezogen wird, ist f¨ ur alle k = 1, 2, 3, 4, 5 gleich 5 (siehe das Baumdiagramm).
1 5
4 5
R
1 4
¯ R
3 4
R
¯ R
1 3
2 3
R
¯ R
1 2
1 2
R
1
R
¯ R
Es gilt: E(X)
=
=
1 · P (X = 1) + 2 · P (X = 2) + 3 · P (X = 3) + 4 · P (X = 4) + 5 · P (X = 5) 1 1 1 1 1 1 · + 2 · + 3 · + 4 · + 5 · = 3. 5 5 5 5 5
Im Mittel wird der Nachtw¨ achter also drei Versuche machen m¨ ussen, bis er den passenden Schl¨ ussel gefunden hat.
Das folgende Beispiel dient nochmals zur Motivation des Namens Erwar” tungswert“, bezieht gleichzeitig die relativen H¨ aufigkeiten als Sch¨ atzwert f¨ ur Wahrscheinlichkeiten ein und l¨ asst Erwartungswert und arithmetisches Mittel als analoge Begriffe erkennen.
Beispiel 4.7 (W¨ urfelspiel) Bei einem W¨ urfelspiel betr¨ agt der Einsatz 5 Euro je Spiel. Ein fairer“ W¨ urfel darf einmal geworfen werden. F¨ allt eine gerade Augenzahl, so ” erh¨ alt der Spieler den durch die Augenzahl angegebenen Betrag in Euro, f¨ allt eine ungerade Zahl, so erh¨ alt der Spieler das Doppelte der Augenzahl in Euro.
4.3 Erwartungswert und Varianz diskreter Zufallsvariablen
243
Ist das Spiel fair? L¨ osung Zur L¨ osung bestimmen wir den Erwartungswert der Zufallsvariablen X, die die Auszahlungsbetr¨ age angibt. Sie nimmt die Werte xi = 2, 4, 6 und 10 an, denn 1 −→ 2, 2 −→ 2, 3 −→ 6, 4 −→ 4, 5 −→ 10, 6 −→ 6. Durch eine Tabelle geben wir die Verteilung an: xi
2
4
6
10
P (X = xi )
2 6
1 6
2 6
1 6
Also folgt: 1 2 1 30 2 + 4 · + 6 · + 10 · = = 5, 6 6 6 6 6 d. h. der mittlere durchschnittliche Auszahlungsbetrag betr¨ agt auf lange Sicht 5 Euro. Da der Spieleinsatz ebenfalls 5 Euro betr¨ agt, kann das Spiel als fair bezeichnet werden. Wir nehmen nun an, das Spiel im Beispiel werde n-mal gespielt, und dabei werde n1 -mal 2 Euro, n2 -mal 4 Euro, n3 -mal 6 Euro und n4 -mal 10 Euro, ausgezahlt. Der Gesamtauszahlungsbetrag x ist dann E(X) = 2 ·
x = n1 · 2 + n2 · 4 + n3 · 6 + n4 · 10, und die Division durch n ergibt das arithmetische Mittel x ¯ als den mittleren Auszahlungsbetrag: n1 n2 n3 n4 x ¯= ·2+ ·4+ ·6+ · 10. n n n n aufigkeiten und damit Sch¨ atzwerte f¨ ur die entspreDie Br¨ uche nni sind relative H¨ chenden Wahrscheinlichkeiten P (X = xi ), wenn die Anzahl n der Spiele groß ist (Gesetz der großen Zahlen von Bernoulli). Dann ist x ¯ eine N¨ aherung des des Erwartungswertes E(X). Die Herleitung macht deutlich, dass der Erwartungswert also als Durchschnittswert interpretiert werden kann, wobei die Realisationen der Zufallsvariablen mit ihren Wahrscheinlichkeiten gewichtet werden. Der Erwartungswert ist ein typischer Wert einer Verteilung und wird auch als Mittelwert der Verteilung bezeichnet. Anders formuliert: Das arithmetische Mittel x ¯ kann als Sch¨ atzwert f¨ ur den Erwartungswert angesehen werden.
Es sei nun noch eine n¨ utzliche Formel zur Berechnung des Erwartungswertes angegeben.
244
4 Zufallsvariable, Erwartungswert und Varianz
Satz 4.3 (Alternative M¨ oglichkeit zur Berechnung des Erwartungswertes) Sei X eine diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Sei {xi |i ∈ I} die Wertemenge von X (wobei I = {1, . . . , n} oder I = IN ist). Dann gilt 1. |xi | · P (X = xi ) < ∞ ⇔ ω∈Ω |X(ω)| · P ({ω}) < ∞. i∈I 2. Gilt ω∈Ω |X(ω)| · P ({ω}) < ∞, so ist E(X) = ω∈Ω X(ω) · P ({ω}). Beweis: Zu Aussage 1: Gilt ∞ i=1 |xi | · P (X = xi ) < ∞, hat man |xi | · P (X = xi ) i∈I
=
|xi | · P ({ω ∈ Ω|X(ω) = xi })
i∈I
=
|xi | · P (X −1 (xi ))
i∈I
=
⎛
⎝
⎞ |X(ω)| · P ({ω})⎠
ω∈X −1 (xi )
i∈I
=
|X(ω)| · P ({ω}).
ω∈Ω
Also gilt auch ω∈Ω |X(ω)| · P ({ω}) < ∞. · P ({ω}) < ∞, so folgt mittels der gleichen Gilt umgekehrt ω∈Ω |X(ω)| Gleichungskette, dass auch i∈I |xi | · P (X = xi ) < ∞. Zu Aussage 2: Die Voraussetzung, dass ω∈Ω |X(ω)| · P ({ω}) < ∞ gilt, bedeutet, dass auch ω∈Ω X(ω) · P ({ω}) < ∞ gilt. (Hintergrund ist folgender Satz aus der Analysis: Ist eine Reihe absolut konvergent, so ist sie auch konvergent.) Nun kann man dieselbe Gleichungskette, die wir beim Beweis von Aussage 1 hatten, ohne Betragsstriche durchf¨ uhren (von unten nach oben) und erh¨ alt: X(ω) · P ({ω}) ω∈Ω
=
xi · P (X = xi )
i∈I
=
E(X).
Oft kommt es vor, dass die Werte einer diskreten Zufallsvariablen X mittels einer Funktion f transformiert werden. Der folgende Satz macht eine Aussage u ¨ ber den Erwartungswert von f ◦ X.
4.3 Erwartungswert und Varianz diskreter Zufallsvariablen
245
Satz 4.4 (Transformationssatz) Sei X eine diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Sei f : X(Ω) → IR eine weitere Abbildung. 1.
Falls X(Ω) endlich ist, also X(Ω) = {x1 , . . . , xn }, gilt E(f ◦ X) =
n
f (xi ) · P (X = xi ).
i=1
2.
Falls X(Ω) abz¨ ahlbar-unendlich ist, also X(Ω) = {xi |i ∈ IN}, und falls ∞
|f (xi )| · P (X = xi ) < ∞,
i=1
so gilt E(f ◦ X) =
∞
f (xi ) · P (X = xi ).
i=1
Hinweise: a)
Die Aussagen 1. und 2. k¨ onnen wir wieder wie folgt zusammenfasen: Ist X(Ω) = {xi |i ∈ I}, wobei I = {1, . . . , n} oder I = IN ist, dann gilt: f (xi ) · P (X = xi ), E(f ◦ X) = i∈I
falls i∈I |f (xi )| · P (X = xi ) < ∞. b) Der Beweis dieses Satzes soll hier nicht erbracht werden. Einen leicht zug¨ anglichen Beweis findet man in Kn¨ opfel/L¨ owe [79]: Siehe dort Satz 4.1.15.
4.3.2
Varianz
Der Erwartungswert einer Zufallsvariablen kann als Lageparameter aufgefasst werden, wie etwa das arithmetische Mittel in der beschreibenden Statistik. Die Verteilung wird genauer beschrieben, wenn man der Verteilung eine weitere Kennzahl zuordnet (einen Streuungsparameter), die analog der mittleren quadratischen Abweichung (der empirischen Varianz) in der beschreibenden Statistik eine Aussage u arke der Streuung einer Verteilung um den ¨ ber die St¨ Erwartungswert macht. Diese Kennzahl ist die Varianz. Man betrachtet die Abweichung (Differenz) der Zufallsvariablen X von ihrem Erwartungswert E(X) als neue Zufallsvariable, bildet das Quadrat und berechnet von dieser Zufallsvariablen (X − E(X))2 den Erwartungswert.
246
4 Zufallsvariable, Erwartungswert und Varianz
Definition 4.6 (Varianz) Sei X eine diskrete Zufallsvariable mit dem Erwartungswert E(X). Existiert der Erwartungswert E [X − E(X)]2 , so heißt diese Zahl Varianz von X, die mit V (X) bzw. V ar(X) bezeichnet wird. Didaktische Hinweise 1. 2.
3.
Die Varianz einer diskreten Zufallsvariablen X wird auch mit σ 2 bezeichnet (griechischer Buchstabe σ, gelesen: sigma). Da der Erwartungswert einer Zufallsvariablen, die keine negativen Werte annimmt (vgl. den quadratischen Ausdruck (X − E(X))2 ), nicht negativ ist, ist die Varianz stets eine nichtnegative Zahl. √ Die Quadratwurzel aus der Varianz V (X) = σ 2 heißt Standardabweichung der Zufallsvariablen X. Sie wird mit σ bezeichnet. Zur Berechnung der Varianz steht uns die folgende Rechenregel zur Verf¨ ugung.
Satz 4.5 Sei X eine diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ), es existiere der Erwartungswert E(X) und die Varianz V (X). Sei weiter {xi |i ∈ I} die Wertemenge von X (wobei I = {1, . . . , n} oder I = IN ist). Dann gilt: V (X) = [xi − E(X)]2 · P (X = xi ). i∈I
Beweis: Wir wenden Satz 4.4 an: Es sei f : X(Ω) → IR definiert durch x → f (x) := [x − E(X)]2 . Wegen des genannten Satzes gilt dann: V (X)
=
E([X − E(X)]2 )
=
E(f ◦ X) f (xi ) · P (X = xi )
=
i∈I
=
i∈I
[xi − E(X)]2 · P (X = xi ).
4.3 Erwartungswert und Varianz diskreter Zufallsvariablen
247
Beispiel 4.8 Wir betrachten das einmalige Werfen eines nicht gezinkten W¨ urfels. Die Zufallsvariable X gebe die Augenzahl an, d. h. xi = 1, 2, 3, 4, 5, 6. Unter der Annahme der Gleichwahrscheinlichkeit gilt dann E(X) = 3, 5 und V (X)
=
V (X)
=
1 1 1 + (2 − 3, 5)2 · + (3 − 3, 5)2 · 6 6 6 2 1 2 1 2 1 + (4 − 3, 5) · + (5 − 3, 5) · + (6 − 3, 5) · 6 6 6 35 1 · 17, 5 = . 6 12 (1 − 3, 5)2 ·
Beispiel 4.9 (Produktion von Metallstiften) Eine Maschine stellt Stifte her. Die Solll¨ ange der Stifte betr¨ agt 8 cm. Eine Untersuchung der tats¨ achlich auftretenden L¨ angen X ergab die folgenden Werte xi mit ihren Wahrscheinlichkeiten: xi
7,8
7,9
8,0
8,1
8,2
P (X = xi )
0,049
0,125
0,625
0,171
0,030
Wir berechnen den Erwartungswert und die Varianz der Zufallsvariablen X. E(X)
=
5
xi · P (X = xi ) = 0, 3822 + 0, 9875 + 5 + 1, 3851 + 0, 246
i=1
E(X)
=
V (X)
=
8, 0008. 5
(xi − 8, 0008)2 · P (X = xi )
i=1
=
(7, 8 − 8, 0008)2 · 0, 049 + (7, 9 − 8, 0008)2 · 0, 125 + (8, 0 − 8, 0008)2 · 0, 625 + (8, 1 − 8, 0008)2 · 0, 171 + (8, 2 − 8, 0008)2 · 0, 030
≈
0, 00197 + 0, 00127 + 0, 0000004 + 0, 00168 + 0, 00119
≈
0, 00611.
Beispiel 4.10 (Erwartungswert und Varianz beim Lotto) Wie groß sind der Erwartungswert und die Varianz f¨ ur die Anzahl der Richtigen“, die mit einer Tippreihe ” beim Lotto 6 aus 49“ erzielt werden? ” Da aus 49 Kugeln 6 Kugeln gezogen werden, die die Richtigen“ sind, bleiben ” 43 falsche“ Kugeln. Die Tippreihe kann 0, 1, 2, 3, 4, 5, oder 6 Richtige enthalten. ” Die Zufallsvariable X gebe die Anzahl der Richtigen in einer Reihe an. Unter der
248
4 Zufallsvariable, Erwartungswert und Varianz
Laplace-Annahme, dass jede Kugel mit der gleichen Wahrscheinlichkeit gezogen wird, gilt dann (vgl. Abschnitt 2.8.6, Aufgabe 17): 6 43 · P (X = i) = i 496−i mit i = 0, 1, 2, 3, 4, 5, 6. 6
Man erh¨ alt f¨ ur E(X): E(X)
=
6
xi · P (X = xi ) =
i=0
=
6
6
i · P (X = i)
i=0
i · P (X = i) =
i=1
36 ≈ 0, 735. 49
Im Mittel wird man also nicht einmal eine richtige Zahl haben. F¨ ur die Varianz gilt: 2 6
36 V (X) = i− · P (X = xi ) = . . . ≈ 0, 5774. 49 i=1
Ergebnis: Auch die Varianz ist klein, so dass man in der Regel im Durchschnitt auch nur eine richtige Zahl erwarten kann.
¨ Uberlegungen zur Interpretation der Varianz Wir betrachten nur den diskreten endlichen Fall. Gem¨ aß V (X) =
n
(xi − E(X))2 · P (X = xi )
i=1
muss jeder Summand klein sein, wenn die Varianz klein ist. Also m¨ ussen die xi -Werte, die weit weg von E(X) liegen, eine geringe Wahrscheinlichkeit besitzen. Denn sonst ist der Summand nicht klein. Bei kleiner Varianz sind demnach große Abweichungen der Zufallsgr¨ oße X vom Erwartungswert E(X) ziemlich unwahrscheinlich. Umgekehrt folgt bei großer Varianz, dass nicht alle xi -Werte nahe bei E(X) liegen. Die Streuung ist also groß. Wenden wir diese Erkenntnis auf das Beispiel Lotto“ an, so bedeutet die kleine Varianz von 0,5774, dass ” große Abweichungen (also mehrere Richtige, etwa 5 oder 6 Richtige) vom Erwartungswert 0,735 ziemlich unwahrscheinlich sind. Das sollte ein Lottospieler bedenken. Rechenregeln F¨ ur das Rechnen mit Erwartungswert und Varianz sind die folgenden Regeln n¨ utzlich:
Satz 4.6 (Rechenregeln f¨ ur Erwartungswert und Varianz) Sei X eine Zufallsvariable und seien a und b reelle Zahlen. Dann gilt:
4.3 Erwartungswert und Varianz diskreter Zufallsvariablen 1. 2.
249
E(aX + b) = a · E(X) + b, a, b konstant, V (aX + b) = a2 · V (X), a, b konstant.
Beweis: Wir f¨ uhren den Beweis f¨ ur den Fall, dass die Zufallsvariable X nur endlich viele Werte x1 , x2 , x3 , . . . , xn annimmt. Der Beweis f¨ ur unendlich viele Werte verl¨ auft analog. Zu 1: Es gilt: E(aX + b)
=
n (axi + b) · P (X = xi ) i=1
=
a·
n
xi · P (X = xi )
+b·
i=1
n
P (X = xi ).
i=1
Der Faktor n i=1 P (X = xi ) im letzen Summanden hat als Summe der Wahrscheinlichkeiten den Wert 1. Also folgt E(aX + b) = a · E(X) + b. Zu 2: Gem¨ aß Definition gilt V (aX + b)
V (aX + b)
=
E
(aX + b) − E(aX + b)
2
,
hierauf wird Regel (1) angewandt:
E ((aX + b) − (a · E(X) + b))2 .
=
Algebraische Umformungen f¨ uhren zu: V (aX + b)
= = = =
E (aX + b − a · E(X) − b)2 E (aX − a · E(X))2 E (a(X − E(X)))2 E a2 · (X − E(X))2 .
Nochmalige Anwendung der Regel (1) auf die Zufallsgr¨ oße a2 · (X − E(X))2 liefert das Ergebnis V (aX + b)
=
a2 ·
E (X − E(X))2 R¨ uckgriff auf die Definition:
V (aX + b)
=
2
a · V (X).
,
250
4.4
4 Zufallsvariable, Erwartungswert und Varianz
Mehrere Zufallsvariable auf einem Wahrscheinlichkeitsraum
In diesem Abschnitt sei stets folgende Ausgangssituation gegeben: Es sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit endlicher oder abz¨ ahlbarunendlicher Ergebnismenge Ω. Weiter seien auf (Ω, P(Ω), P ) die diskreten Zufallsvariablen X1 , . . . , Xn gegeben. In diesem Abschnitt soll zun¨ achst der bedeutsame Begriff der Unabh¨ angigkeit von Zufallsvariablen eingef¨ uhrt werden; anschließend soll es um die Berechnung des Erwartungswertes und der Varianz einer Summe von Zufallsvariablen gehen.
4.4.1
Unabh¨ angigkeit von Zufallsvariablen
Definition 4.7 (Unabh¨ angigkeit diskreter Zufallsvariabler) Sind X1 , . . . , Xn diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ), dann heißen X1 , . . . , Xn stochastisch unabh¨ angig, falls f¨ ur alle x1 , . . . , xn ∈ IR gilt: P (X1 = x1 ∧X2 = x2 ∧. . .∧Xn = xn ) = P (X1 = x1 )·P (X2 = x2 )·. . .·P (X = xn ).
Zur Verdeutlichung der Definition sei sofort ein einfaches Beispiel gegeben.
Beispiel 4.11 Es werde ein W¨ urfel n Mal geworfen; der Ergebnisraum ist Ω = {(x1 , . . . , xn )|xi ∈ {1, . . . , 6}, 1 ≤ i ≤ n}. Auf Ω seien Zufallsvariable Xi wie folgt definiert: Xi gibt die Augenzahl des angig. i-ten Wurfs an (1 ≤ i ≤ n). Dann gilt: X1 , . . . , Xn sind stochastisch unabh¨ Grund:
= =
P (X1 = x1 ∧ . . . ∧ Xn = xn )
n 1 1 P ((x1 , . . . , xn )) = n = 6 6 P (X = x1 ) · . . . · P (X = xn ).
Wir geben nun ein Beispiel, bei dem die beteiligten Zufallsvariablen nicht unabh¨ angig sind.
4.4 Mehrere Zufallsvariable auf einem Wahrscheinlichkeitsraum
251
Beispiel 4.12 Eine M¨ unze wird f¨ unf Mal geworfen. Wir haben also Ω = {(x1 , x2 , x3 , x4 , x5 )|xi ∈ {W, Z}, 1 ≤ i ≤ 5}. Es seien folgende Zufallsvariablen definiert: X: Anzahl von Wappen“ bei den ersten drei W¨ urfen, ” Y : Anzahl von Zahl“ bei den letzten drei W¨ urfen. ” Frage: Sind X und Y stochastisch unabh¨ angig? Die Wahrscheinlichkeiten P (X = k ∧ Y = ), P (X = k), P (Y = ) kann man u ¨ bersichtlich in einer (4 × 4)-Matrix darstellen (jede Zufallsvariable kann die vier Werte 0, 1, 2, 3 annehmen). Werte von Y 0 Werte
1
von X
2
0
1
2
3
P (X = k)
0
1 32 4 32 5 32 2 32 3 8
2 32 5 32 4 32 1 32 3 8
1 32 2 32 1 32
1 8 3 8 3 8 1 8
1 32 2 32 1 32 1 8
3 P (Y = )
0 1 8
1
An der (i, j)-ten Stelle steht die Wahrscheinlichkeit P (X = xi ∧ Y = yj ). Es gilt etwa: P (X = 2 ∧ Y = 1) =
P (W W ZW W, W ZW ZW, W ZW W Z, ZW W ZW, ZW W W Z) 5 . = 32 Der Leser mache sich alle Wahrscheinlichkeiten in der Tabelle ausf¨ uhrlich klar (das heißt durch Hinschreiben aller zum jeweiligen Ereignis geh¨ origen Tupel). Nun k¨ onnen wir die Frage nach der Unabh¨ angigkeit von X und Y beantworten: Einerseits gilt: andereseits gilt: also:
5 P (X = 2 ∧ Y = 1) = 32 3 P (X = 2) = 8 und P (Y = 1) = 38 , 9 . P (X = 2) · P (Y = 1) = 64
Somit hat man P (X = 2 ∧ Y = 1) =
5 32
=
9 64
= P (X = 2) · P (Y = 1).
Damit ist gezeigt, dass X und Y nicht unabh¨ angig sind.
Wie einleitend erw¨ ahnt, bestimmen wir jetzt den Erwartungswert und die Varianz einer Summe diskreter Zufallsvariabler.
252
4.4.2
4 Zufallsvariable, Erwartungswert und Varianz
Erwartungswert einer Summe diskreter Zufallsvariabler
Wir starten mit zwei diskreten Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Satz 4.7 Seien X und Y diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Es existiere sowohl der Erwartungswert von X als auch der Erwartungswert von Y . Dann gilt: E(X + Y ) = E(X) + E(Y ). Beweis: Wir m¨ ussen zun¨ achst zeigen, dass E(X +Y ) existiert. Sei Z := X +Y und sei {zi |i ∈ I} die Wertemenge von Z (wobei I = {1, . . . , n} oder I = IN ist). Zu beweisen ist, dass gilt: |zi | · P (Z = zi ) < ∞. (4.2) i∈I
Wegen der Aussage 1. des Satzes 4.3 ist die Aussage (4.2) ¨ aquivalent zu der Aussage |Z(ω)| · P ({ω}) < ∞. (4.3) ω∈Ω
Dieser Nachweis von (4.3) ist nicht schwer: Da E(X) und E(Y ) existieren, folgt mittels Aussage 1. von Satz 4.3: |X(ω)| · P ({ω}) < ∞ und |Y (ω)| · P ({ω}) < ∞. ω∈Ω
ω∈Ω
Mittels der Dreiecksungleichung ergibt sich |Z(ω)| · P ({ω}) ω∈Ω
=
|X(ω) + Y (ω)| · P ({ω})
ω∈Ω
≤
|X(ω)| · P ({ω}) +
ω∈Ω
<
|Y (ω)| · P ({ω})
ω∈Ω
∞.
Also existiert E(Z). Nun berechnen wir E(X + Y ): [X(ω) + Y (ω)] · P ({ω}) E(X + Y ) = ω∈Ω
=
X(ω) · P ({ω}) +
ω∈Ω
=
E(X) + E(Y ).
ω∈Ω
Y (ω) · P ({ω})
4.4 Mehrere Zufallsvariable auf einem Wahrscheinlichkeitsraum
253
Satz 4.8 Seien X1 , . . . , Xn diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, P(Ω), P ) mit den entsprechenden Erwartungswerten E(Xi ), 1 ≤ i ≤ n. Dann gilt: n n Xi = E(Xi ). E i=1
i=1
Beweis: Die Aussage folgt direkt aus Satz 4.7 mittels vollst¨ andiger Induktion.
4.4.3
Varianz einer Summe diskreter Zufallsvariabler
Wir starten wieder mit zwei diskreten Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Satz 4.9 Seien X und Y diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, P(Ω), P ) und es m¨ ogen folgende Gr¨ oßen existieren: E(X), E(Y ), V (X), V (Y ), E([X − E(X)] · [Y − E(Y )]). Dann gilt: V (X + Y ) = V (X) + V (Y ) + 2 · E([X − E(X)] · [Y − E(Y )]). Beweis: V (X + Y )
= (1)
= = =
(2)
=
=
! " E [(X + Y ) − E(X + Y )]2 ! " E [(X + Y ) − (E(X) + E(Y ))]2 ! " E [(X − E(X)) + (Y − E(Y ))]2 ! " E [X − E(X)]2 + [Y − E(Y )]2 + 2 · [X − E(X)] · [Y − E(Y )] ! " ! " E [X − E(X)]2 + E [Y − E(Y )]2 ! " +2 · E [X − E(X)] · [Y − E(Y )] ! " V (X) + V (Y ) + 2 · E [X − E(X)] · [Y − E(Y )]
Begr¨ undungen: (1) gilt wegen Satz 4.7 – angewandt auf die Zufallsvariablen X und Y . (2) gilt wegen Satz 4.8 – angewandt auf die drei Zufallsvariablen [X − E(X)]2 , [Y − E(Y )]2 , 2 · [X − E(X)] · [Y − E(Y )].
254
4 Zufallsvariable, Erwartungswert und Varianz
Definition 4.8 (Kovarianz von zwei Zufallsvariablen) Seien X und Y diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Existieren die Gr¨ oßen E(X), E(Y ) und auch die Gr¨ oße ! " E [X − E(X)] · [Y − E(Y )] , so heißt dieser Ausdruck Kovarianz von X und Y . Man schreibt: ! " Cov(X, Y ) := E [X − E(X)] · [Y − E(Y )] .
Satz 4.10 Seien X und Y diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Existiert die Kovarianz von X und Y , dann gilt: Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ). Beweis: Man hat folgende kleine Rechnung: ! " Cov(X, Y ) = E [X − E(X)] · [Y − E(Y )] ! " = E X · Y − E(X) · Y − X · E(Y ) + E(X) · E(Y ) (∗)
=
E(X · Y ) − E(X) · E(Y ) − E(X) · E(Y ) + E(X) · E(Y ))
=
E(X · Y ) − E(X) · E(Y ).
Bei (∗) wurden die S¨ atze 4.8 und 4.6 angewandt.
Der n¨ achste Satz besagt, dass die Kovarianz zweier stochastisch unabh¨ angiger Zufallsvariabler Null ist.
Satz 4.11 Seien X und Y diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Es m¨ ogen E(X), E(Y ) und E(X · Y ) existieren. Weiter seien X und Y stochastisch unabh¨ angig. Dann gilt: Cov(X, Y ) = 0. Beweis: Es seien die Bildmengen der beteiligten Zufallsvariablen X, Y und Z := X · Y wie folgt gegeben: ahlbarer Indexmenge K, Z(Ω) = {zk |k ∈ K} mit abz¨ ahlbarer Indexmenge I, X(Ω) = {xi |i ∈ I} mit abz¨ ahlbarer Indexmenge J. Y (Ω) = {yj |j ∈ J} mit abz¨
4.5 Aufgaben und Erg¨ anzungen
255
Nun hat man folgende Rechnung: zk · P (X · Y = zk ) E(X · Y ) = =
(∗)
=
k∈K
k∈K
i,j mit xi ·yj =zk
xi · yj · P (X = xi ) · P (Y = yj )
i,j mit xi ·yj =zk
k∈K
=
xi · yj · P (X = xi und Y = yj )
xi · yj · P (X = xi ) · P (Y = yj )
i∈I j∈J
=
#
$ # xi · P (X = xi ) ·
i∈I
=
$ yj · P (Y = yj )
j∈J
E(X) · E(Y ).
Bei (∗) wurde die Unabh¨ angigkeit der Zufallsvariablen X und Y benutzt. Man hat also E(X · Y ) = E(X) · E(Y ). In Verbindung mit Satz 4.10 folgt daraus Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = 0.
Als Folgerung von Satz 4.11 formulieren wir nun die entscheidende Aussage u angiger Zufallsvariabler. ¨ ber die Varianz einer Summe unabh¨
Satz 4.12 Seien X und Y diskrete Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P(Ω), P ). Es m¨ ogen E(X), E(Y ), E(X · Y ) existieren. Weiter seien X und Y stochastisch unabh¨ angig. Dann gilt: V (X + Y ) = V (X) + V (Y ). Beweis: Wegen Satz 4.9 und Satz 4.11 hat man V (X + Y ) = V (X) + V (Y ) + 2 · Cov(X, Y ) = V (X) + V (Y ).
4.5 1.
Aufgaben und Erg¨ anzungen
Man wirft einmal gleichzeitig zwei unterscheidbare W¨ urfel. Die Zufallsvariable X gebe das Produkt der Augenzahlen an. a) Geben Sie den Wertebereich X(Ω) an.
256
4 Zufallsvariable, Erwartungswert und Varianz b) Geben Sie die (Wahrscheinlichkeits-)Verteilung von X in Tabellenform an.
2.
3. 4.
Beweisen Sie Satz 4.1 f¨ ur den Fall, dass X(Ω) endlich ist. Der Beweis des Satzes f¨ ur den Fall, dass X(Ω) abz¨ ahlbar unendlich ist, kann erst erfolgen, wenn der Begriff abz¨ ahlbar-unendlicher Wahrscheinlichkeits” raum“ da ist (Abschnitt 7.1). Beweisen Sie Satz 4.2. Auf einem Jahrmarkt l¨ adt das abgebildete Gl¨ ucksrad zu folgendem Spiel ein: F¨ ur sechs Spiele betr¨ agt der Einsatz 1 Euro. Bei schwarz gewinnen Sie 1 Euro, bei rot verlieren Sie 1 Euro. Sie m¨ ussen aufh¨ oren zu spielen, wenn Sie alles verloren haben oder wenn Sie 3 Euro dazugewonnen haben. In allen anderen F¨ allen m¨ ussen Sie die sechs Spiele machen. a) Soll man sich auf das Spiel einlassen? ¨ b) Was halten Sie von folgender Uberlegung? Bei jedem Spiel ist die Chan1 agt h¨ ochstens 1 Euro, n¨ amlich ce zu gewinnen gleich 2 . Der Verlust betr¨ die 1 Euro als Einsatz. Mit der Wahrscheinlichkeit 12 kann man aber andererseits 3 Euro gewinnen. Also lohnt es sich.
5.
Chuck-a-luck – Ein Spiel aus den USA: Man w¨ urfelt einmal mit drei Laplace-Spielw¨ urfeln. Ein Spieler nennt vorab eine Zahl zwischen 1 und 6. Er gewinnt ein (zwei, drei) Euro, falls beim Wurf die gew¨ ahlte Zahl ein(zwei-, drei-) mal auftritt. In allen anderen F¨ allen verliert er einen Euro. Sei X die Zufallsvariable, die jedem Wurfergebnis ω die Gewinnh¨ ohe X (ω) zuordnet. a) Geben Sie die Wahrscheinlichkeitsverteilung f¨ ur X an. b) Zeichnen Sie die Verteilungsfunktion. c) Berechnen Sie den Erwartungswert E(X). Interpretieren Sie das Ergebnis. d) Berechnen Sie die Varianz V (X).
6. 7.
Berechnen Sie f¨ ur das Beispiel 4.6 ( Nachtw¨ achter“) die Varianz V (X). ” Sei b eine konstante reelle Zahl. Zeigen Sie: a) E(b) = b. b) V (b) = 0.
8.
Zeigen Sie: Eine beliebige nichtkonstante diskrete Zufallsvariable X mit dem Erwartungswert E(X) = μ und der Varianz V (X) = σ 2 = 0 wird durch die Transformation X −μ Z= σ
4.5 Aufgaben und Erg¨ anzungen
257
in eine Zufallsvariable Z mit E(Z) = 0 und V (Z) = 1 u uhrt. ¨ berf¨ Hinweis: Eine Zufallsvariable mit dem Erwartungswert 0 und der Standardabweichung 1 (also auch mit der Varianz 1) heißt standardisierte Zufallsvariable. 9.
Die Zufallsvariable X gibt die m¨ oglichen Augensummen beim gleichzeitigen Werfen zweier unterscheidbarer Laplace-W¨ urfel an. Berechnen Sie: (a) F (7); (b) F (7, 5); (c) P (X ≤ 9), (d) P (1 < X ≤ 3); (e) P (X > 7).
10. Sei X eine diskrete Zufallsvariable mit dem Erwartungswert E(X) = μ und der Varianz V (X) = σ 2 . Beweisen Sie den sog. Verschiebungssatz (auch Zerlegungsregel genannt) V (X) = E(X 2 ) − (E(X))2 , dabei wird vorausgeutzlich zur Berechnung setzt, dass auch E(X 2 ) existiert. Dieser Satz ist n¨ der Varianz. 11. Zwei unterscheidbare W¨ urfel werden ein Mal geworfen. Sei X die Zufallsvariable, welche die Summe der Augenzahlen angibt; sei Y die Zufallsvariable, welche den Betrag der Differenz der Augenzahlen angibt. a) Stellen Sie die Wahrscheinlichkeiten P (X = k ∧ Y = ),
P (X = k),
P (Y = )
u ¨ bersichtlich in einer Matrix dar (siehe dazu das Beispiel 4.12). b) Sind X und Y stochastisch unabh¨ angig? 12. (Unabh¨ angigkeit von Zufallsvariablen, Summe und Produkt von Zufallsvariablen) Zwei Kinder (A und B) spielen das Spiel Schere-Papier-Stein“. Eine Kurz” anleitung dieses Spiels findet sich in Beispiel 2.6 des Abschnitts 2.4. Die beiden Kinder A und B vereinbaren folgende Spielregeln: A bekommt von B ein Kaugummi, falls A gewinnt; A gibt B ein Kaugummi, falls B gewinnt. Die Kinder spielen drei Mal. Sei X die Zufallsvariable, welche den Gesamtgewinn/Gesamtverlust f¨ ur A angibt. Sei Y die Zufallsvariable, welche die Anzahl der unentschiedenen Spiele angibt. a) Zeichnen Sie aus der Sicht von Kind A mit Hilfe der Symbole V ( ver” loren“), U ( unentschieden“), G ( gewonnen“) einen Ergebnisbaum. ” ” Notieren Sie hinter jedem Ergebnis den entsprechenden Wert von X und den entsprechenden Wert von Y . b) Geben Sie jeweils die Wahrscheinlichkeitsverteilung von X und Y an. c) Berechnen Sie E(X) und E(Y ). d) Geben Sie alle Wahrscheinlichkeiten P (X = x ∧ Y = y) an, wobei x ∈ X(Ω) und y ∈ Y (Ω).
258
4 Zufallsvariable, Erwartungswert und Varianz e) f) g) h)
Pr¨ ufen Sie, ob die Zufallsvariablen X und Y unabh¨ angig sind. Berechnen Sie E(X + Y ) und E(X · Y ). Berechnen Sie V (X) und V (Y ). Berechnen Sie V (X + Y ) und Cov(X, Y ).
13. Bei einem Schulfest u urfelspiele mit ¨berlegen sich die Veranstalter, W¨ drei (unterscheidbaren) W¨ urfeln anzubieten. Sie haben folgende Ideen (bez¨ uglich einmaligem W¨ urfeln mit den drei W¨ urfeln): Spiel 1: Das doppelte Produkt der Augenzahlen wird in Cent ausgezahlt. Spiel 2: Die zehnfache Augensumme wird in Cent ausgezahlt. Der Einsatz f¨ ur den Spieler soll 1 Euro pro Spiel betragen. Beantworten Sie zu jedem der beiden Spiele, ob es sinnvoll ist, das entsprechende Spiel anzubieten ( sinnvoll“ bedeutet nat¨ urlich positiver Gewinn f¨ ur die Kasse ” ” der Veranstalter“).
5 Spezielle diskrete Verteilungen
Im Abschnitt Zufallsvariable“ f¨ uhrten wir den Begriff der Wahrscheinlichkeits” verteilung, auch kurz Verteilung genannt, ein. Es handelt sich dabei um das durch X aus P abgeleitete Wahrscheinlichkeitsmaß PX ({k}) = P (X = k), k ∈ IR f¨ ur Werte, die die Zufallsvariable annimmt. Einige Verteilungen kommen h¨ aufig vor. Wir beschr¨ anken uns auf wenige spezielle diskrete Verteilungen.
5.1
Binomialverteilung
Definition 5.1 (Binomialverteilung) Eine Zufallsvariable X, die die Werte 0, 1, 2, 3, . . . , n annimmt, heißt binomialverteilt mit den Parametern n ∈ IN und p, 0 < p < 1, genau dann, wenn gilt n · pk · (1 − p)n−k , k = 0, 1, . . . , n. P (X = k) = k
Notation: Ist X eine binomialverteilte Zufallsvariable mit den Parametern n und p, schreibt man kurz: X ist B(n, p)-verteilt. Noch k¨ urzer schreibt man auch: X ∼ B(n, p). Bezeichnung: Der Name Binomialverteilung (und damit auch der Buchstabe B in der Notation) kommt von der Analogie zu den Summanden im Binomischen Lehrsatz n n n · ak · bn−k , (a + b) = k k=0
dessen Spezialfall f¨ ur n = 2 aus dem Mittelstufenunterricht als erste Binomische Formel bekannt ist: (a + b)2 = a2 + 2ab + b2 . Ein typisches Modell / eine typische Fragestellung liefert die Bernoulli-Kette der L¨ ange n. Man interessiert sich f¨ ur die Wahrscheinlichkeit, dass bei nmaliger Wiederholung eines Zufallsexperiments das Ereignis A genau k-mal eintritt. Betr¨ agt die Wahrscheinlichkeit f¨ ur das Eintreten von A in einem Versuch H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
260
5 Spezielle diskrete Verteilungen
P (A) = p, so gibt P (X = k) die Wahrscheinlichkeit daf¨ ur an, dass unter n gleichen Versuchen das Ereignis A genau k-mal auftritt. (Siehe Abschnitt u ¨ ber Bernoulli-Ketten die dritte Grundaufgabe; siehe auch Aufgaben 14 und 18 in Abschnitt 2.9.4.) Beispiel 5.1 (Blumenzwiebel) Eine bestimmte Blumenzwiebel wird in Packungen zu je 20 Zwiebeln verkauft. Man weiß aus Erfahrung, dass 5 % der Zwiebeln nicht keimen. Ein H¨ andler verkauft diese Zwiebeln mit einer Keimgarantie von 90 %. Wie groß ist die Wahrscheinlichkeit, dass eine zuf¨ allig ausgew¨ ahlte Packung diese Garantie nicht erf¨ ullt? L¨ osung: Sei X die Zufallsvariable, die die Anzahl der nicht keimenden Zwiebeln in einer Packung von 20 Zwiebeln angibt. Es liegt, wenn man sich den Setzvorgang der 20 Zwiebeln einzeln vorstellt, als Modellannahme eine B(20; 0, 05)Verteilung vor. Es gilt f¨ ur genau k nicht keimende Zwiebeln: 20 P (X = k) = · 0, 05k · 0, 9520−k . k Die Keimgarantie besagt, dass von 20 Zwiebeln 18 keimen. Sie ist nicht erf¨ ullt, wenn k > 2 ist. Gefragt ist also P (X > 2). Es gilt: P (X > 2) = P (X = 3) + P (X = 4) + . . . + P (X = 20). Hier ist viel zu rechnen, wenn man keine Tabelle f¨ ur die Binomialverteilung hat. Man rechnet besser so (Gegenwahrscheinlichkeit): P (X > 2)
=
1 − P (X ≤ 2)
=
1 − (P (X = 0) + P (X = 1) + P (X = 2))
≈
1 − 0, 3585 − 0, 3774 − 0, 1887
≈
0, 0754.
Mit der Wahrscheinlichkeit von 7,8 % wird die Keimgarantie nicht erf¨ ullt. Satz 5.1 F¨ ur den Erwartungswert E(X) und die Varianz V (X) einer binomialverteilten Zufallsvariablen X mit den Parametern n und p gilt: (1)
E(X) = n · p,
(2)
V (X) = n · p · (1 − p) = n · p · q.
Beweis Zu (1): Es ist zu berechnen: E(X) =
n k=0
n k· · pk · (1 − p)n−k . k
5.1 Binomialverteilung
261
Da f¨ ur k = 0 der erste Summand 0 ist, beginnen wir die Summation mit k = 1: E(X)
=
=
=
=
(∗)
=
n
k·
k=1 n
n! · pk · (1 − p)n−k k! · (n − k)!
(n − 1)! · n · pk · (1 − p)n−k (k − 1)! · (n − k)! k=1 n n−1 n· · pk · (1 − p)n−k k−1 k=1 n n−1 n·p· · pk−1 · (1 − p)n−k k−1 k=1 n n−1 n·p· · pk−1 · (1 − p)n−k k−1 k=1 =1 (siehe Nebenrechnung)
E(X)
=
n · p.
Nebenrechnung: Man setze in obiger Summe m f¨ ur n − 1 und r f¨ ur k − 1. Dann erh¨ alt man als neue Summe: n−1=m m · pr · (1 − p)m−r . r r=0
Diese Summe ist nach dem Binomischen Lehrsatz gleich (p+(1−p))m = 1m = 1. Zu (2): Zur Berechnung der Varianz verwendet man zweckm¨ aßigerweise den Verschiebungssatz (siehe Aufgabe 10, Kapitel 4, Abschnitt 4.4), nach dem allgemein gilt:
V (X) = E X 2 − (E(X))2 . Die Rechnungen bleiben aber aufwendig. Wir skizzieren zwei Wege. Weg 1: Da E(X) = n · p schon bekannt ist, kommt es darauf an, E X 2 zu berechnen. Es gilt: n 2 n 2 k · · pk · (1 − p)n−k . E X = k k=0
Durch Umformungen a ¨hnlicher Art wie bei (1) findet man schließlich
E X 2 = n2 p2 − np2 + np. Mit Hilfe des Verschiebungssatzes erh¨ alt man: V (X)
=
n2 p2 − np2 + np − (np)2 = np − np2
V (X)
=
np · (1 − p) = n · p · q.
262
5 Spezielle diskrete Verteilungen
Weg 2: Man formt die rechte Seite der Gleichung
=
E X 2 − (E(X))2 um: E X 2 − E(X) + E(X) − (E(X))2 E X 2 − X + E(X) − (E(X))2
=
E (X · (X − 1)) + E(X) − (E(X))2 .
V (X)
=
V (X)
=
Es ist jetzt nur noch E (X · (X − 1)) zu bestimmen. Es gilt: n n k · (k − 1) · · pk · q n−k E(X · (X − 1)) = k k=0
=
mit q = 1 − p n k · (k − 1) · k=2
n! · pk · q n−k . k! · (n − k)!
Man erh¨ alt durch K¨ urzen und Ausklammern und Zusammenfassen: n n−2 2 E (X · (X − 1)) = n · (n − 1) · p · · pk−2 · q n−k k−2 k=2 (Binomischer Lehrsatz)
= (p + q)n−2 = (p + 1 − p)n−2 = 1. Also: E(X · (X − 1))
=
n · (n − 1) · p2 . Damit erh¨ alt man:
V (X)
=
n · (n − 1) · p2 + np − (np)2
V (X)
=
−np2 + np = np · (1 − p) = n · p · q.
F¨ ur das Beispiel 5.1 (Blumenzwiebel) ergibt sich: E(X)
=
n · p = 20 · 0, 05 = 1,
V (X)
=
n · p · (1 − p) = 20 · 0, 05 · 0, 95 = 0, 95.
Die Wahrscheinlichkeitsverteilung einer binomialverteilten Zufallsvariablen kann man in Form von Stabdiagrammen darstellen. Je nach Gr¨ oße der Werte von n und p kann das Stabdiagramm verschiedene Formen haben. Wenn p in der N¨ ahe von 0,5 liegt, ist das Stabdiagramm ann¨ ahernd symmetrisch. Die folgenden Stabdiagramme machen dies deutlich.
5.2 Hypergeometrische Verteilung a)
263
Sei die Zufallsvariable X nach B(5; 0, 5)-verteilt:
B (5; 0, 5) 0,3 0,2 0,1
0
1
2
3
4
x
5
b) Das Stabdiagramm f¨ ur B(10; 0, 2)-verteilt zeigt keine Symmetrie:
B (10; 0, 2) 0,3 0,2 0,1
0
5.2
1
2
3
4
5
6
7
8
9
10
x
Hypergeometrische Verteilung
Definition 5.2 (Hypergeometrische Verteilung) Eine Zufallsvariable X heißt hypergeometrisch verteilt mit den Parametern N , K, n mit N, K, n ∈ IN und 1 ≤ n ≤ N und 0 ≤ K ≤ N genau dann, wenn gilt K N −K · f¨ ur k = 0, 1, 2, . . . , min(n, k). P (X = k) = k N n−k n
Notation: Ist X eine hypergeometrisch verteilte Zufallsvariable mit den Parametern N, K, n, schreibt man kurz: X ist H(N, K, n)-verteilt. Noch k¨ urzer schreibt
264
5 Spezielle diskrete Verteilungen
man auch: X ∼ H(N, K, n). Eine typische Belegung/eine typische Fragestellung liefert das Urnenmodell: In einer Urne befinden sich N Kugeln (Grundgesamtheit), darunter K markierte Erfolgskugeln. Man zieht n Kugeln ohne Zur¨ ucklegen, und die Zufallsvariable X beschreibt die Anzahl k der Erfolge bei n Ziehungen. Bekannte Anwendungsbeispiele: Beispiel 5.2 (Qualit¨ atskontrolle bei einer Gut/Schlecht-Pr¨ ufung) Aus einem Karton mit 100 Gl¨ uhbirnen werden zur Qualit¨ atskontrolle 4 Gl¨ uhbirnen ganz zuf¨ allig ohne Zur¨ ucklegen herausgegriffen. Der Karton wird nur angenommen, wenn alle 4 Gl¨ uhbirnen ohne Defekt sind. Mit welcher Wahrscheinlichkeit durchl¨ auft ein Karton mit 30 defekten Birnen dieses Kontrollsystem unbeanstandet? L¨ osung: Es gibt insgesamt 100 M¨ oglichkeiten, 4 Gl¨ uhbirnen aus 100 Gl¨ uhbir4 nen auszuw¨ ahlen. F¨ ur das zu betrachtende Ereignis sind die F¨ alle g¨ unstig, bei denen die 4 Gl¨ uhbirnen aus den 70 einwandfreien Gl¨ uhbirnen ausgew¨ ahlt wurden und keine aus den 30 defekten Birnen. Die Anzahl der g¨ unstigen F¨ alle ist also 30 70 70 · = . 0 4 4 Die Zufallsgr¨ oße X beschreibe die Anzahl der Gl¨ uhbirnen ohne Defekt. Die Wahrscheinlichkeit f¨ ur die Annahme der Kartons ist dann: 70 67 · 68 · 69 · 70 4 = ≈ 0, 234. P (X = 4) = 100 97 · 98 · 99 · 100 4 Also P (X = 4) ≈ 23%. Die L¨ osung verwendete das Laplace-Modell.
Hinweis: Zur Qualit¨ atskontrolle“ siehe auch Abschnitt 10.5. ” Beispiel 5.3 (Lotto 6 aus 49“) Im Urnenmodell hat die Urne 49 von 1 bis 49 nummerier” te Kugeln. Die 6 Kugeln, die den 6 Zahlen einer vorgegebenen Tippreihe entsprechen, sind schwarz, die restlichen 43 Kugeln sind weiß. Es werden 6 Kugeln ohne Zur¨ ucklegen der Urne entnommen. Dann bedeutet r Richtige“: Unter den ” 6 gezogenen Zahlen (Kugeln) sind genau r Zahlen der vorgegebenen Tippreihe (schwarze Kugeln). Gibt die Zufallsgr¨ oße X die Anzahl r der Richtigen“ an, ” und legen wir das Laplace-Modell zugrunde, so ergibt sich 6 43 · , r = 0, 1, 2, 3, 4, 5, 6. P (X = r) = r 496−r 6
5.2 Hypergeometrische Verteilung
265
(Vgl. auch Aufgabe 17 in Abschnitt 2.8.6.)
Satz 5.2 Eine hypergeometrisch verteilte Zufallsvariable X mit den Parametern N , K und n (alle Parameter sind nat¨ urliche Zahlen) hat K , N K N −K N −n · · . die Varianz σ 2 = V (X) = n · N N N −1
den Erwartungswert μ = E(X) = n ·
(1) (2)
Beweis: Im Rahmen dieser Einf¨ uhrung verzichten wir auf den ausf¨ uhrlichen Beweis. Wir geben eine m¨ ogliche Beweisskizze (mit tieferen Kenntnissen gibt es einfachere Beweise). Zu (1): Es ist zu berechnen: K N −K K N −K n n · k · n−k N E(X) = k· = k · k N n−k . n
k=0
n
k=1
Durch Umformen erh¨ alt man: E(X)
E(X)
=
=
n K n· · N k=1
n·
K−1 (N −1)−(K−1) k−1 · (n−1)−(k−1) N −1 , n−1
=1
K . N
Zu (2): Wir gehen vom Verschiebungssatz (Aufgabe 10 in Abschnitt 4.5) aus: V (X)
=
E X2
=
E X 2 − (E(X))2 und berechnen E X 2 : K N −K n · 2 k · k N n−k . k=0
n
Umformungen liefern schließlich das Ergebnis:
2 K K −1 E X =n· · (n − 1) · +1 . N N −1 Also insgesamt: V (X)
=
V (X)
=
2 K−1 K K , · (n − 1) · +1 − n· N N −1 N K N −K N −n ... = n · · · . N N N −1
n·
266
5 Spezielle diskrete Verteilungen
Eine Interpretation der gefundenen Werte f¨ ur μ und σ 2 erleichtert das Verst¨ andnis. a) E(X) = n · K N K Mit dem Bruch K N bezeichnet man den Ausschussanteil in der Urne. Die Zahl N ist interpretierbar als Erfolgswahrscheinlichkeit des ersten Versuchs, denn unter den insgesamt N Kugeln sind K Kugeln markiert. Setzt man K N = p, so erkennt ¨ man die Ahnlichkeit mit dem Erwartungswert n · p der Binomialverteilung. N −K N −n b) V (X) = n · K · N −1 N · N K So wie man N als Erfolgswahrscheinlichkeit p des ersten Versuchs interpretieren −K kann, kann man den dritten Faktor N N als Misserfolgswahrscheinlichkeit im K ersten Versuch interpretieren. Wenn N = p gesetzt wird, ist N K K N −K = − =1− = 1 − p. N N N N −n n Der letzte Faktor N N −1 kann durch 1 − N approximiert werden, evtl. auch durch 1, wenn n klein und N groß ist. ¨ Man sieht auch hier wieder eine Ahnlichkeit zur Varianz n · p · (1 − p) der Binomialverteilung. Man kann erahnen, dass die schlecht zu berechnende hypergeometrische Verteilung unter bestimmten Voraussetzungen durch eine Binomialverteilung approximiert werden kann.
Im Beispiel 5.3 (Lotto 6 aus 49“) beschreibe die Zufallsvariable X die Anzahl ” der Richtigen“ im Lotto 6 aus 49“. Wie groß sind der Erwartungwert und die ” ” Varianz von X? L¨ osung In Kapitel 4, Abschnitt 4.3 bestimmten wir den Erwartungswert und die Varianz bereits elementar. Da es sich um eine hypergeometrische Verteilung handelt, k¨ onnen wir jetzt die gewonnenen Formeln anwenden: E(X)
=
V (X)
=
36 6 = ≈ 0, 735, 49 49 49 − 6 49 − 6 6 · · ≈ 0, 5773. 6· 49 49 48
6·
Das folgende Beispiel betont die Frage der Modellierung. Es werden je nach Interpretation des Aufgabentextes zwei m¨ ogliche unterschiedliche Modelle f¨ ur die L¨ osung der Aufgabe gew¨ ahlt. Beispiel 5.4 (Sicherheitsventile in einem Bauteil) (Zwei Modelle) Ein Bauteil enth¨ alt 5 voneinander unabh¨ angig funktionierende Sicherheitsventile. Wenn nur eines ausf¨ allt, ist das Bauteil defekt. Es ist bekannt, dass von 300 produzierten Sicherheitsventilen nur 280 funktionst¨ uchtig sind. Wie groß ist die Wahrscheinlichkeit,
5.3 Zusammenhang zwischen Verteilungen
267
dass sich 0 (3) defekte Sicherheitsventile in einem zuf¨ allig ausgew¨ ahlten Bauteil befinden? Zur L¨ osung muss man u ur die vorliegende diskrete ¨ berlegen, welches Modell f¨ Verteilung ad¨ aquat ist. Die Aufgabenstellung signalisiert zun¨ achst eine hypergeometrische Verteilung, modellhaft dargestellt durch ein Urnenmodell und Ziehen ohne Zur¨ ucklegen. Die Zufallsgr¨ oße X gebe die Anzahl der defekten Sicherheitsventile an bei einer zuf¨ alligen Stichprobe vom Umfang 5. Es gilt: 20 280 · , k = 0, 1, . . . , 5. P (X = k) = k 3005−k 5
Man kann aber auch anders argumentieren. Aufgrund der Aufgabenstellung ist 20 ≈ 0, 067 bekannt, dass ein Sicherheitsventil mit einer Wahrscheinlichkeit p = 300 defekt ist. Die Zufallsgr¨ oße X, die wieder die Anzahl defekter Sicherheitsventile angibt, wird als binomialverteilt mit den Parametern n = 5 und p = 0, 067 angesehen. Also 5 B5;0,067 (k) = P (X = k) = · pk · (1 − p)5−k , k = 0, 1, . . . , 5. k Diese zweite Modellannahme wird besonders dann gew¨ ahlt, wenn man den Aufgabentext folgendermaßen versteht: . . ., dass durchschnittlich von 300 produ” zierten Sicherheitsventilen 280 funktionst¨ uchtig sind.“
5.3
Zusammenhang zwischen der Binomialverteilung und der hypergeometrischen Verteilung
Wir gehen von folgender Ausgangssituation aus: Es ist eine Grundgesamtheit mit N Elementen gegeben; K dieser Elemente haben eine gewisse Eigenschaft E. Nun wird eine Stichprobe von n Elementen gezogen. Ist X die Zufallsvariable, die die Anzahl der Elemente mit Eigenschaft E angibt, so ist X hypergeometrisch verteilt, und es ist K N −K · P (X = k) = k N n−k . n
Betrachten wir diese Stichprobe im Urnenmodell, so wird hier ohne Zur¨ ucklegen gezogen. Nun tauchen zwei Probleme auf: Praktisches Problem: F¨ ur große Werte von N und K und kleine Werte von n ist die Wahrscheinlichkeit P (X = k) nur sehr umst¨ andlich zu berechnen.
268
5 Spezielle diskrete Verteilungen
Methodisches Problem: Die Ziehungen bei der Stichprobe sind nicht unabh¨ angig voneinander: Die Wahrscheinlichkeit, bei der zweiten Ziehung ein Element der Eigenschaft E zu ziehen, h¨ angt davon ab, ob bei der ersten Ziehung schon ein Element mit Eigenschaft E gezogen worden ist oder nicht. In mathematischen Modellen arbeitet man aber lieber mit unabh¨ angigen Teilversuchen. Zur Vermeidung dieser Probleme geht man wie folgt vor: Sind N und K sehr groß und der Stichprobenumfang n recht klein, so liegt es auf der Hand, dass es f¨ ur eine Stichprobe unbedeutend ist, ob mit oder ohne Zur¨ ucklegen gezogen wird: Die Wahrscheinlichkeit, ein Element mit Eigenschaft E zu ziehen, ist in beiden F¨ allen sehr klein. Also ist es statthaft, auch mit Zur¨ ucklegen zu ziehen. Dann ist die Zufallsgr¨ oße, die die Anzahl der Elemente mit Eigenschaft ur den Parameter p, E angibt, binomialverteilt mit den Parametern n und K N (f¨ der die Erfolgswahrscheinlichkeit bei einer einzelnen Ziehung angibt, wird hier das Verh¨ altnis K altnis der Anzahl von Elementen N genommen – also das Verh¨ mit Eigenschaft E zur Anzahl aller vorhandenen N Elemente). Diesen Sachverhalt halten wir fest. Konvention: Sei X hypergeometrisch verteilt mit den Parametern N, K, n. Seien N und K sehr groß und sei n klein. Dann kann man X als binomialverteilte Zufallsvariable mit den Parametern n und K N auffassen. Der in dieser Konvention ausgesprochene Sachverhalt l¨ asst sich auch mathematisch fassen.
Satz 5.3 Sei (XN ) eine Folge von Zufallsvariablen mit folgenden Eigenschaften: 1. 2. 3.
XN ist H(N, KN , n)-verteilt. ur alle N ∈ IN. N > KN f¨ KN lim N = p mit p ∈]0, 1[. N →∞
Dann gilt f¨ ur alle k ∈ {1, . . . , n}
KN N −KN · n−k n k N = · pk · (1 − p)n−k . lim N →∞ k n ¨ Beweis: Um die Ubersichtlichkeit der nachfolgenden Rechnung zu verbessern, schreiben wir f¨ ur das von N abh¨ angige KN nur kurz K. Damit hat man: K N −K · n−k k N n
=
K! (N − K)! n!(N − n)! · · k!(K − k)! (n − k)!(N − K − (n − k)! N!
5.4 Geometrische Verteilung (Pascal-Verteilung)
269
1 n = · N · (N − 1) · . . . · (N − n + 1) k · [K · (K − 1) · . . . · (K − k + 1)] · [(N − K) · (N − K − 1) · . . . · (N − K − (n − k) + 1)] n 1 = · 1 k N n · N · (N − 1) · (N − n + 1) 1 · [K · (K − 1) · . . . · (K − k + 1)] Nk 1 · n−k · [(N − K) · (N − K − 1) · . . . · (N − K − (n − k) + 1)] N 1 n · N 1 n−1 k N · (1 − N ) · . . . · (1 − N ) % & 1 K k−1 K K · · ( − ) · ... · ( − ) N N N N N % & K K 1 K (n − k) − 1 · (1 − ) · (1 − − ) · . . . · (1 − − ) N N N N N ·
=
K N →∞ N
Da nun lim
= p ist, folgt
%
& 1 k−1 K K K · ... · = pk , · − − lim N →∞ N N N N N %
& 1 (n − k) − 1 K K K lim − − 1− · 1− · ... · 1 − N →∞ N N N N N
=
(1 − p)n−k .
%
Weiter ist lim
N →∞
& N 1 n−1 · 1− · ... · 1 − = 1. N N N
Also hat man insgesamt (wir schreiben wieder ausf¨ uhrlich KN statt K): KN N −KN · n−k n N N lim = · pk · (1 − p)n−k . N →∞ k n
5.4
Geometrische Verteilung (Pascal-Verteilung)
Die geometrische Verteilung trat schon in Beispielen auf: a) 1. Grundaufgabe bei Bernoulli-Ketten (Kapitel 2, Abschnitt 2.9.2), b) Beispiel Warten auf Erfolg“ ” (Kapitel 3, Abschnitt 3.1).
270
5 Spezielle diskrete Verteilungen
Definition 5.3 (Geometrische Verteilung) Eine Zufallsvariable X heißt geometrisch verteilt oder Pascal-verteilt mit dem Parameter p, 0 < p < 1 genau dann, wenn gilt P (X = n) = p · (1 − p)n−1 , n = 1, 2, 3, . . .
Notation: Ist X eine geometrisch verteilte Zufallsvariable mit dem Parameter p, schreibt man kurz: X ist G(p)-verteilt. Noch k¨ urzer schreibt man: X ∼ G(p). Didaktische Anmerkungen 1. 2.
3.
Statt 1 − p schreibt man auch q. Dann erh¨ alt man P (X = n) = p · q n−1 , n = 1, 2, 3, 4, . . . Die geometrische Verteilung bestimmt die Wahrscheinlichkeit, dass die Zufallsvariable X den Wert n annimmt, wenn im n-ten Versuch der erste Erfolg eintritt. Die Zufallsvariable X kann als Werte alle nat¨ urlichen Zahlen annehmen (siehe die drei Punkte . . . nach der Zahl 3 in der Definition). Der Wertebereich von X ist abz¨ ahlbar unendlich.
Eine typische Belegung/eine typische Fragestellung ist das Beispiel Warten ” auf den ersten Erfolg“: Bei einem Zufallsexperiment trete das Ereignis A mit der Wahrscheinlichkeit p auf: P (A) = p mit 0 < p < 1. Das Experiment werde so oft wiederholt, bis zum ersten Mal das Ereignis A auftritt. Die Wahrscheinlichkeit f¨ ur dieses Ereignis ist dann gegeben durch p · (1 − p)n−1 , wenn das Ereignis A zum ersten Mal beim n-ten Versuch auftritt (siehe Abschnitt 2.9.2). Deshalb heißt die Zufallsvariable X auch die Wartezeit bis zum Erscheinen eines Treffers (Erfolgs). Satz 5.4 F¨ ur den Erwartungswert E(X) und f¨ ur die Varianz V (X) einer geometrisch verteilten Zufallsvariablen mit dem Parameter p, 0 < p < 1, gilt: 1 und p 1−p V (X) = . p2
(1)
E(X) =
(2)
Beweis: Zu (1): Da der Wertebereich von X abz¨ ahlbar unendlich viele Elemente enth¨ alt (n¨ amlich alle nat¨ urlichen Zahlen), ist E(X)
=
∞
n · p · (1 − p)n−1
n=1
=
p·
∞ n=1
n · (1 − p)n−1
5.4 Geometrische Verteilung (Pascal-Verteilung)
271
zu berechnen, d. h. eine unendliche Summe (Reihe). Wir ben¨ otigen Kenntnisse der Analysis und u utting [100], Bd. 2, ¨ bernehmen die wahre Aussage (siehe K¨ S. 133, Aufgabe 75) ∞
n · q n−1 =
n=1
1 (1 − q)2
f¨ ur 0 < q < 1.
Da 1 − p = q den G¨ ultigkeitsbereich erf¨ ullt, erhalten wir E(X)
=
p·
∞
n · (1 − p)n−1 ,
n=1
p 1 1 = 2 = . (1 − (1 − p))2 p p Zu (2): Mit Hilfe des Verschiebungssatzes V (X) = E X 2 − (E(X))2 und des 2 Ergebnisses von (1) muss nur noch E X bestimmt werden. Es gilt E(X)
E X2
=
=
∞
p·
n2 · p · (1 − p)n−1 = p ·
n=0
=
∞
n2 · (1 − p)n−1
n=1
∞ ∞ p n2 · (1 − p)n = · p· n2 · (1 − p)n . 1−p 1−p n=1
n=1
Aus der Analysis u ultige Identit¨ at (siehe K¨ utting [100], ¨ bernehmen wir die g¨ Bd. 2, S. 134, Aufgabe 77): ∞ n=1
n2 · q n =
q · (1 + q) (1 − q)3
f¨ ur 0 < q < 1.
F¨ ur q = 1 − p und 0 < p < 1 ist der G¨ ultigkeitsbereich erf¨ ullt. Also folgt (man beachte q = 1 − p):
E X2
=
V (X)
=
q · (1 + q) p 1+q · = und 3 1 − p (1 − q) (1 − q)2 1 1+q−1 q 1−p 1+q = 2 = . 2 − p2 = 2 p p p2 (1 − q)
Berechnungsbeispiele f¨ ur E(X), V (X) und σ: 1.
Beim einmaligen Werfen eines Laplace-W¨ urfels sei das beobachtete Ereignis Auftreten einer 6“. Wie oft muss man im Durchschnitt werfen, bis zum ” ersten Mal eine Sechs auftritt? L¨ osung: E(X) = 11 = 6. Man muss im Mittel 6-mal werfen, um eine 6 zu 6 erhalten. Wir berechnen noch die Standardabweichung σ = V (X). Es ist
2 √ 5 1 V (X) = : = 30 ; σ = 30 ≈ 5, 48. 6 6
272
2.
5 Spezielle diskrete Verteilungen Die durch die Standardabweichung 5,48 angegebene Streuung um den Erwartungswert 6 ist also recht groß. Beim Beispiel Warten auf Erfolg“ mit dem Gl¨ ucksrad (siehe Kapitel 3, ” Abschnitt 3.1) liegt eine geometrische Verteilung vor. Es ist E(X) = 10. √ Hier betr¨ agt die Standardabweichung σ = 90 ≈ 9, 49.
Didaktische Anmerkungen 1.
2.
3.
4.
Zufallsvariable, Erwartungswert und Varianz sind unter didaktischen Gesichtspunkten interessante Beispiele f¨ ur den strukturellen Leitbegriff Funktion, auch wenn die Namen als Bezeichnungen f¨ ur Funktionen ungew¨ ohnlich sind. Es kann ein Beziehungsgeflecht deutlich gemacht und aufgebaut werden durch Gegen¨ uberstellung analoger Begriffe in der Wahrscheinlichkeitsrechnung und Beschreibenden Statistik: Erwartungswert – arithmetisches Mittel, Varianz – empirische Varianz. Der Erwartungswert einer geometrischen Verteilung ist also der Kehrwert der Erfolgswahrscheinlichkeit (Trefferwahrscheinlichkeit). Wenn also die Erfolgswahrscheinlichkeit abnimmt, nimmt die Wartezeit bis zum ersten Treffer zu. Das klingt einleuchtend. Wird zum Beispiel die Erfolgswahrscheinlichkeit halbiert, verdoppelt sich die Wartezeit (der Erwartungswert). Zur Veranschaulichung der geometrischen Verteilung ist das Stabdiagramm geeignet. Beispiel: p = 0, 5. P (X = k) 6 0,5
0,25
0
5.
1
2
3
4
5
k
Der Name geometrische Verteilung“ hat seinen Ursprung darin, dass die ” ∞ n−1 eine geometrische Summe der Wahrscheinlichkeiten n=1 p · (1 − p) Reihe ist, deren Summenwert nat¨ urlich 1 ist.
5.5 Aufgaben und Erg¨ anzungen
273
Es gibt weitere diskrete Verteilungen wie die negative Binomialverteilung, die Poisson-Verteilung, die diskrete Gleichverteilung (siehe Aufgabe 6 in diesem Kapitel, Abschnitt 5.5), die Indikatorfunktion (siehe Aufgabe 8 in diesem Kapitel, Abschnitt 5.5).
5.5 1.
Aufgaben und Erg¨ anzungen
Aus einer Gruppe von acht M¨ annern und zwei Frauen soll durch Zufall ein dreik¨ opfiger Ausschuss bestimmt werden. a) Wie groß ist die Wahrscheinlichkeit, dass der Ausschuss aus zwei Frauen und einem Mann besteht? b) Wie groß ist der Erwartungswert E(X) und die Varianz V (X), wenn die Zufallsvariable X die Anzahl der Frauen angibt?
2.
3. 4.
5.
6.
Ein Nachtw¨ achter hat einen Schl¨ usselbund mit f¨ unf ¨ ahnlich aussehenden Schl¨ usseln. Er will eine T¨ ur aufschließen, in deren Schloss genau einer der Schl¨ ussel passt. Er probiert einen zuf¨ allig ausgew¨ ahlten Schl¨ ussel, und wenn der nicht passt, so sch¨ uttelt er den Schl¨ usselbund kr¨ aftig und probiert wieder einen zuf¨ allig ausgew¨ ahlten Schl¨ ussel. Wie viele Versuche wird der Nachtw¨ achter bei dieser Methode im Mittel machen m¨ ussen, um den richtigen Schl¨ ussel zu finden? (Siehe auch Beispiel Nachtw¨ achter“, Kapitel 4, Abschnitt 4.3.) ” Eine Zufallsvariable X sei B(2, p)-verteilt. Weiterhin gelte P (X = 2) = 0, 16. Berechnen Sie die Wahrscheinlichkeitsverteilung von X. Ein idealer W¨ urfel wird 10-mal geworfen. Die Zufallsvariable X beschreibe die Anzahl der dabei auftretenden Sechsen. Berechnen Sie den Erwartungswert E(X) und die Varianz von X. uhbirnen werden zur Qualit¨ atskontrolle 5 Aus einem Karton mit 100 Gl¨ Gl¨ uhbirnen zuf¨ allig ohne Zur¨ ucklegen herausgegriffen. Der Karton wird nur angenommen, wenn von den 5 entnommenen Gl¨ uhbirnen mindestens 4 ohne Defekt sind. Mit welcher Wahrscheinlichkeit durchl¨ auft ein Karton mit 30 defekten Gl¨ uhbirnen dieses Kontrollsystem unbeanstandet? (Vgl. auch Beispiel 5.2 (Qualit¨ atskontrolle) in Abschnitt 5.2.) Eine Zufallsvariable X mit den endlich vielen Werten x1 , x2 , x3 , . . . , xn heißt gleichm¨ aßig verteilt genau dann, wenn gilt P (X = xi ) =
1 n
f¨ ur i = 1, 2, . . . , n.
Zeigen Sie: Der Erwartungswert von X ist das arithmetische Mittel der n Werte x1 , x2 , x3 , . . . , xn .
274 7.
8.
5 Spezielle diskrete Verteilungen Aus einer Urne mit 43 weißen und 6 schwarzen Kugeln wird so lange eine Kugel mit Zur¨ ucklegen gezogen, bis zum erstenmal eine schwarze Kugel gezogen worden ist. Wie lange muss man im Durchschnitt warten? Indikatorfunktionen sind wie folgt definiert: Sei Ω eine nichtleere Menge, sei P eine diskrete Wahrscheinlichkeitsverteilung u ¨ ber Ω und A ein Ereignis, also A ⊆ Ω. Dann heißt die Funktion IA : mit
IA (ω)
Ω −→ {0, 1} 1 , falls ω ∈ A = 0 , falls ω ∈ /A
Indikatorfunktion von A. Indikatorfunktionen sind also denkbar einfache Zufallsvariablen, ihr Wertebereich ist die Menge {0, 1}. Bestimmen Sie den Erwartungswert und die Varianz der Indikatorfunktion von A. 9. Beim Lotto 6 aus 49“ kann man die Frage stellen, wie viele Ausspielungen ” etwa im Mittel vergehen, bis eine vorgegebene Zahl gezogen wird. Beantworten Sie diese Frage. 10. Wie groß ist der Erwartungwert f¨ ur die Anzahl gerader Zahlen unter den 6 Gewinnzahlen beim Lotto 6 aus 49“? ” 11. Berechnen Sie den Erwartungswert f¨ ur die Anzahl der Fixpunkte f¨ ur das Treize-Spiel (s. Beispiel 2.29 in Abschnitt 2.8.4).
6 Ungleichung von Tschebyscheff und Schwaches Gesetz der großen Zahlen von Bernoulli
6.1
Ungleichung von Tschebyscheff
Erwartungswert und Varianz sind Parameter, die (auch wenn die Verteilung einer Zufallsvariablen X nicht bekannt ist) R¨ uckschl¨ usse auf die zugrunde liegende Verteilung erlauben. So lassen sich z. B. mit Hilfe der Varianz, die ja ein Maß f¨ ur die Streuung der Werte von X um ihren Erwartungswert E(X) ist, Schranken f¨ ur die Wahrscheinlichkeit des Abweichens eines Wertes der Zufallsvariablen X von ihrem Erwartungswert berechnen. Sei etwa eine positive reelle Zahl a vorgegeben, die ein Intervall um E(X) festlegt mit den Grenzen E(X) − a und E(X) + a:
B1
B2
A
E(X) − a
E(X)
E(X) + a
Man kann nach der Wahrscheinlichkeit daf¨ ur fragen, dass f¨ ur die Zufallsvariable X gilt E(X) − a < X < E(X) + a, d. h. |X − E(X)| < a, (Die Werte von X liegen im“ Intervall, das in der Skizze mit A bezeichnet ” ist.) bzw. b) E(X) − a ≥ X oder E(X) + a ≤ X, d. h. |X − E(X)| ≥ a (Die Werte von X liegen außerhalb“ des Intervalls A, aber einschließlich ” der Grenzen E(X) − a und E(X) + a; in der Skizze sind diese Bereiche mit B1 und B2 gekennzeichnet.)
a)
H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
276
6 Ungleichung von Tschebyscheff, Schwaches Gesetz der großen Zahlen
F¨ ur den Fall b) gibt die Ungleichung von Tschebyscheff (Tschebyscheff, Pafnuti Lwowitsch (1821 – 1894)) eine Absch¨ atzung an.
Satz 6.1 (Ungleichung von Tschebyscheff ) Sei X eine (diskrete) Zufallsvariable mit dem Erwartungswert E(X) = μ und ur jede Zahl a > 0 der Varianz V (X) = σ 2 . Dann gilt f¨ P (|X − E(X)| ≥ a) ≤
V (X) . a2
Beweis: Nach den einf¨ uhrenden Erl¨ auterungen ist die Beweisstruktur offensichtlich. Man geht von V (X) aus. Die Berechnung von V (X) ber¨ ucksichtigt alle Werte, die X annimmt. Im Beweis lassen wir mit Blick auf die Aussage des Satzes die Werte von X, die im Inneren“ des durch die positive Zahl a festge” legten Intervalls liegen, unber¨ ucksichtigt. Das f¨ uhrt dann zu einer Ungleichung. Nun der formale Beweis: Die Zufallsvariable X nehme die Werte x1 , x2 , x3 , . . . an. Dann gilt: V (X) = (xi − E(X))2 · P (X = xi ). xi ∈X(Ω)
Nun erfolgt eine Aufspaltung des alle xi umfassenden Bereichs X(Ω) in zwei ur die gilt Bereiche A und B (= B1 ∪ B2 ), f¨ A
=
{xi ∈ X(Ω)|
|xi − E(X)| < a} und
B
=
V (X)
=
{xi ∈ X(Ω)| |xi − E(X)| ≥ a}. Wir erhalten: (xi − E(X))2 · P (X = xi ) + (xi − E(X))2 · P (X = xi ), xi ∈A
V (X)
≥
xi ∈B 2
(xi − E(X)) · P (X = xi ).
xi ∈B
Da f¨ ur alle xi ∈ B gilt |xi − E(X)| ≥ a, folgt 2 V (X) ≥ a · P (X = xi ) = a2 · (P (|X − E(X)| ≥ a)) . xi ∈B
Also folgt die Behauptung: P (|X − E(X)| ≥ a) ≤
V (X) . a2
Didaktische Anmerkungen 1.
Die Ungleichung von Tschebyscheff gilt auch f¨ ur abstrakte Zufallsvariablen. Deshalb ist das Wort diskrete“ im obigen Satz eingeklammert. Wir haben ” aber den Beweis nur f¨ ur diskrete Zufallsvariablen gef¨ uhrt.
6.1 Ungleichung von Tschebyscheff 2.
3.
4.
277
Die Ungleichung von Tschebyscheff ist nur mit Nutzen anwendbar, wenn alt man nur die trivialen σ = V (X) < a ist. Bei σ = a und σ > a erh¨ Aussagen, dass die Wahrscheinlichkeit kleiner oder gleich 1 ist oder sogar kleiner oder gleich einer Zahl ist, die noch gr¨ oßer als 1 ist. Da die Ungleichung von Tschebyscheff f¨ ur beliebige Zufallsvariablen gilt, ist zu vermuten, dass die Absch¨ atzung nicht sehr gut ist. F¨ ur spezielle Verteilungen gibt es bessere Absch¨ atzungen. Die Bedeutung der Ungleichung von Tschebyscheff liegt in ihrer allgemeinen G¨ ultigkeit und damit im weiteren Theorieaufbau. Gleichwertig mit der obigen Formulierung der Ungleichung von Tschebyscheff ist (f¨ ur das Gegenereignis): P (|X − E(X)| < a) ≥ 1 −
V (X) . a2
Folgerungen Setzt man f¨ ur die Zahl a ein ganzzahliges Vielfaches k·σ der Standardabweichung V (X) = σ ein, so erh¨ alt man P (|X − E(X)| ≥ kσ) ≤
1 k2
bzw.
1 . k2 Man erh¨ alt also eine Absch¨ atzung f¨ ur die Wahrscheinlichkeit, dass die Zufallsvariable einen Wert annimmt P (|X − E(X)| < kσ) ≥ 1 −
der beispielsweise nicht im Intervall ]E(X) − 2σ, E(X) + 2σ[ liegt: , E(X) − 2σ
E(X)
E(X) + 2σ
bzw. der beispielsweise im Intervall ]E(X) − 2σ, E(X) + 2σ[ liegt. (Es wurde k = 2 gew¨ ahlt.) Wir betrachten einige F¨ alle f¨ ur die ¨ aquivalente Fassung (siehe oben Punkt 4). P (|X − E(X)| < kσ) ≥ 1 −
1 : k2
a) F¨ ur k ≤ 1 erh¨ alt man keine interessanten Aussagen, b) k = 2: 3 1 (75 %), P (|X − E(X)| < 2σ) ≥ 1 − = 4 4 c)
k = 3: P (|X − E(X)| < 3σ) ≥ 1 −
1 8 = 9 9
(88, 8 %),
278
6 Ungleichung von Tschebyscheff, Schwaches Gesetz der großen Zahlen
d) k = 4: P (|X − E(X)| < 4σ) ≥ 1 −
1 15 = 16 16
(93, 7 %).
Das bedeutet (Fall b): Die Wahrscheinlichkeit, dass sich die Werte einer beliebigen Zufallsvariablen X von dem Erwartungswert E(X) um weniger als zwei Standardabweichungen unterscheiden, betr¨ agt mindestens 75 %. Analog f¨ ur die F¨ alle c) und d). Man kann auch sagen: Mindestens 75 % der insgesamt vorliegenden Wahrscheinlichkeitsmasse von der Gr¨ oße 1 entfallen auf das Intervall ]E(X) − 2σ, E(X) + 2σ[:
-
75%
. E(X) − 2σ
E(X)
E(X) + 2σ
Beispiel 6.1 (Urnenbeispiel: Ziehen mit Zur¨ ucklegen) Eine Urne enth¨ alt 20 Kugeln, davon sind 12 Kugeln rot. Man zieht nacheinander 5 Kugeln mit Zur¨ ucklegen. Die Zufallsvariable X beschreibe die Anzahl der gezogenen roten Kugeln. a) Berechnen Sie E(X). b) Berechnen Sie mit Hilfe der Ungleichung von Tschebyscheff P (|X − 3| ≥ 1). ur die hier vorliegende Verteic) Berechnen Sie P (|X − 3| ≥ 1) auch exakt“ f¨ ” lung. L¨ osung Wir legen eine Binomialverteilung zugrunde. a) E(X) = n · p mit Also: E(X) = 3.
n=5
und
p=
12 20
= 35 .
b) Es ist zun¨ achst noch V (X) zu berechnen: V (X) = n · p · (1 − p) = 5 ·
3 2 6 · = = 1, 2. 5 5 5
Es folgt nach der Ungleichung von Tschebyscheff P (|X − 3| ≥ 1) ≤
c)
1, 2 = 1, 2. 12
Da jede Wahrscheinlichkeit P kleiner oder gleich 1 ist, ist diese Aussage, die die Ungleichung von Tschebyscheff liefert, trivial. Das Ergebnis ist sehr grob. Das zeigt auch die folgende L¨ osung unter c). Es gilt: P (|X − 3| ≥ 1) = 1 − P (|X − 3| < 1) . Die Zufallsvariable X nimmt die Werte 0, 1, 2, 3, 4, 5 an. Nur f¨ ur X = 3 gilt |X − 3| < 1.
6.2 Schwaches Gesetz der großen Zahlen
279
0
1
-
2
3
4
5
Wir berechnen P (X = 3): 3 2 4 27 5 3 2 · ≈ 0, 3456. · · = 10 · P (X = 3) = 5 5 125 25 3 Also folgt: P (|X − 3| ≥ 1) = 1 − 0, 3456 = 0, 6544 ≈ 0, 65. Beispiel 6.2 (Urnenbeispiel: Ziehen ohne Zur¨ ucklegen) Wir u ¨bernehmen das letzte Beispiel, a ndern es aber in einem Punkte ab: Man zieht jetzt nacheinander 5 ¨ Kugeln ohne Zur¨ ucklegen. Jetzt liegt eine hypergeometrische Verteilung vor. 3 Der Erwartungswert E(X) betr¨ agt: E(X) = n K N = 5 · 5 = 3. 3 2 15 Die Varianz betr¨ agt: V (X) = 5 · 5 · 5 · 19 ≈ 0, 95. Mit der Ungleichung von Tschebyscheff erhalten wir die Absch¨ atzung P (|X − 3| ≥ 1) ≤
0, 95 = 0, 95. 12
Der exakte“ Wert betr¨ agt: P (|X − 3| ≥ 1) = 1 − P (X = 3); ” 12 8 3 · 2 20 ≈ 0, 40. Also folgt: P (X = 3) = P (|X − 3| ≥ 1)
6.2
≈
5
1 − 0, 40 = 0, 60.
Schwaches Gesetz der großen Zahlen
Das Schwache Gesetz der großen Zahlen von Bernoulli (Jakob Bernoulli (1654 – 1705)) verkn¨ upft den Wahrscheinlichkeitsbegriff mit der in der Realit¨ at gemachten Beobachtung der Stabilit¨ at der relativen H¨ aufigkeiten, mit der Verwendung der relativen H¨ aufigkeit eines Ereignisses als Sch¨ atzwert f¨ ur dessen gesuchte Wahrscheinlichkeit. Wir beschr¨ anken unsere Ausf¨ uhrungen auf die Betrachtung von relativen H¨ aufigkeiten in Bernoulli-Ketten der L¨ ange n und formulieren
280
6 Ungleichung von Tschebyscheff, Schwaches Gesetz der großen Zahlen
Satz 6.2 (Schwaches Gesetz der großen Zahlen) Es sei A ein Ereignis, das bei einem Zufallsexperiment mit der Wahrscheinlichkeit P (A) = p eintrete. Die relative H¨ aufigkeit des Ereignisses A bei n unabh¨ angigen Kopien (Wiederholungen) des Zufallsexperiments bezeichnen wir mit hn (Bernoulli-Kette der L¨ ange n). Dann gilt f¨ ur jede positive Zahl ε: lim P (|hn − p| < ε) = 1,
n→∞
bzw. gleichwertig lim P (|hn − p| ≥ ε) = 0.
n→∞
Eine umgangssprachliche Formulierung der Aussage k¨ onnte so lauten: W¨ achst nu aufigkeit ¨ ber alle Grenzen, so strebt die Wahrscheinlichkeit, dass die relative H¨ des Ereignisses A um weniger als eine beliebig kleine vorgegebene positive Zahl ε von der Wahrscheinlichkeit P (A) = p des Ereignisses A abweicht, gegen 1. Wir erinnern uns: Der Wert 1 f¨ ur eine Wahrscheinlichkeit bedeutet ja fast Sicherheit. Nun der Beweis: Die absolute H¨ aufigkeit des Eintretens von A in den n Versuchswiederholungen fassen wir als Zufallsvariable auf und bezeichnen sie mit Xn . Die Zufallsvariable ange n Xn gibt also die Anzahl an, wie oft A in einer Bernoulli-Kette der L¨ autritt. Die Zufallsgr¨ oße Xn ist binomialverteilt mit den Parametern n und p, und es gilt: E (Xn ) = n · p
und
V (Xn ) = n · p · (1 − p).
F¨ ur die Zufallsgr¨ oße hn , die die relative H¨ aufigkeit des Eintretens von A in den n Versuchswiederholungen angibt, gilt dann: hn =
Xn . n
(Man beachte: Abweichend von unseren Vereinbarungen bezeichnen wir hier die absolute H¨ aufigkeit mit Xn und die Zufallsvariable relative H¨ aufigkeit“ mit ” einem kleinen Buchstaben hn .) Mit den Rechenregeln f¨ ur den Erwartungswert und die Varianz folgt:
n·p Xn E (hn ) = E = = p, n n
n · p · (1 − p) p · (1 − p) Xn V (hn ) = V . = = n n2 n Mit Hilfe der Ungleichung von Tschebyscheff folgt f¨ ur jede positive Zahl ε P (|hn − E (hn ) | ≥ ε)
≤
P (|hn − p| ≥ ε)
≤
(∗)
V (hn ) , ε2 p · (1 − p) . n · ε2
6.2 Schwaches Gesetz der großen Zahlen
281
Im Grenz¨ ubergang n −→ ∞ folgt lim P (|hn − p| ≥ ε) = 0
n→∞
bzw. lim P (|hn − p| < ε) = 1.
n→∞
Didaktische Hinweise 1.
In der mit (∗) bezeichneten Ungleichung tritt das Produkt p · (1 − p) auf, wobei p die Wahrscheinlichkeit P (A) bedeutet. Im Bereich 0 ≤ p ≤ 1 nimmt p · (1 − p) als den gr¨ oßten Wert den Wert 14 an (Berechnung eines relativen Maximums). p · (1 − p) 6 1 4
1 2
0
1
p
Man erh¨ alt dann als Absch¨ atzung f¨ ur (∗) : P (|hn − p| ≥ ε) ≤
2.
1 , 4 · n · ε2
also eine Absch¨ atzung f¨ ur P (|hn − p| ≥ ε), ohne dass p = P (A) ben¨ otigt wird. Eleganter ist es, im Beweis die Zufallsvariable Xn als Summe von n unabh¨ angigen Kopien einer Indikatorfunktion IA (siehe Aufgabe 8, Kapitel 5, Abschnitt 5.4), die das Eintreten von A in einem Zufallsversuch misst, aufzufassen. Es bezeichne Ai (i = 1, 2, . . . , n) das Ereignis, dass A im i-ten Versuch eintritt. Dann wird Xn = IA1 + IA2 + IA3 + . . . + IAn . Man erh¨ alt
IA1 + IA2 + . . . + IAn . n Da jede der n unabh¨ angigen Kopien von IA denselben Erwartungswert p und dieselbe Varianz p · (1 − p) hat, ergibt sich wiederum mit den Rechenregeln f¨ ur Erwartungswert und Varianz von Summen unabh¨ angiger Zufallsvariablen E (IA1 ) + E (IA2 ) + . . . + E (IAn ) n·p = = p, E (hn ) = n n hn =
282
6 Ungleichung von Tschebyscheff, Schwaches Gesetz der großen Zahlen V ar (hn )
= =
V ar (IA1 ) + V ar (IA2 ) + . . . + V ar (IAn ) , n2 p · (1 − p) n · p · (1 − p) . = n2 n
Der weitere Weg (Einsatz der Ungleichung von Tschebyscheff) folgt dann dem Vorgehen im Beweis.
6.3 1.
2.
3.
Aufgaben und Erg¨ anzungen
F¨ ur eine Zufallsvariable X gelte: P (0 ≤ X ≤ 12) = 1, E(X) = 10, V (X) = 1, 8. Sch¨ atzen Sie mit Hilfe der Ungleichung von Tschebyscheff die Wahrscheinlichkeit P (X ≤ 7) ab. Ein Laplace-W¨ urfel wurde 500-mal geworfen. Die Augenzahl 4 trat 60-mal auf. Die Abweichung der so ermittelten relativen H¨ aufigkeit vom Idealwert 1 betr¨ a gt also 0,0466. Berechnen Sie die Wahrscheinlichkeit, dass bei 500 6 W¨ urfen mit einem idealen W¨ urfel die relative H¨ aufigkeit einer Augenzahl um 0,0466 oder mehr vom Idealwert abweicht. Wie oft muss man einen idealen W¨ urfel mindestens werfen, damit die Standardabweichung der Zufallsvariablen hn (A), die die relative H¨ aufigkeit des Ereignisses A = {6} beschreibt, h¨ ochstens gleich 0,01 ist?
7 Allgemeine Wahrscheinlichkeitsr¨ aume
Wir rufen uns zun¨ achst die Definition eines endlichen Wahrscheinlichkeitsraumes in Erinnerung (Abschnitt 2.6.1): Sei Ω eine endliche, nichtleere Ergebnismenge und sei P : P(Ω) → IR eine Abbildung von der Potenzmenge P(Ω) in die reellen Zahlen. Dann heißt P ein Wahrscheinlichkeitsmaß auf Ω, falls die folgenden drei Kolmogoroff-Axiome erf¨ ullt sind: [K1] P (A) ≥ 0 f¨ ur alle A ∈ P (Ω). [Nichtnegativit¨ at] In Worten: Jedem Ereignis A wird durch die Abbildung P eindeutig eine nichtnegative reelle Zahl P (A) zugeordnet. [K2] P (Ω) = 1. [Normierung] In Worten: Dem sicheren Ereignis Ω wird die Zahl 1 zugeordnet. [K3] P (A ∪ B) = P (A) + P (B) f¨ ur alle A, B ∈ P (Ω) mit A ∩ B = ∅. [Additivit¨ at] In Worten: Sind A und B disjunkte Ereignisse, so ist P (A ∪ B) gleich der Summe aus P (A) und P (B). Falls ein solches Wahrscheinlichkeitsmaß P auf Ω gegeben ist, heißt (Ω, P(Ω), P ) endlicher Wahrscheinlichkeitsraum. Der Buchstabe K bei der Benennung der Axiome erinnert an A. N. Kolmogoroff. Diese Definition soll nun auf unendliche Ergebnismengen verallgemeinert werden. Dazu werden zwei F¨ alle unterschieden: die Ergebnismenge Ω ist abz¨ ahlbar-unendlich, die Ergebnismenge Ω ist u ahlbar-unendlich. ¨ berabz¨
H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
284
7.1
7 Allgemeine Wahrscheinlichkeitsr¨ aume
Abz¨ ahlbar-unendliche Wahrscheinlichkeitsr¨ aume
Der Fall einer abz¨ ahlbar-unendlichen Ergebnismenge l¨ asst sich noch analog zum Fall einer endlichen Ergebnismenge behandeln. Es sei an die Definition einer abz¨ ahlbar-unendlichen Menge erinnert: Eine nichtleere Menge M heißt abz¨ ahlbar-unendlich, falls M gleichm¨ achtig zur Menge IN der nat¨ urlichen Zahlen ist, d. h.: Es gibt eine bijektive Abbildung f : M → IN. Beispiele f¨ ur abz¨ ahlbar-unendliche Mengen sind die Menge der ganzen Zahlen ZZ und die Menge der rationalen Zahlen Q. I Dagegen sind die Menge IR der reellen Zahlen und jedes in IR liegende Intervall [a, b] (mit a, b ∈ IR und a < b) keine abz¨ ahlbar-unendlichen Mengen. Sie sind u ahlbar-unendliche Mengen. ¨ berabz¨ F¨ ur die Definition eines abz¨ ahlbar-unendlichen Wahrscheinlichkeitsraumes u ur endliche ¨ bernehmen wir die Axiome [K1] und [K2] des Axiomensystems f¨ Wahrscheinlichkeitsr¨ aume, modifizieren aber Axiom [K3]. Definition 7.1 (Abz¨ ahlbar-unendlicher Wahrscheinlichkeitsraum) Sei Ω eine abz¨ ahlbar-unendliche, nichtleere Ergebnismenge. Eine Funktion P : P(Ω) → IR≥0
mit
A → P (A)
f¨ ur
A ∈ P(Ω)
heißt Wahrscheinlichkeitsmaß auf Ω, falls gilt: [K1] P (A) ≥ 0 f¨ ur alle A ∈ P(Ω). [Nichtnegativit¨ at] In Worten: P ordnet jedem Ereignis A eine nicht-negative reelle Zahl zu. [K2] P (Ω) = 1. [Normierung] In Worten: Dem sicheren Ereignis Ω wird die Zahl 1 zugeordnet. ur [K3∗] F¨ ur ein System Mengen Ai ∈ P(Ω) (i ∈ IN) mit Ai ∩ Aj = ∅ (f¨ ∞von ∞ Ai = P (Ai ). [σ-Additivit¨ at] i = j) gilt: P i=1
i=1
In Worten: F¨ ur abz¨ ahlbar-unendlich viele, paarweise disjunkte Mengen Ai (i ∈ IN) ist das Wahrscheinlichkeitsmaß der Vereinigung dieser Mengen gleich der Summe der Wahrscheinlichkeitsmaße dieser Mengen. Dann heißt das Tripel (Ω, P(Ω), P ) abz¨ ahlbar-unendlicher Wahrscheinlichkeitsraum. Bei den Axiomen eines abz¨ ahlbar-unendlichen Wahrscheinlichkeitsraumes ist also die Wahrscheinlichkeit der Vereinigung von abz¨ ahlbar-unendlich vielen paarweise disjunkten Mengen erkl¨ art, w¨ ahrend bei den Axiomen eines endlichen Wahrscheinlichkeitsraumes nur die Wahrscheinlichkeit der Vereinigung von endlich vielen paarweise disjunkten Mengen erkl¨ art ist.
7.1 Abz¨ ahlbar-unendliche Wahrscheinlichkeitsr¨ aume
285
Wir erl¨ autern das Axiomensystem an einem Beispiel. Beispiel 7.1 (Wahrscheinlichkeitsmaß auf IN) Sei Ω = IN, sei A ∈ P(IN). 1 n ( 2 ) , falls Wir definieren P : P(IN) → IR durch P (∅) = 0 und P (A) = n∈A
A = ∅. Ist etwa A = {3, 10, 22}, so ist P (A) = ( 12 )3 + ( 12 )10 + ( 12 )22 . Wir zeigen, dass P ein Wahrscheinlichkeitsmaß auf IN ist. Zu [K1]: Falls A = ∅, ist P (A) = 0, falls A = ∅ ist P (A) > 0. ∞ 1 1 n 1 Zu [K2]: P (Ω) = ( ) = ( )n = 2 1 = 1. 2 2 1− 2 n=1 n∈IN Wir benutzten die Summenformel f¨ ur die unendliche geometrische Reihe. Zu [K3∗]: ∞
n ∞ n ∞ 1 1 Ai = = = P (Ai ). P 2 2 S∞ i=1
n∈
i=1
i=1 n∈Ai
Ai
i=1
Damit ist P ein Wahrscheinlichkeitsmaß auf IN, und (IN, P(IN), P ) ist ein Wahrscheinlichkeitsraum. Beispiel 7.2 (Unendliche Folge von W¨ urfelw¨ urfen) Aufgabe: Ein idealer W¨ urfel wird (theoretisch) unendlich mal geworfen. Wie groß ist die Wahrscheinlichkeit, dass die Augenzahl Sechs zum ersten Mal bei einer geraden Anzahl von W¨ urfen f¨ allt? Die Augenzahl Sechs kann das erste Mal im i-ten Wurf fallen, wobei i ∈ IN. Also ist Ω = IN. F¨ ur die Wahrscheinlichkeit, dass die erste Sechs im i-ten Wurf f¨ allt, gilt: P (Erste Sechs im i-ten Wurf)= P (i) = ( 56 )i−1 · 16 . Nun definieren wir eine Abbildung P : P(IN) → IR durch P (A) = i∈A P (i). Wie im vorangehenden Beispiel zeigt man, dass P ein Wahrscheinlichkeitsmaß auf IN ist. Die L¨ osung der Aufgabe ist jetzt durch folgende Rechnung gegeben.
=
P (Erste Sechs bei gerader Anzahl von W¨ urfen) ∞ Erste Sechs im (2i)-ten Wurf) P( i=1
=
=
∞ i=1 ∞ i=1
=
P (Erste Sechs im (2i)-ten Wurf) ∞ ∞ 5 1 52i−1 1 5 2i ( )2i−1 · = = ( ) · 6 6 62i 5 6 i=1
∞ 1 25 i 1 25 5 ( ) = · · = . 5 36 5 11 11 i=1
i=1
286
7.2
7 Allgemeine Wahrscheinlichkeitsr¨ aume
¨ Uberabz¨ ahlbar-unendliche Wahrscheinlichkeitsr¨ aume
Ist die Ergebnismenge Ω u ahlbar-unendlich, liegt eine kompliziertere ¨ berabz¨ Sachlage vor: Man muss von dem Wunsch abr¨ ucken, jeder Teilmenge von Ω eine Wahrscheinlichkeit zuordnen zu wollen; es l¨ asst sich n¨ amlich kein Wahrscheinlichkeitsmaß auf P(Ω) definieren. Diese Schwierigkeit l¨ asst sich aber beheben, indem man auf einem gewissen Mengensystem, welches eine Teilmenge der Potenzmenge P(Ω) ist, ein Wahrscheinlichkeitsmaß definiert. Dieses Mengensystem ist im speziellen Fall der u ahlbar-unendlichen ¨ berabz¨ Menge IR das System der Borelmengen auf IR und im allgemeinen Fall einer beliebigen u ahlbar-unendlichen Menge das System einer Sigma-Algebra. ¨ berabz¨
7.2.1
Die Menge IR und das System der Borelmengen auf IR
Wir betrachten in diesem Abschnitt zun¨ achst nur die u ahlbar-unendliche ¨ berabz¨ Menge IR der reellen Zahlen. Die Frage lautet also: Wie kann man IR zu einem Wahrscheinlichkeitsraum machen? Naheliegend ist es, f¨ ur die Definition eines Wahrscheinlichkeitsraumes mit der Ergebnismenge IR die Definition eines Wahrscheinlichkeitsraumes mit abz¨ ahlbar-unendlicher Ergebnismenge zu u ¨ bernehmen mit folgender Maßgabe: An die Stelle von Ω tritt die Menge IR. Man betrachtet eine Funktion P : P(IR) → IR≥0 und fordert f¨ ur P die G¨ ultigkeit der Kolmogoroff-Axiome [K1], [K2], [K3∗]. Um die sich mit diesem Definitionsversuch ergebende Problematik klar zu machen, betrachten wir ein Beispiel. Beispiel 7.3 (F¨ ullmengen bei Fertigpackungen) In der Lebensmittelindustrie ist bei allen Serienprodukten die Nennf¨ ullmenge der Verpackungen, in welchen diese Produkte auf den Markt kommen, sehr wichtig. So schreibt die Verpackungsverordnung bei Nennf¨ ullmengen zul¨ assige Minusabweichungen vor. Bei der Abf¨ ullung von 1000-Gramm-Packungen Mehl ist es n¨ utzlich, gewisse Wahrscheinlichkeiten berechnen zu k¨ onnen – beispielsweise: a) P (F¨ ullmenge ≤ 980 g) b) P (F¨ ullmenge zwischen 990 g und 1010 g) c) P (F¨ ullmenge > 1015 g) F¨ ur die Praxis ist es sinnvoll, dass Folgendes gilt (zur Abk¨ urzung bezeichne X die F¨ ullmenge in Gramm):
¨ 7.2 Uberabz¨ ahlbar-unendliche Wahrscheinlichkeitsr¨ aume
287
P (X ≤ 980) = P (X < 980). P (990 ≤ X ≤ 1010) = P (990 ≤ X < 1010) = P (990 < X ≤ 1010) = P (990 < X < 1010). Bei c): P (X > 1015) = P (X ≥ 1015). Man m¨ ochte also, dass Wahrscheinlichkeiten gleich bleiben, wenn man zwischen offenen, halboffenen und abgeschlossenen Intervallen wechselt. Das bedeutet auch, dass die Wahrscheinlichkeit, dass ein Wert (etwa 1001 g) exakt getroffen wird, gleich Null sein soll.
Bei a): Bei b):
Als Erkenntnis dieses Beispiels ist festzuhalten, dass man auf der u ahl¨berabz¨ bar-unendlichen Menge IR ein Wahrscheinlichkeitsmaß haben m¨ ochte, das die drei Axiome [K1], [K2], [K3∗] erf¨ ullt und zus¨ atzlich folgende Eigenschaft hat: [N]
P ({x}) = 0
f¨ ur alle
x ∈ IR.
Es gibt aber kein Wahrscheinlichkeitsmaß auf IR, das die obigen drei Axiome [K1], [K2], [K3∗] und die Eigenschaft [N] erf¨ ullt. Dieser Sachverhalt wurde 1929 von S. Banach (1892 – 1945) und K. Kuratowski (1896 – 1980) bewiesen. Damit entsteht in der Theoriebildung ein Problem. Die Konsequenz ist, dass man statt der Potenzmenge P(IR) ein anderes Mengensystem benutzt, auf dem dann ein Wahrscheinlichkeitsmaß existiert, welches die drei Axiome [K1], [K2], [K3∗] und die Eigenschaft [N] erf¨ ullt. Ein solches Mengensystem soll außerdem reichhaltig“ sein; das bedeutet, dass ” in diesem System m¨ oglichst alle in der Praxis vorstellbaren Teilmengen von IR vorkommen. Dasjenige Mengensystem, das alle diese Forderungen erf¨ ullt, ist das ´ System der Borelmengen auf IR (Emile Borel, 1871 – 1956). Dieses Mengensystem konstruieren wir nun. Sei I die Menge aller (nach links) halboffenen Intervalle von IR, also I = {]a, b]|a, b ∈ IR, a < b}. Dann betrachtet man eine Teilmenge A der Potenzmenge P(IR), welche die folgenden Eigenschaften erf¨ ullt: [B0] Die Menge I ist Teilmenge von A. [B1] IR ∈ A. In Worten: Die Menge IR ist ein Element von A. ¯ ∈ A. [B2] A ∈ A ⇒ A In Worten: Ist A ein Element von A, so ist auch das Komplement von A ein Element von A. An ∈ A. [B3] A1 , A2 , A3 , . . . ∈ A ⇒ n∈IN
In Worten: Sind abz¨ ahlbar-unendlich viele Elemente von A gegeben, so ist auch die Vereinigung dieser Elemente ein Element von A.
288
7 Allgemeine Wahrscheinlichkeitsr¨ aume
Der folgende Satz liefert das Fundament f¨ ur die weitere Theorie. Satz 7.1 (Existenzsatz) Unter allen Mengensystemen, welche die Eigenschaften [B0], [B1], [B2] und [B3] erf¨ ullen, gibt es ein kleinstes Mengensystem, n¨ amlich die Schnittmenge aller Mengensysteme, welche die Eigenschaften [B0], [B1], [B2], [B3] erf¨ ullen. Hinweise 1. 2.
Die Eigenschaften [B1], [B2], [B3] der betrachteten Mengensysteme begegnen uns erneut beim Begriff der Sigma-Algebren im Abschnitt 7.2.2. Der formulierte Existenzsatz wird sp¨ ater (im Abschnitt 7.2.2) in allgemeiner Form bewiesen.
Definition 7.2 (System der Borelmengen, Messraum (IR, B, (I))) Das nach dem Existenzsatz existierende Mengensystem heißt System der Borelmengen auf IR und wird mit B(I) bezeichnet. Das Paar (IR, B(I)) wird als Messraum der reellen Zahlen bezeichnet. Beispiele f¨ ur Borelmengen 1. 2. 3.
Jedes halboffene Intervall ]a, b] liegt in B(I). Die Gesamtmenge IR liegt in B(I). F¨ ur x ∈ IR sind die Intervalle ] − ∞, x], ]x, +∞[, ] − ∞, x[, [x, +∞[ Borelmengen. Begr¨ undung: ∞ Es gilt ] − ∞, x] = ]x − n, x]. Wegen Eigenschaft [B3] ist ] − ∞, x] also n=1
eine Borelmenge. Es gilt ]x, +∞[= ] − ∞, x]. Wegen Eigenschaft [B2] ist ]x, +∞[ also eine Borelmenge. ∞ ]x − n, x − n1 ]. Wegen Eigenschaft [B3] ist ] − ∞, x[ Es gilt ] − ∞, x[= n=1
4.
also eine Borelmenge. Es gilt [x, +∞[= ] − ∞, x[. Wegen Eigenschaft [B2] ist [x, +∞[ also eine Borelmenge. F¨ ur a, b ∈ IR mit a < b sind die Intervalle [a, b], [a, b[, ]a, b[ Borelmengen. Begr¨ undung: [a, b] = ] − ∞, a[∪]b, +∞[, wegen Eigenschaft [B2] ist [a, b] also Borelmenge. [a, b[= ] − ∞, a[∪[b, +∞[, wegen Eigenschaft [B2] ist [a, b[ also Borelmenge. ∞ ]a, b[= [a+ n1 , b− n1 ]. Da die Intervalle [a+ n1 , b− n1 ], wie gerade bewiesen, n=1
Borelmengen sind, folgt mit Eigenschaft [B3], dass auch ]a, b[ eine Borelmenge ist.
¨ 7.2 Uberabz¨ ahlbar-unendliche Wahrscheinlichkeitsr¨ aume
289
Es sei erw¨ ahnt, dass alle irgendwie vorstellbaren Teilmengen von IR Borelmengen sind, beispielsweise sind alle offenen Mengen in IR und alle abgeschlossenen Mengen in IR Borelmengen. Bei den praktischen Wahrscheinlichkeitsberechnungen werden in den allermeisten F¨ allen nur Intervalle eine Rolle spielen. Kritisch kann man fragen, ob vielleicht gar kein Unterschied zwischen der Potenzmenge von IR und dem System der Borelmengen von IR besteht, ob also vielleicht B(I) = P(IR) gilt. Das ist aber nicht der Fall: Es ist eine pathologische, sehr komplizierte Teilmenge von IR konstruiert worden, welche keine Borelmenge ist. Das heißt, dass B(I) eine echte Teilmenge von P(IR) ist (vgl. dazu Bauer [13], §8). Mit dem System der Borelmengen B(I) haben wir nun das geeignete Mengensystem, um f¨ ur die u ahlbar-unendliche Menge IR ein Wahrscheinlich¨ berabz¨ keitsmaß definieren zu k¨ onnen.
Definition 7.3 (Wahrscheinlichkeitsmaß auf IR/Wahrscheinlichkeitsraum (IR, B(I), P )) Es sei P : B(I) → IR eine Abbildung vom System der Borelmengen in die Menge der reellen Zahlen. Dann heißt die Abbildung P ein Wahrscheinlichkeitsmaß auf IR, falls folgende Axiome erf¨ ullt sind: [K1] P (A) ≥ 0 f¨ ur alle A ∈ B(I). [Nichtnegativit¨ at] In Worten: Jeder Borelmenge A wird durch die Abbildung P eine nichtnegative reelle Zahl P (A) zugeordnet. [K2] P (IR) = 1. In Worten: Der Menge IR wird die Zahl 1 zugeordnet.
[Normierung]
[K3∗] F¨ ur ein System von Mengen Ai ∈ B(I) (i ∈ IN) mit Ai ∩ Aj = ∅ (f¨ ur i = j) gilt: ∞ ∞ P( Ai ) = P (Ai ). [σ-Additivit¨ at] i=1
i=1
In Worten: F¨ ur abz¨ ahlbar-unendlich viele, paarweise disjunkte Borelmengen Ai (i ∈ IN) gilt: Das Wahrscheinlichkeitsmaß der Vereinigung dieser Mengen ist gleich der Summe der Wahrscheinlichkeitsmaße dieser Mengen. Falls ein solches Wahrscheinlichkeitsmaß P auf IR gegeben ist, heißt (IR, B(I), P ) Wahrscheinlichkeitsraum zu IR. Kurze Zusammenfassung Will man auf der u ahlbar-unendlichen Menge IR ein Wahrscheinlich¨ berabz¨ keitsmaß einf¨ uhren, kann man als Mengensystem nicht die Potenzmenge von IR nehmen, sondern muss – bedingt durch die beschriebene grunds¨ atzliche Schwierigkeit – das System der Borelmengen von IR (also B(I)) nehmen.
290
7 Allgemeine Wahrscheinlichkeitsr¨ aume
In Kapitel 8 werden wir einige wichtige Wahrscheinlichkeitsmaße auf IR behandeln – n¨ amlich Wahrscheinlichkeitsmaße, die sich durch Verteilungsfunktionen beschreiben lassen.
7.2.2
Abstrakte Wahrscheinlichkeitsr¨ aume
Wir betrachten in diesem Abschnitt eine beliebige vorgegebene Menge Ω. Ziel ist es, Ω zu einem Wahrscheinlichkeitsraum zu machen. Dieser Abschnitt kann – wenn man schnell konkrete Wahrscheinlichkeitsmaße auf B(I) kennenlernen will – zun¨ achst u ¨ bersprungen werden. Sei Ω also eine beliebige (endliche, abz¨ ahlbar-unendliche oder u ahlbar¨ berabz¨ unendliche) Menge. Falls Ω endlich oder abz¨ ahlbar-unendlich ist, nimmt man als Mengensystem die Potenzmenge von Ω, wie wir bereits gesehen haben. Falls aber Ω u ahlbar-unendlich ist, ist es – ganz analog zur u ahlbar¨ berabz¨ ¨ berabz¨ unendlichen Menge IR – so, dass man ein anderes, reichhaltiges“ Mengensys” tem f¨ ur die Definition eines Wahrscheinlichkeitsmaßes auf Ω nimmt. F¨ ur dieses Mengensystem fordert man genau drei Eigenschaften, welche auch das System der Borelmengen auf IR hat – n¨ amlich die Eigenschaften [B1], [B2], [B3]. Das Axiom [B0] wird nicht gebraucht, denn [B0] ist nur wichtig f¨ ur die ganz spezielle Konstruktion des Systems der Borelmengen auf IR und ist nicht erforderlich bei einer beliebigen Menge Ω. So kommt man zum Begriff der Sigma-Algebra. Definition 7.4 (Sigma-Algebra) Sei Ω eine beliebige nicht-leere Menge. Ein System A von Teilmengen von Ω heißt σ-Algebra (gelesen: Sigma-Algebra) auf Ω, falls folgende drei Eigenschaften erf¨ ullt sind: [σ1] Ω ∈ A [σ2] A ∈ A ⇒ A¯ ∈ A ∞ Ai ∈ A. [σ3] A1 , A2 , A3 , . . . ∈ A ⇒ i=1
Unsere Absicht ist es nun zu zeigen, dass es bei einem beliebigen Raum Ω zu einem gegebenen System F von Teilmengen von Ω immer eine kleinste σAlgebra A(F ) gibt, die F enth¨ alt. Der Leser erkennt die Analogie zum eben behandelten Spezialfall Ω = IR: Dort wurde das Mengensystem F durch das System der halboffenen Intervalle I gegeben und der Existenzsatz besagte, dass es eine kleinste σ-Algebra gibt, die I enth¨ alt – n¨ amlich die σ-Algebra der Borelmengen B(I). Satz 7.2 Sei Ω = ∅ und sei F ein beliebiges System von Teilmengen von Ω. Dann gibt es unter allen σ-Algebren, die F enthalten, immer eine kleinste.
¨ 7.2 Uberabz¨ ahlbar-unendliche Wahrscheinlichkeitsr¨ aume
291
Beweis: Zun¨ achst stellt sich die Frage, ob es u ¨ berhaupt eine σ-Algebra gibt, die F enth¨ alt. Diese Frage ist einfach zu beantworten durch Angabe eines Beispiels: Die Potenzmenge P(Ω) ist eine σ-Algebra (siehe auch Aufgabe), und es gilt F ⊂ P(Ω). Sei also nun {Ai |i ∈ I} die Menge der σ-Algebren, die F enthalten (dabei kann I eine endliche oder unendliche Indexmenge sein). Sei weiter A(F ) die ' Ai . Es gilt: A(F ) ⊂ Ai Schnittmenge aller dieser σ-Algebren, also A(F ) = i∈I
f¨ ur jedes i ∈ I. Damit ist A(F ) die kleinste Menge, die F umfasst. Wir m¨ ussen nun noch zeigen, dass A(F ) eine σ-Algebra ist. Zu (σ1): Da Ω zu jeder σ-Algebra Ai geh¨ ort (i ∈ I), geh¨ ort Ω auch zum Schnitt dieser σ-Algebren. ' Zu (σ2): Sei A ∈ Ai . Das bedeutet, dass A ∈ Ai f¨ ur jedes i ∈ I. Also gilt f¨ ur i∈I ' ¯ ∈ Ai . Daraus folgt dann: A¯ ∈ Ai . jedes i ∈ I: Da Ai σ-Algebra ist, gilt A i∈I ' Ai . Das bedeutet, dass A1 , A2 , A3 , . . . ∈ Ai Zu (σ3): Seien A1 , A2 , A3 , . . . ∈ i∈I
f¨ ur jedes i ∈ I. Deshalb ergibt sich f¨ ur jedes i ∈ I: Da Ai σ-Algebra ist, gilt ' Ak ∈ Ai . k∈IN Ak ∈ Ai . Daraus folgt dann: k∈IN
i∈I
Jetzt sind wir in der Lage, die Definition eines abstrakten Wahrscheinlichkeitsraums anzugeben. Definition 7.5 (Abstrakter Wahrscheinlichkeitsraum (Ω, A, P )) Ein Messraum ist ein Paar (Ω, A) bestehend aus einer nicht-leeren Menge Ω und einer σ-Algebra A auf Ω. Es sei P : A → IR eine Abbildung von einer σ-Algebra auf Ω in die Menge der reellen Zahlen. Dann heißt die Abbildung P ein Wahrscheinlichkeitsmaß auf Ω, falls folgende Axiome erf¨ ullt sind: [K1] P (A) ≥ 0 f¨ ur alle A ∈ A. [K2] P (Ω) = 1.
[Nichtnegativit¨ at] [Normierung]
ur i = j) [K3∗] F¨ ur ein System von Mengen Ai ∈ A (i ∈ IN) mit Ai ∩ Aj = ∅ (f¨ gilt: ∞ ∞ Ai ) = P (Ai ). [σ-Additivit¨ at] P( i=1
i=1
Das Tripel (Ω, A, P ) heißt abstrakter Wahrscheinlichkeitsraum, kurz W-Raum. Generell ist es sehr schwierig festzustellen, ob ein gegebenes Mengensystem in Ω eine σ-Algebra ist. Deshalb behilft man sich meistens so, dass man ein Mengensystem F in Ω nimmt, welches ganz bestimmte gut durchschaubare Eigenschaften hat. Hat man auf diesem Mengensystem F ein Wahrscheinlichkeitsmaß P konstruiert, kann man dieses Wahrscheinlichkeitsmaß P ausdehnen auf die
292
7 Allgemeine Wahrscheinlichkeitsr¨ aume
nach obigem Satz existierende kleinste σ-Algebra, die F enth¨ alt. Diese kleinste, F enthaltende σ-Algebra wird u ¨ blicherweise mit A(F ) bezeichnet. Damit hat man dann den Wahrscheinlichkeitsraum (Ω, A(F ), P ). Krengel ([86], 127) dr¨ uckt das so aus: Die Familie F ist also nur der Eingang ” zu einem großen Garten, den man nie verl¨ asst, solange man aus den dort vorgefundenen Ereignissen A ⊂ Ω neue nur mit abz¨ ahlbaren mengentheoretischen Operationen bildet, und in dem die G¨ ultigkeit der Rechenregeln gew¨ ahrleistet ist.“ Den mathematischen Hintergrund bildet der Fortsetzungssatz der Maßtheorie, dessen Aussage wir noch kurz vorstellen wollen (bez¨ uglich der auftauchenden Begriffe und des Beweises dieses Satzes sei auf die einschl¨ agige Literatur zur Maßtheorie verwiesen, etwa Bauer ([13], §1 – §5) oder Bandelow ([6], §5 – §6). Satz 7.3 (Fortsetzungssatz) Sei Ω eine beliebige Menge, F ein Mengensystem in Ω, welches die Eigenschaften eines Rings hat, und sei P ein Pr¨ amaß auf F . Dann kann P zu einem Maß auf der σ-Algebra A(F ) fortgesetzt werden.
7.3 1.
2. 3.
Aufgaben und Erg¨ anzungen
Ann, Belinda und Charles werfen nacheinander einen W¨ urfel. Ann gewinnt, wenn sie eine 1, 2 oder 3 wirft, Belinda gewinnt, wenn sie eine 4 oder 5 wirft, Charles gewinnt, wenn er eine 6 wirft. Ann beginnt und gibt den W¨ urfel an Belinda, diese gibt ihn an Charles, Charles gibt ihn an Ann usw. Es wird so lange gew¨ urfelt, bis jemand zum ersten Mal gewinnt. Wie groß ist die Wahrscheinlichkeit, dass der offenbar benachteiligte Charles gewinnt? Wir kommen auf Satz 4.1 aus Abschnitt 4.1 zur¨ uck: Beweisen Sie nun diesen Satz f¨ ur den Fall, dass X(Ω) abz¨ ahlbar-unendlich ist. Beweisen Sie folgende Aussagen a) F¨ ur x ∈ IR ist die einelementige Menge {x} eine Borelmenge. b) Die Menge der rationalen Zahlen Q I ist eine Borelmenge.
4. 5.
Sei Ω eine beliebige Menge. Zeigen Sie, dass P(Ω) eine σ-Algebra ist. Sei Ω eine beliebige Menge und sei A eine σ-Algebra auf Ω. Beweisen Sie folgende Aussagen: a) ∅ ∈ A. b) A1 , A2 , A3 , . . . ∈ A ⇒
∞ '
Ai ∈ A.
i=1
6.
Es sei die Menge der reellen Zahlen gegeben. Bestimmen Sie die kleinste σ-Algebra A auf IR, die alle einelementigen Teilmengen von IR enth¨ alt.
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
Beispiel 8.1 (S-Bahn) Die S-Bahnen einer bestimmten Linie fahren tags¨ uber zwischen 6 und 20 Uhr alle 15 Minuten an einer bestimmten Haltestelle ab. Seien t0 und t0 + 15 zwei feste Abfahrtszeiten der S-Bahn; der Einfachheit halber setzen wir t0 = 0 und haben somit die Abfahrtszeiten 0 und 15. Damit ist klar, dass die potentielle Wartezeit an dieser Haltestelle im (nach links halboffenen) Intervall ]0, 15] liegt. Frage: Wie groß ist die Wahrscheinlichkeit, dass man an der Haltestelle eine maximale Wartezeit von x Minuten hat? Dabei ist x ein Wert in ]0, 15]. Im Hinblick auf die mathematische Theorie dehnen wir diese Frage auf Werte in ganz IR aus. Die Frage lautet also nun: Wie groß ist die Wahrscheinlichkeit, dass man an der Haltestelle eine maximale Wartezeit von x Minuten hat, wobei x ein Wert in IR ist? Zun¨ achst ist klar, dass die Wahrscheinlichkeit f¨ ur eine Wartezeit, die kleiner oder gleich 15 Minuten ist, gleich 1 ist. Diese Gesamtwahrscheinlichkeit l¨ asst sich darstellen mit Hilfe eines Rechtecks u ohe ¨ber dem Intervall [0,15] mit der H¨ 1 , es hat den Fl¨ a cheninhalt 1 [Einheit]. 15
1 15
0
15
x
Sei jetzt x ∈ ]0, 15] gegeben. Die Wahrscheinlichkeit, dass man eine Wartezeit 1 · x. Ist x ≤ 0, ist die Wahrscheinhat, die kleiner oder gleich x ist, ist dann 15 lichkeit f¨ ur eine Wartezeit, die kleiner oder gleich x ist, gleich Null. Ist x > 15, ist die Wahrscheinlichkeit, dass man eine Wartezeit hat, die kleiner oder gleich
H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
294
x ist, gleich Eins. Zusammengefasst erh¨ alt⎧man ⎪ ⎪ ⎨ 0,
falls x < 0
1 15 x,
falls x ∈ [0, 15] . ⎪ ⎪ ⎩ 1, falls x > 15 Unter Verwendung mathematischer Symbole bedeutet das ⎧ ⎪ 0, falls x < 0 ⎪ ⎨
P (Wartezeit ist kleiner oder gleich x) =
1 . 15 x, falls x ∈ [0, 15] ⎪ ⎪ ⎩ 1, falls x > 15 In noch k¨ urzerer Schreibweise erh¨ alt man ⎧ ⎪ falls x < 0 ⎪ ⎨ 0,
P (Wartezeit im Intervall ] − ∞, x]) =
P (] − ∞, x]) =
1
15 ⎪ ⎪ ⎩ 1,
x,
falls x ∈ [0, 15] .
(8.1)
falls x > 15
Der Graph dieser Funktion sieht so aus:
1 P ] −∞, x]
x
0
15
Damit ist eine Verteilungsfunktion“ f¨ ur die vom Zufall abh¨ angige Wartezeit ” gefunden. Es soll nun noch einmal die obige Rechteckfunktion“ betrachtet werden. ” Diese l¨ asst sich mittels der folgenden Funktion beschreiben: ⎧ ⎪ falls t < 0 ⎪ ⎨ 0, f : IR → IR, t → f (t) =
1
15 ⎪ ⎪ ⎩ 0,
,
falls t ∈ [0, 15] .
(8.2)
falls t > 15
Der Zusammenhang zwischen der Wahrscheinlichkeit P (] − ∞, x]) in (1) und der Rechteckfunktion“ in (2) ergibt sich nun mittels der Integralrechnung: Es ” gilt n¨ amlich ( x
P (] − ∞, x]) =
f (t)dt. −∞
Die Begr¨ undung hierf¨ ur ergibt sich aus folgenden Rechnungen: 1. Sei x ≤ 0. Dann: ( x ( x f (t)dt = 0 dt = 0. −∞
−∞
8.1 Verteilungsfunktionen und Dichtefunktionen 2.
Sei x ∈ ]0, 15]. Dann: ( x ( f (t)dt = −∞
3.
(
0
0 dt + −∞
0
Sei x > 15. Dann: ( x ( 0 ( f (t)dt = 0 dt + −∞
x
−∞
15 0
295
% &x 1 1 1 dt = 0 + t = x. 15 15 0 15
1 dt + 15
(
%
x
0 dt = 0 + 15
1 t 15
&15 + 0 = 1. 0
Hinweis Wir werden nachfolgend die Abbildung, die einer reellen Zahl x die Wahrscheinlichkeit P (] − ∞, x]) zuordnet, als Verteilungsfunktion bezeichnen. Die Funktion f , mit deren Hilfe wir diese Wahrscheinlichkeit P (] − ∞, x]) berechnen k¨ onnen x (n¨ amlich als P (] − ∞, x]) = f (t)dt), wird den Namen Dichtefunktion bekommen.
8.1
−∞
Verteilungsfunktionen und Dichtefunktionen
Wir betrachten nun den Messraum (IR, B(I)), also die Menge der reellen Zahlen zusammen mit der Sigma-Algebra der Borelmengen B(I) auf IR. Auf diesem Messraum sollen nun verschiedene, in der Praxis sehr wichtige Wahrscheinlichkeitsmaße vorgestellt und erl¨ autert werden. Dazu f¨ uhren wir zwei Begriffe ein.
Definition 8.1 (Verteilungsfunktion) Ist P ein Wahrscheinlichkeitsmaß auf (IR, B(I)), so heißt die Funktion F : IR → IR, x → F (x) := P (] − ∞, x]) Verteilungsfunktion bez¨ uglich P .
Bemerkung Verteilungsfunktionen haben wir schon kennengelernt – und zwar bei der Behandlung diskreter Zufallsvariablen (Abschnitt 4.2). Der Leser mache sich noch einmal klar, dass die Verteilungsfunktion einer diskreten Zufallsvariable eine zwischen den Werten 0 und 1 liegende Treppenfunktion ist (also insbesondere monoton wachsend und rechtsseitig stetig ist). In Abschnitt 8.2 wollen wir Verteilungsfunktionen mittels besonderer Funktionen (die wir Dichtefunktionen“ nennen) konstruieren. Angesichts dieses Ziels ” geben wir zun¨ achst die Definition einer Dichtefunktion und u ¨ben diesen neuen Begriff dann anhand von drei Beispielen ein.
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
296
Definition 8.2 (Dichtefunktion) Eine Funktion f : IR → IR heißt Dichtefunktion (oder kurz Dichte), falls gilt: [D1] f ist integrierbar, [D2] f (t) ≥ 0 f¨ ur alle t ∈ IR, [D3]
+∞
f (t)dt = 1.
−∞
Nachstehend geben wir drei Beispiele f¨ ur Dichtefunktionen an. Diese Dichtefunktionen liefern die Grundlage f¨ ur die in den Abschnitten 3, 4 und 5 behandelten drei speziellen Verteilungsfunktionen: Rechteckverteilung, Exponentialverteilung und Normalverteilung. Bei diesen drei Beispielen werden wir jeweils nachweisen, dass die gegebene Funktion f : IR → IR (A) auf IR beschr¨ ankt, (B) auf IR bis auf endlich viele Sprungstellen stetig ist. Wenn n¨ amlich eine Funktion f : IR → IR die Bedingungen (A) und (B) erf¨ ullt, ist sie integrierbar; einen Beweis dieser Aussage findet man etwa bei K¨ utting ([100], Band 2, Satz 6.30). F¨ ur die Behandlung der folgenden Beispiele bedeutet das, dass der Nachweis der Eigenschaft [D1] (also der Nachweis der Integrierbarkeit) mittels des Nachweises der Eigenschaften (A) und (B) erfolgt. Beispiel 8.2 Sei [a, b] (mit a, b ∈ IR und a < b) ein abgeschlossenes Intervall in IR. Die Funktion f : IR → IR sei gegeben durch ⎧ ⎪ f¨ ur t < a ⎪ ⎨ 0 f (t) :=
⎪ ⎪ ⎩
1 b−a
f¨ ur t ∈ [a, b] .
0
f¨ ur t > b
Behauptung: f ist eine Dichtefunktion. Begr¨ undung: Zu [D1]: f ist gem¨ aß Definition beschr¨ ankt und stetig bis auf die zwei Sprungstellen a und b. Zu [D2]: Man erkennt an der Definition, dass f (t) ≥ 0 f¨ ur alle t ∈ IR. Zu [D3]: Eine Rechnung zeigt
(
(
+∞
f (t)dt = −∞
(
a
b
0 dt + −∞
a
1 dt + b−a
(
+∞
0 dt = 1. b
8.1 Verteilungsfunktionen und Dichtefunktionen
297
Beispiel 8.3 Sei λ eine positive reelle Zahl. Die Funtion f : IR → IR sei wie folgt definiert 0 f¨ ur t < 0 f (t) := . −λ·t f¨ ur t ≥ 0 λ·e Die folgende Abbildung zeigt die Graphen der Funktion f f¨ ur λ = λ = 12 .
5 4
und f¨ ur
f (t) 5 4
1 1 2
−1
0
1
2
3
4
5
6
λ=
5 4
λ=
1 2
t
Behauptung: f ist eine Dichtefunktion. Begr¨ undung: Zu [D1]: f ist beschr¨ ankt (denn |f (t)| ≤ λ f¨ ur alle t ∈ IR) und stetig bis auf die Sprungstelle 0. Zu [D2]: Man erkennt, dass f (t) ≥ 0 f¨ ur alle t ∈ IR. Zu [D3]: Man rechnet ( +∞ ( +∞ ( x f (t)dt = λ · e−λt dt = lim λ · e−λt dt −∞
x→+∞
0
0
( x
( −λx −λt u = lim − (−λ)e dt = lim − e du x→+∞ x→∞ 0 0 ! " = lim − [eu ]−λx = lim (−[e−λx − e0 ]) = lim (1 − e−λx ) = 1. 0 x→∞
x→∞
x→∞
Beim vierten Gleichheitszeichen wurde die Substitution u := g(t) = −λt benutzt. Das letzte Gleichheitszeichen gilt, da lim e−λx =
x→+∞
lim
x→+∞
1 = 0. eλx
Beispiel 8.4 Seien μ, σ reelle Zahlen mit σ > 0. Die Funktion f : IR → IR sei gegeben durch f (t) :=
σ·
1 √
1
2π
· e− 2 (
t−μ 2 ) σ
.
Die folgende Abbildung zeigt den Graphen der Funktion f f¨ ur die Werte μ = 3 und σ = 2.
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
298
f (t) 0.2
−2
−1
0
1
2
3
4
5
6
7
8
t
Hinweise 1. 2.
Der Graph der Funktion f in diesem Beispiel 8.4 wird Gaußsche Glockenkurve genannt. F¨ ur die im Term der Funktion f auftretende Exponentialfunktion ex schreibt man auch exp(x). Dann stellt sich f dar als % & 1 ! t − μ "2 1 √ , · exp − · f (t) = 2 σ σ · 2π und man vermeidet dadurch beim zweiten Faktor der Funktion die etwas 1 t−μ 2 unhandliche Schreibweise e− 2 ( σ ) .
Behauptung: f ist eine Dichtefunktion. Begr¨ undung: Zu [D1]: f ist durch 0 nach unten beschr¨ ankt. f ist nach oben beschr¨ ankt, denn f nimmt ihr Maximum im Punkt (μ, σ·√1 2π ) an (diese Tatsache wird in Abschnitt 5 bewiesen werden – n¨ amlich bei der Auflistung der geometrischen Eigenschaften der Funktion f ). Da die Exponentialfunktion auf ganz IR stetig ist, ist auch die Funktion f auf ganz IR stetig. Zu [D2]: Da die Exponentialfunktion auf ganz IR positiv ist, ist auch f auf ganz IR positiv. Also gilt f (t) > 0 f¨ ur alle t ∈ IR. +∞ Zu [D3]: Zu zeigen ist −∞ f (t)dt = 1. Der Beweis wird in zwei Schritten gef¨ uhrt. (a) Wir betrachten zun¨ achst den Spezialfall, dass μ = 0 und σ = 1 ist. Das heißt: Wir betrachten die Funktion 1 2 1 ϕ(t) = √ · e− 2 t . 2π
Es gilt:
+∞ −∞
ϕ(t)dt =
+∞ −∞
1 2 √1 e− 2 t dt 2π
= 1.
Im Rahmen unserer Darstellung k¨ onnen wir diesen Sachverhalt nicht beweisen.
8.1 Verteilungsfunktionen und Dichtefunktionen
299
Man braucht die Theorie der Integralrechnung mehrerer Variabler; mittels dieses Kalk¨ uls ist ein sehr eleganter Beweis dieser Aussage m¨ oglich (man ben¨ otigt den Satz u uglich ¨ ber iterierte Integrale und die allgemeine Substitutionsregel). Bez¨ dieser Theorie sei der interessierte Leser etwa auf das Buch Analysis 3 von Forster [56] verwiesen. (b) Im allgemeinen Fall rechnet man folgendermaßen: ( +∞ ( +∞ 1 t−μ 2 1 √ exp[− ( f (t)dt = ) ]dt 2 σ σ · 2π −∞ −∞ ( +∞ 1 1 t−μ 2 1 √ ) ] · dt = exp[− ( 2 σ σ 2π −∞ ( +∞ (I) 1 1 √ · = exp[− u2 ]du 2 2π −∞ √ (II) 1 √ · 2π = 2π = 1. An der Stelle (I) wurde die Substitutionsregel benutzt – und zwar mit . u := g(t) = t−μ σ An der Stelle (II) wurde das Ergebnis aus Teil (a) benutzt. Damit ist der Beweis vollst¨ andig. Wir werden im folgenden Abschnitt 8.2 mittels vorgegebener Dichtefunktionen stetige Verteilungsfunktionen konstruieren. Die entscheidende Tatsache in Hinblick auf Verteilungsfunktionen wird im nachstehenden Satz angesprochen. Satz 8.1 (Fundamentalsatz zu Verteilungsfunktionen) Sei F : IR → IR eine Funktion, welche die drei nachfolgenden Eigenschaften besitzt: [V1] F ist monoton wachsend, [V2] F ist rechtsseitig stetig, [V3]
lim F (x) = 0 und
x→−∞
lim F (x) = 1.
x→+∞
Dann existiert ein Wahrscheinlichkeitsmaß P auf (IR, B(I)), so dass F die Verteilungsfunktion zu P ist.
Hinweise 1.
Dieser Satz kann hier nicht bewiesen werden. Es sei nur kurz die Beweisidee angegeben. F¨ ur Intervalle ]u, v] (u, v ∈ IR mit u < v) definiert man P (]u, v]) := F (v) − F (u).
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
300
2.
Innerhalb der Maßtheorie wird gezeigt, dass dann auf dem Messraum (IR, B(I)) ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P existiert, das f¨ ur Intervalle ]u, v] genau die vorgegebenen Werte F (v) − F (u) hat. Der interessierte Leser findet den Beweis etwa bei Bandelow ([6], Satz 15.3), oder bei Bauer ([13], Satz 29.1). Der angegebene Satz ist f¨ ur Anwendungen ¨ außerst n¨ utzlich: Sobald man eine Funtion F mit den Eigenschaften [V1], [V2], [V3] hat, hat man automatisch ein Wahrscheinlichkeitsmaß auf (IR, B(I)), so dass F die Verteilungsfunktion zu P ist.
8.2
Verteilungsfunktionen zu vorgegebenen Dichtefunktionen
8.2.1
Konstruktion einer stetigen Verteilungsfunktion zu einer Dichtefunktion
Wie wir gesehen haben (Bemerkung nach Definition 8.1), sind Verteilungsfunktionen zu diskreten Zufallsvariablen rechtsseitig stetig (Treppenfunktionen). Wir werden jetzt unter Benutzung des Fundamentalsatzes aus Abschnitt 1 zu vorgegebenen Dichtefunktionen stetige Verteilungsfunktionen erzeugen. Dieser Konstruktionsprozess verl¨ auft in drei Schritten: Schritt 1: Vorgabe einer Dichtefunktion f : IR → IR mit t → f (t). Schritt 2: Man definiert eine Funktion F : IR → IR durch ( x f (t)dt, F (x) := −∞
wobei f die Dichtefunktion aus Schritt 1 ist. Man pr¨ uft nach, dass diese Funktion F die im Fundamentalsatz (Satz 8.1) genannten drei Eigenschaften hat und damit eine Verteilungsfunktion ist. F¨ ur den Beweis benutzen wir Aussagen aus der Analysis u ¨ ber integrierbare Funktionen. Zu [V1]: Da f (t) ≥ 0 f¨ ur alle t ∈ IR, folgt F (x) ≥ 0 (vgl. etwa K¨ utting [100], x y Band 2, Satz 6.10). Ist nun x < y, so folgt −∞ f (t)dt < −∞ f (t)dt (vgl. etwa K¨ utting ([100], Band 2, Satz 6.17). Zu [V2]: Nach einem wesentlichen Satz der Analysis ist F (x) auf IR stetig, insbesondere also auch rechtsseitig stetig. (Zu dem benutzten Satz siehe etwa K¨ utting ([100], Band 2, Satz 6.22).) Zu [V3]: xn a) Sei (xn ) eine Folge mit (xn ) → −∞. Dann ist die durch yn := −∞ f (t)dt ur alle n ∈ IN. definierte Folge streng monoton fallend, weiter gilt yn ≥ 0 f¨ Also konvergiert (yn ); der Grenzwert ist Null.
8.2 Verteilungsfunktionen zu vorgegebenen Dichtefunktionen
301
b) Zum Nachweis von lim F (x) = 1 wird die Eigenschaft [D3] gebraucht: x→+∞ +∞ Es ist −∞ f (t)dt = 1. Das ist dasselbe wie
(
lim F (x) =
x→+∞
x
lim
x→+∞
f (t)dt = 1. −∞
Schritt 3: Nachdem wir in Schritt 2 gesehen haben, dass F die Eigenschaften [V1], [V2], [V3] erf¨ ullt, d¨ urfen wir nun den Fundamentalsatz anwenden: Es gibt also ein Wahrscheinlichkeitsmaß P auf (IR, B(I)), so dass die Funktion F die Verteilungsfunktion bez¨ uglich P ist. Wir halten das Resultat dieser drei Schritte fest.
Satz 8.2 x f (t)dt. Dann ist F Sei f : IR → IR eine Dichtefunktion und sei F (x) = −∞
eine stetige Verteilungsfunktion bez¨ uglich eines (wegen des Fundamentalsatzes existierenden) Wahrscheinlichkeitsmaßes P .
Hinweise 1. 2.
Um den Sachverhalt des Satzes auszudr¨ ucken, sagen wir kurz: Zu einer Dichtefunktion f gibt es immer eine stetige Verteilungsfunktion F . x Da F (x) = f (t)dt Verteilungsfunktion eines Wahrscheinlichkeitsmaßes −∞
P ist, gilt f¨ ur P
( P (] − ∞, x]) =
3.
x
f (t)dt. −∞
Wir werden im nachstehenden Teilabschnitt sehen, dass sich die Wahrscheinlichkeiten beliebiger Intervalle durch Integrale u ¨ ber die Dichtefunktion ermitteln lassen.
8.2.2
Die Berechnung von Wahrscheinlichkeiten durch Integrale u ¨ber eine Dichtefunktion
Im Folgenden wird gezeigt, wie man mittels einer Dichtefunktion konkrete Wahrscheinlichkeiten berechnen kann. Auch hier gehen wir schrittweise vor und behandeln in (a) die Wahrscheinlichkeit eines Intervalls ]u, v], in (b) Wahrscheinlichkeiten beliebiger Intervalle, in (c) schließlich Wahrscheinlichkeiten beliebiger Borelmengen. x Sei also f eine Dichtefunktion und F (x) = f (t)dt die zugeh¨ orige Vertei−∞
lungsfunktion.
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
302
a) Wahrscheinlichkeiten von nach links halboffenen Intervallen Nach Definition gilt: P (]u, v]) = F (v) − F (u) (siehe Hinweis 1 nach dem obigen Satz 1). Durch Benutzung der Definition von F hat man: ( v ( u ( v f (t)dt − f (t)dt = f (t)dt. P (]u, v]) = −∞
−∞
u
Die Wahrscheinlichkeit eines nach links halboffenen Intervalls ]u, v] wird v also durch das bestimmte Integral u f (t)dt errechnet. b) Wahrscheinlichkeiten beliebiger Intervalle Im Abschnitt 7.2.1 hatten wir gesehen, dass es f¨ ur ein Wahrscheinlichkeitsmaß P w¨ unschenswert ist, die Eigenschaft [N] zu haben, d. h. P ({x}) = 0 f¨ ur alle x ∈ IR. Wir zeigen jetzt, dass diese Aussage f¨ ur eine mittels einer Dichtefunktion konstruierte Verteilungsfunktion (die wegen Satz 8.2 stetig ist) zutrifft. Satz 8.3 Sei f : IR → IR eine Dichtefunktion, sei F die mittels f gebildete stex tige Verteilungsfunktion (also F (x) = f (t)dt), und sei P das wegen −∞
Satz 8.1 existierende Wahrscheinlichkeitsmaß auf (IR, B(I)). Dann gilt f¨ ur jedes x ∈ IR P ({x}) = 0. Beweis: Laut Definition gilt: P (]u, v]) = F (v) − F (u). Sei jetzt v := x und sei an := x − n1 f¨ ur n ∈ IN; d. h. (an ) ist eine Folge, die von links gegen x konvergiert. Dann hat man: P ({x}) ≤ P (]an , x]) = F (x) − F (an )
f¨ ur alle
n ∈ IN.
Da F stetig ist, gilt lim F (an ) = F (x). Das bedeutet: n→∞
lim (P (]an , x])) = lim (F (x) − F (an )) = 0.
n→∞
n→∞
Da nun einerseits P ({x}) ≤ lim P (]an , x]) = 0 ist und andererseits n→∞
P ({x}) ≥ 0 (denn P ist Wahrscheinlichkeitsmaß), folgt P ({x}) = 0. Wir beweisen als Folgerung eine f¨ ur praktische Berechnungen wichtige Aussage. Satz 8.4 F¨ ur a, b ∈ IR mit a < b gilt P (]a, b[) = P (]a, b]) = P ([a, b[) = P ([a, b]). Beweis: Man hat [a, b] = {a}∪]a, b[∪{b}, also P ([a, b]) = P ({a}∪]a, b[∪{b}). Damit folgt direkt die Behauptung.
8.3 Rechteckverteilung
303
Wir sind jetzt in der Lage, die Wahrscheinlichkeiten beliebiger Intervalle zu berechnen. Hier eine Liste: b (1) P (]a, b]) = F (b) − F (a) = f (t)dt. [Teil (a)] a
(2)
(3) (4)
Wegen Satz 8.4 gilt dann auch
( b f (t)dt. P (]a, b[) = P ([a, b[) = P ([a, b]) = F (b) − F (a) = b a f (t)dt. [Hinweis 2 nach Satz 8.2] P (] − ∞, b]) = F (b) = P ([a, ∞[) = 1 −
a
−∞
f (t)dt.
−∞
(c) Wahrscheinlichkeiten von beliebigen Borelmengen Sei eine beliebige Borelmenge B ∈ B(I) gegeben. Was ist P (B)? Die naheliegende Antwort lautet: ( P (B) = f (t)dt. B
Doch es taucht eine grunds¨ atzliche Schwierigkeit auf: Ein solches Integral k¨ onnen wir mit dem vertrauten Riemannschen Integralbegriff nicht berechnen! Mit dem Riemann-Integral lassen sich nicht Integrale u ¨ ber im Allgemeinen sehr komplizierte Borelmengen berechnen. Aus diesem Grund wird in der mathematischen Wahrscheinlichkeitstheorie der Begriff des LebesgueIntegrals gebildet; mittels des Lebesgue-Integrals lassen sich dann die Wahrscheinlichkeiten beliebiger Borelmengen berechnen. Im vorliegenden Text werden wir auf diesen neuen Integralbegriff nicht eingehen. F¨ ur alle praktischen Fragestellungen reicht das Riemann-Integral aus. In den folgenden Abschnitten 8.3, 8.4 und 8.5 werden drei f¨ ur die Praxis außerst bedeutsame Verteilungsfunktionen behandelt. Dabei geben wir jeweils ¨ eine Funktion f vor, von der wir in Abschnitt 8.1 nachgewiesen haben, dass sie eine Dichtefunktion ist.
8.3
Rechteckverteilung
Definition 8.3 (Rechteckverteilung) Sei [a, b] (mit a, b ∈ IR und a < b) ein abgeschlossenes Intervall in IR. Sei f : IR → IR die wie folgt gegebene Dichtefunktion ⎧ ⎪ f¨ ur t < a ⎪ ⎨ 0 1 f (t) = f¨ ur t ∈ [a, b] . b−a ⎪ ⎪ ⎩ 0 f¨ ur t > b
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
304
Die wegen Satz 2 zu f existierende Verteilungsfunktion F mit ( x F (x) = f (t)dt, x ∈ IR, −∞
heißt Rechteckverteilung.
Bemerkungen 1.
F¨ ur die Rechteckverteilung gilt ⎧ ⎪ ⎪ ⎨ F (x) =
2.
3.
⎪ ⎪ ⎩
1 b−a
0 · (x − a) 1
f¨ ur x < a f¨ ur x ∈ [a, b] . f¨ ur x > b
Die zugeh¨ orige Rechnung ist in Aufgabe 2 zu erbringen. Im Beispiel 8.1 ( S-Bahn“) zu Beginn dieses Kapitels findet sich sowohl der ” Graph einer solchen Dichtefunktion als auch der Graph der zugeh¨ origen Verteilungsfunktion (dort ist a = 0 und b = 15). Wenn eine Funktion F eine Rechteckverteilung ist, sagen wir kurz: F ist R[a, b]-verteilt.
Konkrete Wahrscheinlichkeitsberechnungen: In unserem Beispiel 8.1 zu Beginn dieses Kapitels haben wir solche Berechnungen schon durchgef¨ uhrt. Was dort anschaulich auf der Hand lag – dass n¨ amlich eine Wartezeit von beispielsweise weniger als drei Minuten eine Wahrscheinlich3 besitzt –, ist nun auch theoretisch abgesichert – eben durch die keit von 15 Existenz eines Wahrscheinlichkeitsmaßes auf (IR, B(I)), mittels dessen solche Wahrscheinlichkeiten immer berechnet werden k¨ onnen. Etwa: % &3 ( 3 ( 0 ( 3 3 1 1 f (t)dt = 0 dt + P (] − ∞, 3]) = dt = 0 + t = . 15 15 15 −∞ −∞ 0 0
8.4
Exponentialverteilung
Definition 8.4 (Exponentialverteilung) Sei λ eine positive reelle Zahl. Sei f die wie folgt gegebene Dichtefunktion 0 f¨ ur t < 0 . f (t) = −λt λ·e f¨ ur t ≥ 0 Die wegen Satz 2 zu f existierende Verteilungsfunktion F mit ( x f (t)dt, x ∈ IR, F (x) = −∞
heißt Exponentialverteilung mit dem Parameter λ.
8.4 Exponentialverteilung
305
Bemerkungen 1.
F¨ ur die Exponentialverteilung gilt F (x) =
2.
0
1−e
f¨ ur x < 0 −λx
f¨ ur x ≥ 0
.
Die zugeh¨ orige Rechnung ist in Aufgabe 2 zu erbringen. In Beispiel 8.3 haben wir die Graphen zweier solcher Dichtefunktionen vorgestellt (f¨ ur λ = 54 und λ = 12 ). Im folgenden Bild sind die Graphen der zugeh¨ origen Verteilungsfunktionen dargestellt.
F (x)
λ=
5 4
λ=
1 2
1
−1 3.
0
1
2
3
4
5
6
7
8
9
x
Wenn eine Funktion F eine Exponentialverteilung mit Parameter λ ist, sagen wir kurz: F ist EXP(λ)-verteilt.
Die Exponentialverteilung wird immer dann herangezogen, wenn es um Lebensdauer-Ph¨ anomene geht: Das kann die Lebensdauer von elektronischen Bauteilen, die Lebensdauer von Individuen einer bestimmten Population (Biologie), die Lebensdauer von Atomkernen eines radioaktiven Elements (Physik) oder auch die Lebensdauer von versicherten Personen (Lebensversicherung) sein. Bei all diesen Ph¨ anomenen gibt es eine Sterberate“, die den Prozent” satz der Bauteile/Individuen/Atomkerne angibt, welche pro Zeiteinheit defekt werden/sterben/zerfallen. Die Sterberate wird auch als Zerfallskonstante bezeichnet. Diese Zerfallskonstante wird im Allgemeinen mit λ bezeichnet. Mit der Zerfallskonstanten λ ist in der Physik direkt das radioaktive Zerfallsgesetz verbunden. Wir verweisen auf Teilabschnitt 2.6.4, wo das radioaktive Zerfallsgesetz hergeleitet wird. Sei zu Beginn einer Beobachtung (also zum Zeitpunkt 0) eine Menge von N0 Objekten vorhanden und sei zum Zeitpunkt t noch eine Menge von N (t) Objekten vorhanden. Dann gilt: N (t) = N0 · e−λt . Dieses Zerfallsgesetz ist aber nicht nur f¨ ur physikalische Vorg¨ ange (insbesondere Zerfall von Atomkernen eines radioaktiven Elements) gegeben, sondern generell f¨ ur Vorg¨ ange, bei denen eine Menge von Objekten mit einer konstanten Sterberate (Zerfallskonstante) abstirbt.
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
306
Oft wird bei Lebensdauer-Ph¨ anomenen auch die Lebensdauer angegeben: Sie ¨ stellt die durchschnittliche Uberlebenszeit eines Objekts einer Menge gleichartiger Objekte dar. Die Lebensdauer wird im Allgemeinen mit μ bezeichnet (in der Physik oft auch mit τ ). Es gilt die Beziehung: μ = λ1 . In Abschnitt 8.6 dieses Kapitels u ¨ ber Erwartungswerte und Varianzen bei Verteilungsfunktionen zu Dichten wird dieser Zusammenhang bewiesen. Beispiel 8.5 (Lebenserwartung einer Gl¨ uhbirne) Die Gl¨ uhbirnen einer bestimmen Sorte haben eine Lebenserwartung von 2000 Stunden. Wie groß ist dann die Wahrscheinlichkeit, dass eine gekaufte Gl¨ uhbirne a) eine Brenndauer von h¨ ochstens 3000 Stunden hat, b) eine Brenndauer von mehr als 5000 Stunden hat, c) eine Brenndauer zwischen 1800 Stunden und 2800 Stunden hat? 1 L¨ osung: Wir haben μ = 2000, also λ = 2000 . Zu a): 1
3
P (] − ∞, 3000]) = F (3000) = 1 − e− 2000 ·3000 = 1 − e− 2 ≈ 0, 7769. Zu b):
( P ([5000, +∞))
+∞
= 5000
=
( f (t)dt = 1 −
5000
f (t)dt −∞ 1
5
1 − F (5000) = 1 − (1 − e− 2000 ·5000 ) = e− 2 ≈ 0, 0821.
Zu c):
(
2800
f (t)dt
P ([1800, 2800]) =
(
2800
= −∞
( f (t)dt −
1800 1800
−∞
1
f (t)dt = F (2800) − F (1800) 1
=
(1 − e− 2000 ·2800 ) − (1 − e− 2000 ·1800 )
=
e− 20 − e− 20 ≈ 0, 16.
18
28
In Analogie zur Physik ist die Frage nach der Halbwertszeit dieser Gl¨ uhbirnensorte interessant: Nach welchem Zeitraum ist von einer Gl¨ uhbirnen-Menge dieser Sorte noch die H¨ alfte intakt – unter der Voraussetzung, dass alle diese Birnen gleich beansprucht werden? Die Antwort erfolgt mittels des oben angef¨ uhrten Zerfallsgesetzes. Gesucht ist ein Zeitpunkt t, so dass zu diesem Zeitpunkt noch die H¨ alfte der Gl¨ uhbirnenzahl uhbirnen zu Beginn, so ist t gesucht, vorhanden ist. Ist also N0 die Zahl der Gl¨
8.4 Exponentialverteilung
307
so dass f¨ ur die Anzahl N (t) der Gl¨ uhbirnen zum Zeitpunkt t gilt: N (t) = 12 · N0 . Wegen des Zerfallsgesetzes hat man N (t) = N0 · e−λt . Eine Rechnung zeigt: N (t) =
1 N0 2
⇔
N0 · e−λt =
⇔
e−λt =
⇔
−λt = ln
⇔ ⇔ Da in unserem Fall λ =
1 2000
1 N0 2
1 2
1 2 −λt = − ln 2 1 t = ln 2. λ
ist, ergibt sich t = 2000 · ln 2 ≈ 1386.
Die Halbwertszeit betr¨ agt also ungef¨ ahr 1386 Stunden. Bemerkung Die Exponentialverteilung ist ged¨ achtnislos. Das bedeutet: Sei ein beliebiges Objekt bzw. Individuum einer Grundmenge gegeben. Dann ist die bedingte Wahrscheinlichkeit, dass es den Zeitpunkt x + u u ¨ berlebt, falls es den Zeitpunkt x schon u ¨ berlebt hat, genau so groß wie die Wahrscheinlichkeit, dass es den Zeitpunkt u u ¨ berlebt. Mathematisch bedeutet diese Aussage: P (]x + u, ∞[ | ]x, ∞[) = P (]u, ∞[). Beweis der Aussage Mit der Definition der bedingten Wahrscheinlichkeit erh¨ alt man: P (]x + u, ∞[ ∩ ]x, ∞[) P (]x, ∞[) P (]x + u, ∞[) 1 − P (] − ∞, x + u]) 1 − F (x + u) = = P (]x, ∞[) 1 − P (] − ∞, x]) 1 − F (x)
P (]x + u, ∞[ | ]x, ∞[) = = = =
e−λ(x+u) = e−λx−λu+λx = e−λu = 1 − F (u) e−λx 1 − P (] − ∞, u]) = P (]u, ∞[).
Anmerkungen 1.
Zur Verdeutlichung der Ged¨ achtnislosigkeit betrachten wir ein konkretes Beispiel: Die bedingte Wahrscheinlichkeit, dass ein bestimmtes CaesiumAtom erst nach einem Zeitraum von 35 Jahren zerf¨ allt, falls es schon einen Zeitraum von 30 Jahren u ¨berlebt hat, ist gleich der Wahrscheinlichkeit, dass es nach einem Zeitraum von 5 Jahren zerf¨ allt (x = 30, u = 5). Anders formuliert: Das Alter des Caesium-Atoms hat keinen Einfluss auf die ¨ Wahrscheinlichkeit des Uberlebens von weiteren 5 Jahren. Das CaesiumAtom hat kein Ged¨ achtnis!
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
308 2.
Ein Gegenbeispiel mahnt zur Vorsicht bei der Benutzung der Exponentialverteilung. Die bedingte Wahrscheinlichkeit, dass ein Mensch ¨ alter als 85 Jahre wird, falls er schon 80 Jahre alt geworden ist, ist sicherlich ungleich der Wahrscheinlichkeit, dass er ¨ alter als 5 Jahre alt wird. Hieran erkennt man, dass f¨ ur Lebensdauer-Ph¨ anomene bei menschlichen Individuen die Benutzung der Exponentialverteilung wenig realistisch ist. Im Versicherungswesen, d. h. bei der Gestaltung von Lebensversicherungs-Tarifen, ist es deshalb u at ad¨ aquater wiedergebende Verteilung zu ¨ blich, eine die Realit¨ benutzen – n¨ amlich die Weibull-Verteilung. Hierauf kann im Rahmen dieses Buches nicht weiter eingegangen werden.
8.5
Normalverteilung (Gauß-Verteilung)
Definition 8.5 (Normalverteilung) Seien μ, σ reelle Zahlen mit σ > 0. Sei f die wie folgt gegebene Dichtefunktion f (t) =
σ·
1 √
1
2π
e− 2 (
t−μ 2 ) σ
.
Die wegen Satz 8.2 zu f existierende Verteilungsfunktion F mit ( x F (x) = f (t)dt, x ∈ IR, −∞
heißt Normalverteilung mit den Parametern μ und σ 2 .
Hinweise 1.
In Beispiel 8.4 des Abschnitts 8.1 haben wir den Graphen einer solchen Dichtefunktion vorgestellt (f¨ ur μ = 3 und σ 2 = 4). Die folgende Abbildung zeigt den Graphen der zugeh¨ origen Verteilungsfunktion.
F (x) 1.0 0.8 0.6 0.4 0.2 −2
−1
0
1
2
3
4
5
6
7
x
8.5 Normalverteilung (Gauß-Verteilung) 2.
3. 4.
5.
6.
309
Im Gegensatz zur Rechteckverteilung und zur Exponentialverteilung l¨ asst sich die Normalverteilung F (x) nicht in geschlossener Form angeben, sondern nur als Integralfunktion. Wenn eine Funktion F eine Normalverteilung mit den Parametern μ und σ 2 ist, sagen wir kurz: F ist N (μ, σ 2 )-verteilt. Man nennt die Verteilungsfunktion F in Definition 8.5 auch Normalverteilung (Gauß-Verteilung) mit dem Erwartungswert μ und der Varianz σ2 . Es sei deutlich gesagt, dass an dieser Stelle Erwartungswert und Varianz zun¨ achst nur Bezeichnungen f¨ ur die Parameter μ und σ 2 sind. Dass μ tats¨ achlich ein Erwartungswert ist und σ 2 tats¨ achlich eine Varianz ist, m¨ ussen wir noch zeigen, wenn diese Begriffe mathematisch definiert worden sind (siehe Abschnitt 8.6). Die Normalverteilung dient oft zur mathematischen Beschreibung der Verteilung zuf¨ alliger Gr¨ oßen. Ihre praktische Bedeutung ergibt sich daraus, dass Zufallsgr¨ oßen in der Natur h¨ aufig n¨ aherungsweise als normalverteilt angesehen werden k¨ onnen, z. B. K¨ orpergr¨ oße, Schuhgr¨ oße, Brustumfang, lange Bernoulliketten. Auf dem in Deutschland bis Ende des Jahres 2001 g¨ ultigen 10-DM-Schein war neben dem Portrait von Carl Friedrich Gauß (1777 – 1855) die Dichtefunktion der Normalverteilung abgebildet.
8.5.1
Eigenschaften der Dichtefunktion
Wie schon bei Beispiel 8.4 des Abschnitts 8.1 erw¨ ahnt, heißt die Dichtefunktion einer Normalverteilung Gaußsche Glockenkurve. Die Gaußsche Glockenkurve f 1) ist symmetrisch zu der Achse t = μ; 2) nimmt an der Stelle t = μ ihr Maximum an, dort gilt f (μ) = σ·√1 2π ; 3) hat in t1 = μ − σ und t2 = μ + σ Wendestellen.
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
310
f (t) σ
√1 2π
W
W
μ−σ
μ
μ+σ
t
Beweis: Zu 1): Zu zeigen ist f (μ − t) = f (μ + t) f¨ ur t ∈ IR≥0 . Es gilt: % & % & 1 1 ! −t "2 1 1 ! t "2 √ · exp − √ f (μ − t) = = = f (μ + t). · exp − 2 σ 2 σ σ · 2π σ · 2π Zu 2) und 3): Wir berechnen zun¨ achst die Ableitungen von f . Dazu schreiben )2 . Dann wir abk¨ urzend f (t) = c · exp[g(t)] mit c = σ·√1 2π und g(t) = − 12 · ( t−μ σ ergibt sich (Kettenregel und Produktregel benutzen!): f (t)
= = =
f (t)
=
= f (t)
=
=
c · exp[g(t)] · g (t) 1 1 c · exp[g(t)] · [(− ) · 2 · 2 · (t − μ)] 2 σ 1 c · exp[g(t)] · [− 2 (t − μ)] σ 1 1 c · exp[g(t)] · [− 2 (t − μ)] · [− 2 (t − μ)] σ σ 1 +c · exp[g(t)] · (− 2 ) σ 1 1 c · exp[g(t)] · [ 4 (t − μ)2 − 2 ] σ σ 1 1 1 c · exp[g(t)] · [− 2 (t − μ)] · [ 4 (t − μ)2 − 2 ] σ σ σ 1 +c · exp[g(t)] · ( 4 · 2 · (t − μ)) σ 1 1 c · exp[g(t)] · 4 · [− 2 (t − μ)3 + 3(t − μ)]. σ σ
Es gilt: f (t) = 0 ⇔ − σ12 (t − μ) = 0 ⇔ t = μ. Da außerdem f (μ) = c · exp(g(μ)) · [− σ12 ] = c · [− σ12 ] < 0, folgt, dass f an der Stelle t = μ ihr Maximum annimmt. Eine weitere Rechnung ergibt f (μ) = σ·√1 2π . Also hat f ihr Maximum im Punkt M = (μ, σ√12π ). Damit ist Eigenschaft 2) gezeigt. Zur Berechnung der Wendestellen sind die zweite und dritte Ableitung von f zu betrachten. Es gilt: f (t) = 0
⇔ ⇔
2 1 (t − μ)2 − 2 = 0 ⇔ (t − μ)2 = σ 2 σ4 σ t1 = μ − σ und t2 = μ + σ.
8.5 Normalverteilung (Gauß-Verteilung)
311
Da außerdem f (ti ) = 0 f¨ ur i = 1, 2, folgt, dass f an den Stellen t1 und t2 Wendestellen hat. Eine Rechnung zeigt weiter, dass f (ti ) = f (μ ± σ) =
σ·
1 √
1 · exp(− ). 2 2π
Also hat f die Wendepunkte Wi = (μ ± σ,
σ·
1 1 √ · exp(− )) 2 2π
f¨ ur
i = 1, 2.
Damit ist Eigenschaft 3) gezeigt. Folgerungen 1. 2.
Je gr¨ oßer μ ist, um so mehr ist die Glockenkurve nach rechts verschoben. Je gr¨ oßer σ ist, um so kleiner ist das Maximum der Glockenkurve und um so schw¨ acher f¨ allt die Kurve nach beiden Seiten ab.
8.5.2
Die Standard-Normalverteilung
Das Ziel dieses Abschnitts ist es, mittels einer N (μ, σ 2 )-verteilten Funktion Wahrscheinlichkeiten zu berechnen. Die Frage ist: Wie berechnet sich etwa P (] − ∞, x])? Vorl¨ aufige Antwort: % & ( x 1 ! t − μ "2 1 √ · exp − dt, P (] − ∞, x]) = F (x) = 2 σ −∞ σ 2π das heißt, zur Bestimmung von P (] − ∞, x]) muss ein a ¨ußerst kompliziertes Integral berechnet werden. Es soll in diesem Teilabschnitt gezeigt werden, dass man diese Arbeit ganz vermeiden kann. Dazu sei zun¨ achst eine sinnvolle Schreibweise eingef¨ uhrt: Um anzudeuten, 2 dass die N (μ, σ )-verteilte Funktion F und die mit ihr zu berechnenden Wahrscheinlichkeiten sich auf die Parameter μ und σ 2 beziehen, schreiben wir Pμ,σ2 (] − ∞, x]) = Fμ,σ2 (x). Die N (0, 1)-verteilte Funktion F0,1 bekommt einen eigenen Namen. Definition 8.6 (Standard-Normalverteilung) Die N (0, 1)-verteilte Funktion F0,1 wird Standard-Normalverteilung genannt und mit Φ bezeichnet. Mittels einer konkreten Aufgabenstellung soll nachstehend die N¨ utzlichkeit der Standard-Normalverteilung verdeutlicht werden.
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
312
Beispiel 8.6 (Mehlabf¨ ullung) Ein großer Mehlproduzent hat in seiner Produktpalette 25kg-S¨ acke f¨ ur B¨ ackereien. Die S¨ acke werden maschinell abgef¨ ullt. Die Gesch¨ aftsleitung stellt sich die Frage, wie groß die Wahrscheinlichkeit ist, dass ein aus der Tagesproduktion zuf¨ allig herausgegriffener Mehlsack ein Gewicht (a) von weniger als 25100 Gramm hat, (b) zwischen 24840 und 25200 Gramm hat, (c) von weniger als 24940 Gramm hat. Zur Beantwortung dieser Frage geht die Gesch¨ aftsleitung von drei Annahmen aus: Zur mathematischen Modellierung der Aufgabenstellung wird eine N (μ, σ 2 )verteilte Funktion herangezogen. Die erwartete Nennf¨ ullmenge liegt bei 25000 Gramm; das bedeutet f¨ ur das mathematische Modell μ = 25000. Aufgrund von Stichproben ist bekannt, dass die empirische Standardabweichung bei den F¨ ullmengen 80 Gramm betr¨ agt; f¨ ur das mathematische Modell gilt also σ = 80, d. h. σ 2 = 6400. So hat man folgenden L¨ osungsansatz: - bei (a): Pμ,σ2 (] − ∞, 25100]) = Fμ,σ2 (25100), - bei (b): Pμ,σ2 ([24840, 25200]) = Fμ,σ2 (25200) − Fμ,σ2 (24840) - bei (c): Pμ,σ2 (] − ∞, 24940]) = Fμ,σ2 (24940) Zur Berechnung dieser Wahrscheinlichkeiten m¨ ussen wir die zugeh¨ origen Integrale berechnen. 25100 f25000,6400 (t)dt, Bei (a): −∞
bei (b):
25200 24840
bei (c):
24940 −∞
f25000,6400 (t)dt,
f25000,6400 (t)dt,
wobei f25000,6400 die Dichtefunktion mit den Parametern μ = 25000 und σ 2 = 6400 ist. Um die hier (und bei anderen Beispielen) auftauchenden komplizierten Integrale zu berechnen, nutzt man zwei Fakten aus: Eine beliebige N (μ, σ 2 )-verteilte Funktion l¨ asst sich zu einer N (0, 1)verteilten Funktion transformieren. Zur Berechnung von Wahrscheinlichkeiten bei einer N (0, 1)-verteilten Funktion gibt es Tabellen. Eine solche befindet sich am Ende des Kapitels 8. Die Transformation einer N (μ, σ 2 )-verteilten Funktion zu einer N (0, 1)verteilten Funktion wird im folgenden Satz begr¨ undet.
8.5 Normalverteilung (Gauß-Verteilung)
313
Satz 8.5 (Transformation zur Standardnormalverteilung) Ist Fμ,σ2 eine N (μ, σ 2 )-verteilte Funktion, so gilt !x − μ" !x − μ" =Φ . Fμ,σ2 (x) = F0,1 σ σ Bemerkung Wir geben f¨ ur die Aussage dieses Satzes drei gleichbedeutende Formulierungen: (a) Pμ,σ2 (] − ∞, x]) = P0,1 (] − ∞, z]) mit z := x−μ σ . x ) 1 t−μ 2 * z 1 ) * 1 √ √ (b) · exp − 2 ( σ ) dt = · exp − 12 u2 du mit z := x−μ . σ σ 2π 2π −∞
−∞
(c) In Worten: Die Wahrscheinlichkeit f¨ ur das Intervall ] − ∞, x] bei einer N (μ, σ 2 )-verteilten Funktion ist gleich der Wahrscheinlichkeit f¨ ur das Intervall ] bei einer N (0, 1)-verteilten Funktion. ] − ∞, x−μ σ Beweis des Satzes: Betrachtet man die Version (b) des obigen Satzes, sieht man schon, wie der Beweis verl¨ auft: Man muss die Substitutionsregel f¨ ur die Funktion u := g(t) = t−μ anwenden σ % & ( x 1 ! t − μ "2 1 √ exp − dt 2 σ −∞ σ 2π % & ( x 1 1 √ · g (t) · exp − (g(t))2 dt = 2 2π −∞ % & ( z 1 1 √ exp − u2 du. = 2 2π −∞
Die Wichtigkeit der N (0, 1)-verteilten Funktion F0,1 ergibt sich daraus, dass die Wahrscheinlichkeit f¨ ur das Intervall ] − ∞, z] bei einer N (0, 1)-verteilten ahnten Funktion, also die Wahrscheinlichkeit P0,1 (] − ∞, z]), sich in der erw¨ Tabelle ablesen l¨ asst. Aus historischen Gr¨ unden wird die Funktion F0,1 mit Φ bezeichnet. Man hat also f¨ ur z ∈ IR: % & ( z 1 1 √ · exp − u2 du. Φ(z) := F0,1 (z) = P0,1 (] − ∞, z]) = 2 2π −∞
f (u)
Φ(z)
0
z
u
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
314
Anhand des Beispiels 8.6 (Mehlabf¨ ullung) f¨ uhren wir die Transformation zur Standard-Normalverteilung explizit durch. L¨ osung der im Beispiel 8.6 gestellten Aufgaben. Zu (a): Es ergibt sich
& & 25100 − 25000 Pμ,σ2 (] − ∞, 25100]) = P0,1 −∞, 80
& & 5 = P0,1 −∞, 4 = Φ(1, 25) ≈ Zu (b): Es ergibt sich Pμ,σ2 ([24840, 25200])
%
≈
24840 − 25000 25200 − 25000 , 80 80
% & 5 P0,1 −2, 2
& & 5 P0,1 −∞, − P0,1 (]−∞, −2]) 2
5 − Φ(−2) Φ 2
5 Φ − [1 − Φ(2)] 2 0, 9938 − [1 − 0, 9772]
=
0, 971.
= = = =
(∗)
0, 8944.
=
Zu (c): Es ergibt sich
&
Pμ,σ2 (] − ∞, 24940])
≈
24940 − 25000 P0,1 −∞, 80
& & 3 P0,1 −∞, − 4
3 Φ − 4
3 1−Φ 4 1 − 0, 7734
=
0, 2266.
= = =
(∗)
&
P0,1
=
&
An der Stelle (∗) in den obigen Rechnungen wurde benutzt, dass Φ(−z) = 1 − Φ(z)
f¨ ur
z ∈ IR+ .
Der Beweis dieser Aussage wird aus Aufgabe gestellt (siehe Abschnitt 8.8).
8.5 Normalverteilung (Gauß-Verteilung)
315
1 − Φ(z)
Φ(−z)
−z
0
z
Wegen der großen Bedeutung der Standardnormalverteilung soll nun ein weiteres Beispiel behandelt werden.
Beispiel 8.7 (Automobilproduktion) Ein namhafter Automobilhersteller verwendet f¨ ur den Motor des Fahrzeugtyps XYZ einen bestimmten Zahnriemen. Aufgrund von Stichproben weiß der Hersteller, dass dieses Verschleißteil eine durchschnittliche Laufleistung von 100 000 Kilometern hat und dass die empirische Standardabweichung bei 5000 Kilometern liegt. Der Hersteller setzt f¨ ur die Laufleistung eine untere Toleranzgrenze von 90 000 Kilometern an, d. h. er weist seine Vertragswerkst¨ atten an, diesen Zahnriemen aus Kulanzgr¨ unden kostenfrei auszutauschen, falls er schon bei einer Laufleistung von weniger als 90 000 Kilometern defekt ist. Unter Zugrundelegung der Normalverteilung als mathematisches Modell f¨ ur die Laufleistung dieser Zahnriemen (im Fahrzeugtyp XYZ) sollen die folgenden Fragen beantwortet werden: Wie viel Prozent der in dem Fahrzeugtyp XYZ eingebauten Zahnriemen haben eine Laufleistung unterhalb der Toleranzgrenze? b) Wie m¨ usste die untere Toleranzgrenze c gew¨ ahlt werden, damit h¨ ochstens 0,3 % der in den Fahrzeugtyp XYZ eingebauten Zahnriemen eine Laufleistung unter dieser Grenze c haben? a)
Es sei im Modell also angenommen, dass eine Normalverteilung mit den Parametern μ = 100 000 und σ 2 = (5000)2 vorliegt. Zu a): Unter Benutzung des Transformationssatzes hat man
& & 90000 − 100000 Pμ,σ2 (] − ∞, 90000]) = P0,1 −∞, 5000 = P0,1 (] − ∞, −2]) = Φ(−2) = 1 − Φ(2) = 1 − 0, 9772 = 0, 0228. Das bedeutet: Ungef¨ ahr 2,3 % der in den Fahrzeugtyp XYZ eingebauten Zahnriemen haben eine unterhalb der Toleranzgrenze liegende Laufleistung. Zu b): Gem¨ aß Aufgabenstellung soll gelten
& & c − 100000 Pμ,σ2 (] − ∞, c]) ≤ 0, 003 ⇔ P0,1 −∞, ≤ 0, 003 5000
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
316
⇔
Φ
c − 100000 5000
≤ 0, 003.
In der Tabelle zur Standard-Normalverteilung (Seite 330) finden sich f¨ ur Φ nur Funktionswerte, die gr¨ oßer/gleich 0,5 sind. Wie geht man vor? negativ. Also ist Da die Toleranzgrenze c kleiner als 100000 ist, ist c−100000 5000 a := 100000−c positiv; deshalb gilt: Φ(−a) = 1 − Φ(a). 5000
c − 100000 Φ ≤ 0, 003 5000 ⇔ Φ(−a) ≤ 0, 003 ⇔
1 − Φ(a) ≤ 0, 003
⇔
Φ(a) ≥ 0, 997
100000 − c ≥ 0, 997 Φ 5000 100000 − c ≥ 2, 75 5000 c ≤ 100000 − 2, 75 · 5000 = 86250.
⇔ ⇔ ⇔
Das bedeutet: Setzt der Hersteller die Toleranzgrenze auf 86250 km, haben weniger als 0,3 % der in den Fahrzeugtyp XYZ eingebauten Zahnriemen eine Laufleistung unterhalb dieses Wertes.
8.5.3
Approximation der Binomialverteilung mittels der Normalverteilung
Beispiel 8.8 (W¨ urfelwurf ) Ein idealer W¨ urfel wird 1200 Mal geworfen. Sei X die Anzahl der W¨ urfe, bei denen die 1 f¨ allt. Dann ist X binomialverteilt mit n = 1200 und p = 16 , also kurz X ∼ B(1200, 16 ). Wir fragen nach der Wahrscheinlichkeit, dass die Anzahl der W¨ urfe Werte zwischen 180 und 220 annimmt. Gesucht ist also P (180 ≤ X ≤ 220). Als Antwort ergibt sich mittels der Binomialverteilung 220 k 1200−k 1200 1 5 P (180 ≤ X ≤ 220) = · · . 6 6 k k=180
Die praktische Berechnung macht Probleme: F¨ ur k = 180 etwa ist 1200 180 1020 eine extrem große Zahl und ( 16 )180 · ( 56 )1020 = 561200 eine extrem kleine Zahl. Taschenrechner k¨ onnen diese Rechnungen normalerweise nicht bew¨ altigen. Nun 1 k 5 1200−k · ( ) · ( ) aber mit den Programmen kann man die Zahlen ak := 1200 6 6 k Maple oder Mathematica zwar berechnen und dann auch 220 k=180 ak , aber es gibt einen einfacheren Weg: Man kann die gesuchte Wahrscheinlichkeit mittels
8.5 Normalverteilung (Gauß-Verteilung)
317
der Normalverteilung approximativ ermitteln. Die M¨ oglichkeit dazu er¨ offnet der folgende Satz.
Satz 8.6 (Approximationssatz von de Moivre/Laplace) Sei 0 < p < 1 und sei X eine B(n, p)-verteilte Zufallsvariable. Sei μ der Erwartungswert von X und σ die Standardabweichung von X. Dann gelten die folgenden Aussagen: Sei k ∈ {0, 1, . . . , n}. Dann gilt:
1.
P (X ≤ k) ≈ φ
k−μ σ
.
F¨ ur großes n kann also die Wahrscheinlichkeit, dass die B(n, p)-verteilte Zufallsvariable X h¨ ochstens den Wert k annimmt, durch den Wert φ( k−μ σ ) der Standard-Normalverteilung φ angen¨ ahert werden. Seien r, s ∈ IN mit 1 ≤ r < s. Dann gilt !s − μ" !r − μ" −φ . P (r ≤ X ≤ s) ≈ φ σ σ
2.
F¨ ur großes n kann also die Wahrscheinlichkeit, dass die B(n, p)-verteilte Zufallsvariable X Werte zwischen r und s annimmt, durch die Differenz ) − φ( r−μ ) angen¨ ahert werden. φ( s−μ σ σ Hinweise: a)
Den Aussagen 1. und 2. des Approximationssatzes liegt die folgende exakte Grenzwertaussage zugrunde: Sei 0 < p < 1 und sei X eine B(n, p)-verteilte Zufallsvariable. Sei μ der Erwartungswert von X und sei σ die Standardabweichung von X. Dann gilt f¨ ur x ∈ IR X −n·p lim P (8.3) ≤ x = φ(x). n→∞ n · p · (1 − p)
Aus dieser Aussage (8.3) leiten sich die beiden Aussagen 1. und 2. her. b) Bei den praktischen Anwendungen werden wir nicht mit der exakten Aussage (8.3) arbeiten. Stattdessen werden wir sowohl die Aussage 1. als auch die Aussage 2. des Approximationssatzes oft benutzen: Beim nachfolgenden Beispiel und bei den Aufgaben des Abschnitts 8.8 wird die Aussage 2. gebraucht. Bei Fragestellungen der Testtheorie (Kapitel 10) werden wir beide Aussagen konstruktiv nutzen. c) Auf einen Beweis des Approximationssatzes wird an dieser Stelle verzichtet. Wir verweisen diesbez¨ uglich auf weiterf¨ uhrende Literatur (etwa Krengel [86], §5, Satz 5.4).
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
318
Wir wenden diesen Satz bei unserem Beispiel 8.8 (W¨ urfelwurf) an. Die Zu1 fallsvariable X ist B(1200, 6 )-verteilt, also bestimmt man mit den aus Abschnitt 5.1 bekannten Formeln den Erwartungswert μ = E(X) und die Varianz σ 2 = V ar(X): 1200 1√ 1 5 μ = E(X) = = 200 und σ = V ar(X) = 1200 · · = 6000. 6 6 6 6 Durch Anwendung dieses Satzes ergibt sich
220 − μ 180 − μ −Φ . P (180 ≤ X ≤ 220) ≈ Φ σ σ Mittels der Tabelle der Standard-Normalverteilung erh¨ alt man
220 − μ ∼ Φ = Φ(0, 26) ∼ = 0, 6026, σ
180 − μ ∼ Φ = Φ(−0, 26) ∼ = 1 − Φ(0.26) = 0, 3974. σ Also gilt: P (180 ≤ X ≤ 220) ≈ 0, 6026 − 0, 3974 = 0, 2052. Anmerkung Woher weiß man bei Aufgaben, ob das n groß genug ist, um eine gute N¨ aherungsl¨ osung mittels der Standard-Normalverteilung zu erhalten? Als Faustregel“ f¨ ur die Anwendung des Approximationssatzes kann folgende ” Bedingung dienen: F¨ ur die Varianz der Binomialverteilung sollte gelten: σ ≥ 3,
d. h.
n · p · (1 − p) ≥ 9.
Es ist also nicht sinnvoll, bei n = 1000 und p = 0, 001, 1 − p = 0, 999 den Satz von de Moivre/Laplace anzuwenden: Zwar ist n sehr groß, es ist aber n · p · (1 − p) = 0, 999. F¨ ur diesen Fall benutzt man zur L¨ osung die diskrete Poisson-Verteilung, die wir aber nicht behandelt haben.
8.5.4
Die Sigma-Regeln f¨ ur die Normalverteilung
Um eine Vorstellung von der Bedeutung der Standardabweichung σ bei der Normalverteilung zu bekommen, soll Pμ,σ ([μ − kσ, μ + kσ])
f¨ ur
k ∈ IN
berechnet werden. [Dabei soll der Index bei dieser Wahrscheinlichkeit wieder andeuten, dass sie sich mit der Dichtefunktion fμ,σ berechnen l¨ asst.]
8.6 Erwartungswert und Varianz f¨ ur Verteilungsfunktionen
319
Wegen des Transformationssatzes (Satz 8.5 in Abschnitt 8.5.2) gilt
= =
Pμ,σ ([μ − kσ, μ + kσ])
μ + kσ − μ μ − kσ − μ Φ −Φ σ σ Φ(k) − Φ(−k) = Φ(k) − (1 − Φ(k)) = 2Φ(k) − 1.
Mittels der Tabelle der Funktion Φ (nach Abschnitt 8.8) erh¨ alt man ⎧ ⎪ ur k = 1 ⎪ ⎨ 2 · 0, 8413 − 1 = 0, 6826 f¨ Pμ,σ ([μ − kσ, μ + kσ]) = 2 · 0, 9772 − 1 = 0, 9544 f¨ ur k = 2 . ⎪ ⎪ ⎩ 2 · 0, 9987 − 1 = 0, 9974 f¨ ur k = 3 Interpretation dieser Ergebnisse: Ist eine bestimmte Gr¨ oße normalverteilt mit dem Erwartungswert μ und der Standardabweichung σ, so gilt: – rund 68 % der Beobachtungswerte liegen im Intervall [μ − 1σ, μ + 1σ], – rund 95 % der Beobachtungswerte liegen im Intervall [μ − 2σ, μ + 2σ], – rund 99 % der Beobachtungswerte liegen im Intervall [μ − 3σ, μ + 3σ]. Diese drei Tatsachen bezeichnet man als die Sigma-Regeln der Normalverteilung.
= + P [μ − σ, μ + σ] = 0, 6826 = + P [μ − 2σ, μ + 2σ] = 0, 9544
μ−2σ
8.6
μ−σ
μ
μ+σ
μ+2σ
Erwartungswert und Varianz f¨ ur Verteilungsfunktionen mit Dichten
Im Abschnitt 4.3 haben wir die Begriffe Erwartungswert und Varianz f¨ ur eine diskrete Zufallsvariable eingef¨ uhrt: Diese Zahlen sind definiert durch gewisse Summen (endlich viele Summanden) oder Reihen (abz¨ ahlbar-unendlich viele Summanden), wobei die einzelnen Summanden mittels der Werte der diskreten Zufallsvariable gebildet werden, und diese hat entweder endlich viele oder abz¨ ahlbar unendlich viele Werte.
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
320
In diesem Abschnitt 8.6 werden die Begriffe Erwartungswert und Varianz f¨ ur Verteilungsfunktionen mit Dichten eingef¨ uhrt: Diese Begriffe sind hier definiert durch Integrale, wobei die zu integrierende Funktion mittels der Dichtefunktion gebildet wird, die auf der u ahlbar-unendlichen Menge IR ¨berabz¨ definiert ist. Definition 8.7 (Erwartungswert) Sei F : IR → IR eine Verteilungsfunktion mit einer zugeh¨ origen Dichtefunktion +∞ f . Falls −∞ |t| · f (t)dt existiert, heißt
(
+∞
μ := E(F ) := −∞
t · f (t)dt
der Erwartungswert der Verteilungsfunktion F mit Dichte f .
Definition 8.8 (Varianz) Sei F : IR → IR eine Verteilungsfunktion mit einer zugeh¨ origen Dichtefunktion f . Die Zahl ( σ 2 := V ar(F ) :=
+∞
−∞
(t − μ)2 f (t)dt
heißt die Varianz der Verteilungsfunktion mit Dichte f , falls μ existiert +∞ und das uneigentliche Integral (t − μ)2 f (t)dt existiert. −∞ Die Zahl σ = V ar(F ) heißt Standardabweichung der Verteilungsfunktion F mit Dichte f . Hinweise 1.
2.
Bei der Definition des Erwartungswerts hat die Bedingung der Existenz +∞ von −∞ |t|f (t)dt theoretische Hintergr¨ unde, auf die hier nicht eingegangen werden kann. Zur Erhellung dieses allgemeinen Hintergrunds verweisen wir wieder auf weiterf¨ uhrende Literatur (etwa Krengel [86], §10, insbesondere Satz 10.10). Der Leser erkennt die Analogie dieser Definition zur Definition der Termini Erwartungswert und Varianz bei diskreten Zufallsvariablen: Bei den diskreten Zufallsvariablen werden Summen gebildet aus den Summanden xi · P (X = xi ) mit i ∈ IN beim Erwartungswert und den Summanden (xi − μ)2 · P (X = xi ) mit i ∈ IN bei der Varianz. Hier nun werden Integrale gebildet, da ja keine diskreten Werte einer Zufallsvariablen vorliegen, sondern eine (bis auf endlich viele Sprungstellen) stetige Dichtefunktion gegeben ist.
8.6 Erwartungswert und Varianz f¨ ur Verteilungsfunktionen 3.
321
Der Leser wird sich vielleicht fragen, warum die Begriffe Erwartungswert und Varianz nicht f¨ ur abstrakte Zufallsvariable definiert werden, sondern nur f¨ ur stetige Verteilungsfunktionen. Darauf wird in unserer Darstellung ganz bewusst verzichtet – und zwar aus zwei Gr¨ unden: – Der Begriff der abstrakten Zufallsvariablen geh¨ ort in das Gebiet der Maßtheorie, welches wir im vorliegenden elementaren Werk zur Stochastik nicht behandeln. F¨ ur Kurzinformationen dazu sei auf den folgenden Abschnitt 8.7 verwiesen. – F¨ ur alle praktischen Anwendungen ist es v¨ ollig ausreichend, Erwartungswerte und Varianzen f¨ ur mittels Dichtefunktionen gegebene stetige Verteilungsfunktionen berechnen zu k¨ onnen.
In den vorangehenden Kapiteln sind drei konkrete, f¨ ur die Praxis wichtige Verteilungsfunktionen mit ihren zugeh¨ origen Dichtefunktionen vorgestellt worden. F¨ ur diese drei Verteilungsfunktionen sollen nun jeweils Erwartungswert und Varianz berechnet werden. Satz 8.7 (Erwartungswert und Varianz der Rechteckverteilung) Die Rechteckverteilung R([a, b]) mit der Dichtefunktion
1 b−a
f (t) =
0
f¨ ur t ∈ [a, b] sonst
besitzt den Erwartungswert μ = E(R[a, b]) = und die Varianz σ 2 = V ar(R[a, b]) = Beweis: μ
(
+∞
= −∞
= σ2
= = (∗)
= =
(
a+b 2 (b − a)2 . 12
b
t · f (t)dt =
t · f (t)dt = a
1 b−a
(
b
t dt a
% &b 1 1 1 1 1 2 = · t · · (b2 − a2 ) = · (a + b) b−a 2 b−a 2 2 a ( +∞ ( b 1 dt (t − μ)2 · f (t)dt = (t − μ)2 · b − a −∞ a % &b ( b 1 3 1 1 2 2 2 2 t − μt + μ t (t − 2μt + μ )dt = b−a a b−a 3 a % & 1 3 1 1 1 · (b − a3 ) − (a + b)(b2 − a2 ) + (a + b)2 (b − a) b−a 3 2 4 % & 1 1 1 3 (b − a3 ) + (a2 b − ab2 ) b − a 12 4
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
322 = =
1 · [(b2 + ab + a2 ) − 3ab] 12 1 · (b − a)2 . 12
Bei der Berechnung von σ 2 wurde beim f¨ unften Gleichheitszeichen (∗) der f¨ ur μ berechnete Wert eingesetzt.
Satz 8.8 (Erwartungswert und Varianz der Exponentialverteilung) Die Exponentialverteilung EXP(λ) mit der Dichtefunktion
f (t) =
λ · e−λt
f¨ ur t ≥ 0
0
f¨ ur t < 0
hat den Erwartungswert μ = E(EXP (λ)) = und die Varianz σ 2 = V ar(EXP (λ)) = Beweis:
( E(EXP (λ))
= = (a)
= = =
(b)
=
1 λ 1 . λ2
( +∞ t · f (t)dt = t · λ · e−λt dt −∞ 0 ( x −λt t·λ·e dt lim x→∞ 0
, -x ( x lim t · (−e−λt ) − (−e−λt )dt x→∞ 0 0
, &x -x % 1 −λt lim t · (−e ) − e−λt x→∞ λ 0
0 1 −λx 1 −λx lim −x · e − e + x→∞ λ λ 1 . λ +∞
Bei (a) wurde partielle Integration, bei (b) wurde die G¨ ultigkeit von limx→∞ xn · −x e = 0 (hier f¨ ur n = 1 und n = 0) benutzt. ( +∞ ( +∞ 1 2 V ar(EXP (λ)) = (t − μ) f (t)dt = (t − )2 · λ · e−λt dt λ −∞ 0 ( +∞ 1 (λt2 − 2t + ) · e−λt dt. = λ 0 Daraus ergeben sich drei Einzelintegrale, welche jeweils durch Benutzung der partiellen Integration berechnet werden k¨ onnen. Es ergibt sich V ar(EXP (λ)) = 1 . λ2
8.6 Erwartungswert und Varianz f¨ ur Verteilungsfunktionen
323
Satz 8.9 (Erwartungswert und Varianz der Normalverteilung) Die Normalverteilung N (μ, σ 2 ) mit ihrer Dichtefunktion fμ,σ (t) =
σ·
1 √
1 t−μ 2 ) ] · exp[− ( 2 σ 2π
hat den Erwartungswert E(N (μ, σ 2 )) = μ und die Varianz V ar(N (μ, σ 2 )) = σ 2 . Bemerkung Durch die beiden Aussagen des letzten Satzes ist im Nachhinein gerechtfertigt, dass wir in Abschnitt 8.5 von der Normalverteilung mit Erwartungswert μ und Varianz σ 2 gesprochen haben: Der Parameter μ ist wirklich ein Erwartungswert und der Parameter σ 2 ist wirklich eine Varianz. Nun der Beweis: a)
Zur Berechnung des Erwartungswertes ( +∞ E(N (μ, σ 2 )) = t · fμ,σ (t)dt = =
=
(∗)
=
−∞ +∞
& 1 t−μ 2 ) dt · t · exp − ( 2 σ 2π −∞ σ · % & ( +∞ 1 t−μ 2 1 √ · (t − μ) · exp − ( ) dt 2 σ 2π −∞ σ · % & ( +∞ 1 1 t−μ 2 √ · μ · exp − ( ) dt + 2 σ 2π −∞ σ · % & ( +∞ 1 t−μ 2 1 t−μ σ √ · ·( ) · exp − ( ) dt σ 2 σ 2π σ −∞ % & ( +∞ 1 1 t−μ 2 1 √ · μ · · exp − ( + ) dt σ 2 σ 2π −∞ % & ( +∞ 1 σ √ · u · exp − u2 du 2 2π −∞ % & ( +∞ 1 1 √ · μ · exp − u2 du. + 2 2π −∞ (
%
1 √
benutzt. An der Stelle (∗) wurde die Substitution u := ϕ(t) = t−μ σ Der erste Summand ist gleich Null. Begr¨ undung: Die Integrandenfunktion g(u) = √σ2π · u · exp[− 12 u2 ] ist eine ungerade Funktion (man u uft, dass g(−u) = −g(u) f¨ ur u ∈ IR ist). Es ¨berpr¨ folgt: ( ( 0
−∞
g(u)du = −
+∞
g(u)du. 0
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
324 Das bedeutet
(
(
+∞
(
0
g(u) =
+∞
g(u)du +
−∞
−∞
g(u)du = 0. 0
Der zweite Summand ist gleich μ. Begr¨ undung: Da ϕ(u) := √12π · exp[− 21 u2 ] eine Dichtefunktion ist, gilt +∞ 1 √ exp[− 12 u2 ] = 1. 2π
−∞
b) Zur Berechnung der Varianz V ar(N (μ, σ 2 ))
(
+∞
= −∞
= = (1)
=
= (2)
=
(3)
=
=
(t − μ)2 · fμ,σ (t)dt
% & ( +∞ 1 1 t−μ 2 √ · (t − μ)2 · exp − ( ) dt 2 σ σ · 2π −∞ % & 2 ( +∞ 1 t−μ 2 σ 1 t−μ 2 √ ·( ) · exp − ( ) dt σ 2 σ 2π −∞ σ ( +∞ σ2 1 √ · u2 · exp[− u2 ]du 2 2π −∞ ( +∞ σ2 1 √ · u · (u · exp(− u2 ))du 2 2π −∞ % &+∞ σ2 1 √ · u · (− exp(− u2 )) 2 2π −∞ ( +∞
1 2 − 1 · − exp(− u ) du 2 −∞ √ σ2 √ (0 + 2π) 2π 2 σ .
Erl¨ auterungen Zu (1): Substitutionsregel anwenden mit u := ϕ(t) = t−μ σ . Zu (2): Partielle Integration mit f (u) = u und g (u) = u · exp(− 12 u2 ). Zu (3): Da ϕ(u) := √12π · exp(− 12 u2 ) eine Dichtefunktion ist, gilt +∞ +∞ 1 √ 1 2 √ exp(− u )du = 1. Das ist a quivalent zu exp(− 12 u2 )du = 2π. ¨ 2 2π
−∞
−∞
8.7 Ausblick: Abstrakte Zufallsvariable
325
8.7
Ausblick: Abstrakte Zufallsvariable
8.7.1
Messbare Abbildungen
Wir erinnern an die Definition 7.5 aus Kapitel 7: Ein Messraum ist ein Paar (Ω, A) bestehend aus einer nichtleeren Menge Ω und einer σ-Algebra A auf Ω. Zum besseren Verst¨ andnis des Folgenden geben wir zun¨ achst einen Hinweis f¨ ur eine im Folgenden verwendete Bezeichnung. Sind Ω und Ω Mengen und ist ur A ⊂ Ω die Menge der Urbilder von T : Ω → Ω eine Abbildung, so wird f¨ −1 Elementen von A mit f (A ) bezeichnet, also f −1 (A ) = {ω ∈ Ω|f (ω) ∈ A }. Definition 8.9 (Messbare Abbildung, Zufallsvariable) aume, und es sei T : Ω → Ω eine Ab1. Es seien (Ω, A) und (Ω , A ) Messr¨ bildung. T heißt messbar, falls gilt: [M] 2.
T −1 (A ) ∈ A
f¨ ur alle
A ∈ A .
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und (Ω , A ) ein Messraum. Dann heißt eine messbare Abbildung T : Ω → Ω Zufallsvariable.
Das Ziel dieses Teilabschnitts ist es, f¨ ur die Definition einer messbaren Abbildung eine im Vergleich zur sehr unhandlichen Bedingung [M ] einfacher zu u ufende Bedingung zu finden. ¨ berpr¨ Entscheidendes Hilfsmittel im Hinblick auf dieses Ziel ist folgende Aussage. Satz 8.10 Seien (Ω, A) und (Ω , A ) Messr¨ aume und T : Ω → Ω eine messbare Abbildung. Dann ist das Mengensystem D := {A ⊂ Ω |T −1 (A ) ∈ A} eine σ-Algebra auf Ω . Beweis: Zu [σ1]: Es ist T −1 (Ω ) = {ω ∈ Ω|T (ω) ∈ Ω } = Ω. Da A σ-Algebra ist, gilt Ω ∈ A. Das bedeutet Ω ∈ D . Zu [σ2]: Sei A ∈ D , d. h. T −1 (A ) ∈ A. Dann gilt T −1 (A )
=
{ω ∈ Ω|T (ω) ∈ A } = {ω ∈ Ω|T (ω) ∈ / A }
=
{ω ∈ Ω|T (ω) ∈ A } = T −1 (A ).
Da A σ-Algebra ist, gilt T −1 (A ) ∈ A. Das bedeutet A ∈ D . Zu [σ3]: Seien Ai ∈ D , d. h. T −1 (Ai ) ∈ A (i ∈ IN). Dann gilt: T −1 (
∞ i=1
Ai )
=
{ω ∈ Ω|T (ω) ∈
∞ i=1
Ai }
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
326
∞
=
i=1 ∞
= Da A eine σ-Algebra ist, gilt Damit ist Satz 8.10 bewiesen.
∞ i=1
{ω ∈ Ω|T (ω) ∈ Ai } T −1 (Ai ).
i=1
T
−1
(Ai ) ∈ A. Das bedeutet:
∞ i=1
Ai ∈ D .
Seien weiterhin (Ω, A), (Ω , A ) Messr¨ aume. Sei ferner F ein Erzeuger von A . Das heißt: F ist eine Familie von Teilmengen von Ω mit der Eigenschaft, dass A die kleinste σ-Algebra ist, die F enth¨ alt. Das Standardbeispiel f¨ ur einen Erzeuger ist aus Teilabschnitt 7.2.1 bekannt: Das Mengensystem
I = {]a, b]|a, b ∈ IR, a < b} der nach links halboffenen Intervalle ist ein Erzeuger von B(I); das System der Borelmengen B(I) ist n¨ amlich die kleinste σ-Algebra, die I enth¨ alt. Sei T : Ω → Ω eine Abbildung. Zum Nachweis, dass T messbar ist, muss man die Bedingung [M] aus Definition 8.9 pr¨ ufen, also zeigen, dass T −1 (A ) ∈ A f¨ ur alle A ∈ A . Wir behaupten nun, dass man nur zeigen muss, dass T −1 (A ) ∈ A f¨ ur alle A ∈ F . Satz 8.11 ur alle A ∈ F , dann gilt auch T −1 (A ) ∈ A f¨ ur alle A ∈ A . Gilt T −1 (A ) ∈ A f¨ Beweis: Wir ben¨ otigen im Beweis das Mengensystem D aus Satz 8.10. Es gelte (nach Voraussetzung): T −1 (A ) ∈ A f¨ ur alle A ∈ F . Das bedeutet F ⊂ D . Nach Satz 8.10 ist D aber eine σ-Algebra. Da nun A die kleinste alt, muss die σ-Algebra D , die ebenfalls F enth¨ alt, σ-Algebra ist, die F enth¨ gr¨ oßer als A sein; das bedeutet A ⊂ D . Das ist gleichbedeutend damit, dass ur alle A ∈ A gilt. T −1 (A ) ∈ A f¨ Folgerung Seien (Ω, A) und (Ω , A ) Messr¨ aume, sei F ein Erzeuger von A und sei T : Ω → Ω eine Abbildung. Falls dann gilt T −1 (A ) ∈ A
[M∗]
f¨ ur alle
A ∈ F ,
ist T messbar.
8.7.2
Zufallsvariable mit Werten in IR
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und (IR, B(I)) der Messraum der reellen Zahlen mit dem System der Borelmengen. Wegen der Folgerung zu
8.8 Aufgaben und Erg¨ anzungen
327
Satz 8.11 ist eine Abbildung T : Ω → IR eine Zufallsvariable, falls gilt T −1 (]a, b]) ∈ A
[ZV]
f¨ ur jedes nach links halboffene Intervall ]a, b] ∈ I.
Diesen Sachverhalt halten wir fest in der Definition einer Zufallsvariablen mit Werten in IR; solche Zufallsvariablen werden nun (wie u ¨blich) mit X bezeichnet.
Definition 8.10 (Zufallsvariable mit Werten in IR) Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und (IR, B(I)) der Messraum der reellen Zahlen mit dem System der Borelmengen. Eine Abbildung X : Ω → IR heißt Zufallsvariable mit Werten in IR, falls X −1 (]a, b]) ∈ A
[ZV]
f¨ ur alle Intervalle
]a, b] ∈ I.
Wir f¨ uhren nun bez¨ uglich des Wahrscheinlichkeitsraums (Ω, A, P ) eine Fallunterscheidung durch. Fall 1: Ω ist endlich oder abz¨ ahlbar-unendlich. In diesem Fall w¨ ahlen wir als σ-Algebra A die Potenzmenge von Ω, also P(Ω). Da alle Urbilder X −1 (]a, b]) Teilmengen von Ω sind, also Elemente von P(Ω) sind, ist die Bedingung [ZV] automatisch erf¨ ullt. Die Bedingung [ZV] ist also u ussig; eine Zufallsvariable ist also einfach ¨ berfl¨ eine Abbildung X : Ω → IR. Der Leser erkennt, dass man damit genau die Definition einer Zufallsvariablen in Abschnitt 4.1 hat. Fall 2: Ω ist u ahlbar-unendlich. ¨berabz¨ In diesem Fall ist die Bedingung [ZV] entscheidend! Doch Beispiele f¨ ur solche Zufallsvariable tauchen in der Praxis nicht auf: Bei Anwendungen ist es immer so, dass Wahrscheinlichkeiten von Intervallen ermittelt werden sollen. Bei Aufgaben und Fragestellungen ist niemals ein Raum (Ω, A, P ) gegeben, sondern es geht einzig um die Berechnung von Wahrscheinlichkeiten in dem Wahrscheinlichkeitsraum (IR, B(I), P ). Das Nichtvorhandensein eines Wahrscheinlichkeitsraums (Ω, A, P ) bzw. das reine Arbeiten im Wahrscheinlichkeitsraum (IR, B(I), P ) ist der entscheidende Grund, warum wir im Kapitel 8 auf die Behandlung von Zufallsvariablen verzichteten.
8.8 1.
Aufgaben und Erg¨ anzungen
Weisen Sie nach, dass folgende Funktionen Dichtefunktionen sind: 1 ur 0 ≤ t ≤ 2π 2π · (1 − cos t) f¨ a) f1 (t) = 0 sonst 1 2 1 2 − 36 t + 18 t + 9 f¨ ur − 2 ≤ t ≤ 4 b) f2 (t) = 0 sonst
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
328
2. 3.
Bestimmen Sie anschließend f¨ ur die zugeh¨ origen Verteilungsfunktionen F1 und F2 den Erwartungswert und die Varianz. F¨ uhren Sie die zur Bemerkung 1 nach Definition 8.3 und zur Bemerkung 1 nach Definition 8.4 geh¨ origen Rechnungen durch. In einem Betrieb, welcher Plastikfolien herstellt, werden an einigen Maschinen Folienstreifen einer bestimmten Breite zugeschnitten und dann auf eine Rolle gewickelt. Die von den Maschinen produzierten Streifen sind auf der gesamten L¨ ange gleichm¨ aßig breit. An einer bestimmten Maschine M liegen die Breiten der Streifen einer Wochenproduktion in einem Toleranzbereich zwischen 79,7 cm und 80,5 cm. Aufgrund von Stichproben hat die Produktionsabteilung eine Verteilungsfunktion f¨ ur die Wahrscheinlichkeit, dass ein von Maschine M produzierter Streifen h¨ ochstens x cm breit ist, ermittelt. Sie lautet: ⎧ ⎪ f¨ ur x < 79, 7 ⎪ ⎨ 0 P (] − ∞, x]) =
1, 25x − 99, 625 f¨ ur 79, 7 ≤ x ≤ 80, 5 ⎪ ⎪ ⎩ 1 f¨ ur x > 80, 5
a) Handelt es sich um eine stetige Verteilungsfunktion? b) Gibt es eine Dichtefunktion, so dass P (] − ∞, x]) mittels dieser Dichtefunktion berechnet werden kann? 4.
Die Exponentialverteilung kann auch bei Situationen herangezogen werden, bei denen es um Wartezeiten geht: Wenn man die durchschnittliche Wartezeit zwischen zwei Ereignissen kennt (bzw. empirisch ermittelt hat) und man weiter annimmt, dass solche Ereignise unabh¨ angig voneinander eintreten, kann man die Wartezeit von einem Zeitpunkt t0 bis zum Eintreten des n¨ achsten Ereignisses mittels der Exponentialverteilung modellieren. Als Beispiel sei folgende Aufgabe gestellt: Bei einer bestimmten Eisenbahngesellschaft sollen an Werktagen zwischen 05:45 Uhr und 23:45 Uhr st¨ undlich Z¨ uge von einer Stadt A zu einer Stadt B fahren. Ein Kunde, der jeden Morgen um 06:45 Uhr einen Zug nehmen will, hat festgestellt, dass die Abfahrtszeit in den seltensten F¨ allen eingehalten wird und Versp¨ atungen h¨ aufig sind. Der Kunde beschließt ver¨ argert, nicht mehr dem Fahrplan zu glauben. Er entscheidet sich daf¨ ur, t¨ aglich um 07:00 Uhr am Bahnhof einzutreffen und f¨ ur die Wartezeit von 07:00 Uhr bis zum Eintreffen des Zuges das Modell der Exponentialverteilung mit dem Erwartungswert 60 Minuten zu benutzen. Wie groß ist die Wahrscheinlichkeit, dass er (a) weniger als 10 Minuten, (b) mehr als 30 Minuten bis zum Eintreffen eines Zuges wartet? Erg¨ anzung Es sei kritisch angemerkt, dass die von dem ver¨ argerten Kunden vorge-
8.8 Aufgaben und Erg¨ anzungen
5. 6.
7.
8.
329
nommene Modellierung der Wartezeit-Situation durch die Exponentialverteilung sicherlich nicht ganz angemessen ist: Durch die v¨ ollige Außerachtlassung des Fahrplans (mittels der Modellannahme, dass die Z¨ uge unabh¨ angig voneinander und zuf¨ allig eintreffen) wird das Bem¨ uhen der Bahngesellschaft, die Abfahrtszeigen m¨ oglichst einzuhalten, g¨ anzlich ignoriert. Wirklich ad¨ aquat ist die Benutzung der Exponentialverteilung aber etwa bei der Wartezeit auf Linienbusse w¨ ahrend des Berufsverkehrs in einer Großstadt. Der Leser m¨ oge sich selbst weitere Situationen aus dem Alltag u ¨ berlegen, bei denen die Benutzung der Exponentialverteilung sinnvoll ist. Es sei Φ die N (0, 1)-Verteilung (Teilabschnitt 8.5.2). Zeigen Sie: F¨ ur z ∈ IR+ gilt Φ(−z) = 1 − φ(z). Bei einem großen Elektronik-Konzern werden in einer Fertigungsabteilung Festplatten f¨ ur Computer produziert; insbesondere werden dort mittels eines Feinschleifprozesses Positionierk¨ opfe f¨ ur die Schreib-Lese-K¨ opfe der Festplatten hergestellt. Aufgrund wiederholt durchgef¨ uhrter Messungen der Durchmesser der Positionierk¨ opfe wird f¨ ur die Modellierung der m¨ oglichen Durchmesser der Positionierk¨ opfe eine N (μ, σ 2 )-verteilte Funktion genommen mit μ = 4, 15 mm und σ = 0, 064 mm. Berechnen Sie die folgenden Wahrscheinlichkeiten: (a) P (Kopfdurchmesser ≤ 4, 23), (b) P (Kopfdurchmesser ≤ 4, 09). Die Leitung dieser Fertigungsabteilung m¨ ochte eine Konstante c ∈ IR+ finden, so dass (bezogen auf eine Tagesproduktion) die K¨ opfe mit einem Durchmesser außerhalb des Intervalls [μ − c, μ + c] nicht mehr als 10 % ausmachen. (c) Wie muss diese Konstante c gew¨ ahlt werden? Ein Hotel hat 200 Einzelzimmer. Die Hotelmanagerin weiß, dass eine Zimmerreservierung mit einer Wahrscheinlichkeit von p = 15 annuliert wird. Wie viele Reservierungen kann die Managerin f¨ ur einen bestimmten Tag akzeptieren, wenn sie die Vorgabe macht, dass die Wahrscheinlichkeit einer ¨ Uberbuchung h¨ ochstens 0,025 betragen soll? Ein Meinungsforschungsinstitut soll im Auftrag der Partei XY Z den Stimmenanteil dieser Partei bei der n¨ achsten Bundestagswahl prognostizieren. Das Institut befolgt einen selbst auferlegten Grundsatz: Die Wahrscheinlichkeit, dass der Stimmenanteil f¨ ur XY Z bei der Umfrage um weniger als 1 % von dem Wahlergebnis f¨ ur XY Z abweicht, soll mindestens 95 % betragen. Wie viele Wahlberechtigte muss das Institut befragen?
8 Wahrscheinlichkeitsmaße auf (IR, B(I))
330
Tabelle der Standard-Normalverteilung 0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
x
0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159
0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186
0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212
0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238
0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264
0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289
0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315
0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340
0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365
0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389
1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9
0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713
0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719
0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726
0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732
0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738
0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744
0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750
0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756
0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761
0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767
2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9
0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981
0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982
0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982
0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983
0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984
0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984
0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985
0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985
0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986
0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986
3,0
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989
0,9989
0,9990
0,9990
Quelle: [86], Seite 231
9 Sch¨ atzen
9.1
Die Maximum-Likelihood-Methode
Zur Einf¨ uhrung in die Maximum-Likelihood-Methode des Sch¨ atzens werden drei motivierende Beispiele gebracht; anschließend erfolgt die Definition des Maximum-Likelihood-Sch¨ atzers.
Beispiel 9.1 (Sch¨ atzung der Anzahl weißer Kugeln in einer Urne) In einer Urne befinden sich n = 10 Kugeln, und zwar schwarze und weiße. Die Anzahl K der weißen Kugeln ist unbekannt und soll mittels einer Ziehung von n = 3 Kugeln gesch¨ atzt werden. Sei X die Zufallsvariable, die die Anzahl der weißen Kugeln bei dieser Ziehung angibt; X ist hypergeometrisch verteilt. Es sei nun angenommen, dass bei der Ziehung zwei weiße und eine schwarze Kugel gezogen worden sind. Dann ist klar, dass 2 ≤ K ≤ 9 gilt. Keiner dieser acht Werte kann ausgeschlossen werden, welcher aber ist am wahrscheinlichsten? Wir haben (da X ja H(10, K, 3)-verteilt ist): K 10−K 2
PK (X = 2) =
101
.
3
Um die Abh¨ angigkeit von dem unbekannten K anzudeuten, haben wir PK (X = 2) geschrieben. Rechnet man diese Wahrscheilichkeiten nun f¨ ur 2 ≤ K ≤ 9 aus, erh¨ alt man folgende Tabelle: K PK (X = 2)
0 0
1
2
3
4
5
6
7
8
9
10
0
1 15
7 40
3 10
5 12
1 2
21 40
7 15
3 10
0
Nehmen wir nun etwa an, dass K = 2 ist. Dann ergibt sich f¨ ur P2 (X = 2) 1 die sehr kleine Wahrscheinlichkeit 15 . Man sucht also in der Tabelle denjenigen oßten ist. Das Wert f¨ ur K, bei dem die Wahrscheinlichkeit PK (X = 2) am gr¨ ist f¨ ur den Wert K = 7 der Fall, denn P7 (X = 2) = 21 = 0, 525. Es ist also 40 plausibel, wenn man nun K = 7 als den gesuchten Sch¨ atzwert f¨ ur die Anzahl der weißen Kugeln nimmt. H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
332
9 Sch¨ atzen
Diese Idee, dass man zur Sch¨ atzung von K denjenigen Wert annimmt, bei dem PK (X = 2) maximal ist, heißt Maximum-Likelihood-Ansatz. Beispiel 9.2 (Sch¨ atzung des Fischbestands in einem See) [Capture-RecaputureMethode] Ein See enth¨ alt eine unbekannte Anzahl N von Fischen einer bestimmten Art. Die f¨ ur diesen See zust¨ andige Gemeinde m¨ ochte diese Anzahl sch¨ atzen, um eine Basis f¨ ur m¨ ogliche Angelgenehmigungen zu haben. Dazu wird in diesem See ein gr¨ oßerer Fischfang durchgef¨ uhrt; bei diesem Fang z¨ ahlt man die Fische der Art F und markiert sie in geeigneter Weise (etwa mit einem weißen Fleck). Die Anzahl der so markierten Fische sei mit K bezeichnet. Nach einer gewissen Wartezeit wird in diesem See ein weiterer Fischfang durchgef¨ uhrt; man z¨ ahlt bei diesem Fang wiederum alle Fische der Art F und schaut nach, wie viele von diesen die weiße Markierung tragen. Die Anzahl der Fische der Art F bei diesem zweiten Fang sei mit n bezeichnet; die Anzahl der weiß markierten Fische unter den n Fischen sei mit k bezeichnet. Es soll nun die unbekannte Zahl N der Fische der Art F gesch¨ atzt werden. Erste heuristische M¨ oglichkeiten zur Sch¨ atzung von N : Der Anteil der mark , muss ungef¨ ahr so groß sein kierten Fische beim zweiten Fang, also der Wert n K k wie der Anteil der markierten Fische im See, also wie N . Das bedeutet n ≈K N, K·n d. h. N ≈ k . (genauer: die zu K·n n¨ achstgelegene ganze Es liegt also nahe, die Zahl K·n k k Zahl) als Sch¨ atzwert f¨ ur die Anzahl der Fische zu nehmen. Zweite M¨ oglichkeit zur Sch¨ atzung von N : Sei X die Zufallsvariable, welche die Anzahl k der markierten Fische (beim zweiten Fang) angibt. X ist H(N, K, n)verteilt, und es gilt: PN (X = k) =
K k
N −K
Nn−k . k
Um die Abh¨ angigkeit von dem unbekannten N anzudeuten, haben wir PN (X = k) geschrieben. Der Maximum-Likelihood-Ansatz besagt nun wieder, denjenigen Wert als Sch¨ atzung f¨ ur N zu nehmen, bei dem PN (X = k) maximal wird. Das beur N ∈ IN bestimmen. deutet: Man muss das Maximum der Werte PN (X = k) f¨ Dazu betrachten wir PN (X = k) als Funktion von N und nennen diese Funk(K )·(N−K ) tion Lk . Wir haben also Lk (N ) = k Nn−k und wollen bei dieser Funktion das (n) Maximum bez¨ uglich N bestimmen. Dazu dient folgender Ansatz: Lk (N ) > Lk (N − 1)
⇔ ⇔
Lk (N ) >1 Lk (N − 1) K N −K N −1 k
Nn−k n
· K Nn−1−K > 1 k
n−k
9.1 Die Maximum-Likelihood-Methode ⇔ ⇔ ⇔ ⇔
333
(N − n) · (N − K) >1 N · (N − K − n + k) (N − n) · N − K) > N · (N − K − n + k) K ·n>k·N K ·n N < . k
Wir haben also Lk (N ) > Lk (N − 1) ⇔ N <
K·n . k
(9.1)
K·n . k
(9.2)
¨ V¨ ollig analog zeigt man die Aquivalenz Lk (N − 1) > Lk (N ) ⇔ N >
Behauptung: Die Funktion Lk hat bei der Stelle [ K·n k ] ihr Maximum. Hinweis: F¨ ur eine reelle Zahl x bezeichnet [x] die gr¨ oßte ganze Zahl, die kleiner/gleich x ist. ur nat¨ urliche Zahlen definiert ist, muss hier also Da die Funktion Lk nur f¨ K·n K·n urliche Zahl [ k ] genommen werden. statt k die nat¨ K·n Beweis der Behauptung: Ist N < K·n k , gilt 1 ≤ N ≤ [ K ]. Wegen (9.1) folgt:
% &
% &
% & K ·n K·n K·n > Lk − 1 > Lk − 2 > ..., Lk k k k
das heißt Lk
%
K ·n k
&
% > Lk (N )
f¨ ur alle
N ∈ IN
mit
N ≤
& K ·n . k
gilt N ≥ [ K·n k ] + 1. Wegen (9.2) folgt:
% &
% &
% & K ·n K·n K·n > Lk + 1 > Lk + 2 > ..., Lk k k k
Ist N >
K·n k ,
das heißt
% & K ·n Lk > Lk (N ) k
% f¨ ur alle
N ∈ IN
mit
N≥
& K ·n + 1. k
Damit ergibt sich die Behauptung. Was ist nun die entscheidende Feststellung am Ende dieses Beispiels? Wir ¨ haben zun¨ achst die Anzahl N mittels heuristischer Uberlegungen gesch¨ atzt und erhalten. Dieser recht einfach ermittelte Sch¨ a tzwert wird den Sch¨ atzwert K·n k auch Naiver Sch¨ atzer“ genannt. Anschließend haben wir die Maximalstelle der ” Funktion Lk (N ) = PN (X = k) mit einigem Aufwand ermittelt und daf¨ ur den ] erhalten. Dieser Wert wird Maximum-Likelihood-Sch¨ a tzung“ f¨ ur Wert [ K·n k ” die Zahl N genannt und l¨ ost unsere Aufgabenstellung.
334
9 Sch¨ atzen
Beispiel 9.3 (Unbekannte Erfolgswahrscheinlichkeit beim M¨ unzwurf ) Eine M¨ unze wird n Mal geworfen. Es sei p die unbekannte Erfolgswahrscheinlickeit f¨ ur Wap” pen“. Diese unbekannte Wahrscheinlichkeit soll gesch¨ atzt werden. Sei X diejenige Zufallsvariable, welche die Anzahl der Treffer (also die Anzahl von Wappen“) bei diesen n W¨ urfen angibt. X ist eine B(n, p)-verteilte ” Zufallsvariable, und es gilt: n · pk · (1 − p)n−k . Pp (X = k) = k Um die Abh¨ angigkeit von p anzudeuten, haben wir Pp (X = k) geschrieben. Der Maximum-Likelihood-Ansatz besagt nun wieder, denjenigen Wert als Sch¨ atzung f¨ ur p zu nehmen, bei dem Pp X(= k) maximal wird. Das bedeuur p ∈ [0, 1] bestimmen. tet: Man muss das Maximum der Werte Pp (X = k) f¨ Dazu betrachten wir Pp (X = k) als Funktion von p und nennen diese Funktion Lk . Wir haben also n Lk (p) = · pk · (1 − p)n−k k und wollen bei dieser Funktion das Maximum bez¨ uglich p bestimmen. uglich p: Wir berechnen mittels der Produktregel die erste Ableitung von Lk bez¨ , n Lk (p) = · k · pk−1 · (1 − p)n−k − pk · (n − k) · (1 − p)n−k−1 k , n = · (k · (1 − p) − p · (n − k)) · pk−1 · (1 − p)n−k−1 k n = · (k − np) · pk−1 · (1 − p)n−k−1 . (∗) k Die notwendige Bedingung f¨ ur eine Extremstelle ist, dass Lk (p) = 0 gilt. Diese Gleichung Lk (p) = 0 ist genau dann erf¨ ullt, wenn einer der drei von p abh¨ angigen Faktoren in (∗) Null wird. Also ergibt sich f¨ ur die Gleichung L (p) = 0 die k , 0, 1}. L¨ osungsmenge { n Behauptung: Die Zahl
k n
ist Maximalstelle von Lk .
Begr¨ undung: Fall 1: k = 0. Dann ist L0 (p) = (1 − p)n . Diese Funktion besitzt ihr Maximum an der Stelle p = 0. Fall 2: k = n. Dann ist Ln (p) = pn . Diese Funktion besitzt ihr Maximum an der Stelle p = 1. Fall 3: k ∈ {1, . . . , n − 1}. Es ist Lk (0) = 0 und Lk (1) = 0. Also gibt es wegen des Satzes von Rolle ein u ∈]0, 1[ mit Lk (u) = 0. Da die Gleichung Lk (p) = 0 k die L¨ osungsmenge {0, nk , 1} hat und nur nk in ]0, 1[ liegt, gilt u = n . Um zu
9.1 Die Maximum-Likelihood-Methode
335
k zeigen, dass an der Stelle u = n ein Maximum vorliegt, m¨ ussen wir zeigen, dass k Lk ( n ) < 0 ist. Wir argumentieren aber einfacher: Da wir nur drei Kandidaten k k f¨ ur die Maximalstelle haben (n¨ amlich 0, 1, n ) und da einerseits Lk ( n ) > 0 und k andererseits Lk (0) = 0 sowie Lk (1) = 0 gilt, muss n die Maximalstelle sein.
Fasst man die drei F¨ alle zusammen, gilt: Der Wert ur jedes k ∈ {0, 1, . . . , n − 1, n}. Funktion Lk f¨
k n
ist Maximalstelle der
Wir haben nun in drei Beispielen zur Sch¨ atzung eines unbekannten Parameters jeweils die Maximalstelle einer gewissen Funktion ermittelt. Dieses Verfahren soll nun allgemein definiert werden. Dazu sind zwei Definitionen erforderlich.
Definition 9.1 (Sch¨ atzer) Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit abz¨ ahlbarer Menge Ω, sei X : Ω → IR eine diskrete Zufallsvariable auf (Ω, P(Ω), P ) und S := X(Ω). Es sei Θ ⊂ IR eine Parametermenge und es sei (S, P(S), Pϑ ) mit dem Parameter ϑ ∈ Θ eine Familie von Wahrscheinlichkeitsr¨ aumen. Dann gilt: 1. 2. 3.
Der unbekannte Wert ϑ ∈ Θ heißt der zu sch¨ atzende Parameter. Jede Funktion T : S → IR heißt Sch¨ atzer. F¨ ur x ∈ S heißt T (x) Sch¨ atzwert f¨ ur ϑ.
Wir erl¨ autern diese Definition an zwei der drei anfangs vorgegebenen Beispiele. Zu Beispiel 9.1: Hier gilt Folgendes: S ist die Menge der m¨ oglichen Anzahlen von weißen Kugeln in der Stichprobe von drei Kugeln, also S = {0, 1, 2, 3}. Θ ist die Menge der m¨ oglichen Anzahlen von weißen Kugeln in der Urne, also Θ = {0, 1, . . . , 9, 10}. Es soll ϑ = K ∈ {0, 1, . . . , 9, 10} gesch¨ atzt werden. Weiter sind PK : S → [0, 1] diejenigen Wahrscheinlichkeitsmaße auf S, welche uns die Wahrscheinlichkeit von zwei weißen Kugeln in der Stichprobe in Abh¨ angigkeit von ϑ = K angeben. M¨ ogliche Sch¨ atzer gibt es sehr viele. Es seien tabellarisch einige Sch¨ atzer angegeben. Sch¨ atzer 1
Sch¨ atzer 2
Sch¨ atzer 3
x
T (x)
x
T (x)
x
T (x)
0
0
0
5
0
5
1
1
1
6
1
5
2
2
2
7
2
5
3
3
3
8
3
5
336
9 Sch¨ atzen
Ein Sch¨ atzer ordnet also einem Beobachtungswert x ∈ S = {0, 1, 2, 3} einen Sch¨ atzwert T (x) ∈ Θ = {0, 1, . . . , 9, 10} zu. In unserem Fall war das Beobachtungsergebnis x = 2. Der beste Sch¨ atzwert ˆ f¨ zu diesem Wert ist diejenige Zahl K, ur die gilt PKˆ (X = 2) = max{PK (X = 2)|K ∈ Θ = {0, 1, . . . , 9, 10}}. ˆ = 7 ermittelt. Wir haben K Zu Beispiel 9.2: Hier gilt Folgendes: S ist die Menge der m¨ oglichen Anzahlen markierter Fische beim zweiten Fang, also S = {0, 1, . . . , n}. Θ ist die Menge der m¨ oglichen Anzahlen von Fischen im See, also Θ = IN. Es soll ϑ = N ∈ IN gesch¨ atzt werden. Weiter sind Pϑ : S → [0, 1] diejenigen Wahrscheinlichkeitsmaße auf S, die uns die Wahrscheinlichkeit von k markierten Fischen in Abh¨ angigkeit von ϑ = N angeben. M¨ ogliche Sch¨ atzer gibt es sehr viele. Das mache man sich in einer konkreten Situation klar (siehe Aufgabe). ˆ , f¨ Der beste Sch¨ atzwert zu dem beobachteten Wert k ist diejenige Zahl N ur die gilt: PNˆ (X = k) = max{PN (X = k)|N ∈ Θ = IN}. ˆ = [ K·n ] ermittelt. Wir haben N k Aufgabe: Der Leser mache sich alle Bezeichnungen und Begriffe der obigen Definition am Beispiel 9.3 klar (siehe Aufgabenteil 9.4). Es sei nun die Definition des Maximum-Likelihood-Sch¨ atzers gegeben.
Definition 9.2 (Maximum-Likelihood-Funktion, Maximum-Likelihood-Sch¨ atzwert) Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit abz¨ ahlbarer Menge Ω, sei X : Ω → IR eine diskrete Zufallsvariable und sei S = X(Ω). Es sei Θ ⊂ IR eine Parametermenge und es sei (S, P(S), Pϑ ) eine Familie von Wahrscheinlichkeitsr¨ aumen. F¨ ur x ∈ S heißt die Funktion Lx : Θ → IR mit ϑ → Lx (ϑ) := Pϑ (X = x) Maximum-Likelihood-Funktion. Falls Lx ein Maximum auf Θ annimmt, falls es also ein ϑˆ ∈ Θ gibt mit ˆ = max{Lx (ϑ)|ϑ ∈ Θ}, Lx (ϑ) so heißt ϑˆ Maximum-Likelihood-Sch¨ atzwert des Parameters ϑ.
9.2 Sch¨ atzen von Erwartungswert und Varianz
337
Zur Ein¨ ubung dieser neuen Begriffe werden diese wieder an zwei der eingangs behandelten Beispiele verdeutlicht. Zu Beispiel 9.1: Hier ist x = 2 von Anfang an fest. F¨ ur K ∈ Θ = {0, 1, . . . , 9, 10} hat man L2 (K) = PK (X = 2). Die bei der Behandlung von Beispiel 9.1 stehende Tabelle lieferte den Maximumˆ = 7. Grund: Likelihood-Sch¨ atzwert K max{L2 (K)|K ∈ {0, 1, . . . , 9, 10}} =
max{PK (X = 2)|K ∈ {0, 1, . . . , 9, 10}}
=
P7 (X = 2).
Zu Beispiel 9.2: Hier haben wir k ∈ {0, 1, . . . , n}. F¨ ur K ∈ Θ = IN hat man Lk (N ) = PN (X = k). Die bei der Behandlung von Beispiel 9.2 durchgef¨ uhrte Rechnung lieferte den ˆ = [ K·n ]. Grund: Maximum-Likelihood-Sch¨ atzwert N k max{Lk (N )|N ∈ IN} =
max{PN (X = k)|N ∈ IN}
=
P[ K·n ] (X = k). k
Aufgabe: Der Leser mache sich die Begriffe der obigen Definition am Beispiel 9.3 klar (siehe Aufgabenteil 9.4).
9.2
Das Sch¨ atzen von Erwartungswert und ¯ und S 2 Varianz – die Zufallsvariablen X
Definition 9.3 (Arithmetisches Mittel und empirische Varianz unabh¨ angiger diskreter Zufallsvariabler) Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit abz¨ ahlbarer Ergebnismenge Ω. Seien X1 , . . . , Xn diskrete Zufallsvariable auf Ω, welche alle den gleichen Erwartungswert und die gleiche Varianz besitzen m¨ ogen, d. h. es gelte μ σ
2
=
E(Xi )
f¨ ur alle
i ∈ {1, . . . , n},
=
V (Xi )
f¨ ur alle
i ∈ {1, . . . , n}.
angig. Weiterhin seien X1 , . . . , Xn stochastisch unabh¨
338
9 Sch¨ atzen
Die Zufallsvariable
¯= 1 X Xi n n
i=1
heißt arithmetisches Mittel der Zufallsvariablen X1 , . . . , Xn . Die Zufallsvariable n 1 ¯ 2 (Xi − X) S2 = n−1 i=1
heißt empirische Varianz der Zufallsvariablen X1 , . . . , Xn .
Beispiel 9.4 Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum, wobei Ω abz¨ ahlbar ist. Die Zufallsvariablen Xi (1 ≤ i ≤ n) seien alle B(1, p)-verteilt. Xi beschreibt also die einmalige Durchf¨ uhrung eines Bernoulli-Experiments mit der Trefferwahrscheinlichkeit p. Es ist E(Xi ) = p und V (Xi ) = p · (1 − p) (siehe Ab ¯ = 1 n Xi gibt dann genau die schnitt 5.1). Das arithmetische Mittel X i=1 n relative H¨ aufigkeit f¨ ur Treffer bei n Versuchswiederholungen an. Man betrachte etwa einen Versuch, bei dem ein W¨ urfel 100 Mal geworfen wird; ein Treffer liegt vor, wenn die Sechs f¨ allt. Dann gibt Xi an, ob im i-ten allt; Xi hat Wurf ein Treffer f¨ allt oder nicht: Xi hat den Wert 1, falls die Sechs f¨ ¯ den Wert 0, falls die Sechs nicht f¨ allt (1 ≤ i ≤ n). Dann gibt X = n1 n i=1 Xi die relative H¨ aufigkeit der Sechs bei den 100 W¨ urfen an.
Anmerkung zu diesem Beispiel: Der Leser wird feststellen, dass hier die Zu¯ genau diejenige Zufallsvariable ist, die wir im Abschnitt 6.2 mit fallsvariable X ¯ die relative H¨ Hn bezeichnet haben: Im Spezialfall dieses Beispiels gibt X aufig¯ keit f¨ ur Treffer bei n unabh¨ angigen Versuchen an, und damit gilt X = Hn . Im obigen Beispiel sind die entscheidenden Parameter der Zufallsvariablen Xi – n¨ amlich μ = E(Xi ) und σ 2 = V (Xi ) – bekannt. Ein ganz anderer Sachverhalt liegt aber vor, wenn man diese Zahlen μ = E(Xi ) und σ 2 = V (Xi ) nicht kennt. Man muss dann diese Zahlen sch¨ atzen! Es sei nun ganz konkret eine typische Alltagssituation geschildert, in welcher man Mittelwert und Varianz sch¨ atzen muss: Eine Firma, eine Institution, ein Forschungsinstitut hat bei einem n Mal durchgef¨ uhrten Experiment n Messdaten gewonnen und m¨ ochte nun auf Grundlage dieser Messdaten den wahren Erwartungswert und die wahre Varianz sch¨ atzen. Wie gehen die f¨ ur dieses Experiment verantwortlichen Personen nun vor? Es gibt folgende Modellierung: 1.
Die n Messdaten x1 , . . . , xn werden als Werte der n Zufallsvariablen X1 , . . . , Xn gesehen, wobei gilt:
9.2 Sch¨ atzen von Erwartungswert und Varianz
339
– X1 , . . . , Xn haben alle den gleichen unbekannten Erwartungswert ur μ = E(Xi ) und die gleiche unbekannte Varianz σ 2 = V (Xi ) (f¨ 1 ≤ i ≤ n). – X1 , . . . , Xn sind stochastisch unabh¨ angig. Das darf angenommen werden, da die n Durchf¨ uhrungen des Experiments sich nicht gegenseitig beeinflussen (jede Durchf¨ uhrung des Experiments wird als getrennt und damit unabh¨ angig von jeder anderen Durchf¨ uhrung des Experiments angesehen). 2.
3.
Man berechnet den empirischen Mittelwert x ¯ und die empirische Varianz s2 ¯ (¯ der Daten x1 , . . . , xn . Man deutet x ¯ als Wert der Zufallsvariablen X x wird ja aus den zuf¨ alligen Werten der Zufallsvariablen X1 , . . . , Xn ermittelt). Man deutet s2 als Wert der Zufallsvariablen S 2 (s2 wird ja ebenfalls aus den zuf¨ alligen Werten der Zufallsvariablen X1 , . . . , Xn ermittelt). ¯ in der N¨ Man nimmt an, dass der Wert der Zufallsvariablen X ahe des wahren Wertes μ liegt und dass der Wert der Zufallsvariablen S 2 in der N¨ ahe des wahren Wertes σ 2 liegt.
Diese vorstehende Modellierung ist naheliegend und plausibel. Aber ist sie auch brauchbar? Brauchbarkeit bedeutet: A
B
¯ ist gleich dem unbekannten ErDer Erwartungswert der Zufallsvariablen X wartungswert μ (also gleich dem Erwartungswert jeder der Zufallsvariablen Xi ). Der Erwartungswert der Zufallsvariablen S 2 ist gleich der unbekannten Varianz σ 2 (also gleich der Varianz jeder der Zufallsvariablen Xi ).
¯ ist erwartungstreuer Sch¨ Falls A gilt, sagt man kurz: X atzer f¨ ur den unbekannten Erwartungswert μ. atzer f¨ ur die Falls B gilt, sagt man kurz: S 2 ist erwartungstreuer Sch¨ unbekannte Varianz σ 2 . Es geht nun darum, die G¨ ultigkeit der Aussagen A und B nachzuweisen. Das geschieht in folgendem Satz.
Satz 9.1 Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum mit abz¨ ahlbarer Ergebnismenge Ω. Seien X1 , . . . , Xn diskrete Zufallsvariable auf Ω, welche die folgenden Eigenschaften haben: 1. 2. 3.
X1 , . . . , Xn haben alle den gleichen unbekannten Erwartungswert μ. X1 , . . . , Xn haben alle die gleiche unbekannte Varianz σ 2 . angig. X1 , . . . , Xn sind stochastisch unabh¨
¯ das arithmetische Mittel und S 2 die empirische Varianz von Seien X X1 , . . . , Xn . Dann gilt:
340
9 Sch¨ atzen
¯ = μ. (a) E(X) ¯ = (b) V (X)
1 2 nσ .
(c) E(S 2 ) = σ 2 . Beweis: Zu Aussage (a):
¯ E(X)
=
=
n 1 E Xi · n i=1 n 1 ·E Xi n
[Satz 4.6]
i=1
=
= = =
n 1 · E(Xi ) n
1 · n
i=1 n
[Satz 4.8]
μ
i=1
1 ·n·μ n μ.
Zu Aussage (b):
¯ V (X)
=
=
n 1 Xi V n i=1 n 1 V Xi n2
[Satz 4.6]
i=1
(∗)
=
n 1 · V (Xi ) n2 i=1
= =
1 · n · σ2 n2 1 · σ2. n
Das Gleichheitszeichen bei (∗) ergibt sich wegen Satz 4.12 (denn die Zufallsvariablen X1 , . . . , Xn sind ja nach Voraussetzung stochastisch unabh¨ angig).
n 1 ¯ 2. (X − X) Zu Aussage (c): Es ist S 2 = n−1 n i=1 i 2 ¯ um. Schritt 1: Wir formen den Term i=1 (Xi − X) n
¯ 2 (Xi − X)
=
i=1
n
¯ − μ)]2 [(Xi − μ) − (X
i=1
=
n i=1
¯ − μ) + (X ¯ − μ)2 ] [(Xi − μ)2 − 2 · (Xi − μ)(X
9.2 Sch¨ atzen von Erwartungswert und Varianz =
n
341
2
¯ − μ) · (Xi − μ) − 2 · (X
i=1 (∗)
=
n
n
(Xi − μ) +
i=1
n
¯ − μ)2 (X
i=1
¯ − μ) · (n · X ¯ − n · μ) + n · (X ¯ − μ)2 (Xi − μ)2 − 2 · (X
i=1
=
n
¯ − μ)2 + n · (X ¯ − μ)2 (Xi − μ)2 − 2 · n · (X
i=1
=
n
¯ − μ)2 . (Xi − μ)2 − n · (X
i=1
(∗) gilt, weil n
(Xi − μ) =
i=1
n
Xi −
i=1
n
¯ − n · μ. μ=n·X
i=1
Schritt 2: Wir berechnen E(S 2 )! n 1 ¯ 2 E(S 2 ) = E (Xi − X) n−1 i=1 # n $ (1) 1 2 2 ¯ − μ) = E (Xi − μ) − n · (X n−1 i=1 n n 1 ¯ − μ)2 = E (Xi − μ)2 − (X n−1 n−1 i=1 # n $ ! n " (2) 1 2 ¯ − μ)2 = E (Xi − μ) −E (X n−1 n−1 i=1
(3)
=
1 n−1
n
E((Xi − μ)2 ) −
i=1 n
n ¯ − μ)2 ) E((X n−1
(4)
1 n−1
(5)
1 n 1 · n · σ2 − · · σ2 n−1 n−1 n 1 2 [n · σ − σ 2 ] n−1 σ2 .
= = =
=
V (Xi ) −
i=1
n ¯ V (X) n−1
Erl¨ auterung der Gleichheitszeichen: (1) Benutzung der Umformung aus Schritt 1. (2) Satz 4.7, angewandt auf die Zufallsvariablen 1 (Xi − μ)2 n−1 n
i=1
und
n ¯ − μ)2 . (X n−1
342
9 Sch¨ atzen
(3) Satz 4.6 und Satz 4.8. (4) Definition der Varianz. (5) Aussage (b).
9.3
Konfidenzintervalle
9.3.1
Konfidenzintervall f¨ ur die Wahrscheinlichkeit bei einer binomialverteilten Zufallsvariablen
Wir starten wieder mit einem Beispiel aus der Wirtschaft.
Beispiel 9.5 (Bekanntheitsgrad eines Produkts) Die Online-Bank Net-Bank u ¨ berlegt, ob sie ihren Werbeetat erh¨ ohen soll; dazu ist es n¨ otig, recht genau den Bekanntheitsgrad der Net-Bank innerhalb der Bev¨ olkerung zu kennen. Die PRAbteilung der Bank beauftragt ein Meinungsforschungsinstitut mit einer Umfrage unter privaten Inhabern von Girokonten deutscher Banken bez¨ uglich Bekanntheit verschiedener deutscher Banken, Bekanntheit verschiedener Finanzprodukte, W¨ unsche an das Gesch¨ aftsgebaren von Banken. Ein (Teil-)Ergebnis ist, dass von den 1000 Befragten genau 336 die Net-Bank kennen. Der Leiter der PR-Abteilung will nun wissen, in welchem Intervall der tats¨ achliche Bekanntheitsgrad der Net-Bank mit einer Wahrscheinlichkeit von mindestens 99 % liegt. Es geht um die L¨ osung der folgenden Aufgabe. Problem: Sei X eine B(n, p)-verteilte Zufallsvariable, wobei die Trefferwahrscheinlichkeit p unbekannt sei. Bei einer Realisation der zu der Zufallsvariablen X geh¨ origen Bernoulli-Kette habe sich eine Trefferzahl von k ergeben. Der Wert k kann dann als Sch¨ atzwert f¨ ur das unbekannte p angesehen werden. Die Aufn k anzugeben, in welchem das unbegabe besteht jetzt darin, ein Intervall um n kannte p mit einer m¨ oglichst großen Wahrscheinlichkeit γ liegt. [Bei unserem k einleitenden Beispiel ist n = 1000, n = 0, 336, γ = 0, 99. Hier ist ein Intervall [0, 336 − c; 0, 336 + c] gesucht, in dem p mit einer Wahrscheinlichkeit von mindestens 0,99 liegt.] L¨ osung des Problems: Wir suchen eine Zahl c ∈ IR, so dass gilt % & k k − c, + c ) ≥ γ. P (p liegt in n n Es muss also gelten: k k − c ≤ p ≤ + c. n n
(9.3)
9.3 Konfidenzintervalle
343
Wir wollen diese Ungleichung (9.3) nun geschickt so umformen, dass wir eine Ungleichung f¨ ur die Zufallsvariable X haben. Haben wir n¨ amlich ein Intervall, in welchem Werte von X liegen, k¨ onnen wir die Wahrscheinlichkeit dieses Intervalls mittels des Satzes von de Moivre/Laplace n¨ aherungsweise angeben. Aus (9.3) folgt der Reihe nach k −c ≤ p − ≤ +c, n d. h. k −c − p ≤ − ≤ +c − p, n d. h. k c + p ≥ ≥ −c + p, n d. h. k −c + p ≤ ≤ c + p, n d. h. −nc + np ≤ k ≤ nc + np. (9.4) Da k der Wert der Zufallsvariablen X ist, l¨ asst sich mittels dieser Ungleichung (9.4) unsere Aufgabe jetzt wie folgt beschreiben: Es ist c ∈ IR gesucht, so dass P (−nc + np ≤ X ≤ nc + np) ≥ γ.
(9.5)
Die Wahrscheinlichkeit, dass X Werte zwischen −nc + np und nc + np annimmt, kann aufgrund des Approximationssatzes von de Moivre/Laplace mittels der N (0, 1)-verteilten Verteilungsfunktion φ beschrieben werden:
≈
P (−nc + np ≤ X ≤ nc + np) ! nc + np − μ " ! −nc + np − μ " −φ . φ σ σ
Da X eine B(n, p)-verteilte Zufallsvariable ist, gilt μ = E(X) = np und σ = V (X) = n · p · (1 − p) (vergleiche dazu Abschnitt 5.1). Also hat man
! nc + np − μ " φ σ ! −nc + np − μ "
=
φ
! nc "
σ ! nc " φ = φ − . σ σ [Um abzuk¨ urzen, schreiben wir weiterhin σ statt n · p · (1 − p).] Somit bedeutet (9.5): ! nc " ! nc " −φ − ≥ γ. φ σ σ nc Das bedeutet (da ja φ(− nc σ ) = 1 − φ( σ ) ist): ! cn " ≥ γ + 1, 2·Φ σ
344
9 Sch¨ atzen
d. h. Φ
! cn " σ
d. h. cn ≥ φ−1 σ
≥
1 (γ + 1), 2
1 (γ + 1) , 2
d. h. c≥
1 · σ · φ−1 n
1 (γ + 1) , 2
d. h.
1 c ≥ · n · p · (1 − p) · Φ−1 n
d. h.
1 c ≥ √ · p · (1 − p) · Φ−1 n
1 (γ + 1) , 2
1 (γ + 1) . 2
Damit haben wir die gesuchte Zahl c f¨ ur unsere Ausgangsungleichung (9.3) gefunden. Aber leider h¨ angt diese Zahl noch von p ab (wegen des Wurzelterms p · (1 − p)). Wir wissen aber, dass p · (1 − p) ≤ 14 (vergleiche Hinweis 1 nach Satz 6.2). Damit ergibt sich (da nun p · (1 − p) ≤ 12 ):
1 1 c ≤ √ · Φ−1 (γ + 1) . 2 2 n Das gesuchte Intervall lautet also %
& k k 1 1 1 1 − √ · Φ−1 (γ + 1) , + √ · Φ−1 (γ + 1) . n 2 n 2 2 n 2 n Zur¨ uck zu unserem Beispiel: Hier ist γ = 0, 99. Mittels der Tabelle zur Standard-Normalverteilung erh¨ alt man
1 −1 Φ (γ + 1) = φ−1 (0, 995) = 2, 58, 2 also lautet das gesuchte Intervall % & 1 1 0, 336 − √ · 2, 58; 0, 336 + √ · 2, 58 , 2 1000 2 1000 also [0, 2952; 0, 3768]. Das bedeutet f¨ ur die Net-Bank, dass sie mit 99 %iger Wahrscheinlichkeit davon ausgehen kann, dass ihr wahrer Bekanntheitsgrad unter Girokonteninhabern zwischen 29,5 % und 37,7 % liegt.
9.3 Konfidenzintervalle
9.3.2
345
Konfidenzintervalle bei N (μ, σ 2 )-verteilten Funktionen
Ausgangspunkt ist eine Situation, in der ein gegebener Sachverhalt (in der Wirtschaft/in den Naturwissenschaften/in der Psychologie) mittels einer normalverteilten Verteilungsfunktion, genauer: mittels einer N (μ, σ 2 )-verteilten Funktion, modelliert werden kann. Oft ist es aber so, dass man den Wert μ oder den Wert σ 2 oder beide Werte nicht kennt. Man m¨ ochte aber ein Konfidenzintervall angeben, in welchem der unbekannte Wert mit einer hohen Sicherheitswahrscheinlichkeit liegt. Dabei k¨ onnen zwei Situationen mit jeweils zwei Unterf¨ allen auftauchen: 1.
2.
Es wird ein Konfidenzintervall f¨ ur μ gesucht. 2 Fall a: σ ist aufgrund von Vorerfahrungen bekannt. Fall b: σ 2 ist unbekannt Es wird ein Konfidenzintervall f¨ ur σ 2 gesucht. Fall a: μ ist aufgrund von Vorerfahrungen bekannt. Fall b: μ ist unbekannt.
Wir geben die L¨ osung der Problemstellung aus Fall 1.a zu. Es sei eine Situation gegeben, bei der n Messungen x1 , . . . , xn einer bestimmten Gr¨ oße durchgef¨ uhrt worden sind. Es gelten weiter die folgenden Ausgangsbedingungen: (A) Die Modellannahme lautet: Die Wahrscheinlichkeit, dass ein Wert x der Messgr¨ oße in einem gegebenen Intervall liegt, l¨ asst sich mittels einer 2 N (μ, σ )-Verteilungsfunktion berechnen. (B) Aufgrund von Vorerfahrungen darf man einen Wert f¨ ur die Varianz dieser Verteilungsfunktion annehmen, d. h. σ2 darf als bekannt vorausgesetzt werden. (C) F¨ ur den empirischen Mittelwert der n Messungen, also f¨ ur x ¯ = n1 n i=1 xi , gilt: Die Wahrscheinlichkeit, dass der Wert x ¯ in einem gegebenen Intervall liegt, l¨ asst sich mittels der N (μ, n1 σ 2 )-Verteilungsfunktion berechnen. (Diese letzte Aussage ist f¨ ur die Problemstellung entscheidend; sie kann aber mit den uns bisher zur Verf¨ ugung stehenden Mitteln nicht bewiesen werden.) (D) Der Wert x ¯ kann als Sch¨ atzwert f¨ ur das unbekannte μ angesehen werden. Die Aufgabe besteht jetzt darin, ein Intervall um x ¯ anzugeben, in welchem das unbekannte μ mit einer m¨ oglichst großen Wahrscheinlichkeit γ liegt. Die L¨ osung f¨ ur den Fall 1.a: Es ist c ∈ IR gesucht, so dass gilt P (μ liegt in [¯ x − c, x ¯ + c]) ≥ γ. Es muss also gelten x ¯−c≤μ≤x ¯ + c,
d. h.
μ−c≤x ¯ ≤ μ + c.
(9.6)
346
9 Sch¨ atzen
Wegen Voraussetzung (C) gilt: Die Wahrscheinlichkeit, dass der Wert x ¯ im In1 2 tervall [μ − c, μ + c] liegt, l¨ asst sich mittels der N (μ, n σ )-Verteilungsfunktion berechnen. Das heißt: Pμ, 1 σ2 ([μ − c, μ + c]) = Fμ, 1 σ2 (μ + c) − Fμ, 1 σ2 (μ − c). n
n
n
Wegen des Satzes zur Standard-Normalverteilung gilt: # $ (μ − c) − μ (μ + c) − μ , Pμ, 1 σ2 ([μ − c, μ + c]) = P0,1 n √1 σ √1 σ n n
√
√ n n = Φ c· − φ −c · σ σ
√ %
√ & n n = Φ c· − 1−φ c· σ σ
√ n = 2·Φ c· − 1. σ Damit haben wir die linke Seite der Ausgangsungleichung (9.6) exakt bestimmt. Diese Ungleichung bedeutet nun:
√ n 2·Φ c· − 1 ≥ γ. σ Also:
√ 1 n ≥ (γ + 1), d. h. φ c· σ 2
√ n 1 −1 c· ≥ Φ (γ + 1) , d. h. σ 2
1 1 −1 (γ + 1) . c ≥ √ ·σ·Φ 2 n
Das gesuchte Intervall lautet somit %
& 1 1 1 1 x ¯ − √ · σ · Φ−1 ¯ + √ · σ · Φ−1 (γ + 1) , x (γ + 1) . 2 2 n n Ein Beispiel soll das dargestellte Verfahren erl¨ autern.
Beispiel 9.6 In der Baustoffindustrie spielt die Reißfestigkeit von Folien eine große Rolle; die Reißfestigkeit wird in N (Newton) angegeben. Bei einem bestimmten Folientyp l¨ asst sich die Reißfestigkeit mit einer N (μ, σ 2 )-Verteilungsfunktion modellieren, wobei die Varianz aufgrund der Einstellungen der Produktionsstraße einen festen Wert σ 2 = 25600 hat (also eine Standardabweichung von 160 N vorliegt). Mittels einer Stichprobe von 50 produzierten Folien soll ein
9.4 Aufgaben und Erg¨ anzungen
347
Konfidenzintervall angegeben werden, in welchem μ mit einer Wahrscheinlichkeit von mindestens 99 % liegt. Bei dieser Stichprobe ergibt sich der empirische Mittelwert x ¯ zu 2400 N. Man hat in dieser Situation also folgende Daten: n = 50, x ¯n = 2400, σ = 160, γ = 0, 99. Mittels der Tabelle zur StandardNormalverteilung ermittelt man
1 Φ−1 (γ + 1) = Φ−1 (0, 995) ≈ 2, 58. 2 Damit lautet das gesuchte Intervall % & 1 1 2400 − √ · 160 · 2, 58; 2400 + √ · 160 · 2, 58 , 50 50 d. h. [2341, 62; 2458, 38].
Damit haben wir f¨ ur den in der Einleitung aufgef¨ uhrten Fall 1.a eine L¨ osung angegeben. Mit einem etwas erh¨ ohten Theorieaufwand kann man auch f¨ ur die F¨ alle 1.b, 2.a und 2.b jeweils ein solches Konfidenzintervall angeben. Man ben¨ otigt daf¨ ur allerdings andere Verteilungsfunktionen, die hier nicht behandelt worden sind: Man ben¨ otigt die Chi-Quadrat-Verteilung und die t-Verteilung.
9.4 1.
Aufgaben und Erg¨ anzungen
Man betrachte erneut die Situation aus Beispiel 9.1 (Sch¨ atzung der Anzahl weißer Kugeln in einer Urne). In diesem Beispiel hatte die Ziehung das Ergebnis zwei weiße Kugeln, eine schwarze Kugel“. ” a) Wir nehmen nun an, dass die drei gezogenen Kugeln in die Urne zur¨ uckgelegt werden und dass dann – nach gutem Durchmischen – erneut gezogen wird. Diese zweite Ziehung m¨ oge das Ergebnis keine weiße ” Kugel, drei schwarze Kugeln“ haben. Geben Sie f¨ ur diese Situation einen Maximum-Likelihood-Sch¨ atzwert f¨ ur die Anzahl K der weißen Kugeln an. b) Wir wollen nun die Ergebnisse beider Ziehungen (also erstens zwei wei” ße Kugeln, eine schwarze Kugel“ und zweitens keine weiße Kugel, drei ” schwarze Kugeln“) als Grundlage f¨ ur eine weitere Sch¨ atzung nehmen. Seien dazu X und Y die Zufallsvariablen, die bei der jeweiligen Ziehung die Anzahl der weißen Kugeln unter den drei gezogenen Kugeln angeben: Bei der ersten Ziehung war das Ergebnis X = 2, bei der zweiten
348
9 Sch¨ atzen Ziehung war das Ergebnis Y = 0. Da wir die beiden Zufallsvariablen als unabh¨ angig ansehen k¨ onnen, haben wir (siehe Definition 4.7): P (X = 2 ∧ Y = 0) = P (X = 2) · P (Y = 0). Geben Sie f¨ ur diese Situation einen Maximum-Likelihood-Sch¨ atzwert f¨ ur die Anzahl K der weißen Kugeln an.
2. 3. 4. 5.
Man erl¨ autere am Beispiel 9.3 die Bezeichnungen der Definition 9.1 und der Definition 9.2. Sei die Zufallsvariable X geometrisch verteilt mit dem unbekannten Parameter p. Geben Sie einen Maximum-Likelihood-Sch¨ atzwert f¨ ur p an. Geben Sie f¨ ur die Situation im Beispiel 9.2 einen anderen (m¨ oglichst ad¨ aquaten) Sch¨ atzer an. (Taxi-Problem) In einer bestimmten Stadt gibt es N Taxis, die alle eine vom Straßenrand gut lesbare Nummer tragen. (Mit Nummer ist nicht das Kennzeichen des Autos gemeint.) Ein Passant steht u ange¨ber einen l¨ ren Zeitraum an einer Straße mit hohem Verkehrsaufkommen und notiert sich die Nummern der vorbeifahrenden Taxis (wobei er Wiederholungen von Nummern ignoriert). Die notierten Nummern ordnet er nach Gr¨ oße an und hat dann die Nummernfolge x1 < x2 < . . . < xn (xi ∈ IN, 1 ≤ i ≤ n). Unter der Annahme, dass w¨ ahrend des Beobachtungszeitraums alle Taxis in Betrieb sind, gilt es, die Anzahl N zu sch¨ atzen. a) Geben Sie den Maximum-Likelihood-Sch¨ atzwert f¨ ur N an. b) Geben Sie zwei andere (zum Sch¨ atzer aus Teil a) alternative) Sch¨ atzer an.
10 Testen
10.1
Einseitige Tests
Wir beginnen mit einem Beispiel. Beispiel 10.1 Liegt ein gezinkter W¨ urfel vor? Zwei Kinder spielen Mensch, ¨ argere dich nicht“. Im Spielverlauf fallen so wenige ” Sechsen, dass die Behauptung ge¨ außert wird, dass der W¨ urfel so gezinkt ist, dass die Erfolgswahrscheinlichkeit p f¨ ur eine Sechs kleiner als 16 ist. Wie kann man diese Behauptung pr¨ ufen? Man muss sich zwischen zwei Hypothesen entscheiden: urfel ist ein Laplace-W¨ urfel, also p = 16 . Hypothese H0 : Der W¨ Hypothese H1 : Der W¨ urfel ist so gezinkt, dass p < 16 ist. In Kurzform schreibt man 1 , 6 1 H1 : p < . 6 H0 : p =
Nun wird man nicht herausbekommen, welche der beiden Hypothesen wahr ist, aber man m¨ ochte aufgrund von Beobachtungen (anders formuliert: aufgrund eines Tests) entscheiden, ob man die Hypothese H0 (kurz: Nullhypothese genannt) annehmen oder verwerfen soll. Dabei ist Eines von vornherein klar: Egal, f¨ ur welche Hypothese man sich entscheidet, es k¨ onnen zwei Fehler auftreten: der Fehler 1. Art: H0 ist wahr, wird aber verworfen, der Fehler 2. Art: H0 ist falsch, wird aber angenommen. ¨ Schematische Ubersicht: H0 ist wahr
H0 ist falsch
H0 wird verworfen
Fehler 1. Art
korrekte Entscheidung
H0 wird akzeptiert
korrekte Entscheidung
Fehler 2. Art
Es ist in der Statistik nun folgende Vorgehensweise u ¨blich: H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
350 1.
2. 3.
4. 5.
10 Testen Man fixiert einen Wert α f¨ ur die Wahrscheinlichkeit eines Fehlers 1. Art. Der Wert α wird Signifikanzniveau genannt. Typische Werte f¨ ur α sind in den Anwendungen 0,01; 0,025; 0,05. Man gibt pr¨ azise das Design f¨ ur einen Test an. Vor der Durchf¨ uhrung des Tests gibt man eine Entscheidungsregel an, die genau vorschreibt, bei welchen Beobachtungsergebnissen die Hypothese H0 (also im Beispiel p = 16 ) auf dem bei Schritt 1 fixierten Signifikanzniveau verworfen werden soll. Man f¨ uhrt den Test durch. Man agiert gem¨ aß der Entscheidungsregel unter 3.
Bei unserem Beispiel kann das wie folgt aussehen: 1. 2.
3.
Man setzt α = 0, 05. Das heißt: Man sagt zu Beginn, dass die Wahrscheinlichkeit f¨ ur den Fehler 1. Art h¨ ochstens 0,05 sein soll. Ein m¨ ogliches Test-Design ist: Man w¨ urfelt zwanzig Mal und z¨ ahlt die Anzahl k der Sechsen. Sei X die Zufallsvariable, welche die Anzahl der Sechsen bei 20 W¨ urfen angibt. Unter der Voraussetzung, dass die Hypothese H0 gilt, ist X eine B(20, 16 )-verteilte Zufallsvariable. Damit ergibt sich k 20−k 20 1 5 P (X = k) = . 6 6 k Wie bekommen wir nun eine Entscheidungsregel f¨ ur unseren Test? Wir werden die Hypothese H0 sicherlich dann verwerfen, wenn die Zahl der Sechsen sehr klein ist. Genauer: Wir werden H0 verwerfen, wenn die Zahl der Sechsen in einem Bereich liegt, dessen Wahrscheinlichkeit kleiner als der Wert 0,05 ist. Das bedeutet: Wir werden H0 verwerfen, falls gilt P (X = 0) + P (X = 1) + . . . + P (X = Γ) ≤ 0, 05, wobei die Zahl Γ als gr¨ oßte Zahl, die diese Ungleichung erf¨ ullt, ermittelt werden muss. Zur Bestimmung addieren wir so lange die Einzelwahrscheinlichkeiten f¨ ur Werte von k, bis die Summe u ¨ ber den festgesetzten Wert 0,05 springt:
4.
P (X = 0)
=
0, 026084,
P (X = 0) + P (X = 1)
=
0, 130420.
Hier kann man schon aufh¨ oren: Man erkennt, dass Γ = 0 gelten muss! Die Entscheidungsregel lautet also: Falls bei dem Test die Zahl der Sechsen gleich Null ist, kann auf dem Signifikanzniveau α = 0, 05 die Hypothese H0 verworfen werden. Durchf¨ uhrung des Tests.
10.1 Einseitige Tests 5.
351
Spielen wir einige Testausg¨ ange durch! Fall 1: Man hat eine Zahl von Sechsen, die zwischen 1 und 20 liegt. Aufgrund der Entscheidungsregel gibt es keinen Anlass, an der G¨ ultigkeit der Hypothese H0 zu zweifeln. Man wird – auch wenn nur eine einzige Sechs f¨ allt – die Hypothese H0 nicht verwerfen d¨ urfen. Fall 2: Es f¨ allt beim Test keine einzige Sechs. Nun darf man aufgrund der Entscheidungsregel die Hypothese H0 verwerfen. Dieses Verwerfen von H0 bedeutet gleichzeitig, dass man die Gegenhypothese H1 akzeptieren kann (mit einer Wahrscheinlichkeit von 0,05, dass H0 doch wahr ist).
Wir geben nun einige wichtige Anmerkungen zum Testen von Hypothesen bei Vorliegen einer Bernoulli-Kette. a) Wie kommt man bei einer Untersuchung zur Nullhypothese? Bei Tests ist die Ausgangsfrage immer, ob die Wahrscheinlichkeit p eines Ereignisses A verschieden ist von einem durch vorhandene Theorie gegebenen Wert p0 . In unserem Beispiel ist der theoretische Wert p0 = 16 (bei einem Laplace-W¨ urfel ist die Treffer-Wahrscheinlichkeit f¨ ur eine Sechs eben 16 ). Aufgrund gemachter Erfahrungen ist man nun u ¨ berzeugt, dass der theoretische Wert nicht korrekt ist: Man hat die Vermutung, dass die wirkliche TrefferWahrscheinlichkeit kleiner als p0 oder gr¨ oßer als p0 ist. In unserem Beispiel ist amlich p < p0 ) ist somit die Vermutung, dass p < p0 ist. Diese Vermutung (n¨ die Gegenhypothese zu der Hypothese, dass der theoretische Wert wahr ist (dass also p = p0 ist). Man nennt die Hypothese, dass der theoretische Wert wahr ist, Nullhypothese und schreibt H0 . Weiter nennt man die ausgesprochene Vermutung, dass der theoretische Wert falsch ist, Gegenhypothese und schreibt H1 . b) Wie kommt man zur Entscheidungsregel? Zum Auffinden der Entscheidungsregel geht man wie folgt vor: Man setzt ein Signifikanzniveau α (also einen Wert f¨ ur den Fehler 1. Art) fest und beschreibt einen Test mit n Versuchen. Nun unterscheiden wir zwei F¨ alle! oßte TrefFall 1: Ist die Gegenhypothese p < p0 , so suchen wir diejenige gr¨ feranzahl Γ, so dass P (X ≤ Γ) ≤ α,
d. h.
P (X = 0) + p(X = 1) + . . . + P (X = Γ) ≤ α.
Fall 2: Ist die Gegenhypothese p > p0 , so suchen wir diejenige kleinste Trefferanzahl Δ, so dass P (X ≥ Δ) ≤ α
d. h.
P (X = Δ) + . . . + P (X = n − 1) + P (X = n) ≤ α.
352
10 Testen
Diese Zahlen Γ beziehungsweise Δ heißen Testgr¨ oßen oder auch kritische Werte. Im Fall 1 bedeutet Γ: Die Wahrscheinlichkeit f¨ ur eine Trefferzahl, die kleiner/gleich Γ ist, ist kleiner als α. Ergibt sich bei der Testdurchf¨ uhrung also eine Trefferanzahl, die kleiner/gleich Γ ist, kann man (auf dem Signifikanzniveau α) die Nullhypothese H0 verwerfen. Im Fall 2 bedeutet Δ: Die Wahrscheinlichkeit f¨ ur eine Trefferanzahl, die gr¨ oßer/gleich Δ ist, ist kleiner als α. Ergibt sich bei der Testdurchf¨ uhrung also eine Trefferanzahl, die gr¨ oßer/gleich Δ ist, kann man (auf dem Signifikanzniveau α) die Nullhypothese H0 verwerfen. c) Was bedeutet Verwerfen/Nicht-Verwerfen der Nullhypothese? Wenn man H0 aufgrund der Entscheidungsregel verwirft, heißt das, dass man H1 (also die aufgestellte Vermutung) bei einem Signifikanzniveau α nun als zutreffend ansehen kann. Es sei ausdr¨ ucklich gesagt, dass das Verwerfen von H0 nicht aufgrund eines Widerspruchs zwischen H0 und der Beobachtung beim Test (Trefferanzahl) erfolgt (es liegt somit kein Widerspruch wie bei einem indirekten Vergleich vor). Die Nullhypothese kann deshalb verworfen werden, weil sich beim Test eine Beobachtung ergeben hat, die – falls H0 stimmt – extrem unwahrscheinlich ist. Wenn man H0 aufgrund der Entscheidungsregel nicht verwirft, heißt das nicht, dass man H0 nun als bewiesen annehmen kann! Es gibt einfach keinen Grund zur Verwerfung von H0 ; metaphorisch gesprochen, liegt eine ¨ ahnliche Situation vor wie bei einem Gerichtsverfahren, bei den ein Angeklagter mangels Beweisen frei gesprochen werden muss (die Schuld ist nicht erwiesen, aber die Unschuld ebenfalls nicht). Es sei nun ein weiteres Beispiel gegeben.
Beispiel 10.2 ¨ (Ubersinnliche F¨ ahigkeiten) Bei einer Party behauptet eine der anwesenden Personen, u ahigkeiten zu haben; sie sagt: Man nehme zwei Spiel¨ bersinnliche F¨ karten aus einem Skatspiel und zeige sie ihr. Dann nehme man im Verborgenen (also f¨ ur sie nicht einsehbar) eine der Karten verdeckt in die linke Hand und die andere Karte verdeckt in die rechte Hand. Ihre u ahigkeit sei ¨ bersinnliche F¨ es nun, f¨ ur jede Hand die korrekte Karte zu nennen.
Aufgabe: Man entwerfe bez¨ uglich dieser Behauptung einen Test mit n = 50 Versuchsdurchf¨ uhrungen auf dem Signifikanzniveau von α = 0, 01. (Siehe Aufgabenteil 10.6.)
10.2 Zweiseitige Tests
10.2
353
Zweiseitige Tests
Wir starten wieder mit einem Beispiel zum W¨ urfel. Beispiel 10.3 Ist der W¨ urfel fair“? Wir modifizieren das Einf¨ uhrungsbeispiel aus Abschnitt ” 10.1 ein wenig: Man m¨ ochte von einem W¨ urfel wissen, ob er ein Laplace-W¨ urfel ist, d. h. man m¨ ochte also wissen, ob jede Augenzahl mit der Wahrscheinlichkeit p = 16 f¨ allt. Wenn man den W¨ urfel aus der Praxis (also aufgrund seines Einsatzes in konkreten Spielen) nicht kennt, kann man zun¨ achst (aufgrund eines vorhandenen Misstrauens) vermuten, dass er gezinkt ist. Diese Vermutung soll getestet werden; wir erl¨ autern das Beispiel an der Augenzahl Sechs. Die Nullhypothese ist die Aussage, dass der theoretische Wert wahr ist, dass also die Erfolgswahrscheinlichkeit f¨ ur eine Sechs p = 16 ist, also H0 : p = 16 . Die Gegenhypothese ist die Aussage, dass der theoretische Wert falsch ist, dass also die Erfolgswahrscheinlichkeit f¨ ur eine Sechs p = 16 ist, also H1 : p = 16 . Nun gehen wir wieder in f¨ unf Schritten vor: 1. 2.
3.
Man fixiert einen Wert f¨ ur den Fehler 1. Art. Wir setzen wieder α = 0, 05. Test-Design: Man w¨ urfelt 20 Mal und z¨ ahlt die Anzahl der Sechsen. Sei X die Zufallsvariable, welche die Anzahl der Sechsen bei den zwanzig W¨ urfen angibt. Unter der Voraussetzung, dass H0 gilt, ist X eine B(20, 16 )-verteilte Zufallsvariable. Wie bekommen wir eine Entscheidungsregel f¨ ur unseren Test? Wir werden H0 verwerfen, wenn die Zahl der Sechsen sehr klein oder sehr groß ist. Da also der Verwerfungsbereich aus zwei Teilbereichen besteht (einerseits der Teilbereich mit einer sehr kleinen Anzahl von Sechsen, andererseits der Teilbereich mit einer sehr großen Anzahl von Sechsen), teilen wir die Wahrscheinlichkeit 0,05 dementsprechend h¨ alftig auf: Wir suchen einerseits einen Teilbereich (von sehr kleinen Sechser-Anzahlen), dessen Wahrscheinlichkeit kleiner/gleich 0,025 ist und andererseits einen Teilbereich (von sehr großen Sechser-Anzahlen), dessen Wahrscheinlichkeit ebenfalls kleiner/gleich 0,025 ist. Das bedeutet: Wir werden H0 verwerfen, falls P (X = 0) + P (X = 1) + . . . + P (X = Γ) ≤ 0, 025 P (X = Δ) + . . . + P (X = 19) + P (X = 20) ≤ 0, 025, wobei die Zahlen Γ und Δ berechnet werden m¨ ussen. Zur Ermittlung von Γ: Da schon f¨ ur k = 0 gilt, dass P (X = 0) = 0, 026084, gibt es kein Γ mit
Γ k=0
P (X = k) < 0, 025.
oder
354
10 Testen Zur Ermittlung von Δ: Man hat 20
P (X = k)
=
0, 011253 < 0, 025
P (X = k)
=
0, 037135 > 0, 025;
k=8
und
20 k=7
4. 5.
das bedeutet: Es ist Δ = 8. Die Entscheidungsregel lautet also: Falls bei dem Test die Zahl der Sechsen gr¨ oßer/gleich 8 ist, kann auf dem Signifikanzniveau α = 0, 05 die Hypothese H0 verworfen werden. Durchf¨ uhrung des Tests. Spielen wir einige Testausg¨ ange durch!
Es sei ein zweites Beispiel f¨ ur einen zweiseitigen Test gegeben.
Beispiel 10.4 (Vorzeichentest) Ein Agrarunternehmen hat eine neue winterharte Weizensorte WNEU gez¨ uchtet, die auch sehr ung¨ unstigen Witterungsbedingungen in n¨ ordlichen Breitengraden trotzen kann. Die Frage ist, ob sie sich hinsichtlich des Ernteertrages von einer Standardweizensorte WALT unterscheidet. Das Agrarunternehmen geht von Ver¨ anderungen bei den Ernteertr¨ agen aus. Dabei k¨ onnen sich zwei unterschiedliche Fragestellungen ergeben: 1.
2.
Das Unternehmen hat die Vermutung, dass es Unterschiede bei den Ertr¨ agen bei WALT im Vergleich zu den Ertr¨ agen bei WNEU gibt; es hat aber keine Idee, in welche Richtung die Ver¨ anderung bei den Ertr¨ agen geht: Es hat keine Indizien, ob WNEU gr¨ oßere oder geringere Ertr¨ age bringt. Das Unternehmen hat aufgrund bestimmter Indizien (etwa Laborergebnisse) die Vermutung, dass WNEU bessere/gr¨ oßere Ertr¨ age bringen wird als WALT .
Die Vorgehensweise zum Testen der Vermutung ist in beiden F¨ allen (also 1. und 2.) dieselbe: Die beiden Weizensorten WALT und WNEU werden an 20 Standorten angebaut; an dem jeweiligen Standort Si (1 ≤ i ≤ 20) wird auf der einen H¨ alfte alfte die Sorte WALT angebaut. Bei der Ernte WNEU und auf der anderen H¨ ergeben sich die folgenden Ertr¨ age (in Dezitonnen pro Hektar):
10.2 Zweiseitige Tests
Standort
355
Ertrag EALT
Ertrag ENEU
Differenz
bei WALT
bei WNEU
EALT − ENEU
1
64,5
64,7
-0,2
2
75,0
74,8
0,2
3
72,5
75,6
-3,1
4
70,2
75,2
-5,0
5
65,3
65,6
-0,3
6
66,1
67,7
-1,6
7
72,1
73,0
-0,9
8
70,1
69,9
0,2
9
70,7
72,3
-1,6
10
69,2
70,7
-1,5
11
67,3
66,1
1,2
12
70,1
72,3
-2,2
13
71,6
73,9
-2,3
14
68,7
67,1
1,6
15
74,2
77,2
-3,0
16
66,1
72,7
-6,6
17
69,9
68,0
1,9
18
72,3
74,9
-2,6
19
68,7
71,4
-2,7
20
76,1
76,9
-0,8
Vorzeichen
Wir erl¨ autern nun das Vorgehen im oben angesprochenen Fall 1: Das Unternehmen hat die Vermutung, dass die Ernteertr¨ age bei WNEU und WALT unterschiedlich sind. Diese Vermutung soll getestet werden. age unterscheiden sich nicht. Die Die Nullhypothese H0 lautet: Die Ernteertr¨ Gegenhypothese H1 lautet: Die Ernteertr¨ age unterscheiden sich. Wir gehen wieder in f¨ unf Schritten vor: 1. 2.
Als Signifikanzniveau setzen wir α = 0, 05. Test-Design: Man notiert in der letzten Spalte der obigen Tabelle u ¨ berall dort ein +“, wo sich in der vierten Spalte der Tabelle ein positiver Wert ” ergeben hat. ussen die Wahrscheinlichkeiten f¨ ur eine positive Falls H0 zutreffend ist, m¨ Differenz und die Wahrscheinlichkeiten f¨ ur eine negative Differenz gleich
356
3.
10 Testen sein, d. h. p = (Differenz ist positiv) = (Differenz ist negativ) = 12 . Sei nun V diejenige Zufallsvariable, die die Anzahl der positiven Differenzen angibt. Unter der Voraussetzung, dass H0 gilt, ist V eine B(20, 12 )-verteilte Zufallsvariable. Entscheidungsregel: Wir werden H0 verwerfen, wenn die Zahl der positiven Differenzen sehr klein oder sehr groß ist. Das heißt, wir werden H0 verwerfen, falls Γ
P (X = k) ≤ 0, 025
k=0
oder
20
P (X = k) ≤ 0, 025,
k=Δ
wobei die Zahlen Γ und Δ bestimmt werden m¨ ussen. Man hat einerseits 5
P (X = k) = 0, 020695 < 0, 025,
k=0
und andererseits 20
P (X = k) = 0, 020695 < 0, 025,
k=15
4. 5.
also Γ = 5, Δ = 15. Die Entscheidungsregel lautet also: Falls bei dem Test die Zahl der positiven Differenzen kleiner/gleich 5 oder gr¨ oßer/gleich 15 ist, kann auf dem Signifikanzniveau α = 0, 05 die Hypothese H0 verworfen werden. Durchf¨ uhrung des Tests: Man stellt anhand der letzten Spalte der obigen Tabelle fest, dass es f¨ unf positive Differenzen gibt. Wegen der Entscheidungsregel wird man H0 verwerfen.
10.3
Testen unter Verwendung der Normalverteilung
In den Abschnitten 10.1 und 10.2 haben wir immer die ben¨ otigten Wahrscheinlichkeiten mittels der Binomialverteilung explizit ausgerechnet. Falls nun die Zahl n der Versuchsausf¨ uhrungen sehr groß ist, werden wir statt der Binomialverteilung die Approximation derselben durch die Normalverteilung verwenden. Wir benutzen dazu den Approximationssatz von de Moivre/Laplace (siehe Teilabschnitt 8.5.3).
10.3 Testen unter Verwendung der Normalverteilung
357
Beispiel 10.5 (Liegt eine faire“ M¨ unze vor?) Man will wissen, ob eine gegebene M¨ unze ” eine Laplace-M¨ unze ist. Die erst einmal vorhandene Vermutung lautet: Die M¨ unze ist nicht fair“. Die zugeh¨ orige Nullhypothese lautet: Die M¨ unze ist fair. ” Sei p die Erfolgswahrscheinlichkeit f¨ ur den Treffer Wappen“; dann hat man f¨ ur ” den Test 1 1 H0 : p = gegen H1 : p = . 2 2
Wir gehen wieder in f¨ unf Schritten vor: 1. 2.
3.
Wir legen als Signifikanzniveau α = 0, 01 fest. Test-Design: Man wirft die M¨ unze 1000 Mal und notiert die Anzahl von Wappen“. Sei X die Zufallsvariable, welche die Anzahl der Treffer angibt. ” Unter der Voraussetzung, dass H0 gilt, ist X eine B(1000, 12 )-verteilte Zu k n−k fallsvariable, also P (X = k) = n f¨ ur k ∈ {0, 1, . . . , 1000}. k · p · (1 − p) Wie gewinnt man jetzt eine Entscheidungsregel f¨ ur den Test? Wir werden H0 verwerfen, wenn die Anzahl von Wappen“ sehr klein oder sehr groß ” ist. Ganz analog wie in Beispiel 10.3 gilt, dass H0 verworfen wird, falls Γ
P (X = k) ≤ 0, 005
(I)
P (X = k) ≤ 0, 005.
(II)
k=0
oder
1000 k=Δ
Dabei muss Γ als gr¨ oßte Zahl, die die Ungleichung (I) erf¨ ullt, ermittelt werden und Δ als kleinste Zahl, die die Ungleichung (II) erf¨ ullt. Da f¨ ur jedes k ∈ {0, 1, . . . , Γ} gilt: k 1000−k 1000 1 1 · · P (X = k) = 2 2 k 1000 1000 1 = · k 2 1000−k k 1000 1 1 = · · 2 2 1000 − k =
P (X = 1000 − k),
sind bei Ungleichung (II) genau die gleichen Summanden beteiligt wie bei Ungleichung (I). Da f¨ ur das Erf¨ ulltsein von (I) genau Γ + 1 Summanden ben¨ otigt werden, werden dieselben Summanden f¨ ur das Erf¨ ulltsein von (II)
358
10 Testen ben¨ otigt. Das bedeutet: Δ = 1000 − Γ. Somit kann man die Bedingungen (I) und (II) wie folgt zusammenfassen: Γ
1000
P (X = k)
≤
0, 01,
d. h.
P (X ≤ Γ) + P (X ≥ 1000 − Γ)
≤
0, 01,
d. h.
1 − P (Γ + 1 ≤ X ≤ 1000 − Γ − 1)
≤
0, 01,
d. h.
P (Γ + 1 ≤ X ≤ 1000 − Γ − 1)
≥
0, 99.
P (X = k) +
k=0
k=1000−Γ
Wegen des Approximationssatzes von de Moivre/Laplace gilt !s − μ" !r − μ" −φ mit r, s ∈ IN, p(r ≤ X ≤ s) ≈ φ σ σ √ wobei wir wissen, dass μ = n · p = 500 und σ = n · p · (1 − p) = 250 gilt (Erwartungswert und Varianz binomialverteilter Zufallsvariabler). Also hat man:
1000 − Γ − 1 − 500 Γ + 1 − 500 √ √ φ −φ ≥ 0, 99. (III) 250 250 Da sicherlich 0 ≤ Γ ≤ 499 ist, ist
φ
Γ − 499 √ 250
Γ+1−500 √ 250
≤ 0. Somit gilt
499 − Γ Γ − 499 √ =1−Φ − √ =1−Φ . 250 250
Damit ist (III) ¨ aquivalent zu
%
& 499 − Γ 499 − Γ √ √ Φ − 1−φ 250 250
499 − Γ √ −1 d. h. 2·Φ 250
499 − Γ √ d. h. Φ 250
≥
0, 99,
≥
0, 99,
≥
0, 995.
Mittels der Tabelle zur Standard-Normalverteilung ergibt sich 499 − Γ √ ≥ 2, 58, 250
4. 5.
woraus Γ ≤ 458 folgt. Damit haben wir die Entscheidungsregel gefunden: Man verwerfe H0 , falls die Zahl von Wappen“ kleiner/gleich 458 oder gr¨ oßer/gleich 542 ist. ” Durchf¨ uhrung des Tests und Notieren der Anzahl von Wappen“. ” Beibehaltung oder Verwerfung von H0 entsprechend der Anzahl von Wap” pen“.
10.3 Testen unter Verwendung der Normalverteilung
359
Ein weiteres Beispiel soll die Anwendung des Approximationssatzes von de Moivre/Laplace bei einem einseitigen Test verdeutlichen. Beispiel 10.6 (Landtagswahl) Im Bundesland L macht sich die große Partei ABC Sorgen, dass die kleine Partei XYZ in den Landtag einziehen k¨ onnte. Der nerv¨ ose Parteivorstand von ABC bittet ein Parteimitglied, das von Hause aus Statistiker ist, einen Test zu entwickeln, mit dem die brennende Frage gekl¨ art werden kann: Darf ABC davon ausgehen, dass XYZ nicht in den Landtag kommt? Das Parteimitglied geht wie folgt vor: Die Vermutung (oder besser gesagt: die Hoffnung) von Partei ABC ist, dass Partei XYZ an der 5-%-H¨ urde scheitert. Die zugeh¨ orige Nullhypothese lautet: Partei XYZ erh¨ alt mindestens 5 % der Stimmen. Sei p die Erfolgswahrscheinlichkeit f¨ ur die Partei XYZ, so hat man f¨ ur den Test: H0 : p ≥ 0, 05 H1 : p < 0, 05. 1. 2.
Das Parteimitglied legt ein Signifikanzniveau von α = 0, 05 fest. Der Kassenwart der Partei ABC wird gebeten, eine Meinungsumfrage in Auftrag zu geben. Im Vorfeld des Umfrageergebnisses plant der Statistiker schon einmal die Entscheidungsregel. Sei X die Zufallsvariable, die die Anzahl der Stimmen f¨ ur XYZ bei der Umfrage unter n Wahlberechtigten 5 )-verteilte Zufallsvariable, also angibt. Falls H0 gilt, ist X eine B(n, 100
k
n−k n 5 95 · · f¨ ur k ∈ {0, 1, . . . , n}. P (X = k) = 100 100 k Wegen des Approximationssatzes hat man
Γ−μ P (X ≤ Γ) ≈ φ mit σ
3. 4.
5.
Γ ∈ IN,
wobei μ = n · p und σ = n · p · (1 − p) gilt. Man wird H0 verwerfen, wenn bei der Meinungsumfrage die Stimmenanzahl von Partei XYZ sehr klein ist. Die Meinungsumfrage wird durchgef¨ uhrt. Das Institut, das die Umfrage durchgef¨ uhrt hat, teilt der Partei Folgendes mit: Gr¨ oße der Stichprobe n = 1216, Stimmenanzahl f¨ ur die Partei XYZ 49. Der Partei-Statistiker rechnet: Unter der Voraussetzung von H0 hat man μ
=
σ
=
5 n · p = 1216 · = 60, 80, 100 n · p · (1 − p) = 1216 · 0, 05 · 0, 95 = 7, 6.
Damit l¨ asst sich nun die kritische Grenze Γ ausrechnen:
Γ−μ Γ − 60, 8 P (X ≤ Γ) ≈ φ =φ . σ 7, 6
360
10 Testen Die Ungleichung P (X ≤ Γ) ≤ 0, 05 bedeutet also
Γ − 60, 8 φ ≤ 0, 05. 7, 5 Da die kritische Grenze Γ (also die Anzahl der Stimmen f¨ ur Parteil XYZ) ≤ 0. Also gilt sicherlich kleiner als 60 ist, folgt Γ−60,8 7,5
Φ
Γ − 60, 8 7, 5
Damit hat man
Γ − 60, 8 =1−φ − . 7, 5
⇔ ⇔
Γ − 60, 8 ≤ 0, 05 φ 7, 5
Γ − 60, 8 1−φ − ≤ 0, 05 7, 5
60, 8 − Γ ≥ 0, 95. φ 7, 5
Die Tabelle zur Standard-Normalverteilung liefert: 60, 8 − Γ ≥ 1, 65, 7, 5
d. h.
Γ ≤ 47, 625.
Also kann H0 auf dem Signifikanzniveau α = 0, 05 verworfen werden, falls die Zahl der Stimmen f¨ ur Partei XYZ bei der Umfrage kleiner gleich 47 ist. Da das Meinungsumfrageinstitut aber bei der Umfrage eine Stimmenanzahl von 49 f¨ ur Partei XYZ ermittelt hat, kann H0 nicht verworfen werden und muss beibehalten werden. F¨ ur die Partei ABC ist das eine frustrierende Erkenntnis; sie muss sich weiterhin große Sorgen um den Einzug der Partei XYZ in den Landtag machen.
10.4
Zusammenfassung zum Thema Hypothesentest“ ”
¨ Es sei eine Ubersicht zum Testen von Hypothesen bei Vorhandensein einer Bernoulli-Kette der L¨ ange n gegeben. In der folgenden Tabelle sei p0 immer der theoretisch vorhandene Wert der Nullhypothese und α das Signifikanzniveau.
10.5 Qualit¨ atskontrolle
361
Vermutung
Nullhypothese
zu l¨ osende Ungleichung
p ≤ p0
p = p0
P (X ≤ Γ) ≤ α
p ≥ p0
p = p0
P (X ≥ Δ) ≤ α
p = p0
p = p0
P (X ≤ Γ) ≤ 12 α; P (X ≥ Δ) ≤ 12 α d. h. P (X ≤ Γ) + P (X ≥ Δ) ≤ α d. h. 1 − P (Γ < X < Δ) ≤ α d. h. P (Γ < X < Δ) ≥ 1 − α
10.5
Qualit¨ atskontrolle
In diesem Abschnitt wollen wir uns mit dem Fehler 2. Art besch¨ aftigen, also mit der Situation, dass eine Nullhypothese falsch ist und trotzdem angenommen wird. Ein solcher Fehler 2. Art tritt immer dann auf, wenn das Beobachtungsergebnis (bei Schritt 4 des Tests) nicht in den (bei Schritt 3 des Tests) berechneten kritischen Bereich f¨ allt, aber H1 zutreffend ist. In welchen Alltagssituationen spielt nun der Fehler 2. Art eine entscheidende Rolle? Zur Kl¨ arung dieser Frage wollen wir einen typischen Sachverhalt aus der Wirtschaft analysieren – die Qualit¨ atskontrolle beim Handel mit Waren. Bei Produktionsprozessen in Industrie oder Landwirtschaft ist es oft so, dass ein gewisser Prozentsatz einer Produktquantit¨ at nicht die gew¨ unschte Qualit¨ at hat und insofern Ausschuss ist. Diesen Ausschussanteil ermittelt man durch eine Qualit¨ atskontrolle der produzierten Ware: Auf der einen Seite gibt es beim Produzenten (Verk¨ aufer) Kontrollen der Produktqualit¨ at; aufgrund von Stichproben aus einer Partie (eines Loses) eines Erzeugnisses kann er den Ausschussanteil p ermitteln. Diese Kontrolle auf Seiten des Produzenten bezeichnet man als Ausgangskontrolle oder Endkontrolle. Andererseits gibt es nat¨ urlich beim Konsumenten (K¨ aufer) einer Ware auch solche Kontrollen, auch er zieht Stichproben aus Lieferungen einer Ware und entscheidet aufgrund dieser Stichproben, ob er die Warenlieferung annimmt oder zur¨ uckweist. Diese Kontrolle auf Seiten des Konsumenten bezeichnet man als Eingangskontrolle. Es sei noch erw¨ ahnt, dass es bei der Ausgangskontrolle auf Produzentenseite bzw. bei der Eingangskontrolle auf Konsumentenseite um eine reine GutSchlecht-Pr¨ ufung geht: Es geht bei jedem Element der Produkt-Stichprobe einzig um die Feststellung, ob dieses Element vorgegebenen qualitativen oder quantitativen Merkmalen gen¨ ugt oder nicht. Bei der Qualit¨ atskontrolle gibt es neben
362
10 Testen
der Option einer Gut-Schlecht-Pr¨ ufung auch die Option einer laufenden Kontrolle der Produktion. Auf diese zweite Option der Qualit¨ atskontrolle wird hier nicht eingegangen. Wie l¨ auft nun das Agieren von Verk¨ aufer und K¨ aufer bei Warenlieferungen genau ab? Welche (finanziellen) Risiken liegen beim Verk¨ aufer einerseits und beim K¨ aufer andererseits? Auf der Seite des Produzenten ist im Allgemeinen ur ein gewisses Produkt aufgrund von Vorerfahrungen der Ausschussanteil p0 f¨ P bekannt: Wenn der Produzent auf seinen guten Ruf bedacht ist, f¨ uhrt er in regelm¨ aßigen Abst¨ anden Tests durch, um einen m¨ oglichen Verdacht, dass der uhrt im Ausschussanteil p doch den Wert p0 u ¨ berschreitet, zu verwerfen (er f¨ Bedarfsfall einen einseitigen Test mit der Nullhypothese H0 : p ≤ p0 durch). Bestellt ein Kunde beim Produzenten eine große Partie des Erzeugnisses E, so teilt der Produzent diesem Kunden (dem Empf¨ anger) vor oder bei der Lieferung gleich mit, dass mit einem Ausschussanteil p0 gerechnet werden muss. Nun ist es oft so, dass die Vertragspartner im Vorfeld der Lieferung einen Pr¨ ufplan vereinbaren; ein solcher Pr¨ ufplan enth¨ alt folgende vertragliche Vereinbarung: Der Empf¨ anger kann aufgrund einer klaren Entscheidungsregel die Lieferung annehmen oder ablehnen. Dazu muss auf Empf¨ angerseite in folgenden Schritten vorgegangen werden: 1. 2. 3.
Ziehen einer Stichprobe vom Umfang n (die Zahl n ist im Plan festgelegt). Feststellen der Anzahl der schlechten St¨ ucke in dieser Stichprobe. Vergleich der Anzahl der schlechten St¨ ucke mit einer im Pr¨ ufplan festgelegten Annahmezahl Γ: Ist die Anzahl der schlechten St¨ ucke h¨ ochstens gleich Γ, so muss die Lieferung angenommen werden; ist die Anzahl der schlechten St¨ ucke gr¨ oßer als Γ, so kann die Lieferung abgelehnt (also zur¨ uckgegeben) werden. Bei einem solchen Pr¨ ufplan liegen also folgende Voraussetzungen vor: Nullhypothese: Ausschussanteil ist p0 , also p = p0 . Stichprobenumfang n. Annahmezahl Γ.
Nun gibt es auf beiden Seiten (Produzent und Konsument) Risiken: Erstens kann es passieren, dass der Konsument die Lieferung ablehnt, obwohl sie gut ist. Das Eintreten dieses Falls ist der Fehler 1. Art, also der Fehler H wird verworfen, obwohl H0 wahr ist.“ ” 0 Sei α die Wahrscheinlichkeit dieses Fehlers, also α = P ( H0 wird verworfen, obwohl H0 wahr ist“). ” Offenbar ist diese Wahrscheinlichkeit α das Risiko f¨ ur den Produzenten: Der Produzent m¨ ochte α m¨ oglichst klein haben, um nicht den unangenehmen Sachverhalt zu erleben, eine Lieferung zur¨ ucknehmen zu m¨ ussen, obwohl sie gut ist. Zweites kann es passieren, dass der Konsument die Lieferung annimmt, obwohl sie schlecht ist. Das Eintreten dieses Falls ist der Fehler 2. Art, also der Fehler
10.5 Qualit¨ atskontrolle
363
H wird angenommen, obwohl H0 falsch ist.“ ” 0 Sei β die Wahrscheinlichkeit dieses Fehlers, also β = P ( H0 wird angenommen, obwohl H0 falsch ist“). ” Offenbar ist diese Wahrscheinlichkeit β das Risiko f¨ ur den Konsumenten: Der Konsument m¨ ochte β m¨ oglichst klein haben, um nicht den unangenehmen Sachverhalt zu erleben, eine Lieferung angenommen zu haben, obwohl sie schlecht ist. Ein guter (man sagt trennscharfer“) Pr¨ ufplan soll nat¨ urlich gute Lieferun” ” gen“ von schlechten Lieferungen“ unterscheiden: Eine Lieferung heißt gut oder ” akzeptabel, wenn ihr Ausschussanteil p eine bestimmte Schranke p0 nicht u ¨ berschreitet (also p ≤ p0 ), eine Lieferung heißt schlecht oder inakzeptabel, wenn ihr Ausschussanteil eine bestimmte Schranke p1 nicht unterschreitet (also p ≥ p1 ). Da der Konsument aber den wahren Ausschussanteil p der Lieferung nat¨ urlich nicht kennt, ist f¨ ur ihn die folgende Frage von entscheidendem Interesse: Welcher Zusammenhang besteht zwischen der Qualit¨ at einer Lieferung (also dem wahren Ausschussanteil p) und der Wahrscheinlichkeit β, dass sie vom Konsumenten angenommen wird? Sei X die Zufallsvariable, die die Anzahl der Ausschussst¨ ucke bei dieser Stichprobe vom Umfang n angibt. Dann darf im Modell angenommen werden, dass X eine B(n, p)-verteilte Zufallsvariable ist. Streng genommen ist X hypergeometrisch verteilt, da die Stichprobe ja ein Ziehen ohne Zur¨ ucklegen bedeutet. Aber – wie schon am Ende des Beispiels 5.4 betont – ist es auch statthaft, das Modell einer binomialverteilten Zufallsvariablen zu benutzen. Aufgrund des Pr¨ ufplans wird die Wahrscheinlichkeit, dass der Konsument die Lieferung annimmt, gegeben als β(p)
= =
P (Anzahl der Ausschussst¨ ucke ist kleiner/gleich Γ) Γ Γ n k P (X = k) = p · (1 − p)n−k , k k=0
k=0
wobei n der vereinbarte Stichprobenumfang und Γ die vereinbarte Annahmezahl ist. Da diese Wahrscheinlichkeit von p abh¨ angt, k¨ onnen wir β als Funktion von p auffassen, d. h. wir haben folgende Funktion: Γ n · pk · (1 − p)n−k . β : [0, 1] → [0, 1], p → k k=0
Die Funktion β gibt also (bei festem n und festem Γ) in Abh¨ angigkeit von n das Konsumentenrisiko an. Wir wollen uns diese Funktion β in einer konkreten Situation anschauen: Bei einer Lieferung sei ein Pr¨ ufplan vereinbart mit n = 80 und Γ = 10. Dann sieht der Graph von β so aus:
364
10 Testen
Man erkennt an diesem Graphen sehr sch¨ on die Risiken f¨ ur den Produzenten 1 der vom Produzenten mitgeteilte Ausund den Konsumenten: Sei p0 = 10 2 schussanteil, sei p1 = 10 der vom Konsumenten bef¨ urchtete Ausschussanteil. Dann ist die Lieferung akzeptabel, wenn p ≤ p0 gilt, und inakzeptabel, wenn p ≥ p1 gilt. Das bedeutet: H0 : p ≤
1 10
H1 : p ≥
2 . 10
Wir berechnen nun Produzentenrisiko und Konsumentenrisiko. Produzentenrisiko: Da die Funktion β streng monoton fallend ist, ist das 1 Produzentenrisiko am gr¨ oßten, wenn H0 gilt mit dem Wert p = p0 = 10 . P (H0 wird verworfen, obwohl H0 wahr ist mit p = p0 = = =
= = =
1 ) P (Mindestens 11 Ausschussst¨ ucke, obwohl p = p0 = 10
80 k 80−k 80 1 9 · 10 10 k k=11 10 k 80−k 80 1 9 1− · · 10 10 k k=0
1 1−β 10 0, 1734.
1 ) 10
10.5 Qualit¨ atskontrolle
365
Konsumentenrisiko: Da die Funktion β streng monoton fallend ist, ist das 2 . Konsumentenrisiko am gr¨ oßten, wenn H1 gilt mit dem Wert p = p1 = 10 P (H0 wird akzeptiert, obwohl H1 wahr ist mit p = p1 = = = = =
2 ) 10
2 ) P (H¨ ochstens 10 Ausschussst¨ ucke, obwohl p = p1 = 10
10 k 80−k 80 2 8 · · 10 10 k k=0
2 β 10 0, 0565.
Beide Risiken stellen wir nun graphisch dar.
Man kann also sagen, dass dieser Pr¨ ufplan problematisch ist: Das Produzentenrisiko ist mit dem Wert von 17 % zu hoch, das Konsumentenrisiko ist mit dem Wert von 6 % eventuell annehmbar. Wir wollen uns nun die Funktion β f¨ ur zwei andere Werte von Γ anschauen (es ist unver¨ andert n = 80).
366
10 Testen Γ=5
Γ = 15
Im ersten Fall (Γ = 5) erh¨ alt man: Produzentenrisiko α
=
= = = Konsumentenrisiko
80 k 80−k 80 1 9 · · 10 10 k k=6
k 80−k 5 80 1 9 1− · · 10 10 k k=0
1 1−β 10 0, 8231
5 k 80−k 80 2 8 · · 10 10 k k=0
2 = β 10 = 0, 0006.
Ein solcher Pr¨ ufplan ist inakzeptabel: Das Produzentenrisiko ist mit dem Wert von 82 % viel zu hoch; das Konsumentenrisiko ist dagegen fast nicht vorhanden. Im zweiten Fall (Γ = 15) erh¨ alt man: Produzentenrisiko α
=
= = =
k 80−k 80 1 9 · · k 10 10 k=16
k 80−k 15 80 1 9 1− · · 10 10 k k=0
1 1−β 10 0, 0053 80
10.5 Qualit¨ atskontrolle Konsumentenrisiko
367
15 k 80−k 80 2 8 · · 10 10 k k=0
2 = β 10 = 0, 4555.
Auch dieser Pr¨ ufplan ist inakzeptabel: Zwar ist das Produzentenrisiko verschwindend klein, aber das Konsumentenrisiko ist mit dem Wert von 46 % sicherlich zu hoch. Man sieht also, dass man mit der Funktion β sehr sch¨ on arbeiten kann; diese Funktion hat in der Statistik einen eigenen Namen. Definition 10.1 (Annahmekennlinie, Operationscharakteristik) Sei X eine B(n, p)-verteilte Zufallsvariable, sei Γ eine feste Zahl zwischen 0 und n. Dann heißt die Funktion β : [0, 1] → [0, 1] mit Γ n · pk · (1 − p)n−k p → β(p) := P (X ≤ Γ) = k k=0
Annahmekennlinie zum Wert Γ oder Operationscharakteristik zum Wert Γ (auch kurz: OC-Kurve zum Wert Γ). Oben sind f¨ ur drei Werte von Γ die zugeh¨ origen OC-Kurven gezeichnet worden. Anhand dieser Graphen erkennt man deutlich zwei Sachverhalte: Je gr¨ oßer die Annahmezahl Γ ist, desto kleiner wird das Produzentenrisiko. Je kleiner die Annahmezahl Γ ist, desto kleiner wird das Konsumentenrisiko. Γ
1 α = 1 − β( 10 )
2 β( 10 )
5
0,8231
0,0006
10
0,1734
0,0565
15
0,0053
0,4555
Automatisch stellen sich nun drei Fragen: 1.
2.
Wie muss Γ gew¨ ahlt werden, damit das Produzentenrisiko bei festem Stichprobenumfang n m¨ oglichst klein ist (also etwa kleiner/gleich dem Wert α = 0, 05 ist)? Wie muss Γ gew¨ ahlt werden, damit das Konsumentenrisiko bei festem Stichprobenumfang n m¨ oglichst klein ist (also etwa kleiner/gleich dem Wert β = 0, 05 ist)?
368 3.
10 Testen Wie m¨ ussen der Stichprobenumfang n und die Annahmezahl Γ gew¨ ahlt werden, damit beide Risiken (also Produzentenrisiko und Konsumentenrisiko) m¨ oglichst klein sind?
Die ersten beiden Fragen sind leicht zu beantworten. Die L¨ osung sei wieder an unserem Beispiel erl¨ autert. Zu Frage 1: Wir w¨ ahlen α = 0, 05. Der Ansatz lautet dann: Es ist Γ gesucht, so dass 80 k 80−k n 1 9 · · ≤ 0, 05. k 10 10 k=Γ+1
Das bedeutet:
Γ k 80−k 80 1 9 1− · · k 10 10 k=0
80−k Γ k 80 1 9 ⇔ · · k 10 10
≤
0, 05
≥
0, 95.
k=0
Nun gibt es zwei M¨ oglichkeiten, Γ zu berechnen: A: Man addiert so lange Summanden auf der linken Seite der Ungleichung, bis man den Wert Γ gefunden hat, so dass die Gesamtsumme gr¨ oßer/gleich 0,95 ist. Diese Methode ist etwas m¨ uhsam. B: Man benutzt wieder den Approximationssatz von de Moivre/Laplace. 1 = 8 und Bei Methode B geht man wie folgt vor: Da μ = 80 · 10 1 9 σ = 80 · 10 · 10 ≈ 2, 68, folgt mittels des Approximationssatzes
Γ k 80−k 80 1 9 Γ−8 · · ≈φ . 10 10 2, 68 k
k=0
Also muss man die Ungleichung
Φ
Γ−8 2, 68
≥ 0, 95
l¨ osen. Mittels der Tabelle zur Standard-Normalverteilung ergibt sich Γ−8 ≥ 1, 65, 2, 68
d. h.
Γ ≥ 12, 42.
Also sollte der Produzent darauf achten, dass im Pr¨ ufplan eine Annahmezahl Γ steht, die mindestens 13 ist. Zu Frage 2: Wir w¨ ahlen β = 0, 05 und gehen ganz ¨ ahnlich wie bei der Beantwortung von Frage 1 vor!
10.5 Qualit¨ atskontrolle
369
Der Leser zeige, dass man als L¨ osung Γ ≤ 10, 09 erh¨ alt. Also sollte der Konsument darauf achten, dass im Pr¨ ufplan eine Annahmezahl Γ steht, die h¨ ochstens 10 ist. Man sieht anhand der Beantwortung der Fragen 1 und 2, dass es in unserem Beispiel (bei einem Stichprobenumfang von n = 80) keinen Pr¨ ufplan gibt, welcher die Interessen beider Seiten angemessen ber¨ ucksichtigt: Der Produzent m¨ ochte eine Annahmezahl Γ mit Γ ≥ 13, der Konsument m¨ ochte eine Annahmezahl Γ mit Γ ≤ 10. Damit sind wir genau bei dem in obiger Frage 3 angesprochenen Sachverhalt – n¨ amlich: Kann ein Pr¨ ufplan so ausgestattet werden, dass Produzentenrisiko und Konsumentenrisiko m¨ oglichst klein sind? Diese Frage soll im Folgenden allgemein beantwortet werden. Zun¨ achst zwei Begriffe aus der Qualit¨ atspr¨ ufung: Der vom Produzenten angegebene Ausschussanteil p0 wird auch als AQL (acceptable quality level) bezeichnet. Der AQL ist also der Ausschussanteil, bei dem die Lieferung noch akzeptabel ist. Der Konsument fixiert f¨ ur sich einen Ausschussanteil p1 , bei dem die Lieferung mit sehr großer Wahrscheinlichkeit abgelehnt werden soll. Dieser Wert p1 wird auch als LTPD (lot tolerance percent defective) oder als RQL (rejectable quality level) oder als LQ (limiting quality) bezeichnet. Vor der Lieferung einer Ware wollen sich Produzent und Konsument auf einen Pr¨ ufplan verst¨ andigen. Dabei seien folgende Bezeichnungen gegeben: der vom Produzenten angegebene Ausschussanteil p0 der vom Konsumenten als Limit fixierte Ausschussanteil p1 der unbekannte Ausschussanteil p die im Raum stehende Nullhypothese H0 : p ≤ p0 und die zugeh¨ orige Alternativhypothese H1 : p ≥ p1 der vom Produzenten angesetzte Wert α f¨ ur den Fehler 1. Art, also das Niveau f¨ ur das Produzentenrisiko: α = P (Lieferung wird nicht akzeptiert, obwohl H0 wahr ist) der vom Konsumenten angesetzte Wert β f¨ ur den Fehler 2. Art, also das Niveau f¨ ur das Konsumentenrisiko: β = P (Lieferung wird akzeptiert, obwohl H1 wahr ist) Es geht nun darum, einen Pr¨ ufplan zu entwickeln, der in Abh¨ angigkeit von den Daten p0 , p1 , α, β einen Stichprobenumfang n und eine Annahmezahl Γ anzugeben. Die Herleitung dieser Zahlen n und Γ geschieht nachfolgend.
370
10 Testen
F¨ ur das Produzentenrisiko gilt: n n · pk0 · (1 − p0 )n−k k k=Γ+1 Γ n · pk0 · (1 − p0 )n−k d. h. 1− k
≤
α,
≤
α,
k=0
Γ n · pk0 · (1 − p0 )n−k ≥ 1 − α. k
d. h.
(1)
k=0
Wegen des Approximationssatzes gilt (da hier μ σ = n · p0 · (1 − p0 ) ist): Γ − n · p0 ≥ 1 − α. Φ n · p0 · (1 − p0 )
=
F¨ ur das Konsumentenrisiko gilt: Γ n · pk1 · (1 − p1 )n−k ≤ β. k
n · p0 und
(2)
(3)
k=0
Wegen des Approximationssatzes gilt (da hier μ = n · p1 und σ = n · p1 · (1 − p1 ) ist): Γ − n · p1 ≤ β. (4) Φ n · p1 · (1 − p1 ) Unter Zuhilfenahme der Tabelle zur Standard-Normalverteilung bekommt man Γ − n · p0 (2 ) ≥ φ−1 (1 − α), n · p0 · (1 − p0 ) Γ − n · p1 ≤ φ−1 (β). n · p1 · (1 − p1 )
(4 )
Umformung ergibt 1 √ · (Γ − n · p0 ) n 1 √ · (Γ − n · p1 ) n
≥
φ−1 (1 − α) ·
≤
φ−1 (β) ·
p0 · (1 − p0 ),
p1 · (1 − p1 ),
und daraus ergibt sich
√ 1 n· · Γ − p0 ≥ φ−1 (1 − α) · p0 · (1 − p0 ), n
√ 1 · Γ − p1 ≤ φ−1 (β) · p1 · (1 − p1 ). n· n
(2 ) (4 )
10.5 Qualit¨ atskontrolle
371
Diese beiden Ungleichungen nutzen wir nun zur Bestimmung von n und von Γ: aquivalent zu Zun¨ achst ist (4 ) ¨
√ 1 n · p1 − · Γ ≥ −φ−1 (β) · p1 · (1 − p1 ). (4 ) n Nun addieren wir (2 ) und (4 ) und erhalten: %
& √ 1 1 n · Γ − p0 + p1 − · Γ n n −1 ≥ φ (1 − α) · p0 · (1 − p0 ) − φ−1 (β) · p1 · (1 − p1 ), also √ n ≥
, 1 · Φ−1 (1 − α) · p0 · (1 − p0 ) − Φ−1 (β) · p1 · (1 − p1 ) . (∗) p1 − p0
Damit haben wir eine Ungleichung zur Bestimmung von n gefunden! L¨ osen wir die Ungleichungen (3 ) und (4 ) nach Γ auf, so erhalten wir n · p0 + Φ−1 (1 − α) · n · p0 · (1 − p0 ) ≤ ≤
Γ −1
n · p1 + Φ
(∗∗)
(β) · n · p1 · (1 − p1 ).
Damit haben wir eine Ungleichung zur Bestimmung von Γ gefunden. Mit den Formeln (∗) und (∗∗) haben wir eine Antwort auf die Frage 3 von oben: Sollen bei einer zwischen Produzent und Konsument vereinbarten Lieferung sowohl der Fehler 1. Art als auch der Fehler 2. Art klein gehalten werden, so ermittelt man den erforderlichen Stichprobenumfang n gem¨ aß der Formel (∗) und die zugeh¨ orige Annahmezahl Γ gem¨ aß der Formel (∗∗). Vorsicht: Hat man die Zahl n gem¨ aß (∗) ermittelt, kann es passieren, dass es kein Γ ∈ IN gibt, das (∗∗) erf¨ ullt. Wir betrachten dazu wieder unser Beispiel von oben. Noch einmal die Daten: p0 =
1 ; 10
p1 =
2 ; 10
α = 0, 05;
β = 0, 05.
Mit (∗) ergibt sich: √
n ≥ 11, 48,
also
n ≥ 132.
Nun bestimmen wir mittels (∗∗) das Intervall f¨ ur Γ: F¨ ur n = 132 ergibt sich 18, 85 ≤ Γ ≤ 18, 86; f¨ ur n = 133 ergibt sich 18, 97 ≤ Γ ≤ 19, 03; f¨ ur n = 134 ergibt sich 19, 10 ≤ Γ ≤ 19, 21.
372
10 Testen
Man sieht also, dass das erste Wertepaar, das die Bedingungen (∗) und (∗∗) erf¨ ullt, aus den Zahlen n = 133 und Γ = 19 besteht. Da wir aber bei der Herleitung von n und Γ ein N¨ aherungsverfahren (n¨ amlich den Approximationssatz f¨ ur die Binomialverteilung) benutzt haben, m¨ ussen wir uns jetzt vergewissern, ob die gefundenen Werte f¨ ur n und f¨ ur Γ (also n = 133, Γ = 19) wirklich die obigen Ungleichungen (1) und (3) erf¨ ullen. Das ist nicht der Fall: Mit n = 133 und Γ = 19 hat die linke Seite von (1) den Wert 0,9576 und die linke Seite von (3) den Wert 0,0577. Das bedeutet: (1) ist erf¨ ullt, (3) ist nicht erf¨ ullt. Das weitere Vorgehen ist nun so, dass man h¨ ohere Werte f¨ ur n nimmt und die Ungleichungen (1) und (2) jeweils f¨ ur geeignete Kandidaten f¨ ur Γ pr¨ uft: n = 134 Γ = 18
Γ = 19
Γ = 20
Linke Seite von (1)
0,9241
0,9547
0,9743
Linke Seite von (2)
0,0321
0,0532
0,0834
Γ = 18
Γ = 19
Γ = 20
Linke Seite von (1)
0,9196
0,9516
0,9723
Linke Seite von (2)
0,0294
0,0490
00774
n = 135
Mittels dieses kleinen Probierverfahrens ergibt sich nun das Wertepaar, welches die Ungleichungen (1) und (2) erf¨ ullt: F¨ ur den Stichprobenumfang muss n = 135 gew¨ ahlt werden, die Annahmezahl lautet Γ = 19.
10.6 1.
Aufgaben und Erg¨ anzungen
(Tea Tasting Lady) Das nun folgende Beispiel spielte in der Entwicklung der Testtheorie eine sehr große Rolle. Eine englische Lady trinkt ihren Tee immer mit Milch. Nun kann man entweder zuerst die Milch und dann den Tee in die Tasse gießen oder umgekehrt zuerst den Tee und dann die Milch in die Tasse gießen. Die Lady behauptet nun, dass sie bei einer ihr pr¨ asentierten Tasse Tee mit Milch durch Probieren entscheiden kann, welche Reihenfolge des Eingießens vorlag.
10.6 Aufgaben und Erg¨ anzungen
373
a) Entwickeln Sie einen Test zum Signifikanzniveau α = 0, 05, wobei f¨ ur die Anzahl der Versuchsdurchf¨ uhrungen drei F¨ alle betrachtet werden sollen: n = 5, n = 10, n = 25. b) Wir nehmen nun an, dass die Lady tats¨ achlich eine Erfolgswahrscheinlichkeit von p = 34 hat. Weiterhin nehmen wir an, dass die Lady das Testdesign aus Teil a) akzeptiert – also insbesondere die f¨ ur den jeweiligen Fall (n = 5, n = 10, n = 15) aufgestellte Entscheidungsregel. Berechnen Sie unter diesen Voraussetzungen f¨ ur jeden der drei F¨ alle die Wahrscheinlichkeit, dass die Begabung der Lady (also p = 34 ) nicht erkannt wird. 2.
Entwickeln Sie einen Test zum Signifikanzniveau α = 0, 01 f¨ ur das Beispiel ¨ 10.2 (Ubersinnliche F¨ ahigkeiten).
3.
Nachfolgende Aufgabe orientiert sich am Beispiel 5.2.2 aus Kn¨ opfel/L¨ owe [79]. In einem Labor soll gekl¨ art werden, ob Ratten eine der beiden Farben Rot, Gr¨ un bevorzugen. Das Versuchsdesign sieht wie folgt aus: Die Ratten werden durch einen Gang geschickt, der sich in zwei G¨ ange verzweigt – eben einen roten Gang und einen gr¨ unen Gang. Die Wissenschaftler vermuten, dass bei der Wahl des Ganges die Farbe eine Rolle spielt (sie haben aber keine Indizien, welche Farbe bevorzugt wird). Entwerfen Sie zu dieser Vermutung einen Test. In allen Wissenschaften, die sich empirischer Methoden bedienen, kommt immer wieder folgende Situation vor: Man weiß – aufgrund vorhandener wissenschaftlicher Studien –, dass ein gewisses Ereignis mit der Wahrscheinlichkeit p auftaucht. Falls solche Studien schon relativ alt sind, taucht automatisch die Frage auf, ob sich diese Wahrscheinlichkeit p im Laufe der Zeit (und vielleicht unter neuen Rahmenbedingungen) ver¨ andert hat. Das bedeutet: Man hat keine konkreten Indizien f¨ ur eine Erh¨ ohung oder Verringerung von p und hat zun¨ achst nur Interesse an der Frage, ob es eine Ver¨ anderung von p gibt. Um die Frage zu beantworten, wird dann ein zweiseitiger Test entwickelt. Entwickeln Sie nun einen solchen Test bez¨ uglich des Wertes p = 0, 35. Das Signifikanzniveau dabei sei α = 0, 05; die Anzahl der Messungen sei n = 1000.
4.
a) L¨ osen Sie diese Aufgabe exakt (also mittels der zugeh¨ origen Binomialverteilung). b) L¨ osen Sie diese Aufgabe n¨ aherungsweise (also unter Benutzung des Approximationssatzes von de Moivre/Laplace). 5.
Ein Konsument ordert bei einem Lieferanten 1000 St¨ uck eines gewissen Produktes. Der Lieferant nennt einen Ausschussanteil von p0 = 0, 08; der Konsument m¨ ochte als a ¨ußerste Grenze einen Ausschussanteil von p1 = 0, 15 akzeptieren. Es sei p der (unbekannte) wahre Ausschussanteil der Lieferung.
374
10 Testen Es soll nun ein Pr¨ ufplan ausgearbeitet werden, der folgenden Bedingungen gen¨ ugt: – F¨ ur das Produzentenrisiko gelte: P (Lieferung wird nicht akzeptiert, obwohl p = 0, 08) ≤ 0, 05. – F¨ ur das Konsumentenrisiko gelte: P (Lieferung wird akzeptiert, obwohl p = 0, 15) ≤ 0, 05. Wie m¨ ussen der Stichprobenumfang n und die Annahmezahl Γ gew¨ ahlt werden, damit beide Bedingungen erf¨ ullt sind?
11 L¨ osungshinweise zu den Aufgaben
11.1 1.
Aufgaben aus Kapitel 1, Abschnitt 1.2.8
Sei g das gesch¨ atzte arithmetische Mittel der Daten. Dann beschreibt der Ausdruck (x1 − g) + (x2 − g) + . . . + (xn − g) +g n
2.
3.
4. 5. 6.
das a) b) c) d) a) b)
Verfahren. Hieraus folgt die Behauptung. – x ¯ = 50, 08; x0,5 = 50. s = 3, 32; 1QA= x0,75 − x0,25 = 52 − 49 = 3. Klassen: [40, 43[; [43, 46[, [46, 49[, [49, 52[ [52, 55[. M¨ achtigkeit der Klasen: 2; 0; 3; 13; 7. – Einige Werte: n = 22; n · 0, 5 ganzzahlig, also x0,5 = 483, 5; ganzzahlig, also x0,75 = 510. – 6,764 %
a) b) – alt: Umformung der Definitionsgleichung f¨ ur s2 . Man erh¨ s2
=
=
7.
a)
1 n−1 1 n−1
n X
x2i − 2¯ x
i=1 n X
n X
!
xi + n¯ x2
i=1
x2i − 2n¯ x2 + n¯ x2
,
!
.
i=1
Aus (a − b)2 ≥ 0 folgt der Reihe nach a2 − 2ab + b2 ≥ 0,
8. 9.
n · 0, 75 nicht
a2 + 2ab + b2 ≥ 4ab;
(a + b)2 ≥ 4ab,
√ a+b ≥ ab. 2
Analog beweist man auch die linke Ungleichung der Ungleichungskette: Man startet wieder mit (a − b)2 ≥ 0. Umformungen f¨ uhren zu √ 2ab . Hieraus folgt die Behauptung: a+b ≤ ab. (a + b)2 ≥ 4ab·ab ab b) – Siehe K¨ utting ([102], S. 81). Die Daten seien (ohne Einschr¨ ankung der Allgemeinheit) bereits geordnet. Zur besseren ¨ Ubersicht lassen wir die runden Klammern bei den Indizes bei der Beweisf¨ uhrung weg. Wir machen eine Fallunterscheidung: 1. Fall: n ungerade. Dann ist x0,5 eindeutig bestimmt: x0,5 = x( n+1 ) . Es folgt 2
n X
|xi − x0,5 |
i=1
H. Kütting et al., Elementare Stochastik © Spektrum Akademischer Verlag Heidelberg 2011
376
11 L¨ osungshinweise zu den Aufgaben n−1
n X (x0,5 − xi ) + | x n+1 − x0,5 | + (xi − x0,5 ) 2 i=1 | {z } i= n+3 2 X
=
2
=0
n−1 2
n X X n−1 n−1 (−xi ) + (xi ) · x0,5 + · (−x0,5 ) + 2 2 n+3 i=1
=
i=
n−1 2
X
=
n X
(−xi ) +
i=1
2
(xi )
i= n+3 2
n−1
n X (−xi ) + | x n+1 − c | + (xi ) 2 i=1 | {z } i= n+3 2 X
≤
2
≥0
n−1
n 2 X X n−1 n−1 (−xi ) + |x n+1 − c| + (xi ) ·c+ (−c) + 2 2 2 n+3 i=1
=
i=
n−1 2
X n−1 n−1 (−xi ) + |x n+1 − c| + ·c+ (−c) + 2 2 2 i=1
=
n−1
2 X
=
(c − xi ) + |x n+1 − c| + 2
i=1 n X
≤
n X
2
n X
(xi )
i= n+3 2
(xi − c)
i= n+3 2
|xi − c|
f¨ ur alle
c ∈ IR.
i=1
2. Fall: n ist gerade; dann ist x0,5 = n X
1 (x( n ) 2 2
+ x( n +1) ). 2
|xi − x0,5 |
i=1
=
˛ n ˛ X ˛ ˛ ˛xi − 1 (x n + x n +1 )˛ ˛ ˛ 2 2 2 i=1 „ 2 X 1
«
n
=
i=1
2
(x n + x n +1 ) − xi 2
2
n X
+
i= n +1 2
(xi −
1 (x n + x n +1 )) 2 2 2
n
=
n 2 ” X ” X n 1“ n 1“ x n + x n +1 + (−xi ) − · x n + x n +1 + xi · 2 2 2 2 2 2 2 2 i=1 i= n +1 2
n 2
=
X
n X
(−xi ) +
xi
i= n +1
i=1
2
n
=
n 2 X X n n (−xi ) + xi ·c− ·c+ 2 2 i=1 i= n +1 2
n
=
2 X
(c − xi ) +
i= n +1
i=1
≤
n X i=1
n X 2
|xi − c|.
(xi − c)
11.1 Aufgaben aus Kapitel 1, Abschnitt 1.2.8
377
10. Zu zeigen ist x ¯t = a + b¯ x. Durch die Transformation xi → a + bxi f¨ ur alle Daten ur x ¯t xi (i = 1, 2, . . . , n) folgt f¨ x ¯t = 11. a)
n n n X 1X 1 1X (a + bxi ) = (n · a + b xi ) = a + b · xi = a + b¯ x. n i=1 n n i=1 i=1
Man hat folgende Umformung: f (x)
=
n X
(xi − x)2 =
i=1
=
n X
n X
(xi − x ¯+x ¯ − x)2
i=1 2
(xi − x ¯) + 2(¯ x − x) ·
i=1
=
n X
n X
(xi − x ¯) +
i=1 2
n X
(¯ x − x)2
i=1
2
(xi − x ¯) + n(¯ x − x) .
i=1
Es folgt f (x) ≥
n X
(xi − x ¯)2 .
i=1
b)
Das bedeutet: f (x) hat f¨ ur x = x ¯ ein Minimum. Anwendung eines hinreichendenPKriteriums: Minimum bei xe , wenn f (xe ) = 0 und f (xe ) > 0. Es ist: f (x) = n i=1 2 · (xi − x) · (−1), f (xe ) = 0
=
n X
(−2) · (xi − xe )
i=1
0
=
2nxe − 2 ·
xe
=
x ¯,
f (x)
=
2n > 0
also
n X
xi
i=1
f (¯ x) = 0.
f¨ ur alle
x ∈ IR,
also auch f (¯ x) = 2n > 0. Bei xe = x ¯ ist ein Minimum. Pn ur alle c ∈ IR : 12. 1. Behauptung: dx0,5 ≤ dx¯ . Beweis: Nach Aufgabe 9 gilt f¨ i=1 |xi − Pn P P 1 1 n · n ur alle c ∈ IR. x0,5 | ≤ i=1 |xi − c|. Es folgt n i=1 |xi − x0,5 | ≤ n i=1 |xi − c| f¨ F¨ ur c = x ¯ folgt die Behauptung. 2. Behauptung: dx¯ ≤ s. Beweis: Nach der Cauchy-Schwarzschen Ungleichung: !2 ! ! n n n X X X 2 2 x i yi ≤ xi · yi i=1
i=1
i=1
f¨ ur alle x1 , x2 , . . . , xn ; y1 , y2 , . . . , yn ergibt sich v v u n u n n X uX 1 X 1 u t 2 1 · |xi − x ¯| ≤ |1| · t |xi − x ¯|2 · n i=1 n i=1 i=1 v u n X u 1 1 √ √ = |xi − x ¯ |2 · n· n−1·t · n n − 1 i=1 v u √ √ n X n−1 u 1 n−1 = |xi − x ¯|2 = √ ·t · ·s √ n n − 1 i=1 n ≤ da
s, √
n−1 ≤ 1. √ n
378
11 L¨ osungshinweise zu den Aufgaben
13. a)
Da yˆi = a + bxi ist, folgt yˆi − yi = a + bxi − yi , sxy sxy yˆi − yi = y¯ − 2 x ¯ + 2 xi − yi sx sx n n n n n X X X X X sxy sxy (ˆ yi − yi ) = y¯ − x ¯+ xi − yi 2 2 sx sx i=1 i=1 i=1 i=1 i=1 =
n¯ y−n
=
n·
=
0.
n n X sxy sxy X x ¯+ 2 xi − yi 2 sx sx i=1 i=1
n n n X 1 X sxy 1 X n · sxy yi − n 2 xi + ·x ¯− yi 2 n i=1 sx n i=1 sx i=1
b) Ausgehend vom Ergebnis unter 13.a) folgt sofort die L¨ osung. 14. Man beachte: Beide Regressionsgeraden gehen durch den Schwerpunkt (¯ x, y¯). Die Geraden fallen dann zusammen, wenn beide Steigungen gleich sind. Seien die Regressionsgeraden gegeben: (1) y = ax + bx · x und (2) x = ay + by y. x−a a Aus (2) folgt y = b y = − b y + b1 x. Also fallen die Geraden (1) und (2) zusammen, wenn bx =
1 by
y
y
y
ist. Es folgt bx · by = 1 und somit sxy sxy · 2 = 1, s2x sy
s2xy s2x
· s2y
= r 2 = 1,
wobei r der Korrelationskoeffizient ist. Wenn beide Geraden zusammenfallen, ist r = +1 oder r = −1. 15. Weg 1: Der Punkt (¯ x, y¯) liegt auf der Regressionsgeraden (siehe Gleichung (1.7)): Es ¯. F¨ ur die minimale Summe der Abstandsquadrate gilt dann gilt y¯ = a0 + b0 x S
=
n X
(a0 + b0 xi − yi )2 =
i=1
S
=
n X
n X
(¯ y − b0 x ¯ + b0 xi − yi )2
i=1
((¯ y − yi ) + b0 (xi − x ¯))2
i=1
=
n X
(¯ y − yi )2 −
i=1
n X
2 · b0 (yi − y¯i ) · (xi − x ¯) +
i=1
n X
b20 (xi − x ¯)2 .
i=1
Mit den Begriffen Varianz und Kovarianz erh¨ alt man (f¨ ur n ≥ 2) S = (n − 1)(s2y − 2b0 sxy + b20 s2x ). Wir setzen b0 ein und erhalten S
=
(n − 1)
=
(n − 1)
! s2xy s2x 2sxy · sxy + s2x s4x ! ! s2xy s2xy s2y − 2 = (n − 1) · s2y 1 − 2 2 . sx sx · sy
s2y −
Mit der Definition f¨ ur den Korrelationskoeffizienten folgt: S = (n − 1) · s2y · (1 − r2 ). Die linke Seite S ist gr¨ oßer oder gleich Null, f¨ ur n ≥ 2 gilt (n − 1) ≥ 1, und es gilt s2y > 0. Also: 1 − r 2 ≥ 0, |r| ≤ 1, das heißt −1 ≤ r ≤ +1. Weg 2: Ausgehend von den Vektoren ¯, x2 − x ¯, . . . , xn − x ¯), y = (y1 − y¯, y2 − y¯, . . . , yn − y¯) x = (x1 − x gelten gem¨ aß der Definitionen von sxy , sx , sy und der Definition des Standardskalarprodukts x· y von x und y folgende Beziehungen: r r 1 1 1 x· y , sx = x 2 , sy = y2 . sxy = n−1 n−1 n−1
11.2 Aufgaben aus Kapitel 2 F¨ ur r folgt: r= q
379
1 x n−1 1 x2 n−1
·
· y q
1 y2 n−1
=
x· y = cos( x, y ). | x| · | y|
Hieraus folgt: −1 ≤ r ≤ 1. Diskutieren Sie diesen kurz beschriebenen Weg.
11.2
Aufgaben aus Kapitel 2
11.2.1
Abschnitt 2.3.2
1. 2. 3. 4.
5. 6.
a) 11 verschiedene Augensummen: 2,3,4,5,6,7,8,9,10,11,12. b) Drei g¨ unstige F¨ alle (welche?) von 36 m¨ oglichen F¨ allen. Analog dem Drei-W¨ urfel-Problem“: 27 Realisierungen f¨ ur Augensumme 10, 25 Reali” sierungen f¨ ur Augensumme 9. Betrachten Sie den Spielstand 1:0 f¨ ur A bei Spielabbruch. A w¨ urde f¨ ur ein gewonnenes Spiel alles bekommen, B nichts. Das erscheint ungerecht und sinnlos. Sp¨ atestens nach zwei Partien steht ein Sieger fest. Der Sieger kann aber schon nach einer Partie feststehen. Wann ist das der Fall? Der Einwand zielt darauf, dass nur drei F¨ alle auftreten: A, BA, BB. In den ersten beiden F¨ allen gewinnt A, also ist im Verh¨ altnis 2:1 zu teilen. Der Fehler liegt in Folgendem: Es wird nicht beachtet, dass die drei F¨ alle A, BA und BB nicht gleichwahrscheinlich sind. Wird das ber¨ ucksichtigt, erh¨ alt man ebenfalls das Ergebnis 3:1. Verh¨ altnis 2:1 (umgekehrtes Verh¨ altnis der noch fehlenden Punkte“) oder im Verh¨ altnis ” der vor Spielbeginn von den Spielern geleisteten Eins¨ atze oder . . . ogliche F¨ alle. G¨ unstig f¨ ur das Ereignis mindestens Es gibt 6·6·6·6 = 64 = 1296 gleichm¨ ” 671 alle. Ergebnis: 1296 ≈ 0, 5177. (Hinweis: eine Sechs“ sind 64 − 54 = 1296 − 625 = 671 F¨ 4 alle an, in denen keine Sechs auftritt.) 5 gibt die Anzahl der F¨
11.2.2 1.
a) b) c) d)
e)
2. 3. 4. 5. 6. 7.
Abschnitt 2.5.2 Ω = {r, b}, Ω = {x ∈ IN|0 ≤ x ≤ 1000000}, Ω = {1, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 15, 16, 18, 20, 24, 25, 30, 36}. Ohne Ber¨ ucksichtigung der Zusatzzahl: Ω = {(x1 , x2 , . . . , x6 )|x1 , x2 , . . . , x6 ∈ {1, 2, . . . , 49} mit xi = xk f¨ ur i = k}. Die 6-Tupel ber¨ ucksichtigen aber die Reihenfolge in der die Kugeln gezogen werden. Diese spielt aber am Ende keine Rolle. Daher ist auch die folgende Menge eine geeignete Ergebnismenge: Ω = {{x1 , x2 , . . . , x6 }|x1 , x2 , . . . , x6 ∈ {1, 2, ..., 49} mit xi = xk f¨ ur i = k}.
Es sei t die Lebensdauer der Gl¨ uhbirne in Stunden: Ω = {t|t ∈ IN, 0 ≤ t ≤ 30000}. {Z}, {W }, {Z, W }, ∅. Elementarereignisse: {Z}, {W }. andige Induktion). 16 = 24 ; 2n (vollst¨ ¯ ∩ C) ¯ ∪ (A ¯ ∩ B ∩ C) ¯ ∪ (A ¯∩B ¯ ∩ C). a) –, b) –, c) (A ∩ B a) Ereignis C: mindestens einmal Z (Zahl)“. ” b) E4 : Auftreten der 5 oder 6“. ” ¯ ∪ B. ¯ A ∪ B = {r, g}; A ∩ B = ∅; A ∩ B = Ω = A Sei A das Ereignis wenigstens eine der beiden Augenzahlen ist gerade“. Betrachte das ¯ A ¯” hat neun Elemente. Welche? Die Menge A hat dann 27 Elemente. Gegenereignis A. 27 P (A) = 36 = 0, 75.
380 8.
11 L¨ osungshinweise zu den Aufgaben a) b) c)
11.2.3 1. 2. 3. 4. 5.
6.
7.
8.
9.
¯2 ∩ K ¯3; ¯1 ∩ K Ereignis A = K1 ∪ K2 ∪ K3 = K – –
Abschnitt 2.6.5
¯ = A. Ferner gilt: (A ∩ B) ∩ (A ∩ B) ¯ = ∅. Es gilt: (A ∩ B) ∪ (A ∩ B) Hieraus folgt die Behauptung. ; a) P (A ∪ B) = 11 12 ¯ ∩ B). ¯ Beachten Sie: A ¯∩B ¯ = A ∪ B. b) Gesucht wird P (A Nach Voraussetzung gilt A ∩ B ⊆ C. Dann folgt P (C) ≥ P (A ∩ B), P (C) ≥ P (A) + P (B) − P (A ∪ B). Beachten Sie weiterhin: 0 ≤ P (A ∪ B) ≤ P (Ω) = 1. Falsch. Geben Sie ein Gegenbeispiel an. a) Ω = {1, 2, 3, 4, 5, 6}2 = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), . . . , (2, 6), . . . , (6, 1), (6, 2), . . . , (6, 6)}. b) Es bezeichne A das Ereignis Augensumme ist gerade“, es bezeichne B das Ereignis ” Augensumme ist gr¨ oßer als 7“. ” Annahme einer Laplace-Verteilung. |A| = 18, |B| = 15. a) Annahme: Das Jahr habe 365 Tage, alle Tage des Jahres seien als Geburtstage 1 . gleichwahrscheinlich. Beide Ereignisse haben die Wahrscheinlichkeit 365 b) Formulieren Sie ein isomorphes Problem mit Hilfe von Laplace-W¨ urfeln. a) Wenden Sie Regeln f¨ ur das Rechnen mit Wahrscheinlichkeiten und Gesetze der Mengenalgebra an. b) M¨ oglicher Start f¨ ur die Rechnung: P (A) + P (B) − P (A ∪ B) = P (A ∩ B) ≤ 1. c) Die Ungleichung ist korrekt. a) richtig, b) falsch, c) falsch. Laplace-Experiment, |Ω| = 1000. Genau drei rote Seitenfl¨ achen besitzen nur die 8 Eckw¨ urfel, genau zwei rote Seitenfl¨ achen haben 96 W¨ urfel (je 8 Kantenw¨ urfel von 12 Kanten), genau eine rote Seitenfl¨ ache 8 · 8 = 64 W¨ urfel pro Fl¨ ache des großen W¨ urfels, insgesamt also 6 · 64 = 384 W¨ urfel. a) b)
96 ; 1000 480 . 1000
10. a) 58 ; b) 58 ; ` ´ ¯ ∩ B) ¯ = P A ∪ B = 1 − 5 = 3. c) P (A 8 8 1 d) 8 ; e) 14 . 11. Ja, weisen Sie das Erf¨ ulltsein der Axiome von Kolmogoroff nach.
11.2.4 1. 2.
Abschnitt 2.7.2
Siehe: K¨ utting [101], Seite 125f. Siehe: K¨ utting [101], Seite 252.
11.2 Aufgaben aus Kapitel 2
11.2.5 1.
381
Abschnitt 2.8.6
Annahme: Es stehen 7 Wochentage zur Verf¨ ugung, und f¨ ur jede Person ist jeder Wochentag als Geburtstag gleichwahrscheinlich. (Man kann diskutieren, ob das sinnvolle, realit¨ atsnahe Annahmen sind.) P =
7·6·5·4·3 ≈ 0, 15. 75
P = 66!6 ≈ 0, 015. 24 ` ´ = n − n. Die beiden Terme k¨ onnen unterschiedlich begr¨ undet werden. a) n(n−3) 2 2 b) – 5. Ausgehend von einer Geraden f¨ uge man schrittweise eine weitere Gerade hinzu: 2 + 2 + + 1. 3 + . . . + (n − 1) + n = n(n+1) 2 6. Es gilt 360 = 23 · 32 · 51 . Jeder Teiler von 360 hat die Form 2x · 3y · 5z mit 0 ≤ x ≤ 3, 0 ≤ y ≤ 2, 0 ≤ z ≤ 1. Es gibt 4 · 3 · 2 = 24 Teiler. 7. a) 12 b) 72 8. a) 55 b) 1 · 1 · 1 · 5 · 5 c) 5! oglichkeiten ganz ohne Erhebungen ist, kann man auch sagen, 9. 26 = 64. Da eine dieser M¨ dass 63 Zeichen dargestellt werden k¨ onnen. 10. 25 11. Annahmen: In der zuf¨ allig ausgew¨ ahlten Gruppe von 25 Personen sollen keine Zwillinge und Mehrlinge sein. Der Vorrat m¨ oglicher Geburtstage umfasst 365 Tage des Jahres als Geburtstage. Jeder Tag ist als Geburtstag gleichwahrscheinlich. Berechnen Sie die gesuchte Wahrscheinlichkeit f¨ ur das Ereignis E mit Hilfe der Wahrscheinlichkeit des ¯ s¨ Gegenereignisses E amtliche 25 Geburtstage sind voneinander verschieden“: P (E) = ” ¯ 1 − P (E), 365 · 364 · . . . · 341 P (E) = 1 − ≈ 0, 57. 36525 Erg¨ anzung: Verallgemeinerung f¨ ur n zuf¨ allig ausgew¨ ahlte Personen: 2. 3. 4.
P (E) = 1 − Anzahl der Personen n P (E)
1 0
365 · 364 · . . . · (365 − n + 1) . 365n 10 0,117
22 0,469
23 0,507
25 0,569
50 0,970
57 0,990
12. Wenden Sie das allgemeine kombinatorische Z¨ ahlprinzip an. (12). 13. 10. 14. a) 10 b) 1 + 5 + 10 + 10 + 5 + 1 = 25 c) – 15. a) – b) Man beachte: Die Summe zweier Zahlen ist genau dann gerade, wenn beide Summanden gerade oder beide ungerade sind. 16. Man beachte: F¨ ur jeden der k Fehler gibt es zwei M¨ oglichkeiten, da ja drei Zeichen oglich(n¨ amlich 0, 1, 2) zur Verf¨ u´gung stehen und nur ein Zeichen richtig ist. Also 2k M¨ `13 oglichkeiten, k Spiele aus 13 Spielen auszuw¨ ahlen. Das keiten. Ferner gibt es k M¨ Ergebnis folgt mit der allgemeinen Z¨ ahlregel. Das Ergebnis f¨ ur k = 13 betr¨ agt 8192. 17. Beschreiben Sie ein geeignetes Urnenexperiment und begr¨ unden Sie: `6´ ` 43 ´ · 6−r r P (r Richtige) = `49´ . 6
382
11 L¨ osungshinweise zu den Aufgaben r Richtige Hinweis: Es gibt 6 Gewinnkugeln (Gewinnzahlen). Die Variable r bezeichnet die Anzahl der richtig angekreuzten Zahlen (Kugeln). Die nebenstehende Tabelle gibt die Anzahl der g¨ unstigen F¨ alle f¨ ur jeweils genau r Richtige f¨ ur r = 0; 1; 2; 3; 4; 5; 6 an.
M¨ oglichkeiten
6 5 4 3
1 258 13 545 246 820
2 1 0
1 851 150 5 775 588 6 096 454
18. a)
19. 20.
21. 22. 23. 24. 25.
26. 27.
Hinweis: Unter den 49 nat¨ urlichen Zahlen von 1 bis 49 gibt es 24 gerade und 25 ungerade Zahlen. Die Anzahl der g¨ unstigen F¨ alle betr¨ agt 134 596. b) – ) (44 6 c) P = 1 − 49 ≈ 0, 495. ( ) `8´ `6´ `3´ 6 ` ´ ` ´ ` ´ · 3 · 3 = 560. – Frage: Warum ist auch die L¨ osung 83 · 53 · 22 korrekt? 2 Da die Reihenfolge ber¨ ucksichtigt wird, ist Ω = {(x1 , x2 , x3 , x4 , x5 , x6 , x7 )|xi ∈ {1, 2, 3, . . . , 49} mit xi = xk f¨ ur i = k} eine geeignete Ergebnismenge. Es gibt genau so viele 7-Tupel mit der bestimmten Zahl an zweiter, dritter, vierter, f¨ unfter, sechster oder siebter Stelle wie mit der bestimmten 1 . Hinweis: Beachten Sie auch die L¨ osung zu Zahl an erster Stelle. Also Ergebnis 49 Beispiel 2.36 (Gewinnlos). Kombination ohne Wiederholung vom Umfang 5 aus einer Menge von 8 Elementen. a) – ` ´ `n´ ` ´ + 1 + ... + n . b) 2n = n 0 n – – a) `Es´ m¨ ussen die Zusatzzahl und 5 von den 6 Gewinnzahlen angekreuzt sein. Also 6 · 1 = 6 M¨ oglichkeiten. Das ist die Anzahl der g¨ unstigen M¨ oglichkeiten f¨ ur einen 5 Gewinn derzeit in der Gewinnklasse 3. Die Chance ist also 6 : 13 983 816, d. h. 1 : 2 330 636. b) 252 Beachten Sie die L¨ osung zu Aufgabe 17. Was kann festgestellt werden? Wenden Sie die Definition der Binomialkoeffizienten an. Zwei Punkte bestimmen eine Gerade. Es bieten sich verschiedene L¨ osungswege an: L¨ osung durch R¨ uckgriff auf eine kombinatorische Figur oder L¨ osung durch schrittweises Hinzuf¨ ugen eines weiteren Punktes oder . . .
11.2.6 1. 2. 3.
4.
Abschnitt 2.9.4
Zeichnen Sie ein ausf¨ uhrliches Baumdiagramm (20 Wege) oder ein verk¨ urztes“ Baum” diagramm und wenden Sie entsprechende Pfadregeln an. Ein Baumdiagramm kann die Rechnung unterst¨ utzen. W¨ ahlen Sie die Bezeichnung Nk f¨ ur Niete im k-ten Zug und die Bezeichnung G f¨ ur Gewinn. 1. Weg: Urnenmodell. Fragen: Wie viele Kugeln sind in der Urne? Wie sind sie zu beschriften? Worin besteht das Zufallsexperiment? 2. Weg: Rechnerisch mit Hilfe von Multiplikations(pfad-)regel und Additions(pfad-) regel. Diese Fragestellung geht auf eine Untersuchung von R. Falk (1983) zur¨ uck. Zu etwa 50 % gaben ihre Probanden die falsche L¨ osung 0,5 an. Es ist eine bedingte Wahrscheinlichkeit zu berechnen (siehe Aufgabe 6). An dieser Stelle geben wir die korrekte L¨ osung mit Hilfe eines Baumdiagramms an und nummerieren die vier Kugeln mit R1 , R2 , S1 und S2 . Bei sechs Wegen tritt eine schwarze Kugel im zweiten Zuge auf, von diesen haben zwei eine schwarze Kugel an erster Stelle (beim ersten Zug). Also P = 26 = 13 .
11.2 Aufgaben aus Kapitel 2
383
R2 S1
R1
S2
R1 S1
R2
S2
R1 R2
S1
S2
R1 R2
S2
S1 1. Zug 5. 6.
7. 8.
2. Zug
Bedingte Wahrscheinlichkeit berechnen. Es bedeuten Si bzw. Ri mit i = 1, 2: Als i-te Kugel wurde eine schwarze bzw. rote Kugel gezogen. Gesucht ist die bedingte Wahrscheinlichkeit PS2 (S1 ). Es ist P (S1 ∩S2 ) = 12 · 13 = 1 und P (S2 ) = 16 + 26 = 12 . 6 Gehen Sie von der Definition der bedingten Wahrscheinlichkeit aus. Nach Voraussetzung gilt P (B) > 0. Außerdem gilt: P (A ∩ B) ≥ 0, da P ein Wahrscheinlichkeitsmaß ist. (1) – (2) – (3) Es seien A und C zwei unvereinbare Ereignisse, also A ∩ C = ∅. Dann gilt: P ((A ∪ C|B)
= =
P ((A ∪ C) ∩ B) P ((A ∩ B) ∪ (C ∩ B)) = , P (B) P (B) P (C ∩ B) P (A ∩ B) + = P (A|B) + P (C|B), P (B) P (B)
da mit A ∩ C = ∅ auch (A ∩ B) ∩ (C ∩ B) = ∅ gilt. Hinweis: Da die bedingte Wahrscheinlichkeit also die Axiome 1 bis 3 erf¨ ullt, gelten f¨ ur die bedingte Wahrscheinlichkeit auch die in Abschnitt 2.6.2 aus den Axiomen hergeleiteten sechs S¨ atze. 9. – ` ´ k-elementige Teilmengen einer n-elementigen Menge. Also: 10. Beachten Sie: Es gibt n k “n” “n” “n” “n” “n” “n” + + + ... + − − = 2n − 1 − n. 0 1 2 n 0 1
384
11 L¨ osungshinweise zu den Aufgaben
11. Bei stochastischer Unabh¨ angigkeit m¨ usste gelten: P (A ∩ B) = P (A) · P (B). Nach Voraussetzung gilt: P (A ∩ B) = 0, P (A) > 0, P (B) > 0. Daraus ergibt sich ein Widerspruch. 12. Nach Voraussetzung gilt: P (A ∩ B) = P (A) · P (B): ¯ = P (A) · P (B). ¯ Es ist A = (A ∩ B) ∪ (A ∩ B). ¯ Die a) Es ist zu zeigen: P (A ∩ B) ¯ sind unvereinbar. Hieraus ergibt sich: P (A ∩ B) ¯ = Ereignisse (A ∩ B) und (A ∩ B) P (A) − P (A ∩ B). Mit der Voraussetzung und leichten Umformungen folgt die Behauptung. b) – c) Erbringen Sie den Nachweis auf zwei Wegen: Anwendung der Ergebnisse a) und b) (Weg 1) bzw. rechnerischer Weg ohne R¨ uckgriff auf a) und b) (Weg 2). Hinweis zu m¨ oglichem Weg 2: ¯ ∩ B) ¯ = 1 − P (A ∪ B) = . . . ¯ ∩ B) ¯ = 1 − P (A P (A 13. Zur L¨ osung beachten Sie auch die Tabellen zu Beispiel 2.31. a) b)
A, B und C sind paarweise stochastisch unabh¨ angig. A, B und C sind nicht stochastisch unabh¨ angig.
14. Modellannahme: Bernoulli-Kette der L¨ ange 7. a) b) 15. a) b) c) d) e) f) 16. Die
≈ 0, 00019; ≈ 0, 9965. Relative H¨ aufigkeiten als Sch¨ atzwerte f¨ ur die Wahrscheinlichkeiten der entsprechenden Ereignisse. Die Ereignisse sind nicht unabh¨ angig. – Gesucht: P (L|R). Gesucht: P (R|L). – Ungleichung w ≤ 1 − (1 − p)n ist nach n aufzul¨ osen (durch Logarithmieren): n≥1−
log(1 − w) , log(1 − p)
w = 1 , p = 1.
Beachten Sie: log(1 − p) < 0. log(0,4) 1 , w = 0, 6. Es gilt n > log(0,9) ; 17. Vgl. L¨ osung zu Aufgabe 16 mit p = 10 n ist mindestens gleich 9. 18. Modellannahme: Bernoulli-Kette der L¨ ange 6. 19. n ≥ 31. 20. Annahme der Gleichwahrscheinlichkeit. L¨ osung entweder direkt durch Bestimmung der Anzahl der f¨ ur das Ereignis Gewinn“ g¨ unstigen Lose oder mit Hilfe der in einem end” lichen Wahrscheinlichkeitsraum g¨ ultigen Gleichung P (A ∪ B ∪ C)
=
P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) −P (B ∩ C) + P (A ∩ B ∩ C).
57 . Ergebnis: 105 21. Anwendung des Satzes von Bayes. 22. Es sei V das Ereignis Student hat sich auf Pr¨ ufung vorbereitet“, sei R das Ereig” nis Student hat Frage richtig beantwortet“. Nach Voraussetzung gilt: P (V ) = 0, 8, ” 1 . P (R|V ) = 1, P (R|V¯ ) = n
a) b)
Nach dem Satz von Bayes folgt: P (V |R) = n ≥ 5.
4n . 4n+1
Anmerkungen (1) Als geeignete Ergebnismenge Ω ergibt sich mit obigen Abk¨ urzungen: ¯ (V¯ , R), (V¯ , R)}. ¯ Ω = {(V, R), (V R), Das Ereignis Student gibt richtige Antwort“ wird durch die Teilmenge {(V, R), (V¯ , R)} ” beschrieben.
11.3 Aufgaben aus Kapitel 3, Abschnitt 3.2
385
(2) Die L¨ osung zu (a) zeigt, je gr¨ oßer die Anzahl n der m¨ oglichen Antworten ist, um so gr¨ oßer wird die Wahrscheinlichkeit P (V |R), dass sich der Student bei Vorliegen der richtigen L¨ osung vorbereitet hatte. H¨ atten Sie etwas anderes erwartet? Berechnen Sie f¨ ur n = 1, n = 2, n = 3, n = 4, n = 5, n = 6, n = 10 jeweils P (V |R). 23. Beachten Sie: Es sind zwei Richtungen“ zu beweisen. ” 24. a) Das Ereignis wenigstens einmal eine Sechs“ ist die Negation des Ereignisses kein` ´4 ” ” mal eine Sechs“. Also: 1 − 56 ≈ 0, 5177. b) Analog: 1 − ( 35 )24 ≈ 0, 4914. 36 25. Bilden Sie einerseits P (A ∪ B) = . . . und andererseits P (A) + P (B) = . . . mit Hilfe der Vierfeldertafel und fassen Sie zusammen. 26. Dreistufiges Zufallsexperiment. Zuf¨ allige Wahl einer T¨ ur f¨ ur das Aufstellen des Autos, zuf¨ allige Wahl einer T¨ ur durch den Kandidaten und Wahl einer T¨ ur durch den Moderator. (Hinweis: Der Moderator hat in der dritten Stufe nicht stets eine Wahlm¨ oglichkeit!). ¨ Es gibt zw¨ olf Ausg¨ ange im Baumdiagramm, die nicht gleichwahrscheinlich sind. Uberlegen Sie dann, bei welchen der zw¨ olf F¨ alle der Kandidat durch Wechseln“ gewinnt. Die ” Wahrscheinlichkeit f¨ ur das Ereignis Gewinn durch Wechsel“ betr¨ agt 69 = 23 . ” 27. Bezeichne Gk das Ereignis, dass nach k Ziehungen ein Gewinnlos gezogen wird. Gesucht wird P (Gk ). Bedeute Aks , dass von k gezogenen Losen s Gewinnlose sind. Dann gilt: `m´ `n−m´ · k−s s `n´ , s = 0, 1, . . . , k, P (Aks ) = k
P (Aks ) = 0, wenn s > m. F¨ ur m ≥ s gilt: P (Gk |Aks ) =
m−s . n−k
P (Gk )
Es gilt (Totale Wahrscheinlichkeit):
=
k X
P (Gk |Aks ) · P (Aks )
s=0
= 28. a) b)
... =
m . n
m + n − 1. Weg 1: PA
=
m+n−1 X “ k=m
PB
=
m + n − 1” k m+n−1−k ·p ·q k
m+n−1 X “ k=n
n + m − 1” n+m−1−k k ·p ·q . k
Weg 2: PA
=
n−1 X“ k=0
PB
=
m + k − 1” m k ·p ·q k
m−1 X “ k=0
n + k − 1” k n ·p ·q . k
Die L¨ osungen Weg 1 und Weg 2 wurden zuerst von Pierre de Montmort im Jahre 1714 ver¨ offentlicht.
11.3 1.
Aufgaben aus Kapitel 3, Abschnitt 3.2
Insgesamt gibt es 105 verschiedene F¨ unferbl¨ ocke. a) b) c)
Es gibt 10·9·8·7·6 = 30240 F¨ unferbl¨ ocke mit f¨ unf verschiedenen Ziffern. P = 0, 3024. P = 0, 5040. –
386 2.
11 L¨ osungshinweise zu den Aufgaben Drei K¨ astchen markieren die drei Ziffern:
. Steht in der Mitte z. B. eine
4, so gibt es f¨ ur die beiden Nachbark¨ astchen je vier Belegungsm¨ oglichkeiten: 0,1,2,3. ¨ F¨ ur die mittlere Position gibt es neun M¨ oglichkeiten: 1,2,3,4,5,6,7,8,9. Uberlegen Sie, welche Ziffern in den Nachbark¨ astchen stehen k¨ onnen, wenn in der Mitte die 9 steht. Man ber¨ ucksichtigt alle neun M¨ oglichkeiten f¨ ur die mittlere Position und findet das Ergebnis: Es gibt 12 + 22 + 33 + 42 + 52 + 62 + 72 + 82 + 92 = 280 Maxima. 3.
Also: P = 0,280. Vgl. die Simulation zu dieser Aufgabe im Beispiel 3.1 (Rosinenbr¨ otchen). Rechnerisch: Das Teilexperiment, das aus der Beimischung der Rosine mit der Nummer k (k = 1, 2, 3, . . . , 150) besteht, kann als Bernoulli-Experiment aufgefasst werden. a) b)
4.
5. 6. 7.
8.
P = 1 − (1 − 0, 01)150 = 0,779. ≈ 0, 252.
9 Ansatzhilfen: Jeder J¨ ager hat 10 M¨ oglichkeiten. Mit der Wahrscheinlichkeit 10 wird ` 9 ´8 eine bestimmte Ente von einem J¨ ager nicht getroffen, mit der Wahrscheinlichkeit 10 von keinem . . . Etwa 5 bis 6 Enten werden geschossen. Vgl. Simulation dieser Aufgabe im Beispiel 3.3 (Treibjagd). – – a) Man w¨ ahlt zwei gleiche Kartenspiele mit zehn Karten. Man mischt jedes Kartenspiel gut durch und zieht abwechselnd aus jedem Kartenspiel eine Karte und stellt fest, ob dieselben oder verschiedene Karten gezogen worden sind. b) Simulation mit einem Urnenmodell. c) Simulation mit Zufallszahlen, man betrachtet Paare von Zufallszahlen. a) Gem¨ aß Modellbildung bei der rechnerischen L¨ osung w¨ ahlen wir gerade Zufalls” zahl“ f¨ ur Junge“, ungerade Zufallszahl“ f¨ ur M¨ adchen“. Bilden Sie etwa 100 ” ” ” Zahlenpaare (zwei Kinder). Betrachten Sie in dieser Menge die Zahlenpaare, die an erster oder zweiter Stelle eine gerade Zahl (Junge) haben und von diesen wiederum diejenigen, bei denen die andere Zahl ungerade ist. Beispiel Zeile 4, Spalten 11/12 und 21/22 der Zufallszahlentabelle: ≈ 0,644. Sch¨ atzwert 47 73
b) – Man weiß nicht, ob der wahrgenommene Junge das ¨ altere oder das j¨ ungere Kind ist. Im Grunde liegt ein zweistufiges Zufallsexperiment vor: Die 1. Stufe ber¨ ucksichtigt die Jungen/M¨ adchen-Kombination, die 2. Stufe ber¨ ucksichtigt die Situation Man sieht einen ” Jungen“. Ein Grundraum k¨ onnte sein: Ω = {JJ, JM, M J, M M } × {J, M } mit acht Elementen (Ergebnissen). Man bestimme ihre Wahrscheinlichkeiten. – Ergebnis: P = 12 . (Hinweis: Siehe a) N. Henze: Stochastik f¨ ur Einsteiger. Wiesbaden 1997, S. 112ff; ¨ b) R. Liedl: Wahrscheinlichkeiten. In: Jahrbuch Uberblicke Mathematik 1976. Mannheim 1976, S. 197ff; c) K. L. Chung: Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse. Berlin 1978, S. 122f.) 10. a) Ungeordnete Stichprobe ohne Zur¨ ucklegen vom Umfang 2 aus einer Urne mit 32 Kugeln. Die Kugeln tragen die Namen der Sch¨ uler. b) Zweimaliges Werfen eines Laplace-W¨ urfels. Jeder Sch¨ uler erh¨ alt ein Schl¨ usselwort (x, y). Vier vom W¨ urfel erzeugbare Schl¨ usselw¨ orter bleiben frei (ohne Sch¨ uler). Ist die Auswahl noch gerecht? c) F¨ unfmaliges Werfen einer idealen M¨ unze. Jeder Sch¨ uler wird durch eine f¨ unfstellige Zeichenfolge Z (Zahl) und W (Wappen) mit Wiederholung der Zeichen codiert. Beispiel: Z W Z Z Z . 11. Man betrachtet Tripel. Beispiel (Zeile 35) : 321, 532, 524, 155, 664, . . . Da die W¨ urfel die Zahlen 0, 7, 8, 9 nicht tragen, werden diese Zahlen in der Tabelle der Zufallszahlen u ¨bersprungen. 9.
12. Drei K¨ astchen
markieren die drei T¨ uren. Durch Zufall wird eine T¨ ur
ausgew¨ ahlt (wie macht man das?), hinter der das Auto A gestellt wird. Hinter den
11.4 Aufgaben aus Kapitel 4, Abschnitt 4.5
387
beiden anderen stehen dann Ziegen Z. Der Kandidat w¨ ahlt eine T¨ ur zuf¨ allig aus. Wie kann man das simulieren? Man mache eine große Anzahl von Versuchen, wo der Kandidat seine T¨ ur wechselt und eine große Zahl von Versuchen, wo der Kandidat nicht wechselt. Man protokolliere die Versuche. Beispiele: x bedeutet: T¨ ur gew¨ ahlt vom Kandidaten. o bedeutet: T¨ ur ge¨ offnet vom Spielleiter. A
Z o
Z x
−→
Bei Wechsel Auto gewonnen.
Z o
A x
Z
−→
Bei Wechsel Ziege gewonnen.
Didaktische Hinweise findet man auch bei Pinkernell [131], Wollring [189]. 13. a) (1 − 15 · 14 )3 . b) –
11.4 1.
a)
b)
Aufgaben aus Kapitel 4, Abschnitt 4.5 Ω = {(x, y)|x, y ∈ {1, . . . , 6}} X : Ω → IR mit (x, y) → x · y X(Ω) = {1, 2, 3, 4, 5, 6, 8, 9, 10, 12, 15, 16, 18, 20, 24, 25, 30, 36}. Bei Annahme der Gleichwahrscheinlichkeit f¨ ur die 36 Paare (x, y) von Ω erh¨ alt man f¨ ur die Verteilung folgende Tabelle: k P (X = k)
k P (X = k) 2.
1
2
3
4
5
6
8
9
10
1 36
2 36
2 36
3 36
2 36
4 36
2 36
1 36
2 36
12
15
16
18
20
24
25
30
36
4 36
2 36
1 36
2 36
2 36
2 36
1 36
2 36
1 36
Beweis des Satzes 4.1: Es muss die G¨ ultigkeit der Kolmogoroff-Axiome f¨ ur PX nachgewiesen werden. Sei S := X(Ω) = {x1 , . . . , xn }. ullt ja Axiom [K1]. [K1] Sei A ⊂ X(Ω). Dann gilt PX (A) = P (X −1 (A)) ≥ 0, denn P erf¨ [K2] PX (S) = P (X −1 (S)) = P (Ω) = 1, denn P erf¨ ullt ja Axiom [K2]. [K3] Seien A, B ⊂ X(Ω) mit A ∩ B = ∅ gegeben. Dann gilt: PX (A ∪ B)
= (2)
=
(1)
P (X −1 (A ∪ B)) = P (X −1 (A) ∪ X −1 (B)) P (X −1 (A)) + P (X −1 (B)) = PX (A) + PX (B).
Begr¨ undungen: (1) Da A und B disjunkt sind, gilt X −1 (A ∪ B) = X −1 (A) ∪ X −1 (B). (2) Da P ein Wahrscheinlichkeitsmaß ist, erf¨ ullt P insbesondere Axiom [K3]. 3.
Zu 1: F (x) kennzeichnet eine Wahrscheinlichkeit. Mit Hilfe der Axiome von Kolmogoroff folgt die Behauptung. Zu 2: Wegen {X ≤ b} = {X ≤ a} ∪ {a < X ≤ b} und {X ≤ a} ∩ {a < X ≤ b} = ∅ folgt nach Axiom 3 von Kolmogoroff P ({X ≤ b}) = P ({X ≤ a}) + P ({a < X ≤ b}), also nach Definition von F: F (b) = F (a) + P ({a < X ≤ b}).
388
11 L¨ osungshinweise zu den Aufgaben Zu 3: Wegen P ({a < X ≤ b}) ≥ 0 folgt aus (2) F (b) ≥ F (a) f¨ ur b > a. Zu 4: Seien xk und xk+1 zwei Werte der Zufallsvariablen X. Wir zeigen, dass F auf dem Intervall [xk , xk+1 [ rechtsseitig stetig ist. Auf [xk , xk+1 [ ist F konstant: Auf diesem Intervall ist F die Summe aller Wahrscheinlichkeiten P (X = xi ) mit 1 ≤ i ≤ k, also F (x) =
k X
P (X = xi ) =: c.
i=1
Sei (xn ) eine Folge mit xn ∈ [xk , xk+1 ], xn ≥ xk und lim xn = xk . Dann gilt: n→∞
lim F (xn ) = lim c = c = F (xk ).
n→∞
4.
a)
n→∞
Zeichnen Sie ein Baumdiagramm, um die m¨ oglichen Spielausg¨ ange und die Gewinnm¨ oglichkeiten zu u ¨berblicken. Sei X die Zufallsvariable, die den jeweiligen Besitzstand des Spielers in Euro bei Ende des Spiels angibt. Die Liste der Werte xi und ihre Wahrscheinlichkeiten pi sind in der folgenden Tabelle angegeben: xi pi = P (X = xi )
0
1
3
4
44 64
4 64
4 64
12 64
44 4 4 12 64 +1· +3· +4· = = 1. 64 64 64 64 64 Da der Spieler aber 1,00 Euro Einsatz zahlen muss, kann er in einer langen Serie von Spielen erwarten, dass er durchschnittlich weder verliert noch gewinnt. Mit der Wahrscheinlichkeit 44 verliert der Spieler seinen Einsatz. 64 – E(X) = 0 ·
b)
xi P (X = xi )
−1
1
2
3
125 216
75 216
15 216
1 216
5.
a)
6. 7. 8.
F¨ ur alle x ∈ IR \ {−1, 1, 2, 3} gilt: P (X = x) = 0. b) – 17 . (Es ist mit Verlusten zu rechnen.) c) E(X) = − 216 d) V (X) ≈ 1, 24. V (X) = 2. Benutzen Sie die Rechenregeln f¨ ur μ “ und σ2”. “ ” Anwenden der Regeln auf E(Z) = E X−μ bzw. V (Z) = V X−μ . σ σ
a) F (7) = P (X ≤ 7) = 21 36 b) 21 36 5 c) F (9) = 6 d) – 5 e) 1 − P (X ≤ 7) = 12 10. Weg 1: Ausmultiplizieren“ des Binomens in V (X) = E ((X − E(X))2 ) und Anwenden ” bekannter S¨ atze und Regeln. P Weg 2: Ausgehen von V (X) = P i (xi − E(X))2 · P (X = xi ), das Binomen ebenfalls ausmultiplizieren und Summe P i in drei Summanden (die ebenfalls Summen sind) zerlegen und beachten, dass i xi · P (X = xi ) = E(X) gilt. 11. a) X(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, Y (Ω) = {0, 1, 2, 3, 4, 5}. Um die Wahrscheinlichkeiten P (X = k ∧ Y = ) darzustellen, ben¨ otigt man eine Matrix mit 11 Zeilen (f¨ ur die X-Werte) und 6 Spalten (f¨ ur die Y -Werte). Exemplarisch sei ein Feld dieser Matrix angegeben: 9.
P (X = 7, Y = 1) = P ({(3, 4), (4, 3)} =
2 . 36
11.4 Aufgaben aus Kapitel 4, Abschnitt 4.5 b)
Es gilt P (X = 7 ∧ Y = 1) =
1 18
389
(siehe a)) und
P (X = 7) · P (Y = 1) =
=
12. a) b)
P ({(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)}) ·P ({(1, 2), (2, 1), (2, 3), (3, 2), (3, 4), (4, 3), (4, 5), (5, 4), (5, 6), (6, 5)}) 5 6 10 · = . 36 36 108
Also sind X und Y nicht stochastisch unabh¨ angig. – Die Wahrscheinlichkeitsverteilungen von X und Y seien in Tabellenform gegeben. xi P (X = xi )
-3
-2
-1
0
1
2
3
1 27
3 27
6 27
7 27
6 27
3 27
1 27
yi P (Y = yi ) c) d) e)
0
1
2
3
8 27
12 27
6 27
1 27
E(X) = 0, E(Y ) = 1. Um die Wahrscheinlichkeiten P (X = x ∧ Y = y) darzustellen, ben¨ otigt man eine Matrix mit 7 Zeilen (f¨ ur die X-Werte) und 4 Spalten (f¨ ur die Y -Werte). X und Y sind nicht stochastisch unabh¨ angig: Es gilt etwa •
P (X = 0 ∧ Y = 1) = =
•
P ({V U G, V GU, U V G, U GV, GV U, GU V }) 6 , 27 P (X = 0)
=
P ({V U G, V GU, U V G, U U U, U GV, GV U, GU V }) 7 , 27 P (Y = 1)
=
P ({V V U, V U V, V U G, V GU, U V V, U V G, U GV, U GG, GV U,
=
12 . 27
=
•
GU V, GU G, GGU })
f)
6 7 Also: P (X = 0 ∧ Y = 1) = 27 = 27 · 12 = P (X = 0) · P (Y = 1). 27 Man hat E(X + Y ) = E(X) + E(Y ) = 0 + 1 = 1.
Die Zufallsvariable Z = X · Y hat die Werte −2, 0, +2. (Das erkennt man am Ergebnisbaum aus Teil a): Man muss ja nur die bei jedem Ergebnis stehenden Werte von X und Y multiplizieren.) Dann gilt: E(X · Y ) = (−2) · g)
15 6 6 +0· +2· = 0. 27 27 27
Man hat E(X 2 )
=
E(Y 2 )
=
7 12 6 2 54 +1· +4· +9· = = 2, 27 27 27 27 27 8 12 6 1 45 0· +1· +4· +9· = . 27 27 27 27 27 0·
Also folgt: V (X)
=
V (Y )
=
E(X 2 ) − [E(X)]2 = 2 − 02 = 2, 45 18 2 E(Y 2 ) − [E(Y )]2 = −1= = . 27 27 3
390
11 L¨ osungshinweise zu den Aufgaben
Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = 0 − 0 · 1 = 0. V (X + Y ) = V (X) + V (Y ) + Z·Cov(X, Y ) = 2 + 23 + 2 · 0 = 83 . Teil h) ist ein Beispiel daf¨ ur, dass die Covarianz von zwei Zufallsvariablen X und Y Null sein kann – auch wenn X und Y nicht stochastisch unabh¨ angig sind. 13. Es sei Xi die Zufallsvariable, welche die Augenzahl des i-ten Wurfes angibt (1 ≤ i ≤ 3). Diejenige Zufallsvariable, welche das doppelte Produkt der Augenzahlen angibt, lautet 2 · X 1 · X2 · X 3 . Diejenige Zufallsvariable, welche die zehnfache Augensumme angibt, lautet 10 · (X1 + X2 + X3 ). Der Gewinn in der Kasse der Veranstalter wird – bei Spiel 1 durch V := 100 − 2 · X1 · X2 · X3 – bei Spiel 2 durch W := 100 − 10 · (X1 + X2 + X3 ) angegeben. Man muss nun den Erwartungswert von V und den Erwartungswert von W berechnen. h)
E(V )
= (2)
=
= E(W )
= (3)
=
=
(1)
E(100 − 2 · X1 · X2 · X3 ) = 100 − 2 · E(X1 · X2 · X3 ) 100 − 2 · E(X1 ) · E(X2 ) · E(X3 ) 7 7 7 343 1 100 − 2 · · · = 100 − = 14 2 2 2 4 4 (2)
E(100 − 10 · (X1 + X2 + X3 )) = 100 − 10 · E(X1 + X2 + X3 ) 100 − 10 · [E(X1 ) + E(X2 ) + E(X3 )] „ « 210 7 7 7 = 100 − + + = −5. 100 − 10 · 2 2 2 2
Begr¨ undungen der Gleichheitszeichen: (1) Satz 4.6. (2) Man macht sich wie in Beispiel 4.11 schnell klar, dass X1 , X2 , X3 stochastisch unabh¨ angig sind. Dann sind auch die zwei Zufallsvariablen X1 und X2 · X3 stochastisch unabh¨ angig (das mache man sich klar). Dann hat man: E(X1 · X2 · X3 )
= (∗)
=
(∗)
=
E(X1 · (X2 · X3 )) E(X1 ) · E(X2 · X3 ) E(X1 ) · E(X2 ) · E(X3 ).
Bei (∗) wurden die S¨ atze 4.11 und 4.10 angewandt: – zuerst auf X1 und X2 · X3 , – dann auf X2 und X3 . (3) Satz 4.8. Fazit: Da E(V ) = 14 14 und E(W ) = 5, ist es aus Sicht des Veranstalters sinnvoll, Spiel 1 anzubieten: Es bringt durchschnittlich 14,25 Cent in die Kasse.
11.5 1.
Hypergeometrische Verteilung. a) b)
2. 3. 4.
Aufgaben aus Kapitel 5, Abschnitt 5.5 1 ; 15 E(X) = 0, 48;
V (X) ≈ 0, 37.
Gesucht ist der Erwartungswert einer geometrischen Verteilung mit p = √ σ = 20 ≈ 4, 47. P (X = 0) = 0, 36. –
1 . 5
E(X) = 5.
11.6 Aufgaben aus Kapitel 6, Abschnitt 6.3 5.
Hypergeometrische Verteilung. `70´ `30´ `70´ `30´ · · 4 `100´1 + 5`100´0 ≈ 0, 53. 5
6.
5
Anmerkung: Das Kontrollsystem hat sich im Vergleich zum Beispiel verschlechtert. E(X) = x1 ·
7. 8.
391
1 1 1 x1 + x2 + . . . + xn + x2 · + . . . + xn · = . n n n n
E(X) = 49 (geometrische Verteilung). 6 Sei P (A) = p. Dann gilt P (IA = 1)
=
P (IA = 0)
=
P (A) = p, ¯ = 1 − p. P (A)
Also: E(IA ) = 1 · P (IA = 1) + 0 · P (IA = 0) = p. V (IA ) = (0 − p)2 · (1 − p) + (1 − p)2 · p = p · (1 − p), oder mit Hilfe des Verschiebungssatzes: ` 2´ V (IA ) = E IA − (E (IA ))2 = p − p2 = p · (1 − p). 9.
L¨ osung ohne Ber¨ ucksichtigung der Zusatzzahl. Die Wahrscheinlichkeit, dass eine vor6 gegebene Zahl gezogen wird, ist 49 . Geometrische Verteilung mit dem Parameter 6 · E(X) = 49 ≈ 8, 2. p = 49 6 Zusatzfrage: Wie lautet die L¨ osung mit Ber¨ ucksichtigung der Zusatzzahl? 10. Hypergeometrische Verteilung. Bestimmen Sie die Anzahl der geraden Zahlen beim Lot” ≈ 2, 9. to 6 aus 49“. E(X) = 6 · 24 49 11. Berechnung mittels Definition des Erwartungswertes ist aufwendig. Mit Hilfe der Tabelle f¨ ur die Rencontre-Zahlen (siehe Satz 2.19) berechne man z. B. den Erwartungswert f¨ ur n = 5 bzw. n = 6. Da die Zufallsvariable eine Indikatorfunktion (siehe Aufgabe 8) ist, ist die L¨ osung mit Hilfe der Indikatorfunktion und Anwendung von Satz 4.8 eleganter. Sei Ar das Ereignis, dass das Element mit Nummer r fix ist. Man betrachte IA1 + IA2 + . . . + IA13 . – Es ist 1 f¨ ur r = 1, . . . , 13. Der Erwartungswert dieser Summe ist 1. P (Ar ) = 13
11.6 1.
2.
3.
Aufgaben aus Kapitel 6, Abschnitt 6.3
Nach Voraussetzung ist die gesamte Wahrscheinlichkeitsmasse 1 verteilt auf 0 ≤ X ≤ 12. Mit Hilfe des Erwartungswertes 10 gilt dann: P (X ≤ 7) = P (|X − 10| ≥ 3). Es folgt = 0, 2. P (|X − 10| ≥ 3) ≤ 1,8 9 Die Zufallsvariable X bezeichne die absolute H¨ aufigkeit des Auftretens einer Augenzahl. Dann gilt (beachten Sie die Ungleichung (*) im Beweis des Schwachen Gesetzes f¨ ur große Zahlen): „ « X 1·5 5 1 ≈ − | ≥ 0, 0466 ≤ ≈ 0, 13. P | 500 6 6 · 6 · 500 · 0, 04662 39, 088 Annahme der Laplace-Wahrscheinlichkeit. Es gilt P (|hn (A) − E(hn (A))| ≥ ε)
≤
Also: V (hn (A))
=
n
≥
p · (1 − p) V (hn (A)) = . n · ε2 ε2 p · (1 − p) 1·5 = ≤ 0, 012 n 6·6·n 1389.
392
11 L¨ osungshinweise zu den Aufgaben
11.7 1.
Aufgaben aus Kapitel 7, Abschnitt 7.3
Man mache sich die Aufgabenstellung an einem Baumdiagramm klar. Man erkennt dann P =
(Charles gewinnt) ∞ [
P
!
Charles gewinnt nach 3i Z¨ ugen
i=1
=
∞ X
P
(Charles gewinnt nach 3i Z¨ ugen)
i=1
= = =
1 2 1 1 2 1 1 2 5 1 2 1 1 2 5 · · ) + ( · · ) · ( · · ) + ( · · )2 · ( · · ) + . . . 2 3 6 2 3 6 2 3 6 2 3 6 2 3 6 » – 1 2 1 1 1 2 5 5 q · (1 + a + a2 + . . .) mit q = · · = ,a= · · = 2 3 6 18 2 3 6 18 ∞ X q· ai
(
i=0
=
q·
1 1−a
1 13 Beweis des Satzes 4.1 aus Abschnitt 4.1: Sei S := X(Ω) = {xi |i ∈ IN}. Es muss die G¨ ultigkeit der Kolmogoroff-Axiome [K1], [K2] und [K3∗] f¨ ur PX nachgewiesen werden. =
2.
ullt ja Axiom [K1]: Sei A ⊂ X(Ω). Dann gilt PX (A) = P (X −1 (A)) ≥ 0, denn P erf¨ [K1]. [K2]: PX (S) = P (X −1 (S)) = P (Ω) = 1, denn P erf¨ ullt ja Axiom [K2]. [K3∗]: Seien Mengen Ai (i ∈ IN) mit der Eigenschaft Ai ∩ Aj = ∅ (f¨ ur i = j) gegeben. Dann gilt: [ [ [ PX ( Ai ) = P (X −1 ( Ai )) = P ( X −1 (Ai )) i∈IN ∗
=
X i∈IN
i∈IN
P (X −1 (Ai )) =
i∈IN
X
PX (Ai ).
i∈IN
Die Gleichheit bei (∗) gilt, da P das Axiom [K3∗] erf¨ ullt. 3.
a)
b)
4. 5.
– a)
Wegen [σ1] ist Ω ∈ A. Wegen [σ2] ist dann ∅ = Ω ∈ A. T S∞ Wegen einer Regel von de Morgan gilt ∞ i=1 Ai = i=1 Ai . in A. Wegen [σ2] liegen auch Nach Voraussetzung liegen die Mengen Ai (i ∈ IN) S die Mengen Ai (i ∈ IN) in A. Wegen [σ3] liegt auch ∞ i=1 Ai ∈ A; wegen [σ2] liegt auch das Komplement dieser Menge in A. Die folgenden Mengen m¨ ussen in A liegen (die Begr¨ undungen mache sich der Leser klar): IR, ∅, abz¨ ahlbare Vereinigungen einelementiger Mengen, Komplement¨ armengen von abz¨ ahlbaren Mengen. Da IR u ahlbar ist, sind die Komplement¨ armengen ¨berabz¨ abz¨ ahlbarer Mengen u ahlbar. So kommt man dazu, A wie folgt zu definieren: ¨berabz¨
b)
6.
Man schreibt: {x} = ] − ∞, x[ ∪ ]x, +∞[. ] − ∞, x[ und ]x, +∞[ sind Borelmengen. Wegen [B3] ist auch die Vereinigung dieser Mengen eine Borelmenge; wegen [B2] ist auch das Komplement dieser Vereinigungsmenge eine Borelmenge. T 1 1 ur Alternative: Man schreibt: {x} = ∞ n=1 [x, x + n [. Da [x, x + n [ Borelmenge ist (f¨ n ∈ IN), ist wegen der Aussage von Aufgabe 5 auch der Schnitt dieser Mengen eine Borelmenge. Wegen Teil a) ist f¨ ur jedes q ∈ Q I die Menge {q} eine Borelmenge. Da Q I eine abz¨ ahlbar-unendliche Menge ist, kann man die rationalen Zahlen durchnummerieS I dann eine Borelmenge. ren, d. h. man hat Q I = ∞ i=1 qi . Wegen [B3] ist Q
11.8 Aufgaben aus Kapitel 8, Abschnitt 8.8
A = {T ⊂ IR |
393
T ist abz¨ ahlbar
oder
T ist Komplement einer abz¨ ahlbaren Menge}. Beispielsweise gilt: Q I ∈ A (denn Q I ist abz¨ ahlbar), IR\I Q ∈ A (denn IR\I Q =Q I¯ ist Komplement der abz¨ ahlbaren Menge Q). I Es bleibt die Frage, ob A die kleinste σ-Algebra ist, die alle ein-elementigen Teilmengen von IR enth¨ alt. Antwort: Eine abz¨ ahlbare Vereinigung abz¨ ahlbarer Mengen ist wieder eine Menge, die abz¨ ahlbar ist; sie liegt wieder in A, erweitert A also nicht. Eine abz¨ ahlbare Vereinigung von Mengen, deren Komplemente abz¨ ahlbar sind, ist wieder eine Menge, deren Komplement abz¨ ahlbar ist; sie liegt wieder in A, erweitert A also nicht.
11.8 1.
2. 3.
Aufgaben aus Kapitel 8, Abschnitt 8.8
Bei (a) und (b) Nachweis der drei Eigenschaften einer Dichtefunktion f¨ uhren. Zu (a): Es gilt E(F1 ) = π, V ar(F1 ) = 13 π 2 . Bei diesen Rechnungen muss zum Auffinden von Stammfunktionen mehrmals partielle Integration benutzt werden (alternativ kann eine Integraltafel herangezogen werden). Zu (b): Es gilt E(F2 ) = 1, V ar(F2 ) = 95 . – Zur Abk¨ urzung sei F (x) := P (] − ∞, x]). a)
In den Intervallen ]−∞; 79, 7, ]79, 7; 80, 5[ und ]80, 5; +∞[ ist F stetig. An der Stelle x1 = 79, 7 ist F linksseitig stetig und rechtsseitig stetig, denn (nachrechnen!): lim F (x) = 0,
x→x1 x<x1
lim F (x) = 0.
x→x1 x>x1
Da beide Grenzwerte u ¨bereinstimmen, ist F in x1 stetig. An der Stelle x2 = 80, 5 ist F linksseitig stetig und rechtsseitig stetig, denn (nachrechnen!): lim F (x) = 1. lim F (x) = 1, x→x x→x 2 x<x2
b)
2 x>x2
Da beide Grenzwerte u ¨bereinstimmen, ist F in x2 stetig. F ist in den Intervallen ] − ∞; 79, 7[, [79, 7; 80, 5] und ]80, 5; +∞[ differenzierbar, und es gilt: 8 > ur x < 79, 7 < 0 f¨ 5 F (x) = f¨ u r 79, 7 ≤ x ≤ 80, 5 . 4 > : 0 f¨ ur x > 80, 5 Wir setzten f (x) := F (x). Dann ist f eine Dichtefunktion (man muss die drei Rx Eigenschaften nachpr¨ ufen). Weiter gilt: F (x) = f (t)dt. −∞
4.
Da der Erwartungswert μ = 60 ist, gilt λ = 1
5. 6.
1 . 60
(a) P (] − ∞, 10]) = F (10) = 1 − e− 60 ·10 ≈ 0, 1535. (b) P (]30, +∞)) = 1 − P (] − ∞, 30]) 1 1 = 1 − F (30) = 1 − (1 − e− 60 ·30 ) = e− 2 ≈ 0, 6065. Anl¨ asslich dieser beiden Werte sollte der Bahnkunde u ¨berlegen, ob seine Modellierung mittels Exponentialverteilung angemessen ist. Falls er wirklich in ungef¨ ahr 15 % der F¨ alle weniger als 10 Minuten und in ungef¨ ahr 61 % der F¨ alle mehr als 30 Minuten gewartet hat, wird sein Modell best¨ atigt. Φ(−z) = P0,1 (]−∞, −z]) = P0,1 ([z, +∞[) = 1−P (]−∞, z[) = 1−P (]−∞, z]) = 1−Φ(z). Begr¨ unden Sie jedes Gleichheitszeichen! (a) Pμ,σ 2 (] − ∞, 4, 23]) = P0,1 (] − ∞, 1, 25]) = Φ(1, 25) = 0, 8944. (b) Pμ,σ 2 (] − ∞, 4, 09]) = P0,1 (] − ∞, −0, 9375]) = Φ(−0, 9375) = 1 − Φ(0, 9375) = 0, 1736. (c) Es muss gelten
394
11 L¨ osungshinweise zu den Aufgaben Pμ,σ2 ([μ − c, μ + c]) ≥ 0, 9.
(∗)
Man rechnet Pμ,σ 2 ([μ − c, μ + c]) = = = =
7.
Pμ,σ 2 (] − ∞, μ + c]) − Pμ,σ2 (] − ∞, μ − c]) 1 1 P0,1 (] − ∞, · c]) − Pμ,σ2 (] − ∞, − · c]) σ σ 1 1 Φ( · c) − Φ(− · c) σ σ 1 2 · Φ( · c) − 1. σ
1 Wegen (∗) folgt Φ( σ · c) ≥ 0, 95. Mittels der Tabelle zur Standard-Normalverteilung 1 findet man σ · c ≥ 1, 64. Da σ = 0, 064 ist, hat man c ≥ 0, 105. Also ist das gesuchte Intervall [4, 019, 4, 255]. Sei X die Zufallsvariable, die angibt, wie viele von n Zimmerreservierungen (f¨ ur diesen bestimmten Tag) annulliert werden. Dann ist X B(n, 15 )-verteilt, es gilt E(X) = 1 4 ¨ n, V ar(X) = 15 · 45 · n = 25 n. Eine Uberbuchung der Einzelzimmer des Hotels liegt 5 vor, wenn von den Reservierungen (mit n > 200) nur weniger als n − 200 annulliert ¨ werden (etwa liegt bei 220 Reservierungen eine Uberbuchung vor, wenn nur weniger als ¨ 20 annulliert werden). Uberbuchung bedeutet also: X < n − 200, d. h. X ≤ n − 201. Die Vorgabe der Hotelmanagerin bedeutet:
P (X ≤ n − 201) ≤ 0, 025. Wegen des Grenzwertsatzes von de Moivre-Laplace hat man: 0 1 „ « 1 n − 201 − n 0, 8n − 201 B 5 C q . P (X ≤ n − 201) ≈ Φ @ √ A=Φ 4 0, 4 n n 25
F¨ ur Werte von n zwischen 201 und 251 ist das Argument von Φ negativ. Das bedeutet: „ « „ « 0, 8n − 201 201 − 0, 8n Φ =1−Φ . √ √ 0, 4 n 0, 4 n Nun soll gelten: „
1−Φ
8.
201 − 0, 8n √ 0, 4 n
«
„
≤ 0, 025,
d. h.
Φ
201 − 0, 8n √ 0, 4 n
«
≥ 0, 975.
Mittels der Tabelle zur Standard-Normalverteilung findet man √ 201−0,8n √ = 1, 96, also 0, 8n + 0, 784 n = 201. 0,4 n Diese Gleichung wird ann¨ ahernd von n = 236 erf¨ ullt. Damit kann die Managerin – unter Beachtung ihrer Vorgabe – 236 Reservierungen akzeptieren. Sei p die Wahrscheinlichkeit, dass eine zuf¨ allig ausgew¨ ahlte Person aus der Menge der W¨ ahler f¨ ur die Partei XYZ stimmt. Sei Xn die Zufallsvariable, die angibt, wie viele von n Personen (aus der Menge der W¨ ahler) f¨ ur die Partei XYZ stimmen. Xn ist also B(n, p)-verteilt; es gilt E(Xn ) = n · p, V ar(Xn ) = n · p · (1 − p). Die Zufallsvariable Es gilt:
1 X n n
ist dann ein Sch¨ atzer f¨ ur den Stimmenanteil p der Partei XYZ.
1 1 1 E( Xn ) = p, V ar( Xn ) = · p · (1 − p). n n n Der Grundsatz des Instituts besagt nun 1 1 1 P (p − ≤ Xn ≤ p + ) ≥ 0, 95 100 n 100
(∗)
11.9 Aufgaben aus Kapitel 9, Abschnitt 9.4
395
Wegen des Grenzwertsatzes von de Moivre-Laplace hat man: 1 1 1 P (p − ≤ Xn ≤ p + ) 100 n 100 0 1 0 ≈
= =
1
1 1 B (p + 100 ) − p C B (p − 100 ) − p C Φ @q A − Φ @q A 1 1 · p · (1 − p) · p · (1 − p) n n „ « „ « r r 1 1 n n Φ −Φ − · 100 p · (1 − p) 100 p · (1 − p) „ « r 1 n 2·Φ − 1. 100 p · (1 − p)
Wegen des Grundsatzes (∗) muss gelten: „ « r 1 n − 1 ≥ 0, 95. 2·Φ 100 p · (1 − p) „
« r 1 n ≥ 0, 975. 100 p · (1 − p) Mittels der Tabelle zur Standard-Normalverteilung findet man r 1 n ≥ 1, 96, also n ≥ (196)2 · p · (1 − p). 100 p · (1 − p)
Das bedeutet
Φ
Nun ist p ja unbekannt; aber wir wissen 1 , 4
max{p · (1 − p)|p ∈]0, 1[} =
denn: (p − 12 )2 ≥ 0 ⇔ p · (1 − p) ≤ 14 (siehe Hinweis 1 nach Satz 6.2). ahler befragen. Damit folgt n ≥ (196)2 · 14 = 9604. Das Institut muss also um die 9600 W¨
11.9 1.
a)
Aufgaben aus Kapitel 9, Abschnitt 9.4 Sei Y die Zufallsvariable, welche die Anzahl der weißen Kugeln bei der zweiten Ziehung angibt. Dann gilt: `K ´`10−K ´ 0
PK (Y = 0) =
`10´3
.
3
Berechnet man diese Wahrscheinlichkeiten, erh¨ alt man folgende Tabelle: K PK (Y = 0)
0 1
1
2
3
4
5
6
7
7 10
7 15
7 24
1 6
1 12
1 30
1 120
8 0
9 0
10 0
Mit Θ = {0, 1, . . . , 9, 10} lautet die Maximum-Likelihood-Funktion L0 (K) : Θ → IR
mit
K → L0 (K) = PK (Y = 0).
An der Tabelle erkennt man: max{L0 (K)|K ∈ {0, 1, . . . , 9, 10}} =
max{PK (Y = 0)|K ∈ {0, 1, . . . , 9, 10}}
=
P0 (Y = 0) = L0 (0).
Also ist die Zahl 0 der Maximum-Likelihood-Sch¨ atzwert der unbekannten Zahl K. Das bedeutet: Wenn die zweite Ziehung keine weiße Kugel bringt, ist der MaximumLikelihood-Sch¨ atzwert der unbekannten Anzahl der weißen Kugeln die Zahl Null.
396
11 L¨ osungshinweise zu den Aufgaben b)
F¨ ur die Wahrscheinlichkeiten PK (X = 2) · PK (Y = 0) erh¨ alt man folgende Tabelle: K PK (X = 2) · PK (Y = 0)
0 0
1 0
2
3
4
5
6
7 225
49 960
1 20
5 144
1 60
K
7
8
9
10
PK (X = 2) · PK (Y = 0)
7 1600
0
0
0
Mit Θ = {0, 1, . . . , 9, 10} lautet die Maximum-Likelihood-Funktion L(2,0) : Θ → IR
K → L(2,0) (K) = PK (X = 2) · PK (Y = 0).
mit
Aus der Tabelle erkennt man: max{L(2,0) (K)|K ∈ {0, 1, . . . , 9, 10}}
2.
=
max{PK (X = 2) · PK (Y = 0)|K ∈ {0, 1, . . . , 9, 10}}
=
P3 (X = 2) · P3 (Y = 0) = L(2,0) (3).
Also ist die Zahl 3 der Maximum-Likelihood-Sch¨ atzwert der unbekannten Zahl K. Das bedeutet: Wenn die erste Ziehung zwei weiße Kugeln und die zweite Ziehung keine weiße Kugel liefert, ist der Maximum-Likelihood-Sch¨ atzwert der unbekannten Anzahl der weißen Kugeln die Zahl 3. Bei Beispiel 9.3 gilt Folgendes: S ist die Menge der m¨ oglichen Anzahlen von Wappen“, ” also S = {0, 1, . . . , n}. Da die unbekannte Erfolgswahrscheinlichkeit p zwischen 0 und 1 liegt, ist Θ das Intervall [0,1]. Ein Sch¨ atzer ist etwa die Funktion T : S → IR
mit
k →
1 1 k+ . 10 2
Dieser Sch¨ atzer ist nat¨ urlich in keinster Weise ad¨ aquat, aber es soll hiermit nur verdeutlicht werden, dass es viele Sch¨ atzer gibt. Die Maximum-Likelihood-Funktion lautet Lk : Θ → IR
mit
p → Lk (p) = Pp (X = k).
Bei der Er¨ orterung des Beispiels 9.3 wurde bewiesen, dass die Funktion Lk ihr Maximum k annimmt. Das heißt an der Stelle n max{Lk (p)|p ∈ [0, 1]} = =
3.
max{Pp (X = k)|p ∈ [0, 1]} k P k (X = k) = Lk ( ). n n
k der Maximum-Likelihood-Sch¨ atzwert der unbekannten ErfolgswahrAlso ist die Zahl n scheinlichkeit p. Sei X geometrisch verteilt mit dem unbekannten Parameter p. Dann hat man f¨ ur n ∈ IN
P (X = n) = (1 − p)n−1 · p. Hier ist S = X(Ω) = IN und Θ = [0, 1]. Die Maximum-Likelihood-Funktion lautet Ln : Θ → IR
mit
p → Ln (p) = Pp (X = n).
Wir m¨ ussen die Maximalstelle von Ln bestimmen. Mit der Produktregel ergibt sich aus Ln (p) = (1 − p)n−1 · p die erste Ableitung Ln (p)
=
[(1 − p)n−1 · p]
=
(n − 1) · (1 − p)n−2 · (−1) · p + (1 − p)n−1
=
(1 − p)n−2 [−(n − 1) · p + (1 − p)]
=
(1 − p)n−2 · [1 − np].
Die Nullstellen von Ln sind somit 1 und eine Maximalstelle sein. Also ist die Zahl Parameters p.
1 . n 1 n
1 1 Da Ln (1) = 0 und Ln ( n ) > 0, muss n der Maximum-Likelihood-Sch¨ atzwert des
11.9 Aufgaben aus Kapitel 9, Abschnitt 9.4 4.
397
Es sei ein vorsichtiger Sch¨ atzer f¨ ur die Anzahl der Fische der Art F gegeben: Beim ersten Fang werden K Fische der Art F gefangen. Beim zweiten Fang findet man unter n gefangenen Fischen der Art F genau k markierte Fische; das bedeutet: Beim zweiten Fang gibt es n − k unmarkierte Fische der Art F . Also m¨ ussen im See mindestens K + (n − k) Fische der Art F sein – n¨ amlich die K markierten Fische des ersten Fangs und die n − k unmarkierten Fische des zweiten Fangs. Sei X die Zufallsvariable, welche die Anzahl der Fische beim zweiten Fang angibt, sei S = X(Ω) = {0, 1, . . . , n}. Dann haben wir folgenden Sch¨ atzer: T : S → IR
5.
a)
mit
k → K + (n − k).
Die Beobachtung (x1 , . . . , xn ) stellt eine n-elementige Teilmenge der gesamten Nummernmenge {1, . . . , N } dar. Es sei S die Menge der m¨ oglichen n-elementigen Beobachtungsmengen: Alle Elemente von S sind gleichwahrscheinlich, d. h. 1 P ({x1 , . . . , xn }) = `N ´ . n
Die unbekannte Zahl der Taxis ist die Zahl N ∈ IN, also ist hier Θ = IN. Die Maximum-Likelihood-Funktion ist L(x1 ,...,xn ) : Θ → IR,
N → PN ({x1 , . . . , xn }).
Damit gilt nun: max{L(x1 ,...,xn ) (N )|N ∈ IN} = =
max{PN ({x1 , . . . , xn })|N ∈ IN} ( ) 1 max `N ´ |N ∈ IN n
=
1
`xn ´
(∗)
n
=
L(x1 ,...,xn ) (xn )
1 mit N ∈ IN und N ≥ xn streng monoton (Nn ) fallend ist, ist das Maximum dieser Folge der Wert x1n . (n) Das bedeutet, dass xn der Maximum-Likelihood-Sch¨ atzwert der unbekannten Zahl N ist. Interpretation: Die Zahl der Taxis wird durch die h¨ ochste beobachtete Nummer gesch¨ atzt, das heißt: ∗ Man gibt niemals eine zu hohe Sch¨ atzung ab. ∗ Aber: Die wahre Anzahl der Taxis wird offenbar untersch¨ atzt. Der Maximum-Likelihood-Sch¨ atzwert ist also in dieser Situation f¨ ur die Praxis untauglich. In Teil b) werden alternative Sch¨ atzer vorgestellt. Es seien drei alternative Sch¨ atzer angegeben. M¨ oglichkeit (1): Man nimmt an, dass das arithmetische Mittel der n beobachteten Nummern ungef¨ ahr in der Mitte aller N Nummern liegt. Das heißt
Zu (∗): Da die Folge (aN ) mit aN =
b)
1 N, also N = 2¯ x. 2 Der Sch¨ atzer ist dan die Abbildung T : S → IR mit x ¯=
(x1 , . . . , xn ) → T (x1 , . . . , xn ) := 2 ·
n X
xi .
i=1
M¨ oglichkeit (2): Man nimmt an, dass die gr¨ oßte beobachtete Nummer ungef¨ ahr ebenso weit von N abweicht wie die kleinste beobachtete Nummer von 1. Das heißt N − xn = x1 − 1,
also
N = x1 + xn − 1.
398
11 L¨ osungshinweise zu den Aufgaben Der Sch¨ atzer ist dann die Abbildung T : S → IR mit (x1 , . . . , xn ) → T (x1 , . . . , xn ) := x1 + xn − 1. M¨ oglichkeit (3): Man nimmt an, dass der Abstand zwischen der gr¨ oßten beobachteten Nummer und der unbekannten Zahl N ebenso groß ist wie das arithmetische Mittel der Abst¨ ande zweier benachbarter Nummern. Das heißt: N − xn =
1 · [(x1 − 1) + (x2 − x1 ) + . . . + (xn−1 − xn−2 ) + (xn − xn−1 )], n
also
1 1 1 · (xn − 1) + xn = (1 + ) · xn − . n n n Der Sch¨ atzer ist dann die Abbildung T : S → IR mit N =
(x1 , . . . , xn ) → T (x1 , . . . , xn ) := (1 +
11.10 1.
a)
b)
1 1 ) · xn − . n n
Aufgaben aus Kapitel 10, Abschnitt 10.6
Der Test wird wie folgt entwickelt: Schritt 1: Signifikanzniveau ist 0,05. Schritt 2: Man kann etwa folgendes Testdesign w¨ ahlen: Bei jedem Einzelexperiment werden zwei Tassen mit Tee und Milch gef¨ ullt – einmal in der Reihenfolge TeeMilch, einmal in der Reihenfolge Milch-Tee. Dann werden diese Tassen in einer durch M¨ unzwurf ermittelten Reihenfolge der Lady zum Probieren gereicht. Die Lady muss dann bei diesen Tassen die Reihenfolge des Eingießens angeben. Dieses Experiment wird nun n Mal durchgef¨ uhrt. Um die Unabh¨ angigkeit der Einzelexperimente zu gew¨ ahrleisten, muss zwischen den Einzelexperimenten gen¨ ugend Zeit verstreichen. Sei p die Erfolgswahrscheinlichkeit der Lady bei einem Einzelexperiment. Die Behauptung der Lady ist, dass p > 12 ist. Die Nullhypothese lautet somit: Die Lady r¨ at bei jedem Einzelexperiment, d. h. p = 12 . Sei X die Zufallsvariable, welche die Anzahl der Erfolge bei n Durchf¨ uhrungen des Experiments angibt. Unter der Voraussetzung, dass H0 gilt, ist X eine B(n, 12 )verteilte Zufallsvariable. Schritt 3: Die Nullhypothese wird verworfen, falls P (Δ ≤ X ≤ n) ≤ 0, 05 ist. F¨ ur n = 5 ergibt sich der Wert Δ = 5. F¨ ur n = 10 ergibt sich der Wert Δ = 9. F¨ ur n = 25 ergibt sich der Wert Δ = 18. Sowohl bei n = 5 als auch bei n = 10 muss die Lady eine sehr anspruchsvolle Quote erzielen, damit H0 verworfen und somit ihr geglaubt wird. Wenn man die Wahrscheinlichkeit, dass man der Lady glaubt, obwohl sie nur r¨ at, kleiner als 0,05 halten will, werden bei kleinen Versuchszahlen sehr hohe Anforderungen an die Lady gestellt. Die Erfolgswahrscheinlichkeit der Lady sei p = 34 . Sei H0 wieder die von den Testern angenommene Hypothese, dass die Lady bloß r¨ at (also H0 : p = 12 ); sei H1 die Hypothese, dass die Lady eine Trefferwahrscheinlichkeit p = 34 hat (also H1 : p = 3 ). 4 Laut Aufgabenstellung soll gelten, dass H1 wahr ist. Die Zufallsvariable X, welche die Anzahl der Erfolge angibt, ist also (da H1 wahr ist) B(n, 34 )-verteilt. Akzeptiert die Lady die Entscheidungsregel des Tests, so wird ihre Begabung nicht erkannt, falls sie weniger korrekte Entscheidungen trifft, als der Wert Δ (der Entscheidungsregel) vorgibt. Die Wahrscheinlichkeit, dass die Begabung der Lady nicht erkannt wird, berechnet man somit wie folgt:
11.10 Aufgaben aus Kapitel 10, Abschnitt 10.6
399
P (H0 wird angenommen und H1 ist wahr) P (X ≤ Δ − 1) „ «k „ «n−k n” 3 1 · · . 4 4 k k=0
=
Δ−1 X “
=
Das bedeutet (tabellarisch aufgeschrieben): Anzahl der Versuchsdurchf¨ uhrungen n=5 n = 10 n = 25
H0 wird akzeptiert, falls gilt X≤4 X≤8 X ≤ 17
(da Δ = 5) (da Δ = 9) (da Δ = 18)
Also hat man: P (H0 wird akzeptiert und H1 ist wahr) = =
=
P (X ≤ Δ − 1) Γ−1 X “n” „ 3 «k „ 1 «n−k · · 4 4 k k=0 8 > ur n = 5 < 0, 7627 f¨ 0, 7560 f¨ ur n = 10 . > : 0, 2735 f¨ ur n = 25
Das bedeutet: Falls die Lady Versuchsanzahlen von n = 5 oder n = 10 zustimmt und auch die entsprechende jeweilige Entscheidungsregel akzeptiert, ist die Wahrscheinlichkeit, dass ihre wahre Begabung (n¨ amlich p = 34 ) nicht erkannt wird, sehr hoch. Falls die Lady aber 25 Mal den Probierversuch mitmachen will und die zugeh¨ orige Entscheidungsregel akzeptiert, ist die Wahrscheinlichkeit, dass ihre wahre Begabung nicht erkannt wird, relativ klein und vielleicht schon auf einem f¨ ur sie akzeptablen Niveau. Aber will sie so viel Tee trinken? 2.
Das Testdesign sieht wie folgt aus: Schritt 1: Signifikanzniveau ist 0,01. Schritt 2: Sei p die Erfolgswahrscheinlichkeit der Person mit den u ahig¨bersinnlichen F¨ keiten. Dann hat man: 1 H0 : Die Person r¨ at. Also: H0 : p = 2 1 H1 : Die Person hat recht. Also: H1 : p > . 2 Sei X die Zufallsvariable, welche die Anzahl der Erfolge dieser Person angibt. Unter der Voraussetzung, dass H0 gilt, ist X eine B(50, 12 )-verteilte Zufallsvariable. Schritt 3: Die Nullhypothese wird verworfen, falls P (Δ ≤ X ≤ 50) ≤ 0, 01 ist. Das bedeutet: Es muss Δ bestimmt werden, so dass „ « „ « 50 “ X 50” 1 k 1 50−k ≤ 0, 01. k 2 2 k=Δ Man findet Δ = 34. Damit hat man automatisch die Entscheidungsregel f¨ ur den Test: Wird bei mehr als Δ = 34 Einzelversuchen von der Testperson ein Erfolg erzielt, muss (auf dem Signifikanzniveau α = 0, 01) die Nullhypothese verworfen werden.
400 3.
11 L¨ osungshinweise zu den Aufgaben Die Biologen in dem Labor entwerfen folgendes Testdesign: Schritt 1: Signifikanzniveau α = 0, 05. Schritt 2: Sei p die Wahrscheinlichkeit, dass eine Ratte den roten Gang w¨ ahlt. Dann hat man: Die Ratten interessieren sich nicht f¨ ur die Farbe des Ganges; H0 : sie w¨ ahlen den Gang v¨ ollig zuf¨ allig. Also: H0 : p = 12 . Die Ratten bevorzugen eine der beiden Farben H1 : (aus welchen Gr¨ unden auch immer). Also: H1 : p = 12 . Sei X die Zufallsvariable, welche die Anzahl der Ratten angibt, welche den roten Gang w¨ ahlen. Unter der Voraussetzung, dass H0 gilt, ist X eine B(20, 12 )-verteilte Zufallsvariable. Schritt 3: Die Nullhypothese wird verworfen, falls P (X ≤ Γ) ≤ 0, 025
oder
P (X ≥ 20 − Γ) ≤ 0, 025.
Das bedeutet: Es muss Γ bestimmt werden mit Γ “ ” „ «20 20 “20” „ 1 «20 X X 20 1 · ≤ 0, 025 oder · ≤ 0, 025. 2 2 k k k=0 k=20−Γ
4.
Man findet Γ = 5. Damit hat man automatisch die Entscheidungsregel f¨ ur den Test: Ist die Anzahl der Ratten, die den roten Gang w¨ ahlen, kleiner/gleich 5 oder gr¨ oßer/ gleich 15, so muss (auf dem Signifikanzniveau von α = 0, 05) die Nullhypothese verworfen werden. Es muss ein zweiseitiger Test entwickelt werden. Schritt 1: Signifikanzniveau ist α = 0, 05. Schritt 2: H0 : p = 0, 35, H1 : p = 0, 35. Sei X die Zufallsvariable, die angibt, wie oft bei den 1000 Versuchsdurchf¨ uhrungen das 35 )-verteilte Ereignis eintritt. Unter der Voraussetzung, dass H0 gilt, ist X eine B(1000, 100 Zufallsvariable. Schritt 3: Die Nullhypothese wird verworfen, falls P (X ≤ Γ) ≤ 0, 025
oder
P (X ≥ Δ) ≤ 0, 025.
Das bedeutet: Es muss Γ bestimmt werden mit Γ “ ” X n · (0, 35)k · (0, 65)1000−k k k=0 “n” · (0, 35)k · (0, 65)1000−k k k=Δ 1000 X
≤
0, 025
≤
0, 025.
Teil a): Exakte L¨ osung: Man findet Γ = 324 und Δ = 376. Teil b): N¨ aherungsweise L¨ osung: 35 )-verteilt, deshalb gilt: X ist B(1000, 100 E(X) = 350, V (X) = 227, 5 (d. h. σ = 15, 0831). Wegen des Approximationssatzes von de Moivre/Laplace hat man (1)
⇔ ⇔ ⇔ ⇔
P (X ≤ Γ) ≤ 0, 025 „ « Γ − 350 ≤ 0, 025 φ 15, 0831 „ « 350 − Γ 1−φ ≤ 0, 025 15, 0831 „ « 350 − Γ ≥ 0, 975 φ 15, 0831 350 − Γ ≥ φ−1 (0, 975) 15, 0831
11.10 Aufgaben aus Kapitel 10, Abschnitt 10.6
401
350 − Γ ≥ 1, 96 15, 0831 Γ ≤ 320, 44.
⇔ ⇔ (2)
P (X ≥ Δ) ≤ 0, 025 ⇔
1 − P (X ≤ Δ) ≤ 0, 025 „ « Δ − 350 ≤ 0, 025 1−φ 15, 0831 „ « Δ − 350 ≥ 0, 975 φ 15, 0831 Δ − 350 ≥ φ−1 (0, 975) 15, 0831 Δ − 250 ≥ 1, 96 15, 0831 Δ ≥ 379, 56.
⇔ ⇔ ⇔ ⇔ ⇔
Vergleicht man die L¨ osungen der beiden Wege a) und b), so stellt man fest, dass sich bei der n¨ aherungsweisen L¨ osung ein engerer Verwerfungsbereich f¨ ur H0 ergibt als bei der exakten L¨ osung: Die Entscheidungsregel lautet jeweils wie folgt: ochstens 324 Mal oder mindestens 376 Mal – Bei a): Verwerfe H0 , falls das Ereignis h¨ auftaucht. ochstens 320 Mal oder mindestens 380 Mal – Bei b): Verwerfe H0 , falls das Ereignis h¨ auftaucht. 5.
F¨ ur das Produzentenrisiko gilt: n “ n” X · (0, 08)k · (0, 92)n−k k k=Γ+1
⇔1−
Γ “ ” X n
k
k=0
⇔
Γ “ ” X n
k
k=0
· (0, 08)k · (0, 92)n−k
≤
0, 05
≤
0, 05
· (0, 08)k · (0, 92)n−k ≥ 0, 95.
(I)
F¨ ur das Konsumentenrisiko gilt: Γ “ ” X n k=0
k
· (0, 15)k · (0, 85)n−k ≤ 0, 05.
(II)
Aufgrund der Formel (∗) aus Abschnitt 10.5 ergibt sich f¨ ur die Zahl n folgende Ungleichung: √ n q q 1 ≥ · [φ−1 (1 − α) · p0 · (1 − p0 ) − φ−1 (β) · p1 · (1 − p1 )] p 1 − p0 p p 1 = · [φ−1 (0, 95) · 0, 08 · 0, 92 − φ−1 (0, 05) · 0, 15 · 0, 85]. 0, 15 − 0, 08 Da φ−1 (0, 95) = 1, 64 und φ−1 (0, 05) = −1, 64 ist, ergibt sich √ n ≥ 14, 7217, also n ≥ 217. Aufgrund der Formel (∗∗) aus Abschnitt 10.5 bestimmen wir jetzt das Intervall f¨ ur die Annahmezahl Γ. – F¨ ur n = 217 ergibt sich 23, 9141 ≤ Γ ≤ 23, 9236. – F¨ ur n = 218 ergibt sich 24, 0092 ≤ Γ ≤ 24, 0538.
402
11 L¨ osungshinweise zu den Aufgaben – F¨ ur n = 219 ergibt sich 24, 1042 ≤ Γ ≤ 24, 1840. – F¨ ur n = 220 ergibt sich 24, 1992 ≤ Γ ≤ 24, 3142. Nun erf¨ ullt keine Zahl Γ ∈ IN diese Ungleichungen. Da wir bei den Formeln (∗) und (∗∗) aber mit N¨ aherungen arbeiten (die aus dem Approximationssatz resultieren), sind die ganzen Zahlen Γ = 23 bzw. Γ = 24 Kandidaten f¨ ur die gesuchte Annahmezahl. Wir pr¨ ufen nun nach, f¨ ur welches n und welches Γ die exakten Ungleichungen (I) und (II) erf¨ ullt werden. F¨ ur n = 217 und n = 218 erf¨ ullen weder Γ = 23 noch Γ = 24 gleichzeitig die Ungleichungen (I) und (II). F¨ ur n = 219 hat man:
Linke Seite von (I) Linke Seite von (II)
Γ = 23
Γ = 24
0,9271 0,0340
0,9536 0,0527
Γ = 23 0,9241 0,0320
Γ = 24 0,9515 0,0499
F¨ ur n = 220 hat man:
Linke Seite von (I) Linke Seite von (II)
Jetzt hat man den optimalen Pr¨ ufplan gefunden: Bei einer Stichprobengr¨ oße von n = 220 und einer Annahmezahl von Γ = 24 sind die Interessen von Produzent und Konsument gleichzeitig ber¨ ucksichtigt: Beide Parteien haben bei diesem Pr¨ ufplan ein Risiko, welches – wie gew¨ unscht – unter 5 % liegt.
Literaturverzeichnis
[1] Abels, H./Degen, H.: Handbuch des statistischen Schaubilds. Herne – Berlin 1981. [2] Althoff, H.: Wahrscheinlichkeitsrechnung und Statistik. Stuttgart 1985. [3] Althoff, H.: Zur Berechnung der Wahrscheinlichkeit f¨ ur das Vorliegen einer vollst¨ andigen Serie (Sammelbildproblem). In: Stochastik in der Schule 20, 1/2000, S. 18 – 20. [4] Bahrenberg, G./Giese, E.: Statistische Methoden und ihre Anwendungen in der Geographie. Stuttgart 1975. [5] Banach, S./Kuratowski, C.: Sur une g´en´ eralisation du probl`eme de la mesure. Fundamenta Math. 14, 1929, S. 127 – 131. [6] Bandelow, C.: Einf¨ uhrung in die Wahrscheinlichkeitstheorie. Mannheim-Wien-Z¨ urich 1981. [7] Barner, K.: Neues zu Fermats Geburtsdatum. In: Mitteilungen der Deutschen Mathematiker-Vereinigung 15, 2007, S. 12 – 14. [8] Barr, G. V.: Some student ideas on the median and the mode. In: Teaching Statistics, 2, 1980, S. 38 – 41. [9] Barth, F./Haller, R.: Stochastik (Leistungskurs). M¨ unchen 1983. [10] Barth, F./Haller, R.: Juan Caramuels sichere Wette beim Lotto in Cosmopolis. In: Stochastik in der Schule 29, 1/2009, S. 18 – 22. [11] Barth, F./Haller, R.: Soll ich das Spiel wagen? Sinn und Unsinn des Erwartungswerts am Beispiel des Petersburger Problems. In: Stochastik in der Schule, 30, 1/2010, S. 19 – 27. [12] Basieux, P.: Roulette. Die Z¨ ahmung des Zufalls. Geretsried bei M¨ unchen 20013 . [13] Bauer, H.: Wahrscheinlichkeitstheorie und Grundz¨ uge der Maßtheorie. 3. Auflage Berlin - New York 1978. [14] Behrends, E./Gritzmann, P./Ziegler, G. M. (Hrsg.): π & Co. Berlin - Heidelberg 2008. [15] Bentz, H.-J.: Der Median als Unterrichtsgegenstand. In: Didaktik der Mathematik, 1984, S. 201 – 209. [16] Bentz, H.-J./Borovcnik, M.: Mittelwert, Median und Streuung: Eine Zusammenschau. In: Kautschitsch, H./Metzler, W. (Hrsg.): Anschauung als Anregung zum mathematischen Tun. Wien - Stuttgart 1984, S. 208 – 220. [17] Biehler, R.: Explorative Datenanalyse: Eine Untersuchung aus der Perspektive einer deskriptiv-empirischen Wissenschaftstheorie. In: Zentralblatt f¨ ur Didaktik der Mathematik, 16, 5/1984, S. 152 – 155. [18] Biehler, R.: Daten analysieren mit dem Computer: Unterst¨ utzung von Begriffsbildung und Anwendungsorientierung in der Stochastik. In: Der Mathematikunterricht, 36, 6/1990, S. 62 – 71. [19] Biehler, R./Steinbring, H.: Entdeckende Statistik, Stengel-und-Bl¨ atter, Boxplots: Konzepte, Begr¨ undungen und Erfahrungen eines Unterrichtsversuchs. In: Der Mathematikunterricht, 6/1991, S. 5 – 32. [20] Borovcnik, M.: Was bedeuten statistische Aussagen? Wien – Stuttgart 1984.
404
LITERATURVERZEICHNIS Literaturverzeichnis
[21] Borovcnik, M.: Visualisierung als Leitmotiv in der beschreibenden Statistik. In: Kautschitsch, H./Metzler, W. (Hrsg.): Anschauung als Anregung zum mathematischen Tun. Wien – Stuttgart 1984, S. 192 – 207. [22] Borovcnik, M./Ossimitz, G.: Materialien zur Beschreibenden Statistik und Explorativen Datenanalyse. Wien – Stuttgart 1987. [23] Borovcnik, M.: Korrelation und Regression – Ein inhaltlicher Zugang zu den grundlegenden mathematischen Konzepten. In: Stochastik in der Schule 1/1988, S. 5 – 32. [24] Borovcnik, M./K¨ onig, G.: Kommentierte Bibliographie zum Thema Regression und ” Korrelation“. In: Stochastik in der Schule, 2/1988, S. 46 – 52. [25] Borovcnik, M.: Methode der kleinsten Quadrate. In: Stochastik in der Schule, 2/1988, S. 17 – 24. [26] Borovcnik, M.: Explorative Datenanalyse – Techniken und Leitideen. In: Didaktik der Mathematik, 18, 1/1990, S. 61 – 80. [27] Borovcnik, M.: Stochastik im Wechselspiel von Intuitionen und Mathematik. Mannheim 1992. [28] Borovcnik, M./Engel, J./Wickmann, D.: Anregungen zum Stochastikunterricht: – Die NCTM-Standards 2000, – Klassische und Bayessche Sichtweise im Vergleich. Hildesheim 2001. [29] Borovcnik, M.: Das Sammelbildproblem – Rosinen und Semmeln und Verwandtes: Eine rekursive L¨ osung mit Irrfahrten. In: Stochastik in der Schule, 27, Heft 2, 2007, S. 19 – 24. [30] B¨ uchter, A./Henn, H.-W.: Elementare Stochastik. Berlin - Heidelberg 2005. [31] Bungartz, P.: Das Risiko bei Kernkraftwerken. In: Mathematik lehren, 29, 1988, Heft 29, S. 38 – 48. [32] Chung, K. L.: Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse. Berlin 1978. [33] Clarke, G. M./Cooke, D.: A Basic Course in Statistics. London 19923 . [34] Clauß, G./Ebner, H.: Grundlagen der Statistik f¨ ur Psychologen, P¨ adagogen und Soziologen, 2. Aufl. Thun – Frankfurt a. M. 1977. [35] Cox, D. R./Suel, E. J.: Applied Statistics. Principles and Examples. London – New York 1981. [36] Dallmann, H./Elster, K.-H.: Einf¨ uhrung in die h¨ ohere Mathematik. Braunschweig 1973. [37] Deutsches Institut f¨ ur Fernstudien (DIFF) HE 11 Beschreibende Statistik. T¨ ubingen 1980. HE 12 Wahrscheinlichkeitsrechnung. T¨ ubingen 1981. MS 1 Beschreibende Statistik. T¨ ubingen 1980. MS 2 Zug¨ ange zur Wahrscheinlichkeitsrechnung. T¨ ubingen 1979. MS 3 Zufallsgr¨ oßen und Verteilungen. T¨ ubingen 1981. Wahrscheinlichkeitsrechnung und Statistik unter Einbeziehung von elektronischen Rechnern: SR 1 Beschreibende Statistik. T¨ ubingen 1982. SR 2 Zufallszahlen, Monte-Carlo-Methode und Simulation. T¨ ubingen 1983. AS 1 Aufgabenstellen im Stochastikunterricht: Das Aufgabenfeld Lotto. T¨ ubingen 1987. AS 2 Aufgabenstellen im Stochastikunterricht: Das Aufgabenfeld Qualit¨ atskontrolle. T¨ ubingen 1989. AS 3 Aufgabenstellen im Stochastikunterricht: Grundlegende Gesichtspunkte. T¨ ubingen 1989. [38] Dewdney, A. K.: 200 Prozent von nichts. Basel 1994.
LITERATURVERZEICHNIS Literaturverzeichnis
405
[39] Diepgen, R.: Eine Aufgabensequenz zum statistischen Hypothesentesten, Teil 1 und Teil 2. In: Stochastik in der Schule, 2/1985, S. 22 – 27, und 3/1985, S. 17 – 38. [40] Eichelsbacher, P.: Geometrie und M¨ unzwurf. In: Stochastik in der Schule, 3/2001, S. 2 – 8. [41] Eichelsbacher, P./L¨ owe, Schule, 2/2003, S. 2 – 6.
M.:
Geduld
und
Zufall.
In:
Stochastik
in
der
[42] Eichler, A.: Spielerlust und Spielerfrust in 50 Jahren Lotto – ein Beispiel f¨ ur visuell gesteuerte Datenanalyse. In: Stochastik in der Schule 26, 2006, S. 2 – 11. [43] Eichler, A.: Individuelle Stochastikcurricula von Lehrerinnen und Lehrern. In: Journal f¨ ur Mathematik-Didaktik 27, 2006, 2, S. 140 – 162. [44] Eichler, A.: Individuelle Stochastikcurricula von Lehrerinnen und Lehrern. Hildesheim, 2005. [45] Eichler, A./Vogel, M.: Leitidee – Denken und Zufall. Wiesbaden 2009. [46] Eichler, A./Vogel, M.: Datenerhebung – die Unbekannte in der Datenanalyse. In: Stochastik in der Schule, 30, 1/2010, S. 6 – 13. [47] Engel, A.: Wahrscheinlichkeitsrechnung und Statistik. Band 1 und Band 2. Stuttgart 1973 und 1976. [48] Engel, A.: Stochastik. Stuttgart 1987. [49] Engel, A.: Steifz¨ uge durch die Statistik. In: Didaktik der Mathematik, 16, 1/1988, S. 1 – 18. [50] Engel, J./Sedlmeier, P.: Regression und Korrelation: Alles klar, oder voller T¨ ucken? In: Stochastik in der Schule, 2/2010, S. 13 – 20. [51] Exner, H./Schmitz, N.: Zufallszahlen f¨ ur Simulationen. Skripten zur Mathematischen Statistik Nr. 4, Westf¨ alische Wilhelms-Universit¨ at M¨ unster. [52] Feller, W.: An Introduction to Probability Theory and its Applications. 2 B¨ ande, New York 1957, 1966. [53] Ferschl, F.: Deskriptive Statistik. W¨ urzburg – Wien 1978. ¨ [54] Finsler, P.: Uber die mathematische Wahrscheinlichkeit. In: Elemente der Mathematik 2, 6, 1947. [55] Forster, O.: Analysis 2. Wiesbaden 20067 . [56] Forster, O.: Analysis 3. Braunschweig - Wiesbaden 1984. [57] Freudenthal, H.: Mathematik als p¨ adagogische Aufgabe, 2 B¨ ande. Stuttgart 1973. [58] Gigerenzer, G.: Das Einmaleins der Skepsis. Berlin 2002. [59] Gnedenko, B. W.: Lehrbuch der Wahrscheinlichkeitsrechnung. Berlin 19685 . [60] Goodmann, T. A.: Statistics for the secondary mathematics student. In: School Science and Mathematics, 81, 1981, S. 423 – 428. ¨ [61] Hartung, J./Heine, B.: Statistik-Ubungen, Deskriptive Statistik. M¨ unchen – Wien 1986. ¨ [62] Hartung, J./Heine, B.: Statistik-Ubungen, Induktive Statistik. M¨ unchen – Wien 1987. [63] Hauptfleisch, K.: Wie zuf¨ allig sind Zufallszahlen? In: Der Mathematikunterricht (MU), 25, 2/1999, S. 45 – 62. [64] Herget, W.: Der Zoo der Mittelwerte, Mittelwerte-Familien. In: Mathematik lehren, 8/1985, S. 50 – 51.
406
LITERATURVERZEICHNIS Literaturverzeichnis
[65] Heilmann, W. R.: Regression und Korrelation im Schulunterricht? In: Praxis der Mathematik 1982, S. 203 – 204. [66] Heller, W.-D./Lindenberg, H./Nuske, M./Schriever, K.-H.: Beschreibende Statistik. Basel – Stuttgart 1979. [67] Henze, N.: Stochastik f¨ ur Einsteiger. Braunschweig 1997. [68] Hilbert, D.: Gesammelte Abhandlungen, Berlin – Heidelberg – New York 1970, Band III. [69] Huff, D.: How to lie with statistics. W. W. Norton, New York 1954. [70] Hui, E.: Lineare Regression ohne Differentialrechnung. In: Didaktik der Mathematik, 16, 2/1988, S. 94 – 98. [71] Hummenberger, H.: Paare an einem runden Tisch – das M´enage-Problem. In: Stochastik in der Schule, 2/2006, S. 12 – 19. [72] ICOTS: Proceedings of the 2. International Conference on Teaching Statistics. Victoria Univ., Columbia/Kanada 1987. [73] Ineichen, R.: Elementare Beispiele zum Testen statistischer Hypothesen. Z¨ urich 1978. [74] Ineichen, R.: Wie k¨ onnte man auf der Oberstufe des Gymnasiums in die schließende Statistik einf¨ uhren? In: Didaktik der Mathematik, 3, 1982, S. 165 – 182. [75] Ineichen, R./Stocker, Hj.: Stochastik. Einf¨ uhrung in die elementare Statistik und Wahrscheinlichkeitsrechnung. 8., u ¨berarbeitete Aufl. Luzern – Stuttgart 1992. [76] Ineichen, R.: W¨ urfel und Wahrscheinlichkeit. Heidelberg 1996. [77] J¨ ager, J./Schupp, H.: Stochastik in der Hauptschule. Paderborn 1983. [78] Kellerer, H.: Statistik im modernen Wirtschafts- und Sozialleben. Reinbeck bei Hamburg 1960. [79] Kn¨ opfel, H./L¨ owe, M.: Stochastik – Struktur im Zufall. M¨ unchen 2007. [80] Kockelkorn, U.: Von Arkadien zur Geometrie des Zufalls – Die Bedeutung von Chevalier de M´ er´ e f¨ ur die Geburt der Wahrscheinlichkeitsrechnung. In: Rinne, H. u. a. (Hrsg.): Grundlagen der Statistik und ihre Anwendungen, Heidelberg, 1995. [81] Kolmogoroff, A. N.: Grundbegriffe der Wahrscheinlichkeitsrechnung, Berlin 1933. [82] Koßwig, F. W.: Auswertung von Meßdaten im naturwissenschaftlichen Unterricht. Ein elementarer Zugang zur Regressionsrechnung. In: Beitr¨ age zum Mathematikunterricht, 1983, S. 180 – 183. [83] Kr¨ amer, W.: Statistik verstehen. Frankfurt – New York 1992. [84] Kr¨ amer, W.: So u ¨berzeugt man mit Statistik. Frankfurt 1994. [85] Kr¨ amer, W.: So l¨ ugt man mit Statistik. Frankfurt 19956 . [86] Krengel, U.: Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik. Braunschweig 1988. [87] Krengel, U.: Wahrscheinlichkeitstheorie. In: Dokumente zur Geschichte der Mathematik. Bd. 6: Ein Jahrhundert Mathematik 1890 – 1990. Festschrift zum Jubil¨ aum der DMV (Hrsg. Fischer, G. u. a.). Braunschweig 1990, S. 457 – 489. [88] Kreyszig, E.: Statistische Methoden und ihre Anwendungen. G¨ ottingen 19683 . [89] Krickeberg, K./Ziezold, H.: Stochastische Methoden. Berlin, 4. Auflage 1995. [90] K¨ utting, H.: Der Additionssatz und der Multiplikationssatz der Wahrscheinlichkeitsrechnung. In: Der Mathematikunterricht (MU), 1/1962, S. 39 – 63. [91] K¨ utting, H.: Didaktik der Wahrscheinlichkeitsrechnung. Freiburg – Basel – Wien 1981.
LITERATURVERZEICHNIS Literaturverzeichnis
407
[92] K¨ utting, H.: Synopse zur Stochastik im Schulunterricht – Aspekte einer Schulgeschichte. In: Zentralblatt f¨ ur Didaktik der Mathematik, 6/1981, S. 223 – 236. [93] K¨ utting, H.: Wahrscheinlichkeitsrechnung in der Primarstufe und Sekundarstufe I: Positive Ans¨ atze und m¨ ogliche Gefahren. In: Stochastik im Schulunterricht. Wien Stuttgart 1981, S. 101 – 106. [94] K¨ utting, H.: Zur Behandlung unabh¨ angiger Ereignisse im Stochastikunterricht. In: Didaktik der Mathematik, 1982, S. 315 – 329. [95] K¨ utting, H.: Ein Pl¨ adoyer f¨ ur die Behandlung der Stochastik im Unterricht. In: Lernzielorientierter Unterricht (LK), 4/1984, S. 17 – 32. [96] K¨ utting, H.: Stochastisches Denken in der Schule – Grundlegende Ideen und Methoden. In: Der Mathematikunterricht (MU), 4/1985, S. 87 – 106. [97] K¨ utting, H.: Anzahlbestimmungen. In: Mathematische Unterrichtspraxis, 10, 1989, Heft 1, S. 31 – 47. ¨ [98] K¨ utting, H.: Stochastik im Mathematikunterricht – Herausforderung oder Uberforderung? In: Der Mathematikunterricht (MU), 36. Jhrg., 4/1990, S. 5 – 19. [99] K¨ utting, H.: Der große Lohnvorsprung oder Lohnquoten im Zerrspiegel der Darstellung. In: Der Mathematikunterricht (MU), 36. Jhrg., 6/1990, S. 36 – 40. [100] K¨ utting, H.: Elementare Analysis, zwei B¨ ande. Mannheim 1992. (Jetzt: Spektrum Akademischer Verlag Heidelberg.) [101] K¨ utting, H.: Didaktik der Stochastik. Mannheim 1994. (Jetzt: Spektrum Akademischer Verlag Heidelberg.) [102] K¨ utting, H.: Beschreibende Statistik im Schulunterricht. Mannheim 1994. (Jetzt: Spektrum Akademischer Verlag Heidelberg.) ¨ [103] K¨ utting, H.: Offnung des Mathematikunterrichts: Ein Anwendungsbeispiel aus der beschreibenden Statistik. In: Bardy, P./Dankwerts, R./Schornstein, J.: Materialien f¨ ur einen realit¨ atsbezogenen Mathematikunterricht. Band 3, Bad Salsdetfurth 1996, S. 30 – 36. [104] K¨ utting, H.: Zeitdokumente als motivierende Materialien f¨ ur einen aktuellen Unterricht in Beschreibender Statistik. In: Der Mathematikunterricht (MU), 43. Jhrg., 4/1997, S. 11 – 25. [105] K¨ utting, H.: Verh¨ altnisse in der Beschreibenden Statistik. In: Der Mathematikunterricht (MU), 43. Jhrg., 4/1997, S. 47 – 53. [106] K¨ utting, H.: thema gerne S. 6 – 10.
Beschreibende Statistik: Hochaktuell, aber vergessen. In: Der Mathematikunterricht
als Unterrichts(MU), 4/1997,
[107] K¨ utting, H.: Elementare Stochastik. Heidelberg 1999. [108] K¨ utting, H.: Beispiele als Katalysatoren f¨ ur ein besseres Verstehen von Mathematik. In: Blankenagel, J./Spiegel, W. (Hrsg.): Mathematikdidaktik aus Begeisterung f¨ ur Mathematik. Stuttgart 2000, S. 123 – 136. [109] K¨ utting, H.: Spiel und Zufall. In: Kaune, Ch./Schwank, J./Sjuts, J. (Hrsg.): Mathemauge: Zum Verstehen und Unterrichten mathematischen tikdidaktik im Wissenschaftsgef¨ Denkens. Osnabr¨ uck 2005, S. 179 – 198. [110] Laplace, P. S.: Philosophischer Versuch u ¨ber die Wahrscheinlichkeit. Reprint Leipzig 1932. [111] Lehn, J./Rettig, St.: Deterministischer Zufall. In: Braitenberg, V./Hosp, I. (Hrsg.): Simulation – Computer zwischen Experiment und Theorie. Hamburg 1995, S. 56 – 79. [112] Lehn, J./Roes, H.: Probleme beim Aufgabenstellen in der Stochastik. In: Der Mathematikunterricht (MU), 6/1990, S. 29 – 35.
408
LITERATURVERZEICHNIS Literaturverzeichnis
[113] Lehn, J./Wegmann H.: Einf¨ uhrung in die Statistik. Stuttgart, 2. Auflage 1992. [114] Lehn, J./Wegmann, H./Rettig, St.: Aufgabensammlung zur Einf¨ uhrung in die Statistik. Stuttgart 1988. [115] Lehn, J. u. a.: Lorenzkurve und Gini-Koeffizient zur statistischen Beschreibung von Konzentrationen. In: Der Mathematikunterricht (MU) 43. Jhrg., 4/1997, S. 36 – 46. [116] Lind, D.: Zum Wahrscheinlichkeitsbegriff in der Sekundarstufe I. In: mathematica didactica, 1992, Bd 1, S. 34 – 47. [117] Lind, D./Scheid, H.: Abiturwissen Stochastik. Stuttgart 1984. [118] L¨ owe, M.: Wer tauscht gewinnt – das Paradoxon der zwei Umschl¨ age. In: Stochastik in der Schule, 23, 2/2003, S. 21 – 24. [119] Maibaum, G.: Wahrscheinlichkeitstheorie und mathematische Statistik. Berlin 1980 2 . [120] Mangoldt, H./Knopp, K.: H¨ ohere Mathematik 1. Stuttgart 1990. [121] Matejas, J./Bahovec, V.: Ein anderer Zugang, Mittelwerte zu verallgemeinern. In: Stochastik in der Schule, Band 29, 1/2009, S. 2 – 5. [122] Morgenstern, D.: Der Aufgabenbereich von Wahrscheinlichkeitsrechnung und mathematischer Statistik. In: Der Mathematikunterricht (MU), 8, 1/1962, S. 5 – 15. [123] Morris, R. (Ed.): Studies in Mathematics Education: The Teaching of Statistics. Unesco, Paris 1991. [124] M¨ uller, H. P. (Hrsg.): Lexikon der Stochastik. 5. erw. Auflage Berlin 1991. [125] Nordmeier, G.: Erstfr¨ uhling“ und Aprilwetter“ – Projekte in der explorativen Da” ” tenanalyse. In: Stochastik in der Schule, 3/1989, S. 21 – 42. [126] Ostrowski, A.: Vorlesungen u ¨ber Differential- und Integralrechnung, Band 1. Basel – Stuttgart 1965. [127] Padberg, F./Dankwerts, R./Stein, M.: Zahlbereiche. Heidelberg 1995. [128] Pape von, B./Wirths, H.: Stochastik in der gymnasialen Oberstufe. Hildesheim 1993. [129] Pfanzagl, J.: Allgemeine Methodenlehre der Statistik. 2 B¨ ande. Band 1: 6. Aufl., Berlin 1978. Band 2: 5. Aufl., Berlin 1978. [130] Pfanzagl, J.: Elementare Wahrscheinlichkeitsrechnung. Berlin – New York 1988. [131] Pinkernell, G.: Zufallsgeneratoren und Baumdiagramme. In: Stochastik in der Schule, 3/1998, S. 9 – 18. [132] Plachky, D./Baringhaus, L./Schmitz, N.: Stochastik I. Wiesbaden 1978. [133] P¨ oppelmann, Th.: Bemerkungen zur Division durch n - 1 bei der empirischen Varianz. In: Der Mathematikunterricht (MU), Jhrg. 43, 4/1997, S. 26 – 35. [134] Rasfeld, P.: Die Untersuchung des Problems der vertauschten Briefe im Unterricht anhand von Quellentexten. In: Stochastik in der Schule 26, 2/2006, S. 20 – 27. [135] Randow, G. von: Das Ziegenproblem. Hamburg 1992. [136] Reichel, H.-C. (Hrsg.): Wahrscheinlichkeitsrechnung und Statistik. Wien 1987. [137] R´ enyi, A.: Briefe u ¨ber die Wahrscheinlichkeit, Basel – Stuttgart 1969. [138] Richter, G.: Stochastik. Stuttgart 1994. [139] Riedwyl, H.: Graphische Gestaltung von Zahlenmaterial. Bern – Stuttgart 19792 . [140] Riedwyl, H.: Regressionsgerade und Verwandtes. Bern – Stuttgart 1980. [141] Riedwyl, H.: Angewandte Statistik. Bern – Stuttgart 1989.
LITERATURVERZEICHNIS Literaturverzeichnis
409
[142] Riehl, G.: Erg¨ anzungen zum Paradoxon der beiden Kinder. In: Stochastik in der Schule, Band 29, 3/2009, S. 21 – 27. [143] Rinne, H.: Taschenbuch der Statistik. Frankfurt a. M. 1995. [144] Rutsch, M.: Statistik 1. Mit Daten umgehen. Basel – Stuttgart – Boston 1986. [145] Rutsch, M.: Statistik 2. Daten modellieren. Basel – Boston – Stuttgart 1987. [146] Sauer, M. J.: Ein Vier-Schritt-Modell zur L¨ osung von Kombinatorik-Aufgaben. In: Stochastik in der Schule, Band 28, 3/2008, S. 2 – 13. [147] Schadach, D. J.: Biomathematik I: Kombinatorik, Wahrscheinlichkeit und Information. Braunschweig 1971. [148] Scheid, H.: Wahrscheinlichkeitsrechnung. Mannheim 1992. [149] Schlitgen, R.: Einf¨ uhrung in die Statistik. M¨ unchen 1987. [150] Schmidt, G.: Schw¨ achen im gegenw¨ artigen Stochastikunterricht und Ans¨ atze zu ihrer Behebung. In: Der Mathematikunterricht (MU), 36. Jhrg., 6/1990, S. 20 – 28. [151] Schmidt, H.-J.: Die Herleitung chemischer Formeln im Verst¨ andnis von Sch¨ ulern. In: Der Mathematische und Naturwissenschaftliche Unterricht, 8/1981, S. 468 – 476. [152] Schmidt, S.: Kombinatorisches Denken als eine bildungstheoretische Kategorie f¨ ur den elementarischen Unterricht“ und die Lehrerbildung gem¨ aß der Konzeption von A. ” Diesterweg (1790 – 1866). In: mathematica didactica, 15, 1992, Bd. 1, S. 80 – 95. [153] Schmitz, N.: Stochastik f¨ ur Lehramtsstudenten. M¨ unster 1997. [154] Schneider, I.: Die Entwicklung der Wahrscheinlichkeitstheorie von den Anf¨ angen bis 1933. Darmstadt 1988. [155] Schneider, M.: Teflon, Post-it und Viagra. Große Entdeckungen durch kleine Zuf¨ alle. Weinheim 2002. [156] Schrage, G.: Schwierigkeiten mit stochastischer Modellbildung. In: Journal f¨ ur Mathematikdidaktik (JMD), 1/1980, S. 86 – 101. [157] Schrage, G.: Stochastische Trugschl¨ usse. In: mathematica didactica, 1/1984, S. 3 – 19. [158] Schupp, H.: Zum Verh¨ altnis statistischer und wahrscheinlichkeitstheoretischer Komponenten im Stochastikunterricht der Sekundarstufe I. In: Journal f¨ ur MathematikDidaktik (JMD), 3/1982, S. 207 – 226. [159] Schupp, H.: Das Galton-Brett im stochastischen Anfangsunterricht. In: Mathematik lehren, 12/1985, S. 12 – 16. [160] Schwarze, J.: Zur richtigen Verwendung von Mittelwerten. In: Praxis der Mathematik, 1981, S. 296 – 307. [161] Shahani, A. K.: Vern¨ unftige Mittelwerte, aber falsche Aussagen. In: Stochastik in der Schule, 1/1982, S. 3 – 10. [162] Statistisches Jahrbuch 2009 f¨ ur die Bundesrepublik Deutschland. Wiesbaden 2009. [163] Steinbach, M. C.: Autos, Ziegen und Streith¨ ahne. In: Mathematische Semesterberichte, 47, 2000, S. 107 – 117. [164] Strehl, R.: Wahrscheinlichkeitsrechnung und elementare statistische Anwendungen. Freiburg 1974. [165] Strick, H. K.: Einf¨ uhrung in die Beurteilende Statistik. Hannover 1998. [166] Strick, H. K.: Geht bei der Lottoshow alles mit rechten Dingen zu? In: Mathematik in der Schule 37, 4/1999, S. 209 – 213. [167] Sweschnikow, A. A. u.a.: Wahrscheinlichkeitsrechnung und mathematische Statistik in Aufgaben. Leipzig 1970.
410
LITERATURVERZEICHNIS Literaturverzeichnis
[168] Swoboda, H.: Knaurs Buch der modernen Statistik. M¨ unchen – Z¨ urich 1971. [169] Sz´ekely, G. J.: Paradoxa. Frankfurt 1990. [170] Titze, H.: Zur Veranschaulichung von Mittelwerten. In: Praxis der Mathematik, 29, 4/1987, S. 200 – 202. [171] Trauerstein, H.: Zur Simulation mit Zufallsziffern im Mathematikunterricht der Sekundarstufe I. In: Stochastik in der Schule, 10, 2/1990, S. 2 – 30. [172] Tukey, J. W.: Exploratory Data Analysis. Reading, Addison-Wesley 1977. [173] Uhlmann, W.: Statistische Qualit¨ atskontrolle. Stuttgart 1982. [174] Van der Waerden, B. L.: Der Begriff der Wahrscheinlichkeit. In: Studium Generale 2, 1951. [175] Vogel, M./Eichler, A.: Residuen helfen gut zu modellieren. In: Stochastik in der Schule, 30, 2/2010, S. 8 – 13. [176] Vohmann, H. D.: Lineare Regression und Korrelation in einem Einf¨ uhrungskurs u ¨ber empirische Methoden. In: Stochastik in der Schule 2/1988, S. 3 – 16. [177] Wallis, W. A./Roberts, H. V.: Methoden der Statistik. Ein neuer Weg zu ihrem Verst¨ andnis. Freiburg – Hamburg 1977. [178] Warmuth, E.: Wahrscheinlich ein Junge? In: Mathematik in der Schule, 1/1991, S. 46 – 59. [179] Wegmann, H./Lehn, J.: Einf¨ uhrung in die Statistik. G¨ ottingen 1984. [180] Winkler, W.: Vorlesungen zur Mathematischen Statistik. Stuttgart 1983. [181] Winter, H.: Zur Beschreibenden Statistik in der Sekundarstufe I (10 – 16j¨ ahrige Sch¨ uler der allgemeinbildenden Schulen) – Rechtfertigungsgr¨ unde und M¨ oglichkeiten zur Integration der Stochastik in den Mathematikunterricht. In: Stochastik im Schulunterricht (Hrsg. D¨ orfler, W./Fischer, R.), Wien – Stuttgart 1981, S. 279 – 304. [182] Winter, H.: Dreiklang und Dreieck – woher das harmonische Mittel seinen Namen hat. In: Mathematik lehren, 8/1985, S. 48. [183] Winter, H.: Die Gauss-Aufgabe als Mittelwertaufgabe. In: Mathematik lehren, 8/1985, S. 20 – 24. [184] Winter, H.: Mittelwerte – eine grundlegende mathematische Idee. In: Mathematik lehren, 8/1985, S. 4 – 15. [185] Wirths, H.: Regression – Korrelation. In: Didaktik der Mathematik, 1990, S. 52 – 60. [186] Wirths, H.: Beziehungshaltige Mathematik in Regression und Korrelation. In: Stochastik in der Schule, 1/1991, S. 34 – 53. [187] Witting, H.: Mathematische Statistik. In: Dokumente zur Geschichte der Mathematik. Bd. 6: Ein Jahrhundert Mathematik 1890 – 1990. Festschrift zum Jubil¨ aum der DMV (Hrsg. Fischer, G. u. a.). Braunschweig 1990, S. 781 – 815. [188] Wolf, J.: Regression und Korrelation. In: Schmidt, G.: Methoden des Mathematikunterrichts in Stichw¨ ortern und Beispielen 9/10. Braunschweig 1982, S. 222 – 249. [189] Wollring, B.: Ein Beispiel zur Konzeption von Simulationen bei der Einf¨ uhrung des Wahrscheinlichkeitsbegriffs. In: Stochastik in der Schule, 12, 3/1992, S. 2 – 25. [190] Yamane, T.: Statistik. Band 1 und Band 2. Frankfurt a. M. 1976.
Index Absolute H¨ aufigkeit 12 abstrakter Wahrscheinlichkeitsraum 291 Achenwall, G. 6 Additionspfadregel 102 Additionsregel 107 allgemeine Additionsregel 110 allgemeiner Additionssatz 161 allgemeine Wahrscheinlichkeitsr¨ aume 283 allgemeines Z¨ ahlprinzip der Kombinatorik 137 Amtliche Statistik 2 Annahmekennlinie 367 a posteriori Wahrscheinlichkeit 200 a priori Wahrscheinlichkeit 200 Approximationssatz von de Moivre/Laplace 317 arithmetisches Mittel 30 Eigenschaften 31 gewogenes 32 unabh¨ angiger diskreter Zufallsvariabler 337 Astragale 83 Ausreißer 45 Axiomensystem von Kolmogoroff 98 aquivalentes 112f ¨ Verh¨ altnis zur Erfahrungswelt 100 Balkendiagramm 20 Banach, S. 287 Baumdiagramm 101, 118, 180f, 203f verk¨ urztes 186 Bayes, Th. 198 bedingte Laplace-Wahrscheinlichkeit 171 bedingte relative H¨ aufigkeit 173 bedingte Wahrscheinlichkeit 174 Beispiele/Probleme (Auswahl) Bekanntheitsgrad eines Produkts 342 Capture-Recapture-Methode 332 Chuck-a-luck 256 Das andere Kind 221 Drei-T¨ uren-Problem 204ff, 211 Drei-W¨ urfel-Problem 76 Faire M¨ unze 361 Force majeure 79 Geburtstagsproblem 141, 219 Kreisfl¨ achenberechnung 222 Landtagswahl 359 L¨ ange der Grenzen Deutschlands 16 Lotto 6 aus 49“ 117, 148, 167f, 247, ” 264 Medizinischer Test 201 Mordprozess 200 Nadelproblem von Buffon 126 Paradoxon des Chevalier de M´ er´ e 81 Paradoxon von Bertrand 123 Personalkosten der Krankenh¨ auser 21 π-Bestimmung 222 Qualit¨ atskontrolle 264, 361ff
Radioaktives Zerfallsgesetz 117, 305 Rencontre-Problem 155ff Rosinenbr¨ otchen 218 Schere-Papier-Stein (Knobelspiel) 105, 257 Tagesdurchschnittstemperatur 32 Taxiproblem 348 Tea Tasting Lady 372 Teilungsproblem (Force majeure) 79, 211 Tetraederbeispiel von Bernstein 179 Toto 13er Ergebniswette 143, 167 Treibjagd 220 Treize-Spiel 155 Verurteilte wegen Vergehen im Straßenverkehr 16f Vorzeichentest 354 Ziegenproblem (Drei-T¨ uren-Problem) 204ff, 211 Ziffernschloss 134f Bernoulli, J. 6, 85, 279 Bernoulli-Experiment 188 Bernoulli-Kette 190 Bernstein, S. N. 179 Bertrand, J. L. F. 123 Bibel 2ff Binomialverteilung 259 Approximation 317 ´ 287 Borel, E. Borelmengen 288 Box-plot-Diagramm 47ff Bravais, A. 63 Buffon, G. L. 126 Cardano, G. 84, 85 Chevalier de M´er´ e 76, 81 Conring, H. 6 Daten 10 Diagramme Balkendiagramm 20 Blockdiagramm 22 Box-plot-Diagramm 47ff Histogramm 22f Kreisdiagramm 20f Scatterdiagramm 55 Stengel-Blatt-Diagramm 26 Stabdiagramm 18f Dichtefunktion 296, 309 Drei-T¨ uren-Problem 204ff, 211 Einflussgr¨ oße 57 einseitiger Test 349 empirische Standardabweichung 51 empirische Untersuchungen zum Zufallsbegriff 207 empirische Varianz 50 unabh¨ angiger diskreter Zufallsvariabler 337 empirische Verteilungsfunktion 28
412 Entscheidungsregel 351 Ereignis(se) 92 Elementar- 92 Gegen- 95 gleiche 95 Komplement¨ ar- (siehe Gegen-) sicheres 92 stochatisch unabh¨ angige 177 unm¨ ogliches 92 unvereinbare 95 Ergebnismenge 90 erwartungstreuer Sch¨ atzer 51, 339 Erwartungswert 240, 320 Binomialverteilung 260 Exponentialverteilung 322 geometrische Verteilung 270 hypergeometrische Verteilung 265 Normalverteilung 323 Rechenregel 248f Rechteckverteilung 321 Summe zweier Zufallsvariablen 252 Euler, L. 156 Existenzsatz 288 Explorative Datenanalyse 7 Exponentialverteilung 304 Ged¨ achtnislosigkeit 307 Fehler 1. Art 349 Fehler 2. Art 349 Fehler im Umgang mit Daten 67 Fermat, P. de 80, 84 Fischer, Sir R. A. 7 fixpunktfreie Permutationen 156ff Formel des Ein- und Ausschließens 161 Fortsetzungssatz 292 Fundamentalprinzip des Z¨ ahlens 136 Fundamentalsatz zu Verteilungsfunktionen 299 F¨ unf-Zahlen-Zusammenfassung 47 Galilei, G. 84 Galton, Sir F. 6f, 54 Gauß, C. F. 57 Gaußsche Glockenkurve 298, 309 Gauß-Verteilung 308 Gegenhypothese 351 geometrisches Mittel 36 geometrische Verteilung 270 geordnete Proben mit Zur¨ ucklegen 144 ohne Zur¨ ucklegen 141f Gewichtsfaktor 32 Gewissheitsgrad 119 gleichm¨ aßige Verteilung 273 Graunt, J. 5 Halley, E. 5 H¨ aufigkeit 12 absolute 12 relative 12, 88, 99 H¨ aufigkeitsdichte 24 harmonisches Mittel 37
Index Hilbert, D. 88 Histogramm 22f Huygens, Ch. 85 hypergeometrische Verteilung 263 Hypothesentest 360f Identifikationsmerkmal 9 Indikatorfunktion 274 intervallskaliertes Merkmal 13 k-stellige Sequenzen bei vorgegebenen Vielfachheiten 154 Kastenschaubild 47 Klassenbildung 23 Klassenbreite 24 Klassenmitte 33 Klassische Wahrscheinlichkeit (siehe Laplace-Wahrscheinlichkeit) Knies, K. 6 Kolmogoroff, A. 74, 89, 97, 100 Kombinatorisches Z¨ ahlen 129ff Fundamentalprinzip 136 Kombinatorische Figuren 137ff fixpunktfreie Permutationen 156ff Kombination mit Wiederholung 151 Kombination ohne Wiederholung 146 k-stellige Sequenz bei vorgegebenen Vielfachheiten 154 Permutation mit Wiederholung 143f Permutation ohne Wiederholung 139f Konfidenzintervall 342ff, 345f Konsumentenrisiko 362ff, 368f Korrelation 66 Korrelationskoeffizient 65 Kovarianz zweier Zufallsvariablen 254 kumulative Verteilungsfunktion 238 Kuratowski, K. 287 Lageparameter 29ff arithmetisches Mittel 30 Dezil 43 geometrisches Mittel 36 harmonisches Mittel 37 Median 40 Modalwert 43 Modus (siehe Modalwert) p-Quantil 43 Quartil 43 Laplace, P. 86 Laplace-Wahrscheinlichkeit 116 Laplace-Wahrscheinlichkeitsraum 116 lineare Regression 53ff Lotto 117, 148, 167f, 247, 264 Mathematisierung 74f Maximum-Likelihood-Funktion 336 Maximum-Likelihood-Sch¨ atzwert 336 Maximum-Test 226 Median 40 Eigenschaft 41 M´ er´ e, Ch. de 71, 81, 84 Merkmal 10 ersch¨ opfendes 10
Index intervallskaliertes 13 metrischskaliertes 11 nominalskaliertes 11, 12 ordinalskaliertes 11 proportionalskaliertes 13 qualitatives 11 quantitatives 11f Rang- 11 Merkmalsauspr¨ agung 10 Merkmalstr¨ ager 9 messbare Abbildung 325 Messraum 291 Messraum von IR 288 Methode der kleinsten Quadrate 57 Minimumseigenschaft des arithmetischen Mittels 69 Minimumseigenschaft des Medians 41 Mises, E. von 88 Mittelwerte (siehe Lageparameter) Modellbildung 74f, 77, 89ff Modus 43 Moivre, A. de 85 Monte-Carlo-Integration 222 Monte-Carlo-Methode 214 Montmort, P. de 155, 389 Multiplikationspfadregel 184 Multiplikationsregel 175, 177 Nadelproblem von Buffon 126 Neymann, J. 7 Normalverteilung (Gauß-Verteilung) 308 Standard- 311 Nullhypothese 351 Operationscharakteristik (siehe Annahmekennlinie) Pacioli, L. 79 Paradoxon von Bertrand 123 Pascal, B. 76, 79, 84 Pascal-Verteilung (siehe geometrische Verteilung) Pearson, E. 7 Pearson, K. 7, 63 Permutation fixpunktfreie 156ff mit Fixpunkten/Rencontre-Problem 155ff mit k-Fixpunkten 159 mit Wiederholung 143f ohne Wiederholung 139f Petty, Sir W. 5 Pfadregel (im Baumdiagramm) Additions- 102 Multiplikations- 184 Pokertest 226 Politische Arithmetik 5 Potenzmenge 92 Proben geordnete Probe mit Zur¨ ucklegen 144 geordnete Probe ohne Zur¨ ucklegen 141f
413 ungeordnete Probe mit Zur¨ ucklegen 151 ungeordnete Probe ohne Zur¨ ucklegen 146 Produzentenrisiko 362ff, 368f Pr¨ ufplan 362 Pseudozufallszahlen 216 Punktwolke 55 Qualit¨ atskontrolle 264, 361ff Quantile 43 Dezile 43 p-Quantil 43 Quartile 43 Quartilabstand 47 Quetelet, L. A. J. 6 Radioaktives Zerfallsgesetz 117, 305 Rechenregeln Additionsregel 107 f¨ ur Erwartungswert und Varianz 248f, 252f f¨ ur Wahrscheinlichkeiten 104f, 107, 110 Multiplikationsregel 175, 177 Rechteckverteilung 303 Regression 54ff Regressionsgerade 56ff relative bedingte H¨ aufigkeit 12, 88, 99 Rencontre-Problem 155ff Rencontre-Zahlen 160 R´ enyi, A. 87 Residuen 62, 70 Robervall, G. P. de 84 Satz von Bayes 198 Scatterdiagramm 55 Sch¨ atzer 335, 339 Sch¨ atzwert 88 Schwaches Gesetz der großen Zahlen von Bernoulli 280 Schwerpunkt 59 Sequenz geordnete S. mit Wiederholung 143f geordnete S. ohne Wiederholung 140f k-stellige S. bei vorgegebenen Vielfachheiten 154 ungeordnete S. mit Wiederholung 151 ungeordnete S. ohne Wiederholung 146 Sigma-Algebra 290 Sigma-Regeln 319 Signifikanzniveau 350 Simulation 213 Simulationsverfahren 213 f, 225f Stabilit¨ at der relativen H¨ aufigkeiten 88, 279f Standardabweichung 318f Standard-Normalverteilung 311 Tabelle 330 Transformation zur 313 standardisierte Zufallsvariable 257 statistische Einheit 9
414 statistische Erhebung 8ff statistische Masse 9 stem-leaf Display (siehe Stengel-Blatt-Diagramm) Stengel-Blatt-Diagramm 26 Stochastik 74 stochastische Modellbildung 74f stochastische Unabh¨ angigkeit von zwei Ereignissen 177 von n Ereignissen 177 Streudiagramm 55 Streuungsparameter 45ff empirische Standardabweichung 51 empirische Varianz 50 mittlere absolute Abweichung 50 Quartilabstand 47 Spannweite 46 Strichliste 15 S¨ ußmilch, J. P. 5 System der Borelmengen 288 Tabelle 15 Tartaglia, N. 79 Teilerhebung 7, 10 Testen von Zufallszahlen 226 Testgr¨ oße 352 Tests 349, 356 einseitige 349ff zweiseitige 353ff Totalerhebung 10 totale Wahrscheinlichkeit 197 Toto 143, 167 Treize-Spiel 155 Tschebyscheff, P. L. 276 Ungleichung 276 Tukey, J. W. 7 Unabh¨ angige Ereignisse paarweise 177 stochastisch 177 ungeordnete Proben mit Zur¨ ucklegen 151 ohne Zur¨ ucklegen 146 Ungleichung von Tschebyscheff 276 Universit¨ atsstatistik 5f Urliste 15 Varianz 246, 320 Binomialverteilung 260 Exponentialverteilung 322 geometrische Verteilung 270 hypergeometrische Verteilung 265 Interpretation der Varianz 248 Normalverteilung 323 Rechenregel 248f Rechteckverteilung 321 Summe zweier Zufallsvariablen 253 Variationsbreite (siehe Spannweite) Verschiebungssatz (Zerlegungsregel) 257, 271 Verteilung Binomial- 259
Index Exponential- 304 Gauß- 308 geometrische 270 gleichm¨ aßige 273 hypergeometrische 263 Indikatorfunktion 274 Laplace- 116 Normal- 308 Pascal- 270 Rechteck- 303 Standardnormal- 311 Verteilungsfunktion 238, 295 Erwartungswert 240, 244, 320 Standardabweichung 246, 320 Varianz 246, 320 Vierfeldertafel 203 Vier-Schritt-Modell 162ff Vorzeichentest 354 Wachstumsfaktor 35 Wachstumsrate 35 Wahrscheinlichkeit a posteriori 200 a priori 200 bedingte 174 bedingte Laplace- 171 frequentistische 173 geometrische 121ff klassische (siehe Laplace-) Laplace- 98 statistische (siehe frequentistische) totale 197 Wahrscheinlichkeitsmaß 237, 285, 289 Wahrscheinlichkeitsraum abstrakter 291 abz¨ ahlbar-unendlicher 284, 289 endlicher 98 Laplace- 116 u ahlbar-unendlicher 286ff ¨ berabz¨ Wahrscheinlichkeitsverteilung (siehe auch Verteilung) 234f Zerfallsgesetz 117, 305 Zielgr¨ oße 57 Zufall 72ff Zufallsexperiment 89 Zufallsgr¨ oße (siehe Zufallsvariable) Zufallsvariable abstrake 325 diskrete 232 standardisierte 257 Transformation 256f unabh¨ angige 250 Zufallszahlen (Zufallsziffern) 209, 214 Pseudo- 216 Tabelle 215 Testen von 226 zweiseitiger Test 353