Physica-Lehrbuch
Christoph Weigand
Statistik mit und ohne Zufall Eine anwendungsorientierte Einführung 2. Auflage
Professor Dr. Christoph Weigand Fachhochschule Aachen Eupener Straße 70 52066 Aachen Deutschland
[email protected]
ISSN 1431-6870 ISBN 978-3-7908-2346-2 e-ISBN 978-3-7908-2347-9 DOI 10.1007/978-3-7908-2347-9 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag Berlin Heidelberg 2006, 2009 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: WMXDesign GmbH, Heidelberg Umschlaggestaltung: Erich Kirchner Umschlagsabbildung: Christoph Weigand Gedruckt auf säurefreiem Papier Physica-Verlag und Springer-Verlag sind Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)
Vorwort
Im t¨ aglichen Leben, erst recht im ¨ okonomischen Bereich, m¨ ussen st¨andig Entscheidungen getroffen werden, um bestimmte Ziele zu erreichen oder Bed¨ urfnisse befriedigen zu k¨ onnen. Dabei besteht die Schwierigkeit, dass man bei der Entscheidungsfindung nur unvollst¨ andige Informationen zur Verf¨ ugung hat. Die Launen und Verhaltensweisen von Menschen, Naturereignisse wie auch Katastrophen, kurz, die Zukunft ist nie exakt vorhersehbar. Trotzdem ist man bestrebt, so gut es eben geht, Informationen u ¨ber einen Sachverhalt zu gewinnen. Aus diesem Grund wohl wird schon seit Jahrtausenden (z.B. 4.Buch Moses “Numeri“) Statistik betrieben, wenn auch in einfacher Form. Vor 100 Jahren begann sich die Statistik dank der Fortschritte in der Wahrscheinlichkeitsrechnung rasant zu entwickeln und ist heute fester Bestandteil jeder Naturund Sozialwissenschaft, sowohl in der Lehre, als auch in den Anwendungen. Zudem werden wir im Alltag und Beruf st¨ andig mit “Zahlen“ u ¨berh¨auft.
“Ich habe geh¨ ort, dass Tortendiagramme zu 80% dick machen und zu 34% Haarausfall ausl¨ osen!“
“Ja, aber das ist nur bei Torten aus der Zeitung oder dem Fernsehen so. Diese hier ist aus dem Radio!“
Ob wir wollen oder nicht, wir befinden uns sehr oft in der Rolle des “Statistikkonsumenten“, d.h wir sollen und m¨ ussen verstehen, was Zeitungen, Rundfunk, Fernsehen, Reports, etc. im privaten wie auch beruflichen Umfeld mitteilen. Leider werden dabei je nach Interessenlage gelegentlich auch
VI
Vorwort
Manipulationen und T¨ auschungen vorgenommen. Daher ist es in der heutigen Zeit schon fast u ¨berlebenswichtig, gute Statistikkenntnisse zu besitzen. Neben der Rolle des Konsumenten m¨ ussen wir zunehmend auch die Rolle des “Statistikproduzenten“ beherrschen. Der inzwischen weitverbreitete Einsatz von Computern und die sich daraus ergebenden immensen Datenmengen verst¨ arken diesen Trend. Sogenannte komplizierte, h¨ohere Verfahren, die noch vor 20 Jahren nur von Spezialisten zeitaufwendig programmierbar waren, k¨ onnen heute mit einem PC und Software, die zum u ¨blichen Standard geh¨ ort, bequem, fast spielerisch durchgef¨ uhrt werden. Dies setzt allerdings voraus, dass man die Konzepte der statistischen Methoden gut kennt. Diese zu vermitteln, ist das schlichte Anliegen des vorliegenden Buches. Es richtet sich an den “Einsteiger“ und versucht mit einfachen Vorkenntnissen, d.h. mit der u ¨blichen Schulmathematik auszukommen. “Einfach“ heißt, dass keine besonderen Kenntnisse oder F¨ahigkeiten in der Differentialund Integralrechnung oder Linearen Algebra vorausgesetzt werden. Ein einf¨ uhrendes Statistikbuch zu schreiben, ist ein Balanceakt zwischen anschaulicher Vereinfachung und gebotener mathematischer Pr¨azision. Die Tatsache, dass vor allem in der Wahrscheinlichkeitstheorie und induktiven Statistik Formeln gebraucht werden, deren Beweise von hohem mathematischen Niveau sind, deren Anwendung aber sehr einfach und schemenhaft erfolgen kann, verf¨ uhrt dazu, Statistik nur noch als eine Sammlung von wundersamen Rezepturen und Black-Boxen zu pr¨ asentieren. So besteht allerdings die Gefahr, den Leser lediglich zu einer verst¨ andnislosen Anwendung von BlackBoxen zu “dressieren“, was in der Regel nur zu Unsinn f¨ uhren kann. Dabei kann man sich zudem noch von (eigentlich in erfreulicher Weise) recht bedienungsfreundlichen Statikprogrammen verleiten lassen. Ein anwendungsorientiertes Statistik-Buch sollte daher nicht nur eine “Apotheke“ mit m¨ oglichst vielen Heilmittelchen sein, sondern zus¨atzlich den Leser zu einer Art “Arzt“ ausbilden, d.h. zu einer Person, welche Probleme erkennt, die richtige Diagnose zu stellen weiß, und dann zielgerichtet in die Apotheke greifen kann. Daher steht im Vordergrund, dass der anwendungsorientierte Leser, der sich zwangsl¨ aufig an der Schnittstelle zwischen realem Problem und Modell befindet, auch bewerten kann, ob die notwendigen Voraussetzungen f¨ ur ein statistisches Verfahren gegeben sind. Aufgrund meiner Lehrt¨ atigkeit habe ich den Eindruck gewonnen, dass bestimmte Themen, die im Grunde einfach sind und von Mathematikern als trivial bezeichnet werden, nennenswert vielen Studierenden dennoch große Probleme bereiten k¨ onnen. Leider werden diese Themen in der Literatur oft nur knapp oder gar nicht besprochen. Daher geht das vorliegende Buch auch auf scheinbar einfache Themen ausf¨ uhrlich ein um sicherzustellen, dass sich auch der aus den oben genannten Gr¨ unden “zur Statistik gezwungene, weniger begabte“ Leser zumindest das “Basiswissen“ aneignen kann. Zudem findet aber auch der “begabte oder faszinierte“ Leser eine Reihe von weitergehenden Themen mit Herleitungen. Das Buch ist so konzipiert, dass
Vorwort
VII
man beim ersten Lesen durch die wichtigsten Themen navigiert wird und man mathematische Beweise bei Bedarf im Anhang nachlesen kann. Das Buch verfolgt nicht das Ziel, ein Kompendium oder Nachschlagewerk der Statistik sein zu wollen. Dazu kann man heutzutage das Internet nutzen und mit ein Paar “Klicks“ f¨ undig werden. Stattdessen m¨ochte diese Lekt¨ ure der Verst¨ andlichkeit Vorrang gegen¨ uber einer Themenvielfalt gew¨ahren. Bei der Auswahl der Themen stand deren praktische Relevanz im Mittelpunkt. In der Deskriptiven Statistik werden wir manches Thema mit mehr Formalismus behandeln, als es vielleicht unbedingt notwendig w¨are. Diese Vorgehensweise erweist sich allerdings beim Einstieg in die Wahrscheinlichkeitsrechnung als sehr n¨ utzlich, wo wir diesen Formalismus brauchen und dann schon mit ihm vertraut sind. Zudem hilft er, die “Dinge auf den Punkt“ zu bringen. In der Literatur wird die Wahrscheinlichkeitsrechnung u ¨blicherweise auf “Ereignissystemen“ aufbauend eingef¨ uhrt. Darauf wird hier bewusst verzichtet, da dieser Ansatz nur schl¨ ussig und vorteilhaft ist, wenn er auch wirklich mathematisch fundiert, also im Rahmen der sogenannten Maßtheorie, erfolgen w¨ urde. Dies ist aber dem anwendungsorientierten Leser nicht zumutbar. F¨ ur konstruktive Anregungen und Unterst¨ utzung gilt mein Dank in besonderer Weise meiner Kollegin Frau Prof. Dr. Gisela Maercker, Herrn Tobias F¨ ortsch und, stellvertretend f¨ ur die zahlreich helfenden Mitarbeiter des Springer- und Physica-Verlags, Frau Lilith Braun, Frau Gabriele Keidel und Herrn Frank Holzwarth, welche eine professionelle und reibungslose Ver¨offentlichung des Manuskriptes erm¨ oglicht haben. Der Autor freut sich u ¨ber weitere Hinweise und Verbesserungsvorschl¨ age (z. B. per e-mail
[email protected]) seitens der Leser. In der vorliegenden 2. Auflage wurde das Buch an diversen Stellen verbessert und beim Thema “Indizes“ aktualisiert. Trotz zahlreicher Beispiele in der ¨ ersten Auflage fehlten bisher Aufgaben zum selber Uben. Gem¨aß dem Motto ¨ ¨ “ Ubung macht den Master (oder Bachelor)“ sind daher u ¨ber 150 Ubungsaufgaben im Anhang des Buches eingef¨ ugt worden. Zudem werden dem Leser zur Lernkontrolle die L¨ osungen im Internet bereitgestellt. Dies besitzt den Vorteil, ohne zus¨ atzliche Kosten dennoch ausf¨ uhrliche L¨osungswege bieten zu k¨onnen. ¨ Insofern wurde aus dem bisherigen Lehrbuch nun ein Lehr- und Ubungsbuch in einem. Neben den bereits genannten Personen m¨ ochte ich mich bei der zweiten Auflage ganz besonders herzlich bei Frau Alice Blanck und Herrn Dr. Niels Peter Thomas vom Springer und Physica Verlag bedanken, die mich in hervorragender Weise unterst¨ utzt haben.
Aachen, im Juni 2009
Christoph Weigand
Inhaltsverzeichnis
Teil I Deskriptive Statistik 1
Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Objekte, Merkmale, Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . 1.2 Urliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Teilgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Merkmalstypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 4 5 6 7 7
2
Empirische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Univariate Verteilungen diskreter Merkmale . . . . . . . . . . . . . . . . . 2.2 Univariate Verteilungen stetiger Merkmale . . . . . . . . . . . . . . . . . . 2.3 Univariate Verteilungen klassifizierter Merkmale . . . . . . . . . . . . . 2.4 Bivariate Verteilungen diskreter Merkmale . . . . . . . . . . . . . . . . . . 2.5 Bivariate Verteilungen stetiger Merkmale . . . . . . . . . . . . . . . . . . . 2.6 Bivariate Verteilungen klassifizierter Merkmale . . . . . . . . . . . . . . 2.7 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 9 21 23 32 36 38 39
3
Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Bedingte Mittelwerte und deren Aggregation . . . . . . . . . . . . . . . 3.6 Harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Geometrisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53 54 56 60 62 65 68 72
X
Inhaltsverzeichnis
4
Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Range . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Mittlere Abweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . .
75 75 76 78
5
Weitere Eigenschaften von Lageparametern und Streuungsmaßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Lineare Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Addition von Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Optimalit¨ atseigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Ungleichung von Tschebyscheff . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83 83 86 87 89
6
Deskriptive Korrelation und Kovarianz . . . . . . . . . . . . . . . . . . . . 91 ¨ 6.1 Ausgangssituation und Uberblick . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.2 Deskriptive Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 6.3 Deskriptive Korrelation nach Bravais Pearson . . . . . . . . . . . . . . . 98 6.4 Rangkorrelation nach Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.5 Weitere Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7
Deskriptive Regressionsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . 111 7.1 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 7.2 Multiple lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.3 Nichtlineare einfache Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 124
8
Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 8.1 Wertindex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 8.2 Preisindex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 8.3 Mengenindex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 8.4 Zusammenhang zwischen Wert-, Preis- und Mengenindizes . . . . 136 8.5 Subindizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.6 Indizes in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 8.7 Verkn¨ upfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 8.8 Umbasierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 8.9 Preisbereinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 8.10 Kaufkraftparit¨ at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Inhaltsverzeichnis
XI
Teil II Wahrscheinlichkeitsrechnung 9
Grundlagen der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . 155 9.1 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 9.2 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 9.3 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 9.4 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 9.5 Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 9.6 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 9.7 Weitere Eigenschaften zu Erwartungswert und Varianz . . . . . . . 176
10 Spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 10.1 Stichprobe vom Umfang n = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 10.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 10.3 Binomialverteilung und Bernoullikette . . . . . . . . . . . . . . . . . . . . . 191 10.4 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 10.5 Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 10.6 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 10.7 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 10.8 Gleichverteilung (stetige) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 10.9 Stichprobenverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 11 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 11.1 Approximative Verteilung des arithmetischen Mittels . . . . . . . . . 225 11.2 Approximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . 228
Teil III Induktive Statistik 12 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 12.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 12.2 Grundkonzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 12.3 Reine Zufallsauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 12.4 Geschichtete Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 12.5 Klumpenstichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 12.6 Stichproben bei unendlicher Grundgesamtheit . . . . . . . . . . . . . . . 249 12.7 Bivariate Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
XII
Inhaltsverzeichnis
13 Sch¨ atzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 ¨ 13.1 Uberblick und Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 13.2 Punktsch¨ atzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 13.3 Konfidenzintervallverfahren f¨ ur den Erwartungswert bei bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 13.4 Konfidenzintervallverfahren f¨ ur den Erwartungswert bei unbekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 13.5 Konfidenzintervallverfahren f¨ ur einen Anteil oder eine Wahrscheinlichkeit p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 13.6 Einseitige Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 14 Statistische Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 14.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 14.2 Signifikanztests und Alternativtests . . . . . . . . . . . . . . . . . . . . . . . . 287 14.3 Gebrauch von Signifikanztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 14.4 Hypothesen-Typen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 15 Signifikanztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 15.1 Test f¨ ur den Erwartungswert bei bekannter Varianz (Gauß-Test)299 15.2 Test f¨ ur den Erwartungswert bei unbekannter Varianz (t-Test) 307 15.3 Test f¨ ur zwei Erwartungswerte bei einer Grundgesamtheit . . . . 310 15.4 Test f¨ ur Erwartungswerte bei zwei Grundgesamtheiten . . . . . . . 313 15.5 Test f¨ ur einen Anteil oder eine Wahrscheinlichkeit p . . . . . . . . . 319 15.6 Testen hypothetischer Wahrscheinlichkeiten (Anpassungstest) . 321 15.7 Test auf Gleichheit von Verteilungen in verschiedenen Grundgesamtheiten (Homogenit¨ atstest) . . . . . . . . . . . . . . . . . . . . 327 15.8 Test auf Gleichheit von Verteilungen in einer Grundgesamtheit (Homogenit¨ atstest) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 15.9 Unabh¨ angigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 16 Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 16.1 Allgemeines Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 16.2 Lineare Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 16.3 Nicht-Lineare und Multiple Regressionsanalyse . . . . . . . . . . . . . . 352 17 Alternativtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 17.1 Alternativtest f¨ ur den Erwartungswert bei bekannter Varianz (Gauß-Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 17.2 Annahme- und Endkontrolle (Acceptance Sampling) . . . . . . . . . 361
Inhaltsverzeichnis
XIII
17.3 Kostenoptimales Acceptance Sampling . . . . . . . . . . . . . . . . . . . . . 366 A
Anmerkungen zur Prozentrechnung . . . . . . . . . . . . . . . . . . . . . . . . 375
B
Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
C
Summenzeichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
D
Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 D.1 Fakult¨ at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 D.2 Binomialkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 D.3 Variation mit Wiederholungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
E
Herleitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
F
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
G
L¨ osungen zu den Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
H
Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 H.1 Quantile der F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 H.2 Quantile der χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456 H.3 Quantile der Student t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 457 H.4 Kumulierte Standardnormalverteilung Φ(x) . . . . . . . . . . . . . . . . 458
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
1 Grundlagen
Die Statistik gliedert sich in zwei große Bereiche, n¨amlich den der Deskriptiven Statistik, die man auch “Beschreibende Statistik“ nennt, und den der Induktiven Statistik, die man auch “Schließende Statistik“ nennt. Bei einer Bundestagswahl m¨ ochte man beispielsweise feststellen, wie viele Stimmen die einzelnen Parteien von den Wahlberechtigten erhalten, wie viele ung¨ ultige Stimmen es gibt und wie viele der Wahlberechtigten nicht zur Wahl gehen. Wenn die Wahlhelfer alle Stimmzettel gez¨ahlt haben, wird zu allen Parteien neben den absoluten H¨ aufigkeiten der Stimmen auch deren prozentuale Verteilung berechnet und in einem amtlichen Endergebnis ver¨offentlicht. Insofern wird, wenn keine Fehler begangen werden, das Wahlverhalten der Wahlberechtigten vollst¨ andig und korrekt beschrieben. Daher liegt eine Deskriptive Statistik vor. Der Sinn und Zweck, Statistiken zu erstellen, besteht typischer Weise darin, Besonderheiten wie auch “Normalheiten“ aufzuzeigen, und somit dem An¨ wender einen m¨ oglichst guten Uberblick zu verschaffen. Der Einzelfall ist in der Regel nicht von Interesse. Bei der Bundestagswahl ist der Einzelfall sogar durch das Wahlgeheimnis explizit gesch¨ utzt, d.h. es interessiert nicht, welche Partei z.B. Herr Artur Weigand gew¨ ahlt hat. Bundestagswahlen sind teuer und aufwendig. M¨ochte man schnell, relativ billig und innerhalb der Legislaturperiode wissen, welche Parteien die W¨ahler pr¨ aferieren, so befragt man nicht alle ca. 60 000 000, sondern beispielsweise nur 2000 Wahlberechtigte. Diese bilden eine sogenannte Stichprobe, von der man hofft, dass sie in etwa das Wahlverhalten aller Wahlberechtigten widerspiegelt. Bei dieser Vorgehensweise u agt man das Ergebnis der Stich¨bertr¨ probe auf alle Wahlberechtigte. Man spricht auch von einer “Hochrechnung“ bzw. von einem “Schluss“ der Stichprobenergebnisse auf die Gesamtheit aller Wahlberechtigten. Daher nennt man die Statistik, die auf Stichproben basiert, Schließende Statistik bzw. Induktive Statistik.
4
1 Grundlagen
Je nachdem unter welchen Modalit¨ aten die Stichprobe gezogen wird, und wer letztlich “zuf¨ alliger Weise“ befragt wird, kann das Wahlverhalten innerhalb der Stichprobe erheblich anders aussehen als in der Gesamtheit aller Wahlberechtigten. Um dies vern¨ unftig bewerten zu k¨ onnen, ben¨otigen wir die Wissenschaft, die sich mit dem Zufall besch¨ aftigt, n¨ amlich die Wahrscheinlichkeitstheorie. Beide Gebiete zusammen, also die Wahrscheinlichkeitstheorie und die Induktive Statistik, bezeichnet man als Stochastik. Diese Gliederung hat auch die Wahl des Titels zu diesem Buches inspiriert. Die Deskriptive Statistik entspricht der “Statistik ohne Zufall“. Hier wird eine Gesamtheit vollst¨ andig und korrekt beschrieben, indem man alle Werte ermittelt, d.h. eine sogenannte Totalerhebung durchf¨ uhrt. Die “Induktive Statistik“ entspricht der “Statistik mit Zufall“ und basiert auf Stichproben. Bevor es richtig los geht, wollen wir noch auf die Kapitel A, B und C im Anhang hinweisen. Dort findet man Anmerkungen zur Prozentrechnung, zum Gebrauch des Summenzeichens und zu den Grundbegriffen der Mengenlehre.
1.1 Objekte, Merkmale, Grundgesamtheit Das Modell, das der Deskriptiven Statistik zugrunde liegt, geht von folgenden Annahmen aus: •
Es liegt eine Menge von Objekten vor, die ein oder mehrere Merkmale besitzen. • Zu jedem einzelnen Objekt sind f¨ ur alle Merkmale Messwerte bekannt. Merkmale werden mit Großbuchstaben X, Y, .. notiert. Die Werte, die ein Merkmal X besitzen kann, also die m¨ oglichen Messwerte, heißen Merkmalswerte. Die Menge aller Objekte wird als Grundgesamtheit oder Population bezeichnet, wobei N f¨ ur die Anzahl der Objekte steht. Beispiel (Einwohner Aachens). Objekt = Person, Grundgesamtheit = alle Einwohner Aachens. Jedes Objekt besitzt beispielsweise die Merkmale X Y Z
= Alter [Jahre] = Merkmal 1, = Augenfarbe = Merkmal 2, = Geschlecht = Merkmal 3.
Merkmalswerte zu X: 0,1,2,3,.... Merkmalswerte zu Y : blau, braun, gr¨ un, .... Merkmalswerte zu Z: m¨ annlich, weiblich.
1.2 Urliste
5
Beispiel (Schwimmbad “Panschi“). Objekt = Tag, Grundgesamtheit = alle Tage von 1998-2000. Jedes Objekt besitzt beispielsweise die Merkmale X Y
= Lufttemperatur [Celsius] um 12 Uhr im Schwimmbad “Panschi“, = Anzahl Besucher im Schwimmbad “Panschi“.
Merkmalswerte zu X: Merkmalswerte zu Y :
[−273; ∞]. 0,1,2,3,....
In der Literatur ist es u ¨blich, folgende Begriffe synonym zu verwenden: Objekt = Merkmalstr¨ ager = Untersuchungseinheit = Fall (Case), Merkmal = Variable = Attribut.
1.2 Urliste In Anlehnung an heute gebr¨ auchliche Datenbanken und Statistikprogramme wird im Folgenden davon ausgegangen, dass eine Grundgesamtheit in Form einer Liste vorliegt, die als Urliste bezeichnet wird. Eine Spalte entspricht einem Merkmal. Eine Zeile beinhaltet die gemessenen Merkmalswerte eines einzelnen Objekts. Einer Grundgesamtheit mit N Objekten entspricht demnach einer Liste mit N Zeilen. Gew¨ ohnlich steht den N Zeilen noch eine Kopfzeile voran, die zur Spaltenbeschriftung dient bzw. die Merkmale bezeichnet. Die Reihenfolge der Zeilen bzw. der Objekte in einer Urliste ist unerheblich. Sollte eine bestimmte Reihenfolge der Objekte sinnvoll sein, so muss dies mit einem entsprechenden Merkmal beschrieben werden. Beispiel (Freie Mietwohnungen in Aachen am 6. M¨ arz). Merkmal Objekt Nr. 1 2 3 4 ..
G=Größe [m2] 80 125.36 35.78 148 ..
P=Preis [] 409.99 502 154.3 883.79 ..
Z=Zimmer 3 4 1 4 ..
U=Zustand gut schlecht normal sehr gut ..
S=Stadtteil Forst Soers Forst Burtscheid ..
390
89
429.40
3
gut
Richterich
Objekt
6
1 Grundlagen
Objekt = Wohnung, Grundgesamtheit = Alle 390 freien Mietwohnungen in Aachen am 6. M¨ arz. Die Objekte besitzen die Merkmale: G, P, Z, U, S. Konkret besitzt beispielsweise das 3. Objekt zu dem Merkmal P den Merkmalswert 154.3 [e]. Die erste Spalte stellt kein Merkmal dar und k¨onnte auch weggelassen werden. Sie dient nur zum Durchnummerieren der Objekte und der besseren Lesbarkeit. Je nachdem, wie viele Merkmale bzw. Variablen in die statistische Auswertung einer Urliste eingehen, unterscheidet man: Univariate Auswertung: Es wird nur 1 Merkmal ber¨ ucksichtigt. Multivariate Auswertung: Mehrere Merkmale werden ber¨ ucksichtigt. Bivariate Auswertung: Genau 2 Merkmale werden ber¨ ucksichtigt.
1.3 Teilgesamtheit Werden bestimmte Objekte einer Grundgesamtheit in einer eigenen Gesamtheit zusammengefasst, so spricht man von einer Teilgesamtheit. Dies entspricht einer Selektion bestimmter Zeilen aus der Urliste. Die Spaltennamen, d.h. die Merkmale bleiben unver¨ andert. Statt aller Objekte wird nur ein Teil der Objekte herangezogen. Ob bei einer gegebenen Gesamtheit eine Grundgesamtheit oder eine Teilgesamtheit vorliegt, ist eine Frage der “Perspektive“. In obigem Beispiel kann die Grundgesamtheit “Alle 390 freien Mietwohnungen in Aachen am 6. M¨arz“ in mehrfacher Weise auch als Teilgesamtheit einer u ¨bergeordneten Grundgesamtheit gesehen werden. Beispielsweise: • • •
als Teil aller Wohnungen in Aachen am 6. M¨arz, als Teil aller Mietwohnungen in Deutschland am 6. M¨arz, als Teil aller Mietwohnungen in Deutschland im M¨arz.
Beschreibt man mit Hilfe von Statistiken eine Teilgesamtheit, so neigt man gelegentlich dazu, die Ergebnisse auch auf eine u ¨bergeordnete Gesamtheit zu verallgemeinern. Diese Vorgehensweise ist f¨ ur die Induktive Statistik typisch. Die Deskriptive Statistik hingegen dient ausschließlich nur zur Beschreibung einer vollst¨ andig bekannten Grundgesamtheit bzw. Urliste. Interpretationen, die dar¨ uber hinausgehen, sind nicht Gegenstand der Untersuchungen und bleiben der Induktiven Statistik vorbehalten.
1.5 Datenerhebung
7
1.4 Merkmalstypen Bestimmte statistische Auswertungen sind nicht f¨ ur jede Art von Merkmal sinnvoll. Zum Beispiel kann bei Farben kein Mittelwert berechnet werden. Daher ist es u ¨blich, Merkmale nach bestimmten Kriterien zu klassifizieren: qualitatives Merkmal: Es wird auch artm¨aßiges Merkmal genannt. Beispiele: Stadtteil, Zustand, Farbe, Steuerklasse. quantitatives Merkmal: Es wird auch zahlm¨aßiges Merkmal genannt. Hierbei unterscheidet man: - diskret: Nur bestimmte, separate Zahlwerte k¨onnen angenommen werden. Beispiele: Anzahl Kinder pro Familie, Anzahl defekter Pixel pro Flachbildschirm. - stetig: Die Werte sind auf einer kontinuierlichen Skala darstellbar. Man stellt sich vor, dass sie auf beliebig viele Nachkommastellen messbar w¨ aren. Beispiele: Volumen, Gewicht, Zeit, L¨ange, Temperatur. Man beachte, dass auch qualitative Merkmale gelegentlich mit Ziffern notiert werden. Dies kommt lediglich einer Kodierung gleich, die im Grunde willk¨ urlich festgelegt werden kann. Eine weitere Aufteilung unterscheidet die Anordenbarkeit der Werte eines Merkmals: nominales Merkmal: Es gibt keine nat¨ urliche Ordnung, wie zum Beispiel bei dem Merkmal Farbe mit den Merkmalswerten rot, gelb, blau, gr¨ un.. . ordinales Merkmal: Es gibt eine Rangfolge bzw. Ordnung innerhalb der Werte des Merkmals, wie zum Beispiel bei dem Merkmal Zustand: sehr gut, gut, normal, schlecht. metrisches Merkmal: Es entspricht einem quantitativen Merkmal. Es liegt sowohl eine Ordnung als auch deren zahlm¨ aßige Beschreibung vor. Hierbei unterscheidet man: - Intervallskala: Es gibt keinen nat¨ urlichen Nullpunkt. Jedoch lassen sich die Unterschiede messen; beispielsweise eine in Celsius gemessene Temperatur: 6 Grad ist nicht doppelt so warm wie 3 Grad. Aber der Temperaturunterschied von 6 auf 3 Grad Celsius ist genauso groß wie von 44 auf 41 Grad. - Verh¨ altnisskala: Es gibt einen nat¨ urlichen Nullpunkt. Beispiele: Gewicht, Bargeld, Volumen.
1.5 Datenerhebung Die Datenerhebung beschreibt, wie und unter welchen Umst¨anden man bei den Objekten zu Messwerten gelangt. Folgende Klassifizierung ist u ¨blich:
8
1 Grundlagen
prim¨ arstatistisch: Es wird f¨ ur einen bestimmten Zweck eigens eine Datenerhebung durchgef¨ uhrt. sekund¨ arstatistisch: Es wird auf bereits vorhandene Daten zur¨ uckgegriffen, die m¨ oglicherweise urspr¨ unglich f¨ ur einen anderen Zweck erhoben wurden. Dies ist h¨ aufig der billigere und schnellere Weg. Er gewinnt zunehmend an Bedeutung, da durch den expansiven Einsatz von Computern riesige Datenmengen den Unternehmen zur Verf¨ ugung stehen. Schlagworte wie “Data Mining“ bezeugen diesen Trend. Bei der Vorgehensweise einer Erhebung unterscheidet man: Beobachtung: Die Daten werden durch Augenschein oder mittels Messger¨ aten automatisch erfasst. z.B. Verkehrsz¨ahlungen, Volksz¨ahlung, Energieverbrauch. Befragung: M¨ undliche oder schriftliche Umfragen, z.B. Wahlumfrage, Konsumentenbefragungen. Hierbei tritt das Problem der Antwortverweigerung auf. Es ist schwer zu beurteilen, wie man diese sinnvoll in entsprechende Auswertungen einbeziehen kann, z.B. Umfragen zur Mitarbeiterzufriedenheit, bei denen 60 % nicht antworten, da sie m¨oglicherweise schon vollkommen resigniert und frustriert sind. Experiment: Messungen, die unter bewusster Steuerung der Rahmenbedingungen erfolgen, z.B. die Ausschussquote eines Produktes bei unterschiedlichen Produktionsverfahren, Blutdruckmessung bei unterschiedlicher Dosierung eines Medikamentes, Geschmackstests bei Pommes mit verschiedenen Arten der Garnierung, usw. Totalerhebung: Bei einer Gesamtheit liegen zu jedem Objekt die Merkmalswerte bzw. Messwerte vor. Dieser Begriff betont, dass die Gesamtheit als vollst¨ andige Grundgesamtheit zu verstehen ist und nicht als Stichprobe.
2 Empirische Verteilungen
Empirisch heißt “gemessen, beobachtet“ oder “durch Erfahrung gewonnen“. Der Begriff m¨ ochte daran erinnern, dass im Gegensatz zu Verteilungen in der Wahrscheinlichkeitstheorie empirische Verteilungen auf Merkmalswerten basieren, die an den Objekten einer konkret vorliegenden Gesamtheit gemessen worden sind. Der Zweck von Verteilungen besteht darin, Grundgesamtheiten bez¨ uglich bestimmter Merkmale auf einfache Weise als Ganzes zu u ¨berblicken. Indem quantifiziert wird, welche Merkmalswerte wie oft vorkommen, k¨onnen wir erkennen, welche Werte eher als gew¨ ohnlich oder ungew¨ohnlich im Sinne von h¨aufig und selten zu beurteilen sind. Dabei sind geeignete graphische Darstellungen hilfreich.
2.1 Univariate Verteilungen diskreter Merkmale In diesem Kapitel beschr¨ anken wir uns auf den Fall, dass nur ein einziges Merkmal von Interesse ist und dieses diskreten Typs ist, also nur Werte eines bestimmten Rasters annehmen kann. Da viele Konzepte auch f¨ ur ordinale und nominale Merkmale u ur diese ¨bernommen werden k¨onnen, verzichten wir f¨ Merkmalstypen auf ein eigenes Kapitel. Anhand des folgenden Beispiels sollen die wichtigsten Begriffe und Ideen veranschaulicht werden. Beispiel (Haushalte in Kleinrinderfeld). Edmund ist B¨ urgermeister von ¨ Kleinrinderfeld und m¨ ochte sich einen Uberblick u ¨ber die Gr¨oße der N = 40 ortsans¨ assigen Haushalte verschaffen. Die Statistikabteilung des Rathauses u ¨bergibt ihm folgende Daten: 2, 1, 2, 5, 7, 6, 2, 1, 1, 4, 2, 6, 4, 3, 5, 2, 3, 1, 1, 6, 2, 8, 8, 3, 7, 2, 6, 4, 2, 1, 2, 6, 2, 3, 6, 1, 4, 1, 5, 4.
Die Daten liegen “unausgewertet“ in Form einer Urliste vor, die man auch in standardisierter Form mit 40 Zeilen und einer Spalte notieren k¨onnte.
10
2 Empirische Verteilungen
Einem Objekt entspricht ein Haushalt, der das Merkmal “X = Anzahl Personen“ besitzt. Die Reihenfolge der N = 40 Merkmalswerte bzw. Haushalte ist willk¨ urlich. B¨ urgermeister Edmund interessiert sich f¨ ur folgende Fragen: a) Wie viele Haushalte haben genau 4 Personen? b) Wie groß ist der Anteil der Haushalte mit genau 4 Personen? c) Wie groß ist der Anteil der Haushalte mit maximal 4 Personen? d) Wie hoch ist der Anteil der Haushalte mit u ¨ber 4 Personen? e) Wieviel Prozent der Haushalte besitzen mindestens 4 Personen, aber nicht mehr als 5 Personen? f) Wieviel Prozent der Haushalte besitzen eine ungerade Anzahl an Personen? Zur Beantwortung dieser oder ¨ ahnlicher Fragestellungen k¨onnen wir immer nach dem gleichen Schema vorgehen. Zun¨ achst selektieren wir aus der Grundgesamtheit all diejenigen Objekte, welche die gefragte Eigenschaft besitzen. Die Eigenschaft ist dadurch spezifiziert, dass die Variable X nur Werte eines ganz bestimmten Bereiches B annehmen darf. In der Mengenlehre1 benutzt man hierf¨ ur die Schreibweise X ∈ B. Oft ist der Bereich B ein Intervall, so dass sich die selektierende Eigenschaft auch mit einer Ungleichungen X ≤ x bzw. X ≥ x oder Gleichung X = x notieren l¨ asst. Dabei werden Merkmale in Großbuchstaben und Merkmalswerte in Kleinbuchstaben notiert. Anschließend werden die selektierten Objekte gez¨ahlt. F¨ ur den gesamten Sachverhalt wollen wir im Weiteren kurze und pr¨ azise Notationen benutzen. Absolute H¨ aufigkeit A(X ∈ B) = Anzahl aller Objekte, bei denen das Merkmal X Werte besitzt, die in B liegen.
(2.1)
Analog gebrauchen wir die Notationen A(X ≤ x), A(X ≥ x), A(X = x). Um absolute H¨ aufigkeiten relativieren zu k¨ onnen ben¨otigt man die “Gr¨oße“ der Grundgesamtheit: N = Anzahl aller Objekte in der Urliste bzw. der Gesamtheit.
(2.2)
So kann es sein, dass wir ein und dieselbe absolute H¨aufigkeit bei einer kleinen Grundgesamtheit als groß und bei einer großen Grundgesamtheit als klein bewerten.
1
Siehe auch Kapitel B “Mengenlehre“ im Anhang!
2.1 Univariate Verteilungen diskreter Merkmale
11
Relative H¨ aufigkeit h(X ∈ B) = Anteil aller Objekte, bei denen das Merkmal X Werte besitzt, die in B liegen =
A(X ∈ B) . N
Analog gebrauchen wir die Notationen h(X ≤ x),
(2.3) h(X ≥ x),
h(X = x).
Beispiel (Fortsetzung). Zun¨ achst notiert Edmund zu jeder Frage die Eigenschaft, welche beim Durchz¨ ahlen die in Frage kommenden Objekte selektiert. Beispielsweise muss bei Frage a) X = 4 erf¨ ullt sein. Frage f) ist vom Typ “X ∈ B“, wobei hier f¨ ur B = {1, 3, 5, 7, . . .} zu setzen ist. Nach den jeweiligen Ausz¨ ahlung erh¨ alt Edmund folgende Antworten: a) A(X = 4) = 5 A(X=4) 5 = 40 = 0.125 = 12.5% N A(X≤4) 27 = 40 = 0.675 = 67.5% h(X ≤ 4) = N A(X>4) = 13 h(X > 4) = N 40 = 0.325 = 32.5% 8 = 40 = 0.20 = 20% h(4 ≤ X ≤ 5) = A(4≤X≤5) N A(X∈{1,3,5,7,9}) = 17 h(X ∈ {1, 3, 5, 7, . . .}) = N 40 = 0.425
b) h(X = 4) = c) d) e) f)
= 42.5%.
Wir hatten Gl¨ uck, dass Kleinrinderfeld nur N = 40 Haushalte besitzt und damit das Abz¨ ahlen einfach und schnell erfolgen kann. In Berlin beispielsweise w¨ are es sehr m¨ uhsam, zu jeder Frage erneut die ganze Urliste durchsehen zu m¨ ussen. Stattdessen ist es einfacher, eine Grundgesamtheit nur einmal durchzuz¨ ahlen und zu jedem vorkommenden Merkmalswert x die entsprechenden H¨ aufigkeiten zu notieren. Wir definieren daher: Verteilung von X h(x) = h(X = x) = Anteil der Objekte, bei denen das Merkmal X genau den Wert x annimmt.
(2.4)
Man kann diese Anteile auch als “punktuelle“ relative H¨aufigkeiten verstehen, da sie sich auf das Vorkommen eines einzelnen Merkmalswertes bzw. Punktes x beschr¨ anken. Allgemeine Anteile h(X ∈ B) erh¨alt man, indem nur diejenigen “punktuellen“ Anteile addiert werden, bei denen der Merkmalswert x in B liegt. Es ergeben sich die gleichen Resultate, wie bei der oben beschriebenen Abz¨ ahlmethode2 : 2
Siehe auch im Anhang das Kapitel C “Summenzeichen“!
12
2 Empirische Verteilungen
h(X ∈ B) =
h(x)
(2.5)
x∈B
Beispielsweise erh¨ alt Edmund auf diese Weise h(x) = h(4) + h(5) = 0.125 + 0.075 = 20%. (2.6) h(4 ≤ X ≤ 5) = 4≤x≤5
In den Anwendungen sind oft Anteile von Interesse, bei denen die Variable X nur Werte bis zu einer maximalen oberen Grenze x annehmen darf. Es hat sich als vorteilhaft erwiesen, daf¨ ur eine eigene Schreibweise einzuf¨ uhren. Kumulierte Verteilung von X H(x) = h(X ≤ x) = Anteil der Objekte, bei denen die Merk- (2.7) malswerte maximal dem oberen Wert x entsprechen h(k). (2.8) = k≤x
Ob man die kumulierte oder die nicht-kumulierte Verteilung benutzt, ist oft nur eine Frage der Bequemlichkeit, denn sie sind beide im Grunde gleichermaßen informativ. Beispiel (Fortsetzung). Edmund bestimmt zun¨achst losgel¨ost von seinen urspr¨ unglichen Fragen zu jedem Merkmalswert x das absolute Vorkommen A(X = x), sowie die jeweiligen Anteile, d.h. die Verteilung h(x). X = Anz. Pers.
0
1
2
3
4
5
6
7
8
9
A(X = x) = abs. Anz. 0
8
10
4
5
3
6
2
2
0
h(x) = Vert.
0 0.20 0.25 0.10 0.125 0.075 0.15 0.05 0.05 0
H(x) = kumul. Vert.
0 0.20 0.45 0.55 0.675 0.750 0.90 0.95
1
1
Die Zeilensumme zur absoluten Anzahl A(X = x) muss N = 40 ergeben. Daher ist die Summe der Verteilung h(x) in Zeile 3 genau 1. Ein Vergleich der letzten beiden Zeilen verdeutlicht die Beziehung (2.10), die zwischen der punktuellen Verteilung h(x) und der kumulierten Verteilung H(x) besteht:
2.1 Univariate Verteilungen diskreter Merkmale
13
H(1) = h(X ≤ 1) = h(1) H(2) = h(X ≤ 2) = h(1) + h(2)
= H(1) + h(2)
H(3) = h(X ≤ 3) = h(1) + h(2) + h(3)
= H(2) + h(3)
...
(2.9)
H(x) = h(X ≤ x) = h(1) + h(2) + . . . + h(x)
= H(x − 1) + h(x)
Diese Gleichungen erm¨ oglichen Edmund die Verteilung h(x) bei alleiniger Kenntnis von H(x) zu “rekonstruieren“: h(x) = H(x) − H(x − 1).
(2.10)
Beispielsweise gilt h(4) = H(4) − H(3). Dieses Ergebnis ist auch anschaulich, denn zieht man vom Anteil der Haushalte mit maximal 4 Personen den Anteil der Haushalte mit maximal 3 Personen ab, so bleibt der Anteil der Haushalte zur¨ uck, die genau 4 Personen aufweisen. Das Beispiel zeigt, welche generelle Beziehung zwischen der kumulierten und nicht-kumulierter Verteilung eines diskreten Merkmals X besteht: • Kennt man die Verteilung h(x), so ergibt sich H(x) durch Summation bzw. Kumulierung der entsprechenden Werte von h(x). • Umgekehrt kann man bei Kenntnis von H(x) die Verteilung h(x) durch geeignete Subtraktion gewinnen. Darstellungsformen f¨ ur Verteilungen F¨ ur die Darstellung der Verteilungen von h(x) und H(x) sind Tabellen oder Graphiken u ¨blich. Eine tabellarische Darstellung haben wir bereits im Beispiel benutzt. Derartige Tabellen sind keine Urlisten. Vielmehr sind sie bereits eine Aggregation bzw. Auswertung von Urlisten. Da der Verstand des Menschen sich leicht von visuellen Eindr¨ ucken u ¨berzeugen l¨ asst, sind insbesondere bei Pr¨ asentationen in der Praxis graphische Darstellungen Tabellen vorzuziehen. Die Abbildungen 2.1 - 2.4 zeigen die entsprechenden Graphiken des Beispiels. Rechenregeln Eine einfache, selbstverst¨ andliche Regel besagt, dass die Summe aller Anteile das “Ganze“ ergeben muss. Die Summe aller Anteile ergibt immer 1: h(x) = 1.
(2.11)
alle x
Im Beispiel haben wir diese Eigenschaft bereits bei der Summation der Zeile “h(x)“ vorgefunden.
14
2 Empirische Verteilungen
Beispiel “Haushalte in Kleinrinderfeld“ 30% Anteile
Anteile
30% 20% 10% 0%
20% 10% 0%
1
2
3 4 5 6 Anzahl Personen
7
8
Abbildung 2.1. S¨ aulendiagramm
0
6 Pers. 5 Pers.
2 Pers.
4 Pers.
3 Pers.
Abbildung 2.3. Tortendiagramm
Anzahl Personen
0% 1 Pers.
2
3 4 5 6 7 Anzahl Personen
8
9
Abbildung 2.2. Stabdiagramm
8 Pers. 7 Pers.
1
10%
20%
30%
1 3 5 7
Abbildung 2.4. Balkendiagramm
Das Stabdiagramm ist im Wesentlichen ein S¨ aulendiagramm, bei dem die S¨ aulen d¨ unner gezeichnet werden.
Aus dieser Regel l¨ asst sich eine weitere ableiten. Wenn man beispielsweise weiß, dass in einer Gruppe von erwachsenen Personen 20% Frauen sind, so muss der Rest, also die M¨ anner, einen Anteil von 80% besitzen. Diese Rechnung folgt daraus, dass M¨ anner und Frauen zusammen einen Anteil von 100% haben m¨ ussen. Formalisiert man diesen Gedanken, so erhalten wir durch Aufl¨osen der allgemein g¨ ultigen Gleichung 1 = h(X ∈ B) + h(X ∈ / B) nach h(X ∈ B) eine Gleichung, die wir als “Regel vom Gegenteil“ bezeichnen wollen. Alternativ wird sie auch Regel vom “Gegenereignis“ oder “Komplement“ genannt. Regel vom Gegenteil: h(X ∈ B) = 1 − h(X ∈ / B).
(2.12)
Beispiel (Fortsetzung). Gem¨ aß Frage c) haben 67.5% der Haushalte maximal 4 Personen. Die restlichen Haushalte, das sind die Haushalte mit u ¨ber 4 Personen, haben einen Anteil von 32.5%: h(X > 4) = 1 − h(X ≤ 4) = 1 − 0.675 = 0.325.
2.1 Univariate Verteilungen diskreter Merkmale [
67.5 %
] ]
15
32.5 %
X
Analog gilt beispielsweise h(X ≥ 6) = 1 − h(X < 6) = 1 − 0.75 = 0.25, [
75 %
[ [
25 % X
d.h. ein Viertel aller Haushalte haben mindestens 6 Personen, da 75% der Haushalte weniger als 6 Personen aufweisen. Eine weitere Regel, die Additionsregel, zeigt, wie man Anteile addieren darf. Beispiel (Fortsetzung). Edmund hat folgende zwei Anteile bestimmt: A1: Anteil der Haushalte mit 2 bis 4 Personen = h(2 ≤ X ≤ 4) = 0.475, A2: Anteil der Haushalte mit 3 bis 6 Personen = h(3 ≤ X ≤ 6) = 0.450. Wenn er nun beide Anteile addiert, so hofft er, den Anteil der Haushalte mit 2 bis 6 Personen zu erhalten. Dabei hat er aber ein ungutes Gef¨ uhl, da ihm das Ergebnis 0.475 + 0.45 = 92.5% sehr hoch vorkommt. Daher betrachtet er die Situation etwas genauer und schreibt beide Anteile A1 und A2 gem¨ aß (2.5) auf: A1: A2:
h(2 ≤ X ≤ 4) = h(2) + h(3) + h(4) = 0.475 h(3 ≤ X ≤ 6) = h(3) + h(4) + h(5) + h(6) = 0.45 = 0.925 doppelt [
] ] A2
[
A1 [
]
X
An dieser Darstellung erkennt Edmund, dass sich die zwei Anteile A1 und A2 gewissermaßen u ¨berlappen und Haushalte, die sowohl in A1 als auch in A2 vorkommen, beim Addieren doppelt ber¨ ucksichtigt werden. Dies betrifft die Haushalte mit 3 oder 4 Personen. Indem er den Anteil der doppelt gez¨ ahlten Haushalte h(3) + h(4) = 0.225 einmal subtrahiert, erh¨ alt er das korrekte Ergebnis: h(2 ≤ X ≤ 6) = h(2) + h(3) + h(4) + h(3) + h(4) + h(5) + h(6) − h(3) − h(4) = h(2) + h(3) + h(4) + h(5) + h(6) =
0.70.
16
2 Empirische Verteilungen
Alternativ formulieren wir dies nochmals mit Mengen: h(X ∈ {2, 3, 4, 5, 6}) = h(X ∈ {2, 3, 4}) + h(X ∈ {3, 4, 5, 6}) −h(X ∈ {3, 4}).
(2.13)
Als allgemeine Regel merken wir uns: Additionsregel Werden zwei Anteile addiert, bei denen Objekte der Grundgesamtheit doppelt gez¨ ahlt werden, so muss man den Anteil der doppelt gez¨ahlten Objekte abziehen: h(X ∈ A ∪ B) = h(X ∈ A) + h(X ∈ B) − h(X ∈ A ∩ B).
(2.14)
In der Gleichung (2.13) entsprechen in dieser Notation A = {2, 3, 4}, B = {3, 4, 5, 6}, A ∪ B = {2, 3, 4, 5, 6}, A ∩ B = {3, 4}. Wir kennen dieses Additions-Prinzip bei der Berechnung von Fl¨achen. Wenn z.B. zwei Papierst¨ ucke auf dem Tisch liegen, so erh¨alt man die u ¨berdeckte Gesamtfl¨ ache als Summe der beiden einzelnen Fl¨achen minus dem Bereich, den beide Papiere gemeinsam u ¨berdecken. Der gemeinsame Bereich wird in der Mengenlehre als Durchschnitt bezeichnet. Besonders einfach wird die Additionsregel, wenn keine doppelten Z¨ahlungen auftreten: h(X ∈ A ∪ B) = h(X ∈ A) + h(X ∈ B)
falls h(X ∈ A ∩ B) = 0. (2.15)
Beispiel (Fortsetzung). Die Additionsregel kann man in Verbindung mit der kumulierten Verteilung vorteilhaft einsetzen. Wir zeigen dies anhand Edmunds Frage e). Da X nur ganze Zahlen annehmen kann, gilt f¨ ur den gesuchten Anteil h(4 ≤ X ≤ 5) = h(3 < X ≤ 5).
(2.16)
h(X ≤ 5) = h(X ≤ 3) + h(3 < X ≤ 5)
(2.17)
Wegen 55 %
]]
20 % ]
75 %
]
X
folgt h(3 < X ≤ 5) = h(X ≤ 5) − h(X ≤ 3) =
H(5)
−
H(3)
= 0.75 − 0.55 = 0.20.
2.1 Univariate Verteilungen diskreter Merkmale
17
Nicht-kumulierte und kumulierte Verteilungsfunktion eines diskreten Merkmals X Beispiel “Haushalte in Kleinrinderfeld“ 1
0.5 0.3 0.2 0.1 1
1 0.8 0.6 0.4 0.2
hx 1 2 3 4 5 6 7 8 9
XPers
Abbildung 2.5. Die nicht-kumulierte Verteilungsfunktion ist nur bei solchen x-Werten ungleich Null, die in der Urliste vorkommen.
1
Hx
123456789
XPers
Abbildung 2.6. Die kumulierte Verteilungsfunktion ist eine Treppenfunktion, die nur bei den xWerten steigt, die in der Urliste vorkommen.
Verteilungen als mathematische Funktionen Die bereits besprochenen Darstellungsformen sind in erster Linie zur Pr¨asentation von statistischen Ergebnissen in der Praxis vorteilhaft. Nun gehen wir auf Darstellungsformen ein, welche in der Mathematik u ur ¨blich sind, jedoch f¨ Pr¨ asentationszwecke nicht immer geeignet sind. Die Verteilung h(x) k¨ onnen wir als mathematische Funktion auffassen, da wir gem¨ aß (2.4) jedem Merkmalswert x eindeutig ein Funktionswert h(x) zuordnen k¨ onnen. Das Gleiche gilt f¨ ur die kumulierten Verteilung, bei der man gem¨ aß (2.7) jedem Wert x eindeutig ein Funktionswert H(x) zuordnen kann. Beispiel (Fortsetzung). Es gibt keinen Haushalt mit beispielsweise genau 2.45 Personen. Folglich ist der Anteil der Haushalte mit genau 2.45 Personen gleich Null, d.h. h(2.45) = 0; ebenso gilt auch h(−3) = 0, h(222.9) = 0. Daher ist die Verteilungsfunktion h(x) fast immer Null und nur bei den tats¨ achlich vorkommenden Merkmalswerten 1,2,3,4,5,6,7,8 ungleich Null. Der sich daraus ergebende Graph der Funktion h(x) ist in Abbildung 2.5 zu sehen. Die von Null verschiedenen Punkte sind zur besseren Kenntlichkeit durch u ¨bertrieben dicke Punkte dargestellt. Ansonsten ist der Funktionsverlauf mit der x-Achse identisch. Bei der kumulierten Verteilung mag es befremdend klingen, nach einem “Anteil der Haushalt mit maximal 2.45 Personen“ zu fragen, jedoch gibt es auch hierf¨ ur eine eindeutige Antwort: H(2.45) = h(X ≤ 2.45) = h(1) + h(2) + 0 = H(2) = 0.45.
18
2 Empirische Verteilungen
Die Null soll andeuten, dass man hier Anteile erg¨anzen darf, die Null sind. Das k¨ onnte u.a. h(2.45) sein. Analog ist z.B. auch H(2.00001) = 0.45, H(2.631) = 0.45, H(2.8288801) = 0.45, . . ., H(2.9999 . . .) = 0.45. Dieses Verhalten ist auch in Abbildung 2.6 zu sehen und zeigt exemplarisch, warum der Graph von H(x) einen treppenf¨ormigen Verlauf aufweist. Bei den tats¨ achlich vorkommenden Merkmalswerten von X springt die kumulierte Verteilung nach oben, ansonsten verl¨auft die Funktion waagrecht. Die Gleichung (2.10) erkl¨ art, dass die Sprungh¨ohe der kumulierten Verteilung H(x) an einer Stelle x dem Wert h(x) entspricht. Das Beispiel verdeutlicht Eigenschaften, die generell f¨ ur kumulierte Verteilungen diskreter Merkmale X zutreffen: Eigenschaften der kumulierten Verteilung H(x) bei diskretem Merkmal X 1. H(x) ist eine Treppenfunktion. Sie zeigt einen von 0 bis 1 stufig ansteigenden Verlauf. Insbesondere gilt: H(−∞) = 0 und H(∞) = 1. 2. Die Sprungh¨ ohe an einer Stelle x entspricht dem Wert h(x). 3. H(x) ist eine rechtsseitig stetige Funktion. Daher ist in der Graphik der Funktionswert bei einer Sprungstelle jeweils oben und nicht unten abzulesen. Die Eigenschaft 2 trifft auch bei solchen Merkmalswerten x zu, f¨ ur die keine Messwerte vorliegen. Die Sprungh¨ ohe ist hier h(x) = 0, d.h. “degeneriert“ zu Null. Bemerkung: In der Stochastik wird mit dem Begriff “Verteilungsfunktion“ meist nur die kumulierte Verteilung gemeint. In dieser Lekt¨ ure werden wir versuchen, ausdr¨ ucklich den Zusatz “kumuliert“ zu verwenden, um Verwechslungen zu vermeiden. Die nicht-kumulierte Verteilung h(x) wird in der Literatur auch als “Dichte“ oder “H¨ aufigkeitsfunktion“ bezeichnet. Beispiel (Absatz). An 37% aller Tage der letzten 8 Jahre wurden u ¨ber 400 Melonen und an 90% aller Tage weniger als 500 Melonen verkauft. Wie hoch ist der Anteil der Tage, an denen 401 bis 499 Melonen verkauft wurden ? F¨ ur “X = Anzahl verkaufter Melonen pro Tag“ gilt gem¨aß dieser Angaben: und h(X < 500) = 0.90. h(X > 400) = 0.37 Ferner gilt immer: 1 = h(0 ≤ X).
2.1 Univariate Verteilungen diskreter Merkmale
19
Die L¨ osung erhalten wir aufgrund der Additionsregel (2.14), wenn wir dort A = {401, 402 . . . ∞}, B = {0, 1, 2, . . . 498, 499} setzen. Dann ist A ∩ B = {401, 402, . . . , 498, 499} und A ∪ B = {0, 1, 2, 3, . . . , ∞}.
90 %
[
] ]
?
[
37 %
[ 400
X
500
Die Formel (2.14) lautet: 1 = h(0 ≤ X) = h(X > 400) + h(X < 500) − h(401 ≤ X ≤ 499) = 0.37 + 0.90 − h(401 ≤ X ≤ 499). L¨ ost man nach dem letzten Summanden auf, erhalten wir die L¨osung: h(401 ≤ X ≤ 499) = 0.37 + 0.90 − 1 = 27%.
An 27% aller Tage wurden 401-499 Melonen verkauft.
Beispiel (Hosenladen). In einem Hosenladen kosten 23% der Hosen 30[e], 13% der Hosen 22[e], 36% der Hosen 80[e], 9% der Hosen 70[e] und 19% der Hosen 50 [e]. Andere Preise gibt es nicht. Wir skizzieren f¨ ur das Merkmal “X = Hosenpreis [e/Stk]“ die nicht-kumulierte Verteilung h(x) als Stabdiagramm und die kumulierte Verteilung H(x). 0.36
1
hx
Hx
0.64 0.55
0.23 0.19 0.13 0.09
0.36 0.13 X 22 30
50
70 80
X 22 30
50
70 80
Wir berechnen exemplarisch: a) Anteil der Hosen, die bis zu 66 aber nicht genau 30 Euro kosten: h(X ≤ 66 und X = 30) = h(22) + h(50) = 0.32.
(2.18)
b) Anteil der Hosen, die keine 50 Euro kosten: h(X = 50) = 1 − h(X = 50) = 1 − h(50) = 0.81.
(2.19)
c) Anteil der Hosen, die nicht “unter 72 und u ¨ber 25 Euro“ kosten: h(nicht(X < 72 und 25 < X)) = 1 − h(X < 72 und 25 < X) = 1 − h(30) − h(50) − h(70) = 0.49.
20
2 Empirische Verteilungen
Die Anf¨ uhrungsstriche dienen als logische Klammerung. Gesprochen klingt der Satz allerdings zweideutig, da man die Anf¨ uhrungsstriche bzw. die Klammerung nicht h¨ ort! d) Anteil der Hosen, die “nicht unter 72“ und u ¨ber 25 Euro kosten: h(nicht(X < 72) und 25 < X) = h(72 ≤ X und 25 < X) = h(72 ≤ X) = h(80) = 0.36. Dies ist offenbar ein anderes Ergebnis als bei c), obwohl der gesprochene Text genauso klingt! e) Wie viel Prozent des Gesamtwertes aller Hosen fallen den 70-EuroHosen zu? Die L¨ osung ist nicht h(X = 70) = 9%! Das t¨ uckische an dieser Frage ist, dass sich der gesuchte Anteil auf eine andere Grundgesamtheit bezieht, deren Objekte nicht wie bisher Hosen sind. Nun liegt eine Grundgesamtheit vor, die dem Gesamtwert aller Hosen entsprechen soll. Diesen Wert k¨onnen wir uns mit einem Sack mit “Ein-Eurom¨ unzen“ als Objekten vorstellen. Die Objekte bzw. M¨ unzen besitzen das Merkmal “Y = Hosenpreistyp“, d.h. jede einzelne M¨ unze ist einer Hose und somit einem Preis zugeordnet. Angenommen, es gibt N1 = 100 Hosen in der ersten Grundgesamtunzen in der zweiten heit, dann ergibt die Anzahl N2 der Ein-Eurom¨ Grundgesamtheit den Gesamtwert aller Hosen: (Preis xi ) · (Anzahl Hosen mit Preis xi ) N2 = i
=
xi · (h(X = xi ) · N1 )
i
= 22 · 13 + 30 · 23 + 50 · 19 + 70 · 9 + 80 · 36 = 5436[e]. Von diesen 5436 M¨ unzen gibt es 70·h(X = 70)·N1 = 70·0.09·100 = 630 M¨ unzen, die den Merkmalswert Y=70 tragen, d.h. zu Hosen geh¨oren, die einen Preis von 70 [e] aufweisen. Daher gilt f¨ ur den gesuchten Anteil, der sich nicht auf “Hosen“, sondern auf deren Gesamtwert bezieht: h(Y = 70) =
70 · h(X = 70) · N1 630 = = 11.59%. 5436 i xi · h(X = xi ) · N1
Dass wir N1 = 100 Hosen gew¨ ahlt haben, ist unerheblich, da sich N1 aus dem Quotienten k¨ urzen l¨ asst. Bei strenger, aber letztlich korrekter Betrachtung ist hier die Einf¨ uhrung der neuen Variablen Y notwendig gewesen, da sich die Merkmale X und Y auf verschiedene Merkmalstr¨ager bzw. Objekte beziehen.
2.2 Univariate Verteilungen stetiger Merkmale
21
Beispiel (Getr¨ ankemarkt). Im Getr¨ ankemarkt von Kleinrinderfeld werden Wein, Bier, Mineralwasser und Limonade verkauft. Der Bieranteil betr¨agt 20%. Wein wird zu 80% weniger verkauft als Bier. Die Anteile von Alkoholika zu Mineralwasser verhalten sich wie 7 : 4. Wie hoch ist der Limonadenanteil und um wieviel Prozent liegt dieser u ¨ber dem Bieranteil? Wie sieht das Tortendiagramm zur Verteilung der Getr¨ankearten aus? Wir k¨ onnen die gegebenen Informationen auch k¨ urzer und u ¨bersichtlicher notieren, wobei f¨ ur das Merkmal “X = Getr¨ankeart“ die Werte w,b,m,l der obigen Produkte vorgesehen sind. h(X = w) = (1 − 0.80) · h(X = b),
h(X = b) = 0.20,
7 h(X = b) + h(X = w) = . h(X = m) 4
(2.20) (2.21)
Zudem m¨ ussen die Anteile aller Produkte in der Summe 1 ergeben. h(X = b) + h(X = w) + h(X = m) + h(X = l) = 1.
(2.22)
Diese vier Gleichungen (2.20)-(2.22) kann man nach h(X = b), h(X = w), h(X = m), h(X = l) au߬ osen. Das Ergebnis lautet: h(X = b) = 0.20, h(X = w) = 0.04, h(X = l) = 0.62286.
h(X = m) = 0.13714,
Bier 20% Limonade 62% Wein 4% Mineralwasser 14%
Der Limonadenanteil liegt um 211.43% u ¨ber dem Bieranteil. Zwar haben wir nun das Ergebnis erfolgreich ermittelt, aber es ist im Moment noch wertlos und nicht interpretierbar, denn die Angaben sind unvollst¨ andig. Das wichtigste, n¨ amlich die Grundgesamtheit ist nicht definiert. Beziehen sich die Anteile beispielsweise auf die Gesamtmenge in Litern, auf die Anzahl der Flaschen oder auf den Umsatz? Ohne Zusatzinfos bleibt die Antwort reine Spekulation.
2.2 Univariate Verteilungen stetiger Merkmale Alle bisherigen Ergebnisse wie z.B. die Regel vom Gegenteil und die Additionsregel sind auch bei stetigen Merkmalen g¨ ultig. Jedoch ergeben sich bei der Darstellung der Verteilung einige Besonderheiten.
22
2 Empirische Verteilungen
Verteilung eines stetigen Merkmals X ohne Klassifizierung Beispiel “Bedienzeiten am Postschalter“ 1
Hx
0.8 0.05
0.6 0.4 5
7
9
x [Min]
0.2
{
3
{
1
Hier liegen die Werte dicht,
hier licht.
Abbildung 2.7. Nicht-kumulierte Verteilung h(x) als Stabdiagramm. Die relativen H¨ aufigkeiten sind alle gleich hoch.
x 2
4
6
8
10
Abbildung 2.8. Kumulierte Verteilung H(x) als Treppenfunktion. Jeder Stufe steigt mit 1/N an.
Beispiel (Bedienzeiten am Postschalter). Postdirektor Otto hat im Rahmen einer Kundenzufriedenheitsanalyse bei N = 20 Kunden die Bedienzeiten X [Min] gemessen: 2.3001, 1.95, 0.11, 5.7006, 5.28, 2.91, 0.892, 4.2, 0.3, 0.23, 5.0902, 8.90, 3.47, 1.6, 0.4, 8.2, 0.9, 4.35, 3.21, 1.1.
Das Merkmal X ist ein stetiges Merkmal, das mit entsprechender M¨ uhe “beliebig“ genau messbar ist. Insofern ist es nicht u ¨berraschend, dass keine zwei Kunden exakt gleich lange bedient werden. Jeder Messwert xi besitzt daher eine relative H¨ aufigkeit von h(xi ) = 1/20 = 0.05. Die Darstellung von h(x) als Stabdiagramm ist in Abbildung 2.7 zu sehen und zeigt nur gleich hohe Anteile. Die Graphik scheint auf den ersten Blick wenig informativ zu sein und ist sicherlich f¨ ur Pr¨asentationszwecke ungeeignet. Jedoch k¨ onnen wir bei genauerem Hinsehen auch erkennen, dass bei den kurzen Bedienzeiten die St¨ abe dichter nebeneinander stehen als bei den langen Zeiten. Dort h¨ aufen sich die Werte, d.h. es gibt relativ viele Objekte bzw. Kunden mit kurzen Bedienzeiten. Berechnen wir wie gewohnt die kumulierte Verteilung H(x) aufgrund der Urliste, erhalten wir, wenn jeder Merkmalswert nur einmal vorkommt, eine Treppenfunktion mit N Stufen, die in Abbildung 2.8 zu sehen ist. Man erkennt, dass H(x) bei den kurzen Bedienzeiten einen steileren Verlauf aufweist, als bei den l¨ angeren Bedienzeiten. Das Beispiel zeigt eine f¨ ur stetige Variablen X typische Situation auf. W¨ urde man die Merkmalswerte nur genau genug messen, so d¨ urften zwei auf alle Nachkommastellen exakt u ¨bereinstimmende Werte kaum oder zumindest selten vorzufinden sein. Folglich besitzt bei stetigen Variablen jeder Merkmalswert x in der Regel die relative H¨ aufigkeit
2.3 Univariate Verteilungen klassifizierter Merkmale
h(x) =
23
1 . N
(2.23)
S¨ aulen- oder Stabdiagramm weisen fast u ¨berall nur gleich hohe S¨aulen auf und sind auf den ersten Blick nicht sehr aussagekr¨aftig. Der Anspruch, ein stetiges Merkmal X mit “beliebig vielen“ Nachkommastellen zu messen, ist f¨ ur praktische Problemstellungen in der Regel nicht von Interesse. Bei stetigen Variablen gen¨ ugt es oft schon, wenn die Merkmalswerte nur klassifiziert erfasst werden. Dies besprechen wir im folgenden Abschnitt.
2.3 Univariate Verteilungen klassifizierter Merkmale Es gibt Anwendungen, bei denen zu einer Variablen X detaillierte, feine Messungen nicht erw¨ unscht sind. Stattdessen gen¨ ugt es, die Werte m verschiedenen Klassen K1 , K2 , . . . , Km zuzuteilen. Dabei sind unterschiedliche Klassenl¨ angen erlaubt. Eine urspr¨ unglich stetige Variable, wie etwa L¨ange, Zeit, Volumen oder Gewicht, wird so zu einer diskreten Variablen, die nur noch die m verschiedenen, diskreten “Werte“ Ki annehmen kann. Eine Klassenzuordnung der Merkmalswerte kann auch bei einem urspr¨ unglich diskreten Merkmal X sinnvoll sein. Beispielsweise mag es ausreichen, das diskrete Merkmal “Fahrgastaufkommen pro Zug“ in Zehnerschritten, oder das diskrete Merkmal “Anzahl verkaufter Autos in Deutschland“ in Tausenderschritten oder anderen, m¨ oglicherweise nicht ¨ aquidistanten Aufteilungen zuzuordnen. Den Preis, den wir mit einer Diskretisierung bzw. Klassenbildung zahlen, ist eine Verf¨ alschung, da die Verteilung der Werte innerhalb einer Klasse nicht mehr ber¨ ucksichtigt wird. Hier ist das Geschick des Anwenders gefragt, die L¨ angen der Klassen und deren Anzahl m vern¨ unftig zu w¨ahlen. F¨ ur die Anteile der Klassen schreiben wir: aufigkeit der Klasse Ki h(Ki ) = h(X ∈ Ki ) = relative H¨ =
(2.24)
Anzahl der Objekte in der Klasse Ki . N
Wir greifen nochmals das Beispiel “Bedienzeiten am Postschalter“ auf: Beispiel (Fortsetzung). F¨ ur Postdirektor Otto ist es unwichtig, die Zeiten sekundengenau oder noch genauer zu kennen. Seiner Meinung nach sind nur 4 Zeitkategorien bzw. Klassen von Interesse: 0-1, 1-2, 2-5, 5-9 Minuten. Wir ordnen die gemessenen Bedienzeiten diesen Klassen zu, die wir mit K1 , K2 , K3 , K4 bezeichnen und berechnen die zugeh¨origen Anteile. Bedienzeit X [Min] h(Ki ) = Anteil d. Klasse Ki
0≤x≤1 1<x≤2 2<x≤5 5<x≤9 0.30
0.15
0.30
0.25
24
2 Empirische Verteilungen
Hier ist nicht mehr erkennbar, wie sich innerhalb einer Klasse die Zeiten verteilen. Die Visualisierung der Verteilung einer klassifizierten Variablen X, d.h. die Darstellung der Anteile h(Ki ) mit den u ¨blichen S¨aulen- oder Stabdiagrammen kann unvorteilhaft sein.
relative Häufigkeit
Beispiel (Fortsetzung). Zun¨ achst zeichnen wir die relativen H¨aufigkeiten der Klassen als S¨ aulendiagramm, bei dem jede S¨aule gleich breit ist: 0.30 0.25 0.15
1
2
5
x [Min]
9
0.30 0.25 0.15
1
2
5
9
x[Min]
relative Häufigkeit
relative Häufigkeit
Diese Darstellung besitzt den Nachteil, dass die Bedienzeiten auf der xAchse nicht linear, sondern verzerrt dargestellt sind. Zudem wird der Eindruck vermittelt, als w¨ urden sich lange Bedienzeiten h¨aufen, wohingegen die Werte in Abbildung 2.7 eher bei den kurzen Zeiten verdichtet auftreten. Bei einer Darstellung ohne verzerrte x-Achse k¨onnen wir die S¨aulen entweder unterschiedlich breit oder als St¨ abe mit unterschiedlichen Abst¨anden zeichnen: 0.30 0.25 0.15
1
2
5
9
x [Min]
Auch diese Darstellungen suggerieren einen irref¨ uhrenden, anderen Eindruck als Abbildung 2.7. Im linken Bild nimmt unser Auge in erster Linie die Fl¨ achen, und nicht die H¨ ohen der Rechtecke wahr. Beispielsweise sind die Anteile und die S¨ aulen der Zeitklassen “0 bis 1 Minute“ und “2 bis 5 Minuten“ gleich hoch, aber die rechte dieser beiden S¨aulen beeindruckt uns viel mehr. Insofern sind diese S¨ aulen- bzw. Stabdiagramme zwar korrekt, jedoch f¨ ur praktische Zwecke ungeeignet. Das zuletzt beschriebenen Ph¨ anomen zeigt, dass es sinnvoll ist, wenn wir bei stetigen bzw. klassifizierten Merkmalen die relativen H¨aufigkeiten nicht durch die H¨ ohe von S¨ aulen, sondern durch deren Fl¨achen darstellen. Ein entsprechendes Diagramm nennt man Histogramm.
2.3 Univariate Verteilungen klassifizierter Merkmale
25
Darstellungsprinzip f¨ ur Histogramme Fl¨ ache = relative H¨ aufigkeit
(2.25)
Da man bei einem Histogramm u ¨blicherweise nur rechteckige Fl¨achen zeichnet, ¨ kann man diese aufgrund einfacher geometrischer Uberlegungen relativ leicht konstruieren. Die H¨ ohe des Rechtecks u ¨ber ¨ber einer Klasse Ki gewinnen wir u ache = Klassenl¨ ange · H¨ohe“: den Ansatz “h(Ki ) = Fl¨ H¨ ohe des Rechtecks u ¨ber der Klasse Ki =
h(Ki ) . L¨ange der Klasse Ki
(2.26)
Den oberen Rand dieser Rechtecke bezeichnet man als Dichte. Man beachte, dass im Gegensatz zu relativen H¨ aufigkeiten eine Dichte bzw. die Rechtecksh¨ ohe auch Werte u ¨ber 1 annehmen kann, sofern in (2.26) der Z¨ahler gr¨oßer als der Nenner ist! Beispiel (Fortsetzung). F¨ ur die H¨ ohen der Rechtecke erhalten wir: Bedienzeit X h(Ki ) H¨ ohe des Rechtecks u ¨ ber der Klasse Ki
0≤x≤1
1<x≤2
2<x≤5
5<x≤9
0.30
0.15
0.30
0.25
0.30
0.15
0.10
0.0625
Die Abbildung 2.9 zeigt die entsprechenden Rechtecke und die sich daraus ergebenden Fl¨ achen. Im Gegensatz zu den Abbildungen auf Seite 24 erkennt man bereits bei fl¨ uchtigem Hinsehen, dass im “linken Bereich“, also bei den kurzen Zeiten eine H¨ aufung bzw. Verdichtung der Werte vorliegt. Dieser Eindruck entspricht dem tats¨ achlichen Sachverhalt und wurde von uns, allerdings m¨ uhsamer, bereits in Abbildung 2.7 wahrgenommen. Man kann die Dichte als mathematische Funktion definieren, indem wir zu jedem x-Wert in eindeutiger Weise die jeweilige H¨ohe des dar¨ uberliegenden Rechtecks zuordnen. Dichtefunktion d(x) = H¨ ohe des Rechtecks an der Stelle x
(2.27)
Der Graph von d(x) bzw. die oberen R¨ ander der Rechtecke zeigen insgesamt einen stufigen Verlauf auf und vermitteln so den vereinfachenden Eindruck, dass sich die Werte innerhalb einer Klasse gleichm¨aßig verteilen. In der Wahrscheinlichkeitstheorie werden wir diese Vereinfachung aufheben und Dichten zulassen, die einen kurvigen, zusammenh¨ angenden Verlauf aufweisen k¨onnen.
26
2 Empirische Verteilungen
Histogramm bzw. Darstellung der Verteilung durch Dichte Beispiel “Bedienzeiten am Postschalter“ 0.3
Fläche = relative Häufigkeit oberer Rand = Dichte 0.15 0.10 0.0625
0.30 0.15 1
0.30
2
0.25 5
9
x [Min]
Abbildung 2.9. Man erkennt, dass bei den kurzen Zeiten eine H¨ aufung bzw. Verdichtung der Werte vorliegt. Die Beschriftung der y-Achse sollte man in der Praxis unterlassen, da sie den Betrachter verf¨ uhren k¨ onnte, dort die relativen H¨ aufigkeiten abzulesen.
Die Gesamtfl¨ ache unter der Dichtefunktion bzw. die Fl¨ache aller Rechtecke in einem Histogramm ergibt in der Summe immer den Wert 1. Beispiel (Fortsetzung). Die Wertetabelle der Dichtefunktion d(x) lautet: x
0<x
0≤x≤1
1<x≤2
2<x≤5
5<x≤9
9<x
d(x)
0
0.30
0.15
0.10
0.0625
0
Die Abbildung 2.10 zeigt den entsprechenden Graphen der Dichtefunktion ¨ d(x). Diese Darstellung dient eher mathematischen Uberlegungen, wohingegen die Abbildung 2.9 f¨ ur Pr¨ asentationen in der Praxis eher geeignet sein d¨ urfte, da hier die Fl¨ achen besser sichtbar sind. Wollte man in Abbildung 2.10 die senkrechte Achse beschriften, so w¨are gem¨ aß (2.26) “H¨ aufigkeit pro Minute“ korrekt. In Bereichen, in denen relativ viele Messwerte pro Minute anzutreffen sind, ergeben sich hohe Dichtewerte. Insofern k¨ onnte man die Dichte auch als eine Art “H¨aufigkeitsrate“ interpretieren. Man sollte bei kleinen Grundgesamtheiten bzw. kleinem N nicht zu viele Klassen vorsehen, da sonst die Fallzahlen pro Klasse zu gering ausfallen. Unter Beachtung dieser Empfehlung sind dann die Resultate bzw. der Verlauf der Dichten bei verschiedenen Klasseneinteilungen in der Regel ¨ahnlich. Insofern ist das Konzept der H¨ aufigkeitsdichte um so “robuster“ bez¨ uglich der im Grunde “willk¨ urlichen“ Klasseneinteilung, je gr¨oßer die Grundgesamtheit N ist.
2.3 Univariate Verteilungen klassifizierter Merkmale
27
Verteilung der klassifizierten Bedienzeiten X 1
0.3
H(x)
0.75
d(x)
0.15 0.10 0.0625
1
2
0.45 0.30
5
9
X [Min]
1 2
Abbildung 2.10. Der Graph der Dichtefunktion d(x) verl¨ auft stufig.
5
9
X [Min]
Abbildung 2.11. Der Graph der kumulierten Verteilung H(x) ist ein Polygonzug.
Kumulierte Verteilung H(x) einer klassifizierten Variablen X Wir wollen von dem Fall ausgehen, dass uns keine Urliste, sondern nur ein Histogramm oder die Dichtefunktion d(x) zur Verf¨ ugung stehen. Diese Situation werden wir sp¨ ater typischer Weise in der Wahrscheinlichkeitsrechnung antreffen. Da in Histogrammen Fl¨ achen mit H¨ aufigkeiten u ¨bereinstimmen, ergibt sich f¨ ur die kumulierte Verteilung: H(x) = Fl¨ ache unter der Dichte von ganz links bis zur Stelle x.
(2.28)
Beispiel (Fortsetzung). Wir berechnen exemplarisch anhand der Abbildungen 2.9 oder 2.10 die kumulierte Verteilung H(x) an der Stelle x = 5.9: H(5.9) = Anteil der Kunden mit einer Bedienzeit von maximal 5.9 Minuten, =
(Fl¨ ache von 0 bis 1)
+
(Fl¨ache von 1 bis 2)
+ (Fl¨ ache von 2 bis 5)
+
(Fl¨ache von 5 bis 5.9)
0.3
=
H(5.9) = h(X b 5.9)
0.15 0.10 0.0625 1
2
5
9
X [Min]
5.9
Die Fl¨ achen lassen sich gem¨ aß “x-Achsenabschnitt mal H¨ohe bzw. Dichte“ berechnen. Man erh¨ alt dann zusammen mit (2.27) und (2.26):
28
2 Empirische Verteilungen
H(5.9) = (1 − 0) · d1 + (2 − 1) · d2 + (5 − 2) · d3 + (5.9 − 5) · d4 h(K2 ) h(K3 ) h(K1 ) + (2 − 1) · + (5 − 2) · 1−0 2−1 5−2 h(K4 ) + (5.9 − 5) · 9−5
= (1 − 0) ·
= h(K1 ) + h(K2 ) + h(K3 ) +
5.9 − 5 h(K4 ) 9−5
(2.29)
= 0.80625. Exemplarisch berechnen wir auf analoge Weise z.B. H(4.9) = 0.74,
H(0.70) = 0.21,
H(−2.4) = 0,
H(33.1) = 1.
Die Darstellung (2.29) l¨ asst sich verallgemeinern. Die Klasse, in der x liegt, nennen wir auch Einfallsklasse und notieren sie mit Ks . Berechnung der kumulierten Verteilung
H(x) =
(Klassenl¨ ange Ki ) · di
volle Klasse Ki links von x
oder
=
volle Klasse Ki links von x
h(Ki ) +
x−a h(Ks ), b−a
+
(x − a) · ds
(2.30)
(2.31)
wobei x in Ks liegt und “a = linker Rand von Ks“ und “b = rechter Rand von Ks“ sind. Abbildung 2.11 zeigt den Graphen von H(x) im Beispiel. Je weiter die Stelle x nach rechts wandert, um so gr¨oßer wird die Fl¨ache. Dieser Fl¨ achenanstieg erfolgt gleichm¨ aßig, d.h. es gibt keine Spr¨ unge. Wohl aber w¨ achst die Fl¨ ache in Bereichen mit hohen Rechtecken schneller an. Daher ist der Graph der kumulierten Verteilung keine Treppenfunktion, sondern ein steigender, stetiger Polygonzug, dessen Steilheit von der H¨ohe der Rechtecke bzw. Dichte abh¨ angt. Diese Eigenschaften lassen sich auch mit einer “Kurvendiskussion“ von H(x) anhand der Formeln (2.30) oder (2.31) pr¨azisieren.
2.3 Univariate Verteilungen klassifizierter Merkmale
29
Eigenschaften der kumulierten Verteilung H(x) bei klassifiziertem Merkmal X 1. H(x) ist eine st¨ uckweise lineare Funktion bzw. ein Polygonzug. Er steigt von 0 bis 1 an. Insbesondere gilt H(−∞) = 0 und H(∞) = 1. 2. Die Steigung bzw. Ableitung von H(x) an einer Stelle x entspricht der Dichte d(x), d.h (2.32) H(x) = d(x), sofern x nicht an einer Knickstelle bzw. am Klassenrand liegt. 3. H(x) ist eine stetige Funktion. Beispiel (Fortsetzung). Postdirektor Otto m¨ochte exemplarisch einige Anteile mit Hilfe von Fl¨ achen und H(x) berechnen: h(X ≤ 1.6) = Anteil der Kunden, die eine Bedienzeit von maximal 1.6 Minuten beanspruchen, 0.3
=
H(1.6) = h(X b 1.6)
0.15 0.10 0.0625 1
2
5
9
X [Min]
1.6
= (1 − 0) · 0.3 + (1.6 − 1) · 0.15 = 0.39. h(1.6 ≤ X ≤ 5.9) = Anteil der Kunden, die eine Bedienzeit von 1.6 bis 5.9 Minuten beanspruchen, 0.3
h(1.6 b X b 5.9)
=
0.15 0.10 0.0625 1
2
1.6
5
9
X [Min]
5.9
= (2 − 1.6) · 0.15 + (5 − 2) · 0.10 + (5.9 − 5) · 0.0625 = 0.41625. Addiert man diese beiden Anteile erh¨ alt man aufgrund der Additionsregel den Anteil der Kunden, die eine Bedienzeit von maximal 5.9 Minuten beanspruchen: h(X ≤ 1.6) + h(1.6 ≤ X ≤ 5.9) = h(X ≤ 5.9).
30
2 Empirische Verteilungen
Bildlich entspricht dies: +
= 1.6
1.6
5.9
5.9
Stellen wir diese Gleichung um, so k¨ onnen wir den zweiten Anteil mit Hilfe der kumulierten Verteilung H(x) ausdr¨ ucken: h(1.6 ≤ X ≤ 5.9) = h(X ≤ 5.9) − h(X ≤ 1.6) = H(5.9) − H(1.6).
(2.33)
Bildlich entspricht dies: = 1.6
5.9
5.9
1.6
Gleichung (2.33) zeigt, wie man bei Kenntnis der kumulierten Verteilung auf bequeme Weise Anteile bestimmen kann, bei denen das Merkmal X zwischen zwei Werten a und b liegt. Die Verallgemeinerung lautet: F¨ ur eine klassifizierte Variable X gilt: h(a ≤ X ≤ b) = H(b) − H(a).
(2.34)
Mit dieser Formel kann man in gewisser Weise schlampig umgehen. Ob man ≤ oder stellenweise < schreibt, ist im Resultat gleich. Dies erkl¨art sich dadurch, dass es bei der Berechnung von Fl¨ achen egal ist, ob man den Rand ber¨ ucksichtigt. Beispiel (Fortsetzung). Postdirektor Otto m¨ochte noch wissen, welche Bedienzeit von zwei Drittel der Kunden nicht u ¨berschritten wird. Wenn wir die gesuchte Zeit mit x bezeichnen, so l¨ asst sich der angesprochene Anteil mit H(x) = h(X ≤ x) = 0.6667 (2.35) darstellen. Ein Drittel der Kunden ben¨ otigt l¨anger als x, und f¨ ur zwei Drittel der Kunden entspricht x der Bedienzeit, die sie maximal beanspruchen. Die L¨ osung erhalten wir, indem wir (2.35) nach x aufl¨osen. Dazu benutzen wir (2.31), wobei wir die Einfallsklasse durch grobes Absch¨atzen ermitteln k¨ onnen. Im Bild 2.9 erkennt man, dass 0.30 + 0.15 + 0.30 = 75% der Kunden maximal 5 Minuten und 0.30 + 0.15 = 45% der Kunden maximal 2 Minuten ben¨ otigen. Daher ist die Klasse “2 bis 5 Minuten“ die Einfallsklasse Ks . Die Beziehung (2.35) lautet mit Formel (2.31):
2.3 Univariate Verteilungen klassifizierter Merkmale
31
Veranschaulichung des 66.7%-Quantils Beispiel “Bedienzeiten am Postschalter“ Häufigkeitsdichte
Kumulierte Verteilung H(x) 1
0.3
H(4.1667) = h(X b 4.1667) = 0.6667
0.6667
0.15 0.10 0.0625
1
2
5
9
X [Min]
1 2
4.1667
5
9
X [Min]
4.1667
Abbildung 2.12. Das 66.67%-Quantil betr¨ agt 4.1667. Es besagt, dass zwei Drittel der Kunden maximal 4.1667 [Min/Kunde] Bedienzeit ben¨ otigen.
0.6667 = H(x)
⇐⇒
(2.36)
x−2 · 0.30. 0.6667 = 0.30 + 0.15 + 5−2 L¨ osen wir nach x auf, erhalten wir das gew¨ unschte Ergebnis: x = 4.1667[Min]. Dieses Resultat ist in Abbildung 2.12 illustriert. Der Postdirektor h¨atte dort die L¨ osung auch mit einem Lineal anhand der kumulierten Verteilung finden k¨ onnen, indem er an der y-Achse bei zwei Drittel, also 0.6667 waagrecht nach rechts und beim Schnittpunkt mit dem Graphen von H(x) senkrecht nach unten geht. Mathematisch gesehen ist die L¨osung die Umkehrfunktion von H(x) an der Stelle 0.6667. Da dieser Frage-Typ h¨ aufig von Interesse ist, hat man in der Statistik f¨ ur die L¨ osung einen eigenen Begriff eingef¨ uhrt, n¨amlich den des Quantils. Hier haben wir das sogenannte 66.7%-Quantil der Bedienzeiten bestimmt. Man sollte beim Gebrauch klassifizierter Variablen beachten, dass sie im Vergleich zur direkten Auswertung einer Urliste zu anderen, streng genommen falschen Resultaten f¨ uhren k¨ onnen. Dies beruht auf dem Informationsverlust, den wir durch die Klassifizierung in Kauf genommen haben. Bei einer vern¨ unftigen Klasseneinteilung d¨ urften jedoch die Unterschiede tolerabel sein.
32
2 Empirische Verteilungen
2.4 Bivariate Verteilungen diskreter Merkmale Bivariate Verteilungen treten auf, wenn an einem Objekt jeweils zwei Merkmale X, Y gemessen werden. Die Urlisten haben daher zwei Spalten. Wir u ¨bernehmen die bisherigen Notationen und passen sie entsprechend an. Absolute H¨ aufigkeit A(X ∈ A, Y ∈ B) = Anzahl aller Objekte, bei denen das Merkmal X einen Wert aus A und gleichzeitig das Merkmal Y einen Wert aus B annimmt.
(2.37)
Relative H¨ aufigkeit h(X ∈ A, Y ∈ B) = Anteil aller Objekte, bei denen das Merkmal X einen Wert aus A und gleichzeitig das Merkmal Y einen Wert aus B annimmt =
A(X ∈ A, Y ∈ B) . N
(2.38)
Das Komma ist sprachlich als “und“ zu verstehen. Analog gebrauchen wir Notationen wie z.B. h(X ≤ x, Y ≤ y), . . . , h(X = x, Y = y). Auch hier gelten die “Additionsregel“ und die “Regel vom Gegenteil“, die sich analog zu (2.12) und (2.14) ergeben. Ferner folgt aus der Kommutativit¨at von “und“, dass man den linken und rechten Teil vom Komma vertauschen darf: h(X ∈ A, Y ∈ B) = h(Y ∈ B, X ∈ A).
(2.39)
Als gemeinsame, bivariate Verteilung der Variablen X und Y bezeichnen wir die “punktuelle“ relative H¨ aufigkeit, die sich auf das Vorkommen eines ein¨ zelnen Merkmalswerte-Paares (x, y) bzw. Punktes beschr¨ankt. Ahnlich wie in (2.4) definieren wir: Gemeinsame, bivariate Verteilung von X und Y h(x, y) = h(X = x, Y = y)
(2.40)
= relative H¨ aufigkeit der Objekte, bei denen das Merkmal X genau den Wert x und gleichzeitig das Merkmal Y genau den Wert y annimmt. Allgemeine Anteile h(X ∈ A, Y ∈ B) kann man berechnen, indem nur diejenigen “punktuellen“ Anteile addiert werden, bei denen die Werte der Variablen X in A und der Variablen Y in B liegen:
2.4 Bivariate Verteilungen diskreter Merkmale
h(X ∈ A, Y ∈ B) =
h(x, y).
33
(2.41)
x∈A und y∈B
Beispiel (Fenster und T¨ uren). Architekt Siegbert hat bei den letzten N = 20 H¨ ausern, die er in Kleinrinderfeld gebaut hat, die Merkmale “X = Anzahl Fenster“ und “Y = Anzahl T¨ uren“ ermittelt. Die Urliste besteht aus 20 Wertepaaren (x, y), die Siegbert waagrecht notiert, um Platz zu sparen: (7; 3), (6; 2), (7; 3), (5; 1), (7; 2), (7; 2), (8; 3), (5; 2), (7; 3), (8; 2), (7; 2), (7; 3), (5; 1), (7; 1), (8; 3), (5; 2), (8; 3), (7; 2), (7; 2), (5; 3).
Exemplarisch ermittelt Siegbert die folgenden relativen H¨aufigkeiten, indem er die jeweils zutreffenden Wertepaare innerhalb der Urliste z¨ahlt:
h(5 < X, Y ≤ 2) = Anteil der H¨ auser, die mehr als 5 Fenster und maximal 2 T¨ uren aufweisen, 8 = 0.40, (2.42) = 20 h(X ∈ {2, 4, 6, . . .},
Y ∈ {1, 3, 5, . . .}) = = Anteil der H¨ auser mit gerader Anzahl Fenster und ungerader Anzahl T¨ uren, 3 = = 0.15. (2.43) 20
Zur tabellarischen Darstellung von bivariaten, diskreten Verteilungen h(x, y) gebraucht man sogenannte Kontingenztafeln. Eine Kontingenztafel ¨ahnelt im Aufbau einem Schachbrett. Die Position der Eintr¨age h(x, y) richtet sich nach den Merkmalswerten, die f¨ ur die Variable X am linken Rand und f¨ ur die Variable Y am oberen Rand abgetragen sind. Nach dem gleichen Schema kann man auch f¨ ur die absoluten H¨ aufigkeiten A(x, y) eine Kontingenztafel aufbauen. Beispiel (Fortsetzung). Die Kontingenztafeln sind in Tabelle 2.1 zu sehen. Wir k¨ onnen die obigen Anteile (2.42), (2.43) auch nur mit Hilfe der Kontingenztafel zu h(x, y) berechnen, ohne direkt auf die Urliste zur¨ uckgreifen zu m¨ ussen. Dabei benutzen wir die Formel (2.41): h(5 < X, Y ≤ 2) = h(6 ≤ X ≤ 8, 1 ≤ Y ≤ 2) = h(6, 1) + h(6, 2) + h(7, 1) + h(7, 2) + h(8, 1) + h(8, 2) = 0 + 0.05 + 0.05 + 0.25 + 0 + 0.05 = 0.40,
34
2 Empirische Verteilungen
Kontingenztafeln Beispiel “Fenster und T¨ uren“ Bivariate Verteilung h(x, y)
Absolute Anz. A(X = x, Y = y) Y
1
2
3
Summe
Y
X
1
2
3
Summe
X
5
2
2
1
5
5
6
0
1
0
1
6
7
1
5
4
10
7
8
0
1
3
4
8
Summe
3
9
8
20
0.10 0.10 0.05 0
0.05
0
0.05 0.25 0.20 0
0.25 0.05 0.50
0.05 0.15
0.20
Summe 0.15 0.45 0.40
1
¨ Tabelle 2.1. Hier ist “X = Anzahl Fenster“ und “Y = Anzahl T¨ uren“. Ublicherweise gibt man in einer Kontingenztafel auch noch die Zeilen- und Spaltensummen an. Sie entsprechen der Randverteilung von X bzw. Y .
h(X ∈ {2, 4, 6, . . .}, Y ∈ {1, 3, 5, . . .}) = = h(2, 1) + h(2, 3) + h(4, 1) + . . . + h(8, 3) = 0 + 0 + . . . + 0.15 = 0.15. Randverteilung Um die univariate Verteilung f¨ ur X zu bestimmen, blendet man in der Urliste die nicht ben¨ otigte, zu Y geh¨ orende Spalte, einfach aus. Die Anzahl der Zeilen der Urliste, und somit die Grundgesamtheit, bleiben jedoch hierbei unver¨ andert, d.h. die gesamte Population besteht nach wie vor aus denselben N Objekten. Beispiel (Fortsetzung). Siegbert bestimmt durch Abz¨ahlen innerhalb der Urliste die univariate Verteilung von X X = Anz. Fenster
0
...
5
6
7
8
9
h(x) = Vert. von X
0
...
0.25
0.05
0.50
0.20
0
und die univariate Verteilung von Y :
2.4 Bivariate Verteilungen diskreter Merkmale Y = Anz. T¨ uren
0
1
2
3
4
...
h(y) = Vert. von Y
0
0.15
0.45
0.40
0
...
35
Statt die Urliste immer wieder neu durchzuz¨ ahlen, kann man eine univariate Verteilung auch aus der gemeinsamen, bivariaten Verteilung ableiten, indem man die Additionsregel oder Formel (2.41) anwendet. Beispiel (Fortsetzung). Wir m¨ ochten nur mit Hilfe der Kontingenztafel bzw. der Verteilung h(x, y) den Anteil der H¨auser mit genau 7 Fenstern h(X = 7) bestimmen: h(X = 7) = Anteil der H¨ auser mit 7 Fenstern und beliebiger Anzahl an T¨ uren = h(X = 7, −∞ < Y < ∞) = h(7, 1) + h(7, 2) + h(7, 3) = 0.05 + 0.25 + 0.20 = 0.50. Auf die gleiche Weise berechnen wir exemplarisch den Anteil der H¨auser mit genau 3 T¨ uren: h(Y = 3) = Anteil der H¨ auser mit beliebiger Anzahl an Fenstern und genau 3 T¨ uren, = h(−∞ < X < ∞, Y = 3) = h(5, 3) + h(6, 3) + h(7, 3) + h(8, 3) = 0.05 + 0 + 0.20 + 0.15 = 0.40. Gewinnt man aus einer bivariten Verteilung die univariate Verteilung, so nennt man die univariate Verteilung auch “Randverteilung“. Der Begriff r¨ uhrt wohl daher, dass man in einer Kontingenztafel die univariate Verteilung von X erh¨ alt, indem man die Eintr¨ age zeilenweise summiert und die Ergebnisse jeweils am Rand notiert. Analoges gilt f¨ ur die Variable Y . Hier entspricht die Randverteilung den Spaltensummen.
36
2 Empirische Verteilungen
Randverteilung von X h(X = x) = h(X = x, −∞ < Y < ∞) h(X = x, Y = y) =
(2.44)
y
Randverteilung von Y h(Y = y) = h(−∞ < X < ∞, Y = y) h(X = x, Y = y) =
(2.45)
x
Bei zwei Variablen X, Y definiert man mit H(x, y) = h(X ≤ x, Y ≤ y)
(2.46)
die kumulierte bivariate Verteilung. In der Praxis ist ihr Gebrauch jedoch eher un¨ ublich. Wir wollen sie daher in dieser Lekt¨ ure nicht n¨aher besprechen.
2.5 Bivariate Verteilungen stetiger Merkmale Bei der Darstellung der bivariaten Verteilung ergeben sich Besonderheiten, die wir schon im Kapitel 2.2 angesprochen haben. Wegen der “beliebig genauen“ Messbarkeit stetiger Variablen kann man in den meisten Anwendungen ausschließen, innerhalb einer Urliste zwei exakt gleiche Wertepaare (x, y) anzutreffen. Dies hat zur Folge, dass in einer entsprechenden Kontingenztafel fast nur die Werte 0 oder 1/N eingetragen w¨ aren. In dieser Situation gelingt eine bessere Darstellungsform mit sogenannten Streudiagrammen. Wir zeichnen jedes Objekt der Grundgesamtheit als eigenen Punkt in ein x-y-Koordinatensystem ein, wobei sich die Position des Punktes durch das Merkmalswerte-Paar (x, y) ergibt. Wenn keine zwei exakt gleiche Wertepaare (x, y) vorkommen, entsteht so eine Punktwolke mit N einzelnen Punkten. Beispiel (Wohnungen). Erwin ist Immobilienmakler in K¨alberau und hat alle N = 10 Wohnungen, die er in der Ludwigstraße vermitteln m¨ochte, bez¨ uglich Wohnungsgr¨ oße X[m2 ] und Monatsmiete Y [e] erfasst. Er notiert die folgende Datenpaare (x, y): (44; 322), (30; 777), (72; 555), (41; 245), (42; 221), (88; 990), (55; 405), (28, 110), (76; 815), (67; 300).
Diese “Punkte“ tr¨ agt Erwin in ein Koordiantensystem ein und erh¨alt so das zugeh¨ orige Streudiagramm in Abbildung 2.13. ¨ Man gewinnt leicht einen vollst¨ andigen und guten Uberblick u ¨ber die
2.5 Bivariate Verteilungen stetiger Merkmale
37
Streudiagramm Beispiel “Wohnungen“ Preis [Euro] 1200 1000 800 600 400 200
Größe [m2] 20
40
60
80
100
Abbildung 2.13. Ein Streudiagramm eignet sich zur Darstellung bivariater Urlisten bzw. Verteilungen.
“Rohdaten“ und erkennt die wesentliche Struktur der Verteilung als Punktwolke. Wie zu erwarten war, ist der Mietpreise Y um so h¨oher, desto gr¨ oßer die Wohnfl¨ ache X ist. Es wird aber auch sichtbar, inwiefern diese Gesetzm¨ aßigkeit durchbrochen wird. Insbesondere f¨allt die Wohnung, die durch den Punkt links oben dargestellt wird, aus dem Rahmen. Sie ist vermutlich f¨ ur K¨ alberauer Verh¨ altnisse vollkommen u ¨berteuert und kann von Makler Erwin nur schwer verkauft werden. Eine genauere, allgemeinere Untersuchung solcher statistischer Gesetzm¨ aßigkeiten werden wir in den Kapiteln “Regression“ und “Korrelation“ vornehmen. Mit Streudiagrammen wird sichtbar, in welchen Regionen sich die Punkte h¨ aufen bzw. verdichten. Dies vermittelt einen leicht verst¨andlichen Eindruck u ber das “Aussehen“ der bivariaten Verteilung von X, Y . ¨ Sollten Wertepaare (x, y) in der Urliste mehrfach vorkommen, werden sie im Streudiagramme nur durch einen einzigen Punkt repr¨asentiert und der Betrachter erkennt nicht, dass an solchen Stellen eigentlich eine H¨aufung der Objekte vorliegt. Hier kann man sich mit modifizierten Streudiagrammen behelfen, indem mehrfach u ¨berlagerte Punkte mit einer entsprechenden, proportionalen Verdickung eingezeichnet werden. Mit diesem Trick lassen sich auch die Verteilungen diskreter Variablen X, Y als Streudiagramm darstellen.
38
2 Empirische Verteilungen
2.6 Bivariate Verteilungen klassifizierter Merkmale Wie im univariaten Fall in Kapitel 2.3 teilen wir die m¨oglichen Werte der Variablen X in Klassen und die m¨ oglichen Werte der Variablen Y in Klassen auf. Die Klassenaufteilung und die Klassenl¨ angen k¨onnen vollkommen unterschiedlich sein. F¨ ur die Darstellung der gemeinsamen, bivariaten Verteilung h(x, y) werden in der Praxis oft Kontingenztafeln bevorzugt. Beispiel (Versicherungsverk¨ aufe). Bei einer Brandschutzversicherung verkaufen die Vertriebsmitarbeiter Anton, Berta und Max (A,B,M) Versicherungen. Es liegen folgende Daten mit den Merkmalen “X = Vertragssumme in Tausend Euro“ und “Y = Mitarbeiter“ vor: (405; A), (608; A), (95; M), (2257; B), (4444; M), (82; M), (1020; B), (90; M), (317; A), (4600; A), (378; M), (707;A), (2040; M), (4801; M), (68; M), (990; A), (2888; B), (3300; B), (2777; M), (270; A), (1088; M), (699; M), (69; A), (3480; M), (1800; M), (399; M), (886; A), (40; M), (89; M), (680; B).
Wir klassifizieren die Vertragssumme X nach dem Raster 0; 100; 500; 1000; 5000 und notieren die bivariate, gemeinsame Verteilung h(x, y) in einer Kontingenztafel: 501 − 1000
1001 − 5000
X
0 − 100
101 − 500
Anton
0.0333
0.10
0.1333
0.0333
0.30
Berta
0
0
0.0333
0.1333
0.1666
Max
0.20
0.0667
0.0333
0.2333
0.5333
0.2333
0.1667
0.2
0.4
Y
An der Randverteilung zu Y erkennt man, dass beispielsweise Max 53.33% aller Versicherungen verkauft hat. Ebenso erkennt man an der Randverteilung zu X, dass beispielsweise 20% aller Versicherungen eine H¨ohe von 500 Tausend Euro bis 1 Million Euro aufweisen. Beispiel (Staubsauger). Rosamunde betreibt einen Staubsauger-Großhandel. Sie hegt den Verdacht, dass teure Staubsauger l¨anger im Lager liegen als die billigeren Ger¨ ate. So k¨ onnte der hohe Erl¨os bei einem teueren Ger¨ at durch die variablen Lagerkosten, welche proportional zu den Liegezeiten sind, aufgezehrt werden. Daher untersucht Rosamunde die letzten N = 2000 verkauften Staubsauger hinsichtlich des Preises X [e] und der Lagerzeit Y [Tage]. Beide Variablen sind in klassifizierter Weise erfasst worden. Die gemeinsame, bivariate Verteilung ist in Form einer Kontingenztafel dargestellt:
2.7 Bedingte Verteilungen Y [Tage]
1-3
4-10
11-30
30-99
0.14
0.03
0.09
100-149
0.04
0.12
0.11
150-249
0.01
0.03
0.15
250-400
0.03
0
0.25
39
X [e]
Der Verdacht von Rosamunde l¨ asst sich best¨atigen.
Bei der Darstellung der bivariaten Verteilung h(x, y) durch dreidimensionale Histogramme bzw. Dichtefunktionen entsprechen relative H¨aufigkeiten nicht der H¨ ohe der Dichte oder Fl¨ achen, sondern Volumina. Diese aber lassen sich in einer zweidimensionalen Zeichnung nicht exakt darstellen. Man k¨onnte stattdessen versuchen, das dreidimensionale Histogramm etwa als Papp-Modell zu basteln. Im letzten Beispiel w¨ urde ein Photo des entsprechenden Papp-Models in etwa so aussehen:
0.0006
0.0004
0.0002
0.0000 30
31 100
150 Preis 250
11 400 1
Tage
4
¨ Dies gibt einen groben Uberblick, in welchen Klassen die Werte “dicht“ liegen. Problematisch ist jedoch, dass sich die Volumina der Quader nur erahnen lassen und teilweise von anderen Quadern verdeckt werden. Daher sind in der Deskriptiven Statistik dreidimensionale Histogramme eher selten anzutreffen. In der Wahrscheinlichkeitstheorie hingegen spielen Dichten eine große Rolle.
2.7 Bedingte Verteilungen Bedingte Verteilungen sind Verteilungen, die sich in der Regel nicht auf die komplette Grundgesamtheit, sondern nur auf eine Teilgesamtheit beziehen.
40
2 Empirische Verteilungen
Lesen wir beispielsweise in der Zeitung, dass in Gugelbach 72% eine Erh¨ohung der Parkgeb¨ uhren ablehnen, so ist die Aussage wertlos, wenn das Wichtigste, n¨ amlich die Gesamtheit, auf die sich der Anteil bezieht, nicht genannt wird. Es bleibt spekulativ, ob die Autofahrer, oder die Bewohner oder die Anwesenden, also auch Fremde von Gugelbach, zu Grunde liegen. Werden Jugendliche und Kinder einbezogen? Um dieses Manko zu beseitigen, wollen wir die bisherige Schreibweise erweitern, indem wir die Gesamtheit, auf welche sich die Anteile beziehen, hinter einem senkrechten Strich “|“ notieren. h(X = x | hier steht die Gesamtheit)
(2.47)
Verschiedene Gesamtheiten treten vor allem dann auf, wenn aus einer Grundgesamtheit Teilgesamtheiten selektiert werden. Beispiel (Mitarbeiter der Schaff AG). In der Schaff AG in Kleinrinderfeld sind N = 15 Mitarbeiter besch¨ aftigt. Zu den Variablen “X = Geschlecht“ und “Y = Abteilung“ liegt folgende Urliste vor. Nr. X = Geschlecht Y = Abteilung 1 m 1 2 w 1 3 w 3 4 w 2 5 m 1 6 w 2 7 m 3 8 m 3 9 w 2 10 m 3 11 m 3 12 m 3 13 m 3 14 m 2 15 w 1
Uns interessieren folgende Fragen: a) Wie groß ist der Anteil der Frauen in Abteilung 2 ? b) Wie groß ist unter Frauen der Anteil der Mitarbeiterinnen, die in Abteilung 2 arbeiten ? c) Wie groß ist der Anteil der Mitarbeiter, die weiblich sind und in Abteilung 2 arbeiten? Sprachlich klingen dies Fragen sehr ¨ ahnlich. Sie sind aber in ihrer Bedeutung vollkommen verschieden, denn die Anteile beziehen sich auf drei verschiedene Gesamtheiten. Dies wird in der formalen Schreibweise gem¨aß (2.47) deutlich:
2.7 Bedingte Verteilungen
41
a) h(X = w | Mitarbeiter der Abteilung 2), b) h(Y = 2 | Weibliche Mitarbeiter der Schaff AG), c) h(X = w, Y = 2 | Alle Mitarbeiter der Schaff AG). Statt die jeweilige Gesamtheit mit einem Text zu umschreiben, k¨onnen wir sie auch mit Bedingungen charakterisieren, die mit Hilfe der Variablen X oder Y formuliert werden k¨ onnen: a) h(X = w |Y = 2), b) h(Y = 2 |X = w), c) h(X = w, Y = 2). Dabei treffen wir die Vereinbarung, dass sich bei einem fehlenden senkrechten Strich der Anteil immer auf die umfassendste, maximale Gesamtheit bezieht. So entspricht der gesuchte Anteil im Fall c) einer “unbedingten H¨ aufigkeit“ und ergibt sich aus der im Kapitel 2.4 bereits besprochenen gemeinsamen, bivariaten Verteilung von X und Y . Wir z¨ ahlen in der Urliste insgesamt 3 Mitarbeiter, die sowohl X = w als auch Y = 2 aufweisen. Daher gilt h(X = w, Y = 2) =
3 3 = = 20%. N 15
Im Fall a) handelt es sich um eine sogenannte “bedingte H¨aufigkeit“. Zu ihrer Berechnung ist es zweckm¨ aßig, zun¨ achst alle Mitarbeiter der Abteilung 2 aus der urspr¨ unglichen Urliste harauszufiltern. Teilgesamtheit = Mitarbeiter in Abteilung 2 (N1 = 4)
Grundgesamtheit (N = 15) Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X m w w w m w m m w m m m m m w
Y 1 1 3 2 1 2 3 3 2 3 3 3 3 2 1
Filter “Y = 2“-
Nr. 4 6 9 14
X w w w m
Y 2 2 2 2
Es entsteht eine Art “Teil-Urliste“, die den gleichen Aufbau wie die urspr¨ ungliche Urliste aufweist, jedoch in der Regel k¨ urzer ist und N1 ≤ N
42
2 Empirische Verteilungen
Objekte aufweist. Schließlich wird der Frauenanteil innerhalb der Teilgesamtheit “Mitarbeiter der Abteilung 2“ ermittelt. Er betr¨agt drei Viertel: h(X = w |Y = 2) =
3 3 = = 75%. N1 4
F¨ uhrt man diese Schritte mit einem Statistikprogramm durch, so werden dort die Bedingungen, welche Teilgesamtheiten selektieren, als Filter bezeichnet. Zur Beantwortung von Frage b) filtern wir zun¨achst die Gesamtheit “weibliche Mitarbeiter“ aus der urspr¨ unglichen Urliste. Grundgesamtheit (N = 15) Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X m w w w m w m m w m m m m m w
Y 1 1 3 2 1 2 3 3 2 3 3 3 3 2 1
Teilgesamtheit = weibliche Mitarbeiter (N1 = 6)
Filter “X = w“ -
Nr. 2 3 4 6 9 15
X w w w w w w
Y 1 3 2 2 2 1
Anschließend wird innerhalb der Teilgesamtheit “weibliche Mitarbeiter“ nachgesehen, wie viele Frauen in der Abteilung 2 besch¨aftigt sind. Der Anteil betr¨ agt h(Y = 2 |X = w) =
3 3 = = 50%. N1 6
Wir verallgemeinern die im Beispiel benutzten Notationen f¨ ur Anteile auf Teilgesamtheiten und schreiben: Bedingte relative H¨ aufigkeit h(X ∈ A|Y ∈ B) = relative H¨ aufigkeit der Objekte mit X ∈ A innerhalb der Teilgesamtheit, die durch Y ∈ B festgelegt wird.
2.7 Bedingte Verteilungen
43
Nun gehen wir noch auf eine weitere Berechnungsmethode ein, die nicht direkt auf die Urliste zur¨ uckgreift, sondern nur die bivariate, gemeinsame Verteilung von X, Y ben¨ otigt. Beispiel (Fortsetzung). Wir notieren die bivariate Verteilung zu X und Y der Schaff AG in Form einer Kontingenztafel: Y
1
2
3
Summe
m
0.1333
0.0667
0.4000
0.60
w
0.1333
0.2000
0.0667
0.40
Summe
0.2666
0.2667
0.4667
X
Die Abbilung 2.14 versucht darzustellen, wie sich die Grundgesamtheit bez¨ uglich der Merkmale X und Y aufteilt. Wir greifen nochmals den Fall a) auf und berechnen den Frauenanteil in Abteilung 2. Dazu illustrieren wir den Filterungsvorgang derart, dass die zur Teilgesamtheit geh¨ orenden Zeilen bzw. Objekte in der urspr¨ unglichen Urliste eine Markierung “x“ bekommen, wenn die Filterbedingung Y = 2 zutrifft. Anschließend werden unter diesen markierten Zeilen, also der Teilgesamtheit, nochmals die Zeilen markiert, welche X = w, also weibliche Mitarbeiter darstellen. Diese Zeilen erf¨ ullen dann sowohl Y = 2 als auch X = w:
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X m w w w m w m m w m m m m m w
Grundgesamtheit (N = 15) Y Y = 2 zutreffend X = w und Y = 2 zutreffend 1 1 3 2 x x 1 2 x x 3 3 2 x x 3 3 3 3 2 x 1
Die L¨ osung erhalten wir wie oben, indem man nun die Anzahl der Markierungen der letzten Spalte ins Verh¨ altnis zu den Markierungen der vorletzten Spalte setzt. Abermals erhalten wir 75%:
44
2 Empirische Verteilungen
Aufteilung der Mitarbeiter der Schaff AG Abt. 1
Abt. 2
Abt. 3
0.067 0.133
Männer
0.40
Frauen
0.133
0.20 0.067
Abbildung 2.14. Die Mitarbeiter der Schaff AG bilden das gesamte Rechteck. Die Segmente entsprechen der Aufteilung der Mitarbeiter bez¨ uglich Geschlecht und Abteilung. Man erkennt beispielsweise, dass in Abteilung 1 gleich viele M¨ anner und Frauen vorkommen, d.h. dort die M¨ anner 50% der Mitarbeiter und die Frauen 50% der Mitarbeiter stellen.
h(X = w |Y = 2) =
Anzahl der Markierungen der letzten Spalte Anzahl der Markierungen der vorletzten Spalte
3 A(X = w, Y = 2) = A(Y = 2) 4 = 75%.
(2.48)
=
Erweitert man den Bruch (2.48) im Z¨ ahler wie im Nenner mit 1/N so ver¨ andert sich nicht der Wert des Ergebnisses. Jedoch stehen nun sowohl im Z¨ ahler, als auch im Nenner relative H¨ aufigkeiten. Es gilt dann: h(X = w |Y = 2) =
A(X = w, Y = 2) A(Y = 2)
=
=
h(X = w, Y = 2) h(Y = 2)
=
A(X=w, Y =2) N A(Y =2) N
0.20 0.2667
(2.49)
= 75%. Bei der Formel (2.49) wird in der Kontingenztafel die Spaltensumme zu Y = 2 gewissermaßen als “Masse“ der Teilgesamtheit “Mitarbeiter der Abteilung 2“ identifiziert: 0.0667+0.20 = 0.2667. Der erste Summand entspricht dem Beitrag der M¨ anner an dieser Gesamtsumme und der zweite Summand dem Beitrag der Frauen. Der Frauenanteil an der Gesamtsum0.20 = 75%. me betr¨ agt somit 0.2667 Die Herleitung der Formel (2.49) im Beispiel zeigt ein allgemeines Prinzip:
2.7 Bedingte Verteilungen
h(X ∈ A|Y ∈ B) =
h(X ∈ A, Y ∈ B) h(Y ∈ B)
45
(2.50)
Wir werden diese Formel sp¨ ater nochmals in der Wahrscheinlichkeitstheorie antreffen. Das Bemerkenswerte an dieser Darstellung ist, dass auf der linken Seite von (2.50) ein Anteil steht, der sich auf eine Teilgesamtheit bezieht, und auf der rechten Seite Anteile stehen, die sich auf die komplette Grundgesamtheit beziehen. L¨ osen wir in der Formel (2.50) nach dem Z¨ ahler auf, so zeigt sich, wie man aus bedingten H¨ aufigkeiten die unbedingte, bivariate Verteilung erh¨alt: h(X ∈ A, Y ∈ B) = h(X ∈ A|Y ∈ B) · h(Y ∈ B).
(2.51)
L¨osen wir in der Formel (2.50) nach dem Nenner auf, so kann man die relative Gr¨ oße der Teilgesamtheit bzw. den Anteil der Teilgesamtheit an der kompletten Grundgesamtheit berechnen: h(Y ∈ B) =
h(X ∈ A, Y ∈ B) . h(X ∈ A|Y ∈ B)
(2.52)
Beispiel (Fortsetzung). Wir berechnen nochmals den Fall b) mit der Formel (2.50), d.h. wir bestimmen unter den Frauen den Anteil der Mitarbeiterinnnen, die in Abteilung 2 arbeiten. Hierbei legt die Variable X die Filterbedingung bzw. Teilgesamtheit fest: h(Y = 2 |X = w) =
h(X = w, Y = 2) 0.20 h(Y = 2, X = w) = = h(X = w) h(X = w) 0.40
= 50%. ¨ Dies entspricht dem bereits bekannten Ergebnis. Zur Ubung berechnen wir noch die Frauenanteile in den beiden anderen Abteilungen: h(X = w |Y = 1) =
0.1333 h(X = w, Y = 1) = = 0.50, h(Y = 1) 0.2666
h(X = w |Y = 3) =
0.0667 h(X = w, Y = 3) = = 0.14292. h(Y = 3) 0.4667
Da sich die drei Frauenanteile auf jeweils drei verschiedene Gesamtheiten bzw. Abteilungen beziehen, ist es unsinnig, ihre Summe h(X = w |Y = 1) + h(X = w |Y = 2) + h(X = w |Y = 3) = 0.50 + 0.75 + 0.14292 zu bilden. Es ergibt sich weder der Frauenanteil insgesamt h(X = w), noch der Wert Eins.
46
2 Empirische Verteilungen
Addiert man hingegen alle Anteile innerhalb ein und derselben Gesamtheit, also den M¨ anner- und den Frauenanteil einer Abteilung, so ist die Summe Eins. So k¨ onnen wir beispielsweise u ¨ber die “Regel vom Gegenteil“ den M¨ anneranteil in der Abteilung 2 erhalten: h(X = m |Y = 2) = 1 − h(X = w |Y = 2) = 1 − 0.75 = 25%. Ferner berechnen wir noch unter den Frauen den Anteil der Mitarbeiterinnen, die in Abteilung 3 besch¨ aftigt sind, h(Y = 3 |X = w) =
0.0667 h(Y = 3, X = w) = = 16.67% h(X = w) 0.40
und unter den M¨ annern den Anteil der Mitarbeiter, die in Abteilung 3 besch¨ aftigt sind: h(Y = 3 |X = m) =
0.40 h(Y = 3, X = m) = = 66.67%. h(X = m) 0.60
Auch hier ist die Summe der zwei Anteile nicht Eins!
Beispiel (Kreditbank). Von allen vergebenen Krediten haben 8% ein Volumen von mehr als 6 Millionen Euro. Von diesen Krediten sind 90% notleidend. Setzen wir “X = Kredith¨ ohe [MioEuro]“ und “Y = 1“ f¨ ur notleidend, so k¨ onnen wir gem¨ aß (2.51) unter allen von der Bank vergebenen Krediten den Anteil der Kredite bestimmen, die sowohl ein Volumen von mehr als 6 Millionen Euro aufweisen, als auch notleidend sind: h(X > 6, Y = 1) = h(Y = 1|X > 6) · h(X > 6) = 0.90 · 0.08 = 7.2%. Beispiel (Autos). Von allen Autos sind 30% j¨ unger als 4 Jahre und hatten noch keinen Unfall. Von allen Autos, die j¨ unger als 4 Jahre sind, hatten 40% keinen Unfall. Setzen wir “X = Alter [Jahre]“ und “Y = Anzahl Unf¨ alle“, so k¨ onnen wir gem¨ aß (2.52) berechnen, wie viel Prozent aller Autos unter 4 Jahre alt sind: h(X < 4) =
0.30 h(Y = 0, X < 4) = = 75%. h(Y = 0| X < 4) 0.40
Beispiel (K¨ orpergr¨ oße). In Megalingen sind 10% der Personen gr¨oßer als 1.90 [m]. Von diesen großen Personen sind wiederum 6% gr¨oßer als 2.00 [m]. Wie viel Prozent aller Personen sind u ¨ber 2.00 [m] groß? Mit der Variablen “X = K¨ orpergr¨ oße [m]“ lauten die Angaben: h(X > 1.90) = 0.10,
h(X > 2.00|X > 1.90) = 0.06.
(2.53)
2.7 Bedingte Verteilungen
47
Bisher haben wir bedingte H¨ aufigkeiten mit zwei Variablen X und Y betrachtet. Hier nun wird jedoch nur noch eine einzige Variable X benutzt. Dies braucht uns nicht zu st¨ oren, denn wir k¨onnen alle bisherigen Herleitungen und Formeln beibehalten, indem wir dort formal Y = X setzen. Daher gilt zun¨ achst: (2.51)
h(X > 2.00, X > 1.90) = h(X > 2.00 |X > 1.90) · h(X > 1.90) = 0.06 · 0.10 = 0.006. Personen, die u ¨ber 2.00 Meter groß sind, sind automatisch auch u ¨ber 1.90 Meter groß. Daher gilt: h(X > 2.00) = Anteil der Personen, die u ¨ber 2.00 [m] sind = Anteil der Personen, die u ¨ber 2.00 [m] und u ¨ber 1.90 [m] sind = h(X > 2.00, X > 1.90) = 0.006. Aggregation von bedingten H¨ aufigkeiten Ausgangspunkt ist eine Grundgesamtheit, die in m verschiedene Teilgesamtheiten aufgesplittet ist. Auf jeder Teilgesamtheit gibt es eine bedingte Verteilung bzw. bedingte relative H¨ aufigkeiten zu einem Merkmal X. Wir wollen untersuchen, wie man diese Verteilungen zusammenf¨ uhren kann, um die Verteilung auf der kompletten Grundgesamtheit zu erhalten. Beispiel (Bundestagswahl 2002). Es soll f¨ ur ganz Deutschland der Anteil der SPD-W¨ ahler berechnet werden. Es ist aber nur bekannt, dass in Bayern 26.1%, im Saarland 46.0% und im restlichen Deutschland 40.7% aller W¨ ahler f¨ ur die SPD gestimmt haben. Außerdem verteilen sich alle W¨ ahler Deutschlands zu 15.3% auf Bayern und zu 1.3% auf das Saarland. Mit den Variablen “X = Partei“ und “Y = Region“ lauten die Angaben: h(X = SP D) = ? h(X = SP D| Y = Bay) = 0.261, h(X = SP D|Y = Saar) = 0.460, h(X = SP D|Y = Rest) = 0.407, h(Y = Bay) = 0.153, h(Y = Saar) = 0.013, h(Y = Rest) = 0.834. Bei der Berechnung des gesuchten Anteils der SPD-W¨ahler h(X = SP D) fassen wir diesen zun¨ achst als Randverteilung auf und summieren gem¨aß (2.44) die entsprechenden bivariaten H¨ aufigkeiten:
48
2 Empirische Verteilungen
h(X = SP D) =
h(X = SP D, Y = Bay) + h(X = SP D, Y = Saar) + h(X = SP D, Y = Rest).
Die bivariaten H¨ aufigkeiten k¨ onnen wir gem¨aß (2.51) durch bedingte H¨ aufigkeiten berechnen. Daher gilt weiter: h(X = SP D|Y = Bay) · h(Y = Bay)
h(X = SP D) =
(2.54)
+ h(X = SP D|Y = Saar) · h(Y = Saar) + h(X = SP D|Y = Rest) · h(Y = Rest) = 0.261 · 0.153 + 0.460 · 0.013 + 0.407 · 0.834 = 38.5%. Ein gerne praktizierte, aber leider falsche Rechnung w¨are die Durchschnittsbildung der drei SPD-W¨ ahleranteile: 1 1 1 0.261 + 0.460 + 0.407 = 0.261 · + 0.460 · + 0.407 · = 0.376. 3 3 3 3 Hier fließt jeder einzelne SPD-Anteil ohne Ber¨ ucksichtigung der “L¨andergr¨ oßen“ gleichwertig mit einem “Gewicht“ von 1/3 in das Ergebnis ein. In der Formel (2.54) wird dieser Mangel beseitigt, indem die Verteilung der W¨ ahler h(Y = Region) als W¨ agungsschema dient. Daher kann man Formel (2.54) auch als einen gewogenen Durchschnitt der SPD-Anteile auffassen. Die Formel (2.54) lautet im allgemeinen Fall: Aggregationsformel h(X ∈ A) =
=
h(X ∈ A|Y ∈ B1 ) · h(Y ∈ B1 ) + h(X ∈ A|Y ∈ B2 ) · h(Y ∈ B2 ) + ... + h(X ∈ A|Y ∈ Bm ) · h(Y ∈ Bm ) m
(2.55)
h(X ∈ A|Y ∈ Bk ) · h(Y ∈ Bk ),
k=1
wobei die Bedingungen B1 , . . . , Bm disjunkt und vollst¨andig sein m¨ ussen. “Disjunkt“ heißt im Beispiel, dass die Teilgesamtheiten u ¨berlappungsfrei sein m¨ ussen, also kein W¨ ahler in mehreren L¨ andern gleichzeitig w¨ahlt. “Vollst¨andig“ heißt im Beispiel, dass die 3 Teilgesamtheiten das gesamte Bundesgebiet bzw.
2.7 Bedingte Verteilungen
49
alle W¨ ahler umfassen. Die Formel (2.55) ist in analoger Weise in der Wahrscheinlichkeitstheorie als “Satz von der totalen Wahrscheinlichkeit“ bekannt. Spezialfall m = 2: Liegen nur zwei Teilgesamtheiten vor, erh¨alt man h(X ∈ A) =
h(X ∈ A|Y ∈ B) · h(Y ∈ B) + h(X ∈ A|Y ∈ B) · h(Y ∈ B).
(2.56)
Beispiel (Pommes). In einer Kantine essen 80% aller M¨anner und 55% aller Frauen Pommes. Insgesamt essen 72% aller G¨aste Pommes. Wir wollen zu den Variablen 1, Pommes X= Y = Geschlecht (m,w) (2.57) 0, sonst die Kontingenztafel der bivariaten Verteilung h(x, y) bestimmen. Die Angaben lauten formal: h(X = 1|Y = m) = 0.80, h(X = 1) = 0.72.
h(X = 1|Y = w) = 0.55, (2.58)
Mit der Aggregationsformel (2.55) k¨ onnen wir die Anteile der Frauen und M¨ anner bestimmen: h(X = 1) = h(X = 1|Y = m) · h(Y = m) + h(X = 1|Y = w) · h(Y = w) = h(X = 1|Y = m) · h(Y = m) + h(X = 1|Y = w) · (1 − h(Y = m)) ⇔ 0.72 = 0.80 · h(Y = m) + 0.55 · (1 − h(Y = m)) ⇔ 0.72 − 0.55 = 0.68 und h(Y = w) = 0.32. h(Y = m) = 0.80 − 0.55 Mit (2.51) erh¨ alt man: h(X = 1, Y = m) = h(X = 1|Y = m) · h(Y = m) = 0.80 · 0.68 = 0.544 oder h(X = 1, Y = w) = h(X = 1|Y = w ) · h(Y = w) = 0.55 · 0.32 = 0.176. Die restlichen Eintr¨ age in der Kontingenztafel w¨ahlt man so, dass sich die bekannten Werte der Randverteilung ergeben: X
1
0
m
0.544
0.136
0.68
w
0.176
0.144
0.32
0.72
0.28
Y
50
2 Empirische Verteilungen
Aus der Kontingenztafel erkennt man beispielsweise, dass 13.6% aller G¨ aste m¨ annlich sind und keine Pommes essen. Bayes-Formel und Kommutativit¨ at Das Komma, das dem logischen “Und“ entspricht, kann man kommutativ gebrauchen. Beim senkrechten Strich hingegen darf man den linken Teil nicht mit dem rechten Teil vertauschen: h(X ∈ A, Y ∈ B) = h(Y ∈ B, X ∈ A), h(X ∈ A| Y ∈ B) = h(Y ∈ B| X ∈ A).
(2.59) (2.60)
Eine Formel, die dem Statistiker Bayes zugeschrieben wird, zeigt, wie ein Tausch der linken mit der rechten Seite korrekt zu handhaben ist: Bayes-Formel h(Y ∈ B| X ∈ A) =
h(X ∈ A| Y ∈ B) · h(Y ∈ B) h(X ∈ A)
(2.61)
Falls der Nenner h(X ∈ A) nicht bekannt sein sollte, bietet sich die Aggregationsformel (2.55) f¨ ur dessen Berechnung an. Beweis zu (2.61): (2.50)
h(Y ∈ B| X ∈ A) =
(2.51)
=
h(Y ∈ B, X ∈ A) h(X ∈ A)
(2.59)
=
h(X ∈ A, Y ∈ B) h(X ∈ A)
h(X ∈ A| Y ∈ B) · h(Y ∈ B) . h(X ∈ A)
Beispiel (Mitarbeiter der Schaff AG). Wir greifen nochmals auf das obige Beispiel zur¨ uck, bei dem nun die Anteile h(X = w| Y = 2) = 0.75,
h(X = w) = 0.40,
h(Y = 2) = 0.2667.
als bekannt vorausgesetzt werden. Wir wollen daraus berechnen, wie viel Prozent der Frauen in Abteilung 2 arbeiten. Gem¨aß (2.61) erhalten wir diesen Anteil mit 0.75 · 0.2667 h(X = w| Y = 2) · h(Y = 2) = h(X = w) 0.40 = 50%.
h(Y = 2| X = w) =
Beispiel (Fensterbauer). Ein Fensterbauer l¨asst sich von zwei verschiedenen Speditionen A und B Flachgl¨ aser gleichen Typs anliefern. Bei der Eingangskontrolle stellt sich heraus, dass insgesamt 5.8% aller Gl¨aser defekt
2.7 Bedingte Verteilungen
51
sind, Spedition A 4.7% Ausschuss und B 6% Ausschuss geliefert haben. a) Wieviel Prozent der Ware wurde von A geliefert ? b) Wieviel Prozent der defekten Ware wurde von A geliefert ? Wir benutzen die Merkmale “S = Spedition“ und “Z = Zustand“, wobei 1 f¨ ur “defekt“ und 0 f¨ ur “nicht defekt“ steht. Das Merkmal Z ist eine bin¨ are Variable und wird auch als Indikatorvariable bezeichnet. Die obigen Informationen lauten nun: h(Z = 1) = 0.058, h(Z = 1|S = A) = 0.047, h(Z = 1|S = B) = 0.060. (2.62) a) Wegen der Aggregationsformel (2.55) gilt: h(Z = 1) = h(Z = 1|S = A) · h(S = A) + h(Z = 1|S = B) · h(S = B). (2.63) Ersetzt man in (2.63) die Werte (2.62), erh¨alt man: 0.058 = 0.047 · h(S = A) + 0.060 · h(S = B) = 0.047 · h(S = A) + 0.060 · (1 − h(S = A)). Die letzte Umformung benutzt die “Regel vom Gegenteil“. Schließlich l¨ osen wir die Gleichung nach dem gesuchten Anteil auf: h(S = A) = 15.385%. b) Wir stehen gewissermaßen auf dem Schrottplatz des Fensterbauers und sehen nur defekte St¨ ucke. Innerhalb dieser Gesamtheit, die mit Z = 1 charakterisiert werden kann, sollen die St¨ ucke identifiziert werden, die von A geliefert wurden. Die Frage lautet daher in formaler Schreibweise “h(S = A| Z = 1) = ?“. Mit der Bayes-Formel (2.61) und dem Ergebnis von a) erhalten wir: h(S = A| Z = 1) =
0.047 · 0.15385 h(Z = 1| S = A) · h(S = A) = h(Z = 1) 0.058
= 12.47%.
3 Lageparameter
Verteilungen geben detaillierte und genaue Informationen, welche Merkmalswerte wie oft in einer Grundgesamtheit anzutreffen sind. Lageparameter hingegen dienen zur Simplifizierung von Verteilungen, indem sie alle Merkmalswerte auf einen einzigen, m¨ oglichst repr¨ asentativen Wert reduzieren, der stellvertretend f¨ ur alle Merkmalswerte steht. So kann zumindest schon ein erster, grober Eindruck u ¨ber die Grundgesamtheit vermittelt werden. Insbesondere sind Lageparameter beim Vergleichen mehrere Grundgesamtheiten beliebt. Beispiel (Durchschnittstemperatur). Manfred m¨ochte bei seinem n¨achsten Winterurlaub im Januar unbedingt Schlittschuh laufen. Er erf¨ahrt, dass im Januar die durchschnittliche Tagestemperatur in Werchojansk bei -45 Grad Celsius und in Palermo bei +10 Grad Celsius liegt. Ohne die Verteilungen der Temperaturen in den beiden Orten zu kennen, f¨allt Manfred die Entscheidung leicht. Er f¨ ahrt nach Werchojansk. Beispiel (Geh¨ alter). Walter verdient 4000[e] im Monat. Er h¨ort, dass im gesamten Unternehmen das Einkommen im Mittel bei 5000[e] pro Besch¨ aftigtem liegt. Er schließt daraus, dass die Mehrheit seiner Mitarbeiter wohl besser verdient als er. Seine Freundin Gabi kommt zu dem Schluss, dass die meisten Mitarbeiter ungef¨ahr 5000[e] verdienen. Einige Tage sp¨ ater hat Walter die Urliste der Geh¨ alter u ¨ber alle 5 Mitarbeiter des Unternehmens zur Verf¨ ugung und erkennt, dass sich er und seine Freundin geirrt haben: 500, 500, 1000, 4000, 19000 [e] Wir wollen zun¨ achst die Grundideen der wichtigsten Lageparameter gegen¨ uberstellen. Dabei beziehen wir uns auf das letzte Beispiel. Modus: Er entspricht dem Merkmalswert, der am h¨aufigsten vorkommt. Im Beispiel ist dies der Wert 500[e]. Bei einer stetigen oder klassifizierten Variablen ist der Modus die Region bzw. Klasse, in der die Werte am
54
3 Lageparameter
dichtesten liegen, also die Dichte den gr¨ oßten Wert annimmt. Der Modus wird auch Modalwert genannt. Median: Er teilt die Grundgesamtheit in der “Mitte“ in zwei m¨oglichst gleich große H¨ alften. In der einen H¨ alfte liegen die Objekte mit den gr¨oßeren Merkmalswerten, in der anderen die kleineren. Im Beispiel ist dies 1000[e]. Arithmetisches Mittel: Bei der Bildung des arithmetischen Mittels wird die Gesamtsumme aller Merkmalswerte auf alle Objekte gleichm¨ aßig verteilt, d.h. die tats¨ achliche Verteilung wird zumindest gedanklich durch eine Gleichverteilung ersetzt. Im Beispiel betr¨ agt das arithmetische Mittel der Geh¨alter 25000 : 5 = 5000[e]. Dieser Wert entspricht einem “Einheitsgehalt“, welches das Unternehmen gleich hoch an alle 5 Mitarbeiter zahlen k¨onnte, ohne dass sich die Gesamtausgaben f¨ ur die Geh¨ alter von 25000 [e] ¨andern w¨ urde. Das arithmetische Mittel wird auch als “Durchschnittswert“ oder einfach als “Mittelwert“ bezeichnet. In der Literatur wird der Begriff “Mittelwert“ gelegentlich auch im u ¨bergeordneten, alle Lageparameter umfassenden Sinn gebraucht. Walter verwechselte offenbar das arithmetische Mittel mit dem Median und seine Freundin interpretierte das arithmetische Mittel f¨alschlicher Weise als Modus. Im Folgenden werden diese und andere Lageparameter noch genauer besprochen.
3.1 Modus Die Definition des Modus xmo ist vom Merkmalstyp abh¨angig. Modus (i) X ist ein diskretes Merkmal: xmo = h¨ aufigster Wert des Merkmals X.
(3.1)
(ii) X ist ein klassifiziertes bzw. stetiges Merkmal mit einer Dichte di : oßter H¨ aufigkeitsdichte di xmo = Klasse Ki mit gr¨ = Klasse Ki , in der die Werte am dichtesten liegen.
(3.2)
Wenn man nur einen einzelnen Wert und nicht die ganze Klasse als Modus angeben m¨ ochte, w¨ ahlt man in der Regel die Klassenmitte stellvertretend f¨ ur die ganze Klasse. Der Modus l¨ asst sich im Gegensatz zu den anderen Lageparametern auch bei nominalen Merkmalen wie z.B. “X = Farbe“ berechnen. Wenn z.B. ein
3.1 Modus
55
Modekenner sagt, dass man in diesem Sommer blaue Hemden trage, so meint er vermutlich, dass der Anteil der Personen, die blaue Hemden tragen, der gr¨ oßte ist. Beispiel (stetiges Merkmal). Wir betrachten ein stetiges bzw. klassifiziertes Merkmals X, dessen Verteilung durch ein Histogramm dargestellt ist.
0.20 0.20
0.20 0.20 0.15 0.15 0.15 0.15
0.60 X
Modus
65
80
95
X
Modus
Im linken Bild besitzt die Klasse [50, 110] mit 0.60 den gr¨oßten Anteil, jedoch nicht den h¨ ochsten Wert der Dichte. Im rechten Bild haben wir diese Klasse nochmals in vier Klassen aufgeteilt, von denen nun jede nur noch einen Anteil von 0.15 besitzt. Der Verlauf der Dichte d(x) ist jedoch in beiden Histogrammen gleich und bei der Klasse [40, 50] am h¨ochsten. Daher sollte man in beiden Bildern dort den Modus lokalisieren. Man beachte, dass der Modus nicht immer eindeutig ist, und dass der Anteil des Modus durchaus unter 50% liegen kann! Beispiel. Die Urliste lautet: 50, 50, 3000, 6000, 6000, 800000. Hier ist sowohl der Wert 50, als auch der Wert 6000 “der“ Modus. Der Anteil des Modus betr¨ agt h(X = 50) = h(X = 6000) = 33.33%. Man sollte in der Praxis den Modus bei derart “t¨ uckischen“ F¨allen nur mit Vorsicht gebrauchen, um den Benutzer der statistischen Auswertungen nicht irrezuf¨ uhren. Beispiel. In der Abbildung 2.9 auf Seite 26 ist der Modus die Bedienzeitklasse 0-1 Minuten bzw. deren Mittelpunkt 0.5 Minuten. Die Klasse 2-5 Minuten besitzt zwar eine genauso große relative H¨aufigkeit, jedoch ist hier die Dichte geringer. Bei der bivariaten Verteilung h(x, y) in der Tabelle 2.1 auf Seite 34 stellt die Merkmalskombination “x = 7 Fenster und y = 2 T¨ uren“ den Modus dar. Auf Seite 21 ist das Merkmal “X = Getr¨ ankeart“ ein nominales Merkmal und besitzt den Merkmalswert “x = Limonade“ als Modus.
56
3 Lageparameter
3.2 Median Der Median wird auch Zentralwert oder 50%-Quantil genannt und setzt ein ordinales oder metrisches Merkmal voraus. Wir definieren in Anlehnung an die eingangs gegebene Beschreibung: Median (intuitive Definition) xme = Merkmalswert, welcher die Grundgesamtheit in zwei m¨ oglichst gleich große H¨ alften teilt, wobei in der einen H¨ alfte die Objekte mit den gr¨ oßeren Merkmalswerten, und in der anderen H¨ alfte die kleineren Merkmalswerte liegen.
(3.3)
Beispiel (stetiges Merkmal). Wir betrachten bei den Mitarbeitern eines Unternehmens das stetige bzw. klassifizierte Merkmal “X = Gehalt [Tsde]“. Die Verteilung ist sowohl als Histogramm als auch in kumulierter Weise dargestellt. Histogramm
Kumulierte Verteilung H(x) 1
0.2
0.13
0.50 0.35
0.05
0.50 1
4
0.15
0.50 5
10
X
1
4
Median
5
10
X
Median
Der Median xme teilt die Gesamtfl¨ ache des Histogramms in zwei gleich große H¨ alften. Bei der kumulierten Verteilung H(x) ergibt sich der Median ¨ als Urbild zu 0.50. Beide Uberlegungen f¨ uhren zu dem Ansatz H(xme ) = h(X ≤ xme ) = 0.50.
(3.4)
Gem¨ aß (2.30) lautet diese Gleichung hier konkret: (4 − 1) · 0.05 + (5 − 4) · 0.2 + (xme − 5) · 0.13 = 0.50 ⇔ xme = 6.1538 [Tsde]. Folglich haben 50% aller Mitarbeiter ein Gehalt von maximal oder weniger als 6153.8 Euro. Entsprechend verdient die andere H¨alfte der Mitarbeiter mindestens oder u ¨ber 6153.8 Euro. Diese Formulierung ist etwas unscharf, da wir anhand des Histogramms nicht erkennen k¨ onnen, ob es Mitarbeiter gibt, die exakt 6153.8 Euro verdienen (vgl. auch Bemerkung zu (2.34)).
3.2 Median
57
Beispiel (Urlisten). A: 20, 20, 64, 70, 77. Die Grundgesamtheit umfasst ungeradzahlig viele, 5 Objekte. Eine Aufteilung in zwei gleich große H¨ alften zu jeweils exakt 50% ist nicht m¨ oglich. Der dritte Messwert 64, der quasi in der Mitte steht, k¨onnte beiden H¨ alften gleichermaßen zugeordnet werden. 50%
50%
20,
20,
64,
70,
77
Median
Daher kommt der Merkmalswert 64 der Idee des Median am n¨achsten. Wir setzen: xme = 64. B: 12, 17, 30, 40, 64, 86. Die Grundgesamtheit umfasst geradzahlig viele, 6 Objekte. Zwar ist die Aufteilung in zwei gleich große H¨alften zu jeweils exakt 50% m¨ oglich, jedoch gibt es diesmal kein Objekt bzw. keinen Messwert, der eindeutig in der Mitte steht. 50%
50% 12,
17,
30,
40,
64,
86
Median
Hier streiten sich die Werte 30 und 40 um diesen Platz. Es ist u ¨blich, den Durchschnitt dieser beiden Werte als Median zu verwenden: = 35. xme = 30+40 2 C: 10, 10, 10, 10, 88. Hier liegt der dritte Messwert 10 in der “Mitte“. Daher setzen wir xme = 10. Es gibt aber 4 Objekte in der Grundgesamtheit, welche diesen “Median-Wert“ 10 gewissermaßen “gleichberechtigt“ tragen. 50%
50%
10,
10,
10,
10,
88
Median
Falsch w¨ are zu sagen, dass der Median das “dritte“ Objekt in der Liste w¨ are, denn der Median ist ein Merkmalswert und nicht ein Objekt bzw. Merkmalstr¨ ager! Dieses Beispiel zeigt auch, dass sich die intuitive Definition (3.3) nicht immer auf unmittelbare Weise verwirklichen l¨asst, und die eigentliche Idee des Median verloren gehen kann. D: 40, 12, 86, 17, 30, 64. Da die gleiche Urliste wie im Fall B vorliegt, ergibt sich auch hier = 35. Wir erinnern uns, dass die Reihenfolge der Objekte xme = 30+40 2 bzw. deren Messwerte bei Urlisten unerheblich ist. Um aber die H¨alfte mit den kleineren Werten und die H¨ alfte mit den gr¨oßeren Werten
58
3 Lageparameter
leichter zu finden, sollte man bei der Bestimmung des Medians die Urliste vorher bez¨ uglich X sortieren! Die Beispiele A und C zeigen, dass man eine Gesamtheit nicht immer in zwei gleich große H¨ alften mit exakt 50% kleineren Werten und exakt 50% gr¨oßeren Werten aufteilen kann. Dies liegt daran, dass man die Mitte selbst einer Seite zuordnen muss. Wenn man die Mitte zweimal vergibt, also beiden Seiten zuordnet, entstehen zwei “H¨ alften“, die jeweils einen Anteil von mindestens 50% besitzen. Diese Eigenschaft verwendet man bei der genaueren, exakten Definition des Medians: Median (formale Definition) Mindestens 50% aller Objekte sind kleiner oder gleich dem Median und mindestens 50% aller Objekte sind gr¨ oßer oder gleich dem Median: h(X ≤ xme ) ≥ 0.50
h(X ≥ xme ) ≥ 0.50.
und
(3.5)
Wir u ufen diese Definition an Hand der obigen Beispiele: ¨berpr¨ A: B: C:
h(X ≤ 64) = 0.60 ≥ 0.50 h(X ≤ 35) = 0.50 ≥ 0.50 h(X ≤ 10) = 0.80 ≥ 0.50
h(X ≥ 64) = 0.60 ≥ 0.50. h(X ≥ 35) = 0.50 ≥ 0.50. h(X ≥ 10) = 1.00 ≥ 0.50.
und und und
Im Fall B ist auch jeder andere Wert xme mit 30 ≤ xme ≤ 40 ein Median, da er die erforderlichen Ungleichungen (3.5) erf¨ ullt. Dies zeigt, dass der Median in bestimmten F¨ allen nicht eindeutig ist. Beispiel (diskretes Merkmal). Die Polizei von Kleptodorf betrachtet zu den Tagen des letzten Jahres das diskrete Merkmal “X = Anzahl Einbr¨ uche pro Tag“. Die Verteilung ist sowohl in nicht-kumulierter als auch in kumulierter Weise gegeben. Kumulierte Verteilung H(x)
Stabdiagramm 1
50%
50%
0.8
0.35
0.50
0.2 0.15 0.1
0.45 0.35 0.2
0
1
2
3
4
X
Median
Der Median xme = 3 besagt, dass
0
1
2
3
Median
4
X
3.2 Median
-
59
an mindestens 50% (es sind sogar 80%) aller Tage 3 oder weniger Einbr¨ uche gemeldet worden sind, an mindestens 50% (es sind sogar 55%) aller Tage 3 oder mehr Einbr¨ uche gemeldet worden sind.
Offenbar k¨ onnen beim Median merkw¨ urdige Besonderheiten auftreten. Daher sei empfohlen, den Median nur in Situationen zu gebrauchen, die sich mit der intuitiven Vorstellung von (3.3) decken. Die Berechnungsmethoden, die wir in den Beispielen benutzt haben, kann man wie folgt zusammenfassen: Berechnung des Median bei gegebener -
-
Urliste: Sortiere die Urliste nach aufsteigenden Merkmalswerten: x1 ≤ x2 ≤ . . . ≤ xN Dann erh¨ alt man: ⎧ ⎪ falls N ungerade, ⎨x N2+1 xme = x + x N +1 ⎪ ⎩ N2 2 falls N gerade. 2
(3.6)
Verteilung h(x) oder H(x): L¨ ose die Ungleichungen h(X ≤ xme ) ≥ 0.50
und
h(X ≥ xme ) ≥ 0.50.
(3.7)
Bei einem stetigen bzw. klassifizierten Merkmal X ist (3.7) gleichbedeutend mit (3.8) H(xme ) = 0.50. Die Gleichung (3.8) kann man mit Hilfe von (2.31) l¨osen. Bemerkung: Statt den Median u ¨ber (3.5) zu definieren, werden in der Literatur gelegentlich die Ungleichungen h(X ≤ xme ) ≥ 0.50
und
h(X < xme ) ≤ 0.50
(3.9)
benutzt. Wegen h(X ≥ xme ) ≥ 0.50 ⇔ 1 − h(X ≥ xme ) ≤ 1 − 0.50 ⇔ h(X < xme ) ≤ 0.50 sind beide Definitionen ¨ aquivalent.
60
3 Lageparameter
3.3 Quantile Der Median versucht eine Grundgesamtheit m¨ oglichst gut in zwei gleich große H¨alften zu je 50% aller Objekte aufzuteilen. Bei einem α-Quantil verh¨alt es sich ¨ ahnlich, jedoch k¨ onnen diesmal die beiden Teile der Gesamtheit auch unterschiedlich groß sein. Wir setzen ein ordinales oder metrisches Merkmal voraus. α-Quantil (intuitive Definition) xα = Merkmalswert, welcher die Grundgesamtheit so in zwei Tei- (3.10) le splittet, dass der Anteil der Objekte mit den kleineren Merkmalswerten α betr¨ agt, und der Anteil der Objekte mit den gr¨ oßeren Merkmalswerten 1 − α betr¨agt. Der Median ist ein spezielles Quantil, n¨ amlich das 50%-Quantil. Im Grunde k¨ onnen auch hier wieder die gleichen Besonderheiten auftreten wie beim Median. Die pr¨ azise Definition lautet: α-Quantil (formale Definition) Mindestens α 100% aller Objekte sind kleiner oder gleich dem α-Quantil und mindestens (1 − α) 100% aller Objekte sind gr¨oßer oder gleich dem α-Quantil: h(X ≤ xα ) ≥ α
h(X ≥ xα ) ≥ 1 − α.
und
(3.11)
Die Berechnung eines Quantils kann man analog zur Berechnung des Medians durchf¨ uhren, wobei die Ungleichungen 3.11 zu erf¨ ullen sind. Beispiel (diskretes Merkmal). Im Beispiel auf Seite 58 wollen wir das 30%-Quantil des Merkmals “X = Anzahl Einbr¨ uche pro Tag“ bestimmen, wobei die Verteilung sowohl in nicht-kumulierter als auch in kumulierter Weise gegeben ist. Kumulierte Verteilung H(x)
Stabdiagramm 1
70%
30%
0.8
0.35
0.45 0.35
0.2 0.15 0.1
0.30 0
1
2
30%-Quantil
3
4
X
0.2 0
1
2
30%-Quantil
3
4
X
3.3 Quantile
61
Das 30%-Quantil x30% = 1 besagt, dass - an mindestens 30% (es sind sogar 35%) aller Tage 1 oder weniger Einbr¨ uche gemeldet worden sind, - an mindestens 70% (es sind sogar 80%) aller Tage 1 oder mehr Einbr¨ uche gemeldet worden sind. Offenbar k¨ onnen auch beim α-Quantil merkw¨ urdige Besonderheiten auftreten. Daher sollte man diese Kenngr¨ oße nur in Situationen gebrauchen, die sich mit der intuitiven Vorstellung von (3.10) decken. Bei stetigen bzw. klassifizierten Merkmalen ist die Bedingung (3.11) mit H(xα ) = α
(3.12)
aquivalent. Dies zeigt, dass Quantile gewissermaßen als Umkehrung bzw. Um¨ kehrfunktion der kumulierten Verteilung aufgefasst werden k¨onnen: ⇔
H(xα ) = α
xα = H −1 (α).
(3.13)
Beispiel (stetiges Merkmal). Wir betrachten nochmals das Beispiel auf Seite 56 und bestimmen f¨ ur das stetige bzw. klassifizierte Merkmal “X = Gehalt [Tsde]“ das 80%-Quantil. Die Verteilung liegt sowohl als Histogramm als auch in kumulierter Weise vor. Histogramm
Kumulierte Verteilung H(x) 1
0.2
0.80 0.13 0.35
0.05
0.80 1
4
5
0.20 10
0.15
X
1
4
80%-Quantil
5
10
X
80%-Quantil
Das 80%-Quantil x80% teilt die Gesamtfl¨ ache des Histogramms im Verh¨altnis 80 : 20. Der Ansatz H(x80% ) = h(X ≤ x80% ) = 0.80
(3.14)
ergibt mit (2.30): (4 − 1) · 0.05 + (5 − 4) · 0.2 + (x80% − 5) · 0.13 = 0.80 ⇔ x80% = 8.4615 [Tsde]. Folglich haben (mindestens) 80% aller Mitarbeiter ein Gehalt von maximal 8461.5 Euro. Entsprechend verdienen (mindestens) 20% der Mitarbeiter mindestens 8461.5 Euro.
62
3 Lageparameter
Ein weiteres Beispiel haben wir bereits auf Seite 31 in (2.36) und Abbildung 2.12 kennen gelernt. Bemerkung: ¨ Aquivalent zu (3.11) ist h(X ≤ xα ) ≥ α
h(X < xα ) ≤ α.
und
(3.15)
3.4 Arithmetisches Mittel Das arithmetische Mittel x ¯ ist nur bei einem metrischen Merkmal X sinnvoll und wird auch als Durchschnittswert oder Mittelwert bezeichnet. Eine Interpretation haben wir bereits zu Beginn des Kapitels “Lageparameter“ gegeben. Zur Berechnung des Mittelwertes gibt es mehrere Methoden, die davon abh¨ angen, ob eine Urliste, eine Verteilung oder eine Dichte bzw. Histogramm zur Verf¨ ugung stehen. Beispiel (Urliste). Die Urliste umfasst N = 15 Werte: 50, 35, 70, 35, 35, 50, 70, 90, 35, 50, 70, 35, 70, 70, 35. N Die Summe aller Messwerte xi ergibt i=1 xi = 800. Dieser Gesamtwert wird gleichm¨ aßig auf alle N = 15 Objekte verteilt. Dadurch erh¨alt jedes Objekt gedanklich denselben Wert, ohne dass sich die Gesamtsumme 800 andert: ¨ 50 + 35 + 70 + 35 + 35 + 50 + 70 + 90 + 35 + 50 + 70 + 35 + 70 + 70 + 35 15 = 53.33. (3.16)
x ¯=
Die allgemeine Formel ist in (3.22) notiert.
Nun wollen wir bei alleiniger Kenntnis der relativen H¨aufigkeiten h(x) das arithmetische Mittel berechnen. Beispiel (diskrete Verteilung). Im letzten Beispiel lautet die Verteilung h(x): hx
0.4 0.333333 0.2 0.0666667
X 35
50
70
90
3.4 Arithmetisches Mittel
63
W¨ urden wir den Wert zu N kennen, k¨ onnten wir die Urliste exakt rekon¨ struieren. Uber (3.17) A(X = xi ) = h(xi ) · N l¨ asst sich n¨ amlich angeben, wie oft ein Merkmalswert xi in der Urliste vorkommt. F¨ ur die Berechnung des arithmetischen Mittels ist es jedoch unerheblich, den Wert f¨ ur N zu kennen. Er k¨ urzt sich aus der Rechnung heraus. Wir zeigen dies, indem wir zun¨ achst auf (3.16) zur¨ uckgreifen und die Werte im Z¨ ahler in sortierter Reihenfolge wiedergeben: x ¯ = (35 + 35 + 35 + 35 + 35 + 35 + 50 + 50 + 50 + (3.18) +70 + 70 + 70 + 70 + 70 + 90) / 15 35 · 6 + 50 · 3 + 70 · 5 + 90 · 1 . 15 Die Multiplikatoren 6,3,5,1 z¨ ahlen, wie oft die verschiedenen Merkmalswerte xi vorkommen und entsprechen daher den absoluten H¨aufigkeiten A(X = xi ). Im Nenner notieren wir N statt 15: =
=
35 · A(X = 35) + 50 · A(X = 50) + 70 · A(X = 70) + N 90 · A(X = 90) + N
= 35 ·
A(X = 50) A(X = 70) A(X = 35) + 50 · + 70 · + N N N A(X = 90) + 90 · N
(3.17)
= 35 · h(35) + 50 · h(50) + 70 · h(70) + 90 · h(90)
(3.19)
= 53.33. Formel (3.19) zeigt exemplarisch, wie man auch ohne Urliste bei alleiniger Kenntnis der Verteilung h(x) das arithmetische Mittel berechnen kann. Man nennt m (Wert)k · (Anteil)k (3.20) x ¯= k=1
einen gewogenen Durchschnitt oder gewogenes arithmetisches Mittel. Es ist kein “anderes“ arithmetisches Mittel, sondern nur eine andere Berechnungsmethode. Die Anzahl der Summanden m gibt an, wie viele verschiedene Merkmalswerte vorkommen. Im Beispiel ist m = 4. In (3.23) haben wir die Formel des gewogenen Durchschnitts in allgemeiner Form notiert.
64
3 Lageparameter
Beispiel (klassifiziertes Merkmal). Bei einer Tankstelle werden pro Kunde die Absatzmenge “X = getankte Menge [l/Kunde]“ beobachtet. Die Verteilung von X ist als Histogramm gegeben: Histogramm 0.025 0.015 0.00667
5
35
20
0.30
0.50
0.20
55
75
X
65
45
Da wir keine Urliste zur Verf¨ ugung haben, wollen wir versuchen, den durchschnittlichen Absatz pro Kunde x¯ gem¨aß (3.20) als gewogenen Durchschnitt zu berechnen. Hierbei ist es u ¨blich, als Merkmalswert xk die jeweilige Klassenmitte zu w¨ ahlen: x ¯=
3
(Klassenmitte)k · (Anteil)k
(3.21)
k=1
= 20 · h(20) = 20 · 0.20
+ +
45 · h(45) 45 · 0.50
+ +
65 · h(65) 65 · 0.30
= 46. Die Wahl der Klassenmitte als “Repr¨ asentanten“ f¨ ur alle Werte einer Klasse ber¨ ucksichtigt, dass in einem Histogramm u ¨ber jeder Klasse die Dichte waagrecht verl¨ auft, und somit die Merkmalswerte innerhalb einer Klasse als gleichverteilt angenommen werden. Man beachte, dass bei Kenntnis der Urliste durchaus ein anderes Ergebnis f¨ ur den Mittelwert auftreten kann. Dies beruht in erster Linie auf der Tatsache, dass ein Histogramm die Verteilung eines Merkmals X nicht exakt, sondern eben nur auf Klassen bezogen, wiedergibt. Wir fassen alle Berechnungsmethoden f¨ ur das arithmetische Mittel zusammen:
3.5 Bedingte Mittelwerte und deren Aggregation
65
Arithmetisches Mittel bei gegebener N 1 xi N i=1
-
Urliste:
-
Verteilung h(x): Die verschiedenen Merkmalswerte seien mit x1 , . . . , xm bezeichnet. x ¯=
x ¯=
m
(3.22)
xk · h(xk ) = gewogenes arithmetisches Mittel (3.23)
k=1
Bei einem stetigen bzw. klassifizierten Merkmal X w¨ahlt man f¨ ur x k die jeweilige Klassenmitte. F¨ ur das gewogene arithmetische Mittel gebraucht man auch synonym den Ausdruck “gewogener Durchschnitt“ oder “gewichteter Mittelwert“. Bemerkung: Gewogene arithmetische Mittel werden auch in anderen Gebieten angewendet, bei denen statt der relativen H¨ aufigkeiten sogenannte “Gewichte gk“ verwendet werden. Dabei ist zu beachten, dass das Gesamtgewicht immer genau den Wert 1 ergibt: x ¯=
m k=1
xk · gk = gewogener Mittelwert,
wobei
gk = 1.
(3.24)
k
3.5 Bedingte Mittelwerte und deren Aggregation Bezieht sich ein Mittelwert nicht auf die komplette Grundgesamtheit, sondern nur auf die Objekte einer Teilgesamtheit, so wollen wir von einem bedingten Mittelwert bzw. bedingten Durchschnittswert sprechen. Bei den bedingten H¨aufigkeiten haben wir das Selektionskriterium bzw. den Filter zur Bildung der Teilgesamtheit hinter einem senkrechten Strich “|“ notiert. Bei den bedingten Mittelwerten werden wir der Einfachheit halber das Selektionskriterium als “Index“ unter dem Symbol f¨ ur den Durchschnitt anf¨ ugen. x ¯Y ∈B = Mittelwert von X in der Teilgesamtheit, die durch “Y ∈ B“ festgelegt ist.
(3.25)
Bei der Berechnung des bedingten Mittelwertes kommen die gleichen Methoden wie bisher zur Anwendung. Beispiel (S¨ ußwarenladen). Julius Sch¨ aflein besitzt einen S¨ ußwarenladen, in dem am letzten Mittwoch 12 Kunden eingekauft haben. Er hat zu den
66
3 Lageparameter
Kunden die Merkmale “X = Anzahl gekaufter Schokoladentafeln“ und “Y = Geschlecht“ registriert. Kunden im S¨ ußwarenladen Nr. X = Anzahl Tafeln Y = Geschlecht 1 1 m 2 1 w 3 3 w 4 3 w 5 1 w 6 2 w 7 3 m 8 3 m 9 2 w 10 1 w 11 3 m 12 1 w
Julius m¨ ochte wissen, wie viele Tafeln Schokolade im Schnitt von M¨annern, und wie viele Tafeln im Schnitt von Frauen gekauft worden sind. Dazu filtert er zun¨ achst aus der obigen Urliste die Teilgesamtheit der N1 = 4 M¨ anner und die Teilgesamtheit der N2 = 8 Frauen. Anschließend berechnet er f¨ ur jede Gesamtheit getrennt das arithmetische Mittel: ¯Y =m = mittlere Anzahl gekaufter Tafeln pro Mann x ¯m = x =
1+3+3+3 = 2.5, 4
(3.26)
x ¯w = x ¯Y =w = mittlere Anzahl gekaufter Tafeln pro Frau =
1+3+3+1+2+2+1+1 = 1.75. 8
(3.27)
Diese Berechnung hat Julius analog zu (3.22) durchgef¨ uhrt. Man kann die gleichen Ergebnisse aber auch analog zu (3.23) als bedingten, gewogenen Mittelwert erhalten. Bei der Gewichtung ist allerdings die entsprechende bedingte Verteilung zu verwenden. Daher ermittelt Julius zun¨achst die jeweils bedingte Verteilung der Schokoladentafelanzahl X unter M¨annern h(X = 1|Y = m) = 0.25, h(X = 3|Y = m) = 0.75
h(X = 2|Y = m) = 0,
und unter Frauen: h(X = 1|Y = w) = 0.50, h(X = 3|Y = w) = 0.25.
h(X = 2|Y = w) = 0.25,
Damit kann Julius analog zu (3.23) die bedingten, gewogenen Mittelwerte berechnen:
3.5 Bedingte Mittelwerte und deren Aggregation
67
x ¯m = 1 · h(X = 1|Y = m) + 2 · h(X = 2|Y = m) + 3 · h(X = 3|Y = m) = 1 · 0.25 + 2 · 0 + 3 · 0.75 = 2.5, x ¯w = 1 · h(X = 1|Y = w) + 2 · h(X = 2|Y = w) + 3 · h(X = 3|Y = w) = 1 · 0.50 + 2 · 0.25 + 3 · 0.25 = 1.75. Beide Ergebnisse stimmen mit den obigen Ergebnissen (3.26) und (3.27) u ¨berein. Wenn eine Grundgesamtheit in m verschiedene Teilgesamtheiten aufgesplittet ist und zu jeder Teilgesamtheit der Mittelwert vorliegt, so kann man aus diesen den Gesamtmittelwert berechnen. Diesen erh¨alt man als gewogenen Durchschnitt der bedingten Mittelwerte: Aggregation bedingter Mittelwerte x ¯= =
m i=1 m
x ¯Bi · h(Y ∈ Bi )
(3.28)
(bedingter Mittelwert)i · (Anteil der Teilgesamtheit)i
i=1
wobei die Bedingungen B1 , . . . , Bm disjunkt und vollst¨andig sein m¨ ussen. Der Beweis l¨ asst sich mit Hilfe von (2.55) f¨ uhren und wird dem begeisterten Leser u ¨berlassen. Wir illustrieren den Sachverhalt hier nur exemplarisch: Beispiel (Fortsetzung). Julius Sch¨ aflein berechnet aufgrund der kompletten Urliste, also ohne Trennung von M¨ anner und Frauen, die mittlere Anzahl gekaufter Schokoladentafeln pro Person: x ¯ = 24/12 = 2.
(3.29)
Dieses Ergebnis erh¨ alt Julius auch als gewogenen Durchschnitt aus den ¯w = 1.75, den bereits bekannten bedingten Mittelwerte x ¯m = 2.5 und x d.h. als Mittelwert von Mittelwerten. Er ben¨otigt dazu den Anteil der M¨ anner und den Anteil der Frauen: h(Y = m) = 4/12 = 0.3333,
h(Y = w) = 8/12 = 0.6667.
Gem¨ aß (3.28) erh¨ alt Julius so abermals den Gesamtdurchschnitt: ¯Y =w · h(Y = w) x ¯=x ¯Y =m · h(Y = m) + x 8 4 + 1.75 · = 2. = 2.5 · 12 12
68
3 Lageparameter
Beispiel (Kasse im Supermarkt). Verena hat gestern beim Kassieren von 120 Kunden im Schnitt 2.5 Minuten pro Kunde ben¨otigt, Giuseppe beim Kassieren von 260 Kunden 1.4 Minuten, und Philomenia beim Kassieren von 200 Kunden 2.0 Minuten. Edmund ist ein neuer Mitarbeiter und hat gestern nur bei 70 Kunden kassiert. Wegen Edmund hat sich die mittlere Kassierdauer pro Kunde um 16% erh¨ oht. Wie lange ben¨otigt Edmund im Schnitt beim Kassieren eines Kunden? Bei der uns nicht zug¨ anglichen Urliste entspricht einem Objekt ein Kunde, bei dem die Merkmale “X = Kassierdauer [Min]“ und “Y = Bediener“ mit den abgek¨ urzten Werten v,g,p,e gemessen worden sind. Somit ist: x ¯v = 2.5,
x ¯g = 1.4,
x ¯p = 2.0,
x ¯e =?
(3.30)
Es gab gestern insgesamt N = 120 + 260 + 200 + 70 = 650 Kunden und 120 + 260 + 200 = 580 “Nicht-Edmund-Kunden“. Bei letzteren betr¨agt die mittlere Kassierzeit pro Kunde: ¯v · h(Y = v) + x ¯g · h(Y = g) + x ¯p · h(Y = p) x ¯Y =e = x 260 200 120 + 1.4 · + 2.0 · = 1.83448 [M in/Kunde]. = 2.5 · 580 580 580 Der Gesamtdurchschnitt x ¯ liegt 16% h¨ oher als dieser bedingte Mittelwert, also bei x ¯ = 1.83448·1.16 = 2.128 Minuten pro Kunde. Den Gesamtdurchschnitt kann man auch als gewogenen Durchschnitt darstellen: ¯Y =e · h(Y = e) x ¯=x ¯Y =e · h(Y = e) + x 580 70 + 1.83448 · . 2.128 = x ¯Y =e · 650 650
⇔
Diese Gleichung l¨ asst sich nach dem gesuchten bedingten Mittelwert aufl¨ osen: (3.31) x ¯e = 4.56 [M in/Kunde]. Weitere Probleme bei der Aggregation von Mittelwerten werden im folgenden Kapitel besprochen.
3.6 Harmonisches Mittel Bei der Berechnung eines gewogenen arithmetisches Mittels x ¯ gem¨aß (3.23) oder (3.28) setzen wir stillschweigend voraus, dass sich die Anteile h(xi ) auf dieselben Objekte der Grundgesamtheit beziehen, die f¨ ur das Merkmal X “Merkmalstr¨ ager“ sind. T¨ uckisch wird es, wenn dies nicht zutrifft, und sich die Anteile bzw. das W¨ agungsschema auf andere Objekte beziehen als die Variable X. In einer solchen Situation haben wir streng genommen zwei verschiedene Grundgesamtheiten vorliegen.
3.6 Harmonisches Mittel
69
Beispiel (Weinflaschen). Ein Weinh¨ andler bietet A-Wein zu 8 [e/Flasche] und B-Wein zu 12 [e/Flasche] an. a) Waltrude kauft 5 Flaschen A-Wein und 5 Flaschen B-Wein ein. Sie betrachtet ihren Einkaufskorb als Grundgesamtheit, bei der die Flaschen die Rolle der “Objekte“ spielen. Das Merkmal “X = Preis [e/Flasche]“ besitzt diese Objekte als Merkmalstr¨ager. 8
12
8 8
8
8
12
12
12 12
Da sich die Anteile h(X = 8) = 0.50 und h(X = 12) = 0.50 auf die Grundgesamtheit “Flaschen im Korb“ beziehen, kann Waltrude den Durchschnittspreis pro Flasche als gewogenes arithmetisches Mittel berechnen: x ¯ = 8 · 0.50 + 12 · 0.50 = 10 [e/Flasche].
(3.32)
b) Ottfried m¨ ochte f¨ ur insgesamt 240 [e] Wein einkaufen. Er beschließt, sein Geld zu gleichen H¨ alften, also zu je 50% f¨ ur A-Wein und B-Wein auszugeben. Die Anteile “50%“ beziehen sich nicht auf die Grundgesamtheit “Flaschen im Korb“ sondern auf die Grundgesamtheit der - wenn auch nur gedanklichen - “240 Ein-Eurom¨ unzen in Ottfrieds Geldbeutel“. Die Objekte dieser Grundgesamtheit sind demnach nicht Flaschen, sondern Ein-Eurom¨ unzen. Diese besitzen das Merkmal “Y = Weinsorte“, das anzeigt, ob eine M¨ unze zum Kauf von A-Wein oder B-Wein verwendet wird.
Zur Berechnung des Durchschnittspreises x ¯ ist es daher vollkommen unsinnig, die Werte der Variablen X mit den Anteilen h(Y = A) = 0.50, h(Y = B) = 0.50 gem¨ aß x ¯ = x1 · h(Y = A) + x2 · h(Y = B) = 10 [e/Flasche]
(3.33)
zu gewichten. Stattdessen m¨ ussen wir zun¨achst Ottfrieds FlaschenGrundgesamtheit bzw. seinen Einkaufskorb mit einer kleinen Nebenrechnung rekonstruieren: Anzahl A-Flaschen =
Ausgaben f¨ ur A-Flaschen Preis pro A-Flasche
240 · h(Y = A) = 15, = 8
(3.34)
70
3 Lageparameter
Anzahl B-Flaschen =
Ausgaben f¨ ur B-Flaschen Preis pro B-Flasche
240 · h(Y = B) = 10. = 12
(3.35)
Den Durchschnittspreis erh¨ alt Ottfried, indem er die Gesamtausgaben von 240 Euro durch die Anzahl aller eingekaufter Flaschen teilt: x¯ = 240 15+10 = 9.6 [e/Flasche]. Um diese Rechnung verallgemeinern zu k¨onnen, schreiben wir sie nochmals mit den Termen (3.34) und (3.35) auf: x ¯=
=
=
240 240·h(Y =A) 8
+
240·h(Y =B) 12
1 8
1 1 · h(Y = A) + 12 · h(Y = B)
1 8
1 = 9.6 [e/Flasche]. 1 · 0.50 + 12 · 0.50
(3.36)
Mit der Darstellung (3.36) kann Ottfried gewissermaßen ohne Nebenrechnungen mit einer einzigen Formel zum Ergebnis kommen. Diese Formel entspricht dem sogenannten gewogenen harmonischen Mittel. Es ben¨ otigt hier neben den zwei Merkmalswerten x1 = 8 agungsschema bzw. die Anteile h(Y = A) und und x2 = 12 nur das W¨ h(Y = B), die sich allerdings auf die “Eurom¨ unzen-Grundgesamtheit“ beziehen. Ob eine arithmetische oder eine harmonische Mittelwertbildung geboten ist, l¨asst sich relativ einfach mit einer Regel formulieren, sofern sich das Merkmal X als Quotient zweier Gr¨ oßen darstellen l¨ asst. Beispiel (Fortsetzung). Das Merkmal X ist wegen X = Preis =
Geld Flasche
=
Z¨ ahlergr¨ oße Nennergr¨ oße
als Quotient darstellbar. Waltrude hat ein W¨agungsschema, das sich auf die Nennergr¨ oße “Flasche“ bezieht. Hier ist das arithmetische Mittel angebracht. Ottfrieds W¨ agungsschema bezieht sich auf die Z¨ahlergr¨oße “Geld“. Hier ist das harmonische Mittel angebracht. In der Regel entspricht die “Nennergr¨ oße“ dem Merkmalstr¨ager bzw. Objekt ¨ zu X. Wir fassen die bisherigen Uberlegungen zusammen:
3.6 Harmonisches Mittel
71
Gewogenes harmonisches und arithmetisches Mittel Z¨ ahlergr¨ oße oße, welche m verDie Variable X = Nennergr¨ oße sei eine Quotientengr¨ , x , . . . , x besitzt. Ferner liegen Anteile hk schiedene Merkmalswerte x 1 2 m mit hk = 1 vor.
Fall A: Die Anteile hk beziehen sich auf die Nennergr¨oße. Dann gilt: x ¯=
m
xk · hk = gewogenes arithmetisches Mittel.
(3.37)
k=1
Fall B: Die Anteile hk beziehen sich auf die Z¨ahlergr¨oße. Dann gilt: x ¯=
1 1 x1 h1
+
1 x2 h2
+ · · · x1m hm
= gewogenes harmonisches (3.38) Mittel.
Beispiel (Durchschnittstempo). “Geschwindigkeit = Weg/Zeit“ ist eine Quotientengr¨oße. 1. Max f¨ ahrt mit 70 [km/h] zu seiner Oma und mit 130[km/h] wieder zur¨ uck. Die Durchschnittsgeschwindigkeit auf der Gesamtstrecke betr¨ agt nicht 100 [km/h]! Das W¨ agungsschema “50% Hinweg und 50% R¨ uckweg“ bezieht sich auf die Z¨ ahlergr¨oße “Weg“. Daher berechnet sich die Durchschnittsgeschwindigkeit x ¯ als harmonisches Mittel: x ¯=
1 70
1 = 91 [km/h]. 1 · 0.50 + 130 · 0.50
2. Oskar f¨ ahrt 2 Stunden lang mit 70 [km/h] und 2 Stunden lang mit 130 [km/h]. Seine Durchschnittsgeschwindigkeit liegt bei 70 · 24 + 130 · 24 = 100 [km/h]. Das W¨ agungsschema bezieht sich auf die Nennergr¨oße “Zeit“. 3. Amanda bringt ihre Tochter zu Fuß mit einer Durchschnittsgeschwindigkeit von 2 [km/h] zum Kindergarten. Wie schnell muss Amanda auf dem R¨ uckweg laufen, damit sie insgesamt im Schnitt 4 [km/h] schnell ist? Wie bei Max bezieht sich hier das W¨ agungsschema “50% Hinweg und 50% R¨ uckweg“ auf die Z¨ ahlergr¨ oße “Weg“. Daher gilt f¨ ur die gesuchte R¨ uck-Geschwindigkeit x: 4=
1 2
1 · 0.50 +
1 x
· 0.50
[km/h].
Diese Gleichung besitzt keine reelle L¨ osung. Es m¨ usste x = ∞ gelten, d.h. Amanda m¨ usste bei ihrer Ankunft im Kindergarten im selben Moment schon wieder zu Hause sein.
72
3 Lageparameter
Beispiel (Produktivit¨ at). Das Unternehmen Maloch GmbH produziert in Frankreich an den Standorten A, B und in den USA an den Standorten C,D. Die Produktivit¨ at “X = St¨ ucke pro Mitarbeiter“ ist an den vier Standorten unterschiedlich: In A 9 [Stk/Pers], in B 14 [Stk/Pers], in C 18 [Stk/Pers], in D 15 [Stk/Pers]. In Frankreich arbeiten 15% der Mitarbeiter in A, der Rest in B. In den USA teilen sich die Mitarbeiter auf die Standorte C und D wie 7:31 auf. 37% aller produzierten St¨ ucke werden in Frankreich, der Rest in den USA hergestellt. Wie viele St¨ ucke werden im Schnitt von einem Mitarbeiter der Maloch GmbH produziert ? Die Durchschnittliche Produktivit¨ at auf L¨ ander-Ebene l¨asst sich mit dem arithmetischen Mittel berechnen, da sich die Mitarbeiteranteile auf die Nennergr¨ oße beziehen: x ¯F = 9 · 0.15 + 14 · 0.85 = 13.25 [Stk/P ers], 31 7 + 15 · = 15.55 [Stk/P ers]. x ¯U = 18 · 38 38 Diese zwei Ergebnisse lassen sich harmonisch mitteln, da sich die Verteilung der St¨ ucke auf die Z¨ ahlergr¨ oße bezieht: x ¯=
1 13.25
1 · 0.37 +
1 15.55
· 0.63
= 14.61 [Stk/P ers].
3.7 Geometrisches Mittel Dieser Lageparameter passt nicht so ganz in das bisherige Konzept, da keine “Grundgesamtheit“ vorliegt. Die Idee ist ¨ ahnlich wie beim arithmetischen Mittel. Dort haben wir die Sum¯“ dargeme von n Werten x1 , x2 , . . . , xn als Summe von n gleichen Werten “ x stellt: ¯+x ¯ + ... + x ¯. x1 + x2 + . . . + xn = x n L¨ ost man nach x ¯ auf, so erhalten wir die u ¯ = n1 i=1 xi . ¨bliche Formel x Beim geometrischen Mittel verh¨ alt es sich ¨ ahnlich, jedoch wollen wir nun das Produkt von n Werten x1 , x2 , . . . , xn als Produkt von n gleichen Werten g dargestellen: x1 · x2 · . . . · xn = g · g · . . . · g. Diese Gleichung, die man auch mit x1 · x2 · . . . · xn = g n notieren kann, l¨osen wir nach g auf.
3.7 Geometrisches Mittel
73
Geometrisches Mittel g=
√ n
x1 · x2 · . . . · xn
(3.39)
Das geometrische Mittel wird vor allem bei Wachstumsprozessen und bei der Indexrechnung angewendet, um eine durchschnittliche Ver¨anderung darstellen zu k¨ onnen. Beispiel (Umsatz¨ anderung). Der Umsatz ver¨anderte sich im Laufe der letzten 4 Jahre im ersten Jahr um 22%, im zweiten Jahr um 12%, im dritten Jahr um 44% und letzten Jahr um -11% . Wie hoch ist die durchschnittliche, j¨ ahrliche Umsatz¨ anderung? F¨ ur den tats¨achlichen Werteverlauf gilt: Ausgangswert · 1.22 · 1.12 · 1.44 · 0.89 = Endwert.
(3.40)
Statt mit den vier unterschiedlichen Faktoren 1.22, 1.12, 1.44, 0.89 wollen wir den Werteverlauf mit 4 gleichen Faktoren g gegl¨attet darstellen: Ausgangswert · g · g · g · g = Endwert.
(3.41)
Aus beiden Gleichungen (3.40) und (3.41)folgt 1.22 · 1.12 · 1.44 · 0.89 = g 4 . Die L¨ osung entspricht dem geometrischen Mittel der Faktoren 1.22, 1.12, 1.44, 0.89: √ 4 g = 1.22 · 1.12 · 1.44 · 0.89 = 1.15036. Daher stiegen die Ums¨ atze im Schnitt um 1.15036 - 1 = 0.15036 = 15.036% pro Jahr. Die gleiche Rechnung wie im Beispiel ergibt sich etwa bei der Berechnung einer durchschnittlichen Rendite oder eines mittleren Zinssatzes, einer Preissteigerung, einer Ver¨ anderung des Bruttosozialproduktes oder Rentensteigerung.
4 Streuungsmaße
Streuungsmaße dienen zur Quantifizierung, wie weit auseinander bzw. wie ur eng zusammen die einzelnen Werte xi eines Merkmals X liegen. Da es hierf¨ unterschiedliche Konzepte gibt, betrachtet man in der Statistik mehrere, verschiedene Streuungsmaße. Wir wollen in diesem Kapitel den Range, die mittlere Abweichung, die Varianz und die Standardabweichung eines Merkmals X besprechen. Mit Ausnahme des Range messen diese Kenngr¨oßen auf jeweils unterschiedliche Weise, wie nahe die einzelnen Werte xi eines Merkmals X an dessen Mittelwert x ¯ liegen. Ist das Streuungsmaß gering, kann man den Mittelwert x ¯ als “guten“ Repr¨ asentanten f¨ ur die Einzelwerte xi auffas¯ sen. Ist das Streuungsmaß hoch, sind die Einzelwerte xi vom Mittelwert x sehr verschieden und werden von ihm “schlechter“ repr¨asentiert. Die Varianz und die Standardabweichung spielen vor allem in der Wahrscheinlichkeitsrechnung und in der Induktiven Statistik eine bedeutende Rolle. In der Deskriptiven Statistik hingegen ist der Einsatz dieser Streuungsmaße mangels Anschaulichkeit nur begrenzt sinnvoll.
4.1 Range Der Range eines Merkmals X, auch Spannweite genannt, ist der Abstand zwischen dem gr¨ oßten und dem kleinsten Merkmalswert: Range bzw. Spannweite R = Maximalwert − Minimalwert Die Bildung des Range setzt ein metrisches Merkmal X voraus. Beispiel (Geh¨ alter). In der Ruin AG verteilen sich die Jahresgeh¨alter der Mitarbeiter gem¨ aß folgendem Histogramm:
76
4 Streuungsmaße
0.30
0.50
0.20 5
35
55
75
X= [Tsd.Euro]
Range = 70
Folglich besteht zwischen dem h¨ ochsten und dem geringsten Gehalt ein Unterschied von 70000 [e]. Beispiel (Temperaturen). Die Temperaturen der letzten Woche in Celsiusgraden lauten: 3, 10, 2, -5, 8, 8, 7. Der Range betr¨ agt R = 10 − (−5) = 15 Grad. Da sich der Range an den Extremwerten einer Verteilung orientiert, verschleiert er das Streuungsverhalten der Merkmalswerte, die gewissermaßen im Inneren der Verteilung, also zwischen den Extremen, vorliegen. Zudem ist der Range sensitiv bez¨ uglich Ausreißern. Beispiel (Niederschl¨ age). Die t¨ aglichen Niederschlagsmengen des vergangenen Jahres in der W¨ usten-Oase “Drock“ betragen: 0, 0, 0, . . . , 180, 0, . . . , 0 [mm]. Der Range ist R = 180 − 0 = 180 [mm]. Obwohl fast an jedem Tag kein Niederschlag gemessen wird, und sich daher die Verteilung zu fast 100% auf den Wert 0 konzentriert, f¨ uhrt bereits ein einziger Regentag zu einer hohen Spannweite.
4.2 Mittlere Abweichung Die mittlere Abweichung eines metrischen Merkmals X misst, wie weit im ¯ entfernt liegen. Schnitt die einzelnen Merkmalswerte xi vom Mittelwert x Beispiel (Fahrgastaufkommen). F¨ ahre A hat 4 Fahrten, und F¨ahre B hat 4 Fahrten unternommen. Bei jeder Fahrt wurde das Merkmal “Fahrgastaufkommen X [Pers/Fahrt]“ gemessen. Die Merkmalswerte sind durch folgende zwei Urlisten gegeben: F¨ ahre A: 400, 450, 550, 600. F¨ ahre B: 100, 200, 550, 1150. In beiden Gesamtheiten betr¨ agt der Mittelwert jeweils x ¯ = 500, d.h. jede F¨ ahre hat im Schnitt das gleiche Fahrgastaufkommen pro Fahrt. W¨ ahrend aber bei F¨ ahre A alle Fahrten fast gleich viele, n¨amlich ungef¨ ahr 500 Passagiere aufweisen, ist das Fahrgastaufkommen bei F¨ahre B deutlich unterschiedlicher. Wir visualisieren diesen Sachverhalt, indem
4.2 Mittlere Abweichung
77
wir zu jedem einzelnen Messwert xi den Abstand zu x ¯ = 500 als Balken darstellen: 100
100
50
50
F¨ ahre A:
400 450
X
550 600
x
650
400 50
300
F¨ ahre B: 100
550
200
1150
X
x Da eine L¨ ange generell nie negativ sein darf, haben wir die L¨ange eines ¯ berechnet, sondern u Balken nicht u ¨ber ¨ber die bloße Abweichung xi − x deren Betrag: absolute Abweichung = Balkenl¨ange = |xi − x ¯|.
(4.1)
Offensichtlich sind die Balken bei F¨ ahre A im Schnitt k¨ urzer als bei F¨ahre B. Daher eignet sich die “mittlere Balkenl¨ange“ als Streuungsmaß. Wir nennen dieses Maß mittlere Abweichung und notieren es mit δ. Zur Berechnung der mittleren Abweichung δ bilden wir das arithmetische Mittel der Balkenl¨ angen: F¨ ahre A: δ = ( |400 − 500| + |450 − 500| + |550 − 500| + |600 − 500| ) /4 = (100 + 50 + 50 + 100) /4 (4.2) = 75 [Pers/Fahrt]. F¨ ahre B: δ = ( |100 − 500| + |200 − 500| + |550 − 500| + |1150 − 500| ) /4 = (400 + 300 + 50 + 650) /4 = 350 [Pers/Fahrt].
(4.3)
W¨ ahrend sich bei F¨ ahre A die einzelnen Passagierzahlen im Schnitt nur um 75 Personen pro Fahrt vom durchschnittlichen Fahrgastaufkommen unterscheiden, betr¨ agt dieser Wert bei F¨ ahre B 350 Personen pro Fahrt. Die Berechnung von δ in (4.2) und (4.3) haben wir in (4.5) verallgemeinert dargestellt. Man erkennt, dass im Wesentlichen ein Mittelwert zu bilden ist.
78
4 Streuungsmaße
Daher gibt es analog zu (3.22) und (3.23) verschiedene Berechnungsmethoden, je nachdem, ob eine Urliste, eine Verteilung oder eine Dichte bzw. ein Histogramm gegeben ist. Mittlere Abweichung δ = mittlere, absolute Entfernung der einzelnen Merkmals¯. werte xi vom Durchschnittswert x
(4.4)
Berechnung bei gegebener N 1 |xi − x ¯|. N i=1
-
Urliste:
-
Verteilung h(x): Die verschiedenen Merkmalswerte seien mit x1 , . . . , xm bezeichnet.
δ=
δ=
m
|xk − x ¯| · h(xk ).
(4.5)
(4.6)
k=1
Bei einem stetigen bzw. klassifizierten Merkmal X w¨ahlt man f¨ u r xk die jeweilige Klassenmitte. Wir geben im n¨ achsten Unterkapitel weitere Beispiele.
4.3 Varianz und Standardabweichung Die Streuungsmaße “Varianz“ und “Standardabweichung“ sind eng verwandt, denn die Standardabweichung ist die Wurzel der Varianz. Zwischen der Varianz und der mittlere Abweichung δ besteht nur ein einziger, kleiner Unterschied. W¨ ahrend gem¨ aß (4.1) bei δ die Abweichungen mit ¯| absolut gemessen werden, betrachtet man bei der Varianz quadrierte |xi − x Abweichungen: ¯)2 . quadrierte Abweichung = (xi − x
(4.7)
¨ Ahnlich wie beim Betrag wird durch das Quadrat sichergestellt, dass keine negativen Abst¨ ande auftreten k¨ onnen.
4.3 Varianz und Standardabweichung
79
Varianz σ 2 = mittlere, quadratisch gemessene Entfernung der einzel¯. nen Merkmalswerte xi vom Durchschnittswert x
(4.8)
Standardabweichung σ=
√
Varianz =
√
σ2
(4.9)
Man beachte, dass bei der Varianz die Abweichungen verzerrt gemessen werden. Werte u ¨ber 1 werden durch Quadrieren gr¨oßer, Werte unter 1 werden kleiner. Diesen Effekt kann man gewissermaßen im Nachhinein etwas korrigieren, wenn man von der Varianz die Wurzel zieht. Dies entspricht der Standardabweichung σ. Zudem besitzt die Standardabweichung σ die gleiche Einheit, wie die Variable X selbst. Die Varianz σ 2 weist das Quadrat der Einheit von X auf. Beispiel (Fortsetzung). Wir greifen nochmals das letzte Beispiel auf und berechnen f¨ ur jede F¨ ahre jeweils die Varianz der Variablen X [Pers/Fahrt]: F¨ ahre A: σ 2 = ((400 − 500)2 + (450 − 500)2 + (550 − 500)2 + (600 − 500)2 ) /4 = (1002 + 502 + 502 + 1002 ) /4 = 6250 [Pers2 /Fahrt2 ].
(4.10)
F¨ ahre B: σ 2 = ((100 − 500)2 + (200 − 500)2 + (550 − 500)2 + (1150 − 500)2 ) /4 = ((4002 + 3002 + 502 + 6502 )/ 4 (4.11) = 168750 [Pers2 /Fahrt2 ]. Man erkennt, dass hier das Quadrieren die Abst¨ande “¨ uberbewertet“. Daher ist eine visuelle Darstellung der quadrierten Abweichungen durch Balken analog zu Seite 77 unangebracht. Korrekt w¨aren quadratische Fl¨achen, die jedoch kaum das intuitive Verst¨ andnis des Betrachters anregen d¨ urften. Wir verzichten daher auf eine Graphik. ungDie Einheit der Varianz “[Pers2 /Fahrt2 ]“ ist das Quadrat der urspr¨ lichen Einheit zu X. Da die Standardabweichung die Wurzel der Varianz ist, ergibt sich: √ = 79.06 [Pers/Fahrt]. F¨ahre A: σ = 6250 √ F¨ ahre B: σ = 168750 = 410.79 [Pers/Fahrt]. Diese Werte sind zwar ¨ ahnlich wie die Werte der mittleren Abweichung δ in (4.2) und (4.3), jedoch nicht gleich.
80
4 Streuungsmaße
Obwohl der numerische Wert der Varianz σ 2 oder der Standardabweichung σ sich einer zufriedenstellenden Interpretation entzieht, spielen diese Kenngr¨ oßen in der Statistik eine weitaus gr¨ oßere Rolle als die mittlere Abweichung δ. Die Vorteile ergeben sich beispielsweise aus der Differenzierbarkeit von quadratischen Abweichungen bzw. Funktionen im Gegensatz zu absoluten Abweichungen. Hiervon macht unter anderem die Regressionsrechnung Gebrauch. Ferner ergeben sich Eigenschaften, auf die wir in den Kapiteln 5.3 und 5.4 eingehen werden. Ein sinnvoller Gebrauch der Varianz wird uns aber erst im Rahmen der Wahrscheinlichkeitsrechnung und der Induktiven Statistik m¨ oglich sein. An dieser Stelle wollen wir uns vor allem auf die Berechnung der Varianz kon¯| durch zentrieren. Sie erfolgt analog zu (4.5) und (4.6), indem wir dort |xi − x ¯)2 ersetzen. (xi − x Berechnung der Varianz bei gegebener σ2 =
N 1 (xi − x ¯)2 . N i=1
-
Urliste:
-
Verteilung h(x): Die verschiedenen Merkmalswerte seien mit x1 , . . . , xm bezeichnet. σ2 =
m
(4.12)
(xk − x ¯)2 · h(xk ).
(4.13)
k=1
Bei einem stetigen bzw. klassifizierten Merkmal X w¨ahlt man f¨ ur xk die jeweilige Klassenmitte. Beispiel (diskrete Verteilung). Magnus betreibt eine Frittenbude und bietet seinen G¨ asten 4 Komplettmen¨ us zu den festen Preisen 2[e], 3[e], 5[e], 10[e] an. Im letzten Monat weisen die G¨ aste bez¨ uglich der Variablen “X = Ausgaben [e/Pers]“ folgende Verteilung auf: Anteile h(x) 0.40 0.30 0.20 0.10
2 3
5
10
X [€/Pers]
Magnus m¨ ochte die mittlere Abweichung δ, die Varianz σ 2 und die Standardabweichung σ bestimmen. Dazu ben¨ otigt er zun¨achst die mittleren Ausgaben pro Person:
4.3 Varianz und Standardabweichung (3.23)
x ¯ = 2 · h(2) + 3 · h(3) = 2 · 0.10 + 3 · 0.40 = 5.4 [e/Pers].
5 · h(5) 5 · 0.20
+ +
+ +
81
10 · h(10) 10 · 0.30
Damit berechnet Magnus die mittlere Abweichung (4.6)
δ =
|2 − 5.4| · h(2) + |3 − 5.4| · h(3) + |5 − 5.4| · h(5) + |10 − 5.4| · h(10)
= |2 − 5.4| · 0.10 + |3 − 5.4| · 0.40 + |5 − 5.4| · 0.20 + |10 − 5.4| · 0.30 = 2.76 [e/Pers], die Varianz (4.13)
σ2 =
=
(2 − 5.4)2 · h(2) + (3 − 5.4)2 · h(3) + (5 − 5.4)2 · h(5) + (10 − 5.4)2 · h(10) (2 − 5.4)2 · 0.10 + (3 − 5.4)2 · 0.40 +(5 − 5.4)2 · 0.20 + (10 − 5.4)2 · 0.30
= 9.84 [e2 /Pers2 ] und die Standardabweichung √ √ σ = σ 2 = 9.84 = 3.137 [e/Pers]. Beispiel (klassifiziertes Merkmal). Fredi produziert Gl¨ uhbirnen. Er betrachtet bei den vor f¨ unf Jahren produzierten Birnen die Lebensdauer X [Monate]. Die Verteilung ist als Histogramm gegeben, wobei die Lebensdauer X in drei Klassen eingeteilt ist.
Histogramm
0.55
0.15 0
12
6
0.30 30
21
50
X [Monate]
40
Fredi berechnet die mittlere Lebensdauer als gewogenen Durchschnitt. Dabei benutzt er die jeweiligen “Klassenmitte“ als Merkmalswert: (3.23)
x ¯ = 6 · h(6) + 21 · h(21) = 6 · 0.15 + 21 · 0.55 = 24.45 [Monate].
+ +
40 · h(40) 40 · 0.30
82
4 Streuungsmaße
Damit berechnet Fredi die mittlere Abweichung (4.6)
δ = |6 − 24.45| · h(6) + |21 − 24.45| · h(21) + |40 − 24.45| · h(40) = |6 − 24.45| · 0.15 + |21 − 24.45| · 0.55 + |40 − 24.45| · 0.30 = 9.33 [Monate], und die Varianz (4.13)
(6 − 24.45)2 · h(6) + (21 − 24.45)2 · h(21) + (40 − 24.45)2 · h(40) = (6 − 24.45)2 · 0.15 + (21 − 24.45)2 · 0.55 + (40 − 24.45)2 · 0.30 = 130.15 [Monate2 ]
σ2 =
und die Standardabweichung √ √ σ = σ 2 = 130.15 = 11.41 [Monate].
5 Weitere Eigenschaften von Lageparametern und Streuungsmaßen
5.1 Lineare Transformationen Betrachten wir die Beispiele zu dem Thema “Bedingte Verteilungen“, so erkennen wir, dass es viele verschieden Arten von Abh¨angigkeiten zwischen zwei Variablen X und Y geben kann. Bei einer linearen Transformation liegt zwischen zwei Variablen X und Y eine ganz spezielle, gewissermaßen die st¨arkste Abh¨ angigkeit vor. Lineare Transformation Y =a+b·X
(5.1)
Dabei sind a und b konstante, reelle Zahlen. Wenn b = 0 ist, kann man zu jedem x-Wert eindeutig den y-Wert und umgekehrt bestimmen. Beispiel (Wechsel der Einheiten). Wenn man bei einem Merkmal X statt in Kilogramm in Tonnen, statt in Stunden in Sekunden oder statt in Dollar in Euro messen m¨ ochte, so multipliziert man die Variable X, welche in der urspr¨ unglichen Einheit gemessen wird, mit einem Umrechnungsfaktor b. Formal erhalten wir eine “neue“ Variable Y = b · X, welche in der neuen Einheit gemessen wird. Dies entspricht einer linearen Transfomation mit a = 0. Beispiel (Transporter). Wir betrachten N = 2 Transporter, die jeweils a = 3000[kg] Leergewicht besitzen. Das Merkmal X beschreibt die Ladung eines Transporters in Tonnen. Das Gesamtgewicht eines Transporters bezeichnen wir mit Y , wobei wir diese Variable in Kilogramm messen. Die Urliste der 2 Transporter lautet:
84
5 Weitere Eigenschaften von Lageparametern und Streuungsmaßen
Ladung X[t] 0.8 2.4
Gesamtgewicht Y[kg] 3800 = 3000 + 1000 · 0.8 5400 = 3000 + 1000 · 2.4
Zwischen X und Y besteht mit a = 3000 [kg] und b = 1000 [kg/t] die Beziehung Y = a + b · X = 3000 + 1000 · X [kg]. (5.2) Zwischen den Mittelwerten und den Varianzen der Variablen X und Y bestehen bestimmte Beziehungen. Diese k¨ onnen gelegentlich hilfreich sein, um umst¨ andliche oder doppelte Rechnungen zu vermeiden. Mittelwert und Varianz bei einer linearen Transformation F¨ ur Y = a + b · X gilt:
y¯ = a + b · x ¯, σy2 = b2 · σx2 .
(5.3) (5.4)
Aus (5.4) folgt durch “korrektes“ Ziehen der Wurzel1 f¨ ur die Standardabweichung: σy = |b| · σx .
(5.5)
Der Betragstrich verhindert, dass bei einem negativen Wert b < 0 die Stanonnte. Die G¨ ultigkeit der Formeln zeigen dardabweichung σy negativ werden k¨ wir exemplarisch an Hand des letzten Beispiels. Beispiel (Fortsetzung). Mit Hilfe der Urliste berechnen wir zun¨achst getrennt f¨ ur X und Y : x ¯ = (0.8 + 2.4)/2 = 1.6 [t] und y¯ = (3800 + 5400)/2 = 4600 [kg],
σx2 =
(0.8 − 1.6)2 + (2.4 − 1.6)2 2
σy2 =
(3800 − 4600)2 + (5400 − 4600)2 = 640000 [kg2 ]. 2
= 0.64 [t2 ],
(5.6) (5.7)
Das Ergebnis zu y¯ erhalten wir auch mit
1
In der √ Mathematik ist die Wurzel einer Zahl per Definition nie negativ. Daher gilt: z 2 = |z|
5.1 Lineare Transformationen
y¯ =
a + b · 0.8 + a + b · 2.4 3800 + 5400 = 2 2
=
2 · a + b · (0.8 + 2.4) 0.8 + 2.4 = a+ b· 2 2
= a+b·x ¯.
85
(5.8)
Diese Rechnung entspricht der Formel (5.3) und ist im Grunde simpel, denn werden im Schnitt 1.6 Tonnen geladen, so betr¨agt das durchschnittliche Gesamtgewicht 3000 + 1000 · 1.6 Kilogramm. Die Formel (5.4) ergibt sich aus: 2
σy2 =
[3800 − 4600] + [5400 − 4600] 2
2
2
2
=
[a + 0.8b − (a + b¯ x)] + [a + 2.4b − (a + b¯ x)] 2
=
b2 (0.8 − x [b(0.8 − x ¯)] + [b(2.4 − x ¯)] ¯)2 + b2 (2.4 − x ¯)2 = 2 2
2
2
(0.8 − x ¯)2 + (2.4 − x ¯)2 = b2 · σx2 . (5.9) 2 Das Leergewicht a = 3000 [kg] hat keinerlei Einfluss auf die Varianz, da sich die unterschiedlichen Gesamtgewichte der Transporter nur durch die Zuladung X erkl¨ aren. (5.7) Die Standardabweichung σy kann man als Wurzel des Ergebnisses √ oder auch gem¨ aß (5.5) aus der Standardabweichung σx = 0.64 = 0.8 bestimmen: σy = |b| · σx = 1000 · 0.8 = 800 [kg]. = b2 ·
Beispiel (Aktienkurse). Basil hat 300 Tage lang t¨aglich um 12.00 Uhr mittags den Kurs X der BMW-Aktie in Euro notiert und daraus den mittleren Kurs x ¯ = 36 [e] und die Varianz σx2 = 11.3 [e2 ] berechnet. Nun m¨ochte er die selben Kenngr¨ oßen in Dollar umrechnen. Der Wechselkurs betr¨agt derzeit 1.20 [$/e]. Die Variable Y = 1.20 · X [$] (5.10) beschreibt den Aktienkurs in Dollar. F¨ ur sie gilt: (5.3)
¯ y¯ = 1.20 · x (5.4) σy2 =
σy
1.20 · 2
= 43.2 [$],
σx2
= 16.272 [$2 ], √ = 1.20 · σx = 16.272 = 4.034 [$].
(5.11)
86
5 Weitere Eigenschaften von Lageparametern und Streuungsmaßen
5.2 Addition von Variablen Wir gehen davon aus, dass an einem Objekt zwei Variablen X und Y gemessen werden, bei denen die Bildung der Summe sinnvoll ist. Wir setzen: Z = X + Y.
(5.12)
Die Berechnung des Durchschnitts der Summe bzw. von z¯ ergibt sich als Summe der Durchschnitte x ¯ und y¯. Von dieser Rechnung machen wir “allt¨aglich“ Gebrauch. Bei der Varianz allerdings ist die Formel komplizierter. Mittelwert und Varianz bei Summen F¨ ur Z = X + Y gilt:
z¯ = x ¯ + y¯,
(5.13)
σz2 = σx2 + σy2 + 2 · σx,y . Dabei ist σx,y =
N 1 (xi − x ¯)(yi − y¯). N i=1
(5.14)
(5.15)
Diesen “Korrekturterm“ nennt man Kovarianz von X und Y . Der Beweis ist auf Seite 383 gegeben. Die Kovarianz ist ein wichtiger Begriff der Statistik, den wir im Kapitel 6 nochmals aufgreifen. Beispiel (Bearbeitungszeiten). Es werden Vasen hergestellt. Mit X messen wir die Bearbeitungszeit in Minuten beim Glasbl¨aser, mit Y die Bearbeitungszeit in Minuten zum Bemalen. Die Urliste umfasst der Einfachheit halber nur N = 2 Vasen: X [Min] 8 12
Y [Min] 60 40
Die Gesamtzeit wird mit Z = X + Y berechnet. Im Schnitt ben¨otigt der Glasbl¨ aser x ¯ = 10 Minuten und das Bemalen der Vase dauert im Mittel y¯ = 50 Minuten. Gem¨ aß (5.13) folgt f¨ ur die Gesamtzeit Z: z¯ = x ¯ + y¯ = 10 + 50 = 60 [Min]. Ferner gilt:
5.3 Optimalit¨ atseigenschaften
σx2 =
(8 − 10)2 + (12 − 10)2 2
σy2 =
(60 − 50)2 + (40 − 50)2 2 = 100 [Min] , 2
σx,y =
87
2
= 4 [Min] ,
(8 − 10)(60 − 50) + (12 − 10)(40 − 50) 2 = −20 [Min] . 2
Gem¨ aß (5.14) gilt dann f¨ ur die Varianz der Gesamtzeit Z: 2
σz2 = 4 + 100 + 2 · (−20) = 64 [Min] . Als Probe berechnen wir die Ergebnisse zu Z nochmals, indem wir die “Urliste“ zu Z benutzen, d.h. die Gesamtzeit 68 [Min] der ersten Vase und die Gesamtzeit 52 [Min] der zweiten Vase heranziehen: z¯ = σz2 =
68 + 52 2
= 60 [Min]
(68 − 60)2 + (52 − 60)2 2 = 64 [Min] . 2
5.3 Optimalit¨ atseigenschaften Beim ersten Lesen kann man mit Kapitel 6 fortfahren. Wir setzen uns zum Ziel, einen Lageparameter zu konstruieren, der die verschiedenen Messwerte x1 , . . . , xN einer Urliste m¨oglichst gut und repr¨asentativ durch eine einzige, konstante Zahl c darstellt. Um zu spezifizieren, was unter “m¨ oglichst gut“ zu verstehen ist, kann man verschiedene Kriterien zu Grunde legen. Wir untersuchen die folgenden zwei: 1. Absolute Abweichungen Wir betrachten einen konstanten Wert c und messen, wie weit die Merkmalswerte, die er repr¨ asentieren soll, von ihm entfernt sind. Diejenige Konstante c, welche im Schnitt die geringste Entfernungen aufweist, betrachten wir als optimalen Lageparameter. Mathematisch kann man diese Idee als Minimierungsaufgabe formulieren: min c
N 1 | xi − c |. N i=1
(5.16)
Die Grundidee, wie man dieses Optimierungsproblem l¨ost, ist in den Abbildungen 5.1 und 5.2 dargestellt. Das optimale c ist mit dem Median identisch:
88
5 Weitere Eigenschaften von Lageparametern und Streuungsmaßen Veranschaulichung der Optimalit¨ atseigenschaft des Medians
x1 x2
x3
c
x4
X
Abbildung 5.1. Bewegt man c um “1 mm“ nach links, so verl¨ angert sich zwar der rechte Balken um 1 mm, daf¨ ur aber verk¨ urzen sich die 3 linken Balken um den gleichen Betrag. Die Summe aller 4 Abweichungen verringert sich dadurch.
x1 x2
c
x3
x4
X
Abbildung 5.2. Bewegt man c um “1 mm“ nach links, so verl¨ angern sich zwar die 2 rechten Balken um je 1 mm, daf¨ ur aber verk¨ urzen sich die 2 linken Balken um den gleichen Betrag. Die Summe aller 4 Abweichungen bleibt unver¨ andert.
Wenn links und rechts gleich viele Balken auftreten, ist die Summe aller Abweichungen minimal. Daher ist der optimale Wert c ein Median.
c = xme . Wir haben in diversen Beispielen schon gesehen, dass der Median nicht immer eindeutig ist. Beispielsweise ist der Median der Zahlen 1,2,3,4,5,6 jeder Wert von 3 bis 4, d.h. 3 ≤ xme ≤ 4. Folglich ist das obige Optimierungsproblem nicht eindeutig l¨ osbar! Bemerkenswert ist zudem, dass die mittlere Abweichung δ gem¨aß (4.5) das arithmetische Mittel x ¯ an Stelle der Konstanten c benutzt. Insofern gilt: N N 1 1 | xi − xme | ≤ | xi − x ¯| = δ. (5.17) N i=1 N i=1 2. Quadrierte Abweichungen Wir gehen analog vor, messen aber die Abweichungen quadratisch: min c
N 1 (xi − c)2 . N i=1
(5.18)
Dieses Optimierungsproblem besitzt als L¨ osung das arithmetische Mittel: c=x ¯.
(5.19)
Den Beweis stellen wir auf Seite 383 zur¨ uck. Im Gegensatz zum Median ist der Mittelwert x ¯ immer eindeutig. Setzt man das optimale c in (5.18) ein, so erh¨ alt man die Varianz. Daher gilt: σ2 =
N N 1 1 ( xi − x ¯)2 ≤ (xi − c)2 N i=1 N i=1
f¨ ur alle c.
(5.20)
Dies erlaubt eine weitere Interpretation des Streuungsmaßes “Varianz“.
5.4 Ungleichung von Tschebyscheff
89
Ungleichung von Tschebyscheff
x-d
X
x+d
x 2
Hier liegen mindesten (1 -
s
d
2
) aller Objekte.
Abbildung 5.3. Veranschaulichung der Ungleichung von Tschebyscheff.
Die hier skizzierte Vorgehensweise zeigt, dass man durch Minimerung von Abst¨ anden je nach Wahl des Abstandmaßes den Median oder das arithmetische Mittel erhalten kann. Wir werden dieses Verfahren beispielsweise im Rahmen der Regressionsrechnung einsetzen. Das quadratische Abstandsmaß weist den Vorteil auf, zu einer eindeutigen L¨ osung zu f¨ uhren.
5.4 Ungleichung von Tschebyscheff Beim ersten Lesen kann man mit Kapitel 6 fortfahren. Kennt man zu einer Variablen X nicht die Verteilung, sondern nur deren ¯, so kann man mit Hilfe der Ungleichung von Varianz σ 2 und Mittelwert x Tschebyscheff bereits eine Aussage treffen, wie h¨aufig die Werte innerhalb eines bestimmten Korridors um den Mittelwert anzutreffen sind: Ungleichung von Tschebyscheff h( x ¯−d ≤ X ≤ x ¯ + d) ≥ 1 −
σ2 d2
(5.21)
Diese Absch¨ atzung ist f¨ ur alle Verteilungen g¨ ultig, ganz gleich, ob sich die Werte in der Mitte oder eher an den R¨ andern h¨aufen oder ob Ausreißer vorhanden sind. Wir stellen den Beweis auf Seite 384 zur¨ uck. Beispiel (Bolzenl¨ ange). Elvira bekommt Bolzen geliefert, bei denen die L¨ ange X [mm] einen Sollwert von 300 ± 0.5 [mm] aufweisen soll. Es ist bekannt, dass in der Warenpartie der Mittelwert bei x¯ = 300 [mm] und die Standardabweichung bei σ = 0.2 [mm] liegt. Elvira m¨ochte den Anteil der brauchbaren St¨ ucke bestimmen. Mit d = 0.5 berechnet sie: h(299.5 ≤ X ≤ 300.5) = h(300 − 0.5 ≤ X ≤ 300 + 0.5) 0.22 = 84%. ≥ 1− 0.52
90
5 Weitere Eigenschaften von Lageparametern und Streuungsmaßen
Daraus schließt Elvira, dass der Ausschussanteil bei maximal 16% liegen kann. Sie ben¨ otigt keinerlei Wissen u ¨ber die Gestalt der Verteilung. Die Ungleichung von Tschebyscheff kann auch zu trivialen Aussagen f¨ uhren, wie etwa h(¯ x−d ≤ X ≤ x ¯ + d) ≥ −2. In diesem Fall ist sie zwar wenig informativ, jedoch nicht falsch. Eine weitere praktische Hilfe ist die sogenannte “3σ-Regel“. Man erh¨alt sie, indem man bei der Tschebyscheffschen Ungleichung bzw. in Abbildung 5.3 f¨ ur d speziell d = 3σ setzt. Damit erh¨ alt man auf der rechten Seite von (5.21) den σ2 1 Wert 1 − (3σ) 2 = 1 − 32 ≈ 90%. 3σ-Regel bei beliebigen Verteilungen h(¯ x − 3σ ≤ X ≤ x ¯ + 3σ) ≥ 90%
(5.22)
Bei der Einf¨ uhrung der Varianz (4.8) konnten wir noch keine befriedigende Anwendung vorweisen. Die Tschebyscheff-Ungleichung und die 3σ-Regel zeigen uns erstmals, wie der numerische Wert der Varianz sinnvoll eingesetzt werden kann.
6 Deskriptive Korrelation und Kovarianz
¨ 6.1 Ausgangssituation und Uberblick Wir betrachten eine Grundgesamtheit mit Objekten, die jeweils zwei metrische Merkmale X, Y besitzen. Mit Hilfe der empirischen Korrelation und Kovarianz wollen wir pr¨ ufen, ob zwischen den Variablen X und Y einer der folgenden Zusammenh¨ ange besteht: •
Gleichl¨ aufigkeit bzw. Gleichschritt, d.h. je gr¨oßer der x-Wert, desto gr¨ oßer der y-Wert, • Gegenl¨ aufigkeit, d.h. je gr¨ oßer der x-Wert, desto kleiner der y-Wert. Dabei soll auch bewertet werden, wie stark eine derartige Gesetzm¨aßigkeit zutrifft, bzw. ob sie perfekt oder nur tendenziell1 vorliegt.
Zur Visualisierung der Abh¨ angigkeit zweier metrischer Variablen X und Y sind Streudiagramme hilfreich. In Abbildung 2.13 auf Seite 37 haben wir bereits ein Beispiel kennen gelernt. Dort bilden die Objekte der Grundgesamtheit eine Punktwolke, bei der die Position eines Objektes i durch seine Merkmalswerte bzw. Koordinaten (xi , yi ) bestimmt ist. Beispiel Wir haben 20 Personen bez¨ uglich ihrer Gr¨oße X [cm] und ihres Gewichts Y [kg] in ein Streudiagramm eingetragen. Man erkennt, dass die gleichl¨ aufige Beziehung “je gr¨ oßer ein Mensch ist, desto schwerer ist er“ zumindest tendenziell richtig ist.
1
Bei mathematischen Funktionen gibt es die Begriffe “streng monoton wachsend“ oder “streng monoton fallend“. Gleichl¨ aufigkeit oder Gegenl¨ aufigkeit k¨ onnen als Verallgemeinerung des Monotonie-Begriffs verstanden werden.
92
6 Deskriptive Korrelation und Kovarianz
Gewicht Ykg 120 100 80 60 40 20
Lautstärke YdB 80 60 40 20
Größe Xcm 50 100 150 200
50
100 150
Entf. Xm
Bei der rechten Punktwolke haben wir die Lautst¨arke Y in Dezibel einer Bohrmaschine zu verschiedenen Entfernungen X [m] gemessen. Hier erkennt man die gegenl¨ aufige Beziehung “je gr¨oßer der Abstand, desto geringer die Lautst¨ arke“. Um die Gleich- oder Gegenl¨ aufigkeit bei zwei Variablen X und Y zu beschreiben, gibt es im Wesentlichen drei statistische Kenngr¨oßen, die konzeptionell eng verwandt sind. Alle drei Kenngr¨ oßen besitzen die Eigenschaft, bei Gleichl¨ aufigkeit von X und Y positive Werte, und bei Gegenl¨aufigkeit negative Werte anzunehmen. -
-
-
Kovarianz: Sie kann jede reelle Zahl als Wert besitzen. Zudem ¨andert sich der Wert der Kovarianz in Abh¨ angigkeit von der Wahl der Einheiten f¨ ur X und Y . Rangkorrelation nach Spearman: F¨ ur den Wert der Korrelation gilt immer −1 ≤ Rangkorrelation ≤ 1. (6.1) Der Wert 1 wird angenommen, wenn zwischen X und Y eine perfekte Gleichl¨ aufigkeit vorliegt. Bei perfekter Gegenl¨aufigkeit ist die Korrelation -1. Bei einem Wechsel der Einheiten von X oder Y ¨andert sich nicht der Wert der Korrelation. Korrelation nach Bravais Pearson: W¨ahrend die Rangkorrelation Gleich- oder Gegenl¨ aufigkeit im generellen Sinne misst, pr¨ uft die Korrelation nach Bravais Pearson nur, ob die Abh¨angigkeit zwischen X und Y speziell linearen Typs ist. Auch hier gilt −1 ≤ Korrelation ≤ 1.
(6.2)
Der Wert 1 wird angenommen, wenn zwischen X und Y eine perfekte, linear steigende Abh¨ angigkeit vorliegt. Bei perfekter, linear fallender Abh¨ angigkeit ist die Korrelation -1. Bei einem Wechsel der Einheiten von X oder Y ¨ andert sich nicht der Wert der Korrelation. Um diese Kenngr¨ oßen besser verstehen zu k¨ onnen, besprechen wir zun¨achst die Kovarianz, dann die Korrelation nach Bravais Pearson und schließlich die Rangkorrelation nach Spearman.
6.2 Deskriptive Kovarianz
93
Veranschaulichung der Kovarianz
Y
Y (x-x)(y-y) > 0
(x-x)(y-y) < 0
(x-x)(y-y) < 0
(x-x)(y-y) > 0
(x-x)(y-y) > 0
(x-x)(y-y) < 0
y
y
(x-x)(y-y) < 0
(x-x)(y-y) > 0
X
x
Abbildung 6.1. Positive Kovarianz
x
X
Abbildung 6.2. Negative Kovarianz
Je nachdem, in welchem “Quadranten“ ein Punkt (xi , yi ) liegt, ergeben sich beim ¯)(yi − y¯) unterschiedliche Vorzeichen. Produkt (xi − x
6.2 Deskriptive Kovarianz Wir betrachten zun¨ achst den Fall, dass sich zwei Variablen X und Y gleichl¨aufig verhalten. Dann m¨ usste vorwiegend gelten: - Objekte mit u ¨berdurchschnittlichen x-Werten besitzen gleichzeitig u ¨berdurchschnittliche y-Werte. F¨ ur das Messwertepaar (xi , yi ) eines solchen Objektes gilt dann: ¯>0 xi − x
und
yi − y¯ > 0.
(6.3)
- Objekte mit unterdurchschnittlichen x-Werten besitzen gleichzeitig auch unterdurchschnittliche y-Werte. F¨ ur das Messwertepaar (xi , yi ) eines solchen Objektes gilt dann: ¯<0 xi − x
und
yi − y¯ < 0.
(6.4)
In beiden F¨ allen ergibt sich f¨ ur das Produkt dieser Differenzen ein positiver Wert: ¯)(yi − y¯) > 0. (6.5) (xi − x Dieses Produkt ist um so gr¨ oßer bzw. “positiver“, je gr¨oßer die Differenzen sind bzw. je deutlicher eine der obigen Situationen zutrifft. F¨ ur den Fall, dass sich zwei Variablen X und Y gegenl¨aufig verhalten, kann man ¨ ahnlich argumentieren. Dann m¨ ussten u ¨berdurchschnittliche x-Werte gleichzeitig mit unterdurchschnittlichen y-Werten anzutreffen sein, d.h. ¯>0 xi − x
und
yi − y¯ < 0
(6.6)
94
6 Deskriptive Korrelation und Kovarianz
gelten, oder unterdurchschnittliche x-Werte gleichzeitig mit u ¨berdurchschnittlichen y-Werten anzutreffen sein, d.h. ¯<0 xi − x
und
yi − y¯ > 0
(6.7)
gelten. In beiden F¨ allen ergibt sich wegen des Vorzeichenwechsels f¨ ur das Produkt ein negativer Wert: ¯)(yi − y¯) < 0. (xi − x
(6.8)
¨ Diese Uberlegungen zeigen, dass man an der Gr¨oße und vor allem an dem Vorzeichen des Produktes ¯)(yi − y¯) (6.9) (xi − x erkennen kann, ob ein Punkt bzw. ein Messwertepaar (xi , yi ) eher f¨ ur einen gleichl¨ aufigen oder eher f¨ ur einen gegenl¨ aufigen Zusammenhang von X und Y spricht. Dieses Verhalten wird zur Definition der Kovarianz benutzt, indem man f¨ ur ¯)(yi − y¯) berechnet und deren alle Messwertepaare (xi , yi ) die Produkte (xi − x Durchschnitt bildet. Empirische Kovarianz von X und Y σx,y =
N 1 (xi − x ¯)(yi − y¯) N i=1
(6.10)
Das Vorzeichen der Kovarianz ist ein Indikator f¨ ur gleich- oder gegenl¨aufiges Verhalten der Variablen X und Y . Ist dieser Durchschnitt bzw. die Kovarianz positiv, so besteht zumindest im Schnitt ein gleichl¨aufiger Zusammenhang zwischen X und Y . Ist dieser Durchschnitt bzw. die Kovarianz negativ, so besteht zumindest im Schnitt ein gegenl¨ aufiger Zusammenhang zwischen X und Y . Die Abbildungen 6.1 und 6.2 verdeutlichen den Sachverhalt. Die absolute Gr¨ oße der Kovarianz ist nicht aussagekr¨aftig. Sie wird von dem ¯ und yi − y¯ bzw. der Ausdehnung der PunktAusmaß der Abweichungen xi − x wolke bestimmt. Dies ist aber auch von der Wahl der Einheiten der Variablen bzw. von Umskalierungen der Variablen abh¨ angig. Beispiel (Umsatz und Kundenanzahl). Im Kaufhaus Polynix wurde in den letzten N = 6 Tagen die Anzahl X der Kunden pro Tag und der Umsatz Y [e] pro Tag ermittelt: (360; 52000), (750; 60000), (150; 18000), (500; 46000), (220; 25000), (300; 45000). Die Abbildung 6.3 zeigt die Daten als Punktwolke. Mit x¯ = 380 und y¯ = 41000 erhalten wir die empirische Kovarianz
6.2 Deskriptive Kovarianz
95
Die Kovarianz h¨ angt von der Skalierung ab Beispiel “Umsatz und Kundenanzahl“
Umsatz Euro 70000 60000 50000 40000 30000 20000 10000 300
600
900
Kunden
Abbildung 6.3. Misst man den Umsatz in Euro, erhalten wir σx,y = 2490000
Umsatz TsdEuro 500 400 300 200 100 0 300 600
900
Kunden
Abbildung 6.4. Misst man den Umsatz in Tausend Euro, erhalten wir σx,z = 2490
Beide Punktwolken stellen denselben Sachverhalt dar. Das scheinbar unterschiedliche Aussehen beruht nur auf einer anderen Skalierung der Variablen. Die Kovarianz ¨ andert sich um den gleichen Faktor, mit dem die Variable Y umskaliert worden ist.
σx,y =
1 (360 − 380)(52000 − 41000) + (750 − 380)(60000 − 41000) 6 +(150 − 380)(18000 − 41000) + (500 − 380)(46000 − 41000)
+(220 − 380)(25000 − 41000) + (300 − 380)(45000 − 41000)
= 2490000.
(6.11)
Der Wert ist, wie zu erwarten war, positiv. Nun messen wir den Umsatz in Tausend Euro, und notieren ihn mit einer eigenen Variablen 1 Y [Tsd e]. Z= 1000 Mit x ¯ = 380 und z¯ = 41 erhalten wir diesmal f¨ ur die empirische Kovarianz: 1 (360 − 380)(52 − 41) + (750 − 380)(60 − 41) 6 +(150 − 380)(18 − 41) + (500 − 380)(46 − 41)
+(220 − 380)(25 − 41) + (300 − 380)(45 − 41) σx,y . = 2490 = 1000
σx,z =
(6.12)
Obwohl im Grunde beides Mal der gleiche Sachverhalt dargestellt wird, ist diesmal die Kovarianz um den Faktor 1000 kleiner. Daher entzieht sich der absolute Wert der Kovarianz einer vern¨ unftigen Interpretation. Die nachfolgende Formel ist eine Verallgemeinerung der im letzten Beispiel durchgef¨ uhrten Rechnungen.
96
6 Deskriptive Korrelation und Kovarianz
Lineare Transformationen F¨ ur U = a + b · X und V = c + d · Y gilt: σu,v = b · d · σx,y .
(6.13)
Man erkennt, dass die additiven Konstanten a, c, die eine Translation bzw. Verschiebung der Punktwolken bewirken, keinen Einfluss auf die Kovarianz haben. Vertauscht man bei der Kovarianz die Variablen X und Y , so entspricht dies einer Spiegelung der Punktwolke an der Winkelhalbierenden. Der Wert der Kovarianz ¨ andert sich nicht. Symmetrie σx,y = σy,x
(6.14)
Der Beweis folgt unmittelbar aus der Definition (6.10). Setzt man speziell Y = X, so berechnet man die Kovarianz der Variablen X mit sich selbst. Die Punktwolke liegt exakt auf der Winkelhalbierenden, da jeder Punkt i die Koordinaten (xi , xi ) besitzt. In diesem Fall ist die Kovarianz mit der gew¨ ohnlichen Varianz σ 2 der Variablen X wegen σx,x =
N N 1 1 (xi − x ¯)(xi − x ¯) = (xi − x ¯)2 = σ 2 N i=1 N i=1
(6.15)
identisch. Zusammenhang von Varianz und Kovarianz σx,x = σ 2
(6.16)
Alternativ zu (6.10) k¨ onnen wir die Kovarianz auch mit Hilfe der gemeinsamen, bivariaten Verteilung h(x, y) berechnen, indem wir den Durchschnitt der Produkte (6.9) als gewogenes arithmetisches Mittel berechnen. Diese Berechnungsmethode haben wir in analoger Weise bereits bei der entsprechenden Formel der Varianz (4.13) genutzt.
6.2 Deskriptive Kovarianz
97
Berechnung der Kovarianz mit Hilfe der gemeinsamen Verteilung h(x, y) Zu den verschiedenen Merkmalswerten x1 , x2 , ..., xm und y1 , y2 , ..., yn seien die relativen H¨ aufigkeiten h(xk , yi ) = h(X = xk , Y = yi ) bekannt. Dann gilt: σx,y =
n m
(xk − x ¯)(yi − y¯) · h(xk , yi ).
(6.17)
k=1 i=1
Abschließend sei daran erinnert, dass wir die Formel (6.10) und somit die Kovarianz bereits in (5.14) und (5.15) kennen gelernt haben. Dort haben wir zur Summe Z = X + Y die Varianz berechnet: σz2 = σx2 + σy2 + 2 · σx,y .
(6.18)
Dies zeigt auch, dass die Gesamtvarianz σz2 davon abh¨angt, inwiefern die Variablen X und Y gleich- oder gegenl¨ aufiges Verhalten aufweisen. Im ersten Fall erh¨ oht eine positive Kovarianz die Gesamtvarianz, und im zweiten Fall reduziert eine negative Kovarianz die Gesamtvarianz. Beispiel (Portfolio). Gudrun besitzt 4 A-Aktien und 16 B-Aktien. Der Kurs der A-Aktie h¨ angt stark von Importpreisen und der Kurs der B-Aktie von Exportpreisen ab. Da diese vom Dollarkus beeinflusst werden, sind die t¨ aglichen Renditen der A- und B-Aktie tendenziell gegenl¨aufig. Um dies zu quantifizieren, hat Gudrun 300 Tage lang t¨aglich um 12.00 Uhr mittags die Kurse der Aktien beobachtet und daraus die t¨aglichen Renditen X der A-Aktie und die t¨ agliche Renditen Y der B-Aktie ermittelt. F¨ ur die Kovarianz berechnet Gudrun σx,y = −0.0004,
(6.19)
welche, wie erwartet, negativ ausf¨ allt. Zudem hat sie die Kenngr¨oßen x ¯ = 0.03
und
y¯ = 0.02
und
σx = 0.05, σy = 0.01
(6.20)
ermittelt. Damit kann Gudrun die durchschnittliche Tagesrendite des Portfolios berechnen: Da sich die Tagesrendite Z des Portfolios durch Z=
16 4 ·X + · Y = 0.2 · X + 0.8 · Y 4 + 16 4 + 16
(6.21)
bestimmt, gilt f¨ ur den Durchschnittswert z¯ = 0.2 · x ¯ + 0.8 · y¯ = 0.2 · 0.03 + 0.8 · 0.02 = 0.022.
(6.22)
98
6 Deskriptive Korrelation und Kovarianz
Bekanntermaßen ¨ andern sich Aktienkurse und somit auch Aktienrenditen st¨ andig, d.h. sie sind “volatil“. Zur Quantifizierung dieses Sachverhaltes berechnet Gudrun zu den t¨ aglichen Renditen ihres Portfolios die Varianz 2 σz2 = σ0.2·x+0.8·y
(5.14)
2 2 = σ0.2·x + σ0.8·y + 2 · σ0.2·x,0.8·y
(5.4)
= 0.22 · σx2 + 0.82 · σy2 + 2 · σ0.2·x,0.8·y
(6.13)
= 0.22 · σx2 + 0.82 · σy2 + 2 · 0.2 · 0.8 · σx,y
= 0.22 · 0.052 + 0.82 · 0.012 − 2 · 0.2 · 0.8 · 0.0004 = 0.000036 (6.23) und die Standardabweichung √ σz = σz2 = 0.000036 = 0.006. Da hier die Renditen der beiden Aktien eine negative Kovarianz haben, ergibt sich in (6.23) eine Subtraktion bzw. ein eher kleiner Wert f¨ ur die Varianz von Z. Diese Kenngr¨oßen kann man mit Hilfe der Wahrscheinlichkeitstheorie nutzen, um das “Risiko“ von Gudruns Wertanlage beurteilen zu k¨onnen. Aktie A besitzt zwar wegen x ¯ > y¯ eine bessere mittlere Rendite als Aktie B, daf¨ ur aber ist Aktie A wegen der h¨ oheren Standardabweichung σx > σy volatiler bzw. riskanter. Wenn aber Gudrun in beide Aktien wie oben gemischt investiert, erh¨alt sie eine Geldanlage, die mit σz = 0.006 noch weniger volatil als die Aktie B ist und trotzdem mit z¯ = 0.022 eine bessere mittlere Rendite erzielt. Man erreicht so durch eine gemischte Anlage bzw. “Diversifikation“ eine “Risikostreuung“ bzw. Risikoreduktion. H¨atte Gudrun Aktien ausgew¨ ahlt, deren Kurse sich tendenziell gleichl¨aufig verhalten, d.h. eine positive Kovarianz aufweisen, w¨ urde sich die Gesamtvarianz und somit letztlich auch das Risiko der Geldanlage verst¨ arken.
6.3 Deskriptive Korrelation nach Bravais Pearson Wie bereits erw¨ ahnt, ist der absolute Wert der Kovarianz nicht aussagekr¨aftig, da er sich um den gleichen Faktor ver¨ andert, mit dem man die Variablen X oder Y umskaliert. Daher ist die Gr¨ oße der Kovarianz auch von der Wahl der Einheiten abh¨ angig. Dieses Manko k¨ onnen wir beseitigen, indem wir eine Standardisierung durchf¨ uhren. Dazu multiplizieren wir die Kovarianz σx,y mit dem Faktor σx1·σy , d.h. den reziproken Standardabweichungen von X und Y . Diese “normierte“ Kovarianz nennt man Korrelation.
6.3 Deskriptive Korrelation nach Bravais Pearson
99
Korrelation nach Bravais Pearson ρx,y =
σx,y σx · σ y
(6.24)
Sollte eine der Variablen X oder Y konstant sein, ergibt sich im Nenner eine Null. F¨ ur diesen Fall ist die Korrelation undefiniert. Mit Hilfe von (6.13) l¨ asst sich zeigen, dass die so definierte Korrelation nicht von der Wahl der Einheiten f¨ ur X und Y bzw. einer Umskalierung abh¨angt. F¨ ur U = a + b · X und V = c + d · Y mit positiven Faktoren b > 0 und d > 0 gilt n¨ amlich σu,v = b · d · σx,y , (5.5)
σu = b · σ x , (5.5)
σv = d · σy ,
(6.25) (6.26) (6.27)
woraus sich die Korrelation der linear transformierten Variablen U und V gem¨ aß ρu,v =
σu,v b · d · σx,y σx,y = = = ρx,y σ u · σv b · σ x · d · σy σx · σ y
(6.28)
ergibt. Dies zeigt, dass eine Verschiebung (Translation), Streckung oder Stauchung einer Punktwolke den Wert der Korrelation nach Bravais Pearson unver¨ andert l¨ asst. Lineare Transformationen F¨ ur U = a + b · X und V = c + d · Y mit positiven Faktoren b > 0 und d > 0 gilt: ρu,v = ρx,y .
(6.29)
Beispiel (Fortsetzung). Im Beispiel “Umsatz und Kundenanzahl“ berechnen wir zun¨ achst die Varianzen zu X, Y und Z = Y /1000: 1 (360 − 380)2 + (750 − 380)2 + (150 − 380)2 + (500 − 380)2 σx2 = 6
+(220 − 380)2 + (300 − 380)2 = 39433.3 = 198.62 , σy2 =
1 (52000 − 41000)2 + (60000 − 41000)2 + (18000 − 41000)2 6
+(46000 − 41000)2 + (25000 − 41000)2 + (45000 − 41000)2
= 218000000 = 14764.82 , σz2 = (14764.8/1000)2 .
(6.30)
100
6 Deskriptive Korrelation und Kovarianz
Damit erhalten wir die Korrelationen σx,y 2490000 = 0.8493, = σx σy 198.6 · 14764.8 σx,z 2490/1000 = 0.8493. = = σx σz 198.6 · (14764.8/1000)
ρx,y =
(6.31)
ρx,z
(6.32)
Beide Korrelationen sind vor und nach der Umskalierung gleich.
Der rege Gebrauch der Korrelation nach Bravais Pearson beruht vor allem auf den nachfolgenden Eigenschaften. Sie lassen sich mit Hilfe der “CauchySchwarzschen Ungleichung“ beweisen, auf die wir hier allerdings nicht n¨aher eingehen. Eigenschaften: 1. Eine Punktwolke hat exakt die Gestalt einer fallenden Gerade ⇔ ρx,y = −1, steigenden Gerade ⇔ ρx,y = +1.
(6.33)
2. F¨ ur alle anderen Punktwolken2 gilt −1 < ρx,y < 1.
(6.34)
Um diese Eigenschaften besser verstehen zu k¨onnen, gehen wir zun¨achst auf den Fall ein, dass die Punktwolke exakt die Gestalt einer steigenden oder fallenden Geraden besitzt. Mathematisch gesehen, besteht dann zwischen den Variablen X und Y eine lineare Abh¨ angigkeit, die wir mit der Funktionsgleichung Y = a + b·X mit b = 0 (6.35) darstellen k¨ onnen. •
Bei einer perfekten, linear gleichl¨ aufigen Beziehung von X und Y gilt b > 0, und die Punktwolke sieht wie eine steigende Gerade aus. Y
Y
8
8
6
6
4
4
2
2 1
2
2
3
4
5
6
7
X
1
2
3
4
5
6
7
X
Punktwolken, die exakt wie eine waagrecht oder senkrecht verlaufende Gerade aussehen, sind ausgeschlossen, da f¨ ur diese σx = 0 oder σy = 0 gilt, und dann der Nenner in (6.24) Null w¨ are.
6.3 Deskriptive Korrelation nach Bravais Pearson
101
Die Korrelation betr¨ agt genau 1, egal wie stark der Anstieg b der Geraden ist. • F¨ ur den Spezialfall Y = X sind a = 0 und b = 1. Die Punktwolke liegt exakt auf der Winkelhalbierenden. Folglich ist die Korrelation einer Variablen X mit sich selbst gleich 1: ρx,x = 1.
(6.36) (6.16)
Rechnerisch erh¨ alt man dieses Resultat durch Einsetzen von σx,x = σx2 und σy = σx in (6.24). •
Bei einer perfekten, linear gegenl¨ aufigen Beziehung gilt b < 0, und die Punktwolke sieht wie eine fallende Gerade aus. Y
Y
8
8
6
6
4
4
2
2 1
2
3
4
5
6
7
X
1
2
3
4
5
6
7
X
Die Korrelation betr¨ agt genau -1, egal wie stark das Gef¨alle b der Geraden ist. • Bei b = 0 ergibt sich, wie im linken Bild, eine exakt waagrecht verlaufende Gerade: Y
Y
8
8
6
6
4
4
2
2 1
2
3
4
5
6
7
X
1
2
3
4
5
6
7
X
In diesem Fall ist der y-Wert konstant a, gleich welcher Wert f¨ ur X vorliegt. Folglich besteht keine Abh¨ angigkeit, d.h. weder Gegen- noch Gleichl¨aufigkeit zwischen X und Y . Die Korrelation ist dann wegen σy = 0 im Nenner von (6.24) nicht definiert. Analog verh¨ alt es sich bei einer senkrechten Geraden, da hier σx = 0 gilt. In Abbildung 6.3 und 6.4 sehen wir Punktwolken, die sich nur durch eine Umskalierung der Variablen Y unterscheiden. Die Gestalt beider Punktwolken ist im Grunde gleich. Sie ¨ ahnelt einer Geraden, bei der die Punkte etwas “verrutscht“ sind. Die Korrelation ist daher nicht mehr genau 1, sondern etwas geringer. Gem¨ aß (6.31) und (6.32) betr¨agt die Korrelation f¨ ur beide Punktwolken ρ = 0.8493.
102
6 Deskriptive Korrelation und Kovarianz
Je mehr die Punkte verrutschen und sich die Gestalt der Punktwolke von einer fallenden oder steigenden Geraden entfremdet, um so n¨aher liegt der Wert der Korrelation bei 0. Die Abbildungen 6.5 - 6.10 geben hierzu einige Beispiele. Die Abbildungen 6.8 (Parabelfunktion) und 6.9 (Schwingungsfunktion) lassen erkennen, dass bei einer Korrelation von Null oder fast Null dennoch eine perfekte und eindeutige Abh¨ angigkeit, sogar im Sinne einer mathematischen Funktion von Y = f (X), bestehen kann. Allerdings ist diese Abh¨angigkeit nicht ausschließlich gleichl¨ aufig oder ausschließlich gegenl¨aufig, sondern wechselt ihr Verhalten abschnittsweise. Die Punktwolke ist in einigen Regionen fallend und in anderen Regionen steigend. Daher k¨onnte man in Abbildung 6.9 auch eine Korrelation ρx,y von u ¨ber Null oder auch exakt Null erreichen, wenn man die Schwingung an anderen Stellen beginnen oder aufh¨oren l¨asst, bzw. noch ein paar P¨ unktchen erg¨ anzt oder wegl¨asst. Die Abbildung 6.10 zeigt eine Exponentialfunktion, d.h. eine eindeutige Abh¨ angigkeit die streng gleichl¨ aufig ist. Die Korrelation nach Bravais Pearson betr¨ agt aber nicht 1, da die Beziehung zwischen X und Y bzw. die Gestalt der Punktwolke nicht linear ist. In Abbildung 6.6 k¨ onnen wir weder eine Abh¨ angigkeit von X und Y , noch eine Gerade erkennen. Die Korrelation ist hier gleich Null. Zusammenfassung: Mit der Korrelation nach Bravais Pearson kann man pr¨ ufen, inwiefern die Gestalt einer Punktwolke einer fallenden oder steigenden Gerade a ¨hnelt. Es wird somit nicht im generellen Sinn, sondern nur im speziellen, n¨ amlich linearen Sinn die Gleich- oder Gegenl¨aufigkeit von zwei Variablen X und Y gemessen. Translationen oder Umskalierungen einer Punktwolke ver¨andern den Wert der Korrelation nicht. Sollte eine hohe Korrelation nach Bravais Pearson bzw. eine hohe lineare Abh¨ angigkeit vorliegen, stellt sich die weitere Frage, wie man die Parameter a, b zum Ansatz (6.35) geeignet bestimmen k¨onnte. Dieses Problem wird im Kapitel “Regressionsrechnung“ behandelt.
6.4 Rangkorrelation nach Spearman Die Korrelation nach Bravais Pearson bewertet gleich- oder gegenl¨aufige Abh¨ angigkeit nur in einem sehr speziellen, n¨ amlich linearen Sinn. Nun wollen wir uns von dieser Einschr¨ ankung befreien und eine gleich- oder gegenl¨aufige Abh¨ angigkeit im generellen Sinn bemessen. Dies erreichen wir, indem wir der Korrelation nach Bravais Pearson ein spezielles Transformationsverfahren vorschalten, das eine gekr¨ ummte Punktwolke gewissermaßen “gerade zu biegen“ vermag, ohne dabei die Gleich-
6.4 Rangkorrelation nach Spearman
103
Beispiele zur Korrelation nach Bravais Pearson Y
Y 6 5 4 3 2 1
8 6 4 2 1 2 3 4 5 6 7
Y 12 10 8 6 4 2
X
Abbildung 6.5. ρx,y = 0.83
1
2
3
4
5
X
Abbildung 6.6. ρx,y = 0
Y
Y 40 30 20 10
X 2 4 6 8 10121416
Abbildung 6.8. ρx,y = 0
X
Abbildung 6.7. ρx,y = −0.90
Y 5 4 3 2 1
40 30 20 10
1 2 3 4 5 6 7
10 20 30 40 50 60
X
Abbildung 6.9. ρx,y = −0.05
X 2 4 6 8 10121416
Abbildung 6.10. ρx,y = 0.92
Je mehr sich die Gestalt der Punktwolke von einer fallenden oder steigenden Geraden entfremdet, um so n¨ aher liegt der Wert der Korrelation bei 0. Beispiele zur Rangkorrelation nach Spearman Die obigen Punktwolken sind in gleicher Reihenfolge nochmals bez¨ uglich ihrer Rangzahlen R(X) und R(Y ) dargestellt. Man erkennt, dass Kr¨ ummungen, sofern m¨ oglich, “gerade gebogen“ werden. RY 20 15 10 5
RY 50 40 30 20 10 5
10
15
20
RX
RY 20 15 10 5 10 20 30 40 50
RX
5
10
15
20
Abbildung 6.11. ρR(x),R(y) = 0.86
Abbildung 6.12. ρR(x),R(y) = 0
Abbildung 6.13. ρR(x),R(y) = −0.90
RY 60
RY 60 50 40 30 20 10
RY 20
40 20 20
40
Abbildung 6.14. ρR(x),R(y) = 0
RX 60
10 20 30 40 50 60
Abbildung 6.15. ρR(x),R(y) = −0.04
RX
15 10 5 RX
5
10
15
Abbildung 6.16. ρR(x),R(y) = 1
RX 20
104
6 Deskriptive Korrelation und Kovarianz
oder Gegenl¨ aufigkeit zu ver¨ andern. So wird jede Punktwolke mit perfekter Gleichl¨ aufigkeit zu einer steigenden geradlinigen Punktwolke, und jede Punktwolke mit perfekter Gegenl¨ aufigkeit zu einer fallenden, geradlinigen Punktwolke transformiert. Das vorgeschaltete Transformationsverfahren beruht darauf, dass man sowohl zur Variablen X, als auch zur Variablen Y die jeweiligen Rangzahlen R(X) und R(Y ) bestimmt. Die Rangzahl R(xi ) = Rangzahl zum Messwert xi
(6.37)
gibt an, der “wie viel gr¨ oßte Wert“ xi unter allen x-Werten ist. Der kleinste Merkmalswert besitzt somit die Rangzahl 1, der zweit kleinste Merkmalswert die Rangzahl 2, ..., und der gr¨ oßte Merkmalswert die Rangzahl N . Bei der Variablen Y gehen wir analog vor. Rangkorrelation nach Spearman (6.38) ρR(X),R(Y ) = Rangkorrelation nach Spearman, = Korrelation gem¨ aß (6.24) bez¨ uglich der Rangzahlen R(X) und R(Y ).
Beispiel (Sportler). Es treten N = 5 Kinder zu einem Wettkampf an, bei dem man beim Hochsprung die H¨ ohe X [m], im Weitsprung die Weite Y [m], beim Kugelstoßen die Weite Z [m] und beim Einhundertmeterlauf die Zeit T [sec] misst. Zudem ermittelt man f¨ ur jede Disziplin getrennt ein Ranking, aus dem die Positionierung des einzelnen Sportlers hervorgeht. Dies entspricht den Rangzahlen R(X), R(Y ), R(Z), R(T ). Dabei erh¨ alt der kleinste Messwert die Rangzahl 1 und der gr¨oßte Messwert die Rangzahl N = 5.
Max Fred Bert Gretl Susi
X [m]
R(X)
Y [m]
R(Y )
Z [m]
R(Z)
T [sec]
R(T )
1.22 1.25 1.16 0.80 1.01
4 5 3 1 2
4.11 4.80 3.41 2.70 2.90
4 5 3 1 2
4.30 4.20 2.90 4.60 1.80
4 3 2 5 1
14.3 12.1 14.3 15.0 14.6
2.5 1 2.5 5 4
Man erkennt, dass die Sportler beim Hochsprung und beim Weitsprung dieselbe Rangfolge einnehmen. Daher liegt hier eine perfekte Gleichl¨aufigkeit zwischen X und Y vor.
6.4 Rangkorrelation nach Spearman Ym 5 4 3 2 1
105
RY 6 5 4 3 2 1 0.5
1
1.5
Xm
1
2
3
4
5
6
RX
Da die Punktwolke im x-y-Diagramm gekr¨ ummt ist, ergibt sich mit ρx,y = 0.8685 eine Korrelation nach Bravais Pearson, welche deutlich kleiner als 1 ist. Die Rangkorrelation hingegen erkennt die perfekt gleichl¨aufige Beziehung mit ρR(X),R(Y ) = 1. Zwischen den Variablen Y des Weitsprungs und Z des Kugelstoßens scheint weder gleich-, noch gegenl¨ aufiges Verhalten vorzuliegen. Gretl hat die geringste Weite im Weitsprung, daf¨ ur aber die gr¨oßte Weite im Kugelstoßen. Max hingegen ist in beiden Disziplinen ziemlich gut. Zm 5 4 3 2 1
RZ 6 5 4 3 2 1 1
2
3
4
5
Ym
1
2
3
4
5
6
RY
Zwischen Y und Z ergibt sich eine eher schwache positive Korrelation von ρy,z = 0.381 und zwischen den Rangzahlen R(Y ) und R(Z) eine noch schw¨ achere, negative Rangkorrelation von ρR(Y ),R(Z) = −0.10. Die Berechnung der Rangkorrelation f¨ uhren wir exemplarisch vor: Mit R(Y ) = 15 (1 + 2 + 3 + 4 + 5) = 3, R(Z) = 3 und
1 (4 − 3)2 + (5 − 3)2 + (3 − 3)2 + (1 − 3)2 + (2 − 3)2 5 = 2,
2 σR(Y ) =
2 σR(Z) =2
und σR(Y ),R(Z) =
1 (4 − 3)(4 − 3) + (5 − 3)(3 − 3) + (3 − 3)(2 − 3) 5
+(1 − 3)(5 − 3) + (2 − 3)(1 − 3)
= −0.20
(6.39)
erh¨ alt man ρR(Y ),R(Z) =
σR(Y ),R(Z) σR(Y ),R(Z) −0.20 = = √ √ = −0.10. σR(Y ) · σR(Z) σR(Y ) · σR(Z) 2· 2
106
6 Deskriptive Korrelation und Kovarianz
Betrachten wir die Beziehung zwischen der H¨ohe X beim Hochsprung und der Zeit T beim Hundertmeterlauf, so ergibt sich eine tendenziell gegenl¨ aufige Abh¨ angigkeit. Je h¨ oher ein Kind springt, desto k¨ urzer die Zeit beim Hundertmeterlauf. RT 6 5 4 3 2 1
Tsec 15 10 5 0.5
1
1.5
Xm 1
2
3
4
5
6
RX
Bei der Bildung der Rangzahlen zum Merkmal T tritt die Besonderheit auf, dass der Wert 14.3 mehrfach vorkommt. Man spricht hier auch von einem sogenannten Tie. Es besteht die Konvention, als Rangzahl den Durchschnittswert derjenigen Rangzahlen zu nehmen, f¨ ur die beide Merkmalswerte in Frage kommen k¨ onnten. Hier streiten sich Max und Bert mit dem Wert 14.3 um die Rangzahlen 2 und 3. Daher ordnet man sowohl bei Max, als auch bei Bert dem Wert 14.3 die durchschnittliche Rangzahl 2.5 zu. Sollte bei einem Tie mehr als nur zwei Personen beteiligt sein, ordnet man ihnen allen den Durchschnittswert der entsprechenden Rangzahlen zu. Zwischen X und T ergibt sich eine negative Korrelation von ρX,T = −0.69 und zwischen den Rangzahlen R(X) und R(T ) eine negative Rangkorrelation von ρR(X),R(T ) = −0.97. Offenbar erkennt die Rangkorrelation die fast perfekt gegenl¨ aufige Abh¨ angigkeit zwischen X und T besser. Beispiel (Punktwolken). Die Punktwolken der Abbildungen 6.5-6.10 stellen jedes Objekt bez¨ uglich seiner x-y-Koordinaten dar. In den Abbildungen 6.11-6.16 haben wir die gleichen Objekte nochmals bez¨ uglich ihrer Rangzahlen R(X) und R(Y ) dargestellt. Die Abbildungen 6.14-6.16 zeigen besonders eindrucksvoll, wie dadurch die Punktwolken weitestgehend begradigt werden. Liegt eine geringe Korrelation nach Bravais Pearson wegen wechselnder Gegen- und Gleichl¨ aufigkeit vor (Abbildungen 6.8 und 6.9), so ergibt sich auch bei der Rangkorrelation gem¨aß der Abbildungen 6.14 und 6.15 ein Wert von Null oder fast Null. Die perfekte Gleichl¨aufigkeit in Abbildung 6.10 ergibt gem¨ aß Abbildung 6.16 eine Rangkorrelation von ρR(X),R(Y ) = 1.
6.5 Weitere Eigenschaften
107
6.5 Weitere Eigenschaften Kausalit¨ at, statistische Abh¨ angigkeit und Korrelation Ist eine Gr¨ oße X die Ursache f¨ ur eine andere Gr¨oße Y , so liegt eine kausale Abh¨ angigkeit vor. Beispielsweise zeigt eine Waage ein um so gr¨oßeres Gewicht ¨ ¨ Y (Wirkung) an, je mehr Apfel X (Ursache) wir auf sie legen. Da Apfel im allgemeinen unterschiedlich schwer sind, ergibt sich hierbei keine mit einer mathematischen Funktion exakt beschreibbare Abh¨angigkeit, wohl aber eine “statistische“ Abh¨ angigkeit. Betrachten wir den Wasserverbrauch X und den Stromverbrauch Y eines Haushaltes, so besteht zwischen den Variablen X und Y zumindest tendenziell eine gleichl¨ aufige Abh¨ angigkeit. Da aber weder der Stromverbrauch urs¨ achlich f¨ ur den Wasserverbrauch, noch der Wassserverbrauch urs¨achlich f¨ ur den Stromverbrauch ist, liegt zwar eine statistische, jedoch keine kausale Abh¨ angigkeit vor. Vielmehr d¨ urfte die dritte Variable “Z = Anzahl Personen im Haushalt“ sowohl urs¨ achlich f¨ ur X, als auch f¨ ur Y sein. In der Literatur wird h¨ aufig noch ein anderes Beispiel gegeben: In Deutschland ist u ¨ber einige Jahre der Storchenbestand Y und die Anzahl X der neugeborenen Babys erfasst worden. Es hat sich gezeigt, dass eine hohe Korrelation zwischen X und Y besteht, und die Punktwolke der Daten nahezu linear ansteigend verl¨ auft. Bekanntermaßen (hoffentlich) ist aber weder der Storchenbestand urs¨ achlich f¨ ur die Babys, noch sind die Babys urs¨achlich f¨ ur den Storchenbestand. Man sollte sich also generell davor h¨ uten, aus einer statistischen Abh¨ angigkeit eine kausale Abh¨ angigkeiten zu folgern! Das Storchenbeispiel wird in der Literatur gerne als Paradebeispiel f¨ ur eine sogenannte Scheinkorrelation angef¨ uhrt. Dies ist jedoch im Grunde etwas irref¨ uhrend und ungl¨ ucklich, denn tats¨ achlich liegt unstrittig eine hohe Korrelation vor. Da man aber ausdr¨ ucken m¨ ochte, dass keine kausale Abh¨angigkeit besteht, sollte man statt von einer “Scheinkorrelation“ besser von einer Scheinkausalit¨ at sprechen. Wir fassen diese Gedanken und einige Ergebnisse der vorigen Unterkapitel zusammen: •
Bei einer kausalen Abh¨ angigkeit besteht insbesondere auch eine statistische Abh¨ angigkeit. Die Umkehrung gilt jedoch nicht. Es gibt statistische Abh¨ angigkeiten, bei denen keine Kausalit¨ at vorliegt. • Liegt eine statistische Abh¨ angigkeit vor, k¨onnen sowohl die Rangkorrelation als auch die Korrelation nach Bravais Pearson je nach Art der Abh¨ angigkeit jeden Wert zwischen -1 und 1 annehmen. • Liegt keine statistische Abh¨ angigkeit vor, ist sowohl die Rangkorrelation als auch die Korrelation nach Bravais Pearson Null oder zumindest fast Null. • Wird eine Rangkorrelation von fast Null gemessen, so kann
108
6 Deskriptive Korrelation und Kovarianz
– keine Abh¨ angigkeit zwischen X und Y vorliegen, oder – eine Abh¨ angigkeit bestehen, die nicht ausschließlich gleichl¨aufig oder ausschließlich gegenl¨ aufig ist. • Wird eine Korrelation nach Bravais Pearson von fast Null gemessen, so kann – keine Abh¨ angigkeit zwischen X und Y vorliegen, oder – eine Abh¨ angigkeit bestehen, die nicht ausschließlich linear gleichl¨aufig oder ausschließlich linear gegenl¨ aufig ist. Ausreißer Die Korrelation nach Bravais Pearson ist “ausreißersensitiv“. Liegt beispielsweise nur ein einziger Punkt deutlich außerhalb der Punktwolke, so kann er den Wert der Korrelation erheblich ver¨ andern. L¨asst man den Ausreißer wie einen Mond um die Punktwolke herumwandern, kann man praktisch jeden Korrelationswert zwischen -1 und 1 erzeugen. Y 35 30 25 20 15 10 5
Y 35 30 25 20 15 10 5 5 10 15 20 25
X
Y 35 30 25 20 15 10 5 5 10 15 20 25
ρx,y = −1
X
5 10 15 20 25
ρx,y = 0
X
ρx,y = 0.92
Im Bild ganz rechts “sieht“ die Korrelation im Grunde nur zwei Punkte: Einen etwas “l¨ anglich“ geformten Punkt unten links und einen Punkt oben rechts. Insofern k¨ onnte man eine aufsteigende Gerade festlegen. Bei der Rangkorrelation nach Spearman ist der Ausreißereffekt bei weitem geringer. Insofern ist die Rangkorrelation “robuster“. Zur Veranschaulichung haben wir obige x-y-Punktwolken nochmals bez¨ uglich ihrer Rangzahlen R(X) und R(Y ) abgetragen: RY 35 30 25 20 15 10 5
RY 35 30 25 20 15 10 5 5 10 15 20 25
RX
ρR(X),R(Y ) = −1
RY 35 30 25 20 15 10 5 5 10 15 20 25
RX
ρR(X),R(Y ) = −0.50
5 10 15 20 25
RX
ρR(X),R(Y ) = −0.50
6.5 Weitere Eigenschaften
109
Simpson-Effekt Der Simpson-Effekt tritt auf, wenn eine Grundgesamtheit sich in mehrere Teilgesamtheiten gliedert, und die Abh¨ angigkeiten innerhalb der einzelnen Teilgesamtheiten andere sind als bei der Grundgesamtheit als Ganzes. Y Absatz Y 35 Land B 30 25 20 15 Land A 10 5 5
10
15
20
10 8 6 4 2 25
Preis X 2
ρx,y = 0.91
4
6
8
X 10
ρx,y = 0.96
In der linken Abbildung ist eine Beziehung zwischen dem Preis X und dem Absatz Y eines Gutes dargestellt. Die fallende Punktwolke links unten gibt die Messwerte im Land A, und die fallende Punktwolke rechts oben die Messwerte im Land B wieder. Die beiden Punktwolken liegen getrennt, da in beiden L¨ andern die Kaufkraft und die Konsumneigung so verschieden sind, dass im Land B sowohl die Preise X als auch der Absatz Y generell h¨oher als in A liegen. Innerhalb der Teilgesamtheiten ergibt sich jeweils eine perfekt linear gegenl¨ aufige Abh¨ angigkeit mit einer Korrelation von -1, was die allgemein bekannte Gegenl¨ aufigkeit von Preis und Absatz best¨atigt. Sollte der Anwender den Simpson-Effekt nicht erkennen und beide L¨ander als Ganzes betrachten, w¨ urde er eine positive Korrelation von ρx,y = 0.91 feststellen und daraus den fatalen, da falschen Schluss ziehen, dass mit steigenden Preisen auch der Absatz steigt. Die rechte Abbildung zeigt eine Situation, bei der die Variablen X und Y in den Teilpopulationen unkorreliert sind, in der Gesamtpopulation aber eine hohe Korrelation aufweisen. Die genauere Betrachtung von Korrelationen auf Teilgesamtheiten f¨ uhrt zu dem Begriff der partiellen Korrelation bzw. bedingten Korrelation, auf den wir hier allerdings nicht n¨ aher eingehen werden. In diesem Zusammenhang ist es u ¨blich, die Teilpopulationen mit Hilfe einer dritten Variablen Z festzulegen. Generelle Kritik Die empirische Kovarianz und empirische Korrelation sind rein deskriptive Kenngr¨ oßen. Sie besitzen nur bez¨ uglich der konkreten Grundgesamtheit G¨ ultigkeit. Sollten die gemessenen Werte Stichprobencharakter besitzen, stellt sich die Frage, inwiefern die Punktwolken und damit auch die Korrelationen zuf¨ allig sind. Dies l¨ asst sich nur im Rahmen der Wahrscheinlichkeitstheorie vern¨ unftig beantworten. Dort und in der Induktiven Statistik werden wir diese Aspekte nochmals aufgreifen.
7 Deskriptive Regressionsrechnung
Es liegt eine Grundgesamtheit vor, bei der die Objekte zwei metrische Merkmale X, Y besitzen. Wir gehen davon aus, dass die Grundgesamtheit in Form eines Streudiagramms bzw. Punktwolke, wie etwa in den Abbildungen 7.1 oder 7.2, vorliegt, d.h. zu den N Objekten sind die Messwertepaare (x1 , y1 ), (x2 , y2 ), . . . (xN , yN ) bekannt. Das Ziel der Regressionsrechnung besteht darin, die Abh¨angigkeit zwischen den Variablen X und Y durch eine mathematische Funktion y = f (x) darzustellen, d.h wir versuchen die Punktwolke m¨ oglichst gut durch eine geeignete Kurve zu approximieren. In der Regel werden nicht alle Punkte exakt auf einer solchen Kurve liegen k¨ onnen. Insofern wird mit der Funktion y = f (x) eine Gesetzm¨ aßigkeit zwischen X und Y ausgedr¨ uckt, die nicht f¨ ur den Einzelfall, wohl aber im Sinne einer Durchschnittsbetrachtung G¨ ultigkeit besitzt. Die unabh¨ angige Variable X bezeichnet man als Predictor oder Regressor, und die abh¨ angige Variable Y als Response oder Regressand.
Mrd
tMonat 12000 10000 8000 6000 4000 2000
6 5 4 3 2 1 1850
1900
1950
Jahr 2000
Abbildung 7.1. Die Weltbev¨ olkerung in Abh¨ angigkeit von der Zeit.
1960
1980
Jahr 1995
Abbildung 7.2. Monatliche Schokoladenproduktion in Australien, Juli 1957 - Aug. 1995
112
7 Deskriptive Regressionsrechnung
Die prinzipielle Vorgehensweise bei einer Regressionsrechnung kann man im Wesentlichen in zwei Schritte gliedern: 1. Wahl eines geeigneten Funktions-Typs y = f (x). Dadurch wird die Gestalt der Kurve in groben Z¨ ugen festgelegt. Beispiele: Lineare Funktion (Gerade) y = a + bx, Quadratische Funktion y = a + bx + cx2 , Exponentialfunktion y = ea+bx , Logarithmische Funktion y = ln(a + bx), logistische Funktion y = 1+eca+bx + d, u.a.. 2. Anpassung der Funktion y = f (x) an die Punktwolke, d.h. es m¨ ussen geeignete Werte f¨ ur die Parameter a, b, . . . berechnet werden. Von einer multiplen Regression spricht man, wenn die Variable Y nicht nur von einem Regressor X abh¨ angt, sondern von mehreren, beispielsweise zwei Regressoren X1 und X2 . Die Vorgehensweise ist analog zur einfachen Regression, wobei die Funktion f mehrere Ver¨ anderliche besitzt. Beispiel: Der Stromverbrauch Y [kWh] einer Wohnung h¨ angt von der Anzahl der Personen oße der Wohnung X2 [m2 ] ab. X1 und von der Gr¨ Man beachte generell, dass die deskriptive Regressionsrechnung nur Ergebnisse bereitzustellen vermag, die bez¨ uglich der konkret vorliegenden Grundgesamtheit bzw. Punktwolke g¨ ultig sind. Besitzen die gemessenen Werte Stichprobencharakter, stellt sich die Frage, inwiefern die Punktwolken und damit auch die berechneten Funktionen y = f (x) nur ein Zufallsprodukt sind. Wir werden dieses Problem im Rahmen der Wahrscheinlichkeitstheorie und der Induktiven Statistik im Kapitel 16 aufgreifen.
7.1 Lineare Regression Bei einer linearen Regression w¨ ahlt man in obigem “1.Schritt“ als Funktionstyp: f (x) = a + bx. (7.1) Bekanntlich ist in der Geometrie eine Gerade durch zwei Punkte eindeutig festgelegt. Entsprechend wird eine lineare Funktion (7.1) durch die zwei Parameter a, b eindeutig bestimmt. Beispiel (Wasserverbrauch im Hotel). C¨acilie hat im Hotel “Goldener ¨ Schlummi“ in N = 5 Wochen jeweils die Anzahl der Ubernachtungen X und den gesamten Wasserverbrauch Y in Kubikmetern pro Woche gemessen: (20, 25), (50, 35), (70, 20), (100, 30), (100, 45). Diese Werte sind in der Abbildung 7.3 bzw. 7.4 als Punktwolke dargestellt. Der Wasserverbrauch kann nur an einem einzigen Wasserz¨ahler im Keller
7.1 Lineare Regression
113
Je kleiner die Residuen ei , desto besser die Anpassung Beispiel “Wasserverbrauch im Hotel“ 3
Y [m3]
Y [m ] 50
f(xi)
}e
25
25
i
yi
50
xi
f(x)
50
f(x)
X
100 Übernachtungen
Abbildung 7.3. Die Regressionsgerade ist so gew¨ ahlt, dass die Residuen oglichst klein ei im Sinne von (7.3) m¨ sind.
50
X
100 Übernachtungen
Abbildung 7.4. Bei dieser Geraden sind die Residuen ei in der Summe viel gr¨ oßer.
zentral f¨ ur das gesamte Hotel abgelesen werden. C¨acilie m¨ochte wissen, wie ¨ stark dieser Verbrauch unmittelbar durch Ubernachtungen hervorgerufen wird. Die Aufgabe der linearen Regression besteht darin, die Parameter a, b in (7.1) so zu w¨ ahlen, dass die Gerade m¨ oglichst gut der gegebenen Punktwolke entspricht. Bei der Pr¨ azisierung von “m¨ oglichst gut“ gibt es verschiedene Kriterien bzw. Ans¨ atze. Das folgende Kriterium ist wohl das in der Statistik am h¨ aufigsten benutzte und orientiert sich an den gleichen Ideen, die der Definition der Varianz zu Grunde liegen. Dazu betrachten wir zu jedem Punkt (xi , yi ) die Abweichungen bzw. “Errors“ ei = yi − f (xi ) = (gemessener y-Wert) − (berechneter y-Wert),
(7.2)
¨ die man auch Residuen nennt. Als Kriterium f¨ ur die Ahnlichkeit der Punktwolke mit der Funktion f (x) dient die Summe aller quadrierten Residuen, wodurch die Abweichungen aller Punkte ber¨ ucksichtigt werden. Das Quadrieren garantiert, wie schon bei der Definition der Varianz, dass die Abweichungen nicht negativ in die Summe eingehen k¨ onnen: Sum of squared errors SSE(a, b) =
N i=1
e2i =
N i=1
(yi − f (xi ))2 =
N i=1
(yi − (a + bxi ))2
(7.3)
114
7 Deskriptive Regressionsrechnung
Die Summe der Residuen SSE(a, b) kann nie negativ werden, da die Summanden nicht negativ sind. Je kleiner diese Summe SSE(a, b) ist, desto geringer sind im Schnitt die Abweichungen ei und desto besser ist die Anpassung der Geraden an die Daten. Die Abbildungen 7.3 und 7.4 verdeutlichen dies exemplarisch. Die “beste“ Gerade, die wir Regressionsgerade nennen wollen, erhalten wir durch Minimierung von SSE(a, b): Ziel:
Minimiere SSE(a, b) bez¨ uglich a und b !
Mathematisch gesehen ist dies ein Optimierungsproblem bez¨ uglich der Funktion SSE(a, b). Man beachte, dass hier a und b als Variablen gelten, w¨ahrend ¨ erh¨alt man die die Werte xi und yi fest vorgegeben sind. Ublicherweise Optimall¨ osung, indem man die Nullstellen der partiellen Ableitungen von SSE(a, b) bestimmt: ∂ SSE(a, b) = 0 ∂a
und
∂ SSE(a, b) = 0. ∂b
(7.4)
Der begeisterte Leser findet auf Seite 384 eine Herleitung. Als Ergebnis erhalten wir: Regressionsgerade 2 y − x i xi y i xi i2 a= = y¯ − b · x ¯ N xi − ( xi )2 σx,y σy N xi yi − xi yi 2 2 = = ρx,y b= 2 N xi − ( xi ) σx σx
(7.5)
(7.6)
Die Formel (7.6) zeigt auch, welche Beziehung zwischen der Kovarianz σx,y , der Korrelation ρx,y und der Steigung b der Geraden besteht. Insbesondere ist die Steigung b genau dann gleich Null, wenn die Korrelation oder Kovarianz gleich Null sind. Daher w¨ are beispielsweise auch in den Abbildungen 6.6, 6.8 die jeweilige Regressionsgerade waagrecht und in der Abbildung 6.9 zumindest fast waagrecht. Nur f¨ ur den Fall, dass die Punktwolke exakt geradlinig verl¨auft, gibt es keine echten Residuen, und wir k¨ onnen erreichen, dass SSE(a, b) = 0 ist. Beispiel (Fortsetzung). Um die Parameter a, b mit den Formeln (7.5) und (7.6) zu berechnen, ben¨ otigten wir einige Zwischenergebnisse, die wir in einer entsprechenden Tabelle berechnen.
7.1 Lineare Regression
x
y
x2
xy
f (xi )
ei
e2i
20 50 70 100 100
25 35 20 30 45
400 2500 4900 10000 10000
500 1750 1400 3000 4500
24.7 28.7 31.3 35.2 35.2
0.256 6.346 -11.261 -5.171 9.829
0.066 40.274 126.803 26.739 96.610
340
155
27800
11150
155.0
0
290.49
115
Wir erhalten dann mit a=
27800 · 155 − 340 · 11150 = 22.137, 5 · 27800 − 3402
(7.7)
b=
5 · 11150 − 340 · 155 = 0.130 5 · 27800 − 3402
(7.8)
die gesuchte Regressionsgerade bzw. lineare Funktion y = f (x) = 22.137 + 0.130 x.
(7.9)
Sie ist in Abbildung 7.3 eingezeichnet. Der Parameterwert a = 22.137 beschreibt den Schnittpunkt der Geraden mit der y-Achse und entspricht wegen a = f (0) dem durchschnittlichen Wasserverbrauch, der sich auch ¨ ohne Ubernachtungen ergeben w¨ urde. Offenbar werden 22137 Liter f¨ ur Putzen, Blumengießen, Restaurantbetrieb, etc. pro Woche ben¨otigt. Die Steigung b = 0.130 bringt wegen b = f (x) zum Ausdruck, dass im Schnitt ¨ der Wasserverbrauch um ca. 130 Liter f¨ ur jede weitere Ubernachtung ansteigt. Da es im Hotel nur eine zentrale Wasseruhr gibt, konnte nur der Gesamtwasserverbrauch gemessen werden. Mit Hilfe der Regressionsrechnung ist es jedoch C¨ acilie gelungen, den Verbrauch in einen fixen Anteil und eine ¨ variablen Anteil, der unmittelbar einer Ubernachtung zugeordnet werden kann, zu zerlegen. In der Tabelle sind auch die Residuen ei und e2i zu jedem Punkt berechnet worden. Die “sum of squared errors“ SSE(a, b) ist bei a = 22.137 und b = 0.130 mit SSE(22.137, 0.130) = 290.49 minimal. Jeder andere Wert f¨ ur a und b, wie beispielsweise in Abbildung 7.4, w¨ urde zu einer gr¨oßeren SSE(a, b) f¨ uhren und die Gerade in diesem Sinn schlechter an die Punktwolke anpassen. Wir haben im Beispiel die Regressionsgerade als Durchschnittswert interpretiert. Dies kann man analog zu (5.19) rechtfertigen. Dort haben wir gezeigt, dass die Minimierung quadratischer Abweichungen zu einer L¨osung f¨ uhrt, die dem arithmetischen Mittel entspricht. Entsprechend l¨asst sich dieses Resultat N auf den Ansatz (7.3) u ¨bertragen, wo wir mit SSE(a, b) = i=1 e2i ebenfalls die Minimierung quadratischer Abweichungen zum Ziel erkl¨art haben.
116
7 Deskriptive Regressionsrechnung
Bemerkung: Wenn wir statt der Summe der quadratischen Abweichungen die absoluten Abweichungen N |ei | (7.10) i=1
betrachten w¨ urden, so erhielten wir in der Regel eine andere Regressionsgerade, die wir analog zu (5.16) als Median interpretieren m¨ ussten. Dies kann man sich ¨ ahnlich wie in den Abbildungen 5.1 und 5.2 leicht veranschaulichen. Die H¨ alfte der Punkte w¨ are dann oberhalb und die andere H¨ alfte der Punkte unterhalb der “Median-Regressionsgeraden“ zu finden. In der Praxis sind solche Berechnungen gelegentlich von Interesse. In der Lehrbuchliteratur werden sie jedoch eher selten angesprochen. Zudem ist die L¨ osung, wie beim Median u ¨blich, nicht zwangsl¨aufig eindeutig, d.h. man k¨ onnte verschiedene Median-Regressionsgeraden erhalten, welche alN le die Summe der Abweichungen i=1 |ei | gleichermaßen minimieren. Im Beispiel ergibt die Summe der Residuen bei der Regressionsgerade genau den Wert Null. Dies ist kein Zufall, sondern kann allgemein bewiesen werden. F¨ ur eine Regressionsgerade gilt generell:
N
ei = 0.
(7.11)
i=1
Dies zeigt auch, dass in der Summe die Abweichungen der Punkte von der Regressionsgeraden nach oben genauso groß sind wie die Abweichungen nach unten. Diese Eigenschaft ist ein Charakteristikum des arithmetischen Mittels und unterst¨ utzt die gegebene Interpretation der Regressionsgeraden. Wir haben bereits die Korrelation nach Bravais Pearson kennen gelernt, um Punktwolken bez¨ uglich ihrer Linearit¨ at zu bewerten. In der Regressionsrechnung ist es u ur zu benutzen, und ¨blich, auch das Quadrat der Korrelation hierf¨ dieses als Bestimmtheitsmaß zu bezeichnen: ρ2x,y = Bestimmtheitsmaß.
(7.12)
Wegen der Eigenschaften (6.33) und (6.34) gilt f¨ ur das Bestimmtheitmaß 0 ≤ ρ2x,y ≤ 1. Es ist genau dann 1, wenn die Punktwolke geradlinig steigend oder fallend verl¨ auft. Im Zusammenhang mit der Regressionsgeraden ergibt sich eine weitere Sichtweise f¨ ur diesen Begriff. Dazu benutzt man die Gleichung N N N 1 1 1 (yi − y¯)2 = (f (xi ) − y¯)2 + (yi − f (xi ))2 , N i=1 N i=1 N i=1
(7.13)
die man auch Varianzzerlegung von Y nennt. Ihr Beweis ist etwas langatmig und wird hier weggelassen. Die linke Seite von (7.13) ist die Varianz σy2 der Variablen Y , ohne dass man X einbezieht bzw. eine Regression durchf¨ uhrt.
7.1 Lineare Regression
117
Die rechte Seite zeigt, wie sich diese Varianz aufspalten l¨asst, wenn man die Abh¨ angigkeit von Y bez¨ uglich X u ucksichtigt: ¨ber die Funktion y = f (x) ber¨ Der erste Summand 1 (f (xi ) − y¯)2 N beschreibt die Varianz, die auftritt, wenn man statt der gemessenen Werte yi nur deren berechneten, exakt auf der Geraden liegenden Werte f (xi ) verwendet. Diese Varianz nennt man auch die “durch die Gerade bzw. Regression erkl¨ arte Varianz von Y “. Der zweite Summand 1 2 1 1 SSE(a, b) (yi − f (xi ))2 = ei = N N N dr¨ uckt die restliche Varianz aus, die durch die Abweichung der Punktwolke von der Geraden entsteht. Sie entspricht im Wesentlichen der minimierten “sum of squared errors“, also der mittleren Residuensumme, wobei hier die optimalen a, b gem¨ aß (7.5) und (7.6) zu verwenden sind. Bildet man das Verh¨ altnis von “erkl¨ arter“ Varianz zur gesamten Varianz von Y , so erh¨ alt man eine Gr¨ oße, die mit dem bereits in (7.12) definierten Bestimmtheitsmaß u ¨bereinstimmt. Der Beweis ist “technisch“ und wird dem begeisterten Leser u ¨berlassen: N ¯)2 i=1 (f (xi ) − y Bestimmtheitsmaß = ρ2x,y = N ¯)2 i=1 (yi − y N 2 e = 1 − N i=1 i . (7.14) ¯)2 i=1 (yi − y Die letzte Gleichung ergibt sich aus (7.13). Sie zeigt abermals, dass das Bestimmtheitsmaß genau dann den Wert 1 annimmt, wenn die Residuen ei alle Null sind, d.h. die Punkte alle exakt auf der Geraden liegen. Ansonsten ist es kleiner. Beispiel (Preis-Absatzfunktion). Willi Wunder verkauft vor der Burg “Broggelfels“ ausschließlich an Touristen Bratw¨ urste. Er kann mit dem Preis experimentieren, da er nicht den Verlust von Stammkunden zu bef¨ urchten braucht. Er ¨ andert an n = 9 Tagen die Preise und beobachtet dabei folgende Absatzmengen: X=Preis [e/Wurst] Y=Absatz [W¨ urste/Tag]
2.2 2.0 2.4 4.0 3.5 2.7 3.1 2.0 3.6 400 440 400 250 360 350 330 500 380
Willi Wunder unterstellt, dass zwischen dem Absatz Y und dem Preis X zumindest im Schnitt eine y = a + bx besteht. Mit lineare Beziehung den Zwischenergebnissen x = 25.5, y = 3410, x2 = 76.71 und xy = 9316 erh¨ alt er
118
7 Deskriptive Regressionsrechnung
a=
76.71 · 3410 − 25.5 · 9316 = 598.48, 9 · 76.71 − 25.52
(7.15)
b=
9 · 9316 − 25.5 · 3410 = −77.50 9 · 76.71 − 25.52
(7.16)
und damit die gesuchte Regressionsgerade bzw. lineare Preis-Absatzfunktion y = y(x) = 598.48 − 77.50 x. (7.17)
Absatz YStkTag 598.5 299.2 3.86
7.72
Preis XEurStk
Das Bestimmtheitsmaß betr¨ agt hier ρ2x,y = (−0.824)2 = 0.68. Willi Wunder m¨ ochte einen m¨ oglichst hohen Erl¨os (Umsatz) erzielen. Mit der Preis-Absatzfunktion kann Willi Wunder den durchschnittlichen Erl¨os E in Abh¨ angigkeit vom Preis X berechnen: Erl¨ os = E(x) = Menge · Preis = y(x) · x = (598.48 − 77.50 x) · x (7.18) = 598.48 x − 77.50 x2 . Diese Erl¨ osfunktion E(x) ist eine nach unten ge¨offnete Parabel:
Erlös EurTag 1155.4
Ex
3.86
7.72
Preis XEurStk
Die Maximalstelle kann man u ¨ber die Ableitung E (x) bestimmen: E (x) = 598.48 − 2 · 77.50 x = 0 ⇔ x = 3.86 [e/Wurst].
(7.19)
Willi Wunder sollte daher zu diesem Preis seine W¨ urstchen verkaufen.
7.2 Multiple lineare Regression
119
7.2 Multiple lineare Regression Beim ersten Lesen kann man mit Kapitel 9 fortfahren. Bei einer multiplen Regression h¨ angt die Variable Y nicht nur von einem Regressor X ab, sondern von mehreren. Wir beschr¨anken uns auf den Fall, dass nur zwei Regressoren X1 und X2 vorliegen. Die Messwerte aller Objekte stellen wir in einer Urliste dar, welche die drei Spalten X1 , X2 , Y besitzt. Das Tripel (x1,i , x2,i , yi ) bezieht sich auf die Messwerte am Objekt i und entspricht einer Zeile der Urliste. Wir k¨ onnen eine solche Urliste mit einem Streudiagramm darstellen, bei dem jedem Objekt i ein Punkt entspricht, der sich durch die Koordinaten (x1,i , x2,i , yi ) positioniert. Die Punktwolke ist eine “echte“ Wolke, da sie im dreidimensionalen Raum schwebt. Leider ist eine graphische Veranschaulichung auf der zweidimensionalen Zeichenebene nur eingeschr¨ankt m¨oglich. Beispiel (Gebrauchtwagenpreise VW-Golf ). Belinda, wohnhaft in Aachen, m¨ ochte ihren VW-Golf, der bereits eine Laufleistung von 86 [Tsd km] aufweist und 6.5 Jahre alt ist, u ¨ber eine Annonce verkaufen. Sie ist sich unsicher, was sie noch f¨ ur ihre “Karre“ verlangen kann. In der Aachener Zeitung vom April 2002 werden zwar eine Reihe von gleichen GolfModellen angeboten, jedoch weisen diese andere Laufleistungen oder eine anderes Alter auf. Ein direkter Vergleich mit ihrem Auto ist daher nicht m¨ oglich. Die Daten der N = 19 Autos, die in der Zeitung angeboten werden, lauten mit “X1 = Laufleistung [Tsd km]“, “X2 = Alter [Jahre]“ und “Y = Preis [e]“: (70, 12, 2100), (157, 12, 1000), (79, 6, 5600), (9, 1, 13500), (100, 5, 8100), (18, 1, 19000), (100, 6, 8500), (45, 7, 5500), (154, 11, 1300), (39, 6, 9000), (110, 9, 2950), (126, 11, 2000), (115, 8, 4200), (38, 4, 10800), (72, 3, 13000), (37, 3, 8300), (140, 11, 4500), (2, 1, 15000), (27, 2, 15200).
Diese Werte sind in der Abbildung 7.5 bzw. 7.6 als dreidimensionale Punktwolke dargestellt. Bei einer multiplen linearen Regression w¨ ahlt man als Funktionstyp eine lineare Funktion in mehreren, m Ver¨ anderlichen: f (x1 , x2 , . . . , xm ) = a + b1 x1 + b2 x2 + . . . + bm xm .
(7.20)
F¨ ur den Fall, dass nur m = 2 Regressoren vorliegen, erhalten wir speziell: f (x1 , x2 ) = a + b1 x1 + b2 x2 .
(7.21)
Der Graph dieser Funktion beschreibt eine Ebene im dreidimensionalen Raum. Bekanntlich ist in der Geometrie eine Ebene durch 3 Punkte eindeutig festgelegt. Entsprechend wird die lineare Funktion (7.21) durch die 3 Parameter
120
7 Deskriptive Regressionsrechnung Beispiel “Gebrauchtwagenpreise VW-Golf“
15000
15000
10000
10000
5000
0
0
10 5 0
50
100
150
10
0
150
Abbildung 7.5. Jeder Punkt ist ein gebrauchter VW-Golf. Er positioniert sich u ¨ber die Laufleistung, das Alter und den Preis.
Preis Y [Euro]
10000
5000
0 0
50
100
150
Abbildung 7.7. Wir blicken im Bild 7.5 direkt von vorne auf die Box.
100
50
0
0
Abbildung 7.6. Wir sind im Bild 7.5 rechts an der Box vorbei gegangen und betrachten nun dieselbe Punktwolke von hinten.
10
15000
15000
Preis Y [Euro]
5000 5
10000 5
5000
0
0
0
5
10
Abbildung 7.8. Wir stehen im Bild 7.5 rechts neben der Box und schauen direkt auf deren rechte Seite.
0
50
100
150
Abbildung 7.9. Wir schweben im Bild 7.5 genau u ¨ber der Box und schauen direkt auf deren obere Seite.
a, b1 , b2 eindeutig bestimmt. Unser Ziel ist es, eine Ebene der gegebenen Punktwolke m¨oglichst gut anzupassen. Dazu gehen wir analog zur einfachen Regression vor, indem wir die Residuen ei = yi − f (x1,i , x2,i ) = (gemessener y-Wert) − (berechneter y-Wert)
(7.22)
definieren und die G¨ ute der Anpassung wieder mit dem Kriterium “sum of squared errors“
7.2 Multiple lineare Regression
SSE(a, b1 , b2 ) =
N
N (yi − f (x1,i , x2,i ))2
e2i =
i=1
=
N
121
i=1
(yi − (a + b1 x1,i + b2 x2,i ))2
(7.23)
i=1
messen. Die “beste“ Ebene, die wir Regressionsebene nennen wollen, eruglich a, b1 und b2 minimieren. halten wir, indem wir SSE(a, b1 , b2 ) bez¨ Dies erreichen wir, indem wir die Nullstellen der partiellen Ableitungen von SSE(a, b1 , b2 ) berechnen: ∂ SSE(a, b1 , b2 ) = 0 und ∂a ∂ SSE(a, b1 , b2 ) = 0 und ∂b1
∂ SSE(a, b1 , b2 ) = 0. ∂b2
(7.24)
Man erh¨ alt drei lineare Gleichungen mit drei Unbekannten, die man etwa mit einem Substitutionsverfahren l¨ osen kann. Noch effektiver und u ¨bersichtlicher lassen sich diese lineare Gleichungen mit Hilfe der sogenannten “linearen Algebra“ behandeln. Dann ist es auch relativ einfach, den allgemeinen Fall der multiplen Regression mit m Regressoren einzubeziehen. Wir gehen hierauf nicht n¨ aher ein und begn¨ ugen uns mit der L¨ osung zu (7.24): Regressionsebene b1 =
σx22 σx1 ,y − σx1 ,x2 σx2 ,y σx21 σx22 − σx21 ,x2
b2 =
σx21 σx2 ,y − σx1 ,x2 σx1 ,y σx21 σx22 − σx21 ,x2
¯ 1 − b2 · x ¯2 a = y¯ − b1 · x
(7.25) (7.26)
Die Formeln benutzen die Kovarianzen und Varianzen der Variablen und sind nur berechenbar, falls im Nenner keine Null vorkommt. Eine Division durch Null tritt wegen σx21 σx22 − σx21 ,x2 = 0 ⇔
σx21 ,x2 =1 σx21 σx22
⇔
ρx1 ,x2 = ±1
(7.27)
genau dann auf, wenn die Korrelation der Regressoren X1 und X2 maximal ist, d.h. die Regressoren u ¨ber eine lineare Beziehung vollkommen abh¨angig sind. In diesem Fall liegen nicht zwei wirklich unabh¨angige Regressoren vor, sondern eigentlich nur ein einziger Regressor, denn der zweite Regressor l¨asst sich exakt u ¨ber den ersten berechnen. In diesem Fall sollte man die Regression nur mit einem einzigen Regressor, also eine einfache Regression durchf¨ uhren. Beispiel (Fortsetzung). Belinda berechnet zun¨achst y¯ = 7871.05,
x ¯1 = 75.68,
x ¯2 = 6.26,
122
7 Deskriptive Regressionsrechnung
σx21 = 2323.9, σx1 ,x2 = 154.35,
σx22 = 14.4,
σx1 ,y = −203504,
σx2 ,y = −18468.7
und damit b1 =
14.4 · (−203504) − 154.35 · (−18468.7) = 2323.9 · 14.4 − 154.352
b2 =
2323.9 · (−18468.7) − 154.35 · (−203504) = −1192.47, 2323.9 · 14.4 − 154.352
a = 7871.05 − b1 · 75.68 − b2 · 6.26 =
−8.37,
15973.1.
(7.28) (7.29) (7.30)
Die Regressionsebene lautet: y = f (x1 , x2 ) = 15973.1 − 8.37x1 − 1192.47x2 .
(7.31)
Belinda kann nun f¨ ur ihr Auto mit x1 = 86 und x2 = 6.5 einen Preis berechnen, der “markt¨ ublich“ w¨ are: y = f (86, 6.5) = 15973.1 − 8.37 · 86 − 1192.47 · 6.5 = 7502.28 [e].
(7.32)
Mit Hilfe der Regression gelingt es Belinda, ihr Auto simultan mit allen anderen Autos sinnvoll zu vergleichen, obwohl keines die selben Daten wie Belindas Auto aufweist. Ferner kann Belinda analysieren, wie der Preisverfall zustande kommt: Der Parameter a = f (0, 0) der Regressionsebene kann als “Neupreis“ interpretiert werden. Er d¨ urfte etwas geringer sein als der tats¨ achliche Neupreis, da das Fahrzeug bereits den Nach∂ f (x1 , x2 ) = −8.37 teil besitzt, “gebraucht“ zu sein. Der Wert b1 = ∂x 1 entspricht der partiellen Ableitung und besagt, dass pro 1000 Kilometer Fahrleistung der Wert eines VW-Golf um durchschnittlich 8.37 [e] sinkt. Der Preisverfall wird stark vom Alter eines Autos bestimmt, denn ∂ f (x1 , x2 ) = −1192.47 bedeutet, dass pro Jahr der Preis um b2 = ∂x 2 1192.47 [e] f¨allt. Man mag sich streiten k¨ onnen, ob die geringe Bewertung der Fahrleistung angebracht ist. Sie spiegelt nur die Meinung der inserierenden Verk¨aufer wieder und sollte nicht generalisiert werden, denn die Ergebnisse der Regression sind nur bez¨ uglich der gegebenen, konkreten Grundgesamtheit g¨ ultig! Was passiert beispielsweise, wenn man einen Punkt bzw. Gebrauchtwagen wegl¨ asst, hinzuf¨ ugt oder geringf¨ ugig verschiebt? Diese Fragen der Stabilit¨ at und Sensitivit¨ at sind sehr wichtig; sie k¨onnen aber erst im Rahmen der Induktiven Statistik vern¨ unftig beantwortet werden. ¨ Einen ersten Einblick in diese Problematik geben folgende Uberlegungen: Die Korrelation von X1 , X2 beschreibt die St¨arke des linearen Zusammenhangs der Regressoren und betr¨ agt hier
7.2 Multiple lineare Regression
ρx1 ,x2 =
σx1 ,x2 154.35 = 0.844. =√ σx1 · σx2 2323.9 · 14.4
123
(7.33)
¨ Sie misst die Ahnlichkeit der Punktwolke in Abbildung 7.9 mit einer Geraden. Im Extremfall, bei einer perfekten geradenf¨ormigen Gestalt w¨are die onnte man das Alter X2 eines Autos u Korrelation ρx1 ,x2 = 1. Dann k¨ ¨ber diese Gerade exakt durch die Laufleistung X1 bestimmen oder umgekehrt. In diesem Fall tr¨ agt der zweite Regressor keine zus¨atzlichen Informationen bei und die simultane Einbeziehung beider Variablen X1 und X2 ist u ussig. Wird dies dennoch versucht, f¨ allt es der Regression gewisser¨berfl¨ maßen schwer, sich zu entscheiden, welche der beiden “gleichinformativen“ Regressoren bei der Berechnung des Preises herangezogen werden sollte. Wird X1 bevorzugt, kann man auf X2 verzichten, d.h. b2 = 0 w¨ahlen. ahlen, wenn X2 bevorzugt wird. Man Ebenso kann man aber auch b1 = 0 w¨ kann aber auch diese Bevorzugungen “Mischen“ und so fast willk¨ urliche Werte f¨ ur b1 und b2 erzeugen. In den Formeln (7.25) kommt dieser Sachverhalt durch eine Division mit Null zum Ausdruck, d.h. b1 und b2 sind nicht mehr eindeutig berechenbar. Je st¨ arker die Korrelation ρx1 ,x2 der Regressoren ist, um so mehr trifft der soeben dargestellte “Mechanismus“ zu, und um so “wackeliger“ bzw. senuber geringf¨ ugigen sitiver sind die berechneten Parameter a, b1 , b2 gegen¨ ¨ Anderungen der Input-Daten. Umgekehrt ist eine geringe Korrelation der Regressoren X1 , X2 vorteilhaft, um “stabile“ Ergebnisse zu erhalten. Abschließend geben wir noch die Regressionsgeraden an, die Belinda erh¨ alt, wenn sie den Preis mit nur einem einzige Regressor, also einer einfachen Regression, berechnen m¨ ochte. W¨ahlt man als Regressor die aß (7.5) und (7.6) die RegressionsgeraLaufleistung X1 , erhalten wir gem¨ de (7.34) y = f (x1 ) = 14498.7 − 87.57 x1 , welche versucht, die Punktwolke in Abbildung 7.7 m¨oglichst gut mit einer Geraden darzustellen. Analog erhalten wir zur Punktwolke in Abbildung 7.8 die Regressionsgerade y = f (x2 ) = 15901.4 − 1282.15 x2 ,
(7.35)
welche den Preis Y alleine aufgrund des Alters X2 berechnet. Die Qualit¨at ¨ dieser zwei Preismodelle l¨ asst sich an der Ahnlichkeiten der Punktwolken 7.7 und 7.8 mit den jeweiligen Regressionsgeraden messen. Der optische Eindruck, dass das Alter besser als die Laufleistung geeignet sei, den Preisverfall der Autos zu erkl¨ aren, kommt auch durch den absolut h¨oheren Wert der Korrelation ρx2 ,y = −0.935 im Vergleich zu ρx1 ,y = −0.81 zum Ausdruck. Die gesch¨ atzten “Neupreise“ bei der multiplen Regression und bei den zwei einfachen Regressionen sind zwar ¨ ahnlich, jedoch stimmen sie nicht exakt u ¨berein. Ebenso wird deutlich, dass man aus den zwei einfachen Regressionsgeraden nicht die Regressionsebene herleiten kann. Insbesondere
124
7 Deskriptive Regressionsrechnung
ist der Preisverfall durch die Laufleistung X1 pro 1000 Kilometer bei der einfachen Regression mit 87.57 [e] h¨ oher als bei der multiplen Regression. Dies ist damit erkl¨ arbar, dass bei der multiplen Regression das Alter “simultan“ bzw. gemeinsam mit der Laufleistung ber¨ ucksichtigt wird. uckF¨ ur Belindas Auto liegt der Preis, der nur die Laufleistung X1 ber¨ sichtigt, gem¨ aß (7.34) bei f (86) = 6967.68 [e]. Der Preis, der nur das ucksichtigt, liegt gem¨ aß (7.35) bei f (6.5) = 7567.42 [e]. Alter X2 ber¨
7.3 Nichtlineare einfache Regression Beim ersten Lesen kann man mit Kapitel 9 fortfahren. Hier wird von vornherein ein Funktionstyp f (x) gew¨ahlt, der Kr¨ ummungen zul¨ asst. Leider ist nur in einigen wenigen F¨ allen eine analytische Herleitung der L¨ osungen m¨ oglich. In der Praxis werden stattdessen oft numerische N¨aherungsverfahren eingesetzt. Wir gehen nur kurz auf einige Funktionstypen ein: A: Quadratische Funktion f (x) = a + b1 x + b2 x2
(7.36)
Der Graph dieser Funktion beschreibt eine Parabel, welche von den Parameangt. Die Regression versucht diese Parameter so zu w¨ahlen, tern a, b1 , b2 abh¨ dass die Parabel m¨ oglichst gut durch die Punktwolke der gegebenen Messwerte (x1 , y1 ), (x2 , y2 ), . . . (xN , yN ) passt. Mit einem Trick l¨asst sich dieses Problem auf den Fall einer multiplen Regression mit zwei Regressoren u uhren, das ¨berf¨ wir bereits im letzten Kapitel besprochen haben. Dazu fassen wir die quadrierten x-Werte wie eine eigene, selbst¨ andige Variable auf, d.h. wir setzen formal: und X2 = X 2 . (7.37) X1 = X Anschließend berechnen wir gem¨ aß (7.25) und (7.26) die Parameter der Regressionsebene (7.38) f (x1 , x2 ) = a + b1 x1 + b2 x2 , bei der dieselben Parameter wie in (7.36) gesucht sind. Beispiel (Tomatenanbau). Edwin besitzt ein Gew¨achshaus, in dem er Tomaten anbaut. Er m¨ ochte die Wassermenge beim Gießen der Pflanzen optimieren. Gießt er zu wenig, vertrocknen die Pflanzen, gießt er zu viel, ersaufen die Pflanzen. Edwin hat an N = 12 Pflanzen unterschiedliche Wassermengen X [Liter/Tag] pro Pflanze gegossen und vergleicht damit den Ertrag Y [kg] pro Pflanze. Die gemessenen Werte (x, y) lauten: (6, 4.3), (5, 2.6), (4, 2.8), (6, 3.4), (8, 4.5), (11, 5.2), (3, 1), (13, 3.4), (14, 1.1), (15, 2.1), (12, 4.1), (8, 4.7), (7, 3.5), (10, 4.2), (9, 4.7).
7.3 Nichtlineare einfache Regression
125
Quadratische Regression Beispiel “Tomatenanbau“ kg 6 5 4 3 2 1 5
9.1
15
Liter
Abbildung 7.10. Die Regressionsparabel l¨ asst erkennen, bei welcher W¨ asserung der Ertrag im Schnitt am gr¨ oßten ist.
Diese Werte sind in der Abbildung 7.10 dargestellt. Wir f¨ uhren formal die ur jede Pflanze die folgenden zweite Variable X2 = X 2 ein und erhalten f¨ Daten-Tripel (x1 , x2 , y): (6, 36, 4.3), (5, 25, 2.6), (4, 16, 2.8), (6, 36, 3.4), (8, 64, 4.5), (11, 121, 5.2), (3, 9, 1), (13, 169, 3.4), (14, 196, 1.1), (15, 225, 2.1), (12, 144, 4.1), (8, 64, 4.7), (7, 49, 3.5), (10, 100, 4.2), (9, 81, 4.7).
Diese Daten bilden eine dreidimensionale Punktwolke, f¨ ur die wir eine Regressionsebene gem¨ aß (7.25) und (7.26) bestimmen. Diese lautet: f (x1 , x2 ) = −3.1 + 1.69x1 − 0.093x2 .
(7.39)
Da diese Ebene die gleichen Parameterwerte a, b1 , b2 wie die gesuchte Parabel besitzt, erhalten wir wegen X2 = X 2 schließlich als Reressionsparabel (7.40) f (x) = −3.1 + 1.69x − 0.093x2 , ¨ welche ebenfalls in der Abbildung 7.10 zu sehen ist. Uber die Nullstelle der Ableitung f (x) = 1.69 − 2 · 0.093x = 0 ⇔ x = 9.1 erh¨alt Edwin die optimale Wassermenge x = 9.1 [Liter], bei der die Parabel und somit der Tomatenertrag am gr¨ oßten ist. Er betr¨ agt bei dieser Gießweise im Schnitt f (9.1) = 4.6 [kg]. Auch in diesem Beispiel sollte man kritisch fragen, wie stabil die Parabel ¨ bez¨ uglich Anderungen der Input-Daten ist, und wie sehr sich das Ergebnis auf andere Tomatenpflanzen u asst. ¨bertragen l¨
126
7 Deskriptive Regressionsrechnung
B: Exponentielle Funktion f (x) = ea+bx
(7.41)
Der Graph dieser Funktion verl¨ auft im Wesentlichen wie bei der Exponentialfunktion ex . Mit dem Parameter a kann man eine Streckung des Graphen bewirken und mit dem Parameter b wird gewissermaßen die Skalierung ver¨ andert. Zudem l¨ asst sich f¨ ur b < 0 eine exponentiell fallende Kurve darstellen. Unser Ziel ist es, diese Parameter so zu w¨ahlen, dass der Graph m¨ oglichst gut durch die Punktwolke der gegebenen Messwerte (x1 , y1 ), (x2 , y2 ), . . . (xN , yN ) passt. Mit einem Trick kann man dieses Problem auf den Fall einer einfachen linearen Regression zur¨ uckf¨ uhren. Nimmt man auf beiden Seiten von (7.41) den Logarithmus, so erh¨ alt man wegen y = ea+bx
⇔
ln(y) = a + bx
(7.42)
eine lineare Beziehung zwischen dem logarithmierten y-Wert und dem Regressor x. Sollte daher die gegebene Punktwolke (x1 , y1 ), (x2 , y2 ), . . . (xN , yN ) die Gestalt einer Exponentialfunktion aufweisen, so m¨ usste die transformierte Punktwolke (x1 , ln(y1 )), (x2 , ln(y2 )), . . . (xN , ln(yN )) ann¨ahernd einer Geraden entsprechen, die wir gem¨ aß (7.5) und (7.6) berechnen k¨onnen. Beispiel (Umsatz Hundeschuhe). Balduin hat vor zwei Wochen einen Internet-Versandhandel f¨ ur Hundeschuhe gegr¨ undet. Er notiert an N = 14 Tagen, wie viel Zeit X seit der Neuer¨ offnung verstrichen ist, und welcher Umsatz Y [Tsde] erzielt worden ist: (1, 17), (5, 15), (10, 25), (15, 15), (17, 27), (20, 20), (22, 30), (25, 36), (30, 35), (36, 61), (40, 49), (48, 81), (53, 110), (55, 144), (60, 160)
Diese Werte, die in der Abbildung 7.11 als Punktwolke zu sehen sind, zeigen progressiv steigende Ums¨ atze. Wir wenden den Trick an und berechnen zun¨ achst die Punktwolke mit den logarithmierten y-Werten: (1, 2.83321), (5, 2.70805), (10, 3.21888), (15, 2.70805), (17, 3.29584), (20, 2.99573), (22, 3.4012), (25, 3.58352), (30, 3.55535), (36, 4.11087), (40, 3.89182), (48, 4.39445), (53, 4.70048), (55, 4.96981), (60, 5.07517).
Mit diesen Daten, die in Abbildung 7.12 zu sehen sind, f¨ uhren wir eine lineare Regression gem¨ aß (7.5) und (7.6) durch, wobei wir dort y mit ln(y) zu ersetzen haben. Wir erhalten als “Regressionsgerade“ ln(y) = 2.504 + 0.0409x
(7.43)
und daraus die Regressionsfunktion: y = f (x) = e2.504+0.0409x .
(7.44)
Diese Funktion ist in Abbildung 7.11 zu sehen und entspricht dort der weniger steilen Kurve.
7.3 Nichtlineare einfache Regression
127
Exponentielle Regression Beispiel “Umsatz Hundeschuhe“ lny 7
TsdEuro 175
6
150 125
5
100
4
75
3
50
2
25
1 10 20 30 40 50 60
Tag 10 20 30 40 50 60
Abbildung 7.11. Die Punktwolke der Urliste.
Tag
Abbildung 7.12. Die Punktwolke der logarithmierten y-Werte.
Der Logarithmus verbiegt die Punktwolke der Urliste in eine geradlinig verlaufende Punktwolke. Dort wird eine lineare Regression durchgef¨ uhrt. Anschließend wird diese Gerade mit der Umkehrung des Logarithmus in die urspr¨ ungliche Punktwolke zur¨ uck gebogen. Das Ergebnis ist in der Abbildung 7.11 zu sehen. Es ist die Kurve mit der geringeren Steigung. Durch dieses Verbiegen werden allerdings auch die Residuen verzerrt. Die steilere Kurve wurde direkt durch Minimierung der Residuen in Abbildung 7.11 bestimmt. Die weniger steile Kurve minimiert die Residuen in Abbildung 7.12, nicht aber in Abbildung 7.11.
Der Trick, die nichtlineare Regression auf eine lineare Regression zur¨ uckzuf¨ uhren, besitzt jedoch einen Nachteil. Durch die Transformation der y-Werte mit dem Logarithmus minimieren wir nicht die Summe der Residuen der original Punktwolke zu f (x) SSE(a, b) =
N
(yi − f (xi ))2 =
i=1
N
(yi − ea+bxi )2 ,
(7.45)
i=1
sondern die Summe der Residuen, die sich auf die logarithmischen y-Werte und die logarithmischen Funktionswerte ln(f (x)) beziehen: SSE ∗ (a, b) =
N
(ln(yi ) − (a + bxi ))2 .
(7.46)
i=1
Diese Summen SSE(a, b) und SSE ∗ (a, b) bewerten aber die Abweichungen unterschiedlich und f¨ uhren daher beim Minimieren zu verschiedenen Optimall¨ osungen. Die Minimierung von SSE(a, b) ist nicht auf analytischem Wege
128
7 Deskriptive Regressionsrechnung
durchf¨ uhrbar. Stattdessen muss man numerische N¨aherungsverfahren einsetzen, die beispielsweise in modernen Tabellenkakulationsprogrammen zu finden sind. Die so gewonnenen Werte f¨ ur a und b sind andere als diejenigen, welche man u alt. ¨ber den “Trick“ erh¨ Beispiel (Fortsetzung). Balduin berechnet mit einem numerischen N¨aherungsverfahren die optimalen Werte zu a und b, indem er gem¨aß (7.45) die “sum of squared errors“ SSE(a, b) minimiert. Dadurch wird auf direktem oglichst gut an die Punktwolke in Abbildung Weg die Funktion ea+bxi m¨ 7.11 angepasst. Er erh¨ alt: f (x) = e2.266+0.0470x .
(7.47)
Ein Vergleich dieser Exponentialfunktion mit der Exponentialfunktion, die Balduin mit dem “Trick“ berechnet hat, zeigt einen deutlich sichtbaren Unterschied. Dies kommt auch bei einem Vergleich der “sum of squared errors“ zum Ausdruck. Beim Trick betr¨ agt die “sum of squared errors“ SSE(2.504, 0.0409) = 1620.7 und bei der optimalen Exponentialfunktion (7.47) betr¨ agt sie SSE(2.266, 0.0470) = 972.6. Letztere ist also deutlich geringer. C: Logistische Funktion c +d (7.48) 1 + ea+bx Der Graph dieser Funktion besitzt eine waagrechte Asymptote, d.h. er eignet sich, um Sachverhalte darzustellen, die mit wachsenden x-Werten eine S¨attigungswert annehmen. Unser Ziel ist es, die Parameter a, b, c, d so zu w¨ahlen, dass der Graph m¨oglichst gut durch die Punktwolke der gegebenen Messwerte (x1 , y1 ), (x2 , y2 ), . . . (xN , yN ) passt. Dazu minimieren wir die “sum of squared errors“ f (x) =
SSE(a, b, c, d) =
N
(yi − f (xi ))2 =
i=1
N
yi −
i=1
2 c + d a+bx i 1+e
(7.49)
bez¨ uglich a, b, c, d. Dies ist nur mit Hilfe numerischer N¨aherungsverfahren durchf¨ uhrbar. Beispiel (Bierproduktion in Australien). Die Punktwolke in Abbildung 7.13 stellt die j¨ ahrliche Bierproduktion in Australien im Zeitraum von 1956-1993 dar. Zu den Variablen X = Jahr und Y = Biermenge [Megaliter/Jahr] lautet die Urliste: (1956, (1961, (1966, (1971,
1032.5), 1123.7), 1333.8), 1645.0),
(1957, (1962, (1967, (1972,
1046.4), 1144.4), 1398.6), 1694.8),
(1958, (1963, (1968, (1973,
1055.1), 1189.4), 1481.2), 1837.7),
(1959, 1052.4), (1960, (1964, 1255.8), (1965, (1969, 1522.0), (1970, (1974, 1914.9), (1975,
1084.4), 1310.6), 1583.6), 1940.2),
7.3 Nichtlineare einfache Regression
129
Logistische Regression “Bierproduktion in Australien“
Megaliter 2500 2000 1500 1000 500 1960
1980
Jahr 2000
Abbildung 7.13. Die Punktewolke, die einen S¨ attigungswert zu besitzen scheint, wird durch eine logistische Regressionsfunktion approximiert.
(1976, (1981, (1986, (1991,
1943.7), 2030.9), 1849.6), 1899.1),
(1977, 1960.7), (1978, 1998.3), (1979, 1948.2), (1980, 1931.1), (1982, 1980.7), (1983, 1849.6), (1984, 1851.1), (1985, 1857.1), (1987, 1876.6), (1988, 1958.0), (1989, 1922.5), (1990, 1958.5), (1992, 1805.0), (1993, 1775.0).
Die numerische Minimierung der SSE(a, b, c, d) f¨ uhrt zu den Parametern a = 742.8, b = −0.377, c = 868.7, d = 1050.9 und somit zur logistischen Regressionsfunktion f (x) =
868.7 + 1050.9, 1 + e742.8−0.377x
(7.50)
die ebenfalls in Abbildung 7.13 zu sehen ist. In der Regel ist die Minimierung numerisch instabil und schwierig, d.h. auch sensitiv bez¨ uglich kleiner ¨ Anderungen bei den Input-Daten. Die Parameterwerte k¨onnen sich dann schnell ¨ andern. Mit der Wahl einer logistischen Funktion als Funktionstyp haben wir von vornherein eine waagrechte Asymptote vorgesehen. Die Asymptote 868.7 lim f (x) = 1+e −∞ + 1050.9 = 1919.6 [Megaliter/Jahr] entspricht dem x→∞ oberen durchschnittlichen S¨ attigungswert, den die Bierproduktion auf lange Sicht annehmen w¨ urde. Es ist klar, dass ein solcher Wert existieren muss, da ansonsten ganz Australien dem Suff verf¨allt.
8 Indizes
Beim ersten Lesen kann man mit Kapitel 9 fortfahren. Indizes dienen zum globalen Vergleich von wirtschaftlichen Gr¨oßen zu verschiedenen Zeitpunkten oder Orten. Dabei unterscheidet man im Wesentlichen drei Arten von Indizes: • •
Wertindex bzw. Umsatzindex, Preisindex, z.B. Preisindex f¨ ur die Lebenshaltung, Index der Tarifl¨ohne, Deutscher Aktienindex (DAX), • Mengenindex, z.B. Produktionsindex, Index der Wochenarbeitszeit, Bestandsindex. Viele “amtliche Indizes“ werden von Eurostat oder vom Statistischen Bundesamt im “Statistisches Jahrbuch“ bzw. im Internet ver¨offentlicht. Aber auch im betriebswirtschaftlichen Bereich finden Indizes h¨aufig Anwendung. Dort liefern sie Informationen, um unternehmensspezifische Trends aufzuzeigen, die als Planungshilfe dienen und mit allgemeinen Trends verglichen werden k¨onnen. Wir konzentrieren uns in diesem Kapitel vor allem auf die Darstellung der Grundideen und einiger mathematischen Eigenschaften von Indizes. Ausgangspunkt sind n verschiedene Produkte, zu denen man sowohl die Mengen, als auch die Preise zu zwei Zeitpunkten kennt. Wir gebrauchen folgende Bezeichnungen: t0 = Basisperiode, t = Berichtsperiode, qi (t) = Menge des Produktes i zum Zeitpunkt t, pi (t) = Preis des Produktes i zum Zeitpunkt t, n = Anzahl der Produkte.
(8.1) (8.2) (8.3) (8.4) (8.5)
132
8 Indizes
8.1 Wertindex Der Wertindex beschreibt die Ver¨ anderung des Gesamtwertes aller n Produkte von der Basisperiode t0 bis zur Berichtsperiode t. Der Begriff Wert, definiert als “Wert = Menge · Preis“, entspricht je nach Problemstellung einem Umsatz, Ausgaben, Kosten u.a. Insofern sind statt der Bezeichnung “Wertindex“ gelegentlich auch andere Bezeichnungen, wie beispielsweise “Umsatzindex“, gel¨ aufig. Zur Berechnung des Wertindex bildet man das Verh¨altnis des Gesamtwertes aller n Produkte zur Zeit t und zur Zeit t0 : Wertindex n qi (t) pi (t) U (t0 , t) = ni=1 q i=1 i (t0 ) pi (t0 ) =
(8.6)
Gesamtwert aller Produkte zur Berichtszeit t Gesamtwert aller Produkte zur Basiszeit t0
Beispiel (B¨ ackerei). Ortrun hat bei einer B¨ackerei zur Basiszeit t0 und zur Berichtszeit t jeweils die drei Produkte Brot, Semmeln und Torten eingekauft.
Brot Semmeln Torten
t0 200 1000 15
Mengen t 210 1400 12
[kg] [Stk] [Stk]
t0 1.90 0.22 40.00
Preise t 2.00 0.20 50.00
[e/kg] [e/Stk] [e/Stk]
Sie m¨ ochte wissen, wie sehr sich ihre Ausgaben von t0 bis t ver¨andert haben. Dazu betrachtet sie das Verh¨ altnis der Gesamtausgaben: U (t0 , t) =
Ausgaben zur Berichtsperiode Ausgaben zur Basisperiode
1300 210 · 2.00 + 1400 · 0.20 + 12 · 50.00 = 200 · 1.90 + 1000 · 0.22 + 15 · 40.00 1200 = 1.083.
=
(8.7)
Ortrun hat demnach in der Berichtsperiode 8.3% mehr Geld im B¨ackerladen ausgegeben als zur Basisperiode. Eine Wertver¨ anderung ber¨ ucksichtigt sowohl Mengen¨anderung als auch Preisanderung in einem. Insofern k¨ onnen wir bei alleiniger Betrachtung eines Wer¨ tindexes nur schwer analysieren, wie stark die Preise oder die Mengen an der Wert¨ anderung verantwortlich sind. Dieses Ziel l¨asst sich mit Preis- und Mengenindizes verfolgen.
8.2 Preisindex
133
8.2 Preisindex Mit einem Preisindex stellt man die Preisver¨ anderungen bei mehreren Produkten durch eine einzige Kennziffer dar. In den Medien wird beispielsweise monatlich der Preisindex der Lebenshaltungskosten ver¨offentlicht, mit dem wir die “allgemeine Teuerungsrate“ oder “Inflation“ darstellen. Wir er¨ortern anhand des Beispiels “B¨ ackerei“ die Vorgehensweise. Beispiel (Fortsetzung). Ortrun interessiert sich f¨ ur die Preisver¨anderungen, die der B¨ acker vorgenommen hat. Die Preisver¨anderung jedes einzelnen Produkts i erh¨ alt Ortrun, indem sie pro Produkt die Berichts- und Basispreise ins Verh¨ altnis setzt: Brot:
2.0 p1 (t) = = 1.053 p1 (t0 ) 1.9
Semmeln:
0.20 p2 (t) = = 0.909 d.h. Preisr¨uckgang um 9.1%. p2 (t0 ) 0.22
Torten:
50 p3 (t) = = 1.250 p3 (t0 ) 40
d.h. Preisanstieg um 5.3%.
d.h. Preisanstieg um 25%.
(8.8) (8.9) (8.10)
Das Preisverh¨ altnis ppii(t(t) eines einzelnen Produktes nennt sich auch ein0) facher Preisindex. Nun m¨ ochte Ortrun aber nicht nur f¨ ur die einzelnen Produkte separat, sondern f¨ ur alle Produkte gemeinsam die Preissteigerung darstellen. Dazu kauft Ortrun dieselben Mengen qi bzw. denselben Warenkorb zuerst zur Basiszeit t0 und anschließend nochmals zur Berichtszeit t ein. Zahlt sie dabei unterschiedliche Betr¨ age, so ist das alleine auf die Preis¨anderungen zur¨ uckzuf¨ uhren. Der Einfluss der Mengenver¨anderungen von t0 bis t ¨ bzw. die Anderung von Ortruns Konsumgewohnheiten werden dadurch eliminiert. Bei der Wahl des Warenkorbs bieten sich zwei naheliegende M¨oglichkeiten an. Entweder sie entscheidet sich f¨ ur die Mengen qi (t0 ), d.h den Warenkorb aus der Basiszeit, oder sie w¨ ahlt die Mengen qi (t), d.h den Warenkorb aus der Berichtszeit. Im ersten Fall kauft Ortrun zweimal den Warenkorb “200 Brote, 1000 Semmeln, 15 Torten“ und bildet das Verh¨altnis der Gesamtausgaben. Dies entspricht dem sogenannten Preisindex nach Laspeyres: 200 · 2.00 + 1000 · 0.20 + 15 · 50.00 200 · 1.90 + 1000 · 0.22 + 15 · 40.00 1350 = 1.125. = 1200
PL (t0 , t) =
(8.11)
Im zweiten Fall kauft Ortrun zweimal den Warenkorb “210 Brote, 1400 Semmeln, 12 Torten“ ein und erh¨ alt den sogenannten Preisindex nach
134
8 Indizes
Paasche: 210 · 2.00 + 1400 · 0.20 + 12 · 50.00 210 · 1.90 + 1400 · 0.22 + 12 · 40.00 1300 = 1.095. = 1187
PP (t0 , t) =
(8.12)
Bei der Methode nach Laspeyres wird von t0 bis t eine Steigerung der Preise aller Produkte von durchschnittliche 12.5% gemessen. Bei der Methode nach Paasche betr¨ agt die durchschnittliche Preissteigerung 9.5%. In der Berichtszeit kauft Ortrun weniger Torten, die teurer wurden, und mehr Br¨ otchen, die billiger wurden. Das erkl¨art, weshalb zumindest in diesem Beispiel der Paasche-Index geringer ausf¨allt als der Laspeyres-Index. Offenbar wird dieser Effekt durch den h¨ oheren Brotkonsum, der mit steigenden Preisen einhergeht, nicht aufgehoben. Wir definieren im allgemeinen Fall: Einfacher Preisindex pi (t0 , t) =
Berichtspreis des Produktes i pi (t) = pi (t0 ) Basispreis des Produktes i
Laspeyres-Preisindex n qi (t0 ) pi (t) PL (t0 , t) = ni=1 q i=1 i (t0 ) pi (t0 ) =
(8.14)
Gesamtwert der Basismengen zu Berichtspreisen Gesamtwert der Basismengen zu Basispreisen
Paasche-Preisindex n qi (t) pi (t) PP (t0 , t) = ni=1 q i=1 i (t) pi (t0 ) =
(8.13)
(8.15)
Gesamtwert der Berichtsmengen zu Berichtspreisen Gesamtwert der Berichtsmengen zu Basispreisen
Der einfache Preisindex wird auch als Preis-Messzahl bezeichnet.
8.3 Mengenindex Mengenindizes werden in der Volkswirtschaft auch als Produktionsindizes bezeichnet. Sie beschreiben die Mengenver¨anderungen bei verschiedenen Produkten in Form einer einzigen Kennziffer. Das Statistische Bundesamt
8.3 Mengenindex
135
ver¨ offentlicht beispielsweise den “Produktionsindex f¨ ur das produzierende Gewerbe“, der wiederum in verschiedene Subindizes wie etwa “Chemische Industrie“,“Maschinenbau“ etc. unterteilt ist. Wir erl¨autern die grunds¨atzliche Vorgehensweise anhand unseres Beispiels. Beispiel (Fortsetzung). Ortrun m¨ ochte wissen, wie sich ihr Konsumverhalten bzw. die von ihr eingekauften Mengen von t0 bis t ver¨andert haben. Dazu betrachtet sie f¨ ur jedes Produkt i den einfachen Mengenindex: Brot:
210 q1 (t) = = 1.05 d.h. Mengenanstieg um 5.0%. q1 (t0 ) 200
(8.16)
Semmeln:
1400 q2 (t) = = 1.40 d.h. Mengenanstieg um 40%. q2 (t0 ) 1000
(8.17)
Torten:
12 q3 (t) = = 0.80 d.h. Mengenr¨uckgang um 20%. q3 (t0 ) 15
(8.18)
Nun m¨ ochte Ortrun aber nicht nur f¨ ur die einzelnen Produkte separat, sondern f¨ ur alle Produkte gemeinsam die Mengenver¨anderung darstellen. Dazu bildet Ortrun das Verh¨ altnis der Gesamtmengen in der Basiszeit und in der Berichtszeit: 1622[??] 210[kg Brot] + 1400[Stk Sem] + 12[Stk Tor] = = 1335[??]. 200[kg Brot] + 1000[Stk Sem] + 15[Stk Tor] 1215[??] Diese Rechnung ergibt keinen Sinn, denn zum einen werden unterschiedliche Mengeneinheiten addiert, zum anderen wird ein Billigprodukt, wie etwa eine Semmel, mit einem teueren Produkt, wie etwa einer Torte, gleich gesetzt. Ortrun verfolgt daher eine andere Idee. Sie kauft zu unver¨ anderten Preisen zuerst die Mengen der Basiszeit qi (t0 ) ein und anschließend die Mengen der Berichtszeit qi (t). Zahlt Ortrun in der Berichtszeit mehr als in der Basiszeit, so hat sie “mehr“ eingekauft, denn der h¨ohere Wert der Produkte kann nicht mit Preis¨ anderungen erkl¨ art werden. Bei der Wahl des “Preisschemas“ bieten sich zwei naheliegende M¨oglichkeiten an. Entweder sie entscheidet sich f¨ ur die Preise pi (t0 ) der Basiszeit, oder f¨ ur die Preise pi (t) der Berichtszeit. Im ersten Fall erh¨alt sie den sogenannten Mengenindex nach Laspeyres 210 · 1.90 + 1400 · 0.22 + 12 · 40.00 200 · 1.90 + 1000 · 0.22 + 15 · 40.00 1187 = 0.989, = 1200
QL (t0 , t) =
(8.19)
und im zweiten Fall erh¨ alt den sogenannten Mengenindex nach Paasche:
136
8 Indizes
210 · 2.00 + 1400 · 0.20 + 12 · 50.00 200 · 2.00 + 1000 · 0.20 + 15 · 50.00 1300 = 0.963. (8.20) = 1350 uckgang der einBei der Methode nach Laspeyres wird von t0 bis t ein R¨ gekauften Mengen von durchschnittliche 1.1% gemessen. Bei der Methode nach Paasche betr¨ agt der durchschnittliche Mengenr¨ uckgang 3.7%. Offenbar ist der Konsumr¨ uckgang bei den Torten gravierender, als die Steigerungen bei Semmeln und Brot. Da bei der Paaschemethode die Torten mit einem h¨ oheren Preis als bei der Laspeyresmethode bewertet werden, tritt hier der Mengenr¨ uckgang deutlicher zu Tage. QP (t0 , t) =
Wir definieren im allgemeinen Fall: Einfacher Mengenindex qi (t0 , t) =
Berichtsmenge des Produktes i qi (t) = qi (t0 ) Basismenge des Produktes i
Laspeyres-Mengenindex n qi (t) pi (t0 ) QL (t0 , t) = ni=1 q i=1 i (t0 ) pi (t0 ) =
(8.22)
Gesamtwert der Berichtsmengen zu Basispreisen Gesamtwert der Basismengen zu Basispreisen
Paasche-Mengenindex n qi (t) pi (t) QP (t0 , t) = ni=1 i=1 qi (t0 ) pi (t) =
(8.21)
(8.23)
Gesamtwert der Berichtsmengen zu Berichtspreisen Gesamtwert der Basismengen zu Berichtspreisen
Der einfache Mengenindex wird auch als Mengen-Messzahl bezeichnet.
8.4 Zusammenhang zwischen Wert-, Preis- und Mengenindizes Aus den Mengen- und Preisindizes kann man den Wertindex bestimmen. Allerdings ist die Rechnung nur korrekt, wenn die Laspeyres- und Paasche- Berechnungsmethoden “gemischt“ eingesetzt werden: U (t0 , t) = QL (t0 , t) · PP (t0 , t), U (t0 , t) = QP (t0 , t) · PL (t0 , t).
(8.24) (8.25)
8.5 Subindizes
137
Beispiel (Fortsetzung). Ortrun greift auf die bisherigen Ergebnisse (8.7), (8.11),( 8.12),(8.19), (8.20) zur¨ uck. Diese erf¨ ullen offenbar die Beziehungen (8.24) und (8.25): 1.083 = 0.989 · 1.095
und
1.083 = 0.963 · 1.125.
(8.26)
Der allgemeine Beweis ergibt sich durch Einsetzen der entsprechenden Formeln und wird dem begeisterten Leser u ¨berlassen.
8.5 Subindizes H¨aufig sind die n Produkte in Gruppen bzw. Segmente aufgeteilt, zu denen man jeweils getrennt eigene Indizes berechnet, die man Subindizes nennt. Unterteilen wir die Segmente noch weiter in Unter-Segmente und Unter-UnterSegmente, so ergibt sich ein System von Sub- und Subsubindizes. Die unterste Stufe, quasi die Atome der Hierarchie, bilden die “einfachen Indizes“ im Sinne von (8.13) und (8.21). Kennt man die Subindizes, kann man aus diesen wiederum den jeweils h¨oheren Index berechnen, indem man einen gewogenen Durchschnitt bildet. Dabei ist allerdings zu unterscheiden, ob Laspeyres- oder Paasche Indizes vorliegen. Aggregation von Laspeyres-Subindizes (8.27) IL (t0 , t) = Laspeyres-Gesamtindex = gewogenes arithmetisches Mittel der Laspeyres-Subindizes Laspeyres-Subindex Wertanteil des Segments k · = zu Segment k
k
zur Zeit t0
Diese Aggregation gilt f¨ ur Mengen- und Preisindizes gleichermaßen. Wir stellen den Beweis auf Seite 385 zur¨ uck. Bei der Paasche-Methode wird statt des gewogenen arithmetischen Mittelwertes ein gewogenes harmonisches Mittel gebildet. Aggregation von Paasche-Subindizes (8.28) IP (t0 , t) = Paasche-Gesamtindex = gewogenes harmonisches Mittel der Paasche-Subindizes 1 = Wertanteil des Segments k 1 Paasche-Subindex zu Segment k · zur Zeit t
138
8 Indizes
Wir gehen hier jedoch nicht weiter ins Detail und beschr¨anken uns auf den Fall, dass Laspeyresindizes vorliegen, da in der Praxis fast ausschließlich nur diese anzutreffen sind. Im n¨ achsten Unterkapitel besprechen wir die Gr¨ unde daf¨ ur. Beispiel (Fortsetzung). Nun wollen wir u ¨ber eine Aggregation der einfachen Indizes nochmals den Laspeyres-Preisindex berechnen. Ortrun hat ermittelt, bereits in (8.8)-(8.10) die Werte der einfachen Preisindizes ppii(t(t) 0) welche die Preisver¨ anderungen der einzelnen Produkte separat ausweisen. Berechnet sie den ungewogenen Durchschnitt der 3 einfachen Indizes 1.053+0.909+1.250 = 1.071, so erh¨ alt sie ein unbrauchbares Ergebnis, da 3 alle Produkte gleichermaßen in die Rechnung eingehen. Es wird in keiner Weise ber¨ ucksichtigt, dass eine Preiserh¨ohung bei Produkten, f¨ ur die Ortrun viel Geld ausgibt, viel deutlicher zu sp¨ uren ist. Daher entscheidet sich Ortrun beim gewogenen arithmetischen Mittel f¨ ur ein W¨ agungsschema, das die Ausgabenanteile wi der einzelnen Produkte gemessen an den Gesamtausgaben ber¨ ucksichtigt. Dabei legt sie die Basisperiode t0 zu Grunde, um dem Prinzip von Laspeyres gerecht zu werden. Die Idee, die physikalischen Gewichte der einzelnen Produkte als W¨ agungsschema zu verwenden, lehnt u ¨brigens Ortrun zu Recht als unsinnig ab. Der Gesamtwert aller Produkte in der Basisperiode t0 ergibt: n
qi (t0 ) · pi (t0 ) = 200 · 1.90 + 1000 · 0.22 + 15 · 40.00
i=1
= 1200 [e].
(8.29)
Die Ausgabenanteile bzw. Wertanteile wi der einzelnen Produkte betragen in der Basisperiode t0 : 200 · 1.90 q1 (t0 ) p1 (t0 ) = w1 = 1200 qi (t0 ) pi (t0 )
= 0.3167.
(8.30)
1000 · 0.22 q2 (t0 ) p2 (t0 ) Semmeln: w2 = = = 0.1833. 1200 qi (t0 ) pi (t0 )
(8.31)
Brot:
Torten:
15 · 40.00 q3 (t0 ) p3 (t0 ) w3 = = 1200 qi (t0 ) pi (t0 )
= 0.50.
(8.32)
Ortrun ist offenbar ein Schleckerm¨ aulchen, denn sie verwendet die H¨alfte der Gesamtausgaben f¨ ur Torten. Das gewogene Mittel der einfachen Preisindizes ergibt PL (t0 , t) =
n pi (t) wi p (t ) i=1 i 0
= 1.053 · 0.3167 + 0.909 · 0.1833 + 1.250 · 0.50 = 1.125
8.5 Subindizes
139
und ist derselbe Preisindex nach Laspeyres, den wir bereits in (8.11) berechnet haben. Den Preisindex als Mittelwert der Subindizes darzustellen, hat den Vorteil, dass nun sichtbar wird, wie die einzelnen Produkte bzw. Segmente die Gesamtpreisentwicklung beeinflussen. F¨ ur das Schleckerm¨ aulchen Ortrun sind die Torten die Hauptpreistreiber. Beispiel (Verbraucherpreisindex). Ende der neunziger Jahre wurde in Deutschland der Telekomunikationsmarkt liberalisiert, wodurch sich die Preise f¨ ur Nachrichten¨ ubermittlung verringert haben. Um zu analysieren, wie sich dies auf die damalige “Inflation“ d¨ampfend ausgewirkt hat, betrachten wir den Verbraucherpreisindex, der die Entwicklung der Lebenshaltungskosten aller privaten Haushalte in Deutschland beschreibt. Das Statistische Bundesamt hat dazu unter anderem folgende Werte ver¨offentlicht, die sich auf die Basisperiode 1995 beziehen und nach der LaspeyresMethode berechnet worden sind: Gewicht 1995 Gesamtindex
1000
Nachrichten¨ ubermittlung 22.66
1996
1997
1998
1.000 1.014 1.033 1.043 1.000
1.009
0.979
0.973
Die Gewichte entsprechen den Wertanteilen wi , welche hier als Ausgabenanteile der Konsumenten zu interpretieren sind. Das Gewicht 22.66 besagt demnach, dass im Jahr 1995 ein Konsument im Schnitt 22.66 Promille bzw. 2.266% seiner Gesamtausgaben f¨ ur Nachrichten¨ ubermittlung aufwendete. Wir wollen ausrechnen, wie hoch die mittlere j¨ahrliche Preissteigerung der gesamten Lebenshaltungskosten von 1996-1998 betragen, wenn man den Nachrichten¨ ubermittlungssektor unber¨ ucksichtigt ließe. Dazu ben¨ otigen wir zun¨ achst die Subindizes PLrest (95, 96) und PLrest (95, 98). Diese erhalten wir aus (8.27)
PL (95, 96) =
PLnachr (95, 96) · 0.02266 + PLrest (95, 96) · (1 − 0.02266)
⇔ 1.014 = 1.009 · 0.02266 + PLrest (95, 96) · (1 − 0.02266) ⇔ PLrest (95, 96) = 1.0141159 und
140
8 Indizes (8.27)
PL (95, 98) =
PLnachr (95, 98) · 0.02266 + PLrest (95, 98) · (1 − 0.02266)
⇔ 1.043 = 0.973 · 0.02266 + PLrest (95, 98) · (1 − 0.02266) ⇔ PLrest (95, 98) = 1.044623. Die Preissteigerung f¨ ur “Rest“ von 1996 bis 1998 betr¨agt wegen 1.044623 PLrest (95, 98) = = 1.0301 PLrest (95, 96) 1.0141159 3.01 %. Zur Berechnung der j¨ ahrlichen, durchschnittlichen Preissteigerung bilden wir das geometrischen Mittel √ 1.03008246 = 1.0149. Folglich stiegen die Preise der Lebenshaltungskosten ohne den Nachrichten¨ ubermittlungssektor von 1996 bis 1998 um durchschnittlich 1.49% pro Jahr. Dagegen betr¨ agt die Preissteigerung inklusive dem Nachrichten¨ ubermittlungssektor 1.42% pro Jahr. Dies folgt aus PL (95, 98) 1.043 √ = = 1.0286 = 1.0142. PL (95, 96) 1.014
8.6 Indizes in der Praxis Wir gehen auf einige, in der Praxis bekannte Indizes n¨aher ein. Weitere Informationen findet man in den Publikationen der Statistischen Landes- und Bundes¨ amter, von Eurostat, den Wirtschaftsministerien, der Bundesbank oder der Europ¨ aischen Zentralbank. Auch u ¨ber das Internet kann man leicht bei diesen Organisationen eine F¨ ulle guter und detaillierter Informationen erhalten.
A: Preisindizes Verbraucherpreisindex f¨ ur Deutschland Das Statistische Bundesamt ver¨ offentlicht eine Reihe von Preisindizes, von denen der bekannteste, und vielleicht auch wichtigste Index der Verbraucherpreisindex ist. Er wurde fr¨ uher auch “Preisindex f¨ ur die Lebenshaltung aller privaten Haushalte“ genannt. Der Verbraucherpreisindex misst die durchschnittliche Preisver¨ anderung aller Waren und Dienstleistungen, die von privaten Haushalten f¨ ur Konsumzwecke gekauft werden. Verwendung findet der Verbraucherpreisindex typischerweise zur
8.6 Indizes in der Praxis
141
Verbraucherpreisindex f¨ ur Deutschland, Basis 2005 Jahr 2008 Gesamtindex
2007
2006
2005
Gewicht
75,9
1000
99,9 . . .
95,3 . . .
89,6
103,55
92,2 . . .
77,5 . . .
64,9
38,99
99,4 100,0 101,9 . . . 101,9 . . .
92,6
48,88
108,5 104,9 102,9 100,0
Einrichtungsgegenst¨ ande
102,5 101,0
Gesundheitspflege Verkehr
Bildungswesen Beherbergung und Gastst¨ atten Andere Waren- und Dienstleistungen
. . . 1991
92,7 . . .
Bekleidung und Schuhe Wohnungsmiete, Brennstoffe, Wasser
Nachrichten¨ ubermittlung Freizeit, Unterhaltung, Kultur
. . . 2000
98,5 . . .
106,6 103,9 101,6 100,0
Nahrungsmittel und alkoholfr. Getr¨ anke 112,3 105,9 102,0 100,0 Alkohol. Getr¨ anke, Tabakwaren 108,4 106,4 103,0 100,0 101,4 100,7
2004
97,3 . . .
91,3 . . .
65,5
308,00
99,8 100,0 100,3 . . .
98,4 . . .
89,2
55,87
103,0 101,3 100,5 100,0
98,3 . . .
80,6 . . .
65,3
40,27
110,5 106,9 103,0 100,0
96,1 . . .
87,9 . . .
66,8
131,90 31,00
91,8
94,9
96,0 100,0 101,8 . . . 106,6 . . . 130,5
99,8
99,8
99,5 100,0 101,1 . . . 101,3 . . .
89,7
115,68
137,9 126,9 101,5 100,0
98,1 . . .
89,5 . . .
54,8
7,40
106,3 104,0 101,2 100,0
99,9 . . .
93,1 . . .
76,3
43,99
105,9 103,7 101,1 100,0
99,3 . . .
91,7 . . .
71,1
74,47
Tabelle 8.1. Die Werte der Indizes sind mit 100 multipliziert worden. Die Gewichte sind Promillwerte und entsprechen den Ausgabeanteilen der Konsumenten in Deutschland im Jahr 2005. Datenquelle: Statistisches Bundesamt.
• Quantifizierung der Geldwertstabilit¨ at bzw. “Inflation“ in Deutschland, • Deflationierung von Wertgr¨ oßen, wie beispielsweise L¨ohne und Geh¨alter, • Wertsicherung bei langfristigen Vertragsbeziehungen, wie etwa bei Erbpachtvertr¨ agen. Dies wird in sogenannten Wertsicherungsklauseln verankert. Die Konsumausgaben ausl¨ andischer Touristen in Deutschland sind im Verbraucherpreisindex einbezogen. Die Ausgaben der Deutschen als Touristen im Ausland werden jedoch nicht ber¨ ucksichtigt. Der Verbraucherpreisindex ist ein Laspeyres-Preisindex mit festem Basisjahr, bei dem ein Mengenger¨ ust qi (t0 ) bzw. Warenkorb zu Grunde liegt, das m¨ oglichst gut die G¨ uter des t¨ aglichen Bedarfs, Mieten, langlebige Gebrauchsg¨ uter und auch Dienstleistungen zu ber¨ ucksichtigen versucht. Dazu werden ca. 750 Waren und Dienstleistungen genau beschriebenen. Circa alle 5 Jahre wird das Basisjahr neu bestimmt und der Warenkorb durch Haushaltsbefragungen angepasst. Dabei geht es vor allem um eine Aktualisierung der Mengenanteile bzw. Ausgabenanteile der verschiedenen Produkte, welche sich aus ver¨ anderten Verbrauchergewohnheiten ableiten lassen. Dar¨ uber hinaus werden auch neue Produkte im Warenkorb aufgenommen und veraltete entfernt. So wurde beispielsweise im Basisjahr 2000 Pizza zum Mitnehmen, Br¨ otchen zum Fertigbacken, Blutdruckmessger¨ate, die Fahr-
142
8 Indizes
radreparatur, die Preise f¨ ur Sonnen- und Fitnesstudios und Internet-Tarife neu im Warenkorb aufgenommen. Gestrichen wurden Kaffeefilter aus Kunststoff, Diaprojektoren und elektrische Schreibmaschinen. Andere G¨ uter wurden durch moderne Produkte ersetzt, etwa Disketten durch CD-Rohlinge, Schreibmaschinen- durch Druckerpapier, Farbband durch Drucker-Farbpatronen, Fußboden- durch Allzweckreiniger und PVC-Bodenbelag durch La¨ minat. Ahnliche Anpassungen wurden im Jahr 2005 vorgenommen. Die Berechnung des Verbraucherpreisindex erfolgt monatlich, indem rund 600 Preisermittler in 188 Berichtsgemeinden in knapp 40 000 Berichtsstellen (z.B. Einzelhandelsgesch¨ afte, Dienstleister) etwa 350 000 Einzelpreise erheben. Die Preise werden inklusive der Umsatzsteuer und gegebenenfalls gew¨ahrter Preisnachl¨ asse erfasst. Diese Vorgehensweise ist sehr aufwendig. W¨ urden die Statis¨ tischen Amter nicht nach der Laspeyres-Methode, sondern nach der Paasche Methode verfahren, m¨ ussten zu den Preisen zus¨atzlich noch die Verbrauchergewohnheiten, d.h. der Warenkorb monatlich neu ermittelt werden. Dies w¨are außerordentlich zeitaufwendig und mit sehr hohen Kosten behaftet. Der Verbraucherpreisindex l¨ asst sich durch ein System von Subindizes bez¨ uglich verschiedener Ausgabekategorien bzw. Segmente aufschl¨ usseln. Die erste Stufe ist in Tabelle 8.1 zu sehen. Die Gewichte entsprechen den Ausgabeanteilen in der Basisperiode 2005. Beispielsweise kann man erkennen, dass der deutsche Verbraucher im Schnitt 10.355% seiner Gesamtausgaben f¨ ur “Nahrungsmittel und alkoholfreie Getr¨ anke“ aufwendet. Den gr¨oßten Anteil bildet das Segment “Wohnungsmiete, Brennstoffe und Wasser“ mit 30.8%. 91.8 = 0.703 einen Das Segment “Nachrichten¨ ubermittlung“ zeigt wegen 130.5 Preisr¨ uckgang von 29.7% von 1991-2008. Die Gesamtpreise stiegen wegen 106.6 ahrliche durchschnitt75.9 = 1.40448 in diesem Zeitraum um 40.448%. Die j¨ liche Steigerung aller Preise in diesem Zeitraum berechnet man u ¨ber das geo√ metrische Mittel: 17 1.40448 = 1.020. Die Preise stiegen demnach um 2.0% im Schnitt j¨ ahrlich. Harmonisierter Verbraucherpreisindex HVPI In den L¨ andern der EU gibt es bei der Berechnung der nationalen Verbraucherpreisindizes historisch bedingte Unterschiede in Bezug auf Methodik und Verfahrensweisen. Dies hat zur Folge, dass diese Indizes nicht geeignet sind, die Preisstabilit¨ at innerhalb der Europ¨ aischen Union oder auch innerhalb der Europ¨ aischen W¨ahrungsunion angemessen darzustellen oder zu vergleichen. Daher wurden auf europ¨ aischer Ebene gemeinsame Methoden und Standards f¨ ur die Berechnung eines Verbraucherpreisindexes festgelegt, den man Harmonisierten Verbraucherpreisindex HVPI nennt. Zun¨ achst werden jeweils auf nationaler Ebene die HVPI berechnet. Dabei ist zwar die Auswahl der Dientleistungen und Waren, welche den Warenkorb darstellen, f¨ ur die L¨ ander gleich, jedoch sind individuelle Wertigkeiten bzw. Gewichtungen zugelassen. Beispielsweise d¨ urfte der Heizenergieanteil in Finnland ein h¨ oherer sein als in Griechenland. In einem zweiten Schritt werden
8.6 Indizes in der Praxis
143
diese nationalen HVPI vom statistischen Amt der Europ¨aischen Union (Eurostat) f¨ ur die Europ¨ aische Union, f¨ ur die Europ¨aische W¨ahrungsunion und f¨ ur den Europ¨ aischen Wirtschaftsraum aggregiert. Als Gewicht dient der private Konsum der L¨ ander, wobei dieser durch unterstellte Mieten f¨ ur Eigentumswohnungen bereinigt wird. Aktien Indizes Der erste Aktienindex wurde von Henry Dow 1884 in den USA ver¨offentlicht, der sich haupts¨ achlich aus Wertpapieren von Eisenbahngesellschaften zusammensetzte. Es folgten weitere Indizes, von denen der Dow Jones Industrial Average DJIA einer der Bekanntesten ist. Er wurde erstmals am 26. Mai 1896 ver¨ offentlicht. In Deutschland findet heute neben zahlreichen anderen Aktienindizes vor allem der Deutsche Aktienindex DAX besondere Beachtung. Die Basis des DAX wurde am 30. Dezember 1987 auf 1000 Punkte festgesetzt. Der DAX umfasst 30 Aktientitel und entspricht in seiner Grundidee einem Laspeyres-Preisindex, der sich auch als Durchschnitt von Kursen darstellen l¨asst. Die Gewichte bestimmen sich aus den 30 gr¨ oßten deutschen Unternehmen u ¨ber die Marktkapitalisierung der sich im Streubesitz befindenden Aktien. Welche Unternehmen im DAX repr¨ asentiert werden, wird jeweils im September und zu besonderen Anl¨ assen auch unterj¨ ahrig entschieden, wobei als Kriterien der B¨ orsenumsatz und die Marktkapitalisierung der Unternehmen herangezogen werden. Bei der Berechnung des DAX werden noch weitere Teilprobleme, wie beispielsweise die Einbeziehung von Aussch¨ uttungen, ber¨ ucksichtigt. Daher gibt es den DAX als “reinen“ Kurs-Index und zudem noch als sogenannten “Performanceindex“, der um Dividendenzahlungen und Bezugsrechte bereinigt ist. Die DAX-Titel stellen etwa 60 Prozent des gesamten Grundkapitals inl¨andischer b¨ orsennotierter Unternehmen dar und umfassen etwa 70 Prozent der B¨orsenums¨ atze mit deutschen Papieren. Insofern ist der DAX ein relativ guter Indikator zur gemittelten Darstellung der Ver¨anderungen von deutschen Aktienkursen im Zeitverlauf. Neben dem popul¨ aren “DAX“ ver¨ offentlicht die Deutsche B¨orse AG noch zahlreiche weitere Indizes (z.B. MDAX, TecDAX, ..), die sich jeweils auf bestimmte Aktiensegmente beziehen.
B: Mengenindizes Produktionsindex f¨ ur das Produzierende Gewerbe Dieser Index dient zur Darstellung der Entwicklung der Produktionsmengen des gesamten produzierenden Gewerbes, sowie verschiedener Wirtschaftszweige. Berechnet werden Laspeyres-Mengenindizes, die man wiederum u ¨ber ein System von Subindizes zum Gesamtindex aggregiert. Die Tabelle 8.2 zeigt den Produktionsindex f¨ ur das Produzierende Gewerbe zur Basis 2005. Zudem gibt ¨ die Abbildung 8.1 einen Uberblick, wie sich die Produktion in Deutschland
144
8 Indizes Produktionsindex - Indizes f¨ ur das Produzierende Gewerbe
Produzierendes Gewerbe insgesamt Bergbau und Verarbeitendes Gewerbe Produzierendes Gewerbe (ohne Energie und Bauhauptgewerbe) - Vorleistungsg¨ uter - Investitionsg¨ uter - Konsumg¨ uter - Gebrauchsg¨ uter - Verbrauchsg¨ uter - Energie Bergbau und Gewinnung v. Steinen u. Erden Verarbeitendes Gewerbe - Herstellung von Nahrungs- und Futtermitteln - Getr¨ ankeherstellung - Tabakverarbeitung - Herstellung von Textilien - Herstellung von Bekleidung - Herstellung von Leder, Lederwaren und Schuhen - Herstellung v. Holz-, Flecht-, Korb- und Korkwaren (ohne M¨ obel) - Herstellung von Papier, Pappe und Waren daraus - Herstellung von Druckerzeugnissen; Vervielf¨ altigung von bespielten Ton-. Bild- und Datentr¨ agern - Kokerei und Mineral¨ olverarbeitung - Herstellung von chemischen Erzeugnissen - Herstellung von pharmazeutischen Erzeugnissen - Herstellung von Gummi- und Kunststoffwaren - Herstellung von Glas und Glaswaren. Keramik. Verarbeitung von Steinen und Erden - Metallerzeugung und -bearbeitung - Herstellung von Metallerzeugnissen - Herstellung von Datenverarbeitungsger¨ aten. elektronischen und optischen Erzeugnissen - Herstellung von elektrischen Ausr¨ ustungen - Maschinenbau - Herstellung von Kraftwagen und Kraftwagenteilen - Sonstiger Fahrzeugbau - Herstellung von M¨ obeln - Herstellung von sonstigen Waren - Reparatur und Install. v. Maschinen u. Ausr¨ ust. Energieversorgung Bauhauptgewerbe
2003 94.1 92.8
2004 2005 2006 2007 2008 97.6 100.0 105.3 111.2 111.9 96.8 100.0 105.7 112.5 113.4
92.8 93.0 91.1 96.0 99.4 95.3 96.4 104.3 92.6 91.7 106.8 121.3 103.9 115.3 114.4
96.8 97.6 95.7 97.3 100.7 96.6 99.9 102.1 96.7 95.0 101.9 112.0 103.9 109.0 110.4
100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0
96.1 94.4
99.8 97.4
100.0 106.9 105.4 103.9 100.0 104.0 109.3 109.9
93.7 87.7 93.4 88.6 96.2
96.2 96.8 97.3 89.6 99.8
100.0 100.0 100.0 100.0 100.0
105.8 107.1 106.0 102.7 107.3 101.7 101.0 95.5 105.8 101.8 101.8 94.2 99.6 88.0 95.6
102.4 99.5 103.7 104.7 104.4
112.8 114.2 114.5 105.9 108.2 105.4 98.2 124.0 112.4 104.9 97.1 91.3 100.7 80.9 107.0
104.4 98.6 105.6 117.0 110.7
113.8 114.5 117.3 104.6 104.5 104.6 95.8 110.2 113.5 105.1 95.4 66.5 96.2 69.1 98.2
105.3 98.6 101.6 120.8 107.9
102.4 103.9 100.0 105.8 107.2 103.6 95.0 99.6 100.0 108.0 111.8 110.6 94.5 98.8 100.0 106.9 114.7 117.0 78.0 87.6 100.0 91.9 97.0 100.0 90.3 95.6 100.0 92.0 96.8 100.0 98.0 97.2 100.0 98.8 99.1 100.0 97.4 99.6 100.0 93.3 96.9 100.0 97.4 100.2 100.0 110.7 106.0 100.0
118.7 108.1 107.5 102.6 109.5 107.3 107.2 105.7 101.4 105.3
135.5 114.7 119.0 109.3 113.4 109.3 111.6 114.8 97.8 108.4
145.2 116.4 124.9 105.1 123.9 107.5 112.8 128.9 96.2 109.1
Tabelle 8.2. Basis = 2005. Die Werte der Indizes sind mit 100 multipliziert worden. Datenquelle: Statistisches Bundesamt.
im Zeitverlauf von 2000 bis M¨ arz 2009 monatlich entwickelt hat. Deutlich erkennbar ist der massive Produktionsr¨ uckgang Ende 2008 wegen der Wirtschaftskrise.
8.7 Verkn¨ upfung
145
Produktionsindex Produzierendes Gewerbe Januar 2000 bis M¨ arz 2009 130
120
110
100
90
80 2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
Abbildung 8.1. Die Werte der Indizes sind mit 100 multipliziert worden. Das Basisjahr ist 2005. Ab Ende 2008 erkennt man deutlich die Auswirkungen der Wirtschaftskrise. Datenquelle: Statistisches Bundesamt.
¨ Die Statistischen Amter schreiben monatlich die Produktionsindizes f¨ ur rund 1000 Erzeugnisse nach der Nomenklatur eines sogenannten “ProduktionsEilberichts“ fort, der von bestimmten Unternehmen eingeholt wird. Da die Unternehmen gewissermaßen volkswirtschaftlich vernetzt produzieren, m¨ ussen die Produktionsmengen eines Unternehmens in geeigneter Weise bez¨ uglich der Vorleistungen, die bereits von anderen Unternehmen und Zulieferern erbracht wurden, bereinigt werden. Weitere amtliche Indizes Bei den Statistischen Landes¨ amtern, dem Statistischen Bundesamt oder bei Eurostat findet man eine F¨ ulle weiterer Umsatz, Preis- und Mengenindizes, die in zahlreichen Ver¨ offentlichungen wie etwa den Statistischen Jahrb¨ uchern oder per Internet publiziert werden.
8.7 Verknu ¨pfung Wir erkl¨ aren die Vorgehensweise exemplarisch anhand des amtlichen Verbraucherpreisindex.
146
8 Indizes 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995
PL (05, t)
1.066 1.039 1.016
PL (00, t)
1
A
1.079 1.062 1.045 1.034 1.020 B
PL (95, t)
1 1.064 1.049 1.043 1.033 1.014
1
Beispiel (Verbraucherpreisindex). Beim amtlichen Verbraucherpreisindex werden alle 5 Jahre der Warenkorb, d.h. die Mengen angepasst. So entstehen mehrere Indexreihen mit einer L¨ange von jeweils 5 Jahren. Wollen wir die Gesamtentwicklung u ¨ber einen l¨angeren Zeitraum als 5 Jahre darstellen, steht zumindest nicht unmittelbar eine derartige Indexreihe zur Verf¨ ugung. Daher verkn¨ upft man die verschiedenen f¨ unfj¨ahrigen Indexreihen zu einer einzigen Reihe. Dabei wird die eine Reihe proportional zur anderen Reihe weitergef¨ uhrt. Wir f¨ uhren die entsprechende Rechnung exemplarisch f¨ ur die fehlenden Werte A und B durch: A: Gesucht ist der Preisindex PL (05, 02). Hier ist das Jahr 2005 Basiszeit und das Jahr 2002 Berichtszeit. Am Index PL (00, t) k¨onnen wir erkennen, wie sich die Preise von 2005 bis 2002 ver¨andert haben: PL (00,02) 1.034 anderung u ¨bertragen wir PL (00,05) = 1.079 = 0.958. Diese relative Ver¨ auf die obere Indexreihe PL (05, t) und fordern, dass sich deren Indexwerte zu diesen Zeitpunkten genauso verhalten: PL (00, 02) PL (05, 02) = = 0.958. PL (05, 05) PL (00, 05)
(8.33)
Wegen PL (05, 05) = 1 erhalten wir schließlich den gesuchten Wert PL (05, 02) = 0.958. B: Gesucht ist der Preisindex PL (95, 02). Hier ist das Jahr 1995 Basiszeit und das Jahr 2002 Berichtszeit. Am Index PL (00, t) k¨onnen wir erkennen, wie sich die Preise von 2000 bis 2002 ver¨andert haben: PL (00,02) 1.034 = 1.034. Diese relative Ver¨anderung u ¨bertragen wir PL (00,00) = 1 auf die untere Indexreihe PL (95, t) und fordern, dass sich deren Indexwerte zu diesen Zeitpunkten genauso verhalten: PL (00, 02) PL (95, 02) = = 1.034. PL (95, 00) PL (00, 00)
(8.34)
Mit PL (95, 00) = 1.064 erhalten wir schließlich den gesuchten Wert PL (95, 02) = 1.064 · 1.034 = 1.100. Verkn¨ upfen wir in analoger Weise alle 3 Indizes vollst¨andig, so erhalten wir 3 Indexreihen, die sich jeweils u ¨ber den gesamten Zeitraum erstrecken. 2008 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 PL (05, t)
1.066 1.039 1.016
PL (00, t)
1.150 1.121 1.096 1.079 1.062 1.045 1.034 1.020
PL (95, t)
1.224 1.193 1.166 1.148 1.130 1.112 1.100 1.085 1.064 1.049 1.043 1.033 1.014
1
0.984 0.968 0.958 0.945 0.927 0.914 0.908 0.900 0.883 0.871 1
0.986 0.980 0.971 0.953 0.940 1
8.8 Umbasierung
147
Zwar besitzen die Reihen verschiedene Basiszeitpunkte, sie zeigen jedoch innerhalb einer Reihe jeweils die gleichen Proportionen auf. Insofern beschreiben sie in ¨ aquivalenter Form die Preisver¨anderungen von 1995 bis 2008. Wir haben u ¨brigens die bis auf Rundungseffekte gleichen Werte des verkn¨ upften Index zur Basis 2005 schon teilweise in Tabelle 8.1 gesehen. Die hier skizzierte Vorgehensweise besitzt allerdings einen Makel: Der verkettete Preisindex PL (95, t) unterstellt in dieser Notation, dass der Warenkorb aus dem Basisjahr 1995 verwendet wird. Der von uns berechnete Wert PL (95, 2008) = 1.224 wurde aber nicht alleine aufgrund dieses Korbes berechnet, sondern aufgrund weiterer Warenk¨orbe aus den Jahren 2000 und 2005. W¨ urden wir den Warenkorb von 1995 zu den Preisen des Jahres 2008 einkaufen, so h¨ atten wir die Laypeyres-Methode konsequent und korrekt angewendet, und es d¨ urfte sich auch im Ergebnis ein andere Indexwert ergeben. Allerdings ist es ¨ okonomischer Unsinn, im Jahr 2008 ein nicht mehr aktuelles Konsumverhalten zur Messung der allgemeinen Preissteigerung heranzuziehen und Produkte einzukaufen, die m¨oglicherweise bereits veraltet sind. Insofern nimmt man die Inkonsequenz bei der Anwendung der Lapeyres-Methode zu Gunsten sinnvoller Ergebnisse bewusst in Kauf. Wir verzichten auf eine formale Darstellung einer “Verkn¨ upfungsformel“ f¨ ur den allgemeinen Fall, da sie die Einfachheit der Idee m¨oglicherweise nur verschleiern k¨ onnte. In der Praxis findet die im Beispiel dargestellte Vorgehensweise auch bei anderen Indizes regen Gebrauch.
8.8 Umbasierung Wir wollen eine gegebene Indexreihe so umrechnen, dass die Proportionen innerhalb der Reihe erhalten bleiben, jedoch der Bezugspunkt bzw. die Basis auf einen anderen Zeitpunkt gesetzt werden. Dies ist beispielsweise erstrebenswert, wenn man die Indexreihe mit einer anderen Indexreihe vergleichen m¨ochte, bei der aber eine andere Basisperiode vorliegt. Ein unmittelbarer Vergleich der Werte der beiden Reihen w¨ are nicht sinnvoll. Beispiel (Lebensmittelmarkt). Arnhild, Besitzerin eines großen Lebensmittelmarktes, hat f¨ ur den Zeitraum 1996-2007 den Preisindex der verkauften Produkte berechnet, wobei sie das Jahr 2003 als Basis gew¨ahlt hat. Jahr 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 PL (03, t) 1.054 1.012 1.042 0.986
1
0.983 0.962 0.930 0.914 0.897 0.871 0.801
148
8 Indizes
Sie m¨ ochte ihre Preisentwicklung mit der allgemeinen Teuerungsrate f¨ ur Nahrungsmittel und Getr¨ anke in Deutschland vergleichen. Dazu betrachtet sie den Verbraucherpreisindex aus der Tabelle 8.1. Da bei diesem Index eine andere Basiszeit, n¨ amlich das Jahr 2005 verwendet wird, kann Arnhild die Preissteigerungen ihres Kaufhauses nicht direkt mit diesen Werten vergleichen. Daher multipliziert Arnhild alle Werte ihrer Indexreihe mit dem konstan1 1 = 1.042 , um, wie beim Verbraucherpreisindex, im ten Faktor PL (03,05) Jahr 2005 den Indexwert 1 zu erhalten. Dadurch ergibt sich eine “neue“ Indexreihe 1 · PL (03, t), PL (05, t) = (8.35) PL (03, 05) welche dieselben Proportionen aufweist wie die urspr¨ ungliche Reihe: PL (03, t) PL (05, t) = . PL (05, 05) PL (03, 05)
(8.36)
Es werden also nach wie vor dieselben relativen Preisver¨anderungen der verkauften Waren dargestellt. Diesen Vorgang, der einer “Umskalierung“ gleichkommt, nennt man Umbasierung. Arnhild wendet diese Umbasierung auf die gesamte urspr¨ ungliche Indexreihe an und erh¨ alt im Ergebnis den entsprechenden Preisindex f¨ ur ihren Markt zur Basis 2005: Jahr 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 PL (00, t) 1.012 0.971
1
0.946 0.960 0.943 0.923 0.893 0.877 0.861 0.836 0.769
Arnhild kann nun ihre Preissteigerungen mit den allgemeinen Preisentwicklungen von Tabelle 8.1 vergleichen. Beispielsweise sind von 2005 bis 2007 die Preise bei Arnhilds Markt um durchschnittlich 1.2% gestiegen, wohingegen die Preise f¨ ur “Nahrungsmittel und alkoholfreie Getr¨anke“ um 5.9% und die Preise f¨ ur “Alkohol und Tabakwaren“ um 6.4% in Deutschland gestiegen sind. Arnhild zieht daraus den Schluss, dass die Preiserh¨ ohungen der letzten beiden Jahre von den Kunden nicht als unangemessen empfunden werden d¨ urften. Die Idee, bei einer Umbasierung die Proportionen innerhalb einer Indexreihe unver¨ andert zu belassen, haben wir bereits in analoger Weise bei der Verkn¨ upfung von Indexreihen eingesetzt. Wie schon dort, ergibt sich auch bei der Umbasierung die formale Unsauberkeit, dass die Laspeyres-Methode nicht streng angewandt wird. In den Anwendungen nimmt man jedoch u ¨blicher Weise diesen Fehler in Kauf. Auch hier wollen wir die Einfachheit der Rechnungen nicht durch allgemein g¨ ultige Formeln verschleiern und begn¨ ugen uns mit dem gegebenen Beispiel.
8.9 Preisbereinigung
149
Anzumerken sei noch, dass sowohl die Verkn¨ upfung, als auch die Umbasierung auf einer Eigenschaft beruhen, die man in der Indextheorie Verkettungseigenschaft nennt: (8.37) I(t0 , t2 ) = I(t0 , t1 ) · I(t1 , t2 ). Diese Formel ist wegen I(t1 , t1 ) = 1 gleichbedeutend mit der Proportionalit¨ atsbeziehung I(t1 , t2 ) I(t0 , t2 ) = . I(t0 , t1 ) I(t1 , t1 ) Die Zeitpunkte t0 , t1 , t2 m¨ ussen nicht zwangsl¨aufig chronologisch geordnet sein, sondern k¨ onnen eine beliebige Reihenfolge annehmen. Man kann durch einfaches Nachrechnen zeigen, dass Laspeyres- und PaascheIndizes die Verkettungseigenschaft nicht exakt erf¨ ullen, wohingegen einfache Indizes und Umsatzindizes sie erf¨ ullen.
8.9 Preisbereinigung Bei einer Preisbereinigung, auch Deflationierung genannt, m¨ochte man den “realen Wert“ einer wirtschaftlichen Gr¨ oße in der Berichtsperiode t in Bezug zur Basisperiode t0 ermitteln. Der “reale Wert“ soll dem Wert entsprechen, der sich in der Berichtszeit ergeben w¨ urde, wenn von t0 bis t keine Preisver¨ anderungen zu verzeichnen w¨ are. Insofern kommt der “reale Wert“ eher einem Gedankenspiel, als einer “real“ im Sinne von “tats¨achlich“ gemessenen Gr¨ oße gleich. Die in der Berichtszeit t tats¨ achlich gemessene Gr¨oße nennt man “nominalen Wert“. Der formale Zusammenhang lautet: Realer Wert · Preisindex = Nominaler Wert.
(8.38)
Stellt man diese Gleichung um, erh¨ alt man: Preisbereinigung Realer Wert zur Zeit t bez¨ uglich t0 =
Nominaler Wert zur Zeit t P (t0 , t) (8.39)
Beispiel (Reallohn). Eugen verdiente im Jahr t0 = 2000 insgesamt 30000 [e/Jahr]. Im Jahr t = 2008 verdiente er 32000 [e/Jahr]. In diesem Zeitraum ist laut Tabelle 8.1 der verkn¨ upfte Preisindex der Lebenhaltungs(05, 08) 1.066 kosten wegen P (00, 08) = P P (05, 00) = 0.927 = 1.15 um 15.0% gestiegen. Gem¨ aß (8.39) erh¨ alt Eugen als deflationiertes Gehalt: Reales Gehalt im Jahr 2008 bezogen auf 2000 = Eugen hat demnach wegen 7.247% von 2000 bis 2008.
27826 30000
32000 = 27826 [e]. 1.15
= 0.92753 eine Reallohneinbuße von
150
8 Indizes
8.10 Kaufkraftparit¨ at Wir wollen nicht wie bisher Preise verschiedener Zeitpunkte t0 und t vergleichen, sondern Preise in verschiedenen Regionen A und B. Dazu kaufen wir ein und denselben Warenkorb sowohl in der Region A, als auch in der Region B ein und vergleichen die daf¨ ur get¨ atigten Ausgaben bzw. die Werte der beiden Warenk¨ orbe. Wir bezeichnen A als Basisregion und B als Berichtsregion. Ansonsten aber ¨ andert sich im Vergleich zu den Formeln (8.14) und (8.15) im Grunde nichts. Kaufkraft-Parit¨ at nach Laspeyres n qi (A) pi (B) PL (A, B) = i=1 n i=1 qi (A) pi (A)
(8.40)
Kaufkraft-Parit¨ at nach Paasche n qi (B) pi (B) PP (A, B) = i=1 n i=1 qi (B) pi (A)
(8.41)
Neben inl¨ andischen Preisunterschieden, beispielsweise zwischen verschiedenen deutschen Großst¨ adten, ist vor allem auch die Kaufkraftparit¨at zwischen L¨ andern verschiedener W¨ ahrungen von Interesse. W¨ahrend bei gleicher W¨ahrung der Index dimensionslos ist, d.h. keine Einheit besitzt, u ¨bernimmt die Kaufkraftparit¨ at bei verschiedenen W¨ ahrungen diese als Einheiten. Beispiel (Auslandssemester). Ottwin, fleißiger Student in A = Aachen, m¨ ochte seine Studien in B = Boston fortf¨ uhren. Er f¨ uhrt ein bescheidenes Leben und verbringt die N¨ achte in der Bibliothek hinter B¨ uchern. Seine Lebenshaltungskosten beruhen im Wesentlichen auf nur drei Produkten, f¨ ur die er nachfolgende Daten ermittelt hat.
Br¨ otchen Bier Gem¨ use
Mengen A 6 [Stk] 1.1 [l] 0.6 [kg]
Preise 0.20 1.20 0.90
A [e/Stk] [e/l] [e/kg]
0.18 1.40 1.50
B [$/Stk] [$/l] [$/kg]
Er m¨ ochte wissen, wie sehr sich seine Ausgaben ver¨andern, wenn er bei gleichen Lebensgewohnheiten die Produkte in Boston einkaufen wird. Dazu betrachtet er das Verh¨ altnis der Gesamtausgaben in B im Vergleich zu A:
8.10 Kaufkraftparit¨ at
PL (A, B) = =
151
Ausgaben f¨ ur den Aachener Warenkorb in B Ausgaben f¨ ur den Aachener Warenkorb in A 6 · 0.18 + 1.1 · 1.40 + 0.60 · 1.50 $ 6 · 0.20 + 1.1 · 1.20 + 0.60 · 0.90 e
= 1.15 [$/e].
(8.42)
Gibt Ottwin in Aachen 1 Euro aus, br¨ auchte er in Boston f¨ ur die selbe Sache im Schnitt 1.15 Dollar. Insofern dr¨ uckt diese Kennziffer aus, bei welchem fiktiven Wechselkurs in A und in B Gleichheit bzw. Parit¨at bez¨ uglich der erhaltenen Mengen besteht. Dies erkl¨art auch die Bezeichnung “Kaufkraftparit¨ at“. Der tats¨ achliche Wechselkurs k [$/e], auch Valutakurs genannt, ergibt sich durch Angebot und Nachfrage an den Geldm¨arkten. Sein Kurs kann bei den Banken bzw. an der B¨ orse eingeholt werden und ¨andert sich im Grunde st¨ andig. Der Wechselkurs ist daher begrifflich und in aller Regel auch zahlm¨ aßig von der Kaufkraftparit¨ at verschieden. Ein Geldh¨ andler bietet Ottwin bei seiner Abreise einen Wechselkurs von 1.20 [$/e]. Die Menge, die Ottwin f¨ ur 1 Euro in Aachen erh¨alt, kann er in Boston schon f¨ ur 1.15 Dollar erhalten. Ihm bleiben also noch 1.20 - 1.15 = 0.05 Dollar u ur die er in Boston noch etwas mehr einkaufen kann ¨brig, f¨ als in Aachen. Ottwin bringt diese zus¨ atzlichen Mengen zu den f¨ ur 1 Euro bzw. 1.15 Dollar eingekauften Mengen in Relation: 1.20 − 1.15 = 0.0435. 1.15
(8.43)
Ottwin erfreut sich demnach eines Kaufkraftzuwachses, denn er kann in Boston “f¨ ur 1 Euro“ im Schnitt 4.35% mehr einkaufen als in Aachen. Analog w¨ urde sich in Boston ein Kaufkraftverlust ergeben, sollte der Geldh¨ andler Ottwin einen Wechselkurs k [$/e] bieten, der unter der Kaufkraftparit¨ at von 1.15 [$/e] liegt. Das Beispiel zeigt, dass man die Kaufkraftparit¨at nicht mit dem Wechselkurs bzw. dem Valutakurs verwechseln darf und wie man allgemein die Kaufkraft¨ anderung errechnen kann:
Kaufkraft¨ anderung = =
Valutakurs − Kaufkraftparit¨ at Kaufkraftparit¨ at
k − P (A, B) P (A, B)
(8.44)
¨ Die statistischen Amter ermitteln f¨ ur verschiedene L¨ander der Welt die Kaufkraftparit¨ aten. Sie werden unter anderem f¨ ur eine Besoldungsanpassung von
152
8 Indizes
Beamten, die ins Ausland versetzt werden, herangezogen. Problematisch ist bei der Kaufkraftparit¨ at der Umstand, dass man einen Warenkorb, den man in A einkaufen kann, m¨ oglicherweise in B nicht vollst¨andig erhalten k¨ onnte, ihn unter ver¨ anderten Notwendigkeiten anders zusammensetzen w¨ urde (z.B. Heizkosten), oder aber auch wesentlich andere Qualit¨aten bei den Produkten vorfinden w¨ urde. Es d¨ urfte beispielsweise nicht verwundern, wenn in Boston Ottwin seinen Bierkonsum nicht aus preislichen, sondern aus Geschmacks bedingten Gr¨ unden drastisch einschr¨anken wird.
9 Grundlagen der Wahrscheinlichkeitsrechnung
¨ Uber den Begriff “Wahrscheinlichkeit“ hat wahrscheinlich jeder schon einmal nachgedacht. Ob wir uns um gesunde Ern¨ ahrung sorgen, Investitionsentscheidungen zu treffen haben, einen Lagerbestand vorhalten, die Lebensdauer einer Maschine einsch¨ atzen m¨ ussen, immer steht die Frage nach Chancen und Risi¨ ken im Mittelpunkt unserer Uberlegungen. Gelingt es, diese zu quantifizieren, so ist uns gewissermaßen ein kleiner, eingeschr¨ankter “Blick in die Zukunft“ m¨ oglich, der uns letztlich beim Planen helfen soll. Im Vergleich zur Geometrie etwa, ist die Wahrscheinlichkeitsrechnung bzw. Stochastik eine sehr junge Wissenschaft. Dies begr¨ undet sich vermutlich mit dem Weltbild, das die Menschen u ¨ber Jahrhunderte und Jahrtausende hatten. Glaubt man an “Schicksal“ und “Bestimmung“, sei sie von Gott gewollt oder durch Naturgesetze gegeben, so existiert im Grunde kein “Zufall“. Folglich bestand wenig Anreiz, diesen ernsthaft zu untersuchen. Dies ¨anderte sich erst vor etwa 300 Jahren, als man anfing, “Wahrscheinlichkeiten“ zumindest im Zusammenhang mit Gl¨ ucksspielen berechnen zu wollen. Die Formulierung einer mathematisch sauberen, fundierten Wahrscheinlichkeitstheorie stellte f¨ ur die Mathematiker lange Zeit ein Problem dar. Erst im Jahr 1931 ist dies Kolmogorov gelungen, indem er die sogenannte “Maßtheorie“ einbezogen hat. Da aber die Maßtheorie von Nicht-Mathematikern als sehr formal und schwer verst¨ andlich empfunden wird, werden wir versuchen, ohne sie auszukommen. Folglich verzichten wir auf die in der Literatur u ¨bliche Vorgehensweise mit “Ereignisr¨ aumen“, da sich deren Sinn erst im Rahmen der Maßtheorie entfalten w¨ urde. Stattdessen wollen wir, m¨ oglichst wenig dazulernen, d.h. wir u ¨bernehmen weitgehend die bereits bekannten Konzepte der Deskriptiven Statistik. Insbesondere werden wir gelegentlich auf Gl¨ ucksspiele zur¨ uckgreifen, da sich mit ihnen die Konzepte der Wahrscheinlichkeitstheorie quasi unter “Laborbedingungen“ exemplarisch veranschaulichen lassen.
156
9 Grundlagen der Wahrscheinlichkeitsrechnung
Beispiel “M¨ unzwurf“ Endliche Urliste, N = 20
Vergangenheit
Unendliche Urliste, N = Zukunft
1,0,1,1,1,0,1,0,0,1,1,1,1,0,1,1,0,1,1,1
?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, .......
Relative Häufigkeiten: h(X=1) = 0.70
Wahrscheinlichkeiten: P(X=1) = 0.50
h(X=0) = 0.30
P(X=0) = 0.50
Abbildung 9.1. Wir kennen die Zukunft nicht im Einzelfall, jedoch als “Ganzes“. Wir erwarten, dass unter allen zuk¨ unftigen W¨ urfen 50% Kopf (1) und 50% Zahl (0) auftreten werden.
9.1 Wahrscheinlichkeit Wir lassen uns von der Grundidee leiten, dass die Gesetzm¨aßigkeiten und Formeln, welche f¨ ur relative H¨ aufigkeiten gelten, in gleicher Weise auch f¨ ur Wahrscheinlichkeiten gelten. Damit haben wir zwar noch nicht gesagt, was eine Wahrscheinlichkeit ist, jedoch wie man mit ihnen rechnerisch umgehen darf. Der wesentliche Unterschied zwischen einer Wahrscheinlichkeit und einer relativen H¨ aufigkeit liegt in erster Linie in der Interpretation der beiden Begriffe. Beispiel (M¨ unzwurf). Bei einer M¨ unze ist die Sprechweise gel¨aufig, dass jede Seite, sei dies Kopf (1) oder Zahl (0), jeweils eine Wahrscheinlichkeit von 50% besitzt. Aber was dr¨ ucken diese Zahlen eigentlich aus? Wir wollen versuchen, diese Werte als relative H¨aufigkeit zu interpretieren. Dies ist jedoch nur sinnvoll, wenn wir wissen, auf welche Gesamtheit sich diese “relativen H¨ aufigkeiten“ beziehen k¨ onnten. 1. Endliche, vergangenheitsbezogene Grundgesamtheit: Otto hat N = 20 mal eine M¨ unze, geworfen und die Urliste 1,0,1,1,1,0,1,0,0,1, 1,1,1,0,1,1,0,1,1,1 erhalten. Die entsprechenden relativen H¨aufigkeiten lauten h(1) = 0.70 und h(0) = 0.30. Sie weichen von den obigen Wahrscheinlichkeiten 0.50 ab. Dies u ¨berrascht auch nicht, denn schließlich entstehen die Ergebnisse der M¨ unzw¨ urfe zuf¨allig. Insofern sollten wir die genannten Wahrscheinlichkeiten nicht auf eine konkret gegebene Urliste beziehen. 2. Der unmittelbar n¨ achste Wurf: Hier sprechen wir u ¨ber eine Grundgesamtheit, die erst noch in Zukunft entsteht, jedoch nur aus einem (N = 1) Objekt bzw. M¨ unzwurf besteht. Wie immer das Ergebnis konkret ausfallen mag, es ist entweder zu 100% Kopf oder zu 100% Zahl, d.h es k¨ onnen nur die relativen H¨ aufigkeiten h(1) = 1 und h(0) = 0 oder h(1) = 0 und h(0) = 1 auftreten. Folglich ist es nicht sinnvoll,
9.1 Wahrscheinlichkeit
157
die Wahrscheinlichkeit von 50% nur auf den n¨achsten, unmittelbaren M¨ unzwurf zu beziehen. 3. Die n¨ achsten N zuk¨ unftigen W¨ urfe: Auch hier entsteht die Grundgesamtheit erst in Zukunft. Otto hat beschlossen N = 10 mal die M¨ unze zu werfen. Im Moment kennt er die Ergebnisse noch nicht. Es bedarf aber wenig Phantasie, um sich vorstellen zu k¨onnen, dass bei diesen 10 W¨ urfen durchaus ungleich viele K¨opfe bzw. Zahlen auftreten k¨ onnten. Auch hier entspricht die Wahrscheinlichkeit von 50% nicht zwangsl¨ aufig der relativen H¨ aufigkeit, welche Otto in Zukunft, nach N = 10 W¨ urfen gemessen haben wird. 4. Die n¨ achsten N = ∞ zuk¨ unftigen W¨ urfe: Otto hat beschlossen, die M¨ unze unendlich oft zu werfen. Zwar ist dies aus biologischen und vielen anderen Gr¨ unden nicht pratikabel, dennoch glauben wir, u ¨ber das “Ergebnis“ schon im Voraus etwas zu wissen. Da n¨amlich die M¨ unze bez¨ uglich ihrer Flugeigenschaften symmetrisch gebaut ist, m¨ ussten in einer unendlich langen Reihe beide Seiten gleich oft vorkommen. Sollte eine Seite der M¨ unze bevorzugt sein, so hat in einer unendlich langen Reihe die andere Seite gen¨ ugend Zeit, die “Ungerechtigkeit“ auszugleichen. Wenn wir Wahrscheinlichkeiten als relative H¨ aufigkeiten interpretieren wollen, so k¨ onnte dies h¨ ochstens analog zum Fall 4 gelingen, indem wir eine zuk¨ unftige, unendlich lange Urliste zu Grunde legen. Diese Vorstellung wirft jedoch noch einige Fragen bzw. Probleme auf: 1. Wie sollen wir u ufen, ob bei einer Versuchsreihe alle zuk¨ unftigen ¨berpr¨ unzw¨ urfe genau zu 50% Kopf und zu 50% Zahl sind? Dazu br¨auchten M¨ wir alle Zeit der Welt und noch mehr, denn wir d¨ urften nie aufh¨oren, die M¨ unze zu werfen. 2. Erhalten auch andere bzw. alle Personen, die jemals eine Versuchsreihe starten werden, auf unendlich lange Sicht immer exakt 50% Kopf und 50% Zahl? Es w¨ are doch auch eine Reihe denkbar, die beispielsweise u ¨berwiegend oder sogar nur aus einer Folge von “K¨opfen“ besteht. ¨ Uber solche und andere Fragen haben sich die Gelehrten u ¨ber Jahrhunderte den Kopf zerbrochen. F¨ uhrt man experimentelle Untersuchungen mit W¨ urfeln, M¨ unzen, Kugeln etc. durch, so spricht vieles f¨ ur unsere Interpretation von Wahrscheinlichkeit, denn immer wenn man sehr lange Versuchsreihen beobachtet, so scheinen sich die relativen H¨ aufigkeiten mit wachsender Versuchszahl N zu stabilisieren. Jedoch ersetzen diese Experimente wegen ihrer Einmaligkeit und der “Zuf¨ alligkeiten“, denen sie unterliegen, nie einen allgemeing¨ ultigen mathematischen Beweis. Erst mit dem sogenannten Starken Gesetz der großen Zahl ist es gelungen, “rein logisch“ d.h. mathematisch zu beweisen, dass die obige Interpreta-
158
9 Grundlagen der Wahrscheinlichkeitsrechnung
tion zur Wahrscheinlichkeit sinnvoll ist: Das Problem 1 wird in diesem mathematischen Theorem mit einer Konvergenzaussage pr¨ azisiert, d.h. beim M¨ unzwurf konvergiert der Anteil der K¨opfe gegen 0.50. Auch das Problem 2 findet beim M¨ unzwurf eine positive Antwort, indem man zeigen kann, dass fast alle1 Versuchsreihen auf lange Sicht einen Anteil von exakt 50% Kopf und 50% Zahl aufweisen. Die Reihen bei denen dies anders ist, sei es, dass die Anteile gegen andere Werte konvergieren oder gar nicht konvergieren, treten vergleichsweise so selten auf, dass sie f¨ ur praktische Belange vollkommen vernachl¨assigbar sind. Nat¨ urlich beschr¨ ankt sich die G¨ ultigkeit des Starken Gesetzes der großen Zahl nicht nur auf M¨ unzw¨ urfe, sondern auch auf andere Zufallsexperimente. Die Frage, ob man den Wert der Wahrscheinlichkeit numerisch kennt, ist dabei zweitrangig. Bei einem W¨ urfel mit eingebauter Bleiplatte gibt es beispielsweise f¨ ur die Augenzahl 5 eine bestimmte Wahrscheinlichkeit p. Auch wenn wir den Wert von p nicht kennen, so ist er dennoch existent und entspricht dem Anteil der F¨ unfen in einer bzw. “jeder“ unendlich langen Versuchsreihe von W¨ urfen. Diese Ausf¨ uhrungen sollen gen¨ ugen, den Begriff der Wahrscheinlichkeit zu definieren, wobei wir in Kauf nehmen, die mathematische Exaktheit der intuitiven Verst¨ andlichkeit zu opfern. Bei der Notation von Wahrscheinlichkeiten orientieren wir uns an den Schreibweisen f¨ ur relative H¨aufigkeiten, ersetzen allerdings h durch P wie “probability“. Wahrscheinlichkeiten 1. Gesetzm¨ aßigkeiten: Man kann mit Wahrscheinlichkeiten genauso “rechnen“ wie mit relativen H¨ aufigkeiten. 2. Interpretation: Wahrscheinlichkeiten sind als “idealisierte relative H¨ aufigkeiten“ zu verstehen, die sich nicht auf eine Urliste mit empirischen, konkreten Werten beziehen, sondern auf eine Art fiktive Urliste, die erst in der Zukunft entsteht und unendlich lang ist. 3. Notation: P (X ∈ A) = Wahrscheinlichkeit, dass X Werte aus dem Bereich A annimmt.
(9.1)
Analog gebrauchen wir z.B. P (X = x), P (X ≤ x), P (X > x). Die sogenannten fiktiven, zuk¨ unftigen Urlisten sind strukturell genauso wie in der Deskriptiven Statistik aufgebaut. Wir wollen den Vorgang der n¨achsten, zuk¨ unftigen Messung als Zufallsexperiment bezeichnen. Insofern f¨ ullt 1
“Fast alle“ sind hier “ u ahlbar unendlich viele“. Diese Sprechweise gebrau¨berabz¨ chen die Mathematiker, wenn sie Unendlichkeiten meinen, die gewissermaßen noch unendlich viel gr¨ oßer sind, als die u ahlbare Unendlichkeit, die ¨bliche, abz¨ man etwa bei den nat¨ urlichen Zahlen vorfindet. So ist die abz¨ ahlbare Unendlichkeit verschwindend klein im Verh¨ altnis zur u ahlbaren Unendlichkeit. ¨berabz¨
9.2 Diskrete Zufallsvariablen
159
sich gedanklich die fiktive Urliste, indem man wiederholt Zufallsexperimente unter gleichbleibenden Bedingungen durchf¨ uhrt. Dabei bezeichnen wir das Merkmal bzw. die Variable X als Zufallsvariable. Der Wert x, der f¨ ur die Zufallsvariable X bei der Durchf¨ uhrung eines Zufallsexperimentes gemessen wird, heißt Realisation. Beispiel (W¨ urfel). Der Wurf des W¨ urfels entspricht dem Zufallsexperiment. Die Zufallsvariable X ist die “Augenzahl“ und die m¨oglichen Realisationen sind die Werte 1,2,3,4,5,6. Die fiktive, unendlich lange Urliste besteht aus den zuk¨ unftigen Ergebnissen der einzelnen W¨ urfe. Bei einem idealen W¨ urfel, den man in der Literatur auch “Laplace-W¨ urfel“ nennt, unterstellt man Gleichwahrscheinlichkeit: P (X = 1) = P (X = 2) = . . . = P (X = 6) =
1 . 6
W¨ are dies nicht so, w¨ urde man den W¨ urfel als manipuliert betrachten. Analog zur kumulierten Verteilung H(x) definiert man in der Wahrscheinlichkeitsrechnung die kumulierte Verteilung F (x). Diese wird in der Literatur auch als “Verteilungsfunktion“ bezeichnet. Kumulierte Verteilung (Verteilungsfunktion) F (x) = P (X ≤ x) = Wahrscheinlichkeit, dass X maximal den Wert x annimmt.
(9.2)
Da die Rechengesetze der relativen H¨ aufigkeiten auch f¨ ur Wahrscheinlichkeiten gelten sollen, erhalten wir analog zu (2.12) und (2.14): Regel vom Gegenteil P (X ∈ / E) = 1 − P (X ∈ E)
(9.3)
Additionsregel P (X ∈ A ∪ B) = P (X ∈ A) + P (X ∈ B) − P (X ∈ A ∩ B)
(9.4)
9.2 Diskrete Zufallsvariablen Analog zu den diskreten Merkmalen der Deskriptiven Statistik l¨asst sich bei diskreten Zufallsvariablen X die Wahrscheinlichkeitsverteilung P (X = x) als Stabdiagramm und die kumulierte Verteilung F (x) = P (X ≤ x) als ansteigende Treppenfunktion darstellen.
160
9 Grundlagen der Wahrscheinlichkeitsrechnung
Bei einer Zufallsvariablen X ist es nicht m¨ oglich, das arithmetische Mittel N gem¨ aß x ¯ = N1 i=1 xi zu berechnen, da keine konkrete Urliste gegeben ist. Da wir aber die Verteilung P (X = x) zur Verf¨ ugung haben, k¨onnen wir auf die bekannte Methode der gewogenen Mittelung gem¨aß (3.23) zur¨ uckgreifen. Nur bei der Notation und bei den Sprechweisen gibt es einen kleinen Unterschied. Das arithmetische Mittel bzw. der Durchschnittswert von X nennt sich in der Wahrscheinlichkeitstheorie Erwartungswert. Er wird nicht mit x ¯, sondern mit E[X] oder μ notiert. Bei der Varianz u ¨bernehmen wir die Berechnungsmethode “gewogener Durchschnitt der quadrierten Abweichungen vom Mittelwert“ gem¨aß (4.13). Neben dem bereits bekannten Symbol σ 2 schreibt man auch V AR[X]. Erwartungswert und Varianz bei diskreten Zufallsvariablen E[X] = μ = V AR[X] = σ 2 =
m
xk · P (X = xk )
(9.5)
(xk − μ)2 · P (X = xk )
(9.6)
k=1 m k=1
oglichen Realisationen von X. Dabei bezeichnen wir mit x1 , . . . , xm die m¨ Die Formel (9.6) zeigt, dass man die Varianz auch als Erwartungswert der Zufallsvariablen (X − μ)2 , d.h. der quadratisch gemessenen Abweichungen von X zu μ betrachten kann: V AR[X] = σ 2 = E[(X − μ)2 ].
(9.7)
Beispiel (Gl¨ ucksrad). Rosa betreibt ein Gl¨ ucksspiel. Sie zahlt an einen Spieler den Betrag in Euro aus, der bei Stillstand des Rades am Pfeil steht. Bei -10 liegt eine negative Auszahlung vor, d.h. der Spieler muss Rosa 10 Euro geben.
30
20
X
50 -10
Die Wahrscheinlichkeiten der Zufallsvariablen “X = Auszahlung [e]“ berechnen sich aus den Gr¨ oßenverh¨ altnissen der Bogenl¨angen bzw. Segmente, wobei wir unterstellen, dass die Mechanik beim Stillstand des Rades keine Stelle bevorzugt. Wegen der unterschiedlichen Segmentgr¨oßen sind die Chancen nicht gleichverteilt. Die Wahrscheinlichkeitsverteilung und
9.2 Diskrete Zufallsvariablen
161
Diskrete Zufallsvariable Wahrscheinlichkeitsverteilung und kumulierte Verteilung Beispiel “Gl¨ ucksrad“ 1
1 0.875 0.75
F(x)
0.5 0.25 0.125
0.25
- 10
20 30
50
X
Abbildung 9.2. Nur bei den m¨ oglichen Realisationen ist die Wahrscheinlichkeit ungleich Null.
- 10
20 30
50
X
Abbildung 9.3. Die kumulierte Verteilung ist eine Treppenfunktion.
Die Funktion P (X = x) in der linken Abbildung beschreibt die H¨ ohe der Spr¨ unge bei der kumulierten Verteilung F (x) in der rechten Abbildung.
die kumulierte Verteilung von X sind in den Abbildungen 9.2, 9.3 zu sehen. Wenn viele Spieler am Gl¨ ucksspiel teilnehmen, so wird vermutlich Rosa mehr auszahlen, als einnehmen. Um dies zu pr¨azisieren, berechnen wir den Erwartungswert von X: E[X] = μ = −10 · 0.25 + 20 · 0.50 + 30 · 0.125 + 50 · 0.125 = 17.5 [e]. Folglich erwarten wir, dass Rosa auf lange Sicht pro Spiel eine Auszahlung von 17.50 [e] t¨ atigen muss. Um das Gl¨ ucksspiel gewinnbringend zu betreiben, sollte Rosa f¨ ur die Teilnahme am Spiel einen Preis verlangen, der u ¨ber 17.50 [e] pro Spiel liegt. Die Abweichung der einzelnen Auszahlungen vom Erwartungswert bewerten wir mit der Varianz und der Standardabweichung: (−10 − 17.5)2 · 0.25 + (20 − 17.5)2 · 0.50 + (30 − 17.5)2 · 0.125 + (50 − 17.5)2 · 0.125 = 343.75 [e2 ] √ σ = 343.75 = 18.54 [e].
V AR[X] = σ 2 =
Je kleiner die Standardabweichung der Auszahlungen bei einem Gl¨ ucksspiel ist, desto deterministischer und somit “langweiliger“ ist das Spiel. Bei einer Varianz von Null empfindet der Spieler keinen “Kitzel“ mehr, da dann der Auszahlungsbetrag immer gleich w¨are.
162
9 Grundlagen der Wahrscheinlichkeitsrechnung
Stetige Zufallsvariable Wahrscheinlichkeiten werden durch Fl¨ achen dargestellt Beispiel “Bedienzeit“ 0.3
f(x)
0.3
P( X b 2.5) = 52.8%
0.2
0.2
f(x)
0.3
P(2.5 b X b 5) = 24.9%
2.5
x
P(X b 5) = 77.7%
0.1
0.1
0.1
0.2
f(x)
2.5
5
x
x[Min] 5
Abbildung 9.4. Die Summe der ersten beiden Fl¨ achen ergibt die dritte Fl¨ ache. Die Gesamtfl¨ ache unter einer Dichte f (x) ergibt immer den Wert 1.
Weitere Beispiele zu geben, ist eigentlich nicht n¨otig, denn man kann das Verhalten jeder diskreten Zufallsvariablen X durch ein Gl¨ ucksrad simulieren, indem man f¨ ur die Wahrscheinlichkeiten entsprechend große Segmente zeichnet. So l¨ asst sich auch ein W¨ urfel, mit oder ohne Bleiplatte, als Gl¨ ucksrad darstellen. In der Praxis treffen wir sehr oft auf diskrete Zufallsvariablen, z.B. die Anzahl der Unf¨ alle pro Tag, die Parkgeb¨ uhreinnahmen pro Auto oder die Anzahl der Kinder eines zuf¨ allig ausgew¨ ahlten Haushaltes. Hierbei ist das Gl¨ ucksrad gewissermaßen naturgegeben. Dabei stehen wir jedoch in der Regel quasi hinter dem Gl¨ ucksrad, so dass wir die Einteilung der Segmente nicht erkennen k¨ onnen. Unabh¨ angig von der Perspektive ist es aber dennoch ein Gl¨ ucksrad mit einer bestimmten Verteilung, einem bestimmten Erwartungswert und einer bestimmten Varianz. Es geh¨ ort zu den typischen Aufgaben der Induktiven Statistik, sich zumindest n¨ aherungsweise ein Bild von der Vorderseite des Gl¨ ucksrades zu verschaffen.
9.3 Stetige Zufallsvariablen In der Deskriptiven Statistik haben wir die Verteilung eines stetigen Merkmals X durch rechteckige Fl¨ achen in einem Histogramm dargestellt, wobei die Werte von X zuvor in Klassen eingeteilt worden sind. Den oberen Rand der Fl¨achen haben wir als Dichtefunktion bezeichnet. Dieses Konzept u ur stetige Zufallsvariablen und stellen Wahr¨bernehmen wir f¨ scheinlichkeiten mit Fl¨ achen dar, die sich unterhalb einer Dichtefunktion f (x) ergeben. Abbildung 9.4 zeigt das Prinzip. Dabei wollen wir auch Fl¨achen mit krummen R¨ andern zulassen, so dass sich Dichtefunktionen ergeben, die stetig, d.h. durchgehend zusammenh¨ angend verlaufen. ¨ F¨ ur weitere Uberlegungen ist die Vorstellung hilfreich, dass eine krummlinige Dichte als Grenzwert einer stufigen bzw. treppenf¨ormigen Dichte aufgefasst
9.3 Stetige Zufallsvariablen
163
Gl¨ attung der Dichtefunktion durch Verfeinerung der Klassen Beispiel “Bedienzeit“ 0.3
0.3
0.3
Dichte
0.2
0.15 0.10 0.0625
Dichte
0.1
0.1
1 2
5
9
X
Abbildung 9.5. Dichte bei nur 4 Klassen
Dichte f(x)
0.2
1 2 3 4 5 6 7 8 9
X
Abbildung 9.6. Dichte bei vielen Klassen
-1
1 2 3 4 5 6 7 8 9
X [Min]
Abbildung 9.7. Dichte bei unendlich vielen Klassen
werden kann. Dies erreicht man durch eine Verfeinerung der Klasseneinteilung. Die Rechtecke werden dadurch immer schlanker, d.h. weniger breit, ihre H¨ohen aber ¨ andern sich von Nachbar zu Nachbar nur unwesentlich. Beispiel (Bedienzeiten am Postschalter). Wir greifen nochmals das bereits bekannte Beispiel von Seite 22 auf. Dort haben wir bei N = 20 Personen die Variable “X = Bedienzeit eines Kunden [Min]“ gemessen. Das Histogramm in Abbildung 2.9 auf Seite 26 zeigt die Verteilung von X, wobei die Werte von X bez¨ uglich nur 4 Zeitklassen aufgeteilt sind. Der Verlauf der oberen R¨ ander der Rechtecke bzw. die Dichtefunktion ist in Abbildung 9.5 nochmals zu sehen. Wenn wir nicht nur N = 20 sondern unendlich viele Messwerte zur Verf¨ ugung haben, k¨ onnte man statt nur 4 “Grob-Klassen“ eine wesentlich feinere Einteilung vornehmen, ohne in Not zu geraten, dass zu viele Klassen leer ausgehen. Wie dann die Histogramme bzw. die Dichten aussehen k¨ onnten, haben wir versucht, in den Abbildungen 9.5 bis 9.7 exemplarisch darzustellen.
Berechnung von Fl¨ achen durch Verfeinerung der Klassen Beispiel “Bedienzeit“ 0.3
Dichte 0.15 0.10 0.0625
1 2
5
9
X
Abbildung 9.8. Fl¨ ache mit nur 2 Rechtecken
0.3
0.3
0.2
0.2
0.1
0.1
1 2 3 4 5 6 7 8 9
X
Abbildung 9.9. Fl¨ ache mit vielen Rechtecken
f(x)
1 2 3 4 5 6 7 8 9
X [Min]
Abbildung 9.10. Fl¨ ache mit unendlich vielen Rechtecken
164
9 Grundlagen der Wahrscheinlichkeitsrechnung
Die Berechnung von Fl¨ achen unterhalb einer krummlinigen Dichtefunktion ist nicht mit elementarer Geometrie m¨ oglich. Hierf¨ ur steht die sogenannte Integralrechnung zur Verf¨ ugung, die allerdings nicht leicht zu handhaben ist. Daher werden wir nur die Grundideen ansprechen und nicht n¨aher auf das Rechnen mit Integralen eingehen. Exkurs: Integrale notiert man in folgender Form:
b
f (x) dx = Integral der Dichtefunktion f (x) von a bis b
=
a
= Fl¨ ache von a bis b unterhalb der Dichte f (x) f(x) b
!a f(x) dx
=
a
(9.8) b
X
Bei der Berechnung der Fl¨ achen nimmt man zun¨achst eine Verfeinerung der Klasseneinteilung vor und berechnet die gesuchte Fl¨ache als Summe entsprechender Rechtecke. Die Abbildungen 9.8 bis 9.10 illustrieren diese Idee. Die Fl¨ achen der Rechtecke lassen sich mit elementarer Geometrie berechnen. Je mehr wir die Klasseneinteilung verfeinern, desto mehr Rechtecke erhalten wir und desto schmaler werden diese. Mit der Unterst¨ utzung eines Computers k¨ onnen wir m¨ uhelos die Summe der Rechtecksfl¨achen bestimmen. Dabei stellen wir fest, dass sich die Ergebnisse f¨ ur die schraffierte Gesamtfl¨ ache kaum unterscheiden und sich stabilisieren, je feiner man die Klassen w¨ ahlt. Untersucht man dieses Verhalten mathematisch mit einer “Grenzwertbetrachtung“, so gelangt man zu allgemeing¨ ultigen, analytischen L¨ osungen. b An der Notation a f (x)dx lassen sich diese Ideen ansatzweise wiedererkennen. Verwenden wir der Einfachheit halber gleich lange Klassen mit einer L¨ ange von jeweils “dx“, so berechnet sich die Fl¨ache eines einzelnen Rechtecks in Abbildung 9.9 n¨ aherungsweise mit f (x) · dx, wobei f¨ ur x die Mitte der Klasse gew¨ ahlt werden kann. Dann berechnet sich beispielsweise die schraffierte ache zwischen 2.5 und 5.5. in Abbildung 5.5 Gesamtfl¨ 9.9 als Summe 2.5 f (x)dx der einzelnen Fl¨achen. L¨asst man dx gegen 0 schrumpfen, so w¨ achst die Anzahl der Rechtecke bzw. Summanden ins Unendliche. Statt des Summenzeichens Σ notiert man dann ein lang gestrecktes S, d.h. : 5.5 2.5
f (x) dx
5.5
−→
f (x) dx.
(9.9)
2.5
9.3 Stetige Zufallsvariablen
165
Kumulierte Verteilung F(x) bei stetigen Zufallsvariablen Beispiel “Bedienzeit“ 1
F(x)
1
F(x)
0.75
0.75
0.5
0.5
0.25
0.25 1 2 3 4 5 6 7 8 9 10 11 12
X [Min]
1
.
Abbildung 9.11. Die kumulierte Verteilungsfunktion einer stetigen Zufallsvariablen ist eine stetige, nicht fallende Funktion.
4.621 = x75%
10
X [Min]
Abbildung 9.12. Mit 75% Wahrscheinlichkeit ben¨ otigt ein Kunde h¨ ochstens 4.621 Minuten.
Von besonderem Interesse sind Fl¨ achen, die “ganz links“ bei −∞ beginnen und bis zu einer variablen Obergrenze x reichen, denn sie veranschaulichen die kumulierte Verteilung. Kumulierte Verteilung bei stetigen Zufallsvariablen F (x) = P (X ≤ x)
=
f
x
f (t) dt
= −∞
Fl¨ ache von “ganz links“ bis x unterhalb der Dichte f
=
(9.10)
x
Beispiel (Fortsetzung). F¨ ur die Dichte f (x), welche in der Abbildung 9.7 zu sehen ist, haben wir die Formel f (x) = 0.30e−0.30x
(9.11)
benutzt. Wir wollen nicht diskutieren, wie “realistisch“ diese Formel ist, sondern nur exemplarisch zeigen, wie man mit ihr rechnen kann. Kennt man die Formel zur Dichte f (x), so kann man mit Hilfe der Integralrechnung auch die kumulierte Verteilung F (x) berechnen. Ohne die Details vorzuf¨ uhren erhalten wir gem¨ aß (9.10): x 0.30e−0.30t dt F (x) = P (X ≤ x) = −∞
= . . . (Integralrechnung) . . . = 1 − e−0.30x . Die Abbildung 9.11 zeigt den Graphen von F (x).
166
9 Grundlagen der Wahrscheinlichkeitsrechnung
Mit der kumulierten Verteilung lassen sich insbesondere Quantile bestimmen. Als Beispiel wollen wir die Bedienzeit ermitteln, welche mit 75% Wahrscheinlichkeit nicht u ¨berschritten wird. Die L¨osung x entspricht dem 75%-Quantil x0.75 und berechnet sich mit P (X ≤ x) = 0.75 ⇔ F (x) = 0.75 x = 4.621 [Min].
⇔
Die L¨ osung ist in Abbildung 9.12 illustriert.
1 − e−0.30x = 0.75
⇔
Kennt man die kumulierte Verteilung F (x), so erh¨alt man durch die Ableitung F (x) die Dichtefunktion. Wir haben diesen Sachverhalt schon in der Deskriptiven Statistik in (2.32) festgestellt. Formal l¨ asst er sich mit dem Hauptsatz der Differential- und Integralrechnung beweisen. Bei stetigen Zufallsvariablen gilt: F (x) = f (x).
(9.12)
Die Steigung der kumulierten Verteilung F (x) entspricht der Dichte f (x). Die Berechnung des Erwartungswertes μ erfolgt bei einer stetigen Variablen X im Grunde wie bei einem klassifizierten Merkmal analog zu (3.23) auf Seite 65. Dort haben wir den Durchschnitt x ¯ als gewogenes Mittel bestimmt, wobei wir jeweils den Wert der Klassenmitte mit seiner relativen H¨aufigkeit multipliziert haben. Diese Idee greifen wir nochmals auf und f¨ uhren eine Grenzwertbetrachtung durch, indem wir die Klasseneinteilung beliebig fein w¨ahlen. Im Ergebnis erhalten wir mit der gleichen Argumentation, die wir in (9.9) gebraucht haben, ein Integral: ∞ x · f (x) dx −→ x · f (x) dx. (9.13) x
−∞
Man kann sich vorstellen, dass bei einer unendlich feinen Klasseneinteilung gewissermaßen jeder x-Wert zu einer Klassenmitte wird. Dies ber¨ ucksichtigt das Integral. Bei der Berechnung der Varianz greifen wir auf die Formel (4.13) zur¨ uck und erhalten durch Grenzwertbildung: ∞ 2 (x − μ) · f (x) dx −→ (x − μ)2 · f (x) dx. (9.14) x
−∞
Daher definiert man in der Wahrscheinlichkeitstheorie bei stetigen Variablen den Erwartungswert und die Varianz mit Integralen.
9.3 Stetige Zufallsvariablen
167
Erwartungswert und Varianz bei stetigen Zufallsvariablen ∞ E[X] = μ = x · f (x) dx (9.15) −∞ ∞ V AR[X] = σ 2 = (x − μ)2 · f (x) dx (9.16) −∞
Analog zu (9.7) gilt: V AR[X] = σ 2 = E[(X − μ)2 ].
(9.17)
Beispiel (Fortsetzung). Mit der Dichte der Bedienzeiten f (x) = 0.30e−0.30x erhalten wir: ∞ E[X] = μ = x · 0.30e−0.30x dx −∞
= . . . (Integralrechnung) . . . = 3.33 [Min], V AR[X] = σ 2 =
∞
−∞
(x − 3.33)2 · 0.30e−0.30x dx
= . . . (Integralrechnung) . . . = 11.11 [Min2 ]. Merkw¨ urdiges Die Wahrscheinlichkeit P (a ≤ X ≤ b) k¨ onnen wir als Fl¨ache unter der Dichb tefunktion f (x) oder als Integral a f (x)dx darstellen. Je enger die R¨ander a und b liegen, desto kleiner ist die Fl¨ ache und desto geringer ist die Wahrscheinlichkeit. Was passiert in Extremfall, wenn a = b ist? Die Fl¨ache degeneriert zu einem Strich und besitzt, wie aus der Geometrie bekannt ist, als eindimensionales Objekt keine Fl¨ ache bzw. weist eine Fl¨ ache von Null auf. Daraus folgt ein merkw¨ urdiges Resultat: Bei stetigen Zufallsvariablen X gilt f¨ ur jede Realisation x: P (X = x) = 0.
(9.18)
Welches Ergebnis x man bei einem Zufallsexperiment auch erwartet, es kommt praktisch nicht vor. Dieses Paradoxon ist einer der Gr¨ unde, weshalb eine mathematisch “saubere“ Wahrscheinlichkeitsrechnung so lange auf sich warten ließ. Mit der Maßtheorie kann man das Paradoxon aufl¨osen. Wir behandeln das Paradoxon pragmatisch und untersuchen es anhand des Beispiels “Bedienzeiten“.
168
9 Grundlagen der Wahrscheinlichkeitsrechnung
Beispiel (Fortsetzung). Mit welcher Wahrscheinlichkeit liegt die Bedienzeit eines Kunden bei exakt 3.7200000 . . . Minuten? Diese Frage ist eigentlich rein theoretischer Natur, denn die Genauigkeit, mit der die Bedienzeit exakt diesem Wert entsprechen soll, ist mit keiner noch so feinen Uhr messbar. Sp¨ atestens beim Ablesen der unendlich (!) vielen Nachkommastellen w¨ urden wir das Zeitliche segnen. Es w¨are ein “unendlich großer Zufall“, wenn tats¨ achlich jemals ein Kunde exakt so lange bedient w¨ urde. Daher ist die Chance gleich Null. Dies l¨asst sich auch geometrisch veranschaulichen: [Min]
0.3
0.2
Strich hat keine Fläche
0.1
3.72000000000 …
9
X
Da der eingezeichnete Strich im Grunde unendlich d¨ unn gezeichnet werden m¨ usste und keine Fl¨ ache besitzt, gilt P (X = 3.7200000 . . .) = 0. Nun modifizieren wir die obige Frage und wollen die Wahrscheinlichkeit bestimmen, dass die Bedienzeit eines Kunden bei ungef¨ ahr 3.72 Minuten liegt. Diese Fragestellung ber¨ ucksichtigt indirekt die Tatsache, wir eine Gr¨ oße immer nur auf endlich viele Nachkommastellen messen k¨onnen. Die Floskel “ungef¨ ahr 3.72“ wollen wir so verstehen, dass gem¨aß den u ¨blichen Rundungsregeln der Zeitraum 3.715 bis 3.725 Minuten gemeint ist. Dann liegt aber kein verschwindend kleiner Zeitpunkt, sondern ein Zeitintervall vor. Daher ist die entsprechende Wahrscheinlichkeit als echte Fl¨ache darstellbar. Diese Fl¨ ache ist allerdings so schmal, dass sie fast genauso wie der Strich in obiger Abbildung aussieht. Mit Hilfe der kumulierten Verteilung F (x) k¨onnen wir den Inhalt der Fl¨ ache bzw, die gesuchte Wahrscheinlichkeit ausrechnen: P (X ungef¨ ahr 3.72) = P (3.715 ≤ X ≤ 3.725) = P (X ≤ 3.725) − P (X < 3.715)
(9.19)
= F (3.725) − F (3.715) = 1 − e−0.30·3.725 − (1 − e−0.30·3.715 ) = 0.09828%. Diesmal ist die Wahrscheinlichkeit ungleich Null.
¨ Diese Uberlegungen zeigen, dass das Paradoxon f¨ ur praktische Belange nicht st¨ ort. Aus P (X = x) = 0 folgt auch, dass man beim Umgang mit dem Ungleichheitszeichen schlampig umgehen darf:
9.4 Bedingte Wahrscheinlichkeit
P (X ≤ x) = P (X < x)
und
P (X ≥ x) = P (X > x).
169
(9.20)
Dies ist insbesondere vorteilhaft, wenn wir mit der kumulierten Verteilung die Wahrscheinlichkeiten von “Intervallen“ berechnen wollen, denn es ist egal, ob wir die R¨ ander einschließen. F¨ ur eine stetige Zufallsvariable X gilt: P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = F (b) − F (a). (9.21) In (9.19) haben wir von dieser Formel bereits Gebrauch gemacht.
9.4 Bedingte Wahrscheinlichkeit Y ∈B) Analog zur Formel h(X ∈ A|Y ∈ B) = h(X∈A, , die wir aus (2.50) bereits h(Y ∈B) kennen, definieren wir in der Wahrscheinlichkeitstheorie:
Bedingte Wahrscheinlichkeit P (X ∈ A|Y ∈ B) =
P (X ∈ A, Y ∈ B) P (Y ∈ B)
(9.22)
Es werden nur solche Zufallsexperimente ber¨ ucksichtigt, bei denen Y ∈ B zutrifft. Versuchsausg¨ ange mit Y ∈ B werden einfach ignoriert. Dies entspricht dem in Kapitel 2.7 besprochenem Filtern. Ein Spezialfall von (9.22) ergibt sich, wenn wir Y = X setzen, d.h. die Bedingung von X selbst festgelegt wird: P (X ∈ A|X ∈ B) =
P (X ∈ A ∩ B) . P (X ∈ B)
Bei Kenntnis der bedingten Wahrscheinlichkeiten kann man auch die unbedingte, totale Wahrscheinlichkeit berechnen. Dies erfolgt analog zur Formel (2.55). Satz von der totalen Wahrscheinlichkeit P (X ∈ A) =
P (X ∈ A|Y ∈ B1 ) · P (Y ∈ B1 ) + P (X ∈ A|Y ∈ B2 ) · P (Y ∈ B2 ) + ... + P (X ∈ A|Y ∈ Bm ) · P (Y ∈ Bm ),
(9.23)
wobei die Bedingungen B1 , . . . , Bm disjunkt und vollst¨andig sein m¨ ussen.
170
9 Grundlagen der Wahrscheinlichkeitsrechnung
Beispiel (Ausschuss). Balthasar stellt in seiner Fabrik Pommes her. Ein Qualit¨ atsstandard fordert, dass er mit einer Wahrscheinlichkeit von maximal 2% Pommes-St¨ ucke produzieren darf, die k¨ urzer als 2.5 [cm] sind. Aufgrund unterschiedlicher Beschaffenheiten betr¨agt die Wahrscheinlichkeit, dass ein einzelnes Pommes-St¨ uck zu kurz ist, bei Kartoffelsorte A 1%, bei Sorte B 4.5% und bei Sorte C 3%. Balthasar hat im Moment 5000 [kg] Kartoffeln der Sorte A, 1000 [kg] der Sorte B und 2000 [kg] der Sorte C auf Lager. Kann Balthasar den Qualit¨ atsstandard einhalten, wenn er die drei Sorten vermischt und aufbraucht? Mit den Zufallsvariablen X = L¨ ange eines St¨ uckes
und
Y = Kartoffelsorte
lauten die Angaben im Text: P (X ≤ 2.5|Y = A) = 0.01, P (X ≤ 2.5|Y = C) = 0.03
P (X ≤ 2.5|Y = B) = 0.045,
und P (Y = A) =
5 , 8
P (Y = B) =
1 , 8
P (Y = C) =
2 . 8
Mit (9.23) folgt: P (X ≤ 2.5) =
P (X ≤ 2.5|Y = A) · P (Y = A) + P (X ≤ 2.5|Y = B) · P (Y = B) + P (X ≤ 2.5|Y = C) · P (Y = C)
= 0.01 ·
(9.24)
5 1 2 + 0.045 · + 0.03 · = 1.9375%. 8 8 8
Folglich kann Balthasar die Produktion beginnen, ohne den Qualit¨atsstandard zu verletzen. Beispiel (Alarmanlage). Ein Bankgeb¨ aude ist mit einer Alarmanlage gesichert. Das Risiko, dass an einem Tag ein Einbruch versucht wird, liegt bei 0.2%. Findet ein Einbruch statt, gelingt es den Ganoven erfahrungsgem¨aß die Anlage mit 5% Wahrscheinlichkeit auszutricksen, so dass kein Alarm gegeben wird. Findet an einem Tag kein Einbruch statt, kann es mit 0.5% Wahrscheinlichkeit zu einem Fehlalarm kommen. Wie hoch ist die Wahrscheinlichkeit, dass bei gegebenem Alarm tats¨achlich eingebrochen wird ? Mit den Zufallsvariablen 1, falls Einbruch, 1, falls Alarm X= und Y = 0, sonst, 0, sonst,
9.4 Bedingte Wahrscheinlichkeit
171
ergibt sich aus dem Text: P (X = 1) = 0.002, P (Y = 1| X = 1) = 0.95,
P (Y = 1| X = 0) = 0.005.
F¨ ur die gesuchte Wahrscheinlichkeit gilt: (9.22)
P (X = 1| Y = 1) =
(9.22)
=
P (X = 1, Y = 1) P (Y = 1) P (Y = 1|X = 1) · P (X = 1) . P (Y = 1)
(9.25)
Diese Rechnung ist im Grunde mit der “Bayes-Formel“ (2.61) identisch. Der Nenner berechnet sich gem¨ aß (9.23): P (Y = 1) =
P (Y = 1| X = 1) · P (X = 1)
+ P (Y = 1| X = 0) · P (X = 0) = 0.95 · 0.002 + 0.005 · (1 − 0.002) = 0.00689. Dies in (9.25) eingesetzt, ergibt schließlich: P (X = 1| Y = 1) =
0.95 · 0.002 = 27.576%. 0.00689
(9.26)
Beispiel (Personalauswahl). Hannes ist Personalchef eines Unternehmens und m¨ ochte neue Mitarbeiter u ¨ber ein Assessment-Center rekrutieren. Das Verfahren erm¨ oglicht mit einer Wahrscheinlichkeit von 80% einen f¨ ur das Unternehmen geeigneten Kandidaten auch als solchen zu erkennen, wohingegen ein f¨ ur das Unternehmen ungeeigneter Kandidat mit einer Wahrscheinlichkeit von 30% irrt¨ umlich als geeignet eingestuft wird. 60% der Teilnehmer des Assessment-Center sind f¨ ur das Unternehmen ungeeignet. Mit welcher Wahrscheinlichkeit, wird ein Kandidat durch das AssessmentCenter richtig beurteilt bzw. klassifiziert? Mit den Zufallsvariablen 1, Kandidat ist tats¨ achlich geeignet, X= (9.27) 0, Kandidat ist tats¨ achlich ungeeignet, und
Y =
1, Kandidat wird als geeignet eingestuft, 0, Kandidat wird als ungeeignet eingestuft,
lauten die Angaben im Text: P (X = 0) = 0.60, P (Y = 1| X = 1) = 0.80,
P (Y = 1| X = 0) = 0.30.
(9.28)
172
9 Grundlagen der Wahrscheinlichkeitsrechnung
Eine richtige Beurteilung eines Kandidaten liegt vor, wenn ein Kandidat geeignet ist und als geeignet eingestuft wird, oder ein Kandidat ungeeignet ist und als ungeeignet eingestuft wird. Daher gilt:
Kandidat rich= P (X = 1, Y = 1) + P (X = 0, Y = 0) P tig klassifiziert
(9.22)
=
P (Y = 1| X = 1) · P (X = 1) + P (Y = 0| X = 0) · P (X = 0)
= 0.80 · (1 − 0.60) + (1 − 0.30) · 0.60 = 74%. Beispiel (Wartezeit). Jakob stellt seinen Kunden Rechnungen aus. Die Wahrscheinlichkeit, dass eine Forderung l¨anger als 3 Tage offen steht, betr¨ agt 60%. Bei Forderungen, die l¨ anger als 3 Tage offen stehen, liegt die Wahrscheinlichkeit, dass nochmals mehr als 3 weitere Tage bis zur Zahlung verstreichen, bei 70%. Bei Forderungen, die l¨anger als 6 Tage offen stehen, liegt die Wahrscheinlichkeit, dass nochmals mehr als 3 weitere Tage bis zur Zahlung verstreichen, bei 30%. Mit welcher Chance bekommt Jakob eine Forderung innerhalb von 9 Tagen beglichen? Mit der Zufallsvariablen “X = Wartezeit in Tagen“ lauten die Angaben des Textes: P (X > 3) = 0.60, P (X > 9| X > 6) = 0.30,
P (X > 6| X > 3) = 0.70.
Rechnungen, mit einer Wartezeit u ¨ber 6 Tage, haben automatisch auch eine Wartezeit u ¨ber 3 Tage. Daher ist P (X > 6) = P (X > 6 und X > 3). Somit berechnet Jakob (9.22)
P (X > 6) = P (X > 6, X > 3) = P (X > 6| X > 3) · P (X > 3) = 0.70 · 0.60 und (9.22)
P (X > 9) = P (X > 9, X > 6) = P (X > 9| X > 6) · P (X > 6) = 0.30 · 0.70 · 0.60. Schließlich erh¨ alt Jakob: P (X ≤ 9) = 1 − P (X > 9) = 1 − 0.30 · 0.70 · 0.60 = 87.4%.
9.5 Unabh¨ angigkeit
173
9.5 Unabh¨ angigkeit Wenn eine Zufallsvariable X von einer anderen Zufallsvariablen Y unabh¨angig ist, so sollte beim Zufallsexperiment das Ergebnis der Variablen Y keinen Einfluss auf das Ergebnis der Variablen X haben. Egal, ob wir das Zufallsexperiment unter einer Bedingung Y ∈ B durchf¨ uhren, oder ob wir Y gar nicht ber¨ ucksichtigen, die Wahrscheinlichkeitsverteilung von X ist davon unber¨ uhrt. Daher m¨ usste bei Unabh¨ angigkeit gelten: P (X ∈ A|Y ∈ B) = P (X ∈ A). Wir ersetzen die linke Seite durch Formel (9.22) und erhalten: P (X ∈ A, Y ∈ B) = P (X ∈ A). P (Y ∈ B) Die Aufl¨ osung nach dem Z¨ ahler motiviert folgende Definition der Unabh¨angigkeit zweier Zufallsvariablen: Unabh¨ angigkeit Zwei Zufallsvariablen X, Y bezeichnet man als unabh¨angig, wenn f¨ ur alle Wertebereiche A und B gilt: P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B).
(9.29)
Die gemeinsame, bivariate Verteilung von X und Y ergibt sich bei Unabh¨ angigkeit als Produkt der Randverteilungen. Es ist nicht immer leicht, diese Definition zu u ufen, da man alle denkba¨berpr¨ ren Wertebereiche A und B zu ber¨ ucksichtigen hat. In den Anwendungen wird gelegentlich die Unabh¨ angigkeit der Variablen X, Y per Sachverstand einfach vorausgesetzt, oder eine Abh¨ angigkeit als vernachl¨assigbar gering eingestuft. Beispiel (Sternzeichen und Schuhgr¨ oße). Wir greifen aus der Bev¨olkerung Quantenheims zuf¨ allig eine Person heraus, und beobachten die Variablen “X = Sternzeichen“ und “Y = Schuhgr¨oße“. Es sei bekannt, dass 12.8% der Personen Schuhgr¨ oßen u ¨ber 9 tragen und das Sternzeichen “Stier“ zu 1/12 vorkommt. Dann betr¨ agt die Wahrscheinlichkeit, dass ein “Stier“ Schuhgr¨ oßen von maximal 9 tr¨agt P (X = Stier, Y ≤ 9) = P (X = Stier) · P (Y ≤ 9) 1 (1 − 0.128) = 7.27%. = 12 Diese Rechnung ist nat¨ urlich nur f¨ ur den nicht an Astrologie Glaubenden richtig. Dann n¨ amlich ist das Sternzeichen vermutlich ohne Einfluss auf die Schuhgr¨ oße, so dass X und Y als unabh¨ angig betrachtet werden k¨onnen.
174
9 Grundlagen der Wahrscheinlichkeitsrechnung
Beispiel (Zwei W¨ urfel). Sei X1 die Augenzahl beim ersten Wurf und X2 die Augenzahl beim zweiten Wurf, so verhalten sich die Ergebnisse beider W¨ urfe unabh¨ angig, es sei denn man glaubt an schicksalhafte, unsichtbare Kr¨ afte. Daher betr¨ agt bei einem Laplace-W¨ urfel beispielsweise die Wahrscheinlichkeit, erst eine 5 und dann eine 3 zu w¨ urfeln P (X1 = 5 und X2 = 3) = P (X1 = 5) · P (X2 = 3) =
1 1 · 6 6
1 . (9.30) 36 Beim Spielen von Monopoly bildet man die Augensumme S = X1 +X2 . Bei der Bestimmung der Verteilung von S wenden wir dieses Rechenschema wiederholt an: =
P (S = 1) = 0, P (S = 2) = P (X1 = 1 und X2 = 1) = P (X1 = 1) · P (X2 = 1) 1 1 1 , = · = 6 6 36 P (S = 3) = P (X1 = 1 und X2 = 2) + P (X1 = 2 und X2 = 1) 2 1 1 , = 2· · = 6 6 36 P (S = 4) = P (X1 = 1, X2 = 3) + P (X1 = 2, X2 = 2) + P (X1 = 3, X2 = 1) 3 1 1 , = 3· · = 6 6 36 ... ... P (S = 7) = P (X1 = 1, X2 = 6) + P (X1 = 2, X2 = 5) + . . . = + P (X1 = 6, X2 = 1) 6 1 1 , = 6· · = 6 6 36 ... ... 1 1 1 P (S = 12) = P (X1 = 6, X2 = 6) = · = . 6 6 36 Diese Verteilung besitzt eine dreieckige Gestalt und ist in der Abbildung 11.1 auf Seite 223 zu sehen. Dort sind zus¨ atzlich auch noch die Verteilung der Summe von 3 W¨ urfeln und die Verteilung der Summe von 30 W¨ urfeln dargestellt, die sich auf analoge Weise berechnen lassen.
9.6 Kovarianz und Korrelation Wir greifen auf die Konzepte von Kapitel 6 zur¨ uck. Die Formel 6.17 und 6.24 k¨ onnen wir gewissermaßen als Vorlage zur Definition der Kovarianz und Korrelation von Zufallsvariablen benutzen.
9.6 Kovarianz und Korrelation
175
Kovarianz und Korrelation zweier Zufallsvariablen X und Y COV [X, Y ] = σx,y = E[(X − μx )(Y − μy )] COR[X, Y ] = ρx,y =
σx,y σ x · σy
(9.31) (9.32)
Sollte eine der Variablen X oder Y konstant sein, ergibt sich im Nenner eine Null. F¨ ur diesen Fall ist die Korrelation undefiniert. Bei der Berechnung der Kovarianz unterscheidet man, ob diskrete oder stetige Zufallsvariablen vorliegen: (9.33) COV [X, Y ] = σx,y ⎧ ⎨ x y (x − μx )(y − μy ) · P (X = x, Y = y) bei X,Y diskret, = ⎩ ∞ ∞ (x − μ )(y − μ ) · f (x, y) dx dy bei X,Y stetig. x y −∞ −∞ Im speziellen Fall, dass man die Kovarianz einer Variabeln X zu sich selbst berechnet, ergibt sich analog zu (6.16) die Varianz von X: σx,x = E[(X − μx )(X − μx )] = σ 2 .
(9.34)
Man kann zeigen, dass sowohl die Kovarianz als auch die Korrelation Null betragen, wenn die Variablen X und Y unabh¨angig sind. Umgekehrt aber k¨ onnen abh¨ angige Variablen auch eine Korrelation oder Kovarianz von Null besitzen. Dieses Ph¨ anomen haben wir beispielsweise auf Seite 103 in der Abbildung 6.8 beobachtet und auf Seite 107 nochmals besprochen.
X und Y sind unabh¨ angig ⇒ ρx,y = 0 und σx,y = 0. ρx,y = 0 ⇒ X und Y sind unabh¨angig.
(9.35)
σx,y = 0 ⇒ X und Y sind unabh¨angig. Eine Herleitung findet der begeisterte Leser auf Seite 385. Wie in (6.34) gilt auch in der Wahrscheinlichkeitsrechnung f¨ ur die Korrelation −1 < ρx,y < 1.
(9.36)
Ein Beispiel zur Kovarianz und Korrelation zweier Zufallsvariablen X, Y geben wir sp¨ ater auf Seite 183. Analog zu (6.13) ergeben sich folgende Formeln, die bei diversen Umformungen hilfreich sein k¨ onnen. Man kann sie zudem mit den Ergebnissen des n¨achsten Unterkapitels herleiten.
176
9 Grundlagen der Wahrscheinlichkeitsrechnung
Kovarianz bei Summen und linearen Transformationen COV [X + Y, Z] = COV [X, Z] + COV [Y, Z],
(9.37)
COV [X, Y + Z] = COV [X, Y ] + COV [X, Z],
(9.38)
COV [a + b · X, c + d · Y ] = b · d · COV [X, Y ].
(9.39)
9.7 Weitere Eigenschaften zu Erwartungswert und Varianz Wir wollen ¨ ahnlich wie im Kapitel 5 einige Formeln bereitstellen, die beim Rechnen mit Erwartungswerten und Varianzen hilfreich sein k¨onnen. Die Formeln (5.3) und (5.4), die bei linearen Transformationen Y = a + b · X gelten, kann man in der Wahrscheinlichkeitstheorie gewissermaßen “w¨ortlich“ u ¨bernehmen: μy = a + b · μx ,
(9.40)
σy2 = b2 · σx2 .
(9.41)
Diese Formeln werden bevorzugt in folgender Weise notiert: Lineare Transformation F¨ ur Y = a + b · X gilt: E[a + b · X] = a + b · E[X],
(9.42)
V AR[a + b · X] = b2 · V AR[X]
(9.43)
Um den Erwartungswert einer Summe X + Y zu erhalten, darf man wie in (5.13) und (5.14) einfach die Erwartungswerte der einzelnen Summanden addieren. Bei der Varianz ist diese einfache Rechnung nicht generell m¨oglich. Sie setzt die Unabh¨ angigkeit oder Unkorreliertheit der Summanden voraus: μx+y = μx + μy
(9.44)
2 = σx2 + σy2 + 2 · σx,y σx+y
(9.45)
2 = σx2 + σy2 , σx+y
(9.46)
falls X und Y unabh¨angig oder unkorreliert sind.
Man beachte, dass die Regel (9.46) f¨ ur Varianzen, nicht jedoch f¨ ur Standardabweichungen gilt: σx+y = σx + σy ,
falls X und Y unabh¨ angig oder unkorreliert sind.
9.7 Weitere Eigenschaften zu Erwartungswert und Varianz
177
Die Formel (9.46) ist nur ein Spezialfall von (9.45). Wenn X und Y unabh¨angig sind, so sind sie wegen (9.35) auch unkorreliert. Dann ist der Term σx,y in (9.45) Null. Die Formeln (9.44), (9.45) werden bevorzugt in folgender Weise notiert: Summen von Zufallsvariablen E[X + Y ] = E[X] + E[Y ]
(9.47)
V AR[X + Y ] = V AR[X] + V AR[Y ] + 2 COV [X, Y ]
(9.48)
Den Erwartungswert einer Summe von Zufallsvariablen zu bilden, ist gem¨aß (9.47) vollkommen unproblematisch. Bei einem Produkt allerdings m¨ ussen wir beachten, ob Unabh¨ angigkeit vorliegt. Produkt von Zufallsvariablen E[X · Y ] = E[X] · E[Y ],
falls X und Y unabh¨angig sind.
(9.49)
Eine Herleitung findet der begeisterte Leser auf Seite 386. Beispiel (Produktionszeit). Ein Produktionsprozess gliedert sich in die drei Teile “Bohren“, “Lackieren und Trocknen“ und “Verpacken“. Die entsprechenden Produktionszeiten pro St¨ uck betrachten wir als drei unabh¨ angige Zufallsvariablen X [Min], Y [h] und Z [sec], von denen wir die erwarteten Zeiten und die Standardabweichungen kennen: μx = 20, μy = 2.5, μz = 6,
σx = 3, σy = 0.9, σz = 0.7.
(9.50)
Wir m¨ ochten f¨ ur die Gesamtzeit G [Min] den Erwartungswert μG und die Standardabweichung σG berechnen. Da die Gesamtzeit G = X + 60Y +
1 Z 60
(9.51)
die Summe der einzelnen, auf Minuten umgerechneten Prozesszeiten ist, k¨ onnen wir die oben besprochenen Formeln anwenden: 1 1 Z E[G] = E X + 60Y + Z = E[X] + E[60Y ] + E 60 60 1 1 = E[X] + 60E[Y ] + E[Z] = μx + 60μy + μz 60 60 = 170.1 [Min]. Wegen der Unabh¨ angigkeit der Variablen X, Y, Z sind auch die Variablen 1 Z unabh¨ angig, so dass wir die Summe deren einzelner Varianzen X, 60Y, 60
178
9 Grundlagen der Wahrscheinlichkeitsrechnung
bilden k¨ onnen: 1 V AR[G] = V AR X + 60Y + Z 60 = V AR[X] + V AR[60Y ] + V AR = V AR[X] + 602 V AR[Y ] + = σx2 + 602 σy2 +
1 Z 60
1 V AR[Z] 602
1 2 σ 602 z
= 2925 [Min2 ].
(9.52)
Die Standardabweichung erhalten wir durch Ziehen der Wurzel: √ σG = V AR[G] = 2925 = 54.08 [Min]. Sollte beispielsweise bei einem St¨ uck einmal der Bohrprozess ungew¨ohnlich lange dauern, so kann die Lackierung zwar erst versp¨atet beginnen, die Dauer der Lackierung selbst bleibt jedoch hiervon unber¨ uhrt. Beim Verpacken verh¨ alt es sich a hnlich. Daher d¨ u rfte die Unabh¨ a ngigkeitsan¨ nahme der drei Variablen als realistisch angesehen werden. Wenn wir aber die Variablen X, Y, Z als Endzeitpunkte der Teilprozesse definiert h¨ atten, w¨ aren sie abh¨ angig. Eine beispielsweise versp¨atet fertig gestellte Bohrung beeinflusst den Endtermin der Lackierung und den Endtermin der Verpackung. Beispiel (Unabh¨ angige W¨ urfel). Die Augenzahl X eines Laplace-W¨ urfels besitzt eine Varianz von 1 ((1 − 3.5)2 + (2 − 3.5)2 + . . . + (5 − 3.5)2 + (6 − 3.5)2 ) 6 = 2.91667.
V AR[X] =
Wenn wir zweimal w¨ urfeln, k¨ onnen wir die einzelnen Augenzahlen X1 und ur die Varianz X2 als unabh¨angige Zufallsvariablen betrachten. Daher gilt f¨ der Augensumme S = X1 + X2 : V AR[S] = V AR[X1 + X2 ] = V AR[X1 ] + V AR[X2 ] = 2.91667 + 2.91667 = 5.833.
(9.53)
Entsprechend erhalten wir bei der Summe Sn = X1 + X2 + . . . + Xn von n unabh¨ angigen W¨ urfeln die Varianz V AR[Sn ] = V AR[X1 + . . . + Xn ] = V AR[X1 ] + . . . + V AR[Xn ] = n · 2.91667.
9.7 Weitere Eigenschaften zu Erwartungswert und Varianz
179
Beispiel (Abh¨ angige W¨ urfel). Wenn die Augenzahlen X1 und X2 abh¨angig sind, kann sich die Varianz der Augensumme S = X1 + X2 im Vergleich zu (9.53) vergr¨ oßern oder auch verkleinern, und im Extremfall sogar den Wert Null annehmen. A: Max w¨ urfelt vor einem Spiegel genau einmal. Die Augenzahl auf der Oberseite des W¨ urfels vor dem Spiegel sei X1 und die Augenzahl auf der Oberseite des W¨ urfels im Spiegel sei X2 . Hier nehmen offenbar X1 und X2 immer denselben Wert an. Der Erwartungswert der Summe S = X1 + X2 ist: E[S] = E[X1 + X2 ] = E[X1 ] + E[X2 ] = 3.5 + 3.5 = 7.
(9.54)
Die Varianz berechnen wir mit 1 ( (2 − 7)2 + (4 − 7)2 + . . . + (10 − 7)2 + (12 − 7)2 ) 6 = 11.667. (9.55)
V AR[S] =
Diese Varianz ist gr¨ oßer als die Varianz (9.53). B: Berta w¨ urfelt auf einem Glastisch genau einmal. Die Augenzahl des W¨ urfels sei X1 und die Augenzahl, welche sie von unten, unter dem Glastisch ablesen kann, sei X2 . Auch hier sind X1 und X2 “hochgradig“ abh¨ angig bzw. negativ korreliert, denn bekanntlich erg¨anzen sich bei einem W¨ urfel die gegen¨ uberliegenden Seiten immer in der Summe zu S = X1 + X2 = 7. S ist als “degenerierte“ Zufallsvariable, die mit 100% Wahrscheinlichkeit den Wert 7 annimmt, eine Konstante. Eine Konstante aber besitzt eine Varianz von Null. Dies l¨ asst sich auch im Einklang mit den bisherigen Formeln nachrechnen: E[S] = E[X1 + X2 ] = E[X1 ] + E[X2 ] = 3.5 + 3.5 = 7 1 V AR[S] = ( (7 − 7)2 + (7 − 7)2 + . . . + (7 − 7)2 + (7 − 7)2 ) 6 = 0. (9.56) Diese Varianz ist kleiner als die Varianz (9.53).
10 Spezielle Verteilungen
Die folgenden Verteilungen geben nur einen kleinen Ausschnitt aus einer F¨ ulle von Verteilungen wieder, die man in der Wahrscheinlichkeitsrechnung und Statistik ben¨ otigt. Man kann jedoch schon mit einigen, wenigen Verteilungen die meisten stochastischen Vorg¨ ange, die in der Praxis und in der Theorie von besonderer Bedeutung sind, hinreichend gut modellieren.
10.1 Stichprobe vom Umfang n = 1 In der Deskriptiven Statistik k¨ onnen je nach Grundgesamtheit die mannigfaltigsten Verteilungen h(x) auftreten. Wir wollen an Hand einiger Beispiele folgenden Sachverhalt zeigen: Zu jedem deskriptiven Merkmal X mit der Verteilung h(X = x) kann man eine Zufallsvariable X1 finden, welche die gleiche Wahrscheinlichkeitsverteilung P (X1 = x) besitzt wie X: P (X1 = x) = h(X = x).
(10.1)
Am einfachsten erreicht man dies, indem man aus einer gegebenen Grundgesamtheit mit dem deskriptiven Merkmal X und der Verteilung h(x) auf zuf¨ allige Weise genau n = 1 Objekt ausw¨ ahlt. ¨ ¨ Beispiel (Gewicht). Wir haben einen Sack mit 50 Apfeln. Von diesen Apfeln ¨ ¨ ¨ wiegen 10 Apfel 90 Gramm, 35 Apfel 110 Gramm und 5 Apfel 120 Gramm. Das Merkmal X = Gewicht eines Apfels [g] = deskriptives Merkmal besitzt daher folgende deskriptive Verteilung:
(10.2)
182
10 Spezielle Verteilungen
X[g] h(X = x)
90 0.20
110 0.70
120 0.10
Insbesondere ergeben sich die deskriptiven Kenngr¨oßen: x ¯ = 90 · 0.20 + 110 · 0.70 + 120 · 0.10 = 107 [g],
(10.3)
σ 2 = (90 − 107)2 · 0.20 + (110 − 107)2 · 0.70 + (120 − 107)2 · 0.10 (10.4) = 81 [g 2 ]. In dieser deskriptiven “Welt“ kommt der Begriff “Zufall“ nicht vor, da ¨ wir nur einen statischen, gegebenen Zustand, d.h. einen Sack mit Apfeln beschreiben. Nun wollen wir eine Zufallsvariable X1 konstruieren, deren Wahrscheinlichkeitsverteilung P (X1 = x) dieselben Werte wie h(X = x) besitzt. Dazu f¨ uhren wir ein Zufallsexperiment durch, indem wir blind und zuf¨allig aus dem Sack einen Apfel herausziehen und dessen Gewicht messen: allig gezogenen Apfels [g] X1 = Gewicht des zuf¨ = Zufallsvariable. Da beim Ziehen jeder Apfel die gleiche Chance hat, erhalten wir f¨ ur die Wahrscheinlichkeitsverteilung P (X1 = x) dieselben Werte wie bei h(X = x): X1 [g] P (X1 = x)
90 0.20
110 0.70
120 0.10
Die numerische Gleichheit der Verteilungen f¨ uhrt dazu, dass auch der Erwartungswert und die Varianz von X1 dieselben Werte wie (10.3) und (10.4) aufweisen: μx1 = E[X1 ] = 107 [g],
σ 2 = V AR[X1 ] = 81 [g 2 ].
(10.5)
Im Kapitel 12 wird dieses Beispiel nochmals aufgegriffen und auf Seite 240 illustriert. Dieses Beispiel kann man auf jede Grundgesamtheit bzw. Urliste, die wir in der Praxis vorfinden, analog u ¨bertragen. Insofern ergeben sich unz¨ahlig viele, reale Beispiele f¨ ur Zufallsvariablen mit speziellen Verteilungen. Die Vorgehensweise ist auch auf den bivariaten oder multivariaten Fall u alt man bei zwei Merkmalen X, Y mit der de¨bertragbar. Beispielsweise erh¨ skriptiven, bivariaten Verteilung h(X = x, Y = y) durch einmaliges, zuf¨alliges Ziehen die bivariate Wahrscheinlichkeitsverteilung P (X1 = x, Y1 = y) der entsprechenden Zufallsvariablen X1 , Y1 .
10.1 Stichprobe vom Umfang n = 1
183
Beispiel (Bivariate Verteilung). In einem Tiefk¨ uhlregal eines Supermarktes liegen nur (der Einfachheit halber) 5 Packungen Kirschkuchen. Die Kuchen unterscheiden sich geringf¨ ugig, da bei der Herstellung im Einzelfall unterschiedlich viel Kirschmasse X [g] und Teigmasse Y [g] verbacken worden sind. Die Werte (x, y) der 5 Kuchen sind durch folgende Urliste gegeben: (101, 302),
(101, 298),
(99, 302),
(100, 298),
(101, 298).
Die deskriptive, bivariate Verteilung h(x, y) tabellieren wir in einer Kontingenztafel: X
99
100
101
298
0
0.20
0.40
0.60
302
0.20
0
0.20
0.40
0.20
0.20
0.60
Y
F¨ ur die univariaten Verteilungen zu X und Y berechnen wir x ¯ = 99 · 0.20 + 100 · 0.20 + 101 · 0.60 = 100.4 [g], (99 − 100.4)2 · 0.20 + (100 − 100.4)2 · 0.20 + (101 − 100.4)2 · 0.60 = 0.64 [g2 ]
(10.6)
σx2 =
(10.7)
und y¯ = 298 · 0.60 + 302 · 0.40 = 299.6 [g], σy2 = (298 − 299.6)2 · 0.60 + (302 − 299.6)2 · 0.40 = 3.84 [g2 ]. Die deskriptive Kovarianz von X und Y k¨onnen wir mit der Urliste oder aber auch mit der bivariaten Verteilung h(x, y) berechnen: σx,y
(6.17)
(99 − 100.4)(302 − 299.6) · 0.20 + (100 − 100.4)(298 − 299.6) · 0.20 + (101 − 100.4)(298 − 299.6) · 0.40 + (101 − 100.4)(302 − 299.6) · 0.20 = −0.64. =
Die deskriptive Korrelation betr¨ agt
(10.8)
184
10 Spezielle Verteilungen
ρx,y
(6.24)
=
σx,y −0.64 √ = −0.4082 = √ σ x · σy 0.64 · 3.84
(10.9)
und l¨ asst erkennen, dass Kuchen mit mehr Teig tendenziell weniger Kirschen aufweisen. Soweit die Deskriptive Statistik zu den Kuchen in der K¨ uhltruhe. Nun zur Wahrscheinlichkeitsrechnung: Carsten m¨ ochte einen Kirschkuchen kaufen und w¨ahlt rein zuf¨allig eine der 5 Packungen aus. Dieser Vorgang ist ein Zufallsexperiment, bei dem die Zufallsvariable X1 die Kirschmasse und Y1 die Teigmasse des von ihm gew¨ ahlten Kuchens bezeichnen. Die gemeinsame, bivariate Wahrscheinlichkeitsverteilung P (X1 = x, Y1 = y) des Zufallsvariablen-Paares (X1 , Y1 ) ist die gleiche Verteilung, die wir in der obigen Kontingenztafel tabelliert haben. Folglich ergeben sich auch f¨ ur den Erwartungswert, die Varianz, die Kovarianz und alle weiteren Kenngr¨ oßen dieselben Werte wie im deskriptiven Fall f¨ ur die Variablen (X, Y ). Bei der Kovarianz w¨ urde man formal von der Formel (9.33) Gebrauch machen, die analog zur Rechnung (10.8) ist. Die Berechnung der Korrelation COR[X, Y ] erfolgt gem¨ aß Formel (9.32) die analog zur Rechnung (10.9) ist.
10.2 Normalverteilung Eine normalverteilte Zufallsvariable X ist dadurch charakterisiert, dass sie stetigen Typs ist und ihre Verteilung durch eine ganz spezielle Dichtefunktion f (x) mit folgender Formel beschrieben wird: Dichte der Normalverteilung f (x) = √
1 x−μ 2 1 e− 2 ( σ ) = 2π σ
Gaußsche Glockenkurve
(10.10)
Der Graph dieser Funktion ist in Abbildung 10.1 zu sehen. Aus Gr¨ unden der Bequemlichkeit werden wir in Zukunft f¨ ur die Sprechweise “eine Zufallsvariable X ist normalverteilt mit dem Erwartungswert μ und der Varianz σ 2“ von folgender Kurzschreibweise Gebrauch machen: X ∼ N (μ ; σ 2 ). Die Tatsache, dass normalverteilte Zufallsvariablen in der Wahrscheinlichkeitstheorie eine herausragende Rolle spielen, ist im Wesentlichen auf folgende zwei Punkte zur¨ uckzuf¨ uhren: • In der Praxis kann man h¨ aufig Verteilungen beobachten, die einen glockenf¨ ormigen Verlauf aufweisen und der Gaußschen Glockenkurve (10.10),
10.2 Normalverteilung
185
Die Dichte der Normalverteilung heißt “Gaußsche Glockenkurve“ f ( x)
1 2
e
P(abXbb) = F(b) - F(a)
x 2 2
2
Wendepunkt
Wendepunkt
x
m-s m m+s
Abbildung 10.1. Die Gaußsche Glockenkurve f (x) ist f¨ ur alle Werte x positiv und schwebt daher u ¨ber der gesamten x-Achse.
a
X
b
Abbildung 10.2. Wahrscheinlichkeiten entsprechen Fl¨ achen.
Die Form der Gaußschen Glocke wird von μ und σ beeinflusst. 0.06 0.05
0.12
m = 60
m = 30
s=3
0.1
0.04
0.08
0.03
0.06
0.02
0.04
0.01
s = 12
0.02
30
60
X
Abbildung 10.3. Verschiedene μ, beidemal σ = 6.
-10
20
50
X
Abbildung 10.4. Beidemal μ = 20, verschiedene σ.
Bei allen Gaußschen Glockenkurven betr¨ agt die Gesamtfl¨ ache 1.
dargestellt in Abbildung 10.1, sehr ¨ ahnlich sind. Insofern ist es sinnvoll, auch in der Wahrscheinlichkeitstheorie Zufallsvariablen zu betrachten, deren Verteilungen ebenfalls einen glockenf¨ ormigen Verlauf besitzen. • Sowohl in den Anwendungen, als auch bei den Verfahren der Induktiven Statistik treten oft Summen von Zufallsvariablen auf. Man kann zeigen, dass eine Summe vieler unabh¨ angiger Zufallsvariablen eine Verteilung aufweist, die sich approximativ mit der Gaußschen Glockenkurve beschreiben l¨ asst. Dies ist ein Resultat, das sich mathematisch beweisen l¨asst und als sogenannter “Zentraler Grenzwertsatz“ bekannt ist, auf den wir im n¨achsten Kapitel n¨ aher eingehen werden. Er erkl¨art auch, warum man nicht irgendeine glockenf¨ ormige Dichtefunktion, sondern speziell die sogenannte Gaußsche Glockenkurve mit der auf den ersten Blick eher uneinsichtigen, komplizierten Formel (10.10) benutzt. Die Bezeichnung “Normalverteilung“ ist im Grunde ungl¨ ucklich gew¨ahlt. Normalverteilungen sind zwar sehr oft, aber nicht immer oder “normaler Weise“ anzutreffen. Insbesondere ist bei asymmetrischen Verteilungen eine Gauß-
186
10 Spezielle Verteilungen
Glocke unzutreffend. Wegen des zentralen Grenzwertsatzes ist aber die Normalverteilung eine der wichtigsten oder sogar die wichtigste Verteilung in der Statistik. Wir listen einige Eigenschaften auf: 1. Wie bei allen stetigen Zufallsvariablen ergibt die Gesamtfl¨ache unterhalb der Dichtefunktion f (x) den Wert 1. Dies zu u ufen, setzt allerdings ¨berpr¨ tiefere Kenntnisse der Integralrechnung voraus. Es gilt: ∞ 1 x−μ 2 1 √ e− 2 ( σ ) dx = . . . (Integralrechnung) . . . = 1. Gesamtfl¨ ache = 2π σ −∞ 2. Die Parameter μ und σ, welche in die Dichtefunktion (10.10) eingehen, entsprechen dem Erwartungswert und der Standardabweichung von X. Dies kann man ebenfalls mit Hilfe der Integralrechnung gem¨aß (9.15), (9.16) nach “l¨ angeren Rechnungen“ best¨ atigen: ∞ 1 x−μ 2 1 e− 2 ( σ ) dx x· √ = . . . = μ, E[X] = 2π σ −∞ ∞ 1 x−μ 2 1 e− 2 ( σ ) dx = . . . = σ 2 . (x − μ)2 · √ V AR[X] = 2π σ −∞ 3. An der Stelle μ besitzt die Dichte f (x) ihr Maximum. Ferner ist die Gaußsche-Glocke f (x) symmetrisch bez¨ uglich μ. Daher sind bei einer normalverteilten Zufallsvariablen X der Modus und der Median mit dem Erwartungswert μ identisch. 4. Die Dichte f (x) besitzt zwei Wendepunkte. Diese liegen eine Standardabweichung σ von μ entfernt, d.h. an den Stellen μ − σ und μ + σ. Die Abbildungen 10.3 und 10.4 zeigen, dass die Parameter μ und σ wie Stellschrauben wirken, mit denen man die Form der Gaußschen-Glockenkurve ver¨ andern kann. Der Lageparameter μ verschiebt die Glocke und das Streuungsmaß σ streckt oder staucht die Glocke. Berechnung von Wahrscheinlichkeiten Wie bei allen stetigen Zufallsvariablen stellt man auch bei einer normalverteilten Zufallsvariablen X Wahrscheinlichkeiten durch entsprechende Fl¨achen unterhalb der Dichtefunktion f (x) dar. Eine Fl¨ache, wie in Abbildung 10.2, kann man formal als Integral notieren: b 1 x−μ 2 1 √ e− 2 ( σ ) dx. (10.11) P (a ≤ X ≤ b) = 2π σ a Kurioser Weise l¨ asst sich aber dieses Integral prinzipiell nicht mit den u ¨blichen Methoden1 “l¨ osen“. Daher ist es auch unm¨oglich, eine exakte “Formel“ 1
Es gibt zur Gaußschen Glockenkurve keine Stammfunktion, die man mit den u ¨blichen Termen durch Addition, Multiplikation, Potenzen, Wurzeln etc. notieren k¨ onnte.
10.2 Normalverteilung
187
f¨ ur derartige Fl¨ achen bzw. Integrale anzugeben. Stattdessen kann man jedoch N¨ aherungsverfahren einsetzen, die f¨ ur praktische Zwecke hinreichend gute L¨ osungen liefern. Dies geschieht mit Hilfe von Computerprogrammen oder Tabellen. Wegen der f¨ ur stetige Variablen X generell g¨ ultigen Beziehung P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a) gen¨ ugt es, zur Bestimmung der Wahrscheinlichkeit (10.11) die kumulierte Verteilung F (x) zu tabellieren. Es w¨ are bequem, wenn wir f¨ ur jede denkbare Parameterkonstellation bez¨ uglich μ und σ eine eigene Tabelle benutzen k¨onnten. Dazu br¨ auchten wir aber unz¨ ahlig viele Tabellen. Stattdessen wenden wir eine Art “Trick“ an, indem wir die kumulierte Verteilung von nur einer einzigen, sehr speziellen Gaußschen Glockenkurve tabellieren und f¨ ur den Fall allgemeiner Gaußschen Glockenkurven diese Tabellenwerte mit Hilfe einer Formel umrechnen. Die spezielle Normalverteilung nennt man auch Standardnormalverteilung und ist durch die Parameter μ = 0 und σ = 1 festgelegt. Bei einer standardnormalverteilten Zufallsvariablen Z ∼ N (0, 1) ist es u ur die kumulierte ¨blich, f¨ Verteilung ein eigenes Symbol zu gebrauchen: Φ(z) = P (Z ≤ z) = kumulierte Standardnormalverteilung z −t2 1 √ e 2 dt = (10.12) = F(z) 2π −∞ 0 z Im Anhang findet man eine Tabelle mit den Werten von Φ(z). Um schließlich die kumulierte Verteilung F (x) = P (X ≤ x) einer allgemeinen, nicht standardisierten normalverteilten Zufallsvariablen X ∼ N (μ ; σ 2 ) zu berechnen, kann man folgende Formel benutzen: Kumulierte Verteilung einer normalverteilten Zufallsvariablen Bei einer normalverteilten Zufallsvariablen X ∼ N (μ ; σ 2 ) kann man die kumulierte Verteilung F (x) mit Hilfe der Standardnormalverteilung berechnen: x−μ . (10.13) F (x) = P (X ≤ x) = Φ σ Da generell bei stetigen Zufallsvariablen die Wahrscheinlichkeit P (X = x) = 0 ist, gilt diese Formel auch f¨ ur den Fall P (X < x). Die Idee, welche der Formel zu Grunde liegt, ist in Abbildung 10.5 veranschaulicht. Zudem geben wir auf Seite 386 noch einen formalen Beweis. Beispiel (Bierabsatz). Theo betreibt die Bierkneipe “Zum lahmen Durst“. Der morgige Tagesabsatz an Bier sei eine normalverteilte Zufallsvariable X [l/Tag] mit X ∼ N (350, 6400).
188
10 Spezielle Verteilungen Veranschaulichung der Formel (10.13)
Dichte der StandardNormalverteilung
m-s
m
Z=
-m z = xs
0
m+s
X-m s
X x
Abbildung 10.5. Statt die Form der Gaußschen Glocke wie in den Abbildungen 10.3 und 10.4 zu ver¨ andern, kann man sie auch belassen und die Achse umbewirkt, dass auf der x-Achse skalieren. Die lineare Transformation Z = X−μ σ = 0 auf der z-Achse beispielsweise der Punkt x = μ mit dem Punkt z = μ−μ σ korrespondiert. Ebenso entspricht der Punkt x = μ+σ dem Punkt z = (μ+σ)−μ = σ 1. Folglich ist die Fl¨ ache links von der Stelle x mit der Fl¨ ache links von z = x−μ σ identisch.
a) Wir berechnen die Wahrscheinlichkeit, dass der Absatz mindestens 450 Liter u ¨bersteigt: P (X ≥ 450) =
1−
= 450
= 1 − P (X < 450)
(10.13)
=
1−Φ
450
450 − 350 √ 6400
= 1 − Φ (1.25) = 1 − 0.8944 = 10.56%. Φ (1.25) = 0.8944 haben wir der Tabelle im Anhang entnommen. b) Die Wahrscheinlichkeit, dass der Bierabsatz zwischen 230 und 330 Litern liegen wird, betr¨ agt: P (230 ≤ X ≤ 330) = 230 330
−
= 330
= 230
10.2 Normalverteilung
189
= P (X ≤ 330) − P (X < 230) 230 − 350 330 − 350 √ √ −Φ =Φ 6400 6400 = Φ (−0.25) − Φ (−1.50) = 0.4013 − 0.0668 = 33.45%. c) Welche Menge muss Theo vorr¨ atig halten, damit das Bier mit 95% Wahrscheinlichkeit morgen ausreicht? Wir bezeichnen die gesuchte Menge mit x. Dann sollte der morgige Absatz mit 95% Wahrscheinlichkeit maximal den vorr¨atigen Wert x erreichen, d.h. P (X ≤ x) = 0.95 gelten. Im Vergleich zu den beiden anderen Aufgaben m¨ ussen wir nun “r¨ uckw¨arts“ rechnen. Die Wahrscheinlichkeit ist bereits gegeben und der entsprechende Wert x ist zu “rekonstruieren“. Insofern entspricht x dem 95%-Quantil des Bierabsatzes. Nutzen wir Formel (10.13), erhalten wir x − 350 = 0.95. (10.14) P (X ≤ x) = 0.95 ⇔ Φ √ 6400 √ mit Da gem¨ aß Tabelle Φ (1.645) = 0.95 gilt, muss der Ausdruck x−350 6400 dem 95%-Quantil der Standardnormalverteilung 1.645 u ¨bereinstimmen:
x − 350 √ = 1.645. 6400 Die Aufl¨ osung nach x ergibt: [Liter/Tag].
x = 350 + 1.645 ·
(10.15) √ 6400 = 481.6
In den Anwendungen und in der Theorie werden h¨aufig Summen von normalverteilten Zufallsvariablen betrachtet. F¨ ur die Verteilung derartiger Summen gilt ein einfacher und n¨ utzlicher Sachverhalt: Additionseigenschaft Werden zwei Zufallsvariablen X, Y addiert, die beide normalverteilt sind, X ∼ N (μx ; σx2 ) Y ∼ N (μy ; σy2 ) , dann ist die Summe S =X +Y
(10.16)
ebenfalls normalverteilt. Sind zudem die Summanden X, Y unabh¨angig, gilt wegen (9.47) und (9.46): S ∼ N (μx + μy ; σx2 + σy2 ).
(10.17)
190
10 Spezielle Verteilungen
Diese Additionseigenschaft wird auch als Reproduktionseigenschaft bezeichnet und l¨ asst sich nur mit “h¨ oheren“ mathematischen Methoden beweisen. Es gibt aber auch Verteilungen, welche diese Eigenschaft nicht besitzen. Beispielsweise ist die Summe zweier gleichverteilter W¨ urfel nicht wieder gleichverteilt, sondern weist einen dreieckigen Verlauf auf (s.S. 174). Daher “reproduziert“ sich die Gleichverteilung nicht. Beispiel (Projektdauer). Wendelin ist Bauunternehmer und m¨ochte seinen Kunden f¨ ur die Projektdauer zur Erstellung eines Hauses einen maximalen Zeitraum mit einer Sicherheit von 99% garantieren k¨onnen. Er unterstellt, dass die Zeit X [Tage] f¨ ur Planung und Genehmigung eines Hauses, die Zeit Y [Tage] zur Erstellung des Rohbaus und die Zeit Z [Tage] f¨ ur den Innenausbau normalverteilte Zufallsvariablen sind. Er kennt zudem die Parameter der Variablen: X ∼ N (200, 402 ),
Y ∼ N (140, 202 ),
Z ∼ N (180, 302 ).
Wendelin geht davon aus, dass die drei Zeiten X, Y , Z unabh¨angig sind, da beispielsweise Probleme beim Baggern das Verlegen von Fliesen nicht beeinflussen. Man beachte hierbei, dass die Variablen X, Y , Z nicht Starttermine, sondern Prozesszeiten darstellen! Daher gilt f¨ ur die Gesamtprozesszeit T = X + Y + Z [T age], (10.18) die wegen (9.47) einen Erwartungswert von E[T ] = E[X + Y + Z] = E[X] + E[Y ] + E[Z] = 200 + 140 + 180 = 520 [T age] und wegen (9.46) eine Varianz von V AR[T ] = V AR[X + Y + Z] = V AR[X] + V AR[Y ] + V AR[Z] = 402 + 202 + 302 = 2900 [T age2 ] aufweist. Da die Summanden von T alle normalverteilt sind, ist gem¨aß der Additionseigenschaft (10.17) auch T normalverteilt: T ∼ N (520, 2900).
(10.19)
Die gesuchte Zeitdauer t, welche mit 99% Wahrscheinlichkeit nicht u ¨berschritten wird, entspricht dem 99%-Quantil der Gesamtdauer T . Daher muss gelten: P (T ≤ t) = 0.99. Nutzen wir Formel (10.13), erhalten wir t − 520 = 0.99. (10.20) P (T ≤ t) = 0.99 ⇔ Φ √ 2900 Da gem¨ aß Tabelle Φ (2.326) = 0.99 gilt, folgt:
10.3 Binomialverteilung und Bernoullikette
t − 520 √ = 2.326. 2900 Die Aufl¨ osung nach t ergibt: t = 520 + 2.326 ·
√ 2900 = 645.3 [T age].
191
(10.21)
(10.22)
Wendelin kann also davon ausgehen, dass ein Hausbauprojekt mit nur 1% Wahrscheinlichkeit l¨ anger als 645.3 Tage dauern wird.
10.3 Binomialverteilung und Bernoullikette In der Praxis lassen sich viele Vorg¨ ange als Zufallsexperimente betrachten, bei denen nur zwei Ergebnisse im Sinne von Treffer und Nicht-Treffer m¨oglich sind. Beispielsweise brennt eine Gl¨ uhbirne oder sie brennt nicht, ein Kunde zahlt fristgerecht oder nicht, ein Sitzplatz im Flugzeug wird besetzt oder nicht, ein W¨ urfel zeigt eine Eins oder nicht, etc. In der Wahrscheinlichkeitstheorie nennt man solche Experimente auch Bernoulli-Experimente. Sie k¨onnen mit einer Zufallsvariablen beschrieben werden, bei der nur zwei Auspr¨agungen bzw. Realisationen m¨ oglich sind. Es wird sich als vorteilhaft erweisen, wenn wir diese zwei Werte mit 1 und 0 kodieren, wobei die 1 f¨ ur einen “Treffer“ und die 0 f¨ ur einen “Nicht-Treffer“ stehen. Eine solche Variable X wird auch als Indikatorvariable oder Bernoulli-Variable bezeichnet. 1 falls Treffer, (10.23) X= 0 falls kein Treffer. Dabei sei p = P (X = 1) = Trefferwahrscheinlichkeit.
(10.24)
In der Regel kommen in den Anwendungen nicht nur ein einzelnes BernoulliExperiment, sondern mehrere, n Bernoulli-Experimente vor. Die dabei auftretende Gesamtzahl aller Treffer ist eine Zufallsvariable, die wir mit Y bezeichnen: Y = Gesamtzahl der Treffer bei n Bernoulli-Experimenten.
(10.25)
Die Variable Y ist diskreten Typs und kann nur die Werte 0, 1, . . . , n annehmen. Im Grunde ist bei den Indikatorvariablen Xi die Kodierung von Treffer und Nicht-Treffer mit 1 und 0 willk¨ urlich. Sie hat jedoch den Vorteil, dass wir die Gesamtzahl aller Treffer Y als Summe der Indikatorvariablen darstellen k¨ onnen: Y = X1 + X2 + . . . + Xn .
(10.26)
Jeder Treffer erh¨ oht die Summe um genau 1, jeder Nicht-Treffer “0“ l¨asst die Summe unver¨ andert.
192
10 Spezielle Verteilungen
Beispiel (Garantief¨ alle). Ein H¨ andler verkauft n = 7 Computer, von denen Y Ger¨ ate innerhalb der Garantiezeit defekt werden und zur¨ uckgenommen werden m¨ ussen. Wenn wir f¨ ur jedes der 7 Ger¨ate eine eigene Variable Xi , i = 1, 2, 3, 4, 5, 6, 7, benutzen, die jeweils im Garantiefall den Wert 1 und sonst den Wert 0 annimmt, gilt f¨ ur die Anzahl aller Garantief¨alle Y : Y = X 1 + X2 + X3 + X4 + X5 + X6 + X7 . Y ist eine diskrete Zufallsvariable, die nur die Werte 0, 1, . . . , 7 annehmen kann. In diesem, wie auch bei vielen anderen Beispielen, kann man es durchaus f¨ ur realistisch halten, dass jede der n Variablen Xi die gleiche Trefferchance besitzt und zudem die Variablen unabh¨ angig sind. Um derartige Situationen kurz und b¨ undig beschreiben zu k¨ onnen, gebraucht man den Begriff “Bernoullikette“. Eine Bernoullikette X1 , X2 , . . . , Xn der L¨ange n liegt vor, wenn • die Indikatorvariablen Xi unabh¨ angig sind, • bei jedem Experiment i die gleiche Trefferchance p vorliegt. Die Zufallsvariable “Y = Gesamtzahl der Treffer“ besitzt bei einer Bernoullikette eine spezielle Verteilung, die man Binomialverteilung nennt. F¨ ur die Sprechweise “die Zufallsvariable Y ist binomialverteilt“ werden wir der Bequemlichkeit halber von der Kurzschreibweise Y ∼ Bi(n, p)
(10.27)
Gebrauch machen. Beispiel (Fortsetzung). Sollten die Computer an unterschiedliche Nutzer und Orte verkauft worden sein, d¨ urfte sich ein Ausfall eines Ger¨ates unabh¨ angig von den anderen Ger¨ aten ereignen. Zudem d¨ urfte bei baugleichen Ger¨ aten und vergleichbaren Einsatzbedingungen die Ausfallwahrscheinlichkeit bei jedem Ger¨ at gleich hoch sein. Insofern kann man die Variablen X1 , X2 , X3 , X4 , X5 , X6 , X7 als Bernoullikette auffassen. Die Gesamtzahl der Treffer bzw. defekten Computer Y ist dann binomialverteilt, bzw. Y ∼ Bi(7, p). (10.28) Dass wir den numerischen Wert von p nicht kennen, ist hierbei unerheblich. Selbstverst¨ andlich gibt es auch Anwendungen, bei denen zwar n einzelne Bernoulli-Experimente auftreten, jedoch Abh¨ angigkeiten unter den Versuchsergebnissen bestehen, oder aber nicht jedes Experiment die gleiche Trefferwahrscheinlichkeit p besitzt. In einem solchen Fall liegt keine Bernoulli-Kette
10.3 Binomialverteilung und Bernoullikette
193
vor, und die Gesamtzahl der Treffer Y ist nicht binomialverteilt. Insofern muss der Anwender bei einer konkreten Problemstellung sorgf¨altig pr¨ ufen, ob beide Voraussetzungen einer Bernoulli-Kette zutreffend sind. Beispiel (Keine Bernoullikette). Gerti beobachtet an einem Tag i in M¨ unchen, ob es Frost gibt. Dies entspricht einem Bernoulli-Experiment mit der Indikatorvariable Xi , die den Wert 1 annimmt, falls es Frost gibt. Gerti erh¨ alt auf diese Weise f¨ ur die n¨ achsten 365 Tage 365 Zufallsvariaur sich betrachtet Bernoullivariablen blen X1 , X2 , . . . , X365 , die zwar jede f¨ sind, insgesamt aber keine Bernoulli-Kette bilden, da sogar beide definierenden Eigenschaften verletzt sind: - Die Trefferchance pi ist im Sommer fast Null, wohingegen sie im Winter deutlich u ¨ber Null liegt. Dies zeigt, dass die Variablen Xi keine identische Verteilung bzw. Trefferchancen pi besitzen. - Die Wahrscheinlichkeit f¨ ur Frost ist erh¨oht, wenn bereits am Vortag Frost vorlag. Dies zeigt, dass die Variablen Xi abh¨angig sind. Die Gesamtzahl Y aller Frosttage f¨ ur die n¨ achsten 365 Tage ist somit nicht binomialverteilt. Liegt eine Bernoullikette vor, haben wir f¨ ur die Verteilung von Y zwar schon den Namen “Binomialverteilung“ vergeben, jedoch kennen wir noch keine explizite Formel, um sie zu berechnen. Bevor wir dieses Problem angehen, wollen wir den Erwartungswert μ = E[Y ] und die Varianz σ 2 = V AR[Y ] bestimmen. Mit der Darstellung Y = X1 + X2 + . . . + Xn sind diese wegen (9.47) und (9.46) relativ einfach zu berechnen, ohne dass eine Formel f¨ ur die Verteilung von Y explizit benutzt wird: E[Y ] = E[X1 + X2 + . . . + Xn ] = E[X1 ] + E[X2 ] + . . . + E[Xn ] = n · E[Xi ] = n · (1 · p + 0 · (1 − p)) = np. (10.29) Wegen der Unabh¨ angigkeit der Xi k¨ onnen wir bei der Varianz a¨hnlich vorgehen: V AR[Y ] = V AR[X1 + X2 + . . . + Xn ] = V AR[X1 ] + V AR[X2 ] + . . . + V AR[Xn ] = n · V AR[Xi ] = n · ((1 − p)2 · p + (0 − p)2 · (1 − p)) = np(1 − p).
(10.30)
Nun wollen wir, wie angek¨ undigt, eine Formel f¨ ur die Binomialverteilung herleiten. Dazu betrachten wir folgendes Beispiel: Beispiel (5 W¨ urfel). Ein W¨ urfel soll n = 5 mal geworfen werden. Die Augenzahl 1 sei als Treffer bezeichnet. Da jeder Wurf die gleiche Chance von
194
10 Spezielle Verteilungen
p = 1/6 = 0.16667 besitzt und zudem die Ergebnisse der einzelnen W¨ urfe unabh¨ angig auftreten, liegt eine Bernoulli-Kette der L¨ange 5 vor. Folglich k¨ onnen wir ebenso 5 unabh¨ angige Indikatorvariablen X1 , X2 , X3 , X4 , X5 betrachten, die eine Trefferchance von jeweils p = 0.16667 besitzen. Die Anzahl der Treffer Y in der Bernoulli-Kette entspricht der Anzahl der Einsen und ist binomialverteilt, kurz Y ∼ Bi(5, 0.16667). Wir wollen exemplarisch die Chance berechnen, genau k = 2 Treffer zu erzielen. Dazu notieren wir alle m¨ oglichen Bernoulli-Ketten, die zu diesem Ergebnis Y = 2 f¨ uhren. Wegen der Additionsregel (9.4) k¨onnen wir die Wahrscheinlichkeiten jeder dieser einzelnen Ketten addieren: P (Y = 2) = P (genau 2 der 5 W¨urfe sind Treffer) =
P (X1 = 1, X2 = 1, + P (X1 = 1, X2 = 0, + P (X1 = 1, X2 = 0, + P (X1 = 1, X2 = 0, + P (X1 = 0, + P (X1 = 0, + P (X1 = 0, + P (X1 = 0,
X3 = 0, X4 = 0, X5 = 0) X3 = 1, X4 = 0, X5 = 0) X3 = 0, X4 = 1, X5 = 0)
X3 = 0, X4 = 0, X5 = 1) X2 = 1, X3 = 1, X4 = 0, X5 = 0) X2 = 1, X3 = 0, X4 = 1, X5 = 0) X2 = 1, X3 = 0, X4 = 0, X5 = 1)
X2 = 0, X3 = 1, X4 = 1, X5 = 0) + P (X1 = 0, X2 = 0, X3 = 1, X4 = 0, X5 = 1) + P (X1 = 0, X2 = 0, X3 = 0, X4 = 1, X5 = 1). Wegen der Unabh¨ angigkeit der einzelnen Variablen Xi kann man die gemeinsame Verteilung auch als Produkt schreiben und erh¨alt dann: =
P (X1 = 1) · P (X2 = 1) · P (X3 = 0) · P (X4 = 0) · P (X5 = 0) + P (X1 = 1) · P (X2 = 0) · P (X3 = 1) · P (X4 = 0) · P (X5 = 0) + ... + P (X1 = 0) · P (X2 = 0) · P (X3 = 0) · P (X4 = 1) · P (X5 = 1)
=
p · p · (1 − p) · (1 − p) · (1 − p) + p · (1 − p) · p · (1 − p) · (1 − p) + ... + (1 − p) · (1 − p) · (1 − p) · p · p.
Die einzelnen Summanden sind alle gleich. Die Anzahl der Summanden ist 10 und entspricht den M¨ oglichkeiten, von 5 Positionen genau 2 zu markieren. F¨ ur dieses Problem gibt es in der Kombinatorik eine bekannte Formel, n¨ amlich den Binomialkoeffizienten, der auch im Anhang (D.3) zu finden ist. Daher gilt weiter:
10.3 Binomialverteilung und Bernoullikette
195
= (M¨oglichkeiten 2 von 5 Positionen zu markieren) · p2 · (1 − p)3 5 2 p (1 − p)3 . = (10.31) 2 Speziell f¨ ur den W¨ urfel ergibt sich: 5 0.166672 · 0.833333 = = 2
5! 0.166672 · 0.833333 2! · 3!
= 16.075%. Betrachten wir nochmals Formel (10.31), so erkennen wir, wie man von diesem speziellen Beispiel auf den allgemeinen Fall schließen kann, indem wir dort n = 5, k = 2, n − k = 3 identifizieren. Allgemein erhalten wir daher: Binomialverteilung Sei Y binomialverteilt mit Y ∼ Bi(n, p), dann gilt: n k p (1 − p)n−k = Wahrscheinlichkeit genau P (Y = k) = k k Treffer zu erzielen, E[Y ] = np, V AR[Y ] = np(1 − p).
(10.32) (10.33) (10.34)
Der Binomialkoeffizient nk ist mit Formel (D.3) im Anhang definiert. Neben der exakten Formel (10.32) verwendet man bei “langen“ Bernoulliketten die Approximation (11.12) f¨ ur die Binomialverteilung. Diese besprechen wir im Kapitel 11.2.
Binomialverteilungen Y ~ Bi(7, 0.85)
0.5
Y ~ Bi(80, 0.25)
0.14 0.12
0.4
0.1 0
0.3
0.08
0.2
0.06 0.04
0.1 0
1
2
3
4
5
6
7
Y=Anzahl anwesender Kunden
Abbildung 10.6. Beispiel “Termine“, Verteilung der angetroffenen Kunden bei 7 Terminen.
0.02
20
40
60
80
Y=Anzahl Vasen
Abbildung 10.7. Beispiel “Porzellanvasen“, Verteilung der zerbrochenen Vasen bei 80 Sendungen.
196
10 Spezielle Verteilungen
Beispiel (Termine). Staubsaugervertreter Sepp hat mit 7 Kunden einen Termin vereinbart. Leider kommt es manchmal vor, dass ein Kunde nicht wie vereinbart zu Hause anzutreffen ist. Erfahrungsgem¨aß halten die Kunden zu 85% die Termine ein, wobei deren Termintreue unabh¨angig ist. Da die Besuche als Bernoulli-Kette aufgefasst werden k¨onnen, ist die Variable “Y = Anzahl der angetroffenen Kunden“ binomialverteilt, kurz Y ∼ Bi(7, 0.85). Es gilt: E[Y ] = np = 5.95, P (Y
P (Y
P (Y
P (Y
V AR[Y ] = np(1 − p) = 0.8925,
7 = 0) = 0.850 0 7 0.851 = 1) = 1 7 0.852 = 2) = 2 7 0.853 = 3) = 3
0.157 = 0.00000171, 0.156 = 0.00006777, 0.155 = 0.00115216, 0.154 = 0.0108815,
7 0.854 4 7 0.855 P (Y = 5) = 5 7 0.856 P (Y = 6) = 6 7 0.857 P (Y = 7) = 7
P (Y = 4) =
0.153 = 0.061662, 0.152 = 0.209651, 0.151 = 0.396007, 0.150 = 0.320577.
Die Verteilung von Y ist in Abbildung 10.6 dargestellt.
Beispiel (Chinesische Porzellanvasen). Ping lebt in Peking und schickt jede Woche per Post seinem Freund Anton eine Porzellanvase nach Kleinrinderfeld. Im Schnitt kommt 1 von 4 Vasen zerbrochen an. Ping m¨ ochte die Wahrscheinlichkeitsverteilung der zerbrochenen Vasen innerhalb der n¨ achsten 80 Wochen berechnen. Die 80 Postsendungen bilden eine Bernoulli-Kette, wenn wir zudem noch annehmen, dass die Vasen unabh¨ angig voneinander zerbrechen. Die Variable “Y = Anzahl der zerbrochenen Vasen“ ist gem¨aß Y ∼ Bi(80, 0.25) binomialverteilt. Anton kann E[Y ] = np = 20 zerbrochene Vasen erwarten. Die Wahrscheinlichkeit, beispielsweise genau diesen erwarteten Wert, 20 zerbrochene Vasen vorzufinden, betr¨agt:
10.4 Hypergeometrische Verteilung
197
80 0.2520 0.7560 = 0.102543. P (Y = 20) = 20 Die komplette Verteilung von Y ist in Abbildung 10.7 dargestellt. Sie zeigt einen glockenf¨ ormigen Verlauf auf, wobei eine leichte Asymmetrie besteht. Beispielsweise ist P (Y = 19) = 0.100862 und P (Y = 21) = 0.0976596. Ferner betr¨ agt die Varianz V AR[Y ] = np(1 − p) = 15.
10.4 Hypergeometrische Verteilung Beim ersten Lesen kann man mit Kapitel 11 fortfahren. ¨ Ahnlich wie im letzten Kapitel betrachten wir eine Folge von n BernoulliExperimenten bzw. Bernoulli-Variablen X1 , X2 , . . . , Xn , wobei diesmal zwischen den Variablen Xi eine ganz spezielle Abh¨angigkeit besteht, die wir mit einem sogenannten Urnenmodell beschreiben. Insofern liegt keine BernoulliKette in dem auf Seite 192 definierten Sinn vor. Das Urnenmodell ist recht einfach und bildet viele Situationen realit¨ atsnah ab. Urnenmodell In einer Urne liegen N Kugeln, von denen M Kugeln schwarz und die restlichen N − M Kugeln weiß sind. Von den N Kugeln werden nacheinander insgesamt n Kugeln zuf¨ allig herausgegriffen und beiseite gelegt. Jede Ziehung entspricht einem Bernoulli-Experiment, wobei das Ziehen einer schwarzen Kugel mit einem “Treffer“ gleichgesetzt wird. Die entsprechenden Bernoulli-Variablen Xi sind abh¨angig. Beispielsweise betr¨ agt bei der ersten Ziehung die Trefferchance P (X1 = 1) = M N , wohingegen die Trefferchance bei der zweiten Variablen X2 von dem Ergebnis der ersten Variablen abh¨ angt: P (X2 = 1| X1 = 0) =
M N −1
und
P (X2 = 1| X1 = 1) =
M −1 . N −1
Wir interessieren uns f¨ ur die Verteilung der Zufallsvariable Y = Trefferanzahl bei n Versuchen = Anzahl der gezogenen schwarzen Kugeln n Xi . =
(10.35)
i=1
Eine allgemeine Formel f¨ ur die Verteilung von Y kann man aufgrund kom¨ binatorischer Uberlegungen ermitteln, die wir gleich anhand eines Beispiels erl¨ autern werden. Es ist u ¨blich, diese spezielle Verteilung von Y als hypergeometrische Verteilung zu bezeichnen und f¨ ur die Sprechweise “die Zufallsvariable Y ist hypergeometrisch verteilt“ der Bequemlichkeit halber
198
10 Spezielle Verteilungen
Y ∼ H(N, M, n)
(10.36)
zu schreiben. Beispiel (Krapfen). Edgar isst leidenschaftlich gerne Krapfen, die mit Kirschmarmelade gef¨ ullt sind. Seine Mutter hat insgesamt N = 7 Krapfen gebacken, von denen aber nur M = 3 mit Kirschmarmelade gef¨ ullt worden sind. Sie hat sich aber nicht gemerkt, welche Krapfen mit welcher Sorte Marmelade gef¨ ullt wurden. Ebenso kann Edgar aufgrund ¨außerlicher Untersuchungen nicht erkennen, welche F¨ ullung ein Krapfen besitzt. Von den insgesamt 7 Krapfen darf sich Edgar n = 4 Krapfen nehmen. Bevor er sich mit ihnen den Bauch f¨ ullt, versucht er mit noch (!) klaren Sinnen die jeweiligen Chancen zu berechnen, genau 0, 1,2 oder 3 KirschmarmeladeKrapfen zu bekommen. Dazu notiert er sich jedes denkbare Ziehungsergebnis, wenn er n = 4 Kugeln von insgesamt N = 7 Kugeln zieht, von denen M = 3 schwarz sind. Im Grunde ist es egal in welcher Reihenfolge er alle M¨oglichkeiten notiert. ¨ Zur besseren Ubersicht aber gruppiert er, wie in Tabelle 10.1 zu sehen ist, alle Ziehungsergebnisse bez¨ uglich der Trefferanzahl Y . Wenn Edgar keine unerw¨ ahnten Tricks anwendet, m¨ usste jede der insgesamt 35 m¨ oglichen Ziehungsergebnissen gleichwahrscheinlich sein und da1 besitzen. Die Verteilung von Y erh¨alt her eine Wahrscheinlichkeit von 35 er dann durch Abz¨ ahlen: Anzahl der Ziehungsergebnisse mit genau k schwarzen Kugeln P (Y = k) = . Anzahl aller Ziehungsergebnisse
(10.37)
Im Einzelnen sind dies gem¨ aß Tabelle 10.1 die Wahrscheinlichkeiten 1 , 35 18 , P (Y = 2) = 35 P (Y = 0) =
12 , 35 4 P (Y = 3) = . 35 P (Y = 1) =
Die Auflistung aller Ziehungsergebnisse kann bei gr¨oßerem N schnell m¨ uhselig und ausufernd werden. Daher u ¨berlegt sich Edgar noch, wie sich diese Zahlen kombinatorisch berechnen lassen. Die 35 verschiedenen Ziehungsergebnisse erh¨alt man, wenn alle M¨oglichkeiten ber¨ ucksichtigt werden, von 7 Kugeln jeweils genau 4 zu markieren. Die L¨ osung f¨ ur dieses kombinatorische Problem finden wir im Anhang in Formel (D.3). Daher gilt f¨ ur den Nenner von (10.37): 7 7! = 35 Anzahl aller Ziehungsergebnisse = = (7 − 4)! 4! 4 N . (10.38) = n
10.4 Hypergeometrische Verteilung ◦ ◦ ◦ ◦ • • •
Kugeln in Urne Treffer Y Ergebnis 1
0 ◦ ◦ ◦ ◦
Ergebnis 2 Ergebnis 3 Ergebnis 4
1 ◦ ◦ ◦ 1 ◦ ◦ ◦ 1 ◦ ◦ ◦
Ergebnis 5 Ergebnis 6 Ergebnis 7
1 ◦ ◦ 1 ◦ ◦ 1 ◦ ◦
Ergebnis 8 Ergebnis 9 Ergebnis 10
1 ◦ 1 ◦ 1 ◦
Ergebnis 11 Ergebnis 12 Ergebnis 13
1 1 1
Ergebnis 14 Ergebnis 15 Ergebnis 16
2 ◦ ◦ 2 ◦ ◦ 2 ◦ ◦
Ergebnis 17 Ergebnis 18 Ergebnis 19
2 ◦ 2 ◦ 2 ◦
Ergebnis 20 Ergebnis 21 Ergebnis 22
2 ◦ 2 ◦ 2 ◦
Ergebnis 23 Ergebnis 24 Ergebnis 25
2 2 2
◦ ◦ ◦ ◦ ◦ ◦
Ergebnis 26 Ergebnis 27 Ergebnis 28
2 2 2
◦ ◦ ◦
Ergebnis 29 Ergebnis 30 Ergebnis 31
2 2 2
Ergebnis Ergebnis Ergebnis Ergebnis
3 ◦ 3 ◦ 3 ◦ 3 ◦
32 33 34 35
199
Anzahl Ziehungen 4 3 · =1·1=1 4 0 •
•
•
◦ • ◦ • ◦ • ◦ ◦ • ◦ ◦ • ◦ ◦ •
4 3 · = 4 · 3 = 12 3 1
◦ ◦ ◦ • ◦ ◦ ◦ • ◦ ◦ ◦ • • • • • • • ◦ ◦ ◦
• • • • • • ◦ • • ◦ • • ◦ • • • • • • • •
4 3 · = 6 · 3 = 18 2 2
◦ • • ◦ • • ◦ • • ◦ ◦ • • ◦ ◦ • • ◦ ◦ • • • • • •
• • • •
• • • •
4 3 · =4·1=4 1 3
Tabelle 10.1. Vollst¨ andige Auflistung aller m¨ oglichen Ziehungsergebnisse bei einer Urne mit N = 7 Kugeln, von denen M = 3 schwarz sind und n = 4 Kugeln zuf¨ allig entnommen werden.
200
10 Spezielle Verteilungen
¨ Ahnlich berechnet sich der Z¨ ahler von (10.37). Um beispielsweise genau Y = 1 schwarze Kugeln zu ziehen, muss man von den 4 weißen Kugeln genau 3 markieren und von den 3 schwarzen Kugeln genau 1 markieren. Die entsprechenden M¨ oglichkeiten hierf¨ ur sind 43 und 31 . Da zu jeder einzelnen Kombination weißer Kugeln alle Kombinationen schwarzer Kugeln ber¨ ucksichtigt werden m¨ ussen, erh¨ alt man alle M¨oglichkeiten zu Y = 1, indem man diese Binomialkoeffizienten multipliziert. Daher gilt: Anzahl der Ziehungsergebnisse mit genau “k = 1“ schwarze Kugeln = 4! 4 3 3! = = 4 · 3 = 12 = 3 1 (4 − 3)! 3! (3 − 1)! 1! M N −M . (10.39) = k n−k Im Beispiel haben wir bereits in (10.38) und (10.39) Verallgemeinerungen notiert. Zusammen mit (10.37) erhalten wir so die allgemeine Formel f¨ ur die Verteilung von Y . Hypergeometrische Verteilung Sei Y ∼ H(N, M, n), dann gilt: N −M M P (Y = k) =
E[Y ] = n V AR[Y ] = n
n−k N k n
=
Wahrscheinlichkeit genau k Treffer zu erzielen,
(10.40)
M , N
(10.41)
M M N −n (1 − ) . N N N −1
(10.42)
Die Formel f¨ ur den Erwartungswert und die Varianz kann man gem¨aß (9.5) −M n )(Mk ) (Nn−k und (9.6) bestimmen. Dazu m¨ usste man E[Y ] = und N k=0 k · (n) n (N −M )(M ) M 2 · n−kN k ausrechnen, wof¨ ur wir aber ReV AR[Y ] = k=0 k − n N (n) chentricks ben¨ otigen, die m¨ oglicherweise auch beim begeisterten Leser nur Verwirrung stiften und daher weggelassen werden. Beispiel (Umfrage). Bei der B¨ urgermeisterwahl von Huckelheim gibt es N = 80 Wahlberechtigte, von denen aber nur M = 60 B¨ urger tats¨achlich w¨ ahlen wollen. Dass die Wahlbeteiligung somit 75% betr¨agt, wissen aber die B¨ urger von Huckelheim noch nicht. Daher f¨ uhrt Sieglinde eine Umfrage durch, indem sie auf rein zuf¨ allige Weise n = 10 B¨ urger ausw¨ahlt und
10.5 Geometrische Verteilung
201
Hypergeometrische Verteilung Y ∼ H(80, 60, 10) Beispiel “Umfrage“
1 0.8 0.6 0.4 0.2
1 0.8 0.6 0.4 0.2 0
2
4
6
8 10
Treffer
0
Abbildung 10.8. Nicht-kumulierte Verteilung P (Y = k).
2
4
6
8 10
Treffer
Abbildung 10.9. Kumulierte Verteilung P (Y ≤ y).
diese einzeln befragt, ob sie sich an der Wahl beteiligen wollen. Sei Y = Anzahl Wahlwilliger bei 10 Befragten, dann ist Y hypergeometrisch verteilt, d.h. Y ∼ H(80, 60, 10). Es gilt: 20 60 P (Y = k) =
10−k 80 k 10
= Wahrscheinlichkeit genau k Wahlwillige anzutreffen.
Diese Wahrscheinlichkeiten betragen im Einzelnen k
0
1
2
3
4
5
6
7
8
9
10
P (Y = k) 0.0000001 0.000006 0.00014 0.0016 0.011 0.051 0.147 0.267 0.295 0.180 0.046
und sind in den Abbildungen 10.8 und 10.9 zu sehen. Sieglinde w¨ urde beispielsweise eine Wahlbeteiligung von mindestens 90% sch¨atzen, wenn sie 9 oder 10 Wahlwillige vorfindet. Die Wahrscheinlichkeit f¨ ur diese falsche Sch¨ atzung betr¨ agt P (Y ≥ 9) = 0.180 + 0.046 = 22.6%.
10.5 Geometrische Verteilung Beim ersten Lesen kann man mit Kapitel 11 fortfahren. Wir betrachten den Fall, dass man ein Zufallsexperiment unter gleichen Bedingungen unabh¨ angig wiederholt, bei dem nur “Treffer“ oder “Nichttreffer“ als Versuchsergebnis m¨ oglich sind. Z¨ ahlen wir die Anzahl N der Versuche bis zum ersten Treffer, so erhalten wir eine Zufallsvariable, deren Verteilung man “geometrische Verteilung“ nennt.
202
10 Spezielle Verteilungen
Beispiel (W¨ urfel). Willi spielt “Mensch ¨ argere Dich nicht“. Bekanntlich darf er mit seiner Figur erst starten, wenn er eine “Sechs“ gew¨ urfelt hat. Die Zufallsvariable “N = Anzahl W¨ urfe bis zur ersten Sechs“ ist geometrisch verteilt. Formal ¨ ahnelt diese Situation der bereits auf Seite 192 definierten Bernoullikette X1 , X2 , . . . , Xn mit den Indikatorvariablen 1 falls Treffer im Experiment i, (10.43) Xi = 0 falls kein Treffer im Experiment i. W¨ ahrend dort bei der Bernoullikette die Versuchsanzahl n im Voraus fest vorgegeben ist, entspricht nun die L¨ ange der Bernoullikette einer Zufallsvariablen N . Als Abbruchkriterium f¨ ur die Kette dient das Ereignis “erstmaliger Treffer“. Daher ist eine geometrisch verteilte Variable N diskreten Typs und kann jede positive ganze Zahl 1, 2, 3, 4, . . . , als Realisation annehmen. F¨ ur die Sprechweise “N ist eine geometrisch verteilte Zufallsvariable“ gebrauchen wir die Kurzschreibweise N ∼ G(p). (10.44) F¨ ur die nicht-kumulierte Verteilung gilt: P (N = k) = P (der erste Treffer tritt im Versuch k auf) = P (X1 = 0, X2 = 0, X3 = 0, . . . , Xk−1 = 0, Xk = 1) (9.29)
= P (X1 = 0) · P (X2 = 0) · . . . · P (Xk−1 = 0) · P (Xk = 1) = (1 − p) · (1 − p) · (1 − p) · . . . · (1 − p) · p (10.45) = (1 − p)k−1 · p.
Die kumulierte Verteilung erh¨ alt man u ¨ber das “Gegenereignis“: P (N ≤ n) = 1 − P (N > n) = 1 − P (die ersten n Versuche sind keine Treffer) = 1 − P (X1 = 0, X2 = 0, X3 = 0, . . . , Xn = 0) (9.29)
= 1 − P (X1 = 0) · P (X2 = 0) · P (X3 = 0) · . . . · P (Xn = 0) (10.46) = 1 − (1 − p)n .
Die Berechnung der erwarteten Versuchsanzahl bis zum ersten Treffer ben¨otigt tiefere, mathematischer Kenntnisse. Das Ergebnis ist jedoch intuitiv nachvollziehbar: E[N ] =
∞
k · (1 − p)k−1 · p = . . . mathematische Tricks . . . =
k=1
¨ Ahnlich berechnet sich die Varianz:
1 . p
10.5 Geometrische Verteilung
203
Geometrische Verteilung N ∼ G( 16 )
N ∼ G(0.03)
0.2 0.15 0.1 0.05
0.2 0.15 0.1 0.05 1 10 20
N
50
Abbildung 10.10. Beispiel “W¨ urfel“: Die Verteilung der Anzahl N der W¨ urfe bis zur ersten Sechs.
V AR[N ] =
∞
1 10 20
50
N
Abbildung 10.11. Beispiel “Telephonaktion“: Die Verteilung der Anzahl N der Anrufe bis zum ersten Erfolg.
1 1−p (k − )2 · (1 − p)k−1 · p = . . . mathematische Tricks . . . = . p p2
k=1
Geometrische Verteilung F¨ ur eine geometrisch verteilte Zufallsvariable N ∼ G(p) gilt: P (N = k) = (1 − p)k−1 · p
(10.47)
P (N ≤ n) = F (n) = 1 − (1 − p)n
(10.48)
E[N ] = V AR[N ] =
1 p
(10.49)
1−p p2
(10.50)
Beispiel (Fortseztuung). Die Anzahl N der W¨ urfe, die Willi bis zur ersten Sechs ben¨ otigt, ist geometrisch verteilt, da jeder einzelne Wurf die gleiche urfe voneinander Trefferchance p = 16 besitzt und zudem die einzelnen W¨ unabh¨ angig sind. Die nicht-kumulierte Verteilung von N ∼ G( 16 ) ist in Abbildung 10.10 zu sehen. Die erwartete Anzahl an W¨ urfen bis zur ersten Sechs entspricht 1 1 = 1 = 6. E[N ] = p 6 Dies erkl¨ art die u ¨bliche Sprechweise, dass bei einer Chance von p = 16 “jeder“ sechste Wurf ein Treffer ist. Die Wahrscheinlichkeit, dass Willi genau so viele wie erwartet, also genau 6 W¨ urfe ben¨otigt, betr¨agt
204
10 Spezielle Verteilungen
P (N = 6) =
1 1− 6
5
1 · = 6
5 5 1 · = 6.7 %. 6 6
Die Wahrscheinlichkeit, dass Willi mehr als doppelt so viele wie erwartet, also u urfe ben¨ otigt, betr¨ agt ¨ber 12 W¨ 12 1 P (N > 12) = 1 − P (N ≤ 12) = 1 − F (12) = 1 − 1 − 1 − 6 12 5 = 11.2 %. = 6 Die Wahrscheinlichkeit, dass Willi maximal halb so viele wie erwartet, also maximal 3 W¨ urfe ben¨ otigt, betr¨ agt 3 1 = 42.1 %. (10.51) P (N ≤ 3) = F (3) = 1 − 1 − 6 Willi hat schon 50 W¨ urfe ohne Erfolg absolviert. Mit welcher Wahrscheinlichkeit ben¨ otigt er von da an maximal 3 W¨ urfe bis zur ersten Sechs? Subjektiv gesehen glaubt Willi, dass sein bisheriger Fleiß belohnt werden m¨ usste und daher die Chance u ¨ber 42.1 % liegen sollte. Dies ist aber falsch. Der W¨ urfel hat kein Ged¨ achtnis und erzeugt unabh¨angig von seiner Vergangenheit das n¨ achste Ergebnis. Insofern gestaltet sich f¨ ur Willi nach jedem Wurf die Zukunft unter den gleichen statistischen Gesetzm¨aßigkeiten wie zu Beginn, d.h. nach jedem erfolglosen Wurf liegt quasi ein “Restart“ des Prozesses vor. Formal ergibt sich: P (N ≤ 53| N > 50)
(9.22)
=
= = (10.48)
=
= = =
P (N ≤ 53 und N > 50) P (N > 50) P (50 < N ≤ 53) P (N > 50) P (N ≤ 53) − P (N ≤ 50) 1 − P (N ≤ 50) 1 − (1 − p)53 − 1 − (1 − p)50 1 − (1 − (1 − p)50 ) (1 − p)50 − (1 − p)50 (1 − p)3 (1 − p)50 1 − (1 − p)3 3 5 = 42.1 %. 1− 6
Diese Wahrscheinlichkeit ist mit (10.51) identisch.
(10.52)
10.5 Geometrische Verteilung
205
Die Herleitung von (10.52) l¨ asst sich verallgemeinern: Die geometrische Verteilung ist ohne Ged¨ achtnis F¨ ur alle w = 1, 2, 3, . . . gilt: P (N ≤ w + n| N > w) = P (N ≤ n) = 1 − (1 − p)n .
(10.53)
Unter der Bedingung, dass w Misserfolge vorliegen, tritt der erste Treffer innerhalb weiterer n Versuche mit derselben Wahrscheinlichkeit wie zu Beginn des Prozesses auf. Nach w Versuchen bzw. nach jedem Versuch liegt quasi ein “Restart“ vor. Beispiel (Telephonaktion). Dagobert ist Zauberer. Er ruft bundesweit bei vollkommen zuf¨ allig ausgew¨ ahlten Telephonnumern an, um nachzufragen, ob er seine K¨ unste gegen ein kleines Entgelt von 6[e] vorf¨ uhren darf. Die Chance, dass ein Angerufener Dagobert engagieren m¨ochte, sei mit p = 3% bekannt. Ein Anruf kostet 0.05 [e]. Ist die Vorgehensweise im Schnitt gewinnbringend? Wie hoch ist das Risiko, dass Dagobert einen Verlust erleidet? Man kann unterstellen, dass sich die Angerufenen unabh¨angig entscheiden. Daher ist die Anzahl N der Anrufe, bis zum ersten Engagement eine geometrisch verteilte Zufallsvariable mit N ∼ G(0.03). Die nicht-kumulierte Verteilung ist in Abbildung 10.11 zu sehen. Dagobert erwartet im Schnitt E[N ] =
1 = 33.33 0.03
Anrufe bis zu einem ersten Engagement. Der Erwartungswert des Gewinnes betr¨ agt daher E[Gewinn] = 6 − 0.05 · E[N ] = 4.33 [e]. Ein Verlust tritt auf, wenn N · 0.05 > 6
⇔
N > 120
gilt. Die entsprechende Wahrscheinlichkeit betr¨agt P (N > 120) = 1 − P (N ≤ 120) = 1 − F (120) 120 120 = 1 − 1 − (1 − 0.03) = (0.97) = 2.586 %. Obwohl der erwartete Gewinn 4.33 [e] deutlich positiv ist, kann Dagobert dennoch mit einem nennenswert hohem Risiko von 2.586% Verlust erleiden. Die Eigenschaft (10.53) besagt hier, dass Dagobert nach w erfolglosen Anrufen quasi wieder am Anfang steht und mit einer Wahrscheinlichkeit von 2.586 % nochmals mehr als 120 weitere Anrufe bis zum ersten Erfolg ben¨ otigt.
206
10 Spezielle Verteilungen
10.6 Poisson-Verteilung Beim ersten Lesen kann man mit Kapitel 11 fortfahren. Wir betrachten zun¨ achst nochmals eine binomialverteilte Zufallsvariable Y mit Y ∼ Bi(n, p), welche die Anzahl der Treffer wiedergibt, die in einer Bernoullikette der festen L¨ ange n auftreten. Gelegentlich trifft man Bernoulliketten an, bei denen die L¨ ange bzw. Versuchsanzahl n sehr groß ist und gleichzeitig aber die Trefferchance p eines Einzelexperimentes sehr gering ist. In diesem Fall kann man die Verteilung (10.32) von Y durch eine Formel ersetzen, die rechentechnisch einfacher zu handhaben ist, und die man als Poisson-Verteilung bezeichnet. Beispiel (Notfallzentrale). Elmar ist Leitstellenleiter der Notfallambulanz. Er weiß, dass morgens zwischen 10 und 11 Uhr im Schnitt μ = 3 Notf¨alle zu erwarten sind. Um besser planen zu k¨ onnen, m¨ochte er beispielsweise wissen, mit welcher Wahrscheinlichkeit genau 5 Notf¨alle gemeldet werden. Als Modell zerlegt er den Gesamtzeitraum t = 1 [h] gedanklich in n gleichlange Zeitfenster der L¨ ange Δt = nt : Bernoullikette: X1 X2 X3 1
2
3 ....
}
Zeitfenster:
Xn-1 Xn t = Länge eines Zeitfensters
n-1 n
Dabei geht Elmar von folgenden Annahmen aus: 1. In jedem Zeitfenster ist die “Trefferwahrscheinlichkeit“ p f¨ ur eine Notfallmeldung gleich hoch. 2. Die Meldungen treten von Zeitfenster zu Zeitfenster unabh¨angig auf. Dies d¨ urfte realistisch sein, da beispielsweise ein Herzinfarkt unabh¨ angig davon auftritt, ob auf der Landstraße jemand zu schnell in die Kurve gefahren ist. 3. In einem Zeitfenster k¨ onnen nicht zwei oder mehr Meldungen vorkommen. Dies d¨ urfte um so realistischer sein, je kleiner der Zeitschritt bzw. je mehr Zeitfenster n gew¨ ahlt werden. ¨ Aufgrund dieser Uberlegungen bilden die Zeitfenster eine Bernoullikette, weshalb die Anzahl der Notfallmeldungen Y binomialverteilt ist. Dabei muss Elmar wegen
E[Y ] = μ
(10.33)
=
p=
n · p = 3 f¨ ur die Trefferchance
3 μ = n n
(10.54)
w¨ ahlen. Elmar berechnet f¨ ur verschiedene n exemplarisch die Wahrscheinlichkeit, dass genau 5 Notf¨ alle auftreten. 3 = 0.05 und folglich Y ∼ • n = 60 (Minutentakt): Hier ist p = 60 Bi(60, 0.05).
10.6 Poisson-Verteilung
207
genau 5 Treffer 123
n = 60
P (Y = 5) •
60 0.055 0.9555 = 0.101616. 5
(10.32)
=
3 = 0.0008333 und folglich n = 3600 (Sekundentakt): Hier ist p = 3600 Y ∼ Bi(3600, 0.0008333). genau 5 Treffer
1
n = 3600
P (Y = 5)
(10.32)
= =
•
(10.55)
3600 0.00083335 0.9991673595 5 0.100833.
(10.56)
Diese Ergebnis unterscheidet sich nur geringf¨ ugig von (10.55). Insofern stellt sich die Frage, ob sich das Ergebnis noch weiter stabilisiert, wenn man noch kleinere oder gar unendlich kleine Zeitschritte w¨ahlt. n → ∞ (unendlich kleine Zeitfenster): Die Bernoullikette “verschmiert“ zu einem Kontinuum. genau 5 Treffer
8
n=
1
Indem die Anzahl der Zeitfenster unendlich groß wird, geht die Trefuck. Dabei sollten aber, wie in ferchance p = nμ = n3 → 0 auf Null zur¨ allen bisherigen F¨ allen auch, im Schnitt E[Y ] = μ = n · p = 3 Notf¨alle auftreten. Die Berechnung der Wahrscheinlichkeit P (Y = 5) f¨ uhren wir als Grenzwert durch, wobei wir diese Aspekte einbeziehen: n 5 n−5 p (1 − p) P (Y = 5) = lim n→∞ 5 n μ 5 μ n−5 (10.54) 1− = lim n→∞ 5 n n = . . . u¨ble mathematische Tricks2 . . . 35 −3 e = (10.57) 5! =
2
0.100819.
Hier wird unter anderem ex = lim
n→∞
1+
x n n
(10.58)
benutzt.
208
10 Spezielle Verteilungen
Die Ergebnisse (10.55), (10.56) und (10.58) verdeutlichen die Konvergenz. Elmar kann davon ausgehen, dass zwischen 10 Uhr und 11 Uhr mit einer Wahrscheinlichkeit von 10.0819% genau 5 Notf¨alle gemeldet werden. Betrachten wir nochmals Formel (10.57), so erkennen wir, wie man von diesem speziellen Beispiel auf den allgemeinen Fall schließen kann, indem wir dort μ = 3 und k = 5 identifizieren. Allgemein erhalten wir daher: Poisson-Verteilung Es sei Y eine Poisson-verteilte Zufallsvariable mit Y ∼ P o(μ), dann gilt: P (Y = k) =
μk −μ e = Wahrscheinlichkeit genau k k! Treffer zu erzielen,
(10.59)
E[Y ] = μ,
(10.60)
V AR[Y ] = μ.
(10.61)
Dass der Erwartungswert von Y mit μ u ¨bereinstimmt, verwundert nicht, da wir dies bei der Herleitung im Beispiel so eingerichtet haben. Ebenso erkl¨art sich mit (10.34) und lim np(1 − p) n→∞
(10.54)
=
lim n nμ (1 − nμ ) = μ die Varianz.
n→∞
Man kann mit “h¨ oherem mathematischem Geschick“ die Formeln (10.60) und (10.61) auch auf direktem Weg beweisen: E[Y ] = V AR[Y ] =
∞
k·
k=0 ∞
μk −μ e = . . . mathematische Tricks . . . = μ, k!
(k − μ)2 ·
k=0
μk −μ e = . . . mathematische Tricks . . . = μ. k!
Beispiel (Fortsetzung). Wir haben f¨ ur die Anzahl Y der Notfallmeldungen die Verteilung gem¨ aß (10.59) berechnet und in Abbildung 10.12 wiedergegeben. Beispiel (Frostsch¨ aden). Auf einem bestimmten Autobahnabschnitt mit einer L¨ ange von 70 [km] gibt es nach einem Winter aufgrund von Frost im Schnitt 0.2 Sch¨ aden pro Kilometer. Die Reparatur eines Schadens kostet 1500[e/Schaden]. Die Autobahnmeisterei hat 23000 [e] eingeplant, um die Sch¨ aden nach dem n¨ achsten Winter beseitigen zu k¨onnen. Wie hoch ist das Risiko, dass einige L¨ ocher mangels Geld nicht ausgebessert werden k¨ onnen? Wir unterstellen, dass der Autobahnabschnitt u ¨berall die gleiche Frostanf¨ alligkeit besitzt. Dann ist “Y = Anzahl der Sch¨aden“ Poisson-Verteilt mit E[Y ] = μ = 70 · 0.2 = 14 Sch¨ aden im Schnitt, d.h. Y ∼ P o(14). Das Geld reicht nicht, wenn
10.7 Exponentialverteilung
209
Poisson-Verteilung Y ∼ P o(3)
Y ∼ P o(14)
0.25 0.2 0.15 0.1 0.05
0.25 0.2 0.15 0.1 0.05 Y 0
3
0
10
Abbildung 10.12. Beispiel “Notfallzentrale“: Die Verteilung der Anzahl Y an Notf¨ allen.
Y · 1500 > 23000
14
Y 30
Abbildung 10.13. Beispiel “Frostsch¨ aden“: Die Verteilung der Anzahl Y an Frostsch¨ aden.
⇔
Y > 15.33
gilt. Die entsprechende Wahrscheinlichkeit betr¨agt P (Y > 15.33) = 1 − P (Y ≤ 15) 0 1415 −14 14 −14 141 −14 e e e + + ... + = 1− 0! 1! 15! = 1 − (0.0000008 + 0.0000116 + 0.0000815 +0.0003803 + 0.0013310 + 0.0037268 +0.0086959 + 0.0173917 + 0.0304355 +0.0473442 + 0.0662818 + 0.0843587 +0.0984185 + 0.1059891 + 0.1059891 +0.0989232) = 33.064%. Die nicht-kumulierte Verteilung von Y ist in Abbildung 10.13 zu sehen.
10.7 Exponentialverteilung Beim ersten Lesen kann man mit Kapitel 11 fortfahren. Eine exponentialverteilte Zufallsvariable T wird meistens benutzt, um die Wartezeit oder Strecke bis zum Eintritt des ersten bzw. n¨achsten “Treffers“ zu beschreiben. Daher ist die Zufallsvariable T stetigen Typs. Die Situation ¨ ahnelt der einer geometrisch verteilten Zufallsvariablen N . Diese aber ist diskreten Typs, da sie die Anzahl der Versuche bis zum ersten Treffer misst.
210
10 Spezielle Verteilungen
So wie die Poisson-Verteilung als Grenzwert aus der Binomialverteilung hervorgeht, kann man auf ganz ¨ ahnliche Weise die Exponentialverteilung aus der geometrischen Verteilung ableiten, indem man die Zeit in viele kleine Zeitfenster Δt einteilt und diese als Bernoullikette auffasst. Wir brauchen aber die Details nicht n¨ aher zu besprechen, da wir auf die Ergebnisse des Beispiels auf Seite 206 zur¨ uckgreifen k¨ onnen und diese nur unter einer anderen Perspektive betrachten m¨ ussen. Beispiel (Notfallzentrale). Es ist 10 Uhr. Nach wie vor sind wie auf Seite 206 im Schnitt 3 Notfallmeldungen pro Stunde zu erwarten. Elmar m¨ochte wissen, mit welcher Wahrscheinlichkeit er auf den n¨achsten Treffer bzw. auf die n¨ achste Notfallmeldung h¨ ochstens t Stunden warten muss. Dazu betrachtet er die Zufallsvariable T = Zeit bis zum n¨ achsten Treffer [h].
(10.62)
Exemplarisch m¨ ochte er die Wahrscheinlichkeit bestimmen, dass der n¨achste Treffer innerhalb der n¨ achsten halben Stunde eintritt. Formal lautet dies mit t = 0.5: P (T ≤ 0.5) = 1 − P (T > 0.5). (10.63) P (T > 0.5) entspricht der Wahrscheinlichkeit, dass der erste Treffer l¨anger als eine halbe Stunde auf sich warten l¨ asst. Dies ist gleichbedeutend damit, dass innerhalb einer halben Stunde kein Treffer vorkommt. Um diese zu berechnen, betrachtet er die Zufallsvariable Y = Anzahl Treffer innerhalb einer halben Stunde.
(10.64)
Dann ergibt sich: P (T > 0.5) = P (kein Treffer innerhalb einer halben Stunde) = P (Y = 0). (10.65) erster Treffer
T
Zeit [h]
0
Y=0
t = 0.5
Die Variable Y ist analog zu den Ausf¨ uhrungen auf Seite 207 Poissonverteilt, wobei diesmal der Erwartungswert E[Y ] = 3 · 0.5 = 1.5 Treffer pro halbe Stunde betr¨ agt. Mit Y ∼ P o(1.5) und (10.59) folgt f¨ ur (10.65): P (T > 0.5) = P (Y = 0) =
(3 · 0.5)0 −3·0.5 e = e−3·0.5 . 0!
(10.66)
Somit erh¨ alt Elmar zusammen mit (10.63) die gesuchte Wahrscheinlichkeit:
10.7 Exponentialverteilung
P (T ≤ 0.5) = 1 − P (T > 0.5) = 1 − e−3·0.5 = 77.69%.
211
(10.67)
Wir k¨ onnen das Ergebnis verallgemeinern, indem wir in der Formel
(10.67) λ = 3 und t = 0.5 identifizieren. Der Parameter λ = 3 F¨ahlle kann als “Trefferintensit¨ at“ gedeutet werden. Die kumulierte Verteilungsfunktion zu T lautet somit: (10.68) F (t) = P (T ≤ t) = 1 − e−λ·t . Die Ableitung der kumulierten Verteilung ergibt die Dichtefunktion: f (t) = F (t) =
d (1 − e−λ·t ) = λ e−λ·t . dt
(10.69)
Der Erwartungswert berechnet sich dann mit ∞ ∞ 1 t · f (t)dt = t · λ e−λ·t dt = . . . Integralrechnung . . . = , E[T ] = λ −∞ 0 und die Varianz mit 2 2 ∞ ∞ 1 1 V AR[T ] = t− t− · f (t)dt = · λ e−λ·t dt λ λ −∞ 0 1 = . . . Integralrechnung . . . = 2 . λ Wir fassen diese Ergebnisse zusammen: Exponentialverteilte Zufallsvariable T ∼ Exp(λ) 1 − e−λ·t falls 0 ≤ t Kumulierte Verteilungsfunktion: F (t) = (10.70) 0 falls t < 0 λ e−λ·t falls 0 ≤ t Dichtefunktion: f (t) = (10.71) 0 falls t < 0 Erwartungswert: E[T ] =
1 λ
Varianz: V AR[T ] =
(10.72) 1 λ2
(10.73)
Beispiel (Fortsetzung). Wenn λ = 3 F¨ahlle Notf¨alle pro Stunde erwartet h
Stunden Wartezeit werden, so ergibt sich durchschnittlich λ1 = 13 Fall ¨ pro Fall, d.h. 20 Minuten Wartezeit pro Fall. Diese plausible Uberlegung entspricht der Formel (10.72). Die Dichtefunktion und die kumulierte Verteilung sind in Abbildung 10.14 und Abbildung 10.15 zu sehen.
212
10 Spezielle Verteilungen Exponentialverteilung T ∼ Exp(3) Dichtefunktion f (t)
Kumulierte Verteilung F (t)
3.5 3 2.5 2 1.5 1 0.5
1 0.8 0.6 0.4 0.2 Th 0.5
1
1.5
2
0.5
2.5
Abbildung 10.14. Beispiel “Notfallzentrale“: Die Dichtefunktion der Wartezeit T bis zur n¨ achsten Notfallmeldung lautet f (t) = 3 e−3·t .
1
1.5
2
Th 2.5
Abbildung 10.15. Beispiel “Notfallzentrale“: Die kumulierte Verteilung der Wartezeit T lautet F (t) = P (T ≤ t) = 1 − e−3·t .
Beispiel (Tr¨ uffelsuche). Im Wald von Gourmetion wachsen vollkommen unregelm¨ aßig Tr¨ uffelpilze. Ein solch seltener Pilz kostet im Gesch¨aft 110 [e/Stk]. Alternativ kann man sich das Tr¨ uffelschwein Rudi mieten, das im Schnitt ca. 80 Minuten ben¨ otigt, um einen Pilz zu finden. Antje leiht sich Rudi f¨ ur 0.67 [e/Min] aus. Mit welcher Wahrscheinlichkeit w¨are es f¨ ur Antje billiger, im Gesch¨ aft eine Tr¨ uffel zu kaufen? Wir unterstellen, dass die Suchzeit T [Min] exponentialverteilt ist. Wegen E[T ] = 80 =
1 λ
⇒
λ=
1 80
(10.74)
1 ist T ∼ Exp( 80 ). Das Schwein Rudi rentiert sich f¨ ur Antje wenn
T · 0.67 < 110
⇔
T < 164.18 [M in]
gilt. Die entsprechende Wahrscheinlichkeit betr¨agt 1
P (T ≤ 164.18) = 1 − e− 80 ·164.18 = 0.87. Folglich ist es mit 1 − 0.87 = 13% Wahrscheinlichkeit billiger, im Gesch¨aft eine Tr¨ uffel zu kaufen. Gem¨ aß (10.53) ist die geometrische Verteilung ohne Ged¨achtnis. Da die Exponentialverteilung durch eine Grenzwertbetrachtung aus der geometrischen Verteilung hervorgeht, gilt auch hier:
10.7 Exponentialverteilung
213
Die Exponentialverteilung ist ohne Ged¨ achtnis F¨ ur alle w > 0 gilt: P (T ≤ w + t| T > w) = P (T ≤ t) = 1 − e−λ·t .
(10.75)
Unter der Bedingung, dass die Wartezeit bereits w betr¨agt, tritt der erste Treffer innerhalb weiterer t Zeiteinheiten mit derselben Wahrscheinlichkeit wie zu Beginn des Prozesses auf. Den Zeitpunkt w bzw. jeden Zeitpunkt kann man wie einen “Restart“ betrachten. Der Beweis kann auch formal gef¨ uhrt werden: P (T ≤ w + t| T > w)
=
P (T ≤ w + t und T > w) P (T > w)
=
P (w < T ≤ w + t) P (T > w)
(9.22)
= (10.70)
=
=
P (T ≤ w + t) − P (T ≤ w) 1 − P (T ≤ w) −λ(w+t) 1−e − 1 − e−λw 1 − (1 − e−λw ) −λw − e−λw e−λt e = 1 − e−λ·t . (10.76) e−λw
Beispiel (Kundenankunft). Juwelier Maximilian erwartet im Schnitt alle 4 Minuten einen Kunden in seinem Gesch¨ aft. Sollte die Wartezeit bereits w Minuten betragen, d¨ urfte es nicht wahrscheinlicher oder unwahrscheinlicher sein, dass die von da an gemessene Wartezeit bis zum n¨achsten Kunden k¨ urzer oder l¨ anger dauert. Daher ist es angebracht, die Wartezeit T [Min] bis zum n¨ achsten Kunden als eine exponentialverteilte Zufallsvariable aufzufassen. Wegen (10.72) gilt: T ∼ Exp( 41 ). Maximilian muss dringend etwas erledigen und schließt f¨ ur 15 Minuten den Laden. Mit welcher Wahrscheinlichkeit wird es einen Kunden geben, der l¨ anger als 10 Minuten warten m¨ usste, bis der Laden wieder ge¨offnet wird? Diese ist identisch mit der Wahrscheinlichkeit, dass der n¨achste Kunde innerhalb der ersten 5 Minuten nach Schließung ankommt: 1
P (T ≤ 5) = 1 − e− 4 ·5 = 0.713.
214
10 Spezielle Verteilungen Gleichverteilung Dichtefunktion f (x)
Kumulierte Verteilung F (x)
1
1 b-a
a
b
X
Abbildung 10.16. Der gleichhohe Verlauf der Dichte zeigt, dass kein Wert zwischen a und b bevorzugt oder benachteiligt wird.
a
b
X
Abbildung 10.17. Die kumulierte Verteilungsfunktion w¨ achst mit konstanter Steigung F (x) = 1 an. f (x) = b−a
10.8 Gleichverteilung (stetige) Beim ersten Lesen kann man mit Kapitel 11 fortfahren. Eine stetige Zufallsvariable X, die nur reelle Zahlen zwischen a und b annehmen kann und dabei keinen Wert bevorzugt, nennt man zwischen a und b gleichverteilt. Die Dichtefunktion sollte daher, wie in Abbildung 10.16 zu sehen ist, im Bereich von a bis b einen vollkommen gleichm¨aßigen Verlauf 1 entspricht der H¨ohe des Rechtecks aufweisen. Der Funktionswert f (x) = b−a und ergibt sich aus dem Ansatz 1 = Rechtecksfl¨ ache = Grundseite · H¨ ohe = (b − a) · H¨ohe.
(10.77)
Die kumulierte Verteilung F (x) = P (X ≤ x) l¨asst sich ebenfalls geometrisch bestimmen, indem wir die Fl¨ ache unter der Dichte von ganz links bis zu x 1 und berechnen. Dies entspricht der Fl¨ ache eines Rechtecks mit der H¨ohe b−a der Grundseite x − a. Daher ist: F (x) =
x−a b−a
falls a ≤ x ≤ b.
Mit Hilfe der Integralrechnung l¨ asst sich dieses Ergebnis auf einem zweiten Weg best¨ atigen: x x x−a 1 dt = . . . . . . = falls a ≤ x ≤ b. f (t)dt = F (x) = b − a b−a −∞ a Intuitiv wird man vermuten, dass der Erwartungswert einer auf [a, b] gleichverteilten Zufallsvariablen genau in der Mitte von a und b zu finden ist. Dies kann man mit Hilfe der Dichte f (x) und der Integralrechnung best¨atigen: b ∞ 1 a+b dx = . . . Integralrechnung. . . = . x · f (x)dx = x· E[X] = b−a 2 −∞ a
10.8 Gleichverteilung (stetige)
215
Die Varianz hingegen l¨ asst sich wohl kaum ohne Integralrechnung erahnen: 2 ∞ b a+b 1 2 dx V AR[X] = x− (x − μ) · f (x)dx = · 2 b − a −∞ a = . . . Integralrechnung . . . =
(b − a)2 . 12
Wir fassen diese Ergebnisse zusammen: Gleichverteilte, stetige Zufallsvariable X
1 b−a
Dichtefunktion: f (x) =
0 ⎧ ⎪ ⎨0
Kumulierte Verteilungsfunktion: F (x) =
x−a ⎪ b−a
⎩ 1
falls a ≤ x ≤ b, (10.78) falls sonst. falls x < a, falls a ≤ x ≤ b, (10.79) falls b < x.
a+b . 2 (b − a)2 Varianz: V AR[X] = . 12
Erwartungswert: E[X] =
(10.80) (10.81)
Beispiel (Bushaltestelle). Jochen weiß, dass an seiner Bushaltestelle um die Ecke vollkommen zuverl¨ assig alle 15 Minuten ein Bus wegf¨ahrt. Leider weiß er aber nicht, zu welcher Uhrzeit die Busse fahren. Daher geht er “rein zuf¨ allig“ zur Bushaltestelle. Die Wartezeit X [Min] ist dann eine stetige Zufallsvariable, die im g¨ unstigsten Fall den Wert 0 und maximal den Wert 15 annehmen kann. Zudem ist sie auf dem Intervall [0, 15] gleichverteilt, da Jochen “rein zuf¨ allig“ an der Haltestelle ankommt. Daher gilt 1 falls 0 ≤ x ≤ 15, Dichtefunktion: f (x) = 15 0 falls sonst. ⎧ ⎪ ⎨0 Kumulierte Verteilung: F (x) =
x ⎪ 15
⎩
1
falls x < 0, falls 0 ≤ x ≤ 15, falls 15 < x.
0 + 15 = 7.5 [M in]. 2 (15 − 0)2 Varianz: V AR[X] = = 18.75 [M in2 ]. 12 Bemerkung: Da die Wartezeit X nie l¨ anger als 15 Minuten ausfallen kann, ist sie sicherlich nicht exponentialverteilt. Sie besitzt auch nicht die EigenErwartungswert: E[X] =
216
10 Spezielle Verteilungen
schaft (10.75) der Ged¨ achtnislosigkeit. Je l¨anger Jochen bereits gewartet hat, um so wahrscheinlicher verk¨ urzen sich die von da ab gemessenen Wartezeiten. Sollte beispielsweise die Wartezeit bereits w = 14.5 Minuten betragen, so weiß Jochen, dass der Bus jeden Moment kommen wird und die restliche Wartezeit nicht mehr lange dauern kann. Insofern ist dieser Zeitpunkt nicht mit einem “Restart“ gleichzusetzen.
10.9 Stichprobenverteilungen Beim ersten Lesen kann man mit Kapitel 11 fortfahren. Die bisher besprochenen Verteilungen treten bei Variablen auf, die in der Realit¨ at mehr oder weniger unmittelbar beobachtet werden k¨onnen. In der Statistik “verrechnet“ bzw. aggregiert und transformiert man des ¨ofteren diese Variablen so, dass neue, nicht unmittelbar beobachtbare Variablen entstehen. Diese Vorgehensweise trifft man typischer Weise bei Stichprobenauswertungen an, wo derartige Zufallsvariablen als Funktionen von Stichprobenvariablen onnen. (X1 , X2 , . . . .Xn ) betrachtet werden k¨ Die Mathematik wird hier schnell schwierig. Wir verweisen daher auf die Fachliteratur3 und geben nur einige, wichtige Resultate wieder. In der Regel ben¨ otigen wir lediglich Quantile, welche man relativ anwenderfreundlich entsprechenden Tabellen im Anhang entnehmen kann. Chi-quadrat-Verteilung Angenommen wir haben n unabh¨ angige, standardnormalverteilte Zufallsvariablen (X1 , X2 , . . . .Xn ). Dann ist die Summe der quadrierten Variablen Xi wiederum eine Zufallsvariable: Y = X12 + X22 + . . . + Xn2 .
(10.82)
Die Variable Y kann keine negativen Werte annehmen. Sie besitzt eine Verteilung, die man als Chi-quadrat-Verteilung bezeichnet. Die Anzahl der Summanden n ist ein Parameter der Verteilung, den man “Freiheitsgrad“ nennt und bevorzugt mit f abk¨ urzt. Die Dichtefunktion besitzt eine ziemlich komplizierte Formel und soll an dieser Stelle nicht f¨ ur unn¨otige Verwirrung sorgen. In Abbildung 10.19 haben wir f¨ ur einige Freiheitsgrade die Dichte skizziert. Wir ben¨ otigen in der Regel die Quantile dieser Verteilung, die man mit dem quadrierten, griechischen Buchstaben Chi notiert: χ2f ;α = α-Quantil der Chi-quadrat-Verteilung bei f Freiheitsgraden. Diese Quantile findet man im Anhang. Wir werden sp¨ater diese Verteilung unter anderem bei der Sch¨ atzung einer unbekannten Varianz ben¨otigen. 3
Beispielsweise: Fisz.M, Wahrscheinlichkeitsrechnung und Mathematische Statistik [Fis].
10.9 Stichprobenverteilungen
217
Dichte der Student t-Verteilung bei verschiedenen Freiheitsgraden
8
f=
f=5 f=1
Abbildung 10.18. Je gr¨ oßer der Freiheitsgrad f , desto mehr ¨ ahnelt die Dichte der t-Verteilung einer Gaußschen Glockenkurve. Bei f = ∞ erhalten wir die Dichte der Standardnormalverteilung. Dichte der Chi-quadrat-Verteilung bei verschiedenen Freiheitsgraden
f=1
f=3
f = 10
Abbildung 10.19. Je gr¨ oßer der Freiheitsgrad f , desto weiter rechts verschiebt sich der “Buckel“ der Dichte, desto wahrscheinlicher nimmt die Zufallsvariable große Werte an. Dichte der F-Verteilung bei verschiedenen Freiheitsgraden
(f1 , f2 ) = (10, 30) (f1 , f2 ) = (2, 5) (f1 , f2 ) = (5, 1)
Abbildung 10.20. f1 ist der Freiheitsgard des Z¨ ahlers und f2 ist der Freiheitsgrad des Nenners.
218
10 Spezielle Verteilungen
t-Verteilung (Studentverteilung) Ausgangspunkt sind n unabh¨ angige, identisch normalverteilte Zufallsvariablen (X1 , X2 , . . . .Xn ) mit μ = E[Xi ] und σ 2 = V AR[Xi ]. Wir setzen ¯ = 1 X Xi , n i=1 n
1 ¯ 2. (Xi − X) S = n − 1 i=1 n
2
Dann ist
¯ −μ √ X n (10.83) S wiederum eine Zufallsvariable und besitzt eine sogenannte “Studentverteilung“ oder “t-Verteilung“. Diese wurde von W. Gosset (1876-1937) erstmals untersucht, der unter dem Pseudonym “Student“ zu ver¨offentlichen pflegte. Der Parameter, welcher die Form der Dichte der t-Verteilung beeinflusst, wird “Freiheitsgrad“ genannt. Die Verteilung der Zufallsvariable T in (10.83) besitzt n − 1 Freiheitsgrade. Die Dichte ist in Abbildung 10.18 zu sehen und zeigt einen ¨ahnlichen Verlauf wie die Gaußsche Glockenkurve. Auch hier unterschlagen wir die mathematischen Details, da sie recht komplex und schwierig sind. Bei verschiedenen induktiven Verfahren werden wir die Quantile dieser Verteilung ben¨otigen, welche wir einer Tabelle im Anhang entnehmen k¨onnen und mit T =
tf,α = α-Quantil der t-Verteilung bei f Freiheitsgraden notieren. F-Verteilung Wir betrachten zwei Zufallsvariabeln X und Y , die unabh¨angig sind und die beide eine Chi-quadrat-Verteilung aufweisen. Der Freiheitsgrad der Variablen X sei mit f1 und Freiheitsgrad der Variablen Y sei mit f2 bezeichnet. Teilen wir die Variable fX1 durch fY2 , so ist der Quotient Z=
X f1 Y f2
=
f2 · X f1 · Y
(10.84)
wieder eine Zufallsvariable. Die Verteilung dieser Variablen Z nennt man “FVerteilung“ mit den Freiheitsgraden f1 und f2 . Um Verwechslungen vorzubeugen, spricht man auch von “f1 Freiheitsgraden des Z¨ahlers“ und “f2 Freiheitsgraden des Nenners“ Die Abbildung 10.20 zeigt exemplarisch den Verlauf der Dichte. Auch hier unterschlagen wir die mathematischen Details. Wir ben¨otigen bei verschiedenen
10.9 Stichprobenverteilungen
219
induktiven Verfahren die Quantile dieser Verteilung, welche wir einer Tabelle im Anhang entnehmen k¨ onnen und mit Fα,f1 ,f2 = α-Quantil der F-Verteilung bei f1 und f2 Freiheitsgraden notieren. Zusammenhang von Binomialverteilung und F-Verteilung Zwischen der Binomialverteilung und der F-Verteilung besteht ein Zusammenhang, dessen mathematischen Hintergrund man beispielsweise bei Uhlmann [Uhl] nachlesen kann. Man kann n¨ amlich die kumulierte Binomialverteilung mit Hilfe der F-Verteilung berechnen. Wir gebrauchen dieses Resultat an sp¨ aterer Stelle in folgender Form: Es sei Y eine binomialverteilte Zufallsvariable mit Y ∼ Bi(n, p) . Dann gilt: P (Y ≤ k) =
k n i=0
i
pi (1 − p)n−i = α
(n − k)p = F1−α, 2(k+1), 2(n−k) (k + 1)(1 − p)
⇔
(10.85)
und P (Y ≥ k) =
n n i=k
⇔
i
pi (1 − p)n−i = α
k(1 − p) = F1−α, 2(n−k+1), 2k . (n − k + 1)p
(10.86)
11 Zentraler Grenzwertsatz
Der Zentrale Grenzwertsatz (ZGWS) erkl¨ art, warum normalverteilte Variablen in der Wahrscheinlichkeitsrechnung und Statistik eine besondere Rolle spielen. Insbesondere rechtfertigt er die Formel (10.10), welche die Dichte der Normalverteilung beschreibt. In der Statistik und in den Anwendungen treten oft Zufallsvariablen auf, die sich als Summen anderer Variablen darstellen lassen. Beispielsweise ist der Tagesumsatz einer B¨ ackerfiliale die Summe der Ums¨atze vieler einzelner Kunden, das Gesamtgewicht eines Kartoffelsackes die Summe der einzelnen Kartoffelgewichte, der Gesamtstromverbrauch eines Hochhauses die Summe der Verbrauchswerte der einzelnen Zimmer, etc. Wollten wir die exakte Verteilung solcher “zuf¨alliger Summen“ bestimmen, m¨ ussten wir in der Regel extrem komplizierte Rechnungen durchf¨ uhren. Aufgrund des zentralen Grenzwertsatzes k¨ onnen wir uns in vielen F¨allen diese M¨ uhen ersparen, da dieser zumindest approximative L¨osungen erm¨oglicht. Wir formulieren den ZGWS zun¨ achst informell, da sonst die wesentliche Aussage im Formalen zu ersticken droht. Anschließend geben wir ihn nochmals in einer mathematisch pr¨ aziseren Form wieder. Zentraler Grenzwertsatz (informell) Die Summe von unabh¨ angigen Zufallsvariablen besitzt eine Verteilung, die sich durch eine Normalverteilung approximieren l¨asst, sofern die Anzahl der Summanden groß ist. Die Approximation gelingt um so besser, je gr¨oßer die Anzahl der Summanden ist. Man beachte, dass die Summanden als unabh¨angig vorausgesetzt werden. Summen abh¨ angiger Zufallsvariablen k¨ onnen ohne weiteres auch Verteilungen aufweisen, die mit einer Normalverteilung vollkommen unvereinbar sind.
222
11 Zentraler Grenzwertsatz
Zentraler Grenzwertsatz (formal) Sei X1 , X2 , . . . eine Folge unabh¨ angig, identisch verteilter Zufallsvariablen, 2 ] = μ und V AR[X ] = σ f¨ ur alle i. F¨ ur die Verteilung der Summe mit E[X i ni Sn = i=1 Xi gilt dann: Sn − nμ √ lim P ≤ z = Φ(z). (11.1) n→∞ nσ Es gibt noch weitere, allgemeinere Formulierungen des ZGWS, bei denen die Voraussetzung, dass alle Variablen identisch verteilt sind, fallen gelassen wird und stattdessen aber gewisse Forderungen an die Varianzen der Variablen gestellt werden. Diese sind eher beweistechnische Voraussetzungen und d¨ urften in der Regel bei realen Problemstellungen als erf¨ ullt angesehen werden k¨ onnen. Ferner gibt es noch Formulierungen des ZGWS, bei denen die Variaangig sein d¨ urfen. Wir gehen auf blen Xi in spezieller Weise “schwach“ abh¨ diese Besonderheiten nicht n¨ aher ein und konzentrieren uns stattdessen auf die Anwendungen. Beispiel (Diskrete Verteilungen). In den Abbildungen 11.1 - 11.5 sind f¨ unf Beispiele zum zentralen Grenzwertsatz gegeben. Dabei ist jeweils bei “n = 1“ die Verteilung der Variablen X skizziert. Bei n = 2, n = 3, n = 30 sind exemplarisch die Verteilungen der Summen S2 = X1 + X2 , S 3 = X1 + X 2 + X 3 , S30 = X1 + X2 + X3 + . . . + X30 zu sehen. Die Summanden Xi sind alle identisch wie X verteilt. Zudem wird unterstellt, dass die Variablen Xi voneinander unabh¨angig sind. Um die Verteilung der Summen Sn zu bestimmen, muss man analog zum Beispiel “zwei W¨ urfel“ auf Seite 174 vorgehen. Der notwendige Aufwand ist jedoch nur mit einem Computer realisierbar. Man erkennt, dass die Konvergenz in der Regel recht fr¨ uh, bereits bei n = 30 eintritt. Dennoch kann man auch Situationen antreffen, bei denen die Anzahl der Summanden n wesentlich gr¨oßer sein muss, bis die Gauß-Glocke erkennbar wird. Dies ist beispielsweise der Fall, wenn die Merkmalswerte der Variablen X1 Ausreißer besitzen. Beispiel (Umsatz in Kantine). In einer Kantine gehen jeden Tag n = 200 Personen zum Essen. Man kann zwischen drei Men¨ us w¨ahlen, die zu 3, 4 oder 8 [e] angeboten werden. Da die Getr¨ anke frei sind, zahlt jeder Besucher einen dieser Betr¨ age. Aus Erfahrung weiß man, dass ein Gast das 3-Euromen¨ u mit 50% Wahrscheinlichkeit, das 4-Euromen¨ u mit 15% Wahrscheinlichkeit und das 8-Euromen¨ u mit 35% Wahrscheinlichkeit w¨ahlt. Dies entspricht der Verteilung in Abbildung 11.6. Da sich die G¨aste kaum
11 Zentraler Grenzwertsatz F¨ unf Beispiele zum Zentralen Grenzwertsatz n=1
1
n=2
6
2
n=3
12
3
n = 30
18
30
180
Abbildung 11.1. Bei n = 1 ist die Verteilung eines W¨ urfels zu sehen. Die Verteilung der Summe von nur n = 3 W¨ urfeln ist bereits glockenf¨ ormig. n=1
8
n=2
8
16
n=3
16
24
n = 30
24
240
240
Abbildung 11.2. Bei n = 1 ist eine v-f¨ ormige Verteilung (umgekehrte Glocke) zu sehen. Die Summe von nur 30 v-f¨ ormig verteilter, unabh¨ angiger Zufallsvariablen ist bereits glockenf¨ ormig. n=1
100 2
n=2
250
200
n=3
500
300
n = 30
750
3000
7500
Abbildung 11.3. Bei n = 1 sind nur die Werte -100, 2, 250 realisierbar. Kombiniert man diese Zahlen zu Summen, ergeben sich nur bestimmte Werte, die weit auseinander liegen. Auch bei n = 30 ist dieser Effekt noch deutlich zu sehen, so dass die Wahrscheinlichkeiten stark springen. n=1
1
n=2
20
2
n=3
40
3
n = 30
60
30
600
Abbildung 11.4. Bei n = 1 ist die Verteilung eines W¨ urfels zu sehen, bei dem der Wert 6 durch den Wert 20 ersetzt worden ist. Trotz des Ausreißers 20 erkennt man bereits bei n = 30 die Glockenform. n=1
0
n=2
80
0
n=3
160
0
n = 30
240
0
2400
Abbildung 11.5. Bei n = 1 ist eine “Zick-Zack-Verteilung“ zu sehen. Bei n = 30 a ¨hnelt die Verteilung bereits deutlich der Gaußschen Glocke.
223
224
11 Zentraler Grenzwertsatz
0.5 0.35 0.15 3
4
Beispiel “Umsatz in Kantine“ 0.012 0.01 0.008 0.006 0.004 0.002 X 8 600 980
Abbildung 11.6. Die Verteilung der Einnahmen X[e] bei einem einzelnen Kunden. Sie ¨ ahnelt im Grunde gar nicht einer Gauß-Glocke.
U 1600
Abbildung 11.7. Die Verteilung des Gesamtumsatzes U [e] bei 200 Kunden ¨ ahnelt jedoch wegen des Zentralen Grenzwertsatzes sehr stark einer Gauß-Glocke.
wechselseitig beeinflussen, ist ihr Verhalten als unabh¨angig einzustufen. Welcher Mindestumsatz u wird mit einer Sicherheit von 95% an einem Tag eingenommen? Wir beschreiben die Ausgaben des Gastes i mit einer Zufallsvariabeln Xi . Dann gilt: E[Xi ] = 3 · 0.50 + 4 · 0.15 + 8 · 0.35 = 4.90, V AR[Xi ] = (3 − 4.9)2 · 0.50 + (4 − 4.9)2 · 0.15 + (8 − 4.9)2 · 0.35 = 5.29. Die Summe der 200 Einzeleinnahmen Xi U = X1 + X2 + X3 + . . . + X200 ergibt den Umsatz eines Tages. Wegen der Unabh¨angigkeit der Xi und des Zentralen Grenzwertsatzes kann man annehmen, dass diese Summe U approximativ normalverteilt ist. Dies ist in Abbildung 11.7 zu erkennen, welche die mit Hilfe eines Computers berechnete, exakte Verteilung zeigt. Die Anpassung an eine geeignete Gauß-Glocke erhalten wir, indem der Erwartungswert und die Varianz von U ermittelt werden. Gem¨aß (9.47) und (9.46) gilt: E[U ] = E [X1 + X2 + . . . + X200 ] = E[X1 ] + E[X2 ] + . . . + E[X200 ] = 200 · 4.90 = 980, V AR[U ] = V AR [X1 + X2 + . . . + X200 ] = V AR[X1 ] + V AR[X2 ] + . . . + V AR[X200 ] = 200 · 5.29 = 1058.
11.1 Approximative Verteilung des arithmetischen Mittels
225
Daher gilt approximativ U ∼ N (980, 1058). Folglich muss f¨ ur den gesuchten Mindestumsatz u gelten: P (U > u) = 0.95
⇔ (10.13)
⇔
1 − P (U ≤ u) = 0.95 ⇔ P (U ≤ u) = 0.05 u − 980 = 0.05. Φ √ 1058
Da gem¨ aß Tabelle Φ (−1.645) = 0.05 gilt, folgt: u − 980 √ = −1.645. 1058 Die Aufl¨ osung nach u ergibt den gesuchten Mindestumsatz: √ u = 980 − 1.645 · 1058 = 926.49 [e].
(11.2)
(11.3)
Zwar haben wir in diesen Beispielen nur diskrete Verteilungen besprochen, jedoch ergeben sich auch bei Verteilungen stetigen Typs ¨ahnliche Beobachtungen. Die folgenden Unterkapitel zeigen einige wichtige Anwendungen des Zentralen Grenzwertsatzes.
11.1 Approximative Verteilung des arithmetischen Mittels Wir betrachten n Zufallsvariablen X1 , . . . , Xn , die unabh¨angig sind und identische Verteilungen besitzen. Folglich haben alle Variablen auch denselben Erwartungswert μ = E[Xi ] und dieselbe Varianz σ 2 = V AR[Xi ]. Dies entspricht einer Situation, die man bei den meisten induktiven Verfahren gewissermaßen als Ausgangspunkt voraussetzt und dort “Zufallsstichprobe“ nennt. Wir werden diesen Aspekt im Kapitel 12 ausf¨ uhrlicher besprechen. Bei vielen Anwendungen interessiert man sich f¨ ur den Durchschnittswert solcher Variablen, den man in der Induktiven Statistik auch Stichprobenmittel nennt: ¯ = 1 (X1 + X2 + . . . + Xn ). (11.4) X n Da die einzelnen Variablen Xi Zufallsvariablen sind, ist das arithmetische ¯ ebenfalls eine Zufallsvariable. Wollten wir die exakte Verteilung der Mittel X ¯ berechnen, so kann dies, ¨ Zufallsvariable X ahnlich wie im letzten Beispiel, sehr kompliziert werden, je nachdem, welche Verteilung die einzelnen Xi besitzen. Bei großen Stichproben, d.h. bei großem n k¨ onnen wir aber dieses Problem umgehen, indem wir den Zentralen Grenzwertsatz heranziehen.
226
11 Zentraler Grenzwertsatz
¯ der Bis auf den konstanten Faktor 1/n entspricht das arithmetische Mittel X Summe von n unabh¨ angiger Zufallsvariablen Xi . Insofern sind die Voraussetzungen des Zentralen Grenzwertsatzes, insbesondere in der “formalen Form“, ¯ erf¨ ullt. Daher d¨ urfen wir den Schluss ziehen, dass das arithmetische Mittel X eine Verteilung besitzt, die der Normalverteilung sehr ¨ahnlich ist. Der Unterschied wird vernachl¨ assigbar klein, je gr¨ oßer der Stichprobenumfang bzw. die Anzahl n der Summanden ist. Damit haben wir das gr¨ oßte Problem schon gel¨ost, denn wir wissen nun, dass ¯ im Wesentlichen einer Gaußschen die Verteilung des arithmetischen Mittels X Glockenkurve entspricht. Nun m¨ ussen wir noch etwas Feinarbeit leisten, indem wir noch kl¨ aren, welche genaue Form die Gaußsche Glockenkurve aufweist bzw. wie die Parameter zu w¨ ahlen sind. Dazu m¨ ussen wir den Erwartungswert ¯ bestimmen. und die Varianz der Zufallsvariablen X Dieses Problem hat eigentlich mit dem Zentralen Grenzwertsatz nichts zu tun und wurde schon im Kapitel 9.7 besprochen. Gem¨aß (9.42) und (9.47) k¨onnen wir rechnen: ¯ = E 1 (X1 + X2 + . . . + Xn ) = 1 (E[X1 ] + E[X2 ] + . . . + E[Xn ]) E[X] n n = μ. (11.5) Wegen der Unabh¨ angigkeit der Xi gilt mit (9.43) und (9.46) analog: 1 ¯ (X1 + X2 + . . . + Xn ) V AR[X] = V AR n 1 = 2 (V AR[X1 ] + V AR[X2 ] + . . . + V AR[Xn ]) n σ2 = . n
(11.6)
(11.7)
Fassen wir alle Ergebnisse zusammen, so erhalten wir: Approximative Verteilung des arithmetischen Mittels ¯ ist f¨ Das Stichprobenmittel X ur große Stichproben, d.h “ n → ∞“ ann¨ ahernd normalverteilt: 2 ¯ ∼ N (μ ; σ ). X n
(11.8)
Die Besonderheit dieses Ergebnisses beruht darauf, dass die einzelnen Stichprobenvariablen Xi selbst nicht normalverteilt zu sein brauchen. Diese k¨onnen gewissermaßen “irgendeinen“ Verteilungstyp besitzen, der sogar diskret sein darf. Etwas unbefriedigend mag sein, dass wir keine generelle Aussage treffen k¨ onnen, wann man n als hinreichend “groß“ betrachten kann. Es gibt zahlreiche induktive Verfahren, bei denen man die Empfehlungen ausspricht, dass n ≥ 30 sein sollte.
11.1 Approximative Verteilung des arithmetischen Mittels
227
Beispiel (Eiskugeln). In einer Eisdiele betr¨ agt die Wahrscheinlichkeit, dass ein Kunde 2 Kugeln bestellt 30%, 3 Kugeln bestellt 25%, 4 Kugeln bestellt 45%. Die Zufallsvariable “X = Anzahl Kugeln bei einem zuf¨allig ausgew¨ ahltem Kunden“ besitzt dann den Erwartungswert und die Varianz: E[X] = μ = 2 · 0.30 + 3 · 0.25 + 4 · 0.45 = 3.15, V AR[X] = (2 − 3.15)2 · 0.30 + (3 − 3.15)2 · 0.25 + (4 − 3.15)2 · 0.45 = 0.7275. Somit werden auf lange Sicht 3.15 Kugeln pro Person verkauft. Dagobert ist ein neuer Eisverk¨ aufer und kennt diesen Wert nicht. Um ihn experimentell zu bestimmen, betrachtet er zu n = 100 zuf¨allig ausgew¨ahlten Kunden deren mittlere Anzahl an Eiskugeln. Bei einem ausgew¨ahlten Kunden i ist die Anzahl der Kugeln eine Zufallsvariable Xi , welche dieselbe Verteilung wie X besitzt. Die Kunden sind so ausgew¨ahlt, dass sie sich nicht wechselseitig beeinflussen. Daher k¨ onnen die Variablen X1 , . . . , X100 als unabh¨ angig betrachtet werden. Wir werden im Kapitel 12 “Stichproben“ diese Aspekte eingehender untersuchen. Dagobert sch¨ atzt die durchschnittliche Anzahl der gekauften Eiskugeln pro Person mit ¯ = 1 (X1 + X2 + . . . + X100 ). (11.9) X 100 Obwohl X selbst nicht normalverteilt ist, gilt gem¨aß (11.8) approximativ: ¯ ∼ N (3.15 ; 0.7275 ). X 100
(11.10)
¯ mit 0.7275 = Man erkennt, dass die Varianz des Stichprobenmittels X 100 0.007275 erheblich geringer ist als die Varianz der Variablen X. Daher ¯ “meistens“ recht genau. gelingt die Sch¨ atzung X Beispielsweise betr¨ agt die Wahrscheinlichkeit, dass Dagoberts Sch¨atzung um weniger als nur 5% vom tats¨ achlichen Mittelwert 3.15 abweicht: ¯ < 3.15 · 1.05) = P (3.15 · 0.95 < X ¯ ≤ 3.3075) − P (X ¯ < 2.9925)) = P (X ⎞ ⎛ ⎞ ⎛ 2.9925 − 3.15 ⎠ 3.3075 − 3.15 ⎠ − Φ⎝ ! = Φ⎝ ! 0.7275 100
0.7275 100
= Φ (1.85) − Φ (−1.85) = 93.56%.
228
11 Zentraler Grenzwertsatz
11.2 Approximation der Binomialverteilung Wir haben bereits im Kapitel 10.3 die Binomialverteilung als Verteilung der Gesamtzahl Y der Treffer bei einer Bernoulli-Kette kennen gelernt. Die Formel (10.32) erm¨ oglicht uns die Wahrscheinlichkeitsverteilung komplett und korrekt darzustellen. Insofern w¨ are es gar nicht n¨ otig, sich um einen weiteren Rechenweg zur Bestimmung der Binomialverteilung zu bem¨ uhen. Es gibt aber in den Anwendungen gelegentlich so lange Bernoulli-Ketten, dass die bereits bekannte Formel (10.32) “rechentechnisch“ extrem aufwendig wird. Bei großem n ist sie nicht praktikabel und u ¨berfordert auch leistungsstarke Computer. Beispiel (Papierherstellung). F¨ ur einen Verlag werden 1000000 Blatt Papier hergestellt. Dabei kann ein Blatt unabh¨angig von den anderen mit einer Trefferwahrscheinlichkeit von p = 0.02 einen Flecken aufweisen. Die Gesamtzahl Y der befleckten Bl¨ atter ist daher gem¨aß Y ∼ Bi(1000000, 0.02) binomialverteilt. Wie hoch ist die Wahrscheinlichkeit, dass beispielsweise h¨ ochstens 19500 Bl¨ atter befleckt sind? Die korrekte Rechnung lautet gem¨ aß (10.32) : 1000000 0.020 · 0.981000000 P (Y ≤ 19500) = 0 1000000 0.021 · 0.98999999 + 1 + . . . viele Summanden . . . 1000000 0.0219500 · 0.98980500 + 19500 =?
(11.11)
Diese Summe besteht aus 19501 Summanden, bei denen die Binomialkoeffizienten, aber auch die Potenzen schwierig zu berechnen sind. Die L¨osung w¨ urde uns sehr lange besch¨ aftigen. Wenn, wie in diesem Beispiel, die Bernoullikette sehr lang ist, k¨onnen wir auf den Zentralen Grenzwertsatz zur¨ uckgreifen. Dazu schreiben wir Y gem¨aß (10.26) als Summe unabh¨ angiger Indikatorvariablen: Y = X1 + X2 + . . . + Xn , wobei jeweils Xi die Indikatorvariable zum i−ten Bernoulli-Experiment ist. Wenn n sehr groß ist, so sind die Voraussetzungen des Zentralen Grenzwertsatzes erf¨ ullt. Daher ziehen wir den Schluss, dass die Gesamtzahl Y der Treffer in einer Bernoulli-Kette zwar nach wie vor exakt binomialverteilt ist, jedoch diese Verteilung einer Normalverteilung sehr ¨ahnlich wird, wenn n groß ist.
11.2 Approximation der Binomialverteilung
229
Die Parameter der “passenden“ Glockenkurve entsprechen dem Erwartungswert und der Varianz von Y , die wir gem¨ aß (10.33) und (10.34) bestimmen. Somit gilt aufgrund des Zentralen Grenzwertsatzes zumindest approximativ: Y ∼ N (np, np(1 − p) ),
sofern n groß ist.
Es bleibt noch zu kl¨ aren, ab wann man n als “groß“ bezeichnen darf. Hierf¨ ur gebraucht man die Regel, dass die Varianz von Y mindestens 9 betragen sollte, d.h. np(1 − p) ≥ 9 gilt. Diese Regel ist kein mathematisch beweisbares Theorem, sondern eher als Empfehlung zu verstehen, die f¨ ur praktische Belange zu hinreichend genauen Ergebnissen f¨ uhrt. Faustformel zur Binomialverteilung Y sei eine binomialverteilte Zufallsvariable, kurz Y ∼ Bi(n, p). Falls np(1 − p) ≥ 9 ist, gilt: k + 0.5 − np . P (Y ≤ k) ≈ Φ np(1 − p)
(11.12)
Falls np(1 − p) < 9 ist, sollte man die exakte Formel (10.32) benutzen. Da die Anzahl der Treffer Y nur ganze, nat¨ urliche Zahlen annehmen kann, ist Y eine Variable diskreten Typs. Eine normalverteilte Zufallsvariable ist aber stetigen Typs und kann auch nicht ganze Zahlen annehmen. Daher wird als sogenannter “Korrekturterm“ eine “0.5“ in der Formel (11.12) verwendet, um diese Diskrepanz durch geschicktes Runden auszugleichen. Beispiel (Fortsetzung). Wir greifen nochmals die Frage auf, wie hoch die Wahrscheinlichkeit ist, dass h¨ ochstens 19500 Bl¨atter befleckt sind. F¨ ur Y ∼ Bi(1000000, 0.02) kann man wegen np(1 − p) = 1000000 · 0.02 · 0.98 = 19600 ≥ 9
(11.13)
statt der exakten Rechnung (11.11) die Faustformel (11.12) benutzen: 19500 + 0.5 − 20000 √ = Φ (−3.57) ≈ 0%. P (Y ≤ 19500) = Φ 19600 Die gesuchte Wahrscheinlichkeit ist demnach verschwindend gering. Nun wollen wir noch die Wahrscheinlichkeit bestimmen, dass genau 20005 Bl¨ atter befleckt sein werden. Dazu k¨ onnen wir nochmals die Faustformel (11.12) benutzen:
230
11 Zentraler Grenzwertsatz Veranschaulichung des Korrekturterms “0.5“ in Formel (11.12) P(Y = 20005)
Y
20005.5
20004.5 20005
Abbildung 11.8. Da Y diskret, die Normalverteilung aber stetig ist, berechnet man die Wahrscheinlichkeit des diskreten Wertes 20005 als Fl¨ ache u ¨ber all jenen Werten, welche man auf 20005 rundet. Im Beispiel “Papierherstellung“ wird dies in (11.14) durch den Korrekturterm “0.5“ erreicht. Ohne den Korrekturterm w¨ are die Fl¨ ache um 0.5 Einheiten nach links verschoben.
P (Y = 20005) = P (Y ≤ 20005) − P (Y ≤ 20004) 20005 + 0.5 − 20000 √ = Φ 19600 20004 + 0.5 − 20000 √ −Φ 19600
(11.14)
= Φ (0.0392857) − Φ (0.0321429) = 0.5156688 − 0.5128210 = 0.28478%1 . Die Berechnung ist in Abbildung 11.8 veranschaulicht. Zum Vergleich wollen wir die Wahrscheinlichkeit nochmals mit der exakten Verteilung, d.h. mit der Binomialverteilung bestimmen. Dazu ben¨otigen wir allerdings die Hilfe eines leistungsstarken Rechenprogramms. 1000000 0.0220005 · 0.98979995 = 0.28474%. P (Y = 20005) = 20005 Offenbar ist hier die Approximation wirklich eine gute N¨aherung.
Beispiel (Partneranzeige). Der Duft des Damenparf¨ ums “Transpiritus X13“ wirkt auf 6% aller M¨ anner eher ekelerregend und abstoßend. Wahnfriedhild, 21 Jahre alt und Dauerbenutzerin des Parf¨ ums, trifft sich aufgrund einer im Sackeifelkurier annoncierten Partneranzeige mit 300 M¨ annern. Wir wollen die Wahrscheinlichkeit bestimmen, dass bei h¨ochstens 20 M¨ annern schon alleine wegen des Parf¨ ums die Eheanbahnung 1
Wir haben mehr als nur zwei Nachkommastellen im Argument der Standardnormalverteilung Φ benutzt und diese nicht mit der Tabelle im Anhang, sondern mit einer geeigneten Software berechnet.
11.2 Approximation der Binomialverteilung
231
scheitert. Es d¨ urfte realistisch sein, dass die M¨ anner unabh¨angig voneinander auf das Parf¨ um reagieren, da sie sich nicht begegnen und beeinflussen k¨onnen. Daher bilden die 300 Treffs eine Bernoullikette, so dass f¨ ur die Variable “Y = Anzahl ablehnender M¨ anner“ Y ∼ Bi(300; 0.06) gilt. Die Faustformel (11.12) ist anwendbar, da np(1 − p) = 16.92 ≥ 9 ist. 20 + 0.5 − 18 √ = Φ (0.61) = 72.91%. P (Y ≤ 20) = Φ 16.92 Beispiel (Steuererkl¨ arung). Die Steuerfahndung kontrolliert 400 Steuererkl¨ arungen. Eine einzelne Steuererkl¨ arung ist unabh¨angig von den anderen mit einer Wahrscheinlichkeit von p nicht korrekt. F¨ ur “X =Anzahl inkorrekter Erkl¨ arungen“ gilt daher X ∼ Bi (400; p) . ¨ Bei mehr als 40 inkorrekten Steuererkl¨ arungen m¨ ussen die Fahnder Uberstunden einlegen. a) Wir unterstellen, dass p = 8% betr¨ agt. Mit welcher Wahrscheinlichkeit ¨ fallen f¨ ur die Fahnder Uberstunden an? Da n · p (1 − p) = 29.44 > 9 ist, k¨ onnen wir die Faustformel (11.12) anwenden: ¨ P Uberstunden = P (X > 40) = 1 − P (X ≤ 40) 40 + 0.5 − 32 √ = 1−Φ 29.44 = 1 − 0.9414 = 5.86%. b) Angenommen, die Fahnder leisten mit einer Wahrscheinlichkeit von ¨ 15% Uberstunden. Welcher Wert f¨ ur p m¨ usste hierf¨ ur zu Grunde liegen? Es gilt: ¨ P Uberstunden = 0.15 ⇔ P (X ≤ 40) = 0.85 40 + 0.5 − 400p = 0.85. ⇔Φ 400p (1 − p) Man erkennt, dass der Ausdruck in der großen Klammer dem 85%Quantil der Standardnormalverteilung entsprechen muss. Wegen Φ(1.036) = 0.85 muss daher gelten: 40.5 − 400p = 1.036. 400p (1 − p)
(11.15)
232
11 Zentraler Grenzwertsatz
Durch Quadrieren beider Seiten und Multiplikation mit dem Nenner erh¨ alt man die quadratische Gleichung 2
(40.5 − 400p) = 1.0362 · 400p (1 − p) , welche jedoch mehr L¨ osungen besitzt als (11.15). Von den zwei L¨osungen p1 = 0.086676 und p2 = 0.117959 der quadrierten Gleichung usste eine Steuerf¨ ullt jedoch nur p1 die Gleichung (11.15). Daher m¨ ererkl¨ arung mit 8.6676% Wahrscheinlichkeit falsch sein. ¨ Beispiel (Uberbuchung). Berthold bietet eine Schiffsreise f¨ ur Singles an, die man bereits Wochen vor Beginn buchen muss. Es stehen 500 Pl¨atze zur Verf¨ ugung. Erfahrungsgem¨ aß treten im Schnitt 10% der Kunden die Reise nicht an, da sie aus verschiedenen Gr¨ unden verhindert sind. Wir unterstellen, dass die Absagen unabh¨ angig voneinander erfolgen. a) Berthold l¨ asst 540 Reservierungen zu. Mit welcher Wahrscheinlichkeit ¨ kommt es zu einer Uberbuchung, so dass nicht alle Mitfahrwillige untergebracht werden k¨ onnen? Dazu betrachten wir jede einzelne Reservierung als Bernoulliexperiment, das mit einer Wahrscheinlichkeit von 0.90 zu einem Mitfahrwilligen f¨ uhrt. Alle n = 540 Reservierungen bilden somit eine Bernoullikette, wobei Y die Anzahl der Mitfahrwilligen entspricht. F¨ ur Y ∼ Bi(540, 0.90) kann man wegen np(1 − p) = 540 · 0.90 · 0.10 = 48.6 ≥ 9
(11.16)
die Faustformel (11.12) benutzen: P (zu viele Mitfahrwillige) = P (Y > 500) = 1 − P (Y ≤ 500) 500 + 0.5 − 486 √ = 1− Φ 48.6 = 1 − Φ (2.08) ≈ 1 − 0.9812 = 1.88%. b) Der Preis einer Reise betr¨ agt 2000 [e/Pers]. Personen, welche die Reise absagen, m¨ ussen nichts zahlen. Da bei n = 540 Reservierungen im Schnitt nur E[Y ] = n·p = 540·0.90 = 486 Personen mitfahren wollen, w¨ aren 16 Pl¨ atze ungenutzt, so dass ein durchschnittlicher entgangener Erl¨ os bzw. Opportunit¨ atskosten von 16 · 2000 = 32000[e] entste¨ hen. Andererseits zahlt Berthold an jeden Kunden, der wegen Uberbuchung nicht mitreisen kann, eine hohe Entsch¨adigung von 25000 [e/Pers], also mehr als das Zehnfache des Preises, damit kein Kunde “unzufrieden“ ist.
11.2 Approximation der Binomialverteilung
233
Um eine vern¨ unftige Balance zwischen Opportunit¨atskosten und Entsch¨ adigungen zu finden, m¨ ochte Berthold eine optimale Reservierungszahl n bestimmen. Dazu betrachtet er den Gewinn, den er erzielen kann: G(n) = Gewinn bei n Reservierungen = Erl¨ os − Entsch¨ adigungskosten Y · 2000 f¨ ur Y ≤ 500, = 500 · 2000 − (Y − 500) · 25000 f¨ ur Y > 500. Der Gewinn G(n) ist eine Zufallsvariable, die im Wesentlichen durch die Anzahl der Mitfahrwilligen Y bestimmt wird, welche gem¨aß Y ∼ Bi(n, 0.90) binomialverteilt ist. Da zu einem festen n der Gewinn G(n) zufallsbedingt mal groß oder klein ausfallen kann, macht es keinen Sinn, G(n) bez¨ uglich n unmittelbar maximieren zu wollen. Stattdessen orientiert Berthold seine Entscheidung am erwarteten Gewinn E[G(n)]. Diesen berechnet er gem¨ aß (9.5), indem er jede m¨ogliche Realisation von G(n) mit der zugeh¨ origen Wahrscheinlichkeit multipliziert und anschließend die Summe bildet: 500
E[G(n)] =
y · 2000 · P (Y = y)
(11.17)
y=0
+
540
[500 · 2000 − (y − 500) · 25000] · P (Y = y).
y=501
Hierbei werden die Wahrscheinlichkeiten P (Y = y) gem¨aß (11.12) mit P (Y = y) = P (Y ≤ y) − P (Y ≤ y − 1) y − 0.5 − np y + 0.5 − np − Φ =Φ np(1 − p) np(1 − p)
(11.18)
berechnet. Der Rechenaufwand ist zwar hoch, jedoch mit einer entsprechenden Software bzw. einem u ¨blichen Tabellenkalkulationsprogramm m¨ uhelos und schnell zu bew¨ altigen. Berthold hat den erwarteten Gewinn E[G(n)] f¨ ur verschiedene Reservierungszahlen n gem¨aß (11.17) und (11.18) berechnet und in folgender Graphik veranschaulicht:
234
11 Zentraler Grenzwertsatz EGn 1000000 973510
900000 500
544
560
n
Man erkennt, dass nicht 540, sondern n = 544 die optimale Reservierungszahl w¨ are und der erwartete Gewinn 973510 [e] betr¨agt. M¨ ochte Berthold keinerlei Risiko f¨ ur Entsch¨adigungszahlungen eingehen, ergibt sich bei n = 500 ein erwarteter Gewinn bzw. Erl¨os von E[G(500)] = 500 · 0.90 · 2000 = 900000 [e]. Dieser Wert liegt immerhin 73510 [e] unter dem optimalen zu erwartenden Gewinn. Im Einzelfall, wenn Y = 500 ist, d.h. alle Pl¨atze verkauft werden, und keine Person zu viel kommt, betr¨agt der Gewinn bzw. Erl¨os G(500) = 500 · 2000 = 1000000 [e]. Dies ist f¨ ur alle n eine obere Schranke f¨ ur die Zufallsvariable G(n). Sie kann in keinem Einzelfall u ¨bertroffen werden.
12 Stichproben
12.1 Allgemeines In der Deskriptiven Statistik setzt man voraus, dass zu allen N Objekten einer endlichen Grundgesamtheit die Merkmalswerte erfasst sind, d.h. eine Totalerhebung vorliegt. Die Verteilungen, Lageparameter oder Streuungsmaße der Variablen sind exakt berechenbar. Insofern besitzt der Anwender u andige Informationen. ¨ber die komplette Grundgesamtheit vollst¨ In der Induktiven Statistik hingegen f¨ uhrt man keine Totalerhebung durch, sondern zieht sogenannte Stichproben aus der Grundgesamtheit. In diesem Fall stehen keine vollst¨ andige Informationen u ¨ber die Grundgesamtheit zur Verf¨ ugung. Mit Stichproben begn¨ ugt man sich meist dann, wenn die Grundgesamtheit so groß ist, dass eine Totalerhebung zu aufwendig, kostspielig oder zeitraubend w¨ are. Beispiele: • Von 60000000 Wahlberechtigten m¨ ochte man wissen, welche Partei sie am n¨ achsten Sonntag w¨ ahlen w¨ urden bzw. welche Verteilung h(x) das Merkmal “X = Partei“ besitzt. Bekanntermaßen sind Umfragen im Vergleich zur Durchf¨ uhrung einer Bundestagswahl weit weniger aufwendig und schneller. • Bei der Wareneingangskontrolle werden 10000 Gl¨ uhbirnen geliefert, von denen man den Anteil p der defekten St¨ ucke ermitteln m¨ochte. Eine Totalkontrolle dauert lange und ist teuer. • Ein Automobilhersteller m¨ ochte nach dem Einbau von Airbags deren Funk¨ tionsf¨ ahigkeit testen. Da nach einer echten Uberpr¨ ufung eines Airbags dieser nicht mehr gebraucht werden kann (zerst¨orende Kontrolle), w¨are eine Totalkontrolle fatal. Ein weiterer Grund, Stichproben zu ziehen, ergibt sich bei einer Grundgesamtheit, die in der Gegenwart als Ganzes nicht zug¨anglich ist, da sie sich
238
12 Stichproben
gewissermaßen erst im Laufe der Zeit realisiert bzw. erst in der Zukunft zur Verf¨ ugung steht. Diese Situation haben wir bereits in der im Kapitel 9.1 “Wahrscheinlichkeitsrechnung“ diskutiert und dort mit einer unendlichen Grundgesamtheit verglichen. Die entsprechende Urliste ist unendlich lang und daher “fiktiv“. Da hier prinzipiell keine Totalerhebung durchf¨ uhrbar ist, k¨onnen wir h¨ochstens einige n Zufallsexperimente durchf¨ uhren und diese als Stichprobe betrachten. Die eigentliche Aufgabe besteht darin, die Wahrscheinlichkeitsverteilung, den Erwartungswert oder die Varianz entsprechender Zufallsvariablen zu bestimmen, deren Werte dem Anwender unbekannt sind. Beispiele: •
Max hat einen manipulierten W¨ urfel mit Bleiplatte gebastelt. Er m¨ochte die Chance, eine F¨ unf zu w¨ urfeln, ermitteln, d.h. p = P (X = 5). Dieser Wert ist eine bestimmte, reele Zahl, deren numerischen Wert jedoch Max nicht kennt. Da der W¨ urfel “neu“ ist, besteht die Grundgesamtheit aus den zuk¨ unftigen, unendlich vielen W¨ urfen. Max betrachtet die n¨achsten n W¨ urfe als Stichprobe. • Man interessiert sich f¨ ur die t¨ aglichen Schlusskurse der VW-Aktie der n¨ achsten 2 Monate, d.h. f¨ ur die Verteilung P (X = x) der Zufallsvariablen “X = Schlusskurs“. • Eine Versicherung m¨ ochte die mittlere Schadensh¨ohe der Autounf¨alle, die sich im Laufe des kommenden Jahres ereignen werden, sch¨atzen, d.h. der Erwartungswert E[X] = μ der Zufallsvariablen “X = Schadensh¨ohe“ ist gesucht.
urfel d¨ urfte in den letzten beiden BeiIm Vergleich zum manipulierten W¨ spielen die Frage, wie man eine “geeignete“ Stichprobe erh¨alt, schwieriger zu beantworten sein. Daher wollen wir den Begriff der Stichprobe eingehender untersuchen und pr¨ azisieren. Diese Aufgabe steht im Mittelpunkt dieses Kapitels. Die weiteren Kapitel widmen sich der Auswertung von Stichproben. Dazu setzt man sogenannte induktive Verfahren ein, welche sich grob in zwei Kategorien einteilen lassen: Sch¨ atzverfahren: Aufgrund von Stichproben versucht man die tats¨achlichen, aber unbekannten Werte von Kenngr¨oßen zu lokalisieren. Testverfahren: Es werden Hypothesen u ¨ber die Kenngr¨oßen formuliert und aufgrund von Stichproben u uft. ¨berpr¨ Der Begriff “induktives Verfahren“ ist in der Literatur nicht einheitlich definiert. Die bloße Eigenschaft, dass ein solches Verfahren auf Stichproben basiert, sollte uns nicht zufrieden stellen. Vielmehr fordern wir zus¨atzlich, dass man bei einem induktiven Verfahren die
12.2 Grundkonzepte
239
Zuverl¨ assigkeit = Wahrscheinlichkeit, ein richtiges Ergebnis zu erhalten, quantifizieren kann. Der Anwender Induktiver Statistik sollte sich nicht damit begn¨ ugen, lediglich mehr oder weniger komplizierte Formeln auf “Daten“ anzuwenden. Da inzwischen leistungsstarke und zugleich benutzerfreundliche Statistik-Programme auf fast jedem PC zur Verf¨ ugung stehen, ist es um so verf¨ uhrerischer, sich das “Denken“ von der Maschine abnehmen zu lassen. Wir werden aber sehen, dass die Art und Weise, wie Stichproben bzw. “Daten“ entstehen oder entstehen k¨ onnten, einen entscheidenden Einfluss auf die Ergebnisse und Qualit¨ at Induktiver Verfahren besitzen. Daher ist der Aspekt, unter welchen Umst¨ anden man Stichproben erh¨alt, unabdingbar, um eine vern¨ unftige Entscheidung treffen zu k¨ onnen, welches statistische Verfahren einzusetzen ist und wie die Ergebnisse sachgem¨aß zu interpretieren sind. Dies muss problembezogen stets neu durchdacht werden.
12.2 Grundkonzepte Zieht man eine Stichprobe vom Umfang n, so werden zu einem Merkmal X n Messungen vorgenommen. Da man aber nicht im Voraus weiß, welche Werte man misst, wollen wir eine Stichprobe vom Umfang n mit einem “B¨ undel“ von Zufallsvariablen (X1 , X2 , . . . .Xn ) gleichsetzen. Liegen n konkrete Messergebnisse vor, so sind diese als Realisationen der Variablen Xi zu sehen und werden wie gewohnt mit Kleinbuchstaben (x1 , x2 , . . . .xn ) notiert. Die entscheidende Frage ist, welche Eigenschaften die Zufallsvariablen (X1 , X2 , . . . .Xn ) aufweisen, welche Faktoren diese bestimmen, und ob diese Eigenschaften geeignet sind, die unbekannten Kenngr¨oßen der Grundgesamtheit zu ermitteln. Zur Untersuchung dieser Aspekte greifen wir auf das Beispiel auf Seite 181 zur¨ uck, das wir auf Seite 240 illustriert haben. Dort ist eine endliche Grund¨ gesamtheit mit N = 50 Apfeln gegeben, bei der wir mit einer Totalerhebung zu dem Merkmal “X = Apfelgewicht [g]“ die Verteilung h(x) und weitere Kenngr¨ oßen exemplarisch angegeben haben. Die Situation ist gewissermaßen “statisch“, d.h. weist keinerlei Zufall auf und l¨asst sich deskriptiv, exakt darstellen. Wir wollen nun das Problem untersuchen, dass der Anwender weder die Verteilung, noch die Werte zu den statistischen Kenngr¨oßen kennt und diese nur aufgrund einer Stichprobe zu sch¨ atzen versucht. Dazu betrachten wir folgende F¨alle:
240
12 Stichproben
Induktive Statistik bei endlicher Grundgesamtheit
Deskriptive Statistik
Grundgesamtheit mit N = 50 Äpfeln Merkmal: X = Gewicht [g] 110
110 110 110 110 90 110
110
110
110
110
90 110
110
110 110
120
90
110
110
90
110 110 90 90
110
110
110
110 90 90
110
110
110 110
110
120 90
120
120 110
110 110
Deskriptive Kenngrößen:
110
Problem: Diese Werte sind nur bei einer Totalerhebung bekannt !
90
110
110 110
110
120
Ziehe n = 1 Objekt aus der Grundgesamtheit! 110
110
110
110
90
110 110 90
110 110 90
90
110
110
110
90
110 110
110 90 90
110
110
110
110
Wahrscheinlichkeitsrechnung
90
110
110
110
120
120
90
110
110 110 110 110
110 110
120
120 110 110
110
X1
90
110
110 110
110
120
X1 = Gewicht [g] des gezogenen Apfels = Zufallsvariable Reine Zufallsauswahl
Die Kenngrößen der Zufallsvariable X1 und die Kenngrößen des deskriptiven Merkmals X sind identisch!
Keine reine Zufallsauswahl
Die Kenngrößen der Zufallsvariable X1 und die Kenngrößen des deskriptiven Merkmals X sind nicht identisch!
Ziel: Schätze die unbekannten Werte der deskriptiven Kenngrößen, z.B. x.
Induktive Statistik
Ziehe
(X1, X2, ..., Xn) = Stichprobe vom Umfang n.
Schätzer für x = 107:
X ist eine Zufallsvariable, und nicht wie x oder E[X1] konstant. Die Eigenschaften der Zufallsvariablen X hängen von den n Zufallsvariablen X1, X2, ..., Xn und somit vom Ziehungsverfahren ab.
!
12.2 Grundkonzepte
•
•
241
Reine Zufallsauswahl – Stichprobe vom Umfang n = 1: Wir ziehen rein zuf¨ allig einen Apfel, d.h. jeder Apfel der Grundgesamtheit soll die gleiche Chance besitzen, gezogen zu werden. Das Gewicht dieses zuf¨ allig gezogenen Apfels bezeichnen wir mit X1 . Wir haben bereits auf Seite 181 festgestellt, dass X1 eine Zufallsvariable ist, deren Verteilung und Kenngr¨ oßen mit der Verteilung und den Kenngr¨oßen des deskriptiven Merkmals X der Grundgesamtheit identisch sind. – Stichprobe vom Umfang n > 1: ¨ Ein naheliegendes Verfahren ist es, rein zuf¨allig, nacheinander n Apfel aus der Grundgesamtheit zu ziehen. Dieses Verfahren nennt man Ziehen ohne Zur¨ ucklegen. Dies f¨ uhrt dazu, dass alle Zufallsvariablen Xi die gleiche Verteilung wie X selbst aufweisen, jedoch untereinander abh¨ angig sind. Im n¨ achsten Unterkapitel gehen wir hierauf n¨aher ein. Die Abh¨ angigkeit der Variablen Xi kann man aufheben, wenn man das Ziehungsverfahren so modifiziert, dass der jeweils gezogene Apfel wieder zur¨ ucklegt wird. In diesem Fall ergibt sich vor jeder Ziehung die gleiche Ausgangssituation wie bei der ersten Ziehung. Daher sind bei dem Ziehungsverfahren Ziehen mit Zur¨ ucklegen alle Zufallsvariablen X1 , X2 , . . . .Xn voneinander unabh¨angig. Keine reine Zufallsauswahl – Stichprobe vom Umfang n = 1: Wir lassen das Kind Luise einen Apfel ziehen. Da Rot die Lieblings¨ farbe von Luise ist, w¨ ahlt sie nur unter den roten Apfeln auf zuf¨allige Weise einen Apfel aus. Insofern hat nicht mehr jeder Apfel der Grundgesamtheit die gleiche Chance, gezogen zu werden. ¨ Sollten aber Apfel der roten Apfelsorte im Schnitt schwerer sein als die anderen Sorten, w¨ urde das Merkmal “Farbe des Apfels“ einen Zusammenhang mit dem Merkmal “Gewicht“ aufweisen. Die Verteilung der Zufallsvariablen X1 ist dann anders als bei X. In diesem Sinne w¨are die Stichprobe nicht “repr¨ asentativ“, sondern tendenziell nach “oben“ verf¨ alscht. – Stichprobe vom Umfang n > 1: Die Grundgesamtheit wird bez¨ uglich des Merkmals “Y = Farbe“ in ro¨ te, gr¨ une und gelbe Apfel aufgeteilt. Diese Teilgesamtheiten nennt man auch Schichten oder Klumpen. Sie werden benutzt, um die Auswahl der ¨ Apfel bewusst zu steuern. Wir gehen auf diese Verfahren sp¨ater noch genauer ein. Auch hier kann man zwischen Ziehungsverfahren “mit“ und “ohne“ Zur¨ ucklegen unterscheiden.
Das Beispiel will uns vor allem darauf aufmerksam machen, dass die “Zuf¨alligkeiten“, welche bei einer Stichprobe auftreten, einzig und alleine durch den Ziehungsvorgang verursacht werden.
242
12 Stichproben
Nur das Ziehungsverfahren bestimmt bei einer Stichprobe (X1 , X2 , . . . .Xn ) • ob die Zufallsvariablen Xi wie das Merkmal X der Grundgesamtheit verteilt sind, • ob und wie die Zufallsvariablen Xi voneinander abh¨angig sind. Ungen¨ ugend w¨ are es, gegebene “Daten“ als Stichprobe aufzufassen. Entscheidend ist, wie solche Daten entstanden sind bzw. welches Ziehungsverfahren ihnen zugrunde liegt. Dies erkl¨ art auch, weshalb wir bei induktiven Sch¨atz- und Testverfahren unbedingt darauf achten m¨ ussen, welche statistischen Eigenschaften das jeweilige Verfahren an die Stichprobe (X1 , X2 , . . . .Xn ) voraussetzt, und ob das Ziehungsverfahren diese Eigenschaften auch gew¨ahrleistet. Ansonsten geht der Hauptvorteil induktiver Verfahren verloren, n¨amlich die Zuverl¨assigkeit der Ergebnisse quantifizieren zu k¨ onnen. Fleiß, hohe Erhebungskosten, sehr große Stichprobenumf¨ ange oder besonders mathematisch komplexe Verfahren k¨ onnen methodische Defizite, welche bei der Ziehung von Stichproben (z.B. ¨ nur rote Apfel ausw¨ ahlen) begangen werden, nicht heilen. Diese verschleiern h¨ ochstens die Unzul¨ anglichkeit der Ergebnisse. Die induktiven Verfahren, welche wir in dieser Lekt¨ ure vorstellen werden, setzen fast immer voraus, dass eine sogenannte unabh¨angige Zufallsstichprobe vorliegt: Unabh¨ angige Zufallsstichprobe f¨ ur eine Variable X
(12.1)
Eine unabh¨ angige Zufallsstichprobe (X1 , X2 , . . . , Xn ) vom Umfang n ist durch folgende Eigenschaften definiert: 1) Die Zufallsvariablen Xi sind alle identisch verteilt und zwar genau so wie die zu untersuchende Variable X bez¨ uglich der Grundgesamtheit. angig voneinander. 2) Die Zufallsvariablen Xi sind unabh¨ Die Forderung, dass die Stichprobenvariablen Xi unabh¨angig sein sollen, ist in erster Linie eine Frage der Bequemlichkeit, denn bei unabh¨angigen Zufallsvariablen sind mathematische Herleitungen weitaus einfacher als bei anh¨angigen Variablen. Die folgenden Unterkapitel dienen zur Er¨ orterung einiger g¨angiger Ziehungsverfahren. Im Mittelpunkt steht jeweils deren Wirkung auf die stochastischen Eigenschaften der Stichprobenvariablen (X1 , X2 , . . . .Xn ). Insbesondere gilt es zu pr¨ ufen, ob eine unabh¨ angige Zufallsstichprobe im Sinne der Definition (12.1) vorliegt.
12.3 Reine Zufallsauswahl
243
12.3 Reine Zufallsauswahl Die reine Zufallsauswahl ist so zu gestalten, dass bei jeder Ziehung jedes noch vorhandene Objekt die gleiche Chance besitzt, in die Stichprobe zu gelangen. Wir wollen die Besonderheiten beim “Ziehen mit Zur¨ ucklegen“ und beim “Ziehen ohne Zur¨ ucklegen“ anhand eines Beispiels n¨aher untersuchen. Beispiel (Urne mit Kugelschreibern). Ines besitzt auf ihrem Schreibtisch eine Urne bzw. Grundgesamtheit mit N = 20 Kugelschreibern, von denen 6 “leer“, und 14 noch “voll“ sind. Das Merkmal 1, falls Kugelschreiber leer, X = 0, falls Kugelschreiber voll besitzt die deskriptive Verteilung h(X = 1) =
6 = 0.30, 20
h(X = 0) =
14 = 0.70. 20
(12.2)
Ines greift aus der Urne rein zuf¨ allig einen Kugelschreiber heraus und notiert seinen Zustand mit X1 . Die Verteilung der Zufallsvariable X1 ist die gleiche wie die von X: P (X1 = 1) = h(X = 1) = 0.30, •
P (X1 = 0) = h(X = 0) = 0.70.
Ziehen mit Zur¨ ucklegen Ines legt den gezogenen Kugelschreiber in die Urne zur¨ uck, mischt diese durch und zieht einen zweiten Kugelschreiber. Da die gleiche Ausgangssituation wie bei der ersten Ziehung vorliegt, gilt unabh¨angig ur die Zufallsvariable X2 von X1 f¨ P (X2 = 1) = h(X = 1) = 0.30,
P (X2 = 0) = h(X = 0) = 0.70.
Diese Argumentation kann auf alle weiteren Ziehungen Xi fortgesetzt werden. Insbesondere sind demnach die Variablen Xi unabh¨angig. Bemerkenswerter Weise kann beim “Ziehen mit Zur¨ ucklegen“ der Stichprobenumfang gr¨ oßer sein, als die Grundgesamtheit Objekte besitzt, d.h. n > N ist m¨ oglich. • Ziehen ohne Zur¨ ucklegen Hier ist nur n ≤ N m¨ oglich. Dass die Variablen Xi abh¨angig sind, kann man sich exemplarisch f¨ ur X1 und X2 u ¨berlegen. Je nachdem, ob bei der ersten Ziehung X1 ein voller oder leerer Kugelschreiber der Grundgesamtheit entnommen worden ist, ergeben sich n¨amlich f¨ ur die zweite Ziehung X2 unterschiedliche Wahrscheinlichkeiten: 5 = 0.263, 19 6 = 0.316 P (X2 = 1|X1 = 0) = 19 P (X2 = 1|X1 = 1) =
244
12 Stichproben
und 14 = 0.737, 19 13 = 0.684. P (X2 = 0|X1 = 0) = 19 P (X2 = 0|X1 = 1) =
Aus analogen Gr¨ unden sind demnach alle Variablen X1 , . . . , Xn abh¨ angig. Interessant ist, dass trotz dieser Abh¨ angigkeiten alle Variablen Xi dieselbe Verteilung besitzen. Sie ist mit der deskriptiven Verteilung von X (12.2) identisch. Wir zeigen dies wieder exemplarisch f¨ ur X2 : (9.23)
P (X2 = 1|X1 = 1) · P (X1 = 1) + P (X2 = 1|X1 = 0) · P (X1 = 0) 6 14 6 5 6 · + · = = 0.30 = h(X = 1), = 19 20 19 20 20
P (X2 = 1) =
P (X2 = 0) = 1 − P (X2 = 1) = 0.70 = h(X = 0). Wir halten fest: Reine Zufallsauswahl Bei jeder Ziehung soll jedes noch vorhandene Objekt die gleiche Chance besitzen, in die Stichprobe zu gelangen. Die Stichprobe (X1 , X2 , . . . , Xn ) besitzt dann folgende Eigenschaften: • Verteilung Jede Zufallsvariable Xi besitzt die gleiche Verteilung wie die deskriptive Variable X der Grundgesamtheit, d.h. P (Xi = x) = h(X = x). • Abh¨ angigkeit angig. – Ziehen mit Zur¨ ucklegen: Die Zufallsvariablen Xi sind unabh¨ angig. – Ziehen ohne Zur¨ ucklegen: Die Zufallsvariablen Xi sind abh¨ Falls n ≤ 0.05 · N gilt, werden die Abh¨ angigkeiten von Praktikern vernachl¨ assigt. Im Grunde wird kein vern¨ unftiger Mensch “Ziehen mit Zur¨ ucklegen“ anwenden. Man betrachtet in der Statistik dieses Verfahren dennoch, da es ohne Abstriche einer unabh¨ angigen Zufallsstichprobe im Sinne von (12.1) gew¨ahrleistet. Dagegen ist die nat¨ urlichere Vorgehensweise “Ziehen ohne Zur¨ ucklegen“ weangige Zufallsstichprobe gen der Abh¨ angigkeit der Variablen Xi keine unabh¨ im Sinne von (12.1). Da aber Praktiker bei n ≤ 0.05 · N der Abh¨angigkeit der Variablen Xi keine besondere Bedeutung mehr beimessen, ist es u ¨blich,
12.3 Reine Zufallsauswahl
245
dann eine mit “Ziehen ohne Zur¨ ucklegen“ gewonnene Stichprobe dennoch als unabh¨ angige Zufallsstichprobe im Sinne von (12.1) aufzufassen. Daher wird in diesem Fall bei induktiven Verfahren, die streng genommen eine unabh¨angige Zufallsstichprobe voraussetzen, “Ziehen ohne Zur¨ ucklegen“ praktiziert. Die Faustregel, dass man man bei n ≤ 0.05 · N die Abh¨angigkeiten der Vaassigen darf, ist keine mathematisch beweisbare Tatsache, riablen Xi vernachl¨ sondern eher als “Empfehlung“ zu verstehen. Wir plausibilisieren sie an Hand des letzten Beispiels: Beispiel (Fortsetzung). Wir betrachten nun eine gr¨oßere Kiste mit insgesamt N = 20000 Kugelschreibern, d.h. die Grundgesamtheit ist sehr groß. Die Verteilung der deskriptiven Variablen X sei aber wieder dieselbe wie in (12.2): h(X = 1) = 0.30 und h(X = 0) = 0.70. Es liegen demnach 6000 leere und 14000 volle Kugelschreiber vor. Je nachdem, ob bei der ersten Ziehung X1 ein voller oder leerer Kugelschreiber der Grundgesamtheit entnommen wird, ergeben sich f¨ ur die zweite Ziehung X2 unterschiedliche Wahrscheinlichkeiten, einen leeren Kugelschreiber anzutreffen: 5999 = 0.299965, 19999 6000 = 0.300015. P (X2 = 1|X1 = 0) = 19999 P (X2 = 1|X1 = 1) =
(12.3) (12.4)
Die Ergebnisse sind zwar verschieden, jedoch unterscheiden sie sich nur geringf¨ ugig. Daher haben wir bei der zweiten Ziehung eine Chance von ungef¨ ahr 30%, einen leeren Kugelschreiber zu ziehen, ganz gleich, wie das allt. erste Ziehungsergebnis X1 ausf¨ In diesem Sinne besteht zwischen den Zufallsvariablen X1 und X2 nur noch eine schwache Abh¨ angigkeit. Diesen Effekt kann man auch bei den weiteren Ziehungen beobachten, solange der Stichprobenumfang n “relativ klein“ bez¨ uglich der Grundgesamtheitsgr¨ oße N ist. Als “relativ klein“ betrachtet man einen Stichprobenumfang, der maximal 5% der Grundgesamtheit ausmacht, d.h. n ≤ 0.05 · N erf¨ ullt. Die Vorgehensweise, Objekte auf rein zuf¨ allige Weise aus einer Grundgesamtheit zu ziehen, scheint vern¨ unftig zu sein. Dennoch besteht in der Praxis gelegentlich ein hohes Interesse, andere Methoden einzusetzen, da die reine Zufallsauswahl mit organisatorischen Schwierigkeiten, hohem Zeitaufwand und Kosten verbunden sein kann. Beispiel (Bev¨ olkerung Deutschlands). Bei einer Umfrage unter der Bev¨ olkerung Deutschlands m¨ usste man einen Zufallsmechanismus finden, welcher f¨ ur die Stichprobe Personen auf rein zuf¨allige Weise ausw¨ahlt.
246
12 Stichproben
Dazu k¨ onnte man alle Karteikarten aller Einwohnermelde¨amter auf einen großen Haufen legen und blind aus diesem eine Stichprobe ziehen. So einfach diese Idee auch sein mag, ihre Umsetzung d¨ urfte sich jedoch als ziemlich umst¨ andlich und aufwendig erweisen. Selbst mit Unterst¨ utzung von Computern und entsprechender Meldedateien ist diese Idee immer noch nicht einfach zu realisieren, da beispielsweise datenschutzrechtliche Aspekte im Wege stehen k¨ onnten. Gelingt es dennoch, einen Mechanismus f¨ ur eine “rein zuf¨allige“ Auswahl zu finden, folgen weitere Probleme. Wie soll man mit Personen umgehen, die nicht anzutreffen sind oder sich weigern, zu antworten (“no response problem“)? Es k¨ onnte durchaus sein, dass gerade dieser Personenkreis ein spezielles Umfrageverhalten aufzeigt. Dann w¨are beispielsweise ein Ersetzen dieser Personen durch andere, nachtr¨aglich gezogene Personen keine gute L¨ osung, da das Prinzip der “zuf¨ alligen Auswahl“ durchbrochen w¨ urde. Ferner ist auch schon bei einer kleinen Stichprobe vom Umfang n = 10 damit zu rechnen, dass die Wohnorte der rein zuf¨allig ausgew¨ahlten Personen sich u ¨ber die ganze Republik verteilen. Daraus resultiert m¨oglicherweise ein hoher Zeitaufwand und Kosten f¨ ur Reisen, wenn man bei der Befragung auf ein pers¨ onliches Gespr¨ ach nicht verzichten m¨ochte.
12.4 Geschichtete Stichprobe Bei einer geschichteten Stichprobe teilt man zun¨achst alle Objekte einer Grundgesamtheit in Gruppen bzw. Teilgesmtheiten auf. In der Regel wird diese Aufteilung mit Hilfe eines Merkmals Y oder mehrerer Merkmale vorgenommen. Die Gruppen nennt man auch Schichten oder Kluster. Bei der Ziehung wird jede Schicht wie eine eigene Gesamtheit betrachtet, aus der eine im Voraus festgelegte Anzahl Objekte durch eine reine Zufallsauswahl ausgew¨ ahlt wird. Die Zusammenfassung all dieser einzelnen Stichproben bzw. deren Messergebnisse bildet die geschichtete Stichprobe. Um geschichtete Stichproben richtig auszuwerten, ben¨otigt man spezielle Verfahren, auf die wir jedoch in dieser Lekt¨ ure nicht genauer eingehen werden. Sie setzen in der Regel gewisse Vorinformationen voraus, wie z.B. die exakte Verteilung der Variablen Y , welche die Schichten definiert. Beispiel (Wahlumfrage). Die Grundgesamtheit umfasst alle Wahlberechtigte Deutschlands. Man m¨ ochte wissen, welche Partei die Wahlberechtigten am n¨ achsten Sonntag w¨ ahlen w¨ urden, wenn Bundestagswahl w¨are. Das interessierende Merkmal lautet hier X = Partei der Zweitstimme.
12.5 Klumpenstichprobe
247
Wenn wir rein zuf¨ allig einige der ca. 60 000 000 Wahlberechtigten befragen, so k¨ onnte es sein, dass zuf¨ alligerweise u ¨berproportional viele Personen im Rentenalter in der Stichprobe vorkommen. Da aber das Wahlverhalten der B¨ urger vom Alter abh¨ angt, w¨ urde eine solche Stichprobe ein verf¨ alschtes Bild bez¨ uglich aller Wahlberechtigten wiedergeben. Sie w¨are nicht “repr¨ asentativ“. Um von vornherein diese Verf¨ alschungen auszuschließen, teilen wir die Wahlberechtigten in Altersgruppen auf. Die Schichtenbildung wird in diesem Fall von der Variablen Y = Altersgruppe gesteuert. Die Variablen X und Y sind abh¨angig. Es werden aus jeder Altersgruppe bzw. Schicht jeweils eine bestimmte Anzahl zuf¨ allig ausgew¨ ahlter Personen befragt. Dadurch k¨onnen wir vermeiden, dass zuf¨ alligerweise zu viele oder zu wenige Rentner gezogen werden. Stichprobe:
( X1, X2 .... .... , Xk, Xk+1, .... .... .... .... .... .... .... .... .... .... .... .... ...., Xn )
25-35 Jahre
}
}
} Alle Schichten: 18-25 Jahre
.... .... ....
über 80 Jahre
Bei der Auswertung ben¨ otigt man die Gr¨ oßen der Schichten, d.h. die Verteilung der Variablen Y . Hier k¨ onnte man diese beispielsweise u ¨ber das Statistische Bundesamt ermitteln. Man kann die Stichprobenumf¨ ange der einzelnen Schichten so festlegen, dass sie entweder proportional oder aber auch nicht proportional zu der Verteilung von Y sind. Entsprechend nennt man diese Vorgehensweise proportional geschichtete Stichprobe oder disproportional geschichtete Stichprobe. Je nachdem aus welcher Schicht die Variablen Xi stammen, besitzen sie unterschiedliche Verteilungen. Daher ist eine geschichtete Stichprobe keine unabh¨ angige Zufallsstichprobe im Sinne von (12.1).
12.5 Klumpenstichprobe Wie bei einer geschichteten Stichprobe teilt man auch bei einer Klumpenstichprobe zun¨ achst alle Objekte einer Grundgesamtheit in Gruppen bzw. Teilgesamtheiten auf. Die Gruppen nennt man Klumpen oder Kluster. Auch hier wird die Aufteilung mit Hilfe mehrerer oder eines Merkmals Y vorgenommen. Von den Klumpen werden mit einer reinen Zufallsauswahl bestimmte Klumpen ausgew¨ ahlt, und anschließend bei diesen eine Totalkontrolle durchgef¨ uhrt. Die Zusammenfassung dieser ausgew¨ ahlten Klumpen bzw. deren Messergebnisse bildet die Klumpenstichprobe.
248
12 Stichproben
So ergibt sich im Vergleich zur geschichteten Stichprobe ein Unterschied. W¨ahrend bei der geschichteten Stichprobe jeder Klumpen (Schicht) betrachtet, aber nur stichprobenartig untersucht wird, w¨ahlt man bei der Klumpenstichprobe nur einige Klumpen (Schichten) zuf¨allig aus und wertet diese aber vollst¨ andig aus. Die Verfahren, welche eine vern¨ unftige Auswertung von Klumpenstichproben erm¨ oglichen, werden wir in dieser Lekt¨ ure nicht betrachten. Auch sie ben¨otigen gewisse Vorinformationen, wie z.B. die exakte Verteilung der Variablen Y , welche die Klumpen definiert. Beispiel (Fortsetzung). Das interessierende Merkmal ist nach wie vor X = Partei der Zweitstimme. Die Grundgesamtheit der ca. 60 000 000 Wahlberechtigten teilen wir so ein, dass jede Straße einer Gemeinde einen Klumpen darstellt. Die Klumpenbildung wird in diesem Fall von der Variablen Y = Straße und Wohnort gesteuert. Von allen Straßen bzw. Klumpen wollen wir dann drei zuf¨allig ausw¨ ahlen und vollst¨ andig befragen. Diese Vorgehensweise hat im Gegensatz zur reinen Zufallsauswahl den Vorteil, dass man insgesamt nur drei Straßen in maximal drei Gemeinden aufsuchen muss und sich daher Reisekosten und Zeit spart. Bei der zuf¨ alligen Ziehung seien nun die drei Straßen “Stockweg in Strullendorf“, “Birkenstraße in Jugenheim“, “Auweg in K¨alberau“ gew¨ahlt worden. Es werden alle Einwohner aus diesen drei Klumpen befragt. Insgesamt sind das ungef¨ ahr 740 Einwohner. Stichprobe:
( X1, .... ............ , X600, X601, .... .... ..., X680, X681,........... X740 )
Birkenstraße Jugenheim
}
Stockweg Strullendorf
}
} 3 Klumpen:
Auweg Kälberau
Bei der Auswertung bzw. Hochrechnung auf ganz Deutschland ben¨otigt man die Verteilung der Variablen Y , d.h. die Einwohnerzahlen zu allen Straßen in Deutschland. Es ist nicht notwendig, dass die Variablen X und Y unabh¨angig sind. Daher ergeben sich auch f¨ ur die Zufallsvariablen Xi je nach Klumpen unterschiedliche Verteilungen. Folglich ist eine Klumpenstichprobe in der Regel keine unabh¨ angige Zufallsstichprobe im Sinne von (12.1). Falls jedoch die Variablen X und Y unabh¨ angig sind, kommt eine Klumpenstichprobe einer reinen Zufallsauswahl ohne Zur¨ ucklegen gleich. Beispiel (Fortsetzung). Wir teilen die Grundgesamtheit der Wahlberechtigten bez¨ uglich der Variablen
12.6 Stichproben bei unendlicher Grundgesamtheit
249
Y = Geburtstag auf. Es ergeben sich somit 366 Klumpen. Da die Variable X von Y unabh¨ angig sein d¨ urfte, kommt die Ziehung eines Klumpen einer reinen Zufallsstichprobe ohne Zur¨ ucklegen gleich. Manchmal ergeben sich bei einer Grundgesamtheit die Klumpen gewissermaßen von selbst, oder die Objekte h¨ angen beim Ziehen wie Klumpen zusammen. M¨ oglicherweise ist sogar ein echtes Ziehen nicht mehr erforderlich, da die Messwerte bereits vorliegen. In diesen F¨ allen ist das Ziehen der Stichprobe verf¨ uhrerisch bequem, kosteng¨ unstig und schnell. Jedoch sollte man streng u ufen, ob die Kriterien ¨berpr¨ einer Klumpenstichprobe oder einer reinen Zufallsauswahl tats¨achlich zutreffen. Beispiel (Fortsetzung). Dirk teilt die Grundgesamtheit bez¨ uglich “Y = Straße und Wohnort“ auf. Er selbst wohnt in Mauer. Aus Bequemlichkeit und Kostenersparnis zieht Dirk die Klumpen “Wehr¨ackerweg in Mauer“, “Goethestraße in Mauer“ und “Bocksg¨ assel in Mauer“ und befragt dort alle Personen. Da hier keine rein zuf¨ allige Auswahl aus allen Klumpen Deutschlands stattgefunden hat, entspricht diese Vorgehensweise keiner Klumpenstichprobe. Ines hat ein bundesweites Treffen aller Personen organisiert, die am 29. Februar Geburtstag haben. Es sind alle Personen gekommen. Wenn Ines dieses Treffen auch f¨ ur eine Wahlumfrage gebraucht, so d¨ urfte diese Vorgehensweise einer reinen Zufallsauswahl ohne Zur¨ ucklegen gleichkommen. W¨ aren nicht alle Eingeladenen gekommen, sondern beispielsweise ¨altere Menschen bevorzugt zu hause geblieben, so l¨age keine reine Zufallsauswahl vor.
12.6 Stichproben bei unendlicher Grundgesamtheit Im Gegensatz zur endlichen Grundgesamtheit interessieren wir uns nicht f¨ ur eine deskriptive Variable, sondern f¨ ur eine Zufallsvariable X und deren Kenngr¨oßen. Wir k¨ onnen nicht ohne weiteres in eine reale Grundgesamtheit stichprobenartig hineingreifen, da die unendliche Grundgesamtheit einer fiktiven, zuk¨ unftigen Urliste gleich kommt. Der Ziehung einer Stichprobe (X1 , X2 , . . . .Xn ) entspricht daher einer n−fachen Durchf¨ uhrung von Zufallsexperimenten, wobei wir diese so gestalten, dass die Zufallsvariablen Xi die gleiche Verteilung besitzen wie die interessierende Zufallsvariable X selbst. Ansonsten h¨ atte die Stichprobe mit dem, was wir eigentlich untersuchen wollen, wenig zu tun. K¨ onnen wir zudem sicherstellen, angig sind, liegt eine unabh¨ angige Zufallsstichdass die Variablen Xi unabh¨ probe im Sinne von (12.1) vor.
250
12 Stichproben
Beispiel (W¨ urfel mit Bleiplatte). Max besitzt einen manipulierten W¨ urfel mit Bleiplatte. Die Wahrscheinlichkeitsverteilung p1 , p2 , p3 , p4 , p5 , p6 kennt jedoch Max nicht. Diese Werte “existieren“ im gleichen Sinne wie bei einem normalen, gleichverteilten “Laplace-W¨ urfel“, jedoch sind sie numerisch nicht bekannt. Max w¨ urfelt n mal. Hier entspricht jedem Wurf i ein Zufallsexperiment, urfelergebnisse d¨ urften undessen Augenzahl mit Xi notiert wird. Die W¨ abh¨ angig auftreten, denn der W¨ urfel besitzt kein Ged¨achtnis. Falls sich die Bleiplatte innerhalb des W¨ urfels nicht verschiebt, besitzen alle n Experimente die gleichen Wahrscheinlichkeitsverteilungen bez¨ uglich der Variablen “X = Augenzahl“. Beispiel (Fahrgastaufkommen). Christina m¨ochte das t¨agliche Fahrgastaufkommen der neu er¨ offneten Buslinie 007 untersuchen. Sie misst w¨ahrend der n¨ achsten n Tage die Kundenanzahl. Hier k¨onnte man bezweifeln, ob die Anzahl der Fahrg¨ aste beispielsweise an einem Sonntag dieselbe Verteilung besitzt wie an einem Werktag. Bei der Frage, ob das Fahrgastaufkommen von Tag zu Tag unabh¨ angig ist, k¨onnte man zudem einwenden, dass ein Pendler, der montags nicht f¨ ahrt, am darauf folgenden Tag wahrscheinlich auch nicht f¨ ahrt, da er beispielsweise mit einer schweren Grippe im Bett liegt. Christinas Ziehungsverfahren w¨are daher ungeeignet f¨ ur ein Sch¨ atz- oder Testverfahren, das unabh¨ angige und identisch verteilte Stich probenvariablen (X1 , X2 , . . . .Xn ) voraussetzt.
12.7 Bivariate Stichprobe Im Gegensatz zu den bisher besprochenen univariaten Stichproben werden bei bivariaten Stichproben pro Objekt nicht nur eine Variable, sondern jeweils zwei Variablen X, Y gemessen. Bei einer Stichprobe vom Umfang n erhalten wir daher n Paare von Zufallsvariablen: (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ). Auf Seite 183 haben wir bereits ein Beispiel betrachtet, bei dem eine Stichprobe vom Umfang n = 1 gezogen worden ist. Bez¨ uglich der verschiedenen Ziehungsverfahren und ihrer Auswirkungen auf ¨ wie im die Stichprobenvariablen (Xi , Yi ) gelten die gleichen Uberlegungen univariaten Fall. Analog zu (12.1) definieren wir die sogenannte bivariate, unabh¨ angige Zufallsstichprobe. Sie ist in der Regel Voraussetzung f¨ ur die induktiven Verfahren, die in dieser Lekt¨ ure vorgestellt werden.
12.7 Bivariate Stichprobe
Bivariate, unabh¨ angige Zufallsstichprobe
251
(12.5)
Eine bivariate, unabh¨ angige Zufallsstichprobe (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) vom Umfang n ist durch folgende Eigenschaften definiert: -
-
Die Zufallsvariablenpaare (Xi , Yi ) sind f¨ ur alle i identisch verteilt und zwar genau so wie die zu untersuchenden Variablen (X, Y ) bez¨ uglich der Grundgesamtheit. ur i = j unDie Zufallsvariablenpaare (Xi , Yi ) und (Xj , Yj ) sind f¨ abh¨ angig.
Man beachte, dass zwar zwei Variablenpaare (Xi , Yi ) und (Xk , Yk ), die zwei Ziehungen entsprechen, unabh¨ angig sind, jedoch innerhalb einer Ziehung die angig zu sein brauchen. In der Regel sind Variablen Xi und Yi nicht unabh¨ diese sogar abh¨ angig. Beispiel (Gewicht und Gr¨ oße). Zu den Einwohnern Deutschlands betrachten wir die Variablen “X = Gewicht [kg]“ und “Y = K¨orpergr¨oße [cm]“. Wir w¨ ahlen aus der Bev¨ olkerung mit ca. N = 80 000 000 Personen n = 20 Personen rein zuf¨ allig aus. Da der Stichprobenumfang deutlich geringer als 5% der Grundgesamtheit ist, k¨onnen wir den Unterschied zwischen “Ziehen mit Zur¨ ucklegen“ und “Ziehen ohne Zur¨ ucklegen“ vernachl¨ assigen. Ob bei der ersten Ziehung eine große oder kleine, schwere oder leichte Person gezogen wird hat keinen Einfluss, welche Werte bei der zweiten Ziehung gezogen werden. Daher sind die Zufallsvariablenpaare (X1 , Y1 ) angig. Aus analogen Gr¨ unden sind alle Zufallsvariaund (X2 , Y2 ) unabh¨ blenpaare (X1 , Y1 ), (X2 , Y2 ), . . . , (X20 , Y20 ) unabh¨angig. urfBetrachten wir allerdings beispielsweise die Variablen X1 und Y1 , so d¨ ten diese beiden Variablen sehr wohl abh¨angig sein. Falls der Wert zu X1 klein ist, d.h. eine leichte Person mit nur etwa 10 Kilogramm gezogen wird, ist auch zu erwarten, dass dieselbe Person nicht sehr groß ist, d.h. allt. Eine derartige Abh¨angigkeit beder Wert zu Y1 ebenfalls klein ausf¨ steht bei allen Ziehungen zwischen Xi und Yi . Bei einer multivariaten Stichprobe vom Umfang n werden m ≥ 2, d.h. mindestens zwei Variablen pro Objekt gemessen. Im Grunde kann man den bivariaten Fall analog fortsetzen, allerdings werden die Notationen schnell un¨ ubersichtlich. Die Stichprobe, welche aus n · m Zufallsvariablen besteht, notiert man mit (X1,1 , X1,2 , . . . , , X1,m ), . . . , (Xn,1 , Xn,2 , . . . , , Xn,m ).
(12.6)
Im Beispiel k¨ onnte man bei einer gezogenen Person zus¨atzlich zum Gewicht und zur Gr¨ oße noch das Alter, den Namen und weitere Merkmale messen.
13 Sch¨ atzverfahren
¨ 13.1 Uberblick und Grundbegriffe In der Deskriptiven Statistik liegt eine Totalerhebung der Grundgesamtheit vor. Daher kennt man die Parameter bzw. statistischen Kenngr¨oßen wie etwa den Mittelwert oder die Varianz einer Variablen X exakt. Wenn nur Stichproben zur Verf¨ ugung stehen, k¨ onnen wir die wahren, aber unbekannten Parameter der Grundgesamtheit nicht exakt bestimmen. In diesem Fall greifen wir auf Verfahren zur¨ uck, welche diese Parameterwerte zumindest ann¨ahernd zu bestimmen bzw. zu sch¨ atzen versuchen. Dabei unterstellen wir, wenn nicht ausdr¨ ucklich etwas anderes vermerkt wird, dass eine unabh¨ angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) im Sinne von (12.1) vorliegt. Insbesondere sind dann die Stichprobenvariablen Xi genauso verteilt wie die Variable X bez¨ uglich der Grundgesamtheit selbst. Daher ist es gleichwertig, ob wir die die unbekannten Kenngr¨ oßen der Grundgesamtheit oder die Kenngr¨ oßen der Zufallsvariablen Xi wie etwa μ = E[Xi ], σ 2 = V AR[Xi ], . . . zu sch¨ atzen versuchen. Stellvertretend notieren wir f¨ ur derartige Parameter im allgemeinen Fall: θ = wahrer Wert des zu sch¨ atzenden Parameters.
(13.1)
Im Alltag sind wir es gewohnt, beispielsweise Gewichte mit einer Waage, Zeiten mit Uhren und L¨ angen mit Maßb¨ andern zu messen. Je nachdem welches Ger¨ at wir benutzen, und welche Qualit¨ at es besitzt, werden uns die Ergebnisse mit unterschiedlicher Pr¨ azision bzw. verschieden vielen Nachkommastellen angezeigt. Zudem wissen wir, dass die vom Ger¨at angezeigten Ergebnisse manchmal falsch sein k¨ onnen. Bei einem statistischen Sch¨atzverfahren verh¨alt es sich analog. Daher definieren wir die Qualit¨ at eines Sch¨atzverfahrens anhand seiner Pr¨ azision und seiner Zuverl¨ assigkeit.
254
13 Sch¨ atzverfahren
Pr¨ azision = Genauigkeit, mit der ein Ergebnis angezeigt wird. Zuverl¨ assigkeit = Wahrscheinlichkeit, ein richtiges Ergebnis zu erhalten. In der Regel sind dies konkurrierende Eigenschaften, d.h. eine Verbesserung der Pr¨ azision verringert die Zuverl¨ assigkeit und umgekehrt. Beispiel (Altersbestimmung). Studentin Onda betritt eine Bar und wird von Fritz und Oskar wahrgenommen und bewundert. Fritz sch¨atzt das Alter von Onda auf 20 bis 30 Jahre. Oskar sch¨atzt ihr Alter auf 22.4638207 Jahre. Die Sch¨ atzung von Fritz ist offenbar weniger pr¨azise als die Sch¨atzung von Oskar. Jedoch d¨ urfte Fritz ein zuverl¨assigerer Sch¨atzer als Oskar sein, da seine Aussage mit hoher Wahrscheinlichkeit richtig ist, wohingegen Oskars Ergebnis nur mit sehr viel Gl¨ uck stimmen d¨ urfte. In der Statistik unterscheidet man zwischen Punktsch¨ atzern und Konfidenzintervallverfahren. Ein Punktsch¨ atzer f¨ ur den Parameter θ ist eine Zufallsvariable, welche mit Hilfe der Stichprobenvariablen X1 , X2 , . . . .Xn beˆ bezeichnet wird: rechnet wird und mit Θ ˆ = Punktsch¨ Θ atzer f¨ ur den Parameter θ.
(13.2)
Bei einem Punktsch¨ atzer ist die Pr¨ azision sehr hoch, denn das jeweils angezeigte Ergebnis entspricht einer reellen Zahl, die man mit einem einzelnen Punkt auf dem Zahlstrahl identifizieren kann. Beispielsweise kennen wir ¯ Wir bereits f¨ ur den Parameter “Erwartungswert“ μ den Punktsch¨atzer X. werden sp¨ ater zeigen, dass der Preis f¨ ur diese hohe Pr¨azision eine miserabel schlechte Zuverl¨ assigkeit ist. Dies erkennen wir bereits im Beispiel anhand Oskars Sch¨ atzung. Bei einem Konfidenzintervallverfahren wird als Ergebnis ein Zahlbereich bzw. ein Intervall angezeigt. Dies entspricht im Beispiel dem Sch¨atzer “Fritz“. Zwar ist das Ergebnis weniger pr¨ azise, daf¨ ur aber ist die Zuverl¨assigkeit h¨ oher. Bei einem Konfidenzintervallverfahren wird es dem Anwender sogar erm¨ oglicht, die Zuverl¨ assigkeit des Verfahrens im Voraus selbst festzulegen. In der Literatur gebraucht man den Begriff “Zuverl¨assigkeit“ synonym zu “Sicherheitswahrscheinlichkeit“ oder “Konfidenz“ und notiert deren Wert mit 1 − α. Dabei entspricht der Wert α der Unzuverl¨assigleit des Verfahrens bzw. dem Risiko, dass man falsch sch¨ atzt. Zur Veranschaulichung diverser mathematischer Eigenschaften von Sch¨atzverfahren geben wir ein weiteres Beispiel. Beispiel (Schießgewehr). Wir interessieren uns f¨ ur den Parameterwert θ einer Variablen X. Dieser Wert ist eine reelle Zahl und l¨asst sich als geometrischer Punkt auf der reellen Zahlgeraden darstellen. Das Problem
¨ 13.1 Uberblick und Grundbegriffe
Stichprobe 1: Stichprobe 2: Stichprobe 3: Stichprobe 4: Stichprobe 5: Stichprobe 6: ... ...
Punktschätzer
Konfidenzintervalle
Unsichtbares Ziel, wahrer Wert q
Unsichtbares Ziel, wahrer Wert q
... ...
8
}
Kaum ein “Punkt” bzw. Pfeil trifft den Wert q.
... ...
}
255
Der Anteil aller Intervalle, die den Wert q überdecken, beträgt 1-a.
Abbildung 13.1. Die d¨ unnen Pfeile stellen einzelne Punktsch¨ atzungen dar. Sie sind zwar pr¨ azise, jedoch nicht zuverl¨ assig, da sie den wahren Wert θ so gut wie nie treffen. Die Konfidenzintervalle sind zwar weniger pr¨ azise, daf¨ ur aber besitzen sie eine vom Anwender vorgegebene hohe Zuverl¨ assigkeit bzw. Konfidenz von 1 − α.
besteht darin, dass uns dieser Wert und somit seine Position auf der Zahlgeraden unbekannt ist. Der Punkt ist gewissermaßen existent, aber unsichtbar. Ein Sch¨ atzverfahren kann man mit einem Schießgewehr vergleichen, mit dem wir auf die Zahlgerade schießen, um den unsichtbaren Zielpunkt zu treffen. Da wir das Ziel nicht sehen k¨onnen, haben wir uns eine Art “Peilautomatik“ gebastelt, die im Stande ist, das Ziel zumindest zu erahnen bzw. zu sch¨ atzen. Die Verwendung von Stichproben entspricht dem Umstand, dass die Peilautomatik nicht perfekt funktioniert und die Sch¨ usse bzw. Sch¨ atzungen das Ziel auch verfehlen k¨onnen. Da wir der Peilautomatik zutrauen, zumindest in die N¨ ahe des Ziels zu schießen, identifizieren wir das Einschussloch als Sch¨ atzwert f¨ ur den tats¨achlichen, aber nach wie vor unsichtbaren Zielpunkt. Ein Punktsch¨ atzverfahren kann man mit einem speziellen Schießgewehr vergleichen, das ein nadeld¨ unnes Kaliber besitzt, d.h. Kugeln verwendet, die wie geometrische Punkte verschwindend klein sind. Da der Zielpunkt selbst auch nur ein verschwindend kleiner Punkt auf der Zahlgerade ist, d¨ urfte es nahezu unm¨ oglich sein, diesen mit einer ebenso kleinen Kugel zu treffen. Daher besitzt ein Punktsch¨ atzverfahren nur eine sehr geringe Zuverl¨ assigkeit. Die Grundidee eines Konfidenzintervallverfahrens besteht darin, das Kaliber zu vergr¨ oßern, wodurch sich die Chance erh¨oht, das Ziel zu treffen. Dadurch verringert sich zwar die Pr¨ azision, die Zuverl¨assigkeit aber nimmt zu. Entscheidend ist, dass der Anwender die Zuverl¨assigkeit bzw. Treffsicherheit auf einen von ihm im Voraus festgelegten Wert 1 − α einstellen kann. Die Peilautomatik benutzt dann gewissermaßen von selbst
256
13 Sch¨ atzverfahren Erwartungstreue und Verf¨ alschung bei Punktsch¨ atzern v
v
Punktschätzer Q1
Punktschätzer Q2
Unsichtbares Ziel, wahrer Wert q
Unsichtbares Ziel, wahrer Wert q
ˆ 1 , welche Abbildung 13.2. Die einzelnen Sch¨ atzergebnisse des Punktsch¨ atzers Θ mit Pfeilen dargestellt sind, treffen zwar fast nie den wahren Wert θ, jedoch ˆ 1 erwartungstreu. liegen die Sch¨ atzungen zumindest im Schnitt richtig. Daher ist Θ ˆ 2 hingegen ist nicht erwartungstreu, sondern verf¨ alscht, da er im Der Sch¨ atzer Θ Schnitt zu hoch sch¨ atzt.
die richtige Kalibergr¨ oße. Im Extremfall, wenn eine riesengroße Kanonenkugel verwendet wird, ist die Treffsicherheit nahezu gewiss. Das riesige Einschussloch ist aber nicht “informativ“ bzw. pr¨azise. Wir empfinden es als nat¨ urlich und gerecht, wenn man f¨ ur Fleiß belohnt wird. ˆ w¨ Bei einem Punktsch¨ atzer Θ urde dies bedeuten, dass man mit wachsendem Stichprobenumfang n bessere Sch¨ atzungen erh¨ alt. Wenn der Punktsch¨atzer im Extremfall, also bei einer unendlich großen Stichprobe mit n = ∞, eine hundertprozentige Zuverl¨ assigkeit erreicht, spricht man von einem konsitenten Sch¨ atzer. Mathematisch definiert man diese Eigenschaft mit einem Grenzwert:
ˆ − θ| > = 0, f¨ur alle . ˆ ist ein konsistenter Sch¨atzer f¨ur θ ⇔ lim P |Θ Θ n→∞
(13.3) ˆ − θ| auftritt, die Das heißt: Die Wahrscheinlichkeit, dass eine Abweichung |Θ gr¨ oßer als eine noch so kleine Zahl ist, geht mit wachsendem Stichprobenumfang n gegen Null. Wenn man wiederholt und unabh¨ angig Stichproben vom Umfang n zieht und ˆ berechnet, bekommt man in der Regel von Stichjeweils den Punktsch¨ atzer Θ probe zu Stichprobe verschiedene Sch¨ atzwerte. Diese k¨onnen im Einzelfall vom wahren Wert θ verschieden sein: ˆ = θ. Θ
(13.4)
Wenn aber die Sch¨ atzungen zumindest im Schnitt richtig ausfallen, spricht man von einem erwartungstreuen Sch¨ atzer. Formal lautet dies: ˆ ist ein erwartungstreuer Sch¨ Θ atzer f¨ ur θ
⇔
ˆ = θ. E[Θ]
(13.5)
ˆ 2 zur ˆ 1 und Θ Wenn wir zwei verschiedene, erwartungstreue Punktsch¨atzer Θ Sch¨ atzung von θ zur Wahl haben, w¨ urden wir denjenigen Sch¨atzer als “besser“
13.2 Punktsch¨ atzer
257
Wirksamkeit bei Punktsch¨ atzern v
v
Punktschätzer Q1
Punktschätzer Q2
Unsichtbares Ziel, wahrer Wert
Unsichtbares Ziel, wahrer Wert
q
q
Abbildung 13.3. Beide Punktsch¨ atzer sind erwartungstreu. Jedoch ist der ˆ 2 , da die einzelnen Sch¨ ˆ 1 wirksamer als Θ atzergebnisse, welche mit Sch¨ atzer Θ Pfeilen dargestellt sind, weniger stark streuen.
bzw. wirksameren Sch¨ atzer bezeichnen, der weniger stark vom tats¨achlichen Wert θ abweicht. Dies kann man mit Hilfe der Varianz der beiden Sch¨ atzer pr¨ azisieren. Dabei setzt man f¨ ur beide Sch¨atzer Erwartungstreue voraus: ˆ 2 ⇔ V AR[Θ ˆ 1 ] < V AR[Θ ˆ 2 ]. (13.6) ˆ 1 ist ein wirksamerer Sch¨ atzer als Θ Θ Beispiel (Fortsetzung). Wenn ein Schießgewehr nicht richtig justiert ist, gruppieren sich die Einschussl¨ ocher im Schnitt nicht um das Ziel, sondern an einer anderen daneben liegenden Stelle. Ein richtig eingestelltes Gewehr hingegen k¨ onnte man als “erwartungstreu“ bezeichnen. Zwar treffen wir im Einzelfall nicht genau den Zielpunkt, jedoch liegen die Einschussl¨ocher zumindest im Schnitt richtig. Wenn wir ein altes, klappriges Gewehr benutzen, so kann man dieses zwar auch richtig justieren bzw. erwartungstreu einstellen, jedoch d¨ urften die Einschussl¨ ocher weiter streuen. Das Gewehr ist weniger “wirksam“.
13.2 Punktsch¨ atzer Es gibt verschiedene Methoden, Punktsch¨ atzer zu konstruieren. Eine besondere Rolle spielt hierbei die Methode der sogenannten “Likelihoodsch¨atzer“, die wir jedoch in dieser Lekt¨ ure nicht n¨ aher besprechen werden. Sie ist f¨ ur ¨ spezielle Sch¨ atzprobleme oder theoretische Uberlegungen interessant. Wir beschr¨ anken uns nur auf einige wenige, g¨ angige Punktsch¨atzer. Sie basieren mehr oder weniger auf den gleichen Formeln, die wir f¨ ur die entsprechenden Parameter aus der Deskriptiven Statistik kennen. Da sich Punktsch¨atzer aufgrund von Stichprobenvariablen Xi berechnen, sind Punktsch¨atzer als Zufallsvariablen aufzufassen. Wie gewohnt notieren wir diese mit Großbuchstaben. Liegt ein konkret berechneter Sch¨ atzwert, also eine Realisation des Sch¨ atzers vor, benutzen wir Kleinbuchstaben.
258
13 Sch¨ atzverfahren
F¨ ur eine univariate Stichprobe (X1 , X2 , . . . .Xn ) definieren wir: Stichprobenmittel
¯= 1 Xi X n i=1
(13.7)
1 ¯ 2 (Xi − X) n − 1 i=1
(13.8)
n
Stichprobenvarianz n
S2 =
Stichprobenstandardabweichung S=
√
S2
(13.9)
Warum man in (13.8) durch n − 1 teilt, erkl¨ aren wir sp¨ater auf Seite 261. F¨ ur den speziellen Fall, dass die Variable X nur die Werte “X = 1“ oder “X = 0“ annehmen kann, also X eine Bernoulli-Variable ist, bezeichnen wir den Anteil der “Treffer“ in der Grundgesamtheit mit p = h(X = 1) =
Treffer in der Grundgesamtheit . N
Entsprechend notieren wir den Punktsch¨ atzer f¨ ur diesen Anteil p mit: Anteilsch¨ atzer ¯ = Treffer in der Stichprobe Pˆ = X n
(13.10)
F¨ ur eine bivariate Stichprobe (X1 , Y1 ), (X2 , Y2 ), . . . .(Xn , Yn ) definieren wir: Stichprobenkovarianz: 1 ¯ i − Y¯ ) (Xi − X)(Y n − 1 i=1 n
Sx,y =
(13.11)
Stichprobenkorrelation: n
¯ i − Y¯ ) − X)(Y ¯ 2 n (Yi − Y¯ )2 i=1 (Xi − X) · i=1
Rx,y = ! n
i=1 (Xi
(13.12)
Beispiel (Arbeitnehmer). Wir betrachten die Grundgesamtheit aller Arbeitnehmer in Bimmelstadt mit den Merkmalen “X = Alter, Y = Lohn
13.2 Punktsch¨ atzer
259
[e/Monat], Z = Geschlecht (m¨ annlich = 0, weiblich = 1)“. Es liegt eine Stichprobe vom Umfang n = 5 vor: (33, 2500, 1), (24, 2900, 0), (42, 4200, 1), (33, 2800, 0), (54, 3500, 0). Daraus berechnen wir die Realisationen der Punktsch¨atzer: 33 + 24 + 42 + 33 + 54 = 37.2, 5 2500 + 2900 + 4200 + 2800 + 3500 = 3180, y¯ = 5 2 pˆz = Frauenanteil in der Stichprobe = z¯ = = 0.40, 5 x ¯=
1 ( (33 − 37.2)2 + (24 − 37.2)2 + (42 − 37.2)2 + 4 +(33 − 37.2)2 ) + (54 − 37.2)2 ) = 128.7,
s2x =
s2y =
1 (2500 − 3180)2 + (2900 − 3180)2 + (4200 − 3180)2 4
+(2800 − 3180)2 + (3500 − 3180)2
= 457000, 1 (33 − 37.2)(2500 − 3180) + (24 − 37.2)(2900 − 3180) 4 +(42 − 37.2)(4200 − 3180) + (33 − 37.2)(2800 − 3180)
+(54 − 37.2)(3500 − 3180) = 4605,
sx,y =
rx,y =
sx,y 4605 = 0.60046. = sx sy 11.34 · 676.02
Mit diesem Beispiel soll in erster Linie der rechnerische Gebrauch der Formeln vorgef¨ uhrt werden. Wie gut oder schlecht diese Punktsch¨atzergebnisse die wahren Werte der Grundgesamtheit wiedergeben, k¨onnen wir nicht beurteilen. Nach einer anderen Stichprobenziehung vom Umfang n = 5 aus derselben Grundgesantheit k¨ onnten m¨oglicherweise ganz andere Sch¨ atzwerte auftreten. Die Frage, wie oft ein Punktsch¨ atzer den wahren Parameterwert “trifft“ bzw. wie oft und wie weit er sich versch¨ atzt, l¨ asst sich beantworten, wenn wir die Wahrscheinlichkeitsverteilung des Punktsch¨ atzers kennen. Um diese zu ermitteln, sind zwei Schritte n¨ otig. Zun¨ achst muss man wissen, welche Verteilung die Stichprobenvariablen Xi selbst besitzen. Diese sind durch das Ziehungsverfahren (vgl. Kapitel 12.2) bestimmt. Im zweiten Schritt w¨are zu kl¨aren, wie
260
13 Sch¨ atzverfahren
sich die Zuf¨ alligkeiten der Stichprobenvariablen Xi auf den Punktsch¨atzer fortpflanzen. Letzteres ist durch die Formeln (13.7)-(13.12) festgelegt. Dies l¨ asst ahnen, dass die mathematisch exakte Bestimmung der Verteilung von Punktsch¨ atzern oft recht schwierig ist und auch einen begeisterten Leser entmutigen kann. Wir zitieren daher nur f¨ ur einige F¨alle die Resultate. Stichprobenmittel In (11.5) und (11.7) haben wir bereits den Erwartungswert und die Varianz ¯ berechnet. Diese Ergebnisse sind des Punktsch¨ atzers “Stichprobenmittel“ X f¨ ur unabh¨ angige Zufallsstichproben allgemeing¨ ultig, ganz gleich welche Verteilungen die Stichprobenvariablen Xi selbst besitzen: ¯ = μ, E[X] 2 ¯ = σ , V AR[X] n σ σ2 σX¯ = = √ . n n
(13.13) (13.14) (13.15)
ultig, Die Formel (13.13) ist auch f¨ ur abh¨ angige Stichprobenvariablen Xi g¨ w¨ ahrend die Varianz (13.14) die Unabh¨ angigkeit der Stichprobenvariablen Xi voraussetzt. F¨ ur den speziellen Fall, dass man gem¨aß Kapitel 12.3 Ziehen ohne Zur¨ ucklegen praktiziert, erh¨ alt man f¨ ur die Varianz des Stichprobenmittels ¯ = V AR[X]
σ2 N − n . n N −1
(13.16)
−n Da f¨ ur n > 1 immer N N −1 < 1 gilt, ist die Varianz des Stichprobenmittels beim “Ziehen ohne Zur¨ ucklegen“ kleiner als bei unabh¨angigen Zufallsstichproben und somit auch kleiner als beim “Ziehen mit Zur¨ ucklegen“. Formel (13.13) zeigt, dass das Stichprobenmittel im Schnitt den Mittelwert ¯ der Grundgesamtheit bzw. den Erwartungswert μ richtig sch¨atzt. Daher ist X ein erwartungstreuer Sch¨ atzer. Wie man anhand von Formel (13.14) erkennt, ¯ kleiner als die Varianz σ 2 einer Stichproist die Varianz des Punktsch¨ atzers X unglichen Variablen X der Grundgesamtheit, benvariablen Xi bzw. der urspr¨ und l¨ asst sich sogar auf fast Null reduzieren, sofern der Stichprobenumfang n groß genug ist. Dadurch lassen sich die Sch¨ atzfehler im Schnitt verkleinern, jedoch nicht vollkommen vermeiden, denn die Varianz (13.14) ist f¨ ur kein n exakt 0. Im Fall “Ziehen ohne Zur¨ ucklegen“ verh¨alt es sich a¨hnlich. Wenn jedoch die Stichprobe so groß ist, dass eine Totalkontrolle vorliegt, ist n = N ¯ betr¨ und die Varianz des Sch¨ atzers X agt Null. Die Sch¨atzung gelingt dann immer exakt. ¯ zu bestimmen, kann kompliziert Die Verteilung des Stichprobenmittels X sein, je nachdem welche Verteilung die Stichprobenvariablen Xi selbst besitzen. F¨ ur große Stichprobenumf¨ ange n jedoch k¨ onnen wir wegen des Zentralen
13.2 Punktsch¨ atzer
261
¯ bei unabh¨angigen Zufallsstichproben Grenzwertsatzes die Verteilung von X mit einer Normalverteilung approximieren. Dies haben wir im Kapitel 11.1 besprochen. Stichprobenvarianz Auch der Punktsch¨ atzer “Stichprobenvarianz“ ist eine Zufallsvariable. Die exangt wiederum von der Art der Verteilung von Xi ab akte Verteilung von S 2 h¨ und kann zu sehr komplexen Rechnungen f¨ uhren. F¨ ur große Stichproben l¨asst sich indirekt u ¨ber den Zentralen Grenzwertsatz zeigen, dass sich die Verteilung von S 2 mit einer sogenannten “Chi-quadrat-Verteilung“ ann¨ahern l¨asst. ¨ Zur Uberpr¨ ufung der Erwartungstreue des Sch¨ atzers S 2 berechnen wir dessen Erwartungswert und kontrollieren, ob er mit dem unbekannten, aber exakten, zu sch¨ atzenden Wert σ 2 u ¨bereinstimmt. Diese Rechnung ist etwas umfangreicher und ist f¨ ur den begeisterten Leser auf Seite 387 zur¨ uckgestellt. Dabei wird eine unabh¨ angige Zufallsstichprobe unterstellt. n 1 ¯ 2 = . . . = σ2 . (Xi − X) (13.17) E[S 2 ] = E n − 1 i=1 Im Durchschnitt gesehen sind also die Sch¨ atzergebnisse korrekt. Dies erkl¨art im Nachhinein, weshalb man in der Formel (13.8) nicht durch n n, sondern ¯ 2 durch n − 1 teilt. Wenn wir n¨ amlich statt S 2 den Sch¨atzer n1 i=1 (Xi − X) benutzen w¨ urden, so ergibt eine analoge Rechnung wie in (13.17): n n n − 1 1 2 2 ¯ ¯ = E (Xi − X) (Xi − X) E n i=1 n(n − 1) i=1 = (13.17)
=
n 1 n−1 2 ¯ E (Xi − X) n n − 1 i=1 n−1 2 σ n
<
σ2 .
(13.18)
Die Sch¨ atzung w¨ are dann im Schnitt zu klein, d.h. es tritt ein tendenzielles Versch¨ atzen “nach unten“ auf. Wir h¨ atten keine erwartungstreue, sondern eine asst sich dieser Effekt rein intuitiv kaum verf¨ alschte Sch¨ atzung f¨ ur σ 2 . Leider l¨ nachvollziehen. Anzumerken ist, dass bei der Stichprobenvarianz S 2 auch eine ¯ durchgef¨ Sch¨ atzung f¨ ur μ in Form von X uhrt wird. Insofern werden indirekt eigentlich zwei Parameter in einem Schritt gesch¨atzt. atzers S 2 gibt es keine allgemeing¨ ultige F¨ ur die Varianz V AR[S 2 ] des Punktsch¨ Formel. Sie ist nur in einigen Spezialf¨ allen darstellbar. Wir verzichten auf Details. Stichprobenstandardabweichung Die Berechnung der Verteilung, des Erwartungswertes und der Varianz von S sind je nach Art der Verteilung der Stichprobenvariablen Xi recht schwierig.
262
13 Sch¨ atzverfahren
Man beachte, dass im Allgemeinen E[S] =
E[S 2 ] = σ
(13.19)
gilt. Daher ist der Punktsch¨ atzer S nicht erwartungstreu sondern verf¨ alscht. Anwender nehmen in der Regel diesen Fehler in Kauf. Anteilsch¨ atzer Die Variable X ist eine Bernoulli-Variable und kann nur die Werte “X = 1“ oder “X = 0“ annehmen. Daher entspricht eine unabh¨angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) einer Bernoulli-Kette. Bekanntlich ist dann die Variable “Y = Anzahl Treffer in der Stichprobe“ gem¨ aß (10.32) binomialverteilt. F¨ ur die Verteilung des Punktsch¨ atzers Pˆ = Yn folgt daher: P (Pˆ ≤ x) = P
Y ≤x n
= P (Y ≤ xn) =
xn n i=0
i
pi (1 − p)n−i ,
wobei xn auf die n¨ achste ganze Zahl abzurunden ist. Der Punktsch¨atzer Pˆ ist wegen E[Y ] np Y ˆ = = = p E[P ] = E n n n erwartungstreu. Die Varianz des Punktsch¨ atzers betr¨agt V AR[Y ] Y np(1 − p) p(1 − p) = V AR[Pˆ ] = V AR = = n n2 n2 n und geht mit wachsendem Stichprobenumfang n gegen Null. Kritik ¯ und Pˆ , ist in der Der Gebrauch von Punktsch¨ atzern, insbesondere von X Praxis selbstverst¨ andlich und weit verbreitet. Jedoch sollte man die Qualit¨at von Punktsch¨ atzern nicht u ¨berbewerten. Wie bereits in Abbildung 13.1 illustriert, ist zwar die Pr¨ azision bei Punktsch¨ atzern sehr hoch, die Zuverl¨assigkeit aber gering. Der Anwender sieht, wie im Beispiel “Schießgewehr“ dargestellt, nur ein winziges, punktuelles Einschussloch. Er kann nur hoffen, dass sich der Einschuss wenigstens in der N¨ ahe des gesuchten Zielpunktes befindet.
13.3 Konfidenzintervallverfahren fu ¨r den Erwartungswert bei bekannter Varianz Voraussetzungen: 1. Es liegt eine unabh¨ angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) vor, wobei der unbekannte Erwartungswert μ = E[Xi ] gesch¨atzt werden soll.
13.3 Konfidenzintervallverfahren f¨ ur den Erwartungswert bei bek. Varianz
263
2. Der Wert der Varianz σ 2 = V AR[Xi ] ist exakt bekannt. ¯ = 1 (X1 + X2 + . . . + Xn ) ist normalverteilt. 3. Der Punktsch¨ atzer X n Annahme 2 ist etwas unrealistisch und wird im n¨achsten Unterkapitel fallen gelassen. Sie vereinfacht allerdings die Herleitung der Formeln f¨ ur die Konfidenzintervalle, so dass die wesentlichen Ideen nicht zu sehr in technischen Details verschwinden. Annahme 3 ist automatisch erf¨ ullt, wenn bereits die einzelnen Stichprobenvariablen Xi der Zufallsstichprobe normalverteilt sind. Sollten die Variablen Xi nicht normalverteilt sein, so ist bei “großen“ Stichproben aufgrund des ¯ dennoch ann¨ Zentralen Grenzwertsatzes X ahernd normalverteilt. In den Anwendungen gelten Stichprobenumf¨ ange n ≥ 30 als “gen¨ ugend groß“. Mit (13.13) und (13.14 ) folgt aus Annahme 3: 2 ¯ ∼ N (μ ; σ ). X n
(13.20)
Wie im Beispiel “Schießgewehr“ auf Seite 254 besprochen, erhalten wir Konfidenzintervalle, indem wir das Kaliber des Punktsch¨atzers so weit vergr¨oßern, dass eine Treffsicherheit von 1 − α gew¨ ahrleistet werden kann. Dazu “verbrei¯ symmetrisch nach links und rechts um jeweils tern“ wir den Punktsch¨ atzer X einen Wert d: ¯ − d; X ¯ + d]. [X (13.21) Das Kaliber, mit dem wir dann schießen, ist 2d und entspricht der L¨ange des Konfidenzintervalls. Die Aufgabe besteht darin, den Wert d so festzulegen, dass wir mit einer Wahrscheinlichkeit von 1 − α den unsichtbaren Zielwert μ treffen. Formal lautet dies: ¯ −d≤ μ≤ X ¯ + d) = 1 − α. P (X
(13.22)
Wir l¨ osen diesen Ansatz gewissermaßen nach d auf: ¯ −d≤ μ≤ X ¯ + d) = 1 − α P (X ¯ − d ≤ μ und μ ≤ X ¯ + d) = 1 − α ⇐⇒ P (X ¯ ≤ μ + d und μ − d ≤ X) ¯ = 1−α ⇐⇒ P (X ¯ ⇐⇒ P (μ − d ≤ X ≤ μ + d) = 1 − α ¯ ≤ μ + d) − P (X ¯ < μ − d) = 1 − α. ⇐⇒ P (X
(13.23)
¯ ∼ N (μ ; σ2 ) und wenden Formel (10.13) Jetzt nutzen wir die Eigenschaft X n an: μ−d−μ μ+d−μ √ √ −Φ = 1−α ⇐⇒ Φ σ/ n σ/ n √ √ d n d n −Φ − = 1 − α. ⇐⇒ Φ σ σ
264
13 Sch¨ atzverfahren
Wegen der Symmetrie der standardisierten Gaußschen Glockenkurve gilt generell Φ(−x) = 1 − Φ(x). Daher folgt weiter: √ √ d n d n − 1− Φ = 1−α ⇐⇒ Φ σ σ √ 1+1−α d n = . ⇐⇒ Φ σ 2 √
Wenn wir die Standardnormalverteilung bis zur Stelle d σ n kumulieren, so = 1 − α2 ergeben. Mit anderen muss sich eine Wahrscheinlichkeit von 1+1−α 2 √ d n Worten, wir m¨ ussen σ mit dem (1 − α2 )-Quantil der Standardnormalverteilung gleichsetzen. Bezeichnen wir dieses Quantil mit λ1− α2 , ergibt sich: √ n = λ1− α2 ⇐⇒ σ σ ⇐⇒ d = √ λ1− α2 . n d
(13.24)
Das Quantil kann man aus der Tabelle im Anhang entnehmen, σ ist per Voraussetzung bekannt und der Stichprobenumfang n ebenso. Wir k¨onnen daher den Wert d ermitteln und m¨ ussen ihn nur noch in (13.21) einsetzen, um das gew¨ unschte Konfidenzintervall zu erhalten. Konfidenzintervallverfahren f¨ ur den Erwartungswert μ ¯ − √σ λ ; X ¯ + √σ λ , X (13.25) n n wobei λ = λ1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist. Die Zuverl¨ assigkeit bzw. Sicherheitswahrscheinlichkeit betr¨agt 1 − α; die Varianz σ 2 wird als bekannt vorausgesetzt. Beispiel (Bierflaschen). Dagobert arbeitet an einer Abf¨ ullanlage f¨ ur Bierflaschen. Die F¨ ullmenge einer einzelnen Flasche sei mit X [ml] bezeichnet. Sie kann als Zufallsvariable betrachtet werden, da aufgrund des Sch¨aumens die F¨ ullmengen unterschiedlich ausfallen. Ferner unterstellt Dagobert f¨ ur die F¨ ullmenge X eine Normalverteilung. Die Standardabweichung von σ = 1.4 [ml] kennt er aufgrund seiner jahrelangen Erfahrung. Dagobert hat die Abf¨ ullanlage f¨ ur einen neuen, siebeneckigen Flaschentyp eingestellt und m¨ ochte nun den Erwartungswert μ f¨ ur die F¨ ullmenge pro Flasche sch¨ atzen. Die Zuverl¨ assigkeit, bzw. die Sicherheitswahrscheinlichkeit f¨ ur den Sch¨ atzvorgang setzt er mit 99% fest. Er zieht eine Zufallsstichprobe, indem er bei n = 11 Bierflaschen die F¨ ullmenge genau misst: 499.2, 501.3, 500.2, 497.7, 496.8, 498.5, 496.4, 502.1, 498.8, 500.4, 498.2 [ml].
13.3 Konfidenzintervallverfahren f¨ ur den Erwartungswert bei bek. Varianz
265
Er unterstellt, dass die Sch¨ aumungen von Flasche zu Flasche unabh¨angig auftreten. Die Messwerte sind daher als Realisationen von 11 unabh¨angigen Stichprobenvariablen X1 , . . . , X11 zu interpretieren. Er berechnet das Stichprobenmittel x ¯ = 499.0545 [ml] und ermittelt zu dem Risiko von α = 0.01 mit Hilfe der Tabelle im Anhang das Quantil λ = λ1− α2 = alt er als Konfidenzintervall: λ0.995 = 2.576. Schließlich erh¨ σ σ x ¯− √ λ ; x ¯+ √ λ = n n 1.4 1.4 = 499.0545 − √ 2.576 ; 499.0545 + √ 2.576 11 11 = [498.0 ; 500.1]. Die durchschnittliche F¨ ullmenge der zuk¨ unftig abgef¨ ullten Flaschen wird von dem Intervall [498.0 ; 500.1] Millilitern u ¨berdeckt. Die Zuverl¨assigkeit des Sch¨ atzverfahrens liegt bei 99%. Das Ergebnis wir mit einer Pr¨azision von 500.1 - 498.0 = 2.1 [ml] angezeigt. Falsche Interpretationen des Konfidenzintervalles w¨aren: a) “Das konkret berechnete Intervall u ¨berdeckt gewissermaßen nur teilweise, zu 99 Prozent die tats¨ achliche durchschnittliche F¨ ullmenge.“ Dies ist falsch, da ein Intervall prinzipiell einen Wert entweder zu 100% oder gar nicht u ¨berdecken kann! b) “Die F¨ ullmenge einer Flasche liegt zu 99 Prozent im Bereich [498.0; 500.1] Millilitern.“ Diese Aussage bezieht sich nicht auf die durchschnittliche F¨ ullmenge aller Flaschen der Grundgesamtheit, sondern auf die F¨ ullmenge einer einzelnen Flasche. Statt den Durchschnittswert, bzw. den Erwartungswert μ von X zu sch¨atzen, wird hier f¨alschlicher Weise behauptet, dass P (498.0 ≤ X ≤ 500.1) = 0.99 zutr¨afe. Ein derartiges Intervall m¨ usste man Prognoseintervall nennen. c) “99 Prozent aller Flaschen sind mit 498.0 bis 500.1 [ml] Bier bef¨ ullt.“ Diese Aussage ist mit dem letzten Fall b) identisch. Die Pr¨ azision eines Konfidenzintervallverfahrens entspricht der L¨ange des Intervalls: σ (13.26) Intervalll¨ ange = 2d = 2 √ λ1− α2 . n Diese L¨ ange wird durch drei Faktoren bestimmt: 1. Bei einer kleinen Standardabweichung σ, ist das Konfidenzintervall kurz bzw. die Pr¨ azision hoch. Dies ist auch anschaulich klar, denn wenn sich bereits innerhalb der Grundgesamtheit die einzelnen Merkmalswerte der Variablen X vom zu sch¨ atzenden Mittelwert nur geringf¨ ugig unterscheiden, wird dies in der Regel auch in der Stichprobe der Fall sein. Ein nennenswertes Versch¨ atzen ist dann kaum m¨oglich.
266
13 Sch¨ atzverfahren
2. Erh¨ oht man die Zuverl¨ assigkeit 1 − α, so erh¨oht sich der Wert des Quanange. Die Pr¨azision wird dadurch tils λ1− α2 und damit auch die Intervalll¨ geringer. Im Extremfall, bei maximaler 1 − α = 1 = 100% Zuverl¨assigkeit ist das Intervall wegen λ100% = ∞ unendlich breit und das Ergebnis vollkommen unpr¨ azise. Im anderen Extremfall, bei einer 1 − α = 0 = 0% Zuverl¨ assigkeit degeneriert wegen λ1− 12 = 0 das Intervall zum Punktsch¨atzer ¯ der praktisch nie den Zielwert trifft. Die Pr¨azision jedoch ist maximal. X, 3. M¨ uhe lohnt sich, denn ein großer Stichprobenumfang n reduziert die Intervalll¨ ange. Bei gleichbleibender Zuverl¨ assigkeit wird die Pr¨azision verbessert. Bestimmung von n bei Vorgabe der Pr¨ azision Bei einem Konfidenzintervallverfahren legt der Anwender die Zuverl¨assigkeit bzw. Sicherheitswahrscheinlichkeit 1 − α im Voraus fest. Wenn er zudem die Pr¨ azision bzw. die Intervalll¨ ange im Voraus festlegen m¨ochte, so kann er mit Formel (13.26) den erforderlichen Stichprobenumfang n bestimmen. Dazu wird (13.26) nach n aufgel¨ ost und wegen der Ganzzahligkeit des Stichprobenumfangs nach oben gerundet: 4σ 2 2 α . (13.27) λ n = Aufrunden (Intervalll¨ ange)2 1− 2 Beispiel (Fortsetzung). Dagobert m¨ ochte die tats¨achliche mittlere Flaschenf¨ ullung μ mit einem Intervall der L¨ ange 1 [ml] sch¨atzen, wobei er nach wie vor die Sicherheitswahrscheinlichkeit bzw. Zuverl¨assigkeit von mindestens 99% beibehalten m¨ ochte. Mit σ = 1.4 [ml], λ = λ0.995 = 2.576 m¨ usste er gem¨ aß (13.27) eine Stichprobe von folgendem Umfang ziehen: 4σ 2 2 λ α n = Aufrunden (Intervalll¨ange)2 1− 2 4 · 1.42 2 2.576 = Aufrunden 12 = Aufrunden(52.024) = 53 [Flaschen].
13.4 Konfidenzintervallverfahren fu ¨r den Erwartungswert bei unbekannter Varianz Voraussetzungen: 1. Es liegt eine Zufallsstichprobe (X1 , X2 , . . . .Xn ) vor, wobei der unbekannte atzt werden soll. Erwartungswert μ = E[Xi ] gesch¨
13.4 Konfidenzintervallverfahren f¨ ur den Erwartungswert bei unbek. Varianz
267
2. Der Wert der Varianz σ 2 = V AR[Xi ] ist nicht bekannt. ¯ = 1 (X1 + X2 + . . . + Xn ) ist normalverteilt. 3. Der Punktsch¨ atzer X n Wie im letzten Abschnitt ist Annahme 3 automatisch erf¨ ullt, wenn bereits die Stichprobenvariablen Xi der Zufallsstichprobe normalverteilt sind. Ansons¯ ten ist bei “großen“ Stichproben aufgrund des Zentralen Grenzwertsatzes X dennoch ann¨ ahernd normalverteilt. In den Anwendungen gelten Stichprobenumf¨ ange n ≥ 30 als “gen¨ ugend groß“. Die Grundidee zur Konstruktion eines Konfidenzintervalls ist die gleiche wie im letzten Unterkapitel. Da aber diesmal die Varianz σ 2 nicht bekannt ist, m¨ ussen wir uns mit einer Sch¨ atzung begn¨ ugen. Dazu benutzen wir den Punktsch¨ atzer “Stichprobenvarianz“ gem¨ aß (13.8): 1 ¯ 2. (Xi − X) n − 1 i=1 n
S2 =
(13.28)
Die Verwendung einer gesch¨ atzten, statt exakten Varianz f¨ uhrt zu Problemen, deren mathematische Details nicht im einzelnen vorgef¨ uhrt werden sollen. Wesentlich ist dabei ein Resultat aus der Wahrscheinlichkeitstheorie, das hier und auch bei vielen anderen Verfahren immer wieder ben¨otigt wird und bereits in (10.83) angesprochen wurde. Im vorliegenden Fall kann man zeigen, dass die Zufallsvariable ¯ −μ √ X n (13.29) T = S eine sogenannte “Student Verteilung“ oder “t-Verteilung“ besitzt. Der Parameter, welcher die Form der Dichte der t-Verteilung beeinflusst und auch “Freiheitsgrad“ genannt wird, betr¨ agt n−1. Wir ben¨otigen die Quantile dieser Verteilung, welche wir einer Tabelle im Anhang entnehmen k¨onnen. Ansonsten sind die Vorgehensweise, die Formel und die Interpretation der Ergebnisse analog zu den Konfidenzintervallen des letzten Unterkapitels. Wir stellen die Details der Herleitung auf Seite 388 zur¨ uck. Konfidenzintervallverfahren f¨ ur den Erwartungswert μ ¯ − √S t ; X ¯ + √S t , X (13.30) n n wobei t = tn−1,1− α2 das 1 − α2 -Quantil der t-Verteilung bei n−1 Freiheitsgraden ist. Die Sicherheitswahrscheinlichkeit betr¨agt 1 − α; die Varianz σ 2 ist unbekannt. Diese Konfidenzintervalle sind aufgrund der recht allgemeinen Voraussetzungen, insbesondere bei Stichproben mit n ≥ 30 f¨ ur sehr viele praktische Problemstellungen sinnvoll anwendbar. Beispiel (Baumst¨ amme). Karen besitzt ein S¨agewerk. Sie bekommt 1900 Baumst¨ amme geliefert. Sie m¨ ochte den mittleren Umfang der St¨amme
268
13 Sch¨ atzverfahren
sch¨ atzen, wobei sie eine Zuverl¨ assigkeit bzw. Sicherheitswahrscheinlichkeit von 1 − α = 95% festlegt. Karen zieht eine unabh¨angige Zufallsstichprobe und misst jeweils den Umfang X eines Stammes in Millimeter: 1200, 1150, 1300, 1410, 1100, 800, 1600 [mm]. Hier ist n = 7, x ¯ = 1222.9 [mm] und 1 (1200 − 1222.9)2 + (1150 − 1222.9)2 + (1300 − 1222.9)2 6 +(1410 − 1222.9)2 + (1100 − 1222.9)2
+(800 − 1222.9)2 + (1600 − 1222.9)2 √ = 63823.8 = 252.63372 .
s2 =
Zu dem Risiko von α = 0.05 ermittelt Karen mit Hilfe der Tabelle im Anhang das Quantil t = t6,1− α2 = t6,0.975 = 2.45 und berechnet schließlich das Konfidenzintervall: s s x ¯− √ t ; x ¯+ √ t = n n 252.6337 252.6337 √ √ 2.45 ; 1222.9 + 2.45 = 1222.9 − 7 7 = [988.9 ; 1456.8]. Der tats¨ achliche mittlere Umfang eines Stammes in der Grundgesamtheit der 1900 Baumst¨ amme wird von dem Intervall [988.9 ; 1456.8] Millimetern u ¨berdeckt. Das Risiko, dass sich Karen damit versch¨atzt haben k¨onnte, betr¨ agt 5%. Karen unterstellt stillschweigend eine Normalverteilung f¨ ur das Stichprobenmittel. Da der Stichprobenumfang nur n = 7 betr¨agt, ist diese Verteilungsannahme nicht selbstverst¨ andlich. Bestimmung von n bei Vorgabe der Pr¨ azision Die Pr¨ azision des Konfidenzintervallverfahrens (13.30) entspricht der L¨ange des Intervalls und ist im Gegensatz zu (13.26) eine Zufallsvariable, da wir den konstanten Wert σ mit S ersetzt haben: S (13.31) Intervalll¨ ange = 2 √ tn−1,1− α2 . n Folglich k¨ onnen wir zu einer vorgegebenen Pr¨azision nicht im Voraus den Stichprobenumfang gem¨ aß (13.27) berechnen. Zudem kennen wir den Freiheitsgrad f¨ ur das Quantil tn−1,1− α2 nicht. In der Praxis behilft man sich damit, dass man dennoch Formel (13.27) anwendet und dort σ durch einen Sch¨atzwert ersetzt, den man f¨ ur realistisch h¨ alt. Oder man zieht vor der eigentlichen Untersuchung eine zus¨ atzliche, kleine Stichprobe, um σ einigermaßen zu sch¨ atzen. Ferner benutzt man wegen des unbekannten Wertes zu n das Quantil t∞,1− α2 das mit λ1− α2 identisch ist.
13.4 Konfidenzintervallverfahren f¨ ur den Erwartungswert bei unbek. Varianz
269
Beispiel (Fortsetzung). Karen m¨ ochte ein Konfidenzintervall f¨ ur den mittleren Baumstammumfang, das etwa 100 [mm] breit ist und nach wie vor die gleiche Zuverl¨ assigkeit von 95% besitzt. Den notwendigen Stichprobenumfang berechnet sie mit (13.27) und ersetzt dort σ mit der aufgrund der obigen Stichprobe gesch¨ atzten Standardabweichung s = 252.6337: 4s2 2 λ α n = Aufrunden (Intervalll¨ange)2 1− 2 4 · 252.63372 2 1.960 = Aufrunden 1002 = Aufrunden(98.07) = 99 [St¨amme]. Wie lang das Intervall tats¨ achlich sein wird, welches Karen nach Ziehung einer weiteren Stichprobe vom Umfang n = 99 erh¨alt, kann man nicht vorhersehen. Jedoch hat Karen zumindest einen Anhaltspunkt, wie groß die Stichprobe sein m¨ usste, um die Anforderung bez¨ uglich der Pr¨azision zumindest n¨ aherungsweise zu erf¨ ullen. Die Zuverl¨assigkeit von 95% bleibt weiterhin bestehen. Variante: Ohne Stichprobenziehung h¨ atte Karen aufgrund ihrer Berufserfahrung eine Standardabweichung von etwa 300 [mm] f¨ ur realistisch gehalten. Dann erh¨ alt sie einen Stichprobenumfang von 4 · 3002 2 1.960 n = Aufrunden 1002 = Aufrunden(138.3) = 139 [St¨amme]. Auf jeden Fall wird deutlich, dass eine Stichprobe mit nur n = 7 St¨ammen f¨ ur die angestrebte Pr¨ azision nicht ausreicht. Beispiel (M¨ ullabfuhr). Zur besseren Planung ihrer Fahrzeuge m¨ochte die M¨ ullabfuhr untersuchen, welche M¨ ullmengen in den verschiedenen Straßen im Schnitt zu erwarten sind. Exemplarisch ergaben sich in der Bahnhofstraße bei einigen zuf¨ allig ausgew¨ ahlten Wochen folgende Mengen in Kilogramm: 2000, 3500, 2400, 4500, 3000, 2800, 3300, 4400. Die M¨ ullmenge einer Woche ergibt sich als Summe der “zuf¨alligen“ M¨ ullmengen einzelner Haushalte. Diese d¨ urften unabh¨angig voneinander M¨ ull sammeln. Zudem gibt es in der (vermutlich langen) Bahnhofstraße viele Haushalte. Wegen des Zentralen Grenzwertsatzes k¨onnen daher die obigen Mengen als Realisationen normalverteilter, unabh¨angiger Zufallsvariablen X1 , . . . , X8 betrachtet werden. Wegen der Additivit¨atseigenschaft der ¯ normalverteilt. Normalverteilung ist dann auch das Stichprobenmittel X Insofern d¨ urften die Voraussetzungen f¨ ur das Konfidenzintervallverfahren
270
13 Sch¨ atzverfahren
(13.30) erf¨ ullt sein. Wir wollen mit einer Sicherheitswahrscheinlichkeit von 95% die erwartete M¨ ullmenge pro Woche bestimmen. Mit n = 8, x ¯ = 3237.5, s2 = alt man: 785535.71, t7;0.975 = 2.36 erh¨ √ √ 785535.71 785535.71 √ √ 3237.5 − 2.36 ; 3237.5 + 2.36 8 8 = [2497.98 ; 3977.02] [kg/Woche]. Die tats¨ achliche mittlere M¨ ullmenge u ¨ber “alle“ Wochen wird mit 95% Wahrscheinlichkeit von dem Intervall [2497.98; 3977.02] [kg / Woche] u ¨berdeckt. Beispiel (Umfrage). Bei einem Verbrauchertest wurde von 58 zuf¨allig ausgew¨ ahlten Probanden der Geschmack der neuen Eiscreme “Frostfett“ unabh¨ angig voneinander bewertet. Jeder Proband konnte seinen Eindruck auf einer diskreten Notenskala von 1 (sehr gut) bis 5 (sehr schlecht) angeben. Die Stichprobe ergab ein arithmetisches Mittel von x¯ = 2.15 bei einer Stichprobenvarianz von s2 = 0.46. Wir wollen f¨ ur den Erwartungswert μ der Note, d.h. die durchschnittliche Geschmacksnote, welche von allen “zuk¨ unftigen“ Konsumenten vergeben wird, sch¨ atzen. Die Zuverl¨ assigkeit der Sch¨atzung setzen wir auf 99% fest. Die Zufallsvariablen “Xi = Note des Probanden i“ k¨onnen nur die 5 diskreten Werte der Notenskala annehmen und sind daher diskreten Typs. Insbesondere sind sie nicht normalverteilt. Jedoch ist wegen (11.8) das ¯ ann¨ Stichprobenmittel X ahernd normalverteilt. Insofern d¨ urften die Voraussetzungen f¨ ur das Konfidenzintervallverfahren (13.30) erf¨ ullt sein. Wir berechnen mit t57;0.995 = 2.66: √ √ 0.46 0.46 2.15 − √ 2.66; 2.15 + √ 2.66 = [1.913; 2.387] . 58 58 Die tats¨ achliche Durchschnittsnote wird mit einer Pr¨azision bzw. Intervalll¨ ange von etwa einem halben Notenwert angezeigt. Die Zuverl¨assigkeit der Sch¨ atzung, d.h. die Chance, dass das Ergebnis richtig ist, betr¨agt 99%.
13.5 Konfidenzintervallverfahren fu ¨r einen Anteil oder eine Wahrscheinlichkeit p Im Gegensatz zu einem Erwartungswert μ kann ein Anteilswert p von vornherein nur zwischen 0 und 1 vorgefunden werden. Daher ist es sinnvoll, dass die Konfidenzintervalle diesen Bereich nicht u ¨berschreiten (s. Abbildung 13.4).
13.5 Konfidenzintervalle f¨ ur einen Anteil oder Wahrscheinlichkeit p
271
Konfidenzintervalle f¨ ur einen Anteil oder eine Wahrscheinlichkeit p 0
1
Konfidenzintervall
0
1
0
Konfidenzintervall
1 Konfidenzintervall
Abbildung 13.4. Ein Anteil p befindet sich immer zwischen Null und Eins. Daher sollten sich, wie im linken Bild dargestellt, auch die Konfidenzintervalle auf diesen Bereich beschr¨ anken. Im mittleren und rechten Bild u ¨berdeckt das Intervall auch “unsinnige“ Werte.
Wir beschr¨ anken uns auf eine Ausgangssituation, die man in vielen praktischen Anwendungen vorfinden kann. Voraussetzung: Die unabh¨ angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) entspricht einer Bernoullikette, wobei der unbekannte Wert der Trefferwahrscheinlichkeit p gesch¨atzt werden soll. Es sei Y = Anzahl der Treffer in Stichprobe, Y = Trefferquote in der Stichprobe. Pˆ = n Konfidenzintervallverfahren f¨ ur p
Y ; Y + (n − Y + 1) F1− α2 , 2(n−Y +1), 2Y (Y + 1) F1− α2 , 2(Y +1), 2(n−Y ) (n − Y ) + (Y + 1) F1− α2 , 2(Y +1), 2(n−Y )
(13.32)
mit F
1− α 2,
Y = Anzahl der Treffer in Stichprobe, α k, m = (1− 2 )−Quantil der F-Verteilung bei k Freiheitsgraden des Z¨ ahlers und m Freiheitsgraden1 des Nenners.
Die Sicherheitswahrscheinlichkeit betr¨ agt mindestens 1 − α. Die Herleitung stellen wir f¨ ur begeisterte Leser auf Seite 389 zur¨ uck. Die Konfidenzintervalle (13.32) nennt man auch Clopper-Pearson Intervalle oder “exakte Konfidenzintervalle“, da sie im Gegensatz zu einigen in der Literatur angebotenen Verfahren keine N¨ aherungsformeln f¨ ur die Binomialvertei1
Die Quantile findet man im Anhang. F¨ ur m = 0 setzen wir formal F1− α2 , k, 0 = 1 fest.
272
13 Sch¨ atzverfahren
lung benutzen und daher auch bei kleinen Stichprobenumf¨angen die geforderte Zuverl¨ assigkeit von mindestens 1 − α “exakt“ garantieren. Bez¨ uglich der Intervalll¨ ange bzw. der Pr¨ azision kann man allerdings noch bessere Konfidenzintervalle als die Clopper-Pearson Intervalle konstruieren (Alternative 5 auf Seite 274). Beispiel (Umfrage). Seit einem halben Jahr gibt es das neue Erfrischungsgetr¨ ank “Blopper“ auf dem deutschen Markt. Der Hersteller m¨ochte nun wissen, wie viel Prozent der Bev¨ olkerung Deutschlands das Getr¨ank namentlich kennen. Dieser unbekannte Anteil soll mit einer Sicherheitswahrscheinlichkeit von 95% gesch¨ atzt werden. Mit einer unabh¨angigen Zufallsstichprobe wurden n = 100 Einwohner befragt: 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0 , 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0 , 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0 , 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.
Diese Bernoullikette zeigt, dass insgesamt y = 12 Personen das Getr¨ank gekannt haben. Die Quantile der F -Verteilung findet man im Anhang in tabellierter Form. Um jedoch Rundungsfehler zu vermeiden, haben wir sie hier und in den weiteren Beispielen mit dem Computer bestimmt. Die u ur oft schon fertige ¨blichen Tabellenkalkulationsprogramme bieten hierf¨ Funktionen an. Wir berechnen gem¨ aß (13.32): 12 ; 12 + (100 − 12 + 1) F0.975, 2(100−12+1), 2·12 (12 + 1) F0.975, 2(12+1), 2(100−12) (100 − 12) + (12 + 1) F0.975, 2(12+1), 2(100−12) 13 F0.975, 26, 176 12 ; = 12 + 89 F0.975, 178, 24 88 + 13 F0.975, 26, 176 13 · 1.695 12 = ; 12 + 89 · 1.986 88 + 13 · 1.695 = [0.0636 ; 0.2003]. Der tats¨ achliche Anteil der Personen in der Bev¨olkerung Deutschlands, die Blobber kennen, wird von dem Intervall [0.0636; 0.2003] u ¨berdeckt. Die Zuverl¨ assigkeit des Sch¨ atzvorganges betr¨agt mindestens 95%. Man erkennt, dass der scheinbar große Stichprobenunfang dennoch zu relativ unpr¨ azisen Ergebnissen f¨ uhrt, denn die L¨ ange des Intervalls betr¨agt 0.1367 bzw. 13.67 Prozentpunkte. In der Literatur findet man weitere, andere Konfidenzintervallverfahren, die auf unterschiedlichen Ans¨ atzen basieren oder verschiedene Approximationen
13.5 Konfidenzintervalle f¨ ur einen Anteil oder Wahrscheinlichkeit p
273
f¨ ur die Binomialverteilung verwenden. Diese Verfahren weisen gelegentlich zu kurze Intervalle und somit eine tats¨ achlich geringere als vorgegebene Zuverl¨ assigkeit auf, oder sie besitzen eine unn¨ otig schlechte Pr¨azision und somit zu lange Intervalle. -
-
-
Alternative 1: ! tn−1,1− α2 Pˆ (1 − Pˆ ) ; Pˆ − √ n−1
tn−1,1− α2 Pˆ + √ n−1
!
Pˆ (1 − Pˆ ) . (13.33)
Diese Formel ist eigentlich nicht neu. Man kann mit einigen Umformungen zeigen, dass sie dem Verfahren (13.30) entspricht, wenn man dort ber¨ ucksichtigt, dass die Variable Y nur die Werte 0 und 1 annehmen kann. Wenn der zu sch¨ atzende Anteil p nahe bei Null oder Eins liegt, k¨onnen die Intervalle, wie in Abbildung 13.4 dargestellt, u ¨ber den sinnvollen Bereich von 0 bis 1 hinausgehen. Die vorgegebene Zuverl¨assigkeit von 1 − α wird nicht immer eingehalten oder die Intervalle sind unn¨otig lang. Das Verfahren beruht auf einer Approximation, bei der man “große“ Stichproben unterstellt. Im Beispiel erhalten wir [0.0553; 0.1847]. Alternative 2: ! ! λ1− α λ1− α Pˆ (1 − Pˆ ) ; Pˆ + √ 2 Pˆ (1 − Pˆ ) . (13.34) Pˆ − √ 2 n n Diese Formel ist in der Literatur weit verbreitet. Sie besitzt im Wesentlichen das gleiche Verhalten wie Alternative 1. Es ist λ1− α2 das (1 − α2 )Quantil der Standardnormalverteilung. Im Beispiel erhalten wir [0.0563; 0.1837]. Alternative 3: ! 2 2Y − 1 + λ2 − λ λ2 + 4Y − 2 − n1 (2Y − 1) ; 2 (n + λ2 ) 2Y + 1 + λ2 + λ
! λ2 + 4Y + 2 − 2 (n + λ2 )
1 n
2
(2Y + 1)
. (13.35)
Dabei ist λ = λ1− α2 = (1 − α2 )-Quantil der Standardnormalverteilung. Dieses Sch¨ atzverfahren setzt voraus, dass nˆ p(1 − pˆ) ≥ 9 erf¨ ullt ist, d.h. die Stichprobe n groß ist. Sollte der zu sch¨ atzende Anteil besonders klein p ≈ 0 oder besonders groß p ≈ 1 sein, ist das Verfahren unbrauchbar, da dann nˆ p(1 − pˆ) ≈ 0 < 9 gelten d¨ urfte. Die vorgegebene Sicherheitswahrscheinlichkeit 1 − α wird nur n¨aherungsweise garantiert, da das Verfahren auf der Approximation (11.12) beruht. Die M¨ angel von Alternative 1 und 2 fallen bei Alternative 3 moderater
274
-
13 Sch¨ atzverfahren
aus. Insbesondere u ur p sinnvollen ¨berschreiten die Intervalle nicht den f¨ Bereich [0; 1]. Im Beispiel erhalten wir [0.0663; 0.2040 ]. Alternative 4: ! ! ⎡ ⎤ 2Y + λ2 + λ λ2 + 4Y 1 − Yn 2Y + λ2 − λ λ2 + 4Y 1 − Yn ⎦. ⎣ ; 2 (n + λ2 ) 2 (n + λ2 ) (13.36)
-
Dieses Verfahren ist dem Verfahren (13.35) fast gleichwertig. Der Unterschied besteht darin, dass das Verfahren (13.35) die N¨aherungsformel (11.12) mit der Stetigkeitskorrektur “+0.5“ verwendet, w¨ahrend das Verfahren (13.36) auf diese Korrektur verzichtet. Wegen der etwas “anwenderfreundlicheren“ Formel wird Alternative 4 oft dem Verfahren (13.35) vorgezogen. Im Beispiel erhalten wir [0.0700; 0.1981]. Alternative 5: Konfidenzintervalle, die gem¨ aß Bunke [Bun] oder Collani [Co2] bestimmt werden, halten die vorgegebene Zuverl¨ assigkeit von mindestens 1 − α ein und sind somit wie die Clopper-Pearson-Intervalle ebenfalls “exakt“. Zudem aber ist die durchschnittliche Intervalll¨ange minimal. Insofern liegen optimale Konfidenzintervallverfahren vor, da sie unter Einhaltung der Zuverl¨ assigkeit von mindestens 1 − α die Pr¨ azision optimieren. Im Beispiel erhalten wir gem¨ aß Collani [0.0686; 0.1990]. Dieses “exakte“ Intervall ist etwas k¨ urzer und damit pr¨ aziser als das Clopper-PearsonIntervall. Ferner kann man die Pr¨ azision noch steigern, wenn der Anwender von vornherein weiß, dass der Wert f¨ ur den Anteil p in einem kleineren Intervall als [0, 1] zu finden ist. Beispielsweise k¨onnte man zur Sch¨atzung des Anteils einer sehr seltenen Krankheit in der Bev¨olkerung den Wert von p im Voraus auf etwa 0-0.05 einschr¨ anken. Das Verfahren ist bei Collani [Co2] beschrieben und ist auch bei kleinen Stichprobenumf¨angen anwendbar. Der Anwender findet dort eine CD und umfangreiche Tabellen.
Bestimmung von n bei Vorgabe der Pr¨ azision Die Pr¨ azision bzw. Intervalll¨ ange zum Verfahren (13.32) berechnet man, indem man dort den linken Rand vom rechten Rand subtrahiert: (Y + 1) F1− α2 , 2(Y +1), 2(n−Y ) Intervalll¨ ange = (n − Y ) + (Y + 1) F1− α2 , 2(Y +1), 2(n−Y ) −
Y . Y + (n − Y + 1) F1− α2 , 2(n−Y +1), 2Y
Diese Gleichung m¨ usste man bei Vorgabe der Intervalll¨ange nach n aufl¨osen. Dies ist aber weder machbar noch sinnvoll, da beispielsweise der Wert Y erst
13.5 Konfidenzintervalle f¨ ur einen Anteil oder Wahrscheinlichkeit p
275
nach Ziehung der Stichprobe bekannt ist. Daher greifen wir auf die Alternative 2 Formel (13.34) zur¨ uck. Dort erhalten wir zwar etwas andere Konfidenzintervalle, jedoch lassen sich deren Intervalll¨ angen wesentlich einfacher berechnen: ! λ Pˆ (1 − Pˆ ). Intervalll¨ ange = 2 √ n Wir l¨ osen nach n auf und runden das Ergebnis wegen der Ganzzahligkeit des Stichprobenumfangs und unter Beibehaltung der Zuverl¨assigkeit 1 − α auf: 4λ2 ˆ ˆ P (1 − P ) . (13.37) n = Aufrunden (Intervalll¨ ange)2 Leider kennen wir aber den Wert von Pˆ nicht vor, sondern erst nach der Stichprobenziehung. Wir behelfen uns wieder wie auf Seite 268, indem wir Pˆ durch einen Sch¨ atzwert ersetzen. Dieser kann entweder durch eine eigene, kleine Stichprobe gewonnen werden, oder aber der Anwender setzt einen Wert ein, den er aufgrund seiner Erfahrung f¨ ur realistisch h¨alt. Ein weiterer Ausweg kommt ohne die Sch¨ atzung von Pˆ aus. Man kann zeigen, 1 ˆ ˆ dass immer P (1 − P ) ≤ 4 gilt. Damit ergibt sich, dass die mit Formel (13.37) berechneten Stichprobenumf¨ ange n f¨ ur kein Pˆ gr¨oßer als λ2 Maximaler Stichprobenumgfang = Aufrunden (13.38) (Intervalll¨ange)2 werden k¨ onnen. Zieht der Anwender eine Stichprobe von diesem Umfang, so werden die Intervalle im Schnitt eher k¨ urzer als von ihm verlangt sein, und die gew¨ unschte Pr¨ azision wird nicht unterschritten. Der maximale Stichprobenumfang eignet sich, um den maximal notwendigen Aufwand f¨ ur die Stichprobenziehung im Voraus absch¨ atzen zu k¨onnen. Beispiel (Fortsetzung). Wir m¨ ochten ein Konfidenzintervall f¨ ur den gesuchten Anteil der Blobb-Kenner ermitteln, das nur 0.03 bzw. 3 Prozentpunkte breit ist und nach wie vor die gleiche Zuverl¨assigkeit von 95% besitzt. Dazu benutzen wir (13.37) und setzen dort pˆ = 0.12. Diesen Wert halten wir aufgrund der ersten Stichprobe f¨ ur ann¨ahernd richtig: 4 · 1.962 0.12 · 0.88 = Aufrunden (1802.99) n = Aufrunden 0.032 = 1803. Wie lang das Intervall bei dieser Stichprobe tats¨achlich sein wird, kann man nicht vorhersehen, da die Intervalll¨ ange auch noch von Y abh¨angt. Dieser Wert steht aber erst nach der Stichprobenziehung zur Verf¨ ugung. Man bekommt jedoch einen Anhaltspunkt, wieviel Aufwand bei der Stichprobenziehung in etwa notwendig w¨ are. Die Zuverl¨assigkeit von 95% bleibt weiterhin bestehen.
276
13 Sch¨ atzverfahren
F¨ uhlen wir uns mit der Sch¨ atzung pˆ = 0.12 unsicher, so k¨onnen wir den maximal notwendigen Stichprobenumfang gem¨aß (13.38) berechnen: 1.962 = Aufrunden (4268.4) n = Aufrunden 0.032 = 4269. Nun schr¨ anken wir die Intervalll¨ ange noch weiter auf 0.01 d.h. 1 Prozentpunkt ein, ohne aber die Sicherheitswahrscheinlichkeit von 95% zu ver¨ andern. Gem¨ aß (13.37) ergibt sich: 4 · 1.962 0.12 · 0.88 = Aufrunden (16226.9) n = Aufrunden 0.012 = 16227 und gem¨ aß (13.38) n = Aufrunden
1.962 0.012
= Aufrunden (38416)
= 38416. Man erkennt an dem Beispiel, dass bei einer Reduktion der Intervalll¨ange bzw. Erh¨ ohung der Pr¨ azision der erforderliche Stichprobenumfang u ¨berproportional bzw. quadratisch schnell anw¨ achst. Beispiel (Unbekannte Wahrscheinlichkeit). Max hat einen manipulierten W¨ urfel mit einer Bleiplatte gebaut. Er m¨ochte die Wahrscheinlichkeit, eine F¨ unf zu w¨ urfeln, ermitteln, wobei er die Irrtumswahrscheinlichkeit auf maximal α = 1% beschr¨ anken m¨ ochte. Dazu hat er n = 800 W¨ urfe durchgef¨ uhrt und y = 270 Treffer erzielt. Er fasst die Experimente als Bernoullikette auf und berechnet gem¨ aß (13.32) folgendes Konfidenzintervall: 270 ; 270 + (800 − 270 + 1) F0.995, 2(800−270+1), 2·270 (270 + 1) F0.995, 2(270+1), 2(800−270) (800 − 270) + (270 + 1) F0.995, 2(270+1), 2(800−270) =
(270 + 1) · 1.20923 270 ; 270 + (800 − 270 + 1) · 1.2158 (800 − 270) + (270 + 1) · 1.20923 = [0.2949 ; 0.3821 ].
13.5 Konfidenzintervalle f¨ ur einen Anteil oder Wahrscheinlichkeit p
277
Die tats¨ achliche, aber unbekannte Trefferchance f¨ ur eine F¨ unf wird von dem Intervall [0.2949; 0.3821 ] u ¨berdeckt. Das Risiko, dass dieses Ergebnis falsch sein k¨ onnte, betr¨ agt maximal 1%. Auch hier erkennt man, dass sehr große Stichproben ben¨ otigt werden, um halbwegs zuverl¨assige und pr¨azise Ergebnisse zu bekommen. W¨ urden wir nur den Punktsch¨ atzer pˆ = 270 800 = 0.3375 betrachten, bliebe uns vollkommen verborgen, wie gut bzw. wie schlecht dieser Wert die tats¨ achliche Wahrscheinlichkeit sch¨ atzt. Ferner ließe sich nicht beurteilen, ob die Stichprobe “ausreichend“ groß ist. Beispiel (Wahlumfrage). Kanzlerkandidat Babbeler m¨ochte mit einer Zuverl¨ assigkeit von 99% wissen, ob er die Wahl am n¨achsten Sonntag gewinnt. Von n = 2000 zuf¨ allig ausgesuchten Wahlberechtigten haben sich y = 1080 f¨ ur ihn ausgesprochen. Babbeler berechnet ein Konfidenzintervall f¨ ur den tats¨ achlichen Anteil p seiner Anh¨anger: 1080 ; 1080 + (2000 − 1080 + 1) F0.995, 2(2000−1080+1), 2·1080 (1080 + 1) F0.995, 2(1080+1), 2(2000−1080) (2000 − 1080) + (1080 + 1) F0.995, 2(1080+1), 2(2000−1080) 1080 ; = 1080 + (2000 − 1080 + 1) · 1.12226 (1080 + 1) · 1.12279 (2000 − 1080) + (1080 + 1) · 1.12279 = [0.5110; 0.5688]. Babbeler kann mit hoher Sicherheit von einem Sieg ausgehen und sollte jetzt schon f¨ ur ausreichend viele Sektflaschen bei seiner Wahlparty sorgen. Da wir die Stichprobe als Bernoullikette aufgefasst haben, geht die Gr¨oße der Grundgesamtheit, d.h. die Anzahl N aller Wahlberechtigten in diese Rechnung nicht ein. Insofern w¨ urde man auch bei einem sehr großen Land mit etwa einer Milliarde Wahlberechtigten bei gleichem Stichprobenumfang und gleicher Trefferzahl das gleiche Konfidenzintervall erhalten. Die Pr¨ azizsion w¨ are also nicht geringer! Wir m¨ ussten aber darauf achten, dass trotz der Gr¨ oße des Landes die Auswahl der Befragten wirklich rein zuf¨ allig erfolgt, d.h. eine unabh¨ angige Zufallsstichprobe vorliegt. Beispiel (Anteil Unzufriedener Kunden). Theo hat an 60000 Kunden die CD “Tr¨ anen im Wind“ verkauft. Er m¨ ochte mit einer Zuverl¨assigkeit von mindestens 95% den Anteil der Kunden sch¨atzen, die mit dem Schlager
278
13 Sch¨ atzverfahren
unzufrieden sind. Er hat n = 20 Kunden unabh¨angig und zuf¨allig befragt. Nur y = 1 Kunde war unzufrieden. Die Intervallsch¨atzung ergibt: 1 ; 1 + (20 − 1 + 1) F0.975, 2(20−1+1), 2·1 (1 + 1) F0.975, 2(1+1), 2(20−1) (20 − 1) + (1 + 1) F0.975, 2(1+1), 2(20−1) =
(1 + 1) · 3.1453 1 ; 1 + (20 − 1 + 1) · 39.4729 (20 − 1) + (1 + 1) · 3.1453 =
[0.0013 ; 0.2487].
Dies zeigt, dass die bloße Angabe der Punktsch¨atzung pˆ = wenig aufschlussreich sein d¨ urfte.
1 20
= 0.05
Ziehen ohne Zur¨ ucklegen Beim Ziehen ohne Zur¨ ucklegen ist die Anzahl der Treffer Y nicht binomialverteilt, sondern gem¨ aß (10.40) hypergeometrisch verteilt, wobei p = M N entspricht. Sollte die Faustregel n ≤ 0.05N auf Seite 244 zutreffen, k¨onnen wir aber den Unterschied, der sich bei den beiden Verteilungen ergibt vernachl¨assigen. Insbesondere k¨ onnen wir die Voraussetzung auf Seite 271 als erf¨ ullt ansehen, weil die Stichprobenvariablen X1 , X2 , . . . , Xn nahezu unabh¨angig sind. Daher k¨ onnen wir das Verfahren (13.32) anwenden. Falls jedoch der Stichprobenumfang n im Verh¨ altnis zur Grundgesamtheit N relativ groß ist, d.h. n > 0.05N gilt, sollte man andere Verfahren anwenden. Im Grunde kann man die Herleitung auf Seite 391 u ¨bernehmen. Man muss dort allerdings die Wahrscheinlichkeiten (E.15) P (A(p) ≤ Y ≤ B(p) ) = 1 − α mit der hypergeometrischen Verteilung berechnen. Dies ist relativ kompliziert und f¨ uhrt nicht zu einer “einfachen Formel“. Stattdessen aber kann man ein entsprechendes Computerprogramm schreiben. In der Literatur werden oft Konfidenzintervalle angeboten, die sich gem¨aß λ1− α2 λ1− α2 N −n N −n ˆ ˆ ˆ ˆ ˆ ˆ ; P+ √ P (1 − P ) P (1 − P ) P− √ N N n−1 n−1 (13.39) berechnen. Diese Formel ergibt sich aus einer nicht ganz konsequenten Vermischung von (13.33), (13.34) und (13.16) und garantiert die vorgegebene Zuverl¨ assigkeit 1 − α nur n¨ aherungsweise.
13.6 Einseitige Konfidenzintervalle Linksseitige Konfidenzintervalle
q
q
... ...
8
}
Rechtsseitige Konfidenzintervalle Unsichtbares Ziel, wahrer Wert
Unsichtbares Ziel, wahrer Wert
Stichprobe 1: Stichprobe 2: Stichprobe 3: Stichprobe 4: Stichprobe 5: Stichprobe 6: ... ...
279
Der Anteil der linksseitigen Intervalle, die den Wert q überdecken, beträgt 1-a.
.. ..
}
Der Anteil der rechtsseitigen Intervalle, die den Wert q überdecken, beträgt 1-a.
Abbildung 13.5. Im Unterschied zu den zweiseitigen Konfidenzintervallen haben die einseitigen Intervalle nur “einen“ wirklichen Rand.
13.6 Einseitige Konfidenzintervalle Gelegentlich hat der Anwender das Interesse, ein Konfidenzintervall f¨ ur einen Parameter zu berechnen, das gewissermaßen nur “einen“ Rand besitzt bzw. nur eine einseitige Absch¨ atzung f¨ ur die tats¨ achliche Lage des Parameterwertes gibt. Abbildung 13.5 illustriert den Sachverhalt. Beispiel (Mindestf¨ ullmenge). Fredi f¨ ullt Zahnpastatuben ab. Die F¨ ullmenge X [ml] einer Tube besitzt die bekannte Varianz von 0.3 [ml2 ]. Fredi liefert einem Kunden 30000 Tuben. Er m¨ ochte mit einer Sicherheitswahrscheinlichkeit von 1 − α = 99% die tats¨ achliche mittlere F¨ ullmenge aller Tuben von unten absch¨ atzen. Gesucht ist demnach ein rechtsseitiges Konfidenzintervall f¨ ur den Erwartungswert μ. Die Herleitung entsprechender Konfidenzintervallverfahren erfolgt analog zu den bisher besprochenen zweiseitigen Konfidenzintervallen. Um beispielsweise ein linksseitiges Konfidenzintervall mit einer Sicherheitswahrscheinlichkeit von 1 − α f¨ ur den Erwartungswert μ bei bekannter Varianz zu erhalten, brauchen wir lediglich den Ansatz (13.22) geringf¨ ugig zu modifizieren: ¯ + d) = 1 − α. P (−∞ ≤ μ ≤ X (13.40) Nach analogen Rechnungen erh¨ alt man schließlich ein zu (13.24) a¨hnliches Ergebnis σ (13.41) d = √ λ1−α , n woraus die Formel (13.42) resultiert. Wir verzichten auf detaillierte Herleitungen und geben nur die Ergebnisse an, welche dieselben Annahmen voraussetzen, wie bei den entsprechenden zweiseitigen Intervallen. Man beachte, dass die Quantile λ, t, F andere sind als bei den zweiseitigen Konfidenzintervallen!
280
13 Sch¨ atzverfahren
Linksseitige Konfidenzintervalle f¨ ur Erwartungswert μ bei bekannter Varianz σ 2 : σ ¯ −∞ ; X + √ λ1−α . n Erwartungswert μ bei unbekannter Varianz σ 2 : S ¯ −∞ ; X + √ tn−1,1−α . n Anteil bzw. Wahrscheinlichkeit p: (Y + 1) F1−α, 2(Y +1), 2(n−Y ) . 0; (n − Y ) + (Y + 1) F1−α, 2(Y +1), 2(n−Y )
(13.42)
(13.43)
(13.44)
Rechtsseitige Konfidenzintervalle f¨ ur Erwartungswert μ bei bekannter Varianz σ 2 : ¯ − √σ λ1−α ; ∞ . X n Erwartungswert μ bei unbekannter Varianz σ 2 : ¯ − √S tn−1,1−α ; ∞ . X n Anteil bzw. Wahrscheinlichkeit p: Y ; 1 . Y + (n − Y + 1) F1−α, 2(n−Y +1), 2Y
(13.45)
(13.46)
(13.47)
Die Herleitungen zu (13.44) und (13.47) sind auf Seite 392 skizziert. Beispiel (Fortsetzung). Fredi zieht eine unabh¨angige Zufallsstichprobe und erh¨ alt: 100.3, 100.1, 99.8, 100.7, 100.4, 100.3, 100.8. Er berechnet mit x ¯ = 100.343 gem¨ aß (13.45): √ σ 0.3 ¯ − √ λ0.99 ; ∞ = 100.343 − √ 2.326 ; ∞ X n 7 = [99.86; ∞].
13.6 Einseitige Konfidenzintervalle
281
Die tats¨ achliche mittlere F¨ ullmenge aller Tuben wird von diesem Intervall u assigkeit der Sch¨ atzung betr¨agt 99%. Sollte Fredi ¨berdeckt. Die Zuverl¨ mit seinem Kunden vereinbart haben, im Schnitt mindestens 100 [ml] pro Tube abzuf¨ ullen, kann man nicht ausschließen, dass diese Lieferbedingung verletzt ist. Falsch w¨ are die Interpreation, dass 99% der Tuben eine F¨ ullung von mindestens 99.86 [ml] besitzen. Beispiel (Ausschussquote). Otto produziert Bolzen, die klar definierte Qualit¨ atsstandards einhalten sollen. Er zieht eine Stichprobe aus der laufenden Produktion, um den Anteil p defekter St¨ ucke mit einer Zuverl¨assigkeit von 95% nach oben abzusch¨ atzen. Von n = 40 gezogenen St¨ ucken waren 5% bzw. y = 2 defekt. Otto unterstellt als Modell, dass bei der Ziehung jedes St¨ uck unabh¨angig von den anderen jeweils mit derselben Wahrscheinlichkeit p defekt sein kann (Bernoullikette). Das gesuchte linksseitige Konfidenzintervall lautet: (2 + 1) F0.95, 2(2+1), 2(40−2) 0; (40 − 2) + (2 + 1) F0.95, 2(2+1), 2(40−2) (2 + 1) · 2.22 = 0; (40 − 2) + (2 + 1) · 2.22 = [0; 0.149].
14 Statistische Testverfahren
14.1 Grundbegriffe Genauso wie bei den Sch¨ atzverfahren besteht das grunds¨atzliche Problem darin, dass die Werte zu einer Verteilung F (x) oder bestimmte statistische Kennziffern wie etwa μ, σ 2 , p unbekannt sind. W¨ahrend Sch¨atzverfahren darauf abzielen, die unbekannten Werte m¨ oglichst gut zu quantifizieren, dienen ¨ Testverfahren zur Uberpr¨ ufung von Aussagen bzw. Hypothesen bez¨ uglich der unbekannten Werte. Um eine Hypothese und deren Gegenteil leichter unterscheiden zu k¨onnen, ist es in der Literatur u ¨blich, auch von einer Nullhypothese H0 zu sprechen, und deren Gegenteil als Alternative H1 zu bezeichnen. Gelegentlich wird die Alternative nochmals in verschiedene Unterf¨ alle H1 , H2 , . . . zerlegt. Beispiel (Taschengeld). Wir betrachten die Grundgesamtheit der Kinder in Deutschland im Alter von 6 bis 14 Jahren und interessieren uns f¨ ur das Merkmal “X = Taschengeld“. Wir stellen die Hypothese auf, dass ein Kind im Schnitt 6 [e] Taschengeld pro Woche bekommt, d.h. x ¯ = 6 innerhalb der Grundgesamtheit zutrifft. Analog zum Schema auf Seite 240 m¨ usste dann auch die Zufallsvariable “X1 = Taschengeld eines zuf¨allig gezogenen Kindes“ einen Erwartungswert von μ = 6 aufweisen. Die Nullhypothese lautet: H0: μ = 6. ¯ = 6 zu schreiben. Stattdessen bezieht man sich Es w¨ are un¨ ublich H0 : x bei der Formulierung von Hypothesen auf die entsprechenden Zufallsvariablen der Stichprobe und unterstellt ein “vern¨ unftiges“ Ziehungsverfahren. Die Alternative lautet H1: μ = 6. Sie setzt sich aus zwei Teilen zusammen: μ<6
oder μ > 6.
284
14 Statistische Testverfahren
Die Nullhypothese, die in diesem Beispiel formuliert worden ist, lautet allgemein (14.1) H0: μ = μ0 . Dabei entspricht μ dem tats¨ achlichen Erwartungswert der Grundgesamtheit bzw. der Variablen X, und der Wert μ0 dem hypothetischen Wert. Da sich die Alternative aus zwei Teilen zusammensetzt, handelt es sich um einen sogenannten zweiseitigen Test. Analog spricht man vom einseitigen Test, wenn die Nullhypothese (14.2) H0: μ ≤ μ0 oder H0: μ ≥ μ0
(14.3)
lautet, da sich dann die Alternative jeweils auf nur einer Seite vorfindet. Bez¨ uglich des Wahrheitsgehaltes einer Hypothese gibt es nur zwei M¨oglichkeiten. Entweder die Hypothese ist wahr oder sie ist falsch. Bei der Beurteilung dieser Frage wollen wir jedoch drei Antworten in Betracht ziehen: M¨ ogliche Antworten bez¨ uglich H0 A1: Die Hypothese H0 ist falsch. A2: Die Hypothese H0 ist richtig. A3: Keine Auskunft. Die Hypothese H0 ist richtig oder falsch. Wir wissen es nicht genauer1 . Die Antwort A3 gibt im Grunde keine Information u ¨ber die Nullhypothese, sondern eher eine Information u ber den Test selbst. Sie zeigt an, dass sich der ¨ Test außerstande sieht, eine vern¨ unftige Festlegung zu Gunsten oder gegen die Nullhypothese treffen zu k¨ onnen. Beispielsweise w¨are es bei einer Stichprobe vom Umfang n = 1 verwegen, etwas anderes als “wir wissen nichts“ zu antworten. In diesem Sinn kann die Antwort A3 “informativ“ sein. Ein statistischer Test entspricht einer Regel, die festlegt, welche konkrete Stichprobenergebnisse zur Antwort A1, welche zur Antwort A2 und welche zur Antwort A3 f¨ uhren sollen. Diejenigen Stichprobenergebnisse, welche zum uhren, nennt man auch kritische Ausschluss von H0 , also zur Antwort A1 f¨ Region K.
1
F¨ ur die Antwort A3 sind auch alternative Formulierungen wie “H0 wird nicht uglich ausgeschlossen“ oder “H0 wird nicht abgelehnt“ u ¨blich. Diese legen sich bez¨ des Wahrheitsgehaltes der Hypothese H0 ebenfalls nicht fest. Daher sind diese Formulierungen nicht mit der Antwort A2 gleichzusetzen.
14.1 Grundbegriffe
Alle denkbaren Stichprobenergebnisse
285
Antwort A1: H0 ausschließen
Kritische Region
A2: H0 ist richtig A3: Keine Auskunft
Ideal w¨ are, wenn ein Test immer die richtige Antwort findet. Da wir uns allerdings nur auf Stichproben st¨ utzen, sind falsche Antworten unvermeidlich. Falsche, irrt¨ umliche Antworten k¨ onnen auf zwei unterschiedliche Arten auftreten, je nachdem, welche Situation real vorliegt: Fehler 1.Art: Die Hypothese H0 ist richtig, der Test gibt aber die Antwort A1, die Hypothese H0 sei falsch. Fehler 2.Art: Die Hypothese H0 ist falsch, der Test gibt aber die Antwort A2, die Hypothese H0 sei richtig. Beispiel (Heirat). Die heiratswillige Monika trifft Fredi. Sie formuliert die Nullhypotese archenprinz“. (14.4) H0: Fredi ist mein “M¨ Falls Fredi tats¨ achlich Monikas “M¨ archenprinz“ ist, w¨ urde sich Monika mit Antwort A1 “Fredi verwerfen“ um eine gl¨ uckliche Ehe bringen (Fehler 1.Art). Falls Fredi tats¨ achlich ein “Hallodri“ ist, w¨ urde sich Monika mit Antwort A2 “Fredi ist ein M¨ archenprinz“ in eine ungl¨ uckliche Ehe st¨ urzen (Fehler 2.Art). Beispiel (Fortsetzung “Taschengeld“). Entweder die Kinder bekommen in Deutschland tats¨ achlich im Schnitt 6 Euro Taschengeld, oder aber sie
Tatsächlicher Zustand Entscheidung
H0 ist richtig A1: H0 wird ausgeschlossen
Fehler 1.Art
A2: H0 wird angenommen
o.k
A3: H0 ist richtig oder faslch
o.k
H0 ist falsch o.k Fehler 2.Art o.k
Abbildung 14.1. Pro realem Zustand kann man nur einen Fehler begehen. Der Anwender weiß aber nicht, welcher der beiden Zust¨ ande real ist.
286
14 Statistische Testverfahren
bekommen im Schnitt einen anderen Betrag. In der realen Grundgesamtheit kann nur einer dieser zwei F¨ alle zutreffend sein: 1. Fall μ = 6: Der Fehler erster Art tritt auf, wenn der Test die Antwort gibt, dass die Kinder im Schnitt nicht 6 Euro Taschengeld bekommen (Antwort A1). Der Fehler zweiter Art kann in diesem Fall prinzipiell nicht auftreten. 2. Fall μ = 6: Diesmal kann der Fehler erster Art prinzipiell nicht auftreten. Der Fehler zweiter Art tritt auf, wenn der Test die Antwort gibt, dass die Kinder im Schnitt 6 Euro Taschengeld bekommen (Antwort A2). Von besonderem Interesse ist die Frage, wie wahrscheinlich es ist, den Fehler erster oder zweiter Art zu begehen. Die entsprechenden Wahrscheinlichkeiten nennt man Risiken erster und zweiter Art. Da der Fehler erster Art nur unter der Bedingung auftreten kann, dass die Nullhypothese H0 richtig ist, und der Fehler zweiter Art nur unter der Bedingung auftreten kann, dass die Nullhypothese H0 falsch ist, berechnen sich die Risiken erster und zweiter Art als bedingte Wahrscheinlichkeiten: α = Risiko 1.Art = P (Fehler 1.Art |H0 ist richtig) = P (H0 wird ausgeschlossen|H0 ist richtig), β = Risiko 2.Art = P (Fehler 2.Art |H0 ist nicht richtig) = P (H0 wird angenommen|H0 ist nicht richtig).
(14.5)
(14.6)
Auf Seite 254 haben wir die Qualit¨ at eines Sch¨atzverfahrens mit Hilfe seiner Zuverl¨ assigkeit und Pr¨ azision definiert. Analog verh¨alt es sich mit der Qualit¨at statistischer Testverfahren: Die Antworten A1 und A2 sind “pr¨ azise“ Aussagen bez¨ uglich H0 , die aber auch falsch sein k¨ onnen. Wegen der damit verbundenen Risiken α und β tragen sie zu einer Verringerung der Zuverl¨ assigkeit des Testes bei. Die Antwort A3 hingegen ist vollkommen unpr¨azise bez¨ uglich H0 . Da sie aber immer richtig ist, tr¨ agt sie nicht zu einer Verringerung der Zuverl¨assigkeit des Testes bei. Sie verringert aber die “Pr¨ azision“ des Testes. Das zugeh¨orige Risiko, dass der Test eine zwar richtige, aber vollkommen unpr¨azise Antwort gibt, besitzt in der Literatur leider keinen eigenen Namen. Ein guter Test, sollte sowohl eine hohe Zuverl¨assigkeit, d.h kleine Werte f¨ ur die Risiken α und β besitzen, als auch ein m¨ oglichst geringes Risiko aufweisen, unpr¨ azise zu sein.
14.2 Signifikanztests und Alternativtests
Signifikanztest Alle denkbaren Stichprobenergebnisse Kritische Region
287
Alternativtest Alle denkbaren Stichprobenergebnisse
A1: H0 ausschließen
Kritische Region
A3: Keine Auskunft
A1: H0 ausschließen A2: H0 ist richtig
Abbildung 14.2. Im Grunde unterscheiden sich Alternativ- und Signifikanztest nur in den Antwortm¨ oglichkeiten. Dies hat jedoch entscheidende Auswirkungen auf das Risiko 2.Art.
14.2 Signifikanztests und Alternativtests Statt alle drei m¨ oglichen Antworten A1, A2, A3 bei einem Test zuzulassen, haben sich in der Statistik zwei Tests etabliert, die a priori nur jeweils zwei Antworten erlauben: Signifikanztest: Nur die Antworten A1 und A3 sind als m¨ogliche Testergebnisse vorgesehen. Der Test kann sich nie f¨ ur die Nullhypothese entscheiden, wohl aber ist ein Ausschluss gegen die Nullhypothese vorgesehen. Daher entspricht ein Signifikanztest einem Ausschlussverfahren bzw. einem Falsifizierungsverfahren. Kommt es zu einem Ausschluss von H0 , spricht sich der Test indirekt f¨ ur die Alternative H1 aus. Nur bei einem ungerechtfertigtem Ausschluss liegt eine Fehlentscheidung vor. Daher besteht beim Signifikanztest nur das Risiko 1.Art α, nicht aber das Risiko 2.Art β. Alternativtest: Nur die Antworten A1 und A2 sind als m¨ogliche Testergebnisse vorgesehen. Ein Alternativtest entspricht eher einem “Verifizierungsverfahren“, denn er entscheidet sich auf jeden Fall entweder f¨ ur die Nullhypothese H0 (Antwort A2) oder f¨ ur die Alternative H1 (Antwort A1). Dieses Antwortverhalten, das klare Verh¨ altnisse schafft, mag auf den ersten Blick vorteilhaft erscheinen. Jedoch legt sich der Test auch bei “wenig informativen“ Stichproben (z.B. bei Stichprobenumfang n = 1) mit Bestimmtheit fest. Der Anwender u ¨berblickt daher nur schwer, auf welch wackligem Boden die Entscheidung beruhen kann. Beim Alternativtest bestehen sowohl das Risiko 1.Art α, als auch das Risiko 2.Art β. Wie man in Abbildung 14.2 erkennen kann, sind die Stichproben, welche nicht zur Antwort A1 f¨ uhren, bei beiden Testarten gleich. Daher ist bei falscher
288
14 Statistische Testverfahren
Nullhypothese H0 die Wahrscheinlichkeit, dass der Signifikanztest ein, wie oben erl¨ autert, zwar richtiges, aber vollkommen unpr¨azises Ergebnis liefert, genauso hoch wie das Risiko 2.Art β. Bei Tests, die das volle Antwortspektrum A1, A2 und A3 in Betracht ziehen, besteht diese Gleichheit in der Regel nicht. Diese Aspekte werden in der Testtheorie benutzt, um “beste“ Tests zu konstruieren. ¨ Beispiel (Fortsetzung). Zur Uberpr¨ ufung von “H0 : μ = 6“ wollen wir ein Konfidenzintervallverfahren einsetzen. Die Sicherheitswahrscheinlichkeit legen wir auf 99% fest. Da das Konfidenzintervallverfahren mit sehr hoher Zuverl¨assigkeit f¨ ur μ den richtigen Wert anzeigt, ist es sinnvoll die Nullhypothese H0 auszuschließen, wenn das Intervall den Wert 6 nicht u ¨berdeckt. Beide Testtypen entscheiden sich jeweils f¨ ur die gleiche Antwort: Konfidenzintervall 6 X
Signifikanztest: μ = 6 ist falsch (Antwort A1). Alternativtest: μ = 6 ist falsch (Antwort A1).
Im Kapitel 15.1 werden wir diese Idee aufgreifen, um die kritische Region K zu konkretisieren. Wenn das Konfidenzintervall den Wert 6 u ¨berdeckt, spricht zumindest nichts dagegen, dass die Nullhypothese μ = 6 richtig sein k¨onnte. Der Signifikanztest gibt daher die naheliegende Antwort A3, d.h μ = 6 wird nicht ausgeschlossen. Der Alternativtest hingegen trifft in dieser Situation die Entscheidung, dass die Nullhypothese μ = 6 richtig sei, d.h. er gibt die Antwort A2. Konfidenzintervall 6
X
Signifikanztest: μ = 6 k¨onnte richtig sein (A3). Alternativtest: μ = 6 ist richtig (A2).
Der Alternativtest ist aber im Grunde verwegen. Warum sollte f¨ ur μ gerade die Sechs der zutreffende Wert sein? Genauso k¨onnten auch alle anderen Werte, die vom Intervall u ¨berdeckt werden, mit gleichem Recht richtig sein. Daraus ergeben sich Risiken, die wir, je nachdem welche Situation in der Grundgesamtheit real vorliegt, analysieren wollen: a) μ = 6 ist richtig Die Kinder bekommen im Schnitt 6 [e] Taschengeld.
-
6 wird u ¨berdeckt:
Konfidenzintervall 6
X
m
Der Alternativtest gibt mit Antwort A2, und der Signifikanztest mit Antwort A3 richtige Antworten.
14.2 Signifikanztests und Alternativtests
-
289
Konfidenzintervall 6
6 wird nicht u ¨berdeckt:
X
m
Da das Konfidenzintervallverfahren mit einer Zuverl¨assigkeit von 99% den richtigen Wert 6 u ¨berdeckt, tritt diese Situation mit einer Wahrscheinlichkeit von nur 1% auf. Daher gilt f¨ ur beide Testarten: α = 1%. b) μ = 6 ist geringf¨ ugig falsch Die Kinder bekommen im Schnitt ungef¨ahr 6 [e] Taschengeld.
-
6 wird u ¨berdeckt:
Konfidenzintervall 6
X
m
Der Signifikanztest gibt mit Antwort A3 keine falsche Antwort. Da der hypothetische Wert 6 nahe am wahren Wert μ liegt, u ¨berdecken die Konfidenzintervalle meistens beide Wert gleichzeitig. Daher wird vom Alternativtest mit nahezu 99% Wahrscheinlichkeit die unzutreffende Antwort A2 gegeben. Das Risiko zweiter Art ist mit β ≈ 99% sehr hoch. Konfidenzintervall
-
6 wird nicht u ¨berdeckt:
6
X
m
Beide Testarten geben mit A1 die richtige Antwort. c) μ = 6 ist deutlich falsch Die Kinder bekommen im Schnitt z.B. viel mehr als 6 [e] Taschengeld.
-
6 wird u ¨berdeckt:
Konfidenzintervall 6
X
m
Der Signifikanztest gibt mit A3 keine falsche Antwort. Da die Intervalle mit 99% Wahrscheinlichkeit μ u ¨berdecken, ist die Chance gering, dass dann auch der Wert 6 u ¨berdeckt wird, da dieser weit von μ entfernt liegt. Die skizzierte Situation tritt daher selten ein. Der Alternativtest besitzt folglich ein um so geringeres Risiko zweiter Art β, je weiter der tats¨ achliche Wert μ vom hypothetischen Wert 6 [e] abweicht.
290
14 Statistische Testverfahren Konfidenzintervall
-
6 wird nicht u ¨berdeckt:
6
X
m
Beide Testarten geben mit A1 die richtige Antwort. Das Beispiel l¨ asst einige wichtige Aspekte erkennen, die wir nochmals zusammenfassen: •
Das Risiko 1. Art α ist kontrollierbar, denn es kann vom Anwender mit einem voraus festgelegten Wert begrenzt werden. Es tritt bei beiden Testtypen auf. • Das Risiko 2. Art β ist unkontrollierbar, denn es h¨angt davon ab, “wie falsch“ die Nullhypothese H0 ist. Es kann sehr groß werden und bis auf β ≈ 1 − α anwachsen. Wir werden dies im Kapitel 17.1 mit Hilfe der sogenannten G¨ utefunktion noch genauer besprechen. Die G¨ utefunktion beschreibt zwar, l¨ ost aber nicht das grunds¨atzliche Problem, dass das Risiko zweiter Art unkontrollierbar ist. • Das Risiko 2. Art β kann beim Signifikanztest nicht auftreten. Auf Seite 239 haben wir von einem induktiven Verfahren gefordert, seine Zuverl¨ assigkeit quantifizieren zu k¨ onnen. Dieser Forderung kommt der Signifikanztest nach, da er nur kontrollierbare Risiken kennt. Daher sind die meisten Tests, die in dieser Lekt¨ ure besprochen werden, als Signifikanztest zu verstehen und zu gebrauchen. Alternativtests werden vor allem in der statistischen Qualit¨atskontrolle eingesetzt. Die angedeuteten Probleme lassen sich dort unter Einbeziehung ¨okonomischer Zielsetzungen oder mit Hilfe der “Entscheidungstheorie“ abschw¨achen (s. Kapitel 17.3). Wir erkennen an dem obigen Beispiel auch, dass die Festlegung der Entscheidungsregel des Tests und insbesondere die Festlegung der kritischen Region K bereits vor der Stichprobenziehung erfolgen kann und muss. Es w¨are ein methodischer Fehler, sich erst das Stichprobenergebnis anzuschauen und dann im nachhinein die Entscheidungsregel festzulegen. Das Testergebnis w¨are sonst leicht manipulierbar.
14.3 Gebrauch von Signifikanztests Konstruktion der Nullhypothese Da ein Signifikanztest einem “Ausschlussverfahren“ gleichkommt, ist er zur F¨ uhrung von indirekten Beweisen geeignet. Wollen wir eine Behauptung B
14.3 Gebrauch von Signifikanztests
291
als richtig nachweisen, so m¨ ussen wir zeigen, dass das Gegenteil von B falsch ist. Daher erkl¨ aren wir nicht die Behauptung B selbst, sondern deren Gegenteil zur Nullhypothese H0 . H0 = Gegenteil von Behauptung B.
(14.7)
Kommt es zu einem Ausschluss der Nullhypothese H0 , wird B quasi doppelt negiert und wir k¨ onnen dies als “Nachweis“ der Behauptung B auffassen. Wir argumentieren also u ¨ber die “via negativa“. Dabei haben wir das Risiko, dass der “Nachweis“ falsch sein k¨ onnte im Griff, denn es entspricht dem Risiko α, welches kontrollierbar ist. ungliche Behauptung B weder Wird H0 nicht ausgeschlossen, so gilt die urspr¨ als widerlegt noch als nachgewiesen. Beispiel. Wir stellen die Behauptung auf B : “Morgen bleibt es trocken“. Als Nullhypothese w¨ ahlen wir das Gegenteil: H0: “Morgen regnet es“. ur falsch erkl¨ aren (Antwort A1), schließen wir aus, dass es Wenn wir H0 f¨ morgen regnet. Folglich w¨ are dann B richtig, und es bleibt trocken. Wenn wir nicht ausschließen k¨ onnen, dass es morgen regnet (Antwort A3), haben wir uns nicht festgelegt, ob es morgen trocken bleibt oder nicht. Dies entspricht “keine Auskunft“. Beispiel. Wir modifizieren das Taschengeld-Beispiel und stellen die Behauptung auf, dass das durchschnittliche Taschengeld pro Kind u ¨ber 6 [e] liegt. B: μ > 6. Um dies nachzuweisen, versuchen wir auszuschließen, dass die Kinder maximal 6 [e] Taschengeld erhalten: H0: μ ≤ 6. Auch diese Art von Hypothese (einseitiger Fall) l¨asst sich mit Konfidenzintervallen testen. Allerdings m¨ usste man einseitige Konfidenzintervalle benutzen. Beispiel. Die Behauptung B, welche zur urspr¨ unglichen Nullhypothese H0 : μ = 6 im Taschengeld-Beispiel passt, m¨ usste lauten B : μ = 6, d.h die Kinder bekommen nicht 6 [e] Taschengeld pro Woche. Beispiel. Ein Test f¨ ur den umgekehrten Fall, B: μ = 6 und H0 : μ = 6, ist zum Scheitern verurteilt. Wir erkl¨ aren dies wieder mit Hilfe von Konfidenzintervallen:
292
14 Statistische Testverfahren
Man k¨ onnte H0 sinnvoller Weise nur dann ausschließen, wenn das Intervall nicht die Werte von H0 u usste aber das “Intervall“ so ¨berdeckt. Dazu m¨ schmal sein, dass es nur den Wert 6 u ¨berdeckt und sonst nichts. Dies erfordert ein Intervall, das keine L¨ ange besitzt, d.h. zu einem Punkt degeneriert Konfidenzintervall
ist:
6
} } H0
X
Wir wissen aber, dass derartig kurze
H0
Intervalle bzw. Punktsch¨ atzer eine Sicherheitswahrscheinlichkeit von Null besitzen. Folglich w¨ are das Risiko 1.Art 100%. Wollte man ein geringeres Risiko, w¨ urde der Test immer nur Antwort A3 geben. Zweiseitige Hypothesen, d.h. Hypothesen der Bauart “μ = μ0“ sind kritisch zu sehen. Man unterstellt n¨ amlich dabei, dass der tats¨achliche Erwaruntgswert μ und der hypothetische Wert μ0 mit unendlich vielen Nachkommastellen exakt u atsfremd ist, gelingt in der Praxis vermutlich ¨bereinstimmen. Da dies realit¨ immer ein Ausschluss der Hypothese “μ = μ0“, wenn man nur den Stichprobenumfang n groß genug w¨ ahlt. Es w¨ are daher sinnvoller, die Hypothese H0: μ ≈ μ0 zu testen. Dazu bedarf es allerdings einer Pr¨azisierung von “≈“. Festlegung eines Wertes f¨ ur α Bekanntlich stehen bei einem Konfidenzintervallverfahren die Zuverl¨assigkeit ¨ 1−α und die Pr¨ azision, bzw. Intervalll¨ ange in Konkurrenz zueinander. Ahnlich verh¨ alt es sich beim Signifikanztest. Je kleiner man den Wert zu α vorgibt, desto vorsichtiger verh¨alt sich der Test, indem er fast nur noch Antwort A3 gibt. Beispiel (Fortsetzung). Im Taschengeld-Beispiel korrespondiert eine Verringerung der Irrtumswahrscheinlichkeit α mit einer Erh¨ohung der Zuverl¨ assigkeit des Konfidenzintervallverfahrens, was mit einer Verbreiterung der Konfidenzintervalle erreicht wird. Je breiter die Intervalle, desto wahrscheinlicher wird auch der hypothetische Wert 6 u ¨berdeckt, und desto ¨ ofter gibt der Test Antwort A3. Im Extremfall, bei α = 0 w¨are das Konfidenzintervall unendlich breit und w¨ urde den Wert 6 mit Sicherheit u ¨berdecken. Umgekehrt erhalten wir bei α = 100 % einen Test, der garantiert immer die Nullhypothese ausschließt. Zwar kann der Anwender das Risiko α kontrollieren, jedoch ist er bei der Frage, wie er es vern¨ unftig kontrollieren bzw. festsetzen sollte, etwas alleine gelassen. ¨ Ublicherweise w¨ ahlt man f¨ ur α Werte wie 1% oder 5%. Vern¨ unftig ist es, wenn man die Konsequenzen, welche sich aus dem Fehler 1.Art ergeben k¨onnen, bei der Wahl von α einbezieht. So d¨ urfte beispielsweise bei einem Test von
14.4 Hypothesen-Typen
293
Nebenwirkungen eines Medikaments eine geringere Irrtumswahrscheinlichkeit angebracht sein, als etwa bei einer Kundenbefragung. Sinn und Zweck von Signifikanztests In der Praxis und auch im Alltag k¨ onnten wir Entscheidungen oft besser und leichter treffen, wenn wir w¨ ussten, ob eine bestimmte Nullhypothese H0 u ¨ber eine Grundgesamtheit richtig oder falsch ist. Insofern w¨ urden wir am liebsten einen Alternativtest anwenden. Wie oben schon ausgef¨ uhrt, besitzt dieser leider den Nachteil, dass er ein unkontrollierbares Risiko zweiter Art besitzt. Dies ist eine Schw¨ ache, die nicht auf einer Unzul¨anglichkeit von Statistikern, sondern auf einem nicht zu bereinigendem, naturgegebenem Umstand beruht. Auch Philosophen haben sich mit diesem Problem befasst. F¨ uhren wir einen Signifikanztest durch, ergibt sich im Ergebnis eine der folgenden beiden Situationen: • Die Antwort A1 “H0 ausschließen“ wird gegeben. Hier legt sich der Test fest und trifft eine klare Aussage u ¨ber den Wahrheitsgehalt der Nullhypothese. Entsprechend kann der Anwender f¨ ur sein gegebenes Problem eine Entscheidung treffen, die ihm vern¨ unftig erscheint, wenn H0 falsch w¨are. Hier besteht der wesentliche Vorteil des Signifikanztestes darin, dass wir die Sicherheit, die richtige Entscheidung getroffen zu haben, kennen. Sie entspricht dem im Voraus festgesetzten Wert 1 − α. In den Wissenschaften ist es u ¨blich, in diesem Fall von gesicherten Erkenntnissen bzw. signifikanten Ergebnissen zu sprechen. • Die Antwort A3 “H0 nicht ausschließen“ wird gegeben. Hier gibt der Test keine klare Aussage u ¨ber den Wahrheitsgehalt der Nullhypothese. Der Anwender befindet sich nun in der Not, f¨ ur sein urspr¨ ungliches Problem dennoch eine Entscheidung treffen zu m¨ ussen. Oft verh¨alt man sich dann so, are, weil es “plausibler“ erscheint. In den Wissenschaften als ob H0 richtig w¨ w¨ are es jedoch unredlich, von gesicherten bzw. signifikanten Ergebnissen zu sprechen. Hier besitzt der Signifikanztest den Vorteil, uns klar zu machen, dass die getroffene Entscheidung im Grunde auf wackeligen F¨ ußen steht. Auch dies ist eine Erkenntnis, die wichtig und hilfreich sein kann. Sinnvollerweise sollte man sich dann verst¨ arkt auf die Konsequenzen einer Fehlentscheidung vorbereiten.
14.4 Hypothesen-Typen In der Literatur findet man eine Unmenge von statistischen Tests vor. F¨ ur ¨ einen ersten Uberblick ist es hilfreich, sie nach den zu testenden Fragestellungen bzw. Hypothesen zu klassifizieren.
294
14 Statistische Testverfahren
1. Eine Grundgesamtheit, eine Variable X a) Parametertests Es wird ein Parameter, d.h. eine statistische Kenngr¨oße mit einer vorgegebenen konstanten Zahl, dem sogenannten hypothetischen Wert verglichen. Parameter Erwartungswert
Hypothese H0 μ = μ0 μ ≤ μ0 μ ≥ μ0
Varianz
σ 2 = σ02 σ 2 ≤ σ02 σ 2 ≥ σ02
Trefferwahrscheinlichkeit
p = p0 p ≤ p0 p ≥ p0
Wie schon erw¨ ahnt spricht man bei Nullhypothesen, die einer Gleichung entsprechen, von einem zweiseitigen Test. Liegt eine Ungleichung vor, so nennt man den Test, oder die Hypothese einseitig. Diese Sprechweise orientiert sich an der Alternative H1 , dem Gegenteil der jeweiligen Nullhypothese. b) Anpassungstests Hier soll gepr¨ uft werden, ob die tats¨ achliche, aber unbekannte Verteilung F (x) einer Zufallsvariablen X mit einer vorgegebenen, hypothetischen Verteilung F0 (x) u ¨bereinstimmt: H0: F (x) = F0 (x)
f¨ ur alle x.
¨ Man beachte, dass bei Ubereinstimmung zweier Verteilungen folglich auch deren Parameter wie etwa der Erwartungswert, die Varianz etc. u ¨bereinstimmen. Insofern ist die Hypothese eines Anpassungstest “strenger und spezieller“, als die Hypothese eines Parametertests. 2. Eine Grundgesamtheit, zwei Variablen X, Y pro Objekt Sind pro Objekt zwei Variablen X, Y messbar, so kann man die Stichproben auf zwei Arten ziehen: • Verbundene Stichprobe: Man zieht aus der Grundgesamtheit n Objekte, und misst pro Objekt gleichzeitig bzw. “verbunden“ den Merkmalswert zu X und den Merkmalswert zu Y . Dies entspricht der bereits bekannten bivariaten Stichprobe ((X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn )),
(14.8)
14.4 Hypothesen-Typen
295
welche wir auf Seite 251 kennen gelernt haben. Beispiel. Bei allen Sch¨ ulern der 11. Klasse Deutschlands soll die durchschnittliche Englischnote μx mit der durchschnittlichen Mathematiknote μy verglichen werden. Wir ziehen aus der Grundgesamtheit der Sch¨ uler eine einzige Stichprobe vom Umfang n = 55 und messen pro Person die Englischnote X und die Mathematiknote Y . Somit erhalten wir 55 Messwertepaare (Xi , Yi ), die jeweils u ¨ber eine Person i “verbunden“ sind. • Unverbundene Stichproben: In diesem Fall zieht man zweimal getrennt aus derselben Grundgesamtheit eine Stichprobe. Der Stichprobenumfang m der ersten Stichprobe und der Stichprobenumfang n der zweiten Stichprobe k¨ onnen verschieden sein. Entscheidend ist, dass man in der ersten Stichprobe nur die Merkmalswerte zu X und in der zweiten Stichprobe nur die Merkmalswerte zu Y misst. Insofern liegen zwei separate, univariate Stichproben vor: (X1 , X2 , . . . , Xm )
und (Y1 , Y2 , . . . , Yn ).
(14.9)
Beispiel. Zun¨ achst ziehen wir die Stichprobe (X1 , X2 , . . . , X40 ), indem wir 40 Sch¨ uler zuf¨ allig ausw¨ ahlen und nur nach ihrer Englischnote X befragen. Anschließend ziehen wir die Stichprobe uler zuf¨allig ausw¨ahlen und (X1 , X2 , . . . , X70 ), indem wir 70 Sch¨ nur nach ihrer Mathematiknote Y befragen. Zwischen den einzel nen Messwerten Xi und Yi besteht keine Verbindung. Welches Ziehungsverfahren besser ist, werden wir bei den entsprechenden Tests besprechen. Die Hypothesentypen kann man ¨ahnlich wie im ersten Fall gliedern. a) Parametertests Es soll ein Parameter, d.h eine statistische Kenngr¨oße einer Variablen X mit dem entsprechenden Parameter einer zweiten Variablen Y verglichen werden. Dabei wird keine Festlegung u ¨ber die absolute H¨ohe der Parameterwerte getroffen. Parameter Erwartungswerte
Hypothese H0 μx = μy μx ≤ μy μx ≥ μy
Varianzen
σx2 = σy2 σx2 ≤ σy2 σx2 ≥ σy2
Trefferwahrscheinlichkeiten
px = py px ≤ p y px ≥ p y
296
14 Statistische Testverfahren
b) Homogenit¨ atstests Es soll gepr¨ uft werden, ob die tats¨ achlichen, aber unbekannten Verteilungen Fx (t) und Fy (t) zweier Zufallsvariablen X, Y u ¨bereinstimmen bzw. homogen sind. H0: Fx (t) = Fy (t)
f¨ ur alle t.
c) Tests auf Unabh¨ angigkeit Hier soll gepr¨ uft werden, ob zwei Zufallsvariablen X, Y unabh¨angig sind. Bei Unabh¨ angigkeit kann man die gemeinsame, bivariate Verteilung als Produkt der einfachen, univariaten Verteilungen berechnen: H0:
P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y)
f¨ ur alle x, y.
Hierbei sind nur verbundene Stichproben sinnvoll. 3. Zwei Grundgesamtheiten, je eine Variable pro Objekt Man zieht aus der ersten Gesamtheit eine Stichprobe vom Umfang n und misst die Werte zur Variablen. Aus der zweiten Gesamtheit zieht man eine Stichprobe vom Umfang m und misst ebenfalls die Werte zur Variablen. Um besser zwischen den Grundgesamtheiten unterscheiden zu k¨ onnen, wollen wir die Variable in der ersten Gesamtheit mit X, und in der zweiten Gesamtheit mit Y bezeichnen. Somit erh¨alt man unverbundene Stichproben, d.h. zwei separate, univariate Stichproben, die aber im Gegensatz zu (14.9) aus zwei Grundgesamtheiten stammen: (X1 , X2 , . . . , Xm ) und
(Y1 , Y2 , . . . , Yn ).
(14.10)
Verbundene Stichproben sind bei zwei Grundgesamtheiten nicht sinnvoll realisierbar. Beispiel. Es soll das durchschnittliche Gehalt μx von Frauen mit dem annern verglichen werden. Auch durchschnittlichen Gehalt μy von M¨ wenn hier eigentlich nur ein Merkmal “Gehalt“ vorliegt, notieren wir dieses mit zwei Variablen X und Y . Wir ziehen getrennt eine Stichprobe aus der Grundgesamtheit der M¨anner und eine Stichprobe aus der Grundgesamtheit der Frauen. Die Hypothesentypen kann man wie im letzten Fall gliedern. Allerdings entf¨ allt der Unabh¨ angigkeitstest, der bei unverbundenen Stichproben nicht sinnvoll ist. 4. Eine oder mehrere Gesamtheiten, mehrere Variablen X1 , X2 , . . . , Xr -
Liegt nur eine Grundgesamtheit vor, bei der ein Objekt mehrere Variablen X1 , X2 , . . . , Xr besitzt, kann man analog zu Fall 2 vorgehen. Die Hypothesentypen sind entsprechend anzupassen. H¨aufig m¨ochte man beispielsweise testen, ob zu r Zufallsvariablen deren Erwartungswerte μ1 , μ2 , . . . , μr gleich sind:
14.4 Hypothesen-Typen
H0:
-
297
μ1 = μ2 = . . . = μr .
Es gibt verschiedene Tests f¨ ur diese Hypothese. Der wahrscheinlich am meisten gebrauchte Test ist die sogenannte “Varianzanalyse“ bzw. ANOVA (analysis of variance). Da aber die Hypothese Erwartungswerte und nicht Varianzen vergleicht, ist die Bezeichnung “Varianzanalyse“ etwas irref¨ uhrend. Sie beruht auf einer dem Test zu Grunde liegenden Rechentechnik. Liegen r verschiedene Grundgesamtheiten mit jeweils nur einer Variablen vor, kann man analog zu Fall 3 unverbundene Stichproben ziehen, die aus r univariaten Stichproben bestehen. Auch hier kann beispielsweise eine ANOVA eingesetzt werden.
Anzumerken sei noch, dass Hypothesen u ¨ber eine Trefferwahrscheinlichkeit bzw. einen Anteil p sowohl mit einem Parametertest als auch mit einem Anpassungs- bzw. Homogenit¨ atstest behandelt werden k¨onnen.
15 Signifikanztests
Wie bereits in Abbildung 14.2 dargestellt, kommt die Konstruktion eines Signifikanztests im Wesentlichen der Angabe einer kritischen Region K gleich. Stichprobenergebnisse, die in der kritische Region K liegen, sollen bei richtiger Nullhypothese H0 nur sehr selten, d.h. mit einer Wahrscheinlichkeit von maximal α auftreten k¨ onnen. Dabei wird der Wert zum Risiko α vom Anwender im Voraus festgelegt. Das Beispiel “Taschengeld“ auf Seite 288 weist auf den engen Zusammenhang zwischen Konfidenzintervallverfahren und Signifikanztests hin, die eine Nullhypothese u ¨ber einen Parameter wie z.B. μ oder p testen sollen. Die kritische Region K wird genau von den Stichproben gebildet, bei denen die Konfidenzintervalle nicht den oder einen der hypothetischen Werte u ¨berdecken. Insofern gibt es f¨ ur parametrische Tests fast nichts Neues zu tun. Wir k¨onnen die entsprechenden bekannten Formeln der Konfidenzintervallverfahren heranziehen. Dennoch wollen wir nochmals relativ ausf¨ uhrlich auf diese Tests eingehen, um noch weitere Einsichten zu gewinnen, die uns sp¨ater helfen, auch Tests zu nicht-parametrischen Hypothesen (Anpassungstest, Unabh¨angigkeitstest, Homogenit¨ atstest) zu konstruieren. In den folgenden Unterkapiteln werden nur einige wenige, aber h¨aufig gebrauchte Tests besprochen. Versteht man deren Vorgehensweise und Handhabung, d¨ urfte es relativ leicht fallen, sich weitere Tests in der Literatur anzueignen.
15.1 Test fu ¨r den Erwartungswert bei bekannter Varianz (Gauß-Test) In diesem Abschnitt u ¨bernehmen wir das Modell, das bereits bei den Konfidenzintervallen in Kapitel 13.3 zu Grunde gelegt worden ist. Die Bemerkungen dort gelten auch hier.
300
15 Signifikanztests
Voraussetzungen: 1. Es liegt eine unabh¨ angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) vor. 2. Der Wert der Varianz σ 2 = V AR[Xi ] ist exakt bekannt. ¯ = 1 (X1 + X2 + . . . + Xn ) ist normalverteilt, d.h. 3. Der Punktsch¨ atzer X n 2 ¯ ∼ N (μ ; σ ). X n Die Konstruktion eines Signifikanztestes kommt der Festlegung einer kritischen Region K gleich. Wir besprechen die Details bei einem zweiseitigen Test und modifizieren anschließend die Ergebnisse f¨ ur den einseitigen Test. Zweiseitiger Test f¨ ur H0: μ = μ0 Es soll die Hypothese getestet werden, ob der Erwartungswert der Variablen X den hypothetischen Wert μ0 besitzt. Wir greifen nochmals die auf Seite 288 dargestellte Idee auf. Dort haben wir die Antworten des Signifikanztests davon abh¨angig gemacht, ob das Konfidenzintervall den hypothetischen Wert μ0 u ¨berdeckt: Antwort A1 “H0 ausschließen“ ⇔ μ0 wird nicht u ¨berdeckt, (15.1) (15.2) Antwort A3 “H0 nicht ausschließen“ ⇔ μ0 wird u ¨berdeckt. Die Stichprobenergebnisse, welche zur Antwort A1 f¨ uhren, bilden die kritische Region K. Um diese Stichprobenergebnisse konkret identifizieren zu k¨onnen, greifen wir auf die Formel f¨ ur Konfidenzintervalle (13.25) zur¨ uck und f¨ uhren folgende ¨ aquivalente Umformungen durch: Konfidenzintervall
Konfidenzintervall X
m0
μ0 < linker Intervallrand
oder oder
m0
X
rechter Intervallrand < μ0
¯ − √σ λ oder X ¯ + √σ λ < μ0 μ0 < X n n σ ¯ − μ0 < − √σ λ. ¯ − μ0 oder X √ λ<X (15.3) n n Dabei ist wie in (13.25) λ = λ1− α2 das 1 − α2 -Quantil der Standardnormalverteilung und 1 − α die Sicherheitswahrscheinlichkeit des Sch¨atzverfahrens. Die letzte Zeile (15.3) zeigt, dass ein Stichprobenergebnis in der kritischen Re¯ − μ0 betragsm¨aßig gr¨oßer als √σ λ ausf¨allt. gion K liegt, falls der Abstand X n Damit erhalten wir eine Entscheidungsregel, die das gleiche Antwortverhalten wie (15.1) und (15.2) aufweist: ¯ − μ0 | > • Falls |X gegeben.
√σ n
λ gilt, wird H0 ausgeschlossen bzw. Antwort A1
15.1 Test f¨ ur den Erwartungswert bei bekannter Varianz (Gauß-Test)
301
Erwartungswert der Variablen “X = Taschengeld“
m
?
x X
X
6
5.5
Hypothetischer Erwartungswert in der Grundgesamtheit
6
Gemessener Mittelwert in der Stichprobe
Abbildung 15.1. Sollte die Nullhypothese H0 : μ = 6 richtig sein, ist die linke Skizze zutreffend. Wir m¨ ussen entscheiden, ob der gemessene, empirische Mittelwert in der Stichprobe mit dieser Vorstellung vereinbar ist.
•
¯ − μ0 | ≤ Falls |X gegeben.
√σ n
λ gilt, wird H0 nicht ausgeschlossen bzw. Antwort A3
Die Struktur dieser Entscheidungsregel ist f¨ ur statistische Tests typisch. Man berechnet eine sogennante Testgr¨ oße, und vergleicht diese mit einer Test¯ − μ0 |, welche schranke. Hier entspricht die Testgr¨ oße der Zufallsvariablen |X die Distanz des Stichprobenmittels zum hypothetischen Wert misst. Die Testschranke ist der konstante Wert √σn λ. Die Entscheidungsregel ist im Grunde naheliegend und plausibel. Wenn die ¯ sich wenig vom Hypothese μ = μ0 zutrifft, wird das Stichprobenmittel X ¯− hypothetischen Werte μ0 unterscheiden. Die Testgr¨oße bzw. die Distanz |X μ0 | ist dann gering. Sollte H0 falsch sein, erwarten wir große Distanzen. Der Begriff “groß“ wird durch die Testschranke √σn λ pr¨azisiert, wobei diese so liegt, dass die Irrtumswahrscheinlichkeit den vorgegebenen Wert α einh¨alt. Dies haben wir aus dem Konfidenzintervallverfahren abgeleitet. Beispiel (Taschengeld). Max m¨ ochte wie im bereits bekannten Beispiel auf Seite 283 die Hypothese H0: μ = 6 testen, wobei er das Risiko erster Art α auf 1% beschr¨anken m¨ochte. Die Varianz sei ihm bekannt: σ 2 = 3.61. Max hat eine Zufallsstichprobe gezogen, indem er n = 40 Kinder unabh¨ angig befragt hat. Das Stichprobenmittel betr¨ agt x ¯ = 5.5 [e]. Max berechnet die Testgr¨ oße, welche anzeigt, dass der gemessene Wert x ¯ vom hypothetischen Wert μ0 um |¯ x − μ0 | = |5.5 − 6| = 0.50 [e]
(15.4)
abweicht. Diesen Wert vergleicht er mit der Testscharanke σ 1.9 1.9 √ λ1− α2 = √ λ0.995 = √ 2.576 = 0.77387. n 40 40
(15.5)
302
15 Signifikanztests
¯ − μ0 | kleiner als die Testschranke Da die Testgr¨ oße bzw. die Distanz |X ausf¨ allt, gibt der Test die Antwort A3: “Wir k¨onnen nicht ausschließen, dass die Kinder in Deutschland im Schnitt 6 Euro Taschengeld bekommen.“ Das heißt, wir wissen es nicht genauer und legen uns nicht fest. Dabei betr¨ agt das Risiko, die Nullhypothese ungerechtfertigter Weise abzulehnen, α = 1%. Eigentlich sind wir an dieser Stelle mit der Konstruktion eines Testes f¨ ur “H0: μ = μ0“ schon fertig. Jedoch ist es in der Literatur u ¨blich, die Entscheidungsregel in einer modifizierten Form darzustellen. Dazu wird die Differenz ¯ − μ0 “standardisiert“: X Testgr¨ oße zum Gauß-Test: T (x) =
¯ − μ0 √ X n. σ
(15.6)
Zwar sieht nun die Testgr¨ oße etwas komplizierter aus, daf¨ ur aber erhalten wir eine besonders einfache Testschranke, n¨ amlich das Quantil λ. Wegen ( ( ¯ − μ0 √ ( (X σ ¯ ( n (( > λ Antwort A1 ⇔ |X − μ0 | > √ λ ⇔ ( σ n ⇔ |T (x)| > λ (15.7) ist mit dem Entscheidungskriterium |T (x)| > λ dieselbe kritische Region K wie bisher festgelegt, d.h. der Test zeigt das gleiche Antwortverhalten auf. Den so formulierten Test nennt man: Zweiseitiger Gauß-Test f¨ ur H0: μ = μ0 • Falls |T (x)| > λ1− α2 , wird H0 ausgeschlossen bzw. Antwort A1 gegeben. • Falls |T (x)| ≤ λ1− α2 , wird H0 nicht ausgeschlossen bzw. Antwort A3 gegeben. Das Risiko 1.Art betr¨ agt exakt α. ¯ − μ0 kann bei ein und derselben StichDie nicht-standardisierte Differenz X probe große und kleine Werte annehmen, je nachdem, ob wir in Cent statt in Euro, oder in Gramm statt in Tonnen messen. Die standardisierte Testgr¨oße T (x) hingegen besitzt den Vorteil, dass sie dimensionslos ist, d.h. bei einem Wechsel der Einheiten f¨ ur X ihren Wert unver¨ andert beibeh¨alt. Insofern entspricht die standardisierte Testgr¨ oße einer standardisierten Differenz. Sie l¨ asst sich, wie die Umformung (15.7) zeigt, direkt mit dem Quantil λ vergleichen. Dies beruht letztlich auf folgender Eigenschaft, f¨ ur die auf Seite 388 eine Herleitung gegeben ist: T (x) ist standardnormalverteilt, falls μ = μ0 richtig ist.
(15.8)
15.1 Test f¨ ur den Erwartungswert bei bekannter Varianz (Gauß-Test)
Die Verteilung der standardisierten Differenz T (x)
Dichte von T(x), falls m = m0
a -
a -
2
Testgröße T(x)
2
0
Antwort A1, Antwort A3, H0 ausschließen H0 nicht ausschließen
Antwort A1, H0 ausschließen
l1- -a
-l1- -a 2
2
Abbildung 15.2. Beim zweiseitigen Test H0 : μ = μ0 betr¨ agt das Risiko 1.Art genau α = α2 + α2 .
Dichte von T(x), falls m < m0
Dichte von T(x), falls m = m0
a 0
Antwort A3, H0 nicht ausschließen
l1-a
Testgröße T(x)
Antwort A1, H0 ausschließen
Abbildung 15.3. Beim einseitigen Test H0 : μ ≤ μ0 betr¨ agt das Risiko 1.Art maximal α.
Dichte von T(x), falls m = m0
Dichte von T(x), falls m > m0
a Antwort A1, H0 ausschließen
-l1-a
Testgröße T(x) 0
Antwort A3, H0 nicht ausschließen
Abbildung 15.4. Beim einseitigen Test H0 : μ ≥ μ0 betr¨ agt das Risiko 1.Art maximal α.
303
304
15 Signifikanztests
Diese Eigenschaft werden wir sp¨ ater bei der Konstruktion weiterer Tests direkt aufgreifen, satt den Umweg u ¨ber Konfidenzintervalle zu beschreiten. Die Abbildung 15.2 zeigt die Verteilung der standardisierten Differenz T (x). Einseitiger Test f¨ ur H0: μ ≤ μ0 Die Nullhypothese besagt, dass der Erwartungswert der Variablen X nicht ¯ messen, das ebengr¨ oßer als μ0 ist. Sollten wir daher ein Stichprobenmittel X falls nicht gr¨ oßer als μ0 ist, spricht nichts gegen diese Hypothese. Umgekehrt w¨ urden wir die Richtigkeit der Nullhypothese H0 anzweifeln, wenn wir ein ¯ messen, das “deutlich“ u Stichprobenmittel X ¨ber μ0 liegt. Dann w¨are wegen √ ¯ > μ0 ⇔ X ¯ − μ0 > 0 ⇔ (X ¯ − μ0 ) n > 0 ⇔ T (x) > 0 (15.9) X σ die Testgr¨ oße T (x) ebenfalls “deutlich“ positiv. Daher w¨ahlen wir als kritische Region K Stichprobenergebnisse, bei denen T (x) u ¨ber einer bestimmten positiven Testschranke c liegt: H0 ausschließen
⇔
T (x) > c > 0.
(15.10)
Je weiter der tats¨ achliche Erwartungswert μ unter dem hypothetischen Wert ¯ und um so unwahrscheinliur X, μ0 liegt, um so kleinere Werte erwarten wir f¨ cher wird es, dass T (x) u onnte. Daher verringert sich das Risiko ¨ber c liegen k¨ 1.Art, je kleiner der Wert f¨ ur μ liegt. Umgekehrt ist das Risiko 1.Art besonders hoch, wenn die Nullhypothese “gerade noch richtig“ ist, also μ = μ0 exakt zutrifft (s. Abbildung 15.3). F¨ ur diesen “Extremfall“ wollen wir das Risiko 1.Art auf den vorgegebenen Wert α einschr¨ anken: α = P (Stichprobe liegt in der kritischen Region K | μ = μ0 ) = P (T (x) > c | μ = μ0 ) = 1 − P (T (x) ≤ c | μ = μ0 ) (15.8)
= 1 − Φ (c) .
(15.11)
Dies ist gleichbedeutend mit Φ (c) = 1 − α und zeigt, dass als Testschranke c das (1 − α)-Quantil der Standardnormalverteilung zu w¨ ahlen ist: c = λ1−α . Somit erhalten wir: Einseitiger Gauß-Test f¨ ur H0: μ ≤ μ0 • Falls T (x) > λ1−α , wird H0 ausgeschlossen bzw. Antwort A1 gegeben. • Falls T (x) ≤ λ1−α , wird H0 nicht ausgeschlossen bzw. Antwort A3 gegeben. Das Risiko 1.Art betr¨ agt im Fall μ = μ0 genau α. Falls μ < μ0 zutrifft, liegt das Risiko 1.Art sogar unter α.
15.1 Test f¨ ur den Erwartungswert bei bekannter Varianz (Gauß-Test)
305
Erwartungswert der Variablen “X = Trockenzeit“
Abbildung 15.5. Sollte die Nullhypothese H0 : μ ≤ 50 richtig sein, ist die linke Skizze zutreffend. Wir m¨ ussen entscheiden, ob der gemessene, empirische Mittelwert in der Stichprobe mit dieser Vorstellung vereinbar ist.
Man beachte, dass es zum Ablehnen der Nullhypothese H0 nicht gen¨ ugt, dass T (x) positiv ist. Wie die Abbildung 15.3 zeigt, sind bei richtiger Nullhypothese ohnlich“ und kein besonderer Zufall. H0 solche Ergebnisse nicht “außergew¨ “Signifikant“ ist die Stichprobe nur dann, wenn T (x) “sehr positiv“ d.h. u ¨ber λ1−α liegt. Beispiel (Trockenzeit). Anton arbeitet in einer Lackiererei. Er weiß, dass die Trockenzeit X [Min] eines Werkst¨ uckes nicht immer gleich lange dauert, sondern geringen Schwankungen unterliegt, die er aufgrund seiner jahrelangen Erfahrung mit der Varianz σ 2 = 33 [Min2 ] beziffert. Es wird ¯ normalverteilt ist. zudem unterstellt, dass das Stichprobenmittel X Anton behauptet, dass die Trockenzeit im Schnitt u ¨ber 50 Minuten liegt. Seine Chefin Berta vermutet hingegen, dass dieser Wert zu hoch liegt und nur zur Rechtfertigung von Verz¨ ogerungen dienen k¨onnte. Anton m¨ochte mit einem Test zum Signifikanzniveau α = 1% seine Behauptung untermauern. Anton hat eine unabh¨ angige Zufallsstichprobe vom Umfang n = 15 gezogen und dort eine durchschnittliche Trockenzeit von x ¯ = 55 Minuten gemessen. Berta wertet dies als nichtssagenden Zufall ab. Anton h¨atte recht, wenn die Nullhypothese H0: μ ≤ 50 falsch ist. Wir berechnen: x ¯ − μ0 √ 55 − 50 √ T (x) = n= √ 15 = 3.371, σ 33 λ1−α = λ0.99 = 2.326. Bei richtiger Nullhypothese m¨ usste T (x) tendenziell negativ ausfallen. Da aber T (x) = 3.371 den positiven Wert 2.326 u ¨bersteigt, welcher der Testschranke entspricht, kann man mit einem Risiko 1.Art von maximal 1% die Nullhypothese ablehnen. Berta sollte Anton Recht geben.
306
15 Signifikanztests
Bei der umgekehrten Nullhypothese H0 : μ ≥ 50 h¨atte man, wie nachfolgend gezeigt wird, Antwort A3 geben m¨ ussen, d.h. man kann nicht ausschließen, dass die Trockenzeit u ¨ber 50 Minuten liegt. Das allerdings w¨ are weder eine Nachweis noch ein Gegenbeweis f¨ ur Antons Aussage. Dieses Ergebnis w¨ urde nicht im Gegensatz zum ersten stehen; jedoch w¨are es nicht “informativ“. Einseitiger Test f¨ ur H0: μ ≥ μ0 Es soll die Hypothese getestet werden, ob der Erwartungswert der Variablen X mindestens den Wert μ0 besitzt. Wir k¨ onnen wie im letzten Fall argumentieren, indem wir alles gespiegelt betrachten. Die Abbildung 15.4 ergibt sich durch Spiegelung von Abbildung 15.3. Wir zweifeln die Nullhypothese H0 an, wenn wir ein Stichprobenmittel ¯ messen, das “deutlich“ unter μ0 liegt. Dann w¨are wegen X √ ¯ − μ0 < 0 ⇔ (X ¯ − μ0 ) n < 0 ⇔ T (x) < 0 ¯ < μ0 ⇔ X X σ (15.12) die Testgr¨ oße T (x) ebenfalls “deutlich“ negativ. Daher w¨ahlen wir als kritische Region K Stichprobenergebnisse, bei denen T (x) unter einer bestimmten negativen Testschranke d liegt: H0 ausschließen
⇔
T (x) < d < 0.
(15.13)
Auch hier ist das Risiko 1.Art am gr¨ oßten, wenn die Nullhypothese “gerade ur dienoch richtig“ ist, also μ = μ0 exakt zutrifft (s. Abbildung 15.4). F¨ sen “Extremfall“ wollen wir das Risiko 1.Art auf den vorgegebenen Wert α einschr¨ anken: α = P (Stichprobe liegt in der kritischen Region K | μ = μ0 ) = P (T (x) < d | μ = μ0 ) (15.8)
=
Φ (d) .
(15.14)
Dies zeigt, dass f¨ ur die Testschranke d das α-Quantil der Standardnormalverteilung zu w¨ ahlen ist: d = λα = −λ1−α . Die zweite Gleichung ergibt sich aus der Symmetrie der standardisierten Gaußschen Glockenkurve. Einseitiger Gauß-Test f¨ ur H0: μ ≥ μ0 • Falls T (x) < −λ1−α , wird H0 ausgeschlossen bzw. Antwort A1 gegeben. • Falls T (x) ≥ −λ1−α , wird H0 nicht ausgeschlossen bzw. Antwort A3 gegeben. Das Risiko 1.Art betr¨ agt im Fall μ = μ0 genau α. Falls μ > μ0 zutrifft, liegt das Risiko 1.Art sogar unter α.
15.2 Test f¨ ur den Erwartungswert bei unbekannter Varianz (t-Test)
307
Beispiel (Kaffeekonsum). Beim Fr¨ uhst¨ ucksbuffet des Hotels “Goldener Schlummi“ kann ein Gast so viel Kaffee trinken wie er m¨ochte. Der K¨ uchenchef Bert weiß aus Erfahrung, dass der Kaffeekonsum X [ml/Kopf] eine Standardabweichung von exakt σ = 44 [ml/Kopf] besitzt. Um gen¨ ugend Kaffee vorzuhalten, geht Bert davon aus, dass im Schnitt ein Gast weniger als 200 Milliliter trinkt. Er m¨ochte dies mit einer Irrtumswahrscheinlichkeit von maximal 5% testen. Mit einem Messbecher hat Bert bei n = 40 unabh¨angig und zuf¨allig ausgew¨ ahlten G¨asten einen mittleren Kaffeekonsum von 196 [ml/Kopf] gemessen. Dass die Zufallsvariable X nicht normalverteilt sein k¨onnte, st¨ort ¯ wegen Bert nicht. Wegen n ≥ 30 geht er davon aus, dass der Sch¨atzer X des zentralen Grenzwertsatzes zumindest approximativ normalverteilt ist. Bert h¨ atte recht, wenn die Nullhypothese H0: μ ≥ 200 falsch ist. Wir berechnen: 196 − 200 √ x ¯ − μ0 √ n= 40 = −0.575, σ 44 = −λ0.95 = −1.645.
T (x) = −λ1−α
Bei richtiger Nullhypothese m¨ usste T (x) tendenziell positiv ausfallen. Zwar ist T (x) = −0.575 negativ, jedoch noch nicht unter der Testschranke -1.645. Daher k¨ onnen wir die Nullhypothese nicht ablehnen, dass ein Gast im Schnitt 200 und mehr Milliliter Kaffee konsumiert. Bei dieser Entscheidung sind wir gegen ein Risiko 1.Art von maximal 5% gesch¨ utzt. Allen bisherigen Beispielen ist die etwas unrealistische Annahme gemein, den Erwartungswert μ nicht zu kennen, die Varianz σ 2 hingegen exakt zu kennen. Dies wird im n¨ achsten Kapitel aufgehoben.
15.2 Test fu ¨r den Erwartungswert bei unbekannter Varianz (t-Test) Es sollen Hypothesen getestet werden, bei denen die Erwartungswerte μ einer Variablen X mit einem vorgegebenen, hypothetischen Wert μ0 verglichen wird: H0: μ = μ0 , H0: μ ≥ μ0 . (15.15) H0: μ ≤ μ0 , Diese Hypothesen sind die gleichen wie beim vorigen Gauß-Test. Diesmal ist die Varianz σ 2 unbekannt. Wir u ¨bernehmen das Modell, das bereits bei den Konfidenzintervallen in Kapitel 13.4 zu Grunde gelegt worden ist. Die Bemerkungen dort gelten auch hier.
308
15 Signifikanztests
Voraussetzungen: 1. Es liegt eine unabh¨ angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) vor. 2. Der Wert der Varianz σ 2 = V AR[Xi ] ist nicht bekannt. ¯ = 1 (X1 + X2 + . . . + Xn ) ist normalverteilt, d.h. 3. Der Punktsch¨ atzer X n 2 ¯ ∼ N (μ ; σ ). X n Wie in Kapitel 13.4 bereits angesprochen, d¨ urfen wir diese Voraussetzungen in vielen praktischen Problemstellungen als erf¨ ullt einstufen, sofern “große“, unabh¨ angige Zufallsstichproben vorliegen. In den Anwendungen gelten Stichprobenumf¨ ange n ≥ 30 als “gen¨ ugend groß“. Wir k¨ onnen fast w¨ ortlich die Herleitung zum Gauß-Test u ¨bernehmen. Der einzige Unterschied beruht darauf, dass bei der Testgr¨oße (15.6) der Wert der Varianz σ 2 unbekannt ist und durch den Punktsch¨atzer “Stichprobenvarianz“ 1 ¯ 2 (Xi − X) S = n − 1 i=1 n
2
(15.16)
ersetzt wird. F¨ ur die so gewonnene Testgr¨ oße beim t-Test T (x) =
¯ − μ0 √ X n S
(15.17)
k¨ onnen wir ein Resultat u ¨bernehmen, das wir bereits in (13.29) besprochen haben: T (x) ist t-verteilt mit Freiheitsgrad n − 1, falls μ = μ0 richtig ist. (15.18) Damit l¨ asst sich wie beim Gauß-Test durch Vorgabe des Risikos 1.Art die kritische Region bestimmen. Als Testschranken treten die Quantile der tVerteilung auf, welche wir einer Tabelle im Anhang entnehmen k¨onnen: tf,γ = γ-Quantil der t-Verteilung bei f Freiheitsgraden. Die Entscheidungsregel und die Interpretation der Testergebnisse sind analog zum Gauß-Test anwendbar. Wir notieren die Tests, die man t-Tests nennt, in einer Tabelle, in der zu den verschiedenen Hypothesen-Typen jeweils die kritischen Regionen angegeben sind: Nullhypothese
Testvorschrift beim t-Test
H0:
μ = μ0
Falls |T (x)| ≥ tn−1,1− α2 , wird H0 ausgeschlossen.
H0:
μ ≤ μ0
Falls T (x) ≥ tn−1,1−α ,
H0:
μ ≥ μ0
Falls T (x) ≤ −tn−1,1−α , wird H0 ausgeschlossen.
wird H0 ausgeschlossen.
15.2 Test f¨ ur den Erwartungswert bei unbekannter Varianz (t-Test)
309
Ansonsten ist, wie beim Signifikanztest u ¨blich, die Antwort “H0 nicht auszuschließen“ bzw. Antwort A3 angebracht. Das Signifikanzniveau bzw. das Risiko 1.Art betr¨ agt maximal α. Zur Illustration dienen auch hier die Abbildungen 15.2-15.4, sofern man dort die Quantile λ mit den t-Quantilen ersetzt und die Gaußschen Glockenkurven mit den Dichten der t-Verteilungen austauscht. Der Unterschied w¨are optisch kaum erkennbar. Beispiel (Kaufhaus). Egon besitzt ein Kaufhaus. Er behauptet, dass im Schnitt ein Kunde Waren im Wert von mehr als 20 [e] einkauft. Er m¨ochte diese Aussage mit einer Stichprobe vom Umfang n = 7 und α = 5% testen. Daher versucht er die Nullhypothese H0: μ ≤ 20 zu widerlegen. Bereits vor Ziehung der Stichprobe kann Egon die Testschranke und somit die kritische Region festlegen: tn−1;1−α = t6; 0.95 = 1.94. Die konkrete Stichprobe lautet: (7.95, 5.55, 57.04, 75.02, 14.46, 4.11, 84.27). Egon berechnet daraus: x ¯ = 35.49 T (x) =
und
s2 = 1248.06 = 35.332 ,
35.49 − 20 √ x ¯ − μ0 √ n= 7 = 1.16. s 35.33
Da die Testgr¨ oße T (x) = 1.16 nicht gr¨ oßer als die Testschranke 1.94 ist, kann Egon nicht ausschließen, dass ein Kunde im Schnitt nur f¨ ur bis zu 20 [e] einkauft. Ein ungerechtfertigter Ausschluss der Nullhypothese w¨are bei der Testentscheidung mit maximal 5% Wahrscheinlichkeit m¨oglich gewesen. Egons Behauptung ist somit weder widerlegt, noch best¨atigt. ¯ ann¨aDie Rechnungen sind nur sinnvoll, wenn das Stichprobenmittel X hernd normalverteilt ist. Um diese Voraussetzung sicherzustellen, sollte Egon eine gr¨ oßere Stichprobe ziehen. Beispiel (Telephonate). Bei einer Telephongesellschaft ergaben umfangreiche, fr¨ uhere Untersuchungen, dass unter Tag im Schnitt gleichzeitig 30000 Gespr¨ ache pro Sekunde gef¨ uhrt werden. Seit gestern hat die Gesellschaft die Geb¨ uhren deutlich gesenkt. Man geht davon aus, dass dadurch mehr und l¨ anger telephoniert wird. Sollte sich aber die mittlere Anzahl an Gespr¨ achen pro Sekunde um mehr als 5000 erh¨oht haben, entstehen h¨ohere Kosten zur Betreibung des Netzes, als man eingeplant hat. Wir wollen eine unabh¨ angige Zufallsstichprobe vom Umfang n = 40 zie¨ hen und mit 5% Irrtumswahrscheinlichkeit testen, ob ein Ubersteigen der
310
15 Signifikanztests
Kosten droht. Daher versuchen wir zur Variablen “X = Gespr¨ache in Tausend pro Sekunde“ die Nullhypothese H0: μ ≥ 35
(15.19)
zu widerlegen. Mit der Testschranke −tn−1,1−α = −t39,0.95 = −1.68 ist die Entscheidungsregel des Testes bereits vor der Stichprobenziehung festgelegt. Beim Ziehen der Stichprobe X1 , . . . , X40 werden an 40 zuf¨allig ausgew¨ahlten Zeitpunkten die Anzahl der Gespr¨ ache gez¨ahlt. Wir sollten allerdings ausschließen, dass diese zu eng liegen, da ansonsten ein Teil der Gespr¨ache mehrfach gez¨ahlt wird, wodurch die Stichprobenvariablen Xi abh¨angig werden. Die aktuelle Stichprobe ergab: 29, 32, 30, 35, 38, 30, 30, 31, 38, 34, 30, 32 , 32 , 31 , 34 , 30 , 33, 29, 32, 34, 38, 31, 29 , 32, 35, 29, 30, 31 , 35 , 29 , 36 , 34, 35, 29 , 30, 38, 32, 35, 35, 35.
¯ ann¨ahernd normalverDa n > 30 ist, k¨ onnen wir davon ausgehen, dass X teilt ist. Mit x ¯ = 32.55 und s2 = 8.0487 erhalten wir T (x) =
32.55 − 35 √ x ¯ − μ0 √ n= √ 40 = −5.462. s 8.0487
Da die Testgr¨ oße viel kleiner als die Testschranke −t39,0.95 = −1.68 ist, k¨ onnen wir mit 5% Irrtumswahrscheinlichkeit ausschließen, dass die mittlere Anzahl an Gespr¨ achen pro Sekunde um mindestens 5000 auf mindes¨ tens 35000 angestiegen ist. Ein Uberschreiten der eingeplanten Kosten ist eher nicht zu erwarten.
15.3 Test fu ¨r zwei Erwartungswerte bei einer Grundgesamtheit Bisher haben wir Hypothesen u ¨ber den Erwartungswert μx einer einzigen Variablen X besprochen. Nun werden wir Hypothesen testen, bei denen die Erwartungswerte μx und μy zweier Variablen X und Y verglichen werden: H0: μx ≤ μy ,
H0: μx = μy ,
H0: μx ≥ μy .
(15.20)
Wie bereits auf Seite 294 diskutiert, m¨ ussen wir dabei beachten, ob eine verbundene oder unverbundene Stichprobe vorliegt. Eine verbundene Stichprobe entspricht einer bivariaten Stichprobe (12.5), d.h. es werden an ein und demselben Objekt jeweils zwei Variablen X und Y beobachtet. Beispiel (Bargeld bei Ehepaaren). Anton behauptet, dass Ehefrauen im Durchschnitt mehr Bargeld bei sich tragen als Ehem¨anner. Bezeichnen
15.3 Test f¨ ur zwei Erwartungswerte bei einer Grundgesamtheit
311
wir mit X [e] das Bargeld bei einer Ehefrau und mit Y [e] das Bargeld bei einem Ehemann, so h¨ atte Anton recht, wenn die Hypothese H0: μx ≤ μy
(15.21)
falsch w¨ are. Bei der Ziehung der Stichprobe ist es naheliegend, jeweils unabh¨ angig und zuf¨ allig ein Ehepaar i auszuw¨ahlen und den zugeh¨origen Wert (Xi , Yi ) zu notieren, d.h. an ein und demselben “Objekt“ Ehepaar wird zweimal eine Messung vorgenommen. Das konkrete Stichprobenergebnis lautet: (60; 52), (75; 70), (170; 184), (50; 40), (220; 254), (95; 88) , (60; 42), (76; 60), (70; 84), (450; 340), (220; 254), (95; 88) , (62; 58), (73; 73), (70; 94), (250; 140), (20; 54), (295; 288) , (160; 54), (75; 74), (170; 184), (50; 40), (220; 154), (195; 88) , (60; 52), (55; 7), (173; 84), (50; 30), (223; 250), (95; 68) , (65; 52), (54; 17), (163; 44), (80; 30), (223; 150), (195; 88).
Anton legt sich nicht bez¨ uglich der absoluten H¨ohe von μx oder μy fest. Ihm kommt es lediglich auf den Unterschied zwischen μx und μy an. Diesen k¨ onnen wir sichtbar machen, indem wir bei jedem Ehepaar die Differenzen betrachten: (15.22) Di = Xi − Yi . Die Stichprobe bez¨ uglich der Variablen D ergibt n = 36 Differenzen: ( 8, 5, -14, 10, -34, 7, 18, 16, -14, 110, -34, 7, 4, 0, -24, 110, -34, 7, 106, 1, -14, 10, 66, 107, 8, 48, 89, 20, -27, 27, 13, 37, 119, 50, 73, 107 ).
ussten diese Differenzen tendenziell neSollte H0 : μx ≤ μy zutreffen, m¨ gativ ausfallen, denn f¨ ur die Differenzvariable D = X − Y erhalten wir wegen μx ≤ μy ⇐⇒ μx − μy ≤ 0 die zu (15.21) ¨aquivalente Hypothese H0: μD ≤ 0.
(15.23)
Das Beispiel verdeutlicht den entscheidenden Trick. Er besteht darin, dass wir eine Hypothese mit zwei Variablen in eine Hypothese mit nur einer einzigen Variablen u uhren. Diese k¨ onnen wir dann mit dem bereits bekannten ¨berf¨ Gauß-Test oder t-Test untersuchen. Insofern haben wir in diesem Kapitel, was den mathematischen Aspekt der Tests betrifft, nichts Neues hinzuzuf¨ ugen. Wir konzentrieren uns daher lediglich darauf, in welcher Weise sich der “Trick“ anwenden l¨ asst. Voraussetzungen: 1. Es liegt eine einzige Grundgesamtheit vor. Aus ihr wird eine verbundene Zufallsstichprobe vom Umfang n gezogen: (X1 ; Y1 ), (X2 ; Y2 ), . . . (Xn ; Yn ) onnen sinnvoll gebildet und interpretiert 2. Die Differenzen Di = Xi − Yi k¨ werden.
312
15 Signifikanztests
3. Die Variablen (D1 , D2 , . . . , Dn ) bilden eine unabh¨angige Zufallsstichprobe, welche die Voraussetzungen zum Kapitel 15.1 oder 15.2 erf¨ ullen. Bei ¨ der Formulierung der Hypothesen machen wir von folgenden Aquivalenzen Gebrauch: H0: μx = μy H0: μx ≤ μy H0: μx ≥ μy
⇐⇒ ⇐⇒ ⇐⇒
H0: μD = 0, H0: μD ≤ 0, H0: μD ≥ 0.
Beispiel (Fortsetzung). Wir wollen die Irrtumswahrscheinlichkeit auf α = 1% beschr¨ anken. Mit n = 36 und d¯ = 27.444 sch¨atzen wir die unbekannte Varianz der Differenzen 1 ¯ 2 = 2197.568 = 46.8782 (di − d) n − 1 i=1 n
s2 =
(15.24)
und erhalten damit die Testgr¨ oße und Testschranke 27.444 − 0 √ d¯ − 0 √ n= 36 = 3.5126, s 46.878 = t35; 0.99 = 2.44.
T (D) = tn−1;1−α
Daher wird H0 : μD ≤ 0 verworfen, d.h. wir k¨onnen die Hypothese ausschließen, dass Ehefrauen im Schnitt h¨ ochstens so viel Bargeld mit sich tragen wie Ehem¨ anner. Das Risiko eines nicht gerechtfertigten Ausschlusses betr¨ agt hierbei 1%. Folglich sollten wir Anton zustimmen. Beim Testen von Antons Behauptung k¨ onnten wir auch eine unverbundene Stichprobe, die wir im n¨ achsten Kapitel genauer besprechen werden, ziehen. Beispielsweise werden erst 40 Ehefrauen zuf¨allig ausgew¨ahlt und anschließend unabh¨ angig davon 60 Ehem¨anner befragt. Sollten dabei zuf¨ alliger Weise die M¨ anner aus reichen Ehen stammen, so k¨onnte es alleine aus diesem Grund zu einem Nicht-Ausschluss der Hypothese urden wir diese H0 : μx ≤ μy kommen. Bei der verbundenen Ziehung w¨ St¨ orgr¨ oße ausschalten, da, gleich auf welchem finanziellen Niveau sich eine Ehe befindet, lediglich der geschlechtsspezifische Unterschied gemessen wird. Daher sollte man eine verbundene Stichprobe einer unverbundenen Stichprobe vorziehen, sofern dies machbar ist. Beispiel (Geruchstest). Der Bonbonhersteller “Ludschy“ hat eine neue Bonbon-Rezeptur entwickelt, bei der die Aromaintensit¨at verbessert werden soll. Um dies zu untersuchen, werden 6 Probanden die Augen verbunden und jeweils die Entfernungen gemessen, bei denen ein Proband noch eine Geruchswahrnehmung bez¨ uglich des jeweiligen Bonbons feststellen kann. Die Reihenfolge der Bonbonart sollte nicht bei jedem Probanden gleich sein, da die Nase vom ersten Riechen noch “beeindruckt“ sein k¨ onnte. Daher w¨ ahlen wir 3 der 6 Probanden zuf¨allig aus und lassen
15.4 Test f¨ ur Erwartungswerte bei zwei Grundgesamtheiten
313
diese mit der Reihenfolge Alt-Neu riechen. Die anderen 3 Probanden riechen in der Reihenfolge Neu-Alt. Die Ergebnisse der 6 Probanden haben wir spaltenweise notiert: X [cm] zu Alt-Bonbon Y [cm] zu Neu-Bonbon D =X −Y
20
120
200
200
100
150
40
160
180
190
150
150
-20
-40
20
10
-50
0
Wir unterstellen, dass sich die Probanden nicht untereinander beeinflussen ¨ k¨ onnen. Der Stichprobenumfang ist zur besseren Ubersicht klein gew¨ahlt worden. Er d¨ urfte jedoch zu gering sein, um eine Normalverteilungsan¯ zu rechtfertigen. nahme f¨ ur die mittlere Differenz D Wir wollen mit 5% Irrtumswahrscheinlichkeit testen, ob die neue Rezeptur ein intensiveres Aroma ausstrahlt. Dazu versuchen wir zu D = X − Y die Nullhypothese H0: μx ≥ μy auszuschließen. Mit d¯ = −13.333, T (D) =
⇔
μD ≥ 0
s2D = 786.667 = 28.0475792 ist:
−13.333 − 0 √ d¯ − 0 √ n= 6 = −1.1644. sD 28.047579
ur den Da T > −t5,0.95 = −2.02 kann bei 5% Irrtumswahrscheinlichkeit f¨ Fehler 1.Art nicht ausgeschlossen werden, dass die alte Rezeptur intensiver riecht.
15.4 Test fu ¨r Erwartungswerte bei zwei Grundgesamtheiten Es sollen Hypothesen getestet werden, bei denen die Erwartungswerte μx und μy zweier Variablen X und Y verglichen werden: H0: μx ≤ μy ,
H0: μx = μy ,
H0: μx ≥ μy .
(15.25)
Im Gegensatz zum letzten Abschnitt liegen zwei Grundgesamtheiten vor. Die Variable X bezieht sich auf die Objekte der ersten Gesamtheit und die Variable Y bezieht sich auf die Objekte der zweiten Gesamtheit. Es ist unm¨oglich, an ein und demselben Objekt gleichzeitig die beiden Merkmale X, Y zu messen. Daher wird f¨ ur beide Grundgesamtheiten getrennt jeweils eine Zufallsstichprobe im Sinne von (12.1) gezogen. Beispiel (Alter von Autos). Anton behauptet, dass in M¨ unchen die Autos im Durchschnitt weniger alt sind als in Aachen. Bezeichnen wir mit X
314
15 Signifikanztests
Vergleich von Erwartungswerten bei zwei Gesamtheiten X = Alter M¨ unchner Autos,
Y = Alter Aachener Autos
x
Münchner Autos
mx
Grundgesamtheit 1
X
4.2
X
? Aachener Autos Grundgesamtheit 2
my Y
Hypothetische Lage der Erwartungswerte in München und in Aachen
y 6.2
Y
Gemessene Mittelwerte in den Stichproben
Abbildung 15.6. Sollte die Nullhypothese H0 : μx ≥ μy richtig sein, ist die linke Seite zutreffend. Wir m¨ ussen entscheiden, ob die gemessenen, empirischen Mittelwerte in den unverbundenen Stichproben mit dieser Vorstellung vereinbar sind.
[Jahre] das Alter eines M¨ unchner Autos und mit Y [Jahre] das Alter eines Aachener Autos, so h¨ atte Anton recht, wenn die Hypothese H0: μx ≥ μy
(15.26)
falsch w¨ are. Da wir an ein und demselben Auto nicht ein M¨ unchner und Aachener Alter gleichzeitig messen k¨ onnen, ist das Ziehen einer verbundenen Stichprobe nicht durchf¨ uhrbar. Stattdessen w¨ahlen wir in M¨ unchen zuf¨ allig n = 3 Autos und in Aachen zuf¨ allig m = 5 Autos aus. Die Stichproben sind klein gew¨ ahlt, um die Rechnungen u ¨bersichtlich zu halten. Die konkreten Messergebnisse lauten: X: ( 3 ; 7 ; 2.6 ). Y : ( 10.2 ; 6.4 ; 4 ; 2 ; 8.4 ). Wir vergleichen das durchschnittliche Alter in beiden Grundgesamtheiten, indem wir die Differenz ¯ − Y¯ X bilden. In der konkreten Stichprobe erhalten wir x¯ − y¯ = 4.2 − 6.2 = −2, d.h. der Altersunterschied, um den die M¨ unchner Autos gegen¨ uber den Aachener Autos j¨ unger sind, betr¨ agt im Schnitt 2 Jahre. Eine Differenzenbildung analog zur verbundenen Stichprobe w¨ urde eine Paarbildung von M¨ unchner und Aachener Autos voraussetzen. Diese w¨are
15.4 Test f¨ ur Erwartungswerte bei zwei Grundgesamtheiten
315
rein willk¨ urlich und zudem bei verschieden großen Stichprobenumf¨angen n = m nicht realisierbar. Im Weiteren unterstellen wir folgende Voraussetzungen: 1. Es liegen unverbundene Zufallsstichproben gem¨aß (14.10) auf Seite 296 vor, d.h. es werden zwei unabh¨ angige Zufallsstichproben aus zwei verschiedenen Grundgesamtheiten gezogen: (X1 , X2 , . . . Xn ),
(Y1 , Y2 , . . . Ym ).
So wird insgesamt an n + m verschiedenen Objekten jeweils eine Messung vorgenommen. 2. Varianzhomogenit¨ at: Die Varianz ist bei allen Stichprobenvariablen gleich hoch: σ 2 = σx2 = σy2 . Die Varianz σ 2 ist unbekannt. ¯ − Y¯ ist eine normalverteilte Zu3. Die Differenz der Stichprobenmittel X fallsvariable. Unter Ber¨ ucksichtigung von Voraussetzung 2 k¨ onnen wir die Normalverteilung ¯ − Y¯ weiter pr¨ der Differenz X azisieren. Den Beweis stellen wir auf Seite 389 zur¨ uck: n+m 2 ¯ ¯ σ . (15.27) X − Y ∼ N μx − μy ; nm ¨ Ahnlich wie schon beim Gauß- und t-Test wollen wir als Testgr¨oße nicht die ¯ − Y¯ , sondern eine “standardisierte“ Differenz benutzen. Analog Differenz X zu (15.8) kann man zeigen: ¯ − Y¯ nm X ist standardnormalverteilt, falls μx = μy richtig ist. σ n+m (15.28) Wenn wir in (15.28) die unbekannte Standardabweichung σ durch eine “geeignete“ Sch¨ atzung S ersetzen, so erhalten wir gem¨aß (10.83) statt einer Standardnormalverteilung eine t-Verteilung. Dieses wichtige Resultat notieren wir in (15.30). Zuvor wollen wir noch kl¨ aren, wie σ 2 “geeignet“ gesch¨atzt werden kann: Es sollen die Informationen beider Stichproben genutzt werden. Dazu berechnen wir getrennt gem¨ aß (13.8) zun¨ achst die Stichprobenvarianz Sx2 der ersten Stichprobe und die Stichprobenvarianz Sy2 der zweiten Stichprobe. Anschließend fassen wir beide Ergebnisse zusammen. Dabei wollen wir ein gewogenes
316
15 Signifikanztests
Mittel bilden, um zu ber¨ ucksichtigen, dass wegen der unterschiedlichen Stichprobengr¨ oßen n, m die Sch¨ atzungen Sx2 , Sy2 verschieden “gut“ sind: Gemeinsame (gepoolte) Stichprobenvarianz (n − 1) (m − 1) Sx2 + S2 n+m−2 n+m−2 y n m 1 2 2 ¯ + = (Xi − X) (Yi − Y¯ ) n + m − 2 i=1 i=1
S2 =
(15.29)
(n−1) (m−1) Die Gewichte n+m−2 , n+m−2 sind so gew¨ ahlt, dass der Punktsch¨atzer S 2 erwartungstreu ist und bei μx = μy eine Chi-Quadrat-Verteilung mit n+m−2 Freiheitsgraden besitzt. Auf Details wollen wir hier nicht weiter eingehen. Als Testgr¨ oße benutzen wir die in (15.28) definierte standardisierte Differenz, √ wobei die unbekannte Standardabweichung σ durch S = S 2 gem¨aß (15.29) ersetzt wird.
Testgr¨ oße beim unverbundenen Test ¯ − Y¯ nm X T (x, y) = S n+m
(15.30)
Man kann zeigen, dass diese standardisierte Differenz T (x, y) eine tVerteilung mit n + m − 2 Freiheitsgraden besitzt, sofern μx = μy gilt. Bei der Konstruktion der kritischen Regionen lassen wir uns von den gleichen Argumenten wie beim t-Test und Gauß-Test leiten: ¯ − Y¯ und usste die Differenz X Falls die Hypothese H0 : μx = μy zutrifft, m¨ somit auch T (x, y) tendenziell in der N¨ ahe von Null liegen, also klein sein. Daher lehnen wir H0 nur dann ab, wenn T (x, y) betragsm¨aßig “groß“ ist. ¯ − Y¯ und usste die Differenz X Falls die Hypothese H0 : μx ≥ μy zutrifft, m¨ somit auch T (x, y) tendenziell positiv ausfallen. Daher lehnen wir H0 ab, wenn T (x, y) “sehr negativ“ wird. Falls die Hypothese H0: μx ≤ μy zutrifft, lehnen wir ab, wenn T (x, y) “sehr positiv“ wird. Eine Pr¨ azisierung von “groß, sehr negativ und sehr positiv“ erfolgt u ¨ber die Testschranken, welche den Quantilen der t-Verteilung mit n + m − 2 Freiheitsgraden entsprechen. Wir notieren die Tests in einer Tabelle, in der zu den verschiedenen Hypothesen-Typen jeweils die kritischen Regionen angegeben sind:
15.4 Test f¨ ur Erwartungswerte bei zwei Grundgesamtheiten
Nullhypothese
317
Testvorschrift beim unverbundenen Test
H0: μx = μy
Falls |T (x, y)| ≥ tn+m−2,1− α2 wird H0 ausgeschlossen.
H0: μx ≤ μy
Falls T (x, y) ≥ tn+m−2,1−α
H0: μx ≥ μy
Falls T (x, y) ≤ −tn+m−2,1−α wird H0 ausgeschlossen.
wird H0 ausgeschlossen.
Ansonsten ist, wie beim Signifikanztest u ¨blich, die Antwort “H0 nicht ausschließen“ bzw. Antwort A3 angebracht. Das Signifikanzniveau bzw. das Risiko 1.Art betr¨ agt maximal α. Beispiel (Fortsetzung). Wir wollen das Signifikanzniveau auf α = 5% beschr¨ anken. F¨ ur die Srichprobenvarianzen erhalten wir gem¨aß (13.8) die konkreten Ergebnisse: 1 = (xi − x ¯)2 = 5.92 n − 1 i=1 n
s2x und
1 (yi − y¯)2 = 10.84. m − 1 i=1 m
s2y =
Damit k¨ onnen wir die gepoolte, gemeinsame Stichprobenvarianz (n − 1)s2x + (m − 1)s2y (3 − 1) · 5.92 + (5 − 1) · 10.84 = n+m−2 3+5−2 = 9.2 = 3.0332
s2 =
ermitteln. Mit x ¯ = 4.2 und y¯ = 6.2 erhalten wir als Wert f¨ ur die Testgr¨oße: 4.2 − 6.2 x ¯ − y¯ nm 3·5 = = −0.9029. T (x, y) = S n+m 3.033 3+5 Die Testschranke berechnet sich mit dem Quantil der t-Verteilung, das wir der Tabelle im Anhang entnehmen k¨ onnen: −tn+m−2,1−α = −t6,0.95 = −1.94. Da T (x, y) = −0.9029 > −1.94 ist, k¨ onnen wir H0 : μx ≥ μy , d.h. die Hypothese, dass in M¨ unchen die Autos im Schnitt mindestens so alt sind wie in Aachen, nicht ausschließen. Das Risiko 1.Art ist bei diesem Test im Voraus auf 5% beschr¨ ankt worden. Dass wir uns nicht wirklich festlegen k¨ onnen, ob die Hypothese stimmen k¨ onnte, u ¨berrascht nicht, denn die Stichprobenumf¨ange sind nicht sehr
318
15 Signifikanztests
groß. Wir haben ferner stillschweigend eine Normalverteilung f¨ ur die Differenz der Stichprobenmittelwerte unterstellt. Auch dies ist wegen der kleinen Stichproben kritisch zu sehen. Ob die Varianzhomogenit¨at gegeben ist, bleibt nur zu hoffen. Beispiel (Kaufhausmusik). Ein Kaufhaus m¨ochte den Einfluss von zwei Sorten Musik auf den Umsatz untersuchen. Dazu wurde an 8 zuf¨allig ausgew¨ ahlten Tagen bayerischer Jodel-Hip-Hop gespielt. Es ergaben sich folgende Ums¨ atze: 305; 410; 386; 510; 470; 460; 520; 380
[Tsde].
An anderen 12 Tagen mit verjazzten isl¨ andischen Hirtenges¨angen ergaben sich die Ums¨ atze: 510; 360; 410; 410; 320; 420; 320; 390; 450; 400; 400; 390
[Tsde].
Gibt es zum Niveau von 5% einen signifikanten Unterschied zwischen den mittleren Tagesums¨ atzen? Zur besseren Nachvollziehbarkeit haben wir auch hier die Stichprobenumf¨ ange klein gehalten. Sie d¨ urften von vornherein zu gering sein, um signifikante Unterschiede erkennen zu lassen. Wir setzen “X = Umsatz, an einem Jodel-Tag“ und “Y = Umsatz, an einem Island-Tag“ und testen H0: μx = μy . Wir unterstellen, dass X und Y normalverteilte Zufallsvariablen mit gleichen Varianzen sind, und dass die Ums¨ atze der gew¨ahlten Tage Realisationen von unabh¨ angigen Zufallsvariablen sind. Mit n = 8, m = 12, x ¯ = 430.125, y¯ = 398.3334, s2x = 5351.55, s2y = 2706.06 ist (n − 1)s2x + (m − 1)s2y (8 − 1) · 5351.55 + (12 − 1) · 2706.06 = n+m−2 8 + 12 − 2 = 3734.8634 = 61.11352
s2 =
und 430.125 − 398.3334 T (x, y) = 61.1135
96 = 1.1397. 20
Da |T (x, y)| < 2.10 = t18;0.975 ist, kann bei einer Irrtumswahrscheinlichkeit von 5% f¨ ur den Fehler 1.Art nicht ausgeschlossen werden, dass die Musikart keinen Einfluss hat. Bemerkungen: -
Zur Voraussetzung 2: Die Varianzhomogenit¨at ist eine ziemlich spezielle Annahme und in der Praxis nicht ohne weiteres u ufbar. Es gibt ¨berpr¨
15.5 Test f¨ ur einen Anteil oder eine Wahrscheinlichkeit p
-
319
zwar auch f¨ ur die Hypothese H0 : σx2 = σy2 Tests, z.B. den sogenannten F-Test, jedoch kann man mit ihm diese Hypothese h¨ochstens falsifizieren. Wir br¨ auchten aber eine Verifizierung, wozu es kein kontrollierbar kleines Risiko 2.Art gibt. Ferner kann man bezweifeln, ob in der Praxis die ullt ist. Man m¨ usste sich Gleichheit σx2 = σy2 mit jeder Nachkommastelle erf¨ schon zufrieden geben, wenn σx2 ≈ σy2 gilt, und hoffen, dass der Fehler nicht auf die Testentscheidung durchschl¨ agt. Insofern kann der F-Test hilfreich sein. Dabei besteht jedoch die Gefahr, dass man die Zuverl¨assigkeit des Gesamtverfahrens nicht mehr u ¨berblickt. Zur Voraussetzung 3: Wie bereits bei den anderen Tests besprochen, kann man die Voraussetzung 3 in vielen praktischen Problemstellungen als erf¨ ullt einstufen, sofern “große“, unabh¨ angige Zufallsstichproben vorliegen. In den Anwendungen gelten Stichprobenumf¨ange n ≥ 30 und m ≥ 30 als “gen¨ ugend groß“.
15.5 Test fu ¨ r einen Anteil oder eine Wahrscheinlichkeit p Dieses Kapitel behandelt einen Spezialfall des n¨achsten Kapitels 15.6. Es wird eine Bernoulli-Variable X betrachtet, die nur die Werte 1 oder 0 bzw. Treffer oder Nicht-Treffer annehmen kann. Es sollen Hypothesen getestet werden, bei denen der Anteil oder die Wahrscheinlichkeit p = P (X = 1) mit einem vorgegebenen, hypothetischen Wert p0 verglichen wird: H0: p ≤ p0 ,
H0: p = p0 ,
H0: p ≥ p0 .
(15.31)
Voraussetzung: Die unabh¨ angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) entspricht einer BernoulliKette. Es sei Y = Anzahl der Treffer in Stichprobe. Die kritische Region K leiten wir der Einfachheit halber aus den bekannten Konfidenzintervallverfahren (13.32), (13.44) und (13.47) ab. Beispielsweise lehnen wir die Nullhypothese H0 : p ≤ p0 genau dann ab, wenn die hypothetischen Werte nicht von dem rechtsseitigen Konfidenzintervall u ¨berdeckt werden. Mit (13.47) lautet dies: p0 <
y . y + (n − y + 1) F1−α, 2(n−y+1), 2y
(15.32)
Stichproben, welche eine Trefferzahl y aufweisen, bei der diese Ungleichung ¨ erf¨ ullt ist, bilden die kritische Region K. Ublicherweise formt man allerdings in der Literatur die Ungleichung so um, dass das Quantil der F -Verteilung auf einer Seite isoliert steht. Diese Darstellung von (15.32) finden wir in der
320
15 Signifikanztests
nachfolgenden Tabelle in der zweitletzten Zeile wieder. Die u alt man ¨ ahnlich. Man beachte, dass beim ¨brigen Testvorschriften erh¨ zweiseitigen Test das F -Quantil bei 1 − α2 und beim einseitigen Test bei 1 − α zu bilden ist. Hypothese H0: p = p0
Testvorschrift Y n−Y +1
Falls oder falls
n−Y Y +1
H0: p ≤ p0
Falls
Y n−Y +1
H0: p ≥ p0
Falls
n−Y Y +1
·
· ·
·
1−p0 p0
p0 1−p0
1−p0 p0
p0 1−p0
> F1− α2 , 2(n−Y +1), 2Y
> F1− α2 , 2(Y +1), 2(n−Y ) , wird H0 ausgeschlossen. > F1−α, 2(n−Y +1), 2Y ,
> F1−α, 2(Y +1), 2(n−Y ) ,
wird H0 ausgeschlossen. wird H0 ausgeschlossen.
Ansonsten ist, wie beim Signifikanztest u ¨blich, die Antwort “H0 nicht ausschließen“ bzw. Antwort A3 angebracht. Das Signifikanzniveau bzw. das Risiko 1.Art betr¨ agt maximal α. Die F -Quantile sind im Anhang tabelliert. Betr¨agt der Freiheitsgrad des Nenners m = 0, setzen wir formal F1− α2 , k, 0 = 1 bzw. F1−α, k, 0 = 1 fest. Beispiel (Gleichg¨ ultigkeit). Jakob hat zwei neue Pudding in den Farben Gr¨ un “X = 1“ und Blau “X = 0“ kreiert. Er denkt, dass das zuk¨ unftige Kaufverhalten der Kunden von der Farbe des Puddings abh¨angt. Um dies mit einem Risiko 1. Art von α = 0.95 zu testen, formuliert er f¨ ur die Wahrscheinlichkeit P (X = 1) = p die Nullhypothese H0: p = 0.50, welche die Gleichg¨ ultigkeit der Verbraucher bez¨ uglich der Farben ausurde Jakob Recht geben. dr¨ uckt. Der Ausschluss von H0 w¨ Jakob hat n = 10 Probanden jeweils einen gr¨ unen und einen blauen Pudding vorgesetzt. Jeder Proband konnte unabh¨angig von den anderen Probanden einen Pudding ausw¨ ahlen. Dabei haben sich 8 Probanden f¨ ur Gr¨ un entschieden. Wegen 1 − p0 1 − 0.50 8 Y · · = 2.66667, = n−Y +1 p0 10 − 8 + 1 0.50 F1− α2 , 2(n−Y +1), 2Y = F0.975, 2(10−8+1), 2·8 = F0.975, 6, 16 = 3.34063 ist die erste Ungleichung der Testvorschrift nicht erf¨ ullt. Ebenso ist wegen p0 0.50 n−Y 10 − 8 · · = 0.222222, = Y + 1 1 − p0 8 + 1 1 − 0.50
15.6 Testen hypothetischer Wahrscheinlichkeiten (Anpassungstest)
321
F1− α2 , 2(Y +1), 2(n−Y ) = F0.975, 2(8+1), 2(10−8) = F0.975, 18, 4 = 8.59237 die zweite Ungleichung der Testvorschrift verletzt. Daher kann Jakob nicht ausschließen, dass jede Farbe dieselbe Chance von 50% besitzt, vom Verbraucher gew¨ ahlt zu werden. Das Risiko, dass der Test zu einem ungerechtfertigten Ausschluss der Hypothese f¨ uhren k¨onnte, betr¨agt h¨ochstens 5%. Obwohl in der Stichprobe sich eine scheinbar u ¨berw¨altigende Mehrheit von 80% f¨ ur Gr¨ un ausgesprochen hat, kann Jakob nicht ausschließen, dass dies “nur Zufall“ ist. Beispiel (Defekter Auspuff ). Tobias hat eine Autowerkstatt. Er glaubt, dass bei weniger als 10% aller Autos nach 4 Jahren der Auspuff durchgerostet ist. Es sei p = P (X = 1) die tats¨achliche Wahrscheinlichkeit, dass ein zuf¨ allig ausgew¨ ahltes, vierj¨ ahriges Auto in diesem Sinn defekt ist. Tobias stellt die Nullhypothese H0: p ≥ 0.10, auf, die er zu widerlegen versucht. Er setzt α = 0.05 und zieht eine unabh¨ angige Zufallsstichprobe vom Umfang n = 5000 Autos, von denen 9% defekt waren. Wegen p0 0.10 5000 − 450 n−Y · · = 1.12, = Y + 1 1 − p0 450 + 1 1 − 0.10 F1−α, 2(Y +1), 2(n−Y ) = F0.95, 2(450+1), 2(5000−450) = F0.95, 902, 9100 = 1.08 ist die Ungleichung der Testvorschrift erf¨ ullt. Daher kann Tobias mit einer Irrtumswahrscheinlichkeit von maximal 5% ausschließen, dass der Anteil defekter Autos 10% oder mehr betr¨ agt. Die Behauptung von Tobias ist mit hoher Sicherheit richtig.
15.6 Testen hypothetischer Wahrscheinlichkeiten (Anpassungstest) Im Gegensatz zum n¨ achsten Unterkapitel liegt nur eine einzige Grundgesamtheit vor. Man m¨ ochte testen, ob die Verteilung von X mit einer hypothetisch vorgegebenen Verteilung u ¨bereinstimmt. Voraussetzungen: 1. Die Zufallsvariable X ist diskreten Typs und kann nur s verschiedene Werte w1 , . . . .ws annehmen1 . Bei einer stetigen Variablen m¨ usste man eine Diskretisierung durchf¨ uhren, d.h. alle m¨ oglichen Merkmalswerte in s Klassen K1 , . . . .Ks einteilen. 1
Im vorherigen Unterkapitel 15.5 wurde bereits der Spezialfall s = 2 besprochen.
322
15 Signifikanztests
2. Es liegt eine unabh¨ angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) vor. Die Verteilung von X entspricht den Wahrscheinlichkeiten P (X = w1 ), . . . P (X = ws ). Wir wollen die Nullhypothese testen, ob diese Wahrscheinlichkeiten mit ganz bestimmten, hypothetischen Werten p1 , . . . .ps u ¨bereinstimmen: H0:
P (X = w1 ) = p1 und P (X = w2 ) = p2 und . . . P (X = ws ) = ps .
Die Hypothese bezieht sich nicht auf einen Parameter einer Verteilung, wie etwa den Erwartungswert, sondern auf die Verteilung selbst. Derartige Hypothesen k¨ onnen auch f¨ ur qualitative Merkmalen formuliert werden, wohingegen Tests u ¨ber einen Erwartungswert metrische Merkmale voraussetzen. Beispiel (Farbe bei Hemden). Anton m¨ ochte testen, ob die Hemden, die derzeit in Deutschland getragen werden, zu 50% blau und zu 20% weiß sind. Der Rest sind sonstige Farben. Antons Aussage k¨ onnen wir formal als Nullhypothese u ¨ber die Verteilung der qualitativen Variable “X = Farbe“ notieren, wobei s = 3 und p1 = 0.50, p2 = 0.20, p3 = 0.30 entspricht: H0:
P (X = blau) = 0.50, P (X = sonst) = 0.30.
P (X = weiß) = 0.20,
¨ Zur Uberpr¨ ufung der Nullhypothese H0 wird in einem ersten Schritt die unur jeden abh¨ angige Zufallsstichprobe (X1 , X2 , . . . .Xn ) aggregiert, indem wir f¨ ahlen, wie oft dieser innerhalb der Stichprobe vorkommt: Merkmalswert wi z¨ ur den Wert wi innerhalb der Stichprobe. (15.33) Ni = Anzahl “Treffer“ f¨ Dadurch erhalten wir s Zufallsvariablen N1 , N2 , . . . .Ns , deren Summe immer den Stichprobenumfang n ergibt: N1 + N2 + . . . Ns = n. Diese Beziehung zeigt, dass die Zufallsvariablen Ni abh¨angig sind. Dem begeisterten Leser sei verraten, dass jede einzelne Variable Ni binomialverteilt ist, wohingegen die gemeinsame Verteilung der Variablen N1 , N2 , . . . .Ns eine multinomiale Verteilung ist. Um zu entscheiden, bei welchen Stichproben wir die Hypothese H0 ausschließen bzw. nicht ausschließen sollten, bestimmen wir zun¨achst eine Art “ideales“ Stichprobenergebnis, das genau so viele Treffer f¨ ur jeden Wert wi aufweist, urden: wie wir bei richtiger Hypothese H0 erwarten w¨ np1 ,
np2 ,
...
nps .
(15.34)
15.6 Testen hypothetischer Wahrscheinlichkeiten (Anpassungstest)
323
Verteilung der Variablen “X = Farbe“ bei Hemden 0.50
0.40
0.30 0.20
blau
weiß
0.30
0.30
weiß
sonst
? sonst
blau
Hypothetische Verteilung in der Grundgesamtheit
Gemessene Verteilung in der Stichprobe
Abbildung 15.7. Sollte die Nullhypothese H0 zutreffen, sind die Hemdenfarben in der Grundgesamtheit wie im linken Diagramm verteilt. Wir m¨ ussen entscheiden, ob die gemessene, empirische Verteilung in der Stichprobe mit dieser Vorstellung vereinbar ist.
Beispiel (Fortsetzung). Anton m¨ ochte eine Stichprobe vom Umfang n = 50 ziehen. Die Zufallsvariablen N1 , N2 , N3 beschreiben die Anzahl der Treffer “blau“, “weiß“ und “sonst“ innerhalb der Stichprobe. Bei richtiger Hypothese w¨ urde er idealerweise folgende Trefferzahlen erwarten: np1 = 25,
np2 = 10,
np3 = 15.
(15.35)
Diese Werte kann Anton bereits vor der Stichprobenziehung berechnen. Die von Anton gezogene Stichprobe vom Umfang n = 50 lautet: ( w, s, b, b, w, b, w, b, b, s, s, b, b, b, w, b, s, w, b, s, w, b, w, w, s, w, b, b, b, s, s, b, s, w, w, s, s, s, b, s, w, s, b, b, b, w, b, w, w, s ) .
In Abbildung 15.7 ist die gemessene, empirische Verteilung von X bez¨ uglich der Stichprobe zu sehen. Die Zufallsvariablen N1 , N2 , N3 nehmen in der Stichprobe die Realisationen n1 = 20,
n2 = 15,
n3 = 15
an. Eine graphische Gegen¨ uberstellung der hypothetischen, erwarteten Trefferzahlen E[Ni ] zu den in der Stichprobe gemessenen Trefferzahlen aulendiagrammen w¨ urde u ni in Form von S¨ ¨brigens die gleiche Gestalt bzw. Proportionen wie Abbildung 15.7 aufweisen. Naheliegender Weise wird man bei Stichprobenergebnissen, welche den “idealen“, erwarteten Trefferzahlen (15.34) nahe kommen, die Nullhypothese nicht ausschließen. Andererseits sollten große Abweichungen zu einem Ausschluss uhren. Zu diesem Zweck ben¨ otigen wir als Testgr¨oße ein Maß, das die von H0 f¨ ¨ Ahnlichkeit zwischen dem Stichprobenergebnis und der erwarteten, idealen ¨ Stichprobe beschreibt. Bei der Konstruktion eines solchen Ahnlichkeitsmaßes lassen wir uns von folgenden Gedanken leiten:
324
15 Signifikanztests
1. Wir bestimmen zun¨ achst individuell f¨ ur jede Trefferzahl Ni den Abstand ahnlichen Motiven wie bei der Defizu ihrem erwarteten Wert npi . Aus ¨ nition der Varianz wollen wir auch hier wieder die Abst¨ande quadratisch messen: (Ni − npi )2 . Insbesondere sind damit negative Abst¨ande ausgeschlossen. 2. Um relativ kleine Abweichungen von relativ großen Abweichungen besser unterscheiden zu k¨ onnen, setzen wir diese Abst¨ande in Bezug zur erwar2 i) . teten Trefferzahl: (Ni −np npi ¨ 3. Eine hohe Ahnlichkeit besteht, wenn alle s relativen Abweichungen simultan klein sind. Daher ist die Summe der relativen, quadratisch gemessenen ¨ Abweichungen ein brauchbares Ahnlichkeitsmaß. Wir definieren als Testgr¨ oße beim Anpassungstest: T (x) =
s i=1
=
2
Treffer f¨ ur den Erwartete Treffer f¨ ur den Wert wi in der − Wert wi , falls H0 richtig ist. Stichprobe Erwartete Treffer f¨ ur den Wert wi , falls H0 richtig ist.
s (Ni − npi )2 i=1
npi
.
(15.36)
Beispiel (Fortsetzung). Wir erhalten analog zum Schritt 1 die quadrierten Abst¨ ande (20 − 25)2 = 52 ,
(15 − 10)2 = 52 ,
(15 − 15)2 = 0.
Bei den blauen wie bei den weißen Hemden haben wir eine Abweichung von 52 . Bei zu erwartenden 25 blauen Hemden ist diese Abweichung relativ gering im Vergleich zu 10 zu erwartenden weißen Hemden. Entsprechend sind die Summanden der Testgr¨ oße unterschiedlich groß: T (x) =
(15 − 10)2 (15 − 15)2 (20 − 25)2 + + 25 10 15
= 1 + 2.5 + 0 = 3.5. Die sonstigen Hemden sind exakt so, wie man es bei richtiger Nullhypothese erwartet. Dies kommt durch den Summand 0 zum Ausdruck. Wir listen einige Eigenschaften der Testgr¨ oße T (x) auf: 1. Es gilt: T (x) ≥ 0.
(15.37)
15.6 Testen hypothetischer Wahrscheinlichkeiten (Anpassungstest)
325
Die Summanden in der Formel (15.36) k¨ onnen wegen des Quadrierens nie negativ sein. Die Testgr¨ oße ist genau dann Null, wenn die gemessenen Trefferzahlen in der Stichprobe mit den idealen, erwarteten Trefferzahlen exakt u ur alle s Variablen Ni = npi gilt. Insofern ¨bereinstimmen, d.h. f¨ entspricht die Testgr¨ oße T (x) eher einem “Un¨ahnlichkeitsmaß“, denn je ¨ gr¨ oßer der Wert von T (x) ist, desto geringer ist die Ahnlichkeit. 2. Die exakte Verteilung von T (x) ist bei richtiger Nullhypothese H0 nur schwer darstellbar. Dazu m¨ usste man eine Transformation der gemeinsamen, multinomialen Verteilung der Variablen N1 , N2 , . . . .Ns berechnen. Wir verzichten auf Details. Bei großen Stichproben jedoch kann man zeigen, dass die Verteilung von T (x) hinreichend gut durch eine Chi-quadratVerteilung approximiert werden kann. Der Freiheitsgrad ist dabei auf s−1 zu setzen. Wegen der Eigenschaft 1 liegt es nahe, die Nullhypothese H0 auszuschließen, wenn der Wert von T (x) “deutlich“ positiv ist. Ab wann T (x) als groß eingestuft werden sollte, regeln wir mit einer Testschranke c: H0 ausschließen
⇔
T (x) > c > 0.
(15.38)
Das Risiko 1.Art, das wir auf α beschr¨ anken wollen, entspricht der Wahrscheinlichkeit (15.39) P (T (x) > c) = α, falls H0 zutrifft. Die Aufl¨ osung dieser Gleichung nach c setzt jedoch die Kenntnis der Verteilung von T (x) voraus. Wie bei Eigenschaft 2 schon erw¨ahnt, ist diese bei kleinen Stichproben sehr kompliziert. Bei großen Stichproben hingegen ist T (x) ¨ ann¨ ahernd Chi-quadrat-verteilt. Dann erhalten wir wegen der Aquivalenz P (T (x) > c) = α
⇔
P (T (x) ≤ c) = 1 − α
als Testschranke: c = χ2s−1;1−α = (1 − α)-Quantil der Chi-quadrat-Verteilung bei s − 1 Freiheitsgraden. Die Quantile χ2s−1;1−α sind in einer Tabelle im Anhang aufgef¨ uhrt. Wir fassen zusammen: Testvorschrift beim Anpassungstest: Falls T (x) ≥ χ2s−1;1−α ,
wird H0 ausgeschlossen. Ansonsten wird H0 nicht ausgeschlossen.
Anwendbarkeitsregel: 2
npi ≥ 5 f¨ ur alle 1 ≤ i ≤ s. atzlich n ≥ 30 erf¨ ullt sein. Falls s = 2 ist2 , muss zus¨ Man sollte in diesem Fall besser den Test auf Seite 320 verwenden, der nicht auf N¨ aherungen basiert und daher auch f¨ ur kleine Stichproben exakt ist.
326
15 Signifikanztests Verteilung der Testgr¨ oße T(x) im Beispiel “Hemdenfarben“ Dichte der Chi-quadrat-Verteilung mit 2 Freiheitsgraden
a=5%
H0 nicht ausschließen
H0 ausschließen
Abbildung 15.8. Die gemessene Testgr¨ oße liegt mit T (x) = 3.5 nicht in der kritischen Region.
Die Anwendbarkeitsregel stellt sicher, dass der Gebrauch der Chi-quadratVerteilung angemessen ist. Sie ist eine f¨ ur praktische Belange hinreichend gute Empfehlung und ist nicht als mathematisch beweisbare Aussage zu verstehen. Beispiel (Fortsetzung). Anton m¨ ochte das Risiko erster Art auf maximal 5% beschr¨ anken. Die Anwendbarkeitsregel ist erf¨ ullt, da die idealen, erwarteten Trefferzahlen (15.35) alle gr¨ oßer oder gleich 5 sind. Testgr¨ oße: T (x) = 3.5. Testschranke: χ2s−1;1−α = χ22;0.95 = 5.99. Testentscheidung: Wegen T (x) = 3.5 < 5.99 kann die Nullhypothese, dass 50% blaue, 20% weiße und 30% sonstige Hemden getragen werden nicht ausgeschlossen werden. Das Risiko f¨ ur den Fehler erster Art ist auf 5% beschr¨ ankt (siehe Abbildung 15.8). Der scheinbar große Unterschied, der in der Abbildung 15.7 zum Ausdruck kommt, reicht bei weitem nicht aus, um die Nullhypothese anzuzweifeln. Beispiel (Reiseziele). Ein Reiseunternehmer m¨ochte f¨ ur Japaner 3 Varianten einer Pauschalreise “Deutschland in 24 Stunden“ anbieten. Neben den fest eingeplanten Zielen “Drosselgasse“ und “Hofbr¨auhaus“ unterscheiden sich die 3 Varianten durch die dritte Sehensw¨ urdigkeit: A: Schloss Neuschwanstein, B: Schloss Heidelberg, C: Marktplatz von Castrop Rauxel. Das Unternehmen geht davon aus, dass sich im Schnitt 40% der Japaner f¨ ur Neuschwanstein, 10% f¨ ur Heidelberg und 50% f¨ ur Casrop Rauxel entscheiden. Mir der Variablen “X = Variante (A, B, C)“ entspricht dies der Nullhypothese H0: P (X = A) = 0.40 und P (X = B) = 0.10 und P (X = C) = 0.50.
15.7 Test auf Gleichheit von Verteilungen in verschiedenen Gesamtheiten
327
Um die Planung zu u ufen, hat man probeweise an 200 Japaner die ¨berpr¨ Reise verkauft, wobei 100 Japaner die die Variante A, 30 die Variante B und 70 die Variante C gew¨ ahlt haben. Wir wollen unter Zulassung einer Irrtumswahrscheinlichkeit von 5 Promille testen, ob das Unternehmen mit seiner Einsch¨atzung richtig liegen k¨ onnte! Mit s = 3, p1 = 0.40, p2 = 0.10, p3 = 0.50, n1 = 100,
n2 = 30,
np1 = 80,
n3 = 70,
np2 = 20,
n = 200,
np3 = 100
ergibt die Testgr¨ oße 2
T (x) =
2
2
(30 − 20) (70 − 100) (100 − 80) + + = 19. 80 20 100
Da dieser Wert gr¨ oßer als χ22,0.995 = 10.60 ist, kann bei 0.5% Irrtumswahrscheinlichkeit ausgeschlossen werden, dass die Prognose des Unternehmens zutreffen k¨ onnte. Die Anwendbarkeitsregel ist erf¨ ullt, da np1 = 80 ≥ 5, np2 = 20 ≥ 5, np3 = 100 ≥ 5 ist.
15.7 Test auf Gleichheit von Verteilungen in verschiedenen Grundgesamtheiten (Homogenit¨ atstest) Man m¨ ochte testen, ob die Verteilungen bzw. die Wahrscheinlichkeiten einer Variablen X in mehreren Grundgesamtheiten gleich sind. Die Notationen sind ussen wir sie leider noch weiter ¨ahnlich wie beim Anpassungstest, jedoch m¨ verunstalten, indem wir mit einem weiteren Index die verschiedenen Grundgesamtheiten kennzeichnen. Voraussetzungen: 1. Es gibt r verschiedene Grundgesamtheiten. In der Gesamtheit 1 betrachten wir die Variable X1 , in der Gesamtheit 2 die Variable X2 , . . . , in der Gesamtheit r die Variable Xr . 2. Jede der r Zufallsvariablen X1 , . . . , Xr ist diskreten Typs. Die s verschiedenen Werte, welche eine Variable annehmen kann, bezeichenen wir mit w1 , . . . .ws . Bei Variablen stetigen Typs m¨ usste man eine Diskretisierung durchf¨ uhren, d.h. alle m¨ oglichen Merkmalswerte in s Klassen K1 , . . . .Ks einteilen. 3. Es wird aus jeder Grundgesamtheit k, 1 ≤ k ≤ r eine unabh¨angige Zufallsstichprobe vom Umfang nk gezogen, die wir mit (Xk,1 , Xk,2 , . . . .Xk,nk ) notieren. Insgesamt erhalten wir so analog zu (14.10) auf Seite 296 r unverbundene Stichproben mit einem Gesamtstichprobenumfang von
328
15 Signifikanztests r
nk = n.
(15.40)
k=1
Die Nullhypothese besagt, dass die Variablen Xk in allen Grundgesamtheiten die gleichen Wahrscheinlichkeiten bzw. Verteilungen besitzen: H0:
P (X1 = w1 ) = P (X2 = w1 ) = P (X1 = w2 ) = P (X2 = w2 ) = ...
...
= P (Xr = w1 )
...
= P (Xr = w2 )
P (X1 = ws ) = P (X2 = ws ) =
...
(15.41) = P (Xr = ws ).
Die Spalten entsprechen den Grundgesamtheiten, d.h. in der Spalte k steht die Verteilung der Variablen X innerhalb der k-ten Grundgesamtheit. Die Zeilen entsprechen den s verschiedenen Merkmalsauspr¨agungen. Im Gegensatz zum Anpassungstest wird keine Aussage u ¨ber die absolute H¨ohe der Wahrscheinlichkeiten getroffen. Die Hypothese l¨ asst sich auch f¨ ur qualitative Merkmale formulieren. Beispiel (Musikgeschmack). Berta verkauft Compactdisks. Sie behauptet, dass es zwischen M¨ annern und Frauen einen Unterschied im Kaufverhalten von Klassik und Pop-CDs gibt. Bertas Aussage bezieht sich auf die Variable “X = Musikrichtung“, die uglich der bez¨ uglich der Grundgesamtheit “M¨ anner“ mit X1 und bez¨ Grundgesamtheit “Frauen“ mit X2 bezeichnet wird. Als m¨ogliche Merkmalswerte sind “Klassik, Pop, Sonstiges“ vorgesehen. Mit r = 2 und s = 3 notieren wir gem¨ aß (15.41): H0:
P (X1 = “Klassik“) = P (X2 = “Klassik“) P (X1 = “P op“) = P (X2 = “P op“) P (X1 = “Sonst“) = P (X2 = “Sonst“).
¨ Wie beim Anpassungstest verfolgen wir die Idee, als Testgr¨oße ein Ahnlichkeitsmaß zu benutzen, das die tats¨ achlichen Stichprobenergebnisse mit den zu erwartenden Werten vergleicht, die sich bei richtiger Nullhypothese H0 idealerweise ergeben m¨ ussten. Dazu verallgemeinern wir (15.36): 2 T (x) =
s r k=1 i=1
Treffer f¨ ur den Erwartete Treffer f¨ ur den Wert wi in der − Wert wi in der GesamtStichprobe k heit k, falls H0 richtig ist. Erwartete Treffer f¨ ur den Wert wi in der Gesamtheit k, falls H0 richtig ist.
. (15.42)
Zur Pr¨ azisierung dieser Testgr¨ oße z¨ ahlen wir separat in jeder Zufallsstichprobe k:
15.7 Test auf Gleichheit von Verteilungen in verschiedenen Gesamtheiten
329
Verteilung der Variablen “X= Musikrichtung“ beim CD-Kauf Stichprobe Frauen
Stichprobe Männer 0.50 0.16 Klassik
Pop
0.467
0.34
0.244
Sonst
Klassik
Klassik
Sonst
?
? p1
Pop
0.289
p2
p3
Pop
Sonst
Verteilung, die sowohl bei den Männern als auch bei den Frauen vorliegen könnte.
Abbildung 15.9. Sollte die Nullhypothese H0 zutreffen, sind die Stichproben der M¨ anner und der Frauen aus Gesamtheiten gezogen worden, in denen beide Mal dieselbe Verteilung von X vorliegt. Wir m¨ ussen entscheiden, ob die gemessenen Werte in der Stichprobe mit dieser Vorstellung vereinbar sind.
Nk,i = Anzahl “Treffer“ f¨ ur den Wert wi innerhalb der Stichprobe k. F¨ ur jede Stichprobe k erhalten wir so s Zufallsvariablen Nk,1 , Nk,2 , . . . Nk,s . ¨ Ublicherweise stellt man diese in einem Tableau gem¨aß Tabelle 15.1 dar, das man auch als Kontingenztafel bezeichnet. Die Summe der Variablen Nk,1 , Nk,2 , . . . Nk,s ergibt immer den Stichprobenumfang nk Nk,1 + Nk,2 + . . . + Nk,s = nk , den man im Tableau als Spaltensumme erh¨ alt. Wegen dieser Beziehung sind die Zufallsvariablen Nk,i , 1 ≤ i ≤ s innerhalb einer Gesamtheit abh¨ angig. Dem begeisterten Leser sei verraten, dass jede einzelne Variable Nk,i binomialverteilt ist, wohingegen die gemeinsame Verteilung der Variablen Nk,1 , Nk,2 , . . . .Nk,s eine multinomiale Verteilung ist. Ferner sind Variablen verschiedener Gesamtheiten unabh¨ angig. Beispiel (Fortsetzung). Berta zieht unter den M¨annern eine Zufallsstichprobe (X1,1 , X1,2 , . . . X1,n1 ) vom Umfang n1 = 50 und unter den Frauen eine Zufallsstichprobe (X2,1 , X2,2 , . . . X2,n2 ) vom Umfang n2 = 90. Sie erh¨ alt folgende konkrete Ergebnisse, die mit “k=Klassik, p=Pop, s = sonst“ kodiert sind:
330
15 Signifikanztests Darstellung der Trefferzahlen Nk,i in einer Kontingenztafel Gesamtheit 1
Gesamtheit 2
...
Gesamtheit r
w1
N1,1
N2,1
...
Nr,1
w2
N1,2
N2,2
...
Nr,2
...
...
...
...
...
ws
N1,s
N2,s
...
Nr,s
n1
n2
...
nr
Werte zu X
Tabelle 15.1. Die Trefferzahlen Nk,i einer Stichprobe k sind hier spaltenweise notiert, wohingegen die Zeilen den s verschiedenen Merkmalsauspr¨ agungen entsprechen.
M¨ anner: k, p, s, s, p, k, p, p, s, p, p, s, p, k, p, p, p, p, k, s, p, s, p, s, k, p, s, p, s, p, s, p, s, p, s, p, p, k, s, k, p, s, s, p, p, s, p, p, k, s. Frauen: p, s, p, p, k, p, p, s, p, s, s, p, p, s, p, s, p, k, p, s, p, k, s, k, s, p, k, k, p, s, s, s, p, p, k, p, k, p, s, p, k, s, k, p, s, p, p, k, p, s, s, k, p, p, s, p, k, s, p, k, k, p, k, p, s, p, k, p, s, s, p, p, p, s, k, k, p, s, p, p, s, p, p, k, k, p, k, s, p.
Die Realisationen der Zufallsvariablen Nk,i sind in der Kontingenztafel bzw. Tabelle 15.2 notiert. Ferner haben wir in Abbildung 15.9 die empirischen Verteilungen von X in der M¨ anner- und der Frauenstichprobe dargestellt. Bei richtiger Hypothese besitzen die Variablen Xk in allen r Gesamtheiten die gleiche Verteilung bzw. dieselben Wahrscheinlichkeiten, die wir mit p1 , . . . .ps bezeichnen. Sie entsprechen den Zeilen in (15.41). Mit diesen Wahrscheinlichkeiten lassen sich die “idealen“, zu erwartenden Trefferzahlen, die sich bei urden, angeben: richtiger Hypothese H0 in der k-ten Stichprobe ergeben w¨ nk p1 ,
nk p2 ,
...
nk ps .
(15.43)
Leider k¨ onnen wir diese erwarteten Trefferzahlen nicht berechnen, da die Werugung stehen. Im Gegensatz zum Anpassungstest trifft te zu pi nicht zur Verf¨ die Hypothese H0 keine Aussage u ¨ber die absolute H¨ohe der Wahrscheinussen wir uns beim Homogenit¨atstest mit gesch¨atzten lichkeiten pi . Daher m¨ Wahrscheinlichkeiten behelfen. Unter der Annahme, dass die Nullhypothese zutrifft, sind hierf¨ ur folgende Punktsch¨ atzer geeignet:
15.7 Test auf Gleichheit von Verteilungen in verschiedenen Gesamtheiten
331
N1,i + N2,i + . . . + Nr,i Treffer f¨ ur wi u ¨ber alle Stichproben = . Pˆi = Gesamtstichprobenumfang n (15.44) Die Notation in Großbuchstaben verdeutlicht, dass diese Punktsch¨atzer Zufallsvariablen sind. Mit ihnen k¨ onnen wir f¨ ur jede Stichprobe k die ideal zu erwartenden Trefferzahlen zumindest sch¨ atzen, indem wir (15.44) in (15.43) einsetzen: (15.45) nk Pˆ1 , nk Pˆ2 , . . . nk Pˆs . Beispiel (Fortsetzung). Mit den Werten aus Tabelle 15.2 k¨onnen wir gem¨aß (15.44) die unbekannten Wahrscheinlichkeiten sch¨atzen, sofern die Nullhypothese zutreffend w¨ are: 8 + 22 = 0.2143, 50 + 90 17 + 26 = 0.3071. pˆ3 = 50 + 90 pˆ1 =
pˆ2 =
25 + 42 = 0.4786, 50 + 90
Dann ergeben sich mit (15.45) die gesch¨ atzten, zu erwartenden Trefferzahpi . Die Ergebnisse len bei den M¨annern mit 50ˆ pi und bei den Frauen mit 90ˆ sind in der Tabelle 15.3 eingetragen. Somit sind wir in der Lage, die bereits durch (15.42) gegebene Testgr¨oße n¨ aher zu spezifizieren. Es werden die Trefferzahlen Nk,i mit den bei richtiger Hypothese zu erwartenden, gesch¨ atzten Treffern (15.45) abgeglichen:
Beispiel “Musikgeschmack“ M¨ anner
Frauen
X
M¨ anner
Frauen
X
Klassik
8
22
Klassik
10.71
19.29
Pop
25
42
Pop
23.93
43.07
Sonst
17
26
Sonst
15.36
27.64
50
90
50
90
Tabelle 15.2. Gemessene Trefferzahlen nk,i in den Stichproben.
Tabelle 15.3. Zu erwartende, ideale Trefferzahlen nk pˆi , falls H0 richtig ist.
332
15 Signifikanztests
Testgr¨ oße beim Homogenit¨ atstest: T (x) =
s r (Nk,i − nk Pˆi )2 k=1 i=1
nk Pˆi
.
(15.46)
Wir listen einige Eigenschaften der Testgr¨ oße T (x) auf: 1. Es gilt: T (x) ≥ 0.
(15.47)
Die Testgr¨ oße T (x) entspricht eigentlich einem “Un¨ahnlichkeitsmaß“, ¨ denn je gr¨ oßer der Wert von T (x) ist, desto geringer ist die Ahnlichkeit zwischen gemessenen und erwarteten Treffern. 2. Die exakte Verteilung von T (x) ist bei richtiger Nullhypothese H0 nur schwer darstellbar. Dazu m¨ usste man komplizierte Transformationen von multinomialen Verteilungen der Variablen Nk,i berechnen. Bei großen Stichproben jedoch kann man zeigen, dass die Verteilung von T (x) hinreichend gut durch eine Chi-quadrat-Verteilung approximiert werden kann. Der Freiheitsgrad ist dabei auf (r − 1)(s − 1) zu setzen. Analog zum Anpassungstest erhalten wir: Testvorschrift beim Homogenit¨ atstest: Falls T (x) ≥ χ2(r−1)(s−1);1−α , wird H0 ausgeschlossen. Ansonsten wird H0 nicht ausgeschlossen. Anwendbarkeitsregel: -
nk Pˆi ≥ 5 f¨ ur alle 1 ≤ k ≤ r, 1 ≤ i ≤ s. ullt sein. Falls s = 2 ist, muss zus¨ atzlich nk ≥ 30 erf¨
Die Anwendbarkeitsregel stellt sicher, dass der Gebrauch der Chi-quadratVerteilung angemessen ist. Sie ist eine f¨ ur praktische Belange hinreichend gute Empfehlung und ist nicht als mathematisch beweisbare Aussage zu verstehen. Beispiel (Fortsetzung). Wir m¨ ochten das Risiko erster Art auf 1% beschr¨ anken. Die Anwendbarkeitsregel ist erf¨ ullt, da die gesch¨atzten, erwarteten Trefferzahlen in der Tabelle 15.3 alle u ¨ber 5 liegen. Die Testgr¨oße berechnet sich mit (25 − 23.93)2 (17 − 15.36)2 (8 − 10.71)2 + + 10.71 23.93 15.36
T (x) = +
(42 − 43.07)2 (26 − 27.64)2 (22 − 19.29)2 + + 19.29 43.07 27.64
= 1.418.
15.7 Test auf Gleichheit von Verteilungen in verschiedenen Gesamtheiten
333
Die Testschranke lautet χ2(r−1)(s−1);1−α = χ22;0.99 = 9.21. Da die Testgr¨ oße unter der Testschranke liegt, k¨onnen wir die Nullhypothese H0 nicht verwerfen, d.h. wir schließen nicht aus, dass M¨anner und Frauen beim Kauf einer CD mit gleicher Wahrscheinlichkeit Pop und mit gleicher Wahrscheinlichkeit Klassik pr¨ aferieren. Der Unterschied zwischen M¨ annern und Frauen, der in der Abbildung 15.9 zum Ausdruck kommt, ist nicht signifikant. Das Risiko, dass ein Ausschluss ungerechtfertigt, rein zuf¨ allig h¨ atte zu Stande kommen k¨ onnen, betr¨agt h¨ochstens 1%. Insofern wird Bertas Behauptung weder widerlegt, noch best¨atigt. Beispiel (Vier L¨ ander). Esther behauptet, dass der Anteil der Personen, welche ein Handy besitzen, in den vier Grundgesamtheiten Deutschland ¨ (1), Osterreich (2), Schweiz (3) und Luxemburg (4) unterschiedlich sei. Sie definiert die Variable “X = Besitz eines Handys (ja/nein)“, die sie bez¨ uglich der vier Grundgesamtheiten bzw. des jeweiligen Landes mit X1 , utzen, versucht sie X2 , X3 und X4 , bezeichnet. Um ihre Behauptung zu st¨ bei einer Irrtumswahrscheinlichkeit von 1% folgende Hypothese zu widerlegen: H0: P (X1 = ja)
= P (X2 = ja)
= P (X3 = ja)
= P (X4 = ja),
P (X1 = nein) = P (X2 = nein) = P (X3 = nein) = P (X4 = nein).
Mit r = 4 und s = 2 lautet die Testschranke χ2(r−1)(s−1);1−α = χ23;0.99 = 11.34, wodurch die Entscheidungsregel des Testes, wie u ¨blich, bereits vor der Stichprobenziehung festgelegt ist. Esther zieht in jedem Land jeweils eine unabh¨angige Zufallsstichprobe, ¨ n2 = 70, in der Schweiz wobei in Deutschland n1 = 100, in Osterreich n3 = 110 und in Luxemburg n4 = 120 Personen unabh¨angig und zuf¨allig befragt werden. Die Ergbenisse notiert sie in einer Kontingenztafel: Deutschland
¨ Osterreich
Schweiz
Luxemburg
ja
51
56
76
85
nein
49
14
34
35
100
70
110
120
Gem¨ aß (15.44) sch¨ atzen wir die unbekannten Wahrscheinlichkeiten: 51 + 56 + 76 + 85 = 0.67, 100 + 70 + 110 + 120 49 + 14 + 34 + 35 = 0.33. pˆ2 = 100 + 70 + 110 + 120 pˆ1 =
Dann ergeben sich bei richtiger Nullhypothese mit nk · pˆi die gesch¨atzten, zu erwartenden Trefferzahlen:
334
15 Signifikanztests Deutschland
¨ Osterreich
Schweiz
Luxemburg
ja
67.0
46.9
73.7
80.4
nein
33.0
23.1
36.3
39.6
100
70
110
120
Daraus berechnen wir die Testgr¨ oße (56 − 46.9)2 (76 − 73.7)2 (51 − 67.0)2 + + 67.0 46.9 73.7
T (x) = +
(49 − 33.0)2 (14 − 23.1)2 (85 − 80.4)2 + + 80.4 33.0 23.1
+
(35 − 39.6)2 (34 − 36.3)2 + 36.3 39.6
= 17.944. Da die Testgr¨oße u ¨ber der Testschranke χ23;0.99 = 11.34 liegt, kann Esther mit einer Irrtumswahrscheinlichkeit von 1% ausschließen, dass der Anteil der Handybesitzer in allen L¨ andern gleich hoch ist. Die Anwendbarkeitsregel ist erf¨ ullt, da alle Stichprobenumf¨ange ni u ¨ber ber 5 liegen. 30 sind und die erwarteten Trefferzahlen nk · pˆi alle u ¨
15.8 Test auf Gleichheit von Verteilungen in einer Grundgesamtheit (Homogenit¨ atstest) Im Gegensatz zum letzten Unterkapitel 15.7 haben wir nur eine Grundgesamtheit vorliegen. Allerdings besitzt jedes Objekt die r Variablen X1 , . . . , Xr . Wir wollen die Nullhypothese testen, dass alle Variablen Xk , 1 ≤ k ≤ r die gleichen Wahrscheinlichkeiten bzw. Verteilungen besitzen: H0:
P (X1 = w1 ) = P (X2 = w1 ) = P (X1 = w2 ) = P (X2 = w2 ) = ... P (X1 = ws ) = P (X2 = ws ) =
... ...
= P (Xr = w1 ) = P (Xr = w2 ) (15.48)
...
= P (Xr = ws ).
Neben einer Reihe von Tests, welche in der Statistik f¨ ur diese Nullhypothese angeboten werden, kann man auch den Test des letzten Unterkapitels 15.7 benutzen und die Testgr¨ oße, Testschranke und Entscheidungsregel w¨ortlich u bernehmen. Allerdings macht dies nur Sinn, wenn wir unverbundene ¨ Stichproben, d.h. r unabh¨ angige Zufallsstichproben aus derselben Grundgesamtheit gem¨ aß (14.9) auf Seite 295 ziehen! Zwar k¨onnten wir mit weniger
15.9 Unabh¨ angigkeitstest
335
M¨ uhe eine verbundene Stichprobe ziehen, jedoch gelten dann die statistischen Eigenschaften auf Seite 332 bez¨ uglich der Verteilung der Testgr¨oße T (x) nicht angig sein k¨onnten. mehr, da die Variablen X1 , . . . , Xr abh¨
15.9 Unabh¨ angigkeitstest Man m¨ ochte testen, ob zwei Variablen X und Y unabh¨angig sind. Die Notationen und Formeln sind ¨ ahnlich wie beim Homogenit¨atstest, jedoch liegt eine andere Ausgangssituation vor. Voraussetzungen: 1. Es liegt eine einzige Grundgesamtheit vor. Aus ihr wird eine verbundene Zufallsstichprobe vom Umfang n gezogen: (X1 ; Y1 ), (X2 ; Y2 ), . . . (Xn ; Yn ) 2. Beide Variablen X, Y sind diskreten Typs und werden an ein und demselben Objekt gemessen. Die Variable X kann nur die r verschiedenen Werte x1 , . . . .xr und die Variable Y kann nur die s verschiedenen Werte y1 , . . . .ys annehmen. Bei Variablen stetigen Typs m¨ usste man eine Diskretisierung durchf¨ uhren. Die Nullhypothese besagt, dass die Variablen X, Y unabh¨angig sind. Gem¨aß (9.29) l¨ asst sich dann die gemeinsame, bivariate Verteilung von X und Y als Produkt dartellen: H0: P (X = xi , Y = yj ) = P (X = xi ) · P (Y = yj ),
1 ≤ i ≤ r, 1 ≤ j ≤ s. (15.49)
Es wird keine Aussage u ohe der Wahrscheinlichkeiten ge¨ber die absolute H¨ troffen. Die Hypothese l¨ asst sich auch f¨ ur qualitative Merkmale formulieren. Beispiel (Automarken und Frisuren). Egon ist Art-Direktor und arbeitet an einem Werbespot f¨ ur ein Auto, bei dem noch ein geeigneter m¨annlicher “Fahrertyp“ gesucht wird. Er behauptet, dass bei m¨annlichen Fahrern ein Zusammenhang zwischen den Merkmalen “X = Frisur“ und “Y = Automarke“ besteht. Dies soll anhand der Frisuren “k=kurze Haare, l=lange Haare, g=Glatze“ und den Marken “b=BMW, f=Ford, o=Opel, v=VW“ analysiert werden. Er h¨ atte recht, wenn die Nullhypothese, welche die Unabh¨ angigkeit von X, Y ausdr¨ uckt, H0:
P (X = k, Y = b) = P (X = k) · P (Y = b), P (X = k, Y = f ) = P (X = k) · P (Y = f ), ... = ... P (X = g, Y = v) = P (X = g) · P (Y = v)
falsch w¨ are. Hier sind r = 3 und s = 4, so dass H0 mit 12 Zeilen vollst¨andig dargestellt w¨ are.
336
15 Signifikanztests
Wie beim Anpassungs- und Homogenit¨ atstest verfolgen wir die Idee, als Test¨ gr¨ oße ein Ahnlichkeitsmaß zu benutzen, das die tats¨achlichen Stichprobenergebnisse mit den zu erwartenden Werten vergleicht, die sich bei richtiger ussten: Nullhypothese H0 idealerweise ergeben m¨ T (x, y) =
s r i=1 j=1
Treffer f¨ ur das Erwartete Treffer f¨ ur das WerteWertepaar (xi , yj ) − paar (xi , yj ), falls H0 richtig ist. in der Stichprobe Erwartete Treffer f¨ ur das Wertepaar (xi , yj ), falls H0 richtig ist.
2 .
(15.50) Zur Pr¨ azisierung dieser Testgr¨ oße ben¨ otigen wir wieder wie schon beim Homogenit¨ atstest einige Formalismen. Wir z¨ ahlen f¨ ur alle Werte-Kombinationen von X und Y : Ni,j = Anzahl “Treffer“ der Wertepaare (xi , yj ) innerhalb der Stichprobe. Dies sind r · s Zufallsvariablen. Zudem z¨ ahlen wir bez¨ uglich der Variablen X ur den Wert xi innerhalb der Stichprobe Ni,• = Anzahl “Treffer“ f¨ und bez¨ uglich der Variablen Y N•,j = Anzahl “Treffer“ f¨ ur den Wert yj innerhalb der Stichprobe. ¨ Ublicherweise stellt man diese Gr¨ oßen in einem Tableau dar, das man als Kontingenztafel bezeichnet (Tabelle 15.4). Zwischen den Variablen bestehen folgende Beziehungen: Ni,1 + Ni,2 + . . . + Ni,s = Ni,• , N1,j + N2,j + . . . + Nr,j = N•,j , N1,1 + . . . + N1,s + N2,1 + . . . + N2,s + . . . . . . + Nr,s = n. Diese Summen findet man als Spalten- und Zeilensummen in der Kontingenztafel wieder. Wegen dieser Summen sind die Zufallsvariablen Ni,j abh¨ angig. Dem begeisterten Leser sei verraten, dass jede einzelne Variable Ni,j binomialverteilt ist, wohingegen die gemeinsame Verteilung der Variablen N1,1 , N1,2 , . . . .Nr,s eine multinomiale Verteilung ist. Beispiel (Fortsetzung). Egon steht auf einer Autobahnbr¨ ucke und beobachtet n = 140 Autos mit m¨ annlichen Fahrern. Die so gewonnene Zufallsstichprobe (X1 ; Y1 ), (X2 ; Y2 ), . . . (X140 ; Y140 ) ergibt folgende konkrete Werte:
15.9 Unabh¨ angigkeitstest
337
Darstellung der Trefferzahlen Ni,j in einer Kontingenztafel Y
y1
y2
...
ys
x1
N1,1
N1,2
...
N1,s
N1,•
x2
N2,1
N2,2
...
N2,s
N2,•
X
...
...
...
...
...
...
xr
Nr,1
Nr,2
...
Nr,s
Nr,•
N•,1
N•,2
...
N•,s
n
Tabelle 15.4. Die Zeilen entsprechen den r m¨ oglichen Werten von X, die Spalten entsprechen den s m¨ oglichen Werten von Y .
(k,b), (l,b), (k,f), (k,b), (k,v), (k,v), (g,o), (k,v), (l,o), (k,b), (g,v), (g,o), (k,b), (k,v), (k,v), (g,b), (k,v), (g,o), (k,v), (l,f), (k,v), (l,f), (l,f), (k,v), (l,f), (k,o), (k,f), (k,v), (l,f), (g,o), (l,v), (g,b), (l,f), (k,o), (k,b), (l,f), (l,v), (g,f), (l,o), (k,b), (g,v), (l,b), (k,v), (k,f), (l,f), (g,f), (g,o), (k,o), (g,o), (g,v), (l,v), (l,f), (k,b), (l,f), (g,o), (k,b), (l,f), (k,v), (g,o), (l,f), (k,b), (k,v), (l,o), (l,b), (k,f), (k,v), (l,o), (k,b), (l,f), (l,v), (g,o), (k,v), (l,f), (k,v), (g,o), (k,b), (g,f), (k,v), (k,v), (l,f), (k,b), (k,v), (l,f), (g,o), (l,o), (g,o), (k,b), (g,v), (k,f), (k,v), (l,f), (k,v), (g,o), (k,b), (l,f), (k,v), (l,f), (k,b), (g,o), (k,v), (g,f), (l,v), (l,f), (k,v), (k,f), (k,v), (g,o), (l,b), (l,f), (k,v), (g,o), (k,o), (k,b), (k,v), (k,f), (k,v), (k,v), (k,v), (k,b), (l,f), (g,b), (k,v), (k,o), (k,v), (g,o), (k,v), (g,o), (k,v), (k,v), (l,f), (k,v), (g,o), (k,v), (g,v), (k,v), (k,f), (l,o), (l,b), (k,v), (l,f).
Die Realisationen der Zufallsvariablen Ni,j und N•,j , Ni,• dieser Stichprobe sind in der Kontingenztafel (Tabelle 15.5) eingetragen. Die gemeinsame, bivariate Verteilung der Variabeln X, Y notieren wir mit pi,j = P (X = xi , Y = yj ).
(15.51)
F¨ ur die unviariaten Verteilungen bzw. die Randverteilungen der Variablen X und Y schreiben wir: pi,• = P (X = xi ),
p•,j = P (Y = yj ).
(15.52)
Die Nullhypothese H0 besagt, dass die Beziehungen pi,j = pi,• · p•,j
(15.53)
f¨ ur alle Kombinationen von i, j gelten. Dann lassen sich die zu erwartenden, “idealen“ Trefferzahlen mit
338
15 Signifikanztests
n pi,• · p•,j
(15.54)
angeben. Leider k¨ onnen wir diese erwarteten Trefferzahlen nicht ausrechnen, da die Hypothese H0 keine Aussage u ¨ber die absolute H¨ohe der Wahrscheinussen wir diese wie beim Homogenit¨atstest lichkeiten pi,j trifft. Stattdessen m¨ sch¨ atzen. Unter der Annahme, dass die Nullhypothese zutrifft, sind f¨ ur pi,• und p•,j folgende Punktsch¨ atzer geeignet: Pˆi,• =
Ni,• Treffer f¨ ur xi = , Stichprobenumfang n
(15.55)
Pˆ•,j =
N•,j Treffer f¨ ur yj = . Stichprobenumfang n
(15.56)
Die Notation in Großbuchstaben verdeutlicht, dass es sich um Zufallsvariablen handelt. Unter Verwendung dieser Sch¨ atzer k¨ onnen wir bei richtiger Nullhypothese die zu erwartenden, idealen Trefferzahlen zumindest sch¨atzen, indem wir (15.55),(15.56) in (15.54) einsetzen: atzte, erwartete Treffer. n Pˆi,• · Pˆ•,j = gesch¨
(15.57)
Beispiel (Fortsetzung). Die gesch¨ atzten Wahrscheinlichkeiten f¨ ur “X = Frisur“ sind: 69 40 31 = 0.493, pˆ2,• = = 0.286, pˆ3,• = = 0.221. pˆ1,• = 140 140 140 Die gesch¨ atzten Wahrscheinlichkeiten f¨ ur “Y = Automarke“ sind: 25 = 0.179, 140 30 = 0.214, = 140
36 = 0.257, 140 49 = 0.350. = 140
pˆ•,1 =
pˆ•,2 =
pˆ•,3
pˆ•,4
Beispiel “Automarken und Frisuren“
Y BMW Ford Opel VW X
Y BMW Ford Opel VW X
Kurz
17
8
5
39
69
Kurz
12.3
17.7 14.8 24.2 69
Lang
5
24
6
5
40
Lang
7.1
10.3
8.6
14.0 40
Glatze
3
4
19
5
31
Glatze
5.5
8.0
6.6
10.9 31
25
36
30
49 140
25
36
30
49 140
Tabelle 15.5. Gemessene Trefferzahlen ni,j .
Tabelle 15.6. Gesch¨ atzte, zu erwartende Trefferzahlen 140 · pˆi,• · pˆ•,j
15.9 Unabh¨ angigkeitstest
339
Damit berechnen sich gem¨ aß (15.57) die gesch¨atzten, zu erwartenden Trefferzahlen mit 140 · pˆi,• · pˆ•,j . Die Ergebnisse sind in der Tabelle 15.6 eingetragen. Wir sind nun in der Lage, die Testgr¨ oße (15.50) n¨aher zu spezifizieren. Es werden die Trefferzahlen Ni,j mit den bei richtiger Hypothese zu erwartenden, gesch¨ atzten Treffern (15.57) abgeglichen: Testgr¨ oße beim Unabh¨ angigkeitstest: T (x, y) =
s r (Ni,j − n · Pˆi,• · Pˆ•,j )2 . n · Pˆi,• · Pˆ•,j
(15.58)
i=1 j=1
Die Eigenschaften der Testgr¨ oße T (x, y) sind analog wie beim Homogenit¨atstest: 1. Es gilt: T (x, y) ≥ 0.
(15.59)
2. Die exakte Verteilung von T (x, y) ist bei richtiger Nullhypothese H0 nur mit komplizierten Transformationen der Multinomialverteilung darstellbar. Bei großen Stichproben jedoch ist die Verteilung von T (x, y) hinreichend gut durch eine Chi-quadrat-Verteilung approximierbar. Der Freiheitsgrad ist dabei auf (r − 1)(s − 1) zu setzen. Analog zum Homogenit¨ atstest erhalten wir: Testvorschrift beim Unabh¨ angigkeitstest: Falls T (x, y) ≥ χ2(r−1)(s−1);1−α , wird H0 ausgeschlossen. Ansonsten wird H0 nicht ausgeschlossen. Anwendbarkeitsregel: -
n · Pˆi,• · Pˆ•,j ≥ 5 f¨ ur alle 1 ≤ i ≤ r, 1 ≤ j ≤ s. Falls s = 2 ist, muß zus¨ atzlich n ≥ 30 erf¨ ullt sein.
Die Anwendbarkeitsregel stellt sicher, dass der Gebrauch der Chi-quadratVerteilung angemessen ist. Sie ist eine f¨ ur praktische Belange hinreichend gute Empfehlung und ist nicht als mathematisch beweisbare Aussage zu verstehen. Beispiel (Fortsetzung). Egon m¨ ochte das Risiko erster Art auf 0.5% beschr¨ anken. Die Anwendbarkeitsregel ist erf¨ ullt, da die gesch¨atzten, erwarteten Trefferzahlen in der Tabelle 15.6 alle u ¨ber 5 liegen. Die Testgr¨oße berechnet sich mit
340
15 Signifikanztests
(8 − 17.7)2 (5 − 14.8)2 (39 − 24.2)2 (17 − 12.3)2 + + + 12.3 17.7 14.8 24.2
T (x, y) = +
(24 − 10.3)2 (6 − 8.6)2 (5 − 14.0)2 (5 − 7.1)2 + + + 7.1 10.3 8.6 14.0
+
(4 − 8.0)2 (19 − 6.6)2 (5 − 10.9)2 (3 − 5.5)2 + + + 5.5 8.0 6.6 10.9
= 77.501 und die Testschranke lautet χ2(r−1)(s−1);1−α = χ26;0.995 = 18.55. Da die Testgr¨ oße u ¨ber der Testschranke liegt, k¨onnen wir die Nullhypothese H0 verwerfen, d.h. wir schließen aus, dass bei M¨annern Frisur und Automarke unabh¨ angig sind. Das Risiko, dass dieser Ausschluss ungerechtfertigt, rein zuf¨ allig zu Stande gekommen sein k¨onnte, betr¨agt h¨ochstens 0.5%. Insofern sollten wir Egon zustimmen. Beispiel (Bier und Fußball). Eugenie m¨ ochte im Fernsehen Werbung f¨ ur Bier ausstrahlen. Sie m¨ ochte die Werbespots am liebsten zu einer Fußballsendung platzieren, da sie vermutet, dass Zuschauer w¨ahrend einer Fußballsendung eher Bier konsumieren als andere Zuschauer. Daher versucht sie bei einer Irrtumswahrscheinlichkeit von 0.5% zu den Variablen “X = Zuschauer sieht Fußball (ja/nein)“ und “Y = Zuschauer trinkt Bier (ja/nein)“ die Nullhypothese H0:
P (X P (X P (X P (X
= ja , = ja , = nein, = nein,
Y = ja ) = P (X = ja ) · P (Y = ja ), Y = nein) = P (X = ja ) · P (Y = nein), Y = ja ) = P (X = nein) · P (Y = ja ), Y = nein) = P (X = nein) · P (Y = nein)
zu widerlegen. Mit r = 2 und s = 2 lautet die Testschranke χ2(r−1)(s−1);1−α = χ21;0.995 = 7.88, wodurch die Entscheidungsregel des Testes, wie u ¨blich, bereits vor der Stichprobenziehung festgelegt ist. Eugenie zieht eine unabh¨ angige Zufallsstichprobe, indem sie 200 Zuschauer zuf¨ allig ausw¨ ahlt und bez¨ uglich ihres Verhalten vor dem Fernseher befragt. Die Ergbenisse notiert sie in einer Kontingenztafel:
Bier
kein Bier
Fußball
55
10
65
kein Fußball
23
112
135
78
122
200
15.9 Unabh¨ angigkeitstest
341
Die gesch¨ atzten Wahrscheinlichkeiten f¨ ur X sind: pˆ1,• =
65 = 0.325, 200
pˆ2,• =
135 = 0.675. 200
Die gesch¨ atzten Wahrscheinlichkeiten f¨ ur Y sind: pˆ•,1 =
78 = 0.390, 200
pˆ•,2 =
122 = 0.610. 200
Dann ergeben sich bei richtiger Nullhypothese gem¨aß (15.57) mit 200 · atzten, zu erwartenden Trefferzahlen: pˆi,• · pˆ•,j die gesch¨
Bier
kein Bier
Fußball
25.35
39.65
65
kein Fußball
52.65
82.35
135
78
122
200
Daraus berechnet Eugenie die Testgr¨ oße T (x, y) =
(10 − 39.65)2 (55 − 25.35)2 + 25.35 39.65 (112 − 82.35)2 (23 − 52.65)2 + + 52.65 82.35
= 84.22. Da die Testgr¨ oße viel gr¨ oßer als die Schranke χ21;0.95 = 7.88 ist, kann Eugenie bei 0.5% Irrtumswahrscheinlichkeit ausschließen, dass bei Zuschauern Fußballsehen und Biertrinken unabh¨ angig seien. Die Anwendbarkeitsregel ist erf¨ ullt, da der Stichprobenumfang n = 200 u ¨ber 5 ¨ber 30 ist und die erwarteten Trefferzahlen 200 · pˆi,• · pˆ•,j alle u liegen. Zusammenhang von Unabh¨ angigkeitstest und Homogenit¨ atstest Wir k¨ onnen eine der beiden Variablen, z.B. Y , benutzen, um Teilgesamtheiten, bzw. verschiedene Grundgesamtheiten festzulegen. Egon h¨atte im Beispiel “Automarken“ die Gesamheit aller m¨ annlichen Fahrer in die 4 Gesamtheiten BMW-, Ford-, Opel- und VW-Fahrer aufteilen k¨onnen. Wenn die Frisur unabh¨ angig von den Automarken ist, m¨ usste die Verteilung der Frisuren bei allen 4 Automarken gleich sein. Ein solcher Vergleich von Verteilungen bez¨ uglich verschiedener Grundgesamtheiten ist typischerweise mit einem Homogenit¨ atstest durchf¨ uhrbar. Insofern h¨ atten wir auf die Konstruktion eines Unabh¨ angikeitstestes verzichten k¨ onnen. Man kann sogar zeigen, dass generell die Testgr¨ oße T (x) des Homogenit¨ atstestes und die Testgr¨oße T (x, y) des
342
15 Signifikanztests
Unabh¨ angigkeitstestes im Ergebnis immer gleich sind. Da zudem die Testschranken gleich sind, ist es egal, welchen Test man durchf¨ uhrt. Wozu also zwei Tests, die immer zum gleichen Testergebnis f¨ uhren? Der wesentliche Unterschied liegt in der Versuchsplanung bzw. in den Stichprobenziehungen. Beim Homogenit¨ atstest werden r unabh¨angige Stichproben gezogen. Egon m¨ usste aus jeder der 4 Gesamtheiten BMW-, Ford-, Opelund VW-Fahrer eine Stichprobe ziehen. Die Stichprobenumf¨ange n1 , n2 , n3 , n4 sind dabei im Voraus schon festgelegt und somit konstant. Beim Unabh¨angigkeitstest hingegen zieht Egon nur eine Stichprobe vom Umfang n. Wie viele BMW-, Ford-, Opel- und VW-Fahrer dabei auftreten, ist nicht im Voraus festgelegt, sondern ergibt sich rein zuf¨ allig und wird mit den Zufallsvariablen ahlt. Dieser Unterschied wird auch in den KontinN•,1 , N•,2 , N•,3 , N•,4 gez¨ genztafeln Tabelle 15.1 und Tabelle 15.4 sichtbar. Die Spalten- und Zeilensummen in Tabelle 15.4 sind zuf¨ allig, d.h erst nach der Stichprobenziehung bekannt, wohingegen in Tabelle 15.1 die Spaltensumme im Voraus gegeben ist. Zusammenfassend kann man festhalten, dass bei gleicher Datenlage in den Kontingenztafeln beide Tests rechnerisch immer zum gleichen Resultat f¨ uhren. Da aber die Versuchsplanungen bei beiden Tests verschieden sind, “f¨ ullen“ sich die Kontingenztafeln des Homogenit¨ atstests und des Unabh¨angigkeitstestes in der Regel unterschiedlich. Egon h¨ atte bei der Verwendung des Homogenit¨atstestes im Voraus schon die Stichprobenumf¨ ange festlegen m¨ ussen. Es ist zu bezweifeln, ob er sich zu diesem Zeitpunkt f¨ ur n1 = 25, n2 = 36, n3 = 30, n4 = 49 entschieden h¨ atte. Insofern w¨ urde Egon bei anderen Stichprobenumf¨angen, auch wenn sie in der Summe 140 ergeben, zwangsl¨aufig eine andere Kontingenztafel als Tabelle 15.6 erhalten. Entsprechend kann dann der Wert der Testgr¨ oße anders ausfallen. Zusammenhang von Unabh¨ angigkeitstest und Regression Im n¨ achsten Kapitel werden wir sehen, dass man die Unabh¨angigkeitshypothese zweier metrischer Merkmale auch u ufen kann, indem man testet, ¨berpr¨ ob die Regressionsgerade eine Steigung von Null besitzt.
16 Regressionsanalyse
Im Kapitel 7 “Deskriptive Regressionsrechnung“ haben wir uns u ¨berlegt, wie man zu einer gegebenen Punktwolke eine “passende“ Funktion f (x) bzw. Regressionsfunktion berechnen kann. Dort haben wir bereits das Problem angesprochen, wie stabil bzw. sensitiv sich die berechnete Regressionsfunk¨ tion gegen¨ uber Anderungen bei den Ausgangsdaten, bzw. der Punktwolke verh¨ alt. Um hierauf eine vern¨ unftige Antwort geben zu k¨onnen, m¨ ussen wir kl¨ aren, in welcher Weise oder nach welchen Gesetzm¨aßigkeiten eine Punktwolke “entsteht“. Insofern erweitern wir das bisherige deskriptive RegressionsModell, indem man nun der bisherigen Ausgangssituation “gegebene Punktwolke“ noch ein Modell vorschaltet, das die Entstehung der Punktwolke ber¨ ucksichtigt. Man k¨ onnte versuchen, die Entstehung der Punktwolken mit physikalischen oder anderen Mechanismen erkl¨ aren zu wollen. Stattdessen aber bedienen wir uns einer rein statistischen Sichtweise in Form eines stochastischen Modells.
16.1 Allgemeines Modell Bevor wir das Modell in formaler Gestalt pr¨ asentieren, geben wir eine bildhafte Einstimmung. Gartenschlauch-Modell Markus sitzt im Sommer auf seiner rechteckigen Terrasse, u ¨ber die er zur W¨ asserung seines Gartens einen Schlauch gelegt hat. Sein dreij¨ahriger Sohn Linus ist hauptberuflich Hauskobold. Als Markus ein Nickerchen macht, piekst der Hauskobold in zuf¨ alliger und vollkommen unsystematischer Weise L¨ocher in den Schlauch, so dass sich Wassertropfen auf der Terrasse abzeichnen. Linus bekommt ein schlechtes Gewissen, dreht den Hahn ab und stolpert u ¨ber den Schlauch, so dass dieser verrutscht und ganz offensichtlich anders als zuvor auf der Terrasse liegt. Schnell hat er mit Tesafilm den Schlauch geflickt.
344
16 Regressionsanalyse Lineares Gartenschlauch-Modell y
y
fx
50
25
50
100
x
Abbildung 16.1. Undichter, urspr¨ unglicher Schlauch f (x).
y
50
50
25
25
50
100
x
Abbildung 16.2. Hinterlassene, zuf¨ allige Spuren.
50
100
x
Abbildung 16.3. Berechneter “Regressionsschlauch“.
Das Gartenschlauch-Modell soll in erster Linie verdeutlichen, dass wir von einer Art “urspr¨ unglichen“ Funktion f (x) ausgehen, die uns zwar unbekannt ist, jedoch gewisse Spuren in Form einer “zuf¨ alligen“ Punktwolke hinterlassen hat. Die berechnete Regressionsfunktion ist in aller Regel von f (x) verschieden. Im Mittelpunkt der Untersuchungen steht die Frage, wie genau bzw. zuverl¨ assig die Rekonstruktion der urspr¨ unglichen Funktion f (x) ist.
Um den Zwischenfall zu vertuschen, ist es Linus wichtig, den Schlauch wieder in seine Originalposition zu bringen. Da sein Vater ihm bereits das Kapitel 7 “Deskriptive Regressionsrechnung“ vorgelesen hat, berechnet Linus eine Regressionsfunktion, indem er die Kanten der Terrasse als Koordinatensystem benutzt und die Wassertropfen auf der Terrasse als Punktwolke auffasst. Schließlich positioniert er den Schlauch entsprechend der berechneten Regressionsfunktion. Als Markus wieder von seinem Nickerchen aufwacht, sieht er friedvoll auf den Gartenschlauch und bemerkt nichts. Tats¨ achlich aber ist die urspr¨ ungliche Position des Schlauches und der “Regressionsschlauch“ unterschiedlich. Dies erkl¨ art sich damit, dass sich die Wassertropfen wegen unterschiedlich beschaffener L¨ ocher, Wind und anderer Einfl¨ usse in zuf¨alliger Weise um den Schlauch positioniert haben. Die Position eines Wassertropfens kann u ¨ber die Gleichung Position eines Tropfen = (Position des Schlauchs) + (zuf¨ allige Abweichung)
(16.1) beschrieben werden. W¨ urde Linus bei gleicher Ausgangslage des Schlauches seinen Schabernack wiederholen, so w¨ urde sich vermutlich jedesmal eine andere Regressionsfunktion ergeben. Formales Modell Betrachtet wird eine Zufallsvariable Y (Regressand), die von einem metri¨ schen Merkmal X (Regressor) abh¨ angt. Ahnlich wie bei einer mathematischen Funktion wollen wir diese Abh¨ angigkeit mit Y (X) notieren. Zwischen dem Erwartungswert der Zufallsvariablen Y (X) und dem Merkmal X wird
16.1 Allgemeines Modell
345
die Beziehung E[Y (X)] = f (X)
(16.2)
vorausgesetzt, wobei f (x) eine mathematische Funktion ist. Insofern kann man zu einem gegebenen Wert von X zumindest das durchschnittliche Verhalten der Variablen Y in eindeutiger Weise beschreiben. Der Anwender zieht eine Stichprobe, indem er n mal paarweise den Regressor X und den Regressand Y misst. Abweichend vom Gartenschlauch-Modell sind dabei die x-Werte von ihm im Voraus fest vorgegeben, w¨ahrend die y-Werte Zufallsvariablen sind, deren Realisationen erst nach der Stichprobenziehung zur Verf¨ ugung stehen. Wir notieren daher in der Stichprobe die x-Werte in Kleinbuchstaben und die y-Werte in Großbuchstaben: (x1 ; Y1 ), (x2 ; Y2 ), . . . (xn ; Yn ).
(16.3)
F¨ ur eine solche Stichprobe unterstellt man ein Modell, das sich analog zu (16.1) formulieren l¨ asst: Modellgleichung F¨ ur fest vorgegebene x-Werte x1 , x2 , . . . xn gelte: (16.4) Yi = f (xi ) + i = (deterministische Gesetzm¨ aßigkeit) + (zuf¨allige Abweichung). Die Zufallsvariablen i heißen auch “error“ oder Residuen. Sie verhalten sich im Schnitt neutral: E[i ] = 0.
(16.5)
Mit i ist auch Yi eine Zufallsvariable, f¨ ur die wegen (9.42), (9.43) und (16.5) gilt: E[Yi ] = E[f (xi ) + i ] = E[f (xi )] + E[i ] = f (xi ), V AR[Yi ] = V AR[f (xi ) + i ] = 0 + V AR[i ] = σi2 .
(16.6) (16.7)
Die Gleichung (16.6) zeigt, dass dieses Stichprobenmodell die Beziehung (16.2) erf¨ ullt. Ferner ist es zugelassen, dass zu ein und demselben x-Wert mehrere verschiedene Zufallsvariablen Y definiert sind, d.h. f¨ ur xj = xk ist Yj = Yk . Neben obiger Modellgleichung gibt es noch weitere Annahmen, die oft nur zur Vereinfachung der Rechnungen dienen und daher je nach Anwendung kritisch zu pr¨ ufen sind. Beispielsweise ist eine Festlegung auf einen Funktions-Typ f (x) analog zu Schritt 1 auf Seite 112 notwendig. Zudem werden f¨ ur die Zufallsvaur wollen wir f¨ ur alle weiteren riablen i weitere Eigenschaften gefordert. Hierf¨ Rechnungen Annahmen formulieren, die in der Literatur gewissermaßen den “Standardfall“ darstellen und in vielen Anwendungen sinnvoll sind:
346
16 Regressionsanalyse
1. Die Zufallsvariablen i sind unabh¨ angig. 2. Es wird Varianzhomogenit¨ at bzw. Homoskedastizit¨at vorausgesetzt, d.h. die Zufallsvariablen i besitzen alle eine gleich große Varianz: V AR[i ] = σ 2 = konstant.
(16.8)
3. Die Zufallsvariablen i sind normalverteilt. Fassen wir alle Annahmen zusammen, so erhalten wir unabh¨angige, normalverteilte Zufallsvariablen Yi mit Yi ∼ N (f (xi ) ; σ 2 ).
(16.9)
Selbstverst¨ andlich sind aber die Variablen Yi von xi abh¨angig. Der Vergleich des formalen Modells mit dem Gartenschaluch-Modell hinkt in zwei Punkten: Das formale Modell sieht nur Abweichungen in y-Richtung vor, d.h. die Wassertropfen d¨ urften nur parallel zur y-Achse aus den L¨ochern spritzen. Der zweite Unterschied besteht darin, dass im formalen Modell die x-Werte im Voraus fest vorgegeben sind, Linus aber die L¨ocher in x-Richtung rein willk¨ urlich positioniert hat. Um dies zu ber¨ ucksichtigen, m¨ usste im formalen Modell auch der Regressor X bzw. die x-Werte mit Zufallsvariablen X1 , X2 , . . . Xn modelliert werden. Dieser Fall, auf den wir erst am Ende des n¨ achsten Unterkapitels eingehen, wird in der Literatur als Regressions-Modell mit “stochastischem Regressor“ bezeichnet.
16.2 Lineare Regressionsanalyse Wir setzen eine lineare Funktion f (x) = a + bx voraus, deren Graph einer Geraden entspricht. Die Modellgleichung (16.4) lautet in diesem Fall Yi = f (xi ) + i = a + bxi + i .
(16.10)
Die Parameter a, b sind unbekannt und sollen gesch¨atzt werden. F¨ ur die Reangigkeit, Normalverteilung und Varianzhomogesiduen i setzen wir Unabh¨ ur (16.9) speziell: nit¨ at V AR[i ] = σ 2 voraus. Somit erhalten wir f¨ Yi ∼ N (a + bxi ; σ 2 ).
(16.11)
Der Anwender zieht eine Stichprobe, indem er zu n vorgegebenen bzw. kontrollierten Werten xi des Regressors X jeweils den Regressand Y misst: (x1 ; Y1 ), (x2 ; Y2 ), . . . (xn ; Yn ).
(16.12)
Diese Daten kann man wie gewohnt als Punktwolke darstellen. Die Berechnung der Regressionsgeraden bzw. die Sch¨ atzung der unbekannten Parameter
16.2 Lineare Regressionsanalyse
347
a und b erfolgt mit den gleichen Methoden wie in der deskriptiven Regressionsrechnung. Daher k¨ onnen wir die dort bereits hergeleiteten Ergebnisse (7.5) und (7.6) u ¨bernehmen. Punktsch¨ atzer f¨ ur die Regressionsgerade 2 Y − xi xi Yi xi i2 a ˆ= = Y¯ − ˆb · x ¯ n xi − ( xi )2 xi Yi − xi Yi ˆb = n n x2i − ( xi )2
(16.13)
(16.14)
Neu ist lediglich, dass in diesen Formeln Yi Zufallsvariablen sind und wir daher auch die Sch¨ atzungen von a und b als Zufallsvariablen aufzufassen haben. Statt Großbuchstaben zu verwenden ist es u ¨blich, diese Zufallsvariablen mit Kleinbuchstaben zu notieren und sie daf¨ ur mit einem “Dach“ zu versehen. Die Umformungen 2 Yk − xi xk Yk xi a ˆ= n x2i − ( xi )2 2 n n xi xi 2 2 = 2 Yk − 2 xk Yk n xi − ( x i ) n xi − ( x i ) k=1 k=1 2 n
xi xi Yk = − x (16.15) k 2 2 n xi − ( xi )2 n xi − ( xi )2 k=1
und
x Y − xi Yk k k2 n xi − ( xi )2 n n n xi 2 2 = 2 xk Yk − 2 Yk n xi − ( x i ) n xi − ( x i ) k=1 k=1 n
n xi 2 2 xk − 2 2 Yk = (16.16) n xi − ( x i ) n xi − ( x i )
ˆb = n
k=1
zeigen, dass a ˆ und ˆb als Summe der normalverteilten Yk dargestellt werden k¨ onnen. Wegen der der Reproduktionseigenschaft sind a ˆ und ˆb dann ebenfalls normalverteilt. Die Terme in den runden Klammern von (16.15) und (16.16) sind jeweils konstant, da die x-Werte vorgegeben sind. Insofern k¨onnen wir gem¨ aß (9.42), (9.43) den Erwartungswert und die Varianz der Zufallsvariablen a ˆ und ˆb berechnen. Wir erhalten dann nach einigen Umformungen 1
2 x ¯2 ˆb ∼ N b ; σ + und . a ˆ ∼ N a ; σ2 n ¯)2 ¯)2 (xi − x (xi − x (16.17)
348
16 Regressionsanalyse
Dies zeigt auch, dass die Punktsch¨ atzer a ˆ und ˆb erwartungstreu sind, da der Erwartungswert von a ˆ mit a und der Erwartungswert von ˆb mit b u ¨bereinstimmt. Die Berechnung der Varianz von a ˆ und ˆb ben¨ otigt den Wert σ 2 , der allerdings in der Regel dem Anwender unbekannt sein d¨ urfte. Daher sch¨atzt man diesen unbekannten Wert σ 2 , welcher der Varianz der Residuen i bzw. der Zufallsvaaß (7.3) die minimierte sum of squared riablen Yi entspricht, indem man gem¨ errors SSE(ˆ a, ˆb) mittelt: Punktsch¨ atzer f¨ ur σ 2 S2 =
1 SSE(ˆ a, ˆb) = n−2
N 1 (Yi − (ˆ a + ˆbxi ))2 n − 2 i=1
(16.18)
Der etwas uneinsichtige Nenner n − 2 erm¨ oglicht eine erwartungstreue Sch¨at2 zung von σ 2 , d.h es gilt E[S 2 ] = σ 2 . Ferner kann man zeigen, dass n−2 σ 2 S eine Chi-quadrat-Verteilung mit n − 2 Freiheitsgraden besitzt und zudem S 2 von a ˆ und ˆb unabh¨ angig ist. Analog zu (10.83) kann man dann mit (16.17) und (16.18) zwei Zufallsvariablen !
Ta = S
a ˆ−a 1 n
+
¯2 x x)2 (xi −¯
und
!
Tb = S
ˆb − b
(16.19)
1 (xi −¯ x)2
definieren, die jeweils eine t-Verteilung mit n−2 Freiheitsgraden besitzen. Auf diesem Resultat bauen die folgenden Konfidenzintervallverfahren und Tests auf. Konfidenzintervallverfahren Analog zu (13.30) k¨ onnen wir f¨ ur die wahren, aber unbekannten Parameter a und b der Modellgleichung (16.10) Konfidenzintervalle berechnen. Konfidenzintervall f¨ ur a
a ˆ − t·S
x ¯2 1 + ; n ¯)2 (xi − x
a ˆ + t·S
x ¯2 1 + n ¯)2 (xi − x
(16.20)
Konfidenzintervall f¨ ur b 1 ˆb − t · S 1 ˆ (16.21) ; b +t ·S ¯)2 ¯)2 (xi − x (xi − x Dabei ist t = tn−2,1− α2 das 1 − α2 -Quantil der t-Verteilung bei n − 2 Freiheitsgraden. Die Sicherheitswahrscheinlichkeit betr¨agt 1 − α.
16.2 Lineare Regressionsanalyse
349
Die Sicherheitswahrscheinlichkeit bezieht sich jeweils auf nur ein Intervall. Wenn wir mit ein und derselben Stichprobe beide Intervalle berechnen, so kann man nicht behaupten, dass beide Intervalle gleichzeitig die wahren Parameterwerte a und b mit einer Sicherheitswahrscheinlichkeit von β u ¨berdecken. Dazu br¨ auchte man Konfidenzintervalle, die man in der Literatur als simultane Konfidenzintervalle bezeichnet. Bemerkung: In den Formeln (16.20) und (16.21) w¨ urde man durch Null dividieren, wenn wir bei der Stichprobe den x-Wert nicht variiert h¨atten, und somit alle xi gleich w¨ aren. In diesem Fall kann man von vornherein nicht erwarten, eine Abh¨ angigkeit von Y bez¨ uglich X erkennen zu k¨onnen. Formal setzen wir dann das Konfidenzintervall mit [−∞, ∞] gleich, welches mit hundertprozentiger Sicherheit den jeweils zu sch¨ atzenden Parameter u ¨berdeckt. Tests Analog zum t-Test in Kapitel 15.2 kann man Hypothesen bez¨ uglich a und b testen. Als Testgr¨ oße dienen gem¨ aß (16.19) die Zufallsvariablen !
Ta (x, y) = S
a ˆ − a0 1 n
+
¯2 x x)2 (xi −¯
und
ˆb − b0 !
Tb (x, y) = S
1 x)2 (xi −¯
. (16.22)
Die Testschranken sind Quantile der t-Verteilung. Die Entscheidungsregel und die Interpretation der Testergebnisse sind analog zum t-Test anwendbar. Wir notieren die Tests in einer Tabelle, in der zu den verschiedenen Hypothesen-Typen jeweils die kritischen Regionen angegeben sind: Nullhypothese
Testvorschrift zum Testen von a
H0:
a = a0
Falls |Ta (x, y)| ≥ tn−2,1− α2 , wird H0 ausgeschlossen.
H0:
a ≤ a0
Falls Ta (x, y) ≥ tn−2,1−α ,
H0:
a ≥ a0
Falls Ta (x, y) ≤ −tn−2,1−α , wird H0 ausgeschlossen.
Nullhypothese
wird H0 ausgeschlossen.
Testvorschrift zum Testen von b
H0:
b = b0
Falls |Tb (x, y)| ≥ tn−2,1− α2 , wird H0 ausgeschlossen.
H0:
b ≤ b0
Falls Tb (x, y) ≥ tn−2,1−α ,
H0:
b ≥ b0
Falls Tb (x, y) ≤ −tn−2,1−α , wird H0 ausgeschlossen.
wird H0 ausgeschlossen.
Ansonsten ist, wie beim Signifikanztest u ¨blich, die Antwort “H0 nicht ausschließen“ angebracht. Das Signifikanzniveau bzw. das Risiko 1.Art betr¨agt
350
16 Regressionsanalyse Regressionsgerade im Beispiel “Benzinkosten“ Kosten YEurMon 400
200 106.25 70 Kunden X 20
40
60
Abbildung 16.4. Die Kosten pro Monat, welche ohne Kundenbesuche anfallen, werden auf durchschnittlich 106.25 [e/Monat] gesch¨ atzt. Wir wollen testen, ob diese Kosten in Wirklichkeit im Schnitt unter 70 [e/Monat] liegen k¨ onnten.
maximal α. Wie schon bei den Konfidenzintervallen gilt dieses Signifikanzniveau nicht f¨ ur beide Tests gleichzeitig, wenn diese mit ein und derselben Stichprobe durchgef¨ uhrt werden. Beispiel (Benzinkosten bei Firmenwagen). Dagobert betreibt ein kleines Unternehmen, das sich durch einen hervorragenden Kundenservice auszeichnet. Seinem Mitarbeiter Cyprian hat er einen Firmenwagen zur Verf¨ ugung gestellt, der auch f¨ ur private Zwecke genutzt werden darf. Insbesondere zahlt ihm Dagobert s¨ amtliche anfallende Benzinrechnungen. ¨ Durch diese Pauschalisierung f¨ allt es Dagobert schwer, den Uberblick u ¨ber die tats¨ achlichen Kosten, die aufgrund der Anfahrten zu den Kunden entstehen, zu behalten. Er vermutet, dass er an Cyprian zus¨atzlich zum monatlichen Gehalt im Schnitt u ur private Zwecke ¨ber 70 Euro Benzingeld f¨ zahlt. Außerdem m¨ ochte Dagobert die Benzinkosten pro Kundenbesuch sch¨ atzen. Er vergleicht daher zu den letzten n = 5 Monaten die Anzahl X der besuchten Kunden pro Monat mit den gesamten Benzinkosten Y [e] pro Monat: (55, 300), (60, 350), (20, 200), (30, 200), (40, 250).
Dagobert unterstellt analog zu (16.10) zwischen den Kunden und den i , wobei die Kosten eine “gest¨ orte“ lineare Beziehung Yi = a + bxi + identisch und normalverteilt sein sollen. Mit xi = 205, Residuen i 2 xi = 9525, xi yi = 57500 erhalten wir gem¨aß (16.13), yi = 1300, (16.14) und (16.18) a ˆ = 106.25,
ˆb = 3.75,
s2 = 20.4122 .
(16.23)
16.2 Lineare Regressionsanalyse
351
Um Dagoberts Vermutung zu best¨ atigen, versuchen wir die Nullhypothese H0: a ≤ 70 zu widerlegen. Das Risiko erster Art sei auf 5% beschr¨ankt. Mit x ¯2 = 1681 2 ¯) = 1120 erh¨ alt man f¨ ur die Testgr¨oße den Wert und (xi − x !
Ta (x, y) = S
a ˆ − a0 1 n
+
¯2 x x)2 (xi −¯
=
106.25 − 70 ! 20.412 51 + 1681 1120
= 1.362.
Ein Vergleich mit der Testschranke t3,0.95 = 2.35 zeigt, dass die Nullhypothese, Cyprian w¨ urde maximal 70 Euro pro Monat f¨ ur eigene Zwecke tanken, nicht ausgeschlossen werden kann. Die Irrtumswahrscheinlichkeit f¨ ur einen ungerechtfertigten Ausschluss der Hypothese betr¨agt maximal 5%. Das Konfidenzintervall zur Sicherheitswahrscheinlichkeit β = 95% f¨ ur die Steigung b erhalten wir mit t = t3,0.975 = 3.18 gem¨aß (16.21): 1 1 3.75 − 3.18 · 20.412 ; 3.75 + 3.18 · 20.412 1120 1120 = [1.81 ; 5.69 ]. Die tats¨ achlichen mittleren Benzinkosten pro Kundenbesuch werden von dem Intervall [1.81 ; 5.69 ] [e] mit einer Wahrscheinlichkeit von 95% u ¨berdeckt. Dagobert sollte aber daran denken, dass das Testergebnis und das Konfidenzintervall nicht unabh¨ angig zustande gekommen ist, da die Testgr¨oße Ta (x, y) und das Konfidenzintervall zu b nicht unabh¨angig sind, wenn er dieselben Stichprobenergebnisse zweimal benutzt. Stochastischer Regressor In der Praxis und auch schon im letzten Beispiel sind die Werte des Regressors X nicht “kontrolliert“, d.h. vor der Stichprobenziehung festgelegt und bekannt, sondern erst danach. Insofern brauchen wir ein Modell mit zuf¨alligem bzw. stochastischem Regressor X. Wenn wir einfach die bisherigen Formeln u ussen wir dort ¨bernehmen, so m¨ u ¨berall die kontrollierten, deterministischen x-Werte xi durch Zufallsvariablen Xi ersetzen. Dann ergeben sich aber je nach Verteilung des Regressors X un¨ uberschaubare und diffizile Verteilungen f¨ ur die Konfidenzintervalle, Testgr¨oßen und Punktsch¨ atzer (16.13), (16.14), da nun zus¨atzlich zu den Yi bzw. alligkeiten der Variablen Xi zu ber¨ ucksichtigen sind. den Residuen i die Zuf¨ F¨ ur diese Schwierigkeiten gibt es aber einen einfachen Ausweg, wenn man folgende Annahmen trifft:
352
16 Regressionsanalyse
1. Das Modell (16.10) und (16.11) soll gelten, ganz gleich, welche Werte f¨ ur den Regressor X in der Stichprobe realisiert werden. 2. Die Residuen bzw. Zufallsvariablen i sind unabh¨angig von den Zufallsvariablen Xi . Dann kann man im Modell mit stochastischem Regressor X die gleichen Konfidenzintervalle und Tests benutzen wie im Modell mit gegebenem, deterministischem Regressor X. Dabei ist es sogar unerheblich, welche Verteilung man f¨ ur den Regressor X unterstellt. Dies ist ein außerordentlich anwenderfreundliches Ergebnis, da sich dadurch beispielsweise auch die Vorgehensweise im letzten Beispiel im Nachhinein rechtfertigen l¨ asst. Eine Begr¨ undung geben wir beispielhaft f¨ ur das Konfidenzintervall zu b auf Seite 394.
16.3 Nicht-Lineare und Multiple Regressionsanalyse Im allgemeinen Modell (16.4) und (16.5) sind auch die F¨alle zugelassen, dass f (x) eine nicht-lineare Funktion oder eine Funktionen mit mehreren Ver¨anderlichen darstellt. Wir u ¨bernehmen die in den Kapiteln 7.3 und 7.2 hergeleiteten Verfahren zur Berechnung der Regressionsfunktion, wobei wir dort die y-Werte als Zufallsvariablen Yi aufzufassen haben. Leider ergeben sich schnell recht komplizierte Formeln, so dass die Berechnung von Konfidenzintervallen und Tests f¨ ur die Regressionsparameter schwierig oder nur noch n¨ aherungsweise m¨ oglich sind. Im speziellen Fall, dass eine multiple lineare Regression angestrebt wird, kann man eine F¨ ulle von Ergebnissen vorfinden, deren Handhabung und Herleitung allerdings Kenntnisse der “Linearen Algebra“ bzw. der Matrizenrechnung voraussetzen. Wir verweisen auf die einschl¨ agige Literatur, in der die multiple lineare Regression unter den sogenannten “Linearen Modellen“ zu finden ist.
17 Alternativtests
Auf Seite 287 haben wir bereits den Alternativtest kennen gelernt. Er unterscheidet sich vom Signifikanztest im Grunde nur dadurch, dass statt der Antwort A3 “keine Aussage“ die Antwort A2 “H0 ist richtig“ gegeben wird. Insofern k¨ onnen wir alle bisher besprochenen Signifikanztests und insbesondere deren Testgr¨ oßen und Testschranken aus dem Kapitel 15 auch als Alternativ¨ tests gebrauchen, wenn wir diese kleine Anderung vornehmen. Dies hat aber, wie auf Seite 290 bereits dargestellt, weitreichende Konsequenzen bez¨ uglich des Risikos 2.Art β. W¨ ahrend beim Signifikanztest ein solches prinzipiell nicht besteht, kann es beim Alternativtest große Werte annehmen und ist “unkontrollierbar“. Wir werden sehen, dass sich beide Risiken α und β durch eine Erh¨ohung des Stichprobenumfangs n gleichzeitig reduzieren lassen. Dabei erh¨ohen sich allerdings Aufwand und Kosten. L¨ asst man den Stichprobenumfang n konstant, besteht zwischen den beiden Risiken α und β eine gegenl¨aufige Beziehung. Je mehr man das Risiko 1.Art einschr¨ ankt, desto schlechter verh¨alt sich der Test bez¨ uglich des Risikos 2.Art, und umgekehrt. Im Gegensatz zum Signifikanztest, bei dem wir nur ein, n¨amlich das Risiko α abzusichern brauchen, ergibt sich bei der Anwendung des Alternativtests das Problem, beide Risiken α und β in vern¨ unftiger Weise zu balancieren. Im ersten Unterkapitel widmen wir uns der Aufgabe, den Fehler 2.Art β mathematisch zu beschreiben. Hierzu dient die sogenannte G¨ utefunktion, welche wir f¨ ur den Gauß-Test exemplarisch bestimmen. Im zweiten Unterkapitel wenden wir das gleiche Konzept auf eine typische Situation der statistischen Qualit¨ atskontrolle, n¨ amlich der Waren Annahme- und Endkontrolle, an. Im dritten Unterkapitel bestimmen wir einen Alternativtest, der nicht prim¨ar die Reduktion der Risiken α und β zum Ziel hat, sondern die Konsequenzen ber¨ ucksichtigt, die sich durch Fehlentscheidungen ergeben. Hierbei bietet die sogenannte “Entscheidungstheorie“ diverse L¨osungsans¨atze. Wir zeigen exemplarisch, wie man so das im zweiten Unterkapitel angesprochene Qualit¨ atkontrollproblem unter Einbeziehung o ¨konomischer Aspekte l¨osen kann.
354
17 Alternativtests
17.1 Alternativtest fu ¨r den Erwartungswert bei bekannter Varianz (Gauß-Test) Zweiseitiger Test f¨ ur H0: μ = μ0 Wir benutzen denselben Test wie im Kapitel 15.1, indem wir auf die Testgr¨oße T (x) =
¯ − μ0 √ X n σ
(17.1)
zur¨ uckgreifen und lediglich bei der Entscheidungsregel Antwort A3 mit A2 ersetzen: Zweiseitiger Alternativtest f¨ ur H0: μ = μ0 • Falls |T (x)| > λ1− α2 , wird H0 ausgeschlossen bzw. Antwort A1 gegeben. ur richtig erkl¨art bzw. Antwort A2 gege• Falls |T (x)| ≤ λ1− α2 , wird H0 f¨ ben. Wir konzentrieren uns darauf, das Risiko 2.Art β zu berechnen. Dazu ist es vorteilhaft, die G¨ utefunktion bzw. die Operationscharakteristik einzuf¨ uhren: G¨ utefunktion G(μ) = Wahrscheinlichkeit, die Hypothese H0 auszuschließen, wenn der tats¨ achliche Erwartungswert μ betr¨agt. = P (Antwort A1| μ). (17.2) Operationscharakterisitk L(μ) = Wahrscheinlichkeit, die Hypothese H0 f¨ ur richtig zu (17.3) erkl¨ aren, wenn der tats¨ achliche Erwartungswert μ betr¨ agt. = P (Antwort A2| μ). Es gilt: G(μ) = 1 − L(μ).
(17.4)
Mit der G¨ utefunktion kann man die Risiken erster und zweiter Art ausdr¨ ucken: α = G(μ0 ), β(μ) = 1 − G(μ),
wobei μ = μ0 ist.
(17.5) (17.6)
Um eine Formel f¨ ur die G¨ utefunktion G(μ) herzuleiten, machen wir von der Eigenschaft Gebrauch, dass die Testgr¨ oße T (x) wegen der auf Seite 300 getroffenen Voraussetzungen normalverteilt ist. Wenn die Zufallsvariable X der
17.1 Alternativtest f¨ ur den Erwartungswert bei bekannter Varianz
355
Grundgesamtheit den Erwartungswert μ besitzt, ergibt sich f¨ ur T (x): μ − μ0 √ T (x) ∼ N n; 1 . (17.7) σ Dies kann man analog zu (15.8) beweisen. F¨ ur die G¨ utefunktion erhalten wir dann mit λ = λ1− α2 : G(μ)
= = = (10.13)
=
=
P (Antwort A1| μ) = P (|T (x)| > λ) P (T (x) < −λ) + P (T (x) > λ) P (T (x) < −λ) + 1 − P (T (x) ≤ λ) √ √ 0 0 λ − μ−μ −λ − μ−μ n n σ σ + 1− Φ Φ 1 1 √ √ n n + 1 − Φ λ − (μ − μ0 ) . (17.8) Φ −λ − (μ − μ0 ) σ σ
Setzen wir μ = μ0 , k¨ onnen wir (17.5) best¨ atigen: G(μ0 ) = Φ (−λ) + 1 − Φ (λ) = 1 − Φ (λ) + 1 − Φ (λ) α = 2 − 2 · Φ λ1− α2 = 2 − 2 · 1 − 2 = α.
(17.9)
Das Risiko 2.Art ist mit Hilfe der G¨ utefunktion in Abh¨angigkeit von der tats¨ achlichen Lage des Erwartungswertes μ gem¨aß (17.6) berechenbar: β(μ) = 1 − G(μ) √ √ n n + 1 − Φ λ − (μ − μ0 ) = 1 − Φ −λ − (μ − μ0 ) σ σ √ √ n n − Φ −λ − (μ − μ0 ) . (17.10) = Φ λ − (μ − μ0 ) σ σ Beispiel (Prozesskontrolle). Wir betrachten einen Produktionsprozess, bei dem die Qualit¨ at jedes St¨ uckes i durch eine eigene Zufallsvariable Xi beschrieben wird. Der Sollwert der Qualit¨ atsmerkmals ist mit μ0 vorgegeben. Es wird unterstellt, dass die Variablen Xi unabh¨angig und identisch normalverteilt sind: (17.11) Xi ∼ N μ; σ 2 . Es soll u uft werden, ob der tats¨ achliche Erwartungswert μ (Pro¨berpr¨ zessmittel) mit dem Sollwert μ0 u ¨bereinstimmt. Dazu ziehen wir aus der laufenden Produktion n St¨ ucke und f¨ uhren einen Alternativtest zur Nullhypothese (17.12) H0: μ = μ0
356
17 Alternativtests
durch. Spricht sich der Test f¨ ur H0 aus (Antwort A2), so wird nichts unternommen, und wir lassen die Produktion weiterlaufen. Dies w¨are eine Fehler, n¨ amlich der Fehler zweiter Art, wenn der Prozess dejustiert ist, d.h. μ = μ0 gilt, und somit der Sollwert im Schnitt nicht eingehalten wird. Eine unn¨ otig hohe Ausschussquote des Prozesses w¨are die Folge. Spricht sich der Test gegen H0 aus (Antwort A1), so wird ein “Alarm“ gegeben, und wir leiten Maßnahmen ein, die eine Neueinstellung des Prozesses zum Ziel haben. Dies w¨ are eine Fehler, n¨amlich der Fehler erster Art, wenn der Prozess nicht dejustiert ist, d.h. μ = μ0 gilt, und der Sollwert im Schnitt eingehalten wird. Der Alarm entspricht dann einem Fehlalarm und w¨ urde unn¨ otige Maßnahmen und somit unn¨otige Kosten verursachen. Wir konkretisieren das Beispiel: Gisela soll eine Bierflaschenabf¨ ullanlage u ullmenge einer Flasche in Milli¨berwachen, bei der das Merkmal X die F¨ liter darstellt, welche aufgrund der Schaumbildung eine bekannte Varianz von σ 2 = 3 [ml2 ] besitzt. Der Sollwert μ0 betr¨agt 500 [ml]. Gisela m¨ ochte das Risiko f¨ ur einen Fehlalarm α auf 10% beschr¨anken. Daher erh¨ alt sie als Testschranke = λ0.95 = 1.645. λ1− α2 = λ1− 0.10 2
(17.13)
Sie zieht n = 5 St¨ ucke, berechnet gem¨ aß (17.1) die Testgr¨oße T (x) und gibt Alarm, falls T (x) < −1.645 oder T (x) > 1.645 gilt. Die G¨ utefunktion entspricht der Wahrscheinlichkeit einen Alarm zu geben und berechnet sich gem¨ aß (17.8): √ √ 5 5 + 1 − Φ 1.645 − (μ − 500) √ . G(μ) = Φ −1.645 − (μ − 500) √ 3 3 Der Graph dieser Funktion 1
G(m)
b(m)
0.1
497
a
499 500 501
503
m
zeigt, dass man bei μ = 500 mit einer Wahrscheinlichkeit von α = 0.10 Alarm gibt. Liegt das Prozessmittel beispielsweise bei μ = 501, so wird mit einer Wahrscheinlichkeit von G(501) = 0.363 Alarm gegeben. Das Risiko 2.Art betr¨ agt daher
17.1 Alternativtest f¨ ur den Erwartungswert bei bekannter Varianz
β(501) = 1 − G(501) = 0.637
357
(17.14)
keinen gerechtfertigten Alarm zu geben, obwohl die Maschine im Schnitt 501 [ml] pro Flasche abf¨ ullt. Man erkennt an der Skizze auch, dass bei einem dejustierten Prozess mit μ = 503 das Risiko β(503) verschwindend gering ist und der Alternativtest den misslichen Zustand fast sicher mit Alarm anzeigt. Liegt hingegen nur eine sehr kleine Dejustierung des Prozessmittels auf beispielsweise μ = 500.01 [ml] vor, gibt der Alternativtest mit einer Wahrscheinlichkeit von nur G(500.01) = 0.100028 Alarm, weshalb das Risiko 2.Art mit β(500.01) = 1 − G(500.01) = 0.899972
(17.15)
sehr groß ausf¨ allt. Es betr¨ agt fast 1 − α. Nun m¨ ochte Gisela das Risiko von α = 0.10 beibehalten, jedoch eine Verbesserung des Risikos β bei μ = 501 erreichen. Dies ist nur mit einem erh¨ ohten Pr¨ ufaufwand m¨ oglich. Sie beschließt, daher n = 50 St¨ ucke zu ziehen. Die G¨ utefunktion lautet nun √ √ 50 50 + 1 − Φ 1.645 − (μ − 500) √ G(μ) = Φ −1.645 − (μ − 500) √ 3 3 und zeigt um μ = 500 einen steileren Verlauf als zuvor: 1
G(m)
0.1 497
a
499 500 501
503
m
Das Risiko 2.Art bei μ = 501 betr¨ agt diesmal nur noch β(501) = 1 − G(501) = 0.007.
(17.16)
Einseitiger Test f¨ ur H0: μ < μ0 Wir benutzen die gleiche Testgr¨ oße T (x) und wenden folgende Entscheidungsregel an: • Falls T (x) ≥ λ1−α , wird H0 ausgeschlossen bzw. Antwort A1 gegeben. ur richtig erkl¨art bzw. Antwort A2 gegeben. • Falls T (x) < λ1−α , wird H0 f¨
358
17 Alternativtests
Analog zum zweiseitigen Fall kann man auch hier die Risiken erster und zweiter Art mit der G¨ utefunktion ausdr¨ ucken: α(μ) = P (Antwort A1| μ) = G(μ), β(μ) = P (Antwort A2| μ) = 1 − G(μ),
f¨ ur μ ≤ μ0 , f¨ ur μ > μ0 .
(17.17) (17.18)
Die Formel zur G¨ utefunktion erh¨ alt man mit λ = λ1−α auf a¨hnliche Weise wie oben: G(μ)
= (10.13)
=
=
P (Antwort A1| μ) = P (T (x) ≥ λ) = 1 − P (T (x) < λ) √ 0 n λ − μ−μ σ 1− Φ 1 √ n . 1 − Φ λ − (μ − μ0 ) σ
(17.19)
Speziell f¨ ur μ = μ0 gilt: G(μ0 ) = 1 − Φ (λ) = 1 − Φ (λ1−α ) = 1 − (1 − α) = α.
(17.20)
Da man zeigen kann, dass die G¨ utefunktion G(μ) bez¨ uglich μ streng monoton steigt, folgt daraus f¨ ur (17.17) und (17.18): α(μ) = G(μ)
≤ G(μ0 )
= α, β(μ) = 1 − G(μ) < 1 − G(μ0 ) = 1 − α,
f¨ ur μ ≤ μ0 , f¨ ur μ > μ0 .
(17.21) (17.22)
Der vom Anwender vorgegebene Wert α ist demnach als obere Schranke f¨ ur das Risiko 1.Art α(μ) aufzufassen, welches nicht konstant ist, sondern von μ abh¨ angt. Beispiel (Fortsetzung). Wir betrachten nochmals den Produktionsprozess, bei dem die Qualit¨ at jedes St¨ uckes i durch eine eigene Zufallsvariable Xi beschrieben wird. Diesmal aber strebt man an, dass der tats¨achliche Erwartungswert μ (Prozessmittel) einen vorgegebenen Sollwert μ0 nicht u ¨berschreitet. Zur Kontrolle ziehen wir aus der laufenden Produktion n St¨ ucke und f¨ uhren einen Alternativtest zur Nullhypothese H0: μ ≤ μ0
(17.23)
durch. Bei der Bierflaschenabf¨ ullanlage seien nach wie vor die Varianz σ 2 = 3 2 [ml ] und der Sollwert μ0 = 500 [ml]. Wieder m¨ochte Gisela das Risiko f¨ ur einen Fehlalarm auf maximal α = 10% beschr¨anken. Sie erh¨alt als Testschranke (17.24) λ1−α = λ0.90 = 1.282.
17.1 Alternativtest f¨ ur den Erwartungswert bei bekannter Varianz
359
Es werden n = 5 St¨ ucke gezogen, die Testgr¨oße T (x) gem¨aß (17.1) berechnet und Alarm gegeben, falls T (x) ≥ 1.282 gilt. Die G¨ utefunktion entspricht der Wahrscheinlichkeit einen Alarm zu geben und berechnet sich gem¨ aß (17.19): √ 5 (17.25) G(μ) = 1 − Φ 1.282 − (μ − 500) √ 3 Der Graph dieser Funktion ist streng monoton steigend und liegt f¨ ur μ ≤ μ0 = 500 unter α = 10%. Dies best¨ atigt (17.21). 1
b(m)
a(m) 497
G(m)
0.1
499 500 501
503
m
Man erkennt, dass die Wahrscheinlichkeit f¨ ur einen Fehlalarm um so geringer ist, je “richtiger“ die Nullhypothese ist bzw. je weiter μ unter μ0 liegt. Beispielsweise gilt α(499) = G(499) = 0.005.
(17.26)
Je “falscher“ die Nullhypothese ist, bzw. je h¨oher μ u ¨ber μ0 liegt, desto gr¨ oßer die Wahrscheinlichkeit f¨ ur einen Alarm, und desto geringer die Wahrscheinlichkeit f¨ ur einen unterlassenen, aber berechtigten Alarm. Entsprechend nimmt das Risiko 2.Art β(μ) ab. Beispielsweise gilt β(500.01) = 1 − G(500.01) = 0.8978, β(501) = 1 − G(501) = 0.496. Liegt nur eine sehr kleine Dejustierung auf μ = 500.01 [ml] vor, nimmt das Risiko 2.Art einen sehr hohen Wert an, der fast bei 1 − α liegt. Nun m¨ ochte Gisela das Risiko von α = 0.10 bei μ = 500 beibehalten, ansonsten aber die Risiken verbessern. Dazu erh¨oht sie den Pr¨ ufaufwand und zieht n = 50 St¨ ucke. Die G¨ utefunktion lautet nun √ 50 G(μ) = 1 − Φ 1.282 − (μ − 500) √ 3 und zeigt einen steileren Verlauf als zuvor:
360
17 Alternativtests 1
G(m)
0.1 497
499 500 501
m
503
Die oben exemplarisch angef¨ uhrten Risiken erster und zweiter Art verbessern sich: α(499) = G(499) = 0.00000004, β(500.01) = 1 − G(501.01) = 0.8927, β(501) = 1 − G(501) = 0.00255. Einseitiger Test f¨ ur H0: μ > μ0 Es ergeben sich im Wesentlichen die gleichen Ergebnisse wie im letzten Fall. Die Entscheidungsregel lautet: • Falls T (x) ≤ −λ1−α , wird H0 ausgeschlossen bzw. Antwort A1 gegeben. • Falls T (x) > −λ1−α , wird H0 f¨ ur richtig erkl¨art bzw. Antwort A2 gegeben. Es gilt α(μ) = P (Antwort A1| μ) = G(μ), β(μ) = P (Antwort A2| μ) = 1 − G(μ), Die Formel zur G¨ utefunktion lautet mit λ = λ1−α : √ n . G(μ) = Φ −λ − (μ − μ0 ) σ
f¨ u r μ ≥ μ0 , f¨ ur μ < μ0 .
(17.27) (17.28)
(17.29)
Beispiel (Fortsetzung). Gisela zieht zur Kontrolle aus der laufenden Produktion n = 5 St¨ ucke und f¨ uhrt einen Alternativtest zur Nullhypothese H0: μ ≥ 500
(17.30)
utefunktion: durch. Mit dem Quantil λ1−α = λ0.90 = 1.282 lautet die G¨ √ 5 . (17.31) G(μ) = Φ −1.282 − (μ − 500) √ 3 Der Graph dieser Funktion ist streng monoton fallend und liegt f¨ ur μ > μ0 = 500 unter α = 10%.
17.2 Annahme- und Endkontrolle (Acceptance Sampling)
361
1
G(m)
b(m)
0.1 497
a(m)
499 500 501
503
m
17.2 Annahme- und Endkontrolle (Acceptance Sampling) Wir betrachten eine konkret gegebene Warenpartie bzw. ein Los mit N St¨ ucken, von denen M St¨ ucke defekt sind. Die Ausschussquote des Loses betr¨ agt daher M = Ausschussquote in der Partie. (17.32) p= N Der Anwender kennt nicht den Wert M bzw. die Ausschussquote p. Befinden wir uns in der Rolle des Produzenten oder Lieferanten, so m¨ ussen wir durch eine “Endkontrolle“ entscheiden, ob wir die Warenpartie zum Verkauf frei geben. Befinden wir uns in der Rolle des Abnehmers oder Kunden, so m¨ ussen wir durch eine “Annahmekontrolle“ entscheiden, ob wir die Warenpartie annehmen. Mathematisch gesehen kann man beide Situationen mit einem Alternativtest als Kontrollverfahren behandeln. In der Qualit¨atskontrolle ist es u ufpl¨ane“ (sampling plans) ¨blich, den Alternativtest durch sogenannte “Pr¨ zu beschreiben. Pr¨ ufplan (n, c): Es wird auf rein zuf¨ allige Weise eine Stichprobe vom Umfang n gezogen. Dabei wird das Ziehungsverfahren “Ziehen ohne Zur¨ ucklegen“ praktiziert. Werden in dieser Stichprobe h¨ ochstens c defekte St¨ ucke gefunden, dann wird das komplette Los angenommen, ansonsten abgelehnt. Der Parameter c heißt Annahmezahl. Bezeichnen wir mit Y = Anzahl der defekten St¨ ucke in der Stichprobe, so lautet die Testvorschrift bzw. Entscheidungsregel: • Falls Y ≤ c, wird das Los angenommen. • Falls Y > c, wird das Los abgelehnt.
(17.33)
362
17 Alternativtests
Aus dem in Kapitel 10.4 besprochenen Urnenmodell folgt, dass Y eine Zufallsvariable ist, die eine hypergeometrische Verteilung besitzt: Y ∼ H(N, M, n).
(17.34)
Statt wie bisher eine Nullhypothese zu formulieren, wollen wir uns auf die Handlungsalternativen “Annehmen“ oder “Ablehnen“ des Loses konzentrieren. Der Fehler 1.Art ergibt sich, wenn das Los abgelehnt wird, jedoch die Qualit¨ at bzw. die Ausschussquote p akzeptabel ist. Der Fehler 2.Art ergibt sich, wenn das Los angenommen bzw. freigegeben wird, obwohl die Qualit¨at bzw. die Ausschussquote p unakzeptabel ist. Entsprechend ergeben sich die Risiken erster und zweiter Art: α(p) = Risiko 1.Art = Wahrscheinlichkeit, dass ein Los abgelehnt wird, obwohl man die tats¨achlich vorliegende Ausschussquote p tolerieren wollte.
(17.35)
β(p) = Risiko 2.Art = Wahrscheinlichkeit, dass ein Los angenommen wird, obwohl man die tats¨ achlich vorliegende Ausschussquote p nicht tolerieren wollte.
(17.36)
Um leichter zu sehen, wie sich die Wahl eines Pr¨ ufplans (n, c) auf diese Risiken auswirkt, k¨ onnte man wie im vorherigen Unterkapitel die G¨ utefunktion benutzen. In der Qualit¨ atskontrolle ist es aber u ¨blich, stattdessen die Operationscharakteristik zu gebrauchen. Diese Vorgehensweise ist wegen (17.4) gleichwertig. Analog zu (17.3) definieren wir: L(p) = P (Los wird angenommen |p) = Wahrscheinlichkeit, ein Los aufgrund einer Stichprobe anzunehmen, wenn die tats¨ achliche Ausschussquote des Loses p betr¨agt. = Operationscharakteristik. F¨ ur die Risiken erster und zweiter Art (17.35) und (17.36) erhalten wir dann α(p) = 1 − L(p), β(p) = L(p). Die Formel zur Operationscharakteristik ergibt sich gem¨aß (10.40) als kumulierte hypergeometrische Verteilung:
L(p) = P (Los wird angenommen | p) = P (Y ≤ c | p) M N −M c k = Nn−k k=0
n
(17.37)
17.2 Annahme- und Endkontrolle (Acceptance Sampling)
363
Da die Operationscharakteristik auch von der Wahl des Pr¨ ufplans (n, c) abh¨ angt, werden wir sie, wenn notwendig, gelegentlich auch mit L(p, n, c) notieren. Da die Anzahl der defekten St¨ ucke M im Los ganzzahlig ist, ergeben sich wegen p = M/N nur bestimmte diskrete Werte f¨ ur die Ausschussquote p. Daher ist die Funktion L(p) keine durchgezogene Linie, sondern “gepunktet“. Beispiel (Gl¨ uhbirnen). J¨ urgen bekommt eine Warenpartie bzw. ein Los mit insgesamt N = 120 Gl¨ uhbirnen geliefert, von denen M Birnen defekt sind. Den Wert zu M kennt er nicht. J¨ urgen zieht ohne Zur¨ ucklegen n = 10 St¨ ucke und wendet den Pr¨ ufplan (n, c) = (10, 2) an, d.h. er akzeptiert das komplette Los, wenn er bis zu 2 defekte Birnen in der Stichprobe vorfindet. Die Operationscharakteristik berechnet er gem¨ aß (17.37) M 120−M M 120−M M 120−M 10−0 120
0
L(p) = L(p, 10, 2) =
+
1
10
10−1 120
+
2
10
10−2 120 10
M f¨ ur jede denkbare Ausschussquote p = M N = 120 mit M = 0, 1, . . . 120, die im Los vorliegen k¨ onnte. Beispielsweise erh¨alt er f¨ ur den Fall, dass im Los M = 24 defekte Birnen liegen bzw. die Ausschussquote p = 0.20 betr¨agt, eine Annahmewahrscheinlichkeit von 24120−24 24120−24 24120−24
L(0.20) =
0
10−0 120
+
1
10
10−1 120 10
+
2
10−2 120
= 0.681.
10
Dieser Wert entspricht im Graph der Operationscharakteristik L(p) dem Punkt, der an der Stelle p = 0.20 zu finden ist. Lp 1 0.8 0.6 0.4 0.2
n,c10,2
p 0.2
0.4
0.6
0.8
1
Insgesamt zeigt die Operationscharakterisitk einen monoton fallenden Verlauf. Wird eine Ausschussquote von p = 0 geliefert, nimmt J¨ urgen mit 100% Sicherheit das Los an. Bei p = 1 nimmt er mit 0% Wahrscheinlichkeit an, bzw. lehnt mit 100% Sicherheit ab. Angenommen, J¨ urgen wollte bei einer Ausschussquote von p = 0.20 das Los noch annehmen, so besteht f¨ ur diesen Fall ein Risiko 1.Art von α(0.20) = 1 − L(0.20) = 1 − 0.681 = 31.9%.
364
17 Alternativtests
Angenommen, J¨ urgen wollte bei einer Ausschussquote von p = 0.20 das Los nicht annehmen, so besteht f¨ ur diesen Fall ein Risiko 2.Art von β(0.20) = L(0.20) = 68.1%. Die Wahl des Pr¨ ufplans (n, c) beeinflusst die Kr¨ ummung und Steilheit der Operationscharakteristik L(p). •
Erh¨ oht man nur die Annahmezahl c, so steigt auch die Wahrscheinlichkeit, das Los anzunehmen. Die Operationscharakteristik liegt dann generell h¨ oher. • Erh¨ oht man nur den Stichprobenumfang n, so wird eine Annahme des Loses unwahrscheinlicher, und die Operationscharakteristik liegt generell niedriger. • Erh¨ oht man n und c, so dass allerdings die in der Stichprobe noch tolerierte andert bleibt, nimmt die Operationscharakteristik Ausschussquote nc unver¨ L(p) einen steileren Verlauf an. Beispiel (Fortsetzung). Nach wie vor sind von den insgesamt N = 120 Gl¨ uhbirnen M Birnen defekt. J¨ urgen wendet verschiedene Pr¨ ufpl¨ane an und zeichnet jeweils den zugeh¨ origen Graphen der Operationscharakteristik. Der Vergleich der Pr¨ ufpl¨ ane (n, c) = (8, 0) und (n, c) = (8, 3) zeigt, dass im ersten Fall die Annahmewahrscheinlichkeit f¨ ur das Los generell niedriger liegt. L(p) 1
(n, c) = (8, 3)
0.8 0.6 0.4 0.2
(n, c) = (8, 0) p 0.2
0.4
0.6
0.8
1
Nun ¨ andert J¨ urgen den Stichprobenumfang n bei gleichbleibender Annahmezahl, indem er die Pr¨ ufpl¨ ane (n, c) = (8, 3) und (n, c) = (16, 3) vergleicht. Im ersten Fall liegt die Annahmewahrscheinlichkeit f¨ ur das Los generell h¨ oher.
17.2 Annahme- und Endkontrolle (Acceptance Sampling)
365
L(p) 1 0.8
(n, c) = (8, 3)
0.6 0.4 0.2
(n, c) = (16, 3) p 0.2
0.4
0.6
0.8
1
Der Unterschied erkl¨ art sich auch damit, dass beim Pr¨ ufplan (n, c) = 3 (16, 3) die in der Stichprobe noch tolerierte Ausschussquote mit nc = 16 c 3 niedriger ist, als beim Pr¨ ufplan (n, c) = (8, 3) mit n = 8 . Schließlich vergleicht J¨ urgen noch die Pr¨ ufpl¨ane (n, c) = (8, 3) und (n, c) = (16, 6), bei denen das Verh¨ altnis nc beidemal gleich ist. L(p) 1 0.8 0.6
(n, c) = (8, 3)
0.4
(n, c) = (16, 6)
0.2
p 0.2
0.4
0.6
0.8
1
Der Pr¨ ufplan, bei dem man einen h¨ oheren Pr¨ ufaufwand betreibt, besitzt die “steilere“ Operationscharakteristik. Indem er bei guten Losen (p klein) eine h¨ ohere, bei schlechten Losen (p groß) eine niedrigere Annahmewahrscheinlichkeit besitzt, ist er “trennsch¨ arfer“. Bei der Wahl eines Pr¨ ufplans (n, c) besteht das Problem, einen sowohl f¨ ur den Lieferanten, als auch f¨ ur den Konsumenten gleichermaßen geeigneten Pr¨ ufplan zu finden. W¨ ahlt man einen scharfen, “ablehnfreudigen“ Pr¨ ufplan, ist das Risiko 1.Art hoch, und der Lieferant muss unn¨ otig oft eine Warenpartie zur¨ ucknehmen. Wird hingegen ein weniger scharfer, “annahmefreudiger“ Pr¨ ufplan eingesetzt, besteht f¨ ur den Konsumenten die Gefahr bzw. ein hohes Risiko 2.Art, leichtfertig schlechte Warenpartien zu akzeptieren. In der Praxis ist es u atzlichen Interessen mit Pr¨ ufpl¨anen zu ¨blich, diese gegens¨ balancieren, die mit Hilfe bestimmter, anerkannter Standards (z.B. ISO 2859) ermittelt, und zwischen den Gesch¨ aftspartnern vertraglich vereinbart werden. Allerdings beruhen diese Verfahren zum Teil auf unklar definierten Kenngr¨oßen. Zudem bleibt offen, wie man die Werte zu diesen Kenngr¨oßen sinnvoll festlegen sollte. Der Anwender vertraut dabei oft auf gewisse “Standards“. Einen andereren Ansatz, der zu einer vern¨ unftigen Wahl eines Pr¨ ufplans (n, c) verhelfen soll, besprechen wir im n¨ achsten Unterkapitel. Abschließend wollen wir noch eine mathematische Hilfestellung zur Berechnung der Operationscharakteristik L(p) geben. Da gem¨aß (17.37) die Berech-
366
17 Alternativtests
nung n¨ amlich sehr rechenintensiv ist, benutzt man anstelle der Hypergeometrischen Verteilung gelegentlich auch eine Approximation, welche auf der etwas rechenfreundlicheren Poisson-Verteilung beruht: L(p) ≈
c (np)k k=0
k!
e−np ,
falls n ≤ 0.10 · N und p < 0.10.
(17.38)
Der Graph dieser Funktion muss nicht mehr gepunktet gezeichnet werden, sondern kann als eine stetige, durchgezogene Kurve dargestellt werden.
17.3 Kostenoptimales Acceptance Sampling ¨ In der Okonomie gilt das Erwirtschaften von Gewinnen als ein fast selbstverst¨ andliches Ziel. Daher ist es naheliegend, auch bei den Verfahren der statistischen Qualit¨ atskontrolle die Konsequenzen, die sich aus richtigen und falschen Entscheidungen ergeben, ¨ okonomisch zu bewerten. Diese Idee liegt den “kostenoptimalen“ Pr¨ ufpl¨ anen zu Grunde. Wir setzen uns zum Ziel, den Gewinn zu maximieren. Wegen Gewinn = −Verlust = Erl¨os − Kosten, Verlust = −Gewinn = Kosten − Erl¨os kann man dieses Ziel auch dadurch erreichen, dass man den Verlust minimiert. Ein optimaler, negativer Verlust von beispielsweise -20000 [e] w¨are mit einem maximal erreichbaren Gewinn von 20000 [e] gleichbedeutend. oßer sollte Je gr¨ oßer die Ausschussquote p = M N der Warenpartie ist, desto gr¨ der Verlust bei Annahme des Loses sein. Unser Modell sieht vor, dass dieser Sachverhalt durch eine lineare Funktion beschrieben werden kann: mit a1 > 0, va (p) = a0 + a1 · p, = Verlust, wenn ein Los mit Ausschussquote p angenommen (accept) wird.
(17.39)
Umgekehrt verringert sich bei Ablehnung einer Warenpartie der Verlust je gr¨ oßer die Ausschussquote p ist. Wir unterstellen auch hierf¨ ur eine lineare Beziehung: mit r1 < 0, vr (p) = r0 + r1 · p = Verlust, wenn ein Los mit Ausschussquote p abgelehnt (reject) wird.
(17.40)
Neben den Parametern a0 , a1 , r0 , r1 setzen wir schließlich noch die Pr¨ ufkosten pro St¨ uck als bekannt voraus: ufkosten pro St¨ uck. cp = Pr¨
(17.41)
17.3 Kostenoptimales Acceptance Sampling
367
Ein Pr¨ ufplan (n, c) verursacht daher Pr¨ ufkosten von n · cp . Fixe Pr¨ ufkosten zu ber¨ ucksichtigen, ist nicht notwendig, da sie bei jedem Pr¨ ufplan gleichermaßen anfallen w¨ urden. Beispiel (Schraubenkiste). Rosa arbeitet bei einem Flugzeugbauer im Einkauf. Es werden N = 4000 Schrauben in einer Kiste angeliefert. Wird eine schlechte Schraube weiterverarbeitet, so entstehen Kosten von 6 [e/Stk]. Wird eine gute Schraube weiterverarbeitet, so liegt der St¨ uckgewinn bei 1.50 [e/Stk]. Eine gute, dem Lieferanten zur¨ uckgeschickte Schraube verursacht dem Flugzeugbauer Kosten von 0.40 [e/Stk], wohingegen bei einer schlechten, zur¨ uckgeschickten Schraube Schadensersatz in H¨ohe von 9.60 [e/Stk] an den Flugzeugbauer gezahlt wird. Die Kosten zur Pr¨ ufung eines St¨ uckes betragen cp = 22 [e/Stk]. Rosa ermittelt aufgrund dieser Angaben die Funktionen va (p) und vr (p): Werden M = p · N = p · 4000 schlechte St¨ ucke geliefert, so ergibt sich ein Verlust bei - Annahme des Loses von va (p) = M · 6 + (4000 − M ) · (−1.50) = −6000 + 7.5M = −6000 + 30000p, -
Ablehnung des Loses von vr (p) = M · (−9.60) + (4000 − M ) · 0.40 = 1600 − 10M = 1600 − 40000p.
Somit gilt f¨ ur die Parameter in (17.39) und (17.40): a0 = −6000, a1 = 30000,
r0 = 1600, r1 = −40000.
Verlust 24000
1600 6000
38400
(17.42)
va p
0.2
0.4
0.6
0.8
1
p
vr p
Realistischer Weise kennt der Anwender die Ausschussquote p des Loses nicht. Angenommen aber, er k¨ onnte quasi kostenlos den Wert von p u ¨ber eine Art “Hotline zum Allwissenden“ erfragen, so d¨ urfte die Entscheidung, ob eine Annahme oder Ablehnung sinnvoll ist, leicht fallen.
368
17 Alternativtests
Gilt n¨ amlich va (p) < vr (p), so ist der Verlust bei Annahme des Loses kleiner als bei Ablehnung. Folglich ist dann die Annahme des Loses die ¨okonomisch sinnvolle Entscheidung. Gilt va (p) > vr (p), ist die Ablehnung des are es egal, wie man sich entscheidet, Loses sinnvoll. Bei va (p) = vr (p), w¨ da der Verlust beidemal gleich ist. Die Ausschussquote, bei der dies der Fall ist, wollen wir Trennqualit¨ at p0 nennen. Sie l¨asst sich durch Aufl¨osen von a0 + a1 p0 = r0 + r1 p0 nach p0 berechnen: p0 =
a0 − r0 . r1 − a1
(17.43)
Damit erhalten wir eine optimale Entscheidungsregel, die uns zwar den geringst m¨ oglichen Verlust bereitet, jedoch die kostenlose Kenntnis von p voraussetzt. p0 Annehmen
Ablehnen
p 1
0
Der geringste Verlust ergibt sich aus dem jeweils kleineren Wert von va (p) und vr (p): va (p) falls p ≤ p0 (17.44) vg (p) = vr (p) falls p ≥ p0 . = Verlust, der auftritt, wenn man ein Los mit Ausschussquote p geliefert bekommt, wenn man p kostenlos kennt, und wenn man die bestm¨ ogliche Entscheidung trifft. Beispiel (Fortsetzung). Rosa berechnet gem¨aß (17.43) die Trennqualit¨at: p0 =
a0 − r0 −6000 − 1600 = 0.108571. = r1 − a1 −40000 − 30000
(17.45)
Wendet sie die obige Entscheidungsregel bei Kenntnis von p an, erh¨alt sie den geringsten Verlust va (p) = −6000 + 30000p falls p ≤ p0 = 0.108571, vg (p) = vr (p) = 1600 − 40000p falls p ≥ p0 = 0.108571. auft durchweg im negativen Bereich, d.h. Rosa Der Graph von vg (p) verl¨ w¨ urde bei Kenntnis von p positiven Gewinn erzielen.
17.3 Kostenoptimales Acceptance Sampling
369
Verlust 24000
1600 6000
p0
1
p
vg p 38400
Man erkennt auch, dass eine Ausschussquote von p = p0 den gr¨oßten Verlust bereitet, wohingegen eine komplett schlechte Warenpartie mit p = 1 aufgrund der Entsch¨ adigungszahlungen einen Verlust von -38400 [e] bzw. einen Gewinn von 38400 [e] erbringt. Leider ist es in der Praxis unm¨ oglich, mit einer “Hotline zum Allwissenden“ kostenlos den tats¨ achlichen Wert von p zu erfragen. Stattdessen aber k¨onnen wir einen Pr¨ ufplan (n, c) anwenden. Wie im letzten Unterkapitel dargestellt, wird dann ein Los mit Ausschussquote p mit einer bestimmten Wahrscheinlichkeit angenommen oder ablehnt. Daher besteht nun das Risiko, im Einzelfall nicht die optimale Entscheidung zu treffen und einen Verlust herbeizuf¨ uhren, der u ¨ber dem geringsten Verlust vg (p) liegt. Zus¨atzlich erh¨ohen unabh¨angig von der getroffenen Entscheidung die Pr¨ ufkosten cp · n den Verlust. Um insgesamt die Erh¨ ohung des Verlustes durch die Verwendung eines Pr¨ ufplans (n, c) anstelle der “Hotline zum Allwissenden“ bemessen zu k¨onnen, wollen wir eine Durchschnittsbetrachtung durchf¨ uhren, d.h. den erwarteten Verlust berechnen. Eine Einzelfallbetrachtung w¨are nicht m¨oglich und sinnvoll. ⎡ ⎤ Verlust, der bei einem Los mit Ausschussquote p vs (p, n, c) = E ⎣auftritt, wenn aufgrund einer Stichprobe bzw. des⎦ Pr¨ ufplans (n, c) entschieden wird. =
va (p) · P (Los annehmen| p) + vr (p) · P (Los ablehnen| p) + Pr¨ ufkosten
= va (p) · L(p, n, c) + vr (p) · (1 − L(p, n, c)) + cp · n.
(17.46)
Die Operationscharakteristik L(p, n, c) ist dabei gem¨aß (17.37) zu berechnen. Beispiel (Fortsetzung). Rosa m¨ ochte einen eher “annahmefreudigen“ Pr¨ ufplan (n, c) = (50, 20) mit einem eher “ablehnfreudigen“ Pr¨ ufplan (n, c) = (50, 1) vergleichen. Dazu zeichnet sie jeweils den Graphen des erwarteten Verlustes vs (p, n, c).
370
17 Alternativtests
Verlust 1600 6000
Verlust
p0
vs p,50,20
1
p
1600 6000
vs p,50,1
1
p
vg p
vg p
38400
p0
38400
(n, c) = (50, 20)
(n, c) = (50, 1)
Man erkennt, dass der annahmefreudige Pr¨ ufplan (linkes Bild) bei kleinen Ausschussquoten p < p0 einen erwarteten Verlust vs (p, 50, 20) aufweist, der fast so niedrig wie der geringste Verlust vg (p) ist. Der Unterschied zwischen vs (p, 50, 20) und vg (p) ergibt sich im Wesentlichen durch die Pr¨ ufkosten von 22 · 50 = 1100 [e]. Bei hohen Ausschussquoten p > p0 hingegen ist die Annahme des Loses eine Fehlentscheidung und mit hohen Kosten verbunden. Daher liegt hier der erwartete Verlust vs (p, 50, 20) deutlich u ¨ber vg (p). Der ablehnfreudige Pr¨ ufplan (n, c) = (50, 1) im rechten Bild zeigt das uhrt er zu Fehlentscheidungen und umgekehrte Verhalten. F¨ ur p < p0 f¨ erh¨ oht den erwarteten Verlust vs (p, 50, 1) deutlich u ¨ber vg (p). Bei p > p0 hingegen liegt der erwartete Verlust nur um etwa 1100 [e] u ¨ber dem geringsten Verlust vg (p). Rosa sieht, dass in beiden Bildern der erwartete Verlust vs (p, n, c) nirgends so niedrig ist wie der geringste Verlust vg (p). Jedoch liegt im rechten Bild die Kurve des erwarteten Verlusts vs (p, n, c) “dichter“ an der Kurve des geringsten Verlustes vg (p) als im linken Bild, was an dem weniger ausgebeulten Spalt zwischen den Kurven zu erkennen ist. Die “Beule“ tritt in den beiden Bildern jeweils an der Stelle bzw. Ausschussquote p auf, bei oßten ausf¨allt. Folglich w¨ urde der die Differenz vs (p, n, c) − vg (p) am gr¨ Rosa den Pr¨ ufplan (n, c) = (50, 1) dem Pr¨ ufplan (n, c) = (50, 20) vorziehen. So wie Rosa zwischen ihren beiden Pr¨ ufpl¨ anen den besseren Pr¨ ufplan bestimmt hat, wollen wir unter allen denkbaren Pr¨ ufpl¨anen den besten herausfinden. Dies ist der Pr¨ ufplan (n, c), bei dem die Kurve des erwarteten Verlustes oglichst knapp u vs (p, n, c) m¨ ¨ber der Kurve des geringsten Verlustes vg (p) liegt. Damit versuchen wir, mit dem Pr¨ ufplan (n, c) einen genauso geringen Verlust zu erreichen, wie bei einer optimalen Entscheidung m¨oglich w¨are, welche den exakten Wert zu p kostenlos zur Verf¨ ugung h¨ atte.
17.3 Kostenoptimales Acceptance Sampling
371
Der zus¨ atzliche Verlust, den man bei Anwendung des Pr¨ ufplans (n, c) im Gegensatz zur optimalen Entscheidung erleidet, entspricht der Differenz R(p, n, c) = vs (p, n, c) − vg (p),
(17.47)
welche man auch als Regret bezeichnet. Er entspricht dem Abstand zwischen den beiden Kurven vs (p, n, c) und vg (p) an einer Stelle p. Der maximale Abstand zwischen den Kurven kommt einem “worst case“ gleich und berechnet sich als maximaler Regret u oglichen Ausschussquoten 0 ≤ p ≤ 1: ¨ber alle m¨ Rmax (n, c) = max R(p, n, c). 0≤p≤1
(17.48)
Auch wenn wir nicht wissen, welche Ausschussquote p im Los konkret vorliegt, so sind wir uns dennoch sicher, dass der zus¨ atzliche Verlust bzw. Regret im Schnitt nie gr¨ oßer ausfallen kann, als der maximale Regret Rmax (n, c). Der gesuchte kostenoptimale Pr¨ ufplan (n, c) soll derjenige sein, bei dem wir uns gegen den “worst case“ bzw. den maximalen Regret am besten absichern k¨ onnen. Dazu gehen wir wie folgt vor: 1. Berechne zu einem gegebenen Pr¨ ufplan (n, c) das Maximum des Regrets R(p, n, c) bez¨ uglich aller m¨ oglichen Ausschussquoten 0 ≤ p ≤ 1: Rmax (n, c) = max R(p, n, c). 0≤p≤1
2. Wiederhole Schritt 1 f¨ ur alle Pr¨ ufpl¨ ane (n, c), d.h. f¨ ur alle Stichprobenumf¨ ange 1 ≤ n ≤ N mit den jeweils m¨oglichen Annahmezahlen 0 ≤ c ≤ n. Derjenige Pr¨ ufplan, welcher den geringsten, maximalen Regret aufweist, wird als optimaler bzw. kostenoptimaler Pr¨ ufplan (n∗ , c∗ ) ausgew¨ ahlt. Rmax (n, c) → min ! Der Schritt 1 ist ziemlich rechenintensiv, da unter anderem f¨ ur alle Ausschuss, M = 0, 1, . . . , N die Operationscharakteristik L(p, n, c) zu bequoten p = M N (N +1)(N +2) rechnen ist. Dies w¨ are gem¨ aß Schritt 2 f¨ ur insgesamt − 1 verschie2 dene Pr¨ ufpl¨ ane notwendig. Je nach Losgr¨ oße N kann dies zu einem immensen Rechenaufwand f¨ uhren. Als Alternative bietet sich ein N¨ aherungsverfahren an, das sich bereits mit einem Taschenrechner bew¨ altigen l¨ asst. Die mathematische Herleitung ist allerdings sehr trickreich, und kann bei Uhlmann [Uhl] oder Collani [Co1] nachgelesen werden. Hier geben wir nur das Resultat wieder:
372
17 Alternativtests
N¨ aherungsl¨ osung cp a1 −r1
Berechne d = Pr¨ ufplan mit
und die Trennqualit¨ at p0 =
3
0.193 · p0
c = Runde n = Runde
c + 0.5 p0
a0 −r0 r1 −a1 .
Dann ist der
p0 (1 − p0 ) − 0.5 , d2
(17.49) (17.50)
approximativ optimal, d.h. dieser Pr¨ ufplan liefert einen nahezu gleich geringen maximalen Regret wie der optimale Pr¨ ufplan (n∗ , c∗ ). Der Anwender muss zur Bestimmung eines approximativ kostenoptimalen Pr¨ ufplans lediglich die Werte der Parameter a0 , a1 , r0 , r1 , cp kennen. Das Problem, welche Werte f¨ ur die Risiken erster und zweiter Art sinnvoll sein k¨onnten, und bei welchen Ausschussquoten p sie zu definieren w¨aren, tritt bei diesem Verfahren nicht auf. Insofern ist es praxistauglich und vermutlich auch sinnvoller, als die u ¨blichen, vielerorts verwendeten Verfahren, welche beispielsweise durch den Standard ISO 2859 propagiert werden. Beispiel (Fortsetzung). Rosa kennt die Werte a0 = −6000, a1 = 30000,
r0 = 1600, r1 = −40000,
cp = 22
und hat damit bereits gem¨ aß (17.45) die Trennqualit¨at p0 = 0.108571 ermittelt. Mit d= berechnet sie
22 = 0.000314286 30000 − (−40000)
0.193 · p0
c = Runde
3
= Runde
p0 (1 − p0 ) − 0.5 d2
0.193 · 0.108571
3
0.108571(1 − 0.108571) − 0.5 0.0003142862
=2 und
n = Runde
c + 0.5 p0
= Runde
= 23. Daher w¨ ahlt sie den Pr¨ ufplan (n, c) = (23, 2).
2 + 0.5 0.108571
17.3 Kostenoptimales Acceptance Sampling
Verlust 1600 6000
373
Verlust
p0
vs p,23,2
1
p
1600 6000
vg p
p0
vs p,16,1
1
p
vg p
38400
38400
(n∗ , c∗ ) = (16, 1)
(n, c) = (23, 2)
Im linken Bild erkennt man, dass der Graph des erwarteten Verlustes vs (p, n, c) nur knapp u ¨ber dem geringsten Verlust vg (p) liegt, ganz gleich welcher Wert f¨ ur p tats¨ achlich vorliegen k¨ onnte. Wir haben uns noch etwas mehr M¨ uhe als Rosa gegeben und mit dem Computer den kostenoptimalen Pr¨ ufplan (n∗ , c∗ ) = (16, 1) bestimmt, dessen erwartete Verlustfunktion im rechten Bild zu sehen ist. Bei der Suche war der Pr¨ ufplan (n, c) = (23, 2) als Startwert sehr hilfreich. Zwar besitzen beide Pr¨ ufpl¨ ane verschiedene Stichprobenumf¨ange und Annahmezahlen, bez¨ uglich ihres Regrets gibt es allerdings auf den ersten Blick kaum einen Unterschied. In beiden Bildern scheint der Spalt zwischen den Kurven vs (p, n, c) und vg (p) gleich eng zu sein. W¨ urden wir mit der Lupe genauer nachsehen, k¨onnte man erkennen, dass der maximale Regret f¨ ur den Pr¨ ufplan (n, c) = (23, 2) Rmax (23, 2) = max R(p, 23, 2) = 1468.89 [e] 0≤p≤1
betr¨ agt und bei einer Ausschussquote von p = 0.16925 auftritt. Bei dem Pr¨ ufplan (n∗ , c∗ ) = (16, 1) ist dagegen der maximale Regret Rmax (16, 1) = max R(p, 16, 1) = 1292.0 [e] 0≤p≤1
etwas geringer und tritt bei einer Ausschussquote von p = 0.17875 auf.
A Anmerkungen zur Prozentrechnung
Das Prozentzeichen % ist eine abk¨ urzende Schreibweise f¨ ur die Division durch 100, kurz “% = 1/100“. Folgt einer Zahl z das Prozentzeichen, so stellt dies einen bestimmten numerischen Wert w dar, der sich gem¨aß w = z% =
z 100
(A.1)
berechnet. Bei einer dezimalen Darstellung der Zahl z erhalten wir w, indem das Komma um zwei Stellen nach links verschoben wird. Umgekehrt erh¨alt man aus w durch Verschiebung des Kommas um zwei Stellen nach rechts den Prozentsatz z%. Insofern k¨ onnte man jeden beliebigen Wert w auch in der Notation mit Prozentzeichen darstellen. Beispielsweise 456 = 45600%, -0.456 = -45.6%, 1 = 100% usw. Der Gebrauch von Prozenten ist in der Regel in den folgenden zwei Situationen u ¨blich: Fall 1, relative H¨ aufigkeiten: Bei Anteilen bzw. relative H¨aufigkeiten h(X ∈ A), wie im Kapitel 2 besprochen, gibt man gerne das Ergebnis in Prozent an. Der gr¨ oßte m¨ ogliche Wert 1 bzw. 100% tritt dann auf, wenn der Anteil der ganzen Grundgesamtheit entspricht. Daher ist in diesem Sinne der Spruch “ es gibt nicht mehr als 100%“ angebracht. Fall 2, Gr¨ oßenvergleiche: Hier sollen zwei in der Regel nicht negative Werte a, b verglichen werden, wobei man den einen Wert b quasi als Basiswert oder Bezugsgr¨ oße betrachtet. Von Interesse sind: a−b • = relativer Unterschied, (A.2) r= b der sich aus dem absoluten Unterschied a − b im Verh¨altnis zur Basisgr¨ oße b errechnet. Das Ergebnis wird bevorzugt in Prozenten im Sinne von (A.1) angegeben. a • = Verh¨ altnis von a zu b. (A.3) q= b
376
A Anmerkungen zur Prozentrechnung
Das Verh¨altnis q, kann als eine Art “Zoomfaktor“ betrachtet werden, um von der Basisgr¨ oße b nach a = q · b zu gelangen. In der Deskriptiven Statistik bezeichnet man q auch als Vergleichszahl oder Verh¨ altniszahl. Es ist un¨ ublich, den Wert von q in Prozent auszudr¨ ucken. Aber man kann leicht den relativen Unterschied r aus dem Wert a von q bestimmen. Wegen r = a−b b = b − 1 = q − 1 gilt: q = 1+r
und
r = q − 1.
(A.4)
Da mit a, b auch q nicht negativ sein kann, erkennt man aus diesen Gleichungen, dass r nicht kleiner als -1 = -100% sein kann. Das ist auch anschaulich klar, denn wenn der Wert a um 100% kleiner als b ist, so ist a = 0. Bemerkenswerter Weise k¨ onnen relative Unterschiede u ¨ber 100% m¨oglich und sinnvoll sein. Wenn a um 200% gr¨ oßer ist als b, so bedeutet dies, r = 200% = 2 und q = 1 + r = 1 + 2 = 3. Hier ist a dreimal so groß wie b. Man beachte: 30% Zuwachs heißt: r = 0.30 und q = 1 + r = 1.30. 30% Reduktion heißt: r = −0.30 und q = 1 + r = 0.70. Falsch w¨are 1 . q = 1.30 Daher ergibt sich bei einer Preiserh¨ ohung um 30% und einer anschließenden Preissenkung von 30% nicht mehr der Ausgangspreis, sondern ein Endpreis, der wegen 1.30 · 0.70 = 0.91 um 9 % niedriger liegt. Dieser Effekt wird noch deutlicher, wenn wir erst die Preise um 100% erh¨ohen und anschließend um 100% verringern. Sprechweisen: Wir nehmen an, dass bei einer Wahl in Bayern 60% aller W¨ahler CSU und 5% aller W¨ ahler FDP gew¨ ahlt haben. Dann besitzt der Anteil der CSU-W¨ahler einen Prozentsatz von 60% und der Anteil der FDP-W¨ahler einen Prozentsatz von 5%. Die Zahlen 60 bzw. 5 ohne Prozentzeichen % nennt man auch Prozentfuß. Der Prozentsatz bzw. Anteil der CSU-W¨ ahler ist wegen 60 5 −1 = 11 um 1100% gr¨ oßer als der Prozentsatz bzw. Anteil der FDP-W¨ahler. Gleichzeitig ist der Prozentsatz bzw. Anteil der CSU-W¨ ahler um 55 Prozentpunkte gr¨oßer als der Prozentsatz bzw. Anteil der FDP-W¨ ahler.
B Mengenlehre
Mit einer Menge kann man bestimmte Dinge, Sachen, Personen, Zahlen usw. zusammenfassen, die man in der Mengenlehre als Objekte oder Elemente bezeichnet. Dabei wird vereinbart, dass ein einzelnes Element nicht mehrfach in derselben Menge vorkommen darf. Man notiert Mengen mit Großbuchstaben und listet die Elemente zwischen zwei Schweifklammern auf. Die Reihenfolge der Elemente ist unerheblich. Beispiel Wir fassen die Elemente Most, Schuh, Haus, Hund, Blau zu einer Menge A und die Elemente Tisch, Uhr, Blau, Haus, 66.2, Auto, Luft zu einer Menge B zusammen: A = {Most, Schuh, Haus, Hund, Blau}. B = {Tisch, Uhr, Blau, Haus, 66.2, Auto, Luft}. C = {1, 2, 3, 4, 5 . . .} = Menge der nat¨ urlichen Zahlen. D = {2, 4, 6, . . .} = Menge der geraden Zahlen. Ferner betrachten wir Mengen, die Intervalle bzw. Zahlbereiche darstellen. Bei der Notation von Intervallen ist es u ¨blich, die R¨ander mit eckigen Klammern zu begrenzen: E = [3.6, 7.52] = Menge der reellen Zahlen, die mindestens so groß wie 3.6 aber h¨ ochstens so groß wie 7.52 sind. F = [5, 110[ = Menge der reellen Zahlen, die mindestens so groß wie 5 aber echt kleiner als 110 sind. G = ]108.773, 110[ = Menge der reellen Zahlen, die u ¨ber 108.773 aber unter 110 liegen. H = ] − ∞, 109.2] = Menge der reellen Zahlen, die maximal so groß wie 109.2 sind. Um zu verdeutlichen, ob ein bestimmtes Element x einer Menge M angeh¨ort, benutzt man folgende Schreibweise: x∈M
⇔
Das Element x ist in der Menge M enthalten.
378
B Mengenlehre
Wenn alle Elemente der Menge A auch in der Menge B vorkommen, so ist A ein Teil bzw. eine Teilmenge von B: A⊂B
⇔
Wenn x ∈ A, dann auch x ∈ B
⇔
A
B
Mit den sogenannten Mengenoperatoren kann man aus bereits vorhandenen Mengen weitere Mengen konstruieren: A ∪ B = Vereinigung von A und B, = Menge der Elemente, die in A oder in B vorkommen, =
A B
A
B
A ∩ B = Durchschnitt von A und B, = Menge der Elemente, die gleichzeitig in A und in B vorkommen, =
A B
A
B
A = ¬A = Komplement oder Gegenteil von A, = Menge der Elemente, die nicht in A vorkommen, =
A
A
Beispiel (Fortsetzung). A ∪ B = {Most, Schuh, Haus, Hund, Blau, Tisch, Uhr, 66.2, Auto, Luft}. A ∩ B = {Blau, Haus}. A = “Alles“ außer Most, Schuh, Haus, Hund, Blau. H = ]109.2, ∞[ = Menge der reellen Zahlen, die gr¨oßer als 109.2 sind. D ⊂ C, G ⊂ F, E ⊂ H. E ∪ F = [3.6, 110[, G ∪ H = [−∞, 110[. C ∩ G = {109}, D ∩ E = {4, 6}, E ∩ F = [5, 7.52]. (C ∩ E) ∪ (B ∩ H) = {4, 5, 6, 7, 66.2}. Man beachte, dass in der Umgangssprache gelegentlich “und“ in inkorrekter Weise bei der Vereinigung von zwei Mengen im “additiven Sinn“ gebraucht wird. Zudem ist “oder“ nicht mit “entweder oder“ zu verwechseln. Letzteres w¨ are ein exklusives Oder: (A ∩ B) ∪ (A ∩ B) = Menge der Elemente, die entweder in A oder in B vorkommen, =A
B
C Summenzeichen
Variablen dienen in der Mathematik als Platzhalter f¨ ur einen bestimmten Zahlwert oder Rechenausdruck und werden gew¨ohnlich mit Buchstaben notiert. Wenn man viele Variablen ben¨ otigt, ist es vorteilhaft, nur einen einzigen Buchstaben zu benutzen und an diesen unten rechts eine Nummer anzuh¨ angen. Diese Nummer nennt man auch den Index der Variablen. So kann man beispielsweise mit x1 , x2 , x3 , . . . , x100 bequem 100 verschiedene Variablen notieren. Oft ist es n¨ otig, die Summe solcher indizierter Variablen zu bilden. Dabei kann es bequem und platzsparend sein, das Summenzeichen zu benutzen: 100
xk = x1 + x2 + x3 + . . . + x100
k=1
Der Buchstabe k steht hier stellvertretend f¨ ur die Indizes der Variablen. Unter dem Summenzeichen macht man kenntlich, welchen Wert der kleinste Index besitzt. Oberhalb des Summenzeichens steht der gr¨oßte Indexwert. Der Buchstabe k wird nur vor¨ ubergehend gebraucht, um anzuzeigen, welche Werte die Indizes durchlaufen. In der Summe selbst, d.h. auf der rechten Seite kommt k nicht vor. Daher k¨ onnte man auch jeden anderen Buchstaben oder Platzhalter anstelle von k gebrauchen. Wir nennen einen solchen Buchstaben auch “Laufindex“: 100 k=1
xk =
100
xm =
m=1
100
xj = x1 + x2 + x3 + . . . + x100 .
j=1
Analog kann man beispielsweise die Summe der quadrierten Variablen notieren: 100 k=1
x2k = x21 + x22 + x23 + . . . + x2100 .
380
C Summenzeichen
Es ist auch m¨ oglich, den Laufindex zum Rechnen zu gebrauchen: 100
(m + 10) · x5m = 11 · x51 + 12 · x52 + 13 · x53 + . . . + 110 · x5100 .
m=1
Dabei kann der Laufindex sogar ohne indizierte Variablen benutzt werden: 100
m = 1 + 2 + 3 + . . . + 100,
m=1 8
(10 + x)j = (10 + x)5 + (10 + x)6 + (10 + x)7 + (10 + x)8 ,
j=5 8
1 = 1 + 1 + 1 + 1.
j=5
Beim Rechnen mit dem Summenzeichen gelten im Grunde die gleichen Regeln wie bei Klammern: n
(xk + yk ) = x1 + y1 + x2 + y2 + x3 + y3 + . . . + xn + yn
k=1
=
n
xk +
k=1 n
n
yk ,
k=1
c · xk = c · x1 + c · x2 + c · x3 + . . . + c · xn
k=1
= c· n
x2k
k=1
=
n
xk ,
k=1 n
xk
2 .
k=1
Beispiel 10
w2·k = w12 + w14 + w16 + w18 + w20 ,
k=6 3
zk · zi = zk · z1 + zk · z2 + zk · z3 ,
i=1 3
zk · zi = zk · zi + zk · zi + zk · zi = 3 · zk · zi .
m=1
D Kombinatorik
D.1 Fakult¨ at Mit n! = n(n − 1)(n − 2) · . . . · 2 · 1 = Fakult¨ at von n
(D.1)
0! = 1
(D.2)
und
wird die Anzahl der M¨ oglichkeiten beschrieben, n Objekte in einer Reihe anzuordnen. Dies entspricht der Anzahl der m¨oglichen Permutationen von n Objekten. Beispiel (Schlange). 6 Personen sollen sich in einer Warteschlange anordnen. Es gibt 6 · 5 · 4 · 3 · 2 · 1 = 720 M¨ oglichkeiten.
Beispiel (Omnibus). 100 Personen wollen sich in einen Bus mit 100 nummerierten Pl¨atzen setzen. Es gibt 100 · 99 · 98 · . . . · 3 · 2 · 1 = 9332621544394415268169923885626670049 0715968264381621468592963895217599993 2299156089414639761565182862536979208 2722375825118521091686400000000000000 0000000000 M¨ oglichkeiten. Man k¨ onnte sich also schon seit dem Urknall jede Sekunde im Bus umgesetzt haben, ohne dass sich bisher eine Sitzordnung wiederholt h¨ atte.
382
D Kombinatorik
D.2 Binomialkoeffizient Mit
n = Binomialkoeffizient k n! = (n − k)! k!
(D.3)
wird die Anzahl der M¨ oglichkeiten beschrieben, bei n Objekten genau k Objekte zu markieren. Beispiel (Paare). Von 7 Personen sollen genau 2 Personen markiert bzw. ausgew¨ ahlt werden, um gemeinsam eine Reise anzutreten. Es ergeben sich 7! 7 7·6·5·4·3·2·1 = = = 21 2 (7 − 2)! · 2! 5·4·3·2·1 · 2·1
M¨ oglichkeiten bzw. Paare.
Beispiel (Lotto). Von 49 Kugeln sollen genau 6 Kugeln markiert bzw. ausgew¨ ahlt werden. Es ergeben sich 49 49! 49 · 48 · 47 · . . . · 2 · 1 = = 6 (49 − 6)! · 6! 43 · 42 · . . . · 2 · 1 · 6 · 5 · 4 · 3 · 2 · 1 = 13983816
M¨ oglichkeiten.
D.3 Variation mit Wiederholungen Es sollen m Pl¨ atze nacheinander belegt werden. Bei jeder Belegung eines Platzes kann man unabh¨ angig von den Belegungen der u ¨brigen Pl¨atze eines von insgesamt n Objekten ausw¨ ahlen. Dabei sei es erlaubt, dass man ein Objekt auf verschiedenen Pl¨ atzen gleichzeitig vorfindet. Insgesamt ergeben sich nm
(D.4)
M¨ oglichkeiten, die m Pl¨ atze mit den n Objekten zu belegen. Beispiel (Geheimzahl). Bei einem Geldautomaten muss man in einer bestimmten Reihenfolge m = 4 mal eine von n = 10 Ziffern eingeben. Daher oglichkeiten, verschiedene Geheimzahlen gibt es insgesamt 104 = 10000 M¨ zu bilden. Dies kann man leicht einsehen, wenn man alle 10000 m¨oglichen Geheimzahlen systematisch auflistet: 0000, 0001, 0002, . . . , 9998, 9999.
E Herleitungen
Herleitung von (5.13) und (5.14) Wir betrachten den Fall, dass die Daten als bivariate Urliste (xi , yi ), i = 1, . . . , N gegeben sind. Sie Summe zi = xi + yi kann man sich dann gewissermaßen in einer dritten Spalte zus¨ atzlich notieren. Dann ist 1 1 1 1 zi = (xi + yi ) = xi + yi = x ¯ + y¯ z¯ = N i N i N i N i und
1 1 2 2 (zi − z¯) = [(xi + yi ) − (¯ x + y¯)] N i N i 1 2 = [(xi − x ¯) + (yi − y¯)] N i
1 (xi − x = ¯)2 + (yi − y¯)2 + 2 · (xi − x ¯)(yi − y¯) N i 1 1 1 (xi − x ¯)2 + (yi − y¯)2 + 2 · (xi − x ¯)(yi − y¯) = N i N i N i
σz2 =
= σx2 + σy2 + 2 · σx,y . Herleitung von (5.19)
N uglich der VaWir betrachten die Funktion f (c) = N1 i=1 (xi − c)2 , die bez¨ riablen c minimiert werden soll. Die Minimalstelle dieser Funktion erhalten wir, indem wir zur ersten Ableitung f (c) = −
N N N N
1 1 1 2(xi − c) = −2 xi − c = −2 xi − N · c N i=1 N i=1 N i=1 i=1 (E.1)
384
E Herleitungen
die Nullstelle bestimmen: f (c) = 0
N
⇔
xi − N · c = 0
⇔
c =
i=1
N 1 xi = x ¯. (E.2) N i=1
Wegen f (¯ x) = 2 > 0 handelt es sich bei der Nullstelle um die Minimalstelle der Funktion, woraus die zu beweisende Behauptung folgt. Herleitung von (5.21) Der Beweis ist nur besonders begeisterten Lesern gewidmet. σ2 =
1 1 (xi − x ¯)2 ≥ N N alle xi
= d2
1 N
1 = d2
|xi −¯ x|>d
(xi − x ¯)2 ≥
|xi −¯ x|>d
1 N
d2
|xi −¯ x|>d
1 A(|X − x ¯| > d) = d2 · h(|X − x ¯| > d). N
Daraus folgt die Behauptung (5.21): σ 2 ≥ d2 · h(|X − x ¯| > d) ⇔ h(|X − x ¯| > d) ≤
σ2 d2
⇔ h(¯ x−d ≤ X ≤ x ¯ + d) ≥ 1 −
Herleitung von (7.5) und (7.6) Es gilt: ∂ SSE(a, b) = 0 und ∂a ⇔ ∂ (yi − (a + bxi ))2 = 0 ∂a i
∂ SSE(a, b) = 0 ∂b ∂ (yi − (a + bxi ))2 = 0 ∂b i
und ⇔
2(yi − a − bxi )(−1) = 0
yi − a · N − b
und ⇔
xi = 0
−
und ⇔
a = y¯ − b¯ x
und
σ2 . d2
−
2(yi − a − bxi )(−xi ) = 0
xi yi + a
xi yi + a
xi + b
xi + b
x2i = 0
x2i = 0.
E Herleitungen
385
Die linke Gleichung entspricht (7.5). Nun substituieren wir diese linke Gleichung in die rechte Gleichung: y − b¯ x) xi + b x2i = 0 ⇔ − xi yi + (¯ xi yi − y¯ ¯ xi = xi ⇔ x2i − x y i xi xi yi − N1 N x i y i − xi y i xi yi − y¯ xi = 2 = . b= 2 ¯ xi N x2i − ( xi )2 xi − x xi − N1 xi xi b
Dies entspricht (7.6). Herleitung von (8.27) Wir f¨ uhren den Beweis “halbformal“ f¨ ur den Laspeyres-Preisindex:
Laspeyres-Subindex Wertanteil des Seg· = zu Segment k
k
ment k zur Zeit t0
⎛
⎞ ⎛
⎞ Wert der Basismengen im SegWert der Basismengen im ⎜ ment k zu Berichtspreisen. ⎟ ⎜ Segment k zu Basispreisen ⎟ = ⎝ Wert der Basismengen im Seg- ⎠ · ⎝ Wert aller Basismengen zu ⎠ k
ment k zu Basispreisen
Basispreisen
Wert der Basismengen im Seg ment k zu Berichtspreisen
= Wert aller Basismengen zu 1 1
k
Basispreisen
=
1 Wert aller Basismengen zu Basispreisen
·
Wert aller Basismengen zu Berichtspreisen
= PL (t0 , t).
(E.3)
Herleitung von (9.35) Wir betrachten den Fall, dass die unabh¨ angigen Variablen X und Y diskret sind. Der stetige Fall beweist sich analog. (x − μx )(y − μy ) · P (X = x, Y = y) COV [X, Y ] = (9.29)
=
=
x
y
x
y
x
y
(x − μx )(y − μy ) · P (X = x) · P (Y = y) ((x − μx )P (X = x)) · ((y − μy )P (Y = y))
386
E Herleitungen
=
x
=
((x − μx )P (X = x)) ·
((y − μy )P (Y = y))
y
x P (X = x) −
x
·
μx − μx
μx P (X = x)
x
y P (Y = y) −
y
=
·
μy P (Y = y)
y
P (X = x)
μy − μy
x
P (Y = y)
y
= 0.
(E.4)
Der in der letzten Gleichung, da beide Klammern wegen Wert Null ergibt sich aß 9.32 ist dann x P (X = x) = 1 und y P (Y = y) = 1 Null sind. Gem¨ auch die Korrelation Null: ρx,y =
σx,y 0 = = 0. σx · σ y σx · σ y
(E.5)
Herleitung von (9.49) Wir betrachten den Fall, dass die unabh¨ angigen Variablen X und Y diskret sind. Der stetige Fall beweist sich analog. (9.29) x y P (X = x, Y = y) = x y P (X = x) · P (Y = y) E[X · Y ] = x,y
=
x
=
x,y
(x P (X = x)) · (y P (Y = y))
y
(x P (X = x)) ·
x
(y P (Y = y)) y
= E[X] · E[Y ].
Herleitung zu (10.13) Da X normalverteilt ist und μ und σ konstante Zahlen sind, ist auch Z = normalverteilt. Da E[X] = μ und V AR[X] = σ 2 ist, gilt: = σ1 (E[X] − μ) = 0. a) E[Z] = E X−μ σ = σ12 (V AR[X] − 0) = 1. b) V AR[Z] = V AR X−μ σ
(E.6)
X−μ σ
Somit ist Z standard normalverteilt. Damit folgt aus x−μ x−μ x−μ X −μ ≤ =P Z≤ =Φ P (X ≤ x) = P σ σ σ σ
E Herleitungen
387
die Behauptung (10.13). Herleitung von (13.17) Wir gehen davon aus, dass die Variablen X1 , . . . , Xn unabh¨angig sind, denselben Erwartungswert μ und dieselbe Varianz E[(Xi − μ)2 ] = σ 2
(E.7)
besitzen. Wegen (13.14) gilt dann auch 2 ¯ − μ)2 ] = V AR[X] ¯ = σ E[(X n und wegen (9.35) und (9.34) gilt 2 σ , falls i = k, E[(Xi − μ)(Xk − μ)] = COV [Xi , Xk ] = 0, falls i =
k.
(E.8)
(E.9)
Damit berechnen wir zun¨ achst: n n
2 2 ¯ ¯ (Xi − X) = E ((Xi − μ) − (X − μ)) E i=1
=E
i=1 n
¯ − μ) − 2(Xi − μ)(X ¯ − μ) (Xi − μ) + (X 2
2
i=1
=
n
E[(Xi − μ)2 ] +
n
i=1
¯ − μ)2 ] − 2 E[(X
i=1
n (E.7),(E.8) 2 = σ
+
i=1
n σ2 i=1
n
−
¯ − μ)] E[(Xi − μ)(X
i=1
n 1 2 E (Xi − μ)( Xk − μ) n i=1 n
n
k=1
n n 1 σ − 2 nσ 2 + n E [(Xi − μ)(Xk − μ)] n n i=1 2
=
k=1
=
nσ 2 + σ 2 ⎛ ⎞ n 2 − ⎝ E [(Xi − μ)(Xk − μ)] + E [(Xi − μ)(Xk − μ)]⎠ n i=k
(E.9)
=
nσ 2 + σ 2 −
=
(n − 1)σ 2 .
i=k=1
2 0 + n · σ2 n (E.10)
Dies beweist schließlich die Formel (13.17): n n 1 1 2 2 (9.42) 2 ¯ ¯ E E[S ] = E (Xi − X) = (Xi − X) n − 1 i=1 n−1 i=1 (E.10)
=
1 (n − 1)σ 2 = σ 2 . n−1
388
E Herleitungen
Herleitung zu (13.30) Der Ansatz (13.21) wird modifiziert, indem wir f¨ ur das Intervall eine Breite w¨ahlen, die proportional zur gesch¨ atzten Standardabweichung ist. Die halbe Breite, die wir in (13.21) mit d bezeichnet haben, sei nun mit S · b notiert: ¯ − S · b; X ¯ + S · b]. [X
(E.11)
Dann gilt analog zu (13.22) bis (13.23) ¯ −S·b≤ μ≤ X ¯ + S · b) = 1 − α P (X (E.12) ¯ ≤ μ + S · b) − P X ¯ < μ−S·b = 1−α ⇐⇒ P (X ¯ ¯ √ √ X − μ√ X − μ√ n≤ b n − P n < −b n = 1 − α ⇐⇒ P S S √ √ (13.29) ⇐⇒ P (T ≤ b n) − P (T < −b n) = 1 − α. Wegen der Symmetrie der Dichte der t-Verteilung um den Nullpunkt folgt weiter: √ α ⇐⇒ P (T ≤ b n) = 1 − . 2 √ Daher m¨ ussen wir b n mit dem (1 − α2 )-Quantil der t-Verteilung gleichsetzen, wobei gem¨ aß (13.29) der Freiheitsgrad n − 1 betr¨agt: √ ⇐⇒ b n = tn−1,1− α2 1 ⇐⇒ b = √ tn−1,1− α2 . n Daraus folgt mit (E.11) das Konfidenzintervall (13.30). Herleitung von (15.8): ¯ ist normalWegen der dritten, eingangs getroffenen Voraussetzung gilt: X verteilt. Nach Subtraktion und Multiplikation mit Konstanten erhalten wir √ ¯ − μ0 ) n die ebenfalls normalverteilt ist. Mit eine Zufallsvariable T (x) = (X σ ¯ = σ2 folgt: ¯ = μ0 und V AR[X] E[X] n
¯ ¯ − μ0 √ ¯ − μ0 √ E X E X X − μ0 √ E[ T (x) ] = E n = n= n σ σ σ μ0 − μ0 √ n = 0, = σ
¯ ¯ − μ0 ¯ V AR X V AR X X − μ0 √ V AR[ T (x) ] = V AR n = n = n σ σ2 σ2 =
σ2 n σ2
n = 1.
E Herleitungen
389
Herleitung von (15.27) ¯ − Y¯ normalverteilt ist, m¨ Da gem¨ aß Voraussetzung 3 die Differenz X ussen wir ¯ − Y¯ bestimmen. Mit der nur noch den Erwartungswert und die Varianz von X ¯ und Y¯ Voraussetzung 2, (11.7), (9.46) und wegen der Unabh¨angigkeit von X gilt: ¯ − Y¯ ] = E[X] ¯ − E[Y¯ ] = μx − μy , E[X
(E.13)
¯ − Y¯ ] = V AR[X] ¯ + V AR[−Y¯ ] = V AR[X] ¯ + (−1)2 V AR[Y¯ ] V AR[X σ2 n+m 2 σ2 + = σ . (E.14) = n m nm Dies entspricht den in (15.27) angegebenen Werten. Herleitung von (13.32) Zun¨ achst u ¨berlegen wir uns, welche Trefferzahlen y in der Stichprobe mit hoher Wahrscheinlichkeit auftreten, wenn der tats¨achliche Anteil in der Grundgesamtheit bzw. die zu sch¨ atzende, unbekannte Wahrscheinlichkeit p betr¨ agt. In Abbildung E.1 haben wir diese y-Werte kenntlich gemacht und als “Prognoseintervall zu p“ bezeichnet. Die Prognosewahrscheinlichkeit setzen wir beispielhaft auf 1 − α = 95% fest. Die mathematische Bestimmung eines Prognoseintervalls l¨ asst sich mit der Binomialverteilung ermitteln und wird vorerst zur¨ uckgestellt. Die Bestimmung eines Prognoseintervalls f¨ uhren wir schließlich f¨ ur alle denkbaren Werte p durch. So bilden sowohl die oberen R¨ander B(p), als auch die unteren R¨ ander A(p) der Prognoseintervalle jeweils eine Kurve, die von p abh¨ angt. Die Abbildung E.2 zeigt das Ergebnis. Man erkennt, dass die Prognoseintervalle f¨ ur p ≈ 0 kleine Trefferzahlen y in der Stichprobe und f¨ ur p ≈ 1 große Trefferzahlen y in der Stichprobe voraussagen. Wir haben in der Abbil¨ dung E.2 die Kurven A(p) und B(p) der Ubersichtlichkeit halber als stetige Funktionen eingezeichnet, was streng genommen falsch ist, denn wegen der Ganzzahligkeit von Y sind sowohl A(p) als auch B(p) Treppenfunktionen. Ein Konfidenzintervall wollen wir nach folgender Regel bestimmen: Zu einer konkret gemessenen Trefferzahl y in der Stichprobe ermitteln wir gem¨aß Abbildung E.3 auf der p-Achse ein Intervall, das wir vorl¨aufig und ganz frech “Konfidenzintervall“ nennen. In Abbildung E.4 ist zu jeder m¨oglichen Trefferzahl y = 0, 1, . . . , n das jeweilige Konfidenzintervall eingezeichnet. Wenn p der tats¨achliche, zu sch¨ atzende Wert in der Grundgesamtheit ist, so wird dieser von denjenigen Konfidenzintervallen u ¨berdeckt, die zu den yWerten des Prognoseintervalls geh¨ oren (Abbildung E.5). Die u ¨brigen y-Werte, welche nicht dem Prognoseintervall angeh¨ oren, erzeugen Konfidenzintervalle, welche nicht den Wert p u ¨berdecken. Somit ist das Wichtigste gezeigt: Wenn p der tats¨achliche Parameterwert ist, wird er von einem Konfidenzintervall mit 95% Wahrscheinlichkeit u ¨berdeckt und mit 5% Wahrscheinlichkeit nicht u ¨berdeckt.
390
E Herleitungen Herleitung von Konfidenzintervallen f¨ ur einen Anteil p nY
nY
B(p) Prognoseintervall: Diese y-Werte treten mit 95% Wahrscheinlichkeit auf 0
A(p)
B(0.31)
}
A(0.31) 0
1
p=0.31
Abbildung E.1. Wenn p = 0.31 der wahre Wert sein sollte, treten die y-Werte des Prognoseintervalls mit 95% Wahrscheinlichkeit auf.
0
1
0
p
Abbildung E.2. Es wird zu jedem m¨ oglichen Wert p jeweils das Prognoseintervall berechnet. nY
nY
Gemessener y-Wert
0
p
0
Konfidenzintervall zu y
0
Abbildung E.3. Zu einem y-Wert bestimmen wir ein Intervall auf der pAchse, das wir als Konfidenzintervall bezeichnen.
0
Abbildung E.4. F¨ ur jeden yWert ergibt sich ein Konfidenzintervall auf der p-Achse. nY
nY
Diese y-Werte treten mit 95% Wahrscheinlichkeit auf
Diese y-Werte treten mit 95% Wahrscheinlichkeit auf
} 0
0
1
p
1
Abbildung E.5. Wenn p der wahre Wert ist, wird er von den Intervallen, welche zu den y-Werten des Prognoseintervalls geh¨ oren, u ¨berdeckt.
} 0
0
p
1
Abbildung E.6. Konfidenzintervalle, die den wahren Wert p nicht u ¨berdecken, treten nur mit einer Wahrscheinlichkeit von 5% auf.
E Herleitungen
391
Die Herleitung zeigt eine Vorgehensweise, die man verallgemeinern kann und die wir auch bei der Sch¨ atzung eines Erwartungswertes μ oder anderer Parameter einsetzten k¨ onnten. Im Grunde wird ein Konfidenzintervallverfahren durch eine Region bzw. durch zwei Kurven A(p) und B(p) wie in Abbildung E.2 beschrieben. Die senkrechte Ausdehnung dieser Region korrespondiert gem¨ aß Abbildung E.1 mit der Zuverl¨ assigkeit des Verfahrens. Die waagrechte Ausdehnung der Region beschreibt gem¨ aß den Abbildungen E.3 und E.4 die Pr¨ azision des Verfahrens. Es bleibt noch zu kl¨ aren, wie man die Prognoseintervalle bzw. A(p) und B(p) konkret berechnet. Wie in den Abbildung E.1 und E.2 dargestellt, muss ein Prognoseintervall [A(p) , B(p)] zu einem Wert p die Gleichung P (A(p) ≤ Y ≤ B(p) ) = 1 − α
(E.15)
erf¨ ullen. Da Y ganzzahlig ist, kann man aber nicht immer Wahrscheinlichkeiten erhalten, die exakt 1 − α ergeben. Daher sollte man streng genommen eine Sicherheitswahrscheinlichkeit von mindestens 1−α gew¨ahrleisten und das Gleichheitszeichen “=“ durch “≥“ ersetzen. Diese Finesse erkl¨art abermals, warum A(p) und B(p) als Treppenfunktionen gezeichnet werden m¨ ussten, was wir aber vernachl¨assigen, um die Grundidee nicht zu vernebeln. Die Prognoseintervalle [A(p) , B(p)] erhalten wir, indem die Gleichung (E.15) gewissermaßen nach A(p) und B(p) aufgel¨ ost wird. Jedoch ergeben sich f¨ ur A(p) und B(p) mehrere, verschiedene L¨ osungen. Diese Freiheit kann man nutzen, indem wir eine der folgenden Forderungen zus¨atzlich stellen: -
-
Man w¨ unscht sich f¨ ur den Nicht-Prognosebereich, der in der Regel aus zwei Teilen besteht, dass jeder Teil mit einer Irrtumswahrscheinlichkeit von α2 auftritt: α α und P (B(p) + 1 ≤ Y ) = . (E.16) P (Y ≤ A(p) − 1 ) = 2 2 F¨ ur diesen “Symmetrie-Ansatz“ gibt es im Grunde keine inhaltlichen Argumente. Er besitzt lediglich den Vorteil, dass sich die weiteren Herleitungen “rechentechnisch“ vereinfachen. Das Verfahren (13.32) und die Alternativen 1-4 basieren auf diesem Ansatz. Man minimiert die Pr¨ azision, d.h. man m¨ ochte die L¨angen der Konfidenzintervalle auf der p-Achse im Schnitt m¨ oglichst klein halten. Dieses zus¨atzliche Ziel wird von den Konfidenzintervallen gem¨aß Alternative 5 verfolgt.
Die Berechnung der Wahrscheinlichkeit in (E.15) k¨onnen wir mit n pi (1 − p)n−i = 1 − α i
B(p)
(E.17)
i=A(p)
durchf¨ uhren, da gem¨ aß der Voraussetzung auf Seite 271 die Variable “Y = Treffer in der Stichprobe“ binomialverteilt ist. Das Verfahren (13.32) und die
392
E Herleitungen
Alternative 5 machen von dieser exakten Rechnung Gebrauch. Sie ber¨ ucksichtigen zudem die bisher unterschlagene Eigenschaft, dass A(p) und B(p) Treppenfunktionen sind. Ferner werden die Formeln (10.85) und (10.86) herangezogen. Die Alternativen 1-4 unterscheiden sich dadurch, dass sie statt der Binomialverteilung (E.17) diverse Approximationen benutzen. Beispielsweise basiert die Alternative 3 auf der N¨ aherung (11.12). Herleitungen zu (13.44) und (13.47) Wir k¨ onnen weitgehend die Herleitung auf Seite 389 f¨ ur zweiseitige Konfidenzintervalle u bernehmen. Wir m¨ u ssen allerdings die Gestalt der Prognoseinter¨ valle a ndern. ¨ Beispielsweise m¨ ussen wir bei der Konstruktion linksseitiger Konfidenzintervalle f¨ ur p im Gegensatz zu den Abbildungen E.1 und E.2 die Prognoseintervalle einseitig w¨ ahlen. Abbildung E.7 zeigt zu jedem Wert p das entsprechende Prognoseintervall [A(p), n], in dem die Variable Y mit einer Wahrscheinlichkeit von 1 − α liegt: P (A(p) ≤ Y ≤ n ) = 1 − α. (E.18) Wir haben wieder zur Vereinfachung unterdr¨ uckt, dass A(p) streng genommen als Treppenfunktion gezeichnet werden m¨ usste, da Y nur ganzzahlige Werte annehmen kann. Aus dem gleichen Grund kann man nicht immer die Zuverl¨ assigkeit 1 − α exakt einhalten. Stattdessen aber k¨onnen wir eine Zuverl¨ assigkeit von mindestens 1−α fordern, wobei “mindestens“ eher Gleichheit als “echt gr¨ oßer“ bedeuten soll. Daher schreiben wir statt (E.18):
Herleitung von linksseitigen Konfidenzintervallen f¨ ur p Y Prognosen intervall zu p = 0.31: Diese y-Werte treten mit 95% Wahrschein lichkeit auf.
}
0
0
n
Y
Diese y-Werte treten mit 95% Wahrscheinlichkeit auf
A(p)
A(0.31) p=0.31
1
Abbildung E.7. Es wird zu jedem m¨ oglichen Wert p jeweils das Prognoseintervall [A(p), n] berechnet.
0 0
1
p
Abbildung E.8. F¨ ur jeden y-Wert ergibt sich ein linksseitiges Konfidenzintervall auf der p-Achse.
}
n
Y
0 0
p
1
Abbildung E.9. Wenn p der wahre Wert ist, wird er von den Intervallen, welche zu den y-Werten des Prognoseintervalls geh¨ oren, u ¨berdeckt.
E Herleitungen
393
P (A(p) ≤ Y ≤ n ) ≥ 1 − α und P (A(p) + 1 ≤ Y ≤ n ) < 1 − α. (E.19) Verfahren wir wie in den Abbildung E.3 und E.4, so ergeben sich zu jedem yWert entsprechende linksseitige Konfidenzintervalle, die in Abbildung E.8 zu sehen sind. Dass die Zuverl¨ assigkeit des Verfahrens 1−α betr¨agt, kann man in Abbildung E.9 erkennen. Der wahre Wert p wird genau von den linksseitigen Konfidenzintervallen u alt, wenn die Trefferzahl Y im ¨berdeckt, die man erh¨ Prognosebereich liegt. Diese Wahrscheinlichkeit betr¨agt mindestens 1 − α. Die Berechnung der Wahrscheinlichkeit in (E.19) k¨onnen wir mit n n n i n i n−i p (1 − p) p (1 − p)n−i < 1 − α ≥ 1 − α und i i i=A(p)
i=A(p)+1
(E.20) exakt durchf¨ uhren, da gem¨ aß der Voraussetzung auf Seite 271 die Variable “Y = Treffer in der Stichprobe“ binomialverteilt ist. Die Ungleichungen (E.20) sind wiederum a ¨quivalent mit A(p)−1
i=0
A(p) n n i p (1 − p)n−i ≤ α und pi (1 − p)n−i > α. i i i=0 (E.21)
Ber¨ ucksichtigen wir die bisher unterschlagene Eigenschaft, dass A(p) eigentlich eine Treppenfunktion ist, ergibt sich der rechte Rand pr des Konfidenzintervalls bei gemessenem y durch den gr¨ oßten Wert p, der y = A(p) erf¨ ullt. Daher sollte der rechte Rand pr des Konfidenzintervalles so groß wie m¨oglich sein aber gleichzeitig (E.21) mit y = A(p) erf¨ ullen. y Um dies zu erreichen, machen wir von der Tatsache Gebrauch, dass i=0 ni pi (1−p)n−i bez¨ uglich p stetig ist und monoton f¨ allt. Damit ist bei wachsendem p die linke Ungleichung von (E.21) unkritisch. Bei der rechten Ungleichung hingegen w¨ urde ein zu großes p zu einer Verletzung der Ungleichung f¨ uhren. Dasjenige p, welches m¨ oglichst groß ist und diese Ungleichung erf¨ ullt, bzw. m¨oglichst ullt, bestimmt pr . Wegen der Stetigkeit ist und sie nicht erf¨ y klein uglich p gen¨ ugt es daher statt der Ungleichung von i=0 ni pi (1 − p)n−i bez¨ die Gleichung y n i pr (1 − pr )n−i = α (E.22) i i=0 osen. Diese Gleichung ist wegen Formel (10.85) mit nach pr aufzul¨ (n − y)pr = F1−α, 2(y+1), 2(n−y) (y + 1)(1 − pr )
(E.23)
aquivalent. Folglich erhalten wir die L¨ osung, wenn wir (E.23) nach pr aufl¨osen. ¨ Nach einigen elementaren Umformungen ergibt sich (13.44).
394
E Herleitungen Herleitung von rechtsseitigen Konfidenzintervallen f¨ ur p Y n
Prognoseintervall zu p = 0.31: Diese y-Werte treten mit 95% Wahrschein lichkeit auf.
}
n
Y
n
Y
B(p)
B(0.31)
0 0
1
p=0.31
Abbildung E.10. Es wird zu jedem m¨ oglichen Wert p jeweils das Prognoseintervall [0, B(p)] berechnet.
0
0
1
p
Abbildung E.11. F¨ ur jeden y-Wert ergibt sich ein rechtsseitiges Konfidenzintervall auf der p-Achse.
Diese y-Werte treten mit 95% Wahrscheinlichkeit auf 0
}
0
p
1
Abbildung E.12. Wenn p der wahre Wert ist, wird er von den Intervallen, welche zu den yWerten des Prognoseintervalls geh¨ oren, u ¨berdeckt.
Rechtsseitige Intervalle f¨ ur p kann man auf analoge Weise herleiten. Die Abbildungen E.10-E.12 illustrieren die Grundidee. Herleitung zum Resultat “stochastischer Regressor“ auf Seite 352 Wir bezeichnen das Konfidenzintervall (16.21) mit I(x1 , . . . , xn ). Es besitzt f¨ ur gegebene Werte x1 , . . . , xn die Eigenschaft P (b ∈ I(x1 , . . . , xn )) ≥ 1 − α.
(E.24)
Da die Residuen i von Xi per Annahme unabh¨angig sind, gilt damit auch P (b ∈ I(x1 , . . . , xn )|X1 = x1 , . . . , Xn = xn ) = P (b ∈ I(x1 , . . . , xn ) und X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ) P (b ∈ I(x1 , . . . , xn )) · P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ) = P (b ∈ I(x1 , . . . , xn )) (E.24)
≥
1 − α.
Die Zuverl¨ assigkeit des Konfidenzintervalls I(X1 , . . . , Xn ) mit stochastischem Regressor berechnet sich dann daraus und aus dem Satz der totalen Wahrscheinlichkeit (9.23):
E Herleitungen
P (b ∈ I(X1 , . . . , Xn )) =
395
P (b ∈ I(x1 , . . . , xn )|X1 = x1 , . . . , Xn = xn ) ·
x1 ,...,xn
≥
· P (X1 = x1 , . . . , Xn = xn ) (1 − α) · P (X1 = x1 , . . . , Xn = xn )
x1 ,...,xn
= 1 − α. Man erkennt auch, dass diese Argumentation unabh¨angig davon, welche Verteilung man f¨ ur den Regressor X unterstellt, ihre G¨ ultigkeit beh¨alt. Den pathologischen Fall, dass zuf¨ alliger Weise alle Werte x1 , . . . , xn gleich sein k¨onnten, haben wir mit der Bemerkung auf Seite 349 “geheilt“.
F Aufgaben
Aufgaben zu Kapitel 1:
Grundlagen
Aufgabe 1.1. Geben Sie zu den Merkmalen jeweils an, welcher Typ vorliegt! a) c) e) g) i) k) m)
Tarifgruppe Wasserverbrauch pro Kopf Staatsangeh¨ origkeit F¨ ullmenge Beruf Lagerbestand an Bierflaschen Postleitzahlen
Aufgaben zu Kapitel 2:
b) d) f) h) j) l) n)
Bruttosozialprodukt Kundenzufriedenheit Anzahl Kinder Uhrzeit Jahr der Erstzulassung eines PKW Neupreis eines PC Telefonnummer
Empirische Verteilungen
Aufgabe 2.1. Der Anteil der Personen, die ihre Steuererkl¨arung im 4. Quartal abgeben, liegt 28% u ¨ber dem Anteil des 1. Quartals und 18% unter dem Anteil des 3. Quartals. Der Anteil des 2. Quartals verh¨alt sich zum Anteil des 3. Quartals wie 18:11. Bestimmen und skizzieren Sie die Verteilung des Abgabetermins! Aufgabe 2.2. Es werden Gl¨ uhbirnen der St¨arke 20 [W], 40 [W], 100 [W] und 200 [W] jeweils gleich h¨ aufig verkauft. Skizzieren Sie die relative H¨aufigkeit h(X = x) und die kumulierte Verteilung H(x) f¨ ur das Merkmal “X=Leistung“!
398
F Aufgaben
Aufgabe 2.3. In den 30 Museen der Stadt Artima gab es im letzten Monat jeweils X Neuerwerbungen pro Museum. Die Urliste lautet: 2, 4, 3, 5, 5, 2, 3, 1, 5, 6, 4, 7, 8, 3, 2, 8, 3, 6, 4, 6, 5, 7, 3, 3, 2, 5, 4, 4, 3, 11. a) Skizzieren Sie die kumulierte und nicht kumulierte Verteilung der Neuerwerbungen X pro Museum in geeigneter Form! b) Berechnen Sie aufgrund der Skizzen, wie viel Prozent der Museen - mehr als 8 St¨ ucke, - mindestens 6 aber nicht genau 8 St¨ ucke, - bis zu 4 oder u ucke, ¨ber 7 St¨ - nicht (unter 6 St¨ ucke und bis zu 10 St¨ ucke), (Die gesprochene Sprache ist hier zweideutig, da man die Klammern nicht h¨ort!) - (nicht unter 6 St¨ ucke) und bis zu 10 St¨ ucke erworben haben! c) Wie viele St¨ ucke haben 2 von 5 Museen maximal erworben? Aufgabe 2.4. Softissimo ist ein Toilettenpapierhersteller, der zu 20% Packungen mit 2 Rollen, zu 38% Packungen mit 4 Rollen, zu 11% Packungen mit 6 Rollen und den Rest mit 10 Rollen anfertigt. a) Skizzieren Sie f¨ ur das Merkmal “X=Anzahl Rollen pro Packung“ die Verteilung sowohl kumuliert als auch nicht kumuliert! b) Berechnen Sie, wie viel Prozent der Packungen - mindestens 4 aber nicht genau 6 Rollen, - bis zu 4 Rollen, - nicht (unter 6 oder u ¨ber 9 Rollen ), (Die gesprochene Sprache ist hier zweideutig, da man die Klammern nicht h¨ort!) - (nicht unter 6) oder u ¨ber 9 Rollen aufweisen. c) Wie viele Prozent aller Rollen befinden sich in einem “Sixpack“? Aufgabe 2.5. An den 16 Verwaltungsgeb¨ auden der Stadt Bimmeldorf wurde im Monat Mai der Wasserverbrauch in Kubikmeter gemessen: 10, 6.1, 8, 1.2, 14.9, 20.8, 7, 13.9, 2.1, 3, 3, 3, 4, 5.9, 22, 14. Skizzieren Sie ein Stabdiagramm! Skizzieren Sie ein Histogramm bez¨ uglich der Klasseneinteilung [0; 5], ]5; 13], ]13; 23]! Zeichnen Sie jeweils die kumulierte Verteilung aufgrund des Histogrammes und der Urliste! Aufgabe 2.6. In einem Kaufhaus wurde bei N =1200 Kunden die Aufenthaltsdauer X [Min/Kunde] beobachtet:
F Aufgaben
399
- 20% verweilten l¨ anger als 18 Minuten, - 60% blieben l¨anger als 5 Minuten, - 70% blieben maximal 8 Minuten, - keiner verweilte l¨ anger als 26 Minuten. a) Illustrieren Sie den Sachverhalt anhand einer Dichte und einer kumulierten Verteilungsfunktion! b) Berechnen Sie aufgrund der Skizzen, wie viel Prozent der Kunden sich - l¨ anger als 10 Minuten, - zwischen 6.5 und 22.8 Minuten, - mindestens 12 Minuten oder h¨ ochstens 7.7 Minuten, - nicht (unter 17 Minuten und u ¨ber 3.3 Minuten), - (nicht unter 17 Minuten) und u ¨ber 3.3 Minuten, im Kaufhaus aufhielten. c) Wie lange bleibt jeder vierte Kunde mindestens im Kaufhaus?
Aufgabe 2.7. Im Monat Mai ergaben sich in einem Gesch¨aft folgende Tagesums¨ atze X [Tsd e] in zeitlicher Reihenfolge: 20, 21, 18, 74, 33, 44, 44, 26, 22, 33, 70, 16, 22, 28, 44, 39, 45, 22, 60, 50, 52. a) Zu wie viel Prozent liegt die absolute Umsatz¨anderung von einem Handelstag auf den n¨ achsten u ¨ber 6800 Euro? b) Welcher maximale Umsatz wird von ungef¨ ahr 28% aller Tage erreicht? c) Klassifizieren Sie die Umsatz¨ anderung Y [Tsd e] von einem Handelstag auf den n¨ achsten gem¨ aß [-70; -30[, [-30; -10[, [-10; -5[, [-5; 5[, [5; 10[, [10; 30[, [30; 70[ und stellen Sie die H¨ aufigkeitsdichte dar! - Zu wie viel Prozent liegen die Umsatz¨ anderungen zwischen -3600 und 12200 [e]? - L¨ osen Sie a) mittels der Dichtefunktion! Wie groß ist der relative Fehler gegen¨ uber dem Ergebnis aus a)? - Welche Umsatz¨ anderung wird zu 14% nicht u ¨berschritten? Aufgabe 2.8. In einem Lebensmittellager wurde f¨ ur jede Packung das Mindesthaltbarkeitsdatum (MHD) ermittelt. Keine Packung war l¨anger als 5.5 Jahre, 7% l¨ anger als 4 Jahre, 36% l¨ anger als 2 Jahre, 8% zwischen einem halben und ganzen Jahr und 20% bis maximal ein halbes Jahr datiert. a) Visualisieren Sie diesen Sachverhalt in geeigneter Weise! Zeichnen Sie auch die kumulierte Verteilung der Restlaufzeit! b) Wie viel Prozent der Packungen sind maximal ca. 41 Monate haltbar?
400
F Aufgaben
c) Welches MHD wird von ca. 55% der Packungen u ¨bertroffen? Aufgabe 2.9. Bei einer Brandschutzversicherung verkaufen die Vertriebsmitarbeiter Anton, Berta und Max Versicherungen. Es liegen folgende Daten mit den Merkmalen “X=Vertragssumme“ in Tausend Euro und “Y =Mitarbeiter“ vor: (405; A) (1020; B) (2040; M) (2777; M) (1800; M)
(608; A) (90; M) (4801; M) (270; A) (399; M)
(95; M) (317; A) (68; M) (1088; M) (886; A)
(2257; B) (4600; A) (990; A) (699; M) (40; M)
(4444; M) (378; M) (2888; B) (69; A) (89; M)
(82; M) (707;A) (3300; B) (3480; M) (680; B).
a) Klassifizieren Sie die Vertragssumme X nach dem Raster 0; 100; 500; 1000; 5000 und bestimmen Sie anschließend die relativen H¨aufigkeiten h(x, y), h(x|Y = A), h(x|Y = B), h(x|Y = M )! Vergleichen Sie die bedingten Verteilungen mit der unbedingten Verteilung von X! Wie w¨ urden Sie die drei Mitarbeiter bez¨ uglich ihrer abgeschlossenen Vertragssummen beschreiben? b) Wie hoch ist der Anteil an M¨ annern bei Vertragsabschl¨ ussen von mehr als 500000 Euro? Wie hoch ist der Anteil an M¨ annern bei Vertragsabschl¨ ussen bis 500000 Euro? Wie werden diese Anteile formal notiert? Muss die Summe der beiden Ergebnisse 1 ergeben?
Aufgabe 2.10. Ein Unternehmen hat bei seinen Lieferanten noch unbezahlte Rechnungen zu begleichen. 20% der Rechnungen sind j¨ unger als 3 Tage. Die Betr¨ age dieser Rechnungen verteilen sich zu 10% unter 1000 [e], zu 30% von 1000 bis h¨ ochstens 5000 [e] und der Rest bis zu maximal 12000 [e]. Bei den Rechnungen, die mindestens 3 Tage alt sind, liegen 30% unter 1000 [e] und 5% zwischen 5000 [e] und dem H¨ ochstwert 12000 [e]. a) Skizzieren Sie in geeigneter Weise die Verteilung der Betr¨age s¨amtlicher Rechnungen! b) Wie viel Prozent der Rechnungen sind j¨ unger als 3 Tage und liegen zwischen 1000 und 5000 [e]? c) Wie viel Prozent der Rechnungen sind jeweils innerhalb der Betragsklassen mindestens 3 Tage alt? Aufgabe 2.11. Auf der 4. Etage im Kaufhaus “Fussel“ kann man Staubsauger kaufen. Es liegt folgender Zusammenhang vor: 18% der Staubsauger mit einer Leistung von maximal 1100 [W] kosteten weniger als 100 Euro. 40% aller Staubsauger haben eine Leistung von mehr als 1100 [W]. 80% aller Staubsauger kosten mindestens 100 Euro.
F Aufgaben
401
a) Wie hoch ist der Anteil der leistungsschw¨ acheren Ger¨ate unter den billigeren Ger¨ aten? b) Geben Sie die vollst¨ andige Kontingenztafel an! Interpretieren Sie einen der eingetragenen Werte! Aufgabe 2.12. Bei den Kunden der Br¨ uller AG wurde eine Kundenzufriedenheitsanalyse durchgef¨ uhrt. Gleichzeitig hat man den Umsatz pro Kunden der letzten 12 Monate ermittelt. Unter den zufriedenen Kunden weisen 60% einen Umsatz auf, der 3 Millionen Euro u ¨bersteigt. Kunden mit weniger als 2 Millionen Euro Umsatz sind zu 55% unzufrieden. 18% der Kunden weisen einen Umsatz von 2-3 Millionen Euro auf und sind zufrieden. Von allen Kunden zeigten sich 30% unzufrieden. Vervollst¨ andigen Sie die Kontingenztafel zur gemeinsamen, bivariaten Verteilung h(u, z), der Variablen “U = Umsatz [Mio Euro]“ und “Z=Zufriedenheitsgrad“! Umsatz U [Mio e] 2-3 3<
0-2 zufrieden unzufrieden
0.087778
Aufgabe 2.13. Das folgende Bild zeigt die Verteilung der Reisearten im Reiseb¨ uro “Beam“ bez¨ uglich aller Buchungen pro Halbjahr: 55%
60% 45%
50%
35%
40% 30% 20%
20%
30%
1.Halbjahr 2.Halbjahr
15%
10% 0% Schiffahrten
Flüge
Sonst
Im gesamten Jahr betr¨ agt der Anteil der Schifffahrten 18.5%. Berechnen und skizzieren Sie die Verteilung der Reisearten bez¨ uglich aller Buchungen des gesamten Jahres! Aufgabe 2.14. Auf der Ferieninsel “Quallatoll“ sind 20% der Touristen aus Europa. 38% aller Touristen bevorzugen zum Essen Bier zu trinken. Unter den europ¨ aischen Touristen betr¨ agt der Anteil der Biertrinker 58%, unter den Touristen aus den USA 25% und unter den u ¨brigen Touristen 35%. Wie viele der 20000 Touristen auf Quallatoll kommen aus Europa, den USA und von sonst woher?
402
F Aufgaben
Aufgabe 2.15. Die Babb & S¨ uß AG startete letzte Woche im Fernsehen einen neuen Werbespot f¨ ur Schokokekse. Eine Umfrage unter der Bev¨olkerung ergab, dass sich 30% aller Befragten noch an den Spot erinnern konnten. Unter den K¨ aufern des Produktes liegt dieser Anteil bei 45%. Insgesamt kauften 20% der Befragten das Produkt. Bewerten Sie die Werbewirksamkeit des Spots, indem Sie den K¨auferanteil unter den Personen, die den Spot kennen, mit dem K¨auferanteil unter den Personen, die den Spot nicht kennen, vergleichen! Aufgabe 2.16. An Regentagen verkauft Wurstelmax bei 38% seiner Kunden zus¨ atzlich zur Wurst auch noch ein Getr¨ ank. Bei Nichtregen liegt dieser Anteil um 27% h¨ oher. Generell verkauft er an 44% seiner Kunden zus¨atzlich noch ein Getr¨ ank. Wie oft regnet es? Aufgabe 2.17. Die Deutsche Presseagentur meldet im Herbst 2001: “30% aller Arbeitslosen sind 50 Jahre oder ¨ alter. Ihr Anteil an den Langzeitsarbeitslosen ist mit 50% u ¨berdurchschnittlich.“ a) Wie ist “¨ uberdurchschnittlich“ in der letzten Aussage wohl zu verstehen? b) Wie hoch ist der Anteil der Langzeitarbeitslosen bei Arbeitslosen von 50 oder mehr Jahren, wenn man weiß, dass 37% aller Arbeitslosen Langzeitarbeitslose sind? Aufgabe 2.18. Das Kaufhaus “Gratissimo“ betreibt in der dritten Etage ein Restaurant. Es gibt “Kunden“, die durch das Kaufhaus bummeln, aber nichts einkaufen und auch nicht das Restaurant besuchen. 20% der Kunden, die ins Restaurant gehen, haben im Kaufhaus nichts gekauft. Von den Kunden, die nicht ins Restaurant gehen, haben 40% im Kaufhaus etwas gekauft. 14% aller Kunden besuchen das Restaurant. Wie viel Prozent der Kunden, die im Kaufhaus etwas einkaufen, gehen ins Restaurant? Aufgabe 2.19. Unter den m¨ annlichen Studenten tragen 28% Brillen. Es gibt 42% mehr Frauen als M¨ anner unter den Studenten. Insgesamt tragen 38% Brillen. Wie hoch ist der Frauenanteil unter den Brillentr¨agern? Aufgabe 2.20. In einer Stadt sind 20% der Bev¨olkerung Studenten. Im S¨ udteil der Stadt leben 12000 Personen, von denen 4000 Studenten sind. Im Rest der Stadt liegt der Studentenanteil bei 18%. Wie viele Einwohner hat die Stadt?
F Aufgaben
Aufgaben zu Kapitel 3:
403
Lageparameter
Aufgabe 3.1. Ein Test bez¨ uglich der Lebensdauer X von 10 Gl¨ uhbirnen ergab folgende Werte in Stunden: 200; 150; 6000; 370; 4200; 1200; 1300; 400; 800; 200. a) Berechnen Sie den Modus, Median und den Durchschnitt. Warum ist der Modus hier nicht besonders aussagekr¨ aftig? Wie k¨onnte man Abhilfe schaffen? b) Wie ¨ andern sich die Lageparameter, wenn ein weiterer Messwert x=15000 hinzukommt? Beurteilen Sie die Aussagekraft der Werte! Aufgabe 3.2. Bei einer Maschine wurden die St¨orungen X pro Tag u ¨ber einen Zeitraum von 200 Tagen t¨ aglich gemessen. F¨ ur die relativen H¨aufigkeiten ergab sich: X h(x)
0 0.10
1 0.10
2 0.20
3 0.15
4 0.10
5 0.25
6 0.05
7 0
8 0.05
Geben Sie den Modus, den Zentralwert und den Durchschnitt an! Aufgabe 3.3. Gegeben ist die Verteilung des Jahresumsatzes X von 5000 Firmen: X[Mio e] h(x)
0≤x≤1 0.10
1<x≤5 0.30
5 < x ≤ 100 0.45
100 < x ≤ 1000 0.15
Bestimmen Sie den Modalwert, Median, Durchschnitt und die 25%- und 75%Quantile! Innerhalb der Klassen wird jeweils eine Gleichverteilung unterstellt! Aufgabe 3.4. Bei einem Geldautomaten wurden pro Wochentag u ¨ber einen l¨angeren Zeitraum hinweg folgende mittlere Summen X in Euro abgehoben: Wochentag X [e]
So 150
Mo 300
Di 250
Mi 100
Do 150
Fr 200
Sa 300
Es ist bekannt, dass 10% der Kunden am Sonntag, 25% der Kunden Samstag und der Rest der Kunden auf die verbleibenden Wochentage gleichm¨aßig verteilt den Automaten aufsuchen. Wie viel Geld wird im Durchschnitt pro Abhebung dem Automaten entnommen? Wie w¨are eine Urliste der entsprechenden Daten aufgebaut? Aufgabe 3.5. Ein Konzern unterh¨ alt 3 Einzelhandelsketten, A, B, C, mit insgesamt 4000 Filialen. Die Anzahl der Filialen der 3 Ketten A, B, C verh¨alt
404
F Aufgaben
sich wie 5:2:1. Der mittlere Umsatz pro Filiale betr¨agt bei der Kette A 2 [Mio e/Fil] bei B 6 [Mio e/Fil] und bei C 5 [Mio e/Fil] a) Wie hoch ist der durchschnittliche Umsatz pro Filiale im Gesamtkonzern? b) Der Konzern kauft eine weitere Kette D, mit einem mittleren Filialumsatz von 4 [Mio e/Fil]. Die Kette D besteht aus 1200 Filialen. Um wie viel Prozent ¨ andert sich nach der Fusion der durchschnittliche Filialumsatz innerhalb des Konzerns? Aufgabe 3.6. “Mc Duck“ ist eine “Slow-Food“ Kette, die hochwertige Leckereien an drei Standorten A, B, C anbietet. Der mittlere Umsatz pro Kunde liegt in A bei 48 Euro und in B bei 62 Euro. Die Anzahl der Kunden verteilt sich auf die Standorte A, B, C wie 3 : 2 : 11. Insgesamt erwirtschaftet Mc Duck 59 Euro pro Kunde. a) Um wie viel Prozent liegt der mittlere Umsatz pro Kunde bei C u ¨ber dem Gesamtdurchschnitt? b) Wie viel Prozent des Gesamtumsatzes wird in C erwirtschaftet? ¨ Aufgabe 3.7. In Belgien kostet 1 Kilogramm Apfel 1.5 Euro, in Holland 1.2 Euro und in Frankreich 2 Euro. Wie hoch ist der mittlere Preis f¨ ur ein ¨ Kilogramm Apfel, wenn f¨ ur 5000 Euro in Belgien, f¨ ur 12000 Euro in Holland und f¨ ur 1000 Euro in Frankreich eingekauft wird? Aufgabe 3.8. Die Produktionsgeschwindigkeiten betragen bei Maschine A 50, bei Maschine B 40 und bei Maschine C 90 [Stk/h]. Berechnen Sie die mittlere Produktionsgeschwindigkeit v¯, wenn a) Maschine A 2 Stunden, Maschine B 8 Stunden und Maschine C 5 Stunden eingesetzt werden, b) auf Maschine A 600 St¨ ucke, auf Maschine B 600 St¨ ucke und auf Maschine C 1000 St¨ ucke hergestellt werden! Aufgabe 3.9. In der Abteilung A eines Unternehmens liegt der Umsatz pro Mitarbeiter bei 280000 [e/Mitarbeiter]; in der Abteilung B ist der Umsatz pro Mitarbeiter um 40% h¨ oher. Siebzig Prozent des Gesamtumsatzes fallen auf Abteilung A. Bestimmen Sie den Umsatz pro Mitarbeiter im Gesamtunternehmen! Aufgabe 3.10. In den St¨ adten A, B, C wurde das mittlere Fahrgastaufkommen pro Bus gemessen: In A betr¨ agt es 16, in B 50 und in C 40 Fahrg¨aste pro Bus. Die Anzahl aller Fahrg¨ aste von A und die Anzahl aller Fahrg¨aste
F Aufgaben
405
von B verhalten sich wie 17:7. In C werden 120% mehr Busse eingesetzt als in A und B zusammen. Wie hoch ist das durchschnittliche Fahrgastaufkommen pro Bus in allen St¨ adten zusammen?
Aufgaben zu Kapitel 4:
Streuungsmaße
Aufgabe 4.1. Die folgenden Daten sind die Ums¨atze in Euro pro Kunde einer Tankstelle zwischen 9.00 Uhr und 12.00 Uhr: 40, 8, 20, 20, 22.5, 36.8, 72, 102, 20, 44.75, 77, 50, 44, 44, 49.2, 12, 60, 40.8, 33, 14. Bestimmen Sie den Modus, den Median, den Durchschnitt (arithmetisches Mittel), den Range, die mittlere absolute Abweichung, die Standardabweichung und die Varianz! Aufgabe 4.2. Die folgende Grafik zeigt die kumulierte Verteilung H(x) der monatlichen Miete aller Haushalte von Habheim: 1.0
0.95
1
0.8 0.6 0.4
0.3
0.2
0.1 200
500
1000
XDM
2000
a) Was sind hier die Objekte, wie lautet das Merkmal? b) Berechnen Sie den Modus, den Median, den Mittelwert, den Range, die Standardabweichung und die Varianz! c) Wie lauten die Ergebnisse, wenn die Grafik in Euro dargestellt w¨are? Benutzen Sie den Kurs 1,95 [DM/Euro]!
Aufgabe 4.3. Die folgende Graphik zeigt die H¨aufigkeitsdichte der Tagesums¨ atze eines Gesch¨ aftes im 2. Quartal letzten Jahres: 0.40
0.4
0.125 0.0667 0
0.075 3
4
6
8
X
a) Wie k¨ onnte die zugrundeliegende Urliste aufgebaut sein? Was entspricht den Objekten und dem Merkmal?
406
F Aufgaben
b) Bestimmen Sie den Mittelwert, den Modus, das 70%-Quantil, die Varianz und den Range des Merkmals X! c) Skizzieren Sie die kumulierte Verteilung des Merkmals X!
Aufgabe 4.4. In Hausingheim wurden s¨ amtliche Wohnungen bez¨ uglich ihres Alters A [Jahre] und der Anzahl der Renovierungen R seit Erstbezug erfasst. F¨ ur die gemeinsame Verteilung h(A = a, R = r) ergaben sich folgende Werte:
Renovierungen R
1 2 3
0-20 0.15 0.10 0.05
A [Jahre] 20-50 0.04 0.30 0.11
50-100 0.00 0.07 0.18
a) Berechnen und interpretieren Sie h(R < 3|A > 20), h(0 ≤ A ≤ 50|R = 2)! b) Berechnen Sie zu jeder Altersklasse die durchschnittliche Anzahl der Renovierungen und die Varianz! c) Wie hoch ist die Standardabweichung der Renovierungen? d) Skizzieren Sie die H¨ aufigkeitsdichte des Alters und die kumulierte Verteilung! Bestimmen und interpretieren Sie das 68%-Quantil zum Merkmal A!
Aufgabe 4.5. Grundst¨ ucke in Quietschingen Grundst¨ ucksgr¨ oße [m2 ]
Anzahl
Durchschnittspreis [e/m2 ]
100-1000
100
200
1000-2000
200
180
2000-10000
500
140
a) Skizzieren Sie in geeigneter Weise die kumulierte und nicht kumulierte Verteilung der Grundst¨ ucksgr¨ oße! b) Berechnen Sie aufgrund der Skizze die Varianz der Grundst¨ ucksgr¨oßen sowie den Anteil der Grundst¨ ucke, die nicht gr¨oßer als 1600 Quadratmeter sind. c) Berechnen Sie den durchschnittlichen Preis eines Grundst¨ uckes in Quietschingen!
Aufgabe 4.6. Im Cafe “Schlurf“ ergab sich bez¨ uglich des t¨aglichen Kaffeekonsums in Litern folgende kumulierte Verteilung:
F Aufgaben 1.0
0.90
0.8
0.2
1
0.60
0.6 0.4
407
0.20 70 90
150
230
LiterTag
a) Stellen Sie die nicht-kumulierte Verteilung des Kaffeekonsums als Histogramm dar! b) Zu welchem Prozentsatz treten Tage mit einem t¨aglichen Konsum von 100175 Litern auf? c) Berechnen Sie den Mittelwert, den Zentralwert, den Modus und die Standardabweichung des Kaffeekonsums!
Aufgaben zu Kapitel 5:
Weitere Eigenschaften
Aufgabe 5.1. Isolde hat Melonen geerntet. Das Gewicht betr¨agt im Schnitt 1.2 Kilogramm pro Melone und besitzt eine Varianz von 0.3 [kg2 ]. Isolde verpackt jede Melone in einzelne Kisten. Jede Kiste wiegt 0.0006 Tonnen. Bestimmen Sie zum Gesamtgewicht, das eine Melone inklusive ihrer Kiste umfasst, den Mittelwert, die Varianz und die Standardabweichung! Das Gesamtgewicht wird in Gramm gemessen. Aufgabe 5.2. In Hippoland gibt es viele Feriend¨orfer. In 2% aller D¨orfer machten 50 Touristen, in 18% aller D¨ orfer machten 500 Touristen, in 46% aller D¨ orfer machten 600 Touristen, in 29% aller D¨ orfer machten 700 Touristen, in 5% aller D¨ orfer machten 1100 Touristen Urlaub. Bestimmen Sie die Varianz des Merkmals “X=Anzahl Touristen“. Bestimmen Sie, wie viel Prozent der D¨ orfer zwischen 300 und 950 Touristen zu Gast hatten! Beantworten Sie die Frage auch mit Hilfe der Tschebyscheff-Ungleichung! Aufgabe 5.3. B¨ acker Max hat im letzten Jahr Ums¨atze von durchschnittlich 4000 [e] pro Tag eingenommen. Die Varianz betr¨agt 360000 [e2 ]. Sch¨atzen Sie ab, wie viel Prozent der Tage Ums¨ atze zwischen 2500 und 5500 Euro aufweisen! Aufgabe 5.4. Ein Merkmal X besitzt die Standardabweichung σ und den Mittelwert x ¯. Bestimmen Sie ein Intervall, in dem mindestens die H¨alfte aller Objekte der Grundgesamtheit liegt! Konstruieren Sie das Intervall symmetrisch zum Mittelwert. Die Breite des Intervalls sollte als Vielfaches der Standardabweichung angegeben werden.
408
F Aufgaben
Aufgaben zu Kapitel 6: Deskriptive Korrelation und Kovarianz Aufgabe 6.1. Im Kaufhaus Nix wurde an 7 Tagen jeweils die Anzahl der Kunden X in Tausend und der erzielte Tagesumsatz Y [Tsde] ermittelt. Kunden Umsatz [Tsde]
20 400
30 500
90 2000
40 600
30 400
80 1500
60 1200
Berechnen Sie die Korrelation von X und Y mit dem Korrelationskoeffizienten. Illustrieren Sie jeweils die Datenlage! Ein anderer Statistiker hat nahezu dieselben Werte ermittelt, jedoch den ersten Tag durch einen anderen ersetzt: Kunden Umsatz [Tsde]
10 10000
30 500
90 2000
40 600
30 400
80 1500
60 1200
Wie ¨ andern sich die Ergebnisse? Aufgabe 6.2. Barkeeper Jonny entwickelt einen neuen Longdrink, den er “Daily Crazy“ nennen m¨ ochte. Dazu testet er mit einigen (freiwilligen) Probanden verschieden Mixturvarianten, die er auf einer Skala mit den Werten “schlecht, ertr¨ aglich, befriedigend, s¨ uffig, exzellent“ beurteilen l¨asst. Folgendes Ergebnis liegt vor: Proband Urteil Martini Zimt
X Y [ml] Z [g]
1 s¨ uffig 20 4.0
2 schlecht 16 3.0
3 exzellent 22 2.5
4 s¨ uffig 18 2.2
5 befriedigend 18 5.0
6 exzellent 21 1.1
Bestimmen Sie den Rangkorrelationskoeffizienten nach Spearman zwischen Urteil-Martini, zwischen Urteil-Zimt und zwischen Martini-Zimt!
Aufgaben zu Kapitel 7: Deskriptive Regressionsrechnung
Aufgabe 7.1. Die Fluggesellschaft “Wooden Comfort“ hat bei mehreren Fl¨ ugen auf der Strecke Frankfurt-Paris bei gleichem Flugzeugtyp die Anzahl X der Passagiere und den Treibstoffverbrauch Y [kg] gemessen: X Y [kg]
100 3000
110 3000
150 3200
100 3100
200 3500
Unterstellen Sie eine lineare Abh¨ angigkeit der Treibstoffmenge bez¨ uglich der Passagierzahl und berechnen Sie die entsprechende Funktion! Skizzieren Sie
F Aufgaben
409
den gesamten Sachverhalt und interpretieren Sie die berechneten Koeffizienten! Aufgabe 7.2. Heinrich verkauft an seinem Kiosk Sonnenbrillen. Der Absatz an Sonnenbrillen [Stk/Tag] h¨ angt vom Wetter, insbesondere von der Sonnenscheindauer [h/Tag] ab. Er unterstellt eine lineare Abh¨angigkeit. Zur Darstellung des Sachverhaltes greift er auf folgende Daten der letzten 5 Tage zur¨ uck: Sonnenscheindauer [h/Tag] Absatz [Stk]
2 30
5 40
12 60
14 70
5 50
Berechnen Sie die lineare Funktion und skizzieren Sie den kompletten Sachverhalt! Interpretieren Sie das Ergebnis! Aufgabe 7.3. Bei einer Großbank wurde an mehreren Tagen jeweils die Anzahl X der Kunden in Millionen und die verbrauchte Rechenzeit Y [Sekunden] des Großrechners ermittelt: (1; 30000), (1; 40000), (2; 40000), (4; 50000), (4; 70000). Skizzieren Sie die Daten zusammen mit einer linearen Funktion, die am besten die Abh¨ angigkeit der Rechenzeit zur Anzahl der Kunden beschreibt! Wie sind die Koeffizienten der Funktion zu interpretieren? Wie viele Kunden k¨onnten bei durchschnittlicher Betrachtungsweise maximal an einem Tag kommen? Aufgabe 7.4. Im Call-Center einer Bank wurde im Monat November bei 5 Beratern mit ¨ ahnlichen Aufgaben und vergleichbarer Kundenstruktur die Anzahl der Telephonanrufe T und der Papierverbrauch P [Blatt] ermittelt: (400; 1800) , (300; 1800) , (600; 2200) , (200; 1500) , (400; 1500). Berechnen und interpretieren Sie den Papierverbrauch in Abh¨angigkeit der Telefonate, wenn ein linearer Zusammenhang unterstellt wird! Illustrieren Sie den Sachverhalt anhand einer Skizze! Aufgabe 7.5. Der Zirkus “Mobo Tobo“ gastiert am Stadtrand. Um auf seine t¨ aglichen Vorstellungen aufmerksam zu machen, l¨auft ein Student als Elefant verkleidet jeden Tag eine bestimmte Zeit X [h] u ¨ber den Marktplatz. Er verdient 12 [e] pro Stunde. Die Zeitdauer variiert von Tag zu Tag, da der Student an manchen Tagen zur Statistikvorlesung gehen muss. Es ergeben sich folgende Daten: X [h/Tag] Y [Kunden/Tag]
2 1000
2 1200
3 1200
4 1400
Es wird eine lineare Beziehung zwischen der Zeitdauer des Elefantenauftritts und der Kundenanzahl unterstellt. Berechnen Sie die Regressionsgerade und interpretieren Sie die Koeffizienten! Skizzieren Sie die Messwerte und die Gerade!
410
F Aufgaben
Aufgaben zu Kapitel 8:
Indizes
Aufgabe 8.1. Einkaufsmengen und Preise bei einer Schreinerei Mengen Jahr
07
08
Preise 09
Farbe
8
7.5
9
N¨ agel
300
320
350
Holz
50
40
40
Energie
4000
4500
4200
07
08
[m ]
0.4
0.5
0.7
[e/l]
[Tsd]
2.0
1.8
1.9
[e/TsdStk]
[t]
0.50
0.60
0.55
[e/kg]
[kWh]
0.15
0.16
0.18
[e/kWh]
3
09
Berechnen Sie die Preisindizes, Mengenindizes nach Laspeyres und Paasche, sowie die Wertindizes zu allen m¨ oglichen Basisperioden. Um wie viel Prozent steigen gem¨ aß dieser Indizes jeweils die Mengen, Preise und Ums¨atze von 07 bis 09? Aufgabe 8.2. Einkaufsmengen und Preise bei einer B¨ ucherei Mengen Jahr
Preise [e/Stk]
08
09
08
09
Zeitungen
400000
420000
0.8
0.85
Zeitschriften
50000
40000
2
2.3
B¨ ucher
120000
150000
8
10
CD
25000
35000
9
8
Videos
8000
10000
15
14
a) Bestimmen Sie zun¨ achst f¨ ur jedes einzelne Produkt die einfachen Preisindizes. Ermitteln Sie daraus zur Basisperiode 2008 die Preissubindizes nach Laspeyres f¨ ur die beiden G¨ utergruppen “Printmedien“ und “elektronische Medien“! Berechnen Sie aus diesen Subindizes den Preisindex f¨ ur alle G¨ uter! b) Bestimmen Sie zun¨ achst f¨ ur jedes einzelne Produkt die einfachen Mengenindizes. Ermitteln Sie daraus zur Basisperiode 08 die Mengensubindizes nach Laspeyres f¨ ur die beiden G¨ utergruppen “Printmedien“ und “elektronische Medien“! Berechnen Sie aus diesen Subindizes den Mengenindex f¨ ur alle G¨ uter! c) Inwiefern m¨ usste man bei Paasche-Indizes anders vorgehen?
Aufgabe 8.3. Eine Sennerei verkauft Butter und K¨ase. Von 2004 bis 2009 stieg der K¨ aseumsatz um 20%, wohingegen der Butterumsatz um 5% fiel. Insgesamt stieg der Umsatz in diesem Zeitraum um 11%. Die K¨asepreise stiegen zeitgleich um 6%, der Butterpreis stieg um 14%.
F Aufgaben
411
a) Berechnen Sie die gemeinsame Preissteigerung aller Produkte von 20042009 nach der Laspeyres-Methode. b) Nach wie vielen Jahren w¨ are der Butterumsatz um 80% gefallen, wenn die Entwicklung von 2004-2009 sich fortsetzen w¨ urde? Aufgabe 8.4. a) In Hugos Schuhladen haben sich gem¨ aß des Laspeyres-Preisindex Halbschuhe, Sandalen und Stiefel von 2005-2009 um j¨ahrlich durchschnittlich 3% verteuert. Die Stiefel haben sich im gleichen Zeitraum um j¨ahrlich durchschnittlich 2% verteuert. Im Jahr 2005 war der Stiefelumsatz um 30% niedriger als der Umsatz mit Sandalen und Halbschuhen. Um wieviel Prozent haben sich Halbschuhe und Sandalen von 2005-2009 verteuert? b) Hugo hat den Mengenindex nach Laspeyres f¨ ur alle Produkte abschnittsweise ermittelt: Jahr
00
01
02
03
QL (00, t)
1
0.99
0.87
0.91
QL (03, t)
C
QL (07, t)
1
04
05
06
07
08
09 A
1.03
1.06
1.11
1.04
B
1
0.92
D
0.67
Berechnen Sie die fehlenden Werte A,B,C,D durch Verkn¨ upfung der Reihen! Interpretieren Sie den Wert D! Aufgabe 8.5. Dem Statistischen Jahrbuch 2002 sind folgende, unvollst¨andig wiedergegebene Informationen entnommen: Index der Einkaufspreise landwirtschaftlicher Betriebsmittel (mit Umsatzsteuer) 1995 =100 Betriebsmittel
Gewicht
1997
2001
Alle
1000
104.2
A
Waren und Dienstleistungen f¨ ur die laufende Produktion - D¨ ungemittel
765.16
105.1
112.1
66.66
98.5
108.2
- Sonstige Waren und Dienstleistungen f¨ ur die laufende Produktion Neubauten u. neue Maschinen
698.50
B
112.5
234.84
101.4
105.9
- Ackerschlepper
58.27
99.9
105.2
101.9
D
- Sonstige Neubauten u. neue Maschinen
C
a) Wie ist das Gewicht f¨ ur “Ackerschlepper“ zu verstehen? b) Berechnen Sie die fehlenden Werte A,B,C,D! Interpretieren Sie jeweils die Werte zu A und B!
412
F Aufgaben
Aufgabe 8.6. Index der Erzeugerpreise forstwirtschaftlicher Produkte aus den Staatsforsten (aus dem Statistischen Jahrbuch 2008, Stat. Bundesamt) Gewicht Rohholz insgesamt Stammholz u. Stammholzabschnitte
2003
2004
1000 104.40 103.00
2002
95.40
100 111.40
790.91 105.40 102.70
95.30
100 110.00 120.40
85.90
100
F
2007 B
48.62
Buche Stammholz
74.92 127.20 117.20 104.70
100 100.60 109.40
E
Fichte Stammholz Fichte Stammholzabschnitte Kiefer zusammen Kiefer Stammholz Kiefer Stammholzabschnitte Industrieholz
85.00
2006
Eiche Stammholz Fichte zusammen
88.10
2005
124.80 D
102.90 101.90
94.10
100 112.30
422.14 103.30 102.30
94.50
100 111.60 122.70
128.30
-
-
-
100 114.60 114.80
116.93
99.50
99.40
95.60
100 105.80 123.10
101.10 101.00
97.20
A 45.70 209.09
-
-
99.80 103.80
95.90
100 106.90 125.10 100
C
120.00
100 116.80 159.00
a) Berechnen Sie die Werte A, B, C, D, E, F! Interpretieren Sie die Werte von A und D! b) Um wie viel Prozent haben sich die Preise f¨ ur “Fichte Stammholz“ von 2002 bis 2007 pro Jahr im Schnitt ver¨ andert? In wie vielen Jahren w¨ urden sich die Preise dreimal verdoppelt haben, wenn sich diese Entwicklung fortsetzt? c) Im Jahr 2002 betr¨ agt der Indexwert f¨ ur “Stammholz u. Stammholzabschnitte“ 105.4. Versuchen Sie diese Kenngr¨ oße aus den entsprechenden Subindizes zu aggregieren! Warum erhalten Sie ein anderes Ergebnis?
Aufgaben zu Kapitel 9: Grundlagen der Wahrscheinlichkeitsrechnung
20 --20
40
Aufgabe 9.1. Es sei “X=Wert des Segmentes, der nach dem Stillstand des Gl¨ ucksrades angezeigt wird“. Bestimmen und skizzieren Sie die WahrscheinlichkeitsX verteilung von X und die kumulierte Verteilungsfunktion F (x)! Wie hoch ist die Wahrscheinlichkeit einen Wert zwischen 0 und 15 einschließlich und die Wahrscheinlichkeit zwischen 0 und 15 ausschließlich zu erhalten? Wie kann man diese Wahrscheinlichkeit mittels F (x) berechnen? 15
10
Aufgabe 9.2. Die Anzahl der verkauften Autos pro Tag l¨asst sich f¨ ur das Autohaus “Brumm“ mittels einer Zufallsvariablen X beschreiben. Es ist bekannt: P (X = 0) = 0.2;
P (X = 1) = 0.35;
P (X = 2) = 0.25;
P (X = 3) = 0.15.
F Aufgaben
413
Ist X vom diskreten oder stetigen Typ? Berechnen Sie jeweils die Wahrscheinlichkeit, dass an einem zuf¨ allig gew¨ ahlten Tag - mehr als 3 Autos, - weniger als 3 und mindestens 1 Auto, - weniger als 3 oder mindestens 1 Auto, - keines oder genau 3 Autos, - keines und genau 3 Autos, - mindestens 2 oder h¨ ochstens -4 Autos, - zwischen -0,2 und 1,807 Autos, - nicht genau 3 Autos verkauft werden. Aufgabe 9.3. Bei einer Kantine hat man zur Beschleunigung der Zahlungsvorg¨ ange eine einfache Preisstruktur eingef¨ uhrt. Es gibt 4 Komplettmen¨ us inklusive Getr¨ anke zu 3, 4, 6 und 9 [e]. Die Wahrscheinlichkeit, dass ein Gast weniger als 5 [e] zahlt, liegt bei 70%. Das Men¨ u zu 9 [e] wird zu 20% gekauft. Das Men¨ u zu 4 [e] wird zu 90% ¨ ofter gew¨ ahlt als das Men¨ u zu 3[e]. a) Bestimmen und skizzieren Sie die kumulierte Verteilungsfunktion F (x) und die Wahrscheinlichkeitsverteilung des Preises X, den ein zuf¨allig ausgew¨ahlter Kunde zahlt! b) Berechnen Sie mittels der kumulierten Verteilung F (x) die Wahrscheinlichkeiten P (4 ≤ X ≤ 8) und P (4 < X < 8)! Aufgabe 9.4. Die Spielbank “Lucky“ bietet ein W¨ urfelspiel an, bei dem der Spieler den quadratischen Wert der gew¨ urfelten Augenzahl in Euro erh¨alt. Der Preis f¨ ur ein Spiel betr¨ agt p Euro. usste die Spielbank f¨ a) Welchen Preis p m¨ ur das Spiel verlangen, wenn sie auf lange Sicht einen durchschnittlichen Gewinn von 2 [e/Spiel] erzielen m¨ ochte? b) Skizzieren sie die kumulierte und nicht-kumulierte Verteilung des Gewinnes, den ein Spieler erzielen kann, wenn er f¨ ur ein Spiel 15 Euro zahlen m¨ usste! Aufgabe 9.5. Sei X eine zwischen 0 und 5 gleichverteilte Zufallsvariable und sei Y eine zwischen 0 und 0.25 gleichverteilte Zufallsvariable. a) Bestimmen Sie jeweils die Verteilungsfunktionen F (x) und die Dichte f (x)! Skizzieren Sie beide Dichtefunktionen in eine Zeichnung!
414
F Aufgaben
b) Berechnen und illustrieren Sie anhand der Dichtefunktionen und der Verteilungsfunktionen die Wahrscheinlichkeiten P (0.1 ≤ X ≤ 0.2) und P (0.1 ≤ Y ≤ 0.2)! c) Berechnen Sie jeweils das 60%-Quantil zu X und Y ! d) Vergleichen Sie: P (2.2 < X < 3.7), P (2.2 ≤ X < 3.7), P (2.2 < X ≤ 3.7), P (2.2 ≤ X ≤ 3.7). Aufgabe 9.6. Frau Egalia meidet es, in ihrem Leben Schwerpunkte zu setzen. Deshalb genießt sie es, ihre Bankfiliale zu vollkommen beliebigen, zuf¨alligen Zeitpunkten aufzusuchen. Die Filiale hat morgens von 9.15 Uhr bis 13.00 Uhr und nachmittags von 14.00 Uhr bis 16.15 Uhr ge¨offnet. a) Bestimmen und skizzieren Sie die Dichte f (x) zur Zufallsvariablen “X=Zeitpunkt, zu dem Frau Egalia das n¨ achste Mal die Filiale betritt“. b) Wie hoch ist die Wahrscheinlichkeit, dass Fr. Egalia zwischen 12.00 Uhr und 15.45 Uhr eintrifft? Aufgabe 9.7. Die Auszahlung eines Gl¨ ucksspiels besitzt eine Verteilung, die mit der folgenden Dichte beschrieben werden kann: 0.02 0.015
0
30
70 90 110
XAuszahlung €
a) Mit welcher Wahrscheinlichkeit werden - 40.5 bis 53.7 Euro, - 65.8 bis 95.1 Euro ausgezahlt? b) Skizzieren Sie ein Gl¨ ucksrad, das obiges Verhalten aufzeigen k¨onnte! c) Skizzieren Sie die kumulierte Verteilungsfunktion F (x) = P (X ≤ x)! Aufgabe 9.8. Die Lebensdauer T [Jahre] eines PC besitzt f¨ ur t ≥ 0 folgende 2 kumulierte Verteilungsfunktion: F (t) = 1 − e−0.08t . a) Bestimmen und skizzieren Sie die Dichtefunktion f (t)! b) Wie wahrscheinlich ist es jeweils, dass ein PC - l¨ anger als 5 Jahre, - weniger als 10 Tage, - weniger als 6 Monate oder mehr als 20 Monate, -u ¨ber 2 Jahre, aber weniger als 18 Monate,
F Aufgaben
415
- weniger als 3 Jahre, aber mehr als 10 Monate funktionsf¨ ahig ist. c) Bestimmen und interpretieren Sie den Median und das 75%-Quantil zu T ! d) Berechnen, interpretieren und veranschaulichen Sie mittels der Dichte: F (3.5) − F (2)! Aufgabe 9.9. Ein 20 Meter langes Rohr besteht auf den ersten Zehn Metern und auf den letzten 5 Metern aus Eisen. Dazwischen ist es aus Plastik. Das Rohr ist ansonsten gleich beschaffen. Herr Offermann sitzt vor dem Rohr und wartet auf den ersten Rostfleck. Die Position des ersten Flecks wird vom linken Rand mit 0 beginnend gemessen und mit X [m] bezeichnet. a) Skizzieren Sie die Dichte und die kumulierte Verteilung von X! b) Berechnen Sie P (6.45 ≤ X ≤ 16.45)! c) Bestimmen Sie den Erwartungswert und die Varianz! Hierf¨ ur sind Kenntnisse der Integralrechnung n¨ otig! Aufgabe 9.10. Bei einer Fabrik, die im Dreischichtbetrieb arbeitet, entf¨allt 40% der Gesamtproduktion auf die 1. Schicht. Die Wahrscheinlichkeit, w¨ahrend der ersten Schicht ein defektes St¨ uck zu produzieren, liegt bei 12%, w¨ahrend der zweiten Schicht bei 18% und w¨ ahrend der dritten Schicht bei 26%. a) Wie hoch sind die Produktionsanteile der zweiten und dritten Schicht, wenn der Gesamtausschuß bei 20% liegt? b) Wie hoch ist die Wahrscheinlichkeit, dass unter den defekten St¨ ucken ein St¨ uck aus der ersten Schicht stammt? Aufgabe 9.11. Zwecks einer Kundenzufriedenheitsanalyse werden in S¨ uddeutschland 3000 Frageb¨ ogen und in Norddeutschland 6000 B¨ogen verschickt. Erfahrungsgem¨ aß liegt die R¨ ucklaufquote u ¨berall bei 24%. Um diese zu verbessern hat man bei den s¨ uddeutschen B¨ogen ein Gewinnspiel integriert. Man erwartet, dass in ganz Deutschland 2400 B¨ogen zur¨ uckgesendet werden. Wie hoch w¨ are dann die Chance, dass ein Fragebogen mit Gewinnspiel beantwortet wird? Aufgabe 9.12. Im Kaufhaus Polynix ist bekannt, daß 30% der Verkaufsur sonstige vorg¨ ange im Textilbereich, 50% bei Haushaltswaren und 20% f¨ Artikel abgewickelt werden. Die Reklamationsquote betr¨agt im Textilbereich 2%, bei Haushaltswaren 1% und bei sonstigen Artikeln 4%. a) Wie hoch ist die Wahrscheinlichkeit, dass ein zuf¨allig ausgew¨ahlter Verkaufsvorgang im Kaufhaus Polynix zu einer Reklamation f¨ uhrt? Benutzen
416
F Aufgaben
Sie zwei geeignete Zufallsvariablen X, Y und formalisieren Sie obige Informationen! b) Wie weit m¨ usste man die Reklamationsquote f¨ ur sonstige Artikel senken, um die Gesamtquote auf 1.2% zu dr¨ ucken? Aufgabe 9.13. Bei den Kunden der Zock-Bank kann man ein AktienKaufverhalten beobachten, das von dem Aktienindex ADIX beeinflusst wird: Falls der Index steigt, kaufen 6%, falls er f¨ allt, kaufen 10% der Kunden Aktien. Der Index ist nie exakt gleichbleibend. a) Ein Analystenteam sch¨ atzt die Wahrscheinlichkeit, dass der Index morgen steigt, auf 85%. Wie hoch w¨ are dann die Wahrscheinlichkeit, dass ein zuf¨ allig ausgew¨ ahlter Kunde keine Aktien kauft? b) Ein andermal sch¨ atzt das Analystenteam, dass ca. 7% der Kunden Aktien kaufen werden. Wie hoch wird demnach von ihnen die Wahrscheinlichkeit eingesch¨ atzt, dass der Index steigt? Aufgabe 9.14. Gegeben sind 2 unabh¨ angige Zufallsvariablen U und V mit den Wahrscheinlichkeiten: V P (V = v)
-90 0,30
12 0,10
180 0,60
U P (U = u)
1 0,80
0 0,20
Bestimmen Sie die gemeinsame Verteilung P (U = u, V = v)! Aufgabe 9.15. Bestimmen Sie die Wahrscheinlichkeiten, dass bei 3 unabh¨ angigen W¨ urfen eines W¨ urfels die Augensumme 5 betr¨agt! Benutzen Sie hierf¨ ur 3 geeignete Zufallsvariablen! Aufgabe 9.16. Bestimmen Sie die Wahrscheinlichkeit, dass bei zweimaligem W¨ urfeln die Differenz “1.Wurf - 2.Wurf“ mindestens 3 betr¨agt! Aufgabe 9.17. Ferdinand Ohsenbaum hatte in seinem Weinkeller 33 Flaschen vom Jahrgang 1980 zu einem Preis von 13 [e/Fl] und 14 Flaschen vom Jahrgang 1991 zu einem Preis von 20 [e/Fl] eingelagert. Sein Nachbar Ottokar Bockelheimer hatte in seinem Weinkeller 20 Flaschen vom Jahrgang 1986 zu einem Preis von 19 [e/Fl] und 32 Flaschen vom Jahrgang 1976 zu einem Preis von 44 [e/Fl] eingelagert. Im Dezember 2003 gab es in beiden Weinkellern nach langen Regenf¨ allen Hochwasser, so dass sich bei den Flaschen die Etiketten abl¨ osten, die Flaschen aus den Regalen geschwommen sind und nach dem Hochwasser in ihren jeweils eigenen Kellern nicht identifizierbar am Boden lagen.
F Aufgaben
417
a) An Silvester holt Ferdinand Ohsenbaum eine Weinflasche aus seinem Keller. Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariablen “Alter der Weinflasche“ und skizzieren Sie die kumulierte und nichtkumulierte Verteilung! b) Ferdinand Ohsenbaums Nachbar Ottokar Bockelheimer kommt an Silvester zu Besuch und bringt ebenfalls eine Weinflasche mit. Skizzieren Sie die kumulierte und nicht-kumulierte Verteilung des Gesamtwertes beider Flaschen! Aufgabe 9.18. Es wird ein neues Automodell “Blitz 5-2V“ eingef¨ uhrt. F¨ ur die Anzahl X der Reparaturen, die bei den ersten 80000 Kilometer pro Auto anfallen werden, halten die Konstrukteure des neuen Modells folgende Wahrscheinlichkeitsverteilung f¨ ur realistisch: Wahrscheinlichkeitsverteilung von X 40% 25%
20%
1
2
15%
3
4
Reparaturen pro Auto
a) Berechnen Sie den Erwartungswert und die Varianz von X! b) Skizzieren Sie die kumulierte Verteilung von X! c) Wie wahrscheinlich ist es, dass unter den Autos, bei denen mindestens 2 Reparaturen anfallen, ein Auto genau dreimal repariert wird? d) Die Anzahl der Reparaturen eines Autos ist von der Anzahl der Reparaturen eines anderen Autos unabh¨ angig. Wie wahrscheinlich ist es, dass zwei Autos zusammen genau 6 Reparaturen aufweisen? Aufgabe 9.19. Eine Eisverk¨ aufer hat folgende Beobachtung bez¨ uglich der Wahrscheinlichkeitsverteilung der Anzahl Eiskugeln X pro Person gemacht: Verteilung der Eiskugelanzahl bei Erwachsenen
40% 25%
20%
15%
1
2
3 Eiskugeln
4
Verteilung der Eiskugelanzahl bei allen Kunden 37% 30% 21% 12%
1
2
3
4
Eiskugeln
a) Kinder nehmen zu 30% genau 1 Kugel. Skizzieren Sie die kumulierte und nicht-kumulierte Verteilung der Eiskugelanzahl bei Kindern!
418
F Aufgaben
b) Berechnen Sie den Erwartungswert und die Varianz des Merkmals X bei Erwachsenen. c) Wie wahrscheinlich ist es, dass 2 Erwachsene zusammen bis zu 3 Kugeln essen? Unterstellen Sie dabei, dass die Erwachsenen unabh¨angig die Kugelzahl w¨ ahlen.
Aufgabe 9.20. Da man bei einem Geldautomaten nicht im voraus weiß, welche Kunden wann kommen und wie viel Geld abheben, ist es sinnvoll, den jeweiligen Betrag mit einer Zufallsvariablen zu beschreiben. Im Wohngebiet Schlummidorf sei dies X [e] und bei dem Automaten am Flughafen sei dies Y [e]. Es ist zudem bekannt: X 50 100 200 500 P (X = x) 0.02 0.20 0.60 0.18
Y 50 100 200 500 P (Y = y) 0.05 0.25 0.30 0.40
a) Berechnen Sie μx , μy σx σy ! b) Berechnen Sie f¨ ur beide Automaten den Erwartungswert und die Standardabweichung, wenn sich jeweils 400 Kunden unabh¨angig voneinander an dem Automaten bedienen! Berechnen Sie daraus den Erwartungswert und die Standardabweichung f¨ ur die Summe aller an beiden Automaten entnommenen Geldbetr¨ age!
Aufgabe 9.21. Das Los f¨ ur das Gewinnspiel A kostet 5 [e]. Mit den Chancen von 0.1 Promille kann man 10000 [e], mit 2% 100 [e] und mit 10% 15 [e] gewinnen. Das Los f¨ ur das Gewinnspiel B kostet k [e]. Mit einer Chance von 1 kann man 10 000 000 [e] gewinnen. 15 000 000 Wie teuer m¨ usste das Los f¨ ur Spiel B sein, wenn auf lange Sicht beide Lotterien den gleichen “Gewinn“ f¨ ur einen Teilnehmer erzielen sollen? Berechnen Sie f¨ ur diese Situation die Varianz beider Gewinne! Aufgabe 9.22. Auf eine F¨ ahre, die ein Leergewicht von 30 Tonnen besitzt, passen 20 Autos. Das Gewicht Xi eines Autos i ist eine Zufallsvariable mit einem Erwartungswert von 950 [kg] und einer Standardabweichung von 120 [kg]. Man kann annehmen, dass die Gewichte Xi der einzelnen Autos unabh¨angig sind. Berechnen Sie f¨ ur das in Tonnen gemessene Gesamtgewicht der voll beladenen F¨ ahre den Erwartungswert und die Standardabweichung! Aufgabe 9.23. Ein Versicherungsvertreter ben¨otigt f¨ ur ein Beratungsgespr¨ ach eine Zeit X, die als Zufallsvariable mit bekanntem Erwartungswert μ = 1.2 [h] und Standardabweichung σ = 0.4 [h] betrachtet werden kann. Berechnen Sie jeweils den Erwartungswert und die Standardabweichung f¨ ur
F Aufgaben
419
die Gesamtzeit, wenn n = 2, 10, 20, 50, 100 Beratungen hintereinander durchgef¨ uhrt werden! Skizzieren Sie diese Gr¨ oßen als Funktion von n! Die Zeiten der Einzelgespr¨ ache k¨ onnen als unabh¨ angige, identisch verteilte Zufallsvariablen aufgefasst werden. Aufgabe 9.24. Im Restaurant “Suppix“ kann ein Gast zum Pauschalpreis von 5 [e] beliebig viele Teller der Tagessuppe essen. Die Anzahl X der Teller pro Gast ist eine Zufallsvariable und besitzt folgende Verteilung: P (X = 1) = 0.15, P (X = 2) = 0.45, P (X = 3) = 0.30, P (X = 4) = 0.10. a) Berechnen Sie den Erwartungswert und die Varianz von X! b) Wie wahrscheinlich ist es, dass bei G¨ asten, die mindestens 2 Teller essen, ein Gast genau 3 Teller isst? c) Die G¨ aste verhalten sich bez¨ uglich der Anzahl der Teller unabh¨angig. Wie wahrscheinlich ist es, dass zwei G¨ aste insgesamt genau 6 Teller essen? d) Die variablen Kosten pro Teller Suppe betragen 1.10 [e/Teller]; die fixen Kosten betragen 1.40 [e/Gast]. Wie hoch ist der Erwartungswert und die Varianz des Gewinnes bei einem Gast? Wie hoch ist der Erwartungswert und die Varianz des Gewinnes bei 500 unabh¨angigen G¨asten? ¨ Aufgabe 9.25. Eine LKW wird mit Apfeln und Birnen beladen. Das Gewicht eines Apfels liegt im Schnitt bei 280 [g] und besitzt eine Standardabweichung von 40 [g]. Eine Birne wiegt im Schnitt 0.210 [kg] bei einer Varianz von ¨ sind unabh¨angige 0.000625 [kg2 ]. Die Massen der einzelnen Birnen und Apfel Zufallsvariablen. a) Wie groß ist der Erwartungswert und die Standardabweichung des Gesamtgewichtes in Kilogramm, wenn 1 Apfel und 1 Birne geladen werden? b) Wie groß ist der Erwartungswert und die Standardabweichung des Gesamt¨ gewichtes in Tonnen, wenn 600 Apfel und 400 Birnen geladen werden? Aufgabe 9.26. Die Zufallsvariable X nimmt mit 50% Wahrscheinlichkeit den Wert −3 und mit 50% Wahrscheinlichkeit den Wert 5 an. Berechnen Sie E[X]! Pr¨ ufen Sie anhand von √ b) f (x) = x3 , c) f (x) = x + 10 a) f (x) = ex , dass E[f (X)] = f (E[X]) gilt. Skizzieren Sie den Sachverhalt! Kennen Sie eine Funktion f (x), bei der Gleichheit besteht? Aufgabe 9.27. B¨ acker Julius hat fast nur Stammkunden. Kommt an einem Tag ein Kunde nicht, so ist es um so wahrscheinlicher, dass der Kunde
420
F Aufgaben
am n¨ achsten Tag bei ihm einkauft. Daher unterstellt er f¨ ur die beiden Zufallsvariablen “X = Umsatz morgen [Tsde]“ und “Y = Umsatz u ¨bermorgen [Tsde]“ eine negative Korrelation von ρx,y = −0.85. Zudem sei bekannt, dass beide Variablen X, Y eine identische Normalverteilung mit μ = 9 und σ 2 = 7 besitzen. a) Berechnen Sie die Wahrscheinlichkeit, dass der Gesamtumsatz U = X + Y u ¨ber 20 000 Euro liegen wird! b) Mit welchem Mindestwert f¨ ur den Gesamtumsatz U kann Julius mit 95% Wahrscheinlichkeit rechnen? Aufgabe 9.28. Die t¨ agliche Rendite R1 der Bluff Aktie und die Rendite R2 der Flux Aktie sind zwei Zufallsvariablen mit den Erwartungswerten μ1 = 0.02 und μ2 = 0.03. Die Varianzen betragen σ12 = 0.00045, σ22 = 0.0008, die Kovarianz der Renditen ist σ1,2 = −0.000026. Max m¨ochte insgesamt 100 Euro in beide Aktien investieren. a) Berechnen Sie jeweils die Varianz der Rendite der Gesamtinvestition, wenn 25 Euro in die Bluff Aktie, bzw. wenn 50 Euro in die Bluff Aktie investiert werden! b) Berechnen Sie jeweils die Varianz der Rendite der Gesamtinvestition, wenn x Euro in die Bluff Aktie investiert werden. Zeichnen Sie die Varianz in Abh¨ angigkeit von der Bluff-Investition x! Wann w¨are die Varianz der Rendite der Gesamtinvestition am geringsten? c) Zeichnen Sie die erwartete Rendite der Gesamtinvestition als Funktion von x!
Aufgaben zu Kapitel 10:
Spezielle Verteilungen
Aufgabe 10.1. Eine Abf¨ ullanlage ist so eingestellt, dass eine Flasche im Mittel mit μ [ml] Bier bef¨ ullt wird. Wegen der Schaumbildung und aufgrund von Vibrationen besteht eine Standardabweichung von 3 [ml]. Es wird unterstellt, dass die F¨ ullmenge X einer Flasche normalverteilt ist. Eine korrekt gef¨ ullte Flasche sollte mindestens 500 [ml] Inhalt aufweisen. a) Wie hoch ist jeweils die Wahrscheinlichkeit f¨ ur eine zu geringe Bef¨ ullung, wenn die Maschine auf μ = 500, 501, 502, 505 [ml] eingestellt wird? b) Wie ist die Maschine eingestellt, wenn die Wahrscheinlichkeit f¨ ur eine korrekte Bef¨ ullung bei 98% liegt? c) Sei μ = 505 [ml]. Wie hoch ist die Wahrscheinlichkeit, dass die F¨ ullmenge zwischen 499 und 508 Millilitern liegt?
F Aufgaben
421
Aufgabe 10.2. Die Dauer eines Beratungsgespr¨aches in einem K¨ uchenstudio ist normalverteilt mit μ = 50 Minuten und σ 2 = 200 [Min2 ]. a) Berechnen Sie die Wahrscheinlichkeit, dass ein Gespr¨ach - weniger als 15 Minuten dauert, - l¨ anger als eine Stunde, - nicht zwischen 30 und 40 Minuten dauert! b) Welche Mindestgespr¨ achsdauer wird zu 90% u ¨berschritten? c) Geben sie einen Bereich an, innerhalb dessen mit 95% Wahrscheinlichkeit die Gespr¨ achsdauer des n¨ achsten Kunden prognostiziert werden kann. Der Bereich sollte ein symmetrisch um den Erwartungswert liegendes Intervall sein. Nutzen Sie die Symmetrie der Glockenkurve bzw. Φ(−x) = 1 − Φ(x)! Aufgabe 10.3. Der t¨ agliche Stromverbrauch in Fabrik A sei normalverteilt mit Erwartungswert 1400 [kWh] und einer Standardabweichung von 200 [kWh]. Ebenso ist der Stromverbrauch in Fabrik B normalverteilt mit Erwartungswert 2100 [kWh] und einer Standardabweichung von 500 [kWh]. a) Wie hoch ist jeweils die Wahrscheinlichkeit, dass in Fabrik A bzw. B der Verbrauch u ¨ber 1500 [kWh] steigt? b) Welcher Stromverbrauch wird in Fabrik B zu 90% nicht u ¨berschritten? c) Mit welcher Wahrscheinlichkeit liegt der Stromverbrauch bei A zwischen 1250 und 1750 [kWh]? d) Wie hoch ist die Wahrscheinlichkeit, dass die “kleinere“ Fabrik A an einem Tag mehr Strom verbraucht als B? Es sei unterstellt, dass die t¨aglichen Stromverbr¨ auche beider Fabriken unabh¨ angig sind. Aufgabe 10.4. F¨ ur die Zufallsvariable “X = Umsatz in Dollar“ gelte: X ∼ N (6000, 7000). Ab welchem Wechselkurs k [$/e] betr¨agt das Risiko, einen Umsatz von weniger als 6010 Euro zu erzielen, nur 10%? Aufgabe 10.5. Der Durchmesser eines Bonbon soll mindestens 18 [mm] betragen. Bei der Produktion unterliegt der Durchmesser eines St¨ uckes zuf¨alligen, unvermeidbaren, normalverteilten Schwankungen bei einer Varianz von 0.6 [mm2 ]. a) Berechnen Sie die Wahrscheinlichkeit, dass ein Bonbon den Sollwert erf¨ ullt, wenn die Produktion im Durchschnitt - 1.1 Millimeter unter dem Mindestsollwert liegt, - 0.5 Millimeter u ¨ber dem Mindestsollwert liegt!
422
F Aufgaben
b) Auf welchen durchschnittlichen Bonbondurchmesser m¨ usste man die Produktion einstellen, damit mit 90% Wahrscheinlichkeit Bonbons hergestellt werden, die mit der Sollvorgabe konform sind? Aufgabe 10.6. In einem Mietshaus gibt es 3 Wohnungen, deren t¨aglicher in Litern gemessener Wasserverbrauch jeweils durch die drei Zufallsvariablen A, B, C mit μA = 40, μB = 66, μC = 84 und σA = 2, σB = 8, σC = 3 beschrieben wird. Es wird angenommen, dass A, B, C unabh¨angige und normalverteilte Zufallsvariablen sind. a) Berechnen Sie f¨ ur jede Wohnung die Wahrscheinlichkeit, dass der Verbrauch u ¨ber 43 Liter liegt, jedoch nicht zwischen 80 und 85 Litern! b) Berechnen Sie f¨ ur den t¨ aglichen Gesamtverbrauch die Wahrscheinlichkeit, dass 170 bis 200 Liter Wasser verbraucht werden! Aufgabe 10.7. Die Herstellung eines Staubsaugers unterteilt sich in 4 nachfolgende Einzelschritte, deren Zeitdauer A, B, C, D [Min] alle unabh¨angig, normalverteilt sind. Es ist bekannt: μA = 10.3, μC = 22,
2 σA = 4.2, 2 σC = 19,
2 μB = 5.5, σB = 0.9, 2 μD = 55.2, σD = 36.8.
a) Bestimmen Sie die Verteilung von “X= Gesamtdauer“! b) Wie wahrscheinlich sind folgende Ereignisse: - Die Produktion dauert l¨ anger als 1.5 Stunden. - Die Produktion wird innerhalb von 1.4 und 1.8 Stunden fertig. Aufgabe 10.8. Es werden Rohre hergestellt. Die L¨ange eines einzelnen Rohres wird durch eine normalverteilte Zufallsgr¨ oße beschrieben mit einem Erwartungswert von 65 [cm] und einer Standardabweichung von 0.11 [cm]. a) Wie hoch ist jeweils die Wahrscheinlichkeit, dass ein Rohr zwischen 65.04 und 65.08 [cm] misst? b) Welche L¨ ange eines Rohres wird zu 90% nicht u ¨berschritten? c) Wie hoch ist die Wahrscheinlichkeit, dass die Gesamtl¨ange von 80 aneinander gelegten Rohren 52.006 Meter u ¨bersteigt? Welche Mindestl¨ange ergibt sich zu 77%? ¨ Aufgabe 10.9. In der Abbelwoikneipe “Zum s¨ uffische S¨aftsche“ wird den ¨ G¨ asten der Abbelwoi in sogenannten “Bembelschen“ zu 2.40 [e/Stk] verkauft. Der Einkaufspreis liegt bei 0.90 [e/Liter]. Die Bedienung, Fr. Rauscher, ist
F Aufgaben
423
nicht mehr die J¨ ungste und lamentiert u ¨ber Zittern, Ischias und Wasser in den Beinen. Die Bembelsche f¨ ullt sie daher je nach Verfassung nicht alle gleich ein. Die Stammg¨ aste wissen das und glauben die tats¨achliche F¨ ullmenge eines Bembelsche mit einer normalverteilten Variablen beschreiben zu k¨onnen. Die erwartete F¨ ullmenge liegt bei 0.8 [Liter] und die Standardabweichung betr¨agt 70 [ml]. Zudem kann man Unabh¨ angigkeit bei den F¨ ullmengen unterstellen. a) Wie hoch ist die Wahrscheinlichkeit, dass ein Bembelsche eine F¨ ullung von 750 bis 830 [ml] aufweist? b) Wie hoch ist jeweils die Wahrscheinlichkeit, dass bei 1496 bzw. 1510 verkauften Bembelschen ein Fass mit 12 Hektolitern nicht reicht? c) Fr. Rauscher hat am Abend 264 [e] mit dem Verkauf von Bembelschen eingenommen. Wie hoch ist die Wahrscheinlichkeit, dass der Gewinn u ¨ber 185 [e] liegt? Aufgabe 10.10. In einer Pralinenschachtel werden n = 6 Pralinen verpackt. Eine einzelne Praline ist mit einer Wahrscheinlichkeit von 0.5% mangelhaft. Es kann davon ausgegangen werden, dass die M¨angel der Pralinen unabh¨angig auftreten. Bestimmen Sie mittels einer geeigneten Zufallsvariablen, wie wahrscheinlich es jeweils ist, dass keine, 1, 2,....6 M¨angel pro Schachtel vorliegen! Errechnen Sie f¨ ur die Gesamtzahl der M¨ angel pro Schachtel den Erwartungswert sowie die Standardabweichung! Aufgabe 10.11. Bei einer Bank liegen 2 von 7 Auszahlungen u ¨ber 1000[e]. a) Berechnen und skizzieren Sie die Wahrscheinlichkeiten, dass bei 5 zuf¨allig beobachteten Kunden genau x = 0,1,2,3,4,5 Kunden h¨ochstens 1000[e] verlangen. b) Berechnen und skizzieren Sie die Wahrscheinlichkeiten, dass bei 5 zuf¨allig beobachteten Kunden genau y = 0,1,2,3,4,5 Kunden mehr als 1000[e] verlangen. Welche Beziehung besteht zwischen den Ergebnissen von a) und b)? Aufgabe 10.12. Neun von Zehn Kindern sind Fans von “Harry Potter“. Wie hoch ist jeweils die Wahrscheinlichkeit, dass - bei 10 zuf¨ allig ausgew¨ ahlten Kindern genau 9 Potter-Fans, ahlten Kindern genau 90 Potter-Fans sind? - bei 100 zuf¨ allig ausgew¨ Aufgabe 10.13. Bei einer Fußball-WM stehen noch 15 Spiele aus, bei denen, sofern der Spielstand keinen Sieger erkennen l¨asst, eine Verl¨angerung der regul¨ aren Spielzeit vorgesehen ist. Max ist fest davon u ¨berzeugt, dass jedes
424
F Aufgaben
Spiel unabh¨ angig von den anderen mit einer Chance von 28% verl¨angert wird. Mit welcher Wahrscheinlichkeit werden dann im restlichen Turnier - genau 6 Spiele verl¨ angert, - mindestens 2 Spiele verl¨ angert? Aufgabe 10.14. In einem Lackierbetrieb gibt es 6 Trocken¨ofen zu je 24 [kW]. Erfahrungsgem¨ aß sind aber im Schnitt 1.8 Ger¨ate nicht einsatzbereit. Der Ausfall eines Ger¨ ates tritt unabh¨ angig von den Defekten anderer Ger¨ate auf. Wie hoch ist die Wahrscheinlichkeit, dass der Leistungsbedarf - zwischen 60 und 90 [kW], -u ¨ber 95 [kW] liegt? Aufgabe 10.15. Eine Spedition schickt w¨ ochentlich 9 gleichartige LKW mit einer Ladung von je 8 [t] gleichzeitig nach Novosibirsk auf die Reise. Aufgrund von Pannen kommen im Mittel nur 82% der LKW p¨ unktlich an. Die Pannen treten bei den LKW unabh¨ angig auf. Geben Sie jeweils die Wahrscheinlichkeit an, dass in einer Woche insgesamt weniger als 50, 55, 60, 65, 70, 75, 80 [t] p¨ unktlich nach Novosibirsk transportiert werden. Aufgabe 10.16. Das Passagierschiff Gobi ist mit 8 K¨ uhlkammern ausgestattet. Ein Ausfall einer K¨ uhlkammer w¨ ahrend einer Reise tritt unabh¨angig vom Zustand der anderen Kammern auf. Das Risiko f¨ ur den Ausfall einer Kammer betr¨ agt erfahrungsgem¨ aß 6%. Um die Passagiere wie geplant zu versorgen, sind 7 funktionierende Kammern ausreichend. Zur Sicherheit, l¨ asst der Kapit¨ an aber alle vorhandenen Kammern vor der Abreise f¨ ullen. Sollten nur 6 Kammern auf See verf¨ ugbar sein, wird den Passagieren eine Di¨ at verordnet; ab nur noch 5 funktionierenden Kammern muss allerdings SOS gemorst werden. Welche Chancen bestehen jeweils, dass eine Reise als Di¨ atfall, als Notfall oder wie geplant verl¨auft? Aufgabe 10.17. Zu einer Werbeveranstaltung f¨ ur ein neues Produkt werden 10 Personen eingeladen. Die R¨ aumlichkeiten reichen aber nur f¨ ur 7 Personen aus. Erfahrungsgem¨ aß nehmen nur ca. 60% der angesprochenen Personen die Einladung wahr. Man kann ferner davon ausgehen, dass die Personen sich nicht angig voneinander u kennen bzw. unabh¨ ¨ber die Einladung entscheiden. a) Berechnen Sie die Wahrscheinlichkeit, dass es zu Beschwerden wegen der Pl¨ atze kommt! b) Wenn h¨ ochstens 2 Personen kommen, f¨ allt die Veranstaltung aus und die Besucher bekommen das Produkt geschenkt. Wie h¨aufig kommt das vor?
F Aufgaben
425
¨ Aufgabe 10.18. Bei Kaufmann Alfons liegen in einer Kiste 12 Apfel, von ¨ ¨ denen 5 Apfel wurmig sind. Max m¨ ochte 4 Apfel kaufen. Alfons greift rein ¨ zuf¨ allig in die Kiste und nimmt 4 Apfel heraus. Mit welcher Wahrscheinlichkeit ¨ hat Max 0, 1, 2, 3, 4 wurmige Apfel gekauft? Aufgabe 10.19. In Phondorf gibt es 25 Haushalte ohne und 15 Haushalte mit Internetanschl¨ ussen. Wendelin w¨ ahlt zuf¨ allig 8 Haushalte aus und fragt dort nach, ob sie einen Internetanschluss besitzen. Mit dem Ergebnis f¨ uhrt er eine Sch¨ atzung (Punktsch¨ atzung) f¨ ur den ihm unbekannten Anteil der angeschlossenen Haushalte in Phondorf durch. Mit welcher Wahrscheinlichkeit sch¨ atzt Wendelin einen Anteil von mindestens 75%?
Aufgaben zu Kapitel 11:
Zentraler Grenzwertsatz
Aufgabe 11.1. Ein Glasbl¨ aser ben¨ otigt im Schnitt 7 Minuten zur Herstellung einer Vase. Die Standardabweichung betr¨ agt 2 Minuten. Die Zeiten s¨amtlicher Arbeitsschritte sind unabh¨ angige Zufallsvariablen. - Mit welcher Wahrscheinlichkeit k¨ onnen 500 Vasen innerhalb von 61 Produktionsstunden hergestellt werden? Benutzen Sie den Zentralen Grenzwertsatz! - Wie viele Produktionsstunden br¨ auchte er maximal, um mit 95% Wahrscheinlichkeit die doppelte Anzahl, also 1000 Vasen fertigzustellen? Aufgabe 11.2. Ein LKW der Firma “Hurry & Late“ f¨ahrt durch eine Stadt, bei der 50 Ampeln in der Rotphase angetroffen werden. Es sei unterstellt, dass keine Ampelkoordination existiert, d.h. alle Ampeln unabh¨angig schalten. Man weiß, dass die Wartezeit Xi bei jeder roten Ampel i gleichverteilt zwischen 0 und 40 Sekunden liegt. Es sei “Y =Gesamtwartezeit bei allen 50 roten Ampeln“. a) Berechnen Sie f¨ ur eine einzelne Ampel i E[Xi ] und V AR[Xi ]! b) Nutzen Sie den Zentralen Grenzwertsatz und berechnen Sie n¨aherungsweise die Wahrscheinlichkeiten, dass der LKW zu sp¨at ankommt, wenn f¨ ur die Fahrzeit maximal 15 Minuten Wartezeit veranschlagt worden sind! c) Wie wahrscheinlich ist es, zwischen 20 und 30 Minuten zu warten? Aufgabe 11.3. Bei einem Geschmackstest k¨ onnen die Noten 1, 2, 3, 4, 5 vergeben werden. Es werden 60 Personen unabh¨angig befragt. ¯ aller 60 a) Warum kann man annehmen, dass das arithmetische Mittel X Testergebnisse ann¨ ahernd normalverteilt ist?
426
F Aufgaben
b) Angenommen alle Testpersonen bewerten rein willk¨ urlich bzw. rein zuf¨allig. Welchen Erwartungswert und welche Varianz hat ein einzelner Test? Nutzen Sie dieses Ergebnis um die Wahrscheinlichkeit zu bestimmen, dass das ¯ im Bereich 2.5-3.5 liegt! arithmetische Mittel X c) L¨ osen Sie nochmals Aufgabe b) unter der Annahme, dass eine Testperson Extreme w¨ ahlt d.h. zu 50% die 1 und zu 50% die 5 vergibt! Aufgabe 11.4. Ein belgisches Unternehmen verkauft u ¨ber das Internet in Europa und den USA B¨ ucher. Die Zahlungen m¨ ussen in Euro oder Dollar erfolgen. Der Wert einer Bestellung liegt im Schnitt bei 29 [e] mit einer Standardabweichung von 8 [e] innerhalb Europas und im Schnitt bei 34[$] mit einer Standardabweichung von 9[$] in den USA. Wie hoch ist die Chance, einen Gesamtumsatz von mindestens 67000 [e] zu erzielen, wenn jeweils 1000 Bestellungen in Euro und 1000 Bestellungen in Dollar eingehen? Vergleichen Sie diese Wahrscheinlichkeiten, wenn der Wechselkurs von 0.90 [$/e] auf 1.10 [$/e] steigt! Welche Annahmen unterstellen Sie in Ihrer Rechnung? Aufgabe 11.5. Das Boulevardblatt “Laberrababer“ verkauft in S¨ uddeutschland t¨ aglich im Schnitt 200000 Zeitungen mit einer Standardabweichung von 10000 und in Norddeutschland 420000 Zeitungen mit einer Standardabweichung von 54000. Im Ausland werden im Schnitt 84000 Zeitungen mit einer Standardabweichung von 6000 abgesetzt. Die Zeitung kostet 0.80 [e/Stk]. a) Wie wahrscheinlich ist es, dass nach 300 Tagen insgesamt zwischen 210 bis 220 Millionen Zeitungen verkauft werden ? Welche Annahme benutzen Sie? b) Welcher Mindestumsatz k¨ onnte nach 100 Tagen zu 95% garantiert werden? Aufgabe 11.6. Mit 3.5% Wahrscheinlichkeit kann man beim Essen von Popkorn ein hartes, beißunfreundliches Korn erwischen. a) Onda sitzt mit einer T¨ ute Popkorn im Kino und bietet ihrem Begleiter Klaus 22 zuf¨ allig ausgew¨ ahlte K¨ orner an. Mit welcher Wahrscheinlichkeit kann Klaus auf bis zu 2 harte K¨ orner beißen? b) Onda isst die restlichen 820 Popk¨ orner. Mit welcher Wahrscheinlichkeit beißt Onda auf 17-20 harte K¨ orner? Aufgabe 11.7. Es werden an zwei Standorten A und B T¨ uten mit dem gleichen Schriftzug bedruckt. Die Produktionsgeschwindigkeit betr¨agt im Werk A 9 [Stk/h] und im Werk B 5 [Stk/h]. Alle T¨ uten, die mit der h¨oheren Geschwindigkeit bedruckt werden, zeigen einen unsauberen, verwischten Druck auf, wohingegen bei den anderen T¨ uten der Druck nicht beanstandet werden
F Aufgaben
427
kann. Die gesamte Produktion wird wahllos vermischt an die Kunden weitergegeben. a) Berechnen Sie die Wahrscheinlichkeit, dass von 16 zuf¨allig ausgew¨ahlten T¨ uten mindestens 12, aber weniger als 14 T¨ uten dabei sind, die fehlerhaft bedruckt sind! b) Berechnen Sie die Wahrscheinlichkeit, dass von 10 000 T¨ uten 50-75% aus der Produktion A stammen! Aufgabe 11.8. Almhilde kauft gerne “Blobb-Smacks“ im 500 Gramm-Pack ¨ zu 1.50[e], da dort jeweils eine Plastikfigur als Uberraschungsgeschenk beigef¨ ugt ist. In Sammlerkreisen ist insbesondere ein siebenschw¨anziges Monster begehrt, das man erfahrungsgem¨ aß mit einer Chance von nur 6% in einer Packung vorfinden kann. Beim Abf¨ ullen werden die Plastikfiguren rein zuf¨allig den Packungen zugeordnet. a) Mit welcher Wahrscheinlichkeit kann Almhilde maximal 3 siebenschw¨anzige Monster erhalten, wenn sie ihr Taschengeld von 18[e] in “Blobb-Smacks“ investiert? b) Mit welcher Wahrscheinlichkeit kann Almhilde u ¨ber 282 siebenschw¨anzige Monster erhalten, wenn sie ihre gesamten Ersparnisse von 4500 [e] in “Blobb-Smacks“ investiert? Aufgabe 11.9. Das Versandhaus Meckerfrau versendet 400000 Kataloge. Man weiß aus Erfahrung, dass ein angeschriebener Kunde mit einer Wahrscheinlichkeit von 15% eine Bestellung aufgibt. Einen Katalog zu verschicken kostet 3 [e] und eine Bestellung erbringt einen Erl¨os von 22 [e]. a) Sei “X=Anzahl der Bestellungen“. Welche Verteilung besitzt X, wenn man annimmt, dass die Kunden unabh¨ angig voneinander reagieren? b) Berechnen Sie jeweils die Wahrscheinlichkeit f¨ ur - Weniger als 60300 aber mehr als 59900 Kunden bestellen, - Mehr als 60500 oder weniger als 59600 Kunden bestellen, - Der Gewinn u ¨bersteigt 110000 [e] - Der Gewinn liegt unter 125000 [e] - Ein Verlust tritt ein!
Aufgaben zu Kapitel 12:
Stichproben
Aufgabe 12.1. Papageienfutterhersteller Siegfried m¨ochte mit einer Stichprobe sch¨ atzen, wie viele Papageien in Schnabelingen gehalten werden. Da
428
F Aufgaben
Siegfried eine Vorahnung besitzt, in welchen Regionen der Stadt bevorzugt Papageien anzutreffen sind, m¨ ochte er eine Stichprobe ziehen, bei der keine reine Zufallsauswahl der Haushalte praktiziert wird. Dazu teilt er die Stadt in drei Regionen auf: - Region A mit 500 Haushalten, - Region B mit 200 Haushalten, - Region C mit 100 Haushalten. a) Siegfried wendet ein zweistufiges Verfahren an, indem er bei jeder Ziehung zun¨ achst eine Region zuf¨ allig bestimmt und dann innerhalb der Region rein zuf¨ allig einen Haushalt ausw¨ ahlt. Die Bestimmung der Region erfolgt mit Hilfe eines Zufallsgenerators (geeignetes Gl¨ ucksrad), der so gebaut ist, dass sich die Auswahlwahrscheinlichkeiten der Regionen A, B, C wie 8:5:2 verhalten. b) Siegfried w¨ ahlt einen Zufallsgenerator, der ihm in einem einzigen Schritt direkt einen Haushalt ausw¨ ahlt. Dabei sollen sich die Wahrscheinlichkeiten, dass ein Haushalt von A, B bzw. C gezogen wird wie 8:5:2 verhalten. Wie hoch ist jeweils die Wahrscheinlichkeit, dass der Haushalt von Ulla, die in A wohnt, gezogen wird, dass der Haushalt von Frauke, die in B wohnt, gezogen wird, dass der Haushalt von Christina, die in C wohnt, gezogen wird? Aufgabe 12.2. In Quipsland leben 40 000 000 Einwohner, von denen 15 000 000 Personen keine Aktien besitzen. Max befragt 3 zuf¨allig ausgew¨ahlte Personen. Mit welcher Wahrscheinlichkeit befinden sich in seiner Stichprobe genau 2 Aktienbesitzer? Berechnen Sie das Ergebnis “mit und ohne Zur¨ ucklegen“ der jeweils ausgew¨ ahlten Personen!
Aufgaben zu Kapitel 13:
Sch¨ atzverfahren
Aufgabe 13.1. Eine Maschine, die n Kugeln herstellen soll, ist so eingestellt, dass die Kugeldurchmesser der Kugeln i = 1 . . . n jeweils mit μ = 80 [mm] und σ=0.7 [mm] unabh¨ angig normalverteilt sind. Der Maschinist kennt den wahren Wert von μ nicht. Er kann ihn nur sch¨atzen. Es soll gezeigt werden, wie sich die Sch¨ atzung des Erwartungswertes μ durch ¯ bei wachsendem Stichprobenumfang n verbessert. Beden Punktsch¨ atzer X ¯ maximal 0.01 [mm] von dem rechnen Sie dazu die Wahrscheinlichkeit, dass X wahren Mittelwert μ abweicht, wenn f¨ ur n = 1, 10, 100, 1000, 10000, 100000 gew¨ ahlt wird! Aufgabe 13.2. Zu den Aktien BMW und VW sind folgende Daten bekannt:
F Aufgaben
07.11.2007 06.11.2007 05.11.2007 02.11.2007 01.11.2007 31.10.2007
BMW Schluss [e] 41.55 43.31 44.80 44.24 44.95 46.23
429
VW Schluss [e] 184.94 188.05 187.01 191.09 192.82 197.90
Sch¨ atzen Sie die Korrelation der Tagesrenditen beider Aktien! Der Einfachheit halber sei der Wochenendeffekt vernachl¨ assigt, d.h. die Renditebetrachtung bezieht sich nur auf Handelstage. Ist es sinnvoll, die obigen Daten als unabh¨ angige Zufallsstichprobe zu betrachten? Aufgabe 13.3. In den letzten Jahren ergaben sich bei Familie Spanhel folgende Heiz¨ olverbrauchsmengen in Liter: 3500, 3200, 4100, 3500, 3800, 3600. Der j¨ ahrliche Heiz¨ olverbrauch wird als normalverteilte Zufallsvariable aufgefasst. Welche Argumente sprechen daf¨ ur oder dagegen? Berechnen Sie f¨ ur Familie Spanhel ein Konfidenzintervall f¨ ur den Erwartungswert bei einer Zuverl¨ assigkeit von 90% und interpretieren Sie es! Aufgabe 13.4. Es soll ermittelt werden, wie lange im Schnitt ein Bundesb¨ urger die Fußball-Europameisterschaft im Fernsehen verfolgt hat. Es wurden aus der Bev¨olkerung in zuf¨ alliger Weise 9 Personen herausgegriffen und bez¨ uglich Ihrer “Zuschau-Zeit“ befragt: 8, 11, 20, 20, 12, 24, 36, 0, 4 [h]. Berechnen Sie ein Intervall, das den gesuchten Wert mit einer Wahrscheinlichkeit von nur 5% nicht u ¨berdeckt! Welche Annahmen gebrauchen Sie in Ihrer Rechnung? Aufgabe 13.5. Am Gaudeamus-Gymnasium wird das didaktische Konzept “Lernen, Wissen, fr¨ ohlich sein“ mit Nachdruck praktiziert. Dazu geh¨ort auch der ausgiebige Milchkonsum w¨ ahrend der Pausen. Bestimmen Sie f¨ ur diese Schule ein Intervall, das den zuk¨ unftigen, mittleren, t¨aglichen Konsum an Milch mit 90% Wahrscheinlichkeit u ¨berdeckt! Es steht folgende Zufallsstichprobe zur Verf¨ ugung: 410, 350, 320, 360, 380, 350 [Liter/Tag]. Der t¨ agliche Konsum wird als normalverteilte Zufallsvariable aufgefasst. Welche Argumente sprechen daf¨ ur oder dagegen? Aufgabe 13.6. Der Hustenbonbonhersteller KEUCH m¨ochte wissen, wie lange ein Kind im Alter von 3 bis 16 Jahren an einem einzigen Bonbon im Schnitt lutscht. Bei einer Zufallsstichprobe mit 400 Kindern ergaben sich folgende Werte: - 200 Kinder lutschten 20 Minuten, - 100 Kinder lutschten 30 Minuten,
430
F Aufgaben
- 100 Kinder lutschten 50 Minuten. L¨osen Sie das Problem mit einem geeigneten statistischen Verfahren unter Zugrundelegung einer Sicherheitswahrscheinlichkeit von 95% (Antwortsatz)! Wie ¨ andert sich das Ergebnis, wenn man berechtigte Zweifel h¨atte, ob die Verteilung der Lutschdauer eines einzelnen Bonbons normalverteilt ist? Aufgabe 13.7. Zur besseren Steuerung des Personaleinsatzes in einer Gesch¨aftsstelle wurden an 60 zuf¨ allig ausgew¨ ahlten Tagen jeweils von 9-12 Uhr und von 12-16 Uhr stundenweise die Kunden gez¨ ahlt. F¨ ur die Stunden vor 12 ergab ur die Stunden nach 12 y¯=48, s2y =32. sich x ¯=64, s2x =47 und f¨ a) Berechnen und interpretieren Sie geeignete Konfidenzintervalle zu einer Zuverl¨ assigkeit von 95%. Welche Annahmen sind zu treffen? b) Wie w¨ urde das Ergebnis aussehen, wenn man w¨ usste, dass die Varianz in beiden Tagesh¨ alften exakt 41 betr¨ agt? Aufgabe 13.8. Um in einem Supermarkt die Lagerhaltung f¨ ur Milch und Butter besser planen zu k¨ onnen, wurde an 11 zuf¨allig ausgew¨ahlten Tagen der Absatz [l] an Milch und der Absatz [kg] an Butter ermittelt. Milch [l/Tag] 600 660 840 710 800 890 700 750 680 880 650 Butter [kg/Tag] 220 310 300 360 268 370 240 280 240 370 250 a) Wie k¨ onnte man mittels des Zentralen Grenzwertsatzes begr¨ unden, dass sich die t¨ agliche Milch- und Buttermengen wie zwei normalverteilte Zufallsvariablen verhalten? b) Berechnen Sie f¨ ur den Erwartungswert der t¨aglichen Milch- und Buttermengen ein Konfidenzintervall zum Niveau 99%! Interpretieren Sie die Ergebnisse! c) Inwiefern sind die Sch¨ atzungen f¨ ur die Milch- und Buttermengen abh¨angig? Aufgabe 13.9. Um die Anzahl der Fahrg¨ aste pro Bus zu sch¨atzen, wurden bei 14 zuf¨ allig ausgew¨ ahlten Omnibussen folgende Werte gemessen: 22, 4, 33, 15, 6, 42, 43, 8, 24, 28, 34, 30, 19, 11. Geben Sie Intervalle an, die mit einer Wahrscheinlichkeit von 90% bzw. 99% die in Zukunft zu erwartende mittlere Anzahl an Fahrg¨asten einschließen! Von welchen Annahmen machen Sie in Ihrer Rechnung Gebrauch? Aufgabe 13.10. An verschiedenen Fahrzeugen eines neuen Automodells werden unabh¨ angig Verbrauchstests durchgef¨ uhrt. Die Tests sind kosten- und zeitaufwendig, weshalb nur 5 Fahrten unternommen wurden:
F Aufgaben
6.8,
6.9,
6.4,
7.2,
7.5
431
[l/100km].
a) Bestimmen Sie zun¨ achst das Konfidenzintervall f¨ ur den Mittelwert zur Sicherheitswahrscheinlichkeit von 99%. Man nimmt an, dass obige Daten Realisationen normalverteilter Zufallsvariablen sind! b) Es soll ein Konfidenzintervall f¨ ur den Erwartungswert des Verbrauchs zum Niveau von 99% bestimmt werden. Dabei soll die L¨ange des Intervalls nur ca. 0.1 [l/100km] betragen. Wie viele weitere Tests m¨ ussen ungef¨ahr zus¨atzlich durchgef¨ uhrt werden? Dieses Problem besitzt keine exakte L¨ osung. Aber man kann sich durch folgende Vorgehensweise behelfen: Man unterstelle, dass die Varianz σ 2 gleich are und benutze die entsprechender empirischen Stichprobenvarianz s2 w¨ den Formeln f¨ ur Konfidenzintervalle bei bekanntem σ 2 !
Aufgabe 13.11. W¨ ahrend der Produktion von Waschmaschinen werden n=600 zuf¨ allig ausgew¨ ahlte St¨ ucke getestet. Dabei werden bei 20 Maschinen M¨ angel festgestellt. Bestimmen Sie jeweils ein Konfidenzintervall f¨ ur die Ausschußquote zur Vertrauenswahrscheinlichkeit von 90% bzw. 99%! Interpretieren Sie das Ergebnis! Welche Annahme wird bei der Rechnung benutzt? Aufgabe 13.12. Das Versandhaus Qualle hatte bei einer Zufallsstichprobe mit 5000 Kunden einen Anteil von 14% an zahlungsunf¨ahigen Kunden. Bestimmen Sie ein Konfidenzintervall f¨ ur den Anteil k¨ unftiger, zahlungsunf¨ ahiger Kunden zum Vertrauensniveau von 95%! Unterstellen Sie f¨ ur die Anzahl der zahlungsf¨ ahigen Kunden eine binomiale Verteilung! Aufgabe 13.13. Um den Bekanntheitsgrad des Fleckenentferners “Fluxil“ in Deutschland zu Sch¨ atzen, wurden n = 60 zuf¨allig ausgew¨ahlte Personen befragt. Das Stichprobenergebnis lautet: 10010 01100 00010 01001 01010 11011 11100 01000 00100 01100 01000 01110. “1“ steht f¨ ur “bekannt“. Konstruieren Sie ein Intervall, das von allen Deutschen den wahren Anteil derer, die sich erinnern k¨ onnen, mit 99% u ¨berdeckt. Aufgabe 13.14. Bei der Ankunft eines Bananenfrachters ist ein gewisser ¨ Anteil p aller Bananen verfault. Bei einer stichprobenartigen Uberpr¨ ufung von 300 Bananen wurden 16 faule registriert. a) Welchen Fehler k¨ onnte man bei der Durchf¨ uhrung der Ziehung begehen? b) Welche Aussage kann man mit einer Sicherheit von 95% u ¨ber den tats¨achlichen Anteil fauler Bananen treffen?
432
F Aufgaben
c) Beurteilen Sie den ¨ okonomischen Schaden, der durch Faulheit entstehen k¨ onnte! Es wurden 4 Millionen Bananen zu 24 [Ct/Stk] eingekauft und f¨ ur 80000 [e] transportiert. Aufgabe 13.15. In einem Kochstudio wird 500 Probanden die neu entwickelte Fertigsuppe “Schlammfix“ zur Bewertung angeboten. 140 Probanden sind zufrieden und bitten sogar noch um einen zweiten Teller. Konstruieren Sie ein Intervall, das von allen zuk¨ unftigen Konsumenten den Anteil der zufriedenen Suppenesser mit 95% u ¨berdeckt! Aufgabe 13.16. Torwart “Wahn“ trainiert f¨ ur die n¨achste Weltmeisterschaft. Beim Elfmeter-Schießen werden 54 Sch¨ usse von ihm gehalten und 200 Sch¨ usse nicht gehalten. Es wird unterstellt, dass der Erfolg des Torwarts aufgrund seiner stabilen Psyche von Schuss zu Schuss unabh¨angig ist. Bestimmen Sie ein Intervall, das mit 90% Wahrscheinlichkeit die Chance u ¨berdeckt, dass Wahn einen Torschuss abwehren kann! Aufgabe 13.17. Bei einigen, zuf¨ allig ausgew¨ahlten Zuschauern ist in Minuten gemessen worden, wie lange sie an einem bestimmten Tag Werbung im Fernsehen gesehen haben: 5.8 0.9 0.0 0.2 3.1 9.6
6.7 7.3 0.0 7.3 0.3 1.1
1.2 6.2 2.6 6.2 3.0
2.3 3.7 9.7 1.7 2.7
7.3 0.0 9.0 0.0 8.4
0.8 3.4 5.4 0.4 7.7
4.1 0.0 3.1 0.0 0.0
6.0 7.8 5.1 7.8 1.8
7.6 1.2 6.1 1.2 2.4
0.5 5.4 3.6 1.4 6.6
Ein Fernsehzuschauer gilt als Werbemuffel, wenn er weniger als 2 Minuten Werbung pro Tag sieht. Bestimmen Sie ein Intervall, das mit 99% Wahrscheinlichkeit den Anteil der Werbemuffel unter allen Fernsehzuschauern u ¨berdeckt. Aufgabe 13.18. Das Umweltministerium plant Erneuerungen von Heizungsanlagen, die ¨ alter als 20 Jahre sind, mit 5000 [e] zu f¨ordern. Da keine Angaben u ¨ber die Altersstruktur der insgesamt 15 Millionen Heizungsanlagen vorliegt, wurde bundesweit eine Zufallsstichprobe gezogen, um den Anteil der potentiell f¨ orderungsf¨ ahigen Anlagen zu sch¨ atzen. Folgende Werte in Jahren wurden ermittelt: 22, 26, 5, 1, 33, 27, 28, 2, 15, 15, 24, 30, 3, 2, 12, 24, 30, 30, 21, 19, 13, 1, 2, 8, 22, 6, 26, 8, 1, 30, 2, 14, 21, 21, 1, 1, 7, 8, 19, 35, 41, 22, 33, 4, 5. Bestimmen Sie ein 95%-Konfidenzintervall und interpretieren Sie es! Welche Aussage k¨ onnte man u ¨ber die Kosten treffen?
F Aufgaben
433
Aufgabe 13.19. Eine Maschine bohrt in ein Blech, das f¨ ur einen Geh¨ausedeckel vorgesehen ist, jeweils 8 L¨ ocher. Ein Bohrloch darf maximal 0.2 Mikrometer gr¨ oßer als der Sollwert 40 [μm ] sein. Man kann davon ausgehen, dass der Erfolg eines Bohrvorganges von Loch zu Loch unabh¨angig ist. Es wurden einige St¨ ucke stichprobenartig u uft und jeweils die Anzahl defekter ¨berpr¨ Bohrungen registriert: 0, 1, 0, 0, 2, 0, 1, 0, 0, 8, 0, 4, 0, 0, 0, 0, 1, 0, 0, 3, 0, 0, 0, 0, 1, 0, 1, 1, 3, 0, 1, 0, 0, 0, 2, 0, 1, 0, 1, 2, 2, 0. Bestimmen Sie ein Intervall, das mit einer neunundneunzigprozentigen Chance die tats¨ achliche Ausschusswahrscheinlichkeit einer einzelnen Lochbohrung u ¨berdeckt! ¨ Aufgabe 13.20. Uber das Einkommen [Tsd e] von Arbeitnehmern im Alter von 44 Jahren steht folgende Zufallsstichprobe zur Verf¨ ugung: 36, 12, 38, 44, 66, 83, 60, 60, 60, 25, 38, 100, 33, 44, 80, 22, 36, 16, 16, 28, 45, 20, 56, 30, 48, 44, 38, 20, 38, 89, 44, 80, 73, 37, 46, 14, 28, 105, 33, 70. a) Sch¨ atzen Sie mittels eines Konfidenzintervalles mit α=10% den Anteil der Personen mit einem Einkommen von mehr als 40000 [e]! b) Sch¨ atzen Sie mittels eines Konfidenzintervalles mit α=10%, wie hoch das mittlere Einkommen aller Vierundvierzigj¨ ahrigen liegt!
Aufgaben zu Kapitel 15:
Signifikanztests
Aufgabe 15.1. Eine S¨ age, deren Pr¨ azision durch die Standardabweichung σ=0.6 [mm] charakterisiert ist, soll Rohre mit einer L¨ange von 355 [mm] abs¨ agen. Testen Sie anhand der Stichprobe 355.8, 355.7, 354.1, 355.1, 354.9, 355.1, ob die Maschine richtig eingestellt ist, wobei eine Irrtumswahrscheinlichkeit f¨ ur den Fehler 1. Art von 5% vorgesehen ist! Vergleichen Sie das Ergebnis, wenn man die exakte Varianz kennt, mit dem Ergebnis, wenn man die Varianz nicht exakt kennt! Aufgabe 15.2. Bei einer M¨ obelfirma sollen Latten ges¨agt werden, die idealerweise 2800 [mm] lang sein sollen. Aufgrund von unvermeidbaren St¨orungen variieren die tats¨ achlich geschnittenen L¨angen und verhalten sich wie unabh¨ angige, normalverteilte Zufallsvariablen. Kontrolleur Dagobert pr¨ uft zu 3 Zeitpunkten mittels Stichproben den Produktionsprozeß:
434
F Aufgaben
Stichprobe 1: 2799 2796 2801 2799 2801 2800 Stichprobe 2: 2807 2802 2795 2794 2802 2806 Stichprobe 3: 2802 2803 2799 2802 2802 2803 Dagobert m¨ ochte mit einer Wahrscheinlichkeit von nur 5% eine unn¨otige Korrektur der S¨ ageeinstellung vornehmen. Wie sollte er sich jeweils bei den 3 Zeitpunkten verhalten? a) L¨ osen Sie das Problem bei unbekannter Varianz σ 2 ! b) L¨ osen Sie das Problem, wenn Dagobert aufgrund langj¨ahriger Erfahrung agt! weiß, dass σ 2 = 2.25 betr¨ Aufgabe 15.3. Bei einer Autoversicherung wurden folgende Schadensh¨ohen in Euro pro Fall gemeldet: 4050, 2600, 3600, 805, 2650, 7090, 7555, 2600, 3600, 5050, 4800, 780, 8100, 3000, 6200. Es wird angenommen, dass die Sch¨ aden unabh¨angig voneinander auftreten, dass die Schadensh¨ ohe normalverteilt ist, und dass in Zukunft die Sch¨aden unter den “gleichen Bedingungen“, entstehen wie bei den F¨allen der Stichproben. Testen Sie zum Niveau von 5% die Vermutung, ob die erwartete Schadensh¨ohe in Zukunft unter a) 5000 [e/Fall] liegt, b) 6000 [e/Fall] liegt!
Aufgabe 15.4. Ein Hersteller von Gl¨ uhbirnen behauptet, dass die mittlere Brenndauer einer Birne u ¨ber 8000 Stunden liegt. Der Elektrogroßhandel “Stromlos“ pr¨ ufte zuf¨ allig ausgew¨ ahlte Birnen und erhielt folgende Messwerte: 8400, 3000, 11000, 6000, 9600, 7500, 9000. Testen Sie jeweils bei einer Irrtumswahrscheinlichkeit von 5% die beiden Hypothesen H0 : μ > 8000 und H0 : μ < 8000! Geben Sie eine Interpretation! Welche Konsequenzen ergeben sich, wenn der Tester “nicht ablehnen“ mit urde? “annehmen“ von H0 gleichsetzen w¨ Aufgabe 15.5. Es soll zu α = 1% der mittlere S¨attigungseffekt der neuartigen Kraftnahrung “Watzfood“ f¨ ur Extremsportler getestet werden. Dazu haben 9 Testpersonen jeweils 300 [g] herk¨ ommlicher Nahrung und 300 [g] der neuartigen Nahrung gegessen. Es ergaben sich folgende Zeiten in Minuten bis zum Einsetzen eines Hungergef¨ uhls: (300, 310), (344, 330), (364, 390), (290, 308), (392, 400), (298, 270), (350, 360), (299, 304), (355, 366). Interpretieren Sie das Ergebnis und benennen Sie die dabei getroffenen Voraussetzungen!
F Aufgaben
435
Aufgabe 15.6. Um die Auslastung einer M¨ ullverbrennungsanlage besser planen zu k¨ onnen, soll mit 10% Irrtumswahrscheinlichkeit getestet werden, ob im Ferienmonat Juli durchschnittlich weniger M¨ ull angeliefert wird als im Vergleichsmonat M¨ arz. Es liegen folgende M¨ ullmengen in Tonnen vor: M¨ arz 04: 3000, Juli 04: 2900, M¨ arz 06: 4000, Juli 06: 4200, M¨ arz 08: 3200, Juli 08: 3200,
M¨ arz 05: 2700, Juli 05: 2800, M¨ arz 07: 4400, Juli 07: 3900, M¨ arz 09: 2800, Juli 09: 2600.
Nennen Sie zwei wichtige Annahmen, die Sie in Ihrer Rechnung unterstellen! Aufgabe 15.7. Eine Finanzzeitschrift m¨ ochte untersuchen, ob Kapitalanleger, die in den letzten 4 Monaten zu Erben wurden, zur Zeit weniger Kapital in Aktien als in Festzinspapiere investieren. Eine Umfrage bei 8 zuf¨allig ausgew¨ ahlten Anlegern ergab: Festzinspapier Tsd e Aktien Tsd e
200 50 100 400 380 200 110 450 150 70 160 300 300 200 100 500
¨ Uberpr¨ ufen Sie mit einer Irrtumswahrscheinlichkeit von 5% die obige Fragestellung der Finanzzeitschrift! Welche Annahmen unterstellen Sie in Ihrer Rechnung? Aufgabe 15.8. K¨ uchenchef Dagobert vermutet, dass beim Fr¨ uhst¨ ucksbuffet der Kaffeekonsum im Schnitt 10 Liter u ¨ber dem Teekonsum liegt. Es wurde an 6 zuf¨ allig ausgew¨ ahlten Tagen folgender Konsum gemessen: Kaffee [l/Tag] Tee [l/Tag]
40 20
16 12
18 20
19 20
15 10
15 15
Testen Sie bei 1% Irrtumswahrscheinlichkeit unter der Annahme, dass die Konsummengen normalverteilte Zufallsvariablen gleicher Varianz sind, ob Dagobert Recht haben k¨ onnte! Aufgabe 15.9. Der Mineral¨ olkonzern PB hat bei allen 2200 Tankstellen zum Monatsbeginn die Preise um 6.8% erh¨ oht. An 9 zuf¨allig ausgew¨ahlten Tankstellen hat man jeweils den Tagesabsatz in Liter am Vortag der Preiserh¨ ohung und zum Ersten des Monats ermittelt: (1600, 2000), (2600, 2000), (3500, 3200), (1800, 2200), (4000, 3800), (1600, 1200), (4600, 5300), (1900, 1900), (4600, 5000). ¨ Uberpr¨ ufen Sie mit 95% Sicherheitswahrscheinlichkeit bzw. 5% Irrtumswahrscheinlichkeit, ob die Preiserh¨ ohung absatzreduzierend wirkt! Welche Voraussetzungen unterstellen Sie? Was spricht f¨ ur oder gegen die von Ihnen vorausgesetzten Verteilungsannahme der zugrundeliegenden Zufallsvariablen?
436
F Aufgaben
Aufgabe 15.10. Der Verkauf der Automarke “Brumm“ wird in Norddeutschland und S¨ uddeutschland mit unterschiedlichen Verkaufskonzepten betrieben. F¨ ur die Anzahl “X = verkaufte Autos eines H¨andlers in Norddeutschland“ sind von einigen, zuf¨ allig ausgew¨ ahlten H¨ andlern folgende Werte bekannt: 202; 310; 250; 400. Ebenso sind f¨ ur die Anzahl “Y = verkaufte Autos eines H¨andlers in S¨ uddeutschland“ die Werte einiger, zuf¨ allig ausgew¨ ahlter H¨andler gegeben: 310; 500; 220; 408. - Testen Sie bei einer Irrtumswahrscheinlichkeit von 10%, ob das s¨ uddeutsche Konzept besser ist! - Nennen Sie Annahmen, die Sie in Ihrer Rechnung unterstellen! Aufgabe 15.11. Dachdecker Friedolin behauptet, dass von ihm ausgestellte Rechnungen mit einem Betrag von u ¨ber 1000 Euro im Schnitt mindestens zwei Tage sp¨ ater gezahlt werden, als Rechnungen mit einem Betrag von bis zu 1000 Euro. Friedolin hat in zuf¨ alliger Weise 7 Rechnungen unter den Rechnungen mit niedriger Summe und 7 Rechnungen unter den Rechnungen mit hoher Summe ausgew¨ ahlt und die Zeitdauer in Tagen zwischen Rechnungszustellung und Zahlung festgehalten: Rechnungen bis zu 1000 [e]: 10, 17, 8, 8, 11, 12, 3 [Tage] Rechnungen u ¨ber 1000 [e]: 10, 20, 16, 18, 15, 18, 19 [Tage]. ¨ Uberpr¨ ufen Sie mit 95% Sicherheitswahrscheinlichkeit bzw. 5% Irrtumswahrscheinlichkeit, ob Friedolin Recht haben k¨ onnte! Welche Annahmen unterstellen Sie in Ihrer Rechnung? Aufgabe 15.12. Ein Juwelier m¨ ochte zwei Verkaufsstrategien vergleichen. Bei Strategie 1 werden einem Kunden zuerst teurer Schmuck und dann immer billigere St¨ ucke gezeigt. Bei Strategie 2 geht er umgekehrt vor. An einigen zuf¨ allig bestimmten Tagen wurde Strategie 1 verfolgt, und folgende Tagesums¨ atze [Tsd e] erzielt: 22, 14, 33, 40, 26, 26, 24. An Tagen mit Strategie 2 ergaben sich die Ums¨atze: 33, 18, 27, 41, 20, 20, 34, 22, 20, 12, 15. Was sollte bei der Stichprobenziehung beachtet werden? Testen Sie mit 5% und 10% Irrtumswahrscheinlichkeit! Aufgabe 15.13. Ein Gesch¨ aftsf¨ uhrer eines Hosenladens in der Innenstadt beschwert sich, dass eine Baustelle vor dem Schaufenster zu einem Umsatzr¨ uckgang gef¨ uhrt habe. Die Stadtverwaltung hingegen behauptet, der Grund sei das seit Baubeginn h¨ aufiger auftretende Regenwetter. Der Gesch¨aftsf¨ uhrer benennt daher zuf¨ allig ausgew¨ ahlte Tagesums¨atze, die alle bei Regenwetter erwirtschaftet wurden. Die Ums¨ atze 4000, 5500, 6300, 5200, 6100, 4200, 5100, 4800, 6000, 5700 [Euro] sind zuf¨ allig vor Baubeginn, und die Ums¨ atze 6000, 3200, 4000, 3800, 3800, 3900, 4800, 6100, 3000, 4000, 2800, 2000, 3000, 3000, 4500, 4200, 4000 [Euro]
F Aufgaben
437
sind zuf¨ allig nach Baubeginn erzielt worden. Kann der Gesch¨ aftsf¨ uhrer bei einer Irrtumswahrscheinlichkeit von 1% die Behauptung der Stadt widerlegen? Aufgabe 15.14. Um die Anordnung der Regale in einem Supermarkt zu optimieren, soll das “Links-Rechts-Verhalten“ der Kunden beim Betreten des Marktes getestet werden. Bei zuf¨ allig ausgew¨ ahlten Kunden konnte beobachtet werden, dass 17 Kunden zuerst das linke und 31 Kunden zuerst das rechte Regal wahrgenommen haben. Ist der Unterschied zu einem Testniveau von 5% signifikant? Aufgabe 15.15. Der Betrachter eines Werbeplakates blickt zuerst nach rechts oben. Testen Sie diese Behauptung mit einer Irrtumswahrscheinlichkeit von 10% aufgrund folgender Stichprobe: 27 Probanden blickten zuerst auf den Quadranten “rechts oben“, 69.66292% aller Probanden blickten zuerst auf die anderen Quadranten. Aufgabe 15.16. Bei den letzten Parlamentswahlen waren 8% der Wahlberechtigte unter 22 Jahren. In dieser Gruppe lag damals die Wahlbeteiligung bei 70%. Eine aktuelle Umfrage von zuf¨ allig ausgew¨ahlten Jugendlichen unter 22 Jahren zeigt, dass 405 zur Wahl gehen wollen und 180 ihr fern bleiben wollen. Pr¨ ufen Sie mit 5% Irrtumswahrscheinlichkeit, ob sich bei Jugendlichen die Bereitschaft w¨ ahlen zu wollen, ge¨ andert hat! Aufgabe 15.17. Ein Unternehmen stellt seit Jahren Fernsehger¨ate her. Bei den Garantief¨ allen entfielen in den letzten Jahren 20% auf Tonausfall, 50% auf Bildausfall und der Rest auf den Ausfall von Ton und Bild. Inzwischen wurde ein neues Qualit¨ atsmanagement eingef¨ uhrt. Seither entfielen von 600 Garantief¨ allen 100 auf Tonausfall, 320 auf Bildausfall und der Rest auf den Ausfall von Ton und Bild. Pr¨ ufen Sie mit einer Irrtumswahrscheinlichkeit von 10%, ob sich die Verteilung der Fehlerarten ver¨ andert hat! Aufgabe 15.18. Ein Joghurthersteller kennt aus Erfahrung das Verbraucherverhalten: 60% der verkauften Joghurtbecher entfallen auf die Sorte Erdbeere, 15% auf Kirsche, 10% auf Himbeere, 10% Waldbeeren und 5% Sonstige. F¨ ur die n¨ achste Produktionsplanung m¨ ochte der Hersteller sicherstellen, dass dieses Verhalten noch zeitgem¨ aß ist. Er l¨ asst sich eine Zufallsstichprobe aktueller Verkaufszahlen geben: Von 150 verkauften Joghurtbechern entfielen auf Erdbeere 64%, Kirsche 12%, Himbeere 8%, Waldbeeren 10% und Sonstige 6%.
438
F Aufgaben
Sollte die Produktionsplanung bez¨ uglich der Sortenanteile bei einer Irrtumswahrscheinlichkeit von 5% ge¨ andert werden? Aufgabe 15.19. Bisher wurden in einem Hotel erfahrungsgem¨aß 35% der ¨ Ubernachtungen als Einzelbettzimmer, 45% als Doppelzimmer und der Rest ¨ als Dreibettzimmer gebucht. Im letzten Monat ergaben sich bei 200 Ubernachtungen 40% mit Einzelbettzimmer, 35% Doppelzimmer, und 25% Dreibettzimmer. Testen Sie mit einer Irrtumswahrscheinlichkeit von 1%, ob sich das Kundenverhalten ge¨ andert hat! Aufgabe 15.20. Der Fruchtsaft “Labsaft“ wird von Erwachsenen und Jugendlichen getestet. 70 der 382 Jugendlichen und 43 der 222 Erwachsenen w¨ urden den Saft kaufen wollen. Sollte man eine altersspezifische Werbestrategie entwickeln? Pr¨ ufen Sie diese Idee mit α=2.5%. Aufgabe 15.21. Die Bier&Fritt AG befragt stichprobenartig 450 Mitarbeiter, ob sie mit dem Management des Unternehmens zufrieden seien. Es gibt insgesamt 30000 Arbeiter und 25000 Angestellte. Folgendes Ergebnis wird ver¨ offentlicht:
Anzahl
150 100
100
90
70
50
80
Arbeiter
60
Angestellte
50 0 gut
zufrieden
schlecht
Pr¨ ufen Sie bei einer Irrtumswahrscheinlichkeit von 1%, ob die Besch¨aftigungsart einen Einfluss bei dem Urteil u ¨ber das Management hat! Aufgabe 15.22. Bei einer Bank mit den Filialen A und B klassifiziert man die Gesch¨ aftsvorf¨ alle nach R=Retail-Banking, D=Depotgesch¨afte, B=Baufinanzierungen, T=Tresorvermietung, S=Sonstiges. Es ergab sich in den beiden Filialen bei zuf¨ allig ausgesuchten Gesch¨ aftsvorf¨allen folgendes Ergebnis: R
D
B
T
A
660
B
2400
S
200
80
3
57
950
140
1
279
Jeder Filialleiter behauptet, dass seine Filiale etwas Besonderes sei. Testen Sie daher mit einer Irrtumswahrscheinlichkeit von 1%, ob die Gesch¨aftsstrukturen beider Filialen signifikant unterschiedlich sind!
F Aufgaben
439
Aufgabe 15.23. In zwei Bezirken einer Krankenversicherung soll die Altersstruktur der Versicherten verglichen werden, die alle an einer bestimmten Krankheit leiden. Im Bezirk A mit 60000 Erkrankten sind 38% unter 30 Jahre, 45% zwischen 30 und 65 Jahren. Im Bezirk B mit 110000 Erkrankten sind 20% u ¨ber 65 und 40% unter 30 Jahre. Vergleichen Sie mit einer Irrtumswahrscheinlichkeit von 1% die Altersstruktur der Erkrankten beider Bezirke!
Aufgaben zu Kapitel 16:
Regressionsanalyse
Aufgabe 16.1. Bei einer Investmentbank werden Mitarbeiter nur f¨ ur Beratungen eingesetzt. Sie besitzen flexible Arbeitszeiten und k¨onnen selbst bestimmen, wie lange sie pro Tag arbeiten. Man hat bei einigen Mitarbeitern die Anzahl der Beratungsgespr¨ ache und die Arbeitszeiten ermittelt: X=Beratungen
2
7
5
8
3
4
7
1
5
Y =Arbeitszeit [h] 2.2 6.0 6.2 7.3 2.5 4.0 6.8 2.1 5.5 Bestimmen Sie mittels einer linearen Regression, wie lange im Schnitt ein Gespr¨ ach dauert, und wie hoch der Zeitaufwand f¨ ur die t¨aglichen R¨ ustzeiten ist! F¨ uhren Sie eine Punktsch¨ atzung f¨ ur die Parameter durch und bestimmen Sie zu einer Zuverl¨ assigkeit von 95% Konfidenzintervalle! Aufgabe 16.2. Das M¨ obelhaus “D¨ odel“ m¨ ochte auf seine Gartenm¨obel aufmerksam machen. Als Werbemaßnahme fliegt t¨aglich ein Flugzeug mit dem Spruchband “Gartenm¨ obel? - Nur bei D¨ odel!“ u ¨ber die Stadt. Aufgrund unterschiedlicher Wetterverh¨ altnisse variiert die t¨ agliche Flugdauer X [Min/Tag]. Der Spritpreis f¨ ur Flugbenzin liegt bei 1.02 [e/Liter] und Hobby-Pilot Heinz verdient 180 Euro pro Flug. Es ergeben sich an 4 Tagen folgende Daten: Flugdauer X [Min/Tag]
20
20
30
40
Umsatz Y [Tsd e/Tag]
10
12
12
14
Es wird eine lineare Beziehung des t¨ aglichen Gartenm¨obelumsatz Y in Abh¨angigkeit von der Zeitdauer des Werbeflugs unterstellt. Berechnen Sie die Regressionsgerade und interpretieren Sie die Koeffizienten! Skizzieren Sie die Messwerte und die Gerade! Geben Sie bei einer Zuverl¨assigkeit von 95% jeweils ein Konfidenzintervall f¨ ur die Koeffizienten an!
G L¨ osungen zu den Aufgaben
L¨ osungen zu den Aufgaben findet man im Internet u ¨ber die Seite http://www.springer.com Mit der Suchfunktion kommt man dann leicht auf die Seite des Buches. Oder man besucht die Homepage des Autors http://www.fh-aachen.de/weigand.html wo man entsprechende Links findet. Die Bereitstellung der L¨ osungen per Internet besitzt den Vorteil, ohne zus¨atzliche Kosten auch umfangreiche und ausf¨ uhrliche L¨osungswege aufzeigen zu k¨onnen.
H Tabellen
444
H Tabellen
H.1 Quantile der F -Verteilung 95%-Quantile F0.95,f1 ,f2 1
2
3
4
5
6
7
8
9
10
f2 1 2 3 4 5 6 7 8 9 10
f1
161.45 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96
199.50 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10
215.71 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71
224.58 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48
230.16 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33
233.99 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22
236.77 19.35 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14
238.88 19.37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07
240.54 19.38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02
241.88 19.40 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98
11 12 13 14 15 16 17 18 19
4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38
3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52
3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13
3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90
3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74
3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63
3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54
2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48
2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42
2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38
20 22 24 26 28 30 32 34 36 38
4.35 4.30 4.26 4.23 4.20 4.17 4.15 4.13 4.11 4.10
3.49 3.44 3.40 3.37 3.34 3.32 3.29 3.28 3.26 3.24
3.10 3.05 3.01 2.98 2.95 2.92 2.90 2.88 2.87 2.85
2.87 2.82 2.78 2.74 2.71 2.69 2.67 2.65 2.63 2.62
2.71 2.66 2.62 2.59 2.56 2.53 2.51 2.49 2.48 2.46
2.60 2.55 2.51 2.47 2.45 2.42 2.40 2.38 2.36 2.35
2.51 2.46 2.42 2.39 2.36 2.33 2.31 2.29 2.28 2.26
2.45 2.40 2.36 2.32 2.29 2.27 2.24 2.23 2.21 2.19
2.39 2.34 2.30 2.27 2.24 2.21 2.19 2.17 2.15 2.14
2.35 2.30 2.25 2.22 2.19 2.16 2.14 2.12 2.11 2.09
40 50 60 70 80 90 100 200 500 ∞
4.08 4.03 4.00 3.98 3.96 3.95 3.94 3.89 3.86 3.84
3.23 3.18 3.15 3.13 3.11 3.10 3.09 3.04 3.01 3.00
2.84 2.79 2.76 2.74 2.72 2.71 2.70 2.65 2.62 2.60
2.61 2.56 2.53 2.50 2.49 2.47 2.46 2.42 2.39 2.37
2.45 2.40 2.37 2.35 2.33 2.32 2.31 2.26 2.23 2.21
2.34 2.29 2.25 2.23 2.21 2.20 2.19 2.14 2.12 2.10
2.25 2.20 2.17 2.14 2.13 2.11 2.10 2.06 2.03 2.01
2.18 2.13 2.10 2.07 2.06 2.04 2.03 1.98 1.96 1.94
2.12 2.07 2.04 2.02 2.00 1.99 1.97 1.93 1.90 1.88
2.08 2.03 1.99 1.97 1.95 1.94 1.93 1.88 1.85 1.83
H.1 Quantile der F -Verteilung
95%-Quantile F0.95,f1 ,f2 f1
445
(Fortsetzung)
12
14
16
18
20
22
24
26
28
30
f2 1 2 3 4 5 6 7 8 9 10
243.90 19.41 8.74 5.91 4.68 4.00 3.57 3.28 3.07 2.91
245.36 19.42 8.71 5.87 4.64 3.96 3.53 3.24 3.03 2.86
246.47 19.43 8.69 5.84 4.60 3.92 3.49 3.20 2.99 2.83
247.32 19.44 8.67 5.82 4.58 3.90 3.47 3.17 2.96 2.80
248.02 19.45 8.66 5.80 4.56 3.87 3.44 3.15 2.94 2.77
248.58 19.45 8.65 5.79 4.54 3.86 3.43 3.13 2.92 2.75
249.05 19.45 8.64 5.77 4.53 3.84 3.41 3.12 2.90 2.74
249.45 19.46 8.63 5.76 4.52 3.83 3.40 3.10 2.89 2.72
249.80 19.46 8.62 5.75 4.50 3.82 3.39 3.09 2.87 2.71
250.10 19.46 8.62 5.75 4.50 3.81 3.38 3.08 2.86 2.70
11 12 13 14 15 16 17 18 19
2.79 2.69 2.60 2.53 2.48 2.42 2.38 2.34 2.31
2.74 2.64 2.55 2.48 2.42 2.37 2.33 2.29 2.26
2.70 2.60 2.51 2.44 2.38 2.33 2.29 2.25 2.21
2.67 2.57 2.48 2.41 2.35 2.30 2.26 2.22 2.18
2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16
2.63 2.52 2.44 2.37 2.31 2.25 2.21 2.17 2.13
2.61 2.51 2.42 2.35 2.29 2.24 2.19 2.15 2.11
2.59 2.49 2.41 2.33 2.27 2.22 2.17 2.13 2.10
2.58 2.48 2.39 2.32 2.26 2.21 2.16 2.12 2.08
2.57 2.47 2.38 2.31 2.25 2.19 2.15 2.11 2.07
20 22 24 26 28 30 32 34 36 38
2.28 2.23 2.18 2.15 2.12 2.09 2.07 2.05 2.03 2.02
2.22 2.17 2.13 2.09 2.06 2.04 2.01 1.99 1.98 1.96
2.18 2.13 2.09 2.05 2.02 1.99 1.97 1.95 1.93 1.92
2.15 2.10 2.05 2.02 1.99 1.96 1.94 1.92 1.90 1.88
2.12 2.07 2.03 1.99 1.96 1.93 1.91 1.89 1.87 1.85
2.10 2.05 2.00 1.97 1.93 1.91 1.88 1.86 1.85 1.83
2.08 2.03 1.98 1.95 1.91 1.89 1.86 1.84 1.82 1.81
2.07 2.01 1.97 1.93 1.90 1.87 1.85 1.82 1.81 1.79
2.05 2.00 1.95 1.91 1.88 1.85 1.83 1.81 1.79 1.77
2.04 1.98 1.94 1.90 1.87 1.84 1.82 1.80 1.78 1.76
40 50 60 70 80 90 100 200 500 ∞
2.00 1.95 1.92 1.89 1.88 1.86 1.85 1.80 1.77 1.75
1.95 1.89 1.86 1.84 1.82 1.80 1.79 1.74 1.71 1.69
1.90 1.85 1.82 1.79 1.77 1.76 1.75 1.69 1.66 1.64
1.87 1.81 1.78 1.75 1.73 1.72 1.71 1.66 1.62 1.60
1.84 1.78 1.75 1.72 1.70 1.69 1.68 1.62 1.59 1.57
1.81 1.76 1.72 1.70 1.68 1.66 1.65 1.60 1.56 1.54
1.79 1.74 1.70 1.67 1.65 1.64 1.63 1.57 1.54 1.52
1.77 1.72 1.68 1.65 1.63 1.62 1.61 1.55 1.52 1.50
1.76 1.70 1.66 1.64 1.62 1.60 1.59 1.53 1.50 1.48
1.74 1.69 1.65 1.62 1.60 1.59 1.57 1.52 1.48 1.46
446
H Tabellen
95%-Quantile F0.95,f1 ,f2
(Fortsetzung)
40
50
60
70
80
90
100
200
500
∞
f2 1 2 3 4 5 6 7 8 9 10
251.14 19.47 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66
251.77 19.48 8.58 5.70 4.44 3.75 3.32 3.02 2.80 2.64
252.20 19.48 8.57 5.69 4.43 3.74 3.30 3.01 2.79 2.62
252.50 19.48 8.57 5.68 4.42 3.73 3.29 2.99 2.78 2.61
252.72 19.48 8.56 5.67 4.41 3.72 3.29 2.99 2.77 2.60
252.90 19.48 8.56 5.67 4.41 3.72 3.28 2.98 2.76 2.59
253.04 19.49 8.55 5.66 4.41 3.71 3.27 2.97 2.76 2.59
253.68 19.49 8.54 5.65 4.39 3.69 3.25 2.95 2.73 2.56
254.06 19.49 8.53 5.64 4.37 3.68 3.24 2.94 2.72 2.55
254.31 19.50 8.53 5.63 4.37 3.67 3.23 2.93 2.71 2.54
11 12 13 14 15 16 17 18 19
2.53 2.43 2.34 2.27 2.20 2.15 2.10 2.06 2.03
2.51 2.40 2.31 2.24 2.18 2.12 2.08 2.04 2.00
2.49 2.38 2.30 2.22 2.16 2.11 2.06 2.02 1.98
2.48 2.37 2.28 2.21 2.15 2.09 2.05 2.00 1.97
2.47 2.36 2.27 2.20 2.14 2.08 2.03 1.99 1.96
2.46 2.36 2.27 2.19 2.13 2.07 2.03 1.98 1.95
2.46 2.35 2.26 2.19 2.12 2.07 2.02 1.98 1.94
2.43 2.32 2.23 2.16 2.10 2.04 1.99 1.95 1.91
2.42 2.31 2.22 2.14 2.08 2.02 1.97 1.93 1.89
2.40 2.30 2.21 2.13 2.07 2.01 1.96 1.92 1.88
20 22 24 26 28 30 32 34 36 38
1.99 1.94 1.89 1.85 1.82 1.79 1.77 1.75 1.73 1.71
1.97 1.91 1.86 1.82 1.79 1.76 1.74 1.71 1.69 1.68
1.95 1.89 1.84 1.80 1.77 1.74 1.71 1.69 1.67 1.65
1.93 1.88 1.83 1.79 1.75 1.72 1.70 1.68 1.66 1.64
1.92 1.86 1.82 1.78 1.74 1.71 1.69 1.66 1.64 1.62
1.91 1.86 1.81 1.77 1.73 1.70 1.68 1.65 1.63 1.61
1.91 1.85 1.80 1.76 1.73 1.70 1.67 1.65 1.62 1.61
1.88 1.82 1.77 1.73 1.69 1.66 1.63 1.61 1.59 1.57
1.86 1.80 1.75 1.71 1.67 1.64 1.61 1.59 1.56 1.54
1.84 1.78 1.73 1.69 1.65 1.62 1.59 1.57 1.55 1.53
40 50 60 70 80 90 100 200 500 ∞
1.69 1.63 1.59 1.57 1.54 1.53 1.52 1.46 1.42 1.39
1.66 1.60 1.56 1.53 1.51 1.49 1.48 1.41 1.38 1.35
1.64 1.58 1.53 1.50 1.48 1.46 1.45 1.39 1.35 1.32
1.62 1.56 1.52 1.49 1.46 1.44 1.43 1.36 1.32 1.29
1.61 1.54 1.50 1.47 1.45 1.43 1.41 1.35 1.30 1.27
1.60 1.53 1.49 1.46 1.44 1.42 1.40 1.33 1.29 1.26
1.59 1.52 1.48 1.45 1.43 1.41 1.39 1.32 1.28 1.24
1.55 1.48 1.44 1.40 1.38 1.36 1.34 1.26 1.21 1.17
1.53 1.46 1.41 1.37 1.35 1.33 1.31 1.22 1.16 1.11
1.51 1.44 1.39 1.35 1.32 1.30 1.28 1.19 1.11 1.00
f1
H.1 Quantile der F -Verteilung
447
97.5%-Quantile F0.975,f1 ,f2 1
2
3
4
5
6
7
8
9
10
f2 1 2 3 4 5 6 7 8 9 10
f1
647.79 38.51 17.44 12.22 10.01 8.81 8.07 7.57 7.21 6.94
799.48 39.00 16.04 10.65 8.43 7.26 6.54 6.06 5.71 5.46
864.15 39.17 15.44 9.98 7.76 6.60 5.89 5.42 5.08 4.83
899.60 39.25 15.10 9.60 7.39 6.23 5.52 5.05 4.72 4.47
921.83 39.30 14.88 9.36 7.15 5.99 5.29 4.82 4.48 4.24
937.11 39.33 14.73 9.20 6.98 5.82 5.12 4.65 4.32 4.07
948.20 39.36 14.62 9.07 6.85 5.70 4.99 4.53 4.20 3.95
956.64 39.37 14.54 8.98 6.76 5.60 4.90 4.43 4.10 3.85
963.28 39.39 14.47 8.90 6.68 5.52 4.82 4.36 4.03 3.78
968.63 39.40 14.42 8.84 6.62 5.46 4.76 4.30 3.96 3.72
11 12 13 14 15 16 17 18 19
6.72 6.55 6.41 6.30 6.20 6.12 6.04 5.98 5.92
5.26 5.10 4.97 4.86 4.77 4.69 4.62 4.56 4.51
4.63 4.47 4.35 4.24 4.15 4.08 4.01 3.95 3.90
4.28 4.12 4.00 3.89 3.80 3.73 3.66 3.61 3.56
4.04 3.89 3.77 3.66 3.58 3.50 3.44 3.38 3.33
3.88 3.73 3.60 3.50 3.41 3.34 3.28 3.22 3.17
3.76 3.61 3.48 3.38 3.29 3.22 3.16 3.10 3.05
3.66 3.51 3.39 3.29 3.20 3.12 3.06 3.01 2.96
3.59 3.44 3.31 3.21 3.12 3.05 2.98 2.93 2.88
3.53 3.37 3.25 3.15 3.06 2.99 2.92 2.87 2.82
20 22 24 26 28 30 32 34 36 38
5.87 5.79 5.72 5.66 5.61 5.57 5.53 5.50 5.47 5.45
4.46 4.38 4.32 4.27 4.22 4.18 4.15 4.12 4.09 4.07
3.86 3.78 3.72 3.67 3.63 3.59 3.56 3.53 3.50 3.48
3.51 3.44 3.38 3.33 3.29 3.25 3.22 3.19 3.17 3.15
3.29 3.22 3.15 3.10 3.06 3.03 3.00 2.97 2.94 2.92
3.13 3.05 2.99 2.94 2.90 2.87 2.84 2.81 2.78 2.76
3.01 2.93 2.87 2.82 2.78 2.75 2.71 2.69 2.66 2.64
2.91 2.84 2.78 2.73 2.69 2.65 2.62 2.59 2.57 2.55
2.84 2.76 2.70 2.65 2.61 2.57 2.54 2.52 2.49 2.47
2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.43 2.41
40 50 60 70 80 90 100 200 500 ∞
5.42 5.34 5.29 5.25 5.22 5.20 5.18 5.10 5.05 5.02
4.05 3.97 3.93 3.89 3.86 3.84 3.83 3.76 3.72 3.69
3.46 3.39 3.34 3.31 3.28 3.26 3.25 3.18 3.14 3.12
3.13 3.05 3.01 2.97 2.95 2.93 2.92 2.85 2.81 2.79
2.90 2.83 2.79 2.75 2.73 2.71 2.70 2.63 2.59 2.57
2.74 2.67 2.63 2.59 2.57 2.55 2.54 2.47 2.43 2.41
2.62 2.55 2.51 2.47 2.45 2.43 2.42 2.35 2.31 2.29
2.53 2.46 2.41 2.38 2.35 2.34 2.32 2.26 2.22 2.19
2.45 2.38 2.33 2.30 2.28 2.26 2.24 2.18 2.14 2.11
2.39 2.32 2.27 2.24 2.21 2.19 2.18 2.11 2.07 2.05
448
H Tabellen
97.5%-Quantile F0.975,f1 ,f2 f1
(Fortsetzung)
12
14
16
18
20
22
24
f2 1 2 3 4 5 6 7 8 9 10
26
28
30
976.72 39.41 14.34 8.75 6.52 5.37 4.67 4.20 3.87 3.62
982.55 39.43 14.28 8.68 6.46 5.30 4.60 4.13 3.80 3.55
986.91 39.44 14.23 8.63 6.40 5.24 4.54 4.08 3.74 3.50
990.35 39.44 14.20 8.59 6.36 5.20 4.50 4.03 3.70 3.45
993.08 39.45 14.17 8.56 6.33 5.17 4.47 4.00 3.67 3.42
995.35 39.45 14.14 8.53 6.30 5.14 4.44 3.97 3.64 3.39
997.27 39.46 14.12 8.51 6.28 5.12 4.41 3.95 3.61 3.37
11 12 13 14 15 16 17 18 19
3.43 3.28 3.15 3.05 2.96 2.89 2.82 2.77 2.72
3.36 3.21 3.08 2.98 2.89 2.82 2.75 2.70 2.65
3.30 3.15 3.03 2.92 2.84 2.76 2.70 2.64 2.59
3.26 3.11 2.98 2.88 2.79 2.72 2.65 2.60 2.55
3.23 3.07 2.95 2.84 2.76 2.68 2.62 2.56 2.51
3.20 3.04 2.92 2.81 2.73 2.65 2.59 2.53 2.48
3.17 3.02 2.89 2.79 2.70 2.63 2.56 2.50 2.45
3.15 3.00 2.87 2.77 2.68 2.60 2.54 2.48 2.43
3.13 2.98 2.85 2.75 2.66 2.58 2.52 2.46 2.41
3.12 2.96 2.84 2.73 2.64 2.57 2.50 2.44 2.39
20 22 24 26 28 30 32 34 36 38
2.68 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.33 2.31
2.60 2.53 2.47 2.42 2.37 2.34 2.31 2.28 2.25 2.23
2.55 2.47 2.41 2.36 2.32 2.28 2.25 2.22 2.20 2.17
2.50 2.43 2.36 2.31 2.27 2.23 2.20 2.17 2.15 2.13
2.46 2.39 2.33 2.28 2.23 2.20 2.16 2.13 2.11 2.09
2.43 2.36 2.30 2.24 2.20 2.16 2.13 2.10 2.08 2.05
2.41 2.33 2.27 2.22 2.17 2.14 2.10 2.07 2.05 2.03
2.39 2.31 2.25 2.19 2.15 2.11 2.08 2.05 2.03 2.00
2.37 2.29 2.23 2.17 2.13 2.09 2.06 2.03 2.00 1.98
2.35 2.27 2.21 2.16 2.11 2.07 2.04 2.01 1.99 1.96
40 50 60 70 80 90 100 200 500 ∞
2.29 2.22 2.17 2.14 2.11 2.09 2.08 2.01 1.97 1.94
2.21 2.14 2.09 2.06 2.03 2.02 2.00 1.93 1.89 1.87
2.15 2.08 2.03 2.00 1.97 1.95 1.94 1.87 1.83 1.80
2.11 2.03 1.98 1.95 1.92 1.91 1.89 1.82 1.78 1.75
2.07 1.99 1.94 1.91 1.88 1.86 1.85 1.78 1.74 1.71
2.03 1.96 1.91 1.88 1.85 1.83 1.81 1.74 1.70 1.67
2.01 1.93 1.88 1.85 1.82 1.80 1.78 1.71 1.67 1.64
1.98 1.91 1.86 1.82 1.79 1.77 1.76 1.68 1.64 1.61
1.96 1.89 1.83 1.80 1.77 1.75 1.74 1.66 1.62 1.59
1.94 1.87 1.82 1.78 1.75 1.73 1.71 1.64 1.60 1.57
998.84 1000.24 1001.40 39.46 39.46 39.46 14.11 14.09 14.08 8.49 8.48 8.46 6.26 6.24 6.23 5.10 5.08 5.07 4.39 4.38 4.36 3.93 3.91 3.89 3.59 3.58 3.56 3.34 3.33 3.31
H.1 Quantile der F -Verteilung
97.5%-Quantile F0.975,f1 ,f2 f1
449
(Fortsetzung) 90
100
200
500
∞
40
50
60
70
80
f2 1 2 3 4 5 6 7 8 9 10
1006 39.47 14.04 8.41 6.18 5.01 4.31 3.84 3.51 3.26
1008 39.48 14.01 8.38 6.14 4.98 4.28 3.81 3.47 3.22
1010 39.48 13.99 8.36 6.12 4.96 4.25 3.78 3.45 3.20
1011 39.48 13.98 8.35 6.11 4.94 4.24 3.77 3.43 3.18
1012 39.49 13.97 8.33 6.10 4.93 4.23 3.76 3.42 3.17
1013 1013.16 1016 1017 1018 39.49 39.49 39.49 39.50 39.50 13.96 13.96 13.93 13.91 13.90 8.33 8.32 8.29 8.27 8.26 6.09 6.08 6.05 6.03 6.02 4.92 4.92 4.88 4.86 4.85 4.22 4.21 4.18 4.16 4.14 3.75 3.74 3.70 3.68 3.67 3.41 3.40 3.37 3.35 3.33 3.16 3.15 3.12 3.09 3.08
11 12 13 14 15 16 17 18 19
3.06 2.91 2.78 2.67 2.59 2.51 2.44 2.38 2.33
3.03 2.87 2.74 2.64 2.55 2.47 2.41 2.35 2.30
3.00 2.85 2.72 2.61 2.52 2.45 2.38 2.32 2.27
2.99 2.83 2.70 2.60 2.51 2.43 2.36 2.30 2.25
2.97 2.82 2.69 2.58 2.49 2.42 2.35 2.29 2.24
2.96 2.81 2.68 2.57 2.48 2.40 2.34 2.28 2.23
2.96 2.80 2.67 2.56 2.47 2.40 2.33 2.27 2.22
2.92 2.76 2.63 2.53 2.44 2.36 2.29 2.23 2.18
2.90 2.74 2.61 2.50 2.41 2.33 2.26 2.20 2.15
2.88 2.73 2.60 2.49 2.40 2.32 2.25 2.19 2.13
20 22 24 26 28 30 32 34 36 38
2.29 2.21 2.15 2.09 2.05 2.01 1.98 1.95 1.92 1.90
2.25 2.17 2.11 2.05 2.01 1.97 1.93 1.90 1.88 1.85
2.22 2.14 2.08 2.03 1.98 1.94 1.91 1.88 1.85 1.82
2.20 2.13 2.06 2.01 1.96 1.92 1.88 1.85 1.83 1.80
2.19 2.11 2.05 1.99 1.94 1.90 1.87 1.84 1.81 1.79
2.18 2.10 2.03 1.98 1.93 1.89 1.86 1.83 1.80 1.77
2.17 2.09 2.02 1.97 1.92 1.88 1.85 1.82 1.79 1.76
2.13 2.05 1.98 1.92 1.88 1.84 1.80 1.77 1.74 1.71
2.10 2.02 1.95 1.90 1.85 1.81 1.77 1.74 1.71 1.68
2.09 2.00 1.94 1.88 1.83 1.79 1.75 1.72 1.69 1.66
40 50 60 70 80 90 100 200 500 ∞
1.88 1.80 1.74 1.71 1.68 1.66 1.64 1.56 1.52 1.48
1.83 1.75 1.70 1.66 1.63 1.61 1.59 1.51 1.46 1.43
1.80 1.72 1.67 1.63 1.60 1.58 1.56 1.47 1.42 1.39
1.78 1.70 1.64 1.60 1.57 1.55 1.53 1.45 1.39 1.36
1.76 1.68 1.63 1.59 1.55 1.53 1.51 1.42 1.37 1.33
1.75 1.67 1.61 1.57 1.54 1.52 1.50 1.41 1.35 1.31
1.74 1.66 1.60 1.56 1.53 1.50 1.48 1.39 1.34 1.30
1.69 1.60 1.54 1.50 1.47 1.44 1.42 1.32 1.25 1.21
1.66 1.57 1.51 1.46 1.43 1.40 1.38 1.27 1.19 1.13
1.64 1.55 1.48 1.44 1.40 1.37 1.35 1.23 1.14 1.00
450
H Tabellen
99%-Quantile F0.99,f1 ,f2 1
2
3
4
5
6
7
8
9
10
f2 1 2 3 4 5 6 7 8 9 10
f1
4052 98.5 34.1 21.20 16.26 13.75 12.25 11.26 10.56 10.04
4999 99.0 30.8 18.00 13.27 10.92 9.55 8.65 8.02 7.56
5404 99.2 29.5 16.69 12.06 9.78 8.45 7.59 6.99 6.55
5624 99.3 28.7 15.98 11.39 9.15 7.85 7.01 6.42 5.99
5764 99.3 28.2 15.52 10.97 8.75 7.46 6.63 6.06 5.64
5859 99.3 27.9 15.21 10.67 8.47 7.19 6.37 5.80 5.39
5928 99.4 27.7 14.98 10.46 8.26 6.99 6.18 5.61 5.20
5981 99.4 27.5 14.80 10.29 8.10 6.84 6.03 5.47 5.06
6022 99.4 27.3 14.66 10.16 7.98 6.72 5.91 5.35 4.94
6056 99.4 27.2 14.55 10.05 7.87 6.62 5.81 5.26 4.85
11 12 13 14 15 16 17 18 19
9.65 9.33 9.07 8.86 8.68 8.53 8.40 8.29 8.18
7.21 6.93 6.70 6.51 6.36 6.23 6.11 6.01 5.93
6.22 5.95 5.74 5.56 5.42 5.29 5.19 5.09 5.01
5.67 5.41 5.21 5.04 4.89 4.77 4.67 4.58 4.50
5.32 5.06 4.86 4.69 4.56 4.44 4.34 4.25 4.17
5.07 4.82 4.62 4.46 4.32 4.20 4.10 4.01 3.94
4.89 4.64 4.44 4.28 4.14 4.03 3.93 3.84 3.77
4.74 4.50 4.30 4.14 4.00 3.89 3.79 3.71 3.63
4.63 4.39 4.19 4.03 3.89 3.78 3.68 3.60 3.52
4.54 4.30 4.10 3.94 3.80 3.69 3.59 3.51 3.43
20 22 24 26 28 30 32 34 36 38
8.10 7.95 7.82 7.72 7.64 7.56 7.50 7.44 7.40 7.35
5.85 5.72 5.61 5.53 5.45 5.39 5.34 5.29 5.25 5.21
4.94 4.82 4.72 4.64 4.57 4.51 4.46 4.42 4.38 4.34
4.43 4.31 4.22 4.14 4.07 4.02 3.97 3.93 3.89 3.86
4.10 3.99 3.90 3.82 3.75 3.70 3.65 3.61 3.57 3.54
3.87 3.76 3.67 3.59 3.53 3.47 3.43 3.39 3.35 3.32
3.70 3.59 3.50 3.42 3.36 3.30 3.26 3.22 3.18 3.15
3.56 3.45 3.36 3.29 3.23 3.17 3.13 3.09 3.05 3.02
3.46 3.35 3.26 3.18 3.12 3.07 3.02 2.98 2.95 2.92
3.37 3.26 3.17 3.09 3.03 2.98 2.93 2.89 2.86 2.83
40 50 60 70 80 90 100 200 500 ∞
7.31 7.17 7.08 7.01 6.96 6.93 6.90 6.76 6.69 6.63
5.18 5.06 4.98 4.92 4.88 4.85 4.82 4.71 4.65 4.61
4.31 4.20 4.13 4.07 4.04 4.01 3.98 3.88 3.82 3.78
3.83 3.72 3.65 3.60 3.56 3.53 3.51 3.41 3.36 3.32
3.51 3.41 3.34 3.29 3.26 3.23 3.21 3.11 3.05 3.02
3.29 3.19 3.12 3.07 3.04 3.01 2.99 2.89 2.84 2.80
3.12 3.02 2.95 2.91 2.87 2.84 2.82 2.73 2.68 2.64
2.99 2.89 2.82 2.78 2.74 2.72 2.69 2.60 2.55 2.51
2.89 2.78 2.72 2.67 2.64 2.61 2.59 2.50 2.44 2.41
2.80 2.70 2.63 2.59 2.55 2.52 2.50 2.41 2.36 2.32
H.1 Quantile der F -Verteilung
99%-Quantile F0.99,f1 ,f2 f1
(Fortsetzung)
12
14
16
18
20
22
24
26
28
30
f2 1 2 3 4 5 6 7 8 9 10
6107 99.4 27.1 14.37 9.89 7.72 6.47 5.67 5.11 4.71
6143 99.4 26.9 14.25 9.77 7.60 6.36 5.56 5.01 4.60
6170 99.4 26.8 14.15 9.68 7.52 6.28 5.48 4.92 4.52
6191 99.4 26.8 14.08 9.61 7.45 6.21 5.41 4.86 4.46
6209 99.4 26.7 14.02 9.55 7.40 6.16 5.36 4.81 4.41
6223 99.5 26.6 13.97 9.51 7.35 6.11 5.32 4.77 4.36
6234 99.5 26.6 13.93 9.47 7.31 6.07 5.28 4.73 4.33
6245 99.5 26.6 13.89 9.43 7.28 6.04 5.25 4.70 4.30
6253 99.5 26.5 13.86 9.40 7.25 6.02 5.22 4.67 4.27
6260 99.5 26.5 13.84 9.38 7.23 5.99 5.20 4.65 4.25
11 12 13 14 15 16 17 18 19
4.40 4.16 3.96 3.80 3.67 3.55 3.46 3.37 3.30
4.29 4.05 3.86 3.70 3.56 3.45 3.35 3.27 3.19
4.21 3.97 3.78 3.62 3.49 3.37 3.27 3.19 3.12
4.15 3.91 3.72 3.56 3.42 3.31 3.21 3.13 3.05
4.10 3.86 3.66 3.51 3.37 3.26 3.16 3.08 3.00
4.06 3.82 3.62 3.46 3.33 3.22 3.12 3.03 2.96
4.02 3.78 3.59 3.43 3.29 3.18 3.08 3.00 2.92
3.99 3.75 3.56 3.40 3.26 3.15 3.05 2.97 2.89
3.96 3.72 3.53 3.37 3.24 3.12 3.03 2.94 2.87
3.94 3.70 3.51 3.35 3.21 3.10 3.00 2.92 2.84
20 22 24 26 28 30 32 34 36 38
3.23 3.12 3.03 2.96 2.90 2.84 2.80 2.76 2.72 2.69
3.13 3.02 2.93 2.86 2.79 2.74 2.70 2.66 2.62 2.59
3.05 2.94 2.85 2.78 2.72 2.66 2.62 2.58 2.54 2.51
2.99 2.88 2.79 2.72 2.65 2.60 2.55 2.51 2.48 2.45
2.94 2.83 2.74 2.66 2.60 2.55 2.50 2.46 2.43 2.40
2.90 2.78 2.70 2.62 2.56 2.51 2.46 2.42 2.38 2.35
2.86 2.75 2.66 2.58 2.52 2.47 2.42 2.38 2.35 2.32
2.83 2.72 2.63 2.55 2.49 2.44 2.39 2.35 2.32 2.28
2.80 2.69 2.60 2.53 2.46 2.41 2.36 2.32 2.29 2.26
2.78 2.67 2.58 2.50 2.44 2.39 2.34 2.30 2.26 2.23
40 50 60 70 80 90 100 200 500 ∞
2.66 2.56 2.50 2.45 2.42 2.39 2.37 2.27 2.22 2.18
2.56 2.46 2.39 2.35 2.31 2.29 2.27 2.17 2.12 2.08
2.48 2.38 2.31 2.27 2.23 2.21 2.19 2.09 2.04 2.00
2.42 2.32 2.25 2.20 2.17 2.14 2.12 2.03 1.97 1.93
2.37 2.27 2.20 2.15 2.12 2.09 2.07 1.97 1.92 1.88
2.33 2.22 2.15 2.11 2.07 2.04 2.02 1.93 1.87 1.83
2.29 2.18 2.12 2.07 2.03 2.00 1.98 1.89 1.83 1.79
2.26 2.15 2.08 2.03 2.00 1.97 1.95 1.85 1.79 1.76
2.23 2.12 2.05 2.01 1.97 1.94 1.92 1.82 1.76 1.72
2.20 2.10 2.03 1.98 1.94 1.92 1.89 1.79 1.74 1.70
451
452
H Tabellen
99%-Quantile F0.99,f1 ,f2
(Fortsetzung)
40
50
60
70
80
90
100
200
500
∞
f2 1 2 3 4 5 6 7 8 9 10
6286 99.5 26.4 13.75 9.29 7.14 5.91 5.12 4.57 4.17
6302 99.5 26.4 13.69 9.24 7.09 5.86 5.07 4.52 4.12
6313 99.5 26.3 13.65 9.20 7.06 5.82 5.03 4.48 4.08
6321 99.5 26.3 13.63 9.18 7.03 5.80 5.01 4.46 4.06
6326 99.5 26.3 13.61 9.16 7.01 5.78 4.99 4.44 4.04
6331 99.5 26.3 13.59 9.14 7.00 5.77 4.97 4.43 4.03
6334 99.5 26.2 13.58 9.13 6.99 5.75 4.96 4.41 4.01
6350 99.5 26.2 13.52 9.08 6.93 5.70 4.91 4.36 3.96
6360 99.5 26.1 13.49 9.04 6.90 5.67 4.88 4.33 3.93
6366 99.5 26.1 13.46 9.02 6.88 5.65 4.86 4.31 3.91
11 12 13 14 15 16 17 18 19
3.86 3.62 3.43 3.27 3.13 3.02 2.92 2.84 2.76
3.81 3.57 3.38 3.22 3.08 2.97 2.87 2.78 2.71
3.78 3.54 3.34 3.18 3.05 2.93 2.83 2.75 2.67
3.75 3.51 3.32 3.16 3.02 2.91 2.81 2.72 2.65
3.73 3.49 3.30 3.14 3.00 2.89 2.79 2.70 2.63
3.72 3.48 3.28 3.12 2.99 2.87 2.78 2.69 2.61
3.71 3.47 3.27 3.11 2.98 2.86 2.76 2.68 2.60
3.66 3.41 3.22 3.06 2.92 2.81 2.71 2.62 2.55
3.62 3.38 3.19 3.03 2.89 2.78 2.68 2.59 2.51
3.60 3.36 3.17 3.00 2.87 2.75 2.65 2.57 2.49
20 22 24 26 28 30 32 34 36 38
2.69 2.58 2.49 2.42 2.35 2.30 2.25 2.21 2.18 2.14
2.64 2.53 2.44 2.36 2.30 2.25 2.20 2.16 2.12 2.09
2.61 2.50 2.40 2.33 2.26 2.21 2.16 2.12 2.08 2.05
2.58 2.47 2.38 2.30 2.24 2.18 2.13 2.09 2.05 2.02
2.56 2.45 2.36 2.28 2.22 2.16 2.11 2.07 2.03 2.00
2.55 2.43 2.34 2.26 2.20 2.14 2.10 2.05 2.02 1.98
2.54 2.42 2.33 2.25 2.19 2.13 2.08 2.04 2.00 1.97
2.48 2.36 2.27 2.19 2.13 2.07 2.02 1.98 1.94 1.90
2.44 2.33 2.24 2.16 2.09 2.03 1.98 1.94 1.90 1.86
2.42 2.31 2.21 2.13 2.06 2.01 1.96 1.91 1.87 1.84
40 50 60 70 80 90 100 200 500 ∞
2.11 2.01 1.94 1.89 1.85 1.82 1.80 1.69 1.63 1.59
2.06 1.95 1.88 1.83 1.79 1.76 1.74 1.63 1.57 1.52
2.02 1.91 1.84 1.78 1.75 1.72 1.69 1.58 1.52 1.47
1.99 1.88 1.81 1.75 1.71 1.68 1.66 1.55 1.48 1.43
1.97 1.86 1.78 1.73 1.69 1.66 1.63 1.52 1.45 1.40
1.95 1.84 1.76 1.71 1.67 1.64 1.61 1.50 1.43 1.38
1.94 1.82 1.75 1.70 1.65 1.62 1.60 1.48 1.41 1.36
1.87 1.76 1.68 1.62 1.58 1.55 1.52 1.39 1.31 1.25
1.83 1.71 1.63 1.57 1.53 1.49 1.47 1.33 1.23 1.15
1.80 1.68 1.60 1.54 1.49 1.46 1.43 1.28 1.16 1.00
f1
H.1 Quantile der F -Verteilung
453
99.5%-Quantile F0.995,f1 ,f2 1
2
3
4
5
6
7
8
9
10
f2 1 2 3 4 5 6 7 8 9 10
f1
16212 198.5 55.6 31.33 22.78 18.63 16.24 14.69 13.61 12.83
19997 199.0 49.8 26.28 18.31 14.54 12.40 11.04 10.11 9.43
21614 199.2 47.5 24.26 16.53 12.92 10.88 9.60 8.72 8.08
22501 199.2 46.2 23.15 15.56 12.03 10.05 8.81 7.96 7.34
23056 199.3 45.4 22.46 14.94 11.46 9.52 8.30 7.47 6.87
23440 199.3 44.8 21.98 14.51 11.07 9.16 7.95 7.13 6.54
23715 199.4 44.4 21.62 14.20 10.79 8.89 7.69 6.88 6.30
23924 199.4 44.1 21.35 13.96 10.57 8.68 7.50 6.69 6.12
24091 199.4 43.9 21.14 13.77 10.39 8.51 7.34 6.54 5.97
24222 199.4 43.7 20.97 13.62 10.25 8.38 7.21 6.42 5.85
11 12 13 14 15 16 17 18 19
12.23 11.75 11.37 11.06 10.80 10.58 10.38 10.22 10.07
8.91 8.51 8.19 7.92 7.70 7.51 7.35 7.21 7.09
7.60 7.23 6.93 6.68 6.48 6.30 6.16 6.03 5.92
6.88 6.52 6.23 6.00 5.80 5.64 5.50 5.37 5.27
6.42 6.07 5.79 5.56 5.37 5.21 5.07 4.96 4.85
6.10 5.76 5.48 5.26 5.07 4.91 4.78 4.66 4.56
5.86 5.52 5.25 5.03 4.85 4.69 4.56 4.44 4.34
5.68 5.35 5.08 4.86 4.67 4.52 4.39 4.28 4.18
5.54 5.20 4.94 4.72 4.54 4.38 4.25 4.14 4.04
5.42 5.09 4.82 4.60 4.42 4.27 4.14 4.03 3.93
20 22 24 26 28 30 32 34 36 38
9.94 9.73 9.55 9.41 9.28 9.18 9.09 9.01 8.94 8.88
6.99 6.81 6.66 6.54 6.44 6.35 6.28 6.22 6.16 6.11
5.82 5.65 5.52 5.41 5.32 5.24 5.17 5.11 5.06 5.02
5.17 5.02 4.89 4.79 4.70 4.62 4.56 4.50 4.46 4.41
4.76 4.61 4.49 4.38 4.30 4.23 4.17 4.11 4.06 4.02
4.47 4.32 4.20 4.10 4.02 3.95 3.89 3.84 3.79 3.75
4.26 4.11 3.99 3.89 3.81 3.74 3.68 3.63 3.58 3.54
4.09 3.94 3.83 3.73 3.65 3.58 3.52 3.47 3.42 3.39
3.96 3.81 3.69 3.60 3.52 3.45 3.39 3.34 3.30 3.26
3.85 3.70 3.59 3.49 3.41 3.34 3.29 3.24 3.19 3.15
40 50 60 70 80 90 100 200 500 ∞
8.83 8.63 8.49 8.40 8.33 8.28 8.24 8.06 7.95 7.88
6.07 5.90 5.79 5.72 5.67 5.62 5.59 5.44 5.35 5.30
4.98 4.83 4.73 4.66 4.61 4.57 4.54 4.41 4.33 4.28
4.37 4.23 4.14 4.08 4.03 3.99 3.96 3.84 3.76 3.72
3.99 3.85 3.76 3.70 3.65 3.62 3.59 3.47 3.40 3.35
3.71 3.58 3.49 3.43 3.39 3.35 3.33 3.21 3.14 3.09
3.51 3.38 3.29 3.23 3.19 3.15 3.13 3.01 2.94 2.90
3.35 3.22 3.13 3.08 3.03 3.00 2.97 2.86 2.79 2.74
3.22 3.09 3.01 2.95 2.91 2.87 2.85 2.73 2.66 2.62
3.12 2.99 2.90 2.85 2.80 2.77 2.74 2.63 2.56 2.52
454
H Tabellen
99.5%-Quantile F0.995,f1 ,f2 f1
(Fortsetzung)
12
14
16
18
20
22
24
26
28
30
f2 1 2 3 4 5 6 7 8 9 10
24427 199.4 43.4 20.70 13.38 10.03 8.18 7.01 6.23 5.66
24572 199.4 43.2 20.51 13.21 9.88 8.03 6.87 6.09 5.53
24684 199.4 43.0 20.37 13.09 9.76 7.91 6.76 5.98 5.42
24766 199.4 42.9 20.26 12.98 9.66 7.83 6.68 5.90 5.34
24837 199.4 42.8 20.17 12.90 9.59 7.75 6.61 5.83 5.27
24892 199.4 42.7 20.09 12.84 9.53 7.69 6.55 5.78 5.22
24937 199.4 42.6 20.03 12.78 9.47 7.64 6.50 5.73 5.17
24982 199.5 42.6 19.98 12.73 9.43 7.60 6.46 5.69 5.13
25012 199.5 42.5 19.93 12.69 9.39 7.57 6.43 5.65 5.10
25041 199.5 42.5 19.89 12.66 9.36 7.53 6.40 5.62 5.07
11 12 13 14 15 16 17 18 19
5.24 4.91 4.64 4.43 4.25 4.10 3.97 3.86 3.76
5.10 4.77 4.51 4.30 4.12 3.97 3.84 3.73 3.64
5.00 4.67 4.41 4.20 4.02 3.87 3.75 3.64 3.54
4.92 4.59 4.33 4.12 3.95 3.80 3.67 3.56 3.46
4.86 4.53 4.27 4.06 3.88 3.73 3.61 3.50 3.40
4.80 4.48 4.22 4.01 3.83 3.68 3.56 3.45 3.35
4.76 4.43 4.17 3.96 3.79 3.64 3.51 3.40 3.31
4.72 4.39 4.13 3.92 3.75 3.60 3.47 3.36 3.27
4.68 4.36 4.10 3.89 3.72 3.57 3.44 3.33 3.24
4.65 4.33 4.07 3.86 3.69 3.54 3.41 3.30 3.21
20 22 24 26 28 30 32 34 36 38
3.68 3.54 3.42 3.33 3.25 3.18 3.12 3.07 3.03 2.99
3.55 3.41 3.30 3.20 3.12 3.06 3.00 2.95 2.90 2.87
3.46 3.31 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77
3.38 3.24 3.12 3.03 2.95 2.89 2.83 2.78 2.73 2.70
3.32 3.18 3.06 2.97 2.89 2.82 2.77 2.72 2.67 2.63
3.27 3.12 3.01 2.92 2.84 2.77 2.71 2.66 2.62 2.58
3.22 3.08 2.97 2.87 2.79 2.73 2.67 2.62 2.58 2.54
3.18 3.04 2.93 2.84 2.76 2.69 2.63 2.58 2.54 2.50
3.15 3.01 2.90 2.80 2.72 2.66 2.60 2.55 2.50 2.47
3.12 2.98 2.87 2.77 2.69 2.63 2.57 2.52 2.48 2.44
40 50 60 70 80 90 100 200 500 ∞
2.95 2.82 2.74 2.68 2.64 2.61 2.58 2.47 2.40 2.36
2.83 2.70 2.62 2.56 2.52 2.49 2.46 2.35 2.28 2.24
2.74 2.61 2.53 2.47 2.43 2.39 2.37 2.25 2.19 2.14
2.66 2.53 2.45 2.39 2.35 2.32 2.29 2.18 2.11 2.06
2.60 2.47 2.39 2.33 2.29 2.25 2.23 2.11 2.04 2.00
2.55 2.42 2.33 2.28 2.23 2.20 2.17 2.06 1.99 1.95
2.50 2.37 2.29 2.23 2.19 2.15 2.13 2.01 1.94 1.90
2.46 2.33 2.25 2.19 2.15 2.12 2.09 1.97 1.90 1.86
2.43 2.30 2.22 2.16 2.11 2.08 2.05 1.94 1.87 1.82
2.40 2.27 2.19 2.13 2.08 2.05 2.02 1.91 1.84 1.79
H.1 Quantile der F -Verteilung
99.5%-Quantile F0.995,f1 ,f2
455
(Fortsetzung)
40
50
60
70
80
90
100
200
500
∞
f2 1 2 3 4 5 6 7 8 9 10
25146 199.5 42.3 19.75 12.53 9.24 7.42 6.29 5.52 4.97
25213 199.5 42.2 19.67 12.45 9.17 7.35 6.22 5.45 4.90
25254 199.5 42.1 19.61 12.40 9.12 7.31 6.18 5.41 4.86
25284 199.5 42.1 19.57 12.37 9.09 7.28 6.15 5.38 4.83
25306 199.5 42.1 19.54 12.34 9.06 7.25 6.12 5.36 4.80
25325 199.5 42.0 19.52 12.32 9.04 7.23 6.10 5.34 4.79
25339 199.5 42.0 19.50 12.30 9.03 7.22 6.09 5.32 4.77
25399 199.5 41.9 19.41 12.22 8.95 7.15 6.02 5.26 4.71
25436 199.5 41.9 19.36 12.17 8.91 7.10 5.98 5.21 4.67
25466 199.5 41.8 19.32 12.14 8.88 7.08 5.95 5.19 4.64
11 12 13 14 15 16 17 18 19
4.55 4.23 3.97 3.76 3.59 3.44 3.31 3.20 3.11
4.49 4.17 3.91 3.70 3.52 3.37 3.25 3.14 3.04
4.45 4.12 3.87 3.66 3.48 3.33 3.21 3.10 3.00
4.41 4.09 3.83 3.62 3.45 3.30 3.18 3.07 2.97
4.39 4.07 3.81 3.60 3.43 3.28 3.15 3.04 2.95
4.37 4.05 3.79 3.58 3.41 3.26 3.13 3.02 2.93
4.36 4.04 3.78 3.57 3.39 3.25 3.12 3.01 2.91
4.29 3.97 3.71 3.50 3.33 3.18 3.05 2.94 2.85
4.25 3.93 3.67 3.46 3.29 3.14 3.01 2.90 2.80
4.23 3.90 3.65 3.44 3.26 3.11 2.98 2.87 2.78
20 22 24 26 28 30 32 34 36 38
3.02 2.88 2.77 2.67 2.59 2.52 2.47 2.42 2.37 2.33
2.96 2.82 2.70 2.61 2.53 2.46 2.40 2.35 2.30 2.27
2.92 2.77 2.66 2.56 2.48 2.42 2.36 2.30 2.26 2.22
2.88 2.74 2.63 2.53 2.45 2.38 2.32 2.27 2.23 2.19
2.86 2.72 2.60 2.51 2.43 2.36 2.30 2.25 2.20 2.16
2.84 2.70 2.58 2.49 2.41 2.34 2.28 2.23 2.18 2.14
2.83 2.69 2.57 2.47 2.39 2.32 2.26 2.21 2.17 2.12
2.76 2.62 2.50 2.40 2.32 2.25 2.19 2.14 2.09 2.05
2.72 2.57 2.46 2.36 2.28 2.21 2.15 2.09 2.04 2.00
2.69 2.55 2.43 2.33 2.25 2.18 2.11 2.06 2.01 1.97
40 50 60 70 80 90 100 200 500 ∞
2.30 2.16 2.08 2.02 1.97 1.94 1.91 1.79 1.72 1.67
2.23 2.10 2.01 1.95 1.90 1.87 1.84 1.71 1.64 1.59
2.18 2.05 1.96 1.90 1.85 1.82 1.79 1.66 1.58 1.53
2.15 2.02 1.93 1.86 1.82 1.78 1.75 1.62 1.54 1.49
2.12 1.99 1.90 1.84 1.79 1.75 1.72 1.59 1.51 1.45
2.10 1.97 1.88 1.81 1.77 1.73 1.70 1.56 1.48 1.43
2.09 1.95 1.86 1.80 1.75 1.71 1.68 1.54 1.46 1.40
2.01 1.87 1.78 1.71 1.66 1.62 1.59 1.44 1.35 1.28
1.96 1.82 1.73 1.66 1.60 1.56 1.53 1.37 1.26 1.17
1.93 1.79 1.69 1.62 1.56 1.52 1.49 1.31 1.18 1.00
f1
456
H Tabellen
H.2 Quantile der χ2 -Verteilung Freiheitsgrad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
0.90
0.95
0.975
0.99
0.995
2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26 51.81 63.17 74.40 85.53 96.58 107.57 118.50
3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 55.76 67.50 79.08 90.53 101.88 113.15 124.34
5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 59.34 71.42 83.30 95.02 106.63 118.14 129.56
6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.73 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 63.69 76.15 88.38 100.43 112.33 124.12 135.81
7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.65 50.99 52.34 53.67 66.77 79.49 91.95 104.21 116.32 128.30 140.17
H.3 Quantile der Student t-Verteilung
H.3 Quantile der Student t-Verteilung Freiheitsgrad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 1000 ∞
0.90
0.95
0.975
0.99
0.995
3.08 1.89 1.64 1.53 1.48 1.44 1.41 1.40 1.38 1.37 1.36 1.36 1.35 1.35 1.34 1.34 1.33 1.33 1.33 1.33 1.32 1.32 1.32 1.32 1.32 1.31 1.31 1.31 1.31 1.31 1.30 1.30 1.30 1.29 1.29 1.29 1.29 1.28 1.28
6.31 2.92 2.35 2.13 2.02 1.94 1.89 1.86 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.75 1.74 1.73 1.73 1.72 1.72 1.72 1.71 1.71 1.71 1.71 1.70 1.70 1.70 1.70 1.68 1.68 1.67 1.67 1.66 1.66 1.66 1.65 1.64
12.7 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.20 2.18 2.16 2.14 2.13 2.12 2.11 2.10 2.09 2.09 2.08 2.07 2.07 2.06 2.06 2.06 2.05 2.05 2.05 2.04 2.02 2.01 2.00 1.99 1.99 1.99 1.98 1.96 1.96
31.8 6.96 4.54 3.75 3.36 3.14 3.00 2.90 2.82 2.76 2.72 2.68 2.65 2.62 2.60 2.58 2.57 2.55 2.54 2.53 2.52 2.51 2.50 2.49 2.49 2.48 2.47 2.47 2.46 2.46 2.42 2.40 2.39 2.38 2.37 2.37 2.36 2.33 2.33
63.7 9.92 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.05 3.01 2.98 2.95 2.92 2.90 2.88 2.86 2.85 2.83 2.82 2.81 2.80 2.79 2.78 2.77 2.76 2.76 2.75 2.70 2.68 2.66 2.65 2.64 2.63 2.63 2.58 2.58
457
458
H Tabellen
H.4 Kumulierte Standardnormalverteilung Φ(x)
F(x) 1 0 1x
x -3 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 -0
0 0.0013 0.0019 0.0026 0.0035 0.0047 0.0062 0.0082 0.0107 0.0139 0.0179 0.0228 0.0287 0.0359 0.0446 0.0548 0.0668 0.0808 0.0968 0.1151 0.1357 0.1587 0.1841 0.2119 0.2420 0.2743 0.3085 0.3446 0.3821 0.4207 0.4602 0.5000
0.01 0.0013 0.0018 0.0025 0.0034 0.0045 0.0060 0.0080 0.0104 0.0136 0.0174 0.0222 0.0281 0.0351 0.0436 0.0537 0.0655 0.0793 0.0951 0.1131 0.1335 0.1562 0.1814 0.2090 0.2389 0.2709 0.3050 0.3409 0.3783 0.4168 0.4562 0.4960
0.02 0.0013 0.0018 0.0024 0.0033 0.0044 0.0059 0.0078 0.0102 0.0132 0.0170 0.0217 0.0274 0.0344 0.0427 0.0526 0.0643 0.0778 0.0934 0.1112 0.1314 0.1539 0.1788 0.2061 0.2358 0.2676 0.3015 0.3372 0.3745 0.4129 0.4522 0.4920
0.03 0.0012 0.0017 0.0023 0.0032 0.0043 0.0057 0.0075 0.0099 0.0129 0.0166 0.0212 0.0268 0.0336 0.0418 0.0516 0.0630 0.0764 0.0918 0.1093 0.1292 0.1515 0.1762 0.2033 0.2327 0.2643 0.2981 0.3336 0.3707 0.4090 0.4483 0.4880
0.04 0.0012 0.0016 0.0023 0.0031 0.0041 0.0055 0.0073 0.0096 0.0125 0.0162 0.0207 0.0262 0.0329 0.0409 0.0505 0.0618 0.0749 0.0901 0.1075 0.1271 0.1492 0.1736 0.2005 0.2296 0.2611 0.2946 0.3300 0.3669 0.4052 0.4443 0.4840
0.05 0.0011 0.0016 0.0022 0.0030 0.0040 0.0054 0.0071 0.0094 0.0122 0.0158 0.0202 0.0256 0.0322 0.0401 0.0495 0.0606 0.0735 0.0885 0.1056 0.1251 0.1469 0.1711 0.1977 0.2266 0.2578 0.2912 0.3264 0.3632 0.4013 0.4404 0.4801
0.06 0.0011 0.0015 0.0021 0.0029 0.0039 0.0052 0.0069 0.0091 0.0119 0.0154 0.0197 0.0250 0.0314 0.0392 0.0485 0.0594 0.0721 0.0869 0.1038 0.1230 0.1446 0.1685 0.1949 0.2236 0.2546 0.2877 0.3228 0.3594 0.3974 0.4364 0.4761
0.07 0.0011 0.0015 0.0021 0.0028 0.0038 0.0051 0.0068 0.0089 0.0116 0.0150 0.0192 0.0244 0.0307 0.0384 0.0475 0.0582 0.0708 0.0853 0.1020 0.1210 0.1423 0.1660 0.1922 0.2206 0.2514 0.2843 0.3192 0.3557 0.3936 0.4325 0.4721
0.08 0.0010 0.0014 0.0020 0.0027 0.0037 0.0049 0.0066 0.0087 0.0113 0.0146 0.0188 0.0239 0.0301 0.0375 0.0465 0.0571 0.0694 0.0838 0.1003 0.1190 0.1401 0.1635 0.1894 0.2177 0.2483 0.2810 0.3156 0.3520 0.3897 0.4286 0.4681
0.09 0.0010 0.0014 0.0019 0.0026 0.0036 0.0048 0.0064 0.0084 0.0110 0.0143 0.0183 0.0233 0.0294 0.0367 0.0455 0.0559 0.0681 0.0823 0.0985 0.1170 0.1379 0.1611 0.1867 0.2148 0.2451 0.2776 0.3121 0.3483 0.3859 0.4247 0.4641
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3
0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987
0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987
0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987
0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988
0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988
0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989
0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989
0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989
0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990
0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990
Symmetriebeziehung: Φ(−x) = 1 − Φ(x) Wichtige Quantile: Φ(1.282) = 0.90; Φ(1.645) = 0.95; Φ(2.326) = 0.99;
Φ(2.576) = 0.995.
Φ(1.960) = 0.975;
Literatur
Lehrb¨ ucher [Bam] [Bly] [Bou] [Dul] [Fah] [Har] [Le1] [Le2] [Pf1] [Pf2] [Sra] [Sze]
Bamberg, G., Baur, F.: Statistik, Oldenbourg, M¨ unchen 2006. Bleym¨ uller, J., Gehlert, G., G¨ ulicher, H.: Statistik f¨ ur Wirtschaftswissenschaftler, Vahlen, M¨ unchen 2008. Bourier, G.: Beschreibende Statistik, Gabler, Wiesbaden 2005. Duller, C.: Einf¨ uhrung in die Statistik mit Excel und SPSS, PhysicaVerlag, Heidelberg 2007. Fahrmeir, L., K¨ unstler, R., Pigeot, I., Tutz, G.: Statistik, Springer, Heidelberg 2009. Hartung, J.: Statistik, Oldenbourg, M¨ unchen 2005. Lehn, J., M¨ uller-Gronbach, T., Rettig, S.: Einf¨ uhrung in die Deskriptive Statistik, Teubner, Stuttgart 2000. Lehn, J., Wegmann, H.: Einf¨ uhrung in die Statistik , Teubner, Stuttgart 2006. Pfanzagl, J.; Allgemeine Methodenlehre der Statistik I, Sammlung G¨ oschen-De Gruyter, Berlin 1983. Pfanzagl, J.; Allgemeine Methodenlehre der Statistik II, Sammlung G¨ oschen-De Gruyter, Berlin 1978. Schira, J.: Statistische Methoden der VWL und BWL, Pearson Studium, M¨ unchen 2005. Schwarze, J.: Grundlagen der Statistik I, Neue Wirtschaftsbriefe, Herne 2009. Spezielle Literatur
[Bun]
[Co1] [Co2] [Fis] [Uhl]
Bunke, O.: Neue Konfidenzintervalle f¨ ur den Parameter der Binomialverteilung, Wissenschaftliche Zeitschrift der Humboldt-Universit¨ at Berlin, 1959. Collani, E. v.: Optimale Wareneingangskontrolle, Teubner, Stuttgart 1984. Collani, E. v., Dr¨ ager, K.: Binomial Distribution Handbook for Scientists and Engineers, Birkh¨ auser, Boston 2001. Fisz, M: Wahrscheinlichkeitsrechnung und Mathematische Statistik, VEB Deutscher Verlag der Wissenschaften, Berlin 1980. Uhlmann, W.: Statistische Qualit¨ atskontrolle, Teubner, Stuttgart 1982.
Index
(n, c), 361 R(xi ), 104 λ, 264 A(X = x), 10 Bi(n, p), 192 COR[X, Y ], 175 COV [X, Y ], 175 E[X], 160, 167 Exp(λ), 211 F (x), 159, 165 Fα,f1 ,f2 , 219 G(μ), 354 G(p), 202 H(N, M, n), 198 H(x), 12, 17, 27 H0 , 283 H1 , 283 K, 284 L(μ), 354 L(p, n, c), 363 N, 4 N (μ ; σ 2 ), 184 P (X = x), 158 P (X ∈ A), 158 PL (t0 , t), 134 PP (t0 , t), 134 P o(μ), 208 QL (t0 , t), 136 QP (t0 , t), 136 R, 75 Rx,y , 258 SSE(a, b), 113 S 2 , 258
Sx,y , 258 T (x), 302 U (t0 , t), 132 V AR[X], 160, 167 Φ(z), 187 α, 254, 286, 292 x ¯Y ∈B , 65 β, 286 ∩, 378 χ2f ;α , 216 ∪, 378 δ, 78 i , 345 ˆ 254 Θ, ∈, b 377 f (x) dx, 164 a ¯ 258 X, x ¯, 65 Pˆ , 258 μ, 167 μ, 160 ρR(X),R(Y ) , 104 ρx,y , 99, 175 ρ2x,y , 116 σ 2 , 79, 80, 160, 167 σx,y , 86, 94, 175 ⊂, 378 θ, 253 d(x), 25 ei , 113 g, 73 h(Ki ), 23 h(X = x), 11
462
Index
h(x), 11, 17 h(x, y), 32 p0 , 368 pi (t), 131 qi (t), 131 qi (t0 , t), 136 t, 131 t0 , 131 tf,α , 218 va (p), 366 vr (p), 366 wi , 138 xα , 60 xme , 56 xmo , 54 3σ-Regel, 90 50%-Quantil, 56 A1, A2, A3, 284 Abh¨ angigkeit, statistische, 107 absolute Abweichung, 77, 87, 116 absolute H¨ aufigkeit, 10 Abweichungen, 113 absolute, 116 quadratische, 115 Acceptance Sampling, 361 Acceptance Sampling, kostenoptimal, 366 Addition von Variablen, 86 Additionseigenschaft, 189 Additionsregel, 15, 16, 159 Aggregation bed. H¨ aufigkt., 47 Mittelwerte, 65, 67 Aktienindex, 143 Alternative, 283 Alternativtest, 287, 353 Alternativtest f¨ ur den Erwartungswert, 354 Annahmekontrolle, 361 Annahmezahl, 361 ANOVA, 297 Anpassung, 112 Anpassungstest, 294, 321 Anteil, 11 Anteilsch¨ atzer, 258, 262 Anzahl, 10 arithmetisches Mittel, 54, 62 artm¨ aßiges Merkmal, 7
Attribut, 5 Ausreißer, 108 Ausschlussverfahren, 287 Ausschussquote, 361 Balkendiagramm, 14 Basisperiode, 131 Basisregion, 150 Bayes, 50 bedingte Korrelation, 109 bedingte Verteilung, 39 bedingte Wahrscheinlichkeit, 169 bedingter Mittelwert, 65 Befragung, 8 Beobachtung, 8 Berichtsperiode, 131 Berichtsregion, 150 Bernoulli-Variable, 191 Bernoullikette, 191, 192, 206 Bestimmtheitsmaß, 116 Bestimmung von n, 266, 268, 274 Binomialkoeffizient, 194, 382 Binomialverteilung, 191, 192, 195, 219, 229 Bivariat, 6 bivariate Stichprobe, 250 bivariate Verteilung, 32 Bravais Pearson, 92, 99 Bunke, 274 Case, 5 Chi-quadrat-Verteilung, 216, 261, 325, 332 Clopper-Pearson Intervalle, 271 Collani, 274, 371 Darstellungsformen, 13 Datenerhebung, 7 DAX, 131, 143 Deflationierung, 141, 149 Deskriptive Statistik, 3 Dichte, 25 Dichtefunktion, 25, 162 diskretes Merkmal, 7 Diskretisierung, 23 disproportional geschichtete Stichprobe, 247 DJIA, 143 Dow Jones, 143
Index Durchschnitt, 54, 62, 378 gewogener, 48 einfacher Mengenindex, 136 einfacher Preisindex, 133, 134 Einfallsklasse, 28 einseitige Konfidenzintervalle, 279 einseitiger Test, 284 Element, 377 empirisch, 9 Endkontrolle, 361 Entscheidungsregel, 300 Entscheidungstheorie, 353 Ereignis, 155 error, 113, 345 erwartungstreuen Sch¨ atzer, 256 erwartungstreuer Sch¨ atzer, 260 Erwartungswert, 160, 167 Eurostat, 131 Experiment, 8 Exponentialverteilung, 209 exponentielle Regression, 126 Extremwert, 76
463
Gl¨ ucksrad, 160 Gleichl¨ aufigkeit, 91 Gleichschritt, 91 Gleichverteilung, 214 Glockenkurve, 184 Gosset, 218 Grenzwert, 164 Grundgesamtheit, 4, 6, 237 H¨ aufigkeit bedingte, 39 H¨ aufigkeitsfunktion, 18 harmonisches Mittel, 68 Harmonisierter Verbraucherpreisindex, 142 Hauptsatz der Differential- und Integralrechnung, 166 Histogramm, 24 Homogenit¨ atstest, 296, 327, 341 Homoskedastizit¨ at, 346 HVPI, 142 Hypergeometrische Verteilung, 197, 200 Hypothese, 283 Hypothesen-Typen, 293
F-Verteilung, 218 Fakult¨ at, 381 Fall, 5 Fehler 1.Art, 285 Fehler 2.Art, 285 fiktive Urliste, 159 Filter, 42 Fl¨ ache, 163, 164 Freiheitsgrad, 216
Index, 131 Indikatorvariable, 191 Induktive Statistik, 3 induktive Verfahren, 238 Inflation, 133 Integral, 164 Intervalle, 377 Intervallskala, 7
G¨ utefunktion, 290, 353, 354 Gauß-Test, 299, 354 Gaußsche Glockenkurve, 184 Ged¨ achtnis, 205, 213 Gegenereignis, 14 Gegenl¨ aufigkeit, 91 gemeinsame Stichprobenvarianz, 316 geometrische Verteilung, 201, 203 geometrisches Mittel, 73 gepoolte Stichprobenvarianz, 316 geschichtete Stichprobe, 246, 248 Gewinn, 366 gewogener Durchschnitt, 48 gewogenes arithmetisches Mittel, 63, 65 gewogenes Mittel, 71
anderung, 151 Kaufkraft¨ Kaufkraftparit¨ at, 150 Kausalit¨ at, 107 Klassen, 23 Kolmogorov, 155 Kombinatorik, 381 Kommutativit¨ at, 50 Komplement, 14, 378 Konfidenz, 254 Konfidenzintervall, Regression, 348 Konfidenzintervalle einseitig, 279 Konfidenzintervallverfahren, 254, 264, 271 konsitente Sch¨ atzer, 256
464
Index
Kontingenztafel, 33, 43 Korrekturterm, 229 Korrelation, 91, 99, 107, 175, 183 Korrelation, partielle, 109 kostenoptimales Acceptance Sampling, 366 Kovarianz, 86, 91, 94, 175, 183 kritische Region, 284, 300 kumulierte Verteilung, 12, 159 kumulierte Verteilungsfunktion, 17
multiple Regression, 112 Multivariat, 6 multivariate Stichprobe, 251
Lageparameter, 53, 87 Laplace-W¨ urfel, 159 Laspeyres-Mengenindex, 136 Laspeyres-Methode, 142 Laspeyres-Preisindex, 134 Laspeyres-Subindizes, 137 Likelihoodsch¨ atzer, 257 lineare Abh¨ angigkeit, 92 lineare Regression, 112 lineare Regressionsanalyse, 346 lineare Transformation, 83, 96, 99 linksseitige Konfidenzintervalle , 280 logistische Regression, 128
Objekt, 4, 5 Operationscharakterisitk, 354, 362 Optimalit¨ atseigenschaften, 87 ordinales Merkmal, 7
M¨ oglichkeiten, 381 M¨ unzwurf, 156 Maßtheorie, 155 Median, 54, 56, 58, 59 Menge, 377 Mengenindex, 143 Mengenindex nach Laspeyres, 135 Mengenindex nach Paasche, 135 Mengenlehre, 377 Merkmal, 4, 5, 7 Merkmalstr¨ ager, 5 Merkmalstypen, 7 Merkmalswerte, 4 Messergebnisse, 239 Messwerte, 4 Messzahl, 134, 136 metrisches Merkmal, 7 Mittelwert, 54, 62, 84 arithmetisch, 54, 71 geometrisch, 73 harmonisch, 68, 71 mittlere Abweichung, 75, 78, 88 Modus, 53, 54 multiple lineare Regression, 119
Nennergr¨ oße, 70 nichtlineare einfache Regression, 124 nominaler Wert, 149 nominales Merkmal, 7 Normalverteilung, 184 Nullhypothese, 283, 290
Paasche Methode, 142 Paasche-Mengenindex, 136 Paasche-Preisindex, 134 Paasche-Subindizes, 137 Parametertest, 294 partielle Korrelation, 109 Performanceindex, 143 Permutationen, 381 Poisson-Verteilung, 206, 208 Polygonzug, 27, 28 Population, 4 Pr¨ azision, 254, 265, 266, 268, 274 Pr¨ ufplan, 361 Predictor, 111 Preisbereinigung, 149 Preisindex, 131, 140, 149 Preisindex f¨ ur die Lebenshaltung, 140 Preisindex nach Laspeyres, 133 Preisindex nach Paasche, 133 prim¨ arstatistisch, 8 Produktionsindex, 134, 143, 144 proportional geschichtete Stichprobe, 247 Prozentfuß, 376 Prozentpunkte, 376 Prozentrechnung, 375 Prozentsatz, 375, 376 Punktsch¨ atzer, 254, 257, 347 Punktwolke, 37, 91, 119, 343 quadratische Abweichungen, 115 quadratische Regression, 124 quadrierte Abweichung, 78, 88
Index Qualit¨ at, 253, 286 Qualit¨ atskontrolle, 290 qualitatives Merkmal, 7 Quantil, 31 Quantile, 60 quantitatives Merkmal, 7 Randverteilung, 34, 173 Range, 75 Rangkorrelation, 92, 104 Rangzahlen, 104 realer Wert, 149 Realisation, 159 Reallohneinbuße, 149 Rechenregeln, 13 rechtsseitige Konfidenzintervalle , 280 Regel vom Gegenteil, 14, 159 Regel, 3σ , 90 Regressand, 111 Regression, 342 einfache, 112 exponentielle, 126 linear, multipel, 119 lineare, 112 logistische, 128 multiple, 112 nichtlineare, einfache, 124 quadratische, 124 Regressionsanalyse, 343 Regressionsanalyse, multiple, 352 Regressionsebene, 121 Regressionsgerade, 113, 114, 347 Regressionsrechnung, deskriptive, 111 Regressor, 111 stochastisch, 346, 351 Regret, 371 reine Zufallsauswahl, 241, 243, 244 relative H¨ aufigkeit, 11 repr¨ asentativ, 241, 247 Reproduktionseigenschaft, 190 Residuen, 113, 120, 345 Response, 111 Restart, 205, 213 Risiko, 254, 292 Risiko 1.Art, 286, 354 Risiko 2.Art, 286 Risikostreuung, 98 S¨ aulendiagramm, 14
465
sampling plans, 361 Sch¨ atzverfahren, 238, 253 Scheinkausalit¨ at, 107 Scheinkorrelation, 107 Schließende Statistik, 3 sekund¨ arstatistisch, 8 Sicherheitswahrscheinlichkeit, 254 Signifikanztest, 287, 290, 293 Simpson-Effekt, 109 simultane Konfidenzintervalle, 349 Spannweite, 75 Spearman, 92, 104 Stabdiagramm, 14 Standardabweichung, 75, 79, 89 standardisierte Differenz, 302 Standardnormalverteilung, 187 Starkes Gesetz der großen Zahl, 157 statistische Abh¨ angigkeit, 107 Statistische Qualit¨ atskontrolle, 290 Statistisches Bundesamt, 131 Steigung, 166 stetiges Merkmal, 7 Stichprobe, 181, 237, 239 bivariate, 250 geschichtet, 246 Klumpen, 247 unverbundene, 295 verbundene, 294 Stichprobenkorrelation, 258 Stichprobenkovarianz, 258 Stichprobenmittel, 225, 258, 260 Stichprobenstandardabweichung, 258, 261 Stichprobenvarianz, 258, 261 gepoolt, 316 Stichprobenverteilungen, 216 Stochastik, 4 stochastischer Regressor, 346, 351 Streudiagramm, 36 Streuungsmaße, 75 Studentverteilung, 218 Subindizes, 137 sum of squared errors, 113, 120 Summe unabh¨ angiger Zufallsvariablen, 221 Summen, 86 Summen von Zufallsvariablen, 177 Summenzeichen, 379
466
Index
t-Test, 307 t-Verteilung, 218 Teilgesamtheit, 6, 39 Teilmenge, 378 Test auf Gleichheit von Verteilungen, 327, 334 Test auf Unabh¨ angigkeit, 296, 335 Test f¨ ur den Erwartungswert, 299, 307 Test f¨ ur einen Anteil oder eine Wahrscheinlichkeit, 319 Test f¨ ur Erwartungswerte, 313 Test f¨ ur zwei Erwartungswerte, 310 Test, Regression, 349 Testen hypothetischer Wahrscheinlichkeiten, 321 Testgr¨ oße, 301, 302 Testschranke, 301 Testverfahren, 238, 283 Teuerungsrate, 133 Tie, 106 Tortendiagramm, 14 totale Wahrscheinlichkeit, 49, 169 Totalerhebung, 8, 237 Trefferwahrscheinlichkeit, 191 Trennqualit¨ at, 368 Treppenfunktion, 17 Tschebyscheff, 89 Uhlmann, 371 Umbasierung, 147 Umsatzindex, 131, 132 unabh¨ angig, 175 unabh¨ angige Zufallsstichprobe, 242 Unabh¨ angigkeit, 173, 335 Unabh¨ angigkeitstest, 335, 341, 342 unendliche Grundgesamtheit, 249 Ungleichung von Tschebyscheff, 89 Univariat, 6 Untersuchungseinheit, 5 unverbundene Stichproben, 295, 296, 315, 327 Urliste, 5, 238 fiktive, 159 unendliche, 156, 157 Urnenmodell, 197 Ursache, 107 Variable, 5, 7 Varianz, 75, 79, 80, 84, 88, 89, 160, 167
Varianzanalyse, 297 Varianzhomogenit¨ at, 315, 318, 346 Varianzzerlegung, 116 Variation, 382 Verbraucherpreisindex, 139, 140 verbundene Stichprobe, 294, 296, 311 Vereinigung, 378 Verf¨ alschung, 256 Vergleichszahl, 376 Verh¨ altnisskala, 7 Verh¨ altniszahl, 376 Verkettungseigenschaft, 149 Verkn¨ upfung, 145 Verlust, 366 Verteilung, 181 arithmetisches Mittel, 226 bedingte, 39 binomial, 195 bivariat, diskret, 32 bivariat, klassifiziert , 38 bivariat, stetig, 36 Chi-quadrat, 216 exponentielle, 209 F, 218 geometrisch, 201 hypergeometrisch, 197 kumuliert, klassifiziert, 27, 28 kumulierte, 12, 159, 165 normal, 184 Poisson, 206 Student t, 218 univariat, diskret, 9, 11 univariat, klassifiziert, 23 univariat, stetig, 21 Verteilungsfunktion, 159 diskret, 17 kumuliert, 17 nicht-kumuliert, 17 volatil, 98 W¨ agungsschema, 48 W¨ urfel, 158, 159 Wahrscheinlichkeit, 156, 158 bedingte, 169 Wartezeit, 209, 215 Wendepunkte, 186 Wertindex, 131, 132 wirksamer Sch¨ atzer, 257
Index Z¨ ahlergr¨ oße, 70 zahlm¨ aßiges Merkmal, 7 Zentraler Grenzwertsatz, 185, 221, 222 Zentralwert, 56 ZGWS, 221 Ziehen mit Zur¨ ucklegen, 241, 243, 244, 260 Ziehen ohne Zur¨ ucklegen, 241, 243, 244, 278 Ziehungsverfahren, 241, 242
Zufallsauswahl, 241 Zufallsexperiment, 158 Zufallsstichprobe, 242 Zufallsvariable, 159 diskrete, 159 stetige, 162, 165 Zusammenhang, 91 Zuverl¨ assigkeit, 239, 254 zweiseitiger Test, 284
467
Zum Autor
Prof. Dr. rer. nat. Christoph Weigand studierte an der Universit¨at W¨ urzburg Mathematik und Informatik. Nach dem Diplom in Mathematik im Jahr 1989 war er Assistent am Institut f¨ ur Angewandte Mathematik und Statistik der Universit¨ at W¨ urzburg, wo er 1992 auf dem Gebiet der Statistischen Qualit¨atskontrolle promovierte. Bei der Deutschen Bank AG in Frankfurt arbeitete er mehrere Jahre im Bereich Operations Research. Seit 1996 lehrt der Autor an der Fachhochschule Aachen am Fachbereich Wirtschaftswissenschaften Wirtschaftsmathematik und Statistik.