Angewandte Statistik mit R: Eine Einfuhrung fur Okonomen und Sozialwissenschaftler

Reiner Hellbrück Angewandte Statistik mit R Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen...

Author: Reiner Hellbruck

104 downloads 1803 Views 2MB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!

Report copyright / DMCA form

DOWNLOAD PDF

Reiner Hellbrück Angewandte Statistik mit R

Reiner Hellbrück

Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler

Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.

Prof. Dr. Reiner Hellbrück lehrt Volkswirtschaftspolitik und Betriebsstatistik an der FH Würzburg-Schweinfurt.

1. Auflage 2009 Alle Rechte vorbehalten © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009 Lektorat: Jutta Hauser-Fahr | Walburga Himmel Gabler ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.gabler.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Krips b.v., Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in the Netherlands ISBN 978-3-8349-1857-4

Vorwort Dieses Buch entstand im Zuge der Neustrukturierung meiner Statistikveranstaltungen an der FH Würzburg-Schweinfurt. Die fortschreitende Digitalisierung macht auch vor der Statistik nicht halt und so entstand der Wunsch, die Veranstaltungen neu auszurichten. Wie an Fachhochschulen üblich, liegt der Schwerpunkt auf der Anwendung. Aus diesem Grund sind im allgemeinen nach einer kurzen Darstellung des nötigen Hintergrundwissens Beispiele angefügt. Hierbei kommt die Statistiksoftware zum Einsatz. wird sehr selektiv eingesetzt, allen Anwendungen ist zuvor ein Grundlagenkapitel vorgeschaltet, in dem Maßzahlen, Teststatistiken, Hypothesen und dergleichen vorgestellt werden. Leser, die einen schnellen Überblick über die Software wünschen, seien auf den Anhang C verwiesen, wo die wichtigsten Befehle dargestellt werden. Um Mißverständnissen vorzubeugen, sei ausdrücklich darauf hingewiesen, daß es sich hier um keine Einführung in das Programmpaket handelt: Methoden und Anwendung, gestützt mit Software, stehen gleichberechtigt nebeneinander. Das Erlernen der Software ergibt sich als nützlicher Nebeneﬀekt. Die anfänglichen Rechnungen erfolgten mit Version R-2.5, dann mit neueren. Die Software ist auf vielen verschiedenen Betriebssystemen lauﬀähig. Im vorliegenden Fall wurde Windows XP und Suse-Linux genutzt. Bei Linux wurden teilweise Rechnungen mit Hilfe einer Shell, (auch Konsole oder Befehlsfenster genannt) größtenteils aber mit Emacs-ess durchgeführt. Emacs ist ein TextEditor, der üblicherweise mit jeder Linux-Distribution ausgeliefert wird. Das Kürzel ’ess’ steht für ’emacs speaks statistics’ und will heißen, daß das Zusatzwerkzeug ’Emacs-ess’ als Benutzeroberﬂäche (als ’frontend’) für Statistiksoftware eingesetzt werden kann. Hierüber ist es möglich, mit einer einheitlichen Benutzeroberﬂäche verschiedene Statistikprogramme, darunter auch ’SPSS’ und ’Stada’, anzusprechen. Eigene Versuche in dieser Richtung wurden von dem Autor bislang nicht unternommen. Der Einstieg ist sehr einfach gehalten, um dem Studenten während der ersten Wochen genügend Zeit zu lassen, die neue Software auf seinem eigenen Rechner zu installieren und kennenzulernen. Erfahrungsgemäß stellen sich bereits bei dem Einlesen der Daten die ersten Probleme ein. Dies rührt aus der Verwendung unterschiedlicher Parameter, die zur Trennung von Zeichen bei Textdateien verwendet werden. Desweiteren gibt es üblicherweise Probleme durch die Verwendung unterschiedlicher Betriebssysteme. ist primär für Linuxsyste-

vi

VORWORT

me geschrieben. Hier gelten jedoch etwas andere Konventionen bei der Angabe von Pfaden: statt des ’\’, wie in Windowssystemen üblich, wird das Zeichen ’/’ verwendet. Werden die Befehle nicht direkt in dem Befehlsfenster von geschrieben, sondern in einem Textverarbeitungsprogramm, so kann es nach Kopieren der Befehle in das Befehlsfenster leicht zu Fehlermeldungen kommen. Ursache ist dann häuﬁg die automatische Ersetzung der Anführungszeichen in typographische Anführungszeichen innerhalb des Textverarbeitungsprogramms. Deshalb wird empfohlen, zum Schreiben oder Bearbeiten von Befehlen eine Software zu verwenden, die solche automatischen Ersetzungen nicht vornimmt, oder daß solche Funktionen ausgeschaltet werden. Der deskriptiven Statistik ist vergleichsweise wenig Raum gewidmet, der Schwerpunkt liegt auf der schließenden Statistik und multivariaten Verfahren, bei denen seitens Ökonomen (speziell meiner Kolleginnen und Kollegen) Nachfrage besteht. Der Text kann, je nach Belieben, unterschiedlich verwendet werden. Einerseits besteht die Möglichkeit, die Theorie weitestgehend in den Hintergrund zu drängen, um sich ausschließlich auf die Anwendung zu konzentrieren: die Kapitel 6 und 7 zur Wahrscheinlichkeitstheorie können dann übersprungen werden. Dies bietet sich an, wenn eine Veranstaltung zur Wahrscheinlichkeitstheorie vorgeschaltet ist. Andererseits ist es möglich, Inhalte anwendungsnah zu präsentieren, und bei Bedarf nötiges Wissen in Wahrscheinlichkeitstheorie einzuﬂechten. Dann bietet es sich an, die Kapitel in der angegebenen Folge zu besprechen. Da die Kapitel 10 und 11, ohne statistische Tests auskommen, können sie auch zur Veranschaulichung multivariater Verfahren vorgezogen werden. Bei einigen Lehrbüchern hat sich zwischenzeitlich die Unart eingeschlichen, während des laufenden Textes nicht zu zitieren. Es scheint, als habe ein sehr bekanntes Lehrbuch der Mikroökonomie, diese Entwicklung eingeleitet. Dem Autor des Lehrbuches verbrannte das Manuskript mitsamt der Zitate. Aus den verbliebenen Resten wurde es fast gänzlich ohne Zitate fertiggestellt. Hierdurch wird dem Studenten der Eindruck vermittelt, als brauche man nicht zu zitieren. Diesem Zeitgeist wird hier nicht gefolgt. Es wird angegeben, woher der Autor seine Weisheiten hat. Dank schulde ich vielen, insbesondere meinem akademischen Lehrer Prof. Dr. Volker Steinmetz, der es außerordentlich gut verstand, theoretische Statistik und Ökonometrie zu vermitteln. Herr Prof. Dr. Rudolf Richter bot bereits in den 80-er Jahren PC-gestützte ökonometrische Auswertungen an, damals ein Novum. Beide Ansätze werden hier miteinander verknüpft. Danken möchte ich an dieser Stelle auch meinem wissenschaftlichen Mitarbeiter Manuel Hertel, für die gute Zusammenarbeit und die Entlastung durch seine Übungsstunden, die er mit großer Umsicht anbietet. Schließlich möchte ich bei meinen Söhnen, David und Simon um Nachsicht bitten, für die Zeit, die ich in meinem Arbeitszimmer den PC blockiert habe. Meine Frau genoß die Zeit, während ich ’aufgeräumt’ war, ebenso wie ich. Würzburg, im Juni 2009: Reiner Hellbrück

Inhaltsverzeichnis Vorwort

v

Abbildungsverzeichnis

xv

Tabellenverzeichnis

xvii

1 Einleitung 1.1 Gegenstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Datenerhebung - ganz praktisch 2.1 Einleitung . . . . . . . . . . . . . . . 2.2 Erhebungsplan . . . . . . . . . . . . 2.2.1 Grundlagen . . . . . . . . . . 2.2.2 Beispiel . . . . . . . . . . . . 2.3 Software . . . . . . . . . . . . . . . . 2.3.1 Moodle und LimeSurvey . . . 2.3.2 Statistikpaket R . . . . . . . 2.4 Ziehen einer Stichprobe . . . . . . . 2.4.1 Grundlagen . . . . . . . . . . 2.4.2 Beispiel . . . . . . . . . . . . 2.5 Rohdaten auslesen . . . . . . . . . . 2.5.1 Grundlagen . . . . . . . . . . 2.5.2 Beispiel . . . . . . . . . . . . 2.6 Daten in Statistikprogramm einlesen 2.6.1 Grundlagen . . . . . . . . . . 2.6.2 Beispiel . . . . . . . . . . . . 2.7 Plausibilitätsprüfung . . . . . . . . . 2.7.1 Grundlagen . . . . . . . . . . 2.7.2 Beispiel 1 . . . . . . . . . . . 2.7.3 Einfache Datensätze . . . . . 2.7.4 Beispiel 2 . . . . . . . . . . . 2.7.5 Komplexe Datensätze . . . . 2.7.6 Beispiel 3 . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

1 1 4 7 7 7 7 8 10 10 11 12 12 13 13 13 14 15 15 15 17 17 18 19 20 21 23

INHALTSVERZEICHNIS

viii

2.8 Abschließende Bemerkungen . . . . . . . . . . . . . . . . . . . . . 2.9 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24 25 27

3 Datenaufbereitung 3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Graphische Methoden . . . . . . . . . . . . . . . . . . . . . 3.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Absolute Häuﬁgkeitsverteilung . . . . . . . . . . . . . . . . 3.3.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Relative Häuﬁgkeitsverteilung . . . . . . . . . . . . . . . . . 3.4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Verteilungsfunktion und Quantile . . . . . . . . . . . . . . . 3.5.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . 3.5.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.3 Verteilungsfunktion und Quantile . . . . . . . . . . . 3.6 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Absolute Häuﬁgkeit . . . . . . . . . . . . . . . . . . 3.6.2 Durchschnittliche Häuﬁgkeitsdichte . . . . . . . . . . 3.7 Kontingenztabelle . . . . . . . . . . . . . . . . . . . . . . . . 3.7.1 Gemeinsame Verteilung . . . . . . . . . . . . . . . . 3.7.2 Randverteilungen . . . . . . . . . . . . . . . . . . . . 3.7.3 Bedingte Verteilung und statistische Unabhängigkeit 3.8 Lorenz-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.8.2 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.3 Gini-Koeﬃzienten . . . . . . . . . . . . . . . . . . . 3.9 Abschließende Bemerkungen . . . . . . . . . . . . . . . . . . 3.10 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . 3.11 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.A Nützliches zu Maßzahlen* . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29 29 30 30 32 36 36 36 37 38 40 40 41 42 43 43 43 45 48 50 50 51 53 53 55 56 57 57 58 60 63 63 64 67

4 Statistisches Testen 4.1 Einleitung . . . . . . . . . . . . . 4.2 Binomialverteilung . . . . . . . . 4.2.1 Grundlagen . . . . . . . . 4.2.2 Beispiel . . . . . . . . . . 4.3 Test . . . . . . . . . . . . . . . . 4.3.1 Zweiseitige Fragestellung

. . . . . .

. . . . . .

. . . . . .

69 69 70 70 72 73 73

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

INHALTSVERZEICHNIS

ix

4.3.2 Einseitige Fragestellung - Version 4.3.3 Einseitige Fragestellung - Version 4.3.4 Fehler 1. Art . . . . . . . . . . . 4.3.5 Beispiel . . . . . . . . . . . . . . 4.4 Abschließende Bemerkungen . . . . . . . 4.5 Kontrollfragen . . . . . . . . . . . . . . 4.6 Aufgaben . . . . . . . . . . . . . . . . . 4.A Wirkungsanalyse* . . . . . . . . . . . . 4.A.1 Grundlagen . . . . . . . . . . . . 4.A.2 Test . . . . . . . . . . . . . . . . 4.A.3 Beispiel . . . . . . . . . . . . . . 4.A.4 Abschließende Bemerkungen . .

1 2 . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

76 78 79 79 82 83 84 87 87 88 89 90

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

91 91 92 92 94 97 97 98 99 99 101 102 103 104

6 Wahrscheinlichkeitsräume 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . 6.2 Deﬁnitionsmenge . . . . . . . . . . . . . . . . . 6.3 Wahrscheinlichkeitsraum der Grundgesamtheit 6.4 Wahrscheinlichkeitsraum der Stichprobe . . . . 6.5 Wichtige Zusammenhänge und Begriﬀe . . . . . 6.5.1 Rechenregeln . . . . . . . . . . . . . . . 6.5.2 Bedingte Wahrscheinlichkeit . . . . . . . 6.5.3 Stochastische Unabhängigkeit . . . . . . 6.5.4 Multiplikationssatz . . . . . . . . . . . . 6.5.5 Satz von der totalen Wahrscheinlichkeit 6.5.6 Satz von Bayes . . . . . . . . . . . . . . 6.5.7 Diskreter Wahrscheinlichkeitsraum . . . 6.6 Abschließende Bemerkungen . . . . . . . . . . . 6.7 Kontrollfragen . . . . . . . . . . . . . . . . . . 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

107 107 108 110 113 115 115 116 116 117 117 118 120 120 121 122

5 Chi-Quadrat Tests 5.1 Einleitung . . . . . . . . . . . 5.2 Unabhängigkeitstest . . . . . 5.2.1 Grundlagen . . . . . . 5.2.2 Beispiel . . . . . . . . 5.3 Anpassungstest . . . . . . . . 5.3.1 Grundlagen . . . . . . 5.3.2 Beispiel . . . . . . . . 5.4 Homogenitätstest . . . . . . . 5.4.1 Grundlagen . . . . . . 5.4.2 Beispiel . . . . . . . . 5.5 Abschließende Bemerkungen . 5.6 Kontrollfragen . . . . . . . . 5.7 Aufgaben . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

x

INHALTSVERZEICHNIS

7 Abbildungen von Ergebnisräumen 7.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Meßbarkeit und Zufallsvariable . . . . . . . . . . . . 7.2.1 Meßbarkeit . . . . . . . . . . . . . . . . . . . 7.2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . 7.3 Verteilungsfunktion und Dichte . . . . . . . . . . . . 7.3.1 Verteilungsfunktion . . . . . . . . . . . . . . 7.3.2 Dichte . . . . . . . . . . . . . . . . . . . . . . 7.4 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1 Erwartungswert . . . . . . . . . . . . . . . . . 7.4.2 Kovarianz, Varianz und Standardabweichung 7.4.3 Standardisierung . . . . . . . . . . . . . . . . 7.5 Abschließende Bemerkungen . . . . . . . . . . . . . . 7.6 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . 7.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

125 125 126 126 127 128 128 130 131 131 132 133 133 134 135

8 Einfache Korrelationsanalyse 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Wahrscheinlichkeitstheorie . . . . . . . . . . . 8.2.2 Empirische Korrelation . . . . . . . . . . . . 8.2.3 Berechnung bei Wertepaaren . . . . . . . . . 8.2.4 Beispiele . . . . . . . . . . . . . . . . . . . . . 8.3 Tests bei kardinalen Merkmalen . . . . . . . . . . . . 8.3.1 Stetige normalverteilte Zufallsvariablen . . . 8.3.2 Stetige nicht-normalverteilte Zufallsvariablen 8.4 Test bei ordinalen Merkmalen: Bell-Doksum Test . . 8.4.1 Test . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Beispiel . . . . . . . . . . . . . . . . . . . . . 8.5 Abschließende Bemerkungen . . . . . . . . . . . . . . 8.6 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . 8.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . 8.A Weitere Tests* . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

137 137 138 138 139 140 140 143 143 147 154 154 155 158 159 160 161

9 Multivariate Korrelationsanalyse* 9.1 Einleitung . . . . . . . . . . . . . . 9.2 Vergleich zweier Korrelationen . . 9.2.1 Grundlagen . . . . . . . . . 9.2.2 Beispiel . . . . . . . . . . . 9.3 Partielle Korrelation . . . . . . . . 9.3.1 Grundlagen . . . . . . . . . 9.3.2 Beispiel 1 . . . . . . . . . . 9.3.3 Test . . . . . . . . . . . . . 9.3.4 Beispiel 2 . . . . . . . . . . 9.4 Zusammenhang zwischen mehreren 9.4.1 Grundlagen . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

165 165 166 166 167 168 168 169 169 170 170 170

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Merkmalen . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

INHALTSVERZEICHNIS 9.4.2 Beispiel . . . . . . . Globaltest . . . . . . . . . . 9.5.1 Test . . . . . . . . . 9.5.2 Beispiel . . . . . . . 9.6 Multiple Vergleiche . . . . . 9.6.1 Test . . . . . . . . . 9.6.2 Beispiel . . . . . . . 9.7 Multiple Korrelation . . . . 9.7.1 Grundlagen . . . . . 9.7.2 Beispiel 1 . . . . . . 9.7.3 Test . . . . . . . . . 9.7.4 Beispiel 2 . . . . . . 9.8 Kanonische Korrelation . . 9.8.1 Grundlagen . . . . . 9.8.2 Beispiel 1 . . . . . . 9.8.3 Test . . . . . . . . . 9.8.4 Beispiel 2 . . . . . . 9.9 Abschließende Bemerkungen 9.10 Kontrollfragen . . . . . . . 9.11 Aufgaben . . . . . . . . . .

xi . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

172 173 173 173 174 174 176 179 179 179 180 181 182 182 183 184 185 186 187 188

10 Daten- und Distanzmatrix 10.1 Einleitung . . . . . . . . . . . . . . . 10.2 Distanzmatrizen . . . . . . . . . . . 10.2.1 Deﬁnition und Eigenschaften 10.2.2 Skalierung . . . . . . . . . . . 10.3 Kardinale Merkmale . . . . . . . . . 10.3.1 Intervall- und Verhältnisskala 10.3.2 Manhattan-Distanz . . . . . . 10.4 Ordinale Merkmale . . . . . . . . . . 10.4.1 Grundlagen . . . . . . . . . . 10.4.2 Beispiel . . . . . . . . . . . . 10.5 Nominale Merkmale . . . . . . . . . 10.5.1 Grundlagen . . . . . . . . . . 10.5.2 Beispiel . . . . . . . . . . . . 10.6 Binäre Merkmale . . . . . . . . . . . 10.6.1 Grundlagen . . . . . . . . . . 10.6.2 Beispiel . . . . . . . . . . . . 10.7 Abschließende Bemerkungen . . . . . 10.8 Kontrollfragen . . . . . . . . . . . . 10.9 Aufgaben . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

189 189 191 191 192 192 192 194 198 198 199 202 202 202 203 203 205 206 207 207

9.5

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

INHALTSVERZEICHNIS

xii

11 Clusteranalyse 11.1 Einleitung . . . . . . . . . . . . . . . . . . . 11.2 Klassiﬁkation . . . . . . . . . . . . . . . . . 11.2.1 Klassiﬁkationstypen . . . . . . . . . 11.2.2 Konstruktionsverfahren . . . . . . . 11.3 PAM . . . . . . . . . . . . . . . . . . . . . . 11.3.1 Grundlagen . . . . . . . . . . . . . . 11.3.2 Beispiel 1 . . . . . . . . . . . . . . . 11.3.3 Bestimmung der Medoiden* . . . . . 11.3.4 Beispiel 2 . . . . . . . . . . . . . . . 11.3.5 Isolierte Cluster . . . . . . . . . . . . 11.3.6 Beispiel 3 . . . . . . . . . . . . . . . 11.3.7 Überprüfung der Klassenbildung . . 11.3.8 Beispiel 4 . . . . . . . . . . . . . . . 11.3.9 Bestimmung der Klassenzahl . . . . 11.3.10 Beispiel 5 . . . . . . . . . . . . . . . 11.4 FANNY . . . . . . . . . . . . . . . . . . . . 11.4.1 Grundlagen . . . . . . . . . . . . . . 11.4.2 Beispiel 1 . . . . . . . . . . . . . . . 11.4.3 Partition und Überdeckung . . . . . 11.4.4 Beispiel 2 . . . . . . . . . . . . . . . 11.4.5 Überprüfung der Klassenbildung und 11.4.6 Beispiel 3 . . . . . . . . . . . . . . . 11.5 MONA . . . . . . . . . . . . . . . . . . . . . 11.5.1 Grundlagen . . . . . . . . . . . . . . 11.5.2 Beispiel 1 . . . . . . . . . . . . . . . 11.5.3 Assoziationsmaß . . . . . . . . . . . 11.5.4 Beispiel 2 . . . . . . . . . . . . . . . 11.5.5 Missings . . . . . . . . . . . . . . . . 11.5.6 Beispiel 3 . . . . . . . . . . . . . . . 11.6 Abschließende Bemerkungen . . . . . . . . . 11.7 Kontrollfragen . . . . . . . . . . . . . . . . 11.8 Aufgaben . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassenanzahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

211 211 214 214 215 216 216 216 220 223 224 225 226 228 229 229 229 229 231 232 233 236 237 237 237 238 240 241 244 244 245 246 247

12 Einfache Regression 12.1 Einleitung . . . . . . . . . . . . . . . . . 12.2 Einfaches klassisches Regressionsmodell 12.2.1 Grundlagen . . . . . . . . . . . . 12.2.2 Beispiel . . . . . . . . . . . . . . 12.3 Regressionsfunktion . . . . . . . . . . . 12.3.1 Grundlagen . . . . . . . . . . . . 12.3.2 Beispiel . . . . . . . . . . . . . . 12.4 Prognose . . . . . . . . . . . . . . . . . . 12.4.1 Grundlagen . . . . . . . . . . . . 12.4.2 Beispiel . . . . . . . . . . . . . . 12.5 Bestimmtheitsmaß . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

249 249 250 250 253 255 255 256 258 258 258 259

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

INHALTSVERZEICHNIS 12.5.1 Grundlagen . . . . . . . . . . . . 12.5.2 Beispiel . . . . . . . . . . . . . . 12.6 Vollständiges Modell . . . . . . . . . . . 12.7 Tests . . . . . . . . . . . . . . . . . . . . 12.7.1 Grundlagen . . . . . . . . . . . . 12.7.2 Beispiel . . . . . . . . . . . . . . 12.8 Abschließende Bemerkungen . . . . . . . 12.9 Kontrollfragen . . . . . . . . . . . . . . 12.10Aufgaben . . . . . . . . . . . . . . . . . 12.A Beweis der Streuungszerlegungsformel* . 12.B Erwartungswerte der KQ-Koeﬃzienten* 12.C Standardisierung* . . . . . . . . . . . . 12.C.1 Erwartungswert . . . . . . . . . . 12.C.2 Varianz . . . . . . . . . . . . . . 12.D Partielle Korrelation* . . . . . . . . . .

xiii . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

259 262 263 264 264 266 269 269 271 272 274 274 274 275 277

A Theoretische Verteilungen A.1 Einleitung . . . . . . . . . . . . . . . . . . A.2 Diskrete Verteilungen . . . . . . . . . . . A.2.1 Gleichverteilung* . . . . . . . . . . A.2.2 Bernoulli- und Binomialverteilung A.2.3 Hypergeometrische Verteilung* . . A.2.4 Poisson-Verteilung* . . . . . . . . A.2.5 Geometrische Verteilung* . . . . . A.3 Stetige Verteilungen . . . . . . . . . . . . A.3.1 Rechteckverteilung . . . . . . . . . A.3.2 Exponentialverteilung* . . . . . . . A.3.3 Normalverteilung . . . . . . . . . . A.3.4 Chi-Quadrat-Verteilung . . . . . . A.3.5 t-Verteilung . . . . . . . . . . . . . A.3.6 F-Verteilung . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

279 279 280 280 281 282 283 285 287 287 289 290 295 296 299

B Matrizenrechnung B.1 Einleitung . . . . . . . . . . . . . . . . . . . . B.2 Matrizen . . . . . . . . . . . . . . . . . . . . . B.2.1 Deﬁnition . . . . . . . . . . . . . . . . B.2.2 Vektoren . . . . . . . . . . . . . . . . B.2.3 Typen . . . . . . . . . . . . . . . . . . B.3 Verknüpfungen . . . . . . . . . . . . . . . . . B.3.1 Gleichheitsrelation . . . . . . . . . . . B.3.2 Addition . . . . . . . . . . . . . . . . . B.3.3 Skalare Multiplikation . . . . . . . . . B.3.4 Produkt zweier Matrizen . . . . . . . B.3.5 Multiplikation von Vektoren . . . . . . B.4 Unabhängigkeit, Rang, Determinante, Inverse B.4.1 Lineare Unabhängigkeit . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

303 303 304 304 304 305 306 306 307 308 310 312 313 313

INHALTSVERZEICHNIS

xiv B.4.2 Rang . . . . . . . . B.4.3 Determinante . . . B.4.4 Inverse . . . . . . . B.5 Eigenwerte, Eigenvektoren B.5.1 Deﬁnitionen . . . . B.5.2 Rechenregel . . . . B.5.3 Beispiele . . . . . .

. . . . . . . . . . . . . . . . . . und Spur . . . . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

313 314 316 319 319 319 319

C Befehle in R C.1 Einleitung . . . . . . . . . . . . . . . . . . . . C.2 Grundlagen . . . . . . . . . . . . . . . . . . . C.3 Daten einlesen, Objekte speichern und laden . C.4 Dateneigenschaften . . . . . . . . . . . . . . . C.5 Manipulation eingelesener Datensätze . . . . C.6 Graphik . . . . . . . . . . . . . . . . . . . . . C.7 Suchen und Finden . . . . . . . . . . . . . . . C.8 Besonderheiten in Windows . . . . . . . . . . C.9 Fehlermeldungen . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

321 321 322 323 325 327 328 329 331 332

Lösungen

334

Glossar

347

Literaturverzeichnis

351

Stichwortverzeichnis

353

Abbildungsverzeichnis 2.1 2.2

Rohdaten in Tabellenkalkulationsprogramm einlesen . . . . . . . Anwendung empirische versus korrigierte Varianz . . . . . . . . .

14 20

3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13

Einfaches Liniendiagramm . . . . . . . . . . . . . . . . . Liniendiagramm bei komplexen Datensätzen . . . . . . . Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . Absolute Häuﬁgkeitsverteilung . . . . . . . . . . . . . . Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . Relative Häuﬁgkeitsverteilung . . . . . . . . . . . . . . . Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . Berechnung der Quantile mit Option Typ 7 . . . . . . . Korrekte graphische Darstellung der Verteilungsfunktion Histogramm mit absoluten Häuﬁgkeiten . . . . . . . . . Histogramm mit durchschnittlicher Häuﬁgkeitsdichte . . Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . Lorenzkurve: Konzentration auf ein Merkmal . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

33 35 37 39 40 42 46 48 49 51 53 60 62

4.1 4.2 4.3 4.4

Binomialverteilung . . . . . . . . . . . . . . . . . Hypothesentest: zweiseitige Fragestellung . . . . Hypothesentest: einseitige Fragestellung - Version Hypothesentest: einseitige Fragestellung - Version

. . . .

. . . .

. . . .

. . . .

. . . .

74 76 77 78

5.1

Annahme und Verwerfungsbereich . . . . . . . . . . . . . . . . .

94

6.1 6.2

Veranschaulichung des Satzes von der totalen Wahrscheinlichkeit 118 Baumdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8.1 8.2 8.3

Streudiagramme (= Scatterplots) . . . . . . . . . . . . . . . . . . 142 Veranschaulichung des Tests auf insigniﬁkante Korrelation . . . . 146 Fishers z-Transformation . . . . . . . . . . . . . . . . . . . . . . . 162

. . 1 2

. . . .

. . . .

. . . .

10.1 Illustration der Manhattan-Distanz . . . . . . . . . . . . . . . . . 195 11.1 Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 11.2 Silhouette des ’output3’ . . . . . . . . . . . . . . . . . . . . . . . 226

xvi

ABBILDUNGSVERZEICHNIS 11.3 Silhouette des ’output8’ . . . . . . . . . . . . . . . . . . . . . . . 228 11.4 Clusterbildung mit MONA . . . . . . . . . . . . . . . . . . . . . 240 12.1 Einkommen in Abhängigkeit des Alters . . . . . . . . . . . . . . . 254 12.2 KQ-Schätzung einer Cobb-Douglas Produktionsfunktion . . . . . 257 12.3 Translationsinvarianz des Bestimmtheitsmaßes . . . . . . . . . . 262 A.1 Hypergeometrische Verteilung . . . . . . . . . . . . A.2 Poisson-Verteilung . . . . . . . . . . . . . . . . . . A.3 Verteilungsfunktion der Poisson-Verteilung . . . . . A.4 Geometrische Verteilung . . . . . . . . . . . . . . . A.5 Verteilungsfunktion der Geometrischen-Verteilung A.6 Rechteckverteilung . . . . . . . . . . . . . . . . . . A.7 Verteilungsfunktion der Rechteckverteilung . . . . A.8 Exponentialverteilung . . . . . . . . . . . . . . . . A.9 Verteilungsfunktion der Exponentialverteilung . . . A.10 Standardnormalverteilung . . . . . . . . . . . . . . A.11 Verteilungsfunktion der Standardnormalverteilung A.12 Dichtefunktion der Chi-Quadrat-Verteilung . . . . A.13 Verteilungsfunktion der Chi-Quadrat-Verteilung . . A.14 Dichtefunktion der t-Verteilung . . . . . . . . . . . A.15 Verteilungsfunktion der t-Verteilung . . . . . . . . A.16 Dichtefunktion der F-Verteilung . . . . . . . . . . . A.17 Verteilungsfunktion der F-Verteilung . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

284 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301

Tabellenverzeichnis 2.1 2.2 2.3

Daten YX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Daten Einkommen Alter Ausbildungsjahre . . . . . . . . . . . . . Daten2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16 18 22

3.1 3.2 3.3 3.4 3.5

Arbeitslose in Deutschland . . . . . . . . . Vier mal drei Kontingenztabelle . . . . . . . Randverteilung . . . . . . . . . . . . . . . . 1. Schritt zur Erstellung einer Lorenz-Kurve 2. Schritt zur Erstellung einer Lorenz-Kurve

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

31 54 55 57 58

5.1 5.2 5.3 5.4 5.5

Rohdaten . . . . . . . . . . . . . . . . . . . . Kontingenztabelle mit absoluten Häuﬁgkeiten Eingabe x . . . . . . . . . . . . . . . . . . . . Eingabe y . . . . . . . . . . . . . . . . . . . . Kontingenztabelle mit bedingter Verteilung .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

95 95 96 96 99

8.1 8.2

Beispiel: Umsatz - Bruttowertschöpfung . . . . . . . . . . . . . . 144 Ränge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

9.1

Umsatz und Entfernung . . . . . . . . . . . . . . . . . . . . . . . 167

10.1 Kontingenztabelle bei binären Merkmalen . . . . . . . . . . . . . 204 11.1 Datenmatrix zur Bildung von zwei Partitionen . . . . . . . . . . 216 11.2 Binäre Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . 238

Kapitel 1

Einleitung 1.1

Gegenstand

Ziel dieses Lehrbuches ist es, den Leser so schnell wie möglich in die Lage zu versetzen, Daten sinnvoll auszuwerten. Es wird gezeigt, wie Daten online erhoben werden können, wie die so gewonnenen Rohdaten mit einem Tabellenkalkulationsprogramm nachbearbeitet und dann durch den Einsatz des Statistikprogramms ausgewertet werden. Die so gewonnenen Ergebnisse werden entweder mit oder einem Tabellenkalkulationsprogramm graphisch aufbereitet. Eine große Zahl an Statistiklehrbüchern gibt es und so stellt sich die Frage: warum braucht die Welt ein weiteres? Die Inhalte dieses Lehrbuches beruhen auf einer Befragung meiner betriebswirtschaftlichen Kollegen. Da die Inhalte existierender Lehrbücher deren Nachfrage in unbefriedigender Weise abdecken, lag es nahe, ein am Bedarf orientiertes Lehrbuch zu verfassen. Anders als Volkswirte, erstellen Betriebswirte in Marketing und Personalwirtschaft häuﬁg selbst Fragebögen. Hieraus ergibt sich die Notwendigkeit des Ziehens von Stichproben sowie der Überprüfung der Daten auf Plausibilität. In der betrieblichen Praxis, beispielsweise dem Controlling, genügt es häuﬁg, die Daten zur Entscheidungsvorbereitung graphisch oder mit Hilfe von Kennzahlen aufzubereiten. Deshalb sollten auch Verfahren zur Präsentation von Auswertungen dargestellt werden. Bei der Auswertung von Fragebögen werden in der Personalwirtschaft Korrelationsanalysen durchgeführt. In Einführungslehrbüchern der Statistik werden diese Methoden üblicherweise nicht dargestellt. Die Clusteranalyse wird an der FH Würzburg-Schweinfurt in der Marktforschung als Instrument erwähnt und kurz besprochen, woraus sich eine abgeleitete Nachfrage in der Statistik herleitet. In der Logistik und dem Controlling werden zu Planungszwecken Prognosen erstellt. Die Grundlagen hierfür sollten in der Statistikveranstaltung gelegt werden. Die Gliederung aller dem Autor bekannter Standardlehrbücher ist dreigeteilt: deskriptive Statistik, Wahrscheinlichkeitstheorie und schließende Statistik. Ist der Student bei der schließenden Statistik angelangt, so ist er häuﬁg nicht R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

2

KAPITEL 1. EINLEITUNG

in der Lage, die Bezüge zur Wahrscheinlichkeitstheorie zu erkennen. Im übrigen ist es Studenten kaum zu vermitteln, weshalb sie dieselben Formeln, die sie bereits in der deskriptiven Statistik kennengelernt haben, in exakt derselben oder leicht abgewandelten Form in der Wahrscheinlichkeitstheorie wieder lernen sollen. Entscheidend ist der Zusammenhang, in den die Begriﬀe gestellt werden und so sollte die einmalige Einführung eines Begriﬀes und der Kontext, in den er gestellt wird, genügen. Aus diesen Gründen werden hier, ohne explizit auf Wahrscheinlichkeitstheorie einzugehen, zuerst die Prinzipien statistischen Testens vorgestellt, um dem Studenten zu veranschaulichen, wozu die Wahrscheinlichkeitstheorie überhaupt nütze ist. Dieses Vorgehen wird durch die Verwendung von Statistiksoftware erst möglich. Denn nun können, ohne vorherige Standardisierung von Zufallsvariablen, Quantile berechnet werden. Zudem werden die Verfahren mit einem Statistikprogramm relativ leicht nachvollziehbar. Selbst große Datenmengen können verarbeitet werden. Andererseits hat eine jede Software Eigenheiten, die der Anwender kennen muß, wenn er Fehler vermeiden will. Gelegentlich gibt es bei der Berechnung von Maßzahlen (beispielsweise bei Quantilen) keine eindeutigen Lösungen. In einem solchen Fall helfen allgemeine Hinweise, wie der Statistiker sich in solchen Situationen verhalten kann, nicht weiter. Man muß wissen, wie das verwendete Programm damit umgeht, um korrekte Interpretationen liefern zu können. Zudem sollte man auch bedenken, welche Fehler bei größeren Datenmengen entstehen: sie sind häuﬁg vernachlässigbar gering. Statistik lebt von der Anwendung. Zur Anregung sind Beispiele eingeﬂochten mit Fragestellungen aus dem wirtschaftswissenschaftlichen Bereich. Im Zuge ihrer Diskussion werden auftretende praktische Probleme angesprochen und Lösungsmöglichkeiten unterbreitet. Die Aufgabenstellungen am Ende jeden Kapitels umfassen nicht nur die Anwendung statistischer Verfahren, sondern auch methodische Fragen, solche, die in der praktischen Anwendung auftauchen. Der Leser wird hierdurch gezwungen, die Methoden zu reﬂektieren und, falls die Anwendungsbedingungen nicht vorliegen sollten, nach passenden zu suchen. Der Anfänger wird dann naturgemäß Schwierigkeiten haben, eine adäquate Lösung selbst zu ﬁnden. Aus diesem Grund fällt den Lösungen eine besondere Bedeutung zu. Dieses Vorgehen wurde bewußt gewählt, denn in der betrieblichen Praxis stellt dies eher den Normalfall dar. Die Datenverarbeitung hat in den letzten Jahren neue Möglichkeiten für Datenerhebung und -verarbeitung ermöglicht, Opensourcesoftware ist verfügbar, mit deren Hilfe praktisch zum Nulltarif Daten erhoben, aufbereitet, ausgewertet und die Ergebnisse graphisch aufbereitet werden können. So gibt es OpenOﬃce, zu erhalten über www.openoffice.org, ein komplettes Oﬃcepaket mit Textverarbeitung, Tabellenkalkulation, Präsentation, Zeichen- sowie einem Datenbankprogramm. Es wird als Teil des Betriebssystems Linux üblicherweise mitgeliefert. Linux, ebenfalls eine Opensourcesoftware, kann parallel zu Windowsbetriebssystemen

1.1. GEGENSTAND

3

(z.B. Windows95, Windows98, WindowsXP) installiert werden. Bei dem Hochfahren des PCs kann der Nutzer dann zwischen dem Windowssystem und Linux wählen. Im Buchhandel und einschlägigen PC-Shops kann es erworben, gelegentlich auch für ein paar Euro als Beilage zu einschlägigen Zeitschriften mit ’Linux’ in der Titelleiste gekauft oder aus dem Internet kostenlos heruntergeladen werden. Die Distributionen unterscheiden sich allerdings qualitativ. Im Handel können welche mit Handbüchern gekauft werden und man erhält, abhängig von der Firma (Suse oder RedHat), auch Unterstützung bei Problemen. Dieser Service ist ansonsten nicht vorhanden. Linux-CD’s aus Zeitschriften können, der Autor hat es ausprobiert, ebenso problemlos genutzt werden wie die Versionen, die aus dem Internet heruntergeladen werden können. Der Unterschied zwischen diesen beiden Zugangswegen ist, daß im letzten Fall sehr große Datenmengen gehandhabt werden müssen. Gängige Browser und Dateimanager können dann versagen. Ist Linux bereits installiert, so kann Bittorrent eingesetzt werden. Ansonsten ist die Installation denkbar einfach: lege die Installations-DVD ein und automatisch wird ein Installationsvorschlag gemacht, der ggf. den eigenen Bedürfnissen angepaßt werden kann. OpenOﬃce gibt es für alle gängigen Betriebssysteme und gleiches gilt für das Statistikprogramm , das über http://ftp5.gwdg.de/pub/misc/cran/ aus dem Internet heruntergeladen werden kann. Neben dieser befehlsbasierten Version gibt es auch eine mit graphischer Oberﬂäche, zu erhalten über www.statistiklabor.de. Auch ’moodle’, eine serverbasierte Plattform, die für E-Learning geeignet ist, aber auch zur Online-Datenerhebung verwandt werden kann, ist interessant. Diese Software wird im Internet über www.moodle.de zur Verfügung gestellt. Sie ist in manchen Linuxdistributionen bereits vorhanden und muß händisch nur noch installiert werden. Limesurvey ist ein Werkzeug, das speziell zur Onlinebefragung entwickelt wurde. Informationen über das Programm wie auch Downloads können über www.limesurvey.org bezogen werden. Es ist ebenso wie die bereits aufgeführte Software frei verfügbar. Der Vorteil dieser Software liegt darin, daß Studenten mit Tools lernen, die sie später im Berufsleben ebenfalls nutzen können. Zudem ist es möglich, sich während des Studiums zu Hause mit der Software vertraut zu machen, zu üben und zu lernen. Die Lerneinheiten können auch mit kommerzieller Software bearbeitet werden, doch angesichts der beschriebenen Vorteile von Opensourceprodukten werden hier die genannten Produkte verwendet.

KAPITEL 1. EINLEITUNG

4

Aus der Perspektive von Unternehmen lohnt sich die Beschäftigung unserer Absolventen. Denn viele arbeiten in kleinen und mittelständischen Unternehmen. Ist keine Statistiksoftware vorhanden, so bringen unsere Absolventen attraktive Software und die nötigen Kenntnisse mit. Wird standardmäßig mit kommerzieller Software gearbeitet, so ist sollte ein Umstieg hierauf ohne größere Probleme möglich sein. Der größte Vorteil liegt jedoch in der Möglichkeit, statistische Auswertungen automatisch oder wenigstens halb-automatisch durchführen zu können. Dies geschieht über die Erstellung von Befehlsdateien, die als Textdatei abgespeichert werden und bei Bedarf über den Zwischenspeicher in kopiert werden. Haben Akademiker sich jedoch bereits auf Statistiksoftware mit graphischer Oberﬂäche eingearbeitet, so stellt dies den ’Industriestandard’ dar und größere automatisierte Auswertungen benötigen viel mehr Zeit, als die Nutzung von Befehlsdateien in . Das vorliegende Buch wurde übrigens ebenfalls mit freier Software erstellt, mit LATEX. Dies ist eine Sammlung von Makros, mit dem TEX, das wunderbare Setzprogramm von Donald E. Knuth, auf vergleichsweise einfache Art und Weise verwendet werden kann. Nützliche Informationen und Downloads ﬁndet man über www.latex-project.org. Für einen schnellen Einstieg in das Programm kann OpenOﬃce genutzt werden. Man schreibe seinen Text in OpenOﬃce-Writer und wähle ’Datei-Export’, wobei ’Latex 2e’ als Filter gewählt wird. Die so erzeugte ’*.tex’-Datei enthält alle nötigen Befehle, um ein TEX-Dokument zu erstellen. In Linuxdistributionen kann ’emacs-auctec’ aktiviert werden, wodurch mit Emacs auch Latex-Dokumente auf angenehme Art verarbeitet werden können.

1.2

Aufbau

Statistik ist mehr und mehr die Auseinandersetzung mit Software, ökonomischer Theorie, Statistik und Präsentation. Im Zentrum steht jedoch stets die Fragestellung. Damit rückt unvermittelt die fachliche Orientierung in den Mittelpunkt des Interesses. Statistik ohne theoretischen Hintergrund zu betreiben, macht wenig Sinn. Das Buch wendet sich vor allem an Ökonomen und so sind die hier verwendeten Beispiele vor allem den Wirtschaftswissenschaften entlehnt. Bei dem ersten Durcharbeiten können die mit ’*’gekennzeichneten Kapitel übersprungen werden. Die verwendeten Daten werden im Internetangebot des Verlages zur Verfügung gestellt. Die mit ’*.Rdata’ gekennzeichneten Dateien werden über den Befehl > load("Dateiname.Rdata") in das Programm eingelesen. Um zu erkennen, welche Variablen oder Objekte nun verfügbar sind, verwende man die Anweisung

-

1.2. AUFBAU

5

> ls(). In Kapitel 2 wird die Datenerhebung über Onlinebefragung beschrieben. Es wird deutlich, warum unterschiedliche Erhebungsmethoden verwendet werden und welche es gibt. Dem Leser werden Hilfestellungen bei der Auswahl der Methoden gegeben. Außerdem wird beschrieben, wie Rohdaten auf Plausibilität überprüft werden können. Methoden zur Datenaufbereitung, also zur Beschreibung von Datensätzen, werden in Kapitel 3 beschrieben. Die Ausführungen beginnen mit grundlegenden Bemerkungen und werden anschließend durch Beispiele veranschaulicht. Es zeigt sich, daß mit einigen wenigen Befehlen auch größere Datensätze mit Maßzahlen charakterisiert und graphisch aufbereitet werden können. Diese Methoden werden in anderen Lehrbüchern üblicherweise unter der Überschrift ’deskriptive’ oder ’beschreibende Statistik’ abgehandelt. Diesem Gebrauch wird hier nicht gefolgt. Bevor überhaupt eine Datenauswertung erfolgt, sollte man sich im klaren darüber sein, welchem Zweck die Datenauswertung dient. Hieraus ist abzuleiten, wie mit den Daten umgegangen werden muß. In der Praxis werden Methoden des Kapitels 3 üblicherweise genutzt, um sich einen ersten Eindruck über die Datenlage zu verschaﬀen. Dies kann leicht zu Fehlverhalten führen (siehe die Anekdote auf Seite 8). Erste statistische Tests stehen im Mittelpunkt des Kapitels 4. Wissen um die Wahrscheinlichkeitsrechnung wäre zwar wünschenswert, ist aber nicht unbedingt erforderlich. Anhand des Binomialtests über den Anteilswert werden die Prinzipien statistischer Tests erläutert. Diese Einsichten werden in Kapitel 5 vertieft. Zudem können diese Tests gerade bei der Auswertung von Fragebögen sinnvoll eingesetzt werden. Nachdem die Grundlagen des statistischen Testens gelegt sind, wird die Wahrscheinlichkeitstheorie in den Kapiteln 6 und 7 präsentiert. Sofern die Grundlagen der Wahrscheinlichkeitstheorie bereits gelegt sein sollten, können diese beiden Kapitel übersprungen werden. Zum besseren Verständnis empﬁehlt sich jedoch die Lektüre der Abschnitte 6.3 und 6.4. Der Begriﬀ des Wahrscheinlichkeitsraumes, konkret bezogen auf die Grundgesamtheit sowie den Stichprobenraum wird eingeführt. Es schließen sich wichtige Lehrsätze der Wahrscheinlichkeitstheorie an. Die zentralen Begriﬀe bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, der Multiplikationssatz sowie der Satz von der theoretischen Wahrscheinlichkeit werden hier vorgestellt. In Kapitel 7 werden Zufallsvariablen eingeführt, der zentrale Begriﬀ, der die Grundlage für theoretische Wahrscheinlichkeitsverteilungen und Verteilungsfunktionen bildet. Die wichtigsten Kenngrößen, wie Erwartungswert und Varianz theoretischer Verteilungen sowie die Technik des Standardisierens ﬁnden sich hier. Die Korrelationsanalyse ist in zwei Kapitel aufgespalten: die einfache wird in Kapitel 8 und die multiple in Kapitel 9 dargestellt. Zunächst wird der Begriﬀ der Korrelation in der Wahrscheinlichkeitstheorie eingeführt. Es schließen sich die Ausführungen über die Schätzung der Korrelation bei Vorliegen einer einfachen

6

KAPITEL 1. EINLEITUNG

Stichprobe an. Als Gliederungskriterium des Kapitels 8 dient das Skalenniveau des betrachteten Merkmals. Die multivariate Korrelationsanalyse startet mit dem Vergleich zweier Korrelationen, der auf den Vergleich mehrerer Korrelationen ausgeweitet wird. Hier ﬁndet sich auch die partielle Korrelation, die in der praktischen Arbeit von Bedeutung ist. Bei dem restlichen Kapitel werden Grundkenntnisse der Matrizenrechnung vorausgesetzt, die gegebenenfalls in Anhang B nachgelesen werden können. Kapitel 10 (Daten- und Distanzmatrix) und 11 (Clusteranalyse) bilden eine Einheit. Letztlich dienen beide Kapitel dazu, statistische Einheiten automatisch Klassen zuzuordnen (=Clusteranalyse). In ersterem wird das Skalenniveau der Merkmale näher betrachtet. Insbesondere werden binäre Variablen eingeführt, die in symmetrische und asymmetrische unterteilt werden. In der praktischen Anwendung der Clusteranalyse werden die verwendeten Merkmale im allgemeinen nicht dasselbe Skalenniveau aufweisen. Deshalb ist es nötig, zumindest ein Verfahren aufzuzeigen, mit Hilfe dessen, dieses Problem bewältigt werden kann. Dies ist der zentrale Inhalt des Kapitel 10. Im nachfolgenden Kapitel werden ausgewählte Verfahren der Clusteranalyse dargestellt. Nachdem verschiedene Klassiﬁkationstypen und -verfahren dargestellt worden sind, wird ein Verfahren zu Bildung von Partitionen präsentiert. Hierbei wird auch eine Methode vorgestellt, mit deren Hilfe bei Bedarf die Klassenanzahl bestimmt werden kann. Mit FANNY, einer Methode zur Bestimmung unscharfer Mengen, wird auch gezeigt, wie Überdeckungen gebildet werden können. Bei Vorliegen ausschließlich binärer Daten kann mit MONA eine Hierarchie konstruiert werden. In Kapitel 12 wird schließlich die Regressionsrechnung dargestellt. Hauptzweck ist die Erstellung von Prognosen. Nach einleitenden Hinweisen zur Methode der kleinsten Quadrate (KQ-Methode) wird auf die Regressionsfunktion eingegangen. Es zeigt sich, daß die lineare Funktion aus verschiedenerlei Gründen nicht so einschränkend ist, wie sie auf den ersten Blick erscheint. Anschließend wird erläutert, wie Prognosen erstellt werden können. Ihre Güte hängt maßgeblich von der Zuverlässigkeit und Stabilität der geschätzten Regressionskoeﬃzienten ab. Aus diesem Grund ist es wünschenswert, Maße zur Überprüfung der Güte zur Verfügung zu haben. Deshalb werden in Kapitel 12.5 das Bestimmtheitsmaß und in 12.7 Signiﬁkanztests vorgestellt. Abschließende Bemerkungen runden das Kapitel ab. Die wichtigsten diskreten und stetigen theoretischen Verteilungen sind in Anhang A dargestellt. Matrizen sind bei der praktischen Arbeit ein unentbehrliches Werkzeug. Ihre Deﬁnition, die Deﬁnition von Verknüpfungen, wichtige Rechenregeln und mathematische Lehrsätze sind in Kapitel B zusammengefaßt. Nützliche Hinweise zum Arbeiten mit ﬁnden sich in Anhang C. Lösungen, ein Glossar und ein Stichwortverzeichnis sind auf den letzten Seiten.

Kapitel 2

Datenerhebung - ganz praktisch 2.1

Einleitung

In einigen betriebswirtschaftlichen Disziplinen gehört die Erstellung eines Fragebogens und dessen Auswertung zum Handwerkszeug. Welche Kriterien bei der Erstellung zu berücksichtigen sind, ergeben sich letztlich aus der Fragestellung. Dieser Bereich wird üblicherweise in betriebswirtschaftlichen Grundlagenfächern abgedeckt und wird deswegen in vorliegendem Kapitel nicht thematisiert. Um viele der in den nachfolgenden Kapiteln dargestellten Methoden sinnvoll anwenden zu können, ist es nötig, einen Erhebungsplan zu erstellen. Welche grundlegenden Fragen hierbei zu beantworten sind, wird in Abschnitt 2.2 diskutiert. Nach der Beschreibung nützlicher Software in Abschnitt 2.3, mit der Daten online erhoben werden können, wird in Kapitel 2.4 dargestellt, wie eine Stichprobe gezogen wird. Es folgt die Beschreibung des Auslesens und Einlesens von Daten in ein Tabellenkalkulationsprogramm und in . Bemerkungen zu Plausibilitätsprüfungen von Datensätzen runden das Kapitel ab.

2.2 2.2.1

Erhebungsplan Grundlagen

Daten werden zur Gewinnung von Informationen erhoben. Einerseits können diese Informationen dazu dienen, dem Ökonomen einen Überblick über seinen Untersuchungsgegenstand, wir sagen auch sein Interessengebiet, zu verschaffen oder um auf neue Ideen zu kommen. Andererseits können sie dazu dienen, die Richtigkeit einer Vermutung (Hypothese) zu überprüfen. In jedem Fall ist davon auszugehen, daß der Ökonom mit Vorverständnis an die Aufgabe herangeht. Völlig unstrukturiert und aufs Geradewohl wird kaum eine Datenerhebung R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_2, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH

8

erfolgen. Sei es oﬀen gesagt (explizit) oder nicht (implizit): Daten werden im Hinblick auf ein bestimmtes Ziel erhoben. Ihre Auswertung wird sich an diesen Zielen orientieren. Die Ziele sollten so in Fragen (Hypothesen) gekleidet werden, daß sie entweder bejaht oder verneint werden können. Grundlage einer jeden statistischen Auswertung sind somit empirisch überprüfbare Hypothesen. Sie können auf theoretischen Überlegungen basieren oder als Idee aus vorausgegangenen statistischen Auswertungen hervorgehen. In letzterem Fall spricht man von der induktiven Vorgehensweise, bei der ersteren von Deduktion. Wird induktiv vorgegangen, sollte vermieden werden Daten zu ’quälen’. Damit ist gemeint, die Daten, die zur Aufstellung einer neuen Hypothese geführt haben, nicht zur Überprüfung selbiger verwendet werden dürfen, da dies zu einem Zirkelschluß führen würde. Insbesondere im Falle der Deduktion ist darauf zu achten, daß die theoretischen Begriﬀe adäquat durch Daten abgebildet werden. Anekdote In den achtziger Jahren des vergangenen Jahrhunderts hielt an der Universität des Saarlandes ein Gastprofessor mit Schwerpunkt Arbeitsmarktökonomie einen Vortrag über Missmatch auf Arbeitsmärkten. Er hatte Arbeitsmarktdaten deskriptiv aufbereitet, präsentierte die empirischen Befunde und diskutierte, welche Hypothesen zu den beobachteten Auﬀälligkeiten passen könnten. Im nächsten Schritt überprüfte er die Hypothesen mit Hilfe ökonometrischer Verfahren, wobei er stets dieselben Daten verwendete. Ökonometrie ist die Lehre von der ’Vermessung der Wirtschaft’ bei der vor allem Regressionsverfahren eingesetzt und Mittel der schließenden Statistik verwendet werden. In der anschließenden Diskussion meldete sich unter anderem Prof. Kmenta, ein ungarischer Ökonometriker, der in den USA lehrte. Er fragte, ob der Referent stets so vorgehe, der dies mit ’ja’ beantwortete. Daraufhin warf Prof. Kmenta dem Referenten vor, ’Daten zu quälen’.

2.2.2

Beispiel

Eine der wichtigsten Entscheidungen einer jeden Erhebung ist die Entscheidung über die Art der Datenerhebung: Voll- oder Teilerhebung. Werden bei allen interessierenden Personen oder Objekten (Grundgesamtheit oder Population) Daten erhoben, so spricht man von einer Vollerhebung, andernfalls von einer Teilerhebung. Die Elemente der Grundgesamtheit werden allgemein statistische Einheiten oder Untersuchungseinheiten genannt. Folgende Beispiele sollen wichtige Beurteilungskriterien verdeutlichen. 1. Beispiel: Angenommen, ein Lehrer der Fachoberschule Marktheidenfeld möchte gerne wissen, wie alt seine Schüler in der Klasse 11b am 1.1.2008 durchschnittlich sind. Ihn interessieren also alle Schüler der Klasse 11b in Marktheidenfeld zum Stichtag 1.1.2008. Befragt er alle, so handelt es sich um eine Vollerhebung, denn die befragten Personen sind identisch mit der

2.2. ERHEBUNGSPLAN

9

interessierenden Grundgesamtheit. Welche Personen zur Grundgesamtheit zählen, ergibt sich aus der Fragestellung.

2. Beispiel: Angenommen, derselbe Lehrer möchte wissen, wie alt die Schüler in allen Klassenstufen 11 sind, wobei es die Klassen 11a, 11b gebe. Die interessierende Grundgesamtheit setzt sich aus den Schülern der Klassen 11a und 11b zusammen; sie bilden die Grundgesamtheit. Klasse 11b ist lediglich Teil der Grundgesamtheit und Daten über die Klasse 11b heißen deshalb Teilerhebung.

Warum der Lehrer im ersten Fall nur Klasse 11b als Grundgesamtheit ansieht mag beispielsweise daran liegen, daß er wissen muß, ob er wegen eines Schulausﬂuges die Genehmigung der Eltern einholen muß oder nicht. Geht es um genau diese Fragestellung, so ist allerdings nicht das arithmetische Mittel entscheidend. Welche Maßzahl würden Sie stattdessen wählen?1 Zudem wird durch diese Fragestellung die Erhebungsmethode bestimmt. Welche Methode kann hier nur angewandt werden?2 Will der Lehrer aber wissen, warum die Schüler der Klasse 11a in allen Fächern bessere Noten haben als in der 11b, obwohl dieselben Lehrer in beiden Klassen unterrichten, so könnte dies daran liegen, daß die Schüler der 11a älter sind als die der 11b und in geringerem Maße pubertäres Verhalten an den Tag legen, was die Leistungen tendenziell mindert. Beide Klassen bilden aufgrund dieser Fragestellung die Grundgesamtheit. Ist aber eine Voll- oder eine Teilerhebung sinnvoll? Bei dieser Fragestellung ist es nicht unbedingt wichtig, das Alter jedes Schülers in der Grundgesamtheit zu wissen. Da es sich um eine relativ kleine Grundgesamtheit handelt, bietet sich eine Vollerhebung an, zumal das Alter der Schüler üblicherweise der Schule bekannt ist und vorhandenen Unterlagen entnommen werden kann. Man spricht in diesem Falle von Sekundärdaten. Werden die Daten direkt bei allen Personen der Grundgesamtheit erhoben, so handelt es sich um Primärdaten. Ob also eine Vollerhebung oder Teilerhebung sinnvoll ist, ergibt sich aus der konkreten Situation. Würde es sich jedoch nicht um zwei Schulklassen, sondern um zwei sehr große Personengruppen handeln, deren Daten erst erhoben werden müßten, so wäre eine Vollerhebung möglicherweise mit hohen Kosten verbunden. In diesem Fall bietet sich die schließende Statistik an, bei der mit Hilfe einer Teilerhebung möglichst gut auf die Situation in der Grundgesamtheit geschlossen werden soll. Hierdurch erklärt sich auch ihr Name ’schließende‘ Statistik. Bei dieser Art von Fragestellung bedarf es allerdings nicht Daten irgendeiner Teilerhebung, sondern von Stichproben, d.h. der Zufall spielt eine wichtige Rolle.

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH

10

2.3 2.3.1

Software Moodle und LimeSurvey

Einige Programme sind mittlerweile verfügbar, mit deren Hilfe Onlinebefragungen durchgeführt werden können. Die Installation von Moodle und LimeSurvey soll im folgenden kurz skizziert werden. Moodle ist eigentlich eine ELearningplattform, mit deren Hilfe allerdings auch Onlinebefragungen durchgeführt werden können. LimeSurvey ist ebenfalls eine freie Software, die speziell für Onlinebefragungen entwickelt wurde. Über die Links www.moodle.de bzw. www.limesurvey.org/ können die Programme bezogen werden. Zur Installation von Moodle Version 1.9 genügt augenblicklich noch Webspace; es ist aber zu erwarten, daß künftig ein eigener Moodle-Server notwendig wird. Der Server muß gemäß den Vorgaben der Programme konﬁguriert sein, d.h. MYSQL und PHP sind bei beiden nötig. Ansonsten ist die Installation relativ einfach, das Vorgehen ist bei beiden ziemlich ähnlich, die Ausführungen beschränken sich auf Moodle. Die Programmdateien beﬁnden sich in einer komprimierten Datei (z.B. einer Zip-Datei), die auf den eigenen Rechner entpackt werden müssen. Nach Entpacken aller Dateien beﬁnden sie sich dann in dem Ordner moodle. über eine FTP-Verbindung wird dieser Ordner samt Inhalt auf den Webspace übertragen. In Linux ist es möglich, eine FTP-Verbindung über das Programm Konqeror herzustellen. Dieses Programm dient der Dateiverwaltung, kann gleichzeitig aber auch als Internetbrowser genutzt werden. Wähle den Reiter ’Gehe zu’ und wähle ’Netzwerkordner’. Dann erscheint eine Box ’Netzwerkordner hinzufügen’. Klicke ’FTP’ an und wähle ’weiter’, um in der folgenden Eingabemaske die geforderten Daten eingeben zu können. Nachdem der Netzwerkordner erstellt wurde, können per drag and drop oder über die Kopierfunktion von Konqeror Daten auf den Server übertragen und über die Löschfunktion auch ggf. gelöscht werden. Übertrage über einen dieser Wege den Ordner ’moodle’ mit gesamtem Inhalt auf den Webspace und lege auf derselben Ebene, auf der auch der Ordner ’moodle’ erstellt wurde, einen zusätzlichen Ordner namens moodledata und den Ordner ’nobody’ an. Erstelle in dem Webspace eine MYSQL-Datenbank. Rufe anschließend einen Internetbrowser auf und gebe die ’eigene_Internetadresse/moodle’ in der Adreßzeile ein; anschließend beginnt die Installation des Programms. Folge den Answeisungen und gebe bei der Abfrage nach dem Server ’localhost’ ein.

2.3. SOFTWARE

2.3.2

11

Statistikpaket R

Das Statistikprogramm ist vor allem im wissenschaftlichen Bereich verbreitet. Es kommt in zwei verschiedenen Versionen daher: • mit einer graphischen Oberﬂäche als ’Statistiklabor’ und • ohne graphische Oberﬂäche unter dem Namen

.

Letztere ist befehlsbasiert, wodurch der Einstieg für Anfänger erschwert wird. Das Statistiklabor erleichtert dem Studenten den Zugang zur Software durch moderne Menüführung. Insbesondere gibt es die Möglichkeit, die durch Anklicken erzeugten Befehle anzeigen zu lassen. Ansonsten sind die Funktionalitäten beider Versionen zwar nicht identisch, doch ganz ähnlich. In der praktischen Anwendung jedoch bevorzugt der Autor eindeutig die befehlsbasierte Version. Denn hier eröﬀnen sich dem Nutzer vielfältige Möglichkeiten, die die graphische Oberﬂäche des Statistiklabors nicht bietet. Beispielsweise können eine Vielzahl statistischer Auswertungen ohne Eingreifen des Nutzers durchgeführt werden, wogegen im Statistiklabor jeder einzelne Schritt durch Anklicken initialisiert werden muß. Zudem kann der Nutzer neue, bislang in nicht vorhandene Auswertungsmethoden programmieren. Aus diesen Gründen werden ausschließlich die für nötigen Befehle angegeben. läuft auf verschiedenen Betriebssystemen. Hierbei ist zu beachten, daß die Installation und Handhabung vom verwendeten System abhängig ist. Unter Linux muß das Programm entweder compiliert werden, was dem Ungeübten zu kompliziert sein dürfte, oder entsprechend der Linux-Version (Debian, Suse oder Red Hat) wird eine bereits compilierte Version verwendet. Der Autor nutzt die Suse-Linux-Version 10.3. Hier ist die Installation über die 1-Click-Installation sehr einfach. Über die Seite ’http://software.opensuse.org/search’ erhält man Zugang zu bereits für Suse-Linux compilierter Software. Man wählt die Version und gibt in das Suchfeld ’R-base’ ein. Klicken auf ’1-Click-Install’ und Befolgen der Anweisungen führt zur bequemen Installation von . Zum Aufruf von öﬀnet man eine Shell (oder Terminalprogramm) und gibt ein. Nach kurzer Zeit erscheint ein einleitender Text und die erste Befehlszeile, die stets mit ’>’ beginnt. Empfehlenswert ist jedoch die Nutzung von ’emacs-ess’. Um diese Software zu installieren, gebe man in die Suchzeile der Seite ’http://software.opensuse.org/search’ ’emacs-ess’ ein und nutzt wieder die 1-Click-Installation. Drücken der ’Alt’Taste gefolgt von F2 öﬀnet ein Befehlsfenster. Hier gibt man ’emacs’ ein. Dies ist eine sehr universell einsetzbare Software, unter anderem kann sie auch als Basis für genutzt werden. Drücke die ’Alt’-Taste gefolgt von der ’x’-Taste und gebe ein. Zweimal drücken von Return eröﬀnet die Möglichkeit, über emacs zu bedienen. Dies hat den Vorteil, daß durch Farbgestaltung schnell erkannt

12

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH

wird, ob Fehleingaben erfolgt sind oder nicht. Für Fortgeschrittene ﬁnden sich in Kapitel C weitere nützliche Hinweise, die übrigens auch für Windowsnutzer wertvoll sind. Bei der Anwendung ist zu beachten, daß die Programmiersprache englisch ist. Wie so häuﬁg bringt dies Vor- wie auch Nachteile mit sich. Um beispielsweise den Mittelwert auszurechnen, wird nicht das deutsche Wort, sondern ’mean’ verwendet. Das Schöne hierbei ist, daß englische Fachbegriﬀe erlernt und eingeübt werden. Daß im Englischen zur Angabe der Dezimalstelle der Punkt verwendet wird, kann zu Fehlern führen und ist somit als Nachteil zu werten. Freilich läßt sich dieses Problem leicht umgehen, wenn anstatt einer deutschen Version von OpenOﬃce, die englische genutzt wird.

2.4 2.4.1

Ziehen einer Stichprobe Grundlagen

Bislang war zwar von Stichproben die Rede, ohne aber darüber zu sprechen, wie sie gebildet werden. Angenommen, es soll eine Telefonbefragung in Stadt- und Landkreis Würzburg erfolgen. Eine Stichprobe mit Zurücklegen ist geplant, da der Binomialtest über den Anteilswert angewendet werden soll. Der zuständige Betriebswirt wendet sich an ein Call-Center und vergibt den Auftrag, Personen aus der benannten Region in einem vorgegebenen Zeitraum zufällig aus dem Telefonbuch zu wählen, um einen vorbereiteten Fragebogen abzuarbeiten. Jeder Telefonist blättert in einem Online-Telefonbuch und greift durch zufälliges scrollen Personen heraus. Handelt es sich hierbei um eine einfache Stichprobe? Es ist durchaus möglich, daß eine Person mehrmals in der Stichprobe vorkommen kann. Insofern handelt es sich um eine Auswahl mit Zurücklegen. Erfolgen die Ziehungen aber tatsächlich zufällig, d.h. hat jede Person dieselbe Wahrscheinlichkeit gewählt zu werden? Sicher nicht, denn die Personen sind gewöhnlich alphabetisch geordnet. Beginnt der Telefonist bei Buchstabe A und hangelt sich entlang der Anordnung, so kann es sein, daß er die geforderte Anzahl an Personen gezogen hat, ohne daß Personen mit Anfangsbuchstaben ’Z’ überhaupt eine Chance gehabt hätten, aufgenommen zu werden. Aus diesem Grund stellt sich die Frage, wie sinnvoller Weise vorgegangen werden sollte. Eine Möglichkeit besteht darin, alle Personen durchzunumerieren. Man wählt so viele Kugeln, wie Personen in der Grundgesamtheit vorhanden sind, beschriftet sie fortlaufend mit Zahlen und füllt sie in eine Trommel. Anschließend bittet man eine ’Glücksfee’, wie bei der wöchentlichen Ziehung der Lottozahlen, darum, n Kugeln auszuwählen. Wurde eine Kugel gewählt, so wird ihre Nummer notiert und wieder in die Trommel zurückgelegt. Dieses Verfahren wäre korrekt, vorausgesetzt, daß die Kugeln dieselbe Wahrscheinlichkeit hätten, gezogen zu werden. Andererseits wäre es sehr umständlich. Statt n durchnumerierte Kugeln zufällig aus einer Trommel zu ziehen, kann ein Zufallsgenerator genutzt werden, um eine zufällige Zahlenreihe zu erzeugen, mit Hilfe derer die Personen festgestellt werden, die jeweils mit derselben Wahr-

2.5. ROHDATEN AUSLESEN

13

scheinlichkeit gezogen wurden.

2.4.2

Beispiel

Lade das Paket ’base’, um den Befehl ’sample’ verfügbar zu machen. Das Einlesen von Paketen wird auf Seite 322 beschrieben. > ?sample öﬀnet eine Hilfeseite, in der die Grundstruktur des Befehls angegeben ist (siehe unten); in der nachfolgenden Zeile ist ein konkreter Befehl dargestellt. > sample(x, size, replace = FALSE, prob = NULL) > sample(c(1:8000000), 10, replace = TRUE, prob = NULL) [1]} 4392192 1117576 3688549 6927580 2876239 2026266 6149387 5888866 3188394 7107292 Durch diesen Befehl wird eine Stichprobe vom Umfang 10 mit Zurücklegen aus den ganzen Zahlen beginnend bei 1 und endend bei 8 000 0000 gezogen. Wäre ’replace=FALSE’ gesetzt, so wäre es eine Stichprobe vom Umfang 10 ohne Zurücklegen. Erneute Eingabe desselben Befehls führte zu der nachfolgend angegebenen Ausgabe. Die beiden Ergebnisse sind verschieden. > sample(c(1:8000000), 10, replace = TRUE, prob = NULL) [1] 5320532 6702537 7313541 \ 111374 6514954 4659765 1456491 1255380 6120515 5931007

2.5 2.5.1

Rohdaten auslesen Grundlagen

Die Daten können in Linux über Konqueror aus moodle ausgelesen werden, indem auf den zuvor erstellten Netzwerkordner, der nichts weiter als eine Verknüpfung mit dem Server ist, geklickt wird. Mit Hilfe eines Tabellenverarbeitungsprogramms (bspw. OpenOﬃce) werden die Daten einer ersten Sichtung auf Plausibilität unterworfen, indem folgende Fragen bearbeitet werden: 1. Stimmen alle Formate? Mit anderen Worten interessieren folgende Fragen. Sind Zahlen auch dort, wo sie hingehören? Sind Felder, in denen ausschließlich Buchstaben erscheinen dürfen, auch genauso beschaﬀen? Gibt es bei alphanumerischen Einträgen keine unerlaubten Symbole? 2. Fehlen Daten? Hier muß überprüft werden, ob alle ’Missings’ genau gleich gekennzeichnet worden sind. 3. Sind die erhobenen Zahlen im vorab deﬁnierten Bereich bzw. sind sie im plausiblen Bereich? Diese Frage kann allerdings auch später mit Hilfe des Statistikprogramms beantwortet werden.

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH

14

Abbildung 2.1: Rohdaten in Tabellenkalkulationsprogramm einlesen Quelle: eigene Darstellung

Die Sichtung auf Plausibilität ist eine wichtige Aufgabe. Denn Fehler, die bei der Dateneingabe gemacht worden sind, können das Ergebnis so stark verfälschen, daß statistische Auswertungen zu falschen Schlußfolgerungen führen können. Um die Daten in das Statistikprogramm einlesen zu können, werden sie als Textdatei im csv-Format gesichert. Andere Formate können freilich auch verwendet werden, sollen aber hier nicht angesprochen werden. Besondere Aufmerksamkeit sollte dem Symbol zufallen, durch das ganze Zahlen von Dezimalstellen getrennt werden. In diesem Kapitel wird davon ausgegangen, daß im verwendeten Tabellenverarbeitungsprogramm als Trennzeichen das Komma verwendet wird. Zudem ist zu berücksichtigen, welcher Feldtrenner verwendet wird; hier bietet sich die Möglichkeit des Tabulators, des Semikolons oder des Kommas an. Die verwendeten Standardeinstellungen unterscheiden sich von Programm zu Programm. Um Fehler zu vermeiden, sollten bei der praktischen Arbeit stets dieselben Programmpakete verwendet werden und umgekehrt: nach jedem Programm, ja sogar Versionswechsel, sollte geprüft werden, ob die Grundeinstellungen gleich geblieben sind, um ggf. Anpassungen vornehmen zu können.

2.5.2

Beispiel

Datenquellen können ganz unterschiedlich sein. In Abbildung 2.1 werden die Daten der Tabelle 2.1 in OpenOﬃce aus einer csv-Datei eingelesen. Man erkennt,

2.6. DATEN IN STATISTIKPROGRAMM EINLESEN

15

daß die Feldtrenner nicht korrekt gesetzt sind, denn beide Spalten erscheinen in ein und derselben Spalte.

2.6 2.6.1

Daten in Statistikprogramm einlesen Grundlagen

Um sicher zu sein, daß in keine Variablen aus vorherigen Sitzungen vorhanden sind, sollte der folgende Befehl genutzt werden: > rm ( list=ls() ) wobei ’rm’ für remove steht. Mit dem Befehl > setwd("g:/Auswertung") wird das Arbeitsverzeichnis gewählt. ’setwd’ ist zu interpretieren als ’set working directory’. In vorliegendem Fall beﬁndet es sich im Laufwerk ’g’ und Ordner ’Auswertung’. Dies bedeutet, daß ohne Pfadangabe das Programm stets auf das Laufwerk g in Verzeichnis ’Auswertung’ auf Dateien zugreift. Der Befehl > YX <- read.table("YX.txt",dec=",",header=TRUE) liest die Tabelle, abgelegt in Datei ’YX.txt’ im Ordner ’Auswertung’ in ein. ’read.table’ ist der Befehl zum Einlesen einer Tabelle. ’dec=”,” ’ wandelt Kommazeichen in Punkte um, da in englischer Sprache programmiert ist und hier zwecks Trennung von ganzen Zahlen und Dezimalstellen nicht das Komma, sondern ein Punkt verwendet wird. ’header=TRUE’ bedeutet, daß die in der Tabelle angegebenen Überschriften in übernommen werden, soll dies nicht der Fall sein, so wäre ’header=FALSE’ einzugeben. Die Variablennamen werden von dann selbsttätig vorgenommen; allerdings ist es später immer möglich, die Variablennahmen nach Belieben zu ändern. Das Zeichen ’<-’ (zu interpretieren als Pfeil) bedeutet, daß der Inhalt der Tabelle in Datei ’YX.txt’ dem Symbol ’YX’ zugeordnet wird; die Daten können in nun über ’YX’ angesprochen werden. Mit dem Befehl > YX werden sie am Monitor angezeigt und es kann geprüft werden, ob sie korrekt eingelesen worden sind.

2.6.2

Beispiel

Angenommenen, in der Datei YX.csv (siehe Abbildung 2.1) beﬁnden sich die Rohdaten der Tabelle 2.1. In dem geöﬀneten Fenster sind zwei Merkmale, ’Y’ und ’X’ zu sehen. Freilich werden die Daten nicht im korrekten Format dargestellt: es sollten zwei Spalten ersichtlich sein. Man erkennt, daß die Zahlen durch

16

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH Y 10,5 12,9 33,85

X 500 550 300

Tabelle 2.1: Daten YX Quelle: Daten frei erfunden ein Komma getrennt sind, dies ist in vorliegendem Fall der Feldtrenner. Wird statt ’Tabulator’ und ’Semikolon’ das ’Komma’ angeklickt, so werden die Daten korrekt angezeigt. Dies ist zugleich eine wichtige Information zum Einlesen der Daten in . Werden diese mit Hilfe des folgenden Befehls > YX <- read.csv("YX.csv",dec=",",header=TRUE) in ‘R’ ein gelesen, so erhält man nach Eingabe ’YX’ folgende Anzeige: Y X 1 10.50 500 2 12.90 550 3 33.85 300 Diese Dateneingabe ist korrekt. Die Daten bestehen aus einer Liste mit drei Zeilen und zwei Variablen, Y und X, in der ersten bzw. zweiten Spalte. Mit dem Befehl > is.list(Daten) [1] TRUE wird überprüft, ob es sich tatsächlich um Daten des Typs Liste handelt. In der zweiten Zeile ist das Ergebnis dieser Abfrage angegeben. Im folgenden werden Konsequenzen eines falschen Einlesens der Daten skizziert. In folgendem Befehl wird explizit der Feldtrenner (englisch: seperator, in abgekürzt mit ’sep’) vorgegeben. Fälschlicherweise wird ’\t’, das Zeichen für Tabulator, verwendet. Aus diesem Grund werden die Daten falsch eingelesen. > YX <- read.csv("YX.csv",header=TRUE,dec=".",sep="\t") > YX Y.X 1 10,5,500 2 12,9,550 3 33,85,300 Wird statt des Befehls > YX <- read.csv("YX.csv",dec=",",header=TRUE) folgender

2.7. PLAUSIBILITÄTSPRÜFUNG

17

> YX<-read.csv("YX.csv",dec=".",header=TRUE) eingegeben, so führt die Eingabe von ‘YX’ zu Y X 1 10,5 500 2 12,9 550 3 33,85 300 einer Eingabe, die wegen der Kommata falsch ist. Mit diesen Daten läßt sich nicht rechnen. Dies zeigt sich leicht, wenn in folgende Multiplikation ausgeführt werden soll: > 10,5*2 > 10,2*2 Fehler: Unerwartetes ’,’ in "10," Durch dieses kleine Beispiel wird zudem deutlich, daß auch als Taschenrechner genutzt werden kann. Werden die ganzen Zahlen von den Dezimalstellen korrekt getrennt, so erhält man das Ergebnis. > 10.5*2 [1] 21 Die Symbole zur Durchführung einfacher Rechenoperationen sind die gleichem wie in Tabellenverarbeitungprogrammen. Probieren Sie es einfach aus. Wird bei dem Einlesen der Daten statt ‘header=TRUE’ ’header=FALSE’ eingegeben, so werden Y und X nicht zur Kennzeichnung der Variablen, sondern als ein Datensatz behandelt. ordnet den Spalten automatisch die Namen V1 bzw. V2 zu. Bezeichnen Y und X jedoch die Variablen, so führt diese Dateneingabe zu falschen Ergebnissen (hier erscheinen zusätzlich auch noch die Kommata anstatt von Punkten). > YX <> YX V1 1 Y 2 10,5 3 12,9 4 33,85

2.7 2.7.1

read.csv("YX.csv",dec=",",header=FALSE) V2 X 500 550 300

Plausibilitätsprüfung Grundlagen

Bei Plausibilitätsprüfungen sind drei Aspekte zu beachten.

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH

18

Einkommen 2000 2500 2900 3300

Alter 30 42 50 28

Ausbildungsjahre 12 13 10 18

Tabelle 2.2: Daten Einkommen Alter Ausbildungsjahre Quelle: Daten frei erfunden 1. Es ist zu prüfen, ob im Hinblick auf die interessierende Fragestellung die Daten geeignet sind, auch wirklich eine Antwort auf die gestellte Frage zu geben (Validität) 2. Zudem ist eine Überprüfung auf Konsistenz der Daten durchzuführen. 3. Außerdem ist zu prüfen, ob die Ausprägungen in dem Wertebereich liegen, den wir aus theoretischen Überlegungen oder praktischer Erfahrung erwarten (Korrektheit im Wertebereich).

2.7.2

Beispiel 1

Zur Veranschaulichung der Zusammenhänge dienen die Daten der Tabelle 2.2. Sie sind in Datei Einkommen.csv hinterlegt. In der ersten Zeile beﬁnden sich die Merkmalsausprägungen der ersten Person, in der zweiten Zeile die der zweiten usw. Diesen Daten liegt die Vorstellung zugrunde, daß Einkommen, Alter und Ausbildungsjahre irgend etwas miteinander zu tun haben. Wird beispielsweise vermutetet, daß die Entlohnung nach dem Ancienitätsprinzip erfolgt, das heißt, daß mit steigendem Alter ein höherer Stundenlohn gezahlt wird, so müßte mit höherem Alter ein höheres Einkommen erzielt werden. Der ’Teufel’ steckt jedoch, wie so oft, im Detail. Dieser Zusammenhang gilt nur, wenn alle Personen unabhängig vom Alter dieselbe monatliche Anzahl an Arbeitsstunden arbeiten. Häuﬁg weisen jedoch ältere Personen eine geringere monatliche Zahl an Arbeitsstunden auf als jüngere. Dies kann sein wegen gesetzlicher Regelungen, wie der Altersteilzeit, oder weil aus gesundheitlichen Gründen weniger gearbeitet wird. Aus dieser Perspektive betrachtet wäre es sinnvoll, statt des Einkommens den Stundenlohn und die monatliche Arbeitszeit zu erheben. Folglich wäre dieser Aspekt bereits bei der Planung der Datenerhebung zu berücksichtigen. In der Praxis wird dies jedoch häuﬁg nicht möglich sein, sei es, weil die Datenerhebung bereits abgeschlossen ist oder Sekundärdaten verwendet werden und die erforderlichen Daten nicht enthalten sind. Aus diesem Grund stellt sich die Frage, ob durch die Verwendung geeigneter statistischer Verfahren das Problem vielleicht nicht gelöst, wohl aber gemildert werden kann. So könnte die

2.7. PLAUSIBILITÄTSPRÜFUNG

19

Analyse einmal mit Personen im Alter von 50 bis 58 Jahren und zudem mit den gesamten Daten erfolgen, um einen Hinweis darauf zu bekommen, ob der vermutete Eﬀekt überhaupt von Bedeutung ist. Eine Überprüfung auf Konsistenz hat sich an der interessierenden Fragestellung zu orientieren. Es ist zu prüfen, ob sich die Befragten möglicherweise widersprechen. Sollte dies der Fall sein, so ist zu entscheiden, ob solch inkonsistente Datensätze entfernt werden.

2.7.3

Einfache Datensätze

In Tabelle 2.2 sind jeder Person mehrerer Merkmalsausprägungen zugeordnet. Analysiert man mehrere Merkmale, so spricht man von multivariater Statistik, wogegen statistische Verfahren, bei denen lediglich ein Merkmal analysiert wird, mit dem Wort univariat gekennzeichnet werden. Wird also beispielsweise das Minimum des Merkmals Einkommen bestimmt, so spricht man von univariater Datenanalyse. Bei Prüfung auf statistische Plausibilität ist es sinnvoll, für jede Variable zumindest das Minimum, das Maximum, das arithmetische Mittel und die Varianz zu bestimmen. Das arithmetische Mittel ist bei Verwendung von Rohdaten deﬁniert als: n

x ¯ :=

1 xi . n i=1

xi ist die Ausprägung des kardinale Merkmals ’Einkommen’ bei Personen i, wobei i ein Lauﬁndex ist, der im vorliegenden Fall von 1 bis 4 geht, und n ist die Anzahl an Beobachtungen (n ist hier gleich vier). Diese Formel wird bei Rohdaten (Urliste) genutzt, d.h. wenn in jeder Zeile der verwendeten Liste exakt die Merkmalsausprägungen für eine Person stehen. Die Formel, die in mit ’var(Daten$Einkommen)’ zur Berechnung der Varianz auf Basis von Rohdaten genutzt wird ist gleich n

2 V ˆar(x) := σ ˆ 2 := σ ˆX :=

1 (xi − x ¯ )2 . n − 1 i=1

Diese Formel dient zur Berechnung der korrigierten Stichprobenvarianz. Mit ihr soll aufgrund von Daten aus einer Stichprobe eine ’erwartungstreue’ Schätzung der ’wahren’, aber unbekannten Varianz in der Grundgesamtheit berechnet werden. Erwartungstreu bedeutet, daß die Varianz der Grundgesamtheit ohne systematische Verzerrung (Bias) geschätzt wird. Zur Beschreibung der Streuung, ganz gleich ob in einer Grundgesamtheit oder Stichprobe, wird aber die empirische Varianz, d.h. die Formel n

s2 = s2X :=

1 (xi − x ¯ )2 n i=1

verwendet. Der Index i läuft von 1 bis n, wobei n die Anzahl an Beobachtungen ist. Bei der empirischen Varianz werden die quadrierten Abweichungen der

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH

20

Abbildung 2.2: Anwendung empirische versus korrigierte Varianz Quelle: eigene Darstellung Beobachtungen vom arithmetischen Mittel aufsummiert und mit dem Faktor n1 multipliziert. Sie unterscheidet sich von der korrigierten Stichprobenvarianz σˆ2 nur durch den verwendeten Faktor. Wird die korrigierte Stichprobenvarianz mit (n−1) multipliziert, so erhält man die empirische Varianz. Die Zusammenhänge n sind in Abbildung 2.2 veranschaulicht.

2.7.4

Beispiel 2

Die Berechnungen erfolgen beispielhaft mit Hilfe der in Tabelle 2.2 angegebenen Daten. Sie sind in der Datei Einkommen.csv abgelegt. Der folgende Befehl > min(Daten) [1] 10 liefert als Minimum 10 und > max(Daten) [1] 3300 ergibt den Maximalwert von 3300. Mit anderen Worten werden das Minimum und das Maximum aller Daten bestimmt.

2.7. PLAUSIBILITÄTSPRÜFUNG

21

In vorliegendem Fall ist dieses Vorgehen zur Prüfung auf Plausibilität nicht angebracht. Stattdessen wäre zu prüfen, ob die Einkommen alle größer als 0 und nicht zu hoch, das Alter größer oder gleich 14 aber kleiner als 120 und die Ausbildungsjahre größer oder gleich 0 und nicht zu hoch sind. Denn bereits mit 14 könnte eine Person eigenständiges Einkommen erzielen. Ganz ausgeschlossen ist es allerdings nicht, daß eine Person unter 14 Jahren eigenes Einkommen aus beispielsweise eigenem Vermögen bezieht. Dies wäre jedoch sicher ein Sonderfall (Ausreißer) und es wäre im Hinblick auf die interessierende Fragestellung zu überlegen, ob dieser statistische Ausreißer überhaupt in die Untersuchung aufgenommen werden sollte. Die Variable Einkommen kann über folgenden Befehl angesprochen werden: > Daten$Einkommen [1] 2000 2500 2900 3300 In der zweiten Zeile ist der erste Spaltenvektor (ja, Spaltenvektor ist richtig) der Liste ’Daten’ angegeben. Man beachte: obwohl die Anzeige in einer Zeile erfolgt, behandelt Daten$Einkommen als Spaltenvektor. Als Ergebnis für das Minimum, das Maximum, das arithmetische Mittel und die Varianz liefert das Statistikprogramm folgende Anzeige. > min(Daten$Einkommen) [1] 2000 > max(Daten$Einkommen) [1] 3300 > mean(Daten$Einkommen) [1] 2675 > var(Daten$Einkommen) [1] 309166.7 Welche Varianz wird hier geschätzt? Ist das sinnvoll?3

2.7.5

Komplexe Datensätze

In der Praxis sind Datensätze gewöhnlich mehrdimensional, wobei die Merkmale nicht alle gleichen Typs sind. In Tabelle 2.3 ’kleben’ fünf Merkmale an jeder Person. Bei dem Geschlecht handelt sich um eine nominal meßbare Größe, das heißt, dieses Merkmal zeigt nur Gleichheit oder Verschiedenartigkeit an. Es gibt an, ob eine Person oder Objekt im Hinblick auf einen bestimmten Aspekt gleich oder verschieden ist. In der letzten Spalte ist die Unternehmensgröße abgetragen. Die Merkmalsausprägungen sind ’K’ für Kleinunternehmen, ’M’ für mittelgroße Unternehmen und ’G’ für Großunternehmen. Dieses Merkmal ist ein Beispiel für eine ordinale Größe. Solche Merkmale geben zusätzlich zu den Informationen eines nominalen Merkmals Auskunft über eine Reihenfolge. Streng genommen sind die hier gemachten Angaben zur Unternehmensgröße unvollständig. Denn es fehlt die exakte Deﬁnition dessen, mit Hilfe welcher Kriterien Unternehmen in große, mittlere und kleine Unternehmen eingeteilt worden sind.

22 Einkommen 1000 2500 2900 3300 1500 1900 2111 2700 2900 2111 2000 2000 1900

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH Alter 30 42 50 28 30 42 50 28 50 50 30 30 42

Ausbildungsjahre 12 13 10 18 12 13 10 18 10 10 12 12 13

Geschlecht M M M M W W W W M W M M W

Unternehmensgröße K K G G K M M M G M M M K

Tabelle 2.3: Daten2 Quelle: Daten frei erfunden

So könnte beispielsweise eine Einteilung allein aufgrund der Anzahl an Beschäftigten erfolgen. Alternativ hierzu wäre eine Gruppenbildung mit Hilfe zweier Merkmale, z. B. Anzahl an Beschäftigten und Umsatz, möglich. Bei einer großen Anzahl an Unternehmen und mehreren Gruppierungsmerkmalen ist eine solche Einteilung selbst mit Hilfe eines Tabellenverarbeitungsprogramms sehr aufwendig. Die Statistik hat zwei Verfahren, die Diskriminanz- und Clusteranalyse, entwickelt, die die Bewältigung solcher Aufgaben erleichtern. Einkommen, Alter und Ausbildungsjahre sind Beispiele für kardinale Merkmale. Sie liefern dieselben Informationen wie nominale und ordinale Merkmale; darüber hinaus sind Diﬀerenzen zwischen Merkmalsausprägungen sinnvoll interpretierbar. Aus diesem Grund müssen sie zahlenmäßig ausgedrückt werden. Sie werden zudem unterteilt in verhältnis- und intervallskalierte Merkmale. Bei ersteren gibt es einen sachlogischen absoluten Nullpunkt und es lassen sich sinnvoll Quotienten aus verschiedenen Merkmalsausprägungen bilden. Bei letzteren ist dies nicht möglich. Hier können nur Diﬀerenzen zwischen Merkmalsausprägungen sinnvoll interpretiert werden. Handelt es sich bei dem Gewinn um ein verhältnis- oder intervallskaliertes Merkmal? Angenommen im vergangenen Jahr sei der Gewinn 2 Millionen, im jetzigen Jahr 4 Millionen Euro. Der Quotient 4 Millionen dividiert durch 2 Millionen Euro macht sicher Sinn: der Gewinn hat sich verdoppelt. Ist im vergangenen Jahr ein Verlust in Höhe von 2 Millionen und im laufenden ein Gewinn von 4 Millionen Euro angefallen und dividiert man 4 Millionen durch (-2) Millionen Euro, so erhält man -2. Diese Zahl ist im vorliegenden Zusammenhang nicht interpretierbar. Ist jedoch im vergangenen Jahr ein Verlust (oder mit anderen Worten ein negativer Gewinn) in Höhe von 2 Millionen und im laufenden ein Verlust von 4 Millionen Euro aufgetreten, so ist der Verlust dieses Jahres doppelt so hoch wie im vorangegangenen.

2.7. PLAUSIBILITÄTSPRÜFUNG

23

Aus diesen drei Beispielen erkennt man 1. die Bedeutung eines Nullpunktes und 2. es zeigt sich, daß Quotienten nicht immer sinnvoll interpretiert werden können. Werden Quotienten von Gewinnen, die ausschließlich im positiven oder ausschließlich im negativen Bereich liegen gebildet, so führt dies zu sinnvoll interpretierbaren Zahlen. Werden jedoch Quotienten aus Zahlen gebildet, wobei eine aus den positiven und die andere aus den negativen Zahlen stammt, so erhält man keine interpretierbaren Ergebnisse. Dann sind lediglich Diﬀerenzen sinnvoll nutzbar. Kardinale Merkmale müssen zwar in Zahlen ausgedrückt werden, doch der Umkehrschluß gilt nicht. Man hüte sich davor, aus der Tatsache, daß alle Merkmalsausprägungen irgendeines Merkmals Zahlen sind, darauf zu schließen, daß es sich um ein kardinales Merkmal handelt. Die Merkmalsausprägungen des Merkmals Geschlecht können zum Beispiel sein ’m’ und ’w’, aber genauso gut könnte verwendet werden ’1’ und ’2’. Bei der Signierung des Geschlechts mit ’1’ und ’2’ kann man zwar prinzipiell das arithmetische Mittel berechnen, doch das so erhaltene Ergebnis ist nicht interpretierbar. Signiert man jedoch männlich mit ’0’ und weiblich mit ’1’ und berechnet jetzt das arithmetische Mittel, so gibt es den Anteil der Frauen an.

2.7.6

Beispiel 3

Genutzt werden die ’Daten2’ in Tabelle 2.3; auf sie kann über die Datei Daten2.csv zugegriﬀen werden. Bei der Überprüfung auf statistische Plausibilität fällt nominalen und ordinalen Merkmalen die Aufgabe zu, die Daten sinnvoll in Gruppen einzuteilen, um sich einen ersten Überblick über die Daten zu verschaﬀen. Man beachte jedoch, daß zuvor das Programmpaket ’doBy’ geladen werden muß. Mit dem folgenden Befehl (siehe unten) wird das Minimum und Maximum, der Mittelwert, die Varianz sowie die Anzahl an Beobachtungen des Merkmals Einkommen berechnet. > summaryBy(Einkommen ~ Geschlecht, data=Daten2, FUN = c(min, max, mean,var,length)) Geschlecht Einkommen.min Einkommen.max Einkommen.mean 1 2

m 1000 w 1500 Einkommen.var Einkommen.length 1 599047.6 7 2 155285.6 6

3300 2700

2371.429 2037.000

24

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH

Soll Minimum und Maximum jeweils für Einkommen und Alter geschlechtsspeziﬁsch ausgerechnet werden, so führt folgender Befehl zum Ziel. > summaryBy(Einkommen+Alter ~ Geschlecht, data=Daten2, FUN = c(min, max)) Geschlecht Einkommen.min Alter.min Einkommen.max Alter.max 1 m 1000 28 3300 50 2 w 1500 28 2700 50 Wenn der Mittelwert von Einkommen und Alter gegliedert nach Geschlecht und Betriebsgröße berechnet werden soll, dann gebe folgenden Befehl ein. > summaryBy(Einkommen+Alter ~ Geschlecht+Betriebsgroesse, data=Daten2, FUN=c(mean)) Geschlecht Betriebsgroesse Einkommen.mean Alter.mean 1 m g 3033.333 42.66667 2 m k 1750.000 36.00000 3 m m 2000.000 30.00000 4 w k 1700.000 36.00000 5 w m 2205.500 42.50000 Der Befehl ’data=Daten2’ bestimmt, daß die Daten, abgelegt unter dem Namen ’Daten2’, verwendet werden. Dies hat auch zur Folge, daß die Merkmale durch ihren Namen (in vorliegenden Fall Einkommen und Geschlecht) und nicht durch voranstellen des relevanten Datennamens (wie oben ’Daten2$Einkommen’) angesprochen werden müssen.

2.8

Abschließende Bemerkungen

Daten werden im wesentlichen zu zwei verschiedenen Zwecken erhoben: zur explorativen Datenanalyse und zur Überprüfung von Hypothesen. Im ersteren Fall wird induktiv vorgegangen, im zweiten deduktiv. Der wesentliche Unterschied zwischen beiden besteht darin, daß es bei der Induktion keine ausformulierten Ursache-Wirkungsbeziehungen geben muß. Idealerweise besteht ein Erhebungsplan aus klar formulierten wenigen Zielen, die sich im Erhebungsplan bei deduktiver Vorgehensweise in Form empirisch überprüfbarer Hypothesen niederschlagen. In jedem Fall jedoch sollte er die statistischen Methoden umfassen, die zur Anwendung kommen sollen. Denn manche Methoden erfordern kardinal skalierte Merkmale, bei anderen reichen ordinale oder nominale aus. Die gewählte Methode hat somit Einﬂuß auf die Art der Befragung. Wird diese Empfehlung nicht berücksichtigt, so kommt bei der Auswertung schnell das böse Erwachen: die angedachte Methode oder die Methode, bei der der Anwender über ausreichendes Wissen verfügt, ist vielleicht wegen falschen Skalenniveaus der Variablen nicht verwendbar. Merkmale wie Geschlecht, Alter, Einkommensklasse haben häuﬁg einen Einﬂuß auf Konsumverhalten. Aus diesem Grund ist es sinnvoll, sich im Vorfeld

2.9. KONTROLLFRAGEN

25

einer Befragung auch über solche ’Kontrollvariablen’ Gedanken zu machen. Mit steigendem Alter sinkt im allgemeinen die körperliche Mobilität und dies hat möglicherweise Einﬂuß auf das Konsumverhalten. Frauen haben möglicherweise andere Präferenzen als Männer, was sich in Konsumverhalten wie auch der Berufswahl, bei Bewerbungen oder im Verhalten bei Konﬂikten im Betrieb niederschlagen kann. Selbst zwischen solchen Kontrollvariablen kann es systematische Beziehungen geben. Mit steigendem Alter steigt häuﬁg auch das Einkommen. Das Wissen um solche Beziehungen ist wichtig, da sie die Ergebnisse von Auswertungsmethoden beeinﬂussen können. Aus diesen Gründen sollten im Erhebungsplan auch solche Kontrollvariablen berücksichtigt werden. Es wird zu Versuchszwecken empfohlen, den erstellten Fragebogen vor der Erhebung mehrmals selbst mit Daten zu füllen. Mit diesen Daten kann ’gefüttert’ werden, um zu testen, ob die gewünschte Methode wirklich anwendbar ist. Fehlermeldungen des Statistikprogramms geben Hinweise auf Aspekte, die zusätzlich zu berücksichtigen sind. Zudem wird der Anwender gezwungen, sich bereits vor der Datenerhebung mit den Auswertungsmethoden vertraut zu machen und gegebenenfalls Wissenslücken zu schließen. Spätestens bei der Anwendung machen sich mangelnde Kenntnisse statistischer Grundlagen bemerkbar. Denn die Fragestellung bestimmt die Auswertungsmethode und diese die zu erhebenden Daten. Passen Daten und Methode aber nicht zusammen, so muß auf andere, häuﬁg auch kompliziertere Methoden zurückgegriﬀen werden. Gerade dann, wenn es spannend wird, so zeigt die Erfahrung, ist Methodenkenntnis wichtig.

2.9

Kontrollfragen

1. Was ist eine Hypothese? 2. Erläutern Sie die Begriﬀe Deduktion und Induktion. 3. Was ist eine Grundgesamtheit? Verdeutlichen Sie den Begriﬀ durch ein Beispiel. 4. Was ist eine statistische Einheit? 5. Stellen Sie anhand eines Beispiels dar, wann eine Vollerhebung nötig ist. 6. Was versteht man unter Vollerhebung, was unter Teilerhebung, was unter Stichprobe? 7. Warum werden Teilerhebungen überhaupt durchgeführt? 8. Wie lädt man neue 9. Wie ruft man in

-Pakete von R CRAN auf den lokalen Rechner? Hilfeseiten auf?

10. Es ﬁndet sich innerhalb der geladenen Programmpakete keine Hilfeseite. Was können Sie tun?

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH

26

11. Was bewirkt folgender Befehl: > rm ( list=ls() )? 12. Erläutern Sie folgende Anweisung: >setwd("g:/Auswertung"). 13. Bei folgender Anweisung hat sich ein Fehler eingeschlichen: YX <-read(‘‘YX.txt",dec=",",header=TRUE). Welcher? 14. Was bedeutet folgende Anweisung: > header=TRUE? 15. Sind die folgenden Datenssätze korrekt? Begründen Sie. Y X 1 10,5 500 2 12,9 550 3 33,85 300 16. In den Rohdaten ihres Tabellenverarbeitungsprogramms stehen der ersten Zeile die Überschriften der Variablen. Zum Einlesen der Daten nutzen Sie folgenden Befehl: > YX <-read.table("YX.txt",dec=",",header=FALSE). Führt er zu einem korrekten Einlesen ihrer Daten in ihre Antwort.

? Begründen Sie

17. Erläutern Sie, was man unter nominalen, ordinalen und kardinalen Merkmalen versteht. Geben Sie für jeden Merkmalstyp mindestens vier Beispiele an. 18. Erläutern Sie, was durch Eingabe des Befehls > summaryBy(Einkommen ~ Geschlecht+Betriebsgröße, data=Daten2, FUN=c(min, max, mean,var,length)) berechnet wird.

2.10. AUFGABEN

2.10

27

Aufgaben

1. Sie sollen in Erfahrung bringen, ob die organisatorischen Abläufe an der FH Würzburg-Schweinfurt verbessert werden könnten. Zu diesem Zweck planen Sie eine Befragung mit anschließender Auswertung und Präsentation. (a) Bestimmen Sie die Grundgesamtheit. (b) Diskutieren Sie, ob eine Voll- oder Teilerhebung sinnvoll wäre. (c) Stellen Sie die Fragen, die zur Erstellung des Fragebogens beantwortet werden müssen.4 (d) Angenommen, Sie möchten eine einfache Stichprobe ziehen. Welche Fragen ergeben sich hierbei?5 (e) Stellen Sie dar, wie Sie eine einfache Stichprobe ziehen? 2. Bei den folgenden Befehlen haben sich Fehler eingeschlichen. Wo sind sie? (a) x <- read(“Daten.csv”, dec=”’’, header=FALSE)6 (b) sample(c(1:8000000), 10, replace = TRUE, prob = null)7 (c) x*0,3.8 (d) summaryby(Einkommen Geschlecht+Betriebsgröße, data=Daten2, FUN = c(min, max, mean,var,length))9 (e) Der Befehl ’summaryBy’ läßt sich nicht laden. Woran kann dies liegen?10 3. (a) Besorgen Sie sich aus dem Onlineangebot des Statistischen Bundesamtes Daten zur Arbeitslosigkeit in Deutschland jeweils gegliedert nach Geschlecht, Jugendliche unter 20 Jahren, Personen 55 Jahre und älter, Schwerbehinderte, Ausländer, Aussiedler. (b) Wählen Sie als Dateiformat ’*.csv’ und lesen Sie sie in ein Tabellenkalkulationsprogramm ein. (c) Kennzeichnen Sie alle Missings einheitlich mit ’NA’. (d) Überprüfen Sie alle Daten auf Plausibilität. (e) Vergeben Sie für jede Variable einen eindeutigen Namen. Achten Sie darauf, daß die Namen nicht zu lang sind, denn Namen mit mehr als 256 Byte können nicht in eingelesen werden. (f) Speichern Sie die Datei als csv-Datei ab. (g) Lesen Sie die Daten in eingelesen wurden.

ein und überprüfen Sie, ob die Daten korrekt

4. Nutze die Daten aus Tabelle 2.3 und (a) berechne von jeder Variable das arithmetische Mittel. Geht das?11

28

KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH (b) Ziehe von jedem Einkommen das arithmetische Mittel des Einkommens ab und bilde von den so gebildeten neuen Einkommen das arithmetische Mittel.12 (c) Erhöhe schließlich alle Einkommen um 100 Euro und verdopple das Alter. Berechnen aus den so modiﬁzierten Daten das arithmetische Mittel des Einkommens bzw. des Alters.13 Hinweis: Diese Aufgabe vermittelt grundlegende Einsichten. Lösen Sie die Teilaufgaben mit und algebraisch. 5. (a) Nutze die Daten aus Tabelle 2.3 und (b) berechne von jeder Variable die empirische Varianz. Geht das?14 (c) Addieren Sie zu dem Einkommen jeder Person 234 Euro und berechnen Sie von den so gebildeten Werten die empirische Varianz.15 (d) Multipliziere jeden Einkommenswert mit 450 und berechne die empirische Varianz von den so gebildeten Werten.16 Hinweis: Diese Aufgabe vermittelt grundlegende Einsichten. Lösen Sie die Teilaufgaben mit und algebraisch.

Kapitel 3

Datenaufbereitung 3.1

Einleitung

Nach Abschluß der Datenerhebung liegen Rohdaten vor, d.h., daß jeder Person (oder sonstigem interessierenden Objekt) eine oder mehrere Merkmalsausprägungen zugeordnet sind. In Tabelle 2.3 sind Rohdatensätze einzelner Personen zu sehen. Rohdaten geben uns aber wenig Auskunft: der Informationsgehalt ist zwar hoch, aber wir können diese Informationen mit unserem Gehirn nicht sinnvoll verarbeiten - zumindest bei sehr umfangreichen Datensätzen. Aus diesem Grund ist der Statistiker bemüht, die Merkmalsausprägungen in geeigneter Weise zusammenzufassen. Daten werden • zwecks Plausibilitätsprüfung, • zur Vorbereitung betrieblicher Entscheidungen oder • zur Generierung empirisch überprüfbarer Hypothesen aufbereitet. Hierbei stellt sich auch die Frage, ob die Daten adäquat sind. Sind sie es nicht, so ist zu überlegen, ob neue Daten erhoben werden sollen. Falls sie im Hinblick auf die interessierende Fragestellung als adäquat beurteilt werden, so stellt sich die Frage, wie die Daten ausgewertet werden sollen. In der betrieblichen Praxis genügt häuﬁg eine adäquate Beschreibung der vorliegenden Daten durch graphische Methoden, wie sie beispielhaft in Abschnitt 3.2 dargestellt werden oder mit Maßzahlen, wie in den nachfolgenden Abschnitten beschrieben. Die absolute und relative Häuﬁgkeitsverteilung sowie Verteilungsfunktion und Quantile werden in den Kapiteln 3.3 bis 3.5 behandelt. Sie bilden zudem die Grundlage für den Einstieg in die statistische Testtheorie des Kapitels 4. Bei gruppierten Daten werden Histogramme verwendet. Sie sind Gegenstand des Kapitels 3.6. Bei gemeinsam erhobenen Merkmalen, d.h. wenn eine Person R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_3, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

KAPITEL 3. DATENAUFBEREITUNG

30

beispielsweise Auskunft gibt über ihr Einkommen und die Verteilung ihrer Ausgaben auf verschiedene Güter, kann eine Kontingenztabelle erstellt werden. Wie dies geschieht, ist in Kapitel 3.7 nachzulesen. Diese Technik wird auch in der Wahrscheinlichkeitstheorie genutzt, ist also von grundlegender Bedeutung. Lorenzkurve und Gini-Koeﬃzient bilden den Abschluß des Kapitels. Diese Methoden dienen ausschließlich der Beschreibung und laufen auch unter der Überschrift deskriptive oder beschreibende Statistik. Dabei ist es ganz gleich, ob eine Vollerhebung, Teilerhebung oder Stichprobe vorliegt: in all diesen Fällen ergibt sich die Aufgabe, sie aufzubereiten, da der Mensch den Informationsgehalt umfangreicher Rohdaten nicht erfassen kann. Im vorliegenden Kapitel geht es ausschließlich um die Beschreibung von Daten, ohne Bezug auf ein statistisches Entscheidungsmodell. Auf die Situation in der Grundgesamtheit zu schließen, ist Aufgabe der schließenden Statistik.

3.2 3.2.1

Graphische Methoden Grundlagen

Die Bedeutung der Datenaufbereitung wird schnell klar, wenn man mit echten Datensätzen arbeitet. Die Daten der Tabelle 3.1 wurden dem Onlineangebot des Statistischen Bundesamtes entnommen; sie stellen gleichzeitig die Lösung zu Aufgabe 3a des Kapitels 2 dar. Über den Link www-genesis.destatis.de kommt man zur Startseite. Hier ﬁnden sich eine Vielzahl wichtiger ökonomischer Kenngrößen unserer Volkswirtschaft. In Tabelle 3.1 wird lediglich ein Auszug der Daten abgebildet. Sie stehen unter dem Namen Daten4.csv zur Verfügung. Werden die Daten am Bildschirm vollständig angezeigt, so erkennt man schnell, wie schwierig es ist, sich auch nur einen Überblick zu verschaﬀen. Insgesamt umfaßt er 228 Zeilen und 14 Spalten. ’NA’ steht für ’not available’, die Daten sind nicht verfügbar. In der ersten Spalte ﬁndet sich der Monat, ’1’ steht für Januar, ’2’ für Februar und so weiter. In der zweiten Spalte ist das Jahr. Die Variablennamen mußten abgekürzt werden, damit sie in eingelesen werden konnten. In der Spalte ’alle_m’ sind alle männlichen Arbeitslose, in ’alle_w’ alle weiblichen und ’J_unter_20_m’ gibt alle Jugendlichen Arbeitslosen unter 20 Jahren an, das ’w’ in der nachfolgenden Spalte steht wiederum für weiblich. So bequem die Online-Datenbeschaﬀung auch ist, wichtige Informationen können den so bereitgestellten Daten nicht entnommen werden. Die Zahl der Arbeitslosen ist eine Bestandsgröße, d.h. sie bezieht sich auf einen Zeitpunkt. In der Tabelle des Statistischen Bundesamtes wird nicht erläutert, auf welchen Zeitpunkt, ob am Monatsanfang oder -ende, sich die Zahlen beziehen. Zudem

3.2. GRAPHISCHE METHODEN

1 2 3 4 5 6 7 . . . 228

Monat 1 2 3 4 5 6 7 . . . 12

31

Jahr alle_m alle_w J_unter_20_m J_unter_20_w ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... . . . . . ... . . . . . ... . . . . . ... 2008 1617943 1484134 31868 24994 Tabelle 3.1: Arbeitslose in Deutschland Quelle: Bundesamt (2008)

ist es auch möglich, daß es keine Bestandsgrößen sind, sondern daß es sich jeweils um die durchschnittliche monatliche Zahl an Arbeitslosen handelt. In einer wissenschaftlichen Arbeit wäre in Veröﬀentlichungen des Statistischen Bundesamtes zu klären, welche Interpretation zutriﬀt. Handelt es sich um echte Bestandsgrößen, so gibt die Diﬀerenz der arbeitslosen Männer zwischen Dezember 2008 und November 2008 die Veränderung des Bestandes an männlichen Arbeitslosen an. Diese Veränderung ist eine Stromgröße, sie bezieht sich auf einen Zeitraum. Diese Beziehungen gelten immer, es handelt sich um Tautologien. Man sagt dazu auch Identitäten. Anhand dieser Daten lassen sich wichtige Begriﬀe klären. Einerseits kann man die Spalten betrachten, andererseits können ausschließlich Zeilen dargestellt werden. Im ersteren Fall ist der zeitliche Bezug der Daten wichtig. Die Reihenfolge der Daten kann nicht ohne weiteres verändert werden. Analysiert man solche Bestandsgrößen, so spricht man von Längsschnittanalyse. Betrachtet man dagegen lediglich eine Zeile, so handelt es sich um eine Querschnittsanalyse. Allerdings ist es auch möglich, daß in einer Tabelle statt Bestandsgrößen Stromgrößen stehen. Auch dann spricht man bei Nutzung der Spalten von Längsschnitts - und bei Betrachtung einer Zeile, von einer Querschnittsanalyse. Die Daten der Tabelle 3.1 entstammen einer Totalerhebung. Um die Zahlen korrekt interpretieren zu können, ist es nötig, die Deﬁnition von Arbeitslosigkeit in Erfahrung zu bringen. Bei der von der Bundesagentur für Arbeit verwendeten werden nur solche Personen als arbeitslos geführt, die auch arbeitslos gemeldet sind. Erhält eine Person kein Arbeitslosengeld und besteht wenig Hoﬀnung, überhaupt einen Arbeitsvertrag abschließen zu können, so ist der Anreiz gering, sich arbeitslos zu melden. Neben dieser Einschränkung gibt es weitere Kriterien, durch den der Begriﬀ der Arbeitslosigkeit konkretisiert worden ist. In wissenschaftlichen Arbeiten ist es unumgänglich, den Begriﬀ vollständig und korrekt darzustellen.

KAPITEL 3. DATENAUFBEREITUNG

32

Insbesondere in der Betriebswirtschaftslehre sind Längsschnittsuntersuchungen auf Stichprobenbasis relevant, um beispielsweise das Konsumverhalten von Kunden in Erfahrung zu bringen. Hierbei werden zwei unterschiedliche Arten an Studiendesigns unterschieden: die Trend- und die Panelstudie. Bei der ersteren werden zu verschiedenen Zeitpunkten Stichproben gezogen. Die Folge hiervon ist, daß zu verschiedenen Zeitpunkten unterschiedliche Personen in der Stichprobe enthalten sind. Bei Panelstudien wird zu Beginn der Studie eine Stichprobe gezogen und die Personen dieser Stichprobe zu festgelegten Zeitpunkten befragt oder beobachtet. Dann können Änderungen ein und derselben Personen im Zeitverlauf beobachtet werden und es sind korrekte Rückschlüsse auf das Konsumentenverhalten einzelner Personen möglich. Der Zusammenhang zwischen Bestands- und Stromgrößen wird auch in der Bevölkerungsstatistik genutzt. Hier dient er zur Aufstellung von Bevölkerungsprognosen (von der Lippe, 1996). Der Anspruch ist hier jedoch sehr viel geringer. Es soll weder Konsumverhalten analysiert noch Bevölkerungsprognosen erstellt werden. Vielmehr sollen lediglich ein paar Methoden zur graphischen Aufbereitung von Daten beispielhaft dargestellt werden.

3.2.2

Beispiele

Liniendiagramme Univariate Daten Soll lediglich eine Variable als Liniendiagramm dargestellt werden, so kann der Befehl ’plot’ genutzt werden. Das Vorgehen wird anhand einiger weniger Datensätze erläutert. Mit dem Befehl > x <- matrix(c(1,2,3,4,5,22,44,34,65,76),5,2) > x [,1] [,2] [1,] 1 22 [2,] 2 44 [3,] 3 34 [4,] 4 65 [5,] 5 76 > plot(x,type="l") werden die Datensätze eingelesen. ’c’ steht für ’column’, also Spalte. Mit anderen Worten wird mit c(1,2,3,4,5,22,44,34,65,76) ein Spaltenvektor eingetragen. Die ’5’ weist an, daß die ersten 5 Zahlen des Spaltenvektors in die erste Spalte der Matrix eingetragen werden sollen und die restlichen in die zweite Spalte. Ist einmal eine Matrix erzeugt, so kann mit > fix(x) eine Tabelle aufgerufen werden, mit der einfach Daten von Hand eingegeben werden können, ohne auf ein externes Tabellenverarbeitungsprogramm zurückgreifen zu müssen. Zur graphischen Darstellung wird der Befehl > plot(x[,1],x[,2],type="l")

3.2. GRAPHISCHE METHODEN

50 20

30

40

x[, 2]

60

70

33

1

2

3

4

5

x[, 1]

Abbildung 3.1: Einfaches Liniendiagramm Quelle: eigene Darstellung

verwendet. Mit ’x[,1]’ wird die erste und mit’x[,2]” die zweite Spalte der Matrix angesprochen. Die Werte des Vektors ’x[,1]’ werden an der Abszisse und die Werte von ’x[,2]’ an der Ordinate abgetragen. Das Ergebnis ist in Abbildung 3.1 dargestellt. Weitere Optionen können über den Befehl > ?plot in Erfahrung gebracht werden. Multivariate Daten Ziel ist die Darstellung der Ausprägungen mehrerer Variablen in ein und demselben Diagramm als Linien. Die Linien sollen farblich unterscheidbar sein, wobei die Zuordnung zu den Variablen in einer Legende beschrieben wird. Um diese Aufgabe zu lösen sind folgende Schritte nötig: 1. Zuordnung jeder Zeile zu exakt einem Monat, wobei die erste Aufgabe gelöst wird (a) indem ein Spaltenvektor mit korrekten Datumseinträgen erzeugt wird und (b) mit den Originaldaten zu einer neuen Matrix zusammengefaßt werden.

KAPITEL 3. DATENAUFBEREITUNG

34

2. Zudem ist der geeignete Graphikbefehl zu wählen und die Achsenbeschriftung einzutragen sowie 3. der Befehl zur Einfügung der Zeichenerklärung einzugeben. Genutzt werden die Daten aus Tabelle 3.1. Es wird davon ausgegangen, daß sie korrekt eingelesen worden sind und unter dem Variablennamen ’Daten4’ angesprochen werden können. Bei dem Autor führte die Eingabe der Anweisung > Daten4 <- read.csv("Daten4.csv",sep=";",header=TRUE) zum Ziel. Es müssen Datumsangaben vom Typ Monat-Jahr erzeugt werden. Hierzu wird das Paket ’zoo’ über > library(zoo) geladen. Damit wird der Befehl > x <- yearmon(1990+seq(0, 227)/12) > head(x) [1] "Jan 1990" "Feb 1990" "Mär 1990" "Apr 1990" "Mai 1990" verfügbar. Er bildet die nötigen Einträge vom Typ Monat-Jahr in einem Vektor. Die Datumsangabe beginnt bei demselben Wert wie bei den Originaldaten. Mit ’head’ werden die ersten Einträge eines -Objektes angezeigt. Anschließend müssen die ursprünglichen Daten mit dem Vektor x zu einer Matrix zusammengefaßt werden: > xx <- cbind(x,Daten4[,3:12]). Wenn mehrere Variablen als Linien in einer Abbildung erscheinen sollen, dann ist der Befehl ’matplot’ geeignet. Diese Abkürzung steht für ’matrixplot’, also die graphische Darstellung einer Matrix. > matplot(xx[,1],xx[,2:3],type="l",col=1:2, xlab="Jahre", ylab="Arbeitslose",main="Arbeitslose in Deutschland",lty=1) An der Abszisse soll das Datum und an der Ordinate die Variablenwerte abgetragen werden. Das Datum steht in der Liste ’xx’ in der ersten Spalte. Der Einfachheit wegen sollen nur die Arbeitslosenzahlen geschlechtsspeziﬁsch angezeigt werden, also Spalten 2 und 3. Durch die Anweisung ’xx[,2:3]’ werden diese Spalten angesprochen. ’type=“l”’ sagt dem Programm, daß Linien ausgegeben werden sollen. Als Farben sollen die im Programm mit den Nummern ’1’ und ’2’ verwendet werden; ’col’ steht als Abkürzung von ’color’. ’xlab’ dient zur Beschriftung der Abszisse und ’ylab’ zur Beschriftung der Ordinate. Mit ’lty=1’ wird der Linientyp bestimmt; ’lty’ steht stellvertretend für ’linetype’. Damit fehlt lediglich die Legende, die mit Hilfe von > legend("topleft", c("männlich","weiblich"),col=1:2, text.col=1:2, title="Zeichenerklärung",lty = 1)

3.2. GRAPHISCHE METHODEN

35

1500000 2000000 2500000 3000000

Arbeitslose

Arbeitslose in Deutschland Zeichenerklärung männlich weiblich

1990

1995

2000

2005

Jahre

Abbildung 3.2: Liniendiagramm bei komplexen Datensätzen Quelle: eigene Darstellung, Daten aus Bundesamt (2008)

eingefügt wird. ‘topleft’ gibt die Plazierung an, der nachfolgende Vektor beinhaltet den einzutragenden Text. ’text.col’ bestimmt die Textfarbe und mit ’title=’ wird der Legende eine Überschrift zugewiesen; ’lty’ kennzeichnet wieder den Linientyp. Das Ergebnis ist in Abbildung 3.2 dargestellt. Kreisdiagramm Das Kreisdiagramm eignet sich zur Aufbereitung von Daten, die zum selben Zeitpunkt erhoben wurden. Mit dem Befehl > length(Daten4[,1]) [1] 228 wird die Anzahl der Zeilen ermittelt. Dann wird die Zeile 228 mit allen Variablen ausgelesen und der Variable ’x’ zugeordnet. > x <- Daten4[228,] > x Monat Jahr alle_m alle_w J_unter_20_m J_unter_20_w 228 12 2008 1617943 1484134 31868 24994 Schwerb_m Schwerb_w Auslaender_m Auslaender_w Aussied 228 88981 62462 253232 227465

... ... ... ...

KAPITEL 3. DATENAUFBEREITUNG

36

Die Variable ’x’ ist jedoch nicht numerisch > is.numeric(x) [1] FALSE, aus diesem Grund wird über folgende Anweisung > x2 <- as.numeric(x) > x2 [1] 12 2008 1617943 1484134 [10] 62462 253232 227465 NA

31868 NA

24994

... ...

die numerische Variable ’x2’ gebildet. Der Befehl > pie(x2[3:4]) erzeugt unter Nutzung der Standardeinstellungen von Möglichkeiten zur Gestaltung sind vielfältig. Mit

ein Kreisdiagramm. Die

> pie(x2[3:4],labels = names(x2), col=c("yellow", "blue")) > names(x2)=c("Männer","Frauen") erfolgt die Beschriftung der beiden Teile, wobei der Teil der Männer gelb und der der Frauen blau gekennzeichnet ist (siehe Abbildung 3.3). Eine Diskussion der Vor- und Nachteile dieser Darstellungsart ﬁndet sich bei (Dolic, 2004, S. 85ﬀ).

3.3 3.3.1

Absolute Häuﬁgkeitsverteilung Grundlagen

So schön die erzeugten Graphiken auch sein mögen, zur Entscheidungsﬁndung reichen sie alleine meist nicht aus. Man nutzt im allgemeinen weitere Kennzahlen, um ein besseres Verständnis der Situation zu erhalten. So können die Daten in Form absoluter Häuﬁgkeiten zusammengefaßt werden. Zur Aufstellung der absoluten Häuﬁgkeitsverteilung geht man wie folgt vor. Im einfachsten Fall wird lediglich eine Variable betrachtet. Bei Rohdaten ﬁndet man heraus, welche unterschiedlichen Ausprägungen überhaupt vorkommen. Diese Werte werden in die erste Zeile geschrieben. Anschließend zählt man durch, wie oft die einzelnen Ausprägungen in den Rohdaten vorkommen und schreibt die entsprechenden Werte in die zweite Zeile einer Tabelle und fertig ist eine absolute Häuﬁgkeitsverteilung.

3.3.2

Beispiel 1

Mit können absolute Häuﬁgkeiten über den Befehl ’table’ bestimmt werden. Auf Grundlage der Rohdaten in Tabelle 2.3 wurden die absoluten Häuﬁgkeiten für das Merkmal Einkommen bestimmt. In der ersten Zeile beﬁnden sich

3.3. ABSOLUTE HÄUFIGKEITSVERTEILUNG

37

Männer

Frauen

Abbildung 3.3: Kreisdiagramm Quelle: eigene Darstellung, Daten aus Bundesamt (2008)

die Merkmalsausprägungen und in der zweiten die absoluten Häuﬁgkeiten ihres Vorkommens. > table(Daten2$Einkommen) 1000 1500 1900 2000 2111 2500 2700 2900 3300 1 1 2 2 2 1 1 2 1

3.3.3

Maßzahlen

Arithmetisches Mittel Auf Basis der absoluten Häuﬁgkeitsverteilung lassen sich, ebenso wie mit Rohdaten, arithmetisches Mittel und empirische Varianz berechnen. Wird auf der Basis absoluter Häuﬁgkeiten das arithmetische Mittel berechnet, so ist folgende Formel zu verwenden k 1 ni · xi . x ¯ := n i=1 xi bezeichnet die Ausprägung des interessierenden Merkmals, ni ist die absolute Häuﬁgkeit der Merkmalsausprägung i und

KAPITEL 3. DATENAUFBEREITUNG

38

k die Anzahl unterschiedlicher Beobachtungen. Empirische Varianz Sie ist deﬁniert als

k

2

s =

s2X

1 := ni (xi − x ¯ )2 , n i=1

wobei dieselben Bezeichnungen wie in Kapitel 3.3.3 verwendet werden. sX bedeutet, daß die empirische Varianz zu der Variablen X berechnet wird. Die Varianz ist ein Streuungsmaß, das heißt, sie gibt das Ausmaß an, in dem die Beobachtungen in der Grundgesamtheit (bei einer Vollerhebung) bzw. einer Stichprobe herumvagabundieren. Ist die Varianz sehr groß, so liegen die Beobachtungen weit verstreut um das arithmetische Mittel herum. Je kleiner die Varianz wird, desto näher liegen die Beobachtungen um den Mittelwert herum. Ist die Varianz gleich 0, dann haben alle Beobachtungen exakt denselben Wert.

3.3.4

Beispiel 2

Wird auf der Basis der absoluten Häuﬁgkeitsverteilung das arithmetische Mittel berechnet, so ergeben sich selbstverständlich dieselben Ergebnisse wie auf der Basis von Rohdaten. Probieren Sie es zu Übungszwecken anhand einfacher Beispiele aus. Die Berechnung der empirischen Varianz kann in über die korrigierte Stichprobenvarianz erfolgen. Ausgegangen wird von den Daten 2.3, wobei die empirische Varianz des Einkommens berechnet werden soll. Um zur (empirischen) Varianz zu gelangen, ist in > (n-1) * var(Daten$Einkommen) /n bzw. in unserem speziellen Fall > length(Daten2$Einkommen) * var(Daten2$Einkommen) / length(Daten2$Einkommen) [1] 394337.6 einzugeben. Der Befehl > table(Daten2$Einkommen) gibt die absolute Häuﬁgkeitsverteilung nur temporär an. Soll im weiteren Verlauf einer statistischen Auswertung auf die absolute Häuﬁgkeit Bezug genommen werden, so kann man durch Zuweisung eines Variablennamens das Ergebnis permanent machen. Dies geschieht unter Verwendung von Daten2 durch folgenden Befehl. > absoluteHäufigkeit <- table(Daten2$Einkommen)

3.3. ABSOLUTE HÄUFIGKEITSVERTEILUNG

1.5 1.0 0.5 0.0

absoluteHäufigkeit

2.0

39

1000

1500

1900 2111

2500

2900

3300

Abbildung 3.4: Absolute Häuﬁgkeitsverteilung Quelle: eigene Darstellung Eingabe von > absoluteHäufigkeit liefert als Ergebnis: 1000 1500 1900 2000 2111 2500 2700 2900 3300 1 1 2 2 2 1 1 2 1 Durch die Anweisung > plot(absoluteHäufigkeit) erzeugt Abbildung 3.4. An der Abszisse sind die Merkmalsausprägungen abgetragen und an der Ordinate die zugehörigen absoluten Häuﬁgkeiten. Durch > plot(absoluteHäufigkeit, xlab =’’Einkommen’’) wird die Abszisse mit ’Einkommen’ beschriftet. Alternativ hierzu lassen sich auch Balkendiagramme (bar charts oder bar plots) erstellen. Hierzu nutzt man den Befehl ’barplot’. Über die Funktion ’Noten=scan()’ gefolgt mit ’Return’ können anschließend Daten direkt von dem Bildschirm in eingelesen werden. Erneutes ’Return’ schließt die Dateneingabe ab. Nachdem die absolute Häuﬁgkeitsverteilung der Noten ermittelt wurde, wird mit der Anweisung ’barplot’ das Balkendiagramm erstellt. Das Ergebnis ist in Abbildung 3.5 widergegeben.

KAPITEL 3. DATENAUFBEREITUNG

10

40

6 4 0

2

absolute Häufigkeit

8

beste Note zweitbeste drittbeste schlechteste

1

2

3

4

Note

Abbildung 3.5: Balkendiagramm Quelle: eigene Darstellung

> Noten=scan() 1: 3 4 1 1 3 4 3 1 3 3 2 2 1 1 2 3 2 3 1 1 1 1 4 3 1 26: Read 25 items > barplot(table(Noten), width = 1, legend.text = c("beste Note", "zweitbeste","drittbeste","schlechteste"), angle = 45, col = 2:5, xlab = "Note", ylab = "absolute Häufigkeit", plot = TRUE, axis.lty = 1)

3.4 3.4.1

Relative Häuﬁgkeitsverteilung Grundlagen

Werden die absoluten Häuﬁgkeiten durch die Anzahl an Beobachtungen dividiert, so erhält man die relative Häuﬁgkeiten. Bei der relativen Häuﬁgkeitsverteilung werden in der ersten Zeile die Merkmalsausprägungen und in der zweiten die zugehörigen relativen Häuﬁgkeiten angegeben. Die relative Häuﬁgkeitsverteilung kann auch als Funktion geschrieben werden: hi für x = xi h(x) = 0 sonst

3.4. RELATIVE HÄUFIGKEITSVERTEILUNG

41

Diese Darstellungform ist zur Datenaufbereitung und Präsentation nicht zu empfehlen. Dennoch sollte man sich mit dieser Schreibweise vertraut machen, da sie in der Wahrscheinlichkeitstheorie und schließenden Statistik von Bedeutung ist.

3.4.2

Beispiel 1

Das Beispiel von S. 38 wird fortgeführt. Der Befehl >

sum(absoluteHäufigkeit)

[1] 13 gibt die Anzahl der Beobachtungen, n, an. Die zuvor deﬁnierte Variable absoluteHäuﬁgkeit’ wird abgeändert zu > absoluteHäufigkeit/sum(absoluteHäufigkeit) und liefert dann die relative Häuﬁgkeitsverteilung. 1000 1500 1900 2000 2111 0.07692308 0.07692308 0.15384615 0.15384615 0.15384615 2500 2700 2900 3300 0.07692308 0.07692308 0.15384615 0.07692308 Folgende Anweisung > relativeHäufigkeit <- absoluteHäufigkeit/sum(absoluteHäufigkeit) deﬁniert die permanente Variable ’relative Häuﬁgkeit’, wobei die Summe aller relativen Häuﬁgkeiten gleich 1 sein muß, was leicht überprüft werden kann: > sum(relativeHäufigkeit) [1] 1 Als Häuﬁgkeitsfunktion geschrieben erhält man: ⎧ ⎪ 0.07692308 für x = 1000 ⎪ ⎪ ⎪ ⎪ ⎪ 0.07692308 für x = 1500 ⎪ ⎪ ⎪ ⎪ 0.15384615 für x = 1900 ⎪ ⎪ ⎪ ⎪ ⎪0.15384615 für x = 2000 ⎪ ⎪ ⎪ ⎨0.15384615 für x = 2111 h(x) = ⎪ 0.07692308 für x = 2500 ⎪ ⎪ ⎪ ⎪ ⎪0.07692308 für x = 2700 ⎪ ⎪ ⎪ ⎪ 0.15384615 für x = 2900 ⎪ ⎪ ⎪ ⎪ ⎪ 0.07692308 für x = 3300 ⎪ ⎪ ⎪ ⎩0 sonst Der Befehl

KAPITEL 3. DATENAUFBEREITUNG

0.10 0.05 0.00

relative Häufigkeit

0.15

42

1000

1500

1900 2111

2500

2900

3300

Einkommen

Abbildung 3.6: Relative Häuﬁgkeitsverteilung Quelle: eigene Darstellung

> plot(relativeHäufigkeit, xlab ="Einkommen", ylab="relative Häufigkeit") öﬀnet ein neues Fenster, dessen Inhalt in Abbildung 3.6 dargestellt ist. An der Waagerechten dieses Stabdiagramms sind die Merkmalsausprägungen und an der Senkrechten die relativen Häuﬁgkeiten abgetragen.

3.4.3

Maßzahlen

Arithmetisches Mittel Auf Grundlage der relativen Häuﬁgkeitsverteilung errechnet sich das arithmetische Mittel mit folgender Formel x ¯ :=

k

hi · xi , mit hi := ni /n,

i=1

wobei hi für relative Häuﬁgkeit steht, ni die absolute Häuﬁgkeit des Vorkommens des Merkmals i angibt, k die Anzahl unterschiedlicher Merkmalsausprägungen kennzeichnet.

3.5. VERTEILUNGSFUNKTION UND QUANTILE

43

Empirische Varianz Mit der relative Häuﬁgkeitsverteilung läßt sich ebenfalls die empirische Varianz berechnen: k hi (xi − x ¯)2 , s2 = s2X := i=1

wobei die Variablen genauso deﬁniert sind wie oben beim arithmetischen Mittel.

3.4.4

Beispiel 2

Berechnet man auf Grundlage von Daten2 das arithmetische Mittel und die empirische Varianz mit Hilfe der relativen Häuﬁgkeitsverteilung, so erhält man selbstverständlich dieselben Ergebnisse wie in Abschnitt 3.3.4.

3.5 3.5.1

Verteilungsfunktion und Quantile Verteilungsfunktion

Grundlagen Die empirische Verteilungsfunktion ist deﬁniert als h(xi ), H(x) :=

(3.1)

xi x

mit relativer Häuﬁgkeit h(xi ). Das bedeutet, daß an jeder Stelle, an der x = xi , H(xi ) um den Wert h(xi ) steigt. Am besten macht man sich die Funktion über ein Beispiel klar. Wir verwenden das Merkmal Einkommen aus Daten2. H(900) = 0, da links von 900 kein Einkommen liegt. Erst bei einem Einkommen von 1000 ist die relative Häuﬁgkeit größer als Null. H(1000) = h(1000) = 1/13. Bei einem Einkommen von 1400 ist der Wert der Verteilungsfunktion ebenfalls 1/13, denn links von 1400 ist nur eine Merkmalsausprägung und 1400 ist eine relative Häuﬁgkeit von Null zugeordnet. Das Einkommen 1500 ist jedoch wieder eine Merkmalsausprägung mit positiver relativer Häuﬁgkeit: H(1500) = 1/13 + 1/13 = 2/13. Auf diese Weise kann man aus der relativen Häuﬁgkeitsverteilung die restlichen Werte der Verteilungsfunktion herleiten. Diese Überlegungen machen klar, daß man an Sprungstellen dem Wert H(xi ) von links nicht beliebig nahe kommen kann, man sagt, daß die Funktion linksseitig nicht stetig ist. Von rechts aber kann man einer Sprungstelle beliebig nahe kommen, sie ist also rechtsstetig.

44

KAPITEL 3. DATENAUFBEREITUNG

Diese Art der Darstellung kann bei Vollerhebungen wie Teilerhebungen eingesetzt werden. Sie dient lediglich der Beschreibung der vorliegenden Daten. Liegt eine Teilerhebung vor, so ist bei der Interpretation allerdings Vorsicht geboten: es kann nicht einfach von der Teilerhebung auf die Grundgesamtheit geschlossen werden. Wurden beispielsweise bei der Datenerhebung systematisch Fehler gemacht, so wird sich dies in einem Bias, einer systematischen Verzerrung, in der Teilerhebung niederschlagen. Zudem hat die Art und Weise der Datenerhebung ceteris paribus systematischen Einﬂuß auf die Verteilung. Zusammenhänge dieser Art werden bei der Datenaufbereitung häuﬁg ausgeblendet. Realiter wird die Verteilungsfunktion kaum zur Datenaufbereitung verwendet. Denn zu ihrer Interpretation sind Vorkenntnisse nötig, die sie zu Präsentationszwecken eher ungeeignet machen. In der Wahrscheinlichkeitstheorie und der schließenden Statistik zeigt sich ihre Bedeutung. Dies ist der eigentliche Grund, weshalb sie hier vorgestellt wird. Diese Grundlage wird beim Verstehen statistischer Testverfahren von großem Nutzen sein. Beispiel Lade zuerst das Paket QRMlib, um die Funktion ’edf’ (empirical distribution function) verfügbar zu machen. Durch Eingabe von > Eink <- sort(Daten2$Einkommen) wird das Einkommen in ’Daten2’ der Größe nach sortiert und durch > Eink [1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 das Ergebnis angezeigt. Die Zeile > edf(Eink) [1] 0.07692308 0.15384615 0.30769231 0.30769231 0.46153846 0.46153846 0.61538462 0.61538462 0.69230769 0.76923077 [11] 0.92307692 0.92307692 1.00000000 führt schließlich zur Ausgabe der empirischen Verteilungsfunktion, wobei freilich nur die kumulierten relativen Häuﬁgkeiten abgetragen werden. Welche Angabe fehlt?17 Durch > c(500, Eink, 3500) [1] 500 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 3500

3.5. VERTEILUNGSFUNKTION UND QUANTILE

45

wird (auch wenn die Anzeige in einer Zeile erfolgt, um Platz zu sparen) ein Spaltenvektor erzeugt. Versuchen Sie es selbst und erzeugen Sie den Spaltenvektor18 ⎛ ⎞ 1 ⎜2⎟ ⎜ ⎟. ⎝3⎠ 4 Eingabe von > plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = "Einkommen", ylab = "H(Einkommen)",type="s") führt zur Anzeige der gewünschten Graphik in einem neuen Fenster (siehe Abbildung 3.7). Der Eintrag ’c(500, Eink, 3500)’ gibt die Werte an, die an der Abszisse abgetragen werden und ’c(0,edf(Eink),1)’ die Werte der Ordinate. Der Befehl ’type = s’ weist das Programm an, eine Treppenfunktion zu zeichnen. Man erkennt, daß die Funktion treppenförmig von links nach rechts steigend verläuft: sie beginnt bei x-Werten von −∞ bei Null, steigt dann in Stufen an und erreicht bei +∞ die Eins. Aus der Graphik geht allerdings nicht hervor, daß sie an Sprungstellen zwar rechts-, aber nicht linksseitig stetig ist. Markiere in der empirischen Verteilungsfunktion der Abbildung 4 die Sprungstellen xi und kennzeichne den zugehörigen Wert H(xi ) , der rechtsseitig stetig ist durch einen schwarzen Punkt.19

3.5.2

Quantile

Grundlagen Ein Quantil splittet Daten in zwei Teilbereiche auf. Angenommen, es wird das 0,25-Quantil gesucht, so ist die Ausprägung xi zu ﬁnden, bei der mindestens 25 Prozent der Ausprägungen kleiner oder gleich xi und mindestens 75 Prozent der Ausprägungen größer oder gleich xi sind. Das 0,25-Quantil heißt auch unteres Quartil, das 0,75-Quantil oberes Quartil und das 0,5-Quantil wird Median genannt. Angenommen, die absolute Häuﬁgkeitsverteilung sei gleich Merkmalsausprägung absolute Häuﬁgkeit

-2 1

1 2

2 1

Wir haben dann als Rohdaten aufsteigend angeordnet -2, 1, 1, 2 vorliegen. 50 Prozent der Beobachtungen sind kleiner und 50 Prozent sind größer als 1. Folglich ist der Median gleich 1. Sollte aber folgende absolute Häuﬁgkeitsverteilung

Merkmalsausprägung absolute Häuﬁgkeit

-2 1

0 1

1 1

2 1

KAPITEL 3. DATENAUFBEREITUNG

0.6 0.4 0.0

0.2

H(Einkommen)

0.8

1.0

46

500

1000

1500

2000

2500

3000

3500

Einkommen

Abbildung 3.7: Verteilungsfunktion Quelle: eigene Darstellung gegeben sein, so ist die geordnete Folge der Beobachtungen gleich -2, 0, 1, 2. Man erkennt, daß 50 Prozent der Beobachtungen kleiner oder gleich 0 und 50 Prozent größer oder gleich 1 sind. Der Median ist in diesem Fall nicht eindeutig bestimmt. In einem Statistikprogramm ist dann eine Entscheidungsregel nötig, mit Hilfe derer er eindeutig angegeben werden kann. Beispiel Der Befehl quantile(x) führt zu dem Ergebnis > quantile(Daten2$Einkommen) 0% 25% 50% 75% 100% 1000 1900 2111 2700 3300 Dies bedeutet, daß mindestens 25 Prozent aller Ausprägungen kleiner oder gleich 1900 und mindestens 75 Prozent größer oder gleich 1900 sind. Alternativ hierzu kann der Median auch mit dem Befehl > median(Daten2$Einkommen, na.rm = FALSE) [1] 2111 ermittelt werden. Jetzt soll der Fall betrachtet werden, bei dem die Bestimmung des Quantils nicht eindeutig möglich ist. Es wird von folgenden Rohdaten ausgegangen:

3.5. VERTEILUNGSFUNKTION UND QUANTILE -2

1,2

2

3

4

47

5.

Den einzelnen Ausprägungen werden dann gemäß der Formel (j − 1)/(n − 1) relative Häuﬁgkeiten zugeordnet. j kennzeichnet hierbei die j-te Ausprägung und n ist die Gesamtzahl an Beobachtungen. Dies ist die Standardeinstellung in funktion: xi : H(xi ) :

-2 0

1,2 0,2

2 0,4

3 0,6

. Damit ergibt sich folgende Verteilungs-

4 0,8

5 1

Das 0, 25-Quantil muß demgemäß zwischen der Beobachtung der zweiten Merkmalsausprägung mit Wert 1, 2 und der dritten mit Wert 2 liegen. Der Beobachtung 1, 2 ist bereits eine relative Häuﬁgkeit von 0, 2 zugeordnet. Es fehlt die relative Häuﬁgkeit in Höhe von 0, 05, um das 0, 25-Quantil zu erreichen. Im Intervall 1, 2 bis 2 steigt die relative Häuﬁgkeit von 0, 2 auf 0, 4, also um 0, 2 an. Über einen einfachen Dreisatz berechnet man die Steigerung von 1, 2 bis zum 0, 25-Quantil: 0, 05 0, 2 = . (3.2) 2 − 1, 2 y y ist gleich 0, 2. Von 1, 2 bis 1, 4 steigt die relative Häuﬁgkeit approximativ um 0, 05. Somit wird 1, 4 (= 1, 2 + 0, 2) als 0, 25-Quantil ausgewiesen. Das Vorgehen ist auch in Abbildung 3.8 illustriert. Es ist das 0, 25-Quantil gesucht, weshalb zu der relativen Häuﬁgkeit von 0, 2 bei dem x-Wert von 1, 2 noch 0, 05 hinzuaddiert werden. Die Waagerechte in Höhe von 0, 25 schneidet die Gerade, die von links unten nach rechts oben verläuft. Bildet man in diesem Schnittpunkt das Lot auf die x-Achse, so erhält man den gesuchten x-Wert. Auch gemäß dieser Illustration müssen sich die Verhältnisse, wie in 3.2 angegeben, entsprechen. Die Anwendung des Befehls > quantile(c(-2,1.2,2,3,4,6),type=7) 0% 25% 50% 75% 100% -2.00 1.40 2.50 3.75 6.00 bestätigt dies. “type=7” weist an, den im Programm hinterlegten “Typ 7” zur Bestimmung von Quantilen zu verwenden. Dies ist die Standardeinstellung.

KAPITEL 3. DATENAUFBEREITUNG

0.30

0.35

0,8

0.2

0.25

relative Häufigkeit

0.40

48

0.05

0.20

y 1.2

1.4

1.6

1.8

2.0

Beobachtungen

Abbildung 3.8: Berechnung der Quantile mit Option Typ 7 Quelle: eigene Darstellung

3.5.3

Verteilungsfunktion und Quantile

Grundlagen Quantile können auch bestimmt werden, indem die Umkehrfunktion der Verteilungsfunktion bestimmt wird. Denn die Verteilungsfunktion gibt die kumulierte relative Häuﬁgkeit H(x) zu einer bestimmten Merkmalsausprägung x an. Deren Umkehrfunktion H −1 (x) ergibt dann das H-Quantil. Das Ergebnis ist gleich x. In Abbildung 3.9 ist die korrekte Verteilungsfunktion des Einkommens aus Daten2 dargestellt. Will man das 0,25-Quantil bestimmen, so wählt man an der Ordinate die 0,25 geht nach rechts und nimmt das Lot auf die Abszisse. In vorliegendem Fall erhält man 1900. Ebenso kann der Median bestimmt werden. Auch über diesen Weg erhält man den Wert 2111. Einen Schönheitsfehler hat dieses Vorgehen allerdings. Die Umkehrfunktion einer Verteilungsfunktion ist im allgemeinen nicht eindeutig. Will man beispielsweise das 17 -Quantil bestimmen, so sind Werte zwischen 1000 und 1500 mögliche Kandidaten für dieses Quantil. Dann muß, wie bereits erwähnt, eine Entscheidungsregel her, damit das Statistikprogramm eindeutig ein Quantil ausweisen kann.

3.5. VERTEILUNGSFUNKTION UND QUANTILE

49

0.6 0.4 0.0

0.2

Fn(x)

0.8

1.0

ecdf(Daten2$Einkommen)

1000

1500

2000

2500

3000

3500

Einkommen

Abbildung 3.9: Korrekte graphische Darstellung der Verteilungsfunktion Quelle: eigene Darstellung

Beispiel Alternativ zur Standardeinstellung kann in auch die Inverse der empirischen Verteilungsfunktion zur Bestimmung von Quantilen verwendet werden. Bei Mehrdeutigkeit wird die Sprungstelle gewählt. Der Befehl hierzu lautet: > quantile(c(-2,1.2,2,3,4,6),type=1) 0% 25% 50% 75% 100% -2.0 1.2 2.0 4.0 6.0 Das Programm kann auch angewiesen werden, bei Mehrdeutigkeit den Mittelwert zwischen der oberen und unteren Merkmalsausprägung statt der Sprungstelle zu wählen. Wird dies gewünscht, dann muß Typ 2 verwendet werden. > quantile(c(-2,1.2,2,3,4,6),type=2) 0% 25% 50% 75% 100% -2.0 1.2 2.5 4.0 6.0 Insgesamt sind in 9 verschiedene Möglichkeiten implementiert, um Quantile bei Mehrdeutigkeit zu bestimmen. Ihre Beschreibung erhält man über den Befehl > ?quantile

KAPITEL 3. DATENAUFBEREITUNG

50

Allerdings sollte man dem Problem der Quantilsbestimmung keine zu große Bedeutung beimessen. Denn bei praktischen Fragestellungen werden häuﬁg stetige Verteilungen verwendet oder sie dienen der Approximation von diskreten. Dann entsteht das beschriebene Problem der Mehrdeutigkeit nicht. Zudem verringert sich das Problem selbst bei Verwendung von diskreten Verteilungen in der praktischen Anwendung dadurch, daß eine Vielzahl an Beobachtungen vorliegt. Die Wahl der Zuordnungsregel beeinﬂußt das Ergebnis dann häuﬁg nicht.

3.6

Histogramme

3.6.1

Absolute Häuﬁgkeit

Grundlagen Häuﬁg kommt es vor, daß bei Erhebungen keine exakten Angaben in Erfahrung gebracht werden, sondern der Befragte sich für eine Gruppe entscheiden soll. Zum Beispiel kann es sein, daß nicht das exakte Einkommen des letzten Monats, sondern monatliche, durchschnittlich im Verlauf eines Jahres erzielte Einkommen abgefragt werden, wobei Einkommensbereiche angegeben werden. Zum Beispiel wird erfragt: Liegt Ihr Einkommen üblicherweise im Bereich von 0 bis 1000 Euro, von 1001-1500 Euro usw.? Solche Daten können graphisch durch Histogramme veranschaulicht werden. Auf der Abszisse werden dann die Klassengrenzen und an der Ordinate entweder die absolute Klassenhäuﬁgkeit oder ¯ die durchschnittliche Häuﬁgkeitsdichte h(x) angegeben. Beispiel Durch > hist(Daten2$Einkommen, main = "Histogramm", xlab = "Einkommen", ylab = "absolute Häufigkeit") wird ein Histogramm mit den Daten ’Daten2’ und Spalte Einkommen gezeichnet. Zusätzlich wurden Befehle angegeben, mit Hilfe derer ein Titel und die Achsenbezeichnungen eingetragen werden können. Die Interpretation dieses Histogramms fällt leichter, wenn man die Rohdaten der Größe nach sortiert. > sort(Daten2$Einkommen) [1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 An der Abszisse sind die Klassengrenzen eingetragen, sie werden in vorliegendem Fall durch das Programm selbsttätig erzeugt. An der Ordinate ist die absolute Häuﬁgkeit der Beobachtungen abgetragen, die in die Klasse fällt. Ist eine Ausprägung identisch gleich der Klassenobergrenze, so wird sie der unteren Klasse zugeordnet. Beispielsweise fallen in das zweite Intervall die Ausprägungen ’1900, 1900, 2000, 2000’, weshalb an der Ordinate die absolute Häuﬁgkeit ’4’ abgetragen ist; die Ausprägung ’1500’ ist der ersten Klasse zugeordnet.

3.6. HISTOGRAMME

51

3 2 1 0

absolute Häufigkeit

4

Histogramm

1000

1500

2000

2500

3000

3500

Einkommen

Abbildung 3.10: Histogramm mit absoluten Häuﬁgkeiten Quelle: eigene Darstellung

3.6.2

Durchschnittliche Häuﬁgkeitsdichte

Grundlagen Aus den absoluten Häuﬁgkeiten jeder Klasse lassen sich die relativen Klassenhäuﬁgkeiten berechnen, indem erstere durch die Anzahl an Beobachtungen, n, dividiert werden. Teilt man nun die relative Klassenhäuﬁgkeit von Klasse j durch die zugehörige Klassenbreite, so erhält man die durchschnittliche Häuﬁgkeitsdichte. Dieses Verfahren wird gewählt, um einen besseren Eindruck von der Verteilung der Objekte in jeder Klasse zu erhalten. Wir wissen ja nur, daß sich eine bestimmte absolute Anzahl an Merkmalsausprägungen in einer bestimmten Klasse beﬁnden. Die Ausprägungen könnten alle denselben Wert haben, ein eher unwahrscheinlicher Fall, oder sie könnten innerhalb einer Klasse normalverteilt sein, eine Möglichkeit, die ebenfalls als eher abwegig zu betrachten ist. Ohne zusätzliche Information erscheint es eine akzeptable Annahme zu sein, daß alle Objekte innerhalb einer Klasse gleichverteilt sind. Aus diesem Grund wird die relative Häuﬁgkeit innerhalb einer Klasse durch die Klassenbreite dividiert. Werden an der Abszisse die Klassenbreiten und der Ordinate die jeweilige durchschnittliche Häuﬁgkeitsdichte abgetragen, so erhalten wir eine Abbildung, die als Histogramm mit durchschnittlicher Häuﬁgkeitsdichte oder einfach als Histogramm bekannt ist. Durch diese Darstellungsform wird kenntlich gemacht,

52

KAPITEL 3. DATENAUFBEREITUNG

wie viele Beobachtungen durchschnittlich in Klasse j zu liegen kommen, die genaue Verteilung innerhalb der einzelnen Klassen ist nicht ersichtlich. Beispiel Die Anweisung > hist(Daten2$Einkommen, plot=FALSE) führt zu folgender Anzeige. $breaks [1] 1000 1500 2000 2500 3000 3500 $counts [1] 2 4 3 3 1 $intensities [1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462 $density [1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462 $mids [1] 1250 1750 2250 2750 3250 $xname [1] "Daten2$Einkommen" $equidist [1] TRUE attr(,"class") [1] "histogram" In der zweiten Zeile sind die Klassengrenzen angegeben und in der vierten Zeile die jeweiligen absoluten Klassenhäuﬁgkeiten. Die Klassenbreiten sind über alle Klassen hinweg identisch gleich 500, sie sind äquidistant. Division der absoluten Klassenhäuﬁgkeiten durch die Anzahl an Beobachtungen in Höhe von n = 13 ergibt die relativen Klassenhäuﬁgkeiten, die hier nicht angegeben sind. Die durchschnittlichen Häuﬁgkeitsdichten sind nach der mit ’$density’ gekennzeichneten Zeile abgetragen. Zur Erzeugung des Histogramms mit durchschnittlicher Häuﬁgkeitsdichte ist nachfolgender Befehl nötig. > hist(Daten2$Einkommen, main = "Histogramm", xlab = "Einkommen", ylab = "durchschnittliche Häufigkeitsdichte", freq = FALSE) An der Ordinate ist die durchschnittliche Häuﬁgkeitsdichte der ersten Klasse mit 3 3e − 04 = 3 · 10−04 = 4 = 0, 0003 10

3.7. KONTINGENZTABELLE

53

0e+00

2e−04

4e−04

durchschnittliche Häufigkeitsdichte

6e−04

Histogramm

1000

1500

2000

2500

3000

3500

Einkommen

Abbildung 3.11: Histogramm mit durchschnittlicher Häuﬁgkeitsdichte Quelle: eigene Darstellung

angegeben, das heißt, die durchschnittliche relative Häuﬁgkeit, mit der in dieser Klasse Beobachtungen vorgefunden werden, beträgt (2/13)/500 = 2/(13∗500) = 0, 0003076923 0, 0003. Um zu der relativen Häuﬁgkeit an Beobachtungen in dieser Klasse zu gelangen, ist die durchschnittliche Häuﬁgkeitsdichte mit der zugehörigen Klassenbreite von fünfhundert (= 1500 − 1000) malzunehmen. Mit anderen Worten gibt die Fläche die relative Häuﬁgkeit der Besetzung einer Klasse mit Beobachtungen an.

3.7 3.7.1

Kontingenztabelle Gemeinsame Verteilung

Grundlagen ’Kleben’ an einer statistischen Einheit (beispielsweise einer Person) zwei Merkmale, so kann man die gemeinsame Verteilung beider Variablen in einer Kontingenztabelle (gelegentlich auch Korrelationstabelle genannt) darstellen. nĳ soll die absolute Häuﬁgkeit der Merkmalskombination angeben, mit der Merkmal x Ausprägung xi und Merkmal y Ausprägung yj aufweist. n12 kennzeichnet dann beispielsweise die absolute Häuﬁgkeit des Auftretens der Kombination x1 und y2 . Eine vier mal drei Kontingenztabelle ist in Tabelle 3.2 dargestellt.

KAPITEL 3. DATENAUFBEREITUNG

54

x1 x2 x3 x4

y1 n11 n21 n31 n41

y2 n12 n22 n32 n42

y3 n13 n23 n33 n43

Tabelle 3.2: Vier mal drei Kontingenztabelle Quelle: eigene Darstellung In der waagerechten Tabellenüberschrift wird die Variable y mit den Ausprägungen yj und in der senkrechten die Variable x mit Ausprägungungen xi abgetragen. Alternativ zu dieser Darstellungsform können statt der absoluten Häuﬁgkeiten die relativen Häuﬁgkeiten genutzt werden. Beispiel Mit den Rohdaten in Tabelle 2.3 kann anhand der Merkmale Geschlecht und Betriebsgröße eine Kontingenztabelle erzeugt werden. In der ersten Zeile stehen die Merkmalsausprägungen des Merkmals ’Betriebsgröße’ und in der ersten Spalte die des Geschlechtes. > table(Daten2$Geschlecht,Daten2$Betriebsgroesse) g k m m 3 2 2 w 0 2 4 Zur Berechnung der Anzahl an Beobachtungen, n, führt: > sum(table(Daten2$Geschlecht,Daten2$Betriebsgroesse)) [1] 13 Division der obigen Kontingenztabelle durch die Anzahl an Beobachtungen, n, ergibt eine Kontingenztabelle mit relativen Häuﬁgkeiten. > table (Daten2$Geschlecht, Daten2$Betriebsgroesse) /sum(table (Daten2$Geschlecht, Daten2$Betriebsgroesse)) g k m m 0.2307692 0.1538462 0.1538462 w 0.0000000 0.1538462 0.3076923 Die Summe aller relativen Häuﬁgkeiten muß selbstverständlich wieder 1 ergeben. > sum(table (Daten2$Geschlecht, Daten2$Betriebsgroesse) /sum(table (Daten2$Geschlecht, Daten2$Betriebsgroesse))) [1] 1

3.7. KONTINGENZTABELLE

x1 x2 x3 x4. Randverteilung Absolute Häuﬁgkeitsverteilung y

55

y1

y2

y3

n11 n21 n31 n41 n.1

n12 n22 n32 n42 n.2

n13 n23 n33 n43 n.3

Randverteilung Absolute Häuﬁgkeitsverteilung x n1. n2. n3. n4.

Tabelle 3.3: Randverteilung Quelle: eigene Darstellung

3.7.2

Randverteilungen

Grundlagen Summiert man in Tabelle 3.2 alle absoluten Häuﬁgkeiten der Zeile i auf, so erhält man die absolute Häuﬁgkeit dieser Merkmalsausprägung ni• . Der Punkt in ni• deutet an, daß bei gegebenem i über alle Ausprägungen des Merkmals y aufsummiert wird. Addition aller absoluten Häuﬁgkeiten der Spalte j ergibt die absolute Häuﬁgkeit n•j der Merkmalsausprägung j. Mit anderen Worten steht in der letzten Spalte die absolute Häuﬁgkeitsverteilung des Merkmals x und in der untersten Zeile jene des Merkmals y. Sind in der Kontingenztabelle relative Häuﬁgkeiten abgetragen und errechnet man die Randverteilungen, so erhält man die relativen Häuﬁgkeitsverteilungen des Merkmals x bzw. y. In Kontingenztabelle 3.3 sind die absoluten Häuﬁgkeiten abgetragen. Teilt man sie durch n, die Anzahl aller Merkmalsausprägungen, so erhält man die relative gemeinsame Häuﬁgkeitsverteilung, bzw. die relativen Randverteilungen.

Beispiel Durch folgende Zuordnung kann die Kontingenztabelle über ’KT’ angesprochen werden. > KT <- table(Daten2$Geschlecht,Daten2$Betriebsgroesse) > KT g k m m 3 2 2 w 0 2 4 Mit > KT[1,] g k m 3 2 2

KAPITEL 3. DATENAUFBEREITUNG

56

wird die erste Zeile angesprochen und der Befehl > KT[2,] g k m 0 2 4 spricht Zeile zwei an. Im Gegensatz zu der oben angeführten mathematischen Notation fehlt bei ’KT[2,]’ nach dem Komma der Punkt, doch die Interpretation ist ansonsten gleich: lese alle Daten der Zeile zwei aus. Die Anwendung der Anweisung > sum(KT[1,]) [1] 7 errechnet die absolute Häuﬁgkeit n1• der Merkmalsausprägung x1 und > sum(KT[2,]) [1] 6 ergibt die absolute Häuﬁgkeit des anderen Merkmals. Mit dem folgenden Befehl wird die erste Spalte angesprochen und die Berechnung der absoluten Häuﬁgkeiten der Variable ’Betriebsgröße’ erfolgt analog. > KT[,1] m w 3 0

3.7.3

Bedingte Verteilung und statistische Unabhängigkeit

Grundlagen In einer Wissenschaft ist es Brauch, Sachverhalte mit Worten zu bezeichnen, die dem Leser das Verstehen erleichtern. Kommt man allein von der Bezeichnung ’bedingte Verteilung’ her, so handelt es sich um eine Verteilung, die einer Bedingung unterworfen ist. Ein anderes Wort für Bedingung ist Voraussetzung. Wir können dies auch folgendermaßen umschreiben: ’unter der Bedingung, daß irgendein Sachverhalt eingetreten ist, soll die zugehörige Verteilung angegeben werden’. Die bedingte absolute Häuﬁgkeitsverteilung von x unter der Bedingung y1 bedeutet dann, daß lediglich die absoluten Häuﬁgkeiten des Merkmals x betrachtet werden, die bei Ausprägung des Merkmals y1 beobachtet wurden. Dies läßt sich in Tabelle 3.3 aus der ersten Spalte ablesen. Dividiert man die Absolutwerte durch n.1 , so ergibt sich die bedingte relative Häuﬁgkeitsverteilung: n11 /n.1 , n21 /n.1 , n31 /n.1 , n41 /n.1 . Hält man also bei zweidimensionalen Variablen x und y eine konstant (z.B. yj ) und betrachtet die absolute Häuﬁgkeiten der anderen Variablen x bei gegebener Ausprägung yj , so heißt diese bedingte absolute Häuﬁgkeitsverteilung von x unter yj .

3.8. LORENZ-KURVE

57

Merkmalsausprägung absolute Häuﬁgkeit

x1 n1

x2 n2

x3 n3

x4 n4

Tabelle 3.4: 1. Schritt zur Erstellung einer Lorenz-Kurve Quelle: eigene Darstellung Falls sich die gemeinsame Verteilung der Variablen x und y durch Multiplikation der Randverteilungen, also hi,j = hi. ∗ h.j für alle i und j, ergibt, so sagen wir, die Variablen x und y sind statistisch unabhängig. In diesem Fall sind alle relativen bedingten Häuﬁgkeiten von x wie auch y identisch und exakt gleich den jeweiligen Randverteilungen. Beispiel Ausgehend von folgender Kontingenztabelle

m w

g 3 0

k 2 2

m 2 4

ergibt sich als bedingte absolute Häuﬁgkeitsverteilung des Geschlechts bei großen Firmen folgende Verteilung: 3 männliche und keine weiblichen Beobachtungen.

3.8 3.8.1

Lorenz-Kurve Grundlagen

Zur Konstruktion einer Lorenz-Kurve ist ein kardinales Merkmal nötig, das folgende Bedingungen erfüllt: 1. (∀i ∈ {1, 2, 3, ..., i, ..., k})(xi 0) und 2. 0 x1 < x2 < · · · < xk . Mit anderen Worten müssen die Merkmalsausprägungen größer oder gleich 0 und der Größe nach angeordnet sein. Der Index ’k’ ist kleiner oder gleich der Anzahl an Beobachtungen n. Denn falls alle Ausprägungen voneinander verschieden sind, so ist k = n, andernfalls gibt es mindestens zwei identische Ausprägungen. Im ersten Schritt wird die absolute Häuﬁgkeitsverteilung erstellt. Zwecks Vereinfachung der Darstellung wird davon ausgegangen, daß k = 4. Im zweiten Schritt wird die gesamte Merkmalsumme errechnet: gesamte Merkmalssumme = S :=

k i=1

ni ∗ xi .

(3.3)

KAPITEL 3. DATENAUFBEREITUNG

58 Kumulierter Anteil an der Merkmalssumme

(n1 x1 )/S

(n1 x1 n2 x2 )/S

+

Kumulierte Häuﬁgkeit

n1 /n

(n1 + n2 )/n

(n1 x1 n2 x2 n3 x3 )/S

+ +

(n1 + n2 + n3 )/n

(n1 x1 n2 x2 n3 x3 n4 x4 )/S

+ + +

(n1 + n2 + n3 + n4 )/n

Tabelle 3.5: 2. Schritt zur Erstellung einer Lorenz-Kurve Quelle: eigene Darstellung Weil die Bildung von Summen ausschließlich bei kardinalen Merkmalen sinnvoll ist, wurde diese Annahme zu Anfang getroﬀen. Anschließend wird die absolute Häuﬁgkeitsverteilung wie in Tabelle 3.5 verändert. Der erste Eintrag dieser Tabelle ist folgendermaßen zu interpretieren. Auf n1 /n der Population entfällt (n1 x1 )/S des interessierenden Merkmals. Aufgrund dieser Tabelle läßt sich die Lorenz-Kurve erstellen, indem auf der Abszisse die kumulierte Häuﬁgkeit und an der Ordinate der kumulierte Anteil der Merkmalssumme abgetragen wird. Deﬁnitionsmenge und Wertebereich der Lorenz-Kurve sind deshalb identisch gleich dem Intervall [0, 1]. Die Kurve besteht aus dem Streckenzug, der sich durch Verbindung der Punkte (0, 0) und den Werten der Tabelle 3.5 ergibt. Liegt eine Gleichverteilung vor, so ist die Lorenz-Kurve identisch mit der 45°Linie. Je größer die Ungleichheit ist, desto mehr hängt die Kurve nach unten durch. Existiert eine Konzentration auf eine Person oder ein Objekt, so ist die Fläche zwischen der 45°-Linie und der Lorenz-Kurve maximal.

3.8.2

Beispiel

Lade das Paket ’ineq’, um die nötigen Befehle verfügbar zu machen. Die Anweisung > a <- table(Daten2$Einkommen) > a 1000 1500 1900 2000 2111 2500 2700 2900 3300 1 1 2 2 2 1 1 2 1 führt zur Erstellung der absoluten Häuﬁgkeitsverteilung. Der Befehl ’Lc’ dient zur Erzeugung der Lorenz-Kurve, wobei als erstes Argument die Merkmalsausprägungen als Spaltenvektor, c(1000, 1500, 1900, 2000, 2111, 2500, 2700, 2900, 3300), und dann der Spaltenvektor mit den zugehörigen absoluten Häuﬁgkeiten, c( 1, 1, 2, 2, 2, 1, 1, 2, 1), angegeben werden muß. > Lorenz <- Lc(c(1000, 1500, 1900, 2000, 2111, 2500, 2700, 2900, 3300), c( 1,1,2,2,2,1,1,2,1), plot=FALSE)

3.8. LORENZ-KURVE

59

Durch Angabe von ’plot=FALSE’ werden die errechneten Werte zur Konstruktion der Kurve angezeigt. Wird diese durch ’plot=TRUE’ ersetzt, so öﬀnet sich ein neues Fenster mit der Lorenz-Kurve. Allerdings lassen sich die Achsen dann nicht beschriften. Über den ’plot’-Befehl ist beides möglich (siehe Abbildung 3.12). > Lorenz $p [1] 0.00000000 0.07692308 0.15384615 0.30769231 0.46153846 0.61538462 [7] 0.69230769 0.76923077 0.92307692 1.00000000 $L [1] 0.00000000 0.03469572 0.08673930 0.21858303 0.35736590 0.50385122 [7] 0.59059052 0.68426896 0.88550413 1.00000000 $L.general [1] 0.0000 111.1111 277.7778 1891.3333 [8] 2191.3333 2835.7778 3202.4444

700.0000 1144.4444 1613.5556

attr(,"class") [1] "Lc" Die Korrektheit der Berechnungen können durch folgende Eingaben überprüft werden. > Summe <- sum(Daten2$Einkommen) > Summe [1] 28822 Die erste Merkmalsausprägung ist 1000, Division durch die gesamte Merkmalssumme ergibt: > 1000/Summe [1] 0.03469572 Dieselbe Rechnung analog für die ersten beiden Merkmalsausprägungen durchgeführt macht: > 2500/Summe [1] 0.0867393 Der Anteil der ersten Merkmalsausprägungen an allen Merkmalen ist > 1/13 [1] 0.07692308 und der der ersten beiden Merkmalsausprägungen

KAPITEL 3. DATENAUFBEREITUNG

60

Anteil des Einkommens am Einkommen aller

Lorenzkurve 1.0

0.8

0.6

0.4

0.2

0.0 0.0

0.2

0.4

0.6

0.8

1.0

Anteil der Personen

Abbildung 3.12: Lorenzkurve Quelle: eigene Darstellung

> 2/13 [1] 0.1538462 Die restlichen Berechnungen sollten Sie zur Übung analog durchführen.

3.8.3

Gini-Koeﬃzienten

Einfacher Gini-Koeﬃzient Die Lorenz-Kurve vermittelt einen visuellen Eindruck von der Konzentration der Merkmalsausprägungen in einer Population. Um die Konzentrationen verschiedener Populationen miteinander vergleichen zu können, wäre eine Maßzahl nützlich, die nur Werte innerhalb eines vorher bestimmten Bereiches annehmen kann, also normiert ist. Der Gini-Koeﬃzient ist eine solche Größe, mit der Konzentrationen in verschiedenen Grundgesamtheiten miteinander verglichen werden können. Er ist deﬁniert als Gini :=

Konzentrationsﬂäche Fläche zwischen Diagonale und Abszisse =

Konzentrationsﬂäche 1 2

.

(3.4)

3.8. LORENZ-KURVE

61

Die Konzentrationsﬂäche ist gleich der Fläche zwischen Diagonale und LorenzKurve. Ist die Lorenz-Kurve identisch mit der Diagonalen, so ist der Gini gleich Null: es gibt keine Konzentration. Beispiel 1 Die Berechnung des Gini mit ’Daten2’ und Merkmal ’Einkommen’ kann mit den Rohdaten erfolgen, eine Sortierung nach der Größe ist in nicht nötig. > Gini(Daten2$Einkommen) [1] 0.1511185 > Gini(sort(Daten2$Einkommen)) [1] 0.1511185 Normierter Gini Die Situation bei Konzentration aller Merkmalsausprägungen auf eine statistische Einheit wird durch folgendes Beispiel illustriert. Es gibt insgesamt 5 Personen, allerdings verdienen 4 gar nichts und eine 3300 Euro. Damit erhält man als Deﬁnitionsmenge und Wertebereich: > Lorenz <- Lc(c(0,0,0,0, 3300), c(1,1,1,1,1), plot=FALSE) > Lorenz $p [1] 0.0 0.2 0.4 0.6 0.8 1.0 $L [1] 0 0 0 0 0 1 $L.general [1] 0 0

0

0

0 660

attr(,"class") Graphik 3.13 zeigt, daß bei Konzentration auf ein Merkmal, nicht die gesamte Fläche unterhalb der Diagonalen Seitenlänge ∗ Seitenlänge = 1/2, 2 sondern nur aus

oder allgemein

zusammensetzt.

1 1 − 2 (2 ∗ 5) 1 n−1 1 − = 2 (2 ∗ n) 2∗n

KAPITEL 3. DATENAUFBEREITUNG

62

Anteil des Einkommens am Einkommen aller

Lorenzkurve 1.0

0.8

0.6

0.4

0.2

0.0 0.0

0.2

0.4

0.6

0.8

1.0

Anteil der Personen

Abbildung 3.13: Lorenzkurve: Konzentration auf ein Merkmal Quelle: eigene Darstellung

Man beachte dabei, daß der Flächeninhalt des kleinen Dreiecks sich errechnet über (Seitenlänge mal Seitenlänge)/2, also 1 1 ∗ (1/5) = . 2 2∗5 In folgender Formel wird dieser Sachverhalt berücksichtigt: Gininormiert =

Konzentrationsﬂäche 1 2

·

1 n−1 n

= Gini ·

n . n−1

Der so berechnete Gini-Koeﬃzient ist normiert auf den Bereich [0; 1]. Beispiel 2 Als Gini erhalten wir > Gini(c(0,0,0,0, 3300)) [1] 0.8 und hieraus errechnet sich mit n = 5 der Gininormiert über > 0.8*5/4 [1] 1

(3.5)

3.9. ABSCHLIEENDE BEMERKUNGEN

3.9

63

Abschließende Bemerkungen

Es gibt eine Vielzahl an Statistiklehrbüchern, in denen die deskriptive Statistik dargestellt wird. Im wesentlichen lassen sich drei Arten unterscheiden. Zum einen gibt es Bücher, die sich ausschließlich mit der Statistik beschäftigen. Dann gibt es solche, die bereits Vorkenntnisse in Statistik voraussetzen und sich auf die praktische Umsetzung mit Statistikprogrammen konzentrieren. Schließlich sind jene zu erwähnen, die Statistik und Nutzung von Statistiksoftware in einem Buch vereinen. Zu der ersten Kategorie zählt das Buch von Bamberg und Baur (1984). Es ist seit Jahren ein Klassiker, aktualisierte Versionen liegen vor. Schira (2005), ein neueres Werk, gibt einen eher theoretischen Einstieg, ohne zu mathematisch daherzukommen. Die Beispiele und Aufgaben dieser Bücher können gut zu Übungszwecken herangezogen werden. Dolic (2004) ist, wie andere Literatur mit Bezug zu im Titel, im ersten Teil fokussiert auf das Programm. Dann ändert sich der Aufbau und es werden Teilbereiche der Statistik dargestellt, die mit bearbeitet werden können. Dennoch können ihm nützliche Informationen entnommen werden. Zwerenz (2006) verwendet zur Auswertung Excel und SPSS, beides kommerzielle Standardsoftware, ein Buch, das den Umstieg auf SPSS erleichtert.

3.10

Kontrollfragen

1. Wodurch unterscheiden sich deskriptive und schließende Statistik? 2. Wovon hängt es ab, ob die deskriptive oder schließend Statistik zu Anwendung kommt? 3. Bei welchen Daten nutzt man die empirische Varianz? 4. Wie errechnet sich die empirische Varianz? (a) bei Rohdaten, (b) bei Vorliegen einer absoluten Häuﬁgkeitsverteilung und wie (c) bei einer relativen Häuﬁgkeitsverteilung? 5. Wie ist die korrigierte Stichprobenvarianz deﬁniert? 6. Wie können Sie die empirische Varianz aus der korrigierten Stichprobenvarianz berechnen? 7. Welche Formel nutzen Sie zur Berechnung des arithmetischen Mittels, wenn die Daten in Form einer (a) absoluten Häuﬁgkeitsverteilung, (b) einer relativen Häuﬁgkeitsverteilung vorliegen? 8. Was versteht man unter einem Quantil?

KAPITEL 3. DATENAUFBEREITUNG

64

9. Gegeben sei folgende Auswertung: 0% 1000

25% 1900

50% 2111

75% 2700

100% 3300

Geben Sie den Median sowie das untere und obere Quartil an. 10. Wie ist eine Verteilungsfunktion deﬁniert? 11. Welche Eigenschaften hat eine Verteilungsfunktion? 12. Was versteht man unter einer Kontingenztabelle? 13. Geben Sie beispielhaft eine 2 × 2-Kontingenztabelle an und interpretieren Sie sie. 14. Wie erhalten Sie aus einer Kontingenztabelle die zugehörigen Randverteilungen? 15. Interpretieren Sie einen Punkt auf einer Lorenz-Kurve. 16. Was versteht man unter dem Gini- und was unter dem normierten GiniKoeﬃzienten?

3.11

Aufgaben

1. Zeige, daß die Summe aller relativen Häuﬁgkeiten immer gleich 1 sein muß. 2. Geben Sie Beispiele an, bei denen eine Vollerhebung relevant ist, und begründen Sie Ihre Entscheidung. 20 3. Was ist der Unterschied zwischen der empirischen Varianz und der Stichprobenvarianz? 21 4. Welche Daten müssen bei Anwendung der Formel n

s2 = s2X :=

1 ni (xi − x ¯ )2 . n i=1

überhaupt verwendet werden?22 5. (a) Was sind nominal skalierte Variablen? (b) Geben Sie zwei Beispiele hierfür an.

23

24

(c) Was sind ordinal skalierte Variablen? (d) Können ordinal skalierte Variablen nominal interpretiert werden?25 (e) Ist es möglich, bei nominal skalierten Variablen eine relative Häuﬁgkeitsverteilung anzugeben?26

3.11. AUFGABEN

65

(f) Können bei ordinal skalierten Variablen absolute Häuﬁgkeitsverteilungen angegeben werden? 27 (g) Kann man aus einer empirischen Verteilungsfunktion die relative Häuﬁgkeitsverteilung herleiten? 28 (h) Kann auf der Basis ausschließlich nominal skalierter Merkmale eine Kontingenztabelle erstellt werden?29 (i) Zwei kardinalskalierte Merkmale mit jeweils mehr als eintausend verschiedenen Ausprägungen liegen vor. Wie können Sie die Daten in einer Kontingenztabelle aufbereiten?30 (j) Können aus einer Kontingenztabelle die Rohdaten hergeleitet werden?31 (k) In dem Beispiel auf Seite 57 ist eine Kontingenztabelle angegeben. Formen Sie die Daten so um, daß sie in demselben Format wie Rohdaten vorliegen.32 (l) Berechnen Sie mit den Daten aus der Kontingenztabelle auf Seite 57 die arithmetischen Mittel der beiden Variablen x und y und überprüfen Sie Ihr Ergebnis mit mit Hilfe Ihres Ergebnisse von Aufgabe 5k.33 (m) Kann aus einer empirischen Verteilungsfunktion die absolute Häuﬁgkeitsverteilung hergeleitet werden? 34 6. Zwanzig Betriebe sind über eine Clusteranalyse in 3 Gruppen, groß, mittel und klein eingeteilt worden. Ausprägung Anzahl

1 4

2 7

3 9

“1” bedeutet groß, “2” mittel und “3” klein. (a) Bestimmen Sie das arithmetische Mittel und interpretieren Sie das Ergebnis.35 (b) Können Sie die zugehörigen Rohdaten angeben? Wenn ja, so leiten Sie sie her.36 7. In einem Warenhaus wurden von der ersten Person 20 Taschentücher, der zweiten 20, der dritten 30 und der vierten 40 Taschentücher gekauft.37 (a) Berechnen Sie mit

die absolute Häuﬁgkeitsverteilung,

(b) die relative Häuﬁgkeitsverteilung, (c) die 25%-, 50%- und 75%-Quantile und (d) stellen Sie die Verteilungsfunktion graphisch dar. (e) Erläutern Sie, warum 20 ein 25 Prozent Quantil, warum 25 der Median und 32,5 das obere Quartil ist.

KAPITEL 3. DATENAUFBEREITUNG

66

8. Verwenden Sie Daten2 (siehe Tabelle 2.3). (a) Bilden Sie mit den Merkmalen Einkommen und Ausbildungsjahre eine Kontingenztabelle. (b) Berechnen Sie die zugehörigen Randverteilungen. (c) Bestimmen Sie das arithmetische Mittel des Einkommens und der Ausbildungsjahre. (d) Bestimmen Sie die empirische Varianz von Einkommen und Ausbildungsjahren. 9. (a) Ergänzen Sie folgende Tabelle und begründen Sie Ihr Ergebnis kurz.38

Merkmalsausprägungen Relative Häuﬁgkeit

1 0,1

2

3 0,3

4 0,3

(b) Bestimmen Sie das arithmetische Mittel. (c) Bestimmen Sie die empirische Varianz. (d) Interpretieren Sie die empirische Varianz. (e) Geben Sie die Verteilungsfunktion an. (f) Stellen Sie die Verteilungsfunktion graphisch dar. 10. Gegeben sind folgende Rohdaten: Statistische Einheit 1 2 3 4 5 6 7 8 9 10

Einkommensklasse 1 2 1 1 1 2 1 2 1 1

Geschlecht m w w m m w m m m w

(a) Welche Verfahren kennen Sie, mit Hilfe derer diese Daten aufbereitet werden könnten? (b) Welche würden Sie wählen? Begründen Sie Ihre Entscheidung.39 (c) Erstellen Sie, falls möglich, die Lorenzkurve.40

3.A. NÜTZLICHES ZU MAZAHLEN*

3.A

67

Nützliches zu Maßzahlen*

Die Berechnung der empirischen Varianz kann auch über folgende Formel erfolgen: (3.6) ¯)2 = x2 − x ¯2 . s2 (x) = n1 (xt − x Denn

s2 (x) =

1 n

(xt − x¯)2 =

1 n

2 ¯+x ¯2 ) (xt − 2xt x

2 = n1 ( x2t − 2¯ x xt + x ¯ )= =

1 2 n (nx

1 (nx2t n

− 2n¯ x2 + n¯ x2 )

− n¯ x2 ) = x2 − x ¯2 .

Sie erweist sich bei algebraischen Umformungen gelegentlich als nützlich.

Kapitel 4

Statistisches Testen 4.1

Einleitung

Angenommen, es liege eine Vollerhebung aller Kunden des vergangenen Jahres vor und es ist bekannt, wie viele Männer und Frauen darunter sind. Der Anteilswert der Frauen ist dann Anteil Frauen =

Anzahl Frauen Anteil an Personen in Gesamtpopulation

oder allgemein wenn es zwei Merkmalsausprägungen, 1 und 2, gibt: h :=

Anzahl Merkmalsausprägung 1 . Anzahl Merkmalsausprägung 1 + Anzahl Merkmalsausprägung 2

Soll aufgrund einer einfachen Stichprobe der Anteilswert in der Grundgesamtheit geschätzt werden, so kann auf zweierlei Weise vorgegangen werden. Einerseits könnte eine Maßzahl berechnet werden, deren Wert man als Schätzer für den unbekannten Anteilswert in der Grundgesamtheit hernimmt. In diesem Fall spricht man von einer Punktschätzung. Hierbei wird der Anteilswert so berechnet, als ob es sich um eine Vollerhebung handeln würde, d.h. obige Formel zur Berechnung von h kommt hier ebenfalls zum Einsatz. Um Punktschätzfunktionen von jenen der empirischen Statistik zu unterscheiden, kennzeichnet man ˆ . Folglich gilt im Falle des Anteilswertes: h ˆ = h , da der sie durch ein Dach: h wahre, aber unbekannte Anteilswert in der Grundgesamtheit mit derselben Formel geschätzt wird, mit der er auch bei Vorliegen einer Totalerhebung berechnet würde. Da bei Stichproben der Zufall eine Rolle spielt, könnte dieser dem Statistiker andererseits einen “Streich” spielen. Die mit den Daten der Stichprobe errechnete Maßzahl könnte ziemlich weit von dem Anteilswert in der Grundgesamtheit abweichen. Aus diesem Grund besteht ein Interesse daran zu überprüfen, ob der Punktschätzer (Schätzer oder auch Schätzwert genannt) für den Anteilswert aufgrund der einfachen Stichprobe akzeptabel ist oder nicht. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_4, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

KAPITEL 4. STATISTISCHES TESTEN

70

Dabei sollte es sich um ein Verfahren handeln, bei dem man bei Verwendung derselben Daten personenunabhängig zu demselben Ergebnis kommt. Denn dies ist ein wichtiges Kriterium zur Beurteilung wissenschaftlichen Arbeitens und sollte eingehalten werden. Um eine solche Akzeptanzprüfung, wir sagen einen statistischen Test, durchführen zu können, benötigt man die relevante Stichprobenverteilung. Im nächsten Kapitel zeigt sich, daß die Binomialverteilung den beschriebenen Sachverhalt korrekt widerspiegelt. Anschließend werden in Kapitel 4.3 die Grundlagen des statistischen Testens beschrieben. Es werden zweiseitige und einseitige Tests beschrieben, wie man entscheidet, welches Testverfahren anzuwenden ist und wie der Test durchzuführen ist. Die Bestimmung der Hypothesen sollte nicht dem Zufall überlassen bleiben. Aus diesem Grund wird der Begriﬀ des ’Fehlers 1. Art’ vorgestellt und seine Bedeutung bei der Aufstellung von Hypothesen dargestellt.

4.2 4.2.1

Binomialverteilung Grundlagen

Liegt eine einfache Stichprobe vor, so könnte die Fragestellung lauten: ist der Anteil der Frauen 50 Prozent? Um dies zu beantworten, kann mit Hilfe der Daten aus der einfachen Stichprobe eine Punktschätzung des Anteilswertes erfolgen. Angenommen, es ergibt sich eine Punktschätzung in Höhe von 55 Prozent, so wissen wir nicht, ob uns der Zufall einen Streich gespielt hat oder nicht. Um seinen Einﬂuß abschätzen zu können, ist zu überlegen, wie groß die Wahrscheinlichkeit ist, daß eine weiße Kugel zufällig mit Zurücklegen aus einer Urne mit weißen und schwarzen Kugeln gezogen wird. Denn dieses Urnenbeispiel entspricht exakt einer einfachen Stichprobe. Angenommen, der Anteil der weißen Kugeln sei gleich p. Die Wahrscheinlichkeit, daß bei einer Stichprobe vom Umfang n = 1 eine weiße Kugel gezogen wird, ist dann gleich p und die Wahrscheinlichkeit, daß bei einer Stichprobe vom Umfang n = 2 zwei weiße Kugeln gezogen werden gleich p2 . Denn die Wahrscheinlichkeit, daß eine weiße Kugel gezogen wird, ändert sich nicht, da nach jedem Ziehen die Kugel wieder zurück in die Urne gelegt wird. Allgemein können wir sagen: die Wahrscheinlichkeit, daß bei einer Stichprobe vom Umfang n nur weiße Kugel gezogen werden, ist gleich pn . Analog kann bei der Berechnung der Wahrscheinlichkeit für das Auftreten schwarzer Kugeln argumentiert werden. Die Wahrscheinlichkeit, daß in einer Stichprobe ausschließlich schwarze Kugeln vorhanden sind, ist gleich (1 − p)n . Damit ergibt sich die Wahrscheinlichkeit, daß die ersten k (k < n) Kugeln weiß und die restlichen (n − k) Kugeln schwarz sind, zu pk · (1 − p)(n−k) . Freilich wird hierdurch nur eine Möglichkeit des Ziehens mit Zurücklegen beschrieben. Es könnte ja auch sein, daß beispielsweise abwechselnd eine weiße und eine schwarze Kugel gezogen wird. Jede Anordnung dieser Kugeln nennt man Permutation. Um die Wahrscheinlichkeit auszurechnen, mit der k weiße

4.2. BINOMIALVERTEILUNG

71

Kugeln in einer Stichprobe vom Umfang n sind, muß die Anzahl aller Permutationen mit k weißen und (n − k) schwarzen Kugeln berechnet werden und mit der Wahrscheinlichkeit des Auftretens einer Permutation (= pk · (1 − p)(n−k) ) multipliziert werden. Kommen wir zur Berechnung der Anzahl aller relevanten Permutationen. Angenommen, man hat n verschiedene Kugeln, und man fragt danach, auf wieviel verschiedene Arten man diese anordnen kann, so erhält man n Permutation

= n · (n − 1) · . . . · 2 · 1.

Denn, um die erste Stelle zu besetzen, hat man n verschiedene Kugeln, um die zweite Stelle zu besetzen verbleiben (n−1) usw. Hat man k verschiedene Kugeln, so gibt es k · (k − 1) · ... · 2 · 1 Permutationen. Sind von den anfänglichen n verschiedenen Kugeln jedoch k Kugeln weiß, so können von den n·(n−1)·...2·1 Permutationen allerdings diejenigen der k weißen Kugeln (deren Anzahl ist k · (k − 1) · ... · 2 · 1) nicht unterschieden werden. Die Anzahl der Permutationen, die tatsächliche unterscheidbar sind, multipliziert mit der Anzahl an Permutationen der weißen Kugeln ist gleich der Anzahl an Permutationen von n unterschiedlichen Kugeln. Anders gewendet berechnet sich die Anzahl der voneinander unterscheidbaren Permutationen über n Permutation k

=

n! n · (n − 1) · . . . · 2 · 1 = , k · (k − 1) · . . . · 2 · 1 k!

wobei ’!’ das Fakultätszeichen ist. Wenn die restlichen n−k Kugeln schwarz, also ebenfalls nicht unterscheidbar sind, so ist die Anzahl an unterscheidbaren Permutationen multipliziert mit den k! nicht unterscheidbaren Permutationen weißen Kugeln und dies nochmal multipliziert mit den (n − k)! nicht unterscheidbaren Permutationen der schwarzen Kugeln gleich n!. Stellt man diese Formel um, so ergibt sich: n Permutation k,(n−k)

=

n · (n − 1) · . . . · 2 · 1 k · (k − 1) · . . . · 2 · 1 · (n − k) · (n − k − 1) . . . 2 · 1 =

n! k! · (n − k)!

Wird die Wahrscheinlichkeit des Auftretens von k weißen und (n−k) schwarzen Kugeln einer einzigen Permutation mit der Anzahl aller möglichen Permutationen multipliziert, so erhält man die Wahrscheinlichkeit, mit der in einer einfachen Stichprobe vom Umfang n genau k weiße und (n − k) schwarze Kugeln enthalten sind: n! n · pk · (1 − p)(n−k) = Q(k, n, p) = · pk · (1 − p)(n−k) . (4.1) k k! · (n − k)! Diese Funktion heißt Binomialverteilung und n! n := k k! · (n − k)!

(4.2)

KAPITEL 4. STATISTISCHES TESTEN

72

ist der Binomialkoeﬃzient. Bei der Datenanalyse ist es folglich wichtig zu wissen, auf welche Art und Weise sie erhoben worden sind. Liegt eine Voll- oder eine Teilerhebung vor? Bei einer Teilerhebung ist zu unterscheiden zwischen Zufallsauswahl (Stichprobe) und sonstigen Verfahren. Diese Diﬀerenzierungen sind von Bedeutung, da hiervon abhängt, welche Methoden angewandt werden können. Handelt es sich bei einer Teilerhebung um keine Stichprobe, so ist die Entscheidung darüber, welche Methode angewandt werden sollte, besonders schwierig: mitunter ist es besser, die Daten überhaupt nicht zu verwenden. Handelt es sich um eine Stichprobe, so ist es wichtig, zwischen einer einfachen Stichprobe (zufälliges Ziehen mit Zurücklegen) und Stichproben ohne Zurücklegen zu unterscheiden. Bei einer Stichprobe mit Zurücklegen ändert sich die zugrunde liegende Wahrscheinlichkeitsverteilung nicht. Wird bei zufälligem Ziehen die gezogene Kugel nicht zurückgelegt, so vermindert sich die Anzahl an Kugeln in der Grundgesamt bei jeder Ziehung: die Verteilung der Grundgesamtheit ändert sich und dies hat Auswirkungen auf die Verteilung in der Stichprobe. Ist umgekehrt klar, wie die Daten analysiert werden sollen, hat dies Auswirkungen auf die Datenerhebung. Soll beispielsweise der nachfolgend beschriebene Binomialtest angewendet werden, so sollte eine einfache Stichprobe gezogen werden. Aus diesem Grund sollte der Erhebungsplan nicht nur die interessierende Fragestellung sondern auch die Auswertungsmethoden umfassen, die zum Einsatz kommen sollen.

4.2.2

Beispiel

Die wichtigsten Verteilungen sind in kürzungen verwendet:

implementiert. Es werden folgende Ab-

d: density - Dichtefunktion, p: (cumulative) probability - Verteilungsfunktion, q: quantile - Quantil, r: random - Zufallsgenerator. Anmerkung: Für Leser mit Kenntnissen in Wahrscheinlichkeitstheorie sei darauf hingewiesen, daß ganz gleich, ob es sich um stetige oder diskrete Zufallsvariablen handelt, die Dichtefunktion bzw. Wahrscheinlichkeitsverteilung mit ’d’ (für density) angesprochen wird. Um die Wahrscheinlichkeit zu berechnen, mit der bei Vorliegen einer Binomialverteilung k weiße Kugeln in einer Stichprobe vom Umfang n sind wird hinter ’d’ das Kürzel gesetzt, mit dem in die Verteilung angesprochen wird. Die Binomialverteilung hat das Kürzel ’binom’. Mit dem Befehl ’dbinom’ kann die Wahrscheinlichkeit und mit ’qbinom’ ein Quantil berechnet werden. Durch

4.3. TEST

73

> c(-20:20) [1] -20 -19 -18 -17 -16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 [31] 10 11 12 13 14 15 16 17 18 19 20 wird ein Spaltenvektor erzeugt, beginnend bei -20 und aufsteigend mit Schrittweite 1 bis 20. > dbinom(k, n, p, log = FALSE) berechnet den Wert der Binomialverteilung an der Stelle (k, n, p), also die Wahrscheinlichkeit, daß es k weiße Kugeln gibt in einer Stichprobe vom Umfang n bei einer Eintrittswahrscheinlichkeit einer weißen Kugel in der Grundgesamtheit von p. k kann nur positiv und es können nur ganze Zahlen sein im Intervall [0, n]. Die Anweisung > Binomialverteilung <- dbinom(c(-20:20), 12, 0.5, log = FALSE) berechnet den Wert der Binomialverteilung an den Stellen −20, −19, . . . , −1, 0, 1, . . . , 19, 20, bei einem Stichprobenumfang von 12 und einer Auftrittswahrscheinlichkeit einer weißen Kugel in der Grundgesamtheit von 0,5. ’log = FALSE’ bedeutet, daß auf die Wahrscheinlichkeiten nicht die Logarithmusfunktion angewendet wird. Die errechneten Werte werden über den Pfeil ’<-’ dem Ausdruck ’Binomialverteilung’, den der Nutzer frei wählen kann, zugeordnet. Ein graphische Veranschaulichung ergibt sich über > plot(c(-20:20),Binomialverteilung) und man erkennt in Graphik 4.1, daß die Funktion nur im Bereich [0 ,12] von Null verschiedene Werte aufweist.

4.3

Test

4.3.1

Zweiseitige Fragestellung

Die Binomialverteilung Q(k, n, p) gibt bei bekannter Eintrittswahrscheinlichkeit, p, für eine weiße Kugel in der Grundgesamtheit und gegebenem Stichprobenumfang n die Wahrscheinlichkeit an, daß genau k weiße (und n−k schwarze) Kugeln in einer einfachen Stichprobe sind. Will man beispielsweise prüfen, ob der Anteil der Frauen, p, in der Grundgesamtheit gleich 0,20 ist, so schreibt man: H0 : p = 0, 20 und bezeichnet dies als Nullhypothese. Als Alternative hierzu verbleibt

KAPITEL 4. STATISTISCHES TESTEN

0.15 0.10 0.05 0.00

Binomialverteilung

0.20

74

−20

−10

0

10

20

c(−20:20)

Abbildung 4.1: Binomialverteilung Quelle: eigene Darstellung H1 : p = 0, 20. Allgemein ausgedrückt schreibt man für die Nullhypothese H0 : p = p0 und H1 : p = p0 für die Gegenhypothese. Sofern die einfache Stichprobe bereits vorliegt, spielt der Zufall keine Rolle und wir kennen die Anzahl der weißen Kugeln. Liegt der Anteil der beobachteten ˆ ) weit weg von p0 , entweder weit weißen Kugeln dividiert durch alle Kugeln (= h oberhalb oder unterhalb von p0 , wo würde man der Nullhypothese mißtrauen und verwerfen, also die Gegenhypothese (Alternativhypothese) annehmen. k = ˆ · n nennen wir Testgröße. h Was jedoch heißt ’weit weg’? Die Entscheidung soll personenunabhängig sein und deshalb wäre ein Kriterium sinnvoll, mit dessen Hilfe jede beliebige Person entscheiden kann, ob die Nullhypothese abgelehnt werden sollte oder nicht. Falls die Nullhypothese stimmt, so kann man mit der Binomialverteilung Q(k, n, p0 ) die Wahrscheinlichkeit ausrechnen, mit der in der Stichprobe vom Umfang n genau k weiße Kugeln sind. Je weiter nach oben oder unten die Abweichung ist, desto geringer ist die Wahrscheinlichkeit des Eintretens (siehe Abbildung 4.1).

4.3. TEST

75

Würde die Anzahl an weißen Kugeln bei der Binomialverteilung ganz rechts oder links liegen, so würden wir die Nullhypothese ablehnen. Diese Bereiche nennen wir Ablehnungsbereich oder kritischen Bereich. Da wir zwei Ablehnungsbereiche haben, wird von einer zweiseitigen Fragestellung gesprochen. Anders gewendet können wir in der Binomialverteilung einen Bereich um n · p0 festlegen, den wir Annahmebereich nennen. Denn wenn die beobachtete Anzahl weißer Kugeln, k, in diesen Bereich fällt, so würde man die Nullhypothese nicht ablehnen. Somit verbleibt die Frage, wie Annahme- und Ablehnungsbereich personenunabhängig festgelegt werden sollen. Dies kann durch Festlegung der Wahrscheinlichkeit des Annahmebereiches bzw. des kritischen Bereiches erfolgen. Da die Wahrscheinlichkeit über alle möglichen Ereignisse auf Eins normiert ist, ist die Wahrscheinlichkeit des Annahmebereiches (= Sicherheitswahrscheinlichkeit) gleich Eins minus der Wahrscheinlichkeit des kritischen Bereiches. Üblicherweise wird die Wahrscheinlichkeit des Ablehnungsbereiches mit α gekennzeichnet; α heißt auch Signiﬁkanzniveau. 1−α ist die Wahrscheinlichkeit des Annahmebereiches und heißt Sicherheitswahrscheinlichkeit. Sofern sich zwei Statistiker auf ein Signiﬁkanzniveau geeinigt haben, ist bei gegebener Stichprobe Annahmebereich und kritischer Bereich eindeutig festgelegt: die Entscheidung über Annahme oder Ablehnung der Nullhypothese ist personenunabhängig. Folgende Signiﬁkanzniveaus werden üblicherweise genutzt: entweder 0,01 oder 0,05 oder 0,10. Damit ist auch klar, daß die Entscheidung von der Festlegung des Signiﬁkanzniveaus abhängig sein kann. Aus diesem Grund werden bei Veröﬀentlichung statistischer Tests häuﬁg die Testergebnisse bei unterschiedlichen Signiﬁkanzniveaus angegeben. Wegen ihrer zentralen Bedeutung in der schließenden Statistik, werden die vier Schritte zur Durchführung statistischer Tests noch einmal aufgelistet. 1. Hypothesen aufstellen H0 : p = p0 und H1 : p = p0 . ˆ =n·h ˆ . 2. Testgröße berechnen: kk 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (Quantilunten k Quantiloben ) = 1 − α und kritische Bereiche: P (k < Quantilunten ) = α/2 sowie P (k > Quantiloben ) = α/2 . 4. Entscheidung treﬀen, ˆ im kritischen Bereich liegt, so lehne die Nullhypothese d.h. falls kˆ = n · h ab. P ist hierbei die Abkürzung für Wahrscheinlichkeit, Quantilunten ist das untere

α 2 -Quantil

und

KAPITEL 4. STATISTISCHES TESTEN

0.08 0.06 0.04

Ablehnungsbereich

Annahme− bereich

Ablehnungsbereich

alpha/2

(1−alpha)

alpha/2

0

20

40

0.02 0.00

Q(k,n,p)=Q(k,100,0,2)

0.10

76

−20

60

k

Abbildung 4.2: Hypothesentest: zweiseitige Fragestellung Quelle: eigene Darstellung Quantiloben das 1 − α2 -Quantil. Die Bestimmung des Annahmebereiches ergibt sich über die Nullhypothese. Bei der zweiseitigen Fragestellung wird der Bereich der Nullhypothese von dem Annahmebereich mit Wahrscheinlichkeit (1 − α) überdeckt. In Abbildung 4.2 ist eine Binomialverteilung mit n = 100 und Wahrscheinlichkeit weißer Kugeln p = 0, 20 dargestellt. Die zugrundeliegende Nullhypothese ist H0 : p = 0, 20 oder in Absolutwerten ausgedrückt p0 = 20 und dieser Bereich wird von dem Annahmebereich überdeckt. Der Test heißt zweiseitig, weil der kritische Bereich aus zwei Teilen besteht, dem Bereich links des unteren Quantils Quantilunten und dem rechts oberhalb des oberen Quantils Quantiloben . Über beiden kritischen Bereichen liegt insgesamt eine Wahrscheinlichkeitsmasse in Höhe des Signiﬁkanzniveaus α. Da es zwei Ablehnungsbereiche gibt, wird das Signiﬁkanzniveau gleichmäßig auf beide aufgeteilt.

4.3.2

Einseitige Fragestellung - Version 1

Die einseitige unterscheidet sich von der zweiseitigen Fragestellung lediglich durch die Art der Hypothesen. Das Verfahren ist ansonsten dasselbe, wie zuvor. 1. Hypothesen aufstellen

4.3. TEST

0.08 0.06 0.04

Annahmebereich

0.02

Ablehnungsbereich

alpha

0.00

Q(k,n,p)=Q(k,100,0,2)

0.10

77

−20

0

(1−alpha)

20

40

60

k

Abbildung 4.3: Hypothesentest: einseitige Fragestellung - Version 1 Quelle: eigene Darstellung

H0 : p > p0 und H 1 : p p0 . ˆ . 2. Testgröße berechnen: kˆ = n · h 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (k > Quantil) = 1 − α und kritischer Bereich: P (k Quantil) = α . 4. Entscheidung treﬀen, ˆ im kritischen Bereich liegt, so lehne die Nullhypothese d.h. falls kˆ = n · h ab. Wie im Fall der zweiseitigen Fragestellung ergibt sich der Annahmebereich aus der Nullhypothese. In vorliegendem Fall muß der Annahmebereich auf der rechten Seite des gesuchten Quantils liegen (siehe Abbildung 4.3). Die Wahrscheinlichkeitsmasse, die über dem Annahmebereich liegt, ist gleich 1 − α. Da es nur einen Verwerfungsbereich gibt, beträgt die ihm zugeordnete Wahrscheinlichkeit gleich α. Weil der Verwerfungsbereich auf der linken Seite liegt, wird dieser Test als linksseitiger Test oder unterseitiger Test etikettiert. Das (untere) α-Quantil trennt den Verwerfungs- von dem Annahmebereich und wird auch kritischer Wert genannt.

KAPITEL 4. STATISTISCHES TESTEN

0.04

0.06

Q(k,n,p)=Q(k,100,0,2)

0.08

0.10

78

Ablehnungsbereich

0.02

Annahmebereich

0.00

(1−alpha)

−20

0

alpha

20

40

60

k

Abbildung 4.4: Hypothesentest: einseitige Fragestellung - Version 2 Quelle: eigene Darstellung

In diesem Fall wird getestet, ob der Anteilswert größer als p0 ist oder nicht. Alternativ könnte auch interessieren, ob der Anteilswert größer oder gleich p0 ist, dann gehört das Quantil zum Annahmebereich. Bei Aufstellung der Gegenhypothese ist darauf zu achten, daß Null- und Gegenhypothese keine gemeinsame Schnittmenge haben und der gesamte Bereich aller möglichen Merkmalsausprägungen (Deﬁnitionsbereich) auch überdeckt wird.

4.3.3

Einseitige Fragestellung - Version 2

Außerdem könnte die 1. Nullhypothese p < p0 und Gegenhypothese p p0 von Interesse sein. Dann ist das Vorgehen wie folgt. ˆ. 2. Testgröße berechnen: kˆ = n · h 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (k < Quantil) = 1 − α und kritischer Bereich: P (k Quantil) = α .

4.3. TEST

79

4. Entscheidung treﬀen, ˆ im kritischen Bereich liegt, so lehne die Nullhypothese d.h. falls kˆ = n · h ab. Diese Variante ist in Abbildung 4.4 veranschaulicht. Er heißt auch rechtsseitiger oder oberseitiger Test.

4.3.4

Fehler 1. Art

Leicht könnte der Eindruck entstehen, die Art der Hypothesenbildung sei ohne Belang, doch dem ist nicht so. Angenommen, die interessierende Null- und Gegenhypothesen seien H0 : p > p0 bzw. H 1 : p p0 . Mit Wahrscheinlichkeit α können weiße Kugeln einer einfachen Stichprobe vom Umfang n in den kritischen Bereich fallen, obwohl die Nullhypothese korrekt ist. Mit anderen Worten gibt das Signiﬁkanzniveau α die Wahrscheinlichkeit an, mit der fälschlicherweise die Nullhypothese abgelehnt wird. α gibt die Fehlerwahrscheinlichkeit an, die Nullhypothese abzulehnen, obwohl sie korrekt ist. Diese Art von Fehler heißt Fehler 1. Art. Diese Überlegungen führen zu folgender Empfehlung: Wähle als Gegenhypothese die Aussage, deren Wahrscheinlichkeit, sie fälschlicherweise zu akzeptieren, kontrolliert werden soll.

4.3.5

Beispiel

Test aus Firmenperspektive Ein Konzern sieht sich Vorwürfen ausgesetzt, Frauen bei Einstellungen zu benachteiligen. Aus diesem Grund werden alle Bewerbungen der letzten drei Jahren im gesamten Konzern gesichtet: von 1000 Bewerbern sind 200 Frauen. Wenn keine Diskriminierung stattﬁnden würde und die Einstellung als Ziehen einer Stichprobe interpretiert wird, so argumentiert der Personalchef, müßte der Anteil der Frauen in der Gruppe der Bewerber und der Personen, die eingestellt wurden, gleich sein. Deshalb wurde zudem erhoben, wieviele von den 1000 Bewerbern eingestellt und wieviel hiervon Frauen waren. Es ergab sich, daß 100 Personen, wovon 17 Frauen waren, eingestellt wurden. Der Personalchef möchte sicherlich ungern zu Unrecht der Diskriminierung bezichtigt werden. Mit anderen Worten möchte er die Wahrscheinlichkeit kontrollieren, daß der Anteil der Frauen, die aus der Gruppe der Bewerber eingestellt wurden, von 200/1000 = 0,20 sehr stark nach unten abweicht. Als Gegenhypothese wird also gewählt p < 0, 20 . Die Anwendung unseres Schemas führt zu nachfolgendem Ergebnis.

KAPITEL 4. STATISTISCHES TESTEN

80 1. Hypothesen aufstellen H0 : p 0, 20 und H1 : p < 0, 20.

ˆ = 100 · 17/100 = 17 . 2. Testgröße berechnen: kˆ = n · h 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (k Quantil) = 1 − α und kritischer Bereich: P (k < Quantil) = α . Durch > qbinom(.95, 100, .20, lower.tail = FALSE, log.p = FALSE) [1] 14 wird Quantil = 14 und damit der Annahmebereich bei einem Signiﬁkanzniveau von α = 0, 05 berechnet: Annahmebereich = A = [14, 100]. Das ’q’ in ’qbinom’ steht für Quantil, ’binom’ für Binomialverteilung und 0,95 ist die Sicherheitswahrscheinlichkeit. Danach ist der Stichprobenumfang, hier 100, einzugeben, wonach der Anteilswert bei Geltung der Nullhypothese eingetragen werden muß (hier 0,20). Die Eingabe ’lower tail = FALSE’ bedeutet, daß die Wahrscheinlichkeit auf der rechten Seite des Quantils angegeben ist. ’log.p = FALSE’ besagt, daß die Wahrscheinlichkeit nicht logarithmiert angegeben ist. Auch folgender Befehl führt zum Ziel: > qbinom(.05, 100, .20, lower.tail = TRUE, log.p = FALSE) [1] 14 4. Entscheidung treﬀen. Da die Testgröße in den Annahmebereich fällt, kann die Nullhypothese nicht abgelehnt werden. Obwohl der Anteil der Einstellungen von Frauen (=17) geringer ist als der Anteil weiblicher Bewerberinnen, kann aufgrund der Stichprobe nicht auf eine Diskriminierung von Frauen geschlossen werden. Test aus der Perspektiven einer Frauenschutzorganisation Die Interessenlage einer Frauenschutzorganisation ist sicher anders einzuschätzen. Sie möchte gerne die Wahrscheinlichkeit kontrollieren, daß der Test zu dem Ergebnis führt, daß die Firma keine Diskriminierung betreibt, obwohl sie in Wirklichkeit diskriminiert. Diese Wahrscheinlichkeit sollte zudem möglichst gering sein. Aus diesem Grund ist davon auszugehen, daß hier folgender Test präferiert würde. 1. Hypothesen aufstellen H0 : p < 0, 20 und H1 : p 0, 20.

4.3. TEST

81

ˆ = 100 · 17/100 = 17 . 2. Testgröße berechnen: kˆ = n · h 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (k Quantil) = 1 − α und kritischer Bereich: P (k < Quantil) = α . Über den Befehl > qbinom(.95, 100, .20, lower.tail = TRUE, log.p = FALSE) [1] 27 erhält man das 0, 95-Quantil Quantil = 27 und damit ist der Annahmebereich bei einem Signiﬁkanzniveau von α = 0, 05 gleich [−∞, 27]. Aufgrund dieses Tests kann die Nullhypothese nicht abgelehnt werden, da kˆ im Annahmebereich liegt. Somit wäre der Firma Diskriminierung vorzuwerfen. Probleme Man erkennt, wie wichtig die Hypothesenaufstellung ist. Bei ansonsten identischem Vorgehen erhält man abhängig davon, ob ein links- oder rechtsseitiger Test durchgeführt wird, unterschiedliche Ergebnisse. Eine weitere Einﬂußmöglichkeit ergibt sich über die Festlegung des Signiﬁkanzniveaus. Will die Firma beispielsweise erreichen, daß das für sie problematische Ergebnis ceteris paribus möglichst nicht eintritt, so wählt sie ein möglichst geringes, aber noch allgemein akzeptables Signiﬁkanzniveau α. Würde Sie statt mit einem α = 0, 05 mit einem einprozentigen Signiﬁkanzniveau den Test durchführen, so wäre der Annahmebereich gleich [11; ∞[. Im Vergleich zu oben wäre er also um einiges größer. Wollte die Frauenschutzorganisation sicher gehen, daß der Test in gewünschter Weise ausfällt, so könnte dies ceteris paribus dadurch erreicht werden, daß das Signiﬁkanzniveau ebenfalls gesenkt wird. Bei einem einprozentigen Signiﬁkanzniveau ergäbe sich ein Annahmebereich von ] − ∞; 30], also ebenfalls größer als in obigem Beispiel. Das Vorgehen ist aus statistischer und ökonomischer Sicht mit einigen Problemen behaftet. Statistisch gesehen handelt es sich bei Einstellungen allenfalls um ein Ziehen einer Stichprobe ohne Zurücklegen, aber die Binomialverteilung wurde unter der Annahme hergeleitet, daß es sich um Ziehen mit Zurücklegen handelt (einfache Stichprobe). Insofern ist das Vorgehen nicht ganz korrekt. Statt der Binomialverteilung wäre die hypergeometrische Verteilung zu verwenden. Somit wird deutlich, daß die Beschäftigung mit weiteren Verteilungen unausweichlich ist. Die wichtigsten Verteilungen, darunter auch die hypergeometrische, werden ab Seite 280 dargestellt. Aus ökonomischer Sicht ist dieses Vorgehen ebenfalls bedenklich. Denn es mag durchaus sein, daß Männer und Frauen sich hinsichtlich ihrer Qualiﬁkation unterscheiden. Unter diesem Gesichtspunkt wäre ein statistisches Verfahren zu wählen, das erlaubt, Qualiﬁkationsunterschiede zu berücksichtigen. Zudem kann der Analyse folgender Vorwurf gemacht werden. Die öﬀentliche Darstellung des Konzerns könnte bereits dazu führen, daß sich Frauen erst gar

KAPITEL 4. STATISTISCHES TESTEN

82

nicht bewerben, sich Frauen also selbst zensieren. In der Ökonomie ist dieses Verhalten auch als Selbstselektion bekannt. So berechtigt dieses Argument auch sein mag, dieser Aspekt kann aufgrund der Stichprobe nicht untersucht werden: eine neues Untersuchungsdesign und eine erneute Datenerhebung wären nötig.

4.4

Abschließende Bemerkungen

Um einen Test durchzuführen sind vier Schritte nötig: 1. Hypothesen aufstellen, 2. Testgröße berechnen, 3. Ablehnungs- und Verwerfungsbereich bestimmen und 4. Entscheidung treﬀen. Die Hypothesen werden in der Praxis unter Berücksichtigung des Fehlers 1. Art festgelegt. Er entsteht, wenn die Gegenhypothese angenommen wird, obwohl die Nullhypothese in Wirklichkeit korrekt ist. Unter Geltung der Nullhypothese ist die Wahrscheinlichkeit dieses Fehlers gleich unserem Signiﬁkanzniveau α. Da die Tendenz besteht, in so geringem Umfang als möglich Fehler zu begehen, sollte das Signiﬁkanzniveau gering gewählt werden. Üblicherweise werden Niveaus im Bereich von 0, 10 − 0, 01 verwendet. Das geringste Niveau wäre freilich 0, doch würde man dieses festlegen, so würde die Nullhypothese ja nie abgelehnt. Dann entstünde ein anderer Fehler, der bekannt ist unter dem Namen ’Fehler 2. Art’. Er entsteht, wenn aufgrund eines Tests die Nullhypothese nicht verworfen wird, obwohl sie in Wahrheit falsch ist. Um diesen 2. Fehler nicht zu groß werden zu lassen, wird der Fehler 1. Art nicht gleich Null gesetzt. Die Testgröße und ihre Verteilung sind aus der Sicht des Anwenders die einzigen Größen, die bekannt sein müssen, um einen Test durchzuführen. Existiert keine Testgröße oder ist ihre Verteilung nicht bekannt, so ist kein Test möglich. Die Verteilung der Testgröße wird unter der Annahme bestimmt, daß die Nullhypothese korrekt sei. Natürlich wissen wir in der Realität nicht, ob diese Annahme wahr ist. Allen Stichprobenereignissen, denen durch die Wahrscheinlichkeitsverteilung eine positive Wahrscheinlichkeit zugeordnet ist, sind möglich. Liegt bei einem zweiseitigen Test die Testgröße aber sehr weit links oder rechts, also in einem Bereich, der zwar aufgrund der Nullhypothese in der Realität sehr wohl vorkommen kann, der aber aufgrund der Verteilung, die ja unter der Annahme hergeleitet wurde, daß die Nullhypothese gilt, sehr gering ist, so würde man der getroﬀenen Annahme nicht trauen. Dies ist der Kern statistischen Testens: wenn sich in einer Stichprobe eine Situation oﬀenbart hat, die bei Geltung der Nullhypothese als sehr unwahrscheinlich eingestuft wird, so verwirft man die zu Grunde liegende Annahme. Dabei können Fehler auftreten: der Fehler 1. oder 2. Art.

4.5. KONTROLLFRAGEN

83

Ist die Entscheidung gefallen, welche Null- und welche Gegenhypothese sein soll, so verbleibt die Aufgabe der Festlegung des Annahme- und Verwerfungsbereiches. Über der Nullhypothese soll (1− α) an Wahrscheinlichkeitsmasse liegen. Beherzigt man diese Information, so ist es leicht, den Annahme- und Verwerfungsbereich zu bestimmen. Lautet die Nullhypothese beispielsweise H0 : p 5, so liegt der Annahmebereich links und über ihm (1 − α) Wahrscheinlichkeitsmasse. Da in der Nullhypothese das Gleichheitszeichen enthalten ist, gehört das Quantil, das den Annahme- von dem Ablehnungsbereich trennt, zu dem Annahmebereich. Würde die Nullhypothese lauten H0 : p < 5, dann würde das Quantil dem Verwerfungsbereich zugerechnet.

4.5

Kontrollfragen

1. Was versteht man unter einer Punktschätzung? 2. Warum gibt man sich mit Punktschätzungen alleine nicht zufrieden und nutzt statistische Tests? ˆ 3. Was ist der Unterschied zwischen der Variablen h und h? 4. Was ist der Unterschied zwischen h=

Anzahl weißer Kugeln Anzahl weißer und schwarzer Kugeln

und der Wahrscheinlichkeit p? 5. Erläutern Sie den Begriﬀ Permutation anhand eines einfachen Beispiels. 6. Berechne

7. (a) Berechnen Sie

(b) Nutzen Sie nom(...)’.

70! . 65! 30 · 0, 322 · (1 − 0, 3)(30−22) . 22 und verwenden Sie zur Berechnung den Befehl ’pbi-

8. Hier ist eine Auswahl an Befehlen, die unvollständig sind. Können Sie dennoch sagen, was mit ihnen berechnet wird? (Hinweis: Nutzen Sie gegebenenfalls die Hilfefunktion in .) (a) qnorm(...), (b) pchisq(...), (c) rbinom(...), (d) rf(...),

KAPITEL 4. STATISTISCHES TESTEN

84 (e) pt(...).

9. Was ist an den folgenden Befehlen falsch?41 > dbinom(40,30,0.5,log=FALSE) > qbinom(0,96,200,0,4,lower.tail=TRUE,log.p=FALSE) 10. Wie groß ist die Wahrscheinlichkeit, daß man die Nullhypothese fälschlicherweise ablehnt?

4.6

Aufgaben

40 7 7 40 , , , , 1. Berechnen Sie nachfolgende Binomialkoeﬃzienten: 41 2 5 41 n . 0 2. Zeigen Sie, daß folgender Zusammenhang gilt: n n . = n−k k 3. Begründen Sie, warum folgende Gleichung korrekt ist. n+1 n n . = + k+1 k+1 k 4. Spielen bei statistischen Tests Punktschätzungen überhaupt eine Rolle?42 5. (a) Können Sie den Wert ∞

Q(k, 10, 0.8)

k=10

berechnen?43 (b) Welchen Zusammenhang gibt es zwischen ∞

Q(k, 10, 0.8)

(4.3)

k=10

und der Verteilungsfunktion?44 (c) Berücksichtigen Sie Ihre Lösung zu Aufgabe 5b und lösen Sie unter Berücksichtigung dieser Einsicht Aufgabe 5a auf eine andere Art.

4.6. AUFGABEN

85

6. In der Grundgesamtheit beﬁnden sich 1 000 000 Männer und 1 200 000 Frauen. Es wird eine einfache Stichprobe vom Umfang n = 5 gezogen. (a) Wie groß ist die Wahrscheinlichkeit, daß 2 Männer gezogen werden? (b) Berechnen Sie die Wahrscheinlichkeit, daß zuerst ein Mann und dann eine Frau gezogen wird. (c) Wie groß ist die Wahrscheinlichkeit, daß bei den ersten beiden Ziehungen ein Mann und eine Frau gezogen werden? (d) Wie groß ist die Wahrscheinlichkeit, daß mindestens 3 Männer gezogen werden? (e) Berechnen Sie die Wahrscheinlichkeit, daß maximal 2 Männer in der Stichprobe sind. 7. In einem Lager gibt es 100 Fächer. In jedem dieser Fächer ist ein anderer Artikel abgelegt. (a) Berechnen Sie die Anzahl aller Permutationen der Fächer. (b) Die Bestückung der Fächer wurde geändert. Nun sind in 4 Fächern von den 100 dieselben Artikel gelagert. Wieviele mögliche unterscheidbare Permutationen der Fächer gibt es? (c) Die Einlagerung hat sich im Vergleich zur Ausgangssituation nun folgendermaßen geändert. In 10 Fächern wurden Meisel, in 4 Fächern Hämmer und in 2 Fächern Digitalkameras abgelegt. In allen anderen Fächer sind jeweils verschiedene Produkte hinterlegt. Wieviele unterscheidbare Permutationen gibt es? 8. Warum ist

∞

Q(k, 10, 0.8) = 0?

k=11

9. (a) In einer Urne gibt es 200 schwarze Kugeln. Berechnen Sie die Wahrscheinlichkeit, mit der 40 weiße Kugeln und 50 schwarze Kugeln aus der Urne mit 1 000 weißen und schwarzen Kugeln gezogen werden. (b) Wie groß ist die Wahrscheinlichkeit, daß genau 40 oder mehr als 40 weiße Kugeln gezogen werden? (c) Berechne die Wahrscheinlichkeit, daß weniger als 30 weiße Kugeln in der Stichprobe sind. (d) Wie groß ist die Wahrscheinlichkeit, daß mehr als 30 und weniger als 60 weiße Kugeln gezogen werden? (e) Nutzen Sie

und stellen Sie die Binomialverteilung graphisch dar.

(f) Illustrieren Sie Ihre Ergebnisse in dieser Graphik. 10. Woher weiß man, ob es sich um eine einseitige oder eine zweiseitige Fragestellung handelt?45

KAPITEL 4. STATISTISCHES TESTEN

86

11. Warum wird die kritische Größe dem Annahmebereich und manchmal zum kritischen Bereich zugeschlagen?46 12. Welche Angaben braucht man, um den Annahmebereich festlegen zu können?47 13. (a) In einer Firma soll überprüft werden, ob bei der Produktion die nötigen Qualitätsstandards eingehalten werden. Zu diesem Zweck werden aus jeder Charge im Umfang von 10 000 Produkten 20 per einfacher Stichprobe gezogen. Die Prüfung soll zur Sicherheitswahrscheinlichkeit von 96 Prozent erfolgen. Ab welcher Anzahl fehlerhafter Produkte sind die Qualitätsstandards nicht erfüllt, wenn als Nullhypothese geprüft werden soll, daß maximal 2 Prozent der Produktion fehlerhaft sein darf?48 (b) Stellen Sie mit

die Binomialverteilung graphisch dar.

(c) Kennzeichnen sie in dieser Graphik den Annahme- und Verwerfungsbereich. 14. Zwei Wissenschaftler nutzen exakt dieselben Daten und beide wenden den Binomialtest an. Dennoch kommen sie zu unterschiedlichen Ergebnissen. Woran mag das liegen?49 15. In einem Betrieb wird eine Maschine regelmäßig auf ihren Ausschußanteil geprüft, um festzustellen, wann der Einbau eines Ersatzteils zu erfolgen hat. Denn bei einem Ausschuß von 2 Prozent oder mehr muß ein Ersatzteil eingebaut werden, da sonst Vertragsstrafen drohen. Zu diesem Zweck wird eine einfache Stichprobe vom Umfang n=200 gezogen, von denen 4 als Ausschuß klassiﬁziert wurden. Testen Sie die H0 -Hypothese, daß der Ausschußanteil kleiner als 2 Prozent ist zum Signiﬁkanzniveau von 5 Prozent.50 Auswahl von Ergebnissen des Statistikprogrammes 'R'. > qbinom(0.95 [1] 1 > qbinom(0.02 [1] 17 > qbinom(0.02 [1] 196 > qbinom(0.02 [1] 120 > qbinom(0.02 [1] 80 > qbinom(0.95 [1] 7

,200 ,0.02, lower.tail = FALSE, log.p = FALSE) ,200 ,0.05, lower.tail = FALSE, log.p = FALSE) ,200 ,0.95, lower.tail = FALSE, log.p = FALSE) ,2000 ,0.05, lower.tail = FALSE, log.p = FALSE) ,2000 ,0.05, lower.tail = TRUE, log.p = FALSE) ,200 ,0.02, lower.tail = TRUE, log.p = FALSE)

4.A. WIRKUNGSANALYSE*

4.A 4.A.1

87

Wirkungsanalyse* Grundlagen

Wirkungsanalysen können in folgenden Zusammenhängen nützlich sein. • Um Kosten zu senken, ändert ein Einzelhandelsgeschäft Anzahl und Plazierung der Kassen. Dies könnte jedoch unerwünschte Wirkungen auf den Umsatz haben. Aus diesem Grund wäre es sinnvoll, im nachhinein zu überprüfen, ob dieser Eﬀekt eingetreten ist oder nicht. • Ein Produktionsunternehmen ändert zwecks Umsatzsteigerung das Design seines Produktes ’Zahnbürste - sauber und fein’. Auch hier wäre es hilfreich zu wissen, ob das angestrebte Ziel erreicht wurde. • Durch verstärkte Werbung sollen Stammkunden animiert werden, mehr zu kaufen. Man möchte überprüfen, ob hierdurch tatsächlich mehr Umsatz als Kosten entstanden sind. Der Binomialtest eignet sich, etwas anders interpretiert, auch dazu, solche Fragen zu beantworten. Es wird von folgenden Voraussetzungen ausgegangen. 1. Wir gehen von einer zweidimensionalen Zufallsvariable (X, Y ) in der Grundgesamtheit aus. 2. Die beiden Zufallsvariablen seien kardinal meßbar und stetig. 3. Es wird nur eine Stichprobe gezogen (= Ein-Stichprobenfall). 4. Die Daten stammen aus einer einfachen Stichprobe, so daß die Diﬀerenzen Z1 , . . . , Zi , . . . , Zn := (Y1 − X1 ), . . . , (Yi − Xi ), . . . , (Yn − Xn ) stochastisch unabhängig voneinander sind. 5. Zu jeder Beobachtungseinheit i werden zwei Merkmale erhoben. 6. Jede Zufallsvariable Yi − Xi für i = 1, 2, 3, . . . , n habe denselben Median θ. Dies bedeutet, daß Fi (θ) = 1 − Fi (θ) für i = 1, 2, 3, . . . , n, wobei Fi die Verteilungsfunktion der Zufallsvariablen Zi , i = 1, 2, 3, . . . , n ist. Mit anderen Worten wird ein Verfahren zur Überprüfung des Median angegeben. Der Parameter θ ist der unbekannte Behandlungseﬀekt (Hollander und Wolfe, 1999, S. 60ﬀ). In den angeführten Beispielen geht es um die Frage, ob die ergriﬀenen Maßnahmen zu Umsatzsteigerungen geführt haben oder nicht. Entlang des Zeitstrahles ist demzufolge zu unterscheiden in eine Periode vor und eine nach der

KAPITEL 4. STATISTISCHES TESTEN

88

Maßnahme. Relevant sind nicht verschiedene Zeitpunkte, sondern Zeiträume, da es sich bei der Variablen Umsatz um eine Stromgröße handelt. Xi bezeichne den Umsatz des Kunden i vor und Yi den nach der Maßnahme. Ist die Diﬀerenz Zi = Yi − Xi positiv, so hat eine Umsatzsteigerung stattgefunden. Dieses Vorgehen hat zwei Konsequenzen: 1. zum einen auf praktische Erwägungen und 2. andererseits auf die Art des Vergleiches. Denn es wird nur eine Stichprobe vom Umfang n gezogen, nämlich nach der zweiten betrachteten Periode. Es müssen folglich Kundendaten vorhanden sein, die sich auf die erste Periode und die zweite Periode erstrecken. Ohne zusätzliche organisatorische Maßnahmen verfügt man nicht über die erforderlichen Daten. Eine Möglichkeit ergibt sich über die Vergabe von Kundennummern. Damit Kunden einen Anreiz haben, auch bei jedem Einkauf die Kundennummer anzugeben, ist es im allgemeinen erforderlich, Rabatte einzuräumen. Sofern es sich um Beziehungen zwischen Unternehmen handelt, mit denen automatisch oder halbautomatisch Geschäftsprozesse abgewickelt werden, lassen sich die Daten über die Notwendigkeit der Standardisierung des Datenaustausches aus den laufenden Geschäftsprozessen generieren. Das Untersuchungsdesign besteht in einem einfachen Vergleich: vorher versus nachher. In der Ökonomie werden jedoch Alternativenvergleiche bevorzugt. Vergleicht man lediglich zwei Situationen auf dem Zeitstrahl, so handelt es sich um keine Alternativen. Denn die Existenz von Alternativen bedeutet, daß Wahlmöglichkeiten vorliegen. Aus diesem Grund ist Vorsicht geboten, denn es könnte sein, daß sich eine nicht kontrollierte Größe, die auf den eigenen Umsatz Einﬂuß hat, während der betrachteten Zeitspannen ebenfalls geändert hat. Beispielsweise könnte ein Konkurrenzunternehmen zwischenzeitlich Pleite gehen. Denn dann würde man erwarten, daß ceteris paribus der eigene Umsatz steigt. Existiert ein allgemeiner Wirtschaftsaufschwung, so wird man ebenfalls prognostizieren, daß der eigene Umsatz im Zeitverlauf steigt. In solchen Situationen kann es vorkommen, daß in Wirklichkeit die eigenen Maßnahmen wirkungslos sind, aber dennoch werden Umsatzsteigerung beobachtet. Eine wichtige Voraussetzung zur Anwendung des hier beschriebenen Verfahrens ist folglich, daß sonst keine Änderungen, die auf den Umsatz Einﬂuß haben könnten, erfolgen.

4.A.2

Test

Alle drei Testvarianten sind möglich, d.h. der zweiseitige Test ebenso wie die einseitigen Tests. Die Darstellung des zweiseitigen Tests soll an dieser Stelle genügen. Die Hypothesen lauten H0 : θ = 0 gegen H1 : θ = 0.

4.A. WIRKUNGSANALYSE*

89

Als Testgröße wird T estgroesse = ξi =

n

ξi mit

(4.4)

i=1

1 0

für Zi > 0 für Zi < 0

verwendet. Falls es Zi = 0 geben sollte, so werden diese bei der Berechnung nicht berücksichtigt und der Stichprobenumfang n entsprechend angepaßt. Die Testgröße ist also nichts weiter als die Anzahl positiver Werte Zi . Die zugehörige Zufallsvariable der Grundgesamtheit folgt einer Bernoulli-Verteilung. Wir wissen, daß bei einer einfachen Stichprobe aus dieser Grundgesamtheit vom Umfang n die Stichprobe binomialverteilt ist. Aus diesem Grund ist die Testgröße binomialverteilt und bei Geltung der Nullhypothese ist, um im Bild des Kapitels 4.2 zu bleiben, die Wahrscheinlichkeit des Ziehens einer ’weißen Kugel’ gleich 1/2. Als Annahmebereich erhalten wir [Quantilα/2;prob=1/2 ; Quantil1− α2 ;prob=1/2 ] bei Erfolgswahrscheinlichkeit von prob = 1/2 in der Grundgesamtheit zum Signiﬁkanzniveau α. Liegt die Testgröße außerhalb dieses Bereiches, so ist die Nullhypothese zu verwerfen. Dieser Test ist auch bekannt als verteilungsfreier Vorzeichentest nach Fisher (Hollander und Wolfe, 1999, S. 60ﬀ).

4.A.3

Beispiel

Es soll überprüft werden, ob eine betriebswirtschaftliche Maßnahme zu einer Änderung des Umsatzes bei Stammkunden geführt hat. Die verwendeten Daten sind in der Datei Wirkungsanalyse-Fisher-Test.Rdata abgelegt. Die nötigen Befehle sind wie folgt. > > > > > > > >

x <- rnorm(200,mean=3000,sd=400) y <- rnorm(200,mean=3100,sd=403) z <- y-x z2 <- 2:201 z2 <- 2:201 for (i in 1:200) if (z[i]<0) (z2[i] for (i in 1:200) if (z[i]>0) (z2[i] z2 [1] 1 0 0 0 1 1 0 1 1 0 1 1 1 1 1 1 0 0 0 1 0 1 0 1 1 0 0 0 1 [38] 0 1 1 0 1 1 1 0 1 0 1 1 1 1 1 1 0 0 1 0 1 0 1 0 1 1 1 1 0 [75] 1 0 1 1 0 1 1 1 0 0 0 0 0 0 0 0

<- 0) <- 1) 0 1 0 1 1 1 0 0 0 0 1 0 0 0 1 1 0 1 1 0 1 0 0 0

KAPITEL 4. STATISTISCHES TESTEN

90

0 1 0 1 0 0 0 1 1 0 1 1 1 [112] 1 0 1 0 1 0 0 1 0 0 1 1 0 1 0 0 1 0 0 1 1 1 1 0 1 0 1 0 0 1 0 0 0 0 1 0 1 [149] 0 0 0 0 1 1 1 1 0 1 1 1 0 1 1 1 1 0 1 1 1 0 0 1 0 1 1 1 0 0 1 0 1 1 1 1 1 [186] 1 0 0 0 0 1 1 0 1 0 1 1 1 0 1 > Testgroesse <- sum(z2) > Testgroesse [1] 107 > qbinom((0.05/2),200,0.5,lower.tail=TRUE) [1] 86 > qbinom((1-0.05/2),200,0.5,lower.tail=TRUE) [1] 114 Im ersten Schritt werden normalverteilte Zufallsvariablen x und y erzeugt. In der Tat ist der Mittelwert der Variablen y größer als der von x, aber gleichzeitig ist die Standardabweichung bei y größer als bei der anderen Variablen. Dann wird die Variable z gebildet. z2 ist eine Hilfsvariable, es sind 200 Zahlen von 2 bis 201, die durch die nachfolgenden ’if’-Anweisungen entweder durch 0 oder 1 ersetzt werden, wenn zi < 0 bzw. zi > 0 ist. Mit z2 werden die so erzeugten Zahlen angezeigt. Würde eine andere Zahl als 0 oder 1 erscheinen, so würden Bindungen vorliegen, die aus den Daten entfernt werden müßten. Die Summe über z2 ergibt die Testgröße. Die beiden letzten Befehle dienen der Ermittlung des Annahmebereiches. Er ist [86; 114]. Da die Testgröße in diesem Bereich liegt, kann die Nullhypothese nicht verworfen werden. Damit ist freilich ein Fehler aufgetreten. Welcher?51

4.A.4

Abschließende Bemerkungen

Alternativ zu dem Vorzeichentest nach Fisher kann auch der Wilcoxon Rangsummentest genutzt werden (Hollander und Wolfe, 1999, S. 60ﬀ). Dieser Test ist in implementiert; nähere Informationen können den Hilfeseiten, die über > ?wilcox.test abgerufen werden können, entnommen werden. Neben diesen verteilungsfreien Tests ist auch ein Mittelwertvergleich zweier normalverteilter Zufallsvariablen möglich. Dann wird jedoch ein bestimmter Verteilungstyp, eben die Normalverteilung, unterstellt. In vielen Lehrbüchern der Statistik ﬁndet man die nötigen Informationen, um ihn durchzuführen.

Kapitel 5

Chi-Quadrat Tests 5.1

Einleitung

In Kapitel 4 wurden die Grundlagen statistischen Testens gelegt, in dem vorliegenden sollen sie vertieft werden. Es werden drei Testverfahren beschrieben: • der Unabhängigkeitstest, • der Anpassungstest und der • Homogenitätstest. Bei dem Unabhängigkeitstest wird geprüft, ob zwei Variablen (stochastisch) unabhängig sind oder nicht. Der Begriﬀ der stochastischen Unabhängigkeit wurde bislang zwar noch nicht eingeführt, doch wir kennen bereits den der statistischen Unabhängigkeit. Dies sollte genügen, um das Testverfahren zu verstehen. In Kapitel 5.3 wird der Frage nachgegangen, ob davon ausgegangen werden kann, daß die empirische Verteilung gleich einer vorgegebenen theoretischen Verteilung ist oder nicht. Eine Auswahl theoretischer Verteilungen ﬁndet sich überblicksartig in Anhang A. Fragen dieser Art spielen in der Praxis eine bedeutende Rolle, da man zur Bestimmung des Annahmebereiches eine theoretische Verteilung braucht, die nicht immer, wie im vorangegangenen Kapitel, theoretisch hergeleitet werden kann. In solchen Fällen bestehen jedoch häuﬁg Vermutungen über den Verteilungstyp. Liegen Daten vor, so kann mit Hilfe eines Anpassungstests geprüft werden, ob die theoretische Verteilung aufgrund der Datenlage nutzbar ist oder nicht. Der dritte Test dient zur Überprüfung der Hypothese, ob einfache Stichproben aus derselben Grundgesamtheit stammen oder aus Grundgesamtheiten, die dieselbe Verteilung aufweisen. Stammen sie aus derselben Grundgesamtheit, so können sie ggf. zu einer Datei zusammengefaßt werden. Hierdurch erhöht sich der Stichprobenumfang und die Schätzgenauigkeit erhöht sich. Andererseits können mit Hilfe dieses Tests direkt interessierende Hypothesen überprüft werden, was durch das letzte Beispiel dieses Kapitels illustriert wird. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_5, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

KAPITEL 5. CHI-QUADRAT TESTS

92

5.2 5.2.1

Unabhängigkeitstest Grundlagen

Die Kontingenztabelle haben wir bereits kennengelernt. In ihr werden die Ausprägungen zweidimensionaler Variablen und deren gemeinsame (absolute oder relative) Häuﬁgkeitsverteilung niedergelegt. Wir haben die (absoluten wie relativen) Randverteilungen wie auch die bedingten Häuﬁgkeitsverteilungen kennengelernt und den Begriﬀ der statistischen Unabhängigkeit eingeführt. Zwei Variablen sind statistisch unabhängig, wenn gilt: hij = hi. h.j

(5.1)

Liegen Erhebungsdaten vor, so ist von praktischem Interesse, ob beide Variablen als statistisch unabhängig angesehen werden können oder nicht. Wenn die in der Kontingenztabelle aufgeführte gemeinsame absolute Häuﬁgkeitsverteilung nicht sehr stark von der Häuﬁgkeitsverteilung abweicht, die über die Deﬁnition der statistischen Unabhängigkeit errechnet wird, so besteht der Verdacht, daß beide Variablen statistisch unabhängig sind. Liegen die tatsächlichen Werte jedoch weit von den theoretischen Werten bei statistischer Unabhängigkeit weg, so würde man darauf schließen wollen, daß es irgendeinen, wenn auch unbekannten, Zusammenhang zwischen beiden Variablen gibt. Damit ist die Frage aufgeworfen, was “weit weg” konkret bedeuten soll. Da wissenschaftliches Arbeiten heißt, daß jede Person, die dasselbe Verfahren anwendet, bei denselben Daten zu denselben Ergebnissen gelangen soll, sollte das Verfahren möglichst wenig Spielraum für persönliche Wertungen geben. Findet man eine Testgröße und die zugehörige Stichprobenverteilung, so böte sich ein statischer Test an. Um zu einer Testgröße zu kommen, könnten im ersten Schritt die theoretischen absoluten Häuﬁgkeiten bestimmt werden, indem die relativen Randverteilungen jeweils mit der Anzahl an Beobachtungen, n, multipliziert wird, also TH ij = T heoretischeHäuf igkeiten = nhi. h.j Die Testgröße könnte auf der Diﬀerenz von tatsächlichen und theoretischen absoluten Häuﬁgkeiten aufbauen. Um zu einer einzigen Zahl zu gelangen, könnten diese Diﬀerenzen addiert werden. Bei dieser Summe würden sich allerdings positive und negative Diﬀerenzen ausgleichen. Dies könnte dazu führen, daß die Summe zwar Null, aber dennoch beträchtliche Abweichungen zwischen tatsächlicher und theoretischer Verteilung vorliegen könnten. Jede Abweichung der tatsächlichen von der theoretischen absoluten Häuﬁgkeit sollte berücksichtigt werden. Eine Möglichkeit, dieser Forderung zu genügen, ergibt sich über die Quadrierung der jeweiligen Diﬀerenzen (nij − T H ij )2

5.2. UNABHÄNGIGKEITSTEST

93

und Summation über alle Zellen: k l

(nij − T H ij )2 ,

i=1 j=1

wobei k die Anzahl der Zeilen und l die der Spalten angeben soll. Die absoluten Abweichungen eines Summanden könnten beträchtlich sein, doch die theoretische absolute Häuﬁgkeit der betrachteten Zelle der Kontingenztabelle könnte ebenfalls sehr groß sein. Je größer die theoretischen absoluten Häuﬁgkeiten jedoch sind, desto geringer wären die Abweichungen der tatsächlichen von den theoretischen Häuﬁgkeiten zu gewichten. Deshalb dividiert man die quadrierte Diﬀerenz durch die zugehörige theoretische absolute Häuﬁgkeit. Dies führt zu QK :=

k l (nij − T H ij )2 , T H ij i=1 j=1

ein Ausdruck, der als quadratische Kontingenz oder Chi-Quadrat-Koeﬃzient bekannt ist. Die Nullhypothese lautet H0 : beide Variablen sind statistisch unabhängig und die Gegenhypothese H1 : es liegt keine statische Unabhängigkeit vor. Als Testgröße wird der Chi-Quadrat-Koeﬃzient verwendet, der unter H0 annähernd Chi-Quadrat-verteilt ist mit (k − 1)(l − 1) Freiheitsgraden. Die Freiheitsgrade geben an, wie viele theoretische absolute Häuﬁgkeiten (also Zellen in der Kontingenztabelle) frei festgelegt werden können. Denn hat eine Kontingenztabelle zwei Zeilen und drei Spalten und liegt die Gesamtzahl an Beobachtungen, n, fest, so ist die relative Randverteilung in der letzten Spalte der Kontingenztabelle eindeutig bestimmt, wenn auch nur ein Wert bekannt ist, der andere läßt sich dann über die Normierungsvorschrift berechnen. Ganz gleich verhält es sich mit der Randverteilung in der untersten Zeile: sind die relativen Häuﬁgkeiten zweier dieser Zellen bekannt, so kann die dritte errechnet werden. In diesem Beispiel ist k = 2 und l = 3. Woraus sich errechnet, daß (2 − 1) ∗ (3 − 1), also zwei Zellen der theoretischen gemeinsamen Verteilung sich frei festlegen lassen, die restlichen können dann errechnet werden. Damit verbleibt einzig zu klären, welches Skalenniveau die Variablen haben müssen. Grundlage des Tests ist eine Kontingenztabelle. Um eine solche zu erstellen, muß es abzählbar endlich viele Ausprägungen der zweidimensionalen Variable geben. Diese Anforderung wird von nominalen wie ordinalen Merkmalen erfüllt. Bei kardinalen Merkmalen können Gruppen gebildet werden, so daß die Anforderung ebenfalls erfüllt werden kann. Liegt statische Unabhängigkeit vor, so müßte die Testgröße nahe Null oder mit anderen Worten links des (1 − α) -Quantils liegen, wobei α das Signiﬁkanznivau bezeichnet, wie in Abbildung 5.1 dargestellt. Damit verbleibt lediglich

KAPITEL 5. CHI-QUADRAT TESTS

0.00 0.05 0.10 0.15 0.20 0.25 0.30

P(X)

94

Annahmebereich

Testgröße

2

Ablehnungsbereich

(1−alpha)

4

alpha

6

8

10

12

14

X (=Zufallsvariable, dhi−qudrat−verteilt)

Abbildung 5.1: Annahme und Verwerfungsbereich Quelle: eigene Darstellung

das Problem, dieses Quantil zu berechnen. Dies soll durch das folgende Beispiel illustriert werden.

5.2.2

Beispiel

In einer Befragung wurden Daten zu Geschlecht und Berufsausbildung mit folgenden Merkmalsausprägungen erhoben: Geschlecht: männlich, weiblich Berufsausbildung im (1) technischen Bereich, (2) kaufmännischen Bereich, (3) künstlerischen Bereich . Die Rohdaten sind in Tabelle 5.1 dargestellt. Es interessiert die Frage, ob es einen systematischen Zusammenhang zwischen Geschlecht und Berufsausbildung gibt. Getestet werden soll zum Signiﬁkanzniveau α = 0, 05. Zwecks Untersuchung dieser Frage bietet sich eine Kontingenztabelle an (siehe Tabelle 5.2 ).

Geprüft werden die Hypothesen: H0 : Geschlecht und Beruf sind statistisch unabhängig,

5.2. UNABHÄNGIGKEITSTEST Person 1 2 3 4 5 6 7 8 9 10

Geschlecht m m w m w w w w m m

95 Berufsausbildung 1 2 1 3 3 2 1 1 2 2

Tabelle 5.1: Rohdaten Quelle: Daten frei erfunden

m w

1 1 3

2 3 1

3 1 1

Randverteilung Geschlecht 5 5

Tabelle 5.2: Kontingenztabelle mit absoluten Häuﬁgkeiten Quelle: eigene Darstellung H1 : Beide Variablen sind nicht unabhängig. Die Testgröße ist gleich 2 und der Annahmebereich kann über die Chi-QuadratVerteilung mit (2 − 1)(3 − 1) = 2 Freiheitsgraden mit Sicherheitswahrscheinlichkeit (1 − 0, 05) = 0, 95 bestimmt werden: Annahmebereich = [0, 5, 991465], der über den Befehl > qchisq(0.95, 2, ncp=0, lower.tail = TRUE, log.p = FALSE) [1] 5.991465 berechnet werden kann. Aber Vorsicht: die Zellenbesetzung innerhalb der Kontingenztabelle ist zu gering, so daß die Approximation an die Chi-Quadrat-Verteilung zu schlecht ist. In jeder Zelle sollten mindestens 5 sein. Aus diesem Grund wird hier die Entscheidung getroﬀen, daß das Datenmaterial nicht ausreicht, einen verläßlichen Test durchzuführen. Alternativ hierzu besteht in die Möglichkeit, den Chi-Quadrat-Unabhängigkeitstest zu erhalten über die Befehlszeile > chisq.test(x). Dies ergibt

KAPITEL 5. CHI-QUADRAT TESTS

96 1 3

3 1

1 1

Tabelle 5.3: Eingabe x Quelle: eigene Darstellung 20 60

34 11

50 70

Tabelle 5.4: Eingabe y Quelle: eigene Darstellung Pearson’s Chi-squared test data: x X-squared = 2, df = 2, p-value = 0.3679 Warning message: Chi-squared approximation may be incorrect in: chisq.test(x). x steht hierbei für den Inhalt der Kontingenztabelle, also wie in Tabelle 5.3. Als Output wird der Kontingenzkoeﬃzient (dort mit X-squared bezeichnet), die Anzahl an Freiheitsgraden (df=2, wobei df für ’degrees of freedom’ steht) und die Wahrscheinlichkeit rechts der Testgröße angezeigt. Wäre das Signiﬁkanzniveau also identisch mit diesem p-value, so könnte die Nullhypothese nicht verworfen werden; dem ist jedoch nicht so. In Abbildung 5.1 ist links bei zwei eine senkrechte Linie eingetragen, dies ist die Testgröße. Rechts hiervon liegt die Wahrscheinlichkeitsmasse von 0, 3679. Die Senkrechte bei 5,99 ist das (1 − α)Quantil, rechts davon liegt die Wahrscheinlichkeitsmasse α. Die Testgröße liegt also im Annahmebereich. Ist das Signiﬁkanzniveau größer als dieser ’p-value’, so wäre die Nullhypothese zu verwerfen, da die Testgröße im Ablehnungsbereich liegen würde. Da die ausgewiesene Wahrscheinlichkeit für ihn viel höher ist als das vorgegebene Signiﬁkanzniveau, kann die Nullhypothese nicht abgelehnt werden. Die zum Schluß ausgegebene Warnung ergibt sich wegen der ungenügenden Zellenbesetzung. Dieses Problem kann gegebenenfalls durch die Zusammenfassung benachbarter Kategorien vermieden werden; hier jedoch ist dies nicht möglich und das Ergebnis deshalb nicht verläßlich. Bei korrekter Zellenbesetzung, wie in Tabelle 5.4, wird keine Fehlermeldung ausgegeben: > chisq.test(y) Pearson’s Chi-squared test data: y X-squared = 30.1897, df = 2, p-value = 2.782e-07 In diesem Fall ist der ausgewiesene p-value (d.h. die Wahrscheinlichkeit rechts des ’X-squared’) viel kleiner als die festgelegten 0,05: die Testgröße liegt

5.3. ANPASSUNGSTEST

97

im Ablehnungsbereich, weshalb die Nullhypothese hier abzulehnen wäre. Denn 2.782e − 07 = 2.782e ∗ 10−07 = 0, 0000002782. Mit anderen Worten verschiebt sich das Komma um 5 Stellen nach links. Die Richtigkeit dieser Interpretation läßt sich überprüfen, indem die Wahrscheinlichkeit rechts des Chi-Quadrat-Koeﬃzienten (hier: 30.1897) berechnet wird. Eingabe von > 1-pchisq(30.1897, 2, ncp=0, lower.tail = TRUE, log.p = FALSE) [1] 2.78221e-07 ergibt den im ’Pearson’s Chi-squared test’ angegebene Wahrscheinlichkeit (pvalue). Die Zusammenhänge können auch in Abbildung 5.1 abgelesen werden. Nun liegt die Testgröße (= 30, 1897) rechts im Verwerfungsbereich; sie ist nicht eingezeichnet (die links liegende Testgröße bezieht sich auf das vorangegangene Beispiel). Aus diesem Grund ist die Nullhypothese abzulehnen.

5.3 5.3.1

Anpassungstest Grundlagen

Der Chi-Quadrat-Unabhängigkeitstest läßt sich auch anders interpretieren und wird hierüber zum Ansatzpunkt zum Vergleich zweier Verteilungen, mit anderen Worten zum Anpassungstest. Im Zentrum steht dann die Frage, ob sich eine empirische Verteilung signiﬁkant von einer theoretischen unterscheidet. Fragestellungen dieser Art treten in der praktischen Arbeit in zwei Formen auf: 1. auf der Objektebene, d.h. zur direkten Überprüfung einer konkreten Frage und 2. auf der Metaebene, d.h. zur Überprüfung, ob eine vermutete Verteilungsannahme vorliegt, um den eigentlich interessierenden Test durchführen zu können. Die Qualität der Produktion ist im allgemeinen auch von der Motivation der Mitarbeiter abhängig. Nach einem Wochenende kann es beispielsweise sein, daß wegen Motivationsmangels Qualitätsprobleme auftreten. Zur Überprüfung dieser These kann man prüfen, ob das Ausmaß von Fehlproduktion (Ausschuß) über die Wochentage hinweg gleichverteilt ist. Dies ist eine typische Frage zu Fall 1. Bei jedem statistischen Test wird zur Bestimmung von Annahme- und Ablehnungsbereich ein bestimmter Verteilungtyps vorausgesetzt. In der Realität mag die Annahme zutreﬀen oder auch nicht. Aus diesem Grund sind statistische Testverfahren nötig, um zu überprüfen, ob die Voraussetzungen des Testverfahrens zutreﬀen oder nicht. Diese Aufgabenstellung tritt bei 1 auf.

KAPITEL 5. CHI-QUADRAT TESTS

98

Bei dem Chi-Quadrat-Unabhängigkeitstest haben wir den Chi Quadrat-Koeﬃzienten kennengelernt. Die Grundidee besteht darin, die Diﬀerenz von beobachteten absoluten und theoretischen Häuﬁgkeiten zu bilden. Sind diese über alle Beobachtungen hinweg groß, so wird man mit einer gewissen Berichtigung behaupten können, daß die empirische von der theoretischen Verteilung abweicht. Die theoretische Verteilung ergab sich hierbei aus der Nullhypothese, daß die beiden Merkmale statistisch unabhängig sind. Dieser Ansatz läßt sich erweitern, indem statt statistischer Unabhängigkeit und der hieraus abgeleiteten theoretischen Verteilung irgendeine andere als theoretische Verteilung verwendet wird. So mutiert der Chi-Quadrat-Unabhängigkeitstest zum Anpassungstest. Als Testgröße sollten aus den bereits bekannten Gründen nicht einfach die Diﬀerenzen von beobachteten und theoretischen absoluten Häuﬁgkeiten aufsummiert werden. Stattdessen verwenden wir, wie bei dem Chi-Quadrat- Unabhängigkeitstest, wiederum den Chi-Quadrat-Koefﬁzienten. Als Nullhypothese ergibt sich dann H0 : die empirische Verteilung ist gleich der theoretischen und H1 : empirische und theoretischen Verteilung unterscheiden sich voneinander. Ist der Chi-Quadrat-Koeﬃzient nahe bei Null, so werden wir wenig geneigt sein, die Nullhypothese zu verwerfen. Aus diesem Grund und weil die Chi-Quadrat-Verteilung keine positive Wahrscheinlichkeitmasse im negativen Bereich besitzt beginnt der Annahmebereich bei Null. Die Wahrscheinlichkeitsmasse von (1 − α) überdeckt den Annahmebereich bis zum kritischen Wert, dem (1 − α)-Quantil, wie in Abbildung 5.1 dargestellt.

5.3.2

Beispiel

In einer Betriebsstätte arbeiten hundert Personen im Zweischichtbetrieb; in jeder Schicht wird annähernd soviel produziert wie in der anderen. Der Werksleiter möchte wissen, ob die Produktion von Ausschuß bei beiden Schichten derselbe ist. Gruppe 1 produzierte im letzten Monat Ausschuß in Höhe von 85 und Gruppe 2 von 60 Stück. Das vorgegebene Signiﬁkanzniveau ist gleich 5 Prozent. In kann wiederum der Chi-Quadrat-Test angewendet werden. Anstatt den Inhalt einer Kontingenztabelle als Daten zu übergeben, wird der Vektor (85, 60) verwendet. Er repräsentiert die empirische Verteilung, die theoretische Verteilung wird über die Angabe der theoretischen Verteilung eingespeist. Hierzu ist in vorliegendem Fall der Vektor p = (1/2, 1/2) einzugeben. Multiplikation der theoretischen relativen Häuﬁgkeiten mit der gesamten Anzahl an Ausschuß (= 145) ergibt die theoretischen absoluten Häuﬁgkeiten (= 72,5). Hierüber läßt sich die quadratische Kontingenz berechnen; im vorliegenden Fall beträgt sie 4,3103. > x1 <- c(85,60) > chisq.test(x1, y = NULL, correct = TRUE,p = c(0.5,0.5)) Chi-squared test for given probabilities

5.4. HOMOGENITÄTSTEST

m w

1 0,25 0,75 1

2 0,75 0,25 1

99 3 0,5 0,5 1

Randverteilung Geschlecht 0,5 0,5 1

Tabelle 5.5: Kontingenztabelle mit bedingter Verteilung Quelle: eigene Darstellung

data: x1 X-squared = 4.3103, df = 1, p-value = 0.03788 Da die empirischen absoluten Häuﬁgkeiten gegeben sind und die theoretischen relativen Häuﬁgkeiten aus nur zwei Zahlen bestehen, ist der Freiheitsgrad gleich 1. Denn ist eine der beiden theoretischen relativen Häuﬁgkeiten bekannt, so kann die andere wegen der Normierung der Summe aller Wahrscheinlichkeiten auf 1 berechnet werden. Die angegebene Wahrscheinlichkeit, die rechts der Testgröße liegt, ist 0,03788. Aus diesem Grund ist die Nullhypothese zum Signiﬁkanzniveau von 5 Prozent abzulehnen.

5.4 5.4.1

Homogenitätstest Grundlagen

Schließlich gibt es ausgehend von dem Chi-Quadrat-Unabhängigkeitstest eine weitere Interpretationsmöglichkeit. Zu diesem Zweck leiten wir aus dem Beispiel von Seite 94 die Randverteilung und die bedingten Verteilungen des Merkmals Geschlecht her. Das Ergebnis ist in Tabelle 5.5 eingetragen. Man erkennt, daß sie nicht identisch sind und von der Randverteilung des Geschlechts abweichen. Würde statistische Unabhängigkeit bestehen, so wären diese Verteilungen identisch. Denn angenommen, wir hätten x = (0, 6; 0, 4) und y = (0, 23; 0, 77) als Randverteilungen. Besteht statistische Unabhängigkeit, so läßt sich die gemeinsame Verteilung durch Multiplikation der beiden Randverteilungen errechnen.

y x x1 x2

y1

y2

0,14 0,09 0,23

0,46 0,31 0,77

0,6 0,4

Hieraus erhalten wir die bedingte Verteilung von x unter der Bedingung von j = 1, 2.

KAPITEL 5. CHI-QUADRAT TESTS

100 y x x1 x2

y1

y2

0,6 0,4 1

0,6 0,4 1

0,6 0,4

Man erkennt: Die Multiplikation der Randverteilungen ergibt den Inhalt der Matrix. Zudem sind die bedingten Verteilungen identisch und exakt gleich der Randverteilung der Variablen x. Dies ist kein Zufall. Denn bei statistischer Unabhängigkeit gilt ja, daß die Multiplikation der Randverteilungen die gemeinsame Verteilung ergibt, also hĳ = hi. h.j ⇔ h.j =

hĳ hĳ ⇔ hi. = . hi. h.j

Der Ausdruck hij h.j ist gerade die bedingte Verteilung von i unter j (für i = {1, 2, 3, . . . , k} und hij hi. die bedingte Verteilung von j unter Bedingung i (für j = {1, 2, 3, . . . , l}. Bislang wurde angenommen, daß die beiden Merkmale, x und y gemeinsam erhoben worden sind. Die Merkmale Geschlecht und Berufsausbildung ’kleben’ beispielsweise an jeder Person, wie aus Tabelle 5.1 zu ersehen ist. Die zugehörigen bedingten Verteilungen, dargestellt in 5.5, zeigen jedoch, daß die Geschlechterverteilung davon abhängt, ob eine Ausbildung im technischen (1), kaufmännischen (2) oder künstlerischen Bereich (3) erfolgt. Wäre die Geschlechterverteilung unabhängig von der Ausbildungsrichtung, so müßten die bedingten Verteilungen identisch sein und exakt gleich der Randverteilung. Demgemäß ist die Nullhypothese des Chi-Quadrat-Unabhängigkeitstests äquivalent mit der Hypothese, daß die bedingten Verteilungen alle identisch und gleich der Randverteilung sind. Wird nun nicht von Merkmalen ausgegangen, die gemeinsam erhoben worden sind, so ergibt sich ein Ansatzpunkt für einen neuen Test, den Homogenitätstest. Verteilung i, i = 1, 2, ist die Geschlechtsverteilung mit ’m’ für männlich und ’w’ für weiblich. In der nachfolgenden Tabelle sind die Geschlechterverteilungen angegeben für die Verteilungen 1, 2 und 3. y x m w

Verteilung 1

Verteilung 2

Verteilung 3

40 50 90

30 31 61

60 40 100

130 121 251

5.4. HOMOGENITÄTSTEST

101

Die Berechnung der relativen Häuﬁgkeiten des Geschlechts für jeweils jede Verteilung ergibt: y

Verteilung 1

Verteilung 2

Verteilung 3

40 90 50 90

30 61 31 61

60 100 40 100

x m w

1

1

1

130 251 121 251

1

Die Geschlechtsverteilung für jedes j, j = 1, 2, 3, sei das Ergebnis einer einfachen Stichprobe. Geprüft werden kann nun die Nullhypothese, ob die Verteilungen identisch sind gegen die Hypothese, daß mindestens eine sich von den anderen unterscheidet. Sind alle Verteilungen identisch, so ist zu vermuten, daß die Stichproben aus derselben Grundgesamtheit stammen oder aber aus verschiedenen Grundgesamten, die jedoch dieselbe Verteilung aufweisen. Diese Nullhypothese ist aber äquivalent zu der Hypothese, daß die Multiplikation der ’Randverteilungen’ zu denselben relativen Häuﬁgkeiten führt wie im inneren der Matrix. Man beachte, daß es sich bei dem Homogenitätstest nicht um eine Kontingenztabelle im eigentlichen Sinne handelt! Warum eigentlich nicht?52 Aus diesem Grund wurde Randverteilung auch in Anführungsstriche gesetzt. Damit ergibt sich wieder die Möglichkeit, den Kontingenzkoefﬁzienten als Testgröße zu verwenden, der chi-quadrat-verteilt ist. Damit verbleibt einzig die Anzahl der Freiheitsgrade zu klären. Analog zum Chi-QuadratUnabhängigkeitstest ergeben sie sich durch Multiplikation von (k − 1)(l − 1), wobei k die verschiedenen Ausprägungen und l die Anzahl der unterschiedlichen Verteilungen bezeichnet. Man errechnet Annahme- und Verwerfungsbereich und lehnt die Nullhypothese ab, wenn die Testgröße in den kritischen Bereich fällt.

5.4.2

Beispiel

In einer Firma gibt es drei Vertriebsabteilungen, von denen jede für eine andere Region die Verantwortung trägt. Der Umsatz in Region Nord-Deutschland ist 2,5 Millionen, in Süd-Deutschland 2,2 Millionen und in Österreich und der Schweiz ist er 1,8 Millionen Euro. Die Firma betreibt Preisdiskriminierung dritten Grades, d.h. Erwachsene, die älter als 65 Jahre sind, erhalten dasselbe Produkt 20 Prozent günstiger als andere Erwachsene. Der Geschäftsführer möchte wissen, ob die Verteilung des Absatzes auf die beiden Personengruppen in jeder Region identisch sind. Er wählt als Signiﬁkanzniveau 5 Prozent. Zu diesem Zweck wird aus den Kunden des vergangenen Jahres aus jeder Region eine einfache Stichprobe gezogen. Das Ergebnis ist wie folgt.

unter 65 Jahre 65 Jahre und älter

NordDeutschland 33 44

Süd-Deutschland 30 66

Österreich und Schweiz 40 50

KAPITEL 5. CHI-QUADRAT TESTS

102

Die Stichproben stammen zwar aus unterschiedlichen Grundgesamtheiten, dennoch kann geprüft werden, ob die Verteilungen dieser Grundgesamtheiten identisch sind. Dies ist die Nullhypothese. Die Gegenhypothese lautet, daß mindestens eine der Verteilungen sich von den anderen unterscheidet. Als Testgröße wird wiederum der Chi-Quadrat-Koeﬃzient gewählt: QK = 4, 01. Die Freiheitsgrade errechnen sich über (2 − 1) ∗ (3 − 1) = 2. Der Annahmebereich ist [0; 5, 99], der über > qchisq(0.95,2,lower.tail=TRUE) [1] 5.991465 errechnet wurde. Da die Testgröße im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. Statt dieses Verfahrens können auch die Befehle > x <- matrix(c(33,44,30,66,40,50),2,3) > x [,1] [,2] [,3] [1,] 33 30 40 [2,] 44 66 50 > chisq.test(x) Pearson’s Chi-squared test data: x X-squared = 4.0176, df = 2, p-value = 0.1341 verwendet werden. In der ersten Zeile werden die Daten als Matrix eingegeben und dem Ausdruck ’x’ zugeordnet. Eingabe von ’x’ gibt die Möglichkeit, die Daten auf Korrektheit zu prüfen. Mit Eingabe von ’chisq.test(x)’ wird die Testgröße und die Anzahl der Freiheitsgrade ausgegeben. Der ’p-value’ ist die Wahrscheinlichkeitsmasse, die rechts der Testgröße liegt. Ist diese Wahrscheinlichkeitsmasse größer (wie in vorliegendem Fall) oder gleich dem Signiﬁkanzniveau, so kann die Nullhypothese nicht abgelehnt werden.

5.5

Abschließende Bemerkungen

Gerade bei Befragungen werden vielerlei nominale und ordinale Merkmale erhoben. Kardinal skalierte Merkmale, wie beispielsweise das Einkommen, werden oft nicht direkt erfragt, vielmehr werden Einkommensklassen gebildet und es wird gebeten Auskunft zu geben, in welcher Klasse sich das eigene Einkommen bewegt. Auf diese Art und Weise hoﬀt man, verläßlichere Auskünfte zu erhalten. Der Vorteil der vorgestellten Chi-Quadrat-Tests besteht darin, daß sie auch bei diesen Skalenniveaus verwendbar sind. Sollen kardinale Merkmale mit Hilfe der Chi-Quadrat-Tests bearbeitet werden, so können Klassen gebildet werden, um die Methoden anwenden zu können.

5.6. KONTROLLFRAGEN

103

Bei dem Binomialtest war es möglich, die Nullhypothese mit der Gegenhypothese zu vertauschen. Dies ist bei dem Chi-Quadrat-Unabhängigkeitstest nicht möglich, weil dann weder Testgröße noch ihre Verteilung bekannt sind. Der Chi-Quadrat-Anpassungstest kann zur Überprüfung von Verteilungsannahmen, die bei vielen statistischen Verfahren gemacht werden, genutzt werden. Allerdings gibt es eine Vielzahl von Tests, zur Überprüfung der Hypothese, ob ein bestimmter Verteilungstyp vorliegt oder nicht. Im allgemeinen sind diese speziellen Tests trennschärfer und somit dem Anpassungstest vorzuziehen. Durch die Hinleitung zum Chi-Quadrat-Homogenitätstest wird die Bedeutung der statistischen Unabhängigkeit klarer. Sind alle bedingten Verteilungen einer Variablen x identisch und gleich der Randverteilung von x, so hängen die bedingten Verteilungen oﬀensichtlich nicht von dem Eintritt der jeweiligen Bedingung ab, sind also unabhängig (von den gewählten Bedingungen). Hierdurch wird es möglich, zu testen, ob zwei Variablen aus derselben Grundgesamtheit stammen oder aus Grundgesamtheiten, die dieselbe Verteilung aufweisen.

5.6

Kontrollfragen

1. Geben Sie die Deﬁnition der statistischen Unabhängigkeit an. 2. Skizzieren Sie die Grundidee des Chi-Quadrat Unabhängigkeitstests. 3. Wie werden bei dem Unabhängigkeitstest die theoretischen absoluten Häuﬁgkeiten bestimmt? 4. Warum werden bei der Berechnung der quadratischen Kontingenz die Differenzen der empirischen Häuﬁgkeiten nij von den theoretischen Häuﬁgkeiten T Hij gebildet? 5. Warum werden in der Formel zur Berechnung des Chi-Quadrat Koeﬃzienten die Diﬀerenzen quadriert? 6. Wie ist der Chi-Quadrat Koeﬃzient verteilt? 7. Kann der Chi-Quadrat Unabhängigkeitstest mit nominal skalierten Variablen durchgeführt werden? 8. Der Chi-Quadrat Unabhängigkeitstest soll mit kardinal-skalierten Variablen durchgeführt werden. Ist das überhaupt möglich? Wenn ja, wie muß vorgegangen werden? 9. Wie werden die Freiheitsgrade bei dem Chi-Quadrat Unabhängigkeitstest bestimmt? 10. Beschreiben Sie die Grundidee eines Anpassungstests. 11. Zu welchen Zwecken werden Anpassungstests benötigt?

KAPITEL 5. CHI-QUADRAT TESTS

104

12. Gegeben seien zwei Merkmale: x und y. Erläutern Sie, warum bei Vorliegen statistischer Unabhängigkeit, die bedingten Verteilungen von x jeweils bei den Bedingungen y1 , . . . ym einander gleich sind. 13. Skizzieren Sie die Grundidee des Homogenitätstests.

5.7

Aufgaben

1. (a) Welche Art von Daten müssen bei dem Befehl chisq.test(x) eingegeben werden?53 (b) Welcher Befehl ist hierzu bei Vorliegen von Rohdaten erforderlich?54 (c) Interpretieren Sie den Output des folgenden Befehls55 > chisq.test(xxx) Pearson’s Chi-squared test with Yates’ continuity correction data: xxx X-squared = 0.1068, df = 1, p-value = 0.7439. 2. Wie groß ist der Chi-Quadrat Koeﬃzient, wenn empirische und theoretische Verteilung exakt übereinstimmen? 56 3. (a) Führen Sie aufgrund folgender Daten einen Chi-Quadrat Unabhängigkeitstest zur Sicherheitswahrscheinlichkeit von 90 Prozent durch.57 Tageszeit Tagesfahren Nachtfahrten Unfälle mit Todesfolge 204 321 ohne Todesfolge 300 466 (b) Bestimmen Sie den kritischen Wert.58 (c) Skizzieren Sie die Chi-Quadrat Verteilung und kennzeichnen Sie die Testgröße, den kritischen Wert und den Annahme- und Verwerfungsbereich. (d) Geben Sie das höchste Signiﬁkanzniveau an, bei dem die Nullhypothese gerade noch angenommen wird.59 4. (a) Bei dem Binomialtest ergibt sich die Festlegung des Annahmebereiches aus der Festlegung der Nullhypothese. Geben Sie hierfür ein Beispiel. 60 (b) Wo liegt bei dem Chi-Quadrat Unabhängigkeitstest der Annahmebereich? 61 (c) Gehört bei dem Chi-Quadrat Unabhängigkeitstest der kritische Wert zu dem Annahme- oder Verwerfungsbereich? 62

5.7. AUFGABEN

105

5. Ist es möglich, daß Null- und Gegenhypothese bei dem Chi-Quadrat Unabhängigkeitstest einfach umgedreht werden? 63 6. (a) Interpretieren Sie folgenden Befehl:64 > qchisq(0.95,2,lower.tail=TRUE) (b) Geben Sie einen äquivalenten Befehl ein, d.h. einen, der zu demselben Ergebnis führt. 65 (c) Begründen Sie Ihre Antwort zu 6b.

66

(a) Interpretieren Sie den Befehl > pchisq(5,10,lower.tail=TRUE) (b) Begründen Sie, warum der Befehl > pchisq(5,10,lower.tail=TRUE) [1] 0.1088220 zu demselben Ergebnis führt wie67 > 1-pchisq(5,10,lower.tail=FALSE)? [1] 0.1088220 7. Gegeben sei folgende Kontingenztabelle.

Geschlecht

Geschlecht

männlich weiblich

0-10 100 122

Alter in Jahren 10-20 20-30 400 300 202 504

Alter in Jahren 50-60 70-80 männlich 200 134 weiblich 69 23

30-40 322 129

40-50 300 200

über 80 80 12

Testen Sie, ob die Variablen Alter und Geschlecht statistisch unabhängig sind. Überprüfen Sie zu den Signiﬁkanzniveaus α = 0, 01, α = 0, 05 und α = 0, 1.68 8. Eine Befragung zufällig ausgewählter Personen (einfache Stichprobe) ergab, daß 20 Männer rauchen, aber sogar 55 Frauen zum Glimmstengel greifen. 33 Männer sind Nichtraucher und 77 Frauen gaben an, nicht zu rauchen. (a) Untersuchen Sie, ob Rauchen geschlechtsspeziﬁsch ist (Hinweis: Signiﬁkanzniveau = 0, 08.69

106

KAPITEL 5. CHI-QUADRAT TESTS (b) Mit welcher Wahrscheinlichkeit wird fälschlicherweise angenommen, daß es einen systematischen Zusammenhang zwischen Rauchen und Geschlecht gibt?70

9. Überprüfen Sie aufgrund der Daten in der nachfolgenden Tabelle, ob es einen systematischen Zusammenhang zwischen Altersklasse und der Eigenschaft gibt, Kunde zu sein oder nicht.71 Alter bis 12 Jahre Alter über 12 und unter 18 Jahren Alter zwischen 18 und 24 Jahren

Kunde 20 24 3

Kein Kunde 55 24 4

10. (a) Bestimmen Sie bei dem Beispiel auf Seite 98 den kritischen Wert und geben Sie den Annahme- und Ablehnungsbereich an.72 (b) Stellen Sie die Chi-Quadratverteilung graphisch dar. (c) Tragen Sie in dieser Graphik die Testgröße ein und kennzeichnen Sie den Bereich mit Wahrscheinlichkeitsmasse ’p-value’. (d) Kennzeichnen Sie den Verwerfungsbereich. (e) Bei welchem Signiﬁkanzniveau würde die Nullhypothese verworfen?

Kapitel 6

Wahrscheinlichkeitsräume 6.1

Einleitung

In Kapitel 4 wurde ein wichtiges Ziel erreicht: die Durchführung statistischer Tests. Ausgehend von einer Verteilungsannahme über die Grundgesamtheit wurde eine Stichprobenverteilung hergeleitet. Dabei wurde die Bedeutung des Stichprobenverfahrens deutlich. Denn von ihr hängt die Stichprobenverteilung ab. In diesem Kapitel soll das Verfahren verallgemeinert werden, um es auch in anderen Situationen anwenden zu können. In unserem Fall konnten in der Grundgesamtheit lediglich zwei Werte angenommen werden, schwarz oder weiß. Eine solche Verteilung heißt Bernoulli˜ = {schwarz, weiß} nennen wir Grundgesamtheit oder Verteilung. Die Menge Ω Ergebnisraum und ihre Elemente heißen Ergebnisse. Da man bei einer Ziehung einer Kugel entweder eine schwarze oder weiße erhält, ist die Wahrscheinlichkeit, keine zu bekommen, gleich Null. Die Wahrscheinlichkeit, eine weiße zu ziehen, sei gleich der, einer schwarzen: 1 P˜ (weiß) = P˜ (schwarz) = . 2 Es können bei zufälligem Ziehen folgende Ereignisse auftreten: entweder wird keine, beide, eine schwarze oder eine weiße Kugel gezogen. Die Menge ˜ weiß, schwarz}. F˜ = {∅, Ω, enthält all diese Möglichkeiten. Daß keine Kugel gezogen wird, wird durch die leere Menge, ∅, berücksichtigt. Jedem Element dieser Menge lassen sich Wahrscheinlichkeiten zuordnen: ˜ = 1, P˜ (weiß = 1 , P˜ (schwarz) = 1 . P˜ (∅) = 0, P˜ (Ω) 2 2 Die Wahrscheinlichkeit, daß weiß oder schwarz eintritt, kann als Wahrscheinlich˜ = keit der Vereinigungsmenge (weiß∪schwarz), also P˜ (weiß∪schwarz) = P˜ (Ω) R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_6, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

108

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME

1 aufgefaßt werden. Die Wahrscheinlichkeit, daß weder schwarz noch weiß ein˜ = P˜ (∅) = 0. Mit anderen Worten tritt wäre P˜ ((weiß ∪ schwarz))) = P˜ (Ω) ˜ eignet sich die Menge F als Deﬁnitionsmenge, um ein Wahrscheinlichkeitsmaß zu deﬁnieren. Dies geschieht im nachfolgenden Abschnitt. Die Wahrscheinlichkeitstheorie, die in diesem und dem nachfolgenden Kapitel behandelt wird, ist kein Selbstzweck. In den Kapiteln 6.3 und 6.4 wird der Begriﬀ des Wahrscheinlichkeitsraumes vorgestellt und auf die Situation in der Grundgesamtheit sowie der Stichprobe angewandt. Hierbei wird einmal mehr deutlich, daß das Stichprobenverfahren entscheidenden Einﬂuß auf die Wahrscheinlichkeitsverteilung in der Stichprobe hat. Viele Verfahren und Darstellungen statistischer Verfahren sind nur dann nachvollziehbar, wenn grundlegende Rechenregeln der Wahrscheinlichkeitstheorie bekannt sind. Die wichtigsten sind in Kapitel 6.5 niedergeschrieben. Einige dieser Regeln sind so wichtig, daß ihnen eigens ein eigener Unterabschnitt gewidmet ist. Hierzu zählen die bedingte Wahrscheinlichkeit in Abschnitt 6.5.2 und der Begriﬀ der stochastischen Unabhängigkeit in Kapitel 6.5.3, die in enger Beziehung zueinander stehen. Der Satz von der totalen Wahrscheinlichkeit in Abschnitt 6.5.5 kann bei der Ziehung von Stichproben wie auch bei Schätzungen sinnvolle Dienste leisten. Im letzten Abschnitt wird der Satz von Bayes dargestellt, der für den Fall, daß bereits Vorinformationen über einen Parameterwert (beispielsweise den Erwartungswert) einer Verteilungsfunktion vorliegen, zu genaueren Schätzungen führen kann.

6.2

Deﬁnitionsmenge

Oﬀensichtlich führt diese Notation zu sinnvollen Interpretationen. Aber nicht ˜ die sich aus Elementen von Ω ˜ zusammensetzt, ist sinnvoll. Anjede Menge F, ˜ würde nur aus der leeren Menge bestehen. In diesem Fall gibt genommen, Ω es keine Alternative, die mit positiver Wahrscheinlichkeit eintreten könnte. Aus diesem Grund ist es sinnvoll, zu fordern, daß ˜ = ∅. Ω

(6.1)

˜ zusammensetzen. InsAnders gewendet sollte F˜ sich aus Teilmengen von Ω ˜ bestimmen können, besondere wollen wir auch die Wahrscheinlichkeit von Ω weshalb ˜ ∈ F˜ Ω (6.2) gelten soll. ˜ Angenommen, eine Menge A sei eine echte oder unechte Teilmenge von Ω, ˜ ˜ dann sollte jedoch auch ihre Komplementmenge zu Ω in F enthalten sein. Denn man will ja nicht nur die Wahrscheinlichkeit von A, sondern auch die des Komplementes von A bezüglich F bestimmen können. Deshalb fordern wir A ∈ F˜ ⇒ Ω˜ A ∈ F˜ .

(6.3)

6.2. DEFINITIONSMENGE

109

Wollen wir die Menge F˜ als Deﬁnitionsmenge für ein Wahrscheinlichkeitsmaß nutzen, so muß die Vereinigungsmenge beliebiger Teilmengen von F˜ wiederum in F˜ enthalten sein. Denn sonst könnten wir deren Wahrscheinlichkeit nicht bestimmen. Deshalb wird gefordert, ˜ ⇒ (∀j ∈ N)(Aj ∈ F)

∞

Aj ∈ F˜ .

(6.4)

j=1

˜ die die Bedingungen 6.1, 6.2, 6.3 und 6.4 erfüllt, heißt σ-Ring. Eine Menge F, Aus dieser Deﬁnition ergibt sich, daß auch die leere Menge in F˜ enthalten ist. ˜ in F˜ ist, dann ist auch die Komplementmenge, die leere Menge, Denn wenn Ω enthalten. Angenommen, es gäbe eine Vielzahl an möglichen Ereignissen. Es könnten sogar unendlich viele, also unendlich viele Ai s sein. Um Ihre Wahrscheinlichkeit berechnen zu können, müssen sie Element des σ-Rings F˜ sein: A1 , A2 , . . . , ∞ ∈ ˜ Die Wahrscheinlichkeit des gemeinsamen Auftretens der Ereignisse F. A1 , A2 , . . . , ∞ ∞ sollte dann auch berechenbar sein, also P ( i=1 Ai ) muß berechnet werden können. Um dies zu ermöglichen, muß die Schnittmenge im σ-Ring sein, also ∞

˜ Ai ∈ F.

i=1

Denn andernfalls gäbe es ja keine Deﬁnitinsmenge, der wir eine Wahrscheinlichkeit zuordnen könnten. Mit anderen Worten müssen wir fordern, daß für jede Familie von Mengen Ai gilt: (∀i ∈ N)(Ai ∈ F˜ ) ⇒

∞

Ai ∈ F˜ .

(6.5)

i=1

Wir wissen, daß eine doppelte Verneinung zum ursprünglichen Ergebnis führt. Diese Regelmäßigkeit können wir verwenden und erhalten, daß eine Menge A gleich dem Komplement des Komplements von A ist: A = A. Deshalb können wir auch schreiben: ∞

Ai ∈ F˜ =

i=1

∞

Ai ∈ F˜ .

(6.6)

i=1

Außerdem gilt, daß das Komplement des Durchschnitts beliebig vieler Mengen gleich der Vereinigung der Komplemente dieser Mengen ist. Angewendet auf unseren Fall erhalten wir:

∞ i=1

Ai ∈ F˜ =

∞ i=1

Ai ∈ F˜ .

(6.7)

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME

110

Wegen 6.3 sind aber die Komplemente von A, A, in F˜ und wegen 6.4 ist auch deren Vereinigung im σ-Ring. Eine weitere Anwendung von 6.3 auf

∞

Ai ∈ F˜

i=1

bestätigt schließlich, daß 6.5 erfüllt ist, wenn F˜ ein σ-Ring ist. Es wurde mit anderen Worten gezeigt, daß aus F˜ ist ein σ-Ring folgt, daß 6.5 gilt. Forderung 6.5 ist aufgrund der Deﬁnition des σ-Rings bereits erfüllt und braucht nicht zusätzlich in der Deﬁnition des σ-Ringes aufgenommen zu werden. Für den Fall, daß n ∈ N endlich ist, gelten zu 6.4 und 6.5 ganz analoge Aussagen: A1 , A2 , . . . , An ∈ F˜ ⇒

n

Ai ∈ F˜

(6.8)

Ai ∈ F˜ .

(6.9)

i=1

und A1 , A2 , . . . , An ∈ F˜ ⇒

n i=1

Zudem gilt A1 , A2 ∈ F˜ ⇒ A1 \A2 ∈ F˜ . Aussage 6.8 ergibt sich aus 6.4, wenn ∅ =: An+1 = An+2 dann gilt n ∞ Ai = Ai . i=1

(6.10) ˜ + · · · ∈ F . Denn

i=1

Die leere Menge ist auch im σ-Ring und somit ist A1 , A2 , . . . , ∞ ∈ F˜ . Anwendung von 6.4 führt dann zur Behauptung. Um Aussage 6.9 zu beweisen, argumentiert man ganz analog, berücksichtigt jedoch statt 6.4 den Zusammenhang 6.5. A1 \A2 steht für ’A1 ohne A2 ’, d.h. es ist die Menge aller Elemente von A1 mit der Eigenschaft, daß sie kein Element von A2 sind. Also kann man auch schreiben A1 \A2 = A1 ∩ A2 . Da A1 und A2 annahmegemäß in F˜ sind, ist wegen 6.3 auch A2 im Sigma-Ring und wegen 6.9 gilt 6.10.

6.3

Wahrscheinlichkeitsraum der Grundgesamtheit

Das Wahrscheinlichkeitsmaß P˜ wird eingeführt als Abbildung des σ-Rings F˜ auf die reellen Zahlen R: P˜ : F˜ → R. ˜ sei ungleich der leeren Menge und F˜ sei ein Sigma-Ring in Ω. ˜ Gelten zudem Ω folgende drei Bedingungen A ∈ F˜ ⇒ P (A) 0,

(6.11)

6.3. WAHRSCHEINLICHKEITSRAUM DER GRUNDGESAMTHEIT

111

˜ und (Ai ∩ Aj = ∅ für i = j) (A1 , A2 , · · · ∈ F) ∞ ⇒ P( ∞ i=1 Ai ) = i=1 P (Ai )

(6.12)

P (Ω) = 1,

(6.13)

und ˜ F˜ , P˜ ) Wahrscheinlichkeitsraum. so heißt das Tripel (Ω, ˜ die Grundgesamtheit des WahrscheinlichIn unserer Interpretation ist Ω ˜ heißen Ergebnisse, Untersuchungseinheiten keitsraumes und die Elemente von Ω oder statistische Einheiten. Den σ-Ring F˜ bezeichnen wir als Ereignisraum des Wahrscheinlichkeitsraumes und seine Elemente als Ereignisse. Folgende Sprachregelung soll gelten. Gegeben sei eine Menge A ∈ F˜ . Wir sagen Ereignis A sei ˜ beobachtet wurde und Element von A ist. eingetreten, wenn ein Element ω ˜∈Ω ˜ endlich viele Elemente enthält. Dann ist Forderung 6.12 vereinfacht sich, falls Ω sie äquivalent zu der einfacheren A, B ∈ F˜ und A ∩ B = ∅ ⇒ P (A ∩ B) = P (A) + P (B).

(6.14)

Forderungen 6.11 bis 6.13 dienen der Festlegung der Wahrscheinlichkeiten auf Werte größer oder gleich Null bzw. der Normierung auf Eins. Die Wahr˜ scheinlichkeit des sicheren Ereignisses, das heißt, daß irgendein Element aus Ω zufällig gezogen wird, wird Eins gesetzt. Die Forderung 6.12 heißt σ-Additivität. Nach diesem Umweg über die Deﬁnition eines Wahrscheinlichkeitsraumes kann das Vorgehen in Kapitel 4 verallgemeinert werden. Die Situation in der ˜ F˜ , P˜ ) beGrundgesamtheit läßt sich durch den Wahrscheinlichkeitsraum (Ω, ˜ hat zwei Elemente, schwarz und weiß. Der σ-Ring besteht aus der schreiben. Ω ˜ schwarz, weiß, ∅. Daß dies wirklich ein Sigma-Ring Menge mit den Elementen Ω, ist, läßt sich überprüfen, indem die Anforderungen an einen solchen, d.h. 6.3, 6.4 und 6.5, überprüft werden. Bedingung 6.3 ist trivialerweise erfüllt. Das Komplement zu schwarz be˜ ist weiß und umgekehrt; zudem ist das Komplement von Ω ˜ die leere züglich Ω Menge. Somit sind alle Komplemente ebenfalls in dem σ-Ring, weshalb 6.4 ebenfalls erfüllt ist. Statt 6.5 genügt es, 6.8 zu überprüfen, da es sich ja um endliche Mengen handelt. Die Vereinigung von schwarz und weiß ergibt den Ergebnis˜ und all diese Mengen sind in dem σ-Ring enthalten. Schwarz vereinigt raum Ω ˜ oder die der leeren Menge mit Ω oder die Vereinigungsmenge von weiß und Ω ˜ ergibt Ω ˜ und somit ist die Vereinigung von Teilmengen von Ω ˜ in vereinigt mit Ω der Ergebnismenge enthalten. Gleiches gilt für Vereinigungen von schwarz oder weiß mit der leeren Menge. Folglich ist F˜ ein σ-Ring. Schließlich verbleibt einzig das Problem, Wahrscheinlichkeiten festzulegen. Ad hoc wurde oben festgelegt, daß die Wahrscheinlichkeit eine schwarze Kugel zu ziehen gleich der ist, eine weiße zu ziehen. Dies ist nicht trivial und hängt sicherlich von der Anzahl weißer und schwarzer Kugeln in der betrachteten Urne ab. Ist die Anzahl der weißen gleich der der schwarzen Kugeln, so mag man geneigt sein, die Wahrscheinlichkeiten als gleich hoch einzuschätzen.

112

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME

Weicht die Anzahl weißer Kugeln von derer der schwarzen ab, so könnte man die Anzahl der weißen zu der Gesamtzahl an Kugeln in Relation setzen, um durch diese Gewichtung eine Wahrscheinlichkeit festzulegen. #A bezeichne die Anzahl der Elemente von A und entsprechendes gelte für Menge B. ˜ eine endliche, nicht leere Menge ist und F˜ ein σ-Ring bezüglich Ω ˜ Sofern Ω ist, so ist durch die Abbildung h→R (6.15) mit h(A) :=

#A , für alle Mengen A ∈ F˜ #Ω

(6.16)

˜ F˜ , h) ist ein Wahrscheinlichkeitsein Wahrscheinlichkeitsmaß festgelegt und (Ω, raum. Genügt jedoch der über 6.16 deﬁnierte Wahrscheinlichkeitsraum den Anforderungen, die an einen Wahrscheinlichkeitsraum gestellt werden? Hierzu ist zu ˜ prüfen, ob die Bedingungen 6.11, 6.14 (wegen endlich vieler Elemente von Ω) ˜ und 6.13 erfüllt sind. Die Mächtigkeit von Ω ist größer als Null, somit ist die relative Häuﬁgkeit auch deﬁniert. Die Mächtigkeit einer jeden Menge A ∈ F˜ ist größer oder gleich Null, weshalb Bedingung 6.11, erfüllt ist. Gegeben seien, wie in Forderung 6.14 vorausgesetzt, zwei disjunkte Mengen A und B (d.h. A ∩ B = ∅). In diesem Fall gilt #(A ∪ B) = #A + #B. Aus diesem Grund gilt auch h(A ∪ B) =

#A #B #(A ∪ B) = + . #Ω #Ω #Ω

Die Normierungsvorschrift wird ebenfalls eingehalten, da #Ω = 1. #Ω Damit ist die Behauptung bewiesen. Gibt es, wie bei unserem Beispiel mit weißen und schwarzen Kugeln, nur ˜ und der σ-Ring ist gleich der Potenzmenge PΩ, so endlich viele Elemente in Ω, ˜ F, ˜ h) Laplacescher Wahrscheinlichkeitsheißt der Wahrscheinlichkeitsraum (Ω, ˜ die raum und P = h Laplacesche Wahrscheinlichkeit. Wird von einer Menge Ω, ungleich der leeren Menge ist, ausgegangen, so ist die Potenzmenge die Men˜ Im σ-Ring gibt es folglich Mengen mit nur einem ge aller Teilmengen von Ω. Element. Die Wahrscheinlichkeit dieser Elementarereignisse ist dann P (˜ ω) =

1 ˜ für alle ω ˜ ∈ Ω. #Ω

6.4. WAHRSCHEINLICHKEITSRAUM DER STICHPROBE

6.4

113

Wahrscheinlichkeitsraum der Stichprobe

Das Konzept des Wahrscheinlichkeitsraumes läßt sich auch auf Stichproben anwenden. Dies soll anhand einer einfachen Stichprobe aus einer Urne mit weißen und schwarzen Kugeln verdeutlicht werden. In Kapitel 4 haben wir aufgrund dieser Voraussetzungen die Binomialverteilung hergeleitet. Machen wir es noch konkreter: es wird das Ziehen einer Stichprobe mit Zurücklegen vom Umfang n ∈ N aus einer Urne, die hälftig mit weißen und schwarzen Kugeln besetzt ist, betrachtet. Ω bezeichne den Stichprobenraum. In vorliegendem Fall besteht er aus allen Permutationen von k weißen und (n-k) schwarzen Kugeln für k = 0, 1, 2, . . . , n. Hierfür können wir auch schreiben ˜ n = {(ω1 , ω2 , . . . , ωn )|ωi ∈ Ω ˜ für i = 1, 2, 3, . . . , n}. Ω=Ω Demgemäß ist Bedingung 6.11 erfüllt: der Ergebnisraum oder Stichprobenraum, wie er hier sinnvollerweise genannt wird, ist nicht leer. Ω ist endlich. Wählen wir als σ-Ring die Potenzmenge von Ω, so erhalten wir einen Laplaceschen Wahrscheinlichkeitsraum. Bei vorgegebener Anzahl weißer Kugeln ist jede Permutation der Anordnung von weißen und schwarzen Kugeln ein Elementarereignis. Die Wahrscheinlichkeit, daß beim ersten Ziehen eine weiße Kugel gezogen wird, ist gleich P (weiß, ω2 , ω3 , . . . , . . . , ωn ) =

1 , 2

(6.17)

wobei es völlig gleich ist, wie nachher die Besetzung mit weißen und schwarzen Kugeln erfolgt. Die ωi für i = 2, 3, . . . , k − 1, k + 1, . . . , n stehen für weiße oder schwarze Kugeln, die zufällig gezogen werden. Die Wahrscheinlichkeit, daß in der i-ten Ziehung eine weiße Kugel gezogen wird, ist bei einer einfachen Stichprobe völlig unabhängig davon, wieviele weiße Kugeln und auch in welcher Reihenfolge sie vorher gezogen wurden. Mit anderen Worten gilt aufgrund des Stichprobenverfahrens: ˆ 2, . . . , ω ˆ k−1 , weiß, ωk+1 , . . . , ωn ) = P (ˆ ω1 , ω

1 , 2

(6.18)

ganz gleich, welche Stelle i = 2, 3, . . . , n betrachtet wird. ω ˆ i bezeichnet hierbei die Realisierung der Zufallsvariablen. Betrachten wir nun eine beliebige Menge A aus dem Sigma-Ring F . Dann müßte sich die Wahrscheinlichkeit P (A) berechnen lassen über P (A) =

#A , #Ω

denn wir haben es mit einem Laplaceschen Wahrscheinlichkeitsraum zu tun (siehe 6.16). Ω besteht aus Elementen (ω1 , ω2 , . . . , ωn ), wobei jedes Element zwei mögliche Ausprägungen hat. Die erste Stelle kann mit einer weißen oder schwarzen Kugel belegt sein und dies gilt auch für die nächste Ziehung. Also ist die Mächtigkeit von Ω bei zwei Ziehungen gleich 2*2=4. Bei drei Ziehungen

114

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME

sind es 2 ∗ 2 ∗ 2 = 23 und bei n Ziehungen sind es 2n . Somit erhalten wir für beliebiges A ∈ F #A P (A) = n . (6.19) 2 Die Wahrscheinlichkeit, daß an der i-ten Stelle eine weiße Kugel gezogen wird ist 1 (6.20) P ((ω1 , ω2 , . . . , ωi−1 , weiß, ωi+1 , . . . ωn ) = . 2 Denn die Mächtigkeit von (ω1 , ω2 , . . . , ωi−1 , weiß, ωi+1 , . . . ωn ) ist gleich 2n−1 . Dies ist leicht einsichtig, da es bei einer Ziehung mit Stichprobenumfang n = 2 nur ein möglicher Ausgang des Zufallsexperimentes gibt, bei n = 3 sind es 2 ∗ 2 = 22 , bei n = 4 erhalten wir 23 und die Verallgemeinerung dessen führt zu dem angegebenen Ergebnis. Anwendung von 6.19 ergibt P ((ω1 , ω2 , . . . , ωi−1 , weiß, ωi+1 , . . . ωn ) =

2n−1 1 = . 2n 2

Aufgrund der gemachten Voraussetzungen, insbesondere der Annahmen 6.17 und 6.18, ergibt sich, daß die Wahrscheinlichkeit, daß m Kugeln eine ganz bestimmte Ausprägung haben (beispielsweise, daß die die erste schwarz und alle anderen weiß sind) zu ˆ i1 , . . . ω ˆ im , . . . , ωn) = P (ω1 , ω2 , . . . , ω

1 . 2m

(6.21)

Ein ω ˆ ij mit j = 1, . . . , m bezeichnet hierbei eine ganz bestimmte Ausprägung, in vorliegendem Fall also entweder weiß oder schwarz. Die ω ˆ ij j = 1, . . . , m müssen nicht hintereinander zu liegen kommen; ja sie können an beliebiger Stelle stehen. Aufgrund des Ziehens mit Zurücklegen kann freilich an einer Stelle nur eine bestimmte Ausprägung sein. Wie gelangt man zu Aussage 6.21? Erneute Verwendung von 6.19 bringt das Ergebnis. Liegen bereits m Ausprägungen fest, so sind n − m noch frei wählbar. Die Mächtigkeit von A ist demnach 2n−m . Wegen 1 2n−m = m 2n 2 folgt die Behauptung. Wir haben aus 6.17 und 6.18 die Aussagen 6.19, 6.20 und 6.21 hergeleitet. Die Mächtigkeit der in Frage stehenden Menge A entscheidet gemäß 6.19, über seine Wahrscheinlichkeit. Bei einer Ziehung mit Zurücklegen wird jedes Element mit derselben Wahrscheinlichkeit gezogen (Aussage 6.20). Wird bei Aussage 6.21 zudem beachtet, daß bei jeder Ziehung mit derselben Wahrscheinlichkeit gezogen wird (also 6.20), so erhält man m

P (ω1 , ω2 , . . . , ωˆi1 , . . . ωˆim , . . . , ωn ) =

1 1 . = m 2 2 i=1

(6.22)

6.5. WICHTIGE ZUSAMMENHÄNGE UND BEGRIFFE

115

Dies bedeutet, daß m (1 m n) Ziehungen stochastisch unabhängig voneinander sind. Dieser Begriﬀ wurde noch nicht eingeführt und verweist auf den nachfolgenden Abschnitt 6.5. Der Zusammenhang zwischen dem Wahrscheinlichkeitsraum der Grundgesamtheit und dem der Stichprobe stellt sich wie folgt dar. Der Stichprobenraum ist bestimmt über die Festlegung von Grundgesamtheit und Stichprobenumfang. Über die Grundgesamtheit ergibt sich, wie viele Ausprägungen bei jeder Ziehung überhaupt möglich sind; in unserem Fall war dies beschränkt auf zwei. ˜ n. Der Stichprobenumfang legt die Dimension des Stichprobenraumes fest: Ω = Ω Die Wahrscheinlichkeit einer Ausprägung beim ersten Ziehen ist gleich seiner Eintrittswahrscheinlichkeit in der Grundgesamtheit (siehe 6.17 und entsprechendes gilt für 6.18). In unserem Fall haben wir diese Wahrscheinlichkeit mit 12 angesetzt. Andere Eintrittswahrscheinlichkeiten in der Grundgesamtheit führen gemäß 6.19, 6.20 und 6.21 zu entsprechend geänderten Eintrittswahrscheinlichkeiten in der Stichprobe. Damit wird die Bedeutung des Stichprobenverfahrens deutlich. Ein anderes Vorgehen führt zu anderen Eintrittswahrscheinlichkeiten in der Stichprobe. Die Stichprobenverteilung ändert sich hierdurch und statt einer Binomialverteilung wäre bei einem Ziehen ohne Zurücklegen mit einer hypergeometrischen Verteilung zu hantieren. Dies hat bei der Durchführung eines Tests Einﬂuß auf die Bestimmung von Annahme- und Verwerfungsbereich und damit auf die Testentscheidung. Ist überhaupt nicht klar, wie Daten erhoben wurden, so kann die Stichprobenverteilung nicht bestimmt und damit kein verläßlicher Test durchgeführt werden. Handelt es sich überhaupt nicht um eine Stichprobe, so gilt das gleiche: die Stichprobenverteilung ist unbekannt und Tests sind nicht möglich. Freilich muß einschränkend gesagt werden, daß die vorgestellte Methode nicht die einzige Möglichkeit ist, Verteilungen zu begründen, doch insbesondere bei Befragungen, wie sie in der Marktforschung oder im Personalwesen häuﬁg vorkommen, bei denen aufgrund weniger Befragungen auf die Verhältnisse in der Grundgesamtheit geschlossen werden soll, sind diese Zusammenhänge zu berücksichtigen.

6.5 6.5.1

Wichtige Zusammenhänge und Begriﬀe Rechenregeln

Nachfolgend werden aufbauend auf dem Begriﬀ des Wahrscheinlichkeitsraumes Regelmäßigkeiten dargestellt. Diese gelten für jeglichen Wahrscheinlichkeits˜ F, ˜ P˜ ) ebenso wie für (Ω, F , P ). Vorrangiges Interesse hat raum, also für (Ω, jedoch hier die Anwendung, also die Betrachtung von Stichprobenräumen. Aus diesem Grund wird ohne Beschränkung der Allgemeinheit die Notation (Ω, F , P ) verwandt. Wenn ein Wahrscheinlichkeitsraum (Ω, F , P ) gegeben ist, so gelten folgende Regelmäßigkeiten. P (∅) = 0, (6.23)

116

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME P (Ω A) = 1 − P (A),

(6.24)

P (A ∪ B) = P (A) + P (B) − P (A ∩ B),

(6.25)

P (A ∪ B) P (A) + P (B),

(6.26)

A ⊆ B ⇒ P (A) P (B),

(6.27)

P (A) 1.

(6.28)

Regel 6.24 ist eine Konsequenz der bei der Deﬁnition eines Wahrscheinlichkeitsraumes vorgenommenen Normierung in 6.13.

6.5.2

Bedingte Wahrscheinlichkeit

In der beschreibenden Statistik haben wir den Begriﬀ der bedingten Verteilung eingeführt. Dort bezog er sich auf relative Häuﬁgkeiten. In Abschnitt 6.3 haben wir die relative Häuﬁgkeit in Verbindung mit einem Ergebnisraum (oder Stichprobenraum) und einem σ-Ring als ein Wahrscheinlichkeitsmaß kennengelernt. So wundert es nicht, daß in der Wahrscheinlichkeitstheorie der Begriﬀ der bedingten Wahrscheinlichkeit eingeführt worden ist. Bei gegebenem Wahrscheinlichkeitsraum (Ω, F , P ) und zwei Ereignissen A und B aus dem Sigma-Ring heißt P (A|B) :=

P (A ∩ B) , mit P(B) > 0 P (B)

(6.29)

bedingte Wahrscheinlichkeit oder genauer: die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung von B. Die Forderung P(B)>0 soll sicherstellen, daß die bedingte Wahrscheinlichkeit auch deﬁniert ist. Dieses Maß gibt an, wie groß die Wahrscheinlichkeit des Eintritts von A ist, wenn B bereits eingetreten ist. Damit eignet es sich zur Berechnung von Wahrscheinlichkeiten, wenn Vorinformationen vorhanden sind.

6.5.3

Stochastische Unabhängigkeit

Ein wichtiger Begriﬀ der Wahrscheinlichkeitstheorie ist der der stochastischen Unabhängigkeit. Angenommen, es gibt zwei Ereignisse A und B aus dem σ-Ring F. Sie heißen stochastisch unabhängig, wenn gilt: P (A ∩ B) = P (A) · P (B).

(6.30)

Dieser Begriﬀ steht in engem Zusammenhang zu dem der bedingten Wahrscheinlichkeit. Bei folgenden Aussagen folgt eine aus der anderen: es ist ein Ringschluß, was nicht mit einem Zirkelschluß verwechselt werden sollte! Aus diesem Grund sind alle Aussagen äquivalent zueinander. 1. Wenn A und B stochastisch unabhängig sind, so ist P (A|B) = P (A).

6.5. WICHTIGE ZUSAMMENHÄNGE UND BEGRIFFE

117

2. Aus P (A|B) = P (A) folgt P (B|A) = P (B) 3. Wenn P (A|B) = P (A) gilt, so sind A und B stochastisch unabhängig. 4. Aus A und B sind stochastisch unabhängig folgt auch die stochastische Unabhängigkeit von A und B. 5. Sind A und B stochastisch unabhängig, so sind es auch A und B. 6. Aus der stochastischen Unabhängigkeit von A und B folgt die von A und B.

6.5.4

Multiplikationssatz

Durch Umstellen der Deﬁnition der bedingten Wahrscheinlichkeit 6.29 erhält man den Multiplikationssatz in seiner einfachsten Form: P (A ∩ B) = P (A|B)P (B).

(6.31)

Die Präsentation in allgemeinerer Form erfordert eine neue Notation. Seien A1 , A2 , . . . , An ∈ F, wobei F ein Sigma-Ring zu dem Ergebnisraum Ω mit wohldeﬁniertem Wahrscheinlichkeitsmaß P sei. Dann ist P (A1 ∩ · · · ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · · · P (An |P A1 ∩ . . . An−1 ). (6.32) Auf der rechten Seite von 6.32 stehen bedingte Wahrscheinlichkeiten mit Zähler und Nenner. Freilich ergeben sich Probleme, wenn einer dieser Nenner gleich Null sein sollte, weil dann die bedingte Wahrscheinlichkeit nicht deﬁniert wäre. Sollte ein solcher Fall eintreten, so wird P (A1 ∩ · · · ∩ An ) gleich Null gesetzt.

6.5.5

Satz von der totalen Wahrscheinlichkeit

Ausgangspunkt ist ein Wahrscheinlichkeitsraum (Ω, F , P ) mit einer abzählbaren Folge disjunkter Ereignisse A1 , A2 , · · · ∈ F. Disjunkt bedeutet, daß die Schnittmenge beliebiger, voneinander verschiedener Ereignisse leer ist, d.h. Ai ∩ Aj = ∅ für i = j. Zudem wird vorausgesetzt, daß Aj = Ω. j

Für ein beliebiges Ereignis aus dem Sigma-Ring F gilt dann: P (B) = P (B|Aj ) · P (Aj ). j

(6.33)

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME

118

Abbildung 6.1: Veranschaulichung des Satzes von der totalen Wahrscheinlichkeit Quelle: eigene Darstellung

Demgemäß läßt sich die Wahrscheinlichkeit eines Ereignisses berechnen als Summe von Wahrscheinlichkeiten P (B∩Aj ), denn P (B|Aj )·P (Aj ) = P (B∩Aj ). Der Zusammenhang ist für j = 3 in Abbildung 6.1 dargestellt. Die Vereinigung aller Schnittmengen Aj ∩ B ergibt wieder B, weshalb intuitiv Zusammenhang 6.33 plausibel erscheint. Die Veranschaulichung des Zusammenhangs über ein Baumdiagramm, wie in 6.2 legt eine weitere Interpretation nahe. Die Ziehung einer Stichprobe kann in zwei Stufen erfolgen. Erstens wird im Anfangsknoten gemäß der Wahrscheinlichkeiten P (Aj ) eine Menge Aj zufällig gewählt. Im zweiten Schritt wählt man entsprechend der Wahrscheinlichkeit P (B|Aj ) zufällig ein Element aus. Der Satz von der totalen Wahrscheinlichkeit besagt also, daß das zufällige Ziehen einer Stichprobe in zwei Schritten erfolgen kann.

6.5.6

Satz von Bayes

Wiederum setzen wir abzählbare, paarweise disjunkte Ereignisse A1 , A2 , · · · ∈ F voraus (also wieder Ai ∩Aj = ∅ für i = j) und die Vereinigung aller Aj sei gleich dem Ergebnisraum Ω, dann gilt der Satz von Bayes: P (B|Ak ) · P (Ak ) . P (Ak |B) = j P (B|Aj ) · P (Aj )

(6.34)

Dieser Zusammenhang läßt sich zurückführen auf die Deﬁnition der bedingten Wahrscheinlichkeit. Denn es kann geschrieben werden: P (B|Ak ) · P (Ak ) = P (B ∩ Ak ). Außerdem ist, wegen des Satzes von der totalen Wahrscheinlichkeit folgende Schreibweise korrekt: P (B|Aj ) · P (Aj ) = P (B). j

6.5. WICHTIGE ZUSAMMENHÄNGE UND BEGRIFFE

Abbildung 6.2: Baumdiagramm Quelle: eigene Darstellung

119

120

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME

Damit kann 6.34 umgeschrieben werden zu P (Ak |B) =

P (B ∩ Ak ) P (B).

(6.35)

Dies entspricht aber, wie behauptet, gerade der Deﬁnition der bedingten Wahrscheinlichkeit. Der Satz von Bayes spielt in der Statistik bei der Herleitung von BayesSchätzfunktionen (siehe Bamberg und Baur (1984), S. 156ﬀ und S. 249ﬀ) eine bedeutende Rolle. Das zu behandelnde Problem besteht im einfachsten Fall darin, einen Parameterwert, zum Beispiel den Mittelwert, zu schätzen. Besitzt man über Parameterwerte, beispielsweise den Mittelwert, bereits vorab Informationen, so möchte man nicht nur die Stichprobe, sondern auch diese Vorinformationen in die Schätzung des Mittelwertes eingehen lassen. An dieser Stelle kommt der Satz von Bayes zur Anwendung.

6.5.7

Diskreter Wahrscheinlichkeitsraum

Zwecks Deﬁnition eines diskreten Wahrscheinlichkeitsraumes gehen wir von einem Ergebnisraum Ω mit abzählbar endlichen oder abzählbar unendlichen Ergebnissen ω ∈ Ω aus. Mit anderen Worten können wir die ω durchzählen. Es mögen endlich viele sein, aber es könnte auch unendlich viele Elemente im Ergebnisraum Ω geben. Die Ergebnisse seien zudem paarweise disjunkt, also ωi ∩ ωj = ∅ für i = j. Die Eintrittswahrscheinlichkeit des Ereignisses ωi sei pi ∈]0, 1] für i = 1, 2, . . . und die Normierungsvorschrift pi = 1 i

werde eingehalten. Dann sind in der Tat die Bedingungen 6.11, 6.12 und 6.13, die an einen Wahrscheinlichkeitsraum gestellt werden, erfüllt. Der so gebildete Wahrscheinlichkeitsraum (Ω, F , pi ) heißt diskret. pi werden Punktmassen oder Punktwahrscheinlichkeiten und die ωi Trägerpunkte genannt. Die so deﬁnierte Wahrscheinlichkeit P heißt diskret. Ein Beispiel für einen solchen haben wir bereits kennengelernt. Den zu der Binomialverteilung gehörenden Wahrscheinlichkeitsraum, dessen Ergebnisraum Ω aus einer endlichen Anzahl von n-Tupeln besteht. Jede Stelle dieses Tupels kann mit zwei möglichen Ausprägungen besetzt sein. Bei gegebener Anzahl an weißen Kugeln, k, haben wir jeder unterscheidbaren Permutation eine Punktwahrscheinlichkeit zugeordnet und die Summe über alle Punktwahrscheinlichkeiten ist gleich Eins.

6.6

Abschließende Bemerkungen

Nachdem in den Kapiteln 4 und 5 bereits statistische Tests dargestellt wurden, wird hier die Wahrscheinlichkeitstheorie nachgeholt, die wesentliche Grundlage der statistischen Testtheorie. Es zeigt sich, daß die relative Häuﬁgkeit ein

6.7. KONTROLLFRAGEN

121

Wahrscheinlichkeitsmaß ist. Aus diesem Grund konnten wir uns mit den spärlichen Kenntnissen aus Kapitel 3 über relative Häuﬁgkeit, Verteilungsfunktion und Quantile erste Tests erarbeiten. Man hüte sich jedoch davor zu behaupten, die relative Häuﬁgkeit sei eine Wahrscheinlichkeit. In unserem Standardbeispiel mit weißen und schwarzen Kugeln in der Grundgesamtheit ist der Anteil der weißen Kugeln eine relative Häuﬁgkeit. Erst dann, wenn ein geeignetes Zufallsexperiment aufgesetzt wird, kann die relative Häuﬁgkeit als Wahrscheinlichkeitsmaß herhalten. In unserem Fall bestand das Experiment aus einer einfachen Stichprobe vom Umfang n aus der Grundgesamtheit. Werden Kugeln zufällig anders gezogen, so kann es sein, daß relative Häuﬁgkeiten nicht zur Beschreibung der Ergebnisse geeignet sind. Sind Kugeln beispielsweise unterschiedlich schwer oder besitzen unterschiedliche Oberﬂächen, wodurch die Wahrscheinlichkeit des Ziehens beeinﬂußt wird, so werden die relativen Häuﬁgkeiten des Vorkommens in der Grundgesamtheit zur Beschreibung der Eintrittswahrscheinlichkeiten kaum geeignet sein. In vorliegendem Kapitel wurde klar, daß relative Häuﬁgkeiten nicht das einzige Wahrscheinlichkeitsmaß sind. Es gibt ihrer viele und sie sind notwendig, um je nach Problemstellung das geeignete zu ﬁnden. Allen Wahrscheinlichkeitsmaßen jedoch ist gemeinsam, daß sie sich auf einen wohldeﬁnierten Wahrscheinlichkeitsraum zurückführen lassen. Praktische Konsequenz dessen ist, daß jede Wahrscheinlichkeit größer oder gleich Null und kleiner oder gleich Eins ist. Zudem wurde deutlich, daß der Wahrscheinlichkeitsraum der Stichprobe über das gewählte Stichprobenverfahren von dem Wahrscheinlichkeitsraum der Grundgesamtheit abhängt. Eine Änderung des Stichprobenverfahrens führt zu anderen Wahrscheinlichkeiten des Stichprobenraumes. Analog zur statistischen Unabhängigkeit in Kapitel 3 gibt es das Konzept auch in der Wahrscheinlichkeitstheorie; jetzt heißt es stochastische Unabhängigkeit. Hier wie da gibt es Bezüge zur bedingten Verteilung bzw. bedingten Wahrscheinlichkeit. Spätestens bei der Bearbeitung der Aufgaben wird klar, daß die dargestellten mathematischen Lehrsätze zur Lösung praktischer Probleme nützlich sind. “Nichts ist eben so praktisch wie eine gute Theorie” pﬂegte Ulrich Fehl (Volkswirtschaftsprofessor in Marburg) zu sagen.

6.7

Kontrollfragen

˜= 1. Warum muß in der Wahrscheinlichkeitstheorie gefordert werden, daß Ω ∅? 2. Welche Bedingungen muß eine Menge F erfüllen, damit er die Anforderungen erfüllt, die sinnvollerweise an die Deﬁnitionsmenge eines Wahrscheinlichkeitsmaßes gestellt werden? 3. In welchem Zusammenhang stehen der Ergebnisraum der Grundgesamtheit und der Stichprobenraum?

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME

122

4. Erläutern Sie, weshalb bei der praktischen Arbeit die Art des Stichprobenverfahrens so wichtig ist. 5. Wie kann man überprüfen, ob zwei Ereignisse stochastisch unabhängig voneinander sind? Geben Sie mindestens zwei Möglichkeiten an. 6. Welche praktische Bedeutung fällt dem Satz von der totalen Wahrscheinlichkeit zu? 7. Welche praktische Bedeutung hat der Satz von Bayes?

6.8

Aufgaben

1. Zeigen Sie, daß A = A gilt, wie auf Seite 6.6 behauptet. 2. Zeigen Sie durch ein kleines Beispiel, daß folgender Zusammenhang gilt: A1 \A2 = A1 ∩ A2 . 3. Zeigen Sie, daß P (∅) = 0, indem Sie veranschaulichen, daß die Forderungen, die an einen Wahrscheinlichkeitsraum gestellt werden, eingehalten ˜ aus.73 werden. Gehen Sie von einem endlichen Ergebnisraum Ω 4. Gehen Sie von einem Laplaceschen Wahrscheinlichkeitsraum aus. Zeigen Sie, daß die Rechenregeln 6.23 bis 6.28 gelten. 5. Was ist der Unterschied zwischen P (A1 \A2 ) und P (A1 |A2 )?74 6. Eine relative Häuﬁgkeit erfüllt die Eigenschaften, die an ein Wahrscheinlichkeitsmaß gestellt werden. Wieso ist aber nicht jede relative Häuﬁgkeit gleichzeitig auch ein Wahrscheinlichkeitsmaß?75 7. Ein Pharmaunternehmen sucht in den Bereichen Onkologie(O), Depression (D), und Alzheimer (A) nach neuen Wirkstoﬀen. Die Wahrscheinlichkeiten zur Entwicklung eines marktreifen Produktes werden wie folgt eingeschätzt. Krankheit Eintrittswahrscheinlichkeit

Onkologie (O) 0,7

Depression (D) 0,6

Alzheimer (A) 0,4

Es wird davon ausgegangen, daß der Erfolg der Projekte O, D und A stochastisch unabhängig von einander sind. Berechnen Sie die Wahrscheinlichkeit, daß (a) alle Entwicklungen, (b) mindestens eine,

6.8. AUFGABEN

123

(c) genau zwei, (d) keine erfolgreich sind.76 8. (Ω, F , P ) sei ein Wahrscheinlichkeitsraum. A und B seien jeweils im σRing von Ω und P (A) > 0 sowie P (B) > 0. Zeigen Sie, daß77 p(A|B) + P (A|B) = 1. 9. Sie sind Marketingleiter einer Pharmaﬁrma und für den Absatz von AntiMasern-Medikamenten verantwortlich. Eine epidemiologische Untersuchung hat ergeben, daß 1/6 der Bevölkerung gegen Masern geimpft ist. Aus einer früheren Epidemie ist bekannt, daß von dreißig Geimpften zwei Personen an Masern erkrankt sind und von 7 Erkrankten einer geimpft war. Mit A werde das Ereignis, daß eine Person erkrankt ist, gekennzeichnet. B stehe für ’Person ist geimpft’. (a) Wie groß ist die Wahrscheinlichkeit, daß eine Person an Masern erkrankt? (b) Zeigen Sie, daß A und B stochastisch abhängig sind. (c) Wie groß ist die Wahrscheinlichkeit, daß eine Person, die nicht geimpft wurde, an Masern erkrankt?78 10. Aus Erfahrung weiß Betriebsleiter Meier, daß die Wahrscheinlichkeit eines Ausfalls einer Drehbank gleich 0, 05 ist. Es kommt ein Großauftrag herein und der Firmeninhaber möchte wissen, mit welcher Wahrscheinlichkeit (a) (b) (c) (d)

genau zwei Drehbänke, höchstens eine, mindestens eine sowie überhaupt keine Drehbank ausfällt.

Können Sie die Angaben machen?79 11. In einer Fabrik gibt es drei Arbeitsgruppen, die zur Produktion einer Pumpe zusammen arbeiten müssen. Gruppe 1 liefert den Input für Gruppe 2 und jene den Input für Gruppe 3. Nur dann, wenn alle gut zusammenarbeiten, wird es möglich sein, den gesetzten Termin einzuhalten. Es wird angenommen, daß die Motivationen der Gruppen wie folgt untereinander abhängig sind, wobei P (Ai ) die Wahrscheinlichkeit sei, daß Gruppe i = 1, 2, 3 motiviert ist. Die Wahrscheinlichkeit, daß Gruppe 2 motiviert ist, hängt von dem Arbeitsergebnis der Gruppe 1 und damit deren Motivation ab. Ist Gruppe 1 motiviert, so ist Gruppe 2 mit Wahrscheinlichkeit 0,9 ebenfalls motiviert. Die Motivation der Gruppe 3 hängt von der Motivation der beiden anderen Gruppen ab. Sind die beiden anderen motiviert, so ist die Wahrscheinlichkeit, daß auch die dritte motiviert ist, gleich 0,8.80

124

KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME (a) Wie hoch ist die Wahrscheinlichkeit, daß alle drei Gruppen motiviert sind, wenn Gruppe 1 demotiviert ist? (b) Wie groß ist die Wahrscheinlichkeit, daß der Termin eingehalten wird, wenn die Wahrscheinlichkeit des Arbeitserfolges der Gruppe 1 auf 0,5 steigt?

Kapitel 7

Abbildungen von Ergebnisräumen 7.1

Einleitung

In Kapitel 6 wurde der Begriﬀ des Wahrscheinlichkeitsraumes eingeführt. Er basiert auf Mengen als da wären Ergebnisraum und Ereignisraum. Mit unstrukturierten Mengen zu hantieren ist mitunter recht umständlich. Aus diesem Grund ist man bemüht, diese auf Größen abzubilden, mit denen man gewohnt ist umzugehen. Die Ausführungen dieses Kapitels zielen genau hierauf ab. Der Ergebnisraum Ω soll auf die reellen Zahlen abgebildet werden. Die Abbildung, aber auch das Ergebnis dieser Abbildung, heißt Zufallsvariable. Bei diesem Bestreben sollen allerdings die eingeführten Begriﬀe nicht ihre Bedeutung verlieren. Wahrscheinlichkeitsraum, Ergebnisram, Sigma-Ring und Wahrscheinlichkeitsmaß haben sich als sinnvolle Begriﬀe erwiesen. Aus diesem Grund sollten die neu einzuführenden Termini auf diesen aufbauen. Der neu zu deﬁnierende Wahrscheinlichkeitsraum soll seine Eigenschaften von dem zugrundeliegenden ’erben’. Zu diesem Zweck wird in Abschnitt 7.2 der Begriﬀ der Meßbarkeit eingeführt. Abbildungen des Ergebnisraumes auf die reellen Zahlen, so wird dann gefordert, sollen meßbar sein. Auf Basis dieses Begriﬀes werden in Abschnitt 7.2.2 Zufallsvariablen deﬁniert, eindimensionale wie auch mehrdimensionale. Im zweidimensionalen Fall kann die zugehörige Wahrscheinlichkeitsverteilung in einer Kontingenztabelle dargestellt werden. In Kapitel 3.5 wurde die empirische Verteilungsfunktion als eine Möglichkeit dargestellt, Informationen zu verdichten. Dieselbe Technik wird auch in der Wahrscheinlichkeitstheorie verwendet. Wir wissen: die Verteilungsfunktion steht in engem Zusammenhang zur relativen Häuﬁgkeit und deren Verteilung. In Kapitel 6 haben wir bereits mit einer Verteilungsfunktion der Wahrscheinlichkeitstheorie gearbeitet. Dies war möglich, weil das Wissen um empirische Verteilungsfunktion, Quantile und relative Häuﬁgkeitsverteilung den Weg ebneR. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_7, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

126

KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN

te. Die Verteilungsfunktion und ihre Notation in der Wahrscheinlichkeitstheorie wird in Abschnitt 7.3.1 eingeführt. In Kapitel 6.5.7 wurde der diskrete Wahrscheinlichkeitsraum und aufbauend hierauf werden im vorliegenden Kapitel diskrete Zufallsvariablen deﬁniert. In der praktischen Arbeit ﬁnden jedoch häuﬁg stetige Zufallsvariablen Verwendung, die in Abschnitt 7.3.2 zusammen mit der Dichtefunktion eingeführt werden. Verteilungsfunktionen und zugehörige Wahrscheinlichkeitsverteilungen bzw. im stetigen Fall Dichtefunktionen sind häuﬁg durch einige wenige Maßzahlen eindeutig charakterisiert. Um ein Statistikprogramm sinnvoll anwenden zu können, ist das Wissen und Verstehen dieser Kenngrößen unentbehrlich. Die wichtigsten Maße und zugehörigen Rechenregeln werden in Abschnitt 7.4 präsentiert. In der schließenden Statistik, gelegentlich auch induktive Statistik genannt, werden Bereiche berechnet, in die mit vorgegebener Sicherheitswahrscheinlichkeit, 1 − α, der ’wahre’ oder unbekannte Parameter einer Verteilungsfunktion zu liegen kommt. Diesen Bereich nennt man Konﬁdenzintervall. Zu seiner Berechnung ist die Beherrschung der Standardisierung notwendig, die in Abschnitt 7.4.3 vorgestellt wird. Diese Methode ist auch nötig, wenn man mit Hilfe von statistische Tests nachvollziehen will, die in älteren Lehrbüchern zu ﬁnden sind.

7.2 7.2.1

Meßbarkeit und Zufallsvariable Meßbarkeit

Zwecks Deﬁnition der Meßbarkeit gehen wir davon aus, daß es zwei beliebige ˜ gibt. Jede dieser Mengen sei der σ-Ring F bzw. F˜ nichtleere Mengen Ω und Ω zugeordnet. Dann heißt eine Abbildung ˜ →Ω f :Ω

mit

∀A ∈ F : f −1 (A) ∈ F˜

(7.1)

˜ F-F-meßbar. Die Bedeutung dieses Begriﬀs wird deutlich, wenn man sich klar macht, daß bei Vorliegen einer meßbaren Abbildung f das Wahrscheinlichkeitsmaß P (A) auf P (f −1 (A)) zurückgeführt werden kann. Dies ist genau dann der ˜ -meßbaren AbbilFall, wenn gezeigt werden kann, daß bei Vorliegen einer F-F −1 dung f die Wahrscheinlichkeit P (A) über P (f (A)) korrekt deﬁniert ist. Mit anderen Worten muß gezeigt werden, daß P (A) die Bedingungen 6.11, 6.12 und 6.13 erfüllt. ˜ daß P (A) ˜ • Überprüfung von Bedingung 6.11. Gemäß 6.11, gilt für alle A, 0. Folglich gilt wegen der Voraussetzung der Meßbarkeit für ein beliebiges A ∈ F : P (A) = P (f −1 (A)) 0. • Überprüfung von Bedingung 6.12. Wenn A1 , A2 , · · · ∈ F und für i = j gilt, daß Ai ∩ Aj = ∅, dann gilt auch f −1 (A1 ), f −1 (A2 ), · · · ∈ F,

7.2. MEBARKEIT UND ZUFALLSVARIABLE

127

wobei f −1 (Ai ) und f −1 (Aj ) für i = j paarweise disjunkt sind. Denn es gilt für eine Abbildung f : A → B mit B1 , B2 ∈ B: f −1 (B1 ∩ B2 ) = f −1 (B1 ) ∩ f −1 (B2). Da zudem gilt f −1 (

∞

Ak ) =

k=1

∞

f −1 (Ak ),

k=1

können wir auch schreiben P(

∞

Ak ) = P (f −1 (

k=1

∞

Ak )) = P (

k=1

=

∞

∞

f −1 (Ak ))

k=1

P (f −1 (Ak )) =

k=1

∞

P (Ak ).

k=1

• Überprüfung von Bedingung 6.13. Dies ist am einfachsten zu zeigen. Denn ˜ P (Ω) = P (f −1 (Ω)) = P (Ω). Damit ist klar, daß P (A) über P (f −1 (A)) richtig deﬁniert ist, da die an ein Wahrscheinlichkeitsmaß geknüpften Bedingungen über die Voraussetzung der Meßbarkeit erfüllt werden. Die so deﬁnierte Wahrscheinlichkeit P (A) := P (f −1 (A)) heißt Bildwahrscheinlichkeit von P bezüglich der Abbildung f .

7.2.2

Zufallsvariablen

Die Deﬁnition der Meßbarkeit gründet lediglich auf zwei beliebigen nichtleeren Mengen und ist eine wichtige Voraussetzung bei der Deﬁnition des Begriﬀs Zufallsvariable. Eine eindimensionale Zufallsvariable X ist deﬁniert als Abbildung X:Ω→

,

(7.2)

die F − B1 -meßbar ist. B1 ist der σ-Ring der Zufallsvariablen X. Ist Ω Element des Wahrscheinlichkeitsraumes (Ω, F , P ), so kennzeichnet man die Bildwahrscheinlichkeit von P bezüglich X mit QX . Sie heißt auch Wahrscheinlichkeitsverteilung der Zufallsvariablen X. Ist der Wahrscheinlichkeitsraum (Ω, F , P ) diskret, so sagen wir, daß die Zufallsvariable X und ihre Wahrscheinlichkeitsverteilung QX diskret sind. Die Wahrscheinlichkeit P (B) eines Ereignisses B ∈ B1 ist gleich der Bildwahrscheinlichkeit der Abbildung X, also QX (B) = P −1 (B) = P {ω|ω ∈ Ω ∧ X(ω) ∈ B}

(7.3)

Anstatt diese umständliche Schreibweise zu benutzen, führt man die Menge {X ∈ B} := {ω|ω ∈ Ω ∧ X(ω) ∈ B}

(7.4)

128

KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN

ein und bezeichnet sie als durch Bedingungen über X bestimmtes Ereignis aus F . Ganz analog schreibt man für {X a} = {ω|ω ∈ Ω ∧ X(ω) a}

(7.5)

{X = a} = {ω|ω ∈ Ω ∧ X(ω) = a}.

(7.6)

und Es ist möglich, daß an einem Merkmalsträger ω mehrere Merkmale ’kleben’. In diesem Fall deﬁniert man eine n-dimensionale Zufallsvariable als Abbildung X:Ω→ mit n ∈

n

und wir schreiben X(ω) = X1 (ω), X2 (ω), . . . , Xn (ω) = (X1 , X2 , . . . , Xn ).

Die Abbildung QX : B → mit der Vorschrift ∀B ∈ B : QX (B) = P (X −1 (B))

(7.7)

nennen wir gemeinsame Wahrscheinlichkeitsverteilung der n-dimensionalen Zufallsvariablen X. Die Wahrscheinlichkeitsverteilung der i-ten Komponente von X = (X1 , X2 , . . . , Xi , . . . , Xn ) ist die zugehörige Randverteilung. Im Falle einer zweidimensionalen Zufallsvariablen läßt sich, wie Seite 53 dargestellt, ebenfalls eine Kontingenztabelle herleiten. Anstatt der absoluten oder relativen Häuﬁgkeiten erscheint in der Tabelle die gemeinsame Wahrscheinlichkeit QX (xij ). Die Zeilennamen sind gleich den Ausprägungen der Zufallsvariablen X1 und die der Spalten sind gleich den Ausprägungen der Zufallsvariablen X2 .

7.3 7.3.1

Verteilungsfunktion und Dichte Verteilungsfunktion

Die Verteilungsfunktion der Zufallsvariablen X ist analog zu der Verteilung in der deskriptiven Statistik deﬁniert: Sie ist eine Abbildung FX :

→

mit FX (x) := QX ] − ∞, x] = P (X x), mit x als Realisierung der Zufallsvariablen X. P steht für Wahrscheinlichkeit.

(7.8)

7.3. VERTEILUNGSFUNKTION UND DICHTE

129

Sie hat dieselben Eigenschaften wie die Verteilungsfunktion in der deskriptiven Statistik: sie ist an Sprungstellen rechtsseitig, nicht aber linksseitig stetig. Zudem ist sie monoton steigend. Wenn x gegen minus unendlich strebt, so strebt die Verteilungsfunktion gegen Null; strebt x gegen plus unendlich, so strebt die Verteilung in Richtung 1. Wir sprechen von einer diskreten Verteilungsfunktion, wenn die zu Grunde liegende Zufallsvariable diskret ist. Wir gehen davon aus, daß a, b ∈ , a < b und FX (a − 0) :=

lim FX (a − h),

h>0,h→0

dann gilt: QX {a} = FX (a) − FX (a − 0).

(7.9)

Ist QX {a} = FX (a) − FX (a − 0) > 0, so ist a eine Sprungstelle der Verteilungsfunktion FX (.). QX (x) gibt die zugehörige Sprunghöhe an. Wir sagen, die Sprungstellen sind die Trägerpunkte von Punktwahrscheinlichkeiten. Die Punktwahrscheinlichkeiten und die Sprunghöhen stimmen miteinander überein. Zudem gelten folgende Zusammenhänge: QX ]a, b] = FX (b) − FX (a),

(7.10)

QX ]a, b[= FX (b − 0) − FX (a),

(7.11)

QX [a, b] = FX (b) − FX (a − 0),

(7.12)

QX [a, b[= FX (b − 0) − FX (a − 0),

(7.13)

QX ] − ∞, b] = FX (b),

(7.14)

QX ] − ∞, b[= FX (b − 0),

(7.15)

QX ]a, ∞] = 1 − FX (a),

(7.16)

QX [a, ∞[= 1 − FX (a − 0).

(7.17)

In dem Falle, daß mehrere Merkmale an einem Merkmalsträger ω ’kleben’ lassen sich auch mehrdimensionale Verteilungsfunktionen deﬁnieren. Wir bezeichnen die Abbildung FX : n → mit der Abbildungsvorschrift FX (x1 , x2 , . . . , xn ) = QX (] − ∞, x1 ], × · · · ×] − ∞, xn ])

(7.18)

für alle (x1 , x2 , . . . , xn ) ∈ n als gemeinsame Verteilungsfunktion der Zufallsvariablen X = (X1 , X2 , . . . , Xn ). Die Verteilungsfunktion FXi mit i ∈ {1, 2, . . . , n} bezeichnet man als Randverteilungsfunktionen der gemeinsamen Verteilung FX .

KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN

130

7.3.2

Dichte

Bei diskreten Zufallsvariablen ist die Wahrscheinlichkeitsverteilung (oder Wahrscheinlickeitsmassefunktion) von Zufallsvariablen das Analogon zur relativen Häuﬁgkeitsverteilung in der deskriptiven Statistik. Man verwechsle jedoch beide nicht miteinander! Die Binomialverteilung ist ein Beispiel für die Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariablen. Sie ist allgemein deﬁniert als (7.19) QX (x) := P (X = x), d.h. sie ist gleich der Wahrscheinlichkeit des Auftretens von x. Die Wahrscheinlichkeit QX (x) ist größer oder gleich Null und kleiner oder gleich Eins. Die Summe der Wahrscheinlichkeiten aller Massepunkte, d.h. Werte, bei denen QX (x) > 0 , ist gleich Eins. Eine Zufallsvariable X und ihre Wahrscheinlichkeitsverteilung QX sowie ihre Verteilungsfunktion FX heißen stetig, wenn die Abbildung fX :

→

folgende Eigenschaften hat: ∀x ∈

gilt, daßfX (x) 0, b ∀a, b ∈ ∪ {−∞, +∞} : fX (x)dx existiert, a x fX (t)dt. ∀x ∈ : FX (x) =

(7.20) (7.21) (7.22)

−∞

Diese Abbildung fX nennen wir Dichte oder Dichtefunktion. Liegt eine stetige Zufallsvariable mit der Verteilungsfunktion FX vor, so erhält man ihre Dichtefunktion durch Ableitung ihrer Verteilungsfunktion an allen Stetigkeitsstellen, d.h. an Stellen, bei denen keine Knicke oder Sprungstellen sind: dF X (x) = fX (x0 ). (7.23) dx x=x0 Wahrscheinlichkeiten im Bereich [a, b], QX [a, b], mit a, b ∈ lassen sich berechnen über QX [a, b] = QX ]a, b[= QX ]a, b[= QX [a, b[ b fX (x)dx. = FX (b) − FX (a) =

und a < b (7.24)

a

Insbesondere gilt

+∞ −∞

fX (x)dx = 1,

(7.25)

die Normierungsvorschrift. Der Unterschied zur Wahrscheinlichkeitsverteilung diskreter Zufallsvariablen ist, daß fX (x) an einzelnen Stellen x Werte annehmen kann, die größer als Eins sein können, ohne daß hierdurch die Normierungsvorschrift 7.25 verletzt wird. Denn die Fläche fX (x) , die dem Wert x zugeordnet ist, ist bei stetigen Variablen gleich Null.

7.4. MAZAHLEN

7.4 7.4.1

131

Maßzahlen Erwartungswert

Grundlagen Die Lageparameter (Maßzahlen oder Momente) theoretischer Verteilungen dienen, ähnlich denen in der deskriptiven Statistik, ihrer Charakterisierung. Ist der Verteilungstyp bekannt, so genügen häuﬁg einige wenige Maßzahlen und die Verteilung ist vollkommen bestimmt. Die wichtigsten sind Erwartungswert und Varianz. Vorausgesetzt, der Erwartungswert existiert, d.h. |xi | pi < ∞, i

so ist der Erwartungswert bei diskreten Merkmalen deﬁniert als E(X) := xi · QX (xi ),

(7.26)

i

wobei QX die Wahrscheinlichkeitsverteilung und xi die abzählbaren Trägerpunkte sind. Bei stetigen Merkmalen ist er deﬁniert als +∞ x · fX (x)dx , (7.27) E(X) := −∞

mit der Dichtefunktion fX zur Zufallsvariablen X, wobei ebenfalls vorausgesetzt wird, daß er existiert, d.h. +∞ |x| fX (x)dx < ∞. −∞

Der Erwartungswert oder Mittelwert ist das Analogon zum arithmetischen Mittel in der deskriptiven Statistik. Dies wird im diskreten Fall sogleich deutlich, wenn die relative Häuﬁgkeit als Wahrscheinlichkeitsmaß dient. Rechenregeln Gegeben sei eine Zufallsvariable X mit E(X) = μ und eine Abbildung G : R → R mit G(x) = ax + b; und a, b ∈ R , dann existiert der Erwartungswert der Zufallsvariablen G(X)= aX+b und errechnet sich über E(aX + b) = aE(X) + b.

(7.28)

Gegeben sei eine zweidimensionale Zufallsvariable Z=(X,Y), dann gilt E(X + Y ) = E(X) + E(Y )

(7.29)

KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN

132 und

E(X − Y ) = E(X) − E(Y );

(7.30)

sind schließlich die Zufallsvariablen X und Y stochastisch unabhängig, so gilt zudem E(XY ) = E(X) · E(Y ).

7.4.2

(7.31)

Kovarianz, Varianz und Standardabweichung

Grundlagen Gegeben sei eine zweidimensionale Zufallsvariable Z=(X,Y), dann heißt Cov(X, Y ) = σXY = σ11 := E(X − E(X))(Y − E(Y ))

(7.32)

Kovarianz oder gemischte Streuung von X und Y. Für den Fall, daß X=Y erhält man aus der Deﬁnition der Kovarianz die Varianz: 2 Var(X) = σX := E(X − E(X))(X − E(X)) = E(X − E(X))2 .

(7.33)

Wird die Quadratwurzel auf die Varianz angewendet, so erhält man eine Maßzahl, bekannt als Standardabweichung: σ :=

(σ2 ).

(7.34)

Rechenregeln Es gelten folgende Zusammenhänge: Eine Ausklammerung von Konstanten ist möglich über: Cov(aX , bY ) = a ∗ b∗Cov(X, Y ).

(7.35)

Die Addition von Konstanten ändert weder Kovarianz noch Varianz: Cov(X + a, Y + b) = Cov(X, Y ).

(7.36)

Die Kovarianz läßt sich zerlegen (Zerlegungssatz): Cov(X, Y ) = E(XY ) − E(X)E(Y ).

(7.37)

Die Kovarianz ändert sich bei Umstellung der Variablen nicht (Symmetrieeigenschaft): Cov(X, Y ) = Cov(Y, X).

(7.38)

Im Falle von X = Y gelten diese Sätze ganz analog, d.h. sie können entsprechend bei der Varianz angewendet werden.

7.5. ABSCHLIEENDE BEMERKUNGEN

7.4.3

133

Standardisierung

Die Standardisierung einer Zufallsvariablen auf Erwartungswert 0 und Varianz 1 ist wichtig, wenn man bei statistischen Tests Annahme- und Verwerfungsbereich mit Hilfe statistischer Tafeln bestimmen will. Diese Methode wird nach wie vor in vielen Statistiklehrbüchern genutzt. Bei Verwendung eines Programmpaketes wie 'R' ist dies freilich nicht mehr nötig. Dennoch wird sich diese Technik als nützlich erweisen. Will man beispielsweise statt einer Punktschätzung für den Erwartungswert einer Zufallsvariablen einen Bereich (genauer: ein Konﬁdenzintervall) bestimmen, das mit Sicherheitswahrscheinlichkeit (1 − α) den wahren aber unbekannten Erwartungswert überdeckt, so benötigt man diese Technik. Ist X eine Zufallsvariable mit Erwartungswert E(X) und Varianz V ar(X) = 2 σX , dann hat die Variable Z, die aus X durch Z=

X − E(X) σX

(7.39)

2 ) hervorgeht, Erwartungswert Null und Varianz von Eins. mit σX = (σX Denn die Anwendung der Rechenregeln ergibt X − E(X) 1 1 E (E(X) − E(E(X))) = (E(X) − E(X)) = 0. = σX σX σX Außerdem gilt Var(

1 (X − E(X)) ) = 2 Var((X − E(X))). σX σX

Beachtet man zudem, daß E(X) eine Konstante ist, so läßt sich folgendermaßen weiterrechnen: 2 1 1 σX 2 Var((X − E(X))) = 2 Var(X) = 2 = 1, σX σX σX

womit die Behauptungen bewiesen sind.

7.5

Abschließende Bemerkungen

Der Begriﬀ der Zufallsvariablen erleichtert das Leben sehr. Da hierbei vorausgesetzt wird, daß die Abbildung F − B1 -meßbar ist, ist sichergestellt, daß die Wahrscheinlichkeit eines Ereignisses aus dem σ-Ring der Zufallsvariable wohldeﬁniert ist. Über diesen Umweg wird die Verteilungsfunktion QX deﬁniert. Eindimensionale und mehrdimensionale Zufallsvariablen sind möglich. Ähnlich wie bei realen Datensätzen, klebt entweder nur eine Zufallsvariable an einer Person oder Objekt oder es sind mehrere Variablen einer statistischen Einheit zugeordnet. Angenommen es gibt gemeinsam verteilte Zufallsvariablen mit der gemeinsamen Wahrscheinlichkeitsverteilung QX,Y . Dann können zwei verschiedene Darstellungsformen unterschieden werden: entweder wird jedem Wertepaar (Xi , Yi ) die (gemeinsame) Wahrscheinlichkeit QX,Y (xi , yi ) zugeordnet

KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN

134

(siehe Aufgabe 6) oder, analog einer Kontingenztabelle, werden außen die Ausprägungen der Zufallsvariablen und innerhalb der Tabelle die Wahrscheinlichkeiten QXY (xi , yj ) = pij des gemeinsamen Auftretens von (xi , yj ) angegeben (siehe Aufgabe 7). Je nach Darstellungsart, sind leicht abgewandelte Formeln zur Berechnung von Maßzahlen zu verwenden, die jedoch letztlich bei derselben Verteilung zu demselben Ergebnis führen müssen. Alle dargestellten Maßzahlen sind von grundlegender Bedeutung. Die Kovarianz ist die Grundlage zur Deﬁnition einer weiteren Maßzahl, der Korrelation. Aufbauend hierauf befassen sich gleich zwei Kapitel (Kapitel 8 und 9) mit der einfachen bzw. der multivariaten Korrelationsanalyse, die gerade bei der Auswertung von Fragebögen häuﬁg angewandt werden können. In der Regressionsrechnung ermöglicht die Kovarianz eine interessante Interpretation des Steigungsparameters b. Erwartungswert und Varianz sind Lageparameter theoretischer Verteilungen (siehe Kapitel A). Ist der Verteilungstyp, der Erwartungswert und die Varianz bekannt, so sind viele theoretische Verteilungen bereits eindeutig festgelegt. Die Standardisierung erweist sich als notwendig, wenn man, wie früher, statistische Tests durchführen will, man aber keine Software zur Verfügung hat, sondern nur Tabellen. Zudem ist sie notwendig, wenn man Konﬁdenzintervalle herleiten bzw. verstehen will.

7.6

Kontrollfragen

1. Wie wird sichergestellt, daß die Wahrscheinlichkeit einer Zufallsvariable auch deﬁniert ist? 2. Machen Sie anschaulich klar, was Bildwahrscheinlichkeit P (A) := P (f −1 (A)) bedeutet. 3. Ω sei die Grundgesamtheit und X eine dreidimensionale Zufallsvariable zur Grundgesamtheit Ω. Erläutern Sie, was das praktisch bedeutet. 4. Ergänzen Sie: Die Dichtefunktion ist das Analogon zur diskreter Zufallfsvariablen. 5. Welche Rechenregeln (a) zu Erwartungswerten kennen Sie, (b) welche zu Kovarianz und (c) Varianz?

7.7. AUFGABEN

7.7

135

Aufgaben

1. Veranschaulichen Sie 7.10 bis 7.17 graphisch. 2. Eine Zufallsvariable hat die möglichen Ergebnisse 1, 2, 3. Gehen Sie davon aus, daß jedes Elementarereignis mit derselben Wahrscheinlichkeit auftritt. (a) Stellen Sie die Wahrscheinlichkeitsmassefunktion in Tabellenform dar. (b) Berechnen Sie den Erwartungswert und (c) die Varianz. 3. Beweisen Sie die Rechenregeln 7.28 bis 7.31. 4. Berechnen Sie Erwartungswert und Varianz der Bernoulli-Verteilung.81 5. Leiten Sie den Erwartungswert und die Varianz der Binomialverteilung her. Nutzen Sie Ihre Ergebnisse aus Aufgabe 4. 6. Gegeben sei folgende Wahrscheinlichkeitsverteilung zu der zweidimensionalen Zufallsvariablen Z = (X, Y ).82 (Xi , Yk ) pik

(3, 50) 1 2

(7, 60) 1 4

(9, 85) 1 8

(12, 115) 1 8

Berechnen Sie (a) den Erwartungswert jeder Zufallsvariablen, (b) V ar(X) sowie (c) V ar(Y ) und (d) Cov(X, Y ). 7. Gegeben sei die Wahrscheinlichkeitsverteilung der zweidimensionalen Zufallsvariablen Z = (X, Y ). yk xi 1 2 3

3

4

5

1/6 1/12 0

0 1/3 1/6

1/6 0 1/12

(a) Berechnen Sie den Erwartungswert jeder Zufallsvariablen, (b) die Varianzen V ar(X) und V ar(Y ), (c) die Kovarianz Cov(X, Y ) und (d) die Kovarianz Cov(Y, X).83 8. X und Y seien zwei Zufallsvariablen, a, b, c ∈ R sind Konstanten. Berechnen Sie

KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN

136

(a) die Erwartungswerte E(X1 ) und E(Y1 ), (b) die Varianzen V ar(X1 ) und V ar(Y1 ) sowie (c) die Kovarianz Cov(X1 , Y1 ), mit X1 = a · X + b, und

Y1 = c2 · Y.

9. Zufallsvariable X hat folgende Wahrscheinlichkeitsverteilung xi pi

-2 0,05

0 0,20

1 0,10

2 0,25

3 0,40

(a) Bestimmen Sie die Verteilungsfunktion FX und (b) stellen Sie sie graphisch dar. (c) Bestimmen Sie die Verteilungsfunktion der Zufallsvariablen Y , die aus X durch folgende Umformung Y := −4 · X + 5 hervorgeht. und (d) stellen Sie auch sie graphisch dar. 10. Die tägliche Auslieferung frischer Backwaren sei eine normalverteilte Zufallsvariable X mit Erwartungswert 180 Minuten bei einer Standardabweichung von 20 Minuten. (a) Wie groß ist die Wahrscheinlichkeit, daß die Auslieferung weniger als zwei Stunden dauert? (b) Wie groß ist die Wahrscheinlichkeit, daß die Auslieferung mehr als vier Stunden dauert? (c) Wie groß ist die Wahrscheinlichkeit einer Auslieferungszeit zwischen 2,5 und 3,5 Stunden?

Kapitel 8

Einfache Korrelationsanalyse 8.1

Einleitung

Hier interessiert, ob ein Zusammenhang zwischen zwei Zufallsvariablen existiert oder nicht. Damit ergibt sich als erste Aufgabe, näher zu bestimmen, was unter Zusammenhang zu verstehen ist. Wir gehen von einer zweidimensionalen Zufallsvariablen Z = (X, Y ) aus. Die Kovarianz ist eine Maßzahl, die Auskunft gibt über den Zusammenhang der Variablen X und Y : Cov(X, Y ) := E((X − E(X))(Y − E(Y ))). Ist die Abweichung (X −E(X)) positiv, wenn auch (Y −E(Y )) positiv ist und ist (X − E(X)) negativ, wenn auch (Y − E(Y )) negativ ist, so ist die Kovarianz positiv. Denn die Multiplikation zweier positiver Zahlen wie die Multiplikation zweier negativer Zahlen ist positiv. Ist umgekehrt die Diﬀerenz (X − E(X)) negativ, wenn (Y − E(Y )) positiv und umgekehrt, ist (X − E(X)) positiv, wenn (Y − E(Y )) negativ ist, dann ist die Kovarianz negativ. Bewegen sich also X und Y in derselben Richtung, so ist die Kovarianz positiv, bewegen sie sich in entgegengesetzter, so ist sie negativ. Ist die Diﬀerenz (X − E(X)) klein, wenn (Y − E(Y )) groß ist und umgekehrt, ist (X − E(X)) groß, wenn (Y − E(Y )) klein ist, so wird die Kovarianz klein sein. Dies kann ein Hinweis auf stochastische Unabhängigkeit sein. Doch selbst wenn die Kovarianz sehr klein ist, so kann dennoch ein Zusammenhang zwischen X und Y bestehen. Ja, die Kovarianz kann Null sein und dennoch gibt es eine Abhängigkeit zwischen den Variablen. Sind jedoch X und Y stochastisch unabhängig, so ist die Kovarianz gleich Null. Die Anwendung des Erwartungswertoperators ändert an dieser Argumentation nichts. Für den Fall diskreter Zufallsvariablen errechnet sich der Kovarianz R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_8, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

138 über die Formel

Cov(X, Y ) =

l k

pij (Xi − E(X))(Yj − E(Y ))

i=1 j=1

und die Erwartungswerte berechnen sich wie folgt: E(X) =

k

pi. Xi

i=1

bzw. E(Y ) =

l

p.j Yj .

j=1

k, l geben hierbei die Anzahl unterschiedlicher Merkmalsausprägungen an. Die Erwartungswerte sind also zu berechnende Größen, doch ist die Wahrscheinlichkeitsverteilung gegeben, so ändern sie sich nicht. Nun wissen wir vorab nicht, ob zwei Zufallsvariablen stochastisch unabhängig sind oder nicht. Allein die Kovarianz kann errechnet werden. Ist sie jedoch von Null verschieden, so besteht keine stochastische Unabhängigkeit. Auf der Grundlage dieser Zusammenhänge wurden Tests entwickelt, mit denen überprüft werden kann, ob die Kovarianz gleich Null ist oder nicht. Im nächsten Abschnitt wird die Korrelation deﬁniert. Zunächst wird der Begriﬀ aus Sicht der Wahrscheinlichkeitstheorie eingeführt. Anschließend wird die Berechnung der empirischen Korrelation vorgestellt und die Formeln selbiger bei Vorliegen von Wertepaaren präsentiert. Dieser Abschnitt endet mit der Vorstellung vier wichtiger Fälle, die bei Anwendungen von Bedeutung sind. Der Rest des Kapitels nutzt als Gliederungskriterium das Skalenniveau der Variablen. Im zweiten Abschnitt erfolgt die Darstellung von Tests bei kardinal skalierten, danach die bei ordinal skalierten Merkmalen.

8.2 8.2.1

Korrelation Wahrscheinlichkeitstheorie

In der statistischen Praxis wird der Zusammenhang zwischen Zufallsvariablen jedoch nicht über die Kovarianz sondern die Korrelation überprüft. Denn die Kovarianz ist nicht normiert, d.h. sie kann sehr große positive und sehr große negative Werte annehmen. Deshalb weiß man nicht einzuschätzen, ob ein Zusammenhang als groß oder klein zu bewerten ist. Dieses Problem wird durch die Korrelation gelöst. Sie ist deﬁniert als Cov(X, Y ) , Korr(X, Y ) := ρ := V ar(X) V ar(Y ) mit

8.2. KORRELATION

139

Korr(X,Y) bzw. ρ: Korrelation. Cov(X,Y): Kovarianz, Var(X): Varianz von X und Var(Y): Varianz von Y. Die Korrelation kann nur Werte annehmen im Bereich von [−1, 1], ist also, wie gewünscht, normiert. Ist die Kovarianz gleich Null, so triﬀt dies auch auf die Korrelation zu. Das Vorzeichen der Korrelation ist identisch mit dem der Kovarianz. Denn die Quadratwurzeln der Varianzen sind jeweils positiv, weshalb die Korrelation nur bei einer negativen Kovarianz negativ sein kann.

8.2.2

Empirische Korrelation

Nun ist erst einmal eine theoretische Größe deﬁniert. In der Praxis liegen jedoch nach Ziehung einer Stichprobe Realisierungen einer Zufallsvariablen vor. Mit Hilfe dieser wollen wir möglichst gut auf die Verhältnisse in der Grundgesamt zurückschließen. Somit besteht die Aufgabe darin, einen Schätzer für die unbekannte Korrelation zu gewinnen. Hierfür wird die empirische Korrelation verwendet. Sie ist deﬁniert als r :=

s11 (x, y) , s2 (x) s2 (y)

(8.1)

mit s11 (x, y): empirische Kovarianz, s2 (x): empirische Varianz von X und s2 (y): empirische Varianz von Y. Die empirische Kovarianz ist s11 (x, y) :=

k l

hij (xi − x ¯)(yj − y¯),

(8.2)

i=1 j=1

wobei hij die gemeinsame Häuﬁgkeitsverteilung der beiden Variablen x und y ist und k die Anzahl unterschiedlicher Merkmalsausprägungen von x und l diejenigen des Merkmals y sind. und die Formel für die empirische Varianz (oder Stichprobenvarianz) ist n

s2 (x) :=

1 (xi − x ¯)2 . n i=1

(8.3)

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

140

Die Eigenschaften der empirischen Korrelation sind die gleichen wie die der Korrelation in der Wahrscheinlichkeitstheorie. Es gibt verschiedene Deﬁnitionen der Korrelation. Die vorliegende heißt Korrelation nach Bravais-Pearson. Sie unterscheiden sich insbesondere im Hinblick auf das Skalierungsniveau der Variablen. Bei Bravais-Pearson werden kardinal skalierte Merkmale vorausgesetzt. Denn es werden Diﬀerenzen von Variablen gebildet. Die sind jedoch nur bei kardinalen Merkmalen sinnvoll, weil bei nominaler Skalierung man lediglich Ausprägungen voneinander unterscheiden kann und man bei ordinaler nur qualitative Vergleiche ziehen kann. Man kann sagen, ein Haus ist schöner als ein anderes, doch Diﬀerenzenbildung macht hier keinen Sinn, weil sie nicht interpretierbar ist.

8.2.3

Berechnung bei Wertepaaren

In den vorangegangenen Abschnitten wurden die Deﬁnitionen für Kovarianz und empirische Kovarianz (= Stichprobenkovarianz) bei Vorliegen einer gemeinsamen Wahrscheinlichkeitsverteilung bzw. Häuﬁgkeitsverteilung angegeben. Wissen Sie noch, was mit gemeinsamer Verteilung gemeint ist?84 Liegen jedoch Wertepaare an diskreten Zufallsvariablen Z = (X, Y ) = {(X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn )} vor, so berechnet sich die Kovarianz in der Wahrscheinlichkeitstheorie über folgende Formel Cov(X, Y ) =

n

pi (Xi − E(X))(Yi − E(Y )).

(8.4)

i=1

Sofern bei einer Stichprobe Wertepaare an Beobachtungen z = (x, y) = {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} vorhanden sind, dann wird die empirische Kovarianz (oder Stichprobenkovarianz) über n 1 s11 (x, y) = (xi − x ¯)(yi − y¯) (8.5) n i=1 berechnet. Mit ’Wertepaaren an Beobachtungen’ ist nichts weiter gemeint, als daß Daten in Form von Rohdaten vorliegen und an jeder Beobachtung jeweils die zwei interessierenden Merkmale gemessen und ausgewiesen wurden. Falls der Zusammenhang zwischen Kontingenztabelle und Rohdaten unklar sein sollte, so bearbeiten Sie bitte die Aufgaben 5j bis 5l in Kapitel 3.

8.2.4

Beispiele

Um einen besseren Eindruck von der Maßzahl Korrelation zu erhalten, ist es nützlich die Korrelation für ausgesuchte Fälle zu berechnen und graphisch zu

8.2. KORRELATION

141

veranschaulichen. In Abbildung 8.1 sind vier verschiedene Beispiele für Beziehungen zwischen zwei Variablen abgetragen. Die Realisierungen sind in Form von Streudiagrammen, auch bekannt unter dem Namen Scatterplots, dargestellt. An der Abszisse ist jeweils die Variable ’x1’ und an der Ordinate x2, x3 bzw. x4 und im letzten Bild ist an der Abszisse x5 und an der Ordinate x6 abgetragen. Die Beispiele sind nachfolgend beschrieben. Beispiel a Mit Hilfe des Zufallsgenerators in können Realisierungen normalverteilter Zufallsvariablen erzeugt werden. Damit ist sichergestellt, daß wir auch tatsächlich Realisierungen einer normalverteilten Zufallsvariable haben. Auf diese Weise wird zuerst die Variable x1 erzeugt, die Realisierungen einer normalverteilten Zufallsvariablen mit Mittelwert 0 und Standardabweichung 2 sind. Ganz analog wird die Variable x2 generiert, ebenfalls mit Erwartungswert 0, aber diesmal mit Standardabweichung 22. Der Autor erhielt das unten abgebildete Ergebnis. Diese Daten ﬁnden sich in Korrelation1.Rdata. Werden dieselben Schritte von dem Leser unternommen, so werden sich die erzeugten Zahlen von den hier angegebenen unterscheiden. Warum eigentlich?85 > x1 <- rnorm(50, mean=0, sd=2) > x1 [1] -1.15204523 1.74757418 -1.50642468 -0.37293526 -0.61799307 0.91818561 [7] 0.09373976 -2.16817628 -0.65595495 0.39700398 1.64626535 -1.49401302 ... > x2 <- rnorm(50,mean=0,sd=22) > x2 [1] -26.5448163 3.1596591 -2.8589313 17.8617474 7.7142471 -46.3383767 [7] -30.9303737 16.2872737 -1.2653705 4.6119958 -16.4232524 0.1189868 ...

Es handelt sich um eine Punktwolke, die, kaum zu erkennen, mit steigenden x1Werten auch steigende x2-Werte aufweist. Die empirische Korrelation beträgt 0,205, ist also schwach positiv. Trotz dieses Ergebnisses, sollte die Überprüfung der Nullhypothese, daß beide Variablen eine von Null verschiedene Korrelation aufweisen, nicht zu ihrer Ablehnung führen. In diesem Fall sagen wir auch, die Korrelation ist nicht signiﬁkant von Null verschieden. Beispiel b Besteht ein exakt linearer positiver Zusammenhang zwischen den beiden betrachteten Variablen, so ist die empirische Korrelation gleich Eins. In diesem Fall wurde an der Abszisse die Variable x1 und an der Ordinate x3 := 3 ∗ x1 abgetragen. Man kann durch den Nullpunkt eine Gerade legen und alle Punkte liegen auf selbiger. Beispiel c Falls zwischen zwei Variablen ein perfekter linearer negativer Zusammenhang besteht, so verlaufen in einem Scatterplot die Punkte von links oben nach rechts unten. Bei c wurde aus der Variablen x1 die Variable x4 über die Abbildung x4 := 5 − 6 ∗ x1 erzeugt. In diesem Fall ist die Korrelation gleich -1.

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

142

Beispiel b (r = 1)

x3 −10

−40

−5

−20

0

0

x2

5

20

10

40

15

Beispiel a (r = 0,205)

−2

0

2

4

−4

−2

0

2

4

x1

x1

Beispiel c (r = −1

Beispiel d (r = 0)

x6 40

0

20

−10

0

−20

x4

60

10

80

20

100

−4

−4

−2

0

2 x1

4

−10

−5

0 x5

Abbildung 8.1: Streudiagramme (= Scatterplots) Quelle: eigene Darstellung

5

10

8.3. TESTS BEI KARDINALEN MERKMALEN

143

Beispiel d Hier ist ein Fall, bei dem die empirische Korrelation gleich Null ist, obwohl beide Variablen in einem funktionalen Zusammenhang stehen. Nachfolgend sind die verwendeten Befehle angegeben. Mit dem ersten werden Zahlen von -10 bis 10 in Einserschritten erzeugt. Die zweite Anweisung quadriert die Werte der Variablen x5. Berechnet man aus diesen Werten die empirische Korrelation, so erhält man Null. > x5 <- c(-10:10) > x6 <- x5^2

8.3

Tests bei kardinalen Merkmalen

8.3.1

Stetige normalverteilte Zufallsvariablen

Test Die Geschichte ist noch immer nicht zu Ende, denn um den kritischen und den Annahmebereich bestimmen zu können, brauchen wir eine Stichprobenverteilung. Wir benötigen mit anderen Worten eine Größe, deren Stichprobenverteilung bekannt ist. Der Term n−2 (8.6) tn−2 := R 1 − R2 ist unter der Nullhypothese H0 : ρ = 0 und der Voraussetzung, daß Z = (X, Y ) gemeinsam normalverteilt ist, t-verteilt mit (n − 2) Freiheitsgraden, wobei n gleich dem Stichprobenumfang ist. Man beachte, daß hier statt r der Großbuchstabe R verwendet wurde, um deutlich zu machen, daß es sich hierbei um eine Zufallsvariable handelt. Sie wählen wir deshalb als Testgröße, wobei r als Schätzer für die unbekannte Korrelation verwendet wird. Liegt sie links von dem t(n−2), (α) -Quantil oder 2 rechts von dem t(n−2),(1− (α) ) -Quantil, so ist die Nullhypothese zu verwerfen. 2 Denn dann liegt die Testgröße in dem Ablehnungs- oder Verwerfungsbereich. Andernfalls ist sie im Annahmebereich und die Nullhypothese kann nicht verworfen werden. Beispiel In Tabelle 8.1 sind in der ersten Spalte die Umsätze in Filialen einer Einzelhandelskette und in der zweiten die Bruttowertschöpfung der Region abgetragen. Sie sind in der Datei Korrelation.csv hinterlegt. Es wird vermutet, daß zwischen beiden Größen eine signiﬁkante Korrelation besteht. Berechnet werden sollen: 1. die jeweilige empirische Varianz beider Variablen

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

144

Umsatz (U1) 2970 532 299 1200 3463 2643 3630 3294 2000 5008

Bruttowertschöpfung (U2) 23273 5283 2807 5058 20442 15076 28360 19812 12379 20403

Tabelle 8.1: Beispiel: Umsatz - Bruttowertschöpfung Quelle: Daten frei erfunden 2. die empirische Kovarianz und 3. die empirische Korrelation. 4. Zudem soll ein Test durchgeführt werden, der Auskunft darüber gibt, ob zwischen beiden Variablen eine von Null verschiedene Korrelation besteht. α sei gleich 0, 05. Es wird davon ausgegangen, daß die Daten bereits eingelesen sind und die Variablen U 1 und U 2 verwendet werden. Zunächst ist es erforderlich, die Daten in der Liste anzusprechen. Variable U 1 kann über > X$U1 [1] 2970

532

299 1200 3463 2643 3630 3294 2000 5008

am Bildschirm angezeigt werden und bei U 2 verfährt man analog. Die Hilfefunktion > ?var öﬀnet ein Fenster, aus dem nützliche Informationen für die Berechnung der Varianz hervorgeht. Das Format des Befehls ist: var(x, y = NULL, na.rm = FALSE, use) x und y entsprechen unseren Variablen U 1 und U 2. Die Anweisung ’na.rm = FALSE’ bedeutet, daß fehlende Werte nicht entfernt werden sollen. ’na.rm’ ist zu übersetzen mit ’not availables.remove’, also entferne die Missings. Würde man eingeben ’na.rm = TRUE’, so würden Missings entfernt. Der Befehl ’use’ wird benutzt, um vorzugeben, wie bei fehlenden Werten verfahren werden soll. Wir wählen > var(X$U1, [1] 2224821,

na.rm = FALSE, use= "pairwise.complete.obs")

8.3. TESTS BEI KARDINALEN MERKMALEN

145

was bedeutet, daß bei der Berechnung nur solche Werte berücksichtigt werden, bei denen die Beobachtungen paarweise komplett sind. Als korrigierte empirische Varianz ergibt sich 2002339. Denn die Eingabe > var(X$U1,

na.rm = FALSE, use= "pairwise.complete.obs") * 9/10

[1] 2002339, bei der mit dem Korrekturfaktor (n − 1)/n multipliziert wird, ergibt die empirische Varianz. Begründen Sie, warum dies tatsächlich zur empirischen Varianz führt.86 Für die andere Variable errechnen wir > var(X$U2,

na.rm = FALSE, use= ’’pairwise.complete.obs’’) * 9/10

[1] 67686642 und die empirische Kovarianz errechnet sich zu > cov(X$U1, X$U2, use = "all.obs", method = c("pearson"))*9/10 [1] 10179174. Denn hier ist in dasselbe Verfahren implementiert wie bei der Varianz. Auf derselben Hilfeseite ﬁndet sich auch der Befehl zur Berechnung der Korrelation. Er lautet > cor(x, y = NULL, use = "all.obs", method = c("pearson", "kendall","spearman")). Im Vergleich zum Befehl zur Berechnung der Varianz ist lediglich ein Unterschied festzustellen. Es gibt verschiedene Methoden zur Berechnung einer Korrelation. Wir benötigen ’pearson’, da wir kardinal skalierte Merkmale haben und den Korrelationskoeﬃzienten nach Bravais-Pearson berechnen wollen. Der Befehl > cor(X$U1, X$U2, use = "all.obs", method = c("pearson")) [1] 0.874364 führt zum gewünschten Ergebnis. Überprüfen Sie, ob Sie mit den berechneten empirischen Varianzen und der Kovarianz zum selben Ergebnis kommen.87 Die Durchführung des Tests ist mit der verfügbaren Routine > cor.test(X$U1, X$U2,

alternative = c("two.sided"), method =

c("pearson"), exact = NULL, conf.level = 0.95) Pearson’s product-moment correlation data: X$U1 and X$U2 t = 5.0963, df = 8, p-value = 0.0009341 alternative hypothesis: true correlation is not equal to 0

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

0.3 0.2

Annahme− bereich (1−alpha)

Ablehnungsbereich

0.1

Wert der Dichtefunktion

0.4

146

alpha/2

alpha/2

p−value/2

0.0

p−value/2

Ablehnungsbereich

−5

0 t−verteilte Zufallsvariable mit zwei Freiheitsgraden

5

Abbildung 8.2: Veranschaulichung des Tests auf insigniﬁkante Korrelation Quelle: eigene Darstellung

95 percent confidence interval: 0.5444938 0.9699893 sample estimates: cor 0.874364 schnell durchführbar. Es wird die Testgröße angegeben (hier: t = 5.0963) und die Zahl der Freiheitsgrade (df = 8). Es folgt die Wahrscheinlichkeit, die neben der Testgröße liegt. Dieser Wert ist weit unter dem vorgegebenen Signiﬁkanzniveau von 0, 05. Aus diesem Grund muß die Nullhypothese verworfen werden. Mit anderen Worten ist davon auszugehen, daß die Korrelation signiﬁkant von Null verschieden ist. Die Auswertung deutet also darauf hin, daß es einen signiﬁkanten Zusammenhang zwischen Umsatz und Bruttowertschöpfung gibt. Diese Interpretation wird durch Graphik 8.2 nachvollziehbar. Hier ist die Dichte der t-Verteilung angezeigt mit df = 8 Freiheitsgraden. Die beiden äußeren senkrechten gestrichelten Linien geben die Testgröße, links mit −5, 09 und rechts mit +5, 09 an. Die Wahrscheinlichkeit die rechts von −5, 09 liegt ist gleich der rechts von +5, 09 und beträgt p − value/2. Die beiden senkrechten gestrichelten Linien bei −2.31 bzw. +2, 31 sind die beiden α/2-Quantile, links das untere und rechts das obere α/2-Quantil. Links von −2, 31 und rechts von +2, 31 liegen jeweils α/2 an Wahrscheinlichkeitsmasse. Da links der Testgröße

8.3. TESTS BEI KARDINALEN MERKMALEN

147

−5, 09 und rechts von +5, 09 jeweils weniger an Wahrscheinlichkeitsmasse liegt als durch das Signiﬁkanzniveau vorgegeben ist, liegt die Testgröße = +5, 09 im Verwerfungsbereich. Daß rechts von +5.09 tatsächlich p − value/2 an Wahrscheinlichkeit ist, ergibt sich über folgende Rechnung. > 2*(1-pt(5.0963,10-2,lower.tail=TRUE)) [1] 0.0009341098 Zudem ist das Konﬁdenzintervall angegeben. Es gibt bei vorgegebener Sicherheitswahrscheinlichkeit (hier gleich 0, 95) das Intervall an, in dem mit einer Wahrscheinlichkeit von 0, 95 der wahre, aber unbekannte Parameter ρ liegt. In vorliegendem Fall ist dies das Intervall [0, 544; 0, 970]. In unserem Fall liegt der Schätzer r im Konﬁdenzbereich und die Null ist kein Element dieses Intervalls. Ein Problem freilich bleibt. Bei diesem Testverfahren wird vorausgesetzt, daß die Zufallsvariablen gemeinsam normalverteilt sind. Wenn es sich um Daten aus einer echten Erhebung handelt, kann die Gültigkeit der Voraussetzung nicht einfach unterstellt werden, sondern muß mit Hilfe eines adäquaten Testverfahrens überprüft werden. Ergibt eine solche Überprüfung, daß die Variablen nicht gemeinsam normalverteilt sind, so ist die grundlegende Verteilungsannahme verletzt und Verfahren für stetige, nicht-normalverteilte Zufallsvariablen können eingesetzt werden.

8.3.2

Stetige nicht-normalverteilte Zufallsvariablen

Spearmanscher Korrelationskoeﬃzient Grundlagen Bei Anwendungen sind Meßfehler nicht auszuschließen. Sie können so groß sein, daß Tests aufgrund der Beobachtungen dazu führen, daß die Variablen in der Grundgesamtheit nicht normalverteilt sind. Auch ohne Meßfehler vorauszusetzen, ist es möglich, daß sich bei einem Test auf Normalverteilung herausstellt, daß die Merkmale nicht (gemeinsam) normalverteilt sind. In diesen Fällen kann das Testverfahren des Kapitels 8.3.1 nicht angewandt werden. Als Testgröße bei stetig verteilten Zufallsvariablen dienen dann entweder der Spearmansche oder der Kendallsche Korrelationskoeﬃzient. Beide Verfahren werden hier vorgestellt. Anstatt den Korrelationskoeﬃzienten nach BravaisPearson zu nutzen, werden im ersten Schritt Ränge berechnet, die den Ausgangspunkt zur Ermittlung des Spearmanschen wie auch des Kendallschen Rangkorrelationskoeﬃzienten bilden. Bei Sportveranstaltungen erhält der Sieger den Rang 1, der zweite den Rang zwei und so weiter. Solche Ränge sind also ordinal-skaliert. Liegen kardinalskalierte Merkmale vor, so kann man dem höchsten Wert den Rang 1, dem zweithöchsten den Rang zwei und entsprechend alle anderen Rangzahlen vergeben. Da kein besonderer Grund vorliegt, dem höchsten Wert den Rang 1 zuzuordnen, könnte man auch dem niedrigsten Wert einer Zahlenreihe den Rang 1 zuordnen, dem zweitniedrigsten den Rang zwei und so fort. Auf welche der beiden Arten man die Ränge zuordnet ist im folgenden nebensächlich. Entscheidend ist nur, daß bei beiden Variablen x und y dasselbe

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

148

Verfahren angewandt wird. Entweder ordnet man bei beiden Variablen jeweils den größten Ausprägungen den Rang 1 zu oder man geht gerade umgekehrt vor. Anstatt der Ursprungswerte werden bei dem Spearmanschen Korrelationskoefﬁzienten dann die Ränge in Formel 8.1 eingesetzt, also s11 (Rang(x), Rang(y)) . ρSpearman = s2 (Rang(x)) s2 (Rang(y))

(8.7)

Das Verfahren nach Kendall ist etwas komplizierter. Beispiel 1

Die Daten dieses Beispiels sind in der Datei

Hartung-S195.Rdata angegeben. In einer empirischen Untersuchung wurde getestet, ob es eine signiﬁkante Korrelation zwischen Schreien von fünf Tage alten Kleinkindern und deren Intelligenz im Alter von drei Jahren gibt. Hierzu wurden die Schreie von 22 Babys und ihre Intelligenz erhoben. (Hartung und Elpelt, 1984, S.192-194). Alternativ zum Einlesen der Datei, können mit den beiden Anweisungen > x1 <- c(19,12,18,16,26,15,27,23,20,21,19,15,17,15,21,16,23, 17,14,18,17,19) > x2 <- c(103,119,124,133,155,112,108,103,90,114,120,100,109, 112,157,118,113,94,106,109,141,132) die Daten eingegeben werden. x1 ist die Anzahl der Schreie und x2 der Intelligenzquotient im Alter von drei Jahren. Die nachfolgenden Befehle dienen zur Berechnung der Ränge. > rank(x1) [1] 14.0 1.0 11.5 6.5 21.0 4.0 22.0 19.5 16.0 17.5 14.0 9.0 4.0 17.5 [16] 6.5 19.5 9.0 2.0 11.5 9.0 14.0 > rank(x2) [1] 4.5 15.0 17.0 19.0 21.0 10.5 7.0 4.5 1.0 13.0 16.0 8.5 10.5 22.0 [16] 14.0 12.0 2.0 6.0 8.5 20.0 18.0

4.0

3.0

Der Wert 11, 5 kommt bei rank(x1) gleich zweimal vor. Es handelt sich um Bindungen (= ’ties’ im Englischen). Die 18 kommt bei x1 an der dritten und der zwanzigsten Stelle vor. Standardmäßig wird der Mittelwert der Ränge gebildet. In vorliegendem Fall werden von den beiden Beobachtungen die Ränge 11 und 12 belegt. Der Mittelwert zwischen beiden ergibt den ausgewiesenen Wert von 11, 5. Merke: Die Ränge können prinzipiell in aufsteigend oder absteigend gebildet werden. Welches Verfahren angewendet wird, ist egal, jedoch muß für beide Variablen dasselbe verwendet werden, um mit

8.3. TESTS BEI KARDINALEN MERKMALEN

149

> cor(rank(x1),rank(x2),method="pearson") [1] 0.0908323 den Spearmanschen Korrelationskoeﬃzienten zu berechnen. Schneller geht es mit dem Befehl > cor(x1,x2,method="spearman") [1] 0.0908323. Test Aufbauend auf den Rängen wird die Hotelling-Pabst-Statistik errechnet: D :=

n

(Rang(xi ) − Rang(yi ))2 .

(8.8)

i=1

Dieser Wert wird als Testgröße verwendet. Denn bei Geltung der Nullhypothese, daß der Spearmansche Rankkorrelationskoeﬃzient gleich Null ist, und n > 30, wobei n den Stichprobenumfang angibt, ist D annähernd normalverteilt mit Erwartungswert E(D) =

1 1 3 (n − n) − (D1 + D2 ) 6 12

mit Dj =

pj

(d3jk − djk )

k=1

für j = 1, 2, pj als Anzahl unterschiedlicher Werte unter x1 , x2 , x3 , . . . , xn bzw. in der Reihe y1 , y2 , y3 , . . . , yn . djk für j = x, y ist die Häuﬁgkeit des k-ten Wertes in der Reihe x1 , x2 , x3 , . . . , xn bzw. y1 , y2 , y3 , . . . , yn . und Varianz V ar(D) =

(n − 1)(n + 1)2 n2 D1 D2 (1 − 3 )(1 − 3 ) 36 n −n n −n

(Hartung und Elpelt, 1984, S.192-194). Es sind auch einseitige Tests möglich, bei dem als Nullhypothese entweder H0 : ρSpearman 0 oder H0 : ρSpearman 0 gesetzt wird. In wird allerdings folgende Teststatistik (1 − ρ) 6 verwendet (Best und Roberts, 1975). Im Internet ist auf (n3 − n) ·

http://lib.stat.cmu.edu/apstat/89 der verwendete Algorithmus hinterlegt.

(8.9)

150

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

Beispiel 2 Das Beispiel von Seite 148 wird fortgeführt. Mit den folgenden Anweisungen wird D berechnet. > x3 <- rank(x1) > x4 <- rank(x2) > x5 <- x3-x4 > sum(x5^2) [1] 1601.5 Über die Berechnung von D1 und D2 könnten der Erwartungswert E(D) und die Varianz V ar(D) bestimmt werden und hierüber könnte mit ’qnorm’ der Annahme- und Verwerfungsbereich ermittelt werden. Dieses Verfahren verbietet sich jedoch hier, da n < 30. Schneller geht es zudem mit der in hinterlegten Routine ’cor.test’. > cor.test(x1,x2,method="spearman",conf.level=0.95, alternative="two.sided",exact=NULL) Spearman’s rank correlation rho data: x1 and x2 S = 1610.136, p-value = 0.6877 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.0908323 Warning message: In cor.test.default(x1, x2, method = "spearman", conf.level = 0.95, : Kann exakte p-Werte bei Bindungen nicht berechnen Die ermittelte Korrelation ρSpearman ist recht gering. Die Nullhypothese lautet H0 : ρ = 0 und die Gegenhypothese H1 : ρ = 0. Die Testgröße ist gleich S = 1610, 136 und die Wahrscheinlichkeit des zur Testgröße gehörigen Verwerfungsbereiches ist 0, 6877. Zum Signiﬁkanzniveau von 5 Prozent kann die Nullhypothese nicht verworfen werden. Mit anderen Worten ist die Korrelation nicht signiﬁkant von Null verschieden. Zu beachten ist jedoch die ausgegebene Warnung, daß bei Bindungen keine exakten p-Werte berechnet werden könnten. Besser wäre deshalb die Verwendung korrekter Wahrscheinlichkeiten. Kendallscher Korrelationskoeﬃzient Test Der Kendallsche Korrelationskoeﬃzient basiert auf denselben Rangzahlen wie der Spearmansche. Nachdem sie berechnet wurden, werden die Beobachtungen Rang(xi ), Rang(yi ), i = 1, 2, 3, . . . n, geordnet, wobei der Rang der Variablen x als Gliederungskriterium dient. Hierdurch entsteht eine Matrix, in

8.3. TESTS BEI KARDINALEN MERKMALEN

151

der in der ersten Spalte der Rang der Variablen 1 in aufsteigender Reihenfolge steht, womit automatisch auch der Rang der Variablen 2 in eine Ordnung gebracht wird. Aufgrund dieser Anordnung wird die Variable qi bestimmt, die für jede Beobachtung i, i ∈ {1, 2, 3, . . . , n}, angibt, wieviele Rangzahlen Rang(yj ) kleiner oder gleich Rang(yi ) sind und in der Reihenfolge weiter unten steht. Der Kendallsche Korrelationskoeﬃzient berechnet sich dann über 4 ni=1 qi . (8.10) τ := 1 − n · (n − 1) Als Testgröße wird die Kendallsche K-Statistik verwandt (Hartung und Elpelt, 1984, S. 199-201), die auf τ aufbaut. n

K=

1 n(n − 1) n(n − 1) − 2 · τ. qi = 2 2

(8.11)

i=1

Die Nullhypothese lautet: H0 : die Korrelation zwischen beiden Variablen ist gleich Null und die Gegenhypothese: H1 : Beide Variablen sind korreliert. In dieser Formulierung handelt sich um einen zweiseitigen Test. Der Annahmebereich ist [Kn; α2 , Kn;1− α2 ]. Liegt die Testgröße außerhalb dieses Bereiches, so wird die Nullhypothese verworfen. Wir sagen dann auch, die Korrelation ist von Null verschieden. Die Formulierung einseitiger Tests ist möglich, wobei die Nullhypothese entweder in der Form ρ < 0 oder ρ 0 bzw. ρ > 0 oder ρ 0 formuliert sein muß, da ansonsten die Testgröße anders verteilt wäre. Der Annahmebereich ergibt sich darüber, daß er bei Geltung der Nullhypothese mit 1 − α an Wahrscheinlichkeit überdeckt wird. Ob das Quantil zum Annahme- oder Verwerfungsbereich zählt, ergibt sich ebenfalls über die Nullhypothese. Ist in der Nullhypothese das Gleichheitszeichen enthalten, so zählt es dazu, sonst nicht. Die kritischen Werte [Kn; α2 und Kn;1− α2 ] sind vertafelt, liegen nach Kenntnis des Autors aber in nicht vor. Falls jedoch 1. weniger als 50 Beobachtungen vorliegen, 2. alle Werte endlich sind und 3. keine Bindungen vorliegen

152

KAPITEL 8. EINFACHE KORRELATIONSANALYSE i 1 3 2 7 5 6 4

Rang(x) 1 2 3 4 5 6 7

Rang(y) 4 3 7 1 6 2 5

qi 3 2 4 0 2 0 0

Tabelle 8.2: Ränge Quelle: eigene Darstellung werden standardmäßig exakte p-Werte (= p-values) ausgegeben. Andernfalls wird in folgende Testgröße K1 =

K n(n−1)(2n+5) 18

(8.12)

verwendet. Sie ist approximativ standardnormalverteilt. Die Anwendung dieser Routine erfolgt über den Befehl ’cor.test’, mit der schnell und zuverlässig ein Test auf Unkorreliertheit auf Basis von Kendalls τ durchgeführt werden kann. Freilich kann die Testgröße auch ohne ’cor.test’ ermittelt werden und zwecks Bestimmung von Annahme- und Verwerfungsbereich kann der Befehl ’qnorm’ eingesetzt werden. Die Berechnung des Kendallschen Korrelationskoeﬃzienten und die Durchführung des Tests auf Unkorreliertheit werden anhand eines Beispiels verständlicher. Beispiel In Tabelle 8.2 sind die Objekte bereits gemäß der Ränge des Merkmals x sortiert. x und y sind in Datei Korrelation-Kendall.Rdata zu ﬁnden. In der ersten Spalte ist die Objektnummer abgetragen, es folgt der Rang des Merkmals x, des Merkmals y und der zugehörige qi -Wert. Die Daten können auch mit > x <- matrix(c(1,2,3,4,5,6,7,4,3,7,1,6,2,5),ncol=2, dimnames=list(c(1:7),c("x1","x2"))) in eingelesen werden. Das Kendallsche Tau kann Schritt für Schritt berechnet werden > q <- c(3,2,4,0,2,0,0) > 1-(4*sum(q))/(7*(7-1)) [1] -0.04761905 oder über den Befehl

8.3. TESTS BEI KARDINALEN MERKMALEN

153

> cor(x[,1],x[,2],method="kendall") [1] -0.04761905. Nun wird der Test auf Unkorreliertheit durchgeführt. Er besteht aus folgenden Schritten: 1. Hypothesenaufstellung, 2. Testgröße: Berechnung von K und Errechnung von K1, 3. Bestimmung des Annahme, und Verwerfungsbereiches und 4. der Entscheidung. Die Hypothesen lauten H0 : Beide Variablen sind unkorreliert, gegen H1 : beide Größen sind korreliert. Die Testgröße wird über folgende Befehle errechnet. K <- ((7*(7-1))/2)*cor(x[,1],x[,2],method="kendall") > K [1] -1 > K1 <- K/((7*(7-1)*(2*7+5))/18)^(0.5) > K1 [1] -0.1501879 Da die Testgröße annähernd standardnormalverteilt ist, wird zur Bestimmung der Quantile, die den Annahme- und Verwerfungsbereich bestimmen, die Normalverteilung ’norm’ verwendet. > qnorm((0.05/2),mean=0,sd=1, lower.tail=TRUE) [1] -1.959964 > qnorm((1-0.05/2),mean=0,sd=1,lower.tail=TRUE) [1] 1.959964 > qnorm((0.05/2),mean=0,sd=1,lower.tail=FALSE) [1] 1.959964 Man beachte, daß die beiden letzten Befehle äquivalent sind und deshalb zum selben Ergebnis führen. Der Annahmebereich ist [−1, 9599, +1, 9599]. Da die Testgröße in den Annahmebereich fällt, kann die Nullhypothese nicht abgelehnt werden. Schneller führt der in implementierte Befehl ’cor.test’ zum Ergebnis. > cor.test(x[,1],x[,2],method="kendall",conf.level=0.95, alternative="two.sided") Kendall’s rank correlation tau

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

154

data: x[, 1] and x[, 2] T = 10, p-value = 1 alternative hypothesis: true tau is not equal to 0 sample estimates: tau -0.04761905 Da bei gegebener Testgröße der zugehörige p-value größer als 0.05 ist, kann die Nullhypothese nicht abgelehnt werden.

8.4

Test bei ordinalen Merkmalen: Bell-Doksum Test

8.4.1

Test

Der Test ist in (Hartung und Elpelt, 1984, S. 204-205) beschrieben. Es werden zwei ordinal skalierte Merkmale x und y, die an einer Person oder einem Objekt gemessen wurden, vorausgesetzt. Die Daten x1 , . . . , xn bzw. y1 , . . . , yn seien Realisierungen einer einfachen Stichprobe vom Umfang n zu den Zufallsvariablen X bzw. Y . Die Grundidee ist wie folgt. Es werden die Rangzahlen für x und y bestimmt. Anstatt eine Testgröße auf Basis dieser Zahlen aufzubauen, wird für jedes Merkmal jeweils eine standardnormalverteilte Zufallsvariable vom Umfang n erzeugt. Diese Zufallszahlen werden in eine Rangfolge gebracht und jedem Objekt i entsprechend der Rangzahlen x bzw. y zugeordnet. Treten bei x Bindungen auf, so werden die betroﬀenen Rangzahlen gemittelt. Genau dasselbe macht man bei den Realisierungen der standardnormalverteilten Zufallsvariablen, die x zugeordnet sind. Sollten bei y Bindungen vorhanden sein, so geht man ganz analog vor. Die Hypothesen lauten: H0 : Die Zufallsvariablen X und Y sind nicht korreliert. H1 : Beide Variablen sind korreliert. Als Teststatistik wird die standardnormalverteilte Zufallsvariable n √ 1˜ ˜ yi ) n ∗ rBell−Doksum mit rBell−Doksum = R(˜ xi ) · R(˜ n i=1

(8.13)

verwendet. ˜ xi ) ist hierbei die Realisierung der standardnormalverteilten Zufallsvariable, R(˜ die der Rangzahlen von xi zugeordnet ist und ˜ yi ) ist die entsprechende Realisierung, die den Rangzahlen von yi zugeordnet R(˜ sind. Falls diese Testgröße außerhalb des Intervalls [z α2 , z1− α2 ] zu liegen kommt, wäre die Nullhypothese zu verwerfen.

8.4. TEST BEI ORDINALEN MERKMALEN: BELL-DOKSUM TEST

8.4.2

155

Beispiel

Zur Illustration wird das Beispiel in (Hartung und Elpelt, 1984, S. 205-206) herangezogen und mit gelöst. Die Daten sind in Datei Hartung-1984-S205.Rdata zur Verfügung gestellt. Die Hypothese lautet, daß es eine signiﬁkante Korrelation zwischen Körpergröße und Gewicht gibt. Zum Signiﬁkanzniveau von 10 Prozent soll geprüft werden, ob diese Hypothese stimmt. Die Rohdaten x und y können auch über > M <- matrix(c(1:10,167,162,172,170,167,165,154,162,157, 160,66,63,63,75,61,69,52,60,58,56),ncol=3) eingegeben werden. > M [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]

[,1] [,2] [,3] 1 167 66 2 162 63 3 172 63 4 170 75 5 167 61 6 165 69 7 154 52 8 162 60 9 157 58 10 160 56

In der ersten Spalte stehen die Objektnamen i mit i = 1, 2, 3, . . . , 10, also n = 10. Die Körpergrößen der Personen sind in Spalte 2 aufgeführt und in der letzten Spalte steht das Gewicht. In der ersten Zeile stehen also Person 1 mit Körpergröße 167 cm und Gewicht 66 kg. Im nächsten Schritt werden die standardnormalverteilten Zufallsvariablen über den in enthaltenen Zufallsgenerator erzeugt. > > > >

Rx <- rnorm(10,mean=0,sd=1) Ry <- rnorm(10,mean=0,sd=1) sortiertRx <- sort(Rx) sortiertRy <- sort(Ry)

Der erste Befehl erzeugt die Zufallszahlen, die für Variable x vorgesehen sind und die zweite diejenigen für Variable y. Durch die beiden letzten Befehle werden die erzeugten Zufallsvariablen aufsteigend sortiert. Die nächsten beiden Befehle fassen die erzeugten Zufallsvariablen zu der Matrix N zusammen. Man beachte jedoch: Werden dieselben Befehle von dem Leser ausgeführt, so werden im allgemeinen andere Zufallszahlen erzeugt. Dies bedeutet mit anderen Worten, daß es aufgrund dieses Eﬀektes bei denselben Rohdaten, aber von Lauf zu Lauf verschiedenen Zufallszahlen, zu unterschiedlichen Testentscheidungen kommen kann.

156

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

> N <- cbind(sortiertRx,sortiertRy) > N sortiertRx sortiertRy [1,] -1.1419460 -0.61329012 [2,] -0.3642690 -0.45619167 [3,] 0.2538490 -0.44343837 [4,] 0.2663532 -0.41896236 [5,] 0.8365606 -0.25677110 [6,] 0.8401299 0.02981200 [7,] 0.8621636 0.22675427 [8,] 1.0052275 1.02447082 [9,] 1.0580118 1.23550080 [10,] 1.2780812 1.31408394 Im folgenden Schritt werden die Rohdaten x gemäß ihres Ranges sortiert, so daß sie dieselbe Reihung erhalten wie die gerade erzeugte Zufallsvariable ’sortiertRx’. In der Matrix ’M1’ werden die Objektnummern (Spalte 1) und der zugehörige Rang von x (in Spalte 2) niedergelegt. Matrix ’M2’ entsteht, indem man die erste Spalte der Matrix N hinzufügt, also die Variable ’sortiertRx’. > ii <- order((rank(M[,2]))) > M1 <- t(rbind(M[,1],rank(M[,2]))[,ii]) > M2 <- cbind(M1,N[,1]) Als Ergebnis erhält man folgende Matrix. > M2 [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]

[,1] [,2] [,3] 7 1.0 -1.1419460 9 2.0 -0.3642690 10 3.0 0.2538490 2 4.5 0.2663532 8 4.5 0.8365606 6 6.0 0.8401299 1 7.5 0.8621636 5 7.5 1.0052275 4 9.0 1.0580118 3 10.0 1.2780812

In Matrix ’M3’ werden immer dann, wenn bei Variable x (= zweite Spalte von ’M2’) Bindungen auftreten, Mittelwerte der zugeordneten Zufallszahlen ’sortiertRx’ gebildet. Sie stehen in der zweiten Spalte von ’M3’; dies ist die ˜ xi ). Variable R(˜ M3 M3

8.4. TEST BEI ORDINALEN MERKMALEN: BELL-DOKSUM TEST

[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]

157

[,1] [,2] 7 -1.1419460 9 -0.3642690 10 0.2538490 2 0.5514569 8 0.5514569 6 0.8401299 1 0.9336956 5 0.9336956 4 1.0580118 3 1.2780812

˜ x˜i ) und R( ˜ y˜i ) stets für dasselbe Objekt i multiDa in 8.13 die Variablen R( pliziert werden müssen, werden die Daten der Matrix ’M3’ gemäß Spalte 2, dies sind die Objektzahlen i, geordnet. iii <- order(M2[,1]) M4 <- t(rbind(M3[,1],M3[,2])[,iii]) Ganz analog wird im Falle der Rohdaten y vorgegangen. Die y werden entsprechend ihrem Rang geordnet, wobei die i in Spalte 1 der Matrix N1 mitgeführt werden. iv <- order(rank(M[,3])) N1 <- t(rbind(M[,1],rank(M[,3]))[,iv]) > N1 [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]

[,1] [,2] 7 1.0 10 2.0 9 3.0 8 4.0 5 5.0 2 6.5 3 6.5 1 8.0 6 9.0 4 10.0

An die Matrix ’N1’ wird die Spalte 2 der Matrix ’N’ angehängt; dies sind die erzeugten Zufallsvariablen. N2 <- cbind(N1,N[,2]) N2 [,1] [,2] [,3] [1,] 7 1.0 -0.61329012 [2,] 10 2.0 -0.45619167 [3,] 9 3.0 -0.44343837

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

158 [4,] [5,] [6,] [7,] [8,] [9,] [10,]

8 4.0 -0.41896236 5 5.0 -0.25677110 2 6.5 0.02981200 3 6.5 0.22675427 1 8.0 1.02447082 6 9.0 1.23550080 4 10.0 1.31408394

Bestehen bei y Bindungen, so werden die betroﬀenen Zufallsvariablen gemittelt und in Spalte 2 der Matrix ’N3’ abgetragen. Anschließend werden die Daten sortiert, wobei die Objektnummer als Gliederungskriterium dient. N3 <- cbind(N2[,1],c(N2[1:5,3],mean(N2[6:7,3]), mean(N2[6:7,3]),N2[8:10,3])) v <- order(N3[,1]) N4 <- t(rbind(N3[,1],N3[,2])[,v]) Als Testgröße erhält man im vorliegenden Fall: Testgroesse <- (10)^(0.5)*(1/10)*sum(t(M4[,2])%*%N4[,2]) > Testgroesse [1] 1.231652 Durch t(M4[,2]) wird der Spaltenvektor transponiert (siehe Kapitel B.2.1) und mit t(M4[,2])%*%N4[,2] wird ein Zeilenvektor mit einem Spaltenvektor multipliziert. Gut nachvollziehbar wird dies durch das Beispiel des Kapitels B.3.5. Da die Testgröße normalverteilt ist, erhält man den Annahmebereich über > qnorm(0.05,mean=0,sd=1,lower.tail=TRUE) [1] -1.644854. Er ist gleich [−1, 64, +1, 64]. Da die Testgröße in den Annahmebereich fällt, kann die Nullhypothese nicht abgelehnt werden. In (Hartung und Elpelt, 1984, S. 205206) ergibt sich jedoch eine andere Entscheidung, da mit anderen Zufallszahlen gerechnet wurde.

8.5

Abschließende Bemerkungen

In diesem Kapitel wurde der Begriﬀ der Korrelation eingeführt. Er basiert in der Wahrscheinlichkeitsrechnung auf der Kovarianz und den Standardabweichungen der betrachteten Zufallsvariablen. Als Schätzer für die Korrelation können der

8.6. KONTROLLFRAGEN

159

Korrelationskoeﬃzient nach Bravais-Pearson, nach Kendall oder der Spearmansche Korrelationskoeﬃzient genutzt werden. Alle drei können verwendet werden, wenn den Realisierungen stetige Zufallsvariablen zu Grunde liegen. Sind die betrachteten stetigen Zufallsvariablen zudem gemeinsam normalverteilt, so kann mit dem in Kapitel 8.3.1 beschriebenen Test geprüft werden, ob die Korrelation signiﬁkant von Null verschieden ist. Sind die beiden Zufallsvariablen nicht gemeinsam normalverteilt, so können die Tests, die auf dem Spearmanschen oder dem Kendallschen Korrelationskoeﬃzienten aufbauen, angewandt werden. Soll die Korrelation zwischen zwei ordinal skalierten Zufallsvariablen geprüft werden, ob sie signiﬁkant von Null verschieden ist, so kann der Bell-DoksumTest verwendet werden. Er hat den Nachteil, daß je nach Realisierung der Zufallsvariablen, die Nullhypothese bei denselben Daten verworfen wird und ein andermal nicht. Soll die Korrelation zwischen einer stetigen Zufallsvariable und einer diskreten überprüft werden, ob sie signiﬁkant von Null verschieden sind, so ist keines der beschriebenen Verfahren anwendbar. Dasselbe gilt, wenn die Korrelation zwischen zwei nominal skalierten Variablen auf Signiﬁkanz geprüft werden soll. Dann sind andere, teilweise aufwendigere Verfahren anzuwenden, die üblicherweise in Lehrbüchern zur multivariaten Statistik, wie beispielsweise in Hartung und Elpelt (1984), behandelt werden. Dies ist ein weiterer Grund, sich vor Durchführung einer Befragung mit relevanten Auswertungsmethoden zu beschäftigen, um sicherzustellen, daß die Auswertung wie gewünscht erfolgen kann.

8.6

Kontrollfragen

1. Angenommen, Sie berechnen die Kovarianz zweier Zufallsvariablen X und Y . Interpretieren Sie folgende Ergebnisse: (a) sie ist negativ, (b) sie ist gleich Null, (c) sie ist positiv. 2. (a) Kann aus einer Kovarianz zwischen den Zufallsvariablen X und Y von Null gefolgert werden, daß beide stochastisch unabhängig sind? (b) Ist es möglich, aus der stochastischen Unabhängigkeit der beiden Zufallsvariablen U und V zu schließen, daß die Kovarianz gleich Null ist? 3. Welchen Wertebereich kann (a) die Kovarianz, (b) welcher die Korrelation annehmen? 4. Wie kann die Kovarianz zweier Zufallsvariablen geschätzt werden?

160

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

5. (a) Zeichnen Sie ein Streudiagramm einer zweidimensionalen Zufallsvariablen mit negativer Korrelation, die nahe der −1 liegt. (b) Zeichnen Sie ein Scatterplot einer zweidimensionalen Zufallsvariablen mit negativer Korrelation nahe der Null. 6. Erläutern Sie die Redewendung: ’Die Korrelation ist signiﬁkant von Null verschieden.’ 7. Sie testen die Korrelation zweier gemeinsam normalverteilter Zufallsvariablen darauf, ob sie signiﬁkant von Null verschieden ist. (a) Welche Verteilung nutzen Sie?88 (b) Wie viele Freiheitsgrade müssen Sie berücksichtigen? 8. Beschreiben Sie anhand eines einfachen Beispiels, wie der Spearmansche Korrelationskoeﬃzient berechnet wird. 9. Erläutern Sie mit Ihren Worten den Bell-Doksum Test.

8.7

Aufgaben

1. Nutzen Sie die Daten aus Aufgabe 6 Seite 135 und berechnen Sie die Korrelation Korr(X, Y ) zwischen X und Y .89 2. Wie groß ist die Korrelation zwischen X und Y in Aufgabe 7 auf Seite 135?90 3. Zeigen Sie, daß es zur Berechnung der empirischen Korrelation völlig gleichgültig ist, ob man die korrigierte Stichprobenkovarianz und korrigierte Stichprobenvarianz oder die empirische Kovarianz und die empirische Varianz verwendet. 4. Laden Sie über den Befehl > load(file="Korrelation1.Rdata") die Daten des Beispiels a von Seite 141. Bei korrektem Einlesen, sollten die Daten über x1 und x2 ansprechbar sein. (a) Überprüfen Sie zum Signiﬁkanzniveau von 0,01, ob die Korrelation von 0,205 signiﬁkant von Null verschieden ist.91 i. Berechnen Sie die Testgröße und bestimmen Sie die relevanten Quantile indem Sie die t-Verteilung von nutzen. Führen Sie in vier Schritten den Test durch. ii. Führen Sie den Test mit dem Befehl ’cor.test’ aus. Halten Sie auch hier die vier Schritte zur Durchführung von Tests ein.

8.A. WEITERE TESTS*

161

(b) * Testen Sie zum Signiﬁkanzniveau α = 0, 05 die Nullhypothese, daß ρ < 0, 5. i. Kann der Test mit dem Befehl ’cor.test’ durchgeführt werden? Führen Sie den Test ggf. aus.92 ii. Führen Sie den Test aus, indem Sie als Testgröße z verwenden.93 iii. Nutzen Sie als Testgröße Formel 8.17. 5. Dürfen die Variablen unterschiedliche Anzahl an Ausprägungen haben?94 6. Erläutern Sie, warum durch die Korrelation nach Bravais-Pearson nur lineare Zusammenhänge gemessen werden.95 7. Herr Müller vermutet, daß zwischen Betriebsgröße und Gehalt der Mitarbeiter eine Korrelation besteht. (a) Welchen Korrelationskoeﬃzienten sollte er verwenden? Begründen Sie Ihre Antwort.96 (b) In seiner Untersuchung stellt sich eine vergleichsweise geringe Korrelation von 0, 24 heraus. Deshalb möchte Herr Müller einen Test durchführen, um zu überprüfen, ob sie signiﬁkant von Null verschieden ist. Welchen Test würden Sie empfehlen?97 8. Es soll geprüft werden, ob die Korrelation zweier stetiger Zufallsvariablen größer als Null ist. Zu diesem Zweck wurde eine einfache Stichprobe vom Umfang n = 20 erhoben. Die Verteilung der Zufallsvariablen ist nicht bekannt. Wie würden Sie vorgehen? Begründen Sie Ihre Entscheidung.98 9. (a) Führen Sie den Test des Beispiels 8.3.2 von Seite 150 aus, indem Sie die Hotelling-Pabst-Statistik D berechnen und den Test über die Bestimmung von Annahme- und Verwerfungsbereich durchführen. (b) Ist dieses Vorgehen korrekt?99 10. Führe den Test auf Unkorreliertheit, dargestellt in Kapitel 8.3.2 auf Seite 152 mit Hilfe des Befehls ’cor.test’ durch, verwende jedoch die Normalverteilungsapproximation.100 11. Welche Schwachstelle weist der Bell-Doksum-Test auf?101

8.A

Weitere Tests*

In Abschnitt 8.3.1 wurde einzig und allein die Nullhypothese H0 : Die Korrelation der Variablen x und y ist gleich Null betrachtet. Mit den angegebenen Verfahren können auch einseitige Tests der Gestalt H0 : Die Korrelation zwischen x und y ist größer als Null

KAPITEL 8. EINFACHE KORRELATIONSANALYSE

0 −2

−1

Fishers z

1

2

162

−1.0

−0.5

0.0

0.5

1.0

Korrelationskoeffizient nach Bravais−Pearson

Abbildung 8.3: Fishers z-Transformation Quelle: eigene Darstellung

oder H0 : Die Korrelation zwischen beiden Variablen ist kleiner als Null überprüft werden. Statt größer bzw. kleiner kann auch ’’ bzw. ’’ überprüft werden. Es ist aber nicht möglich, zu testen, ob die Korrelation zwischen x und y gleich einem bestimmten Wert ρ0 = 0 oder größer oder aber kleiner diesem Wert ist. Denn die Verteilung der Testgröße hängt in Abschnitt 8.3.1 davon ab, daß unter H0 keine Korrelation vorliegt. Auf der Basis von Fishers z-Transformation erhält man einen approximativen Test (Hartung und Elpelt, 1984, S. 154-155). Fishers z erhält man, indem auf die Korrelation r der arcus tangens hyperbolicus angewendet wird: z = atanh(rXY ) =

1 1 + rXY ). ln( 2 1 − rXY

(8.14)

Dies ist die Umkehrfunktion des Tangens hyperbolicus. In wird der arcus tangens hyperbolicus durch den Befehl ’atanh(.)’ berechnet: > x1 <- atanh(.5) > x1

8.A. WEITERE TESTS*

163

[1] 0.5493061 > tanh(x1) [1] 0.5. Den Wert der Umkehrfunktion erhält man durch Verwendung von ’tanh(.)’. z hat den Erwartungswert E(z) =

ρ 1 1+ρ ln + 2 1 − ρ 2(n − 1)

(8.15)

und die Varianz

1 . n−3 Als Testgröße wird der standardisierte z-Wert N = (n − 3)(z − E(z) V ar(z) =

(8.16)

(8.17)

verwendet. N ist approximativ standardnormalverteilt. Hierauf aufbauend können zweiseitige Tests durchgeführt werden, bei denen H0 ; ρ = ρ0 gegen H1 : ρ = ρ0 getestet werden kann. ρ0 kann hierbei eine negative oder positive Zahl sein. Auch einseitige Tests der Art H0 : ρ ρ0 gegen H1 : ρ < ρ 0 sind möglich. Die Festlegung von Annahme- und Verwerfungsbereich ergibt sich aus der Nullhypothese. Lautet sie H0 : ρ ρ0 , so wäre sie zu verwerfen, wenn N < Quantilα ist. Denn ] − ∞, Quantilα[ ist der Ablehnungsbereich. Mit Quantilα ist das α-Quantil der Standardnormalverteilung gemeint.

Kapitel 9

Multivariate Korrelationsanalyse* 9.1

Einleitung

In Kapitel 8 wurde ausschließlich die Korrelation zweier Merkmale untersucht. In diesem wird die Analyse ausgeweitet auf Untersuchungen über die Beziehung zwischen zwei und mehr Korrelationen sowie auf den Zusammenhang von mehr als zwei Merkmalen. In dem nachfolgenden Abschnitt 9.2 wird ein Test über zwei Korrelationskoeﬃzienten präsentiert. Hierbei wird auf die Fishersche zTransformation zurückgegriﬀen, die in Kapitel 8.A vorgestellt wurde. Es kann vorkommen, daß zwischen drei Variablen Y, X1 , X2 jeweils paarweise hohe Korrelationen nach Bravais-Pearson berechnet werden, doch die Korrelationen zwischen zweien von ihnen, beispielsweise Y und X1 , ist möglicherweise dem Umstand geschuldet, daß die dritte Variable, X2 , mit beiden anderen korreliert ist. Der durch die Korrelation nach Bravais-Pearson gemessene Zusammenhang vermittelt folglich einen falschen Eindruck. Um solchen Fällen auf die Spur zu kommen, dient die in Abschnitt 9.3 dargestellte partielle Korrelation. In der explorativen Datenanalyse werden Daten genutzt, um zu neuen Hypothesen und Einsichten zu kommen. Hier ist es völlig legitim, in Daten nach Korrelationen zwischen allen interessierenden Merkmalen zu suchen. Schön wäre es, wenn es ein Maß gäbe, das einen Eindruck von der Stärke des linearen Zusammenhanges zwischen allen Variablen vermitteln würde. In Kapitel 9.4 werden zwei vorgestellt, die Determinante und die maximale Exzentrizität der Korrelationsmatrix. Diese Analyse gibt einen ersten globalen Hinweis auf die Stärke des Zusammenhanges zwischen allen paarweisen Korrelationen. Um jedoch einzuschätzen, ob sie wirklich signiﬁkant von Null verschieden sind, ist ein Test nötig. In Kapitel 9.5 wird solch ein Test präsentiert. Wird die Nullhypothese, daß alle paarweisen Korrelationen gleich Null sind, abgelehnt, so gibt es mindestens eine Korrelation zwischen zwei Merkmalen, die signiﬁkant von Null verschieden ist. MöglicherR. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_9, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

166

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

weise sind gar mehrere paarweise Korrelationen signiﬁkant von Null verschieden. Um sie herauszuﬁnden, können multiple Vergleiche angestellt werden. Sie werden in Kapitel 9.6 vorgestellt. Bis jetzt standen paarweise Korrelationen im Mittelpunkt des Interesses. In Abschnitt 9.7 wird der Zusammenhang zwischen einer Variablen Y und einer Linearkombination von Variablen (X1 , . . . , Xp ) betrachtet. Die Kennzahl zur Messung dieses Zusammenhanges ist die multiple Korrelation. Im darauﬀolgenden Abschnitt 9.8 wird die multiple Korrelation erweitert auf den Zusammenhang zwischen jeweils einer Linearkombination der Variablen (Y1 , . . . , Yp1 ) und (X1 , . . . , Xp2 ). Nach Darstellung theoretischer Aspekte folgt stets ein Beispiel, wodurch das Verstehen der Zusammenhänge erleichtert und die Rechnungen nachvollziehbar werden. Um die Tests durchführen zu können, werden Kenntnisse über die Bestimmung von Quantilen bei Normal-, t-, F- und Chi-Quadratverteilung vorausgesetzt.

9.2 9.2.1

Vergleich zweier Korrelationen Grundlagen

Zur Illustration dient folgendes, frei erfundene Beispiel. Unternehmen ’Lebensmittel gut und billig’ ist im gesamten Bundesgebiet tätig. Aufgrund vermuteter Komplementaritäten im Produktsortiment mit Getränkeläden soll untersucht werden, ob der eigene Umsatz mit der Entfernung zum nächsten Getränkeladen korreliert ist. Zudem wird vermutet, daß bei hohem Alkoholkonsum in einer Region die Korrelation zwischen Umsatz und Entfernung zum nächsten Getränkemarkt stärker ist als in anderen Gegenden. Es soll überprüft werden, ob die Korrelation in trinkfreudigeren Regionen tatsächlich höher ist als im restlichen Gebiet. Dies ist eine Fragestellung, bei dem zwei Korrelationen miteinander verglichen werden sollen. Wir gehen davon aus, daß Umsatz und Entfernung zum nächsten Getränkemarkt gemeinsam normalverteilte Zufallsvariablen sind. Natürlich muß in einer empirischen Untersuchung getestet werden, ob diese Voraussetzung durch die Daten gestützt wird. Ferner wird davon ausgegangen, daß die Daten aus Region i, i = 1, 2, jeweils einfache Stichproben zur Zufallsvariablen (Xi , Yj ) sind. Erläutern Sie, was dies konkret bedeutet.102 Hat man die beiden Korrelationen ρ1 und ρ2 für die trinkfreudige Region 1 bzw. die andere, 2, durch die Korrelationskoeﬃzienten nach Bravais-Pearson, r1 bzw. r2 , geschätzt, so nutzt man Fishers z-Transformation (siehe Seite 162), um hierdurch approximativ normalverteilte Zufallsvariablen, z1 bzw. z2 , zu erhalten. Als Testgröße dient (Hartung und Elpelt, 1984, S. 159) N=

z1 − z 2 1 n1 −3

+

1 n2 −3

.

(9.1)

9.2. VERGLEICH ZWEIER KORRELATIONEN i 1 2 3 4 5 6 7 8 9 10 11 12

Umsatz (x1) 151973.56 136616.62 144083.53 99758.88 106716.54 115006.54 137101.28 110953.12 111687.82 159376.55

Entfernung (x2) 253.8514 158.4852 179.2869 358.4341 469.1657 288.4174 285.0767 390.0421 299.6763 376.7558

j 1 2 3 4 5 6 7 8 9 10 11 12

Umsatz (x3) 56373.45 73709.09 61590.58 91727.23 85659.38 58876.14 41765.44 60748.41 61874.73 64288.94 63764.16 65422.39

167 Entfernung (x4) 397.5702 352.2753 434.0470 453.2736 357.1181 521.0742 310.8642 350.4587 483.4926 435.6101 419.5133 419.7664

Tabelle 9.1: Umsatz und Entfernung Quelle: Daten frei erfunden Sie ist annähernd standardnormalverteilt. Die Nullhypothese lautet im eingangs beschriebenen Beispiel H 0 : ρ 1 > ρ2 und die Gegenhypothese H1 : ρ 1 ρ 2 . Zur Bestimmung des Annahme- und Ablehnungsbereiches werden bei gegebenem Signiﬁkanzniveau α die Quantile über die Standardnormalverteilung bestimmt. Der Annahmebereich ist ]Quantilα, ∞[.

9.2.2

Beispiel

Die Daten für die beiden Regionen sind in Tabelle 9.1 abgebildet und sind in der Datei Zusammenhang_zwischen_zwei_Korrelationen.Rdata hinterlegt. Die nächsten Befehle dienen zur Berechnung der Schätzer für die unbekannten Korrelationen ρ1 und ρ2 . Als Schätzfunktionen dienen jeweils der Korrelationskoeﬃzient nach Bravais-Pearson. Aufbauend auf diesen Ergebnissen wird die z-Transformation vorgenommen und in die Formel zur Berechnung der Testgröße eingesetzt. Als Testgröße ergibt sich N = −1.29. Bei einem Signiﬁkanzniveau von 5 Prozent ist der Annahmebereich ] − 1, 64, ∞[. Da N in diesen Bereich fällt, kann zum 5 Prozentniveau die Nullhypothese nicht abgelehnt werden. Zum Signiﬁkanzniveau von 10 Prozent ist der Annahmebereich gleich ] − 1.28, ∞[. In diesem Falle liegt die Testgröße im Verwerfungsbereich und die Nullhypothese wäre abzulehnen.

168

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

> Korrelation1 <- cor(x1,x2) > Korrelation1 [1] -0.4750031 > Korrelation2 <- cor(x3,x4) > Korrelation2 [1] 0.1362508 > z1 <- atanh(Korrelation1) > z1 [1] -0.5165116 > z2 <- atanh(Korrelation2) > z2 [1] 0.1371035 > N <- ((z1-z2)/((1/(10-3))+(1/(12-3)))^(0.5)) > N [1] -1.296977 > qnorm(0.05,mean=0,sd=1,lower.tail=TRUE) [1] -1.644854 > qnorm(0.10,mean=0,sd=1,lower.tail=TRUE) [1] -1.281552

9.3 9.3.1

Partielle Korrelation Grundlagen

Es ist möglich, daß eine Variable X2 die Variablen Y und X1 beeinﬂußt und infolgedessen mit beiden korreliert ist. Berechnet man nun die Korrelation zwischen Y und X1 , so kann eine signiﬁkant von Null verschiedene Korrelation vorliegen. Würde aber der Einﬂuß der Variablen X2 auf Y bzw. X1 eliminiert, so kann es sein, daß zwischen Y und X2 keine signiﬁkant von Null verschiedene Korrelation meßbar ist. Um den Einﬂuß der dritten Variablen X2 zu eliminieren, wurde das Konzept der partiellen Korrelation entwickelt. Hierbei wird der Einﬂuß einer dritten Variable X2 auf die Korrelation zwischen Y und X1 ausgeschaltet. Gegeben seien stetige Zufallsvariablen X2 , Y und X1 , die jeweils normalverteilt sind, dann ist die partielle Korrelation deﬁniert als ρYX1 − ρYX2 · ρX1 X2 ρ(Y,X1 .X2 ) = . (9.2) (1 − ρ2YX2 ) · (1 − ρ2X1 X2 ) Als Schätzer der partiellen Korrelation ρ(Y,X).U kann dann auf den Korrelationskoeﬃzienten nach Bravais-Pearson zurückgegriﬀen werden: rYX1 − rYX2 · rX1 X2 . (9.3) r(Y,X1 .X2 ) = 2 2 (1 − rYX ) · (1 − rX ) 2 1 X2 Die Deﬁnition der partiellen Korrelation ist, so wie sie hier präsentiert wurde, nichtssagend. Man mag es glauben oder nicht. Der interessierte Leser ﬁndet

9.3. PARTIELLE KORRELATION

169

jedoch in Kapitel 12.D eine Begründung für diese Formel. Da zum Verstehen der Zusammenhänge Kenntnisse in Regressionsrechnung vorausgesetzt werden, wurden diese Ausführungen im Anhang des Kapitels 12 plaziert.

9.3.2

Beispiel 1

Um sicherzustellen, daß die Voraussetzungen auch wirklich eingehalten sind, werden drei Zufallszahlen, X2 , Y, X1 mit dem Befehl ’rnorm(.)’ erzeugt, die in der Datei partielle-Korrelation.Rdata abgelegt sind. Die Variable X2 ist eine normalverteilte Zufallsvariable und Y und X1 bestehen jeweils aus einer Linearkombination mit X2 plus Absolutglied und einem Störterm. Folglich wird man eine hohe Korrelation zwischen allen drei Variablen erwarten können, wobei jedoch die partielle zwischen den Variablen Y und X1 klein sein sollte. Die Korrelationen zwischen allen drei Variablen ist, wie erwartet, recht hoch. Berechnet man jedoch die partielle Korrelation ’ryx1.x2’, so zeigt sich, daß sie bei Konstanzhaltung des Einﬂusses von X2 klein ist. > > > >

x2 <- 100+rnorm(1000,mean=500,sd=200) y <- 400+2*u+rnorm(1000,mean=220,sd=100) x1 <- 2000+49*u+rnorm(1000,mean=444,sd=300) head(x1) [,1] [,2] [,3] [1,] 593.5791 1797.071 31598.65 [2,] 398.9282 1506.940 21751.40 [3,] 543.7372 1781.948 28873.01 [4,] 453.2159 1583.277 24132.91 [5,] 797.2763 2253.224 41244.71 [6,] 693.7436 2063.189 36511.22 > cor(y,x1) [1] 0.969014 > cor(y,x2) [1] 0.969335 > cor(x1,x2) [1] 0.9995485 > ryx1.x2 <- (cor(y,x1)-cor(y,x2)*cor(x1,x2))/ ((1-cor(y,x2)^2)*(1-cor(x1,x2)^2))^.5 > ryx1.x2 [1] 0.01579925

9.3.3

Test

Es werden stetige, normalverteilte Zufallsvariablen in der Grundgesamtheit vorausgesetzt. Die Daten, so wird angenommen, entstammen einer einfachen Stich-

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

170

probe vom Umfang n aus der Grundgesamtheit. Zur Überprüfung der Hypothesen H0 : ρ(Y,X1 .X2 ) = 0 gegen H1 : ρ(Y,X1 .X2 ) = 0 kann die Testgröße

(n − 3) · r(Y,X1 .X2) 2 (1 − r(Y,X ) 1 .X2)

(9.4)

verwendet werden, die tn−3 -verteilt ist mit n − 3 Freiheitsgraden. Der Annahmebereich ist [tn−3,( α2 ) ; tn−3,(1− α2 ) ]; liegt die Testgröße innerhalb dieses Bereich, so ist die partielle Korrelation nicht signiﬁkant von Null verschieden.

9.3.4

Beispiel 2

Beispiel 9.3.2 wird fortgeführt. Es wird überprüft, ob die berechnete partielle Korrelation signiﬁkant von Null verschieden ist. Den Stichprobenumfang kann man über den Befehl ’length(.)’ in Erfahrung bringen. Als Testgröße ergibt sich 0, 4989, die im Annahmebereich [−1, 96; 1, 96] liegt. Aus diesem Grund kann die Nullhypothese nicht abgelehnt werden. Mit anderen Worten ist die partielle Korrelation nicht signiﬁkant von Null verschieden. > n <- length(y) > n [1] 1000 > Testgroesse <- ((n-3)^.5 * ryx1.x2)/((1-ryx1.x2^2)^.5) > Testgroesse [1] 0.4989285 > qt(0.05/2,1000-3,ncp=0,lower.tail=TRUE) > qt(0.05/2,1000-3,ncp=0,lower.tail=TRUE) [1] -1.962346 > qt(1-0.05/2,1000-3,ncp=0,lower.tail=TRUE) [1] 1.962346

9.4 9.4.1

Zusammenhang zwischen mehreren Merkmalen Grundlagen

Hat man, beispielsweise in einer Befragung, mehrere Merkmale, zwischen denen lineare Zusammenhänge vermutet werden, so wäre es von Interesse, eine Kenngröße zu haben, die die Stärke dieses Zusammenhanges zum Ausdruck bringt.

9.4. ZUSAMMENHANG ZWISCHEN MEHREREN MERKMALEN

171

Wir gehen von kardinal meßbaren Merkmalen aus. Die paarweisen Korrelationen zwischen je zwei Merkmalen bilden die Grundlage zur Berechnung einer eindimensionalen Kenngröße, die den linearen Zusammenhang zwischen allen paarweisen Korrelationen angibt. Die Vorgehensweise besteht somit aus zwei Schritten. 1. Bestimme alle möglichen Korrelationen (nach Bravais-Pearson) zwischen jeweils zwei Merkmalen und 2. berechne auf der Grundlage dieses Ergebnisses ein Maß, das den Zusammenhang zwischen allen Korrelationen in einer Zahl abbildet. Zur Schätzung der Korrelationsmatrix Korr(XX) der Zufallsvariablen X = (X1 , . . . , XP ) ˆ werden die Korrelationen nach Bravais-Pearson berechnet. Der Schätzer Korr(XX) hat folgende Gestalt: ⎛ ⎞ 1 rX1 X2 . . . rX1 Xp ⎜rX2 ,X,1 1 . . . rX2 Xp ⎟ ⎜ ⎟ ˆ Korr(XX) = rXX = ⎜ . . .. ⎟ . .. ⎝ .. . ⎠ rXp X1

rXp X2

...

1

Hierbei ist zu beachten, daß es gleichgültig ist, ob die Korrelation nach BravaisPearson über rX1 X2 oder rX2 X1 berechnet wird. Mit anderen Worten steht rechts der Diagonale spiegelbildlich dasselbe wie unterhalb von ihr. Der erste Schritt ist mit Hilfe von über den Befehl ’cor(.)’ sehr schnell abzuarbeiten. Damit verbleibt die Aufgabe, alle Korrelationen so zu einer Maßzahl zusammenzufassen, daß sie, ähnlich der Korrelation zwischen zwei Merkmalen, möglichst zwischen −1 und 1 zu liegen kommt. Hierzu gibt es zwei Möglichkeiten. 1. die Berechnung der Determinante der Korrelationsmatrix und 2. die maximale Exzentrizität. Die maximale Exzentrizität basiert auf den Eigenwerten der Korrelationsmatrix und errechnet sich wie folgt: MaxExzentrizität =

λmax − λmin , λmax + λmin

(9.5)

wobei λ für Eigenwert und ’max’ bzw. ’min’ für den Maximal- bzw. Minimalwert steht. (Hartung und Elpelt, 1984, S. 162). Informationen über die Determinante und die Eigenwerte einer Matrix ﬁnden sich in Anhang B.

172

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

Die Determinante kann im allgemeinen beliebige positive oder negative Werte annehmen. Da in der Korrelationsmatrix jedoch lediglich Werte zwischen −1 und +1 vorkommen können, liegt die Determinante der Korrelationsmatrix im Bereich von [0, 1]. Ist die Determinante der Korrelationsmatrix gleich Null, so besteht zwischen den Korrelationen eine lineare Abhängigkeit. Je größer diese Determinante ist, desto geringer ist der lineare Zusammenhang. Die maximale Exzentrizität kann ebenfalls nur Werte zwischen Null und Eins annehmen. Je größer der Wert ist, desto größer ist der Zusammenhang zwischen den Korrelationen.

9.4.2

Beispiel

Zur Illustration werden drei Vektoren normalverteilter Zufallsvariablen, x1 , x2 , x3 erzeugt. Die Daten sind in der Datei Korrelation_linearer_Zusammenhang_zw_mehreren_Merkmalen.Rdata abgelegt. Hierdurch ist es für den Leser möglich, die einzelnen Schritte mit denselben Daten durchzuführen. Anschließend werden diese Vektoren zu der Matrix x zusammengefaßt und die Korrelationsmatrix ’Korrelation’ ermittelt. > > > > > >

x1 <- rnorm(50,mean=3000,sd=500) x2 <- rnorm(50,mean=50000,sd=4000) x3 <- rnorm(50,mean=4000000,sd=900000) x <- matrix(c(x1,x2,x3),ncol=3) Korrelation <- cor(x) Korrelation [,1] [,2] [,3] [1,] 1.000000000 -0.003837006 0.10917406 [2,] -0.003837006 1.000000000 0.09949648 [3,] 0.109174058 0.099496476 1.00000000 > det(Korrelation) [1] 0.9780834 > Eigenwerte <- eigen(Korrelation,symmetric=TRUE,only.values=TRUE) > Eigenwerte $values [1] 1.145813 1.003821 0.850366 > MaxExzentrizitaet <- (Eigenwerte$values[1]-Eigenwerte$values[3])/ (Eigenwerte$values[1]+Eigenwerte$values[3]) > MaxExzentrizitaet [1] 0.1480065 Als Determinante erhält man 0, 978, die maximale Exzentrizität beträgt 0, 148. Derlei Werte, die auf einen geringen Zusammenhang hindeuten, waren zu erwarten, da die genutzten Daten normalverteilte Zufallszahlen, die stochastisch unabhängig voneinander sind.

9.5. GLOBALTEST

9.5

173

Globaltest

9.5.1

Test

Hier wird die paarweise Unabhängigkeit von Korrelationen durch einen Globaltest unter die Lupe genommen. Es wird davon ausgegangen, daß die Daten aus einer einfachen Stichprobe vom Umfang n stammen. Die Variablen X1 , . . . , Xp seien stetig und normalverteilt. Will man überprüfen, ob alle paarweisen Korrelationen der Korrelationsmatrix in Kapitel 9.4 gleich Null sind, so nutzt man folgende Testgröße: W = −(n − p −

2p + 5 ) · ln(det(Korrelationsmatrix)). 6

(9.6)

Bei Gültigkeit der Nullhypothese ist sie approximativ gemäß χ2f +

p(p − 1) · (2p2 − 2p − 13)(χ2f +4 − χ2f ) 2 288 · (n − p − 2p+5 ) 6 p(p − 1) . mit f = 2

(9.7) (9.8)

verteilt (Hartung und Elpelt, 1984, S. 163). Hierbei gibt p die Anzahl der Merkmale an und n ist die Anzahl an Objekten. Der Term

p(p − 1) 2 288 · (n − p − 2p+5 6 )

ist für p = 10 und n = 1000 gleich 3, 215459e − 07; er sinkt mit steigendem n. Für p = 10 und n = 10 ist er 0, 018, also relativ klein. Aus diesem Grund wird näherungsweise so getan, als sei W χ2f -verteilt. Die Nullhypothese lautet H0 : ρij = 0 für alle Tupel (i, j), i = j und die Gegenhypothese H1 : mindestens eine Korrelation ρi,j , i = j ist von Null verschieden.

9.5.2

Beispiel

Die hier genutzten Daten sind in der Datei "Test-ueber-paarweise-Unabhaengigkeit_Globaltest.Rdata" abgespeichert. Es werden normalverteilte Zufallszahlen y1 , . . . , y5 über den Befehl ’rnorm(.)’ erzeugt und in der Matrix y zusammengefaßt. Aus diesem Grund sollte der Test nicht zur Verwerfung der Nullhypothese führen. Warum eigentlich

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

174

nicht?103 In der ersten Spalte sind die Objektnummern abgelegt, in den nachfolgenden die Zufallszahlen y1 , . . . , y5 . Die Determinante der Korrelationsmatrix der Zufallszahlen ist gleich 0, 68, n = 50, die Anzahl an Merkmalen, p, ist 5 und die Anzahl der Freiheitsgrade, f , ist 10. Null- und Gegenhypothese lauten H0 : ρij = 0 für alle Tupel (i, j), i = j bzw. H1 : mindestens eine Korrelation ρi,j , i = j ist von Null verschieden. Die Testgröße, W , ist gleich 16,29 und der Annahmebereich ist bei einer Sicherheitswahrscheinlichkeit von 95 Prozent gleich [0; 18, 3]. Da die Testgröße im Annahmebereich liegt, kann die Nullhypothese nicht abgelehnt werden. Dies bedeutet, daß alle paarweisen Korrelationen gleich Null sind. Anders gewendet gibt es keine von Null signiﬁkanten Korrelationen, ein Ergebnis, das wir aufgrund der verwendeten Daten auch erwarten sollten. > y1 <- rnorm(50,mean=30000,sd=300) > y2 <- rnorm(50,mean=500,sd=30) > y3 <- rnorm(50,mean=600000,sd=550) > y4 <- rnorm(50,mean=200,sd=50) > y5 <- rnorm(50,mean=200,sd=5) > y <- matrix(c(1:50,y1,y2,y3,y4,y5),ncol=6) > Determinante <- det(cor(y[,2:6])) > Determinante [1] 0.6816174 > n <- 50 > p <- 5 > W <- -(n-p-(2*p+5)/(6))*log(Determinante) > W <- -(n-p-(2*p+5)/(6))*log(Determinante) > W [1] 16.28969 > f <- p*(p-1)/(2) > f [1] 10 > qchisq(0.95,f,ncp=0,lower.tail=TRUE) [1] 18.30704

9.6 9.6.1

Multiple Vergleiche Test

In diesem Abschnitt wird die paarweise Unabhängigkeit von Korrelationen durch multiple Vergleiche untersucht. Betrachtet werden wieder p stetige, normalverteilte Variablen X1 , . . . , Xp . Die Daten, so wird vorausgesetzt, entstammen einer einfachen Stichprobe vom Umfang n. Die Hypothesen sind

9.6. MULTIPLE VERGLEICHE

175

H0 : ρij = 0 versus H1 : ρij = 0 für 1 i j p. Als Testgröße dient

Kij = |rij | ·

(n − 2) , 2 1 − rij

(9.9)

die unter der Nullhypothese t-verteilt mit n − 2 Freiheitsgraden ist. Nachdem alle p(p − 1)/2 Korrelationen Kij berechnet wurden, sortiert man sie der Größe nach, d.h. in der Form Ki1 j1 Ki2 j2 . . . Ki p(p−1) j p(p−1) . 2

2

Den größten Wert bezeichnen wir mit Kim jm für m = 1, der zweitgrößte ist Kim jm mit m = 2 und so weiter. p · (p − 1) ist die Anzahl aller Korrelationen in der Korrelationsmatrix, wobei die Einsen der Diagonalen nicht berücksichtigt sind. Die Testgröße kann nicht negativ werden. Der Annahmebereich ist [−∞; tn−2,1−α/(p(p−1)+2−2m) ], t steht für t-Verteilung und n − 2 sind die Freiheitsgrade. Damit verbleibt noch, den Term 1 − α/(p(p − 1) + 2 − 2m) zu erklären. Er gibt die Sicherheitswahrscheinlichkeit an, wobei mit steigendem m die Sicherheitswahrscheinlichkeit sinkt. Ist beispielsweise die Anzahl der Merkmale, p, gleich 5, α = 0.05 und m = 1, so ist die Sicherheitswahrscheinlichkeit 0,9975. Insgesamt gibt es in der Korrelationsmatrix 20 Korrelationen, die im allgemeinen von Eins verschieden sind. Da je zwei identisch sind, sind insgesamt nur 10 zu schätzen: > p <- 5 > alpha <- 0.05 > m <- 1 > 1-alpha/((p*(p-1))+2-2*m) [1] 0.9975. Das Testverfahren besteht aus mehreren Schritten. 1. Schritt

Für m = 1 wird

H0 : Ki1 j1 = 0 gegen H1 : Ki1 j1 = 0 für 1 i j p.. getestet. Kann die Nullhypothese nicht verworfen werden, so ist der Test beendet und es gibt keine Korrelation, die signiﬁkant von Null verschieden ist.

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

176

2. Schritt Wird jedoch im ersten Schritt die Nullhypothese verworfen, so ist für die größte Testgröße die Korrelation signiﬁkant von Null verschieden. Nun wird m gleich 2 gesetzt und die Hypothese lautet H0 : Ki2 j2 = 0 gegen H1 : Ki2 j2 = 0 für 1 i j p. Wird die Nullhypothese angenommen, so ist der Test beendet und alle Korrelationen m, bei denen zuvor die Nullhypothese abgelehnt wurde, sind signiﬁkant von Null verschieden. Andernfalls erhöht man m um eins geht man analog so lange vor, bis alle Möglichkeiten ausprobiert wurden. In Schritt 2 ist p · (p − 1) + 2 − 2 · m = 18 und die Wahrscheinlichkeit, die über dem Annahmebereich liegt, sinkt von 0, 9975 auf 0, 99722. Warum wird so verfahren? Wir haben zwar bei fünf verschiedenen Merkmalen (p = 5) 10 unterschiedliche Korrelationen, von denen jedoch jede in der Korrelationsmatrix doppelt vorkommt. Im ersten Schritt wird α auf 20 Variablen aufgeteilt, von denen je zwei identisch sind. Kommt man zum zweiten Schritt, so ist ja bekannt, daß die größte Testgröße im Ablehnungsbereich liegt. Nun wird α auf 18 Variablen aufgeteilt. Die multiplen Vergleiche sollten im Zusammenhang mit dem Globaltest gesehen werden: zuerst sollte der Globaltest und anschließend, falls dies überhaupt nötig sein sollte, sollten multiple Vergleiche durchgeführt werden. Wird im Globaltest des Kapitels 9.5 die Nullhypothese verworfen, so ist mindestens eine paarweise Korrelation von Null verschieden. Anschließend können die multiplen Vergleiche angestellt werden, um herauszuﬁnden, welche Korrelationen signiﬁkant von Null verschieden sind.

9.6.2

Beispiel

Die Daten des Beispiels von Seite 173 werden wie folgt verändert. > y7 <- 2*y[,2]+rnorm(50,mean=500,sd=33) > y[,3] <- y7 Dies bedeutet: es wird die Variable y7 erzeugt, die sich ergibt, indem die zweite Spalte der Matrix y mit 2 multipliziert wird und bei jedem Objekt i eine normalverteilte Zufallszahl mit Erwartungswert 500 und Standardabweichung 50 hinzuaddiert wird. Um dem Leser die Möglichkeit zu bieten, mit denselben Daten wie hier zu rechnen, sind sie in der Datei Test-ueber-paarweise-Unabhaengigkeit_multiple_Vergleiche.Rdata abgelegt.

9.6. MULTIPLE VERGLEICHE

177

Globaltest Die Durchführung des Globaltests führt zur Ablehnung der Nullhypothese, da die Testgröße W = 260 im Verwerfungsbereich ]18, 3; ∞[ liegt. Folglich ist mindestens eine Korrelation als von Null verschieden anzusehen. Aus diesem Grund soll nun mit dem Test auf multiple Vergleiche herausgefunden werden, welche paarweisen Korrelationen signiﬁkant von Null verschieden sind. > Determinante <- det(cor(y[,2:6])) > Determinante [1] 0.002160966 > n <- 50 > p <- 5 > W <- -(n-p-(2*p+5)/(6))*log(Determinante) > W [1] 260.831 > f <- p*(p-1)/(2) > f [1] 10 > qchisq(0.95,f,ncp=0,lower.tail=TRUE) [1] 18.30704 Multiple Vergleiche Um die multiplen Vergleiche anstellen zu können, muß die Korrelationsmatrix berechnet werden. Anschließend werden alle Korrelationen, die unterhalb der Diagonalen der Korrelationsmatrix liegen, in den Vektor ’Kor1’ geschrieben. > Korrelation <- cor(y[,2:6]) > Korrelation [,1] [,2] [,3] [,4] [,5] [1,] 1.00000000 0.99852955 0.04418607 0.1898035 -0.03548950 [2,] 0.99852955 1.00000000 0.05334472 0.1781336 -0.02474375 [3,] 0.04418607 0.05334472 1.00000000 -0.2325353 0.26297503 [4,] 0.18980349 0.17813363 -0.23253527 1.0000000 -0.28187295 [5,] -0.03548950 -0.02474375 0.26297503 -0.2818730 1.00000000 > Kor1 <- c(Korrelation[2,1],Korrelation[3,1],Korrelation[4,1], Korrelation[5,1],Korrelation[3,2],Korrelation[4,2], Korrelation[5,2],Korrelation[4,3],Korrelation[5,3], Korrelation[5,4]) > Kor1 [1] 0.99852955 0.04418607 0.18980349 -0.03548950 0.05334472 0.17813363 [7] -0.02474375 -0.23253527 0.26297503 -0.28187295 Dann wird von jeder Korrelation der Betrag genommen und in ’Kor2’ geschrieben, um in der Folge die Werte Kij zu berechnen, die in ’K3’ abgespeichert werden.

178

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

> Kor2 <- abs(Kor1) > Kor2 [1] 0.99852955 0.04418607 0.18980349 0.03548950 0.05334472 0.17813363 [7] 0.02474375 0.23253527 0.26297503 0.28187295 > Kor3 <- Kor2 > n <- 50 > for (i in (1:10)) {Kor3[i] <- Kor2[i]*((n-2)/(1-Kor2[i]^2))^.5} > for (i in (1:10)) {Kor3[i] <- Kor2[i]*((n-2)/(1-Kor2[i]^2))^.5} > Kor3 [1] 127.6148560 0.3064293 1.3393436 0.2460334 0.3701100 1.2542054 [7] 0.1714822 1.6564585 1.8884115 2.0354053 In ’Kor4’ stehen die Werte Kij der Größe nach sortiert und die Parameterwerte m und alpha werden eingegeben. > Kor4 <- sort(Kor3,decreasing=TRUE) > Kor4 [1] 127.6148560 2.0354053 1.8884115 1.2542054 [7] 0.3701100 0.3064293 0.2460334 > m <- 1 > alpha <- .05

1.6564585

1.3393436

0.1714822

Jetzt werden die Quantile berechnet. Der erste Befehl dient dazu, einen Vektor der Länge 10 zu erzeugen. Es folgt eine Schleife, um die Rechenoperationen für jedes einzelne Quantil elegant und schnell durchführen zu können. Der letzte Befehl dient dazu, herauszuﬁnden, wann die Nullhypothese zum ersten Mal verworfen wird. Dies ist bei dem ersten Wert der Fall. Dies bezieht sich auf die Korrelation zwischen der zweiten und dritten Spalte der Rohdaten in y. Man beachte bitte, daß in der ersten Spalte die Nummern der Objekte i für i = 1, 2, . . . , 50 abgetragen sind. > Quantile <- c(1:10) > for (i in (1:10)) { m <- i Quantile[i] <- qt(1-alpha/(p*(p-1)+2-2*m),n-2,lower.tail=TRUE) } > Quantile [1] 2.942616 2.903872 2.860222 2.810288 2.752023 2.682204 2.595323 2.480783 [9] 2.313899 2.010635 > Kor4
9.7. MULTIPLE KORRELATION

179

Da die dritte Spalte eine lineare Funktion der zweiten plus einem normalverteilten Störterm ist, war dieses Ergebnis zu erwarten. Das bedeutet, daß der Test dazu führt, daß alle paarweisen Korrelationen gleich Null sind bis auf jene zwischen Spalte 2 und 3 in der Matrix y.

9.7

Multiple Korrelation

9.7.1

Grundlagen

Es werden stetige, normalverteilte Zufallsvariablen in der Grundgesamtheit vorausgesetzt. Wir gehen davon aus, daß die Daten aus einer einfachen Stichprobe vom Umfang n stammen. Die multiple Korrelation ist ein Maß, das die Stärke des linearen Zusammenhanges zwischen Y und p Merkmalen X1 , . . . , Xp angibt. Die betragsmäßig größte einfache Korrelation zwischen Y und einer beliebigen Linearkombination a1 X1 + a2 X2 + · · · + ap Xp mit ai = konst für i = 1, 2, . . . , p,

(9.10)

heißt multiple Korrelation rY,(X1 ,...,Xp ) . Die Konstanten ai , i = 1, 2, . . . , p heißen Gewichte. Wir schätzen die multiple Korrelation über folgende Schätzfunktion ˆ X)−1 · rYX . (9.11) rY,(X ,...,X ) = r · Korr(X, 1

p

YX

Ein hochgestelltes ’t’ deutet an, daß die Transponierte des Vektors oder der Matrix verwendet werden soll. Fett gedruckte Variablen sind Vektoren oder Matrizen. Bei rYX = (rYX1 , rYX2 , . . . , rYXp ) handelt es sich um einen transponierten Spaltenvektor, in dem paarweise Korrelationskoeﬃzienten nach Bravais-Pearson stehen.

9.7.2

Beispiel 1

Es soll untersucht werden, ob es in einer Filiale zwischen dem Umsatz (Y) einerseits und dem Alter (X1 ) und der Entfernung zur Filiale (X2 ) eine multiple Korrelation gibt. Die verwendeten Daten sind in der Datei Multiple_Korrelation.Rdata hinterlegt. Entweder werden sie mit dem Befehl ’load’ oder mit der Anweisung Daten <- matrix(c(1:21, 400,200,33,45,69,33,34,76,777,896, 459,234,327,23,567,875,66,458,987,92,100, 22,44,55,45,76,23,45,11,89,45, 65,72,34,54,67,54,76,53,21,22,55, 1.6,37,22,33,46,120,45,67,98,56, 27,57,23,32,65,87,94,50,32,12,34),ncol=4)

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

180

eingelesen. Im nächsten Arbeitsgang wird der Vektor rYX berechnet. Um den Schätzer ˆ für die Korrelationsmatrix, Korr(XX), zu berechnen, werden die X-Daten zu der Matrix ’XX’ zusammengefaßt. Mit ’Korr(XX)’ wird die Korrelationsmatrix geschätzt. > ryx <- c(cor(Daten[,2],Daten[,3]),cor(Daten[,2],Daten[,4])) > ryx [1] 0.07710795 0.14512626 > XX <- Daten[,3:4] > head(XX) [,1] [,2] [1,] 22 1.6 [2,] 44 37.0 [3,] 55 22.0 [4,] 45 33.0 [5,] 76 46.0 [6,] 23 120.0 > KorrXX <- cor(XX) > KorrXX [1,] 1.0000000 0.2962710 [2,] 0.2962710 1.0000000 Zur Berechnung der multiplen Korrelation, ist es nötig, die Inverse von ’Cor(XX)’ zu bestimmen. Dies erfolgt über den Befehl ’inv’, der im Paket ’fUtilities’ verfügbar ist. Als multiple Korrelation ergibt sich ein Wert von 0, 149, der vergleichsweise gering ist. [,1] [,2] > library(fUtilities) > rYX1X2 <- (t(ryx)%*%inv(KorrXX)%*%ryx)^.5 > rYX1X2 [,1] [1,] 0.1494562

9.7.3

Test

In Beispiel 9.7.2 ergab sich eine geringe multiple Korrelation. Doch selbst bei höheren Korrelationen kann es vorkommen, daß sie nicht signiﬁkant von Null verschieden sind. Dies kann dann der Fall sein, wenn die beobachteten Varianzen der Variablen recht groß sind. Aus diesem Grund empﬁehlt es sich zu testen, ob H0 : ρY,(X1 ,...,Xp ) = 0 oder H1 : ∃ρY,Xi = 0 für i ∈ {1, 2, 3, . . . , p} zutriﬀt.

9.7. MULTIPLE KORRELATION

181

∃ ist der Existenzquantor und steht für ’es existiert der Zusammenhang’. Die Nullhypothese tritt genau dann ein, wenn alle Korrelationen ρY,X1 = · · · = ρY,Xp gleich Null sind. Als Testgröße dient 2 rY,(X

1 ,...,Xp )

F =

p 2 1−rY,(X

(9.12)

1 ,...,Xp )

(n−1−p)

wobei p die Anzahl der Merkmale X = (X1 , . . . , Xp ) ist und n die Anzahl an Objekten angibt. Die Testgröße folgt einer F-Verteilung mit p Zählerfreiheitsgraden und n − 1 − p Nennerfreiheitsgraden (Hartung und Elpelt, 1984, S. 171). Der Annahmebereich ist [0, Fp,n−1−p,(1−α) ]; fällt die Testgröße in diesen Bereich, so kann die Nullhypothese nicht abgelehnt werden.

9.7.4

Beispiel 2

Beispiel 9.7.2 wird fortgesetzt und überprüft, ob die multiple Korrelation, die auf rY,(X1 ,...,Xp ) = 0, 149 geschätzt wurde, signiﬁkant von Null verschieden ist. Zuerst werden die Parameter p und n eingegeben. Die Berechnung der Testgröße wird in zwei Schritten vorgenommen. Zuerst werden Zähler und Nenner berechnet und hierauf aufbauend die Testgröße ermittelt. Sie ist gleich 0, 2056. Der Annahmebereich ist [0; 3, 554557]. Da die Testgröße im Annahmebereich liegt, kann die Nullhypothese zum Signiﬁkanzniveau α = 0, 05 nicht abgelehnt werden. > > > > > > >

p <- 2 n <- 21 Zaehler <- rYX1X2^2/p Nenner <- (1-rYX1X2^2)/(n-1-p)

F <- Zaehler/Nenner F [,1] [1,] 0.2056277 > Quantil <- qf(0.95,p,n-1-p,ncp=0,lower.tail=TRUE) > Quantil [1] 3.554557 > F
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

182

9.8

Kanonische Korrelation

9.8.1

Grundlagen

Die kanonische Korrelation ist eine Verallgemeinerung der multiplen. Anstatt, wie bei der multiplen, die Korrelation zwischen einer Variablen Y und den Variablen (X1 , . . . , Xp ) zu ermitteln, sucht man bei der kanonischen nach einem Zusammenhang zwischen zwei Variablengruppen Y = (Y1 , . . . , Yp1 ) und X = (X1 , . . . , Xp2 ). Wie zuvor wird von stetigen und normalverteilten Zufallsvariablen Y und X ausgegangen. Bei der kanonischen Korrelation sucht man nach der betragsmäßig größten Korrelation zwischen folgenden beiden Linearkombinationen a1 Y1 + · · · + ap1 Yp1 und b1 X1 + · · · + bp2 Xp2 . Der Vektor mit den Parameterwerten a, (a1 , . . . , ap1 ) , heißt Vektor regressionsähnlicher Parameter und (b1 , . . . , bp2 ) Vektor des besten Vorhersagekriteriums (Hartung und Elpelt, 1984, S. 172). Gegeben seien die Zufallsmatrizen Y und X. Dann wird die kanonische Korrelation, ρY,X , berechnet als Quadratwurzel aus dem maximalen Eigenwert von Q, wobei Q := Cov(Y) mit

und

−1

· Cov(YX) · Cov(X)−1 · Cov(YX) ,

⎛

(9.13)

Cov(Y1 , Y1 ) ⎜ Cov(Y2 , Y1 ) ⎜ Cov(Y) = ⎜ .. ⎝ .

Cov(Y1 , Y2 ) Cov(Y2 , Y2 ) .. .

... ...

⎞ Cov(Y1 , Yp1 ) Cov(Y2 , Yp1 ) ⎟ ⎟ ⎟ .. ⎠ .

Cov(Yp1 , Y1 )

Cov(Yp1 , Y2 )

...

Cov(Yp1 , Yp1 )

Cov(Y1 , X2 ) Cov(Y2 , X2 ) .. .

... ...

⎛

Cov(Y1 , X1 ) ⎜ Cov(Y2 , X1 ) ⎜ Cov(XY) = ⎜ .. ⎝ .

Cov(Yp1 , X1 ) Cov(Yp1 , X2 ) . . .

⎞ Cov(Y1 , Xp2 ) Cov(Y2 , Xp2 ) ⎟ ⎟ ⎟. .. ⎠ . Cov(Yp1 , Xp2 )

Diese Kovarianzen werden über die korrigierte Stichprobenkovarianz geschätzt: 2 σ ˆY = i Yj

n 1 (yik − y¯i ) · (yjk − y¯j ). n−1

(9.14)

k=1

Für i = j erhält man die korrigierte Stichprobenvarianz. Mit Hilfe dieser Schätˆ analog zu Q berechnet. Die geschätzte kanonische Korrelation zungen wird Q ˆ ist die Quadratwurzel des größten Eigenwertes λmax von Q: r(Y,X) = λmax . (9.15)

9.8. KANONISCHE KORRELATION

9.8.2

183

Beispiel 1

Methode 1 Die verwendeten Daten sind abgespeichert in der Datei Korrelation-kanonische.Rdata. Um sicherzustellen, daß die Voraussetzungen zur Berechnung der kanonischen Korrelation auch wirklich vorliegen, werden alle Variablen als normalverteilte Zufallszahlen y1, y2, y3, y4 mit erzeugt und zu der Matrix x zusammengefaßt. Die Merkmale 1 und 2 bilden die erste Gruppe und 3 und 4 die zweite. Da wir wissen, daß zwischen allen Variablen lineare Zusammenhänge zugrunde liegen, sollte sich eine vergleichsweise hohe kanonische Korrelation ergeben. > > > > > >

y1 <- 40+3*seq(1:50)+rnorm(50,mean=400,sd=200) y2 <- y1+rnorm(50,mean=400,sd=200) y3 <- y2+rnorm(50,mean=400,sd=200) y4 <- y3+rnorm(50,mean=400,sd=200) x <- cbind(y1,y2,y3,y4) head(x) y1 y2 y3 y4 [1,] 516.01219 626.4031 1197.7035 1778.381 [2,] 301.27502 831.2924 894.6699 1262.685 [3,] 436.93262 771.7871 1434.1364 1279.126 [4,] 633.41539 1256.4101 1820.4107 2102.112 [5,] 493.97013 1089.3177 1400.0759 1863.305 [6,] 71.24755 308.7346 870.0140 895.819

ˆ berechnet. Das ’ ˆ ’ über Dann werden die Matrizen zur Berechnung von Q ˆ dem Q heißt im Englischen ’hat’, weshalb der Schätzer von Q in den -Befehlen mit ’Qdach’ gekennzeichnet wurde. Die Quadratwurzel aus dem größten Eigenwert von ’Qdach’ ist gleich der kanonischen Korrelation; sie beträgt 0, 8337455. > CovY <- cov(x[,1:2]) > CovY y1 y2 y1 65713.95 62421.74 y2 62421.74 91407.68 > CovX <- cov(x[,3:4]) > CovX y3 y4 y3 137093.7 129154.7 y4 129154.7 155240.4 > Cov <- cov(x) > Cov y1 y2 y3 y1 65713.95 62421.74 69880.16

y4 70233.70

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

184

y2 62421.74 91407.68 90941.42 92985.05 y3 69880.16 90941.42 137093.74 129154.66 y4 70233.70 92985.05 129154.66 155240.39 > CovYX <- Cov[1:2,3:4] > CovYX y3 y4 y1 69880.16 70233.70 y2 90941.42 92985.05 > library(fUtilities) > Qdach <- inv(CovY)%*%CovYX%*%inv(CovX)%*%t(CovYX) > Qdach y1 y2 y1 0.1683440 0.2178722 y2 0.4026484 0.5286017 > Eigenwerte <- eigen(Qdach) > Eigenwerte$values [1] 0.695131584 0.001814074 > r <- (Eigenwerte$values[1])^.5 > r [1] 0.8337455 Methode 2 Schneller und bequemer geht die Berechnung mit Hilfe des Programmpaketes ’yacca’ und der Verwendung des Befehls ’cca’. Der Output ist recht umfangreich, hier genügt allein der Verweis, wo die kanonische Korrelation abzulesen ist. Unter ’CV 1’, wobei ’CV’ für ’canonical variate’ (=kanonische Zufallsvariable) steht, ist sie abzulesen. > library("yacca") > Canonical <- cca(x[,1:2],x[,3:4]) > Canonical Canonical Correlation Analysis Canonical Correlations: CV 1 CV 2 0.83374552 0.04259194 ...

9.8.3

Test

In (Hartung und Elpelt, 1984, S. 175-177) ﬁnden sich vier Tests zur Überprüfung der Hypothese H0 : ρY,X = 0

9.8. KANONISCHE KORRELATION

185

gegen H1 : ρY,X = 0. Hier soll jedoch nur der Wilks-Test vorgestellt werden. Die Testgröße ist gleich

mit und

−δ · ln(ΛW )

(9.16)

1 ΛW = Πpi=1 (1 − λi )

(9.17)

p1 + p2 + 1 . 2 ist approximativ Chi-Quadrat-verteilt. Der Annahmebereich ist δ =n−1−

ΛW

(9.18)

[0; Quantilp1 ·p2 ,(1−α) ]. Liegt Testgröße 9.16 außerhalb dieses Bereiches, so ist die Nullhypothese zu verwerfen. In ﬁnden sich zwei Tests zur Überprüfung der Hypothesen: den Bartlett Chi-Quadrat Test und den Test von Rao. Bei Bartletts Test wird in Zeile ’CV 1’ (siehe Beispiel 9.8.4) Testgröße 9.16 verwendet, und in der letzten Spalte die Wahrscheinlichkeitsmasse rechts der Testgröße angegeben. Bei dem Test nach Rao wird eine Testgröße F berechnet, die approximativ F-verteilt ist. Bei beiden Tests wird die Nullhypothese abgelehnt, wenn die angegebenen Wahrscheinlichkeiten kleiner sind als das vorgegebene Signiﬁkanzniveau.

9.8.4

Beispiel 2

Methode 1 Hier wird mit denselben Daten gerechnet wie in Beispiel 9.8.2. Die Ergebnisse des Bartlett Tests erhält man über die Anweisung ’summary(cca(.))’. In vorliegendem Fall wurde das Ergebnis der kanonischen Korrelationsanalyse als Variable ’Canonical’ abgespeichert und wird über ’summary (Canonical)’ angesprochen. Der Test wird nicht nur für den höchsten Eigenwert, sondern nach der Höhe der Eigenwerte in absteigender Reihenfolge durchgeführt. Hier ist die erste kanonische Korrelation, die aufgrund des höchsten Eigenwertes berechnet wurde, signiﬁkant von Null verschieden, d.h. die Nullhypothese ist abzulehnen. > summary(Canonical) Canonical Correlation Analysis - Summary

Canonical Correlations: CV 1

CV 2

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

186

0.83374552 0.04259194 Shared Variance on Each Canonical Variate: CV 1 CV 2 0.695131584 0.001814074 Bartlett’s Chi-Squared Test: rho^2 Chisq df Pr(>X) CV 1 0.6951316 55.3206194 4 2.783e-11 *** CV 2 0.0018141 0.0844310 1 0.7714 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ... Methode 2 Zur Durchführung des Tests nach Rao ist der Befehl ’F.test.cca(.)’ zu nutzen. Auch hier ergibt sich wegen sehr kleiner Wahrscheinlichkeit für die Korrelation, berechnet aus dem maximalen Eigenwert, eine von Null verschiedene kanonische Korrelation. Mit anderen Worten ist die Nullhypothese abzulehnen. > F.test.cca(Canonical) F Test for Canonical Correlations (Rao’s F Approximation) Corr F Num df Den df Pr(>F) CV 1 0.833746 18.693264 4.000000 92 2.827e-11 *** CV 2 0.042592 0.085416 1.000000 47 0.7714 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ...

9.9

Abschließende Bemerkungen

In diesem Kapitel wurden paarweise Korrelationen miteinander verglichen oder solche zwischen Linearkombinationen von Merkmalen berechnet sowie Tests vorgestellt. Bei dem Vergleich zweier Korrelationen sollte beachtet werden, daß beide Maßzahlen in einem sinnvollen Zusammenhang stehen. Der Vergleich der Korrelation zwischen der Anzahl der Störche und der Größe ihres Lebensraumes mit der Korrelation der zugelassenen Autos pro Monat und der Verkehrstoten pro Monat macht (zumindest ohne weitere Erklärung) keinen Sinn. Die partielle Korrelation macht deutlich, wie wichtig sachlogische Zusammenhänge sind. Das angegebene Beispiel illustriert mögliche Probleme. Es können mitunter hohe Korrelationen zwischen zwei Variablen gemessen werden,

9.10. KONTROLLFRAGEN

187

doch bei Ausschaltung der intervenierenden Zufallsvariable X2 kann sich herausstellen, daß die partielle Korrelation nicht signiﬁkant von Null verschieden ist. Gelegentlich wird statt dieser Ausdrucksweise auch nur gesagt, daß die partielle Korrelation nicht signiﬁkant ist. Der Globaltest und die multiplen Vergleiche zielen darauf ab, mehrere paarweise Korrelationen zu überprüfen. Zeigt der Globaltest, daß zumindest eine Korrelation von Null verschieden ist, so kann mit den multiplen Vergleichen herausgefunden werden, welche paarweisen Korrelationen von Null verschieden sind. Die multiple Korrelation dient der Berechnung der Korrelation zwischen einer Variablen Y und einer Linearkombination der Variablen X. Die Verallgemeinerung dieses Vorgehens führt zu der kanonischen Korrelation, bei der die Korrelation zwischen zwei Linearkombinationen berechnet wird. Bereits an dieser Stelle sei darauf hingewiesen, daß es zwischen der Regressionsrechnung (siehe Kapitel 12) und Korrelationsanalyse enge Beziehungen gibt. Wendet man beispielsweise die Quadratwurzel auf das Bestimmtheitsmaß R2 , dargestellt in Kapitel 12.5, an, so erhält man ebenfalls die multiple Korrelation.

9.10

Kontrollfragen

1. (a) Könnte in Kapitel 9.2 auch die Hypothese H0 : Beide Korrelationen sind identisch überprüft werden?104 (b) Wie würde die Gegenhypothese lauten? (c) Geben Sie den zugehörigen Annahmebereich zum Signiﬁkanzniveau von 96 Prozent an. 2. Erläutern Sie, wozu die partielle Korrelation überhaupt nütze ist. 3. (a) Warum ist die Korrelationsmatrix symmetrisch und (b) warum stehen auf ihrer Diagonalen Einsen? 4. Können Sie angeben, wofür X1 steht?105 5. (a) Sie schätzen den Zusammenhang zwischen allen paarweisen Korrelationen mit Hilfe der Determinante der Korrelationsmatrix. Angenommen, die Determinante ist nahe Null. Was bedeutet das? (b) Sie nutzen dieselben Daten, verwenden jedoch die Maximale Exzentrizität. Können Sie angeben, welchen Wert diese Kennzahl annähernd haben muß? 6. Warum wird überhaupt der Globaltest angewandt? 7. Sollten in jedem Falle multiple Vergleiche gemacht werden? 8. Welcher Zusammenhang wird bei der multiplen Korrelation untersucht? 9. Um welchen Zusammenhang geht es bei der kanonischen Korrelation?

KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*

188

9.11

Aufgaben

1. (a) In Kapitel 9.2 auf Seite 166 wird ohne nähere Begründung die Nullhypothese H0 : ρ1 > ρ2 angegeben. Ist dies korrekt? 106 (b) Falls dies nicht korrekt sein sollte, welche Methode sollte sinnvollerweise angewandt werden, um diese Frage zu beantworten?107 2. Erläutern Sie, warum die Testgröße 9.1 annähernd standardnormalverteilt ist.108 3. Im Beispiel auf Seite 172 wurde die Korrelation der Matrix x berechnet. Warum wurde nicht der Befehl ’cor(x1,x2)’verwandt?109 4. Was ist der Unterschied zwischen Cov(X, Y) und Cov(Y1 , X1 )?110 5. Sanitätshaus Meier gibt in Auftrag zu untersuchen, ob es eine Korrelation zwischen ihrem Umsatz Y1 und Gewinn Y2 einerseits und dem Alter der Patienten X1 und der Anzahl ihrer Arztbesuche pro Quartal X2 andererseits gibt. Welche Methoden bieten sich zur Untersuchung dieser Fragestellung an?111 6. Abteilungsleiter Müller hat die Ergebnisse einer Befragung vorliegen. Es handelt sich ausschließlich um kardinal meßbare Größen. Welche Analyseverfahren können genutzt werden?112 7. Eine Verkaufsleiterin hat Daten über die Verkaufszahlen und die Verkäuferstunden in 50 Filialen zusammengestellt. Hieraus ergibt sich eine Korrelation in Höhe von 0, 23 zwischen diesen beiden Merkmalen. Hieraus schließt sie, daß eine Verringerung der eingesetzten Arbeitsstunden sinnvoll wäre. Diskutieren Sie.113 8. Zeigen Sie, daß die Anwendung der Formel zur Berechnung der kanonischen Korrelation zwischen den Merkmalen Y1 und X1 zum selben Ergebnis führt, wie die Berechnung der Korrelation nach Bravais-Pearson.114

Kapitel 10

Daten- und Distanzmatrix 10.1

Einleitung

Datenmatrizen haben wir in einer leicht anderen Darstellungsform bereits kennengelernt. Es handelt sich um Rohdaten, die in Tabellenform, beispielhaft dargestellt auf Seite 15, präsentiert wurden. Jede Zeile unserer Rohdaten (d.h. jeder Datensatz) repräsentiert eine statistische Einheit, wobei in jeder Zeile die Merkmalsausprägungen der statistischen Einheit abgetragen sind. Werden die Daten statt in einer Tabelle in eine Matrix geschrieben, so sprechen wie von einer Datenmatrix. Die Rohdaten in Tabelle 2.1 auf Seite 15 sehen als Datenmatrix geschrieben folgendermaßen aus: ⎞ ⎛ 10, 5 500 ⎝ 12, 9 550⎠ . (10.1) 33, 85 300 Diese Matrix kann in allgemeiner Form geschrieben werden als ⎛ ⎞ y11 y12 ⎝y21 y22 ⎠ . y31 y32 y21 bezeichnet also den Wert in der zweiten Zeile und ersten Spalte. Es ist die Ausprägung des ersten Merkmals, durch die das zweiten Objekt gekennzeichnet ist. In der Clusteranalyse beispielsweise werden die Daten jedoch nicht in Form einer Datenmatrix, sondern üblicherweise als Distanzmatrix in Programme eingespeist. Die Distanzmatrix gibt Auskunft darüber, wie weit die Objekte voneinander entfernt sind. Ziel der Clusteranalyse ist es, aufgrund dieser Informationen jene Objekte zu identiﬁzieren, die sich möglichst ähnlich sind. Ähnliche Objekte werden zu einer Gruppe oder einem ’Cluster’ zusammengefaßt. Dieses Kapitel ist dem Kapitel 11 folglich notwendigerweise vorgeschaltet, um die Grundlagen zu legen, damit die verschiedenen Verfahren der Clusteranalyse überhaupt sinnvoll angewendet werden können. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_10, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

190

KAPITEL 10. DATEN- UND DISTANZMATRIX

Ausgehend von Rohdaten oder einer Datenmatrix lassen sich Distanzmatrizen herleiten. Distanz bedeutet, daß man die Entfernung zwischen zwei statistischen Einheiten mit Hilfe ihrer Merkmalsausprägungen festlegt. Man vergleicht also in einer Datenmatrix die i-te mit der j-ten Zeile. In diesem Kapitel wird beschrieben, wie man ausgehend von Daten- zu Distanzmatrizen kommen kann. Distanzmatrizen können dann genutzt werden, um mit Hilfe der Clusteranalyse Objekte zu Gruppen zusammenzufassen. In gibt es mindestens zwei Möglichkeiten, Distanzmatrizen herzuleiten: einerseits mit dem Befehl ’dist’ und andererseits mit ’daisy’. Die erstgenannte Anweisung erlaubt die Berechnung von Distanzmatrizen, falls ausschließlich numerische Variable vorhanden sind. Üblicherweise liegen in der Praxis jedoch Datenmatrizen vor, bei denen die Objekte durch Variablen mit unterschiedlichem Skalenniveau beschrieben werden. Zwei mögliche Vorgehensweisen bieten sich dann an: 1. nominal und ordinal skalierte Merkmale werden transformiert zu kardinalen oder 2. man standardisiert den Distanzindex einer jeden Variable, ganz gleich, welches Skalenniveau sie besitzt, auf den Bereich [0, 1] und faßt diese variablenspeziﬁsche Indizes zu einem zusammenfassenden Index zusammen. (Hartung und Elpelt, 1984) beschreiben Methoden, wie eine Transformation auf höhere Skalenniveaus erfolgen kann. Im Programm ’daisy’ wird hingegen die zweite Möglichkeit genutzt. Es ist Teil des Programmpaketes ’cluster’. Um das Programm verfügbar zu machen, lade gegebenenfalls zuerst mit > library(cluster) das erforderliche Paket. Die Eingabe von > ?daisy öﬀnet eine Hilfeseite, in der die wichtigsten Hinweise zur Nutzung des Programms zu ﬁnden sind. DAISY steht für DISsimilAritY. Es dient vor allem zur Berechnung von Ungleichheitskoeﬃzienten (= Distanzmaßen). Ausgangspunkt ist eine Datenmatrix. Zugelassen sind alle Arten an Daten, nominal, ordinal, intervall- und verhältnisskalierte Variablen. Die Daten müssen als Matrix oder ’data.frame’ eingegeben werden. Informationen über Dateneigenschaften sind in Kapitel C.4 zu ﬁnden. Dabei ist darauf zu achten, daß Spalten, denen die Eigenschaft ’numerisch’ zugewiesen ist, als intervallskalierte Variablen behandelt werden. Spalten mit der Eigenschaft ’geordnet’ werden als ordinal und solche mit der Eigenschaft ’Faktor’ werden als nominal skalierte Variablen behandelt. Im nachfolgenden Abschnitt werden Distanzmatrizen deﬁniert und wünschenswerte Eigenschaften vorgestellt. Zudem wird etwas detaillierter als in den

10.2. DISTANZMATRIZEN

191

vorangegangenen Kapiteln auf unterschiedliche Skalenniveaus von Variablen eingegangen. Insbesondere wird eine zusätzliche Kategorie, die binären Variablen, eingeführt, wobei zwischen symmetrischen und asymmetrischen unterschieden wird. Alle nachfolgenden Ausführungen beziehen sich auf das Verfahren ’gower’ im Befehl ’daisy’, bei dem eine eingeschränkte Auswahl an Distanzindizes zur Verfügung steht. Aus diesem Grund wird bei den kardinalen Merkmalen lediglich die Manhattan-Distanz vorgestellt. Es folgt die Darstellung der Standardisierung einer jeden Variable und wie die Indizes jeder Variable zu einer einzigen Maßzahl zum Vergleich zweier Personen oder Objekte zusammengefaßt werden können.

10.2

Distanzmatrizen

10.2.1

Deﬁnition und Eigenschaften

Allgemein schreiben wir für die Distanz zwischen den Objekten i und j: d(i, j). Um jedoch die Entfernung bestimmen zu können, benötigen wir eine einzige Zahl d(1, 2), die die Distanz zwischen Objekt 1 und 2 anzeigt. Distanzen sollten nicht beliebig festgelegt werden. Folgende Eigenschaften von Distanzen erscheinen sinnvoll (Kaufmann und Rousseeuw, 1990, S. 13). 1. d(i, j) 0, d.h. daß Distanzen nicht negativ sind. 2. Ist i = j (d.h. sind die Merkmalsausprägungen identisch), so wird sinnvollerweise festgelegt, daß die Distanz gleich Null ist: d(i, i) = 0. Dies bedeutet jedoch nicht unbedingt, daß es sich um dieselben Objekte handeln muß. 3. Die Distanz sollte unabhängig von der Reihenfolge der statistischen Einheiten in der Datenmatrix sein, d.h. d(i, j) = d(j, i) für alle i, j in der Datenmatrix. 4. Zudem soll gelten: d(i, j) d(i, h) + d(h, j). In allgemeiner Form ist eine Distanzmatrix wie ⎛ 0 d(1, 2) d(1, 3) ⎜ d(2, 1) 0 d(2, 3) ⎜ ⎜ d(3, 1) d(3, 2) 0 D=⎜ ⎜ .. .. .. ⎝ . . .

folgt aufgebaut: ⎞ · · · d(1, n) · · · d(2, n)⎟ ⎟ · · · d(3, n)⎟ ⎟. .. .. ⎟ . . ⎠

d(n, 1) d(n, 2) d(n, 3) · · ·

0

Wegen Bedingung 2 besteht die Diagonale einer Distanzmatrix aus Nullen. Sofern Bedingung 3 erfüllt ist, ist die Datenmatrix symmetrisch, d.h. die Werte oberhalb der Hauptdiagonalen, die hier ausschließlich aus Nullen besteht, ﬁnden sich spiegelbildlich auch unterhalb von ihr. Bei solchen Matrizen kann man entweder den oberen oder unteren Teil ohne Informationsverlust weglassen.

KAPITEL 10. DATEN- UND DISTANZMATRIX

192

10.2.2

Skalierung

Bei der Bestimmung einer Distanzmatrix ist auf die Skalierung der Merkmale zu achten. Es wurde zwar bereits auf die unterschiedliche Skalierung grob eingegangen, hier ist jedoch eine feinere Klassiﬁzierung nötig. Wir unterscheiden 1. kardinale, 2. ordinale, 3. nominale und 4. binäre Merkmale. Bei den kardinalen Merkmalen wird außerdem unterschieden zwischen 1. intervall- und 2. verhältnisskalierten Variablen. Ferner werden bei den binären Variablen 1. symmetrische und 2. asymmetrische Variablen unterschieden.

10.3

Kardinale Merkmale

10.3.1

Intervall- und Verhältnisskala

Bei intervallskalierten Merkmalen handelt sich um kontinuierliche Messungen, bei denen Diﬀerenzen sinnvoll interpretiert werden können. Alter, Temperatur und Kosten zum selben Zeitpunkt sind Beispiele hierfür. Üblicherweise wird vorausgesetzt, daß Intervallen gleicher Länge dieselbe Bedeutung zufällt. Bei verhältnisskalierten Merkmalen gibt es demgegenüber ausschließlich positive Werte (Kaufmann und Rousseeuw, 1990, S. 4, 31) oder nur negative. Ein Beispiel hierfür sind Aktienkurse; ein Aktienkurs mag Null oder positiv sein. Steigt der Aktienkurs innerhalb eines Jahres von 100 auf 110 Euro und ﬁndet keine Dividendenzahlung statt, so stellt dies eine Verzinsung von 10 Prozent dar. War der Aktienkurs zu Beginn des Jahres dagegen 1000 Euro und erhöhte er sich auf 1100 Euro, so stellt dies ebenfalls eine Verzinsung von 10 Prozent dar. Können solche Verhältnisse gebildet und sinnvoll interpretiert werden, so handelt es sich um verhältnisskalierte Merkmale. Findet eine jährlich gleichbleibende Verzinsung statt, so kann die Entwicklung des Wertes eines Vermögensgegenstandes (wie z.B. ein Aktienkurs) bei kontinuierlicher Verzinsung und Berücksichtigung von Zinseszinsen durch die Formel a · exp(zt) (10.2) beschrieben werden. a und z sind hierbei Konstanten, wobei

10.3. KARDINALE MERKMALE

193

a das ursprüngliche Kapitel und z den Zinssatz darstellt. Die Abzinsung mit Zinseszinsen wird durch a · exp(−zt)

(10.3)

beschrieben. Bei der Messung von Distanzen ist es wichtig, welche Art kardinalen Merkmals vorliegt. Geht man davon aus, daß in den Augen eines Menschen der Wert eines Vermögens in einem Jahr geringer ist als der gegenwärtige, so könnten sie durch Berücksichtigung von Zinsen gleich wertvoll gemacht werden. Wäre eine Aktie, die heute einen Kurs von 100 Euro aufweist, in den Augen eines Menschen genausoviel wert wie die Aktie ein Jahr später mit Kurs 110, so wären die Diﬀerenzen zwischen zwei Kursen zu verschiedenen Zeitpunkten nicht gleichwertig. Bei geforderter konstanter Verzinsung in Höhe von z wäre aber auf jede Zeitdiﬀerenz derselbe Zinssatz anzuwenden. Ein Beispiel soll dies verdeutlichen. Nach der Zeit t1 wäre ein Kapital von a angewachsen auf K1 = a · ezt1 und nach der Zeit t2 auf

K2 = a · ezt2 .

Um zu einer Proportionalskala zu kommen, kann auf diese Werte der Logarithmus angewandt werden. Diﬀerenzen dieser logarithmierten Werte haben dann immer dieselbe Bedeutung. Denn die Anwendung des natürlichen Logarithmus auf K1 bzw. K2 ergibt: ln(a) + zt1 bzw. ln(a) + zt2 . Zieht man von dem zweiten Wert den ersten ab, so erhält man zt2 − zt1 = z(t2 − t1 ) und die Diﬀerenzen hängen bei gegebener Verzinsung nur noch von der Periodenlänge ab. Betrachten wir nun zwei Personen, i und j, mit ihren Vermögenswerten Kit1 und Kjt1 zum Zeitpunkt t1 , wobei sichergestellt sei, daß die Vermögenswerte nur positive Werte annehmen können. Die Logarithmierung der Vermögenswerte ergibt ln(ai ) + zi t1 bzw. ln(aj ) + zj t1 . Zieht man von dem zweiten Wert den ersten ab, so erhält man ln(aj ) − ln(ai ) + zj t1 − zi t1 = ln(aj ) − ln(ai ) + (zj − zi )t1 .

KAPITEL 10. DATEN- UND DISTANZMATRIX

194

Mit anderen Worten erhält man durch Diﬀerenzenbildung den Logarithmus des Anfangskapitals der Person j abzüglich des Logarithmus des Anfangskapitals der Person i plus der Zinsdiﬀerenz beider Personen bis Zeitpunkt t1 . Haben beide Personen dasselbe Startkapital, so ist die Diﬀerenz gleich der Zinsdiﬀerenz beider Personen multipliziert mit t1 . Logarithmierung kann also zu ökonomisch interpretierbaren Diﬀerenzen führen. Intervalle gleicher Länge sollten dieselbe Bedeutung haben. Würden wir jedoch als Basis zur Erzeugung von Distanzen die Kapitalwerte K1 und K2 verwenden, so hätten Intervalle gleicher Länge wegen Zinseszinsen ganz verschiedene Bedeutung. Über die Logarithmierung können wir jedoch eine Proportionalskala erzeugen, womit der Forderung, ’gleiche Länge = dieselbe Bedeutung’ genügt wird. Wir haben also gesehen, daß Logarithmierung zu sinnvollen, interpretierbaren Distanzen führen können. Werden ökonomisch sinnvolle Distanzindizes gebildet, so kann man die Hoﬀnung haben, mit Hilfe der Clusteranalyse interpretierbare Klassen bilden zu können.

10.3.2

Manhattan-Distanz

Grundlagen Die Manhattan-Distanz ist auch unter dem Namen City-Block-Distanz bekannt. Sie ist deﬁniert als d(i, j) := |yi1 − yj1 | + |yi2 − yj2 | + |yi3 − yj3 | + · · · + |yil − yjl |

(10.4)

l bezeichnet die Anzahl an Merkmalen und i und j sind unterschiedliche statistische Einheiten (Objekte). |.| sind Betragszeichen. Abbildung 10.1 dient zur Veranschaulichung dieser Maßzahl. Drei Punkte sind hier abgetragen, (4, 1), (1, 1), und (1, 3). Will man von dem Punkt ganz rechts, das ist (4, 1), zu Punkt (1, 3) wandern und nimmt den Weg über Punkt (1, 1), so ist die Entfernung gleich: |4 − 1| + |3 − 1| = 3 + 2 = 5 = |xi1 − xj1 | + |xi2 − xj2 |. Dieses Ergebnis entspricht der Anwendung der Manhattan-Distanz. Vergegenwärtigt man sich die Häuserblocks New Yorks, so entspricht dies der Distanz, die man zurücklegen muß, um von einer Ecke des Häuserblocks zu dem gegenüberliegenden zu kommen. Daher nennt man diese Distanz auch City-Block-Distanz. Auch wenn man ausschließlich kardinal skalierte Merkmale verwendet, muß man festlegen, mit welchem Gewicht jede Variable in das Distanzmaß eingeht.

10.3. KARDINALE MERKMALE

2.5 2.0 1.5 1.0

zweites Merkmal

3.0

195

1.0

1.5

2.0

2.5

3.0

3.5

4.0

erstes Merkmal

Abbildung 10.1: Illustration der Manhattan-Distanz Quelle: eigene Darstellung Probleme entstehen bereits, wenn die Objekte durch zwei Entfernungsmaße charakterisiert sind. Wird eine Entfernung in km und die andere in Meter angegeben, so wird sich bei Anwendung der einfachen Manhattan-Distanz im allgemeinen eine andere Distanzmatrix ergeben, als wenn beide Variablen mit denselben Maßeinheiten verwendet werden. Zudem ergibt sich das Problem, daß mit kardinalen Merkmalen Distanzindizes aus zwei oder mehr kardinalen Merkmalen erstellt werden sollen, aber kardinale Merkmale sehr unterschiedliches messen können. Hat ein Merkmal sehr hohe Werte, wie z.B. die Körpergröße in cm, und die Werte des anderen, beispielsweise das Körpergewicht in Zentnern, weist sehr kleine Zahlen auf, so ergeben sich im allgemeinen andere Distanzen, als wenn das Körpergewicht in Kilogramm angegeben wird. In solchen Fällen besteht eine Möglichkeit darin, alle Summanden des verwendeten Distanzmaßes unabhängig von ihrem Skalenniveau zu normieren, beispielsweise auf den Bereich [0, 1]. Wird die Manhattan-Distanz verwendet, so ist es notwendig, ihre Summanden auf den Bereich [0, 1] zu normieren. Zu diesem Zweck wird dann jeder Summand f , f ∈ {1, 2, 3, . . . , l}, der City-Block-Distanz durch die Diﬀerenz von Rf := max yhf − min yhf . h

dividiert.

h

(10.5)

196

KAPITEL 10. DATEN- UND DISTANZMATRIX

f steht hierbei stellvertretend für das interessierende Merkmal und h läuft über alle nicht-fehlenden Objekte des Merkmals f . Man beachte jedoch: die aus diesen standardisierten Summanden errechneten Summen sind nicht auf den Bereich [0, 1] normiert. Will man jedoch aus Merkmalen mit verschiedenen Skalenniveaus ein zusammengefaßtes Distanzmaß bilden (und dies ist hier das Ziel), so muß überlegt werden, mit welchem Gewicht die einzelnen Merkmale eingehen sollen. Im einfachsten Fall erhält jede Merkmalsgruppe aus der Menge der kardinalen, ordinalen, nominalen und binären Variablen dasselbe Gewicht. Dann könnte die Summe aller vorhandenen Distanzen über alle Merkmalsgruppen hinweg durch die Anzahl aller vorhandenen Distanzen dividiert werden. Die so erhaltenen Distanzindizes wären dann auf den Bereich [0, 1] normiert. Dies ist das von Gower (1971) vorgeschlagene Verfahren, das von (Kaufmann und Rousseeuw, 1990, S. 35ﬀ) leicht angepaßt und im Programm ’daisy’ umgesetzt wurde. Auch dann, wenn nur kardinal skalierte Variablen mit ’daisy’ und der Anweisung ’metric=”gower”’ verwendet werden, werden Distanzindizes ausgegeben, die auf den Bereich [0, 1] normiert sind. Beispiel Ein kleines Beispiel soll das Vorgehen in

illustrieren. Der Befehl

> x <- matrix(c(1,0,2,0,1,3,0,0,4), 3,3) > x [,1] [,2] [,3] [1,] 1 0 0 [2,] 0 1 0 [3,] 2 3 4 führt zur Eingabe der Matrix x. Die Spalten dieser Matrix sind numerisch, wie die Überprüfung mit > is.numeric(x) [1] TRUE zeigt. Die Berechnung der Manhattan-Distanz kann mit der Anweisung > Manhattan<- dist(x, method = "manhattan", diag = FALSE, upper = FALSE) > Manhattan 1 2 2 2 3 8 8 erfolgen. In diesem Fall wird nicht die gesamte Distanzmatrix ausgegeben, sondern nur der unterhalb der Hauptdiagonalen liegende Teil. Die erste Reihe und

10.3. KARDINALE MERKMALE

197

die linke Spalte dienen der Beschriftung. Die ’1’ bzw. ’2’ in der ersten Zeile bezeichnen die Objekte 1 und 2. Die ’2’ und die ’3’ in der linken Spalte bezeichnen die Objekte 2 und 3. Die Distanz zwischen Objekt 1 und zwei ist demgemäß gleich 2 und die zwischen zwei und drei gleich 8. Ändert man den Befehl um in > Manhattan<- dist(x, method = "manhattan", diag = TRUE, upper = TRUE) > Manhattan 1 2 3 1 0 2 8 2 2 0 8 3 8 8 0, so erhält man die vollständige Matrix. Die Distanz zu sich selbst ist gleich Null, weshalb die Diagonale mit Nullen besetzt ist. Alternativ hierzu kann auch das Programmpaket ’cluster’ > library(cluster) geladen und der Befehl > daisy(x, metric="manhattan", stand=FALSE) Dissimilarities : 1 2 2 2 3 8 8 Metric : manhattan Number of objects : 3 genutzt werden. Wird statt metric = ”manhattan” metric = ”gover” eingegeben

> daisy(x, metric="gower", stand=FALSE) Dissimilarities : 1 2 2 0.2777778 3 0.8333333 0.8888889 Metric : mixed ; Types = I, I, I Number of objects : 3, so erhält man Werte, die jeweils auf den Bereich [0, 1] normiert sind, indem die Summanden der Manhattan-Distanz jeweils durch die Spannweite der jeweiligen Variable dividiert wird und die so erhaltene Distanz durch die Anzahl der vorhandenen möglichen paarweisen Vergleiche dividiert wird. Dies wird deutlich, wenn man das Verfahren schrittweise durchführt. Als erstes werden die Maximia und die Minima jeder Variablen bestimmt:

KAPITEL 10. DATEN- UND DISTANZMATRIX

198 > > > > > >

max1 max2 max3 min1 min2 min3

<<<<<<-

max(x[,1]) max(x[,2]) max(x[,3]) min(x[,1]) min(x[,2]) min(x[,3]).

Dann werden die jeweiligen Werte Rf gebildet. > R1 <- max1-min1 > R2 <- max2-min2 > R3 <- max3-min3 Die Berechnung der Manhattan-Distanz aus den normierten Werten ergibt jeweils > 1/R1+1/R2+0 [1] 0.8333333 > 2/R1+2/R2+4/R3 [1] 2.666667 > 1/R1+3/R2+4/R3 [1] 2.5 und die Division durch die Anzahl der vorhandenen möglichen Vergleiche zwischen den Objekten i und j führt zu: > (1/R1+1/R2+0)/3 [1] 0.2777778 > (2/R1+2/R2+4/R3)/3 [1] 0.8888889 > (1/R1+3/R2+4/R3)/3 [1] 0.8333333. Der Vergleich mit der direkten Berechnung über den Befehl ’daisy’ mit ’metric=”gower”’ bestätigt die Korrektheit der Beschreibung.

10.4

Ordinale Merkmale

10.4.1

Grundlagen

Bei ordinalen Variablen kann nur angegeben werden, ob eine Ausprägung besser, genauso gut oder schlechter ist als eine andere. Der einfachste Fall liegt vor, wenn eine Variable diskontinuierliche Ausprägungen hat, ihnen aber unterschiedliche Wertigkeit zugeschrieben wird. Es gibt jedoch weitere Gründe, eine Variable ordinal auszuweisen. Zum einen ist es möglich, daß eine Variable zwar kontinuierliche Ausprägungen hat, aber die Diﬀerenzen zwischen ihnen 1. nicht sinnvoll interpretierbar sind oder

10.4. ORDINALE MERKMALE

199

2. dieselben Diﬀerenzen bei unterschiedlichen Punkten unterschiedliche Bedeutung haben oder 3. Meßfehler aufgetreten sind. Ein Anwendungsfall von 1 sind Präferenzen, die gewöhnlich als ordinalskaliert vorausgesetzt werden. Für 2 haben wir bereits oben bei der Diskussion von intervall-skalierten und verhältnisskalierten Merkmalen ein Beispiel kennengelernt. Haben wir Grund für die Annahme, daß eine Skala nicht proportional ist und wir wissen nicht, wie sie in eine Proportionalskala überführt werden kann, so kann die betreﬀende Variable als ordinale Größe behandelt werden, um mögliche Fehler gering zu halten. Liegen schließlich Meßfehler vor, wie in Fall 3, so bietet es sich an, die Variable ebenfalls als ordinal-skaliert zu behandeln, um den Einﬂuß der Meßfehler auf die Bildung von Distanzen so gering wie möglich halten. Ziel der Ausführungen ist es, eine Distanz zu deﬁnieren, die bei mehreren Variablen mit unterschiedlicher Skalierung verwendet werden kann. Dabei soll im einfachsten Fall jedem Merkmal dasselbe Gewicht zufallen. Analog zum Vorgehen bei kardinalen Merkmalen ist es nötig, bei jedem ordinalen die Distanz auf den Bereich [0, 1] zu normieren. Die Vorgehensweise ist analog dem bei der Manhattan-Distanz. Die Normierung setzt hier bei der Deﬁnition des Ranges an indem er wie folgt transformiert wird: zif :=

rif − 1 , Mf − 1

(10.6)

wobei rif den Rang des Merkmals f bei Objekt i und Mf den höchste Rang des Merkmals f angeben soll. Hierdurch wird der niedrigste Rang transformiert zu Null und der höchste wird auf eins festgesetzt; alle übrigen Ausprägungen nehmen Werte zwischen diesen beiden an. Im nächsten Schritt ist die Distanz des Merkmals f zu deﬁnieren. Bei dem Programm ’daisy’ wird, sofern das Merkmal ordinal ausgewiesen ist, im Hintergrund im ersten Schritt die korrekten Ränge zugewiesen, wobei jeder Rang mindestens einmal erscheint. Im zweiten Schritt werden die Ränge rif transformiert zu zif . Die Distanz zwischen den Objekten i und j wird berechnet als Manhattan-Distanz, angewendet auf die zif , f ∈ {1, 2, 3, . . . , l}, und im letzten Schritt wird die City-Block-Distanz durch die Anzahl nicht-fehlender Werte dividiert. Unter nicht-fehlenden Werten werden hierbei solche verstanden, die bei beiden Objekten nicht fehlen.

10.4.2

Beispiel

Wiederum soll ein kleines Beispiel die Vorgehensweise verdeutlichen. Es werden dieselben Daten wie Seite 196 genutzt. Diese werden jedoch jetzt als ordinale Variablen ausgewiesen, indem der Befehl ’ordered’ verwendet wird. Die Anweisungen

200

KAPITEL 10. DATEN- UND DISTANZMATRIX

> xx1 <- ordered(x[,1]) > xx2 <- ordered(x[,2]) > xx3 <- ordered(x[,3]) wandeln die Spaltenvektoren der Matrix x in ordinale Variable um. Die Korrektheit wird nachgewiesen durch > is.ordered(xx1) [1] TRUE Anschließend werden diese Vektoren zu dem data.frame xx zusammengefaßt. > xx <- data.frame(xx1,xx2,xx3) > xx x1 x2 x3 1 1 0 0 2 0 1 0 3 2 3 4 Die Anwendung des Befehls ’daisy’ mit der Metrik ’gower’ führt zu dem gewünschten Resultat, wie es im vorangegangenen Abschnitt beschrieben wurde. > daisy(xx,metric="gower") Dissimilarities : 1 2 2 0.3333333 3 0.8333333 0.8333333 Metric : mixed ; Types = O, O, O Number of objects : 3 Da die Distanzmatrix symmetrisch ist und auf der Diagonalen ausschließlich Nullen zu liegen kommen, wird nur der Teil angezeigt, der unterhalb der Diagonalen zu liegen kommt. ’gower’ ist die Anweisung, mit der prinzipiell aus Datenmatrizen mit Variablen unterschiedlicher Skalierung eine Distanzmatrix erzeugt werden kann. In vorliegendem Fall wird die Skalierung korrekt mit ’Types = O, O, O’, ’O’ für ordered, also ordinal skaliert, angezeigt. Die Korrektheit der Darstellung kann geprüft werden, indem die im vorangegangenen Abschnitt beschriebenen Schritte einzeln ausgeführt werden. Zuerst werden die Daten eingegeben: > x11 <- as.ordered(c(2,1,3)) > x22 <- as.ordered(c(1,2,3)) > x33 <- as.ordered(c(1,1,2)) Sie handelt sich um Rangzahlen: > is.ordered(x11) [1] TRUE.

10.4. ORDINALE MERKMALE

201

Die Daten werden zu einem data.frame xxx zusammengefaßt > xxx <- data.frame(x11,x22,x33) und die Anweisung > daisy(xxx, metric="gower") Dissimilarities : 1 2 2 0.3333333 3 0.8333333 0.8333333 Metric : mixed ; Types = O, O, O Number of objects : 3 führt zu demselben Resultat wie oben. Allerdings ist dieses Ergebnis nicht mit der Anwendung der City-Block-Distanz auf den data.frame xxx zu verwechseln. Die einfache Anwendung der Manhattan-Distanz ergibt: > dist(xxx,method="manhattan") 1 2 2 2 3 4 4 Werden die Ränge jeder Variablen korrekt gebildet und gemäß 10.6 standardisiert, so erhält man folgendes Ergebnis. > x111 <- as.ordered(c(.5,0,1)) > x222 <- as.ordered(c(0,.5,1)) > x333 <- as.ordered(c(0,0,1)) Die Zusammenfassung zum data.frame xxxx führt zu > xxxx <- data.frame(x111,x222,x333). Die Berechnung der Manhattan-Distanz auf Basis der korrigierten Datenmatrix xxxx ergibt noch immer nicht das Endergebnis. Man erhält >

dist(xxxx,method="manhattan") 1 2 2 1.0 3 2.5 2.5 Erst die Division mit der Anzahl an nicht-fehlenden Werten, die jeweils bei keinem der beiden fehlenden Objekte fehlen, erbringt das korrekte Endergebnis. Hierdurch ist sichergestellt, daß die errechneten Distanzen immer im Bereich von [0, 1] zu liegen kommen. Da in vorliegendem Beispiel keine Missings auftreten, genügt die Division aller Distanzen durch drei. >

dist(xxxx,method="manhattan")/3 1 2 2 0.3333333 3 0.8333333 0.8333333

KAPITEL 10. DATEN- UND DISTANZMATRIX

202

10.5

Nominale Merkmale

10.5.1

Grundlagen

Nominale Merkmale zeichnen sich dadurch aus, daß lediglich Unterschiede in den Merkmalsausprägungen festgestellt werden können. Vergleiche, wie bei ordinalen Merkmalen, sind hier nicht möglich. Ein Beispiel für ein nominales Merkmal ist das Merkmal Haarfarbe. Ob jemand rote, schwarze, blonde oder graue Haare hat, kann objektiv nicht in eine Rangfolge gebracht werden. Es kann lediglich gesagt werden, daß es unterschiedliche Haarfarben gibt. Werden hingegen in einer Befragung Personen gebeten, die Haarfarben nach ihren persönlichen Präferenzen in eine Rangordnung zu bringen, so liegen ordinal skalierte Merkmale vor. Schließlich können Farben sogar metrisch kodiert werden. Dann kann auch zwischen hellem rot, rot und dunkelrot unterschieden werden. Ja selbst sehr kleine, kontinuierliche Farbabstufungen sind möglich und insofern können Farben als intervallskaliertes Merkmal aufgefaßt werden. Ob also ein Merkmal nominal, ordinal oder kardinal eingestuft wird, hängt von der Fragestellung und der Interpretation ab. Werden die Objekte durch mehrere nominal skalierte Variablen beschrieben, so wird im Programm ’daisy’ die Distanz zwischen Objekt i und j durch d(i, j) := l − #matches

(10.7)

berechnet (Kaufmann und Rousseeuw, 1990, S. 35). l steht für die Anzahl an Merkmalen und #matches gibt an, wie viele Ausprägungen der nominalen Merkmale bei beiden Objekten identisch sind. Die Diﬀerenz l − #matches gibt dann an, wie oft keine Übereinstimmungen stattgefunden haben. Eine kurze Diskussion alternativer Deﬁnitionen der Distanz nominaler Merkmale ﬁndet sich in (Kaufmann und Rousseeuw, 1990, S. 29).

10.5.2

Beispiel

Zur Illustration werden wiederum dieselben Daten wie in den vorangegangen Beispielen verwendet. Durch die Befehle x11 <- as.factor(c(2,1,3)) x22 <- as.factor(c(1,2,3)) x33 <- as.factor(c(1,1,2)) werden die Daten jedoch als nominale Variablen gekennzeichnet und mit der Anweisung > x0 <- data.frame(x11,x22,x33) > x0

10.6. BINÄRE MERKMALE

1 2 3

203

x11 x22 x33 2 1 1 1 2 1 3 3 2

zu dem data.frame ’x0’ zusammengefaßt. Um den Befehl ’daisy’ verfügbar zu machen, wird mit > library("cluster") das Paket ’cluster’ geladen und > daisy(x0,metric="gower") Dissimilarities: 1 2 2 0.6666667 3 1.0000000 1.0000000 Metric : mixed ; Types = N, N, N Number of objects : 3 errechne die Distanzen, die in einer Matrix zusammengefaßt ausgegeben werden. Wie bei kardinalen und ordinalen Merkmalen auch, wird jeder Distanzindex 10.7 bei Nutzung des Befehls ’daisy’ mit Metrik ’gower’ durch die Anzahl an nicht-fehlenden Ausprägungen dividiert. Dies wird deutlich, wenn man die Distanz zwischen Objekt 1 und 2 Schritt für Schritt berechnet. Die Anzahl an Übereinstimmungen zwischen Objekt1 und 2 ist gleich 1, d.h. d(1, 2) = l − #matches = 2. Division durch die Anzahl an existierenden Ausprägungen, die miteinander verglichen werden können ist gleich drei und die durch die Metrik ’gower’ berechnete Distanz ist gleich d(1, 2)/3.

10.6

Binäre Merkmale

10.6.1

Grundlagen

Eine binäre Variable kann nur zwei Werte annehmen, ’wahr’ und ’falsch’, was oft auch mit ’1’ und ’0’ kodiert wird. Beispiele für binäre Variable sind das Geschlecht mit den Ausprägungen männlich und weiblich sowie Helligkeit mit den einzigen Ausprägungen ’hell’ und ’dunkel’. Der Größenunterschied, gekennzeichnet mit ’größer als oder gleich 1,70 m’ und ’kleiner als 1,70 m’, ist ebenfalls eine binäre Variable. Eine solche ist deshalb nicht einfach eine spezielle Form einer nominalen Größe, denn im letzten Beispiel handelt es sich ja um eine ordinale Größe mit zwei Ausprägungen. Grundlage zur Konstruktion von Distanzmaßen bei binären Variablen ist eine Kontingenztabelle folgender Art. a ist die Anzahl der Variablen, bei denen bei Objekt i und j die Variable dieselbe Ausprägung ’1’ haben; b bezeichnet die Anzahl Variablen, bei denen Objekt i die Ausprägung ’1’ und j die Ausprägung ’0’ hat. l ist die Anzahl aller Variablen und in der rechten Spalte steht die

KAPITEL 10. DATEN- UND DISTANZMATRIX

204

Objekt i

1 0

Objekt j 1 0 a b c d a+c b+d

a+b c+d l

Tabelle 10.1: Kontingenztabelle bei binären Merkmalen Quelle: (Kaufmann und Rousseeuw, 1990, S. 23) Randverteilung von Objekt ’i’, d.h. die Anzahl aller Variablen, bei denen Objekt ’i’ entweder Ausprägung ’1’ oder ’2’ hat. Zwei Arten an binären Variablen (Kaufmann und Rousseeuw, 1990, S. 23) werden unterschieden: 1. symmetrische und 2. asymmetrische. Angenommen, in einer Untersuchung wäre allein die Feststellung relevant, ob eine Merkmalsausprägung vorliege oder nicht, persönliche Präferenzen mögen keine Rolle spielen. Dann würde man jeder Ausprägung des Merkmals ’Geschlecht’ dasselbe Gewicht beimessen. In diesem Fall handelte es sich um eine symmetrische binäre Variable. Es wäre völlig gleichgültig, welche Ausprägung mit ’1’ und welche mit ’0’ signiert würde. Dies bedeutet, daß sich die Distanz nicht dadurch ändern sollte, daß anders signiert wird. Aus diesem Grund sollte den Übereinstimmungen a und d in Tabelle 10.1 bei der Konstruktion eines Distanzindexes jeweils dasselbe Gewicht zufallen. Indizes, die diese Eigenschaft aufweisen, heißen invariantes Unähnlichkeitsmaß (= Distanz). Es gibt verschiedene Möglichkeiten, Distanzindizes zu bilden, die dieser Bedingung genügen. In dem Programm ’daisy’ wird folgender verwendet: d(i, j) :=

b+c . a+b+c+d

(10.8)

Er heißt ’simple matching coeﬃcient’ (=einfacher Übereinstimmungs-Koeﬃzient), ist aber auch bekannt unter den Namen ’M-Koeﬃzient’ und Aﬃnitätsindex. Bei der Signierung binärer Variablen wird üblicherweise die wichtigste Ausprägung mit ’1’ und die andere mit ’0’ gekennzeichnet. Bei dem Merkmal Geschlecht gibt es keinen Grund, eine stärker zu gewichten als die andere. Aus der Perspektive eines Unternehmens macht es jedoch sicher einen Unterschied, ob bei einer Befragung eine Person Kunde ist oder nicht. In diesem Fall liegt deshalb ein asymmetrisches binäres Merkmal vor. Würde man den ’simple matching coeﬃcient’ verwenden, so würden sich bei anderer Signierung (also: beide Personen sind Kunden würde mit ’0’ gekennzeichnet), keine andere Distanz ergeben. Die unterschiedliche Bedeutung der verschiedenen Ausprägungen für die Firma käme infolgedessen durch diesen Distanzindex gar nicht zum Ausdruck. Aus diesem Grund sollte ein anderer Index verwendet werden.

10.6. BINÄRE MERKMALE

205

Hinzu kommt, daß die schiere Anzahl potentieller Nachfrager im allgemeinen sehr viel höher ist als die Zahl der Kunden der betrachteten Firma. Infolgedessen wird in Kontingenztabelle 10.1 a sehr viel kleiner sein als d. Der ’simple matching coeﬃcient’ wäre wegen der zu vermutenden hohen Zahl von Nichtkunden (hohes d) recht hoch; es würde eine hohe Ähnlichkeit bzw. geringe Distanz ausgewiesen. Zwecks Beseitigung dieses unerwünschten Eﬀektes würde es sich anbieten, bei der Bildung eines Distanzmaßes für asymmetrische binäre Variable, d überhaupt nicht zu verwenden. In dem Programm ’DAISY’ ist der Distanzindex ’Jaccard’ implementiert. Er ist wie folgt deﬁniert: b+c . (10.9) a+b+c Er unterscheidet sich von dem ’simple matching coeﬃcient’ dadurch, daß im Nenner d nicht auftaucht und kann deshalb bei asymmetrischen binären Merkmalen verwendet werden.

10.6.2

Beispiel

Wir gehen von folgender Datenmatrix aus: ⎛ ⎞ 1 0 1 ⎝0 0 0⎠ . 1 0 0

(10.10)

Um den Befehl ’daisy’ verfügbar zu machen, ist es nötig, zuvor das Programmpaket ’cluster’ zu laden. Die Datenmatix 10.10 kann über die Variable ’x’ angesprochen werden. Im ersten Fall wird angenommen, daß alle Variablen binär und symmetrisch sind; danach werden alle als binär und asymmetrisch gekennzeichnet. Sind alle Merkmale symmetrisch, so ist der Distanzindex zwischen den Objekten ’3’ und ’1’ identisch gleich dem zwischen ’3’ und ’2’: > daisy(x,metric="gower",type=list(symm=1:3)) Dissimilarities : 1 2 2 0.6666667 3 0.3333333 0.3333333 Metric : mixed ; Types = S, S, S Number of objects : 3 Warning message: In daisy(x, metric = "gower", type = list(symm = 1:3)) : at least one binary variable has not 2 different levels. Sollten die Merkmale jedoch asymmetrisch sein, so ist die Distanz zwischen ’3’ und ’1’ nur noch die Hälfte der zwischen ’3’ und ’2’. > daisy(x,metric="gower",type=list(asymm=1:3))

KAPITEL 10. DATEN- UND DISTANZMATRIX

206 Dissimilarities : 1 2 2 1.0 3 0.5 1.0

Metric : mixed ; Types = A, A, A Number of objects : 3 Warning message: In daisy(x, metric = "gower", type = list(asymm = 1:3)) : at least one binary variable has not 2 different levels. Aufgrunddessen ist davon auszugehen, daß die Kennzeichnung binärer Merkmale als ’symmetrisch’ oder ’asymmetrisch’ einen Einﬂuß hat auf die Zusammenfassung von Objekten zu Gruppen.

10.7

Abschließende Bemerkungen

Distanzmatrizen bilden die Grundlage der Clusteranalyse. In der Praxis ist es wohl eher die Regel, daß Merkmale völlig unterschiedlichen Skalenniveaus zur Gruppenbildung herangezogen werden sollen. In diesem Kapitel wurde eine Möglichkeit präsentiert, wie dieses Ziel erreicht werden kann. Prinzipiell lassen sich mit dem Verfahren ’gower’ eine Vielzahl von Variablen unterschiedlichen Skalenniveaus zu einer Maßzahl zusammenfassen. In Verallgemeinerung dieses Verfahrens, wird auch gezeigt, wie man mit die Variablen unterschiedlich gewichten kann. Damit steht der praktischen Anwendung prinzipiell nichts im Wege. Es wird jedoch abgeraten, diese Methode anzuwenden, ohne zuvor sachlogische Bezüge herzustellen. Die Ergebnisse der Clusteranalyse hängen von den eingegebenen Distanzmatrizen ab. Einfach alle vorhandenen Variablen zur Gruppenbildung heranzuziehen und dann alle gefundenen Gruppierungen interpretieren zu wollen, gleicht eher einem Versuch, die berühmte Stecknadel im Heuhaufen ﬁnden zu wollen. Besser ist es, sich über das Ziel der Clusteranalyse im klaren zu sein. Man sollte sich überlegen, welche Einﬂußgrößen relevant sein könnten und in welchem Zusammenhang sie zueinander stehen. Produktionsmengen, Preise, Lagerkosten, Absatzmengen und dergleichen stehen in einem sachlogischen Zusammenhang und möglicherweise in enger Verbindung zu dem Ziel der Clusteranalyse. Insbesondere sollten die Zusammenhänge zwischen Strom- und Bestandsgrößen nicht vergessen werden. Schließlich sollten auch mögliche Rückwirkungen einer Klassenbildung auf das Produktionsergebnis, den Umsatz und Gewinn berücksichtigt werden. Angenommen, eine Firma verkauft erklärungsbedürftige Produkte. Der Marketingleiter möchte, daß die Kunden in zwei Klassen eingeteilt werden: in eine Klasse B mit hohen Beratungskosten bei geringem Umsatz und eine mit geringen Beratungskosten bei hohem Umsatz (Klasse A). Zweck der Einteilung sei es, daß die Beratungszeit der Klasse B massiv beschränkt wird, um Kosten

10.8. KONTROLLFRAGEN

207

zu sparen. Kunden in Klasse A erhalten nach wie vor die gewünschte Beratung. Diese Klassiﬁzierung könnte zur Folge haben, daß Kunden in Klasse B durch die verringerte Beratungszeit nicht mehr oder in verringertem Maße zu Kunden der Klasse A werden. Kurzfristig mag dies zwar zu Kostensenkungen bei unverändertem Ertrag führen, langfristig aber könnte der Ertrag sinken, wenn Kunden aus A im Verlaufe der Zeit zu Kundentyp B werden und weniger B-Kunden zu A-Kunden werden.

10.8

Kontrollfragen

1. Können Sie kurz beschreiben, was der Unterschied zwischen Rohdaten und Datenmatrix ist? 2. Was steht in der Zeile und was in einer Spalte einer Datenmatrix? 3. Gegeben sei die Datenmatrix Y. Was bedeutet y4,8 ? 4. Wozu benötigt man Distanzmaße? 5. Welches Ziel wird in der Clusteranalyse verfolgt? 6. Welche zwei Befehle stehen in rechnen?

zur Verfügung, um Distanzindizes zu be-

7. Welche Eigenschaften sollten Distanzmatrizen sinnvollerweise haben? 8. Geben Sie drei Beispiele für intervallskalierte Merkmale. 9. Worauf ist bei intervallskalierten, auf was bei verhältnisskalierten Merkmalen zu achten? 10. Veranschaulichen Sie die Manhattan-Distanz graphisch. 11. Warum wird in diesem Kapitel jeder Merkmalstyp standardisiert? 12. Aus welchen Gründen könnte es sinnvoll sein, kardinale Merkmale so zu behandeln als ob sie ordinal seien? 13. Wie wird in ’daisy’ die Distanz bei nominalen Merkmalen berechnet? Verdeutlichen Sie die Methode mit zwei Objekten und zwei Merkmalen. 14. Welche zwei unterschiedlichen Arten binärer Merkmale werden unterschieden?

10.9

Aufgaben

1. Geben Sie je drei Beispiele für alle Merkmalstypen (intervall- und verhältnisskalierte Merkmale bis hin zu binären Merkmalen).

KAPITEL 10. DATEN- UND DISTANZMATRIX

208

2. Ist es möglich, daß mit ’daisy’ jedes Merkmal entsprechend den Präferenzen des Nutzers gewichtet wird?115 3. Herr Müller ist Controller und hat folgende Distanzmatrix errechnet:

Statistische Einheit

1 2 3 4

Statistische 1 2 0 1,2 0,5 1 0,7 0,7 0,3 0,3

Einheit 3 4 0,7 0,3 0,7 0,3 0 0,3 0,3 0

(a) Weist Sie die Eigenschaften auf, die eine Distanzmatrix haben sollte? (b) Wenn nein, welche Eigenschaften werden verletzt? 4. (a) Interpretieren Sie nachfolgende Befehle. Das Gewicht ist in Zentnern und die Körpergröße der Personen in cm angegeben.116 > > > >

Koerpergroesse <- c(180,160) Gewicht <- c(1.5,1) x <- cbind(Koerpergroesse,Gewicht) x Koerpergroesse Gewicht [1,] 180 1.5 [2,] 160 1.0 > Gewicht2 <- Gewicht*50 > x2 <- cbind(Koerpergroesse,Gewicht2) > x2 Koerpergroesse Gewicht2 [1,] 180 75 [2,] 160 50 (b) Berechne die Manhattan-Distanz auf Basis der Matrix ’x’ wie auch mit ’x2’.117 (c) Obwohl derselbe Distanzindex verwendet wurde, ergeben sich unterschiedliche Werte. Wie erklären Sie sich das? (d) Wie kann man vermeiden, daß dieser Eﬀekt eintritt?118 . (e) Nutze die Daten, abgelegt unter dem Namen ’x’. Normiere jedes Merkmal gemäß Kapitel 10.5 und erstelle eine normierte Datenmatrix. (f) Führe die Normierung mit den Daten ’x2’ durch. (g) Vergleichen Sie Ihre beiden zuvor erzielten Ergebnisse. Wie erklären Sie sich dies.119 (h) Berechne auf Basis der normierten Matrix die Manhattan-Distanz.120 (i) Obwohl jedes Merkmal normiert wurde, ist die berechnete ManhattanDistanz nicht auf den Bereich [0, 1] normiert. Warum nicht?121

10.9. AUFGABEN

209

(j) Nutzen Sie die normierte Datenmatrix ’xx’. Angenommen, aus fachlichen Gründen soll das Körpergewicht bei der Berechnung der Manhattandistanz aus den beiden Merkmalen (Körpergröße und -gewicht) doppelt so stark zählen als das andere. Berechnen Sie die Distanz.122 (k) Berechnen Sie die gesamte Distanz, indem Sie beide Merkmale gleich gewichten.123 (l) Berechnen Sie die Distanz mit dem Verfahren ’gower’. Nutzen Sie die Daten, die unter ’x’ abgelegt sind.124

Kapitel 11

Clusteranalyse 11.1

Einleitung

Statistische Einheiten sollen in der Clusteranalyse so zusammengefaßt werden, daß Objekte innerhalb einer Gruppe möglichst gleich und Unterschiede zwischen den Gruppen möglichst groß sind. Der Einstieg in das Thema gelingt am besten über ein einfaches Beispiel. Betrachten wir eine Hochschule, in der vermutet wird, daß die Übungsangebote umso eﬀektiver sind, je homogener die Gruppen sind. Der Übungsleiter, so die Überlegung, kann dann auf die speziﬁschen Probleme der einzelnen Gruppe besser eingehen und eine eﬃzientere Betreuung kann sichergestellt werden. Möglicherweise kann in einigen Gruppen die Übungszeit vergrößert und in anderen entsprechend verkleinert werden. Hierdurch erhalten diejenigen, die mehr Übung brauchen, die nötige Zeit und die anderen haben zusätzliche Zeit zur Verfügung, um in anderen Fächern besser zu werden. Zu diesem Zweck sollen Cluster gebildet werden oder mit anderen Worten: Studenten sollen in Gruppen eingeteilt werden. In diesem Beispiel wird implizit davon ausgegangen, daß bereits eine Struktur in der Population vorhanden ist. Sie soll durch Clusteranalyse gefunden werden. Andererseits ist es auch möglich, daß Objekte in Gruppen eingeteilt werden sollen, ohne daß davon ausgegangen wird, daß irgendeine Struktur vorhanden sei. Soll beispielsweise eine Region in verschiedene Verkaufsgebiete unterteilt werden, so mag dies nach ﬁrmeninternen zweckdienlichen Kriterien erfolgen, ohne daß überhaupt der Anspruch erhoben wird, eine bereits vorhandene Struktur zu ﬁnden. Dies sind typische Fragestellungen, die mit Hilfe der Clusteranalyse bearbeitet werden können. Sie ’ﬁrmiert’ auch unter den Namen automatische Klassiﬁzierung und numerische Taxonomie. Ziel der Clusteranalyse ist es, Objekte oder statistische Einheiten so zu Gruppen zusammenzufassen, daß die Unterschiede innerhalb der Gruppen möglichst gering und die zwischen den Gruppen möglichst groß sind. Bei der Lösung dieser Aufgabe stellen sich folgende Fragen: R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_11, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

212

KAPITEL 11. CLUSTERANALYSE

1. Klassiﬁkationstyp: Welche Art der Gruppenbildung soll erfolgen? In vorliegendem Fall wäre die Bildung disjunkter Gruppen sinnvoll. Dies sind Gruppen bei denen die Schnittmenge beliebiger zwei Gruppen gleich der leeren Menge ist. Denn angesichts knapper Hochschulressourcen und begrenzter Zeit der Studenten sollen Studenten nur einer Gruppe zugeordnet werden. 2. Messung: Wie soll die Homogenität innerhalb der Gruppen und die Heterogenität zwischen den Gruppen gemessen werden? Dies hängt sicher auch davon ab, für welches Fach Gruppen gebildet werden sollen. Bei Statistik könnte man an die Vornoten in Deutsch und Mathematik sowie Vorkenntnisse in Statistik denken. Alternativ hierzu kann die persönliche Einschätzung der Studenten über ihre Schwierigkeiten mit dem Fach in Erfahrung gebracht werden. Freilich sind damit nicht alle Probleme gelöst. So ergibt sich einerseits die Frage, ob auch alle relevanten Merkmale zur Gruppenbildung herangezogen werden und andererseits, ob überhaupt alle Merkmale benötigt werden. In vorliegendem Fall mag man mit den angegebenen Merkmalen zu einer sinnvollen aber unpraktikablen Klassenbildung kommen. Denn es nutzt recht wenig, Personen, bei denen kein gemeinsames Zeitfenster für Übungsstunden besteht, zu Übungsgruppen zusammenzufassen. 3. Güte: Eine Anzahl von Personen kann auf viele verschiedene Arten zu disjunkten Gruppen zusammengefaßt werden. Die Unterschiede zwischen den Gruppen und innerhalb der Gruppen sollten deshalb sinnvoll zu einer Maßzahl zusammengefaßt werden, um die Güte der Gruppierung messen zu können. 4. Konstruktionsverfahren: Im letzten Schritt ist festzulegen, wie die Klassenbildung vorgenommen werden soll. Hierbei ist insbesondere festzulegen, ob die Anzahl der zu bildenden Klassen vorgegeben wird oder ob sie durch das Verfahren bestimmt werden soll. In unserem Beispiel hängt die Anzahl der Gruppen von dem Stundenkontingent des Übungsleiters ab, sie ist also eine vorgegebene Größe. In den Wirtschaftswissenschaften ﬁnden sich zwischenzeitlich vielfältige Anwendungen. Im Marketing kann es zwecks Preisdiskriminierung dritten Grades sinnvoll sein, Kunden in verschiedene Klassen einzuordnen. In der Logistik können hiermit die Frage bearbeitet werden, wie ein Lager bestückt werden sollte. Im Personalwesen können bei hunderten von Bewerbern per Clusteranalyse Bewerber bestimmt werden, die eingeladen werden sollten. Mitarbeiter können mit Hilfe der Clusteranalyse in Lohngruppen eingeteilt werden und/oder Zulagen können hierüber verteilt werden. Im nächsten Abschnitt werden vier verschiedene Klassiﬁkationstypen beschrieben: Partition, Überdeckung, Hierarchie und Quasihierarchie. Es folgt die Darstellung der zwei grundlegenden Methoden zur Klassenbildung: das diversive (= aufteilende) und das agglomerative (= zusammenfassende) Verfahren. Im

K−means

PAM

Partitionierung

CLARA

Abbildung 11.1: Verfahren Quelle: eigene Darstellung

FANNY

Klassifikationstyp

AGNES

DIANA

Hierarchie

MONA

11.1. EINLEITUNG 213

KAPITEL 11. CLUSTERANALYSE

214

Paket ’cluster’ ﬁnden sich standardmäßig keine Verfahren, mit Hilfe derer Überdeckungen oder Quasiehierarchien gebildet werden könnten. Deshalb beschränkt sich die Darstellung lediglich auf die Konstruktion von Partitionen und Hierarchien. Es wird jedoch gezeigt, wie aufgrund der Ergebnisse des Programms ’FANNY’ Überdeckungen gebildet werden können. Die in verfügbaren Verfahren, die standardmäßig oder im Programmpaket ’cluster’ verfügbar sind, sind in Abbildung 11.1 übersichtsartig dargestellt. Allderdings werden hier lediglich die gelb (bzw. dunkel) gekennzeichneten vorgestellt. Standardmäßig ist ’k-means’-Methode verfügbar. Ein Vergleich dieser Methode mit der in dem Programm PAM implementierten ergibt, daß in ersterer das Ergebnis der automatischen Klassiﬁzierung von der Anordnung der Objekte in der Datenmatrix abhängen kann (Kaufmann und Rousseeuw, 1990, S. 114). Aus diesem Grund wird ’q-means’ hier nicht vorgestellt. Die Darstellung beginnt mit PAM, einem Verfahren zur Konstruktion disjunkter Gruppen. CLARA dient ebenfalls zur Berechnung disjunkter Gruppen und wurde speziell zur Klassiﬁzierung vieler Objekte entwickelt, zu einer Zeit, als die Rechnerkapazität im Vergleich zu der heutigen gering war. Versuche des Autors mit bis zu 4000 Objekten zeigten, daß mit PAM mit vertretbarem Zeitaufwand auch eine solcher Umfang an Objekten automatisch gruppiert werden kann. Aus diesem Grund wird CLARA hier nicht vorgestellt.

11.2

Klassiﬁkation

11.2.1

Klassiﬁkationstypen

Folgende Klassiﬁkationstypen werden unterschieden • Partition, • Überdeckung, • Hierarchie und • Quasihierarchie. Wir sprechen von einer Partition, wenn die Schnittmenge zweier beliebiger Gruppen der Klassiﬁkation leer ist. Sei K eine Klassiﬁkation mit den Klassen K1 , K2 , . . . , Km . Gilt für beliebige Gruppen Ki ∈ K und Kj ∈ K (i = j), daß Ki ∩ Kj = ∅, so handelt es sich um eine Partition. Eine Partition ist eine spezielle Überdeckung, eine, bei der alle Klassen disjunkt sind. Angenommen, wir haben zwei Klassen: K1 = {1, 2, 3, 4} und K2 = {3, 4, 5, 6, 7}. Die Schnittmenge beider Klassen ist gleich die Menge mit den Elementen {3, 4}. Es handelt sich um keine Partition, wohl aber um eine Überdeckung. Bei ihr darf die Schnittmenge bei dem Vergleich zweier beliebiger Klassen Ki ∈ K und Kj ∈ K (i = j) ungleich der leeren Menge sein, aber die

11.2. KLASSIFIKATION

215

Schnittmenge der Klassen Ki und Kj darf weder gleich Ki noch Kj sein. Angenommen, eine Gruppierung bestehe nur aus den beiden Klassen K3 = {1, 2, 3} und K2 = {1, 2, 3, 4}. Da K3 ⊂ K4 handelt es sich nicht um eine Überdeckung. Eine Hierarchie besteht aus mehreren Stufen, wobei die Klassen einer Stufe eine Partition sind. Die Ausgangsstufe wird mit Null gekennzeichnet, die nächste mit Eins und so weiter. Die Klassen der nächst höheren Stufe i + 1 sind echte Teilmengen der Klassen in der vorangegangenen Stufe i. Sei die Ausgangsmenge gegeben durch K 0 = {1, 2, 3, 4, 5, 6}, dann wäre K 1 = {{1, 2, 3}, {4, 5, 6}} = {K11 , K12 } eine Partition auf Stufe 1 und da die Schnittmenge von K11 und K12 gleich der leeren Menge ist, handelt es sich auf Ebene 1 um eine Partition. Da wir zwei Stufen haben, liegt eine zweistuﬁge Hierarchie vor. Ausgehend von K 0 = {1, 2, 3, 4, 5, 6} wäre eine andere Hierarchie durch K 1 = {{1, 2, 3, 4}, {5, 6}} gegeben. Wiederum ausgehend von der Menge K 0 = {1, 2, 3, 4, 5, 6} würde mit K 1 = {{1, 2, 3, 4}, {4, 5, 6}} auf Stufe eins keine Partition, wohl aber eine Überdeckung vorliegen. Da es zwei Stufen gibt und eine Überdeckung vorliegt spricht man von einer Quasihierarchie. Eine Überdeckung ist mit anderen Worten eine Quasihierarchie mit nur einer Stufe. Freilich können Hierarchien wie auch Quasihierarchien aus mehr als zwei Stufen bestehen und eine Vielzahl möglicher Gruppierungen sind denkbar. Aus diesem Grund stellt sich die Notwendigkeit, jede Gruppierung zu bewerten. Diese Fragestellung steht im folgenden Abschnitt im Mittelpunkt des Interesses.

11.2.2

Konstruktionsverfahren

Bei der Konstruktion werden zwei diametral entgegengesetzte Verfahren unterschieden: 1. agglomerative und 2. aufteilende Verfahren. Ist die Anzahl unterschiedlicher Objekte gleich n, so startet man bei Verfahren 1 mit n unterschiedlichen Klassen. Im nächsten Schritt werden jene zwei Klassen zu einem Cluster zusammengefaßt, die sich am ähnlichsten sind. So fährt man fort, bis schließlich alle Objekte in einem Cluster enthalten sind. Bei dem aufteilenden Verfahren geht man genau anders herum vor. Ausgehend von einem Cluster, das alle Objekte enthält, spaltet man dieses in zwei auf. Dies wird so lange gemacht, bis schließlich n verschiedene Gruppen vorhanden sind. Beide Verfahren können zu unterschiedlichen Klassenbildungen führen. Der Unterschied zwischen den in Programmpaket ’cluster’ enthaltenen Verfahren zur Partitionierung und zur Hierarchie besteht darin, daß bei der Bildung von Hierarchien nicht sichergestellt ist, daß es sich bei einer Partition mit m Klassen um eine beste Partition handelt.

KAPITEL 11. CLUSTERANALYSE

216

Person

Unterrichtsbeginn 8:00 Uhr

1 2 3 4 5 6 7 8 9 10

1 0 0 1 1 0 0 0 0 0

Persönliche Einschätzung zur Dringlichkeit von Übungen 80 33 55 23 87 100 50 34 45 76

Tabelle 11.1: Datenmatrix zur Bildung von zwei Partitionen Quelle: Daten frei erfunden

11.3

PAM

11.3.1

Grundlagen

PAM steht für ’Partitioning Around Medoids’. Der Name ist Programm. Gesucht wird nach einer Partition um repräsentative Objekte (= Medoiden) herum; in der Clusteranalyse werden sie auch mit den Namen ’centrotype’ oder ’medoids’ belegt (Kaufmann und Rousseeuw, 1990, S. 68 ﬀ). Ein Objekt ist Medoid, wenn die durchschnittliche Distanz zu allen anderen Elementen des betrachteten Clusters geringer ist als die durchschnittliche Distanz irgendeines anderen Objektes desselben Clusters zu allen anderen Objekten derselben Gruppe. Wurden m repräsentative Objekte gefunden, wobei m die Anzahl der Klassen bezeichnet, so ordnet man alle verbleibenden dem nächstgelegenen Medoiden zu.

11.3.2

Beispiel 1

Problemstellung Studentenpräferenzen sowie ihre speziﬁschen Schwierigkeiten mit dem Fach Statistik sollen bei der Bildung von Übungsstunden berücksichtigt werden. An Hochschulen tritt häuﬁg das Problem auf, daß sich Veranstaltungen überschneiden. Wegen persönlicher Präferenzen, Mitfahrgelegenheiten, Fahrplänen öﬀentlicher Verkehrsmittel und dergleichen haben Studenten im allgemeinen unterschiedliche Präferenzen hinsichtlich der zeitlichen Lage von Übungsstunden in Statistik. Studenten mit großen Problemen sollen doppelt so viele Übungsstunden erhalten als andere, um in einer weiteren Untersuchung herauszuﬁnden, ob hierdurch der Lernerfolg und die Abbrecherquote gesenkt werden kann. Zu diesem Zweck werden 10 Studenten befragt, ob sie lieber um 8:00 Uhr oder später eine Übungsstunde hätten. Das Ergebnis ist in Spalte 2 der Tabelle

11.3. PAM

217

11.1 abgetragen. Eine ’1’ bedeutet eine Präferenz für frühen Unterricht, eine ’0’ steht für Unterricht ab 10:00 Uhr. In der ersten Spalte ist die Personennummer abgetragen. Zudem sollen die Studenten ihre Schwierigkeiten mit dem Fach auf einer Skala von 0 bis 100 angeben, wobei ’0’ keine Schwierigkeiten und ’100’ extreme Schwierigkeiten bedeutet. Die entsprechenden Werte sind in der letzten Spalte der Tabelle 11.1 widergegeben. Freilich wird man für 10 Studenten keine getrennten Übungsstunden abhalten. Um die Klassiﬁzierung nachvollziehbar zu halten, werden aber nur 10 statistische Einheiten betrachtet. Die Daten für dieses Beispiel sind in Daten-Beispiel-pam.Rdata abgelegt. Ziel ist es, zwei Übungsgruppen zu bilden, wobei all jene Studenten mit hohen Schwierigkeiten und möglichst gleicher Präferenz für die Tageszeit zu einer Gruppe zusammengefaßt werden sollen. Bestimmung der Distanzmatrix Als erstes ist zu entscheiden, wie der Unterschied zwischen den Personen gemessen werden soll. Denn es ist zu erwarten, daß dies entscheidenden Einﬂuß auf die Gruppenbildung hat. Zu diesem Zweck ist das Skalenniveau der Variablen festzulegen. Der Unterrichtsbeginn ist bereits bei der Erhebung als binäre Variable aufgefaßt worden, ’1’ bedeutet Unterrichtsbeginn um 8:00 Uhr, ’0’ bedeutet später. Es gibt keinen triftigen Grund, diese Variable als asymmetrisch zu betrachten. Deshalb wird sie als symmetrisch festgelegt. Die zweite Variable beruht auf einer Selbsteinschätzung; die Diﬀerenzen sind nicht interpretierbar. Aus diesem Grund wird diese Variable als ordinal eingestuft. Zweitens ist zu bestimmen, wie beide Variablen gewichtet werden sollen. Wird das Verfahren ’gower’ verwendet, so gehen beide mit gleichem Gewicht in die Berechnung der Distanzindizes ein. Diese Einstellung soll im ersten Durchlauf verwendet werden. Die Distanzmatrix wird mit dem Befehl ’daisy’ berechnet. Daß der Unterrichtsbeginn eine symmetrische Variable ist, kann in dieser Anweisung direkt eingespeist werden. Um die persönliche Einschätzung als ordinale Variable zu kennzeichnen ist allerdings ein Zwischenschritt nötig. Die Datenmatrix 11.1 ist unter dem Namen ’x’ abgespeichert. Der Befehl > x2 <- as.ordered(x[,2]) > x2 [1] 80 33 55 23 87 100 50 34 45 76 Levels: 23 < 33 < 34 < 45 < 50 < 55 < 76 < 80 < 87 < 100. weist Variable zwei als ordinalskaliert aus. Die Zusammenfassung der ersten Spalte von ’x’ und ’x2’ ergibt die neue Datenmatrix ’x3’. > x3 <- data.frame(x[,1],x2) Durch Anweisung

218

KAPITEL 11. CLUSTERANALYSE

> input3 <- daisy(x3,metric="gower",stand=FALSE,type=list(symm=1)) > input3 Dissimilarities : 1 2 3 ... 2 0.83333333 3 0.61111111 0.22222222 4 0.38888889 0.55555556 0.77777778 ... Metric : mixed ; Types = S, O Number of objects : 10 werden beide Merkmale unterschiedlichen Skalenniveaus miteinander verknüpft: es wird die Metrik ’gower’ verwendet, die Variablen werden nicht standardisiert und die erste Variable wird als binäres symmetrisches Merkmal gekennzeichnet. erkennt automatisch, daß die Variable in der zweiten Spalte von ’x3’ ordinal skaliert ist, was man an der zweitletzten Zeile erkennen kann. Hier ﬁndet sich die Information, daß es sich um Merkmale unterschiedlichen Skalenniveaus handelt; anschließend sind die Typen der vorhandenen Skalenniveaus angezeigt: ’S’ für symmetrische binäre Variable und ’O’ für eine ordinal skalierte. Bestimmung der Cluster Da zwei Partitionen gebildet werden sollen, wird ’PAM’ genutzt. Es wird die Distanzmatrix ’input3’ eingespeist, zwei Klassen sollen gebildet werden. Bei den eingegebenen Daten handelt es sich um eine Distanzmatrix (’diss=TRUE), wobei eine Standardisierung der Variablen nicht erfolgt. Da aber bereits eine Distanzmatrix eingelesen wird, wird diese Anweisung ignoriert, d.h. sie kann auch gänzlich entfallen. > output3 <- pam(input3,2,diss=TRUE,stand=FALSE) > output3 Medoids: ID [1,] 1 1 [2,] 7 7 Clustering vector: [1] 1 2 2 1 1 2 2 2 2 2 ... Das Ergebnis der Klassenbildung ist unter dem Namen ’output3’ abgelegt. Als erstes werden die verwendeten Medoiden angezeigt. Die Personen ’1’ und ’7’ wurden als solche genutzt. Unter ’Clustering vector’ sind Zahlen angegeben, wobei die erste Zahl die Gruppe angibt, zu der das erste Objekt zugeordnet wurde, die zweite Zahl gibt das Cluster der zweiten statistischen Einheit an. Es ergibt sich demgemäß, daß die Personen ’1, 4, 5’ zu Cluster eins und die anderen zu einer weiteren Gruppe zusammengefaßt wurden. Vergleicht man dieses

11.3. PAM

219

Ergebnis mit der zugrundeliegenden Datenmatrix, so scheint das Merkmal Unterrichtsbeginn entscheidenden Einﬂuß gehabt zu haben. Die Aufteilung in zwei Gruppen ist ungleichmäßig. Will man eine gleichmäßigere Aufteilung erreichen, so könnten bei der Bestimmung der Distanzmatrix die Merkmale verschieden gewichtet werden. Beispielsweise könnte größerer Wert auf das zweite Merkmal gelegt werden. In ’input4’ ist eine Distanzmatrix, die allein aufgrund des ersten Merkmals erzeugt wurde, dargestellt und ’input5’ enthält eine, die ausschließlich auf Basis des zweiten Merkmals beruht. > input4 <- daisy(data.frame(x[,1]),metric="gower", stand=FALSE,type=list(symm=1)) > input4 Dissimilarities : 1 2 3 4 5 6 7 8 9 2 1 3 1 0 4 0 1 1 5 0 1 1 0 6 1 0 0 1 1 7 1 0 0 1 1 0 8 1 0 0 1 1 0 0 9 1 0 0 1 1 0 0 0 10 1 0 0 1 1 0 0 0 0 Metric : mixed ; Types = S Number of objects : 10 > input5 <- daisy(data.frame(x2),metric="gower",stand=FALSE) > input5 Dissimilarities : 1 2 3 4 ...7 2 0.6666667 3 0.2222222 0.4444444 4 0.7777778 0.1111111 0.5555556 5 0.1111111 0.7777778 0.3333333 0.8888889 ... Metric : mixed ; Types = O Number of objects : 10 Faßt man beide Matrizen zu einer zusammen und gewichtet beide mit 0, 5, so erhält man dasselbe Ergebnis wie oben, als als Metrik ’gower’ verwendet wurde. > input6 <- .5*input4+.5*input5 > input6 Dissimilarities : 1 2 2 0.83333333 3 0.61111111 0.22222222

3

4

...

KAPITEL 11. CLUSTERANALYSE

220

4 0.38888889 0.55555556 0.77777778 5 0.05555556 0.88888889 0.66666667 0.44444444 ... Metric : mixed ; Types = S Number of objects : 10 Wird das erste Merkmal mit 1/10 und das zweite mit 9/10 gewichtet, so erhält man folgende Klassiﬁzierung. Nun werden die Objekte ’1, 3, 5, 6, 10’ zur Klasse ’1’ und die restlichen zu anderen zusammengefaßt. Wir erhalten zwei gleichgroße Gruppen. In Klasse ’1’ sind zwei Personen, die gerne früh mit dem Unterricht beginnen möchten und alleseamt Personen, mit größeren Schwierigkeiten als in der anderen Gruppe. > input7 <- (1/10)*input4+(9/10)*input5 > output7 <- pam(input7,2,diss=TRUE) > output7 Medoids: ID [1,] 1 1 [2,] 8 8 Clustering vector: [1] 1 2 1 2 1 1 2 2 2 1 Objective function: build swap 0.18 0.16 Available components: [1] "medoids" "id.med" "isolation" [6] "clusinfo" "silinfo"

11.3.3

"clustering" "objective" "diss"

"call"

Bestimmung der Medoiden*

Bislang wurde nicht explizit auf das eigentliche Ziel der Clusteranalyse eingegangen, daß Gruppen gebildet werden sollen, bei denen sich Objekte in derselben Klasse möglichst ähnlich und die Unterschiede zwischen den Klassen möglichst groß sind. Die Nutzung bestimmter Objekte als Medoid hat Einﬂuß auf die Klassenbildung und damit darauf, wie gut die Klassiﬁzierung ist. Zudem muß es für die Klassenbildung ein Gütekriterium geben, das als Zielfunktion dient, um jene Objekte als Medoiden festlegen zu können, die zu einer möglichst guten Klassiﬁzierung führen. Als Zielfunktion (= Gütekriterium) dient die Minimierung der Summe der Distanzen aller Objekte zu ihrem nahegelegenen Medoiden. Folglich ist ein Suchalgorithmus nötig, womit Medoiden bestimmt werden, der zur Minimierung dieser Summe geeignet sind. Diese Aufgabe wird in ’PAM’ in zwei Teilaufgaben aufgesplittet,

11.3. PAM

221

• die ’Build’-Phase und • die ’SWAP’-Phase. In der Build-Phase wird eine Ausgangskonﬁguration bestimmt, die als Start in der ’SWAP’-Phase dient, um die Zielfunktion weiter zu verringern. Build-Phase 1. Bestimmung des ersten Medoiden i1 : Bestimme das Objekt, bei dem die Summe der Distanzen zu allen anderen Objekten minimal ist. 2. Bestimmung des zweiten Medoiden: Suche einen zweiten Medoiden, der die Zielfunktion im Vergleich zu allen anderen am meisten senkt. Diese Aufgabe wird in den folgenden Schritten erledigt. (a) Wähle i = i1 . (b) Berechne die Distanzen d(j, i1 ) und d(j, i) und ziehe die zweite von der ersteren ab: d(j, i1 ) − d(j, i). (c) Falls diese Diﬀerenz positiv ist, so wird die Zielfunktion verringert, falls nicht, so wird der Beitrag zur Verminderung der Zielfunktion mit Null angesetzt: Cij := max(d(j, i1 ) − d(j, i), 0). (d) Errechne

Cij .

(11.1)

(11.2)

j

(e) Wähle jenes i als zweiten Medoiden i2 , für den der Ausdruck 11.2 maximal ist. 3. Die Bestimmung des nächsten Medoiden, iz , unterscheidet sich von der des zweiten nur dadurch, daß in 2b und 2c statt d(j, i1 ) der Ausdruck min d(j, ik ) mit k ∈ {1, . . . , z − 1} ik

ersetzt wird und i = {i1 , . . . , iz−1 }. 4. Wiederhole 3 so lange, bis z gleich der Anzahl vorgegebener Klassen, m, ist. SWAP-Phase In der zweiten Phase, SWAP, wird versucht, die erhaltenen repräsentativen Objekte aus der Build-Phase zu verbessern. In dieser Phase wird überprüft, ob durch einen Austausch des Medoiden ik durch das Objekt h eine Verbesserung der Klassiﬁzierung erreicht werden kann. Es können folgende Situationen voneinander unterschieden werden:

KAPITEL 11. CLUSTERANALYSE

222

1. j ist vor der Vertauschung einem anderen Medoiden als ik zugeordnet. Dann gibt es nach der Vertauschung zwei Möglichkeiten: (a) Eine Verbesserung ist nicht möglich. Das betrachtete Objekt j bleibt auch nach einem Austausch des Medoiden ik durch h der bisherigen Gruppe zugeordnet. (b) Sodann gibt es die Möglichkeit, daß j vor der Vertauschung des Medoiden ik mit h zwar zu einem anderen Medoiden als ik die geringste Distanz aufwies, aber nach dem Tausch ist die Distanz zwischen j und dem neuen Medoiden h geringer. 2. j ist bislang dem Medoiden ik zugeordnet. Nach seiner Ersetzung durch Objekt h gibt es zwei Möglichkeiten: (a) Die Distanz von j zu dem neuen Medoiden h ist im Vergleich zu allen anderen existierenden Medoiden am geringsten. (b) Die Distanz zu einem bislang bereits existierenden Medoiden ist nach der Auswechslung von ik durch h am geringsten. Im folgenden wird die SWAP-Phase etwas detaillierter angegeben. Die herbei angesprochenen Schritte 2 und 3 entsprechen den obigen 1 bzw. 2. Bezeichne ik , k ∈ {1, . . . , m} einen Medoiden als Ergebnis der Build-Phase, dann wird in der SWAP-Phase der Einﬂuß einer Vertauschung von ik mit Objekt h ∈ / {i1 , . . . , im } auf die Zielfunktion untersucht. Die SWAP-Phase besteht aus folgenden Schritten. Hierbei sei iz ∈ {i1 , . . . , im } mit iz = ik ein von ik verschiedener Medoid. 1. Wähle ein Objekt j und überprüfe seine Entfernung zu ik , h und iz . 2. (a) Ist die Entfernung d(j, iz ) für ein z ∈ {1, . . . , m} mit z = k geringer als d(j, ik ) und geringer als d(j, h), so ist die Verbesserung infolge des SWAP (= Vertauschung) gleich Null. Mit anderen Worten ist die Entfernung zu einem anderen Medoiden geringer, weshalb durch eine Vertauschung von ik und h nichts gewonnen wird. (b) Schließlich ist der Fall denkbar, daß j näher bei einem Medoiden iz ∈ {1, . . . , m} mit z = k liegt als bei ik , gleichzeitig aber näher bei h als bei irgendeinem Medoiden aus {i1 , . . . , im }. In diesem Fall vermindert sich die Zielfunktion durch einen SWAP: ΔZiel(ik , h)j = d(j, h) − Ej , denn unter diesen Umständen ist diese Diﬀerenz in jedem Fall negativ (leicht anders als in (Kaufmann und Rousseeuw, 1990, S. 68 ﬀ)). 3. Sollte für alle z ∈ {1, . . . , m} mit z = k gelten, daß Dj := d(j, ik ) d(j, iz ), so gibt es zwei Möglichkeiten.

11.3. PAM

223

(a) d(j, h) < Ej :=

min

z∈{1,...,m}

d(j, iz ) mit z = k,

d.h. daß die Distanz zwischen j und h geringer ist als die Distanz zwischen j und dem zweitnächsten Medoiden. In diesem Fall würde j dem neuen Medoiden h zugeordnet. Die Veränderung der Zielfunktion errechnet sich als Änderung Zielfunktion = ΔZiel(ik , h)j = d(j, h) − d(j, ik ). Diese Diﬀerenz kann positiv oder auch negativ sein. (b) Es kann auch sein, daß d(j, h) Ej :=

min

z∈{1,...,m}

d(j, iz ) mit z = k,

also daß die Distanz zwischen j und h größer oder gleich der Distanz von j zum zweitnächsten Medoiden ist. Dann würde j durch einen SWAP von ik zu h als neuem Medoiden, der ik ersetzt, nicht h sondern dem zweitnächsten Medoiden zugeordnet. Die Zielfunktion würde sich um die Distanz Dj verringern und um Ej erhöhen. Infolgedessen ändert sich die Zielfunktion um Änderung Zielfunktion = ΔZiel(ik , h)j = Ej − Dj . Diese Diﬀerenz ist immer positiv. 4. Die Schritte 1 bis 3 werden für jedes j durchgeführt. Anschließend wird berechnet, um welchen Betrag sich die Zielfunktion durch einen SWAP von ik zu h insgesamt verändert: ΔZiel(ik , h)gesamt = ΔZiel(ik , h)j . (11.3) j

/ {i1 , . . . , im } Die Schritte 1 bis 4 werden für alle ik ∈ {i1 , . . . , im } und h ∈ durchgeführt. Dann wird überprüft, ob ein SWAP durchgeführt werden soll oder nicht. Hierzu wird min ΔZiel(ik , h)gesamt (11.4) ik ,h

bestimmt. Ist das Minimum negativ, so verringert sich durch einen SWAP von ik zu h die Zielfunktion und der Austausch wird vollzogen. Danach beginnt der Prozeß erneut bei 1. Ist das Minimum gleich oder größer als Null so endet der Prozeß.

11.3.4

Beispiel 2

In dem nachfolgendem Befehl wird wiederum ’input3’ von Seite 217 verwendet. Als Medoiden werden ad hoc die Objekte ’6’ und ’9’ verwendet. Dann ergibt

KAPITEL 11. CLUSTERANALYSE

224

sich jedoch im Vergleich zu der Verwendung der Build- und SWAP-Phase (siehe Seite 218) eine andere Klassiﬁzierung. Nun werden die Personen ’1,5,6’ zu einer Gruppe zusammengefaßt. Zudem ist die Zielfunktion (=0.2333) höher als vorher (= 0,122). Gemessen an der Zielfunktion ist folglich die Klassiﬁzierung schlechter. Obwohl beide Merkmale mit gleichem Gewicht in die Distanzmatrix eingehen, werden jene Objekte zusammengefaßt, die einen großen Bedarf an Übungen haben. > output8 <- pam(input3,2,diss=TRUE,medoids=c(6,9),do.swap=FALSE) > output8 > Medoids: ID [1,] 6 6 [2,] 9 9 Clustering vector: [1] 1 2 2 2 1 1 2 2 2 2 Objective function: build swap 0.2333333 0.2333333 Available components: [1] "medoids" "id.med" "isolation" [6] "clusinfo" "silinfo"

11.3.5

"clustering" "objective" "diss"

"call"

Isolierte Cluster

Wir sagen, daß Cluster K1 isoliert ist, wenn es ein L-Cluster oder ein L∗ -Cluster gibt (Kaufmann und Rousseeuw, 1990, S. 83). K1 ist ein L-Cluster, wenn: ∀i ∈ K1 : max d(i, j) < min d(i, h). j∈K1

h∈K / 1

(11.5)

Sollte dagegen max d(i, j) <

i,j∈K1

min

l∈K1 ,h∈K / 1

d(l, h)

(11.6)

gelten, so ist K1 ein L∗ -Cluster. Wenn K1 ein L∗ -Cluster ist, so ist es auch ein L-Cluster. Denn angenommen, d(˜i, ˜j) = max d(i, j). i,j∈K1

Dann gilt für ein beliebiges Element k ∈ K1 : max d(k, j) d(˜i, ˜j) <

j∈K1

min

l∈K1 ,h∈K / 1

d(l, h) min d(k, h), h∈K / 1

was zu beweisen war. Wird eine Menge von Objekten in zwei Cluster aufgeteilt, so kann es vorkommen, daß nur eines der beiden separiert ist. Der Ausdruck max d(i, j)

i,j∈K1

(11.7)

11.3. PAM

225

heißt Diameter der Gruppe K1 und min

l∈K1 ,h∈K / 1

d(l, h)

(11.8)

Separation. Es zeigt sich, daß die Existenz von L- bzw. L∗ -Clustern wichtige Hinweise sind, ob die gefundenen Partitionen sinnvoll sind oder nicht. Ergibt sich, daß kein Cluster von anderen separiert ist, so stellt sich die Frage, ob die gefundenen Cluster eine sinnvolle Partition bilden. In nachfolgendem Beispiel wird dies deutlich.

11.3.6

Beispiel 3

Das Beispiel von Seite 224 wird fortgeführt. Über die Anweisung ’summary(.)’ kann in Erfahrung gebracht werden, ob isolierte Cluster existieren oder nicht. Im Falle des ’output8’ gibt es keine; bei ’output3’ sind beide Gruppen L∗ -Cluster und somit isoliert. Bei ’output8’ wurden irgendwelche Objekte als Medoiden gewählt. Keines der hierdurch gebildeten Cluster ist separiert. Wird dagegen die Build- und SWAP-Phase genutzt, wie bei ’output3’, so sind die so gebildeten Cluster separiert. > summary(output8) Medoids: ID [1,] 6 6 [2,] 9 9 Clustering vector: [1] 1 2 2 2 1 1 2 2 2 2 Objective function: build swap 0.2333333 0.2333333 Numerical information per cluster: size max_diss av_diss diameter separation [1,] 3 0.6111111 0.3888889 0.6111111 0.1666667 [2,] 7 0.6666667 0.1666667 0.8333333 0.1666667 Isolated clusters: L-clusters: character(0) L*-clusters: character(0) ... > summary(output3) Medoids: ID [1,] 1 1

KAPITEL 11. CLUSTERANALYSE

226

Silhouette plot of pam(x = input3, k = 2, diss = TRUE, stand = FALSE) 2 clusters Cj

n = 10

j : nj | avei∈Cj si

1

1 : 3 | 0.59

5 4 7 9 3

2 : 7 | 0.75

8 10 2 6

0.0

0.2

0.4

0.6

0.8

1.0

Silhouette width si Average silhouette width : 0.7

Abbildung 11.2: Silhouette des ’output3’ Quelle: eigene Darstellung

[2,] 7 7 Clustering vector: [1] 1 2 2 1 1 2 2 2 2 2 Objective function: build swap 0.1222222 0.1222222 Numerical information per cluster: size max_diss av_diss diameter separation [1,] 3 0.3888889 0.1481481 0.4444444 0.5555556 [2,] 7 0.2777778 0.1111111 0.4444444 0.5555556 Isolated clusters: L-clusters: character(0) L*-clusters: [1] 1 2 ...

11.3.7

Überprüfung der Klassenbildung

Ein weiteres Instrument zur Veranschaulichung wie auch zur Überprüfung der Klassenbildung ist die ’Silhouette’, die für die Klassenzahl m 2 deﬁniert ist. Für den ’output3’ von Seite 218 ist sie in Abbildung 11.2 dargestellt. An der Abszisse ist die Silhouettenweite, s(i), und an der Ordinate für jede Klasse ei-

11.3. PAM

227

ne Silhouette abgetragen, wobei auch die zugehörigen Objekte angegeben werden. Rechts ﬁndet sich die Anzahl der Objekte der jeweiligen Klasse sowie die durchschnittliche Silhouettenweite für jedes Cluster. Die drei Objekte des ersten haben beispielsweise eine durchschnittliche Silhouettenweite von 0, 59, das zweite mit sieben Objekten eine von 0, 75. Ganz unten ist die durchschnittliche Silhouettenweite für alle Objekte angegeben; hier beträgt sie 0, 7. Die Silhouettenweite, s(i), ist eine Maßzahl, die aus den Maßen a(i) und b(i) gebildet wird. a(i) := durchschnittliche Distanz zu allen anderen Objekten derselben Gruppe. (11.9) Gibt es in dieser keine anderen Objekte, so kann a(i) nicht berechnet werden. / Kz zu d(i, Kz ) sei die durchschnittliche Distanz des Objektes i ∈ Kk und i ∈ der Klasse Kz . b(i) ist dann wie folgt deﬁniert: b(i) := min d(i, Kz ). Kz ,z=k

(11.10)

Sei ohne Beschränkung der Allgemeinheit Cluster K2 jenes mit geringstem durchschnittlichem Abstand zu Objekt i. Dann heißt K2 Nachbar des Objektes i. Mit anderen Worten würde Objekt i der Klasse Kz zugeordnet, wenn es Klasse Kk nicht gäbe. a(i) und b(i) können in drei verschiedenen Konstellationen zueinander stehen. Erster Fall: Ist a(i) < b(i) so ist die durchschnittliche Distanz zu den Objekten derselben Klasse kleiner als diejenige von i zu der nächstbesten Gruppe, die Zuordnung erscheint sinnvoll. Zweiter Fall: Sollte a(i) = b(i) gelten, so wäre es gleich, zu welchem Cluster Objekt i zugeordnet würde. Dritter Fall: ist a(i) > b(i), so wäre i besser bei dem nächstbesten Cluster aufgehoben. In Fall 1 ist s(i) deﬁniert als s(i) :=

b(i) − a(i) b(i)

und es gilt dann 0 < s(i) 1. Im dritten Fall ist s(i) :=

b(i) − a(i) a(i)

und −1 s(i) < 0, ansonsten ist s(i) gleich Null. Folglich kann geschrieben werden b(i) − a(i) . (11.11) s(i) := max(a(i), b(i)) mit −1 s(i) 1. Demgemäß besitzt s(i) folgende Bedeutung. Ist es nahe der Eins, so erscheint die vorgenommene Zuordnung als sinnvoll, da die Distanz zu dem zweitbesten Cluster erheblich schlechter ist als die vorgenommene. Je näher s(i) der Null

KAPITEL 11. CLUSTERANALYSE

228

Silhouette plot of pam(x = input3, k = 2, diss = TRUE, medoids = c(6, 9), do.swap = FALSE) 2 clusters Cj

n = 10

j : nj | avei∈Cj si

5

1 : 3 | 0.25

1 6 8 9 2

2 : 7 | 0.50

7 3 10 4

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

Silhouette width si Average silhouette width : 0.42

Abbildung 11.3: Silhouette des ’output8’ Quelle: eigene Darstellung

kommt, desto weniger überzeugend ist die Zuordnung, da die durchschnittlichen Distanz des Objektes i zu der nächstbesten Gruppe annähernd so gut ist wie die vorgenommene. Ist s(i) negativ, so wäre i besser einer anderen Gruppe zuzuordnen, die vorgenommene Klassenbildung erscheint nicht sinnvoll.

11.3.8

Beispiel 4

Aus Abbildung 11.2 ist zu erkennen, daß alle Objekte eine positive Silhouettenweite aufweisen. Einzig Objekt ’4’ besitzt eine unter 0, 4, ein schwaches Anzeichen für eine möglicherweise nicht geeignete Zuordnung. Die durchschnittlichen Silhouettenweiten der beiden Cluster sind oberhalb von 0, 5, was prinzipiell als Anzeichen für eine zufriedenstellende Klassiﬁkation angesehen werden kann. Die durchschnittliche Silhouettenweite über alle Objekte hinweg beträgt 0, 7, ist positiv und in der Nähe der +1: ein Hinweis für eine befriedigende Gruppeneinteilung. In Abbildung 11.3 ist die Silhouette der Klassenbildung mit arbiträren Medoiden (siehe Seite 224) dargestellt. Diese Klassenbildung minimiert die Zielfunktion nicht und sollte infolgedessen ungünstige Werte bei der Silhouettenweite aufweisen, d.h. es sollte sich zeigen, daß einige Objekte fehlklassiﬁziert sind. In der Tat sind die Silhouettenweiten der Objekte ’6’ und ’4’ negativ. Dies sind Hinweise auf falsche Gruppenzuordnungen. Die durchschnittlichen Silhouettenweiten je Cluster als auch die durchschnittliche Silhouettenweite über alle Objekte hinweg ist im Vergleich zu vorher geringer.

11.4. FANNY

11.3.9

229

Bestimmung der Klassenzahl

In unserem Beispiel, das auf Seite 216 begann, ergab sich aus der Problemstellung, daß lediglich zwei Gruppen gebildet werden sollen, da annahmegemäß nicht mehr Ressourcen zur Verfügung stehen. Gibt es diese Begrenzung nicht oder könnten maximal 9 Gruppen gebildet werden, so würde sich die Frage danach stellen, wie viele Gruppen sinnvoller Weise gebildet werden sollten. Zur Beantwortung dieser Frage eignet sich die durchschnittliche Silhouettenweite. Man berechnet diese bei gegebener Distanzmatrix für alle Klassenzahlen, m = 2, . . . , n − 1 und wählt dann jenes m, das die maximale durchschnittliche Silhouettenweite über alle Objekte aufweist. Dieses Maß heißt Silhouettenkoefﬁzient SC (Kaufmann und Rousseeuw, 1990, S. 87) : SC := max s¯(k).

(11.12)

k

11.3.10

Beispiel 5

Ausgehend von ’input3’ wird für unterschiedliche Klassenanzahl, m, jeweils die gesamte Silhouettenweite berechnet. Es ergeben sich folgende Werte: Klassananzahl k durchschnittliche Silhouettenweite

2 0,7

3 0,67

4 0,48

5 0,47

6 0,43

7 0,27

8 0,22

9 0,05

Demgemäß ist der Silhouettenkoeﬃzient gleich 0,7 und folglich sollte eine Gruppierung in m = 2 Gruppen vorgenommen werden.

11.4

FANNY

11.4.1

Grundlagen

Mit PAM werden alle Objekte irgendeinem Cluster zugeordnet. Anhand der Silhouette und Silhouttenweite einzelner Objekte kann man bereits erkennen, ob die Zuordnung sinnvoll ist oder nicht. Ist die Silhouettenweite nahe Null, so ist die Zuordnung nicht sehr überzeugend. Gerade auf solche Fälle ist das Verfahren ausgelegt, das im Programm FANNY implementiert wurde. In FANNY werden Mitgliedschaftskoeﬃzienten ermittelt, die Auskunft darüber geben, mit wieviel Prozent ein Objekt einem bestimmten Cluster zugeordnet wird. Die Eingabeformate wie auch die Behandlung von Missings sind bei PAM und FANNY identisch (Informationen hierzu ﬁnden sich auf den Hilfeseiten des Programms), doch im Gegensatz zu PAM werden bei FANNY keine repräsentativen Objekte genutzt. Stattdessen wird versucht, folgende Zielfunktion zu minimieren (Kaufmann und Rousseeuw, 1990, S. 80, 169, 171): m n 2 2 i,j=1 uik ujk d(i, j) n , (11.13) 2 · j=1 u2jk k=1

KAPITEL 11. CLUSTERANALYSE

230

wobei uik bedeutet, daß Objekt i zu Gruppe k gehört. Der Mitgliedschaftskoeﬃzient uik unterliegt folgenden Restriktionen: uik 0 für i = 1, . . . , n; k = 1, . . . , m und

m

uik = 1 für i = 1, . . . , n.

(11.14)

(11.15)

k=1

Gesucht werden alle Mitgliedschaftskoeﬃzienten, uik , i = 1, . . . , n; k = 1, . . . , m, die die Zielfunktion unter den angegebenen Nebenbedingungen minimieren. Gemäß Zielfunktion 11.13 berechnet man für jedes Cluster k den Quotienten n 2 2 i,j=1 uik ujk d(i, j) n . 2 · j=1 u2jk Auf dem Bruchstrich werden die Distanzen, d(i, j), zwischen allen Objekten i und j in Cluster k jeweils multipliziert mit den beiden Mitgliedschaftskoeﬃzienten uik und ujk aufsummiert. In dieser Summe sind die Distanzen d(i, j) als auch d(j, i) enthalten, die wegen Eigenschaft 3 (siehe Seite 191) von Distanzindizes einander gleich sind. Damit jede Distanz nur einmal in die Zielfunktion eingeht, wird der Zähler durch zwei dividiert. Je größer die Mitgliedschaft der Objekte j in Klasse k sind (= nj=1 u2ik ), desto geringer wird die Ungleichheit zwischen Objekt i für i = 1, . . . , n und den anderen Objekten j in Klasse k gewichtet. Über einen Lagrange-Ansatz werden die nötigen Bedingungen für ein Minimum der Zielfunktion bestimmt, die den Ausgangspunkt für ein iteratives Optimierungsverfahren bilden. Für die praktische Anwendung ist die Herleitung und Darstellung des Optimierungsverfahrens von geringem Interesse; es kann nachgelesen werden bei (Kaufmann und Rousseeuw, 1990, S. 182ﬀ). Aus diesem Grund werden hier nur die wichtigsten Zwischenschritte präsentiert, um FANNY adäquat nutzen zu können. Die Ableitung der Lagrange-Funktion ergibt uik · 2 · j u2jk d(i, j) uik h j u2jk u2hk d(h, j) ∂L 2 = − −γi −ψik = 0, (11.16) ∂uik ( j u2jk )2 j ujk mit γ und ψ als Lagrange-Parameter, was mit aik =

2·

u2 d(i, j) jk2 − j ujk j

h

u2 u2 d(h, j) jk 2hk2 ( j ujk ) j

(11.17)

geschrieben werden kann als aik uik − γi − ψi = 0.

(11.18)

11.4. FANNY

231

Als Lösung des Minimierungsproblems ergibt sich nach einigen Zwischenschritten: 1/aik 0} (11.19) uik = 0 für k ∈ {k : w (1/aiw ) und uik =

1/aik w∈{k:

1/aik >0} (1/aiw ) w

(1/aiw )

für k ∈ {k :

1/aik > 0} w (1/aiw )

(11.20)

Gleichungen 11.19 11.20 sind die Optimalitätsbedingungen, die zu einem Minimum der Zielfunktion 11.13 unter Einhaltung der Nebenbedingungen 11.14 und 11.15 führen. Für jedes i gibt es eine Bestimmungsgleichung zur Berechnung des Mitgliedschaftskoeﬃzienten in Gruppe k, uik : entweder ist es 11.19 oder 11.20. Allerdings sind die Größen aik in diesen Gleichungen wiederum abhängig von den Mitgliedschaftskoeﬃzienten uik . Deshalb ist eine analytische Lösung des Minimierungsproblems nicht möglich. Startet man jedoch mit einer Ausgangskonﬁguration der Mitgliedschaftskoeﬃzienten uik , so lassen sich diese Werte in 11.17 einsetzen und neue Werte uik berechnen. Genau dieses Verfahren wurde in FANNY umgesetzt.

11.4.2

Beispiel 1

Das Beispiel 11.3.2 von Seite 216 wird mit FANNY bearbeitet. Als Distanzmatrix wird ’input3’ von Seite 217 verwendet. Ebenso wie dort sollen zwei Partitionen gebildet werden. Anstatt Zielfunktion 11.13 zu verwendet, wird in FANNY m n r r i,j=1 uik ujk d(i, j) n , (11.21) 2 · j=1 urjk k=1

wobei r als Mitgliedschaftsexponent bezeichnet wird, genutzt. Für r = 2 erhält man wiederum die Zielfunktion 11.13. Der Mitgliedschaftsexponent hat Einﬂuß auf das Konvergenzverhalten des Iterationsverfahrens und kann, falls der Prozeß nicht oder sehr langsam konvergiert, angepaßt werden. Je näher r an ’1’ zu liegen kommt, desto klarer erfolgt die Zuordnung der Objekte zu Gruppen; je größer er wird, desto unklarer wird sie. Im Programm erfolgt die Einstellung über ’memb.exp’. Mit ’iniMem.p’ kann eine Ausgangskonﬁguration der Mitgliedschaftskoeﬃzienten uik vorgegeben werden. > outputfanny3 <- fanny(input3,2,diss=TRUE,memb.exp=2, iniMem.p=NULL) Als Ergebnis des Optimierungsprozesses (siehe unten) wird zuerst die grundlegende Parametereinstellung ’m.ship.expon’ und anschließend der Wert der Zielfunktion angezeigt. Nach 16 Iterationen wurde der Prozeß abgebrochen, da

232

KAPITEL 11. CLUSTERANALYSE

die Toleranzschwelle von 10−15 unterschritten wurde. Der iterative Prozeß konvergierte, wobei maximal 500 Iterationen möglich gewesen wären. Nach der Angabe der Anzahl der Objekte n ist das eigentlich interessierende Ergebnis: die Angabe der Mitgliedschaftskoeﬃzienten für jedes Objekt i zu den Klassen k = 1, 2 für m = 2. In der ersten Zeile stehen die Koeﬃzienten u1k für k = 1, 2. Mit 95 Prozent wird demgemäß Objekt 1 der Klasse 1 und mit 5 Prozent der zweiten Klasse zugerechnet. Über alle Objekte hinweg sind diese Koeﬃzienten bei jeder Klasse entweder nahe der Eins oder nahe der Null. Dies bedeutet, daß alle Objekte ziemlich zweifelsfrei den Klassen zugeordnet werden konnten. > outputfanny3 Fuzzy Clustering object of class ’fanny’ : m.ship.expon. 2 objective 0.6978562 tolerance 1e-15 iterations 16 converged 1 maxit 500 n 10 Membership coefficients (in %, rounded): [,1] [,2] [1,] 95 5 [2,] 13 87 [3,] 8 92 [4,] 72 28 [5,] 94 6 [6,] 28 72 [7,] 5 95 [8,] 8 92 [9,] 6 94 [10,] 13 87 ... (wird unten fortgesetzt)

11.4.3

Partition und Überdeckung

Werden viele Klassen m gebildet, so geht leicht die Übersichtlichkeit verloren. Außerdem wäre es interessant, die Ergebnisse von FANNY mit denen von PAM bei Einspeisung derselben Distanzmatrix und derselben Klassenanzahl miteinander zu vergleichen. Aus diesen Gründen stellt sich die Frage, wie eine Partitionierung auf der Grundlage der Mitgliedschaftskoeﬃzienten aussieht. Genau dies wird standardmäßig in FANNY gemacht. Jedes Objekt wird jener Klasse zugeordnet, bei der ihr Mitgliedskoeﬃzient den höchsten Wert aufweist. Eine solche Partitionierung wird unter der Überschrift ’hard clustering’, (=kompromißlose Partitionierung) ausgewiesen. Aufgrund der Ergebnisse von FANNY ist es zudem möglich, Überdeckungen

11.4. FANNY

233

zu konstruieren, auch wenn diese Möglichkeit nicht in FANNY implementiert ist. Die Aufgabe läßt sich in folgenden Schritten bearbeiten. 1. Bestimme für jedes Objekt den maximalen Mitgliedschaftskoeﬃzienten. 2. Berechne aus dieser Menge der maximalen Mitgliedschaftskoeﬃzienten den minimalen Wert, bezeichnet als ’MinMax. 3. Sollen Objekte mit geringeren Mitgliedschaftskoeﬃzienten als MinMax überhaupt zu anderen Gruppen zugeordnet werden? Wenn nein, so existiert keine Überdeckung, es kann allenfalls die beste Partition gebildet werden. 4. Falls ja, so gebe den Wert (= Vorgabe) an, der von dem Mitgliedschaftskoeﬃzienten uiz für z ∈ {1, . . . , m}, z = k, überschritten werden muß, um Objekt i zusätzlich der Gruppe k zuzuordnen. 5. Bestimme die Matrix, aus der die Zuordnung der Objekte zu (mehreren) Objekten hervorgeht. 6. Überdeckungen dürfen jedoch nicht so gebildet werden, daß eine Gruppe eine echte Teilmenge einer anderen wird. Um dies auszuschließen, muß es in jeder Gruppe Objekte geben, die nur dieser Gruppe zugeordnet sind. Überprüfe dies.

11.4.4

Beispiel 2

Unten ist die Fortsetzung des vorangegangenen Outputs widergegeben. In der fünften Zeile ﬁndet sich die Partitionierung mit FANNY. Es zeigt sich, daß sie zu demselben Ergebnis wie PAM führt. Die ’Fuzzyness coeﬃcients’ werden in Abschnitt 11.4.5 erläutert. ... (Fortsetzung von oben) Fuzzyness coefficients: dunn_coeff normalized 0.8056881 0.6113761 Closest hard clustering: [1] 1 2 2 1 1 2 2 2 2 2 Available components: [1] "membership" "coeff" "memb.exp" "clustering" "k.crisp" [6] "objective" "convergence" "diss" "call" "silinfo" Das Beispiel wird fortgeführt, um eine Überdeckung zu bilden. Um ’MinMax’ zu bilden, wird die Matrix ’a’ erstellt. Sie ist eine (n × m)-Matrix, wobei n die Anzahl der Objekte und m die Anzahl der Gruppen angibt.

234

KAPITEL 11. CLUSTERANALYSE

> a <- matrix(c(seq(1,length=20,by=0)),ncol=2) > a [,1] [,2] [1,] 1 1 [2,] 1 1 [3,] 1 1 [4,] 1 1 [5,] 1 1 [6,] 1 1 [7,] 1 1 [8,] 1 1 [9,] 1 1 [10,] 1 1 Der nächste Befehl dient zur Bestimmung von ’MinMax’. Er besteht aus zwei Schleifen mit einer if-Anweisung. Dies dient dazu, die maximalen Mitgliedschaftskoeﬃzienten in die Matrix ’a’ einzulesen. > for (j in 1:2) {for (i in 1:10) {if (outputfanny3$membership[i,j] == max(outputfanny3$membership[i,])) (a[i,j] <- max(outputfanny3$membership[i,j]))}} > a [,1] [,2] [1,] 0.9532596 1.0000000 [2,] 1.0000000 0.8724454 [3,] 1.0000000 0.9249371 [4,] 0.7225815 1.0000000 [5,] 0.9399924 1.0000000 [6,] 1.0000000 0.7210560 [7,] 1.0000000 0.9490883 [8,] 1.0000000 0.9162222 [9,] 1.0000000 0.9445081 [10,] 1.0000000 0.8730935 > MinMax <- min(a) > MinMax [1] 0.721056 Es wird die Vorgabe = 0.1 gemacht, d.h. daß immer dann, wenn ein Mitgliedschaftskoeﬃzient größer als dieser Wert ist, zusätzlich der betreﬀenden Klasse zugeordnet werden soll. Im Zwischenschritt wird die Matrix ’b’ gebildet, die dieselbe Dimension wie ’a’ hat und durch den nachfolgenden Befehl geändert wird. Es handelt sich wiederum um zwei Schleifen mit einer if-Anweisung, was dazu führt, daß alle Mitgliedschaftskoeﬃzienten in Matrix ’a’ eingelesen werden, wenn die Vorgabe überschritten wird. # Gebe einen minimalen Mitgliedschaftskoeffizienten an.

11.4. FANNY

235

> Vorgabe <- 0.1 > b <- matrix(c(seq(0,length=20,by=0)),ncol=2) > b [,1] [,2] [1,] 0 0 [2,] 0 0 [3,] 0 0 [4,] 0 0 [5,] 0 0 [6,] 0 0 [7,] 0 0 [8,] 0 0 [9,] 0 0 [10,] 0 0 > for (j in 1:2) {for (i in 1:10) {if (outputfanny3$membership[i,j] > Vorgabe) (b[i,j] <- outputfanny3$membership[i,j])}} > b [,1] [,2] [1,] 0.9532596 0.0000000 [2,] 0.1275546 0.8724454 [3,] 0.0000000 0.9249371 [4,] 0.7225815 0.2774185 [5,] 0.9399924 0.0000000 [6,] 0.2789440 0.7210560 [7,] 0.0000000 0.9490883 [8,] 0.0000000 0.9162222 [9,] 0.0000000 0.9445081 [10,] 0.1269065 0.8730935 Schließlich wird die Matrix erstellt, anhand derer abgelesen werden kann, ob ein Objekt nur einer oder mehreren Gruppen zugeordnet wird. Eine ’1’ bedeutet, daß das Objekt der Gruppe zugeordnet wird, eine ’0’ das Gegenteil. Stehen in einer Zeile zwei Einsen, so wird das Objekt beiden Gruppen zugeordnet. > for (j in 1:2){for (i in 1:10){if (b[i,j] > 0)(b[i,j] <- 1)}} > b [,1] [,2] [1,] 1 0 [2,] 1 1 [3,] 0 1 [4,] 1 1 [5,] 1 0 [6,] 1 1 [7,] 0 1 [8,] 0 1 [9,] 0 1

KAPITEL 11. CLUSTERANALYSE

236 [10,]

1

1

Zum Schluß ist zu prüfen, ob jede Gruppe mindestens ein Objekt enthält, das nur diesem Cluster zugeordnet ist. Dies ist der Fall, wenn im Falle zweier Gruppen obige Matrix mindestens ein (0, 1)t - und ein (1, 0)t -Element enthält. Zur Überprüfung, daß keine Gruppe durch die Zuordnung von Objekten zu mehreren Gruppen eine echte Teilmenge einer anderen wird, dienen die nachfolgenden Befehle. Da es in jeder Gruppe Elemente gibt, die nur dieser zugeordnet sind, wurde eine Überdeckung gefunden. > ii <- order(b[,1],b[,2]) > t(rbind(b[,1],b[,2])[,ii]) [,1] [,2] [1,] 0 1 [2,] 0 1 [3,] 0 1 [4,] 0 1 [5,] 1 0 [6,] 1 0 [7,] 1 1 [8,] 1 1 [9,] 1 1 [10,] 1 1 Erhielte man aber folgende Matrix, so wäre Gruppe 1 eine echte Teilmenge von Gruppe 2 und die Deﬁnition der Überdeckung wäre verletzt.

[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]

[,1] [,2] 0 1 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1

11.4.5

Überprüfung der Klassenbildung und Klassenanzahl

Die Silhouette ist kein Speziﬁkum von PAM, denn sie setzt kein bestimmtes Verfahren zur Bestimmung von Partititionen voraus. Aus diesem Grund kann es ebenso bei FANNY verwendet werden. Will man über FANNY die Klassenanzahl bestimmen, so geht man wie in Abschnitt 11.3.9 vor.

11.5. MONA

237

FANNY unterscheidet sich von PAM allerdings dadurch, daß die Mitgliedschaftskoeﬃzienten eines Objektes die Stärke seiner Klassenzugehörigkeit widerspiegelt. Bildet man auf Basis von Mitgliedschaftskoeﬃzienten eine kompromißlose Partition, so können die Mitgliedschaftskoeﬃzienten als Grundlage dienen, um ein Maß für diese kompromißlose Zuordnung zu kreieren. Entweder nutzt man nur jene Koeﬃzienten, die zur Bildung der Partition genutzt wurde, d.h. max uik , k

oder man nutzt alle. Bei Dunns Partitions-Koeﬃzient gehen alle Mitgliedschaftskoeﬃzienten in die Berechnung ein. m n u2ik Fm = . (11.22) n i=1 k=1

Sein maximaler Wert ist gleich ’1’, denn dann werden alle Objekte jeweils eindeutig einer und nur einer Klasse zugeordnet; alle Mitgliedschaftskoeﬃzienten sind entweder Eins oder Null. Sind dagegen alle Mitgliedschaftskoeﬃzienten gleich 1/m, dann besteht kein Grund, ein Objekt einer bestimmten Klasse zuzuordnen. Die Gruppenbildung ist völlig unscharf (= fuzzy) und der Partitions-Koeﬃzient nimmt seinen niedrigsten Wert an. Angesichts dessen wird der Partitionskoeﬃzient über Fm − (1/m) mFm − 1 = (11.23) F˜m = 1 − (1/m) m−1 auf den Bereich [0, 1] normiert und wir nennen F˜m den normierten PartitionsKoefﬁzienten. Er wird standardmäßig ausgegeben.

11.4.6

Beispiel 3

Der Befehl > plot(outputfanny3) erstellt die Silhouette. Der einzige Unterschied zu der bei PAM ist, daß der ausgewiesene Titel nicht auf PAM sondern FANNY verweist. Die Interpretation ist ganz analog wie in Abschnitt 11.3.7 (siehe Seite 226). In Beispiel 11.4.4 auf Seite 233 wird der Partitions-Koeﬃzient Fm und sein normierter Wert F˜m ausgewiesen. Er ist integraler Bestandteil der Ergebnisanzeige von FANNY.

11.5

MONA

11.5.1

Grundlagen

In diesem Abschnitt wird beschrieben, wie auf der Grundlage einer Datenmatrix mit ausschließlich binären Merkmalen eine Klassiﬁzierung mit dem Programm ’MONA’ vorgenommen wird. ’1’ bedeutet, die Ausprägung ist existent

KAPITEL 11. CLUSTERANALYSE

238 Objekt 1 2 3 4 5 6

Variable 1 1 1 1 0 0 0

Variable 2 0 0 0 1 1 1

Variable 3 1 1 0 0 1 1

Variable 4 1 0 1 0 1 0

Tabelle 11.2: Binäre Datenmatrix Quelle: Daten frei erfunden und ’0’, sie ist nicht vorhanden. Die Herleitung einer Distanzmatrix, wie in Kapitel 10.6 beschrieben, ist nicht erforderlich. Damit entfällt auch die Unterscheidung in symmetrische und asymmetrische binäre Merkmale. Alle Objekte werden, Schritt für Schritt, in Klassen eingeteilt. Zur Illustration dient Datenmatrix 11.2. Jede Zeile repräsentiert ein Objekt, in den Spalten zwei bis fünf stehen die vier Merkmale, mit Hilfe derer die sechs Objekte in Klassen eingeteilt werden sollen. Mitnichten müssen alle vier Variablen zur Klassiﬁkation herangezogen werden. Zur Veranschaulichung des Verfahrens, werden lediglich die beiden letzten, die Variablen drei und vier, verwendet. Die Klasseneinteilung erfolgt in zwei Schritten. Zunächst werden alle sechs Objekte gemäß Variable 3 in zwei Gruppen eingeteilt, also 1,2,5,6 werden der einen und die beiden anderen der zweiten Klasse zugeordnet. Anschließend wird Variable 4 genutzt und die Objekte in beiden Klassen gemäß Variable vier in Gruppen eingeteilt. Eine solche Aufteilung aller Objekte in Gruppen, wobei bei jedem Schritt aus einer größeren mehrere kleinere (hier allerdings nur zwei) gebildet werden, heißt diversive Klassenbildung. Bei jedem Schritt ergeben sich zusätzliche Klassen. Sollte jedoch eine weitere Klassenbildung nicht möglich sein, so bricht das Verfahren ab. Dies ist dann der Fall, wenn einelementige Gruppen gebildet wurden oder wenn alle Objekte derselben Gruppe hinsichtlich aller Variablen, die zur Klassenbildung herangezogen wurden, dieselben Ausprägungen haben. Die so erzielte Gruppeneinteilung nennt man Hierarchie.

11.5.2

Beispiel 1

Die Daten sind in der Datei Daten-Mona.Rdata hinterlegt und können mit ’x’ angesprochen werden. Es sollen nur die Variablen drei und vier zur Klassiﬁkation genutzt werden. Aus diesem Grund werden die Daten ’x1’ gebildet, wobei die Spalten mit “3” bzw. “4” beschriftet werden. Das Ergebnis der Klassiﬁkation wird der Variablen ’output1’ zugeordnet. > x1 <- matrix(x[,3:4],ncol=2,dimnames=

11.5. MONA

239

list(c(1,2,3,4,5,6),c("3","4"))) > x1 3 4 1 1 1 2 1 0 3 0 1 4 0 0 5 1 1 6 1 0 > output1 <- mona(x1) Nach der Zeile beschriftet mit ’seperation step’ ﬁnden sich die drei Schritte (0, 1 und 2); direkt oberhalb sind die Variablen angezeigt, die bei der Klassenbildung verwendet wurden. In Schritt ’0’ wird keine Variable, im ersten Variable ’3’ und im letzten bei beiden Klassen die Variable ’4’ verwendet. Werden mehr als zwei Variablen zur Klassenbildung herangezogen, so kann es im zweiten Schritt vorkommen, daß verschiedene Variablen genutzt werden, um die jeweilige Klasse in Unterklassen einzuteilen.

> output1 ... Order of objects: [1] 1 5 2 6 3 4 Variable used: [1] NULL 4 NULL 3 Separation step: [1] 0 2 0 1

4 2

Available components: [1] "data" "order""variable" "step" "call" "order.lab" > plot(output1) Der Befehl ’plot’ dient der graphischen Veranschaulichung der Klassiﬁzierung. Sein Ergebnis ist in Abbildung 11.4 dargestellt. An der Abszisse sind die Schritte, von ’0’ bis zum höchsten, hier ’3’, abgetragen. An der Ordinate ﬁndet sich die Reihung der Objekte, wie sie oben unter ’Order of objects’ bereits ausgewiesen wurde. Oberhalb des ersten Schrittes ist die Zahl ’3’ abgetragen; das will heißen, daß diese Variable zur Aufsplittung aller Objekte in zwei Gruppen verwendet wurde. ’1,5,2,6’ werden der einen und ’3,4’ der anderen Gruppe zugeordnet. Im zweiten Schritt dient in beiden Fällen Variable ’4’ der Aufspaltung jeder dieser beiden Gruppen in Untergruppen. Die obere Gruppe ’1,5,2,6’ wird aufgespalten in ’1,5’ und ’2,6. Damit wird auch deutlich, wie die Reihung in Schritt ’0’ zustande kommt. Die untere Gruppe aus Schritt 1 wird aufgesplittet in zwei jeweils einelementige Gruppen ’3’ und ’4’.

KAPITEL 11. CLUSTERANALYSE

240

Banner of mona(x = x1) 1

5 4 2

6 3 3 4 4 0

1

2

3

Separation step

Abbildung 11.4: Clusterbildung mit MONA Quelle: eigene Darstellung

11.5.3

Assoziationsmaß

Wird jedoch zuerst Variable vier zur Klasseneinteilung genutzt, so werden im ersten Schritt die Objekte ’1,3,5’ in eine und ’2,4,6’ in die andere Klasse eingeteilt. Im zweiten Schritt werden aus der Klasse ’1,3,5’ die Objekte ’1,5’ zu einer Klasse und ’3’ zur einelementigen Klasse zusammengefaßt. Die Klasse ’2,4,6’ aus Schritt eins wird aufgesplittet in ’2,6’ und ’4’. Die Klassenbildung nach Schritt zwei führt wohl zu demselben Ergebnis wie im vorangegangenen Beispiel, doch die zwei Klassen, gebildet nach Schritt eins, sind verschieden. Oﬀensichtlich hat die Wahl des Merkmals, das im ersten Schritt und bei mehr als zwei Variablen auch in den nachfolgenden Schritten zur Klassenbildung herangezogen wird, einen Einﬂuß auf die Hierarchiebildung. Soll eine automatische Klassiﬁzierung erfolgen, so ist es aus diesem Grund notwendig, bei jedem Schritt festzulegen, welche Variable zur Klassenbildung genutzt werden soll. Dem in MONA implementierten Algorithmus liegt die Entscheidung zu Grunde, daß jene Variable gewählt werden sollte, die, verglichen mit allen anderen, möglichst ’zentral’ liegt. Damit bleibt zu entscheiden, wie die ’Zentralität’ deﬁniert werden soll. Hierzu gibt es mehrere Möglichkeiten, die hier nicht diskutiert werden sollen (siehe hierzu (Kaufmann und Rousseeuw, 1990, Kapitel 7.5). In MONA wird jene Variable gewählt, bei der die Summe der Ähnlichkeiten zu allen anderen Variablen am größten ist.

11.5. MONA

241

Damit verbleibt die Notwendigkeit zur Deﬁnition von Ähnlichkeit. Die größte Ähnlichkeit ergibt sich, wenn in einer Datenmatrix zwei Variablen exakt dieselbe Ausprägung haben. Hierdurch ist das eine Extrem von Ähnlichkeit gegeben. Weist eine Variable immer dann ’1’ auf, wenn die andere ’0’ hat und umgekehrt, so sind sich diese auch in höchstem Maße ähnlich: allerdings in umgekehrter Richtung. Dies ist das andere Extrem. Unähnlichkeit könnte man dann als einen Zustand zwischen diesen beiden Extremen liegend deﬁnieren. Gibt es bei dem Vergleich der Ausprägungen zweier Variablen genau so viele exakte Übereinstimmungen wie Nicht-Übereinstimmungen, so wären sie in höchstem Maße verschieden. In MONA wird zur Bewertung der Ähnlichkeit zweier Variablen bei gegebener Datenmatrix folgendes Assoziationsmaß verwendet: Man multipliziert die Anzahl der Fälle, in denen beide Variablen Einsen aufweisen mit der Anzahl an Fällen, in denen beide die Ausprägung Null haben und subtrahiert hiervon die Anzahl an Fällen, bei denen (1, 0) auftaucht, mit denen, bei denen (0, 1) vorhanden ist. Dieses Maß kann positiv oder negativ sein. Auf die so gebildete Differenz wird der Betrag angewendet und als Assoziationsmaß bezeichnet. Erhält man als Assoziationsmaß eine Null, so hat man zwei Variablen mit größtmöglicher Unähnlichkeit; ist einer der beiden Summanden des Assoziationsmaßes gleich Null, so ist die größtmögliche Ähnlichkeit gegeben. Jene Variable wird im nächsten Schritt zur Klassiﬁzierung verwendet, deren Summe aller Assoziationsmaße über alle anderen, bisher nicht benutzten Variablen im Vergleich zu der gleichen Summe anderer Variablen am größten ist. Das nachfolgende Beispiel verdeutlicht das Vorgehen.

11.5.4

Beispiel 2

Das Beispiel von Seite 238 wird fortgeführt. Im ersten Schritt werden die Anzahl an Ausprägungen (1, 1), (0, 0), (1, 0) und (0, 1) ermittelt. Diese Aufgabe kann erledigt werden, indem die Kontingenztabelle berechnet wird, die hier mit ’K1’ bezeichnet ist. Das Assoziationsmaß zwischen den Variablen ’3’ und ’4’ ist gleich dem Produkt der Anzahl von (0, 0)-Ausprägungen mit der Anzahl an (1, 1)Ausprägungen, also 1 · 2 minus dem Produkt der zwei verbleibenden Variablen, also 2 ·1. Dies entspricht bei einer 2× 2-Matrix gerade der Determinante. Zudem ist zu berücksichtigen, daß der Betrag auf das Assoziationsmaß anzuwenden ist, weshalb unten der Befehl ’abs’ auf die Determinante angewendet wird. Anders gewendet: Mit ’det’ wird die Determinante errechnet und mit ’abs’ wird die Determinante zum Betrag genommen. Beide Variablen sind also in höchstem Maße unähnlich. > K1 <- table(x1[,1],x1[,2]) > K1 0 1 0 1 1 1 2 2

242

KAPITEL 11. CLUSTERANALYSE

> Asso <- abs(det(matrix(K1,ncol=2))) > Asso [1] 0 Werden anstatt dessen die Variablen ’1’ und ’2’ betrachtet, so zeigt sich, daß sie gerade gegenläuﬁge Ausprägungen aufweisen. Folglich müßte das Assoziationsmaß innerhalb des Betragszeichens einen hohen negativen Wert aufweisen. Dies ist in der Tat auch der Fall (−9). Diese Situation kann auch folgendermaßen interpretiert werden: die größte Ähnlichkeit ist gegeben, wenn eine Variable im Vergleich zu einer anderen keinen zusätzlichen Informationsgewinn erbringt. > K12 <- table(x[,1],x[,2]) > K12 0 1 0 0 3 1 3 0 > Asso12 <- abs(det(matrix(K12,ncol=2))) > Asso12 [1] 9 Mit Hilfe der Variablen 1, 2, 3 soll nun eine Klassiﬁzierung der sechs Objekte erfolgen. Hierzu ist zu bestimmen, welches Merkmal im ersten Schritt zur Gruppenbildung benutzt werden sollte. Hierzu sind die Assoziationsmaße zwischen allen Variablen zu bestimmen. > K12 <- table(x[,1],x[,2]) > Asso12 <- abs(det(matrix(K12,ncol=2))) > Asso12 [1] 9 > > K13 <- table(x[,1],x[,3]) > Asso13 <- abs(det(matrix(K13,ncol=2))) > Asso13 [1] 0 > K23 <- table(x[,2],x[,3]) > Asso23 <- abs(det(matrix(K23,ncol=2))) > Asso23 [1] 0 Die Summe der Assoziationsmaße der Variablen ’1’ zu allen anderen (nicht genutzten) ist gleich ’Asso12’ + ’Asso13’ = 9; die der Variablen ’2’ ist gleich: ’Asso12’+ ’Asso23’ = 9. Die Summe aller Assoziationen der dritten Variablen ist ’Asso13’ + ’Asso23’ = 0. Damit kommt Variable ’3’ nicht in Frage, um im ersten Schritt eine Klassenbildung zu bestimmen. Die Summen der beiden anderen Variablen weisen dieselbe Höhe auf; in MONA wird dann jene Variable

11.5. MONA

243

gewählt, die in der Datenmatrix am weitesten links steht; hier also Variable ’1’. Aus diesem Grund ist die Klassiﬁzierung nicht völlig frei von Willkür. Positiv gewendet: Der Nutzer hat durch die Anordnung der Variablen in der Datenmatrix einen Einﬂuß auf die Klassiﬁkation. Deshalb sollte man die Variablen gemäß der Wichtigkeit ordnen: links beginne man mit den wichtigsten und endet rechts mit der Variablen mit geringster Bedeutung. Bei der Berechnung des Assoziationsmaßes kommt es nicht darauf an, in welcher Reihenfolge die Variablen auftreten. Werden die beiden ersten Spalten der Matrix ’x’ vertauscht, so werden lediglich zwei Variablen vertauscht (siehe die markierten Eintragungen). Aus diesem Grund genügt es, bei drei Variablen die Assoziationsmaße ’Asso12’, ’Asso13’ und ’Asso23’ zu ermitteln. > K31 <- table(x[,3],x[,1]) Asso31 <- abs(det(matrix(K31,ncol=2))) Asso31 K31 <- table(x[,3],x[,1]) > Asso31 <- abs(det(matrix(K31,ncol=2))) > Asso31 [1] 0 > K31 0 1 0 1 (1 Tausch) 1(2 Tausch) 2 > K13 0 1 0 1 (2 Tausch) 1(1 Tausch) 2 Als Ergebnis der Klassiﬁzierung mit den ersten drei Variablen ergibt sich der unten dargestellte Output. In der Tat wird Variable ’1’ im ersten Schritt zur Gruppenbildung verwendet. > x3<- (matrix(x[1:3],ncol=3)) > output3 <- mona(x[,1:3]) > output3 Revised data: [,1] [,2] [,3] [1,] 1 0 1 [2,] 1 0 1 [3,] 1 0 0 [4,] 0 1 0 [5,] 0 1 1 [6,] 0 1 1 Order of objects: [1] 1 2 3 4 5 6

KAPITEL 11. CLUSTERANALYSE

244 Variable used: [1] 0 3 1 3 0 Separation step: [1] 0 2 1 2 0

Available components: [1] "data" "order" "variable" "step" "call" Das Verfahren läßt sich folgendermaßen zusammenfassen: Die ersten beiden Klassen werden an Hand der repräsentativsten Variable vorgenommen. In nachfolgenden Schritten spielt diese Variable keine Rolle mehr. Im zweiten Schritt wird aus den verbleibenden Merkmalen die repräsentativste für jede vorhandene Klasse herausgesucht und man bildet die nächsten Klassen. Die nachfolgenden Schritte erfolgen analog. Im Endeﬀekt erhält man Cluster, wobei man bei jedem Schritt genau angeben kann, welche Variable zur Klassenbildung herangezogen wurde. Da bei diesem Verfahren bei jeder Klassenbildung immer nur eine Variable genutzt wird, wird es mit dem Begriﬀ monothetisch charakterisiert. Das Gegenteil zu monothetisch ist polythetisch. Wird beispielsweise DIANA angewandt, so werden ebenfalls Hierarchien diversiv (= aufteilend) erzeugt oder bei PAM werden Partitionen bestimmt, aber dies sind polythetische Methoden. Hierbei wird im l-dimensionalen Raum, wobei l die Anzahl der unterschiedlichen Variablen ist, eine Struktur gesucht. Bei dem monothetischen Verfahren MONA wird dagegen entlang der Achsen nach Strukturen gesucht.

11.5.5

Missings

Der implementierte Algorithmus akzeptiert keine Missings. In der praktischen Arbeit werden jedoch manche Werte fehlen. In diesem Fall kann der Anwender all jene Objekte entfernen, in denen Missings enthalten sind. Alternativ hierzu kann der in MONA implementierte Korrekturmechanismus genutzt werden. Zumindest eine Variable darf keine Missings enthalten, ansonsten wird sowieso eine Fehlermeldung ausgegeben und die Berechnung wird abgebrochen. Im Falle fehlender Werte bei Merkmal f , wird wie folgt vorgegangen. Das Programm sucht automatisch nach den vollständigen Variablen, die gegenüber f das höchste Assoziationsmaß aufweist, diese sei g. Ist die Assoziation positiv (also der Wert innerhalb der Betragszeichen ist positiv), so werden alle fehlenden Werte in f durch die entsprechenden Werte in g ersetzt. Sollte die Assoziation negativ sein (= Wert zwischen den Betragszeichen des Assoziationsmaßes), so werden die entsprechenden Werte in f bei jeder Beobachtung durch 1−g ersetzt. Sollte es mehrere Variablen gegenüber f gegeben, die das höchste Assoziationsmaß aufweisen, so wird die erste Variable in der Datenmatrix gewählt.

11.5.6

Beispiel 3

Das Beispiel von Seite 238 wird fortgeführt. Es werden nur die ersten drei Variablen zu Klassiﬁkationszwecken verwendet. Allerdings wurde im Vergleich zu

11.6. ABSCHLIEENDE BEMERKUNGEN

245

11.2 ein Missing eingefügt: > x3 [1,] [2,] [3,] [4,] [5,] [6,]

col1 col2 col3 1 0 1 1 NA 1 1 0 0 0 1 1 0 1 1 0 1 1.

Die erste und die letzte Spalte hat jeweils keine Missings. Das Assoziationsmaß zwischen Spalte 1 und 2 ist gleich | − 6|, das zwischen der zweiten und dritten gleich |3|. Aus diesem Grund ersetzt MONA den fehlenden Wert in Spalte zwei mit 1 − 1 = 0. Vergleicht man dieses Ergebnis mit den ursprünglichen Werten, so zeigt sich hier, daß die ursprüngliche Datenmatrix korrekt erzeugt wurde. > mona(x3) Revised data: col1 col2 col3 [1,] 1 0 1 [2,] 1 0 1 [3,] 1 0 0 [4,] 0 1 1 [5,] 0 1 1 [6,] 0 1 1 ...

11.6

Abschließende Bemerkungen

In diesem Kapitel wurde lediglich eine Auswahl an Verfahren der automatischen Klassiﬁzierung präsentiert, doch sollte es nach Durcharbeiten des Kapitels möglich sein, sich das Wissen um weitere Verfahren anzueignen. Im Programmpaket ’cluster’ ﬁnden sich weitere, ja es gibt eine Vielzahl zusätzlicher Pakete, in denen andere Verfahren zur Verfügung gestellt werden. Sie können über die Homepage ausﬁndig gemacht werden. Der Autor beschäftigte sich im Studium zu einer Zeit mit numerischer Taxonomie, als der Einsatz des PC zu diesen Zwecken noch in den Kinderschuhen steckte. Theoretische Zusammenhänge und Verfahren statt Anwendung stand im Vordergrund. Dies erscheint aus heutiger Sicht bedauerlich. War es früher schwierig, überhaupt ein Ergebnis zu produzieren, so entsteht heute das Problem, aus der Vielzahl an Möglichkeiten, das geeignete auszuwählen. Dies beginnt bei der Clusteranalyse mit der Wahl der geeigneten Distanzmaße. Wir konzentrierten uns auf die Manhattan-Distanz, doch es gibt weitere, beispielsweise die euklidische Distanz, die Mahalanobisdistanz oder der tschebischeﬀsche Abstand. Der Leser ist aufgefordert, sich über Alternativen schlau zu machen.

KAPITEL 11. CLUSTERANALYSE

246

Angesichts der leichten Anwendbarkeit der Methoden ist heute die Versuchung groß, Verfahren ohne ihre hinreichende Kenntnis zu nutzen. Irgendwelche Ergebnisse lassen sich leicht produzieren, die bei näherem Hinsehen unter Berücksichtigung sachlogischer Zusammenhänge fragwürdig werden. Deshalb ist bei der Anwendung statistischer Verfahren der Bezug zur wissenschaftlichen Disziplin so wichtig.

11.7

Kontrollfragen

1. Ist es zur Anwendung der Clusteranalyse unbedingt erforderlich, daß innerhalb der Grundgesamtheit tatsächlich eine vorab vorhandene Gruppierung existiert? 2. Erläutern Sie folgende Begriﬀe: (a) Partition, (b) Überdeckung, (c) Hierarchie sowie (d) Quasihierarchie. 3. (a) Welche Konstruktionsverfahren kennen Sie? (b) Verlangen Hierarchien bestimmte Konstruktionsverfahren? 4. (a) Was ist ein Medoid, was ein repräsentatives Objekt? (b) Welches Gütekriterium wird bei PAM, welches bei FANNY benutzt? 5. Ist es zur Nutzung von PAM unabdingbar, zuvor eine Distanzmatrix zu erzeugen? Begründen Sie Ihre Meinung. 6. In PAM beispielsweise gibt es eine Befehlsoption ’metric’. Was ist das? 7. Beschreiben Sie mit Ihren Worten, was in PAM in der Build- und was in der SWAP-Phase gemacht wird. 8. Beschreiben Sie mit Ihren Worten, was man unter einem isolierten Cluster versteht. 9. Was ist ein Diameter, was ein Seperator? 10. (a) Was ist die Silhouettenweite? (b) Wie kann die Silhouettenweite graphisch für jedes Objekt veranschaulicht werden? (c) Was ist die Silhouettenweite eines Clusters? (d) Was versteht man unter der durchschnittlichen Silhouettenweite? (e) Zu welchem wichtigen Zweck kann die durchschnittliche Silhouettenweite genutzt werden?

11.8. AUFGABEN

247

(f) Die Silhouettenweite eines Objektes ist negativ. Was schließen Sie hieraus? (g) In welchem Bereich kann die Silhouettenweite nur zu liegen kommen? 11. Beschreiben Sie, wie Sie eine Überdeckung ermitteln können. 12. In FANNY gibt es die Option ’memb.exp’. (a) Was ist das? (b) Welchem Zweck dient sie? 13. Wozu dient Dunns Paritions-Koeﬃzient? 14. (a) Was versteht man unter einer monothetischen Klassenbildung? (b) Mit welchem Verfahren wird eine solche vorgenommen? 15. (a) Wie wird in MONA die Ähnlichkeit zweier Merkmale bestimmt? (b) Wie wird in MONA entschieden, welche Variable im nächsten Schritt zur Klassenbildung herangezogen wird?

11.8

Aufgaben

1. Handelt es sich bei folgender Aufteilung der Objekte auf drei Klassen um eine Überdeckung? Begründen Sie Ihre Antwort.125 Objekt 1 2 3 4 5 6 7 8 9 10

1 1 1 1 0 0 0 1 1 1 1

Klasse 2 3 0 0 0 0 0 0 1 0 1 0 0 1 1 0 1 1 1 1 1 1

2. Wie gelangt man zur Festlegung der Klassenanzahl?126 3. Zehn Objekte sollen mit Hilfe von drei Merkmalen in drei Klassen eingeteilt werden. Wieviele Distanzmaße müssen berechnet werden?127 4. In der Datei Daten-Cluster-1.Rdata

248

KAPITEL 11. CLUSTERANALYSE ﬁnden sich Kundendaten. In jeder Zeile sind die Ausprägungen eines Kunden über alle Merkmale hinweg angegeben. In der ersten Spalte steht die Kontakthäuﬁgkeit des Kunden pro Monat, in der zweiten die durchschnittliche Zeit in Minuten, die der Kunde pro Monat für Beratung in Anspruch genommen hat und in der letzten ist der jeweilige monatliche Umsatz der Kunden abgetragen. Es besteht der Verdacht, daß mit einem kleinen Anteil der Kunden der größte Teil des Umsatzes generiert wird. Andererseits wird vermutet, daß ebenfalls ein kleiner Teil der Kunden einen Großteil der Beratungszeit in Anspruch nimmt. (a) Bestimmen Sie die durchschnittliche Beratungszeit jedes Kunden.128 (b) Berechnen Sie die durchschnittliche Beratungszeit über alle Kunden hinweg.129 (c) Welches Skalenniveau hat die durchschnittliche Beratungszeit pro Kunde, welches der Umsatz?130 (d) Der Marketingleiter beauftragt Sie, zwei oder drei Klassen zu bilden, um den Kunden, die für die Firma besonders proﬁtabel sind, eine Kundenkarte auszuhändigen. Personen mit Kundenkarte sollten dann bevorzugt und alle anderen mit deutlich geringerem Aufwand bedient werden. Stellen Sie mindestens zwei Möglichkeiten dar, mit Hilfe derer eine Klassiﬁzierung vorgenommen werden könnte.131 (e) Gehen Sie von kalkulatorischen Beratungskosten in Höhe von 40 Cent aus. Berechnen Sie für jeden Kunden die kalkulatorischen Beratungskosten pro Monat und den Umsatz abzüglich kalkulatorischer Beratungskosten (=kalkulatorischer.Gewinn).132 (f) Bilden Sie aufgrund der ermittelten kalkulatorischen Gewinne eine Partition mit zwei und eine mit drei Clustern. Nutzen Sie die CityBlock-Metrik.133 (g) Welche Klassenanzahl schlagen Sie dem Marketingleiter vor?134

Kapitel 12

Einfache Regression 12.1

Einleitung

In Kapitel 5.2 wurde der Chi-Quadrat-Unabhängigkeitstest vorgestellt. Da wird getestet, ob aufgrund der Datenlage davon ausgegangen werden kann, ob zwei Variablen als stochastisch unabhängig angesehen werden können oder nicht. Eine Vertauschung der Nullhypothese mit der Gegenhypothese war nicht möglich. Denn unter Gültigkeit der neuen Nullhypothese, ’beide Variablen sind voneinander abhängig’, müßte eine Testgröße samt zugehöriger Wahrscheinlichkeitsverteilung bekannt sein, um einen Test durchführen zu können. Sie ist jedoch zu unspeziﬁsch, als daß dies gelänge. Wird bei dem Chi-Quadrat-Unabhängigkeitstest die Nullhypothese verworfen, so kann man die einfache Korrelationsanalyse verwenden. Mit ihr wird untersucht, ob lineare Zusammenhänge zwischen zwei Variablen existieren oder nicht. Ähnlich geht man bei der einfachen Regressionsanalyse vor. Der Unterschied zur Korrelationsanalyse ist, daß der funktionale Zusammenhang zwischen zwei Größen speziﬁziert wird. Hierdurch wird es möglich zu testen, ob die Parameter der Schätzgleichung von Null verschieden sind. Im nächsten Abschnitt wird das einfache klassische Regressionsmodell vorgestellt. Hier werden auch die Kleinst-Quadrat-Schätzer eingeführt. Bei dem einfachen klassischen Ansatz wird angenommen, daß die erklärenden Variablen exogen vorgegebene Größen sind. Diese Annahme, die für Ökonomen zu restriktiv ist, wird in Kapitel 12.6 aufgegeben und durch schwächere Annahmen ersetzt. In Kapitel 12.3 zeigt sich, daß die lineare Verknüpfung zwischen erklärter und erklärender Variable nicht so restriktiv ist, als man dies auf den ersten Blick vermuten könnte. Es folgt, wie man aufgrund einer Regression zu Punktprognosen kommen kann. Prognosen sind nur so gut, wie die zugrunde liegende Schätzgleichung. Aus diesem Grund wird das Bestimmtheitsmaß vorgestellt, mit dessen Hilfe man einen ersten Anhaltspunkt erhalten kann, wie verläßlich eine Schätzung ist. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_12, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

KAPITEL 12. EINFACHE REGRESSION

250

Das Bestimmtheitsmaß kann jedoch leicht in die Irre führen. Mit einfach durchführbare Simulationen zeigen, daß bei steigender Varianz der Residuen das Bestimmtheitsmaß recht klein werden kann. Dies kann das Ergebnis so stark verfälschen, daß man allein aufgrund des Bestimmtheitsmaßes keine Entscheidung über die Akzeptanz einer Schätzgleichung treﬀen sollte. Aus diesem Grund werden Tests vorgestellt, mit Hilfe derer insbesondere überprüft werden kann, ob die KQ-Schätzer signiﬁkant von Null verschieden sind. Beweise, die die Lesbarkeit des Textes eingeschränkt hätten, wurden in die Anhänge verbannt.

12.2

Einfaches klassisches Regressionsmodell

12.2.1

Grundlagen

Bei der einfachen Regression der Variablen Yt auf Xt , t = 1, 2, . . . , T wird davon ausgegangen, daß es einen linearen funktionalen Zusammenhang zwischen zwei kardinalen Merkmalen, Y und X, gibt: Yt = a + bXt + Ut mit t ∈ {1, 2, 3, . . . T }.

(12.1)

Yt sind die zu erklärenden Variablen, man nennt sie auch Regressanden, und Xt die erklärenden Variablen, auch Regressoren genannt. Bei dem einfachen klassischen Regressionsmodell wird davon ausgegangen, daß es sich um deterministische Variablen handelt, die beispielsweise in Laborversuchen durch die Versuchsanordnung festgelegt sind. a, b ∈ R sind die Parameter der Geradengleichung, die zu schätzen sind. Sie heißen auch Regressionskoeﬃzienten. Ut sind nicht beobachtbare Störterme, die die wahre, aber unbekannte Funktion überlagern. t ist ein Lauﬁndex zur Unterscheidung verschiedener Variablen. Man geht davon aus, daß es einen systematischen Zusammenhang zwischen Y und X gibt. Ein solcher wird kaum deterministisch sein, sondern von vielerlei Zufälligkeiten überlagert sein. Erfüllt die Störvariable Ut folgende Bedingungen 2 σ ˆX > 0,

(12.2)

E(Ut ) = 0 für alle t ∈ {1, . . . , T },

(12.3)

E(Ut2 )

(12.4)

=σ

2

für alle t ∈ {1, . . . , T }

und E(Ut Ut˜) = 0 für alle t, t˜ ∈ {1, . . . , T } mit t = t˜,

(12.5)

dann heißt das Gleichungssystem einfaches klassisches Regressionsmodell. Bedingung 12.2 bedeutet, daß die korrigierte Stichprobenvarianz der Regressoren, Xt , größer als Null ist. Denn ist die Varianz der abhängigen Variablen Yt von

12.2. EINFACHES KLASSISCHES REGRESSIONSMODELL

251

Null verschieden, aber die erklärenden Größen Xt wären alle identisch, so würden Unterschiede in den Yt einzig und allein durch den Störterm Ut “erklärt” und nicht durch die Variable Xt , von der man einen systematischen Einﬂuß auf Yt erwartet. Die Annahme 12.3 besagt, daß der Erwartungswert der Störvariablen gleich Null ist. Mit anderen Worten wird davon ausgegangen, daß dieser Einﬂuß zwar existiert, daß es aber keinen systematischen Einﬂuß auf die zu erklärende Größe gibt. Die Bedingung 12.4 bedeutet, daß die Varianzen für jedes t identisch gleich σ 2 sind. Da ja vorausgesetzt wird, daß Ut = 0 und die Varianz deﬁniert ist als E(Ut − E(Ut ))2 folgt, daß in diesem Fall σ2 = E(Ut )2 ist. Die letzte Voraussetzung 12.5 besagt, daß die Kovarianzen der Störterme Ut und Ut˜ mit t = t˜ gleich Null sind. Wir vereinbaren, Zufallsvariablen oder deterministische Variablen mit Großbuchstaben und ihre Realisierungen mit Kleinbuchstaben zu kennzeichnen. y1 , . . . , yT sind also Realisierungen der Zufallsvariablen Y1 , . . . , YT . Bei dem klassischen einfachen Regressionsmodell besteht die Aufgabe darin, die unbekannten wahren Parameter a und b der Regressionsgleichung 12.1 zu schätzen. Die Abstände ut = yt − a − bxt (12.6) zwischen den Beobachtungen (x, y) und der Geraden soll durch geeignete Bestimmung der Parameter a und b so gering wie möglich sein. Sie heißen Residuen. Würde man die Summe aller Abstände der Punkte (xt , yt ) zur Geraden als Kriterium zur Bestimmung der Parameter nehmen, so könnte man daran denken, jene zu nehmen, bei der die Summe gleich Null ist. Es ist jedoch im Falle von vier Beobachtungen leicht zu einzusehen, daß dieses Kriterium zu keiner eindeutigen Lösung führt. Zeichnen Sie in ein Diagramm vier Punkte, von denen je zwei denselben x-Wert besitzen und erläutern Sie warum.135 Man könnte auch daran denken, die Absolutwerte der Abweichungen der Beobachtungspunkte von der Geraden als Kriterium zu nehmen, um eine Gerade zu deﬁnieren. Man könnte dann jene Gerade wählen, bei der dieses Kriterium minimal wird. Doch auch mit diesem Kriterium ﬁndet man keine eindeutige Lösung. Weshalb nicht?136 Quadriert man die Abweichungen und sucht jene Parameterwerte, a und b, die deren Summe minimiert, so erhält man eine eindeutige Lösung (siehe Schneeweiß (1978), Kapitel 1.2). Damit ergibt sich folgendes Minimierungsproblem: min a,b

T

(yt − a − bxt )2 .

(12.7)

t=1

Die partielle Ableitung nach a bzw. b führt zu den Normalgleichungen T t=1

yt = T · a ˆ + ˆb

T t=1

xt

(12.8)

KAPITEL 12. EINFACHE REGRESSION

252 und

T

xt · yt = a ˆ

t=1

T

xt + ˆb

t=1

T

x2t .

(12.9)

t=1

Umstellen auf a ˆ und ˆb ergibt die Kleinst-Quadrat-Schätzer a ˆ und ˆb: T T T T 2 t=1 xt t=1 yt − t=1 xt · yt t=1 xt a ˆ= T T 2 2 T t=1 xt − ( t=1 xt ) ˆb = T

xt yt − Tt=1 xt Tt=1 yt . T T T t=1 x2t − ( t=1 xt )2

(12.10)

T

t=1

(12.11)

Der KQ-Schätzer ˆb läßt sich recht einfach über ˆb = s11 (y, x) s2 (x) berechnen, denn T T T x y − x yt ˆb = T t=1 Tt t 2 t=1 T t t=1 = 2 T

t=1

xt −(

t=1

T 2 [(1/T )

T t=1

(12.12)

xt yt −(1/T )

xt )

=

xy−¯ xy¯ x2 −¯ x2

=

T t=1

T 2 (x2 −¯ x2 ))

xt (1/T )

T t=1

yt ]

s11 (y,x) . s2 (x)

Ist ˆb bekannt, so kann vermittels a ˆ = y¯ − ˆb · x ¯

(12.13)

auch der andere KQ-Schätzer bequem berechnet werden. Wäre x ¯ = 0, so wäre a ˆ durch den Mittelwert y¯ bestimmt. Ist x ¯ = 0, so erfolgt eine Korrektur über den mit ˆb gewichteten Mittelwert x ¯ der erklärenden Variable x. Umformung von 12.13 zu y¯ = a ˆ + ˆb · x ¯ (12.14) zeigt, daß die geschätzte Regressionsgerade durch den Schwerpunkt (¯ x, y¯) der Punktwolke der Beobachtungen geht, wie dies beispielhaft in Abbildung 12.1 dargestellt ist. Die waagerechte und horizontale Linie gibt jeweils den Durchschnitt der x- bzw. y-Variable an; die leicht steigende Kurve ist die geschätzte Regressionsgerade, die durch den Punkt (¯ x, y¯) läuft. Anhand dieser Abbildung kann auch Formel 12.12 veranschaulicht werden. Auf dem Bruchstrich steht die empirische Kovarianz, darunter ist die Varianz der ’erklärenden’ Variable x. Da die Varianz nur Werte größer oder gleich Null annehmen kann, ergibt sich über die empirische Kovarianz die Steigung der Geraden. Steigt y überwiegend dann, wenn auch x steigt, so ist sie positiv. Ändern sich y und X in gegenläuﬁger Art und Weise, so ist die empirische Kovarianz negativ. Bei gegebener Kovarianz wird die Steigung der Regressionsgeraden auch über die Varianz der Variablen x bestimmt. Ist σ11 (y, x) groß, d.h. vagabundieren die

12.2. EINFACHES KLASSISCHES REGRESSIONSMODELL

253

Beobachtungen stark in der Gegend herum, so muß die Steigung der Geraden gering sein. In Abbildung 12.1 ist die Varianz vergleichsweise hoch, was man erkennt, indem man ausschließlich die x-Achse betrachtet und das Lot eines jeden Beobachtungspunktes auf die Abszisse fällt: die Beobachtungen x liegen recht verstreut in der Gegend herum. Wäre die Varianz jedoch sehr viel größer, d.h. würden die Beobachtungen x alle viel dichter am Mittelwertes x ¯ liegen, so muß c.p. die Steigung größer sein als im vorhergehenden Fall.

12.2.2

Beispiel

Es wird vermutet, daß die Einkommenshöhe, Y , vom Alter, X, abhängt (Ancienitätsprinzip) und die Stärke dieses Zusammenhanges soll geschätzt werden. Es sind die Regressionskoeﬃzienten a ˆ und ˆb zu bestimmen. Hierzu werden die Rohdaten aus Tabelle 2.2 genutzt. Sie beziehen sich alle auf denselben Zeitraum. Die Daten können über die Variable ’x’ angesprochen werden (siehe unten). Unter ’Reg1’ wird das Ergebnis der Regressionsrechnung abgelegt. Als Schätzer erhält man a ˆ = 2541, 486 und ˆb = 3, 56. Damit ergibt sich als Regressionsgerade yt = 2541, 486 + 3, 56 · xt . > x Einkommen Alter Ausbildungsjahre 1 2000 30 12 2 2500 42 13 3 2900 50 10 4 3300 28 18 > Reg1 <- lm(x[,1] ~ x[,2]) > Reg1 Call: lm(formula = x[, 1] ~ x[, 2]) Coefficients: (Intercept) 2541.486

x[, 2] 3.560

In Abbildung 12.1 sind an der Abszisse das Alter und der Ordinate das Einkommen abgetragen. Es sind alle Beobachtungspunkte eingezeichnet. Diese Abbildung erhält man über den Befehl > plot(x[,2:1]). Soll zusätzlich die Schätzgleichung eingezeichnet werden, so gibt man > abline(Reg1) ein. Will man die Punkte identiﬁzieren, so nutzt man die Anweisung

KAPITEL 12. EINFACHE REGRESSION

3200

254

4

2800

2

2400 2000

Einkommen

3

1

30

35

40

45

50

Alter

Abbildung 12.1: Einkommen in Abhängigkeit des Alters Quelle: eigene Darstellung

> identify(x[,2:1]) und klickt mit dem Cursor einen Punkt in der Graphik an, um seine Identiﬁzierung zu starten. Diese Anweisung funktioniert nicht nur bei Regressionen, sondern auch bei anderen Graphiken. Bei diesem Beispiel handelt es sich um eine Querschnittsanalyse. Auf Seite 31 wurde der Begriﬀ mit Hilfe von Arbeitslosenzahlen in Deutschland veranschaulicht: in den Spalten standen die Variablen (beispielsweise arbeitslose Frauen in Deutschland im Durschnitt des Jahres 2003, aber, da keine weiteren Angaben vorlagen, könnte es auch der Bestand am Ende des Jahres 2003 sein) und in einer Zeile die Ausprägungen aller Variablen im Durchschnitt eines Jahres oder zu einem bestimmten Zeitpunkt. Insofern ist die Begriﬀsbildung auch einleuchtend, da bei Querschnittsanalysen eine Zeile und bei Längsschnittsanalysen Spalten betrachtet werden. Das hier vorgestellte Regressionsbeispiel unterscheidet sich in zweierlei Hinsicht von dem Arbeitslosenbeispiel: • die Daten stehen nicht in einer Zeile und • es handelt sich nicht durchgängig um Bestandsgrößen. Im Regressionsbeispiel bezieht sich das Einkommen auf einen Zeitraum, bei den Arbeitslosen nicht. Die Daten des Regressionsmodells stehen auch nicht

12.3. REGRESSIONSFUNKTION

255

alle in einer Zeile, wobei jeder Zeile ein bestimmter Zeitpunkt oder eine bestimmte Periode zugeordnet wäre. Dennoch sprechen wir von Querschnittsanalyse. Es handelt sich um die Beziehung zwischen einer Bestandsgröße (Alter) und einer Stromgröße (Einkommen). Da die Bestandsgröße ’Alter’ in demselben Zeitraum liegt, auf den sich das Einkommen bezieht, ist es gerechtfertigt, von Querschnittsanalyse zu sprechen. Die KQ-Methode ist sowohl für Querschnitts- als auch Längsschnittsuntersuchungen geeignet. Bei ersteren gibt t die Nummer der statistischen Einheit (einer Person oder eines Objektes) an. Bei einer Zeitreihenanalyse gibt t im Falle von Bestandsgrößen den Zeitpunkt und bei Stromgrößen die Periode einer Variablen an.

12.3

Regressionsfunktion

12.3.1

Grundlagen

Im einfachen klassischen Regressionsmodell werden lediglich lineare Verknüpfungen zwischen Yt und Xt zugelassen. Die Regressionsfunktion lautet: Yt = a + b · Xt .

(12.15)

Dies erscheint auf den ersten Blick eine große Einschränkung zu sein. Glücklicherweise stellt sich jedoch heraus, daß sich durch geschickte Interpretation oder Umformungen auch andere Funktionen schätzen lassen. Ist g(Xt ) = Xt2 so ist die Funktion

Yt = a + b · Xt2

linear in Xt2 und die KQ-Methode ist anwendbar. Das heißt, man deﬁniert die ˜ t := Xt2 und setzt diese in die Regressionsfunktion 12.15 als RegresVariable X sand ein. Will man beispielsweise die Cobb-Douglas-Produktionsfunktion Yt = c · L α t mit 0 < α < 1,

(12.16)

wobei c ∈ R und α ∈ R Parameter sind, schätzen, eine nichtlineare Funktion, so kann man über einen Trick dennoch die KQ-Methode nutzen. Durch Anwendung des natürlichen Logarithmus auf beiden Seiten erhält man ln(Yt ) = ln(c) + α · ln(Lt ),

(12.17)

also eine lineare Funktion. Anstatt der Originalwerte werden ihre logarithmierten verwendet. Man deﬁniert also Y˜t := ln(Yt ) und L˜t := ln(Lt ) und setzt diese Werte in die Regressionsfunktion ein.

KAPITEL 12. EINFACHE REGRESSION

256

Der in der Ökonomie vorkommende Regelfall ist dadurch gekennzeichnet, daß die funktionale Form g(Xt) überhaupt nicht bekannt ist. Aufgrund des Satzes von Taylor (Endl und Luh, 1980, S. 202) läßt sich jede hinreichend oft diﬀerenzierbare Funktion (genau muß sie (n+ 1)-fach diﬀenzierbar sein) beliebig genau durch ein Polynom n-ten Grades approximieren. Die einfachste Näherung ist eine Geradengleichung. Werden nur Bereiche in der Nähe eines Punktes einer gekrümmten Kurve betrachtet, so kann die Näherung durch eine lineare Funktion für praktische Zwecke ausreichend gut sein. Insofern ist die Einschränkung auf einen linearen Zusammenhang zwischen Yt und Xt nicht so einschränkend wie er auf den ersten Blick erscheint. Wir halten also an der Regressionsfunktion 12.15 fest. Anmerkung: Man verwechsle n nicht mit dem Stichprobenumfang. Hier ist mit n + 1 die (n + 1)-fache Ableitung bzw. ein Polynom n-ten Grades gemeint.

12.3.2

Beispiel

Es soll eine Produktionsfunktion des Typs 12.16 geschätzt werden. Mit den Parameterwerten c = 2 und α = 0, 4 werden die Werte der Produktionsfunktion im Deﬁnitionsbereich [1, 100] berechnet. Der Befehl ’seq(...)’ dient der Erzeugung der Zahlenfolge 0; 0, 1; 0, 2; . . . ; 100. Mit der letzten Anweisung werden die Outputmengen berechnet. > > > >

c <- 2 alpha <- .4 Lt <- seq(1,100,by=.1) y <- c*Lt^alpha

Würde diese relativ stark gekrümmte Funktion, die keine Störvariablen besitzt, über eine Regression von Yt auf Lt geschätzt, so erhielte man über die Anweisungen > Reg1 <- lm(y ~ Lt) > Reg1 Call: lm(formula = y ~ Lt) Coefficients: (Intercept) Lt 4.63126 0.08826 die Regressionskoeﬃzienten der linearen Approximation: als Absolutglied 4, 63126 und als Steigung 0, 08826. Das Ergebnis ist in Abbildung 12.2 dargestellt. Man erkennt: wegen der starken Krümmung im Bereich des Nullpunktes ist die Approximation der Produktionsfunktion durch eine Gerade nicht geeignet. Wendet man statt dessen den Trick über 12.17 an, so ergibt die Schätzung der Regressionskoeﬃzienten, da keine Störterme vorhanden sind, die exakten Werte. Die nötigen Befehle sind wie folgt.

12.3. REGRESSIONSFUNKTION

2

4

6

y

8

10

12

257

0

20

40

60

80

100

Lt

Abbildung 12.2: KQ-Schätzung einer Cobb-Douglas Produktionsfunktion Quelle: eigene Darstellung

> ln.y <- log(y) > ln.Lt <- log(Lt) > Reg2 <- lm(ln.y ~ ln.Lt) > Reg2 Call: lm(formula = ln.y ~ ln.Lt) Coefficients: (Intercept) ln.Lt 0.6931 0.4000 > exp(Reg2$coefficients[1]) (Intercept) 2

Die beiden ersten Zeilen dienen der Berechnung der logarithmierten Werte. Es folgt die Schätzung der Koeﬃzienten. Der berechnete Wert ’ln.Lt’ ist gleich dem gesuchten α. Die Exponentialfunktion angewendet auf das geschätzte Absolutglied ’Intercept’ ergibt den exakten Wert von c. Es zeigt sich, daß das Vorgehen prinzipiell geeignet erscheint, nicht-lineare Funktionen zu schätzen.

KAPITEL 12. EINFACHE REGRESSION

258

12.4

Prognose

12.4.1

Grundlagen

Mit Hilfe der KQ-Schätzer aˆ und ˆb lassen sich auch die Schätzer der abhängigen Variablen Yt berechnen: yˆt = a ˆ + ˆb · xt . (12.18) Handelt es sich bei den Regressoren um zeitpunkt- oder zeitraumbezogene Größen, so lassen sich auch Werte für zukünftige Zeitpunkte bzw. Zeiträume berechnen. Kennt man Variable xt+1 oder kann man aufgrund von Experteneinschätzungen diese Größe bereits heute verläßlich bestimmen, so kann der Schätzwert yˆt+1 bestimmt werden. Wissenschaftlich gestützte Prognosen sind hierüber möglich. Zudem gilt folgender nützliche Zusammenhang. Das arithmetische Mittel y¯ˆ der geschätzten Werte yˆt ist gleich dem arithmetischen Mittelwert y¯ der beobachteten Werte yt : y¯ ˆ = y¯.

(12.19)

Denn wir können schreiben T T T T 1 1 1 ˆb · xt ) = 1 ˆ+ yˆt = a ˆ + ˆb · xt = (T · a yt = y¯. y¯ˆ = T t=1 T t=1 T T t=1 t=1

Hierüber läßt sich dann schnell der Mittelwert y¯ˆ der geschätzten Werte yˆt berechnen.

12.4.2

Beispiel

Angenommen, der Regression aus Beispiel 12.2.2 würde vertraut, so könnte sie als Basis zur Berechnung des zu erwartenden Einkommens im Alter von 60 Jahren genutzt werden. Über den Befehl > Reg1$fitted.values 1 2 3 4 2648.297 2691.022 2719.505 2641.176 werden alle Werte angezeigt, die auf der Regressionsgeraden liegen. Zum selben Ergebnis führt der Befehl > t(Reg1$coefficients) %*% t(matrix(c(rep(1,times=4),x[,2]),ncol=2)) [,1] [,2] [,3] [,4] [1,] 2648.297 2691.022 2719.505 2641.176 Die Prognose für 60 Jahre erhält man, indem statt der bereits beobachteten Werte für xt der Wert ’60’ eingegeben wird.

12.5. BESTIMMTHEITSMA

259

> #1. Alternative > t(Reg1$coefficients) %*% t(matrix(c(1,60),ncol=2)) [,1] [1,] 2755.108 > #2. Alternative mit Rundungsfehlern: > 2548.297 + 3.560*60 [1] 2761.897 > #3. Alternative ohne Rundungsfehler > Reg1$coefficients[1] + Reg1$coefficients[2]*60 (Intercept) 2755.108

12.5

Bestimmtheitsmaß

12.5.1

Grundlagen

Gerne hätte man auch eine Überprüfung der Güte der gefundenen Regression. Denn Prognosen sind nur so gut, wie die Regression, die ihnen zugrunde liegt. Eine wichtige Kenngröße ist das Bestimmtheitsmaß. Seine Deﬁnition kann entweder auf der Varianz der geschätzten Regressionswerte yˆt oder der Varianz der geschätzten Residuen u ˆt aufbauen. Die Residuen Ut sind nicht direkt beobachtbar. Deshalb nennt man sie auch latente Variablen. Vermittels der berechneten Werte yˆt lassen auch sie sich schätzen: u ˆt := yt − yˆt (12.20) Es ist klar: je geringer die Abweichungen zwischen den Beobachtungen yt und den Punkten yˆt auf der Regressionsgeraden ceteris paribus sind, desto besser ist tendenziell die Schätzung. Insofern fällt den Residuen u ˆt eine große Bedeutung zu. Bei T Beobachtungen gibt es auch T Residuen. Die Summe über alle Residuen hinweg ist gleich Null: T t=1

u ˆt =

T

(yt − a ˆ − ˆbxt ) = 0.

(12.21)

t=1

Dieser Zusammenhang ergibt sich durch Berücksichtigung der Normalgleichung 12.8. Dies bedeutet, daß sich die Summe aller Residuen nicht eignet, die Güte der Schätzung zu überprüfen. Aus 12.21 ergibt sich, daß auch das arithmetische Mittel der Residuen gleich Null ist: T ¯ := 1 u ˆt = 0. (12.22) u ˆ T t=1

KAPITEL 12. EINFACHE REGRESSION

260

u) der Residuen berechnet sich über Die Varianz s2 (ˆ u) = s2 (ˆ

T T 1 ¯ˆ)2 = 1 (ˆ ut − u u ˆ2 , T t=1 T t=1 t

(12.23)

wegen 12.22 und die Varianz der Prognosewerte ist s2 (ˆ y) =

T T 1 1 (ˆ yt − y¯ ˆt )2 = (ˆ yt − y¯t )2 , T t=1 T t=1

(12.24)

wenn 12.19 berücksichtigt wird. Beide Größen eignen sich als Basis zur Deﬁnition einer Maßzahl, mit der die Güte der Regression bestimmt werden kann. Die Deﬁnition des Bestimmtheitsmaßes baut hierauf auf. Zur Deﬁnition und Interpretation dieser Kennziﬀer leistet die Streuungszerlegungsformel T 1 (yt − y¯)2 = s2 (ˆ y ) + s2 (ˆ u). (12.25) s2 (y) := T t=1 gute Dienste. Ihre Gültigkeit wird in Anhang 12.A gezeigt. Sie besagt, daß sich die Varianz der beobachteten Werte yt zerlegen läßt in die Varianz der geschätzten Werte yˆt und die der geschätzten Residuen u ˆt . Gegeben sei das klassische einfache Regressionsmodell. Das Bestimmtheitsmaß ist dann deﬁniert als s2 (ˆ y) R2 := 2 , (12.26) s (y) wobei s2 (y) die Varianz der Beobachtungen yt , deﬁniert in 12.25 bezeichnet. Wegen der Varianzzerlegungsformel 12.25 kann auch geschrieben werden R2 = 1 −

s2 (ˆ u) . 2 s (y)

(12.27)

Über Deﬁnition 12.26 läßt sich das Bestimmtheitsmaß R2 interpretieren als der Anteil der durch die Regression erklärten Varianz s2 (ˆ y ) an der Varianz s2 (y) der abhängigen Variablen. Je höher der Anteil der erklärten Varianz ist, desto besser ist die Anpassung der Regressionsgeraden an die Punkte im Streudiagramm. Liegen alle Beobachtungen yt auf der Regressionsgeraden, so ist das Bestimmtheitsmaß gleich Eins. Je kleiner das Bestimmtheitsmaß ist, desto schlechter ist die Anpassung. Da die Varianz nicht kleiner Null werden kann, gilt: 0 R2 1.

(12.28)

Zusammenhang 12.27 gibt Anlaß zu folgender Interpretation. Das Bestimmtheitsmaß ist gleich Eins minus dem Anteil der Varianz s2 (ˆ u) der Residuen an der Gesamtvarianz s2 (y) der Beobachtungen yt . Je größer die Varianz s2 (ˆ u) der Residuen ist, desto geringer ist das Bestimmtheitsmaß R2 .

12.5. BESTIMMTHEITSMA

261

Nicht jedes Maß eignet sich zur Messung der Güte. Wenn die Güte der Schätzung in Beispiel 12.2.2 davon abhängig wäre, ob das Alter statt in Jahren, in Monaten gemessen würde, oder ob es einen Unterschied machen würde, ob das Einkommen in Euro zu einem anderen Ergebnis führen würde als die Angabe in Cent, so wäre ein solches Maß zur Bestimmung der Güte wenig geeignet. Glücklicherweise ist das Bestimmtheitsmaß R2 invariant gegenüber Maßstabsänderungen. Das Bestimmtheitsmaß ändert sich nicht, wenn ceteris paribus yt mit einer Konstanten c multipliziert wird. Ist vt die Variable, die aus der Multiplikation von yt mit c hervorgeht, also (vt = c·yt ), dann sind die zugehörigen KQ-Schätzer zu vt gleich c · a ˆ bzw. c · ˆb, wobei a ˆ und ˆb die KQ-Schätzer zu yt sind. Ferner sollte 12.24 berücksichtigt werden und daß c 1 (c · yt ) = yt = c¯ y. T T Dann können wir schreiben:

T ¯ (ˆ vt − v ˆ)2 rv2 = t=1 T 2 t=1

T (cˆ a+cˆ bxt −cy¯ ˆ)2 t=1 T 2

=

t=1

=

c2

(vt −¯ v)

(cyt −c¯ y)

(12.29)

T (ˆ a+ˆ bxt −y¯ ˆ)2 t=1 = ry2 . T 2 2

c

t=1

(yt −¯ y)

Es ändert sich auch nicht, wenn alle Regressoren xt mit einer Konstanten c multipliziert werden. Die Argumentation ist analog der gerade beschriebenen. Dies bedeutet, daß das Bestimmtheitsmaß R2 invariant ist gegenüber Maßstabsänderungen. Zudem sollte ein Gütemaß unabhängig gegenüber Translationen sein, d.h. die Addition einer Konstanten sollte keinen Einﬂuß auf seine Höhe haben. Dies ist bei Verwendung des Bestimmtheitsmaßes der Fall. Denn R2 ändert sich nicht, wenn zu allen yt die Konstante d1 addiert wird, da die empirische Varianz translationsinvariant ist. Mit anderen Worten ändert sich die Varianz s2 (y) nicht, weil s2 (y) = s2 (y + d1 ).

(12.30)

Das Bestimmtheitsmaß ändert sich auch nicht, wenn zu allen xt die Konstante d2 addiert wird. Dies ist in Abbildung 12.3 illustriert. Links ist die Regressionsgerade zu Beispiel 12.2.2 abgebildet; die rechte ist die Regressionsgerade, wenn alle xt -Werte um 10 erhöht sind. Die neue Gerade liegt rechts der alten und alle Schätzwerte des Einkommens yˆt liegen jeweils auf den eingezeichneten gestrichelten horizontalen Linien. An der Ordinate erkennt man, daß sich die Lage der Schätzwerte des Einkommens, yˆt , nicht ändert. Deshalb verändern sich auch die Argumente der Funktion s2 (ˆ yt ) nicht und das Bestimmtheitsmaß bleibt von Änderungen solcher Art unberührt.

KAPITEL 12. EINFACHE REGRESSION

2700 2680 2660 2640

Schätzwerte des Einkommen

2720

262

30

35

40

45

50

55

60

Alter

Abbildung 12.3: Translationsinvarianz des Bestimmtheitsmaßes Quelle: eigene Darstellung

12.5.2

Beispiel

Das Bestimmtheitsmaß zur Regression von Seite 253 ist gleich 0, 004414. Die Varianz s2 (y) der beobachteten Werte errechnet sich über > Varianz1 <- var(x[,1])*3/4. Die Ergebnisse der Regression von yt auf xt ist in ’Reg1’ abgelegt und die geschätzten Werte lassen sich über ’Reg1$ﬁtted.values’ ansprechen. Die Varianz s2 (ˆ yt ) kann dann über > Varianz2 <- var(Reg1$fitted.values)*3/4 > Varianz2/Varianz1 [1] 0.004414477 berechnet werden. Die Anwendung von Formel 12.26 führt zu besagtem Ergebnis. Werden alle xt -Werte um 10 erhöht, so erhält man denselben Wert. Das Beispiel von Seite 256 wird fortgeführt. Die Anweisung ’summary(...)’ gibt eine Übersicht über wichtige Kennziﬀern der Regression ’Reg2’. In der vorletzten Zeile ﬁndet sich die Angabe ’R-squared’, dies ist das Bestimmtheitsmaß R2 . Wir haben die Ausgangsdaten selbst erzeugt. Da in das Beispiel keine Störvariablen eingebaut wurden und wir wissen, daß alle Punkte (xt , yt ) auf einer Geraden liegen, werden die Parameter der zugrunde liegenden Funktion korrekt

12.6. VOLLSTÄNDIGES MODELL

263

geschätzt und alle Schätzwerte yˆt liegen auf derselben Geraden. Folglich ist die Varianz s2 (ˆ y ) der Schätzwerte yˆt gleich der Varianz s2 (y) der Regressanden yt und das Bestimmtheitsmaß ist gleich Eins. > summary(Reg2) Call: lm(formula = ln.y ~ ln.Lt) Residuals: Min 1Q Median 3Q Max -3.003e-15 -1.029e-16 -2.126e-18 9.810e-17 3.987e-16 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.931e-01 2.393e-17 2.897e+16 <2e-16 *** ln.Lt 4.000e-01 6.369e-18 6.280e+16 <2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.782e-16 on 989 degrees of freedom Multiple R-squared: 1,Adjusted R-squared: 1 F-statistic: 3.944e+33 on 1 and 989 DF, p-value: < 2.2e-16

12.6

Vollständiges Modell

Bei dem einfachen klassischen Regressionsmodell wird Xt als deterministische Variable vorausgesetzt. In vielen eher naturwissenschaftlichen Anwendungen ist dies korrekt, bei ökonomischen Fragestellungen häuﬁg nicht. In einem naturwissenschaftlichen Experiment kann der Laborleiter die Einﬂußgröße Xt durch die Versuchsanordnung vorgeben, Xt ist in der Tat deterministisch. Bei Versuchsanordnungen in der experimentellen Spieltheorie oder laborgestützten Versuchen zur Untersuchung des Kundenverhaltens kommt man diesem Ideal zumindest nahe. Bei sonstigen ökonomischen Problemstellungen wird man wohl eher davon ausgehen müssen, daß auch Xt eine Zufallsvariable ist. Dem Modellansatz 12.1 tut dies keinen Abbruch. Denn die Verteilung von Yt bestimmt sich über die funktionale Abhängigkeit und die gemeinsame Verteilung von Xt und Ut . Freilich ist gewöhnlich diese gemeinsame Verteilung nicht bekannt. Wir kommen jedoch zu handhabbaren Ergebnissen, wenn angenommen wird, daß X = (X1 , . . . , XT ) und Ut stochastisch unabhängig sind. Hieraus ergibt sich, daß die bedingte Wahrscheinlichkeitsverteilung P (Ut |X) = P (Ut ) (wegen 1 auf Seite 116). Die Wahrscheinlichkeitsverteilung von Ut ist also immer dieselbe, ganz gleich wie X aussieht. Hieraus ergibt sich die schwächere Annahme, daß der Mittelwert und die Varianz von Ut unter der Bedingung X jeweils konstant sind. Denn aus stochastischer Unabhängigkeit folgen die beschriebenen Zusammenhänge, der

KAPITEL 12. EINFACHE REGRESSION

264

Umkehrschluß ist im allgemeinen nicht korrekt, d.h. aus der Konstanz von Erwartungswert und Varianz bei irgendeinem gegebenem Wert von X kann nicht auf stochastische Unabhängigkeit geschlossen werden. Wird zudem vorausgesetzt, daß die bedingten Störungen Ut|X sich im Mittel ausgleichen, also der bedingte Erwartungswert von Ut unter der Bedingung X gleich Null ist und wird die bedingte Varianz von Ut bei gegebenem X gleich σ2 gesetzt, so können die Annahmen des klassischen Regressionsmodells wie folgt umgeschrieben werden: 2 σ ˆX > 0 mit Wahrscheinlichkeit 1,

(12.31)

wobei sich diese Annahme von 12.2 durch die schwächere Annahme unterscheidet, daß die Varianz der Regressoren mit Wahrscheinlichkeit von Eins größer als Null ist. Die Annahmen 12.3 und 12.4 werden gemäß der gerade gemachten Anmerkungen durch

und

E(Ut |X) = 0 für alle t ∈ {1, . . . , T }

(12.32)

V ar(Ut |X) = σ2 für alle t ∈ {1, . . . , T }

(12.33)

ersetzt und Annahme 12.5 wird gefaßt als E(Ut Ut˜|X) = 0 für alle t, t˜ ∈ {1, . . . , T } mit t = t˜.

(12.34)

Wenn zusätzlich noch folgende Annahmen lim

T →∞

sowie

x2

< ∞ mit

x2

:=

T

x2t

(12.35)

t=1

lim s2 (X) > 0,

T →∞

(12.36)

wobei s2 die empirische Varianz bezeichnet sowie Ut ist normalverteilt bei gegebenem X für alle t = 1, . . . , T,

(12.37)

gelten, so spricht Schneeweiß (1978) von dem vollständigen Modell.

12.7

Tests

12.7.1

Grundlagen

a ˆ und ˆb hängen von der Zufallsvariablen Yt ab und sind deshalb selbst Zufallsvariablen. Weil Verwechslungen mit den KQ-Schätzern 12.10 bzw. 12.11 nicht zu befürchten sind, können die KQ-Schätzfunktionen mit denselben Variablen bezeichnet werden wie die Schätzer: T T T T 2 t=1 Xt t=1 Yt − t=1 Xt · Yt t=1 Xt (12.38) a ˆ= T T 2 2 T t=1 Xt − ( t=1 Xt )

12.7. TESTS

265

und ˆb = T

Xt Yt − Tt=1 Xt Tt=1 YT . T T T t=1 Xt2 − ( t=1 Xt )2

T

t=1

(12.39)

In der Ökonometrie unterscheidet man sowieso nicht zwischen Zufallsvariablen und Beobachtungen, weshalb im Rest des Kapitels nur noch Kleinbuchstaben verwendet werden. Ob es Zufallsvariablen sind oder nicht, ergibt sich aus dem Zusammenhang. Um einen Test über die KQ-Koeﬃzienten durchführen zu können, bedarf es einer Teststatistik. Üblicherweise werden auf Erwartungswert Null und Varianz 1 standardisierte Größen verwendet. Dieses Ziel erreicht man über Standardisierung (siehe Kapitel 7.4.3 auf Seite 133) von a ˆ und ˆb. Hierzu ist es nötig, den Erwartungswert von a ˆ bzw. ˆb zu kennen. Der Erwartungswert E(ˆ a) des Absolutgliedes ist E(ˆ a) = a (12.40) und der der Steigung E(ˆb) = b.

(12.41)

Die Herleitung ﬁndet sich in Anhang 12.B. Bei der Standardisierung ist der Erwartungswert von der in Frage stehenden Zufallsvariable abzuziehen. Damit ist sichergestellt, daß der Erwartungswert der so gebildeten Zufallsvariablen gleich Null ist. Dies ergibt a ˆ−a=

¯xt )ut (x2 − x 2 T s (x)

(12.42)

ˆb − b =

(xt − x ¯)ut . 2 T s (x)

(12.43)

und

In Anhang 12.C.1. können die Zusammenhänge nachvollzogen werden. Schließlich ist a ˆ − a und ˆb − b durch die Standardabweichung von a ˆ bzw. ˆb zu dividieren, um eine Testgröße mit Varianz Eins zu erhalten. Bei Geltung von Annahme 12.37 sind die KQ-Schätzer normalverteilt mit Erwartungswert 0 und Varianz 1: a ˆ−a ~N (0, 1) (12.44) σ(ˆ a|X) und

ˆb − b ~N (0, 1). σ(ˆb|X)

(12.45)

a|X) sowie σ2 (ˆb|X) unbekannt und müssen geFreilich sind die Varianzen σ2 (ˆ schätzt werden. Damit sind wir in der Lage, Hypothesentests über die KQ-Schätzer durchzuführen. Die Nullhypothese lautet H 0 : a = a0

KAPITEL 12. EINFACHE REGRESSION

266 und die Gegenhypothese H1 : a = a0 . Als Testgröße wird

Testgröße =

a ˆ−a ~t(T −2) σ ˆ (ˆ a|X)

(12.46)

verwendet, wobei die Standardabweichung σ(ˆ a|X) aus Gleichung 12.44 über T 1 x2 T −2 ˆ2t x2 σ ˆ2 t=1 u σ ˆ (ˆ a|X) = = (12.47) 2 2 T s (x) T s (x) geschätzt wird. Die Herleitung dieser Formel sowie der entsprechenden für den Parameter ˆb ﬁndet sich in Anhang 12.C.2. Der Term T

σ ˆ2 =

1 u ˆt 1 − 2 t=1

(12.48)

dient hierbei zur Schätzung der Varianz σ 2 der Residuen ut . Unter Gültigkeit der Nullhypothese ist die Testgröße t-verteilt mit T − 2 Freiheitsgraden. Der Annahmebereich ist gleich [t(T −2),α/2 ; t(T −2),1− α2 ]. t(T −2),α/2 ist hierbei das α/2-Quantil der t-Verteilung mit T −2 Freiheitsgraden. im Annahmebereich, so kann die Nullhypothese nicht Liegt die Testgröße σˆ 2aˆ(ˆ−a a|X) verworfen werden. Dies ist ein zweiseitiger Test, dessen Ergebnis für a0 = 0 standardmäßig in Statistikprogrammen ausgegeben wird. Ganz analog zu 4.3.2 und 4.3.3 lassen sich auch einseitige Hypothesentests durchführen. Bei Tests über den Steigungsparameter ˆb geht man ganz analog vor. Wir nutzen: ˆb − b (12.49) ~t(T −2) . Testgröße = σ ˆ (ˆb|X) Die Schätzung für die Standardabweichung σ(ˆb|X) in Gleichung 12.45 errechnet sich hier allerdings über die Formel t 1 2 ˆt σ ˆ t=1 u T −2 = , (12.50) σ ˆ (ˆb|X) = 2 2 T s (x) T s (x) wobei die Varianz σ ˆ 2 der Residuen ut auch hier über 12.48 geschätzt wird.

12.7.2

Beispiel

Das Beispiel von Seite 253 wird fortgeführt. Es soll getestet werden, ob der Parameter a ˆ zur Sicherheitswahrscheinlichkeit von α = 0, 05 signiﬁkant von Null verschieden ist. Mit anderen Worten wird die Nullhypothese

12.7. TESTS

267

H0 : a = 0 gegen H1 : a = 0 geprüft. Das Objekt ist unter ’Reg1’ abgespeichert. Die Testgröße 12.68 muß berechnet werden, wobei die bedingte Varianz V ar(ˆ a|X) über 12.62 und die Varianz σ 2 der Residuen ut über 12.67 geschätzt wird. x2 wird durch den Befehl > T <- 4 > x.quadrat <- (1/T)*t(x[,2]%*%x[,2]) > x.quadrat [,1] [1,] 1487 bestimmt und die Varianz σ2 (u) über > sigma.quadrat.u <- (1/(T-2)) *t(Reg1$residuals)%*%Reg1$residuals > sigma.quadrat.u [,1] [1,] 461702.8 berechnet. ’Reg1$residuals’ ist ein Befehl zur Ausgabe der geschätzten Residuen. Die Berechnung der empirischen Varianz s2 (x) der Regressoren erfolgt über > s.quadrat.x <- var(x[,2])*(T-1)/T > s.quadrat.x [1] 80.75 Als Varianz für a ˆ erhalten wir 2125548 und die zugehörige Standardabweichung ist gleich 1457.926. Mit ’Reg1$coeﬃcients’ lassen sich die KQ-Schätzer ansprechen, es handelt sich um einen ˆ − 0 durch die be Spaltenvektor. Division von a a|X) = 1457.926 ergibt die t-verteilte Testdingte Standardabweichung V ar(ˆ größe in Höhe von 1, 743220. > Var.a <- x.quadrat*sigma.quadrat.u/(T*s.quadrat.x) > Var.a [,1] [1,] 2125548 > (Var.a)^.5 [,1] [1,] 1457.926 > Reg1$coefficients[1]/(Var.a)^.5 [,1] [1,] 1.743220 Der Annahmebereich wird über die t-Verteilung bestimmt. Seine Grenzen berechnen sich wie folgt:

KAPITEL 12. EINFACHE REGRESSION

268

> qt(0.025,T-2,0,lower.tail=TRUE) [1] -4.302653 > qt(0.975,T-2,0,lower.tail=TRUE) [1] 4.302653.

Damit ist der Annahmebereich gleich [−4, 302653; 4, 302653]. Die Testgröße ist ca. 1, 7 und liegt im Annahmebereich. Deshalb kann die Nullhypothese nicht verworfen werden, d.h. a ˆ ist nicht signiﬁkant von Null verschieden. Man kann auch folgendermaßen argumentieren. Die Testgröße (= 1, 7) ist positiv. Rechts von ihr liegt 0, 1117084 an Wahrscheinlichkeitsmasse und links von −1, 7 liegt ebensoviel. D.h., daß insgesamt 2 · 0, 1117084 = 0, 2234168 Wahrscheinlichkeitsmasse rechts von 1, 7 und links von −1, 7 liegen. Wäre das Signiﬁkanzniveau genau 0, 2234168, so würde die Testgröße gerade auf dem rechten Rand des Annahmebereiches liegen. Wäre das Signiﬁkanzniveau auch nur etwas größer, so ﬁele die Testgröße (= 1, 7) in den Ablehnungsbereich und die Nullhypothese wäre zu verwerfen. Diese Interpretation hilft, den Output von , der über den Befehl ’summary’ erzeugt wird, zu verstehen. Unter ’Estimate’ stehen die KQ-Schätzer, rechts davon ist die bedingte Standardabweichung V ar(ˆ a|X) angegeben. Es folgt der ’t value’, dies ist die von uns berechnete Testgröße. P r(> |t|) gibt die Wahrscheinlichkeitsmasse an, die rechts der Testgröße = 1, 7 und links von −1, 7 zu liegen kommt. Ist diese Wahrscheinlichkeit kleiner als das vorgegebene Signiﬁkanzniveau, so liegt die Testgröße im Ablehnungsbereich und die Nullhypothese wäre abzulehnen.

> summary(Reg1) Call: lm(formula = x[, 1] ~ x[, 2]) Residuals: 1 2 -648.3 -191.0

3 180.5

4 658.8

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2541.49 1457.93 1.743 0.223 x[, 2] 3.56 37.81 0.094 0.934 Residual standard error: 679.5 on 2 degrees of freedom Multiple R-squared: 0.004414,Adjusted R-squared: -0.4934 F-statistic: 0.008868 on 1 and 2 DF, p-value: 0.9336

12.8. ABSCHLIEENDE BEMERKUNGEN

12.8

269

Abschließende Bemerkungen

Die vorangegangen Ausführungen stellen eine von zwei möglichen Interpretationen der Gleichung 12.1 dar. Es ist jene, die in der Ökonometrie Verwendung ﬁndet. Alternativ zu der ökonometrischen stellt sich gelegentlich die Aufgabe, eine Gerade so in ein Streudiagramm aller Beobachtungspunkte (xt , yt ) zu legen, daß die Abstände zwischen (xt , yt ) und der zu schätzenden Geraden möglichst gering sind. Zu diesem Zweck benötigt man keine Wahrscheinlichkeitstheorie, und keinen Erwartungswert oder Varianz. Ob die Annahmen 12.2 bis 12.5 zutreﬀen oder nicht, spielt keine Rolle. ut wird interpretiert als Abweichung von y von der Geraden a + b · xt. Eine solche Gerade kann mittels der KQ-Schätzwerte 12.10 und 12.11 stets bestimmt werden. Bei dem ökonometrischen Ansatz ist es möglich, daß aufgrund der vorgefundenen Parameterwerte der Zusammenhang verworfen wird. Dies ist dann der Fall, wenn bei geringem Bestimmtheitsmaß ein Test zu dem Ergebnis führt, daß ein Parameter nicht signiﬁkant von Null verschieden ist. Insofern ist dieser Ansatz tiefgreifender. Es kann sein, daß selbst bei vergleichsweise geringem Bestimmtheitsmaß die geschätzten Koeﬃzienten signiﬁkant sind. Dies ist zu erwarten, wenn die Varianz der Störterme recht groß ist. Insofern ist ein geringes Bestimmtheitsmaß kein hinreichender Grund, eine Regression zu verwerfen. Zudem kann es vorkommen, daß bei hohem Bestimmtheitsmaß die Koeﬃzienten nicht signiﬁkant von Null verschieden sind. In solchen Situationen fällt die Entscheidung etwas schwer, sich für oder gegen eine Schätzung auszusprechen. Es stellt sich die Frage, warum Parameter insigniﬁkant sind. Die Entscheidung kann erleichtert werden, wenn die Schätzergebnisse verschiedener Modellspeziﬁkationen zusammen mit ihren Gütekriterien dargestellt und miteinander verglichen werden. Dies führt in den Bereich der multiplen Regression, bei der nicht nur eine erklärende Variable x sondern mehrere x1 , x2 , . . . , xn mit n + 1, n ≥ 1 erklärenden Variablen berücksichtigt werden. Eine Warnung sei zum Schluß ausgesprochen. Durch die Aufstellung der Gleichung 12.1 wird ein funktionaler Zusammenhang zwischen Y und X aufgestellt. Er wird, wie in der Mathematik üblich, der Gestalt interpretiert, daß Y von X abhängig ist. Doch selbst wenn die Regressionskoeﬃzienten signiﬁkant von Null verschieden sind, hat man statistisch keineswegs gezeigt, daß diese Wirkungsrichtung tatsächlich vorliegt. Es könnte auch sein, daß X von Y abhängig ist oder aber drittens, daß sich beide Variablen gegenseitig bedingen. Mit anderen Worten ist eine Regression nicht als Beleg für eine bestimmte Ursache-Wirkungsrichtung zu interpretieren. Dies bedeutet allerdings nicht, daß es völlig gleichgültig wäre, welche Variable Regressand und welche Regressor ist (Schneeweiß, 1978, Kapitel 1.1.5).

12.9

Kontrollfragen

1. Wodurch unterscheidet sich das einfache klassische von dem vollständigen Regressionsmodell?

KAPITEL 12. EINFACHE REGRESSION

270

2. Warum wird das vollständige Modell eingeführt? 3. (a) Was ist eine latente Variable? (b) Geben Sie ein Beispiel für eine solche Variable an. 4. Mit welchem Befehl lassen sich in eine Graphik zusätzlich Geraden einzeichnen? 5. Sind Regressionen für Querschnittsanalysen geeignet? 6. Manche behaupten, die Regressionsrechnung sei sehr einschränkend, weil lediglich lineare Funktionen zugelassen sind. Halten Sie dagegen. 7. Sie haben eine Regression mit dem Befehl ’lm’ geschätzt und möchten gerne die Regressionskoeﬃzienten mit der Zahl vier multiplizieren. Wie lautet der Befehl in ? 8. Wie erstellen Sie eine Prognose? 9. In lassen sich die Residuen händisch berechnen oder sie können dem Regressionsobjekt ’lm(...)’ entnommen werden. Geben Sie jeweils die nötigen Befehle an. 10. Interpretieren Sie das Bestimmtheitsmaß. 11. Wieso kann R2 nur Werte zwischen Null und Eins annehmen? 12. Das Bestimmtheitsmaß ändert sich nicht, wenn alle x-Werte mit einer Konstanten multipliziert werden. Wieso ist diese Eigenschaft so wichtig? 13. Erläutern Sie die Translationsinvarianz mit Hilfe einer Graphik. 14. Wieso können die KQ-Schätzfunktionen als Zufallsvariable angesehen werden? 15. Wie standardisiert man eine Zufallsvariable? 16. Was bedeutet Y ~N (0, 1)? 17. Wie lautet die Testgröße zur Überprüfung, ob a ˆ signiﬁkant von Null verschieden ist? 18. Es ist möglich und gelegentlich aus praktischen Gründen sinnvoll, eine Gerade so in eine Punktwolke zu legen, daß die Abstände zu den Beobachtungen möglichst gering sind. Was ist der Unterschied eines solchen Vorgehens im Vergleich zu einem ökonometrischen Ansatz?

12.10. AUFGABEN

12.10

271

Aufgaben

1. (a) Zeigen Sie, daß Formel 12.13 korrekt ist.137 (b) Begründen Sie etwas genauer als Seite 258 bereits geschehen, warum der Zusammenhang 12.19 gilt.138 (c) Beweisen Sie 12.21. (d) Seite 12.28 heißt es: “Liegen alle Beobachtungen yt auf der Regressionsgeraden, so ist das Bestimmtheitsmaß gleich Eins.” Begründen Sie diese Aussage mit Hilfe eines Diagramms.139 (e) Überprüfen Sie die Richtigkeit von 12.30. ˜t ) = 0. Hinweis: Argumen2. Zeigen Sie, daß bei Geltung von 12.5 Cov(Ut , U tieren Sie genauso wie bei den Varianzen. 3. Interpretieren Sie Formel 12.12 zur Berechnung des KQ-Schätzers ˆb.140 4. Das Bestimmtheitsmaß R2 sei sehr niedrig. Frau Klein schließt hieraus, daß die Schätzung nicht verläßlich ist. Nehmen Sie Stellung.141 5. (a) Zeigen Sie, daß im einfachen Regressionsmodell das Bestimmtheitsmaß R2 bei zwei Beobachtungen gleich Eins sein muß. (b) Statistiker Groß diskutiert mit Unternehmer Maul. Aus diesem Disput zwischen Groß-Maul, ziehen beide die Einsicht, daß im einfachen Regressionsmodell das Bestimmtheitsmaß sinkt, wenn ceteris paribus die Anzahl der Beobachtungen steigt. Stimmt das? Begründen Sie Ihre Position.142 6. Bestimmen Sie die KQ-Schätzer im Beispiel auf Seite 253 mit Hilfe der Gleichungen 12.10 und 12.11. 7. Zeigen Sie, daß 12.61 korrekt ist.*143 8. Eine Regression des Einkommens auf das Lebensalter habe ein Bestimmtheitsmaß von R2 = 0.65 und die KQ-Schätzer seien signiﬁkant von Null verschieden. Statistiker Schlauberger behauptet unter Berufung auf dieses Ergebnis, daß statistisch bewiesen sei, daß das Einkommen von dem Lebensalter abhängt. Nehmen Sie kurz Stellung.144 9. (a) Erzeugen Sie 991 normalverteilte Zufallsvariablen mit Erwartungswert 0 und Varianz 1. (b) Addieren Sie diese Störterme zu ln.Lt, einer Variable erzeugt in Beispiel 12.3.2 auf Seite 256. (c) Berechnen Sie die KQ-Koeﬃzienten der Regression von ln.y auf ln.Lt+ u. (d) Interpretieren Sie das Bestimmtheitsmaß R2 und prüfen Sie, ob die KQ-Schätzer signiﬁkant von Null verschieden sind.

KAPITEL 12. EINFACHE REGRESSION

272

(e) Erzeugen Sie 991 normalverteilte Zufallsvariablen, jetzt aber mit Erwartungswert 0 und Varianz 4 und führen Sie die Schritte 9b bis 9d mit diesen Störvariablen durch.145 10. Logistikfachmann Meier vermutet einen linearen Zusammenhang zwischen Exporten und der Nachfrage nach Logistikleistungen seines Unternehmens. Allerdings ist ihm unklar, ob die Exporte in Euro oder in Eintausend Euro vorliegen. Was raten Sie?146 11. Es wurden aufgrund einer KQ-Schätzung folgende Störterme u ˆt geschätzt: −32, 43, 25, −67, −74, 73, 43. (a) Bestimmen Sie die Summe der Residuen. (b) Interpretieren Sie Ihr Ergebnis.147 12. (a) Lesen Sie folgende zwei Zahlenreihen in

ein:

• 4 5.5 3 3 5 6.6 6.3 6.5 3 2 1 • 4 4.5 3.8 2.3 5.5 6 6 6.5 3 2 2 (b) Stellen Sie die erste Zahlenreihe an der Abszisse und die zweite an der Ordinate graphisch dar. (c) Berechnen Sie die Regression der ersten Zahlenreihe auf die zweite. (d) Welche Besonderheit fällt auf? (e) Berechnen Sie die Residuen. (f) Schätzen Sie die Varianz σ2 .148 13. Dem aufmerksamen Leser wird es nicht entgangenen sein, daß Seite 269 bei der multiplen Regression von n + 1 erklärenden Variablen die Rede ist. Wieso?149

12.A

Beweis der Streuungszerlegungsformel*

Die empirische Varianz s2 (y) von y ist deﬁniert als T · s2 (y) :=

T t=1

(yt − y¯)2

(12.51)

12.A. BEWEIS DER STREUUNGSZERLEGUNGSFORMEL*

273

und kann umgeschrieben werden zu: T · s2 (y) := = = =

T

T

yt t=1 (ˆ

T

yt t=1 (ˆ

yt − y¯ˆt )2 + t=1 (ˆ =

+u ˆt − y¯ ˆ)2 − y¯ ˆt + u ˆt )2

T

T

u t )2 + 2 · t=1 (ˆ

yt t=1 (ˆ

− y¯ ˆt )2 +

(12.52)

T

yt − y¯ˆ) · u ˆt ) t=1 ((ˆ

T

ut )2 t=1 (ˆ

= V ar(ˆ y ) + V ar(ˆ u). Der Übergang von der vierten zur fünften Zeile in 12.52 ist wegen 12.53 korrekt. T yt − y¯ ˆ) · u ˆt ) t=1 ((ˆ =

T

t=1

= = =a ˆ

yˆt · uˆt − y¯ˆ

T

T

t=1

u ˆt

yˆt · u ˆt + 0

t=1

(12.53)

T

a + ˆbxt )uˆt t=1 (ˆ

T

t=1

u ˆt + ˆb

T

t=1

xt u ˆt

= 0. In der zweiten und der vorletzten Zeile von 12.53 ist zu berücksichtigen, daß die Summe aller Residuen gleich Null ist (siehe 12.21). Beachtet man in der vorletzten Zeile zudem 12.54, so folgt die Behauptung. Es gilt T xt · u ˆt = 0. (12.54) t=1

Denn wir können wie folgt umformen: T T ˆt = t=1 xt · (yt − yˆt ) t=1 xt · u = = =

T

T

t=1

t=1

T

t=1 (xt yt

xt y t −

xt y t − a ˆ

T

T

t=1

− xt yˆt )

t=1

xt (ˆ a + ˆbxt )

T xt − ˆb t=1 x2t = 0.

Bei der letzten Zeile wird Normalgleichung 12.9 verwendet, woraus die Behauptung folgt.

KAPITEL 12. EINFACHE REGRESSION

274

12.B

Erwartungswerte der KQ-Koeﬃzienten*

Wir starten mit den Normalgleichungen 12.8 und 12.9 und wenden hierauf den Erwartungswertoperator an. Dies ergibt unter Berücksichtigung von 12.32: E(ˆ a)T + E(ˆb) xt = E(yt ) ⇔ E(ˆ a)T + E(ˆb) xt = (a + bxt + E(ut ))

(12.55)

⇔ E(ˆ a)T + E(ˆb) xt = aT + b xt . bzw. E(ˆ a)

xt + E(ˆb)

x2t = a

xt + b

x2t .

(12.56)

Umstellen von 12.56 auf E(ˆb) und einsetzen in 12.55 ergibt: 2 2 2 a( xt ) +b xt 2xt −E(ˆa)( xt ) = aT + b xt E(ˆ a)T + x t

⇔ E(ˆ a)T

2 x2t + a( xt )2 + b x2t a)( xt )2 = aT xt + b x2t xt − E(ˆ xt ⇔ E(ˆ a)(T

2 x2t − ( xt )2 ) = a(T xt − ( xt )2 ⇔ E(ˆ a) = a. (12.57)

Die Argumentation zum Beweis von 12.41 verläuft analog.

12.C

Standardisierung*

12.C.1

Erwartungswert

In den Normalgleichungen 12.8 und 12.9 sind a ˆ und ˆb abhängig von yt . Wird diese Größe ersetzt durch 12.1, so erhält man ut (12.58) T · (ˆ a − a) + (ˆb − b) · xt = bzw. (ˆ a − a)

xt + (ˆb − b)

x2t =

u t xt .

(12.59)

Auﬂösung dieses Gleichungssystems ergibt analog zu 12.10 und 12.11 gleich: 2 2 2 xt x ¯ xt ut T x ut −T x ¯xt ut ut2− xt 2 ut xt = T x ut2−T = a ˆ−a= 2 T x −( x ) T x −( x )2 T x −( x )2 t

t

=

t

2 xxt )ut ) (x2 −¯ = T x −( x )2

T(

t

t

T(

(x2 −¯ xxt )ut )

T 2 x2 −T 2 (¯ x )2

t

t

t

=

(

(x2 −¯ xxt )ut ) , T s2 (x)

(12.60)

12.C. STANDARDISIERUNG*

275

wobei bei dem Übergang zur letzten Zeile Zusammenhang 3.6 zu beachten ist, und (xt − x ¯)ut xt ut − ut xt ˆb − b = T . (12.61) = ... = T x2t − ( xt )2 T s2 (x)

12.C.2

Varianz

Die Varianz V ar(Y ) einer Zufallsvariablen Y ist deﬁniert als E(Y − E(Y ))2 . Zwecks Berechnung der bedingten Varianzen V ar(ˆ a − a|X) und V ar(ˆb − b|X) werden 12.42 bzw. 12.43 quadriert und hierauf der Erwartungswertoperator angewendet. Dies ergibt x2 σ 2 (12.62) V ar(ˆ a|X) = T s2 (x) bzw. V ar(ˆb|X) =

σ2 . T s2 (x)

(12.63)

Denn es gelten folgende Zusammenhänge, wobei die Darstellung auf 12.62 beschränkt ist; 12.63 geht ganz analog. E(ˆ a − a)2 = E(

( (x2 − x ¯xt )ut )2 ) 2 (T s (x))2

(12.64)

Der Term oberhalb des Bruchstrichs hat folgendes Aussehen (x2 − x ¯x1 )u1 · (x2 − x ¯x1 )u1 +(x2 − x ¯x2 )u2 · (x2 − x ¯x1 )u1 .. . +(x2 − x ¯xT )uT · (x2 − x ¯x1 )u1 +(x2 − x ¯x1 )u1 · (x2 − x ¯x2 )u2

(12.65)

+(x2 − x ¯x2 )u2 · (x2 − x ¯x2 )u2 .. . +(x2 − x ¯xT )uT · (x2 − x ¯x2 )u2 .. . Wird der Erwartungswertoperator angewendet, so sind wegen Annahme 12.34 alle Summanden mit E(ut , ut˜) = 0 für t = t˜ gleich Null und wegen 12.33 ist

KAPITEL 12. EINFACHE REGRESSION

276

E(u2t ) = σ 2 . Damit kann 12.64 umgeformt werden zu

(x2 −¯ xxt )2 E(u2t ) (T s2 (x))2

=

σ2

(x2 −2x2 x ¯xt +¯ x2 x2t ) (T s2 (x))2

(12.66) 2

=

σ2 (T x2 −T 2x2 x ¯2 +T x ¯2 x2 ) (T s2 (x))2

2

=

σ2 (x2 −x2 x ¯2 ) T s4 (x)

=

σ2 x2 (x2 −¯ x2 ) T s4 (x)

=

σ 2 x2 T s2 (x) .

Bei dem Übergang des vorletzten zum letzten Term wurde von Formel 3.6 Gebrauch gemacht. Damit wurde die Korrektheit von 12.62 gezeigt. Die einzig unbekannte Größe ist σ2 , die Varianz der Residuen. Sie wird über T

1 2 u ˆ T − 2 t=1 t

σ ˆ2 =

(12.67)

geschätzt. Wird in V ar(ˆ a|X) = σ 2 (ˆ a|X) das σ 2 ersetzt durch σ ˆ 2 , so kennzeich2 nen wir dies durch σ ˆ (ˆ a|X). Die Variable 2

2

(T − 2) Txs2σˆ(x) (T − 2) · σ ˆ 2 (ˆ a|X) = = x2 σ 2 σ 2 (ˆ a|X) 2 T s (x)

T

ˆt t=1 u σ2

2

ist χ2 -verteilt mit (T − 2) Freiheitsgraden. Division von 12.44 durch σ ˆ (ˆ a|X) σ(ˆ a|X) liefert in Verbindung mit der Deﬁnition der t-Verteilung (siehe Kapitel A.3.5) a ˆ−a σ(ˆ a|X) σ ˆ (ˆ a|X) σ(ˆ a|X)

=

a ˆ−a ~t(T −2) σ ˆ (ˆ a|X)

(12.68)

und entsprechende Operationen für ˆb − b führen zu dem Ergebnis ˆ b−b σ(ˆ b|X) σ ˆ (ˆ b|X) σ(ˆ b|X) ˆ b−b ~t σ ˆ 2 (ˆ b|X) (T −2)

=

ˆb − b ~t(T −2) . σ ˆ (ˆb|X) ˆ

(12.69)

bedeutet, daß die Zufallsvariable σˆ 2b−b t-verteilt ist mit T − 2 (ˆ b|X) Freiheitsgraden. Eine t-verteilte Zufallsvariable erhält man, wenn man eine normalverteilte durch eine χ2 -verteilte Zufallsvariable dividiert und beide Variablen stochastisch unabhängig voneinander sind (siehe A.3.4). Die stochastische Unabhängigkeit von Zähler und Nenner in 12.68 und 12.69 wäre noch zu zeigen, was hier jedoch zu weit führen würde. Der interessierte Leser sei verwiesen auf (Schneeweiß, 1978, S. 67).

12.D. PARTIELLE KORRELATION*

12.D

277

Partielle Korrelation*

Die partielle Korrelation haben wir bereits in Kapitel 9.3 kennengelernt. Dort wurde das Maß 9.3 ohne nähere Begründung eingeführt, da noch nicht auf die Regressionsrechnung zurückgegriﬀen werde konnte. Es wird davon ausgegangen, daß die Variable x2 jeweils mit den Variablen y und x1 korreliert sei. Berechnet man nun die Korrelation nach Bravais-Pearson zwischen y und x1 , so wird man eine hohe Korrelation berechnen können, obwohl es zwischen diesen beiden Variablen möglicherweise keinen direkten Zusammenhang gibt. Um herauszuﬁnden, ob es tatsächlich eine direkte Korrelation zwischen y und x1 gibt, kann der Einﬂuß, den Variable x2 auf y hat, und ihre Wirkung auf x1 jeweils durch eine einfache Regression bestimmt werden. Es wird also zuerst eine Regression von y auf x2 und eine zweite von x1 auf x2 berechnet. Die Residuen,ˆ uyx2 bzw. u ˆx1 x2 , dieser beiden Regressionen sind frei von dem Einﬂuß der Variablen x2 . Damit läßt sich die partielle Korrelation über ˆx1 x2 t ˆx x t (1/T ) u ˆyx2 t u u ˆyx2 t u 1 2 ryx1 .x2 = r(ˆ uyx2 , u ˆ x1 x2 ) = = 2 (1/T ) uˆyx2 t (1/T )ˆ u2x1x2 t ˆ2x1 x2 t u ˆ2yx2 t u (12.70) berechnen. Die Residuen lassen sich vermittels Gleichung 12.20 ermitteln. Die Prognosewerte der ersten Regression werden bezeichnet als yˆyx2 und die der zweiten mit x ˆx 1 x 2 . Nun wird gezeigt, daß 12.70 mit 9.2 äquivalent ist. Im folgenden werden die Formeln 12.12 und 12.13 zusammen mit ˆbyx = ryx (s(y)/s(x2 )), 2 2

(12.71)

wobei ˆbyx2 den Schätzwert von byx2 der Regression von y auf x2 bezeichnet, ryx2 die Korrelation zwischen y und x2 sowie s(y) die Standardabweichung von y und s(x2 ) die Standardabweichung der Variablen x2 angibt, verwendet. 12.71 ergibt sich aus 12.12 in Verbindung mit der Deﬁnition der Korrelation 8.1. Damit läßt sich der Schätzer yˆ für y wie folgt berechnen: ˆyx2 + ˆbyx2 x2t = y¯ − ˆbyx2 x ¯2 + ˆbyx2 x2t yˆyx2 t = a (12.72) = y¯ + (ryx2 s(y)/s(x2 )) · (x2t − x ¯2 ). Ganz analog läßt sich auf der Grundlage der zweiten Regression der Schätzer x ˆx1 x2 für x bestimmen: ˆx1 x2 + ˆbx1 x2 x2t = x¯1 − ˆbx1 x2 x ¯2 + ˆbx1 x2 x2t x ˆ x1 x2 t = a (12.73) =x ¯1 + (rx1 x2 s(x1 )/s(x2 )) · (x2t − x ¯2 ).

278

KAPITEL 12. EINFACHE REGRESSION

Der Zähler von 12.70 kann dann wie folgt umgeformt werden: ˆx 1 x 2 = (yt − yˆyx2 ) · (x1t − x ˆx1 x2 ) u ˆyx2 u = ((yt − y¯) − (ryx2 s(y)/s(x2 )) · (x2t − x ¯2 )) ¯1 ) − (rx1 x2 s(x1 )/s(x2 )) · (x2t − x ¯2 )) ·((x1t − x = ((yt − y¯)(x1t − x ¯1 ) −(yt − y¯)(rx1 x2 s(x1 )/s(x2 )) · (x2t − x ¯2 ) −(ryx2 s(y)/s(x2 )) · (x2t − x ¯2 )(x1t − x ¯1 ) +(ryx2 s(y)/s(x2 )) · (x2t − x ¯2 )(rx1 x2 s(x1 )/s(x2 )) · (x2t − x ¯2 ) = T [syx1 − (rx1 x2 s(x1 )/s(x2 ))syx2 −(ryx2 s(y)/s(x2 ))sx1 x2 + (ryx2 s(y)/s(x2 ))(rx1 x2 s(x1 )/s(x2 ))s2 (x2 )] = T [syx1 − rx1 x2 ryx2 s(x1 )s(y) − rx1 x2 ryx2 s(x1 )s(y) + rx1 x2 ryx2 s(x1 )s(y)] = T s(x1 )s(y)[ryx1 − ryx2 rx1 x2 ]. Wird im Nenner berücksichtigt, daß

und

2 uyx2 ) = T s2 (y)(1 − ryx ) T s2 (ˆ 2

(12.74)

ux1 x2 ) = T s2 (x1 )(1 − rx2 1 x2 ) T s2 (ˆ

(12.75)

wegen 12.27 gelten, so zeigt sich, daß Formel 12.70 äquivalent ist zu 9.3.

Anhang A

Theoretische Verteilungen A.1

Einleitung

Um statistische Tests durchführen zu können, benötigt man theoretische Verteilungen, denn ansonsten könnte bei gegebenem Signiﬁkanzniveau der Annahmeund Verwerfungsbereich nicht bestimmt werden. Betrachten wir beispielsweise Glücksspiele. Gehen wir von einem perfekten Würfel aus, bei dem die Wahrscheinlichkeit des Auftretens irgendeine Zahl zwischen 1 und 6 jeweils 1/6 ist, so erwarten wir bei jedem Wurf, daß die Wahrscheinlichkeit des Auftretens stets 1/6 ist. Die relevante Verteilung wäre eine diskrete Gleichverteilung. Ziehen wir aus einer Urne mit k weißen Kugeln und n − k schwarzen Kugeln eine (und nur eine) zufällig heraus, so wäre die Bernoulli-Verteilung relevant. Im Falle eines Tests über den Anteilswert haben wir gesehen, daß bei Vorliegen einer einfachen Stichprobe die Anzahl der weißen Kugeln in einer Stichprobe mit weißen und schwarzen Kugeln binomialverteilt ist. Hierüber wurde auch deutlich, wie wichtig das Erhebungsverfahren ist. Würde eine Stichprobe ohne Zurücklegen vorliegen, so gelangt man zu einer anderen theoretischen Verteilung der Stichprobe: der hypergeometrischen Verteilung. Die Poisson-Verteilung eignet sich zur Beschreibung von Warteschlangenproblemen, wie sie beispielsweise im Operations Research behandelt werden und im Alltag der Logistik, bei Verkäufern, an Schaltern oder im Call-Center vorkommen können. All diese Verteilungen haben eines gemeinsam: es sind Verteilungen über diskrete Merkmale. Das sind solche mit abzählbaren vielen Merkmalsausprägungen. Hierbei kommt es nicht darauf an, ob es endlich oder unendlich viele Merkmalsausprägungen gibt. Die nachfolgend genannten Verteilungen sind stetig, d.h. es gibt unendlich überabzählbar viele Merkmalsausprägungen. In anderen Worten: man kann die Merkmalsausprägungen nicht durch abzählen angeben und es gibt ihrer unendlich viele. Für Ökonomen sind die folgenden stetigen Verteilungen relevant. Die Normalverteilung ist die wichtigste. Denn mit ihr können bei genügend großem Stichprobenumfang einige diskrete Verteilungen approximiert werden. Zudem R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

ANHANG A. THEORETISCHE VERTEILUNGEN

280

ist sie häuﬁg bei einfachen Stichproben relevant, wenn keine theoretische Herleitung, wie bei der Binomialverteilung, möglich ist. Die Verteilungen lassen sich oft durch einige wenige Lageparameter, beispielsweise Erwartungswert und Varianz, beschreiben. Ist bei normalverteilten Merkmalen die Varianz unbekannt, so wird die t-Verteilung relevant. Zudem ist die Normalverteilung Basis für die Chi-Quadrat- und die F-Verteilung. Die theoretischen Verteilungen basieren auf Zufallsexperimenten oder der Zufall spielt eine wichtige Rolle. Bei der Herleitung der Binomial-Verteilung wurde beispielsweise klar: es gibt eine Verbindung des ursprünglichen Wahrscheinlichkeitsraumes in der Grundgesamtheit zu der Verteilung in der Stichprobe. In der Grundgesamtheit gibt es zwei mögliche Ausprägungen, weiß und schwarz. Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen, ist gleich p. Die Art des Stichprobenverfahrens bestimmte dann die theoretische Verteilung in der Stichprobe. Hierdurch wurde sichergestellt, daß vor Ziehen der Stichprobe, die Merkmalsausprägungen in der Stichprobe Zufallsvariablen mit bekannter Verteilung sind. Ist eine Stichprobe abgeschlossen, so spricht man von Realisierungen der Zufallsvariablen. Zufallsvariablen werden üblicherweise mit großen Buchstaben kenntlich gemacht; ihre Realisierungen kennzeichnet man durch Kleinbuchstaben. Das Kapitel gliedert sich in zwei große Bereiche: die diskreten und die stetigen Verteilungen. Hierbei werden jeweils die Funktion dargestellt und die wichtigsten Lageparameter, Erwartungswert und Varianz, angegeben. Um einen optischen Eindruck der Verteilungen zu erhalten, sind die Wahrscheinlickeitsmassefunktion bzw. die Dichte und die zugehörige Verteilungsfunktion jeweils graphisch dargestellt.

A.2

Diskrete Verteilungen

A.2.1

Gleichverteilung*

Grundlagen Im Falle von m Trägerpunkten 1, 2, 3, . . . , m ist ihre Wahrscheinlichkeitsverteilung 1 x = 1, 2, 3, . . . , m QX (x) = m 0 sonst mit Erwartungswert m

E(X) = und Varianz

m

V ar(X) =

1 xi m i=1 m

1 2 1 2 xi − ( xi ) . m i=1 m i=1

A.2. DISKRETE VERTEILUNGEN

281

Beispiel Für die diskrete Gleichverteilung ist in kein spezieller Befehl verfügbar. Es sollte jedoch keine Probleme bereiten, dieselbe Technik anzuwenden, die bereits zur Herleitung der relativen Häuﬁgkeitsverteilung, deren Verteilung sowie graphischen Veranschaulichung angewendet wurde.

A.2.2

Bernoulli- und Binomialverteilung

Grundlagen Die Wahrscheinlichkeitsverteilung der Bernoulli-Verteilung ist ⎧ ⎪ ⎨(1 − p) für x = 0 QX (x) = p für x = 1 ⎪ ⎩ 0 sonst mit Erwartungswert E(X) = p und Varianz Var(X) = p · (1 − p). Sie ist ein Spezialfall der Binomialverteilung. Können Sie das begründen?150 Der Einfachheit wegen ist deren Wahrscheinlichkeitsmassefunktion für die Zufallsvariable X hier wieder angegeben ⎧ ⎪ ⎨ n · px · (1 − p)(n−x) für x 0 QX (x, n, p) = x ⎪ ⎩ 0 sonst mit Erwartungswert E(X) = n · p und Varianz Var(X) = n · p · (1 − p). Beispiel Lade zuerst das Paket ’Rlab’, um die Funktionen zur Berechnung der BernoulliParameter verfügbar zu machen. Im nachfolgenden Befehl steht die ’1’ steht für die Ausprägung, wobei nur 0 und 1 möglich sind. An zweiter Stelle steht die Wahrscheinlichkeit der Ausprägung ’1’. Wir erhalten > dbern(1, 0.5, log = FALSE) [1] 0.5 Die Berechnung der Binomialverteilung wurde bereits in Kapitel 4.2 beschrieben.

ANHANG A. THEORETISCHE VERTEILUNGEN

282

A.2.3

Hypergeometrische Verteilung*

Grundlagen Ihre Wahrscheinlichkeitsmassefunktion ist für x 0 S W · n−x x , P (x, W, S, n) = W +S n mit x = Anzahl gezogener weißer Kugeln, W = Anzahl weißer Kugeln in der Urne, S = Anzahl schwarzer Kugeln in der Urne, n = Stichprobenumfang. Die Anzahl an Kugeln in der Urne bezeichnen wir mit N (= W + S) und die Anzahl an schwarzen Kugeln in der Stichprobe ist gleich: n − x. Zu berücksichtigen ist, daß der Stichprobenumfang n kleiner oder gleich der Anzahl Kugeln in der Grundgesamtheit W + S ist, d.h. (n W + S). Die Anzahl weißer Kugeln in der Grundgesamtheit W kann nicht größer sein als alle Kugeln in ihr, also W W + S. Zudem muß für die Anzahl gezogener weißer Kugeln x gelten, daß sie nicht negativ und nicht kleiner als n − S, also dem Stichprobenumfang abzüglich der Zahl schwarzer Kugeln in der Grundgesamtheit sein kann. Denn angenommen, S wäre gleich Null, so muß x gleich n sein. Gibt es schwarze Kugeln in der Grundgesamtheit, so muß x jedoch mindestens so groß sein wie n−S. Und es muß gelten, daß x nicht größer als der Stichprobenumfang n, aber auch nicht größer als die Anzahl weißer Kugeln in der Grundgesamtheit ist. Diese Bedingungen können folgendermaßen zusammengefaßt werden: max(0, n − S) x min(n, W ). Der Erwartungswert ist E(X) = n ·

W , N

Ihre Varianz berechnet sich über V ar(X) = n ·

W N −n W · (1 − ) . N N N −1

Diese Varianz unterscheidet sich von der der Binomialverteilung durch den Korrekturfaktor N −n , N −1

A.2. DISKRETE VERTEILUNGEN

283

ist nichts weiter als der Anteil der weißen Kugeln in der Grundgesamtdenn W N heit, den wir bei der Binomialverteilung mit p gekennzeichnet haben. Für n = 1 ist dieser Quotient gleich Eins; falls n > 1 ist er kleiner als Eins. Division von (N − n) durch (N − 1) ergibt 1+

1−n . N −1

Der zweite Term strebt für N gegen unendlich gegen Null und damit strebt der gesamte Term für N gegen unendlich gegen 1. Dies bedeutet, daß die Varianz der hypergeometrischen Verteilung für große Grundgesamtheiten sich der Varianz der Binomialverteilung nähert. Zudem läßt sich zeigen, daß die hypergeometrische Verteilung für N → ∞ der der Binomialverteilung nähert Als praktische Konsequenz ergibt sich: Bei großen Grundgesamtheiten kann auch bei Ziehen ohne Zurücklegen die Binomialverteilung als Approximation verwendet werden. Beispiel Über folgende Befehle läßt sich die Wahrscheinlichkeitsmassefunktion veranschaulichen. > Hypergeometrische <- dhyper(c(-20:20), 100, 100, 12, log = FALSE) > plot(c(-20:20),Hypergeometrische) Der Befehl ist folgendermaßen zu interpretieren: dhyper(Anzahl gezogener weißer Kugeln, Anzahl weißer Kugeln in der Urne, Anzahl schwarzer Kugeln in der Urne, Stichprobenumfang, log = FALSE). Wie oben bei der Binomialverteilung wird der Bereich von -20 bis 20 auf der Abszisse betrachtet. Die Anzahl der weißen Kugeln ist identisch der der schwarzen und gleich 100. Der Stichprobenumfang ist ebenfalls derselbe und zwar 12. Man erkennt, daß ihr Verlauf dem der Binomialverteilung schon ziemlich ähnlich ist.

A.2.4

Poisson-Verteilung*

Grundlagen Die Wahrscheinlichkeitsmassefunktion ist QX (x, λ) =

λx −λ ·e x!

mit den Sprungstellen x ∈ N ∪ {0}, Erwartungswert E(X) = λ und Varianz Var(X) = λ. Wird, ausgehend von der Binomialverteilung, p deﬁniert als p := nλ und läßt man n gegen unendlich laufen, so erhält man die Poisson-Verteilung. Denn die Binomialverteilung läßt sich umformen zu n −x x λ λ n(n − 1)(n − 2) · · · (n − x + 1) λ · 1 − · · 1 − . QX (x) = nx x! n n

ANHANG A. THEORETISCHE VERTEILUNGEN

0.15 0.10 0.05 0.00

Hypergeometrische

0.20

284

−20

−10

0

10

20

c(−20:20)

Abbildung A.1: Hypergeometrische Verteilung Quelle: eigene Darstellung

Der erste Term der rechten Seite ist für x = 2 1 1 n(n − 1) n = − =1− . n2 n n n Für n → ∞ strebt dieser Ausdruck gegen 1. Für x = 0 oder x = 1 ist die Argumentation trivial. Für x = 3 errechnet sich der erste Term zu n(n − 1)(n − 2) (n3 − 3n2 + 2n) (n(n2 − 2n − n + 2)) = . = 3 3 n n n3 x

Man erkennt, daß für jedes x ein Faktor nnx existiert und alle anderen nSummanden oberhalb des Bruchstriches einen Exponenten kleiner als x haben. Folglich strebt für jedes x größer oder gleich Null und n → ∞ der erste Term gegen 1. Selbiges gilt für den letzten Term. Der dritte Term strebt für n → ∞ gegen exp(−λ) und man erhält schließlich die Poisson-Verteilung als Grenzfall. Die Bedeutung der Poisson-Verteilung erschließt sich bei Betrachtung eines Warteschlangenproblems, wenn man von der diskreten zur kontinuierlichen Zeitbetrachtung übergeht. Betrachtet man eine gegebene Zeitspanne, z.B. eine Stunde, und teilt sie in n gleichlange Teilperioden ein. Zusätzlich geht man davon aus, daß innerhalb einer solchen Teilperiode keine oder genau eine Person ankommt und die Ankünfte stochastisch unabhängig sind. Die Besetzung der

A.2. DISKRETE VERTEILUNGEN

285

Teilperioden kann demgemäß durch eine Binomialverteilung beschrieben werden. Deﬁniert man λ p := n und läßt n gegen unendlich gehen, so geht die Binomialverteilung in die PoissonVerteilung über. λ, den Erwartungswert der Poisson-Verteilung, nennt man mittlere Ankunftsrate. Beispiel Mit Erwartungswert λ = 10 läßt sich die Wahrscheinlichkeitsmassefunktion graphisch mit den Befehlen > y <- dpois(c(-20:40), 10, log = FALSE) > plot(c(-20:40),y) erzeugen. Die Verteilungsfunktion bei Verwendung derselben Parameter wird über > y1 <- ppois(c(-20:40), 10, lower.tail = TRUE, log.p = FALSE) > plot(c(-20:40),y1) erzeugt.

A.2.5

Geometrische Verteilung*

Grundlagen Ihre Wahrscheinlichkeitsmassefunktion ist für x 0 mit Sprungstellen x ∈ N ∪ {0} QX (x) = (1 − p)x p mit Erwartungswert

(1 − p) p

und Varianz V ar(X) =

(1 − p) , p2

wobei p = Erfolgswahrscheinlichkeit, (1 − p) = Wahrscheinlichkeit eines Mißerfolges. Die Wahrscheinlichkeit QX (x) gibt die Wahrscheinlichkeit von x Mißerfolgen in einer Folge von Bernoulli-Experimenten an. p die Wahrscheinlichkeit genau eines Erfolges. Sie wird bei Fragestellungen verwendet, bei denen die Wahrscheinlichkeit berechnet werden soll, nach wie vielen Mißerfolgen mit einem Erfolg zu rechnen ist.

ANHANG A. THEORETISCHE VERTEILUNGEN

0.00 0.02 0.04 0.06 0.08 0.10 0.12

y

286

−20

−10

0

10

20

30

40

c(−20:40)

Abbildung A.2: Poisson-Verteilung Quelle: eigene Darstellung

Beispiel Die Wahrscheinlichkeitsmassefunktion mit Erfolgswahrscheinlichkeit p = 0, 20 wird über die Befehle

> y <- dgeom(c(-20:40), 0.2, log = FALSE) > plot(c(-20:40), y)

und die Verteilungsfunktion über die Anweisungen

> y1 <- pgeom(c(-20:40), 0.2, lower.tail = TRUE, log.p = FALSE) > plot(c(-20:40),y1)

erzeugt.

A.3. STETIGE VERTEILUNGEN

0.0

0.2

0.4

y1

0.6

0.8

1.0

287

−20

−10

0

10

20

30

40

c(−20:40)

Abbildung A.3: Verteilungsfunktion der Poisson-Verteilung Quelle: eigene Darstellung

A.3 A.3.1

Stetige Verteilungen Rechteckverteilung

Grundlagen Sie ist auch unter dem Namen stetige Gleichverteilung bekannt. Ihre Dichtefunktion zur Zufallsvariablen X ist 1 , für a x b , fX (x) = b−a 0, sonst mit a, b ∈ R und a < b. Sie hat Erwartungswert E(X) =

a+b 2

und Varianz Var(X) =

(a + b)2 . 12

ANHANG A. THEORETISCHE VERTEILUNGEN

0.10 0.00

0.05

y

0.15

0.20

288

−20

−10

0

10

20

30

40

c(−20:40)

Abbildung A.4: Geometrische Verteilung Quelle: eigene Darstellung

Beispiel Der folgende Befehl erzeugt einen Vektor, beginnend bei 0 bis 4 mit der Schrittweite 0,01 und ordnet dieses Objekt dem Buchstaben x zu. > x <- seq(from = 0, to = 4, by=0.01) > x [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 [31] 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 Die Anweisung > y <- dunif(x, min=1, max=3, log = FALSE) ermittelt die Werte der Verteilungsfunktion an den Stellen von x. Minimalwert ist 1, Maximalwert 3, die Wahrscheinlichkeiten werden nicht logarithmiert ausgegeben. Der folgende Befehl führt zur Zeichnung der Dichtefunktion mit x-Werten an der Abszisse und y-Werten an der Ordinate: > plot(x,y,type="l"). Die Befehle

A.3. STETIGE VERTEILUNGEN

0.0

0.2

0.4

y1

0.6

0.8

1.0

289

−20

−10

0

10

20

30

40

c(−20:40)

Abbildung A.5: Verteilungsfunktion der Geometrischen-Verteilung Quelle: eigene Darstellung

> y1 <- punif(x, min=1, max=3, lower.tail = TRUE, log.p = FALSE) > plot(x,y1,type="l") ordnen die Verteilungsfunktion dem Ausdruck y1 zu bzw. der plot-Befehl stellt die Funktion graphisch dar.

A.3.2

Exponentialverteilung*

Grundlagen Das stetige Pendant zur geometrischen Verteilung ist die Exponentialverteilung mit Dichtefunktion λ · e−λx für x 0 fX (x) = 0 sonst für λ > 0, mit Erwartungswert E(X) = und Varianz Var(X) =

1 λ 1 . λ2

ANHANG A. THEORETISCHE VERTEILUNGEN

0.0

0.1

0.2

y

0.3

0.4

0.5

290

0

1

2

3

4

x

Abbildung A.6: Rechteckverteilung Quelle: eigene Darstellung

Beispiel Der Befehl > y <- dexp(seq(-20,40,by=.1), rate = 1, log = FALSE) > plot(seq(-20,40,by=.1), y,type="l") erzeugt die Wahrscheinlichkeitsmassefunktion für λ = 1 (= ’rate’) und die Anweisung > y1 <- pexp(seq(-20,40,by=.1), rate = 1, lower.tail = TRUE, log.p = FALSE) > plot(seq(-20,40,by=.1), y1,type="l") generiert die Verteilungsfunktion.

A.3.3

Normalverteilung

Grundlagen Ihre Dichtefunktion ist 1 x−μ 2 1 fX (x) = √ e− 2 ( σ ) σ 2π

A.3. STETIGE VERTEILUNGEN

0.0

0.2

0.4

y1

0.6

0.8

1.0

291

0

1

2

3

4

x

Abbildung A.7: Verteilungsfunktion der Rechteckverteilung Quelle: eigene Darstellung für −∞ < x < ∞, mit Erwartungswert μ und Varianz σ2 . Aus den Rechenregeln über Erwartungswerte ergibt sich, daß die Dichtefunktion sich um die Konstante a ∈ R verschiebt, wenn statt der Zufallsvariablen X die Variable X−a verwendet wird. Denn dann ist der Erwartungswert E(X − a) = E(X) − a. Ist a = μ , so ist der Erwartungswert von X − μ gleich Null. Wird statt X die Variable X −μ σ verwendet, d.h. wird die Zufallsvariable standardisiert, so ist der Erwartungswert gleich Null und die Varianz gleich Eins. Ist X normalverteilt, so heißt die so standardisierte Variable standardnormalverteilt. Beispiel Benötigt man Informationen über Befehle zur Normalverteilung, so öﬀnet die Anweisung > ?dnorm eine Hilfeseite, der die Befehlsstruktur zur Berechnung der Dichtefunktion entnommen werden kann. ’norm’ ist hierbei die Abkürzung für Normalverteilung.

ANHANG A. THEORETISCHE VERTEILUNGEN

0.0

0.2

0.4

y

0.6

0.8

1.0

292

−20

−10

0

10

20

30

40

seq(−20, 40, by = 0.1)

Abbildung A.8: Exponentialverteilung Quelle: eigene Darstellung

Will man den Wert der Verteilungsfunktion der Normalverteilung berechnen, so nutzt man den Befehl > pnorm. Kennt man den Verteilungstyp, den Erwartungswert und die Varianz, so kann man bei vielen theoretischen Verteilungen bereits zu einer Zufallsvariablen X den Wert der Dichtefunktion, der Verteilungsfunktion oder bei vorgegebener Wahrscheinlichkeit auch ein Quantil berechnen. Der Befehl > x <- seq(-5,5, by=.1) erzeugt einen Spaltenvektor beginnend bei minus 5 bis plus 5mit einer Schrittweite von 0,1. Er wird dem Ausdruck x zugeordnet und die Eingabe von x führt zur Anzeige am Bildschirm. > x [1] -5.0 -4.9 -4.8 -4.7 -4.6 -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 [24] -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5

A.3. STETIGE VERTEILUNGEN

0.0

0.2

0.4

y1

0.6

0.8

1.0

293

−20

−10

0

10

20

30

40

seq(−20, 40, by = 0.1)

Abbildung A.9: Verteilungsfunktion der Exponentialverteilung Quelle: eigene Darstellung

[47] 0.7 [70] 3.0 [93]

-0.4 0.8 1.9 3.1 4.2

-0.3 0.9 2.0 3.2 4.3

-0.2 1.0 2.1 3.3 4.4

-0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.5 4.6 4.7 4.8 4.9 5.0

Die Anweisung > dnorm berechnet die Werte der Dichtefunktion der Normalverteilung; ’d’ steht für density und ’norm’ für Normalverteilung. Im vorliegenden Fall führen die Befehle > y <- dnorm(x, mean=0, sd=1, log = FALSE) und > y zu [1] 1.486720e-06 2.438961e-06 3.961299e-06 6.369825e-06 1.014085e-05 1.598374e-05 2.494247e-05 3.853520e-05

ANHANG A. THEORETISCHE VERTEILUNGEN

0.2 0.0

0.1

y

0.3

0.4

294

−4

−2

0

2

4

x

Abbildung A.10: Standardnormalverteilung Quelle: eigene Darstellung

5.894307e-05 [10] 8.926166e-05 1.338302e-04 1.986555e-04 2.919469e-04 usw. Durch den Befehl > plot(x,y,type="l") wird eine Graﬁk erzeugt, wobei an der Abszisse die Variable x und der Ordinate y abgetragen wird. Es handelt sich um die Standardnormalverteilung, weil ihr Mittelwert 0 und Standardabweichung gleich Eins ist. Die Werte der Verteilungsfunktion einer standardnormalverteilten Zufallsvariablen erhält man über > y1 <- pnorm(x, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) und die Anweisung > y1 würde ihre Werte am Bildschirm erscheinen lassen. Die Anweisung > plot(x,y1,type="l") führt zu ihrer graphischen Veranschaulichung.

A.3. STETIGE VERTEILUNGEN

0.0

0.2

0.4

y1

0.6

0.8

1.0

295

−4

−2

0

2

4

x

Abbildung A.11: Verteilungsfunktion der Standardnormalverteilung Quelle: eigene Darstellung

A.3.4

Chi-Quadrat-Verteilung

Grundlagen Gegeben seien die standardnormalverteilten und stochastisch unabhängigen Zufallsvariablen X1, X2, . . . , Xn , dann heißt χ2 := X12 + X22 + . . . + Xn2 chi-quadrat-verteilt mit n Freiheitsgraden, wobei n die Anzahl der unabhängigen Zufallsvariablen angibt. Die Berechnung des Erwartungswertes ergibt E(χ2 ) = n und ihre Varianz ist Var(χ2 ) = 2n. Sie nimmt nur Werte größer oder gleich Null an. Dieser Verteilungstyp ist in den Wirtschaftswissenschaften sehr wichtig. Zur Überprüfung, ob eine empirische Verteilung mit einer theoretischen Verteilung übereinstimmt, oder bei der Überprüfung auf stochastische Unabhängigkeit zweier Zufallsvariablen kommt sie zur Anwendung.

ANHANG A. THEORETISCHE VERTEILUNGEN

0.00

0.02

y

0.04

0.06

296

0

10

20

30

40

50

c(−5:50)

Abbildung A.12: Dichtefunktion der Chi-Quadrat-Verteilung Quelle: eigene Darstellung

Beispiel Die Dichtefunktion ergibt sich über > y <- dchisq(c(-5:50), 20, ncp=0, log = FALSE) > plot(c(-5:50),y,type="l") Die ’20’ gibt hierbei die Anzahl an Freiheitsgraden (= df = degrees of freedom) an. Zur Erzeugung der zugehörigen Verteilungsfunktion ist einzugeben: > y1 <- pchisq(c(-5:50), 20, ncp=0,lower.tail = TRUE, log.p = FALSE) > plot(c(-5:50),y1,type="l")

A.3.5

t-Verteilung

Grundlagen Gegeben sei die chi-quadrat-verteilte Zufallsvariable χ2 und die standardnormalverteilte Zufallsvariable X und beide seien stochastisch unabhängig voneinander. Dann heißt X Tn = 1 2 n χn

A.3. STETIGE VERTEILUNGEN

0.0

0.2

0.4

y1

0.6

0.8

1.0

297

0

10

20

30

40

50

c(−5:50)

Abbildung A.13: Verteilungsfunktion der Chi-Quadrat-Verteilung Quelle: eigene Darstellung

t-verteilt mit n Freiheitsgraden. Die Anzahl an Freiheitsgraden n zeigt an, wieviel unabhängige Zufallsvariablen in ihr enthalten sind. Ihr Erwartungswert ist E(Tn ) = 0 und Varianz Var(Tn ) =

n n−2

für n 3. Der t-Verteilung fällt in der schließenden Statistik große Bedeutung zu, wenn die Varianz einer normalverteilten Zufallsvariablen Y unbekannt ist. Der Erwartungwert wird über das arithmetische Mittel (erwartungstreu) geschätzt. Die Varianz wird über die korrigierte Stichprobenvarianz, die sich aus quadrierten normalverteilten Zufallsvariablen mit Mittelwert Null zusammensetzen, geschätzt. Dividiert man die korrigierte Stichprobenvarianz durch die wahre, aber unbekannte Standardabweichung (Standardisieriung), so erhält man eine chiquadrat-verteilte Zufallsvariable. Standardisierung der normalverteilten Variablen Y führt zu der standardnormalverteilten Größe Y − E(Y ) X := . V ar(Y ) Kann man zudem zeigen, daß die normalverteilte Zufallsvariable stochastisch

ANHANG A. THEORETISCHE VERTEILUNGEN

0.2 0.0

0.1

y

0.3

0.4

298

−10

−5

0

5

10

seq(−10, 10, by = 0.1)

Abbildung A.14: Dichtefunktion der t-Verteilung Quelle: eigene Darstellung

unabhängig von der standardisierten Stichprobenvarianz ist, so kann man eine t-verteilte bilden. Die standardnormalverteilte Variable X dividiert durch die Quadratwurzel der korrigierten Stichprobenvarianz (die zwecks Standardisierung durch die wahre, aber unbekannte Varianz V ar(Y ) dividiert wird), führt dazu, daß sich die unbekannte Varianz V ar(Y ) herauskürzen läßt. Beispiel Die Dichtefunktion einer standardisierten t-verteilten Zufallsvariablen mit 20 Freiheitsgraden kann erzeugt werden durch > y <- dt(seq(-10,10,by=.1), 20, 0, log = FALSE) > plot(seq(-10,10,by=.1),y,type="l") In Fall einer standardisierten Zufallsvariable ist der Nichtzentralitätsparameter gleich Null zu setzen. Die Verteilungsfunktion läßt sich durch folgende Anweisungen veranschaulichen: > y1 <- pt(seq(-10,10,by=.1), 20, 0, lower.tail = TRUE, log.p = FALSE) > plot(seq(-10,10,by=.1),y1,type="l").

A.3. STETIGE VERTEILUNGEN

0.0

0.2

0.4

y1

0.6

0.8

1.0

299

−10

−5

0

5

10

seq(−10, 10, by = 0.1)

Abbildung A.15: Verteilungsfunktion der t-Verteilung Quelle: eigene Darstellung

A.3.6

F-Verteilung

Grundlagen Gegeben seien die beiden chi-quadrat-verteilten und stochastisch unabhängigen Zufallsvariablen χ2m und χ2n , dann heißt Fnm :=

1 2 m χm 1 2 n χn

F-verteilt mit m Zähler- und n Nenner-Freiheitsgraden. Ihr Erwartungswert ist E(Fnm ) =

n für n > 2 n−2

und ihre Varianz V ar(Fnm ) =

2n2 (m + n − 2) für n > 4. m(n − 2)2 (n − 4)

Dieser Verteilungstyp kommt beispielsweise bei dem Vergleich zweier Varianzen, aber auch in der Regressionsrechnung bei zusammengesetzten Hypothesen über die Regressanden zum Einsatz.

ANHANG A. THEORETISCHE VERTEILUNGEN

0.0

0.2

0.4

y

0.6

0.8

1.0

300

−2

0

2

4

6

8

10

seq(−2, 10, by = 0.01)

Abbildung A.16: Dichtefunktion der F-Verteilung Quelle: eigene Darstellung

Beispiel Folgende Befehle erzeugen für den Deﬁnitionsbereich [−2, 10] mit Schrittweite 0,01, Zählerfreiheitsgraden von 10 und Nennerfreiheitsgraden in Höhe von 300, > y <- df(seq(-2,10, by=0.01), 10, 300, 0,log = FALSE) > plot(seq(-2,10,by=0.01),y,type="l") Im Fall einer standardisierten Zufallsvariable ist der Nichtzentralitätsparameter, wie bei der t-Verteilung, gleich Null zu setzen. Die Verteilungsfunktion wird erzeugt über > y1 <- pf(seq(-2,10, by=0.01), 10, 20, 0,lower.tail = TRUE, log.p = FALSE) > plot(seq(-2,10, by=0.01),y1,type="l")

A.3. STETIGE VERTEILUNGEN

0.0

0.2

0.4

y1

0.6

0.8

1.0

301

−2

0

2

4

6

8

seq(−2, 10, by = 0.01)

Abbildung A.17: Verteilungsfunktion der F-Verteilung Quelle: eigene Darstellung

10

Anhang B

Matrizenrechnung B.1

Einleitung

Matrizen erleichtern dem Statistiker das Leben ungemein. Rohdaten, bei denen die Zeilennamen gleich dem Objektnamen sind und die Spaltennamen gleich den Merkmalen mit ihren Ausprägungen in der jeweiligen Spalte, können als Matrix aufgefaßt werden. Hat man zwei Rohdaten mit identischer Anzahl von Zeilen und Spalten und möchte jede Zelle des einen addieren zu derselben Zelle des anderen, so kann man die Rechenregeln zur Addition von Matrizen verwenden. Es zeigt sich, daß bei multivariaten Daten viele Kenngrößen mit Hilfe der Matrizenrechnung bequem und schnell berechnet werden können. Allein aus diesen Gründen lohnt es sich, den Umgang mit Matrizen zu lernen. Matrizen sind zudem eine kompakte Schreibweise zur Darstellung von Zusammenhängen und Berechnungen, die in anderer Schreibweise nur schwer nachzuvollziehen wäre. Aus diesen Gründen werden hier die wichtigsten Deﬁnitionen und Sätze der Matrizenrechnung vorgestellt. Zudem zeigt sich, daß mit Hilfe von viele Rechnungen, die ohne Programmunterstützung mühsam durchzuführen waren, nun in sekundenschnelle berechnet werden können. Dies sollte Anreiz und Motivation sein, sich mit der Matrizenrechnung und adäquaten Programmen vertraut zu machen. Im ersten Abschnitt wird die Deﬁnition einer Matrix und von Vektoren eingeführt. In der praktischen Anwendung zeigt sich, daß bestimmte Typen von Matrizen besonders wichtig sind, weshalb die wichtigsten eigens zusammengestellt werden. Um mit Matrizen rechnen zu können, müssen Verknüpfungen zwischen ihnen deﬁniert sein. dies geschieht in Abschnitt B.3. Hier werden Addition und Multiplikation von Matrizen sowie ihre Rechenregeln dargestellt. Matrizen können auch dazu genutzt werden, Gleichungssysteme zu lösen. Hierzu sind die Eigenschaften der Matrizen näher zu bestimmen. Aus diesem Grund werden die Begriﬀe lineare Unabhängigkeit, Rang, Determinante und Inverse einer Matrix eingeführt und Rechenregeln präsentiert. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

ANHANG B. MATRIZENRECHNUNG

304

B.2

Matrizen

B.2.1

Deﬁnition

Zwecks Vereinfachung der Darstellung werden hier Matrizen mit reellen Zahlen betrachtet. Die Ausführungen gelten allerdings auch für reelle Zufallsvariablen, sofern die Rechenoperationen deﬁniert sind. Eine Matrix ist eine besondere Anordnung von Zahlen. Eine (m × n)-Matrix X mit den Elementen xij für i = 1, 2, 3, . . . , m und j = 1, 2, 3, . . . , n hat folgenden Aufbau ⎛ ⎞ a11 . . . a1n ⎜ .. ⎟ . X := ⎝ ... (B.1) . ⎠ ...

am1

amn

Wir schreiben hierfür auch X = X(m×n) = aij , i = 1, . . . , m, j = 1, . . . , n.

(B.2)

m ist die Anzahl der Zeilen und n die der Spalten. Falls X eine (m × n)-Matrix ist, dann ist ihre transponierte jene Matrix, die aus X hervorgeht, indem ihre Spaltenvektoren in die neue Matrix X als Zeilenvektoren geschrieben werden. Die Transponierte X ist dann eine (n × m)Matrix.

B.2.2

Vektoren

Eine (m × 1)-Matrix heißt Spaltenvektor mit m Dimensionen: ⎛

⎞ x1 ⎜ ⎟ x := ⎝ ... ⎠ .

(B.3)

xm Greifen wir die i-te Zeile aus Matrix X heraus, so nennen wir ihn n-dimensionalen Zeilenvektor und schreiben x := (x1 , . . . , xn ).

(B.4)

Will man in der Matrix X eine bestimmte Spalte herausgreifen, so schreibt man ⎛ ⎞ x1j ⎜ ⎟ X•j = ⎝ ... ⎠ . (B.5) xmj Will man eine bestimmte Zeile angeben, so nutzt man folgende Notation Xi• = (xi1 , . . . , xin ).

(B.6)

B.2. MATRIZEN

B.2.3

305

Typen

Ist m = n so heißt Matrix X quadratisch. Eine quadratische Matrix heißt symmetrisch, wenn gilt xij = xji für alle i, j = 1, 2, 3, . . . , n. Bei einer symmetrischen Matrix X gilt: X = X . Folgende Matrix ⎛ ⎞ 1 0 ... 0 ⎜0 1 . . . 0 ⎟ ⎜ ⎟ I := ⎜ . .⎟ .. ⎝ .. . .. ⎠ 0 0

...

(B.7)

(B.8)

1

heißt Einheitsmatrix. Sie ist quadratisch und zugleich auch symmetrisch. Deﬁnieren wir r als die kleinere der beiden Zahlen m und n, dann heißen die Elemente a11 , a22 , a33 , . . . , arr die Hauptdiagonalelemente der Matrix X. Den Vektor a11 , a22 , a33 , . . . , arr nennen wir Hauptdiagonale. Im Falle der Einheitsmatrix besteht die Hauptdiagonale ausschließlich aus Einsen. Die Einheitsmatrix ist ein Spezialfall der n×n-Diagonalmatrix. Bei ihr stehen lediglich auf der Hauptdiagonalen von Null verschiedene Zahlen. ⎛ ⎞ x1 0 . . . 0 ⎜ 0 x2 . . . 0 ⎟ ⎜ ⎟ X := ⎜ . (B.9) .. ⎟ .. ⎝ .. . . ⎠ 0 0 . . . xn Sind sogar alle Elemente auf der Hauptdiagonale einer Diagonalmatrix gleich Null, so heißt diese Matrix Nullmatrix: ⎛ ⎞ 0 ... 0 ⎜0 . . . 0⎟ ⎜ ⎟ (B.10) X := ⎜ . .. ⎟ . ⎝ .. .⎠ 0

...

0

Sind bei einer quadratischen Matrix alle Elemente unterhalb der Hauptdiagonalen gleich Null, ⎞ ⎛ x11 x12 . . . a1n ⎜ 0 x22 . . . a2n ⎟ ⎟ ⎜ (B.11) X := ⎜ . .. ⎟ , .. ⎝ .. . . ⎠ 0

0

...

xnn

so spricht man von einer oberen Dreiecksmatrix. Im umgekehrten Fall, wenn oberhalb der Hauptdiagonale nur Nullen stehen, heißt die Matrix untere Dreiecksmatrix.

ANHANG B. MATRIZENRECHNUNG

306 Der Vektor

⎛ ⎞ 0 ⎜ .. ⎟ ⎜.⎟ ⎜ ⎟ ⎜0⎟ ⎜ ⎟ ⎟ ej := ⎜ ⎜1⎟ , ⎜0⎟ ⎜ ⎟ ⎜.⎟ ⎝ .. ⎠

(B.12)

0 bei dem die ’1’ in der j-ten Zeile steht, heißt j-ter Einheitsvektor. Sind alle Elemente eines Vektors gleich ’1’, so heißt er Einsvektor, sollten alle Elemente eines Vektors gleich Null sein, so spricht man von einem Nullvektor.

B.3 B.3.1

Verknüpfungen Gleichheitsrelation

Deﬁnition Zwei Matrizen X(m×n) und Y(m×n) sind einander gleich, X(m×n) = Y(m×n) , wenn für jedes ihrer Elemente gilt xij = yij , d.h. xij = yij gilt für alle i ∈ {1, 2, 3, . . . , m} und alle j ∈ {1, 2, 3, . . . , n}. Beispiele Ob Matrizen einander gleich sind oder nicht, kann mit leicht überprüft werden. Zunächst werden die Matrizen ’X’ uns ’Y’ erzeugt und anschließend wird überprüft, ob ’X’ kleiner oder größer ist als ’Y’. Sofern bei beiden Vergleichen an allen Stellen i = 1, 2, . . . , m und j = 1, 2, . . . , n ’FALSE’ ausgegeben wird, sind die Elemente xij und yij einander gleich. > X <- matrix(c(1,2,3,4),ncol=2) > Y <- matrix(c(1,2,3,4),ncol=2) > X [,1] [,2] [1,] 1 3 [2,] 2 4 > Y [,1] [,2] [1,] 1 3 [2,] 2 4 > X X>Y

B.3. VERKNÜPFUNGEN

307

[,1] [,2] [1,] FALSE FALSE [2,] FALSE FALSE > Z <- matrix(c(2,3,4,5),ncol=2) > Z [,1] [,2] [1,] 2 4 [2,] 3 5 > X X>Z [,1] [,2] [1,] FALSE FALSE [2,] FALSE FALSE

B.3.2

Addition

Deﬁnition Zwei Matrizen X(m×n) und Y(m×n) werden addiert und zur Matrix Z(m×n) zusammengefaßt, indem zij := xij + yij für alle i = 1, 2, 3, . . . , m und alle j = 1, 2, 3, . . . , n. Rechenregeln Wir gehen davon aus, daß die Matrizen X, Y, Z (m × n)-Matrizen sind. Dann gelten folgende Regeln: X + Y = Y + X,

(B.13)

X + 0 = X,

(B.14)

(X + Y) + Z = X + (Y + Z),

(X + Y) = X + Y .

(B.15) (B.16)

Beispiele Die Matrizen aus dem Beispiel von Seite 306 werden weiter genutzt. Stimmen die Dimensionen der Matrizen nicht überein, so ist eine Addition nicht möglich. > X1 <- matrix(c(1,2,3,4,5,6,7,8,9),ncol=3) > X1 [,1] [,2] [,3] [1,] 1 4 7 [2,] 2 5 8

ANHANG B. MATRIZENRECHNUNG

308

[3,] 3 6 9 > X+X1 Fehler in X + X1 : nicht passende Arrays Die Addition xon ’X’ und ’Y’ ergibt: > Z <- X+Y > Z [,1] [,2] [1,] 3 7 [2,] 5 9. Eine andere Reihenfolge der Addition führt zu demselben Ergebnis. > Y+X [,1] [,2] [1,] 2 6 [2,] 4 8 Bei der Addition von Matrizen können die Klammern beliebig gesetzt werden, denn es ergeben sich stets dieselben Ergebnisse. > (X+Y)+Z [,1] [,2] [1,] 4 10 [2,] 7 13 > X+(Y+Z) [,1] [,2] [1,] 4 10 [2,] 7 13 Die transponierte Matrix einer Summe von Matrizen ist gleich der Summe der transponierten. Man beachte hierbei, daß der Befehl zur Transponierung einer Matrix gleich ’t(.)’ ist. > t(X+Y) [,1] [,2] [1,] 2 4 [2,] 6 8 > t(X)+t(Y) [,1] [,2] [1,] 2 4 [2,] 6 8

B.3.3

Skalare Multiplikation

Deﬁnition Gegeben seien die reellen Zahlen a, b und die (m × n)-Matrix X. Die Multiplikation von a mit der Matrix X, a · X, wird vorgenommen, indem jedes Element xij für i = 1, 2, 3, . . . , m und j = 1, 2, 3, . . . , n mit a multipliziert wird.

B.3. VERKNÜPFUNGEN

309

Rechenregeln a, b seien reelle Zahlen und X eine (m×n)-Matrix. Dann gelten folgende Regeln: a · X = X · a,

(B.17)

(a + b) · X = a · X + b · X,

(B.18)

a · (b · X) = (a · b) · X = b · (a · X),

(B.19)

(a · X) = a · X .

(B.20)

Beispiele Wie in einem ganz normalen Taschenrechner erfolgt in kation.

die skalare Multipli-

> a*X [,1] [,2] [1,] 2 6 [2,] 4 8 > X*a [,1] [,2] [1,] 2 6 [2,] 4 8 Die Rechenregeln B.18, B.19 und B.20, lassen sich beispielhaft leicht überprüfen: > (a+b)*X [,1] [1,] 5 [2,] 10 > a*X+b*X [,1] [1,] 5 [2,] 10 > a*(b*X) [,1] [1,] 6 [2,] 12 > (a*b)*X [,1] [1,] 6 [2,] 12 > b*(a*X) [,1] [1,] 6 [2,] 12

[,2] 15 20 [,2] 15 20 [,2] 18 24 [,2] 18 24 [,2] 18 24

ANHANG B. MATRIZENRECHNUNG

310

B.3.4

Produkt zweier Matrizen

Deﬁnition Wir setzen die Matrizen X(m×n) und Y(n×r) voraus. Das Produkt dieser beiden Matrizen ist wie folgt deﬁniert: Xm×n Yn×r := Zm×r = (z ij ) für i = 1, 2, 3, . . . , m; j = 1, 2, 3, . . . , n, mit zij := nk=1 xik · ykj für alle i, j. (B.21) Mit anderen Worten wird der erste Zeilenvektor der Matrix X mit dem ersten Spaltenvektor von Y elementweise multipliziert und diese Produkte aufsummiert, um z11 zu erhalten: z11 = x11 · y11 + x12 · y21 + x13 · y31 + · · · + x1n · yn1 . z21 erhält man, indem die Elemente des zweiten Zeilenvektors von X mit den Elementen des ersten Spaltenvektors der Matrix Y multipliziert und diese Produkte aufsummiert werden. So verfährt man, bis schließlich alle Elemente der Matrix Z berechnet wurden. Als Ergebnis erhält man aus der Multiplikation der (m × n)-Matrix X mit der (n × r)-Matrix Y eine (n × r)-Matrix Z. Rechenregeln a sei eine reelle Zahl. Gestatten die Dimensionen der Matrizen die Bildung der Produkte der Matrizen, dann gelten folgende Rechenregeln. (XY)Z = X(YZ),

(B.22)

X(Y + Z) = XY + XZ,

(B.23)

(X + Y)Z = XZ + YZ,

(B.24)

a · (XY) = (a · X)Y = X(a · Y),

(B.25)

IX = X = XI,

(B.26)

0X = 0 = X0,

(B.27)

(XY) = Y X ,

(B.28)

XX ist symmetrisch

(B.29)

X X ist symmetrisch.

(B.30)

und auch Man beachte jedoch, daß im allgemeinen XX = X X.

B.3. VERKNÜPFUNGEN

311

Beispiele

Es werden wieder die bereits zuvor genutzten Matrizen X, Y, Z verwendet und die Gültigkeit der Rechenregeln beispielhaft mit illustriert. Die Berechnungen der anderen Beziehungen geht analog und sollten vom Leser zur Übung selbst durchgeführt werden.

> X%*%Y [,1] [,2] [1,] 7 15 [2,] 10 22 > (X%*%Y)%*%Z [,1] [,2] [1,] 59 103 [2,] 86 150 > X%*%(Y%*%Z) [,1] [,2] [1,] 59 103 [2,] 86 150 > X%*%(Y+Z) [,1] [,2] [1,] 18 34 [2,] 26 50 > X%*%Y+X%*%Z [,1] [,2] [1,] 18 34 [2,] 26 50 > (X+Y)%*%Z [,1] [,2] [1,] 22 38 [2,] 32 56 > X%*%Z+Y%*%Z [,1] [,2] [1,] 22 38 [2,] 32 56 > a <- 2 > a*(X%*%Y) [,1] [,2] [1,] 14 30 [2,] 20 44

ANHANG B. MATRIZENRECHNUNG

312

B.3.5

Multiplikation von Vektoren

Folgerung Wir starten mit zwei Vektoren, dem n-dimensionalen Zeilenvektor x = (x1 , . . . , xn ) und dem n-dimensionalen Spaltenvektor ⎛ ⎞ y1 ⎜ .. ⎟ y = ⎝ . ⎠. yn

Die Multiplikation von x mit y ergibt:

x ·y =

n

xi · yi .

(B.31)

i=1

Multipliziert man jedoch einen n-dimensionalen Spaltenvektor y mit einem mdimensionalen Zeilenvektor z , so erhält man eine (n × m)-dimensionale Matrix: ⎛ ⎞ y1 z1 . . . y1 zm ⎜ .. ⎟ . y · x = ⎝ ... (B.32) . ⎠ yn z1

...

yn z m

Beispiele Zunächst werden Anweisungen gegeben, wodurch die Spaltenvektoren ’x,y,z’ gebildet werden. Die Dimensionen der Vektoren ’x’ und ’y’ sind identisch, die von ’z’ um eins höher. Wird ein Zeilenvektor mit einem Spaltenvektor multipliziert, so erhält man eine reelle Zahl. Hierbei ist zu beachten, daß die beiden Vektoren dieselbe Dimension haben müssen. Multipliziert man jedoch einen Spaltenvektor mit einem Zeilenvektor, wobei die Dimensionen unterschiedlich sein können, so ergibt sich eine Matrix. > > > >

x <- c(1,2) y <- c(3,4) z <- c(5,6,7) t(x)%*%y [,1] [1,] 11 > x <- c(1,2) > y <- c(3,4) > z <- c(5,6,7) > t(x)%*%y [,1] [1,] 11 > y%*%t(z) [,1] [,2] [,3] [1,] 15 18 21 [2,] 20 24 28

B.4. UNABHÄNGIGKEIT, RANG, DETERMINANTE, INVERSE

B.4 B.4.1

313

Unabhängigkeit, Rang, Determinante, Inverse Lineare Unabhängigkeit

Deﬁnitionen Wir gehen von der Existenz der Vektoren x, x1 , . . . , xn ∈ Rm aus. Wir sagen, x sei eine Linearkombination der Vektoren x1 , . . . , xn , genau dann, wenn (∃a1 , . . . , an ∈ R)(x = a1 x1 + · · · + an xn ).

(B.33)

Falls für alle a1 , . . . , an ∈ R gilt, daß aus 0 = a1 x1 + · · · + an xn

(B.34)

folgt, daß a1 = · · · = an = 0, dann heißen die Vektoren x1 , . . . , xn linear unabhängig. Andernfalls bezeichnen wir sie als linear abhängig. m unabhängige Vektoren des Rm heißen Basis des Rm . Gibt es in einer beliebigen Menge von Vektoren des Rm m linear unabhängige Vektoren, so bezeichnen wir diese Menge als Erzeugendensystem. Folgerungen Angenommen, es gibt die Vektoren x1 , . . . , xn ∈ Rm . Falls n m + 1 gilt, sind die Vektoren auf jeden Fall linear abhängig. Wenn die Vektoren x1 , . . . , xm ∈ Rm linear unabhängig sind, dann läßt sich jeder Vektor x ∈ Rm als Linearkombination der Vektoren xi , i = 1, 2, 3, . . . , m darstellen. Beispiele Wir setzen m = 2, das heißt, wir betrachten den zweidimensionalen Raum. Als Vektoren x1 , x2 wählen wir (1, 0) und (0, 1) , d.h. die Einheitsvektoren. a1 (1, 0) + a2 (0, 1) ist nur dann gleich 0 , wenn a1 = a2 = 0. Aus diesem Grund sind die beiden Einheitsvektoren eine Basis des R2 . Jeder Punkt des zweidimensionalen Raumes kann als Linearkombination der beiden Einheitsvektoren dargestellt werden. Man wähle a1 als Koordinate der x-Achse und a2 als Koordinate der y-Achse. Freilich kann man eine andere Basis wählen, z.B. (2, 0) und (0, 2). Die Parameterwerte a1 , a2 müßten dann entsprechend anders gewählt werden, um dieselben Punkte wie zuvor anzusprechen.

B.4.2

Rang

Deﬁnition Die maximale Anzahl an linear unabhängigen Spaltenvektoren der Matrix X heißt Rang der Matrix X und bezeichnen dies kurz mit RangX oder rgX. Hat eine quadratische n-dimensionale Matrix X den Rang n, so sagen wir, sie sei regulär.

ANHANG B. MATRIZENRECHNUNG

314 Rechenregeln

Wir betrachten die zwei Matrizen Xm×n und Yn×r , dann gelten folgende Zusammenhänge: Rang(X) = Rang(X ), (B.35) Rang(XY) min(Rang(X), Rang(Y),

(B.36)

Rang(0) = 0

(B.37)

X ist regulär ⇒ Rang(XY) = Rang(Y),

(B.38)

Rang(X) min(m, n),

(B.39)

Rang(X X) = Rang(X).

(B.40)

Beispiele Um den Rang einer Matrix zu berechnen, muß das Paket ’fUtilities’ geladen werden. Der nötige Befehl lautet ’rk’. Zur Illustration der Rechenregeln sind eine quadratische Matrix ’X1’ und eine (2×3)-dimensionale Matrix ’X2’ gebildet worden. Als erstes wird Regel B.35 veranschaulicht, dann B.36 und B.37. > X1 <- matrix(c(2,2,3,4),ncol=2) > X1 [,1] [,2] [1,] 2 3 [2,] 2 4 > X2 <- matrix(c(5,6,3,4,5,5),ncol=3) > X2 [,1] [,2] [,3] [1,] 5 3 5 [2,] 6 4 5 > rk(X2) [1] 2 > rk(t(X2)) [1] 2 > rk(X1%*%X2) [1] 2 > rk(X1) [1] 2 > rk(X1%*%X2) [1] 2

B.4.3

Determinante

Deﬁnition Wir starten mit der (n × n)-Matrix X. Xij für i, j ∈ {1, 2, 3, . . . , n} sei die Matrix X(n−1)×(n−1) , die durch Streichung der i-ten Zeile und der j-ten Spalte

B.4. UNABHÄNGIGKEIT, RANG, DETERMINANTE, INVERSE

315

aus X hervorgeht. Die Determinante von X, det(X), ist deﬁniert als det(X) = x11 für n = 1, det(X) =

n

(B.41)

(−1)i+j xij · det(Xij ) für n 2 für ein festes i ∈ {1, 2, 3, . . . , n}.

j=1

(B.42) Man erkennt, daß die Anwendung der Deﬁnition bei Matrizen höherer Dimension ohne Software ziemlich rechenintensiv ist. Wir werden sehen, daß die Berechnung in recht schnell erfolgt. Für die praktische Anwendung sind jedoch die Eigenschaften der Determinante interessant. Rechenregeln Wir setzen (n × n)-dimensionale Matrizen X und Y voraus und a sei eine reelle Zahl, dann gelten folgende Regeln: det(X) = det(X ),

(B.43)

Werden entweder zwei Zeilen oder zwei Spalten miteinander vertauscht, so bleibt der Betrag unverändert, aber das Vorzeichen ändert sich. (B.44) ⎞ ⎛ ⎞ ⎛ x11 x11 . . . x1n 0 ⎟ ⎜ .. ⎟ = ⎜ .. .. .. det ⎝ (B.45) ⎠ = Πni=1 xii , . . . ⎠ ⎝ . 0

xnn

xn1

...

xnn

X ist regulär ⇔ det(X = 0),

(B.46)

det(XY) = det(X) · det(Y),

(B.47)

n

det(a · X) = a · det(X).

(B.48)

Beispiele In folgendem Beispiel werden zwei Spalten der Matrix ’X1’ vertauscht. Die so entstandene Matrix wird mit ’X3’ gekennzeichnet. In der Tat ändert sich hierdurch der Betrag nicht, aber das Vorzeichen. > X1 [,1] [,2] [1,] 2 3 [2,] 2 4 > det(X1) [1] 2 > X3 <- matrix(c(3,4,2,2),ncol=2) > X3 [,1] [,2] [1,] 3 2

ANHANG B. MATRIZENRECHNUNG

316 [2,] 4 > det(X3) [1] -2

2

Es wird die Matrix ’X4’ erzeugt, eine obere Dreiecksmatrix. Gemäß B.45 müßte die Determinante gleich der Multiplikation der Elemente auf der Hauptdiagonale sein, also 15: es stimmt. > X4 <- matrix(c(1,0,0,2,3,0,5,6,5),ncol=3) > X4 [,1] [,2] [,3] [1,] 1 2 5 [2,] 0 3 6 [3,] 0 0 5 > det(X4) [1] 15 > x5 <- 1 > for (i in 1:3)(x5 <- x5*X4[i,i]) > x5 [1] 15

B.4.4

Inverse

Deﬁnition Vorausgesetzt wird eine quadratische Matrix Xn×n . Sie heißt invertierbar, wenn eine Matrix X−1 existiert, so daß X · X−1 = I.

(B.49)

X−1 heißt Inverse zur Matrix X. X−1 ist eindeutig und es gilt auch X−1 · X = I.

(B.50)

Mit Hilfe der Inversen ist es möglich, Gleichungssysteme zu lösen. Nicht zu jeder Matrix gibt es eine Inverse. Ist jedoch Xn×n regulär, dann ist die (n × n)Matrix Y berechnet über yij =

(−1)i+j · det(Xji ) det(X)

(B.51)

Inverse zur Matrix X. Rechenregeln Sind die Verknüpfungen deﬁniert, so gelten folgende Zusammenhänge: X ist invertierbar ⇔ X ist regulär,

(B.52)

(XY)−1 = Y−1 · X−1 ,

(B.53)

B.4. UNABHÄNGIGKEIT, RANG, DETERMINANTE, INVERSE (X−1 ) = (X )−1 , (a · X)−1 = ⎛ x11 ⎜ X=⎝ 0

⎞

0 ..

(B.54)

1 · X−1 , a ⎛ 1

⎜ ⎟ ⎠ ⇒ X−1 = ⎝

. xnn det(X

(X

x11

0

−1

−1

) = (det(X))

−1 −1

)

317

,

= X,

I−1 = I,

(B.55) 0 ..

.

⎞ ⎟ ⎠,

(B.56)

1

xnn

(B.57) (B.58) (B.59)

Beispiele Es werden zwei Matrizen ’X11’ und ’Y11’ gebildet. Beide haben vollen Rang n = 2. Dann wird beispielhaft Regel B.52 überprüft. > X11 <- matrix(c(1,22,3,5),ncol=2) > X11 [,1] [,2] [1,] 1 3 [2,] 22 5 > library(fUtilities) Lade nötiges Paket: MASS Rmetrics Package fUtilities (270.73) loaded. > rk(X11) [1] 2 > Y11 <- matrix(c(4,2,66,3),ncol=2) > Y11 [,1] [,2] [1,] 4 66 [2,] 2 3 > rk(Y11) [1] 2 > inv(X11%*%Y11) [,1] [,2] [1,] 0.20040984 -0.010245902 [2,] -0.01338798 0.001366120 > inv(Y11)%*%inv(X11) [,1] [,2] [1,] 0.20040984 -0.010245902 [2,] -0.01338798 0.001366120 Die Inverse, XY−1 , multipliziert mit XY muß die Einheitsmartrix ergeben. Wegen Rundungsfehlern ist das Ergebnis nicht exakt gleich dem theoretischen Ergebnis.

318

ANHANG B. MATRIZENRECHNUNG

> inv(X11%*%Y11)%*%(X11%*%Y11) [,1] [,2] [1,] 1.000000e+00 -4.003742e-15 [2,] -1.647987e-17 1.000000e+00 In folgendem Beispiel soll gezeigt werden, wie mit Hilfe der Matrizenrechnung ein Gleichungssystem gelöst werden kann. Gelöst werden soll: 3x1 + 7x2 + 3x3 = 50 5x1 + 5x2 + 2x3 = 44 . 6x1 + 6x2 + 3x3 = 34

(B.60)

Die x1 , x2 , x3 werden zu dem Vektor x = (x1 , x2 , x3 ) , die Zahlen der linken Seite zu der Matrix A und die Zahlen der rechten Seite zu dem Vektor b = (50, 44, 34) zusammengefaßt. In Matrixschreibweise lautet das Gleichungssystem nun A · x = b. Der Rang von A ist gleich 3, hat also vollen Rang und ist damit regulär (vergleiche Seite 313). Aus diesem Grund kann die Inverse gebildet und auf beiden Seiten der Gleichung von links her mit ihr multipliziert werden. Damit steht auf der linken Seite der Vektor x und auf ⎛ der⎞rechten Seite, die Lösung des Gleichungssystems 1, 33 in Form von A−1 · b = ⎝ 20 ⎠. −31 > A <- matrix(c(3,5,6,7,5,6,3,2,3),ncol=3) > b <- c(50,44,34) > A [,1] [,2] [,3] [1,] 3 7 3 [2,] 5 5 2 [3,] 6 6 3 > b [1] 50 44 34 > rk(A) [1] 3 > inv(A)%*%b [,1] [1,] 1.333333 [2,] 20.000000 [3,] -31.333333 Zur Lösung von Gleichungssystemen in ist die Berechnung der Inversen allerdings nicht vorteilhaft. Man nutzt besser den Befehl ’solve’.

B.5. EIGENWERTE, EIGENVEKTOREN UND SPUR

B.5 B.5.1

319

Eigenwerte, Eigenvektoren und Spur Deﬁnitionen

Vorausgesetzt wird eine (n × n)-dimensionale Matrix A. Die Eigenwerte sind deﬁniert als Lösung der Gleichung det(A − λ · I) = 0.

(B.61)

Bei einer (n × n) Matrix gibt es n Eigenwerte. Die Bedeutung der λ’s wird klarer, wenn das Argument der Determinante genauer betrachtet wird. Wir können schreiben: A = λi · I , (B.62) A · x = λi x für i = 1, . . . , n. Angenommen, die Determinante der Matrix An×n sei von Null verschieden. Dann wäre sie regulär, d.h. ihre Spalten (und auch ihre Zeilen) sind nicht linear abhängig. Durch B.61 werden dann alle λ’s bestimmt, wodurch gewährleistet ist, daß die Spalten der Matrix (A − λ · I) linear abhängig sind. Ist die Determinante von A gleich Null, so sind ihre Spalten linear abhängig. Hat sie den Rang n − 1, so kann ein λi gleich Null gesetzt werden und B.61 ist dennoch Null. Ist der Rang der Matrix A gleich n − 2, so können zwei λi ’s Null gesetzt werden und B.61 gilt dennoch. Ist RangA = 1, dann verbleibt lediglich die Notwendigkeit, einen Eigenwert λ, der von Null verschieden ist, zu bestimmen. Die zu jedem λi gehörenden x-Vektoren (x = 0) in B.62 heißen Eigenvektoren und lösen das Gleichungssystem. Gelegentlich ist die Berechnung der Spur einer (n × n)-Matrix X von Interesse. Sie ist gleich der Addition der Elemente ihrer Hauptdiagonalen: Spur(X) :=

n

xii .

(B.63)

i=1

B.5.2

Rechenregel

Summiert man alle Elemente auf der Hauptdiagonale von A (= Spur), so ist diese Summe gleich der Summe aller Eigenwerte: Spur(X) =

n

λi .

(B.64)

i=1

B.5.3

Beispiele

Matrix ’A’ hat vollen Rang. Die Eigenwerte können mit dem Befehl ’eigen(.)’ berechnet werden. Hier sind alle Eigenwerte von Null verschieden.

320

ANHANG B. MATRIZENRECHNUNG

> A <- matrix(c(1:8,4),ncol=3) > rk(A) [1] 3 > eigen(A) $values [1] 13.6082676 -3.2713174 -0.3369502 ... ’A2’ ist zwar eine (3 × 3)-Matrix, hat aber nur zwei linear unabhängige Spalten. Aus diesem Grund ist ein Eigenwert gleich Null. > A2 <- matrix(c(1:9),ncol=3) > rk(A2) > rk(A2) [1] 2 > eigen(A2) $values [1] 1.611684e+01 -1.116844e+00 -4.054215e-16 ... Bei ’A3’ ist der Rang gleich 1. Deshalb sind zwei λ’s gleich Null. Die Spur von ’A3’ ist gleich 14 und somit ist der einzige von Null verschiedene Eigenwert ebenfalls 14. Die beiden anderen Werte sind wegen Rundungsfehlern nicht exakt gleich Null. > A3 <- matrix(c(1,2,3,2,4,6,3,6,9),ncol=3) > A3 [,1] [,2] [,3] [1,] 1 2 3 [2,] 2 4 6 [3,] 3 6 9 > rk(A3) [1] 1 > eigen(A3) $values [1] 1.400000e+01 5.329071e-15 1.484923e-15 $vectors [,1] [,2] [,3] [1,] -0.2672612 0.9636241 0.0000000 [2,] -0.5345225 -0.1482499 -0.8320503 [3,] -0.8017837 -0.2223748 0.5547002

Anhang C

Befehle in R C.1

Einleitung

Das Arbeiten in ist je nach verwendeter Software etwas verschieden. Aus diesem Grund werden hier einige Hinweise gegeben, wie man weitgehend softwareunabhängig, allein auf Grundlage der Syntax von , arbeiten kann. Dies hat zudem den Vorteil, daß Textdateien mit Befehlen angelegt werden können, die einfach in die Konsole, das ist das Arbeitsfenster, in das die Befehle eingegeben werden, eingetragen werden. Gelegentlich wird die Konsole auch als Shell oder Befehlsfenster bezeichnet. Im ersten Abschnitt werden die grundlegenden Befehle zur Erzeugung einer Befehlsdatei vorgestellt. Es folgen Anweisungen zum Einlesen von Daten sowie zur Abspeicherung und dem Einlesen von Daten im -Format. In werden den Daten Eigenschaften zugeordnet, die bei allgemeinen Befehlen, wie beispielsweise dem ’plot’-Befehl, bewirken, daß bestimmte Formatierungen standardmäßig genutzt werden. Sie werden in Kapitel C.4 präsentiert. Bei der Analyse von Finanzmarktdaten ist es nötig, Tageskurse in Wochenoder Monatswerte zu transformieren. Es kommt auch des öfteren vor, Variablen um einen Tag oder Woche nach hinten zu verschieben. Solche Variablen sind in der Literatur als ’Lags’ bekannt. Gelegentlich interessieren nicht die Kurse, sondern erste Diﬀerenzen zwischen Tages- oder Wochenkursen, also die Rendite in Absolutwerten oder auch als Prozentsatz. Solcherlei Manipulationen werden in Kapitel C.5 präsentiert. Das Programm wird nicht zuletzt wegen seiner Fähigkeit, schöne Graphiken zu erzeugen, gerne genutzt. Sie können in verschiedenen Formaten abgespeichert werden. Wie man befehlsbasiert solcherlei Objekte speichert wird in Abschnitt C.6 gezeigt. Hier wird auch dargestellt, wie man mehrere Abbildungen in einer Graphik anzeigen lassen kann. In Kapitel C.7 wird diskutiert, wie man über die Programmdokumentation an die Informationen kommt, die man zur Lösung eines aufgetretenen Problems benötigt. Es werden drei unterschiedliche Problembereiche angesprochen und R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

ANHANG C. BEFEHLE IN R

322

Befehle besprochen, die zur Problemlösung beitragen. Die Benutzeroberﬂäche der Shell unterscheidet sich je nach verwendetem Betriebssystem und bei gegebenem Betriebssystem wiederum gemäß der verwendeten Software. Die Installation neuer Pakete unter Linux ist Seite 323 beschrieben. In Kapitel C.8 wird das Vorgehen unter Windows gezeigt.

C.2

Grundlagen

Befehlsdateien des Autors beginnen üblicherweise wie folgt: rm ( list=ls() ) library(fSeries) setwd("g:/Auswertung") Daten2 <- read.table("Einkommen2.txt",dec=",",header=TRUE). Diese Anweisungen und die Sinnhaftigkeit, diese sonstigen Befehlen voranzustellen, werden im folgenden erläutert. Es ist eine gute Idee vor dem Beginn einer Arbeitssitzung, den Arbeitsspeicher völlig zu leeren. Ansonsten könnten noch Daten aus verhergehenden Sitzungen vorhanden sein. Wenn es nun beim Einlesen neuer Daten mit denselben Variablennamen wie zuvor zu Einleseproblemen kommt, so werden solche Fehler leicht übersehen, da jeder Variablen ja Daten zugeordnet sind, nur, es sind die falschen! Den Arbeitsspeicher kann man über den Befehl > rm ( list=ls() ) leeren. Das ’>’ zeigt an, daß der Befehl in eine Befehlszeile geschrieben wurde. Man beachte, daß bei dem Schreiben einer Befehlsdatei das Zeichen ’>’ nicht erscheinen darf! ist aufgeteilt in verschiedene Pakete und standardmäßig werden nur einige wenige geladen. Mit > library() erhält man eine Liste aller Pakete, die auf dem lokalen Rechner vorhanden sind. Durch Eingabe von > library(fSeries) # Dies ist ein Paket zur Bearbeitung von Zeitreihen. wird das Paket ’fSeries’ geladen. Das Symbol ’#’ dient dazu, Bemerkungen in die Befehlsdatei einzuarbeiten, die den späteren Programmablauf nicht stören. Freilich müssen zuvor die Pakete auf dem lokalen Rechner installiert worden sein. In Linux braucht der gewöhnliche Nutzer die Hilfe des Administrators. In der Konsole gibt man, ohne zu laden, den Befehl > su ein, worauf der Rechner sich meldet und das Administratorkennwort möchte. Anschließend gebe

C.3. DATEN EINLESEN, OBJEKTE SPEICHERN UND LADEN

323

> R CMD INSTALL Dateiname in der Konsole (oder Shell) ein. Um ’fSeries’ zu installieren, verwende den Dateinamen fSeries_260.73.tar.gz. Sollte der Befehl nicht durchführbar sein, so kann es daran liegen, daß ’Fortran’, eine spezielle Software, nicht installiert ist. Loggen Sie sich als ’root’ ein und nutzen Sie ’YAST2’. Klicken Sie auf ’Softwaremanagement’, suchen nach ’fortran’ und installieren es. Dennoch kann es vorkommen, daß ein Paket im normalen Modus nicht geladen wird. Dann kann folgender Befehl helfen: > R CMD INSTALL --fake Dateiname. Er bewirkt, daß nur eine minimale Installation erfolgt. Zusätzliche Pakete können über die -Homepage www.r-project.org/ gefunden und heruntergeladen werden. Die Arbeit wird zudem erleichtert, wenn man für jedes Arbeitspaket eigens einen Ordner anlegt, der als Arbeitsverzeichnis genutzt wird. Dies geschieht über den Befehl > setwd("Documents/aktuell2/Aktien/R_Files") ’Documents/aktuell2/Aktien/R_Files’ ist hier der verwendete Pfad. Sollen beispielsweise dieselben Auswertungen für verschiedene Bundesländer durchgeführt werden, so genügt es, für jedes Bundesland ein Arbeitsverzeichnis anzulegen und die Daten für jedes Bundesland werden im exakt identischem Format in das zugehörige Verzeichnis kopiert. In der Befehlsdatei ist dann lediglich das Arbeitsverzeichnis zu ändern, wenn man die Auswertung für ein anderes Bundesland durchführen will.

C.3

Daten einlesen, Objekte speichern und laden

Dateien werden über den Befehl ’read’ eingelesen. Als besonders sinnvoll erweist sich das ’*.csv’-Format. Denn eine Abspeicherung von Daten ist in diesem Format in praktisch jedem Tabellenverarbeitungsprogramm möglich. Zudem können Dateien dieses Typs auch wieder ohne Probleme in das Tabellenverarbeitungsprogramm eingelesen werden. Der Befehl X <- read.csv("GDAXwoechentlich.csv", dec =".", header = TRUE) liest die Datei ’GDAXwoechentlich.csv’ ein. Als Dezimalzeichen wird ein Punkt verwendet und die Datei enthält Spaltenüberschriften. Mit > head(X)

ANHANG C. BEFEHLE IN R

324

werden die ersten Zeilen der eingelesenen Datei angezeigt. Dies ist zur Kontrolle, ob auch tatsächlich Spaltenüberschriften vorhanden und richtig in eingelesen worden sind, sinnvoll. Es gibt auch die Möglichkeit direkt aus dem Internet Daten in das Programm einzulesen. Lade zuerst mit > library(quantmod) das Paket ’quantmod’. Mit > getQuote("\^{}GDAXI", src = "yahoo", what = standardQuote()) kann der aktuelle Kurs des DAX heruntergeladen werden. Über den Befehl >

getFX("EUR/USD", from = "2005-01-01", to = Sys.Date(), env = .GlobalEnv, verbose = FALSE, warning = TRUE, auto.assign = TRUE)

können bis zu 2000 Wechselkurse von www.onanda.com heruntergeladen werden. Der Eintrag “EUR/USD” gibt an, welche Kurse zueinander ins Verhältnis gesetzt werden sollen. Will man die Dividenden der Allianz für die vergangenen Jahre von yahoo.com herunterladen, so gebe man > a <- getDividends("ALV.DE", from = "1973-01-01", to = Sys.Date(), env = .GlobalEnv, src = "yahoo", auto.assign = TRUE, auto.update = TRUE, verbose = FALSE) ein. Mit dem Befehl > getSymbols("^GDAX", src=’yahoo’, from="2000-01-01",to=Sys.Date()) können direkt von www.yahoo.com historische Kurse des DAX heruntergeladen werden. Ziel jeder statistischen Analyse ist es, die Daten im Hinblick auf eine Fragestellung auszuwerten. Hierdurch entstehen neue Daten, die man ggf. in Dateien abspeichern möchte. Dies geschieht über den Befehl > save(x,file="Daten3.RData", ascii=FALSE).

C.4. DATENEIGENSCHAFTEN

325

’x’ ist ein -Objekt. Dies kann z.B. eine Kennziﬀer, eine Zahlenreihe, eine Matrix oder dergleichen sein. Freilich können auch mehrere Objekte gleichzeitig in eine Datei geschrieben werden. Die verschiedenen -Objekte werden dann durch ein Komma getrennt angegeben. In vorliegendem Fall wird das Format ’*.RData’ verwendet. Dies ist eines, bei dem die Daten über die Anweisung > load(file=’’Daten3.RData’’) wieder eingelesen werden können. Zudem ist es möglich, Objekte von gebe man statt ’ascii=FALSE ein

in einer ASCII-Datei abzulegen. Dann

> save(x,file="Daten3.csv", ascii=TRUE). Man beachte jedoch, daß das Einlesen in über die Anweisung ’read.table’ oder ’read.csv’ zu einer fehlerhaften Eingabe führt. Korrektes Einlesen in erfordert dann die Anwendung des ’load’-Befehls. Die Formatierung in ist sehr rudimentär. Nutzt man jedoch LATEX, so kann man zwecks Formatierung einer Datenmatrix in den Befehl > tex.table(Datenmatrix) nutzen. Dieser Befehl ist in Paket cwhmisc enthalten. Hiermit ist eine Möglichkeit geschaﬀen, den Output komfortabel für Textdokumente zu formatieren.

C.4

Dateneigenschaften

Mit Hilfe des Befehls > paste("A", 1:6, sep = "") [1] "A1" "A2" "A3" "A4" "A5" "A6" lassen sich nominale Merkmalsausprägungen erzeugen. In vorliegendem Fall werden die Werte A1 bis A6 erzeugt. Zudem können kardinale oder ordinale Daten, die als Vektor vorliegen, in nominale umgewandelt und verkettet werden. In werden Datensätzen durch die Zuweisung, eine Matrix, Liste oder Zeitreihe zu sein, spezielle Eigenschaften zugewiesen, wodurch bei generischen Funktionen, wie beispielsweise der graphischen Darstellung, Parameterwerte speziell auf diesen Datentyp eingestellt werden. Durch > x <- as.timeSeries(X) werden die eingelesenen Datensätze zum Typ Zeitreihe. Der Befehl > reversex

<- rev.timeSeries (x)

ANHANG C. BEFEHLE IN R

326

kehrt die Datei um, d.h. der Datensatz, der am Anfang stand steht nach diesem Befehl am Ende der Datei. Er kann nun über die Zeichenfolge ’reversex’ angesprochen werden. Soll nur ein Teil aus einer Zeitreihe bearbeitet werden, so kann man die Funktion ’window’ nutzen. > vv <- window(v, "1990-12-03", "2001-04-30") Hiermit werden die Daten, beginnend am 3.12.1990 und endend am 30.4.20001, aus der Zeitreihe ausgelesen. Der Befehl > X2 <- as.data.frame(reversex) macht aus der Zeitreihe einen Datenframe. Sind in einem Datenframe mehrere Variablen mit Namen enthalten, so können sie auf verschiedene Art und Weise angesprochen werden. In folgendem Dataframe > x 1 2 3 4 5

x1 151973.56 136616.62 144083.53 99758.88 106716.54

x2 253.8514 158.4852 179.2869 358.4341 469.1657

x3 56373.45 73709.09 61590.58 91727.23 85659.38

x4 397.5702 352.2753 434.0470 453.2736 357.1181

sind die Variablen x1 bis x4 enthalten. Will man nur die erste Spalte ansprechen, so kann man dies über den Befehl > x[,1] [1] 151973.56 136616.62 144083.53

99758.88 106716.54

tun. Analog läßt sich die erste Zeile mit > x[1,] x1 x2 x3 x4 1 151973.6 253.8514 56373.45 397.5702 ansprechen. Alternativ hierzu kann die erste Spalte auch über > x$x1 [1] 151973.56 136616.62 144083.53

99758.88 106716.54

ausgegeben werden. Die einfache Eingabe von x1 wäre freilich noch komfortabler, führt jedoch nicht ohne weiteres zum gewünschten Ergebnis > x1 Fehler: objekt "x1" nicht gefunden Über den Befehl ’attach()’ wird dies jedoch möglich. > attach(x) > x1 [1] 151973.56 136616.62 144083.53

99758.88 106716.54

Mit ’detach’ wird diese Funktion wieder ausgeschaltet.

C.5. MANIPULATION EINGELESENER DATENSÄTZE

C.5

327

Manipulation eingelesener Datensätze

Seite 324 wurde gezeigt, wie man online tägliche Kurse abrufen kann. Braucht man jedoch die monatlichen oder wöchentlichen Kurse, so wäre man ohne weitere Hilfe von darauf angewiesen, auf die Funktionalität anderer Quellen (wie beispielsweise. Yahoo-Finance) zurückzugreifen. Mit dem Paket ’xts’ lassen sich jedoch Tagesdaten zu Wochen- oder Monatsdaten transformieren. Lade das Paket ’xts’ und nutze den Befehl > to.period(EURUSD, "weeks"). Hierdurch wird der Wochenanfangskurs, der Höchst- und Niedrigstkurs sowie der Wochenendkurs ausgegeben: 2005-01-02 2005-01-09 2005-01-16 2005-01-23 2005-01-30

EURUSD.Open EURUSD.High EURUSD.Low EURUSD.Close 1.3569 1.3569 1.3566 1.3566 1.3546 1.3546 1.3048 1.3061 1.3057 1.3266 1.3057 1.3104 1.3102 1.3102 1.2974 1.2999 1.3049 1.3076 1.2973 1.3045

Um Zeitreihendaten um eine Zeiteinheit nach hinten zu verschieben verwendet man den Befehl ’Lag’. Das Gegenteil von ’Lag’ ist ’Next’. Beide Befehle sind in der library ’quantmod’ enthalten. Die Anweisung > Next (vv, k=1) verschiebt alle Daten ’vv’ um eine Zeiteinheit nach vorne. Um herauszuﬁnden, wie viele Tagesdaten in einer Datei vorhanden sind, kann, nachdem die library ’xts’ geladen wurde, die Anweisung > ndays(GDAX) genutzt werden. In vorliegendem Fall werden dann die Anzahl an Tagen in den Daten ’GDAX’ angegeben. Analog funktionieren die Befehle ’nweeks(x), nmonths(x), nquarters(x), nyears(x). Selbst für Sekunden, Minuten und Stunden gibt es entsprechende Anweisungen. Um die erste Zeile einer Datei zu lesen, gibt man > first(GDAX) ein. Die letzte Zeile kann über > last(GDAX) angezeigt werden. Will man Diﬀerenzen eines Vektors x bilden, so kann man den Befehl > diff(x) des Programmpaketes ’base’ nutzen.

ANHANG C. BEFEHLE IN R

328

C.6

Graphik

Die Graphikausgabe in Dateien kann automatisiert werden, was das Einfügen in Textverarbeitungsprogramme erleichtert. Im ersten Schritt muß ein Dateityp festgelegt werden. Dies geschieht über > jpeg () # Festsetzen eines Gerätes, hier ist es ’jpeg’. Alle gängigen Formate sind vorhanden: pdf postscript usw.. Welche Graphikformate aber auch tatsächlich verfügbar sind, hängt davon ab, ob sie auch in compiliert worden sind. Nähere Informationen erhält man über > ?device Der Befehl > dev.copy(device=jpeg) weist das Programm an, die Ausgabe von Graphikanweisungen in eine Datei abzulegen. In diesem Fall erfolgt dies im ’*.jpeg’-Format. In die Datei wird dann bei Ausführung einer Graphikanweisung in dem festgelegten Arbeitsverzeichnis unter dem Namen ’Rplot.jpeg’ abgelegt. Zum Einbinden von Graphiken in Dokumente eignet sich besonders die Funktion > dev.copy2eps(file=’’Name.eps’’). Die Graphik wird im eps-Format unter dem Namen “Name.eps” abgespeichert. Will man in eine Datei mit mehreren Abbildungen erzeugen, so kann dies über > par(mfcol=c(2,2)) erreicht werden. In diesem Fall wird die erste Graphik oben links, die zweite unten links und die dritte oben rechts eingetragen. ’plot’ ist eine generische Funktion und die Art der Darstellung hängt von dem Typ der verwendeten Daten ab. In folgendem Beispiel wird der Typ Zeitreihe verwendet. Mit der Anweisung > acf(reversex[,4], lag.max = 100, plot = TRUE, demean = TRUE)

type = c("correlation"),

wird eine Autokorrelation der vierten Spalte unserer Zeitreihe ’reversex’ berechnet. Die maximale Anzahl an Zeitverzögerungen (= lags) ist hier 100. Es kann die Autokovarianz als auch Korrelation als Typ angegeben werden. Wird ’plot = FALSE’ gesetzt, so erfolgt statt der Ausgabe einer Graphik die Angabe der berechneten Werte. Um zwei verschiedene Zeitreihen entsprechend zu einer zusammenzufassen, gibt es zwei Befehle: ’merge’ und ’union’. Angenommen es liegen zwei Zeitreihen als Quartalsdaten vor. Beide wurden als Matrix eingelesen und können mit X1 bzw. X2 angesprochen werden. Über die Befehle

C.7. SUCHEN UND FINDEN

329

> X1Z <- as.ts(X1) > X2Z <- as.ts(X2) ist es möglich, sie als Zeitreihe ’ts’ (für time series) auszuweisen. Mit der Anweisung ’ts.union’ lassen sich beide Zeitreihen zu der Zeitreihe X12 zusammenfassen. > X12 <- ts.union(X1Z, X2Z)

C.7

Suchen und Finden

Keine Panik, wenn nötige Informationen fehlen! Dem Programm liegen umfangreiche Dokumentationen bei. Entscheidend ist nur, wie man an sie heran kommt. In Windows ﬁndet man unter dem Link ’Help’ weitere Dokumentationen; in Linux suche man in dem Verzeichnis ’/usr/lib/R/doc/manual’. Lesenswert ist insbesondere die Datei ’R-intro.pdf’, das ist eine Einführung in das Programm. Findet man hier nicht die nötige Information, so ist die interessierende Fragestellung entscheidend: 1. Man braucht einen Überblick, welche Werkzeuge in den geladenen Paketen überhaupt vorhanden sind. 2. Man hat innerhalb eines Paketes das richtige gefunden, benötigt aber weitere Informationen 3. In den standardmäßig, automatisch geladenen Paketen ﬁndet sich nicht das gewünschte. In Fall 1 führt der Befehl > library(help=stats) weiter. Hier wird ein Überblick über das Paket ’stats’ gewünscht und mit folgender Antwort belohnt. Information für Paket ’stats’ Description: Package: stats Version: 2.7.0 Priority: base Title: The R Stats Package Author: R Development Core Team and contributors worldwide Maintainer: R Core Team Description: R statistical functions License: GPL (>= 2) Built: R 2.7.0; i686-pc-linux-gnu; 2008-06-06 08:41:28; unix Index: .checkMFClasses Functions to Check the Type of Variables passed to Model Frames AIC Akaike’s An Information Criterion

330

ANHANG C. BEFEHLE IN R

ARMAacf Compute Theoretical ACF for an ARMA Process ARMAtoMA Convert ARMA Process to Inﬁnite MA Process Beta The Beta Distribution Binomial The Binomial Distribution Box.test Box-Pierce and Ljung-Box Tests C Sets Contrasts for a Factor Cauchy The Cauchy Distribution ... Bei Fragestellung 2 nutze die Anweisung ?Box.test \#Sie können statt dessen auch ’help(’’Box.test’’)’ verwenden. Hierbei ist zu beachten, daß tunlichst auf Groß- und Kleinschreibung geachtet werden muß. Die Eingabe von > help("mean") Fehler: konnte Funktion "Help" nicht finden führt zu einer Fehlermeldung. Findet in dem geladenen Programmpaket keine Hilfeseite, so wird ein Befehl angezeigt, mit Hilfe dessen innerhalb der installierten Pakete nach Hilfeseiten gesucht wird. Nach korrekter Eingabe werden folgende Informationen angeboten. Box.test package:stats R Documentation Box-Pierce and Ljung-Box Tests Description: Compute the Box-Pierce or Ljung-Box test statistic for examining the null hypothesis of independence in a given time series. Usage: Box.test(x, lag = 1, type = c("Box-Pierce", "Ljung-Box")) Arguments: x: a numeric vector or univariate time series. lag: the statistic will be based on ’lag’ autocorrelation coeﬃcients. type: test to be performed: partial matching is used. Value: A list with class ’"htest“ containing the following components: statistic: the value of the test statistic. parameter: the degrees of freedom of the approximate chi-squared distribution of the test statistic. p.value: the p-value of the test. method: a character string indicating which type of test was performed. data.name: a character string giving the name of the data. Note: Missing values are not handled.

C.8. BESONDERHEITEN IN WINDOWS

331

Author(s): A. Trapletti References: Box, G. E. P. and Pierce, D. A. (1970), Distribution of residual correlations in autoregressive-integrated moving average time series models. Journal of the American Statistical Association, *65*, 1509-1526. Ljung, G. M. and Box, G. E. P. (1978), On a measure of lack of ﬁt in time series models. Biometrika *65*, 553-564. Harvey, A. C. (1993) Time Series Models. 2nd Edition, Harvester Wheatsheaf, NY, pp. 44, 45. Examples: x <- rnorm (100) Box.test (x, lag = 1) Box.test (x, lag = 1, type="Ljung") Die Struktur der Hilfeseiten ist immer dieselbe. Nach einer kurzen Beschreibung des Befehls wird die Befehlsstruktur angezeigt und seine Argumente erläutert. Unter der Überschrift ’Value’ wird beschrieben, welcher Output angezeigt wird. Häuﬁg wird auf weiterführende Literatur verwiesen und, besonders empfehlenswert: es werden Beispiele angegeben. Man kann ihre Befehle einfach in die Befehlszeile von kopieren, um sie auszuprobieren. Sollte der letzte, Fall 3, auftreten, so gibt es zwei Möglichkeiten. 1. Man suche in allen lokal installierten Paketen nach Informationen. Der nötige Befehl lautet > help.search(’’Box.test’’) Hierbei müssen die Pakete nicht unbedingt geladen sein. 2. Sollte über diese Suchstrategie immer noch kein Erfolg verbucht werden können, so konsultiere man die -Homepage und suche nach den relevanten Paketen, lade sie herunter und installiere sie.

C.8

Besonderheiten in Windows

Die Verwendung unter Windows ist wie folgt. besteht aus verschiedenen Programmpaketen. Der Nutzer kann sie über drei Schritte verfügbar machen. 1. über den Reiter ’Pakete’ können fehlende Pakete aus dem Internet heruntergeladen werden und auf dem lokalen Rechner als Zip-Dateien gespeichert werden. Als erstes wird der Server festgelegt, von dem die nötige Software heruntergeladen werden soll (setzte CRAN-Mirror). Dann wählt man ’Pakete’ und ’Installiere Pakete’.

ANHANG C. BEFEHLE IN R

332

2. über den Reiter ’Pakete’ und die Auswahl ’Installiere Pakete aus lokalen Zip-Dateien’ werden zusätzliche Pakete auf dem lokalen Rechner installiert und 3. über ’Pakete’ und ’Lade Pakete’ kann benötigte Software verfügbar gemacht werden. Der Reiter ’Hilfe’, Auswahl ’Handbücher’ und ’An Introduction to R’ liefert dem statistisch vorgebildeten Leser einen ersten Einblick über die Mächtigkeit des Programms. Nützlicher sind nach einem ersten Kennenlernen des Programms die Hilfeseiten.

C.9

Fehlermeldungen

Anfänger tun sich gelegentlich etwas schwer mit dem Einlesen von ’*.csv’-Dateien. Die Bildschirmausgabe von weist jedoch häuﬁg explizit auf das Problem hin. In folgendem Beispiel > x <- read.csv(file="Daten.csv") Fehler in file(file, "r") : kann Verbindung nicht Öffnen Zusätzlich: Warning message: In file(file, "r") : kann Datei ’Daten.csv’ nicht Öffnen: Datei oder Verzeichnis nicht gefunden ist die Datei in dem Verzeichnis überhaupt nicht enthalten. Über > dir() werden die in dem Arbeitsverzeichnis verfügbaren Dateien angezeigt. Sollte die Datei in einem anderen Verzeichnis sein, so kann über ’setwd(“Pfad”)’ das Arbeitsverzeichnis geändert werden. Im folgenden Beispiel wird das Arbeitsverzeichnis auf ’Auswertung’ gesetzt. > setwd("g:/Auswertung") Alternativ hierzu kann bei dem ’read’-Befehl zu dem Dateinamen auch noch der Pfad angegeben werden. Typische Probleme beim Einlesen von Daten in Textformat ist die falsche Angabe des Feldtrenners (= seperator). Im diesem Fall > x <- read.csv(file="Einkommen.csv") > x Einkommen.Alter.Ausbildungsjahre 1 2000\t30\t12 2 2500\t42\t13 3 2900\t50\t10 4 3300\t28\t18

C.9. FEHLERMELDUNGEN

333

wurde in der Textdatei der Feldtrenner \t verwendet, was man an der Ausgabe 2000\t30\t12 erkennen kann. Das Problem wird gelöst durch Rückgriﬀ auf die Hilfeseite > ?read.csv. Hier ist zu lesen, daß andere Feldtrenner als jener, der standardmäßig genutzt wird über ’sep="Feldtrenner")’ eingestellt werden können. Hier wird das Problem wie folgt > x <- read.csv(file="Einkommen.csv",sep="\t") > x Einkommen Alter Ausbildungsjahre 1 2000 30 12 2 2500 42 13 3 2900 50 10 4 3300 28 18 gelöst. Anführungszeichen können ein Problem darstellen, weil sie in vielen Textverarbeitungsprogrammen automatisch in typographische geändert werden. Werden Befehle in solchen Programmen geschrieben und Befehlszeilen hieraus über die Zwischenablage in kopiert, so entstehen Fehlermeldungen wie im folgenden: Fehler: Unerwartetes Eingabe in "x <- read.csv(file=342". Es wurde exakt derselbe Befehl wie gerade zuvor eingegeben, bis auf den, daß typographische Anführungszeichen verwendet werden. In der Fehlermeldung ist zu erkennen, wo das Problem liegt. Das falsche Eingabesignal ist direkt nach dem =-Zeichen, also die Anführungszeichen werden nicht akzeptiert. In OpenOﬃce kann die automatische Änderung in typographische Anführungszeichen ausgeschaltet werden, indem auf Extras - AutoKorrektur - Typographische Anführungszeichen geklickt wird. Hier kann durch Anklicken auf zwei Kästchen ggf. die Umwandlung in typographische Anführungszeichen deaktiviert werden.

Lösungen 1 Relevant

wäre hier das minimale Alter innerhalb der Klasse 11b. ist nur die Vollerhebung. Denn ist auch nur ein Schüler jünger als 18 Jahre, so wäre die Genehmigung der Eltern einzuholen. 3 Berechnet wird die korrigierte Stichprobenvarianz. Sie dient, bei Vorliegen von Daten aus einer Stichprobe mit Zurücklegen, zur Schätzung der Streuung in der Grundgesamtheit. Bei Plausibilitätsprüfungen wäre die empirische Varianz (Stichprobenvarianz) und nicht die korrigierte zu berechnen. Denn die Plausibilitätsprüfung erstreckt sich auf die Daten in der (einfachen) Stichprobe. 4 Folgende Fragen sind von Bedeutung: 2 Möglich

• Welche Fragen sollen überhaupt gestellt werden? Denn die Auswahl der Merkmale, die erfragt werden, beeinﬂussen selbstredend das Ergebnis. Möglicherweise wäre es sinnvoll, zwei Erhebungen durchzuführen: die erste, um die interessierenden Merkmale in Erfahrung zu bringen und die zweite, um die Antworten auf die interessierenden Fragen auch zu erhalten. • Sollen geschlossene Fragen (mit vorgegebenen Antworten) und/oder auch oﬀene Fragen, wo die Befragten ihre eigene Meinung angeben, gestellt werden? • Wie viele Antworten sollen bei geschlossenen Fragen vorgegeben werden? • Welches Gliederungsprinzip soll bei den Auswahlantworten herangezogen werden? • Welche Auswertungsmethoden sollen zum Einsatz kommen? • Wie sollen die Ergebnisse zur Präsentation aufbereitet werden? 5 Aus

dem

-Befehl zur Ziehung einer Stichprobe ergeben sich die zentralen Anhaltspunkte.

• Wie groß ist die Grundgesamtheit? • Wie groß soll die Stichprobe, d.h. n sein? • Soll eine Stichprobe mit oder ohne Zurücklegen gezogen werden? Eine Antwort auf die letzte Frage sollte auch berücksichtigen, welche Auswertungsmethoden angewandt werden sollen und wie groß der Stichprobenumfang sein soll. Denn hiervon hängt es ab, welche Stichprobe bevorzugt wird. 6 read.table muß es heißen 7 Statt null muß NULL eingetragen werden. 8 Komma ist falsch. 9 summaryBy 10 Das Programmpaket doBy könnte nicht geladen sein. 11 Das arithmetische Mittel kann nur bei kardinalen Merkmalen berechnet werden. Als Ergebnis von > mean(Daten2[,1:3]) erhält man Einkommen Alter Ausbildungsjahre 2217.07692 38.61538 12.53846 12 Lösung mit : > x1 <- Daten2[,1] > x1 [1] 1000 2500 2900 3300 1500 1900 2111 2700 2900 2111 2000 2000 1900 > x2 <- x1-rep(mean(x1), times=13) > x2 [1] -1217.0769 282.9231 682.9231 1082.9231 -717.0769 -317.0769 [7] -106.0769 482.9231 682.9231 -106.0769 -217.0769 -217.0769 [13] -317.0769 > x1-mean(x1) [1] -1217.0769 282.9231 682.9231 1082.9231 -717.0769 -317.0769 [7] -106.0769 482.9231 682.9231 -106.0769 -217.0769 -217.0769 [13] -317.0769 > [1] 2217.077 > mean(x2) [1] 2.098877e-13 > mean(x1-mean(x1)) [1] 2.098877e-13. Algebraische Lösung: Das Ergebnis muß gleich Null sein.

= 13 Bei

1 n

1 = n i

) i (xi −1 x¯

1 n

x −n x ¯ i i i xi − n x ¯=x ¯−x ¯ = 0. n

Addition um einen konstanten Faktor erhält man folgendes Ergebnis. 1 n

(xi + z) = i

1 n

xi + i

1 n

z=x ¯ + z. i

LÖSUNGEN

335

Im Falle des Alters lautet die algebraische Lösung: 1 n

(zxi ) = z x ¯. i

14 Diese Kenngröße kann nur bei kardinalen Merkmalen berechnet werden. Lösung mir :> VarianzEinkommen <- var(Daten2[,1])*12/13 > VarianzAlter <- var(Daten2Alter) ∗ 12/13 > V arianzAusbildungsjahre < −var(Daten2Ausbildungsjahre)*12/13 > VarianzEinkommen [1] 364003.9 > VarianzAlter [1] 82.69822 > VarianzAusbildungsjahre [1] 6.710059 15 Algebraische Lösung: sei z=234, dann gilt

s(x + z) =

1 n

((xi + z) − (¯ x + z))2 =

i

1 n

(xi − x ¯)2 .

i

Lösung mit : Ganz gleich, mit welchen Werten man rechnet, ob mit den ursprünglichen oder den Werten, die mit 234 addiert wurden, man erhält als Lösung 364003.9. 16 Algebraische Lösung: Sei z=450, dann erhält man s2 (zx) =

17 Es

1 n

1 [(zx ¯)]2 = n [z(xi − x ¯)]2 i − zx i 1 2 (x − x 2] = [z ¯ ) i n i 1 = z2 n (x − x ¯)2 = z 2 s2 (x). i i i

fehlen die zugehörigen Sprungstellen xi .

18 c(1,2,3,4) 19 Der

Befehl > plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = “Einkommen”, ylab = “H(Einkommen)”,type=”p”) zeigt die Sprungstellen an, bei denen H(x) rechtsseitig stetig ist. Den korrekten Verlauf der Verteilungsfunktion wird über > plot(ecdf(Daten2$Einkommen), xlab=Ëinkommen") generiert. 20 Mögliche Antwort: Ausstehende Zahlungen. Begründung: Hier sollten alle Zahlungen berücksichtigt werden, sofern die damit verbundenen Kosten geringer sind als der Ertrag. 21 Die empirische Varianz dient der Beschreibung der Streuung in der Grundgesamtheit. Liegen Daten einer Stichprobe vor, so beschreibt sie die Streuung in der Sichprobe. In diesem Fall heißt die empirische Varianz auch Stichprobenvarianz. Die korrigierte Stichprobenvarianz dient zur Schätzung der Varianz in der Grundgesamtheit mit Hilfe von Stichprobendaten. 22 Absolute Häuﬁgkeitsverteilung. Denn wird als Datengrundlage die absolute Häuﬁgkeitsk 2 := ( 1 ) verteilung verwendet so gilt Var(x) = σ ˆ2 = σ ˆX n (x − x ¯)2 bzw. s2 = s2X := n−1 i=1 i i 1 n

k

n (x − x ¯)2 . Man erkennt es leicht daran, daß in der Formel auch die absolute Häui=1 i i ﬁgkeit ni enthalten ist. 23 Man kann bei den Ausprägungen einer Variablen nur erkennen, daß es Unterschiede gibt. 24 Die Wahrnehmung von Farben wie rot, grün, blau ist wohl nominal skaliert. Allerdings gibt es auch metrische Farbskalen, bei denen das Mischungsverhältnis von drei Grundfarben angegeben wird. Durch Angabe des Mischungsverhältnisses kann man dann Farben erzeugen. Insofern kann man sogar sagen, daß die Erzeugung von Farben über eine Farbskala kardinal ist. 25 Ja. 26 Ja. 27 Ja. 28 Ja. 29 Ja. 30 Dies ist durch Gruppenbildung möglich. 31 Die Rohdaten in der Form herzuleiten, daß auf die statistischen Einheiten zurückgeschlossen werden könnte, ist bei umfangreichen Datensätzen nicht möglich. Aber die Daten lassen sich in derweise aufbereiten, daß sie in derselben Form vorliegen, wie wir es bei Rohdaten kennen.

LÖSUNGEN

336

Statistische Einheit Geschlecht Betriebsgröße 1 m g 2 m g 3 m g 4 m k 5 m k 6 m m 32 7 m m 8 w k 9 w k 10 w m 11 w m 12 w m 13 w m 33 Das arithmetische Mittel kann nur bei kardinal skalierten Variablen berechnet werden. Würde es sich um solche Merkmale handeln, so könnte über die Kontingenztabelle wie über die Datensätze aus Aufgabe 5k das arithmetische Mittel berechnet werden. 34 Sofern man die Gesamtzahl an Beobachtungen kennt, ist dies möglich. 35 Diese Berechnung macht bei ordinalen Merkmalen keinen Sinn. 36 Die Herleitung ist möglich, wenn mit Rohdaten die Zuordnung von Merkmalsträger zu einer bestimmten Klasse gemeint ist. Ein Rückschluß auf spezielle Unternehmen ist jedoch nicht möglich. Die Rohdaten, die zur Bestimmung der Klassen verwendet wurden, sind natürlich nicht ersichtlich. 37 Die Dateneingabe kann über b<-c(20,20,30,40) erfolgen. Absolute Häuﬁgkeitsverteilung table(b) b 20 30 40 2 1 1 Relative Häuﬁgkeitsverteilung table(b)/sum(table(b)) b 20 30 40 0.50 0.25 0.25 Die Quantile erhält man über quantile(b) 0% 25% 50% 75% 100% 20.0 20.0 25.0 32.5 40.0 Die Verteilungsfunktion kann man über > ecdf(b). erzeugen. Die Ausprägung 20 ist ein unteres Quartil, weil es insgesamt 4 Beobachtungen gibt: 20, 20, 30, 40. Zwischen den ersten beiden Ausprägungen liegt das 25%-Quantil (=Quartil), zwischen der zweiten und dritten Ausprägung liegt der Median. Er ist nicht eindeutig. Zwischen 30 und 40 ist das obere Quartil (=75%-Quantil), es ist ebenfalls nicht eindeutig bestimmt. 38 0,3. Die Summe aller relativen Häuﬁgkeiten ist gleich Eins; Die empirische Varianz gibt an, in welchem Ausmaß die Beobachtungen um das arithmetische Mittel streuen. 39 Absolute und relative Häuﬁgkeitsverteilung für jede Variable. Da es sich um eine gemeinsame Verteilung handelt, wäre eine Kontingenztabelle möglicherweise besser geeignet. Als graphische Methode eignet sich ein Kreisdiagramm oder ein Balkendiagramm. 40 Dies ist nicht möglich, da keine der beiden Variablen kardinal skaliert ist. 41 Der Eintrag ’30’ muß größer sein als 40 (k n). Die ganzen Zahlen müssen durch Punkt von den Dezimalstellen getrennt werden.

LÖSUNGEN 42 Die

337

Testgröße ist eine Punktschätzung alternative Lösungen werden angegeben. 1. Alternative dbinom (0,10,0.8) + dbinom (1,10,0.8) + dbinom (2,10,0.8) + dbinom (3,10,0.8) + dbinom (4,10,0.8) + dbinom (5,10,0.8) + dbinom (6,10,0.8) + dbinom (7,10,0.8) + dbinom (8,10,0.8) + dbinom (9, 10, 0.8) + dbinom (10, 10, 0.8). 2. Alternative k <- -1 (Erläuterung: Zuweisung von ’-1’ zu der Variable k) b1 <0 (Erläuterung: Zuweisung von ’0’ zu der Variable b1) for (k in 0: 10) (Erläuterung: Deﬁnition des Anfangs und Endes der Programmierschleife) { (Erläuterung: Beginn der Programmierschleife) b2 <- dbinom(k, 10, 0.8) (Erläuterung: Erster auszuführender Befehl) b1 <- b1+b2 (Erläuterung: Zweiter auszuführender Befehl) } (Erläuterung: Ende der Programmierschleife) b1 (Erläuterung: Ausgabe des Ergebnisses) 44 Durch Gleichung wird die Verteilungsfunktion F (10) berechnet. 45 Dies ergibt sich aus der Nullhypothese. 46 Dies ergibt sich aus der Formulierung der Nullhypothese. 47 Hierzu muß man den Verteilungstyp der Testgröße, das Signiﬁkanzniveau und die Nullhypothese kennen. 48 Gesucht ist der kritische Wert. Nullhypothese: h 0, 02, Gegenhypothese: h > 0, 02, Testgröße ist unbekannt, Annahmebereich: P (k Quantil) = 1 − α. Befehl: > qbinom(0.96, 20, 0.02, lower.tail = TRUE) [1] 2. Falls in der Stichprobe mehr als drei fehlerhafte Produkte enthalten sind, so würde die Nullhypothese abgelehnt. 49 Sie könnten falsch gerechnet haben oder aber sie verwenden verschiedene Signiﬁkanzniveaus. Schließlich ist es auch möglich, daß einer als Nullhypothese wählte, was der andere als Gegenhypothese nahm. 50 H : H < 0, 02 , H : H 0, 02; Testgröße = 4; Annahmebereich = [0,7]; Entscheidung: 0 1 4 ∈ A , folglich kann H0 nicht abgelehnt werden. 51 Dies ist der Fehler 1. Art. 52 Bei einer Kontingenztabelle ’kleben’ alle Merkmale aneinander; sie wurden mit anderen Worten gemeinsam erhoben. 53 Kontingenztabelle 54 table 55 ’X-squared’ ist die quadratische Kontingenz, wobei eine Stetigkeitskorrektur vorgenommen wurde. ’df’ ist die Abkürzung für Freiheitsgrad, er ist hier gleich Eins. Der ’p-value’ gibt die Wahrscheinlichkeitsmasse an, die rechts des Chi-Quadrat Koeﬃzienten liegt. Ist diese Wahrscheinlichkeit geringer als das Signiﬁkanzniveau, so ist in vorliegendem Fall die Nullhypothese abzulehnen. 56 0 57 Überprüft wird zur Sicherheitswahrscheinlichkeit von 90 Prozent, ob die Unfälle von der Tageszeit statistisch unabhängig sind (Nullhypothese) oder nicht (Gegenhypothese). Mit der Anweisung ’x1 <- matrix(c(204,300,321,466),2,2)’ werden die Daten eingegeben. Die Korrektheit wird durch Eintippen von ’x1’ überprüft. Mit dem Befehl ’chisq.test(x1) wird das nötige Testverfahren aufgerufen und erbringt als Ergebnis: ’Pearson’s Chi-squared test with Yates’ continuity correction, data: x1, X-squared = 0.0028, df = 1, p-value = 0.9576’. Die Entscheidung lautet: die Nullhypothese kann nicht abgelehnt werden. 58 Mit dem Befehl ’qchisq(0.9,1,lower.tail=TRUE)’ wird das 90-Prozent Intervall mit Freiheitsgrad Eins bestimmt. Als Ergebnis erhält man: 2,705543. 59 0,9576 60 Beispiel: Ist die Nullhypothese: h 0, 4, dann gehört der kritische Wert zum Annahmebereich. 61 Er beginnt bei Null und endet bei dem kritischen Wert, wobei letzterer dem Annahmebereich zugeschlagen wird. 62 Er wird dem Annahmebereich zugerechnet. 63 Nein, das ist nicht möglich. Denn dann würde die Nullhypothese lauten: Die betrachteten beiden Merkmale sind nicht statistisch unabhängig. Unter Geltung der Nullhypothese muß aber eine Testgröße berechnet werden. Wie soll denn bei dieser Nullhypothese die Testgröße berechnet werden, wenn der funktionale Zusammenhang überhaupt nicht speziﬁziert ist? Sofern jedoch, eine konkrete Hypothese über den Zusammenhang zweier Variabler aufgestellt wird, ist ist prinzipiell möglich, eine Testgröße zu entwickeln und deren Verteilung zu 43 Zwei

LÖSUNGEN

338

bestimmen. Dann handelt es sich aber nicht mehr um einen Chi-Quadrat Unabhängigkeitstest, sondern um einen völligen neuen Test. 64 Hierdurch wird das 0,95-Quantil der Chi-Quadrat Verteilung bei zwei Freiheitsgraden bestimmt. 65 qchisq(0.05,2,lower.tail=FALSE) 66 In Frage 6a sucht man nach dem Quantil, indem man die Wahrscheinlichkeitsmasse links des Quantils angibt. In Aufgabe 6b wird die Wahrscheinlichkeitsmasse rechts des Quantils angegeben. 67 Die Wahrscheinlichkeit ist normiert auf den Bereich [0, 1]. Die Summe aller Wahrscheinlichkeiten von ] − ∞, +∞[ über die Chi-Quadrat Verteilung ist gleich 1. 68 Die Dateneingabe kann über die Anweisung ’xx <- matrix(c(100,122,400,202,300,504,322,129,300,200,200,69,134,23,80,12),2,8)’ erfolgen. Anschließend gibt man ein: ’> chisq.test(xx)chisq.test(xx)’ und als Ergebnis wird ausgegeben: Pearson’s Chi-squared test, data: xx, X-squared = 318.4098, df = 7, p-value < 2.2e-16. Aufgrund dieses Angaben ist die Nullhypothese, beide Variablen sind statistisch unabhängig, abzulehnen. 69 Die Nullhypothese lautet, daß Rauchen und Geschlecht statistisch unabhängig sind. Die Gegenhypothese ist: beide Variablen sind nicht statistisch unabhängig. Als Testgröße dient die quadratische Kontingenz. Um Sie zu errechnen, ist die Kontingenztabelle aufzustellen. Rauchen Raucher Nichtraucher männlich 20 33 Geschlecht weiblich 55 77 Mit xxx <- matrix(c(20,55,33,77),2,2) wird die Matrix eingegeben. Die Richtigkeit der Eingabe kann mit dem Befehl ’xxx’ überprüft werden. Anweisung ’chisq.test(xxx)’ führt zu dem Output: Pearson’s Chi-squared test with Yates’ continuity correction, data: xxx, Xsquared = 0.1068, df = 1, p-value = 0.7439. Demgemäß kann die Nullhypothese selbst zu einem Signiﬁkanzniveau von 70 Prozent nicht verworfen werden. 70 Dies ist die Frage nach der Wahrscheinlichkeit, mit der die Gegenhypothese angenommen wird, obwohl die Nullhypothese korrekt ist. In vorliegendem Fall ist dies 0, 08. 71 Die Zellenbesetzung ist hier zu gering. Aus diesem Grund werden die letzten beiden Zeilen zusammengefaßt. Dateneingabe: x2 <- matrix(c(20,27,55,28),2,2), Überprüfung auf Richtigkeit der Eingabe: x2. Test: chisq.test(x2) mit Ergebnis: ’Pearson’s Chi-squared test with Yates’ continuity correction, data: x2, X-squared = 5.975, df = 1, p-value = 0.01451’. Demgemäß ist die Nullhypothese abzulehnen. 72 Den kritischen Wert erhält man über den Befehl: qchisq(0.95,1,lower.tail=TRUE) und erhält als Ergebnis: 3,841459. 73 Als Sigma-Ring kann die Potenzmenge gewählt werden. Deshalb und weil der Ergebnisraum endlich ist, haben wir einen Laplaceschen Wahrscheinlichkeitsraum. Demgemäß sind die ˜ und 6.13 zu nutzen. Ohne Bedingungen 6.11, 6.14 (wegen endlich vieler Elemente von Ω) ˜ ω1 , ω2 , ∅}. Es ˜ = {ω1 , ω2 }. Hieraus ergibt sich F˜ = {Ω, Beschränkung der Allgemeinheit sei Ω ˜ = P (Ω ˜ ∪ ω1 ∪ ω2 ∪ ∅). Da aber Ω ˜ = {ω1 ∪ ω2 } und P Ω ˜ = 1 folgt die Behauptung. gilt: P Ω 74 Im ersten Fall geht es um die Wahrscheinlichkeit von A ohne A , das heißt die Menge 1 2 aller Elemente, die in A1 und nicht in A2 sind. Im letzteren handelt es sich um die bedingte Wahrscheinlichkeit. 75 In einer Untersuchung können Merkmalsausprägungen in Form einer relativen Häuﬁgkeitsverteilung dargestellt werden. Die Wahrscheinlichkeit, mit der sich die einzelnen Ausprägungen ergeben, müssen jedoch nicht gleich den beobachteten relativen Häuﬁgkeiten sein. 76 0,168; 0,928; 0,436; 0,3 77

P (A ∩ B) P (A ∩ B) + P (A ∩ B) P (A ∩ B) + = = 1. P (B) P (B) P (B) Zeichnen Sie zur Veranschaulichung ein Rechteck, das Ω darstellen soll. In dieses Rechteck tragen Sie zwei Mengen, A und B ab, die eine Schnittmenge besitzen. Dann sollte klar werden, daß (A ∩ B) ∪ (A ∩ B) = B

LÖSUNGEN

339

78

2 30

P (A ∩ B) =

P (A|B) =

· 1 7

1 6

1 = P (A) · P (B) = 90

2 30

· 1 7

1 6

7 (1 − 17 ) · (15·6) P (B|A) · P (A) (1 − P (B|A)) · P (A) P (A ∩ B) = = = . 1 P (B) P (B) P (B) (1 − 6 )

79

0,00884736; 0,9995187; 0,1854937; 0,8145062. 80 0; 0,5*0,9*0,8=0,36; 81

E(X1 ) = (1 − p) · 0 + 1 · p = p. V ax(X1 ) = E(X1 − E(X1 ))2 = E(X12 − 2pE(X1 ) + p2 ) = E(X12 ) − 2p2 + p2 = E(X12 ) − p2 = 02 · (1 − p) + 12 · p − p2 = p − p2 = p · (1 − p). 82 E(X) = 5, 875, E(Y ) = 64, 875, V ar(X) = 10, 35938, V ar(Y ) = 468, 8594, Cov(X, Y ) = 65, 48438 83 E(X) = 1, 916667, E(Y ) = 4, V ar(X) = 0, 5763889, V ar(Y ) = 0, 5, Cov(X, Y ) = 0, 08333. Die nötigen Befehle in sind wie folgt. > x <- matrix(c(1,1,1,2,2,2,3,3,3,3,4,5,3,4,5,3,4,5, (1/6),0,(1/6),(1/12),(1/3),0,0,(1/6),1/12),ncol=3) > x [,1] [,2] [,3] [1,] 1 3 0.16666667 [2,] 1 4 0.00000000 [3,] 1 5 0.16666667 [4,] 2 3 0.08333333 [5,] 2 4 0.33333333 [6,] 2 5 0.00000000 [7,] 3 3 0.00000000 [8,] 3 4 0.16666667 [9,] 3 5 0.08333333 > E.X <- t(x[,3])%*%x[,1] > E.X [,1] [1,] 1.916667 > E.Y <- t(x[,3]%*%x[,2] +) > E.Y [,1] [1,] 4 > X1 <- x[,1]-E.X > Y1 <- x[,2]-E.Y > Var.X <- t(x[,3]%*%((X1)ˆ 2) +) > Var.X [,1] [1,] 0.5763889 > Var.Y <- t(x[,3]%*%((Y1)ˆ 2)) > Var.Y [,1] [1,] 0.5 > 33/2-(4ˆ 2)

340

LÖSUNGEN

[1] 0.5 > Cov.XY <- t(x[,3]%*%(X1*Y1)) > Cov.XY [,1] [1,] 0.08333333 84 Sofern Beobachtungen vorliegen, so bedeutet gemeinsame Verteilung, daß an ein und derselben statistischen Einheit zumindest zwei Merkmale erhoben wurden. Die gemeinsame Häuﬁgkeitsverteilung kann dann als Kontingenztabelle dargestellt werden. Wir unterscheiden ihrer zwei: die Kontingenztabelle mit absoluten und die mit relativen Häuﬁgkeiten. Die hij in Formel 8.2 sind dann nichts weiter als die relativen Häuﬁgkeiten der Kontingenztabelle. 85 Das Programm erzeugt bei jedem Lauf neue Realisierungen. Dennoch sollte die graphische Darstellung ähnlich der hier gezeigten sein und aus einer Punktwolke besteht. Eine Struktur ist allenfalls schwach zu erkennen. 86 In wird bei den angegebenen Befehlen standardmäßig die korrigierte empirische Varianz berechnet. Sie enthält den Faktor 1/(n − 1). Wird dieser Faktor mit (n − 1)/n multipliziert, so ergibt sich 1/n, also der Faktor, der bei der Berechnung der empirischen Varianz Verwendung ﬁndet. 87 > 10179174/(2002339 ∗ 67686642). 5 [1] 0.874364 88 t-Verteilung 89 Korr(X, Y ) = 0, 9396143 90 Korr(X, Y ) = 0, 1552301. Die nötigen Befehle sind wie folgt (siehe auch die Lösung zu Aufgabe 7. > Korr.XY <- Cov.XY/((Var.X*Var.Y)ˆ.5) > Korr.XY [,1] [1,] 0.1552301 91 Unter der Nullhypothese, daß ρ = 0, ist die Testgröße t-verteilt mit n − 2 Freiheitsgraden. Die Gegenhypothese lautet, daß die Korrelation signiﬁkant von Null verschieden ist. Die Korrelation und Testgröße sowie die Bestimmung des Annahmebereiches kann über folgende Befehle erfolgen. > Korr.X1X2 <- cor(x1,x2,method="pearson") > Korr.X1X2 [1] 0.2052648 > length(x2) [1] 50 > Testgroesse <- Korr.X1X2*((length(x1)-2)/(1-(Korr.X1X2)ˆ2))ˆ.5 > Testgroesse [1] 1.453057 > qt(0.01/2,length(x1)-2,0,lower.tail=TRUE) [1] -2.682204 > qt(0.01/2,length(x1)-2,0,lower.tail=FALSE) [1] 2.682204 Der Annahmebereich ist [−2, 68; 2, 68]. Da die Testgröße (= 1, 45) im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. Der Befehl ’cor.test(.)’ führt zu folgendem Ergebnis. > cor.test(x1,x2, alternative="two.sided", method="pearson", exact = NULL, conf.level = 0.99), Pearson’s product-moment correlation, data: x1 and x2, t = 1.4531, df = 48, p-value = 0.1527, alternative hypothesis: true correlation is not equal to 0, 99 percent conﬁdence interval: -0.1659514 0.5255276, sample estimates: cor 0.2052648. Demgemäß kann die Nullhypothese nicht verworfen werden. 92 Nein 93 Hier sind die Ausführungen in Kapitel 8.A relevant. Die nötigen Anweisungen sind:

LÖSUNGEN

341

> z <- atanh(Korr.X1X2) > E.z <- .5*(log((1+Korr.X1X2)/(1-Korr.X1X2)))+(Korr.X1X2)/(2*(length(x1)-1)) > E.z [1] 0.2103173 > Var.z <- 1/(length(x1)-3) > Var.z [1] 0.02127660 > qnorm(0.95,E.z,Var.z,lower.tail=TRUE) [1] 0.2453142 >z [1] 0.2082228 Der Annahmebereich ist ] − inf ty; 0.245[. Da die Testgröße z im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. 94 Nein 95 Vergleiche Abbildung 8.1. 96 Der nach Bravais-Pearson entfällt, weil hier stetige Zufallsvariablen vorausgesetzt werden. Die Koeﬃzienten nach Spearman und Kendall würden sich anbieten, doch auch hier werden stetige Zufallsvariablen vorausgesetzt. Keine dieser Kenngrößen kann verwandt werden, es kann dann mit serialen Korrelationskoeﬃzienten gearbeitet werden (siehe (Hartung und Elpelt, 1984, S. 201ﬀ)). 97 Es stellen sich gleich drei Probleme: • Welches Korrelationsmaß wurde überhaupt verwendet? • Es ist nicht klar, welche Verteilung die zugrundeliegenden Zufallsvariablen haben und • eine Variable ist ordinal, die andere kardinal skaliert. Das zweite Problem könnte mit Hilfe von Verteilungstests angegangen werden, allerdings ist eine Größe ja nur ordinal skaliert. Die Tests 8.3.2 und 8.3.2 könnten ebenfalls nicht verwendet werden, da jeweils zwei stetige Zufallsvariablen zugrunde gelegt werden, doch hier ist eine Größe nur ordinal skaliert deren zugrundeliegende Zufallsvariable kaum als stetig anzusehen ist. Aus diesem Grund sind andere Tests nötig. 98 Da die Verteilung nicht bekannt ist, kann der Test nach Bravais-Pearson nicht angewendet werden. Es kommen in Frage der Spearmansche oder der Kendallsche Test. Da beides stetige Zufallsvariablen sind, können beide verwendet werden. Allerdings kann das Verfahren in 8.3.2 von Seite 149 nicht genutzt werden, da der Stichprobenumfang kleiner als 30 ist. So verbleibt das Verfahren nach Kendall, dessen Voraussetzungen erfüllt sind. 99 Nein, der Stichprobenumfang ist zu gering. 100 > cor.test(x[,1],x[,2],method="kendall",exact=FALSE) 101 Wird der Test mehrfach mit verschiedenen Ziehungen normalverteilter Zufallszahlen durchgeführt, so sind unterschiedliche möglich. Damit ist eine wichtige Voraussetzung wissenschaftlichen Arbeitens nicht erfüllt. Denn bei Nutzung derselben Daten sollten Anwender stets zu demselben Ergebnis kommen. 102 Bei jeder Filiale wird gleichzeitig die kürzeste Entfernung zum nächsten Getränkemarkt erhoben. Das bedeutet, daß es sich um einfache Stichproben zur gemeinsamen Verteilung Xi , Yj handelt. 103 Wir wissen ja, daß die Variablen normalverteilt und stochastisch unabhängig sind, so wurden sie ja erzeugt. Damit sollten die paarweisen Korrelationen vergleichsweise klein sein und simultaner Test, bei dem überprüft wird, ob alle paarweisen Korrelationen gleich Null sind, sollte zur Annahme der Nullhypothese führen. Wäre dies in vorliegendem Fall anders, so wäre der Fehler erster Art eingetreten. 104 Ja. 105 Es kommt darauf an. Einerseits können damit Zufallsvariablen in der Grundgesamtheit gemeint sein. Andererseits können es auch Zufallsvariablen sein, die sich aus einer (einfachen) Stichprobe ergeben. 106 Nein, in der Praxis wäre zu diskutieren, welche Perspektive und welches Motiv für die Hypothesenaufstellung relevant sein soll. Wird die Perspektive des Unternehmens ’Lebensmittel gut und billig’ eingenommen und soll tunlichst vermieden werden, daß fälschlicherweise angenommen wird, daß ρ1 > ρ2 ist, so sollten die Hypothesen gerade vertauscht werden.

342 107 Argumentiere

LÖSUNGEN

über den Fehler 1. Art berechne den Erwartungswert von z1 − z2 und bestimme entweder die Varianz der Testgröße oder standardisiere z1 , z2 . 109 Hierdurch wird nur die Korrelation zwischen den Vektoren x und x berechnet. Man 1 2 könnte dies freilich paarweise für alle Vektoren machen und die Ergebnisse in einer Matrix zusammenfassen, doch dies wäre recht umständlich. 110 Im ersteren Fall handelt es sich um eine Matrix und in letzterem um eine einzelne Zahl. 111 Der Zusammenhang zwischen paarweisen Korrelationen macht hier wenig Sinn, weil die erste Korrelation zwei andere Merkmale in Beziehung zueinandersetzt als bei der zweiten. Vielmehr interessiert wohl der Zusammenhang zwischen den Linearkombinationen a1 Y1 +a2 Y2 und b1 X1 + b2 X2 . Aus diesem Grund bietet sich die kanonische Korrelation an. 112 Ohne weitere Informationen ist eine Antwort schwierig. Es kommt letztlich auf die Fragestellung an. Paarweise Korrelationen zwischen den Merkmalen Y1 , Y2 und X1 , X2 miteinander zu vergleichen, wobei mit Y1 , Y2 etwas vollkommen anderes gemessen wird als mit X1 , X2 macht wenig Sinn. Die Zusammenhänge, die mit Hilfe der Korrelationsanalyse untersucht werden sollen, sollten in einem sachlogischen Zusammenhang stehen. Anders verhält es sich bei einer explorativen Datenanalyse. Hier können alle vorgestellten Methoden angewandt werden, man hüte sich jedoch davor, Daten zu quälen. 113 Die Korrelation kann dennoch signiﬁkant von Null verschieden sein. Zudem wäre es sinnvoll in erklärungsbedürftige Güter und nicht-erklärungsbedürftige zu unterscheiden. Im ersteren Fall sollte sich eine signiﬁkant höhere Korrelation als im zweiten Fall ergeben. Zudem ist es möglich, daß die Korrelation bei nicht-erklärungsbedürftigen Produkten nicht signiﬁkant von Null verschieden ist. Selbst bei den erklärungsbedürftigen Produkten könnte sich eine geringe oder nicht signiﬁkant von Null verschiedene Korrelation ergeben. Dies könnte daraufhindeuten, daß die Motivation oder die Ausbildung der Verkäufer gering ist. 114 Diese Aufgabe kann entweder algebraisch oder mit über ein einfaches Beispiel mit zwei Variablen gelöst werden. Man beachte, daß die Cov(Y, X) für X = Y mutiert zu V ar(Y ). 115 Ja. 116 Es gibt zwei Personen, ’1’ und ’2’. Die Körpergröße wird in cm und das Gewicht in Zentnern angegeben. Anschließend wird das Gewicht mit 50 multipliziert und man erhält die Angabe in Kilogramm. ’cbind’ bedeutet, daß Spaltenvektoren aneinandergereiht zu einer Matrix zusammengefaßt werden. 117 > library(cluster) > daisy(x,metric="manhattan") Dissimilarities : 1 2 20.5 Metric : manhattan Number of objects : 2 > daisy(x2,metric="manhattan") Dissimilarities : 1 2 45 Metric : manhattan Number of objects : 2 118 Normiere jeden Summanden auf den Bereich [0, 1] 119 > Norm1 <- max(x[,1])-min(x[,1]) > Norm2 <- max(x[,2])-min(x[,2]) > Norm1 [1] 20 > Norm2 [1] 0.5 > xx <- cbind(x[,1]/Norm1,x[,2]/Norm2) > xx [,1] [,2] [1,] 9 3 [2,] 8 2 108 Man

LÖSUNGEN

343

> Norm3 <- max(x2[,1])-min(x2[,1]) > Norm4 <- max(x2[,2])-min(x2[,2]) > Norm3 [1] 20 > Norm4 [1] 25 > xx2 <- cbind(x2[,1]/Norm3,x2[,2]/Norm4) > xx2 [,1] [,2] [1,] 9 3 [2,] 8 2 120 > daisy(xx,metric="manhattan")daisy(xx,metric="manhattan") Dissimilarities : 1 22 Metric : manhattan Number of objects : 2 Es ergeben sich, aufgrund derselben normierten Datenmatrix, jeweils dieselben Distanzindizes. 121 Die berechneten Diﬀerenzen sind für jedes Merkmal im Bereich [0, 1]. also kann es vorkommen, daß die Summe dieser Diﬀerenzen größer als Eins ist. 122 > xxx1 <- data.frame(xx[,1]) > xxx2 <- data.frame(xx[,2]) > Distanz1 <- daisy(xxx1,metric="manhattan") > Distanz2 <- daisy(xxx2,metric="manhattan") > Distanz1 Dissimilarities : 1 21 Metric : manhattan Number of objects : 2 > Distanz2 Dissimilarities : 1 21 Metric : manhattan Number of objects : 2 > Distanz.gesamt <- (1/3)*as.matrix(Distanz1)+(2/3)*as.matrix(Distanz2) > Distanz.gesamt 12 101 210 Die errechnete Distanz zwischen den Objekten ’1’ und ’2’ ist gleich Eins. 123 In vorliegendem Fall ergibt sich dasselbe Ergebnis wie unter 4j, da die Manhattan-Distanzen beider Merkmale jeweils gleich Eins sind. 124 > daisy(x,metric="gower") Dissimilarities : 1 21 Metric : mixed ; Types = I, I Number of objects : 2 Es ergibt sich dasselbe Ergebnis, wie unter 4k, denn die Schritte sind völlig identisch. 125 Ja, denn keine Überdeckung ist eine echte Teilmenge eines Clusters. 126 Entscheidend ist die Problemstellung. Sollen beispielsweise drei Verkaufsregionen bestimmt werden, weil drei geeignete Regionalleiter zur Verfügung stehen, so ist die Klassenanzahl durch die Problemstellung vorgegeben. Sollen die Verkaufsregionen im Hinblick auf bestimmte Merkmale ziemlich ähnlich gebildet werden, so wäre die Klassenanzahl innerhalb

344

LÖSUNGEN

des Klassiﬁkationsverfahrens zu bestimmen und die Anzahl der Verkaufsleiter würde sich hierüber ergeben, wäre ökonomisch gesehen die endogene Größe. 127 Distanzen werden zwischen je zwei Objekten errechnet. Niedergelegt in einer Distanzmatrix erhält man eine (10 × 10)-Matrix. Deren Hauptelemente sind gleich Null und sie ist symmetrisch. Aus diesem Grund gibt es (10 ∗ 10 − 10)/2 = 45 unterschiedliche Distanzindizes. 128 Die durchschnittliche Beratungszeit des ersten Kunden beträgt 1.637554 und die des Kunden mit Nummer 350 beträgt 303.279180 Minuten. 129 199.1725 Minuten 130 Kardinale Merkmale, es ist sowohl ein intervallskaliertes als auch eine verhältnisskaliertes Merkmal. 131 1. Alternative: Es könnten alle drei Merkmale zur Bildung einer Distanzmatrix herangezogen werden. 2. Alternative: Allerdings gibt es zwischen den Merkmalen ökonomisch sinnvolle Beziehungen. Die durchschnittliche Beratungszeit pro Kunde stellt Aufwand dar, der von dem Umsatz eines Kunden abgezogen werden könnte. Diese Möglichkeit verbietet sich in dieser Form, da beide Variablen unterschiedliche Dimensionen besitzen. Es wäre sinnvoll, den Aufwand mit einem kalkulatorischen Preis pro Minute zu multiplizieren und diese von dem Umsatz abzuziehen. Eine Partitionierung nach diesem (eindimensionalen) Merkmal würde die Kunden (unter Außerachtlassung sonstigen Aufwandes) gemäß des kalkulatorischen Gewinns in Klassen einteilen. 132 Die maximalen Beratungskosten betragen 192.0678. Der maximale kalkulatorische Gewinn beträgt in Euro 3109.526 und der minimale 649.0188. 133 Nutze zuerst ’daisy’ und wende dann den Befehl ’pam’ mit zweien und anschließend mit drei Clustern an. 134 Die durchschnittliche Silhouettenweite über alle Objekte hinweg beträgt bei zwei Partitionen gleich 0,55 und bei dreien 0,49, wobei zudem die Silhouettenweite einiger Personen negativ sind. Deshalb wird eine Einteilung in zwei Cluster vorgeschlagen. 135 Es gibt zwei Möglichkeiten, zwei Geraden so einzuzeichnen, daß die Gerade genau durch zwei Beobachtungspunkte verläuft und die Summe der Abstände zwischen allen Beobachtungspunkten und Geraden gleich Null sind. 136 Man zeichne wiederum vier Punkte so in ein Diagramm, daß je zwei denselben x-Wert haben. Das Minimum der aufsummierten und in den Betrag gesetzten Diﬀerenzen muß gleich dem Absolutwert der Diﬀerenz der ersten zwei Beobachtungen mit demselben x-Wert plus dem Absolutwert der Diﬀerenz der anderen zwei Beobachtungen mit identischem x-Wert sein. Man erkennt leicht, daß es mehrere Lösungen gibt. 137 Stelle Normalgleichung 12.8 um, dies führt zum Ergebnis. 138 Vergleiche die erste Normalgleichung. 139 Zeichne eine Regressionsgerade in ein Streudiagramm, bei dem alle Beobachtungen auf einer Geraden liegen. Zeichne waagerechte Linien durch alle Beobachtungen und alle geschätzten Werte yˆ. Es zeigt sich, daß y = yˆ, woraus die Behauptung folgt. 140 Der Schätzer ˆ b gibt die Steigung der Schätzgeraden an. Ändern sich die Variablen xt und yt gleichgerichtet, so ist die Steigung positiv und auch die Kovarianz ist positiv. Ist die Kovarianz zwischen xt und yt negativ, so steigt tendenziell xt , wenn yt sinkt, und umgekehrt: die Steigung der Schätzgeraden ist dann negativ. Sofern die Varianz V ar(x) sehr klein ist, so muß bei gegebenen Werten yt die Steigung der Schätzgeraden größer sein, als bei kleiner Varianz V ar(x). Dies schlägt sich in dem Schätzer 12.12 nieder, da hier die Varianz als Argument eingeht. Eine kleine Varianz führt zu höheren Werten von ˆ b als eine große. 141 Es kann sein, daß die Streuung des Störterms u so groß ist, daß sich dies in einem geringem t R2 niederschlägt. Dieser Einﬂuß wird bei statistischen Hypothesentests über die KQ-Schätzer berücksichtigt. Sollte dies tatsächlich der relevante Eﬀekt sein, so sollten sich die KQ-Schätzer als signiﬁkant von Null erweisen. 142 Bei zwei Beobachtungen geht die Regressionsgerade durch beide Punkte, weshalb die Varianz der Störterme gleich Null sein muß. Folglich ist das Bestimmtheitsmaß gleich Eins. Kommt eine weitere Beobachtung hinzu, so bleibt das Bestimmtheitsmaß entweder unverändert oder es sinkt. Liegt die zusätzliche Beobachtung genau auf der zuvor geschätzten Geraden, so ist R2 weiterhin gleich Eins. Ansonsten muß es sinken, da es Störterme ut > 0 gibt.

LÖSUNGEN 143

ˆb − b =

T

345

xt ut − ut 2 xt 2 T

xt −(

=

xt )

T(

=

T

(xt −¯ x)ut )

T 2 x2 −T 2 (¯ x)2 t

xt ut −T T

=

(

x2 −( t

ut (1/T ) 2

(xt −¯ x)ut )

T (x2 −(¯ x)2 ) t

xt )

=

(

xt

=

T( T

x ut ) xt2ut −¯ 2 xt −(

xt )

(C.1) (xt −¯ x)ut )

T s2 (x)

.

144 Die Aufstellung der Schätzfunktion ist zwar mitentscheidend für das Ergebnis, doch der Zusammenhang kann nicht im Sinne einer Ursache-Wirkungsrichtung interpretiert werden. Selbst wenn die KQ-Schätzer signiﬁkant von Null verschieden sind, handelt es sich nicht um einen Kausalitätstest. 145 Das Bestimmtheitsmaß R2 verringert sich, da die Varianz der Störterme zunimmt und ist zuletzt nahe Null. Dennoch sind die KQ-Koeﬃzienten signiﬁkant von Null verschieden. 146 Die Multiplikation der erklärenden Größe mit einer Konstanten hat keinen Einﬂuß auf die KQ-Residuen. 147 Die Summe der Residuen muß gleich Null ergeben. Ist dies nicht der Fall, so muß ein Rechenfehler vorliegen. 148 Es zeigt sich, daß das Absolutglied nicht signiﬁkant ist. Hinweis: Sofern die Beobachtungen eine eng zusammenligende Punktwolke darstellt und je weiter sie vom Ursprung entfernt ist, desto unsicherer ist die Schätzung des Absolutgliedes ˆ a. In Anwendungen ist dies häuﬁg der Fall. 149 Das Absolutglied wird als erklärende Variable mitgerechnet, erscheint aber nicht bei der Aufzählung x1 , x2 , . . . , xn . 150 Ist der Stichprobenumfang bei der Binomialverteilung gleich 1, und werden als mögliche Ausprägungen nur x ∈ {0, 1} zugelassen, so erhält man die Bernoulli-Verteilung.

Glossar Bestimmtheitsmaß R2

Ceteris paribus

Gini Korrelation

Kritischer Wert

Dies gibt den Anteil der erklärten Varianz einer Regression an der Varianz der zu erklärenden Variable wider, 260 ’Alles andere bleibt gleich’; lateinische Redewendung, die in der Ökonomie häuﬁg verwendet wird, 259 Gini - Dies ist die Abkürzung für den Ginikoefﬁzient, der nicht normiert ist, 60 Die Korrelation ist ein Maß, mit dessen Hilfe der Zusammenhang zweier Zufallsvariablen überprüft werden kann. Sie hat dasselbe Vorzeichen wie die Kovarianz, mit deren Hilfe sie berechnet wird. Ist sie positiv und eine der beiden Varaibelen steigt, so steigt auch die andere; ist sie negativ und steigt eine Variable, dann sinkt die andere. Sind die betrachteten Zufallsvariablen stochastisch unabhängig, so ist die Kovarianz und damit auch die Korrelation gleich Null. Ist die Korrelation gleich Null, so müssen die beiden Zufallsvariablen allerdings nicht stochastisch unabhängig sein. Ist die Korrelation aber von Null verschieden, so liegt keine stochastische Unabhängigkeit vor. Diese Eigenschaft macht man sich bei den Tests auf Korrelation zu Nutze, 138 Bei einseitigen Tests teilt das Quantil den Deﬁnitionsbereich der Testgröße in einen Verwerfungsbereich und einen Annahmebereich. Da es nur einen Ablehnungsbereich gibt, heißen solche Tests einseitig. Bei zweiseitigen Tests werden zwei α2 -Quantile berechnet, ein unteres und ein oberes. Der Deﬁnitionsbereich der Testgröße wird in drei Bereiche aufgeteilt: einen Annahme und zwei äußere Verwerfungsbereiche, 77

R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

348 MONA N(0,1) PAM Standardisierung

Translation

Wahrscheinlichkeitsmasse

σX (x) (Ω F P ) Cov(X, Y ) E(X) FX (x) Gininormiert

H(x)

H0 H1 Mf P P (X x) QX

Glossar Monothetische Methode zur Bildung einer Hierarchie, 237 Normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz 1, 265 Polythetische Methode zur Bildung einer Partition, 215 Jede Zufallsvariable kann so umgerechnet werden, daß ihr Mittelwert 0 und ihre Varianz 1 beträgt. Diese Umrechnung heißt Standardisierung. Allerdings müßen Erwartungswert und Varianz bekannt sein, 132 Bei einer Addition aller Punkte mit einer Konstanten spricht man von Translation (Parallelverschiebung), 261 Damit wird die Wahrscheinlichkeit bezeichnet, die bei diskreten Zufallsvariablen auf einer Zufallsvariablen liegt. Man versteht darunter auch die Wahrscheinlichkeit, die über einem Intervall von Zufallsvariablen vorhanden ist. Die Fläche, die über einem Intervall stetiger Zufallsvariablen liegt bezeichnet man ebenfalls als Wahrscheinlichkeitsmasse. Da bei einer stetigen Zufallsvariablen die Fläche über einem Punkt gleich Null ist, ist dessen Eintrittswahrscheinlichkeit gleich Null, 76 Standardabweichung, 132 Wahrscheinlichkeitsraum, 111 Kovarianz, 132 Erwartungswert, 131 Verteilungsfunktion zur Zufallsvariablen X, 128 Normierter Gini - Dies ist die Abkürzung für den Ginikoeﬃzient, der normiert ist und nur Werte zwischen 0 und 1 annehmen kann, 62 Empirische Verteilungsfunktion - Sie gibt die kumulierten relativen Häuﬁgkeiten der Merkmalsausprägungen an, die gleich oder kleiner der betrachteten Merkmalsausprägung sind, 43 Nullhypothese, 74 Gegenhypothese, 74 höchster Rang der Variable f , 199 Wahrscheinlichkeit, 70 Wahrscheinlichkeit, daß die Zufallsvariable X kleiner oder gleich x ist, 128 Bildwahrscheinlichkeit, 127

Glossar QX S SC T Hij

V ar(x) #A #matches %∗% Ω α

x ¯ ∃ ∀ σ ˆ2

n k Cor(XX) X ˆ Cor(XX) rXX K Bn Ω A ρ θ |a| d(i j)

349 Wahrscheinlichkeitsverteilung der Zufallsvariablen X, 72 Gesamte Merkmalssumme - Diese Größe ist der erste Schritt zur Bildung der Lorenzkurve, 57 Silhouettenkoeﬃzient, 229 Theoretische Häuﬁgkeit - Dies ist die Häuﬁgkeit, die sich aufgrund einer Verteilungsannahme bei Geltung der Nullhypothese ergibt. , 92 korrigierte Stichprobenvarianz, 19 Anzahl der Elemente der Menge A, 111 Anzahl an Übereinstimmungen, 202 Befehl in zur Durchführung einer Matrizenmultiplikation, 158 Ergebnisraum, 107 Signiﬁkanzniveau, es gibt die Wahrscheinlichkeit an, die über dem Ablehnungsbereich liegt, 75 arithmetisches Mittel, 19 Existenzquantor, dieses Symbol soll bedeuten ’es existiert’, 180, 313 Allquantor, eine Kurzschreibweise, die bedeuten soll ’für alle’, 109 Korrigierte Stichprobenvarianz - Sie ist ein Streuungsmaß und wird genutzt, um die mit Daten einer einfachen Stichprobe die Streuung in der Grundgesamtheit erwartungstreu zu messen, 19 Binomialkoeﬃzient, 71 Korrelationsmatrix, 179 Transponierte der Matrix X, 304 Schätzer der Korrelationsmatrix, 171 Schätzer der Korrelationsmatrix für stetige, kardinale Merkmale, 171 Klassiﬁkation, 214 Borelkörper in n , 127 Komplementmenge von A bezüglich Ω, 108 Korrelation in der Wahrscheinlichkeitstheorie, 138 Parameterwert, 87 Betragszeichen, die Variable a wird zum Betrag genommen, 194 Distanz zwischen den statistischen Einheiten i und j, 191

350 fX (x) h(x) hi hi,j

k l

m n ni nij

r

s2

s2X s11 (x,y) z

Glossar Dichtefunktion zur Zufallsvaraiblen X an der Stelle x, 130 Relative Häuﬁgkeitsverteilung, 40 Relative Häuﬁgkeit der Merkmalsausprägung i, 40 Gemeinsame Verteilung - hij gibt die gemeinsame relative Häuﬁgkeit des Auftretens von Merkmalsausprägung i und j an, 53 Anzahl unterschiedlicher Beobachtungen, 37, 138 Er kann die Anzahl unterschiedlicher Merkmale angeben oder auch die Anzahl unterschiedlicher Ausprägungen. Die Verwendung ergibt sich aus dem Sinnzusammenhang, 138, 194, 202, 203, 244 Anzahl an Klassen, 214 bei Stichproben: Stichprobenumfang, 74 absolute Häuﬁgkeit, 37 Zellenbesetzung - Sie gibt die absolute Häuﬁgkeit an, mit der Kombinationen an Merkmalsausprägungen in einer Kontingenztabelle, 95 Empirische Korrelation - Mit ihr läßt sich der Zusammenhang zwischen zwei Zahlenreihen messen. Sie ist, wie die Korrelation in der Wahrscheinlichkeitstheorie (Cor(X, Y )) normiert und kann nur Werte zwischen [−1, +1] annehmen. Ansonsten gilt das gleiche, was dort gesagt wurde, wenn man stochastische durch statistische Unabhängigkeit ersetzt, 139 Empirische Varianz - Sie ist ein Streuungsmaß und wird bei Totalerhebungen oder zur Beschreibung der Streuung in einer Stichprobe benutzt, 19, 42, 264 empirische Varianz zur Variablen X, 38 empirische Kovarianz, 139 Zinssatz, 193

Literaturverzeichnis Günter Bamberg und Franz Baur. Statistik (München, Wien: R. Oldenbourg Verlag) (1984). D.J. Best und D.E. Roberts. Algorithm AS 89: The Upper Tail Probabilities of Spearman’s rho. In Applied Statistics, Band 24:377–379 (1975). Statistisches Bundesamt. Genesis-Online. https://www-genesis.destatis.de.

online

(2008).

URL

Dubravko Dolic. Statistik mit R, Einführung für Wirtschafts- und Sozialwissenschafter (München, Wien: R. Oldenbourg Verlag) (2004). Kurt Endl und Wolfgang Luh. Analysis I, Eine integrierte Darstellung (Wiesbaden: Akademische Verlagsgesellschaft), 6. Auflage (1980). ISBN 3-400-001856. JC Gower. A general coeﬃcient of similarity and some of its properties. In Biometrics, Band 27:857–871 (1971). Joachim Hartung und Bärbel Elpelt. Multivariate Statistik (München: Oldenbourg Verlag) (1984). Myles Hollander und Douglas A. Wolfe. Nonparametric Statistical Methods (New York: John Wiley and Sons, Inc.) (1999). Leonard Kaufmann und Peter Rousseeuw. Finding Groups in Data An Introduction to Cluster Analyses (New York, Chichester, Brisbane, Toronto, Singapore: John Wiley and Sons, Inc.) (1990). Josef Schira. Statistische Methoden der VWL und BWL : Theorie und Praxis (München: Pearson Studium) (2005). ISBN 3-8273-7163-5. Hans Schneeweiß. Ökonometrie (Würzburg-Wien: Physica-Verlag), 3. durchgesehene Auflage (1978). Peter von der Lippe. Auflage (1996).

Wirtschaftsstatistik (Stuttgart: Lucius & Lucius), 5.

Karlheinz Zwerenz. Datenanalyse mit Excel und SPSS (München, Wien: Oldenbourg Verlag) (2006). R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

Stichwortverzeichnis σ-Additivität, 111 σ-Ring, 109 Ähnlichkeit von Objekten Deﬁnition, 241 Überdeckung Deﬁnition, 215 Konstruktion, 233 Abhängigkeit lineare, 313 Ablehnungsbereich, 75 Aﬃnitätsindex, 204 Alternativenvergleich, 88 Ancienitätsprinzip, 18, 253 Anführungszeichen typographische, vi, 333 Ankunftsrate mittlere, 285 Annahmebereich, 75 Anpassungstest, 97 Arbeitsspeicher löschen, 322 Arbeitsverzeichnis anlegen oder wechseln, 323 Assoziationsmaß Interpretation, 241 attach, 326 Aufgaben, 2 Ausreißer, 21 Balkendiagramm, 39 bar chart, 39 bar plot, 39 Basis, 313 Bayes Schätzunktionen, 120 Befehlsdatei, 322

Befehlsfenster, v, 321 Beispiele, 2 Bereich kritischer, 75 Bestimmtheitsmaß, 259 Interpretation, 260 Invarianz gegenüber Maßstabsänderungen, 261 Invarianz gegenüber Translationen, 261 Bias, 19, 44 Bildwahrscheinlichkeit, 127 Bindungen, 148 Binomialkoeﬃzient, 72 Bittorrent, 3 Bundesamt Statistisches Online-Angebot, 30 Centrotype, 216 ceteris paribus, 259 City-Block-Metrik, 194 Cluster, 189 L∗ -Cluster, 224 L-Cluster, 224 Clusteranalyse, 22, 189, 211 Coeﬃcient simple matching coeﬃcient, 204 Daten Überprüfung auf Konsistenz, 18 abspeichern, 325 einlesen, 5, 325 herunterladen, 4 Internetadresse, 4 online beziehen, 4 permanent machen, 38

R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009

354 quälen, 8 temporäre, 38 Daten aus dem Internet einlesen, 324 Daten aus einer *.csv-Datei einlesen, 324 Datenanalyse explorative, 165 Dateneigenschaften, 325 Dateneingabe Eingabe als Matrix, 32 Datenmatrix, 189 Datensätze umkehren, 326 Datensatz, 189 Deduktion, 8 Deskriptive Statistik, 5 detach, 326 Determinante, 171 Diameter, 225 Dichte Deﬁnition, 130 Dichtefunktion, 126 Deﬁnition, 130 Diskriminanzanalyse, 22 Diskriminierung, 80 Distanz City-Block, 194 City-Block-Distanz, 194 invariantes, 204 Jaccard, 205 Manhattan, 194 weitere Maßzahlen, 245 Distanzmatrix, 189 Eigenvektor, 319 Eigenwert, 319 Ein-Stichprobenfall, 87 Einheit statistische, 8, 61, 111, 189 Einstichprobenfall Problem, 88 Elementarereignis, 112 Ereignisraum, 111 Ereignisse, 111 Ergebnisraum, 107 Ergebnisse, 107

STICHWORTVERZEICHNIS des Wahrscheinlichkeitsraumes, 111 Erhebungsplan, 24, 72 Erzeugendensystem, 313 Exzentrizität maximale, 171 Fakultät, 71 Fehler 2. Art, 82 Fehler 1. Art, 79 Fehlermeldungen mögliche Ursachen, vi Umgang mit, 332 Finden in , 329 Fisher z-Transformation, 162 Fragebogen, 7 Geradengleichung Parameter der, 250 Gini-Koeﬃzient, 60 normiert, 62 Gleichverteilung stetige, 287 Graphik abspeichern, 328 Formate, 328 Grundgesamtheit, 8 Häuﬁgkeit relative, 40 Häuﬁgkeitsdichte durchschnittliche, 51 Häuﬁgkeitsverteilung relative gemeinsame, 55 Handbücher in Linux, 329 Handbücher in Windows, 332 Hauptdiagonale, 305 Hauptdiagonalelemente, 305 Hierarchie, 238 Deﬁnition, 215 Histogramm, 50–52 absolute Klassenhäuﬁgkeit, 50 Homogenitätstest, 100 Hotelling-Pabst-Statistik, 149

STICHWORTVERZEICHNIS Erläuterung, 137 Hypothese, 7 KQ-Methode, 255 Hypothesen Interessenlage und Aufstellung von, Längsschnittanalyse, 31 80 Lag, 327 Lags, 321 Identität, 31 last, 327 Induktion, 8 Legende, 34 Inverse, 316 LimeSurvey, 10 K-Statistik Internetadresse, 10 Kendallsche, 151 Linearkombination, 313 Kendalls τ , 151 Lorenz-Kurve, 57 Klassen M-Koeﬃzient, 204 äquidistante, 52 matplot, 34 Klassenbildung Matrix diversiv, 238 Datenmatrix, 189 Klassiﬁkationstyp, 214 Distanzmatrix, 189 Klassiﬁzierung Einheitsmatrix, 305 automatische, 211 Inverse, 316 Kleinst-Quadrat-Schätzfunktionen, 264 Invertierbar, 316 Koeﬃzient obere Dreiecksmatrix, 305 M-Koeﬃzient, 204 quadratische, 305 Chi-Quadrat-, 93 Rang einer Matrix, 313 Ungleichheiheits-, 190 reguläre, 313 Konﬁdenzintervall, 126, 147 Spalten, 304 Konsistenz, 19 transponierte, 304 Konsole, v, 321 untere Dreiecksmatrix, 305 Konstruktionsverfahren Zeilen, 304 Unterschied zwischen Hierarchiebildung und Partitionierung, Meßbarkeit, 125 Deﬁnition, 126 215 Median, 45 Kontingenz Medoid, 216 quadratische, 93 Deﬁnition, 216 Kontingenztabelle, 53, 125 merge, 329 bei Zufallsvariablen, 128 Merkmal Kontrollvariable, 88 binäres, 203 Kontrollvariablen, 25 diskretes, 279 Korrelation intervallskaliert, 192 Deﬁnition, 138 kardinal, 22 kanonische, 182 kardinales multiple, 179 invervallskaliertes, 22 Korrelationskoeﬃzient verhältsnisskaliertes, 22 Bravais-Pearson, 140 nominales, 21 Kendall, 151 nominales in , 325 Korrelationstabelle, 53 Kovarianz, 132 ordinal, 21

355

356 stetiges, 279 verhältnisskaliert, 192 Merkmale gemeinsam erhobene, 30 Metaebene, 97 Methode KQ-Methode, 6 Missings, 13 Mitgliedschaftsexponent, 231 Mitgliedschaftskoeﬃzient, 230 Mittel arithmetisches bei Rohdaten, 19 bei absoluten Häuﬁgkeiten arithmetisches, 37 bei relativen Häuﬁgkeiten arithmetisches, 42 Mittelwertvergleich zweier normalverteilter Zufallsvariablen, 90 Modell vollständiges, 264 monothetisch, 244 Moodle, 10 Internetadresse, 10 ndays, 327 Nennerfreiheitsgrade, 181 Next, 327 nmonths, 327 Normalgleichungen, 251 Normalverteilung Standardnormalverteilung, 291 nquarters, 327 Objekt Nachbar eines Objektes, 227 repräsentatives, 216 Objekte interessierende, 8 siehe auch Grundgesamtheit, 8 Objektebene, 97 Online-Befragung Software, 10 Onlineangebot des Verlages, 4 OpenOﬃce

STICHWORTVERZEICHNIS Internetadresse, 2 ordered, 200 p-value graphische Veranschaulichung, 146 Pakete installieren unter Linux, 323 Pakete einlesen auf dem Rechner existierende, 323 Pakete installieren in Windows, 332 Panelstudie, 32 Parameter Vektor regressionsähnlicher, 182 Partition Deﬁnition, 214 kompromißlose, 232 Vergleich PAM und FANNY, 232 Partitions-Koeﬃzient, 237 normiert, 237 Permutation, 71, 113 Personen interessierende, 8 siehe auch Grundgesamtheit, 8 Plausibilität, 13 Überprüfung auf statistische, 23 Plausibilitätsprüfung, 17 polythetisch, 244 Preisdiskriminierung, 101 dritten Grades, 212 Primärdaten, 9 Probleme bei Befehlsdatei, 322 Prognose, 258 Punktprognose, 249 Programmpaket, 331 Punktmasse, 120 Punktschätzung, 69 Punktwahrscheinlichkeit, 120 Quantil, 45 Mehrdeutigkeit, 46, 48, 50 Quantile und Verteilungsfunktion, 48 Quartil

STICHWORTVERZEICHNIS oberes, 45 unteres, 45 Quasihierarchie Deﬁnition, 215 Querschnittsanalyse, 31, 254 R Internetadresse, 3 Randverteilung, 55 relative, 55 Zufallsvariablen, 128 Randverteilungsfunktion, 129 Rangkorrelationskoeﬃzient, 148 Rdata-Format, 325 Realisierungen, 280 Regressanden, 250 Regression einfache, 250 multiple, 269 von Yt auf Xt , 250 Regressionsfunktion, 255 Regressionsgerade, 253 Regressionskoeﬃzienten, 250 Regressionsmodell einfaches klassisches, 251 Regressoren, 250 Residuen, 251 rm, 322 Rohdaten, 19, 29, 189 Beispieldatensatz, 15 scan, 39 Scatterplot, 141 Sekundärdaten, 9 Selbstselektion, 82 Selbstzensur, 82 Separation, 225 Shell, v, 321 Sicherheitswahrscheinlichkeit, 75, 126 Signﬁkant von Null verschieden alternative Redewendung, 187 Signiﬁkanzniveau, 75 Einﬂuß auf Testergebnis, 81 Silhouette, 227 Silhouettenweite, 227 Skalenniveau, 93

357 Skalierung Bedeutung von Fragestellung und Interpretation, 202 Sprungstelle der Verteilungsfunktion, 129 Störterm, 250 Stabdiagramm, 42 Standardisierung, 126 Statistik beschreibende, 30 deskriptive, 5, 30 induktive, 126 multivariate, 19 schließende, 9, 30, 126 univariat, 19 Statistiklabor Internetadresse, 3 Stetigkeit der Verteilungsfunktion, 43 Stichprobe Einstichprobenfall, 87 Stichprobenkovarianz korrigierte, 182 Stichprobenvarianz korrigierte, 19 Streudiagramm, 141 Streuung gemischte, 132 Streuungsmaß, 38 Streuungszerlegungsformel, 260 Stromgröße, 88 Suchen in , 329 Tautologie, 31 Taxonomie numerische, 211 Teilerhebung, 8 Test linksseitiger, 77 oberseitiger, 79 rechtsseitiger, 79 unterseitiger, 77 verteilungsfreier, 90 Vorzeichentest nach Fisher, 89 zweiseitiger, 76

358 Testgröße, 74 Tests Statistische Kern, 82 Trägerpunkte, 120 Translation, 261 Trendstudie, 32 Unähnlichkeitsmaß siehe Distanz, 204 Unabhängigkeit lineare, 313 statistische, 57, 99 und bedingte Häuﬁgkeit, 57 stochastische, 116, 132 union, 329 Untersuchungseinheit, 8, 111 Urliste, 19 Validität, 18 Variable latente, 259 Variablen erklärenden, 250 zu erklärenden, 250 Varianz empirische, 43 Grundgesamtheit empirische, 19 Stichprobe empirische, 19 Varianzzerlegungsformel, 260 Vektor Einsvektor, 306 j-ter Einheitsvektor, 306 Nullvektor, 306 Verteilung bedingte, 56 Bernoulli, 89, 107 Bernoulli-Verteilung, 279 gemeinsame, 53 Gleichverteilung, 279 hypergeometrischen, 279 Standardabweichung, 132 Standardnormalverteilung, 294 Verteilungsfunktion, 126

STICHWORTVERZEICHNIS diskrete Deﬁnition, 129 empirische, 43 Normalverteilung, 280 Poisson-Verteilung, 279 stetige Deﬁnition, 130 Verzerrung systematische, 19, 44 Vollerhebung, 8 Vorhersagekriterium Vektor des besten, 182 Wahrscheinlichkeit bedingte, 116 diskrete, 120 Wahrscheinlichkeitsraum, 111 diskreter, 120, 126 Grundgesamtheit des, 111 Laplacescher, 112 stetiger, 126 Wahrscheinlichkeitstheorie, 108 Wahrscheinlichkeitsverteilung, 127, 130 diskrete, 127 stetige Deﬁnition, 130 Wahrscheinlickeitsmassefunktion, 130 Werbewirkungsanalyse, 87 Wert kritischer, 77 Werte fehlende, 13 nicht-fehlende, 199 Windows Besonderheiten in Windows, 332 Wirkungsanalyse, 87 Änderung der Organisation, 87 Umsatzsteigerung, 87 Werbung, 87 Zählerfreiheitsgrade, 181 Zeitreihen zusammenfassen, 329 Zufallsvariable, 125, 280 diskrete, 127 eindimensionale

STICHWORTVERZEICHNIS Deﬁnition, 127 standardnormalverteilte, 294 stetige Deﬁnition, 130 Wahrscheinlichkeitsverteilung, 127

359

Angewandte Statistik mit R: Eine Einfuhrung fur Okonomen und Sozialwissenschaftler

Angewandte Statistik. Methodensammlung mit R

Angewandte Statistik mit R: Eine Einführung für Ökonomen und Sozialwissenschaftler, 2. Auflage

Grundlegende Statistik mit R. Eine anwendungsorientierte Einfuhrung in die Verwendung der Statistik Software R

Einfuhrung in die nichtparametrische Statistik mit SAS und R

Induktive Statistik eine Einführung mit R und SPSS

Mehrebenenanalyse: Eine Einfuhrung fur Forschung und Praxis

Quantitative Methoden 2. Einfuhrung in die Statistik fur Psychologen und Sozialwissenschaftler - 3. Auflage

Statistik: fur Human- und Sozialwissenschaftler, 6. Auflage (Springer-Lehrbuch)

Produktionswirtschaft: Eine Einfuhrung fur Wirtschaftsingenieure

Statistik für Bachelor- und Masterstudenten: Eine Einführung für Wirtschafts- und Sozialwissenschaftler (Statistik und ihre Anwendungen)

Grundlegende Statistik mit R: Eine anwendungsorientierte Einführung in die Verwendung der Statistik Software R

Mathematik fur Okonomen

Wahrscheinlichkeitsrechnung und Statistik mit MATLAB

Stochastik: Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik

Deskriptive Statistik: Eine Einführung in Methoden und Anwendungen mit R und SPSS (Springer-Lehrbuch) (German Edition)

Organische Chemie: Eine Einfuhrung fur Lehramts- und Nebenfachstudenten, 3. Auflage

Religions- und Weltanschauungsrecht: Eine Einfuhrung

Grundkurs Datenbankentwurf: Eine beispielorientierte Einfuhrung fur Studenten und Praktiker

Physik. Eine Einfuhrung fur Ingenieure 4. Auflage

Diskursforschung: Eine Einfuhrung fur SozialwissenschaftlerInnen. 4. Auflage

Physik fur Mediziner: Eine Einfuhrung 12. Auflage

Automobilelektronik - Eine Einfuhrung fur Ingenieure 3. Auflage

Statistik für Ökonomen: Datenanalyse mit R und SPSS (Springer-Lehrbuch)

Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS

Informatik kompakt: Eine grundlegende Einfuhrung mit Java

Grundkurs Geschaftsprozess-Management: Methoden und Werkzeuge fur die IT-Praxis: Eine Einfuhrung fur Studenten und Praktiker. Mit Online-Service

Angewandte Statistik mit SPSS: Praktische Einführung für Wirtschaftswissenschaftler

Grundlagen der Datenanalyse mit R: Eine anwendungsorientierte Einführung (Statistik und ihre Anwendungen)

Induktive Statistik: Eine Einführung mit R und SPSS (Springer-Lehrbuch) German

Statistik für Human- und Sozialwissenschaftler 7. Auflage (Springer-Lehrbuch)

Angewandte Statistik mit R: Eine Einfuhrung fur Okonomen und Sozialwissenschaftler

Angewandte Statistik. Methodensammlung mit R

Angewandte Statistik mit R: Eine Einführung für Ökonomen und Sozialwissenschaftler, 2. Auflage

Grundlegende Statistik mit R. Eine anwendungsorientierte Einfuhrung in die Verwendung der Statistik Software R

Einfuhrung in die nichtparametrische Statistik mit SAS und R

Induktive Statistik eine Einführung mit R und SPSS

Mehrebenenanalyse: Eine Einfuhrung fur Forschung und Praxis

Quantitative Methoden 2. Einfuhrung in die Statistik fur Psychologen und Sozialwissenschaftler - 3. Auflage

Statistik: fur Human- und Sozialwissenschaftler, 6. Auflage (Springer-Lehrbuch)

Produktionswirtschaft: Eine Einfuhrung fur Wirtschaftsingenieure

Statistik für Bachelor- und Masterstudenten: Eine Einführung für Wirtschafts- und Sozialwissenschaftler (Statistik und ihre Anwendungen)

Grundlegende Statistik mit R: Eine anwendungsorientierte Einführung in die Verwendung der Statistik Software R

Mathematik fur Okonomen

Wahrscheinlichkeitsrechnung und Statistik mit MATLAB

Stochastik: Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik

Deskriptive Statistik: Eine Einführung in Methoden und Anwendungen mit R und SPSS (Springer-Lehrbuch) (German Edition)

Organische Chemie: Eine Einfuhrung fur Lehramts- und Nebenfachstudenten, 3. Auflage

Religions- und Weltanschauungsrecht: Eine Einfuhrung

Grundkurs Datenbankentwurf: Eine beispielorientierte Einfuhrung fur Studenten und Praktiker

Physik. Eine Einfuhrung fur Ingenieure 4. Auflage

Diskursforschung: Eine Einfuhrung fur SozialwissenschaftlerInnen. 4. Auflage

Physik fur Mediziner: Eine Einfuhrung 12. Auflage

Automobilelektronik - Eine Einfuhrung fur Ingenieure 3. Auflage

Statistik für Ökonomen: Datenanalyse mit R und SPSS (Springer-Lehrbuch)

Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS

Informatik kompakt: Eine grundlegende Einfuhrung mit Java

Grundkurs Geschaftsprozess-Management: Methoden und Werkzeuge fur die IT-Praxis: Eine Einfuhrung fur Studenten und Praktiker. Mit Online-Service

Angewandte Statistik mit SPSS: Praktische Einführung für Wirtschaftswissenschaftler

Grundlagen der Datenanalyse mit R: Eine anwendungsorientierte Einführung (Statistik und ihre Anwendungen)

Induktive Statistik: Eine Einführung mit R und SPSS (Springer-Lehrbuch) German

Statistik für Human- und Sozialwissenschaftler 7. Auflage (Springer-Lehrbuch)

Recommend Documents